專利名稱:一種語音處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,特別涉及一種語音處理方法及裝置。
背景技術(shù):
隨著通信領(lǐng)域的飛速發(fā)展,目前,語音識別技術(shù)已經(jīng)能夠使人機之間進行交互,通過系統(tǒng)對用戶進行語音識別,來實現(xiàn)人機交互。而語音識別的原理具體如下如圖1所示,S10,獲得語音信息。S11,對語音信息進行預(yù)處理,如分幀、預(yù)加重、加窗等。S12,在預(yù)處理之后,提取特征參數(shù)。該特征參數(shù)是用來表征語音信息的特征參數(shù)。S13,將該特征參數(shù)帶入在語音庫存儲的語音模型中進行搜索,輸出與該特征參數(shù)最匹配的結(jié)果。在上述步驟中,使用了語音模型,語音模型是表示詞匯的基于統(tǒng)計方法得到的模型,由多個語音特征參數(shù)樣本經(jīng)過訓練得來的。而語音模型中的詞匯是普通詞匯,并且是基于標準的口音發(fā)音而形成的模型,因此,對于一些具體用戶來說并不適用,比如某一個用戶具有地方口音,或發(fā)音音調(diào)與語音模型中不同,則當用戶輸出一語音信息,即使是語音模型中已有的詞匯,系統(tǒng)也很難識別。而為了解決這一問題,現(xiàn)有技術(shù)采用了下面的技術(shù)方案用戶在需要進行人機交互時,向系統(tǒng)輸入語音信息,系統(tǒng)會根據(jù)用戶輸入的語音信息,輸出相應(yīng)的文本在一文本框內(nèi),以便用戶修改,并根據(jù)用戶對文本的修改情況,綜合用戶輸入的語音信息,來進行人機交互,以此解決了上述當用戶具有地方口音,或發(fā)音音調(diào)與語音模型中不同,或者用戶輸入的詞匯語音模型中并不存在時,系統(tǒng)無法識別的技術(shù)問題。而進一步的,系統(tǒng)還會根據(jù)判斷結(jié)果,向系統(tǒng)添加新詞匯、新發(fā)音,然后根據(jù)這些新詞匯以及新發(fā)音來調(diào)整語言模型。而本申請人在實現(xiàn)本申請的過程中發(fā)現(xiàn),使用上述方法時,系統(tǒng)會依賴于用戶修改的輸出文本進行語音識別操作,進而導致識別過程復(fù)雜,效率低,以及耗時長的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明提供一種語音處理方法及裝置,用以解決現(xiàn)有技術(shù)中存在的系統(tǒng)會依賴于用戶修改的輸出文本進行語音識別操作,進而導致識別過程復(fù)雜,效率低,以及耗時長的技術(shù)問題。一方面,本發(fā)明通過本申請的一個實施例,提供如下技術(shù)方案
一種語音處理方法,所述方法包括接收第一語音信息;使用聲紋識別模型對所述第一語音信息進行聲紋識別,判斷是否具有輸出所述第一語音信息的聲紋源的記錄;若有所述記錄,在所述聲紋源對應(yīng)的聲紋庫中搜索是否具有所述第一語音信息;若在所述聲紋庫中具有所述第一語音信息,輸出與所述第一語音信息對應(yīng)的第一語音結(jié)果;若在聲紋庫中沒有所述第一語音信息,在基本語音庫中搜索所述第一語音信息。另一方面,本發(fā)明通過本申請的另一實施例提供一種語音處理裝置,包括接收單元,用于接收第一語音信息;第一判斷單元,用于使用聲紋識別模型對所述第一語音信息進行聲紋識別,判斷是否具有輸出所述第一語音信息的聲紋源的記錄;第一搜索單元,用于若有所述記錄,在所述聲紋源對應(yīng)的聲紋庫中在聲紋庫中搜索是否具有所述第一語音信息;第一輸出單元,用于若在所述聲紋庫中具有所述第一語音信息,輸出與所述第一語音信息對應(yīng)的第一語音結(jié)果;第二搜索單兀,用于若在聲紋庫中沒有所述第一語音信息,在基本語音庫中搜索所述第一語音信息。上述技術(shù)方案中的一個或多個技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點在本申請中,首先通過使用在系統(tǒng)中建立的聲紋識別模型對獲得的第一語音信息進行聲紋識別。當識別正確時,則能夠說明該用戶在系統(tǒng)中有記錄,即在系統(tǒng)中建立了該用戶專屬的聲紋庫。當具有聲紋庫時,首先會在為該用戶建立的專屬的暫存區(qū)中搜索是否存在該第一語音信息。當不存在暫存區(qū)時,則去聲紋庫中搜索。此時,當?shù)谝徽Z音信息的內(nèi)容已經(jīng)存儲于聲紋庫中時,則輸出對應(yīng)的語音結(jié)果。使用該方法進行語音識別操作,并沒有依賴于用戶修改的輸出文本,僅使用了語音進行處理,因此處理過程簡單,效率高,相較于基于修改的輸出文本來說,還具有耗時低的特點。進一步的,在聲紋庫中不能夠搜索的第一語音信息時,由于還可以轉(zhuǎn)到基本語音庫中進行搜索,所以具有保證該第一語音信息的識別準確率的技術(shù)效果。進一步的,由于在系統(tǒng)中沒有記錄的聲紋源,在使用了該系統(tǒng)進行第一語音信息的識別之后,還能夠建立其專屬的聲紋庫,所以,在以后的使用中,通過不斷的識別,記錄更新等過程,能夠?qū)崿F(xiàn)不斷地提高針對該用戶的第一語音信息的準確識別率的技術(shù)效果。進一步的,在系統(tǒng)的暫存區(qū)中搜索該第一語音信息時,在識別的過程中,會經(jīng)過識另IJ,判斷,記錄,更新等一系列操作,不斷地刷新暫存區(qū)中的第一語音信息的記錄,所以,具有提高對第一語音信息的識別率的技術(shù)效果。
圖1為背景技術(shù)中語音識別的原理的流程圖;圖2為本申請實施例中系統(tǒng)中的語音庫的示意圖;圖3為本申請實施例中語音處理方法的流程圖;圖4為本申請實施例中整體的流程圖;圖5為本申請實施例中語音處理裝置的示意圖。
具體實施例方式為了解決現(xiàn)有技術(shù)中存在的系統(tǒng)會依賴于用戶修改的輸出文本進行語音識別操作,進而導致識別過程復(fù)雜,效率低,以及耗時長的技術(shù)問題,本發(fā)明實施例提出了一種語音處理方法及裝置,其解決方案總體思路如下在本申請中,為了解決上述技術(shù)問題,提供了一種語音處理方法,該方法首先使用聲紋識別模型對第一語音信息進行聲紋識別,判斷是否具有輸出第一語音信息的聲紋源的記錄。接著,若有記錄,在聲紋源對應(yīng)的聲紋庫中搜索是否具有第一語音信息。進一步的,若在聲紋庫中具有第一語音信息,輸出與第一語音信息對應(yīng)的第一語音結(jié)果。若在聲紋庫中沒有第一語音信息,在基本語音庫中搜索第一語音信息。而聲紋庫則是用戶專屬的聲紋庫,記錄了用戶特有的語音習慣,比如,用戶的口音,以及用戶發(fā)出語音時,語音的音調(diào)等,使用用戶專屬的聲紋庫進行搜索,則避免了用戶因為口音或者發(fā)出的語音音調(diào)不準確,而導致獲得的結(jié)果不準確的問題。此時,當?shù)谝徽Z音信息的內(nèi)容已經(jīng)存儲于聲紋庫中時,則會在聲紋庫中進行搜索,并輸出對應(yīng)的語音結(jié)果。使用該方法進行語音識別操作,并沒有依賴于用戶修改的輸出文本,僅使用了語音進行處理,因此處理過程簡單,效率高,相較于基于修改的輸出文本來說,還具有耗時低的特點。下面結(jié)合說明書附圖對本發(fā)明實施例的主要實現(xiàn)原理、具體實施過程及其對應(yīng)能夠達到的有益效果進行詳細的闡述。實施例一在本申請實施例中,首先,對該方法需要用到的裝置進行介紹。即語音模型,基本語音庫,暫存區(qū),聲紋識別模型,聲紋庫。下面的各個裝置都存在于同一語音庫中。其中語音模型,表示由詞匯基于統(tǒng)計方法得到的模型,由多個語音特征參數(shù)樣本經(jīng)過訓練得來的?;菊Z音庫,包含了所有輸入的詞組,以及詞組對應(yīng)的語音模型。暫存區(qū),是系統(tǒng)為聲紋源建立的存儲區(qū)域。更進一步的,暫存區(qū)是系統(tǒng)為每個采集聲紋信息的用戶開辟的一個用戶專屬的,暫時用于存儲用戶輸入的詞組的存儲區(qū)域,其存放的內(nèi)容包括語音信息,該語音信息對應(yīng)的語音結(jié)果,對應(yīng)的語音結(jié)果的序號,該語音信息被識別正確的次數(shù),而語音信息即是系統(tǒng)接收到的由聲紋源發(fā)出的詞或者詞組。聲紋識別模型,通過采集用戶的聲紋建立的模型,用于對用戶進行身份識別,聲紋識別模型是針對特定的用戶建立的,包含了用戶的特定的口音,以及唯一的音色音調(diào)響度
等聲音參數(shù)。聲紋庫,是為每個采集過聲紋信息的用戶建立的語音庫。聲紋庫包含了用戶的聲紋識別模型,以及用戶使用自己帶有特色的口音輸入的詞組,該詞組由于具有口音,因此在基本語音庫中不易識別。而聲紋庫能夠最大的特點,是能夠通過用戶持續(xù)使用該系統(tǒng)而不斷提高聲紋庫的語音識別準確率。并且,系統(tǒng)提高聲紋庫的語音識別準確率的過程是在后臺運行的,不影響用戶的操作。請參看圖2,下面用具體的示意圖介紹基本語音庫和聲紋庫的關(guān)系。在圖2中,語音庫20包含兩大組成部分基本語音庫20a和聲紋庫。其中,聲紋庫以用戶A的聲紋庫20b與用戶B的聲紋庫20c進行舉例。而更為具體的,用戶A的聲紋庫20b又包含了用戶A的聲紋識別模型20bb。用戶B的聲紋庫20c包含了用戶B的聲紋識別模型20cc。
基本語音庫與聲紋庫的區(qū)別在于:在兩者中,同一詞組對應(yīng)的模型可以不相同,聲紋庫中的語音信息更具有用戶特色,是系統(tǒng)為每一個用戶單獨建立的儲存庫,并且,聲紋庫中的語音信息對應(yīng)的語音結(jié)果并不會如基本語音庫中的模型,匹配度最高的語音結(jié)果,不一定是正確的語音結(jié)果。下面舉例進行說明。比如在基本語音庫中,用戶輸入的語音信息“音量減”對應(yīng)有如下語音結(jié)果:表I
權(quán)利要求
1.一種語音處理方法,其特征在于,所述方法包括:接收第一語音信息;使用聲紋識別模型對所述第一語音信息進行聲紋識別,判斷是否具有輸出所述第一語音信息的聲紋源的記錄;若有所述記錄,在所述聲紋源對應(yīng)的聲紋庫中搜索是否具有所述第一語音信息;若在所述聲紋庫中具有所述第一語音信息,輸出與所述第一語音信息對應(yīng)的第一語音結(jié)果;若在所述聲紋庫中沒有所述第一語音信息,在基本語音庫中搜索所述第一語音信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述在基本語音庫中搜索所述第一語音信息,具體為:判斷所述第一語音信息在暫存區(qū)中是否為連續(xù)語音信息,其中,所述暫存區(qū)是為所述聲紋源建立的存儲區(qū)域;當所述第一語音信息是連續(xù)語音信息時,在所述基本語音庫中搜索所述第一語音信肩、O
3.如權(quán)利要求2所述的方法,其特征在于,在所述基本語音庫中搜索所述第一語音信息之后,所述方法還包括:當搜索出所述第一語音信息時,輸出第二語音結(jié)果,所述第二語音結(jié)果為所述第一語音信息對應(yīng)的第二語音結(jié)果;更新所述第一語音信 息在所述暫存區(qū)中的第一記錄,所述第一記錄包括所述第一語音信息,所述第二語音結(jié)果,所述第一語音信息在所述暫存區(qū)中始終被記錄為I次的搜索記錄,以及所述第二語音結(jié)果的序列號。
4.如權(quán)利要求2所述的方法,其特征在于,在所述判斷所述第一語音信息是否為連續(xù)語音信息之后,所述方法還包括:當所述第一語音信息不是連續(xù)語音信息時,判斷所述第一語音信息在所述暫存區(qū)中是否有記錄;當所述第一語音信息在所述暫存區(qū)中有記錄時,輸出所述第二語音結(jié)果,并在所述暫存區(qū)中更新第二記錄,所述第二記錄包括所述第一語音信息,所述第二語音結(jié)果,所述第一語音信息在所述暫存區(qū)中被正確搜索的次數(shù),以及所述第二語音結(jié)果的序列號;當所述第一語音信息在所述暫存區(qū)中沒有記錄時,在所述基本語音庫中搜索所述第一語音信息,并輸出與所述第一語音信息對應(yīng)的第三語音結(jié)果;在輸出所述第三語音結(jié)果之后,更新所述第一語音信息在所述暫存區(qū)中的第三記錄,所述第三記錄包括所述第一語音信息,所述第三語音結(jié)果,所述第一語音信息在所述暫存區(qū)中被正確搜索的次數(shù),以及所述第三語音結(jié)果的序列號。
5.如權(quán)利要求4所述的方法,其特征在于,在所述在所述暫存區(qū)中的更新第二記錄之后,所述方法還包括:判斷所述第二記錄中所述第一語音信息在所述暫存區(qū)中被正確搜索的次數(shù)是否滿足一預(yù)設(shè)的數(shù)目閾值;當所述被正確搜索的次數(shù)滿足所述數(shù)目閾值時,將所述第一語音信息存入所述聲紋庫;清除所述第一語音信息在所述暫存區(qū)中的記錄。
6.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 若不具有輸出所述第一語音信息的聲紋源的記錄,在基本語音庫中搜索所述第一語音信息,輸出第四語音結(jié)果。
7.一種語音處理裝置,其特征在于,包括: 接收單元,用于接收第一語音信息; 第一判斷單元,用于使用聲紋識別模型對所述第一語音信息進行聲紋識別,判斷是否具有輸出所述第一語音信息的聲紋源的記錄; 第一搜索單元,用于 若有所述記錄,在所述聲紋源對應(yīng)的聲紋庫中在聲紋庫中搜索是否具有所述第一語音信息; 第一輸出單元,用于若在所述聲紋庫中具有所述第一語音信息,輸出與所述第一語音信息對應(yīng)的第一語音結(jié)果; 第二搜索單元,用于若在所述聲紋庫中沒有所述第一語音信息,在基本語音庫中搜索所述第一語音信息。
8.如權(quán)利要求7所述的裝置,其特征在于,所述第二搜索單元具體包括: 第二判斷單元,用于若在聲紋庫中沒有所述第一語音信息,判斷所述第一語音信息在暫存區(qū)中是否為連續(xù)語音信息 ; 第三搜索單元,用于當所述第一語音信息是連續(xù)語音信息時,在所述基本語音庫中搜索所述第一語音信息。
9.如權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括: 第二輸出單元,用于在基本語音庫中搜索所述第一語音信息之后,當搜索出所述第一語音信息時,輸出第二語音結(jié)果,所述第二語音結(jié)果為所述第一語音信息對應(yīng)的第二語音結(jié)果; 第一更新單元,用于更新所述第一語音信息在所述暫存區(qū)中的第二記錄,所述第二記錄包括所述第一語音信息,所述第二語音結(jié)果,所述第一語音信息在所述暫存區(qū)中始終被記錄為I次的搜索記錄,以及所述第二語音結(jié)果的序列號。
10.如權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括: 第三判斷單元,用于在判斷所述第一語音信息是否為連續(xù)語音信息之后,當所述第一語音信息不是連續(xù)語音信息時,判斷所述第一語音信息在所述暫存區(qū)中是否有記錄; 第三輸出單元,用于當所述第一語音信息在所述暫存區(qū)中有記錄時,輸出所述第二語音結(jié)果,并在所述暫存區(qū)中更新第二記錄,所述第二記錄包括所述第一語音信息,所述第二語音結(jié)果,所述第一語音信息在所述暫存區(qū)中被正確搜索的次數(shù),以及所述第二語音結(jié)果的序列號; 第四輸出單元,用于當所述第一語音信息在所述暫存區(qū)中沒有記錄時,在所述基本語音庫中搜索所述第一語音信息,并輸出與所述第一語音信息對應(yīng)的第三語音結(jié)果; 第二更新單元,用于在輸出所述第三語音結(jié)果之后,更新所述第一語音信息在所述暫存區(qū)中的第三記錄,所述第三記錄包括所述第一語音信息,所述第三語音結(jié)果,所述第一語音信息在所述暫存區(qū)中被正確搜索的次數(shù),以及所述第三語音結(jié)果的序列號。
全文摘要
本申請公開了一種語音處理方法及裝置,首先一種語音處理方法,所述方法包括接收第一語音信息;使用聲紋識別模型對所述第一語音信息進行聲紋識別,判斷是否具有輸出所述第一語音信息的聲紋源的記錄;若有所述記錄,在所述聲紋源對應(yīng)的聲紋庫中搜索是否具有所述第一語音信息;若在所述聲紋庫中具有所述第一語音信息,輸出與所述第一語音信息對應(yīng)的第一語音結(jié)果;若在聲紋庫中沒有所述第一語音信息,在基本語音庫中搜索所述第一語音信息。使用該方法進行語音識別操作,并沒有依賴于用戶修改的輸出文本,僅使用了語音進行處理,因此處理過程簡單,效率高,相較于基于修改的輸出文本來說,還具有耗時低的特點。
文檔編號G10L15/08GK103077713SQ201310001239
公開日2013年5月1日 申請日期2013年1月4日 優(yōu)先權(quán)日2012年12月25日
發(fā)明者張慶芬, 洪燁 申請人:青島海信電器股份有限公司