一種語音處理方法及裝置的制作方法

文檔序號：2834918閱讀：233來源：國知局

專利名稱：一種語音處理方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻處理技術(shù)領(lǐng)域，特別涉及一種語音處理方法及裝置。
背景技術(shù)：
隨著通信領(lǐng)域的飛速發(fā)展，目前，語音識別技術(shù)已經(jīng)能夠使人機之間進行交互，通過系統(tǒng)對用戶進行語音識別，來實現(xiàn)人機交互。而語音識別的原理具體如下如圖1所示，S10，獲得語音信息。S11，對語音信息進行預(yù)處理，如分幀、預(yù)加重、加窗等。S12，在預(yù)處理之后，提取特征參數(shù)。該特征參數(shù)是用來表征語音信息的特征參數(shù)。S13，將該特征參數(shù)帶入在語音庫存儲的語音模型中進行搜索，輸出與該特征參數(shù)最匹配的結(jié)果。在上述步驟中，使用了語音模型，語音模型是表示詞匯的基于統(tǒng)計方法得到的模型，由多個語音特征參數(shù)樣本經(jīng)過訓練得來的。而語音模型中的詞匯是普通詞匯，并且是基于標準的口音發(fā)音而形成的模型，因此，對于一些具體用戶來說并不適用，比如某一個用戶具有地方口音，或發(fā)音音調(diào)與語音模型中不同，則當用戶輸出一語音信息，即使是語音模型中已有的詞匯，系統(tǒng)也很難識別。而為了解決這一問題，現(xiàn)有技術(shù)采用了下面的技術(shù)方案用戶在需要進行人機交互時，向系統(tǒng)輸入語音信息，系統(tǒng)會根據(jù)用戶輸入的語音信息，輸出相應(yīng)的文本在一文本框內(nèi)，以便用戶修改，并根據(jù)用戶對文本的修改情況，綜合用戶輸入的語音信息，來進行人機交互，以此解決了上述當用戶具有地方口音，或發(fā)音音調(diào)與語音模型中不同，或者用戶輸入的詞匯語音模型中并不存在時，系統(tǒng)無法識別的技術(shù)問題。而進一步的，系統(tǒng)還會根據(jù)判斷結(jié)果，向系統(tǒng)添加新詞匯、新發(fā)音，然后根據(jù)這些新詞匯以及新發(fā)音來調(diào)整語言模型。而本申請人在實現(xiàn)本申請的過程中發(fā)現(xiàn)，使用上述方法時，系統(tǒng)會依賴于用戶修改的輸出文本進行語音識別操作，進而導致識別過程復(fù)雜，效率低，以及耗時長的技術(shù)問題。

發(fā)明內(nèi)容
本發(fā)明提供一種語音處理方法及裝置，用以解決現(xiàn)有技術(shù)中存在的系統(tǒng)會依賴于用戶修改的輸出文本進行語音識別操作，進而導致識別過程復(fù)雜，效率低，以及耗時長的技術(shù)問題。一方面，本發(fā)明通過本申請的一個實施例，提供如下技術(shù)方案
一種語音處理方法，所述方法包括接收第一語音信息；使用聲紋識別模型對所述第一語音信息進行聲紋識別，判斷是否具有輸出所述第一語音信息的聲紋源的記錄；若有所述記錄，在所述聲紋源對應(yīng)的聲紋庫中搜索是否具有所述第一語音信息；若在所述聲紋庫中具有所述第一語音信息，輸出與所述第一語音信息對應(yīng)的第一語音結(jié)果；若在聲紋庫中沒有所述第一語音信息，在基本語音庫中搜索所述第一語音信息。另一方面，本發(fā)明通過本申請的另一實施例提供一種語音處理裝置，包括接收單元，用于接收第一語音信息；第一判斷單元，用于使用聲紋識別模型對所述第一語音信息進行聲紋識別，判斷是否具有輸出所述第一語音信息的聲紋源的記錄；第一搜索單元，用于若有所述記錄，在所述聲紋源對應(yīng)的聲紋庫中在聲紋庫中搜索是否具有所述第一語音信息；第一輸出單元，用于若在所述聲紋庫中具有所述第一語音信息，輸出與所述第一語音信息對應(yīng)的第一語音結(jié)果；第二搜索單兀，用于若在聲紋庫中沒有所述第一語音信息，在基本語音庫中搜索所述第一語音信息。上述技術(shù)方案中的一個或多個技術(shù)方案，至少具有如下技術(shù)效果或優(yōu)點在本申請中，首先通過使用在系統(tǒng)中建立的聲紋識別模型對獲得的第一語音信息進行聲紋識別。當識別正確時，則能夠說明該用戶在系統(tǒng)中有記錄，即在系統(tǒng)中建立了該用戶專屬的聲紋庫。當具有聲紋庫時，首先會在為該用戶建立的專屬的暫存區(qū)中搜索是否存在該第一語音信息。當不存在暫存區(qū)時，則去聲紋庫中搜索。此時，當?shù)谝徽Z音信息的內(nèi)容已經(jīng)存儲于聲紋庫中時，則輸出對應(yīng)的語音結(jié)果。使用該方法進行語音識別操作，并沒有依賴于用戶修改的輸出文本，僅使用了語音進行處理，因此處理過程簡單，效率高，相較于基于修改的輸出文本來說，還具有耗時低的特點。進一步的，在聲紋庫中不能夠搜索的第一語音信息時，由于還可以轉(zhuǎn)到基本語音庫中進行搜索，所以具有保證該第一語音信息的識別準確率的技術(shù)效果。進一步的，由于在系統(tǒng)中沒有記錄的聲紋源，在使用了該系統(tǒng)進行第一語音信息的識別之后，還能夠建立其專屬的聲紋庫，所以，在以后的使用中，通過不斷的識別，記錄更新等過程，能夠?qū)崿F(xiàn)不斷地提高針對該用戶的第一語音信息的準確識別率的技術(shù)效果。進一步的，在系統(tǒng)的暫存區(qū)中搜索該第一語音信息時，在識別的過程中，會經(jīng)過識另IJ，判斷，記錄，更新等一系列操作，不斷地刷新暫存區(qū)中的第一語音信息的記錄，所以，具有提高對第一語音信息的識別率的技術(shù)效果。

圖1為背景技術(shù)中語音識別的原理的流程圖；圖2為本申請實施例中系統(tǒng)中的語音庫的示意圖；圖3為本申請實施例中語音處理方法的流程圖；圖4為本申請實施例中整體的流程圖；圖5為本申請實施例中語音處理裝置的示意圖。
具體實施例方式為了解決現(xiàn)有技術(shù)中存在的系統(tǒng)會依賴于用戶修改的輸出文本進行語音識別操作，進而導致識別過程復(fù)雜，效率低，以及耗時長的技術(shù)問題，本發(fā)明實施例提出了一種語音處理方法及裝置，其解決方案總體思路如下在本申請中，為了解決上述技術(shù)問題，提供了一種語音處理方法，該方法首先使用聲紋識別模型對第一語音信息進行聲紋識別，判斷是否具有輸出第一語音信息的聲紋源的記錄。接著，若有記錄，在聲紋源對應(yīng)的聲紋庫中搜索是否具有第一語音信息。進一步的，若在聲紋庫中具有第一語音信息，輸出與第一語音信息對應(yīng)的第一語音結(jié)果。若在聲紋庫中沒有第一語音信息，在基本語音庫中搜索第一語音信息。而聲紋庫則是用戶專屬的聲紋庫，記錄了用戶特有的語音習慣，比如，用戶的口音，以及用戶發(fā)出語音時，語音的音調(diào)等，使用用戶專屬的聲紋庫進行搜索，則避免了用戶因為口音或者發(fā)出的語音音調(diào)不準確，而導致獲得的結(jié)果不準確的問題。此時，當?shù)谝徽Z音信息的內(nèi)容已經(jīng)存儲于聲紋庫中時，則會在聲紋庫中進行搜索，并輸出對應(yīng)的語音結(jié)果。使用該方法進行語音識別操作，并沒有依賴于用戶修改的輸出文本，僅使用了語音進行處理，因此處理過程簡單，效率高，相較于基于修改的輸出文本來說，還具有耗時低的特點。下面結(jié)合說明書附圖對本發(fā)明實施例的主要實現(xiàn)原理、具體實施過程及其對應(yīng)能夠達到的有益效果進行詳細的闡述。實施例一在本申請實施例中，首先，對該方法需要用到的裝置進行介紹。即語音模型，基本語音庫，暫存區(qū)，聲紋識別模型，聲紋庫。下面的各個裝置都存在于同一語音庫中。其中語音模型，表示由詞匯基于統(tǒng)計方法得到的模型，由多個語音特征參數(shù)樣本經(jīng)過訓練得來的?；菊Z音庫，包含了所有輸入的詞組，以及詞組對應(yīng)的語音模型。暫存區(qū)，是系統(tǒng)為聲紋源建立的存儲區(qū)域。更進一步的，暫存區(qū)是系統(tǒng)為每個采集聲紋信息的用戶開辟的一個用戶專屬的，暫時用于存儲用戶輸入的詞組的存儲區(qū)域，其存放的內(nèi)容包括語音信息，該語音信息對應(yīng)的語音結(jié)果，對應(yīng)的語音結(jié)果的序號，該語音信息被識別正確的次數(shù)，而語音信息即是系統(tǒng)接收到的由聲紋源發(fā)出的詞或者詞組。聲紋識別模型，通過采集用戶的聲紋建立的模型，用于對用戶進行身份識別，聲紋識別模型是針對特定的用戶建立的，包含了用戶的特定的口音，以及唯一的音色音調(diào)響度
等聲音參數(shù)。聲紋庫，是為每個采集過聲紋信息的用戶建立的語音庫。聲紋庫包含了用戶的聲紋識別模型，以及用戶使用自己帶有特色的口音輸入的詞組，該詞組由于具有口音，因此在基本語音庫中不易識別。而聲紋庫能夠最大的特點，是能夠通過用戶持續(xù)使用該系統(tǒng)而不斷提高聲紋庫的語音識別準確率。并且，系統(tǒng)提高聲紋庫的語音識別準確率的過程是在后臺運行的，不影響用戶的操作。請參看圖2，下面用具體的示意圖介紹基本語音庫和聲紋庫的關(guān)系。在圖2中，語音庫20包含兩大組成部分基本語音庫20a和聲紋庫。其中，聲紋庫以用戶A的聲紋庫20b與用戶B的聲紋庫20c進行舉例。而更為具體的，用戶A的聲紋庫20b又包含了用戶A的聲紋識別模型20bb。用戶B的聲紋庫20c包含了用戶B的聲紋識別模型20cc。
基本語音庫與聲紋庫的區(qū)別在于:在兩者中，同一詞組對應(yīng)的模型可以不相同，聲紋庫中的語音信息更具有用戶特色，是系統(tǒng)為每一個用戶單獨建立的儲存庫，并且，聲紋庫中的語音信息對應(yīng)的語音結(jié)果并不會如基本語音庫中的模型，匹配度最高的語音結(jié)果，不一定是正確的語音結(jié)果。下面舉例進行說明。比如在基本語音庫中，用戶輸入的語音信息“音量減”對應(yīng)有如下語音結(jié)果:表I
權(quán)利要求
1.一種語音處理方法，其特征在于，所述方法包括:接收第一語音信息；使用聲紋識別模型對所述第一語音信息進行聲紋識別，判斷是否具有輸出所述第一語音信息的聲紋源的記錄；若有所述記錄，在所述聲紋源對應(yīng)的聲紋庫中搜索是否具有所述第一語音信息；若在所述聲紋庫中具有所述第一語音信息，輸出與所述第一語音信息對應(yīng)的第一語音結(jié)果;若在所述聲紋庫中沒有所述第一語音信息，在基本語音庫中搜索所述第一語音信息。
2.如權(quán)利要求1所述的方法，其特征在于，所述在基本語音庫中搜索所述第一語音信息，具體為:判斷所述第一語音信息在暫存區(qū)中是否為連續(xù)語音信息，其中，所述暫存區(qū)是為所述聲紋源建立的存儲區(qū)域；當所述第一語音信息是連續(xù)語音信息時，在所述基本語音庫中搜索所述第一語音信肩、O
3.如權(quán)利要求2所述的方法，其特征在于，在所述基本語音庫中搜索所述第一語音信息之后，所述方法還包括:當搜索出所述第一語音信息時，輸出第二語音結(jié)果，所述第二語音結(jié)果為所述第一語音信息對應(yīng)的第二語音結(jié)果；更新所述第一語音信息在所述暫存區(qū)中的第一記錄，所述第一記錄包括所述第一語音信息，所述第二語音結(jié)果，所述第一語音信息在所述暫存區(qū)中始終被記錄為I次的搜索記錄，以及所述第二語音結(jié)果的序列號。
4.如權(quán)利要求2所述的方法，其特征在于，在所述判斷所述第一語音信息是否為連續(xù)語音信息之后，所述方法還包括:當所述第一語音信息不是連續(xù)語音信息時，判斷所述第一語音信息在所述暫存區(qū)中是否有記錄；當所述第一語音信息在所述暫存區(qū)中有記錄時，輸出所述第二語音結(jié)果，并在所述暫存區(qū)中更新第二記錄，所述第二記錄包括所述第一語音信息，所述第二語音結(jié)果，所述第一語音信息在所述暫存區(qū)中被正確搜索的次數(shù)，以及所述第二語音結(jié)果的序列號；當所述第一語音信息在所述暫存區(qū)中沒有記錄時，在所述基本語音庫中搜索所述第一語音信息，并輸出與所述第一語音信息對應(yīng)的第三語音結(jié)果；在輸出所述第三語音結(jié)果之后，更新所述第一語音信息在所述暫存區(qū)中的第三記錄，所述第三記錄包括所述第一語音信息，所述第三語音結(jié)果，所述第一語音信息在所述暫存區(qū)中被正確搜索的次數(shù)，以及所述第三語音結(jié)果的序列號。
5.如權(quán)利要求4所述的方法，其特征在于，在所述在所述暫存區(qū)中的更新第二記錄之后，所述方法還包括:判斷所述第二記錄中所述第一語音信息在所述暫存區(qū)中被正確搜索的次數(shù)是否滿足一預(yù)設(shè)的數(shù)目閾值；當所述被正確搜索的次數(shù)滿足所述數(shù)目閾值時，將所述第一語音信息存入所述聲紋庫；清除所述第一語音信息在所述暫存區(qū)中的記錄。
6.如權(quán)利要求1所述的方法，其特征在于，所述方法還包括: 若不具有輸出所述第一語音信息的聲紋源的記錄，在基本語音庫中搜索所述第一語音信息，輸出第四語音結(jié)果。
7.一種語音處理裝置，其特征在于，包括: 接收單元，用于接收第一語音信息；第一判斷單元，用于使用聲紋識別模型對所述第一語音信息進行聲紋識別，判斷是否具有輸出所述第一語音信息的聲紋源的記錄；第一搜索單元，用于若有所述記錄，在所述聲紋源對應(yīng)的聲紋庫中在聲紋庫中搜索是否具有所述第一語音信息；第一輸出單元，用于若在所述聲紋庫中具有所述第一語音信息，輸出與所述第一語音信息對應(yīng)的第一語音結(jié)果；第二搜索單元，用于若在所述聲紋庫中沒有所述第一語音信息，在基本語音庫中搜索所述第一語音信息。
8.如權(quán)利要求7所述的裝置，其特征在于，所述第二搜索單元具體包括: 第二判斷單元，用于若在聲紋庫中沒有所述第一語音信息，判斷所述第一語音信息在暫存區(qū)中是否為連續(xù)語音信息；第三搜索單元，用于當所述第一語音信息是連續(xù)語音信息時，在所述基本語音庫中搜索所述第一語音信息。
9.如權(quán)利要求8所述的裝置，其特征在于，所述裝置還包括: 第二輸出單元，用于在基本語音庫中搜索所述第一語音信息之后，當搜索出所述第一語音信息時，輸出第二語音結(jié)果，所述第二語音結(jié)果為所述第一語音信息對應(yīng)的第二語音結(jié)果; 第一更新單元，用于更新所述第一語音信息在所述暫存區(qū)中的第二記錄，所述第二記錄包括所述第一語音信息，所述第二語音結(jié)果，所述第一語音信息在所述暫存區(qū)中始終被記錄為I次的搜索記錄，以及所述第二語音結(jié)果的序列號。
10.如權(quán)利要求8所述的裝置，其特征在于，所述裝置還包括: 第三判斷單元，用于在判斷所述第一語音信息是否為連續(xù)語音信息之后，當所述第一語音信息不是連續(xù)語音信息時，判斷所述第一語音信息在所述暫存區(qū)中是否有記錄；第三輸出單元，用于當所述第一語音信息在所述暫存區(qū)中有記錄時，輸出所述第二語音結(jié)果，并在所述暫存區(qū)中更新第二記錄，所述第二記錄包括所述第一語音信息，所述第二語音結(jié)果，所述第一語音信息在所述暫存區(qū)中被正確搜索的次數(shù)，以及所述第二語音結(jié)果的序列號；第四輸出單元，用于當所述第一語音信息在所述暫存區(qū)中沒有記錄時，在所述基本語音庫中搜索所述第一語音信息，并輸出與所述第一語音信息對應(yīng)的第三語音結(jié)果；第二更新單元，用于在輸出所述第三語音結(jié)果之后，更新所述第一語音信息在所述暫存區(qū)中的第三記錄，所述第三記錄包括所述第一語音信息，所述第三語音結(jié)果，所述第一語音信息在所述暫存區(qū)中被正確搜索的次數(shù)，以及所述第三語音結(jié)果的序列號。
全文摘要
本申請公開了一種語音處理方法及裝置，首先一種語音處理方法，所述方法包括接收第一語音信息；使用聲紋識別模型對所述第一語音信息進行聲紋識別，判斷是否具有輸出所述第一語音信息的聲紋源的記錄；若有所述記錄，在所述聲紋源對應(yīng)的聲紋庫中搜索是否具有所述第一語音信息；若在所述聲紋庫中具有所述第一語音信息，輸出與所述第一語音信息對應(yīng)的第一語音結(jié)果；若在聲紋庫中沒有所述第一語音信息，在基本語音庫中搜索所述第一語音信息。使用該方法進行語音識別操作，并沒有依賴于用戶修改的輸出文本，僅使用了語音進行處理，因此處理過程簡單，效率高，相較于基于修改的輸出文本來說，還具有耗時低的特點。
文檔編號G10L15/08GK103077713SQ201310001239
公開日2013年5月1日申請日期2013年1月4日優(yōu)先權(quán)日2012年12月25日
發(fā)明者張慶芬, 洪燁申請人:青島海信電器股份有限公司

完整全部詳細技術(shù)資料下載