語音識(shí)別方法和語音識(shí)別系統(tǒng)的制作方法

文檔序號(hào)：2824029閱讀：204來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音識(shí)別方法和語音識(shí)別系統(tǒng)的制作方法
語音識(shí)別方法和語音識(shí)別系統(tǒng)
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識(shí)別技術(shù)，尤其涉及一種語音識(shí)別方法和語音識(shí)別系統(tǒng)。背景技術(shù)：
語音識(shí)別是將人的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入，例如按鍵、二進(jìn) 制編碼或字符序列等。傳統(tǒng)的語音識(shí)別方法是采集語音，再對(duì)采集到的語音進(jìn)行特征提取，特征提取是指將語音波形經(jīng)過線性或非線性運(yùn)算后得到一組矢量，然后通過模式匹配算法，將矢量轉(zhuǎn)換為和模型最接近的發(fā)音單元序列，進(jìn)而轉(zhuǎn)換為語音識(shí)別結(jié)果。然而，傳統(tǒng)的這種語音識(shí)別方法僅根據(jù)采集到的語音和固定的聲學(xué)模型和語言模型(或者語法模型)進(jìn) 行模式匹配，識(shí)別準(zhǔn)確度不高。

發(fā)明內(nèi)容基于此，有必要提供一種能提高語音識(shí)別準(zhǔn)確度的語音識(shí)別方法。一種語音識(shí)別方法，包括以下步驟采集語音；對(duì)采集的語音進(jìn)行特征提??；獲取用戶的場(chǎng)景信息，根據(jù)所述場(chǎng)景信息匹配語法模型或語言模型；根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果。優(yōu)選的，所述方法還包括獲取用戶的位置信息，根據(jù)所述位置信息匹配語法模型或語言模型的步驟。優(yōu)選的，所述方法還包括根據(jù)所述位置信息和場(chǎng)景信息匹配發(fā)音字典的步驟；所述根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果的步驟為根據(jù)所述匹配的語法模型、語言模型和發(fā)音字典進(jìn)行模式匹配算法，得到語音識(shí) 別結(jié)果。優(yōu)選的，所述位置信息為用戶的終端設(shè)備自動(dòng)檢測(cè)提供的地理位置或GPS定位信息，所述場(chǎng)景信息為用戶交互過程中的場(chǎng)景變化數(shù)據(jù)。優(yōu)選的，所述位置信息為用戶主動(dòng)提供或修改的地理位置或GPS定位信息，所述場(chǎng)景信息為用戶主動(dòng)設(shè)定或更改的場(chǎng)景變化數(shù)據(jù)。此外，還有必要提供一種能提高語音識(shí)別準(zhǔn)確度的語音識(shí)別系統(tǒng)。一種語音識(shí)別系統(tǒng)，包括客戶端及與其進(jìn)行交互的服務(wù)器，所述客戶端包括語音采集模塊，用于采集語音；第一通信模塊，用于將采集的語音發(fā)送至服務(wù)器；所述服務(wù)器包括第二通信模塊，用于接收所述第一通信模塊發(fā)送的語音；特征提取模塊，用于對(duì)所述語音進(jìn)行特征提??；
語音識(shí)別模塊，用于獲取用戶的場(chǎng)景信息，根據(jù)所述場(chǎng)景信息匹配語法模型或語言模型，根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果。優(yōu)選的，所述客戶端還包括信息獲取模塊，用于獲取用戶的場(chǎng)景信息和位置信息；所述第一通信模塊還用于將所述場(chǎng)景信息和位置信息發(fā)送到所述服務(wù)器。優(yōu)選的，所述語音識(shí)別模塊還用于獲取用戶的位置信息，根據(jù)所述位置信息匹配語法模型或語言模型；所述服務(wù)器還包括用于存儲(chǔ)用戶的位置信息和場(chǎng)景信息的數(shù)據(jù)庫。優(yōu)選的，所述語音識(shí)別模塊還用于根據(jù)所述位置信息和場(chǎng)景信息匹配發(fā)音字典，根據(jù)所述匹配的語法模型、語言模型和發(fā)音字典進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果。優(yōu)選的，所述位置信息為用戶的終端設(shè)備自動(dòng)檢測(cè)提供的位置信息或GPS定位信息，所述場(chǎng)景信息為用戶交互過程中的場(chǎng)景變化數(shù)據(jù)。優(yōu)選的，所述位置信息為用戶主動(dòng)提供或修改的地理位置或GPS定位信息，所述場(chǎng)景信息為用戶主動(dòng)設(shè)定或更改的場(chǎng)景變化數(shù)據(jù)。上述語音識(shí)別方法和語音識(shí)別系統(tǒng)，根據(jù)用戶的場(chǎng)景信息匹配語法模型或語言模型，能在進(jìn)行模式匹配算法時(shí)根據(jù)用戶的場(chǎng)景信息改變語法模型或語言模型的參數(shù)，使得模式匹配算法所采用的語法模型或語言模型適應(yīng)用戶的交互場(chǎng)景，因此能提高語音識(shí)別的準(zhǔn)確度。

圖1為一個(gè)實(shí)施例中的語音識(shí)別方法的流程圖；圖2為一個(gè)實(shí)施例中的語音識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖；圖3為另一個(gè)實(shí)施例中的語音識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
圖1示出了一個(gè)實(shí)施例中的語音識(shí)別方法流程，該方法流程包括以下步驟步驟S102，采集語音。在一個(gè)實(shí)施例中，通過安裝在移動(dòng)終端的客戶端軟件輸入語音，例如，用戶點(diǎn)擊按鍵進(jìn)入語音采集模式后進(jìn)行講話，再次點(diǎn)擊按鍵后語音輸入完畢，客戶端軟件采集語音，并可將采集到的語音發(fā)送到后臺(tái)服務(wù)器進(jìn)行處理。步驟S104，對(duì)采集的語音進(jìn)行特征提取。采集到的數(shù)據(jù)為語音波形，對(duì)語音波形進(jìn) 行特征提取后，得到語音聲學(xué)特征?？刹捎脗鹘y(tǒng)的語音特征提取算法對(duì)語音波形進(jìn)行特征提取，例如提取MFCC (Mel頻率倒譜系統(tǒng))、LPC (線性預(yù)測(cè)編碼系數(shù))、語音能量等。步驟S106，獲取用戶的場(chǎng)景信息，根據(jù)所述場(chǎng)景信息匹配語法模型或語言模型。用戶的場(chǎng)景信息是指用戶交互過程中的場(chǎng)景變化數(shù)據(jù)。用戶通過安裝在移動(dòng)終端的客戶端軟件實(shí)現(xiàn)各種應(yīng)用，在應(yīng)用系統(tǒng)的交互過程中會(huì)產(chǎn)生場(chǎng)景變化數(shù)據(jù)。例如，查詢購物信息、航班信息時(shí)產(chǎn)生的查詢范圍和查詢結(jié)果等。根據(jù)用戶的場(chǎng)景信息匹配合適的語法模型或語言模型，例如，用戶查詢商店名稱時(shí)，采用各個(gè)店名出現(xiàn)概率大的語法模型，用戶查詢服裝店信息時(shí)，則采用服裝店名稱概率大的語法模型或語言模型。步驟S108，根據(jù)匹配的語法模型或語言模型進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)
5果。語音識(shí)別所需要的資源有語音模型、語法模型和發(fā)音字典等，根據(jù)上述得到的語音聲學(xué) 特征，從語音識(shí)別資源中找到最匹配的結(jié)果，可采用傳統(tǒng)的維特比(Viterbi)算法進(jìn)行語音識(shí)別，得到語音識(shí)別結(jié)果。通過用戶的場(chǎng)景信息改變語法模型或語言模型的參數(shù)，使得模式匹配算法所采用的語法模型或語言模型適應(yīng)用戶的交互場(chǎng)景，因此能提高語音識(shí)別的準(zhǔn)確度。在一個(gè)實(shí)施例中，上述方法還包括獲取用戶的位置信息，根據(jù)位置信息匹配語法模型或語言模型。用戶的位置信息為用戶的終端設(shè)備自動(dòng)檢測(cè)提供的地理位置或GPS定位信息。此外，用戶的位置信息還可以是用戶主動(dòng)提供或修改的地理位置或GPS定位信息，所述場(chǎng)景信息為用戶主動(dòng)設(shè)定或更改的場(chǎng)景變化數(shù)據(jù)。例如用戶通過客戶端軟件填寫的自身的地理位置，該地理位置作為用戶個(gè)人信息的一部分存儲(chǔ)在服務(wù)器，當(dāng)用戶修改該信息時(shí)，服務(wù)器進(jìn)行更新。GPS定位信息可以實(shí)時(shí)獲取，當(dāng)用戶所在的位置變化時(shí)，獲取用戶的GPS 定位信息，則能獲取當(dāng)前用戶所處的位置。也可以獲取用戶設(shè)定的地理位置，根據(jù)用戶設(shè)定的地理位置匹配語法模型或語言模型。例如，用戶的終端設(shè)備檢測(cè)到用戶當(dāng)前的位置在北京，而用戶設(shè)定自身地理位置在上海，則根據(jù)上海這一地理位置匹配語法模型或語言模型。在服務(wù)器端可維護(hù)位置信息與語法模型、語言模型的關(guān)系數(shù)據(jù)，獲取到用戶的位置信息后，根據(jù)位置信息可匹配合適的語法模型或語言模型。例如，用戶的位置信息為北京地區(qū)，則匹配北京地區(qū)地名為主的語法模型、語言模型。當(dāng)用戶從北京移至上海，獲取到用戶當(dāng)前的位置信息，匹配以上海地區(qū)地名為主的語法模型、語言模型。在另一個(gè)實(shí)施例中，上述方法還包括根據(jù)用戶的位置信息和場(chǎng)景信息匹配發(fā)音字典。該實(shí)施例中，根據(jù)用戶的位置信息和場(chǎng)景信息匹配合適的語法模型、語言模型和發(fā) 音字典，則根據(jù)匹配的語法模型、語言模型和發(fā)音字典進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)^ ο進(jìn)行模式匹配算法后，得到一個(gè)或多個(gè)詞的詞序列，在得到的詞中，選取出現(xiàn)概率最大的詞組成詞序列，即為語音識(shí)別結(jié)果。語音識(shí)別結(jié)果可以是一個(gè)符號(hào)、數(shù)值或文字等，例如采集到的語音為“今天”，識(shí)別得到的結(jié)果可以是“今天”、“jintian”、“t0day”等，該結(jié) 果可以在應(yīng)用程序中做后續(xù)處理。圖2示出了一個(gè)實(shí)施例中的語音識(shí)別系統(tǒng)，該系統(tǒng)包括客戶端100及與客戶端100 進(jìn)行交互的服務(wù)器200，其中客戶端100包括語音采集模塊102和第一通信模塊104，其中語音采集模塊102 用于采集語音；第一通信模塊104用于將采集到的語音發(fā)送到服務(wù)器200。在一個(gè)實(shí)施例中，用戶可以通過安裝在移動(dòng)終端上的應(yīng)用軟件輸入語音，在點(diǎn)擊按鈕后開始輸入，再次點(diǎn) 擊按鈕后停止輸入，語音采集模塊102則采集語音，通過第一通信模塊104發(fā)送到服務(wù)器 200進(jìn)行處理。服務(wù)器200包括第二通信模塊202、特征提取模塊204和語音識(shí)別模塊206，其中第二通信模塊202用于接收第一通信模塊104發(fā)送的語音；特征提取模塊204用于對(duì)該語音進(jìn)行特征提??；語音識(shí)別模塊206用于獲取用戶的場(chǎng)景信息，根據(jù)場(chǎng)景信息匹配語法模型或語言模型，根據(jù)匹配的語法模型或語言模型進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果。用戶的場(chǎng)景信息是用戶交互過程中的場(chǎng)景變化數(shù)據(jù)。該實(shí)施例中，第二語音模塊202接收到的數(shù)據(jù)為語音波形，特征提取模塊204對(duì)語音波形進(jìn)行特征提取，得到語音聲學(xué)特征?？刹捎脗鹘y(tǒng)的特征提取算法提取語音的MFCC(Mel頻率倒譜系統(tǒng))、LPC(線性預(yù)測(cè)編碼系數(shù))、語音能量等。用戶通過安裝在移動(dòng)終端上的各種應(yīng)用軟件產(chǎn)生場(chǎng)景變化數(shù)據(jù)，例如，查詢購物信息、航班信息時(shí)產(chǎn)生的查詢范圍和查詢結(jié)果等。語音識(shí)別模塊206根據(jù)用戶的場(chǎng)景信息匹配合適的語法模型或語言模型，例如，用戶查詢商店名稱時(shí)，采用各個(gè)店名出現(xiàn)概率大的語法模型或語言模型，用戶查詢服裝店信息時(shí)，則采用服裝店名稱概率大的語法模型或語言模型。語音識(shí)別所需要的資源有語音模型、語法模型和發(fā)音字典等，根據(jù)上述得到的語音聲學(xué)特征，語音識(shí)別模塊206從語音識(shí)別資源中找到最匹配的結(jié)果，可采用傳統(tǒng)的維特比 (Viterbi)算法進(jìn)行語音識(shí)別，得到語音識(shí)別結(jié)果。通過用戶的場(chǎng)景信息改變語法模型或語言模型的參數(shù)，使得模式匹配算法所采用的語法模型或語言模型適應(yīng)用戶的交互場(chǎng)景，因此能提高語音識(shí)別的準(zhǔn)確度。圖3示出了另一個(gè)實(shí)施例中的語音識(shí)別系統(tǒng)，該系統(tǒng)在圖1所示實(shí)施例的基礎(chǔ)上，客戶端100還包括信息獲取模塊106，服務(wù)器200還包括數(shù)據(jù)庫208.其中信息獲取模塊106用于獲取用戶的場(chǎng)景信息和位置信息。該實(shí)施例中，第一通信模塊104將用戶的場(chǎng)景信息和位置信息發(fā)送到服務(wù)器200。用戶的場(chǎng)景信息為用戶交互過程中的場(chǎng)景變化數(shù)據(jù)，用戶的位置信息可以是用戶的終端設(shè)備自動(dòng)檢測(cè)提供的地理位置或 GPS定位信息。也可以是用戶主動(dòng)提供或修改的地理位置，例如，用戶通過客戶端軟件填寫的自身的地理位置，該地理位置作為用戶個(gè)人信息的一部分存儲(chǔ)在服務(wù)器200的數(shù)據(jù)庫 208中，當(dāng)用戶修改該信息時(shí)，數(shù)據(jù)庫208進(jìn)行更新。GPS定位信息可以實(shí)時(shí)獲取，當(dāng)用戶所在的位置變化時(shí)，獲取用戶的GPS定位信息，則能獲取當(dāng)前用戶所處的位置。也可以獲取用戶設(shè)定的地理位置，根據(jù)用戶設(shè)定的地理位置匹配語法模型、語言模型。例如，用戶的終端設(shè)備檢測(cè)到用戶當(dāng)前的位置在北京，而用戶設(shè)定自身地理位置在上海，則根據(jù)上海這一地理位置匹配語法模型、語言模型。數(shù)據(jù)庫208用于存儲(chǔ)用戶的位置信息和場(chǎng)景信息。此外，數(shù)據(jù)庫208還可用于存儲(chǔ)語音識(shí)別資源，即用于進(jìn)行語音識(shí)別的語音模型、語法模型和發(fā)音字典等。語音識(shí)別模塊206還用于獲取用戶的位置信息，根據(jù)位置信息匹配語法模型或語言模型。在數(shù)據(jù)庫208中可維護(hù)位置信息與語法模型、語言模型的關(guān)系數(shù)據(jù)，語音識(shí)別模塊 206獲取到用戶的位置信息后，即可匹配合適的語法模型或語言模型。在數(shù)據(jù)庫208可維護(hù)位置信息與語法模型、語言模型的關(guān)系數(shù)據(jù)，語音識(shí)別模塊 206獲取到用戶的位置信息后，根據(jù)位置信息可匹配合適的語法模型或語言模型。例如，用戶的位置信息為北京地區(qū)，則匹配北京地區(qū)地名為主的語法模型或語言模型。當(dāng)用戶從北京移至上海，獲取到用戶當(dāng)前的位置信息，匹配以上海地區(qū)地名為主的語法模型或語言模型。在另一個(gè)實(shí)施例中，語音識(shí)別模塊206還用于獲取位置信息和場(chǎng)景信息，根據(jù)位置信息和場(chǎng)景信息匹配發(fā)音字典，根據(jù)所述匹配的語法模型、語言模型和發(fā)音字典進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果。語音識(shí)別模塊206進(jìn)行模式匹配算法后，得到一個(gè)或多個(gè)詞的詞序列，在得到的詞中，選取出現(xiàn)概率最大的詞組成詞序列，即為語音識(shí)別結(jié)果。語音識(shí)別結(jié)果可以是一個(gè)符號(hào)、數(shù)值或文字等，例如采集到的語音為“今天”，識(shí)別得到的結(jié)果可以是“今天”、“jintian”、“t0day”等，該結(jié)果可以在應(yīng)用程序中做后續(xù)處理。以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式，其描述較為具體和詳細(xì)，但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是，對(duì)于本領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)，這些都屬于本發(fā)明的保護(hù)范圍。因此，本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種語音識(shí)別方法，包括以下步驟采集語音；對(duì)采集的語音進(jìn)行特征提??；獲取用戶的場(chǎng)景信息，根據(jù)所述場(chǎng)景信息匹配語法模型或語言模型；根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的語音識(shí)別方法，其特征在于，所述方法還包括獲取用戶的位置信息，根據(jù)所述位置信息匹配語法模型或語言模型的步驟。
3.根據(jù)權(quán)利要求2所述的語音識(shí)別方法，其特征在于，所述方法還包括根據(jù)所述位置信息和場(chǎng)景信息匹配發(fā)音字典的步驟；所述根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果的步驟為根據(jù)所述匹配的語法模型、語言模型和發(fā)音字典進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)^ ο
4.根據(jù)權(quán)利要求2或3所述的語音識(shí)別方法，其特征在于，所述位置信息為用戶的終端設(shè)備自動(dòng)檢測(cè)提供的地理位置或GPS定位信息，所述場(chǎng)景信息為用戶交互過程中的場(chǎng)景變化數(shù)據(jù)。
5.根據(jù)權(quán)利要求2或3所述的語音識(shí)別方法，其特征在于，所述位置信息為用戶主動(dòng)提供或修改的地理位置或GPS定位信息，所述場(chǎng)景信息為用戶主動(dòng)設(shè)定或更改的場(chǎng)景變化數(shù) 據(jù)。
6.一種語音識(shí)別系統(tǒng)，包括客戶端及與其進(jìn)行交互的服務(wù)器，其特征在于，所述客戶端包括語音采集模塊，用于采集語音；第一通信模塊，用于將采集的語音發(fā)送至服務(wù)器；所述服務(wù)器包括第二通信模塊，用于接收所述第一通信模塊發(fā)送的語音；特征提取模塊，用于對(duì)所述語音進(jìn)行特征提取；語音識(shí)別模塊，用于獲取用戶的場(chǎng)景信息，根據(jù)所述場(chǎng)景信息匹配語法模型或語言模型，根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果。
7.根據(jù)權(quán)利要求6所述的語音識(shí)別系統(tǒng)，其特征在于，所述客戶端還包括信息獲取模塊，用于獲取用戶的場(chǎng)景信息和位置信息；所述第一通信模塊還用于將所述場(chǎng)景信息和位置信息發(fā)送到所述服務(wù)器。
8.根據(jù)權(quán)利要求6所述的語音識(shí)別系統(tǒng)，其特征在于，所述語音識(shí)別模塊還用于獲取用戶的位置信息，根據(jù)所述位置信息匹配語法模型或語言模型；所述服務(wù)器還包括用于存儲(chǔ)用戶的位置信息和場(chǎng)景信息的數(shù)據(jù)庫。
9.根據(jù)權(quán)利要求6所述的語音識(shí)別系統(tǒng)，其特征在于，所述語音識(shí)別模塊還用于根據(jù) 所述位置信息和場(chǎng)景信息匹配發(fā)音字典，根據(jù)所述匹配的語法模型、語言模型和發(fā)音字典進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果。
10.根據(jù)權(quán)利要求6至9中任意一項(xiàng)所述的語音識(shí)別系統(tǒng)，其特征在于，所述位置信息為用戶的終端設(shè)備自動(dòng)檢測(cè)提供的位置信息或GPS定位信息，所述場(chǎng)景信息為用戶交互過程中的場(chǎng)景變化數(shù)據(jù)。
11.根據(jù)權(quán)利要求6至9中任意一項(xiàng)所述的語音識(shí)別系統(tǒng)，其特征在于，所述位置信息為用戶主動(dòng)提供或修改的地理位置或GPS定位信息，所述場(chǎng)景信息為用戶主動(dòng)設(shè)定或更改的場(chǎng)景變化數(shù)據(jù)。
全文摘要
一種語音識(shí)別方法，包括以下步驟采集語音；對(duì)采集的語音進(jìn)行特征提??；獲取用戶的場(chǎng)景信息，根據(jù)所述場(chǎng)景信息匹配語法模型或語言模型；根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法，得到語音識(shí)別結(jié)果。采用該方法，能提高語音識(shí)別的準(zhǔn)確性。此外，還提供一種語音識(shí)別系統(tǒng)。
文檔編號(hào)G10L15/02GK102074231SQ20101061436
公開日2011年5月25日申請(qǐng)日期2010年12月30日優(yōu)先權(quán)日2010年12月30日
發(fā)明者馮雁, 楊永勝, 黃石磊申請(qǐng)人:萬音達(dá)有限公司

完整全部詳細(xì)技術(shù)資料下載