一種用于大數(shù)據(jù)分析的語音識別系統(tǒng)的制作方法

文檔序號：12724091閱讀：246來源：國知局

本發(fā)明涉及語音識別技術領域，特別涉及一種用于大數(shù)據(jù)分析的語音識別系統(tǒng)。

背景技術：

在近年來，語音識別技術取得顯著進步，已經(jīng)從實驗室走向市場。在實際應用中，例如智能助理Siri，通過識別用戶的語音輸入信息，自動完成和用戶的交互。

目前，進行語音識別時，環(huán)境噪聲對語音識別的識別率影響很大，同時，對原始語音信息的處理方法也會對識別結(jié)果有一定的影響，除此之外，不同的人還有發(fā)音習慣上的差別，使用單一聲學特征進行識別會是語音識別的識別率受到明顯影響。

同時，不同的方言有相似的發(fā)音特征和發(fā)音習慣，發(fā)音者的情緒也會影響語速和語句長短，這都會影響聲學特征的識別精度。

由于語音識別的識別率不夠高，導致使用語音進行大數(shù)據(jù)分析面臨較大的困難。

技術實現(xiàn)要素：

為解決以上問題，本發(fā)明提供一種用于大數(shù)據(jù)分析的語音識別系統(tǒng)，用以解決語音識別的識別率不高的問題，包括：

語音信息分類模塊，用于對原始語音信息進行分類，得到分類后的原始語音信息；原始語音處理模塊，用于對分類后的原始語音信息進行語音增強和濾波，得到處理后的語音信息；聲學特征識別提取模塊，用于對處理后的語音信息中的聲學特征進行識別提?。换A元數(shù)據(jù)集，用于存儲針對不同語音信息分類的聲學特征及與其對應的文本信息；聲學特征匹配模塊，用于將提取的聲學特征與基礎元數(shù)據(jù)集中與相應的語音信息分類對應的聲學特征進行匹配，識別出第一語音識別結(jié)果；識別糾錯模塊，用于對識別出的第一語音識別結(jié)果進行清洗糾錯，得到第二語音識別結(jié)果；結(jié)果輸出模塊，用于將第二語音識別結(jié)果作為語音識別結(jié)果進行輸出。

優(yōu)選的，所述語音信息分類模塊，用于根據(jù)語音特征對對原始語音信息進行分類，所述語音特征包括：語音的時長、語音包含的音素數(shù)量。

優(yōu)選的，所述原始語音處理模塊，包括用于對分類后的原始語音信息進行語音增強，得到語音增強后的原始語音信息，所用增強方法為減譜法，所用減譜公式為：

其中，P_S(ω)為輸出語音信息的功率譜，P_y(ω)為原始語音信息的功率譜，P_n1(ω)為發(fā)聲前的寂靜段的功率譜，P_n2(ω)為發(fā)聲結(jié)束后的寂靜段的功率譜，t₁為發(fā)聲前的寂靜段結(jié)束時的時間點，t₂為發(fā)聲結(jié)束后的寂靜段開始時的時間點，t為當前所要處理的語音信息的時間點。

優(yōu)選的，所述原始語音處理模塊，包括用于對語音增強后的原始語音信息進行濾波，所用濾波方法為通過帶通濾波器進行濾波。

優(yōu)選的，所述聲學特征包括：

Mel頻段倒譜系數(shù)和過零峰值幅度。

優(yōu)選的，所述聲學特征識別提取模塊，用于對處理后的語音信息中的聲學特征進行識別提取，包括，對處理后的語音信息進行預加重、分幀和加窗，加窗所用的窗函數(shù)為：

其中，w(n)為窗函數(shù)的值，N為幀長，n為采樣點；

對聲學特征進行識別提取使用基于Levenberg-Marquardt算法的神經(jīng)網(wǎng)絡進行識別提取。

優(yōu)選的，所述基礎元數(shù)據(jù)集，所用存儲方法為，先存儲一類語音信息分類的聲學特征及與其對應的文本信息，作為參考數(shù)據(jù)，對于其他語音信息分類的聲學特征，根據(jù)聲學特征出現(xiàn)的概率使用不同的存儲方式，出現(xiàn)概率高的聲學特征進行完整存儲，出現(xiàn)概率低的聲學特征僅存儲其與參考數(shù)據(jù)的不同部分。

優(yōu)選的，所述聲學特征匹配模塊，用于將提取的聲學特征與基礎元數(shù)據(jù)集中與相應的語音信息分類對應的聲學特征進行匹配，識別出第一語音識別結(jié)果，所用識別方法為通過HMM-GMM模型或RNN-GMM模型進行識別。

優(yōu)選的，所述識別糾錯模塊，用于通過語言模型對第一語音識別結(jié)果進行清洗糾錯，得到第二語音識別結(jié)果，包括：結(jié)合語義模型對第一語音識別結(jié)果進行清洗糾錯。

本發(fā)明的一些有益效果可以包括：

本發(fā)明的提供的系統(tǒng)，可以顯著降低環(huán)境噪聲對語音識別的識別率的影響，通過對語音的分類還能改善方言和語速對語音識別的識別率的影響，本發(fā)明通過優(yōu)化對原始語音信息的處理和使用多種聲學特征，使語音識別的識別率有較大提高，再結(jié)合語言模型的使用，大大提高了語音識別的識別率。本發(fā)明提高了計算機對語音識別的識別能力，尤其適用于語音類型較豐富的大數(shù)據(jù)分析，使對語音識別的處理結(jié)果更加準確。

本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述，并且，部分地從說明書中變得顯而易見，或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。

下面通過附圖和實施例，對本發(fā)明的技術方案做進一步的詳細描述。

附圖說明

附圖用來提供對本發(fā)明的進一步理解，并且構(gòu)成說明書的一部分，與本發(fā)明的實施例一起用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的限制。在附圖中：

圖1為本發(fā)明實施例中一種用于大數(shù)據(jù)分析的語音識別系統(tǒng)的示意圖。

具體實施方式

以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行說明，應當理解，此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明，并不用于限定本發(fā)明。

圖1為本發(fā)明實施例中一種用于大數(shù)據(jù)分析的語音識別系統(tǒng)的示意圖，如圖1所示，包括：

語音信息分類模塊，用于對原始語音信息進行分類，得到分類后的原始語音信息；原始語音處理模塊，用于對分類后的原始語音信息進行語音增強和濾波，得到處理后的語音信息；聲學特征識別提取模塊，用于對處理后的語音信息中的聲學特征進行識別提取；基礎元數(shù)據(jù)集，用于存儲針對不同語音信息分類的聲學特征及與其對應的文本信息；聲學特征匹配模塊，用于將提取的聲學特征與基礎元數(shù)據(jù)集中與相應的語音信息分類對應的聲學特征進行匹配，識別出第一語音識別結(jié)果；識別糾錯模塊，用于對識別出的第一語音識別結(jié)果進行清洗糾錯，得到第二語音識別結(jié)果；結(jié)果輸出模塊，用于將第二語音識別結(jié)果作為語音識別結(jié)果進行輸出。

在一個實施例中，語音信息分類模塊，用于根據(jù)語音特征對對原始語音信息進行分類，其中語音特征包括：語音的時長、語音包含的音素數(shù)量。通過語音包含的音素數(shù)量與語音的時長之比判斷語速，進而通過語速進行分類。在另一個實施例中，語音信息分類模塊所用的語音特征包括基頻包絡和共振峰模式，通過對基頻包絡和共振峰模式的識別將語音分入普通話類或不同的方言分類。通過語音信息分類模塊的處理，能夠通過對語音的分類來改善方言和語速對語音識別的識別率的影響。

在一個實施例中，原始語音處理模塊，包括用于對分類后的原始語音信息進行語音增強，得到語音增強后的原始語音信息，所用增強方法為減譜法，所用減譜公式為：

其中，P_S(ω)為輸出語音信息的功率譜，P_y(ω)為原始語音信息的功率譜，P_n1(ω)為發(fā)聲前的“寂靜段”的功率譜，“寂靜段”為原始語音信息當中被識別為沒有發(fā)音的時間段，可通過現(xiàn)有技術對其識別，P_n2(ω)為發(fā)聲結(jié)束后的“寂靜段”的功率譜，t₁為發(fā)聲前的“寂靜段”結(jié)束時的時間點，t₂為發(fā)聲結(jié)束后的“寂靜段”開始時的時間點，t為當前所要處理的語音信息的時間點(其值為當前所要處理的語音信息的開始的時間點和結(jié)束的時間點的算術平均值)。在另一個實施例中，減譜公式還可以表示為：

其中，α_i為值在0到1之間的權重系數(shù)，且∑_iα_i＝1，P_ni(ω)為某一“寂靜段”的功率譜。通過考慮2個或更多的“寂靜段”的功率譜，同時考慮各“寂靜段”與當前所要處理的語音信息的時間點的靠近關系，可以更準確的估計當前所要處理的語音信息中包含的環(huán)境噪聲。

在一個實施例中，原始語音處理模塊，包括用于對語音增強后的原始語音信息進行濾波，所用濾波方法為通過帶通濾波器進行濾波。包括對語音增強后的原始語音信息進行濾波，所用濾波方法為通過帶通濾波器進行濾波。該帶通濾波器的上、下截至頻率分別是4500Hz和60Hz，采樣頻率是10kHz。通過這種濾波器濾波，即可以防止混疊干擾，又能抑制50Hz的電源工頻干擾，使后續(xù)處理的效果更準確。

在一個實施例中，所述聲學特征包括：Mel頻段倒譜系數(shù)(MFCC)和過零峰值幅度(ZCPA)，對于每個語音信息分類都存有對應的聲學特征。

在一個實施例中，采用的聲學特征LPCC、DPSCC、MFCC和ZCPA，在對某一音素進行識別時，首先將語音分配到一個語音信息分類中，然后分別使用與該語音信息分類相匹配的LPCC、DPSCC、MFCC和ZCPA作為聲學特征進行識別，并根據(jù)預設給LPCC、DPSCC、MFCC和ZCPA的權重系數(shù)，對某一音素的識別結(jié)果進行加權判斷，得到該音素的識別結(jié)果。通過將語音進行分類，并使用與相應語音信息分類對應的多個聲學特征，可以使得進行語音識別的時候，既可以減少方言對識別率的影響，又有較好的抗環(huán)境噪聲能力，還有修正使用單一聲學特征進行識別時造成的識別錯誤的能力，能夠提高語音識別的精度。

在一個實施例中，聲學特征識別提取模塊，用于對處理后的語音信息中的聲學特征進行識別提取，包括，對處理后的語音信息進行預加重、分幀和加窗，加窗所用的窗函數(shù)為：

其中，w(n)為窗函數(shù)的值，N為幀長，n為采樣點。

對聲學特征進行識別提取使用基于Levenberg-Marquardt算法的神經(jīng)網(wǎng)絡進行識別提取。在使用基于Levenberg-Marquardt算法的神經(jīng)網(wǎng)絡時，根據(jù)輸入聲學特征和輸出文本的形式確定輸入層和輸出層的節(jié)點數(shù)，再用黃金分割優(yōu)選法確定隱含層的節(jié)點數(shù)，再使用標記的數(shù)據(jù)集對該神經(jīng)網(wǎng)絡進行訓練和優(yōu)化。

該窗函數(shù)與標準MFCC提取過程中使用的漢明(Hamming)窗相比，能夠在保持窗函數(shù)主瓣寬度基本不變的情況下，更有效的抑制旁瓣，可以有效的減小對原始語音信息處理過程中引入的誤差，使對MFCC等聲學特征的提取更加準確。使用基于Levenberg-Marquardt算法的神經(jīng)網(wǎng)絡較常用的BP網(wǎng)絡收斂更快，且穩(wěn)定性足夠。

在一個實施例中，基礎元數(shù)據(jù)集，所用存儲方法為，先存儲普通話分類的聲學特征及與其對應的文本信息，作為參考數(shù)據(jù)，對于其他方言分類的聲學特征，根據(jù)聲學特征出現(xiàn)的概率使用不同的存儲方式，出現(xiàn)概率高于預置閾值1/5000的聲學特征進行完整存儲，出現(xiàn)概率不高于1/5000的聲學特征僅存儲其與普通話的數(shù)據(jù)中的不同部分。通過這種存儲方法，既可以減少所需要的存儲空間，還可以減少音速與聲學特征匹配的時間，提高語音識別的速度。

在一個實施例中，基礎元數(shù)據(jù)集，由神經(jīng)網(wǎng)絡對標記的訓練集進行增強學習獲取。使用通過這種方式獲取的基礎元數(shù)據(jù)集中的聲學特征進行語音識別有較好的抗干擾能力。

在一個實施例中，聲學特征匹配模塊，用于將提取的聲學特征與基礎元數(shù)據(jù)集中與相應的語音信息分類對應的聲學特征進行匹配，識別出第一語音識別結(jié)果，所用識別方法為通過HMM-GMM模型或RNN-GMM模型進行識別。在一個實施例中，通過HMM-GMM模型對提取的聲學特征進行識別，所用方法為：

其中，為所識別出的語句；W為表示一個語句；P(W)表示語句W出現(xiàn)的概率；λ_i為預先設置的不同音素識別方法的權重系數(shù)，其值大于0；P_i(X|W)為使用音素識別方法i時，由語句W識別為語音X的概率。不同的音素識別方法，可以是使用單一聲學特征進行識別，也可以是使用多個聲學特征的組合進行識別。使用多個聲學特征的組合進行識別的一個例子是，使用MFCC和ZCPA作為聲學特征進行識別，兩種聲學特征的權重分別為0.4和0.6。通過HMM-GMM模型或RNN-GMM模型進行識別，可以方便的組合多種音素識別方法，使語音識別結(jié)果的可靠性更高。

在一個實施例中，識別糾錯模塊，用于通過語言模型對第一語音識別結(jié)果進行清洗糾錯，得到第二語音識別結(jié)果，包括：結(jié)合語義模型對第一語音識別結(jié)果進行清洗糾錯。在得到第一識別結(jié)果后，通過預設的語義模型對識別出的結(jié)果進行檢查，當?shù)谝徽Z音識別結(jié)果滿足預設的語義模型時，將第一語音識別結(jié)果確認為第二語音識別結(jié)果；當?shù)谝徽Z音識別結(jié)果不滿足預設的語義模型時，根據(jù)預設的糾錯模板對第一語音識別結(jié)果進行糾錯，并將糾錯過的結(jié)果確定為第二語音識別結(jié)果。通過語義模型對(識別出的)文本信息進行糾錯可通過現(xiàn)有技術實現(xiàn)。通過使用語義模型對語音識別的結(jié)果進行糾錯，可以使語音識別結(jié)果的可靠性進一步提高，使對語音識別的處理結(jié)果更加準確。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合?？商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產(chǎn)生一個機器，使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中，使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品，該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上，使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理，從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

顯然，本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動和變型在內(nèi)。

完整全部詳細技術資料下載

當前第1頁1 2 3