本發(fā)明涉及語音信號處理領(lǐng)域,尤其涉及一種連續(xù)語音識別方法及系統(tǒng)。
背景技術(shù):
實現(xiàn)人機之間人性化、智能化的有效交互,構(gòu)建高效自然的人機交流環(huán)境,已經(jīng)成為當前信息技術(shù)應用和發(fā)展的迫切需求。語音作為人與外界交流最方便快捷的方式,其識別技術(shù)一直是相關(guān)領(lǐng)域研究人員研究的熱點。
傳統(tǒng)的語音識別系統(tǒng)中,對待識別的語音信號采用麥克風陣列、濾波器、譜減等降噪方法進行語音信號去噪,再提取去噪后的語音信號特征,基于預先訓練好的聲學模型進行后續(xù)的識別工作。傳統(tǒng)語音識別系統(tǒng)中語音去噪效果不理想,因而在噪聲環(huán)境下連續(xù)語音的識別率無法保證。
基于此,有研究人員提出了基于深度神經(jīng)網(wǎng)絡(Deep Neural Networks,DNN)去噪的最新研究成果,運用到語音識別中即根據(jù)去噪后的語音信號特征及預先訓練好的聲學模型進行后續(xù)的識別工作。采用該種方法進行語音識別,因基于深度神經(jīng)網(wǎng)絡的去噪效果較好,整個語音識別效果有了一定的提升,但因語音增強的目的是提升語音的整體質(zhì)量,更關(guān)注于聽感,而基于數(shù)據(jù)驅(qū)動的語音識別更關(guān)心聲學特征的分布是否能夠覆蓋足夠多的語音特征分布,所以兩者之間存在著中間變換,不能夠直接面對語音識別中的噪聲魯棒性問題,因而這種將語音增強器作為語音識別的前端,增強后的語音聲學特征再送給識別器的語音識別系統(tǒng)識別率的提升空間較小。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種連續(xù)語音識別方法及系統(tǒng),以解決現(xiàn)有的基于DNN去噪的語音識別中的噪聲魯棒性問題,提高連續(xù)語音識別的正確性。
為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:
一種連續(xù)語音識別方法,包括:
預先訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡;
接收待識別的連續(xù)語音信號;
提取所述語音信號的聲學特征;
根據(jù)所述聲學特征和所述神經(jīng)網(wǎng)絡得到語音建模單元的后驗概率;
對所述語音信號連續(xù)語音段的所有幀語音的建模單元后驗概率進行維特比解碼,得到語音識別結(jié)果。
優(yōu)選地,所述訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡包括:
訓練前端用于語音去噪的回歸模型,所述回歸模型的輸入為帶噪的聲學特征,輸出為去噪的聲學特征;
訓練后端用于聲學分類的分類模型,所述分類模型的輸入為去噪的聲學特征,輸出為每個語音建模單元的后驗概率,并且所述分類模型的輸入節(jié)點個數(shù)與所述回歸模型的輸出節(jié)點個數(shù)相同;
融合所述回歸模型和分類模型;
對融合后的模型進行前后端聯(lián)合訓練,得到語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
優(yōu)選地,所述訓練前端用于語音去噪的回歸模型包括:
獲取訓練數(shù)據(jù);
提取所述訓練數(shù)據(jù)的聲學特征;
確定模型拓撲結(jié)構(gòu);所述模型拓撲結(jié)構(gòu)包括輸入層、輸出層及隱層;
確定模型初始參數(shù);
基于所述訓練數(shù)據(jù)的聲學特征及所述模型初始參數(shù),訓練得到前端用于語音去噪的回歸模型。
優(yōu)選地,所述訓練數(shù)據(jù)為帶噪的語音數(shù)據(jù);所述獲取訓練數(shù)據(jù)包括:
獲取純凈的語音數(shù)據(jù),然后對所述純凈的語音數(shù)據(jù)加入多類型的噪聲,得到帶噪的語音數(shù)據(jù);或者
通過錄音獲取帶噪的語音數(shù)據(jù)。
優(yōu)選地,所述確定模型初始參數(shù)包括:
基于RBM的無監(jiān)督預訓練確定模型初始參數(shù)。
優(yōu)選地,所述基于所述訓練數(shù)據(jù)的聲學特征及所述模型初始參數(shù),訓練得到前端用于語音去噪的回歸模型包括:
基于誤差后向擴展算法及提取的訓練數(shù)據(jù)的聲學特征更新模型的參數(shù),完成模型訓練。
優(yōu)選地,所述對融合后的模型進行前后端聯(lián)合訓練,得到語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡包括:
固定所述回歸模型各層之間的權(quán)值,調(diào)整所述分類模型各層之間的權(quán)值;
固定調(diào)整后所述分類模型各層之間的權(quán)值,調(diào)整所述回歸模型的權(quán)值;
對融合后的模型進行整體權(quán)值調(diào)整,得到語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
優(yōu)選地,所述對融合后的模型進行整體權(quán)值調(diào)整包括:
將融合后的模型作為一個分類模型,基于最小交叉熵準則進行模型整體權(quán)值調(diào)整;或者
對于融合后的模型中的回歸模型部分采用MMSE準則、分類模型部分采用最小交叉熵準則,并且對這兩部分設(shè)定不同的權(quán)值進行模型整體權(quán)值調(diào)整。
優(yōu)選地,所述預先訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡包括:
基于單一特性的聲學特征訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡;或者
基于多種特性的聲學特征訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
一種連續(xù)語音識別系統(tǒng),包括:
訓練模塊,用于訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡;
接收模塊,用于接收待識別的連續(xù)語音信號;
特征提取模塊,用于提取所述語音信號的聲學特征;
識別模塊,用于根據(jù)所述聲學特征和所述神經(jīng)網(wǎng)絡得到語音建模單元的后驗概率,并對所述語音信號連續(xù)語音段的所有幀語音的建模單元后驗概率進行維特比解碼,得到語音識別結(jié)果。
優(yōu)選地,所述訓練模塊包括:
回歸模型訓練模塊,用于訓練前端用于語音去噪的回歸模型,所述回歸模型的輸入為帶噪的聲學特征,輸出為去噪的聲學特征;
分類模型訓練模塊,用于訓練后端用于聲學分類的分類模型,所述分類模型的輸入為去噪的聲學特征,輸出為每個語音建模型單元的后驗概率,并且所述分類模型的輸入節(jié)點個數(shù)與所述回歸模型的輸出節(jié)點個數(shù)相同;
融合模塊,用于融合所述回歸模型和分類模型;
聯(lián)合訓練模塊,用于對融合后的模型進行前后端聯(lián)合訓練,得到語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
優(yōu)選地,所述回歸模型訓練模塊包括:
訓練數(shù)據(jù)獲取單元,用于獲取訓練數(shù)據(jù);
提取單元,用于提取所述訓練數(shù)據(jù)的聲學特征;
拓撲結(jié)構(gòu)確定單元,用于確定模型拓撲結(jié)構(gòu);所述模型拓撲結(jié)構(gòu)包括輸入層、輸出層及隱層;
初始參數(shù)確定單元,用于確定模型初始參數(shù);
訓練單元,用于基于所述訓練數(shù)據(jù)的聲學特征及所述模型初始參數(shù),訓練得到前端用于語音去噪的回歸模型。
優(yōu)選地,所述訓練數(shù)據(jù)為帶噪的語音數(shù)據(jù);
所述訓練數(shù)據(jù)獲取單元,具體用于獲取純凈的語音數(shù)據(jù),然后對所述純凈的語音數(shù)據(jù)加入多類型的噪聲,得到帶噪的語音數(shù)據(jù);或者通過錄音獲取帶噪的語音數(shù)據(jù)。
優(yōu)選地,所述初始參數(shù)確定單元,具體用于基于RBM的無監(jiān)督預訓練確定模型初始參數(shù)。
優(yōu)選地,所述訓練單元,具體用于基于誤差后向擴展算法及提取的訓練數(shù)據(jù)的聲學特征更新模型的參數(shù),完成模型訓練。
優(yōu)選地,所述聯(lián)合訓練模塊包括:
第一調(diào)整單元,用于固定所述回歸模型各層之間的權(quán)值,調(diào)整所述分類模型各層之間的權(quán)值;
第二調(diào)整單元,用于固定調(diào)整后所述分類模型各層之間的權(quán)值,調(diào)整所述回歸模型的權(quán)值;
整體調(diào)整單元,用于對融合后的模型進行整體權(quán)值調(diào)整,得到語音去 噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
優(yōu)選地,所述整體調(diào)整單元,具體用于將融合后的模型作為一個分類模型,基于最小交叉熵準則進行模型整體權(quán)值調(diào)整;或者對于融合后的模型中的回歸模型部分采用MMSE準則、分類模型部分采用最小交叉熵準則,并且對這兩部分設(shè)定不同的權(quán)值進行模型整體權(quán)值調(diào)整。
優(yōu)選地,所述訓練模塊,具體用于基于單一特性的聲學特征訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡;或者基于多種特性的聲學特征訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
本發(fā)明實施例提供的連續(xù)語音識別方法及系統(tǒng),將前端用于語音去噪的回歸模型與后端用于聲學分類的分類模型進行拼接,融合成的新的模型,并對新的模型進行前后端聯(lián)合訓練,即直接在聲學特征層面訓練得到用于語音識別的神經(jīng)網(wǎng)絡。利用該語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡對連續(xù)語音信號進行解碼,避免了現(xiàn)有語音識別系統(tǒng)中語音增強與語音識別之間的變換,更直接地解決語音識別中的噪聲魯棒性問題,提高了連續(xù)語音識別的正確率。
附圖說明
為了更清楚地說明本發(fā)明實施的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1示出了本發(fā)明實施例中前端回歸模型的訓練流程圖;
圖2示出了本發(fā)明實施例中訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡的流程圖;
圖3示出了是本發(fā)明實施例中融合后的模型示意圖;
圖4示出了本發(fā)明實施例中對融合后的模型進行整體權(quán)值調(diào)整的示意圖;
圖5示出了本發(fā)明實施例連續(xù)語音識別方法的流程圖;
圖6示出了本發(fā)明實施例連續(xù)語音識別系統(tǒng)的結(jié)構(gòu)示意圖;
圖7示出了本發(fā)明實施例中訓練模塊的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明實施例的連續(xù)語音識別方法及系統(tǒng),預先訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡,然后基于該神經(jīng)網(wǎng)絡對連續(xù)語音信號進行解碼,得到語音識別結(jié)果。
上述語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡是由前端用于語音去噪的回歸模型與后端用于聲學分類的分類模型進行拼接融合得到的。具體地,分別訓練前端用于語音去噪的回歸模型及后端用于聲學分類的分類模型,然后將所述回歸模型與所述分類模型進行拼接,得到新的模型,并對新的模型進行前后端聯(lián)合訓練,即直接在聲學特征層面訓練得到用于語音識別的神經(jīng)網(wǎng)絡。
在具體應用中,上述前端回歸模型及后端聲紋模型采用同種類型的網(wǎng)絡模型來構(gòu)建,比如DNN、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)、多層反饋神經(jīng)網(wǎng)絡(Recurrent neural Network,RNN等。其中,回歸模型的輸入為帶噪的聲學特征,輸出為去噪的聲學特征;分類模型的輸入為去噪的聲學特征,輸出為語音建模型單元的后驗概率,并且所述分類模型的輸入節(jié)點個數(shù)與所述回歸模型的輸出節(jié)點個數(shù)相同。
如圖1所示,是本發(fā)明實施例中前端回歸模型的訓練流程圖,包括以下步驟:
步驟101,獲取訓練數(shù)據(jù)。
所述訓練數(shù)據(jù)為帶噪的語音數(shù)據(jù)。該帶噪的語音數(shù)據(jù)可以通過錄音獲取。具體地,可以在錄音室環(huán)境中,通過兩個擴音器,一個放干凈語音,另一個放噪聲,再通過麥克風回錄帶噪語音,訓練的時候,再將回錄的帶 噪語音和對應的干凈語音做幀同步即可。該帶噪的語音數(shù)據(jù)也可以通過對純凈語音加入噪聲獲取平行語音數(shù)據(jù),所謂平行語音數(shù)據(jù),是指通過人工加噪得到的帶噪語音和干凈語音在幀級完全對應,其噪聲的覆蓋度以及數(shù)據(jù)量的大小可根據(jù)實際應用場景決定,如對于特定應用場景,需加入的噪聲只是該應用場景下可能出現(xiàn)的較為少數(shù)的噪聲類型;而對于普適應用,一般其涵蓋的噪聲類型越多、越全面,其效果越好,因此在噪聲加入時,加入的噪聲類型及信噪比覆蓋面越全越好。
比如,噪聲樣本可以選自Aurora2數(shù)據(jù)庫中的高斯白噪聲、多人說話噪聲、餐廳噪聲和街道噪聲等。信噪比可以為:20dB、15dB、10dB、5dB、0dB、-5dB等。將純凈語音與噪聲相加,用來模擬真實場景中的語音和噪聲音的相對能量大小,從而構(gòu)成足夠時長(比如約100小時)的多種環(huán)境類型的訓練集,以保證模型的泛化能力。
步驟102,提取所述訓練數(shù)據(jù)的聲學特征。
所述聲學特征可以是Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)、線性預測分析(Linear Predictive Coding,PLP)等。比如,可以提取39維的MFCC。
步驟103,確定模型拓撲結(jié)構(gòu);所述模型拓撲結(jié)構(gòu)包括輸入層、輸出層及隱層。
所述模型拓撲結(jié)構(gòu)包括輸入層、輸出層及隱層;所述輸入層的輸入為帶噪的多維聲學特征,所述輸出層的輸出為多維去噪的聲學特征。這些結(jié)構(gòu)參數(shù)的確定可以根據(jù)實際應用需要來確定,比如:輸入節(jié)點設(shè)為39×11個,隱層數(shù)設(shè)為3個,隱層節(jié)點設(shè)為2048個,輸出節(jié)點設(shè)為429個。
步驟104,確定模型初始參數(shù)。
具體地,可以根據(jù)經(jīng)驗設(shè)定初始參數(shù),然后直接根據(jù)訓練數(shù)據(jù)的聲學特征訓練數(shù)據(jù),其訓練準則和訓練算法可以有多種,不限定為哪種特定方法,例如:訓練準則包括最小均方誤差、最大后驗概率等。訓練算法可以是梯度下降法、動量梯度下降法、變學習率等算法等。
當然,也可以先基于受限波爾茲曼機(Restricted Boltzmann Machines,RBM)的無監(jiān)督訓練確定模型初始參數(shù),然后再訓練調(diào)整模型參數(shù)。
步驟105,基于所述訓練數(shù)據(jù)的聲學特征及所述模型初始參數(shù),訓練得 到前端用于語音去噪的回歸模型。
具體地,可以采用誤差后向擴展算法(Back Propagation)進行模型參數(shù)的調(diào)優(yōu),具體如下:
目標函數(shù)如下:
其中,表示第n個樣本的前后擴展τ幀的原始帶噪語音的多維聲學特征向量;表示第n個樣本的前后擴展τ幀的目標輸出的多維聲學特征向量;表示第n個樣本的前后擴展τ幀的實際輸出的多維聲學特征向量;Wl和bl分別是隱層l的權(quán)重矩陣和偏差向量;κ是正則項,用于防止網(wǎng)絡過擬合,一般可由經(jīng)驗或大量實驗結(jié)果確定。
模型收斂可以通過下式判斷:
|CVi+1-CVi|<th (2)
其中,i為網(wǎng)絡迭代的次數(shù),CVi+1和CVi表示對應迭代過程時得到的均方誤差值(即式1中目標函數(shù)值)。th為判決門限,當前后兩次迭代的正確率差值小于門限時停止迭代。
模型參數(shù)更新公式如下:
其中,L為神經(jīng)網(wǎng)絡的總層數(shù),η為學習速率,一般可由經(jīng)驗和大量實驗結(jié)果確定。
后端分類模型同樣采用DNN拓撲結(jié)構(gòu),而且分類模型的輸入為前端回歸模型的輸出。比如,分類模型的輸入為429維的語音聲學特征,隱層數(shù)為3~8層,隱層節(jié)點數(shù)為2048,輸出層為音素級類別,如英文有41個單音素,那么輸出層就可以是41個節(jié)點,如果輸出以triphone形式,那么理論上輸出節(jié)點數(shù)為413,因其節(jié)點數(shù)過多,一般可以對音素的triphone類數(shù)進行聚類,比如聚成3296類,即分類模型的輸出節(jié)點數(shù)可為3296個。
后端分類模型的訓練過程與上述前端回歸模型的訓練過程類似,比如先進行無監(jiān)督預訓練得到較好的模型初始參數(shù),然后采用誤差后向擴展算法進行網(wǎng)絡參數(shù)的進一步優(yōu)化調(diào)整。
需要說明的是,在實際應用中,為了減少計算量,可以從現(xiàn)有的分類模型中挑選一個輸入節(jié)點數(shù)與上述回歸模型輸出節(jié)點數(shù)相同的神經(jīng)網(wǎng)絡模型作為初始分類模型。
對上述訓練得到的前端回歸模型及后端分類模型進行融合及聯(lián)合訓練,得到語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
如圖2所示,是本發(fā)明實施例中訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡的流程圖,包括以下步驟:
步驟201,訓練前端用于語音去噪的回歸模型。
步驟202,訓練后端用于聲學分類的分類模型。
步驟203,融合所述回歸模型和分類模型。
前面提到,后端分類模型的輸入節(jié)點個數(shù)與前端回歸模型的輸出節(jié)點個數(shù)相同,因此,可以直接將前端回歸模型和后端分類模型進行拼接,得到融合后的模型。
如圖3所示,是本發(fā)明實施例中融合后的模型示意圖。
步驟204,對融合后的模型進行前后端聯(lián)合訓練,得到語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
對融合后的模型進行前后端聯(lián)合訓練的過程如下:
(1)固定所述回歸模型各層之間的權(quán)值,調(diào)整所述分類模型各層之間的權(quán)值。
比如,可以基于最小交叉熵(Cross-Entropy)準則對后端分類模型各層之間的權(quán)值進行調(diào)整,具體如下:
后端分類模型的輸出值或者稱為輸出分布按照softmax激活函數(shù)計算如下:
其中,art(s)是輸出層對應于句子r中時刻t時狀態(tài)s對應節(jié)點的激活值。
交叉熵函數(shù)可以表示成如下形式:
其中,srt表示t時刻句子r中的音素標記。
目標函數(shù)最小需要對其計算偏導,公式如下:
其中,如果強制切分的狀態(tài)標記srt等于s,那么δrt(s)=1,否則δrt(s)=0。
權(quán)值更新公式如下:
訓練過程中,每一步迭代之后都會計算交叉測試(Cross-test)部分的分類正確率??梢园凑涨笆龉?2)判決條件停止迭代,防止網(wǎng)絡過擬合。與采用MMSE準則訓練時收斂判斷有所區(qū)別的是:CVi+1和CVi表示對應迭代過程時得到的分類正確率。
(2)固定調(diào)整后所述分類模型各層之間的權(quán)值,調(diào)整所述回歸模型的權(quán)值。
比如,可以采用最小均方誤差(Minimum Mean Square Error,MMSE)準則調(diào)整前端回歸模型,其調(diào)整過程與前端回歸模型的調(diào)整過程類似,此處不再重復闡述。
(3)對融合后的模型進行整體權(quán)值調(diào)整,得到語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
具體地,可以采用以下兩種方式進行整體權(quán)值的調(diào)整:
方式1:將融合后的模型作為一個分類模型,基于最小交叉熵準則進行模型整體權(quán)值調(diào)整。具體調(diào)整方法與前面所述的后端分類模型權(quán)值調(diào)整過程相同,此處不再重復闡述。
方式2:既考慮整體的交叉熵準則最優(yōu)又同時兼顧回歸網(wǎng)絡的最小均方誤差準則對融合后的模型進行整體權(quán)值調(diào)整,如圖4所示。
權(quán)值更新公式如下:
其中,α與β為可調(diào)參數(shù),用于控制兩者間的比重,以提升整體系統(tǒng)表現(xiàn),一般可由經(jīng)驗確定初始值,再通過大量實驗調(diào)整,確定最終取值。
上述訓練得到的語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡,由于是直接在聲學特征層面訓練用于語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡,利用該神經(jīng)網(wǎng)絡進行語音識別,可以避免現(xiàn)有語音識別系統(tǒng)中語音增強與語音識別之間的轉(zhuǎn)換。
如圖5所示,是本發(fā)明實施例連續(xù)語音識別方法的流程圖,包括以下步驟:
步驟501,預先訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
具體訓練過程將在前面已有詳細描述,在此不再贅述。
步驟502,接收待識別的連續(xù)語音信號。
步驟503,提取所述語音信號的聲學特征。
具體地,可以首先對所述語音信號進行加窗分幀,再提取其聲學特征,所述聲學特征可以是Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)、線性預測分析(Linear Predictive Coding,PLP)等。以MFCC特征為例,可以采用25ms的漢明窗函數(shù),采用率為16KHZ,提取39維的MFCC特征。
步驟504,根據(jù)所述聲學特征和所述神經(jīng)網(wǎng)絡得到語音建模單元的后驗概率。
具體地,將所述聲學特征輸入所述神經(jīng)網(wǎng)絡,得到所述神經(jīng)網(wǎng)絡輸出的每個語音建模型單元的后驗概率。
所述語音建模單元可以是音素、音節(jié)等。
步驟505,對所述語音信號連續(xù)語音段的所有幀語音的建模單元后驗概率進行維特比解碼,得到語音識別結(jié)果。
比如,通過貝葉斯公式將所述后驗概率轉(zhuǎn)化為條件概率作為HMM的觀察概率,再使用維特比解碼,最終得到連續(xù)語音的識別結(jié)果。
需要說明的是,在實際應用中,所述語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡可以基于單個聲學特征進行訓練,這樣,在語音識別時,對于待識別的連續(xù)語音信號,可以提取語音信號的相應聲學特征,基于訓練得到的 神經(jīng)網(wǎng)絡進行語音識別。當然,也可以針對多個不同特性的聲學特征分別訓練相應的神經(jīng)網(wǎng)絡,比如分別訓練基于MFCC和PLP的語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡,這樣,在語音識別時,分別提取語音信號的MFCC和PLP,并基于相應的神經(jīng)網(wǎng)絡得到各音素類別的后驗概率,然后再針對每個音素類別,對該音素類別的兩個后概率做加權(quán)平均,作為該音素類別的后驗概率,進一步提升連續(xù)語音識別效果。另外,在訓練所述語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡時,還可以基于多種聲學特征來訓練得到一個基于多特征的神經(jīng)網(wǎng)絡,這樣,在語音識別時,對于待識別的連續(xù)語音信號,提取語音信號的相應聲學特征,將這些不同特性的聲學特征輸入到該神經(jīng)網(wǎng)絡,得到各音素類別的后驗概率,由于綜合考慮了不同特性的聲學特征,因而也可以進一步提升連續(xù)語音識別效果。
本發(fā)明實施例提供的連續(xù)語音識別方法,將前端用于語音去噪的回歸模型與后端用于聲學分類的分類模型進行拼接,融合成新的模型,并對新的模型進行前后端聯(lián)合訓練,即直接在聲學特征層面訓練得到用于語音識別的神經(jīng)網(wǎng)絡。利用該語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡對連續(xù)語音信號進行解碼,避免了現(xiàn)有語音識別系統(tǒng)中語音增強與語音識別之間的變換,更直接地解決語音識別中的噪聲魯棒性問題,提高了連續(xù)語音識別的正確率。而且,實現(xiàn)方式靈活,可以根據(jù)應用需要,基于單一特性的聲學特征訓練相應的神經(jīng)網(wǎng)絡,也可以基于多個不同特性的聲學特征分別訓練相應的神經(jīng)網(wǎng)絡,還可以訓練基于多聲學特征的神經(jīng)網(wǎng)絡。
相應地,本發(fā)明實施例還提供一種連續(xù)語音識別系統(tǒng),如圖6所示,是該系統(tǒng)的一種結(jié)構(gòu)示意圖。
在該實施例中,所述系統(tǒng)包括:
訓練模塊601,用于訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡;
接收模塊602,用于接收待識別的連續(xù)語音信號;
特征提取模塊603,用于提取所述語音信號的聲學特征;
識別模塊604,用于根據(jù)所述聲學特征和所述神經(jīng)網(wǎng)絡得到語音建模單元的后驗概率,并對所述語音信號連續(xù)語音段的所有幀語音的建模單元后驗概率進行維特比解碼,得到語音識別結(jié)果。
需要說明的是,在實際應用中,上述訓練模塊601可以基于單一特性的聲學特征訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡;或者基于多種特性的聲學特征訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。而且,基于單一特性的聲學特征訓練所述神經(jīng)網(wǎng)絡時,可以僅訓練一個神經(jīng)網(wǎng)絡或分別訓練多個所述神經(jīng)網(wǎng)絡。相應地,識別模塊604可以基于多個所述神經(jīng)網(wǎng)絡對所述語音信號進行識別,得到各音素類別的后驗概率,然后再針對每個音素類別,對該音素類別的兩個后概率做加權(quán)平均,作為該音素類別的后驗概率,進一步提升連續(xù)語音識別效果。
另外,需要說明的是,不論是基于單一特性的聲學特征還是基于多種特性的聲學特征,訓練模塊601訓練語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡的過程是類似的。
如圖7所示,示出了本發(fā)明實施例中訓練模塊的結(jié)構(gòu)示意圖。
該訓練模塊包括:
回歸模型訓練模塊611,用于訓練前端用于語音去噪的回歸模型,所述回歸模型的輸入為帶噪的聲學特征,輸出為去噪的聲學特征;
分類模型訓練模塊612,用于訓練后端用于聲學分類的分類模型,所述分類模型的輸入為去噪的聲學特征,輸出為每個語音建模型單元的后驗概率,并且所述分類模型的輸入節(jié)點個數(shù)與所述回歸模型的輸出節(jié)點個數(shù)相同;
融合模塊613,用于融合所述回歸模型和分類模型;
聯(lián)合訓練模塊614,用于對融合后的模型進行前后端聯(lián)合訓練,得到語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
在本發(fā)明實施例中,所述前端回歸模型及后端分類模型基于同種類型的網(wǎng)絡模型來構(gòu)建,比如DNN、RNN、CNN等。其中,回歸模型的輸入為帶噪的聲學特征,輸出為去噪的聲學特征;分類模型的輸入為去噪的聲學特征,輸出為每個語音建模型單元的后驗概率,并且所述分類模型的輸入節(jié)點個數(shù)與所述回歸模型的輸出節(jié)點個數(shù)相同。
下面以回歸模型的訓練為例,回歸模型訓練模塊611的一種具體結(jié)構(gòu)包括以下各單元:
訓練數(shù)據(jù)獲取單元,用于獲取訓練數(shù)據(jù);
提取單元,用于提取所述訓練數(shù)據(jù)的聲學特征,比如MFCC、和/或PLP等;
拓撲結(jié)構(gòu)確定單元,用于確定模型拓撲結(jié)構(gòu);所述模型拓撲結(jié)構(gòu)包括輸入層、輸出層及隱層;
初始參數(shù)確定單元,用于確定模型初始參數(shù);
訓練單元,用于基于所述訓練數(shù)據(jù)的聲學特征及所述模型初始參數(shù),訓練得到前端用于語音去噪的回歸模型。
其中,所述訓練數(shù)據(jù)為帶噪的語音數(shù)據(jù);相應地,所述訓練數(shù)據(jù)獲取單元可以先獲取純凈的語音數(shù)據(jù),然后對所述純凈的語音數(shù)據(jù)加入多類型的噪聲,得到帶噪的語音數(shù)據(jù);或者通過錄音直接獲取帶噪的語音數(shù)據(jù)。所述初始參數(shù)確定單元可以基于RBM的無監(jiān)督預訓練確定模型初始參數(shù)。所述訓練單元可以基于誤差后向擴展算法及提取的訓練數(shù)據(jù)的聲學特征更新模型的參數(shù),完成模型訓練。
上述聯(lián)合訓練模塊614的一種具體結(jié)構(gòu)可以包括以下各單元:
第一調(diào)整單元,用于固定所述回歸模型各層之間的權(quán)值,調(diào)整所述分類模型各層之間的權(quán)值;
第二調(diào)整單元,用于固定調(diào)整后所述分類模型各層之間的權(quán)值,調(diào)整所述回歸模型的權(quán)值;
整體調(diào)整單元,用于對融合后的模型進行整體權(quán)值調(diào)整,得到語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡。
上述整體調(diào)整單元具體可以將融合后的模型作為一個分類模型,基于最小交叉熵準則進行模型整體權(quán)值調(diào)整;或者對于融合后的模型中的回歸模型部分采用MMSE準則、分類模型部分采用最小交叉熵準則,并且對這兩部分設(shè)定不同的權(quán)值進行模型整體權(quán)值調(diào)整。
上述各調(diào)整單元的具體對相應權(quán)值的調(diào)整方式及過程可參見前面本發(fā)明方法實施例中的描述,在此不再贅述。
本發(fā)明實施例提供的連續(xù)語音識別系統(tǒng),將前端用于語音去噪的回歸模型與后端用于聲學分類的分類模型進行拼接,融合成新的模型,并對新 的模型進行前后端聯(lián)合訓練,即直接在聲學特征層面訓練得到用于語音識別的神經(jīng)網(wǎng)絡。利用該語音去噪與聲學分類相融合的神經(jīng)網(wǎng)絡對連續(xù)語音信號進行解碼,避免了現(xiàn)有語音識別系統(tǒng)中語音增強與語音識別之間的變換,更直接地解決語音識別中的噪聲魯棒性問題,提高了連續(xù)語音識別的正確率。而且,實現(xiàn)方式靈活,可以根據(jù)應用需要,基于單一特性的聲學特征訓練相應的神經(jīng)網(wǎng)絡,也可以基于多個不同特性的聲學特征分別訓練相應的神經(jīng)網(wǎng)絡,還可以訓練基于多聲學特征的神經(jīng)網(wǎng)絡。
本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元及模塊可以是或者也可以不是物理上分開的。另外,還可以根據(jù)實際的需要選擇其中的部分或者全部單元和模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
以上依據(jù)圖式所示的實施例詳細說明了本發(fā)明的構(gòu)造、特征及作用效果,以上所述僅為本發(fā)明的較佳實施例,但本發(fā)明不以圖面所示限定實施范圍,凡是依照本發(fā)明的構(gòu)想所作的改變,或修改為等同變化的等效實施例,仍未超出說明書與圖示所涵蓋的精神時,均應在本發(fā)明的保護范圍內(nèi)。