本發(fā)明涉及計(jì)算機(jī)語(yǔ)種識(shí)別領(lǐng)域,特別涉及一種應(yīng)用于語(yǔ)種識(shí)別的鑒別性特征提取方法。
背景技術(shù):
語(yǔ)種識(shí)別是指計(jì)算機(jī)自動(dòng)判定或確認(rèn)一段語(yǔ)音所屬的語(yǔ)言種類的技術(shù)。這是個(gè)可使大規(guī)模跨語(yǔ)言語(yǔ)音識(shí)別應(yīng)用成為可能的技術(shù),可用于口語(yǔ)語(yǔ)言翻譯、口語(yǔ)文件檢索等。同時(shí)也是智能與安全領(lǐng)域信息提取的研究熱點(diǎn)。語(yǔ)種識(shí)別技術(shù)的關(guān)鍵在于用科學(xué)的方法來(lái)度量不同語(yǔ)言的個(gè)性。認(rèn)知學(xué)的實(shí)驗(yàn)表明,語(yǔ)言之間的差異可以由不同層次的特征反映出來(lái),包括聲學(xué)層特征、音素層特征、韻律特征、詞法特征和句法特征。
聲學(xué)層特征通常從原始語(yǔ)音直接提取,常用的有美爾倒譜系數(shù)(MFCC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)和感知器線性預(yù)測(cè)(PLP)等??紤]語(yǔ)音幀前后間的相互關(guān)系,通常要對(duì)特征進(jìn)行差分變換,例如一階差分,二階差分等。音素層特征主要考慮了各語(yǔ)言間的音節(jié)和音素不完全相同、音節(jié)和音素出現(xiàn)頻率的差異,以及音節(jié)和音素出現(xiàn)前后關(guān)系的不同作為識(shí)別依據(jù)。目前的語(yǔ)種識(shí)別系統(tǒng)大部分都基于聲學(xué)層特征和音素層特征。
近年來(lái),受益于信號(hào)處理、模式識(shí)別與機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域的科技突破,語(yǔ)種識(shí)別特征研究已取得了長(zhǎng)足的進(jìn)步,但仍有很多地方需要改進(jìn)與進(jìn)一步研究。參考文獻(xiàn)[1](H.Wang,C.Leung,T.Lee,B.Ma and H.Li,“Shifted-Delta MLP Features for Spoken Language Recognition”,IEEE Signal Processing Letters,vol.20,issue 1,pp.15-18,2013.)中研究表明,音素的后驗(yàn)概率可直接作為特征:語(yǔ)音信號(hào)經(jīng)音素識(shí)別器識(shí)別為幀級(jí)的音素后驗(yàn)概率向量后,用log運(yùn)算規(guī)整,再利用PCA進(jìn)行降維,代替?zhèn)鹘y(tǒng)的MFCC特征訓(xùn)練模型,在語(yǔ)種識(shí)別任務(wù)中取得優(yōu)秀的性能。該特征由于不需要解碼為音素序列或者音素網(wǎng)格,因此對(duì)音素識(shí)別器的依賴較小。實(shí)驗(yàn)結(jié)果顯示,該特征性能明顯優(yōu)于提取音素串或者音素網(wǎng)格的傳統(tǒng)特征。
參考文獻(xiàn)[2](M.Diez,A.Varona,M.Penagarikano,L.J.Rodriguez-Fuentes and G.Bordel,“On the Use of Phone Log-likelihood Ratios as Features in Spoken Language Recognition”,Spoken Language Technology Workshop(SLT),2012 IEEE,pp.274-279) 使用了不同的規(guī)整技術(shù),對(duì)概率比進(jìn)行Log規(guī)整而不是直接對(duì)概率進(jìn)行規(guī)整,從而定義了新的特征PLLR(Phone Log-Likelihood Ratio),同樣取得了很好的性能。
參考文獻(xiàn)[1]和參考文獻(xiàn)[2]為提取音素層特征開(kāi)辟了新的思路,但這兩種方法中都沒(méi)有考慮不同音素對(duì)語(yǔ)種識(shí)別的貢獻(xiàn)是有差別的。具體來(lái)講,不同音素在不同語(yǔ)種中的分布不同,有些音素集中出現(xiàn)在某個(gè)語(yǔ)種,而有些音素則很少出現(xiàn)于某個(gè)語(yǔ)種,那么這些音素對(duì)語(yǔ)種識(shí)別將比那些在所有語(yǔ)種中出現(xiàn)頻率差不多的音素具有更高的語(yǔ)種鑒別性,在特征中應(yīng)當(dāng)給予高的權(quán)重。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于解決現(xiàn)有基于音素后驗(yàn)概率特征中未考慮不同音素具有不同語(yǔ)種鑒別性的不足,從而提供
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種應(yīng)用于語(yǔ)種識(shí)別的鑒別性特征提取方法,包括:
在訓(xùn)練階段為訓(xùn)練集中的語(yǔ)音數(shù)據(jù)的幀級(jí)的音素后驗(yàn)概率特征向量計(jì)算F比指標(biāo),所述F比指標(biāo)反映了音素后驗(yàn)概率特征向量中每一維對(duì)語(yǔ)種鑒別性的貢獻(xiàn)大??;在測(cè)試階段為待測(cè)試的語(yǔ)音提取音素后驗(yàn)概率特征向量,并為所提取的音素后驗(yàn)概率特征向量根據(jù)F比指標(biāo)做特征加權(quán)。
上述技術(shù)方案中,該方法包括:
訓(xùn)練階段:
步驟101)、去除訓(xùn)練集中各段語(yǔ)音數(shù)據(jù)的非語(yǔ)音部分;其中,所述非語(yǔ)音部分包括靜音段、噪聲段;
步驟102)、將經(jīng)過(guò)步驟101)處理的訓(xùn)練集中各段語(yǔ)音數(shù)據(jù)做音素識(shí)別,得到各段語(yǔ)音數(shù)據(jù)的幀級(jí)的音素后驗(yàn)概率特征向量;
步驟103)、對(duì)步驟102)所得到的各段語(yǔ)音數(shù)據(jù)的幀級(jí)的音素后驗(yàn)概率特征向量分別進(jìn)行規(guī)整;
步驟104)、計(jì)算規(guī)整后的音素后驗(yàn)概率特征向量中每一維對(duì)語(yǔ)種鑒別性的貢獻(xiàn)大小,得到F比指標(biāo)的值;
步驟105)、在步驟104)所得到的規(guī)整后的音素后驗(yàn)概率特征向量中每一維的F比指標(biāo)值的基礎(chǔ)上,設(shè)定用于描述規(guī)整后音素后驗(yàn)概率特征向量每一維對(duì)語(yǔ)種鑒別性的貢獻(xiàn)大小的權(quán)重;
所述權(quán)重的計(jì)算表達(dá)式如下:
w(k)=x×F-Ratio(k)
其中,w(k)為規(guī)整后音素后驗(yàn)概率特征向量第k維對(duì)語(yǔ)種鑒別性的貢獻(xiàn)大小的權(quán)重,F(xiàn)-Ratio(k)為規(guī)整后的音素后驗(yàn)概率特征向量第k維的F-Ratio值,參數(shù)x為經(jīng)過(guò)實(shí)驗(yàn)得到的經(jīng)驗(yàn)值;
測(cè)試階段:
步驟201)、去除待測(cè)試語(yǔ)音數(shù)據(jù)中的非語(yǔ)音部分;
步驟202)、對(duì)經(jīng)過(guò)步驟201)處理的待測(cè)試語(yǔ)音數(shù)據(jù)做音素識(shí)別,得到該待測(cè)試語(yǔ)音數(shù)據(jù)的幀級(jí)的音素后驗(yàn)概率特征向量;
步驟203)、對(duì)步驟202)所得到的每一幀的音素后驗(yàn)概率特征向量進(jìn)行規(guī)整;
步驟204)、根據(jù)訓(xùn)練階段為規(guī)整后音素后驗(yàn)概率特征向量每一維賦予的權(quán)重,為步驟203)所得到的規(guī)整后音素后驗(yàn)概率特征向量做加權(quán)。
上述技術(shù)方案中,該方法在訓(xùn)練階段還包括:
步驟106)、由步驟105)所得到的權(quán)重為步驟103)得到的規(guī)整后的音素后驗(yàn)概率特征向量做加權(quán),利用加權(quán)后的特征數(shù)據(jù)訓(xùn)練主成分分析矩陣;
該方法在測(cè)試階段還包括:
步驟205)、應(yīng)用步驟106)所得到的主成分分析矩陣對(duì)待測(cè)試語(yǔ)音的經(jīng)過(guò)規(guī)整、加權(quán)后的音素后驗(yàn)概率特征向量進(jìn)行降維處理,得到維數(shù)較低的音素后驗(yàn)概率特征向量。
上述技術(shù)方案中,所述規(guī)整操作采用下列兩種方式之一實(shí)現(xiàn):
規(guī)整方式1
lt(k)=log(pt(k));
規(guī)整方式2
其中,pt(k)表示第t幀的第k維的音素后驗(yàn)概率特征向量,lt(k)表示規(guī)整后的第t幀的第k維的音素后驗(yàn)概率特征向量。
上述技術(shù)方案中,所述步驟104)進(jìn)一步包括:
設(shè)為語(yǔ)種i語(yǔ)句j中所有幀的規(guī)整后幀級(jí)音素后驗(yàn)概率特征向量的第k個(gè)值的和,其表達(dá)式如下:
其中,T為語(yǔ)種i語(yǔ)句j中幀的總數(shù);
設(shè)si(k)為特征第k維在語(yǔ)種i中所有語(yǔ)音數(shù)據(jù)中所有幀的規(guī)整后幀級(jí)音素后驗(yàn)概率特征向量的和,其表達(dá)式如下:
其中,N為語(yǔ)種i中語(yǔ)音數(shù)據(jù)的條數(shù);
設(shè)s(k)為特征第k維在所有語(yǔ)種數(shù)據(jù)中所有幀的規(guī)整后幀級(jí)音素后驗(yàn)概率特征向量的總和,其表達(dá)式如下:
其中M為訓(xùn)練集中的語(yǔ)種總數(shù);
設(shè)mi(k)和m(k)分別為si(k)和s(k)的歸一化值,它們的表達(dá)式分別如下:
則規(guī)整后的音素后驗(yàn)概率特征向量第k維的F比指標(biāo)的值為:
本發(fā)明的優(yōu)點(diǎn)在于
本發(fā)明的特點(diǎn):(1)量化定義了音素后驗(yàn)概率特征向量各維對(duì)語(yǔ)種鑒別性的貢獻(xiàn);(2)根據(jù)音素后驗(yàn)概率特征向量各維對(duì)語(yǔ)種鑒別性的貢獻(xiàn),賦予其相應(yīng)權(quán)重。 具體的講,鑒別性高的賦予其高權(quán)重,而鑒別性低的賦予其低權(quán)重。應(yīng)用本發(fā)明所提特征大大提高了特征的語(yǔ)種鑒別性,應(yīng)用該特征的語(yǔ)種識(shí)別系統(tǒng)取得了更優(yōu)秀的識(shí)別性能,同時(shí)也沒(méi)有降低系統(tǒng)的實(shí)時(shí)性。
附圖說(shuō)明
圖1是本發(fā)明的方法在訓(xùn)練階段計(jì)算F比指標(biāo)以及權(quán)重的流程圖;
圖2是本發(fā)明的方法在訓(xùn)練階段計(jì)算PCA矩陣的流程圖;
圖3是本發(fā)明的方法在測(cè)試階段提取特征的流程圖。
具體實(shí)施方式
現(xiàn)結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的描述。
本發(fā)明的鑒別性特征提取方法包括兩個(gè)階段,一為訓(xùn)練階段,二為測(cè)試階段。在訓(xùn)練階段所要完成的工作是利用訓(xùn)練集中的語(yǔ)音數(shù)據(jù)計(jì)算F比指標(biāo)(F-Ratio)以及利用訓(xùn)練集中的語(yǔ)音數(shù)據(jù)訓(xùn)練PCA(主成分分析,Principal Component Analysis)矩陣。在測(cè)試階段所要完成的工作是:利用訓(xùn)練階段所得到的F-Ratio指標(biāo)以及PCA矩陣對(duì)所要測(cè)試的語(yǔ)音實(shí)現(xiàn)特征提取,所提取的特征具有語(yǔ)種鑒別性。
下面分別對(duì)訓(xùn)練階段與測(cè)試階段所要完成的工作分別予以說(shuō)明。
一、訓(xùn)練階段
假設(shè)一訓(xùn)練集中有M個(gè)語(yǔ)種的數(shù)據(jù),每個(gè)語(yǔ)種有N條語(yǔ)句(每個(gè)語(yǔ)種語(yǔ)句條數(shù)不必相同),在計(jì)算F-Ratio指標(biāo)時(shí)需要計(jì)算音素后驗(yàn)概率特征向量中每一維的F-Ratio指標(biāo)。
參考圖1,在訓(xùn)練階段需要完成以下操作:
步驟101)、通過(guò)語(yǔ)音端點(diǎn)檢測(cè)(Voice Activity Detection,VAD)技術(shù),去除訓(xùn)練集中各段語(yǔ)音數(shù)據(jù)的非語(yǔ)音部分;其中,所述非語(yǔ)音部分包括靜音段、噪聲段等。
步驟102)、將經(jīng)過(guò)步驟101)處理的訓(xùn)練集中各段語(yǔ)音數(shù)據(jù)做音素識(shí)別,得到各段語(yǔ)音數(shù)據(jù)的幀級(jí)的音素后驗(yàn)概率特征向量;
以某一段語(yǔ)音數(shù)據(jù)為例,本步驟所得到的該段語(yǔ)音數(shù)據(jù)的每幀音素后驗(yàn)概率特征向量可表示為Pt=[pt(1),pt(2),…,pt(K)],其中K為音素個(gè)數(shù),t表示幀號(hào);
所述音素識(shí)別操作可采用音素識(shí)別器實(shí)現(xiàn);
步驟103)、對(duì)步驟102)所得到的各段語(yǔ)音數(shù)據(jù)的幀級(jí)的音素后驗(yàn)概率特征向量分別進(jìn)行規(guī)整;
以某一段語(yǔ)音數(shù)據(jù)為例,若將規(guī)整后的該段語(yǔ)音數(shù)據(jù)的每幀音素后驗(yàn)概率特征向量表示為L(zhǎng)t=[lt(1),lt(2),…,lt(K)],其中K為音素個(gè)數(shù),t表示幀號(hào),則所述規(guī)整操作可采用下列兩種方式之一實(shí)現(xiàn):
規(guī)整方式1
lt(k)=log(pt(k)) (1);
規(guī)整方式2
步驟104)、計(jì)算規(guī)整后的音素后驗(yàn)概率特征向量中每一維對(duì)語(yǔ)種鑒別性的貢獻(xiàn)大小,即F-Ratio的值。
設(shè)為語(yǔ)種i語(yǔ)句j中所有幀的規(guī)整后幀級(jí)音素后驗(yàn)概率特征向量的第k個(gè)值的和,其表達(dá)式如下:
其中,T為語(yǔ)種i語(yǔ)句j中幀的總數(shù)。
設(shè)si(k)為特征第k維在語(yǔ)種i中所有語(yǔ)音數(shù)據(jù)中所有幀的規(guī)整后幀級(jí)音素后驗(yàn)概率特征向量的和,其表達(dá)式如下:
其中,N為語(yǔ)種i中語(yǔ)音數(shù)據(jù)的條數(shù)。
設(shè)s(k)為特征第k維在所有語(yǔ)種數(shù)據(jù)中所有幀的規(guī)整后幀級(jí)音素后驗(yàn)概率特征向量的總和,其表達(dá)式如下:
其中M為訓(xùn)練集中的語(yǔ)種總數(shù)。
設(shè)mi(k)和m(k)分別為si(k)和s(k)的歸一化值,它們的表達(dá)式分別如下:
則規(guī)整后的音素后驗(yàn)概率特征向量第k維的F-Ratio值為:
步驟105)、在步驟104)所得到的規(guī)整后的音素后驗(yàn)概率特征向量中每一維的F-Ratio值的基礎(chǔ)上,設(shè)定用于描述規(guī)整后音素后驗(yàn)概率特征向量每一維對(duì)語(yǔ)種鑒別性的貢獻(xiàn)大小的權(quán)重。
所述權(quán)重的計(jì)算表達(dá)式如下:
w(k)=x×F-Ratio(k) (10)
參數(shù)x為經(jīng)驗(yàn)值,可通過(guò)大量實(shí)驗(yàn)得到。計(jì)算得到的權(quán)重可應(yīng)用于測(cè)試階段,其數(shù)值大小在測(cè)試階段不會(huì)改變。
上述步驟中,F(xiàn)-Ratio值與權(quán)重的計(jì)算都在訓(xùn)練階段執(zhí)行,在測(cè)試階段不再重新計(jì)算,因此不會(huì)增加額外的運(yùn)行時(shí)間。
在得到用于描述規(guī)整后音素后驗(yàn)概率特征向量每一維對(duì)語(yǔ)種鑒別性的貢獻(xiàn)大小的權(quán)重后,根據(jù)這一權(quán)重值可進(jìn)一步計(jì)算PCA矩陣。如圖2所示,訓(xùn)練階段可進(jìn)一步包括:
步驟106)、由步驟105)所得到的權(quán)重為步驟103)得到的規(guī)整后的音素后驗(yàn)概率特征向量做加權(quán),利用加權(quán)后的特征數(shù)據(jù)訓(xùn)練PCA矩陣。
如何訓(xùn)練PCA矩陣為本領(lǐng)域技術(shù)人員所公知,此處不再重復(fù)。所得到的PCA矩陣對(duì)所有語(yǔ)種都是通用的。
二、測(cè)試階段
經(jīng)過(guò)訓(xùn)練階段后,利用訓(xùn)練階段所得到的F-Ratio指標(biāo)與PCA矩陣為待測(cè)試的語(yǔ)音數(shù)據(jù)提取特征,包括以下步驟:
步驟201)、通過(guò)VAD技術(shù)去除待測(cè)試語(yǔ)音數(shù)據(jù)中的非語(yǔ)音部分;
步驟202)、對(duì)經(jīng)過(guò)步驟201)處理的待測(cè)試語(yǔ)音數(shù)據(jù)做音素識(shí)別,得到該待測(cè)試語(yǔ)音數(shù)據(jù)的幀級(jí)的音素后驗(yàn)概率特征向量;
步驟203)、對(duì)步驟202)所得到的每一幀的音素后驗(yàn)概率特征向量進(jìn)行規(guī)整;所述規(guī)整可采用公式(1)或公式(2)之一實(shí)現(xiàn);
步驟204)、根據(jù)訓(xùn)練階段為規(guī)整后音素后驗(yàn)概率特征向量每一維賦予的權(quán)重,為步驟203)所得到的規(guī)整后音素后驗(yàn)概率特征向量做加權(quán);
加權(quán)之后的音素后驗(yàn)概率特征向量表示為Rt=[rt(1),rt(2),…,rt(K)],其中的每一維的表達(dá)式為:
rt(k)=w(k)×lt(k) (11)
其中w(k)為根據(jù)第k維特征的鑒別性得到的權(quán)重。
經(jīng)加權(quán)處理后的音素后驗(yàn)概率特征向量已經(jīng)具備了語(yǔ)種鑒別性。
步驟205)、應(yīng)用PCA矩陣對(duì)經(jīng)過(guò)規(guī)整、加權(quán)后的特征向量進(jìn)行降維處理,得到維數(shù)較低的特征向量。
設(shè)PCA矩陣為Y,降維后的最終特征表示為Ot=[ot(1),ot(2),…,ot(F)],其中F為特征經(jīng)過(guò)降維后的維數(shù),則
Ot=Y(jié)Rt (12)
步驟205)所實(shí)現(xiàn)的降維操作既可以優(yōu)化特征,使其擁有更好的性能,同時(shí)還可以降低系統(tǒng)的消耗;且經(jīng)過(guò)降維的特征向量依然具有語(yǔ)種鑒別性。
以上是對(duì)本發(fā)明方法的一種較佳實(shí)現(xiàn)方式的說(shuō)明,本發(fā)明方法也可以有其他的實(shí)現(xiàn)方式,如省去訓(xùn)練PCA矩陣以及利用PCA矩陣降維的步驟,這一實(shí)現(xiàn)方式的效果略低于前述的較佳實(shí)現(xiàn)方式。
最后所應(yīng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。