1.一種應用于語種識別的鑒別性特征提取方法,包括:
在訓練階段為訓練集中的語音數(shù)據(jù)的幀級的音素后驗概率特征向量計算F比指標,所述F比指標反映了音素后驗概率特征向量中每一維對語種鑒別性的貢獻大??;在測試階段為待測試的語音提取音素后驗概率特征向量,并為所提取的音素后驗概率特征向量根據(jù)F比指標做特征加權(quán)。
2.根據(jù)權(quán)利要求1所述的應用于語種識別的鑒別性特征提取方法,其特征在于,該方法包括:
訓練階段:
步驟101)、去除訓練集中各段語音數(shù)據(jù)的非語音部分;其中,所述非語音部分包括靜音段、噪聲段;
步驟102)、將經(jīng)過步驟101)處理的訓練集中各段語音數(shù)據(jù)做音素識別,得到各段語音數(shù)據(jù)的幀級的音素后驗概率特征向量;
步驟103)、對步驟102)所得到的各段語音數(shù)據(jù)的幀級的音素后驗概率特征向量分別進行規(guī)整;
步驟104)、計算規(guī)整后的音素后驗概率特征向量中每一維對語種鑒別性的貢獻大小,得到F比指標的值;
步驟105)、在步驟104)所得到的規(guī)整后的音素后驗概率特征向量中每一維的F比指標值的基礎(chǔ)上,設定用于描述規(guī)整后音素后驗概率特征向量每一維對語種鑒別性的貢獻大小的權(quán)重;
所述權(quán)重的計算表達式如下:
w(k)=x×F-Ratio(k)
其中,w(k)為規(guī)整后音素后驗概率特征向量第k維對語種鑒別性的貢獻大小的權(quán)重,F(xiàn)-Ratio(k)為規(guī)整后的音素后驗概率特征向量第k維的F-Ratio值,參數(shù)x為經(jīng)過實驗得到的經(jīng)驗值;
測試階段:
步驟201)、去除待測試語音數(shù)據(jù)中的非語音部分;
步驟202)、對經(jīng)過步驟201)處理的待測試語音數(shù)據(jù)做音素識別,得到該待測 試語音數(shù)據(jù)的幀級的音素后驗概率特征向量;
步驟203)、對步驟202)所得到的每一幀的音素后驗概率特征向量進行規(guī)整;
步驟204)、根據(jù)訓練階段為規(guī)整后音素后驗概率特征向量每一維賦予的權(quán)重,為步驟203)所得到的規(guī)整后音素后驗概率特征向量做加權(quán)。
3.根據(jù)權(quán)利要求2所述的應用于語種識別的鑒別性特征提取方法,其特征在于,該方法在訓練階段還包括:
步驟106)、由步驟105)所得到的權(quán)重為步驟103)得到的規(guī)整后的音素后驗概率特征向量做加權(quán),利用加權(quán)后的特征數(shù)據(jù)訓練主成分分析矩陣;
該方法在測試階段還包括:
步驟205)、應用步驟106)所得到的主成分分析矩陣對待測試語音的經(jīng)過規(guī)整、加權(quán)后的音素后驗概率特征向量進行降維處理,得到維數(shù)較低的音素后驗概率特征向量。
4.根據(jù)權(quán)利要求2或3所述的應用于語種識別的鑒別性特征提取方法,其特征在于,所述規(guī)整操作采用下列兩種方式之一實現(xiàn):
規(guī)整方式1
lt(k)=log(pt(k));
規(guī)整方式2
其中,pt(k)表示第t幀的第k維的音素后驗概率特征向量,lt(k)表示規(guī)整后的第t幀的第k維的音素后驗概率特征向量。
5.根據(jù)權(quán)利要求2或3所述的應用于語種識別的鑒別性特征提取方法,其特征在于,所述步驟104)進一步包括:
設為語種i語句j中所有幀的規(guī)整后幀級音素后驗概率特征向量的第k個值的和,其表達式如下:
其中,T為語種i語句j中幀的總數(shù);
設si(k)為特征第k維在語種i中所有語音數(shù)據(jù)中所有幀的規(guī)整后幀級音素后驗概率特征向量的和,其表達式如下:
其中,N為語種i中語音數(shù)據(jù)的條數(shù);
設s(k)為特征第k維在所有語種數(shù)據(jù)中所有幀的規(guī)整后幀級音素后驗概率特征向量的總和,其表達式如下:
其中M為訓練集中的語種總數(shù);
設mi(k)和m(k)分別為si(k)和s(k)的歸一化值,它們的表達式分別如下:
則規(guī)整后的音素后驗概率特征向量第k維的F比指標的值為: