一種應用于語種識別的鑒別性特征提取方法與流程

文檔序號：12368722閱讀：來源：國知局

技術(shù)特征：

1.一種應用于語種識別的鑒別性特征提取方法，包括：

在訓練階段為訓練集中的語音數(shù)據(jù)的幀級的音素后驗概率特征向量計算F比指標，所述F比指標反映了音素后驗概率特征向量中每一維對語種鑒別性的貢獻大??；在測試階段為待測試的語音提取音素后驗概率特征向量，并為所提取的音素后驗概率特征向量根據(jù)F比指標做特征加權(quán)。

2.根據(jù)權(quán)利要求1所述的應用于語種識別的鑒別性特征提取方法，其特征在于，該方法包括：

訓練階段：

步驟101)、去除訓練集中各段語音數(shù)據(jù)的非語音部分；其中，所述非語音部分包括靜音段、噪聲段；

步驟102)、將經(jīng)過步驟101)處理的訓練集中各段語音數(shù)據(jù)做音素識別，得到各段語音數(shù)據(jù)的幀級的音素后驗概率特征向量；

步驟103)、對步驟102)所得到的各段語音數(shù)據(jù)的幀級的音素后驗概率特征向量分別進行規(guī)整；

步驟104)、計算規(guī)整后的音素后驗概率特征向量中每一維對語種鑒別性的貢獻大小，得到F比指標的值；

步驟105)、在步驟104)所得到的規(guī)整后的音素后驗概率特征向量中每一維的F比指標值的基礎(chǔ)上，設定用于描述規(guī)整后音素后驗概率特征向量每一維對語種鑒別性的貢獻大小的權(quán)重；

所述權(quán)重的計算表達式如下：

w(k)＝x×F-Ratio(k)

其中，w(k)為規(guī)整后音素后驗概率特征向量第k維對語種鑒別性的貢獻大小的權(quán)重，F(xiàn)-Ratio(k)為規(guī)整后的音素后驗概率特征向量第k維的F-Ratio值，參數(shù)x為經(jīng)過實驗得到的經(jīng)驗值；

測試階段：

步驟201)、去除待測試語音數(shù)據(jù)中的非語音部分；

步驟202)、對經(jīng)過步驟201)處理的待測試語音數(shù)據(jù)做音素識別，得到該待測試語音數(shù)據(jù)的幀級的音素后驗概率特征向量；

步驟203)、對步驟202)所得到的每一幀的音素后驗概率特征向量進行規(guī)整；

步驟204)、根據(jù)訓練階段為規(guī)整后音素后驗概率特征向量每一維賦予的權(quán)重，為步驟203)所得到的規(guī)整后音素后驗概率特征向量做加權(quán)。

3.根據(jù)權(quán)利要求2所述的應用于語種識別的鑒別性特征提取方法，其特征在于，該方法在訓練階段還包括：

步驟106)、由步驟105)所得到的權(quán)重為步驟103)得到的規(guī)整后的音素后驗概率特征向量做加權(quán)，利用加權(quán)后的特征數(shù)據(jù)訓練主成分分析矩陣；

該方法在測試階段還包括：

步驟205)、應用步驟106)所得到的主成分分析矩陣對待測試語音的經(jīng)過規(guī)整、加權(quán)后的音素后驗概率特征向量進行降維處理，得到維數(shù)較低的音素后驗概率特征向量。

4.根據(jù)權(quán)利要求2或3所述的應用于語種識別的鑒別性特征提取方法，其特征在于，所述規(guī)整操作采用下列兩種方式之一實現(xiàn)：

規(guī)整方式1

l_t(k)＝log(p_t(k))；

規(guī)整方式2

$<mrow> <msub> <mi>l</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

其中，p_t(k)表示第t幀的第k維的音素后驗概率特征向量，l_t(k)表示規(guī)整后的第t幀的第k維的音素后驗概率特征向量。

5.根據(jù)權(quán)利要求2或3所述的應用于語種識別的鑒別性特征提取方法，其特征在于，所述步驟104)進一步包括：

設為語種i語句j中所有幀的規(guī)整后幀級音素后驗概率特征向量的第k個值的和，其表達式如下：

$<mrow> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <msubsup> <mi>l</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>t</mi> </mrow> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

其中，T為語種i語句j中幀的總數(shù)；

設s_i(k)為特征第k維在語種i中所有語音數(shù)據(jù)中所有幀的規(guī)整后幀級音素后驗概率特征向量的和，其表達式如下：

$<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

其中，N為語種i中語音數(shù)據(jù)的條數(shù)；

設s(k)為特征第k維在所有語種數(shù)據(jù)中所有幀的規(guī)整后幀級音素后驗概率特征向量的總和，其表達式如下：

$<mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

其中M為訓練集中的語種總數(shù)；

設m_i(k)和m(k)分別為s_i(k)和s(k)的歸一化值，它們的表達式分別如下：

$<mrow> <msubsup> <mi>m</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msubsup> <mi>s</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>$

$<mrow> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>$

$<mrow> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>s</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>$

則規(guī)整后的音素后驗概率特征向量第k維的F比指標的值為：

$<mrow> <mi>F</mi> <mo>_</mo> <mi>Ratio</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>(</mo> <msubsup> <mi>m</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>.</mo> </mrow>$

完整全部詳細技術(shù)資料下載

當前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

人臉識別特征提取算法相關(guān)技術(shù)

圖像識別和特征提取相關(guān)技術(shù)

模式識別特征提取方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種應用于語種識別的鑒別性特征提取方法與流程