一種采用總變化量因子的語種識(shí)別方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及的技術(shù)領(lǐng)域包括語音識(shí)別、語種識(shí)別和語音信號(hào)處理,具體地說,本發(fā) 明涉及一種采用總變化量因子的語種識(shí)別方法及系統(tǒng)。
【背景技術(shù)】
[0002] 語種識(shí)別也被稱為語種辨識(shí),是通過分析處理一個(gè)語音片段判斷其屬于哪個(gè)語言 種類的過程,其本質(zhì)是語音識(shí)別的一個(gè)方面。語種識(shí)別利用機(jī)器學(xué)習(xí)和模式分類的知識(shí),一 般一個(gè)語種識(shí)別系統(tǒng)由訓(xùn)練和測試兩個(gè)過程組成。
[0003] 訓(xùn)練過程:首先從原始訓(xùn)練語音文件中獲取一些能夠表示該語種的基本信息,即 特征,然后利用這些特征對每個(gè)語種或者語種之間的關(guān)系進(jìn)行建模,模型代表了該語種固 有的、以及該語種與其他語種之間差異的信息。
[0004] 測試過程:首先對測試語句提取特征,然后基于每個(gè)語種模型計(jì)算他們之間的得 分,一般而言,使用和測試語句來自同一個(gè)語種的訓(xùn)練語句得到的模型的分?jǐn)?shù)最大,以此判 斷這個(gè)測試屬于哪個(gè)語種。
[0005]目前主流的語種識(shí)別系統(tǒng)主要分為基于音素特征的模型方法和基于聲學(xué)特征的 模型方法。在基于聲學(xué)特征建模的方法中,基于GMM超矢量結(jié)合支持向量機(jī)建模的系統(tǒng) (GSV系統(tǒng))是目前的主流系統(tǒng)。
[0006] 但是GSV系統(tǒng)采用高維超矢量作為分類器的輸入,在短時(shí)語音識(shí)別上性能較差, 當(dāng)訓(xùn)練數(shù)據(jù)較少、目標(biāo)語種較多時(shí),還容易出現(xiàn)無法訓(xùn)練出模型的情況。并且對支持向量機(jī) 模型打分,最后的得分并不代表似然值,得分區(qū)間很大,進(jìn)行多系統(tǒng)分?jǐn)?shù)端融合時(shí)有一定困 難。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于,為克服現(xiàn)有的GSV系統(tǒng)的缺陷,從而提供一種基于總變化量 因子的語種識(shí)別方法和系統(tǒng)。
[0008] 為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種高斯后端分類器模型構(gòu)造方法,所述方法 包含:
[0009] 步驟101)提取某語種若干段訓(xùn)練語音的聲學(xué)特征,并依據(jù)全局背景模型和總變化 量因子空間模型將提取的聲學(xué)特征映射為總變化量因子,其中每一句話的總變化量因子是 一個(gè)矢量;
[0010] 步驟102)利用支持向量機(jī)訓(xùn)練一組一對一和一對多支持向量機(jī)模型,然后選擇若 干個(gè)總變量因子對所述一對一和一對多支持向量機(jī)模型打分,進(jìn)而依據(jù)得分矩陣訓(xùn)練一個(gè) 高斯后端分類器模型。
[0011] 上述方案所述訓(xùn)練一組一對一和一對多模型的策略進(jìn)一步包含:
[0012] 步驟301)對輸入的訓(xùn)練語音進(jìn)行前端處理,進(jìn)而去掉彩鈴、振鈴和傳真音,并去 除沒有語音的靜音部分,僅保留含有有效語音的部分,并提取有效語音部分的移動(dòng)差分特 征;
[0013] 步驟302)提取移動(dòng)差分特征的總變化量因子向量,其中,每一句訓(xùn)練語句對應(yīng)一 個(gè)維數(shù)固定的矢量,且該矢量表征了此句話包含的語種信息;每個(gè)語種有若干條訓(xùn)練語句, 對應(yīng)多條總變化量因子向量;根據(jù)支持向量機(jī)分類算法,訓(xùn)練某語種對其他語種的一對一 和一對多支持向量機(jī)模型,如果有N個(gè)目標(biāo)語種,將會(huì)得到《 ^ +iV,,個(gè)模型。
[0014] 上述方案所述的訓(xùn)練高斯后端分類器模型的步驟具體包含:
[0015] 步驟401)從訓(xùn)練數(shù)據(jù)選取一部分?jǐn)?shù)據(jù),提取選取數(shù)據(jù)的總變化量因子,將每個(gè)語 種包含的總變化量因子基于所述的一對一和一對多模型進(jìn)行支持向量機(jī)打分;當(dāng)每個(gè)語種 包含叫,i= 1,2. . .N句訓(xùn)練語句,得到一個(gè)行數(shù)為維、列數(shù)為ffM維的 矩陣,且每行的語種類別已知;
[0016] 步驟402)采用線性判別分析算法訓(xùn)練一個(gè)投影矩陣W,將訓(xùn)練樣本投影后,得到 一個(gè)行、列數(shù)小于l列的新矩陣,該新矩陣為投影后的矩陣,且投影后的矩陣的每一行 的語種類別已知;
[0017] 其中,投影應(yīng)保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離;
[0018] 步驟403)計(jì)算投影后的矩陣的方差,再計(jì)算每一個(gè)語種類別的單高斯均值,得到 高斯后端模型的參數(shù),依據(jù)這些參數(shù)得到高斯后端分類器模型。
[0019] 基于上述方案的高斯后端分類器模型和一對一及一對多支持向量機(jī)模型,本發(fā)明 還提供了一種基于總變化量因子的語種識(shí)別方法,所述方法包含:輸入測試語音,并提取測 試語音的聲學(xué)特征;根據(jù)全局背景模型和總變化量因子空間模型將提取的聲學(xué)特征映射為 總變化量因子,再對一對多和一對一模型打分,得到得分向量;將得分向量輸入高斯后端分 類器模型進(jìn)行判決并輸出識(shí)別結(jié)果。
[0020] 上述基于總變化量因子的語種識(shí)別方法具體包含:
[0021] 401)對輸入的測試語音進(jìn)行前端處理,進(jìn)而去掉彩鈴、振鈴和傳真音,去除沒有 語音的靜音部分,僅保留含有有效語音的部分;提取有效語音部分的聲學(xué)層的移動(dòng)差分特 征;
[0022] 步驟402)提取差分特征的變化量因子向量,且每一句話對應(yīng)一個(gè)維數(shù)固定的矢 量;
[0023] 步驟403)將各總變化量因子向量在所述一對一和一對多支持向量機(jī)模型上打分, 得到L維的得分向量;
[0024] 步驟404)通過投影矩陣W,將得分向量映射到線性判別分析算法降維后的空間, 得到一個(gè)低維向量;再將此低維向量在各個(gè)語種的高斯后端模型上打分,即計(jì)算當(dāng)前向量 在各個(gè)語種高斯模型上的log似然值;
[0025] 步驟405)設(shè)定一個(gè)閾值,得分最高的語種如果大于閾值,則判定此測試語句為此 語種;如果小于閾值,則認(rèn)為此測試語句不屬于目標(biāo)語種,進(jìn)而采用上述策略識(shí)別其是否屬 于其他語種。
[0026] 上述方案中,根據(jù)差分特征提取總變化量因子向量的步驟具體為:
[0027] 步驟501)利用各語種的訓(xùn)練數(shù)據(jù)訓(xùn)練全局背景模型和總變化量矩陣T;其中,全 局背景模型采用EM算法訓(xùn)練;
[0028] 步驟502)利用各語種的訓(xùn)練數(shù)據(jù)訓(xùn)練總變化量矩陣T,且總變化量矩陣T與高斯 超矢量的關(guān)系s表示為"s=m+Tw+e" ;
[0029] 其中,m為通用背景模型的超向量;總變化量矩陣T表示總變化空間,且總變化量 矩陣T通過EM算法訓(xùn)練得到;w矢量為與說話人及信道相關(guān)的總變化量因子向量,即最終 得到的低維矢量,該低微矢量服從高斯分布;e為服從高斯分布的殘差。
[0030]上述前端處理為:
[0031] 根據(jù)時(shí)-頻譜分析的方法,對語音進(jìn)行分段,再采用GMM算法,判斷每一段是否屬 于彩鈴、振鈴、傳真音、語音或靜音,依據(jù)判斷結(jié)果刪除內(nèi)容進(jìn)而只保留有效語音部分。
[0032]上述技術(shù)方案中,提取MFCC基本倒譜特征,對基本特征進(jìn)行特征補(bǔ)償,所述特征 補(bǔ)償包括倒譜均值減、Rasta濾波和移動(dòng)差分變換。
[0033]此外,本發(fā)明還提供了一種采用總變量因子的語種識(shí)別系統(tǒng),所述系統(tǒng)包含:[0034]前端處理模塊,用于處理輸入的測試語音數(shù)據(jù)和訓(xùn)練語音數(shù)據(jù),進(jìn)而去除語音數(shù) 據(jù)中包含的彩鈴、振鈴活傳真,僅保留有效語音部分;
[0035]特征提取模塊,用于提取每句有效語音部分的移動(dòng)差分特征;
[0036] 總變化量因子提取模塊,用于基于移動(dòng)差分特征計(jì)算總變化量因子向量;
[0037]支持向量機(jī)打分模塊,用于計(jì)算低維的總變化量因子向量在各個(gè)模型上的得分, 得到得分向量;
[0038] 高斯后端得分后處理模塊,用于將得分向量映射到一個(gè)低維空間,在低維空間計(jì) 算在各個(gè)語種單高斯模型上的似然;
[0039] 得分判決模塊,用于根據(jù)最大似然值確定某個(gè)測試語句所屬的語種,輸出識(shí)別結(jié) 果。
[0040] 總之,本發(fā)明的第一方面,提供了一種基于總變化量因子的語種識(shí)別方法,包括 : 對輸入訓(xùn)練語音,提取某語種多段訓(xùn)練語音的聲學(xué)特征,根據(jù)全局背景模型和總變化量因 子空間模型把聲學(xué)特征映射為總變化量因子,每一句話的總變化量因子是一個(gè)矢量,表征 了這句話包含的語種信息,再利用支持向量機(jī)訓(xùn)練一組一對一和一對多支持向量機(jī)模型, 再選擇一部分語音數(shù)據(jù)的總變量因子對以上模型打分,基于得分矩陣訓(xùn)練一個(gè)高斯后端分 類器模型;對輸入測試語音,提取其聲學(xué)特征,根據(jù)全局背景模型和總變化量因子空間模型 把聲學(xué)特征映射為總變化量因子,對一組支持向量機(jī)模型打分,再把得分向量經(jīng)過高斯后 端分類器,進(jìn)行判決給出識(shí)別結(jié)果。
[0041] 本發(fā)明的第二方面,提供了一種基于總變化量因子的語種識(shí)別系統(tǒng),包括:前端處 理模塊,用于處理輸入語音數(shù)據(jù),去除彩鈴、振鈴、傳真等垃圾語音,只保留有效語音部分; 特征提取模塊,用于提取每句有效測試語音的移動(dòng)差分特征;總變化量因子提取模塊,用于 從語音特征計(jì)算總變化量因子向量;支持向量機(jī)打分模塊,用于計(jì)算低維的總變化量因子 向量在各個(gè)模型上的得分,得到得分向量;高斯后端得分后處理模塊,用于將得分向量映射 到一個(gè)低維空間,在低維空間計(jì)算在各個(gè)語種單高斯模型上的似然;得分判決模塊,用于根 據(jù)最大似然值確定最后是否屬于某一個(gè)目標(biāo)語種,給出識(shí)別結(jié)果。
[0042] 本發(fā)明相對于現(xiàn)有語種識(shí)別系統(tǒng)具有以下技術(shù)效果:
[0043] 1、傳統(tǒng)的基于支持向量機(jī)的語種識(shí)別系統(tǒng)都是基于高斯超矢量建立支持向量機(jī) 模型,本發(fā)明采用低維的總變化量因子技術(shù),通過將高維超矢量映射為一個(gè)包含語種信息 的低維總變化量因子,這樣可以在一個(gè)更具有區(qū)分性的低維空間表征語音特征。
[0044] 2、傳統(tǒng)的基于支持向量機(jī)的語種識(shí)別系統(tǒng)直接建立某語種模型,即只有一對多模 型,本發(fā)明除了訓(xùn)練一對多模型,還訓(xùn)練表