一種基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,屬于連續(xù)語 音識別技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 在連續(xù)語音識別中,為了反映同一音素在不同上下文環(huán)境中發(fā)音的不同,通常采 用上下文相關(guān)音素建模方法,即對每一個(gè)音素的不同音位變體,分別用一個(gè)隱馬爾可夫模 型(HiddenMarkovModel,HMM)進(jìn)行建模,其中每一個(gè)隱含狀態(tài)的觀測概率分布用高斯混 合模型(GaussianMixtureModel,GMM)或神經(jīng)網(wǎng)絡(luò)進(jìn)行逼近。這種上下文相關(guān)模型的參 數(shù)數(shù)量龐大,即使采用狀態(tài)綁定等方法來減少狀態(tài)個(gè)數(shù),典型的連續(xù)語音識別系統(tǒng)參數(shù)數(shù) 量仍然在百萬級以上。為了訓(xùn)練得到一個(gè)性能良好的識別系統(tǒng),需要大量的訓(xùn)練數(shù)據(jù),而實(shí) 際中訓(xùn)練數(shù)據(jù)往往是十分有限的。因此,為了減少模型對訓(xùn)練數(shù)據(jù)量的要求,需要進(jìn)一步降 低模型的復(fù)雜度,提高參數(shù)估計(jì)的穩(wěn)健性。
[0003] 針對傳統(tǒng)的"隱馬爾可夫模型(HiddenMarkovModeI,HMM)-高斯混合模型 (GaussianMixtureModel,GMM)"聲學(xué)模型,目前常用的解決方案有:結(jié)構(gòu)化協(xié)方差矩陣/ 精度矩陣建模方法,即假設(shè)不同協(xié)方差矩陣或其精度矩陣由若干個(gè)低秩(通常是秩為1的) 基矩陣的線性疊加得到,各高斯混元通過某種方式共享一組相同的基矩陣;本征三音子 (Eigentriphone)建模方法,將上下文相關(guān)狀態(tài)進(jìn)行聚類,將每一類狀態(tài)的均值矢量限定在 一個(gè)線性子空間中,通過估計(jì)子空間中的低維坐標(biāo)矢量來重構(gòu)狀態(tài)的均值矢量,從而得到 更為精確的參數(shù)估計(jì);子空間高斯混合模型(SubspaceGaussianMixtureModel,SGMM) 將高斯混元的均值和權(quán)重限制在一個(gè)全局參數(shù)子空間中,因此每一個(gè)狀態(tài)可以用一個(gè)或若 干個(gè)低維參數(shù)子空間中的矢量來表示,從而提高模型參數(shù)估計(jì)的穩(wěn)健性。與傳統(tǒng)的高斯混 合模型(GaussianMixtureModel,GMM)相比,SGMM聲學(xué)模型大大壓縮了模型尺寸,并且可 以利用集外數(shù)據(jù)對參數(shù)子空間進(jìn)行估計(jì),因此特別適用于訓(xùn)練數(shù)據(jù)量受限條件下的語音識 別。
[0004] 前述幾種方法可以歸結(jié)為一大類基于基展開(BasisExpand)的聲學(xué)建模方法。近 年來,基于壓縮感知與稀疏表達(dá)的方法受到眾多學(xué)者的青睞,已被成功應(yīng)用于語音去噪、穩(wěn) 健性語音識別、聲學(xué)模型正則化等方面。2012年,Saon等將壓縮感知技術(shù)直接應(yīng)用于連續(xù) 語音識別聲學(xué)建模中,將表示方法與馬爾可夫鏈相結(jié)合,提出了一種貝葉斯感知隱馬爾可 夫模型(BayesianSensingHMMs,BSHMMs),取得了不錯的效果。BS-HMMs的有效性可以歸 結(jié)為其在聲學(xué)特征層次上應(yīng)用壓縮感知技術(shù)來建立狀態(tài)模型,并利用最大后驗(yàn)估計(jì)得到了 穩(wěn)健的模型參數(shù)。然而,與SGMM聲學(xué)模型不同,其各狀態(tài)模型之間的參數(shù)估計(jì)是相互獨(dú)立 的,需要訓(xùn)練多個(gè)狀態(tài)相關(guān)字典,因此對訓(xùn)練數(shù)據(jù)量的要求仍較高。2013年,Zhang等提出 稀疏精度矩陣建模方法,即對協(xié)方差矩陣的逆矩陣直接施加稀疏約束,從而間接減少模型 參數(shù)數(shù)量。
[0005] 上述基展開方法本質(zhì)上都是尋找模型參數(shù)的線性子空間,事實(shí)上,眾多研宄表明 語音信號存在一個(gè)低維的非線性流形結(jié)構(gòu),因此現(xiàn)有方法采用線性子空間來對模型參數(shù)的 相關(guān)性進(jìn)行建模是不精確的,只是一種近似方法。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是提供一種基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,以 解決目前采用線性子空間來對模型參數(shù)的相關(guān)性進(jìn)行建模所導(dǎo)致模型不精確的問題。
[0007] 本發(fā)明為解決上述技術(shù)問題而提供一種基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模 型構(gòu)建方法,該構(gòu)建方法包括以下步驟:
[0008] 1)采用含有I個(gè)高斯混元的高斯混合模型(GaussianMixtureModel,GMM)作為 聲學(xué)特征空間的統(tǒng)一背景模型(UniversalBackgroundModel,UBM);
[0009] 2)對UBM中每個(gè)高斯混元的協(xié)方差矩陣進(jìn)行特征值分析,確定聲學(xué)特征空間各 局部區(qū)域的潛在維數(shù)Di及因子分析模型參數(shù),得到聲學(xué)特征空間中的混合因子分析模型 (MixtureofFactorAnalyzers,MFA),作為其低維非線性流形結(jié)構(gòu)的近似模型;
[0010] 3)使用與步驟2)中聲學(xué)特征空間相同的局部區(qū)域劃分與局部坐標(biāo)系,將上下文 相關(guān)狀態(tài)的觀測矢量限定在聲學(xué)特征空間中的低維非線性流形結(jié)構(gòu)上,估計(jì)上下文相關(guān)狀 態(tài)的觀測概率模型,即構(gòu)成了基于MFA的上下文相關(guān)狀態(tài)模型;
[0011] 4)對基于MFA的上下文相關(guān)狀態(tài)模型的參數(shù)進(jìn)行迭代估計(jì),最終所得到模型即為 所要構(gòu)建的聲學(xué)模型。
[0012] 所述步驟1)中背景模型UBM的生成過程如下:
[0013] A.利用訓(xùn)練數(shù)據(jù)對隱馬爾可夫模型-高斯混合模型聲學(xué)模型進(jìn)行訓(xùn)練得到基線 系統(tǒng);
[0014] B.對基線系統(tǒng)中所有狀態(tài)的高斯混元進(jìn)行兩兩合并,計(jì)算合并前后的似然得分的 損失值;
[0015] C.將損失值最小的兩個(gè)高斯混元合并為一個(gè)新的高斯混元,直至得到新的高斯混 元數(shù)達(dá)到設(shè)定值。
[0016] 所述步驟2)中的混合因子分析模型是將聲學(xué)特征空間的非線性流形劃分為I個(gè) 局部區(qū)域,計(jì)算觀測數(shù)據(jù)落入其中每個(gè)區(qū)域的概率,并對每個(gè)局部區(qū)域分別用一個(gè)因子分 析模型近似得到。
[0017] 所述步驟2)中第i個(gè)局部區(qū)域的潛在維數(shù)Di的確定過程如下:
[0018] A)將UBM中的各協(xié)方差矩陣氣中的特征值按照從大到小排序?yàn)锳il,Ai2,… ,入iD,其中D為特征矢量維數(shù);
【主權(quán)項(xiàng)】
1. 一種基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,其特征在于,該構(gòu)建方法 包括W下步驟: 1) 采用含有I個(gè)高斯混元的高斯混合模型(GaussianMix化reModel,GMM)作為聲學(xué) 特征空間的統(tǒng)一背景模型(UniversalBackgroundModel,UBM); 2) 對UBM中每個(gè)高斯混元的協(xié)方差矩陣進(jìn)行特征值分析,確定聲學(xué)特征空間各局部區(qū) 域的潛在維數(shù)Di及因子分析模型參數(shù),得到聲學(xué)特征空間中的混合因子分析模型(Mix化re ofFactorAnalyzers,MFA),作為其低維非線性流形結(jié)構(gòu)的近似模型; 3) 使用與步驟2)中聲學(xué)特征空間相同的局部區(qū)域劃分與局部坐標(biāo)系,將上下文相關(guān) 狀態(tài)的觀測矢量限定在聲學(xué)特征空間中的低維非線性流形結(jié)構(gòu)上,估計(jì)上下文相關(guān)狀態(tài)的 觀測概率模型,即構(gòu)成了基于MFA的上下文相關(guān)狀態(tài)模型; 4) 對基于MFA的上下文相關(guān)狀態(tài)模型的參數(shù)進(jìn)行迭代估計(jì),最終所得到模型即為所要 構(gòu)建的聲學(xué)模型。
2. 根據(jù)權(quán)利要求1所述的基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,其特征 在于,所述步驟1)中背景模型UBM的生成過程如下: A. 利用訓(xùn)練數(shù)據(jù)對隱馬爾可夫模型-高斯混合模型聲學(xué)模型進(jìn)行訓(xùn)練得到基線系統(tǒng); B. 對基線系統(tǒng)中所有狀態(tài)的高斯混元進(jìn)行兩兩合并,計(jì)算合并前后的似然得分的損失 值; C. 將損失值最小的兩個(gè)高斯混元合并為一個(gè)新的高斯混元,直至得到新的高斯混元數(shù) 達(dá)到設(shè)定值。
3. 根據(jù)權(quán)利要求1所述的基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,其特征 在于,所述步驟2)中的混合因子分析模型是將聲學(xué)特征空間的非線性流形劃分為I個(gè)局部 區(qū)域,計(jì)算觀測數(shù)據(jù)落入其中每個(gè)區(qū)域的概率,并對每個(gè)局部區(qū)域分別用一個(gè)因子分析模 型近似得到。
4. 根據(jù)權(quán)利要求2所述的基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,其特征 在于,所述步驟2)中第i個(gè)局部區(qū)域的潛在維數(shù)町的確定過程如下: A) 將UBM中的各協(xié)方差矩陣中的特征值按照從大到小排序?yàn)锳。,A。,…,A。,其 中D為特征矢量維數(shù); B) 計(jì)算各個(gè)特征值的累積貢獻(xiàn)率
其中nid為第i個(gè)局部區(qū)域第d個(gè)特 征值的累積貢獻(xiàn)率; C) 選擇特征值累積貢獻(xiàn)率超過某個(gè)設(shè)定口限的最小特征值序號作為第i個(gè)局部區(qū)域 的潛在維數(shù)町。
5. 根據(jù)權(quán)利要求4所述的基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,其特征 在于,所述步驟3)中上下文相關(guān)的每個(gè)狀態(tài)由一個(gè)服從稀疏約束的權(quán)重矢量和若干個(gè)服 從標(biāo)準(zhǔn)正態(tài)分布的低維局部因子矢量所決定。
6. 根據(jù)權(quán)利要求5所述的基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,其特征 在于,所述步驟4)中第j個(gè)上下文狀態(tài)的觀測概率模型為:
其中,yr(0,; 口,S)表示均值矢量為y、協(xié)方差矩陣為s的多元正態(tài)分布,〇t表示t時(shí) 刻的觀測特征矢量,和2i分別表示第i個(gè)局部區(qū)域的中屯、矢量、局部坐標(biāo)系矩陣和 數(shù)據(jù)分布的協(xié)方差矩陣,是狀態(tài)j在第i個(gè)局部區(qū)域內(nèi)的均值對應(yīng)的局部區(qū)域坐標(biāo)矢量, Wj,表示狀態(tài)j的觀測數(shù)據(jù)落入第i個(gè)局部區(qū)域的概率。
7.根據(jù)權(quán)利要求4所述的基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,其特征 在于,所述步驟5)中是采用期望最大化算法EM進(jìn)行重估,包括計(jì)算統(tǒng)計(jì)量、重估權(quán)重參數(shù)、 重估計(jì)局部坐標(biāo)矢量和重估狀態(tài)無關(guān)參數(shù)四個(gè)過程。
8.根據(jù)權(quán)利要求7所述的基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,其特征 在于,對于第j個(gè)狀態(tài)和第i個(gè)局部區(qū)域,所述零階、一階和二階統(tǒng)計(jì)量的計(jì)算公式分別如 下:
其中,丫W(wǎng)(t)表示給定觀測序列0及模型參數(shù)AW的條件下t時(shí)刻處于狀態(tài)j的第i個(gè)高斯混元的后驗(yàn)概率,可通過Baum-We1ch前后向算法計(jì)算得到。
9.根據(jù)權(quán)利要求7所述的基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法,其特征 在于,第k次迭代,狀態(tài)j的第i個(gè)高斯混元的權(quán)重參數(shù)Wj,的重估公式為:
若則wf+"即為權(quán)重矢量的更新值,其中a為預(yù)先選定的正整數(shù) (1《a《I),II?II。表示矢量的零范數(shù),即矢量的非零元素個(gè)數(shù); 否則,將wf"的各分量從大到小排序?yàn)閃' j.2,…,W'j.i,計(jì)算對應(yīng)累積貢獻(xiàn)率
,尋找^ =m,in{/:",>0.9},取口限Tj. =w' 對每一個(gè)權(quán)重分量執(zhí)行下面的 "收縮"與"歸一化"操作:
其中,[<41-『;1=。3《{<1)-[,,〇},最終得到更新的權(quán)重矢量、呼"=[14滬'1吟]"1~、皆。-。
【專利摘要】本發(fā)明涉及一種基于聲學(xué)空間非線性流形結(jié)構(gòu)的聲學(xué)模型構(gòu)建方法。本發(fā)明通過將特征空間劃分為多個(gè)局部區(qū)域,對每個(gè)局部區(qū)域用一個(gè)低維的線性因子分析模型進(jìn)行近似,得到聲學(xué)特征空間的混合因子分析模型;將上下文相關(guān)狀態(tài)的觀測矢量限定在該非線性低維流形結(jié)構(gòu)上,估計(jì)其觀測概率模型;每個(gè)狀態(tài)模型由一個(gè)服從稀疏約束的權(quán)重矢量和若干個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的低維局部坐標(biāo)矢量所決定;通過迭代過程,分別估計(jì)混合因子分析模型參數(shù)和各上下文相關(guān)狀態(tài)模型參數(shù)。本發(fā)明所構(gòu)建的聲學(xué)模型的非線性假設(shè)條件更為合理,具有直觀的物理意義,且聲學(xué)模型中大量的參數(shù)是狀態(tài)無關(guān)的,特別適用于訓(xùn)練數(shù)據(jù)量較少時(shí)的連續(xù)語音識別聲學(xué)建模。
【IPC分類】G10L15-14
【公開號】CN104795063
【申請?zhí)枴緾N201510124249
【發(fā)明人】張文林, 屈丹, 李 真, 閆紅剛, 牛銅
【申請人】中國人民解放軍信息工程大學(xué)
【公開日】2015年7月22日
【申請日】2015年3月20日