專利名稱:一種遠程漢語教學(xué)中的說話人確認系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種遠程漢語教學(xué)身份確認系統(tǒng),特別是設(shè)計一種遠程漢語教學(xué)中的說話人確認系統(tǒng),屬于網(wǎng)絡(luò)漢語教學(xué)及說話人確認技術(shù)領(lǐng)域。
背景技術(shù):
隨著經(jīng)濟全球化的發(fā)展和中國經(jīng)濟的持續(xù)快速增長,世界各國對漢語學(xué)習(xí)的需求也在迅速增長,這種需求已經(jīng)從學(xué)術(shù)和教學(xué)領(lǐng)域走到民間及政府層面,帶動了一股學(xué)習(xí)漢語的熱潮。據(jù)不完全統(tǒng)計,目前世界上學(xué)習(xí)漢語的人數(shù)已超過3000萬人,有100個國家的2500余所大學(xué)和越來越多的中小學(xué)開設(shè)了漢語課程,中國漢語水平考試的考點遍布五大洲。搭建一個漢文化交流的平臺,繁榮和發(fā)展世界漢語教學(xué),推動漢語文化的廣泛傳播,讓漢語更快地走向世界,正在成為越來越多炎黃子孫為之不懈奮斗的方向。
現(xiàn)有的用戶身份確認主要方法有基于所有,如各種證件,不需要密碼就能使用,易丟失、偽造,識別可靠性較低;基于所知,如靜態(tài)口令,用戶登錄系統(tǒng)或使用某項功能時,需輸入自己的用戶名與口令,系統(tǒng)即進行身份識別,它方便、簡潔,但易泄密、易破譯?;谶@種身份識別系統(tǒng)的遠程漢語教學(xué)網(wǎng)站中對存儲于計算機中用戶的敏感信息保護不力,致使有些用戶盜用他人的帳號進行學(xué)習(xí),從而破壞了數(shù)據(jù)庫中該用戶的歷史信息,為用戶在前次學(xué)習(xí)的基礎(chǔ)上進行下一次的學(xué)習(xí)帶來了很大的麻煩,無法真正意義上實現(xiàn)以人為本循序漸進地學(xué)習(xí),如何有效地防止他人盜用并根據(jù)特定人的特定學(xué)習(xí)習(xí)慣分配相應(yīng)的學(xué)習(xí)內(nèi)容,從而使用戶在遠程實現(xiàn)高效的漢語學(xué)習(xí),成為目前研究學(xué)者廣泛關(guān)注的課題。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,基于遠程漢語教學(xué)這一特殊教學(xué)領(lǐng)域的相關(guān)特點。本發(fā)明提供一種遠程漢語教學(xué)中的說話人確認系統(tǒng)。該系統(tǒng)有效地運用說話人確認的相應(yīng)技術(shù),實現(xiàn)了在用戶進行漢語發(fā)音練習(xí)的同時,進行說話人確認的相關(guān)處理,確認是否與用戶登錄用的帳號相吻合,如果兩者一致就記錄該用戶本次學(xué)習(xí)的信息,為該用戶的下次學(xué)習(xí)提供方便,反之就不進行記錄。
本發(fā)明的目的是通過下述技術(shù)方案實現(xiàn)的。
為了實現(xiàn)基于說話人確認的遠程漢語教學(xué)身份確認系統(tǒng),我們將整個系統(tǒng)分為用戶注冊、用戶登錄和漢語發(fā)音學(xué)習(xí)三大階段,其中用戶注冊階段為用戶選擇是否運用說話人確認機制進行身份確認,如果選擇“是”則為該用戶建立說話人的語料庫,反之則不建立語料庫在用戶以后登陸時也不進行說話人確認工作;用戶登錄階段又分為身份確認模塊和用戶判斷模塊;漢語發(fā)音學(xué)習(xí)階段則分為說話人確認模塊和用戶確認后處理模塊。
用戶登錄階段是當一個用戶進入系統(tǒng)時輸入了系統(tǒng)數(shù)據(jù)庫中存儲的一個用戶名和密碼,系統(tǒng)就認定他為注冊用戶可以登陸系統(tǒng)進行漢語發(fā)音學(xué)習(xí)否則為非注冊用戶禁止進入系統(tǒng)。
漢語發(fā)音學(xué)習(xí)階段的說話人確認模塊處理過程主要包括兩個階段,即訓(xùn)練和確認。訓(xùn)練階段即根據(jù)用戶建立的語料庫進行訓(xùn)練提取特征參數(shù),系統(tǒng)據(jù)此建立每個使用者的模板和模型參數(shù)。確認階段是由待識人說的語音經(jīng)特征提取后與系統(tǒng)訓(xùn)練時產(chǎn)生的模板或模型參數(shù)進行比較。在說話人的確認中,取與測試音匹配距離最小的說話人模型所對應(yīng)的說話人的模型的匹配是否小于一定閾值作出判斷。
一、特征提取 1.Mel頻率倒譜系數(shù)(MFCC)的計算過程 根據(jù)上面的評價結(jié)果,我們選取Mel頻率倒譜系數(shù)及其相應(yīng)變化形式作為系統(tǒng)的特征參數(shù)。首先,介紹一下倒譜的定義信號頻譜模的自然對數(shù)的逆傅立葉變換。設(shè)語音信號為s(n),則其倒譜為 Mel倒譜在此基礎(chǔ)上進行調(diào)整,著眼于人耳的聽覺特性,利用人耳對聲音的感知是非線性的,從人耳的角度來考慮,具有很強的抗噪性。
Mel-濾波器的設(shè)計體現(xiàn)了人耳濾波器的非線性感知,感知頻率與實際頻率的關(guān)系如下 Mel(f)=2595(1+f/700)其中,0≤f≤F(2) F為實際頻率上限,這里取8KHz,濾波器的設(shè)計也體現(xiàn)了這種關(guān)系。
在一般的計算方法中,三角濾波器組所包含的濾波器的個數(shù)及每個濾波器的中心頻率是固定不變的,這種方法沒有考慮到不同說話人之間的語音特征,所以本發(fā)明在設(shè)計時,濾波器的個數(shù)是隨著基頻的變化而改變的,設(shè)p為濾波器的個數(shù),f為基頻,F(xiàn)為頻率上限,則 p=5·Mel(F)/Mel(f) (3) 然后計算短時信號的能量譜 X(k)=|DFT(sw(n))|(4) 接著計算經(jīng)過濾波器組后的相關(guān)系數(shù)m1,m2,....mn,則 其中Hi(k)表示第i個Mel三角濾波器,且i=1,2,...p,最終通過離散余弦變換得到MFCC濾波器系數(shù)為 其中i=1,2,...n,n是MFCC系數(shù)的階數(shù)。將每一幀的系數(shù)相加后取均值 就可以得到最終的MFCC系數(shù),其中M是幀的個數(shù)。
用這種算法得到的系數(shù),雖然識別的精度非常高,但同樣存在運行時間過長的缺點,主要是因為對每幀信號計算短時能量譜的運算量極大,例如,每幀128樣本點,X(k)的計算要得到K=0...F(F為實際頻率上限)的各點的值,這樣每幀的運行時間是0.5秒,而要得到完整的語音樣本(包含孤立詞和語速、停頓等)至少需要200幀,即運算1分鐘左右,這在實時監(jiān)控中是不被允許的。
因此,必須改進算法,在這里可以采取跳躍的取點的方法,每隔10Hz計算一個X(k),即k=0,10,20...F; 然后令X(k+9)=X(k+8)=X(k+7)=...=X(k)(8) 這樣做雖然會使識別率稍有下降,但仍然優(yōu)于其他兩種方法,大大提高了識別效率,同時也滿足實時監(jiān)控的要求。
2.MFCC系數(shù)的變換 為了增強對不同信道的魯棒性,減少噪聲影響,我們考慮映射原始MFCC特征到一個理想分布。首先,通過累積分布函數(shù)(CDF)匹配,它可以將給定的特征序列轉(zhuǎn)換到某個CDF中以滿足一個理想分布N(0,1)。這是一種將從原始特征X轉(zhuǎn)換到變換特征
的非線性變換 我們?nèi)?9維MFCC系數(shù)、19維MFCC系數(shù)的一階差分作為全部特征序列。每個分量作為單獨特征流處理。CDF由一個變化窗函數(shù)形成,它的值設(shè)為N。只有窗的中心是滿足這個CDF的。給定發(fā)音窗中的特征按升序排列。設(shè)中心幀的范圍為γ∈[1,N]。相應(yīng)的CDF值為Φ=(r-1/2)/N,變換值
滿足f(z)為標準歸一化分布的概率密度函數(shù)
可以通過標準CDF表查得。
特征空間先由線性變換進行轉(zhuǎn)換,然后用歸一化分布進行全局CDF處理。由上面的特征轉(zhuǎn)換方法可以得到一些變化的高斯結(jié)構(gòu)。用短時窗進行特征變換處理,補償信道和麥克風(fēng)影響。具體處理過程如下 設(shè)原始特征集為X,D為特征維數(shù)。經(jīng)過線性變換AD×D使特征轉(zhuǎn)換為Y=AX。Y由概率分布的組合高斯分布描述 K為組合高斯分量數(shù),D為特征維數(shù),Ik,d是第k個組合高斯分布分量第d維的高斯數(shù)。ρk為第k個組合高斯分布分量先驗值。πk,d,i為d維第k個組合高斯分布分量的第i個高斯的先驗值。φ為單變量高斯分布的概率密度函數(shù) 均值μk,d,i,方差σk,d,i2,參數(shù)集為θ={A,ρk,πk,d,i,μk,d,i,σk,d,i}。
我們有yd=adx,ad為矩陣A第d行,X的概率分布為 EM算法用來重估參數(shù)集θ,基于x和θ的最大似然值,5次EM迭代即可(算法具體步驟將在下面具體介紹)。對比一般高斯無迭代過程,這是一種僅用全局轉(zhuǎn)移矩陣A,基于與說話人無關(guān)的數(shù)據(jù)進行重估并應(yīng)用到所有與說話人無關(guān)的特征上的處理方法。
二、語料庫的建立 本發(fā)明中采用的語料庫是所有系統(tǒng)中選擇進行說話人確認機制的注冊者,并隨著注冊人數(shù)的增加不斷改變。每位用戶對他進行語料庫建立的工作,即錄制他的一部分漢語發(fā)音學(xué)習(xí)中的發(fā)音。漢語發(fā)音學(xué)習(xí)包括以下內(nèi)容20句數(shù)字串,長度為1s左右;漢語孤立詞發(fā)音,長度2s左右;長度為20s左右的朗讀式發(fā)音;自然發(fā)音的語句,語句的內(nèi)容為自由發(fā)言,長度20s左右。各語句均以8kHz抽樣,16bit量化。系統(tǒng)首先將用戶初次登陸時錄制的發(fā)音作為語料庫進行訓(xùn)練,當用戶下次登陸時以上次訓(xùn)練所得數(shù)據(jù)作為參考模板進行說話人確認,作為下次登陸時的參考數(shù)據(jù)。
三、高斯混合模型(GMM)描述 1.高斯混合模型(GMM)的概念 在從語音信號中提取出特征參數(shù)序列之后,需要通過這些能夠表征說話人身份特征的參數(shù)序列,為每個說話人建立相應(yīng)的分類模型。在進行識別的時候,對輸入的待識別語音信號的特征參數(shù)和已有的分類模型進行相似性的評估,根據(jù)評估結(jié)果對待確認說話人的身份作相應(yīng)判斷。
高斯混合模型(GMM)本質(zhì)上是一種多維概率密度函數(shù),用它可以直接構(gòu)成說話人確認系統(tǒng),每一個說話人對應(yīng)一個GMM。
一個具有M個混合數(shù)的D維GMM,用M個高斯分量的加權(quán)和來表示,即 其中,x是一個D維的觀測矢量;Pi,i=1,2,...,M為混合權(quán)值,且bi(x)為D維高斯函數(shù),即 其中,μi為均值矢量,∑i為協(xié)方差矩陣。協(xié)方差矩陣可以用滿矩陣,也可以簡化為對角矩陣。
整個高斯混合模型便可由各均值矢量、協(xié)方差矩陣及混合分量的權(quán)值來描述,因此,我們將一個模型λ表示為如下三元式 λ={pi,μi,∑i},i=1,2,...,M (14) 2.GMM模型參數(shù)的最大似然估計 設(shè)某說話人的訓(xùn)練特征矢量序列為X={xt,t=1,2,...,T},它對于模型λ的似然度可表示為 訓(xùn)練的目的就是找到一組參數(shù)λ的非線性函數(shù),直接求其最大值是不可能的。這種最大參數(shù)估計可利用EM算法的一種特殊形式,通過迭代得到。我們將算法簡述如下 定義Q函數(shù) 其中i為高斯分量序號,或稱隱狀態(tài)號。
其中
(1)E-Step求訓(xùn)練數(shù)據(jù)落在假定的隱狀態(tài)i的概率 (2)M-Step分別求Q相對于三個參數(shù)Pi,μi,∑i,i=1,2,...,M的偏導(dǎo)為零時的參數(shù)值 混合權(quán)值在混合權(quán)值和為1的限定下,可得 方差類似的方法,可得 這里指對角陣情況,σi2′、xi和μi′分別指向相應(yīng)矢量的任一元素。這樣E-Step和M-Step反復(fù)迭代,直到收斂,即可得到最優(yōu)的參數(shù)λ。
然后,采用EM算法進行參數(shù)估計時,需要給λ設(shè)一個初始值λ(0),現(xiàn)在尚沒有解決這一問題的理論框架。一種方法是從訓(xùn)練數(shù)據(jù)中任取50個元素,求其均值和方差,作為初始均值和方差;另一種方法是用HMM語料進行分段,分出不同的狀態(tài),得到各分量的均值和方差的初值。至于模型混合數(shù)M,則由實驗確定。大量試驗表明,訓(xùn)練數(shù)據(jù)在小于30s時,以M=16較好,訓(xùn)練數(shù)據(jù)為1min時,若測試語句小于1s,M=32最好,而測試語句為5s或10s,則以M=16為宜。而當訓(xùn)練數(shù)據(jù)為90s時,測試數(shù)據(jù)小于5s,M=32為宜,若為10s則M=16比32略好一些。
四、全局背景模型——UBM 1.全局背景模型(UBM)描述 說話人確認是一個假設(shè)檢驗問題。即給定測試語音,在下列兩個事件中做出選擇H1X是由真實說話人發(fā)出,H0X是由假冒者發(fā)出。說話人確認是一個二元判決問題,即給定說話人的確認語句及其所聲稱的身份。系統(tǒng)做出接受或拒絕的判斷。大多數(shù)說話人確認系統(tǒng)都設(shè)置一個背景模型,用于描述整個說話人集合的特性。理論上,背景說話人越多,則越能描述
。在說話人確認系統(tǒng)中,使用假冒者模型進行似然比歸一化可提高系統(tǒng)的準確性和魯棒性,但假冒者模型如何能更好地描述用戶的尚待深入研究。被廣為研究的假冒者模型大致可分為兩種。一種是全局模型(UBM),一種是競爭者模型(cohort model)。這兩個模型各有優(yōu)缺點。全局模型對普通人的區(qū)分性能較強,而對偽裝者的識別較差。競爭者模型可以較好地區(qū)分聲學(xué)特征相近的假冒者。但對聲學(xué)特征相差較大的則性能較差。因此根據(jù)我們系統(tǒng)需要確定特定用戶的需要,我們采用全局背景模型(UBM)。
2.篩選樹結(jié)構(gòu) 將所有UBM高斯分量聚類組織成篩選樹結(jié)構(gòu),將聲學(xué)空間分成不同層的不同區(qū)域。給定矢量的最優(yōu)混合很容易通過篩選樹找到,設(shè)d(m,n)為兩個高斯分量Gm,Gn的距離,分布為N(μm,∑m),N(μn,∑n), μm(i)為均值矢量μm的第i元素,σm2(i)為高斯Gm協(xié)方差矩陣∑m的第i個對角元素,每個非葉節(jié)點近似為某權(quán)重下高斯概率分布節(jié)點C的PDF參數(shù)為 μc={μc(i)}T為均值矢量,∑m為協(xié)方差矩陣,ωc為權(quán)重; (1)所有UBM高斯分量的根節(jié)點PDF由上面三式計算,所有高斯分量屬于根節(jié)點; (2)下層節(jié)點的PDF由最大最小方法初始化,這些節(jié)點屬于當前層,然后用當前層節(jié)點進行增補; (3)K均值算法用來聚類屬于當前節(jié)點高斯混合分量的分類,它們用來形成下層的新節(jié)點,每次迭代每個節(jié)點的均值、方差、權(quán)重被改進至距離收斂。
(4)重復(fù)(2)(3)至最后一層非葉節(jié)點分配到相應(yīng)父節(jié)點。
每個測試矢量,第二層所有節(jié)點用來計算似然,選出得分最高的N個節(jié)點。這N個最高節(jié)點的所有子節(jié)點再計算得分,得到下層得分最高的N個節(jié)點。選擇過程持續(xù)到葉節(jié)點層,最后,選出的得分最高的N個葉節(jié)點作為UBM的N個最高混合的近似值。
對觀察矢量X={x1,x2,...,xT}運用樹切分的方法,去掉得分較低的節(jié)點, (1)初始化Y,它由等間隔抽取X矢量值組成,作為觀察矢量集的子集,并從X中刪除這些觀察值; (2)從左至右核對保留在X中的觀察值將最接近的放到觀察序列Y中,至所有被重新排序并都放在Y中為止。
五、確認算法 說話人確認中用似然比代替概率,當且僅當下式成立時,接受該語音 其中x為給定的聲稱者的測試語句的特征矢量,S(x)為該測試句的得分,γ為確認閾值,p(x/λ1)為真實說話人的模型相對于測試語句的似然度,p(x/λ0)為假冒者模型相對于測試語句的似然度。通常采用對數(shù)似然比(LLR) S(x)=lgp(x/λ1)-lgp(x/λ0) (28) 這種似然比是Bayes準則下最優(yōu)評分的一種近似,增加了不同說話人之間的可區(qū)分性,降低確認系統(tǒng)對閾值的依賴性;可以依靠兩個模型取差的形式從一定程度上削弱輸入語音被噪聲污染的影響。為了減少發(fā)音時間的長短對似然比的影響,采用時間歸一化對數(shù)似然比 其中T為測試語句的幀數(shù)。
對說話人確認來說,設(shè)S個說話人,對應(yīng)得GMM模型分別為λ1,λ0,...,λS。目標則是對一個觀測序列X,找到使之有最大后驗概率的模型所對應(yīng)的說話人λS,即 假定Pγ(λk)=1/S,即每個說話人出現(xiàn)為等概率,且因P(X)對每個說話人是相同的,上式可以簡化為 如果使用對數(shù)得分,且按上面假定,說話人確認的任務(wù)就是計算 通過上面的得分就可以得到說話人確認的結(jié)果,將此結(jié)果送入用戶確認后處理模塊。對于確認出確為注冊者其人的情況,系統(tǒng)將其確認為正式注冊用戶,將對他的發(fā)音進行錄入,供下次學(xué)習(xí)使用,同時對他的學(xué)習(xí)情況狀態(tài)進行記錄,以便分配適合該用戶的相關(guān)學(xué)習(xí)資料。若確認出的結(jié)果為非正式注冊用戶即假冒者,則不對他整個學(xué)習(xí)過程做任何記錄。
本發(fā)明的主要特點是 (1)惟一性說話人確認中提取的特征參數(shù)的惟一性是保證確認技術(shù)科學(xué)性基礎(chǔ)。如果識別所依據(jù)“語音特征”不具有惟一性,意味著身份確認具有或然性,其科學(xué)性必然大大降低。研究表明每個說話人的語音信號中都包含有該說話人的個性特征,因而具有惟一性特點。以目前應(yīng)用最廣泛的說話人確認身份為例,電話預(yù)約業(yè)務(wù)中的聲音確認轉(zhuǎn)帳、匯款、余額通知、股票行情咨詢;用特定人的聲音實現(xiàn)機密場所的出入人員檢查;用工廠職工的口令實現(xiàn)職工簽名管理等。
(2)穩(wěn)定性說話人特征穩(wěn)定性是保證確認技術(shù)科學(xué)性的前提。也只有穩(wěn)定的特征才能保證確認技術(shù)科學(xué)性,而非偶然性。研究表明特定的說話人具有穩(wěn)定性特點。雖然可能有些變化,但仍維持相對穩(wěn)定,完全滿足身份識別的要求。
圖1為本發(fā)明遠程漢語教學(xué)中的說話人確認系統(tǒng)示意圖; 圖2為基于Mel頻率倒譜系數(shù)的特征提取流程框圖; 圖3為通過Mel頻率濾波器組得到的Mel頻譜圖; 圖4為說話人確認系統(tǒng)中的模型框圖。
具體實施例方式 下面結(jié)合附圖和具體實施方式
來對發(fā)明作進一步描述。
如圖1所示,用戶首先通過輸入系統(tǒng)現(xiàn)存的匹配的用戶名和密碼進入遠程漢語教學(xué)系統(tǒng)首頁,即用戶注冊階段,在此階段中為用戶選擇是否運用說話人確認機制進行身份確認,如果選擇“是”則為該用戶建立其說話人語料庫,反之則不建立語料庫在用戶以后登陸時也不進行說話人確認工作。接著進入了用戶登錄階段,身份確認模塊中大量存有已注冊用戶的用戶名和密碼。用戶在系統(tǒng)的提示下輸入自己的用戶名和密碼,當這些信息與身份確認模塊中某套用戶名和密碼吻合時,在用戶判斷模塊中為注冊用戶,允許此用戶登錄系統(tǒng)并進行漢語發(fā)音及相關(guān)學(xué)習(xí),反之則認為是非注冊用戶無法登陸系統(tǒng)。這個過程與一般的網(wǎng)站登陸方式無異,但注冊用戶有兩種可能此用戶名和密碼卻為該用戶所有;此用戶名和密碼為他人所盜用,登陸之人為假冒者。為此我們的系統(tǒng)為已事先選擇進行說話人確認機制并建立語料庫的用戶在漢語發(fā)音學(xué)習(xí)階段要進行說話人確認的工作,即進入說話人確認模塊。
下面對具體的實施過程分塊進行描述; 預(yù)處理與特征提取 如圖2所示,對輸入的原始語音數(shù)據(jù)進行預(yù)處理與特征提取工作,此模塊中會實時收集用戶在學(xué)習(xí)過程中的漢語發(fā)音,得到相應(yīng)的語音信號,計算全局結(jié)構(gòu)特征參數(shù)語句發(fā)音持續(xù)時間、語速,并進行預(yù)加重、分幀、加窗處理。
然后對輸入的原始語音信號進行預(yù)加重,一般通過一個傳遞函數(shù)H(Z)=1-αZ-1的濾波器對其加以濾波,其中α為預(yù)加重系數(shù)0.9<α<1.0,一般為0.95、0.97或0.98。假設(shè)在n時刻的語音采樣值為x(n),則經(jīng)過預(yù)加重處理后的結(jié)果為y(n)=x(n)-αx(n-1)(0.9<α<1.0) (33) 語音具有短時平穩(wěn)特點,通過對語音進行分幀操作后,可以提取其短時特性,從而便于模型的建立,我們這里一般取幀長為23.22ms(256點),幀移10ms。
然后用每幀信號用漢明窗相乘,以減小幀起始和結(jié)束處的不連續(xù)性,采用的漢明窗函數(shù)為 其中N為當前語音幀的采樣數(shù)。
此模塊中主要是提取MFCC特征及其相應(yīng)變化形式作為特征參數(shù)。對于MFCC特征的變化形式主要考慮兩個方面,即靜態(tài)和動態(tài)兩個方面。
假設(shè)語音信號足夠長,在安靜環(huán)境下,特征參數(shù)近似表現(xiàn)為正態(tài)分布;對于倒譜特征,通道噪聲對特征參數(shù)的影響表現(xiàn)為特征概率分布在數(shù)軸上平移,而加性噪聲的影響表現(xiàn)為特征概率的分布不再符合正態(tài)分布。因此我們采用特征歸一化的方法作為靜態(tài)特征參數(shù)化的調(diào)整方法。
而動態(tài)特征我們采用將MFCC特征進行移位差分的方法進行處理,它由許多語音幀的一階差分譜連接擴展而成,主要取決于靜態(tài)特征譜的維數(shù),計算一階差分譜的時移,一幀一階差分譜之間的時移。設(shè)
指的是t時刻(第t幀)的N維靜態(tài)特征譜,那么t時刻的一階差分譜如下
我們將MFCC系數(shù)的靜態(tài)特征和動態(tài)特征結(jié)合作為系統(tǒng)得特征參數(shù)。其中Mel濾波器組的設(shè)置如圖3所示,橫坐標為原始語音頻率,縱坐標為所求Mel頻率。
為了增強對不同信道的魯棒性,減少噪聲影響,特征參數(shù)空間先由線性變換進行轉(zhuǎn)換,然后用歸一化分布進行全局CDF處理。由上面的特征轉(zhuǎn)換方法可以將特征參數(shù)用組合高斯分布來描述,便于后續(xù)處理。
訓(xùn)練 通過K均值聚類和EM迭代算法訓(xùn)練一個與說話人無關(guān)的全局背景模型(UBM)。該全局背景模型本質(zhì)上是一個大型的GMM模型,它是使用所有待確認說話人的訓(xùn)練語音訓(xùn)練得到的,它反映了所有待確認說話人的特征分布特性。最后,與傳統(tǒng)的借助EM算法訓(xùn)練GMM模型不同,每個說話人的GMM模型是從UBM模型中貝葉斯自適應(yīng)得到的,從而大大減少了訓(xùn)練時間和需要的數(shù)據(jù)量。
由于各個說話人模型是從UBM模型自適應(yīng)得到的,所以每個說話人模型可以共享UBM模型的高斯分量,而對于一個特征向量來說,僅有幾個高斯分量對概率值貢獻較大,為此計算各說話人GMM模型的概率值,可首先從UBM中通過篩選樹結(jié)構(gòu)處理選取6個最佳的高斯分量,然后利用說話人模型中相對應(yīng)的6個高斯分量,計算每個說話人模型的概率值。這是一種快速高斯算法,相比于傳統(tǒng)的對模型所有高斯分量計算不同,大大提高了確認速度。
GMM-UBM確認算法 GMM-UBM也稱為高斯混合模型一全局背景模型,它應(yīng)用在說話人確認系統(tǒng)中,訓(xùn)練用來表示與說話人無關(guān)的特征分布。UBM模型系統(tǒng)是一個說話人無關(guān)的背景模型,利用待識別各種說話人的所有訓(xùn)練數(shù)據(jù)獲得一個全局背景模型。
UBM模型本質(zhì)上是一個大型的GMM模型。在說話人確認系統(tǒng)中,它表示一個單一的說話人無關(guān)的特征分布,呈現(xiàn)所有不同說話人的特征,因此通過所有待確認說話人的訓(xùn)練數(shù)據(jù)訓(xùn)練一個大型的GMM模型來獲得。給定了訓(xùn)練UBM模型的各個說話人的數(shù)據(jù)后,有多種方法可以用來得到最終的模型,最簡單的方法是采用EM算法來訓(xùn)練UBM模型。在GMM-UBM模型中,通過貝葉斯自適應(yīng)算法來獲得每個目標說話人的模型。貝葉斯自適應(yīng)方法是通過訓(xùn)練后的UBM模型自適應(yīng)地導(dǎo)出每個說話人的GMM模型的。貝葉斯自適應(yīng)的算法如下給定UBM模型和某種語言的訓(xùn)練向量X=xt(t=1,...,T),首先確定訓(xùn)練矢量在UBM混合成員中的概率分布P,即對于UBM中的第i個混合成員,可以計算 然后利用P(i|xt)和xt計算充分統(tǒng)計,權(quán)重、均值和方差參數(shù)為 這與EM算法中的E-Step相同。
最后,訓(xùn)練數(shù)據(jù)中新的充分統(tǒng)計量用來更新舊的UBM的第i個混合成員的充分統(tǒng)計量,產(chǎn)生第i個混合變量的自適應(yīng)的參數(shù)。用下列公式計算 自適應(yīng)系數(shù){αiω,αim,αiv}控制著舊估計和新估計之間的均衡,分別控制權(quán)值、均值和方差。尺度因子γ作用于所有的自適應(yīng)混合權(quán)值,確保權(quán)值和為1。
對每個混合成分和每個參數(shù),在上面的公式中的一個與數(shù)據(jù)有關(guān)的自適應(yīng)系數(shù)αiρ,ρ∈{ω,m,v}定義為 其中,γρ使參數(shù)ρ的一個固定關(guān)系因子。
通常在GMM-UBM系統(tǒng)中,采用一種簡單的自適應(yīng)系數(shù),一般來說,r的取值范圍為8-20,通常取16。
如圖4所示,根據(jù)用戶模型(GMM)和背景模型(UBM)得到測試特征向量序列X的對數(shù)似然比計算如下 Λ(X)=lg p(X|λhyp)-lg p(X|λubm) (44) 由于目標說話人模型從UBM模型中自適應(yīng)計算得到,所以可通過快速算法得到對數(shù)似然比。當一個大型的GMM對一個特征矢量進行測試時,只有少數(shù)的混合成員對概率值貢獻較大,僅利用由篩選樹結(jié)構(gòu)獲得的前C(一般取六)個最佳混合分量就可以很好地近似概率值。其次自適應(yīng)后的GMM仍保留了與UBM對應(yīng)的混合成員,因此這個變量接近于UBM中的某個特定混合成員時,也將接近于目標說話人模型的相應(yīng)的成員。對于每個特征向量,確定UBM中最佳的C個混合成員,并利用它們計算UBM概率值。然后,利用目標說話人模型中相對應(yīng)的C個混合成員對向量進行打分計算目標說話人的似然值。有M個混合成員的UBM,對每個向量只需進行M+C次高斯運算(通常的似然比計算需2M次),可大大節(jié)省運算量。
通過上面的得分就可以得到說話人確認的判決結(jié)果,將此結(jié)果送入用戶確認后處理模塊。對于確認出確為注冊者其人的情況,系統(tǒng)將其確認為正式注冊用戶,將對他的發(fā)音進行錄入,并存入語料庫中供下次訓(xùn)練使用,同時對他的學(xué)習(xí)情況狀態(tài)進行記錄,以便分配適合該用戶的相關(guān)學(xué)習(xí)資料。若確認出的結(jié)果為非正式注冊用戶即假冒者,則不對他整個學(xué)習(xí)過程做任何記錄。
權(quán)利要求
1.一種遠程漢語教學(xué)中的說話人確認系統(tǒng),其特征在于該系統(tǒng)包含用戶注冊、用戶登錄和漢語發(fā)音學(xué)習(xí)三大階段,其中
(1)用戶注冊階段為用戶選擇是否運用說話人確認機制進行身份確認,如果選擇“是”則為該用戶建立他個人的語料庫,反之則不建立語料庫在用戶以后登陸時也不進行說話人確認工作;
(2)用戶登錄階段又分為身份確認模塊和用戶判斷模塊,用戶進入系統(tǒng)首頁,即進入了用戶登錄階段,在身份確認模塊輸入用戶名和密碼,通過用戶判斷模塊進行處理用戶名和密碼一致則為注冊用戶,允許登陸系統(tǒng),反之非注冊用戶拒絕登陸系統(tǒng);
(3)漢語發(fā)音學(xué)習(xí)階段則分為說話人確認模塊和用戶確認后處理模塊;確認模塊處理過程包括訓(xùn)練和確認兩個階段,訓(xùn)練過程是根據(jù)用戶建立的語料庫進行訓(xùn)練提取特征參數(shù),系統(tǒng)據(jù)此確定模型參數(shù);確認過程是由待識人說的語音經(jīng)特征提取后與系統(tǒng)在訓(xùn)練時通過EM算法重估高斯混合模型(GMM)、全局背景模型(UBM)的模型參數(shù),并進行比較,進而得到確認結(jié)果;若為正式注冊用戶就記錄他的學(xué)習(xí)過程供下次使用,若為非正式注冊用戶就不記錄相關(guān)學(xué)習(xí)信息。
2.根據(jù)權(quán)利要求1所述的一種遠程漢語教學(xué)中的說話人確認系統(tǒng),其特征在于特征提取階段對原始語音信號經(jīng)過預(yù)加重、分幀、加窗后,將該時域信號補0進行離散傅立葉變換(DFT),所得線性頻譜經(jīng)過Mel濾波器組得到Mel頻譜,再經(jīng)過離散余弦變換得到Mel頻率倒譜系數(shù)(MFCC);采用跳躍取點的方式加速運算速度;并將得到的MFCC進行變換使之滿足特定的高斯分布以減少噪聲干擾。
3.根據(jù)權(quán)利要求1所述的一種遠程漢語教學(xué)中的說話人確認系統(tǒng),其特征在于采用高斯混合模型(GMM)描述用戶模型,其中對于模型的權(quán)重、均值、協(xié)方差矩陣參數(shù)的最大似然重估采用EM算法實現(xiàn)。
4.根據(jù)權(quán)利要求1所述的一種遠程漢語教學(xué)中的說話人確認系統(tǒng),其特征在于通過K均值聚類和EM迭代算法訓(xùn)練一個與說話人無關(guān)的全局背景模型(UBM),它本質(zhì)上是一個大型的GMM模型,使用所有待識別說話人的特征分布特性,為了提高計算效率我們采用一種篩選樹的方法,從UBM中選取前6個最佳高斯分量,利用用戶模型中相對應(yīng)的6個高斯分量計算每個說話人模型的概率值,提高識別速度。
全文摘要
本發(fā)明公開了一種遠程漢語教學(xué)中的說話人確認系統(tǒng),包括用戶注冊、用戶登錄和漢語發(fā)音學(xué)習(xí)三大階段,其中用戶登錄階段又分為身份確認模塊和用戶判斷模塊,而漢語發(fā)音學(xué)習(xí)階段則分為說話人確認模塊和用戶確認后處理模塊。我們運用高斯混合模型-全局背景模型(GMM-UBM)處理方法將用戶輸入的語音在說話人確認模塊中進行分析處理,確認出登陸的是否為正式注冊用戶。通過記錄正式注冊用戶的相關(guān)學(xué)習(xí)信息,實現(xiàn)了一種以人為本,根據(jù)特定人特定的學(xué)習(xí)習(xí)慣和學(xué)習(xí)歷史記錄分配相應(yīng)教學(xué)內(nèi)容的教學(xué)方法。
文檔編號G09B5/08GK101241699SQ200810101950
公開日2008年8月13日 申請日期2008年3月14日 優(yōu)先權(quán)日2008年3月14日
發(fā)明者苗振江, 悅 明, 琛 王 申請人:北京交通大學(xué)