專利名稱:基于廣義流利的口語流利度自動評估方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音識別領(lǐng)域,涉及一種基于語音識別的多種流利度特征融合得到分
數(shù)并結(jié)合規(guī)則進(jìn)行診斷的方法。
背景技術(shù):
多項口語評分的研究表明,流利度和準(zhǔn)確性是衡量口語發(fā)音質(zhì)量評估的兩個重要 指標(biāo)。以英語為例,傳統(tǒng)的英語口語考試評分主要采用人工對以上兩種指標(biāo)進(jìn)行綜合考察, 得到考生的總體分?jǐn)?shù),這種方法有以下缺點1)速度慢,批閱一段發(fā)音需要基本將發(fā)音聽 完,然后根據(jù)教師的經(jīng)驗和考綱要求進(jìn)行批閱;在一場大型的考試中,如果人數(shù)超過10萬 人,老師的工作量是非常繁縟的;2)全面性差,教師不可能將一段發(fā)音完整的聽完,然后根 據(jù)各個詞匯和短語,音素的發(fā)音細(xì)節(jié)綜合評分,而更多見的是只根據(jù)一小段發(fā)音的印象進(jìn) 行評分,這種"以偏概全"的方法顯然會帶來誤差;3)尺度不統(tǒng)一,口語考試評分是一種主 觀性很強(qiáng)的評估,各個教師尺度的不同勢必帶來評分的偏頗. 近年來,圍繞口語流利度自動評估進(jìn)行了很多研究,而傳統(tǒng)的發(fā)音流利度評估方 法僅僅從識別的特征層次考慮流利質(zhì)量,而隨著語言學(xué)研究的進(jìn)展,發(fā)現(xiàn)流利度不再是一 個單純的衡量發(fā)音順暢的指標(biāo),而需要對包括發(fā)音的準(zhǔn)確,主觀認(rèn)知性等多種技能的掌握 進(jìn)行評估比較,從而衡量在豐富表達(dá)意思的前提下個體對于語言的連貫產(chǎn)生和準(zhǔn)確表達(dá)的 駕馭能力。 傳統(tǒng)的口語自動評估方法主要以發(fā)音質(zhì)量的各項指標(biāo)為出發(fā),如Catia等人的方 法。該方法以評分人對于口語發(fā)音流利度所關(guān)注的指標(biāo)出發(fā),譬如在規(guī)定時間內(nèi)發(fā)音詞數(shù) 的發(fā)音速度,突然變快或變慢的發(fā)音次數(shù),停頓的頻率和停頓長度等等。之后利用人工評分 對各項指標(biāo)進(jìn)行訓(xùn)練,構(gòu)造線性回歸或者神經(jīng)網(wǎng)絡(luò)等非線性模型,之后對于新的發(fā)音,同樣 提取相同的語音質(zhì)量特征,采用先前構(gòu)造的模型進(jìn)行測試,得到發(fā)音人的流利度得分。但 是,這些方法不能用訓(xùn)練出來模型進(jìn)行更深入的推廣。因為,流利度指標(biāo)依賴的因素很多, 譬如話題內(nèi)容,腳本的難度,詞匯,語法,口音等,在這之中一個重要的指標(biāo)就是交流和理解 的準(zhǔn)確程度。 一些研究表明,發(fā)音的準(zhǔn)確程度和流利程度是互相制約,此消彼漲的兩個方 面,這就決定了流利度的評估不能僅僅停留在發(fā)音的流暢上;另一方面,在口語發(fā)音自動評 估中,由于面向的對象大多是非英語母語的學(xué)生,如何在流暢而準(zhǔn)確的表達(dá)下最大程度的 進(jìn)行英語交流才是教學(xué)和考試的任務(wù)。傳統(tǒng)的流利度評估方法在實際應(yīng)用中和人工評分的 相關(guān)度較低,這也說明了對于非英語為母語的學(xué)生來講,流利度不是單純衡量學(xué)生的發(fā)音 有多么流暢,而是針對本國學(xué)生的特點,在考察基本流利度指標(biāo)的基礎(chǔ)上,探索學(xué)生在一些 可能的高級技巧上的發(fā)揮程度,使之更趨近于正規(guī)的英語會話。 口語考試的各項指標(biāo)有很多, 一般采用10分為滿分,評分采用多位老師的評分取
平均。不用分?jǐn)?shù)段代表的流利度水平為
5很少甚至沒有語言交際0-2
十分猶豫,話語簡單,語流不正常中斷,猶豫,很難 聽懂,詞序容易引起混亂或歧義2-4
基本能表達(dá)意義,語流不正常中斷,猶豫,影響理解, 內(nèi)容簡單,內(nèi)容豐富者給54-6
語流有點象母語,用較短篇幅進(jìn)行了有效的交際,語 速快,停頓猶豫有點突然,不自然,每分鐘產(chǎn)出12到13 個句子以上者得7分6-8
交流輕松,高效率,篇幅長,語言流暢,表達(dá)象母語 般輕松8-10
發(fā)明內(nèi)容
為了解決現(xiàn)有口語考試尤其是英語口語考試中人工評分速度慢、全面性差和尺度 不統(tǒng)一的問題,以及當(dāng)前自動口語發(fā)音流利度評估中考察指標(biāo)單一,和人工評分相關(guān)性差 的缺點,本發(fā)明的目的是針對口語教學(xué)和口語自動化考試,提出一種基于廣義流利的口語 流利度自動評估方法和系統(tǒng)實現(xiàn)。 為達(dá)成所述目的,本發(fā)明的一種基于廣義流利的口語流利度自動化評估方法,包 括以下步驟 步驟Sl :利用語音輸入設(shè)備,分不同年齡和口語水平收集語音數(shù)據(jù); 步驟S2 :采用基于廣義流利度的特征和機(jī)器學(xué)習(xí)的方法訓(xùn)練異常流利度錯誤決
策樹分類模型、流利度評分回歸分析模型和流利度診斷規(guī)則模型; 步驟S3 :根據(jù)語音數(shù)據(jù)不同話題的腳本和發(fā)音者的性別,配置相應(yīng)參數(shù)的語音識 別系統(tǒng); 步驟S4 :利用對語音數(shù)據(jù)中語速連貫、內(nèi)容理解、高級技巧和重構(gòu)標(biāo)特征進(jìn)行量 化,計算機(jī)自動從專家評估角度綜合提取語音數(shù)據(jù)中流利度的特征; 步驟S5 :采用回歸擬合分析和數(shù)據(jù)挖掘中的決策樹方法對異常流利度錯誤的檢
測和流利度評分、診斷。 本發(fā)明的有益效果 本發(fā)明是針對口語教學(xué)和口語自動化考試,提出的一種新的基于語音識別多種特 征融合得到分?jǐn)?shù)并結(jié)合規(guī)則進(jìn)行診斷的方法,解決口語發(fā)音的流利度計算機(jī)自動評估問 題。 由于本發(fā)明的方法采用大詞匯量連續(xù)語音識別系統(tǒng)進(jìn)行識別,以及更全面更趨近 與人的特征提取方式,在評分過程中采用現(xiàn)代信號處理技術(shù)和統(tǒng)計機(jī)器學(xué)習(xí)理論相結(jié)合的 方法,使得機(jī)器評分更加趨進(jìn)與專家的評分。 在測試中,按照國際上專家系統(tǒng)一般的評分管理,每個發(fā)音錄制腳本由5個專家
6打分,由于專家之間存在評分尺度差異的情況,專家個人打分也存在一定誤差,故最后該腳 本的分?jǐn)?shù)為5個專家的平均分決定。 經(jīng)過對不同專家和平均分之間的相關(guān)性(Inter-correlation),同一個專家對相 同一批打分重復(fù)打分的相關(guān)性(Intra-correlation)進(jìn)行測試,本方法得到的機(jī)器流利度 分?jǐn)?shù)可以達(dá)到與專家接近的水平。在相關(guān)度指標(biāo)上可以超過一般5個專家中的2-3個。
同時,該方法評分速度快,在O. l倍實時性以下,大大節(jié)省了人工評分的時間,不 僅可以取代專家評分,而且可以針對不同發(fā)音腳本給出診斷報告,對測試者在流利度中流 暢性,停頓,連讀和失去爆破上的發(fā)音意見,以及一些今后改進(jìn)和矯正方面的建議。同時,該 系統(tǒng)可以嵌入到口語自動化評分考試系統(tǒng)中,作為一個重要模塊評測發(fā)音質(zhì)量中流利度這 一指標(biāo)。 本發(fā)明可以針對口語考試中朗讀,跟讀和話題簡述等開放題型。提取發(fā)音內(nèi)容的 可接受性與廣義流利中的可接受性相關(guān),強(qiáng)調(diào)產(chǎn)生的語言符合目標(biāo)語標(biāo)準(zhǔn)的程度,重視語 言的用法而非使用,將會話的話題和閱讀的內(nèi)容指標(biāo)引入到流利度特征指標(biāo)中來,避免學(xué) 生因為提前背誦與主題無關(guān)的段落,或者亂說一段無意義的片段而得到高分。系統(tǒng)分兩種 情況來進(jìn)行,1)如果題目為閱讀或者跟讀題型,由于朗讀中有修正現(xiàn)象,則匹配算法采用反 向動態(tài)規(guī)劃,同時,為了避免諸如"the, an"等高頻詞在動態(tài)規(guī)劃過程中出現(xiàn)錯位的匹配, 匹配過程中只有連續(xù)兩個詞同時和腳本相同才計入正確,之后計算正確表達(dá)內(nèi)容所占的比 率。2)如果題目為話題簡述等開放題型,則計算N-gram命中率加權(quán)得分。
本發(fā)明的專家系統(tǒng)模擬教師對學(xué)生口語流利度進(jìn)行評分。該系統(tǒng)適用于閱讀,跟 讀和話題簡述等多種題型,利用基于客觀流暢性和主觀認(rèn)知性的多種特征進(jìn)行評估,利用 決策樹和回歸模型融合的方法得到評分結(jié)果,并給出具體的診斷報告和改進(jìn)方向。如
語速適中,能平穩(wěn)順暢地朗讀全文,可保持這樣的語
速;朗讀時有些重復(fù)或自我更正,有部分不自然的停頓和
流不應(yīng)有的插入語,表明考生在某些詞匯和語法的掌握方面
利B可能存在問題,需加強(qiáng)對短文某些句子的理解;節(jié)奏掌握
性一般,有一定的朗讀節(jié)奏感,重讀、弱讀掌握一般,對于
有些句子的表達(dá)過于平緩;連讀掌握一般,意群的連貫性
有些欠缺,基本能掌握失爆、同化等朗讀技巧。
圖1為本發(fā)明方法模擬專家建立模型,評分和診斷的總流程框圖 圖2為本發(fā)明系統(tǒng)訓(xùn)練流利度各個模型的流程框圖 圖3為本發(fā)明計算可接受性得分的流程框圖 圖4為本發(fā)明Trap特征和匹配規(guī)整的流程框圖 圖5為本發(fā)明重讀和弱讀的檢測流程框圖 圖6為本發(fā)明Miscues檢測中的語法拓?fù)浣Y(jié)構(gòu)圖
具體實施例方式
下面結(jié)合附圖詳細(xì)說明本發(fā)明技術(shù)方案中所涉及的各個細(xì)節(jié)問題。應(yīng)指出的是,
所描述的實施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。 在口語質(zhì)量評測中,雖然準(zhǔn)確性(包括發(fā)音錯誤)是最重要的指標(biāo),而流利性和總
分也呈現(xiàn)出很強(qiáng)的相關(guān)性。經(jīng)過統(tǒng)計表明,流利度也影響準(zhǔn)確性的衡量,如果會話不流利,
那么準(zhǔn)確性錯誤的發(fā)生概率為37.2%到57.8%之間(p< 0.001).所以,針對當(dāng)前流利度
自動評估的發(fā)展現(xiàn)狀和實際要求,本發(fā)明力求在各個方面對考生的流利度進(jìn)行綜合評估,
其特點在于 1)以準(zhǔn)確性的準(zhǔn)繩衡量下的流利度評估,發(fā)明根據(jù)英語語言學(xué)總結(jié)出的專家系統(tǒng)
對于流利度的各項指標(biāo)要求,充分考慮了語境,腳本,話題內(nèi)容,利用最前沿的語音識別技
術(shù)和多年來我們在英語口語考試中獲得的樣本作為數(shù)據(jù)驅(qū)動,定量計算出受試者發(fā)音的各
項指標(biāo)。同時利用大量英語教育者對于不同層次英語學(xué)習(xí)者發(fā)音流利度的打分作為參照,
采用機(jī)器學(xué)習(xí)的方法對先驗知道的英語學(xué)習(xí)者水平和其真實得分進(jìn)行訓(xùn)練,建立評分模
型,自動給出流利度綜合評價,并且也可應(yīng)用到漢語等其他語言的流利度評估中。 2)不僅給出流利度的綜合評價,本系統(tǒng)尤其針對中國人學(xué)習(xí)英語的特點,對于中
國人在流利表達(dá)英語的特點上進(jìn)行研究,在音素個數(shù)種類選取,聲學(xué)模型訓(xùn)練,診斷易錯點
上,都采用從大量中國不同水平發(fā)音者的真實樣本中統(tǒng)計出的規(guī)律進(jìn)行建模。 3)輸出診斷結(jié)果報告,分不同的考察點以分?jǐn)?shù)形式定量給出發(fā)音者流利度不足反
映在哪些方面,給出發(fā)音者應(yīng)該從哪些方面提高流利度的措施。 4)從"廣義流利"出發(fā),特征提取更加全面,不僅提取諸如基本的語速,停頓等特 征,還利用連讀,失去爆破,自我修正,重復(fù),節(jié)奏韻律特征,重讀,弱讀等多項高階特征,同 時設(shè)計了一種新的語法模型,提取錯讀和修正(Miscues)特征.綜合考察高水平閱讀者的 流利程度,試圖在高分段建立統(tǒng)計學(xué)習(xí)模型,達(dá)到和專家評分相關(guān)度的一致性。
— .語音識別系統(tǒng)搭建簡述 本發(fā)明的實施例,所述語音識別系統(tǒng)根據(jù)不同話題腳本、發(fā)音者性別配置相應(yīng)語 言模型和聲學(xué)模型,采用常用的聲學(xué)解碼器得到識別結(jié)果;識別器同時輸出每個詞和音素 對應(yīng)的起止時間以及對應(yīng)的可信度,供流利度特征提取使用,其中
聲學(xué)模型訓(xùn)練步驟如下 1):使用相同年齡段男女生的標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)及其對應(yīng)不同話題腳本,對每條訓(xùn)練 語音提取39維梅爾倒譜(MFCC)和一階,二階差分,規(guī)一化能量特征; 2):通過強(qiáng)制對齊算法和前后向算法對各音子對應(yīng)幀特征進(jìn)行估計,得到單音子 聲學(xué)模型; 3):通過設(shè)計決策樹和前后向算法,訓(xùn)練得到三音子聲學(xué)模型; 4):通過區(qū)分度模型訓(xùn)練算法,訓(xùn)練得到具有區(qū)分度信息的三音子模型; 語言模型訓(xùn)練步驟如下 1):對每個話題腳本收集對應(yīng)詞匯范圍內(nèi)的各個衍生詞與腳本中詞匯訓(xùn)練得到對 應(yīng)的三元語言模型; 2):為了增加對話題腳本外內(nèi)容的識別兼容性,采用大規(guī)模話題無關(guān)語料訓(xùn)練得 到一個垃圾語言模型(Garbage Model);
8
3):每個話題腳本對應(yīng)的語言模型通過與通用語言模型融合得到對應(yīng)題目的最終 語言模型。 識別過程是這樣的,語音需要送進(jìn)大詞匯量連續(xù)語音識別系統(tǒng)進(jìn)行識別。采用 10ms幀移,25ms幀長的分幀策略,對每幀提取39維MFCC特征,包括規(guī)一化能量特征, 一階 差分和二階差分;然后進(jìn)入語音識別模塊,根據(jù)被測試人的性別和當(dāng)前口語內(nèi)容,選擇使用 的語言模型(trigram)和聲學(xué)模型以及詞表,其中,詞表包含該話題口語中可能出現(xiàn)的詞 匯發(fā)音音節(jié)序列。而針對發(fā)音對象多為學(xué)生這一特點,聲學(xué)模型訓(xùn)練采用發(fā)音標(biāo)準(zhǔn)的中學(xué) 生數(shù)據(jù),特征共形成16個混合G匪,訓(xùn)練出每個連續(xù)HMM中包含三個狀態(tài),另外還有兩個額 外的HMM,一個代表靜音,一個代表其他非語音的聲音。利用語音識別引擎對特征序列進(jìn)行 識別;輸出每個詞和音素對應(yīng)的起止時間以及對應(yīng)的可信度等信息后進(jìn)入流利度特征提取 模塊。 二 .流利度特征提取 本發(fā)明的實施例,所述流利度自動評估方法,選取特征力求更能反映教育研究者 提出的"廣義流利"。系統(tǒng)利用語音識別系統(tǒng)輸出的每個詞和音素對應(yīng)的起止時間以及對應(yīng) 的可信度等信息,提取四大類特征為會話的語速連貫特征,內(nèi)容理解特征,高級技巧特征, 重構(gòu)特征 1.會話的語速連貫特征,強(qiáng)調(diào)時間性和言語的流暢延續(xù)。其最高標(biāo)準(zhǔn)是達(dá)到母語 般的速度,所以這里我們提取的特征為能夠直觀反映會話速度的特征,如整體語速,句子語 速,平均語流長、有效停頓比率等。 1)語速(ROS):每時間段發(fā)音音素(Phone)個數(shù),計算方法為
Nph。ne/(Trec-Tsil-Tpau) 其中Nph。ne代表識別出Phone個數(shù),Tra代表識別結(jié)果總時間,Tsil代表靜音時間, Ipau代表停頓時長。系統(tǒng)將根據(jù)整篇腳本或者單個句子分別進(jìn)行統(tǒng)計 2)平均語流長(AUD)指以某一時間長度為閾值指定為停頓時間長度,所有停頓和 停頓之間時間的平均長度 ^-^-
S (11, C/ M ) > 當(dāng)然,句子和句子之間是有稍許停頓的,而影響人聽覺的停頓閾值通常要比這個 長。 3)有效停頓比例 統(tǒng)計有效停頓總數(shù)占所有需要停頓總數(shù)的比例 2.會話的內(nèi)容理解特征,強(qiáng)調(diào)語言的可接受性。如果一段對話與主題跟本無關(guān),但 是流利度的打分卻很高,顯然是不可取的,所以流利性的打分會依據(jù)內(nèi)容相應(yīng)調(diào)整。所述內(nèi) 容理解特征與廣義流利度中的可接受性相關(guān),分不同題型來進(jìn)行提取; 1)如果題目為閱讀或者跟讀題型,由于朗讀中有修正現(xiàn)象,故匹配算法采用反向 動態(tài)規(guī)劃,如下計算麗R: 正確表達(dá)語句比率(麗R):如圖3,通過對識別出的內(nèi)容和腳本中的正確內(nèi)容做匹 配,由于測試人可能出現(xiàn)自我修正等現(xiàn)象,所以匹配算法采用反向DP :
9
di,j = min(dw,j+w(Xi, e) , di,j+1+w(e, y」),di+1, j+1+w(x丄,y》}
《j代表匹配過程中的距離函數(shù),w代表插入,刪除或替換過程中的耗費函數(shù)。
同時,為了避免諸如"the , an "等高頻詞在DP過程中出現(xiàn)錯位的匹配,匹配回溯過 程中只有連續(xù)兩個詞同時和腳本相同才計入正確。 2)如果題目為話題簡述或開放題型,則計算N-gram命中率加權(quán)得分。
衡量識別結(jié)果中N元詞匯在幾個候選正確腳本中的命中概率得分, 此處使用近似于機(jī)器翻譯中Bleu打分的策略,5]w" logP"其中wn為第n-gram得
w=l ,
分的權(quán)重,Pn為第n-gram的概率得分。 3.提取高級技巧特征,考察語言抑揚(yáng)頓挫衡量的三個指標(biāo)。1)流利的發(fā)音并不代 表一味得讀快,而是要考慮在恰當(dāng)?shù)脑~匯和句群,段落進(jìn)行適當(dāng)長度的停頓,2)在某些影響 表達(dá)感情和意思的重點詞匯上采用重讀,3)在一些輔助性詞匯上采用弱讀,同時考慮一些 高級特性,即連讀(link)和失去爆破(assimilation),如"And you "如果沒有考慮連讀 的讀法是"ae n d y uw",考慮連讀的讀法是"ae n dh uw", "d"和"y"連成一個發(fā)音,這 樣的發(fā)音如果比較多,應(yīng)該考慮適當(dāng)加分,在識別的時候也要對容易連讀的詞匯單獨考慮, 失去爆破指對于一些單詞尾部的輔音,采用不讀和弱讀的方式,以更快地增加語速,這種技 能為多見于流利度掌握很好的母語者或優(yōu)秀的發(fā)音者,系統(tǒng)將根據(jù)評分專家標(biāo)注的流利度 診斷模型,對以上特征分別進(jìn)行提取。 1)正確停頓得分計算該特征前需要預(yù)先根據(jù)句群結(jié)構(gòu)標(biāo)注應(yīng)該正確停頓的地 方,之后對識別腳本進(jìn)行分析,判斷實際正確停頓個數(shù)占所有應(yīng)正確停頓個數(shù)的比例。其他 停頓診斷特征為 ptr (音素率Phone Time Ratio):所有phone持續(xù)時間/錄音總時間 art(清晰發(fā)音率Articulaion Ratio):總音節(jié)個數(shù)/去處靜音和其他音后的錄音
時間 spc(靜音率Silence Pause Count):大于0. 2s的所有停頓長度 tdp(停頓時長Total duraion of pause):所有大于0. 2s的句子和句子的停頓長
度 mlp(停頓平均長度Mean length of pauses):所有大于0. 2s的平均停頓長度
2)連讀(Link)和失去爆破(Assimilation):采用對于腳本中可能產(chǎn)生連讀和失 爆的詞匯進(jìn)行標(biāo)注,同時擴(kuò)展該詞的詞表或者合并多個詞組成連接詞詞表,識別過程中采 用新的詞表進(jìn)行,由于解碼過程總是采用DP并裁減掉其他路徑,如果測試者在閱讀中有連 讀或失去爆破的技巧,則對應(yīng)詞表的詞會優(yōu)先識別出來,之后對識別結(jié)果進(jìn)行分析,統(tǒng)計連 讀或失爆詞匯占所有應(yīng)連讀或失爆詞匯的比率。 3)重讀或弱讀得分由于重讀或者弱讀的音節(jié)表現(xiàn)為能量,時長和基頻,而其中 前兩者占據(jù)主導(dǎo)地位,這里我們發(fā)明了一種將時長模型得分,能量強(qiáng)度模型得分,神經(jīng)網(wǎng)絡(luò) (NN)后驗概率得分相融合的方法,如圖5所示 計算段長得分前,應(yīng)該將該音節(jié)的段長進(jìn)行規(guī)一化,消除不同人發(fā)音快慢的差 異,以英語為例,模型的訓(xùn)練采用發(fā)音標(biāo)準(zhǔn)的中國學(xué)生和英語母語者,需要采用維特比 (Viterbi)切分確定每個音節(jié)的時長,而某一段Phone的段長得分如下
D = ^|>g07(/W)k) f (eg為消除不同說話人快慢差異的段長規(guī)一化函數(shù),qi代表第i段的phone。而 概率得計算采用16個高斯的混合模型。同樣方法,計算該段Phone的能量強(qiáng)度模型得分。
而NN得到Phone后驗概率方法近年來被廣泛采用,本方法如圖4所示,利用多層 感知NN的方法,特征提取時采用Trap形式,即MFCC中每一個Band采用幀前和幀后幾幀做 為整體,對每個Band采用不同的神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,第二層再利用NN對識別結(jié)果進(jìn)行合 并。得到當(dāng)前幀的后驗概率得分。而Phone的后驗概率得分采用將整句話利用神經(jīng)網(wǎng)絡(luò)后 驗概率得分進(jìn)行動態(tài)規(guī)劃切分,得到每個Phone的邊界,并確定每個Phone的后驗概率得 分。 另外一個顯著特征就是Phone在一段話元音中的特征度量排序,試想如果該 Phone為重讀,那么其周圍的元音Phone必然就會減弱,所以,假設(shè)一段話中有N個元音,那
么第i個元音的能量排序特征為
,「 iV"-i a"A:,Aa"M" =-L
iV , 其中Ranki為第i個Phone在所有Phone中的能量排序 同樣,我們提取該元音的基頻排序特征。而重讀分?jǐn)?shù)得出也是通過對大量標(biāo)注好 的重讀和弱讀Phone以上述特征進(jìn)行訓(xùn)練,每個Phone得到兩類的支持向量機(jī)(SVM)模型, 訓(xùn)練過程中,由于訓(xùn)練樣本多數(shù)Phone會出現(xiàn)正負(fù)類分布差異懸殊的的情況,影響識別結(jié) 果。所以這里我們提出一種將診斷Phone進(jìn)行歸類的方法,以歸類后Phone按照類別為單 位訓(xùn)練模型。 新的測試樣本重讀和弱讀得分是這樣得到的首先,通過專家對腳本中應(yīng)該重讀 或弱讀會提高流利程度的地方進(jìn)行標(biāo)注,之后對測試語音在這些可能發(fā)生重讀或弱讀的 地方分別對其包括的所有Phone提取特征進(jìn)行判別,每個Phone的得分是其對應(yīng)群類別 (Group)的SVM得分,如果SVM判別類別和標(biāo)注答案相同,則取正分,相反,則取負(fù)分。最后, 該段重讀或弱讀得分為所有考察點Phone得分的平均值。如下所示 2] (r"' == W《)? "ore,.: —score,. 4.會話的重構(gòu)特征,考察錯讀或修正(Miscues),我們稱這種方式為重構(gòu)模式。即 語言學(xué)習(xí)者對于內(nèi)容沒有在大腦中預(yù)先形成完整的構(gòu)思,隨著時間的推移,逐漸形成語句, 于是伴隨發(fā)音后進(jìn)行語句重組。所述重構(gòu)特征的提取,主要包括以下兩部分一是異常停 頓和回溯詞率,回溯詞定義為拖延時間用來使大腦形成重構(gòu)語句的詞匯,通過在識別結(jié)果 中統(tǒng)計這些詞的分布得到特征;二是只在閱讀題型中出現(xiàn)的,需要已知閱讀腳本的先驗知 識,提取自我修正率(Self correction)、單詞不完整性(Partial word)、慢讀(Sounding out)、拖音(Stalling)、疑問(Questioninglntonation)。 1)異常停頓和回溯詞率前者指發(fā)音者欲說出某一句子,停頓一段時間,再說 出.反映了發(fā)音者對于語言沒有預(yù)先形成構(gòu)思。后者指一些輔助性發(fā)語詞所占比率,包括 well,mhm等詞以及發(fā)音者因為不熟悉語句輕聲發(fā)出的微語。如
11
"Many teenagers suffer, mhm,from stress,well,there are some simpleways
to deal with this problem" 其中well, mhm都算作輔助性詞匯。 識別前我們將所有回溯詞的發(fā)音也放入到發(fā)音詞典中去,同時在聲學(xué)訓(xùn)練中訓(xùn)練 背景音模型,識別結(jié)束后,統(tǒng)計該指標(biāo)計算方法為
(r尸。j^ i r尸叫> rrtre) w+^v"G—g函"
Tpau為停頓時長,即單詞和單詞之間的時間長度.Tt^為停頓時長門限,W為常數(shù)權(quán)
重,Neart,WOTd為回溯詞匯個數(shù),NWOTd為識別出的總詞個數(shù) 2)自我修正率是指自我修正的次數(shù),以下是自我修正的例子"Many teenagers have from,suffer from stress,there are some simpleways
to do with, to deal with this problem" 其中"suffer from"和"to deal with"都算作修正詞匯,在計算發(fā)音內(nèi)容時,應(yīng) 該以修正后的內(nèi)容為準(zhǔn)。 3)單詞不完整(Partial Word):如果一個單詞只念出一半,之后再念出完整的單 詞或直接放棄,我們將這種現(xiàn)象稱為單詞不完整。 4)慢讀(So皿ding-0ut):指發(fā)音者對于詞匯不熟悉,在每一個音素發(fā)音中間帶有 較長的間隙。 這三種特征只適用于閱讀題型,即在已知目標(biāo)腳本情況下利用強(qiáng)制切分(Force Alignment)判斷,因為在自我修正,單詞不完整或者慢讀的語音中,依靠識別結(jié)果判斷自我 修正和單詞不完整是不可取的,因為對于自我修正的語句,念錯的第一遍內(nèi)容在識別過程 中很容易發(fā)生錯誤;而對于單詞不完整,通過在詞典中加入不完整的詞匯,這個工作量也是 非常大的,所以這里我們提出一種新的語法結(jié)構(gòu).主要用來識別不完整和重復(fù)的詞匯,如 圖6所示,假設(shè)部分詞模型只有三個phone.在識別出大致的句子起止和中止點后,利用圖 中的語法結(jié)構(gòu)進(jìn)行強(qiáng)制切分.BG模塊指訓(xùn)練得到的背景模型,而切分中仍然保留傳統(tǒng)完整 的詞切分模型,在之前需要過一個部分詞模型,可以按照順序任意跳轉(zhuǎn)切分出詞中的單個 Phone,同時,為了識別慢讀錯誤,Phone和Phone之間也有一個背景模型進(jìn)行連接.
之后,運用統(tǒng)計學(xué)和拓?fù)涞姆椒ㄓ嬎鉖artial Word模型經(jīng)過的次數(shù),跳轉(zhuǎn)的方式 和拓?fù)浣Y(jié)構(gòu),以及在詞內(nèi)部Phone模型跳轉(zhuǎn)和詞間跳轉(zhuǎn)時BG模型的數(shù)量和分布等指標(biāo),來 確定自我修正,單詞不完整的程度以及慢讀單詞的數(shù)量. 5)拖音(Stalling):指發(fā)音者經(jīng)常對于某個單詞的第一個Phone發(fā)很長的音。
6)疑問(Questioning Intonation):指發(fā)音者帶著疑問的語調(diào)說出單詞的結(jié)尾, 也反映了其對于單詞的不確定。在這些Miscues特征中,Stalling和Questioning和總體評分相關(guān)度很小,而測 試樣本中這些現(xiàn)象并不多見,所以在本發(fā)明中只提取前4種Miscues特征。
三.流利度模型訓(xùn)練 本發(fā)明的實施例,在模型訓(xùn)練方面,通過對特征提取模塊得到的流利度的特征和 評分專家在考察點上的打分平均值建立對應(yīng)回歸分析模型;對評分專家評價出的典型錯誤
12樣本進(jìn)行特征分析,訓(xùn)練得到針對典型錯誤流利度的決策樹分類模型;由評分專家根據(jù)發(fā)
音者的發(fā)音特點,對不同話題的腳本中容易發(fā)生連讀、失去爆破、停頓、重讀或弱讀的詞匯
或短語進(jìn)行標(biāo)記,取多數(shù)專家認(rèn)同的診斷點,得到診斷規(guī)則模型。具體步驟如下 1.挑選發(fā)音腳本,統(tǒng)計各個候選腳本的各項考察特征,利用特征分布的熵,盡量保
證能夠考察到發(fā)音者在流利度各項高級技巧充分表現(xiàn)的短語或句群;同時,選取各個層次
的發(fā)音者進(jìn)行訓(xùn)練樣本錄制,每個發(fā)音者隨機(jī)錄制多個腳本,并保存為供訓(xùn)練的錄音文件。 2.所述異常流利度錯誤決策樹分類模型,是為了避免非常明顯的錯誤(如與主題
無關(guān)錯誤),旨在通過的決策樹規(guī)則將評分診斷容易出錯的典型會話區(qū)分開來。系統(tǒng)對專家
評價出的一些典型錯誤樣本進(jìn)行特征分析,訓(xùn)練得到?jīng)Q策樹分類模型,這樣做的目的旨在
消除回歸模型對特征進(jìn)行擬合得到的分?jǐn)?shù)不能真正反映典型流利度錯誤樣本的情況,當(dāng)?shù)?br>
型錯誤發(fā)生時,直接得到對應(yīng)錯誤的診斷結(jié)果。其步驟如下 1)選取所有專家評價出的典型流利度異常樣本,并對其進(jìn)行歸類,同時將流利度 正常和大致正常腳本歸為一類。 2)提取特征并規(guī)一化后,用決策樹訓(xùn)練軟件得到多個RuleSet組成的流利度決策 樹模型。模型訓(xùn)練中應(yīng)該將流利度正常模型的權(quán)重設(shè)置偏大,以在測試中使大部分樣本進(jìn) 行流利度回歸模型的測試。 3.所述流利度回歸分析模型,通過對特征提取模塊所提取的流利度各項特征和 專家在各項考察點打分平均值建立對應(yīng)關(guān)系,通過回歸訓(xùn)練得到流利度評分模型。該回歸 模型可以是多項式線性回歸模型,也可以是支持向量回歸機(jī)(SVR)模型或神經(jīng)網(wǎng)絡(luò)模型 (NN),但是實際過程中發(fā)現(xiàn)SVR和NN模型雖然得到的評分和人工評分相關(guān)度高,但是對于 一些流利度非常好或者非常差的發(fā)音不能夠得到客觀的反映。故在此我們根據(jù)線性回歸擬 合出分?jǐn)?shù)的特點,即8分以上擬合的分?jǐn)?shù)會比專家打分略低,4分以下擬合的分?jǐn)?shù)會比專家 打分略高,采用分段線性回歸(Segmental LR)模型。得到考生語速連貫,內(nèi)容理解,高級技 巧,重構(gòu)上的模型LRModeljk, k = 1,2,3,4 4.所述流利度診斷規(guī)則模型,由專家對腳本中容易發(fā)生連讀,失去爆破,停頓,重 讀或弱讀的詞匯或短語進(jìn)行標(biāo)記后,取多數(shù)專家認(rèn)同的診斷點,得到診斷規(guī)則模型,該模型 用來診斷測試者在一些高級流利度技巧上的發(fā)揮。
四.模擬專家評分和診斷 本發(fā)明的實施例,所述對異常流利度錯誤的檢測和流利度評分、診斷,強(qiáng)調(diào)評分和 診斷在系統(tǒng)中的結(jié)合,并利用機(jī)器學(xué)習(xí)和數(shù)字信號處理技術(shù),使得計算機(jī)評分和人工評分 在最大程度上相關(guān),具體步驟如下 步驟51 :對發(fā)音者發(fā)音文件進(jìn)行語速連貫,內(nèi)容理解,高級技巧,重構(gòu)等特征的提 取并歸一化,存儲特征。對于第i個發(fā)音者朗讀的第j個腳本,特征文件記為feature^
步驟52 :運用第j個腳本的典型流利度錯誤規(guī)則決策樹模型DTModelj,對特征文 件進(jìn)行測試;如果落入決策樹的某個典型錯誤分支,則直接給出典型錯誤判決結(jié)果,否則, 進(jìn)行步驟3 ; 步驟53 :訓(xùn)練好的第j個腳本在第k個考察點的分段流利度回歸模型LRModeljk, k = 1,2,3,4,對決策樹判別流利度基本正常的發(fā)音進(jìn)行測試,得到發(fā)音者在流利度語速連 貫,內(nèi)容理解,高級技巧,重構(gòu)考察點上規(guī)一化到0-10分之間的得分SCorek, k = 1,2,3,4。
13之后,根據(jù)考試需要考察各項指標(biāo)的權(quán)重,得到發(fā)音者在流利度上的總得分St, = Z 5to/^i. w; 步驟54 :將第i個發(fā)音者在所有腳本發(fā)音流利度的平均分作為其最終流利度得 分;同時,也根據(jù)該發(fā)音者在不同特征上表現(xiàn)的平均值作為其在該診斷項目上的分項得 分; 步驟55 :利用最終流利度得分和分項得分,結(jié)合訓(xùn)練數(shù)據(jù)中對這一分?jǐn)?shù)段發(fā)音者
會話流利度總體的客觀評價,給出該發(fā)音者的診斷報告,綜合評價,希望以后的改進(jìn)措施等等。 實施例l 參照附圖l-6所示 所述流利度自動化評估系統(tǒng)具體實施如圖1所示,虛線模塊標(biāo)號對應(yīng)實施方式中 1-5個步驟,圖2是對步驟1, 2即系統(tǒng)離線部分,包括數(shù)據(jù)準(zhǔn)備和各種模型訓(xùn)練的具體闡述; 圖3是對步驟4-2中提取發(fā)音內(nèi)容的可接受性特征的具體闡述;圖4是對步驟4-3中神經(jīng) 網(wǎng)絡(luò)后驗概率得分的具體闡述;圖5是對步驟4-3中重讀和弱讀提取方法的具體闡述;圖6 是對步驟4-4中重復(fù)和自我修正特征提取中語言模型建立的具體闡述。
1.如圖2所示,收集供訓(xùn)練流利度模型用發(fā)音數(shù)據(jù),其步驟如下
1)挑選發(fā)音腳本,利用腳本中各項特征分布熵,選取能夠考察到發(fā)音者在流利度 各項高級技巧充分表現(xiàn)的短語或句群。如優(yōu)先考慮對各個音素涵蓋全面,既有停頓,又有連 讀,失去爆破等高級流利度技巧的腳本。 2)挑選發(fā)音人,保證各個層次,不同性別和年齡人群的均勻分布。如針對的測試人 群是學(xué)生,則發(fā)音人群的選取中學(xué)生的比例應(yīng)該占大部分,同時應(yīng)該盡量選取發(fā)音標(biāo)準(zhǔn)的錄音。 3)制作符合上述要求的錄音工具和標(biāo)注工具,指定人按照發(fā)音文本進(jìn)行錄音。錄 音工具操作應(yīng)該考慮快捷鍵,回放,重錄,時頻域?qū)崟r顯示,隨時更新配置腳本等功能。錄制 過程中,音量一定適中,并保證錄制的發(fā)音清晰而標(biāo)準(zhǔn)。而標(biāo)注工具也應(yīng)該考慮進(jìn)行多項特 征的標(biāo)注,同時允許多個專家同時進(jìn)行標(biāo)注,輸出分?jǐn)?shù)和診斷點結(jié)果。 2.如圖2所示,訓(xùn)練流利度評測需要的各項模型。包括異常流利度錯誤決策樹模 型,流利度評分的回歸模型和流利度診斷模型,其具體步驟如下 1)通過對特征提取模塊得到的流利度各項特征和專家在各項考察點打分平均值 建立對應(yīng)回歸分析模型。實施過程中,提取的各項特征要進(jìn)行規(guī)一化,如可以采用均值方差 歸一化方法;在對應(yīng)回歸分析建模中,采用分段線性回歸模型,每一分?jǐn)?shù)段內(nèi)采用支持向量 回歸機(jī)模型進(jìn)行訓(xùn)練。得到考生語速連貫,內(nèi)容理解,高級技巧,重構(gòu)上的模型LRModeljk,k =1,2,3,4,其中j代表閱讀或者話題腳本,k代表各項考察點。 2)對專家評價出的一些典型錯誤樣本進(jìn)行特征分析,訓(xùn)練得到針對典型錯誤流利 度的決策樹分類模型。如對于每一個錄制的發(fā)音,由5個專家進(jìn)行判斷,當(dāng)3個或以上專家 判斷為某一種形式的流利度錯誤(如太多的自我修正錯誤)時,則將這種典型的流利度錯 誤樣本挑選出來。訓(xùn)練決策樹模型過程中,可采用數(shù)據(jù)挖掘軟件See5. 0,采用RuleSet決策 形式,通過大量的訓(xùn)練樣本得到判決的RuleSet,而測試樣本的判決結(jié)果由這些RuleSet的結(jié)果融合決定。 3)由專家對腳本中容易發(fā)生連讀,失去爆破,停頓,重讀或弱讀的詞匯或短語進(jìn)行標(biāo)記后,取多數(shù)專家認(rèn)同的診斷點,得到診斷規(guī)則模型。實施過程中,有一個單獨的診斷規(guī)則模型生成器模塊,生成的模型中不同的高級特征診斷點由不同的符號進(jìn)行標(biāo)記。
3.根據(jù)不同話題,配置相應(yīng)參數(shù)的語音識別系統(tǒng), 1)識別解碼可以采用劍橋大學(xué)的語音識別工具HTK (http: 〃htk. eng. cam.
ac. uk)。識別器同時輸出每個詞和音素對應(yīng)的起止時間以及對應(yīng)的可信度。 2)在聲學(xué)模型訓(xùn)練時,使用相同年齡段男女生的標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)及其對應(yīng)腳本。如
使用大詞匯連續(xù)語音聲學(xué)模型訓(xùn)練平臺訓(xùn)練得到三音子模型,步驟如下 a.對每條訓(xùn)練語音提取39維MFCC和一階,二階差分,規(guī)一化能量特征。 b.通過強(qiáng)制對齊算法和前后向算法估計,得到單音子聲學(xué)模型。 c.通過設(shè)計決策樹和前后向算法,訓(xùn)練得到三音子聲學(xué)模型。 d.通過區(qū)分度模型訓(xùn)練算法,訓(xùn)練得到具有區(qū)分度信息的三音子。 3)在語言模型訓(xùn)練時,步驟如下 a.對每個腳本收集對應(yīng)詞匯范圍內(nèi)的衍生詞與所有腳本中詞匯訓(xùn)練得到對應(yīng)的三元語言模型。 b.為了增加腳本外內(nèi)容的識別兼容性,采用中學(xué)生課本語料訓(xùn)練得到一個與主題無關(guān)(Garbage)語言模型。 每個腳本對應(yīng)語言模型通過與通用語言模型融合得到對應(yīng)題目的最終語言模型。
4.根據(jù)原始語音和識別結(jié)果提取流利度各項特征。具體提取四方面特征,步驟如下 1)提取時間和會話的流暢性特征,主要包括整體語速,平均語流長,有效停頓比率。 2)提取發(fā)音內(nèi)容的可接受性特征,這項特征的輸入就是語音識別系統(tǒng)的識別結(jié)果。分兩種情況來進(jìn)行,l)如果題目為閱讀或者跟讀題型,由于朗讀中有修正現(xiàn)象,故匹配算法采用反向動態(tài)規(guī)劃,如圖3所示,首先將識別結(jié)果和正確腳本做動態(tài)規(guī)劃,得到編輯距離矩陣,通過該矩陣統(tǒng)計出插入,刪除,替換詞匯的比率,之后將這三個指標(biāo)做加權(quán)平均
SAccept = 0. 6 SIns+0. 2 SDel+0. 2 SSub 同時,為了避免諸如"the, an"等高頻詞在動態(tài)規(guī)劃過程中出現(xiàn)錯位的匹配,匹配過程中只有連續(xù)兩個詞同時和腳本相同才計入正確,之后計算正確表達(dá)內(nèi)容所占的比率;2)如果題目為話題簡述等開放題型,則計算N-gram命中率加權(quán)得分。 3)提取能夠考察流利度抑揚(yáng)頓挫等高級特征,主要包括連讀和失去爆破,重讀和弱讀,影響韻律的適當(dāng)停頓等特征,其中重讀和弱讀的提取如圖5所示,這里,通過提取特征,將時長模型得分,能量強(qiáng)度模型得分,神經(jīng)網(wǎng)絡(luò)(NN)后驗概率得分相融合,利用SVM分類器得到音節(jié)的類別(重讀,次重讀,弱讀),詳細(xì)過程參見說明書重讀和弱讀得分部分。
4)提取自我修正和自我重復(fù)特征,主要包括回溯詞率和自我修正率,單詞不完整和慢讀,其中語言模型建模如圖6所示,詳細(xì)闡述過程見說明書自我修正,單詞不完整和慢讀部分。 最后,統(tǒng)計各項特征的均值和方差,進(jìn)行歸一化。歸一化的方式要和訓(xùn)練數(shù)據(jù)的歸一化方式相同 5.異常流利度錯誤的檢測和流利度評分,診斷,具體步驟如下 1)利用步驟4的特征提取方法提取發(fā)音者流利度發(fā)音特征并規(guī)一化,存儲特征,
對于第i個發(fā)音者朗讀的第j個腳本,特征文件記為feature^ 2)運用第j個腳本的典型流利度錯誤規(guī)則決策樹模型DTModelj,對特征文件進(jìn)行 測試。如果落入決策樹的某個典型錯誤分支,則直接給出判決結(jié)果,否則,視為近似正常流 利度語音.進(jìn)行第3步。 3)運用第2步訓(xùn)練好的第j個腳本的分段流利度回歸模型LRModeljk, k = 1,2, 3, 4,對決策樹判別流利度基本正常及其以上的發(fā)音進(jìn)行測試,得到發(fā)音者在流利度語速連 貫,內(nèi)容理解,高級技巧,重構(gòu)考察點上的分別得分Scorek,k二 1,2,3,4。之后,根據(jù)考試需 要考察各項指標(biāo)的權(quán)重,得到發(fā)音者在流利度上的總得分5tore = Z 5tc^i. Wj 4)將第i個考生在所有腳本發(fā)音的流利度的平均分作為其最終流利度得分。同
時,也根據(jù)該考生在不同特征上表現(xiàn)的平均值作為其在該診斷項目上的分項得分。 5)利用第4)步得到的結(jié)果,結(jié)合之前對這一分?jǐn)?shù)段發(fā)音者會話流利度的客觀評
價,給出該學(xué)生的診斷報告。 以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任 何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在 本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
1權(quán)利要求
一種基于廣義流利的口語流利度自動化評估方法,其特征在于,以下步驟步驟S1利用語音輸入設(shè)備,分不同年齡和口語水平收集語音數(shù)據(jù);步驟S2采用基于廣義流利度的特征和機(jī)器學(xué)習(xí)的方法訓(xùn)練異常流利度錯誤決策樹分類模型、流利度評分回歸分析模型和流利度診斷規(guī)則模型;步驟S3根據(jù)語音數(shù)據(jù)不同話題的腳本和發(fā)音者的性別,配置相應(yīng)參數(shù)的語音識別系統(tǒng);步驟S4利用對語音數(shù)據(jù)中語速連貫、內(nèi)容理解、高級技巧和重構(gòu)標(biāo)特征進(jìn)行量化,計算機(jī)自動從專家評估角度綜合提取語音數(shù)據(jù)中流利度的特征;步驟S5采用回歸擬合分析和數(shù)據(jù)挖掘中的決策樹方法對異常流利度錯誤的檢測和流利度評分、診斷。
2. 根據(jù)權(quán)利要求1所述口語流利度評估方法,其特征在于,所述提取流利度特征的步 驟如下步驟S41 :利用語音識別結(jié)果提取會話的流暢性特征,該流暢性特征為整體語速、句子 語速、平均語流長、有效停頓比率;步驟S42 :采用動態(tài)規(guī)劃提取發(fā)音的內(nèi)容可接受性特征,該可接受性特征為正確表達(dá) 比率、N元語法(N-gram)命中率加權(quán)得分;步驟S43 :采用基于帶回溯和跳轉(zhuǎn)的語言模型詞圖提取能夠考察流利度抑揚(yáng)頓挫的高 級特征,該高級特征為連讀和失去爆破、重讀和弱讀以及影響韻律的適當(dāng)停頓特征;步驟S44 :采用正反雙向動態(tài)規(guī)劃方法提取錯讀或修正特征為回溯詞率和自我修正率。
3. 根據(jù)權(quán)利要求2所述流利度特征的提取方法,其特征在于,所述抑揚(yáng)頓挫高級技巧 特征的提取,統(tǒng)計三方面特性l)在恰當(dāng)?shù)脑~匯、句群和段落進(jìn)行適當(dāng)長度的停頓,2)在影 響表達(dá)感情和意思的重點詞匯上采用重讀或弱讀,3)在某些連詞之間采用連讀(link)和 失去爆破(assimilation),根據(jù)評分專家標(biāo)注的流利度診斷模型,對感興趣的詞匯、短語和 句群進(jìn)行特征提取。
4. 根據(jù)權(quán)利要求l所述口語流利度評估方法,其特征在于所述重構(gòu)特征的提取,統(tǒng)計 如下特性一是異常停頓和回溯詞率,回溯詞定義為拖延時間用來使大腦形成重構(gòu)語句的 詞匯,通過在識別結(jié)果中統(tǒng)計這些詞的分布得到特征;二是只在閱讀題型中出現(xiàn)的,需要已 知閱讀腳本內(nèi)容這個先驗知識,提取自我修正、不完整單詞性、慢讀、拖音、疑問特征。
5. 根據(jù)權(quán)利要求1所述流利度特征的提取方法,其特征在于,所述內(nèi)容理解特征與廣 義流利度中的可接受性相關(guān),分不同題型來進(jìn)行提??;步驟S31 :如果題目為閱讀或者跟讀題型,則匹配算法采用反向動態(tài)規(guī)劃,匹配過程中 只有連續(xù)兩個或兩個以上的詞與腳本匹配才計入正確,并計算正確表達(dá)內(nèi)容所占的比率; 步驟S32 :如果題目為話題簡述或開放題型,則計算N-gram命中率加權(quán)得分。
6. 根據(jù)權(quán)利要求1所述的口語流利度評估方法,其特征在于,所述訓(xùn)練流利度評測模 型包括異常流利度錯誤決策樹分類模型、流利度評分的回歸分析模型和流利度診斷規(guī)則 模型;訓(xùn)練流利度各評測模型步驟如下步驟S41 :通過對特征提取模塊得到的流利度的特征和評分專家在考察點上的打分平 均值建立對應(yīng)回歸分析模型;步驟S42 :對評分專家評價出的典型錯誤樣本進(jìn)行特征分析,訓(xùn)練得到異常流利度錯 誤決策樹分類模型;步驟S43 :由評分專家根據(jù)發(fā)音者的發(fā)音特點,對不同話題的腳本中容易發(fā)生連讀、失 去爆破、停頓、重讀或弱讀的詞匯或短語進(jìn)行標(biāo)記,取多數(shù)專家認(rèn)同的診斷點,得到診斷規(guī) 則模型。
7. 根據(jù)權(quán)利要求6所述的口語流利度評估方法,其特征在于,所述異常流利度錯誤決 策樹分類模型,是強(qiáng)調(diào)語言主題有關(guān)的流暢會話的可接受性,系統(tǒng)選取容易使評分診斷出 錯的典型會話進(jìn)行特征提取,通過數(shù)據(jù)挖掘訓(xùn)練工具進(jìn)行訓(xùn)練,建立決策樹分類模型,旨在 通過的決策樹規(guī)則將評分診斷容易出錯的典型會話區(qū)分開來。
8. 根據(jù)權(quán)利要求1所述的口語流利度評估方法,其特征在于所述語音識別系統(tǒng)根據(jù) 不同話題腳本、發(fā)音者性別配置相應(yīng)語言模型和聲學(xué)模型,采用聲學(xué)解碼得到識別結(jié)果;識 別器同時輸出每個詞和音素對應(yīng)的起止時間以及對應(yīng)的可信度,其中聲學(xué)模型訓(xùn)練步驟如下步驟S31 :使用相同年齡段男女生的標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)及其對應(yīng)不同話題腳本,對每條訓(xùn)練語音提取39維梅爾倒譜(MFCC)和一階,二階差分,規(guī)一化能量特征;步驟S32 :通過強(qiáng)制對齊算法和前后向算法對各音子對應(yīng)幀特征進(jìn)行估計,得到單音子聲學(xué)模型;步驟S33 :通過設(shè)計決策樹和前后向算法,訓(xùn)練得到三音子聲學(xué)模型; 步驟S34 :通過區(qū)分度模型訓(xùn)練算法,訓(xùn)練得到具有區(qū)分度信息的三音子模型; 語言模型訓(xùn)練步驟如下步驟S35 :對每個話題腳本收集對應(yīng)詞匯范圍內(nèi)的各個衍生詞與腳本中詞匯訓(xùn)練得到 對應(yīng)的三元語言模型;步驟S36 :為了增加對話題腳本外內(nèi)容的識別兼容性,采用大規(guī)模話題無關(guān)語料訓(xùn)練 得到一個垃圾語言模型(Garbage Model);步驟S37 :每個話題腳本對應(yīng)的語言模型通過與通用語言模型融合得到對應(yīng)題目的最 終語言模型。
9. 根據(jù)權(quán)利要求1所述的口語流利度評估方法,其特征在于所述對異常流利度錯誤 的檢測和流利度評分、診斷,強(qiáng)調(diào)評分和診斷在系統(tǒng)中的結(jié)合,并利用機(jī)器學(xué)習(xí)和數(shù)字信號處理技術(shù),使得計算機(jī)評分和人工評分在最大程度上相關(guān),具體步驟如下步驟S51 :利用特征提取方法提取發(fā)音者流利度發(fā)音特征并規(guī)一化,存儲特征,對于第i個發(fā)音者朗讀的第j個腳本,特征文件記為feature ;步驟S52 :運用第j個腳本的典型流利度錯誤規(guī)則決策樹模型DTModelj,對特征文件進(jìn)行測試;如果落入決策樹的某個典型錯誤分支,則直接給出典型錯誤判決結(jié)果,否則,進(jìn)行步驟S53 ;步驟S53 :運用訓(xùn)練好的第j個腳本的分段流利度得分回歸模型LRModeljk, k = 1,2, 3, 4,對決策樹判別結(jié)果在近似正常以上閾值的發(fā)音進(jìn)行測試,分別得到發(fā)音者在流利度語 速連貫、內(nèi)容理解、高級技巧和重構(gòu)考察點上的得分Scores k = 1,2,3,4 ;再根據(jù)考試需要 考察指標(biāo)的權(quán)重,通過加權(quán)和得到發(fā)音者在流利度上的總得分;步驟S54 :將第i個發(fā)音者在所有腳本發(fā)音流利度的平均分作為其最終流利度得分;同時,也根據(jù)該發(fā)音者在不同特征上表現(xiàn)的平均值作為其在該診斷項目上的分項得分;步驟S55 :利用最終流利度得分和分項得分,結(jié)合訓(xùn)練數(shù)據(jù)中對這一分?jǐn)?shù)段發(fā)音者會 話流利度總體的客觀評價,給出該發(fā)音者的診斷報告。
全文摘要
本發(fā)明為基于廣義流利的口語流利度自動化評估方法,包括利用語音輸入設(shè)備,分不同年齡和口語水平收集語音數(shù)據(jù);采用基于廣義流利度的特征和機(jī)器學(xué)習(xí)訓(xùn)練流利度評測模型;根據(jù)語音數(shù)據(jù)不同話題的腳本和發(fā)音者的性別,配置相應(yīng)參數(shù)的語音識別系統(tǒng);利用對語音數(shù)據(jù)中語速連貫、內(nèi)容理解、高級技巧和重構(gòu)標(biāo)特征進(jìn)行量化,從專家評估角度綜合提取語音數(shù)據(jù)中流利度的特征;采用回歸擬合分析和數(shù)據(jù)挖掘中的決策樹方法對異常流利度錯誤的檢測和流利度評分、診斷。得到的機(jī)器流利度分?jǐn)?shù)可以達(dá)到與評分專家接近的水平,在相關(guān)度指標(biāo)上超過一般5個專家中的2-3個;速度快,可以嵌入到口語自動化評分系統(tǒng)中,作為重要模塊評測發(fā)音質(zhì)量中流利度指標(biāo)。
文檔編號G10L15/00GK101740024SQ20081022667
公開日2010年6月16日 申請日期2008年11月19日 優(yōu)先權(quán)日2008年11月19日
發(fā)明者徐波, 李鵬, 梁家恩, 王士進(jìn), 高鵬, 黃申 申請人:中國科學(xué)院自動化研究所