專利名稱:一種基于支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于自動語音識別在發(fā)音檢錯上的應(yīng)用,具體涉及基于自動語音識別 技術(shù),利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法。
技術(shù)背景基于語音自動識別技術(shù)對發(fā)音進(jìn)行錯誤檢測的方法,現(xiàn)有技術(shù)主要依賴于后 驗概率,使用后驗概率作為發(fā)音錯誤度量有兩個缺陷。第一、后驗概率出自語音 識別器,由于人工標(biāo)注錯誤數(shù)據(jù)太過稀少,使用后驗概率很難根據(jù)發(fā)音錯誤標(biāo)注 數(shù)據(jù)反饋的更新識別器模型參數(shù),因此現(xiàn)有的方法均沒有根據(jù)人工發(fā)音錯誤標(biāo)注 數(shù)據(jù)更新識別器模型參數(shù)。第二、后驗概率方法可調(diào)整參數(shù)太少,只能調(diào)整檢錯 門限,無法充分運用人工標(biāo)注發(fā)音錯誤信息,人工標(biāo)注數(shù)據(jù)增多并不能帶來性能 提升。 發(fā)明內(nèi)容針對現(xiàn)有技術(shù)利用后驗概率進(jìn)行發(fā)音錯誤檢測的缺陷,本發(fā)明提出了能有效 解決人工標(biāo)注稀疏問題,充分運用人工標(biāo)注發(fā)音錯誤信息,從而保證了訓(xùn)練得到 的檢錯模型可以較好針對不同發(fā)音人,不同發(fā)音風(fēng)格進(jìn)行錯誤檢測的一種利用支 持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法。本發(fā)明是通過以下技術(shù)方案實現(xiàn)的 一種基于支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,該方法用典型錯誤支持向量 機(jī)檢測方法進(jìn)行發(fā)音錯誤的檢測,所述的典型錯誤支持向量機(jī)檢測方法包括以下 步驟語音識別系統(tǒng)的搭建、發(fā)音錯誤檢測特征提取、獲取發(fā)音錯誤檢測模型訓(xùn) 練目標(biāo)數(shù)據(jù)、訓(xùn)練發(fā)音錯誤支持向量機(jī)檢測模型和發(fā)音錯誤的檢測。一種基于支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,所述語音識別系統(tǒng)的搭建其 步驟如下(1) 預(yù)先收集和錄制標(biāo)準(zhǔn)的發(fā)音語料,并保存為識別器訓(xùn)練語音文件;(2) 針對收集的標(biāo)準(zhǔn)語料進(jìn)行拼音或音標(biāo)的標(biāo)注;(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料訓(xùn)練音素級語音識別器模型;(4)將語音識別器保存到計算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中。一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,所述發(fā)音錯誤檢測特征提 取,其步驟為首先利用被評測語料的文本,對發(fā)音進(jìn)行自動切分和計算目標(biāo)文本的對數(shù)似然度,記為/汰^7^0^,然后,在切分得到的音素邊界上,計算此音段對識別器內(nèi)所有其它模型的對數(shù)似然度,這是一個矢量,記為 (/zUzTjoo^/^//^^.."http://^^'/^"", 然后,禾U用/汰eW o《進(jìn)行規(guī)整發(fā)音錯誤檢測特征提取。一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,所述獲取發(fā)音錯誤檢測模型 訓(xùn)練目標(biāo)數(shù)據(jù),其步驟如下(1) 收集真實發(fā)音人語料,錄制多發(fā)音人數(shù)據(jù);(2) 根據(jù)收集的發(fā)音人真實數(shù)據(jù),以及發(fā)音文本,使用發(fā)音評測專家對數(shù)據(jù)進(jìn) 行標(biāo)注,得到發(fā)音錯誤標(biāo)注數(shù)據(jù),以此作為發(fā)音錯誤檢測模型訓(xùn)練數(shù)據(jù)。一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,所述訓(xùn)練發(fā)音錯誤支持向量 機(jī)檢測模型,其步驟如下(1) 根據(jù)發(fā)音錯誤特征提取模塊得到發(fā)音錯誤檢測特征數(shù)據(jù),根據(jù)專家標(biāo)注模 塊得到目標(biāo)數(shù)據(jù);(2) 使用支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音 檢錯支持向量機(jī)模型;(3) 在專家標(biāo)注數(shù)據(jù)上,在支持向量機(jī)輸出得分的基礎(chǔ)上,設(shè)置發(fā)音錯誤檢測 門限,從而達(dá)到檢出率和誤檢率的平衡。一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,所述發(fā)音錯誤檢測步驟如下(1) 利用文本信息對發(fā)音文件進(jìn)行切分和計算似然度,然后按照特征提取模塊 的方法計算特征文件,記為/^/we,^;(2) 利用前面計算得到的特征々W"/^,,運用支持向量機(jī)測試工具進(jìn)行支持向量機(jī)輸出一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,所述收集的標(biāo)準(zhǔn)語料是利用 HTK訓(xùn)練基于HMM的音素級語音識別器模型。一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,所述計算此音段對識別器內(nèi) 所有其它模型的對數(shù)似然度時,對于中文,聲母和韻母分開,聲母只計算所有聲 母,韻母只計算所有韻母;對于英文,元音和輔音分開,元音只計算所有元音, 輔音只計算所有輔音。一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,該方法還包括有異常錯誤門 限檢測方法,異常錯誤門限檢測方法包括有以下步驟(1) 訓(xùn)練異常發(fā)音錯誤檢測器,其步驟如下-1) 利用特征提取模塊方法得到異常發(fā)音錯誤特征/Mft^^力^。,,這個特征就是支持向量機(jī)特征各維的最大值,這里采用目標(biāo)數(shù)據(jù)模塊中的偽造數(shù)據(jù)方法來生成 目標(biāo)數(shù)據(jù);2) 對每種音素直接設(shè)置一個門限來完成錯誤檢測,以此定義異常發(fā)音錯誤;3) 在偽造目標(biāo)錯誤數(shù)據(jù)上,訓(xùn)練門限,從而滿足檢出率和誤檢率的平衡,以此(2) 設(shè)置發(fā)音錯誤檢測門限;進(jìn)行異常錯誤判決首先計算得到的異常錯誤檢測模塊特征/ ^/^ —,£a,,這個特征就是支持向量機(jī)特征各維的最大值,把這個特征跟訓(xùn)練時確定的異常錯誤檢 測門限進(jìn)行比較,如果/e她^^—大于門限,則認(rèn)為發(fā)生異常發(fā)音錯誤。一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,該方法還包括有異?;煜e 誤支持向量機(jī)檢測方法,異?;煜e誤支持向量機(jī)檢測方法包括有以下步驟(1) 定義每個音素的易混淆錯誤對首先,使用異常錯誤門限檢測方法測試每 個音素對的性能,得到每個音素和所有其它音素發(fā)生錯誤時的檢測性能,誤檢率 固定在0. 05時,檢出率低于門限0. 95的認(rèn)為是易混淆錯誤對;(2) 生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)按照易混淆錯誤對定義,取某音素的所有 發(fā)音正確的數(shù)據(jù)作為正確樣本,這些數(shù)據(jù)的支持向量機(jī)特征直接作為訓(xùn)練數(shù)據(jù)特 征,取所有某音素的易混淆集合里面的音素的發(fā)音正確樣本為某音素的錯誤樣 本,訓(xùn)練特征文件,目標(biāo)數(shù)據(jù)為所有某音素的樣本認(rèn)為是正確樣本,所有其它音 素樣本認(rèn)為是錯誤樣本;(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文 件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯支持向量機(jī)模型;(4) 設(shè)置發(fā)音錯誤檢測門限;進(jìn)行異常易混淆錯誤判決利用前面計算得到的特征/e"^^w,運用支持向量機(jī)測試工具進(jìn)行支持向量機(jī)輸出結(jié)果計算,把計算結(jié)果跟訓(xùn)練異常易混淆發(fā)音錯 誤支持向量機(jī)模型時確定的檢錯門限進(jìn)行比較,如果支持向量機(jī)結(jié)果大于門限, 則認(rèn)為發(fā)生異常易混淆發(fā)音錯誤。一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,所述的訓(xùn)練特征文件以某音素正確樣本作為其它音素的錯誤樣本用下式計算—>0她< ,知ft/《—加加《,...,加fwre- —加/w《 )本發(fā)明提出運用支持向量機(jī)(SVM)方法來進(jìn)行檢錯,其輸入特征是基于語 音識別器的多維對數(shù)似然比,其可調(diào)整參數(shù)為支持向量機(jī)分類器權(quán)重。其優(yōu)點在 于l、由于可調(diào)整參數(shù)相比于語音識別器大大減少(從幾十萬個參數(shù)減少到幾百 個參數(shù)),從而解決了人工標(biāo)注稀疏問題。2、由于支持向量機(jī)分類器根據(jù)人工標(biāo) 注數(shù)據(jù)訓(xùn)練,從而充分運用了人工標(biāo)注發(fā)音錯誤信息。且人工標(biāo)注數(shù)據(jù)越多,分 類器性能越好。3、支持向量機(jī)方法是90年代的重大突破,它從理論上保證了分 類器在不可見數(shù)據(jù)上的良好推廣性,本方法使用SVM進(jìn)行檢錯,從而保證了訓(xùn)練 得到的檢錯模型可以較好的針對不同發(fā)音人,不同發(fā)音風(fēng)格進(jìn)行錯誤檢測。典型錯誤由于引入了支持向量機(jī),從而有效的運用了人工標(biāo)注數(shù)據(jù)信息,從 而對于整體發(fā)音檢錯性能提升較大。在我們的一個321人的普通話水平測試數(shù)據(jù) 庫上,其在不同的檢出率和虛警率的指標(biāo)下,對于單音節(jié)字,其性能和傳統(tǒng)做法 類似。對于雙音節(jié)詞和連續(xù)語流,支持向量機(jī)檢錯均比傳統(tǒng)方法取得了較大的進(jìn) 步。對于異常數(shù)據(jù),由于沒有正常發(fā)音錯誤數(shù)據(jù)進(jìn)行測試。因此,我們從理論和 實際上進(jìn)行分析如下首先,引入了其它音素的正確樣本進(jìn)行訓(xùn)練,從而解決了 異常錯誤訓(xùn)練中最缺少的目標(biāo)樣本問題。傳統(tǒng)的策略是在正常發(fā)音錯誤上訓(xùn)練, 這樣跟異常錯誤檢測這個目標(biāo)偏離很遠(yuǎn)。因此,異常錯誤目標(biāo)數(shù)據(jù)選擇策略保證 了我們的策略的成功。其次,針對聲學(xué)上混淆的錯誤對,我們引入支持向量機(jī)進(jìn)行分類檢錯,從而有效的彌補了傳統(tǒng)策略在聲學(xué)混淆時性能的急劇下降。從上面 兩個方面分析我們可以看到,采用我們的異常錯誤門限檢錯策略和異常錯誤混淆 對支持向量機(jī)檢錯策略能夠有效地針對異常錯誤進(jìn)行檢測。
圖1為本發(fā)明發(fā)音錯誤檢測流程框圖。圖2為本發(fā)明語音識別系統(tǒng)搭建流程框圖。圖3為本發(fā)明發(fā)音錯誤檢測特征提取流程框圖。圖4為本發(fā)明典型發(fā)音錯誤人工標(biāo)注數(shù)據(jù)獲取流程框圖。圖5為本發(fā)明異常發(fā)音錯誤偽造數(shù)據(jù)獲取流程框圖。圖6為本發(fā)明典型發(fā)音錯誤支持向量機(jī)模型訓(xùn)練和門限設(shè)定流程框圖。
具體實施方式
實施例l參加附圖1 6所示。利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法具體實施步驟為1、 語音識別系統(tǒng)的搭建,其步驟如下(1) 收集訓(xùn)練識別器語音根據(jù)語言學(xué)習(xí)的應(yīng)用需要,預(yù)先收集或錄制有針對 性的標(biāo)準(zhǔn)的發(fā)音語料,并保存為識別器訓(xùn)練語音文件,比如針對漢語普通話水平 測試就錄制標(biāo)準(zhǔn)普通話發(fā)音人的普通話水平測試語料;(2) 數(shù)據(jù)標(biāo)注針對收集的標(biāo)準(zhǔn)語料進(jìn)行拼音標(biāo)注,使得收集的語料對語音評 測具有針對性;(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料利用HTK訓(xùn)練基于H醒的音素級(27個聲 母,包含零聲母,37個韻母)語音識別器模型(4) 保存將模型保存到計算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中;2、 發(fā)音錯誤檢測特征提取,其步驟如下利用被評測語料的文本(文本相關(guān)的發(fā)音錯誤檢測),對發(fā)音進(jìn)行切分和計算目 標(biāo)文本的對數(shù)似然度,記為/汰e朋00力,然后,在切分得到的邊界上,計算此音段對識別器內(nèi)所有其它模型(聲母和韻母分開,聲母只計算所有聲母,韻母只計 算所有韻母)的對數(shù)似然度,這是一個矢量,記為<formula>formula see original document page 10</formula>然后,利用上面得到的目標(biāo)文本的似然度//fe/z7 oo力進(jìn)行規(guī)整如下樣,形成發(fā)音錯誤檢測特征提取。3、 獲取發(fā)音錯誤檢測模型訓(xùn)練目標(biāo)數(shù)據(jù),其步驟如下-(1) 收集真實發(fā)音人語料根據(jù)系統(tǒng)將要測試的對象,錄制300人以上數(shù)據(jù)(具 體數(shù)據(jù)根據(jù)要測試內(nèi)容設(shè)定,每人有效錄音時間不少于io分鐘)。(2) 專家標(biāo)注發(fā)音錯誤根據(jù)收集的發(fā)音人真實數(shù)據(jù),以及發(fā)音文本,使用發(fā)音評測專家對數(shù)據(jù)進(jìn)行標(biāo)注,標(biāo)注分為發(fā)音錯誤,發(fā)音缺陷,以及漏讀,增讀等 信息。需要三個以上評測專家同時對數(shù)據(jù)進(jìn)行標(biāo)注以增強(qiáng)數(shù)據(jù)的可靠信,對于發(fā) 音錯誤檢測,訓(xùn)練數(shù)據(jù)選取三個專家均標(biāo)注為錯誤的數(shù)據(jù)作為正確樣本,選取三 個專家均標(biāo)注為正確的數(shù)據(jù)作為正確樣本,以此作為發(fā)音錯誤訓(xùn)練數(shù)據(jù)。(3) 偽造發(fā)音錯誤數(shù)據(jù)對于音素A,假設(shè)要測試A錯誤為B的性能,則使用所有B的三個發(fā)音人均標(biāo)注為正確的數(shù)據(jù)作為A的錯誤數(shù)據(jù),并對B的錯誤檢測特征需要重新計算如下式<formula>formula see original document page 10</formula>其中是原B的特征中A音素位置上的特征值。 4、 訓(xùn)練典型發(fā)音檢錯模型,其步驟如下(1) 定義典型發(fā)音錯誤集合第一套支持向量機(jī)模型針對典型發(fā)音錯誤,因此, 其模型是有針對性的。我們根據(jù)方言分析結(jié)果,定義12類音素作為典型發(fā)音錯誤,其集合為n, 1, z, c, s, zh, ch, sh, en, eng, in, ing,第一套支持向量機(jī)模型僅 處理這些音素。(2) 得到特征數(shù)據(jù)和目標(biāo)數(shù)據(jù)根據(jù)發(fā)音錯誤特征提取模塊得到發(fā)音錯誤檢測 特征數(shù)據(jù),根據(jù)專家標(biāo)注模塊得到目標(biāo)數(shù)據(jù),也就是發(fā)音正確與否的數(shù)據(jù)。(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文 件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯支持向量機(jī)模型。(4)設(shè)置發(fā)音錯誤檢測門限由于支持向量機(jī)是一個分類器,它只能得到一個 分類結(jié)果,實際上,發(fā)音錯誤檢測存在發(fā)音錯誤檢出率和誤檢率這樣兩個指標(biāo), 根據(jù)支持向量機(jī)輸出結(jié)果設(shè)置門限可以完成這兩個指標(biāo)的平衡。在專家標(biāo)注數(shù)據(jù) 上,調(diào)整門限,就可以改變支持向量機(jī)錯誤檢測結(jié)果,從而達(dá)到檢出率和誤檢率 的平衡。5、 訓(xùn)練異常發(fā)音錯誤檢測器,其步驟如下(1) 定義異常發(fā)音錯誤由于異常發(fā)音錯誤沒有規(guī)律性,可能是由于口誤,或 者不認(rèn)識文本,或者一些非典型錯誤,這時,我們對每種音素不使用支持向量機(jī) 進(jìn)行檢錯,而是均直接設(shè)置一個門限來完成錯誤檢測,即在上面特征基礎(chǔ)上再進(jìn)行一個取最大的操作如下111^(/汰^7^0《-/z'fe朋ooO得到檢錯特征,再采用'=1調(diào)節(jié)門限的方法訓(xùn)練得到此類異常發(fā)音錯誤的檢錯門限。(2) 得到特征數(shù)據(jù)和目標(biāo)數(shù)據(jù)利用特征提取模塊方法得到異常發(fā)音錯誤特征。 由于異常發(fā)音錯誤在正常發(fā)音中較少出現(xiàn),因此,專家標(biāo)注數(shù)據(jù)中這一類訓(xùn)練數(shù) 據(jù)不足。這里釆用目標(biāo)數(shù)據(jù)模塊中的偽造數(shù)據(jù)方法來生成目標(biāo)數(shù)據(jù)。(3) 設(shè)置發(fā)音錯誤檢測門限由于錯誤檢測存在檢出率和誤檢率這樣兩個指標(biāo), 因此門限設(shè)置應(yīng)該可以根據(jù)需求自主調(diào)整。這里在偽造目標(biāo)錯誤數(shù)據(jù)上,訓(xùn)練門 限,從而滿足檢出率和誤檢率的平衡。6、 訓(xùn)練異常發(fā)音錯誤中易混淆音素對錯誤模型,其步驟如下(1) 定義每個音素的易混淆錯誤對首先,使用異常錯誤門限檢測方法測試每 個音素對的性能(比如A-B, A-C,…,A-N),得到每個音素和所有其它音素發(fā) 生錯誤時的檢測性能,誤檢率固定在0.05時,檢出率低于門限(0.95)的認(rèn)為 是易混淆錯誤對。這樣,可以定義A的易混淆錯誤對如下4???(4,4,…,4),其中A有k個易混淆錯誤。(2) 生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)按照易混淆錯誤對定義,以音素A為例, 取A的所有發(fā)音正確的數(shù)據(jù)作為正確樣本,取所有A的易混淆集合里面的音素的 發(fā)音正確樣本為A的錯誤樣本。訓(xùn)練特征文件使用特征生成模塊里的異常錯誤數(shù) 據(jù)生成方法生成。目標(biāo)數(shù)據(jù)為所有A的樣本認(rèn)為是正確樣本,所有其它樣本認(rèn)為 是錯誤樣本。(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)_訓(xùn)練工具,使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯支持向量機(jī)模型。(4)設(shè)置發(fā)音錯誤監(jiān)測門限由于支持向量機(jī)是一個分類器,它只能得到一個 分類結(jié)果,實際上,發(fā)音錯誤監(jiān)測存在發(fā)音錯誤檢出率和誤檢率這樣兩個指標(biāo), 根據(jù)支持向量機(jī)輸出結(jié)果設(shè)置門限可以完成這兩個指標(biāo)的平衡。在專家標(biāo)注數(shù)據(jù) 上,調(diào)整門限,就可以改變支持向量機(jī)錯誤檢測結(jié)果,從而達(dá)到檢出率和誤檢率 的平衡7、發(fā)音錯誤檢測,其步驟如下(1) 針對發(fā)音樣本,計算特征文件利用文本信息對發(fā)音文件進(jìn)行切分和計算 似然度,然后按照特征提取模塊的方法計算特征文件。包括支持向量機(jī)的特征文 件(記為和異常易混淆錯誤模塊特征(記為/e"ft^^,^)。(2) 進(jìn)行典型錯誤支持向量機(jī)判決利用前面計算得到的特征>"/""sw ,運用支持向量機(jī)測試工具進(jìn)行支持向量機(jī)輸出結(jié)果計算。把計算結(jié)果跟訓(xùn)練典型發(fā)音 錯誤支持向量機(jī)模型時確定的檢錯門限進(jìn)行比較,如果支持向量機(jī)結(jié)果大于門 限,則認(rèn)為發(fā)生典型發(fā)音錯誤。(3) 進(jìn)行異常錯誤判決利用前面計算得到的異常錯誤檢測模塊特征 々W"r^—,把這個特征跟訓(xùn)練時確定的異常錯誤檢測門限進(jìn)行比較,如果/^,_,。,大于門限,則認(rèn)為發(fā)生異常發(fā)音錯誤。(4) 進(jìn)行異常易混淆錯誤判決利用前面計算得到的特征々W^^w ,運用支持向量機(jī)測試工具進(jìn)行支持向量機(jī)輸出結(jié)果計算。把計算結(jié)果跟訓(xùn)練異常易混淆發(fā) 音錯誤支持向量機(jī)模型時確定的檢錯門限進(jìn)行比較,如果支持向量機(jī)結(jié)果大于門 限,則認(rèn)為發(fā)生異常易混淆發(fā)音錯誤。實施例2利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法具體實施步驟為 1、語音識別系統(tǒng)的搭建其步驟如下(1) 預(yù)先收集或錄制標(biāo)準(zhǔn)的發(fā)音語料,并保存為識別器訓(xùn)練語音文件;(2) 針對收集的標(biāo)準(zhǔn)語料進(jìn)行拼音標(biāo)注;(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料訓(xùn)練音素級語音識別器模型; (4 )將語音識別器保存到計算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中。2、 發(fā)音錯誤檢測特征提取,其步驟為首先利用被評測語料的文本,對發(fā)音進(jìn)行切分和計算目標(biāo)文本的對數(shù)似然度,記為/汰e"/wo4,然后,在切分得到的邊界上,計算此音段對識別器內(nèi)所有其它模型的對數(shù)似然度,這是一個矢量,記為 (//fe/zTzoot/p/zfe///^^.."/^///^*^), 然后,禾U用/汰e/Z/ oo力進(jìn)行規(guī)整樣,形成發(fā)音錯誤檢測特征提取。3、 獲取發(fā)音錯誤檢測模型訓(xùn)練目標(biāo)數(shù)據(jù),其步驟如下(1) 收集真實發(fā)音人語料,錄制多發(fā)音人數(shù)據(jù);(2) 根據(jù)收集的發(fā)音人真實數(shù)據(jù),以及發(fā)音文本,使用發(fā)音評測專家對數(shù)據(jù)進(jìn)行標(biāo)注,得到發(fā)音錯誤標(biāo)注數(shù)據(jù),以此作為發(fā)音錯誤檢測模型訓(xùn)練數(shù)據(jù)。4、 訓(xùn)練發(fā)音錯誤支持向量機(jī)檢測模型,其步驟如下(1) 根據(jù)發(fā)音錯誤特征提取模塊得到發(fā)音錯誤檢測特征數(shù)據(jù),根據(jù)專家標(biāo)注模塊得到目標(biāo)數(shù)據(jù);(2) 使用支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音 檢錯支持向量機(jī)模型;(3) 在專家標(biāo)注數(shù)據(jù)上,在支持向量機(jī)輸出得分的基礎(chǔ)上,設(shè)置發(fā)音錯誤檢測 門限,從而達(dá)到檢出率和誤檢率的平衡。5、 發(fā)音錯誤檢測步驟如下(1) 利用文本信息對發(fā)音文件進(jìn)行切分和計算似然度,然后按照特征提取模塊 的方法計算特征文件,記為/e^W^sw;(2) 利用前面計算得到的特征>"ft^esw ,運用支持向量機(jī)測試工具進(jìn)行支持向量機(jī)輸出結(jié)果計算,把計算結(jié)果跟訓(xùn)練典型發(fā)音錯誤支持向量機(jī)模型時確定的檢 錯門限進(jìn)行比較,如果支持向量機(jī)結(jié)果大于門限,則認(rèn)為發(fā)生發(fā)音錯誤。
權(quán)利要求
1、一種基于支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特征在于用典型錯誤支持向量機(jī)檢測方法進(jìn)行發(fā)音錯誤的檢測,所述的典型錯誤支持向量機(jī)檢測方法包括以下步驟語音識別系統(tǒng)的搭建、發(fā)音錯誤檢測特征提取、獲取發(fā)音錯誤檢測模型訓(xùn)練目標(biāo)數(shù)據(jù)、訓(xùn)練發(fā)音錯誤支持向量機(jī)檢測模型和發(fā)音錯誤的檢測。
2、 根據(jù)權(quán)利要求1所述的一種基于支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特 征在于所述語音識別系統(tǒng)的搭建其步驟如下(1) 預(yù)先收集和錄制標(biāo)準(zhǔn)的發(fā)音語料,并保存為識別器訓(xùn)練語音文件;(2) 針對收集的標(biāo)準(zhǔn)語料進(jìn)行拼音或音標(biāo)的標(biāo)注;(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料訓(xùn)練音素級語音識別器模型; (4 )將語音識別器保存到計算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中。
3、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特 征在于所述發(fā)音錯誤檢測特征提取,其步驟為首先利用被評測語料的文本,對發(fā)音進(jìn)行自動切分和計算目標(biāo)文本的對數(shù)似然度,記為//^///200^,然后,在切分得到的音素邊界上,計算此音段對識別器內(nèi)所有其它模型的對數(shù)似然度,這是 一個矢量,記為(//fe//too《,//fe//toot/2,...,//fe/// C^w),然后,利用/^/// <70《進(jìn)形成發(fā)音錯誤檢測特征提取。
4、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特 征在于所述獲取發(fā)音錯誤檢測模型訓(xùn)練目標(biāo)數(shù)據(jù),其步驟如下-(1) 收集真實發(fā)音人語料,錄制多發(fā)音人數(shù)據(jù);(2) 根據(jù)收集的發(fā)音人真實數(shù)據(jù),以及發(fā)音文本,使用發(fā)音評測專家對數(shù)據(jù)進(jìn) 行標(biāo)注,得到發(fā)音錯誤標(biāo)注數(shù)據(jù),以此作為發(fā)音錯誤檢測模型訓(xùn)練數(shù)據(jù)。
5、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特 征在于所述訓(xùn)練發(fā)音錯誤支持向量機(jī)檢測模型,其步驟如下(1) 根據(jù)發(fā)音錯誤特征提取模塊得到發(fā)音錯誤檢測特征數(shù)據(jù),根據(jù)專家標(biāo)注模 塊得到目標(biāo)數(shù)據(jù);(2) 使用訓(xùn)練工具支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯支持向量機(jī)模型; (3)在專家標(biāo)注數(shù)據(jù)上,在支持向量機(jī)輸出得分的基礎(chǔ)上,設(shè)置發(fā)音錯誤檢測 門限,從而達(dá)到檢出率和誤檢率的平衡。
6、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特 征在于所述發(fā)音錯誤檢測,其步驟如下(1) 利用文本信息對發(fā)音文件進(jìn)行切分和計算似然度,然后按照特征提取模塊 的方法計算特征文件,記為/e^wesw;(2) 利用前面計算得到的特征/e^w&,,運用支持向量機(jī)測試工具進(jìn)行支持向量機(jī)輸出結(jié)果計算,把計算結(jié)果跟訓(xùn)練典型發(fā)音錯誤支持向量機(jī)模型時確定的檢 錯門限進(jìn)行比較,如果支持向量機(jī)結(jié)果大于門限,則認(rèn)為發(fā)生發(fā)音錯誤。
7、 根據(jù)權(quán)利要求2所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特 征在于所述收集的標(biāo)準(zhǔn)語料是利用HTK訓(xùn)練基于HMM的音素級語音識別器模型。
8、 根據(jù)權(quán)利要求3所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特征在于所述計算此音段對識別器內(nèi)所有其它模型的對數(shù)似然度時,對于中文,聲 母和韻母分開,聲母只計算所有聲母,韻母只計算所有韻母;對于英文,元音和輔音分開,元音只計算所有元音,輔音只計算所有輔音。
9、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特 征在于還包括有異常錯誤門限檢測方法,異常錯誤門限檢測方法包括有以下步 驟(1) 訓(xùn)練異常發(fā)音錯誤檢測器,其步驟如下1) 利用特征提取模塊方法得到異常發(fā)音錯誤特征/^/w^^^。,,這個特征就是支持向量機(jī)特征各維的最大值,這里采用目標(biāo)數(shù)據(jù)模塊中的偽造數(shù)據(jù)方法來生成 目標(biāo)數(shù)據(jù);2) 對每種音素直接設(shè)置一個門限來完成錯誤檢測,以此定義異常發(fā)音錯誤;3) 在偽造目標(biāo)錯誤數(shù)據(jù)上,訓(xùn)練門限,從而滿足檢出率和誤檢率的平衡,以此(2) 設(shè)置發(fā)音錯誤檢測門限;進(jìn)行異常錯誤判決首先計算得到的異常錯誤檢測模塊特征/M,"r^—一£。,,這個 特征就是支持向量機(jī)特征各維的最大值,把這個特征跟訓(xùn)練時確定的異常錯誤檢測門限進(jìn)行比較,如果/^^ _,。,大于門限,則認(rèn)為發(fā)生異常發(fā)音錯誤。
10、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特 征在于還包括有異?;煜e誤支持向量機(jī)檢測方法,異?;煜e誤支持向量機(jī)檢 測方法包括有以下步驟(1) 定義每個音素的易混淆錯誤對首先,使用異常錯誤門限檢測方法測試每 個音素對的性能,得到每個音素和所有其它音素發(fā)生錯誤時的檢測性能,誤檢率 固定在0. 05時,檢出率低于門限0. 95的認(rèn)為是易混淆錯誤對;(2) 生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)按照易混淆錯誤對定義,取某音素的所有 發(fā)音正確的數(shù)據(jù)作為正確樣本,這些數(shù)據(jù)的支持向量機(jī)特征直接作為訓(xùn)練數(shù)據(jù)特 征,取所有某音素的易混淆集合里面的音素的發(fā)音正確樣本為某音素的錯誤樣 本,訓(xùn)練特征文件,目標(biāo)數(shù)據(jù)為所有某音素的樣本認(rèn)為是正確樣本,所有其它音 素樣本認(rèn)為是錯誤樣本;(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文 件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯支持向量機(jī)模型;(4) 設(shè)置發(fā)音錯誤檢測門限;進(jìn)行異常易混淆錯誤判決利用前面計算得到的特征/e^"y^,運用支持向量機(jī)測試工具進(jìn)行支持向量機(jī)輸出結(jié)果計算,把計算結(jié)果跟訓(xùn)練異常易混淆發(fā)音錯誤支持向量機(jī)模型時確定的檢錯門限進(jìn)行比較, 如果支持向量機(jī)結(jié)果大于門限,則認(rèn)為發(fā)生異常易混淆發(fā)音錯誤。
11、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,其特 征在于所述的訓(xùn)練特征文件以某音素正確樣本作為其它音素的錯誤樣本用下式 計算<formula>formula see original document page 4</formula><formula>formula see original document page 4</formula>
全文摘要
本發(fā)明涉及一種基于支持向量機(jī)進(jìn)行發(fā)音錯誤檢測的方法,包括有典型錯誤支持向量機(jī)檢測方法、異常錯誤門限檢測方法和異?;煜e誤支持向量機(jī)檢測方法,包括以下步驟實現(xiàn)語音識別系統(tǒng)的搭建、發(fā)音錯誤檢測特征提取、獲取發(fā)音錯誤檢測模型訓(xùn)練目標(biāo)數(shù)據(jù)、訓(xùn)練發(fā)音錯誤支持向量機(jī)檢測模型和發(fā)音錯誤的檢測、訓(xùn)練異常發(fā)音錯誤檢測器、設(shè)置發(fā)音錯誤檢測門限、定義每個音素的易混淆錯誤對、生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)、訓(xùn)練支持向量機(jī)模型、設(shè)置發(fā)音錯誤檢測門限、進(jìn)行異常易混淆錯誤判決。本發(fā)明能有效解決人工標(biāo)注稀疏問題,保證了訓(xùn)練得到的檢錯模型可以較好針對不同發(fā)音人,不同發(fā)音風(fēng)格進(jìn)行錯誤檢測。
文檔編號G10L15/10GK101231848SQ20071013534
公開日2008年7月30日 申請日期2007年11月6日 優(yōu)先權(quán)日2007年11月6日
發(fā)明者劉慶升, 劉慶峰, 吳曉如, 王仁華, 王海坤, 郁 胡, 胡國平, 濤 陳, 燕 陳, 思 魏 申請人:安徽科大訊飛信息科技股份有限公司