專利名稱:語音分級測定方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別領(lǐng)域,特別是涉及一種語音分級測定方法及系統(tǒng)。
背景技術(shù):
語音識別的本質(zhì)是對語音信號進行分類。傳統(tǒng)語音識別建模的重點在于 捕捉不同發(fā)言人在不同場合中相同內(nèi)容發(fā)音之間的共性。目前,較為成熟的
語音識別建模是基于狀態(tài)概率分布密度的隱馬爾可夫模型(Hidden Markov Model,以下簡稱H醒)。基于H醒模型的語音識別中,計算置信度常用的方 法是對數(shù)似然法(Log L i ke 1 i hood Ra t i o,簡稱LLR ) , LLR=log(x/A)-log(x/X), 其中,x為發(fā)音腳本,A為發(fā)音腳本對應(yīng)的H應(yīng)聲學(xué)模型;X為相應(yīng)的反模型。 基于H固模型的對數(shù)似然法對于完成語音識別任務(wù)方面的應(yīng)用通常是有效的 做法。但是,發(fā)明人在實現(xiàn)本發(fā)明時發(fā)現(xiàn),基于HMM模型的對數(shù)似然法應(yīng)用 到語言學(xué)習(xí)中,至少存在如下缺陷
1、 不能識別語言學(xué)習(xí)者發(fā)音的細微差別。語言學(xué)習(xí)與語音識別最大的 區(qū)別在于,語言學(xué)習(xí)中語音測定目標(biāo)更為關(guān)注語言學(xué)習(xí)者發(fā)音的細節(jié)特征。 目前基于H畫模型的對數(shù)似然法中,反模型的參數(shù)缺乏有效的確定方法,而 是采用一些近似的算法,例如最大似然準(zhǔn)則(Maximum Likelihood Principle,簡稱MLP),對反模型的參數(shù)進行估計。因此采用對數(shù)似然法不 能夠區(qū)分一段語音中的個別發(fā)音錯誤,即傳統(tǒng)語音識別不能區(qū)分的發(fā)音,對 數(shù)似然法也無法區(qū)分。
2、 采用該方法進行語音識別往往需要提供海量的訓(xùn)練數(shù)據(jù)。H醒模型 利用最大似然準(zhǔn)則來估計狀態(tài)的輸出概率分布密度,從而實現(xiàn)語音的識別。 但在語言學(xué)習(xí)中,大量采集語音專家的標(biāo)準(zhǔn)發(fā)音需要較高成本,即采集海量 的訓(xùn)練數(shù)據(jù)存在困難。總之,由于語音識別與語言學(xué)習(xí)中語音測定目標(biāo)不同,基于HMM模型的
對數(shù)似然法存在語音分級判決復(fù)雜度高、語音分級測定準(zhǔn)確度低等缺陷。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種語音分級測定方法及系統(tǒng),用以降 低語音分級判決的復(fù)雜度,提高語音分級測定的準(zhǔn)確性。
為解決上述技術(shù)問題,本發(fā)明第一方面通過一些實施例提供了一種語音
分級測定方法,包括以下步驟
將接收到的語音信號進行語音識別,根據(jù)參考文本和參考模型獲取狀態(tài) 對齊的語音特征序列;
根據(jù)狀態(tài)對齊的語音特征序列對參考模型分布參數(shù)進行修正,生成所述
語音信號基于該參考模型的語音模板矢量;
利用支持向量機分類判決樹對所述語音模板矢量進行分類判決,獲得所 述語音模板矢量映射的分類等級。
本發(fā)明第一方面實施例提供的語音分級測定方法中,將采用支持向量機 對語言分類邊界進行建模并引入語言學(xué)習(xí)應(yīng)用中,對接收的語音信號提取語 音特征序列,與參考模型進行狀態(tài)對齊,修正參考模型分布參數(shù)并生成相應(yīng) 的語音模板矢量,利用支持向量機分類判決樹對語音模板矢量進行判決,有 效降低了語音分類判決的復(fù)雜度,提高語音分級測定的準(zhǔn)確性。
為解決上述技術(shù)問題,本發(fā)明第二方面通過另一些實施例提供了一種語 音分級測定系統(tǒng),包括
模型庫,用于存儲參考文本和參考模型;
語音識別模塊,將接收到的語音信號進行語音識別,根據(jù)參考文本和參 考模型獲取狀態(tài)對齊的語音特征序列;
模板矢量生成模塊,用于根據(jù)狀態(tài)對齊的語音特征序列對參考模型分布 參數(shù)進行修正,生成所述語音信號基于該參考模型的語音模板矢量;
6判決模塊,用于利用支持向量機分類判決樹對所述語音模板矢量進行分 類判決,獲得所迷語音模板矢量映射的分類等級。
本發(fā)明第二方面實施例提供的語音分級測定系統(tǒng)中,將支持向量機引入 對語言分類邊界進行建模中并應(yīng)用于語言學(xué)習(xí)中,語音識別模塊對接收的語 音信號提取語音特征并獲取狀態(tài)對齊的語音特征序列,模板矢量生成模塊修 正參考模型分布參數(shù)并生成相應(yīng)的語音模板矢量,通過判決模塊利用支持向 量機分類判決樹對語音模板矢量進行判決,有效降低了語音分類判決的復(fù)雜 度,提高語音分級測定的準(zhǔn)確性。
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
圖1為本發(fā)明語音分級測定方法第一實施例流程圖2為本發(fā)明語音分級測定方法第二實施例流程圖3為本發(fā)明特定H醒模型下語音模板矢量的計算方法示意圖4為本發(fā)明采用SVM分類判決樹實施例示意圖5為本發(fā)明語音測定系統(tǒng)第一實施例結(jié)構(gòu)示意圖6為本發(fā)明語音測定系統(tǒng)第二實施例結(jié)構(gòu)示意圖。
具體實施例方式
圖1為本發(fā)明語音分級測定方法第一實施例流程圖。如圖1所示,該語 音分級測定方法包括
步驟ll、接收語音信號。
該語音信號可至少包括訓(xùn)練樣本語音信號或測試語音信號。當(dāng)該語音信 號為訓(xùn)練樣本語音信號時,對應(yīng)流程為系統(tǒng)的學(xué)習(xí)訓(xùn)練過程;當(dāng)該語音信號 為測試語音信號時,對應(yīng)流程為系統(tǒng)的分級測定過程。
步驟12、對接收的語音信號進行語音識別,根據(jù)參考文本和參考模型獲
7取狀態(tài)對齊的語音特征序列。
參考文本和參考模型存儲在語音分級測定系統(tǒng)的存儲庫中,當(dāng)接收到語 音信號后,將接收的語音信號相對于存儲庫中存儲的相應(yīng)參考文本和參考模 型進行時間對準(zhǔn)或采用維特比算法進行狀態(tài)對準(zhǔn),獲取該接收的語音信號狀 態(tài)對齊的語音特征序列。
步驟13、根據(jù)狀態(tài)對齊的語音特征序列對參考模型分布參數(shù)進行修正, 生成該語音信號基于該參考模型的語音模板矢量。
參考模型存儲在語音分級測定系統(tǒng)的存儲庫中,存儲庫中可存儲有多種
參考模型。本步驟根據(jù)接收語音信號狀態(tài)對齊的語音特征序列,對存儲庫中 的一個參考模型的分布參數(shù)進行修正處理,將語音特征序列轉(zhuǎn)換至高維矢量 空間,提取該語音信號基于該參考模型的語音模板矢量。訓(xùn)練樣本語音信號 和測試語音信號均可采用該方法分別獲得訓(xùn)練樣本語音信號的語音模板矢量 和測試語音信號的語音模板矢量。根據(jù)訓(xùn)練樣本語音信號的語音模板矢量可 建立支持向量機分類判決樹。
步驟14、利用支持向量機分類判決樹對測試語音信號的語音模板矢量進 行分類判決,獲得測試語音信號的語音模板矢量映射的分類等級。
發(fā)明人在實現(xiàn)本發(fā)明過程中發(fā)現(xiàn),語言學(xué)習(xí)相對于語音識別更為關(guān)注語 言學(xué)習(xí)者發(fā)音的細節(jié)特征,因此,采用語音分類的邊界進行建模,相對于語 音識別中對語音的概率分布密度進行建模的方法,更能適合語言學(xué)習(xí)的任務(wù) 要求。支持向量才幾(Support Vector Machines,以下簡稱SVM)是對數(shù)據(jù)分 類的邊界進行建模的有效方法。但由于經(jīng)典SVM是一種靜態(tài)二元分類器,并 不能直接應(yīng)用于語音信號處理。將SVM應(yīng)用到語言學(xué)習(xí)中,還需解決二個關(guān) 鍵的問題
1、 由于語音信號是動態(tài)時間序列,如何將語音轉(zhuǎn)換至高維矢量空間;
2、 語音測定是多分類任務(wù),SVM如何進行高效可靠的語音多類分類。 本實施例將對語言分類邊界進行建模的支持向量機引入語言學(xué)習(xí)應(yīng)用
中,通過對接收的語音信號提取語音特征并生成相應(yīng)的語音模板矢量,可將語音信號轉(zhuǎn)換成高維矢量空間;利用支持向量機分類判決樹對語音模板矢量 進行判決,可進行高效可靠的語音多類分類,有效降低了語音分類判決的復(fù) 雜度,提高語音分級測定的準(zhǔn)確性。
圖2為本發(fā)明語音分級測定方法第二實施例流程圖。如圖2所示,該語 音分級測定方法包"t舌
步驟21、接收語音信號。
該語音信號可至少包括訓(xùn)練樣本語音信號或測試語音信號。當(dāng)該語音信 號為訓(xùn)練樣本語音信號時,對應(yīng)流程為系統(tǒng)的學(xué)習(xí)訓(xùn)練過程;當(dāng)該語音信號 為測試語音信號時,對應(yīng)流程為系統(tǒng)的分級測定過程。
步驟22、根據(jù)參考文本對接收的語音信號提取語音特征,并根據(jù)參考模 型采用維特比算法對該語音信號的語音特征進行維特比狀態(tài)對齊,獲取該語 音信號相應(yīng)的狀態(tài)對齊的語音特征序列。
上述語音特征的提取通常是基于語音幀。根據(jù)語音信號的短時平穩(wěn)特性, 可以把語音信號分成若干幀進行處理,每一幀的長度約為10~ 30ms,對每一 幀提取一次語音特征。分幀可以采用連續(xù)分段的方法,但為了體現(xiàn)相鄰兩幀 數(shù)據(jù)之間的相關(guān)性,以及使幀與幀之間平滑過渡,保持其連貫性, 一般采用 交疊分段的方法,即每一幀的幀尾與下一幀的幀頭重疊,通常幀移為幀長的 1/2。分別提取出各幀的語音特性,將語音特性進行順序連接,獲得了語音特 征序列。
語音特征的提取還需綜合考慮存儲量的限制和識別性能的要求。如可 以使用4每爾頻率倒譜系數(shù)(Mel-Frequency C印tral Coefficients,簡稱 MFCC)。為了減小語音幀的截斷效應(yīng),降低幀兩端的坡度,使語音幀的兩端 不引起急劇變化而平滑過渡到0,就要讓語音幀乘以一個窗函數(shù)。由于語音 信號在時域上的變化快速而不穩(wěn)定,所以通常都將它轉(zhuǎn)換到頻域上來觀察, 此時它的頻譜會隨著時間作緩慢的變化。將加窗后的幀經(jīng)過快速傅立葉變換 (Fast Fourier Transform,筒稱FFT),求出每幀的頻i普參lt。再將每幀 的頻譜參數(shù)通過一組N個(N—般為2Q 3G個)三角形帶通濾波器所組成的
9梅爾頻率濾波器,將每個頻帶的輸出取對數(shù),求出每一個輸出的對數(shù)能量(log energy )Ek, k=l, 2, . . N。再^]夸jt匕N個參凄丈進4亍余 玄變4奐(cosine transform) 求出L階的梅爾倒頻譜(Me卜scale cepstr腿)參數(shù)。
基于動態(tài)規(guī)劃的維特比算法在每個時間點上的各個狀態(tài),計算解碼狀態(tài) 序列對觀察序列的后驗概率,保留概率最大的路徑,并在每個節(jié)點記錄下相 應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優(yōu)解的 條件下,同時解決了連續(xù)語音識別中H薩模型狀態(tài)序列與聲學(xué)觀察序列的非 線性時間對準(zhǔn),詞邊界^r測和詞的識別,從而使這一算法成為語音識別搜索 的基本策略。
步驟23、根據(jù)狀態(tài)對齊的語音特征序列,對該語音特征序列中相應(yīng)狀態(tài) 的參考模型分布參數(shù)進行最大后驗概率修正,將修正后該參考模型中所有均 值矢量順序連接,獲得該語音信號相對于該特定H應(yīng)參考模型的語音模板矢 量。
上述參考模型可為隱馬爾科夫模型(Hidden Markov Model,以下簡稱 H畫)。H固是一個離散時域有限狀態(tài)自動機,是指這一馬爾可夫模型的內(nèi)部 狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。對語音識別系統(tǒng),輸出 值通常就是從各個幀計算而得的聲學(xué)特征(如語音特征)。
由于H畫是語音信號建模的有效方法,本實施例利用H腦結(jié)構(gòu)化表達方 法將變長的語音信號轉(zhuǎn)換成高維數(shù)的支持向量機樣本空間。圖3為本發(fā)明特 定H固模型下語音模板矢量的計算方法示意圖。
假設(shè)一段語音信號對應(yīng)的特定H腦模型為由N個狀態(tài)級連組成的無跳 變H,模型,N為大于或等于1的整數(shù),該模型中每個狀態(tài)的概率分布密度 由混合高斯函數(shù)表示
<formula>formula see original document page 10</formula>
其中°'為語音信號的語音特征,i為狀態(tài)序數(shù)(l^i^N ) , M為第i個狀
態(tài)包含的高斯的總數(shù)量(M為大于或等于1的整數(shù)),j為高斯的序數(shù) (BjSM) , N(.)為高斯函數(shù),^為混合高斯權(quán)重,即第i個狀態(tài)第j個高斯的混合高斯權(quán)重,//i」和Sj分別為高斯函數(shù)參數(shù),即分別為均值矢量和協(xié)
方差矩陣,^即第i個狀態(tài)第j個高斯均值矢量,^即第i個狀態(tài)第j個高 斯協(xié)方差矩陣。
利用狀態(tài)對齊的語音的特征序列對各狀態(tài)分布進行最大后驗概率
(Maximun A Posteriori, 簡稱MAP)修正。
舉例說明假設(shè)A為參考模型的一個分布參數(shù),O(t)為輸入的語音數(shù)據(jù),
該分布參數(shù)優(yōu)化后表示為A'。參考;f莫型的分布參數(shù)的優(yōu)化準(zhǔn)則如下 A' = maxarg尸(AlO)
該優(yōu)化準(zhǔn)則可采用最大期望(Expectation-Maximization,簡稱EM)算 法進行迭代求解。
對于由N個狀態(tài)級連組成的無跳變H薩模型中,每個狀態(tài)的概率分布密 度都是一個連續(xù)混合高斯分布模型,模型中的均值矢量&優(yōu)化后的均值矢量 表示為A,優(yōu)化公式如下
其中,°'為輸入的語音信號的語音特征;^W為高斯分布w(/V^)相對于 "的占有概率;D為語音模板矢量的維數(shù),為大于或等于l的整數(shù)。^W的計 算方法如下
,'=1 /=1
如圖3所示,利用狀態(tài)對齊的語音的特征序列對各狀態(tài)分布進行最大后 驗概率(Maximun A Pos ter ior i ,簡稱MAP )修正,將修正后所有均值矢量& (IS"N; BJ^M)順序連接得到該段語音信號基于該特定H薩模型的語音
模板矢量。通過上述步驟可實現(xiàn)將動態(tài)時間序列的語音信號轉(zhuǎn)換成高維數(shù)支 持向量枳4羊本空間。
在采用本實施例的方法進行分級測定之前,還包括采用訓(xùn)練樣本語音信 號對測定系統(tǒng)進行學(xué)習(xí)訓(xùn)練的過程。在學(xué)習(xí)訓(xùn)練過程中,訓(xùn)練樣本語音信號可存儲在模板中,這些樣本語音信號已經(jīng)經(jīng)語音專家逐條測價分成不同的等 級。訓(xùn)練時,采用上述修正方法分別計算出樣本語音信號在該特定H薩模型 的語音模板矢量。
步驟24、將求得的樣本語音信號的語音模板矢量映射到語音專家對該樣 本語音信號已測價的類別或等級,任意二個不同的類別數(shù)據(jù)構(gòu)造一個二元支 持向量機分類器,將構(gòu)造好的各二元支持向量機分類器以二分樹的結(jié)構(gòu)組成 支持向量機分類判決樹。
采用上述修正方法求得樣本語音信號對應(yīng)的語音模板矢量,將求得的樣 本語音信號的語音模板矢量映射到語音專家對該樣本語音信號已測價的類別 或等級。
SVM分類判決樹的建立用以解決SVM的多元分類問題。在語言輔助學(xué)習(xí) 中,專家對學(xué)習(xí)者發(fā)音質(zhì)量的評定通常包括多個等級,采用多級打分的方式 區(qū)分不同學(xué)習(xí)者的不同發(fā)音質(zhì)量??梢?,語言學(xué)習(xí)屬于一個多元分類的問題。 一個實用的語言學(xué)習(xí)系統(tǒng)對學(xué)習(xí)者發(fā)音測定可能輸出多個等級,例如,可包 括優(yōu)秀、良好、 一般、失敗等4個等級。對于數(shù)據(jù)多元分類的問題,經(jīng)典 的支持向量機(以下簡稱SVM)是一種靜態(tài)的二元分類器,并不能直接應(yīng)用 到語言學(xué)習(xí)中。如果采用SVM建模解決多元分類,需對經(jīng)典的SVM進行改進, 已有的改進方法主要有 一對多SVM分類法和一對一的分類法。
其中, 一對多SVM分類法為每類數(shù)據(jù)訓(xùn)練一個SVM分類器,用于區(qū)分當(dāng) 前類別數(shù)據(jù)與其他類別數(shù)據(jù)。訓(xùn)練時依次把屬于其中某一類別的模板標(biāo)注為 正樣本,其他剩下的所有樣本歸為負(fù)樣本,這樣Z ( Z為大于或等于1的正整 數(shù))個類別的訓(xùn)練模板共可以構(gòu)造Z個二元SVM分類器。測試時分別對所有 的二元SVM分類器計算決策函數(shù)值,并選擇其中最大值對應(yīng)的分類作為識別 結(jié)果。該方法存在的問題是,所需的訓(xùn)練數(shù)據(jù)多,訓(xùn)練困難, 一對多SVM分 類器使得分類邊界復(fù)雜化,從而降低分類的性能。
而一對一 SVM分類法只限于區(qū)分分屬于二個不同類別的數(shù)據(jù),即建立二 元分類器。這樣完成K類識別共需要Zx(Z-l)/2個SVM。識別時,將測試模板在
12每一個分類器的判決結(jié)果進行投票判決。得票最多的類別作為識別結(jié)果。該
方法存在的缺陷是二元分類器的數(shù)目隨類別數(shù)K急劇增加,識別運算量大, 算法復(fù)雜度高,并且樣本空間中存在不可區(qū)分空間。
本實施例是基于一對一 SVM方法構(gòu)造二元SVM分類器,對于K個類別, 需構(gòu)造的二元SVM分類器的數(shù)量為Zx(Z"^個,每個SVM分類器用于區(qū)分分 別映射于二類不同等級的數(shù)據(jù)。SVM分類器的目標(biāo)是將D維空間內(nèi)的樣點通 過D-1維的超平面分成兩個不同類別,并且保證兩類樣點之間的間隔最大。 例如,樣本語音表示為",h),其中&表示訓(xùn)練樣本語音信號的語音模板矢 量,為D維矢量,D為大于或等于l的整數(shù);k為訓(xùn)練樣本語音信號的序號; ^=±1表示訓(xùn)練樣本語音的等級類別。尋找分類超平面可表示為w'x-"0; (w,。為SVM分類器的模型參數(shù)。
為了保證最大分類間隔,該二元SVM分類器對應(yīng)的各訓(xùn)練樣本語音信號 的語音4莫板矢量的判決公式如下
該判決公式表示的是對于屬于等級類別義=+1的數(shù)據(jù),各訓(xùn)練樣本語 音模板矢量需滿足w'、-62+1;對于屬于等級類別>^=—i的數(shù)據(jù),各訓(xùn)練 樣本語音模板矢量需滿足w'、-6《-1 。采用二次規(guī)劃(Quadratic Programming,簡稱QP )算法可以分別求解出上式中的參數(shù)(w,。,即獲得該 二元SVM分類器對應(yīng)的模型參數(shù)。采用上述方法構(gòu)造好二元SVM分類器后, 將這些二元SVM分類器按二分樹的結(jié)構(gòu)組織成SVM分類判決樹。
步驟25、利用支持向量機分類判決樹對測試語音信號對應(yīng)的語音模板矢 量進行分類判決從支持向量機分類判決樹的根節(jié)點開始,依次根據(jù)判決過 程所經(jīng)節(jié)點對應(yīng)的二元支持向量機分類器,對測試語音信號對應(yīng)的語音模板 矢量進行是/非判決,每次判決排除一個候選等級,直至到達支持向量機分類 判決樹的葉節(jié)點,獲得該語音模板矢量映射的分類等級。
圖4為本發(fā)明采用SVM分類判決樹實施例示意圖。假設(shè)一個語音測定系統(tǒng)的學(xué)習(xí)數(shù)據(jù)庫中存儲的語音片斷,經(jīng)專家逐條測價劃分為4個等級A、優(yōu) 秀;B、良好;C、 一般;D、失敗。通過對不同分類數(shù)據(jù)的學(xué)習(xí)過程,將相應(yīng) 語音片斷在特定H畫模型中的語音模板矢量映射到相應(yīng)的等級中,這樣根據(jù) 4個等級可以構(gòu)造6個二元SVM分類器
"A類數(shù)據(jù)+B類數(shù)據(jù)"對應(yīng)"優(yōu)秀/良好,,二元SVM分類器; "A類數(shù)據(jù)+C類數(shù)據(jù)"對應(yīng)"優(yōu)秀/一般,,二元SVM分類器; "A類數(shù)據(jù)+D類數(shù)據(jù)"對應(yīng)"優(yōu)秀/失敗"二元SVM分類器; "B類數(shù)據(jù)+C類數(shù)據(jù)"對應(yīng)"良好/一般"二元SVM分類器; "B類數(shù)據(jù)+D類數(shù)據(jù)"對應(yīng)"良好/失敗"二元SVM分類器; "C類數(shù)據(jù)+D類數(shù)據(jù)"對應(yīng)"一般/失敗"二元SVM分類器。 根據(jù)構(gòu)造好的6個二元分類器,建立如圖4所示的SVM分類判決樹。測 定時,由SVM分類判決樹的根節(jié)點開始,至葉結(jié)點結(jié)束,依次經(jīng)過其中4個 節(jié)點對應(yīng)的二元SVM分類器對測試語音特征序列進行是/非判決,每次判決排 除一個候選等級。例如,在根節(jié)點進行"優(yōu)秀/失敗"二元SVM分類器的判決 時,候選級為"優(yōu)秀"或"失敗,,。如果測試語音特征序列相對于該"優(yōu)秀/ 失敗"二元SVM分類器的打分為正,則排出"失敗"的候選級,進入下一節(jié) 點"優(yōu)秀/一般"二元分類器進行判決。其中,采用二元SVM分類器進行打分 時,可將輸入的測試語音的測試語音才莫板矢量分別代入SVM分類判決樹當(dāng)前 節(jié)點對應(yīng)的二個二元SVM分類器的判決公式,獲得w'x-A的符號,根據(jù)w'x-Z) 符號的正負(fù)進行打分。采用該方法依次經(jīng)過4個二元SVM分類器次判決后, 到達SVM分類判決樹的葉節(jié)點,獲得語音測試信號映射的分類等級。
本實施例通過一對一的方式訓(xùn)練二元SVM分類器,分類邊界較簡單,有 利于提高分類性能,訓(xùn)練算法復(fù)雜度較低,運算量較小,不存在不可分區(qū)間; 此外,采用二分樹的方法構(gòu)造SVM分類判決樹,并利用SVM分類判決樹對測 試語音信號對應(yīng)的語音模板矢量進行判決,能夠有效提高語音分級測定的準(zhǔn) 確性。如果在系統(tǒng)學(xué)習(xí)訓(xùn)練過程中,提供相應(yīng)的負(fù)模板,本實施例基于語音 模板矢量的語音分類技術(shù)能夠有效區(qū)分語音信號的細微差別,這使得本實施
14例應(yīng)用到語言學(xué)習(xí)系統(tǒng)中具有很大的優(yōu)勢。
本發(fā)明語音測定方法與傳統(tǒng)語音識別方法測試結(jié)果比較中,在區(qū)分漢語
相似發(fā)音"SHI4"和"SI4"的測試實驗中,使用傳統(tǒng)的語音識別方法(例如: 基于HMM模型的對數(shù)似然法)時,等錯誤率為19%;而采用本發(fā)明語音測定 方法進行測定時,等錯誤率(Equal Error Rate,簡稱EER)降低至7%。因 此,本發(fā)明語音測定方法可有效降低語音分級判決的復(fù)雜度,提高語音分級 測定的準(zhǔn)確性。
圖5為本發(fā)明語音測定系統(tǒng)第一實施例結(jié)構(gòu)示意圖。如圖5所示,本實 施例語音測定系統(tǒng)包括模型庫51、語音識別模塊52、模板矢量生成模塊 53和判決模塊54。
模型庫51用于存儲參考文本和參考模型。
語音識別模塊52用于接收語音信號,對接收的語音信號進行語音識別, 根據(jù)存儲的參考文本和參考模型獲取狀態(tài)對齊的語音特征序列。
模板矢量生成模塊53用于根據(jù)狀態(tài)對齊的語音特征序列對參考模型分 布參數(shù)進行修正,生成該語音信號基于該參考模型的語音模板矢量。
判決模塊54用于利用支持向量機分類判決樹對接收到語音信號對應(yīng)的 語音模板矢量進行分類判決,獲得該語音模板矢量映射的分類等級。
本實施例通過語音識別模塊對接收的語音信號提取語音特征并獲得狀態(tài) 對齊的語音特征矢量,模板矢量生成模塊修正參考模型分布參數(shù)并生成相應(yīng) 的語音模板矢量,通過判決模塊利用支持向量機分類判決樹對語音模板矢量 進行判決,有效降低了語音分類判決的復(fù)雜度,提高語音分級測定的準(zhǔn)確性。
圖6為本發(fā)明語音測定系統(tǒng)第二實施例結(jié)構(gòu)示意圖。如圖6所示,本實 施例與本發(fā)明語音測定系統(tǒng)第一實施例的區(qū)別在于,本實施例模板矢量生成 模塊53進一步包括修正單元5 31和模板矢量生成單元5 32,此外本實施例還 包括判決樹生成模塊55,判決樹生成模塊55進一步包括映射單元551、分類 器模型單元552和判決樹生成單元553。
修正單元531用于根據(jù)狀態(tài)對齊的語音特征序列,分別對各狀態(tài)下隱馬爾可夫模型的分布參數(shù)進行最大后驗概率修正;其中,隱馬爾可夫模型即為 模型庫中存儲的其中 一種參考模型。
本實施例中接收的語音信號至少包括測試語音信號或訓(xùn)練樣本語音信
號。判決樹生成模塊55用于根據(jù)訓(xùn)練樣本語音信號的語音模板矢量建立支持 向量機分類判決樹。而判決模塊54還用于根據(jù)支持向量機分類判決樹對測試 語音信號的語音模板矢量進行分類判決,獲得該語音模板矢量映射的分類等 級。
判決樹生成模塊55中,模板矢量生成單元532用于將修正后的隱馬爾可 夫參考模型中所有均值矢量順序連接,獲得該語音信號相對于隱馬爾可夫模
型的語音模板矢量。
映射單元551用于將模板矢量生成單元生成的樣本語音信號的語音模板 矢量映射到相應(yīng)類別。
分類器模型單元552用于采用二組不同的類別數(shù)據(jù)構(gòu)造一個二元支持向 量機分類器,將二元支持向量機分類器存儲在模型庫51中。
判決樹生成單元553用于將構(gòu)造好的各二元支持向量機分類器以二分樹 的結(jié)構(gòu)組成支持向量機分類判決樹。生成的支持向量機分類判決樹可存儲在 模型庫51中。
本實施例通過一對一的方式訓(xùn)練二元SVM分類器,分類邊界較簡單,有 利于提高分類性能,訓(xùn)練算法復(fù)雜度較低,運算量較小,不存在不可分區(qū)間; 此外,采用二分樹的方法構(gòu)造SVM分類判決樹,并利用SVM分類判決樹對測 試語音信號對應(yīng)的語音模板矢量進行判決,能夠有效提高語音分級測定的準(zhǔn) 確性。如果在系統(tǒng)學(xué)習(xí)訓(xùn)練過程中,提供相應(yīng)的負(fù)模板,本實施例基于語音 模板矢量的語音分類技術(shù)能夠有效區(qū)分語音信號的細微差別,這使得本實施 例應(yīng)用到語言學(xué)習(xí)系統(tǒng)中具有很大的優(yōu)勢。
本發(fā)明語音分級測定系統(tǒng)實施例中可具體運行本發(fā)明語音分級測定方法 實施例,其具體實現(xiàn)語音分級測定實施例詳見本發(fā)明語音分級測定方法實施 例的記栽,不在贅述。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述方法實施例的全部或部分步驟
可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀
取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述 的存儲介質(zhì)包括R0M、 RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
本領(lǐng)域普通技術(shù)人員可以理解附圖只是一個優(yōu)選實施例的示意圖,附 圖中的模塊或流程并不一定是實施本發(fā)明所必須的。
本領(lǐng)域普通技術(shù)人員可以理解實施例中的裝置中的模塊可以按照實施 例描述分布于實施例的裝置中,也可以進行相應(yīng)變化位于不同于本實施例的 一個或多個裝置中。上述實施例的模塊可以合并為一個模塊,也可以進一步 拆分成多個子模塊。
上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
最后應(yīng)說明的是以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其 限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù) 人員應(yīng)當(dāng)理解其依然可以對前述實施例所記載的技術(shù)方案進行修改,或者 對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)
方案的本質(zhì)脫離本發(fā)明實施例技術(shù)方案的精神和范圍。
1權(quán)利要求
1、一種語音分級測定方法,其特征在于包括將接收到的語音信號進行語音識別,根據(jù)參考文本和參考模型獲取狀態(tài)對齊的語音特征序列;根據(jù)狀態(tài)對齊的語音特征序列對參考模型分布參數(shù)進行修正,生成所述語音信號基于該參考模型的語音模板矢量;利用支持向量機分類判決樹對所述語音模板矢量進行分類判決,獲得所述語音模板矢量映射的分類等級。
2、 根據(jù)權(quán)利要求1所述的語音分級測定方法,其特征在于,所述根據(jù)參 考文本和參考模型獲取狀態(tài)對齊的語音特征序列具體為根據(jù)參考文本對接 收的語音信號提取語音特征,并根據(jù)參考模型采用維特比算法對所述語音特 征進行維特比狀態(tài)對齊,獲取狀態(tài)對齊的語音特征序列。
3、 根據(jù)權(quán)利要求2所述的語音分級測定方法,其特征在于,所述參考模 型為隱馬爾可夫模型;所述根據(jù)狀態(tài)對齊的語音特征序列對參考模型分布參 數(shù)進行修正具體為根據(jù)狀態(tài)對齊的語音特征序列,對各狀態(tài)相應(yīng)的所述參考模型分布參數(shù) 進行最大后驗概率修正;將修正后的所述隱馬爾可夫模型中所有均值矢量順序連接,獲得所述語 音信號相對于所述隱馬爾可夫模型的語音模板矢量。
4、 根據(jù)權(quán)利要求1-3所述的任一語音分級測定方法,其特征在于,所述 接收的語音信號至少包括測試語音信號或訓(xùn)練樣本語音信號;所述利用支持 向量機分類判決樹對所述語音模板矢量進行分類判決具體為根據(jù)所述訓(xùn)練樣本語音信號的語音模板矢量建立所述支持向量機分類判 決樹;根據(jù)所述支持向量機分類判決樹對測試語音信號的語音模板矢量進行分 類判決。
5、 根據(jù)權(quán)利要求4所述的語音分級測定方法,其特征在于,所述根據(jù)訓(xùn) 練樣本語音信號的語音模板矢量建立所述支持向量機分類判決樹具體為將訓(xùn)練樣本語音信號的語音模板矢量映射為相應(yīng)類別數(shù)據(jù); 采用每二組不同的類別數(shù)據(jù)構(gòu)造一個二元支持向量機分類器; 將構(gòu)造好的各所述二元支持向量機分類器以二分樹的結(jié)構(gòu)組成所述支持 向量機分類判決樹。
6、 根據(jù)權(quán)利要求5所述的語音分級測定方法,其特征在于,所述根據(jù)支 持向量機分類判決樹對測試語音信號的語音模板矢量進行分類判決具體為 從所述支持向量機分類判決樹的根節(jié)點開始,依次根據(jù)判決過程所經(jīng)節(jié)點對 應(yīng)的二元支持向量機分類器,對測試語音信號的語音特征序列進行是/非判 決,每次判決排除一個候選等級,直至所述支持向量機分類判決樹的葉節(jié)點, 獲得測試語音信號的語音模板矢量映射的分類等級。
7、 一種語音分級測定系統(tǒng),其特征在于包括 模型庫,用于存儲參考文本和參考模型;語音識別模塊,將接收到的語音信號進行語音識別,根據(jù)參考文本和參 考模型獲取狀態(tài)對齊的語音特征序列;模板矢量生成模塊,用于根據(jù)狀態(tài)對齊的語音特征序列對參考模型分布 參數(shù)進行修正,生成所述語音信號基于該參考模型的語音模板矢量;判決模塊,用于利用支持向量機分類判決樹對所述語音模板矢量進行分 類判決,獲得所述語音模板矢量映射的分類等級。
8、 根據(jù)權(quán)利要求7所述的語音分級測定系統(tǒng),其特征在于,所述模板矢 量生成模塊,包括修正單元,用于根據(jù)狀態(tài)對齊的語音特征序列,分別對各狀態(tài)下隱馬爾 可夫模型的分布參數(shù)進行最大后驗概率修正;模板矢量生成單元,用于將修正后的隱馬爾可夫模型中所有均值矢量順 序連接,獲得所述語音信號相對于所述隱馬爾可夫模型的語音模板矢量。
9、 根據(jù)權(quán)利要求7或8所述的語音分級測定系統(tǒng),其特征在于,所述接 收的語音信號至少包括測試語音信號或訓(xùn)練樣本語音信號;所述語音分級測 定系統(tǒng)還包括判決樹生成模塊,用于根據(jù)訓(xùn)練樣本語音信號的語音模板矢量建立所述支持向量機分類判決樹;所述判決模塊還用于根據(jù)所述支持向量機分類判決樹對測試語音信號的 語音模板矢量進行分類判決,獲得該語音模板矢量映射的分類等級。
10、根據(jù)權(quán)利要求9所述的語音分級測定系統(tǒng),其特征在于,所述判決 樹生成模塊包括映射單元,用于將訓(xùn)練樣本語音信號的語音模板矢量映射為相應(yīng)類別數(shù)據(jù);分類器模型單元,用于釆用每二組不同的類別數(shù)據(jù)構(gòu)造一個二元支持向 量機分類器,將所述二元支持向量機分類器存儲在所述模型庫中;判決樹生成單元,用于將構(gòu)造好的各所述二元支持向量機分類器以二分 樹的結(jié)構(gòu)組成所述支持向量機分類判決樹。
全文摘要
本發(fā)明涉及一種語音分級測定方法及系統(tǒng)。該方法包括步驟將接收到的語音信號進行語音識別,根據(jù)參考文本和參考模型獲取狀態(tài)對齊的語音特征序列;根據(jù)狀態(tài)對齊的語音特征序列對參考模型分布參數(shù)進行修正,生成所述語音信號基于該參考模型的語音模板矢量;利用支持向量機分類判決樹對所述語音模板矢量進行分類判決,獲得所述語音模板矢量映射的分類等級。本發(fā)明引入支持向量機對語言分類邊界進行建模并應(yīng)用于語言學(xué)習(xí)中,對接收的語音信號提取語音特征并與參考模型進行狀態(tài)對齊,修正參考模型分布參數(shù)并生成相應(yīng)的語音模板矢量,利用支持向量機分類判決樹對語音模板矢量進行判決,有效降低了語音分類判決的復(fù)雜度,提高語音分級測定的準(zhǔn)確性。
文檔編號G10L15/14GK101562012SQ20081010418
公開日2009年10月21日 申請日期2008年4月16日 優(yōu)先權(quán)日2008年4月16日
發(fā)明者張化云, 李慧勤, 軍 許, 煒 陳 申請人:創(chuàng)而新(中國)科技有限公司