專利名稱:非特定人孤立詞的模型訓(xùn)練方法、識(shí)別系統(tǒng)及識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù),特別是語(yǔ)音識(shí)別技術(shù)中的非特定人孤立詞的 識(shí)別。
技術(shù)背景現(xiàn)有的非特定人孤立詞識(shí)別系統(tǒng)如圖1所示,包括 實(shí)時(shí)語(yǔ)音接收模塊,用于將外界的聲音信號(hào)以單個(gè)詞的形式采集; 語(yǔ)音特征值提取模塊,用于從采集到的原始聲音數(shù)據(jù)中提取出有代表性 的特征值數(shù)據(jù);識(shí)別模塊,用于根據(jù)模型數(shù)據(jù)對(duì)特征值數(shù)據(jù)進(jìn)行正確的識(shí)別,并輸出識(shí) 別結(jié)果;識(shí)別結(jié)果處理模塊,用于根據(jù)識(shí)別結(jié)果執(zhí)行實(shí)現(xiàn)定義好的處理程序。 目前,對(duì)于非特定人孤立詞模型的訓(xùn)練方法中包括基于DTW (Dynamic Time Warping,動(dòng)態(tài)時(shí)間規(guī)整)算法回溯匹配路徑得到平均模板,然后結(jié)合K 均值算法(MKM),它是矢量量化中LBG算法的變形,其實(shí)現(xiàn)流程如圖2所不o然而,由圖2所示的非特定人孤立詞模型的訓(xùn)練方法訓(xùn)練出的每個(gè)孤立 詞將會(huì)有多個(gè)模型,這樣在識(shí)別時(shí)就需要與每個(gè)模型都進(jìn)行一次匹配才能得 到識(shí)別結(jié)果,因此計(jì)算量相當(dāng)大。同時(shí),現(xiàn)有的非特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)對(duì)沒(méi)有訓(xùn)練過(guò)的集外詞的拒 識(shí)能力比較差。 發(fā)明內(nèi)容本發(fā)明的目的在于提供一種非特定人孤立詞的模型訓(xùn)練方法、識(shí)別系統(tǒng) 及識(shí)別方法,提高識(shí)別率,同時(shí)有效地降低現(xiàn)有訓(xùn)練方法計(jì)算量大、識(shí)別率 低的問(wèn)題。為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種非特定人孤立詞的模型訓(xùn)練方法, 包括使用動(dòng)態(tài)時(shí)間規(guī)整算法獲取非特定人孤立詞的多個(gè)訓(xùn)練模型的步驟,還 包括中心訓(xùn)練模型獲取步驟,將非特定人孤立詞的多個(gè)訓(xùn)練模型合并為非特 定人孤立詞的中心訓(xùn)練模型。上述的非特定人孤立詞的模型訓(xùn)練方法,其中,所述中心訓(xùn)練模型獲取 步驟具體包括步驟A1 ,使用動(dòng)態(tài)時(shí)間規(guī)整算法對(duì)非特定人孤立詞的多個(gè)訓(xùn)練模型進(jìn)行 兩兩匹配,并計(jì)算每個(gè)訓(xùn)練模型與所有訓(xùn)練模型的相似度;步驟A2,計(jì)算每個(gè)訓(xùn)練模型對(duì)應(yīng)的一組相似度的平均值;步驟A3,將其他的訓(xùn)練模型利用動(dòng)態(tài)時(shí)間規(guī)整算法回溯歸并到最小相似度平均值所對(duì)應(yīng)的訓(xùn)練模型;步驟A4,對(duì)歸并后的訓(xùn)練模型求平均后得到非特定人孤立詞對(duì)應(yīng)的中心 訓(xùn)練模型。為了更好的實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種非特定人孤立詞的識(shí)別 方法,包括實(shí)時(shí)語(yǔ)音接收步驟和語(yǔ)音特征值提取步驟,還包括識(shí)別步驟,根據(jù)非特定人孤立詞的中心訓(xùn)練模型和特征值數(shù)據(jù)進(jìn)行識(shí)別 處理,獲取非特定人孤立詞與中心訓(xùn)練模型的相似度;識(shí)別結(jié)果選擇步驟,將最小的相似度對(duì)應(yīng)的中心訓(xùn)練模型作為最終識(shí)別 結(jié)果輸出;所述非特定人孤立詞的中心訓(xùn)練模型由利用動(dòng)態(tài)時(shí)間規(guī)整算法獲取的非 特定人孤立詞的多個(gè)訓(xùn)練模型合并得到。上述的非特定人孤立詞的識(shí)別方法,其中,所述中心訓(xùn)練模型具體根據(jù) 以下方法獲取步驟A1,使用動(dòng)態(tài)時(shí)間規(guī)整算法對(duì)非特定人孤立詞的多個(gè)訓(xùn)練模型進(jìn)行 兩兩匹配,并計(jì)算每個(gè)訓(xùn)練模型與所有訓(xùn)練模型的相似度;步驟A2,計(jì)算每個(gè)訓(xùn)練模型對(duì)應(yīng)的一組相似度的平均值;步驟A3,將其他的訓(xùn)練模型利用動(dòng)態(tài)時(shí)間規(guī)整算法回溯歸并到最小相似 度平均值所對(duì)應(yīng)的訓(xùn)練模型;步驟A4,對(duì)歸并后的訓(xùn)練模型求平均后得到非特定人孤立詞對(duì)應(yīng)的中心
訓(xùn)練模型。上述的非特定人孤立詞的識(shí)別方法,其中,識(shí)別步驟和識(shí)別結(jié)果選擇步 驟之間還包括識(shí)別結(jié)果篩選步驟,判斷識(shí)別結(jié)果得分是否大于或等于拒識(shí)閾值,如果 是進(jìn)入識(shí)別結(jié)果選擇步驟,否則識(shí)別為集外詞。上述的非特定人孤立詞的識(shí)別方法,其中,實(shí)時(shí)語(yǔ)音接收步驟中根據(jù)過(guò) 零率和能量判斷是否有聲音輸入。上述的非特定人孤立詞的識(shí)別方法,其中,所述識(shí)別步驟中,搜索區(qū)域 為距離陣與距離陣的對(duì)角線向兩邊平移一定距離后所形成的區(qū)域的重疊部 分。上述的非特定人孤立詞的識(shí)別方法,其中,所述識(shí)別步驟中,匹配路徑 的起始點(diǎn)位于搜索區(qū)域的任意一條邊。上述的非特定人孤立詞的識(shí)別方法,其中,所述識(shí)別步驟中,選擇幀長(zhǎng) 在待測(cè)試語(yǔ)音幀的幀長(zhǎng)的一半和兩倍之間的中心訓(xùn)練模型進(jìn)行識(shí)別處理。上述的非特定人孤立詞的識(shí)別方法,其中,識(shí)別結(jié)果選擇步驟之后還包括識(shí)別結(jié)果處理步驟,根據(jù)最終識(shí)別結(jié)果執(zhí)行相應(yīng)處理程序。 為了更好的實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種利用中心訓(xùn)練模型的非特定人孤立詞識(shí)別系統(tǒng),包括實(shí)時(shí)語(yǔ)音接收模塊和語(yǔ)音特征值提取模塊,還包括識(shí)別模塊,用于結(jié)合非特定人孤立詞的中心訓(xùn)練模型和特征值數(shù)據(jù)進(jìn)行 識(shí)別處理,獲取非特定人孤立詞與中心訓(xùn)練模型的相似度,并將最小的相似 度對(duì)應(yīng)的中心訓(xùn)練模型作為最終識(shí)別結(jié)果輸出。上述的非特定人孤立詞的識(shí)別系統(tǒng),其中,所述識(shí)別模塊還用于將識(shí)別 結(jié)果得分小于拒識(shí)閾值的語(yǔ)音數(shù)據(jù)識(shí)別為集外詞。上述的非特定人孤立詞的識(shí)別系統(tǒng),其中,所述實(shí)時(shí)語(yǔ)音接收模塊用于將外界的聲音以單個(gè)詞的形式采集; 所述語(yǔ)音特征值提取模塊用于從采集到的原始聲音數(shù)據(jù)中獲取特征值數(shù)據(jù)。
本發(fā)明通過(guò)將利用現(xiàn)有DTW算法得到的一個(gè)非特定人孤立詞的多個(gè)訓(xùn)練模型合并到一個(gè)中心訓(xùn)練模型,這樣在模型匹配步驟中根據(jù)輸入聲音數(shù)據(jù) 的特征值與所有孤立詞的訓(xùn)練模型進(jìn)行匹配時(shí),每個(gè)孤立詞只需對(duì)一個(gè)中心 訓(xùn)練模型進(jìn)行匹配,大大減少了匹配操作的次數(shù),降低了匹配操作時(shí)的計(jì)算 量。同時(shí),本發(fā)明還在識(shí)別處理時(shí),將大于拒識(shí)閾值的識(shí)別結(jié)果排除掉,有 效地提高了對(duì)集外詞的拒識(shí)能力。另外,本發(fā)明限定了搜索區(qū)域的范圍,并 放松匹配起點(diǎn),提高了系統(tǒng)的識(shí)別率,減小了計(jì)算量。
圖1為非特定人孤立詞識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖;圖2為非特定人孤立詞模型訓(xùn)練的流程示意圖;圖3為本發(fā)明的非特定人孤立詞模型訓(xùn)練方法的流程示意圖;圖4為本發(fā)明的非特定人孤立詞模型訓(xùn)練方法的示意圖;圖5為本發(fā)明的模型匹配識(shí)別的圖解示意圖;圖6為本發(fā)明的利用的中心訓(xùn)練模型計(jì)算識(shí)別結(jié)果得分的示意圖; 圖7為外界聲音數(shù)據(jù)的采集的流程示意圖; 圖8為本發(fā)明的限制的識(shí)別搜索區(qū)域的示意圖。
具體實(shí)施方式
本發(fā)明對(duì)于非特定人孤立詞利用基于DTW算法得到的多個(gè)訓(xùn)練模型進(jìn) 行合并得到孤立詞對(duì)應(yīng)的中心訓(xùn)練模型,使每個(gè)孤立詞最終只有一個(gè)中心訓(xùn) 練模型,這樣在模型匹配步驟中根據(jù)輸入聲音數(shù)據(jù)的特征值與所有孤立詞的 訓(xùn)練模型進(jìn)行匹配時(shí),每個(gè)孤立詞只需對(duì)一個(gè)中心訓(xùn)練模型進(jìn)行匹配,大大 減少了匹配操作的次數(shù),降低了匹配操作時(shí)的計(jì)算量。如圖3所示,本發(fā)明的非特定人孤立詞模型訓(xùn)練方法具體包括如下步驟 步驟31,使用DTW算法獲取一個(gè)非特定人孤立詞的多個(gè)訓(xùn)練模型; 步驟32,使用DTW算法對(duì)非特定人孤立詞的多個(gè)訓(xùn)練模型進(jìn)行兩兩匹配;步驟33,計(jì)算兩兩匹配后每個(gè)訓(xùn)練模型的相似度的平均值;步驟34,確定最小的相似度平均值對(duì)應(yīng)的訓(xùn)練模型;步驟35,將其他的訓(xùn)練模型利用DTW算法回溯歸并到最小平均值對(duì)應(yīng)的
訓(xùn)練模型;步驟36,對(duì)歸并后的訓(xùn)練模型求平均后得到非特定人孤立詞對(duì)應(yīng)的中心 訓(xùn)練模型。下面結(jié)合圖4對(duì)本發(fā)明的訓(xùn)練方法進(jìn)行進(jìn)一步詳細(xì)的描述。如圖4所示,假設(shè)一個(gè)非特定人孤立詞X根據(jù)現(xiàn)有的DTW算法訓(xùn)練后有n個(gè)訓(xùn)練模型,分別為M1、 M2.....Mn,則本發(fā)明的非特定人孤立詞模型訓(xùn)練方法中,首先對(duì)孤立詞的多個(gè)訓(xùn)練模型進(jìn)行兩兩匹配,具體實(shí)現(xiàn)方法如下將Ml分別與n個(gè)訓(xùn)練模型使用DTW算法進(jìn)行匹配,獲取Ml對(duì)應(yīng)的n個(gè)相 似度;將M2分別與n個(gè)訓(xùn)練模型使用DTW算法進(jìn)行匹配,獲取M2對(duì)應(yīng)的n個(gè)相 似度;將Mn分別與n個(gè)訓(xùn)練模型使用DTW算法進(jìn)行匹配,獲取Mn對(duì)應(yīng)的n個(gè)相 似度。在獲得了n個(gè)訓(xùn)練模型Ml、 M2、 ...、 Mn對(duì)應(yīng)的n個(gè)相似度后,分別對(duì)M1、M2.....Mn對(duì)應(yīng)的相似度計(jì)算平均值,獲得M1、 M2.....Mn對(duì)應(yīng)的相似度平均值S1—Average 、 S2—Average 、…、Sn一Average。然后確定n個(gè)相似度平均值S1—Average、 S2—Average 、 ...、 Sn—Average中最小的相似度平均值所對(duì)應(yīng)的非特定人孤立詞訓(xùn)練模型。假設(shè)S1一Average 在S1—Average、 S2—Average 、 ...、 Sn—Average中最小,則選擇M2為對(duì)應(yīng)的 非特定人孤立詞訓(xùn)練模型。在確定了最小相似度平均值所對(duì)應(yīng)的非特定人孤立詞訓(xùn)練模型后,將其 他模型利用DTW回溯方法歸并到這個(gè)訓(xùn)練模型,并對(duì)回溯歸并后的訓(xùn)練模型 求平均后得到非特定人孤立詞對(duì)應(yīng)的中心訓(xùn)練模型。本發(fā)明的非特定人孤立詞識(shí)別方法中,識(shí)別模塊利用非特定人孤立詞對(duì) 應(yīng)的中心訓(xùn)練模型對(duì)特征值數(shù)據(jù)進(jìn)行識(shí)別,這樣減少了匹配的次數(shù)。如圖5所示,本發(fā)明的非特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)利用非特定人孤立 詞的中心訓(xùn)練模型來(lái)進(jìn)行模型匹配識(shí)別,則每個(gè)非特定人孤立詞(你好)和 每個(gè)非特定人孤立詞(早上好、再見(jiàn).....你好)的中心訓(xùn)練模型都會(huì)有一
個(gè)匹配結(jié)果,此時(shí)最相近的結(jié)果應(yīng)該是中心訓(xùn)練模型"你好",其相似度最低, 為10。在利用本發(fā)明的非特定人孤立詞模型訓(xùn)練方法獲取非特定人孤立詞的中 心訓(xùn)練模型后,本發(fā)明進(jìn)一步對(duì)每個(gè)非特定人孤立詞的中心訓(xùn)練模型設(shè)定拒 識(shí)閾值,解決現(xiàn)有的非特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)對(duì)集外詞的拒識(shí)能力比較 差的問(wèn)題,只有在識(shí)別匹配結(jié)果的得分大于或等于預(yù)設(shè)的拒識(shí)閾值時(shí)才將識(shí) 別匹配結(jié)果放入到識(shí)別結(jié)果隊(duì)列,最后從識(shí)別結(jié)果隊(duì)列中選擇相似度最小的 識(shí)別結(jié)果作為正確的識(shí)別結(jié)果,這樣就有效提高了對(duì)集外詞的拒識(shí)能力。下面結(jié)合附圖對(duì)拒識(shí)閾值的獲取進(jìn)行詳細(xì)的說(shuō)明。由于非特定人孤立詞和所有的中心訓(xùn)練模型都有一個(gè)匹配的結(jié)果,如圖5所示,"你好"與圖5中的中心訓(xùn)練模型的相似度分別為100、 110、 120、150、.......,這些相似度之間存在一個(gè)比例關(guān)系為10: 11: 12: 15:......,以第一個(gè)為準(zhǔn)進(jìn)行規(guī)一化后,結(jié)果為l: 1.1: 1.2: 1.5......。因?yàn)橛?xùn)練過(guò)的詞的個(gè)數(shù)和發(fā)音都相對(duì)固定,所以每個(gè)訓(xùn)練過(guò)的詞的這一 組比例參數(shù)都是穩(wěn)定在一個(gè)范圍之內(nèi)的;使用這個(gè)規(guī)律就可以為每一個(gè)中心訓(xùn)練模型設(shè)定一組比例參數(shù),通過(guò)對(duì)這組參數(shù)進(jìn)行評(píng)分,然后設(shè)定一個(gè)最低 分?jǐn)?shù)閾值即可得到一個(gè)拒絕識(shí)別和接受識(shí)別的效果。如圖6所示,首先使用第i個(gè)中心訓(xùn)練模型和除第i個(gè)以外的所有中心訓(xùn) 練模型進(jìn)行匹配,匹配后得到對(duì)應(yīng)的相似度Sx(x-1, 2, 3.....n ; x!=i),進(jìn)而得到這些相似度的比值為Sl: S2: S3: ......: Sn,進(jìn)行規(guī)一化處理后得到比值為1: S2/S1: S3/S1: ...... : Sn/Sl。在此,為方便描述,設(shè)Sn/Sl二 Kx(x=2, 3..…n ; x!=i),則原比例參數(shù)變?yōu)?: K2: K3: ......: Kn。其他的每個(gè)中心訓(xùn)練模型都可以通過(guò)這種方法設(shè)定一組比例參數(shù)。 下面對(duì)如何根據(jù)比例參數(shù)獲取識(shí)別操作的得分進(jìn)行說(shuō)明。 設(shè)一次識(shí)別操作后得到的一組相似度的比例參數(shù)為1: M2: M3:......:Mn,然后獲取最小的相似度對(duì)應(yīng)的中心訓(xùn)練模型的原比例參數(shù)1: K2: K3: ......: Kn,其中Knmax = max(Kn, Mn), Mnminn = min(Kn, Mn),則得分為-Score =1 X(M2min/K2max)X(M3min /K3max)X ... X(Mnmin /Knmax)如設(shè)定Score》0.8 (0.8即為拒識(shí)閾值)時(shí)系統(tǒng)接受本次識(shí)別結(jié)果,則當(dāng) Score0.8時(shí)系統(tǒng)將會(huì)把這次接受到的語(yǔ)音數(shù)據(jù)識(shí)別為一個(gè)沒(méi)有訓(xùn)練過(guò)的詞, 從而避免錯(cuò)誤的識(shí)別為系統(tǒng)中的某個(gè)詞。這樣,非特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)在獲取到識(shí)別結(jié)果(即一組相似度) 后根據(jù)拒識(shí)閾值和得分對(duì)識(shí)別結(jié)果進(jìn)行篩選,在識(shí)別結(jié)果得分小于拒識(shí)閾值 的情況下,將接受到的語(yǔ)音數(shù)據(jù)識(shí)別為一個(gè)沒(méi)有訓(xùn)練過(guò)的詞,有效地提高了 對(duì)集外詞的拒識(shí)能力。下面結(jié)合整個(gè)非特定人孤立詞識(shí)別系統(tǒng)對(duì)本發(fā)明進(jìn)行更進(jìn)一步的說(shuō)明。本發(fā)明的非特定人孤立詞識(shí)別系統(tǒng)包括實(shí)時(shí)語(yǔ)音接收模塊,用于將外界的聲音以單個(gè)詞的形式采集;語(yǔ)音特征值提取模塊,用于從采集到的原始聲音數(shù)據(jù)中提取出有代表性 的特征值數(shù)據(jù);識(shí)別模塊,用于結(jié)合非特定人孤立詞的中心訓(xùn)練模型和拒識(shí)閾值對(duì)特征 值數(shù)據(jù)進(jìn)行正確的識(shí)別,并輸出表示識(shí)別結(jié)果的標(biāo)號(hào);識(shí)別結(jié)果處理模塊,根據(jù)識(shí)別結(jié)果的標(biāo)號(hào)執(zhí)行實(shí)現(xiàn)定義好的處理程序。實(shí)時(shí)語(yǔ)音接收模塊主要負(fù)責(zé)將外界的聲音數(shù)據(jù)以一單個(gè)詞的形式采集進(jìn) 來(lái),具體實(shí)現(xiàn)的方法是通過(guò)聲音的過(guò)零率和能量進(jìn)行檢測(cè),當(dāng)檢測(cè)到有聲音 數(shù)據(jù)時(shí)便從聲音開(kāi)始的時(shí)刻起將一個(gè)預(yù)定時(shí)間長(zhǎng)短(如2S)的外界的聲音數(shù) 據(jù)采集并發(fā)送給語(yǔ)音特征值提取模塊。過(guò)零率和能量是語(yǔ)音信號(hào)處理最基本的參數(shù),在各種語(yǔ)音信號(hào)處理中都 會(huì)用到,計(jì)算這些參數(shù)時(shí)一般使用的是一個(gè)窗函數(shù)。當(dāng)窗的起點(diǎn)n-0時(shí),語(yǔ) 音信號(hào)的短時(shí)能量用E表示為-W-i過(guò)零率用Z表示為<formula>formula see original document page 11</formula>其中,sng[]表示取符號(hào),sgnM = fcS"在比較安靜的環(huán)境下面采用聲音的能量即可比較準(zhǔn)確的確定出聲音的起 點(diǎn),本系統(tǒng)同時(shí)結(jié)合了過(guò)零率來(lái)確定聲音的起點(diǎn),提高了系統(tǒng)判斷的準(zhǔn)確度。 外界聲音數(shù)據(jù)的釆集具體如圖7所示,具體包括如下流程-步驟71,系統(tǒng)啟動(dòng)后由實(shí)時(shí)語(yǔ)音接收模塊掃描聲音數(shù)據(jù)緩沖區(qū),并截取一段數(shù)據(jù);步驟72,計(jì)算該段數(shù)據(jù)的能量和過(guò)零率;步驟73,根據(jù)能量和過(guò)零率判斷是否為外界聲音輸入,如果是進(jìn)入步驟 74,否則返回步驟71繼續(xù)檢測(cè)是否有聲音數(shù)據(jù)輸入; 步驟74,保存預(yù)定長(zhǎng)度(如2S)的聲音數(shù)據(jù)。語(yǔ)音特征值提取模塊,用于從采集到的原始聲音數(shù)據(jù)中提取出有代表性 的特征值數(shù)據(jù),去掉與語(yǔ)音識(shí)別無(wú)關(guān)的冗余信息,獲得影響語(yǔ)音識(shí)別的重要 信息,為識(shí)別和訓(xùn)練做準(zhǔn)備,包括如下步驟預(yù)加重步驟,獲取實(shí)時(shí)語(yǔ)音接收模塊的聲音信號(hào)后執(zhí)行預(yù)加重操作,消 除發(fā)聲過(guò)程中聲帶和嘴唇的效應(yīng),來(lái)補(bǔ)償聲音信號(hào)受到發(fā)音系統(tǒng)所壓抑的高 頻部分;在此,預(yù)加重是將語(yǔ)音信號(hào)采用高通濾波器,結(jié)合預(yù)加重系數(shù)來(lái)處 理,其中,預(yù)加重系數(shù)通常在0.9到1之間。分幀步驟,將N個(gè)采樣點(diǎn)集合成一個(gè)觀測(cè)單位,成為一幀(Frame)。通 常N的值是256或512,蘊(yùn)涵的時(shí)間約為20 30ms左右,當(dāng)然,也可以更少 或更多。為了相鄰兩幀間具有相關(guān)性,在處理過(guò)程中會(huì)讓相鄰幀之間有一段 重疊區(qū)域,此重疊區(qū)域包含了 M個(gè)采樣點(diǎn),通常的M的值是N的1/2或1/3, 也就是每次位移一幀的二分之一或三分之一后再取下一幀,這樣可以避免幀 與幀之間的特性變化太大。加窗步驟,本發(fā)明中將每一幀乘上海明窗,以增加一幀左端和右端的連 續(xù)性??焖俑盗⑷~變換步驟,將加窗后的幀經(jīng)過(guò)FFT (Fast Fourier Transform,快速傅立葉變換)求出每幀的頻譜參數(shù)。由于語(yǔ)音信號(hào)在時(shí)域上的變化快速 而不穩(wěn)定,很難看出信號(hào)的特性,所以通常都將它轉(zhuǎn)換成頻域上的能量分布 來(lái)觀察。濾波步驟,將頻譜參數(shù)乘以一組20個(gè)(當(dāng)然可以更多或更少)三角帶通 濾波器,求得每一個(gè)濾波器輸出的對(duì)數(shù)能量(LogEnergy),在此,三角帶通
濾波器在Mel頻率上是均勻分布的,Mel頻率和正常頻率轉(zhuǎn)換關(guān)系如下 Mel(f)=2595*logl0(l+f〃00)余弦變換步驟,將對(duì)數(shù)能量進(jìn)行余弦變換后獲得聲音特征值數(shù)據(jù),余弦變換如下所示1,附=1,2...丄乂其中,N為濾波器的個(gè)數(shù),L為聲音特征值的維數(shù)。在獲取聲音特征值數(shù)據(jù)以后即可由識(shí)別模塊結(jié)合非特定人孤立詞的中心 訓(xùn)練模型和拒識(shí)閾值對(duì)特征值數(shù)據(jù)進(jìn)行識(shí)別處理,下面進(jìn)行詳細(xì)說(shuō)明。原始的DTW算法是將待識(shí)別的語(yǔ)音幀進(jìn)行彎折,在彎折的計(jì)算過(guò)程中 會(huì)產(chǎn)生一個(gè)M行N列的距離陣,然后再通過(guò)局部最優(yōu)的DP原理,得到一個(gè) 全局的最小值,作為待識(shí)別語(yǔ)音和訓(xùn)練模型的之間表示相似程度的一個(gè)距離 值。然而,有可能匹配的最優(yōu)路徑與距離陣的對(duì)角線產(chǎn)生了很大的偏移,彎 折的程度很大,同時(shí)沒(méi)有對(duì)識(shí)別搜索區(qū)域進(jìn)行限制,容易將一個(gè)噪聲信號(hào)與 某個(gè)模型錯(cuò)誤的匹配出一個(gè)很小的距離,從而得到一個(gè)錯(cuò)誤的識(shí)別結(jié)果,這 樣必然影響系統(tǒng)正確識(shí)別率,同時(shí)計(jì)算量也比較大。因此本發(fā)明采用了限制識(shí)別搜索區(qū)域,放松匹配起點(diǎn)的方法進(jìn)行處理。如圖8所示,本發(fā)明進(jìn)行識(shí)別處理時(shí),在0.5《M/N《2時(shí),搜索區(qū)域?yàn)?距離陣與距離陣的對(duì)角線向兩邊平移一定距離后所形成的區(qū)域的重疊部分, 其中,M為模型的幀長(zhǎng),而N為待測(cè)試語(yǔ)音幀的幀長(zhǎng);在搜索區(qū)域設(shè)定好之 后,將中心訓(xùn)練模型的數(shù)據(jù)幀和待識(shí)別的聲音特征值數(shù)據(jù)分別順次存放到預(yù) 定位置,然后使用DTW算法計(jì)算出搜索區(qū)域的數(shù)據(jù)值即可。限制識(shí)別搜索區(qū)域在減小計(jì)算量的同時(shí),能夠放大測(cè)試語(yǔ)音與模型不匹 配時(shí)的距離,減小測(cè)試語(yǔ)音與模型匹配時(shí)的距離,所以這樣做能夠有效的提 高識(shí)別率。M/N"或M/N0.5時(shí),認(rèn)為待識(shí)別的語(yǔ)音幀不能和模型匹配,所以不一和這個(gè)模型進(jìn)行匹配。同時(shí),識(shí)別處理的過(guò)程中,如果不放松起始匹配點(diǎn),進(jìn)行匹配處理時(shí),路徑的起點(diǎn)和終點(diǎn)是固定的。本發(fā)明采用放松起始匹配點(diǎn),匹配路徑的起始點(diǎn)可以在搜索區(qū)域的任意一條邊上,這樣可產(chǎn)生多種可能的匹配路徑,可對(duì) 聲音起始點(diǎn)檢測(cè)不準(zhǔn)確的情況起到一定的矯正作用,從而提高系統(tǒng)的識(shí)別率。 本發(fā)明中的識(shí)別處理具體包括如下步驟訓(xùn)練模型選擇步驟,選擇待識(shí)別語(yǔ)音的需要匹配的中心訓(xùn)練模型,選擇的標(biāo)準(zhǔn)就是0.5《M/N《2時(shí),其中,M為中心訓(xùn)練模型的幀長(zhǎng),而N為待測(cè)試語(yǔ)音幀的幀長(zhǎng);搜索區(qū)域限定步驟,將距離陣的對(duì)角線向兩邊平移一定距離后所形成的 區(qū)域與距離陣的重疊部分設(shè)定為搜索區(qū)域,,匹配結(jié)果計(jì)算步驟,利用DTW算法在搜索區(qū)域內(nèi)計(jì)算與非特定人孤立 詞的中心訓(xùn)練模型的相似度;識(shí)別結(jié)果得分計(jì)算步驟,根據(jù)匹配結(jié)果計(jì)算步驟得到的相似度獲取相似度的比例參數(shù)l: M2: M3: ......: Mll,并結(jié)合原比例參數(shù)l: K2: K3: ......Kn計(jì)算識(shí)別結(jié)果得分Score =1 X(M2min/K2max)X(M3min / K3max)X…X (Mnmin / Knmax);最終識(shí)別結(jié)果獲取步驟,用于在識(shí)別結(jié)果得分大于或等于拒識(shí)閾值時(shí), 從匹配結(jié)果中選擇相似度最小的一個(gè)作為最終識(shí)別結(jié)果。識(shí)別結(jié)果處理模塊主要是根據(jù)識(shí)別模塊獲取的最終識(shí)別結(jié)果給出相應(yīng)的 輸出,如播放回答文、顯示識(shí)別結(jié)果等,如在手機(jī)中,可以是對(duì)姓名識(shí)別后 給出相應(yīng)的電話號(hào)碼或直接撥打相應(yīng)電話號(hào)碼等。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普 通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以作出若干改進(jìn)和潤(rùn) 飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種非特定人孤立詞的模型訓(xùn)練方法,包括使用動(dòng)態(tài)時(shí)間規(guī)整算法獲取非特定人孤立詞的多個(gè)訓(xùn)練模型的步驟,其特征在于,還包括中心訓(xùn)練模型獲取步驟,將非特定人孤立詞的多個(gè)訓(xùn)練模型合并為非特定人孤立詞的中心訓(xùn)練模型。
2. 根據(jù)權(quán)利要求1所述的非特定人孤立詞的模型訓(xùn)練方法,其特征在于, 所述中心訓(xùn)練模型獲取步驟具體包括步驟A1,使用動(dòng)態(tài)時(shí)間規(guī)整算法對(duì)非特定人孤立詞的多個(gè)訓(xùn)練模型進(jìn)行 兩兩匹配,并計(jì)算每個(gè)訓(xùn)練模型與所有訓(xùn)練模型的相似度;步驟A2,計(jì)算每個(gè)訓(xùn)練模型對(duì)應(yīng)的一組相似度的平均值;步驟A3,將其他的訓(xùn)練模型利用動(dòng)態(tài)時(shí)間規(guī)整算法回溯歸并到最小相似 度平均值所對(duì)應(yīng)的訓(xùn)練模型;步驟A4,對(duì)歸并后的訓(xùn)練模型求平均后得到非特定人孤立詞對(duì)應(yīng)的中心 訓(xùn)練模型。
3. —種非特定人孤立詞的識(shí)別方法,包括實(shí)時(shí)語(yǔ)音接收步驟和語(yǔ)音特征值提取步驟,其特征在于,還包括識(shí)別步驟,根據(jù)非特定人孤立詞的中心訓(xùn)練模型和特征值數(shù)據(jù)進(jìn)行識(shí)別處理,獲取非特定人孤立詞與中心訓(xùn)練模型的相似度;識(shí)別結(jié)果選擇步驟,將最小的相似度對(duì)應(yīng)的中心訓(xùn)練模型作為最終識(shí)別 結(jié)果輸出;所述非特定人孤立詞的中心訓(xùn)練模型由利用動(dòng)態(tài)時(shí)間規(guī)整算法獲取的非 特定人孤立詞的多個(gè)訓(xùn)練模型合并得到。
4. 根據(jù)權(quán)利要求3所述的非特定人孤立詞的識(shí)別方法,其特征在于,所 述中心訓(xùn)練模型具體根據(jù)以下方法獲取步驟A1,使用動(dòng)態(tài)時(shí)間規(guī)整算法對(duì)非特定人孤立詞的多個(gè)訓(xùn)練模型進(jìn)行 兩兩匹配,并計(jì)算每個(gè)訓(xùn)練模型與所有訓(xùn)練模型的相似度; 步驟A2,計(jì)算每個(gè)訓(xùn)練模型對(duì)應(yīng)的一組相似度的平均值; 步驟A3,將其他的訓(xùn)練模型利用動(dòng)態(tài)時(shí)間規(guī)整算法回溯歸并到最小相似 度平均值所對(duì)應(yīng)的訓(xùn)練模型;步驟A4,對(duì)歸并后的訓(xùn)練模型求平均后得到非特定人孤立詞對(duì)應(yīng)的中心 訓(xùn)練模型。
5. 根據(jù)權(quán)利要求3或4所述的非特定人孤立詞的識(shí)別方法,其特征在于, 識(shí)別步驟和識(shí)別結(jié)果選擇步驟之間還包括識(shí)別結(jié)果篩選步驟,判斷識(shí)別結(jié)果得分是否大于或等于拒識(shí)閾值,如果 是進(jìn)入識(shí)別結(jié)果選擇步驟,否則識(shí)別為集外詞。
6. 根據(jù)權(quán)利要求3或4所述的非特定人孤立詞的識(shí)別方法,其特征在于, 實(shí)時(shí)語(yǔ)音接收步驟中根據(jù)過(guò)零率和能量判斷是否有聲音輸入。
7. 根據(jù)權(quán)利要求3或4所述的非特定人孤立詞的識(shí)別方法,其特征在于, 所述識(shí)別步驟中,搜索區(qū)域?yàn)榫嚯x陣與距離陣的對(duì)角線向兩邊平移一定距離 后所形成的區(qū)域的重疊部分。
8. 根據(jù)權(quán)利要求7所述的非特定人孤立詞的識(shí)別方法,其特征在于,所 述識(shí)別步驟中,匹配路徑的起始點(diǎn)位于搜索區(qū)域的任意一條邊。
9. 根據(jù)權(quán)利要求3或4所述的非特定人孤立詞的識(shí)別方法,其特征在于, 所述識(shí)別步驟中,選擇幀長(zhǎng)在待測(cè)試語(yǔ)音幀的幀長(zhǎng)的一半和兩倍之間的中心 訓(xùn)練模型進(jìn)行識(shí)別處理。
10. 根據(jù)權(quán)利要求3或4所述的非特定人孤立詞的識(shí)別方法,其特征在 于,識(shí)別結(jié)果選擇步驟之后還包括識(shí)別結(jié)果處理步驟,根據(jù)最終識(shí)別結(jié)果執(zhí)行相應(yīng)處理程序。
11. 利用權(quán)利要求1獲取的中心訓(xùn)練模型的非特定人孤立詞識(shí)別系統(tǒng),包括實(shí)時(shí)語(yǔ)音接收模塊和語(yǔ)音特征值提取模塊,其特征在于,還包括識(shí)別模塊,用于結(jié)合非特定人孤立詞的中心訓(xùn)練模型和特征值數(shù)據(jù)進(jìn)行 識(shí)別處理,獲取非特定人孤立詞與中心訓(xùn)練模型的相似度,并將最小的相似 度對(duì)應(yīng)的中心訓(xùn)練模型作為最終識(shí)別結(jié)果輸出。
12. 根據(jù)權(quán)利要求ll所述的非特定人孤立詞的識(shí)別系統(tǒng),其特征在于, 所述識(shí)別模塊還用于將識(shí)別結(jié)果得分小于拒識(shí)閾值的語(yǔ)音數(shù)據(jù)識(shí)別為集外 詞。
13. 根據(jù)權(quán)利要求11或12所述的非特定人孤立詞的識(shí)別系統(tǒng),其特征 在于所述實(shí)時(shí)語(yǔ)音接收模塊用于將外界的聲音以單個(gè)詞的形式采集; 所述語(yǔ)音特征值提取模塊用于從采集到的原始聲音數(shù)據(jù)中獲取特征值數(shù)據(jù)。
全文摘要
本發(fā)明公開(kāi)了一種非特定人孤立詞的模型訓(xùn)練方法、識(shí)別系統(tǒng)及識(shí)別方法,其中,該非特定人孤立詞的模型訓(xùn)練方法包括使用動(dòng)態(tài)時(shí)間規(guī)整算法獲取非特定人孤立詞的多個(gè)訓(xùn)練模型的步驟,還包括中心訓(xùn)練模型獲取步驟,將非特定人孤立詞的多個(gè)訓(xùn)練模型合并為非特定人孤立詞的中心訓(xùn)練模型。本發(fā)明通過(guò)將一個(gè)非特定人孤立詞的多個(gè)訓(xùn)練模型合并到一個(gè)中心訓(xùn)練模型,降低了匹配操作時(shí)的計(jì)算量。同時(shí),本發(fā)明還在識(shí)別處理時(shí),將識(shí)別結(jié)果得分小于拒識(shí)閾值的直接識(shí)別為集外詞,有效地提高了對(duì)集外詞的拒識(shí)能力。另外,通過(guò)限定搜索區(qū)域范圍,放松匹配起點(diǎn),提高了系統(tǒng)的識(shí)別率,減小了計(jì)算量。
文檔編號(hào)G10L15/28GK101114449SQ20061010784
公開(kāi)日2008年1月30日 申請(qǐng)日期2006年7月26日 優(yōu)先權(quán)日2006年7月26日
發(fā)明者周金星 申請(qǐng)人:大連三曦智能科技有限公司