專利名稱:連續(xù)語音識別的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及連續(xù)語音識別并且具體地涉及用于將文法約束應(yīng)用在連續(xù)語音識別上的方法與裝置。本發(fā)明在任務(wù)約束的連續(xù)單詞識別領(lǐng)域內(nèi)特別受到關(guān)注,其中的任務(wù)可以是諸如識別一組帳號或產(chǎn)品碼中之一。
在語音識別處理中通常將數(shù)字形式的語音數(shù)據(jù)輸入到所謂的前端處理器中,該處理器從輸入語音數(shù)據(jù)流中導(dǎo)出稱作前端特征集或矢量的一組更緊致、感覺上有意義的數(shù)據(jù)組。例如,通常通過麥克風(fēng)輸入語音,抽樣、數(shù)字化、切分成長度為10-20ms的幀(諸如在8kHz上抽樣),以及為各幀計算一組系數(shù)。在語音識別中,通常假定發(fā)言者說出一組單詞或短語之一。稱作樣板或模型的單詞或短語的一種存儲的表示包括該字的一個對比特征矩陣,在發(fā)言者無關(guān)識別的情況中是事先從多名發(fā)言者提取的。將輸入的特征矢量與模型匹配,從中產(chǎn)生兩者之間的相似性的一個測度。
語音識別(無論人類或機(jī)器)是容易產(chǎn)生錯誤及可能得出單詞的誤識別的。如果不正確地識別了一個單詞或短語,語音識別器可提供另一次識別嘗試,它可以是正確的也可以是不正確的。
已經(jīng)提出過各種處理語音來選擇輸入語音與存儲的語音樣板或模型之間的最佳備選匹配的方法。在孤立單詞識別系統(tǒng)中,備選匹配的產(chǎn)生是相當(dāng)簡單明了的各單詞是在表示要識別的單詞的一個轉(zhuǎn)移網(wǎng)絡(luò)中的一條獨立“路徑”,這些獨立的單詞路徑只在網(wǎng)絡(luò)中的終點上連接。按照它們對存儲的樣板之類的相似性將離開網(wǎng)絡(luò)的所有路徑排序可以給出最佳及備選的匹配。
然而,在大多數(shù)連續(xù)識別系統(tǒng)及某些基于連續(xù)識別技術(shù)的孤立單詞識別系統(tǒng)中,并不總是可能在該網(wǎng)絡(luò)的終點上重新組合所有的路徑的,因此,從網(wǎng)絡(luò)的出口點上所能得到的信息中即不可能直接得出最佳的也不可能得出備選的匹配。在S.J.Young,N.H.Russell與J.H.S.Thornton)的“令牌傳遞連續(xù)語音識別系統(tǒng)的一種簡單概念模型”(劍橋大學(xué)工程系,1989)中討論了產(chǎn)生最佳匹配問題的一種解法,其中涉及到通過設(shè)計成表示期望的輸入語音的一個轉(zhuǎn)移網(wǎng)絡(luò)傳遞稱作令牌的信息包。通用術(shù)語“網(wǎng)絡(luò)”包括有向非循環(huán)圖(DAG)與樹。一個DAG是沒有環(huán)的一個網(wǎng)絡(luò),而一棵樹則是路徑的唯一交匯點在概念上直接出現(xiàn)在網(wǎng)絡(luò)的終點上的一個網(wǎng)絡(luò)。一個令牌包含有關(guān)通過的部分路徑以及表示輸入語音與直到此時為止處理過的網(wǎng)絡(luò)部分之間的相似程度的累計得分的信息。
如young等人所描述的,在每次將一幀語音輸入到一個轉(zhuǎn)移網(wǎng)絡(luò)時,便將存在于一個節(jié)點的輸入端上的任何令牌傳遞進(jìn)該節(jié)點并將當(dāng)前語音幀在與這些節(jié)點相關(guān)的單詞模型內(nèi)進(jìn)行匹配。在各節(jié)點的輸出端上,發(fā)出帶有更新后的部分路徑信息及得分的一個令牌(該令牌已“行進(jìn)”通過與該節(jié)點相關(guān)聯(lián)的模型)。如果提交給一個節(jié)點的有一個以上的令牌,只有最佳得分的令牌通過網(wǎng)絡(luò)向前傳播。當(dāng)已經(jīng)(由諸如暫停檢測器等外部設(shè)備)發(fā)信號通知語音結(jié)束時,將在最終節(jié)點上出現(xiàn)一個第一令牌。從該令牌中能夠通過利用包含在令牌內(nèi)的部分路徑信息沿路徑回溯而提取通過網(wǎng)絡(luò)的整個路徑,以提供對輸入語音的最佳匹配。
有可能構(gòu)造一個枚舉所有的單詞序列的一個網(wǎng)絡(luò),多半是以樹的形式。雖然這是相對簡單明了地構(gòu)成的,但隨著識別任務(wù)大小的增長而變得成問題了。例如,表示250,000個7位序列的一個樹網(wǎng)絡(luò)可能有一百萬個節(jié)點。如果每一個節(jié)點占用50個字節(jié)的存儲器,該網(wǎng)絡(luò)將占用50兆字節(jié)。雖然這一網(wǎng)絡(luò)的計算需要量能夠通過在任一時刻上只維持它的一小部分活躍而加以抑制,但存儲網(wǎng)絡(luò)的拓?fù)渌璧拇鎯α勘3植蛔?。另一種選擇是在需要時動態(tài)地建立網(wǎng)絡(luò),但這本身將強(qiáng)加可觀的計算負(fù)擔(dān)。
按照本發(fā)明提供了一種語音識別器,包括用于構(gòu)成所期望的輸入語音的模型的一個網(wǎng)絡(luò),該網(wǎng)絡(luò)具有多個用于處理輸入語音的詞匯節(jié)點,各詞匯節(jié)點至少與一個單詞表示模型相關(guān)聯(lián),該模型的操作為生成一個指示輸入語音與認(rèn)為識別了的語音之間的相似程度的第一參數(shù);用于比較來自不同單詞表示模型的第一參數(shù)的比較裝置,并且根據(jù)這一比較用于確定要通過網(wǎng)絡(luò)傳播的參數(shù);以及用于在網(wǎng)絡(luò)的一個輸出端上確定具有最高相似程度的參數(shù)及認(rèn)為識別了的輸入語音的裝置;其特征在于提供了用于將一個標(biāo)記分配給至少一個詞匯節(jié)點的裝置;在于提供了用于將各第一參數(shù)與一個表示通過該網(wǎng)絡(luò)的一條路徑的累積標(biāo)記的一個第二參數(shù)相關(guān)聯(lián)的裝置;以及在于提供了確認(rèn)裝置,用于確認(rèn)與一個第一參數(shù)相關(guān)聯(lián)的第二參數(shù)包含在第二參數(shù)的一個有效集合中,只在相關(guān)的第二參數(shù)為有效的第二參數(shù)集合中的一個時,第一參數(shù)才通過網(wǎng)絡(luò)傳播。
這一系統(tǒng)以一個非常小的網(wǎng)絡(luò)取代一個完全的樹網(wǎng)絡(luò)。如果考慮上面相對于先有技術(shù)所描述的同一實例,用于該網(wǎng)絡(luò)的存儲量需求可能少于2兆字節(jié),這是可觀的節(jié)省。
原則上這一技術(shù)可應(yīng)用于能夠利用樹型文法實現(xiàn)的任何識別。然而,第二參數(shù)的規(guī)模以及它能被檢驗的速度很可能形成實踐中的限制因素。
這里的名詞“單詞”表示一個基本識別單位,它可以是一個單詞,但同樣可以是一個雙音、音素、音素變體等。字表示模型可以是隱Markov模型(HMM)、樣板或者其它任何適用的單詞表示模型。模型內(nèi)的處理與本發(fā)明無關(guān)。識別是將一個未知的發(fā)音與一個預(yù)定義的轉(zhuǎn)移網(wǎng)絡(luò)的匹配過程,該網(wǎng)絡(luò)是設(shè)計成與一位用戶可能要說的一致的。
只傳播具有有效的相關(guān)第二參數(shù)的那些第一參數(shù)不能保證最佳的識別精度,這正是未修剪的樹網(wǎng)絡(luò)的情況。本發(fā)明應(yīng)用若干瓶頸來限制任何時刻活躍的路徑數(shù)目,使它與一個修剪得非常厲害的樹網(wǎng)絡(luò)相當(dāng),并且在有充分的可利用的處理能力的情況中, 網(wǎng)絡(luò)的存儲量需求的降低是以精度為代價得到的(從92%下降到89%%)。另一方面,當(dāng)可利用的處理能力有限時,則按照本發(fā)明的一個系統(tǒng)可提供降低了的存儲器需求及提高了的精度。
識別結(jié)果的精度可以通過將網(wǎng)絡(luò)擴(kuò)展成處理多條其它的路徑而得到改善。這最好是由網(wǎng)絡(luò)中具有一個以上相同的關(guān)聯(lián)的單詞模型的詞匯節(jié)點中至少一個做到的,如我們在1994年3月31日提交的名為“語音處理”(從歐洲專利申請?zhí)?3302538.9與93304993.4提出優(yōu)先權(quán)要求)的共同未決國際申請中所描述的,通過這一引用結(jié)合在此。這允許識別系統(tǒng)同時處理多條路徑,因此允許從各幀輸入語音中得出一個以上的識別結(jié)果。具有一個有效累積標(biāo)記的最高得分路徑可由一個節(jié)點上的第一模型處理,次高得分的由第二模型,以此類推直到用完并行的模型或進(jìn)入的路徑為止。
累積標(biāo)記可用來標(biāo)識完整的路徑,而得到額外的操作效率,這是由于無須往返移動令牌來確定路徑本體。在這一情況中,累積標(biāo)記必須大到足以唯一地標(biāo)識所有路徑。
為了使按照本發(fā)明的系統(tǒng)能高效地操作,路徑標(biāo)記的信號處理最好是在一次單一的操作中進(jìn)行的,借此提高處理速度。
本發(fā)明的其它方面與較佳實施例如這里所公開與要求的,其優(yōu)點在此后將是顯而易見的。
下面參照附圖只以示例的方式進(jìn)一步描述本發(fā)明,附圖中
圖1示意性地示出按照本發(fā)明的識別系統(tǒng)在遠(yuǎn)程通信環(huán)境中的應(yīng)用;圖2為示意性地展示按照本發(fā)明的一個實施例的識別處理器的功能元件的方框圖;圖3為示意性地表示構(gòu)成圖2的一部分的分選器的部件的方框圖;圖4為示意性地展示構(gòu)成圖2的實施例的一部分的序列句法分析器的結(jié)構(gòu)的方框圖5示意性地示出構(gòu)成圖5的一部分的存儲器內(nèi)的一個字段的內(nèi)含;圖6為可應(yīng)用于圖4的序列句法分析器的處理器的一個識別網(wǎng)絡(luò)的一個實施例的示意圖;圖7為可應(yīng)用于圖4的序列句法分析器的處理器的一個識別網(wǎng)絡(luò)的第二實施例的示意圖;圖8為展示按照本發(fā)明的語音識別系統(tǒng)與一個先有系統(tǒng)比較的相對性能曲線。
參見圖1,包含語音識別的一個遠(yuǎn)程通信系統(tǒng)通常包括一個麥克風(fēng)1,通常構(gòu)成電話手機(jī)的一個部分;一個遠(yuǎn)程通信網(wǎng)絡(luò)(通常為一個公共遠(yuǎn)程通信交換網(wǎng)(PSTN)2;一個識別處理器3,連接成接收來自網(wǎng)絡(luò)2的一個話音信號;以及一個應(yīng)用裝置4,連接在識別處理器3上并配置成從其中接收一個話音識別信號,該信號指示識別了一個特定的單詞或短語與否,以及根據(jù)它來采取行動。例如,該應(yīng)用裝置4可以是一個用于進(jìn)行銀行事務(wù)的遠(yuǎn)程操作的銀行業(yè)務(wù)終端。
在許多情況中,應(yīng)用裝置4將對發(fā)言者生成一個聲音應(yīng)答,并通過網(wǎng)絡(luò)2傳輸?shù)酵ǔ?gòu)成用戶手機(jī)的一個部分的揚(yáng)聲器5。
操作中,一位發(fā)言者向麥克風(fēng)1講話,而一個模擬語音信號則從麥克風(fēng)1傳輸進(jìn)網(wǎng)絡(luò)2到達(dá)識別處理器3,在那里對語音信號進(jìn)行分析,及生成一個指示是否識別了一個特定的單詞或短語的信號并將其傳輸?shù)綉?yīng)用裝置4,然后在識別了該語音的情況中后者采取適當(dāng)?shù)男袆印?br>
通常,識別處理器3需要獲得有關(guān)與之對比來驗證語音信號的語音數(shù)據(jù),而這一數(shù)據(jù)采集可由識別處理器在第二操作模式中執(zhí)行,在該模式中,識別處理器3不連接地應(yīng)用裝置4上,但是從麥克風(fēng)1接收一個語音信號來構(gòu)成該單詞或短語的識別數(shù)據(jù)。然而,其它獲得語音識別數(shù)據(jù)的方法也是可能的。
通常,識別處理器3并不知道來自麥克風(fēng)1的信號去往與通過網(wǎng)絡(luò)2所取的路由;可以使用各式各樣類型與質(zhì)量的接收機(jī)手機(jī)中的任何一種。同樣,在網(wǎng)絡(luò)2內(nèi)部,可以采用各式各樣傳輸路徑中的任何一種,包括無線電鏈路、模擬與數(shù)字路徑等。相應(yīng)地,到達(dá)識別處理器3的語音信號Y對應(yīng)于在麥克風(fēng)1上接收的語音信號S,其中卷繞有麥克風(fēng)1,對網(wǎng)絡(luò)2的鏈路、通過網(wǎng)絡(luò)2的信道、以及到識別處理器3的鏈路的傳遞特性,可將它們集中并由一個單一的傳遞特征H來指定。
參見圖2,識別處理器3包括一個輸入端31用于接收數(shù)字形式的語音(來自一個數(shù)字網(wǎng)絡(luò)或來自一個模數(shù)轉(zhuǎn)換器);一個幀處理器32,用于將接連的數(shù)字樣本劃分成連接的鄰接樣本的幀;一個特征提取器33,用于從一幀樣本中生成一個對應(yīng)的特征矢量;一個分選器34,接收接連的特征矢量并以多個模型狀態(tài)在各個矢量上操作,以生成識別結(jié)果;一個結(jié)束指示器36,用于通過檢測語音的結(jié)束或者經(jīng)過一段稱作“暫?!钡某聊蟠_定語音結(jié)束;一個定序器35,配置成接收來自分選器34的分選結(jié)果及確定與分選器的輸出序列對其表示最大相似性的預(yù)定的發(fā)音;以及一個輸出端口38,在其上提供指示識別的語音發(fā)音的一個識別信號。幀生成器32幀生成器32配置成以諸如每秒8,000個樣本的速率接收語音樣本,并以每16ms一幀的幀速率構(gòu)成包含256個鄰接樣本的幀。最好,各幀是采用諸如Hamming窗口開成窗口的(即幀邊沿附近的樣本是乘以一個預(yù)定的加權(quán)常數(shù)的)以減少由幀邊沿生成的虛假人工產(chǎn)物。在一個較佳實施例中,幀是重疊的(諸如重疊50%)以便改善窗口的效果。特征提取器33特征提取器33接收來自幀生成器32的幀并在各種情況中生成一組特征矢量。特征中可包括諸如逆譜系數(shù)(例如,chollet與Gagnoulet“關(guān)于采用對比系統(tǒng)的語音識別及數(shù)據(jù)庫的評價”(1982IEEE學(xué)報2026頁)中所描述的LPC逆譜系統(tǒng)或嘜耳頻率逆譜系數(shù)),或者這些系數(shù)的差分值,其中對于每一個系數(shù)包括該系數(shù)與前面的矢量中的對應(yīng)系數(shù)值之間的差,如在soong與Rosenberg的“關(guān)于在發(fā)言者識別采用瞬時與過渡頻譜信息”,1988年IEEE聲學(xué)學(xué)報,語音與信號處理卷36,第6,871頁,中所描述的。同樣,也可采用若干種特征數(shù)的混合。
最后,特征提取器33輸出一個幀號,每一個后續(xù)的幀的號增加1。
幀生成器32與特征提取器33在這一實施例中是由一個單一的適當(dāng)?shù)鼐幊痰臄?shù)字信號處理器(DSP)設(shè)備(諸如摩托羅拉DSP56000或德克薩斯儀器公司TMS C320)或類似的設(shè)備提供。分選器34參見圖3,在本實施例中,分選器34包括一個分選處理器341及下一個狀態(tài)存儲器342。
狀態(tài)存儲器342包括狀態(tài)字段3421,3422…,用于多種語音狀態(tài)中的每一種。例如,識別處理器要識別的各音素變體包括三種狀態(tài),從而在狀態(tài)存儲器342中為各音素變體提供了三個狀態(tài)字段。
分選處理器34配置成輪流讀取存儲器342內(nèi)的各狀態(tài)字段,并使用當(dāng)前輸入特征系數(shù)組為各狀態(tài)字段計算輸入特征集或矢量與對應(yīng)的狀態(tài)相對應(yīng)概率。
相應(yīng)地分選處理器的輸出為多個狀態(tài)概率P,一種概率對應(yīng)狀態(tài)存儲器342中的每一種狀態(tài),指明輸入特征矢量與各種狀態(tài)相對應(yīng)的似然性。
分選處理器341可以是一個適當(dāng)?shù)鼐幊痰臄?shù)字信號處理(DSP)設(shè)備,尤其可能是與特征提取器33相同的數(shù)字信號處理設(shè)備。定序器35參見圖4,本實施例中的定序器35包括一個狀態(tài)序列存儲器352、一個句法分析處理器351及一個定序器輸出緩沖器354。
還設(shè)置了一個狀態(tài)概率存儲器353,用于為各經(jīng)過處理的幀存儲分選處理器341輸出的狀態(tài)概率,狀態(tài)序列存儲器352包括多個狀態(tài)序列字段3521,3522,…,各對應(yīng)于由一個音素體構(gòu)成的要識別的單詞或短語序列。
狀態(tài)序列存儲器352中的各狀態(tài)序列包括如圖5中所示的若干狀態(tài)P1,P2,...PN(其中N為3的倍數(shù)),以及對每種狀態(tài)的兩種概率一個重復(fù)概率(Pi1)及到下一種狀態(tài)的一個過渡概率(Pi2)。序列中的狀態(tài)為三種各與一個單一的音素體相關(guān)的狀態(tài)的多個組。因此,觀測到的與一系列幀相關(guān)聯(lián)的狀態(tài)序列可包括各種狀態(tài)序列模型3521等中的各狀態(tài)Pi的若干次重復(fù),例如幀號1 2 3 4 5 6 7 8 9...ZZ+1狀態(tài)P1 P1 P1 P2 P2 P2 P2 P2 P2...Pn Pn句法分析處理器351配置成在各幀上讀取分選處理器341輸出的狀態(tài)概率,及前面存儲在狀態(tài)概率存儲器353中的狀態(tài)概率,并計算時間上到為止的最可能的狀態(tài)路徑,以及將其與存儲在狀態(tài)序列存儲器352中的各狀態(tài)序列進(jìn)行比較。
計算采用以上引用的Cox論文中所討論的著名的隱Markov模型法(HMM)。句法分析處理器351執(zhí)行的HMM處理方便地利用著名的Viterbi算法。句法分析處理器351可以是諸如Interi-486(商標(biāo))微處理器或Motorola(商標(biāo))68000微處理器之類的微處理器,也可以是一個DSP設(shè)備(例如,與用作前面任何一個處理器相同的DSP設(shè)備)。
相應(yīng)地對于各狀態(tài)序列(對應(yīng)于要識別的一個單詞、短語或其它語音序列),句法分析處理器351在各輸入語音幀上輸出一個概率得分。例如狀態(tài)序到可包括電話簿中的姓名。當(dāng)檢測到發(fā)音結(jié)束時,從句法分析處理器351向輸出端口38輸出一個表示最可能的狀態(tài)序列的標(biāo)簽信號a來指示已識別出的對應(yīng)姓名、單詞或短語。
句法分析處理器351包括一個專門配置用來識別諸如數(shù)字串等特定短語或單詞的網(wǎng)絡(luò)。
圖6表示配置成識別三位數(shù)字串的句法分析處理器351的網(wǎng)絡(luò)的一個實施例?;疑?jié)點3510為網(wǎng)絡(luò)中的空節(jié)點;白色節(jié)點為活躍的節(jié)點,它們可分成帶有用環(huán)3515表示的用于匹配進(jìn)入的語音的相關(guān)單詞表示模型的詞匯節(jié)點3511、表示隨機(jī)噪聲的噪聲節(jié)點3517以及判定節(jié)點3512。一個判定節(jié)點3512在這里定義為網(wǎng)絡(luò)中具有來自前面的詞匯節(jié)點的一條以上的進(jìn)入路徑的節(jié)點。
分配給各詞匯節(jié)點3511一個標(biāo)記,例如分配給表示數(shù)字1的節(jié)點3511’一個標(biāo)記“1”,分配給表示數(shù)字2的節(jié)點3511”一個標(biāo)記“2”,等等。各判定節(jié)點3512具有一個相關(guān)的有效標(biāo)記組。當(dāng)令牌通過模型時,將與各令牌相關(guān)的累積標(biāo)記修正成反映通過網(wǎng)絡(luò)延伸的路徑。一個標(biāo)記累積函數(shù)可采取許多形式,但受到這樣的約束,即對于被認(rèn)為在識別的輸出方面不同的徑路,它必須提供唯一的累積標(biāo)記。下面給出一個示例性標(biāo)記累積函數(shù)Sout=Sin×M+mSo=O其中Sout=通過節(jié)點后的累積標(biāo)記Sin=輸入該節(jié)點的累積標(biāo)記So=來自起始節(jié)點的初始累積標(biāo)記M=不同的詞匯模型的數(shù)目(例如對于數(shù)字0-9為10)m=當(dāng)前詞匯節(jié)點的標(biāo)記按照這一標(biāo)記累積函數(shù),對于多達(dá)九個單詞的一個序列,出現(xiàn)在配置成識別多達(dá)九個單詞的一個網(wǎng)絡(luò)的輸出節(jié)點上的一個累積標(biāo)記的范圍因而可以從000000000至999999999。從而累積標(biāo)記最多需要32位。
確認(rèn)標(biāo)記的附加成本是非常低的。對于七位數(shù)字的序列而言,使用大約100,000個標(biāo)記的表上的二分搜索只增加2%的整體處理需求量。
在句法分析開始時,將一個單一的空令牌傳遞給一個網(wǎng)絡(luò)入口節(jié)點3513。由于這是一個空節(jié)點,令牌便進(jìn)入下一個節(jié)點,噪聲節(jié)點3517。輸入幀在這一節(jié)點的噪聲模型(未示出)中進(jìn)行匹配并在輸出端上生成一個更新的令牌。然后將這一令牌傳遞到下一個活躍節(jié)點,即各有一個用環(huán)3515指示的相關(guān)單詞模型的第一組詞匯節(jié)點3516a。第一組詞匯節(jié)點3516a的各詞匯節(jié)點3511在其相關(guān)的單詞模型3515中處理該幀語音并生成一個更新的令牌。在各時間幀的結(jié)束處,將更新的令牌提交給第一判定節(jié)點3512’。該網(wǎng)絡(luò)的判定節(jié)點是與一組有效標(biāo)記相關(guān)聯(lián)的,并且只在提交具有這些標(biāo)記之一的一個標(biāo)記時,才由這樣一“約束”節(jié)點傳播一條路徑。
例如,假設(shè)圖6的網(wǎng)絡(luò)限制在只識別下述四個數(shù)目111、112、121、211。為了做到這一點,檢驗進(jìn)入諸如第一判定節(jié)點3512’這樣的一個約束節(jié)點的令牌的標(biāo)記。如果一個令牌的標(biāo)記為1或2,便將這一最高得分令牌傳播到下一個節(jié)點上。否則,丟棄該令牌并且路徑不再延伸。下一個約束節(jié)點便是第二組詞匯節(jié)點3516b后面的判定節(jié)點3512”。這一空節(jié)點受到約束只傳播具有標(biāo)記11、12或21的標(biāo)記的令牌。第三組詞匯節(jié)點3516c之后的判定節(jié)點3512”受到約束只傳播具有標(biāo)記111、112、121或211的令牌。這種配置顯著地減少了必要的處理,并且能夠節(jié)省裝置的存儲器容量。在實踐中,對于高達(dá)9位數(shù)字的序列,32位標(biāo)記已證明是合適的。對于12個字符的字母數(shù)字串,64位的標(biāo)記表現(xiàn)為合適的。
應(yīng)當(dāng)明白,令牌的標(biāo)記經(jīng)過空節(jié)點3510或噪聲節(jié)點3517處理之后并不更新,因為并沒有分配標(biāo)記給這些節(jié)點。
令牌沿通過其余活躍節(jié)點的路徑傳播,而在一個輸出節(jié)點3514上生成一個表示通過網(wǎng)絡(luò)所取的路徑的得分與累積標(biāo)記的令牌,諸如121。這一令牌受到不斷的更新直到一個結(jié)束指示器36確定了語音的結(jié)束。此時,檢驗輸出節(jié)點3514上的令牌的部分路徑信息或累積的標(biāo)記來確定識別結(jié)果。圖7示出按照本發(fā)明的第二實施例的一個語音識別器的網(wǎng)絡(luò)。在一個第一判定節(jié)點3512’之后并包括它在內(nèi)的所有活躍的節(jié)點3511、3517與3512中的每一個都能處理一個以上的令牌(即第二與第三組詞匯節(jié)點3516b、3616c中的各個詞匯節(jié)點3511都與一個以上的相同單詞表示模型3515相關(guān)聯(lián),且各噪聲節(jié)點都與一個以上相同的噪聲模型相關(guān)聯(lián))。判定節(jié)點3512以參照圖6描述的相同的方式受到約束。詞匯節(jié)點3511的第一組3516a所生成的四個令牌提交給第一判定節(jié)點3512’,這一節(jié)點的有效標(biāo)記組為1與2。具有有效標(biāo)記的所有令牌向前傳播到第二組詞匯節(jié)點3516b上。從而來自數(shù)字1的詞匯節(jié)點3511’及數(shù)字2的詞匯節(jié)點3511”的令牌傳播到第二組詞匯節(jié)點3516b上。第二組詞匯節(jié)點3516b的各詞匯節(jié)點3511與兩個由環(huán)3515表示的相同的單詞表示模型相關(guān)聯(lián);從而表示數(shù)字1的節(jié)點3511與兩個表示數(shù)字1的相同單詞模型3515相關(guān)聯(lián),節(jié)點3511”則與表示數(shù)字2的兩個模型3515相關(guān)聯(lián),以此類推。從第一判定節(jié)點3512’傳播兩個令牌因此能被第二組3516b的各詞匯節(jié)點3511所處理。從而可將8(4×2)個令牌提交給第二判定節(jié)點3512”,它具有12、11與21的一個有效標(biāo)記表。對來自第二組3516b的令牌的累積標(biāo)記加以檢驗并將具有有效標(biāo)記的令牌傳播到第三組詞匯節(jié)點3516c上供處理。
第三組3516c詞匯節(jié)點的各詞匯節(jié)點3511與三個相同的單詞表示模型3515相關(guān)聯(lián)。因此最多可將十二(4×3)個令牌提交給第三判定節(jié)點3512,它具有111、112、121及211的一個有效標(biāo)記表。從而,具有這些有效標(biāo)記的四個令牌可出現(xiàn)在網(wǎng)絡(luò)的輸出節(jié)點3514上,因此可以標(biāo)識該裝置的四條有效路徑,并從而認(rèn)為確定識別了四種可能的語音。比較各令牌的得分,而最高得分的令牌表示最似然的輸入語音。
在本發(fā)明的一個較佳實施例中,將具有有效標(biāo)記的令牌進(jìn)行排序以保留n條得最高分的路徑,如我們的共同未決歐洲申請93303538.9中所描述的。維護(hù)一張以得分排序的表,其中也可加上標(biāo)記是唯一的這一約束,從而只為每一個有效的標(biāo)記保留一個令牌。如果出現(xiàn)了帶有相同標(biāo)記的一個第二令牌,則保留兩者中較好的一個。例如,假設(shè)在處理中提交給了輸出節(jié)點3514下列三個令牌分?jǐn)?shù)標(biāo)記A 10 112B 9 112C 7 121路徑A,最高得分路徑,便是最佳匹配。然而,雖然路徑B具有次最高分,但由于其標(biāo)記,并因而其認(rèn)為已識別的語音,與路徑A相同,而拒絕將其作為備選的分析。因此,路徑C則作為次最佳分析而保留。
應(yīng)能理解,圖2與3中所示的網(wǎng)絡(luò)是極為簡單的,允許識別三位數(shù)字的串,可識別的數(shù)字為1、2、3、4。一個工作語音識別器很可能具有更大的識別能力與/或要識別的序列可能更長。在這些情況中,與各相關(guān)詞匯節(jié)點相關(guān)聯(lián)的相同的單詞表示模型的數(shù)目不能用有效累積標(biāo)記的表來確定,但是選定為一個固定的數(shù)目。
已用各來自獨立的發(fā)言者的479個7位數(shù)字序列構(gòu)成的數(shù)據(jù)測試過按照本發(fā)明的一個語音識別系統(tǒng)。這些序列是從英國各區(qū)的一千位以上的發(fā)言者收集的,他們用送話器送入并被要求在其它項目中以“自然的”方式讀取一個序數(shù)。這些序數(shù)具有各種長度并且是隨機(jī)生成的。選擇了由7位數(shù)字序列構(gòu)成的一個子集供這一實驗使用。聽取這些數(shù)據(jù)后確信對于大多數(shù)發(fā)言者而言,數(shù)字之間具有高度的連接發(fā)音并顯示25%的發(fā)音包括單詞“double(雙)”。除了數(shù)字“1”至“9”,提供了三種零的說法,即“zero”、“nought”與“oh”。
作為測試基于標(biāo)記的技術(shù)的一種對比基準(zhǔn),建立了一個300,000個節(jié)點以上的樹形網(wǎng)絡(luò)來施加所需要的文法約束。在一種未修剪的形式中,這一網(wǎng)絡(luò)給出最佳的頂上的n個精確度數(shù)字。但是可將一個樹形網(wǎng)絡(luò)修剪到一定程度而不明顯地影響識別結(jié)果的精確性,如可以從圖8的線90的右邊看到的。一棵樹是通過考慮一條預(yù)期的路徑的有效概率而修剪的。如果預(yù)期的路徑的概率是低的,便剪掉這一路徑。例如,如果一個網(wǎng)絡(luò)配置成識別單詞“CAT”與“DOG”,并且到此為止的識別過程已確定了輸入的語音具有與表“ca”的網(wǎng)絡(luò)部分比表示“do”的部分更高的相似程度,則可將關(guān)于單詞DOG的終點的剩余部分的樹修剪掉。如可以從圖8中看出的,修剪量將會在某一點上嚴(yán)重地影響識別結(jié)果的精確性。
為了與按照本發(fā)明的一個系統(tǒng)進(jìn)行比較,通過在圖8中所示的精度對計算的曲線的拐點的頂部選擇一個操作點92而選定一個固定的修剪閾值,使得不明顯地降低精確度。
這一網(wǎng)絡(luò)的存儲量需求是可觀的。如果只將網(wǎng)絡(luò)的拓?fù)涑qv在內(nèi),即使一個最小的實施也將占用8Mb左右(平均大約一個節(jié)點3512字節(jié)),還除用于模型本身或用于運(yùn)行它們所需的暫存空間之外。
對類似于圖7中所示的但帶有七組詞匯節(jié)點3511的一個7層網(wǎng)絡(luò)進(jìn)行了測試,每一層允許單詞“one”至“nine”、“zero”、“nought”、“oh”及“double”中的任何一個,各層之間帶有隨機(jī)的噪聲。用于處理備選的路徑的層數(shù)是變化的。
有效標(biāo)記是從允許的序數(shù)表產(chǎn)生的,生成了152279個標(biāo)識用于完整的與部分的序列。利用一個32位字來存儲各標(biāo)記得出標(biāo)記表占用0.6Mb。
在網(wǎng)絡(luò)中處理標(biāo)記時,在進(jìn)入單詞表示模型時(而不是在判定點3512上)添加與檢驗標(biāo)記,由于這樣可以避免處理否則將在下一個判定點上已被丟棄的路徑。
圖8示出用于不同數(shù)目的備選路徑處理層的識別精度對計算負(fù)荷的曲線圖。采用帶有選定的修剪閾值92的樹形網(wǎng)絡(luò)作為計算負(fù)荷的基準(zhǔn),所以其它的測試都與該水平相關(guān)。按照本發(fā)明的系統(tǒng)上導(dǎo)出的結(jié)果都是采用設(shè)定在與基準(zhǔn)系統(tǒng)同一水平上的修剪的網(wǎng)絡(luò)獲得的。
從結(jié)果中清楚地看出標(biāo)記檢驗技術(shù)的亞最佳性質(zhì)便是確定從這一技術(shù)中可得到的最大精度的限制因素。無限制地增加備選令牌處理的層數(shù)并不一定能越過本技術(shù)與采用全樹形網(wǎng)絡(luò)的精度之間的間隔。基本問題在于在一個樹形網(wǎng)絡(luò)中永遠(yuǎn)不會相遇的部分路徑實際上在本發(fā)明的網(wǎng)絡(luò)中是匯合的并且必須互相競爭才能生成。結(jié)果是在樹形網(wǎng)絡(luò)中可能完成的部分路徑在它們得到完成的機(jī)會之前便在本發(fā)明的網(wǎng)絡(luò)中被消滅了。
在具有充分的可利用的處理能力的情況中,可以犧牲精度(從92%下降至89%)來達(dá)到減少存儲量需求。反之,當(dāng)可利用的處理能力有限時,則按照本發(fā)明的系統(tǒng)既可減少存儲量需求又可提高精度。
在上述實施例中,已描述了適用于耦合到遠(yuǎn)程通信交換機(jī)上的語音識別裝置。然而在另一實施例中,本發(fā)明可以實現(xiàn)為連接在電話網(wǎng)上的一個傳統(tǒng)用戶站(移動或固定)的簡單裝置;在這一情況中,可設(shè)置模數(shù)轉(zhuǎn)換裝置來數(shù)字化進(jìn)入的模擬電話信號。
在所有情況中,圖解要識別的語音的各網(wǎng)絡(luò)需要加以分析來確定哪些節(jié)點要分配標(biāo)記。此外,網(wǎng)絡(luò)是配置成與用戶可能要說的話相一致的。
語音結(jié)束檢測及與本發(fā)明有關(guān)的語音識別的其它各方面更全面地提出在本申請人1994年3月25日提交的名為“語音識別”的國際專利申請(從歐洲專利申請93302541.3提出優(yōu)先權(quán)要求),該申請以這一引用結(jié)合在此。
權(quán)利要求
1.一種用于識別連續(xù)語音的令牌傳遞語音識別系統(tǒng),該識別系統(tǒng)具有多個詞匯節(jié)點,至少一個詞匯節(jié)點具有一個相關(guān)聯(lián)的標(biāo)記,其中,在使用中,在介于識別路徑的起點與終點之間的判定節(jié)點上檢驗部分識別路徑,各判定節(jié)點具有一組相關(guān)聯(lián)的有效累積標(biāo)記,其中一個判定節(jié)點所接收的一個令牌只有在該令牌的累積標(biāo)記為與該判定節(jié)點相關(guān)聯(lián)的有效累積標(biāo)記組中的累積標(biāo)記之一時才得以傳播。
2.按照權(quán)利要求1的一種語音識別系統(tǒng),還包括比較裝置,用于比較各令牌的得分與標(biāo)記,以確定對輸入語音信號具有最佳匹配及次最佳備選匹配的通過網(wǎng)絡(luò)的路徑。
3.按照權(quán)利要求2的一種語音識別系統(tǒng),其特征在于令牌的得分是在網(wǎng)絡(luò)的各判定節(jié)點上進(jìn)行比較的,只有具有有效標(biāo)記的n個最高得分令牌才傳播到下面的節(jié)點,其中n大于1。
4.按照權(quán)利要求1、2或3中任何一項的一種語音識別系統(tǒng),其特征在于詞匯節(jié)點是與隱Markov模型與/或動態(tài)時間卷繞相關(guān)聯(lián)的。
5.按照前面任何一項權(quán)利要求的一種語音識別系統(tǒng),其特征在于網(wǎng)絡(luò)中至少一個詞匯節(jié)點是與一個以上的相同的單詞表示模型相關(guān)聯(lián)的。
6.按照權(quán)利要求5的一種語音識別系統(tǒng),其特征在于最佳得分路徑是由一個詞匯節(jié)點的第一單詞表示模型處理的,次最佳則由第二模型處理,并以此類推,直到用完并行模型或進(jìn)入的路徑為止。
7.按照前面任何一項權(quán)利要求的一種語音識別系統(tǒng),其特征在于認(rèn)為識別出的連續(xù)語音是通過在網(wǎng)絡(luò)中回溯令牌的指針而確定的。
8.按照權(quán)利要求1至6中任何一項的一種語音識別系統(tǒng),其特征在于比較標(biāo)記來確定與輸入語音信號具有最佳匹配的路徑及具有次最佳備選匹配的路徑。
9.一種語音識別系統(tǒng),包括一個用于構(gòu)成期望的輸入語音的模型的網(wǎng)絡(luò),該網(wǎng)絡(luò)具有多個用于處理輸入語音的詞匯節(jié)點3511,各詞匯節(jié)點與至少一個單詞表示模型相關(guān)聯(lián),該模型可進(jìn)行操作來生成一個指示輸入語音與認(rèn)為識別了的語音之間的相似程度的第一參數(shù);比較裝置,用于比較來自不同單詞表示模型的第一參數(shù),并且根據(jù)這一比較確定要通過網(wǎng)絡(luò)傳播的參數(shù);以及用于在網(wǎng)絡(luò)的一個輸出端上確定具有最高相似程度的參數(shù)及認(rèn)為識別了的輸入語音的裝置;其特征在于設(shè)置了用于將一個標(biāo)記分配給至少一個詞匯節(jié)點3511的裝置;在于設(shè)置了用于將一個表示通過網(wǎng)絡(luò)的一條路徑的累積標(biāo)記的第二參數(shù)與各第一參數(shù)相關(guān)聯(lián)的裝置;以及在于設(shè)置了確認(rèn)裝置,用于確認(rèn)與一個第一參數(shù)關(guān)聯(lián)的第二參數(shù)包含在第二參數(shù)的一個有效組中,只有當(dāng)相關(guān)的第二參數(shù)是一組有效的第二參數(shù)中之一時,這些第一參數(shù)才通過網(wǎng)絡(luò)傳播。
10.按照權(quán)利要求9的一種語音識別系統(tǒng),其中該第二參數(shù)確認(rèn)裝置可從在輸入語音經(jīng)過一個詞匯節(jié)點的單詞表示模型處理之后進(jìn)行操作來確認(rèn)第二參數(shù)。
11.按照權(quán)利要求9或10的一種語音識別系統(tǒng),其中該認(rèn)為識別了的語音是從在指示最高的相似程度的輸出端上可得到的第一參數(shù)相關(guān)聯(lián)的第二參數(shù)確定的。
12.按照權(quán)利要求9、10或11的一種語音識別系統(tǒng),其中至少一個詞匯節(jié)點3511是與一個以上相同的單詞表示模型相關(guān)聯(lián)的。
13.按照權(quán)利要求12的一種語音識別系統(tǒng),其中該比較裝置最多傳播n個具有最高相似程度的第一參數(shù),n為一個大于1的整數(shù)。
14.前面任何一項權(quán)利要求中所提出的一種語音識別系統(tǒng),適用于識別連續(xù)數(shù)字串。
15.前面任何一項權(quán)利要求中所提出的一種語音識別系統(tǒng),包括一片適當(dāng)?shù)鼐幊痰臄?shù)字信號處理芯片。
16.前面任何一項權(quán)利要求中所提出的一種語音識別系統(tǒng),可操作地與一個遠(yuǎn)程通信網(wǎng)絡(luò)相連。
17.一種識別連續(xù)輸入語音的方法,包括生成一個用于構(gòu)成期望的輸入語音的模型的網(wǎng)絡(luò),該網(wǎng)絡(luò)具有多個詞匯節(jié)點,各詞匯節(jié)點至少與一個單詞表示模型相關(guān)聯(lián),該模型能生成一個指示輸入語音與認(rèn)為已識別了的語音之間的相似程度的一個第一參數(shù);比較來自不同的單詞表示模型的第一參數(shù),并且根據(jù)這一比較確定哪些參數(shù)要通過網(wǎng)絡(luò)傳播;以及在網(wǎng)絡(luò)的一個輸出端上確定具有最高相似程度的參數(shù)及認(rèn)為識別了的輸入語音;其特征在于分配一個標(biāo)記給至少一個詞匯節(jié)點;以及在于將表示通過網(wǎng)絡(luò)的一條路徑的累積標(biāo)記的第二參數(shù)與第一參數(shù)相關(guān)聯(lián),只在相關(guān)聯(lián)的第二參數(shù)是一組有效的第二參數(shù)中之一時,第一參數(shù)才通過網(wǎng)絡(luò)傳播。
18.按照權(quán)利要求17的一種方法,其中該第二參數(shù)在經(jīng)過與各詞匯節(jié)點相關(guān)聯(lián)的一個單詞表示模型處理之后受到確認(rèn)有效。
19.按照權(quán)利要求17或18的一種方法,其中最多n個具有最高相似程度的第一參數(shù)從網(wǎng)絡(luò)的一個公共點傳播,n為一個大于1的整數(shù)。
20.按照權(quán)利要求17、18或19的一種方法,其中與輸出端上得到的具有最高相似程度的一個第一參數(shù)相關(guān)聯(lián)的第二參數(shù)表示認(rèn)為識別了的輸入語音。
21.按照權(quán)利要求17至20中任何一項的一種方法,其中在輸出端上得到一個以上的第一參數(shù)時,則比較輸出端上得到的第一參數(shù)及相關(guān)聯(lián)的第二參數(shù),并保留具有最高相似程度與不同的相關(guān)聯(lián)的第二參數(shù)的那些第一參數(shù)。
22.基本上在此參照附圖中的圖3至圖8所描述的一種語音識別系統(tǒng)。
23.基本上在此參照附圖中圖3至8所描述的一種識別輸入語音的方法。
全文摘要
一種用于識別連續(xù)語音的語音識別系統(tǒng),具有多個詞匯節(jié)點(3511),至少其中之一具有一個關(guān)聯(lián)的標(biāo)記。在使用中,在介于識別路徑的起點與終點之間的判定節(jié)點(3512)上檢驗部分識別路徑,各判定節(jié)點具有一組關(guān)聯(lián)的有效累積標(biāo)記。只有在一個令牌的累積標(biāo)記是與該判定節(jié)點相關(guān)聯(lián)的有效累積標(biāo)記組中的標(biāo)記之一時,該判定節(jié)點所接收的令牌才被傳播。
文檔編號G10L15/08GK1120371SQ9419165
公開日1996年4月10日 申請日期1994年3月31日 優(yōu)先權(quán)日1993年3月31日
發(fā)明者塞繆爾·加文·史密斯, 西蒙·帕特里克·亞歷山大·林蘭 申請人:英國電訊有限公司