專利名稱:基于新字建模的語音識別方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于語音識別的新字表示方法,它基于子字單元模型的儲存目錄,該方法包含步驟表示大量預(yù)期與新字相對應(yīng)的發(fā)音,利用特征向量序列表示發(fā)音,并根據(jù)發(fā)音建立字模型。
在本發(fā)明范圍內(nèi),“字”應(yīng)當解釋為長度或多或少受到限制的任何語言實體,它可以包括簡單句、人名及其它名稱、和其它條目,以語音形式表示的這些字應(yīng)當保證機器能夠識別。特別是,本發(fā)明論述了尋找充當子字單元序列的未知字聲音表示的問題,該表示在下文中稱之為“改編”。這種改編可以通過提供少量的未知字發(fā)音樣本及與發(fā)音者無關(guān)的子字單元模型目錄來實現(xiàn)。
如果使用者想利用僅有的幾個新字發(fā)音,通過對系統(tǒng)進行訓(xùn)練而向與發(fā)音者無關(guān)的識別系統(tǒng)添加一個或多個附加字,那么就會產(chǎn)生問題。如果使用特定類型系統(tǒng)的預(yù)計發(fā)音者數(shù)目相對地較大并且/或者系統(tǒng)相對地廉價,那么與發(fā)音者無關(guān)的識別是可以使用的。一個典型例子是語音控制電話機,它通??梢宰R別十個數(shù)字和少量的標準術(shù)語,此外,使用者還可以對它進行訓(xùn)練,使它能夠識別名字或者其它與經(jīng)常被呼叫的電話分機有關(guān)的標號。
在另一個可能只有有限可識別標準字組的例子中,例如二十個字,與發(fā)音者無關(guān)的語音識別系統(tǒng)也是可以使用的。這種系統(tǒng)應(yīng)當由許多不同的發(fā)音者進行訓(xùn)練?,F(xiàn)在,系統(tǒng)可以擴展一些額外的字,它們只適用于非常有限的幾個發(fā)音訓(xùn)練者,例如不超過三個,但是,要求它們的識別穩(wěn)定性與原始字組相同。
另一個例子是字母-語音的變換,其中由鍵盤輸入的新字被改編成聲音模型。為了提高可靠性,鍵盤輸入的同時還補充了同一個字的聲音輸入。這種并行表示再次提高了穩(wěn)定性,在特定的范圍內(nèi),它還可以解決可靠性的問題,該問題是由表聲法誤差產(chǎn)生的,或者是由于單個書寫字具有兩個分別表示不同含義的正確發(fā)音而產(chǎn)生的。
特別是,要求所需的最小訓(xùn)練發(fā)音數(shù)應(yīng)當很小,例如不超過三個,而且仍然可以保證后續(xù)識別的可靠性。問題通常限于只允許增補有限字組,例如至多十個字的系統(tǒng)。如果增補的字的數(shù)目過高,改編可能會產(chǎn)生引起混淆的結(jié)果。另一方面,標準字組可以很大,也可以很小。
發(fā)明概述結(jié)果,及于其它事情,本發(fā)明的目的是提供一種根據(jù)前文得到的方法,其中各種訓(xùn)練發(fā)音之間的偏差不會產(chǎn)生有害的影響,因為它們不會利用使用者的錯誤畸形發(fā)音來訓(xùn)練系統(tǒng)。結(jié)果,根據(jù)本發(fā)明的一個方面,其特征在于第一,利用發(fā)音,訓(xùn)練獨立于子字單元模型的全字模型,全字模型的長度與平均發(fā)音長度相對應(yīng),第二,把第一馬爾可夫狀態(tài)序列和全字模型聲學事件的聯(lián)合概率密度序列解釋為由第二平均特征向量序列表示的參考模板,和第三,通過比較第二序列和目錄中的子字單元模型,并儲存充當發(fā)音模型的識別結(jié)果,來識別第二序列。
與此相反,L.R.Bahl等所著的文章,一種構(gòu)造用于字的聲學馬爾可夫模型的方法,IEEE語言與音頻處理交流,volI,No.4,十月,1993,pp443-452(“A Method for the Construction of Acoustic Markov Models forWords”,IEEE Trans.on Speech and Audio Processing Vol I,No.4,October1993,pp.443-452),描述了基于大量發(fā)音的用來生成改編的另一種方法。根據(jù)該參考文獻,每一個發(fā)音產(chǎn)生各自的改編。然后,把所有的相應(yīng)改編映射到所有的發(fā)音,以便尋找最佳改編,最佳改編也就意味著最佳發(fā)音。本發(fā)明人已經(jīng)發(fā)現(xiàn),如果全面考慮發(fā)音中的聲音失真、時間扭曲、尺度變化和其它非一致性,這樣的過程將需要處理大量的數(shù)據(jù)。特別是,在功能有限的設(shè)備中,例如,但并不僅僅是,手提電話,在考慮該發(fā)明的預(yù)計應(yīng)用時,數(shù)據(jù)處理將長時間占用設(shè)備,在此期間該設(shè)備將不能執(zhí)行其它功能。實際上,已知處理過程所需的處理時間與發(fā)音數(shù)目的平方成比例,而本發(fā)明所需的處理時間只與發(fā)音數(shù)目成線性關(guān)系。
其它相關(guān)參考文獻是EP-B1-285 222,對應(yīng)于有關(guān)建模的美國專利申請No.07/175,976(PHD87.073),和/EP-A3-533 260,對應(yīng)于美國專利申請No.07/944,554(PHD91.138),它與在語音識別中所執(zhí)行的樹搜索操作有關(guān),所有這些都已轉(zhuǎn)讓給本申請的受讓人,并引入作為參考。
此外,本發(fā)明的有利實施方案利用了Bahl等的教導(dǎo),因為在后續(xù)步驟中,本發(fā)明中實現(xiàn)的基于平均發(fā)音的改編將與根據(jù)Bahl等的方法生成的各種單音改編進行競爭。在特定范圍內(nèi),這樣做可以進一步改進由上文得到的結(jié)果。
本發(fā)明還涉及實現(xiàn)該方法的設(shè)備。更進一步的優(yōu)點將在從屬權(quán)利要求中陳述。
附圖簡述本發(fā)明的各個方面和優(yōu)點將在下文中參照優(yōu)選實施方案,特別是參照附圖而進行詳述,附圖是
圖1是實現(xiàn)識別的系統(tǒng);圖2是實現(xiàn)改編的系統(tǒng);圖3是實現(xiàn)改編的過程流圖;圖4是實現(xiàn)改編的設(shè)備。
實施方案的概念基礎(chǔ)首先,給出了本發(fā)明方法的簡化公式。處理過程的起點是提供子字模型的儲存目錄?,F(xiàn)在,在本方法中,具有單密度輸出概率(Single-density emissionprobabilities)的分立全字模型由給定的n個發(fā)音產(chǎn)生,其中n是一個適當?shù)臄?shù)值,例如三或者五。該模型可以解釋為是由各種發(fā)音得到的‘平均發(fā)音’Y,其中平均發(fā)音的觀測向量是具有與狀態(tài)有關(guān)輸出概率密度(state-specificemission probability densities)的平均向量。未知字的改編由子字單元序列給出,該序列以最大可能性生成平均發(fā)音YTavg=argmaxs∈SP(Y|s)依次地,該子字單元序列可以從連續(xù)語音識別過程中找到。特別是,所選的改編Tavg可以是子字單元序列組S中的任何一個。
在稍寬的方面,首先,本發(fā)明利用各種發(fā)音來訓(xùn)練全字模型,該模型獨立于子字單元模型,并且其長度與平均發(fā)音長度相等。其次,全字模型用于從中產(chǎn)生馬爾可夫狀態(tài)序列和聲學事件的聯(lián)合概率密度序列。自然而然地,這種隱式馬爾可夫過程表示法已經(jīng)廣泛地應(yīng)用于語音識別技術(shù)。該表示法還產(chǎn)生了發(fā)音的子字單元辨別法,這樣,解釋的結(jié)果可以作為由平均特征向量序列組成的模板。依次地,后續(xù)序列的元素可以與目錄中的子字單元模型相匹配,這樣,識別串實際上是平均發(fā)音模型,并且可以順序地用于識別更多的發(fā)音。
圖1顯示了識別口頭字的系統(tǒng)。在這里,方框20代表待識別的口頭字,圖中的時間是由左向右流逝的,方框內(nèi)容是采樣語音的時變特征向量。首先,字被劃分為如小方塊所示的子字單元。各種單元可以是單音、雙音、部分音節(jié)、全音節(jié)、或者甚至是單個特征向量。不必要求子字單元具有聲音關(guān)聯(lián)性。這種劃分是基于各種上述特征向量而實現(xiàn)的,并且可以按照傳統(tǒng)的方法進行。劃分由垂直線表示,由于混合使用長字單元和短字單元是可行的,所以這種劃分不必是等間距的,如圖中所示。其次,從待分析字的一端開始,子字單元與儲存在目錄22中的條目進行比較,該目錄是通過分析大量的語音而建立起來的。自然而然地,這種分析方法在本發(fā)明范圍之外,本發(fā)明只是使用它。各個連續(xù)子字單元可以生成與一個或多個與目錄條目的匹配。
現(xiàn)在,每一種匹配還產(chǎn)生一個評分,該評分取決于兩個匹配條目間的不相關(guān)程度,這樣,低評分表示匹配較好,反之亦然。而且,評分取決于語言模型,該模型表示字的具體鏈接的概率。低概率產(chǎn)生高評分,反之亦然。根據(jù)一個策略,按照這種方式,樹由各種可能的已識別子字鏈接而建立起來,這種鏈接具有智能分枝評分的能力。一種刪改機制用于中止和切斷樹的這種分枝,該分枝利用它們的高評分表示極低的相關(guān)識別概率。當正好在某一點,對于不同的特定分配不再有類似的可能性時,那么就已經(jīng)識別出了待分析的字或部分字,除非相關(guān)評分表示一種不切實際的極低概率。后者將導(dǎo)致放棄未識別的語音部分并且復(fù)位評分。利用符號表示法,各種方法得到顯示,每一個點表示一種子字到來自存儲系統(tǒng)22相關(guān)列的條目的分配。應(yīng)當清楚的是,圖中的表示完全是象征性的。各種其它的評分和搜索策略也是可行的。
圖2顯示了實現(xiàn)改編的系統(tǒng),該系統(tǒng)基于使用者對(假設(shè))同一字的三種發(fā)音(30,32,34)。使用者可以是同一個人也可以不是。首先,確定發(fā)音長度,例如通過計算每個發(fā)音的均勻間隔樣本數(shù)目,然后計算它的平均長度。其次,獨立于子字模型目錄的、具有平均發(fā)音長度的全字模型(36)利用各種發(fā)音而得到訓(xùn)練。這種訓(xùn)練可以通過標準語音識別訓(xùn)練方法實現(xiàn)。再次,這種訓(xùn)練結(jié)果通過馬爾可夫狀態(tài)序列和全字模型語音事件的聯(lián)合概率密度序列而得到解釋。結(jié)果(38)是表示為一系列平均特征向量的參考模板。然后,這種聲音模型起到模板的作用,即作為一些平均發(fā)音。然后,后一個序列通過與目錄22中的各種子字單元模型的比較而被識別,結(jié)果(40)是用于后續(xù)語音的模型。
最后,新字的改編通過尋找與平均特征向量序列匹配最佳的子字單元序列而生成,它與用于圖1的過程相同。然而,與圖1相反的是,通常沒有語音模型可以利用,因為沒有關(guān)于發(fā)音特性的先驗知識它可以是一個單字,或者是復(fù)合詞,例如在上述電話系統(tǒng)中被呼叫人的姓和名。然而在其它范圍內(nèi),這種語言模型可以用于可能的子字單元序列。
聲音模型可用于識別,因為聲音模型通常不需要依賴于基本音節(jié)的含義。如果平均發(fā)音的識別評分特別地高,因此它表示極低的識別概率,使用者將被告知,例如通過聲音消息或者指示燈訓(xùn)練失敗,必須進行新的訓(xùn)練。如果訓(xùn)練成功,已識別的子字單元串儲存在目錄中,由方框40表示,隨后還是通過聲音消息或者指示燈,使用者被要求指定與基于后續(xù)識別的串40相聯(lián)系的電話分機號碼。這種特點允許進行語音控制撥號,其中,改編用來識別正對系統(tǒng)進行過訓(xùn)練的字。
圖3顯示了實現(xiàn)改編的流圖。在方框60,初始化系統(tǒng),特別是通過提供子字模型目錄和復(fù)位操作參數(shù)來初始化系統(tǒng)。在方框62中,系統(tǒng)檢測是否接收到話音。如果是否定,等待循環(huán)使系統(tǒng)再次返回到方框62。如果是肯定,在方框64,對發(fā)音進行采樣,并且在把樣本表示為特征向量之后儲存發(fā)音。在方框66,系統(tǒng)檢查預(yù)期的合格發(fā)音數(shù)目是否達到適當?shù)闹?,例如三個。另一個策略是檢測‘執(zhí)行’命令。如果是否定,系統(tǒng)再一次返回到方框62等待另外的發(fā)音。在方框68,發(fā)音的全字模型通過各種接收到的發(fā)音而得到訓(xùn)練,而不依賴于目錄,模型的長度是各種發(fā)音的平均值。然后,在方框70,由馬爾可夫狀態(tài)序列和聲學事件的聯(lián)合概率密度序列表示的全字模型被解釋為由平均特征向量序列給出的參考模板。然后,在方框72,后一序列通過與目錄中子字單元模型的比較而得到識別。然后,這允許辨別作為發(fā)音之一而在以后被接收的發(fā)音,這些發(fā)音已經(jīng)由子字模型串表示。下一步,在方框76,系統(tǒng)檢測是否仍然有新發(fā)音需要接收,并依次地進行處理。如果還沒有準備好,那么系統(tǒng)返回到方框62。如果已經(jīng)準備好,或者,利用一些‘結(jié)束’命令,系統(tǒng)通過終止方框78而退出。
圖4顯示了實現(xiàn)本發(fā)明改編的設(shè)備。方框80是一些麥克風或其它用于語音輸入的設(shè)備。方框82實現(xiàn)對接收發(fā)音的周期采樣,它可以包含只在有效地接收到語音時用于實現(xiàn)采樣的語音檢測器。方框84根據(jù)樣本流產(chǎn)生語音特征的特征向量。結(jié)果,系統(tǒng)包含各種常規(guī)元件,例如帶通濾波器、A/D改編器,這樣,特征向量基本上成為后續(xù)處理的有用工具。在方框86,發(fā)音的特征向量串存儲于相應(yīng)的子塊A、B、C。通過對該存儲器的復(fù)合存取,訓(xùn)練塊88訓(xùn)練長度與平均發(fā)音長度相對應(yīng)的全字模型。這還需要排列各種發(fā)音表示。自然而然地,單一發(fā)音建模已經(jīng)公開于上文中的引用技術(shù)。然后,方框90解釋從方框88接收到的全字模型,特別是該模型包含馬爾可夫狀態(tài)序列和全字模型中聲學事件的聯(lián)合概率密度分布序列。解釋的結(jié)果是包含平均特征向量序列的參考模板。最后,方框92存取方框96中的子字單元存儲目錄,通過與存儲子字單元模型的特定序列進行比較來識別由方框90接收到的模板。方框94根據(jù)需要與各種其它設(shè)備相連。例如,它可以包含用于存儲來自方框96的子字模型序列的額外存儲器,該子字模型序列與用于后續(xù)識別的發(fā)音有關(guān),這樣在翻譯成特征向量之后,后續(xù)接收的單個發(fā)音可以直接與特定子字單元模型比較。
一些附加的、然而是任選的用戶接口設(shè)備已經(jīng)顯示在圖中。方框98是電話鍵盤。通常,這是十二鍵設(shè)備。在儲存與后續(xù)發(fā)音相關(guān)的子字單元模型序列之后,電話分機號碼的鍵入將把這個發(fā)音和鍵入數(shù)字聯(lián)系起來,結(jié)果,允許在相關(guān)標號發(fā)音的語音輸入的控制下激活這個號碼。方框100是一個字母鍵盤,例如字母數(shù)字混合的QWERTY。在方框102中的文本輸入導(dǎo)致字母-語音的變換,這自然是一個常規(guī)的特點。所使用的語音已經(jīng)根據(jù)目錄存儲器96中的子字單元建模而被模型化。變換器102的輸出被提供給識別方框92。這樣,字母-語音的變換可以通過本發(fā)明話音-語音的表示而得到加強,例如,在具有不同拼寫的外國名字的條件下。在其它方向加強也是可能的,因為在話音中可能很難識別一個特定的字。
權(quán)利要求
1 一種用于語音識別的新字表示方法,基于子字單元模型的儲存目錄,該法包含步驟表示大量與預(yù)期新字相對應(yīng)的發(fā)音,利用特征向量序列表示發(fā)音,并根據(jù)發(fā)音建立字模型,其特征在于第一,利用發(fā)音,訓(xùn)練獨立于子字單元模型的全字模型,全字模型的長度與平均發(fā)音長度相對應(yīng),第二,把第一馬爾可夫狀態(tài)序列和全字模型聲學事件的聯(lián)合概率密度序列解釋為由第二平均特征向量序列表示的參考模板,和第三,通過比較第二序列和目錄中的子字單元模型,并儲存充當發(fā)音模型的識別結(jié)果,來識別第二序列。
2 一種用于語音識別的新字表示方法,其中建模操作被實現(xiàn),因為每一個發(fā)音序列都由它自己的改編表示,所有相應(yīng)的改編作為候選者被映射到所有的發(fā)音以便發(fā)現(xiàn)最佳改編,最佳改編還意味著最佳發(fā)音,和根據(jù)權(quán)利要求1的作為又一候選者的表示結(jié)果。
3 一種用于語音識別的新字表示設(shè)備,它基于子字單元模型的存儲目錄,該設(shè)備包含輸入裝置,用于接收大量的與預(yù)期字完全相應(yīng)的發(fā)音,表示裝置,用于利用特征向量序列表示發(fā)音并根據(jù)發(fā)音建立字模型,其特征在于訓(xùn)練裝置,由輸入裝置提供輸入,利用發(fā)音,用來訓(xùn)練與子字單元模型獨立的全字模型,全字模型的長度與平均發(fā)音長度相對應(yīng),解釋裝置,由訓(xùn)練裝置提供輸入,把第一馬爾可夫狀態(tài)序列和全字模型聲學事件的聯(lián)合概率密度序列解釋為由第二平均特征向量序列表示的參考模板,和識別裝置,通過比較第二序列和目錄中的子字單元模型,并儲存充當發(fā)音模型的識別結(jié)果,來識別第二序列,和第一輸出裝置,由識別裝置提供輸入,用于輸出識別結(jié)果,以便作為與后續(xù)發(fā)音進行比較的基礎(chǔ)。
4 根據(jù)權(quán)利要求4的設(shè)備,具有電話功能并允許數(shù)字智能語音激活撥號,發(fā)音表示縮寫撥號的標號。
5 根據(jù)權(quán)利要求3的設(shè)備,其中目錄允許標準字組的與發(fā)音者無關(guān)的識別,此外,還可以按照可與標準字組相比擬的識別穩(wěn)定性來識別新字。
6 根據(jù)權(quán)利要求3的設(shè)備,具有帶有第二輸出裝置的字母-語音變換器,該變換器向識別裝置提供輸入,以便在總體上確保提高字母-語音變換器的性能。
全文摘要
對于語音識別,一個新字基于子字單元模型的儲存目錄而得到表示。首先,大量與字相對應(yīng)的發(fā)音得到表示。為了根據(jù)發(fā)音建立字模型,這些發(fā)音由特征向量序列表示。首先,發(fā)音用于訓(xùn)練與子字單元模型獨立的全字模型。全字模型的長度等于平均發(fā)音長度。其次,馬爾可夫狀態(tài)序列和全字模型聲學事件的聯(lián)合概率密度序列可以解釋為由平均特征向量串表示的參考模板。最后,通過比較特征向量串和目錄中的模型,并儲存充當發(fā)音模型的識別結(jié)果,使該串得到識別。
文檔編號G10L15/02GK1153567SQ96190450
公開日1997年7月2日 申請日期1996年5月2日 優(yōu)先權(quán)日1995年5月3日
發(fā)明者R·哈布-烏貝赫, P·拜爾萊因, E·特倫 申請人:菲利浦電子有限公司