專利名稱:使用基于詞匯樹的n格拉姆語言模式的語音識別器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別系統(tǒng),更具體來說,涉及一種基于詞匯樹的n格拉姆(n-gram)語言模式。
背景技術(shù):
語音識別器中的一個組成部分是語言模式。語言模式包括單詞在一個詞匯表中出現(xiàn)的概率以及一個單詞跟隨另一個單詞或者多個單詞的概率。的確,捕獲一種給定語言的句法結(jié)構(gòu)的流行方法是使用條件概率捕獲嵌入在句子字串中的連續(xù)信息。例如,如果當(dāng)前單詞是w1,那么就可以建立一種語言模式,說明某些其他單詞w2、w3、...wN將跟隨在w1后面的概率。條件概率通常通過檢查一個訓(xùn)練主體(例如,報紙)中單詞彼此近鄰的頻率計(jì)算出來。例如,條件概率P21=(w2|w1)是單詞w2跟隨單詞w1的概率。概率P21被稱為雙格拉姆。一個三格拉姆語言模式是一個單詞按順序跟隨另外兩個單詞的條件概率。例如,P210=(w2|w1w0)是單詞w2跟隨單詞w1而w1又跟隨單詞w0的概率。一個單格拉姆或1-格拉姆概率只是一個單詞將會出現(xiàn)的概率。例如,p1=p(w1)是單詞w1在不考慮前面單詞的情況下在一個特定時間將要出現(xiàn)的概率。
單格拉姆、雙格拉姆、三格拉姆等中所涉及的單詞組合的可能數(shù)量呈幾何級數(shù)地上升。在此處使用的術(shù)語“較低的格拉姆”和“較高的格拉姆”是指格拉姆的階。例如,單格拉姆比雙格拉姆低,而雙格拉姆比三格拉姆低。三格拉姆比雙格拉姆高,而雙格拉姆比單格拉姆高。對于一個大詞匯表,三格拉姆的組合的總數(shù),甚至雙格拉姆的組合的總數(shù)也大得難以管理。然而,結(jié)果是,如此大量的三格拉姆和雙格拉姆導(dǎo)致條件概率非常小(幾乎為零),不值得將它們放到語言模式中。有人曾經(jīng)使用過補(bǔ)償權(quán)重來調(diào)整較低格拉姆的概率。例如,當(dāng)三格拉姆概率不包括在語言模式中時,那么就可以使用雙格拉姆概率再乘以一個補(bǔ)償權(quán)重(bowt)。如果補(bǔ)償權(quán)重不存在,那么就可以較低的格拉姆代替較高的格拉姆。相應(yīng)地,一個基于單詞的n-gram語言模式可以表示為等式(1),如下所示 如上所述,盡管等式(1)是一個比較通用的n-gram表示,但也很少考慮高于三格拉姆的情況。
典型的n-gram語言模式文件存儲格式如下所示對于1-格拉姆p(w1)w1bowt(w1)對于i-格拉姆(對于i=1,...,n-1)p(wi|wi-1...w1)w1...wibowt(w1...wi-1)對于n-gramp(wn|wn-1wn-2...w1)w1...wn詞匯樹用于組織可能的單詞。例如,假設(shè)在一個詞匯樹中,單詞w2、w3、...wN中任何一個都可能跟在單詞w1后面??梢杂?jì)算出條件概率以幫助決定單詞w2、w3、...wN中哪一個單詞跟隨單詞w1后面。對于大型詞匯表,可能性的數(shù)量是巨大的。已經(jīng)有人開發(fā)出各種技術(shù),通過使用一個“修剪音速”“剪掉”其條件概率比相對于最大值的閾值低的低概率路徑,從而減少所涉及的可能性的數(shù)量。
單詞是作為一系列音素檢測到的。此處音素是指表示聲音的數(shù)字式電信號。但是,在單詞的最后一個音素被檢測出之前,說出的是哪一個單詞通常是不知道的,結(jié)果造成對收到的單詞的修剪延遲,因而對所接收單詞解碼的速度整體變慢。
在S.Ortmanns等人所寫的文章“Language-ModelLook-Ahead for Large Vocabulary Speech Recognition,”ICSLP96(1996),pp.2095-98中,提出了一種先行控制技術(shù),在音束搜索策略的修剪過程中較早合并語言模式概率。但是,該文章的作者未能認(rèn)識到如何最佳地將存儲的詞匯樹的估計(jì)概率保持在易管理的水平。例如,Ortmanns等人的文章最后作出結(jié)論說,存儲了計(jì)算(估計(jì))概率的表的大小將大得出奇。見文中P2097。
因此,大型詞匯表連續(xù)語音識別器(LVCSR)需要一種更好的詞匯樹n-gram語言模式格式。
發(fā)明內(nèi)容
在一些實(shí)施例中,本發(fā)明包括一種創(chuàng)建詞匯樹和識別該詞匯樹中的開始音素的方法。這些實(shí)施例的方法進(jìn)一步包括估計(jì)具有特定的開始音素的單詞在詞匯樹中的概率并至少存儲一些估計(jì)的概率,其中補(bǔ)償權(quán)重不與估計(jì)的概率一起存儲。估計(jì)的概率可以存儲在一個查詢表中。
在其他實(shí)施例中,本發(fā)明包括一種接收音素并在詞匯樹中識別它們的方法。這些實(shí)施例的方法還包括通過使用從存儲區(qū)中檢索到的估計(jì)的概率來估計(jì)包含這些音素的單詞的概率,其中檢索概率不包括與估計(jì)的概率存儲在一起的補(bǔ)償權(quán)重。同樣,估計(jì)的概率可以存儲在一個查詢表中。
估計(jì)的概率可以在建立修剪閾值時使用。
這些方法可以通過計(jì)算機(jī)可讀的介質(zhì)上的指令來實(shí)現(xiàn)。
本文還介紹了更多實(shí)施例并在權(quán)利要求書中加以概括。
通過閱讀下面的詳細(xì)說明并參照本發(fā)明的實(shí)施例的附圖,您將會對本發(fā)明有一個全面的理解,但是,本發(fā)明不應(yīng)該僅限于這里所介紹的實(shí)施例,這些實(shí)施例只用作說明和理解之用。
圖1是表示根據(jù)本發(fā)明的一些實(shí)施例的詞匯樹的示意圖。
圖2是一種可以用于本發(fā)明的一些實(shí)施例中的計(jì)算機(jī)系統(tǒng)的高度概括的方框圖。
圖3是一種可以用于本發(fā)明的一些實(shí)施例中的手提計(jì)算機(jī)系統(tǒng)的高度概括的示意圖。
具體實(shí)施例方式
本發(fā)明涉及一種用于LVCSR的基于詞匯樹的n-gram語言模式格式。借助于本發(fā)明,一旦檢測出一個開始音素,即可估計(jì)出一個單詞的概率。修剪低于一個閾值的路徑可以在識別出后繼單詞之前開始。本發(fā)明用于加速LVCSR中的搜索過程。在解碼過程中,語言模式起著關(guān)鍵的作用,無論是在準(zhǔn)確率方面,還是在性能方面。因此,語音識別系統(tǒng)的性能與語言模式有關(guān)。
本發(fā)明涉及了組織詞匯樹的多種方法。作為一個示例,圖1顯示了一個詞匯樹的一部分示意圖。圖1中的詞匯樹根據(jù)音素將許多單詞連接在一起,不同的單詞可以共用一些相同的音素。前輩單詞w0用一個矩形來表示。w0之前可能有單詞,也可能沒有單詞。在詞匯表中,有一些音素可以作為后繼單詞的開頭。這些開始音素是Bph1、Bph2...Bphx,可能少于音素的總數(shù)。
多個單詞可以以一個音素開始。為了便于討論,共用相同的音素的單詞具有類似的標(biāo)簽。例如,單詞w11、w12和w13每一個單詞都以開始音素Bph1開始。更具體來說,音素Bph1、ph2、ph3和ph4構(gòu)成了單詞w11(例如,單詞“fund”);音素Bph1、ph2、ph3、ph4和Ph5構(gòu)成了單詞w12(例如,“funds”),音素Bph1和ph2-ph4和ph6-ph10構(gòu)成了單詞w13(例如,“fundamental”)。(請注意,單詞中的實(shí)際音素數(shù)量可能與這里顯示的不同)。在現(xiàn)實(shí)中,典型的情況是,以相同的音素開頭的單詞要多得多,但為了便于討論,只顯示了三個與Bph1關(guān)聯(lián)的單詞。在圖1的示例中,假設(shè)單詞w12是最后檢測到的單詞。在這種情況下,單詞w0和w12所在的將是實(shí)際路徑,其他的路徑將是潛在的路徑。
在一些實(shí)施例中,一旦單詞W0的后繼的第一個音素被識別出來,就可以進(jìn)行后繼單詞的概率的估計(jì),這樣便可以在確切地知道后繼單詞之前開始進(jìn)行修剪。
在本發(fā)明的一些實(shí)施例中,可以使用基于詞匯樹的n-gram語言模式格式,該格式可以有效地應(yīng)用到與(例如)一種基于樹的Viterbi解碼算法一起使用語言模式先行控制機(jī)制。對于一個基于樹的Viterbi音束搜索算法,通常對于樹狀態(tài)s和前輩字串wn-1wn-2…w1的估計(jì)的語言模式概率πv(s)可以通過如下所示的等式(2)進(jìn)行估計(jì)πv(s)=maxw∈W(s)(λw·p(w|wn-1wn-2...w1))---(2)]]>其中W(s)是一組可從詞匯樹狀態(tài)s得到的單詞集,λw表示權(quán)重(以分?jǐn)?shù)表示),v是前輩單詞,p(w|wn-1wn-2…w1)表示n-gram單詞條件概率。πv(s)也可叫做在建立修剪閾值中使用的估計(jì)概率Pestimated。估計(jì)概率也可叫做先行控制概率。作為應(yīng)用語言模式先行控制的結(jié)果,可以獲得更緊密的修剪音束以加速解碼過程。分?jǐn)?shù)權(quán)重λw可以設(shè)置為1或可以介于0和1之間。在一些實(shí)施例中,λw可能大于1。分?jǐn)?shù)權(quán)重可以采用經(jīng)驗(yàn)法、通過反復(fù)試驗(yàn)進(jìn)行確定或計(jì)算出。對于每個Bphl來說,分?jǐn)?shù)權(quán)重可能相同,也可能不同。雖然本發(fā)明是以n-gram來表示的,但在實(shí)際中也可能使用三格拉姆、雙格拉姆、單格拉姆和/或其他格拉姆。
音素節(jié)點(diǎn)的透視圖是一個樹的狀態(tài)。在說話的過程中,該樹中有越來越多的音素被檢測出來,估計(jì)的概率可能需要重新計(jì)算,以使修剪可以繼續(xù)。
通常上面提及的估計(jì)(計(jì)算)語言模式概率必須在運(yùn)行時動態(tài)地加以計(jì)算和生成。該過程很費(fèi)時間,盡管引入了高速緩存以節(jié)省總體計(jì)算開銷。預(yù)先計(jì)算估計(jì)的概率并將它們存儲在查詢表中會顯著地加快該過程。
在圖1的示例中,假設(shè)Bphl是后繼單詞的第一個音素。在這種情況下,等式(3)中就會給出等式(2)的雙格拉姆示例,如下所示Pestimated=λwmax{P(w11|w0),P(w12|w0),P(w13|w0))(3).
根據(jù)情況,將修剪掉那些概率或條件概率低于閾值,或等于或低于閾值的單詞。推導(dǎo)閾值的方法多種多樣。例如,用一個數(shù)字乘以Pestimated或Pestimated減一個數(shù)字。
為加速解碼過程,我們通過部署將內(nèi)存需求限制在一個可控制的范圍內(nèi)的補(bǔ)償機(jī)制定義了一個基于詞匯樹的n-gram語言模式格式,用于存儲預(yù)先計(jì)算的估計(jì)概率。一般情況下估計(jì)的概率Pestimated可以通過如下所示的等式(4)獲得Pestimated=P(Sj|wn-1wn-2....w1) 其中Sj是潛在的后繼單詞的第j個狀態(tài)。等式(4)包括括號中的三行。一般情況下,等式(4)的最頂行就是等式(2)。當(dāng)然,等式(4)也可以用于不同的格拉姆,如單格拉姆、雙格拉姆以及三格拉姆。等式(4)提供了等式(2)的近似值。只有當(dāng)?shù)仁?4)的最頂行得到滿足的情況下,Pestimated才會存儲一個存儲區(qū)中,例如存儲在一個查詢表中,這樣查詢表就可以控制在可管理的較小的水平。
在等式(4)中,我們不必存儲補(bǔ)償權(quán)重,因?yàn)樗鼈兣c基于標(biāo)準(zhǔn)單詞的n-gram語言模式中存儲的權(quán)重完全相同。在解碼中,補(bǔ)償權(quán)重可以通過一個常規(guī)的文件來獲得。在解碼中,如果等式(4)的第一行得不到滿足,那么如果適合的話,就使用帶補(bǔ)償權(quán)重的較低階的估計(jì)概率。
用于修剪的概率可以只是后繼單詞的估計(jì)概率,或者估計(jì)概率與前輩單詞的概率相加(例如,在圖1中,p(w0)+Pestimated)。
在某些實(shí)施例中,查詢表存儲了基于樹的n-gram的語言模式估計(jì)概率,如下所示。然而,也可以使用其他格式。
1-格拉姆p(s1)s1i-格拉姆(i=1,...,n-1)p(si|wi-1...w1)w1...wi-1si…
n-gramp(sn|wn-1w1)w1...wn-1sn由于壓縮詞匯樹中的節(jié)點(diǎn)的總數(shù)相當(dāng)于辭典中的單詞的總數(shù),基于詞匯樹的n-gram語言模式并以等式(4)為近似值的詞匯樹的總存儲,與傳統(tǒng)的對應(yīng)的基于單詞的n-gram的語言模式相比,其階是相同的。用于普通n-gram語言模式的處理技術(shù)可以應(yīng)用到本發(fā)明的新的基于詞匯樹的語言模式文件中。
在某些實(shí)施例中,估計(jì)概率是在識別之前計(jì)算出的,并存儲在一個查詢表中。然而,為縮小表的大小,在某些實(shí)施例中,只存儲那些直接從n-gram概率(不通過補(bǔ)償)推導(dǎo)出的條目。從補(bǔ)償概率推導(dǎo)出的條目(n-gram補(bǔ)償?shù)?n-1)-格拉姆)大致補(bǔ)償?shù)?n-1)-格拉姆估計(jì)概率。通過壓縮,表的大小可以縮小到一個易控制的水平。
當(dāng)?shù)竭_(dá)一個單詞的最后一個音素(或終節(jié)點(diǎn))時,就可以識別出后繼單詞。例如,在圖1中,一旦到達(dá)了音素ph5,就知道是單詞w12。一旦知道了單詞,就可以將估計(jì)概率替換為實(shí)際概率。這可以通過加上真實(shí)條件概率(例如,在圖1中p(w12|W0))并減去估計(jì)概率來實(shí)現(xiàn)。在某些實(shí)施例中,在搜索期間的累積概率可以從第一個單詞假設(shè)開始,例如,p(w1w2w3...wi)=p(w1)+p(w2|w1)+P(w3|w2)+...+p(wi|wi-1)??梢允褂酶怕实膶?shù),以便將乘法轉(zhuǎn)換為加法log(P1*P2)=log(p1)+log(p2)。
真實(shí)概率在識別出最后一個音素之后即可確定,它可以表示成Ptrue=p(Wpredecessor)+Pestimated+P(Wactual|Wpredecessor)-Pestimated。在圖1的示例中,假設(shè)單詞w12是實(shí)際單詞,真實(shí)概率Ptrue=p(w0)+Pestimated+P(W12|W0)-Pestimated,其中Pestimated可以通過上文所描述的方法獲得。
詞匯樹的節(jié)點(diǎn)可以通過消除多余的節(jié)點(diǎn)來折疊或壓縮。例如,在圖1中,音素Bph1、ph2,ph3,和ph4可以折疊成一個狀態(tài)(節(jié)點(diǎn))。然而,在實(shí)際中,Bph1通常會有其他分支單詞,因此可能不能用ph2-ph4折疊。音素ph6-ph10可以折疊成一種狀態(tài)。在某些實(shí)施例中,有兩種詞匯樹原來的一個用于語音識別器,壓縮的詞匯樹用于語言模式。壓縮詞匯樹可以用于在培訓(xùn)期間創(chuàng)建查詢表。在培訓(xùn)中,可根據(jù)已知的技術(shù)從一個辭典創(chuàng)建詞匯樹。
有各種計(jì)算機(jī)系統(tǒng)可以應(yīng)用在培訓(xùn)和語音識別系統(tǒng)中。僅作為一個示例,圖2顯示了一個計(jì)算機(jī)系統(tǒng)10的概要圖,該計(jì)算機(jī)系統(tǒng)有一個處理器14、存儲器16,以及輸入/輸出和控制塊18。處理器14中有大量的存儲量,存儲器16可以代表不位于處理器14的芯片的存儲器或者一部分位于但一部分不位于處理器14的芯片的存儲器。(或者存儲器16可以完全地位于處理器14的芯片上)。至少有一些輸入/輸出和控制塊18可以與處理器14位于相同的芯片上,或者位于單獨(dú)的芯片上。一個麥格拉姆風(fēng)26、監(jiān)視器30、附加存儲器34、以及輸入設(shè)備(比如鍵盤和鼠標(biāo)38)、網(wǎng)絡(luò)連接42,以及揚(yáng)聲器44都可以與輸入/輸出和控制塊18相連接。存儲器34可以代表各種存儲器,如硬盤、CD-R0M或者DVD光盤。查詢表可以是任何形式,不用作一個限制性術(shù)語。存儲的估計(jì)概率可能全部在一起或者分散到不同的位置。表的一部分或者全部可以復(fù)制并放到不同的存儲器中。查詢表可能位于存儲器16、存儲器34或者其它地方。查詢表22和24代表查詢表的全部或一部分。再強(qiáng)調(diào)一點(diǎn),圖1中的系統(tǒng)只作說明用,本發(fā)明不僅限于采用這樣的計(jì)算機(jī)系統(tǒng)的情形。用于實(shí)現(xiàn)本發(fā)明的計(jì)算機(jī)系統(tǒng)10和其他計(jì)算機(jī)系統(tǒng)可以是各種形式的電腦,如臺式機(jī)、大型機(jī)和便攜式計(jì)算機(jī)。
例如,圖3顯示了一個手提設(shè)備60,并帶有一個顯示器62,可以用來實(shí)現(xiàn)圖2的部分或全部功能。手提設(shè)備有時可以與另一個計(jì)算機(jī)系統(tǒng)(如圖2中的系統(tǒng))進(jìn)行連接。圖2和3中的物體的形狀和相對大小也不暗示其實(shí)際形狀和相對大小。
各種存儲器都可以算得上是計(jì)算機(jī)可讀的介質(zhì),在上面可以存儲指令,當(dāng)執(zhí)行這些指令時,便可以實(shí)施本發(fā)明的一些實(shí)施例。
其他信息和實(shí)施例已經(jīng)實(shí)現(xiàn)了基于詞匯樹的采用上述格式的雙格拉姆語言模式。通過使用預(yù)先計(jì)算的語言模式先行控制,我們不僅節(jié)省了估計(jì)概率的計(jì)算開銷,節(jié)省量可達(dá)解碼任務(wù)的總計(jì)算時間的15%,而且還節(jié)省了動態(tài)生成這些概率時必需的緩存所需要的大約50MB內(nèi)存。(然而,這些數(shù)字只是示例,不是要求。)此外,我們的新語言模式格式還為我們提供了用合理的時間和內(nèi)存處理更高階的語言模式先行控制。
本說明中所提及的“實(shí)施例”、“一個實(shí)施例”、“一些實(shí)施例”或“其他實(shí)施例”是指至少在本發(fā)明的一些實(shí)施例中,不一定在所有實(shí)施例中包括的與實(shí)施例關(guān)聯(lián)的一個特定功能、結(jié)構(gòu)或特征。所說的“實(shí)施例”、“一個實(shí)施例”或“一些實(shí)施例”不一定都是指相同的實(shí)施例。
如果說明中說“可能”、“可以”、或“也許”包括一個組件、功能、結(jié)構(gòu)或特征,那么該特定組件、功能、結(jié)構(gòu)或特征不一定非要被包括。如果說明書或“權(quán)利要求書”中提及“一個”元素,那么并非意謂著只是一個元素。如果說明書或“權(quán)利要求書”中提及“其他”元素,那么并非排除有多個其他元素。
那些本領(lǐng)域的技術(shù)人員將會發(fā)現(xiàn)在本發(fā)明的范圍內(nèi)可以對前述的說明和附圖作出許多變更。相應(yīng)地,由下面的權(quán)利要求書以及對它的任何補(bǔ)正來定義本發(fā)明的范圍。
權(quán)利要求
1.一種方法,包括創(chuàng)建詞匯樹;識別該詞匯樹中的開始音素;估計(jì)詞匯樹中具有特定的開始音素的單詞的概率;以及至少存儲一些估計(jì)的概率,其中補(bǔ)償權(quán)重不與估計(jì)的概率一起存儲。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于只有在對應(yīng)的n-gram存在的情況下才存儲估計(jì)的概率。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于估計(jì)的概率存儲在一個查詢表中。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于查詢表包括下列信息1-格拉姆p(s1)s1i-格拉姆(對于i=1,...,n-1)p(si|wi-1...w1)w1...wi-1sin-gramp(sn|wn-1w1)w1...wn-1sn
5.根據(jù)權(quán)利要求1所述的方法,其特征在于估計(jì)的概率Pestimated將根據(jù)下面的等式求出Pestimated= 其中Si是與一個特定的開始音素關(guān)聯(lián)的單詞的第j個狀態(tài),其中W(s)是從詞匯樹狀態(tài)s可以得出的單詞集,λw表示一個分?jǐn)?shù)權(quán)重,其中只有在滿足上述等式的第一行的情況下才存儲估計(jì)的概率。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于λw為1。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于λw介于0和1之間,并為每個開始音素進(jìn)行選擇。
8.一種方法,包括接收音素并在詞匯樹中識別它們;以及通過使用從存儲區(qū)中檢索到的估計(jì)的概率來估計(jì)包含這些音素的單詞的概率,其中檢索概率不包括與估計(jì)的概率存儲在一起的補(bǔ)償權(quán)重。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于估計(jì)的概率存儲在一個查詢表中。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于查詢表包括下列信息,其中s是詞匯樹的狀態(tài),p是一個概率1-格拉姆p(s1)s1i-格拉姆(對于i=1,...,n-1)p(si|wi-1...w1)w1...wi-1sin-gramp(sn|wn-1w1)w1...wn-1sn
11.根據(jù)權(quán)利要求8所述的方法,其特征在于補(bǔ)償權(quán)重信息可以從存儲在一個基于單詞的n-gram語言模式中的權(quán)重推導(dǎo)出來。
12.根據(jù)權(quán)利要求8所述的方法,其特征在于估計(jì)的概率在建立一個修剪閾值時使用。
13.根據(jù)權(quán)利要求8所述的方法,其特征在于估計(jì)的概率根據(jù)下面的等式來確定Pestimated= 其中Sj是與一個特定的開始音素關(guān)聯(lián)的單詞的第j個狀態(tài),其中W(s)是從詞匯樹狀態(tài)s可以得出的單詞集,λw表示一個分?jǐn)?shù)權(quán)重,只存儲第一行的結(jié)果。
14.一個裝置,包括一個計(jì)算機(jī)可讀的介質(zhì),上面具有指令,在執(zhí)行這些指令時會導(dǎo)致計(jì)算機(jī)系統(tǒng)執(zhí)行如下操作創(chuàng)建詞匯樹;識別該詞匯樹中的開始音素;估計(jì)具有特定的開始音素的單詞在詞匯樹中的概率;以及至少存儲一些估計(jì)的概率,其中補(bǔ)償權(quán)重不與估計(jì)的概率一起存儲。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于只有在對應(yīng)的n-gram存在的情況下才存儲估計(jì)的概率。
16.根據(jù)權(quán)利要求14所述的裝置,其特征在于估計(jì)的概率存儲一個查詢表中。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于查詢表包括下列信息1-格拉姆p(s1)s1i-格拉姆(對于i=1,...,n-1)p(si|wi-1...w1)w1...wi-1sin-gramp(sn|wn-1w1)w1...wn-1sn
18.根據(jù)權(quán)利要求14所述的方法,其特征在于估計(jì)的概率Pestimated將根據(jù)下面的等式求出Pestimated= 其中Sj是與一個特定的開始音素關(guān)聯(lián)的單詞的第j個狀態(tài),其中W(s)是從詞匯樹狀態(tài)s可以得出的單詞集,λw表示一個分?jǐn)?shù)權(quán)重,且其中只有在滿足上述等式的第一行的情況下才存儲估計(jì)的概率。
19.一個裝置,包括一個計(jì)算機(jī)可讀的介質(zhì),上面具有指令,在執(zhí)行這些指令時會導(dǎo)致計(jì)算機(jī)系統(tǒng)執(zhí)行如下操作接收音素并在詞匯樹中識別它們;以及通過使用從存儲區(qū)中檢索到的估計(jì)的概率來估計(jì)包含這些音素的單詞的概率,其中檢索概率不包括與估計(jì)的概率存儲在一起的補(bǔ)償權(quán)重。
20.根據(jù)權(quán)利要求19所述的方法,其特征在于估計(jì)的概率存儲在一個查詢表中。
21.根據(jù)權(quán)利要求20所述的方法,其特征在于查詢表包括下列信息,其中s是詞匯樹的狀態(tài),p是一個概率1-格拉姆p(s1)s1i-格拉姆(對于i=1,...,n-1)p(si|wi-1...w1)w1...wi-1sin-gramp(sn|wn-1w1)w1...wn-1sn
22.根據(jù)權(quán)利要求19所述的方法,其特征在于補(bǔ)償權(quán)重信息可以從存儲在一個基于單詞的n-gram語言模式中的權(quán)重推導(dǎo)出來。
23.根據(jù)權(quán)利要求19所述的方法,其特征在于估計(jì)的概率根據(jù)下面的等式來確定Pestimated= 其中Sj是與一個特定的開始音素關(guān)聯(lián)的單詞的第j個狀態(tài),其中W(s)是從詞匯樹狀態(tài)s可以得出的單詞集,λw表示一個分?jǐn)?shù)權(quán)重,將預(yù)先計(jì)算出第一行的結(jié)果,并加以存儲。
24.根據(jù)權(quán)利要求19所述的裝置,其特征在于該裝置為一個磁盤。
全文摘要
在一些實(shí)施例中,本發(fā)明包括一種創(chuàng)建詞匯樹和識別該詞匯樹中的開始音素的方法。這些實(shí)施例使用的方法進(jìn)一步包括估計(jì)在詞匯樹中具有特定的開始音素的單詞的概率并至少存儲一些估計(jì)的概率,其特征在于補(bǔ)償權(quán)重不與估計(jì)的概率一起存儲。估計(jì)的概率可以存儲在一個查詢表中。在其他實(shí)施例中,本發(fā)明包括一種接收音素并在詞匯樹中識別它們的方法。這些實(shí)施例的方法還包括通過使用從存儲區(qū)中檢索到的估計(jì)的概率來估計(jì)包含這些音素的單詞的概率,其特征在于檢索概率不包括與估計(jì)的概率存儲在一起的補(bǔ)償權(quán)重。同樣,估計(jì)的概率可以存儲在一個查詢表中。估計(jì)的概率可以在建立修剪閾值時使用。這些方法可以通過計(jì)算機(jī)可讀的介質(zhì)上的指令來實(shí)現(xiàn)。
文檔編號G10L15/187GK1406374SQ99817058
公開日2003年3月26日 申請日期1999年12月23日 優(yōu)先權(quán)日1999年12月23日
發(fā)明者林志威, 嚴(yán)永宏, 趙青薇, 袁寶生 申請人:英特爾公司