欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

劃分字為詞的全局方法

文檔序號:2822022閱讀:218來源:國知局
專利名稱:劃分字為詞的全局方法
技術領域
本發(fā)明涉及語音識別系統(tǒng),更確切地說,涉及在語音識別系統(tǒng)中把若干字劃分為詞。
背景技術
語音識別器中的一個部分是語言模型。捕捉一種給定語言句法結構的常見方法,是使用條件概率來捕捉句子的詞串中嵌入的有序信息。例如,若當前的詞為W1,可以構造一個語言模型,表示某些其它詞W2、W3、……Wn會跟隨W1的概率。這些詞的概率可以采用如下的方式表示P21為詞W2會跟隨詞W1的概率,其中P21=(W2|W1)。以這種表示法,P31為詞W3會跟隨詞W1的概率;P41為詞W4會跟隨詞W1的概率,依次類推,Pn1為詞Wn會跟隨詞W1的概率。P21、P31、……Pn1中的最大值可以被確定并用在語言模型中。前述的實例是對于二元概率的,盡管也可以計算三元條件概率。
語言模型的產生往往是通過考察書面作品(比如報紙)并確定詞匯表中的某些詞相對于詞匯表中其它詞的條件概率。
在某些語言中,比如中文和日文,詞可以寫為一個或多個符號型的字,例如中文中的漢字和日文中的漢字。句子由字串組成,其中的詞是隱含的,因為鄰接的詞之間沒有間隔。一個特定的字可能自己本身就是一個詞,或者與它前面或后面(也可能同時與前后)的字結合以形成一個詞。根據(jù)產生詞時字如何結合或分離,詞的意義可能有變化。然而在書面形式中,字與字之間并沒有間隔,所以是否一個特定的字自己本身就是一個詞,或者與另一個字或多個字形成這個詞,在視覺上并不明顯。而一個特定的字屬于哪個詞是從上下文來理解的。為了對語言模型應用統(tǒng)計方法,采用在詞的邊界上放置間隔的方式,把詞明確地提取出來。
把字劃分為詞傳統(tǒng)上是由“貪心算法”來進行。貪心算法包括以下步驟(1)從給定要進行處理之句子的起點開始,窮舉與句子中字串起始部分相匹配的所有可能的詞。
(2)拾取最長的詞(也就是,具有最多字數(shù)的詞)并在句子中相匹配子串的尾部放置一個間隔,其余字串作為一個新的句子對待,重復步驟(1)直到句子中所有的字處理完畢。
從全局的觀點來看,貪心算法并非總能作出最佳的選擇。事實上,它選擇的組合可能既非最優(yōu),亦非句法上正確。正如T.Cormen等人在“Introduction to Algorithms”(The MIT Press,1990)329頁所言“貪心算法總是作出在本時刻看起來最佳的選擇。也就是,它作出局部最優(yōu)選擇,希望這個選擇會導致全局最優(yōu)解?!卑l(fā)明內容在某些實施例中,本發(fā)明包括一種方法。該方法包括使用某個詞匯表產生字劃分路徑的一個路徑列表。確定一個第一劃分路徑的概率并指定它為最佳劃分路徑。確定另外一個劃分路徑的概率并將它與最佳劃分路徑的概率進行比較。如果另外的劃分路徑的概率超過最佳劃分路徑的概率,就將另外的劃分路徑指定為最佳劃分路徑。重復這種做法直到所有其余的劃分路徑都得到確定并與最佳劃分路徑的概率比較完畢。
在某些實施例中,本發(fā)明是一種裝置,包括一種計算機可讀的介質,它執(zhí)行這種方法。在更多其它的實施例中,本發(fā)明是一種計算機系統(tǒng)。
下面介紹附加的實施例并要求權利。
附圖簡要說明從下面給出的詳細介紹和本發(fā)明實施例的附圖將會更加全面地理解本發(fā)明,不過,它們不應當作為把本發(fā)明限制在所介紹的特定實施例,而僅僅是為了解釋和理解。


圖1是表示一個計算機系統(tǒng)的高級別示意框圖,本發(fā)明的某些實施例可以連同使用該系統(tǒng)。
圖2是一個手持計算機系統(tǒng)的高級別示意圖,本發(fā)明的某些實施例可以連同使用該系統(tǒng)。
具體實施例方式
本發(fā)明涉及從字劃分詞的一種系統(tǒng)和方法。也就是,本發(fā)明涉及決定一個字應當屬于哪個詞。本發(fā)明具有與某些語言比如中文和日文有關的、特定的應用,這些語言在字與字之間沒有表示詞劃分的間隔。但是本發(fā)明并不限于此類用途。公開的本發(fā)明設計為,對給定的任何句子作出較好的詞劃分。這樣做產生的語言模型優(yōu)于以上介紹的、使用貪心算法的傳統(tǒng)方法獲得的模型。較好的語言模型會導致較好的識別準確度,因為就詞串而言它較好地描述了該語言。
在某些實施例中,本發(fā)明使用統(tǒng)計語言模型配備的動態(tài)規(guī)劃算法執(zhí)行劃分??梢詧?zhí)行動態(tài)算法的方式有很多種。動態(tài)算法的一個實例如下。首先,通過傳統(tǒng)的貪心算法計算n元語言模型來處理主體(即要劃分為詞的字)。然后,使用Viterbi算法重新劃分該句。Viterbi算法是一種動態(tài)規(guī)劃法,它可以用于全局最優(yōu)化。參見T.Cormen等人的“Introduction to Algorithms”(The MIT Press,1990)301-328頁。我們使用的Viterbi算法可以描述為以下的(1)式Pwi=maxi(Pwi-1+prob(wi|wi-1))-------(1)]]>在(1)式中,P為概率,“prob”包括該語言模型。在(1)式中,wi為第i個詞,wi-1為緊靠wi的前一個詞,Pwi-1為第wi-1個詞出現(xiàn)的概率,prob(wi|wi-1)為如果詞wi-1出現(xiàn)時,詞wi出現(xiàn)的條件概率。(1)式涉及發(fā)現(xiàn)使(1)式最大化的詞wi。通過求解(1)式,結果詞序列(w0w1……wN)將保證選定的劃分在最大似然的意義下是最佳的。在某些實施例中,當i=N,到達句子結尾時,存在全局最大化。
(1)式為二元形式,不過,如果在語言模型中有其它形式,比如三元或一元形式,也能夠使用。還可以使用補償加權和其它技術。
如上所述,在某些語言中,每個字自己本身就可能是一個詞。然而,本發(fā)明涉及確定,字可以與其它的字結合以形成另外詞,還是獨自為詞更好。由多個字組成的詞也可以稱為術語或短語。
貪心算法的一種版本以偽碼形式提供如下讀詞匯表;//詞匯表為可能的詞的列表打開語言主體;//語言主體包括要劃分為詞的字當(不是語言主體的結尾)時{從語言主體中讀取一行并放入行緩沖區(qū);//行緩沖區(qū)是一組存儲器,并不限于任何特定形式當(行緩沖區(qū)非空)時{發(fā)現(xiàn)與行緩沖區(qū)頭部匹配的、詞匯表中最長的詞;輸出這個詞和一個詞分隔符;從行緩沖區(qū)中清除匹配的頭部;}輸出行分隔符;}關閉語言主體;在某些實施例中,依據(jù)本發(fā)明的、使用語言模型的一中劃分算法包括以下步驟讀語言模型; //語言模型加載到存儲器中或者其它方式使之可用讀詞匯表;打開語言主體;當(不是語言主體的結尾)時{從語言主體中讀取一行并放入行緩沖區(qū);//一行中的字數(shù)可根據(jù)實施例而改變;一行可能是一句使用詞匯表,產生包含所有可能的劃分路徑的路徑列表;//一個劃分路徑是一種可能的字劃分;可以使用不同的形式存放路徑,例如列表或樹結構發(fā)現(xiàn)貪心的劃分路徑并將它保存為最佳路徑;//可以使用多種貪心算法比如以上提供的一種;在本發(fā)明的這個實施例中,//貪心劃分路徑最初被視為最佳路徑,但是也可以使用其它初始路徑使用語言模型計算該路徑的概率,并將該值置為最大概率;//語言模型指定詞發(fā)生的概率和一個詞跟隨另一個詞的概率??梢允褂?1)式或另一個//公式計算概率當(路徑列表非空)時{從路徑列表中選擇路徑并將它置為當前路徑;使用語言模型,計算當前路徑的概率;如果(當前路徑的概率>最大概率){最大概率=當前路徑的概率;當前路徑保存為最佳路徑;
}從路徑列表中清除當前路徑;}輸出最佳路徑;}關閉語言主體;結合下句中的中文字,給出該算法的一個實例。
原始文本有辦法 解決使用貪心方法的劃分結果有 辦法 解決使用語言模型的劃分結果有 辦法 解決例1。
正確劃分時,這個句子的意思是“有辦法和力量解決問題”。本發(fā)明成功地劃分了該句,而傳統(tǒng)的方法沒有做到。
在例1中,將原始文本視為以下八個字按順序組成C1、C2、C3、C4、C5、C6、C7和C8。從原始文本中,在視覺上并不清楚如何把字分組以形成詞。如下的表1給出了把字分組形成五個詞W1-W5的兩種可能的方式。
表1

使用一種貪心算法產生貪心劃分路徑如下。在主體中連續(xù)字的詞匯表中,以字C1起始的最長的詞就是只有字C1的詞。換句話說,C1C2不是詞匯表中的詞。所以,詞W1就是字C1。在某些實施例中,詞W1離開行緩沖區(qū),下一個字變?yōu)樾械念^部,盡管這是一個無須說明的實施細節(jié)。在這個實例中,下一個字為C2。在主體中連續(xù)字的詞匯表中,以字C2起始的最長的詞是包括字C2C3的詞。換句話說,C2C3在詞匯表中,但是C2C3C4不在。所以,詞W2就是字C2C3。在主體中連續(xù)字的詞匯表中,以字C4起始的最長的詞是包括字C4C5的詞。所以,詞W3就是字C4C5。在主體中連續(xù)字的詞匯表中,以字C6起始的最長的詞是包括字C6的詞。所以,詞W4就是字C6。在主體中連續(xù)字的詞匯表中,以字C7起始的最長的詞是包括字C7C8的詞。所以,詞W5就是字C7C8。
計算這種貪心劃分路徑的概率。對于詞W1和W2以及字C1、C2和C3,詞匯表中包括的、僅有的劃分路徑是已經被貪心算法選擇的路徑。處理這種情況的一種方法是不重新計算概率,但是當存在著詞匯表容許的其它路徑時并非也不計算另一種概率。另一種方法是重新計算同一路徑的概率,只會確定它們相同,使當前路徑不取代最大概率。
然而,對于詞W3和W4,存在兩種路徑。第一種是貪心算法選擇的,W3為C4C5,W4為C6。另一種詞匯表容許的劃分路徑是,W3為C4,W4為C5C6。在這個實例中,假設C4后面跟隨著C5C6的組合比C4C5的組合后面跟隨著C6的概率更大。(在每種情況下W5都相同。)那么在(1)式中,當前路徑的概率會大于貪心劃分路徑的概率,它會取代貪心劃分路徑。注意以下值得關注的可能性。假設C4C5的組合比C4自己的概率大。根據(jù)信息的這個單一位元,會選擇貪心劃分路徑。然而,這不會導致較好的全局解,因為C4后面跟隨著C5C6比C4C5后面跟隨著C6的概率更大。
行可以為一個句子。正如此處的用法,術語“句子”是指以一個符號比如句號結尾的一組連續(xù)的詞。在不同的實施例中,在劃分路徑中可以考慮不同組的字。例如,劃分路徑可以考慮一個句子中的所有字。劃分路徑可以考慮一個移動的字窗口,而不考慮句子結尾,只不過注意語言模型不允許一個句子結尾的字與下一個句子中的第一個字相結合。窗口可能是設定數(shù)目的字。如果前一個路徑的最后一個字不在詞中,從它起始一個新的劃分路徑,劃分路徑可能包括X個字。其它可能性也是存在的。
有多種計算機系統(tǒng)可以用于訓練和語音識別系統(tǒng)。僅僅是作為一個實例,圖1表示計算機系統(tǒng)10的高度示意圖,該系統(tǒng)包括處理器14、存儲器16和輸入/輸出和控制部件18。存儲器16可能包括行緩沖區(qū)22。行緩沖區(qū)僅僅是一組存儲器,不必具有任何特定的特征。例如,它不必具有相鄰的存儲單元。在處理器14中可能有大容量的存儲器,存儲器16可能既表示不在處理器14芯片上的存儲器,又表示部分在部分不在處理器14芯片上的存儲器。(或者存儲器16可能完全在處理器14芯片上。)在某些實施例中,行緩沖區(qū)24是在處理器14中,然而行緩沖區(qū)并非必須在處理器14中。另外,并非本發(fā)明的每一個實施例都有行緩沖區(qū)。劃分路徑并不需要存放在行緩沖區(qū)中。至少某些輸入/輸出和控制部件18可能在處理器14的同一個芯片上?;蛘咴诹硪粋€芯片上。話筒26、監(jiān)視器30、附加存儲器34、輸入設備(比如鍵盤和鼠標38)、網絡連接42和揚聲器44可能與輸入/輸出和控制部件18交互。存儲器34表示多種存儲器,比如硬盤驅動器和CD ROM或DVD盤片。這些包括計算機可讀的介質,它們可以保存指令,執(zhí)行這些指令使本發(fā)明的某些實施例發(fā)生。需要強調的是圖1僅僅是示意性的,本發(fā)明不限于此類計算機系統(tǒng)的用途。用于實現(xiàn)本發(fā)明的計算機系統(tǒng)10和其它計算機系統(tǒng)可能為多種形式,比如桌面、主機和便攜計算機。
例如,圖2顯示了帶有顯示屏62的手持設備60,它可能含有圖1的某些或全部特性。該手持設備往往可能是另一個計算機系統(tǒng)的接口,比如圖1中的系統(tǒng)。圖1和圖2中的物體的形狀和相對尺寸并非暗示實際的形狀和相對尺寸。
其它信息和實施例語言模型的質量傳統(tǒng)上是以困惑混亂程度來度量,它是語言復雜程度的一種熵度量。對于相同的訓練和評價文本主體,具有較低困惑混亂程度的模型優(yōu)于困惑混亂程度高的模型。作為一項實驗,使用人民日報94年至98年的數(shù)據(jù),對不同劃分方法估計出的三元模型進行了評價。傳統(tǒng)(貪心)方法的困惑混亂程度為182,而本發(fā)明實施例的結果為143。與現(xiàn)有技術相比,這是模擬準確度的顯著改善。
在本說明書中提及“實施例”、“一個實施例”、“某些實施例”或“其它實施例”,意味著連同實施例介紹的一種特定的特性、結構或特征包括在至少某些實施例中,但是不必是本發(fā)明的所有實施例。多種表現(xiàn)形式“實施例”、“一個實施例”或“某些實施例”不必都指同樣的實施例。
如果本說明書宣稱“可以”、“或許”或“可能”包括某種組件、特性、結構或特征,就不是必須包括該特定的組件、特性、結構或特征。如果本說明書或權利要求書中提及“某個”要素,并不意味著這種要素只有一個。如果本說明書或權利要求書中提及“某個另外的”要素,并不排除有不只一個另外的要素。
本領域的技術人員獲得這個公開文件的利益后會理解,在本發(fā)明的范圍之內,可以從以上的介紹和附圖產生許多其它的改變。因此,是以下的、包括任何另外修改的權利要求書來規(guī)定本發(fā)明的范圍。
權利要求
1.一種方法,包括(a)使用某個詞匯表產生字劃分路徑的一個路徑列表;(b)確定一個第一劃分路徑的概率并指定它為最佳劃分路徑;(c)確定另外一個劃分路徑的概率并確定另外的劃分路徑的概率是否超過最佳劃分路徑的概率,如果是這樣,就將這個另外的劃分路徑指定為最佳劃分路徑,重復(c)直到所有其余的劃分路徑都得到確定并與最佳劃分路徑的概率比較完畢。
2.根據(jù)權利要求1的方法,其特征在于,第一句是通過貪心算法獲得的。
3.根據(jù)權利要求1的方法,其特征在于,劃分路徑存放在行緩沖區(qū)中,并且在比較了對應的概率后從行緩沖區(qū)中清除。
4.根據(jù)權利要求1的方法,其特征在于,劃分路徑中包括的字是單一句子中的那些字。
5.根據(jù)權利要求1的方法,其特征在于,劃分路徑中包括的字在某個滑動的窗口中。
6.根據(jù)權利要求1的方法,其特征在于,通過使用語言模型確定概率。
7.根據(jù)權利要求1的方法,其特征在于,通過涉及以下公式的計算來確定概率Pwi=maxi(Pwi-1+prob(wi|wi-1))]]>,其中wi為第i個詞,wi-1為緊靠wi的前一個詞,Pwi-1為第wi-1個詞出現(xiàn)的概率,prob(wi|wi-1)為如果詞wi-1出現(xiàn)時,出現(xiàn)詞wi的條件概率。
8.一種裝置,包括一種計算機可讀的介質,其中含有指令,執(zhí)行這些指令時使計算機系統(tǒng)(a)使用某個詞匯表產生字劃分路徑的一個路徑列表;(b)確定一個第一劃分路徑的概率并指定它為最佳劃分路徑;(c)確定另外一個劃分路徑的概率并確定另外的劃分路徑的概率是否超過最佳劃分路徑的概率,如果是這樣,就將這個另外的劃分路徑指定為最佳劃分路徑,重復(c)直到所有其余的劃分路徑都得到確定并與最佳劃分路徑的概率比較完畢。
9.根據(jù)權利要求8的裝置,其特征在于,第一句是通過貪心算法獲得的。
10.根據(jù)權利要求8的裝置,其特征在于,劃分路徑存放在行緩沖區(qū)中,并且在比較了對應的概率后從行緩沖區(qū)中清除。
11.根據(jù)權利要求8的裝置,其特征在于,劃分路徑中包括的字是單一句子中的那些字。
12.根據(jù)權利要求8的裝置,其特征在于,劃分路徑中包括的字在某個滑動的窗口中。
13.根據(jù)權利要求8的裝置,其特征在于,通過使用語言模型確定概率。
14.根據(jù)權利要求8的裝置,其特征在于,通過涉及以下公式的計算來確定概率Pwi=maxi(Pwi-1+prob(wi|wi-1))]]>,其中wi為第i個詞,wi-1為緊靠wi的前一個詞,Pwi-1為第wi-1個詞出現(xiàn)的概率,prob(wi|wi-1)為如果詞wi-1出現(xiàn)時,詞wi出現(xiàn)的條件概率。
15.根據(jù)權利要求8的裝置,其特征在于,該裝置是一張盤片。
16.一種計算機系統(tǒng),包括保存劃分形成詞匯表中詞的字路徑列表的存儲器;處理器,它(a)確定一個第一劃分路徑的概率并指定它為最佳劃分路徑;(b)確定另外一個劃分路徑的概率并確定另外的劃分路徑的概率是否超過最佳劃分路徑的概率,如果是這樣,就將另外的劃分路徑指定為最佳劃分路徑,重復(b)直到所有其余的劃分路徑都得到確定并與最佳劃分路徑的概率比較完畢。
17.根據(jù)權利要求16的裝置,其特征在于,第一句是通過貪心算法獲得的。
18.根據(jù)權利要求16的裝置,其特征在于,劃分路徑存放在行緩沖區(qū)中,并且在比較了對應的概率后從行緩沖區(qū)中清除。
19.根據(jù)權利要求16的裝置,其特征在于,劃分路徑中包括的字是單一句子中的那些字。
20.根據(jù)權利要求16的裝置,其特征在于,劃分路徑中包括的字在某個滑動的窗口中。
21.根據(jù)權利要求16的裝置,其特征在于,通過使用語言模型確定概率。
22.根據(jù)權利要求16的裝置,其特征在于,通過涉及以下公式的計算來確定概率Pwi=maxi(Pwi-1+prob(wi|wi-1))]]>,其中wi為第i個詞,wi-1為緊靠wi的前一個詞,Pwi-1為第wi-1個詞出現(xiàn)的概率,prob(wi|wi-1)為如果詞wi-1出現(xiàn)時,詞wi出現(xiàn)的條件概率。
全文摘要
在某些實施例中,本發(fā)明包括一種方法。該方法包括使用某個詞匯表產生字劃分路徑的一個路徑列表。確定一個第一劃分路徑的概率并指定它為最佳劃分路徑。確定另外一個劃分路徑的概率并將它與最佳劃分路徑的概率進行比較。如果另外的劃分路徑的概率超過最佳劃分路徑的概率,就將另外的劃分路徑指定為最佳劃分路徑。重復這種做法直到所有其余的劃分路徑都得到確定并與最佳劃分路徑的概率比較完畢。在某些實施例中,本發(fā)明是一種裝置,包括一種計算機可讀的介質,它執(zhí)行這種方法。在更多其它的實施例中,本發(fā)明是一種計算機系統(tǒng)。還描述了其它的實施例并要求權利。
文檔編號G10L15/197GK1398395SQ99817082
公開日2003年2月19日 申請日期1999年12月23日 優(yōu)先權日1999年12月23日
發(fā)明者閻永紅(音譯), 托凌云(音譯), 林志偉(音譯), 張向東(音譯), 羅伯特·勇 申請人:英特爾公司, 英特爾技術發(fā)展上海有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
泰顺县| 富民县| 台南市| 宿松县| 明水县| 阜宁县| 昭通市| 九寨沟县| 英超| 孝昌县| 随州市| 海门市| 托克逊县| 麻栗坡县| 吴川市| 历史| 乌审旗| 安图县| 涪陵区| 九寨沟县| 简阳市| 巩留县| 宁河县| 水富县| 光泽县| 成武县| 贡山| 巍山| 瑞金市| 呼和浩特市| 青田县| 刚察县| 休宁县| 高安市| 渝中区| 家居| 海盐县| 同仁县| 通榆县| 嵊州市| 密山市|