欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

詞典、分段和語言模型聯(lián)合優(yōu)化的系統(tǒng)和迭代方法

文檔序號:2829330閱讀:596來源:國知局
專利名稱:詞典、分段和語言模型聯(lián)合優(yōu)化的系統(tǒng)和迭代方法
技術(shù)領(lǐng)域
本發(fā)明涉及語言建模,更具體地說涉及詞典、文字分段和語言模式聯(lián)合優(yōu)化的系統(tǒng)和迭代方法。
背景技術(shù)
近來計算能力和相關(guān)技術(shù)的發(fā)展促進(jìn)了新一代強大的應(yīng)用軟件的發(fā)展,包括web瀏覽器、字處理和語音識別應(yīng)用程序。例如,在輸入域名的兩三個最初字符之后,最新一代的web瀏覽器預(yù)料統(tǒng)一資源定位符(URL)地址輸入。字處理器提供改進(jìn)的拼寫和語法檢查能力、字預(yù)測和語言轉(zhuǎn)換。較新的語音識別應(yīng)用程序類似地提供具有令人佩服的識別和預(yù)測精度的各種特征。為了對終端用戶有用,必須基本實時地實現(xiàn)這些特征。為了提供這種性能,許多應(yīng)用程序依賴樹狀數(shù)據(jù)結(jié)構(gòu)來建立簡單的語言模型。
簡單地說,語言模式測量任意指定句子的似然性。即,語言模型可獲取任意條目的序列(文字、字符、字母等)并估計該序列的可能性。建立現(xiàn)有的語言模式的一種常見途徑是根據(jù)已知的文本語料庫(textual corpus)的訓(xùn)練集合,利用前綴樹狀數(shù)據(jù)結(jié)構(gòu)建立N-gram(N字母組)語言模型。
前綴樹狀數(shù)據(jù)結(jié)構(gòu)(也叫作后綴樹或者PAT樹)的使用使高級應(yīng)用程序能夠快速遍歷語言模型,提供上面描述的基本實時的性能特征。簡單地說,N-gram語言模型計數(shù)整個文本中在一個串(大小為N的)內(nèi)特定項目(文字、字符等)的出現(xiàn)次數(shù)。計數(shù)值被用于計算該項目串的使用概率。通常,tri-gram(N-gram,這里N=3)方法包括下述步驟(a)把文本語料庫分成若干項目(字符、字母、數(shù)字等);(b)根據(jù)較小的預(yù)定詞典和簡單的預(yù)定分段算法,對所述若干項目(例如字符(C))分段(例如分成詞(W)),這里在樹狀數(shù)據(jù)結(jié)構(gòu)中各個W被映射成一個或多個C;(c)通過計數(shù)字符串的出現(xiàn)次數(shù),根據(jù)分離的語料庫(corpus)訓(xùn)練語言模型,籍此由前兩個詞預(yù)測一系列詞(W1,W2,…WM)的概率P(W1,W2,W3,...WM)≈∏P(Wi|Wi-1,Wi-2)(1)N-gram語言模型在若干方面存在局限。首先,構(gòu)造前綴樹中使用的計數(shù)程序非常耗時。從而實際上只能實現(xiàn)較小的N-gram模型(一般為2-gram或者3-gram)。其次,隨著N-gram語言模型的串長度(N)的增大,存儲前綴樹所需的存儲器按2N增加。從而,對于大于3(即3-gram)的N-gram來說,存儲N-gram語言模型所需的存儲器,以及利用較大的N-gram語言模型所需的訪問時間非常大。
現(xiàn)有技術(shù)的N-gram語言模型傾向于使用固定(較小)的詞典,過分簡單的分段算法,一般只依賴于前兩個單詞來預(yù)測當(dāng)前的單詞(就3-gram模型而論)。
固定的詞典限制了模型選擇通用或者專用于任務(wù)的最佳單詞的能力。如果某一單詞不存在于詞典中,則就所涉及的模型來說,該單詞不存在。從而,較小的詞典不可能覆蓋預(yù)期的語言內(nèi)容。
分段算法通常較為特別,并且不是以任何統(tǒng)計或語義原理為基礎(chǔ)。過于簡單的分段算法一般錯誤地放棄較小的單詞而采用較大的單詞。從而該模型不能準(zhǔn)確地預(yù)測包含在語義上可接受的較大字符串內(nèi)的較小單詞。
由于上述限制的結(jié)果,使用現(xiàn)有技術(shù)詞典和分段算法的語言模型往往易于出錯。即,在詞典或分段階段中產(chǎn)生的任意錯誤被傳播到整個語言模型內(nèi),從而限制了語言模型的準(zhǔn)確性和預(yù)測屬性。
最后,把模型局限于上下文的最多兩個在先單詞(就3-gram語言模型而論)同樣是有限制性的,因為要準(zhǔn)確地預(yù)測單詞的可能性或許需要更多的上下文。語言模型這三方面的局限性通常導(dǎo)致該語言模型的預(yù)測質(zhì)量較差。
從而,需要一種不受通常與現(xiàn)有技術(shù)的語言建模技術(shù)相關(guān)的缺陷和局限性的妨礙,用于詞典、分段算法和語言模型聯(lián)合優(yōu)化的系統(tǒng)和方法。下面提供恰好如此的一種解決方案。

發(fā)明內(nèi)容
本發(fā)明涉及詞典、分段和語言模型聯(lián)合優(yōu)化的系統(tǒng)和迭代方法。為了克服與現(xiàn)有技術(shù)相關(guān)的局限性,本發(fā)明不依賴于預(yù)定的詞典或分段算法,相反在優(yōu)化語言模型的迭代過程中,動態(tài)生成詞典和分段算法。根據(jù)一種實現(xiàn),提供一種改善語言模型性能的方法,包括根據(jù)利用最大匹配技術(shù)接收的文本語料庫獲得的詞典和分段形成初始的語言模型,通過按照統(tǒng)計原理動態(tài)更新詞典并且對文本語料庫重新分段,反復(fù)精煉初始的語言模型,直到達(dá)到預(yù)測能力閾值為止。


附圖中相同的索引數(shù)字被用于代表相同的組件和特征。
圖1是體現(xiàn)本發(fā)明教導(dǎo)的計算機系統(tǒng)的方框圖;圖2是根據(jù)本發(fā)明的一種實現(xiàn)的迭代形成詞典、分段和語言模型的例證建模代理的方框圖;圖3是根據(jù)本發(fā)明一個方面的DOMM樹的圖形表示;圖4是建立DOMM樹的例證方法的流程圖;圖5是根據(jù)本發(fā)明教導(dǎo)的用于詞典、分段和語言模型聯(lián)合優(yōu)化的例證方法的流程圖;圖6是詳細(xì)說明根據(jù)本發(fā)明的一種實現(xiàn)的產(chǎn)生初始詞典,并且反復(fù)改變動態(tài)產(chǎn)生的詞典、分段和語言模型,直到會聚為止的方法步驟的流程圖;圖7是根據(jù)本發(fā)明備選實施例的具有若干可執(zhí)行指令的存儲介質(zhì),所述若干可執(zhí)行指令當(dāng)被執(zhí)行時,實現(xiàn)本發(fā)明的創(chuàng)新建模代理。
具體實施例方式
本發(fā)明涉及詞典、分段和語言模型聯(lián)合優(yōu)化的系統(tǒng)和迭代方法。在說明本發(fā)明的過程中,引用了創(chuàng)新的語言模型,動態(tài)排序Markov模型(DOMM)。在同時待審的Lee等的美國專利申請No.09/XXXXXX,“A Method and Apparatus for Generating andManaging a Language Model Data Structure”中給出DOMM的詳細(xì)說明,該專利申請的公開內(nèi)容作為參考包含于此。
在這里的討論中,在諸如程序模塊之類計算機可執(zhí)行的指令被一個或多個常規(guī)計算機執(zhí)行的一般情況下說明本發(fā)明。一般來說,程序模塊包括執(zhí)行特殊任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例行程序、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。此外,本領(lǐng)域的技術(shù)人員要認(rèn)識到可利用其它計算機系統(tǒng)結(jié)構(gòu),包括手持式裝置、個人數(shù)字助理、多處理器系統(tǒng)、基于微處理器的或可編程的消費電子產(chǎn)品、網(wǎng)絡(luò)PC、微型計算機、大型計算機等實踐本發(fā)明。在分布式計算機環(huán)境中,程序模塊既可位于本地存儲裝置中又可位于遠(yuǎn)程存儲裝置中。但是要指出的是在不脫離本發(fā)明的精神和范圍的情況下,也可對這里說明的體系結(jié)構(gòu)和方法進(jìn)行修改。
例證的計算機系統(tǒng)圖1圖解說明包括根據(jù)本發(fā)明的教導(dǎo)聯(lián)合優(yōu)化詞典、分段和語言模型的創(chuàng)新語言建模代理104的例證計算機系統(tǒng)102。要認(rèn)識到雖然在圖1中被描述為單獨的應(yīng)用程序,不過語言建模代理104也可被實現(xiàn)為應(yīng)用程序,例如字處理器、web瀏覽器、語音識別系統(tǒng)等的一種功能。此外,雖然被描述為軟件應(yīng)用程序,不過本領(lǐng)域中的技術(shù)人員將認(rèn)識到也可在硬件中實現(xiàn)該創(chuàng)新建模代理,例如可編程的邏輯陣列(PLA)、專用處理器、專用集成電路(ASIC)、微控制器等。
根據(jù)下面的說明,顯然計算機102是用來代表任意類別的通用或者專用計算平臺,所述計算平臺當(dāng)被賦予創(chuàng)新的語言建模代理(LMA)104時,實現(xiàn)根據(jù)上面介紹的第一例證實現(xiàn)的本發(fā)明的教導(dǎo)。要認(rèn)識到雖然這里把語言建模代理描述為應(yīng)用軟件,不過計算機系統(tǒng)102可選擇地支持LMA 104的硬件實現(xiàn)。在這方面,對于LMA 104的說明,下述計算機系統(tǒng)102的描述僅僅是例證性的,因為在不脫離本發(fā)明的精神和范圍的情況下,可用性能更好或較弱的計算機系統(tǒng)替換。
如圖所示,計算機102包括一個或多個處理器132、系統(tǒng)存儲器134和使包括系統(tǒng)存儲器134在內(nèi)的各種系統(tǒng)組件和處理器132耦接的總線136。
總線136代表幾種總線結(jié)構(gòu)中的任意一種或者多種總線結(jié)構(gòu),包括存儲器總線或存儲器控制器,外圍總線,加速圖形端口和使用各種總線結(jié)構(gòu)中的任意一種總線結(jié)構(gòu)的處理器或本地總線。系統(tǒng)存儲器包括只讀存儲器(ROM)138和隨機存取存儲器(RAM)140。包含例如在起動過程中,有助于在計算機102內(nèi)的元件之間傳送信息的基本例程的基本輸入/輸出系統(tǒng)(BIOS)142保存在ROM 138中。計算機102還包括對硬盤(圖中未表示)進(jìn)行讀寫的硬盤驅(qū)動器144,對可移除的磁盤148讀寫的磁盤驅(qū)動器146,和對諸如CD ROM、DVD ROM或者其它光學(xué)介質(zhì)之類可移除光盤152進(jìn)行讀寫的光盤驅(qū)動器150。硬盤驅(qū)動器144、磁盤驅(qū)動器146和光盤驅(qū)動器150通過SCSI接口154或者其它一些適當(dāng)?shù)目偩€接口與總線136相連。這些驅(qū)動器及它們相關(guān)的計算機可讀介質(zhì)為計算機102提供計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊及其它數(shù)據(jù)的非易失性存儲。
雖然這里描述的例證環(huán)境采用硬盤144、可移動的磁盤148和可移動的光盤152,但是本領(lǐng)域的技術(shù)人員應(yīng)認(rèn)識到在例證的操作環(huán)境中也可使用能夠保存計算機可存取的數(shù)據(jù)的其它類型的計算機可讀介質(zhì),例如盒式磁帶、快速存儲卡、數(shù)字視頻盤、隨機存取存儲器(RAM)只讀存儲器(ROM)等等。
若干程序模塊可保存在硬盤144、磁盤148、光盤152、ROM 138或RAM 140上,包括操作系統(tǒng)158、包括體現(xiàn)本發(fā)明教導(dǎo)的創(chuàng)新LMA104在內(nèi)的一個或多個應(yīng)用程序160、其它程序模塊162和程序數(shù)據(jù)164(例如最后得到的語言模型數(shù)據(jù)結(jié)構(gòu)等)。用戶可通過諸如鍵盤166和定點設(shè)備168之類的輸入裝置把命令和信息輸入計算機102。其它輸入裝置(圖中未示出)可包括麥克風(fēng)、操縱桿、游戲墊、碟形衛(wèi)星天線、掃描儀等等。這些及其它輸入裝置通過與總線136耦接的接口170與處理器132連接。監(jiān)視器172或者其它類型的顯示裝置也通過諸如視頻適配器174之類的接口與總線136相連。除了監(jiān)視器172之外,個人計算機通常包括諸如揚聲器和打印機之類的其它外圍輸出裝置(圖中未示出)。
如圖所示,計算機102在利用與一個或多個遠(yuǎn)程計算機,例如遠(yuǎn)程計算機176的邏輯連接的網(wǎng)絡(luò)化環(huán)境中工作。遠(yuǎn)程計算機176可以是另一個人計算機、個人數(shù)字助理、服務(wù)器、路由器或者其它網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)“瘦客戶機(thin-client)”PC、對等設(shè)備或者其它常見網(wǎng)絡(luò)節(jié)點,并且一般包括上面相對于計算機102說明的一些或者所有元件,不過在圖1中只圖解表示了存儲器178。
如圖所示,圖1中描述的邏輯連接包括局域網(wǎng)(LAN)180和廣域網(wǎng)(WAN)182。在辦公室、企業(yè)范圍計算機網(wǎng)絡(luò)、企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)中這種網(wǎng)絡(luò)化環(huán)境很平常。在一個實施例中,遠(yuǎn)程計算機176執(zhí)行諸如由Washington,Redmond的Microsoft Corporation生產(chǎn)并供銷的“Internet Explorer”之類的因特網(wǎng)Web瀏覽器程序,以便訪問并利用在線服務(wù)。
當(dāng)用在LAN網(wǎng)絡(luò)環(huán)境中時,計算機102通過網(wǎng)絡(luò)接口或適配器184與局域網(wǎng)180相連。當(dāng)用在WAN網(wǎng)絡(luò)環(huán)境中時,計算機102一般包括與諸如因特網(wǎng)之類的廣域網(wǎng)182建立通信的調(diào)制解調(diào)器186或者其它裝置。調(diào)制解調(diào)器186(可以是內(nèi)置的也可以是外置的)通過輸入/輸出(I/O)接口156與總線136相連。除了網(wǎng)絡(luò)連通性之外,I/O接口156還支持一個或多個打印機188。在網(wǎng)絡(luò)化環(huán)境中,相對于個人計算機102或其各個部分說明的程序模塊可保存在遠(yuǎn)程存儲器中。要認(rèn)識到所表示的網(wǎng)絡(luò)連接是例證性的,可使用在計算機之間建立通信連接的其它手段。
一般來說,借助在不同時間保存到計算機的各種計算機可讀存儲介質(zhì)中的指令對計算機102的數(shù)據(jù)處理器編程。程序和操作系統(tǒng)一般分布在例如軟盤或CD-ROM上。程序和操作系統(tǒng)從軟盤或CD-ROM上被安裝或者加載到計算機的輔助存儲器中。執(zhí)行時,它們至少被部分加載到計算機的主電子存儲器中。當(dāng)這些及其它各種類型的計算機可讀存儲介質(zhì)和微處理器或者其它數(shù)據(jù)處理器一起包含實現(xiàn)下面說明的創(chuàng)新步驟的指令或程序時,這里描述的發(fā)明包括這樣的計算機可讀存儲介質(zhì)。當(dāng)計算機本身按照下面說明的方法和技術(shù)編程時,本發(fā)明還包括該計算機。此外,可對計算機的某些子部件編程,以便執(zhí)行下面描述的功能和步驟。當(dāng)按照所述對這些子部件編程時,本發(fā)明還包括這樣的子部件。另外,這里描述的發(fā)明包括下面說明的包含在各種存儲介質(zhì)上的數(shù)據(jù)結(jié)構(gòu)。
為了便于說明,這里把程序和其它可執(zhí)行的程序組件,例如操作系統(tǒng)表示為分離的程序塊,不過要認(rèn)識到這樣的程序和組件在不同時候駐留在計算機的不同存儲部件上,并且由計算機的數(shù)據(jù)處理器執(zhí)行。
例證的語言建模代理圖2圖解說明體現(xiàn)本發(fā)明教導(dǎo)的例證語言建模代理(LMA)(104)的方框圖。如圖所示,語言建模代理104由一個或多個控制器202、創(chuàng)新的分析引擎204、存儲器206和可選的一個或多個輔助應(yīng)用程序(例如圖形用戶界面、預(yù)測應(yīng)用程序、驗證應(yīng)用程序、估計應(yīng)用程序等)208組成。它們?nèi)鐖D所示通過通信相連。要認(rèn)識到雖然在圖2中被描述成若干不同的部分,不過LMA 104的一個或多個功能元件也可結(jié)合在一起。在這方面,在不脫離本發(fā)明的精神和范圍的情況下,可采用更復(fù)雜或者較簡單的迭代聯(lián)合優(yōu)化動態(tài)詞典、分段和語言模型的建模代理。
如上間接所示,雖然被描述成單獨的功能元件,LMA 104也可被實現(xiàn)成更高級應(yīng)用程序,例如字處理器、web瀏覽器、語音識別系統(tǒng)或者語言轉(zhuǎn)換系統(tǒng)的一種功能。在這方面,LMA 104的控制器202對來自父應(yīng)用程序的一個或多個指示命令作出反應(yīng),有選擇地調(diào)用LMA104的特征。另一方面,LMA 104也可被實現(xiàn)為單獨的語言建模工具,向用戶提供有選擇地實現(xiàn)下面所述的LMA 104的特征的用戶界面(208)。
在任一種情況下,LMA 104的控制器202有選擇地調(diào)用分析引擎204的一個或多個功能,從而根據(jù)動態(tài)產(chǎn)生的詞典和分段算法優(yōu)化語言模型。從而除了被配置成實現(xiàn)本發(fā)明的教導(dǎo)之外,控制器202用來代表本領(lǐng)域中已知的若干備選控制系統(tǒng)中的任意一種控制系統(tǒng),包括(但不局限于)微處理器、可編程的邏輯陣列(PLA)、微型機、專用集成電路(ASIC)等等。在備選實現(xiàn)中,控制器202用來代表實現(xiàn)上述控制邏輯的一系列可執(zhí)行的指令。
如圖所示,創(chuàng)新的分析引擎204由Markov概率計算器212、包括頻率計算子例程213、動態(tài)詞典生成子例程214和動態(tài)分段子例程216的數(shù)據(jù)結(jié)構(gòu)生成器210及數(shù)據(jù)結(jié)構(gòu)存儲管理器218構(gòu)成。當(dāng)接收外部指示時,控制器202有選擇地調(diào)用分析引擎204的某一實例形成、修改并優(yōu)化統(tǒng)計語言模型(SLM)。更具體地說,和現(xiàn)有的語言建模技術(shù)相反,分析引擎204基本根據(jù)文本語料庫(例如一組或多組文本)的單個項目(例如字符、字母、數(shù)字等)之間的Markov轉(zhuǎn)移概率產(chǎn)生統(tǒng)計語言模型數(shù)據(jù)結(jié)構(gòu)。此外,如同將說明的一樣,分析引擎204利用盡可能多的數(shù)據(jù)(稱為“語境(context)”或“排序(order)”)來計算項目串的概率。在這方面,本發(fā)明的語言模型被恰如其分地稱為動態(tài)排序Markov模型(DOMM)。
當(dāng)被控制器202調(diào)用以建立DOMM數(shù)據(jù)結(jié)構(gòu)時,分析引擎204有選擇地調(diào)用數(shù)據(jù)結(jié)構(gòu)生成器210。作為響應(yīng),數(shù)據(jù)結(jié)構(gòu)生成器210建立由若干節(jié)點(與若干項目中的各個項目相關(guān))組成,并且表示節(jié)點間的從屬性的樹狀數(shù)據(jù)結(jié)構(gòu)。如上所述,這里把樹狀數(shù)據(jù)結(jié)構(gòu)稱為DOMM數(shù)據(jù)結(jié)構(gòu)或者DOMM樹??刂破?02接收文本語料庫,并且至少把文本語料庫的一個子集作為動態(tài)訓(xùn)練集合222保存到存儲器206中,將根據(jù)動態(tài)訓(xùn)練集合222產(chǎn)生語言模型。要認(rèn)識到在備選實施例中,也可使用預(yù)定的訓(xùn)練集合。
一旦收到動態(tài)訓(xùn)練集合,頻率計算子例程213至少取回訓(xùn)練集合222的一個子集以供分析。頻率計算子例程213確定訓(xùn)練集合子集中各個項目(字符、字母、數(shù)字、單詞等)的出現(xiàn)頻率。根據(jù)節(jié)點間的從屬性,數(shù)據(jù)結(jié)構(gòu)生成器210把各個項目分配給DOMM樹的適當(dāng)節(jié)點,并有頻率值(Ci)的指示和比較位(bi)。
Markov概率計算器212根據(jù)相關(guān)項目的語境(j)計算項目(字符、字母、數(shù)字等)的概率。更具體地說,根據(jù)本發(fā)明的教導(dǎo),特定項目的Markov概率(Ci)依賴于數(shù)據(jù)“允許”的盡可能多的在先字符,換句話說P(C1,C2,C3,...,CN)≈∏P(CI|CI-1,CI-2,CI-3,...,CJ) (2)Markov概率計算器212用作語境(j)的字符數(shù)不同于字符Ci,Ci-1,Ci-2,Ci-3等的各個序列的“動態(tài)”數(shù)量。根據(jù)一種實現(xiàn),Markov概率計算器212計算的依賴于語境(j)的字符數(shù)至少部分取決于各個字符的頻率值,即它們在整個文本語料庫內(nèi)出現(xiàn)的比率。更具體地說,如果在確定文本語料庫的項目的情況下,Markov概率計算器212至少不確定特定項目的最小出現(xiàn)頻率,則由于與統(tǒng)計不相關(guān),可能從樹狀數(shù)據(jù)結(jié)構(gòu)中將其剪除(即排除)。根據(jù)一個實施例,最低頻率閾值為三(3)。
如上間接所示,分析引擎204不依賴固定詞典或者簡單的分段算法(它們均易于出錯)。相反,分析引擎204有選擇地調(diào)用動態(tài)分段子例程216把項目(例如字符或字母)分成串(例如單詞)。更準(zhǔn)確地說,分段子例程216把訓(xùn)練集合222分成子集(大塊),并且計算內(nèi)聚度(即子集內(nèi)項目間的相似性的一種量度)。分段子例程216反復(fù)進(jìn)行分段及內(nèi)聚性計算,直到各個子集的內(nèi)聚度達(dá)到預(yù)定閾值為止。
詞典生成子例程214被調(diào)用,從而動態(tài)生成詞典220并將其保存到存儲器206中。根據(jù)一種實現(xiàn),詞典生成子例程214分析分段結(jié)果,并根據(jù)Markov轉(zhuǎn)移概率超過閾值的項目串產(chǎn)生詞典。在這方面,詞典生成子例程214根據(jù)超過從由分析引擎204產(chǎn)生的一個或多個語言模型獲得的預(yù)定Markov轉(zhuǎn)移概率的項目串產(chǎn)生動態(tài)詞典220。因此,不同于依賴于易于出錯的已知固定詞典的現(xiàn)有語言模型,分析引擎204根據(jù)在一段時間內(nèi)形成的一個或多個語言模型,產(chǎn)生統(tǒng)計意義更重要、統(tǒng)計準(zhǔn)確的項目串的詞典。根據(jù)一個實施例,詞典220包括在形成后續(xù)語言模型中,Markov概率計算器212所依賴的“虛擬語料庫”(除動態(tài)訓(xùn)練集合之外)。
當(dāng)被調(diào)用從而修改或利用DOMM語言模型數(shù)據(jù)結(jié)構(gòu)時,分析引擎204有選擇地調(diào)用數(shù)據(jù)結(jié)構(gòu)存儲管理器218的一個實例。根據(jù)本發(fā)明的一個方面,數(shù)據(jù)結(jié)構(gòu)存儲管理器218利用系統(tǒng)存儲器及擴展存儲器保存DOMM數(shù)據(jù)結(jié)構(gòu)。更具體地說,如下下面將參考圖6和7更詳細(xì)說明的那樣,數(shù)據(jù)結(jié)構(gòu)存儲管理器218采用WriteNode子例程和ReadNote子例程(圖中未示出)把最近使用的DOMM數(shù)據(jù)結(jié)構(gòu)的節(jié)點子集保存到系統(tǒng)存儲器206的一級高速緩沖存儲器224中,同時把最近很少使用的節(jié)點轉(zhuǎn)移到擴展存儲器(例如硬盤驅(qū)動器144或者某些遠(yuǎn)程驅(qū)動器中的磁盤文件)中,從而提供改進(jìn)的性能特征。另外,系統(tǒng)存儲器206的二級高速緩沖存儲器被用于集合寫入命令,直到達(dá)到預(yù)定的閾值為止,在該閾值點,數(shù)據(jù)結(jié)構(gòu)存儲管理器向存儲器中的適當(dāng)位置發(fā)出一個集合WriteNode命令。雖然被描述成獨立的功能元件,不過本領(lǐng)域的技術(shù)人員將認(rèn)識到在不脫離本發(fā)明的精神和范圍的情況下,數(shù)據(jù)結(jié)構(gòu)存儲管理器218也可被組合成控制器202的功能元件。
例證的數(shù)據(jù)結(jié)構(gòu)-動態(tài)排序Markov模型(DOMM)樹圖3表示根據(jù)本發(fā)明教導(dǎo)的例證動態(tài)排序Markov模型樹狀數(shù)據(jù)結(jié)構(gòu)300的原理圖。為了從原理上說明DOMM樹狀數(shù)據(jù)結(jié)構(gòu)300是如何構(gòu)成的,圖3給出了由英文字母表,即A、B、C、…Z形成的語言模型的例證DOMM數(shù)據(jù)結(jié)構(gòu)300。如圖所示,DOMM樹300包括一個或多個根節(jié)點302和一個或多個從屬節(jié)點304,這些節(jié)點與文本語料庫的一個項目(字符、字母、數(shù)字、單詞等)相關(guān),并被邏輯連接以表示節(jié)點之間的從屬性。根據(jù)本發(fā)明的一個實現(xiàn),根節(jié)點302由一個項目和一個頻率值(例如該項目在文本語料庫中出現(xiàn)多少次的計數(shù)值)組成。在根節(jié)點層302下的某一層,從屬節(jié)點被布置成二叉子樹,其中每個節(jié)點包括一個比較位(bi),該節(jié)點與之相關(guān)的項目(A、B、…)和該項目的頻率值(CN)。
從而,從與項目B 306相關(guān)的根節(jié)點開始,二叉子樹由表示節(jié)點之間的關(guān)系的從屬節(jié)點308-318及它們的出現(xiàn)頻率組成。給定該原理性例子,應(yīng)認(rèn)識到從根節(jié)點,例如節(jié)點306開始,DOMM樹的搜索復(fù)雜性接近log(N),N是要搜索的節(jié)點的總數(shù)。
如上間接所示,DOMM樹300的大小可超過LMA 104的存儲器206和/或計算機系統(tǒng)102的主存儲器中的可用空間。因此,數(shù)據(jù)結(jié)構(gòu)存儲管理器218便于跨越主存儲器(例如140和/或260)把DOMM樹數(shù)據(jù)結(jié)構(gòu)300保存到擴展的存儲空間,例如諸如計算機系統(tǒng)102的硬盤驅(qū)動器144之類主存儲裝置上的磁盤文件中。
例證的操作和實現(xiàn)已參考圖1-3介紹了本發(fā)明的功能和概念元件,下面將參考圖5-10說明創(chuàng)新的語言建模代理104的操作。
建立DOMM樹數(shù)據(jù)結(jié)構(gòu)圖4是根據(jù)本發(fā)明的一方面,建立動態(tài)排序Markov模型(DOMM)的例證方法的流程圖。如上間接所示,語言建模代理104可直接被用戶或高級應(yīng)用程序調(diào)用。作為響應(yīng),LMA 104的控制器202有選擇地調(diào)用分析引擎204的一個實例,文本語料庫(例如一個或多個文檔)作為動態(tài)訓(xùn)練集合222被加載到存儲器206中,并被分成子集(例如句子,詩句等),方框402。作為響應(yīng),數(shù)據(jù)結(jié)構(gòu)生成器210把該子集的各個項目分配給數(shù)據(jù)結(jié)構(gòu)中的節(jié)點,并計算該項目的頻率值,方框404。根據(jù)一種實現(xiàn),一旦數(shù)據(jù)結(jié)構(gòu)生成器已利用該子集填充該數(shù)據(jù)結(jié)構(gòu),則調(diào)用頻率計算子例程213確定訓(xùn)練集合子集內(nèi)各個項目的出現(xiàn)頻率。
在方框406中,數(shù)據(jù)結(jié)構(gòu)生成器確定是否存在訓(xùn)練集合的其它子集,如果是,則在方框408讀取下一子集,并在方框404繼續(xù)該過程。在備選實現(xiàn)中,在調(diào)用頻率計算子例程213之前,數(shù)據(jù)結(jié)構(gòu)生成器210每次一個子集地填充該數(shù)據(jù)結(jié)構(gòu)。在備選實施例中,頻率計算子例程只計數(shù)當(dāng)其被放入數(shù)據(jù)結(jié)構(gòu)的相關(guān)節(jié)點時的各個項目。
如果在方框406中,數(shù)據(jù)結(jié)構(gòu)生成器210已完全給數(shù)據(jù)結(jié)構(gòu)300加上訓(xùn)練集合222的各個項目,則數(shù)據(jù)結(jié)構(gòu)生成器210可隨意地刪除數(shù)據(jù)結(jié)構(gòu),方框410??刹捎萌舾煞N機制刪除作為結(jié)果得到的數(shù)據(jù)結(jié)構(gòu)300。
詞典、分段和語言模型聯(lián)合優(yōu)化的例證方法圖5是根據(jù)本發(fā)明教導(dǎo)的詞典、分段和語言模型聯(lián)合優(yōu)化的例證方法的流程圖。如圖所示,該方法開始于方框400,在方框400中,調(diào)用LM 104,并且建立至少接收的文本語料庫的一個子集的前綴樹。更具體地說,如圖4中所示,建模代理104的數(shù)據(jù)結(jié)構(gòu)生成器210分析接收的文本語料庫,并且至少選擇一個子集作為訓(xùn)練集合,根據(jù)該訓(xùn)練集合建立DOMM樹。
在方框502中,根據(jù)前綴樹建立一個很大的詞典,對該詞典進(jìn)行預(yù)處理,從而除去某些明顯不合邏輯的單詞。更具體地說,調(diào)用詞典生成子例程214,根據(jù)前綴樹建立初始詞典。根據(jù)一種實現(xiàn),利用其長度小于某一預(yù)定值,比方說十(10)個項目的所有子串(即從根節(jié)點到最大的從屬節(jié)點,該子串為10個節(jié)點或小于10個節(jié)點),根據(jù)前綴樹建立初始詞典。一旦匯編完成初始詞典,詞典生成子例程214通過刪除某些明顯不合邏輯的單詞精減該詞典(例如參見下面的方框604)。根據(jù)一種實現(xiàn),詞典生成子例程214把至少根據(jù)接收的文本語料庫的訓(xùn)練集合產(chǎn)生的新的初始詞典附加到預(yù)定的詞典上。
在方框504中,利用初始詞典至少對接收的文本語料庫的訓(xùn)練集合分段。更具體地說,調(diào)用動態(tài)分段子例程216至少對接收的文本語料庫的訓(xùn)練集合分段,產(chǎn)生初始的分段文本語料庫。本領(lǐng)域的技術(shù)人員將認(rèn)識到存在各種對訓(xùn)練文本語料庫分段的方法,例如固定長度分段,最大匹配等等。為此在還沒有根據(jù)接收的文本語料庫產(chǎn)生統(tǒng)計語言模型(SLM)的情況下,動態(tài)分段子例程216利用最大匹配技術(shù)提供初始的分段文本語料庫。因此,分段子例程216開始于項目串(或者DOMM樹的分支)的起點,并且搜索詞典,查看初始的項目(I1)是否是一個(one-item)“單詞”。分段子例程隨后把該項目與串中的下一項目進(jìn)行組合,以了解在該詞典中是否以“單詞”的形式找到組合結(jié)果(例如I1I2),依次類推。根據(jù)一種實現(xiàn),在詞典中找到的項目的最長串(I1,I2,…IN)被認(rèn)為是該串的正確分段。要認(rèn)識到在不脫離本發(fā)明的精神和范圍的情況下,分段子例程216可利用更復(fù)雜的最大匹配算法。
在根據(jù)訓(xùn)練文本語料庫形成初始詞典和分段之后,進(jìn)入迭代過程,其中詞典、分段和語言模型被聯(lián)合優(yōu)化,方框506。更具體地說,如同下面將更詳細(xì)說明的那樣,創(chuàng)新的迭代優(yōu)化采用統(tǒng)計語言建模方法動態(tài)調(diào)整分段和詞典,從而提供優(yōu)化的語言模型。即,不同于現(xiàn)有的語言建模技術(shù),建模代理104不依賴于預(yù)定的靜態(tài)詞典,或者過分簡單的分段算法來產(chǎn)生語言模型。相反,建模代理104利用接收的文本語料庫,或者至少利用接收的文本語料庫的一個子集(訓(xùn)練集合)動態(tài)產(chǎn)生詞典和分段,從而產(chǎn)生優(yōu)化的語言模型。在這方面,建模代理104產(chǎn)生的語言模型不存在通常和現(xiàn)有的建模系統(tǒng)相關(guān)的缺陷和局限性。
在已介紹圖5中的創(chuàng)新過程之后,圖6根據(jù)本發(fā)明的一種實現(xiàn),給出產(chǎn)生初始詞典的更詳細(xì)的流程圖,以及提煉詞典和分段從而優(yōu)化語言模型的迭代過程。如前面一樣,該方法開始于根據(jù)接收的文本語料庫建立前綴樹的步驟400(圖4)。如上所述,可利用整個文本語料庫,或者利用整體文本語料庫的一個子集(稱為訓(xùn)練語料庫)建立前綴樹。
在方框502中,產(chǎn)生初始詞典的過程開始于方框602,其中詞典生成子例程214通過識別具有小于預(yù)定數(shù)目的項目的子串(或者前綴樹的分支),根據(jù)前綴樹產(chǎn)生初始詞典。根據(jù)一種實現(xiàn),詞典生成子例程214確定十(10)個項目或者少于10個項目的子串,從而構(gòu)成初始詞典。在方框604中,詞典生成子例程214針對顯然不合邏輯的子串分析在步驟602中產(chǎn)生的初始詞典,從初始詞典中除去這些子串。即,詞典生成子例程214分析初始詞典子串中不合邏輯的或者不可能的單詞,并從詞典中除去這些單詞。對于初始刪減來說,調(diào)用動態(tài)分段子例程216至少對接收的文本語料庫的訓(xùn)練集合分段,產(chǎn)生分段的語料庫。根據(jù)一種實現(xiàn),最大匹配算法被用于根據(jù)初始詞典進(jìn)行分段。隨后調(diào)用頻率分析子例程213,計算詞典中各個單詞在接收的文本語料庫中的出現(xiàn)頻率,并且按照出現(xiàn)頻率對詞典分類。確定頻率最低的單詞并從詞典中刪除該單詞??筛鶕?jù)語料庫的大小確定刪除和重新分段的閾值。根據(jù)一種實現(xiàn),600M項目的語料庫可利用500的頻率閾值被包含在該詞典內(nèi)。這樣,可從初始詞典中刪除絕大多數(shù)明顯不合邏輯的單詞。
一旦在步驟502產(chǎn)生并刪減初始詞典,則至少部分根據(jù)初始詞典對接收的文本語料庫分段,方框504。如上所述,根據(jù)一種實現(xiàn),利用最大匹配方法完成文本語料庫的初始分段。
一旦完成初始詞典和文本語料庫分段過程,則動態(tài)改變詞典和分段的迭代過程開始根據(jù)接收的文本語料庫(或者訓(xùn)練集合)優(yōu)化統(tǒng)計語言模型(SLM),方框506。如圖所示,該程序開始于方框606,其中Markov概率計算器212利用初始詞典和分段開始使用分段文本語料庫進(jìn)行語言模型訓(xùn)練。即,給定初始詞典和初始分段,可由其產(chǎn)生統(tǒng)計語言模型。應(yīng)注意雖然語言模型沒有得益于精煉的詞典和基于統(tǒng)計的分段(這將演變成下面的步驟),但是語言模型基本上是以接收的文本語料庫自身為基礎(chǔ)的。從而,雖然初始的語言模型。
在方框608中,在已進(jìn)行初始語言模型訓(xùn)練之后,利用基于SLM的分段對分段的文本語料庫(或者訓(xùn)練集合)重新分段。已知句子w1,w2,…wn的情況下,存在M種對其分段的可能途徑(M≥1)。動態(tài)分段子例程216根據(jù)N-gram統(tǒng)計語言模型,計算各個分段(Si)的概率(pi)。根據(jù)一種實現(xiàn),分段子例程216利用tri-gram(即N=3)統(tǒng)計語言模型確定任意給定分段的概率。采用Viterbi搜索算法找出最可能的分段Sk,這里Sk=arg max(pi) (3)在方框610中,利用由上述基于SLM的分段得到的重新分段的文本語料庫更新詞典。根據(jù)一種實現(xiàn),建模代理104調(diào)用頻率分配子例程213計算詞典中各個單詞在接收的文本語料庫中的出現(xiàn)頻率,按照出現(xiàn)頻率對詞典分類。確定頻率最低的單詞,并將其從詞典中刪除。隨后當(dāng)重新計算所有這些單詞的單一計數(shù)時,必須把該單詞的所有出現(xiàn)重新分成較小的單詞。可根據(jù)語料庫的大小確定這種刪除和重新分段的閾值。根據(jù)一種實現(xiàn),600M項目的語料庫可利用為500的頻率閾值被包含在該詞典內(nèi)。
在方框612中,更新語言模型,以反映動態(tài)產(chǎn)生的詞典和基于SLM的分段,Markov概率計算器212計算語言模型混亂性的量度(即相反的概率量度)。如果混亂性繼續(xù)會聚(趨近0),即得到改善,則在方框608繼續(xù)該程序,在方框608中,在有意進(jìn)一步改善語言模型性能(以混亂性量度)的情況下,再一次修改詞典和分段。如果在方框614中確定對詞典和分段的新近修改沒有改善語言模型,則在方框616進(jìn)一步確定混亂性是否已達(dá)到可接受的閾值。如果是,則該程序終止。
但是如果語言模型還未達(dá)到可接受的混亂性閾值,則在方框608,詞典生成子例程214從詞典中刪除在語料庫中出現(xiàn)頻率最低的單詞,在方框618把該單詞重新分成更小的單詞,程序繼續(xù)進(jìn)行到方框610。
根據(jù)上述說明,要認(rèn)識到以在統(tǒng)計上至少基于接收語料庫的子集的動態(tài)生成的詞典和分段規(guī)則作為前提,創(chuàng)新的語言建模代理104產(chǎn)生優(yōu)化的語言模型。在這方面,和現(xiàn)有的語言模型相比,最后得到的語言模型具有改進(jìn)的計算和預(yù)測能力。
備選實施例圖7是根據(jù)本發(fā)明另一實施例的其上存儲有若干指令,包括實現(xiàn)本發(fā)明的創(chuàng)新建模代理的指令的存儲介質(zhì)的方框圖。一般來說,圖7圖解說明了具有存儲于其上的若干可執(zhí)行的指令702的存儲介質(zhì)/裝置700,所述可執(zhí)行的指令702至少包括當(dāng)被執(zhí)行時,實現(xiàn)本發(fā)明的創(chuàng)新建模代理104的指令的一個子集。當(dāng)被主系統(tǒng)的處理器執(zhí)行時,可執(zhí)行的指令702實現(xiàn)建模代理,產(chǎn)生供在主系統(tǒng)上執(zhí)行或者以其它方式適用于主系統(tǒng)的其它應(yīng)用程序的任意主機使用的文本語料庫的統(tǒng)計語言模型表示。
這里使用的存儲介質(zhì)700是用來代表本領(lǐng)域的技術(shù)人員已知的若干存儲裝置和/或存儲介質(zhì)中的任意一種,例如易失性存儲裝置、非易失性存儲裝置、磁性存儲介質(zhì)、光學(xué)存儲介質(zhì)等等。類似地,可執(zhí)行的指令是用來反映本領(lǐng)域中已知的若干軟件語言中的任意一種,例如C++、Visual Basic、超文本鏈接標(biāo)示語言(HTML)、Java、擴展標(biāo)示語言(XML)等等。此外,要認(rèn)識到存儲介質(zhì)/裝置700不必和任意主系統(tǒng)協(xié)同定位。即,存儲介質(zhì)/裝置700可駐留在與執(zhí)行系統(tǒng)通信耦接,并且可被執(zhí)行系統(tǒng)訪問的遠(yuǎn)程服務(wù)器內(nèi)。因此,圖7的軟件實現(xiàn)應(yīng)被看作是例證性的,因為可以預(yù)料備選的存儲介質(zhì)和軟件實現(xiàn)在本發(fā)明的精神和范圍內(nèi)。
雖然已在特定于結(jié)構(gòu)特征和/或方法步驟的語言方面說明了本發(fā)明,但是要明白在附加的權(quán)利要求中限定的本發(fā)明不必局限于所說明的具體特征或步驟。相反,只是作為實現(xiàn)要求權(quán)利的發(fā)明的例證形式公開了這些具體的特征和步驟。
權(quán)利要求
1.一種方法,包括根據(jù)由接收的語料庫獲得的詞典和分段形成初始的語言模型;和通過根據(jù)統(tǒng)計原理,動態(tài)地更新詞典和對語料庫重新分段,反復(fù)精煉初始語言模型,直到達(dá)到預(yù)測能力閾值為止。
2.按照權(quán)利要求1所述的方法,其中建立初始的語言模型的步驟包括根據(jù)從接收的語料庫分解的項目生成前綴樹數(shù)據(jù)結(jié)構(gòu);根據(jù)前綴樹數(shù)據(jù)結(jié)構(gòu)確定N個項目或小于N個項目的子串;利用確定的子串填充所述詞典。
3.按照權(quán)利要求2所述的方法,其中N等于3。
4.按照權(quán)利要求1所述的方法,其中迭代改進(jìn)初始語言模型的步驟包括通過確定各個分段的出現(xiàn)概率,對所述語料庫重新分段。
5.按照權(quán)利要求4所述的方法,其中利用N-gram語言模型計算確定分段的出現(xiàn)概率。
6.按照權(quán)利要求5所述的方法,其中N-grim語言模型是3-gram語言模型。
7.按照權(quán)利要求4所述的方法,其中利用兩個在先分段計算確定分段的出現(xiàn)概率。
8.按照權(quán)利要求4所述的方法,其中迭代改進(jìn)語言模型的步驟包括根據(jù)重新分段的語料庫更新詞典。
9.按照權(quán)利要求8所述的方法,其中更新詞典包括確定詞典的各個單詞在接收的語料庫中的出現(xiàn)頻率;和從詞典中刪除所確定的頻率最低的單詞。
10.按照權(quán)利要求9所述的方法,還包括把刪除的單詞重新分成兩個或更多的較小單詞,并且利用重新分段的單詞更新詞典。
11.按照權(quán)利要求8所述的方法,還包括利用更新的詞典和重新分段的語料庫,計算語言模型的預(yù)測量度。
12.按照權(quán)利要求11所述的方法,其中預(yù)測量度是語言模型混亂性。
13.按照權(quán)利要求11所述的方法,還包括確定由于更新和重新分段的結(jié)果,語言模型的預(yù)測能力是否被改善;和如果預(yù)測能力被改善,則進(jìn)行另外的更新和重新分段,直到確定沒有進(jìn)一步的改進(jìn)為止。
14.按照權(quán)利要求1所述的方法,其中利用最大匹配技術(shù)得到初始語言模型。
15.按照權(quán)利要求1所述的方法,其中預(yù)測能力被量化表述為混亂性量度。
16.按照權(quán)利要求15所述的方法,其中改進(jìn)語言模型,直到混亂性量度被降低到低于可接受的預(yù)測閾值為止。
17.按照權(quán)利要求1所述的方法,還包括在應(yīng)用程序中利用反復(fù)改進(jìn)的語言模型預(yù)測另一語料庫的可能性。
18.按照權(quán)利要求17所述的方法,其中所述應(yīng)用程序是拼寫和/或語法檢查器、字處理應(yīng)用程序、語言翻譯應(yīng)用程序、語音識別應(yīng)用程序等的一種或多種。
19.一種包括若干可執(zhí)行指令的存儲介質(zhì),所述可執(zhí)行指令至少包括當(dāng)被執(zhí)行時,實現(xiàn)按照權(quán)利要求1所述的方法的指令子集。
20.一種計算機系統(tǒng),包括其中保存若干可執(zhí)行指令的存儲裝置;與所述存儲裝置耦接,至少執(zhí)行所述若干可執(zhí)行指令的指令子集,從而實現(xiàn)按照權(quán)利要求1所述的方法的執(zhí)行單元。
21.一種包括若干可執(zhí)行指令的存儲介質(zhì),所述可執(zhí)行指令至少包括當(dāng)被執(zhí)行時,實現(xiàn)語言建模代理的指令子集,所述語言建模代理包括根據(jù)由接收的語料庫得到的詞典和分段建立初始語言模型的子例程,以及通過根據(jù)統(tǒng)計原理動態(tài)更新詞典并且對語料庫重新分段,反復(fù)改進(jìn)初始語言模型,直到達(dá)到預(yù)測能力的閾值為止的子例程。
22.按照權(quán)利要求21所述的存儲介質(zhì),其中語言建模代理利用混亂性量度量化確定預(yù)測能力。
23.按照權(quán)利要求21所述的存儲介質(zhì),其中語言建模代理利用最大匹配技術(shù),由接收的語料庫獲得詞典和分段。
24.按照權(quán)利要求21所述的存儲介質(zhì),其中建立初始語言模型的子例程根據(jù)從接收的語料庫分解的項目生成前綴樹數(shù)據(jù)結(jié)構(gòu),根據(jù)前綴樹確定N個項目或少于N個項目的子串,并且利用確定的子串填充詞典。
25.按照權(quán)利要求21所述的存儲介質(zhì),其中子例程通過確定各個分段的出現(xiàn)頻率,反復(fù)改進(jìn)初始語言模型,并對語料庫進(jìn)行重新分段,以反映改進(jìn)的分段概率。
26.按照權(quán)利要求25所述的存儲介質(zhì),其中語言建模代理利用隱藏的Markov概率量度確定各個分段的出現(xiàn)概率。
27.按照權(quán)利要求19所述的存儲介質(zhì),還包括至少當(dāng)被執(zhí)行時,通過利用由語言建模代理建立的語言模型實現(xiàn)應(yīng)用程序的指令子集。
28.一種系統(tǒng),包括可拆卸地安放按照權(quán)利要求19所述的存儲介質(zhì)的存儲介質(zhì)驅(qū)動器;和與所述存儲介質(zhì)驅(qū)動器耦接,至少訪問并執(zhí)行駐留在可拆卸地安放的存儲介質(zhì)上的若干可執(zhí)行指令的指令子集,從而實現(xiàn)語言建模代理的執(zhí)行單元。
29.一種建模代理,包括確定語料庫分段的似然性的統(tǒng)計計算器;和一個數(shù)據(jù)結(jié)構(gòu)生成器,根據(jù)由接收的語料庫動態(tài)獲得的詞典和分段建立初始語言模型,并且反復(fù)改進(jìn)語言模型,直到語料庫分段的似然性達(dá)到可接受的閾值為止。
30.按照權(quán)利要求29所述的建模代理,其中統(tǒng)計計算器利用Markov建模技術(shù)確定語料庫分段的似然性。
31.按照權(quán)利要求29所述的建模代理,其中數(shù)據(jù)結(jié)構(gòu)生成器根據(jù)從接收的語料庫分解的項目生成前綴樹數(shù)據(jù)結(jié)構(gòu),根據(jù)前綴樹確定N個項目或小于N個項目的子串,并且利用確定的子串填充詞典。
32.按照權(quán)利要求31所述的建模代理,其中統(tǒng)計計算器確定被確定的子串的似然性,其中建模代理對語料庫重新分段,試圖提高子串似然性。
全文摘要
提供一種優(yōu)化語言模型的方法,包括利用最大匹配技術(shù),根據(jù)由接收的語料庫獲得的詞典和分段建立初始語言模型,并且通過根據(jù)統(tǒng)計原理,動態(tài)更新詞典和對語料庫進(jìn)行重新分段,反復(fù)改進(jìn)初始語言模型,直到達(dá)到預(yù)測能力的閾值為止。
文檔編號G10L15/06GK1387651SQ00815294
公開日2002年12月25日 申請日期2000年11月3日 優(yōu)先權(quán)日1999年11月5日
發(fā)明者王海峰, 黃常寧, 李凱夫, 狄碩, 蔡東峰, 秦立峰, 郭建峰 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
桂林市| 阳曲县| 高阳县| 诸城市| 潮州市| 余姚市| 伊金霍洛旗| 北川| 铜梁县| 东平县| 云浮市| 南丹县| 沁阳市| 旬邑县| 东台市| 正蓝旗| 曲沃县| 阿合奇县| 固原市| 苗栗市| 天水市| 呼图壁县| 黔西县| 商城县| 红河县| 枣强县| 盐城市| 黄骅市| 盖州市| 荔浦县| 东莞市| 儋州市| 闽清县| 潜山县| 亳州市| 江源县| 施甸县| 彝良县| 淮南市| 枣阳市| 大厂|