欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于詞匯獲取和詞邊界識別的方法和系統(tǒng)的制作方法

文檔序號:6478643閱讀:226來源:國知局
專利名稱:用于詞匯獲取和詞邊界識別的方法和系統(tǒng)的制作方法
技術領域
本發(fā)明通常涉及詞匯的獲取以及識別未分段文本的詞(word)邊界,并且尤其涉及使用統(tǒng)計方法自動地分段中文文本的方法和系統(tǒng)。
背景技術
與西方的歐洲語言不同,亞洲語言,尤其是中國語言,通常沒有明確的詞邊界標記在正常的句子中。為輸入句子找到詞邊界的任務被稱為分段化。傳統(tǒng)的分段化算法依賴于基于規(guī)則的知識,包括預定義的字典,以便尋找詞邊界。這些方案的缺點是對新詞的處理能力很差,并且在存在歧義時缺乏用于選擇最佳邊界序列的數(shù)學模型。
另外,已經(jīng)提出了各種基于統(tǒng)計的分段化算法。然而,除了幾個例外以外,這些算法嚴重地依賴于已有的字典,而當新詞出現(xiàn)時常常失敗。在沒有針對新詞的適當處理的情況下,所導致的錯誤將擴散到其相鄰的分段邊界。
分段化是亞洲語言處理的重要部分,包括漢語,日本語和韓國語。改進分段化的準確性可導致更準確地處理輸入文本,例如,分析和理解句子的含義。


圖1是根據(jù)本發(fā)明的一個實施例,用于獲得新詞和尋找輸入句子的詞邊界的系統(tǒng)的模塊圖。
圖2是根據(jù)本發(fā)明的一個實施例的訓練過程的流程圖。
圖3是根據(jù)本發(fā)明的一個實施例,調整與字典中存在的字相關的似然值的流程圖。
圖4是根據(jù)本發(fā)明的一個實施例的分段化過程的流程圖。
圖5是根據(jù)本發(fā)明的一個實施例的兩字符組合的相依度(contingency)表。
圖6A和6B是根據(jù)本發(fā)明的一個實施例的三字符組合的相依度表。
具體實施例方式
在以下描述中,闡明了具體細節(jié)以供對本發(fā)明的全面理解。然而,對于本領域的技術人員,顯然可以在不具備這些具體細節(jié)的情況下實施本發(fā)明。在其他的實例中,為了避免模糊本發(fā)明,沒有詳細地示出熟知的電路,結構和技術。
圖1根據(jù)本發(fā)明的一個實施例,描述了用于詞匯獲取和詞邊界識別的系統(tǒng)100的模塊圖。系統(tǒng)100包括訓練模塊102,分段模塊104和Viterbi模塊112??梢砸攒浖a的形式實施訓練模塊102,以便分析文本數(shù)據(jù)文件以產(chǎn)生與不同字符組合相關的統(tǒng)計值。在一個實施例中,根據(jù)出現(xiàn)在訓練文本數(shù)據(jù)文件中的不同字符組合的出現(xiàn)數(shù)量來取得統(tǒng)計值。訓練文本數(shù)據(jù)文件是代表特定語言(例如,中文)的文本的語料(corpus)。
在一個實施例中,訓練模塊使用相依度表108跟蹤出現(xiàn)在訓練文本數(shù)據(jù)中的不同字符組合的出現(xiàn)次數(shù)。因為在漢語中有數(shù)以千計的字符,在訓練過程期間將生成許多相依度表(例如,數(shù)千甚至數(shù)百萬)。每個相依度表包括若干計數(shù)數(shù)據(jù),并且每個相依度表與特定字符串組合相關聯(lián)。參考圖5,圖6A和圖6B將提供關于相依度表108的詳細解釋。
根據(jù)一個實施例的一個方面,在訓練過程期間,可以使用未分段的文本數(shù)據(jù)(即包含句子的訓練文本數(shù)據(jù),其沒有明確的詞邊界)。通過使訓練模塊102能在其訓練過程期間分析未分段的文本數(shù)據(jù),本發(fā)明可提供勝過某些常規(guī)分段化技術的顯著優(yōu)點,因為可使用代表特定語言(例如,中文)的大量未分段文本數(shù)據(jù)來獲取新的和不常出現(xiàn)的詞。這是有用的,因為代表諸如中文的語言的大量分段文本數(shù)據(jù)(即包含具有明確詞邊界的句子的文本數(shù)據(jù))可能尚不具備,并且手工分段文本數(shù)據(jù)是極其消耗時間的。
在訓練模塊102已經(jīng)計出出現(xiàn)在訓練文本數(shù)據(jù)中的不同字符組合的出現(xiàn)次數(shù)之后,訓練模塊102將計算與每個字符組合相關的似然值。以下討論本發(fā)明如何計算似然值。在似然值表110中存儲訓練模塊取得的似然值。在一個實施例中,似然值表110包含訓練過程期間所識別的二,三和四字符組合的列表,以及與每個字符串組合相關的似然值。
系統(tǒng)中還包括含有訓練文本數(shù)據(jù)的語言所固有的詞的字典106。在訓練過程期間,訓練模塊訪問字典106中包含的詞,以便調整所計算的似然值。更具體地,當統(tǒng)計值低于所定義的閾值時,調整與出現(xiàn)在字典中的那些字符組合相關的統(tǒng)計值。由于統(tǒng)計方法的限制,那些不常出現(xiàn)在訓練語料中的字符組合將有低的似然值。于是,如果特定字符組合是字典中的詞,并且其似然值低于所定義的閾值,則通過執(zhí)行適當?shù)恼{整操作,可以改善與這種字符組合相關的似然值。
在一個實施例中,在存儲器中存儲似然值表,以便隨后在輸入句子的分段化期間使用。應當注意到,生成相依度表的目的是為了獲取似然值,并且不需要為了將來分段化的目的而在存儲器中永久地存儲相依度表。
一旦完成了訓練過程,分段模塊104可以使用所獲得的訓練數(shù)據(jù),以執(zhí)行必需的操作以在輸入句子中識別詞邊界。輸入句子可以被定義為位于兩個相鄰標點符號標記之間的串(例如,若干未分段的字符)。在一個實施例中,為了識別輸入句子可以被分段的若干不同方式,以軟件代碼的形式實施分段模塊104,以便分析定義輸入句子的字符串。參考圖4將更詳細地解釋分段模塊執(zhí)行的操作。一旦分段模塊104已經(jīng)識別出輸入句子可以被分段的不同方式,使用Viterbi模塊112根據(jù)與不同候選詞邊界相關的似然值,找出不同分段化可選方式中的最佳路徑。
圖5根據(jù)本發(fā)明的一個實施例描述了用于計算在訓練文本數(shù)據(jù)中特定兩字符組合的出現(xiàn)次數(shù)的相依度表。在漢語中,詞通常包括一個,兩個,三個或四個字符。在此點上,分別使用二,三和四字符相依度表以跟蹤二,三和四字符組合的出現(xiàn)。在一個實施例中,因為包括超過四字符的中文詞不常出現(xiàn),不生成五或更多字符串組合的相依度表。然而,如本領域普通技術人員會理解的,本發(fā)明可以使用詞長度大于四字符的相依度表,以識別五個或更多字符的詞。這些均在本發(fā)明的范圍和考慮之內。
如之前所說明的,因為中文包括數(shù)以千計的字符,在訓練過程期間將產(chǎn)生許多相依度表(例如,數(shù)千甚至數(shù)百萬)以覆蓋不同的字符串組合。每個相依度表與特定的字符串組合相關。使用相依度表計算彼此相繼出現(xiàn)的字符的特定序列的次數(shù)。在圖5中,字符A表示特定字符,其可以是,例如,數(shù)以千計的中文字符中的任何一個,并且類似地,字符B表示另一個漢語字符?!獳表示除字符A之外的所有字符?!獴表示除字符B之外的所有字符。
在如圖5所示的相依度表中,第一列502代表兩字符組合,其中字符B作為第二字符出現(xiàn)。類似地,第二列504代表兩字符組合,其中字符B不作為第二字符出現(xiàn)。相依度表中的第一行508和第二行510分別代表字符A作為第一個字符出現(xiàn),以及字符A不作為第一個字符出現(xiàn)。因此,N(11)代表兩字符的串(由第一字符A和緊跟其后的第二字符B組成)出現(xiàn)在訓練文本數(shù)據(jù)內的計數(shù)。N(21)代表兩字符串(其中第一字符不是字符A,并且第二字符是字符B)的計數(shù)。N(12)代表兩字符串(其中第一字符是字符A,并且第二字符不是字符B)的計數(shù)。N(22)代表兩字符串(其中第一字符不是字符A,并且第二字符不是字符B)的計數(shù)。
例如,如果字符A代表“Shan”,而字符B代表“Huang”。計數(shù)N(11)將指示在訓練數(shù)據(jù)中,字符“Shan”有多少次出現(xiàn)在字符“Huang”之前。因此,在訓練過程中,每當字符“Shan”和字符“Huang”以這個順序彼此相繼出現(xiàn)時,變量N(11)遞增。計數(shù)N(12)將指示在訓練數(shù)據(jù)中,多少次字符“Shan”沒有后跟字符“Huang”。
使用計數(shù)值N(11),N(12),N(21)和N(22),可以計算在相依度表的第三列506和第三行512中的其他合計計數(shù)值。例如,N(1·)是N(11)和N(12)的總和。N(2·)是N(21)和N(22)的總和。相似地,N(·1)是N(11)和N(21)的總和。N(·2)是N(12)和N(22)的總和。最后,總計數(shù)N是全部4個值N(11),N(12),N(21)和N(22)的總和。
圖6A和6B根據(jù)本發(fā)明的一個實施例,描述了用于計算三字符的串組合的次數(shù)的相依度表。為了計算三字符組合的出現(xiàn),使用了兩個相依度表。在如圖6A所示的第一個表中,第一列602和第二列604分別代表字符C作為第三個字符出現(xiàn),以及字符C不作為第三個字符出現(xiàn)。第一個表中的第一行608和第二行610分別代表兩字符串(AB)作為前兩個字符出現(xiàn),以及字符串(AB)不作為前兩個字符出現(xiàn)。因此,N(11)代表由前兩個字符的串AB和緊跟其后的字符C組成的三字符串出現(xiàn)在訓練文本數(shù)據(jù)內的計數(shù)。N(21)代表三字符串(其中前兩個字符的串不是AB并且第三字符是字符C)的計數(shù)。N(12)代表三字符串(其中前兩個字符的串是AB并且第三字符不是字符C)的計數(shù)。N(22)代表三字符串(其中前兩個字符的串不是AB并且第三字符不是字符C)的計數(shù)。
在圖6B所示的第二個表中,第一列652和第二列654分別代表兩字符串BC作為第二字符和第三字符出現(xiàn),以及兩字符串BC沒有作為第二字符和第三字符出現(xiàn)。在此第二個表中的第一行658和第二行660分別代表字符A作為第一個字符出現(xiàn),以及字符A不作為第一個字符出現(xiàn)。
圖2和圖3描述了根據(jù)本發(fā)明的一個實施例的訓練模塊的操作。訓練模塊被構造成識別那些經(jīng)常出現(xiàn)在訓練文本數(shù)據(jù)中的兩,三和四字符組合,并且使用這樣的信息推測除了包含在詞典中的那些詞之外的任何潛在的新詞。訓練模塊的操作可以被分解成三個階段,即字符組合計數(shù)階段,似然值計算階段和似然值調整階段。
圖2根據(jù)本發(fā)明的一個實施例描述了字符組合計數(shù)階段的操作。最初,訓練模塊在塊200從外部源接收訓練文本數(shù)據(jù)文件。訓練文本數(shù)據(jù)文件是代表特定語言,例如中文的文本的語料。在這點上,訓練模塊在主循環(huán)(塊205到塊230)中連續(xù)處理,以便順序地檢查每個獨立的句子,直到到達訓練文件的末尾(塊205,是)。在塊210中,訓練模塊從訓練文件的剩余文本數(shù)據(jù)中讀取完整的句子。此時,訓練模塊從訓練句子中移除非中文字符,包括數(shù)字,符號和字母,并用特殊的標記(token)代替非中文字符。
在主循環(huán)內有子循環(huán)(塊215到塊230),其根據(jù)定義當前句子的字符序列更新相依度表的計數(shù)數(shù)據(jù)??梢詮淖蟮接一驈挠业阶蟮仨樞蚍治龆x當前句子的字符。在一個實施例中,遞增與以當前句子的每個相繼字符為開始的兩,三和四字符組合相關的計數(shù)值。在這點上,每次檢查輸入句子的四個順序字符(塊220)。然后在塊225中,更新與這些正被檢查的四個順序字符相關的相依度表。例如,通過遞增合適的計數(shù)數(shù)據(jù),可以更新與正在被檢測的四個順序字符的前兩個字符相關的兩字符相依度表。另外,通過遞增合適的計數(shù)數(shù)據(jù),可以更新與正在被檢測的四個順序字符的前三個字符相關的三字符相依度表。然后,通過遞增合適的計數(shù)數(shù)據(jù),可以更新與正在被檢測的所有四個順序字符相關的四字符相依度表。
一旦已經(jīng)遞增了全部與當前正被檢測的四個字符相關的相依度表的計數(shù)值,在塊230中,將正在被檢測的四字符窗口的當前起始位置移動到下一個字符。此子循環(huán)以此方式處理整個輸入句子,直到到達句子的末尾(塊215,是)。句子的末尾可以通過標點符號標記識別。
當?shù)竭_句子的末尾時,訓練模塊繼續(xù)處理以便從訓練文件中讀取下一個輸入句子。訓練模塊以此方式處理整個訓練文件,直到到達文件的末尾(塊205,是)。在已獲得與相依度表相關的所有計數(shù)值(例如,N(11),N(12),N(21),N(22))之后,在塊235,訓練模塊前進到似然值計算階段。
在似然值計算階段,針對訓練文本數(shù)據(jù)中特定字符序列的出現(xiàn),計算與每個字符組合相關的似然值。似然值指示句子中出現(xiàn)的相應字符組合被作為詞來使用的可能性。在一個實施例中,根據(jù)所生成的似然比(GLR)計算與特定字符組合相關的似然值。特定字符組合的GLR計算如下GLR=2Σi=12Σj=12N(ij)ln[N(ij)N/N(i·)N(·j)]---(1)]]>其中N(ij)代表特定字符組合的計數(shù)。如以上討論的,當將等式(1)用于兩字符組合(AB)時,計數(shù)值N(ij)定義如下N(11)代表兩字符串(由第一字符A和隨后的第二字符B組成)出現(xiàn)在訓練文本數(shù)據(jù)內的計數(shù);N(21)代表兩字符串(其中第一字符不是字符A,并且第二字符是字符B)的計數(shù);N(12)代表兩字符串(其中第一字符是字符A,并且第二字符不是字符B)的計數(shù);
N(22)代表兩字符串(其中第一字符不是字符A,并且第二字符不是字符B)的計數(shù);N(1·)代表N(11)和N(12)的總和;N(2·)代表N(21)和N(22)的總和;N(·1)代表N(11)和N(21)的總和;N(·2)代表N(12)和N(22)的總和;以及N代表N(11),N(12),N(21)和N(22)的總和。
根據(jù)可以由具有多項式分布的單隨機變量表示特定字符組合的假設,得到以上等式(1)中定義的算法。使用以上算法的與特定字符組合相關的GLR可以被用于指示相連出現(xiàn)的這樣的字符組合的可能性,其中較高的GLR值指示出較強的關聯(lián),例如,如果根據(jù)以上算法得到的GLR值相對較高,這表示相應字符組合大多數(shù)的時候相連出現(xiàn)。
至于三字符組合,使用來自圖6A和6B中示出的一個表的計數(shù)數(shù)據(jù)計算似然值。為了適當?shù)剡x擇要被使用的一個表,計算兩字符串組合AB和BC的似然值。如果與字符組合AB相關的似然值比與字符組合BC相關的似然值大,選擇圖6A中所示的第一個表,并使用來自此表的計數(shù)數(shù)據(jù)計算與三字符串組合相關的似然值。否則,將使用來自圖6B中所示的第二個表的計數(shù)數(shù)據(jù)計算似然值。通過類似的方式,可以獲得與四字符串組合相關的計數(shù)數(shù)據(jù)和似然值。
至于單字符的詞,漢語中大多數(shù)單字符的詞可以在現(xiàn)有的字典中找到。在一個實施例中,與特定單字符的詞相關的似然值(LV)可計算如下LV=(單字符作為詞在訓練數(shù)據(jù)中出現(xiàn)的計數(shù))/(單字符作為詞或詞的一部分在訓練數(shù)據(jù)中出現(xiàn)的計數(shù))。例如,如果訓練數(shù)據(jù)只有一個句子“AAB C”,則與字符A相關的似然值為0.5。
一旦已經(jīng)計算出似然值,如圖3所示,訓練模塊前進到似然值調整階段。在此階段,如果滿足了某些條件,調整與字典中已有詞相關的似然值。在塊305中,訓練模塊分別檢查包括在似然值表中的每個字符組合。對于每個字符組合,在塊310中作出決定,以確定是否在字典中發(fā)現(xiàn)這樣的字符組合,并且如果發(fā)現(xiàn)(塊310,是),確定其似然值(例如,GLR)是否小于預先定義的閾值。如果GLR低于閾值(塊315,是),在塊320中調整與正被檢查的字符相關的GLR。如果正被檢查的字符組合不在字典中,或者與字符組合相關的GLR比閾值大,訓練模塊再回到塊305,檢查另一個包括在似然值表中的字符組合,直到檢查完所有字符組合。
在一個實施例中,當與出現(xiàn)在字典中的字符序列相關的似然值低于所給的閾值時,通過遞增常數(shù)值來調整似然值。一旦似然值已經(jīng)調整,可以正規(guī)化所調整的值,以作為對詞一元組(uni-gram)概率的逼近。
圖4根據(jù)本發(fā)明的一個實施例描述了用于在輸入句子中識別詞邊界的分段模塊的操作。在普通的文本格式中,中文句子通常沒有自然的定界符,例如詞之間的空白。為了適當?shù)胤治鲋形木渥?,可能期望將每個單獨的句子分解到詞的級別。在塊400中,分段模塊以未分段的文本格式接收輸入句子。因為輸入句子可能不只包含中文字符,而且還包含非中文字符,包括數(shù)字,符號和字母,在塊405中,從句子中移除這樣的非中文字符并用特殊的標記代替。
在這點上,分段模塊在循環(huán)(塊410到425)中連續(xù)執(zhí)行,以便得到與出現(xiàn)在輸入句子中的各種字符串組合相關的似然值。從先前在訓練過程期間生成的似然值表中獲得似然值??梢詮淖蟮接业鼗驈挠业阶蟮仨樞蚍治龆x輸入句子的字符。對從輸入句子的每個相繼字符為起始的兩,三和四字符組合進行分析,以便得到與其相關的似然值。將出現(xiàn)在輸入句子中的每個字符組合與包含在似然值表中的一組字符組合相比較,并獲得與其相關的似然值。
在圖解實施例中,從句子的一端開始,在塊415中,分段模塊讀取預定數(shù)量的字符。所讀取的字符的預定數(shù)量與系統(tǒng)定義的最大詞長相等。在一個實施例中,每次讀取四個順序字符。如上說明的,最大詞長可以比四個字符大。根據(jù)此四字符數(shù)據(jù)的窗口,在塊420中,分段模塊得到與四字符數(shù)據(jù)中發(fā)現(xiàn)的全部字符串組合相關的似然值。例如,根據(jù)四字符數(shù)據(jù),如果在似然值表中包括這樣的字符組合,可以從似然值表中得到與前兩個字符的串,前三個字符的串和四字符串相關的似然值。然后在塊425中,通過移動字符塊的當前起始位置到下一個字符,分段模塊以這種方式處理完整個句子。此循環(huán)(塊415到425)繼續(xù)執(zhí)行,直到到達句子的末尾(塊410,是)??梢酝ㄟ^標點符號標記識別輸入句子的末尾。
當已經(jīng)到達句子的末尾時,分段模塊前進到塊430。在這點上,已經(jīng)得到與出現(xiàn)在句子中的兩,三和四字符串組合相關的似然值(GLR)。然后在塊430中,根據(jù)與不同的可能字符串組合相關的似然值,執(zhí)行Viterbi搜索以在不同的分段化可選方式中選擇最佳路徑。具有最高似然值的路徑被選出作為結果。最后在塊435中,根據(jù)Viterbi模塊選擇的最佳分段化路徑對輸入句子進行分段。
本領域普通技術人員可以理解,因為這里描述的用于詞匯獲取和詞邊界識別的系統(tǒng)需要有限的關于特定語言的信息,本系統(tǒng)可以被輕松應用到其他的語言,例如,日本語,韓國語,泰國語和越南語。
可以以存儲在機器可讀取介質上的軟件程序的形式實施本發(fā)明執(zhí)行的操作,例如但不限于任何類型的盤,包括軟盤、硬盤、光盤、CD-ROM和磁光盤,只讀存儲器(ROM),隨機存取存儲器(RAM),EPROM,EEPROM,磁卡或光卡,或任何類型的適于存儲電子指令的介質,并且所述介質均連接到計算機總線上。此外,沒有參考任何特定的編程語言描述本發(fā)明??梢岳斫?,如其中所描述的,可以使用各種編程語言實施本發(fā)明的教導。
雖然已經(jīng)描述和示出了本發(fā)明的上述實施例,然而本領域的技術人員可以理解適合于本發(fā)明的變化和修改,例如那些所建議的以及其他在本發(fā)明的精神和范圍內的。因此,在附加權利要求中闡明了本發(fā)明要定義的范圍。
權利要求
1.一種系統(tǒng),包括用于計算與字符組合相關的似然值的訓練模塊,其根據(jù)訓練文本數(shù)據(jù)中特定字符組合的出現(xiàn)次數(shù),計算每個與相應字符組合相關的似然值;以及根據(jù)與字符組合相關的所述似然值,在輸入句子中識別詞邊界的分段模塊。
2.如權利要求1所述的系統(tǒng),其中根據(jù)具有多項式分布的單隨機變量可表示特定字符組合的假設來計算似然值。
3.如權利要求1所述的系統(tǒng),其中與特定字符組合相關的似然值是根據(jù)所生成的似然比(GLR)而計算的,所述GLR計算如下GLR=2Σi=12Σj=12N(ij)ln[N(ij)N/N(i·)N(·j)]]]>其中N(ij)表示特定字符組合的計數(shù)。
4.如權利要求3所述的系統(tǒng),其中與兩字符組合(AB)相關的計數(shù)值N(ij)定義如下N(11)代表由第一字符A和隨后的第二字符B組成的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(21)代表其中第一字符不是字符A,并且第二字符是字符B的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(12)代表其中第一字符是字符A,并且第二字符不是字符B的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(22)代表其中第一字符不是字符A,并且第二字符不是字符B的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(1·)代表N(11)和N(12)的總和;N(2·)代表N(21)和N(22)的總和;N(·1)代表N(11)和N(21)的總和;N(·2)代表N(12)和N(22)的總和;以及N代表N(11),N(12),N(21)和N(22)的總和。
5.如權利要求1所述的系統(tǒng),還包括由所述訓練模塊維護的相依度表,每個相依度表用于跟蹤出現(xiàn)在訓練文本數(shù)據(jù)中的特定字符組合的出現(xiàn)次數(shù)。
6.如權利要求1所述的系統(tǒng),其中所述分段模塊得到與出現(xiàn)在輸入句子中的不同字符串組合相關的似然值。
7.如權利要求6所述的系統(tǒng),還包括根據(jù)與不同的可能字符串組合相關的似然值,在不同分段化可選方式中選擇最佳路徑的Viterbi模塊。
8.如權利要求1所述的系統(tǒng),還包括含有訓練文本數(shù)據(jù)的語言所固有的詞的字典,其中所述訓練模塊在所計算的與字典中已有的詞相關的似然值小于所定義的閾值的情況下,調整與其相關的似然值。
9.一種方法,包括讀取訓練文本數(shù)據(jù);計算不同字符組合在訓練文本數(shù)據(jù)中的出現(xiàn)的次數(shù);以及計算與不同字符組合相關的似然值,其中根據(jù)在訓練文本數(shù)據(jù)中特定字符組合的出現(xiàn)次數(shù),計算每個與相應字符組合相關的似然值。
10.如權利要求9所述的方法,其中根據(jù)具有多項式分布的單隨機變量可表示特定字符組合的假設來計算似然值。
11.如權利要求9所述的方法,其中與特定字符組合相關的似然值是根據(jù)所生成的似然比(GLR)而計算的,所述GLR計算如下GLR=2Σi=12Σj=12N(ij)ln[N(ij)N/N(i·)N(·j)]]]>其中N(ij)表示特定字符組合的計數(shù)。
12.如權利要求11所述的方法,其中與兩字符組合(AB)相關的計數(shù)值N(ij)定義如下N(11)代表由第一字符A和隨后的第二字符B組成的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(21)代表其中第一字符不是字符A,并且第二字符是字符B的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(12)代表其中第一字符是字符A,并且第二字符不是字符B的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(22)代表其中第一字符不是字符A,并且第二字符不是字符B的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(1·)代表N(11)和N(12)的總和;N(2·)代表N(21)和N(22)的總和;N(·1)代表N(11)和N(21)的總和;N(·2)代表N(12)和N(22)的總和;以及N代表N(11),N(12),N(21)和N(22)的總和。
13.如權利要求9所述的方法,還包括使用相依度表跟蹤出現(xiàn)在訓練文本數(shù)據(jù)中的不同字符組合的出現(xiàn)次數(shù)。
14.如權利要求9所述的方法,還包括在所計算的與字典中已有的詞相關的似然值小于所定義的閾值的情況下,調整與其相關的似然值。
15.如權利要求9所述的方法,還包括讀取由多個字符組成的輸入句子;得到與出現(xiàn)在輸入句子中的不同字符串組合相關的似然值;以及根據(jù)與不同的可能字符串組合相關的似然值,在不同分段化可選方式中選擇最佳路徑。
16.一種提供指令的機器可讀取介質,所述指令當由處理器執(zhí)行時,使得所述處理器執(zhí)行操作,所述操作包括讀取訓練文本數(shù)據(jù);計算不同字符組合在訓練文本數(shù)據(jù)中的出現(xiàn)的次數(shù);以及計算與不同字符組合相關的似然值,其中根據(jù)在訓練文本數(shù)據(jù)中特定字符組合的出現(xiàn)次數(shù),計算每個與相應字符組合相關的似然值。
17.如權利要求16所述的機器可讀取介質,其中根據(jù)具有多項式分布的單隨機變量可表示特定字符組合的假設來計算似然值。
18.如權利要求16所述的機器可讀取介質,其中與特定字符組合相關的似然值是根據(jù)所生成的似然比(GLR)而計算的,所述GLR計算如下GLR=2Σi=12Σj=12N(ij)ln[N(ij)N/N(i·)N(·j)]]]>其中N(ij)表示特定字符組合的計數(shù)。
19.如權利要求18所述的機器可讀取介質,其中與兩字符組合(AB)相關的計數(shù)值N(ij)定義如下N(11)代表由第一字符A和隨后的第二字符B組成的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(21)代表其中第一字符不是字符A,并且第二字符是字符B的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(12)代表其中第一字符是字符A,并且第二字符不是字符B的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(22)代表其中第一字符不是字符A,并且第二字符不是字符B的兩字符串在訓練文本數(shù)據(jù)中的出現(xiàn)的計數(shù);N(1·)代表N(11)和N(12)的總和;N(2·)代表N(21)和N(22)的總和;N(·1)代表N(11)和N(21)的總和;N(·2)代表N(12)和N(22)的總和;以及N代表N(11),N(12),N(21)和N(22)的總和。
20.如權利要求16所述的機器可讀取介質,其中所述計算操作還包括使用相依度表跟蹤出現(xiàn)在訓練文本數(shù)據(jù)中的不同字符組合的出現(xiàn)次數(shù)。
21.如權利要求16所述的機器可讀取介質,其中所述操作還包括調整與字典中已有字相關的似然值,如果所計算的與其相關的似然值小于所定義的閾值。
22.如權利要求16所述的機器可讀取介質,其中所述操作還包括讀取由多個字符組成的輸入句子;得到與出現(xiàn)在輸入句子中的不同字符串組合相關的似然值;以及根據(jù)與不同的可能字符串組合相關的似然值,在不同分段化可選方式中選擇最佳路徑。
全文摘要
描述了用于在輸入句子中獲取詞匯并識別詞邊界的系統(tǒng)。系統(tǒng)包括訓練模塊和分段模塊。訓練模塊被構造成計算與字符組合相關的似然值。根據(jù)訓練文本數(shù)據(jù)中相應字符組合的出現(xiàn)數(shù)量,計算每個與特定字符組合相關的似然值。在完成訓練過程之后,根據(jù)與字符組合相關的似然值,在輸入句子中使用分段模塊識別詞邊界。
文檔編號G06F17/27GK1545666SQ01823575
公開日2004年11月10日 申請日期2001年7月2日 優(yōu)先權日2001年7月2日
發(fā)明者黃山(音譯), 翁福亮(音譯), 金乃勇(音譯), (音譯) 申請人:英特爾公司, 英特爾中國有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
松溪县| 嫩江县| 施秉县| 呼图壁县| 定安县| 枞阳县| 吉首市| 梨树县| 安新县| 乐业县| 房产| 金乡县| 竹山县| 赫章县| 郧西县| 永善县| 大洼县| 扎鲁特旗| 哈尔滨市| 库车县| 金塔县| 依兰县| 旬邑县| 康马县| 汪清县| 台南县| 当阳市| 涞源县| 威远县| 吉水县| 石屏县| 收藏| 利川市| 江永县| 景泰县| 高州市| 西青区| 汽车| 怀仁县| 武邑县| 甘洛县|