專利名稱:提供多粒度分詞結(jié)果的方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本申請涉及文字信息處理技術(shù)領(lǐng)域,尤其涉及一種建立分詞詞典的方法、一種提供多粒度分詞結(jié)果的方法、一種建立分詞詞典的裝置以及一種提供多粒度分詞結(jié)果的裝置。
背景技術(shù):
從是否具有詞邊界標記的角度,可以將世界范圍的語言文字分為兩種,其中一種為有詞邊界標記的語言,如英文、德文等,一般單詞之間采用空格作為詞邊界標記來劃界; 另一種是無詞邊界標記語言,如中文、日文或韓文,在一個句子中單詞彼此之間沒有定界符。在搜索引擎、機器翻譯、語音合成等應(yīng)用中都涉及語言文本的處理問題,計算機如何對給定的無詞邊界標記語言的文本進行分詞,將一個句子分成由切分單元組成的切分單元序列成為一個關(guān)鍵步驟。分詞詞典中包含充分多的預(yù)先存儲的詞條,在進行分詞時按照一定的策略(例如由左到右的方向的正向最大匹配法、由右到左的方向的逆向最大匹配法、最小切分法等) 將給定文本與分詞詞典中的詞條進行匹配。比如在最大匹配方法中,若在詞典中找到能夠匹配該輸入文本的最長的詞條,則識別出一個詞,將識別出的詞作為一個切分單元。依次類推,從而將給定文本分詞為由切分單元組成的切分單元序列(當然,切分單元不僅包含匹配成功的詞,也可能包含單字或者動態(tài)識別出來的詞)。對于相同的給定文本,從分詞結(jié)果來看,如果作為分詞結(jié)果的切分單元序列中切分單元的長度越長,即切分單元序列中包含的切分單元的數(shù)目越少,分詞粒度越大;反之, 如果作為分詞結(jié)果的切分單元序列中包含的切分單元的數(shù)目越多,分詞粒度越小。例如,給定的文本為“中華人民共和國成立了 ”,粒度較小的分詞結(jié)果為“中華-人民-共和國-成立-了”,粒度較大的分詞結(jié)果為“中華人民共和國-成立-了”。不同應(yīng)用對分詞結(jié)果粒度層次的要求不同。比如,在機器翻譯中,顆粒度應(yīng)該大一些,“企業(yè)管理”就不要分成兩個詞。而在搜索引擎的索引系統(tǒng)中,“企業(yè)管理”一般是被分成兩個詞。僅僅對于同一類應(yīng)用而言,對分詞結(jié)果粒度層次的要求也是不同的,下面以搜索引擎這個應(yīng)用為例進行說明。在搜索引擎這個應(yīng)用中,不同領(lǐng)域的搜索引擎需要的切分粒度也是不一樣的。舉例來說,在電子商務(wù)領(lǐng)域,銷售者和購買者都要求有較高的搜索召回率,搜索系統(tǒng)為了做到這一點,索引粒度較小才好,相應(yīng)的需要粒度較小的分詞結(jié)果;而在搜索網(wǎng)頁時,由于存在海量的互聯(lián)網(wǎng)網(wǎng)頁,這時候搜索的精準率對用戶尤其重要,搜索系統(tǒng)為了做到這一點,搜索系統(tǒng)需要粒度較大的分詞結(jié)果。其中,搜索召回率和搜索準確性是評價搜索質(zhì)量的重要指標。搜索召回率是指搜索到的相關(guān)文檔與所有相關(guān)文檔的比例,衡量的是查全率;搜索準確性是指搜索到的相關(guān)文檔與搜索到的所有文檔的比例,衡量的是查準率。分詞粒度與搜索召回率和搜索準確性的關(guān)系為一般來說,分詞粒度越小,搜索召回率越高;分詞粒度越大,搜索準確性越高。
即使對同一類應(yīng)用在同一領(lǐng)域的不同使用階段而言,對分詞結(jié)果粒度層次的要求也不相同。仍以搜索引擎這個應(yīng)用為例,為了兼顧用戶對搜索召回率和搜索準確率的要求, 在索引階段和排序階段對分詞結(jié)果粒度層次的要求也是有差異的。在索引階段,需要粒度較小的分詞結(jié)果,以便找到足夠多的網(wǎng)頁;在排序階段,出于搜索準確性的需要,避免向用戶提供不相關(guān)的網(wǎng)頁,需要粒度較大的分詞結(jié)果。為解決上述問題,現(xiàn)有技術(shù)主要采用兩種方案來提供多粒度層次的分詞結(jié)果方案1 請參照附圖Ia所示,先進行最小粒度分詞,然后自下而上動態(tài)合并,其基本過程如下采用粒度較小的分詞詞典A對給定文本進行分詞,在分詞過程中會產(chǎn)生不同的切分單元序列,例如給定文本S1S2S3S4S5S6S7可以被分為S1S2-S3S4-S5-S6S7, S1S2S3-S4S5-S6S7,然后根據(jù)預(yù)定選擇算法從中選擇出一條作為最優(yōu)切分單元序列,這里假設(shè)為S1S2-S3S4-S5-S6S7,預(yù)定選擇算法可以為基于統(tǒng)計模型的算法等,在這里不再詳述。為了提供較大粒度的分詞結(jié)果,在序列Sj2-S3S4^5I6S7的基礎(chǔ)上進行合并,具體合并過程為判斷序列S1S2^J4-S5I6S7中兩個切分單元的組合是否與包含較長詞條的分詞詞典B中包含的詞條匹配,若是對這兩個切分單元進行合并,從而獲得合并后的粒度較大的切分單元序列,這里假設(shè)Sj2和4 可以合并、S5和SS7可以合并,那么合并后的粒度較大的切分單元序列為S1S2S3S4-S5S6S70采用這種方法,在分詞時會丟失部分語義項,例如語義單元Sjj3和被丟失了。這里以一個實際的例子進行說明,給定文本為“本不銹鋼管用一級鋼鑄造”,其中“不銹鋼管”實際上包含著“不銹鋼”、“鋼管”兩個語義項。如果將“不銹鋼管”在最小粒度切分為 “不銹鋼-管”,然后又合并為“不銹鋼管”,那么“鋼管”這個語義項就丟失了,導(dǎo)致搜索“鋼管”時檢索不出來該文本;如果將“不銹鋼管”在最小粒度切分為“不-銹-鋼管”,然后又合并為“不銹鋼管”,那么“不銹鋼”這個語義項就丟失了,導(dǎo)致搜索“不銹鋼”時檢索不出來該文本。另外也難以保證合并的準確性,假定給定文本最小粒度分詞獲得的切分單元序列為“本-不銹鋼-管-用-一級-鋼-鑄造”,在合并時將遇到合并歧義,同時存在合并為 “不銹鋼管”或“管用”的可能性。如果在最小粒度分詞時獲得的切分單元序列為“本-不銹鋼-管用-一級-鋼-鑄造”,則無法合并得到“不銹鋼管”這個語義項。方案2 請參照附圖Ib所示,先進行最大粒度分詞,然后自上而下切分,其基本過程如下利用粒度較大的分詞詞典C,采用模型和算法對給定文本SjjJJj6S7進行動態(tài)分詞(選擇出最優(yōu)切分單元序列),獲得切分單元序列S1S2S3S4Ij6S7 ;為了提供較小粒度的分詞結(jié)果,對Sj2S3S4-S5S6S7中的每個語義單元進行進一步切分,具體切分過程為判斷序列中Sjj3S4-S5S6S7的每個切分單元是否包含分詞詞典C中的兩個或兩個以上其他粒度更小的詞條,若是將該切分單元進一步切分為兩個或兩個以上其他詞條,這里假設(shè)SjjJ4可以被切分為Sj2和S3S4Af6S7可以被切分為S5和S6S7,則切分后獲得的較小粒度的分詞結(jié)果為S1S2-SA-S5-SSp采用這種方法時,為了解決在最大粒度分詞時出現(xiàn)的歧義問題,需要在詞典中收錄更多的大粒度詞條。例如,給定文本為“企業(yè)管理科學(xué)技術(shù)”,如果詞典中收錄有“企業(yè)管理”、“管理科學(xué)”這些較大粒度的詞條,那么“企業(yè)管理科學(xué)”可能被切分為“企業(yè)管理-科學(xué)”或“企業(yè)-管理科學(xué)”。解決這一歧義的方案為在詞典中再收錄“企業(yè)管理科學(xué)”這一更長的詞條,然而“企業(yè)管理科學(xué)”又會與“科學(xué)技術(shù)”發(fā)生切分歧義,可見這類由大粒度的詞條組成的集合是非閉合的,詞典規(guī)模的擴大會給詞典維護帶來困難??梢?,分詞詞典中的詞條粒度越大,分詞時會產(chǎn)生數(shù)目更多的不同的切分單元序列,即有更多的分詞路徑,從而存在較多的歧義問題,最大粒度切分的準確率難以得到保證。當有了最大粒度的切分結(jié)果后,這些切分單元的小粒度詞可以通過查詞典的方式來得到。但是,隨著詞典規(guī)模的擴大,人工維護這些詞條以及這些詞條的小粒度詞并確保詞條的質(zhì)量,代價是非常大的。
發(fā)明內(nèi)容
本申請實施例提出一種用于提供多粒度分詞結(jié)果的方法,用以在提供多粒度分詞結(jié)果時,避免丟失語義項、或分詞準確性較低的問題。對應(yīng)地,本申請實施例還提供了一種建立分詞詞典的方法、一種建立分詞詞典的裝置和一種提供多粒度分詞結(jié)果的裝置。本申請實施例提供的技術(shù)方案如下一種建立分詞詞典的方法,包括根據(jù)預(yù)先標定的訓(xùn)練集獲得分類器,所述訓(xùn)練集中的每個訓(xùn)練樣本詞條具有詞長屬性、短語特征屬性、語義屬性、交疊屬性以及分類結(jié)果, 其中所述詞長屬性的屬性值為訓(xùn)練樣本詞條包含的字數(shù);所述短語特征屬性的屬性值包括訓(xùn)練樣本詞條的小粒度詞的獨立使用頻率值、和所述訓(xùn)練樣本詞條是否符合短語構(gòu)成規(guī)律的標識;當訓(xùn)練樣本詞條與設(shè)定枚舉詞條集合中包含的詞條相同時,語義屬性的屬性值為設(shè)定枚舉詞條集合中與訓(xùn)練樣本詞條相同的詞條的標識,否則語義屬性的屬性值為不同于設(shè)定枚舉詞條集合中每個詞條的標識的標識;交疊屬性值包括訓(xùn)練樣本詞條在訓(xùn)練文本中與其他詞條發(fā)生交疊的概率值、和交疊部分是否為小粒度詞的標識;詞條的分類結(jié)果為該詞條是最小語義單元的標識或復(fù)合語義單元的標識;獲取待分類詞條,并確定所述待分類詞條的詞長屬性、短語特征屬性、語義屬性以及交疊屬性的屬性值;根據(jù)獲得的所述分類器,以及確定出的待分類詞條的詞長屬性、短語特征屬性、語義屬性以及交疊屬性的屬性值,對待分類詞條進行分類,確定所述待分類詞條是否為最小語義單元;若確定出所述待分類詞條為最小語義單元,則將所述待分類詞條加入最小語義單元詞典?!N提供多粒度分詞結(jié)果的方法,包括建立最小語義單元詞典;并根據(jù)所述最小語義單元詞典對給定文本進行分詞處理,獲取中間粒度分詞結(jié)果;以及根據(jù)比最小語義單元詞典粒度大的詞典對所述中間粒度分詞結(jié)果進行合并,獲得粒度大于中間粒度分詞結(jié)果的第一粒度分詞結(jié)果;依次針對中間粒度分詞結(jié)果中的每個切分單元,在最小語義單元詞典中查找該切分單元包含的檢索單元,以及根據(jù)中間粒度分詞結(jié)果、以及查找到的檢索單元,確定粒度小于中間粒度分詞結(jié)果的第二粒度分詞結(jié)果。
一種建立分詞詞典的裝置,包括分類器獲取模塊,用于根據(jù)預(yù)先標定的訓(xùn)練集獲得分類器,所述訓(xùn)練集中的每個訓(xùn)練樣本詞條具有詞長屬性、短語特征屬性、語義屬性、交疊屬性以及分類結(jié)果,其中所述詞長屬性的屬性值為訓(xùn)練樣本詞條包含的字數(shù);所述短語特征屬性的屬性值包括訓(xùn)練樣本詞條的小粒度詞的使用頻率值、和所述訓(xùn)練樣本詞條是否符合短語構(gòu)成規(guī)律的標識;當訓(xùn)練樣本詞條與設(shè)定枚舉詞條集合中包含的詞條相同時,語義屬性的屬性值為設(shè)定枚舉詞條集合中與訓(xùn)練樣本詞條相同的詞條的標識,否則語義屬性的屬性值為不同于設(shè)定枚舉詞條集合中每個詞條的標識的標識;交疊屬性值包括訓(xùn)練樣本詞條與其他詞條發(fā)生交疊的概率值、和交疊部分是否為小粒度詞的標識;分類結(jié)果為預(yù)先標定的所述訓(xùn)練樣本詞條為最小語義單元的標識或復(fù)合語義單元的標識;待分類詞條獲取模塊,用于獲取待分類詞條;屬性值確定模塊,用于確定待分類詞條獲取模塊獲取的所述待分類詞條的詞長屬性、短語特征屬性、語義屬性以及交疊屬性的屬性值;分類結(jié)果確定模塊,用于根據(jù)分類器獲取模塊獲得的所述分類器,以及屬性值確定模塊確定出的待分類詞條的詞長屬性、短語特征屬性、語義屬性以及交疊屬性的屬性值, 對待分類詞條進行分類,確定所述待分類詞條是否為最小語義單元;第一詞條添加模塊,用于在分類結(jié)果確定模塊確定出所述待分類詞條為最小語義單元時,將所述待分類詞條加入最小語義單元詞典。一種提供多粒度分詞結(jié)果的裝置,包括分詞詞典建立模塊,用于建立最小語義單元詞典;分詞處理模塊,用于根據(jù)所述分詞詞典建立模塊建立的最小語義單元詞典對給定文本進行分詞處理,獲取中間粒度分詞結(jié)果;合并模塊,用于根據(jù)比最小語義單元詞典粒度大的詞典對分詞處理模塊獲得的中間粒度分詞結(jié)果進行合并,獲得粒度大于中間粒度分詞結(jié)果的第一粒度分詞結(jié)果;查找模塊,用于依次針對分詞處理模塊獲得的中間粒度分詞結(jié)果中的每個切分單元,在最小語義單元詞典中查找該切分單元對應(yīng)的檢索單元;確定模塊, 用于分詞處理模塊獲得的中間粒度分詞結(jié)果、以及查找模塊查找到的檢索單元,確定粒度小于中間粒度分詞結(jié)果的第二粒度分詞結(jié)果。本申請實施例通過基于訓(xùn)練樣本詞條的詞長屬性、短語特征屬性、語義屬性、交疊屬性以及分類結(jié)果獲取的分類器、以及待分類詞條的詞長屬性、短語特征屬性、語義屬性以及交疊屬性的屬性值,來確定待分類詞條是否為最小語義單元,以及在待分類詞條為最小語義單元時,將該待分類詞條加入最小語義單元詞典,并存儲最小語義單元中每個詞條的切分方式和對應(yīng)的檢索單元,從而建立最小語義單元詞典?;诮⒌淖钚≌Z義詞典,對給定文本進行分詞處理,獲取中間粒度分詞結(jié)果;以及根據(jù)粒度大于最小語義單元詞典的分詞詞典對所述中間粒度分詞結(jié)果進行合并,獲得粒度大于中間粒度分詞結(jié)果的第一粒度分詞結(jié)果;依次針對中間粒度分詞結(jié)果中的每個切分單元,在最小語義單元詞典中查找該切分單元對應(yīng)的檢索單元,以及根據(jù)中間粒度分詞結(jié)果和查找到的檢索單元確定粒度小于中間粒度分詞結(jié)果的第二粒度分詞結(jié)果。通過上述方案能夠提供至少三種粒度層次的分詞結(jié)果,并避免了最大粒度分詞時出現(xiàn)的分詞不準確的問題,同時通過檢索單元來獲取小粒度分詞結(jié)果,避免了進行最小粒度分詞時丟失語義項的問題。
圖Ia為第一種提供多種粒度分詞結(jié)果的現(xiàn)有方案的示意圖;圖Ib為第二種提供多種粒度分詞結(jié)果的現(xiàn)有方案的示意圖;圖2為本申請實施例一提供的建立最小語義單元分詞詞典的原理流程圖;圖3為本申請實施例二提供的基于建立的最小語義單元分詞詞典,根據(jù)給定文本獲得多粒度分詞結(jié)果的原理流程圖;圖4為本申請實施例二中切詞結(jié)果樹的示意圖;圖5為本申請實施例提供的建立分詞詞典的裝置的結(jié)構(gòu)示意圖;圖6為本申請實施例提供的提供多種粒度分詞結(jié)果的裝置的結(jié)構(gòu)示意圖;圖7為本申請實施例提供的提供多種粒度分詞結(jié)果的裝置中分詞處理模塊的結(jié)構(gòu)示意圖;圖8為本申請實施例提供的提供多種粒度分詞結(jié)果的裝置中確定模塊的結(jié)構(gòu)示意圖。
具體實施例方式針對現(xiàn)有的提供多粒度分詞結(jié)果的技術(shù)存在因丟失語義項造成的召回率低的問題;或者,存在分詞詞典的規(guī)模過于龐大,分詞處理準確性較低的問題,本申請實施例提出一種多粒度分詞方案,其基本思路如下建立一個分詞詞典-最小語義單元詞典,其中最小語義單元詞典中的詞條既具有合理的長度、同時又具有語義完整性,且不含有組合修飾特征;該最小語義單元詞典中,存儲了詞條對應(yīng)的檢索單元。在對給定詞條進行分詞時,基于建立的最小語義單元詞典對給定詞條進行分詞,獲得中間粒度分詞結(jié)果;利用包含粒度較大詞條的分詞詞典對中間粒度分詞結(jié)果進行合并,從而獲得較大粒度分詞結(jié)果;利用最小語義單元詞典中存儲的詞條對應(yīng)的檢索單元,根據(jù)中間粒度分詞結(jié)果獲得較小粒度分詞結(jié)果。下面將依據(jù)本申請上述發(fā)明原理,詳細介紹一個實施例來對本申請方法的主要實現(xiàn)原理進行詳細的闡述和說明。實施例一本實施例介紹如何建立規(guī)模合理的分詞詞典-最小語義單元詞典。建立最小語義單元詞典的過程如附圖2所示步驟201,根據(jù)預(yù)先標定的訓(xùn)練集獲得分類器,所述訓(xùn)練集中的每個訓(xùn)練樣本詞條都具有詞長屬性、短語特征屬性、語義屬性、交疊屬性以及分類結(jié)果,其中所述詞長屬性的屬性值為訓(xùn)練樣本詞條包含的字數(shù);所述短語特征屬性的屬性值包括訓(xùn)練樣本詞條的小粒度詞的獨立使用頻率值和所述訓(xùn)練樣本詞條是否符合短語構(gòu)成規(guī)律的標識;當訓(xùn)練樣本詞條與設(shè)定各類別的枚舉詞條集合中包含的詞條相同時,語義屬性的屬性值為包含與訓(xùn)練樣本詞條相同的詞條的枚舉詞條集合的標識,否則語義屬性的屬性值為不同于任何設(shè)定枚舉詞條集合的標識的標識;交疊屬性值包括訓(xùn)練樣本詞條與其他詞條發(fā)生交疊的概率值和交疊部分是否為小粒度詞的標識;分類結(jié)果為預(yù)先標定的所述訓(xùn)練樣本詞條為復(fù)合語義單元的標識或最小語義單元的標識;例如,訓(xùn)練樣本詞條“企業(yè)管理”中包含4個字,因此該訓(xùn)練樣本詞條的詞長屬性值為4。訓(xùn)練樣本詞條“企業(yè)管理”中包含的小粒度詞為“企業(yè)”、“管理”,分別統(tǒng)計這2個小粒度詞在獨立使用詞條集合Sl中出現(xiàn)的頻率值,從中選擇最高的頻率值作為訓(xùn)練樣本詞條“企業(yè)管理”的短語特征屬性的屬性值中小粒度詞的獨立使用頻率值。這里需要說明的是獨立使用詞條集合Sl可以通過互聯(lián)網(wǎng)上的查詢?nèi)罩?query log),錨定鏈接詞(anchor) 等方式獲得。舉例來說,用戶在互聯(lián)網(wǎng)搜索引擎中輸入搜索關(guān)鍵詞“信息”,則“信息”被記錄到了查詢?nèi)罩局校f明“信息”可以被單獨地使用,另外用戶輸入的以逗號、空格等間隔符隔開的各個詞也可以看作可以獨立使用的詞。這里假定小粒度詞“管理”在獨立使用詞條集合Sl中出現(xiàn)的頻率值最高,為100萬次;如果該詞條沒有小粒度詞,則該頻率值為0。短語構(gòu)成規(guī)律是人們通過長時間對某種自然語言的研究獲得的常規(guī)短語的組成模式,對于漢語來說,通常短語是由“形容詞+名詞”、或“名詞+名詞”、或“動詞+名詞”等構(gòu)成,短語構(gòu)成規(guī)律可以用正則表達式的形式存儲。訓(xùn)練樣本詞條“企業(yè)管理”是由兩個名詞性質(zhì)的小粒度詞“企業(yè)”和“管理”組成的,那么訓(xùn)練樣本詞條“企業(yè)”符合短語構(gòu)成規(guī)律, 假定設(shè)定符合短語構(gòu)成規(guī)律的標識為1,不符合短語構(gòu)成規(guī)律的標識為0 ;因而,訓(xùn)練樣本詞條“信息系統(tǒng)工程”的短語特征屬性的屬性值為(100萬,1)。預(yù)先設(shè)定多個不同類別枚舉詞條集合,如影視節(jié)目名稱集合的標識為S21,影視節(jié)
目名稱集合包含的詞條為S21= {我的兄弟姐妹、活著、焦點訪談、潛伏、甲方乙方......};
書目名稱集合的標識為S22,書目名稱集合包含的詞條為S22 = {讀者、青年文摘、瑞
麗......};學(xué)科名稱集合的標識為S23,學(xué)科名稱集合包含的詞條為S23= {信息工程、心
理學(xué)、哲學(xué)、企業(yè)管理、工商管理......};地名集合的標識為S24,地名集合包含的詞條為
S24= {呼和浩特、北京、銀川、包頭......}。這里訓(xùn)練樣本詞條“企業(yè)管理”包含在學(xué)科
名稱集合中,因此訓(xùn)練樣本詞“企業(yè)管理”對應(yīng)標識是S23。如果訓(xùn)練樣本詞不包含在任何一個類別枚舉詞條集合中,那么該訓(xùn)練樣本詞條的語義屬性的屬性值為區(qū)分于任何類別枚舉詞條集合標識的標識,例如S20。對于交疊屬性來說,通過統(tǒng)計該訓(xùn)練樣本詞在訓(xùn)練文本中與詞典中包含的其他詞條發(fā)生交疊的概率值。交疊是指在包含該訓(xùn)練樣本詞條的訓(xùn)練文本中,該訓(xùn)練樣本詞條中的部分字與其之前或其之后的連續(xù)的其他字組成了詞典中的另一個詞條的情況。例如假定
訓(xùn)練樣本詞條為“企業(yè)管理”,在包含上下文“......眾所周知,企業(yè)管理科學(xué)是一門新興
的學(xué)科......”的訓(xùn)練文本中,“企業(yè)管理”與“管理科學(xué)”在“管理”上出現(xiàn)了交疊。在兩
個詞存在交疊時,其交疊部分可以是有語義含義的小粒度詞,如這個例子中的“管理”,也可
以是單字,例如“甲方乙方”與“方才,,在包含上下文“......甲方乙方才上映......”的
訓(xùn)練文本中發(fā)生了交疊,“甲方乙方”的小粒度詞是“甲方/乙方”,而交疊部分是“方”,不是 “甲方乙方”的小粒度詞。依據(jù)類似的原理,可以統(tǒng)計出在訓(xùn)練文本中出現(xiàn)該訓(xùn)練樣本詞條的情況下訓(xùn)練樣本詞條與詞典中的其他詞條發(fā)生交疊的概率??梢栽O(shè)定交疊部分為小粒度詞對應(yīng)的標識為1,交疊部分不為小粒度詞對應(yīng)的標識為0。假定在本實施例中訓(xùn)練樣本詞條“企業(yè)管理”與其他詞條發(fā)生交疊的概率為2%,與其他詞交疊部分“管理”為小粒度詞, 那么訓(xùn)練樣本詞條“企業(yè)管理”的交疊屬性值為0%,1);在本實施例中訓(xùn)練樣本詞條“企業(yè)管理”被標定為復(fù)合語義單元。因而訓(xùn)練樣本詞條“企業(yè)管理”的屬性值和標定結(jié)果如表1所示。表1訓(xùn)練集中訓(xùn)練樣本詞條屬性值和標定結(jié)果示例
訓(xùn)練樣本詞條詞長屬性值短語特征屬性值語義屬性值交疊屬性值分類結(jié)果
權(quán)利要求
1. 一種建立分詞詞典的方法,其特征在于,包括根據(jù)預(yù)先標定的訓(xùn)練集獲得分類器,所述訓(xùn)練集中的每個訓(xùn)練樣本詞條具有詞長屬性、短語特征屬性、語義屬性、交疊屬性以及分類結(jié)果,其中 所述詞長屬性的屬性值為訓(xùn)練樣本詞條包含的字數(shù);所述短語特征屬性的屬性值包括訓(xùn)練樣本詞條的小粒度詞的獨立使用頻率值、和所述訓(xùn)練樣本詞條是否符合短語構(gòu)成規(guī)律的標識;當訓(xùn)練樣本詞條與設(shè)定枚舉詞條集合中包含的詞條相同時,語義屬性的屬性值為設(shè)定枚舉詞條集合中與訓(xùn)練樣本詞條相同的詞條的標識,否則語義屬性的屬性值為不同于設(shè)定枚舉詞條集合中每個詞條的標識的標識;交疊屬性值包括訓(xùn)練樣本詞條在訓(xùn)練文本中與其他詞條發(fā)生交疊的概率值、和交疊部分是否為小粒度詞的標識;詞條的分類結(jié)果為該詞條是最小語義單元的標識或復(fù)合語義單元的標識; 獲取待分類詞條,并確定所述待分類詞條的詞長屬性、短語特征屬性、語義屬性以及交疊屬性的屬性值; 根據(jù)獲得的所述分類器,以及確定出的待分類詞條的詞長屬性、短語特征屬性、語義屬性以及交疊屬性的屬性值,對待分類詞條進行分類,確定所述待分類詞條是否為最小語義單元;若確定出所述待分類詞條為最小語義單元,則將所述待分類詞條加入最小語義單元詞
2.如權(quán)利要求1所述的方法,其特征在于,在確定出所述待分類詞條并非為最小語義單元時,將所述待分類詞條加入復(fù)合語義單元詞典。
3.如權(quán)利要求1所述的方法,其特征在于,將待分類詞條加入最小語義單元詞典后,還包括存儲該待分類詞條的切分方式以及該待分類詞條對應(yīng)的檢索單元,所述切分方式為切分或不切分,當該待分類詞條的切分方式為切分時,該待分類詞條對應(yīng)的檢索單元為該待分類詞條包含的小粒度詞;當該待分類詞條的切分方式為不切分時,該待分類詞條對應(yīng)的檢索單元為該待分類詞條本身。
4.一種基于權(quán)利要求1所述方法建立的最小語義單元詞典提供多粒度分詞結(jié)果的方法,其特征在于,包括建立最小語義單元詞典;并根據(jù)所述最小語義單元詞典對給定文本進行分詞處理,獲取中間粒度分詞結(jié)果;以及根據(jù)比最小語義單元詞典粒度大的詞典對所述中間粒度分詞結(jié)果進行合并,獲得粒度大于中間粒度分詞結(jié)果的第一粒度分詞結(jié)果;依次針對中間粒度分詞結(jié)果中的每個切分單元,在最小語義單元詞典中查找該切分單元包含的檢索單元,以及根據(jù)中間粒度分詞結(jié)果以及查找到的檢索單元,確定粒度小于中間粒度分詞結(jié)果的第二粒度分詞結(jié)果。
5.如權(quán)利要求4所述的方法,其特征在于,根據(jù)最小語義單元詞典對給定文本進行分詞,獲取中間粒度分詞結(jié)果,具體包括根據(jù)最小語義單元詞典對給定文本進行分詞,以及在分詞獲得唯一切分單元序列時,將該切分單元序列作為中間粒度分詞結(jié)果,以及在分詞獲得至少兩個不同的切分單元序列時,基于消歧模型選擇出一個切分單元序列作為中間粒度分詞結(jié)果。
6.如權(quán)利要求4所述的方法,其特征在于,根據(jù)中間粒度分詞結(jié)果、以及查找到的檢索單元獲得粒度小于中間粒度分詞結(jié)果的第二粒度分詞結(jié)果,具體包括將給定文本作為根節(jié)點,將中間粒度分詞結(jié)果中的每個切分單元依次作為根節(jié)點的子節(jié)占.對于中間粒度分詞結(jié)果中的每個切分單元,將該切分單元對應(yīng)的檢索單元依次作為該切分單元對應(yīng)節(jié)點的葉子節(jié)點,形成切詞結(jié)果樹;依次獲得切詞結(jié)果樹中各葉子節(jié)點,將依次獲得的葉子節(jié)點作為較小粒度分詞結(jié)果。
7.如權(quán)利要求4至6中任一權(quán)利要求所述的方法,其特征在于,所述粒度大于最小語義單元詞典的分詞詞典為復(fù)合語義單元詞典。
8.一種建立分詞詞典的裝置,其特征在于,包括分類器獲取模塊,用于根據(jù)預(yù)先標定的訓(xùn)練集獲得分類器,所述訓(xùn)練集中的每個訓(xùn)練樣本詞條具有詞長屬性、短語特征屬性、語義屬性、交疊屬性以及分類結(jié)果,其中所述詞長屬性的屬性值為訓(xùn)練樣本詞條包含的字數(shù);所述短語特征屬性的屬性值包括訓(xùn)練樣本詞條的小粒度詞的使用頻率值、和所述訓(xùn)練樣本詞條是否符合短語構(gòu)成規(guī)律的標識;當訓(xùn)練樣本詞條與設(shè)定枚舉詞條集合中包含的詞條相同時,語義屬性的屬性值為設(shè)定枚舉詞條集合中與訓(xùn)練樣本詞條相同的詞條的標識,否則語義屬性的屬性值為不同于設(shè)定枚舉詞條集合中每個詞條的標識的標識;交疊屬性值包括訓(xùn)練樣本詞條與其他詞條發(fā)生交疊的概率值、 和交疊部分是否為小粒度詞的標識;分類結(jié)果為預(yù)先標定的所述訓(xùn)練樣本詞條為最小語義單元的標識或復(fù)合語義單元的標識;待分類詞條獲取模塊,用于獲取待分類詞條;屬性值確定模塊,用于確定待分類詞條獲取模塊獲取的所述待分類詞條的詞長屬性、 短語特征屬性、語義屬性以及交疊屬性的屬性值;分類結(jié)果確定模塊,用于根據(jù)分類器獲取模塊獲得的所述分類器,以及屬性值確定模塊確定出的待分類詞條的詞長屬性、短語特征屬性、語義屬性以及交疊屬性的屬性值,對待分類詞條進行分類,確定所述待分類詞條是否為最小語義單元;第一詞條添加模塊,用于在分類結(jié)果確定模塊確定出所述待分類詞條為最小語義單元時,將所述待分類詞條加入最小語義單元詞典。
9.如權(quán)利要求8所述的裝置,其特征在于,還包括第二詞條添加模塊,用于在分類結(jié)果確定模塊確定出所述待分類詞條為非最小語義單元時,將所述待分類詞條加入復(fù)合語義單元詞典。
10.一種提供多粒度分詞結(jié)果的裝置,其特征在于,包括 分詞詞典建立模塊,用于建立最小語義單元詞典;分詞處理模塊,用于根據(jù)所述分詞詞典建立模塊建立的最小語義單元詞典對給定文本進行分詞處理,獲取中間粒度分詞結(jié)果;合并模塊,用于根據(jù)比最小語義單元詞典粒度大的詞典對分詞處理模塊獲得的中間粒度分詞結(jié)果進行合并,獲得粒度大于中間粒度分詞結(jié)果的第一粒度分詞結(jié)果;查找模塊,用于依次針對分詞處理模塊獲得的中間粒度分詞結(jié)果中的每個切分單元, 在最小語義單元詞典中查找該切分單元對應(yīng)的檢索單元;確定模塊,用于分詞處理模塊獲得的中間粒度分詞結(jié)果、以及查找模塊查找到的檢索單元,確定粒度小于中間粒度分詞結(jié)果的第二粒度分詞結(jié)果。
全文摘要
本申請公開了一種提供多粒度分詞結(jié)果的方法及其裝置,用以在提供多粒度分詞結(jié)果時,避免丟失語義項、或分詞準確性較低的問題。該方法包括建立最小語義單元詞典;并根據(jù)所述最小語義單元詞典對給定文本進行分詞處理,獲取中間粒度分詞結(jié)果;以及根據(jù)比最小語義單元詞典粒度大的詞典對所述中間粒度分詞結(jié)果進行合并,獲得粒度大于中間粒度分詞結(jié)果的第一粒度分詞結(jié)果;依次針對中間粒度分詞結(jié)果中的每個切分單元,在最小語義單元詞典中查找該切分單元包含的檢索單元,以及根據(jù)中間粒度分詞結(jié)果、以及查找到的檢索單元,確定粒度小于中間粒度分詞結(jié)果的第二粒度分詞結(jié)果。
文檔編號G06F17/30GK102479191SQ20101055576
公開日2012年5月30日 申請日期2010年11月22日 優(yōu)先權(quán)日2010年11月22日
發(fā)明者侯磊, 初敏, 唐晶明, 孫健, 廖曉玲, 彭仁剛, 楊揚, 許冰婧 申請人:阿里巴巴集團控股有限公司