一種分詞詞典自動擴展的方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種分詞詞典自動擴展的方法和裝置。本發(fā)明的方法包括以下步驟:通過搜索日志或通過網(wǎng)絡(luò)爬蟲獲取詞匯資源文本;采用分詞器對詞匯資源文本處理后提取未能識別的單詞組成候選詞匯;統(tǒng)計候選詞匯中每個單詞在候選詞匯中的出現(xiàn)的頻次;選擇高頻的單詞加入至詞典。本發(fā)明獨立于現(xiàn)有的分詞器,自動實現(xiàn)新詞匯添加,使得分詞器能夠識別新的詞匯,從而顯著提高分詞器的準確率。本發(fā)明還適用于字處理軟件中的英文自動拼寫檢查,提升用戶對于語拼寫自動檢查的體驗。
【專利說明】一種分詞詞典自動擴展的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及分詞器、網(wǎng)絡(luò)爬蟲、搜索引擎、詞典等【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]中文分詞是面向中文的搜索、文本分類、機器翻譯、自動摘要生成等自然語言處理過程的基礎(chǔ),分詞的準確率直接影響到后續(xù)處理過程的準確率甚至可行性,和用戶體驗緊密相連。雖然現(xiàn)有分詞器如ICTCLAS、Ansj, IKanalyzer、mmseg4j等的算法各不相同,但分詞過程的實現(xiàn)都依賴于詞典。詞典的規(guī)模、詞匯的實時性和準確性對分詞準確性影響極大。一方面,由于分詞器內(nèi)置詞典的規(guī)模有限,且僅面向通用情況,難以有效支持如某些專業(yè)領(lǐng)域或每天都會有新詞產(chǎn)生的各種網(wǎng)絡(luò)應(yīng)用。另一方面,分詞器的內(nèi)置詞典難以或無法修改或擴展,部分分詞器雖然支持用戶自定義詞典的使用,但自定義詞的獲得必須由用戶自己完成,考慮到這一過程的復(fù)雜性和所需要的成本均非常可觀,使得用戶自定義詞典的設(shè)置形同虛設(shè),無法有效提升分詞的準確率。
【發(fā)明內(nèi)容】
[0003]本發(fā)明所要解決的問題是分詞器詞典不能實時支持新詞的識別。
[0004]為解決上述問題,本發(fā)明采用的方案如下:
根據(jù)本發(fā)明的一種分詞詞典自動擴展的方法,該方法包括以下步驟:
Si,獲取詞匯資源文本;
S2,采用分詞器對詞匯資源文本處理后提取未能識別的單詞組成候選詞匯;
S3,統(tǒng)計候選詞匯中每個單詞在出現(xiàn)的頻次;
S4,選擇高頻的單詞加入至詞典。
[0005]進一步,根據(jù)本發(fā)明的分詞詞典自動擴展的方法,該方法應(yīng)用于搜索裝置,該搜索裝置包括搜索日志數(shù)據(jù)庫,所述步驟Si包括:
SI I,提取搜索日志數(shù)據(jù)庫中的搜索文本。
[0006]進一步,根據(jù)本發(fā)明的分詞詞典自動擴展的方法,所述步驟SI還包括:
S12,通過網(wǎng)絡(luò)爬蟲從公共網(wǎng)站中抓取網(wǎng)頁。
[0007]根據(jù)本發(fā)明的一種分詞詞典自動擴展的裝置,該裝置包括:
獲取詞匯資源文本的裝置;
采用分詞器對詞匯資源文本處理后提取未能識別的單詞組成候選詞匯的裝置;
統(tǒng)計候選詞匯中每個單詞在出現(xiàn)的頻次的裝置;
選擇高頻的單詞加入至詞典的裝置。
[0008]進一步,根據(jù)本發(fā)明的分詞詞典自動擴展的裝置,所述獲取詞匯資源文本的裝置包括提取搜索裝置的搜索日志數(shù)據(jù)庫中的搜索文本的裝置。
[0009]進一步,根據(jù)本發(fā)明的分詞詞典自動擴展的裝置,其特征在于,所述獲取詞匯資源文本的裝置還包括網(wǎng)絡(luò)爬蟲裝置;所述的網(wǎng)絡(luò)爬蟲裝置用于從公共網(wǎng)站中抓取網(wǎng)頁。[0010]一種機器可讀介質(zhì),其特征在于,該可讀介質(zhì)上存儲有指令集,當該指令集被執(zhí)行時,使得該機器可執(zhí)行上述分詞詞典自動擴展的方法。
[0011]本發(fā)明的技術(shù)效果:
1、本發(fā)明獨立于現(xiàn)有的分詞器,自動實現(xiàn)新詞匯添加,使得分詞器能夠識別新的詞匯,從而顯著提高分詞器的準確率。
[0012]2、本發(fā)明還適用于字處理軟件中的英文自動拼寫檢查,提升用戶對于語拼寫自動檢查的體驗。
【具體實施方式】
[0013]下面對本發(fā)明的
【發(fā)明內(nèi)容】
和權(quán)利要求作進一步詳細說明。
[0014]一、實施例1
本實施例建立在字處理軟件上。例如Word、WPS或WordPro等字處理軟件上。為輔助用戶輸入文本,這些字處理軟件都嵌入了英語拼寫自動檢查功能。例如,眾所周知,微軟的Word軟件提供了很強的拼寫自動檢查功能。但作為桌面軟件,拼寫自動檢查功能中的詞匯量相當有限,特別是對于一些專業(yè)領(lǐng)域范圍內(nèi)的詞匯,微軟提供的字處理軟件目前是無法識別的,而對于互聯(lián)網(wǎng)網(wǎng)絡(luò)文化中產(chǎn)生的新的詞匯更不可能識別,因為它不能自動更新詞匯。新詞匯不能識別導(dǎo)致字處理器出現(xiàn)很多問題,比如自動詞匯糾正功能也相應(yīng)的出錯。微軟的Word軟件在自動拼寫檢查功能中雖然在一些普通的場合能夠起到很大輔助作用,但是在一些專業(yè)領(lǐng)域,自動拼寫檢查功能往往反而是個累贅。而本發(fā)明的本實施例可以很好地解決上述問題。本實施例為字處理軟件上的自動拼寫檢查模塊下的功能模塊?!揪唧w實施方式】可以歸納為:以下步驟:S1,獲取詞匯資源文本;S2,采用分詞器對詞匯資源文本處理后提取未能識別的單詞組成候選詞匯;S3,統(tǒng)計候選詞匯中每個單詞在候選詞匯中的出現(xiàn)的頻次;S4,選擇高頻的單詞加入至詞典。本實施例下,獲取的詞匯資源文本為字處理軟件中正在編輯的文本。步驟S2、S3和S4為由事件驅(qū)動執(zhí)行的步驟。當用戶在字處理軟件中執(zhí)行打開文件、關(guān)閉文件、文本輸入、剪切板粘貼等操作時,字處理軟件的自動拼寫檢查模塊按順序執(zhí)行步驟S2、S3和S4。首先在步驟S2中分詞器獲取英文單詞,眾所周知,英文單詞通過空格、換行、段落、以及標點符號分割獲得。然后在步驟S2中將獲取的英文單詞在單詞庫(即詞典)中檢查是否已經(jīng)存在,假如不存在,則將該單詞放入候選詞匯中。候選詞匯為英文單詞的集合或數(shù)組。然后在步驟S3中統(tǒng)計候選詞匯中單詞出現(xiàn)的次數(shù),本領(lǐng)域技術(shù)人員理解,這一步也可以在前述的步驟S2中一并執(zhí)行,即在“將該單詞放入候選詞匯”時對該單詞進行計數(shù)得到單詞出現(xiàn)的頻次。最后執(zhí)行步驟S4:假如候選詞匯中某個單詞的出現(xiàn)的頻次大于3次或4次,即可認為該單詞為高頻的單詞,或可擴展的單詞,并將該單詞加入至單詞庫(即詞典)中。本實施例中以頻次大于3或4作為高頻的單詞依據(jù)在于,用戶輸入的單詞時不會連續(xù)三至四次犯錯。
[0015]實施例2
本實施例建立在互聯(lián)網(wǎng)的搜索引擎中。設(shè)一服務(wù)器提供搜索服務(wù)。該搜索服務(wù)由搜索裝置或搜索模塊實現(xiàn)。當用戶提交字符串向服務(wù)器請求搜索時,搜索裝置在執(zhí)行搜索的同時,還將該字符串保存在搜索日志數(shù)據(jù)庫中。搜索裝置在執(zhí)行搜索時首先需要將被搜索的字符串采用分詞器拆分。分詞器拆分的依據(jù)是分詞器內(nèi)置的分詞詞典。搜索裝置還設(shè)置有一定時裝置,該定時裝置根據(jù)一定的時間間隔S執(zhí)行以下步驟:S1,提取搜索日志數(shù)據(jù)庫中在時間間隔s內(nèi)的搜索文本作為詞匯資源文本;S2,采用分詞器對詞匯資源文本處理后提取未能識別的單詞組成候選詞匯;S3,統(tǒng)計候選詞匯中每個單詞在候選詞匯中的出現(xiàn)的頻次;S4,選擇高頻的單詞加入至詞典。
[0016]需要說明的是實施例1中的單詞特指是英文單詞,本實施例中的單詞是包括其他語言的字符串,特別是中文字符的字符串。中文字符的構(gòu)成的單詞通過分隔符分割而成,這里的分隔符是廣義的概念,包括Ascii碼的127個字符、標點符號、介詞、連詞、助詞以及可識別的單詞。這里可識別的單詞是指在現(xiàn)有的詞典庫中能夠找到的中文單詞。特別的,對于步驟2中提到的“未能識別的單詞”通常是指由兩個或兩個以上漢字組成的詞組。步驟SI中的搜索文本也就是前述的用戶向服務(wù)器請求搜索時提交的字符串。時間間隔s的長度可以一天,或三天,或一周。步驟S4中高頻的單詞可以通過單詞的出現(xiàn)頻次是否大于某一閾值而確定。該閾值可以是事先確定的常數(shù),比如100。在不同搜索引擎應(yīng)用中,該閾值可以設(shè)置相應(yīng)的值。在某些搜索引擎中該閾值還可以通過搜索訪問量設(shè)定,比如該閾值設(shè)為搜索引擎日搜索訪問量的萬分之一。
[0017]實施例3
本實施例建立在實施例2的基礎(chǔ)上。本實施例與實施例2的區(qū)別在于,步驟SI還包括通過網(wǎng)絡(luò)爬蟲從公共網(wǎng)站中抓取網(wǎng)頁,將抓取的網(wǎng)頁作為詞匯資源文本。網(wǎng)絡(luò)爬蟲又被稱為網(wǎng)頁蜘蛛,是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。網(wǎng)絡(luò)爬蟲是搜索引擎中現(xiàn)有的技術(shù)。本實施例下,詞匯資源文本來自兩個方面:一是搜索日志數(shù)據(jù)庫中的搜索文本,二是抓取的網(wǎng)頁。實際應(yīng)用中,抓取的網(wǎng)頁可以是某些特定網(wǎng)站的頁面,比如維基百科、百度百科、互動百科、知乎、百度知道、新浪愛問、搜搜問問等等。
[0018]實施例4
本實施例建立在實施例2的基礎(chǔ)上。本實施例與實施例2的區(qū)別在于,本實施例不是根據(jù)定時裝置根據(jù)一定的時間間隔s執(zhí)行步驟SI?S4,而是,搜索裝置中包括候選詞匯裝置,當用戶提交字符串向服務(wù)器請求搜索時,搜索裝置在執(zhí)行搜索的同時,還執(zhí)行步驟SI?S4。候選詞匯裝置用于實時地管理和維護候選詞匯。該實施方式等同于前述實施例1中的按事件驅(qū)動方式。本實施例說明何時執(zhí)行本發(fā)明的方法并不對本發(fā)明的權(quán)利要求保護范圍產(chǎn)生影響。
[0019]實施例5
本實施例建立在實施例3的基礎(chǔ)上。本實施例與實施例2的區(qū)別之一在于,本實施例中步驟SI中的詞匯資源文本定義為:搜索日志數(shù)據(jù)庫中的搜索文本和特定網(wǎng)站內(nèi)網(wǎng)頁的標題,特定網(wǎng)站內(nèi)網(wǎng)頁的標題通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁獲得。特定網(wǎng)站比如維基百科、百度百科、互動百科、知乎、百度知道、新浪愛問、搜搜問問等等。本實施例與實施例2的區(qū)別之二在于,本實施例步驟S3統(tǒng)計候選詞匯中每個單詞在候選詞匯中的出現(xiàn)的頻次時不限于“在候選詞匯中的出現(xiàn)的頻次”,而是“在網(wǎng)絡(luò)爬蟲所抓取的所有網(wǎng)頁中出現(xiàn)的頻次”。簡單來說,如果將搜索文本視為等同于特定網(wǎng)頁標題,則候選詞匯只選自特定網(wǎng)頁標題,而統(tǒng)計頻次則在所有網(wǎng)頁中統(tǒng)計。在本實施例的方式下,顯而易見地,計算機處理的復(fù)雜度將大大降低。
【權(quán)利要求】
1.一種分詞詞典自動擴展的方法,其特征在于,該方法包括以下步驟: Si,獲取詞匯資源文本; S2,采用分詞器對詞匯資源文本處理后提取未能識別的單詞組成候選詞匯; S3,統(tǒng)計候選詞匯中每個單詞出現(xiàn)的頻次; S4,選擇高頻的單詞加入至詞典。
2.如權(quán)利要求1所述的分詞詞典自動擴展的方法,其特征在于,該方法應(yīng)用于搜索裝置,該搜索裝置包括搜索日志數(shù)據(jù)庫,所述步驟SI包括: SI I,提取搜索日志數(shù)據(jù)庫中的搜索文本。
3.如權(quán)利要求2所述的分詞詞典自動擴展的方法,其特征在于,所述步驟SI還包括: S12,通過網(wǎng)絡(luò)爬蟲從公共網(wǎng)站中抓取網(wǎng)頁。
4.一種分詞詞典自動擴展的裝置,其特征在于,該裝置包括: 獲取詞匯資源文本的裝置; 采用分詞器對詞匯資源文本處理后提取未能識別的單詞組成候選詞匯的裝置; 統(tǒng)計候選詞匯中每個單詞在出現(xiàn)的頻次的裝置; 選擇高頻的單詞加入至詞典的裝置。
5.如權(quán)利要求4所述的分詞詞典自動擴展的裝置,其特征在于,所述獲取詞匯資源文本的裝置包括提取搜索裝置的搜索日志數(shù)據(jù)庫中的搜索文本的裝置。
6.如權(quán)利要求5所述的分詞詞典自動擴展的裝置,其特征在于,所述獲取詞匯資源文本的裝置還包括網(wǎng)絡(luò)爬蟲裝置;所述的網(wǎng)絡(luò)爬蟲裝置用于從公共網(wǎng)站中抓取網(wǎng)頁。
7.一種機器可讀介質(zhì),其特征在于,該可讀介質(zhì)上存儲有指令集,當該指令集被執(zhí)行時,使得該機器可執(zhí)行權(quán)利要求1或2或3所述的方法。
【文檔編號】G06F17/30GK103631938SQ201310660234
【公開日】2014年3月12日 申請日期:2013年12月10日 優(yōu)先權(quán)日:2013年12月10日
【發(fā)明者】羅晶, 尹巖, 嚴敏 申請人:江蘇金智教育信息技術(shù)有限公司