一種基于詞典的lucene中文分詞方法

文檔序號：9667488閱讀：486來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于詞典的lucene中文分詞方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于中文分詞技術(shù)領(lǐng)域，更為具體地講，涉及一種基于詞典的lucene中文分詞方法。
【背景技術(shù)】
[0002] 中文信息和英文信息有一個明顯的差別，英語單詞之間用空格分隔；而在中文文本中，詞與詞之間沒有明顯的分隔符，中文詞匯大多是由兩個或者兩個以上的漢字組成的，并且語句是連續(xù)書寫的。這就意味著在對中文文本進(jìn)行自動分析前，要先將一整句話切割成小的詞匯單元，即中文分詞。中文分詞是當(dāng)今中文信息處理和檢索的一個難點(diǎn)，是研究搜索領(lǐng)域不可避免的一個問題，現(xiàn)在，中文分詞已經(jīng)有了一些成果，并且在很多方面如信息檢索有了廣泛的應(yīng)用。
[0003] 隨著互聯(lián)網(wǎng)的快速發(fā)展，搜索引擎的應(yīng)用越來越廣泛，然而普通的商用搜索引擎無法滿足特定領(lǐng)域內(nèi)的搜索要求，其搜索結(jié)果含有大量對于使用者無關(guān)的信息，無法顯示準(zhǔn)確的搜索結(jié)果。于是需要更加準(zhǔn)確，符合某一特定領(lǐng)域的搜索引擎，其中需使用中文分詞技術(shù)。中文分詞技術(shù)在索引的過程中至關(guān)重要。
[0004] Lucene作為目前世界上最流行的開源全文索引系統(tǒng)，已經(jīng)在許多搜索引擎技術(shù)項(xiàng) 目中得到了廣泛且深入的應(yīng)用和研究，而其中的語言分析器已經(jīng)能夠支持世界上大多數(shù)語言，當(dāng)然也包括中文漢字。但目前Lucene中只提供中文單字和雙字分詞機(jī)制，而這兩種中文分詞模塊并不能較好支持Lucene中文分析處理。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種基于詞典的lucene中文分詞方法，構(gòu)建專業(yè)詞典，然后使用通用詞典和專業(yè)詞典進(jìn)行分詞，從而滿足專業(yè)領(lǐng)域要求。
[0006] 為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明基于詞典的lucene中文分詞方法包括以下步驟：
[0007] S1 :收集語料，構(gòu)建專業(yè)詞典，其具體步驟為：
[0008] SI. 1 :對收集到的語料去除停用詞，將語料劃分成文本片段；
[0009] S1. 2 :對每個文本片段，提取相鄰兩個字作為候選詞，對候選詞按順序進(jìn)行編號，統(tǒng)計(jì)候選詞和每個單字在所有文本片段中的出現(xiàn)概率；
[0010] S1. 3 :計(jì)筧毎個候詵詞中兩個漢字X和Y的互信息M(X，Y):
[0011]
[0012] 其中P(X，Y)是漢字X和Y的相鄰共現(xiàn)概率，P(X)、P(Y)分別是漢字X、Y的出現(xiàn)概率；如果候選詞的互信息大于預(yù)設(shè)的互信息閾值，則保留該候選詞，否則刪除該候選詞；
[0013] S1. 4 :在篩選得到的候選詞中，如果兩個以上候選詞的編號連續(xù)，并且前一個候選詞的末字與后一個候選詞的首字相同，則將這些候選詞按照順序進(jìn)行合并，其他候選詞不作任何操作；
[0014] SI. 5 :將合并處理后的候選詞與通用詞典進(jìn)行匹配，如果候選詞屬于通用詞典，則將該候選詞刪除，否則再將候選詞與專業(yè)詞典進(jìn)行匹配，如果尚未存在于專業(yè)詞典中，則加入專業(yè)詞典，否則不作任何操作；
[0015] S2:從待分詞文本中去除停用詞，然后對待分詞文本采用專業(yè)詞典分詞，專業(yè)詞典分詞后剩下的文本再采用通用詞典進(jìn)行分詞。
[0016] 進(jìn)一步地，步驟S1. 5中，還需要維護(hù)一個非術(shù)語詞典，對于經(jīng)通用詞典匹配后保留的候選詞，采用非術(shù)語詞典進(jìn)行匹配，如果候選詞屬于非術(shù)語詞典，則將其刪除；然后保留的候選詞在加入專業(yè)詞典之前，進(jìn)行人工檢查，如果有非術(shù)語候選詞則放入非術(shù)語詞典中，不再加入專業(yè)詞典。
[0017] 進(jìn)一步地，步驟S2中的采用專業(yè)詞典或通用詞典分詞采用雙向最大匹配算法，其具體方法為：對待分詞文本先分別采用正向最大匹配法和逆向最大匹配法進(jìn)行分詞，當(dāng)正向最大匹配法和逆向最大匹配法分詞結(jié)果詞數(shù)不同時，則取分詞數(shù)量較少的那個分詞結(jié)果作為最終結(jié)果；當(dāng)分詞結(jié)果詞數(shù)相同時，如果分詞結(jié)果相同，任意取一個分詞結(jié)果作為最終結(jié)果，如果分詞結(jié)果不同，則將單字較少的那個分詞結(jié)果作為最終結(jié)果。
[0018] 本發(fā)明基于詞典的中文分詞方法，首先收集語料，構(gòu)建專業(yè)詞典，構(gòu)建方法為：首先去除停用詞，將語料劃分為文本片段，從文本片段中提取候選詞，統(tǒng)計(jì)候選詞和每個單字在所有文本片段中的出現(xiàn)概率，計(jì)算每個候選詞中兩個漢字的互信息，互信息大于預(yù)設(shè)的互信息閾值，則保留該候選詞，否則刪除該候選詞，然后對篩選后的候選詞進(jìn)行合并，將合并處理后的候選詞采用通用詞典進(jìn)行匹配過濾，將過濾后的候選詞加入專業(yè)詞典；對待分詞文本先采用專業(yè)詞典進(jìn)行分詞，剩下的文本再采用通用詞典進(jìn)行分詞。
[0019] 本發(fā)明基于統(tǒng)計(jì)的方法從語料中抽取專業(yè)術(shù)語來構(gòu)建專業(yè)詞典，不需要句法、語義上的信息，不局限于某一專門領(lǐng)域，也不依賴任何資源，通用性較強(qiáng)，采用該專業(yè)詞典進(jìn) 行分詞可以有效滿足專業(yè)領(lǐng)域的要求，提高lucene索引的有效性，使得搜索結(jié)果更符合主題搜索引擎的要求。
【附圖說明】
[0020] 圖1是本發(fā)明基于詞典的lucene中文分詞方法的【具體實(shí)施方式】流程圖；
[0021] 圖2是構(gòu)建專業(yè)詞典的流程圖。
【具體實(shí)施方式】
[0022] 下面結(jié)合附圖對本發(fā)明的【具體實(shí)施方式】進(jìn)行描述，以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是，在以下的描述中，當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許會淡化本發(fā)明的主要內(nèi)容時，這些描述在這里將被忽略。
[0023] 實(shí)施例
[0024] 本發(fā)明基于詞典的lucene中文分詞方法主要包括兩大階段，一是專業(yè)詞典的構(gòu) 建，二是文本分詞。圖1是本發(fā)明基于詞典的lucene中文分詞方法的【具體實(shí)施方式】流程圖。如圖1所示，本發(fā)明基于詞典的lucene中文分詞方法包括以下步驟：
[0025] S101 :構(gòu)建專業(yè)詞典：
[0026] 本發(fā)明首先需要收集語料，構(gòu)建專業(yè)詞典。圖2是構(gòu)建專業(yè)詞典的流程圖。如圖 2所示，本發(fā)明中構(gòu)建專業(yè)詞典的具體步驟為：
[0027]S201 :語料預(yù)處理：
[0028] 首先需要對收集到的語料進(jìn)行預(yù)處理，也就是從語料中去除經(jīng)過人工收集的停用詞，將語料中的每一個句子切分成相對較小的文本片段。停用詞主要包含標(biāo)點(diǎn)符號、代詞、語氣詞、助詞、連詞等。這些停用詞一般沒有特殊的意義，經(jīng)常搭配別的詞構(gòu)成詞或短語，且術(shù)語一般不會包含這些詞，可以用于切分句子。停用詞示例："啊"、"它"、"以及"、"并且"、 "咦"、"大多數(shù)"、"及時"、"幾乎"、"什么"、"我"、"我等。
[0029] 本實(shí)施例中，假設(shè)語料中的一句話為"中文分詞使用統(tǒng)計(jì)方法進(jìn)行詞典的構(gòu)造。" 由于段落中有出現(xiàn)頻率高、構(gòu)詞能力差的單字詞一一 "的"，所以此句話可以分為兩個文本片段："中文分詞使用統(tǒng)計(jì)方法進(jìn)行詞典"和"構(gòu)造"。
[0030]S202 :概率統(tǒng)計(jì)：
[0031] 對于預(yù)處理后的得到的每個文本片段，提取相鄰兩個字作為候選詞，對候選詞按順序進(jìn)行編號，統(tǒng)計(jì)候選詞和每個單字在所有文本片段中的出現(xiàn)概率。
[0032] 本實(shí)施例中，待分詞文本被劃分成了兩個部分，因此需要統(tǒng)計(jì)"中文"，"文分"，"分詞"，"詞使"，"使用"，"用統(tǒng)"，"統(tǒng)計(jì)"，"計(jì)方"，"方法"，"法進(jìn)"，"進(jìn)行"，"行詞"，"詞典"，"構(gòu) 造"和各個單字的出現(xiàn)概率。
[0033]S203 :候選詞篩選：
[0034] 從形式上看，詞是穩(wěn)定的字的組合，因此在上下文中，相鄰的字同時出現(xiàn)的次數(shù)越多，就越有可能組成一個詞，因此字與字相鄰出現(xiàn)的頻率或概率能夠較好的反應(yīng)詞的可信度，對待分詞文本中相鄰出現(xiàn)的各個字的組合的

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫健;張祥;
技術(shù)所有人：成都電科心通捷信科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于詞典的lucene中文分詞方法