欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于詞典的lucene中文分詞方法

文檔序號:9667488閱讀:486來源:國知局
一種基于詞典的lucene中文分詞方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于中文分詞技術(shù)領(lǐng)域,更為具體地講,涉及一種基于詞典的lucene中文 分詞方法。
【背景技術(shù)】
[0002] 中文信息和英文信息有一個明顯的差別,英語單詞之間用空格分隔;而在中文文 本中,詞與詞之間沒有明顯的分隔符,中文詞匯大多是由兩個或者兩個以上的漢字組成的, 并且語句是連續(xù)書寫的。這就意味著在對中文文本進(jìn)行自動分析前,要先將一整句話切割 成小的詞匯單元,即中文分詞。中文分詞是當(dāng)今中文信息處理和檢索的一個難點(diǎn),是研究搜 索領(lǐng)域不可避免的一個問題,現(xiàn)在,中文分詞已經(jīng)有了一些成果,并且在很多方面如信息檢 索有了廣泛的應(yīng)用。
[0003] 隨著互聯(lián)網(wǎng)的快速發(fā)展,搜索引擎的應(yīng)用越來越廣泛,然而普通的商用搜索引擎 無法滿足特定領(lǐng)域內(nèi)的搜索要求,其搜索結(jié)果含有大量對于使用者無關(guān)的信息,無法顯示 準(zhǔn)確的搜索結(jié)果。于是需要更加準(zhǔn)確,符合某一特定領(lǐng)域的搜索引擎,其中需使用中文分詞 技術(shù)。中文分詞技術(shù)在索引的過程中至關(guān)重要。
[0004] Lucene作為目前世界上最流行的開源全文索引系統(tǒng),已經(jīng)在許多搜索引擎技術(shù)項(xiàng) 目中得到了廣泛且深入的應(yīng)用和研究,而其中的語言分析器已經(jīng)能夠支持世界上大多數(shù)語 言,當(dāng)然也包括中文漢字。但目前Lucene中只提供中文單字和雙字分詞機(jī)制,而這兩種中 文分詞模塊并不能較好支持Lucene中文分析處理。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于詞典的lucene中文分詞 方法,構(gòu)建專業(yè)詞典,然后使用通用詞典和專業(yè)詞典進(jìn)行分詞,從而滿足專業(yè)領(lǐng)域要求。
[0006] 為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明基于詞典的lucene中文分詞方法包括以下步驟:
[0007] S1 :收集語料,構(gòu)建專業(yè)詞典,其具體步驟為:
[0008] SI. 1 :對收集到的語料去除停用詞,將語料劃分成文本片段;
[0009] S1. 2 :對每個文本片段,提取相鄰兩個字作為候選詞,對候選詞按順序進(jìn)行編號, 統(tǒng)計(jì)候選詞和每個單字在所有文本片段中的出現(xiàn)概率;
[0010] S1. 3 :計(jì)筧毎個候詵詞中兩個漢字X和Y的互信息M(X,Y):
[0011]
[0012] 其中P(X,Y)是漢字X和Y的相鄰共現(xiàn)概率,P(X)、P(Y)分別是漢字X、Y的出現(xiàn)概 率;如果候選詞的互信息大于預(yù)設(shè)的互信息閾值,則保留該候選詞,否則刪除該候選詞;
[0013] S1. 4 :在篩選得到的候選詞中,如果兩個以上候選詞的編號連續(xù),并且前一個候選 詞的末字與后一個候選詞的首字相同,則將這些候選詞按照順序進(jìn)行合并,其他候選詞不 作任何操作;
[0014] SI. 5 :將合并處理后的候選詞與通用詞典進(jìn)行匹配,如果候選詞屬于通用詞典,則 將該候選詞刪除,否則再將候選詞與專業(yè)詞典進(jìn)行匹配,如果尚未存在于專業(yè)詞典中,則加 入專業(yè)詞典,否則不作任何操作;
[0015] S2:從待分詞文本中去除停用詞,然后對待分詞文本采用專業(yè)詞典分詞,專業(yè)詞典 分詞后剩下的文本再采用通用詞典進(jìn)行分詞。
[0016] 進(jìn)一步地,步驟S1. 5中,還需要維護(hù)一個非術(shù)語詞典,對于經(jīng)通用詞典匹配后保 留的候選詞,采用非術(shù)語詞典進(jìn)行匹配,如果候選詞屬于非術(shù)語詞典,則將其刪除;然后保 留的候選詞在加入專業(yè)詞典之前,進(jìn)行人工檢查,如果有非術(shù)語候選詞則放入非術(shù)語詞典 中,不再加入專業(yè)詞典。
[0017] 進(jìn)一步地,步驟S2中的采用專業(yè)詞典或通用詞典分詞采用雙向最大匹配算法,其 具體方法為:對待分詞文本先分別采用正向最大匹配法和逆向最大匹配法進(jìn)行分詞,當(dāng)正 向最大匹配法和逆向最大匹配法分詞結(jié)果詞數(shù)不同時,則取分詞數(shù)量較少的那個分詞結(jié)果 作為最終結(jié)果;當(dāng)分詞結(jié)果詞數(shù)相同時,如果分詞結(jié)果相同,任意取一個分詞結(jié)果作為最終 結(jié)果,如果分詞結(jié)果不同,則將單字較少的那個分詞結(jié)果作為最終結(jié)果。
[0018] 本發(fā)明基于詞典的中文分詞方法,首先收集語料,構(gòu)建專業(yè)詞典,構(gòu)建方法為:首 先去除停用詞,將語料劃分為文本片段,從文本片段中提取候選詞,統(tǒng)計(jì)候選詞和每個單字 在所有文本片段中的出現(xiàn)概率,計(jì)算每個候選詞中兩個漢字的互信息,互信息大于預(yù)設(shè)的 互信息閾值,則保留該候選詞,否則刪除該候選詞,然后對篩選后的候選詞進(jìn)行合并,將合 并處理后的候選詞采用通用詞典進(jìn)行匹配過濾,將過濾后的候選詞加入專業(yè)詞典;對待分 詞文本先采用專業(yè)詞典進(jìn)行分詞,剩下的文本再采用通用詞典進(jìn)行分詞。
[0019] 本發(fā)明基于統(tǒng)計(jì)的方法從語料中抽取專業(yè)術(shù)語來構(gòu)建專業(yè)詞典,不需要句法、語 義上的信息,不局限于某一專門領(lǐng)域,也不依賴任何資源,通用性較強(qiáng),采用該專業(yè)詞典進(jìn) 行分詞可以有效滿足專業(yè)領(lǐng)域的要求,提高lucene索引的有效性,使得搜索結(jié)果更符合主 題搜索引擎的要求。
【附圖說明】
[0020] 圖1是本發(fā)明基于詞典的lucene中文分詞方法的【具體實(shí)施方式】流程圖;
[0021] 圖2是構(gòu)建專業(yè)詞典的流程圖。
【具體實(shí)施方式】
[0022] 下面結(jié)合附圖對本發(fā)明的【具體實(shí)施方式】進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地 理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許 會淡化本發(fā)明的主要內(nèi)容時,這些描述在這里將被忽略。
[0023] 實(shí)施例
[0024] 本發(fā)明基于詞典的lucene中文分詞方法主要包括兩大階段,一是專業(yè)詞典的構(gòu) 建,二是文本分詞。圖1是本發(fā)明基于詞典的lucene中文分詞方法的【具體實(shí)施方式】流程圖。 如圖1所示,本發(fā)明基于詞典的lucene中文分詞方法包括以下步驟:
[0025] S101 :構(gòu)建專業(yè)詞典:
[0026] 本發(fā)明首先需要收集語料,構(gòu)建專業(yè)詞典。圖2是構(gòu)建專業(yè)詞典的流程圖。如圖 2所示,本發(fā)明中構(gòu)建專業(yè)詞典的具體步驟為:
[0027]S201 :語料預(yù)處理:
[0028] 首先需要對收集到的語料進(jìn)行預(yù)處理,也就是從語料中去除經(jīng)過人工收集的停用 詞,將語料中的每一個句子切分成相對較小的文本片段。停用詞主要包含標(biāo)點(diǎn)符號、代詞、 語氣詞、助詞、連詞等。這些停用詞一般沒有特殊的意義,經(jīng)常搭配別的詞構(gòu)成詞或短語,且 術(shù)語一般不會包含這些詞,可以用于切分句子。停用詞示例:"啊"、"它"、"以及"、"并且"、 "咦"、"大多數(shù)"、"及時"、"幾乎"、"什么"、"我"、"我等。
[0029] 本實(shí)施例中,假設(shè)語料中的一句話為"中文分詞使用統(tǒng)計(jì)方法進(jìn)行詞典的構(gòu)造。" 由于段落中有出現(xiàn)頻率高、構(gòu)詞能力差的單字詞一一 "的",所以此句話可以分為兩個文本 片段:"中文分詞使用統(tǒng)計(jì)方法進(jìn)行詞典"和"構(gòu)造"。
[0030]S202 :概率統(tǒng)計(jì):
[0031] 對于預(yù)處理后的得到的每個文本片段,提取相鄰兩個字作為候選詞,對候選詞按 順序進(jìn)行編號,統(tǒng)計(jì)候選詞和每個單字在所有文本片段中的出現(xiàn)概率。
[0032] 本實(shí)施例中,待分詞文本被劃分成了兩個部分,因此需要統(tǒng)計(jì)"中文","文分","分 詞","詞使","使用","用統(tǒng)","統(tǒng)計(jì)","計(jì)方","方法","法進(jìn)","進(jìn)行","行詞","詞典","構(gòu) 造"和各個單字的出現(xiàn)概率。
[0033]S203 :候選詞篩選:
[0034] 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越 多,就越有可能組成一個詞,因此字與字相鄰出現(xiàn)的頻率或概率能夠較好的反應(yīng)詞的可信 度,對待分詞文本中相鄰出現(xiàn)的各個字的組合的
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
克什克腾旗| 山丹县| 南昌县| 大余县| 宜兰县| 蕉岭县| 民勤县| 宝丰县| 兖州市| 石嘴山市| 新昌县| 芜湖市| 兖州市| 罗源县| 定远县| 肇州县| 砚山县| 抚宁县| 枝江市| 南乐县| 六枝特区| 乡宁县| 海丰县| 胶州市| 太湖县| 西乌珠穆沁旗| 德令哈市| 抚州市| 延寿县| 东光县| 湘潭市| 通道| 遂昌县| 大名县| 海淀区| 定州市| 民权县| 侯马市| 阿坝| 曲阜市| 澎湖县|