頻度進(jìn)行統(tǒng)計計算他們的互信息。計算漢
字X和Y的百信彥.Μ(? Υ?管公?Μ
[0035]
[0036] 其中Ρ(Χ,Υ)是漢字X和Υ的相鄰共現(xiàn)概率,也就是該候選詞的出現(xiàn)概率,Ρ(Χ)、 Ρ(Υ)分別是漢字X、Υ的出現(xiàn)概率。
[0037] 互信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閾值時,便 可以認(rèn)為此字組構(gòu)成了一個詞。因此根據(jù)步驟S202統(tǒng)計得到的概率計算得到各個候選詞 中兩個漢字的互信息,如果互信息大于預(yù)設(shè)的互信息閾值,則認(rèn)為該候選詞是詞語,保留該 候選詞,否則不是詞語,刪除該候選詞。本實(shí)施例中,設(shè)置互信息閾值為5。假定篩選得到 的候選詞有:"中文","文分","分詞","使用","用統(tǒng)","統(tǒng)計","計方","方法","進(jìn)行","詞 典","構(gòu)造"。
[0038]S204 :候選詞合并:
[0039] 在篩選得到的候選詞中,如果兩個以上候選詞的編號連續(xù),并且前一個候選詞的 末字與后一個候選詞的首字相同,則將這些候選詞按照順序進(jìn)行合并,其他候選詞不作任 何操作。例如"中文文分分詞"合并處理為詞語"中文分詞","統(tǒng)計計方方法"合并處理為 "統(tǒng)計方法",可由"中文分詞使用統(tǒng)計方法進(jìn)行詞典"這句話得到詞語"中文分詞","使用", "統(tǒng)計方法","進(jìn)行","詞典"。
[0040]S205 :詞語過濾:
[0041] 將合并處理后的候選詞與通用詞典進(jìn)行匹配,如果候選詞屬于通用詞典,則將該 候選詞刪除,不加入專業(yè)詞典當(dāng)中,否則再將候選詞與專業(yè)詞典進(jìn)行匹配,如果尚未存在于 專業(yè)詞典中,則加入專業(yè)詞典,否則不作任何操作。
[0042] 對于本實(shí)施例中的候選詞,發(fā)現(xiàn)候選詞"利用","進(jìn)行","詞典","構(gòu)造"這幾個詞 是通用詞典中的單詞,所以將這幾個候選詞刪除,而保留"中文分詞","統(tǒng)計方法"這兩個候 選詞。假設(shè)此時專業(yè)詞典中不存在這兩個候選詞,則將它們加入專業(yè)詞典。
[0043] 為了提高專業(yè)術(shù)語詞典的正確率,本發(fā)明還提出建立一個非術(shù)語詞典,對于經(jīng)通 用詞典匹配后保留的候選詞,采用非術(shù)語詞典進(jìn)行匹配,如果候選詞屬于非術(shù)語詞典,則將 其刪除;然后保留的候選詞在加入專業(yè)詞典之前,進(jìn)行人工檢查,如果有非術(shù)語候選詞則放 入非術(shù)語詞典中,不再加入專業(yè)詞典。這樣可以提高專業(yè)術(shù)語詞典的構(gòu)造速度。
[0044] S102 :待分詞文本預(yù)處理:
[0045] 對于待分詞文本,首先也要進(jìn)行預(yù)處理,即去除停用詞。
[0046] S103 :采用專業(yè)詞典分詞:
[0047] 對待分詞文本采用專業(yè)詞典分詞。本實(shí)施例在分詞時采用雙向最大匹配算法。雙 向最大匹配算法是將正向最大匹配法得到的分詞結(jié)果和逆向最大匹配法的到的結(jié)果進(jìn)行 比較,從而決定正確的分詞方法。正向最大匹配法和逆向最大匹配法是常用的分詞方法,其 具體步驟在此不再贅述。
[0048] 中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正確, 只有大概9. 0%的句子兩種切分方法得到的結(jié)果不一樣,但其中必有一個是正確的(歧義 檢測成功),只有不到1. 〇%的句子,或者正向最大匹配法和逆向最大匹配法的切分雖重合 卻是錯的,或者正向最大匹配法和逆向最大匹配法切分不同但兩個都不對(歧義檢測失 ?。?。因此在采用雙向最大匹配算法時,需要加入一些啟發(fā)式的規(guī)則來對分詞結(jié)果進(jìn)行進(jìn)一 步消歧的。
[0049] 本實(shí)施例提出的啟發(fā)式規(guī)則為:當(dāng)正向最大匹配法和逆向最大匹配法分詞結(jié)果詞 數(shù)不同時,則取分詞數(shù)量較少的那個分詞結(jié)果作為最終結(jié)果;當(dāng)分詞結(jié)果詞數(shù)相同時,如果 分詞結(jié)果相同,說明沒有歧義,任意取一個分詞結(jié)果作為最終結(jié)果,如果分詞結(jié)果不同,則 將單字較少的那個分詞結(jié)果作為最終結(jié)果。
[0050] S104 :采用通用詞典分詞:
[0051] 對步驟S103中經(jīng)過專業(yè)詞典分詞后剩下的文本,采用通用詞典進(jìn)行分詞,從而得 到最終的分詞結(jié)果。本實(shí)施例中,通用詞典分詞也采用雙向最大匹配算法。
[0052] 盡管上面對本發(fā)明說明性的【具體實(shí)施方式】進(jìn)行了描述,以便于本技術(shù)領(lǐng)域的技術(shù) 人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于【具體實(shí)施方式】的范圍,對本技術(shù)領(lǐng)域的普通技 術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些 變化是顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
【主權(quán)項】
1. 一種基于詞典的Iucene中文分詞方法,其特征在于,包括以下步驟: 51 :收集語料,構(gòu)建專業(yè)詞典,其具體步驟為: SI. 1 :對收集到的語料去除停用詞,將語料劃分成文本片段; SI. 2 :對每個文本片段,提取相鄰兩個字作為候選詞,對候選詞按順序進(jìn)行編號,統(tǒng)計 候選詞和每個單字在所有文本片段中的出現(xiàn)概率; SI. 3 :計算每個候選詞中兩個漢字X和Y的互信息M (X,Y):其中P(X,Y)是漢字X和Y的相鄰共現(xiàn)概率,P(X)、P(Y)分別是漢字X、Y的出現(xiàn)概率; 如果候選詞的互信息大于預(yù)設(shè)的互信息閾值,則保留該候選詞,否則刪除該候選詞; SI. 4 :在篩選得到的候選詞中,如果兩個以上候選詞的編號連續(xù),并且前一個候選詞的 末字與后一個候選詞的首字相同,則將這些候選詞按照順序進(jìn)行合并,其他候選詞不作任 何操作; SI. 5 :將合并處理后的候選詞與通用詞典進(jìn)行匹配,如果候選詞屬于通用詞典,則將該 候選詞刪除,否則再將候選詞與專業(yè)詞典進(jìn)行匹配,如果尚未存在于專業(yè)詞典中,則加入專 業(yè)詞典,否則不作任何操作; 52 :從待分詞文本中去除停用詞,然后對對待待分詞文本采用專業(yè)詞典分詞,專業(yè)詞典 分詞后剩下的文本再采用通用詞典進(jìn)行分詞。2. 根據(jù)權(quán)利要求1所述的Iucene中文分詞方法,其特征在于,所述步驟SI. 5中,還需 要維護(hù)一個非術(shù)語詞典,對于經(jīng)通用詞典匹配后保留的候選詞,采用非術(shù)語詞典進(jìn)行匹配, 如果候選詞屬于非術(shù)語詞典,則將其刪除;然后保留的候選詞在加入專業(yè)詞典之前,進(jìn)行人 工檢查,如果有非術(shù)語候選詞則放入非術(shù)語詞典中,不再加入專業(yè)詞典。3. 根據(jù)權(quán)利要求1所述的Iucene中文分詞方法,其特征在于,所述步驟S2中采用專業(yè) 詞典或通用詞典分詞采用雙向最大匹配算法,其具體方法為:對待分詞文本先分別采用正 向最大匹配法和逆向最大匹配法進(jìn)行分詞,當(dāng)正向最大匹配法和逆向最大匹配法分詞結(jié)果 詞數(shù)不同時,則取分詞數(shù)量較少的那個分詞結(jié)果作為最終結(jié)果;當(dāng)分詞結(jié)果詞數(shù)相同時,如 果分詞結(jié)果相同,任意取一個分詞結(jié)果作為最終結(jié)果,如果分詞結(jié)果不同,則將單字較少的 那個分詞結(jié)果作為最終結(jié)果。
【專利摘要】本發(fā)明公開了一種基于詞典的中文分詞方法,首先收集語料,構(gòu)建專業(yè)詞典,構(gòu)建方法為:首先去除停用詞,將語料劃分為文本片段,從文本片段中提取候選詞,統(tǒng)計候選詞和每個單字在所有文本片段中的出現(xiàn)概率,計算每個候選詞中兩個漢字的互信息,互信息大于預(yù)設(shè)的互信息閾值,則保留該候選詞,否則刪除該候選詞,然后對篩選后的候選詞進(jìn)行合并,將合并處理后的候選詞采用通用詞典進(jìn)行匹配過濾,將過濾后的候選詞加入專業(yè)詞典;對待分詞文本先采用專業(yè)詞典進(jìn)行分詞,剩下的文本再采用通用詞典進(jìn)行分詞。本發(fā)明基于統(tǒng)計的方法從語料中抽取專業(yè)術(shù)語來構(gòu)建專業(yè)詞典,通用性較強(qiáng),采用該專業(yè)詞典進(jìn)行分詞可以有效滿足專業(yè)領(lǐng)域的要求。
【IPC分類】G06F17/30
【公開號】CN105426539
【申請?zhí)枴緾N201510977358
【發(fā)明人】孫健, 張祥
【申請人】成都電科心通捷信科技有限公司
【公開日】2016年3月23日
【申請日】2015年12月23日