一種基于信息論的中文自動(dòng)分詞算法的制作方法

文檔序號(hào)：11063460閱讀：546來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及中文語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域，具體涉及一種基于信息論的中文自動(dòng)分詞算法。

背景技術(shù)：

現(xiàn)階段基于理解的中文分詞算法目前還處于試驗(yàn)階段，基于分詞詞典和基于概率統(tǒng)計(jì)的方法成為當(dāng)前中文自動(dòng)分詞技術(shù)的主流?；诜衷~詞典的方法移植簡(jiǎn)單、無需考慮不同領(lǐng)域間移植的自適應(yīng)性問題；但是這類方法對(duì)自動(dòng)分詞過程中所產(chǎn)生的歧義分析以及命名實(shí)體識(shí)別等問題的處理還相對(duì)欠缺。基于統(tǒng)計(jì)的方法依托于強(qiáng)大的數(shù)學(xué)統(tǒng)計(jì)模型，在分詞性能方面有了很大的提高，但是在跨領(lǐng)域方面效果不好，對(duì)訓(xùn)練語(yǔ)料的依賴性比較大，需要針對(duì)不同的領(lǐng)域，準(zhǔn)備不同的訓(xùn)練語(yǔ)料來訓(xùn)練不同的領(lǐng)域統(tǒng)計(jì)分詞模型。這樣導(dǎo)致在領(lǐng)域變換后，必須為它們提供相應(yīng)領(lǐng)域的分詞訓(xùn)練語(yǔ)料。然而，進(jìn)行分詞訓(xùn)練所需要的標(biāo)注語(yǔ)料的建立和維護(hù)需要大量的人力和物力，相比之下，基于分詞詞典的方法在領(lǐng)域自適應(yīng)方面存在著一定優(yōu)勢(shì)。當(dāng)目標(biāo)分詞領(lǐng)域改變時(shí)，基于詞典的方法只需要加入相應(yīng)領(lǐng)域的詞典即可，領(lǐng)域詞典的獲取相比訓(xùn)練語(yǔ)料而言也要容易很多，因此將分詞詞典和概率統(tǒng)計(jì)的方法結(jié)合使用成為當(dāng)前分詞的主流。為了實(shí)現(xiàn)中文自動(dòng)分詞功能以及提高分詞結(jié)果的準(zhǔn)確度，本發(fā)明提出了一種基于信息論的中文自動(dòng)分詞算法。

技術(shù)實(shí)現(xiàn)要素：

為實(shí)現(xiàn)中文自動(dòng)分詞功能以及針對(duì)分詞結(jié)果的準(zhǔn)確性不高問題，本發(fā)明提供了一種基于信息論的中文自動(dòng)分詞算法。

為了解決上述問題，本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的：

步驟1：初始化訓(xùn)練模型，可以是《分詞詞典》或相關(guān)領(lǐng)域的語(yǔ)料庫(kù)，或是兩者結(jié)合模型。

步驟2：根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞。

步驟3：依據(jù)概率統(tǒng)計(jì)學(xué)，將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu)，即得n個(gè)可能組合的句子結(jié)構(gòu)，把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為SM₁M₂M₃M₄M₅E。

步驟4：基于信息論方法，給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值。

步驟5：找到權(quán)值最大的一條路徑，即為待分詞句子的分詞結(jié)果。

步驟6：驗(yàn)證此分詞結(jié)果的準(zhǔn)確率和召回率。

本發(fā)明有益效果是：

1、中文預(yù)處理的速度較基于分詞詞典的方法快。

2、此方法較基于分詞詞典的方法有更好的精度。

3、此方法較基于統(tǒng)計(jì)學(xué)方法有更好的準(zhǔn)確度。

4、此方法實(shí)用性更大，更符合經(jīng)驗(yàn)值。

5、此方法為后續(xù)自然語(yǔ)言處理技術(shù)提供了極大地應(yīng)用價(jià)值。

附圖說明

圖1 一種基于信息論的中文自動(dòng)分詞算法結(jié)構(gòu)流程圖

圖2 n元語(yǔ)法分詞算法圖解

具體實(shí)施方式

為了提高中文自動(dòng)分詞的準(zhǔn)確性，結(jié)合圖1-圖2對(duì)本發(fā)明進(jìn)行了詳細(xì)說明，其具體實(shí)施步驟如下：

步驟1：初始化訓(xùn)練模型，可以是《分詞詞典》或相關(guān)領(lǐng)域的語(yǔ)料庫(kù)，或是兩者結(jié)合模型。

步驟2：根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞，其具體描述如下：

把待分詞的漢字串完整的掃描一遍，在系統(tǒng)的詞典里進(jìn)行查找匹配，遇到字典里有的詞就標(biāo)識(shí)出來；如果詞典中不存在相關(guān)匹配，就簡(jiǎn)單地分割出單字作為詞；直到漢字串為空。

步驟3：依據(jù)概率統(tǒng)計(jì)學(xué)，將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu)，即得n個(gè)可能組合的句子結(jié)構(gòu)，把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為SM₁M₂M₃M₄M₅E，其結(jié)構(gòu)圖如圖2所示。

步驟4：基于信息論方法，給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值，其具體計(jì)算過程如下：

根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個(gè)詞，第i條路徑包含詞的個(gè)數(shù)為n_i。即n條路徑詞的個(gè)數(shù)集合為(n₁，n₂，…，n_n)。

得min()＝min(n₁，n₂，…，n_n)

在上述留下的剩下的(n-m)路徑中，求解每條相鄰路徑的權(quán)重大小。

在統(tǒng)計(jì)語(yǔ)料庫(kù)中，計(jì)算每個(gè)詞的信息量X(C_i)，再求解路徑相鄰詞的共現(xiàn)信

息量X(C_i，C_i+1)。既有下式：

X(C_i)＝|x(C_i)₁-x(C_i)₂|

上式x(C_i)₁為文本語(yǔ)料庫(kù)中詞C_i的信息量，x(C_i)₂為含詞C_i的文本信息量。

x(C_i)₁＝-p(C_i)₁lnp(C_i)₁

上式p(C_i)₁為C_i在文本語(yǔ)料庫(kù)中的概率，n為含詞C_i的文本語(yǔ)料庫(kù)的個(gè)數(shù)。

x(C_i)₂＝-p(C_i)₂lnp(C_i)₂

上式p(C_i)₂為含詞C_i的文本數(shù)概率值，N為統(tǒng)計(jì)語(yǔ)料庫(kù)中文本總數(shù)。

同理X(C_i，C_i+1)＝|x(C_i，C_i+1)₁-x(C_i，C_i+1)₂|

x(C_i，C_i+1)₁為在文本語(yǔ)料庫(kù)中詞(C_i，C_i+1)的共現(xiàn)信息量，x(C_i，C_i+1)₂為相鄰詞(C_i，C_i+1)共現(xiàn)的文本信息量。

同理x(C_i，C_i+1)₁＝-p(C_i，C_i+1)₁lnp(C_i，C_i+1)₁

上式p(C_i，C_i+1)₁為在文本語(yǔ)料庫(kù)中詞(C_i，C_i+1)的共現(xiàn)概率，m為在文本庫(kù)中詞(C_i，C_i+1)共現(xiàn)的文本數(shù)量。

x(C_i，C_i+1)₂＝-p(C_i，C_i+1)₂lnp(C_i，C_i+1)₂

p(C_i，C_i+1)₂為文本庫(kù)中相鄰詞(C_i，C_i+1)共現(xiàn)的文本數(shù)概率。

綜上可得每條相鄰路徑的權(quán)值為

w(C_i，C_i+1)＝X(C_i)+X(C_i+1)-2X(C_i，C_i+1)

步驟5：找到權(quán)值最大的一條路徑，即為待分詞句子的分詞結(jié)果，其具體計(jì)算過程如下：

有n條路徑，每條路徑長(zhǎng)度不一樣，假設(shè)路徑長(zhǎng)度集合為(L₁，L₂，…，L_n)。

假設(shè)經(jīng)過取路徑中詞的數(shù)量最少操作，排除了m條路徑，m<n。即剩下(n-m)路徑，設(shè)其路徑長(zhǎng)度集合為

則每條路徑權(quán)重為:

上式分別為第1,2到路徑邊的權(quán)重值，根據(jù)步驟4可以一一計(jì)算得出，為剩下(n-m)路徑中第S_j條路徑的長(zhǎng)度。

權(quán)值最大的一條路徑:

步驟6：驗(yàn)證此分詞結(jié)果的準(zhǔn)確率和召回率。

準(zhǔn)確率：

上式n_識(shí)為《分詞詞典》識(shí)別待分詞句子中字典詞的個(gè)數(shù)，n_z為此方法正確分詞詞的個(gè)數(shù)。

召回率：

上式n_總為待分詞句子中詞的總個(gè)數(shù)。

最后綜合考慮這兩個(gè)因子，判定此系統(tǒng)分詞結(jié)果的正確性。

即d＝|zhaorate-rate|≤ε

ε為一個(gè)很小的閾值，這個(gè)由專家給定。當(dāng)d滿足上述條件，則分詞效果比較理想。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金平艷;胡成華;
技術(shù)所有人：四川用聯(lián)信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中文分詞算法相關(guān)技術(shù)

中文分詞系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于信息論的中文自動(dòng)分詞算法的制作方法