本發(fā)明涉及中文語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種基于信息論的中文自動(dòng)分詞算法。
背景技術(shù):
現(xiàn)階段基于理解的中文分詞算法目前還處于試驗(yàn)階段,基于分詞詞典和基于概率統(tǒng)計(jì)的方法成為當(dāng)前中文自動(dòng)分詞技術(shù)的主流?;诜衷~詞典的方法移植簡(jiǎn)單、無需考慮不同領(lǐng)域間移植的自適應(yīng)性問題;但是這類方法對(duì)自動(dòng)分詞過程中所產(chǎn)生的歧義分析以及命名實(shí)體識(shí)別等問題的處理還相對(duì)欠缺。基于統(tǒng)計(jì)的方法依托于強(qiáng)大的數(shù)學(xué)統(tǒng)計(jì)模型,在分詞性能方面有了很大的提高,但是在跨領(lǐng)域方面效果不好,對(duì)訓(xùn)練語(yǔ)料的依賴性比較大,需要針對(duì)不同的領(lǐng)域,準(zhǔn)備不同的訓(xùn)練語(yǔ)料來訓(xùn)練不同的領(lǐng)域統(tǒng)計(jì)分詞模型。這樣導(dǎo)致在領(lǐng)域變換后,必須為它們提供相應(yīng)領(lǐng)域的分詞訓(xùn)練語(yǔ)料。然而,進(jìn)行分詞訓(xùn)練所需要的標(biāo)注語(yǔ)料的建立和維護(hù)需要大量的人力和物力,相比之下,基于分詞詞典的方法在領(lǐng)域自適應(yīng)方面存在著一定優(yōu)勢(shì)。當(dāng)目標(biāo)分詞領(lǐng)域改變時(shí),基于詞典的方法只需要加入相應(yīng)領(lǐng)域的詞典即可,領(lǐng)域詞典的獲取相比訓(xùn)練語(yǔ)料而言也要容易很多,因此將分詞詞典和概率統(tǒng)計(jì)的方法結(jié)合使用成為當(dāng)前分詞的主流。為了實(shí)現(xiàn)中文自動(dòng)分詞功能以及提高分詞結(jié)果的準(zhǔn)確度,本發(fā)明提出了一種基于信息論的中文自動(dòng)分詞算法。
技術(shù)實(shí)現(xiàn)要素:
為實(shí)現(xiàn)中文自動(dòng)分詞功能以及針對(duì)分詞結(jié)果的準(zhǔn)確性不高問題,本發(fā)明提供了一種基于信息論的中文自動(dòng)分詞算法。
為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:初始化訓(xùn)練模型,可以是《分詞詞典》或相關(guān)領(lǐng)域的語(yǔ)料庫(kù),或是兩者結(jié)合模型。
步驟2:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞。
步驟3:依據(jù)概率統(tǒng)計(jì)學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個(gè)可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為SM1M2M3M4M5E。
步驟4:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值。
步驟5:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果。
步驟6:驗(yàn)證此分詞結(jié)果的準(zhǔn)確率和召回率。
本發(fā)明有益效果是:
1、中文預(yù)處理的速度較基于分詞詞典的方法快。
2、此方法較基于分詞詞典的方法有更好的精度。
3、此方法較基于統(tǒng)計(jì)學(xué)方法有更好的準(zhǔn)確度。
4、此方法實(shí)用性更大,更符合經(jīng)驗(yàn)值。
5、此方法為后續(xù)自然語(yǔ)言處理技術(shù)提供了極大地應(yīng)用價(jià)值。
附圖說明
圖1 一種基于信息論的中文自動(dòng)分詞算法結(jié)構(gòu)流程圖
圖2 n元語(yǔ)法分詞算法圖解
具體實(shí)施方式
為了提高中文自動(dòng)分詞的準(zhǔn)確性,結(jié)合圖1-圖2對(duì)本發(fā)明進(jìn)行了詳細(xì)說明,其具體實(shí)施步驟如下:
步驟1:初始化訓(xùn)練模型,可以是《分詞詞典》或相關(guān)領(lǐng)域的語(yǔ)料庫(kù),或是兩者結(jié)合模型。
步驟2:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,其具體描述如下:
把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進(jìn)行查找匹配,遇到字典里有的詞就標(biāo)識(shí)出來;如果詞典中不存在相關(guān)匹配,就簡(jiǎn)單地分割出單字作為詞;直到漢字串為空。
步驟3:依據(jù)概率統(tǒng)計(jì)學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個(gè)可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為SM1M2M3M4M5E,其結(jié)構(gòu)圖如圖2所示。
步驟4:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值,其具體計(jì)算過程如下:
根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個(gè)詞,第i條路徑包含詞的個(gè)數(shù)為ni。即n條路徑詞的個(gè)數(shù)集合為(n1,n2,…,nn)。
得min()=min(n1,n2,…,nn)
在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權(quán)重大小。
在統(tǒng)計(jì)語(yǔ)料庫(kù)中,計(jì)算每個(gè)詞的信息量X(Ci),再求解路徑相鄰詞的共現(xiàn)信
息量X(Ci,Ci+1)。既有下式:
X(Ci)=|x(Ci)1-x(Ci)2|
上式x(Ci)1為文本語(yǔ)料庫(kù)中詞Ci的信息量,x(Ci)2為含詞Ci的文本信息量。
x(Ci)1=-p(Ci)1lnp(Ci)1
上式p(Ci)1為Ci在文本語(yǔ)料庫(kù)中的概率,n為含詞Ci的文本語(yǔ)料庫(kù)的個(gè)數(shù)。
x(Ci)2=-p(Ci)2lnp(Ci)2
上式p(Ci)2為含詞Ci的文本數(shù)概率值,N為統(tǒng)計(jì)語(yǔ)料庫(kù)中文本總數(shù)。
同理X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|
x(Ci,Ci+1)1為在文本語(yǔ)料庫(kù)中詞(Ci,Ci+1)的共現(xiàn)信息量,x(Ci,Ci+1)2為相鄰詞(Ci,Ci+1)共現(xiàn)的文本信息量。
同理x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1
上式p(Ci,Ci+1)1為在文本語(yǔ)料庫(kù)中詞(Ci,Ci+1)的共現(xiàn)概率,m為在文本庫(kù)中詞(Ci,Ci+1)共現(xiàn)的文本數(shù)量。
x(Ci,Ci+1)2=-p(Ci,Ci+1)2lnp(Ci,Ci+1)2
p(Ci,Ci+1)2為文本庫(kù)中相鄰詞(Ci,Ci+1)共現(xiàn)的文本數(shù)概率。
綜上可得每條相鄰路徑的權(quán)值為
w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)
步驟5:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果,其具體計(jì)算過程如下:
有n條路徑,每條路徑長(zhǎng)度不一樣,假設(shè)路徑長(zhǎng)度集合為(L1,L2,…,Ln)。
假設(shè)經(jīng)過取路徑中詞的數(shù)量最少操作,排除了m條路徑,m<n。即剩下(n-m)路徑,設(shè)其路徑長(zhǎng)度集合為
則每條路徑權(quán)重為:
上式分別為第1,2到路徑邊的權(quán)重值,根據(jù)步驟4可以一一計(jì)算得出,為剩下(n-m)路徑中第Sj條路徑的長(zhǎng)度。
權(quán)值最大的一條路徑:
步驟6:驗(yàn)證此分詞結(jié)果的準(zhǔn)確率和召回率。
準(zhǔn)確率:
上式n識(shí)為《分詞詞典》識(shí)別待分詞句子中字典詞的個(gè)數(shù),nz為此方法正確分詞詞的個(gè)數(shù)。
召回率:
上式n總為待分詞句子中詞的總個(gè)數(shù)。
最后綜合考慮這兩個(gè)因子,判定此系統(tǒng)分詞結(jié)果的正確性。
即d=|zhaorate-rate|≤ε
ε為一個(gè)很小的閾值,這個(gè)由專家給定。當(dāng)d滿足上述條件,則分詞效果比較理想。