欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于信息論的中文自動(dòng)分詞算法的制作方法

文檔序號(hào):11063460閱讀:546來源:國(guó)知局
一種基于信息論的中文自動(dòng)分詞算法的制造方法與工藝

本發(fā)明涉及中文語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種基于信息論的中文自動(dòng)分詞算法。



背景技術(shù):

現(xiàn)階段基于理解的中文分詞算法目前還處于試驗(yàn)階段,基于分詞詞典和基于概率統(tǒng)計(jì)的方法成為當(dāng)前中文自動(dòng)分詞技術(shù)的主流?;诜衷~詞典的方法移植簡(jiǎn)單、無需考慮不同領(lǐng)域間移植的自適應(yīng)性問題;但是這類方法對(duì)自動(dòng)分詞過程中所產(chǎn)生的歧義分析以及命名實(shí)體識(shí)別等問題的處理還相對(duì)欠缺。基于統(tǒng)計(jì)的方法依托于強(qiáng)大的數(shù)學(xué)統(tǒng)計(jì)模型,在分詞性能方面有了很大的提高,但是在跨領(lǐng)域方面效果不好,對(duì)訓(xùn)練語(yǔ)料的依賴性比較大,需要針對(duì)不同的領(lǐng)域,準(zhǔn)備不同的訓(xùn)練語(yǔ)料來訓(xùn)練不同的領(lǐng)域統(tǒng)計(jì)分詞模型。這樣導(dǎo)致在領(lǐng)域變換后,必須為它們提供相應(yīng)領(lǐng)域的分詞訓(xùn)練語(yǔ)料。然而,進(jìn)行分詞訓(xùn)練所需要的標(biāo)注語(yǔ)料的建立和維護(hù)需要大量的人力和物力,相比之下,基于分詞詞典的方法在領(lǐng)域自適應(yīng)方面存在著一定優(yōu)勢(shì)。當(dāng)目標(biāo)分詞領(lǐng)域改變時(shí),基于詞典的方法只需要加入相應(yīng)領(lǐng)域的詞典即可,領(lǐng)域詞典的獲取相比訓(xùn)練語(yǔ)料而言也要容易很多,因此將分詞詞典和概率統(tǒng)計(jì)的方法結(jié)合使用成為當(dāng)前分詞的主流。為了實(shí)現(xiàn)中文自動(dòng)分詞功能以及提高分詞結(jié)果的準(zhǔn)確度,本發(fā)明提出了一種基于信息論的中文自動(dòng)分詞算法。



技術(shù)實(shí)現(xiàn)要素:

為實(shí)現(xiàn)中文自動(dòng)分詞功能以及針對(duì)分詞結(jié)果的準(zhǔn)確性不高問題,本發(fā)明提供了一種基于信息論的中文自動(dòng)分詞算法。

為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:

步驟1:初始化訓(xùn)練模型,可以是《分詞詞典》或相關(guān)領(lǐng)域的語(yǔ)料庫(kù),或是兩者結(jié)合模型。

步驟2:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞。

步驟3:依據(jù)概率統(tǒng)計(jì)學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個(gè)可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為SM1M2M3M4M5E。

步驟4:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值。

步驟5:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果。

步驟6:驗(yàn)證此分詞結(jié)果的準(zhǔn)確率和召回率。

本發(fā)明有益效果是:

1、中文預(yù)處理的速度較基于分詞詞典的方法快。

2、此方法較基于分詞詞典的方法有更好的精度。

3、此方法較基于統(tǒng)計(jì)學(xué)方法有更好的準(zhǔn)確度。

4、此方法實(shí)用性更大,更符合經(jīng)驗(yàn)值。

5、此方法為后續(xù)自然語(yǔ)言處理技術(shù)提供了極大地應(yīng)用價(jià)值。

附圖說明

圖1 一種基于信息論的中文自動(dòng)分詞算法結(jié)構(gòu)流程圖

圖2 n元語(yǔ)法分詞算法圖解

具體實(shí)施方式

為了提高中文自動(dòng)分詞的準(zhǔn)確性,結(jié)合圖1-圖2對(duì)本發(fā)明進(jìn)行了詳細(xì)說明,其具體實(shí)施步驟如下:

步驟1:初始化訓(xùn)練模型,可以是《分詞詞典》或相關(guān)領(lǐng)域的語(yǔ)料庫(kù),或是兩者結(jié)合模型。

步驟2:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,其具體描述如下:

把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進(jìn)行查找匹配,遇到字典里有的詞就標(biāo)識(shí)出來;如果詞典中不存在相關(guān)匹配,就簡(jiǎn)單地分割出單字作為詞;直到漢字串為空。

步驟3:依據(jù)概率統(tǒng)計(jì)學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個(gè)可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為SM1M2M3M4M5E,其結(jié)構(gòu)圖如圖2所示。

步驟4:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值,其具體計(jì)算過程如下:

根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個(gè)詞,第i條路徑包含詞的個(gè)數(shù)為ni。即n條路徑詞的個(gè)數(shù)集合為(n1,n2,…,nn)。

得min()=min(n1,n2,…,nn)

在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權(quán)重大小。

在統(tǒng)計(jì)語(yǔ)料庫(kù)中,計(jì)算每個(gè)詞的信息量X(Ci),再求解路徑相鄰詞的共現(xiàn)信

息量X(Ci,Ci+1)。既有下式:

X(Ci)=|x(Ci)1-x(Ci)2|

上式x(Ci)1為文本語(yǔ)料庫(kù)中詞Ci的信息量,x(Ci)2為含詞Ci的文本信息量。

x(Ci)1=-p(Ci)1lnp(Ci)1

上式p(Ci)1為Ci在文本語(yǔ)料庫(kù)中的概率,n為含詞Ci的文本語(yǔ)料庫(kù)的個(gè)數(shù)。

x(Ci)2=-p(Ci)2lnp(Ci)2

上式p(Ci)2為含詞Ci的文本數(shù)概率值,N為統(tǒng)計(jì)語(yǔ)料庫(kù)中文本總數(shù)。

同理X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|

x(Ci,Ci+1)1為在文本語(yǔ)料庫(kù)中詞(Ci,Ci+1)的共現(xiàn)信息量,x(Ci,Ci+1)2為相鄰詞(Ci,Ci+1)共現(xiàn)的文本信息量。

同理x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1

上式p(Ci,Ci+1)1為在文本語(yǔ)料庫(kù)中詞(Ci,Ci+1)的共現(xiàn)概率,m為在文本庫(kù)中詞(Ci,Ci+1)共現(xiàn)的文本數(shù)量。

x(Ci,Ci+1)2=-p(Ci,Ci+1)2lnp(Ci,Ci+1)2

p(Ci,Ci+1)2為文本庫(kù)中相鄰詞(Ci,Ci+1)共現(xiàn)的文本數(shù)概率。

綜上可得每條相鄰路徑的權(quán)值為

w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)

步驟5:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果,其具體計(jì)算過程如下:

有n條路徑,每條路徑長(zhǎng)度不一樣,假設(shè)路徑長(zhǎng)度集合為(L1,L2,…,Ln)。

假設(shè)經(jīng)過取路徑中詞的數(shù)量最少操作,排除了m條路徑,m<n。即剩下(n-m)路徑,設(shè)其路徑長(zhǎng)度集合為

則每條路徑權(quán)重為:

上式分別為第1,2到路徑邊的權(quán)重值,根據(jù)步驟4可以一一計(jì)算得出,為剩下(n-m)路徑中第Sj條路徑的長(zhǎng)度。

權(quán)值最大的一條路徑:

步驟6:驗(yàn)證此分詞結(jié)果的準(zhǔn)確率和召回率。

準(zhǔn)確率:

上式n識(shí)為《分詞詞典》識(shí)別待分詞句子中字典詞的個(gè)數(shù),nz為此方法正確分詞詞的個(gè)數(shù)。

召回率:

上式n為待分詞句子中詞的總個(gè)數(shù)。

最后綜合考慮這兩個(gè)因子,判定此系統(tǒng)分詞結(jié)果的正確性。

即d=|zhaorate-rate|≤ε

ε為一個(gè)很小的閾值,這個(gè)由專家給定。當(dāng)d滿足上述條件,則分詞效果比較理想。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
宜州市| 广灵县| 博兴县| 洛扎县| 清水河县| 博客| 汾西县| 河间市| 阳高县| 大同市| 平乐县| 贵阳市| 宣恩县| 十堰市| 巍山| 济南市| 长治县| 揭西县| 赞皇县| 婺源县| 黄梅县| 建平县| 越西县| 金川县| 武夷山市| 雅安市| 探索| 尉犁县| 光山县| 永安市| 武威市| 滕州市| 虞城县| 景东| 夏河县| 淮阳县| 公主岭市| 团风县| 武隆县| 汝城县| 文山县|