欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)的制作方法

文檔序號(hào):11432224閱讀:209來(lái)源:國(guó)知局
改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)的制造方法與工藝

本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)。



背景技術(shù):

關(guān)鍵詞是文章主題的概括,常以詞或短語(yǔ)的形式出現(xiàn),是表達(dá)文本主題意義的最小單位,能夠使讀者在短時(shí)間內(nèi)了解文章的大概內(nèi)容,從而節(jié)省讀者的時(shí)間。所以文檔關(guān)鍵詞可以幫助用戶(hù)迅速的從大量的文檔集合中找到用戶(hù)需要或者與其相關(guān)的文檔。但除學(xué)術(shù)論文包含關(guān)鍵詞外,大量的文檔沒(méi)有關(guān)鍵詞,尤其是上述提到的互聯(lián)網(wǎng)上的眾多網(wǎng)頁(yè)。面對(duì)海量的文本數(shù)據(jù),手工抽取關(guān)鍵詞費(fèi)時(shí)費(fèi)力,而且主觀(guān)性強(qiáng),抽取不當(dāng)還會(huì)對(duì)下一步的應(yīng)用造成消極影響。傳統(tǒng)的關(guān)鍵詞抽取算法普遍缺少對(duì)文檔結(jié)構(gòu)特征的考慮,導(dǎo)致結(jié)構(gòu)信息這一重要特征的缺失,在一定程度上影響了關(guān)鍵詞提取的精確性,特別是不能抽取出真正反映文本內(nèi)容的詞匯。現(xiàn)有基于復(fù)雜網(wǎng)絡(luò)或圖模型的關(guān)鍵詞抽取算法在構(gòu)建文本復(fù)雜網(wǎng)絡(luò)或圖模型的過(guò)程中單純以詞形作為網(wǎng)絡(luò)節(jié)點(diǎn),這種算法雖然可以最大限度的保持文本的結(jié)構(gòu)信息,但是由于沒(méi)有進(jìn)行語(yǔ)義標(biāo)注,導(dǎo)致提取的關(guān)鍵詞在語(yǔ)義上不具有可解釋性,有可能會(huì)產(chǎn)生歧義。因此,為了改善文本檢索的現(xiàn)狀,人們積極研究人工智能和自然語(yǔ)言處理的各種技術(shù),很多學(xué)者提出采用機(jī)器智能自動(dòng)提取關(guān)鍵詞的方法。由此可見(jiàn),關(guān)鍵詞自動(dòng)抽取是文本自動(dòng)處理的基礎(chǔ)與核心技術(shù),是解決信息檢索的效率和準(zhǔn)確度的關(guān)鍵技術(shù),關(guān)鍵詞是表述文本主題,為了滿(mǎn)足上述需求,本發(fā)明提供一種改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)從多主題文檔中找出一些非高頻并且對(duì)主題貢獻(xiàn)大的詞作為關(guān)鍵詞、實(shí)現(xiàn)自動(dòng)提取文檔中主題詞的問(wèn)題以及常用的關(guān)鍵詞提取方法精度不高的不足,本發(fā)明提供了一種改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)。

為了解決上述問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:

步驟1:利用中文分詞技術(shù)對(duì)文本進(jìn)行分詞處理;

步驟2:根據(jù)停用表對(duì)文本詞匯進(jìn)行去停用詞處理,得到詞匯集w;

步驟3:構(gòu)造相關(guān)度函數(shù)re(wi,wj)對(duì)上述詞匯集w進(jìn)行從大到小排序處理,取前n個(gè)詞語(yǔ)構(gòu)成一個(gè)多主題網(wǎng)絡(luò)模型m;

步驟4:構(gòu)造目標(biāo)函數(shù)確定不同主題間的連接詞link(c);

步驟5:構(gòu)造叉函數(shù)把連接詞有效的融入多主題網(wǎng)絡(luò)模型中,模型圖記為m′。

本發(fā)明有益效果是:

1、此方法比傳統(tǒng)的詞頻-反文檔頻率方法得到的文本關(guān)鍵詞集合的準(zhǔn)確度更高。

2、把詞語(yǔ)語(yǔ)義關(guān)系映射到主題網(wǎng)絡(luò)模型圖上,既考慮了多主題性,又區(qū)分了主題間的不同特征,提取的文本關(guān)鍵詞更符合經(jīng)驗(yàn)值;

3、為后續(xù)的文本相似度與文本聚類(lèi)技術(shù)提供良好的理論基礎(chǔ)。

4、此算法具有更大的利用價(jià)值。

5、此方法精確地計(jì)算了特征詞匯中不同詞匯對(duì)文本思想的貢獻(xiàn)度。

6、此方法在初次提取關(guān)鍵詞時(shí),用精確的算法得到更為準(zhǔn)確的文檔特征,為后續(xù)文檔關(guān)鍵詞提取提供更好的鋪墊。

附圖說(shuō)明

圖1改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)的結(jié)構(gòu)流程圖

圖2n元語(yǔ)法分詞算法圖解

圖3中文文本預(yù)處理過(guò)程流程圖

圖4n個(gè)詞語(yǔ)構(gòu)成一個(gè)多主題網(wǎng)絡(luò)模型圖m

圖5多主題網(wǎng)絡(luò)模型圖m′

具體實(shí)施方式

為了解決從多主題文檔中找出一些非高頻并且對(duì)主題貢獻(xiàn)大的詞作為關(guān)鍵詞、實(shí)現(xiàn)自動(dòng)提取文檔中主題詞的問(wèn)題以及常用的關(guān)鍵詞提取方法精度不高的問(wèn)題、結(jié)合圖1-圖5對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,其具體實(shí)施步驟如下:

步驟1:利用中文分詞技術(shù)對(duì)文本進(jìn)行分詞處理,其具體分詞技術(shù)過(guò)程如下:

步驟1.1:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進(jìn)行查找匹配,遇到字典里有的詞就標(biāo)識(shí)出來(lái);如果詞典中不存在相關(guān)匹配,就簡(jiǎn)單地分割出單字作為詞;直到漢字串為空。

步驟1.2:依據(jù)概率統(tǒng)計(jì)學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個(gè)可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為sm1m2m3m4m5e,其結(jié)構(gòu)圖如圖2所示。

步驟1.3:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值,其具體計(jì)算過(guò)程如下:

根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個(gè)詞,第i條路徑包含詞的個(gè)數(shù)為ni。即n條路徑詞的個(gè)數(shù)集合為(n1,n2,…,nn)。

得min()=min(n1,n2,…,nn)

在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權(quán)重大小。

在統(tǒng)計(jì)語(yǔ)料庫(kù)中,計(jì)算每個(gè)詞的信息量x(ci),再求解路徑相鄰詞的共現(xiàn)信息量x(ci,ci+1)。既有下式:

x(ci)=|x(ci)1-x(ci)2|

上式x(ci)1為文本語(yǔ)料庫(kù)中詞ci的信息量,x(ci)2為含詞ci的文本信息量。

x(ci)1=-p(ci)1lnp(ci)1

上式p(ci)1為ci在文本語(yǔ)料庫(kù)中的概率,n為含詞ci的文本語(yǔ)料庫(kù)的個(gè)數(shù)。

x(ci)2=-p(ci)2lnp(ci)2

上式p(ci)2為含詞ci的文本數(shù)概率值,n為統(tǒng)計(jì)語(yǔ)料庫(kù)中文本總數(shù)。

同理x(ci,ci+1)=|x(ci,ci+1)1-x(ci,ci+1)2|

x(ci,ci+1)1為在文本語(yǔ)料庫(kù)中詞(ci,ci+1)的共現(xiàn)信息量,x(ci,ci+1)2為相鄰詞(ci,ci+1)共現(xiàn)的文本信息量。

同理x(ci,ci+1)1=-p(ci,ci+1)1lnp(ci,ci+1)1

上式p(ci,ci+1)1為在文本語(yǔ)料庫(kù)中詞(ci,ci+1)的共現(xiàn)概率,m為在文本庫(kù)中詞(ci,ci+1)共現(xiàn)的文本數(shù)量。

x(ci,ci+1)2=-p(ci,ci+i)2lnp(ci,ci+i)2

p(ci,ci+1)2為文本庫(kù)中相鄰詞(ci,ci+1)共現(xiàn)的文本數(shù)概率。

綜上可得每條相鄰路徑的權(quán)值為

w(ci,ci+1)=x(ci)+x(ci+1)-2x(ci,ci+1)

步驟1.4:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果,其具體計(jì)算過(guò)程如下:

有n條路徑,每條路徑長(zhǎng)度不一樣,假設(shè)路徑長(zhǎng)度集合為(l1,l2,…,ln)。

假設(shè)經(jīng)過(guò)取路徑中詞的數(shù)量最少操作,排除了m條路徑,m<n。即剩下(n-m)路徑,設(shè)其路徑長(zhǎng)度集合為

則每條路徑權(quán)重為:

上式分別為第1,2到路徑邊的權(quán)重值,根據(jù)步驟1.4可以一一計(jì)算得出,為剩下(n-m)路徑中第sj條路徑的長(zhǎng)度。

權(quán)值最大的一條路徑:

步驟2:根據(jù)停用表對(duì)文本詞匯進(jìn)行去停用詞處理,得到詞匯集w,其具體描述如下:

停用詞是指在文本中出現(xiàn)頻率高,但對(duì)于文本標(biāo)識(shí)卻沒(méi)有太大作用的單詞。去停用詞的過(guò)程就是將特征項(xiàng)與停用詞表中的詞進(jìn)行比較,如果匹配就將該特征項(xiàng)刪除。

綜合分詞和刪除停用詞技術(shù),中文文本預(yù)處理過(guò)程流程圖如圖3。

步驟3:構(gòu)造相關(guān)度函數(shù)re(wi,wj)對(duì)上述詞匯集w進(jìn)行從大到小排序處理,取前n個(gè)詞語(yǔ)構(gòu)成一個(gè)多主題網(wǎng)絡(luò)模型m,其具體計(jì)算過(guò)程如下:

相關(guān)度函數(shù)re(wi,wj):

上式ε為修正系數(shù),d(wi,wj)為詞匯(wi,wj)間的差值。

d(wi,wj)=|r1(wi,wj)-r2(wi,wj)|

上式r1(wi,wj)、r2(wi,wj)都為詞匯間相關(guān)度值,g(wi/wj)為wi相對(duì)于wj′的共現(xiàn)度,g(wj/wi)為wj相對(duì)于ci′的共現(xiàn)度,n(wi,wj)為兩詞匯(wi,wj)在一句話(huà)中出現(xiàn)的次數(shù),n(wi)為詞匯wi在文檔中出現(xiàn)的次數(shù),n(wj)為詞匯wj在文檔中出現(xiàn)的次數(shù)。

提取前n位作為文本的關(guān)鍵詞,即根據(jù)re(wi,wj)值從大到小提取前n個(gè)關(guān)鍵詞。

步驟4:構(gòu)造目標(biāo)函數(shù)確定不同主題間的連接詞link(c),其具體計(jì)算過(guò)程如下:

目標(biāo)函數(shù)

上式ρ為修正系數(shù),tj為主題影響因子。

上式j(luò)為第j個(gè)主題,主題個(gè)數(shù)為g個(gè),h為主題中詞匯的個(gè)數(shù),它是個(gè)變量,主題不同,h的值就不同,為第j個(gè)主題中關(guān)鍵詞詞匯數(shù)為n,為連接詞c在主題j中出現(xiàn)的次數(shù),為連接詞c與主題中詞匯的相似度,這個(gè)可以由傳統(tǒng)方法計(jì)算得出,α、β分別為的影響系數(shù),一般β>α,且α+β=1,α、β可以由實(shí)驗(yàn)測(cè)試出最佳值,上式為主題zj對(duì)文檔的影響程度。

根據(jù)值,從大至小選取m個(gè)連接詞link(c)。

步驟5:構(gòu)造叉函數(shù)把連接詞有效的融入多主題網(wǎng)絡(luò)模型中,模型圖記為m′,其計(jì)算過(guò)程如下:

叉函數(shù):

上式g(ci′/wj′)為ci′相對(duì)于wj′的共現(xiàn)度,g(wj′/ci′)為wj′相對(duì)于ci′的共現(xiàn)度,上式mf為兩詞匯本體概念共同的父節(jié)點(diǎn)密度,sf為兩詞匯本體概念共同的父節(jié)點(diǎn)深度,nf為義原網(wǎng)狀結(jié)構(gòu)中對(duì)應(yīng)父節(jié)點(diǎn)所在的樹(shù)狀結(jié)構(gòu)中的最大節(jié)點(diǎn)密度值,df為義原網(wǎng)狀結(jié)構(gòu)中對(duì)應(yīng)父節(jié)點(diǎn)所在的樹(shù)狀結(jié)構(gòu)中的樹(shù)的度

同理

上式n(ci′,wj′)為連接詞ci′與詞匯集中詞匯wj′在一句話(huà)中出現(xiàn)的次數(shù),n(wj′)為詞匯集中詞匯wj′在文檔中出現(xiàn)的次數(shù),n(ci′)為連接詞ci′在文檔中出現(xiàn)的次數(shù),這里n(ci′)≠n(wj′)、n(ci′,wj′)=n(wj′,ci′)。

根據(jù)叉函數(shù)的值從大到小取n-1個(gè)詞匯對(duì),即得文檔中n個(gè)關(guān)鍵詞。

改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù),其偽代碼計(jì)算過(guò)程如下:

輸入:一個(gè)文檔

輸出:提取文檔中的核心關(guān)鍵詞。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
启东市| 陵川县| 娄底市| 夏河县| 宁南县| 新余市| 昭平县| 都安| 彰武县| 开化县| 连城县| 花莲县| 康乐县| 高雄县| 博野县| 德保县| 翁牛特旗| 麻阳| 左贡县| 绥芬河市| 绍兴县| 渭源县| 绥滨县| 红河县| 平顺县| 永康市| 昭通市| 安仁县| 尤溪县| 乌拉特后旗| 富阳市| 博爱县| 逊克县| 西吉县| 仪陇县| 柏乡县| 昔阳县| 高尔夫| 盘锦市| 南郑县| 错那县|