改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)的制作方法

文檔序號(hào)：11432224閱讀：209來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)的制造方法與工藝

本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域，具體涉及改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)。

背景技術(shù)：

關(guān)鍵詞是文章主題的概括，常以詞或短語(yǔ)的形式出現(xiàn)，是表達(dá)文本主題意義的最小單位，能夠使讀者在短時(shí)間內(nèi)了解文章的大概內(nèi)容，從而節(jié)省讀者的時(shí)間。所以文檔關(guān)鍵詞可以幫助用戶(hù)迅速的從大量的文檔集合中找到用戶(hù)需要或者與其相關(guān)的文檔。但除學(xué)術(shù)論文包含關(guān)鍵詞外，大量的文檔沒(méi)有關(guān)鍵詞，尤其是上述提到的互聯(lián)網(wǎng)上的眾多網(wǎng)頁(yè)。面對(duì)海量的文本數(shù)據(jù)，手工抽取關(guān)鍵詞費(fèi)時(shí)費(fèi)力，而且主觀(guān)性強(qiáng)，抽取不當(dāng)還會(huì)對(duì)下一步的應(yīng)用造成消極影響。傳統(tǒng)的關(guān)鍵詞抽取算法普遍缺少對(duì)文檔結(jié)構(gòu)特征的考慮，導(dǎo)致結(jié)構(gòu)信息這一重要特征的缺失，在一定程度上影響了關(guān)鍵詞提取的精確性，特別是不能抽取出真正反映文本內(nèi)容的詞匯。現(xiàn)有基于復(fù)雜網(wǎng)絡(luò)或圖模型的關(guān)鍵詞抽取算法在構(gòu)建文本復(fù)雜網(wǎng)絡(luò)或圖模型的過(guò)程中單純以詞形作為網(wǎng)絡(luò)節(jié)點(diǎn)，這種算法雖然可以最大限度的保持文本的結(jié)構(gòu)信息，但是由于沒(méi)有進(jìn)行語(yǔ)義標(biāo)注，導(dǎo)致提取的關(guān)鍵詞在語(yǔ)義上不具有可解釋性，有可能會(huì)產(chǎn)生歧義。因此，為了改善文本檢索的現(xiàn)狀，人們積極研究人工智能和自然語(yǔ)言處理的各種技術(shù)，很多學(xué)者提出采用機(jī)器智能自動(dòng)提取關(guān)鍵詞的方法。由此可見(jiàn)，關(guān)鍵詞自動(dòng)抽取是文本自動(dòng)處理的基礎(chǔ)與核心技術(shù)，是解決信息檢索的效率和準(zhǔn)確度的關(guān)鍵技術(shù)，關(guān)鍵詞是表述文本主題，為了滿(mǎn)足上述需求，本發(fā)明提供一種改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)從多主題文檔中找出一些非高頻并且對(duì)主題貢獻(xiàn)大的詞作為關(guān)鍵詞、實(shí)現(xiàn)自動(dòng)提取文檔中主題詞的問(wèn)題以及常用的關(guān)鍵詞提取方法精度不高的不足，本發(fā)明提供了一種改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)。

為了解決上述問(wèn)題，本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的：

步驟1：利用中文分詞技術(shù)對(duì)文本進(jìn)行分詞處理；

步驟2：根據(jù)停用表對(duì)文本詞匯進(jìn)行去停用詞處理，得到詞匯集w；

步驟3：構(gòu)造相關(guān)度函數(shù)re(wi，wj)對(duì)上述詞匯集w進(jìn)行從大到小排序處理，取前n個(gè)詞語(yǔ)構(gòu)成一個(gè)多主題網(wǎng)絡(luò)模型m；

步驟4：構(gòu)造目標(biāo)函數(shù)確定不同主題間的連接詞link(c)；

步驟5：構(gòu)造叉函數(shù)把連接詞有效的融入多主題網(wǎng)絡(luò)模型中，模型圖記為m′。

本發(fā)明有益效果是：

1、此方法比傳統(tǒng)的詞頻-反文檔頻率方法得到的文本關(guān)鍵詞集合的準(zhǔn)確度更高。

2、把詞語(yǔ)語(yǔ)義關(guān)系映射到主題網(wǎng)絡(luò)模型圖上，既考慮了多主題性，又區(qū)分了主題間的不同特征，提取的文本關(guān)鍵詞更符合經(jīng)驗(yàn)值；

3、為后續(xù)的文本相似度與文本聚類(lèi)技術(shù)提供良好的理論基礎(chǔ)。

4、此算法具有更大的利用價(jià)值。

5、此方法精確地計(jì)算了特征詞匯中不同詞匯對(duì)文本思想的貢獻(xiàn)度。

6、此方法在初次提取關(guān)鍵詞時(shí)，用精確的算法得到更為準(zhǔn)確的文檔特征，為后續(xù)文檔關(guān)鍵詞提取提供更好的鋪墊。

附圖說(shuō)明

圖1改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)的結(jié)構(gòu)流程圖

圖2n元語(yǔ)法分詞算法圖解

圖3中文文本預(yù)處理過(guò)程流程圖

圖4n個(gè)詞語(yǔ)構(gòu)成一個(gè)多主題網(wǎng)絡(luò)模型圖m

圖5多主題網(wǎng)絡(luò)模型圖m′

具體實(shí)施方式

為了解決從多主題文檔中找出一些非高頻并且對(duì)主題貢獻(xiàn)大的詞作為關(guān)鍵詞、實(shí)現(xiàn)自動(dòng)提取文檔中主題詞的問(wèn)題以及常用的關(guān)鍵詞提取方法精度不高的問(wèn)題、結(jié)合圖1-圖5對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明，其具體實(shí)施步驟如下：

步驟1：利用中文分詞技術(shù)對(duì)文本進(jìn)行分詞處理，其具體分詞技術(shù)過(guò)程如下：

步驟1.1：根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞，把待分詞的漢字串完整的掃描一遍，在系統(tǒng)的詞典里進(jìn)行查找匹配，遇到字典里有的詞就標(biāo)識(shí)出來(lái)；如果詞典中不存在相關(guān)匹配，就簡(jiǎn)單地分割出單字作為詞；直到漢字串為空。

步驟1.2：依據(jù)概率統(tǒng)計(jì)學(xué)，將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu)，即得n個(gè)可能組合的句子結(jié)構(gòu)，把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為sm1m2m3m4m5e，其結(jié)構(gòu)圖如圖2所示。

步驟1.3：基于信息論方法，給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值，其具體計(jì)算過(guò)程如下：

根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個(gè)詞，第i條路徑包含詞的個(gè)數(shù)為ni。即n條路徑詞的個(gè)數(shù)集合為(n1，n2，…，nn)。

得min()＝min(n1，n2，…，nn)

在上述留下的剩下的(n-m)路徑中，求解每條相鄰路徑的權(quán)重大小。

在統(tǒng)計(jì)語(yǔ)料庫(kù)中，計(jì)算每個(gè)詞的信息量x(ci)，再求解路徑相鄰詞的共現(xiàn)信息量x(ci，ci+1)。既有下式：

x(ci)＝|x(ci)1-x(ci)2|

上式x(ci)1為文本語(yǔ)料庫(kù)中詞ci的信息量，x(ci)2為含詞ci的文本信息量。

x(ci)1＝-p(ci)1lnp(ci)1

上式p(ci)1為ci在文本語(yǔ)料庫(kù)中的概率，n為含詞ci的文本語(yǔ)料庫(kù)的個(gè)數(shù)。

x(ci)2＝-p(ci)2lnp(ci)2

上式p(ci)2為含詞ci的文本數(shù)概率值，n為統(tǒng)計(jì)語(yǔ)料庫(kù)中文本總數(shù)。

同理x(ci，ci+1)＝|x(ci，ci+1)1-x(ci，ci+1)2|

x(ci，ci+1)1為在文本語(yǔ)料庫(kù)中詞(ci，ci+1)的共現(xiàn)信息量，x(ci，ci+1)2為相鄰詞(ci，ci+1)共現(xiàn)的文本信息量。

同理x(ci，ci+1)1＝-p(ci，ci+1)1lnp(ci，ci+1)1

上式p(ci，ci+1)1為在文本語(yǔ)料庫(kù)中詞(ci，ci+1)的共現(xiàn)概率，m為在文本庫(kù)中詞(ci，ci+1)共現(xiàn)的文本數(shù)量。

x(ci,ci+1)2＝-p(ci,ci+i)2lnp(ci,ci+i)2

p(ci，ci+1)2為文本庫(kù)中相鄰詞(ci，ci+1)共現(xiàn)的文本數(shù)概率。

綜上可得每條相鄰路徑的權(quán)值為

w(ci，ci+1)＝x(ci)+x(ci+1)-2x(ci，ci+1)

步驟1.4：找到權(quán)值最大的一條路徑，即為待分詞句子的分詞結(jié)果，其具體計(jì)算過(guò)程如下：

有n條路徑，每條路徑長(zhǎng)度不一樣，假設(shè)路徑長(zhǎng)度集合為(l1，l2，…，ln)。

假設(shè)經(jīng)過(guò)取路徑中詞的數(shù)量最少操作，排除了m條路徑，m＜n。即剩下(n-m)路徑，設(shè)其路徑長(zhǎng)度集合為

則每條路徑權(quán)重為:

上式分別為第1,2到路徑邊的權(quán)重值，根據(jù)步驟1.4可以一一計(jì)算得出，為剩下(n-m)路徑中第sj條路徑的長(zhǎng)度。

權(quán)值最大的一條路徑:

步驟2：根據(jù)停用表對(duì)文本詞匯進(jìn)行去停用詞處理，得到詞匯集w，其具體描述如下：

停用詞是指在文本中出現(xiàn)頻率高，但對(duì)于文本標(biāo)識(shí)卻沒(méi)有太大作用的單詞。去停用詞的過(guò)程就是將特征項(xiàng)與停用詞表中的詞進(jìn)行比較，如果匹配就將該特征項(xiàng)刪除。

綜合分詞和刪除停用詞技術(shù),中文文本預(yù)處理過(guò)程流程圖如圖3。

步驟3：構(gòu)造相關(guān)度函數(shù)re(wi，wj)對(duì)上述詞匯集w進(jìn)行從大到小排序處理，取前n個(gè)詞語(yǔ)構(gòu)成一個(gè)多主題網(wǎng)絡(luò)模型m，其具體計(jì)算過(guò)程如下：

相關(guān)度函數(shù)re(wi，wj):

上式ε為修正系數(shù)，d(wi，wj)為詞匯(wi，wj)間的差值。

d(wi，wj)＝|r1(wi，wj)-r2(wi，wj)|

上式r1(wi，wj)、r2(wi，wj)都為詞匯間相關(guān)度值，g(wi/wj)為wi相對(duì)于wj′的共現(xiàn)度，g(wj/wi)為wj相對(duì)于ci′的共現(xiàn)度，n(wi，wj)為兩詞匯(wi，wj)在一句話(huà)中出現(xiàn)的次數(shù)，n(wi)為詞匯wi在文檔中出現(xiàn)的次數(shù)，n(wj)為詞匯wj在文檔中出現(xiàn)的次數(shù)。

提取前n位作為文本的關(guān)鍵詞，即根據(jù)re(wi，wj)值從大到小提取前n個(gè)關(guān)鍵詞。

步驟4：構(gòu)造目標(biāo)函數(shù)確定不同主題間的連接詞link(c),其具體計(jì)算過(guò)程如下：

目標(biāo)函數(shù)

上式ρ為修正系數(shù)，tj為主題影響因子。

上式j(luò)為第j個(gè)主題，主題個(gè)數(shù)為g個(gè)，h為主題中詞匯的個(gè)數(shù)，它是個(gè)變量，主題不同，h的值就不同，為第j個(gè)主題中關(guān)鍵詞詞匯數(shù)為n，為連接詞c在主題j中出現(xiàn)的次數(shù)，為連接詞c與主題中詞匯的相似度，這個(gè)可以由傳統(tǒng)方法計(jì)算得出，α、β分別為的影響系數(shù)，一般β＞α，且α+β＝1，α、β可以由實(shí)驗(yàn)測(cè)試出最佳值，上式為主題zj對(duì)文檔的影響程度。

根據(jù)值，從大至小選取m個(gè)連接詞link(c)。

步驟5：構(gòu)造叉函數(shù)把連接詞有效的融入多主題網(wǎng)絡(luò)模型中，模型圖記為m′，其計(jì)算過(guò)程如下：

叉函數(shù)：

上式g(ci′/wj′)為ci′相對(duì)于wj′的共現(xiàn)度，g(wj′/ci′)為wj′相對(duì)于ci′的共現(xiàn)度,上式mf為兩詞匯本體概念共同的父節(jié)點(diǎn)密度，sf為兩詞匯本體概念共同的父節(jié)點(diǎn)深度，nf為義原網(wǎng)狀結(jié)構(gòu)中對(duì)應(yīng)父節(jié)點(diǎn)所在的樹(shù)狀結(jié)構(gòu)中的最大節(jié)點(diǎn)密度值，df為義原網(wǎng)狀結(jié)構(gòu)中對(duì)應(yīng)父節(jié)點(diǎn)所在的樹(shù)狀結(jié)構(gòu)中的樹(shù)的度

同理

上式n(ci′，wj′)為連接詞ci′與詞匯集中詞匯wj′在一句話(huà)中出現(xiàn)的次數(shù)，n(wj′)為詞匯集中詞匯wj′在文檔中出現(xiàn)的次數(shù)，n(ci′)為連接詞ci′在文檔中出現(xiàn)的次數(shù)，這里n(ci′)≠n(wj′)、n(ci′，wj′)＝n(wj′，ci′)。

根據(jù)叉函數(shù)的值從大到小取n-1個(gè)詞匯對(duì)，即得文檔中n個(gè)關(guān)鍵詞。

改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)，其偽代碼計(jì)算過(guò)程如下：

輸入：一個(gè)文檔

輸出：提取文檔中的核心關(guān)鍵詞。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金平艷
技術(shù)所有人：四川用聯(lián)信息技術(shù)有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

提取關(guān)鍵詞相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)的制作方法