欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文檔中多主題的關(guān)鍵詞提取技術(shù)的制作方法

文檔序號:11432225閱讀:418來源:國知局
文檔中多主題的關(guān)鍵詞提取技術(shù)的制造方法與工藝

本發(fā)明涉及語義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及文檔中多主題的關(guān)鍵詞提取技術(shù)。



背景技術(shù):

關(guān)鍵詞,是表述文本主題內(nèi)容的詞匯集合,是文本更簡略的摘要,用戶可以根據(jù)關(guān)鍵詞快速和粗略的獲取文檔的內(nèi)容。所以文檔關(guān)鍵詞可以幫助用戶迅速的從大量的文檔集合中找到用戶需要或者與其相關(guān)的文檔。但除學(xué)術(shù)論文包含關(guān)鍵詞外,大量的文檔沒有關(guān)鍵詞,尤其是上述提到的互聯(lián)網(wǎng)上的眾多網(wǎng)頁。語言專家手工提取關(guān)鍵詞,其準(zhǔn)確率較高,但對海量文檔信息手工提取是一個繁重且不可行的方法。目前常用的關(guān)鍵詞提取方法,包括詞頻-反文檔頻率方法、信息增益等方法。詞頻-反文檔頻率方法的簡單結(jié)構(gòu)并不能有效地反映詞匯或短語的重要程度和特征值的分布情況,所以tf-idf的精度并不是很高。信息增益方法只適合用來提取一個類別的文本特征,而無法用于提取多個類別的文本特征。同時,在構(gòu)建復(fù)雜網(wǎng)絡(luò)模型過程中,網(wǎng)絡(luò)節(jié)點的選擇以分詞結(jié)果為基礎(chǔ),如果分詞出現(xiàn)錯誤或分詞粒度過低,將含義豐富的長詞串分割成意義較模糊的單個字詞,都會影響最終關(guān)鍵詞的選取,對讀者通過關(guān)鍵詞理解文章主題也有較大影響。此外對關(guān)鍵節(jié)點的選取都是針對各自選取的實驗樣本提出的算法,沒有提出一種能夠綜合考慮各種情況的通用性算法。因此,為了改善文本檢索的現(xiàn)狀,人們積極研究人工智能和自然語言處理的各種技術(shù),很多學(xué)者提出采用機(jī)器智能自動提取關(guān)鍵詞的方法。由此可見,關(guān)鍵詞自動抽取是文本自動處理的基礎(chǔ)與核心技術(shù),是解決信息檢索的效率和準(zhǔn)確度的關(guān)鍵技術(shù),關(guān)鍵詞是表述文本主題,為了滿足上述需求,本發(fā)明提供一種文檔中多主題的關(guān)鍵詞提取技術(shù)。



技術(shù)實現(xiàn)要素:

針對從多主題文檔中找出一些非高頻并且對主題貢獻(xiàn)大的詞作為關(guān)鍵詞、實現(xiàn)自動提取文檔中主題詞的問題以及常用的關(guān)鍵詞提取方法精度不高的不足,本發(fā)明提供了一種文檔中多主題的關(guān)鍵詞提取技術(shù)。

為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:

步驟1:利用中文分詞技術(shù)對文本進(jìn)行分詞處理;

步驟2:根據(jù)停用表對文本詞匯進(jìn)行去停用詞處理,得到詞匯集w;

步驟3:構(gòu)造相關(guān)度函數(shù)re(ci,c(w1))對上述詞匯集w進(jìn)行從大到小排序處理,取前n個詞語構(gòu)成一個多主題網(wǎng)絡(luò)模型m;

步驟4:構(gòu)造目標(biāo)函數(shù)確定不同主題間的連接詞link(c);

步驟5:構(gòu)造叉函數(shù)把連接詞有效的融入多主題網(wǎng)絡(luò)模型中,模型圖記為m′。

本發(fā)明有益效果是:

1、此方法比傳統(tǒng)的詞頻-反文檔頻率方法得到的文本關(guān)鍵詞集合的準(zhǔn)確度更高。

2、把詞語語義關(guān)系映射到主題網(wǎng)絡(luò)模型圖上,既考慮了多主題性,又區(qū)分了主題間的不同特征,提取的文本關(guān)鍵詞更符合經(jīng)驗值;

3、為后續(xù)的文本相似度與文本聚類技術(shù)提供良好的理論基礎(chǔ)。

4、此算法具有更大的利用價值。

5、此方法精確地計算了特征詞匯中不同詞匯對文本思想的貢獻(xiàn)度。

附圖說明

圖1文檔中多主題的關(guān)鍵詞提取技術(shù)的結(jié)構(gòu)流程圖

圖2n元語法分詞算法圖解

圖3中文文本預(yù)處理過程流程圖

圖4n個詞語構(gòu)成一個多主題網(wǎng)絡(luò)模型圖m

圖5多主題網(wǎng)絡(luò)模型圖m′

具體實施方式

為了解決從多主題文檔中找出一些非高頻并且對主題貢獻(xiàn)大的詞作為關(guān)鍵詞、實現(xiàn)自動提取文檔中主題詞的問題以及常用的關(guān)鍵詞提取方法精度不高的問題、結(jié)合圖1-圖5對本發(fā)明進(jìn)行了詳細(xì)說明,其具體實施步驟如下:

步驟1:利用中文分詞技術(shù)對文本進(jìn)行分詞處理,其具體分詞技術(shù)過程如下:

步驟1.1:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進(jìn)行查找匹配,遇到字典里有的詞就標(biāo)識出來;如果詞典中不存在相關(guān)匹配,就簡單地分割出單字作為詞;直到漢字串為空。

步驟1.2:依據(jù)概率統(tǒng)計學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點依次規(guī)定為sm1m2m3m4m5e,其結(jié)構(gòu)圖如圖2所示。

步驟1.3:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值,其具體計算過程如下:

根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個詞,第i條路徑包含詞的個數(shù)為ni。即n條路徑詞的個數(shù)集合為(n1,n2,…,nn)。

得min()=min(n1,n2,…,nn)

在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權(quán)重大小。

在統(tǒng)計語料庫中,計算每個詞的信息量x(ci),再求解路徑相鄰詞的共現(xiàn)信息量x(ci,ci+1)。既有下式:

x(ci)=|x(ci)1-x(ci)2|

上式x(ci)1為文本語料庫中詞ci的信息量,x(ci)2為含詞ci的文本信息量。

x(ci)1=-p(ci)1lnp(ci)1

上式p(ci)1為ci在文本語料庫中的概率,n為含詞ci的文本語料庫的個數(shù)。

x(ci)2=-p(ci)2lnp(ci)2

上式p(ci)2為含詞ci的文本數(shù)概率值,n為統(tǒng)計語料庫中文本總數(shù)。

同理x(ci,ci+1)=|x(ci,ci+1)1-x(ci,ci+1)2|

x(ci,ci+1)1為在文本語料庫中詞(ci,ci+1)的共現(xiàn)信息量,x(ci,ci+1)2為相鄰詞(ci,ci+1)共現(xiàn)的文本信息量。

同理x(ci,ci+1)1=-p(ci,ci+1)1lnp(ci,ci+1)1

上式p(ci,ci+1)1為在文本語料庫中詞(ci,ci+1)的共現(xiàn)概率,m為在文本庫中詞(ci,ci+1)共現(xiàn)的文本數(shù)量。

x(ci,ci+1)2=-p(ci,ci+1)2lnp(ci,ci+1)2

p(ci,ci+1)2為文本庫中相鄰詞(ci,ci+1)共現(xiàn)的文本數(shù)概率。

綜上可得每條相鄰路徑的權(quán)值為

w(ci,ci+1)=x(ci)+x(ci+1)-2x(ci,ci+1)

步驟1.4:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果,其具體計算過程如下:

有n條路徑,每條路徑長度不一樣,假設(shè)路徑長度集合為(l1,l2,…,ln)。

假設(shè)經(jīng)過取路徑中詞的數(shù)量最少操作,排除了m條路徑,m<n。即剩下(n-m)路徑,設(shè)其路徑長度集合為

則每條路徑權(quán)重為:

上式分別為第1,2到路徑邊的權(quán)重值,根據(jù)步驟1.4可以一一計算得出,為剩下(n-m)路徑中第sj條路徑的長度。

權(quán)值最大的一條路徑:

步驟2:根據(jù)停用表對文本詞匯進(jìn)行去停用詞處理,得到詞匯集w,其具體描述如下:

停用詞是指在文本中出現(xiàn)頻率高,但對于文本標(biāo)識卻沒有太大作用的單詞。去停用詞的過程就是將特征項與停用詞表中的詞進(jìn)行比較,如果匹配就將該特征項刪除。

綜合分詞和刪除停用詞技術(shù),中文文本預(yù)處理過程流程圖如圖3。

步驟3:構(gòu)造相關(guān)度函數(shù)re(ci,c(w1))對上述詞匯集w進(jìn)行從大到小排序處理,取前n個詞語構(gòu)成一個多主題網(wǎng)絡(luò)模型m,其具體計算過程如下:

利用下列公式,先提取文中信息量最大的詞匯作為文本的核心詞匯;

上式n總為文本詞匯集合總的個數(shù),ni為第i個詞匯在文本出現(xiàn)的次數(shù),αi為位置權(quán)重值i∈(1,2,…,n),βj為詞性權(quán)重值,j∈(1,2,3,4)。

再根據(jù)w1對應(yīng)的詞匯作為參考詞匯c(w1),計算其他詞匯與它的相關(guān)度,公式如下:

n(ci,c(w1))為詞匯ci與核心詞匯c(w1)在文本中同一句話中出現(xiàn)的次數(shù),n(ci)為詞匯n(ci)在文本中出現(xiàn)的次數(shù),n(c(w1))為核心詞匯c(w1)在文本中出現(xiàn)的次數(shù)。為詞匯ci與c(w1)的平均權(quán)重值,w(ci)為詞匯ci在文本中的權(quán)重值。

上式

提取前n位作為文本的特征詞匯,即參考詞匯c(w1)與re(ci,c(w1))值更大的前n-1位所對應(yīng)的詞匯ci集合。

步驟4:構(gòu)造目標(biāo)函數(shù)確定不同主題間的連接詞link(c),其具體計算過程如下:

目標(biāo)函數(shù)

上式j(luò)為第j個主題,主題個數(shù)為g個,h為主題中詞匯的個數(shù),它是個變量,主題不同,h的值就不同,為第j個主題中關(guān)鍵詞詞匯數(shù)為n,為連接詞c在主題j中出現(xiàn)的次數(shù),為連接詞c與主題中詞匯的相似度,這個可以由傳統(tǒng)方法計算得出,α、β分別為的影響系數(shù),一般β>α,且α+β=1,α、β可以由實驗測試出最佳值,上式y(tǒng)(zj)為主題zj對文檔的影響程度。

為主題j中兩詞匯間共現(xiàn)的次數(shù),為主題j中兩詞匯間的相似度,這個可以由傳統(tǒng)方法計算得出。

根據(jù)值,從大至小選取m個連接詞link(c)。

步驟5:構(gòu)造叉函數(shù)把連接詞有效的融入多主題網(wǎng)絡(luò)模型中,模型圖記為m′,其計算過程如下:

叉函數(shù):

上式g(ci′/wj′)為ci′相對于wj′的共現(xiàn)度,g(wj′/ci′)為wj′相對于ci′的共現(xiàn)度,上式mf為兩詞匯本體概念共同的父節(jié)點密度,sf為兩詞匯本體概念共同的父節(jié)點深度,nf為義原網(wǎng)狀結(jié)構(gòu)中對應(yīng)父節(jié)點所在的樹狀結(jié)構(gòu)中的最大節(jié)點密度值,df為義原網(wǎng)狀結(jié)構(gòu)中對應(yīng)父節(jié)點所在的樹狀結(jié)構(gòu)中的樹的度

同理

上式n(ci′,wj′)為連接詞ci′與詞匯集中詞匯wj′在一句話中出現(xiàn)的次數(shù),n(wj′)為詞匯集中詞匯wj′在文檔中出現(xiàn)的次數(shù),n(ci′)為連接詞ci′在文檔中出現(xiàn)的次數(shù),這里n(ci′)≠n(wj′)、n(ci′,wj′)=n(wj′,ci′)。

根據(jù)叉函數(shù)的值從大到小取n-1個詞匯對,即得文檔中n個關(guān)鍵詞。

文檔中多主題的關(guān)鍵詞提取技術(shù),其偽代碼計算過程如下:

輸入:一個文檔

輸出:提取文檔中的核心關(guān)鍵詞。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宣化县| 大兴区| 临清市| 波密县| 灵寿县| 永德县| 历史| 泽库县| 普兰店市| 尼勒克县| 镇坪县| 家居| 文水县| 申扎县| 延寿县| 蒙自县| 木兰县| 泰兴市| 资源县| 巩留县| 西平县| 马尔康县| 滦平县| 宝清县| 基隆市| 军事| 射阳县| 昌江| 乐昌市| 商都县| 崇信县| 萝北县| 西林县| 石阡县| 青铜峡市| 平乡县| 宜良县| 肥西县| 长汀县| 邢台市| 正阳县|