本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)。
背景技術(shù):
關(guān)鍵詞是文章主題的概括,常以詞或短語(yǔ)的形式出現(xiàn),是表達(dá)文本主題意義的最小單位,能夠使讀者在短時(shí)間內(nèi)了解文章的大概內(nèi)容,從而節(jié)省讀者的時(shí)間。所以文檔關(guān)鍵詞可以幫助用戶(hù)迅速的從大量的文檔集合中找到用戶(hù)需要或者與其相關(guān)的文檔。但除學(xué)術(shù)論文包含關(guān)鍵詞外,大量的文檔沒(méi)有關(guān)鍵詞,尤其是上述提到的互聯(lián)網(wǎng)上的眾多網(wǎng)頁(yè)。面對(duì)海量的文本數(shù)據(jù),手工抽取關(guān)鍵詞費(fèi)時(shí)費(fèi)力,而且主觀(guān)性強(qiáng),抽取不當(dāng)還會(huì)對(duì)下一步的應(yīng)用造成消極影響。傳統(tǒng)的關(guān)鍵詞抽取算法普遍缺少對(duì)文檔結(jié)構(gòu)特征的考慮,導(dǎo)致結(jié)構(gòu)信息這一重要特征的缺失,在一定程度上影響了關(guān)鍵詞提取的精確性,特別是不能抽取出真正反映文本內(nèi)容的詞匯。現(xiàn)有基于復(fù)雜網(wǎng)絡(luò)或圖模型的關(guān)鍵詞抽取算法在構(gòu)建文本復(fù)雜網(wǎng)絡(luò)或圖模型的過(guò)程中單純以詞形作為網(wǎng)絡(luò)節(jié)點(diǎn),這種算法雖然可以最大限度的保持文本的結(jié)構(gòu)信息,但是由于沒(méi)有進(jìn)行語(yǔ)義標(biāo)注,導(dǎo)致提取的關(guān)鍵詞在語(yǔ)義上不具有可解釋性,有可能會(huì)產(chǎn)生歧義。因此,為了改善文本檢索的現(xiàn)狀,人們積極研究人工智能和自然語(yǔ)言處理的各種技術(shù),很多學(xué)者提出采用機(jī)器智能自動(dòng)提取關(guān)鍵詞的方法。由此可見(jiàn),關(guān)鍵詞自動(dòng)抽取是文本自動(dòng)處理的基礎(chǔ)與核心技術(shù),是解決信息檢索的效率和準(zhǔn)確度的關(guān)鍵技術(shù),關(guān)鍵詞是表述文本主題,為了滿(mǎn)足上述需求,本發(fā)明提供一種改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)從多主題文檔中找出一些非高頻并且對(duì)主題貢獻(xiàn)大的詞作為關(guān)鍵詞、實(shí)現(xiàn)自動(dòng)提取文檔中主題詞的問(wèn)題以及常用的關(guān)鍵詞提取方法精度不高的不足,本發(fā)明提供了一種改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)。
為了解決上述問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:利用中文分詞技術(shù)對(duì)文本進(jìn)行分詞處理;
步驟2:根據(jù)停用表對(duì)文本詞匯進(jìn)行去停用詞處理,得到詞匯集w;
步驟3:構(gòu)造相關(guān)度函數(shù)re(wi,wj)對(duì)上述詞匯集w進(jìn)行從大到小排序處理,取前n個(gè)詞語(yǔ)構(gòu)成一個(gè)多主題網(wǎng)絡(luò)模型m;
步驟4:構(gòu)造目標(biāo)函數(shù)
步驟5:構(gòu)造叉函數(shù)
本發(fā)明有益效果是:
1、此方法比傳統(tǒng)的詞頻-反文檔頻率方法得到的文本關(guān)鍵詞集合的準(zhǔn)確度更高。
2、把詞語(yǔ)語(yǔ)義關(guān)系映射到主題網(wǎng)絡(luò)模型圖上,既考慮了多主題性,又區(qū)分了主題間的不同特征,提取的文本關(guān)鍵詞更符合經(jīng)驗(yàn)值;
3、為后續(xù)的文本相似度與文本聚類(lèi)技術(shù)提供良好的理論基礎(chǔ)。
4、此算法具有更大的利用價(jià)值。
5、此方法精確地計(jì)算了特征詞匯中不同詞匯對(duì)文本思想的貢獻(xiàn)度。
6、此方法在初次提取關(guān)鍵詞時(shí),用精確的算法得到更為準(zhǔn)確的文檔特征,為后續(xù)文檔關(guān)鍵詞提取提供更好的鋪墊。
附圖說(shuō)明
圖1改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù)的結(jié)構(gòu)流程圖
圖2n元語(yǔ)法分詞算法圖解
圖3中文文本預(yù)處理過(guò)程流程圖
圖4n個(gè)詞語(yǔ)構(gòu)成一個(gè)多主題網(wǎng)絡(luò)模型圖m
圖5多主題網(wǎng)絡(luò)模型圖m′
具體實(shí)施方式
為了解決從多主題文檔中找出一些非高頻并且對(duì)主題貢獻(xiàn)大的詞作為關(guān)鍵詞、實(shí)現(xiàn)自動(dòng)提取文檔中主題詞的問(wèn)題以及常用的關(guān)鍵詞提取方法精度不高的問(wèn)題、結(jié)合圖1-圖5對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,其具體實(shí)施步驟如下:
步驟1:利用中文分詞技術(shù)對(duì)文本進(jìn)行分詞處理,其具體分詞技術(shù)過(guò)程如下:
步驟1.1:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進(jìn)行查找匹配,遇到字典里有的詞就標(biāo)識(shí)出來(lái);如果詞典中不存在相關(guān)匹配,就簡(jiǎn)單地分割出單字作為詞;直到漢字串為空。
步驟1.2:依據(jù)概率統(tǒng)計(jì)學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個(gè)可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為sm1m2m3m4m5e,其結(jié)構(gòu)圖如圖2所示。
步驟1.3:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值,其具體計(jì)算過(guò)程如下:
根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個(gè)詞,第i條路徑包含詞的個(gè)數(shù)為ni。即n條路徑詞的個(gè)數(shù)集合為(n1,n2,…,nn)。
得min()=min(n1,n2,…,nn)
在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權(quán)重大小。
在統(tǒng)計(jì)語(yǔ)料庫(kù)中,計(jì)算每個(gè)詞的信息量x(ci),再求解路徑相鄰詞的共現(xiàn)信息量x(ci,ci+1)。既有下式:
x(ci)=|x(ci)1-x(ci)2|
上式x(ci)1為文本語(yǔ)料庫(kù)中詞ci的信息量,x(ci)2為含詞ci的文本信息量。
x(ci)1=-p(ci)1lnp(ci)1
上式p(ci)1為ci在文本語(yǔ)料庫(kù)中的概率,n為含詞ci的文本語(yǔ)料庫(kù)的個(gè)數(shù)。
x(ci)2=-p(ci)2lnp(ci)2
上式p(ci)2為含詞ci的文本數(shù)概率值,n為統(tǒng)計(jì)語(yǔ)料庫(kù)中文本總數(shù)。
同理x(ci,ci+1)=|x(ci,ci+1)1-x(ci,ci+1)2|
x(ci,ci+1)1為在文本語(yǔ)料庫(kù)中詞(ci,ci+1)的共現(xiàn)信息量,x(ci,ci+1)2為相鄰詞(ci,ci+1)共現(xiàn)的文本信息量。
同理x(ci,ci+1)1=-p(ci,ci+1)1lnp(ci,ci+1)1
上式p(ci,ci+1)1為在文本語(yǔ)料庫(kù)中詞(ci,ci+1)的共現(xiàn)概率,m為在文本庫(kù)中詞(ci,ci+1)共現(xiàn)的文本數(shù)量。
x(ci,ci+1)2=-p(ci,ci+i)2lnp(ci,ci+i)2
p(ci,ci+1)2為文本庫(kù)中相鄰詞(ci,ci+1)共現(xiàn)的文本數(shù)概率。
綜上可得每條相鄰路徑的權(quán)值為
w(ci,ci+1)=x(ci)+x(ci+1)-2x(ci,ci+1)
步驟1.4:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果,其具體計(jì)算過(guò)程如下:
有n條路徑,每條路徑長(zhǎng)度不一樣,假設(shè)路徑長(zhǎng)度集合為(l1,l2,…,ln)。
假設(shè)經(jīng)過(guò)取路徑中詞的數(shù)量最少操作,排除了m條路徑,m<n。即剩下(n-m)路徑,設(shè)其路徑長(zhǎng)度集合為
則每條路徑權(quán)重為:
上式
權(quán)值最大的一條路徑:
步驟2:根據(jù)停用表對(duì)文本詞匯進(jìn)行去停用詞處理,得到詞匯集w,其具體描述如下:
停用詞是指在文本中出現(xiàn)頻率高,但對(duì)于文本標(biāo)識(shí)卻沒(méi)有太大作用的單詞。去停用詞的過(guò)程就是將特征項(xiàng)與停用詞表中的詞進(jìn)行比較,如果匹配就將該特征項(xiàng)刪除。
綜合分詞和刪除停用詞技術(shù),中文文本預(yù)處理過(guò)程流程圖如圖3。
步驟3:構(gòu)造相關(guān)度函數(shù)re(wi,wj)對(duì)上述詞匯集w進(jìn)行從大到小排序處理,取前n個(gè)詞語(yǔ)構(gòu)成一個(gè)多主題網(wǎng)絡(luò)模型m,其具體計(jì)算過(guò)程如下:
相關(guān)度函數(shù)re(wi,wj):
上式ε為修正系數(shù),d(wi,wj)為詞匯(wi,wj)間的差值。
d(wi,wj)=|r1(wi,wj)-r2(wi,wj)|
上式r1(wi,wj)、r2(wi,wj)都為詞匯間相關(guān)度值,g(wi/wj)為wi相對(duì)于wj′的共現(xiàn)度,g(wj/wi)為wj相對(duì)于ci′的共現(xiàn)度,n(wi,wj)為兩詞匯(wi,wj)在一句話(huà)中出現(xiàn)的次數(shù),n(wi)為詞匯wi在文檔中出現(xiàn)的次數(shù),n(wj)為詞匯wj在文檔中出現(xiàn)的次數(shù)。
提取前n位作為文本的關(guān)鍵詞,即根據(jù)re(wi,wj)值從大到小提取前n個(gè)關(guān)鍵詞。
步驟4:構(gòu)造目標(biāo)函數(shù)
目標(biāo)函數(shù)
上式ρ為修正系數(shù),tj為主題影響因子。
上式j(luò)為第j個(gè)主題,主題個(gè)數(shù)為g個(gè),h為主題中詞匯的個(gè)數(shù),它是個(gè)變量,主題不同,h的值就不同,
根據(jù)
步驟5:構(gòu)造叉函數(shù)
叉函數(shù):
上式g(ci′/wj′)為ci′相對(duì)于wj′的共現(xiàn)度,g(wj′/ci′)為wj′相對(duì)于ci′的共現(xiàn)度,上式mf為兩詞匯本體概念共同的父節(jié)點(diǎn)密度,sf為兩詞匯本體概念共同的父節(jié)點(diǎn)深度,nf為義原網(wǎng)狀結(jié)構(gòu)中對(duì)應(yīng)父節(jié)點(diǎn)所在的樹(shù)狀結(jié)構(gòu)中的最大節(jié)點(diǎn)密度值,df為義原網(wǎng)狀結(jié)構(gòu)中對(duì)應(yīng)父節(jié)點(diǎn)所在的樹(shù)狀結(jié)構(gòu)中的樹(shù)的度
同理
上式n(ci′,wj′)為連接詞ci′與詞匯集中詞匯wj′在一句話(huà)中出現(xiàn)的次數(shù),n(wj′)為詞匯集中詞匯wj′在文檔中出現(xiàn)的次數(shù),n(ci′)為連接詞ci′在文檔中出現(xiàn)的次數(shù),這里n(ci′)≠n(wj′)、n(ci′,wj′)=n(wj′,ci′)。
根據(jù)叉函數(shù)
改進(jìn)的文檔中多主題的關(guān)鍵詞提取技術(shù),其偽代碼計(jì)算過(guò)程如下:
輸入:一個(gè)文檔
輸出:提取文檔中的核心關(guān)鍵詞。