欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種單篇文本關(guān)鍵詞的提取方法

文檔序號(hào):6475007閱讀:524來源:國(guó)知局
專利名稱:一種單篇文本關(guān)鍵詞的提取方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種單篇文本關(guān)鍵詞的提取方法,具體是涉及一種對(duì)TFIDF方法提取 領(lǐng)域文集中單篇文本關(guān)鍵詞的改進(jìn)方法。
背景技術(shù)
單篇文本關(guān)鍵詞是文本知識(shí)流生成、語義鏈網(wǎng)絡(luò)構(gòu)建、文本語境復(fù)雜度和信息量 中文本表示的基本元素。單篇文本關(guān)鍵詞的提取精度直接影響到文本分類、聚類、詞語關(guān)聯(lián) 分析、文本自動(dòng)摘要、文本過濾、信息檢索、話題檢測(cè)、標(biāo)注網(wǎng)頁等文本信息處理的質(zhì)量與效 果。目前對(duì)單篇文本關(guān)鍵詞提取技術(shù)的研究主要有TFIDF方法、樸素貝葉斯分類法、互信 息方法、最大熵模型法、最大似然性和前綴樹法等。目前應(yīng)用最廣的單篇文本關(guān)鍵詞的提取方法是TFIDF方法。TFIDF方法認(rèn)為,單 篇文本的關(guān)鍵詞應(yīng)該在文本中經(jīng)常出現(xiàn),并且在其他文集中很少出現(xiàn)。TFIDF方法用詞權(quán) 公式計(jì)算一個(gè)詞對(duì)于文集中的單篇文本的重要程度。TFIDF方法的詞權(quán)就是詞頻TF(Term Frequency)與逆文檔頻率 IDF(Inverse Document Frequency)的乘積。TFIDF 詞權(quán)公式如 下TFIDFt = TFt X IDFt = TFt X log (N/nt)其中,TFt為詞t的詞頻,也就是詞t在文本中出現(xiàn)的次數(shù)。IDFt為詞t的逆文檔 頻率,它通過Iog(NAit)計(jì)算;N為文集的文本總數(shù);nt為詞t的篇頻,也就是文集中包含詞 t的文本數(shù)。詞的逆文檔頻率與篇頻成反比,篇頻越高則逆文檔頻率越低。所以,通過檢驗(yàn) 詞的逆文檔頻率可以過濾掉那些在文集里最普遍出現(xiàn)的高篇頻詞。但是用TFIDF方法提取領(lǐng)域文集中的單篇文本關(guān)鍵詞時(shí),存在以下不足(I)TFIDF方法中無關(guān)領(lǐng)域文集涉及的領(lǐng)域和文本總數(shù)會(huì)降低單篇文本關(guān)鍵詞的 提取質(zhì)量。(2)由于詞的逆文檔頻率與詞在文集中出現(xiàn)的篇頻成反比,TFIDF詞權(quán)會(huì)傾向于 低篇頻詞,導(dǎo)致單篇文本關(guān)鍵詞的提取精度降低。(3)當(dāng)領(lǐng)域文集屬于單一領(lǐng)域時(shí),一些代表領(lǐng)域整體的高篇頻也會(huì)被過濾掉,最終 關(guān)鍵詞提取結(jié)果只能保留文本特性而不能保持領(lǐng)域特性。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)TFIDF方法的不足,提供一種單篇文本關(guān)鍵詞的提取方 法,該方法能避免無關(guān)領(lǐng)域文集對(duì)關(guān)鍵詞提取結(jié)果的影響,提高關(guān)鍵詞的提取精度,還能提 高關(guān)鍵詞提取結(jié)果的領(lǐng)域特性。為了達(dá)到上述的目的,本發(fā)明的構(gòu)思如下采用搜索引擎輔助法提取單篇文本的 關(guān)鍵詞,提高領(lǐng)域文集中單篇文本關(guān)鍵詞的提取精度,提高關(guān)鍵詞提取的領(lǐng)域特性;所述的 搜索引擎輔助法是通過搜索引擎檢驗(yàn)詞的普遍性,再通過改進(jìn)的TFIDF詞權(quán)公式提取關(guān) 鍵詞。
3
根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案一種單篇文本關(guān)鍵詞的提取方法,其特征在于,其具體步驟如下(1)打開領(lǐng)域文集中的單篇文本;(2)文本內(nèi)容預(yù)處理,包括分詞、詞性標(biāo)注;(3)提取有意義的實(shí)詞;(4)統(tǒng)計(jì)實(shí)詞的詞頻;(5)打開領(lǐng)域文集的所有文本;(6)統(tǒng)計(jì)實(shí)詞在領(lǐng)域文集中的篇頻;(7)統(tǒng)計(jì)搜索引擎檢索實(shí)詞所返回的頁面數(shù);(8)用改進(jìn)的TFIDF詞權(quán)公式計(jì)算單篇文本所有實(shí)詞的權(quán)重,從中提取一定比例 的關(guān)鍵詞。所述的改進(jìn)的TFIDF詞權(quán)公式,記為TFMIDF,其計(jì)算式如下
權(quán)利要求
一種單篇文本關(guān)鍵詞的提取方法,其特征在于,采用搜索引擎輔助法提取單篇文本的關(guān)鍵詞,提高領(lǐng)域文集中單篇文本關(guān)鍵詞的提取精度,提高關(guān)鍵詞提取的領(lǐng)域特性;所述的搜索引擎輔助法是通過搜索引擎檢驗(yàn)詞的普遍性,再通過改進(jìn)的TFIDF詞權(quán)公式提取關(guān)鍵詞,其具體步驟如下(1)打開領(lǐng)域文集中的單篇文本;(2)文本內(nèi)容預(yù)處理,包括分詞、詞性標(biāo)注;(3)提取有意義的實(shí)詞;(4)統(tǒng)計(jì)實(shí)詞的詞頻;(5)打開領(lǐng)域文集的所有文本;(6)統(tǒng)計(jì)實(shí)詞在領(lǐng)域文集中的篇頻;(7)統(tǒng)計(jì)搜索引擎檢索實(shí)詞所返回的頁面數(shù);(8)用改進(jìn)的TFIDF詞權(quán)公式計(jì)算單篇文本所有實(shí)詞的權(quán)重,從中提取一定比例的關(guān)鍵詞。
2.按權(quán)利要求1所述的一種單篇文本關(guān)鍵詞的提取方法,其特征在于,上述步驟(8)中 所述的改進(jìn)的TFIDF詞權(quán)公式,記為TFMIDF,其計(jì)算式如下TFMDFt = TFtX (a *DIDFt+(l-a )*SIDFt)其中TFt是詞t在文本中出現(xiàn)的次數(shù);DIDFt是領(lǐng)域文集中的逆文檔頻率,SIDFt是利用 搜索引擎計(jì)算的逆文檔頻率;α是用來調(diào)節(jié)原始DIDF與SIDF之間的權(quán)重;當(dāng)a = 1時(shí), TFMDFt = TFtXDIDFt,詞權(quán)賦值依賴領(lǐng)域文集數(shù);當(dāng)a = 0時(shí),TFMDFt = TFt X SIDFt,詞權(quán) 賦值不依賴領(lǐng)域文集數(shù),提取關(guān)鍵詞直接面向單篇文本。
3.按權(quán)利要求2所述的一種單篇文本關(guān)鍵詞的提取方法,其特征在于,所述的領(lǐng)域文集中的逆文檔頻率,其計(jì)算公式如下MDIDF , = log(nt其中Nd是領(lǐng)域文集的文本總數(shù),nt是領(lǐng)域文集中包含詞t的文本數(shù)。
4.按權(quán)利要求2所述的一種單篇文本關(guān)鍵詞的提取方法,其特征在于,所述的利用搜索引擎計(jì)算的逆文檔頻率,其計(jì)算公式如下 NsSIDFt = log(—) Pt其中Ns等價(jià)于搜索引擎的索引總頁面數(shù),pt為一個(gè)檢索查到詞t的頁面數(shù)。
全文摘要
本發(fā)明公開了一種單篇文本關(guān)鍵詞的提取方法,該方法具體步驟如下(1)打開領(lǐng)域文集中的單篇文本;(2)文本內(nèi)容預(yù)處理;(3)提取有意義的實(shí)詞;(4)統(tǒng)計(jì)實(shí)詞的詞頻;(5)打開領(lǐng)域文集的所有文本;(6)統(tǒng)計(jì)實(shí)詞在領(lǐng)域文集中的篇頻;(7)統(tǒng)計(jì)搜索引擎檢索實(shí)詞所返回的頁面數(shù);(8)用改進(jìn)的TFIDF詞權(quán)公式計(jì)算單篇文本中所有實(shí)詞的權(quán)重,從中提取一定比例的關(guān)鍵詞。該方法能夠彌補(bǔ)TFIDF算法的不足,能避免無關(guān)領(lǐng)域文集對(duì)關(guān)鍵詞提取的影響,提高關(guān)鍵詞的提取精度,保持關(guān)鍵詞提取結(jié)果的領(lǐng)域特性。
文檔編號(hào)G06F17/30GK101968801SQ201010290828
公開日2011年2月9日 申請(qǐng)日期2010年9月21日 優(yōu)先權(quán)日2010年9月21日
發(fā)明者張順香, 徐煒民, 梁國(guó)寧, 殷曉波, 駱祥峰 申請(qǐng)人:上海大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
漠河县| 陆良县| 桐柏县| 临江市| 浦东新区| 寻甸| 柘城县| 穆棱市| 潼南县| 汽车| 黄浦区| 专栏| 威宁| 东乡| 平利县| 大厂| 顺平县| 株洲市| 慈利县| 苏尼特左旗| 襄汾县| 荃湾区| 原阳县| 北辰区| 虞城县| 长武县| 鱼台县| 清河县| 睢宁县| 寻乌县| 商丘市| 瑞安市| 贵德县| 吴堡县| 曲阜市| 雅安市| 深泽县| 宜章县| 应城市| 横山县| 蒲城县|