專利名稱:一種基于專家投票的文本相似網絡構建方法
技術領域:
本發(fā)明涉及一種文本相似網絡構建方法,具體是涉及采用專家投票法確定任意兩篇文本間是否建立鏈接的相似度閾值,然后根據該局部閾值建立文本的相似網絡,是一種基于專家投票的文本相似網絡構建方法。
背景技術:
目前構建文本相似網絡的普遍方法是全局閾值法。全局閾值法是通過人工或機器學習等方法設定的所有文本的相似度閾值,然后根據該全局閾值建立文本的相似網絡的方法,但是這種全局閾值法存在以下不足
(I)全局閾值法不能夠體現(xiàn)不同文本的不同鏈接特點。(2)全局閾值法不能夠根據鏈接涉及的兩個文本的相似度進行精確的控制。(3)全局閾值法不能夠支持文本相似網絡的動態(tài)擴展,當增加新的文本時,需要重新計算全局閾值。
發(fā)明內容
本發(fā)明的目的在于針對全局閾值法的不足,提供一種基于專家投票的文本相似網絡構建方法,該方法通過專家投票法產生的局部閾值對文本間的鏈接進行精確的控制,體現(xiàn)了不同文本間的不同鏈接特點,且支持相似網絡的動態(tài)擴展。為了達到上述的目的,本發(fā)明的構思如下通過專家投票法產生的局部閾值對文本間的鏈接進行精確的控制,體現(xiàn)不同文本間的不同鏈接特點,且支持相似網絡的動態(tài)擴展;所述的局部閾值就是任意兩個文本間是否建立鏈接的相似度閾值。根據上述的發(fā)明思想,本發(fā)明采用下述技術方案
一種基于專家投票的文本相似網絡構建方法,其特征在于,其具體步驟如下
(1)輸入領域文集;
(2)文本表不與相似性度量;
(3)使用專家投票法建立文本間的鏈接;
所述的專家投票法,其局部閾值IH十算式如下
權利要求
1.一種基于專家投票的文本相似網絡構建方法,其特征在于通過專家投票法產生的局部閾值對文本間的鏈接進行精確的控制,體現(xiàn)了不同文本間的不同鏈接特點,且支持相似網絡的動態(tài)擴展;所述的局部閾值就是任意兩篇文本間是否建立鏈接的相似度閾值;其具體步驟如下 (1)輸入領域文集; (2)文本表不與相似性度量; (3)使用專家投票法建立文本間的鏈接; (4)輸出文本相似網絡。
2.按權利要求I所述的基于專家投票的文本相似網絡構建方法,其特征在于所述步驟(3)中的專家投票法,其局部閾值IH十算式如下
全文摘要
本發(fā)明公開了一種基于專家投票的文本相似網絡構建方法。該方法具體步驟如下(1)輸入領域文集;(2)文本表示與相似性度量;(3)使用專家投票法建立文本間的鏈接;(4)輸出文本相似網絡。該方法通過專家投票法產生的局部閾值對文本間的鏈接進行精確的控制,體現(xiàn)了不同文本間的不同鏈接特點,且支持相似網絡的動態(tài)擴展;該方法簡便易操作,效果好。
文檔編號G06F17/27GK102831159SQ20121024386
公開日2012年12月19日 申請日期2012年7月16日 優(yōu)先權日2012年7月16日
發(fā)明者陳雪, 吳超 申請人:上海大學