一種文檔相似度衡量方法

文檔序號：6483951閱讀：142來源：國知局

專利名稱：一種文檔相似度衡量方法
技術領域：
本發(fā)明涉及文檔相似度計算領域，尤其是涉及一種文檔相似度衡量方法。
背景技術：
文檔相似度計算就是利用文檔自身的信息，計算出兩個文檔的相似度。該方法被廣泛的應用到各個領域，包括信息檢索，協(xié)同推薦系統(tǒng)，圖書館分類系統(tǒng)，等相關的領域中。我們將文檔的內容和連接信息作為對象，對這樣的文檔信息進行分析^Mv而用于文檔的相似度的計算。
隨著越來越多的文檔涌現(xiàn)，現(xiàn)在^f艮難將同一個主題的文檔聚到該主題下。過去的幾年中，一方面許多科研工作者提出了一些基于內容的相似度計算方法，比如向量空間模型和布爾模型等相關的模型，但是這些方法均有一定的局限性。因為現(xiàn)實中的文檔數據中，還存在的大量的連接的信息，這些連接對于文檔相似度的分析也非常的重要。比方說，兩篇論文有相同的作者或者兩篇論文發(fā)表在相同的會議上，那么這兩篇論文的相似性就比較大。在這里我們把作者和文檔之間的關系和會議和文檔之間的關系作為連接信息。但是如果只利用內容來分析文檔的相似度，而不用文檔的連接信息，那么計算的文檔的相似度就不夠精確。另一方面，很多研究工作者提出了一些基于連接的文檔相似度的計算的方法，但是這些方法沒有利用到文檔的內容的信息, 因為對于連接分析來說存在著一定的噪聲因素，因此上會造成一定的主題漂移的現(xiàn)象，從而導致文檔相似度計算的不準確。綜合上面這些文檔聚類的方法，提出了一種新的方法，這種方法有效的利用到了文檔的內容信息和文檔之間的連接信息來進行相似性計算，從而在準確度和效率方面，都有了很大的提高。

發(fā)明內容
本發(fā)明是鑒于上述技術問題而產生的。本發(fā)明的一個目的是提出一種文檔相似度^f軒量方法。
在一個方面中，根據本發(fā)明的文檔相似度衡量方法包括A、對要處理的文檔信息進行建模，構建出文檔星型圖模型，該星型圖結構包括周邊節(jié)點集和中心節(jié)點集，其中星型圖的中心是相應文檔，周邊節(jié) 點集包括多個周邊特征節(jié)點集；B、對在步驟A得到的星型圖模型進行迭代計算，從而得到文檔的最終相似度結果；C、輸出最終的文檔之間的相似度結果。
在這個方面中，其中步驟B進一步包括Bl、將星型圖結構信息轉化成對應的各個周邊特征節(jié)點集與中心節(jié)點集的轉移矩陣；B2、才艮據各個周邊特征節(jié)點集相似度矩陣和對應的轉移矩陣來迭代地計算一次迭代的文檔相似度矩陣；B3、利用步驟B2中的這次迭代所得到的文檔相似度矩陣來迭代地計算各個周邊特征節(jié)點集相似度矩陣以送至步驟B2以作為下一次迭代的輸入；B4、對步驟B2的這次迭代結果與上次迭代結果進行比較以得到文檔相似度矩陣的變化情況，如果兩次迭代文檔相似度矩陣的變化小于設定收斂參數iJ，那么迭代停止，如果大于收斂參數月，那么接著回到步驟B2，重復下次迭代的過程，直到收斂為止。
在這個方面中，其中步驟B2進一步包括利用各個周邊特征節(jié)點集相似度矩陣以及在步驟Bl所得到的各個周邊特征節(jié)點集與中心節(jié) 點集的轉移矩陣來計算基于各個周邊特征的中心節(jié)點集相似度矩陣；
5對基于各個周邊特征的中心節(jié)點集相似度矩陣進行平均，從而得到一
次迭代的文檔相似度矩陣。
在這個方面中，其中利用下述公式來分別計算各個周邊特征集與
中心節(jié)點集的二部圖的相似度矩陣， — 單位矩陣
其中，c是衰減因子，取值范圍在0到1之間，、k, 是對應的轉移矩陣。
在這個方面中，其中一個周邊特征節(jié)點集是內容信息節(jié)點集，而其他周邊特征節(jié)點集為連接節(jié)點集。
在這個方面中，其中步驟A進一步包括Al、對要處理的文檔信息分別處理；A2、對內容節(jié)點集和連接節(jié)點集進行鏈接統(tǒng)一，構建出星型圖結構，星型圖的周邊節(jié)點集是文檔所對應的內容信息節(jié)點集和其他周邊特征節(jié)點集。
通過本發(fā)明，從二部圖相似度計算方法成功的擴展到了星型圖結構上，從而高效的解決了文檔相似度計算的問題。

結合隨后的附圖，從下面的詳細說明中可顯而易見的得出本發(fā)明的上述及其他目的、特征及優(yōu)點。在附圖中圖l給出了根據本發(fā)明的方法的主流程圖；圖2給出了根據本發(fā)明的方法的子流程圖；圖3給出了根據本發(fā)明的方法的另一子流程圖；圖4給出了文檔模型的示例；圖5給出了文檔-內容轉移矩陣的構建示例；圖6給出了文檔-作者轉移矩陣的構建示例；圖7給出了單元矩陣的示例；
圖8給出了能夠實施本發(fā)明的一個示例環(huán)境的示意圖。
具體實施例方式
隨著越來越多的文檔的涌現(xiàn)，如何將相同主題的文檔進行歸類劃分就成為了研究的重點。因此上，文檔之間的相似度就成為了圖書館學，信息檢索領域和協(xié)同推薦領域研究的重點。在圖書管理學領域，圖書管理人員可以通過計算文檔之間的相似度，將相同主題的文檔進行歸類管理。信息;險索領域，對相似文檔的分類標注，可以大大的提高文檔查詢的精度和效率。對于協(xié)同推薦領域，系統(tǒng)可以根據用戶閱讀文檔的情況以及文檔之間的相似度關系，將文檔推薦給用戶。因此上，文檔相似度計算的方法有著非常廣泛的應用前景。文檔相似度計算的研究主要包括兩個方面基于文檔內容的相似度的研究和基于文檔連接的相似度的研究。本發(fā)明即就是結合兩個方面的研究提出一種基于內容和連接的文檔相似性衡量的方法。
為了更全面地理解本發(fā)明及其優(yōu)點，下面結合附圖及具體實施例對本發(fā)明做進一步詳細地說明。
首先，參考圖1,對根據本發(fā)明的一種結合內容和鏈接信息的文檔相似度衡量方法進行說明。
如圖l所示，根據本發(fā)明的一種結合內容和鏈接信息的文檔相似度衡量方法包括步驟
A、對要處理的多個文檔的信息進行建模，構建出文檔星型圖模型。隨后參考圖2，對該步驟進行詳細的描述。
B、對在步驟A得到的星型圖模型進行迭代計算，從而得到文檔之間的最終相似度結果。隨后參考圖3，對該步驟進行詳細地描述。
7C、最后，輸出文檔之間的相似度結果。
接下來，參考圖2，對星型圖建模過程進行更詳細地描述。如圖2所示，該星型圖建模過程(步驟A)進一步包括 Al、對文檔信息分別處理。對于內容信息來說，從文檔的內容信息中抽取出對應的詞的信息，構建出文檔和詞所對應的二部圖關系。對于連接信息來說，從文檔中抽耳又所對應的文檔和相對應的連接信息的二部圖關系。連接信息例如包括作者、會議、關鍵詞等等。例如，比方i兌對于文檔和作者連接關系來"i兌，就構建出文檔和作者對應的二部圖關系。當然也可分別構建出文檔與會議、關鍵詞等等二部圖關系。對于本領域普通技術人員來說文檔信息并不局限于此。
A2、對內容信息和連接信息進行鏈接統(tǒng)一，構建出星型圖結構。星型圖的中心是所對應的文檔，星型圖的周邊信息是文檔所對應的內容信息和連接信息。通過星型圖模型，最終將文檔的內容信息和連接信息結合到一起。圖4給出了星型圖模型的示例。其中，中心節(jié)點集是文檔，而周邊節(jié)點集是所對應的內容信息和連接信息。在該實例中，連接信息包括三個方面，即文檔的作者信息、文檔所發(fā)表的會議信息、以及文檔的關鍵詞信息。
由上可知，該星型圖結構信息包括周邊節(jié)點集和中心節(jié)點集。中
心節(jié)點集就是文檔的集合，例如文檔l、文檔2.......文檔n。周邊節(jié)
點集包括內容節(jié)點集、作者節(jié)點集、會議節(jié)點集、關鍵詞節(jié)點集。在下文中將內容、作者、會議、關鍵詞統(tǒng)稱為周邊特征。由此可知，作者節(jié)點集是一類周邊特征節(jié)點集，會議節(jié)點集也是一類周邊特征節(jié)點集，當然對于內容節(jié)點集和關鍵詞節(jié)點集也同樣如此。也就是說，周邊節(jié)點集包括多個周邊特征節(jié)點集。當然，很顯然的是周邊節(jié)點集并不局限于此，而可以包括任何適當的周邊特征節(jié)點集。
下面，參考圖3，對相似度計算過程進行更詳細地描述。如圖3所示，該相似度計算過程(步驟B)進一步包括 Bl、將星型圖結構信息轉化成對應的各個周邊轉移矩陣。星型圖轉化成轉移矩陣就是分別構建成周邊節(jié)點集與中心節(jié)點集的二步圖的轉移矩陣。因為周邊節(jié)點集包括例如內容節(jié)點集、作者節(jié)點集、會議
節(jié)點集、關^t詞節(jié)點集這樣的多個特征集，因此存在多個周邊特征集與中心節(jié)點集的轉移矩陣。例如存在內容節(jié)點集與中心節(jié)點集的轉移矩陣、作者節(jié)點集與中心節(jié)點集的轉移矩陣等等。隨后參考圖5和圖6
對轉移矩陣的構建進行說明。
B2、根據各個周邊特征節(jié)點集相似度矩陣來迭代地計算一次迭代的文檔相似度矩陣。
首先，利用各個周邊特征節(jié)點集相似度矩陣以及在步驟B1所得到的各個周邊特征節(jié)點集與中心節(jié)點集的轉移矩陣來計算各個周邊特征節(jié)點集一中心節(jié)點集相似度矩陣。
具體地說，利用下述公式來分別計算各個周邊特征與文檔的二部
圖的相似度矩陣。也就是說，分別計算作者、會議、關鍵詞、以及內
容與文檔的二部圖的相似度矩陣。 ' 單位矩陣
、 ,=i 乂.=1
其中，c是衰減因子，取值范圍在0到1之間，；。、；'。是二部圖之間的轉移矩陣。在初始情況下，各個周邊特征節(jié)點集相似度矩陣和中心節(jié)點集相似度矩陣分別都是單位矩陣。也就是說，單位矩陣包括n行和n列。對于作者節(jié)點集的單位矩陣而言，第l行和第l列與文檔1的作者相對應，第2行和第2列與文檔2的作者相對應，依次類推。當然對于會議節(jié)點集，關鍵詞節(jié)點集、以及內容節(jié)點集而言同樣如此。例如，如圖7所示，圖7中給出了中心節(jié)點集單元矩陣和作
9者節(jié)點集單元矩陣。對于同一文檔而言相似度為1,對于不同文檔而言
相似度為0。
對于周邊特征是作者這個例子來說，A就是所對應的作者相似度矩
陣，^;和^o就是所對應的作者到文檔的轉移矩陣，這個公式就是計算的Fa， K兩個文檔之間就作者而言的相似度矩陣。當然，對于周邊特征是會議來說，通過該計算可得到兩個文檔之間就會議而言的相似度矩陣。對于其他周邊特征而言同樣如此。通過該計算，就得到了一次迭代的就各個周邊特征而言的中心節(jié)點集相似度矩陣，在下文中還將其統(tǒng)稱為基于周邊特征的中心節(jié)點集相似度矩陣。
接下來，對通過上面計算所得到的多個基于周邊特征的中心節(jié)點集相似度矩陣進行平均，從而得到一次迭代的文檔相似度矩陣。具體地說，通過作者得到基于作者的中心節(jié)點集相似度矩陣，通過會議得到基于會議的中心節(jié)點集相似度矩陣，通過內容信息得到基于內容信息的中心節(jié)點集相似度矩陣，通過關鍵詞得到基于關鍵詞的中心節(jié)點集相似度矩陣，從而對這四個基于周邊特征的中心節(jié)點集相似度矩陣取均值得到一次迭代的文檔相似度矩陣。
B3、利用步驟B2中的這次迭代所得到的文檔相似度矩陣來計算各個周邊特征節(jié)點集相似度矩陣以送至步驟B2以作為下一次迭代的輸入。
該計算過程同樣也利用上述公式。例如，才艮據上述7>式，利用在步驟B2所得到文檔相似度矩陣和作者節(jié)點集與中心節(jié)點集的轉移矩陣，可得到作者節(jié)點集相似度矩陣。同樣，分別求出會議節(jié)點集、關鍵詞節(jié)點集、內容節(jié)點集相似度矩陣。
B4、對步驟B2的這次迭代結果與上次迭代結果進行比較以得到文檔相似度矩陣的變化情況。如果兩次迭代文檔相似度矩陣的變化小于設定收斂參數"那么迭代停止。如果大于收斂參數"那么接著回到步驟B2，重復下次迭代的過程，直到收斂為止。一般情況下，參數s的取值為0.01,所以該方法一詢殳經過7-9次迭^。
下面，參考圖5和圖6，對轉移矩陣的構建進行詳細地描述。圖5是基于內容的轉移矩陣的示例。如圖5(a),圖中構建出來了詞和文檔的二部圖，其中二部圖的邊的權重值描述的是詞頻信息，即詞在該文檔中出現(xiàn)的頻率。如圖5(b)，得到了基于權重的由文檔節(jié)點集到內容節(jié)點集的概率轉移矩陣。而內容節(jié)點集到文檔節(jié)點集的概率轉移矩陣是該矩陣的轉秩。轉移矩陣描述的是節(jié)點之間概率游走轉移
關系，比方{兌々支設在圖5 (a)的節(jié)點docl上站上一個人，那么他下一步將會游走到節(jié)點apple的概率就是2/(2+1+3)=1/3。通過此可知，該轉
移矩陣的行是文檔l、文檔2.....文檔n，列是從內容信息中抽取的
各個詞。換句話說，轉移矩陣中的各個單元表示對應文檔中含有對應詞的個數與所有文檔中含有對應詞的個數的比率。回到圖5， docl包含apple的個數是2，所有文檔中包含apple的個數是(2+l+3)-6，因此對應單元是2/(2+1+3)=1/3。
圖6是文檔節(jié)點集到-連接信息節(jié)點集的概率轉移矩陣的示例。因為連接信息不存在邊的權重信息，所以對于圖6 (a)的結構圖來說得到了圖6 (b)的由文檔節(jié)點集到作者節(jié)點集的概率轉移矩陣。該轉移矩陣的行是文檔l、文檔2.....文檔n，列是各個連接信息。
下面將會結合圖8來提供關于本發(fā)明處理范例的詳細描述。
在該范例中，文本信息可通過多種方式輸入設備輸入，如存儲設備(硬盤，閃存)，光驅，^:盤輸入或通過網絡傳輸。此后，如圖4所示，將文本信息轉化成相對應的星型圖結構。然后，圖l-3中的一系列步驟將會執(zhí)行，迭代計算完成后得到相對應的文本之間的相似度。
至此，已對本發(fā)明的詳細流程進行了描述。本方法從二部圖相似度計算方法成功的擴展到了星型圖結構上，從而高效的解決了文檔相似度計算的問題。
對于本領域的普通技術人員來說可顯而易見的得出其他優(yōu)點和修
述的具體說明及示例性實施例。因此，在不脫離由隨后權利要求及其等價體所定義的一般發(fā)明構思的精神和范圍的情況下，可對其做出各種修改。
權利要求
1、一種文檔相似度衡量方法包括步驟A、對要處理的文檔信息進行建模，構建出文檔星型圖模型，該星型圖結構包括周邊節(jié)點集和中心節(jié)點集，其中星型圖的中心是相應文檔，周邊節(jié)點集包括多個周邊特征節(jié)點集；B、對在步驟A得到的星型圖模型進行迭代計算，從而得到文檔的最終相似度結果；C、輸出最終的文檔之間的相似度結果。
2、根據權利要求l的方法，其中步驟B進一步包括Bl 、將星型圖結構信息轉化成對應的各個周邊特征節(jié)點集與中心節(jié)點集的轉移矩陣；B2、根據各個周邊特征節(jié)點集相似度矩陣和對應的轉移矩陣來迭代地計算一次迭代的文檔相似度矩陣；B3、利用步驟B2中的這次迭代所得到的文檔相似度矩陣和對應的轉移矩陣來迭代地計算各個周邊特征節(jié)點集相似度矩陣以送至步驟B2以作為下一次迭代的輸入；B4、對步驟B2的這次迭代結果與上次迭代結果進行比較以得到文檔相似度矩陣的變化情況，如果兩次迭代文檔相似度矩陣的變化小于設定收斂參數fl，那么迭代停止，如果大于收斂參數w，那么接著回到步驟B2，重復下次迭代的過程，直到收斂為止。
3、根據權利要求2的方法，其中步驟B2進一步包括利用各個周邊特征節(jié)點集相似度矩陣以及在步驟B1所得到的各個周邊特征節(jié)點集與中心節(jié)點集的轉移矩陣來計算基于各個周邊特征的中心節(jié)點集相似度矩陣；對基于各個周邊特征的中心節(jié)點集相似度矩陣進行平均，從而得到一次迭代的文檔相似度矩陣。
4、根據權利要求3的方法，其中利用下述公式來分別計算各個周邊特征集與中心節(jié)點集的二部圖的相似度矩陣，<formula>formula see original document page 3</formula>其中，c是衰減因子，取值范圍在0到1之間，，《巧是對應的轉移矩陣。
5、根據權利要求2的方法，其中一個周邊特征節(jié)點集是內容信息節(jié) 點集，而其他周邊特征節(jié)點集為連接信息節(jié)點集。
6、根據權利要求5的方法，其中步驟A進一步包括 Al、對要處理的文檔信息分別處理；A2、對內容信息節(jié)點集和連接信息節(jié)點集進行鏈接統(tǒng)一，構建出星型圖結構，星型圖的周邊節(jié)點集是文檔所對應的內容信息節(jié)點集和連接信息節(jié)點集。
全文摘要
一種文檔相似度衡量方法，該方法包括步驟A.對要處理的文檔信息進行建模，構建出文檔星型圖模型，該星型圖結構包括周邊節(jié)點集和中心節(jié)點集，其中星型圖的中心是相應文檔，周邊節(jié)點集包括多個周邊特征節(jié)點集；B.對在步驟A得到的星型圖模型進行迭代計算，從而得到文檔的最終相似度結果；C.輸出最終的文檔之間的相似度結果。本發(fā)明從二部圖相似度計算方法成功的擴展到了星型圖結構上，從而高效的解決了文檔相似度計算的問題。
文檔編號G06F17/27GK101576903SQ20091007878
公開日2009年11月11日申請日期2009年3月3日優(yōu)先權日2009年3月3日
發(fā)明者軍何, 劉紅巖, 佩李, 杜小勇, 蔡元哲, 旭賈申請人:杜小勇

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：杜小勇;劉紅巖;何軍;蔡元哲;李佩;賈旭
技術所有人：杜小勇
我是此專利的發(fā)明人

上一篇：一種基于聚類的形容詞極性判斷系統(tǒng)和方法
上一篇：數據庫信息加密方法和系統(tǒng)的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文檔相似度相關技術

文檔相似度計算相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文檔相似度衡量方法