專利名稱:一種文檔相似度衡量方法
技術領域:
本發(fā)明涉及文檔相似度計算領域,尤其是涉及一種文檔相似度衡 量方法。
背景技術:
文檔相似度計算就是利用文檔自身的信息,計算出兩個文檔的相 似度。該方法被廣泛的應用到各個領域,包括信息檢索,協(xié)同推薦系 統(tǒng),圖書館分類系統(tǒng),等相關的領域中。我們將文檔的內容和連接信 息作為對象,對這樣的文檔信息進行分析^Mv而用于文檔的相似度的計算。
隨著越來越多的文檔涌現(xiàn),現(xiàn)在^f艮難將同一個主題的文檔聚到該 主題下。過去的幾年中, 一方面許多科研工作者提出了一些基于內容 的相似度計算方法,比如向量空間模型和布爾模型等相關的模型,但 是這些方法均有一定的局限性。因為現(xiàn)實中的文檔數據中,還存在的 大量的連接的信息,這些連接對于文檔相似度的分析也非常的重要。 比方說,兩篇論文有相同的作者或者兩篇論文發(fā)表在相同的會議上, 那么這兩篇論文的相似性就比較大。在這里我們把作者和文檔之間的 關系和會議和文檔之間的關系作為連接信息。但是如果只利用內容來 分析文檔的相似度,而不用文檔的連接信息,那么計算的文檔的相似 度就不夠精確。另一方面,很多研究工作者提出了一些基于連接的文 檔相似度的計算的方法,但是這些方法沒有利用到文檔的內容的信息, 因為對于連接分析來說存在著一定的噪聲因素,因此上會造成一定的 主題漂移的現(xiàn)象,從而導致文檔相似度計算的不準確。綜合上面這些文檔聚類的方法,提出了一種新的方法,這種方法 有效的利用到了文檔的內容信息和文檔之間的連接信息來進行相似性 計算,從而在準確度和效率方面,都有了很大的提高。
發(fā)明內容
本發(fā)明是鑒于上述技術問題而產生的。本發(fā)明的一個目的是提出 一種文檔相似度^f軒量方法。
在一個方面中,根據本發(fā)明的文檔相似度衡量方法包括A、對要 處理的文檔信息進行建模,構建出文檔星型圖模型,該星型圖結構包 括周邊節(jié)點集和中心節(jié)點集,其中星型圖的中心是相應文檔,周邊節(jié) 點集包括多個周邊特征節(jié)點集;B、對在步驟A得到的星型圖模型進行 迭代計算,從而得到文檔的最終相似度結果;C、輸出最終的文檔之間 的相似度結果。
在這個方面中,其中步驟B進一步包括Bl、將星型圖結構信息 轉化成對應的各個周邊特征節(jié)點集與中心節(jié)點集的轉移矩陣;B2、才艮 據各個周邊特征節(jié)點集相似度矩陣和對應的轉移矩陣來迭代地計算一 次迭代的文檔相似度矩陣;B3、利用步驟B2中的這次迭代所得到的文 檔相似度矩陣來迭代地計算各個周邊特征節(jié)點集相似度矩陣以送至步 驟B2以作為下一次迭代的輸入;B4、對步驟B2的這次迭代結果與上 次迭代結果進行比較以得到文檔相似度矩陣的變化情況,如果兩次迭 代文檔相似度矩陣的變化小于設定收斂參數iJ,那么迭代停止,如果大 于收斂參數月,那么接著回到步驟B2,重復下次迭代的過程,直到收 斂為止。
在這個方面中,其中步驟B2進一步包括利用各個周邊特征節(jié)點 集相似度矩陣以及在步驟Bl所得到的各個周邊特征節(jié)點集與中心節(jié) 點集的轉移矩陣來計算基于各個周邊特征的中心節(jié)點集相似度矩陣;
5對基于各個周邊特征的中心節(jié)點集相似度矩陣進行平均,從而得到一
次迭代的文檔相似度矩陣。
在這個方面中,其中利用下述公式來分別計算各個周邊特征集與
中心節(jié)點集的二部圖的相似度矩陣, — 單位矩陣
其中,c是衰減因子,取值范圍在0到1之間,、k, 是對應 的轉移矩陣。
在這個方面中,其中一個周邊特征節(jié)點集是內容信息節(jié)點集,而 其他周邊特征節(jié)點集為連接節(jié)點集。
在這個方面中,其中步驟A進一步包括Al、對要處理的文檔信 息分別處理;A2、對內容節(jié)點集和連接節(jié)點集進行鏈接統(tǒng)一,構建出 星型圖結構,星型圖的周邊節(jié)點集是文檔所對應的內容信息節(jié)點集和 其他周邊特征節(jié)點集。
通過本發(fā)明,從二部圖相似度計算方法成功的擴展到了星型圖結 構上,從而高效的解決了文檔相似度計算的問題。
結合隨后的附圖,從下面的詳細說明中可顯而易見的得出本發(fā)明 的上述及其他目的、特征及優(yōu)點。在附圖中 圖l給出了根據本發(fā)明的方法的主流程圖; 圖2給出了根據本發(fā)明的方法的子流程圖; 圖3給出了根據本發(fā)明的方法的另一子流程圖; 圖4給出了文檔模型的示例; 圖5給出了文檔-內容轉移矩陣的構建示例;圖6給出了文檔-作者轉移矩陣的構建示例; 圖7給出了單元矩陣的示例;
圖8給出了能夠實施本發(fā)明的一個示例環(huán)境的示意圖。
具體實施例方式
隨著越來越多的文檔的涌現(xiàn),如何將相同主題的文檔進行歸類劃 分就成為了研究的重點。因此上,文檔之間的相似度就成為了圖書館 學,信息檢索領域和協(xié)同推薦領域研究的重點。在圖書管理學領域, 圖書管理人員可以通過計算文檔之間的相似度,將相同主題的文檔進 行歸類管理。信息;險索領域,對相似文檔的分類標注,可以大大的提 高文檔查詢的精度和效率。對于協(xié)同推薦領域,系統(tǒng)可以根據用戶閱 讀文檔的情況以及文檔之間的相似度關系,將文檔推薦給用戶。因此 上,文檔相似度計算的方法有著非常廣泛的應用前景。文檔相似度計 算的研究主要包括兩個方面基于文檔內容的相似度的研究和基于文 檔連接的相似度的研究。本發(fā)明即就是結合兩個方面的研究提出 一種 基于內容和連接的文檔相似性衡量的方法。
為了更全面地理解本發(fā)明及其優(yōu)點,下面結合附圖及具體實施例 對本發(fā)明做進一步詳細地說明。
首先,參考圖1,對根據本發(fā)明的一種結合內容和鏈接信息的文檔 相似度衡量方法進行說明。
如圖l所示,根據本發(fā)明的一種結合內容和鏈接信息的文檔相似 度衡量方法包括步驟
A、 對要處理的多個文檔的信息進行建模,構建出文檔星型圖模型。 隨后參考圖2,對該步驟進行詳細的描述。
B、 對在步驟A得到的星型圖模型進行迭代計算,從而得到文檔之 間的最終相似度結果。隨后參考圖3,對該步驟進行詳細地描述。
7C、最后,輸出文檔之間的相似度結果。
接下來,參考圖2,對星型圖建模過程進行更詳細地描述。 如圖2所示,該星型圖建模過程(步驟A)進一步包括 Al、對文檔信息分別處理。對于內容信息來說,從文檔的內容信 息中抽取出對應的詞的信息,構建出文檔和詞所對應的二部圖關系。 對于連接信息來說,從文檔中抽耳又所對應的文檔和相對應的連接信息 的二部圖關系。連接信息例如包括作者、會議、關鍵詞等等。例如, 比方i兌對于文檔和作者連接關系來"i兌,就構建出文檔和作者對應的二 部圖關系。當然也可分別構建出文檔與會議、關鍵詞等等二部圖關系。 對于本領域普通技術人員來說文檔信息并不局限于此。
A2、對內容信息和連接信息進行鏈接統(tǒng)一,構建出星型圖結構。 星型圖的中心是所對應的文檔,星型圖的周邊信息是文檔所對應的內 容信息和連接信息。通過星型圖模型,最終將文檔的內容信息和連接 信息結合到一起。圖4給出了星型圖模型的示例。其中,中心節(jié)點集 是文檔,而周邊節(jié)點集是所對應的內容信息和連接信息。在該實例中, 連接信息包括三個方面,即文檔的作者信息、文檔所發(fā)表的會議信息、 以及文檔的關鍵詞信息。
由上可知,該星型圖結構信息包括周邊節(jié)點集和中心節(jié)點集。中
心節(jié)點集就是文檔的集合,例如文檔l、文檔2.......文檔n。周邊節(jié)
點集包括內容節(jié)點集、作者節(jié)點集、會議節(jié)點集、關鍵詞節(jié)點集。在 下文中將內容、作者、會議、關鍵詞統(tǒng)稱為周邊特征。由此可知,作 者節(jié)點集是一類周邊特征節(jié)點集,會議節(jié)點集也是一類周邊特征節(jié)點 集,當然對于內容節(jié)點集和關鍵詞節(jié)點集也同樣如此。也就是說,周 邊節(jié)點集包括多個周邊特征節(jié)點集。當然,很顯然的是周邊節(jié)點集并 不局限于此,而可以包括任何適當的周邊特征節(jié)點集。
下面,參考圖3,對相似度計算過程進行更詳細地描述。如圖3所示,該相似度計算過程(步驟B)進一步包括 Bl、將星型圖結構信息轉化成對應的各個周邊轉移矩陣。星型圖 轉化成轉移矩陣就是分別構建成周邊節(jié)點集與中心節(jié)點集的二步圖的 轉移矩陣。因為周邊節(jié)點集包括例如內容節(jié)點集、作者節(jié)點集、會議
節(jié)點集、關^t詞節(jié)點集這樣的多個特征集,因此存在多個周邊特征集 與中心節(jié)點集的轉移矩陣。例如存在內容節(jié)點集與中心節(jié)點集的轉移 矩陣、作者節(jié)點集與中心節(jié)點集的轉移矩陣等等。隨后參考圖5和圖6
對轉移矩陣的構建進行說明。
B2、根據各個周邊特征節(jié)點集相似度矩陣來迭代地計算一次迭代 的文檔相似度矩陣。
首先,利用各個周邊特征節(jié)點集相似度矩陣以及在步驟B1所得到 的各個周邊特征節(jié)點集與中心節(jié)點集的轉移矩陣來計算各個周邊特征 節(jié)點集 一 中心節(jié)點集相似度矩陣。
具體地說,利用下述公式來分別計算各個周邊特征與文檔的二部
圖的相似度矩陣。也就是說,分別計算作者、會議、關鍵詞、以及內
容與文檔的二部圖的相似度矩陣。 ' 單位矩陣
、 ,=i 乂.=1
其中,c是衰減因子,取值范圍在0到1之間,;。、;'。是二部 圖之間的轉移矩陣。在初始情況下,各個周邊特征節(jié)點集相似度矩陣 和中心節(jié)點集相似度矩陣分別都是單位矩陣。也就是說,單位矩陣包 括n行和n列。對于作者節(jié)點集的單位矩陣而言,第l行和第l列與 文檔1的作者相對應,第2行和第2列與文檔2的作者相對應,依次 類推。當然對于會議節(jié)點集,關鍵詞節(jié)點集、以及內容節(jié)點集而言同 樣如此。例如,如圖7所示,圖7中給出了中心節(jié)點集單元矩陣和作
9者節(jié)點集單元矩陣。對于同一文檔而言相似度為1,對于不同文檔而言
相似度為0。
對于周邊特征是作者這個例子來說,A就是所對應的作者相似度矩
陣,^;和^o就是所對應的作者到文檔的轉移矩陣,這個公式就是計算 的Fa, K兩個文檔之間就作者而言的相似度矩陣。當然,對于周邊特 征是會議來說,通過該計算可得到兩個文檔之間就會議而言的相似度 矩陣。對于其他周邊特征而言同樣如此。通過該計算,就得到了一次 迭代的就各個周邊特征而言的中心節(jié)點集相似度矩陣,在下文中還將 其統(tǒng)稱為基于周邊特征的中心節(jié)點集相似度矩陣。
接下來,對通過上面計算所得到的多個基于周邊特征的中心節(jié)點 集相似度矩陣進行平均,從而得到一次迭代的文檔相似度矩陣。具體 地說,通過作者得到基于作者的中心節(jié)點集相似度矩陣,通過會議得 到基于會議的中心節(jié)點集相似度矩陣,通過內容信息得到基于內容信 息的中心節(jié)點集相似度矩陣,通過關鍵詞得到基于關鍵詞的中心節(jié)點 集相似度矩陣,從而對這四個基于周邊特征的中心節(jié)點集相似度矩陣 取均值得到一次迭代的文檔相似度矩陣。
B3、利用步驟B2中的這次迭代所得到的文檔相似度矩陣來計算各 個周邊特征節(jié)點集相似度矩陣以送至步驟B2以作為下一次迭代的輸 入。
該計算過程同樣也利用上述公式。例如,才艮據上述7>式,利用在 步驟B2所得到文檔相似度矩陣和作者節(jié)點集與中心節(jié)點集的轉移矩 陣,可得到作者節(jié)點集相似度矩陣。同樣,分別求出會議節(jié)點集、關 鍵詞節(jié)點集、內容節(jié)點集相似度矩陣。
B4、對步驟B2的這次迭代結果與上次迭代結果進行比較以得到文 檔相似度矩陣的變化情況。如果兩次迭代文檔相似度矩陣的變化小于 設定收斂參數"那么迭代停止。如果大于收斂參數"那么接著回到步驟B2,重復下次迭代的過程,直到收斂為止。 一般情況下,參數s的 取值為0.01,所以該方法一詢殳經過7-9次迭^。
下面,參考圖5和圖6,對轉移矩陣的構建進行詳細地描述。 圖5是基于內容的轉移矩陣的示例。如圖5(a),圖中構建出來了 詞和文檔的二部圖,其中二部圖的邊的權重值描述的是詞頻信息,即 詞在該文檔中出現(xiàn)的頻率。如圖5(b),得到了基于權重的由文檔節(jié)點 集到內容節(jié)點集的概率轉移矩陣。而內容節(jié)點集到文檔節(jié)點集的概率 轉移矩陣是該矩陣的轉秩。轉移矩陣描述的是節(jié)點之間概率游走轉移
關系,比方{兌々支設在圖5 (a)的節(jié)點docl上站上一個人,那么他下一 步將會游走到節(jié)點apple的概率就是2/(2+1+3)=1/3。通過此可知,該轉
移矩陣的行是文檔l、文檔2.....文檔n,列是從內容信息中抽取的
各個詞。換句話說,轉移矩陣中的各個單元表示對應文檔中含有對應 詞的個數與所有文檔中含有對應詞的個數的比率。回到圖5, docl包 含apple的個數是2,所有文檔中包含apple的個數是(2+l+3)-6,因此 對應單元是2/(2+1+3)=1/3。
圖6是文檔節(jié)點集到-連接信息節(jié)點集的概率轉移矩陣的示例。 因為連接信息不存在邊的權重信息,所以對于圖6 (a)的結構圖來說 得到了圖6 (b)的由文檔節(jié)點集到作者節(jié)點集的概率轉移矩陣。該轉 移矩陣的行是文檔l、文檔2.....文檔n,列是各個連接信息。
下面將會結合圖8來提供關于本發(fā)明處理范例的詳細描述。
在該范例中,文本信息可通過多種方式輸入設備輸入,如存儲設 備(硬盤,閃存),光驅,^:盤輸入或通過網絡傳輸。此后,如圖4所 示,將文本信息轉化成相對應的星型圖結構。然后,圖l-3中的一系 列步驟將會執(zhí)行,迭代計算完成后得到相對應的文本之間的相似度。
至此,已對本發(fā)明的詳細流程進行了描述。本方法從二部圖相似 度計算方法成功的擴展到了星型圖結構上,從而高效的解決了文檔相似度計算的問題。
對于本領域的普通技術人員來說可顯而易見的得出其他優(yōu)點和修
述的具體說明及示例性實施例。因此,在不脫離由隨后權利要求及其 等價體所定義的 一般發(fā)明構思的精神和范圍的情況下,可對其做出各 種修改。
權利要求
1、一種文檔相似度衡量方法包括步驟A、對要處理的文檔信息進行建模,構建出文檔星型圖模型,該星型圖結構包括周邊節(jié)點集和中心節(jié)點集,其中星型圖的中心是相應文檔,周邊節(jié)點集包括多個周邊特征節(jié)點集;B、對在步驟A得到的星型圖模型進行迭代計算,從而得到文檔的最終相似度結果;C、輸出最終的文檔之間的相似度結果。
2、 根據權利要求l的方法,其中步驟B進一步包括Bl 、將星型圖結構信息轉化成對應的各個周邊特征節(jié)點集與中心 節(jié)點集的轉移矩陣;B2、根據各個周邊特征節(jié)點集相似度矩陣和對應的轉移矩陣來迭 代地計算一次迭代的文檔相似度矩陣;B3、利用步驟B2中的這次迭代所得到的文檔相似度矩陣和對應的 轉移矩陣來迭代地計算各個周邊特征節(jié)點集相似度矩陣以送至步驟B2以作為下一次迭代的輸入;B4、對步驟B2的這次迭代結果與上次迭代結果進行比較以得到文 檔相似度矩陣的變化情況,如果兩次迭代文檔相似度矩陣的變化小于 設定收斂參數fl,那么迭代停止,如果大于收斂參數w,那么接著回到 步驟B2,重復下次迭代的過程,直到收斂為止。
3、 根據權利要求2的方法,其中步驟B2進一步包括利用各個周邊特征節(jié)點集相似度矩陣以及在步驟B1所得到的各 個周邊特征節(jié)點集與中心節(jié)點集的轉移矩陣來計算基于各個周邊特征 的中心節(jié)點集相似度矩陣;對基于各個周邊特征的中心節(jié)點集相似度矩陣進行平均,從而得 到 一次迭代的文檔相似度矩陣。
4、 根據權利要求3的方法,其中利用下述公式來分別計算各個周邊 特征集與中心節(jié)點集的二部圖的相似度矩陣,<formula>formula see original document page 3</formula>其中,c是衰減因子,取值范圍在0到1之間,,《巧是對應 的轉移矩陣。
5、 根據權利要求2的方法,其中一個周邊特征節(jié)點集是內容信息節(jié) 點集,而其他周邊特征節(jié)點集為連接信息節(jié)點集。
6、 根據權利要求5的方法,其中步驟A進一步包括 Al、對要處理的文檔信息分別處理;A2、對內容信息節(jié)點集和連接信息節(jié)點集進行鏈接統(tǒng)一,構建出 星型圖結構,星型圖的周邊節(jié)點集是文檔所對應的內容信息節(jié)點集和 連接信息節(jié)點集。
全文摘要
一種文檔相似度衡量方法,該方法包括步驟A.對要處理的文檔信息進行建模,構建出文檔星型圖模型,該星型圖結構包括周邊節(jié)點集和中心節(jié)點集,其中星型圖的中心是相應文檔,周邊節(jié)點集包括多個周邊特征節(jié)點集;B.對在步驟A得到的星型圖模型進行迭代計算,從而得到文檔的最終相似度結果;C.輸出最終的文檔之間的相似度結果。本發(fā)明從二部圖相似度計算方法成功的擴展到了星型圖結構上,從而高效的解決了文檔相似度計算的問題。
文檔編號G06F17/27GK101576903SQ20091007878
公開日2009年11月11日 申請日期2009年3月3日 優(yōu)先權日2009年3月3日
發(fā)明者軍 何, 劉紅巖, 佩 李, 杜小勇, 蔡元哲, 旭 賈 申請人:杜小勇