欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于文檔聚類的方法及系統(tǒng)的制作方法

文檔序號:6426308閱讀:191來源:國知局
專利名稱:用于文檔聚類的方法及系統(tǒng)的制作方法
技術領域
本發(fā)明總體上涉及信息處理技術領域,特別地,涉及一種用于文檔聚類的方法及系統(tǒng)。
背景技術
隨著互聯(lián)網(wǎng)應用的日益普及,海量的文本信息為文本分析提供了豐富的數(shù)據(jù)源。通過對文本數(shù)據(jù)的分析,可以分析出輿論熱點等信息。對于文本分析技術而言,文本聚類是眾多應用的關鍵步驟,有效的文本聚類方法,能夠提高輿論熱點識別的精度。
傳統(tǒng)的文本聚類技術,通常是提取文檔的文本特征信息,例如關鍵詞詞頻,而后基于文本特征信息,計算兩篇文檔之間的相似度,然后基于相似度進行聚類。然而,這種聚類算法存在一定的局限性,其只是考慮文檔的內容的相似性,對于如果內容是似乎不關聯(lián)的文檔之間的關聯(lián)關系則往往無法進行準確分析。因此,需要一種改進的用于文檔聚類的方法及系統(tǒng)。

發(fā)明內容
本發(fā)明一方面提供一種用于文檔聚類的方法,包括提取文檔的文本特征信息;基于與文檔相關的信息建立社會關系網(wǎng)絡;基于所述社會關系網(wǎng)絡進行圖聚類,以獲得結構子類;提取所述結構子類的結構特征信息;以及基于所述文本特征信息和所述結構特征信息對文檔進行聚類。本發(fā)明另一方面提供一種用于文檔聚類的系統(tǒng),包括文本特征信息提取裝置,被配置為提取文檔的文本特征信息;社會關系網(wǎng)絡建立裝置,被配置為基于與文檔相關的信息建立社會關系網(wǎng)絡;圖聚類裝置,被配置為基于所述社會關系網(wǎng)絡進行圖聚類,以獲得結構子類;結構特征信息提取裝置,被配置為提取所述結構子類的結構特征信息;以及聚類裝置,被配置為基于所述文本特征信息和所述結構特征信息對文檔進行聚類。由于本發(fā)明的具體實施例不僅考慮了文檔之間的文本特征相似度,還基于文檔作者之間的社會關系網(wǎng)絡狀況,進一步考慮了作者之間的結構特征信息,因此能夠提高文檔聚類的準確程度。


為了對本發(fā)明實施例的特征和優(yōu)點進行詳細說明,將參照以下附圖。如果可能的話,在附圖和描述中使用相同或者類似的參考標號以指代相同或者類似的部分。其中圖I示出了本發(fā)明的用于文檔聚類的第一具體實施方式
;圖2、3示出了本發(fā)明用于文檔聚類的第二具體實施方式
;圖4示出了以文檔作為節(jié)點建立的社會關系網(wǎng)絡的示意圖;圖5示出了本發(fā)明用于文檔聚類的系統(tǒng)結構示意圖;圖6示意性示出了可以實現(xiàn)根據(jù)本發(fā)明的實施例的計算設備的結構方框圖。
具體實施例方式現(xiàn)在將參考本發(fā)明的示例性實施例進行詳細的描述,在附圖中圖解說明了所述實施例的示例,其中相同的參考數(shù)字始終指示相同的元件。應當理解,本發(fā)明并不限于所公開的示例實施例。還應當理解,并非所述方法和設備的每個特征對于實施任一權利要求所要求保護的本發(fā)明都是必要的。此外,在整個公開中,當顯示或描述處理或方法時,方法的步驟可以以任何順序或者同時執(zhí)行,除非從上下文中能清楚一個步驟依賴于先執(zhí)行的另一步驟。此外,步驟之間可以有顯著的時間間隔。在研究如何使文檔聚類方法能夠更準確地分析文檔之間的關聯(lián)關系,本申請的發(fā)明人發(fā)現(xiàn),隨著微博等互聯(lián)網(wǎng)應用的飛速發(fā)展,文檔作者之間的社會關系結構信息也成為可以被利用來做文本聚類的重要信息來源,通過文檔作者之間的交互關系網(wǎng)絡,可以識別出兩篇文檔作者的相似度,從而有利于提高文檔聚類的精度。以互聯(lián)網(wǎng)的文檔為了,文檔作者之間的交互關系可以包括對文檔的回帖,留言,或者作為文檔的共同作者等?!DI示出了本發(fā)明用于文檔聚類的第一具體實施方式
。在步驟101中,提取文檔的文本特征信息。本領域技術人員基于本申請可以采用各種適用的提取文檔的文本特征信息的方法。比如,可以米用 TFIDF 算法(Term-Frequency Inverse Document FrequencyAlgorithm)對文檔進行特征提取(具體參見參考文獻IJ. Allan, J. Carbonell,G.Doddington, J. Yamron and Y. Yang. “Topic detection and tracking pilot study Final report,,· In Proc. of DARPA Broadcast News Transcription and Understanding
Workshop, 1998)。首先,對于每篇文檔,進行分詞。例如,文檔內容為“......數(shù)據(jù)分析對于
互聯(lián)網(wǎng)公司是核心技術?!保瑒t會被分詞為“數(shù)據(jù)分析/對于/互聯(lián)網(wǎng)/公司/是/核心/技術”。對于分詞的結果,過濾連接詞,結束詞,則得到“數(shù)據(jù)分析/互聯(lián)網(wǎng)/公司/核心技術”,把剩余詞匯,作為詞頻表的輸入。對于所有要處理的文檔,建立詞頻表,統(tǒng)計每個詞匯出現(xiàn)的次數(shù),選擇頻率適中的詞匯建立索引詞匯庫。例如,“數(shù)據(jù)分析/互聯(lián)網(wǎng)/核心技術”被選入索引詞匯表。統(tǒng)計每篇文檔中,索引詞匯庫表中的詞匯,在該文檔中出現(xiàn)的頻率,得到頻率向量,而后按照TFIDF算法的定義,計算每個詞匯的特征向量,以該特征向量作為文本特征信息。例如,上述詞匯“數(shù)據(jù)分析/互聯(lián)網(wǎng)/核心技術”的特征向量被計算為{log2/3,0,0},可以得到該文檔的文本特征信息Ti為{1呢2/3,0,0},其中1為整數(shù),用于后續(xù)文檔之間的相似性計算。由于提取文檔的文本特征信息有較多的現(xiàn)有成熟技術,在此不再贅述。。在步驟103中,基于與文檔相關的信息建立社會關系網(wǎng)絡。文檔相關的信息可以包括文檔的作者、文檔作者之間的回復,文檔的共同作者或者例如作者相互在博客上的留言關系,作者之間的轉貼關系等等。構建文檔的社會關系網(wǎng)絡的目的在于能夠去分析文檔作者的社會關聯(lián),從而能夠不僅僅基于文檔的內容本身來發(fā)現(xiàn)文檔之間的關聯(lián)性,有利更準確的文檔聚類。在步驟105中,基于社會關系網(wǎng)絡進行聚類,以獲得結構子類。結構子類是指基于社會關系網(wǎng)絡通過圖聚類算法,得到的屬于同一類節(jié)點的集合。本領域技術人員基于本申請可以利用通用的圖聚類算法對社會關系網(wǎng)絡進行聚類。例如可以采用參考文獻2Y. Zhang, J. Wang, Y. Wang, and L. Zhou, “Parallel community detection on largenetworks with propinquity dynamics, ” in Proceedings of the 15th ACM SIGKDDinternational conference on Knowledge discovery and data mining. ACM,2009,pp. 997-1006 和參考文獻3M. E. J. Newman and M. Girvan, “Finding and evaluatingcommunity structure in networks,,,Physical review E, vol. 69, no. 2, pp. 26113, 2004
坐寸ο在步驟107中,提取所述結構子類的結構特征信息。其中所述結構特征信息包括結構子類成員個數(shù)、結構子類成員歸屬和結構子類緊密程度中至少之一。其中結構子類成員個數(shù)指的是結構子類中成員的個數(shù)。結構子類成員歸屬指成員是否屬于這個結構子類,通常我們是需要判斷兩個成員是否屬于同一個結構子類。結構子類緊密程度指的是結構子類中成員與本子類成員聯(lián)系緊密程度。這些結構特征信息表征了社會關系網(wǎng)絡中各個節(jié)點之間的社會關聯(lián)程度,可以用于幫助文檔的聚類。當然,本領域技術人員基于本申請也可以選擇其它合適的結構特征信息來表征社會關系網(wǎng)絡中各個節(jié)點之間的社會關聯(lián)程度。
在步驟109中,則基于所述結構特征信息和所述文本特征信息對文檔進行聚類??梢曰谒鼋Y構特征信息和所述文本特征信息計算文檔之間的相似性。在得到了各個文檔之間的相似性后,就可以進一步地基于各個文檔之間的相似度利用聚類算法對各個文檔進行聚類。本領域技術人員可以基于本申請,利用得到的文檔之間的相似性作為輸入,應用本領域常用的聚類算法對各個文檔進行聚類,例如KMeans聚類算法、K-MED0IDS算法、CLARANS算法等。在運用相關聚類算法后,就可以得到更為有效的文檔分類,這比單一的常規(guī)的基于文本特征的聚類方法更好地分析出文檔之間的內在關聯(lián),從而有效提高了文本聚類的精度。圖2、3則示出了本發(fā)明用于文檔聚類的第二具體實施方式
。在此將結合具體的實例對第二具體實施方式
進行說明。在步驟201中,基于文檔的作者關系建立社會關系網(wǎng)絡。其中基于文檔作者的關系,以作者為頂點,以作者之間的交互關系作為邊,構建社會關系網(wǎng)。假設原始數(shù)據(jù)如表I所示。原始數(shù)據(jù)可以作為文檔相關的信息進行保存,并在后續(xù)的進行文檔聚類中利用這些信息。值得注意的是,這里僅僅是以作者及其回復作者作為文檔的相關信息來獲取文檔之間的相互關聯(lián),還可以以其它方面相關信息來獲取文檔之間的相互關聯(lián)。表I
權利要求
1.一種用于文檔聚類的方法,包括 提取文檔的文本特征信息; 基干與文檔相關的信息建立社會關系網(wǎng)絡; 基于所述社會關系網(wǎng)絡進行圖聚類,以獲得結構子類; 提取所述結構子類的結構特征信息;以及 基于所述文本特征信息和所述結構特征信息對文檔進行聚類。
2.一種如權利要求I所述的方法,其中所述基于所述文本特征信息和所述結構特征信息對文檔進行聚類包括 基于所述文本特征信息和所述結構特征信息計算文檔之間的相似度。
3.—種如權利要求2所述的方法,其中所述基于所述文本特征信息和所述結構特征信息對文檔進行聚類還包括 基于各個文檔之間的相似度,利用聚類算法對各個文檔進行聚類。
4.一種如權利要求I所述的方法,其中所述結構特征信息包括結構子類成員個數(shù)、結構子類成員歸屬和結構子類緊密程度中至少之一。
5.一種如權利要求I所述的方法,其中所述社會關系網(wǎng)絡的節(jié)點為文檔的作者,節(jié)點之間的邊為文檔的作者之間的交互關系。
6.一種如權利要求I所述的方法,其中所述社會關系網(wǎng)絡的節(jié)點為文檔,節(jié)點之間的邊為文檔的作者之間的交互關系。
7.—種如權利要求I所述的方法,其中所述文檔相關的信息包括文檔的作者、文檔作者之間的交互關系。
8.—種如權利要求I所述的方法,其中所述結構子類是指基于社會關系網(wǎng)絡通過圖聚類算法,得到的屬于同一類節(jié)點的集合。
9.一種用于文檔聚類的系統(tǒng),包括 文本特征信息提取裝置,被配置為提取文檔的文本特征信息; 社會關系網(wǎng)絡建立裝置,被配置為基于與文檔相關的信息建立社會關系網(wǎng)絡; 圖聚類裝置,被配置為基于所述社會關系網(wǎng)絡進行圖聚類,以獲得結構子類; 結構特征信息提取裝置,被配置為提取所述結構子類的結構特征信息;以及 聚類裝置,被配置為基于所述文本特征信息和所述結構特征信息對文檔進行聚類。
10.一種如權利要求9所述的系統(tǒng),其中所述聚類裝置包括 相似度計算裝置,被配置為基于所述文本特征信息和所述結構特征信息計算文檔之間的相似度。
11.一種如權利要求9所述的系統(tǒng),其中所述聚類裝置還包括 文檔聚類裝置,被配置為基于各個文檔之間的相似度,利用聚類算法對各個文檔進行聚類。
12.—種如權利要求9所述的系統(tǒng),其中所述結構特征信息包括結構子類成員個數(shù)、結構子類成員歸屬和結構子類緊密程度中至少之一。
13.—種如權利要求9所述的系統(tǒng),其中所述社會關系網(wǎng)絡的節(jié)點為文檔的作者,節(jié)點之間的邊為文檔的作者之間的交互關系。
14.一種如權利要求9所述的系統(tǒng),其中所述社會關系網(wǎng)絡的節(jié)點為文檔,節(jié)點之間的邊為文檔的作者之間的交互關系。
15.一種如權利要求9所述的系統(tǒng),其中所述文檔相關的信息包括文檔的作者、文檔作者之間的交互關系。
16.一種如權利要求9所述的系統(tǒng),其中所述結構子類是指基于社會關系網(wǎng)絡通過圖聚類算法,得到的屬于同一類節(jié)點的集合。
全文摘要
本發(fā)明提供一種用于文檔聚類的方法和系統(tǒng)。其中所述方法包括提取文檔的文本特征信息;基于與文檔相關的信息建立社會關系網(wǎng)絡;基于所述社會關系網(wǎng)絡進行圖聚類,以獲得結構子類;提取所述結構子類的結構特征信息;以及基于所述文本特征信息和所述結構特征信息對文檔進行聚類。采用本發(fā)明的用于文檔聚類方法和系統(tǒng)有利于提高文檔聚類的準確度。
文檔編號G06F17/30GK102831116SQ20111016010
公開日2012年12月19日 申請日期2011年6月14日 優(yōu)先權日2011年6月14日
發(fā)明者史巨偉, 薛偉, 楊博, 王文杰 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
灵丘县| 额济纳旗| 武隆县| 正蓝旗| 松原市| 那曲县| 凤台县| 拜城县| 黄石市| 全州县| 镶黄旗| 开封市| 尚志市| 通州市| 富源县| 扎鲁特旗| 河津市| 凤山县| 清流县| 甘泉县| 阳谷县| 射阳县| 库尔勒市| 汤阴县| 夏河县| 博爱县| 阿巴嘎旗| 黄冈市| 雷波县| 长治市| 赞皇县| 阿克陶县| 迁西县| 西乡县| 衡阳市| 喜德县| 纳雍县| 沙坪坝区| 武隆县| 贵港市| 朝阳市|