專利名稱:一種網(wǎng)絡(luò)中基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機軟件技術(shù)領(lǐng)域,特別是一種網(wǎng)絡(luò)中基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法,通過對網(wǎng)絡(luò)中節(jié)點及鏈接屬性的分析實現(xiàn)對復(fù)雜網(wǎng)絡(luò)中節(jié)點的網(wǎng)絡(luò)社區(qū)劃分。
背景技術(shù):
網(wǎng)絡(luò)結(jié)構(gòu)廣泛存在于自然界和現(xiàn)實生活中,如通訊網(wǎng)絡(luò)、交通網(wǎng)絡(luò)、電力網(wǎng)絡(luò)、航空網(wǎng)絡(luò)、食物鏈網(wǎng)絡(luò)及蛋白質(zhì)交互網(wǎng)絡(luò)等,雖然上述網(wǎng)絡(luò)結(jié)構(gòu)來自于不同領(lǐng)域, 具有不同背景,但具有相似的結(jié)構(gòu)特征,如網(wǎng)絡(luò)的“無尺度特性(Power-Law) ”、“小世界特性(Small-World) ”、“高聚集系數(shù)(High Clustering Coeff icient) ”、“ 自相似性 (Self-Similarity) ”等;同時,網(wǎng)絡(luò)連接結(jié)構(gòu)可能會隨時間而不斷變化,且連接間可能具有不同的權(quán)重或方向?,F(xiàn)實社會中人也不是孤立的,人與人之間的親戚關(guān)系、朋友關(guān)系、上下級關(guān)系、同時關(guān)系等不同的社會交互構(gòu)成了一種重要的社會關(guān)系網(wǎng)絡(luò),簡稱社會網(wǎng)絡(luò)。社會網(wǎng)絡(luò)具有廣泛的應(yīng)用價值,目前已被引入各種領(lǐng)域,如廣告?zhèn)鞑ヅc市場營銷、計算機病毒與犯罪網(wǎng)絡(luò)及IT與通信行業(yè)等。由于社會網(wǎng)絡(luò)中含有眾多個體及個體間的關(guān)聯(lián)信息,具有重要的研究 與分析價值,因而社會網(wǎng)絡(luò)分析成為數(shù)據(jù)挖掘的一個重要分支,如何從復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)中挖掘出潛在的模式和知識成為數(shù)據(jù)挖掘中一個新興的熱點研究領(lǐng)域。
隨著對實際網(wǎng)絡(luò)拓撲結(jié)構(gòu)和物理意義的深入研究,研究人員逐漸發(fā)現(xiàn)除了典型的 “無尺度”、“小世界”及“高聚集系數(shù)”等特征外,現(xiàn)實世界的網(wǎng)絡(luò)還具有“網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)”,即網(wǎng)絡(luò)社區(qū)內(nèi)節(jié)點之間的連接相對非常緊密,但各網(wǎng)絡(luò)社區(qū)之間的連接相對較為稀疏,這些網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)代表了社會網(wǎng)絡(luò)中具有相同興趣或偏好的團體。如何快速有效地發(fā)現(xiàn)網(wǎng)絡(luò)中的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)對于揭示網(wǎng)絡(luò)的局部功能與其自身的拓撲結(jié)構(gòu)之間的相互影響的關(guān)系具有十分重要的推動作用。
對于社會網(wǎng)絡(luò)中網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)的探測,學(xué)術(shù)界已經(jīng)進行了大量的研究。例如,Μ. E. J. Newman 等人 在“Finding and evaluating community structure in networks (Physical Review E, Vol. 69, No. 2, pp. 026113, 2003) ” 中提出了 一種基于層次聚類算法的邊消去算法,算法利用最短路徑求出每條邊的“betweenness”值,然后每次去掉網(wǎng)絡(luò)中“betweenness”值最大的邊,并引入“模塊化度”作為評價網(wǎng)絡(luò)社區(qū)劃分結(jié)果的評價指標;之后 Μ. E. J. Newman 在 “Fast algorithm for detecting community structure in networks (Physical Review E, Vol. 60,No. 6,pp. 066133,2004),,中提出了效率更高的基于每條邊“betweenness”值的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法;Ye, Z.等人在“Adaptive clustering algorithm for community detection in complex networks (Physical Review E, Vol. 78,No. 4,pp. 046115,2008) ”中根據(jù)自適應(yīng)及自組織動力學(xué)特征提出7 一種網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法,能避免節(jié)點誤劃分入不正確網(wǎng)絡(luò)社區(qū)后不能重新加入正確網(wǎng)絡(luò)社區(qū)的情況;Nan Du 等人在 “Overlapping community structure detection in networks (Proceedings of the 17th ACM conference on Information and knowledge managem ent(CIKM’ 08), pp. 1371-1372,2008) ”中提出了一種基于局部算法的重疊網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法;Liu Xu 等人在 “Community detection by neighborhood similarity (CHIN. PHYS. LETT.,Vol. 29,No. 4,pp. 048902,2012),,中;Tore Opsahl 等人在 “Clustering in weightednetworks (Social Networks, Vol. 31, No. 2, pp. 155-163,2009) ” 中對帶權(quán)重的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)進行了探討;Μ. E. J. Newman 在“Analysis of weighted networks (Physical ReviewE, Vol. 70,No. 5,pp. 056131,2004) ”中提出了一種將加權(quán)網(wǎng)絡(luò)轉(zhuǎn)化為不加權(quán)網(wǎng)絡(luò)的映射方法。但我們發(fā)現(xiàn)在已有的研究方法都是利用網(wǎng)絡(luò)的拓撲結(jié)構(gòu)對網(wǎng)絡(luò)中的網(wǎng)絡(luò)社區(qū)進行探索,并沒有綜合利用網(wǎng)絡(luò)中的節(jié)點信息,從而可能會造成網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)劃分的不精確,達不到用戶的理想要求;同時,隨著網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)探測研究的不斷深入,用戶對網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)的需求也趨于多樣化,不同用戶之間對于網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)探測的出發(fā)點或偏好不同,因此,以往只向用戶提供單一劃分結(jié)果的研究方法逐漸不能滿足用戶的需求
發(fā)明內(nèi)容
發(fā)明目的本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種網(wǎng)絡(luò)中基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法。本發(fā)明公開了一種互聯(lián)網(wǎng)基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法,包括以下步驟步驟1,從網(wǎng)絡(luò)中的用戶配制文件和用戶日志文件中抽取用戶對于網(wǎng)絡(luò)社區(qū)劃分的偏好息;步驟2,從網(wǎng)絡(luò)中的用戶配置文件中獲取數(shù)據(jù)集,所述數(shù)據(jù)集包含所有節(jié)點的屬性值及節(jié)點之間的鏈接屬性值;設(shè)定節(jié)點總屬性權(quán)重與鏈接屬性權(quán)重取值集合,節(jié)點總屬性權(quán)重值的取值集合為{O. O, O.1, O. 2,O. 3,O. 4,O. 5,O. 6,O. 7,O. 8,O. 9,1. 0},鏈接屬性權(quán)重值MV£的取值集合為{O. O, O.1, O. 2,O. 3,O. 4,O. 5,O. 6,O. 7,O. 8,O. 9,1. 0};初始狀態(tài)下,
節(jié)點總屬性權(quán)重值wIV為0. 5,鏈接屬性權(quán)重值Wrjr為0. 5 ;根據(jù)節(jié)點屬性數(shù)量,設(shè)定節(jié)點屬性權(quán)重值的集合,每個節(jié)點屬性權(quán)重值為0.1的整數(shù)倍,且所有節(jié)點屬性權(quán)重值之和為1,初始狀態(tài)下,每個節(jié)點屬性權(quán)重值相等;步驟3,以每個節(jié)點為一個網(wǎng)絡(luò)社區(qū),計算不同網(wǎng)絡(luò)社區(qū)間的相似度,并將網(wǎng)絡(luò)社區(qū)對按照相似度生成最大堆,選擇具有最大相似度的節(jié)點對進行合并得到新網(wǎng)絡(luò)社區(qū);計算新網(wǎng)絡(luò)社區(qū)與其它網(wǎng)絡(luò)社區(qū)間的相似度,插入至最大堆,并從最大堆中刪除被合并網(wǎng)絡(luò)社區(qū)的對應(yīng)記錄;步驟4,計算網(wǎng)絡(luò)社區(qū)劃分的模塊度Q值;重復(fù)步驟3直至所有節(jié)點都被合并至同一網(wǎng)絡(luò)社區(qū)中,找出模塊度Q值極值點;步驟5,根據(jù)步驟2中的節(jié)點屬性權(quán)重值的集合,修改節(jié)點屬性權(quán)重值,重復(fù)步驟3 步驟4,直至遍歷所有節(jié)點屬性權(quán)重值;匯總模塊度Q值極值點處的網(wǎng)絡(luò)社區(qū)劃分,并將網(wǎng)絡(luò)社區(qū)劃分方案按照Q值極值大小排列;步驟6,根據(jù)步驟2中的節(jié)點總屬性權(quán)重值的集合與鏈接屬性權(quán)重值的集合修改節(jié)點總屬性權(quán)重值K,.與鏈接屬性權(quán)重值%+;.,重復(fù)步驟3 步驟5,直至遍歷所有節(jié)點總屬性權(quán)重值與鏈接屬性權(quán)重值;匯總所得模塊度Q值極值點處的網(wǎng)絡(luò)社區(qū)劃分,將網(wǎng)絡(luò)社區(qū)劃分方案按照Q值極值大小排列輸出。用戶配制文件、用戶日志文件以及用戶配置文件一般存儲于網(wǎng)絡(luò)服務(wù)器中。
本發(fā)明中,步驟I中,用戶對于網(wǎng)絡(luò)社區(qū)劃分的偏好信息通過選取網(wǎng)絡(luò)的屬性集和屬性間的權(quán)重值進行表征,其中屬性集包括節(jié)點屬性、節(jié)點間的鏈接屬性;所述網(wǎng)絡(luò)的屬性集描述為T={TN,TE},其中T表示所選取屬性集,Tn表示節(jié)點屬性,Te表示鏈接屬性;TN表示為Tn=H1, t2,……,tp},其中\(zhòng)表示所選取的第i個節(jié)點屬性,Te為 Te= {ids, idd, weight},其中,ids與idd表示鏈接的相鄰節(jié)點,weight表示該鏈接的權(quán)重值; Tn中各屬性的權(quán)重值W描述為W=Iw1, W2,…Wi,…wp},其中Wi表示屬性&的權(quán)重值,其中P 為節(jié)點屬性的數(shù)量,I ( i ;初始化時,所有屬性的權(quán)重值相等且所有屬性的權(quán)重值之和為I。
本發(fā)明中,節(jié)點的屬性均為多值屬性,算法初始化時節(jié)點的屬性值可以表示為
權(quán)利要求
1.一種網(wǎng)絡(luò)中基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法,其特征在于,包括以下步驟 步驟1,從網(wǎng)絡(luò)中的用戶配制文件和用戶日志文件中抽取用戶對于網(wǎng)絡(luò)社區(qū)劃分的偏好息; 步驟2,從網(wǎng)絡(luò)中的用戶配置文件中獲取數(shù)據(jù)集,所述數(shù)據(jù)集包含所有節(jié)點的屬性值及節(jié)點之間的鏈接屬性值;設(shè)定節(jié)點總屬性權(quán)重與鏈接屬性權(quán)重取值集合,節(jié)點總屬性權(quán)重值巧,-的取值集合為{0. 0,0.1, 0. 2,0. 3,0. 4,0. 5,0. 6,0. 7,0. 8,0. 9,1. 0},鏈接屬性權(quán)重值wVf 的取值集合為{0. 0,0.1, 0. 2,0. 3,0. 4,0. 5,0. 6,0. 7,0. 8,0. 9,1. 0};初始狀態(tài)下,節(jié)點總屬性權(quán)重值%、'為0. 5,鏈接屬性權(quán)重值⑷^為0. 5 ;根據(jù)節(jié)點屬性數(shù)量,設(shè)定節(jié)點屬性權(quán)重值的集合,每個節(jié)點屬性權(quán)重值為0.1的整數(shù)倍,且所有節(jié)點屬性權(quán)重值之和為1,初始狀態(tài)下,每個節(jié)點屬性權(quán)重值相等; 步驟3,以每個節(jié)點為一個網(wǎng)絡(luò)社區(qū),計算不同網(wǎng)絡(luò)社區(qū)間的相似度,并將網(wǎng)絡(luò)社區(qū)對按照相似度生成最大堆,選擇具有最大相似度的節(jié)點對進行合并,得到新網(wǎng)絡(luò)社區(qū);計算新網(wǎng)絡(luò)社區(qū)與其它網(wǎng)絡(luò)社區(qū)間的相似度,插入至最大堆,并從最大堆中刪除被合并網(wǎng)絡(luò)社區(qū)的對應(yīng)記錄; 步驟4,計算網(wǎng)絡(luò)社區(qū)劃分的模塊度Q值;重復(fù)步驟3直至所有節(jié)點都被合并至同一網(wǎng)絡(luò)社區(qū)中,找出模塊度Q值極值點; 步驟5,根據(jù)步驟2中的節(jié)點屬性權(quán)重值的集合,修改節(jié)點屬性權(quán)重值,重復(fù)步驟3 步驟4,直至遍歷所有節(jié)點屬性權(quán)重值;匯總模塊度Q值極值點處的網(wǎng)絡(luò)社區(qū)劃分,并將網(wǎng)絡(luò)社區(qū)劃分方案按照Q值極值大小排列; 步驟6,根據(jù)步驟2中的節(jié)點總屬性權(quán)重值的集合與鏈接屬性權(quán)重值的集合修改節(jié)點總屬性權(quán)重值wW.與鏈接屬性權(quán)重值力£ ,重復(fù)步驟3 步驟5,直至遍歷所有節(jié)點總屬性權(quán)重值與鏈接屬性權(quán)重值;匯總所得模塊度Q值極值點處的網(wǎng)絡(luò)社區(qū)劃分,將網(wǎng)絡(luò)社區(qū)劃分方案按照Q值極值大小排列輸出。
2.根據(jù)權(quán)利要求1所屬的一種基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法,其特征在于,步驟I中,用戶對于網(wǎng)絡(luò)社區(qū)劃分的偏好信息通過選取網(wǎng)絡(luò)的屬性集和屬性間的權(quán)重值進行表征,其中屬性集包括節(jié)點屬性、節(jié)點間的鏈接屬性;所述網(wǎng)絡(luò)的屬性集描述為T={Tn,Te},其中T表示所選取屬性集,Tn表示節(jié)點屬性,Te表示鏈接屬性;Tn表示為Tn=U1,t2,…t”…,tp},其中1^表示所選取的第i個節(jié)點屬性,TeS Te= {ids, idd, weight},其中,ids與idd表示鏈接的相鄰節(jié)點,weight表示該鏈接的權(quán)重值;Tn中各屬性的權(quán)重值W描述為W= (W1, W2,…Wi,…Wp},其中Wi表示屬性ti的權(quán)重值,其中p為節(jié)點屬性的數(shù)量,I 5 i 5 p ;初始化時,所有屬性的權(quán)重值相等且所有屬性的權(quán)重值之和為I。
3.根據(jù)權(quán)利要求1所述的一種基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法,其特征在于,步驟2中,節(jié)點的屬性為多值屬性,初始化時節(jié)點的屬性值表示為其中,表示第i個節(jié)點的第j個屬性值的集合,其中I < i < m,,m為網(wǎng)絡(luò)中節(jié)點個數(shù),P,每個元素表示一個屬性值,^表示屬性值的總個數(shù);節(jié)點的屬性值f和鏈接的屬性值Di分別表示為
4.根據(jù)權(quán)利要求1所述的一種基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法,其特征在于,步驟3中節(jié)點之間的相似度的采用以下基于全局最大化函數(shù)globalMaxSim( Ti, S,Q)方法計算
5.根據(jù)權(quán)利要求1所述的一種基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法,其特征在于,網(wǎng)絡(luò)社區(qū)劃分的模塊度Q值采用以下公式計算
6.根據(jù)權(quán)利要求1所述的一種基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法,其特征在于,步驟5中,逐次修改節(jié)點屬性權(quán)重值,即是將節(jié)點屬性權(quán)重值的集合中的每個值逐個作為節(jié)點屬性權(quán)重值。
7.根據(jù)權(quán)利要求1所述的一種基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法,其特征在于,步驟6中,將節(jié)點總屬性權(quán)重值《^的集合和鏈接屬性權(quán)重值的集合中的值逐一作為節(jié)點總屬性權(quán)重值%、和鏈接屬性權(quán)重值除去初始狀態(tài)下節(jié)點總屬性權(quán)重值和鏈接屬性權(quán)重值,并匯總所得模塊度Q值極值點處的網(wǎng)絡(luò)社區(qū)劃分,將網(wǎng)絡(luò)社區(qū)劃分方案按照Q值極值大小排列輸出。
全文摘要
本發(fā)明公開了一種網(wǎng)絡(luò)中基于節(jié)點相似度的網(wǎng)絡(luò)社區(qū)劃分方法,包括以下步驟抽取用戶對于網(wǎng)絡(luò)社區(qū)劃分的偏好信息并確定屬性權(quán)重;從網(wǎng)絡(luò)中的用戶配置文件中獲取數(shù)據(jù)集;以每個節(jié)點為一個網(wǎng)絡(luò)社區(qū),計算不同網(wǎng)絡(luò)社區(qū)間的相似度,并將網(wǎng)絡(luò)社區(qū)對按照相似度生成最大堆;選擇具有最大相似度的節(jié)點對進行合并;計算新網(wǎng)絡(luò)社區(qū)與其它網(wǎng)絡(luò)社區(qū)間的相似度,插入至最大堆,并從最大堆中刪除被合并網(wǎng)絡(luò)社區(qū)的相關(guān)記錄;計算新的網(wǎng)絡(luò)社區(qū)劃分的Q值;重復(fù)上述步驟直至所有節(jié)點都被合并至同一網(wǎng)絡(luò)社區(qū)中,并找出Q值極值點及其相應(yīng)劃分;修改各屬性權(quán)重,重復(fù)算法;匯總不同權(quán)重取值時的Q值極值及相應(yīng)網(wǎng)絡(luò)劃分,將其中Q值較高的多個劃分推薦給用戶。
文檔編號G06F17/30GK103020163SQ20121048843
公開日2013年4月3日 申請日期2012年11月26日 優(yōu)先權(quán)日2012年11月26日
發(fā)明者竇萬春, 張紹謙 申請人:南京大學(xué)