定向局部群體發(fā)現(xiàn)方法
【專利說明】定向局部群體發(fā)現(xiàn)方法
[0001 ] 技術鄰域
[0002] 本發(fā)明設及社交網(wǎng)絡技術領域,具體地,設及一種社交網(wǎng)絡中定向局部群體發(fā)現(xiàn) 方法,可用于社交網(wǎng)絡功能分析、結構可視化和各種社交應用輸入。
【背景技術】
[0003] 社交網(wǎng)絡中的群體發(fā)現(xiàn)對理解網(wǎng)絡功能、可視化網(wǎng)絡結構及開發(fā)其他社交應用有 重要作用。從結構上看,群體內(nèi)部連接緊密,群體之間連接稀疏;從屬性上看,群體內(nèi)部在特 定屬性子空間上較均質。
[0004] 經(jīng)對現(xiàn)有技術的文獻檢索發(fā)現(xiàn),大部分群體發(fā)現(xiàn)方法僅考慮網(wǎng)絡拓撲結構信息, 并且只抽取一種固定的群體結構。事實上,由于社交網(wǎng)絡的復雜和巨大性,其通常包含多種 群體結構,并且不同的社交應用的目標不同,需要不同偏向的群體結構,因此需要基于特定 的應用目標和用戶興趣抽取合適的定向局部群體。
[0005] 然而,很難僅基于網(wǎng)絡結構信息就獲得定向群體結構。如今,可W獲得大量社交網(wǎng) 絡的屬性信息,屬性能夠反應和描述應用目標和用戶興趣,因此提供了一種指引定向局部 群體發(fā)現(xiàn)的方法。
[0006] 綜合結構信息和屬性信息的群體發(fā)現(xiàn)方法主要包括屬性全空間法和屬性子空間 法。屬性全空間法使用所有給的屬性聚類節(jié)點集。Xu等人于2012年在國際會議《SIGM0D》上 發(fā)表題為"A model-based approach to attributed 邑raph clustering''的文章,文中采 用一個貝葉斯模型來同時處理結構和所有屬性信息;該模型為每一個可能的群體基于結構 連接和所有屬性分布分配一個概率,將群體發(fā)現(xiàn)問題轉化成一個概率推斷問題,并使用變 分法解決。然而,并不是所有獲得的屬性和某個特定的目標有聯(lián)系,全空間法通常辨別能力 不足,導致發(fā)現(xiàn)不好的群體。另一方面,屬性子空間法基于某個屬性子空間聚類節(jié)點集。 Huang等人于2015年在國際期刊《Information Science》上發(fā)表題為"Dense community detection in multi-valued attributed networks"的文章,文中采用基于單元的子空間 聚類方法,發(fā)現(xiàn)在子空間里具有稠密連接的單元,要求群體滿足子空間興趣口限、覆蓋率和 連通性口限。然而,現(xiàn)有的子空間通常基于非監(jiān)督特征選擇機制選擇,無法針對特定目標選 擇子空間。
【發(fā)明內(nèi)容】
[0007] 針對現(xiàn)有技術中的缺陷,本發(fā)明的目的是提供的定向局部群體發(fā)現(xiàn)方法,包括如 下步驟:
[000引步驟1:建立待分析網(wǎng)絡的鄰接矩陣A和屬性矩陣B;
[0009] 步驟2:用戶提供一個反應定向目標的模范節(jié)點Vp,本發(fā)明基于該節(jié)點推斷其結構 鄰域內(nèi)的屬性重要性權值向量集;
[0010] 步驟3:判斷權值向量集是否為空,若權值向量集非空,則進行步驟4;若權值向量 集為空,則執(zhí)行步驟13;
[0011] 步驟4:從權值向量集中取出一個權值向量終;
[0012] 步驟5:基于所述權值向量0重新加權獲得網(wǎng)絡邊綜合權值;
[0013] 步驟6:在重新加權網(wǎng)絡上提取權值顯著大的邊,并W所述邊構建群體種子集;
[0014] 步驟7:判斷群體種子集是否為空,若群體種子集非空,則執(zhí)行步驟8;若群體種子 集為空,則執(zhí)行步驟12;
[0015] 步驟8:從群體種子集中取出一個群體種子;
[0016] 步驟9:判斷所述群體種子是否屬于已訪問節(jié)點集,若不屬于已訪問節(jié)點集,則執(zhí) 行步驟10;若屬于已訪問節(jié)點集,則返回執(zhí)行步驟7;
[0017] 步驟10:局部擴展所述群體種子直到該種子所代表的群體的加權導率最小,此時 獲得一個定向局部群體,群體的加權導率定義為該群體的加權割與該群體的加權體積之 比;
[0018] 步驟11:將定向局部群體加入所述權值向量口下的定向局部群體集,更新已訪問 節(jié)點集;
[0019] 步驟12:去除所述權值向量下定向局部群體集中不重要的和重復的定向局部群 體,不重要的群體是那些內(nèi)部邊權值之和與網(wǎng)絡所有邊權值之和之比小于一個顯著性口限 的群體,重復的群體是那些和已存在群體集中的群體之間交集的規(guī)模大于一個重復口限的 群體;
[0020] 步驟13:輸出所有定向局部群體集。
[0021] 優(yōu)選地,所述步驟1中的鄰接矩陣A編碼網(wǎng)絡結構信息,矩陣內(nèi)的任一元素 Αυ代表 邊(Vi, vj)的拓撲權值,當值為加寸,表示對應節(jié)點對之間不存在邊,屬性矩陣Β編碼網(wǎng)絡屬性 信息,屬性矩陣B內(nèi)的任一元素 Bip表示第i個節(jié)點的第P個屬性值。
[0022] 優(yōu)選地,所述步驟2包括:基于一個反應定向目標的模范節(jié)點Vp推斷屬性重要性權 值向量集Φ,其中:取=!的,巧* =:堿,滬2,巧i:
[0023]
[0024] 式中:口&表示第k個權值向量,嗎表示某個權值向量中第q個屬性的權值,q表示屬 性索引,t表示屬性個數(shù),SDq表示榜樣節(jié)點集在第q個屬性上的相似度;
[00劇具體地,包括:
[00%]步驟2.1:在網(wǎng)絡中隨機采樣I Pr I個節(jié)點對組成隨機節(jié)點對集,I Pr I表示隨機節(jié)點 對集中節(jié)點對的個數(shù);
[0027] 步驟2.2:計算所有隨機節(jié)點對屬性值之差的平方和RSumq,計算規(guī)范化因子Sq = RSumq/IPr I ;
[0028] 步驟2.3:抽出模范節(jié)點的鄰域網(wǎng)絡,即所有和模范節(jié)點相連的節(jié)點組成的網(wǎng)絡, 在鄰域網(wǎng)絡上劃分出鄰域群體集NCS(Vp);
[0029] 步驟2.4:判斷鄰域群體集是否為空,若不為空則執(zhí)行步驟2.5,否則結束步驟2;
[0030] 步驟2.5:從鄰域群體集中取出一個鄰域群體NCk,判斷鄰域群體內(nèi)部節(jié)點數(shù)量是 否大于CSi,若是則進行2.6,否則返回步驟2.4;
[0031] 步驟2.6:隨機選取所述鄰域群體中CSi個節(jié)點組成榜樣節(jié)點集,榜樣節(jié)點集中所 有任意兩個節(jié)點組成的節(jié)點對組成相似節(jié)點對集;
[0032] 步驟2.7:計算所有相似節(jié)點對屬性值之差的平方和SSumq;
[0033] 步驟2.8:計算榜樣節(jié)點集在第q個屬性上的相似度
[0034] 步驟2.9:計算第q個屬性的重要性權值
[0035] 優(yōu)選地,所述步驟5包括:
[0036] 步驟5.1:計算網(wǎng)絡中每條邊的屬性距離
[0037] 式中:Bi表示第i個節(jié)點的屬性向量,&表示第j個節(jié)點的屬性向量,y叫別如表示對 角線是0的對角矩陣,(Bi-Bj)嗦示第i個節(jié)點屬性向量與第j個節(jié)點屬性向量之差的轉置;
[0038] 步驟:5.2 :計算每條邊的權值,即基于所述權值向量餐重新加權網(wǎng)絡邊權值W = {Wij}:
[0039]
[0040] 式中:V康示節(jié)點i,Vj表示節(jié)點j,( Vi,Vj)表示節(jié)點i和節(jié)點j之間的邊,E表示網(wǎng)絡 邊集,Wij表示邊(Vi,vj)的權值,S邸ij表示邊(Vi,vj)屬性距離,Αν曲表示所有邊平均屬性距 離;Αυ表示邊(vi,vj)結構權值,當值為0表示不存在該邊;AvgA表示所有邊平均結構距離, γ表示控制屬性與結構重要性平衡的平衡參數(shù)。
[0041] 優(yōu)選地,所述步驟6包括:在重新加權網(wǎng)絡上提取權值顯著大的邊構建群體種子集 SeedSetk;
[0042] 具體地,包括:
[0043] 步驟6.1:對所有邊按權值從大到小排序組成排序邊集;
[0044] 步驟6.2:取出排序邊集中前SizeBS條邊組成引導集BS;
[0045] 步驟6.3: W引導集中邊權值的均值和方差為參數(shù),引導一個正態(tài)分布;
[0046] 步驟6.4:取出排序邊集中最前面的一條邊;
[0047] 步驟6.5:判斷所述取出的邊的權值是否符合所述正態(tài)分布,若符合則將邊加入引 導集,W新引導集中邊權值的均值更新正態(tài)分布均值,并返回步驟6.4,若不符合則執(zhí)行步 驟 6.6;
[004引步