復(fù)雜網(wǎng)絡(luò)中2-club社團(tuán)的高效挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別是復(fù)雜網(wǎng)絡(luò)中的社團(tuán)挖掘方法,可用于挖掘 復(fù)雜網(wǎng)絡(luò)中的社團(tuán),方便深度分析復(fù)雜網(wǎng)絡(luò)。
【背景技術(shù)】
[0002] 把復(fù)雜系統(tǒng)建模為復(fù)雜網(wǎng)絡(luò)并從中挖掘功能、地位相似的一組對(duì)象作為社團(tuán)是理 解復(fù)雜系統(tǒng)的一種非常重要的方法。復(fù)雜網(wǎng)絡(luò)中的社團(tuán)挖掘方法在過去的十多年里得到了 長足的發(fā)展。
[0003] 當(dāng)前社團(tuán)挖掘算法主要通過檢測(cè)網(wǎng)絡(luò)中的稠密子圖來挖掘社團(tuán),其原理在于,挖 掘社團(tuán)時(shí)同一社團(tuán)中的對(duì)象之間具有功能、地位相似、聯(lián)系緊密的特性,在網(wǎng)絡(luò)中表現(xiàn)為稠 密子圖,因此通過檢測(cè)稠密子圖,可得到具備一定準(zhǔn)確性的結(jié)果。但是,此類挖掘技術(shù)存在 復(fù)雜性高、準(zhǔn)確性低、拓展性差的不足,而且會(huì)遺漏稀疏卻功能顯著的社團(tuán)。例如:
[0004] Newman提出的GN算法依據(jù)邊的介數(shù)中心性迭代地刪去介數(shù)最大的一條邊,并通 過計(jì)算模塊度函數(shù)來評(píng)判當(dāng)前網(wǎng)絡(luò)劃分情況,最終找出模塊度函數(shù)最大時(shí)對(duì)應(yīng)的網(wǎng)絡(luò)劃分 作為社團(tuán)檢測(cè)的結(jié)果。由于邊介數(shù)中心性的計(jì)算復(fù)雜度較高,該方法僅適用于中小規(guī)模的 網(wǎng)絡(luò)。
[0005] Filippo Radicchi等人提出依據(jù)邊的聚集系數(shù)迭代地刪去邊聚集系數(shù)最小的一 條邊,并計(jì)算模塊度函數(shù)來評(píng)判當(dāng)前網(wǎng)絡(luò)劃分情況,最終找出模塊度函數(shù)最大時(shí)對(duì)應(yīng)的網(wǎng) 絡(luò)劃分作為社團(tuán)檢測(cè)的結(jié)果。該方法依賴于模塊度函數(shù),因此不能廣泛適用于各類網(wǎng)絡(luò)。
[0006] Spirin V等人在網(wǎng)絡(luò)中使用隨機(jī)游走的方法提取社團(tuán),把整個(gè)網(wǎng)絡(luò)當(dāng)做一個(gè)狀 態(tài),從當(dāng)前一個(gè)狀態(tài)出發(fā)經(jīng)過迭代最終收斂于稠密的區(qū)域,將收斂的區(qū)域所在的連通分支 作為社團(tuán)檢測(cè)的結(jié)果。該方法的準(zhǔn)確性有待提高。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于提出一種復(fù)雜網(wǎng)絡(luò)中2-club社團(tuán)的高效挖掘方法,以解決上 述已有技術(shù)復(fù)雜性高、準(zhǔn)確性低、拓展性差的不足,提高社團(tuán)檢測(cè)的效率和準(zhǔn)確性,并深度 挖掘網(wǎng)絡(luò)中潛藏的稀疏社團(tuán)。
[0008] 本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
[0009] 一、技術(shù)原理
[0010] 復(fù)雜網(wǎng)絡(luò)中,社團(tuán)是指具有相似功能的對(duì)象集合。2-Club社團(tuán)定義為直徑小于等 于2的社團(tuán),簡稱為二倶樂部社團(tuán)。本發(fā)明將富含相互連接的三元組的區(qū)域建模為二倶樂 部社團(tuán),因此從復(fù)雜網(wǎng)絡(luò)中提取社團(tuán)的任務(wù)就簡化為在網(wǎng)絡(luò)中檢測(cè)二倶樂部社團(tuán)。通過挖 掘二倶樂部社團(tuán),挖掘復(fù)雜網(wǎng)絡(luò)中的社團(tuán)。
[0011] 二、技術(shù)方案
[0012] 根據(jù)上述原理,本發(fā)明的技術(shù)方案包括:
[0013] (1)設(shè)小生境中心性是區(qū)分復(fù)雜網(wǎng)絡(luò)中社團(tuán)內(nèi)、外邊的指標(biāo),設(shè)二步重疊點(diǎn)集是重 疊二倶樂部社團(tuán)的部分節(jié)點(diǎn);
[0014] (2)計(jì)算復(fù)雜網(wǎng)絡(luò)中各邊的小生境中心性:
[0015] 2. 1)定義復(fù)雜網(wǎng)路中由三條順序連接的邊組成的無環(huán)路徑為P4結(jié)構(gòu),設(shè)G = (V,E)為無權(quán)無向網(wǎng)絡(luò),V為節(jié)點(diǎn)集合,E為邊集合;
[0016] 2.2)使用以下三種延伸方法,將無權(quán)無向網(wǎng)絡(luò)中任意邊'參與構(gòu)成的P4結(jié)構(gòu)分為三種類型:
[0017] 從第j個(gè)節(jié)點(diǎn)出發(fā),連續(xù)延伸兩步后與邊形成無環(huán)或含環(huán)路徑,定義其中的 無環(huán)路徑為第一類P4結(jié)構(gòu),其個(gè)數(shù)為其中xne N(j) - {i},N(j) n亡ι
表示第j個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合,\表示第Xn個(gè)節(jié)點(diǎn)的度,?:,表示第一種延伸方法中與 邊產(chǎn)生的含環(huán)路徑的個(gè)數(shù);
[0018] 分別從第i、j個(gè)節(jié)點(diǎn)出發(fā)各延伸一步后與邊可形成無環(huán)或含環(huán)路徑,定義其 中的無環(huán)路徑為第二類匕結(jié)構(gòu),其個(gè)數(shù)為:
,其中,分別表 示第i、j個(gè)節(jié)點(diǎn)的度,表示第二種延伸方法中與邊/產(chǎn)生的含環(huán)路徑的個(gè)數(shù);
[0019] 從第i個(gè)節(jié)點(diǎn)出發(fā)連續(xù)延伸兩步后與邊〗^_/可形成無環(huán)或含環(huán)路徑,定義其中的 無環(huán)路徑為第三類P4結(jié)構(gòu),其個(gè)數(shù)為:
1其中zne N(i)-{j},N(i) 表示第i個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合,&表示第Zn個(gè)節(jié)點(diǎn)的度,表示第三種延伸方法中與 邊/ G /產(chǎn)生的含環(huán)路徑的個(gè)數(shù);
[0020] 2.3)計(jì)算無權(quán)無向網(wǎng)絡(luò)中任意邊參與構(gòu)成的三角形結(jié)構(gòu)個(gè)數(shù)為:
[0021] 2.4)根據(jù)步驟2. 2)和2.3)的結(jié)果,將無權(quán)無向網(wǎng)絡(luò)中任意邊/<->./£/:的小生境 中心性定義為:
[0022] (3)計(jì)算當(dāng)前網(wǎng)絡(luò)中各連通分支的直徑;
[0023] (4)判斷是否存在直徑大于2的連通分支,若存在,則刪除直徑大于2的連通分支 中具有最大小生境中心性的邊,重新計(jì)算該邊影響范圍內(nèi)各邊的小生境中心性,重復(fù)步驟 ⑶;否則,執(zhí)行步驟(5);
[0024] (5)根據(jù)用戶需要,判斷是否需要計(jì)算重疊二倶樂部社團(tuán),若需要,執(zhí)行步驟(6), 否則,執(zhí)行步驟(7);
[0025] (6)計(jì)算各連通分支的二步重疊點(diǎn)集,并將其加入相應(yīng)的連通分支;
[0026] 6. 1)設(shè)無權(quán)無向網(wǎng)絡(luò)的任意連通分支M= (VM,EM),其中VM、EM分別表示連通分支 Μ的節(jié)點(diǎn)和邊集合;
[0027] 6. 2)定義連通分支Μ的鄰域?yàn)椋?其中u表 示復(fù)雜網(wǎng)絡(luò)中的第U個(gè)節(jié)點(diǎn),V表示連通分支Μ中的第V個(gè)節(jié)點(diǎn);
[0028] 6. 3)定義連通分支Μ的二步重疊點(diǎn)集為:
'其 中,y表示連通分支Μ的領(lǐng)域中的第y個(gè)節(jié)點(diǎn),gd(v, y)表示第y個(gè)節(jié)點(diǎn)和第ν個(gè)節(jié)點(diǎn)之間 的最短距離;
[0030] (7)輸出當(dāng)前各連通分支作為無權(quán)無向網(wǎng)絡(luò)G的二倶樂部社團(tuán)。
[0031] 本發(fā)明中具有如下優(yōu)點(diǎn):
[0032] 1)由于本發(fā)明的技術(shù)原理中對(duì)網(wǎng)絡(luò)社團(tuán)的假設(shè)直觀、合理,因此本發(fā)明的方法簡 單、高效、無參數(shù)限制、可拓展性強(qiáng),且可以檢測(cè)稀疏二倶樂部社團(tuán);
[0033] 2)由于本發(fā)明提出的邊小生境中心性融合了復(fù)雜網(wǎng)路中最基本的模式:P4結(jié)構(gòu)和 三角形結(jié)構(gòu),因此小生境中心性具有較強(qiáng)的可移植性;
[0034] 3)本發(fā)明由于使用了二步重疊點(diǎn)集,可實(shí)現(xiàn)對(duì)重疊社團(tuán)的檢測(cè)。
【附圖說明】
[0035] 圖1是本發(fā)明的實(shí)現(xiàn)流程圖;
[0036] 圖2是本發(fā)明中的邊小生境中心性原理圖;
[0037] 圖3是本發(fā)明中的二步重疊點(diǎn)集原理圖;
[0038] 圖4是本發(fā)明在示例網(wǎng)絡(luò)上的仿真圖;
[0039] 具體實(shí)施方法
[0040] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。
[0041] 本發(fā)明將富含相互連接的三元組的區(qū)域建模為二倶樂部社團(tuán),因此從復(fù)雜網(wǎng)絡(luò)中 提取社團(tuán)的任務(wù)就簡化為在網(wǎng)絡(luò)中檢測(cè)二倶樂部社團(tuán)。通過挖掘二倶樂部社團(tuán),挖掘復(fù)雜 網(wǎng)絡(luò)中的功能社團(tuán)。小生境中心性是區(qū)分復(fù)雜網(wǎng)絡(luò)中二倶樂部社團(tuán)內(nèi)、外邊的指標(biāo),二步重 疊點(diǎn)集是重疊二倶樂部社團(tuán)的部分節(jié)點(diǎn)。
[0042] 參照?qǐng)D1,本發(fā)明的實(shí)現(xiàn)步驟如下:
[0043] 步驟1,輸入無權(quán)無向網(wǎng)絡(luò)G = (V,E),其中V表示G中的節(jié)點(diǎn)集合,E表示G中的 邊集合,G中不存在自回路和重復(fù)邊,即不存在連接相同節(jié)點(diǎn)的邊,任意兩個(gè)節(jié)點(diǎn)之間至多 只存在一條邊。
[0044] 步驟2,計(jì)算G中各邊的小生境中心性。
[0045] 無權(quán)無向網(wǎng)絡(luò)G的邊集合E中各邊的小生境中心性涉及各邊所構(gòu)成的P4結(jié)構(gòu)、三 角形結(jié)構(gòu)數(shù)量,其中?4結(jié)構(gòu)可由三種方法延伸產(chǎn)生。
[0046] (2a)定義無權(quán)無向網(wǎng)絡(luò)中由三條順序連接的邊組成的無環(huán)路徑為P4結(jié)構(gòu);
[0047] (2b)使用以下三種延伸方法,將無權(quán)無向網(wǎng)絡(luò)G中任意邊參與構(gòu)成的P4結(jié)構(gòu)分為三種類型,并分別進(jìn)行延伸:
[0048] 參照?qǐng)D2,本步驟的具體實(shí)現(xiàn)如下:
[0049] (2bl)從第j個(gè)節(jié)點(diǎn)出發(fā),連續(xù)延伸兩步后與邊M-> /形成無環(huán)或含環(huán)路徑,定義 其中的無環(huán)路徑為第一類P4結(jié)構(gòu),該第一類P4結(jié)構(gòu)個(gè)數(shù)為:
,其 中Xne N(j)-{i},N(j)表示第j個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合,表示第xn個(gè)節(jié)點(diǎn)的度,<^,:;表 示第一種延伸方法中與邊產(chǎn)生的含環(huán)路徑的個(gè)數(shù);
[0050] 其延伸步驟如下:
[0051] 2bll)從第j個(gè)節(jié)點(diǎn)出發(fā),向N(j)與{i}的差集N(j)_{i}中的任意節(jié)點(diǎn)延伸,其 中U}表示僅包含第i個(gè)節(jié)點(diǎn)的集合;
[0052] 2bl2)設(shè)步驟2bll)所延伸的節(jié)點(diǎn)為qi,如圖2(al)所示;
[0053] 2bl3)從第qi個(gè)節(jié)點(diǎn)出發(fā),向N(q J與{j}的差集中的任意節(jié)點(diǎn)延伸, 其中NQD表示第qi個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合,{j}表示僅包含第j個(gè)節(jié)點(diǎn)的集合;
[0054] 2bl4)設(shè)2bl3)步所延伸的節(jié)點(diǎn)為q2,如圖2 (bl)所示;
[0055] 2bl5)若第i個(gè)節(jié)點(diǎn)與第qi個(gè)節(jié)點(diǎn)不存在連邊,且滿足如下三個(gè)附屬條件:
[0056] 第j個(gè)節(jié)點(diǎn)與第q/h節(jié)點(diǎn)不存在連邊,
[0057] 第i個(gè)節(jié)點(diǎn)與第q/h節(jié)點(diǎn)不存在連邊,
[0058] 第i個(gè)節(jié)點(diǎn)與第q2個(gè)節(jié)點(diǎn)重合,
[0059] 則路徑,〇 % G辦為