適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響最大化算法
【專利摘要】本發(fā)明提供一種適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響最大化算法(COMAX算法),包括如下步驟:1)社團(tuán)發(fā)現(xiàn)階段a構(gòu)建論文合作網(wǎng)絡(luò)圖;b合并局部社團(tuán);c構(gòu)建新的網(wǎng)絡(luò)圖;d結(jié)束;2)種子節(jié)點(diǎn)選取階段a計(jì)算每個(gè)社團(tuán)的影響力;b選擇影響力最大社團(tuán)中對(duì)應(yīng)的節(jié)點(diǎn);c結(jié)束。本發(fā)明的基于社團(tuán)結(jié)構(gòu)的影響最大化算法為論文合作網(wǎng)絡(luò)的影響最大化問(wèn)題提供了新的解決方案,結(jié)果表明,在ICM模型上,我們提出的COMAX算法在影響覆蓋范圍上與貪心算法接近,而且時(shí)間效率非常好。
【專利說(shuō)明】
適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響最大化算法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種論文合作網(wǎng)絡(luò)的影響最大化問(wèn)題求解方法,尤其設(shè)及基于社團(tuán)結(jié) 構(gòu)的影響最大化問(wèn)題求解方法。
【背景技術(shù)】
[0002] 近些年來(lái),在線社交網(wǎng)絡(luò)迅猛發(fā)展,出現(xiàn)了越來(lái)越多的社交網(wǎng)站。運(yùn)些社交網(wǎng)絡(luò)中 的信息傳播,無(wú)論是規(guī)模還是效率都已經(jīng)超越了現(xiàn)實(shí)生活。影響最大化問(wèn)題關(guān)注的是如何 選取固定數(shù)量的種子節(jié)點(diǎn),使得信息傳播的覆蓋范圍最大化。當(dāng)我們需要對(duì)某一學(xué)科或領(lǐng) 域做調(diào)查或深入理解時(shí),我們不會(huì)查看該領(lǐng)域的全部資料,我們會(huì)挑選一部分高影響力的 作者的作品,如何尋找運(yùn)些高影響力的作者就是種子節(jié)點(diǎn)選取的過(guò)程。
[0003] 2003年,Kempe、Kleinberg和!"ardosS人[Maximizing the Spread of Influence through a Social化twork]形式化的定義了影響最大化問(wèn)題,將影響最大化問(wèn)題轉(zhuǎn)為一 個(gè)離散優(yōu)化問(wèn)題,并且證明該問(wèn)題是NP-化rd難度。在線性闊值模型和獨(dú)立級(jí)聯(lián)模型下,他 們給出了貪屯、算法,并且證明了貪屯、算法與最優(yōu)算法的近似比為(l-1/e)。但是貪屯、算法的 時(shí)間復(fù)雜度非常高,它沒(méi)有考慮網(wǎng)絡(luò)的度分度情況,沒(méi)有考慮網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu),每次選取種 子節(jié)點(diǎn)時(shí)都需要重新計(jì)算每個(gè)種子節(jié)點(diǎn)的影響力,時(shí)間效率比較低。
[0004] 2007年,針對(duì)貪屯、算法時(shí)間復(fù)雜度高的問(wèn)題,Leskovec等人[Cost-effective Outbreak Detection in Networks]運(yùn)用影響最大化中的子模特性,提出了 "Lazy 化rward"的優(yōu)化策略,并提出了CELF算法,化EF算法由于運(yùn)用了子模特性,在種子選取階 段,減少了計(jì)算規(guī)模,在一定程度上提高了貪屯、算法的效率,但還不適用于大規(guī)模的社會(huì)網(wǎng) 絡(luò)。
[0005] 2009年,Chen Wei等人[Efficient Influence Maximization in Social Networks]在貪屯、算法的高時(shí)間復(fù)雜度的基礎(chǔ)上,提出了化wGreedy算法和MixGreedy算法。 其中化WGreedy算法是對(duì)原網(wǎng)絡(luò)圖進(jìn)行預(yù)處理,將與傳播過(guò)程無(wú)關(guān)的邊進(jìn)行刪除,最終的問(wèn) 題就變成了求種子節(jié)點(diǎn)集合在新的網(wǎng)絡(luò)圖中的可達(dá)節(jié)點(diǎn)集。MixGreedy算法是化wGreedy算 法與CELF算法的結(jié)合,選取第一個(gè)節(jié)點(diǎn)時(shí)使用化WGreedy算法,計(jì)算出每個(gè)節(jié)點(diǎn)的初始影響 力,之后選取種子節(jié)點(diǎn)時(shí)使用CELF算法。結(jié)果表明,NewGreedy算法與MixGreedy算法的覆蓋 范圍接近貪屯、算法,時(shí)間效率比貪屯、算法高,但也需要多次運(yùn)用蒙特卡羅模擬實(shí)驗(yàn),總體效 率還比較低,不適用于大規(guī)模的社會(huì)網(wǎng)絡(luò)。
[0006] 很多影響最大化算法,未考慮到網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu),但社團(tuán)內(nèi)部的節(jié)點(diǎn)間的聯(lián)系比 社團(tuán)外部聯(lián)系緊密,相應(yīng)的在信息傳播過(guò)程中,節(jié)點(diǎn)激活與其處于同一社團(tuán)內(nèi)部的其他節(jié) 點(diǎn)可能性也比激活社團(tuán)外部節(jié)點(diǎn)可能性更大。我們提出了基于社團(tuán)結(jié)構(gòu)的影響最大化算 法,將整個(gè)網(wǎng)絡(luò)劃分成一個(gè)個(gè)相對(duì)獨(dú)立的社團(tuán),在每個(gè)社團(tuán)內(nèi)部計(jì)算節(jié)點(diǎn)影響力,然后將最 大影響力作為社團(tuán)影響力。選取了種子節(jié)點(diǎn)之后,只需要重新計(jì)算一個(gè)社團(tuán)的影響力值,不 需要全部重新計(jì)算,大大加快了選取種子節(jié)點(diǎn)的效率。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種適用論文合作網(wǎng)絡(luò)的影響最大化問(wèn)題的 種子節(jié)點(diǎn)選取方法。
[0008] 技術(shù)方案:為解決上述問(wèn)題,本發(fā)明的適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響 最大化算法包括如下步驟:
[0009] 1)社團(tuán)發(fā)現(xiàn)階段;
[0010] a構(gòu)建初始論文合作網(wǎng)絡(luò)圖;
[00川 13合并局部社團(tuán);
[0012] C構(gòu)建新的網(wǎng)絡(luò)圖;
[001引 d結(jié)束;
[0014] 2)種子節(jié)點(diǎn)選取階段
[0015] a計(jì)算社團(tuán)影響力;
[0016] b選擇種子節(jié)點(diǎn);
[0017] C 結(jié)束。
[0018] 本發(fā)明中,步驟l)-a中構(gòu)建的網(wǎng)絡(luò)圖中節(jié)點(diǎn)代表作者,網(wǎng)絡(luò)圖中的邊表示作者之 間存在合作關(guān)系,共同發(fā)表過(guò)論文,邊的權(quán)值表示共同發(fā)表過(guò)的論文的數(shù)量。
[0019] 本發(fā)明中,步驟l)-b中合并局部社團(tuán)是指,將每個(gè)節(jié)點(diǎn)都當(dāng)做是一個(gè)局部社團(tuán),每 個(gè)節(jié)點(diǎn)選取與自己相連且合并之后模塊度值增量最大的社團(tuán)合并,其中模塊度值的公式 為:
[0020;
[0021] 其中,nc表示所有社團(tuán)的數(shù)量,inc表示社團(tuán)C內(nèi)部的邊的數(shù)量,tote表示與社團(tuán)C中 節(jié)點(diǎn)相連的所有的邊的數(shù)量。
[0022] 節(jié)點(diǎn)i與社團(tuán)C合并之后模塊度值的增量為:
[0023;
[0024] 其中表示節(jié)點(diǎn)i與社團(tuán)C相連的邊的數(shù)量,合并之后變成了新社團(tuán)的內(nèi)部邊, ki表示節(jié)點(diǎn)i的度數(shù)。
[0025] 本發(fā)明中,步驟l)-c中構(gòu)建新的網(wǎng)絡(luò)圖是指,將步驟l)-b中得到的合并之后的社 團(tuán)里的所有節(jié)點(diǎn)用一個(gè)節(jié)點(diǎn)表示作為新的網(wǎng)絡(luò)圖中的節(jié)點(diǎn),原來(lái)社團(tuán)之間的連邊變成新的 網(wǎng)絡(luò)圖中節(jié)點(diǎn)之間的連邊。
[0026] 本發(fā)明中,步驟2)-a中計(jì)算社團(tuán)影響力是指將社團(tuán)內(nèi)部中,影響力最大節(jié)點(diǎn)的影 響值作為社團(tuán)的影響力,并記錄對(duì)應(yīng)節(jié)點(diǎn)。
[0027] 本發(fā)明中,步驟2)-b中選擇種子節(jié)點(diǎn)是指選取影響力最大社團(tuán)中對(duì)應(yīng)的節(jié)點(diǎn),并 且需要重新計(jì)算對(duì)應(yīng)社團(tuán)的影響力。
[0028] 本發(fā)明的有益效果:本發(fā)明的基于社團(tuán)結(jié)構(gòu)的論文合作網(wǎng)絡(luò)的影響最大化算法為 解決影響最大化問(wèn)題提供了一種新的啟發(fā)式的解決方案,選取的種子節(jié)點(diǎn)的影響傳播范圍 與貪屯、算法接近,而且時(shí)間效率比較高,適用于解決大規(guī)模社會(huì)網(wǎng)絡(luò)的影響最大化問(wèn)題。
【附圖說(shuō)明】
[0029] 圖1為本發(fā)明實(shí)施例的基于社團(tuán)結(jié)構(gòu)的論文合作網(wǎng)絡(luò)的影響最大化方法的流程 圖。
[0030] 圖2為圖1中社團(tuán)發(fā)現(xiàn)階段流程圖。
[0031 ]圖3為圖1中種子階段選取階段的流程圖。
[0032] 圖4為發(fā)明提出的算法(COMAX)與其他方法在化P數(shù)據(jù)集上選取的種子節(jié)點(diǎn)的影響 覆蓋范圍的對(duì)比。
【具體實(shí)施方式】
[0033] 為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉具體實(shí)施例并配合所附圖式說(shuō)明如下。
[0034] 如圖1所示,本方法一共有兩個(gè)階段,社團(tuán)發(fā)現(xiàn)階段和種子節(jié)點(diǎn)選取階段。
[0035] 適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響最大化算法包括如下步驟:
[0036] 1)社團(tuán)發(fā)現(xiàn)階段;
[0037] a構(gòu)建初始論文合作網(wǎng)絡(luò)圖;
[003引b合并局部社團(tuán);
[0039] C構(gòu)建新的網(wǎng)絡(luò)圖;
[0040] d 結(jié)束;
[0041] 2)種子節(jié)點(diǎn)選取階段
[0042] a計(jì)算社團(tuán)影響力;
[0043] b選擇種子節(jié)點(diǎn);
[0044] C 結(jié)束。
[0045] 如圖2所示為社團(tuán)發(fā)現(xiàn)階段的流程圖,分為=大主要部分,構(gòu)建原始網(wǎng)絡(luò)圖、合并 局部社團(tuán)W及構(gòu)建新的網(wǎng)絡(luò)圖。其中合并了局部社團(tuán)之后,需要將同一局部社團(tuán)內(nèi)的所有 節(jié)點(diǎn)抽象成一個(gè)節(jié)點(diǎn),組建新的網(wǎng)絡(luò),再次進(jìn)行合并。當(dāng)模塊度值增量為正時(shí)才進(jìn)行合并。
[0046] 社團(tuán)發(fā)現(xiàn)階段的具體步驟如下:
[0047] 步驟1-0為方法開始;
[0048] 步驟1-1為遍歷論文集,運(yùn)是構(gòu)建網(wǎng)絡(luò)的第一步,需要將所有相關(guān)的論文集的作者 信息記錄下來(lái)。
[0049] 步驟1-2為抽取合作關(guān)系,步驟1-1構(gòu)建好了網(wǎng)絡(luò)的節(jié)點(diǎn),但是節(jié)點(diǎn)之間的邊W及 邊的權(quán)值還未知,作者之間合作過(guò)論文,就在兩者之間構(gòu)建一條邊,最終邊的權(quán)值為兩個(gè)作 者合作過(guò)的論文的總的數(shù)量。
[0050] 步驟1-3為構(gòu)建合作網(wǎng)絡(luò)圖,利用步驟1-1構(gòu)建的節(jié)點(diǎn)W及步驟1-2構(gòu)建的邊,構(gòu)建 一個(gè)無(wú)向加權(quán)圖G(V,E,W) dV表示作者,E表示作者之間的合作關(guān)系,W表示作者之間合作論 文的數(shù)量。
[0051] 步驟1-4為計(jì)算節(jié)點(diǎn)與相連社團(tuán)合并的模塊度值增量,節(jié)點(diǎn)i與社團(tuán)C合并之后的 模塊度值增量為:
[0052]
庚中杉,樹。表示節(jié)點(diǎn)i與社團(tuán)C相連的邊的數(shù)量,合并之后 變成了新社團(tuán)的內(nèi)部邊,ki表示節(jié)點(diǎn)i的度數(shù)。在運(yùn)一步,對(duì)于每個(gè)節(jié)點(diǎn),需要計(jì)算其與所有 相連社團(tuán)合并之后的模塊度值增量,并記錄最大增量值W及對(duì)應(yīng)社團(tuán)。
[0053] 步驟1-5為判斷在所有節(jié)點(diǎn)當(dāng)中,是否存在某個(gè)節(jié)點(diǎn)與相連社團(tuán)合并之后的最大 模塊度值增量大于0,如果不存在,則跳轉(zhuǎn)到步驟1-8,社團(tuán)發(fā)現(xiàn)階段結(jié)束。
[0054] 步驟1-6為合并階段,對(duì)于每個(gè)節(jié)點(diǎn),將其與大于0的最大模塊度值增量的社團(tuán)合 并。
[0055] 步驟1-7為構(gòu)建新的網(wǎng)絡(luò)圖,將步驟1-6中合并之后的處于同一社團(tuán)的所有節(jié)點(diǎn)抽 象為一個(gè)節(jié)點(diǎn),原來(lái)的社團(tuán)之間的邊作為新圖中的節(jié)點(diǎn)之間的邊,運(yùn)樣新的網(wǎng)絡(luò)圖中的節(jié) 點(diǎn)數(shù)量與步驟1-6中合并之后的社團(tuán)數(shù)量一致,每個(gè)節(jié)點(diǎn)代表之前的一個(gè)社團(tuán)。然后再跳轉(zhuǎn) 到步驟1-4。
[0056] 步驟1-8為返回社團(tuán)網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu),社團(tuán)發(fā)現(xiàn)階段至此結(jié)束。
[0057] 如圖3所示為種子節(jié)點(diǎn)選取階段的流程圖,分為兩大主要部分,計(jì)算社團(tuán)影響力W 及選取種子節(jié)點(diǎn)。我們首先需要計(jì)算所有社團(tuán)的影響力,然后選取最大影響力社團(tuán)對(duì)應(yīng)的 節(jié)點(diǎn),之后只需要重新計(jì)算被選中的社團(tuán)的影響力即可,其他社團(tuán)無(wú)需重新計(jì)算。
[005引種子節(jié)點(diǎn)選取階段的具體步驟如下:
[0059] 步驟2-0為方法開始;
[0060] 步驟2-1為計(jì)算社團(tuán)內(nèi)部節(jié)點(diǎn)的影響力。我們使用信息傳播模型是獨(dú)立級(jí)聯(lián)模型, 對(duì)于加權(quán)網(wǎng)絡(luò)圖,節(jié)點(diǎn)V的影響力的期望值為:
[0061]
其中inv為節(jié)點(diǎn)V與社團(tuán)內(nèi)部相連節(jié)點(diǎn)的邊權(quán) 值之和,tv為節(jié)點(diǎn)V的鄰居中已經(jīng)成為種子節(jié)點(diǎn)的邊權(quán)值之和,P為每條邊成功激活的概率。 對(duì)于節(jié)點(diǎn)U和節(jié)點(diǎn)V,它們之間的邊權(quán)值為t,假如U處于激活狀態(tài),則U激活V的概率為I-Q- p)t。
[0062] 步驟2-2為計(jì)算社團(tuán)影響力,社團(tuán)的影響力為社團(tuán)內(nèi)部所有節(jié)點(diǎn)的最大影響力值, 并記錄對(duì)應(yīng)該影響力值的節(jié)點(diǎn)。
[0063] 步驟2-3為選取種子節(jié)點(diǎn),首先定位到影響力最大的社團(tuán),然后選取社團(tuán)對(duì)應(yīng)的節(jié) 點(diǎn),將節(jié)點(diǎn)加入到種子節(jié)點(diǎn)集合當(dāng)中。
[0064] 步驟2-4為判斷種子節(jié)點(diǎn)選取過(guò)程是否結(jié)束,如果選取的種子節(jié)點(diǎn)數(shù)量已經(jīng)達(dá)到K 個(gè),貝峭巧專到步驟2-6,算法結(jié)束。
[0065] 步驟2-5為重新計(jì)算步驟2-3中影響力最大社團(tuán)內(nèi)部所有節(jié)點(diǎn)的影響值,然后計(jì)算 社團(tuán)的影響力,并跳轉(zhuǎn)到步驟2-3。
[0066] 步驟2-6返回選取到的種子節(jié)點(diǎn)集合,至此種子選取完成。
[0067] 圖4中所使用的數(shù)據(jù)集化P是影響最大化問(wèn)題經(jīng)常使用的一個(gè)數(shù)據(jù)集,是高能物理 方向的合作網(wǎng)絡(luò)圖。從圖中可W發(fā)現(xiàn),隨著種子節(jié)點(diǎn)數(shù)量的增加,種子節(jié)點(diǎn)集合的影響覆蓋 范圍都在增大,COMAX算法選取的種子節(jié)點(diǎn)集合的影響覆蓋范圍與加速之后的貪屯、算法 CELF算法非常接近,但時(shí)間效率卻比CELF算法高多個(gè)數(shù)量級(jí)。
[0068] 綜上所述,本發(fā)明的基于社團(tuán)結(jié)構(gòu)的影響最大化算法為論文合作網(wǎng)絡(luò)發(fā)現(xiàn)高影響 力節(jié)點(diǎn)提供了一種新的方法,該方法首先通過(guò)將網(wǎng)絡(luò)劃分成相對(duì)獨(dú)立的社團(tuán)結(jié)構(gòu),然后計(jì) 算社團(tuán)影響力,選取影響力最大的社團(tuán)中的對(duì)應(yīng)節(jié)點(diǎn)加入到種子節(jié)點(diǎn),并重新計(jì)算社團(tuán)影 響力,如此循環(huán)找到K個(gè)種子節(jié)點(diǎn)。
[0069]雖然本發(fā)明已W較佳實(shí)施例掲露如上,然其并非用W限定本發(fā)明。本發(fā)明所屬技 術(shù)領(lǐng)域中具有通常知識(shí)者,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作各種的更動(dòng)與潤(rùn)飾。因 此,本發(fā)明的保護(hù)范圍當(dāng)視權(quán)利要求書所界定者為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響最大化算法,其特征在于,包括如下 步驟: 1) 社團(tuán)發(fā)現(xiàn)階段; a構(gòu)建初始論文合作網(wǎng)絡(luò)圖; b合并局部社團(tuán); c構(gòu)建新的網(wǎng)絡(luò)圖; d結(jié)束; 2) 種子節(jié)點(diǎn)選取階段 a計(jì)算社團(tuán)影響力; b選擇種子節(jié)點(diǎn); c結(jié)束。2. 根據(jù)權(quán)利要求1所述的適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響最大化算法,其特 征在于,其中步驟l)_a中構(gòu)建合作網(wǎng)絡(luò)圖指的是,構(gòu)建的網(wǎng)絡(luò)圖中,節(jié)點(diǎn)表示作者,圖中的 邊表示兩個(gè)作者之間存在合作關(guān)系,共同發(fā)表過(guò)論文,并且邊的權(quán)值表示共同發(fā)表的論文 的數(shù)量,構(gòu)建好的網(wǎng)絡(luò)圖為無(wú)向圖。3. 根據(jù)權(quán)利要求1所述的適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響最大化算法,其特 征在于,其中步驟l)-b中合并局部社團(tuán)是指,將每個(gè)節(jié)點(diǎn)都當(dāng)做是一個(gè)局部社團(tuán),每個(gè)節(jié)點(diǎn) 選取與自己相連且合并之后模塊度值增量最大的社團(tuán)合并,模塊度值的公式如下:其中,nc表示所有社團(tuán)的數(shù)量,in。表示社團(tuán)c內(nèi)部的邊的數(shù)量,tot。表示與社團(tuán)c中節(jié)點(diǎn) 相連的所有的邊的數(shù)量,m表示網(wǎng)絡(luò)中所有的邊的數(shù)量; 節(jié)點(diǎn)i與社團(tuán)c合并之后模塊度值的增量為:其中&,?^表示節(jié)點(diǎn)i與社團(tuán)c相連的邊的數(shù)量,合并之后變成了新社團(tuán)的內(nèi)部邊,ki表 示節(jié)點(diǎn)i的度數(shù)。4. 根據(jù)權(quán)利要求1所述的適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響最大化算法,其特 征在于,其中步驟l)-c中構(gòu)建新的網(wǎng)絡(luò)圖是指,將步驟l)-b中得到的合并之后的社團(tuán)里的 所有節(jié)點(diǎn)用一個(gè)節(jié)點(diǎn)表示作為新的網(wǎng)絡(luò)圖中的節(jié)點(diǎn),原來(lái)社團(tuán)之間的連邊變成新的網(wǎng)絡(luò)圖 中節(jié)點(diǎn)之間的連邊。5. 根據(jù)權(quán)利要求1所述的適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響最大化算法,其特 征在于,其中步驟2)-a中計(jì)算社團(tuán)影響力是指將社團(tuán)內(nèi)部中,影響力最大節(jié)點(diǎn)的影響值作 為社團(tuán)的影響力,并記錄對(duì)應(yīng)節(jié)點(diǎn)。6. 根據(jù)權(quán)利要求1所述的適用論文合作網(wǎng)絡(luò)的基于社團(tuán)結(jié)構(gòu)的影響最大化算法,其特 征在于,其中步驟2)-b中選擇種子節(jié)點(diǎn)是指選取影響力最大社團(tuán)中對(duì)應(yīng)的節(jié)點(diǎn),并且需要 重新計(jì)算對(duì)應(yīng)社團(tuán)的影響力。
【文檔編號(hào)】G06Q50/00GK106022936SQ201610353585
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月25日
【發(fā)明人】吳駿, 陳厚兵, 張梓雄, 王曉彤, 吳和生, 王崇駿
【申請(qǐng)人】南京大學(xué)