基于兩階段啟發(fā)的社交網(wǎng)絡(luò)影響最大化問題求解方法
【專利摘要】本發(fā)明公開了基于兩階段啟發(fā)的社交網(wǎng)絡(luò)影響最大化問題求解方法,屬于社交網(wǎng)絡(luò)分析領(lǐng)域。該方法的處理過程如下:利用線性閾值模型的累積特性,將整個影響最大化算法過程分成兩個階段:(1)度折啟發(fā)階段。使用度折策略選取度數(shù)最大的種子節(jié)點(diǎn),然后利用種子結(jié)點(diǎn)在整個網(wǎng)絡(luò)中進(jìn)行節(jié)點(diǎn)激活并將節(jié)點(diǎn)的影響力積累下來;(2)影響力啟發(fā)階段。選取影響力最大的節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn),然后利用目標(biāo)節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)的激活。為了加快算法的求解速度,本發(fā)明在影響力啟發(fā)階段設(shè)計(jì)了一種近似估計(jì)節(jié)點(diǎn)影響力的計(jì)算方法。本發(fā)明能有效、快速的發(fā)掘出社交網(wǎng)絡(luò)中的初始種子節(jié)點(diǎn),有效的解決社交網(wǎng)絡(luò)中的影響最大化問題,可用于市場營銷,輿情監(jiān)控和廣告投放等領(lǐng)域。
【專利說明】
基于兩階段啟發(fā)的社交網(wǎng)絡(luò)影響最大化問題求解方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及社交網(wǎng)路分析領(lǐng)域,特別是基于兩階段啟發(fā)的社交網(wǎng)絡(luò)影響最大化問 題求解方法。
【背景技術(shù)】
[0002] 社交網(wǎng)絡(luò)是由網(wǎng)絡(luò)中的個體組成的社會關(guān)系網(wǎng),這個個體可以是個人、組織或用 戶名等任何在網(wǎng)絡(luò)中出現(xiàn)的可以區(qū)別他人的識別碼。近年來,各種大規(guī)模在線社交網(wǎng)絡(luò)的 興起,產(chǎn)生了海量的網(wǎng)絡(luò)數(shù)據(jù),這些數(shù)據(jù)使得在全球范圍內(nèi)研究人類社會中出現(xiàn)的各種現(xiàn) 象成為了可能。為了更好的挖掘社交網(wǎng)絡(luò)中隱藏的信息,研究人員開展了各種各樣的社交 網(wǎng)絡(luò)分析。后來,人們發(fā)現(xiàn)社交網(wǎng)絡(luò)中的個人或組織的愛好和行為往往會影響其周邊的個 人或組織,這為在社交網(wǎng)絡(luò)上進(jìn)行"病毒式營銷"提供了契機(jī)。在社交網(wǎng)絡(luò)上進(jìn)行病毒式營 銷,其中的關(guān)鍵問題是:如何以較小的代價尋找個營銷節(jié)點(diǎn)組成的集合,最終使得對整個網(wǎng) 絡(luò)產(chǎn)生的影響達(dá)到最大,也叫影響最大化問題。影響最大化問題雖然起源于市場營銷,但其 在輿情監(jiān)控、病毒傳播、廣告投放和選舉等領(lǐng)域都得到了廣泛應(yīng)用。例如,在輿情監(jiān)控領(lǐng)域 中,我們只需找到散播謠言的源頭加以控制,就能有效的控制流言擴(kuò)散。
[0003] 影響最大化問題自從被Domingos和Richardson等提出以來,就一直是研究人員的 關(guān)注的熱點(diǎn),并取得了大量的研究成果,這些成果主要集中于一些貪心算法和啟發(fā)式算法。 其中,啟發(fā)式算法的效率優(yōu)于貪心算法,但現(xiàn)有的啟發(fā)式算法大都專注于單個啟發(fā)因素,如 度、介數(shù)等,沒有考慮網(wǎng)絡(luò)的整體結(jié)構(gòu),使得算法的精度較低且適應(yīng)性差。
【發(fā)明內(nèi)容】
[0004] 1.發(fā)明目的:
[0005] 為了克服上述已有算法的不足,本發(fā)明提出一種基于兩階段啟發(fā)的社交網(wǎng)絡(luò)影響 最大化問題求解方法,在保證算法效率的前提下提高種子節(jié)點(diǎn)的影響范圍。
[0006] 2.技術(shù)方案:
[0007] 基于兩階段啟發(fā)的社交網(wǎng)絡(luò)影響最大化問題求解方法,其求解步驟如下:
[0008] 第一步,輸入網(wǎng)絡(luò)數(shù)據(jù),計(jì)算各節(jié)點(diǎn)的"度數(shù)",該度數(shù)需要經(jīng)過一定的折扣計(jì)算, 并對節(jié)點(diǎn)按照"度數(shù)"遞減排列;
[0009] 第二步,選取"度數(shù)"排在前1^的節(jié)點(diǎn)作為種子節(jié)點(diǎn)加入種子節(jié)點(diǎn)集S,然后利用S 根據(jù)線性閾值模型的傳播過程對未激活節(jié)點(diǎn)進(jìn)行激活,最后將激活的節(jié)點(diǎn)加入激活節(jié)點(diǎn)集 A中;
[0010]第三步,更新各未激活節(jié)點(diǎn)所受影響力;
[0011] 第四步,計(jì)算各節(jié)點(diǎn)產(chǎn)生的影響力,并對節(jié)點(diǎn)按照影響力的大小遞減排列;
[0012] 第五步,清空種子節(jié)點(diǎn)集S,選取影響力排在前k2的節(jié)點(diǎn)作為種子節(jié)點(diǎn)加入種子節(jié) 點(diǎn)集S,然后利用S根據(jù)線性閾值模型的傳播過程對未激活節(jié)點(diǎn)進(jìn)行激活,最后將激活的節(jié) 點(diǎn)加入激活節(jié)點(diǎn)集A中。
[0013]在上述的第四步中的節(jié)點(diǎn)v的影響力的計(jì)算方法描述如下:
[0014]節(jié)點(diǎn)的影響力是指節(jié)點(diǎn)對同一網(wǎng)絡(luò)中的所有其它節(jié)點(diǎn)產(chǎn)生的影響的量值。由于節(jié) 點(diǎn)間的影響力隨著距離而減弱,所以節(jié)點(diǎn)v只會在一定的范圍內(nèi)產(chǎn)生影響。本文將節(jié)點(diǎn)v的 直接鄰居(出邊鄰居)與V的距離定義為1,^與直接鄰居的鄰居的距離為2,以此類推定義節(jié) 點(diǎn)間的距離D,節(jié)點(diǎn)v和節(jié)點(diǎn)w間的距離用D v,w(或Dv,w)表示。
[00? 5]節(jié)點(diǎn)¥對單個節(jié)點(diǎn)的影響力用inf lu(v)表示,節(jié)點(diǎn)v對自身的不產(chǎn)生影響,節(jié)點(diǎn)v對 直接鄰居節(jié)點(diǎn)的影響力定義為influi(v),節(jié)點(diǎn)v對與其距離為D的節(jié)點(diǎn)的影響力為influD (v),其計(jì)算公式如(1)所示:
[0017]
表示節(jié)點(diǎn)u和w之間的影響力,uGHd-ι(ν)門N(w),wGHd(v),u, w運(yùn)4 (£/3為節(jié)點(diǎn)w的入度,Hd (V)為與V距離為D的節(jié)點(diǎn)組成的集合,A為激活節(jié)點(diǎn)組成的集 合
表示度折啟發(fā)階段積累的影響力,seN(w)且seA;D的取值范圍為 Ld,其中Ld為節(jié)點(diǎn)間的最大影響距離。
[0018]節(jié)點(diǎn)v對與其距離為D的所有節(jié)點(diǎn)的影響力之和為InfluD(v),其計(jì)算公式如(2)所 示:
[0019] Inf 1ud(v) = Σ inf 1ud(v) (5)
[0020] 節(jié)點(diǎn)v在整個網(wǎng)絡(luò)的影響力Slnflu(v)的近似計(jì)算公式如(3)所示:
[0022]在本發(fā)明中節(jié)點(diǎn)v的最大影響距離Ld定義為2。
[0023]該計(jì)算方法具體步驟如下:
[0024] (1)計(jì)算節(jié)點(diǎn)v對直接鄰居(出邊鄰居)的影響力inf 1 ui (v),并將v對直接鄰居的影 響力進(jìn)行求和計(jì)算得v對所有直接鄰居的影響力Influi(v);
[0025] (2)計(jì)算節(jié)點(diǎn)v對直接鄰居的鄰居(出邊鄰居)的影響力influ2(v),并將v對直接鄰 居的鄰居的影響力進(jìn)行求和計(jì)算得v對所有直接鄰居的鄰居的影響力Influ2(v);
[0026] (3)將步驟(1)中的Influi(v)與步驟(2)中的Influi(v)進(jìn)行求和計(jì)算得節(jié)點(diǎn)v在整 個網(wǎng)絡(luò)中的影響力Slnflu(v)。
[0027] 本發(fā)明的偽代碼如下所示:
[0028]輸入:圖6(¥3),0,種子節(jié)點(diǎn)個數(shù)1^,啟發(fā)因子<1 [0029]輸出:激活節(jié)點(diǎn)集A
[0032]其中,S表示種子節(jié)點(diǎn)集,tv表示節(jié)點(diǎn)v的狀態(tài)為激活的鄰居個數(shù),函數(shù)bCC(v)用來 計(jì)算節(jié)點(diǎn)v的出度。
[0033]在本發(fā)明偽代碼中,第2至5行計(jì)算各節(jié)點(diǎn)的出度并保存。第6至20行為算法的第一 階段:啟發(fā)階段,其中,第6至19行對節(jié)點(diǎn)進(jìn)行度折計(jì)算,并找到1^個種子節(jié)點(diǎn),并將種子節(jié) 點(diǎn)加入激活節(jié)點(diǎn)集A中;第20行的Active(S)函數(shù)用來將種子節(jié)點(diǎn)集在線性閾值模型下進(jìn)行 節(jié)點(diǎn)激活,激活節(jié)點(diǎn)(受到的影響力大于或等于節(jié)點(diǎn)的閾值Θ)加入A中。第21行利用A更新未 激活節(jié)點(diǎn)受到的影響力,將啟發(fā)階段中激活失敗時產(chǎn)生的影響力累積起來。第23至31行為 算法的影響力啟發(fā)階段,其中,第23至25行運(yùn)用CI(v)函數(shù)進(jìn)行未激活節(jié)點(diǎn)的影響力計(jì)算, 其具體計(jì)算方法本文將在下一部分中詳細(xì)介紹;第26至30行選取影響力最大的1?個節(jié)點(diǎn)加 入種子集,并將種子節(jié)點(diǎn)加入激活節(jié)點(diǎn)集A中。第31行利用種子節(jié)點(diǎn)去激活其它未激活的節(jié) 點(diǎn),并將狀態(tài)為激活的節(jié)點(diǎn)加入A中。
[0034] 3.有益效果:
[0035]本發(fā)明具有以下優(yōu)點(diǎn):
[0036] (a)傳統(tǒng)的啟發(fā)式算法,大都只關(guān)注單個啟發(fā)因素,如度、介數(shù)和最短路徑等。但這 些啟發(fā)因素只考慮了局部最優(yōu)的情況,沒有考慮網(wǎng)絡(luò)的整體結(jié)構(gòu),從而使得算法的影響范 圍不佳且適應(yīng)性不好。而本發(fā)明利用線性閾值模型的累積特性將基于局部最優(yōu)的度折啟發(fā) 策略和基于全局的影響力啟發(fā)策略相結(jié)合,這使得本發(fā)明最終獲得的影響范圍高于經(jīng)典的 度折啟發(fā)。
[0037] (b)節(jié)點(diǎn)的影響力是基于全局的,計(jì)算復(fù)雜度高,因此本發(fā)明在影響力啟發(fā)階段中 提供了一種快速的算方法來近似計(jì)算節(jié)點(diǎn)的影響力,這使得本發(fā)明在運(yùn)行效率上也優(yōu)于經(jīng) 典的度折啟發(fā)。
【附圖說明】
[0038] 圖1為節(jié)點(diǎn)間存在多條路徑的例圖
[0039] 圖2為節(jié)點(diǎn)間存在回路的例圖
[0040] 圖3為一個小型網(wǎng)絡(luò) [0041]圖4為本發(fā)明的流程圖
[0042] 圖5為在Wikipedia網(wǎng)絡(luò)中對比算法的表現(xiàn) [0043]圖6為在HepTh網(wǎng)絡(luò)中對比算法的表現(xiàn) [0044] 圖7為在As troPh網(wǎng)絡(luò)中對比算法的表現(xiàn)
[0045] 圖8為對比算法在三個網(wǎng)絡(luò)中的運(yùn)行時間
【具體實(shí)施方式】
[0046] 下面結(jié)合實(shí)施實(shí)例和附圖對本發(fā)明作進(jìn)一步說明。
[0047]本方法所涉及的相關(guān)知識如下:
[0048] 影響最大化算法就是在某種特定傳播模型下,尋找一個k個節(jié)點(diǎn)組成的節(jié)點(diǎn)集,最 終使得這個集合在整個網(wǎng)絡(luò)中產(chǎn)生的影響達(dá)到最大。
[0049] 本發(fā)明所涉及的傳播模型是線性閾值模型,介紹如下:
[0050] 線性閾值模型和獨(dú)立級聯(lián)模型是影響最大化問題中的兩種基礎(chǔ)模型,其中線性閾 值模型具有將影響力累積的特性,這也是本文明能夠?qū)⒂绊懽畲蠡惴ǚ譃閮蓚€過程的前 提。在線性閾值模型中,每個節(jié)點(diǎn)只存在兩種狀態(tài):激活和未激活,且每個節(jié)點(diǎn)只能被激活 一次。任意節(jié)點(diǎn)v都會隨機(jī)分配一個特異性閾值θ ν,θν表示0皮激活的難易程度,其值一般在 [0,1]之間隨機(jī)選取。但在現(xiàn)實(shí)網(wǎng)絡(luò)中,每個節(jié)點(diǎn)的閾值很難度量(為了方便算法對比,一般 將其設(shè)為常量,如1/2)。節(jié)點(diǎn)ν對鄰居w的影響力用
表示,在本文中將
的值定義 為節(jié)點(diǎn)入度的倒數(shù),
為節(jié)點(diǎn)W的入度)。一般來說,節(jié)點(diǎn)V的鄰居W對V的影
°給定初始激活集合2 = 0,其傳播過程如下:在每個離散步驟Τ中,步驟 Τ以前處于激活狀態(tài)的節(jié)點(diǎn)在步驟Τ中仍屬于是激活的。只有當(dāng)ν的處于激活狀態(tài)的鄰居節(jié) 點(diǎn)對V的影響力之和大于等于θν時ν才能被激活,否則,ν在步驟Τ中不被激活,這時激活節(jié)點(diǎn) 對ν的影響力將會被累積下來,等待下一步驟中處于激活狀態(tài)的鄰居去激活。整個過程一直 持續(xù)到到不再有節(jié)點(diǎn)被激活才結(jié)束。
[0051 ]本發(fā)明中計(jì)算節(jié)點(diǎn)ν在整個網(wǎng)絡(luò)中的影響力所涉及的知識:
[0052]在實(shí)際網(wǎng)絡(luò)中,會出現(xiàn)圖1中所示的兩節(jié)點(diǎn)間存在多條路徑和圖2中所示的節(jié)點(diǎn)間 形成回路的現(xiàn)象。在圖1中,節(jié)點(diǎn)m與U3之間的距離Aa可以是1,也可以是2。但這并不影響 節(jié)點(diǎn)影響力的計(jì)算,因?yàn)檫@只是直接影響和間接影響的體現(xiàn),并不會出現(xiàn)同一節(jié)點(diǎn)對鄰居 的影響力被重復(fù)計(jì)算。在圖2中由于回路的存在,節(jié)點(diǎn)11 5對114的影響力會被重復(fù)計(jì)算。在DIH 算法中節(jié)點(diǎn)間能夠相互影響的最大距離Ld定義為2,一旦超過這個距離節(jié)點(diǎn)間的影響就不 存在,所以在DIH算法的節(jié)點(diǎn)影響力計(jì)算過程中,不會產(chǎn)生節(jié)點(diǎn)產(chǎn)生的影響力被重復(fù)計(jì)算的 情況(要形成如圖2中的類似回路,兩節(jié)點(diǎn)間的距離一定會超過2)。
[0053]為了更好的理解本發(fā)明提出的節(jié)點(diǎn)影響力計(jì)算方法,我們以圖3的網(wǎng)絡(luò)來演示節(jié) 點(diǎn)影響力的計(jì)算過程。其中,矩形代表激活節(jié)點(diǎn),橢圓為未激活。在本例中,我們將每個節(jié)點(diǎn) 的閾值定義為θ = 0.5,節(jié)點(diǎn)受到鄰居的影響力為節(jié)點(diǎn)入度的倒數(shù)。從圖中可看出,節(jié)點(diǎn)^處 于激活狀態(tài)(假設(shè)V7為啟發(fā)階段被激活的節(jié)點(diǎn),激活節(jié)點(diǎn)不能再被激活),其它節(jié)點(diǎn)都處于 未激活狀態(tài)。在這里我們以計(jì)算節(jié)點(diǎn)^的影響力為例來闡述。
[0054] 節(jié)點(diǎn)vi對它的直接鄰居節(jié)點(diǎn)即與其距離為D=1的節(jié)點(diǎn)V2和V3產(chǎn)生的影響力分別為
所以節(jié)點(diǎn)VI對V6不產(chǎn)生影響。節(jié)點(diǎn)V7處于激活狀態(tài),因?yàn)榧せ罟?jié)點(diǎn)只能被激活一次,所以節(jié) 點(diǎn)VI對V7的影響力不能被計(jì)算在內(nèi)。節(jié)點(diǎn)VI至V8之間沒有路徑,所以節(jié)點(diǎn)VI對V8不產(chǎn)生影響。
[0055] 綜上,節(jié)點(diǎn)vi在該小型網(wǎng)絡(luò)圖中的影響力
[0056] 基于兩階段啟發(fā)的社交網(wǎng)絡(luò)影響最大化問題求解方法,流程圖如圖4所示,具體實(shí) 施步驟如下:
[0057]步驟1:輸入網(wǎng)絡(luò)G (V,E),其中V表示邊的集合,E表示節(jié)點(diǎn)的集合。種子節(jié)點(diǎn)個數(shù)k, 影響因子α
[0058] 步驟2:確定度折啟發(fā)階段的種子節(jié)點(diǎn)個數(shù)知初始化種子節(jié)點(diǎn)集S = 0,初 始化激活節(jié)點(diǎn)集J = 0 〇
[0059] 步驟3:遍歷整個網(wǎng)絡(luò)計(jì)算各個節(jié)點(diǎn)的出度d°ut,節(jié)點(diǎn)的度數(shù)dd =節(jié)點(diǎn)的出度d°ut, 對節(jié)點(diǎn)按照度數(shù)進(jìn)行降序排列。
[0060] 步驟4:選取度數(shù)排在前匕的節(jié)點(diǎn)作為度折啟發(fā)的種子節(jié)點(diǎn)
[00611 (4a)將度數(shù)最大的節(jié)點(diǎn)加入種子節(jié)點(diǎn)集S;
[0062] (4b)遍歷整個網(wǎng)絡(luò)(種子節(jié)點(diǎn)除外),用tv來存儲節(jié)點(diǎn)v的鄰居存在的存在種子節(jié) 點(diǎn)個數(shù);
[0063] (4c)對節(jié)點(diǎn)v的度數(shù)ddv,依據(jù)公式也=('-夂進(jìn)行折扣計(jì)算, 直至網(wǎng)絡(luò)中每個節(jié)點(diǎn)的度數(shù)都被更新,種子節(jié)點(diǎn)的度數(shù)重置為0;
[0064] (4d)重復(fù)(4a)至(4c)的過程,直至lu個種子節(jié)點(diǎn)被選取。
[0065] 步驟5:遍歷種子節(jié)點(diǎn)集S,基于線性閾值模型,對未激活節(jié)點(diǎn)進(jìn)行激活并將種子節(jié) 點(diǎn)和激活的節(jié)點(diǎn)加入激活節(jié)點(diǎn)集。
[0066] 步驟6:將步驟5中激活過程中產(chǎn)生的影響力保存下來,激活的節(jié)點(diǎn)受到的影響力 重置為0。
[0067] 步驟7:確定影響力啟發(fā)的種子節(jié)點(diǎn)個數(shù)夂,初始化種子節(jié)點(diǎn)集5* = 0。
[0068] 步驟8:遍歷整個網(wǎng)絡(luò)(激活的節(jié)點(diǎn)除外),利用本發(fā)明提出的節(jié)點(diǎn)影響力計(jì)算方法 計(jì)算節(jié)點(diǎn)的影響力,對節(jié)點(diǎn)按照影響力的大小進(jìn)行降序排序。
[0069]步驟9:選取影響力排前k2的節(jié)點(diǎn)加入種子節(jié)點(diǎn)集S
[0070]步驟10:遍歷種子節(jié)點(diǎn)集S,基于線性閾值模型,對未對未激活節(jié)點(diǎn)進(jìn)行激活并將 種子節(jié)點(diǎn)和激活的節(jié)點(diǎn)加入激活節(jié)點(diǎn)集。
[0071 ]本發(fā)明效果可以通過以下仿真實(shí)驗(yàn)進(jìn)一步說明:
[0072] 1.仿真實(shí)驗(yàn)條件
[0073] 本實(shí)例在主頻為3.70GHZ的Intel Xeon E5-1620v2CPU、運(yùn)行內(nèi)存為16GB的計(jì)算機(jī) 下,Matlab R2014a運(yùn)行平臺上,完成本發(fā)明與經(jīng)典的度折啟發(fā)(DegreeDiscount)算法和 Random算法(作為基準(zhǔn)比較,以防數(shù)據(jù)的偶然性)的實(shí)驗(yàn)。
[0074] 2.參數(shù)設(shè)置
[0075]為了驗(yàn)證實(shí)驗(yàn)的有效性,本文選取了三個真實(shí)的網(wǎng)絡(luò)數(shù)據(jù)集進(jìn)行仿真。數(shù)據(jù)集1是 來自Wikipedia的投票歷史網(wǎng)絡(luò),該網(wǎng)絡(luò)共有7115個節(jié)點(diǎn),103689條邊;數(shù)據(jù)集2來自HepTh 的高能物理理論合作者網(wǎng)絡(luò),該網(wǎng)絡(luò)共有9877個節(jié)點(diǎn),25998條邊;數(shù)據(jù)集3是來自AstroPh 的合作者網(wǎng)絡(luò),該網(wǎng)絡(luò)共有18872個節(jié)點(diǎn),396160條邊。本發(fā)明對于影響因子α的取值有一定 的依賴性,不同的α取值會產(chǎn)生不同的結(jié)果。因此本發(fā)明需要在在不同α值時的表現(xiàn)進(jìn)行分 析對比,但a e [0,1 ]不可能列舉所有的α進(jìn)行對比,所以本發(fā)明對a e{〇.l,0.4,0.5,0.6, 0.9}時的表現(xiàn)進(jìn)行對比分析。
[0076] 在線性閾值模型中節(jié)點(diǎn)的閾值Θ是一個在[0,1]之間的隨機(jī)數(shù),為了方便對比, Kempe等提出了 一個經(jīng)典閾值Θ = 〇. 5,因此本發(fā)明中的算法都是在節(jié)點(diǎn)閾值Θ = 0.5的情況 下進(jìn)行的。節(jié)點(diǎn)v和節(jié)點(diǎn)w之間的影響力
[0077] 在本實(shí)驗(yàn)中,各算法將以種子節(jié)點(diǎn)k e {10,20,30,40,50,60,70,80,90,100}時的 表現(xiàn)進(jìn)行對比分析。
[0078] 3.實(shí)驗(yàn)結(jié)果
[0079]在圖5至圖7中我們給出了在線性閾值模型中本發(fā)明提出的方法在選取不同α值與 DegreeDi scount算法和Random算法在三個真實(shí)網(wǎng)絡(luò)數(shù)據(jù)中面對不同ME的運(yùn)行效果對比。 從圖中可以明顯看出,在Wikipedia的投票網(wǎng)絡(luò)中本發(fā)明的最優(yōu)影響因子是α = 〇. 5,在 HepTh的合作者網(wǎng)絡(luò)中本發(fā)明的最優(yōu)啟發(fā)因子是α = 〇.1,在AstroPh合作者網(wǎng)絡(luò)中DIH算法 的最優(yōu)影響因子是α = 0.1。在這三個網(wǎng)絡(luò)中本發(fā)明在選取不同α值時表現(xiàn)不同,在與 DegreeDiscount算法的比較中,除了在α = 0.9只是略優(yōu)外,在其它α值的情況下本發(fā)明都有 明顯的優(yōu)勢。在三個網(wǎng)絡(luò)中本發(fā)明最優(yōu)的影響效果相較于DegreeDiscount算法都有著明顯 的提高,其中,在Wikipedia網(wǎng)絡(luò)中提高了近5倍,在HepTh網(wǎng)絡(luò)中提高了 52.8 %,在AstroPh 網(wǎng)絡(luò)中提高了 2.3倍。
[0080] 在圖8中我們給出了本發(fā)明選取不同a、DegreeDiscount算法和Random算法在三個 網(wǎng)絡(luò)中的運(yùn)行時間。從圖中可明顯看出,各對比算法的運(yùn)行時間在同一數(shù)量級,其中Random 算法運(yùn)行效率最快,本發(fā)明的運(yùn)行效率次之,DegreeDiscount算法最差,且本發(fā)明隨著數(shù)據(jù) 規(guī)模的增長其漲幅略低于DegreeDiscount算法。
[0081] 綜上所述,本發(fā)明與現(xiàn)有經(jīng)典的度折啟發(fā)算法相比不僅在影響范圍上有了較大的 提升,而且在運(yùn)行效率上也有優(yōu)勢。
[0082] 以上所述實(shí)施例僅表達(dá)了本發(fā)明的優(yōu)選實(shí)施方式,其描述較為具體和詳細(xì),但并 不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員 來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形、改進(jìn)及替代,這些都屬于本發(fā) 明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 基于兩階段啟發(fā)的社交網(wǎng)絡(luò)影響最大化問題求解方法,其特征在于包括下述步驟: 第一步,輸入網(wǎng)絡(luò)數(shù)據(jù),計(jì)算各節(jié)點(diǎn)的"度數(shù)",該度數(shù)需要經(jīng)過一定的折扣計(jì)算,并對 節(jié)點(diǎn)按照"度數(shù)"遞減排列; 第二步,選取"度數(shù)"排在前ki的節(jié)點(diǎn)作為種子節(jié)點(diǎn)加入種子節(jié)點(diǎn)集S,然后利用討良據(jù)線 性闊值模型的傳播過程對未激活節(jié)點(diǎn)進(jìn)行激活,最后將激活的節(jié)點(diǎn)加入激活節(jié)點(diǎn)集A中; 第Ξ步,更新各未激活節(jié)點(diǎn)所受影響力; 第四步,計(jì)算各節(jié)點(diǎn)產(chǎn)生的影響力,并對節(jié)點(diǎn)按照影響力的大小遞減排列; 第五步,清空種子節(jié)點(diǎn)集S,選取影響力排在前k2的節(jié)點(diǎn)作為種子節(jié)點(diǎn)加入種子節(jié)點(diǎn)集 S,然后利用討良據(jù)線性闊值模型的傳播過程對未激活節(jié)點(diǎn)進(jìn)行激活,最后將激活的節(jié)點(diǎn)加 入激活節(jié)點(diǎn)集A中。2. 如權(quán)利要求1所述的基于兩階段啟發(fā)的社交網(wǎng)絡(luò)影響最大化求解方法,其特征在于 所述的第四步中的節(jié)點(diǎn)V的影響力的計(jì)算方法描述如下: 節(jié)點(diǎn)的影響力是指節(jié)點(diǎn)對同一網(wǎng)絡(luò)中的所有其它節(jié)點(diǎn)產(chǎn)生的影響的量值。由于節(jié)點(diǎn)間 的影響力隨著距離而減弱,所W節(jié)點(diǎn)V只會在一定的范圍內(nèi)產(chǎn)生影響。本文將節(jié)點(diǎn)V的直接 鄰居(出邊鄰居)與V的距離定義為l,v與直接鄰居的鄰居的距離為2, W此類推定義節(jié)點(diǎn)間 的距離D,節(jié)點(diǎn)V和節(jié)點(diǎn)W間的距離用Dv,w(或Dv,w)表示。 節(jié)點(diǎn)V對單個節(jié)點(diǎn)的影響力用inf lu (V)表示,節(jié)點(diǎn)V對自身的不產(chǎn)生影響,節(jié)點(diǎn)V對直接 鄰居節(jié)點(diǎn)的影響力定義為influi(v),節(jié)點(diǎn)V對與其距離為D的節(jié)點(diǎn)的影響力為influD(v),其 計(jì)算公式如(1)所示:(1) 其中,表示節(jié)點(diǎn)U和W之間的影響力,ue曲-i(v) nN(w),weHD(v),》,wg4( 為節(jié)點(diǎn)w的入度,血(V)為與V距離為D的節(jié)點(diǎn)組成的集合,A為激活節(jié)點(diǎn)組成的集合);良示度折啟發(fā)階段積累的影響力,seN(w)且seA;D的取值范圍為1《D《Ld, 其中Ld為節(jié)點(diǎn)間的最大影響距離。 節(jié)點(diǎn)V對與其距離為D的所有節(jié)點(diǎn)的影響力之和為InfluD(v),其計(jì)算公式如(2)所示: Inf1ud(v) = Σ inf1ud(v) (2) 節(jié)點(diǎn)V在整個網(wǎng)絡(luò)的影響力SInf lu (V)的近似計(jì)算公式如(3)所示:巧 在本發(fā)明中節(jié)點(diǎn)V的最大影響距離Ld定義為2。 該計(jì)算方法具體步驟如下: (a) 計(jì)算節(jié)點(diǎn)V對直接鄰居的影響力inflm(v),并將V對直接鄰居的影響力進(jìn)行求和計(jì) 算得V對所有直接鄰居的影響力I址1U1 (V); (b) 計(jì)算節(jié)點(diǎn)V對直接鄰居的鄰居的影響力influ2(v),并將V對直接鄰居的鄰居的影響 力進(jìn)行求和計(jì)算得V對所有直接鄰居的鄰居的影響力Inf 1U2 (V); (c)將步驟(a)中的Inflm(v)與步驟(b)中的Inflm(v)進(jìn)行求和計(jì)算得節(jié)點(diǎn)V在整個網(wǎng) 絡(luò)中的影響力Slnflu(v)。
【文檔編號】G06Q50/00GK106097108SQ201610394859
【公開日】2016年11月9日
【申請日】2016年6月6日 公開號201610394859.4, CN 106097108 A, CN 106097108A, CN 201610394859, CN-A-106097108, CN106097108 A, CN106097108A, CN201610394859, CN201610394859.4
【發(fā)明人】楊書新, 劉成輝
【申請人】江西理工大學(xué)