基于圖簡化技術的社交網(wǎng)絡中用戶影響力估算方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及社交網(wǎng)絡的影響傳播分析、圖數(shù)據(jù)管理,以及圖數(shù)據(jù)挖掘等相關技術領域,尤其涉及一種基于圖簡化技術的社交網(wǎng)絡中用戶影響力估算方法及裝置。
【背景技術】
[0002]近年來,在線社交網(wǎng)絡的分析與挖掘引起了學術界和工業(yè)界的廣泛興趣。對于在線社交網(wǎng)絡分析,其中的一個重要研宄問題是分析和估計社交網(wǎng)絡中用戶的影響力(參考文獻[I]:D.Kempe, J.Kleinberg, and E.Tardos.Maximizing the spread of influencethrough a social network.1n KDD, 2003)。通過估計用戶的影響力,我們可以評估該用戶對社交網(wǎng)絡中的其它用戶的影響程度,從而可以用于社交網(wǎng)絡推薦等相關的應用。例如,假設我們知道用戶A對用戶B具有較大的影響力,那么我們可以推薦A買過的物品給用戶B。
[0003]通常,我們可以用一個概率圖的模型來對一個在線社交網(wǎng)絡進行建模,其中圖中的一個頂點對應一個用戶,圖中的一條邊對應用戶之間的朋友關系,邊上的概率值對應朋友之間的相互影響的概率,并且邊與邊之間的概率是相互獨立的。例如,在圖1中,用戶Vl對用戶v2的影響概率為0.3。
[0004]在一個社交網(wǎng)絡中,一個用戶的影響力可以定義為該用戶在概率圖上所能到達的節(jié)點個數(shù)的期望值。基于這一定義,社交網(wǎng)絡中的用戶影響力估計問題即為:給定一個用戶u和一個概率圖G= (V,E,P),估計u在G中所能到達的節(jié)點個數(shù)的期望。由于這一問題被證明是 #P 完全的(參考文獻[2]:W.Chen, Y.Wang, and S.Yang.Efficient influencemaximizat1n in social networks.1n KDD, 2009),所以基本上不可能存在多項式時間的算法,除非P = #Po為了計算節(jié)點的影響力,現(xiàn)有的文獻都是基于蒙特卡羅抽樣算法[1,2]。蒙特卡羅抽樣算法的具體流程如下:首先,對概率圖上所有的邊根據(jù)其概率值進行抽樣,獨立重復這一過程N次,從而生成N個“可能圖”(possible graph),也稱為生產(chǎn)N個樣本。接著,我們分別在這N個“可能圖”中計算u節(jié)點所能到達的節(jié)點的個數(shù)。然后,我們?nèi)【?,從而得到?jié)點u的影響力的一個無偏估計。然而,這種基于蒙特卡羅抽樣的算法通常都會產(chǎn)生較大的方差,因此會降低影響力估計的精度。為減少蒙特卡羅抽樣算法的方差,在文獻
[3](R.-H.Li, J.X.Yu, R.Mao, and T.Jin.Efficient and accurate query evaluat1n onuncertain graphs via recursive stratified sampling.1n ICDE, 2014)中,Li 等人提出了一種基于遞歸分層抽樣的估計算法。Li等人證明該算法能夠顯著降低基本的抽樣算法的方差,從而提高估計的精度。遞歸分層抽樣的具體做法是,從概率圖中任意選取r條邊,然后根據(jù)這r條邊的狀態(tài)對整個可能圖樣本空間進行分層。第O層對應所有的r條邊的狀態(tài)都是O ;也即在該層中,所有可能圖都不包含這r條邊。第I層對應第I條邊的狀態(tài)為1,其它r-Ι條邊的狀態(tài)不確定;也即在該層中,所有可能圖都包含第I條邊。第2層對應第I條邊的狀態(tài)為0,第2條邊的狀態(tài)為1,其它r-2條邊的狀態(tài)不確定;也即在該層中,所有可能圖都包含第2條邊,并且不包含第I條邊。第3層對應第1,2條邊狀態(tài)為0,第3條邊的狀態(tài)為1,其余r-3條邊的狀態(tài)不確定;也即在該層中,所有可能圖都包含第3條邊,并且不包含第1,2條邊。以此類推,第r層對應第I至r-Ι條的狀態(tài)為O,第r條邊的狀態(tài)為1,其余邊不確定;在該層中,所有可能圖都包含第r條邊,并且不包含第I至r-Ι條邊。具體分層方法詳見圖2。這種選取r條邊進行分層的策略可以遞歸地運用到每一層,從而得到遞歸的分層抽樣算法。Li等人證明該算法較基本的蒙特卡羅抽樣算法具有更小的方差,從而具有更高的精度。
[0005]在上述算法中,基本的蒙特卡羅抽樣算法具有較大的方差。因此為了達到一定的估計精度,這一算法通常需要抽取很多可能圖。抽取一個可能圖通常需要0(m)的時間復雜度,這里的m表示概率圖中邊的條數(shù)。因此,該算法在實踐中并不高效。遞歸分層抽樣算法通常能夠顯著地減少基本蒙特卡羅算法的大方差問題,但是這一算法仍然需要花費0(m)的時間抽取一個可能圖,并且該算法有可能會選到一些與計算節(jié)點影響力無關的邊進行分層,從而降低算法的精度。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種基于圖簡化技術的社交網(wǎng)絡中用戶影響力估算方法及裝置,克服傳統(tǒng)的遞歸分層抽樣算法中存在的耗費較多估算時間以及估算精度低的缺陷。
[0007]本發(fā)明的目的是通過以下技術方案實現(xiàn)的。
[0008]一種基于圖簡化技術的社交網(wǎng)絡中用戶影響力估算方法,包括:
[0009](一)獲取待估算用戶影響力的社交網(wǎng)絡的概率圖G,預設抽取可能圖的個數(shù)N、節(jié)點U,以及參數(shù)r和t ;
[0010]( 二)利用遞歸分層抽樣算法和圖簡化技術估算概率圖G中節(jié)點u的影響力。
[0011]其中,所述步驟(二)進一步包括:
[0012]判斷所述概率圖G中的邊數(shù)是否小于r或者所述抽取可能圖的個數(shù)N是否小于t,若否,則循環(huán)執(zhí)行以下步驟:
[0013](SI)從G中任意選取r條邊,并對G按照r條邊的狀態(tài)分為r+Ι層;
[0014](S2)從第O層至第r層,循環(huán)執(zhí)行以下步驟:
[0015](S21)對于第i層,根據(jù)第i層所對應的r條邊的狀態(tài)簡化圖G,并令簡化后的圖為Gi;
[0016](S22)根據(jù)遞歸分層抽樣算法計算第i層需要抽取的可能圖的個數(shù)Ni;
[0017](S23)以參數(shù)Gi, Ni, U,r, t遞歸調(diào)用這一算法;
[0018](S24)根據(jù)遞歸分層抽樣算法累計估計值。
[0019]其中,所述步驟(二)還包括:在判斷所述概率圖G中的邊數(shù)小于r或者所述抽取可能圖的個數(shù)N小于t時,利用基本的蒙特卡羅抽樣估算節(jié)點u的影響力。
[0020]一種基于圖簡化技術的社交網(wǎng)絡中用戶影響力估算裝置,包括:
[0021]概率圖獲取單元,用于獲取待估算用戶影響力的社交網(wǎng)絡的概率圖G,預設抽取可能圖的個數(shù)N、節(jié)點U,以及參數(shù)r和t ;
[0022]影響力估算單元,用于利用遞歸分層抽樣算法和圖簡化技術估算概率圖G中節(jié)點u的影響力。
[0023]本發(fā)明實施例與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點:
[0024]本發(fā)明實施例基于圖簡化技術的遞歸分層抽樣方法可以用于估計社交網(wǎng)絡中的用戶的影響力,該方法集成了圖簡化的技術,一方面可以較快地剪枝掉那些對估計用戶影響力無關的節(jié)點和邊,從而可以實現(xiàn)快速的影響力估計;另一方面,圖簡化的過程可以避免在遞歸分層抽樣過程中選取與計算節(jié)點影響力無關的邊進行分層,從而可以提高算法的精度??傮w上講,基于圖簡化技術的遞歸分層抽樣方法較現(xiàn)有的遞歸分層抽樣方法具有更快的速度和更高的精度。
【附圖說明】
[0025]圖1是一個社交網(wǎng)絡的概率圖;
[0026]圖2是基本的遞歸分層方法示例圖;
[0027]圖3是本發(fā)明實施例提供的基于圖簡化的遞歸分層方法示例圖;
【具體實施方式】
[0028]為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0029]為了解決上述【背景技術】的缺陷,本發(fā)明采用的技術方案是開發(fā)一種基于圖簡化技術的遞歸分層抽樣方法。該方法的基本思路是基于遞歸分層抽樣算法之上引入一種圖簡化的技術。具體地,在每次分層的過程中,由于選中的r條邊中有些邊是可以確定知道它們不會包含在該層所對應的所有可能圖中。例如根據(jù)遞歸分層抽樣的算法,在第r層中,前r-1條邊的狀態(tài)為0,也即這r-Ι條邊不會出現(xiàn)在該層所對應的所有可能圖中。基于這一觀察,本發(fā)明可以從概率圖中刪除這r-Ι條邊,然后再來對剩余的圖進行抽樣。注意到,當刪除一些邊后,剩余圖中的某些邊可能對計算節(jié)點的影響力不起作用,本發(fā)明稱這些邊為無關邊。對于無關邊,本發(fā)明可以一并刪除,從而達到簡化圖的效果。而且,這種圖簡化的技術可以遞歸地應用于基本的遞歸分層抽樣算法的每次分層過程中。具體的方法流程如下:
[0030]輸入:圖G= (V,E,P),抽取可能圖的個數(shù)N,節(jié)點U,以及參數(shù)
[00