一種改進(jìn)Dijkstra權(quán)重的社交網(wǎng)絡(luò)抽樣生成算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種改進(jìn)DUkstra權(quán)重的社交網(wǎng)絡(luò)抽樣生成算法,屬于社交網(wǎng)絡(luò)拓?fù)?抽樣生成算法技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 社交網(wǎng)絡(luò)(如:Face bookJwitter等)是網(wǎng)絡(luò)用戶用來分享信息,發(fā)布活動,相互 交流的一種Internet平臺。社交網(wǎng)絡(luò)中存在大量的網(wǎng)絡(luò)用戶,他們之間的交流包含著大量 的信息,目前對社交網(wǎng)絡(luò)的研究分析越來越重要,但是社交網(wǎng)絡(luò)中的關(guān)系錯綜復(fù)雜(如空手 道俱樂部網(wǎng)絡(luò)和電子郵件網(wǎng)絡(luò)等),直接分析原始網(wǎng)絡(luò)會造成很大的負(fù)擔(dān)。因此,我們需要 對復(fù)雜網(wǎng)絡(luò)進(jìn)行抽樣,得到能夠代表原網(wǎng)絡(luò)的子網(wǎng)。目前,常用的抽樣方法可分為Ξ類:點(diǎn) 抽樣法、邊抽樣法和拓?fù)浣Y(jié)構(gòu)抽樣法。列舉兩種常用的抽樣算法:隨機(jī)選擇節(jié)點(diǎn)算法 (Random Node Sampling-RNS)和隨機(jī)選擇邊算法(Random Edge Sampling-RES)eRNS算法 是通過隨機(jī)的選擇復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)和與之相連的邊,進(jìn)行網(wǎng)絡(luò)抽樣,屬于點(diǎn)抽樣算法的 一種;RES算法是通過隨機(jī)的選擇一系列的邊和與其相連的點(diǎn),進(jìn)行網(wǎng)絡(luò)抽樣,屬于利用邊 進(jìn)行抽樣的一種算法;另外還有一種隨機(jī)漫步抽樣算法(Random Wa化Sampling-RWS)也很 常用,該算法先通過設(shè)立一個種子節(jié)點(diǎn),下一步抽取與之相連的下一個節(jié)點(diǎn),有更多邊連接 的節(jié)點(diǎn)更容易被抽取。如采用RNS算法進(jìn)行抽樣,是通過抽取出滿足抽樣率的節(jié)點(diǎn)后停止抽 樣,運(yùn)可能會導(dǎo)致抽樣出的子網(wǎng)中邊的抽樣率偏大或偏小。采用RES算法進(jìn)行抽樣,是通過 抽取出滿足抽樣率的邊后停止抽樣,運(yùn)可能會導(dǎo)致抽樣出的子網(wǎng)中節(jié)點(diǎn)的抽樣率偏大或偏 小。采用RWS算法進(jìn)行抽樣,也可能會導(dǎo)致抽樣出的子網(wǎng)中節(jié)點(diǎn)或邊的抽樣率偏大或偏小, 而且通過RWS抽樣算法得到的子網(wǎng),不能很好的代表整個圖,只能代表種子節(jié)點(diǎn)附近的網(wǎng) 絡(luò)。因此,急需一種算法能夠改善運(yùn)些問題,使得抽樣出來的拓?fù)鋱D形能夠很好的代表原 圖。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的缺陷,提供一種改進(jìn)Di Astra權(quán)重 的社交網(wǎng)絡(luò)抽樣生成算法,是一種從全局角度出發(fā)結(jié)合網(wǎng)絡(luò)拓?fù)鋱D中節(jié)點(diǎn)之間的最短路徑 和出現(xiàn)的頻率綜合抽樣,既可W保證抽樣出來的子網(wǎng)分布均勻,又可W保證抽樣出來的子 網(wǎng)更加貼近原始網(wǎng)絡(luò)。
[0004] 為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案如下:
[0005] -種改進(jìn)Dijkstra權(quán)重的社交網(wǎng)絡(luò)抽樣生成算法,包括W下步驟:
[0006] 1)根據(jù)給定的原始社交網(wǎng)絡(luò)拓?fù)鋱D形,采用中屯、度算法來求取節(jié)點(diǎn)之間的連接權(quán) 重;
[0007] 2)在原始社交網(wǎng)絡(luò)拓?fù)鋱D形中隨機(jī)選擇1對不相鄰的節(jié)點(diǎn)作為源節(jié)點(diǎn)和目的節(jié) 點(diǎn),然后運(yùn)用Di Astra算法求出所選擇的1對源節(jié)點(diǎn)和目的節(jié)點(diǎn)之間的最短路徑,具體過程 包括:
[000引假設(shè)原始社交網(wǎng)絡(luò)拓?fù)鋱D形G=<V,E>,其中V= {pi,P2,···,Pn}代表節(jié)點(diǎn)的集合, Pi, 1 = 1,2......n,表示第i個節(jié)點(diǎn),η為節(jié)點(diǎn)的個數(shù),E= {ei,e2,···,em}代表邊的集合,ei,i = 1,2……m,表示第i條邊,m為邊數(shù),則源節(jié)點(diǎn)ps到目的節(jié)點(diǎn)pt之間的最短路徑,步驟如下:
[0009] 2-1)設(shè)定節(jié)點(diǎn)之間的連接權(quán)重作為連接節(jié)點(diǎn)之間的距離,計算出原始社交網(wǎng)絡(luò)拓 撲圖形中所有連接節(jié)點(diǎn)之間的距離的集合D,D= {di,d2, 一,(1::1,(11代表原始社交網(wǎng)絡(luò)拓?fù)?圖形中節(jié)點(diǎn)之間的連接權(quán)重,f表示有f對連接節(jié)點(diǎn);
[0010] 2-2)比較源節(jié)點(diǎn)Ps到相鄰節(jié)點(diǎn)間的距離,抽取距離最小的節(jié)點(diǎn)pi;
[0011] 2-3)比較節(jié)點(diǎn)Pi到相鄰節(jié)點(diǎn)間的距離,求出最小值dk,對應(yīng)的相鄰節(jié)點(diǎn)為Pk;
[0012]2-4)計算min{dk,w(ps,pj)},即可得出下一個抽取的節(jié)點(diǎn)是p誠是pj,其中w(ps, Pj)表示源節(jié)點(diǎn)Ps到節(jié)點(diǎn)pj之間的距離,pj表示下一步抽取的目標(biāo)節(jié)點(diǎn);
[001引2-5)重復(fù)步驟2-3)、2-4),直到抽取到目的節(jié)點(diǎn)Pt;
[0014] 2-6)輸出抽樣到的邊和節(jié)點(diǎn);
[0015] 3)運(yùn)用排序算法對所述步驟2)求取的1對源節(jié)點(diǎn)和目的節(jié)點(diǎn)之間的最短路徑中邊 出現(xiàn)的頻率進(jìn)行排序,依據(jù)抽樣比從排序結(jié)果中抽取出頻率最高的m條邊和與其相連的點(diǎn), 生成抽樣網(wǎng)絡(luò);
[0016] 4)通過評價指標(biāo)評價社交網(wǎng)絡(luò)抽樣生成算法。
[0017] 前述的步驟1)中,采用中屯、度算法來求取節(jié)點(diǎn)之間的連接權(quán)重,節(jié)點(diǎn)之間的連接 權(quán)重等于兩個節(jié)點(diǎn)分別到源節(jié)點(diǎn)和目的節(jié)點(diǎn)距離之和的倒數(shù),運(yùn)樣即求得原始社交網(wǎng)絡(luò)拓 撲圖形各邊權(quán)重。
[0018] 前述的步驟4)中,評價指標(biāo)包括節(jié)點(diǎn)度分布和聚集系數(shù)。
[0019] 前述的通過柯爾莫可洛夫-斯米洛夫檢驗(yàn)來衡量原始網(wǎng)絡(luò)和抽樣網(wǎng)絡(luò)之間的節(jié)點(diǎn) 度分布,計算公式如下:
[0020] KS(F,Fs) =max | F(x)-Fs(x) (1)
[0021] 其中,KS(F,F(xiàn)s)表示原始網(wǎng)絡(luò)和抽樣網(wǎng)絡(luò)之間的最大垂直距離,F(x)和Fs(x)分別 代表原始網(wǎng)絡(luò)和抽樣網(wǎng)絡(luò)的累計分布函數(shù),X代表隨機(jī)變量的取值范圍。
[0022] 前述的采用標(biāo)準(zhǔn)均方根誤差來衡量原始網(wǎng)絡(luò)和抽樣網(wǎng)絡(luò)之間的聚集系數(shù)的差距, 計算公式如下:
[0023]
Q)
[0024] 其中,C代表原始網(wǎng)絡(luò)的聚集系數(shù),Cs代表抽樣網(wǎng)絡(luò)中的聚集系數(shù),E代表求平均 值,NMSE表示標(biāo)準(zhǔn)均方根誤差;
[0025] 采用公式(2)計算原始網(wǎng)絡(luò)與抽樣網(wǎng)絡(luò)的聚集系數(shù),
[0026]
謝
[0027] 其中,di代表節(jié)點(diǎn)Pi的節(jié)點(diǎn)度,Ti代表節(jié)點(diǎn)Pi與其相鄰的邊數(shù),Ci代表節(jié)點(diǎn)Pi的聚集 系數(shù)。
[0028] 前述的步驟2)中1根據(jù)抽樣比例確定。
[0029] 采樣本發(fā)明的抽樣算法,抽樣效果更好,能夠抽樣出更加接近原始網(wǎng)絡(luò)的子網(wǎng)。
【附圖說明】
[0030] 圖1為五節(jié)點(diǎn)網(wǎng)絡(luò)圖;
[0031] 圖2為基于Di Astra最短路徑抽樣算法流程圖;
[0032] 圖3為空手道俱樂部網(wǎng)絡(luò)和電子郵件網(wǎng)絡(luò)節(jié)點(diǎn)度分布圖;
[0033] 圖4為空手道俱樂部網(wǎng)絡(luò)和電子郵件網(wǎng)絡(luò)聚集系數(shù)分布圖;
[0034] 圖5為不同抽樣比下不同抽樣算法得到聚集系數(shù)的醒SE;
[0035] 圖6為不同抽樣算法求得的節(jié)點(diǎn)度分布KS。
【具體實(shí)施方式】
[0036] 下面結(jié)合附圖對本發(fā)明作進(jìn)一步描述。W下實(shí)施例僅用于更加清楚地說明本發(fā)明 的技術(shù)方案,而不能W此來限制本發(fā)明的保護(hù)范圍。
[0037] 本文的基于Di Astra最短路徑的抽樣算法,通過多次抽取網(wǎng)絡(luò)中不相鄰節(jié)點(diǎn)之間 的最短路徑,并依據(jù)抽樣到得到的邊出現(xiàn)頻率進(jìn)行排序,選取高頻率的邊及與其相連的點(diǎn) 作為抽樣出來的子網(wǎng)。如圖2所示,本發(fā)明包括W下幾個步驟:
[0038] 步驟一、首先根據(jù)給定的原始社交網(wǎng)絡(luò)拓?fù)鋱D形,采用中屯、度算法來創(chuàng)建節(jié)點(diǎn)之 間的連接權(quán)重,中屯、度算法的具體方式如圖1所示,假設(shè)選定節(jié)點(diǎn)1和5分別為源節(jié)點(diǎn)和目的 節(jié)點(diǎn),那么節(jié)點(diǎn)1和5之間的連接情況可W得出。根據(jù)中屯、度算法,節(jié)點(diǎn)之間的連接權(quán)重等于 兩個節(jié)點(diǎn)分別到源節(jié)點(diǎn)和目的節(jié)點(diǎn)距離之和的倒數(shù),運(yùn)樣即求得拓?fù)鋱D各邊權(quán)重。那么,圖 1中節(jié)點(diǎn)1和和3,3和4,3和5W及4和5之間的連接權(quán)重分別等于 6 5 7 7 7
[0039] 步驟二、在原始社交網(wǎng)絡(luò)拓?fù)鋱D形中隨機(jī)選擇1對不相鄰的節(jié)點(diǎn)作為源節(jié)點(diǎn)和目 的節(jié)點(diǎn),然后運(yùn)用Di Astra算法求出所選擇的1對源節(jié)點(diǎn)和目的節(jié)點(diǎn)之間的最短路徑,具體 過程分為下面幾步:
[0040] 假設(shè)原始社交網(wǎng)絡(luò)拓?fù)鋱D形G = <V,E >,其中V = {P1,P2,· · ·,Pn}代表節(jié)點(diǎn)的集合, Pi(i = l,2......η)表示第i個節(jié)點(diǎn),η為節(jié)點(diǎn)的個數(shù),E = {ei,e2,···,em}代表邊的集合,ei(i = 1,2……m)表示第i條邊,m為邊數(shù)。現(xiàn)在需要求解運(yùn)1對源節(jié)點(diǎn)ps到目的節(jié)點(diǎn)pt之間的最短路 徑,步驟如下:
[0041] Stepl:設(shè)定節(jié)點(diǎn)之間的連接權(quán)重作為連接節(jié)點(diǎn)之間的距離,計算出原始社交網(wǎng)絡(luò) 拓?fù)鋱D形中所有連接節(jié)點(diǎn)之間的距離的集合D,D= {di,d2, 一,(1::1,(11代表原始社交網(wǎng)絡(luò)拓 撲圖形中節(jié)點(diǎn)之間的連接權(quán)重,f表示有f對連接節(jié)點(diǎn);
[0042] St邱2:比較源節(jié)點(diǎn)Ps到相鄰節(jié)點(diǎn)間的距離,抽取距離最小的節(jié)點(diǎn)pi;
[00創(chuàng) St邱3:比較節(jié)點(diǎn)Pi到相鄰節(jié)點(diǎn)間的距離,求出最小值dk,對應(yīng)的相鄰節(jié)點(diǎn)為Pk;
[0044] Step4:計算min{dk,w(ps,pj)},即可得出下一個抽取的節(jié)點(diǎn)是pk還是pj,其中w(ps, Pj)表示源節(jié)點(diǎn)Ps到Pj之間的距離,Pj表示下一步抽取的目標(biāo)節(jié)點(diǎn);
[0045]