欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種廣義最大度隨機游走圖抽樣算法

文檔序號:6637905閱讀:1171來源:國知局
一種廣義最大度隨機游走圖抽樣算法
【專利摘要】本發(fā)明公開一種廣義最大度隨機游走圖抽樣算法,在圖上隨機游走采集樣本;根據(jù)采集得到的樣本構(gòu)造無偏估計;能夠有效地平衡RW算法的“大偏差問題”以及MD算法的“重復(fù)樣本問題”,從而提升了從網(wǎng)絡(luò)中采集樣本點的整體效率。
【專利說明】一種廣義最大度隨機游走圖抽樣算法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于大圖數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,尤其涉及一種廣義最大度隨機游走圖抽樣算 法。

【背景技術(shù)】
[0002] 近年來,在線社交網(wǎng)絡(luò)分析在學(xué)術(shù)界和工業(yè)界都引起了廣泛關(guān)注。在所有在線 社交網(wǎng)絡(luò)分析的相關(guān)研究中,一個最為基本的研究問題是估計社交網(wǎng)絡(luò)中的節(jié)點性質(zhì)以 及整個社交網(wǎng)絡(luò)的拓撲特性。然而,由于很多在線的社交網(wǎng)絡(luò)公司,例如騰訊、新浪微博、 Facebook以及Twitter等,都沒有向第三方發(fā)布其社交網(wǎng)絡(luò)的圖譜數(shù)據(jù),并且整個社交圖 譜數(shù)據(jù)的大小對于第三方來說往往都是未知的。因此,廣大從事社交網(wǎng)絡(luò)分析的研究者和 開發(fā)者都面臨一個非常困難的數(shù)據(jù)采集問題。這里的主要難點在于,如何設(shè)計和開發(fā)出一 種簡便的方法來從一個"對于研究者不可見"的社交網(wǎng)絡(luò)中提取出均勻的圖節(jié)點樣本。
[0003] 為了解決這一問題,目前在學(xué)術(shù)界有很多基于爬蟲技術(shù)的網(wǎng)絡(luò)抽樣方法被提出并 廣泛使用。可以把這些方法分為兩大類:一類是基于圖遍歷的方法,另一類則是基于隨機 游走的方法?;趫D遍歷的方法主要是應(yīng)用廣度優(yōu)先搜索(BFS,breadth-first search)或 者深度優(yōu)先搜索(DFS,depth-first search)采集節(jié)點。然而,這一類方法的主要缺點是在 采集節(jié)點的過程中,算法會偏向于度比較高的節(jié)點,這顯然與需要均勻的節(jié)點樣本的目標 不相符。并且,這一類算法對度比較高的節(jié)點偏向多少無法從理論上刻畫,因此很難糾正這 一偏向,進而無法得到均勻的節(jié)點樣本。目前,這一類算法逐漸被學(xué)術(shù)界和工業(yè)界棄用。基 于隨機游走的算法很好地解決了基于圖遍歷的算法的缺陷,它們可以直接生成無偏的節(jié)點 樣本,或者生成有偏但是偏向性已知的節(jié)點樣本,故而這類算法在圖采樣中廣受歡迎。目前 有兩種非常流行的基于隨機游走的圖抽樣算法。第一種算法是重新加權(quán)的隨機游走算法, 稱之為RW(re-weighted random walk)算法;第二種算法是最大度隨機游走算法,稱之為 MD (maximum-degree random walk)算法。下面簡要介紹這兩種算法。
[0004] 將網(wǎng)絡(luò)抽象成一個圖G = (V,E),其中n = |V|代表節(jié)點的個數(shù),m = |E|代表 邊的條數(shù)。令N(U)為節(jié)點U e V的所有鄰接節(jié)點的集合,du = |N(u) I表示節(jié)點U的度。 令f:V -R是一個定義在節(jié)點集V上的實值函數(shù),表示節(jié)點u的某種特性的值,例如節(jié)點 的度,或者節(jié)點的某個屬性值。在估計網(wǎng)絡(luò)特性的問題中,目標是估計整個網(wǎng)絡(luò)中所有節(jié) 點的f (U)值的平均值,記為Σ./?/η '這里的,=[l/η,. . .,l/η]表示均勻分 ueV 布。例如,如果定義f(u) =du,那么代表的是圖G中節(jié)點度的平均值。如果定義 h/(u) = lR《(l<d<n-l),則1(f)表示的是圖G中節(jié)點的度分布,這里Ild^.是一個 指示函數(shù),如果d u = d,則=1,否則l{d"=di = 〇
[0005] 在現(xiàn)有的文獻中,RW和MD算法都能產(chǎn)生一個對A.: (f)的無偏估計。RW算法是在圖 中執(zhí)行一次隨機游走來采集節(jié)點樣本。眾所周知,在一個非周期性的無向連通圖中采用隨 機游走所采集到的節(jié)點樣本并不是一個均勻分布。根據(jù)隨機游走的穩(wěn)定分布理論,節(jié)點被 選取的概率和節(jié)點的度成正比,也即對于uev,有ji?( u) =du/2m,這里的π?表示隨機游 走的穩(wěn)定分布。因此,根據(jù)隨機游走的采集樣本策略,圖中每個節(jié)點被采集到的概率是不一 樣的,度大的節(jié)點被采集到的概率比度小的節(jié)點被采集到的概率要大,也就是說隨機游走 的算法更偏向于度比較高的節(jié)點。為了糾正這種偏向性,RW算法采用了一種重新加權(quán)的策 略。具體地,RW算法采用估討

【權(quán)利要求】
1. 一種廣義最大度隨機游走圖抽樣算法,包括以下步驟: S1,在圖上隨機游走采集樣本;采集到樣本點集S;在圖中隨機選擇節(jié)點U設(shè)為初始節(jié) 點,并且將計數(shù)器i置為1;使用du/max{du,C}作為參數(shù)生成一個幾何隨機變量Ii并加入 集合ξ;將節(jié)點u作為Si,并加入樣本點集S;從節(jié)點u的鄰接節(jié)點中等概率隨機選取一個 節(jié)點V;將節(jié)點V作為下一步的節(jié)點u,計數(shù)器i加1,返回采集到的樣本點集S和相應(yīng)的幾 何隨機變量集ξ;循環(huán)執(zhí)行直至不滿足條件; S2,根據(jù)采集得到的樣本構(gòu)造無偏估計;構(gòu)造無偏估計的公式為:
其中,Si表示算法收集到的第i個節(jié)點,ξi指用來表示樣本Si的重復(fù)次數(shù)。
2. 根據(jù)權(quán)利要求1所述的廣義最大度隨機游走圖抽樣算法,其特征在于:在圖上隨機 游走采集樣本的概率轉(zhuǎn)移方程如下:
其中du表示節(jié)點u的度,C是一個非負整數(shù)。
【文檔編號】G06F17/30GK104462374SQ201410749244
【公開日】2015年3月25日 申請日期:2014年12月9日 優(yōu)先權(quán)日:2014年12月9日
【發(fā)明者】李榮華, 邱宇軒, 毛睿, 秦璐, 金檀, 蔡濤濤 申請人:深圳大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
措勤县| 图们市| 乐东| 盐边县| 宁远县| 安远县| 曲松县| 湘阴县| 灵台县| 雷州市| 台中县| 遵义县| 剑阁县| 遂溪县| 克拉玛依市| 扬州市| 西华县| 清徐县| 山西省| 剑川县| 武邑县| 开平市| 孟州市| 丹巴县| 西宁市| 蒙山县| 吉隆县| 安宁市| 海兴县| 山西省| 寻乌县| 策勒县| 濮阳市| 花莲县| 全南县| 肥东县| 长泰县| 杭锦旗| 兴仁县| 德钦县| 安图县|