欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于圖計算技術(shù)的大規(guī)模數(shù)據(jù)聚類方法

文檔序號:9235481閱讀:329來源:國知局
一種基于圖計算技術(shù)的大規(guī)模數(shù)據(jù)聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種基于圖計算技術(shù)的大規(guī)模數(shù)據(jù)聚類方法,屬于軟件技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 聚類技術(shù)是最重要的數(shù)據(jù)挖掘技術(shù)之一,獲得了極大的關(guān)注,比如專利化 200910211714. 6聚類方法和系統(tǒng);ZL 201110418812. 4, 一種面向SNP數(shù)據(jù)的聚類方法等技 術(shù),聚類技術(shù)根據(jù)特定標(biāo)準(zhǔn)來查找具有相似之處的對象。例如,在社區(qū)檢測,話題追蹤和意 見領(lǐng)袖等社交網(wǎng)絡(luò)應(yīng)用中,根據(jù)用戶的行為和興趣愛好,利用聚類技術(shù)可W快速的發(fā)掘類 似的群體。傳統(tǒng)的聚類解決方案,如CLARANS,BIRCH和DESCAN是單機聚類算法,適合于小 規(guī)模數(shù)據(jù)集,具有較低的可擴展性。
[0003] 為了解決上述問題,學(xué)者提出了并行聚類算法。該些方法包括基于MapRe化ce的 K-Means并行算法,基于Pregel的半聚類算法W及RankCompete等。
[0004] MapRe化ce是一個分布式編程模型,它使用迭代的方式執(zhí)行聚類,采用本地文件系 統(tǒng)或者分布式文件系統(tǒng)維護中間結(jié)果,該種方式會導(dǎo)致過度的存儲開銷,同時也影響執(zhí)行 性能。因此,基于MapRe化ce的K-Means并行聚類算法非常耗費時間。
[0005] 為了提升性能,業(yè)界學(xué)者提出將大同步模型炬U化Sync虹onization Model, BSF〇 應(yīng)用到大規(guī)模聚類算法中。BSP模型采用消息傳遞來保存中間結(jié)果,減小了性能開銷。例 如,Pregel就是Google提出的基于BSP的圖計算模型,基于Pregel及基于它的一種半聚 類方案。
[0006] 然而,基于BSP的聚類算法并不能徹底解決上述問題。在存儲中間結(jié)果方面,它們 仍然存在較高的內(nèi)存開銷。除此之外,它們還需要在頂點之間進行若干消息傳輸。如果一個 頂點有繁重的工作負載,在指定的時間內(nèi)無法完成需要的計算,消息傳輸可能會有延遲,從 而極大的降低BSP模型的整體性能。此外,還有其他大規(guī)模聚類解決方案,如RankCompete, 其僅被用于聚類web圖片,其應(yīng)用領(lǐng)域較為狹窄。

【發(fā)明內(nèi)容】

[0007] 針對現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明的目的在于提出一種基于分布式圖計算 平臺的聚類算法,相比于當(dāng)前其它主流的解決方案而言,具有更小的時間和存儲開銷。
[0008] 本發(fā)明采用一種基于分布式化geRank的算法來確定聚類中屯、。聚類中屯、代表社 交網(wǎng)絡(luò)中最重要的頂點,具有較高化geRank值的頂點將被視為聚類中屯、的候選頂點。該方 法與那些隨機選擇聚類中屯、的傳統(tǒng)方法相比,有更好的聚類效果。也可W使用其他方法來 確定聚類中屯、,比如Canopy算法來獲取聚類中屯、,或者由程序開發(fā)人員指定。
[0009] 本發(fā)明在聚類中屯、的基礎(chǔ)上,設(shè)計了一種高效的分布式聚類算法,它不僅占用較 少的物理內(nèi)存空間,也可W在短時間內(nèi)完成。其主要思想是利用化geRank信息傳遞的優(yōu)勢 實現(xiàn)快速收斂,可W非??斓臄U散聚類中屯、的影響。本發(fā)明使用影響力來表示一個頂點對 其它頂點的影響程度,一個聚類中屯、在比其它中屯、點更靠近某一頂點時,該聚類中屯、對該 一頂點的影響力越大。
[0010] 本發(fā)明的技術(shù)方案為:
[0011] 一種基于圖計算技術(shù)的大規(guī)模數(shù)據(jù)聚類方法,其步驟為:
[001引1)從待處理圖數(shù)據(jù)的所有頂點中選取N個頂點作為候選聚類中屯、,得到一候選聚 類中屯、列表;
[0013] 2)設(shè)置每一候選聚類中屯、的簇標(biāo)簽值,然后根據(jù)一加權(quán)無向圖G將所述候選聚類 中屯、進行合并,將屬于同一聚類簇的候選聚類中屯、劃分到同一集合中,將頂點聚為k類;其 中,N大于k,同一集合中的候選聚類中屯、采用同一標(biāo)簽;
[0014] 3)根據(jù)該加權(quán)無向圖G,每個候選聚類中屯、將包含自己當(dāng)前簇標(biāo)簽值W及權(quán)重的 消息傳遞給相鄰頂點;收到消息的頂點根據(jù)消息中的簇標(biāo)簽值將本次迭代收到的所有消息 分成不同的類別,然后生成新的消息并在下一迭代過程中將其傳遞給相鄰頂點;
[001引 4)迭代結(jié)束后,對于每一頂點,計算具有相同標(biāo)簽類型的邊的權(quán)重之和,得到每一 頂點最后的結(jié)果值;然后將圖數(shù)據(jù)中具有相同結(jié)果值的頂點聚為一類。
[0016] 進一步的,采用化geRank算法計算所有頂點的化geRank值;然后選取化geRank 值最高的N個頂點作為所述聚類中屯、。
[0017] 進一步的,N為k的10倍。
[0018] 進一步的,所述步驟2)的具體步驟包括:
[0019] 41)將所述候選聚類中屯、設(shè)置不同的簇標(biāo)簽值,且簇標(biāo)簽值有一定的間隔區(qū)間;
[0020] 42)根據(jù)圖G,每個頂點把自己的簇標(biāo)簽值發(fā)送給鄰居頂點;
[0021] 43)如果頂點a的簇標(biāo)簽值小于接收到的消息中的簇標(biāo)簽值,則頂點a更新自己的 簇標(biāo)簽值為收到的消息中的簇標(biāo)簽值;
[0022] 44)重復(fù)步驟42)、43)直到迭代結(jié)束,然后將具有相同簇標(biāo)簽值的候選聚類中屯、 合并到同一集合中。
[0023]進一步的,計算所述結(jié)果值的方法為
;其中,SUM。是頂點 a具有同一標(biāo)簽類型e的所有邊的權(quán)重之和,m是標(biāo)簽類型e的邊數(shù)目,邸GE。為每條邊的 權(quán)重。
[0024] 進一步的,所述迭代結(jié)束的條件為滿足設(shè)定的迭代次數(shù)或簇標(biāo)簽值不再發(fā)生變 化。
[00巧]與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
[0026] 本發(fā)明相比于當(dāng)前其它主流的解決方案而言,更加適合處理大規(guī)模圖數(shù)據(jù),具有 更小的時間和存儲開銷。
【附圖說明】
[0027] 圖1為本發(fā)明的聚類算法流程圖;
[0028] 圖2為兩種算法的時間開銷對比圖;
[0029] 圖3為兩種算法的模塊化值對比圖;
[0030] 圖4為內(nèi)存開銷對比圖;
[0031] 圖5為頂點A計算它的標(biāo)簽示意圖。
【具體實施方式】
[0032] W下結(jié)合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并 非用于限定本發(fā)明的范圍。
[0033] 本發(fā)明提供了一種基于圖計算技術(shù)的分布式聚類算法,將同一聚類結(jié)果中的頂點 確定為相似對象,如圖1所示。
[0034] 選擇聚類中屯、
[0035] 聚類算法使得同一簇中的頂點比在不同簇中的頂點具有更緊密的聯(lián)系(相似度 更大)。合理的選擇聚類中屯、對準(zhǔn)確的將頂點聚類成若干子集有很大的幫助。在本發(fā)明的 方法中,首先使用標(biāo)準(zhǔn)的化geRank算法計算所有頂點的化geRank值。然后,降序排列所 有的頂點的化geRank值。在此過程中,本發(fā)明算法并沒有保存所有頂點信息,而是保存了 處于最高化geRank值范圍的小部分頂點信息,忽略其他頂點,該種方法大大降低了存儲消 耗。最后,從列表中選擇足夠數(shù)量的頂點將其作為聚類中屯、。需要注意的一點是,選擇的頂 點數(shù)一般要大于系統(tǒng)實際需求的聚類中屯、數(shù)目,該樣可W避免一些具有很高化geRank值 的頂點已經(jīng)被包含在同樣的簇中導(dǎo)致的數(shù)據(jù)重疊問題。
[0036] 本發(fā)明算法的輸入包括一個加權(quán)無向圖G,它的輸出是1化個按照頂點化geRank 值降序排序的列表,其中k是最終聚類的簇數(shù)目。
[0037] 算法1選擇聚類中屯、
[0038] 步驟1初始化每個頂點的初值;
[0039] 步驟2每個頂點把自己的初值發(fā)送給鄰居頂點;
[0040] 步驟3每個頂點收到信息后,累加其收到的所有信息
[0041] 步驟4按照一定權(quán)重更新該頂點的值,如aX頂點的值+bX累加值(其中a+b = 1),然后得到更新后的頂點值;
[0042] 步驟4頂點把自己更新的值再發(fā)送給鄰居頂點;
[0043] 步驟5重復(fù)步驟3 -直到達到迭代次數(shù)或者頂點的值不再發(fā)生變化;
[0044] 步驟6排序每個頂點最后的化geRank值;
[0045] 步驟7選取1化個排序最高的化geRank值作為初步候選聚類中屯、。
[0046] 算法1選擇聚類中屯、
[0047]
[0048] 上述算法生成的候選聚類中屯、列表將被應(yīng)用于下一步的聚類簇擴展操作。
[004引聚類過程
[0050] 聚類中屯、確定后,本發(fā)明使用一種新的聚類算法來擴展每個聚類簇的范圍,該算 法可W迅速擴散聚類中屯、的影響,并快速收斂。<
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南安市| 轮台县| 海盐县| 东至县| 临邑县| 鹿邑县| 临海市| 湛江市| 正宁县| 政和县| 宁远县| 确山县| 达日县| 太康县| 涞源县| 江城| 玉山县| 南平市| 青海省| 龙陵县| 灵璧县| 曲沃县| 延边| 广灵县| 沭阳县| 绥宁县| 三门峡市| 丹巴县| 九龙坡区| 都江堰市| 安多县| 沾化县| 和林格尔县| 淮阳县| 临潭县| 深水埗区| 固镇县| 阳山县| 嵩明县| 平武县| 炎陵县|