欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種鏈接分析的計算方法和裝置及系統(tǒng)的制作方法_4

文檔序號:8258601閱讀:來源:國知局
并結(jié) 果,處理機還可以建立容錯機制,在本發(fā)明的一些實施例中,步驟D2處理機對所有源節(jié)點 為第一節(jié)點分發(fā)的權值進行合并,具體可以包括如下步驟:處理機對每N個源節(jié)點為第一 節(jié)點分發(fā)的權值進行合并后,備份當前得到的第一節(jié)點的權值,并記錄下已經(jīng)處理過的源 節(jié)點的ID,N為自然數(shù)。N為處理消息的個數(shù),即處理機每處理N個消息就備份一下當前權 值合并后的第一節(jié)點的權值,并記錄下哪些消息已經(jīng)被處理過,例如可以在每次備份時寫 一個檢查(checkpoint)文件,包括所有完成處理的消息列表。
[0088] 需要說明的是,在本發(fā)明的一些實施例中,為了能夠使用戶監(jiān)測到處理機在執(zhí)行 superstep計算時的運行狀態(tài),本發(fā)明實施例提供的鏈接分析的計算系統(tǒng)中還是設置運營 支撐系統(tǒng)(OSS,OperationSupportSystem),向用戶顯示狀態(tài),并隨時統(tǒng)計上報數(shù)據(jù),并對 處理機的任務執(zhí)行進程進行監(jiān)控。
[0089] 由上述的實施例描述可知,多個處理機根據(jù)各自所負責處理的節(jié)點分別從分布式 文件系統(tǒng)中獲取到屬于各個處理機負責處理的子地圖數(shù)據(jù),其中一處理機獲取到第一子地 圖數(shù)據(jù)之后,上述處理機在第一superstep中對第一子地圖數(shù)據(jù)中的每一個目標節(jié)點進行 權值分發(fā),針對第一子地圖數(shù)據(jù)中的每一個目標節(jié)點分別生成消息,然后上述處理機將在 第一superstep中對第一子地圖數(shù)據(jù)中的每一個目標節(jié)點分別生成的消息存儲到分布式 文件系統(tǒng)中,在處理機進行第一superst印的計算時管理服務器監(jiān)測處理機是否已經(jīng)根據(jù) 子地圖數(shù)據(jù)完成第一superstep的計算。由于本發(fā)明實施例中管理服務器可以將地圖數(shù) 據(jù)切割為多個子地圖數(shù)據(jù),而每個處理機只負責處理屬于自己的子地圖數(shù)據(jù)而無需加載所 有的地圖數(shù)據(jù),所以當?shù)貓D數(shù)據(jù)很大時,每個處理機只處理自己負責的子地圖數(shù)據(jù)并不會 占用過多的內(nèi)存,不會帶來計算成本的急劇上升,并且本發(fā)明實施例中處理機在每一次的 superstep計算后都會將對每個目標節(jié)點分別生成的消息存儲到分布式文件系統(tǒng)中,故處 理機生成的消息數(shù)據(jù)也不會常駐內(nèi)存,對內(nèi)存需要有太高的要求。
[0090] 本發(fā)明鏈接分析的計算方法的一個實施例,接下來從管理服務器的角度來描述, 可以包括:管理服務器將地圖數(shù)據(jù)劃分為多個子地圖數(shù)據(jù),其中,每個子地圖數(shù)據(jù)包括一個 源節(jié)點的ID和上述源節(jié)點的邊所鏈接的目標節(jié)點的ID;管理服務器將上述多個子地圖數(shù) 據(jù)存儲到分布式文件系統(tǒng);管理服務器監(jiān)測每個處理機是否已經(jīng)根據(jù)上述子地圖數(shù)據(jù)完成 第一superstep的計算。
[0091] 請參閱圖4所示,本發(fā)明另一個實施例提供的鏈接分析的計算方法,可以包括如 下步驟:
[0092] 401、管理服務器將地圖數(shù)據(jù)劃分為多個子地圖數(shù)據(jù)。
[0093] 其中,每個子地圖數(shù)據(jù)包括一個源節(jié)點的ID和上述源節(jié)點的邊所鏈接的目標節(jié) 點的ID。
[0094] 在本發(fā)明實施例中,鏈接分析的計算系統(tǒng)中部署有一個管理服務器、多個的處理 機和分布式文件系統(tǒng),其中,管理服務器通常作為master,處理機作為worker,每個處理機 都獨立處理屬于各自處理機負責的數(shù)據(jù)。管理服務器首先對地圖數(shù)據(jù)進行預處理,根據(jù)節(jié) 點和該節(jié)點的鏈接關系將地圖數(shù)據(jù)劃分為多個子地圖數(shù)據(jù)。其中,分布式文件系統(tǒng)是指文 件系統(tǒng)管理的物理存儲資源不一定直接連接在本地主機上,而是通過計算機網(wǎng)絡與其它主 機相連。分布式文件系統(tǒng)可以基于客戶端/服務器模式來實現(xiàn),例如網(wǎng)絡架構(gòu)可能包括多 個供多客戶端訪問的服務器,管理服務器可以將子地圖數(shù)據(jù)存儲到分布式文件系統(tǒng)中,管 理服務器向處理機發(fā)布一個允許其訪問的存儲目錄,一旦處理機成功訪問分布式文件系 統(tǒng),處理機就可以根據(jù)這個目錄查找對應的子地圖數(shù)據(jù)。
[0095] 在本發(fā)明實施例中,地圖數(shù)據(jù)中包括所有的源節(jié)點以及每個源節(jié)點的邊所鏈接的 目標節(jié)點,還包括有每個節(jié)點的網(wǎng)頁數(shù)據(jù),其中,源節(jié)點又稱之為父節(jié)點,目標節(jié)點也稱之 為子節(jié)點,源節(jié)點的出鏈指向該源節(jié)點的邊所鏈接的目標節(jié)點,目標節(jié)點的入鏈指向該目 標節(jié)點的邊被鏈接的源節(jié)點。源節(jié)點和目標節(jié)點指相對于這兩個節(jié)點之間才有意義,例如, 一個源節(jié)點出鏈為一個目標節(jié)點,但是該目標節(jié)點可能是下一個鏈接關系中的源節(jié)點,其 中地圖數(shù)據(jù)中的節(jié)點之間的鏈接關系通常保存在錨文本系統(tǒng)中。
[0096] 需要說明的是,在本發(fā)明實施例中,地圖數(shù)據(jù)中還包括一種懸掛(dangling)節(jié)點, 其中,dangling節(jié)點指的是只有入鏈沒有出鏈的目標節(jié)點,例如,如圖2-a所示,節(jié)點D和 節(jié)點F都是源節(jié)點C的目標節(jié)點,但是節(jié)點D和節(jié)點F都只有入鏈而沒有出鏈,同樣的,對 于圖2-b所示,節(jié)點J和節(jié)點K都是只有入鏈沒有出鏈的目標節(jié)點,故節(jié)點J和節(jié)點K也可 以稱之為dangling節(jié)點。其中一個節(jié)點是Dangling節(jié)點的情況很多,例如,有的網(wǎng)頁頁面 可能本身就沒有出鏈,這個網(wǎng)頁頁面就是dangling節(jié)點,也有可能因為下載調(diào)度以及其它 過濾策略原因使得一個網(wǎng)頁頁面未被下載或出鏈被過濾掉,這種情況下也會導致一個網(wǎng)頁 頁面為dangling節(jié)點。
[0097] 在本發(fā)明實施例中,管理服務器對地圖數(shù)據(jù)的切分是根據(jù)節(jié)點和該節(jié)點的鏈接關 系進行切分的,請參閱如圖2-a所示,節(jié)點A的出鏈為節(jié)點B,節(jié)點A的入鏈為節(jié)點C,節(jié)點 B的出鏈為節(jié)點C,節(jié)點C的出鏈為節(jié)點D和節(jié)點F,節(jié)點E的出鏈為節(jié)點F。如圖2-a所示 為地圖數(shù)據(jù),也稱之為鏈接地圖,每個節(jié)點表示一個網(wǎng)頁,對于圖2-a,有出鏈的網(wǎng)頁A為父 頁面,有入鏈的網(wǎng)頁B為網(wǎng)頁A的子頁面。對于圖2-a所示,共有節(jié)點6個,每個節(jié)點都有 一個節(jié)點ID,管理服務器就需要將地圖數(shù)據(jù)劃分6個子地圖數(shù)據(jù),并且對于每個子地圖數(shù) 據(jù),還需要指明相對于源節(jié)點哪些目標節(jié)點為dangling節(jié)點的信息,請參閱如下表1所示, 為本發(fā)明實施例中對圖2-a所示的地圖數(shù)據(jù)劃分6個子地圖數(shù)據(jù)的劃分結(jié)果示意表:
[0098] 表 1
[0099]
【主權項】
1. 一種鏈接分析的計算方法,其特征在于,包括: 處理機從分布式文件系統(tǒng)中獲取管理服務器預處理生成的第一子地圖數(shù)據(jù),所述第一 子地圖數(shù)據(jù)包括第一節(jié)點的身份識別碼ID和所述第一節(jié)點的邊所鏈接的目標節(jié)點的ID ; 所述處理機在第一超級步super step中對所述第一子地圖數(shù)據(jù)中的每一個目標節(jié)點 進行權值分發(fā),針對所述第一子地圖數(shù)據(jù)中的每一個目標節(jié)點分別生成消息,所述消息包 括所述處理機在第一 super step中為所述第一子地圖數(shù)據(jù)中的每一個目標節(jié)點分發(fā)的權 值; 所述處理機將在所述第一 super step中對所述第一子地圖數(shù)據(jù)中的每一個目標節(jié)點 分別生成的消息存儲到所述分布式文件系統(tǒng)中。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述處理機將在所述第一 super step中 對所述第一子地圖數(shù)據(jù)中的每一個目標節(jié)點分別生成的消息存儲到所述分布式文件系統(tǒng) 中,包括: 所述處理機將在所述第一 super step中每生成一個消息后,就將生成的消息留存在所 述處理機的內(nèi)存中; 當所述處理機的內(nèi)存中留存的消息數(shù)量達到預置的消息記錄數(shù)時,所述處理機將所述 內(nèi)存中留存的消息發(fā)送到所述處理機的本地數(shù)據(jù)緩沖區(qū),所述本地數(shù)據(jù)緩沖區(qū)中還存儲有 所述處理機對所述第二子地圖數(shù)據(jù)中的每個目標節(jié)點分別生成的消息,所述第二子地圖數(shù) 據(jù)包括第二節(jié)點的ID和所述第二節(jié)點的邊所鏈接的目標節(jié)點的ID ; 當所述本地數(shù)據(jù)緩沖區(qū)中存儲的消息超過容量口限時,所述處理機將所述本地數(shù)據(jù)緩 沖區(qū)中存儲的消息批量存儲到所述分布式文件系統(tǒng)中。
3. 根據(jù)權利要求2所述的方法,其特征在于,所述處理機將所述內(nèi)存中留存的消息發(fā) 送到所述處理機的本地數(shù)據(jù)緩沖區(qū)之后,還包括: 所述處理機將所述本地數(shù)據(jù)緩沖區(qū)中對相同目標節(jié)點分別生成的消息進行合并和壓 縮。
4. 根據(jù)權利要求1所述的方法,其特征在于,所述第一子地圖數(shù)據(jù)中還包括;所述第一 節(jié)點的邊所鏈接的目標節(jié)點中屬于息掛dangl ing節(jié)點的目標節(jié)點; 所述處理機在第一超級步super step中對所述第一子地圖數(shù)據(jù)中的每一個目標節(jié)點 進行權值分發(fā)之后,還包括: 所述處理機將對屬于dangling節(jié)點的目標節(jié)點分發(fā)的權值進行合并,得到所述第一 節(jié)點在所述第一 super st巧中對應的dangling分數(shù); 所述處理機將所述第一節(jié)點在所述第一 super step中對應的dangling分數(shù)存儲到所 述分布式文件系統(tǒng)中,W使所述管理服務器通過所述分布式文件系統(tǒng)獲取到在完成所述第 一 super St巧的計算后所述第一節(jié)點對應的dangling分數(shù)。
5. 根據(jù)權利要求1所述的方法,其特征在于,所述方法,還包括: 所述處理機監(jiān)測所述分布式文件系統(tǒng)中所述第一節(jié)點對應的源節(jié)點是否為所述第一 節(jié)點生成有消息,所述第一節(jié)點為所述源節(jié)點的目標節(jié)點; 若所述源節(jié)點為所述第一節(jié)點生成有消息,所述處理機從所述分布式文件系統(tǒng)中獲取 所述源節(jié)點為所述第一節(jié)點生成的消息; 所述處理機對所有源節(jié)點為所述第一節(jié)點分發(fā)的權值進行合并,得到所述第一節(jié)點的 權值。
6. 根據(jù)權利要求5所述的方法,其特征在于,所述處理機對所有源節(jié)點為所述第一節(jié) 點分發(fā)的權值進行合并,包括: 所述處理機對每N個源節(jié)點為所述第一節(jié)點分發(fā)的權值進行合并后,備份當前得到的 所述第一節(jié)點的權值,并記錄下已經(jīng)處理過的源節(jié)點的ID,所述N為自然數(shù)。
7. 根據(jù)權利要求1所述的方法,其特征在于,所述處理機將在所述第一 super step中 對所述第一子地圖數(shù)據(jù)中的每一個目標節(jié)點分別生成的消息存儲到所述分布式文件系統(tǒng) 中之后,還包括: 所述處理機監(jiān)測超級步的輪次信息是否發(fā)生更新; 若所述超級步的輪次信息從所述第一super St巧更新為第二super step,所述處理機 在第二super step中對所述第一子地圖數(shù)據(jù)中的每一個目標節(jié)點進行權值分發(fā),針對所述 第一子地圖數(shù)據(jù)中的每一個目標節(jié)點分別生成消息,并將生成的消息存儲到所述分布式文 件系統(tǒng)中。
8. -種鏈接分析的計算方法,其特征在于,包括: 管理服務器將地圖數(shù)據(jù)劃分為多個子地圖數(shù)據(jù),其中,每個子地圖數(shù)據(jù)包括一個源節(jié) 點的ID和所述源節(jié)點的邊所鏈接的目標節(jié)點的ID ; 所述管理服務器將所述多個子地圖數(shù)據(jù)存儲到分布式文件系統(tǒng); 所述管理服務器監(jiān)測每個處理機是否已經(jīng)根據(jù)所述子地圖數(shù)據(jù)完成第一超級步super step的計算。
9. 根據(jù)權利要求8所述的方法,其特征在于,所述方法還包括
當前第4頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
肃南| 天门市| 郯城县| 清河县| 邛崃市| 昭苏县| 景东| 喀喇沁旗| 铁岭市| 石首市| 墨脱县| 正阳县| 曲麻莱县| 浦江县| 梁山县| 沐川县| 桂东县| 余干县| 和林格尔县| 旬阳县| 万山特区| 永年县| 汽车| 东乡族自治县| 邯郸市| 清原| 凌海市| 建湖县| 泽州县| 张家港市| 莲花县| 卢龙县| 忻城县| 莒南县| 枣强县| 台东市| 新巴尔虎左旗| 吴川市| 双桥区| 娱乐| 通江县|