基于計算機集群的任務(wù)處理方法
【專利摘要】本發(fā)明公開了一種基于計算機集群的任務(wù)處理方法,該方法包括:將任務(wù)鏈中的每個任務(wù)節(jié)點劃分為多個子任務(wù)節(jié)點;分配完成子任務(wù)節(jié)點所需的運算到所述計算機集群中的多個計算機節(jié)點進行運算處理;保存所述多個計算機節(jié)點運算處理的狀態(tài)快照;以及當所述子任務(wù)節(jié)點中斷時,根據(jù)所述狀態(tài)快照恢復中斷前的子任務(wù)節(jié)點狀態(tài),以及繼續(xù)執(zhí)行中斷的子任務(wù)節(jié)點。通過本發(fā)明提供的方法,能夠?qū)⑷蝿?wù)節(jié)點運算分布到多個計算節(jié)點進行處理,還能夠?qū)崿F(xiàn)任務(wù)中斷后的繼續(xù)執(zhí)行而無需從任務(wù)鏈的初始狀態(tài)重復執(zhí)行,因而能夠極大地提高任務(wù)處理效率。
【專利說明】基于計算機集群的任務(wù)處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機應(yīng)用領(lǐng)域,具體地,涉及一種基于計算機集群的任務(wù)處理方法?!颈尘凹夹g(shù)】
[0002]對任務(wù)鏈的處理,當前一般以線性處理為主,使用的是傳統(tǒng)的非分布式計算技術(shù)。傳統(tǒng)的線性處理,無法對處理鏈進行結(jié)構(gòu)化的分解,任務(wù)處理只能從初始狀態(tài)開始直至運行結(jié)束,中間不易進行并行計算等優(yōu)化措施。同時因為強依賴的原因,如果當整個任務(wù)處理過程中因為某些原因?qū)е绿幚碇袛啵瑢o法應(yīng)用之前處理已處理的資源,只能將任務(wù)從初始狀態(tài)重復執(zhí)行,導致任務(wù)處理效率降低、資源浪費及系統(tǒng)硬件性能的額外支出。
[0003]傳統(tǒng)的分布式任務(wù)調(diào)度技術(shù),能夠解決在任務(wù)鏈中網(wǎng)狀處理節(jié)點中子任務(wù)失效后,該子任務(wù)重新分配、啟動的問題。然而,當整個網(wǎng)狀處理節(jié)點失敗的時候,傳統(tǒng)的分布式任務(wù)調(diào)度技術(shù),無法從當前的網(wǎng)狀處理節(jié)點重新開始處理,只能將整個任務(wù)鏈從初始狀態(tài)重復執(zhí)行,仍然不能解決任務(wù)處理效率降低、資源浪費及系統(tǒng)硬件性能的額外支出的問題。
[0004]針對上述技術(shù)問題,現(xiàn)有技術(shù)中尚無良好解決方案。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是提供一種方法,該方法能夠?qū)崿F(xiàn)任務(wù)中斷后的繼續(xù)執(zhí)行,提高任務(wù)處理效率。
[0006]為了實現(xiàn)上述目的,本發(fā)明提供一種基于計算機集群的任務(wù)處理方法,其中,該方法包括:將任務(wù)鏈中的每個任務(wù)節(jié)點劃分為多個子任務(wù)節(jié)點;分配完成子任務(wù)節(jié)點所需的運算到所述計算機集群中的多個計算機節(jié)點進行運算處理;保存所述多個計算機節(jié)點運算處理的狀態(tài)快照;以及當所述子任務(wù)節(jié)點中斷時,根據(jù)所述狀態(tài)快照恢復中斷前的子任務(wù)節(jié)點狀態(tài),以及繼續(xù)執(zhí)行中斷的子任務(wù)節(jié)點。
[0007]進一步地,該方法還包括:對所述多個計算機節(jié)點進行心跳檢測;以及將分配到心跳檢測無響應(yīng)的計算機節(jié)點的運算再分配到其他計算機節(jié)點。
[0008]進一步地,該方法還包括:將所述多個計算機節(jié)點的運算處理結(jié)果保存到與所述計算機集群中的所有計算機節(jié)點連接的共享存儲器。
[0009]進一步地,該方法還包括:當執(zhí)行當前子任務(wù)節(jié)點的所有計算機節(jié)點運算處理完成后,對完成下一個子任務(wù)節(jié)點所需的運算進行分配。
[0010]進一步地,該方法還包括:根據(jù)貪婪算法分配所述完成子任務(wù)節(jié)點所需的運算。
[0011]進一步地,該方法還包括:在完成最后一個任務(wù)節(jié)點的運算后,輸出運算結(jié)果。
[0012]進一步地,所述計算機集群由部署云計算平臺的計算機節(jié)點組成。
[0013]進一步地,所述云計算平臺為HADOOP云計算平臺。
[0014]進一步地,所述計算機節(jié)點為LINUX系統(tǒng)服務(wù)器。
[0015]通過上述技術(shù)方案,將完成一個任務(wù)鏈步驟所需的運算分配到多個計算機節(jié)點進行運算處理,能夠?qū)⑦\算量化整為零,提高任務(wù)運行速度;通過保存運算處理的狀態(tài)快照,在任務(wù)鏈步驟因故中斷時,能夠?qū)⑷蝿?wù)鏈步驟恢復到中斷前狀態(tài),從而從中斷前狀態(tài)開始繼續(xù)執(zhí)行任務(wù)鏈。因此,通過上述技術(shù)方案,當任務(wù)鏈步驟或節(jié)點失敗時,能夠從失敗的步驟或節(jié)點繼續(xù)執(zhí)行任務(wù)鏈,而無需從初始狀態(tài)重復執(zhí)行,提高任務(wù)處理效率、降低資源浪費。
[0016]本發(fā)明的其他特征和優(yōu)點將在隨后的【具體實施方式】部分予以詳細說明。
【專利附圖】
【附圖說明】
[0017]附圖是用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與下面的【具體實施方式】一起用于解釋本發(fā)明,但并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0018]圖1是根據(jù)本發(fā)明實施方式的基于計算機集群的任務(wù)處理方法流程圖;以及
[0019]圖2是使用本發(fā)明實施方式提供的基于計算機集群的任務(wù)處理方法進行任務(wù)處理的流程圖。
【具體實施方式】
[0020]以下結(jié)合附圖對本發(fā)明的【具體實施方式】進行詳細說明。應(yīng)當理解的是,此處所描述的【具體實施方式】僅用于說明和解釋本發(fā)明,并不用于限制本發(fā)明。
[0021]圖1是根據(jù)本發(fā)明實施方式的基于計算機集群的任務(wù)處理方法流程圖。如圖1所示,本發(fā)明實施方式提供的基于計算機集群的任務(wù)處理方法,可以包括:S101,將任務(wù)鏈中的每個任務(wù)節(jié)點劃分為多個子任務(wù)節(jié)點;S102,分配完成子任務(wù)節(jié)點所需的運算到所述計算機集群中的多個計算機節(jié)點進行運算處理;S103,保存所述多個計算機節(jié)點運算處理的狀態(tài)快照;以及S104,當所述子任務(wù)節(jié)點中斷時,根據(jù)所述狀態(tài)快照恢復中斷前的子任務(wù)節(jié)點狀態(tài),以及繼續(xù)執(zhí)行中斷的子任務(wù)節(jié)點。
[0022]通過上述技術(shù)方案,將完成一個任務(wù)鏈步驟所需的運算分配到多個計算機節(jié)點進行運算處理,能夠?qū)⑦\算量化整為零,提高任務(wù)運行速度;通過保存運算處理的狀態(tài)快照,在任務(wù)鏈步驟因故中斷時,能夠?qū)⑷蝿?wù)鏈步驟恢復到中斷前狀態(tài),從而從中斷前狀態(tài)開始繼續(xù)執(zhí)行任務(wù)鏈。因此,通過上述技術(shù)方案,當任務(wù)鏈步驟或節(jié)點失敗時,能夠從失敗的步驟或節(jié)點繼續(xù)執(zhí)行任務(wù)鏈,而無需從初始狀態(tài)重復執(zhí)行,提高任務(wù)處理效率、降低資源浪費。
[0023]在優(yōu)選的實施方式中,方法還可以包括:對多個計算機節(jié)點進行心跳檢測;以及將分配到心跳檢測無響應(yīng)的計算機節(jié)點的運算再分配到其他計算機節(jié)點。通過心跳檢測可以確定進行運算的計算機節(jié)點的工作狀態(tài)。為了確保分配到每個計算機節(jié)點的運算都能夠完成,當出現(xiàn)心跳檢測無響應(yīng)的計算機時,可以將分配到該計算機節(jié)點的運算重新分配到其他心跳檢測正常的計算機節(jié)點。優(yōu)選地,重新分配到的計算機節(jié)點可以是已完成被分配的運算的計算機節(jié)點,這樣可以充分利用空閑計算資源完成運算。
[0024]為了使完成任務(wù)鏈中每個任務(wù)節(jié)點或子任務(wù)節(jié)點的運算的計算機節(jié)點能夠獲取運算所需的數(shù)據(jù),在實施方式中,方法還包括:將所述多個計算機節(jié)點的運算處理結(jié)果保存到與所述計算機集群中的所有計算機節(jié)點連接的共享存儲器。這樣所有計算機節(jié)點可以在運算開始時從共享存儲器獲取運算數(shù)據(jù),以及在運算完成時向共享存儲器中存儲運算結(jié)果。這里需要說明的是,計算機節(jié)點運算處理的狀態(tài)快照也可以保存在共享存儲器中,或者也可以單獨設(shè)置快照存儲器。存儲器的實例包括但不局限于只讀存儲器(ROM)、隨機存取存儲器(RAM)、寄存器、緩沖存儲器、半導體存儲設(shè)備等。
[0025]在不同的實施方式中,該方法還可以包括:當執(zhí)行當前子任務(wù)節(jié)點的所有計算機節(jié)點運算處理完成后,對完成下一個子任務(wù)節(jié)點所需的運算進行分配。在實施方式中,存在多種情況需要執(zhí)行上述步驟。例如,對于大量運算,需要使用計算機集群中的所有計算機節(jié)點參與的子任務(wù)節(jié)點的運算,只有當所有計算機節(jié)點都完成運算處理后才能繼續(xù)分配下一子任務(wù)節(jié)點的運算。再如,對于需要得到上一子任務(wù)節(jié)點的全部運算結(jié)果后才能分配下一子任務(wù)節(jié)點的運算的情況,方法中也需要包含這樣的步驟。當然,在實施方式中,也可以將不同子任務(wù)節(jié)點的運算同時分配到計算機集群中的不同計算機節(jié)點組進行處理。
[0026]圖2是使用本發(fā)明實施方式提供的基于計算機集群的任務(wù)處理方法進行任務(wù)處理的流程圖。如圖2所示,在一個任務(wù)鏈從開始到結(jié)束之間可以有多個任務(wù)節(jié)點(或網(wǎng)狀處理節(jié)點),每個任務(wù)節(jié)點中可以包括(例如具有網(wǎng)狀拓撲結(jié)構(gòu)的)多個子任務(wù)節(jié)點,每個子任務(wù)節(jié)點的運算可以被分配到計算機集群中的一個或多個計算機節(jié)點(圖中未示出)進行處理。每個計算機節(jié)點所要進行的運算可以由統(tǒng)一的總控單元進行,該總控單元可以是計算機集群中的一個計算機節(jié)點,同時負責計算機集群中其他所有計算機節(jié)點的心跳檢測。與運算相關(guān)的上下文共享數(shù)據(jù)(例如,計算機節(jié)點的運算處理結(jié)果)可以被保存到與所述計算機集群中的所有計算機節(jié)點連接的共享存儲器。在完成最后一個網(wǎng)狀處理節(jié)點的運算后,可以輸出運算結(jié)果,例如輸出到目標應(yīng)用。需要說明的是,圖2中示出了包括三個網(wǎng)狀處理節(jié)點的任務(wù)鏈,然而附圖僅出于示例性目的,并不對任務(wù)鏈的長度進行限制。
[0027]在優(yōu)選的實施方式中,可以根據(jù)貪婪算法分配所述完成子任務(wù)節(jié)點所需的運算。即,可以將最復雜的運算交給計算能力最強的計算機節(jié)點進行處理,進而確保整個運算的處理速度。
[0028]在優(yōu)選的實施方式中,計算機集群可以由部署云計算平臺的計算機節(jié)點組成,從而可以利用云計算平臺的資源優(yōu)勢,降低大量運算對計算機節(jié)點的硬件要求。例如,可以使用HADOOP云計算平臺,而計算機節(jié)點可以為部署了云計算平臺(例如HADOOP的)LINUX系統(tǒng)服務(wù)器。以下,結(jié)合HADOOP云計算平臺對根據(jù)本發(fā)明的基于計算機集群的任務(wù)處理方法的實現(xiàn)方式進行說明。
[0029]在一個實施方式中,可以使用任務(wù)鏈開發(fā)模式以及命令模式搭配HADOOP云計算平臺來實現(xiàn)。其具體的實施方式如下:
[0030](I)根據(jù)業(yè)務(wù)需求(處理順序)把任務(wù)處理鏈進行功能切分;
[0031](2)確定任務(wù)鏈中任務(wù)先后順序以及依賴關(guān)系;
[0032](3)注冊統(tǒng)一接口,繼承接口對每個任務(wù)進行具體實現(xiàn);
[0033](4)選取多臺(例如,5至10臺)普通服務(wù)器(LINUX操作系統(tǒng)),作為報表數(shù)據(jù)計算處理的節(jié)點;
[0034](5)在這些普通的服務(wù)器上部署HADOOP平臺,將這些機器組合成一個分布式計算集群;
[0035](6)在分布式計算集群上初始化分布式文件系統(tǒng)(HDFS);
[0036](7)將處理鏈所需數(shù)據(jù)文件推送至HADOOP分布式文件系統(tǒng)(HDFS);
[0037](8)在節(jié)點進行計算的時候,系統(tǒng)會自動對輸入文件進行切分,分發(fā)至HADOOP集群進行分布式并行計算;
[0038](9)系統(tǒng)會對HADOOP集群進行計算的節(jié)點進行心跳檢測,實時監(jiān)測網(wǎng)狀任務(wù)節(jié)點的計算運行狀態(tài),及時移除無響應(yīng)節(jié)點,并將無響應(yīng)節(jié)點計算數(shù)據(jù)分發(fā)至其他節(jié)點繼續(xù)進行計算;
[0039](10)所有節(jié)點進行計算完成后,數(shù)據(jù)被發(fā)送至鏈式節(jié)點上下文共享數(shù)據(jù)區(qū)域內(nèi),可供其他節(jié)點使用;
[0040](11)在鏈式節(jié)點運行過程中,系統(tǒng)自動生成當前計算狀態(tài)快照,并能夠在處理鏈發(fā)生錯誤的時候提供足夠的數(shù)據(jù)可供任務(wù)鏈繼續(xù)進行數(shù)據(jù)處理;以及
[0041](12)將最終數(shù)據(jù)結(jié)果統(tǒng)一輸出給目標應(yīng)用,任務(wù)鏈結(jié)束。
[0042]通過本發(fā)明實施方式提供的基于計算機集群的任務(wù)處理方法能夠?qū)⑷蝿?wù)節(jié)點運算分布到多個計算節(jié)點進行處理,還能夠?qū)崿F(xiàn)任務(wù)中斷后的繼續(xù)執(zhí)行而無需從任務(wù)鏈的初始狀態(tài)重復執(zhí)行,因而能夠極大地提高任務(wù)處理效率。
[0043]以上結(jié)合附圖詳細描述了本發(fā)明的優(yōu)選實施方式,但是,本發(fā)明并不限于上述實施方式中的具體細節(jié),在本發(fā)明的技術(shù)構(gòu)思范圍內(nèi),可以對本發(fā)明的技術(shù)方案進行多種簡單變型,這些簡單變型均屬于本發(fā)明的保護范圍。例如,可以將計算機節(jié)點改變?yōu)橛嬎愎?jié)點或計算單元。
[0044]另外需要說明的是,在上述【具體實施方式】中所描述的各個具體技術(shù)特征,在不矛盾的情況下,可以通過任何合適的方式進行組合。為了避免不必要的重復,本發(fā)明對各種可能的組合方式不再另行說明。
[0045]此外,本發(fā)明的各種不同的實施方式之間也可以進行任意組合,只要其不違背本發(fā)明的思想,其同樣應(yīng)當視為本發(fā)明所公開的內(nèi)容。
【權(quán)利要求】
1.一種基于計算機集群的任務(wù)處理方法,其特征在于,該方法包括: 將任務(wù)鏈中的每個任務(wù)節(jié)點劃分為多個子任務(wù)節(jié)點; 分配完成子任務(wù)節(jié)點所需的運算到所述計算機集群中的多個計算機節(jié)點進行運算處理; 保存所述多個計算機節(jié)點運算處理的狀態(tài)快照;以及 當所述子任務(wù)節(jié)點中斷時,根據(jù)所述狀態(tài)快照恢復中斷前的子任務(wù)節(jié)點狀態(tài),以及繼續(xù)執(zhí)行中斷的子任務(wù)節(jié)點。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 對所述多個計算機節(jié)點進行心跳檢測;以及 將分配到心跳檢測無響應(yīng)的計算機節(jié)點的運算再分配到其他計算機節(jié)點。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 將所述多個計算機節(jié)點的運算處理結(jié)果保存到與所述計算機集群中的所有計算機節(jié)點連接的共享存儲器。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 當執(zhí)行當前子任務(wù)節(jié)點的所有計算機節(jié)點運算處理完成后,對完成下一個子任務(wù)節(jié)點所需的運算進行分配。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 根據(jù)貪婪算法分配所述完成子任務(wù)節(jié)點所需的運算。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 在完成最后一個任務(wù)節(jié)點的運算后,輸出運算結(jié)果。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算機集群由部署云計算平臺的計算機節(jié)點組成。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述云計算平臺為HADOOP云計算平臺。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述計算機節(jié)點為LINUX系統(tǒng)服務(wù)器。
【文檔編號】G06F11/14GK103970611SQ201410187057
【公開日】2014年8月6日 申請日期:2014年5月5日 優(yōu)先權(quán)日:2014年5月5日
【發(fā)明者】王亮, 張克慧, 譚映忠, 劉新宇, 劉暢, 關(guān)丹鳳, 陳璇, 郭磊 申請人:神華集團有限責任公司