欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種計算機修復(fù)控制方法及系統(tǒng)、修復(fù)方法及系統(tǒng)與流程

文檔序號:11406949閱讀:210來源:國知局
一種計算機修復(fù)控制方法及系統(tǒng)、修復(fù)方法及系統(tǒng)與流程

本發(fā)明涉及云計算領(lǐng)域,尤其涉及一種計算機修復(fù)控制方法及系統(tǒng)、修復(fù)方法及系統(tǒng)。



背景技術(shù):

云計算的主要目的是采用網(wǎng)絡(luò)連接大量普通廉價的計算機,通過軟件的方式虛擬成一臺“超級計算機”,對外提供計算處理服務(wù)。相比于超級計算機或者企業(yè)級計算機,普通廉價的計算機存在著穩(wěn)定性低,壽命短,故障率高的問題。一個云計算中心包括成千上萬臺計算機,每天都會有大量的計算機出現(xiàn)故障。

現(xiàn)有的自動化修復(fù)方案中,每個計算機根據(jù)本機中monitor(監(jiān)控軟件)的匯報結(jié)果判斷并執(zhí)行修復(fù),存在以下缺陷:

(1)修復(fù)方式單一,無法根據(jù)實際情況調(diào)整修復(fù)操作,缺乏修復(fù)失敗或多次修復(fù)仍不能解決問題時的自動化應(yīng)對機制;而且過于依賴單機monitor的準(zhǔn)確性,如果monitor不夠精準(zhǔn),將可能導(dǎo)致誤判。

(2)自動化修復(fù)方案往往集中在單機上進(jìn)行,缺少全局意識,沒有對云計算等協(xié)同處理所涉及的大量計算機的修復(fù)問題統(tǒng)一進(jìn)行考慮,缺乏節(jié)奏控制,如果在同一時間段中,進(jìn)行修復(fù)的計算機過多,可能造成其余計算機處理量增大,導(dǎo)致其余計算機也陸續(xù)崩潰,即引起雪崩。

(3)沒有分別考慮不同集合的計算機(比如不同集群、不同應(yīng)用)對修復(fù)的容忍度。



技術(shù)實現(xiàn)要素:

本申請?zhí)峁┮环N計算機修復(fù)控制方法及系統(tǒng)、修復(fù)方法及系統(tǒng),能夠解 決無法根據(jù)實際情況調(diào)整修復(fù)操作、過分依賴單機monitor準(zhǔn)確性的問題。

本申請采用如下技術(shù)方案。

一種計算機修復(fù)控制方法,包括:

當(dāng)判斷第一計算機需要修復(fù)時,獲取所述第一計算機的歷史修復(fù)操作記錄;根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從預(yù)定的多個級別的修復(fù)操作中確定待使用的修復(fù)操作;

指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作,將所述待使用的修復(fù)操作記錄到所述第一計算機的歷史修復(fù)操作記錄中。

可選地,所述修復(fù)策略包括:

除了最高級別的修復(fù)操作以外,每個級別的修復(fù)操作對應(yīng)的升級條件;

所述根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從預(yù)定的多個級別的修復(fù)操作中確定待使用的修復(fù)操作包括:

s201、以最低級別的修復(fù)操作作為當(dāng)前修復(fù)操作;

s202、根據(jù)所述歷史修復(fù)操作記錄判斷是否滿足當(dāng)前修復(fù)操作對應(yīng)的升級條件,如果滿足則將高一級別的修復(fù)操作作為當(dāng)前修復(fù)操作,返回s202;如果不滿足或者當(dāng)前修復(fù)操作為最高級別的修復(fù)操作,則將當(dāng)前修復(fù)操作作為所述待使用的修復(fù)操作。

可選地,第i級修復(fù)操作對應(yīng)的升級條件為:所述第一計算機在當(dāng)前時間點之前的第i預(yù)定時間長度內(nèi),進(jìn)行第i級修復(fù)操作的次數(shù)達(dá)到第i預(yù)定次數(shù)閾值;i為大于或等于1、小于n的每個整數(shù),n為級別的總數(shù);其中,第i+1級高于第i級;

所述將待使用的修復(fù)操作記錄到所述第一計算機的歷史修復(fù)操作記錄中的步驟中還包括:記錄所述待使用的修復(fù)操作的時間信息。

可選地,所述指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作前還包括:

在所述第一計算機所屬的第一計算機集合的所有計算機的歷史修復(fù)操作記錄中,獲取所述待使用的修復(fù)操作的數(shù)據(jù),根據(jù)所獲取的數(shù)據(jù)及全局策 略判斷是否允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作;如果允許則指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作。

可選地,不同計算機集合所對應(yīng)的所述全局策略不同;和/或,不同計算機集合中的計算機所對應(yīng)的所述修復(fù)策略不同。

可選地,所述全局策略包括:

一個計算機集合中的計算機進(jìn)行不同的修復(fù)操作對應(yīng)的頻率上限。

可選地,所述頻率上限包括最小執(zhí)行周期及次數(shù)上限;其中,級別越高的修復(fù)操作對應(yīng)的最小執(zhí)行周期越長;

所述獲取所述待使用的修復(fù)操作的數(shù)據(jù)包括:

獲取所述待使用的修復(fù)操作所對應(yīng)的最小執(zhí)行周期中,所述第一計算機集合的計算機進(jìn)行所述待使用的修復(fù)操作的次數(shù);

根據(jù)所獲取的數(shù)據(jù)及全局策略判斷是否允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作包括:

如果獲取的次數(shù)等于所述次數(shù)上限,則不允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作;如果獲取的次數(shù)小于所述次數(shù)上限,則允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作。

可選地,所述多個級別的修復(fù)操作按照級別從低到高依次為:停止指令輸入、重啟、重裝、遠(yuǎn)程操作。

一種計算機修復(fù)控制系統(tǒng),包括:

操作管理模塊,用于當(dāng)判斷第一計算機需要修復(fù)時,獲取所述第一計算機的歷史修復(fù)操作記錄;根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從預(yù)定的多個級別的修復(fù)操作中確定待使用的修復(fù)操作;

修復(fù)服務(wù)模塊,用于指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作,將所述待使用的修復(fù)操作記錄到所述第一計算機的歷史修復(fù)操作記錄中。

可選地,所述修復(fù)策略包括:

除了最高級別的修復(fù)操作以外,每個級別的修復(fù)操作對應(yīng)的升級條件;

所述操作管理模塊根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從預(yù)定的多個級別的修復(fù)操作中確定待使用的修復(fù)操作包括:

所述操作管理模塊以最低級別的修復(fù)操作作為當(dāng)前修復(fù)操作;根據(jù)所述歷史修復(fù)操作記錄判斷是否滿足當(dāng)前修復(fù)操作對應(yīng)的升級條件,如果滿足則將高一級別的修復(fù)操作作為當(dāng)前修復(fù)操作,再次根據(jù)所述歷史修復(fù)操作記錄判斷是否滿足當(dāng)前修復(fù)操作對應(yīng)的升級條件;如果不滿足或者當(dāng)前修復(fù)操作為最高級別的修復(fù)操作,則將當(dāng)前修復(fù)操作作為所述待使用的修復(fù)操作。

可選地,第i級修復(fù)操作對應(yīng)的升級條件為:所述第一計算機在當(dāng)前時間點之前的第i預(yù)定時間長度內(nèi),進(jìn)行第i級修復(fù)操作的次數(shù)達(dá)到第i預(yù)定次數(shù)閾值;i為大于或等于1、小于n的每個整數(shù),n為級別的總數(shù);其中,第i+1級高于第i級;

所述修復(fù)服務(wù)模塊還用于在將待使用的修復(fù)操作記錄到所述第一計算機的歷史修復(fù)操作記錄中時,記錄所述待使用的修復(fù)操作的時間信息。

可選地,所述的系統(tǒng)還包括:

配額管理模塊,用于在所述修復(fù)服務(wù)模塊指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作前,在所述第一計算機所屬的第一計算機集合的所有計算機的歷史修復(fù)操作記錄中,獲取所述待使用的修復(fù)操作的數(shù)據(jù),根據(jù)所獲取的數(shù)據(jù)及全局策略判斷是否允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作;

所述修復(fù)服務(wù)模塊當(dāng)所述配額管理模塊判斷允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作時,執(zhí)行所述指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作。

可選地,不同計算機集合所對應(yīng)的所述全局策略不同;和/或,不同計算機集合中的計算機所對應(yīng)的所述修復(fù)策略不同。

可選地,所述全局策略包括:

一個計算機集合中的計算機進(jìn)行不同的修復(fù)操作對應(yīng)的頻率上限。

可選地,所述頻率上限包括最小執(zhí)行周期及次數(shù)上限;其中,級別越高 的修復(fù)操作對應(yīng)的最小執(zhí)行周期越長;

所述配額管理模塊獲取所述待使用的修復(fù)操作的數(shù)據(jù)包括:

所述配額管理模塊獲取所述待使用的修復(fù)操作所對應(yīng)的最小執(zhí)行周期中,所述第一計算機集合的計算機進(jìn)行所述待使用的修復(fù)操作的次數(shù);

所述配額管理模塊根據(jù)所獲取的數(shù)據(jù)及全局策略判斷是否允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作包括:

所述配額管理模塊當(dāng)獲取的次數(shù)等于所述次數(shù)上限時,不允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作;當(dāng)獲取的次數(shù)小于所述次數(shù)上限時,允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作。

可選地,所述多個級別的修復(fù)操作按照級別從低到高依次為:停止指令輸入、重啟、重裝、遠(yuǎn)程操作。

一種修復(fù)方法,包括:

執(zhí)行上述的計算機修復(fù)控制方法;

當(dāng)指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作時,通過與所述第一計算機之間的接口,執(zhí)行所述待使用的修復(fù)操作。

一種修復(fù)系統(tǒng),包括:

上述的計算機修復(fù)控制系統(tǒng);

執(zhí)行模塊,用于當(dāng)所述修復(fù)服務(wù)模塊指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作時,通過與所述第一計算機之間的接口,執(zhí)行所述待使用的修復(fù)操作。

本申請包括以下優(yōu)點:

本申請的至少一個備選方案根據(jù)歷史修復(fù)記錄及修復(fù)策略在預(yù)定的多個級別的修復(fù)操作中決定所采用的修復(fù)操作,這樣在歷史修復(fù)記錄滿足修復(fù)策略中的相應(yīng)條件時,可以自動選擇高級別的修復(fù)操作,不需要人工干預(yù);雖然在決定修復(fù)時仍需要利用monitor的數(shù)據(jù),但是具體如何修復(fù)將根據(jù)歷史修復(fù)操作記錄進(jìn)行抉擇,因此修復(fù)過程不單純依賴單機monitor的數(shù)據(jù), 對monitor的準(zhǔn)確性要求不高。

本申請的一個備選方案中,修復(fù)策略包括除了最高級別的修復(fù)操作以外,不同級別的修復(fù)操作的升級條件;這樣修復(fù)失敗或多次修復(fù)仍不能解決問題時可以自動升級到更高級別的修復(fù)操作。

本申請的一個備選方案中,多臺計算機的修復(fù)統(tǒng)一由中心節(jié)點根據(jù)全局策略進(jìn)行控制,能夠從全局角度考慮多臺計算機的運行情況和最近的故障情況;通過全局統(tǒng)一決策的方式,控制修復(fù)節(jié)奏,防止發(fā)生雪崩。

本申請的一個備選方案中,可以對不同的計算機集合進(jìn)行個性化設(shè)置,比如針對不同的集群、不同的應(yīng)用設(shè)置不同的修復(fù)策略,和/或,全局策略。

本申請的一個備選方案中,采用計算機之外的設(shè)備對計算機進(jìn)行修復(fù),從而使計算機無法自行完成的修復(fù)操作也可以使用在修復(fù)中。

當(dāng)然,實施本申請的任一產(chǎn)品必不一定需要同時達(dá)到以上所述的所有優(yōu)點。

附圖說明

圖1是實施例一的計算機修復(fù)控制方法的流程示意圖;

圖2是實施例二的計算機修復(fù)控制系統(tǒng)的示意圖;

圖3是實施例三的修復(fù)方法的流程示意圖;

圖4是實施例四的計算機修復(fù)控制系統(tǒng)的示意圖;

圖5是實施示例中的系統(tǒng)示意圖;

圖6是實施示例中的流程示意圖。

具體實施方式

下面將結(jié)合附圖及實施例對本申請的技術(shù)方案進(jìn)行更詳細(xì)的說明。

需要說明的是,如果不沖突,本申請實施例以及實施例中的各個特征可以相互結(jié)合,均在本申請的保護范圍之內(nèi)。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的 步驟。

在一個典型的配置中,客戶端或認(rèn)證系統(tǒng)的計算設(shè)備可包括一個或多個處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存(memory)。

內(nèi)存可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲器(rom)或閃存(flashram)。內(nèi)存是計算機可讀介質(zhì)的示例。內(nèi)存可能包括模塊1,模塊2,……,模塊n(n為大于2的整數(shù))。

計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機存取存儲器(sram)、動態(tài)隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom),快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機可讀介質(zhì)不包括非暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號和載波。

實施例一、一種計算機修復(fù)控制方法,如圖1所示,包括步驟s110~s120。

s110、當(dāng)判斷第一計算機需要修復(fù)時,獲取所述第一計算機的歷史修復(fù)操作記錄;根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從預(yù)定的多個級別的修復(fù)操作中確定待使用的修復(fù)操作;

s120、指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作,將所述待使用的修復(fù)操作記錄到所述第一計算機的歷史修復(fù)操作記錄中。

本實施例,所述第一計算機可以指任意一臺計算機;當(dāng)本實施例的方法應(yīng)用于云計算中心或其它需要對多臺計算機的修復(fù)進(jìn)行控制的場景時,任意一臺需要修復(fù)的計算機都可以作為所述第一計算機。

本實施例中,上述控制方法可以但不限于由獨立于第一計算機以外的一 個或多個設(shè)備進(jìn)行;所述歷史修復(fù)操作數(shù)據(jù)可以保存在獨立于第一計算機以外的一個或多個設(shè)備上。進(jìn)行上述步驟和保存歷史修復(fù)操作數(shù)據(jù)的設(shè)備可以相同、部分相同或不同。所述歷史修復(fù)操作記錄可以定期進(jìn)行整理,比如設(shè)置一個期限,定期刪除該期限之前的數(shù)據(jù),以防止歷史修復(fù)操作過于龐大。

本實施例中,可以由第一計算機本身、或者其它設(shè)備對第一計算機進(jìn)行所述待使用的修復(fù)操作;可以根據(jù)修復(fù)操作決定是第一計算機本身進(jìn)行修復(fù),還是由其它設(shè)備進(jìn)行修復(fù),比如所述待進(jìn)行的修復(fù)操作為最低級別的修復(fù)操作時自己進(jìn)行修復(fù),如果為其它級別的修復(fù)操作則等待其它設(shè)備進(jìn)行修復(fù)。

本實施例中,所述修復(fù)操作是指對計算機進(jìn)行修復(fù)的操作;所述多個級別的修復(fù)操作可以但不限于包括:停止指令輸入(比如但不限于noop)、重啟、重裝(比如但不限于重克隆reclone)、遠(yuǎn)程控制。上述修復(fù)操作的排列順序是從低級別到高級別。所述多個級別的修復(fù)操作具體為何操作可以自行設(shè)置,不限于上例。多個修復(fù)操作的級別可以但不限于按照以下原則中的任一個或任意組合進(jìn)行設(shè)置:

對用戶影響越大的修復(fù)操作級別越高;

需要時間越長的修復(fù)操作級別越高;

修復(fù)力度越大的修復(fù)操作級別越高;比如對于操作系統(tǒng)的修復(fù)級別高于對于軟件系統(tǒng)的修復(fù);對于軟件系統(tǒng)的修復(fù)級別高于簡單修復(fù)(比如noop)。

本實施例中,所述歷史修復(fù)記錄可以但不限于通過提供審計服務(wù)的實體進(jìn)行記錄;審計服務(wù)可以包括:寫對應(yīng)計算機的歷史修復(fù)操作記錄和讀計算機的歷史修復(fù)操作記錄。

本實施例中,可以在第一計算機中的monitor上報問題后,根據(jù)所述第一計算機的metadata(元數(shù)據(jù))判斷所述第一計算機是否需要修復(fù);具體判斷的細(xì)節(jié)可以參考現(xiàn)有技術(shù)進(jìn)行。所述元數(shù)據(jù)可以保存在獨立于第一計算機以外的一個或多個設(shè)備上,和進(jìn)行上述方法以及保存歷史修復(fù)操作數(shù)據(jù)的設(shè)備可以相同、部分相同或不同。

本實施例的一種備選方案中,多臺計算機的元數(shù)據(jù)和歷史修復(fù)操作數(shù)據(jù) 保存在提供審計服務(wù)的主節(jié)點上;提供修復(fù)服務(wù)的中心節(jié)點從主節(jié)點獲取元數(shù)據(jù)及歷史修復(fù)操作數(shù)據(jù),以及進(jìn)行本實施例方法中的步驟s110和s120。所述主節(jié)點和中心節(jié)點均可以分布在多臺物理設(shè)備上。

本實施例的一種備選方案中,所述修復(fù)策略可以包括:

除了最高級別的修復(fù)操作以外,每個級別的修復(fù)操作對應(yīng)的升級條件;

所述根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從預(yù)定的多個級別的修復(fù)操作中確定待使用的修復(fù)操作包括:

s201、以最低級別的修復(fù)操作作為當(dāng)前修復(fù)操作;

s202、根據(jù)所述歷史修復(fù)操作記錄判斷是否滿足當(dāng)前修復(fù)操作對應(yīng)的升級條件,如果滿足則將高一級別的修復(fù)操作作為當(dāng)前修復(fù)操作,返回s202;如果不滿足或者當(dāng)前修復(fù)操作為最高級別的修復(fù)操作(即當(dāng)前修復(fù)操作沒有對應(yīng)的升級條件),則將當(dāng)前修復(fù)操作作為所述待使用的修復(fù)操作。

本備選方案能夠自動升級修復(fù)操作;比如修復(fù)時先將noop為當(dāng)前修復(fù)操作;如果noop修復(fù)失敗或者沒能解決問題,升級為重啟,重啟變?yōu)楫?dāng)前修復(fù)操作;如果重啟修復(fù)失敗或者沒能解決問題升級為重裝,重裝變?yōu)楫?dāng)前修復(fù)操作;如果重啟修復(fù)失敗或者沒能解決問題升級為遠(yuǎn)程控制,遠(yuǎn)程控制變?yōu)楫?dāng)前修復(fù)操作,沒有升級條件。所述多個級別的修復(fù)操作按照級別依次排序,就可以構(gòu)成一個修復(fù)操作鏈,比如:noop→重啟→重裝→遠(yuǎn)程控制,這四個修復(fù)操作就是一個修復(fù)操作鏈,表示了不同級別修復(fù)操作的升級順序。

其中,修復(fù)操作失敗可以是指修復(fù)操作沒有完成,修復(fù)操作不能解決問題可以是指修復(fù)之后未達(dá)到預(yù)期目標(biāo)(比如計算機恢復(fù)穩(wěn)定等);修復(fù)操作失敗或不能解決問題都會導(dǎo)致修復(fù)之后很快又需要修復(fù)。

其中,第i級的修復(fù)操作對應(yīng)的升級條件可以但不限于為所述第一計算機在當(dāng)前時間點之前的第i預(yù)定時間長度內(nèi),進(jìn)行第i級修復(fù)操作(無論成功或失敗)的次數(shù)達(dá)到第i預(yù)定次數(shù)閾值;i為大于或等于1、小于n的每個整數(shù),n為級別的總數(shù);其中,第i+1級高于第i級;

所述將待使用的修復(fù)操作記錄到所述第一計算機的歷史修復(fù)操作記錄 中的步驟中還可以包括:記錄所述待使用的修復(fù)操作的時間信息;所述時間信息可以為決定對所述第一計算機進(jìn)行所述待使用的修復(fù)操作的時刻,也可以為對所述第一計算機開始進(jìn)行或結(jié)束進(jìn)行所述待使用的修復(fù)操作的時刻。

其中,不同級別修復(fù)操作對應(yīng)的的預(yù)定時間長度和預(yù)定次數(shù)閾值都可以根據(jù)經(jīng)驗、試驗或需要自行設(shè)置。

本備選方案的一個例子如下:

四個級別的修復(fù)操作按照級別從低到高排列依次為:noop、restart(重啟)、reclone、rma(remotemonitoringagent,遠(yuǎn)程監(jiān)控代理)。

修復(fù)策略如表1所示。

表1、修復(fù)策略

本備選方案中,所述根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從預(yù)定的多個級別的修復(fù)操作中確定待使用的修復(fù)操作的操作還可以用另一種實施方式進(jìn)行:

以所述第一計算機最后一次(即距離當(dāng)前時間點最近的一次)使用的修復(fù)操作所屬的級別作為當(dāng)前級別,判斷所述歷史修復(fù)操作記錄是否滿足按級別的升級條件,如果不滿足則選擇級別高于當(dāng)前級別的修復(fù)操作作為所述待使用的修復(fù)操作。

該實施方式中所述修復(fù)策略還可以包括降級策略,比如在當(dāng)前時間點之前,預(yù)定的降級時間長度內(nèi)未進(jìn)行過任何修復(fù)操作,或者最后一次進(jìn)行的修復(fù)操作為最高級別的修復(fù)操作;當(dāng)歷史修復(fù)操作記錄滿足降級策略時則選擇最低級別的修復(fù)操作。比如進(jìn)行了rma修復(fù)后,下一次修復(fù)時恢復(fù)成使用noop修復(fù);或者最近20天內(nèi)沒有進(jìn)行過任何修復(fù)操作,則恢復(fù)成使用noop修復(fù);比如restart后修復(fù)成功,計算機運行穩(wěn)定,一直到20天后才再次出 現(xiàn)故障,此時恢復(fù)成使用noop修復(fù)。

其它備選方案中,所述修復(fù)策略可以根據(jù)需要自行設(shè)置,比如可以包括每個級別的使用條件;如果同時滿足兩個或兩個以上級別的使用條件,則優(yōu)先選擇其中較高級別的修復(fù)操作作為待使用的修復(fù)操作。再比如升級條件可以不考慮時間信息,只要進(jìn)行一個級別的修復(fù)操作的次數(shù)達(dá)到預(yù)定標(biāo)準(zhǔn),就升級修復(fù)操作。

本實施例的一種備選方案中,所述步驟s120前還可以包括:

在所述第一計算機所屬的第一計算機集合的所有計算機(包括所述第一計算機)的歷史修復(fù)操作記錄中,獲取所述待使用的修復(fù)操作的數(shù)據(jù),根據(jù)所獲取的數(shù)據(jù)及全局策略判斷是否允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作;如果允許則進(jìn)行所述步驟s120。

本備選方案中,所述計算機集合可以為以下任一種:一個集群中的計算機、一個云計算中心中的計算機、一個cluster(簇)中的計算機、協(xié)同處理同一個業(yè)務(wù)(比如某個應(yīng)用)的計算機。哪些計算機作為一個計算機集合可以根據(jù)實際情況自行設(shè)置。

本備選方案可以從全局的角度掌控一個集合中計算機的修復(fù)節(jié)奏,避免發(fā)生雪崩。在一個計算機集合對應(yīng)于一個集群或協(xié)同處理一個業(yè)務(wù)的計算機等情況中,可以根據(jù)集群或應(yīng)用的需求來設(shè)置全局策略,以滿足集群或業(yè)務(wù)對處理性能、速度等參數(shù)的要求。

本備選方案中,可以先獲取第一計算機集合的所有計算機的歷史修復(fù)操作記錄,然后再從中篩選出待使用的修復(fù)操作的數(shù)據(jù);也可以在獲取時就只獲取待使用的修復(fù)操作的數(shù)據(jù)。本備選方案中,所述全局策略可以包括:

本集合的計算機進(jìn)行不同的修復(fù)操作對應(yīng)的頻率上限。

不同的修復(fù)操作對應(yīng)的頻率上限可以相同也可以不同,可以根據(jù)經(jīng)驗、試驗或需要設(shè)置頻率上限;最低級別的修復(fù)操作可以不設(shè)置頻率上限。

本備選方案的一種實施方式中,所述頻率上限可以包括最小執(zhí)行周期及次數(shù)上限;其中,級別越高的修復(fù)操作對應(yīng)的最小執(zhí)行周期越長。

所述獲取所述待使用的修復(fù)操作的數(shù)據(jù)包括:

獲取所述待使用的修復(fù)操作所對應(yīng)的最小執(zhí)行周期中,所述第一計算機集合的計算機進(jìn)行所述待使用的修復(fù)操作的次數(shù);

根據(jù)所獲取的數(shù)據(jù)及全局策略判斷是否允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作包括:

如果獲取的次數(shù)等于所述次數(shù)上限,則不允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作;如果獲取的次數(shù)小于所述次數(shù)上限,則允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作。

所述全局策略相當(dāng)于:在一個修復(fù)操作對應(yīng)的最小執(zhí)行周期內(nèi),本集合中的所有計算機只允許執(zhí)行一次(或預(yù)定次數(shù))該修復(fù)操作;比如restart對應(yīng)的最小執(zhí)行周期為10分鐘,次數(shù)上限為1,當(dāng)集合中的計算機a執(zhí)行restart,開始計時,之后該集合中的某個計算機(包括計算機a)需要修復(fù),且所確定的待使用的修復(fù)操作為restart,如果計時時間未滿10分鐘則不允許進(jìn)行restart,達(dá)到或超過10分鐘則允許進(jìn)行restart。

本備選方案的另一種實施方式中,所述頻率上限也可以直接為頻率閾值,在進(jìn)行根據(jù)全局策略的判斷時,根據(jù)所述第一計算機所屬的第一計算機集合的所有計算機的歷史修復(fù)操作記錄,獲取第一計算機集合中的計算機進(jìn)行所述待使用的修復(fù)操作的頻率,并和所述頻率閾值進(jìn)行比較,已達(dá)到該頻率閾值則不允許進(jìn)行所述待使用的修復(fù)操作;未達(dá)到該頻率閾值則允許。

下面用本備選方案的一個例子說明全局策略的內(nèi)容:

本例子中,四個級別的修復(fù)操作按照級別從低到高排列依次為:noop、restart、reclone、rma,restart、reclone、rma的次數(shù)上限全部為1次,對noop的頻率上限不進(jìn)行規(guī)定。以一個集群作為一個所述計算機集合。

全局策略如表2所示。

表2、全局策略

本備選方案中,所述全局策略可以根據(jù)需要設(shè)置為其它形式,比如本集合在同一時間段中進(jìn)行某個級別的修復(fù)操作的計算機個數(shù)上限。

本備選方案中,不同集合的全局策略可以相同或不同;不同集合的修復(fù)策略也可以相同或不同;同一個集合中不同計算機的修復(fù)策略也可以相同或不同。

實施例二、一種計算機修復(fù)控制系統(tǒng),如圖2所示,包括:

操作管理模塊21,用于當(dāng)判斷第一計算機需要修復(fù)時,獲取所述第一計算機的歷史修復(fù)操作記錄;根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從預(yù)定的多個級別的修復(fù)操作中確定待使用的修復(fù)操作;

修復(fù)服務(wù)模塊22,用于指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作,將所述待使用的修復(fù)操作記錄到所述第一計算機的歷史修復(fù)操作記錄中。

所述操作管理模塊21是以上所述系統(tǒng)中負(fù)責(zé)確定待使用的修復(fù)操作的部分,可以是軟件、硬件或兩者的結(jié)合。

所述修復(fù)服務(wù)模塊22是以上所述系統(tǒng)中負(fù)責(zé)對外交互的部分,可以是軟件、硬件或兩者的結(jié)合。

本實施例中,所述修復(fù)服務(wù)模塊22還可以用于在所述第一計算機中的monitor上報問題后,根據(jù)所述第一計算機的metadata(元數(shù)據(jù))判斷所述第一計算機是否需要修復(fù);具體判斷的細(xì)節(jié)可以參考現(xiàn)有技術(shù)進(jìn)行。

本實施例的一種備選方案中,所述修復(fù)策略可以包括:

除了最高級別的修復(fù)操作以外,每個級別的修復(fù)操作對應(yīng)的升級條件;

所述操作管理模塊根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從預(yù)定的多個級別的修復(fù)操作中確定待使用的修復(fù)操作包括:

所述操作管理模塊以最低級別的修復(fù)操作作為當(dāng)前修復(fù)操作;根據(jù)所述 歷史修復(fù)操作記錄判斷是否滿足當(dāng)前修復(fù)操作對應(yīng)的升級條件,如果滿足則將高一級別的修復(fù)操作作為當(dāng)前修復(fù)操作,再次根據(jù)所述歷史修復(fù)操作記錄判斷是否滿足當(dāng)前修復(fù)操作對應(yīng)的升級條件;如果不滿足或者當(dāng)前修復(fù)操作為最高級別的修復(fù)操作,則將當(dāng)前修復(fù)操作作為所述待使用的修復(fù)操作。

本備選方案中,第i級修復(fù)操作對應(yīng)的升級條件可以但不限于為:所述第一計算機在當(dāng)前時間點之前的第i預(yù)定時間長度內(nèi),進(jìn)行第i級修復(fù)操作的次數(shù)達(dá)到第i預(yù)定次數(shù)閾值;i為大于或等于1、小于n的每個整數(shù),n為級別的總數(shù);其中,第i+1級高于第i級;

所述修復(fù)服務(wù)模塊相應(yīng)還可以用于在將待使用的修復(fù)操作記錄到所述第一計算機的歷史修復(fù)操作記錄中時,記錄所述待使用的修復(fù)操作的時間信息。

本實施例的一種備選方案中,所述裝置還可以包括:

配額管理模塊,用于在所述修復(fù)服務(wù)模塊指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作前,在所述第一計算機所屬的第一計算機集合的所有計算機的歷史修復(fù)操作記錄中,獲取所述待使用的修復(fù)操作的數(shù)據(jù),根據(jù)所獲取的數(shù)據(jù)及全局策略判斷是否允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作;

所述修復(fù)服務(wù)模塊當(dāng)所述配額管理模塊判斷允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作時,執(zhí)行所述指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作。

所述配額管理模塊是以上所述系統(tǒng)中負(fù)責(zé)進(jìn)行全局修復(fù)控制的部分,可以是軟件、硬件或兩者的結(jié)合。

本備選方案中,不同計算機集合所對應(yīng)的所述全局策略可以相同或不同;不同計算機集合中的計算機所對應(yīng)的所述修復(fù)策略可以相同或不同;同一個計算機集合中的計算機所對應(yīng)的所述修復(fù)策略可以相同或不同。

本備選方案中,所述全局策略可以但不限于包括:

一個計算機集合中的計算機進(jìn)行不同的修復(fù)操作對應(yīng)的頻率上限。

本備選方案中,所述頻率上限可以包括最小執(zhí)行周期及次數(shù)上限;其中, 級別越高的修復(fù)操作對應(yīng)的最小執(zhí)行周期越長;

所述配額管理模塊獲取所述待使用的修復(fù)操作的數(shù)據(jù)可以包括:

所述配額管理模塊獲取所述待使用的修復(fù)操作所對應(yīng)的最小執(zhí)行周期中,所述第一計算機集合的計算機進(jìn)行所述待使用的修復(fù)操作的次數(shù);

所述配額管理模塊根據(jù)所獲取的數(shù)據(jù)及全局策略判斷是否允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作可以包括:

所述配額管理模塊當(dāng)獲取的次數(shù)等于所述次數(shù)上限時,不允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作;當(dāng)獲取的次數(shù)小于所述次數(shù)上限時,允許對所述第一計算機進(jìn)行所述待使用的修復(fù)操作。

本備選方案中,所述頻率上限也可以直接為頻率閾值,所述配額管理模塊根據(jù)所述第一計算機所屬的第一計算機集合的所有計算機的歷史修復(fù)操作記錄,獲取第一計算機集合中的計算機進(jìn)行所述待使用的修復(fù)操作的頻率,并和所述頻率閾值進(jìn)行比較,已達(dá)到該頻率閾值則不允許進(jìn)行所述待使用的修復(fù)操作;未達(dá)到該頻率閾值則允許。

本實施例的一種備選方案中,所述多個級別的修復(fù)操作按照級別從低到高依次可以為:停止指令輸入、重啟、重裝、遠(yuǎn)程操作。

其它實施細(xì)節(jié)可參見實施例一。

實施例三、一種修復(fù)方法,如圖3所示,包括步驟s310~s330。

s310、當(dāng)判斷第一計算機需要修復(fù)時,獲取所述第一計算機的歷史修復(fù)操作記錄;根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從多個級別的修復(fù)操作中確定待使用的修復(fù)操作;

s320、指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作,將所述待使用的修復(fù)操作記錄到所述第一計算機的歷史修復(fù)操作記錄中;

s330、當(dāng)指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作時,通過與所述第一計算機之間的接口,執(zhí)行所述待使用的修復(fù)操作。

其中,步驟s310同實施例一的s110,s310的實施細(xì)節(jié)可參見實施例一 中對s110實施細(xì)節(jié)的描述。步驟s320同實施例一的s120,s320的實施細(xì)節(jié)可參見實施例一中對s120實施細(xì)節(jié)的描述。步驟s310、s320相當(dāng)于執(zhí)行實施例一所述的計算機修復(fù)控制方法。

實施例四、一種修復(fù)系統(tǒng),如圖4所示,包括:

操作管理模塊41,用于當(dāng)判斷第一計算機需要修復(fù)時,獲取所述第一計算機的歷史修復(fù)操作記錄;根據(jù)所述歷史修復(fù)操作記錄以及預(yù)定的修復(fù)策略,從預(yù)定的多個級別的修復(fù)操作中確定待使用的修復(fù)操作;

修復(fù)服務(wù)模塊42,用于指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作,將所述待使用的修復(fù)操作記錄到所述第一計算機的歷史修復(fù)操作記錄中。

執(zhí)行模塊43,用于當(dāng)所述修復(fù)服務(wù)模塊指示對所述第一計算機進(jìn)行所述待使用的修復(fù)操作時,通過與所述第一計算機之間的接口,執(zhí)行所述待使用的修復(fù)操作。

所述執(zhí)行模塊43是以上所述系統(tǒng)中負(fù)責(zé)執(zhí)行修復(fù)的部分,可以是軟件、硬件或兩者的結(jié)合。

其中,操作管理模塊41同實施例二的操作管理模塊21,操作管理模塊41的實施細(xì)節(jié)可參見實施例二中對操作管理模塊21實施細(xì)節(jié)的描述。修復(fù)服務(wù)模塊42同實施例二的修復(fù)服務(wù)模塊22,修復(fù)服務(wù)模塊52的實施細(xì)節(jié)可參見實施例二中對修復(fù)服務(wù)模塊22實施細(xì)節(jié)的描述。操作管理模塊41、修復(fù)服務(wù)模塊42相當(dāng)于實施例二所述的計算機修復(fù)控制系統(tǒng)。

本實施例的一種備選方案中,所述系統(tǒng)還可以包括存儲模塊,用于保存所述歷史修復(fù)操作記錄,以及管理對所述歷史修復(fù)操作記錄的讀寫操作。

本實施例的一種備選方案中,所述執(zhí)行模塊和所述修復(fù)操作一一對應(yīng),或者執(zhí)行模塊組和所述修復(fù)操作一一對應(yīng);一個執(zhí)行模塊組中包括一個或多個執(zhí)行模塊。本備選方案中,每個或每組執(zhí)行模塊只進(jìn)行某一種修復(fù)操作。

下面用一個實施示例對上述實施例進(jìn)行說明。

本實施示例中,如圖5所示,計算機的元數(shù)據(jù)和歷史修復(fù)操作記錄保存在主節(jié)點,由主節(jié)點中的審計服務(wù)實體auditservice管理所述歷史修復(fù)操作記錄。中心節(jié)點進(jìn)行修復(fù)的控制,包括修復(fù)服務(wù)實體healingservice(相當(dāng)于前文的修復(fù)服務(wù)模塊)、操作管理實體actionmanager(相當(dāng)于前文的操作管理模塊)和配額管理實體quotamanager(相當(dāng)于前文的配額管理模塊)。每個計算機中運行monitor。由工作組laborworks中的設(shè)備(設(shè)置有前文所述的執(zhí)行模塊)執(zhí)行修復(fù)操作,一個設(shè)備對應(yīng)于一種修復(fù)操作。修復(fù)策略和全局策略分別如前文的表1、表2所示。

假設(shè)屬于clusterc的計算機為一個計算機集合,其中的計算機machine0出現(xiàn)問題,本實施示例的執(zhí)行過程如圖6所示,包括步驟601~609。

601、計算機machine0上的monitor發(fā)現(xiàn)計算機machine0出現(xiàn)內(nèi)存錯誤,上報給主節(jié)點。

602、healingservice周期性從主節(jié)點獲取問題計算機列表,發(fā)現(xiàn)machine0發(fā)生內(nèi)存錯誤;

603、healingservice根據(jù)machine0的元數(shù)據(jù)決定要進(jìn)行修復(fù);actionmanager通過auditservice獲取machine0的歷史修復(fù)操作記錄;以最低級別的noop作為當(dāng)前修復(fù)操作;

604、actionmanager根據(jù)歷史修復(fù)操作記錄和修復(fù)策略確定待使用的修復(fù)操作:

a)如果當(dāng)前修復(fù)操作為最高級別的修復(fù)操作,或者如果在當(dāng)前修復(fù)操作對應(yīng)的預(yù)定時間長度內(nèi),進(jìn)行當(dāng)前修復(fù)操作的次數(shù)小于當(dāng)前修復(fù)操作對應(yīng)的預(yù)定次數(shù)閾值,則返回當(dāng)前修復(fù)操作作為待使用的修復(fù)操作;

b)如果大于或等于當(dāng)前修復(fù)操作對應(yīng)的預(yù)定次數(shù)閾值,則升級到高一級別的修復(fù)操作,將高一級別的修復(fù)操作作為當(dāng)前修復(fù)操作并跳回604。

605、healingservice根據(jù)actionmanager返回的待使用的修復(fù)操作,向quotamanager申請所述待使用的修復(fù)操作。

606、quotamanager根據(jù)全局策略判斷是否允許本次申請:

quotamanager通過auditservice獲取待使用的修復(fù)操作對應(yīng)的最小執(zhí)行 周期內(nèi),clusterc中的計算機進(jìn)行所述待使用的修復(fù)操作的情況:

a)如果在待使用的修復(fù)操作對應(yīng)的最小執(zhí)行周期內(nèi),clusterc中已經(jīng)有計算機進(jìn)行過所述待使用的修復(fù)操作,則拒絕本次申請,申請失??;

b)如果在待使用的修復(fù)操作對應(yīng)的最小執(zhí)行周期內(nèi),clusterc中還沒有計算機進(jìn)行過所述待使用的修復(fù)操作,則允許本次申請,申請成功;

607、申請成功時healingservice將待使用的修復(fù)操作反饋回主節(jié)點,并通過auditservice記錄在計算機machine0對應(yīng)的歷史修復(fù)操作記錄中。主節(jié)點可以將待使用的修復(fù)操作的名稱和相應(yīng)的計算機的id記錄在一個修復(fù)列表中,也可以將所述待使用的修復(fù)操作的名稱直接記錄在問題計算機列表中,與計算機machine0對應(yīng)。

608、laborworks中的設(shè)備根據(jù)主節(jié)點上記錄的修復(fù)操作的名稱,決定是否需要工作;比如待使用的修復(fù)操作為noop,則對應(yīng)于noop的設(shè)備通過修復(fù)列表得知需要對計算機machine0進(jìn)行noop,則該設(shè)備通過計算機machine0的接口,停止輸入新的指令給計算機machine0;計算機machine0上的monitor將繼續(xù)進(jìn)行監(jiān)視,如果發(fā)現(xiàn)出錯則返回601。

上述步驟606中,如果申請失敗,則healingservice不再進(jìn)行操作,直到再收到actionmanager返回的待使用的修復(fù)操作,或下一次從主節(jié)點讀取問題計算機列表。

本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關(guān)硬件完成,所述程序可以存儲于計算機可讀存儲介質(zhì)中,如只讀存儲器、磁盤或光盤等??蛇x地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現(xiàn)。相應(yīng)地,上述實施例中的各模塊/單元可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。本申請不限制于任何特定形式的硬件和軟件的結(jié)合。

當(dāng)然,本申請還可有其他多種實施例,在不背離本申請精神及其實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本申請作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本申請的權(quán)利要求的保護范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
交城县| 萍乡市| 麻栗坡县| 浠水县| 包头市| 阳山县| 惠州市| 鄂托克前旗| 荔波县| 常州市| 景谷| 碌曲县| 铁岭市| 长白| 全南县| 龙南县| 东台市| 安仁县| 阳春市| 卓尼县| 石狮市| 江北区| 呈贡县| 贺州市| 台前县| 阳谷县| 广平县| 吉安市| 城固县| 志丹县| 孟村| 翁牛特旗| 高邮市| 淄博市| 铜梁县| 中西区| 崇信县| 平罗县| 邵东县| 永福县| 万荣县|