大規(guī)模并行計算機系統(tǒng)上的故障恢復以處理節(jié)點故障而不結(jié)束執(zhí)行的作業(yè)的制作方法

文檔序號：6476332閱讀：169來源：國知局

專利名稱：大規(guī)模并行計算機系統(tǒng)上的故障恢復以處理節(jié)點故障而不結(jié)束執(zhí)行的作業(yè)的制作方法
技術領域：
本發(fā)明一般地涉及并行計算系統(tǒng)上的故障恢復，更具體地說，涉及大恥漠并行超級計算機上的故障恢復以處理節(jié)點故障而不結(jié)束正在執(zhí)行的作業(yè)。
背景技術：
超級計算機不斷^A以應對復雜的計算作業(yè)。這些計算機對于從事高
性能計算(HPC)應用的科學家尤為有用，所述應用包括生命科學、金融建模、流體力學、量子化學、分子動力學、天文和空間探索以及氣象建模。超級計算機開發(fā)者已專注于大規(guī)模并行計算機結(jié)構來針對不斷增加的
復雜計算需求解決此需要。
正在由國際商業(yè)機器公司(IBM)開發(fā)的一種此類大規(guī)模并行計算機是藍色基因系統(tǒng)。藍色基因系統(tǒng)是一種可伸縮的系統(tǒng)，其中最大計算節(jié)點數(shù)為65,536。每個節(jié)點都包括單個ASIC (專用集成電路)和存儲器。每個節(jié)點典型地都具有512兆字節(jié)或1千兆字節(jié)的本地存儲器。全部計算機將容納在密集布置在公共位置并使用若干網(wǎng)絡連接在一起的64個機架或機拒中。每個機架都具有32個節(jié)點板，每個節(jié)點板具有32個節(jié)點，并且每個節(jié)點具有2個處理器。
藍色基因超級計算機的65,536個計算節(jié)點和1024個I/O處理器同時布置成邏輯樹網(wǎng)絡和邏輯三維環(huán)網(wǎng)。所述邏輯樹網(wǎng)絡是在集合網(wǎng)絡拓樸之上的邏輯網(wǎng)絡。藍色基因可以被描述為具有I/O節(jié)點表面的計算節(jié)點核心。每個I/O節(jié)點處理64個計算節(jié)點的輸入和輸出功能。I/O節(jié)點沒有本地存儲裝置。I/O節(jié)點通過邏輯樹網(wǎng)絡連接到計算節(jié)點并且通過其內(nèi)置的千兆
5位以太網(wǎng)，還具有功能性廣域網(wǎng)能力。節(jié)點可以被分配成多個節(jié)點分區(qū)，以便可以在節(jié)點分區(qū)內(nèi)的一組藍色基因節(jié)點上執(zhí)行單個應用或作業(yè)。
計算機系統(tǒng)中的軟故障是并非由于反復發(fā)生的硬件故障或硬故障造成的錯誤或故障。諸如Ot粒子和噪聲之類的隨機事件都可以導致軟故障。在多數(shù)計算機系統(tǒng)中，此類軟故障十分罕見并且可以以傳統(tǒng)方式來處理。在類似藍色基因的大M^莫并行計算機系統(tǒng)中，由于系統(tǒng)的復雜性以及系統(tǒng)中計算節(jié)點的數(shù)量，軟故障和硬故障的問題顯著增加。此外，在現(xiàn)有4支術中，一個節(jié)點中的故障會導致計算機系統(tǒng)的整個分區(qū)變得不可用，或?qū)е滦枰?中止或重新啟動正在分區(qū)上執(zhí)行的作業(yè)。
由于計算機系統(tǒng)停機時間和重新啟動作業(yè)會浪費寶貴的系統(tǒng)資源，如果沒有一種從由軟故障導致的系統(tǒng)故障更有效恢復的方法，則并行計算機系統(tǒng)將繼續(xù)經(jīng)受低效的硬件利用和不必要的計算機停機時間。

發(fā)明內(nèi)容
根據(jù)優(yōu)選實施例，描述了一種方法和裝置，用于從軟故障導致的并行計算機系統(tǒng)上的單個節(jié)點故障進行故障恢復，而不結(jié)束正在節(jié)點分區(qū)上執(zhí) 行的作業(yè)。在優(yōu)選實施例中，服務節(jié)點上的故障硬件恢復機構使用心跳監(jiān) 視器來確定何時出現(xiàn)節(jié)點故障。在可能的情況下，重置出現(xiàn)故障的節(jié)點并使用軟件重新加載所述節(jié)點，而不結(jié)束由包含所述出現(xiàn)故障的節(jié)點的節(jié)點分區(qū)正在執(zhí)行的軟件作業(yè)。
所披露的實施例涉及藍色基因架構，但可以在具有多個布置在網(wǎng)絡結(jié) 構中的處理器的任何并行計算機系統(tǒng)上實現(xiàn)。優(yōu)選實施例對于大規(guī)模并行
計算機系統(tǒng)尤其有益。
如附圖示出的，從以下對本發(fā)明優(yōu)選實施例的更具體的描述，本發(fā)明的上述和其他特性和優(yōu)點將是顯而易見的。

以下將結(jié)合附圖描述本發(fā)明的優(yōu)選實施例，其中相同的標號表示相同
6的元素，這些附圖是
圖1是根據(jù)優(yōu)選實施例的大恥漠并行計算機系統(tǒng)的方塊圖2是根據(jù)優(yōu)選實施例的大,并行計算機系統(tǒng)中的計算節(jié)點的方塊
圖3是根據(jù)優(yōu)選實施例的節(jié)點重置硬件的方塊圖4是根據(jù)優(yōu)選實施例的設置大^M莫并行計算機系統(tǒng)的計算節(jié)點上的心跳定時器的方法流程圖；以及
圖5是根據(jù)優(yōu)選實施例的大規(guī)模并行計算機系統(tǒng)上的故障節(jié)點的故障恢復的方法流程圖。
具體實施例方式
本發(fā)明涉及一種裝置和方法，用于在并行計算機系統(tǒng)的節(jié)點上從軟故障進行故障恢復而不結(jié)束包括該故障節(jié)點的節(jié)點分區(qū)上正在執(zhí)行的作業(yè)。將根據(jù)由國際商業(yè)機器公司(IBM )開發(fā)的藍色基因/L大規(guī)模并行計算機來描述優(yōu)選實施例。
圖1示出了表示諸如藍色基因/L計算機系統(tǒng)的大^M莫并行計算機系統(tǒng) 100的方塊圖。藍色基因/L系統(tǒng)是一種可伸縮的系統(tǒng)，其中最大計算節(jié)點數(shù)為65,536。每個節(jié)點都具有專用集成電路(ASIC) 112，其也稱為藍色基因/L計算芯片112。所述計算芯片結(jié)合了兩個處理器或中央處理單元 (CPU )并且安裝在節(jié)點子卡114上。所述節(jié)點典型地具有512兆字節(jié)的本地存儲器。節(jié)點板120容納32個節(jié)點子卡114,每個節(jié)點子卡114都具有節(jié)點IIO。因此，每個節(jié)點板具有32個節(jié)點，每個節(jié)點具有2個處理器以及每個處理器的關聯(lián)存儲器。機架130是包含32個節(jié)點板120的機殼。每個節(jié)點板UO都借助中板連接器134連接到中板印制電路板132中。中板132在機架內(nèi)部并且未在圖1中示出。全部藍色基因/L計算機系統(tǒng)將容納在64個機架130或機拒中，每個機架130或機拒中具有32個節(jié)點板120。全部系統(tǒng)將具有65,536個節(jié)點和131,072個CPU ( 64個機架x 32個節(jié)點板x 32個節(jié)點x 2個CPU )。藍色基因/L計算機系統(tǒng)結(jié)構可以被描述為具有I/O節(jié)點表面的計算節(jié) 點核心，其中由具有連接到服務節(jié)點140的I/O處理器170的每個I/O節(jié) 點處理到1024個計算節(jié)點110的通信。I/O節(jié)點沒有本地存儲裝置。I/O 節(jié)點通過邏輯樹網(wǎng)絡連接到計算節(jié)點并且通過千兆位以太網(wǎng)(未示出)，還具有功能性廣域網(wǎng)能力。千兆位以太網(wǎng)連接到1/0處理器(或藍色基因 /L鏈路芯片)170，后者位于節(jié)點板120上并處理從服務節(jié)點160到多個節(jié)點的通信。藍色基因/L系統(tǒng)具有在I/0板(未示出)上的連接到節(jié)點板 120的一個或多個I/O處理器170。 I/O處理器可以;故配置為與8、 32或64 個節(jié)點通信。服務節(jié)點通過與計算節(jié)點上的鏈路卡通信來使用千兆位網(wǎng)絡控制連通性。到I/O節(jié)點的連接類似于到計算節(jié)點的連接，除了 I/O節(jié)點不連接到環(huán)網(wǎng)以外。
再次參考圖1，計算機系統(tǒng)100包括服務節(jié)點140，后者處理向節(jié)點加載軟件和控制整個系統(tǒng)的運行。服務節(jié)點140典型地是具有控制臺(未示出)的微型計算機系統(tǒng)，如運行Linux的IBM pSeries服務器。服務節(jié)點 140借助控制系統(tǒng)網(wǎng)絡150連接到計算節(jié)點110的機架130?？刂葡到y(tǒng)網(wǎng)絡為藍色基因/L系統(tǒng)提供了控制、測試以及啟動M設施?？刂葡到y(tǒng)網(wǎng)絡150 包括各種為大^U莫并行計算機系統(tǒng)提供必要通信的網(wǎng)洛接口。以下進一步描述了網(wǎng)絡接口。
服務節(jié)點140管理專用于系統(tǒng)管理的控制系統(tǒng)網(wǎng)絡150?？刂葡到y(tǒng)網(wǎng) 絡150是專用100 Mb/s以太網(wǎng)，后者連接到位于節(jié)點板120上并處理從服務節(jié)點160到多個節(jié)點的通信的Ido芯片180。此網(wǎng)絡有時4皮稱為JTAG 網(wǎng)絡，因為其使用JTAG協(xié)議進行通信。通過與服務節(jié)點通信的JTAG端口來管理節(jié)點板120上的計算節(jié)點110的所有控制、測試和啟動。以下參考圖2進一步描迷了此網(wǎng)絡。
藍色基因/L超級計算機通過若干附加的通信網(wǎng)絡來通信。65,536個計算節(jié)點同時布置成邏輯樹網(wǎng)絡和物理三維環(huán)網(wǎng)。邏輯樹網(wǎng)絡以二進制樹結(jié) 構連接計算節(jié)點，以便每個節(jié)點都與一個父節(jié)點和兩個子節(jié)點通信。環(huán)網(wǎng) 以類似三維網(wǎng)格的結(jié)構邏輯地連接計算節(jié)點，使得每個計算節(jié)點都能夠與其在計算機區(qū)段中的最接近的6個鄰居通信。其他連接到節(jié)點的通信網(wǎng)絡包括屏障網(wǎng)絡(Barrier network)。屏障網(wǎng)^f吏用屏障通信系統(tǒng)實現(xiàn)軟件屏障以便同步計算節(jié)點上的類似進程，以便在完成某些任務時移動到不同的處理階段。還存在到每個節(jié)點的全局中斷連接。
再次參考圖1，服務節(jié)點140包括故障硬件恢復機構142。故障硬件恢復機構包括在服務節(jié)點140中的軟件，其可操作以根據(jù)在此要求保護的優(yōu) 選實施例從節(jié)點故障恢復。故障硬件恢復機構使用心跳監(jiān)視器144來確定節(jié)點何時出現(xiàn)故障。如以下進一步描述的，心跳監(jiān)視器讀取并且然后清除置于節(jié)點上的存儲器中的心跳標志。當心跳不再存在時，意味著未設置心跳標志，則節(jié)點發(fā)生故障并且如以下進一步描述的，故障硬件恢復機構嘗試恢復節(jié)點，而不結(jié)束任何在包含該故障節(jié)點的節(jié)點分區(qū)上正在執(zhí)^f于的作業(yè)。
圖2示出了才艮據(jù)現(xiàn)有技術的藍色基因/L計算機系統(tǒng)中的計算節(jié)點110 的方塊圖。計算節(jié)點110具有節(jié)點計算芯片112，后者具有兩個處理單元 210A、 210B。每個處理單元210都具有帶有一級高速緩存(Ll高速緩存) 214的處理核心212。處理單元210還均具有二級高速緩存(L2高速緩存) 216。處理單元210連接到三級高速緩存(L3高速緩存)220以及連接到 SRAM存儲器組230。來自L3高速緩存220的數(shù)據(jù)借助DDR控制器250 #^口載到一組DDR SDRAM 240中。
再次參考圖2, SRAM存儲器230連接到JTAG接口 260，后者使計算芯片112與Ido芯片180通信。服務節(jié)點在是控制系統(tǒng)網(wǎng)絡150 (以上參考圖l描述)的一部分的以太網(wǎng)鏈路上通過Ido芯片180與計算節(jié)點通信。在藍色基因/L系統(tǒng)中，每個節(jié)點板120具有一個Ido芯片，并且其他在每個中板132內(nèi)的板上(圖1) 。 Ido芯片在受信專用100 Mb/s以太網(wǎng) 控制網(wǎng)絡上使用原始UDP分組從服務節(jié)點接收命令。Ido芯片支持多種與計算節(jié)點通信的串行協(xié)議。JTAG協(xié)議用于從服務節(jié)點140 (圖1)到計算節(jié)點110內(nèi)的SRAM 230的任何地址的讀取和寫入，并且用于系統(tǒng)初始化和引導過程。JTAG接口 260還與配置寄存器270通信，如以下進一步描述的，配置寄存器270保存用于重置節(jié)點計算芯片112的各個部分的重置位。
再次參考圖2，計算節(jié)點110還包括定時器280，其具有可在軟件控制下i殳置的警才艮時間285。在此處的優(yōu)選實施例中，定時器用于產(chǎn)生心跳以通知服務節(jié)點140 (圖1)中的心跳監(jiān)視器144節(jié)點正在正確地工作。節(jié)點從服務節(jié)點接收警報時間285。定時器280被設置為定期地報時，其周期等于警報時間285。當定時器檢測到已經(jīng)過警報時間285，并且如果節(jié)點正在正確地工作，則在SRAM 230的郵箱235中i殳置心跳標志236。月良務節(jié) 點140的心跳監(jiān)視器144定期檢查所有節(jié)點的心跳標志236的存在，并且如以下詳細描述的，在心跳標志不存在時執(zhí)行操作以恢復出現(xiàn)故障的節(jié)點。
圖2中示出的節(jié)點計算芯片112還包括網(wǎng)絡石更件2卯。網(wǎng)絡硬件2卯包括用于環(huán)292、樹294以及全局中斷296網(wǎng)絡的硬件。如以上簡要描述的，藍色基因/L的這些網(wǎng)絡用于計算節(jié)點110與系統(tǒng)中的其他節(jié)點的通信。
圖3是示出計算芯片112的重置能力的方塊圖。計算芯片112包括若干單獨的重置，它們旨在增強計算芯片112的診斷能力。在優(yōu)選實施例中，這些重置用于在此所述的故障恢復。為了進行重置，計算芯片上的石更件總體上被分成ASIC硬件310、網(wǎng)絡硬件290以及DDR控制器250。 ASIC 硬件310是未包括為網(wǎng)絡硬件290或DDR控制器250的一部分的其余 ASIC硬件。配置寄存器270保存重置位(未示出)以便如以上描述的那樣重置硬件。配置寄存器270中的重置位如圖3所示那樣驅(qū)動重置輸出。由ASIC硬件重置312來重置ASIC硬件310，由網(wǎng)絡硬件重置314來重置網(wǎng)絡硬件2卯，以及由DDR重置316來重置DDR控制器。所述重置提供典型的重置特征以將關聯(lián)硬件設置為已知狀況以便進行初始化。
在此處的優(yōu)選實施例中，計算芯片112上的多個重置用于從軟故障恢復而不結(jié)束并行計算機系統(tǒng)的分區(qū)中正在執(zhí)行的應用或作業(yè)。在具有故障代碼的分區(qū)上運行的應用軟件可能需要在節(jié)點的恢復期間被暫停，但是如果恢復成功，則應用可以繼續(xù)而無需在節(jié)點恢復后重新啟動。在優(yōu)選實施例中，設置定時器以便以預定間隔在每個節(jié)點的郵箱中提供心跳標志。服務節(jié)點中的心跳監(jiān)視器監(jiān)視并重置每個節(jié)點中的心跳標志以確定是否出現(xiàn) 節(jié)點故障。如果節(jié)點上不存在心跳標志，則服務節(jié)點上的故障硬件恢復才幾構嘗試恢復節(jié)點而不重置網(wǎng)絡硬件，從而不干擾系統(tǒng)中正在使用故障節(jié)點上的網(wǎng)絡硬件的其他節(jié)點。重置網(wǎng)絡硬件將需要重新啟動正在分區(qū)上執(zhí)行的應用，因為這將中斷在環(huán)網(wǎng)和邏輯樹網(wǎng)絡中的相鄰節(jié)點之間通過節(jié)點的信息流。要指出的是，在此描述的故障恢復并非針對與網(wǎng)絡硬件關聯(lián)的故障。網(wǎng)絡石更件故障將導致由互連節(jié)點指示的多個故障并且將需要未在此描述的其他手段。
在檢測到缺少心跳之后，如果故障硬件恢復機構能夠成功地將診斷代
碼加載到SRAM中并且DDR控制器和存儲器可操作，則重置DDR控制器并且將操作軟件內(nèi)核重新加載到節(jié)點中。所述節(jié)點然后能夠繼續(xù)而無需重置整個ASIC。如果故障硬件恢復機構未能成功地將診斷代碼加載到 SRAM中，則使用ASIC重置來重置除網(wǎng)絡硬件以外的ASIC，重置DDR 并且將操作軟件內(nèi)核重新加載到節(jié)點中。此過程允許在從故障恢復時重置最少數(shù)量的節(jié)點。計算節(jié)點然后可以繼續(xù)操作并且分區(qū)中的其余節(jié)點可以繼續(xù)正在執(zhí)行的應用的操作而無需從頭開始重新啟動應用。
圖4示出了根據(jù)此處的實施例的設置計算節(jié)點上的心跳以便故障恢復的方法400。所述方法涉及計算節(jié)點上執(zhí)行的操作以向服務節(jié)點中的心跳監(jiān)視器提供心跳，但是所述方法可以由服務節(jié)點或計算節(jié)點的引導過程的其他部分啟動。計算節(jié)點從服務節(jié)點的控制系統(tǒng)接收心跳時間(步驟410) 并且使用心跳時間來設置定時器(步驟420)。每次計算節(jié)點中的定時器檢測到心跳時，在SRAM郵箱中設置心跳標志，以便心跳監(jiān)視器檢查計算節(jié)點心跳(步驟430)。此方法然后完成。
圖5示出了4艮據(jù)此處的實施例的并行計算機系統(tǒng)上的故障恢復的方法 500。如以上參考圖l所述，此方法中描述的操作由故障硬件恢復機構142 和心跳監(jiān)視器144執(zhí)行。心跳監(jiān)視器通過如上所述檢查每個節(jié)點中的心跳標志來監(jiān)視計算機系統(tǒng)中每個節(jié)點的心跳(步驟510)。如果沒有故障節(jié) 點(步驟520=否)，則返回步驟510并繼續(xù)監(jiān)視。如果存在如缺少心跳標志所指示的故障節(jié)點(步驟520=是)，則向分區(qū)中的其他節(jié)點和應用軟件通知此節(jié)點不可用(步驟530)。然后，嘗試將診斷代碼加載到故障節(jié)點的SRAM中以檢查該節(jié)點的操作(步驟540 )。如果加栽不成功(步驟550= 否)，則重置除網(wǎng)絡硬件以外的ASIC (步驟555)、向SRAM加載代碼以重置DDR (步驟560),然后重新加載特殊系統(tǒng)內(nèi)核以使節(jié)點繼續(xù)執(zhí)行處理(步驟565 )。如果加載成功(步驟550=是)，則執(zhí)行診斷以檢查DDR (步驟570)。如果DDR良好(步驟575=是)，則向服務節(jié)點輸出ASIC 錯誤(步驟580 )，然后重新加栽特殊系統(tǒng)內(nèi)核以使節(jié)點繼續(xù)執(zhí)行處理(步驟565)。如果DDR存在問題(步驟575=否)，則向SRAM加載代碼以重置DDR(步驟560)，然后重新加載特殊系統(tǒng)內(nèi)核以使節(jié)點繼續(xù)執(zhí)行處理(步驟565)。此方法然后完成。
如上所述，各實施例提供了一種方法和裝置，用于在并行計算機系統(tǒng) 的節(jié)點上從軟故障進行故障恢復，而不結(jié)束大規(guī)模并行超級計算機系統(tǒng)中的節(jié)點分區(qū)上正在執(zhí)行的作業(yè)。此處的實施例允許服務節(jié)點重置故障節(jié)點的非網(wǎng)絡部分，從而不影響分區(qū)中的其他節(jié)點，以便減少系統(tǒng)停機時間并提高計算機系統(tǒng)的效率。
本領域才支術人員將理解，在本發(fā)明的范圍內(nèi)，許多變化都是可能的。因此，雖然參考本發(fā)明的優(yōu)選實施例具體示出和描述了本發(fā)明，但是本領域技術人員將理解，在不脫離本發(fā)明的精神和范圍的情況下，可以在形式和細節(jié)上^L出這些和其他更改。
權利要求
1.一種并行計算機系統(tǒng)，包括多個計算節(jié)點，每個計算節(jié)點均具有用于重置所述計算節(jié)點的網(wǎng)絡硬件部分的重置硬件，所述重置硬件與用于重置所述計算節(jié)點的其余部分的重置硬件分離；服務節(jié)點，用于通過網(wǎng)絡控制所述計算節(jié)點的操作，所述服務節(jié)點包括檢測出現(xiàn)故障的計算節(jié)點的故障硬件恢復機構；并且其中所述故障硬件恢復機構重置所述出現(xiàn)故障的計算節(jié)點的所述其余部分而不重置所述網(wǎng)絡硬件部分，以便從所述出現(xiàn)故障的計算節(jié)點上的故障恢復。
2. 根據(jù)權利要求1的并行計算機系統(tǒng)，其中所述多個計算節(jié)點還包括定時器，用于以預定間隔在所述計算節(jié)點的存儲器中設置心跳標志以指示所述計算節(jié)點正在正確地工作。
3. 根據(jù)權利要求2的并行計算機系統(tǒng)，其中所述故障硬件恢復機構還包括心跳監(jiān)視器，用于監(jiān)視所述計算節(jié)點中的所述心跳標志，以^更借助缺少設置的心跳標志來檢測所述多個節(jié)點中的出現(xiàn)故障的計算節(jié)點。
4. 根據(jù)權利要求3的并行計算機系統(tǒng)，其中通過所述心跳監(jiān)視器M 測所述出現(xiàn)故障的計算節(jié)點上的故障。
5. 根據(jù)權利要求3的并行計算機系統(tǒng)，其中所述心跳標志存儲在所述計算節(jié)點上的靜態(tài)存儲器中，并且所述故障硬件恢復機構通過經(jīng)由所述計算節(jié)點上的JTAG接口存取所述靜態(tài)存儲器的以太網(wǎng)來讀取所述靜態(tài)存儲器，可選地，其中所述并行計算機系統(tǒng)是大規(guī)才莫并行計算機系統(tǒng)，其具有容納在多個密集布置的計算WL架內(nèi)的大量計算節(jié)點。
6. 根據(jù)權利要求l的并行計算機系統(tǒng)，其中所述計算節(jié)點的所述其余部分是ASIC處理器芯片的DDR存儲器控制器，和/或所述并行計算機系統(tǒng)是大^L^莫并行計算機系統(tǒng)，其具有容納在多個密集布置的計算^f幾架內(nèi) 的大量計算節(jié)點。
7. —種用于操作并行計算機系統(tǒng)的計算機實現(xiàn)的方法，所述并4亍計算機系統(tǒng)具有通過控制系統(tǒng)網(wǎng)絡連接到服務節(jié)點的多個計算節(jié)點，所述方法包括以下步驟a)每個節(jié)點都提供心跳；b )在所述計算機系統(tǒng)的所述服務節(jié)點中監(jiān)視每個計算節(jié)點的心跳；以及c) 嘗試從由缺少所述計算節(jié)點中的心跳所指示的所述計算節(jié)點中的故障恢復，而不中止正在包含具有所述故障的計算節(jié)點的節(jié)點分區(qū)上運行的應用。
8. 根據(jù)權利要求9的計算機實現(xiàn)的方法，其中監(jiān)視所述計算節(jié)點的步驟包括以下步驟d) 所述計算節(jié)點從所述服務節(jié)點接收心跳時間；e) 使用所述心跳時間設置定時器；以及f) 檢測所述定時器的所經(jīng)過的心跳時間以及在所述計算節(jié)點的存儲器中設置心跳標志。
9. 根據(jù)權利要求9的計算機實現(xiàn)的方法，其中嘗試從所述計算節(jié)點中的故障恢復的步驟包括以下步驟g) 嘗試將診斷代碼加載到所述計算節(jié)點中；以及h) 如果所述加載不成功，則重置所述計算節(jié)點的一部分，包括除網(wǎng) 絡硬件區(qū)段以外的所述計算節(jié)點的所有區(qū)段；重置所述計算節(jié)點中的存儲器控制器；以及將系統(tǒng)內(nèi)核加載到所述計算節(jié)點中，并且可選地i) 如果所述加載成功，則執(zhí)行所述診斷代碼以檢查存儲器控制器是否正確工作；以及j)如果所述存儲器控制器正在正確地工作，則將代碼加載到所述計算節(jié)點中以重置所述存儲器控制器；重置所述存儲器控制器；以及^f吏用系統(tǒng)內(nèi)核加載所述計算節(jié)點。
10. —種計算機可讀程序產(chǎn)品，包括故障硬件恢復機構，其監(jiān)視并行計算機系統(tǒng)中的多個計算節(jié)點以確定計算節(jié)點是否出現(xiàn)故障，并且其中所述故障硬件恢復機構重置出現(xiàn)故障的計算節(jié)點的其余部分而不重置所述計算節(jié)點的網(wǎng)絡硬件部分，以^更從所述出現(xiàn)故障的計算節(jié)點上的故障恢復；以及可記錄介質(zhì)，其承栽所述故障硬件恢復機構。
全文摘要
一種方法和裝置，用于在并行計算機系統(tǒng)上從軟故障進行故障恢復，而不結(jié)束正在節(jié)點分區(qū)上執(zhí)行的作業(yè)。在優(yōu)選實施例中，服務節(jié)點上的故障硬件恢復機構使用心跳監(jiān)視器來確定何時出現(xiàn)節(jié)點故障。在可能的情況下，重置出現(xiàn)故障的節(jié)點并使用軟件重新加載所述節(jié)點，而不結(jié)束由包含所述出現(xiàn)故障的節(jié)點的分區(qū)正在執(zhí)行的軟件作業(yè)。
文檔編號G06F11/07GK101589370SQ200880003253
公開日2009年11月25日申請日期2008年2月1日優(yōu)先權日2007年2月2日
發(fā)明者A·彼得斯, A·西德尼克, D·達靈頓, P·J·麥卡西申請人:國際商業(yè)機器公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：D.達靈頓;P.J.麥卡西;A.彼得斯;A.西德尼克
技術所有人：國際商業(yè)機器公司
我是此專利的發(fā)明人

上一篇：在移動的以及桌面的環(huán)境中加載軟件的方法
上一篇：以密碼控制對文檔的訪問的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

計算機網(wǎng)絡節(jié)點相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

大規(guī)模并行計算機系統(tǒng)上的故障恢復以處理節(jié)點故障而不結(jié)束執(zhí)行的作業(yè)的制作方法