專利名稱:恢復(fù)服務(wù)器機(jī)架中刀片服務(wù)處理器的失敗閃存的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及計算機(jī)領(lǐng)域,尤其涉及封裝在服務(wù)器機(jī)架中的多個刀片(blade)服務(wù)器。更特別地,本發(fā)明涉及用于自動地恢復(fù)刀片服務(wù)處理器的失敗閃存的方法和系統(tǒng)。
背景技術(shù):
服務(wù)器刀片計算機(jī)在單個機(jī)架(刀片機(jī)架)中提供高密度服務(wù)器板(刀片)。典型的服務(wù)器刀片計算機(jī)在圖1中說明,標(biāo)識為服務(wù)器刀片機(jī)架102。服務(wù)器刀片機(jī)架102包括多個可熱插拔的服務(wù)器刀片104a-n。在服務(wù)器刀片機(jī)架102中典型地存在十四個服務(wù)器刀片104。服務(wù)器刀片104的操作由標(biāo)識為管理模塊108的邏輯來協(xié)調(diào),該管理模塊108典型地包括用于控制輸入/輸出(I/O)功能、與網(wǎng)絡(luò)106(例如因特網(wǎng)或局域網(wǎng))接口、并且分配作業(yè)和數(shù)據(jù)到不同服務(wù)器刀片104的處理器。
管理模塊108的另一個功能是編程服務(wù)器刀片104中的閃速只讀存儲器(閃速存儲器)。該閃存操作更新服務(wù)器刀片104中的固件,產(chǎn)生最佳操作。但是,因?yàn)榉?wù)器刀片104是可熱插拔的,當(dāng)服務(wù)器刀片104處于可能需要幾分鐘的閃存操作中時,通常沒有什么防止工程師從服務(wù)器刀片機(jī)架102的中平面或后平面(沒有顯示)中無意地移除服務(wù)器刀片104。當(dāng)部分閃存的服務(wù)器刀片104重新安裝到服務(wù)器刀片機(jī)架102或另一個機(jī)架中時,它將經(jīng)常出故障。當(dāng)重新安裝到服務(wù)器刀片機(jī)架102中時,重新安裝的服務(wù)器刀片104中的自診斷邏輯將識別到,閃存操作未能完全執(zhí)行。但是,服務(wù)器刀片104將失敗于不知道它在服務(wù)器刀片機(jī)架102中的總線地址或物理位置的點(diǎn),因此不能用失敗閃存來通知管理模塊108該問題。
類似地,即使服務(wù)器刀片104沒有從服務(wù)器刀片機(jī)架102中移除,但是閃存操作失敗,管理模塊108將可能不知道失敗。再次,服務(wù)器刀片104將不能通知管理模塊108該問題。
因此,需要一種使得服務(wù)器刀片在導(dǎo)致服務(wù)器刀片不知道它在服務(wù)器刀片機(jī)架中的位置的失敗閃存操作之后,能夠與服務(wù)器刀片機(jī)架中的管理模塊通信的方法和系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明涉及一種用于恢復(fù)多個服務(wù)器刀片計算機(jī)中在服務(wù)器刀片中的服務(wù)處理器上的閃存更新操作期間丟失的服務(wù)器刀片的方法和系統(tǒng)。因?yàn)殚W存更新失敗,丟失的服務(wù)器刀片不知道它在管理通路上的位置,該管理通路典型的形式可能是連接服務(wù)器刀片機(jī)架中的服務(wù)器刀片和管理模塊的中平面或總線。丟失的服務(wù)器刀片將指示閃存失敗的信號放在管理通路上。該信號放在為這種消息保留的特殊信道上。管理模塊接收信號,然后確定多個服務(wù)器刀片中哪個因閃存更新失敗而丟失。
如果多個閃存更新失敗同時發(fā)生,管理模塊阻塞與除一個外所有丟失服務(wù)器刀片的通信,并且重新閃存該一個未被阻塞的服務(wù)器刀片,從而使得該一個未被阻塞的服務(wù)器刀片能夠定義它在管理通路上的位置(地址)。其他丟失服務(wù)器刀片中每個順序地解除阻塞,重新閃存,從而使得能夠定義它們在管理通路上的位置。
本發(fā)明的上面,以及另外目的、特征和優(yōu)點(diǎn)將在下面詳細(xì)描述中變得明白。
認(rèn)為表征本發(fā)明的新特征在附加權(quán)利要求書中陳述。但是,本發(fā)明自身,以及優(yōu)選使用模式,其更多目的和優(yōu)點(diǎn),當(dāng)結(jié)合附隨附圖閱讀時通過參考下面說明實(shí)施方案的詳細(xì)描述來最好地理解。
圖1描述連接到網(wǎng)絡(luò)的服務(wù)器刀片機(jī)架的現(xiàn)有技術(shù)圖;
圖2a說明包括與管理模塊相關(guān)聯(lián)、用于隔離和定位因閃存失敗而丟失的服務(wù)器刀片的刀片阻塞器的刀片機(jī)架。
圖2b描述服務(wù)刀片的一個中服務(wù)處理器中非易失性存儲器的結(jié)構(gòu);圖3是恢復(fù)單個丟失服務(wù)器刀片所采取步驟的流程圖;以及圖4是恢復(fù)多于一個丟失服務(wù)器刀片所采取步驟的流程圖。
具體實(shí)施例方式
現(xiàn)在參考圖2a,描繪根據(jù)本發(fā)明優(yōu)選實(shí)施方案的服務(wù)器刀片機(jī)架200的示意框圖。為了清楚,僅一個管理模塊202和三個服務(wù)器刀片204a-n被描繪。但是,在優(yōu)選實(shí)施方案中,備用管理模塊202(沒有顯示)包括在服務(wù)器刀片機(jī)架200中,并且服務(wù)器刀片機(jī)架200具有能夠連接十四或更多服務(wù)器刀片204的中平面206。
管理模塊202是能夠管理多個服務(wù)器刀片204的邏輯。管理模塊202經(jīng)由標(biāo)識為中平面206的管理通路連接到服務(wù)器刀片204a-n。中平面206是安裝在服務(wù)器刀片機(jī)架200中間的后平面,其包含另外的電子設(shè)備或卡,包括服務(wù)器刀片204可以插入其中的電路和插口。中平面206包含用于管理模塊202和服務(wù)器刀片204a-n之間,以及服務(wù)器刀片204a-n自身之間,經(jīng)由各自的服務(wù)處理器208a-n安全內(nèi)部通信的至少一個總線。
管理模塊202能夠檢測系統(tǒng)中每個服務(wù)器刀片204,電源模塊210,和中平面206的存在、數(shù)量、類型和修正級別。管理模塊202也可以指示閃存操作并且識別閃存操作的失敗,如下面更多描述的。
每個服務(wù)器刀片204具有至少一個中央處理單元(CPU)212,和非易失性存儲器(NVM)214。優(yōu)選地,NVM 214是閃速只讀存儲器(“閃速ROM”或“閃速存儲器”),其可以稱作塊的存儲為單位擦除并重新編程。NVM 214也可以包括非易失性電可擦除可編程只讀存儲器(EEPROM),其類似于閃速存儲器,除了EEPROM以字節(jié)級擦除和重新寫入,并且通常比閃速存儲器的容量小。
當(dāng)服務(wù)器刀片204從制造商發(fā)貨時,NVM 214典型地使用固件預(yù)先燒制,包括基本輸入/輸出系統(tǒng)(BIOS)以及用于監(jiān)控服務(wù)器刀片204的軟件。這種監(jiān)控可能包括經(jīng)由對冷卻風(fēng)扇215的速度調(diào)節(jié)來調(diào)節(jié)操作溫度,控制直接存取存儲設(shè)備(DASD),監(jiān)控并控制整個系統(tǒng)的電壓,確定服務(wù)器刀片204的通電狀態(tài),請求對共享鍵盤、視頻、鼠標(biāo)、光盤只讀存儲器(CD-ROM)和/或軟盤驅(qū)動器的訪問,以及監(jiān)控運(yùn)行在服務(wù)器刀片204上的操作系統(tǒng)(OS)。為了利用更新和其他優(yōu)化,該固件由管理模塊202周期性地更新,其將固件更新重新閃存到NVM214中。
例如,可存取到管理模塊202(雖然不一定在其中)的更新閃存碼216可以下載到任何或所有服務(wù)處理器208。每個服務(wù)處理器208控制閃存碼216到其各自相關(guān)NVM 214中的閃存。如果閃存碼216到NVM214中的閃存失敗,那么服務(wù)器刀片204的管理可能丟失。
例如,考慮更新閃存碼216到NVM 214a中的失敗閃存操作的下面實(shí)例。在閃存操作期間,服務(wù)器刀片204a可能在閃存操作完成之前物理地從其插槽中移除。類似地,在閃存期間可能存在間歇的電源故障或尖峰信號,或者可能僅僅存在使得閃存未能完成的控制、時序或者任何其他軟件或硬件錯誤。這種失敗可能導(dǎo)致服務(wù)器刀片204a的服務(wù)處理器208a“忘記”它在中平面206上的地址,從而服務(wù)器刀片204a的地址,如下面所描述的。
現(xiàn)在參考圖2b,NVM 214劃分成兩個部分保護(hù)區(qū)218和閃存區(qū)220。存儲在保護(hù)區(qū)218中的是不可擦除(不能夠重寫)的代碼,其可能包括與NVM 214相關(guān)聯(lián)的服務(wù)器刀片204的重要產(chǎn)品數(shù)據(jù)(VPD)例如序列號、型號和通用唯一標(biāo)識符(UUID)。保護(hù)區(qū)218也可能包括跟蹤數(shù)據(jù),包括服務(wù)器刀片204在過去曾經(jīng)安裝到哪個其他服務(wù)器刀片機(jī)架200,如果存在的話。但是,保護(hù)區(qū)218不包括服務(wù)器刀片204在說明為中平面206的管理通路上的當(dāng)前地址(“管理通路標(biāo)識”)。
中平面206包含服務(wù)器刀片204可以插入其中的插口222。當(dāng)服務(wù)器刀片204插入到特定插口222中時,物理位置為該服務(wù)器刀片204建立。例如,考慮服務(wù)器刀片204a插入到插口222a中。描繪為I2C邏輯224a的控制邏輯,其符合Phillips的IC(集成電路)間標(biāo)準(zhǔn)(在此引用其全部內(nèi)容作為參考,并且通常稱作“I2C”),檢測插口222a中服務(wù)器刀片204a的存在。和管理模塊202一起操作的I2C邏輯224a,將中平面206中總線上的物理地址分配給服務(wù)器刀片204a,當(dāng)服務(wù)器刀片204a插入到插口222a中時。優(yōu)選地,每個服務(wù)器刀片204與優(yōu)選地連接到中平面206的唯一I2C邏輯224相關(guān)聯(lián),如圖2a中描繪的。作為選擇,單個I2C邏輯224可以由所有服務(wù)器刀片204使用。
作為選擇,每個插口刀片204可以具有在中平面206上唯一的因特網(wǎng)協(xié)議(IP)地址。也就是,中平面206可以使用IP尋址協(xié)議來支持內(nèi)部通信,其中連接或結(jié)合到中平面206的每個設(shè)備包含由在服務(wù)器刀片機(jī)架200內(nèi)部或外部的邏輯(沒有顯示)指定的IP地址。例如,動態(tài)主機(jī)配置協(xié)議(DHCP)服務(wù)器110,如圖1中所示,可以用來將IP地址分配給服務(wù)器刀片204a。此后,與服務(wù)器刀片204a的通信經(jīng)由與服務(wù)器刀片204a相關(guān)聯(lián)的網(wǎng)絡(luò)接口卡(NIC)226a。
管理模塊202管理刀片地址列表228,其是中平面206上所有管理通路位置(或者是物理總線地址如果使用插口222,或者是IP地址如果使用NIC 226)的列表。該刀片地址列表228用來在圖3和4描述的步驟中識別丟失服務(wù)器刀片204。
再次參考圖2a,以典型的方式,位于管理模塊202和中平面206之間的是刀片阻塞器230,其選擇性地阻塞管理模塊202與服務(wù)器刀片204中指定服務(wù)處理器208的任何組合之間的通信。刀片阻塞器230的默認(rèn)狀態(tài)允許管理模塊202和服務(wù)器刀片204之間(經(jīng)由各自服務(wù)處理器208)的無限制通信,其中管理模塊202和服務(wù)器刀片204之間的特定通信根據(jù)來自管理模塊202的信號/命令而阻塞。刀片阻塞器230用來隔離特定服務(wù)器刀片204的服務(wù)處理器208,當(dāng)多個服務(wù)器刀片204的服務(wù)處理器208丟失時,如圖4中描述的。
同樣與中平面206相關(guān)聯(lián)的是存在檢測設(shè)備232??赡苁荌2C設(shè)備的存在檢測設(shè)備232能夠與管理模塊202通信,以識別哪個服務(wù)器刀片204安裝在中平面206上。
現(xiàn)在參考圖3,描繪在本發(fā)明優(yōu)選實(shí)施方案中恢復(fù)丟失服務(wù)器刀片所采取的步驟的流程圖。在啟動程序302處開始,服務(wù)器刀片的服務(wù)處理器中的閃速ROM使用固件的更新來閃存(塊304)。從管理模塊下載到服務(wù)處理器的該固件優(yōu)選地是上面參考圖2a-b描述的。也就是,下載(閃存)到閃速ROM的閃存區(qū)中的該固件是先前存儲固件的更新,并且包括優(yōu)化相關(guān)服務(wù)器刀片的操作的代碼。
在閃存操作期間,服務(wù)器刀片的邏輯位置可能變成未定義直到閃存操作成功地完成。閃存操作可能因上面討論的原因而沒有成功地完成。如果沒有(詢問塊306),服務(wù)器刀片發(fā)送錯誤信號(塊308)。該錯誤信號在管理模塊和服務(wù)器刀片之間的中平面中的特定地址(物理布線或IP地址)上發(fā)送。例如,如果服務(wù)器機(jī)架具有十四個服務(wù)器刀片的插口,每個具有在中平面總線上的唯一地址,那么中平面總線上的第十五個地址為指示服務(wù)器刀片中閃速ROM的失敗閃存操作的錯誤信號而保留。
但是,管理模塊僅從錯誤信號中將不知道哪個服務(wù)器刀片未能使用更新的固件閃存其閃速ROM。因此,管理模塊首先檢查標(biāo)識為服務(wù)器機(jī)架系統(tǒng)一部分的所有服務(wù)器刀片的位置(地址)列表(塊310)。管理模塊然后通過比較(應(yīng)當(dāng)在系統(tǒng)上的所有服務(wù)器刀片的)服務(wù)器刀片地址列表上的位置和當(dāng)前具有與管理模塊的通信能力的服務(wù)器刀片的地址,來確定哪個服務(wù)器刀片“丟失”(因在失敗閃存操作期間其位置未定義)。該通信能力可以通過監(jiān)控到和從服務(wù)器刀片的通信量并且使用如上參考圖2a描述的存在檢測設(shè)備232來由管理模塊實(shí)現(xiàn)。在列表上但是沒有與管理模塊通信的服務(wù)器刀片被推論為丟失服務(wù)器(塊312)。
然后管理模塊,優(yōu)選地使用圖2中描述的I2C邏輯224,向服務(wù)器刀片提供(塊314)其當(dāng)前管理通路位置(物理位置或IP地址)。該當(dāng)前位置標(biāo)識優(yōu)選地通過轉(zhuǎn)換來自圖2a中所示刀片地址列表228的當(dāng)前位置標(biāo)識來提供。既然管理模塊和服務(wù)器刀片知道服務(wù)器刀片的恢復(fù)位置標(biāo)識,管理模塊可以重新閃存服務(wù)器刀片中的閃速ROM(塊316),并且過程結(jié)束(結(jié)束程序塊318)。
可能存在兩個或多個服務(wù)器刀片失敗的情況。圖4中所示的步驟滿足處理該情況的優(yōu)選方法。雖然步驟描述為僅兩個服務(wù)器刀片未能正確地閃存新的固件,該方法適合于任何數(shù)目的服務(wù)器刀片,如這里描述的。
以啟動程序塊402開始,管理模塊閃存第一和第二服務(wù)器刀片的閃速ROM(塊404)。如果它們都失敗(詢問塊406),那么兩個服務(wù)器刀片都將丟失。一個(或者優(yōu)選地兩個都)服務(wù)器刀片將失敗信號放置在連接到管理模塊的中平面總線上,其接收失敗信號(塊408)。如果第一和第二服務(wù)器刀片都發(fā)送失敗信號,那么管理模塊可能接收重復(fù)的失敗信號,指示兩個失敗的閃存。作為選擇,管理模塊可能僅接收到單個失敗信號,對于全部兩個服務(wù)器刀片,兩個服務(wù)器刀片都或者僅一個服務(wù)器刀片發(fā)送失敗信號。
管理模塊不能通信到全部兩個服務(wù)器刀片,因?yàn)槿绻麅蓚€服務(wù)器刀片同時在特定地址將發(fā)生的沖突問題。因此,管理模塊必須首先使用圖2a中描述的刀片阻塞器將服務(wù)器刀片之一阻塞出去(塊410)。以圖3中描述的相同方式,管理模塊然后重新建立未被阻塞的服務(wù)器刀片的位置標(biāo)識,并且重新閃存那個服務(wù)器刀片閃速ROM(塊412)。接下來,管理模塊指示刀片阻塞器以解除阻塞該被阻塞的服務(wù)器刀片,另一個丟失服務(wù)器刀片的標(biāo)識位置被建立,并且它的閃速ROM以上述相同方式重新閃存(塊414),從而結(jié)束過程(結(jié)束程序塊416)。
如果存在多于一個因固件到閃速ROM的失敗閃存而已經(jīng)丟失的服務(wù)器刀片,那么刀片阻塞器繼續(xù)一次阻塞所有除了一個服務(wù)器刀片,當(dāng)每個服務(wù)器刀片的標(biāo)識位置被重新建立時。
本發(fā)明因此提供一種恢復(fù)因失敗閃存而已經(jīng)丟失的丟失服務(wù)器刀片的可靠方法和系統(tǒng)。通過識別丟失的服務(wù)器刀片,服務(wù)器刀片的更新固件可以重新閃存,允許服務(wù)器刀片以最大效率操作。
應(yīng)當(dāng)理解,本發(fā)明至少一些方面可能作為選擇地以程序產(chǎn)品實(shí)現(xiàn)。定義本發(fā)明上功能的程序可以經(jīng)由多種信號承載介質(zhì)傳遞到數(shù)據(jù)存儲系統(tǒng)或計算機(jī)系統(tǒng),其包括但不局限于,不可寫存儲介質(zhì)(例如CD-ROM),可寫存儲介質(zhì)(例如軟盤,硬盤驅(qū)動器,讀/寫CD ROM,光介質(zhì)),以及通信介質(zhì),例如計算機(jī)和電話網(wǎng)絡(luò),包括以太網(wǎng)。應(yīng)當(dāng)理解,因此,在這種信號承載介質(zhì)中,當(dāng)承載或編碼指示本發(fā)明中的方法功能的計算機(jī)可讀指令時,代表本發(fā)明的備選實(shí)施方案。此外,應(yīng)當(dāng)理解,本發(fā)明可能由具有硬件,軟件,或者軟件和硬件組合形式的裝置的系統(tǒng)來實(shí)現(xiàn),如在這里或其等價物中描述的。
雖然本發(fā)明已經(jīng)參考優(yōu)選實(shí)施方案詳細(xì)地顯示和描述,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,形式和細(xì)節(jié)的各種改變可能在其中進(jìn)行,而不背離本發(fā)明的本質(zhì)和范圍。
權(quán)利要求
1.一種方法,包括試圖從管理模塊下載計算機(jī)代碼到第一數(shù)據(jù)處理單元,該第一數(shù)據(jù)處理單元是由管理模塊管理的多個數(shù)據(jù)處理單元中的一個,該多個數(shù)據(jù)處理單元由管理通路連接到管理模塊;響應(yīng)計算機(jī)代碼未能正確地下載從而導(dǎo)致第一數(shù)據(jù)處理單元不能定義它在管理通路上的管理通路位置,使用管理通路上的特殊地址將失敗信號從第一數(shù)據(jù)處理單元發(fā)送到管理模塊;比較當(dāng)前有效數(shù)據(jù)處理單元的管理通路位置和為所有多個數(shù)據(jù)處理單元而保留的所有管理通路位置的列表,該當(dāng)前有效數(shù)據(jù)處理單元來自多個數(shù)據(jù)處理單元;以及推斷第一數(shù)據(jù)處理單元的管理通路位置為在所有管理通路位置列表上的管理通路位置而不是當(dāng)前有效數(shù)據(jù)處理單元之一的管理通路位置。
2.根據(jù)權(quán)利要求1的方法,還包括在推斷第一數(shù)據(jù)處理單元的管理通路位置之后提供管理通路位置到第一數(shù)據(jù)處理單元。
3.根據(jù)權(quán)利要求2的方法,其中第一數(shù)據(jù)處理單元的管理通路位置使用符合I2C總線規(guī)范并且連接到管理通路的控制邏輯提供到第一數(shù)據(jù)處理單元。
4.根據(jù)權(quán)利要求3的方法,其中控制邏輯在管理模塊的控制下。
5.根據(jù)權(quán)利要求1的方法,還包括識別作為失敗計算機(jī)代碼下載的結(jié)果不知道其管理通路位置的第二數(shù)據(jù)處理單元;阻塞從管理模塊到第二數(shù)據(jù)處理單元的通信;以及提供第一管理通路位置到第一數(shù)據(jù)處理單元。
6.根據(jù)權(quán)利要求5的方法,還包括隨后解除阻塞第二數(shù)據(jù)處理單元和管理模塊之間的通信;以及提供第二管理通路位置到第二數(shù)據(jù)處理單元。
7.根據(jù)權(quán)利要求1的方法,其中多個數(shù)據(jù)處理單元是服務(wù)器刀片。
8.根據(jù)權(quán)利要求7的方法,其中管理模塊和服務(wù)器刀片是服務(wù)器刀片機(jī)架的組件。
9.根據(jù)權(quán)利要求1的方法,其中數(shù)據(jù)處理單元的每個具有網(wǎng)絡(luò)接口卡(NIC),并且其中第一數(shù)據(jù)處理單元的管理通路位置是因特網(wǎng)協(xié)議(IP)地址。
10.根據(jù)權(quán)利要求1的方法,其中計算機(jī)代碼下載到第一數(shù)據(jù)處理單元的服務(wù)處理器中。
11.根據(jù)權(quán)利要求1的方法,其中計算機(jī)代碼試圖閃存到第一數(shù)據(jù)處理單元中的服務(wù)處理器中的閃速存儲器中。
12.一種系統(tǒng),包括管理模塊;多個數(shù)據(jù)處理系統(tǒng);將管理模塊連接到多個數(shù)據(jù)處理系統(tǒng)的管理通路;為管理通路上的多個數(shù)據(jù)處理系統(tǒng)保留的保留管理通路位置列表;以及連接到管理通路的存在檢測設(shè)備,其中如果計算機(jī)代碼到多個數(shù)據(jù)處理系統(tǒng)中的第一數(shù)據(jù)處理系統(tǒng)的下載失敗并且使得第一數(shù)據(jù)處理系統(tǒng)的管理通路位置變成由第一數(shù)據(jù)處理系統(tǒng)未定義,那么存在檢測設(shè)備在管理通路上的特殊地址上檢測來自第一數(shù)據(jù)處理系統(tǒng)的失敗信號,從而導(dǎo)致管理模塊比較保留管理通路位置的列表和在管理通路上當(dāng)前有效的數(shù)據(jù)處理單元的位置,以恢復(fù)管理通路位置到第一數(shù)據(jù)處理單元。
13.根據(jù)權(quán)利要求12的系統(tǒng),還包括控制邏輯,其符合I2C總線規(guī)范,用于將管理通路位置恢復(fù)到第一數(shù)據(jù)處理系統(tǒng)。
14.根據(jù)權(quán)利要求13的系統(tǒng),還包括阻塞器,用于阻塞從管理模塊到未能下載軟件的第二數(shù)據(jù)處理系統(tǒng)的通信,其中第一數(shù)據(jù)處理單元可以使其管理通路位置被恢復(fù),當(dāng)?shù)诙?shù)據(jù)處理系統(tǒng)被阻塞時,并且在解除阻塞該阻塞器之后第二數(shù)據(jù)處理系統(tǒng)可以隨后使其管理通路位置被恢復(fù)。
15.根據(jù)權(quán)利要求12的系統(tǒng),還包括第一數(shù)據(jù)處理單元中的服務(wù)處理器;以及第一數(shù)據(jù)處理單元中的服務(wù)處理器中的閃速存儲器,其中計算機(jī)代碼是從管理模塊閃存到閃速存儲器的代碼更新。
16.根據(jù)權(quán)利要求12的系統(tǒng),其中多個數(shù)據(jù)處理單元是服務(wù)器機(jī)架中的服務(wù)器刀片。
17.一種計算機(jī)程序產(chǎn)品,存儲在計算機(jī)可使用介質(zhì)上,包括試圖從管理模塊下載計算機(jī)代碼到第一數(shù)據(jù)處理單元的程序代碼,該第一數(shù)據(jù)處理單元是由管理模塊管理的多個數(shù)據(jù)處理單元中的一個,該多個數(shù)據(jù)處理單元由管理通路連接到管理模塊;響應(yīng)計算機(jī)代碼未能正確地下載從而導(dǎo)致第一數(shù)據(jù)處理單元不能定義它在管理通路上的管理通路位置,使用管理通路上的特殊地址將失敗信號從第一數(shù)據(jù)處理單元發(fā)送到管理模塊的程序代碼;比較當(dāng)前有效數(shù)據(jù)處理單元的管理通路位置和為所有多個數(shù)據(jù)處理單元而保留的所有管理通路位置的列表的程序代碼,該當(dāng)前有效數(shù)據(jù)處理單元來自多個數(shù)據(jù)處理單元;以及因?yàn)槭窃谒泄芾硗肺恢昧斜砩系墓芾硗肺恢玫皇钱?dāng)前有效數(shù)據(jù)處理單元之一的管理通路位置,推斷第一數(shù)據(jù)處理單元的管理通路位置的程序代碼。
18.根據(jù)權(quán)利要求17的計算機(jī)程序產(chǎn)品,還包括用于在推斷第一數(shù)據(jù)處理單元的管理通路位置之后提供管理通路位置到第一數(shù)據(jù)處理單元的程序代碼。
19.根據(jù)權(quán)利要求17的計算機(jī)程序產(chǎn)品,還包括用于識別作為失敗計算機(jī)代碼下載的結(jié)果不知道其管理通路位置的第二數(shù)據(jù)處理單元的程序代碼;用于阻塞從管理模塊到第二數(shù)據(jù)處理單元的通信的程序代碼;以及用于提供第一管理通路位置到第一數(shù)據(jù)處理單元的程序代碼。
20.根據(jù)權(quán)利要求19的計算機(jī)程序產(chǎn)品,還包括用于隨后解除阻塞第二數(shù)據(jù)處理單元和管理模塊之間的通信的程序代碼;以及用于提供第二管理通路位置到第二數(shù)據(jù)處理單元的程序代碼。
全文摘要
一種在多個服務(wù)器刀片計算機(jī)中,用于恢復(fù)在服務(wù)器刀片中的服務(wù)處理器上的閃存更新操作期間丟失的服務(wù)器刀片的方法和系統(tǒng)。因?yàn)殚W存更新失敗,丟失的服務(wù)器刀片不知道它在管理通路上的位置,該管理通路典型的形式可能是連接服務(wù)器刀片機(jī)架中的服務(wù)器刀片和管理模塊的中平面或總線。丟失的服務(wù)器刀片將指示閃存失敗的信號放置在管理通路上。信號放置在為這種消息而保留的特殊信道上。管理模塊接收信號,然后確定多個服務(wù)器刀片中哪個因閃存更新失敗而丟失。
文檔編號G06F11/00GK1655519SQ20051000642
公開日2005年8月17日 申請日期2005年1月31日 優(yōu)先權(quán)日2004年2月12日
發(fā)明者杰拉德·尼古拉斯·巴克勒, 杰弗里·邁克爾·弗蘭克, 多納德·歐格尼·約翰遜, 卡爾·A·莫雷爾, 戴維·羅伯特·伍德哈姆 申請人:國際商業(yè)機(jī)器公司