專利名稱:用于無中斷動態(tài)熱插拔的系統(tǒng)與方法
技術(shù)領(lǐng)域:
總的來說,本發(fā)明涉及數(shù)據(jù)處理系統(tǒng),具體地講,涉及數(shù)據(jù)處理系統(tǒng)的熱插拔組件。再具體一些,本發(fā)明涉及一種方法、系統(tǒng)與數(shù)據(jù)處理系統(tǒng)配置,其允許無中斷地?zé)岵灏卧黾优c減少對稱多處理器數(shù)據(jù)處理系統(tǒng)的處理器結(jié)點。
背景技術(shù):
在個人與商業(yè)環(huán)境中,對更好和資源更豐富的數(shù)據(jù)處理系統(tǒng)的需要,使產(chǎn)業(yè)界不斷改進(jìn)為客戶使用而設(shè)計的系統(tǒng)。一般地,對于商業(yè)與個人用系統(tǒng),改進(jìn)一直集中在提供更快的處理器,更大的上層緩存,更大量的只讀存儲器(ROM),更大的隨機(jī)訪問存儲器(RAM)空間,等等。
滿足客戶需求還需要使客戶能夠用更多的資源(包括硬件資源)來提升和/或擴(kuò)展已經(jīng)存在的系統(tǒng)。例如,具有配備了CD-ROM的計算機(jī)的客戶以后可能決定“升級”到或者增加DVD驅(qū)動器?;蛘撸蛻艨赡苜徺I具有64K字節(jié)緩存的奔騰(Pentium)1處理器芯片的系統(tǒng),而后來決定升級/改變該芯片到奔騰3芯片,并且增加緩存容量到256K字節(jié)。
當(dāng)前數(shù)據(jù)處理系統(tǒng)的設(shè)計允許通過一些努力對系統(tǒng)硬件配置進(jìn)行這類基本改變。如本領(lǐng)域技術(shù)人員所知,升級處理器和/或存儲器涉及打開計算機(jī)機(jī)箱,“卡入(clip)”新芯片或存儲條到母板上可用的、各自的處理器槽與存儲器槽內(nèi)。同樣,可以將DVD播放器連接到母板上接收用內(nèi)部輸入/輸出(I/O)端口。對于某些系統(tǒng),也可以將外部DVD驅(qū)動器連接到外部串行或者USB端口之一。
另外,尤其對于商用系統(tǒng),改進(jìn)還包括提供更大量的處理資源,即不是用更快的處理器來替換當(dāng)前的處理器,而是再購買幾個同樣的處理系統(tǒng)并且將它們連接在一起以提供更高的總體處理能力。當(dāng)前大部分商用系統(tǒng)都設(shè)計成多個處理器放在單一系統(tǒng)中,并且許多商用系統(tǒng)為分布式和/或聯(lián)網(wǎng)系統(tǒng),其中多個單一系統(tǒng)相互連接并且共享處理任務(wù)/負(fù)荷。然而,即使是這些“大型”商用系統(tǒng)也會隨著客戶需求的改變而不斷升級或擴(kuò)展。
可以看到,當(dāng)升級或者改變系統(tǒng)時,尤其對于在內(nèi)部添加的組件,經(jīng)常需要在完成安裝之前關(guān)閉系統(tǒng)電源。然而,對于外部添加的組件,可能只要在系統(tǒng)加電并運行時插入該組件。不管添加組件所使用的方法(內(nèi)部或者外部添加)如何,該系統(tǒng)都包含與用于識別增加了附加硬件或者只是識別發(fā)生了系統(tǒng)配置改變的互連結(jié)構(gòu)(fabric)相關(guān)聯(lián)的邏輯。然后該邏輯可能引起向用戶輸出提示以(或者自動地)初始化系統(tǒng)配置升級,并且如果需要的話,還加載所需要的驅(qū)動程序以完成新硬件的安裝??梢钥吹?,當(dāng)從系統(tǒng)中移除組件時,也需要系統(tǒng)配置升級。
使新的I/O硬件幾乎立刻為數(shù)據(jù)處理系統(tǒng)所使用的技術(shù)在本領(lǐng)域中一般稱為“即插即用”。當(dāng)前系統(tǒng)的這種功能使系統(tǒng)在識別組件并且安裝了正常操作所需的驅(qū)動程序等等之后,能夠自動允許系統(tǒng)使用該組件。
圖1A顯示商用SMP,包括處理器101與處理器102、存儲器104以及輸入/輸出(I/O)設(shè)備106,它們通過互連結(jié)構(gòu)108相互連接?;ミB結(jié)構(gòu)108包括線路與控制邏輯,用于傳遞在組件之間的通信,并且控制MP 100對硬件配置改變的響應(yīng)。由此,新的硬件組件也將通過互連結(jié)構(gòu)108(之間或者間接)連接到現(xiàn)有的組件。
如圖1A所示,MP 100包括虛線表示的邏輯分區(qū)110(即軟件實現(xiàn)的分區(qū)),其在邏輯上將第一處理器101與第二處理器102分離。在MP 100中使用邏輯分區(qū)110使得第一處理器101與第二處理器102能夠互相獨立地運行。另外,在實質(zhì)上邏輯分區(qū)110保護(hù)每個處理器不受其他處理器的運行問題與不可用時間的影響。
可以如上所述地擴(kuò)展諸如SMP 100的商用系統(tǒng)以滿足客戶需求。另外,對商用系統(tǒng)的改變可能是故障組件的結(jié)果,該故障組件使該系統(tǒng)不能以全部能力運行,或者在更糟的情況下運行。當(dāng)發(fā)生這種情況時,必須替換故障組件。有些商用客戶依靠系統(tǒng)制造商/供應(yīng)商來管理所需維修或升級。其他商用客戶雇傭維護(hù)技師(或者技術(shù)支持人員),這些人的主要工作就是確保系統(tǒng)保持運行,并且確保完成所需的對于系統(tǒng)的升級和/或修改,而不會嚴(yán)重中斷客戶的雇員訪問該系統(tǒng)的能力或者該系統(tǒng)繼續(xù)處理對時間敏感工作的能力。
在當(dāng)前系統(tǒng)中,如果客戶(即技術(shù)支持人員)希望從圖1A的系統(tǒng)中移除一個處理器(例如第一處理器101),則客戶必須完成下列序列的步驟
(1)阻止指令在第一處理器101上,并且抑制所有I/O;(2)在處理器之間強行隔離;(3)然后關(guān)閉系統(tǒng)(斷電)。從客戶的角度可以看到中斷,這是因為系統(tǒng)不能用于任何處理(即,甚至第二處理器102上的操作也被暫停);(4)移除處理器101,重新對系統(tǒng)加電;以及(5)然后系統(tǒng)(第二處理器102)取消停頓。取消停頓的過程涉及重新啟動系統(tǒng),重新引導(dǎo)OS以及重新開始I/O操作與指令的處理。
類似地,如果客戶希望添加處理器(例如第一處理器101)到只有第二處理器102的系統(tǒng),則必須進(jìn)行基本相反的步驟序列(1)阻止指令在第二處理器101上執(zhí)行,并且抑制所有I/O。從客戶的角度可以看到中斷,這是因為系統(tǒng)不能用于任何處理(即,第二處理器102上的操作被暫停);(2)然后關(guān)閉系統(tǒng)(斷電)。
(3)添加第一處理器101并且重新對系統(tǒng)加電;此時使用第一處理器101。初始化一般涉及進(jìn)行一系列的測試,包括內(nèi)置的自檢測(BIST)等等;(4)然后系統(tǒng)取消停頓。取消停頓的過程涉及重新啟動系統(tǒng),以及重新開始I/O操作和重新開始兩個處理器上的指令的處理。
對于大型商用系統(tǒng),上述五步或者六步過程可能是非常耗時的,在有些情況下需要多達(dá)幾個小時才能完成。在這一不可用時間內(nèi),客戶不能使用/訪問系統(tǒng)。因此這類中斷對于客戶十分明顯,并且根據(jù)行業(yè)或者系統(tǒng)的用途可能導(dǎo)致巨大的財務(wù)損失。另外,如上所述,不管完成添加還是移除處理,都需要系統(tǒng)的最小重啟或者完全重啟??梢钥吹?,對于具有實際物理分區(qū)的系統(tǒng),也可能覺察到上述中斷,如下所述。
系統(tǒng)1B顯示具有物理分區(qū)的示例MP服務(wù)器集群。MP服務(wù)器集群120包含三個服務(wù)器,即通過背板連接器121互連的第一服務(wù)器121,第二服務(wù)器122和第三服務(wù)器123。每個服務(wù)器都是與圖1A的MP 100類似的、具有處理器131、存儲器136以及I/O138的完整處理系統(tǒng)。虛線表示的物理分區(qū)126將第三服務(wù)器123從第一服務(wù)器121和第二服務(wù)器122分離。開始可以將第一服務(wù)器121和第二服務(wù)器122互相耦合,而第三服務(wù)器123可以在以后添加?;蛘?,開始可以將所有服務(wù)器互相耦合,然后第三服務(wù)器123可以在以后移除。不論是添加還是移除第三服務(wù)器123,上面涉及關(guān)閉整個系統(tǒng)并且致使客戶覺察到中斷的多步過程是從MP服務(wù)器集群120添加/移除第三服務(wù)器123的唯一已知方法。
將服務(wù)器或者處理器從更大系統(tǒng)中移除的觸發(fā)原因經(jīng)常是該組件在運行時顯示了問題。這些問題可能由許多原因造成,例如壞晶體管,故障邏輯或者線路等等。一般地,當(dāng)制造系統(tǒng)/資源時,該系統(tǒng)會經(jīng)過一系列的測試以確定該系統(tǒng)是否正確運行。對于諸如圖1B所述的服務(wù)器系統(tǒng)尤其如此。即使測試有近于100%的準(zhǔn)確性,也可能檢測不到有些制造時的問題。另外,制成后一段時間內(nèi)部組件(晶體管等等)經(jīng)常出故障,并且該系統(tǒng)可能發(fā)送給客戶并且添加到客戶的現(xiàn)有系統(tǒng)中。當(dāng)系統(tǒng)連接到客戶現(xiàn)有系統(tǒng)時,一般在該系統(tǒng)上進(jìn)行另一系列的測試,以確保所添加的系統(tǒng)在現(xiàn)有系統(tǒng)的確定參數(shù)下運轉(zhuǎn)正常。后一系列的測試(客戶水平)由技師(或者設(shè)計工程師)啟動,這些人的任務(wù)是確?,F(xiàn)有系統(tǒng)保持運轉(zhuǎn),使不可用時間盡可能短。
在非常大/復(fù)雜的系統(tǒng)中,在現(xiàn)有系統(tǒng)以及新添加的系統(tǒng)上運行測試的任務(wù)經(jīng)常占據(jù)技師很大一部分時間,并且當(dāng)發(fā)生問題時,直到該問題發(fā)生后一段時間(可能幾天),一般不會認(rèn)識到該問題。當(dāng)發(fā)現(xiàn)特定資源的問題時,一般必須更換該資源。如上所述,即使當(dāng)所替換/移除的資源在邏輯上或者物理上與從其他系統(tǒng)隔離開時,更換資源也需要技師關(guān)閉整個系統(tǒng)。
分擔(dān)系統(tǒng)負(fù)荷的問題組件與沒有該組件的系統(tǒng)相比可能導(dǎo)致降低工作效率?;蛘撸瑔栴}組件可能將錯誤引入到整個處理之中,這使整個系統(tǒng)無法使用。目前,移除這種組件需要技師首先進(jìn)行整個系統(tǒng)的測試,找到是哪個組件引起的問題,然后啟動上述的移除步驟序列。由此,系統(tǒng)維護(hù)的很大一部分需要技師不斷地在系統(tǒng)上進(jìn)行診斷測試,而且系統(tǒng)監(jiān)視消耗大量的工時,并且可能對客戶非常昂貴。另外,只有技師運行診斷時才會確定問題組件,并且只有問題組件損壞了系統(tǒng)正在處理的操作時,才能確定問題組件??赡鼙仨殥仐壞承┨幚斫Y(jié)果,并且可能必須將系統(tǒng)復(fù)原到最后一次正確的狀態(tài)。
本發(fā)明認(rèn)識到希望提供一種用來將外部即插即用組件的熱插拔功能擴(kuò)展到需要額外處理能力的大型服務(wù)器系統(tǒng)的系統(tǒng)與方法。向SMP熱插拔MP服務(wù)器的方法與系統(tǒng)將是受人們歡迎的改進(jìn)。人們還希望熱插拔操作時在系統(tǒng)上見不到不可用時間,從而使該操作對于客戶保持不可見。此處所描述的發(fā)明將提供這些以及其他優(yōu)點。
發(fā)明內(nèi)容
公開了一種數(shù)據(jù)處理系統(tǒng),其在不中斷整體處理系統(tǒng)當(dāng)前操作的前提下,提供單個的可熱插拔組件的熱插拔添加與移除功能。該數(shù)據(jù)處理系統(tǒng)包括諸如處理器、存儲器以及I/O設(shè)備的主要組件。這些組件通過由連接線路、連接端口以及邏輯組件構(gòu)成的互連結(jié)構(gòu)相互連接。該連接端口支持熱插拔組件,從而可以將外部可熱插拔組件耦合至該數(shù)據(jù)處理系統(tǒng)。除了硬件組件之外,該數(shù)據(jù)處理系統(tǒng)還包括軟件組件,即服務(wù)元件與操作系統(tǒng)(OS)。該邏輯組件包括配置、路由邏輯以及操作邏輯。配置邏輯選擇該數(shù)據(jù)處理系統(tǒng)在運行時所遵照的配置簡檔(profile)/參數(shù)。路由邏輯與運行邏輯提供控制如何傳遞該數(shù)據(jù)處理系統(tǒng)上的通信(數(shù)據(jù)等等)的路由協(xié)議。
當(dāng)可熱插拔組件連接到可用的系統(tǒng)連接器時,服務(wù)元件自動檢測該連接并且為該擴(kuò)展后系統(tǒng)選擇正確的配置文件。第一組件的服務(wù)元件擔(dān)當(dāng)主機(jī)的角色,從而新添加組件的服務(wù)元件由主服務(wù)元件控制。一旦加載該配置文件到硬件配置寄存器中并且對新元件的系統(tǒng)檢查指示該新元件準(zhǔn)備好運行,則將該新元件集成到現(xiàn)有系統(tǒng)中。服務(wù)元件向操作系統(tǒng)發(fā)信號以開始向新元件分配負(fù)荷。由此從客戶的角度看,整個過程發(fā)生在不斷電或者中斷現(xiàn)有元件的操作的前提下。
在另一實施例中,在不中斷剩余主系統(tǒng)的當(dāng)前處理的前提下,也可以實現(xiàn)可熱插拔組件的移除。該移除可以由維護(hù)技師啟動或者或者為自動實現(xiàn)。
本發(fā)明的上述以及其他目的、特征以及優(yōu)點在下面的詳細(xì)描述中將變得顯而易見。
被認(rèn)為是本發(fā)明特征的新穎特性在權(quán)利要求中列出。然而本發(fā)明本身以及使用的優(yōu)選實施例、其進(jìn)一步的目的與優(yōu)點,最好通過在參照附圖的同時閱讀下面詳細(xì)的實施例描述來加以理解,其中圖1A為根據(jù)現(xiàn)有技術(shù)的多處理器系統(tǒng)(MP)的主要組件的方框圖;圖1B為顯示根據(jù)現(xiàn)有技術(shù)的服務(wù)器集群的多個服務(wù)器的方框圖;圖2為根據(jù)本發(fā)明一個實施例的數(shù)據(jù)處理系統(tǒng)(服務(wù)器)的方框圖,該數(shù)據(jù)處理系統(tǒng)(服務(wù)器)設(shè)計有互連結(jié)構(gòu)控制邏輯,用來提供各種熱插拔功能;
圖3為包含根據(jù)本發(fā)明一個實施例的被配置用于熱插拔的圖2的兩個服務(wù)器的MP的方框圖;圖4A為顯示根據(jù)本發(fā)明一個實施例的向圖3的MP添加服務(wù)器的過程的流程圖;圖4B為顯示根據(jù)本發(fā)明一個實施例的從圖3的MP移除服務(wù)器的過程的流程圖;圖5為根據(jù)本發(fā)明一個實施例的允許所有主要組件的熱插拔擴(kuò)展的數(shù)據(jù)處理系統(tǒng)的方框圖;圖6為顯示根據(jù)本發(fā)明一個實施例的完成顯示可檢測問題的熱插拔組件的自動檢測與動態(tài)移除的過程的流程圖。
具體實施例方式
本發(fā)明提供一種方法與系統(tǒng),其允許熱插拔地添加與移除處理系統(tǒng)的主要組件的功能,而不含有現(xiàn)有系統(tǒng)所需的不可用時間。具體地講,本發(fā)明提供在數(shù)據(jù)處理系統(tǒng)行業(yè)的三個主要優(yōu)點(1)在對稱多處理器系統(tǒng)(SMP)中可熱插拔處理器/服務(wù)器,不會中斷正在進(jìn)行的系統(tǒng)操作;(2)在多處理器系統(tǒng)(MP)中可熱插拔組件,包括存儲器、異構(gòu)處理器以及輸入/輸出(I/O)擴(kuò)展設(shè)備,不會中斷正在進(jìn)行的系統(tǒng)操作;以及(3)對于影響系統(tǒng)熱插拔組件的問題的自動檢測,以及不暫停其他系統(tǒng)組件運行地對該問題組件的動態(tài)移除。
為簡單起見,上述三項改進(jìn)被描述為具有單獨的標(biāo)題的小節(jié),其中一般熱插拔功能分為熱插拔小節(jié)與分離的熱移除小節(jié)。這些小節(jié)的內(nèi)容可能重疊。然而,實施例功能中重疊在第一次遇到時詳細(xì)描述,以后將引用。
1.硬件配置現(xiàn)在轉(zhuǎn)到附圖,具體地參考圖2,其中顯示了一個多處理器系統(tǒng)(MP),其設(shè)計成具有可能實現(xiàn)本發(fā)明的各種特性的互連結(jié)構(gòu)(fabric)與其他組件。MP 200包括第一處理器201與第二處理器202,MP 200還包括存儲器204與輸入/輸出(I/O)組件206。各種組件通過互連結(jié)構(gòu)(interconnect fabric)208進(jìn)行互連,該互連結(jié)構(gòu)包括熱插拔連接器220。添加新的可熱插拔硬件組件(直接或者間接)通過互連結(jié)構(gòu)208的熱插拔連接器220來完成,詳細(xì)描述如下。
互連結(jié)構(gòu)208包括線路與控制邏輯,用于傳遞在組件之間的通信,并且控制MP 100對硬件配置改變的響應(yīng)??刂七壿嫲酚蛇壿?07與配置設(shè)置邏輯209。具體地講,如MP 200左側(cè)的插圖所示,配置設(shè)置邏輯209包括第一與第二配置設(shè)置,配置A 214與配置B 216。配置A 214與配置B 216耦合至模式設(shè)置寄存器218,該寄存器由鎖存器217控制。下面將更詳細(xì)地描述配置設(shè)置邏輯209內(nèi)的組件的操作。
除上面的組件之外,MP 200還包括服務(wù)元件(S.E.)212。S.E.212為小型微控制器,包含特殊的軟件編碼的邏輯(software-coded logic)(與操作系統(tǒng)(OS)分離),其被用來維護(hù)系統(tǒng)的組件并且完成大型系統(tǒng)的接口操作。因此S.E.212運行所需的代碼來控制MP 200。S.E.212通知OS在MP內(nèi)的附加的處理器資源(即處理器數(shù)目的增加/減少),以及其他系統(tǒng)資源(即存儲器與I/O等等)的添加/移除。
圖3顯示兩個與圖2的200類似的MP,其通過熱插拔連接器220耦合在一起,以生成更大的對稱MP(SMP)系統(tǒng)。MP 200標(biāo)記為元件0與元件1,需要這樣的標(biāo)記用于描述目的。元件1可能通過設(shè)計用來耦合分離的MP的熱插拔連接器220的線路、連接器針或者電纜連接耦合至元件0。在一個實施例中,MP可以直接插入后臺處理器擴(kuò)展機(jī)架,該機(jī)架允許擴(kuò)展客戶的SMP以容納附加的MP。
作為示例,元件0為希望增加其主系統(tǒng)的處理能力/資源的客戶的主系統(tǒng)(或者服務(wù)器)。元件1為由系統(tǒng)技師添加到主系統(tǒng)的附屬系統(tǒng)。根據(jù)本發(fā)明,元件1的添加通過此處所提供的熱插拔操作來完成,而且在連接元件1時客戶不會覺察到元件0的不可用時間。
如圖3所示,SMP 300包括虛線表示的物理分區(qū)210,其將元件0與元件1分離。物理分區(qū)210使每個MP 200都能夠比較獨立于其他MP地運行,并且在有些實現(xiàn)中,在實質(zhì)上邏輯分區(qū)210保護(hù)每個MP 200不受其他MP200的運行問題與不可用時間的影響。
II.SMP中處理器的無中斷熱插拔添加圖4A顯示完成添加元件1到元件0的無中斷熱插拔操作的過程的流程圖。根據(jù)下面描述的“熱添加”例子,MP 200的初始運行狀態(tài)如下
元件0使用互連結(jié)構(gòu)208上的配置A運行OS與應(yīng)用程序;元件0還與元件1在電氣與邏輯上分離;服務(wù)元件0管理單一MP元件0的組件;互連結(jié)構(gòu)通過配置A、為配置A設(shè)置的鎖存器位置來路由控制等等;元件1可能不存在或者存在但還沒有插入系統(tǒng)。
可能有除圖2與3所示之外的其他/附加的硬件組件,并且所提供的這些硬件組件只為說明目的,而不是用來限制本發(fā)明。在當(dāng)前實施例中,MP 200還包括使“切換”能夠在固定數(shù)目的周期之內(nèi)完成的邏輯,從而客戶見不到明顯的操作時間損失??赡芊峙湓S多周期來完成切換?;ミB結(jié)構(gòu)控制邏輯向仲裁器請求該數(shù)目的周期以進(jìn)行配置切換。在大部分實現(xiàn)中,實際所請求的時間量級為百萬分之一秒(1微秒),從客戶的角度這是可以忽略的(或者不可見的)。
回到圖4A,該過程開始于方框402,此時維護(hù)技師在元件0運行的同時將元件1物理地插入元件0的熱插拔連接器220。然后元件1加電,如方框404所示。在一個實施例中,技師將元件1物理地連接到電源。然而,本發(fā)明還考慮了通過熱插拔連接器220來提供電源,以便只需要將主系統(tǒng)元件0直接連接到電源。這可以通過插入所有MP的背板連接器來完成。
一旦元件1接通電源,則元件1內(nèi)的S.E.1完成檢查點步驟序列來初始化元件1。在一個實施例中,在元件1上配有一組物理針,其由維護(hù)技師選擇以啟動檢查點過程。
然而,在此處所描述的實施例中,S.E.0完成對向元件0插入另一元件的自動檢測,如方框406所示。然后S.E.0擔(dān)當(dāng)主機(jī)的角色,并且觸發(fā)S.E.1來啟動元件1的加電重置(POR),如方框408所示。POR導(dǎo)致始終啟動,運行BIST(內(nèi)置自檢測),并且初始化元件1的處理器、存儲器與互連結(jié)構(gòu)。
根據(jù)一個實施例,S.E.1還運行測試應(yīng)用程序,以確保元件1操作正常。由此,根據(jù)上述測試在方框410作出確定,即元件1是否“干凈”或者準(zhǔn)備好集成到主系統(tǒng)(元件0)中。假定允許元件1集成,然后S.E.0與S.E.1在兩個MP 200操作/運行的同時初始化在元件0與元件1的互連結(jié)構(gòu)之間的互連,如方框412所示。該過程開啟了通信路徑使得兩個互連結(jié)構(gòu)都能夠共享任務(wù)以及高效地協(xié)調(diào)信息的傳遞。該過程包括啟動電氣連接的驅(qū)動器與接收器,并且如果需要的話,還包括調(diào)節(jié)接口以最有效地運行復(fù)合系統(tǒng),如方框415所示。在一個實施例中,接口的調(diào)節(jié)為內(nèi)部過程,由互連結(jié)構(gòu)的控制邏輯自動完成。為了同步整體系統(tǒng)上的操作,使元件0的控制邏輯擔(dān)當(dāng)主機(jī)的角色。然后元件0的控制邏輯控制在元件0與元件1上的所有操作。元件1的控制邏輯自動檢測元件0的運行參數(shù)(例如配置模式設(shè)置),并且同步自己的運行參數(shù)以反映元件0的運行參數(shù)。在元件0的邏輯的控制之下,互連結(jié)構(gòu)208邏輯地與物理地“結(jié)合”。
在完成接口調(diào)節(jié)的同時,將配置B 216載入兩個元件的配置模式寄存器218,如方框416所示。載入同樣的配置模式使得復(fù)合系統(tǒng)能夠以與互連結(jié)構(gòu)級上同樣的路由協(xié)議運行。選擇一個配置模式/協(xié)議而不是另一個的過程由鎖存器217控制。在動態(tài)例子中,當(dāng)S.E.寄存器登記下一個元件已經(jīng)插入、完成了初始化并且準(zhǔn)備好融入系統(tǒng)時,其為新的拓?fù)浣Y(jié)構(gòu)設(shè)置在現(xiàn)有的以及新元件兩者之上的配置寄存器。然后該SE執(zhí)行給硬件說“變(go)”的命令。在所示實施例中,當(dāng)執(zhí)行變命令時,自動狀態(tài)機(jī)暫時掛起互連結(jié)構(gòu)操作,改變鎖存器217以使用配置B,并且重新開始互連結(jié)構(gòu)操作。在可替換實施例中,該SE命令變將同步地改變所有元件上的鎖存器217。不論哪種實施例,計算機(jī)系統(tǒng)中的OS與I/O設(shè)備都不會看到中斷,這是因為該配置切換發(fā)生在處理器周期量級上(在本實施例中少于1微秒)。鎖存器的值告訴硬件如何在SMP上傳遞信息,并且確定在互連結(jié)構(gòu)上所實現(xiàn)的路由/運行協(xié)議。在一個實施例中,鎖存器作為多路轉(zhuǎn)接器(MUX)的選擇輸入,該多路轉(zhuǎn)接器的數(shù)據(jù)輸入端口耦合至配置寄存器之一。鎖存器中的值使得選擇一個配置寄存器或者另一個配置寄存器作為MUX輸出。該MUX輸出載入配置模式寄存器210。然后在系統(tǒng)運行時,自動狀態(tài)機(jī)控制器實現(xiàn)協(xié)議。
熱插拔操作后的系統(tǒng)運行狀態(tài)如下元件0使用互連結(jié)構(gòu)208上的配置B運行OS與應(yīng)用程序;元件0還與元件1在電氣與邏輯上連接;元件1使用互連結(jié)構(gòu)208上的配置B運行OS與應(yīng)用程序;元件1還與元件0在電氣與邏輯上連接;服務(wù)元件0管理元件0與元件1兩者的組件;互連結(jié)構(gòu)通過配置B、為配置A設(shè)置的鎖存器位置來路由控制等等。
復(fù)合系統(tǒng)繼續(xù)以新的路由協(xié)議運行,該路由協(xié)議考慮了提高的處理能力與分布式存儲器等等,如方框418所示??蛻袅⒓慈〉媒M合后系統(tǒng)的增加的處理資源/能力的好處,而再不會覺察到主系統(tǒng)的不可用時間或者必須重啟系統(tǒng)。
可以看到,上述過程可以擴(kuò)展,以包括大量附加元件或者一次一個地或者同時的相互連接。當(dāng)一次一個地完成時,所選擇的配置寄存器為每次新添加(或者減少)元件進(jìn)行來回切換。另外,在另一實施例中,可以提供許多不同的配置寄存器,以處理多達(dá)特定數(shù)目的熱插拔/連接元件。例如,根據(jù)系統(tǒng)分別包括1、2、3、或4個元件,可以有四個不同的寄存器堆用于選擇。配置寄存器可以指向存儲器的特定位置,在該位置上保存著為特定硬件配置所設(shè)計的更龐大的運行/路由協(xié)議,并且根據(jù)處理系統(tǒng)的當(dāng)前配置啟動。
III.存儲器、I/O通道以及異構(gòu)處理器的無中斷熱插拔圖5顯示熱插拔功能的另一個擴(kuò)展。具體地講,圖5擴(kuò)展了上面的無中斷熱插拔功能,以包括附加存儲器、I/O通道以及異構(gòu)處理器的無中斷熱插拔添加。MP 500包括與圖2中MP 200類似的主要組件,而新的組件以標(biāo)號500表示。除了主要組件(即通過互連結(jié)構(gòu)208耦合在一起的第一處理器201與第二處理器202、存儲器504A和I/O通道506A)之外,MP 500還包括互連結(jié)構(gòu)208上幾個附加的連接器端口。在這些連接器端口中,包括存儲器擴(kuò)展端口521、熱插拔I/O擴(kuò)展端口522以及熱插拔處理器擴(kuò)展端口523。
每個擴(kuò)展端口都具有對應(yīng)的配置邏輯509A、509B以及509C,以控制相應(yīng)組件的熱插拔操作。類似于上面對于MP 300、元件0與元件1描述的過程,除了存儲器504A之外,附加存儲器504B還可以“插入”互連結(jié)構(gòu)508的存儲器擴(kuò)展端口521。初始存儲器地址范圍0到N現(xiàn)在擴(kuò)展到包括地址N+1到M。對于任何大小的存儲器的配置模式都可以通過鎖存器517A選擇,該鎖存器由S.E.212在添加附加存儲器504B時設(shè)置。另外,附加I/O通道可通過熱插拔I/O通道506B、506C提供到熱插拔I/O擴(kuò)展端口522。此外,對于I/O通道大小的配置模式可以通過鎖存器517C選擇,該鎖存器由S.E.212在添加附加I/O通道506B、506C時設(shè)置。
最后,可以將非對稱處理器(即與MP 200內(nèi)的處理器201與202配置/設(shè)計不同的處理器)插入熱插拔處理器擴(kuò)展端口523,并且與上述對于服務(wù)器/元件1的過程類似地啟動。然而,與其他配置邏輯509A、509B(它們只需要考慮可用存儲器與I/O資源數(shù)量的增加)不同,用于處理器增加的配置邏輯509C涉及對更多參數(shù)的考慮,這是因為處理器是非對稱的,并且正確配置模式的選擇必須考慮負(fù)荷分擔(dān)與分配等等。
上述配置使系統(tǒng)能夠相應(yīng)地縮減/增加處理器、存儲器、和/或I/O通道,而MP 500上的處理沒有可以察覺的中斷。具體地講,上面的配置使得存儲器與I/O的可用地址空間能夠增加(與縮減)。每一添加或者移除都互相獨立地處理(即處理器相對于存儲器或者I/O獨立),并且由單獨邏輯控制,如圖所示。相應(yīng)地,本發(fā)明將“熱插拔”的概念擴(kuò)展到不能按熱插拔這個詞的傳統(tǒng)意義進(jìn)行熱插拔的設(shè)備上。
圖5所示的系統(tǒng)的初始狀態(tài)包括存儲器空間總量N;I/O空間(即連接I/O設(shè)備的通道)數(shù)量R;以及速度Z上處理能力總量Y,等等。
從初始狀態(tài)到系統(tǒng)范圍的最終狀態(tài)存儲器空間總量M(M>N);I/O空間(即連接I/O設(shè)備的通道)數(shù)量T(T>R);以及速度Z與速度Z+W上處理能力總量Y+X。
上述變量只用于說明目的,并不是為了表示特定的參數(shù)值或者限制本發(fā)明。
使用上面的實施例,維護(hù)技師通過物理地插入附加的存儲器、處理器和/或I/O來安裝(多個)新組件,然后S.E.212完成自動檢測與初始化/配置過程。對于添加附加存儲器,S.E.212運行可信度測試,對于所有組件,S.E.212運行BIST。然后S.E.212初始化接口(此處由虛線表示),并且設(shè)置(多個)備選配置寄存器。在小于1微秒內(nèi),S.E.212完成整個硬件切換,然后S.E.212通知OS有新資源可用。然后OS根據(jù)哪些組件可用以及運行哪個配置來完成負(fù)荷分配等等。
IV.在處理系統(tǒng)中熱插拔組件的無中斷移除圖4B顯示完成熱插拔組件的無中斷移除過程的流程圖。該過程通過參照圖3的系統(tǒng)來描述,因此,該過程描述了從包括元件1到元件0的系統(tǒng)中元件1的移除。在該移除例子中,如圖4B所示,SMP的初始運行狀態(tài)為上述圖4A的熱插拔操作后的運行狀態(tài)。
元件1的移除需要維護(hù)技師首先以某種方式發(fā)出即將移除的信號。在一個實施例中,在每個元件的外表面上都設(shè)有熱移除按鈕225。按鈕225包括發(fā)光二極管(LED)或者其他信號裝置,通過該裝置維護(hù)技師可以憑視覺發(fā)現(xiàn)運行的元件是“在線”或者插入并且發(fā)揮作用的,還是離線的。相應(yīng)地,在圖4B中,當(dāng)維護(hù)技師希望移除元件1時,該技師首先按下按鈕225,如方框452所示。在假定每個元件都是卡入(clamp)某種背板連接器的另一實施例中,移除定位元件1的卡子(clamp)將發(fā)送信號給S.E.212,以開始拆除(take down)過程。在另一實施例中,系統(tǒng)管理員能夠觸發(fā)S.E.212,以啟動特定組件的移除操作。該觸發(fā)通過在該系統(tǒng)上運行的軟件配置公用程序中選擇移除選項來完成。在下面第5小節(jié)描述了一種自動移除方法,其不需要維護(hù)技師或者系統(tǒng)管理員來啟動。
一旦按下了按鈕225,則在后臺開始拆除過程,客戶是不可見的(即元件0在整個過程中保持運行)。S.E.212通知OS處理元件1資源的損失,如方框454所示。作為響應(yīng),OS將元件1上的任務(wù)/負(fù)荷分配給元件0,并且清空元件1,如方框456所示。S.E.212監(jiān)視關(guān)于OS已經(jīng)完成(與數(shù)據(jù)存儲)從元件1到元件0的所有處理的再分配的指示,并且在方框458確定再分配是否已經(jīng)完成。一旦再分配完成,則OS向S.E.212發(fā)消息,如方框460所示,并且S.E.212加載另一種配置設(shè)置到配置寄存器218之中,如方框462所示。加載另一種配置設(shè)置由S.E.212設(shè)置鎖存器217以選擇該配置設(shè)置來完成。在另一實施例中,當(dāng)一開始按動按鈕225以觸發(fā)移除時,設(shè)置鎖存器217。元件1被從SMP互連結(jié)構(gòu)中邏輯地移除并且電氣地移除,而不中斷元件0。然后S.E.212使按鈕225發(fā)光,如方框464所示。該燈光通知維護(hù)技師拆除過程完成。然后技師斷電并物理地移除元件1,如方框466所示。
上述實施例使用按鈕225內(nèi)的LED來指示服務(wù)器的運行狀態(tài)。由此,設(shè)置預(yù)定的顏色方案來向客戶或者技師表明何時元件開(熱插拔)或者關(guān)(移除)。例如,藍(lán)顏色可能指示該元件工作正常,并且電氣與邏輯地連接,紅顏色可能指示該元件正處在被拆除的過程中,而且不應(yīng)該被物理地移除,綠顏色(或者不發(fā)光)可能指示該元件已經(jīng)被拆除(或者不再邏輯或電氣地連接),而且可以被物理地移除。
V.問題組件的無中斷自動檢測與移除有了上面的熱插拔組件的手工移除功能,本發(fā)明的一種擴(kuò)展提供了問題組件的無擴(kuò)散自動檢測,以及沒有在預(yù)定運行水平上發(fā)揮功能的元件或者有缺陷元件的自動移除。使用本發(fā)明的無擴(kuò)散熱插拔功能,技師能夠移除問題元件而不用關(guān)閉整個系統(tǒng)。本發(fā)明將此功能進(jìn)一步擴(kuò)展,即允許對插入系統(tǒng)中的組件的自動問題檢測,隨后以不擴(kuò)散的方式(當(dāng)系統(tǒng)仍然在運行時)從系統(tǒng)中動態(tài)移除問題/缺陷組件。不同于由技師啟動拆除,當(dāng)前的自動檢測與相應(yīng)的拆除問題元件/組件的發(fā)生不需要人工干預(yù),并且發(fā)生在后臺而在其余處理系統(tǒng)上沒有可以察覺的中斷。本實施例允許高效的檢測問題/缺陷組件,并且減輕了當(dāng)使用問題組件來處理任務(wù)時對整體系統(tǒng)完整性的潛在威脅。本實施例還有助于及時替換缺陷組件,而對其余系統(tǒng)沒有中斷。
圖6顯示在熱插拔環(huán)境中自動檢測與動態(tài)再分配問題組件的過程。該過程開始于方框602,此時S.E.檢測到新組件添加到系統(tǒng)中,并且保存系統(tǒng)當(dāng)前的有效運行狀態(tài)(處理器的配置狀態(tài)、配置寄存器等等)?;蛘?,S.E.在系統(tǒng)運行時,在預(yù)定的時間間隔處以及新組件被添加到系統(tǒng)的任意時刻自動保存運行狀態(tài)。進(jìn)入新的運行狀態(tài),并且測試系統(tǒng)硬件配置(包括新組件),如方框604所示。在方框606確定對于新運行狀態(tài)與系統(tǒng)配置的測試是否產(chǎn)生OK信號。系統(tǒng)配置測試可能包括在整個系統(tǒng)上的BIST或者只在新組件上的BIST,以及其他配置測試,諸如新組件的可信度測試。當(dāng)測試返回OK信號時,保存新運行狀態(tài)為當(dāng)前狀態(tài),如方框608所示。然后將該新運行狀態(tài)在整個系統(tǒng)中實現(xiàn),如方框610所示,并且該過程循環(huán)返回測試當(dāng)發(fā)生變化或者經(jīng)過預(yù)定時間段時任意的新運行狀態(tài)。
當(dāng)測試返回問題指示符例如BIST失敗或者激活運行時間錯誤檢查電路時,啟動檢測與再分配(deallocate)過程的再分配階段。S.E.經(jīng)過類似于圖4B所描述的一系列的步驟,不同之處在于不同于圖4B,其中移除過程由技師啟動,本實施例中的移除過程為自動的,并且作為接到表示測試在某一水平上失敗的指示的直接結(jié)果而啟動。S.E.啟動移除過程,如方框612所示,并且發(fā)生消息給輸出設(shè)備,如方框614所示,以通知客戶或者維護(hù)技師在特定組件中發(fā)現(xiàn)了問題并且該組件已被移除(或者正在移除)(即拿下線)。在一個實施例中,輸出設(shè)備為連接到處理系統(tǒng)的監(jiān)視器,并且技師通過該輸出設(shè)備來監(jiān)視整體系統(tǒng)的運行參數(shù)。在另一實施例中,問題被作為消息返回制造商或者供應(yīng)商(通過網(wǎng)絡(luò)媒體),然后制造商或者供應(yīng)商可能立即采取措施以更換或者修理問題組件,如方框616所示。
在一個實施例中,檢測階段包括在芯片水平上的測試。由此,當(dāng)系統(tǒng)運行時并且當(dāng)系統(tǒng)被發(fā)送給客戶之后,在系統(tǒng)上完成了制造商水平的測試。使用上面的過程,就向系統(tǒng)提供出廠質(zhì)量的自測試功能以及基于這些測試的自動無中斷動態(tài)重新配置。一個特定的實施例涉及分區(qū)的虛擬化。在分區(qū)轉(zhuǎn)換時刻,保存分區(qū)的狀態(tài)。通過各個組件中專用的硬件運行出廠質(zhì)量的自測試。測試只需要以上述無中斷方式切換分區(qū)所需的同一量級的時間(1微秒)。如果測試指示該分區(qū)不好,則S.E.自動重新分配負(fù)荷離開壞組件,并且恢復(fù)所保存的先前的良好狀態(tài)。
雖然參照了優(yōu)選實施例具體顯示并且描述了本發(fā)明,但本領(lǐng)域的技術(shù)人員應(yīng)該理解可以在不脫離本發(fā)明的原理與范圍的前提下對形式與細(xì)節(jié)進(jìn)行各種改動。
權(quán)利要求
1.一種數(shù)據(jù)處理系統(tǒng),包括第一處理單元,具有將所述第一處理單元內(nèi)部的組件互連的互連結(jié)構(gòu),其中所述互連結(jié)構(gòu)包括至少一個熱插拔連接器;第二處理單元,能夠通過所述熱插拔連接器電氣與邏輯地連接到所述第一處理單元;用于在不中斷正發(fā)生在所述第一處理單元上的操作的前提下,完成在所述第一處理單元與所述第二處理單元之間的電氣與邏輯連接的裝置;以及用于在電氣與邏輯連接之后,自動將所述第一處理單元的負(fù)荷與所述第二處理單元共享的裝置,其中在所述第一處理單元的互連結(jié)構(gòu)上實現(xiàn)配置響應(yīng),以支持所述第二處理單元在所述互連結(jié)構(gòu)上共享所述負(fù)荷,而不中斷發(fā)生在所述第一處理單元上的所述操作。
2.如權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其中所述互連結(jié)構(gòu)進(jìn)一步包括用于從多個配置中動態(tài)選擇用于控制所述互連結(jié)構(gòu)的路由以及通信操作的配置的邏輯,其中當(dāng)所述數(shù)據(jù)處理系統(tǒng)只包含所述第一處理單元時,所述邏輯選擇第一配置,并且當(dāng)所述數(shù)據(jù)處理系統(tǒng)包含所述第一處理單元與所述第二處理單元兩者時,所述邏輯選擇第二配置。
3.如權(quán)利要求2所述的數(shù)據(jù)處理系統(tǒng),其中用于完成所述連接的所述裝置包含服務(wù)元件,在所述第一處理單元中運行,并且當(dāng)所述服務(wù)元件檢測到所述第二處理單元連接到所述第一處理單元時,所述服務(wù)元件觸發(fā)所述邏輯以選擇所述第二配置。
4.如權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其中所述第一處理單元包含操作系統(tǒng)(OS),該操作系統(tǒng)根據(jù)所述數(shù)據(jù)處理系統(tǒng)的當(dāng)前配置,控制數(shù)據(jù)處理系統(tǒng)上的操作,并且在所述數(shù)據(jù)處理系統(tǒng)內(nèi)的處理器與其他組件之間分配負(fù)荷;以及用于完成所述連接的所述裝置包含在所述第一處理單元中運行的服務(wù)元件,并且所述服務(wù)元件觸發(fā)所述操作系統(tǒng)以將所述第一處理單元的負(fù)荷在所述第一處理單元與所述第二處理單元兩者之間分配。
5.如權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其中用于完成所述連接的所述裝置包含在所述第一處理單元中運行的服務(wù)元件,并且響應(yīng)于檢測到所述第二處理單元連接到所述第一處理單元,所述服務(wù)元件觸發(fā)在所述第二處理單元上的一系列運行準(zhǔn)備測試,其中所述邏輯連接只有在所述運行準(zhǔn)備測試返回肯定結(jié)果之后才完成。
6.如權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),進(jìn)一步包括連接背板,提供用于互連所述第一處理單元的熱插拔連接器與相關(guān)的所述第二處理單元的熱插拔連接器的連接端口。
7.如權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其中所述互連結(jié)構(gòu)進(jìn)一步包括用于動態(tài)重新配置路由與運行協(xié)議以在不造成所述第一處理單元掛起運行的前提下容納所述第二處理單元的裝置。
8.如權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),進(jìn)一步包括用于在不中斷正發(fā)生在所述第一處理單元上的操作的前提下移除在所述第一處理單元與所述第二處理單元之間的電氣與邏輯連接的裝置。
9.如權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其中所述熱插拔連接器為第一熱插拔連接器,并且所述第二處理單元包括具有第二熱插拔連接器的第二互連結(jié)構(gòu),該第二熱插拔連接器用來將所述第二處理單元通過該連接器連接到第一處理單元。
10.一種數(shù)據(jù)處理系統(tǒng),包括第一處理單元,具有將所述第一處理單元內(nèi)部的組件互連的互連結(jié)構(gòu),其中所述互連結(jié)構(gòu)包括至少一個熱插拔連接器;第二處理單元,通過所述熱插拔連接器電氣與邏輯地連接到所述第一處理單元,并且所述第二處理單元是可熱插拔的;用于在不中斷正發(fā)生在所述第一處理單元上的操作的前提下,完成所述第二處理單元從所述第一處理單元的電氣與邏輯移除的裝置。
11.如權(quán)利要求10所述的數(shù)據(jù)處理系統(tǒng),其中所述互連結(jié)構(gòu)進(jìn)一步包括用于從多個配置中動態(tài)選擇用于控制所述互連結(jié)構(gòu)的路由以及通信操作的配置的邏輯,其中當(dāng)所述數(shù)據(jù)處理系統(tǒng)包含所述第一處理單元與所述第二處理單元兩者時,所述邏輯選擇第二配置,并且當(dāng)所述數(shù)據(jù)處理系統(tǒng)只包含所述第一處理單元時,所述邏輯選擇第一配置。
12.如權(quán)利要求11所述的數(shù)據(jù)處理系統(tǒng),其中用于完成所述移除的所述裝置包含服務(wù)元件,在所述第一處理單元中運行,并且當(dāng)所述服務(wù)元件檢測到所述第二處理單元連接到所述第一處理單元時,所述服務(wù)元件觸發(fā)所述邏輯以選擇所述第二配置。
13.如權(quán)利要求10所述的數(shù)據(jù)處理系統(tǒng),其中所述第一處理單元包含操作系統(tǒng)(OS),該操作系統(tǒng)根據(jù)所述數(shù)據(jù)處理系統(tǒng)的當(dāng)前配置,控制數(shù)據(jù)處理系統(tǒng)上的操作,并且在所述數(shù)據(jù)處理系統(tǒng)內(nèi)的處理器與其他組件之間分配負(fù)荷;以及用于完成所述移除的所述裝置包含在所述第一處理單元中運行的服務(wù)元件,并且所述服務(wù)元件觸發(fā)操作系統(tǒng)以將負(fù)荷從所述第二處理單元重新分配到所述第一處理單元。
14.如權(quán)利要求10所述的數(shù)據(jù)處理系統(tǒng),其中用于完成所述移除的所述裝置包含在所述第一處理單元中運行的服務(wù)元件,并且所述服務(wù)元件自動生成在所述第一處理單元與所述第二處理單元之間的邏輯分割。
15.如權(quán)利要求10所述的數(shù)據(jù)處理系統(tǒng),進(jìn)一步包括連接背板,提供用于互連所述第一處理單元的熱插拔連接器與相關(guān)的所述第二處理單元的熱插拔連接器的連接端口。
16.如權(quán)利要求10所述的數(shù)據(jù)處理系統(tǒng),其中所述互連結(jié)構(gòu)進(jìn)一步包括用于動態(tài)重新配置路由與運行協(xié)議以在不造成所述第一處理單元掛起運行的前提下不再容納所述第二處理單元的裝置。
17.如權(quán)利要求10所述的數(shù)據(jù)處理系統(tǒng),其中所述熱插拔連接器為第一熱插拔連接器,并且所述第二處理單元包括具有第二熱插拔連接器的第二互連結(jié)構(gòu),該第二熱插拔連接器用來將所述第二處理單元通過該連接器連接到第一處理單元。
18.如權(quán)利要求10所述的數(shù)據(jù)處理系統(tǒng),進(jìn)一步包括第三處理單元;用于在不中斷正發(fā)生在所述第一處理單元上的操作的前提下,動態(tài)建立所述第一處理單元與所述第三處理單元之間的電氣與邏輯連接的裝置;以及用于在不中斷正發(fā)生在所述第一處理單元上的操作的前提下,動態(tài)重新配置所述數(shù)據(jù)處理系統(tǒng)以容納所述第三處理單的裝置。
19.一種在包含第一處理單元的數(shù)據(jù)處理系統(tǒng)中將第二處理單元熱插拔到所述第一處理單元的系統(tǒng),其中所述第一處理單元包括具有熱插拔連接器以及可動態(tài)調(diào)整的配置的互連結(jié)構(gòu),所述系統(tǒng)包括用于將所述第二處理單元通過所述熱插拔連接器連接到所述第一處理單元的裝置;用于檢測所述第二處理單元的連接并且確定所述第二處理單元是否工作正常的裝置;用于當(dāng)檢測到工作正常的第二處理單元時,動態(tài)切換所述互連結(jié)構(gòu)的配置到具有支持所述第二處理單元的路由以及運行協(xié)議的配置的裝置;以及用于將所述第一處理單元的負(fù)荷與所述第二處理單元共享的裝置。
20.如權(quán)利要求19所述的系統(tǒng),進(jìn)一步包括用于在不中斷所述第一處理單元的操作的前提下,允許熱移除所述第二處理單元的裝置。
21.如權(quán)利要求20所述的系統(tǒng),進(jìn)一步包括操作系統(tǒng)(OS),該操作系統(tǒng)根據(jù)所述數(shù)據(jù)處理系統(tǒng)的當(dāng)前配置,控制數(shù)據(jù)處理系統(tǒng)上的操作,并且在所述數(shù)據(jù)處理系統(tǒng)內(nèi)的處理器與其他組件之間分配負(fù)荷。
22.一種在包含第一處理單元的數(shù)據(jù)處理系統(tǒng)中將第二處理單元熱插拔到所述第一處理單元的方法,其中所述第一處理單元包括具有熱插拔連接器以及可動態(tài)調(diào)整的配置的互連結(jié)構(gòu),所述方法包括檢測所述第二處理單元通過所述熱插拔連接器到所述第一處理單元的連接;確定所述第二處理單元是否工作正常;當(dāng)檢測到第二處理單元并且第二處理單元工作正常時,動態(tài)切換所述互連結(jié)構(gòu)的配置到具有支持所述第二處理單元的路由以及運行協(xié)議的配置,其中所述切換發(fā)生在不中斷所述第一處理單元上操作的前提下;以及將所述第一處理單元的負(fù)荷與所述第二處理單元共享。
23.如權(quán)利要求22所述的系統(tǒng),進(jìn)一步包括在不中斷所述第一處理單元的操作的前提下,允許熱移除所述第二處理單元。
全文摘要
一種在不中斷整個處理系統(tǒng)當(dāng)前操作的前提下,提供單個可熱插拔組件的熱插拔添加與移除功能的數(shù)據(jù)處理系統(tǒng)。該數(shù)據(jù)處理系統(tǒng)包括具有熱插拔連接器的互連結(jié)構(gòu),在該熱插拔連接器上可以將外部可熱插拔組件耦合至該數(shù)據(jù)處理系統(tǒng),并且邏輯組件包括配置邏輯與路由和操作邏輯。當(dāng)可熱插拔組件連接到該熱插拔連接器時,服務(wù)元件自動檢測該連接并且為該擴(kuò)展后系統(tǒng)選擇正確的配置文件。一旦加載該配置文件并且對新元件的系統(tǒng)檢查指示該新元件準(zhǔn)備好集成,則將該新元件集成到現(xiàn)有系統(tǒng)中,并且操作系統(tǒng)向該新元件分配負(fù)荷。由此從客戶的角度看,整個過程發(fā)生在不斷電或者中斷現(xiàn)有元件的操作的前提下。
文檔編號G06F13/40GK1542638SQ200410034359
公開日2004年11月3日 申請日期2004年4月12日 優(yōu)先權(quán)日2003年4月28日
發(fā)明者拉維·K·阿里邁利, 邁克爾·S·弗洛伊德, 凱文·F·賴克, S 弗洛伊德, F 賴克, 拉維 K 阿里邁利 申請人:國際商業(yè)機(jī)器公司