欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

管理冗余的基于計算機的系統(tǒng)用于容錯計算的方法和設(shè)備的制作方法

文檔序號:6419071閱讀:173來源:國知局
專利名稱:管理冗余的基于計算機的系統(tǒng)用于容錯計算的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算環(huán)境,更特別地,涉及管理冗余的基于計算機的系統(tǒng)用于容錯計算的方法。
容錯計算在一個系統(tǒng)存在故障和錯誤的情況下保證正確的計算結(jié)果。冗余使用是容錯的主要方法。有許多不同的方式管理在硬件,軟件,信息和時間上的冗余。由于各種各樣的算法和實現(xiàn)手段,大多數(shù)現(xiàn)有系統(tǒng)使用冗余管理的使用權(quán)設(shè)計,這些設(shè)計一般與應(yīng)用軟件和應(yīng)用硬件混雜在一起。應(yīng)用與冗余管理的混雜產(chǎn)生一個更為復(fù)雜的系統(tǒng),它顯著降低了靈活性。
因而本發(fā)明的目的是提供用于管理冗余的基于計算機的系統(tǒng),它不與應(yīng)用參雜在一起,并提供在分布計算環(huán)境中的附加的靈活性。
根據(jù)本發(fā)明的一個實施例,通過在一個分布環(huán)境中使用多個硬件計算節(jié)點(或通道)和在每個單獨節(jié)點上安裝冗余管理系統(tǒng)(RMS)構(gòu)造這種冗余計算系統(tǒng)。
RMS是通過經(jīng)過在每個計算系統(tǒng)中的處理單元應(yīng)用的算法集,數(shù)據(jù)結(jié)構(gòu),運行過程和設(shè)計而實現(xiàn)的冗余管理方法學。RMS在許多需要高度系統(tǒng)可靠性的領(lǐng)域,如航空,關(guān)鍵控制系統(tǒng),電訊,計算機網(wǎng)絡(luò)等等中有寬廣的應(yīng)用。
為了實現(xiàn)RMS,RMS從應(yīng)用開發(fā)物理地或邏輯地被分開。這減少了將來系統(tǒng)的整體設(shè)計的復(fù)雜性。因此,系統(tǒng)開發(fā)者能獨立地設(shè)計應(yīng)用,并依靠RMS提供冗余管理功能。RMS和應(yīng)用的集成是通過可編程的連接RMS與應(yīng)用處理器的總線接口協(xié)議來完成的。
RMS包括一個交叉通道數(shù)據(jù)鏈接(CCDL)模塊和一個容錯執(zhí)行(FTE)模塊。CCDL模塊為所有通道提供數(shù)據(jù)通信,同時FTE模塊提供諸如同步,表決,故障和錯誤檢測,隔離和恢復(fù)的系統(tǒng)功能。通過表決來檢測和屏蔽錯誤數(shù)據(jù)實現(xiàn)系統(tǒng)容錯,動態(tài)重新配置機制,即能夠排除系統(tǒng)中的有故障節(jié)點并再次許可健康節(jié)點返回系統(tǒng)中,保證系統(tǒng)完整性。
RMS能用硬件,軟件或二者的結(jié)合(如混合)來實現(xiàn),并在一個有冗余計算資源來處理元件故障的分布系統(tǒng)中工作。根據(jù)系統(tǒng)可靠性和容錯要求,分布系統(tǒng)有二個至八個通道(或節(jié)點)。一個通道由一個RMS和一個應(yīng)用處理器組成。通道通過RMS的CCDL模塊互相連接形成一個冗余系統(tǒng)。因為在一個通道內(nèi)的單個應(yīng)用不充分了解其它通道的活動,所以RMS提供系統(tǒng)同步,保持數(shù)據(jù)一致性,并形成對出現(xiàn)在系統(tǒng)的不同地點的故障和錯誤的系統(tǒng)范圍內(nèi)的審查。
參考下面詳細描述同時結(jié)合附圖,對本發(fā)明的更完整的理解和其中的許多服務(wù)優(yōu)點將是顯然的,同樣也變得更好理解,其中相似的標號表示同樣或相似部件,其中

圖1是依照本發(fā)明的實施例的冗余管理系統(tǒng)的方框圖;圖2是依照本發(fā)明的示范性實施例的基于三個通道RMS的容錯系統(tǒng)的方框圖;圖3是依照本發(fā)明的實施例的冗余管理系統(tǒng)的狀態(tài)轉(zhuǎn)換圖;圖4是依照本發(fā)明的實施例的冗余管理系統(tǒng),應(yīng)用交互和表決過程的方框圖;圖5是依照本發(fā)明的實施例的容錯執(zhí)行關(guān)系的示意圖;圖6是依照本發(fā)明的實施例容錯機執(zhí)行的表決和懲罰分配過程的方框圖;圖7是依照本發(fā)明的實施例的冗余管理系統(tǒng)關(guān)系的示意圖;圖8是依照本發(fā)明的實施例的交叉通道數(shù)據(jù)鏈接消息結(jié)構(gòu)的圖表;圖9是依照本發(fā)明的實施例的交叉通道數(shù)據(jù)鏈接頂層結(jié)構(gòu)的方框圖;圖10是依照本發(fā)明的實施例的交叉通道數(shù)據(jù)鏈接發(fā)送器的方框圖;圖11是依照本發(fā)明的實施例的交叉通道數(shù)據(jù)鏈接接收器的方框圖;依照本發(fā)明的實施例,冗余管理系統(tǒng)(RMS)提供下列冗余管理功能1〕交叉通道數(shù)據(jù)通信;2〕基于幀的系統(tǒng)同步;3〕數(shù)據(jù)表決;4〕故障和錯誤檢測,隔離和恢復(fù);5〕很好的降級和自我復(fù)原。
交叉數(shù)據(jù)通信功能由CCDL模塊提供。CCDL模塊有一個發(fā)送器和至多8個并行接收器。它從它的本地通道取得數(shù)據(jù)并向所有通道包括自己廣播數(shù)據(jù)。通信數(shù)據(jù)打包成某種消息格式,使用奇偶位來檢測傳送錯誤。為了保護通道之間的電絕緣,所有的CCDL接收器使用電光轉(zhuǎn)換。因此,沒有單個接收器失敗能從其它的通道的接收器過度耗盡電流,導(dǎo)致系統(tǒng)范圍的普遍模式失敗。
RMS是一個以幀為基礎(chǔ)的同步系統(tǒng)。每個RMS有它自己的時鐘,通過同所有通道交換它的本地時間并根據(jù)表決的時鐘并調(diào)整它的本地時鐘來完成系統(tǒng)同步。使用分布的協(xié)定算法,從任何類型的故障包括拜占庭(byzantine)故障引起的失敗,建立一個全局時鐘。
RMS使用數(shù)據(jù)表決作為它的故障檢測,隔離和恢復(fù)的主要機制。如果一個通道產(chǎn)生的數(shù)不同于被表決的大多數(shù)的數(shù)據(jù),被表決的數(shù)據(jù)將被使用作為輸出來屏蔽故障。有故障的通道將被確認并被全局懲罰系統(tǒng)懲罰。數(shù)據(jù)表決包括應(yīng)用數(shù)據(jù)和系統(tǒng)狀態(tài)數(shù)據(jù)二者。RMS支持不同種類的計算系統(tǒng),其中由于各種各樣的硬件和軟件,無故障的通道并不保證生成完全一樣的數(shù)據(jù)(包括數(shù)據(jù)圖象)。如果數(shù)據(jù)偏離發(fā)生在表決過程中,用戶指定的容忍度決定錯誤的行為。
通過從定義操作集合的同步的無故障的一組通道中排除一個失敗通道,RMS支持體面的降級。設(shè)計懲罰系統(tǒng)來懲罰由任何有故障的通道提交的錯誤行為。當一個有故障的通道超出它的懲罰極限時,其它的無故障通道重新配置他們自己為一個新的操作集合,它排除了剛剛確認的有故障通道。這個被排除的通道不容許參與數(shù)據(jù)表決,它的數(shù)據(jù)只用來監(jiān)視目的。RMS也有能力通過動態(tài)重新配置再次許可健康通道回到操作集合中。這種自我康復(fù)功能容許RMS保護用于長期任務(wù)的系統(tǒng)資源。
圖1示出了依照本發(fā)明的實施例的RMS系統(tǒng)的頂層方框圖。RMS12包括一個交叉通道數(shù)據(jù)鏈接(CCDL)模塊24a,以及一個容錯機執(zhí)行模塊13。FTE13駐留在VME卡或其它單板計算機上,并經(jīng)過VME底板總線或其它適當?shù)臄?shù)據(jù)總線連接至系統(tǒng)中的其它卡。RMS12經(jīng)過CCDL模塊24a連接至每個駐留在卡上的其它RMS模塊。每個RMS包括它自己的CCDL模塊,用于在各自的RMS模塊中建立一個通信鏈接。經(jīng)過CCDL的一個通信鏈接的建立在監(jiān)視系統(tǒng)中的所有卡的完整性中提供附加的靈活性。通過在每個計算節(jié)點上實現(xiàn)RMS,并彼此連接,系統(tǒng)故障能被檢測,隔離并恢復(fù),它比其它的容錯系統(tǒng)更具效率。
圖2描述了根據(jù)本發(fā)明的實施例一個示范性的三通道RMS基系統(tǒng)結(jié)構(gòu)。在該結(jié)構(gòu)中,RMS與3個車輛任務(wù)計算機(VMC)相互連接形成一個冗余的容錯的系統(tǒng)。每個VMC有一個置于其中的有幾個單板機的VME底盤。RMS12安裝在VMC1的第一個槽中,在RMS和其它應(yīng)用板之間的通信通過VME底板總線14。每個VMC從它的外部1553總線取得輸入。這3個主要應(yīng)用,車輛子系統(tǒng)管理員16,飛行管理員18和任務(wù)管理員20,計算它們的功能,然后保存關(guān)鍵數(shù)據(jù)于VME全局存儲器(見圖7)中用于表決。
各個板VMC1,VMC2和VMC3的每個RMS12,22和32經(jīng)過VME總線獲得數(shù)據(jù)并通過交叉通道數(shù)據(jù)鏈結(jié)(CCDL)24向其它通道廣播本地數(shù)據(jù)。接收數(shù)據(jù)的3個拷貝后,RMS將表決并將表決的數(shù)據(jù)回寫至VME全局存儲器以備應(yīng)用使用。
系統(tǒng)容錯RMS中的每個通道被定義為一個用于故障檢測,隔離和恢復(fù)的故障牽制區(qū)(FCR)。傳統(tǒng)上,F(xiàn)CR通常有一個被普通的硬件/軟件元件限制的邊界。FCR的關(guān)鍵屬性是它的防止故障和故障繁殖到另一個區(qū)的能力。發(fā)生在同一區(qū)的多個故障被視為單一故障,因為其它區(qū)能通過表決過程檢測并校正該故障。一個能容忍的同時故障的數(shù)量取決于該系統(tǒng)中無故障通道的數(shù)量。對于非拜占庭故障,N2f+1,其中N是無故障通道的數(shù)量,f是故障數(shù)量。如果要求一個系統(tǒng)為拜占庭式安全,N3fB+1,其中fB是拜占庭故障的數(shù)量。
RMS能容忍有不同時間長度的故障,如瞬間故障,間歇故障和永久故障。瞬間故障有很短的持續(xù)時間并隨機出現(xiàn)和消失。間歇故障以某種頻率間斷性地出現(xiàn)和消失。如果不采取矯正行動,永久故障不確定地保持存在。在傳統(tǒng)的容錯系統(tǒng)設(shè)計中,故障元件的嚴格修剪(pruning)能縮短故障潛伏時間,并因此增強系統(tǒng)的完整性。而且,瞬間故障元件的立即排除可能降低系統(tǒng)資源太快,并危害任務(wù)成功。為了平衡這2種沖突要求,根據(jù)應(yīng)用需要,RMS的容錯容許用戶編程他的懲罰系統(tǒng)。不同的數(shù)據(jù)和系統(tǒng)錯誤能賦予不同的懲罰。對某種故障的高懲罰加權(quán)將導(dǎo)致當這樣的故障發(fā)生時的故障通道的迅速排除。對其它故障的低懲罰加權(quán)將容許一個有故障通道呆在系統(tǒng)中一個預(yù)定時間,以便它能通過表決修正故障。
根據(jù)本發(fā)明的RMS系統(tǒng),當懲罰超出用戶定義的排除極限時,在3節(jié)點配置中的故障牽制排除有故障通道。當一個通道的良好行為信用達到再許可極限時,該通道被再許可進入操作集合中。在應(yīng)用或通道數(shù)據(jù)中的沖突通過中值選擇表決來解決。
在2個節(jié)點配置中,RMS不能檢測或排除有故障節(jié)點。因此,表決不能用于解決沖突。應(yīng)用必須決定誰有故障并采取相應(yīng)的行動。
RMS實現(xiàn)如前所述,RMS有2個子系統(tǒng),容錯執(zhí)行(FTE)和交叉通道數(shù)據(jù)鏈結(jié)(CCDL)。FTE由5個模塊(圖5)組成1〕同步器80;2〕表決器58;3〕容錯機(FLT)84;4〕任務(wù)通信器(TSC)46;5〕內(nèi)核(KRL)52。這些模塊的功能將按前述方法描述。
同步器(SYN)80(圖5)建立和保持系統(tǒng)的通道同步。它要求在任何時間,每個獨立的RMS必須在或運行于下面5個狀態(tài)之一1〕POWER_OFF;2〕START_UP;3〕COLD_START;4〕WARM_START;5〕STEADY_STATE;圖2示出了一個獨立的RMS和它的5個狀態(tài)的狀態(tài)轉(zhuǎn)移圖。
POWER_OFF(PF)是當RMS是非運行的和因為任何理由相關(guān)計算機的電源是關(guān)閉時的狀態(tài)。當RMS啟動時,RMS無條件地轉(zhuǎn)移到START_UP狀態(tài)。
START_UP(SU)是在計算機已經(jīng)開啟之后,和當所有的系統(tǒng)參數(shù)正在初始化,RMS計時機制正在初始化以及通道間通信鏈結(jié)(如,CCDL)正在建立時的狀態(tài)。當啟動過程完成時,RMS無條件轉(zhuǎn)移到COLD_START狀態(tài)。
COLD_START(CS)是這樣的狀態(tài),在該狀態(tài),RMS不能確認一個存在的操作集合(OPS)并正在試圖建立一個OPS。OPS是參加在正常的系統(tǒng)運行和表決的一組節(jié)點。當在OPS中少于3個RMS時,RMS從WARM_START轉(zhuǎn)移至COLD_START。
WARM_START(WS)是這樣的狀態(tài),在該狀態(tài),RMS確認包括至少3個RMS的OPS,但本地RMS自身不在OPS中。
STEADY_STATE(SS)是當RMS的節(jié)點同步于OPS時的狀態(tài)。一個STEADY_STATE節(jié)點能在或不在OPS中。OPS中的每個節(jié)點正在執(zhí)行它的正常運行和表決。不包括在OPS中的一個節(jié)點排除于表決外但它的數(shù)據(jù)被OPS監(jiān)視,來決定它的再許可進入的資格。
在冷啟動狀態(tài),使用交互式集中算法來同步通道時鐘到集中的為操作集合(OPS)的時鐘組之中。要求所有成員對在OPS中的成員資格有一致的看法,并且它們在同一時刻也都切換到Steady_State(穩(wěn)定狀態(tài))模式。
在Steady_State(穩(wěn)定狀態(tài))模式,每個通道通過系統(tǒng)狀態(tài)(SS)消息向所有通道廣播它的本地時間。為了保持系統(tǒng)同步,每個通道動態(tài)調(diào)整它的本地時間為全局時間。由于RMS是一個幀同步系統(tǒng),它有一個定義最大可容許同步SEW稱為軟錯誤窗口(SEW)的預(yù)定時間窗口。每個無故障RMS應(yīng)該在SEW限定的時間間隔接收其它SS消息。由于RMS用于分布環(huán)境,使用單個SEW窗口在判定參與的通道中的同步錯誤時有天生的不確定性。見P.Thambidurai,A.M.Kieckhafer和C.J.Walter在IEEE第19次容錯計算國際研討會發(fā)表的“在MAFT中的時鐘同步”一文,整個內(nèi)容在這里作為參考。為了解決不確定性,使用另一個已知為硬錯誤窗口(HEW)的時間窗口。例如,如果通道“A”在“A”的HEW之外接收通道“B”的時鐘,通道“A”報告通道“B”的同步錯誤。然而,如果通道“B”發(fā)現(xiàn)它自己的時鐘(接收它自己的SS消息之后)在HEW中,通道“B”報告通道“A”有一個有關(guān)同步的錯誤的錯誤報告?;ハ嘭焸涞耐ǖ赖牟淮_定性需要通過其它通道對“B”時鐘的看法來解決。如果通道“A”是正確的,其它通道應(yīng)該觀察到通道“B”的時鐘已經(jīng)至少達到它們的SEW之外。由于其它通道的錯誤報告存在,于是系統(tǒng)能夠確認通道“B”為有故障通道。否則,通道“A”為有故障通道,因為它偏離錯誤報告中的大多數(shù)觀點。
熱啟動(WS)是在冷啟動和穩(wěn)定狀態(tài)之間的中間狀態(tài)。由于故障和錯誤,一個通道可以被排除在OPS之外。被排除的通道能經(jīng)過重置并試圖與熱啟動模式的操作集合再同步。一旦該通道檢測到它與操作集合的全局時鐘同步,它能切換到穩(wěn)定模式。一旦處于穩(wěn)定模式,被排除的通道被監(jiān)視以備將來再許可進入OPS。
在VMC中的時間同步利用RMS生成的本地監(jiān)視器的中斷信號,VSM日程管理器使用幀邊界和中間幀信號來安排任務(wù)。
貫穿VMC的時間同步保證資源一致。CCDL時間標記RMS系統(tǒng)接收的數(shù)據(jù)消息超過8M字節(jié)數(shù)據(jù)鏈。FTE從VMC獲取RMS系統(tǒng)數(shù)據(jù)并表決這些接收的消息的時間,調(diào)整CCDL本地時間為表決值。然后FTE生成在已同步的幀邊界上的中斷信號。
系統(tǒng)表決在RMS,表決是用于故障檢測,隔離和恢復(fù)的主要技術(shù)。FTE中的RMS表決器(VTR)對系統(tǒng)狀態(tài),錯誤報告和應(yīng)用數(shù)據(jù)進行表決。系統(tǒng)狀態(tài)的表決建立有關(guān)系統(tǒng)運行的一致觀點,如OPS中的成員資格和同步模式。對錯誤報告的表決對哪個通道有錯誤行為和對這些錯誤應(yīng)該進行什么懲罰形成一致意見。對應(yīng)用數(shù)據(jù)的表決提供正確數(shù)據(jù)輸出以供應(yīng)用使用。數(shù)據(jù)表決序列在圖4中示出。
RMS數(shù)據(jù)表決是一個由次要(minor)幀邊界驅(qū)動的循環(huán)操作。一個次要幀邊界是在系統(tǒng)中最頻繁調(diào)用的任務(wù)的區(qū)間。如圖4所示,4個通道的系統(tǒng)生成在次要幀中的應(yīng)用數(shù)據(jù)40,并保存該數(shù)據(jù)于未加工數(shù)據(jù)共享的存儲器42,它已知為給RMS邊界用的應(yīng)用數(shù)據(jù)表。在次要幀邊界44,RMS的任務(wù)通信器(TSC)模塊46使用數(shù)據(jù)ID序列表(DST)48作為指針來從應(yīng)用數(shù)據(jù)表中讀取數(shù)據(jù)。DST48為一個數(shù)據(jù)表決程序,它決定哪個數(shù)據(jù)將需要在每個次要幀中被表決,并且它也包含表決必須的其它相關(guān)信息。讀取數(shù)據(jù)之后,TSC46將該數(shù)據(jù)打包成某種格式并發(fā)送該數(shù)據(jù)至CCDL24。CCDL向其它節(jié)點廣播它的本地數(shù)據(jù),同時也接收來自其它節(jié)點的數(shù)據(jù)。當數(shù)據(jù)轉(zhuǎn)移完成,內(nèi)核(KRL)52從CCDL24獲得數(shù)據(jù)并保存該數(shù)據(jù)于數(shù)據(jù)備份表56中,其中數(shù)據(jù)的4個備份現(xiàn)在準備用作表決(如,來自其它RMS的3個備份和來自該RMS的一個備份)。表決器(VTR)58執(zhí)行表決和反常檢查。中間值選擇算法用作整數(shù)型和實型數(shù)的表決,大多數(shù)表決算法用作二進制和離散型數(shù)據(jù)表決。數(shù)據(jù)類型和它的相關(guān)誤差容忍度也由DST48提供,DST48被VTR使用來挑選合適的表決算法。被表決的數(shù)據(jù)60保存在已表決數(shù)據(jù)表62中。在適當?shù)臅r間,TSC模塊46從已表決數(shù)據(jù)表62中讀取數(shù)據(jù)并將它回寫至應(yīng)用數(shù)據(jù)表(或已表決數(shù)據(jù)共享存儲器)66中作為表決輸出。再者,輸出數(shù)據(jù)的地址由DST48提供。如果該系統(tǒng)有2個剩下的運行通道并且VTR檢測到存在數(shù)據(jù)不一致,那么對于每個被表決的數(shù)據(jù),可以由VTR58在數(shù)據(jù)沖突表64中設(shè)置數(shù)據(jù)沖突標。數(shù)據(jù)沖突表64位于一個共享存儲器空間中,這樣應(yīng)用軟件能訪問該表,以決定被表決的數(shù)據(jù)是否有效。
數(shù)據(jù)表決選項
表1表1是數(shù)據(jù)表決選項的一個示范性表,其中指定的數(shù)據(jù)類型是ANSI“C”語言的IEEE標準數(shù)據(jù)類型。
容錯機通過為每個通道定義故障牽制區(qū),F(xiàn)CR(如通道)只通過與其它FCR(通道)的信息交換能表明它的錯誤。見J.Zhou的“設(shè)計捕獲系統(tǒng)可靠性“,由復(fù)雜系統(tǒng)工程綜合和評估組出版,NSWC,Silver spring,MD,1992年7月,107-119頁,這里引作參考。通過表決和其它錯誤檢測機制,容錯機(FLT)84(圖5)將錯誤總結(jié)為15種類型,如表2所示。利用16位錯誤矢量來記日志和報告檢測出的錯誤。該錯誤矢量被打包在一個錯誤信息中,并向其它通道廣播,用于在每一個次要幀的一致化和恢復(fù)動作。
表2(錯誤矢量表)圖例CSS當前系統(tǒng)狀態(tài)表示在當前次要幀中的OPS中的節(jié)點NSS下一個系統(tǒng)狀態(tài)表示在下一個次要幀中的OPS中的節(jié)點OPS操作集合,它定義為處于穩(wěn)定狀態(tài)模式中的無故障系統(tǒng)節(jié)點的集合
TBD將被決定CCDL交叉通道數(shù)據(jù)鏈接KRL內(nèi)核SYN同步器VTR表決器FLT容錯機參照圖6,F(xiàn)LT84評定為錯誤源的一個通道的懲罰104。在每一個次要幀,所有已檢測(已報告)的錯誤用懲罰加權(quán)表102來施加懲罰,懲罰總和保存在遞增的懲罰計數(shù)(IPC)中。本地IPC被評定(104)并經(jīng)過CCDL向其它節(jié)點廣播(106)。FLT模塊對IPC(108)表決,表決結(jié)果保存在基懲罰計數(shù)(BPC)110中。IPC捕獲特別的次要幀的錯誤,BPC捕獲整個任務(wù)時間的累積錯誤,在計算/保存BPC(110)之后,IPC矢量被清空(112),BPC經(jīng)過CCDL向其它節(jié)點廣播(114)。為了確保系統(tǒng)重新配置的所有無故障通道之間的動作一致,每一個次要幀也表決BPC(116)并且FLT使用已表決的BPC來決定是否需要一個懲罰賦予和表決。一旦對BPC的表決(116)完成,F(xiàn)LT決定是否已經(jīng)達到一個主要幀邊界(118)。如果是的話,該重新配置被決定(120)。如果沒有達到主要幀邊界,處理返回至錯誤報告110,并從頭繼續(xù)。
系統(tǒng)重新配置包括有故障通道的排除和健康通道再許可進入。如果有故障通道的基懲罰計數(shù)(BPC)超出一個預(yù)定極限,RMS開始系統(tǒng)重新配置。在重新配置過程中,系統(tǒng)重組操作集合,排除有故障通道。一旦一個通道失去在操作集合中的成員資格,它的時間和系統(tǒng)狀態(tài)將不再在邊界過程中使用。被排除的通道需要進行一個重置處理。如果重置處理成功,該通道能試圖再與操作集合同步,如果同步成功的話,它能切換到穩(wěn)定狀態(tài)模式。一個被排除的通道能在穩(wěn)定狀態(tài)模式中運行,但仍然在操作集合之外?,F(xiàn)在該通道從操作集合中的通道接收所有的系統(tǒng)消息和應(yīng)用數(shù)據(jù)。
操作集合中的所有成員也接收來自被排除的通道的消息并監(jiān)視它的行為。根據(jù)通道的行為,被排除的通道的BPC可以增加和減少。如果被排除的通道保持無故障運行,它的BPC將逐漸減少至一個預(yù)定的極限,并在下一個主要幀邊界,系統(tǒng)進行另一次重新配置以重新許可該通道進入。
RMS和應(yīng)用接口當前RMS實現(xiàn)使用VME總線和共享存儲器作為RMS和應(yīng)用接口。然而,只有一種可能的實現(xiàn)方法,也能利用其它的通信協(xié)議來實現(xiàn)該接口。TSC模塊46(圖4)的主要功能是從指定的通信介質(zhì)中取得數(shù)據(jù)并將數(shù)據(jù)打包成某種格式供RMS使用。當一個表決循環(huán)完成時,TSC取得該已表決數(shù)據(jù)并將該數(shù)據(jù)返送回應(yīng)用。
RMS內(nèi)核圖5示出了依照本發(fā)明的實施例的容錯執(zhí)行(FTE)的關(guān)系的示意圖。如圖所示,內(nèi)核52提供對RMS的所有監(jiān)督運行。內(nèi)核52管理RMS的啟動,調(diào)用適當?shù)墓δ軄沓跏蓟繕颂幚砥饕约八谐跏紨?shù)據(jù)的調(diào)用。在啟動過程中,通過調(diào)用系統(tǒng)配置數(shù)據(jù)和適當?shù)倪\行參數(shù),內(nèi)核配置CCDL模塊。通過監(jiān)視其它RMS模塊的狀態(tài)和在正確時間采取適當動作,內(nèi)核管理RMS操作節(jié)點之間的轉(zhuǎn)換(如冷啟動,熱啟動,穩(wěn)定狀態(tài))。內(nèi)核使用一個確定性的行程算法,使得所有的“動作”由一個自含的時間基地控制。在該時間基地循環(huán)的一個給定“記號”處,該記號的預(yù)定動作經(jīng)常被執(zhí)行。內(nèi)核52基于時間記號調(diào)整FTE功能。RMS動作,如錯誤檢測,隔離和恢復(fù),在RMS次要幀中的適當時間由內(nèi)核安排。如果RMS通道有故障,內(nèi)核有責任在適當時間重啟該通道。在RMS子系統(tǒng)之間和在RMS和應(yīng)用計算機之間的所有數(shù)據(jù)的轉(zhuǎn)移由內(nèi)核管理和安排。內(nèi)核指導(dǎo)其它模塊準備各種各樣的RMS消息并將這些消息調(diào)入CCDL,供在內(nèi)核需要時傳送。只要CCDL接收到消息,內(nèi)核析取那些消息并將它們分派到正確模塊來處理。內(nèi)核循環(huán)運行,連續(xù)執(zhí)行每個安排好的動作并監(jiān)視RMS狀態(tài)。
容錯執(zhí)行(FTE)為4個或更多節(jié)點提供拜占庭式故障恢復(fù)。在來源一致的條件下,給3個節(jié)點提供拜占庭式安全。FTE表決應(yīng)用數(shù)據(jù),刪除/恢復(fù)FTE的應(yīng)用,并同步應(yīng)用和FTE至小于100秒。
在一個示范性實施例中,F(xiàn)TE用大約4.08毫秒(利用率40%)來表決150個字并執(zhí)行操作系統(tǒng)功能。FTE存儲器為0.4M個字節(jié)的閃存(利用率5%)和0.6M字節(jié)的SRAM(利用率5%)。提供這些值作為示范用途。本領(lǐng)域的技術(shù)人員將理解改變這些值不偏離本發(fā)明的范圍。
RMS運行環(huán)境圖7示出了運行環(huán)境中的RMS和VMC之間的RMS關(guān)系或交換結(jié)構(gòu)。在VMC內(nèi)轉(zhuǎn)移的信息包括在RMS幀邊界交付的RMS系統(tǒng)數(shù)據(jù),并包括信息,例如次要幀成員,表決過的當前/下一個系統(tǒng)狀態(tài)表示誰正在運行在運行集之中和之外,系統(tǒng)沖突標用于2個節(jié)點配置。2個節(jié)點配置中使用數(shù)據(jù)沖突表來表示一個在同等數(shù)據(jù)元基礎(chǔ)上的不可解決的數(shù)據(jù)沖突。已表決的輸出是為從一個操作集合成員中表決而提交的每個數(shù)據(jù)元的表決值。RMS系統(tǒng)數(shù)據(jù),數(shù)據(jù)沖突表和表決過的輸出由RMS轉(zhuǎn)移至全局共享存儲器,它是在與RMS正在運行其中的本地VMC的通信中。
未經(jīng)加工的輸出是提交給RMS的數(shù)據(jù),用于在穩(wěn)定狀態(tài)模式中被所有節(jié)點表決。應(yīng)用錯誤計數(shù)是該系統(tǒng)的一個可選功能,并被轉(zhuǎn)移至RMS,用來使一個應(yīng)用能在決定操作集合時影響由RMS評估的錯誤懲罰。
幀邊界信息包括一個發(fā)出RMS幀開始的信號的中斷。這種信號幀同步FM,VSM和MM。中間幀信息是另一種中斷,它從幀開始提供一個5毫秒的信號。應(yīng)用數(shù)據(jù)準備就緒信息包括一個RMS產(chǎn)生的中斷,向應(yīng)用發(fā)出信號,即已表決的數(shù)據(jù)正在等待并能被存取和處理。系統(tǒng)重置是一個在重置時應(yīng)用能夠使用的可選控制。
交叉通道鏈(CCDL)CCDL模塊提供在通道間的數(shù)據(jù)通訊。該數(shù)據(jù)捆綁成消息,該消息結(jié)構(gòu)在圖8中示出。如圖所示,該消息結(jié)構(gòu)包括一個頭部,和根據(jù)被發(fā)送和接收的消息類型的不同的消息類型。消息類型0是一個數(shù)據(jù)消息的結(jié)構(gòu);類型1是一個系統(tǒng)狀態(tài)消息的結(jié)構(gòu);類型2是一個冷啟動消息的結(jié)構(gòu);類型4是一個錯誤報告和懲罰計數(shù)消息的結(jié)構(gòu)。
每個CCDL有一個發(fā)送器和至多8個接收器。CCDL頂層結(jié)構(gòu),發(fā)送器和接收器圖表在圖9-11中描述。圖9示出了一個頂層CCDL結(jié)構(gòu),它有一個發(fā)送器70,4個接收器72a-72d,和2個使用DY4 MaaxPac中間層協(xié)議的接口74a和74b。一個接口74b有助于在基VME和CCDL存儲器之間的數(shù)據(jù)交換,其它接口74a處理控制沖突和錯誤報告。當數(shù)據(jù)需要被傳送時,CCDL接口74b從基卡中取得數(shù)據(jù)并將它保存到8位發(fā)送器存儲器76中。當數(shù)據(jù)被接收,4個接收器72a-d處理并一個節(jié)點一個地分別保存接收到的數(shù)據(jù)于4個接收器存儲器78a-d中。然后FTE在CCDL的控制下獲取數(shù)據(jù)。因為CCDL是在通道之間建立物理連接的唯一模塊,為了保證系統(tǒng)的故障牽制區(qū),它必須加強電絕緣。當前的CCDL使用電光轉(zhuǎn)換來將電信號轉(zhuǎn)換為光信號。每個接收器72a-72d有對應(yīng)的提供必要的絕緣功能的光隔離73a-73d。這使得每個通道有它自己的電源供應(yīng),并且它們都彼此電絕緣。
圖10示出了一個已知本發(fā)明的實施例的發(fā)送器70結(jié)構(gòu)的更詳細的視圖。當由FTE發(fā)出一個“執(zhí)行”命令,發(fā)送器控制邏輯80從它的8字節(jié)存儲器76中讀取數(shù)據(jù),將該數(shù)據(jù)形成一個32位格式,并將一個水平字加到該數(shù)據(jù)的尾部。轉(zhuǎn)換寄存器電路82將該數(shù)據(jù)轉(zhuǎn)換成一個串行字節(jié)串,垂直奇偶位插入到該串中用于傳送。
圖11解釋串行字節(jié)串是如何從一個發(fā)送模式接收并保存在相應(yīng)的存儲器中的。位中心邏輯90使用6個系統(tǒng)時鐘(如,48MHZ)循環(huán)來可靠地記錄在一個數(shù)據(jù)位中。當數(shù)據(jù)串的第一個位被接收,時間標記邏輯92記錄該時間用于同步目的。轉(zhuǎn)換器電路94剝離垂直奇偶位并轉(zhuǎn)換串行數(shù)據(jù)為8位格式。如果垂直位顯示傳送錯誤,將報告一個錯誤??刂七壿?6還根據(jù)附著在該數(shù)據(jù)上的節(jié)點數(shù)信息從該數(shù)據(jù)中剝離水平奇偶位并將它保存到接收器存儲器中(如78a)。
為了加強通信可靠性,水平和垂直奇偶位附著在數(shù)據(jù)消息上。消息格式由CCDL檢驗,只有有效消息被發(fā)送至內(nèi)核作進一步處理。
應(yīng)該理解,本發(fā)明不限定于這里公開的特殊實施例,它希望作為實現(xiàn)本發(fā)明的最好模式,但本發(fā)明不限于本說明書中描述的特定的實施例,而由附加的權(quán)利要求書所限制。
權(quán)利要求
1.一種管理基于冗余計算機的有多個硬件計算節(jié)點(通道)的系統(tǒng)的方法,包括步驟提供在每個計算節(jié)點中的冗余管理系統(tǒng)(RMS);建立在每個RMS之間的通信鏈結(jié);和在每個RMS中實現(xiàn)容錯執(zhí)行(FTE)模塊以管理錯誤和多個系統(tǒng)功能。
2.權(quán)利要求1中的方法,還包括同步系統(tǒng)中的每個計算節(jié)點的步驟,所述同步步驟由FTE模塊執(zhí)行并包括步驟在每個RMS提供一個時鐘;在每個RMS與所有其它節(jié)點交換本地時間;和根據(jù)一個表決的系統(tǒng)時鐘調(diào)整各自的每個RMS的本地時鐘。
3.權(quán)利要求1中的方法,還包括檢測在一個節(jié)點中生成的數(shù)據(jù)中的故障/錯誤的步驟和防止繁殖在一個節(jié)點中生成的數(shù)據(jù)中的被檢測出的故障/錯誤的步驟,所述檢測和防止的步驟還包括步驟對每個節(jié)點生成的數(shù)據(jù)表決以決定一個節(jié)點產(chǎn)生的數(shù)據(jù)是否不同于大多數(shù);和當由一個特殊節(jié)點生成的數(shù)據(jù)不同于表決出的大多數(shù)時,使用表決出的數(shù)據(jù)作為一個輸出以屏蔽故障。
4.權(quán)利要求1中的方法,其中所述在每個計算節(jié)點提供RMS的步驟獨立于應(yīng)用開發(fā)而執(zhí)行。
5.權(quán)利要求1中的方法,其中所述建立步驟是與在每個計算節(jié)點的RMS之間的一個交叉通道數(shù)據(jù)鏈結(jié)(CCDL)合作執(zhí)行的。
6.權(quán)利要求1中的方法,還包括步驟定義每個計算節(jié)點(通道)為一個故障封鎖區(qū);檢測在一個計算節(jié)點中生成的數(shù)據(jù)中的故障/錯誤;和隔離在故障封鎖區(qū)內(nèi)的一個被檢測出的故障以防止繁殖到另一個計算節(jié)點。
7.權(quán)利要求6中的方法,其中所述檢測步驟還包括對每個節(jié)點生成的數(shù)據(jù)進行表決的步驟以決定由某個節(jié)點生成的數(shù)據(jù)是否不同于被表決出的大多數(shù)。
8.權(quán)利要求7中的方法,其中所述隔離步驟還包括當由一個特殊節(jié)點生成的數(shù)據(jù)不同于表決出的大多數(shù)時,使用被表決出的數(shù)據(jù)作為一個輸出來屏蔽故障。
9.權(quán)利要求3中的方法,還包括步驟確認一個有故障節(jié)點響應(yīng)數(shù)據(jù)表決的結(jié)果;由全局懲罰系統(tǒng)懲罰被確認的有故障節(jié)點;和當這個有故障節(jié)點的懲罰超過用戶指定的故障容忍范圍時,從節(jié)點的一個運行集合中排除這個被確認的有故障節(jié)點。
10.權(quán)利要求9中的方法,還包括步驟監(jiān)視在被排除節(jié)點上的數(shù)據(jù)以決定這個被排除的節(jié)點是否有資格再許可進入一個運行集合;和當監(jiān)視表明該節(jié)點的表現(xiàn)在預(yù)定限度的可接收范圍時,再許可該被排除節(jié)點進入運行集合。
11.權(quán)利要求10中的方法,其中預(yù)定限度由系統(tǒng)操作員定義。
12.一種在有多個計算節(jié)點(通道)的計算環(huán)境中用于容錯計算的方法,包括步驟在每計算節(jié)點獨立于應(yīng)用實現(xiàn)一個冗余管理系統(tǒng)(RMS);在每個RMS之間通信;和維護節(jié)點的運行集合用于增加計算環(huán)境的容錯性。
13.權(quán)利要求12中的方法,其中所述通信步驟在一個交叉通道數(shù)據(jù)鏈上(CCDL)執(zhí)行。
14.權(quán)利要求13中的方法,其中所述通信步驟還包括CCDL與相應(yīng)的RMS的節(jié)點接口;提供多個在CCDL中的接收器,以從多個節(jié)點中的每一個分別接收數(shù)據(jù);提供至少一個在CCDL中的傳送器,以處理和傳送接收到的數(shù)據(jù)至RMS中的容錯執(zhí)行駐留。提供至少一個接收器存儲器和至少一個傳送器存儲器來按需要接收和保存各自的數(shù)據(jù)。
15.權(quán)利要求12中的方法,其中所述維持節(jié)點的運行集合是執(zhí)行在RMS中的一個容錯執(zhí)行住戶中,并且還包括步驟從連接到計算環(huán)境中的每一個節(jié)點接收數(shù)據(jù);決定從任何一個節(jié)點接收到的數(shù)據(jù)是否包含故障;排除生成的數(shù)據(jù)對于其它接收到的數(shù)據(jù)有故障的一個節(jié)點;和重新配置運行集合不包括有故障節(jié)點。
16.權(quán)利要求15中的方法,其中所述決定步驟包括步驟為有故障數(shù)據(jù)設(shè)置一個容忍范圍;對從每個決定接收到的數(shù)據(jù)表決;確認一個故障數(shù)據(jù)超過設(shè)置的容忍范圍的節(jié)點。
17.權(quán)利要求15中的方法,還包括步驟監(jiān)視被排除節(jié)點上的數(shù)據(jù);和當被監(jiān)視數(shù)據(jù)表示在被排除節(jié)點上的有故障數(shù)據(jù)校正時,再許可被排除的節(jié)點進入運行集合。
18.權(quán)利要求16中的方法,其中所述表決步驟是在數(shù)據(jù)傳送中執(zhí)行在每個次要幀邊界上。
19.權(quán)利要求15中的方法,其中所述重新配置步驟是在數(shù)據(jù)傳送中執(zhí)行在每個主要幀邊界上。
20.一種管理基于冗余計算機的有多個硬件計算節(jié)點(通道)的系統(tǒng)的設(shè)備包括在每個計算節(jié)點提供冗余管理系統(tǒng)(RMS)的裝置;建立在每個RMS之間的通信鏈結(jié)的裝置;和實現(xiàn)在每個用于管理故障和多個系統(tǒng)功能的容錯執(zhí)行模塊的裝置。
21.權(quán)利要求20中的設(shè)備,其中所述建立通信鏈結(jié)的裝置還包括一個連接至每個計算節(jié)點中的每個冗余管理系統(tǒng)的交叉通道數(shù)據(jù)鏈結(jié)。
22.權(quán)利要求20中的設(shè)備,還包括檢測任何一個計算節(jié)點中生成的數(shù)據(jù)中的故障/錯誤的裝置;和在故障/錯誤生成的節(jié)點內(nèi)隔離故障/錯誤的裝置。
23.權(quán)利要求22中的方法,其中所述檢測裝置還包括對每個節(jié)點生成的數(shù)據(jù)進行表決的裝置以決定某個節(jié)點生成的數(shù)據(jù)是否不同于被表決出的大多數(shù)。
24.權(quán)利要求23中的方法,其中所述隔離裝置還包括使用表決出的數(shù)據(jù)來屏蔽由不同于表決出的大多數(shù)的某個節(jié)點產(chǎn)生的一個故障。
全文摘要
一個獨立的冗余管理系統(tǒng)(RMS)(12)以實現(xiàn)極高的系統(tǒng)可靠性,安全性,容錯能力和任務(wù)成功率,提供了一個管理基于冗余計算機的系統(tǒng)的有成本效益的解決方案。RMS包括一個交叉通道數(shù)據(jù)鏈結(jié)(CCDL)模塊(24a)和一個容錯執(zhí)行(FTE)模塊(13)。CCDL模塊提供所有通道的數(shù)據(jù)通信,同時FTE模塊執(zhí)行系統(tǒng)功能,如同步,數(shù)據(jù)表決,故障和錯誤檢測,隔離和恢復(fù)。系統(tǒng)容錯能力通過數(shù)據(jù)表決由檢測和屏蔽有故障數(shù)據(jù)來實現(xiàn)的,系統(tǒng)完整性由一個動態(tài)重新配置結(jié)構(gòu)來保證的,該結(jié)構(gòu)它能從系統(tǒng)中排除有故障節(jié)點并再許可健康節(jié)返回系統(tǒng)中。
文檔編號G06F11/18GK1311877SQ99809290
公開日2001年9月5日 申請日期1999年6月2日 優(yōu)先權(quán)日1998年6月2日
發(fā)明者J·X·周, T·G·羅登三世, L·P·波爾杜克, D·-T·彭, J·W·埃恩斯特, M·尤尼斯 申請人:聯(lián)合訊號公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
扬州市| 珠海市| 镇原县| 西青区| 双柏县| 屯留县| 广饶县| 深水埗区| 射阳县| 辽宁省| 湘潭县| 辰溪县| 洛扎县| 威宁| 庆阳市| 盐城市| 天镇县| 驻马店市| 集贤县| 庆元县| 始兴县| 新宾| 江北区| 旬阳县| 济南市| 若尔盖县| 涿州市| 沭阳县| 洞头县| 新泰市| 商河县| 华宁县| 琼海市| 临桂县| 高州市| 邯郸县| 宝应县| 巴青县| 工布江达县| 弋阳县| 上虞市|