專利名稱:一種網(wǎng)管雙機容災備份的實現(xiàn)方法
技術領域:
本發(fā)明涉及網(wǎng)絡系統(tǒng)的容災技術,尤其涉及一種網(wǎng)管雙機容災備份的實現(xiàn)方法。
背景技術:
軟件系統(tǒng)的容災備份是指在導致軟件系統(tǒng)癱瘓的災害(如火災、水災、地震、人為破壞等)發(fā)生后,能夠迅速恢復軟件系統(tǒng)的運行,并保證系統(tǒng)中的數(shù)據(jù)不會丟失。通常采用的方法是在遠離軟件系統(tǒng)運行的地方建立一個容災備份中心,然后定期將軟件系統(tǒng)中的數(shù)據(jù)備份出來存放到容災備份中心,當災難發(fā)生導致軟件系統(tǒng)癱瘓后,再通過這些備份的數(shù)據(jù)在容災備份中心恢復軟件系統(tǒng)的運行。對于電信網(wǎng)絡管理系統(tǒng)這樣的軟件系統(tǒng),系統(tǒng)需要實時收集電信網(wǎng)絡中的各種事件通知(如告警信息)。而當災難發(fā)生系統(tǒng)癱瘓之后且容災備份中心尚未恢復系統(tǒng)運行之前,這些事件將丟失。因此電信網(wǎng)絡管理系統(tǒng)的容災備份需要考慮的問題是在保證數(shù)據(jù)備份的實時性基礎上,如何快速地在容災中心恢復系統(tǒng)運行。
現(xiàn)有的技術方案是利用數(shù)據(jù)復制程序?qū)⒕W(wǎng)管系統(tǒng)的數(shù)據(jù)通過網(wǎng)絡實時復制到容災中心的備份系統(tǒng)中,當災難發(fā)生導致運行系統(tǒng)癱瘓后,由人工在容災中心將備份系統(tǒng)啟動,從而到達容災恢復的目的。其實現(xiàn)原理如圖1所示。
正常情況下,網(wǎng)管系統(tǒng)在運行服務器上運行,并通過數(shù)據(jù)復制程序?qū)崟r將系統(tǒng)中的數(shù)據(jù)復制到容災備份服務器的存儲設備上。災難發(fā)生后,當系統(tǒng)維護人員得知運行服務器由于某種原因癱瘓時,手工在備份服務器上啟動網(wǎng)管系統(tǒng)。在運行服務器修復好之后,需要系統(tǒng)維護人員將備份服務器上運行的網(wǎng)管系統(tǒng)停止,然后將備份服務器中的數(shù)據(jù)手工同步到運行服務器(可通過網(wǎng)絡傳遞數(shù)據(jù),或者通過人工傳遞數(shù)據(jù)備份媒介,如磁帶等),最后在運行服務器上重新啟動網(wǎng)管系統(tǒng),并重新啟動數(shù)據(jù)復制程序。從而恢復系統(tǒng)正常情況下的狀態(tài)。
盡管上述方案可以在一定程度上達到容災目的,但還存在以下不足1、對災難的響應不夠迅速。由于需要人工啟動備份系統(tǒng),在無人值守的情況下,當災難發(fā)生導致運行服務器癱瘓時,可能會導致系統(tǒng)長時間停機。對于網(wǎng)管系統(tǒng),這樣會導致其無法記錄停機期間電信網(wǎng)絡中的各種事件。
2、對系統(tǒng)維護人員的要求較高。配置、啟動數(shù)據(jù)復制程序,同步數(shù)據(jù),啟動、停止網(wǎng)管系統(tǒng)等操作都需要一定的專業(yè)技能,對于維護人員提出了較高的要求。
3、無法實時監(jiān)控容災備份系統(tǒng)的狀態(tài)。對于網(wǎng)管系統(tǒng)是否正常運行,數(shù)據(jù)復制是否正常,網(wǎng)絡是否中斷等狀態(tài)都需要維護人員定期進行各項檢查,這無形中提高了運維成本。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種網(wǎng)管雙機容災備份的實現(xiàn)方法,以解決現(xiàn)有容災備份方案中存在對災難的響應速度慢和對維護者要求高的問題。
實現(xiàn)本發(fā)明的技術方案一種網(wǎng)管雙機容災備份的實現(xiàn)方法,所述網(wǎng)管雙機容災備份具有運行服務器和備份服務器,正常狀態(tài)下在運行服務器上運行網(wǎng)管系統(tǒng),并實時的將系統(tǒng)中的數(shù)據(jù)復制到容災的備份服務器上,其特征在于所述方法為,至少在所述備份服務器上運行第一監(jiān)控程序,該第一監(jiān)控程序與所述運行服務器建立連接并檢測運行服務器的工作狀態(tài),并在檢測到所述運行服務器由于災難導致癱瘓時自動在備份服務器上啟動網(wǎng)管系統(tǒng)進行容災恢復。
根據(jù)上述方法在運行服務器上運行第二監(jiān)控程序,所述第一監(jiān)控程序與該第二監(jiān)控程序通過心跳方式通信,當?shù)谝槐O(jiān)控程序檢測到第二監(jiān)控程序心跳中斷時確定運行服務器癱瘓,則自動在容災備份服務器上啟動網(wǎng)管系統(tǒng)進行容災恢復。
所述第二監(jiān)控程序還定時檢測網(wǎng)管系統(tǒng)和/或數(shù)據(jù)復制程序的工作狀態(tài),如果檢測到工作狀態(tài)不正常時,則在向第一監(jiān)控程序發(fā)送的心跳報文中攜帶狀態(tài)信息,由第一監(jiān)控程序自動在容災備份服務器上啟動網(wǎng)管系統(tǒng)進行容災恢復。
所述第一、第二監(jiān)控程序還相互檢測對方服務器的運行狀態(tài)。
當容災備份服務器進行容災恢復的過程中,第一監(jiān)控程序檢測到運行服務器恢復時進行自動切換,即在容災備份服務器上停止網(wǎng)管系統(tǒng)的運行并在運行服務器上啟動網(wǎng)管系統(tǒng)。
所述備份服務器提供一個圖形用戶終端,該圖形用戶終端與所述第一監(jiān)控程序進行數(shù)據(jù)交換,并顯示備份系統(tǒng)的狀態(tài)信息。
本發(fā)明能夠在無人值守的情況下,自動將系統(tǒng)在容災備份中心進行恢復;通過后臺監(jiān)控程序自動完成對運行系統(tǒng)癱瘓的響應,因此極大地提高了對災難的響應速度;由于自動化程度的提高,使系統(tǒng)維護人員可以很輕松地完成容災備份任務;同時,監(jiān)控終端圖形化的用戶界面使得系統(tǒng)維護人員能夠?qū)崟r、直觀地監(jiān)控容災備份系統(tǒng)的狀態(tài),從而提高了運維效率。
圖1為現(xiàn)有技術中實現(xiàn)容災備份的原理圖;圖2A、2B為本發(fā)明實現(xiàn)容災備份的原理圖;圖3為災難發(fā)生時由備份服務器恢復容災的原理圖。
具體實施例方式
參閱圖2A所示,在容災備份服務器上運行第一監(jiān)控程序。該監(jiān)控程序檢查運行服務器是否癱瘓,如果監(jiān)控程序檢查到運行服務器癱瘓,則自動在容災備份服務器上啟動網(wǎng)管系統(tǒng),并停止數(shù)據(jù)復制程序的運行。該第一監(jiān)控程序定時向運行服務器發(fā)送PING包,從而檢測備份服務器與運行服務器之間的網(wǎng)絡連接是否正常,當網(wǎng)絡連接出現(xiàn)長時間中斷后,該監(jiān)控程序?qū)⒄J為運行服務器已經(jīng)癱瘓,并將網(wǎng)管系統(tǒng)在備份服務器上啟動。
在圖2A的方式下,啟動容災恢復的唯一條件是整個運行服務器癱瘓。為了能夠根據(jù)網(wǎng)管系統(tǒng)進程狀態(tài)或者檢測腳本來啟動容災恢復,除了在容災備份服務器上運行第一監(jiān)控程序外,還在運行服務器上運行第二監(jiān)控程序。
參閱圖2B所示,在容災備份服務器上運行第一監(jiān)控程序,在運行服務器上運行第二監(jiān)控程序,該第一、第二監(jiān)控程序均為后臺監(jiān)控程序。第一、第二監(jiān)控程序分別實時檢測系統(tǒng)的狀態(tài),并通過心跳方式檢查對方服務器是否癱瘓。當容災備份服務器上的第一監(jiān)控程序檢測到第二監(jiān)控程序心跳中斷,則可判斷出運行服務器已經(jīng)癱瘓,這時,第一監(jiān)控程序會自動將網(wǎng)管系統(tǒng)在容災備份服務器上重新啟動,從而到達快速進行容災恢復的目的。
在正常情況下,網(wǎng)管系統(tǒng)在運行服務器上運行,數(shù)據(jù)復制程序?qū)⑾到y(tǒng)中的數(shù)據(jù)實時復制到容災備份服務器上。第二監(jiān)控程序通過檢查系統(tǒng)進程的運行狀態(tài)來判斷網(wǎng)管系統(tǒng)的工作狀態(tài);網(wǎng)管系統(tǒng)也可根據(jù)需要編寫對應的檢測腳本來向監(jiān)控程序報告自己的狀態(tài),第二監(jiān)控程序?qū)⒍〞r執(zhí)行該檢測腳本,并通過返回值判斷出網(wǎng)管系統(tǒng)的工作狀態(tài)。監(jiān)控程序還定期執(zhí)行數(shù)據(jù)復制程序的狀態(tài)檢測腳本,并以此來判斷數(shù)據(jù)復制是否正常、數(shù)據(jù)復制的方向等復制相關狀態(tài)。當?shù)诙O(jiān)控程序檢測到運行服務器出現(xiàn)災難時,則在向第一監(jiān)控程序發(fā)送的心跳報文中攜帶相關信息,由第一監(jiān)控程序自動將網(wǎng)管系統(tǒng)在容災備份服務器上重新啟動進行容災恢復。
第一、第二監(jiān)控程序還相互檢測對方服務器的狀態(tài),使系統(tǒng)管理維護人員能夠通過監(jiān)控終端觀察到兩臺服務器的狀態(tài);而只有在知道備份服務器狀態(tài)的情況下,才可能進行人工強制的切換操作;另外,當網(wǎng)絡長時間中斷導致第一監(jiān)控程序?qū)⒕W(wǎng)管系統(tǒng)在容災備份服務器上啟動,然后網(wǎng)絡又恢復正常時,只有通過服務器之間相互檢測狀態(tài),系統(tǒng)才可以決定如何恢復最初的運行狀態(tài)。
為了避免因心跳報文因丟失而引起監(jiān)控程序誤操作,第一監(jiān)控程序在多次(如2次或3次)未收到心跳響應時才在容災備份服務器上啟動網(wǎng)管系統(tǒng)。每次等待間隔時間等可在配置文件中進行配置。
參閱圖3所示,當災難發(fā)生導致運行服務器癱瘓時,容災備份服務器上的第一監(jiān)控程序檢查到心跳中斷,從而自動將網(wǎng)管系統(tǒng)在容災備份服務器上啟動。
網(wǎng)管系統(tǒng)在容災備份服務器上啟動后,監(jiān)控程序?qū)⒗^續(xù)檢測運行服務器的狀態(tài),當檢測到運行服務器恢復正常后,將自動進行反向切換,也就是在容災備份服務器上停止網(wǎng)管系統(tǒng)的運行,然后在運行服務器上啟動網(wǎng)管系統(tǒng),并將數(shù)據(jù)復制的方向調(diào)整為從運行服務器向備份服務器復制。反向切換完成后,整個系統(tǒng)恢復到正常(如圖2所示)的狀態(tài)。
為了使系統(tǒng)維護人員可以實時知曉容災備份系統(tǒng)的狀態(tài),以監(jiān)控容災備份系統(tǒng)的運行,在備份服務器上提供一個圖形用戶終端。圖形用戶終端通過與后臺監(jiān)控程序建立TCP連接來進行數(shù)據(jù)交換,并根據(jù)這些數(shù)據(jù)信息為用戶提供一個直觀的容災備份系統(tǒng)監(jiān)控界面。如網(wǎng)絡通訊是否正常、網(wǎng)管系統(tǒng)是否運行正常、數(shù)據(jù)復制程序是否運行正常等,都能以直觀的形式顯示在圖形界面上。
在本發(fā)明中,備份服務器上的第一監(jiān)控程序與運行服務器上的第二監(jiān)控程序之間的心跳連接除采用TCP連接外,也可采用其他網(wǎng)絡協(xié)議,包括面向連接和非面向連接的協(xié)議。
本發(fā)明方法支持Windows操作系統(tǒng)和UNIX操作系統(tǒng),同時可以使用各種類型數(shù)據(jù)復制軟件,包括數(shù)據(jù)庫級別的數(shù)據(jù)復制軟件和磁盤卷級別的數(shù)據(jù)復制軟件。
權利要求
1.一種網(wǎng)管雙機容災備份的實現(xiàn)方法,所述網(wǎng)管雙機容災備份具有運行服務器和用于容災的備份服務器,正常狀態(tài)下在運行服務器上運行網(wǎng)管系統(tǒng),并實時的將系統(tǒng)中的數(shù)據(jù)復制到容災的備份服務器上,其特征在于所述方法為,至少在所述備份服務器上運行第一監(jiān)控程序,該第一監(jiān)控程序與所述運行服務器建立連接以檢測運行服務器的工作狀態(tài),并在檢測到所述運行服務器由于災難導致癱瘓時自動在備份服務器上啟動網(wǎng)管系統(tǒng)進行容災恢復。
2.如權利要1所述的方法,其特征在于,在運行服務器上運行第二監(jiān)控程序,所述第一監(jiān)控程序與該第二監(jiān)控程序通過心跳方式通信,當?shù)谝槐O(jiān)控程序檢測到第二監(jiān)控程序心跳中斷時確定運行服務器癱瘓,則自動在容災備份服務器上啟動網(wǎng)管系統(tǒng)進行容災恢復。
3.如權利要求2所述的方法,其特征在于,所述第二監(jiān)控程序還定時檢測網(wǎng)管系統(tǒng)和/或數(shù)據(jù)復制程序的工作狀態(tài),如果檢測到工作狀態(tài)不正常時,則在向第一監(jiān)控程序發(fā)送的心跳報文中攜帶狀態(tài)信息,由第一監(jiān)控程序自動在容災備份服務器上啟動網(wǎng)管系統(tǒng)進行容災恢復。
4.如權利要求2或3所述的方法,其特征在于,所述第一、第二監(jiān)控程序還相互檢測對方服務器的運行狀態(tài)。
5.如權利要求4所述的方法,其特征在于,當容災備份服務器進行容災恢復的過程中,第一監(jiān)控程序檢測到運行服務器恢復時進行自動切換,即在容災備份服務器上停止網(wǎng)管系統(tǒng)的運行并在運行服務器上啟動網(wǎng)管系統(tǒng)。
6.如權利要求1或2所述的方法,其特征在于,所述備份服務器提供一個圖形用戶終端,該圖形用戶終端與所述第一監(jiān)控程序進行數(shù)據(jù)交換,并顯示備份系統(tǒng)的狀態(tài)信息。
7.如權利要求6所述的方法,其特征在于,所述圖形用戶終端與所述第一監(jiān)控程序采用TCP連接交換數(shù)據(jù)。
8.如權利要求2或3所述的方法,其特征在于,所述第一監(jiān)控程序與第二監(jiān)控程序之間采用傳輸控制協(xié)議(TCP)連接或其他網(wǎng)絡協(xié)議連接。
9.如權利要求2或3所述的方法,其特征在于,所述第一監(jiān)控程序與第二監(jiān)控程序為后臺監(jiān)控程序。
全文摘要
本發(fā)明公開了一種網(wǎng)管雙機容災備份的實現(xiàn)方法,所述網(wǎng)管雙機容災備份具有運行服務器和用于容災的備份服務器,正常狀態(tài)下在運行服務器上運行網(wǎng)管系統(tǒng),并實時的將系統(tǒng)中的數(shù)據(jù)復制到容災的備份服務器上,該方法為至少在所述備份服務器上運行第一監(jiān)控程序,該第一監(jiān)控程序與所述運行服務器建立連接以檢測運行服務器的工作狀態(tài),并在檢測到所述運行服務器由于災難導致癱瘓時自動在備份服務器上啟動網(wǎng)管系統(tǒng)進行容災恢復。
文檔編號H04B1/74GK1642030SQ20041000215
公開日2005年7月20日 申請日期2004年1月5日 優(yōu)先權日2004年1月5日
發(fā)明者賀煒, 黃西華, 王僉 申請人:華為技術有限公司