專利名稱:故障信息的處理方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種故障信息的處理方 法和裝置。
背景技術(shù):
隨著因特網(wǎng)的高速發(fā)展,運(yùn)行在因特網(wǎng)上的業(yè)務(wù)越來越豐富, 7K載這些業(yè)務(wù)的網(wǎng)絡(luò)i殳備系統(tǒng)也越來越復(fù)雜。在實(shí)際的應(yīng)用中,難
免會出現(xiàn)設(shè)備異?;虬c瘓等故障情況。當(dāng)設(shè)備出現(xiàn)嚴(yán)重故障時(shí),網(wǎng) 絡(luò)運(yùn)營商的維護(hù)人員將會盡快恢復(fù)業(yè)務(wù),然而,會忽視故障的排查。
例如,設(shè)備才是供商A公司在B公司有一臺設(shè)備,該設(shè)備由于在 收到一些特殊報(bào)文的時(shí)候會導(dǎo)致某進(jìn)程死循環(huán),以至于CPU連續(xù) 100%的工作,影響了業(yè)務(wù)的正常運(yùn)4亍。當(dāng)發(fā)生^t障時(shí),B^^司的維 護(hù)人員在收到使用該設(shè)備的用戶上報(bào)故障之后,為了盡快消除故障, 對該設(shè)備進(jìn)行了手工復(fù)位;雖然在手工復(fù)位之后,業(yè)務(wù)恢復(fù)正常, 但是,對于A公司的技術(shù)人員來說,從現(xiàn)場能夠獲得的信息只有用 戶業(yè)務(wù)異常,系統(tǒng)內(nèi)部與故障相關(guān)的有用信息基本上無法獲取。
從上述的例子可以看出,設(shè)備提供商的維護(hù)人員(或開發(fā)人員) 定位故障的難度增大,不能夠遠(yuǎn)程及時(shí)獲取故障信息。
發(fā)明內(nèi)容
本發(fā)明旨在提供一種故障信息的處理方法和裝置,以解決設(shè)備 提供商的維護(hù)人員(或開發(fā)人員)定位故障的難度增大,不能夠遠(yuǎn) 程及時(shí)獲取故障信息的問題。
才艮據(jù)本發(fā)明的 一個(gè)方面,才是供了 一種故障信息的處理方法。
根據(jù)本發(fā)明實(shí)施例的故障信息的處理方法包括定時(shí)檢測設(shè)備 是否發(fā)生故障,在檢測到設(shè)備發(fā)生故障的情況下,收集并保存故障 信息;將保存的故障信息上報(bào)給服務(wù)器。
優(yōu)選地,上述方法進(jìn)一步包括在i殳備啟動時(shí),判斷是否有已 經(jīng)保存但未上報(bào)的故障信息;在判斷結(jié)果為是的情況下,將已經(jīng)保 存但未上報(bào)的故障信息上報(bào)給服務(wù)器。
優(yōu)選地,將故障信息上報(bào)給服務(wù)器具體為在設(shè)備能夠與服務(wù) 器通信時(shí),將故障信息上報(bào)給服務(wù)器。具體地,在保存故障相關(guān)信 息后,嘗試將故障信息上報(bào)給服務(wù)器,在上報(bào)失敗的情況下,進(jìn)行 故障恢復(fù)操作,并在完成故障恢復(fù)后再次嘗試將故障信息上報(bào)給服 務(wù)器。
優(yōu)選地,保存故障信息具體包括將故障信息保存到文件中; 將文件保存到非易失性介質(zhì)中。
優(yōu)選地,在將故障信息上報(bào)給服務(wù)器時(shí),采用面向連接的方式 進(jìn)行上報(bào)。
優(yōu)選地,上述方法還包括預(yù)先i殳置優(yōu)先級高于業(yè)務(wù)進(jìn)程的故 障處理進(jìn)程,并通過故障處理進(jìn)-呈實(shí)現(xiàn)故障4全測、故障信息的收集 及上報(bào)。根據(jù)本發(fā)明的另 一方面,提供了 一種故障信息的處理裝置。
根據(jù)本發(fā)明實(shí)施例的故障信息的處理裝置包括檢測模塊,用 于定時(shí)檢測設(shè)備是否發(fā)生故障;收集模塊,用于在檢測模塊檢測到 設(shè)備發(fā)生故障的情況下,收集故障信息;保存才莫塊,用于保存收集 模塊收集的故障信息;上報(bào)模塊,用于將保存模塊保存的故障信息 上報(bào)給服務(wù)器。
優(yōu)選地,上述裝置進(jìn)一步包括判斷模塊,用于判斷是否有已 經(jīng)保存但未上報(bào)的故障信息;恢復(fù)模塊,用于進(jìn)行故障恢復(fù)操作。
優(yōu)選地,上述裝置進(jìn)一步包括設(shè)置模塊,用于預(yù)先設(shè)置優(yōu)先 級高于業(yè)務(wù)進(jìn)禾呈的故障處理進(jìn)禾呈。
以上實(shí)施例通過收集、保存、并上報(bào)故障信息的方法,克服了 設(shè)備提供商的維護(hù)人員(或開發(fā)人員)定位故障的難度增大,不能 夠遠(yuǎn)程及時(shí)獲取故障信息的問題,進(jìn)而實(shí)現(xiàn)了遠(yuǎn)程及時(shí)獲取故障信 息。
此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申 請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并 不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中
圖1是用于實(shí)施本發(fā)明實(shí)施例的設(shè)備與服務(wù)器之間的關(guān)系的示 意圖2是根據(jù)本發(fā)明實(shí)施例的故障信息的收集方法的流程圖;圖3是根據(jù)本發(fā)明實(shí)施例的故障信息的收集方法的詳細(xì)流程
圖4是根據(jù)本發(fā)明實(shí)施例的故障信息的收集裝置的方框圖。
具體實(shí)施例方式
圖l是用于實(shí)施本發(fā)明實(shí)施例的設(shè)備與服務(wù)器之間的關(guān)系的示 意圖,如圖l所示,服務(wù)器(即,后臺服務(wù)器)與網(wǎng)絡(luò)節(jié)點(diǎn)設(shè)備(即,
網(wǎng)絡(luò)設(shè)備)之間通過網(wǎng)絡(luò)(Internet)相連,在設(shè)備發(fā)生故障恢復(fù)之 后,網(wǎng)絡(luò)節(jié)點(diǎn)設(shè)備自身的信息收集進(jìn)程通過互聯(lián)網(wǎng)把有用的故障信 息及時(shí)發(fā)送到后方服務(wù)器,后方服務(wù)器可以在第一時(shí)間為維護(hù)人員 或者開發(fā)人員提供查看故障可能的信息。下面將參考附圖并結(jié)合實(shí) 施例,來詳細(xì)i兌明本發(fā)明。
方法實(shí)施例
根據(jù)本發(fā)明的實(shí)施例,提供了 一種故障信息的收集方法。
圖2是根據(jù)本發(fā)明實(shí)施例的故障信息的收集方法的流程圖,如 圖2所示,預(yù)先"^殳置優(yōu)先級高于業(yè)務(wù)進(jìn)程的故障處理進(jìn)程,并通過 故障處理進(jìn)程實(shí)現(xiàn)故障4企測、故障信息的收集及上才艮,該方法具體 包括
步驟S202,定時(shí)檢測設(shè)備是否發(fā)生故障,在檢測到設(shè)備發(fā)生故 障的情況下,收集并保存故障信息;保存故障信息的操作具體包括 將故障信息保存到文件中;將文件保存到非易失性介質(zhì)中;
步驟S204,將保存的故障信息上報(bào)給服務(wù)器;在設(shè)備啟動時(shí), 判斷是否有已經(jīng)保存但未上報(bào)的故障信息;在判斷結(jié)果為是的情況下,將已經(jīng)保存但未上報(bào)的故障信息上報(bào)給服務(wù)器;優(yōu)選地,在將 故障信息上報(bào)給服務(wù)器時(shí),采用面向連接的方式進(jìn)行上報(bào)。
其中,步驟S204具體為在設(shè)備能夠與服務(wù)器通信時(shí),將故 障信息上報(bào)給服務(wù)器。具體地,在保存故障相關(guān)信息后,嘗試將故 障信息上報(bào)給服務(wù)器,在上報(bào)失敗的情況下,進(jìn)行故障恢復(fù)操作, 并在完成故障恢復(fù)后再次嘗試將故障信息上纟艮給服務(wù)器。
下面結(jié)合實(shí)例對本發(fā)明進(jìn)行詳細(xì)描述。圖3是根據(jù)本發(fā)明實(shí)施 例的遠(yuǎn)程故障信息的收集方法的詳細(xì)流禾呈圖,如圖3所示,該方法 包括
步驟S302,系統(tǒng)(或網(wǎng)絡(luò)設(shè)備)成功啟動,并進(jìn)入工作狀態(tài); 系統(tǒng)將自動創(chuàng)建一個(gè)優(yōu)先級較高的故障收集進(jìn)程,如上所述, 一般 情況下,該進(jìn)程的優(yōu)先級至少高于業(yè)務(wù)進(jìn)程,由該進(jìn)程負(fù)責(zé)故障信 息收集工作;
具體地,當(dāng)前運(yùn)營商網(wǎng)絡(luò)中的在網(wǎng)設(shè)備R(即,上述網(wǎng)絡(luò)設(shè)備) 與設(shè)備提供商的服務(wù)器S (即,后臺服務(wù)器)通過互聯(lián)網(wǎng)相連,創(chuàng) 建sysctl進(jìn)程,該進(jìn)程的優(yōu)先級必須高于protocol進(jìn)程;
步驟S304,該進(jìn)程首先檢查故障信息收集列表(該列表設(shè)置在 上述故障收集進(jìn)程中)中是否有未發(fā)送出去的故障信息,在判斷結(jié) 果為是的情況下,進(jìn)行到步驟S306,在判斷結(jié)果為否的情況下,進(jìn) 4亍到步艱《S310;
步驟S306,進(jìn)一步判斷系統(tǒng)是否可以發(fā)送信息到服務(wù)器,即, 才艮據(jù)網(wǎng)絡(luò)情況決定是否發(fā)送信息;在判斷結(jié)果為是的情況下,進(jìn)行 到步艱《S308;
步驟S308,發(fā)送故障信息,并標(biāo)記該故障信息為已經(jīng)發(fā)送狀態(tài);重復(fù)進(jìn)行步驟S304—步驟S308,直到把信息全部發(fā)送到服務(wù)
器;
步驟S310,在發(fā)送完成信息后,該進(jìn)程將進(jìn)入定時(shí)監(jiān)測系統(tǒng)故 障階段,當(dāng)檢測到系統(tǒng)發(fā)生故障時(shí),進(jìn)行步驟S312;
具體地,當(dāng)設(shè)備R由于收到異常報(bào)文,導(dǎo)致R設(shè)備主業(yè)務(wù)進(jìn)程 (例如,protocol進(jìn)程)掛起,即,該主業(yè)務(wù)進(jìn)禾呈不能#^亍,這時(shí), 在R ^殳備系統(tǒng)中的sysctl進(jìn)程(即,自4企進(jìn)程)4企測到protocol進(jìn) 程已經(jīng)掛起,則sysctl進(jìn)程進(jìn)入信息收集流程,即,進(jìn)行到步驟S312;
步驟S312,該進(jìn)程將立即啟動收集功能,4巴收集預(yù)先設(shè)計(jì)好的 需要收集的信息;
具體地,sysctl進(jìn)程首先將當(dāng)前操作系統(tǒng)的各個(gè)進(jìn)程的運(yùn)行現(xiàn) 場保留下來(例如進(jìn)程函數(shù)棧、函凄t參凄史、當(dāng)前系統(tǒng)CPU的占有 情況、當(dāng)前系統(tǒng)內(nèi)存的使用情況等),把正在運(yùn)行的進(jìn)程的函數(shù)參數(shù) 所指的內(nèi)存區(qū)域信息保留下來,然后,再將底層硬件的相關(guān)寄存器 狀態(tài)信息收集下來(即,才艮據(jù)不同的底層芯片,收集不同的芯片狀 態(tài)寄存器、配置寄存器等),還可以收集軟件系統(tǒng)自己定義的各類統(tǒng) 計(jì)計(jì)數(shù);
步驟S314,將所收集的信息全部保存到一個(gè)文件中,并將此文 件保存到非易失性介質(zhì)中;即,待所有上述信息收集全面后,將上 述信息全部保存到非易失性介質(zhì)中(例如,flash、硬盤、CF卡等);
步驟S316,該進(jìn)程將嘗試將收集到的信息發(fā)送到后方服務(wù)器 去,需要說明的是,信息發(fā)送必須是可靠的(優(yōu)選采用面向連接的 方式發(fā)送信息);即,進(jìn)一步判斷系統(tǒng)是否可以發(fā)送信息到服務(wù)器, 在判斷結(jié)果為是的情況下,進(jìn)行步驟S308,在判斷結(jié)果為否的情況 下,進(jìn)4亍到步-驟S318;具體;也,sysctl進(jìn)考呈再通過network進(jìn)禾呈(即,負(fù)責(zé)網(wǎng)纟各通ifl的 進(jìn)程)嘗試發(fā)送信息;
步驟S318,該進(jìn)程嘗試自動恢復(fù)故障,若成功恢復(fù)故障,則發(fā) 送上述收集到的信息;若未成功恢復(fù),則復(fù)位相關(guān)器件(例如,復(fù) ^立單^反、才幾架等)佳_得系統(tǒng)重新進(jìn)入工作狀態(tài),重新回到系統(tǒng)啟動 階,殳,循環(huán)上述流禾呈。
具體地,在network進(jìn)程無法發(fā)送的情況下,sysctl進(jìn)程將復(fù)位 系統(tǒng),在系統(tǒng)重新啟動并運(yùn)行到work狀態(tài)后,sysctl進(jìn)程從非易失 性介質(zhì)中把前期保存的信息讀出,通過network進(jìn)程將這些信息發(fā) 送給后方服務(wù)器S。后方開發(fā)人員通過查看服務(wù)器S上的信息可以 輕松地得到進(jìn)程掛起的信息,在通過掛起的位置和掛起函數(shù)參數(shù)的 值即可進(jìn)行故障復(fù)現(xiàn)和定位。
通過上述本發(fā)明的實(shí)施例,當(dāng)系統(tǒng)發(fā)生故障時(shí),系統(tǒng)自動收集 故障信息,并嘗試將其發(fā)送給后方服務(wù)器,可以解決在現(xiàn)網(wǎng)應(yīng)用過 程中經(jīng)常遇到的因現(xiàn)場操作人員急于恢復(fù)故障對設(shè)備進(jìn)行斷電等操 作而無法獲取故障信息的問題,可以為網(wǎng)絡(luò)設(shè)備提供商節(jié)省大量的 相關(guān)費(fèi)用,做到快速定位故障。
裝置實(shí)施例
根據(jù)本發(fā)明的實(shí)施例,提供了 一種故障信息的收集裝置。
圖4是才艮據(jù)本發(fā)明實(shí)施例的故障信息的收集裝置的方框圖,如 圖4所示,該裝置包括
檢測模塊42,用于定時(shí)4企測設(shè)備是否發(fā)生故障;收集模塊44,連接至檢測模塊42,用于在檢測模塊檢測到設(shè)備 發(fā)生故障的情況下,收集故障信息;
保存模塊46,連接至收集模塊44,用于保存收集模塊收集的故 障信息;
上報(bào)模塊48,連接至保存模塊46,用于將保存模塊保存的故障 信息上報(bào)給服務(wù)器。
優(yōu)選地,上述裝置進(jìn)一步包括判斷才莫塊,用于判斷是否有已 經(jīng)保存但未上報(bào)的故障信息;恢復(fù)模塊,用于進(jìn)行故障恢復(fù)操作; 設(shè)置模塊,用于預(yù)先設(shè)置優(yōu)先級高于業(yè)務(wù)進(jìn)程的故障處理進(jìn)程。
具體地,設(shè)置模塊,用于預(yù)先設(shè)置優(yōu)先級高于業(yè)務(wù)進(jìn)程的故障 處理進(jìn)程;檢測模塊42定時(shí)檢測設(shè)備是否發(fā)生故障,在檢測模塊 42檢測到設(shè)備發(fā)生故障的情況下,收集模塊44收集故障信息,以 及保存模塊46保存收集模塊44收集的故障信息;保存模塊46保存 故障信息的操作具體包括將故障信息保存到文件中;將文件保存 到非易失性介質(zhì)中;上才艮才莫塊48將保存^t塊46保存的故障信息上 報(bào)給服務(wù)器;在設(shè)備啟動時(shí),判斷模塊判斷是否有已經(jīng)保存但未上 報(bào)的故障信息;在判斷結(jié)果為是的情況下,將已經(jīng)保存但未上報(bào)的 故障信息上報(bào)給服務(wù)器,在判斷結(jié)果為否的情況下,恢復(fù)模塊進(jìn)行 故障恢復(fù)操作,并在完成故障恢復(fù)后上報(bào)模塊48再次嘗試將故障信 息上報(bào)給服務(wù)器;優(yōu)選地,在將故障信息上報(bào)給服務(wù)器時(shí),采用面 向連4妄的方式進(jìn)4于上才艮。
以上實(shí)施例通過收集、保存、并上報(bào)故障信息的方法,克服了 設(shè)備提供商的維護(hù)人員(或開發(fā)人員)定位故障的難度增大,不能 夠遠(yuǎn)程及時(shí)獲取故障信息的問題,進(jìn)而實(shí)現(xiàn)了遠(yuǎn)程及時(shí)獲取故障信 自、顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或 各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算 裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們 可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲
在存儲裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成 電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模 塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明, 對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在 本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等, 均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種故障信息的處理方法,其特征在于,包括定時(shí)檢測設(shè)備是否發(fā)生故障,在檢測到所述設(shè)備發(fā)生故障的情況下,收集并保存故障信息;將保存的所述故障信息上報(bào)給服務(wù)器。
2. 根據(jù)權(quán)利要求1所述的處理方法,其特征在于,進(jìn)一步包括在所述設(shè)備啟動時(shí),判斷是否有已經(jīng)保存但未上報(bào)的故障息J在判斷結(jié)果為是的情況下,將已經(jīng)保存但未上報(bào)的所述故 障信息上報(bào)給服務(wù)器。
3. 根據(jù)權(quán)利要求1或2所述的處理方法,其特征在于,將所述故 障信息上"^艮給所述服務(wù)器具體為在所述設(shè)備能夠與所述服務(wù)器通信時(shí),將所述故障信息上 報(bào)給所述服務(wù)器。
4. 才艮據(jù)^^利要求3所述的處理方法,其特征在于,具體包括在保存所述故障相關(guān)信息后,嘗試將所述故障信息上報(bào)給 所述服務(wù)器,在上報(bào)失敗的情況下,進(jìn)行故障恢復(fù)操作,并在 完成故障恢復(fù)后再次嘗試將所述故障信息上報(bào)給所述服務(wù)器。
5. 一艮據(jù)權(quán)利要求1所述的處理方法,其特征在于,保存所述故障 信息具體包括將所述故障信息保存到文件中;將所述文件保存到非易失性介質(zhì)中。
6. 根據(jù)權(quán)利要求1所述的處理方法,其特征在于,在將所述故障 信息上報(bào)給所述服務(wù)器時(shí),采用面向連接的方式進(jìn)行上報(bào)。
7. 根據(jù)權(quán)利要求1或2、權(quán)利要求4至6中任一項(xiàng)所述的方法, 其特征在于,還包括預(yù)先^1置優(yōu)先級高于業(yè)務(wù)進(jìn)程的故障處理進(jìn)程,并通過所 述故障處理進(jìn)程實(shí)現(xiàn)故障檢測、所述故障信息的收集及上報(bào)。
8. —種故障信息的處理裝置,其特征在于,包括檢測模塊,用于定時(shí)檢測設(shè)備是否發(fā)生故障;收集模塊,用于在所述檢測模塊檢測到所述設(shè)備發(fā)生故障 的情況下,收集故障信息;保存模塊,用于保存所述收集模塊收集的所述故障信息;上報(bào)模塊,用于將所述保存模塊保存的所述故障信息上報(bào) 給服務(wù)器。
9. 根據(jù)權(quán)利要求8所述的處理裝置,其特征在于,進(jìn)一步包括判斷模塊,用于判斷是否有已經(jīng)保存但未上報(bào)的故障信息;恢復(fù)模塊,用于進(jìn)行故障恢復(fù)操作。
10. 根據(jù)權(quán)利要求8或9所述的處理裝置,其特征在于,進(jìn)一步包 括設(shè)置才莫塊,用于預(yù)先設(shè)置優(yōu)先級高于業(yè)務(wù)進(jìn)程的故障處理 進(jìn)程。
全文摘要
本發(fā)明公開了一種故障信息的處理方法和裝置,其中,上述方法包括定時(shí)檢測設(shè)備是否發(fā)生故障,在檢測到設(shè)備發(fā)生故障的情況下,收集并保存故障信息;將保存的故障信息上報(bào)給服務(wù)器。上述裝置包括檢測模塊,用于定時(shí)檢測設(shè)備是否發(fā)生故障;收集模塊,用于在檢測模塊檢測到設(shè)備發(fā)生故障的情況下,收集故障信息;保存模塊,用于保存收集模塊收集的故障信息;上報(bào)模塊,用于將保存模塊保存的故障信息上報(bào)給服務(wù)器。本發(fā)明實(shí)現(xiàn)了遠(yuǎn)程及時(shí)獲取故障信息。
文檔編號H04L12/24GK101296135SQ20081012757
公開日2008年10月29日 申請日期2008年6月27日 優(yōu)先權(quán)日2008年6月27日
發(fā)明者李新雙, 王延松 申請人:中興通訊股份有限公司