專利名稱:網(wǎng)絡(luò)故障處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)絡(luò)故障處理方法及裝置。
背景技術(shù):
針對(duì)大型網(wǎng)絡(luò)中的網(wǎng)絡(luò)故障,如何實(shí)現(xiàn)自動(dòng)及快速的定位和處理一直是網(wǎng)絡(luò)管理過程中的大難題。如果能夠?qū)崿F(xiàn)網(wǎng)絡(luò)故障的自動(dòng)及快速的定位和處理,可以最大程度地縮短網(wǎng)絡(luò)故障的持續(xù)時(shí)間,減少網(wǎng)絡(luò)故障所帶來的損失,特別是在超大規(guī)模的網(wǎng)絡(luò)環(huán)境中有著非常重要的意義。
現(xiàn)有技術(shù)的網(wǎng)絡(luò)故障的定位與處理大多數(shù)依靠網(wǎng)絡(luò)故障處理人員的經(jīng)驗(yàn)知識(shí),網(wǎng)絡(luò)故障處理人員根據(jù)網(wǎng)絡(luò)故障的現(xiàn)象分析網(wǎng)絡(luò)故障的原因,再對(duì)網(wǎng)絡(luò)故障進(jìn)行處理,這種處理方式存在的問題是,一方面網(wǎng)絡(luò)故障的處理過程中因人而異,具有不可控性,并且出錯(cuò)的概率也較高,另一方面網(wǎng)絡(luò)故障的處理過程中耗時(shí)較長(zhǎng),不能最大程度地減少網(wǎng)絡(luò)故障帶來的損失。
針對(duì)人工處理網(wǎng)絡(luò)故障存在的缺陷,現(xiàn)有技術(shù)還針對(duì)某些具體的網(wǎng)絡(luò)應(yīng)用場(chǎng)景,提出了一種半自動(dòng)化的網(wǎng)絡(luò)故障處理方案。例如,中國(guó)專利“網(wǎng)絡(luò)故障處理方法、設(shè)備及系統(tǒng)”(專利號(hào)200810006616)中,針對(duì)傳輸設(shè)備WDM(Wave Division Multiplex,波分復(fù)用)中,針對(duì)出現(xiàn)的網(wǎng)絡(luò)故障,使用波長(zhǎng)轉(zhuǎn)化器板卡將自動(dòng)發(fā)出控制信令,將網(wǎng)絡(luò)故障設(shè)備隔離,從而實(shí)現(xiàn)快速的網(wǎng)絡(luò)故障切換。但是,現(xiàn)有技術(shù)存在的問題是,只能針對(duì)具體或特殊的網(wǎng)絡(luò)應(yīng)用場(chǎng)景實(shí)施,不能提供一種通用的網(wǎng)絡(luò)故障處理方案。發(fā)明內(nèi)容
本發(fā)明旨在至少解決上述技術(shù)問題之一。
為此,本發(fā)明的一個(gè)目的在于提出一種網(wǎng)絡(luò)故障處理方法。
本發(fā)明的另一目的在于提出一種可以自動(dòng)對(duì)網(wǎng)絡(luò)故障的故障進(jìn)行分析及處理的通用的網(wǎng)絡(luò)故障處理裝置。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明第一方面的實(shí)施例的網(wǎng)絡(luò)故障處理方法,包括下述步驟:接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備;獲得所述故障設(shè)備的運(yùn)行狀態(tài)信息;根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定所述故障設(shè)備對(duì)應(yīng)的已知故障,并將所述已知故障作為基準(zhǔn)故障;根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)所述基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將所述新的已知故障加入到所述故障知識(shí)庫(kù)中;以及根據(jù)所述新的已知故障對(duì)所述故障設(shè)備進(jìn)行故障處理。
根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理方法,當(dāng)設(shè)備發(fā)生故障時(shí),通過獲取故障設(shè)備的運(yùn)行狀態(tài)信息,對(duì)設(shè)備故障的故障原因進(jìn)行分析處理,一方面克服依靠網(wǎng)絡(luò)故障處理人員的經(jīng)驗(yàn)處理設(shè)備故障時(shí)容易出錯(cuò)的缺陷,另一方面該方法具有通用性,從而提高了處理網(wǎng)絡(luò)故障的效率,減少了網(wǎng)絡(luò)發(fā)生故障時(shí)帶來的損失,同時(shí)故障知識(shí)庫(kù)可以不斷地增加新的故障知識(shí),實(shí)現(xiàn)自學(xué)習(xí)的功能。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明第二方面的實(shí)施例的網(wǎng)絡(luò)故障處理裝置包括:信息收集模塊,用于接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備,并獲得所述故障設(shè)備的運(yùn)行狀態(tài)信息;故障知識(shí)庫(kù)模塊,用于保存已知故障;故障分析模塊,用于根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定所述故障設(shè)備對(duì)應(yīng)的已知故障,并將所述已知故障作為基準(zhǔn)故障,以及根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)所述基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將所述新的已知故障加入到所述故障知識(shí)庫(kù)模塊中;以及故障處理模塊,用于根據(jù)所述新的已知故障對(duì)所述故障設(shè)備進(jìn)行故障處理。
根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理裝置,當(dāng)設(shè)備發(fā)生故障時(shí),通過獲取故障設(shè)備的運(yùn)行狀態(tài)信息,對(duì)設(shè)備故障的故障原因進(jìn)行分析處理,一方面克服依靠網(wǎng)絡(luò)故障處理人員的經(jīng)驗(yàn)處理設(shè)備故障時(shí)容易出錯(cuò)的缺陷,另一方面該裝置具有通用性,從而提高了處理網(wǎng)絡(luò)故障的效率,減少了網(wǎng)絡(luò)發(fā)生故障時(shí)帶來的損失,同時(shí)故障知識(shí)庫(kù)可以不斷地增加新的故障知識(shí),實(shí)現(xiàn)自學(xué)習(xí)的功能。該裝置可以極大程度的實(shí)現(xiàn)網(wǎng)絡(luò)故障處理的自動(dòng)化。
本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中,
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理方法的流程圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理方法的流程圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理方法的流程圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理裝置的結(jié)構(gòu)框圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理裝置的結(jié)構(gòu)框圖;以及
圖6是根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
在本發(fā)明的描述中,需要理解的是,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。此外,在本發(fā)明的描述中,除非另有說明,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
下面參考說明書附圖描述根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理方法。
一種網(wǎng)絡(luò)故障處理方法,包括以下步驟:接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備;獲得故障設(shè)備的運(yùn)行狀態(tài)信息;根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障;根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將新的已知故障加入到故障知識(shí)庫(kù)中;以及根據(jù)新的已知故障對(duì)故障設(shè)備進(jìn)行故障處理。
圖1為本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理方法的流程圖。
如圖1所示,根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理方法包括下述步驟。
步驟S101,接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備。
具體地,告警信息包括m維度的子信息,例如,告警產(chǎn)生的時(shí)間、告警類型、告警所在設(shè)備區(qū)域、告警所在設(shè)備的類型、告警所在設(shè)備的角色、告警持續(xù)的時(shí)間等。告警信息反映網(wǎng)絡(luò)故障設(shè)備的狀態(tài),根據(jù)m維度的告警信息確定發(fā)生網(wǎng)絡(luò)故障的設(shè)備,例如,通過告警信息的告警所在設(shè)備的類型及告警所在設(shè)備的角色子信息可以確定發(fā)生故障的設(shè)備。
步驟S102,獲得故障設(shè)備的運(yùn)行狀態(tài)信息。
具體地,獲取故障設(shè)備的運(yùn)行狀態(tài)信息包括設(shè)備的日志信息、性能信息和操作日志信息等。
步驟S103,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障。
具體地,首先將上述步驟S102所獲得的故障設(shè)備的運(yùn)行狀態(tài)信息進(jìn)行分析,獲得與故障知識(shí)庫(kù)中的已知故障相對(duì)應(yīng)的信息表達(dá)方式,例如,將一個(gè)鏈路阻塞的故障設(shè)備的運(yùn)行狀態(tài)信息按照下述方式描述:a.網(wǎng)絡(luò)轉(zhuǎn)發(fā)延時(shí)很高,b.1CMP(Internet ControlMessage Protocol, Internet控制報(bào)文協(xié)議)監(jiān)控有丟包,c.鏈路兩端的端口包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快。然后將新描述的故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配查詢,確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障。
步驟S104,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將新的已知故障加入到故障知識(shí)庫(kù)中。
具體地,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),獲得的基準(zhǔn)故障并不能完全跟故障設(shè)備的運(yùn)行狀態(tài)相同,則需要根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改,將修改后的故障設(shè)備的運(yùn)行狀態(tài)信息作為新的已知故障加入到故障知識(shí)庫(kù)中,實(shí)現(xiàn)對(duì)故障知識(shí)庫(kù)的更新。
步驟S105,根據(jù)新的已知故障對(duì)故障設(shè)備進(jìn)行故障處理。
在本發(fā)明的一個(gè)實(shí)施例中,已知故障包括故障現(xiàn)象和故障處理方案。
具體地,故障現(xiàn)象包括故障發(fā)生時(shí)η個(gè)維度的子故障現(xiàn)象的集合,例如,當(dāng)網(wǎng)絡(luò)中某條傳輸鏈路發(fā)生擁塞時(shí),此時(shí)出現(xiàn)多種子故障現(xiàn)象,包括:數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高、ICMP監(jiān)控有丟包、針對(duì)此鏈路的流量監(jiān)控產(chǎn)生報(bào)警、鏈路兩端設(shè)備端口的包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快、鏈路兩端設(shè)備的CPU利用率比較高等,除此之外,故障所在的設(shè)備,也作為故障現(xiàn)象的一部分,例如故障發(fā)生設(shè)備的設(shè)備角色、設(shè)備廠商、設(shè)備型號(hào)等。這些現(xiàn)象構(gòu)成一個(gè)故障現(xiàn)象。
故障處理方案包括針對(duì)該故障可采取的k個(gè)處理方法的集合,例如,對(duì)上述例子的故障,可以采取以下的措施:a.在鏈路兩端設(shè)備加QoS(Quality of Service,服務(wù)質(zhì)量,網(wǎng)絡(luò)中的一種安全機(jī)制),保障重點(diǎn)流量傳輸,b.郵件通知此鏈路的使用用戶。這些處理方法構(gòu)成一個(gè)故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障中的故障處理方案進(jìn)行修改。通過修改故障處理方案可得到新的故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),匹配方式包括最大似然匹配或特征匹配。
具體的,最大似然匹配為,首先設(shè)置一個(gè)閾值P,然后在故障知識(shí)庫(kù)中計(jì)算所有的已知故障與該故障的相同的故障現(xiàn)象的數(shù)目,并找出具有與該故障的相同的故障現(xiàn)象的最大數(shù)目的已知故障,如果該最大數(shù)據(jù)大于或者等于閾值P,則該已知故障與該故障匹配成功,該已知故障作為該故障的基準(zhǔn)故障,如果該最大數(shù)據(jù)小于閾值P,則該已知故障與該故障未匹配成功。
特征匹配是指在故障知識(shí)庫(kù)中找到一個(gè)已知故障具有與該故障的故障現(xiàn)象相同的特征,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障,或者找到一個(gè)已知故障符合該故障的故障現(xiàn)象的幾個(gè)特征的邏輯組合,例如,數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高且ICMP監(jiān)控有丟包等,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障。
在本發(fā)明的一個(gè)實(shí)施例中,如果故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),沒有匹配成功,則通知網(wǎng)絡(luò)故障處理人員進(jìn)行處理。并將該故障的故障現(xiàn)象和故障處理方案存儲(chǔ)到故障知識(shí)庫(kù)中。
根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理方法,當(dāng)設(shè)備發(fā)生故障時(shí),通過獲取故障設(shè)備的運(yùn)行狀態(tài)信息,對(duì)設(shè)備故障的故障原因進(jìn)行分析處理,一方面克服依靠網(wǎng)絡(luò)故障處理人員的經(jīng)驗(yàn)處理設(shè)備故障時(shí)容易出錯(cuò)的缺陷,另一方面該方法具有通用性,從而提高了處理網(wǎng)絡(luò)故障的效率,減少了網(wǎng)絡(luò)發(fā)生故障時(shí)帶來的損失,同時(shí)故障知識(shí)庫(kù)可以不斷地增加新的故障知識(shí),實(shí)現(xiàn)自學(xué)習(xí)的功能。
圖2為本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理方法的流程圖。
如圖2所示,根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理方法包括下述步驟。
步驟S201,接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備。
具體地,告警信息包括m維度的子信息,例如,告警產(chǎn)生的時(shí)間、告警類型、告警所在設(shè)備區(qū)域、告警所在設(shè)備的類型、告警所在設(shè)備的角色、告警持續(xù)的時(shí)間等。告警信息反映網(wǎng)絡(luò)故障設(shè)備的狀態(tài),根據(jù)m維度的告警信息確定發(fā)生網(wǎng)絡(luò)故障的設(shè)備,例如,通過告警信息的告警所在設(shè)備的類型及告警所在設(shè)備的角色子信息可以確定發(fā)生故障的設(shè)備。
步驟S202,獲得故障設(shè)備的運(yùn)行狀態(tài)信息。
具體地,獲取故障設(shè)備的運(yùn)行狀態(tài)信息包括設(shè)備的日志信息、性能信息和操作日志信息等。
步驟S203,從故障知識(shí)庫(kù)中獲得每個(gè)已知故障對(duì)應(yīng)的故障信息。
步驟S204,將故障設(shè)備的運(yùn)行狀態(tài)信息與每個(gè)已知故障對(duì)應(yīng)的故障信息進(jìn)行匹配以確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障。
具體地,首先將獲得的故障設(shè)備的運(yùn)行狀態(tài)信息進(jìn)行分析,獲得與故障知識(shí)庫(kù)中的已知故障相對(duì)應(yīng)的信息表達(dá)方式,例如,將一個(gè)鏈路阻塞的故障設(shè)備的運(yùn)行狀態(tài)信息按照下述方式描述:a.網(wǎng)絡(luò)轉(zhuǎn)發(fā)延時(shí)很高,b.1CMP (Internet Control Message Protocol,Internet控制報(bào)文協(xié)議)監(jiān)控有丟包,c.鏈路兩端的端口包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快。然后將新描述的故障設(shè)備的運(yùn)行狀態(tài)信息與每個(gè)已知故障對(duì)應(yīng)的故障信息進(jìn)行匹配,確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障。
步驟S205,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將新的已知故障加入到故障知識(shí)庫(kù)中。
具體地,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),獲得的基準(zhǔn)故障并不能完全跟故障設(shè)備的運(yùn)行狀態(tài)相同,則需要根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改,將修改后的故障設(shè)備的運(yùn)行狀態(tài)信息作為新的已知故障加入到故障知識(shí)庫(kù)中,實(shí)現(xiàn)對(duì)故障知識(shí)庫(kù)的更新。
步驟S206,根據(jù)新的已知故障對(duì)故障設(shè)備進(jìn)行故障處理。
在本發(fā)明的一個(gè)實(shí)施例中,步驟S203和步驟S204是可選的,可用步驟S103替換。
在本發(fā)明的一個(gè)實(shí)施例中,已知故障包括故障現(xiàn)象和故障處理方案。
具體地,故障現(xiàn)象包括故障發(fā)生時(shí)η個(gè)維度的子故障現(xiàn)象的集合,例如,當(dāng)網(wǎng)絡(luò)中某條傳輸鏈路發(fā)生擁塞時(shí),此時(shí)出現(xiàn)多種子故障現(xiàn)象,包括:數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高、ICMP監(jiān)控有丟包、針對(duì)此鏈路的流量監(jiān)控產(chǎn)生報(bào)警、鏈路兩端設(shè)備端口的包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快、鏈路兩端設(shè)備的CPU利用率比較高等,除此之外,故障所在的設(shè)備,也作為故障現(xiàn)象的一部分,例如故障發(fā)生設(shè)備的設(shè)備角色、設(shè)備廠商、設(shè)備型號(hào)等。這些現(xiàn)象構(gòu)成一個(gè)故障現(xiàn)象。
故障處理方案包括針對(duì)該故障可采取的k個(gè)處理方法的集合,例如,對(duì)上述例子的故障,可以采取以下的措施:a.在鏈路兩端設(shè)備加QoS(Quality of Service,服務(wù)質(zhì)量,網(wǎng)絡(luò)中的一種安全機(jī)制),保障重點(diǎn)流量傳輸,b.郵件通知此鏈路的使用用戶。這些處理方法構(gòu)成一個(gè)故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障中的故障處理方案進(jìn)行修改。通過修改故障處理方案可得到新的故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),匹配方式包括最大似然匹配或特征匹配。
具體的,最大似然匹配為,首先設(shè)置一個(gè)閾值P,然后在故障知識(shí)庫(kù)中計(jì)算所有的已知故障與該故障的相同的故障現(xiàn)象的數(shù)目,并找出具有與該故障的相同的故障現(xiàn)象的最大數(shù)目的已知故障,如果該最大數(shù)據(jù)大于或者等于閾值P,則該已知故障與該故障匹配成功,該已知故障作為該故障的基準(zhǔn)故障,如果該最大數(shù)據(jù)小于閾值P,則該已知故障與該故障未匹配成功。
特征匹配是指在故障知識(shí)庫(kù)中找到一個(gè)已知故障具有與該故障的故障現(xiàn)象相同的特征,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障,或者找到一個(gè)已知故障符合該故障的故障現(xiàn)象的幾個(gè)特征的邏輯組合,例如,數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高且ICMP監(jiān)控有丟包等,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障。
在本發(fā)明的一個(gè)實(shí)施例中,如果故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),沒有匹配成功,則通知網(wǎng)絡(luò)故障處理人員進(jìn)行處理。并將該故障的故障現(xiàn)象和故障處理方案存儲(chǔ)到故障知識(shí)庫(kù)中。
根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理方法,遍歷故障數(shù)據(jù)庫(kù)中的每個(gè)已知故障,從而提高了使用本方法進(jìn)行網(wǎng)絡(luò)故障處理時(shí)的精確度。
圖3為本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理方法的流程圖。
如圖3所示,根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理方法包括下述步驟。
步驟S301,接收網(wǎng)絡(luò)的告警信息。
具體地,告警信息包括m維度的子信息,例如,告警產(chǎn)生的時(shí)間、告警類型、告警所在設(shè)備區(qū)域、告警所在設(shè)備的類型、告警所在設(shè)備的角色、告警持續(xù)的時(shí)間等。告警信息反映網(wǎng)絡(luò)故障設(shè)備的狀態(tài)。
步驟S302,將告警信息與預(yù)設(shè)的故障規(guī)則進(jìn)行匹配以確定告警信息對(duì)應(yīng)的網(wǎng)絡(luò)設(shè)備是否出現(xiàn)故障。
故障規(guī)則為告警信息的m個(gè)維度值特性的邏輯組合,其中,值特性的判定包括大于、等于、小于、屬于等,邏輯組合包括與、或、非等。
步驟S303,如果判斷網(wǎng)絡(luò)設(shè)備出現(xiàn)故障,則將網(wǎng)絡(luò)設(shè)備作為故障設(shè)備。
步驟S304,獲得故障設(shè)備的運(yùn)行狀態(tài)信息。
具體地,獲取故障設(shè)備的運(yùn)行狀態(tài)信息包括設(shè)備的日志信息、性能信息和操作日志信息等。
步驟S305,從故障知識(shí)庫(kù)中獲得每個(gè)已知故障對(duì)應(yīng)的故障信息。
步驟S306,將故障設(shè)備的運(yùn)行狀態(tài)信息與每個(gè)已知故障對(duì)應(yīng)的故障信息進(jìn)行匹配以確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障。
具體地,首先將獲得的故障設(shè)備的運(yùn)行狀態(tài)信息進(jìn)行分析,獲得與故障知識(shí)庫(kù)中的已知故障相對(duì)應(yīng)的信息表達(dá)方式,例如,將一個(gè)鏈路阻塞的故障設(shè)備的運(yùn)行狀態(tài)信息按照下述方式描述:a.網(wǎng)絡(luò)轉(zhuǎn)發(fā)延時(shí)很高,b.1CMP (Internet Control Message Protocol,Internet控制報(bào)文協(xié)議)監(jiān)控有丟包,c.鏈路兩端的端口包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快。然后將新描述的故障設(shè)備的運(yùn)行狀態(tài)信息與每個(gè)已知故障對(duì)應(yīng)的故障信息進(jìn)行匹配,確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障。
步驟S307,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將新的已知故障加入到故障知識(shí)庫(kù)中。
具體地,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),獲得的基準(zhǔn)故障并不能完全跟故障設(shè)備的運(yùn)行狀態(tài)相同,則需要根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改,將修改后的故障設(shè)備的運(yùn)行狀態(tài)信息作為新的已知故障加入到故障知識(shí)庫(kù)中,實(shí)現(xiàn)對(duì)故障知識(shí)庫(kù)的更新。
步驟S308,根據(jù)新的已知故障對(duì)故障設(shè)備進(jìn)行故障處理。
在本發(fā)明的一個(gè)實(shí)施例中,步驟S301、步驟S302和步驟S303是可選的,可用步驟SlOl或者步驟S201替換。
在本發(fā)明的一個(gè)實(shí)施例中,已知故障包括故障現(xiàn)象和故障處理方案。
具體地,故障現(xiàn)象包括故障發(fā)生時(shí)η個(gè)維度的子故障現(xiàn)象的集合,例如,當(dāng)網(wǎng)絡(luò)中某條傳輸鏈路發(fā)生擁塞時(shí),此時(shí)出現(xiàn)多種子故障現(xiàn)象,包括:數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高、ICMP監(jiān)控有丟包、針對(duì)此鏈路的流量監(jiān)控產(chǎn)生報(bào)警、鏈路兩端設(shè)備端口的包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快、鏈路兩端設(shè)備的CPU利用率比較高等,除此之外,故障所在的設(shè)備,也作為故障現(xiàn)象的一部分,例如故障發(fā)生設(shè)備的設(shè)備角色、設(shè)備廠商、設(shè)備型號(hào)等。這些現(xiàn)象構(gòu)成一個(gè)故障現(xiàn)象。
故障處理方案包括針對(duì)該故障可采取的k個(gè)處理方法的集合,例如,對(duì)上述例子的故障,可以采取以下的措施:a.在鏈路兩端設(shè)備加QoS(Quality of Service,服務(wù)質(zhì)量,網(wǎng)絡(luò)中的一種安全機(jī)制),保障重點(diǎn)流量傳輸,b.郵件通知此鏈路的使用用戶。這些處理方法構(gòu)成一個(gè)故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障中的故障處理方案進(jìn)行修改。通過修改故障處理方案可得到新的故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),匹配方式包括最大似然匹配或特征匹配。
具體的,最大似然匹配為,首先設(shè)置一個(gè)閾值P,然后在故障知識(shí)庫(kù)中計(jì)算所有的已知故障與該故障的相同的故障現(xiàn)象的數(shù)目,并找出具有與該故障的相同的故障現(xiàn)象的最大數(shù)目的已知故障,如果該最大數(shù)據(jù)大于或者等于閾值P,則該已知故障與該故障匹配成功,該已知故障作為該故障的基準(zhǔn)故障,如果該最大數(shù)據(jù)小于閾值P,則該已知故障與該故障未匹配成功。
特征匹配是指在故障知識(shí)庫(kù)中找到一個(gè)已知故障具有與該故障的故障現(xiàn)象相同的特征,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障,或者找到一個(gè)已知故障符合該故障的故障現(xiàn)象的幾個(gè)特征的邏輯組合,例如,數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高且ICMP監(jiān)控有丟包等,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障。
在本發(fā)明的一個(gè)實(shí)施例中,如果故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),沒有匹配成功,則通知網(wǎng)絡(luò)故障處理人員進(jìn)行處理。并將該故障的故障現(xiàn)象和故障處理方案存儲(chǔ)到故障知識(shí)庫(kù)模塊200的故障知識(shí)庫(kù)中。
根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理方法,根據(jù)告警信息與預(yù)設(shè)的故障規(guī)則進(jìn)行匹配以定位網(wǎng)絡(luò)故障的設(shè)備,從而更加快速及準(zhǔn)確地實(shí)現(xiàn)網(wǎng)絡(luò)故障的定位。
下面結(jié)合具體的示例說明本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理方法,通過具體示例的描述,本發(fā)明的方面和優(yōu)點(diǎn)將變得更加明顯。應(yīng)理解的是,以下所描述的示例僅作理解本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理方法,不能作為本發(fā)明保護(hù)范圍的限制。
在故障知識(shí)庫(kù)中存儲(chǔ)了 2個(gè)已知故障Casel和Case2,已知故障Casel和Case2具體描述如下:
已知故障Casel:
故障現(xiàn)象:a.網(wǎng)絡(luò)轉(zhuǎn)發(fā)延時(shí)很高;b.1CMP監(jiān)控有丟包;c.鏈路兩端端口的包錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快;d.設(shè)備角色為邊緣設(shè)備;e.設(shè)備廠商為H3C;f.設(shè)備型號(hào)為S12500。
故障處理方案:a.在鏈路兩端設(shè)備加QoS,保障重點(diǎn)流量傳輸;b.郵件通知此鏈路的使用用戶。
已知故障Case2:
故障現(xiàn)象:a.1CMP監(jiān)控有丟包;b.針對(duì)此鏈路的流量監(jiān)控產(chǎn)生報(bào)警;c.鏈路兩端端口的包錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快;d.設(shè)備角色為核心設(shè)備;e.設(shè)備廠商為CISCO ;f.設(shè)備型號(hào)為 C6904。
故障處理方案:a.在鏈路兩端設(shè)備加ACL,禁止某些流量傳輸;b.郵件通知此鏈路的使用用戶;C.調(diào)整此鏈路在整個(gè)網(wǎng)絡(luò)中的權(quán)值,讓部分流量走其它鏈路通過。
現(xiàn)有一個(gè)新故障CaseNew產(chǎn)生,其中:
故障現(xiàn)象:a.網(wǎng)絡(luò)轉(zhuǎn)發(fā)延時(shí)很高;b.1CMP監(jiān)控有丟包;c.針對(duì)此鏈路的流量監(jiān)控產(chǎn)生報(bào)警,并且發(fā)生故障所在設(shè)備的;d.設(shè)備角色為核心設(shè)備;e.設(shè)備廠商為CISCO ;f.設(shè)備型號(hào)為C6900。
將新故障CaseNew與已知故障知識(shí)庫(kù)的已知故障Casel和Case2進(jìn)行比較。當(dāng)與已知故障Casel進(jìn)行比較,有2個(gè)條件相互匹配;與已知故障Case2進(jìn)行比較,有4個(gè)條件相互匹配。根據(jù)最大似然匹配的原則,則新故障CaseNew與已知故障Case2最大似然相似,可能是類似的故障,將已知故障Case2作為基準(zhǔn)故障,并將已知故障Case2的故障處理方案作為CaseNew的基準(zhǔn)故障處理方案。
在對(duì)基準(zhǔn)故障處理方案進(jìn)行修改以獲得新故障CaseNew的最終故障處理方案,具體地修改方法可以根據(jù)新故障CaseNew的故障現(xiàn)象,進(jìn)行以下兩種情況的修改:
a.將基準(zhǔn)故障處理方案中,某些故障處理方法移除,即出現(xiàn)某些故障現(xiàn)象時(shí)不適合采用該故障處理方法,例如,當(dāng)設(shè)備的角色為邊緣設(shè)備時(shí),無需采用調(diào)整此鏈路在整個(gè)網(wǎng)絡(luò)中的權(quán)值的處理方法。
b.將某些故障處理方法,添加到基準(zhǔn)故障處理方案中,即出現(xiàn)某些故障現(xiàn)象時(shí)必須采用該故障處理方法,例如,當(dāng)設(shè)備的廠商為H3C時(shí),必須通知到H3C設(shè)備的負(fù)責(zé)人的處理方法。
經(jīng)過兩種方式的修改后的故障處理方案為新故障CaseNew的故障處理方案,并根據(jù)故障處理方案進(jìn)行相應(yīng)的故障處理。故障處理完畢后,將新故障CaseNew加入到故障知識(shí)庫(kù)中,其中新故障CaseNew包括自己的故障現(xiàn)象和故障處理方案。
下面參考說明書附圖描述根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理裝置。
一種網(wǎng)絡(luò)故障處理裝置,包括:信息收集模塊,用于接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備,并獲得故障設(shè)備的運(yùn)行狀態(tài)信息;故障知識(shí)庫(kù)模塊,用于保存已知故障;故障分析模塊,用于根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障,以及根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將新的已知故障加入到故障知識(shí)庫(kù)模塊中;故障處理模塊,用于根據(jù)新的已知故障對(duì)故障設(shè)備進(jìn)行故障處理。
圖4為本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理裝置的結(jié)構(gòu)框圖。
如圖4所示,根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理裝置包括信息收集模塊100、故障知識(shí)庫(kù)模塊200、故障分析模塊300和故障處理模塊400。
其中,信息收集模塊100用于接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備,并獲得故障設(shè)備的運(yùn)行狀態(tài)信息。故障知識(shí)庫(kù)模塊200用于保存已知故障。故障分析模塊300用于根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障,以及根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將新的已知故障加入到故障知識(shí)庫(kù)模塊中。故障處理模塊400用于根據(jù)新的已知故障對(duì)故障設(shè)備進(jìn)行故障處理。
具體地,信息收集模塊100被動(dòng)的接收網(wǎng)絡(luò)發(fā)出的告警信息,其中,告警信息包括m維度的子信息,例如,告警產(chǎn)生的時(shí)間、告警類型、告警所在設(shè)備區(qū)域、告警所在設(shè)備的類型、告警所在設(shè)備的角色、告警持續(xù)的時(shí)間等。告警信息反映網(wǎng)絡(luò)故障設(shè)備的狀態(tài),根據(jù)m維度的告警信息確定發(fā)生網(wǎng)絡(luò)故障的設(shè)備,例如,通過告警信息的告警所在設(shè)備的類型及告警所在設(shè)備的角色子信息可以確定發(fā)生故障的設(shè)備。同時(shí),信息收集模塊100主動(dòng)的獲得故障設(shè)備的運(yùn)行狀態(tài)信息,其中,獲取故障設(shè)備的運(yùn)行狀態(tài)信息包括設(shè)備的日志信息、性能信息和操作日志信息等。
故障分析模塊300首先根據(jù)信息收集模塊100所獲得的故障設(shè)備的運(yùn)行狀態(tài)信息進(jìn)行分析,獲得與故障知識(shí)庫(kù)中的已知故障相對(duì)應(yīng)的信息表達(dá)方式,例如,將一個(gè)鏈路阻塞的故障設(shè)備的運(yùn)行狀態(tài)信息按照下述方式描述:a.網(wǎng)絡(luò)轉(zhuǎn)發(fā)延時(shí)很高,b.1CMP (InternetControl Message Protocol, Internet控制報(bào)文協(xié)議)監(jiān)控有丟包,c.鏈路兩端的端口包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快。然后將新描述的故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)模塊200的故障知識(shí)庫(kù)中進(jìn)行匹配查詢,確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障。最后,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改,這是因?yàn)楦鶕?jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),獲得的基準(zhǔn)故障并不能完全跟故障設(shè)備的運(yùn)行狀態(tài)相同,并將修改后的故障設(shè)備的運(yùn)行狀態(tài)信息作為新的已知故障加入到故障知識(shí)庫(kù)中,實(shí)現(xiàn)對(duì)故障知識(shí)庫(kù)的更新。
在本發(fā)明的一個(gè)實(shí)施例中,已知故障包括故障現(xiàn)象和故障處理方案。
具體地,故障現(xiàn)象包括故障發(fā)生時(shí)η個(gè)維度的子故障現(xiàn)象的集合,例如,當(dāng)網(wǎng)絡(luò)中某條傳輸鏈路發(fā)生擁塞時(shí),此時(shí)出現(xiàn)多種子故障現(xiàn)象,包括:數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高、ICMP監(jiān)控有丟包、針對(duì)此鏈路的流量監(jiān)控產(chǎn)生報(bào)警、鏈路兩端設(shè)備端口的包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快、鏈路兩端設(shè)備的CPU利用率比較高等,除此之外,故障所在的設(shè)備,也作為故障現(xiàn)象的一部分,例如故障發(fā)生設(shè)備的設(shè)備角色、設(shè)備廠商、設(shè)備型號(hào)等。這些現(xiàn)象構(gòu)成一個(gè)故障現(xiàn)象。
故障處理方案包括針對(duì)該故障可采取的k個(gè)處理方法的集合,例如,對(duì)上述例子的故障,可以采取以下的措施:a.在鏈路兩端設(shè)備加QoS(Quality of Service,服務(wù)質(zhì)量,網(wǎng)絡(luò)中的一種安全機(jī)制),保障重點(diǎn)流量傳輸,b.郵件通知此鏈路的使用用戶。這些處理方法構(gòu)成一個(gè)故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障中的故障處理方案進(jìn)行修改。通過修改故障處理方案可得到新的故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),匹配方式包括最大似然匹配或特征匹配。
具體的,最大似然匹配為,首先設(shè)置一個(gè)閾值P,然后在故障知識(shí)庫(kù)中計(jì)算所有的已知故障與該故障的相同的故障現(xiàn)象的數(shù)目,并找出具有與該故障的相同的故障現(xiàn)象的最大數(shù)目的已知故障,如果該最大數(shù)據(jù)大于或者等于閾值P,則該已知故障與該故障匹配成功,該已知故障作為該故障的基準(zhǔn)故障,如果該最大數(shù)據(jù)小于閾值P,則該已知故障與該故障未匹配成功。
特征匹配是指在故障知識(shí)庫(kù)中找到一個(gè)已知故障具有與該故障的故障現(xiàn)象相同的特征,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障,或者找到一個(gè)已知故障符合該故障的故障現(xiàn)象的幾個(gè)特征的邏輯組合,例如,數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高且ICMP監(jiān)控有丟包等,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障。
在本發(fā)明的一個(gè)實(shí)施例中,如果故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),沒有匹配成功,則通知網(wǎng)絡(luò)故障處理人員進(jìn)行處理。并將該故障的故障現(xiàn)象和故障處理方案存儲(chǔ)到故障知識(shí)庫(kù)模塊200的故障知識(shí)庫(kù)中。
根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理裝置,當(dāng)設(shè)備發(fā)生故障時(shí),通過獲取故障設(shè)備的運(yùn)行狀態(tài)信息,對(duì)設(shè)備故障的故障原因進(jìn)行分析處理,一方面克服依靠網(wǎng)絡(luò)故障處理人員的經(jīng)驗(yàn)處理設(shè)備故障時(shí)容易出錯(cuò)的缺陷,另一方面該裝置具有通用性,從而提高了處理網(wǎng)絡(luò)故障的效率,減少了網(wǎng)絡(luò)發(fā)生故障時(shí)帶來的損失,同時(shí)故障知識(shí)庫(kù)可以不斷地增加新的故障知識(shí),實(shí)現(xiàn)自學(xué)習(xí)的功能。該裝置可以極大程度的實(shí)現(xiàn)網(wǎng)絡(luò)故障處理的自動(dòng)化。
圖5為本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理裝置的結(jié)構(gòu)框圖。
如圖5所示,根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理裝置包括信息收集模塊100、故障知識(shí)庫(kù)模塊200、確定子模塊310、修改子模塊320、添加子模塊330和故障處理模塊400。
具體地,信息收集模塊100用于接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備,并獲得故障設(shè)備的運(yùn)行狀態(tài)信息。故障知識(shí)庫(kù)模塊200用于保存已知故障。確定子模塊310用于根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障。修改子模塊320用于根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障中的故障處理方案進(jìn)行修改以形成新的已知故障。添加子模塊330用于將新的已知故障加入到故障知識(shí)庫(kù)模塊200中。故障處理模塊400用于根據(jù)新的已知故障對(duì)故障設(shè)備進(jìn)行故障處理。
具體地,確定子模塊310根據(jù)信息收集模塊100所獲得的故障設(shè)備的運(yùn)行狀態(tài)信息進(jìn)行分析,獲得與故障知識(shí)庫(kù)中的已知故障相對(duì)應(yīng)的信息表達(dá)方式,例如,將一個(gè)鏈路阻塞的故障設(shè)備的運(yùn)行狀態(tài)信息按照下述方式描述:a.網(wǎng)絡(luò)轉(zhuǎn)發(fā)延時(shí)很高,b.1CMP (InternetControl Message Protocol, Internet控制報(bào)文協(xié)議)監(jiān)控有丟包,c.鏈路兩端的端口包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快,并將新描述的故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)模塊200的故障知識(shí)庫(kù)中進(jìn)行匹配查詢,確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障。
修改子模塊320根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改,這是因?yàn)楦鶕?jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),獲得的基準(zhǔn)故障并不能完全跟故障設(shè)備的運(yùn)行狀態(tài)相同。
添加子模塊330將修改后的故障設(shè)備的運(yùn)行狀態(tài)信息作為新的已知故障加入到故障知識(shí)庫(kù)中,實(shí)現(xiàn)對(duì)故障知識(shí)庫(kù)的更新。
在本發(fā)明的一個(gè)實(shí)施例中,確定子模塊310從故障知識(shí)庫(kù)中獲得每個(gè)已知故障對(duì)應(yīng)的故障信息,并將故障設(shè)備的運(yùn)行狀態(tài)信息與每個(gè)已知故障對(duì)應(yīng)的故障信息進(jìn)行匹配以確定所述故障設(shè)備對(duì)應(yīng)的已知故障。
在本發(fā)明的一個(gè)實(shí)施例中,故障分析模塊300包括確定子模塊310、修改子模塊320和添加子模塊330,確定子模塊310、修改子模塊320和添加子模塊330為可選的,可用故障分析模塊300代替。
在本發(fā)明的一個(gè)實(shí)施例中,已知故障包括故障現(xiàn)象和故障處理方案。
具體地,故障現(xiàn)象包括故障發(fā)生時(shí)η個(gè)維度的子故障現(xiàn)象的集合,例如,當(dāng)網(wǎng)絡(luò)中某條傳輸鏈路發(fā)生擁塞時(shí),此時(shí)出現(xiàn)多種子故障現(xiàn)象,包括:數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高、ICMP監(jiān)控有丟包、針對(duì)此鏈路的流量監(jiān)控產(chǎn)生報(bào)警、鏈路兩端設(shè)備端口的包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快、鏈路兩端設(shè)備的CPU利用率比較高等,除此之外,故障所在的設(shè)備,也作為故障現(xiàn)象的一部分,例如故障發(fā)生設(shè)備的設(shè)備角色、設(shè)備廠商、設(shè)備型號(hào)等。這些現(xiàn)象構(gòu)成一個(gè)故障現(xiàn)象。
故障處理方案包括針對(duì)該故障可采取的k個(gè)處理方法的集合,例如,對(duì)上述例子的故障,可以采取以下的措施:a.在鏈路兩端設(shè)備加QoS(Quality of Service,服務(wù)質(zhì)量,網(wǎng)絡(luò)中的一種安全機(jī)制),保障重點(diǎn)流量傳輸,b.郵件通知此鏈路的使用用戶。這些處理方法構(gòu)成一個(gè)故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障中的故障處理方案進(jìn)行修改。通過修改故障處理方案可得到新的故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),匹配方式包括最大似然匹配或特征匹配。
具體的,最大似然匹配為,首先設(shè)置一個(gè)閾值P,然后在故障知識(shí)庫(kù)中計(jì)算所有的已知故障與該故障的相同的故障現(xiàn)象的數(shù)目,并找出具有與該故障的相同的故障現(xiàn)象的最大數(shù)目的已知故障,如果該最大數(shù)據(jù)大于或者等于閾值P,則該已知故障與該故障匹配成功,該已知故障作為該故障的基準(zhǔn)故障,如果該最大數(shù)據(jù)小于閾值P,則該已知故障與該故障未匹配成功。
特征匹配是指在故障知識(shí)庫(kù)中找到一個(gè)已知故障具有與該故障的故障現(xiàn)象相同的特征,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障,或者找到一個(gè)已知故障符合該故障的故障現(xiàn)象的幾個(gè)特征的邏輯組合,例如,數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高且ICMP監(jiān)控有丟包等,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障。
在本發(fā)明的一個(gè)實(shí)施例中,如果故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),沒有匹配成功,則通知網(wǎng)絡(luò)故障處理人員進(jìn)行處理。并將該故障的故障現(xiàn)象和故障處理方案存儲(chǔ)到故障知識(shí)庫(kù)模塊200的故障知識(shí)庫(kù)中。
根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理裝置,遍歷故障數(shù)據(jù)庫(kù)模塊中的每個(gè)已知故障,從而提高了網(wǎng)絡(luò)故障處理裝置進(jìn)行網(wǎng)絡(luò)故障處理時(shí)的精確度。
圖6為本發(fā)明一個(gè)實(shí)施例的網(wǎng)絡(luò)故障處理裝置的結(jié)構(gòu)框圖。
如圖6所示,根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理裝置包括接收子模塊110、匹配子模塊120、獲取子模塊130、故障知識(shí)庫(kù)模塊200、確定子模塊310、修改子模塊320、添加子模塊330和故障處理模塊400。
其中,接收子模塊110用于接收網(wǎng)絡(luò)的告警信息。匹配子模塊120用于將告警信息與預(yù)設(shè)的故障規(guī)則進(jìn)行匹配以確定告警信息對(duì)應(yīng)的網(wǎng)絡(luò)設(shè)備是否出現(xiàn),并將網(wǎng)絡(luò)設(shè)備作為故障設(shè)備。獲取子模塊130用于獲取故障設(shè)備的運(yùn)行狀態(tài)信息。故障分析模塊300用于根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障,以及根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將新的已知故障加入到故障知識(shí)庫(kù)模塊中。故障處理模塊400用于根據(jù)新的已知故障對(duì)故障設(shè)備進(jìn)行故障處理。
具體地,接收子模塊110用于被動(dòng)的接收網(wǎng)絡(luò)發(fā)出的告警信息,其中,告警信息包括m維度的子信息,例如,告警產(chǎn)生的時(shí)間、告警類型、告警所在設(shè)備區(qū)域、告警所在設(shè)備的類型、告警所在設(shè)備的角色、告警持續(xù)的時(shí)間等。告警信息反映網(wǎng)絡(luò)故障設(shè)備的狀態(tài)。
匹配子模塊120依據(jù)的故障規(guī)則為告警信息的m個(gè)維度值特性的邏輯組合,其中,值特性的判定包括大于、等于、小于、屬于等,邏輯組合包括與、或、非等。
獲取子模塊130獲取的故障設(shè)備的運(yùn)行狀態(tài)信息包括設(shè)備的日志信息、性能信息和操作日志信息等。
在本發(fā)明的一個(gè)實(shí)施例中,信息收集模塊100包括接收子模塊110、匹配子模塊120和獲取子模塊130,接收子模塊110、匹配子模塊120和獲取子模塊130為可選的,可用信息收集模塊100代替。
在本發(fā)明的一個(gè)實(shí)施例中,已知故障包括故障現(xiàn)象和故障處理方案。
具體地,故障現(xiàn)象包括故障發(fā)生時(shí)η個(gè)維度的子故障現(xiàn)象的集合,例如,當(dāng)網(wǎng)絡(luò)中某條傳輸鏈路發(fā)生擁塞時(shí),此時(shí)出現(xiàn)多種子故障現(xiàn)象,包括:數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高、ICMP監(jiān)控有丟包、針對(duì)此鏈路的流量監(jiān)控產(chǎn)生報(bào)警、鏈路兩端設(shè)備端口的包的錯(cuò)誤計(jì)數(shù)增長(zhǎng)較快、鏈路兩端設(shè)備的CPU利用率比較高等,除此之外,故障所在的設(shè)備,也作為故障現(xiàn)象的一部分,例如故障發(fā)生設(shè)備的設(shè)備角色、設(shè)備廠商、設(shè)備型號(hào)等。這些現(xiàn)象構(gòu)成一個(gè)故障現(xiàn)象。
故障處理方案包括針對(duì)該故障可采取的k個(gè)處理方法的集合,例如,對(duì)上述例子的故障,可以采取以下的措施:a.在鏈路兩端設(shè)備加QoS(Quality of Service,服務(wù)質(zhì)量,網(wǎng)絡(luò)中的一種安全機(jī)制),保障重點(diǎn)流量傳輸,b.郵件通知此鏈路的使用用戶。這些處理方法構(gòu)成一個(gè)故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障中的故障處理方案進(jìn)行修改。通過修改故障處理方案可得到新的故障處理方案。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),匹配方式包括最大似然匹配或特征匹配。
具體的,最大似然匹配為,首先設(shè)置一個(gè)閾值P,然后在故障知識(shí)庫(kù)中計(jì)算所有的已知故障與該故障的相同的故障現(xiàn)象的數(shù)目,并找出具有與該故障的相同的故障現(xiàn)象的最大數(shù)目的已知故障,如果該最大數(shù)據(jù)大于或者等于閾值P,則該已知故障與該故障匹配成功,該已知故障作為該故障的基準(zhǔn)故障,如果該最大數(shù)據(jù)小于閾值P,則該已知故障與該故障未匹配成功。
特征匹配是指在故障知識(shí)庫(kù)中找到一個(gè)已知故障具有與該故障的故障現(xiàn)象相同的特征,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障,或者找到一個(gè)已知故障符合該故障的故障現(xiàn)象的幾個(gè)特征的邏輯組合,例如,數(shù)據(jù)轉(zhuǎn)發(fā)延時(shí)高且ICMP監(jiān)控有丟包等,則匹配成功,該已知故障作為該故障的基準(zhǔn)故障。
在本發(fā)明的一個(gè)實(shí)施例中,如果故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中進(jìn)行匹配時(shí),沒有匹配成功,則通知網(wǎng)絡(luò)故障處理人員進(jìn)行處理。并將該故障的故障現(xiàn)象和故障處理方案存儲(chǔ)到故障知識(shí)庫(kù)模塊200的故障知識(shí)庫(kù)中。
根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)故障處理裝置,根據(jù)告警信息與預(yù)設(shè)的故障規(guī)則進(jìn)行匹配以定位網(wǎng)絡(luò)故障的設(shè)備,從而網(wǎng)絡(luò)故障處理裝置可更加快速及準(zhǔn)確地對(duì)網(wǎng)絡(luò)故障進(jìn)行定位。
應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。例如,如果用硬件來實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場(chǎng)可編程門陣列(FPGA)等。
在本說明書的描述中,參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同限定。
權(quán)利要求
1.一種網(wǎng)絡(luò)故障處理方法,其特征在于,包括以下步驟: 接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備; 獲得所述故障設(shè)備的運(yùn)行狀態(tài)信息; 根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定所述故障設(shè)備對(duì)應(yīng)的已知故障,并將所述已知故障作為基準(zhǔn)故障; 根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)所述基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將所述新的已知故障加入到所述故障知識(shí)庫(kù)中;以及 根據(jù)所述新的已知故障對(duì)所述故障設(shè)備進(jìn)行故障處理。
2.如權(quán)利要求1所述的網(wǎng)絡(luò)故障處理方法,其特征在于,其中,所述已知故障包括故障現(xiàn)象和故障處理方案。
3.如權(quán)利要求2所述的網(wǎng)絡(luò)故障處理方法,其特征在于,所述根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)所述基準(zhǔn)故障進(jìn)行修改進(jìn)一步包括: 根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)所述基準(zhǔn)故障中的故障處理方案進(jìn)行修改。
4.如權(quán)利要求1-3任一項(xiàng)所述的網(wǎng)絡(luò)故障處理方法,其特征在于,所述根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定所述故障設(shè)備對(duì)應(yīng)的已知故障進(jìn)一步包括: 從所述故障知識(shí)庫(kù)中獲得每個(gè)已知故障對(duì)應(yīng)的故障信息;以及 將所述故障設(shè)備的運(yùn)行 狀態(tài)信息與所述每個(gè)已知故障對(duì)應(yīng)的故障信息進(jìn)行匹配以確定所述故障設(shè)備對(duì)應(yīng)的已知故障。
5.如權(quán)利要求1-4任一項(xiàng)所述的網(wǎng)絡(luò)故障處理方法,其特征在于,所述匹配包括最大似然匹配或特征匹配。
6.如權(quán)利要求1-5任一項(xiàng)所述的網(wǎng)絡(luò)故障處理方法,其特征在于,所述接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備進(jìn)一步包括: 接收網(wǎng)絡(luò)的告警信息; 將所述告警信息與預(yù)設(shè)的故障規(guī)則進(jìn)行匹配以確定所述告警信息對(duì)應(yīng)的網(wǎng)絡(luò)設(shè)備是否出現(xiàn)故障; 如果判斷所述網(wǎng)絡(luò)設(shè)備出現(xiàn)故障,則將所述網(wǎng)絡(luò)設(shè)備作為故障設(shè)備。
7.一種網(wǎng)絡(luò)故障處理裝置,其特征在于,包括: 信息收集模塊,用于接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備,并獲得所述故障設(shè)備的運(yùn)行狀態(tài)信息; 故障知識(shí)庫(kù)模塊,用于保存已知故障; 故障分析模塊,用于根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定所述故障設(shè)備對(duì)應(yīng)的已知故障,并將所述已知故障作為基準(zhǔn)故障,以及根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)所述基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將所述新的已知故障加入到所述故障知識(shí)庫(kù)模塊中;以及 故障處理模塊,用于根據(jù)所述新的已知故障對(duì)所述故障設(shè)備進(jìn)行故障處理。
8.如權(quán)利要求7所述的網(wǎng)絡(luò)故障處理裝置,其特征在于,其中,所述已知故障包括故障現(xiàn)象和故障處理方案。
9.如權(quán)利要求8所述的網(wǎng)絡(luò)故障處理裝置,其特征在于,所述故障分析模塊進(jìn)一步包括:確定子模塊,用于根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定所述故障設(shè)備對(duì)應(yīng)的已知故障,并將所述已知故障作為基準(zhǔn)故障; 修改子模塊,用于根據(jù)所述故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)所述基準(zhǔn)故障中的故障處理方案進(jìn)行修改以形成新的已知故障;以及 添加子模塊,用于將所述新的已知故障加入到所述故障知識(shí)庫(kù)模塊中。
10.如權(quán)利要求8所述的網(wǎng)絡(luò)故障處理裝置,其特征在于,所述確定子模塊從所述故障知識(shí)庫(kù)中獲得每個(gè)已知故障對(duì)應(yīng)的故障信息,并將所述故障設(shè)備的運(yùn)行狀態(tài)信息與所述每個(gè)已知故障對(duì)應(yīng)的故障信息進(jìn)行匹配以確定所述故障設(shè)備對(duì)應(yīng)的已知故障。
11.如權(quán)利要求10所述的網(wǎng)絡(luò)故障處理裝置,其特征在于,所述匹配包括最大似然匹配或特征匹配。
12.如權(quán)利要求7所述的網(wǎng)絡(luò)故障處理裝置,其特征在于,所述信息收集模塊進(jìn)一步包括: 接收子模塊,用于接收網(wǎng)絡(luò)的告警信息; 匹配子模塊,用于將所述告警信息與預(yù)設(shè)的故障規(guī)則進(jìn)行匹配以確定所述告警信息對(duì)應(yīng)的網(wǎng)絡(luò)設(shè)備是否出現(xiàn),并將所述網(wǎng)絡(luò)設(shè)備作為故障設(shè)備;以及獲取子模塊,用于獲取所 述故障設(shè)備的運(yùn)行狀態(tài)信息。
全文摘要
本發(fā)明提出一種網(wǎng)絡(luò)故障處理方法及裝置。其中,所述方法包括以下步驟接收網(wǎng)絡(luò)的告警信息以確定故障設(shè)備;獲得故障設(shè)備的運(yùn)行狀態(tài)信息;根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息在故障知識(shí)庫(kù)中確定故障設(shè)備對(duì)應(yīng)的已知故障,并將已知故障作為基準(zhǔn)故障;根據(jù)故障設(shè)備的運(yùn)行狀態(tài)信息對(duì)基準(zhǔn)故障進(jìn)行修改以形成新的已知故障,并將新的已知故障加入到故障知識(shí)庫(kù)中;以及根據(jù)新的已知故障對(duì)故障設(shè)備進(jìn)行故障處理。根據(jù)本發(fā)明實(shí)施例的方法,克服了人工處理網(wǎng)絡(luò)故障時(shí)容易出錯(cuò)的缺陷,同時(shí)具有通用性,提高了處理效率,減少了網(wǎng)絡(luò)故障帶來的損失,并且在故障知識(shí)庫(kù)中不斷地增加新的故障知識(shí),實(shí)現(xiàn)自學(xué)習(xí)。
文檔編號(hào)H04L12/24GK103138960SQ20111037924
公開日2013年6月5日 申請(qǐng)日期2011年11月24日 優(yōu)先權(quán)日2011年11月24日
發(fā)明者彭煉鋼, 熊亞軍, 翦浩, 梁振方 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司