專利名稱:一種故障關(guān)系生成及故障確定方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及業(yè)務(wù)支撐技術(shù)領(lǐng)域,尤其涉及一種故障關(guān)系生成及故障確定方法及裝置。
背景技術(shù):
云計算系統(tǒng)是利用大規(guī)模低成本運算單元通過復(fù)雜的IP網(wǎng)絡(luò)相連所組成的,提供運算服務(wù)的運算系統(tǒng)。圖1為現(xiàn)有云計算系統(tǒng)的垂直分層結(jié)構(gòu)示意圖,云計算系統(tǒng)由底層向高層依次包括網(wǎng)絡(luò)層、物理服務(wù)器層、操作系統(tǒng)層、云計算平臺層以及云計算應(yīng)用層。云計算系統(tǒng)規(guī)模龐大,通常包括上千個服務(wù)器節(jié)點,并且云計算系統(tǒng)的底層為性能較差的商業(yè)服務(wù)器節(jié)點,其故障率較高。同時云計算系統(tǒng)以分布式計算模型為主,即一個應(yīng)用包含多個服務(wù)器之間的網(wǎng)絡(luò)交互和協(xié)同工作,因此當(dāng)云計算系統(tǒng)中某一服務(wù)器節(jié)點出現(xiàn)故障時,與其相關(guān)的服務(wù)器節(jié)點的相應(yīng)部件也要受到影響出現(xiàn)故障。并且對于云計算系統(tǒng)由于其各個層次之間也存在依賴關(guān)系,不同層次之間的服務(wù)器節(jié)點的故障也會相互影響。因此如何在云計算系統(tǒng)中確定故障的根源成為一個比較棘手的問題。另外,對于其他結(jié)構(gòu)比較復(fù)雜的系統(tǒng),在進行定位時也存在與云計算系統(tǒng)相同的問題?,F(xiàn)有技術(shù)在確定故障的根源時,可以基于網(wǎng)絡(luò)設(shè)備之間的物理連接關(guān)系,其主要過程包括對各個網(wǎng)絡(luò)設(shè)備的故障進行輪詢,根據(jù)輪詢的結(jié)果,將相互之間存在物理連接關(guān)系的網(wǎng)絡(luò)設(shè)備所在的區(qū)域稱為故障區(qū)域,在確定的故障區(qū)域內(nèi),根據(jù)每個故障的網(wǎng)絡(luò)設(shè)備與其他網(wǎng)絡(luò)設(shè)備之間的物理連接關(guān)系,確定該故障區(qū)域內(nèi)的故障根源。上述確定故障的方法中,基于網(wǎng)絡(luò)設(shè)備之間的物理連接關(guān)系確定,該方法只能解決通信設(shè)備層面的問題,而對于結(jié)構(gòu)比較復(fù)雜的系統(tǒng),例如云計算系統(tǒng)由于其包括上千個服務(wù)器節(jié)點,連接關(guān)系非常復(fù)雜,并且位于不同層面的服務(wù)器之間也是相互關(guān)聯(lián)的。因此可知對于系統(tǒng)中這種在不同服務(wù)器節(jié)點之間,以及同一服務(wù)器節(jié)點的不同層面之間都具有復(fù)雜的相關(guān)性,因此基于上述網(wǎng)絡(luò)設(shè)備確定故障的方法無法應(yīng)用到該系統(tǒng)中。另外,在現(xiàn)有技術(shù)中還可以確定軟件中的故障,具體包括根據(jù)鏈接時的優(yōu)化器, 獲取靜態(tài)控制依賴信息,并根據(jù)動態(tài)插裝可執(zhí)行程序,搜集動態(tài)執(zhí)行軌跡信息;解析搜集到的軌跡信息,得到動態(tài)依賴關(guān)系;再根據(jù)保存的動態(tài)依賴關(guān)系的可疑度公式,計算得到的每個動態(tài)依賴關(guān)系的可疑度;然后將可疑度的值映射到程序的可執(zhí)行語句上,并將各語句按照可疑度的大小進行降序排列,輸出軟件故障定位的報告。上述確定軟件中的故障的方法,由于其只能用于對軟件進行故障定位,也就是說只能用于對單個軟件內(nèi)部進行故障的定位,因此無法適用于確定整個系統(tǒng)中的故障。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種故障關(guān)系生成及故障確定方法及裝置,用以解決無法在系統(tǒng)中進行故障定位的問題。本發(fā)明實施例提供的一種故障關(guān)系生成方法,包括
根據(jù)該報警事件發(fā)生的時間,該報警事件中攜帶的故障類型信息,以及保存的故障類型信息與時間范圍信息的對應(yīng)關(guān)系,確定該報警事件對應(yīng)的故障的有效期信息;并根據(jù)確定的有效期信息,確定發(fā)生時間處于該有效期內(nèi)的其他報警事件;將每個報警事件作為故障關(guān)系中的節(jié)點,分別連接該報警事件對應(yīng)的節(jié)點到確定的其他報警事件對應(yīng)的節(jié)點的路徑。本發(fā)明實施例提供的一種基于上述生成的故障關(guān)系進行故障確定的方法,包括根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)
點;根據(jù)查找到的節(jié)點,逆向路徑查找到達該節(jié)點的每條路徑,根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件進行故障定位。本發(fā)明實施例提供的一種基于上述生成的故障關(guān)系確定報警事件的擴散范圍的方法,包括根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)
點;根據(jù)查找到的節(jié)點,順次查找以該節(jié)點為起點的每條路徑,根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件,確定該報警事件的擴散范圍。本發(fā)明實施例提供的一種云計算系統(tǒng)中故障關(guān)系生成裝置,包括第一確定模塊,用于根據(jù)報警事件發(fā)生的時間,該報警事件中攜帶的故障類型信息,以及保存的故障類型信息與時間范圍信息的對應(yīng)關(guān)系,確定該報警事件對應(yīng)的故障的有效期信息,并根據(jù)確定的有效期信息,確定發(fā)生時間在該有效期內(nèi)的其他報警事件;生成模塊,用于將每個報警事件作為故障關(guān)系中的節(jié)點,分別連接該報警事件對應(yīng)的節(jié)點到確定的其他報警事件對應(yīng)的節(jié)點的路徑。本發(fā)明實施例提供的一種基于上述生成裝置的故障確定裝置,包括第一查找模塊,用于根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)點;第一確定模塊,用于根據(jù)查找到的節(jié)點,逆向路徑查找到達該節(jié)點的每條路徑,根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件進行故障定位。本發(fā)明實施例提供的基于上述生成裝置的確定報警事件的擴散范圍的裝置,所述裝置包括第二查找模塊,用于根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)點;第二確定模塊,用于根據(jù)查找到的節(jié)點,順次查找以該節(jié)點為起點的每條路徑,根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件,確定該報警事件的擴散范圍。本發(fā)明實施例提供了一種故障關(guān)系生成及故障確定方法及裝置,該故障關(guān)系生成方法中根據(jù)報警事件發(fā)生的時間,該報警事件中攜帶的故障類型信息,以及保存的對應(yīng)該故障類型的時間范圍信息,確定該報警事件對應(yīng)故障的有效期信息,并確定發(fā)生時間處于該有效期內(nèi)的其他報警事件,將每個報警事件作為故障關(guān)系中的節(jié)點,連接該報警事件對應(yīng)的節(jié)點到確定的該其他報警事件對應(yīng)的節(jié)點的路徑從而生成故障關(guān)系。由于在本發(fā)明實施例中根據(jù)在報警事件的有效期內(nèi)發(fā)生的其他報警事件,從而確定報警事件與其他報警事件之間的關(guān)系,因此在進行故障定位時可以根據(jù)生成的故障關(guān)系進行故障定位,從而為復(fù)雜的系統(tǒng)提供了一種有效,準(zhǔn)確的故障定位方法。
圖1為現(xiàn)有云計算系統(tǒng)的垂直分層結(jié)構(gòu)示意圖;圖2為本發(fā)明實施例提供的故障關(guān)系生成過程;圖3為本發(fā)明實施例提供的針對每個報警事件,確定該報警事件與其他報警時間之間的依賴關(guān)系的過程;圖4為本發(fā)明實施例提供的根據(jù)報警事件之間的故障關(guān)系參數(shù)確定的故障關(guān)系表的示意圖;圖5為本發(fā)明實施例提供的基于該生成的故障關(guān)系表確定故障的過程;圖6為本發(fā)明實施例提供的基于該生成的故障關(guān)系表進行故障確定的具體過程;圖7為本發(fā)明實施例提供的一種故障關(guān)系生成裝置的結(jié)構(gòu)示意圖;圖8為本發(fā)明實施例提供的基于圖7所述的生成裝置的故障確定裝置的結(jié)構(gòu)示意圖;圖9為本發(fā)明實施例提供的基于圖7所述的生成裝置確定報警事件的擴散范圍的裝置的結(jié)構(gòu)示意圖。
具體實施例方式本發(fā)明實施例中為了準(zhǔn)確的在系統(tǒng)中進行故障確定,提供了一種故障關(guān)系生成方法,這是由于當(dāng)主機出現(xiàn)故障時會自動的上報報警事件,其中該報警事件中記錄有故障類型信息,而在本發(fā)明實施例中針對不同的類型的故障,保存了該故障類型對應(yīng)的時間范圍信息,即認(rèn)為該類型的故障在該時間范圍內(nèi)會對產(chǎn)生其他故障,從而可以確定該報警事件對應(yīng)的故障的有效期,在該有效期內(nèi)發(fā)生的其他報警事件就可以認(rèn)為,該其他報警事件與該報警事件存在故障關(guān)系,并且是由該報警事件導(dǎo)致的該其他報警事件,因此根據(jù)報警事件之間的故障關(guān)系,就可以生成包含各個報警事件的故障關(guān)系。結(jié)合該故障關(guān)系即可對每種報警事件進行故障定位。下面結(jié)合說明書附圖,對本發(fā)明實施例進行詳細(xì)說明。圖2為本發(fā)明實施例提供的故障關(guān)系生成過程,該過程包括以下步驟S201 針對每個報警事件執(zhí)行以下步驟根據(jù)該報警事件發(fā)生的時間,該報警事件中攜帶的故障類型信息,以及保存的故障類型信息與時間范圍信息的對應(yīng)關(guān)系,確定該報警事件的故障的有效期信息。當(dāng)每臺主機在運行某個程序,或者該主機的其中某個部件出現(xiàn)故障時,該主機都會上報報警事件,當(dāng)該主機上報該報警事件時可以記錄該報警事件發(fā)生的時間,以便后續(xù)可以進行故障關(guān)系的生成,并且為故障排查提供幫助。另外在每個報警事件中還可以包括;故障發(fā)生的主機的IP地址信息和/或該主機發(fā)生故障的對象。其中故障的對象也就是具體的該主機的哪個部件,者哪個應(yīng)用,或哪個進程。S202:根據(jù)確定的有效期信息,確定發(fā)生時間在該有限期內(nèi)的其他報警事件。
由于在本發(fā)明實施例中針對每種故障類型保存了對應(yīng)該故障類型的時間范圍信息,當(dāng)針對該設(shè)定時間長度內(nèi)的每個報警事件,生成故障關(guān)系時,針對每個報警事件,根據(jù)該報警事件發(fā)生的時間,該報警事件中記錄的故障類型信息,以及保存的對應(yīng)故障類型的時間范圍信息,將該每個發(fā)生時間作為起點,將該發(fā)生時間加上該時間范圍信息作為終點, 該起點和終點間的時間為每個有效期,則可以統(tǒng)計發(fā)生時間在該有效期的其他報警事件。S203 將每個報警事件作為節(jié)點,分別連接該報警事件對應(yīng)的節(jié)點到確定的其他報警事件對應(yīng)的節(jié)點的路徑。具體的在生成故障關(guān)系時,將每個報警事件都作為故障關(guān)系中的一個節(jié)點,當(dāng)確定第一報警事件的發(fā)生導(dǎo)致第二報警事件的發(fā)生時,則分別查找第一報警事件和第二報警事件對應(yīng)的節(jié)點,連接第一報警事件對應(yīng)的節(jié)點到其導(dǎo)致的第二報警事件對應(yīng)的節(jié)點的路徑,也可以說將該第一報警事件對應(yīng)的節(jié)點作為箭頭的起點,將該第二報警事件對應(yīng)的節(jié)點作為箭頭的終點,該箭頭連接的線路稱為一個路徑。本發(fā)明實施例在生成云計算系統(tǒng)的故障關(guān)系時,對整個系統(tǒng)中的故障根源進行分析,包括分析不同服務(wù)器節(jié)點之間,以及同一服務(wù)器節(jié)點的不同層面之間,對系統(tǒng)中的網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)以及各應(yīng)用軟件的各維度進行分析,從而準(zhǔn)確的確定出的系統(tǒng)中的故障關(guān)系。當(dāng)確定了系統(tǒng)中的故障關(guān)系后,當(dāng)該報警事件中還攜帶有故障發(fā)生的主機的IP地址信息時,還可以確定該每個節(jié)點對應(yīng)的報警事件對應(yīng)的主機的信息,即針對每個節(jié)點保存發(fā)生該報警事件的主機的IP地址信息。由于本發(fā)明實施例提供的故障關(guān)系生成方法,可以生成系統(tǒng)中各個報警事件的故障關(guān)系,對于云計算系統(tǒng),由于其系統(tǒng)規(guī)模龐大,包括上千個服務(wù)器節(jié)點,而且各個層次之間也存在依賴關(guān)系,不同層次之間的服務(wù)器節(jié)點的故障也會相互影響,因此采用本發(fā)明實施例提供的故障關(guān)系生成方法,可以用于對結(jié)構(gòu)復(fù)雜的云計算系統(tǒng)中的故障關(guān)系生成。當(dāng)對云計算系統(tǒng)中的報警事件進行統(tǒng)計時,認(rèn)為可以統(tǒng)計到云計算系統(tǒng)中的每個報警事件, 或者也可以在具體實現(xiàn)時,將每個報警事件都上報到統(tǒng)一的平臺,以便于后續(xù)根據(jù)報警事件進行故障關(guān)系確定。另外,在本發(fā)明實施例中的報警事件是指當(dāng)系統(tǒng)中的一個部件無法完成其預(yù)定的功能時,生成的一個報警事件。在該報警事件中包含故障類型信息。并且在報警事件上報時還會記錄該報警事件發(fā)生的時間信息,該報警事件發(fā)生的時間信息可以是在該報警事件在上報時攜帶在該報警事件中的,或者當(dāng)該報警事件的上報是實時的時,也可以認(rèn)為接收到該報警事件的時間即為該報警事件發(fā)生的時間。另外,該報警事件中還攜帶有故障發(fā)生的主機的IP地址信息和或/該主機發(fā)生故障的對象,以確定具體是哪臺IP地址的主機出現(xiàn)了故障,并且當(dāng)該報警事件中主機發(fā)生故障的對象時,還可以確定該主機具體哪個對象出現(xiàn)了故障。在本發(fā)明實施例中在設(shè)定時間長度內(nèi)會統(tǒng)計到多個報警事件,當(dāng)該報警事件包含的內(nèi)容相同時,可以認(rèn)為該報警事件為同一報警事件,從而可以統(tǒng)計該設(shè)定時間長度內(nèi)每個報警事件發(fā)生的次數(shù)。當(dāng)報警事件中攜帶有時間信息時,出去該時間信息其他信息都相同時,可以認(rèn)為是同一報警事件。由于故障發(fā)生是存在依賴關(guān)系的,因此當(dāng)某一故障對應(yīng)的報警事件發(fā)生時,該故障導(dǎo)致的其他故障的報警事件會在一定的時間范圍內(nèi)發(fā)生,因此根據(jù)在每個故障的有效期CN 102546205 A內(nèi)發(fā)生的其他報警事件,就可以確定報警事件之間的故障關(guān)系。具體的報警時間之間的故障關(guān)系可以用報警事件之間的故障關(guān)系參數(shù)來表示,由一種報警事件導(dǎo)致其他報警事件發(fā)生的可能性,具體的在確定報警事件之間的故障關(guān)系參數(shù)時包括針對每個其他報警事件, 統(tǒng)計該其他報警事件在幾個有效期內(nèi)出現(xiàn),根據(jù)統(tǒng)計的該設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù),以及該其他報警事件在幾個有效期內(nèi)出現(xiàn),確定該報警事件發(fā)生導(dǎo)致該其他報警事件發(fā)生的故障關(guān)系參數(shù)。由于在每個有效期內(nèi)每個其他報警事件只能發(fā)生一次,因此針對每個其他報警事件統(tǒng)計其在幾個有效期內(nèi)出現(xiàn),就可以確定其與該報警事件關(guān)聯(lián)的發(fā)生次數(shù),根據(jù)該次數(shù), 以及該報警事件在該設(shè)定時間長度內(nèi)發(fā)生的次數(shù),可以確定該報警事件發(fā)生導(dǎo)致該其他報警事件發(fā)生的故障關(guān)系參數(shù)。如果當(dāng)某一個報警事件El的發(fā)生,即某一個故障發(fā)生,可能導(dǎo)致另一報警事件E2 的發(fā)生時,則可以認(rèn)為報警事件E2依賴于報警事件E1,表示為El- > E2。并且報警事件的發(fā)生在時間上具有關(guān)聯(lián)性,每個報警事件在一定的時間范圍內(nèi)會存在一定的影響,因此可以確定該報警事件的有效期,例如記為El. limit,當(dāng)兩個報警事件的發(fā)生時間滿足,El. t < E2. t且E2. t-El. t < El. limit,則稱事件El和E2具有時間相關(guān)性,其中El. t為報警事件El發(fā)生的時間,E2. t為報警事件E2發(fā)生的時間。在確定具有時間相關(guān)性的兩個報警事件El和E2之間的依賴關(guān)系時,可以用概率來表示,具體為Pei > E2 = P (E2 I El) = P (E1E2) +P (El)其中沖吣吣?伍?脅)表示報警事件El導(dǎo)致報警事件E2發(fā)生的概率,P(E1E2)表示報警事件E1、報警事件E2同時發(fā)生的概率,P(El)表示報警事件El發(fā)生的概率。圖3為本發(fā)明實施例提供的針對每個報警事件,確定該報警事件與其他報警時間之間的依賴關(guān)系的過程,該過程包括以下步驟S301 根據(jù)每個報警事件發(fā)生的事時間,統(tǒng)計在設(shè)定的時間長度內(nèi)發(fā)生的每個報
警事件。其中每個報警事件中記錄有故障類型信息,故障發(fā)生的主機的IP地址信息以及該主機發(fā)生故障的對象。S302 并確定在該設(shè)定時間長度內(nèi),同一報警事件發(fā)生的次數(shù)。例如統(tǒng)計到第一報警事件在一個月內(nèi)發(fā)生了 10次,第二報警事件在一個月內(nèi)發(fā)生了 12次,第三報警事件在一個月內(nèi)發(fā)生了 9次。以下步驟是針對統(tǒng)計到的每種報警事件分別進行的。S303:針對同一報警事件,根據(jù)該報警事件在該設(shè)定時間長度內(nèi)每次發(fā)生的時間, 該報警事件中記錄的故障類型信息,以及保存的對應(yīng)該故障類型的時間范圍信息,確定該故障的每個有效期信息。對于第一報警事件,當(dāng)該報警事件對應(yīng)的故障為數(shù)據(jù)庫服務(wù)器硬盤故障時,對應(yīng)數(shù)據(jù)庫服務(wù)器硬盤故障保存的時間范圍可以為1個小時。該第一報警事件在一個月內(nèi)每次
的發(fā)生時間分別為第一天的10:00,第10天的7:52,第15天的8:00,......,因此確定
的該報警事件對應(yīng)故障的每個有效期分別為第一天的10:00 11:00,第10天的7:52 8:52,H 15 天的 8:00 9:00,.......S304 統(tǒng)計在每個有效期內(nèi)發(fā)生的其他報警事件。
例如當(dāng)?shù)诙缶录诘谝惶斓?0:35發(fā)生時,由于其發(fā)生的時間位于第一報警事件對應(yīng)的故障發(fā)生的有效期(第一天的10:00 11:00)內(nèi),因為可以認(rèn)為該第二報警事件為在第一報警事件的有效期內(nèi)發(fā)生的報警事件。S305:針對每個其他報警事件,統(tǒng)計該其他報警事件在每個有效期內(nèi)出現(xiàn)的次數(shù)。由于對于一個報警事件其在一段時間內(nèi)只能出現(xiàn)一次,因此一般在每個有效期內(nèi)如果一個報警事件出現(xiàn)時,也就只能出現(xiàn)一次,因此針對每個其他報警事件,統(tǒng)計該其他報警事件在幾個有效期內(nèi)出現(xiàn),也就能確定該其他報警事件在每個有效期內(nèi)出現(xiàn)次數(shù)的和。當(dāng)然在每個有效期內(nèi)其他報警事件出現(xiàn)的次數(shù)不止一次時,統(tǒng)計該其他報警事件在該報警事件的有效期內(nèi)出現(xiàn)的次數(shù),也可以確定該其他報警事件在每個有效期內(nèi)出現(xiàn)的次數(shù)的和。S306:確定該其他報警事件在每個有效期內(nèi)出現(xiàn)次數(shù)的和,與該設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù)商,將該商值作為該報警事件導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù)。S307:將該報警事件及該其他報警事件分別作為故障關(guān)系中的節(jié)點,連接該報警事件對應(yīng)的節(jié)點到其導(dǎo)致的該其他報警事件對應(yīng)的節(jié)點的路徑,基于確定的該報警事件導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù),對應(yīng)該路徑保存該兩個報警事件之間的故障關(guān)系參數(shù)。具體的在確定了每兩個報警事件之間的路徑后,由于該兩個報警事件中,其中一個報警事件的發(fā)生將導(dǎo)致另一報警事件的發(fā)生,因此為了標(biāo)識報警事件之間的依賴關(guān)系, 該路徑可以包括方向標(biāo)識,該路徑的方向標(biāo)識是由報警事件對應(yīng)的節(jié)點指向其導(dǎo)致的報警事件對應(yīng)的節(jié)點的。進一步為了標(biāo)識每兩個報警事件之間的關(guān)聯(lián)程度,由于確定了報警事件之間的故障關(guān)系參數(shù),因此可以針對每條路徑,根據(jù)每條路徑連接的每兩個節(jié)點包含的報警事件,對應(yīng)該路徑保存該兩個報警事件之間的故障關(guān)系參數(shù)。下述表1為各個報警事件之間的故障關(guān)系參數(shù)的示意
報警事件 ElE2E3E4
~~Ε ~0950807
~~E20~09075
Ε30οΤ -Oo
Ε40θΓθ502~表 1在上述表1中以每個報警事件都為云計算系統(tǒng)中的報警事件為例進行說明,其中報警事件El為數(shù)據(jù)庫服務(wù)器硬盤故障,報警事件Ε2為數(shù)據(jù)庫故障,報警事件Ε3為應(yīng)用服務(wù)器故障,報警事件Ε4為web服務(wù)故障,其中報警事件El導(dǎo)致報警事件E2發(fā)生的故障關(guān)系參數(shù)為0. 95,報警事件El導(dǎo)致報警事件E3發(fā)生的故障關(guān)系參數(shù)為0. 8,報警事件El導(dǎo)致報警事件E4發(fā)生的故障關(guān)系參數(shù)為0. 7,報警事件E2導(dǎo)致報警事件E3發(fā)生的故障關(guān)系
10參數(shù)為0. 9,報警事件E2導(dǎo)致報警事件E4發(fā)生的故障關(guān)系參數(shù)為0. 75,報警事件E3導(dǎo)致報警事件E4發(fā)生的故障關(guān)系參數(shù)為0. 8,報警事件E2、E3、E4導(dǎo)致報警事件El發(fā)生的故障關(guān)系參數(shù)為0,報警事件E3導(dǎo)致報警事件E2發(fā)生的故障關(guān)系參數(shù)為0. 1,報警事件E4導(dǎo)致報警事件E2發(fā)生的故障關(guān)系參數(shù)為0. 05,報警事件E4導(dǎo)致報警事件E3發(fā)生的故障關(guān)系參數(shù)為0.2。當(dāng)確定了每個報警事件導(dǎo)致其他報警事件發(fā)生的故障關(guān)系參數(shù)后,可以依據(jù)確定的報警事件的故障關(guān)系參數(shù)確定報警事件之間的故障關(guān)系。圖4為本發(fā)明實施例提供的根據(jù)報警事件之間的故障關(guān)系參數(shù)確定的故障關(guān)系表的示意圖,在該圖4中包含報警事件的節(jié)點之間通過對應(yīng)的路徑連接,并且針對每條路徑保存了該路徑連接的每兩個節(jié)點對應(yīng)的報警事件之間的故障關(guān)系參數(shù)。具體的數(shù)據(jù)庫服務(wù)器硬盤故障報警事件與數(shù)據(jù)故障報警事件之間存在連接路徑, 并且對應(yīng)該路徑保存的該兩個報警事件的故障關(guān)系參數(shù)為0. 95,數(shù)據(jù)庫服務(wù)器硬盤故障報警事件與web服務(wù)故障報警事件之間存在連接路徑,并且對應(yīng)該路徑保存的該兩個報警事件的故障關(guān)系參數(shù)為0. 6,數(shù)據(jù)庫故障報警事件與應(yīng)用服務(wù)器故障報警事件之間存在連接路徑,并且對應(yīng)該路徑保存的該兩個報警事件的故障關(guān)系參數(shù)為0. 9,數(shù)據(jù)庫故障報警事件與web服務(wù)故障報警事件之間存在連接路徑,并且對應(yīng)該路徑保存的該兩個報警事件的故障關(guān)系參數(shù)為0. 7,認(rèn)證服務(wù)器故障報警事件與應(yīng)用服務(wù)器故障報警事件之間存在連接路徑,并且對應(yīng)該路徑保存的該兩個報警事件的故障關(guān)系參數(shù)為0. 5,應(yīng)用服務(wù)器故障報警事件、web服務(wù)操作系統(tǒng)Out of Memory報警事件與web服務(wù)故障報警事件都存在連接路徑, 對應(yīng)每條連接路徑的故障參數(shù)分別為0. 8,0. 6。當(dāng)根據(jù)設(shè)定時間長度內(nèi)每個報警事件發(fā)生的次數(shù),以及在每個報警事件有效期內(nèi)其他報警事件發(fā)生的次數(shù),確定了該報警事件導(dǎo)致該其他報警事件發(fā)生的故障關(guān)系參數(shù)后,可以確定并生成報警事件之間故障關(guān)系。由于故障關(guān)系可以反映一段時間內(nèi)云計算系統(tǒng)中各個報警事件之間的關(guān)聯(lián)關(guān)系,但是該關(guān)聯(lián)關(guān)系可以在一定的時間內(nèi)會發(fā)生變化,為了及時有效的體現(xiàn)報警事件之間的關(guān)聯(lián)關(guān)系,可以按照一定的時間間隔,對報警事件之間的故障關(guān)系進行更新。當(dāng)生成了報警事件之間的故障關(guān)系后,就可以依據(jù)該故障關(guān)系進行故障定位了。 圖5為本發(fā)明實施例提供的基于該生成的故障關(guān)系確定故障的過程,該過程包括以下步驟S501 根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找包含該報警事件的節(jié)
點οS502:根據(jù)查找到的節(jié)點,逆向路徑查找達到該節(jié)點的每條路徑,根據(jù)每條路徑中的節(jié)點對應(yīng)的報警事件進行故障定位。在根據(jù)每條路徑中的節(jié)點對應(yīng)的其他報警事件進行故障定位時,由于在該故障關(guān)系中已經(jīng)確定了每個報警事件對應(yīng)的節(jié)點與其導(dǎo)致的該其他報警事件對應(yīng)的節(jié)點的路徑, 因此當(dāng)用戶需要對發(fā)生的某個報警事件進行故障確定時,逆向路徑查找到達該每個節(jié)點的每條路徑,就可以進行故障定位了。依據(jù)圖4當(dāng)用戶輸入的報警事件為應(yīng)用服務(wù)器故障報警事件時,查找到對應(yīng)應(yīng)用服務(wù)器故障報警事件的節(jié)點,根據(jù)查找的節(jié)點,逆向路徑查找達到該節(jié)點的路徑包括兩條,第一條路徑為認(rèn)證服務(wù)器故障報警事件對應(yīng)的路徑,第二條路徑為數(shù)據(jù)庫故障報警事件-數(shù)據(jù)庫服務(wù)器硬盤故障報警事件對應(yīng)的路徑。因此根據(jù)每條路徑的節(jié)點對應(yīng)的報警事件可以進行故障定位,也就是說導(dǎo)致應(yīng)用服務(wù)器故障報警事件發(fā)生的報警事件可能為認(rèn)證服務(wù)器故障報警事件、或數(shù)據(jù)庫故障報警事件,或數(shù)據(jù)庫服務(wù)器硬盤故障報警事件。并且在本發(fā)明實施例中當(dāng)用戶數(shù)輸入了報警事件后,還可以根據(jù)生成的故障關(guān)系確定該報警事件的擴散范圍,具體在確定該報警事件的擴散范圍包括根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)點;根據(jù)查找到的節(jié)點,順次查找以該節(jié)點為起點的每條路徑,根據(jù)每條路徑上的其他節(jié)點對應(yīng)的其他報警事件,確定該報警事件的擴散范圍。還以用戶輸入的報警事件為應(yīng)用服務(wù)器故障報警事件為例,在確定該報警事件的擴散范圍時,順次查找以該應(yīng)用服務(wù)器故障報警事件對應(yīng)的節(jié)點為起點的路徑包括一條, 這條路徑為到達web服務(wù)故障報警事件的路徑,因此可知當(dāng)應(yīng)用服務(wù)器故障報警事件擴散的范圍內(nèi)包括web服務(wù)故障報警事件,即當(dāng)應(yīng)用服務(wù)器故障報警事件發(fā)生時,其可能導(dǎo)致 web服務(wù)故障報警事件的發(fā)生。具體的由于報警事件之間的關(guān)聯(lián)可以通過故障關(guān)系參數(shù)體現(xiàn),當(dāng)報警事件之間的故障關(guān)系參數(shù)比較大時,說明該兩個報警事件之間的關(guān)聯(lián)性比較大。因此在進行故障定位時,如果為了提高定位的速度,用戶可以輸入截止頻率信息,可以根據(jù)用戶輸入的截止頻率,將導(dǎo)致用戶輸入的報警事件關(guān)聯(lián)性較大的報警事件提供給用戶。當(dāng)用戶輸入查找截止頻率時,逆向路徑查找到達該節(jié)點的每條路徑,根據(jù)每條路徑中的節(jié)點包含的其他報警事件進行故障定位包括逆向路徑查找與該節(jié)點連接的每個第一節(jié)點,針對每個第一節(jié)點,判斷該節(jié)點與該第一直接之間的故障關(guān)系參數(shù)是否不小于所述截止頻率;當(dāng)該故障關(guān)系參數(shù)小于截止頻率時,確定該路徑中包含的節(jié)點對應(yīng)的其他報警事件不會導(dǎo)致該報警事件的發(fā)生;當(dāng)該故障關(guān)系參數(shù)不小于截止頻率時,逆向查找與該第一節(jié)點連接的每個第二節(jié)點,并針對每個第二節(jié)點,判斷該逆向路徑中該節(jié)點與第一節(jié)點對應(yīng)的故障關(guān)系參數(shù),與第一節(jié)點與第二節(jié)點對應(yīng)的故障關(guān)系參數(shù)的積是否不小于所述截止頻率,當(dāng)該積小于截止頻率時,則確定第一節(jié)點對應(yīng)的其他報警事件的發(fā)生導(dǎo)致該報警事件的發(fā)生,當(dāng)該積不小于截止頻率時,保存該積,將該第二節(jié)點作為第一節(jié)點,逆向查找到的與該第二節(jié)點連接的第三節(jié)點作為第二節(jié)點,將該積作為該節(jié)點與該第一節(jié)點之間的故障參數(shù),直到確定每個導(dǎo)致該報警事件發(fā)生的其他報警事件。圖6為本發(fā)明實施例提供的基于該生成的故障關(guān)系表進行故障確定的具體過程, 該過程包括以下步驟S601 根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該報警事件的節(jié)
點οS602:根據(jù)查找到的節(jié)點,逆向路徑查找到達該節(jié)點的每條路徑。S603:根據(jù)用戶輸入的查找截止頻率,針對每條路徑,逆向路徑查找與該用戶輸入的報警事件對應(yīng)的節(jié)點連接的第一節(jié)點,判斷該第一節(jié)點與該節(jié)點之間的故障參數(shù)是否不小于所述截止頻率,當(dāng)判斷結(jié)果為是時,進行步驟S604,否則,進行步驟S607。
S604:逆向查找與該第一節(jié)點連接的第二節(jié)點,判斷該節(jié)點與第一節(jié)點之間的故障參數(shù),以及第一節(jié)點與第二節(jié)點之間的故障參數(shù)的積是否不小于所述截止頻率,當(dāng)判斷結(jié)果為是時,進行步驟S605,否則,進行步驟S606。S605:保存當(dāng)前的積,將該第二節(jié)點作為第一節(jié)點,逆向查找到的與該第二節(jié)點連接的第三節(jié)點作為第二節(jié)點,將該積作為該節(jié)點與該第一節(jié)點之間的故障關(guān)系參數(shù),進行步驟S604。S606:根據(jù)該故障關(guān)系參數(shù)的積不小于截止頻率的每條路徑中的節(jié)點包含的其他報警事件進行故障定位。S607:該條路徑中包含的節(jié)點對應(yīng)的報警事件不會導(dǎo)致該用戶輸入的報警事件的發(fā)生。例如當(dāng)用戶輸入的報警事件為web服務(wù)故障報警事件時,當(dāng)逆向查找到達該web 服務(wù)故障報警事件對應(yīng)的節(jié)點的每條路徑時,查找到到五條路徑,其中(為了方便這段描述,用報警事件代替報警事件對應(yīng)的節(jié)點)第一條路徑為數(shù)據(jù)庫服務(wù)器硬盤故障報警事件-web服務(wù)故障報警事件的路徑,第二條路徑為web服務(wù)器操作系統(tǒng)out of Memory報警事件ieb服務(wù)故障報警事件的路徑,第三條路徑為數(shù)據(jù)庫故障報警事件ieb服務(wù)故障報警事件的路徑,第四條路徑為數(shù)據(jù)庫服務(wù)器硬盤故障報警事件-數(shù)據(jù)庫故障報警事件-應(yīng)用服務(wù)器故障報警事件ieb服務(wù)故障報警事件的路徑,第五條路徑為認(rèn)證服務(wù)器故障報警時事件-應(yīng)用服務(wù)器故障報警事件ieb服務(wù)故障報警事件。此時當(dāng)用戶輸入的截止頻率為0. 7時,對于第一條路徑和第二條路徑,由于數(shù)據(jù)庫服務(wù)器硬盤故障報警事件、web服務(wù)器操作系統(tǒng)out of Memory報警事件與web服務(wù)故障報警事件之間的故障關(guān)系參數(shù)都為0. 6小于0. 7,因此該兩條路徑中包含的節(jié)點對應(yīng)的報警事件不會導(dǎo)致該用戶輸入的報警事件的發(fā)生。對于第三條路徑由于數(shù)據(jù)庫故障報警事件與web服務(wù)故障報警事件之間的故障關(guān)系參數(shù)都為0. 7,因此可知該數(shù)據(jù)庫故障報警事件將會導(dǎo)致該web服務(wù)故障報警事件的發(fā)生。對于第四條路徑,由于第一節(jié)點對應(yīng)的應(yīng)用服務(wù)器故障報警事件與該節(jié)點對應(yīng)的 web服務(wù)故障報警事件之間的故障關(guān)系參數(shù)為0. 8大于0. 7,因此繼續(xù)逆向路徑查詢第二節(jié)點數(shù)據(jù)庫故障報警事件,由于第二節(jié)點對應(yīng)的數(shù)據(jù)庫故障報警事件與第一節(jié)點對應(yīng)的應(yīng)用服務(wù)器故障報警事件之間的故障關(guān)系參數(shù)為0. 9,第一節(jié)點對應(yīng)的應(yīng)用服務(wù)器故障報警事件與該節(jié)點對應(yīng)的web服務(wù)故障報警事件之間的故障關(guān)系參數(shù)為0. 8,兩者的積為0. 72 大于0. 7,因此繼續(xù)逆向路徑查詢第三節(jié)點數(shù)據(jù)庫服務(wù)器硬盤故障報警事件,由于數(shù)據(jù)庫服務(wù)器硬盤故障報警事件與數(shù)據(jù)庫故障報警事件之間的故障關(guān)系參數(shù)為0. 95,保存的該積為 0. 72,因此此時確定的0. 95與0. 72的積為0. 68小于0. 7,因此該路徑上數(shù)據(jù)庫故障報警事件、應(yīng)用服務(wù)器報警事件將會導(dǎo)致web服務(wù)故障報警事件的發(fā)生。對于第五條路徑,由于第一節(jié)點對應(yīng)的應(yīng)用服務(wù)器故障報警事件與該節(jié)點對應(yīng)的 web服務(wù)故障報警事件之間的故障關(guān)系參數(shù)為0. 8大于0. 7,因此繼續(xù)逆向路徑查詢第二節(jié)點認(rèn)證服務(wù)器故障報警事件,由于第二節(jié)點對應(yīng)的認(rèn)證服務(wù)器故障報警事件與第一節(jié)點對應(yīng)的應(yīng)用服務(wù)器故障報警事件之間的故障關(guān)系參數(shù)為0. 5,第一節(jié)點對應(yīng)的應(yīng)用服務(wù)器故障報警事件與該節(jié)點對應(yīng)的web服務(wù)故障報警事件之間的故障關(guān)系參數(shù)為0. 8,兩者的積為0. 4小于0. 7,因此該路徑上導(dǎo)致web服務(wù)故障報警事件發(fā)生的為應(yīng)用服務(wù)器故障報警事件。根據(jù)上述查找判斷的結(jié)果可知當(dāng)對web服務(wù)故障報警事件進行故障確定時,可以確定數(shù)據(jù)庫故障報警事件、應(yīng)用服務(wù)器故障報警事件將會導(dǎo)致web服務(wù)故障報警事件的發(fā)生。同樣的在根據(jù)某一報警事件,查找該報警事件的擴散范圍時,其方法與上述方法類似,只是依據(jù)路徑的方法順次查找,在這里就不在一一贅述。圖7為本發(fā)明實施例提供的一種故障關(guān)系生成裝置的結(jié)構(gòu)示意圖,該裝置包括第一確定模塊71,用于根據(jù)報警事件發(fā)生的時間,該報警事件中攜帶的故障類型信息,以及保存的故障類型信息與時間范圍信息的對應(yīng)關(guān)系,確定該報警事件對應(yīng)的故障的有效期信息,并根據(jù)確定的有效期信息,確定發(fā)生時間在該有效期內(nèi)的其他報警事件;生成模塊72,用于將每個報警事件作為故障關(guān)系中的節(jié)點,分別連接該報警事件對應(yīng)的節(jié)點到確定的其他報警事件對應(yīng)的節(jié)點的路徑。所述裝置還包括第二確定模塊73,用于統(tǒng)計設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù),并統(tǒng)計確定的其他報警事件分別在每個有效期內(nèi)出現(xiàn)次數(shù)的和,根據(jù)統(tǒng)計的該設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù),以及確定的其他報警事件分別在每個有效期內(nèi)出現(xiàn)次數(shù)的和,確定該報警事件發(fā)生導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù),基于確定的該報警事件導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù),根據(jù)每條路徑連接的每兩個節(jié)點對應(yīng)的報警事件,對應(yīng)該路徑保存該兩個報警事件之間的故障關(guān)系參數(shù)。所述第二確定模塊73具體用于,確定該其他報警事件在每個有效期內(nèi)出現(xiàn)次數(shù)的和,與所述設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù)的商,將該商值作為該報警事件發(fā)生導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù)。圖8為本發(fā)明實施例提供的基于圖7所述的生成裝置的故障確定裝置的結(jié)構(gòu)示意圖,其特征在于,所述裝置包括第一查找模塊81,用于根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)點;第一確定模塊82,用于根據(jù)查找到的節(jié)點,逆向路徑查找到達該節(jié)點的每條路徑, 根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件進行故障定位。所述第一確定模塊82具體用于,當(dāng)用戶輸入查找截止頻率時,逆向路徑查找與該節(jié)點連接的每個第一節(jié)點,針對每個第一節(jié)點,判斷該節(jié)點與該第一節(jié)點之間的故障關(guān)系參數(shù)是否不小于所述截止頻率,當(dāng)該故障關(guān)系參數(shù)小于截止頻率時,確定該路徑中包含的節(jié)點對應(yīng)的其他報警事件不會導(dǎo)致該報警事件的發(fā)生,當(dāng)該故障關(guān)系參數(shù)不小于截止頻率時,逆向查找與該第一節(jié)點連接的每個第二節(jié)點,并針對每個第二節(jié)點,判斷該逆向路徑中該節(jié)點與第一節(jié)點對應(yīng)的故障關(guān)系參數(shù),與第一節(jié)點與第二節(jié)點對應(yīng)的故障關(guān)系參數(shù)的積是否不小于所述截止頻率,當(dāng)該積小于截止頻率時,則確定第一節(jié)點對應(yīng)的其他報警事件的發(fā)生導(dǎo)致該報警事件的發(fā)生,當(dāng)該積不小于截止頻率時,保存該積,將該第二節(jié)點作為第一節(jié)點,逆向查找到的與該第二節(jié)點連接的第三節(jié)點作為第二節(jié)點,將該積作為該節(jié)點與該第一節(jié)點之間的故障參數(shù),直到確定每個導(dǎo)致該報警事件發(fā)生的其他報警事件。圖9為本發(fā)明實施例提供的基于圖7所述的生成裝置確定報警事件的擴散范圍的裝置的結(jié)構(gòu)示意圖,該裝置包括第二查找模塊91,用于根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)點;第二確定模塊92,用于根據(jù)查找到的節(jié)點,順次查找以該節(jié)點為起點的每條路徑, 根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件,確定該報警事件的擴散范圍。本發(fā)明實施例提供了一種故障關(guān)系生成及故障確定方法及裝置,該故障關(guān)系生成方法中根據(jù)報警事件發(fā)生的時間,該報警事件中記錄的故障類型信息,以及保存的對應(yīng)該故障類型的時間范圍信息,確定該報警事件對應(yīng)故障的有效期信息,并確定發(fā)生時間處于該有效期內(nèi)的其他報警事件,將每個報警事件作為故障關(guān)系中的節(jié)點,連接該報警事件對應(yīng)的節(jié)點到確定的該其他報警事件對應(yīng)的節(jié)點的路徑從而生成故障關(guān)系。由于在本發(fā)明實施例中根據(jù)在報警事件的有效期內(nèi)發(fā)生的其他報警事件,從而確定報警事件與其他報警事件之間的關(guān)系,因此在進行故障定位時可以根據(jù)生成的故障關(guān)系進行故障定位,從而為復(fù)雜的系統(tǒng)提供了一種有效,準(zhǔn)確的故障定位方法。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種故障關(guān)系生成方法,其特征在于,針對每個報警事件執(zhí)行以下步驟根據(jù)該報警事件發(fā)生的時間,該報警事件中攜帶的故障類型信息,以及保存的故障類型信息與時間范圍信息的對應(yīng)關(guān)系,確定該報警事件對應(yīng)的故障的有效期信息;并根據(jù)確定的有效期信息,確定發(fā)生時間處于該有效期內(nèi)的其他報警事件; 將每個報警事件作為故障關(guān)系中的節(jié)點,分別連接該報警事件對應(yīng)的節(jié)點到確定的其他報警事件對應(yīng)的節(jié)點的路徑。
2.如權(quán)利要求1所述的方法,其特征在于,所述報警事件中還包括故障發(fā)生的主機的 IP地址信息和/或該主機發(fā)生故障的對象。
3.如權(quán)利要求1所述的方法,其特征在于,分別連接該報警事件對應(yīng)的節(jié)點到確定的其他報警事件對應(yīng)的節(jié)點的路徑之前,還包括統(tǒng)計設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù);并統(tǒng)計確定的其他報警事件分別在每個有效期內(nèi)出現(xiàn)次數(shù)的和; 根據(jù)統(tǒng)計的該設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù),以及確定的其他報警事件分別在每個有效期內(nèi)出現(xiàn)次數(shù)的和,確定該報警事件導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù);基于確定的該報警事件導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù),根據(jù)每條路徑連接的每兩個節(jié)點對應(yīng)的報警事件,對應(yīng)該路徑保存該兩個報警事件之間的故障關(guān)系參數(shù)。
4.如權(quán)利要求3所述的方法,其特征在于,確定該報警事件導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù),具體包括確定統(tǒng)計得到的其他報警事件分別在每個有效期內(nèi)出現(xiàn)次數(shù)的和,與設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù)的商,并將該商值作為該報警事件導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù)。
5.一種基于權(quán)利要求1生成的故障關(guān)系進行故障確定的方法,其特征在于,所述方法包括根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)點; 根據(jù)查找到的節(jié)點,逆向路徑查找到達該節(jié)點的每條路徑,根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件進行故障定位。
6.如權(quán)利要求5所述的方法,其特征在于,當(dāng)用戶輸入查找截止頻率時,逆向路徑查找到達該節(jié)點的每條路徑,根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件進行故障定位包括逆向路徑查找與該節(jié)點連接的每個第一節(jié)點,針對每個第一節(jié)點,判斷該節(jié)點與該第一節(jié)點之間的故障關(guān)系參數(shù)是否不小于所述截止頻率;當(dāng)該故障關(guān)系參數(shù)小于截止頻率時,確定該路徑中包含的節(jié)點對應(yīng)的其他報警事件不會導(dǎo)致該報警事件的發(fā)生;當(dāng)該故障關(guān)系參數(shù)不小于截止頻率時,逆向查找與該第一節(jié)點連接的每個第二節(jié)點, 并針對每個第二節(jié)點,判斷該逆向路徑中該節(jié)點與第一節(jié)點對應(yīng)的故障關(guān)系參數(shù),與第一節(jié)點與第二節(jié)點對應(yīng)的故障關(guān)系參數(shù)的積是否不小于所述截止頻率,當(dāng)該積小于截止頻率時,則確定第一節(jié)點對應(yīng)的其他報警事件的發(fā)生導(dǎo)致該報警事件的發(fā)生,當(dāng)該積不小于截止頻率時,保存該積,將該第二節(jié)點作為第一節(jié)點,逆向查找到的與該第二節(jié)點連接的第三節(jié)點作為第二節(jié)點,將該積作為該節(jié)點與該第一節(jié)點之間的故障參數(shù),直到確定每個導(dǎo)致該報警事件發(fā)生的其他報警事件。
7.一種基于權(quán)利要求1生成的故障關(guān)系確定報警事件的擴散范圍的方法,其特征在于,所述方法包括根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)點;根據(jù)查找到的節(jié)點,順次查找以該節(jié)點為起點的每條路徑,根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件,確定該報警事件的擴散范圍。
8.一種故障關(guān)系生成裝置,其特征在于,所述裝置包括第一確定模塊,用于根據(jù)報警事件發(fā)生的時間,該報警事件中攜帶的故障類型信息,以及保存的故障類型信息與時間范圍信息的對應(yīng)關(guān)系,確定該報警事件對應(yīng)的故障的有效期信息,并根據(jù)確定的有效期信息,確定發(fā)生時間在該有效期內(nèi)的其他報警事件;生成模塊,用于將每個報警事件作為故障關(guān)系中的節(jié)點,分別連接該報警事件對應(yīng)的節(jié)點到確定的其他報警事件對應(yīng)的節(jié)點的路徑。
9.如權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括第二確定模塊,用于統(tǒng)計設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù),并統(tǒng)計確定的其他報警事件分別在每個有效期內(nèi)出現(xiàn)次數(shù)的和,根據(jù)統(tǒng)計的該設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù),以及確定的其他報警事件分別在每個有效期內(nèi)出現(xiàn)次數(shù)的和,確定該報警事件發(fā)生導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù),基于確定的該報警事件導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù),根據(jù)每條路徑連接的每兩個節(jié)點對應(yīng)的報警事件,對應(yīng)該路徑保存該兩個報警事件之間的故障關(guān)系參數(shù)。
10.如權(quán)利要求9所述的裝置,其特征在于,所述第二確定模塊具體用于,確定該其他報警事件在每個有效期內(nèi)出現(xiàn)次數(shù)的和,與所述設(shè)定時間長度內(nèi)該報警事件發(fā)生的次數(shù)的商,將該商值作為該報警事件發(fā)生導(dǎo)致確定的其他報警事件發(fā)生的故障關(guān)系參數(shù)。
11.一種基于權(quán)利要求8所述的生成裝置的故障確定裝置,其特征在于,所述裝置包括第一查找模塊,用于根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)點;第一確定模塊,用于根據(jù)查找到的節(jié)點,逆向路徑查找到達該節(jié)點的每條路徑,根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件進行故障定位。
12.如權(quán)利要求11所述的裝置,其特征在于,所述第一確定模塊具體用于,當(dāng)用戶輸入查找截止頻率時,逆向路徑查找與該節(jié)點連接的每個第一節(jié)點,針對每個第一節(jié)點,判斷該節(jié)點與該第一節(jié)點之間的故障關(guān)系參數(shù)是否不小于所述截止頻率,當(dāng)該故障關(guān)系參數(shù)小于截止頻率時,確定該路徑中包含的節(jié)點對應(yīng)的其他報警事件不會導(dǎo)致該報警事件的發(fā)生, 當(dāng)該故障關(guān)系參數(shù)不小于截止頻率時,逆向查找與該第一節(jié)點連接的每個第二節(jié)點,并針對每個第二節(jié)點,判斷該逆向路徑中該節(jié)點與第一節(jié)點對應(yīng)的故障關(guān)系參數(shù),與第一節(jié)點與第二節(jié)點對應(yīng)的故障關(guān)系參數(shù)的積是否不小于所述截止頻率,當(dāng)該積小于截止頻率時, 則確定第一節(jié)點對應(yīng)的其他報警事件的發(fā)生導(dǎo)致該報警事件的發(fā)生,當(dāng)該積不小于截止頻率時,保存該積,將該第二節(jié)點作為第一節(jié)點,逆向查找到的與該第二節(jié)點連接的第三節(jié)點作為第二節(jié)點,將該積作為該節(jié)點與該第一節(jié)點之間的故障參數(shù),直到確定每個導(dǎo)致該報警事件發(fā)生的其他報警事件。
13. 一種基于權(quán)利要求8所述的生成裝置的確定報警事件的擴散范圍的裝置,其特征在于,所述裝置包括第二查找模塊,用于根據(jù)用戶輸入的報警事件,在生成的故障關(guān)系中查找對應(yīng)該輸入的報警事件的節(jié)點;第二確定模塊,用于根據(jù)查找到的節(jié)點,順次查找以該節(jié)點為起點的每條路徑,根據(jù)每條路徑上的節(jié)點對應(yīng)的報警事件,確定該報警事件的擴散范圍。
全文摘要
本發(fā)明公開了一種故障關(guān)系生成及故障確定方法及裝置,用以解決系統(tǒng)結(jié)構(gòu)復(fù)雜,無法進行故障定位的問題。該方法根據(jù)報警事件發(fā)生的時間,確定該報警事件對應(yīng)故障的每個有效期信息,并確定在每個有效期內(nèi)發(fā)生的其他報警事件,將每個報警事件作為故障關(guān)系中的節(jié)點,連接該報警事件對應(yīng)的節(jié)點到其導(dǎo)致的該確定的其他報警時間對應(yīng)的節(jié)點的路徑從而生成故障關(guān)系。由于在本發(fā)明實施例中根據(jù)在報警事件的有效期內(nèi)發(fā)生的其他報警事件,從而確定報警事件與其他報警事件之間的關(guān)系,因此在進行故障定位時可以根據(jù)生成的故障關(guān)系進行故障定位,從而為復(fù)雜的系統(tǒng)提供了一種有效,準(zhǔn)確的故障定位方法。
文檔編號H04L12/24GK102546205SQ20101059757
公開日2012年7月4日 申請日期2010年12月20日 優(yōu)先權(quán)日2010年12月20日
發(fā)明者周偉, 孫少陵, 張志宏, 羅治國, 趙鵬 申請人:中國移動通信集團公司