專利名稱:管理事故池以進行事件和警報分析的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及數(shù)據(jù)處理,更具體地說,涉及在分布式處理系統(tǒng)中與事件和警報抑制有關的相關警報傳送以及管理事故池以進行事件和警報分析的方法、系統(tǒng)和產(chǎn)品。
背景技術:
1948年EDVAC計算機系統(tǒng)的開發(fā)通常被認為是計算機時代的開始。從此之后,計算機系統(tǒng)逐漸演變?yōu)榉浅碗s的設備。今天的計算機比諸如EDVAC之類的早期系統(tǒng)要復雜的多。計算機系統(tǒng)一般由硬件組件及軟件組件、應用程序、操作系統(tǒng)、處理器、總線、存儲器、 輸入/輸出設備等組合而成。由于半導體工藝和計算機體系結構的發(fā)展促使計算機的性能不斷提高,因此開發(fā)了更復雜的計算機軟件以充分利用更高的硬件系統(tǒng)性能,從而使得今天的計算機系統(tǒng)比僅僅幾年前的系統(tǒng)功能強大得多。執(zhí)行密集計算的現(xiàn)代分布式處理系統(tǒng)可具有數(shù)百萬的設備,每個設備上有許多進程在運行,所有這些進程都能報告錯誤和狀態(tài)以自動恢復錯誤、向系統(tǒng)管理員報告以及執(zhí)行其他任務。在許多情況下,例如當出現(xiàn)錯誤時,此類錯誤報告和狀態(tài)報告的絕對數(shù)量如此之大,以致于無法通過有意義的方式來處理。例如,收到幾十萬個錯誤報告的系統(tǒng)管理員會被這么多的報告弄得不知所措,因此總地來說,這些報告變得越來越無用和無關。
發(fā)明內(nèi)容
提供了在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析的方法、系統(tǒng)和計算機程序產(chǎn)品,包括由事故分析器從事故隊列接收來自所述分布式處理系統(tǒng)的一個或多個組件的多個事故;由所述事故分析器創(chuàng)建事故池,所述池具有預定初始時段;由所述事故分析器將每個接收的事故分配到所述池;由所述事故分析器向每個事故分配包含在池中的預定最短時間;對于所述事故中的一個或多個事故,由所述事故分析器將所述池的所述預定初始時段延長被分配給所述事故的特定時段;由所述事故分析器判定是否滿足關閉所述池的條件;以及如果滿足關閉所述池的條件,則針對所述池中的每個事故判定該事故是否已在所述池中達到該事故的包含在池中的預定最短時間;以及如果該事故已在所述池中達到該事故的預定最短時間,則將該事故包括在關閉后的池中;以及如果該事故未在所述池中達到該事故的預定最短時間,則從關閉后的池驅逐該事故并將該事故包括在下一池中。通過下面對附圖中所示的本發(fā)明的示例性實施例的更具體的描述,本發(fā)明的上述和其他目標、特征和優(yōu)點將是顯而易見的,在附圖中,相同的標號通常表示本發(fā)明的示例性實施例的相同部分。
圖I示出根據(jù)本發(fā)明的實施例的在分布式處理系統(tǒng)中通過事件和警報抑制實現(xiàn)相關警報傳送的示例性系統(tǒng);
圖2示出包括在根據(jù)本發(fā)明的實施例通過事件和警報抑制實現(xiàn)相關警報傳送中使用的示例性計算機的自動計算機器的方塊圖;圖3示出根據(jù)本發(fā)明的實施例的在分布式處理系統(tǒng)中通過事件和警報抑制實現(xiàn)相關警報傳送的示例性系統(tǒng)的方塊圖;圖4是示出根據(jù)本發(fā)明的實施例的將事件分配到事件池的示意圖;圖5是示出根據(jù)本發(fā)明的實施例的將警報分配到警報池的示意圖;圖6是示出根據(jù)本發(fā)明的實施例的通過事件和警報抑制實現(xiàn)相關警報傳送的實例方法的流程圖;圖7是示出根據(jù)本發(fā)明的實施例的在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析的示例性方法的流程圖;圖8是示出根據(jù)本發(fā)明的實施例的在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析的附加方法的流程圖;以及圖9是示出根據(jù)本發(fā)明的實施例的在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析的附加方法的流程圖。
具體實施例方式參考從圖I開始的附圖描述了根據(jù)本發(fā)明的實施例在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析以及相關警報傳送的示例性方法、系統(tǒng)和計算機程序產(chǎn)品。圖 I示出根據(jù)本發(fā)明的實施例的在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析以及相關警報傳送的示例性系統(tǒng)。分布式處理系統(tǒng)通常實現(xiàn)為多個通過計算機網(wǎng)絡通信的自主或半自主計算機。在此類實例分布式處理系統(tǒng)中,計算機經(jīng)常彼此交互以便實現(xiàn)共同的目標。此類實例分布式系統(tǒng)中運行的計算機程序一般被稱為分布式程序,經(jīng)常使用分布式編程來描述編寫此類程序的過程。在圖I的實例中,分布式處理系統(tǒng)(101)實現(xiàn)為并行計算機(100),所述計算機的非易失性存儲器采取數(shù)據(jù)存儲設備(118)的形式,所述計算機的輸出設備采取打印機
(120)的形式,以及所述計算機的輸入/輸出設備采取計算機終端(122)的形式。圖I的實例中的并行計算機(100)還包括多個計算節(jié)點(102)。每個計算節(jié)點是包括一個或多個計算機處理器、其自己的計算機存儲器以及其自己的輸入/輸出功能的自動計算設備。各計算節(jié)點(102)被耦合以通過包括高速以太網(wǎng)絡(174)、聯(lián)合測試行動小組(‘JTAG’ )網(wǎng)絡(104)、針對集合操作優(yōu)化的樹狀網(wǎng)絡(106)以及針對點對點操作優(yōu)化的環(huán)狀網(wǎng)絡(108) 的若干獨立數(shù)據(jù)通信網(wǎng)絡進行數(shù)據(jù)通信。樹狀網(wǎng)絡(106)是包括與計算節(jié)點相連以將所述計算節(jié)點組織為樹的數(shù)據(jù)通信鏈路的數(shù)據(jù)通信網(wǎng)絡。每個數(shù)據(jù)通信網(wǎng)絡都通過計算節(jié)點
(102)之間的數(shù)據(jù)通信鏈路來實現(xiàn)。數(shù)據(jù)通信鏈路為并行計算機的計算節(jié)點之間的并行操作提供數(shù)據(jù)通信。除了計算節(jié)點以外,計算機(100)還包括通過數(shù)據(jù)通信網(wǎng)絡(174)之一與計算節(jié)點(102)相連的輸入/輸出(‘I/O’)節(jié)點(110、114)。I/O節(jié)點(110、114)在計算節(jié)點(102)與I/O設備(118、120、122)之間提供I/O服務。I/O節(jié)點(110、114)被連接以通過局域網(wǎng)(‘LAN’)(130)進行數(shù)據(jù)通信。計算機(100)還包括通過網(wǎng)絡(104)之一與計算節(jié)點耦合的服務節(jié)點(116)。服務節(jié)點(116)提供對多個計算節(jié)點通用的服務、將程序載入計算節(jié)點、在計算節(jié)點上啟動程序執(zhí)行、在計算節(jié)點上檢索程序操作的結果等。服務節(jié)點(116)運行服務應用(124)并通過在計算機終端(122)上運行的服務應用接口(126)與用戶(128)通信。圖I的分布式處理系統(tǒng)的許多組件(即,圖I的分布式處理系統(tǒng)的設備或在分布式處理系統(tǒng)的設備上運行的進程)能夠通過事件執(zhí)行某種形式的錯誤或狀態(tài)報告并且許多此類組件還能夠響應于一個或多個此類事件而接收警報。通常在根據(jù)本發(fā)明的實施例使用的分布式處理系統(tǒng)中,數(shù)十萬或數(shù)百萬的組件通??梢砸允录男问教峁┦鹿驶蚪邮站瘓?。本說明書中使用的通用術語“事故”指分布式處理系統(tǒng)的某個組件的諸如下面描述的事件之類的特定事件的識別或通知,事件的精細識別經(jīng)?;谥T如下面描述的警報之類的事件,或者本領域的技術人員將想到的其他通知。根據(jù)本發(fā)明的各實施例,在池中管理事故以便進行事件和警報分析。事故池是按事故發(fā)生的時間、事故被記錄在事故隊列中的時間、包括在池中的時間,或本領域的技術人員將想到的其他時間來組織的事故集合。圖I的服務節(jié)點(116)上安裝有事件和警報分析模塊(124),模塊(124)包括至少兩個事故分析器,所述事故分析器實現(xiàn)為能夠根據(jù)本發(fā)明的實施例在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析的事件分析器和警報分析器。事件和警報分析模塊(124) 實現(xiàn)為能夠執(zhí)行以下操作的自動計算機器接收來自分布式處理系統(tǒng)的一個或多個組件的多個事故;創(chuàng)建事故池,所述池具有預定初始時段;將每個接收的事故分配到池;向每個事故分配包含在池中的預定最短時間;對于所述事故中的一個或多個事故,將所述池的所述預定初始時段延長被分配給所述事故的特定時段;判定是否滿足關閉所述池的條件;以及如果滿足關閉所述池的條件,則針對所述池中的每個事故判定該事故是否已在所述池中達到該事故的包含在池中的預定最短時間;以及如果該事故已在所述池中達到該事故的預定最短時間,則將該事故包括在關閉后的池中;以及如果該事故未在所述池中達到該事故的預定最短時間,則從關閉后的池驅逐該事故并將該事故包括在下一池中。事件和警報分析模塊(124)還能夠根據(jù)本發(fā)明的實施例在分布式處理系統(tǒng)中通過事件和警報抑制實現(xiàn)相關警報傳送。圖I的事件和警報分析模塊(124)實現(xiàn)為能夠執(zhí)行以下操作的自動計算機器在事件隊列中接收來自分布式處理系統(tǒng)的一個或多個組件的多個事件;由事件分析器將每個接收的事件分配到事件池;其中所述事件分析器包括事件分析規(guī)則,所述事件分析規(guī)則包括事件到達規(guī)則、事件池操作規(guī)則、事件抑制規(guī)則以及事件池關閉規(guī)則;由所述事件分析器根據(jù)所述事件到達規(guī)則和分配到所述事件池的事件識別一個或多個警報;由所述事件分析器根據(jù)所述事件池操作規(guī)則關閉所述事件池;由所述事件分析器根據(jù)所述事件抑制規(guī)則判定是否抑制關閉后的事件池中的一個或多個事件;以及由所述事件分析器根據(jù)所述事件池關閉規(guī)則和分配到所述事件池的任何未抑制事件識別一個或多個其他警報;由所述事件分析器將所述事件分析器所識別的所有警報發(fā)送給警報分析器;由所述警報分析器將所識別的警報分配到警報池;由所述警報分析器根據(jù)警報分析規(guī)則和所述警報池中的警報判定是否抑制任何警報;以及將未抑制的警報傳輸?shù)剿龇植际教幚硐到y(tǒng)的一個或多個組件。在某些實施例中,將未抑制的警報傳輸?shù)椒植际教幚硐到y(tǒng)的一個或多個組件。一個此類組件可以是向系統(tǒng)管理員進行顯示的終端(122)。其他組件可以包括生成事件的組件、用于錯誤報告的組件、用于自動錯誤恢復的組件或本領域的技術人員將想到的任何其他組件。圖I的事件和警報模塊(124)使得諸如在任何時刻接收的事件和產(chǎn)生的警報之類的事故數(shù)不會給嘗試識別分布式處理系統(tǒng)中的問題或事件的系統(tǒng)管理員(128)帶來太大困擾。根據(jù)本發(fā)明的實施例管理事故池以進行事件和警報分析以及通過事件和警報抑制實現(xiàn)相關警報傳送提供了用戶在確定如何管理與分布式處理系統(tǒng)關聯(lián)的功能和錯誤中更有意義的警報。圖I中所示的構成示例性分布式處理系統(tǒng)的節(jié)點、網(wǎng)絡和I/O設備的布置僅用于說明,并非對本發(fā)明進行限制。能夠根據(jù)本發(fā)明的實施例管理事故池以進行事件和警報分析以及實現(xiàn)相關警報傳送的分布式數(shù)據(jù)處理系統(tǒng)可以包括圖I中未示出的本領域技術人員將想到的其他節(jié)點、網(wǎng)絡、設備和體系結構。圖I的實例中的并行計算機(100)包括十六個計算節(jié)點(102);能夠根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送的并行計算機有時包括數(shù)以千計的計算節(jié)點。除了以太網(wǎng)和JTAG之外,此類數(shù)據(jù)處理系統(tǒng)中的網(wǎng)絡還可支持許多數(shù)據(jù)通信協(xié)議,包括例如TCP(傳輸控制協(xié)議)、IP(網(wǎng)際協(xié)議)以及本領域的技術人員將想到的其他協(xié)議。除圖I中示出的那些平臺以外,本發(fā)明的各種實施例還可以在多種硬件平臺上實現(xiàn)。根據(jù)本發(fā)明管理事故池以進行事件和警報分析以及通過事件和警報抑制實現(xiàn)相關警報傳送一般使用計算機實現(xiàn),也就是說,使用自動計算機器實現(xiàn)。在圖I的系統(tǒng)中,例如,并行計算機的所有服務節(jié)點、I/o節(jié)點、計算節(jié)點在某種程度上至少實現(xiàn)為計算機。因此,為了進一步說明,圖2示出包括在根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送中使用的示例性計算機(152)的自動計算機器的方塊圖。圖2的計算機(152)包括至少一個計算機處理器(156)或‘CPU’以及隨機存取存儲器(168) ( ‘RAM’),隨機存取存儲器(168)通過高速存儲總線(166)和總線適配器(158)與處理器(156)和計算機(152)的其他組件相連, 以及通過擴展總線與適配器相連以便與分布式處理系統(tǒng)(101)的其他組件通信。RAM(168)中存儲有事件和警報分析模塊(124),模塊(124)是根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送的自動計算機器的模塊。事件和警報分析模塊(124)包括兩個根據(jù)本發(fā)明的實施例的事故分析器。所述事故分析器包括事件分析器(208)和警報分析器(218)。 事件分析器(208)和警報分析器均能夠根據(jù)本發(fā)明的實施例在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析。所述事件分析器根據(jù)本發(fā)明的實施例管理事件池,其方式為由所述事件分析器從事件隊列接收來自所述分布式處理系統(tǒng)的一個或多個組件的多個事件;由所述事件分析器創(chuàng)建事件池,所述池具有預定初始時段;由所述事件分析器將每個接收的事件分配到所述池;由所述事件分析器向每個事件分配包含在池中的預定最短時間;對于所述事件中的一個或多個事件,由所述事件分析器將所述池的所述預定初始時段延長被分配給所述事件的特定時段;由所述事件分析器判定是否滿足關閉所述池的條件; 以及如果滿足關閉所述池的條件,則針對所述池中的每個事件判定該事件是否已在所述池中達到該事件的包含在池中的預定最短時間;以及如果該事件已在所述池中達到該事件的預定最短時間,則將該事件包括在關閉后的池中;以及如果該事件未在所述池中達到該事件的預定最短時間,則從所述關閉后的池驅逐該事件并將該事件包括在下一池中。所述警報分析器根據(jù)本發(fā)明的實施例管理警報池,其方式為由警報分析器從警報隊列接收來自分布式處理系統(tǒng)的一個或多個組件的多個警報;由所述警報分析器創(chuàng)建警報池,所述池具有預定初始時段;由所述警報分析器將每個接收的警報分配到所述池;由所述警報分析器向每個警報分配包含在池中的預定最短時間;對于所述警報中的一個或多個警報,由所述警報分析器將所述池的所述預定初始時段延長被分配給所述警報的特定時段;由所述警報分析器判定是否滿足關閉所述池的條件;以及如果滿足關閉所述池的條件,則針對所述池中的每個警報判定該警報是否已在所述池中達到該警報的包含在池中的預定最短時間;以及如果該警報已在所述池中達到該警報的預定最短時間,則將該警報包括在關閉后的池中;以及如果該警報未在所述池中達到該警報的預定最短時間,則從關閉后的池驅逐該警報并將該警報包括在下一池中。圖2的事件分析器是能夠根據(jù)接收的事件識別警報的自動計算機器的模塊。也就是說,事件分析器通常接收事件并產(chǎn)生警報。在許多實施例中,并行實現(xiàn)多個事件分析器。 通常將此類事件分析器分配給特定的事件池并且此類事件分析器可關注來自特定組件或由特定事件導致的事件以產(chǎn)生更簡潔的警報集。圖2的警報分析器是能夠識別從事件和其他警報傳輸?shù)木瘓?、能夠識別要傳輸?shù)钠渌瘓螅约澳軌蛞种剖录治銎魉R別的不必要的、無關的或不需要的警報的自動計算機器的模塊。也就是說,警報分析器一般接收警報和事件并根據(jù)這些警報和事件產(chǎn)生或轉發(fā)警報。在許多實施例中,并行實現(xiàn)多個警報分析器。通常將此類警報分析器分配給特定的警報池并且此類警報分析器可關注具有特定屬性的警報以產(chǎn)生更簡潔的警報集。圖2的事件和警報分析模塊(124)包括執(zhí)行以下操作的計算機程序指令在事件隊列中接收來自分布式處理系統(tǒng)(101)的一個或多個組件(例如,100、182、181、180和 170)的多個事件;由事件分析器(208)將每個接收的事件分配到事件池;由事件分析器 (208)根據(jù)事件到達規(guī)則和分配到所述事件池的事件識別一個或多個警報;由事件分析器 (208)根據(jù)事件池操作規(guī)則關閉所述事件池;由事件分析器(208)根據(jù)事件抑制規(guī)則判定是否抑制關閉后的事件池中的一個或多個事件;由事件分析器(208)根據(jù)事件池關閉規(guī)則和分配到所述事件池的任何未抑制事件識別一個或多個其他警報;由事件分析器(208)將事件分析器所識別的所有警報發(fā)送給警報分析器(218);由警報分析器(218)將所識別的警報分配到警報池;由警報分析器(218)根據(jù)警報分析規(guī)則和警報池中的警報判定是否抑制任何警報;以及將未抑制的警報傳輸(420)到分布式處理系統(tǒng)的一個或多個組件。RAM(168)中還存儲有操作系統(tǒng)(154)。用于根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送的操作系統(tǒng)包括UNIX 、LinuxTM、Microsoft XP 、AIX 、IBM的i5/0S 以及本領域的技術人員將想到的其他操作系統(tǒng)。圖2的實例中的操作系統(tǒng)(154)、事件和警報分析模塊(124)、 事件分析器(208)、警報分析器(218)被示為位于RAM(168)中,但是此類軟件的許多組件一般也存儲在非易失性存儲器中,例如,存儲在盤驅動器(170)上。圖2的計算機(152)包括通過擴展總線(160)和總線適配器(158)與處理器(156) 以及計算機(152)的其他組件相連的盤驅動器適配器(172)。盤驅動器適配器(172)以盤驅動器(170)的形式將非易失性數(shù)據(jù)存儲裝置連接到計算機(152)。在計算機中用于根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送的盤驅動器適配器包括集成驅動電子設備(‘IDE’ )適配器、小型計算機系統(tǒng)接口( ‘SCSI’)適配器以及本領域的技術人員將想到的其他適配器。 非易失性計算機存儲器還可以實現(xiàn)為本領域的技術人員將想到的光盤驅動器、電可擦寫可編程只讀存儲器(所謂的“EEPR0M”或閃存)、RAM驅動器等。圖2的實例計算機(152)包括一個或多個輸入/輸出(‘I/O’)適配器(178)。I/ O適配器通過例如控制到諸如計算機顯示屏之類的顯示設備的輸出以及控制來自諸如鍵盤和鼠標之類的輸入設備(181)的用戶輸入的軟件驅動器和計算機硬件來實現(xiàn)面向用戶的輸入/輸出。圖2的實例計算機(152)包括視頻適配器(209),適配器(209)是專門設計為將圖形輸出到諸如顯示屏或計算機監(jiān)視器之類的顯示設備(180)的I/O適配器的實例。視頻適配器(209)通過高速視頻總線(164)、總線適配器(158)以及前端總線(162)(也稱為高速總線)與處理器(156)相連。圖2的示例性計算機(152)包括用于與其他計算機(182)進行數(shù)據(jù)通信以及用于與數(shù)據(jù)通信網(wǎng)絡(100)進行數(shù)據(jù)通信的通信適配器(167)。此類數(shù)據(jù)通信可以通過RS-232 連接、通過諸如通用串行總線(‘USB’ )之類的外部總線串行地執(zhí)行、通過諸如IP數(shù)據(jù)通信網(wǎng)絡之類的數(shù)據(jù)通信網(wǎng)絡以及本領域的技術人員將想到的其他方式執(zhí)行。通信適配器實現(xiàn)硬件級數(shù)據(jù)通信,通過此硬件級數(shù)據(jù)通信,一臺計算機可以直接地或通過數(shù)據(jù)通信網(wǎng)絡將數(shù)據(jù)通信發(fā)送給另一計算機。用于根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送的通信適配器實例包括用于有線撥號通信的調(diào)制解調(diào)器、用于有線數(shù)據(jù)通信網(wǎng)絡通信的以太網(wǎng)(IEEE 802. 3)適配器,以及用于無線數(shù)據(jù)通信網(wǎng)絡通信的802. 11適配器。為了進一步說明,圖3示出根據(jù)本發(fā)明的實施例在分布式處理系統(tǒng)(102)中管理事故池以進行事件和警報分析以及實現(xiàn)相關警報傳送的示例性系統(tǒng)的方塊圖。圖4的方法包括在事件隊列(206)中接收來自分布式處理系統(tǒng)(102)的一個或多個組件的多個事件 (202)。根據(jù)本發(fā)明的實施例的分布式處理系統(tǒng)的組件可以是分布式處理系統(tǒng)的設備或在分布式處理系統(tǒng)的設備上運行的進程。此類組件通常能夠進行某種形式的事件傳輸,以便執(zhí)行錯誤或狀態(tài)報告。根據(jù)本發(fā)明的實施例的事件是分布式處理系統(tǒng)的組件上或組件中的特定事件的通知。根據(jù)本發(fā)明,將此類事件從發(fā)生該事件的組件或另一報告組件發(fā)送到事件和警報分析模塊。事件通常是數(shù)據(jù)處理系統(tǒng)的組件中發(fā)生的錯誤的通知。事件經(jīng)常實現(xiàn)為通過數(shù)據(jù)通信網(wǎng)絡或共享存儲器發(fā)送的消息。根據(jù)本發(fā)明的實施例的用于事件和警報分析的典型事件具有發(fā)生時間、記錄時間、事件類型、事件ID、報告組件、源組件以及其他屬性。發(fā)生時間是組件上發(fā)生事件的時間。記錄時間是將事件包括在事件隊列(206)中的時間,通常由圖3的實例中的監(jiān)視器(204)插入事件內(nèi)。事件類型是事件的通用類型,例如電源錯誤、鏈路故障錯誤、與未收到消息或丟棄分組相關的錯誤以及本領域的技術人員將想到的其他錯誤。事件ID是事件的唯一標識。報告組件是報告該事件的組件的標識。源組件是發(fā)生事件的組件的標識。在許多情況下(但不是全部),報告組件和源組件是分布式處理系統(tǒng)的同一組件。在圖3的實例中,事件和警報分析模塊(124)包括接收來自分布式處理系統(tǒng)的組件的事件以及將接收的事件(202)放入事件隊列(206)的監(jiān)視器(204)。圖3的監(jiān)視器 (204)可以在事件運動中接收來自分布式處理系統(tǒng)的組件的事件、可以定期輪詢分布式處理系統(tǒng)的一個或多個組件,或者以本領域的技術人員將想到的其他方式接收來自組件的事件。圖3的系統(tǒng)包括事件分析器(208)。圖3的事件分析器(208)是能夠根據(jù)接收的
10事件識別警報的自動計算機器的模塊。也就是說,事件分析器通常接收事件并產(chǎn)生警報。在許多實施例中,并行實現(xiàn)多個事件分析器。通常將事件分析器分配給特定的事件池并且此類事件分析器可關注來自特定組件或由特定事件導致的事件以產(chǎn)生更簡潔的警報集。圖3的事件分析器(208)將每個接收的事件(202)分配到事件池(212)。事件池 (212)是按事件發(fā)生的時間、事件被記錄在事件隊列中的時間、包括在事件池中的時間或本領域的技術人員將想到的其他時間來組織的事件集合。也就是說,事件池是按時間組織的事件集合。此類事件池經(jīng)常提供分析一組與時間相關的事件以及根據(jù)所述事件識別警報的能力。此類事件池經(jīng)常用于根據(jù)多個相關的事件識別更少和更多的相關警報。根據(jù)本發(fā)明的各實施例,事件池(212)由事件分析器(208)來管理。事件分析器根據(jù)本發(fā)明的實施例管理事件池,其方式為由事件分析器從事件隊列接收來自分布式處理系統(tǒng)的一個或多個組件的多個事件;由事件分析器創(chuàng)建事件池,所述池具有預定初始時段; 由事件分析器將每個接收的事件分配到所述池;由事件分析器向每個事件分配包含在池中的預定最短時間;對于所述事件中的一個或多個事件,由事件分析器將所述池的所述預定初始時段延長被分配給所述事件的特定時段;由事件分析器判定是否滿足關閉所述池的條件;以及如果滿足關閉所述池的條件,則針對所述池中的每個事件判定該事件是否已在所述池中達到該事件的包含在池中的預定最短時間;以及如果該事件已在所述池中達到該事件的預定最短時間,則將該事件包括在關閉后的池中;以及如果該事件未在所述池中達到該事件的預定最短時間,則從關閉后的池驅逐該事件并將該事件包括在下一池中。如上所述,根據(jù)圖3的方法的事件池具有預定初始時段,并且在圖3的實例中,由事件分析器將每個接收的事件分配到事件池包括對于分配到事件池的每個事件,將所述預定初始時段延長分配給該事件的特定時段。通過這種方式,使用每個接收的事件延長池, 直到將可用于識別警報的事件集合分配到事件池。如上所述,在本發(fā)明的某些實施例中,多個事件分析器可以并行工作。這樣,每個事件分析器可以維護一個或多個事件池以根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送。因此, 由事件分析器將事件分配到事件池可包括僅選擇來自一個或多個特定組件的事件。在此類實施例中,可針對特定事件池選擇特定組件以提供來自一個或多個組件的特定集合的與特定時段關聯(lián)的事件。由事件分析器將事件分配到事件池還可以通過僅選擇具有特定事件類型的事件來實現(xiàn)。在此類實施例中,可以針對特定事件池選擇特定事件以提供來自特定事件類型集合的與特定時段關聯(lián)的事件。圖3的實例中的事件分析器(208)根據(jù)事件分析規(guī)則(210)和分配到事件池的事件識別一個或多個警報(214)。事件分析規(guī)則(210)是用于有目的地分析接收的事件以根據(jù)所述事件識別相關警報的預定規(guī)則集合。圖3的事件分析規(guī)則(210)包括事件到達規(guī)則(230)、事件池操作規(guī)則(232)、事件抑制規(guī)則(234)以及事件池關閉規(guī)則(236)。事件到達規(guī)則(230)是用于在事件被分配到事件池時根據(jù)所述事件實時識別警報的可配置預定規(guī)則。也就是說,事件到達規(guī)則(230) 在關閉事件池之前根據(jù)事件識別警報。此類規(guī)則通常被預先確定以根據(jù)這些事件的屬性識別特定警報。事件到達規(guī)則可以例如規(guī)定根據(jù)事件的特定事件類型或組件類型或該事件的其他屬性識別要傳輸給系統(tǒng)管理員的特定預定警報。此類規(guī)則是靈活的并可以適合特定分布式計算系統(tǒng)及其功能的需要。根據(jù)本發(fā)明的各實施例的警報是根據(jù)一個以上的事件對事件發(fā)生(例如錯誤)的精細識別并因此在分布式處理系統(tǒng)內(nèi)在事件工作的上下文中提供了事件發(fā)生的識別。通常,警報是根據(jù)從數(shù)據(jù)處理系統(tǒng)的一個或多個組件接收的多個事件識別的特定錯誤類型事件的通知,所述事件例如是多個設備之間的鏈路故障(每個設備都基于單個鏈路故障而產(chǎn)生許多事件)或引起數(shù)以千計的事件的電源故障等。警報經(jīng)常實現(xiàn)為要通過數(shù)據(jù)通信網(wǎng)絡或共享存儲器發(fā)送的消息。根據(jù)本發(fā)明的各實施例的典型警報具有附加到所述警報的屬性,基于從標識警報的事件所接收的事件屬性將屬性附加到警報。事件池操作規(guī)則(232)是用于控制事件池的操作的可配置預定規(guī)則。此類規(guī)則包括識別每個事件池的初始預定時段的規(guī)則、規(guī)定在將每個新事件分配到池時為池延長的時長的規(guī)則、規(guī)定在關閉池時將事件包括在事件集合中之前事件必須在池中的最短時間的規(guī)則、管理事件池的關閉的規(guī)則,以及本領域的技術人員將想到的其他規(guī)則。此類規(guī)則是靈活的并可以適合特定分布式計算系統(tǒng)及其功能的需要。事件抑制規(guī)則(234)是用于抑制在識別警報時使用的關閉后的事件池中的一個或多個事件的可配置預定規(guī)則。也就是說,關閉后的事件池中的事件經(jīng)常是識別警報時的重復事件、冗余事件或不必要的或無用的事件。此類抑制規(guī)則通常被預先確定以刪除、丟棄或以其他方式忽略那些被抑制的事件。事件抑制規(guī)則可以例如規(guī)定要抑制多于閾值數(shù)量的特定事件類型或組件類型的事件。此類規(guī)則也是靈活的并可以適合特定分布式計算系統(tǒng)及其功能的需要。事件池關閉規(guī)則(236)是用于根據(jù)關閉后的事件池中的未抑制事件和由事件到達規(guī)則識別的警報來識別警報的可配置預定規(guī)則。也就是說,事件池關閉規(guī)則根據(jù)關閉后的事件池中的一個或多個或甚至所有未抑制事件來識別新的警報。事件池關閉規(guī)則還根據(jù)事件到達規(guī)則(230)所識別的警報或事件到達規(guī)則(230)所識別的警報和關閉后的事件池中的一個或多個未抑制事件的組合來識別警報。圖3的實例中的事件分析器(208)將事件分析器(208)所識別的所有警報(214) 發(fā)送給警報分析器(218)。圖3的警報分析器是能夠從事件和其他警報識別要傳輸?shù)木瘓蟆?能夠識別要傳輸?shù)母郊泳瘓螅约澳軌蛞种剖录治銎魉R別的不必要的、無關的或不需要或無用的警報的自動計算機器的模塊。也就是說,警報分析器通常接收警報和事件并根據(jù)這些警報和事件產(chǎn)生或轉發(fā)警報。在許多實施例中,并行實現(xiàn)多個警報分析器。將圖3的實例中的警報(216)通過警報隊列(216)從事件分析器(208)發(fā)送到警報分析器(218)。圖3的警報分析器(218)將每個所識別的警報(214)分配到警報池(224)。警報池(224)是按導致識別警報的一個或多個事件的時間、識別警報的時間或本領域的技術人員將想到的其他時間組織的警報集合。也就是說,警報池是按時間組織的警報的集合。此類警報池經(jīng)常提供根據(jù)某個時間分析被識別和包括在警報池中的一組警報的能力。此類事件池經(jīng)常用于根據(jù)多個相關的事件和多個相關的警報識別更少和更多的相關警報。警報分析器根據(jù)本發(fā)明的實施例管理警報池,其方式為由警報分析器從警報隊列接收來自分布式處理系統(tǒng)的一個或多個組件的多個警報;由所述警報分析器創(chuàng)建警報池,所述池具有預定初始時段;由所述警報分析器將每個接收的警報分配到所述池;由所述警報分析器向每個警報分配包含在池中的預定最短時間;對于所述警報中的一個或多個警報,由所述警報分析器將所述池的所述預定初始時段延長被分配給所述警報的特定時段;由所述警報分析器判定是否滿足關閉所述池的條件;以及如果滿足關閉所述池的條件,則針對所述池中的每個警報判定該警報是否已在所述池中達到該警報的包含在池中的預定最短時間;以及如果該警報已在所述池中達到該警報的預定最短時間,則將該警報包括在關閉后的池中;以及如果該警報未在所述池中達到該警報的預定最短時間,則從關閉后的池驅逐該警報并將該警報包括在下一池中。警報分析器可以根據(jù)警報的屬性或從中識別這些警報的事件的屬性將識別的警報分配到警報池(224)。例如,圖3的警報分析器可以通過選擇從來自一個或多個特定組件的事件生成的警報、與特定警報類型關聯(lián)的警報以及本領域的技術人員將想到的其他警報來將警報分配到警報池(224)。圖3的警報分析器(218)根據(jù)警報分析規(guī)則(222)和警報池中的警報判定是否抑制任何警報。通常通過丟棄警報、刪除警報或以其他方式忽略警報或不將抑制的警報傳輸?shù)椒植际教幚硐到y(tǒng)的組件來實現(xiàn)抑制警報。警報分析規(guī)則(222)是用于抑制一個或多個警報以提供更相關的警報集以便傳輸?shù)椒植际教幚硐到y(tǒng)的組件(例如,以便顯示給系統(tǒng)管理員)以及識別附加警報以便傳輸?shù)椒植际教幚硐到y(tǒng)的一個或多個組件的規(guī)則的集合。例如,警報分析規(guī)則可以規(guī)定抑制重復警報、抑制傳輸?shù)教囟ńM件的特定類型的警報以及抑制本領域的技術人員將想到的其他警報。此類警報對于進行自動錯誤恢復的分布式處理系統(tǒng)的組件或對于不能通過大量原始的未分析警報以其他方式了解更多信息的系統(tǒng)管理員而言更有用。圖3的警報分析器(218)還可訪問事件隊列(206)。在某些實施例中,圖3的依賴于警報分析規(guī)則的警報分析器(218)可以選擇事件隊列中的事件并根據(jù)所選事件判定是否抑制任何警報。也就是說,警報分析規(guī)則還考慮了事件及其屬性以便抑制警報和識別要傳輸?shù)揭粋€或多個組件的附加警報。此類事件可能與警報池中的警報相關,也可能與此類警報無關。圖3的警報分析器(218)將未抑制的警報傳輸?shù)椒植际教幚硐到y(tǒng)的一個或多個組件。警報分析器可以通過數(shù)據(jù)通信網(wǎng)絡、通過共享存儲器或以本領域的技術人員將想到的其他方式作為消息發(fā)送警報來將未抑制的警報傳輸?shù)椒植际教幚硐到y(tǒng)的一個或多個組件。 在圖3的實例中,未抑制的警報(220)被傳輸?shù)浇K端(122)以顯示給系統(tǒng)管理員(128)。圖3的警報分析器(218)還能夠根據(jù)警報分析規(guī)則(222)、警報池(224)中的警報以及選定事件(206)識別一個或多個附加警報并將所述警報傳輸?shù)椒植际教幚硐到y(tǒng)的一個或多個組件。附加警報可包括未由事件分析器識別的一個或多個警報。此類附加警報可為系統(tǒng)管理員將附加信息提供給分布式處理系統(tǒng)的組件。如上所述,根據(jù)本發(fā)明的相關警報傳送包括將事件分配到事件池以及根據(jù)本發(fā)明的實施例管理這些池。為了進一步說明,圖4是示出根據(jù)本發(fā)明的實施例將事件分配到事件池的示意圖。事件池(212)是按事件發(fā)生的時間、事件被記錄在事件隊列中的時間、包括在事件池中的時間,或本領域的技術人員將想到的其他時間組織的事件集合。也就是說,事件池是按時間組織的事件的集合。此類事件池經(jīng)常提供分析一組時間相關的事件以及根據(jù)這些事件識別警報的能力。此類事件池經(jīng)常用于根據(jù)多個相關的事件識別更少和更多的相關警報。根據(jù)本發(fā)明的實施例的事件池通常根據(jù)本身經(jīng)常包括在事件分析規(guī)則中的事件池操作規(guī)則來執(zhí)行操作。此類事件池操作規(guī)則是用于控制事件池操作的可配置預定規(guī)則。 此類規(guī)則包括識別每個事件池的初始預定時段的規(guī)則、規(guī)定在將每個新事件分配到池時為池延長的時長的規(guī)則、規(guī)定在關閉池時將事件包括在事件集合中之前事件必須在池中的最短時間的規(guī)則、管理事件池的關閉的規(guī)則,以及本領域的技術人員將想到的其他規(guī)則。此類規(guī)則是靈活的并可以適合特定分布式計算系統(tǒng)及其功能的需要。經(jīng)常根據(jù)事件被記錄的時間將事件分配到事件池。也就是說,通常按照在事件隊列中接收事件的順序將事件插入事件池。在圖4的實例中,在時間h將首個事件‘事件 O’ (400)分配到事件池(212)時,開始事件池(212)的計時。圖4的事件池在從h到tf的預定初始時段內(nèi)工作。也就是說,當接收首個事件‘事件O’ (400)時,圖4的事件池具有在 h開始并在tf結束的預定初始時段。所述預定初始時段可以根據(jù)本領域的技術人員將想到的許多因素進行配置,例如,分布式處理系統(tǒng)中的組件數(shù)、接收事件的頻率、通常接收的事件的類型以及本領域的技術人員將想到的其他因素。在圖4的實例中,在從h到tf的預定初始時段期間,針對每個分配到事件池的新事件將所述預定初始時段延長分配給該事件的特定時段。在圖4的實例中,在將‘事件I’ (404)分配到事件池(212)時,將預定初始時段UtTtf)延長具有時間el的‘延長 I’ (406),由此在tf+el之前沒有任何其他事件被分配到池的情況下,將在tf+el產(chǎn)生關閉事件池(212)的新時間。類似地,在圖4的實例中,在將‘事件2’ (404)分配到具有時間e2的事件池時,再次通過‘延長2’(406)延長目前已延長的時段(h-tf+J,由此在tf+el+e2之前或在事件池的某個最長時間過期之前沒有任何其他事件被分配到池的情況下,在時間tf+el+e2 產(chǎn)生關閉池的新時間。通過這種方式,在收到每個事件時延長事件池,直到將可用于識別警報的事件集合分配到事件池。在本發(fā)明的典型實施例中,事件池可具有無法再延長的最大時長。在這種情況下, 可要求將未在事件池中駐留達閾值時段的事件移至下一事件池。在某些實施例中,移至下一事件池的此類事件的屬性用于與初始事件池一起實現(xiàn)根據(jù)本發(fā)明的實施例的相關警報傳送,而在其他實施例中,此類事件的屬性用于與事件所移至的下一事件池一起實現(xiàn)相關警報傳送。在圖4的實例中,當滿足關閉池的條件時,事件分析器針對池(212)中的每個事件 (400,402,404)判定該事件是否已在池中達到該事件的包括在池中的預定最短時間。如果該事件已在池中達到其預定最短時間,則將該事件包括在關閉后的池中以進行事件分析以便根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送。如果該事件未在池中達到其預定最短時間,則從關閉后的池驅逐該事件并將該事件包括在下一池中以進行事件分析以便根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送。在許多實施例中,可并行使用多個事件池并將一個或多個此類事件池分配給特定事件分析器。在此類實施例中,事件分析器可針對事件池中具有特定屬性的事件。如上所述,根據(jù)本發(fā)明的相關警報傳送還包括將警報分配到警報池。為了進一步說明,圖5是示出根據(jù)本發(fā)明的實施例的將警報分配到警報池的示意圖。圖5的警報池 (224)的工作方式與圖4的事件池的工作方式類似。也就是說,根據(jù)圖5的實例的警報池包括警報并且警報池的計時從時間h處的首個警報‘警報O’ (500)開始,并且警報池被配置為具有預定初始時段tftf。在圖5的實例中,在從h到tf的預定初始時段期間,針對每個分配到警報池的新警報將所述預定初始時段延長分配給該警報的特定時段。在圖5的實例中,在將‘警報I’ (502)分配到警報池(224)時,將預定初始時段(Vtf)延長具有時間el 的‘延長I’ (506),由此在tf+el之前沒有任何其他警報被分配到池的情況下,將在tf+el產(chǎn)生關閉警報池(224)的新時間。類似地,在圖5的實例中,在將‘警報2’ (504)分配到具有時間e2的警報池時,再次通過‘延長2’(508)延長目前已延長的時段,由此在tf+el+e2 之前沒有任何其他警報被分配到池的情況下或在警報池的某個最長時間過期之前,在時間 tf+el+e2建立關閉池的新時間。在本發(fā)明的典型實施例中,警報池可具有無法再延長的最大時長。在這種情況下, 可要求將未在警報池中駐留達閾值時段的警報移至下一警報池。在某些實施例中,移至下一警報池的此類警報的屬性用于與初始警報池一起實現(xiàn)根據(jù)本發(fā)明的實施例的相關警報傳送,而在其他實施例中,此類警報的屬性用于與警報所移至的下一警報池一起實現(xiàn)相關警報傳送。在圖5的實例中,當滿足關閉池的條件時,警報分析器針對池(224)中的每個警報 (500,502,504)判定該警報是否已在池中達到該警報的包括在池中的預定最短時間。如果該警報已在池中達到其預定最短時間,則將該警報包括在關閉后的池中以進行警報分析以便根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送。如果該警報未在池中達到其預定最短時間,則從關閉后的池驅逐該警報并將該警報包括在下一池中以進行警報分析以便根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送。在許多實施例中,可并行使用多個警報池并將一個或多個此類警報池分配給特定警報分析器。在此類實施例中,警報分析器可針對警報池中具有特定屬性的警報。為了進一步說明,圖6是示出根據(jù)本發(fā)明的實施例的在分布式處理系統(tǒng)中通過事件和警報抑制實現(xiàn)相關警報傳送的實例方法的流程圖。圖6的方法包括在事件隊列中接收 (402)來自分布式處理系統(tǒng)的一個或多個組件的多個事件(202)。在根據(jù)本發(fā)明的實施例通過事件和警報抑制實現(xiàn)相關警報傳送時使用的事件可以包括發(fā)生時間、記錄時間、事件類型、事件iD、報告組件以及源組件。在事件隊列中接收(402)來自分布式處理系統(tǒng)的一個或多個組件的多個事件 (202)可以通過以下方式實現(xiàn)接收數(shù)據(jù)處理系統(tǒng)的一個或多個組件發(fā)起的事件并根據(jù)事件發(fā)生的時間或根據(jù)接收事件的時間將事件存儲在事件隊列中。在事件隊列中接收(402) 來自分布式處理系統(tǒng)的一個或多個組件的多個事件(202)還可以通過以下方式實現(xiàn)輪詢組件的狀態(tài)并作為響應而接收事件并根據(jù)事件發(fā)生的時間或根據(jù)接收事件的時間將事件存儲在事件隊列中。圖6的方法還包括由事件分析器將每個接收的事件分配(404)到事件池(212)。 在本發(fā)明的某些實施例中,由事件分析器將每個接收的事件(202)分配(404)到事件池 (212)可以通過根據(jù)記錄時間將事件分配到事件池來實現(xiàn)。由事件分析器將每個接收的事件(202)分配(404)到事件池(212)還可以根據(jù)事件的屬性來實現(xiàn)。此類屬性可以包括產(chǎn)生事件的組件的標識或類型、事件的報告組件、事件ID、事件類型以及本領域的技術人員將想到的其他屬性。
根據(jù)圖6的方法的事件池包括在預定初始時段內(nèi)發(fā)生的事件,并且在圖6的實例中,由事件分析器將每個接收的事件分配(404)到事件池包括針對每個分配到事件池的事件將所述預定初始時段延長(432)分配給該事件的特定時段。事件分析器包括事件分析規(guī)則(210),事件分析規(guī)則(210)包括事件到達規(guī)則、事件池操作規(guī)則、事件抑制規(guī)則以及事件池關閉規(guī)則。事件到達規(guī)則是用于根據(jù)事件被分配到事件池時的實時事件識別警報的可配置預定規(guī)則。也就是說,事件到達規(guī)則在關閉事件池之前根據(jù)事件識別警報。此類規(guī)則是靈活的并可以適合特定分布式計算系統(tǒng)及其功能的需要。根據(jù)本發(fā)明的各實施例的警報是根據(jù)一個以上的事件對事件發(fā)生(例如錯誤)的精細識別并因此在分布式處理系統(tǒng)內(nèi)在事件工作的上下文中提供了事件發(fā)生的識別。通常,警報可以是根據(jù)從數(shù)據(jù)處理系統(tǒng)的一個或多個組件接收的多個事件識別的特定錯誤類型事件的通知,所述事件例如是多個設備之間的鏈路故障(每個設備都基于單個鏈路故障而產(chǎn)生許多事件)或引起數(shù)以千計的事件的電源故障等。警報經(jīng)常實現(xiàn)為要通過數(shù)據(jù)通信網(wǎng)絡或共享存儲器發(fā)送的消息。根據(jù)本發(fā)明的各實施例的典型警報具有所附加的屬性,基于從標識警報的事件所接收的事件屬性將屬性附加到警報。事件池操作規(guī)則是用于控制事件池的操作的可配置預定規(guī)則。此類規(guī)則包括識別每個事件池的初始預定時段的規(guī)則、規(guī)定在將每個新事件分配到池時為池延長的時長的規(guī)則、規(guī)定在關閉池時將事件包括在事件集合中之前事件必須在池中的最短時間的規(guī)則、管理事件池的關閉的規(guī)則,以及本領域的技術人員將想到的其他規(guī)則。此類規(guī)則是靈活的并可以適合特定分布式計算系統(tǒng)及其功能的需要。事件抑制規(guī)則是用于抑制在識別警報時使用的關閉后的事件池中的一個或多個事件的可配置預定規(guī)則。也就是說,關閉后的事件池中的事件經(jīng)常可能是識別警報時的重復事件、冗余事件或不必要的或無用的事件。此類抑制規(guī)則通常被預先確定以刪除、丟棄或以其他方式忽略那些被抑制的事件。事件抑制規(guī)則可以例如規(guī)定要抑制多于閾值數(shù)量的特定事件類型或組件類型的事件。此類規(guī)則也是靈活的并可以適合特定分布式計算系統(tǒng)及其功能的需要。事件池關閉規(guī)則是用于根據(jù)關閉后的事件池中的未抑制事件和由事件到達規(guī)則識別的警報來識別警報的可配置預定規(guī)則。也就是說,事件池關閉規(guī)則根據(jù)關閉后的事件池中的一個或多個或甚至所有未抑制事件來識別新的警報。事件池關閉規(guī)則還根據(jù)事件到達規(guī)則所識別的警報或事件到達規(guī)則所識別的警報和關閉后的事件池中的一個或多個未抑制事件的組合來識別警報。圖6的方法還包括由事件分析器根據(jù)事件到達規(guī)則和分配到事件池的事件識別 (410) 一個或多個警報(214)。由事件分析器根據(jù)事件到達規(guī)則和分配到事件池的事件識別(410) —個或多個警報(214)可通過以下方式實現(xiàn)在將事件分配到事件池時根據(jù)該事件的一個或多個屬性識別警報。由事件分析器根據(jù)事件到達規(guī)則和分配到事件池的事件識別(410) —個或多個警報(214)可通過以下方式實現(xiàn)將事件的屬性與事件到達規(guī)則相比較以及作為比較的結果識別一個或多個警報。此類屬性可包括從中接收事件的組件的類型、產(chǎn)生事件的組件的類型、產(chǎn)生事件的組件的標識、產(chǎn)生或接收事件的時間、事件中報告的錯誤以及本領域的技術人員將想到的許多其他內(nèi)容。圖6的方法還包括由事件分析器根據(jù)事件池操作規(guī)則關閉(412)事件池(212)。 由事件分析器根據(jù)事件池操作規(guī)則關閉(412)事件池(212)可通過以下方式實現(xiàn)判定滿足事件池操作規(guī)則規(guī)定的停止將新事件分配到事件池的條件并根據(jù)這些事件池操作規(guī)則識別包括在關閉后的事件池中的特定事件。關閉事件池可以通過判定事件池的初始時段以及在初始時段的基礎上延長的用于事件池中接收的事件的任何特定時段已過期來實現(xiàn)。在這種情況下,如果在事件池的初始時段以及在初始時段的基礎上延長的用于事件池中接收的事件的任何特定時段過期之前未接收到任何新事件,則關閉池。關閉事件池還可通過判定事件池的最長時間已過期來實現(xiàn)。在這種情況下,無論在事件池的最長時間過期之后接收多少新事件,池都將被關閉。在此類實施例中,事件池的最長時間防止事件池包括的事件數(shù)多于根據(jù)本發(fā)明的實施例實現(xiàn)相關警報傳送所需的事件數(shù)。圖6的方法還包括由事件分析器根據(jù)事件抑制規(guī)則判定(414)是否抑制關閉后的事件池(212)中的一個或多個事件。由事件分析器根據(jù)事件抑制規(guī)則判定(414)是否抑制關閉后的事件池(212)中的一個或多個事件可通過根據(jù)關閉后的池中的一個或多個事件的屬性判定是否刪除、丟棄或以其他方式忽略關閉后的池中的一個或多個事件來實現(xiàn)。圖6的方法包括由事件分析器根據(jù)事件池關閉規(guī)則和分配到事件池的任何未抑制事件識別(416) —個或多個附加警報(417)。由事件分析器根據(jù)事件池關閉規(guī)則和分配到事件池的任何未抑制事件識別(416) —個或多個附加警報(417)可通過在將事件分配到事件池時根據(jù)事件的一個或多個屬性識別警報來實現(xiàn)。由事件分析器根據(jù)事件池關閉規(guī)則和分配到事件池的任何未抑制事件識別(416) —個或多個附加警報(417)可通過選擇事件池的未抑制事件、將事件池的未抑制事件的屬性與池關閉規(guī)則相比較,以及作為比較結果識別一個或多個附加警報來實現(xiàn)。此類屬性可包括從中接收一個或多個未抑制事件的組件的類型、產(chǎn)生未抑制事件的組件的類型、產(chǎn)生未抑制事件的組件的標識、產(chǎn)生或接收事件的時間、事件報告的一個或多個錯誤、池中的事件數(shù)以及本領域的技術人員將想到的許多其他內(nèi)容。圖6的方法包括由事件分析器將事件分析器所識別的所有警報發(fā)送(418)給警報分析器。由事件分析器將事件分析器所識別的所有警報(214)發(fā)送(418)給警報分析器可通過將包含警報的消息從事件分析器發(fā)送給警報分析器來實現(xiàn)。此類消息可以跨網(wǎng)絡,通過共享存儲器或以本領域的技術人員將想到的其他方式從事件分析器發(fā)送給警報分析器。圖6的方法包括由警報分析器將所識別的警報分配(420)到警報池(224)。根據(jù)圖6的方法的警報池具有預定初始時段,并且在圖6的實例中,由警報分析器將所識別的警報分配(420)到警報池(224)包括針對分配到警報池的每個警報,將預定初始時段延長分配給該警報的特定時段。由警報分析器將所識別的警報分配(420)到警報池(224)還可根據(jù)警報的屬性來實現(xiàn)。此類屬性可包括其中發(fā)生事件以產(chǎn)生用于識別警報的事件的組件的標識或類型、警報ID、警報類型以及本領域的技術人員將想到的其他屬性。圖6的方法包括由警報分析器根據(jù)警報分析規(guī)則(222)和警報池中的警報判定 (422)是否抑制任何警報。由警報分析器根據(jù)警報分析規(guī)則(222)和警報池中的警報判定
17(422)是否抑制任何警報可根據(jù)警報的一個或多個屬性來實現(xiàn)。此類屬性可包括其中發(fā)生事件以產(chǎn)生用于識別警報的事件的組件的標識或類型、警報ID、警報類型以及本領域的技術人員將想到的其他屬性。在此類實施例中,由警報分析器根據(jù)警報分析規(guī)則(222)和警報池中的警報判定(422)是否抑制任何警報可通過將警報池中警報的屬性與警報分析規(guī)則相比較以及作為比較結果而根據(jù)事件分析規(guī)則識別一個或多個要抑制的警報來實現(xiàn)。圖6的方法包括將未抑制的警報傳輸(420)到分布式處理系統(tǒng)的一個或多個組件。將未抑制的警報傳輸(420)到分布式處理系統(tǒng)的一個或多個組件可通過將包含警報的消息發(fā)送到分布式處理系統(tǒng)的一個或多個組件來實現(xiàn)。在許多情況下,警報可以作為消息發(fā)送給系統(tǒng)管理員,提醒系統(tǒng)管理員分布式處理系統(tǒng)中發(fā)生一個或多個事件。如上所述,警報分析規(guī)則可以根據(jù)事件選擇附加警報或抑制警報。在此類實施例中,判定是否抑制任何警報包括選擇事件以及根據(jù)所選事件判定是否抑制任何警報。因此, 圖6的方法還包括由警報分析器根據(jù)警報分析規(guī)則(222)、警報池(224)中的警報以及任何所選事件識別(426) —個或多個附加警報,并且在圖6的方法中,傳輸(428)未抑制的警報還包括將任何附加警報傳輸(430)到分布式處理系統(tǒng)的一個或多個組件。如上所述,根據(jù)本發(fā)明的實施例的相關警報傳送包括管理一個或多個事故池,所述事故包括事件、警報或本領域的技術人員將想到的其他事故。為了進一步說明,圖7是示出根據(jù)本發(fā)明的實施例在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析的示例性方法的流程圖。圖7的方法包括由事故分析器從事故隊列接收(702)來自分布式處理系統(tǒng)的一個或多個組件的多個事故(704)。圖7的事故可以實現(xiàn)為事件并且事故池可以實現(xiàn)為事件池。圖7的事故還可以實現(xiàn)為警報并且事故池可以實現(xiàn)為警報池。由事故分析器從事故隊列接收(702)來自分布式處理系統(tǒng)的一個或多個組件的多個事故(704)可通過如上所述由事件分析器從事件隊列接收事件來實現(xiàn)。可以從分布式處理系統(tǒng)的一個或多個組件發(fā)送此類事件。由事故分析器從事故隊列接收(702)來自分布式處理系統(tǒng)的一個或多個組件的多個事故(704)還可通過如上所述由警報分析器從警報隊列接收警報來實現(xiàn)??梢匀缟纤鲇墒录治銎鳟a(chǎn)生此類警報。圖7的方法包括由事故分析器創(chuàng)建(706)事故池(708),所述池具有預定初始時段。圖7的方法中的由事故分析器創(chuàng)建(706)事故池(708)可通過創(chuàng)建包含事件或警報的數(shù)據(jù)結構并針對該數(shù)據(jù)結構建立將事件、警報或本領域的技術人員將想到的其他事故包括在該數(shù)據(jù)結構內(nèi)的初始時段來實現(xiàn)。圖7的方法還包括由事故分析器將每個接收的事故分配(710)到池。由事故分析器將每個接收的事故分配(710)到池可根據(jù)事故的屬性來實現(xiàn)。將每個接收的事故分配 (710)到池例如可以通過根據(jù)諸如產(chǎn)生事件的組件、事件類型、警報類型、報告事件的組件、 報告或產(chǎn)生在產(chǎn)生警報時所依據(jù)的事件的組件以及本領域的技術人員將想到的其他屬性之類的屬性選擇事件、警報或其他事故來實現(xiàn)。圖7的方法還包括由事故分析器為每個事故分配(712)包含在池(708)中的預定最短時間(714)。包含在池中的預定最短時間(714)通常短于該池的初始時段,以便在關閉池時,將首個到達的事故包括在事故池中。預定最短時間可根據(jù)本領域的技術人員將想到的事故的屬性而變化。允許最短時間隨事故的屬性而變化為根據(jù)本發(fā)明的實施例在各種形式的分布式處理系統(tǒng)中管理池提供了靈活性。
圖7的方法包括由事故分析器針對一個或多個事故將池(708)的預定初始時段延長(716)分配給該事故的特定時段。在預定初始時段的基礎上延長的特定時段依賴于諸如事故類型、事故標識、產(chǎn)生或傳輸事故的上下文以及本領域的技術人員將想到的其他內(nèi)容之類的事故屬性。圖7的方法還包括由事故分析器判定(718)是否滿足關閉池(708)的條件。由事故分析器判定(718)是否滿足關閉池(708)的條件可通過判定是否已經(jīng)過池的最長時間來實現(xiàn)。針對池建立的最長時間通常依賴于分布式處理系統(tǒng)的諸如分布式處理系統(tǒng)的大小、 分布式處理系統(tǒng)的組件、分布式處理系統(tǒng)的計算要求以及本領域的技術人員將想到的其他內(nèi)容之類的因素。通常,所建立的最長時間足夠長以允許將足夠的事故累積到池中以便進行有意義的事件或警報分析,但是最長時間也足夠短,使得不會因事故的絕對數(shù)量導致分析無法進行并允許及時地報告警報。由事故分析器判定(718)是否滿足關閉池(708)的條件可通過判定在將另一事故分配到池之前是否已經(jīng)過預定初始時段以及與任何分配到池的事故關聯(lián)的任何時間延長來實現(xiàn)。在此類實施例中,通常在池的最長時間之前已經(jīng)過池的預定初始時段以及所有時間延長,從而在池的最長時間之前關閉池。如果滿足關閉池的條件,則圖7的方法還包括針對池中的每個事故判定(720)事故是否已在池(708)中達到其包含在池中的預定最短時間(714)。針對池中的每個事故判定(720)事故是否已在池(708)中達到其包含在池中的預定最短時間(714)可通過將每個事故駐留在池中的時長與包含在池中的最短時間相比較來實現(xiàn)。如果事故已在池中達到其預定最短時間,則圖7的方法包括將該事故包括(722) 在關閉后的池中。將事故包括(722)在關閉后的池中可通過將事故保留在關閉后的池中以進行事件分析、警報分析或本領域的技術人員將想到的其他事故分析來實現(xiàn)。如果事故未在池中達到其預定最短時間,則圖7的方法包括從關閉后的池驅逐 (724)該事故并將該事故包括在下一池中。從關閉后的池驅逐(724)事故并將事故包括在下一池中可通過創(chuàng)建下一池并將事故移至下一池來實現(xiàn)。創(chuàng)建下一池并將事故移至下一池可包括為下一池建立至少與要移至該下一池的事件的最短時間一樣長的預定時長。為了進一步說明,圖8是示出根據(jù)本發(fā)明的實施例在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析的附加方法的流程圖。圖8的方法與圖7的方法的類似之處在于,圖8的方法包括由事故分析器從事故隊列接收(702)來自分布式處理系統(tǒng)的一個或多個組件的多個事故(704);由事故分析器創(chuàng)建(706)事故池(708),所述池具有預定初始時段;由事故分析器將每個接收的事故分配(710)到池;由事故分析器為每個事故分配(712) 包含在池中的預定最短時間;由事故分析器針對一個或多個事故將池(708)的預定初始時段延長(716)分配給該事故的特定時段;由事故分析器判定(718)是否滿足關閉池的條件; 以及如果滿足關閉池的條件,則針對池中的每個事故判定(720)事故是否已在池中達到其包含在池中的預定最短時間;以及如果事故已在池中達到其預定最短時間,則將事故包括 (722)在關閉后的池中;以及如果事故未在池中達到其預定最短時間,則從關閉后的池驅逐(724)該事故并將該事故包括在下一池中。圖8的方法與圖7的方法的不同之處在于,在圖8的方法中,一個或多個事故 (704)為事件,并且圖8的方法還包括根據(jù)分配到池(708)的一個或多個事件識別(716) —個或多個警報。根據(jù)分配到池(708)的一個或多個事件識別(716) —個或多個警報可通過如上所述的根據(jù)事件到達規(guī)則識別警報、如上所述的根據(jù)池關閉規(guī)則識別附加警報,以及本領域的技術人員將想到的其他方式來實現(xiàn)。在圖8的方法中,驅逐(724)事故并將事故包括在下一池中還包括驅逐(802)至少一個事件、將驅逐的事件包括(804)在下一池中,以及將根據(jù)驅逐的事件識別的任何警報與關閉后的池相關聯(lián)(806)。驅逐(724)事故并將事故包括在下一池中還包括驅逐(802) 至少一個事件,將驅逐的事件包括(804)在下一池中可通過創(chuàng)建下一池并將事故移至下一池來實現(xiàn)。將根據(jù)驅逐的事件識別的任何警報與關閉后的池相關聯(lián)(806)可通過使用關閉后的池保留根據(jù)事件到達規(guī)則識別的任何警報以由警報分析器進行警報分析來實現(xiàn)。在此類實施例中,雖然驅逐了事件并將事件包括在下一池中,但是根據(jù)該事件識別的任何警報都使用關閉后的池進行保留以進行警報分析。為了進一步說明,圖9是示出根據(jù)本發(fā)明的實施例在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析的附加方法的流程圖。圖9的方法與圖7和圖8的方法的類似之處在于,圖9的方法包括由事故分析器從事故隊列接收(702)來自分布式處理系統(tǒng)的一個或多個組件的多個事故(704);由事故分析器創(chuàng)建(706)事故池(708),所述池具有預定初始時段;由事故分析器將每個接收的事故分配(710)到池;由事故分析器為每個事故分配 (712)包含在池中的預定最短時間;由事故分析器針對一個或多個事故將池(708)的預定初始時段延長(716)分配給該事故的特定時段;由事故分析器判定(718)是否滿足關閉池的條件;以及如果滿足關閉池的條件,則針對池中的每個事故判定(720)事故是否已在池中達到其包含在池中的預定最短時間;以及如果事故已在池中達到其預定最短時間,則將事故包括(722)在關閉后的池中;以及如果事故未在池中達到其預定最短時間,則從關閉后的池驅逐(724)該事故并將該事故包括在下一池中。圖9的方法與圖7的方法的不同之處在于在圖9的方法中,一個或多個事故 (704)為事件(202),并且圖9的方法還包括根據(jù)分配到池(708)的一個或多個事件識別 (716) —個或多個警報。根據(jù)分配到池(708)的一個或多個事件識別(716) —個或多個警報可通過如上所述的根據(jù)事件到達規(guī)則識別警報、如上所述的根據(jù)池關閉規(guī)則識別附加警報,以及本領域的技術人員將想到的其他方式來實現(xiàn)。在圖9的方法中,驅逐(724)事故并將事故包括在下一池中還包括驅逐(902)至少一個事件、將驅逐的事件包括(904)在下一池中,以及將根據(jù)驅逐的事件識別的任何警報與關閉后的池相關聯(lián)(906)。驅逐(724)事故并將事故包括在下一池中還包括驅逐(902) 至少一個事件,將驅逐的事件包括(904)在下一池中可通過創(chuàng)建下一池并將事故移至下一池來實現(xiàn)。將根據(jù)驅逐的事件識別的任何警報與下一池相關聯(lián)(906)可通過將根據(jù)事件到達規(guī)則識別的任何警報與由警報分析器進行警報分析的關閉后的池取消關聯(lián)并將這些警報與下一池關聯(lián)來實現(xiàn)。在此類實施例中,驅逐事件并將事件包括在下一池中,并且還將根據(jù)該事件識別的任何警報與下一池進行關聯(lián)以使用下一池進行警報分析。在某些實施例中,可以根據(jù)其他警報來識別警報。因此,在此類實施例中,根據(jù)圖 9的方法的將根據(jù)驅逐的事件識別的任何警報與下一池相關聯(lián)還可通過使關閉后的池中依賴于現(xiàn)在與下一池關聯(lián)的所識別警報的所有警報或事件無效來實現(xiàn)。也就是說,在關閉后的池中使根據(jù)現(xiàn)在與下一池關聯(lián)的警報識別的警報無效。使此類警報無效消除了關閉后的池中此類警報對現(xiàn)在與下一池關聯(lián)的警報的依賴性。本領域的技術人員將理解,本發(fā)明的各方面可以實現(xiàn)為系統(tǒng)、方法或計算機程序產(chǎn)品。因此,本發(fā)明的各方面可以采取完全硬件實施例、完全軟件實施例(包括固件、駐留軟件、微代碼等)或組合了在此通常被稱為“電路”、“模塊”或“系統(tǒng)”的軟件和硬件方面的實施例的形式。此外,本發(fā)明的各方面可以采取體現(xiàn)在一個或多個計算機可讀介質(zhì)(在介質(zhì)中具有計算機可讀程序代碼)中的計算機程序產(chǎn)品的形式。可以使用一個或多個計算機可讀介質(zhì)的任意組合。所述計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是(但不限于) 電、磁、光、電磁、紅外線或半導體系統(tǒng)、裝置或設備或它們的任何適當組合。計算機可讀存儲介質(zhì)的更具體的實例(非窮舉列表)可以包括以下項具有一條或多條線的電連接、便攜式計算機軟盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦寫可編程只讀存儲器 (EPR0M或閃存)、光纖、便攜式光盤只讀存儲器(CD-ROM)、光存儲設備、磁存儲設備或它們的任何適當組合。在本文檔的上下文中,計算機可讀存儲介質(zhì)可以是任何能夠包含或存儲由指令執(zhí)行系統(tǒng)、裝置或設備使用或與所述指令執(zhí)行系統(tǒng)、裝置或設備結合的程序的有形介質(zhì)。計算機可讀信號介質(zhì)可以包括其中包含計算機可讀程序代碼(例如,在基帶中或作為載波的一部分)的傳播數(shù)據(jù)信號。此類傳播信號可以采取多種形式中的任何形式,包括但不限于電磁、光或它們的任何適當組合。計算機可讀信號介質(zhì)可以是任何并非計算機可讀存儲介質(zhì)以及可以傳送、傳播或傳輸由指令執(zhí)行系統(tǒng)、裝置或設備使用或與所述指令執(zhí)行系統(tǒng)、裝置或設備結合的程序的計算機可讀介質(zhì)。可以使用任何適當?shù)慕橘|(zhì)(包括但不限于無線、有線、光纜、RF等或它們的任何適當組合)來傳輸計算機可讀介質(zhì)中包含的程序代碼。用于執(zhí)行本發(fā)明的各方面的操作的計算機程序代碼可以使用一種或多種編程語言的任意組合來編寫,所述編程語言包括諸如Java、Smalltalk、C++或類似語言之類的面向對象的編程語言或者諸如“C”編程語言或類似的編程語言之類的常規(guī)過程編程語言。所述程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為獨立的軟件包、部分地在用戶計算機上并部分地在遠程計算機上執(zhí)行,或者完全在遠程計算機或服務器上執(zhí)行。在后者的情況中,所述遠程計算機可以通過包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN) 的任何類型網(wǎng)絡與用戶的計算機相連,也可以與外部計算機進行連接(例如,使用因特網(wǎng)服務提供商通過因特網(wǎng)連接)。下面參考根據(jù)本發(fā)明的各實施例的方法、裝置(系統(tǒng))和計算機程序產(chǎn)品的流程圖和/或方塊圖對本發(fā)明的各方面進行描述。將理解,所述流程圖和/或方塊圖的每個方塊以及所述流程圖和/或方塊圖中的方塊的組合可以由計算機程序指令來實現(xiàn)。這些計算機程序指令可以被提供給通用計算機、專用計算機或其他可編程數(shù)據(jù)處理裝置的處理器以產(chǎn)生機器,以便通過所述計算機或其他可編程數(shù)據(jù)處理裝置的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在一個或多個流程圖和/或方塊圖方塊中指定的功能/操作的裝置。這些計算機程序指令也可以被存儲在可引導計算機、其他可編程數(shù)據(jù)處理裝置或其他設備以特定方式執(zhí)行功能的計算機可讀介質(zhì)中,以便存儲在所述計算機可讀介質(zhì)中的指令產(chǎn)生一件包括實現(xiàn)在所述一個或多個流程圖和/或方塊圖方塊中指定的功能/操作的指令的制品。所述計算機程序指令還可被加載到計算機、其他可編程數(shù)據(jù)處理裝置或其他設備,以導致在所述計算機、其他可編程裝置或其他設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的過程,從而在所述計算機或其他可編程裝置上執(zhí)行的指令提供用于實現(xiàn)在一個或多個流程圖和/或方塊圖方塊中指定的功能/操作的過程。附圖中的流程圖和方塊圖示出了根據(jù)本發(fā)明的各實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實施方式的架構、功能和操作。在此方面,所述流程圖或方塊圖中的每個方塊都可以表示代碼的模塊、段或部分,所述代碼包括用于實現(xiàn)指定的邏輯功能的一個或多個可執(zhí)彳丁指令。還應指出,在某些備選實施方式中,在方塊中說明的功能可以不按圖中說明的順序發(fā)生。例如,示為連續(xù)的兩個方塊可以實際上被基本同時地執(zhí)行,或者某些時候,取決于所涉及的功能,可以以相反的順序執(zhí)行所述方塊。還應指出,所述方塊圖和/或流程圖的每個方塊以及所述方塊圖和/或流程圖中的方塊的組合可以由執(zhí)行指定功能或操作的基于專用硬件的系統(tǒng)或專用硬件和計算機指令的組合來實現(xiàn)。從上述描述將理解,可以在不偏離本發(fā)明的真實精神的情況下,對本發(fā)明的各種實施例做出修改和更改。本說明書中的描述僅用于例示并且不應被理解為進行限制。本發(fā)明的范圍僅由以下權利要求的語言來限定。
權利要求
1.一種在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析的方法,所述方法包括由事故分析器從事故隊列接收來自所述分布式處理系統(tǒng)的一個或多個組件的多個事故;由所述事故分析器創(chuàng)建事故池;由所述事故分析器將每個接收的事故分配到所述池;由所述事故分析器向每個事故分配包含在池中的預定最短時間;由所述事故分析器判定是否滿足關閉所述池的條件;以及如果滿足關閉所述池的條件,則針對所述池中的每個事故判定該事故是否已在所述池中達到該事故的包含在池中的預定最短時間;以及如果該事故已在所述池中達到該事故的預定最短時間,則將該事故包括在關閉后的池中;以及如果該事故未在所述池中達到該事故的預定最短時間,則從關閉后的池驅逐該事故并將該事故包括在下一池中。
2.如權利要求I中所述的方法,其中所述事故中的一個或多個事故包括事件,并且其中所述方法還包括根據(jù)分配到所述池的一個或多個事件識別一個或多個警報;以及其中驅逐該事故并將該事故包括在下一池中進一步包括驅逐至少一個事件,將所驅逐的事件包括在所述下一池中,以及將任何根據(jù)所驅逐的事件識別的警報與所述關閉后的池相關聯(lián)。
3.如權利要求I中所述的方法,其中所述事故中的一個或多個事故包括事件,并且其中所述方法還包括根據(jù)分配到所述池的一個或多個事件識別一個或多個警報;以及其中驅逐該事故并將該事故包括在下一池中進一步包括驅逐至少一個事件,將所驅逐的事件包括在所述下一池中,以及將任何根據(jù)所驅逐的事件識別的警報與所述下一池相關聯(lián)。
4.如權利要求3中所述的方法,其中將任何根據(jù)所驅逐的事件識別的警報與所述下一池相關聯(lián)進一步包括使所述關閉后的池中依賴于現(xiàn)在與所述下一池關聯(lián)的所識別的警報的所有警報或事件無效。
5.如權利要求I中所述的方法,其中由所述事故分析器判定是否滿足關閉所述池的條件進一步包括判定是否已經(jīng)經(jīng)過所述池的最大時間。
6.如權利要求I中所述的方法,其中所述事故池具有預定初始時段并且所述方法還包括對于所述事故中的一個或多個事故,由所述事故分析器將所述池的所述預定初始時段延長被分配給所述事故的特定時段;以及其中由所述事故分析器判定是否滿足關閉所述池的條件進一步包括確定在將另一事故分配到所述池之前,已經(jīng)經(jīng)過所述預定初始時段以及與分配到所述池的任何事故關聯(lián)的任何時間延長。
7.如權利要求I中所述的方法,其中所述事故包括事件,并且所述事故池包括事件池。
8.如權利要求I中所述的方法,其中所述事故包括警報,并且所述事故池包括警報池。
9.一種在分布式處理系統(tǒng)中管理事故池以進行事件和警報分析的系統(tǒng),所述系統(tǒng)包括計算機處理器、在操作上與所述計算機處理器耦合的計算機存儲器,所述計算機存儲器內(nèi)具有計算機程序指令,當由所述計算機處理器執(zhí)行時,所述計算機程序指令能夠使所述系統(tǒng)執(zhí)行以下步驟由事故分析器從事故隊列接收來自所述分布式處理系統(tǒng)的一個或多個組件的多個事故;由所述事故分析器創(chuàng)建事故池;由所述事故分析器將每個接收的事故分配到所述池;由所述事故分析器向每個事故分配包含在池中的預定最短時間;由所述事故分析器判定是否滿足關閉所述池的條件;以及如果滿足關閉所述池的條件,則針對所述池中的每個事故判定該事故是否已在所述池中達到該事故的包含在池中的預定最短時間;以及如果該事故已在所述池中達到該事故的預定最短時間,則將該事故包括在關閉后的池中;以及如果該事故未在所述池中達到該事故的預定最短時間,則從關閉后的池驅逐該事故并將該事故包括在下一池中。
10.如權利要求9中所述的系統(tǒng),其中所述事故中的一個或多個事故包括事件,并且其中所述系統(tǒng)還包括能夠根據(jù)分配到所述池的一個或多個事件識別一個或多個警報的計算機程序指令;以及其中驅逐該事故并將該事故包括在下一池中進一步包括驅逐至少一個事件,將所驅逐的事件包括在所述下一池中,以及將任何根據(jù)所驅逐的事件識別的警報與所述關閉后的池相關聯(lián)。
11.如權利要求9中所述的系統(tǒng),其中所述事故中的一個或多個事故包括事件,并且其中所述系統(tǒng)還包括能夠根據(jù)分配到所述池的一個或多個事件識別一個或多個警報的計算機程序指令;以及其中驅逐該事故并將該事故包括在下一池中進一步包括驅逐至少一個事件,將所驅逐的事件包括在所述下一池中,以及將任何根據(jù)所驅逐的事件識別的警報與所述下一池相關聯(lián)。
12.如權利要求11中所述的系統(tǒng),其中將任何根據(jù)所驅逐的事件識別的警報與所述下一池相關聯(lián)進一步包括使所述關閉后的池中依賴于現(xiàn)在與所述下一池關聯(lián)的所識別的警報的所有警報或事件無效。
13.如權利要求9中所述的系統(tǒng),其中由所述事故分析器判定是否滿足關閉所述池的條件進一步包括判定是否已經(jīng)經(jīng)過所述池的最大時間。
14.如權利要求9中所述的系統(tǒng),其中所述池具有預定初始時段并且其中所述系統(tǒng)包括用于對于所述事故中的一個或多個事故,由所述事故分析器將所述池的所述預定初始時段延長被分配給所述事故的特定時段的計算機程序指令;以及其中由所述事故分析器判定是否滿足關閉所述池的條件進一步包括確定在將另一事故分配到所述池之前,已經(jīng)經(jīng)過所述預定初始時段以及與分配到所述池的任何事故關聯(lián)的任何時間延長。
15.如權利要求9中所述的系統(tǒng),其中所述事故包括事件,并且所述事故池包括事件池。
16.如權利要求9中所述的系統(tǒng),其中所述事故包括警報,并且所述事故池包括警報池。
全文摘要
本發(fā)明涉及一種管理事故池以進行事件和警報分析的方法和系統(tǒng)。管理事故池包括創(chuàng)建事故池,所述池具有預定初始時段;將每個接收的事故分配到所述池;由事故分析器向每個事故分配包含在池中的預定最短時間;對于所述事故中的一個或多個事故,將所述池的所述預定初始時段延長被分配給所述事故的特定時段;判定是否滿足關閉所述池的條件;以及如果滿足關閉所述池的條件,則針對所述池中的每個事故判定該事故是否已在所述池中達到該事故的包含在池中的預定最短時間;以及如果該事故未在所述池中達到該事故的預定最短時間,則從關閉后的池驅逐該事故并將該事故包括在下一池中。
文檔編號G06F11/00GK102591731SQ201110339740
公開日2012年7月18日 申請日期2011年11月1日 優(yōu)先權日2010年11月2日
發(fā)明者J·E·卡雷, M·G·阿特金斯, M·W·馬克蘭, P·J·桑德斯 申請人:國際商業(yè)機器公司