專利名稱:通信告警頻繁項集挖掘引擎及冗余處理方法
技術領域:
本發(fā)明涉及移動互聯(lián)網(wǎng)絡告警監(jiān)控領域,特別涉及基于數(shù)據(jù)挖掘技術的告警頻繁 項集獲取領域,具體地說是一種通信告警頻繁項集挖掘引擎及冗余處理方法。
背景技術:
移動通信告警量巨大,其中的一些告警發(fā)生的時候,總會有其它特定的告警隨之 發(fā)生,這些在一段時間內(nèi)頻繁發(fā)生的告警稱之為告警頻繁項集。告警頻繁項集隱含著告警 關聯(lián)的主要信息,是我們進行告警關聯(lián)分析的重要依據(jù)。數(shù)據(jù)挖掘中的頻繁項集挖掘算法, 能夠從告警數(shù)據(jù)庫中可以挖掘出蘊含在大量告警中的頻繁項集,其中的頻繁模式增長算法 能夠?qū)⒏婢畔Υ嬖谝活w頻繁模式樹中,通過遍歷頻繁模式樹,生成條件模式基和條件 模式子樹,就能夠挖掘出告警中出現(xiàn)的頻繁項集。但是在實際工程應用中,由于告警數(shù)量巨 大,告警種類繁多,用于挖掘的告警數(shù)據(jù)量都在幾百萬甚至上千萬條。頻繁模式增長算法會 產(chǎn)生大量的條件模式基和條件模式樹,使得算法的效率很低,并且得到的頻繁項集,相對于 實際的工程應用來說大部分是冗余的,使得后期的處理工作量巨大,效率低下。本發(fā)明針對 上述問題構建了高效的頻繁項集挖掘及冗余處理引擎,該引擎改進了頻繁模式增長算法的 性能,有很強的執(zhí)行效率和實用性,能夠挖掘出復雜互聯(lián)通信設備的告警頻繁項集,并對挖 掘結果進行冗余處理,為通信網(wǎng)絡告警頻繁項集挖掘工作提供有效和實用化的解決方法。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種通信告警頻繁項集挖掘引擎及冗余處理方法。本發(fā)明的目的是按以下方式實現(xiàn)的,挖掘引擎包括以下內(nèi)容(1)采集通信告警數(shù)據(jù)并對數(shù)據(jù)進行預處理,通過對數(shù)據(jù)的預處理確保告警頻繁 項集挖掘的效率、準確度以及最終結果的有效性;(2)設定了告警時間窗和滑動步長兩個參數(shù),將告警關系型數(shù)據(jù)轉(zhuǎn)化成事務型數(shù) 據(jù),最大程度地保證在一個告警時間窗內(nèi)告警發(fā)生的完整性,為告警頻繁項集的挖掘工作 做準備;(3)頻繁模式增長改進算法,建立項頭列表和條件模式樹,在每條路徑上挖掘低階 項的所有條件模式基,并進行標記,在挖掘每一項時,首先判斷該節(jié)點標記,如果標記為真, 則跳過該路徑,直接挖掘下一個路徑,這樣只需要挖掘部分低階的項,就可以遍歷所有的路 徑,找出所有的條件模式基,然后生成條件模式樹,挖掘頻繁項集;(4)對挖掘到的告警頻繁項集進行冗余處理,將最大頻繁項集的所有子集,在支持 數(shù)上進行比較,從最大η階頻繁項集開始,如果η-1階子集的支持數(shù)大于等于最大η階頻繁 項集的支持數(shù)不超過一個常數(shù)c,將此項集刪除,對于滿足上述的頻繁項集進行保留;(5)對獲取到的告警頻繁項集進行歸納整理,并提供詳細的解釋信息,便于運維人 員進行規(guī)則核對。冗余處理步驟如下
(1)從設備中采集告警數(shù)據(jù),并對數(shù)據(jù)進行清洗和集成,建立告警id表來標記告 警數(shù)據(jù),完成數(shù)據(jù)的采集和準備工作;(2)設置告警時間窗和滑動窗口,對數(shù)據(jù)進行轉(zhuǎn)換,將關系型告警數(shù)據(jù),轉(zhuǎn)換成事 務型告警數(shù)據(jù);(3)設置支持度閾值,調(diào)用改進的頻繁模式增長算法,對告警數(shù)據(jù)進行頻繁項集挖 掘;(4)對挖掘結果進行冗余處理;(5)對最終得到的告警頻繁項集進行合理的解釋,并將結果呈現(xiàn)給運維人員便于 查詢和維護。本發(fā)明的優(yōu)異效果(1)將人工智能中的數(shù)據(jù)挖掘算法引入到告警頻繁項集的挖掘應用當中,并對算 法進行了改進,使得算法能夠高效和準確地挖掘出告警頻繁項集。(2)面向?qū)嶋H應用,提出了頻繁模式增長改進算法,在原算法的基礎上對生成條件 模式基和條件模式樹的方式進行了改進,使得該算法的處理能力有了極大的提高,能夠滿 足工程應用的需要。(3)對告警頻繁項集的挖掘結果進行了冗余處理,從實際應用的角度出發(fā),剔除了 其中一些冗余結果,使得挖掘結果能夠更加簡潔實用。本發(fā)明不依賴于網(wǎng)絡模型與拓撲結構,適用于移動互聯(lián)網(wǎng)、固網(wǎng)、通信網(wǎng)絡等多種 網(wǎng)絡模型的告警頻繁項集獲取。
圖1是通信告警頻繁項集挖掘引擎結構圖;圖2是項頭列表與頻繁模式樹示意圖;圖3是頻繁模式改進算法流程具體實施例方式參照說明書附圖對本發(fā)明的方法作以下詳細地說明。本發(fā)明的通信告警頻繁項集挖掘引擎及冗余處理方法,是針對現(xiàn)代通信網(wǎng)絡告警 監(jiān)控的需求,將數(shù)據(jù)挖掘算法中的頻繁模式增長算法進行改進,應用到通信告警頻繁項集 挖掘當中。從海量的告警中快速獲得告警頻繁項集,并且對挖掘結果進行了冗余處理,進而 幫助運維人員高效地完成各類網(wǎng)絡告警信息的處理,為通信告警關聯(lián)分析工作提供一種創(chuàng) 新的解決方案。系統(tǒng)基本構成和工作原理針對通信網(wǎng)絡中的海量告警信息,采用頻繁模式增長改進算法,進行告警頻繁項 集的挖掘工作,告警頻繁項集挖掘引擎如圖1所示。通信告警頻繁項集挖掘引擎,包括告警數(shù)據(jù)的預處理、參數(shù)設置及頻繁項集挖掘、 挖掘結果冗余處理和結果的解釋與呈現(xiàn)四個階段。數(shù)據(jù)處理階段提取告警所需要的字段,將關系型數(shù)據(jù)轉(zhuǎn)化成為事務型數(shù)據(jù)格式, 設置告警時間窗口和滑動步長的大小,并確定告警支持度閾值;頻繁項集挖掘階段調(diào)用頻繁模式增長改進算法進行頻繁項集的挖掘;對挖掘結果進行冗余處理,得到最終的告警頻 繁項集;后對所挖掘的結果進行解釋和呈現(xiàn)。榮譽處理步驟如下(1)從設備中采集告警數(shù)據(jù),并對數(shù)據(jù)進行清洗和集成,建立告警id表,來標記告 警數(shù)據(jù),完成數(shù)據(jù)的采集和準備工作。(2)設置告警時間窗和滑動窗口,對數(shù)據(jù)進行轉(zhuǎn)換,將關系型告警數(shù)據(jù),轉(zhuǎn)換成事 務型告警數(shù)據(jù)。(3)設置支持度閾值,調(diào)用改進的頻繁模式增長算法,對告警數(shù)據(jù)進行頻繁項集挖 掘。(4)對挖掘結果進行冗余處理。(5)對最終得到的告警頻繁項集進行合理的解釋,并將結果呈現(xiàn)給運維人員便于 查詢和維護。
實施例本發(fā)明針對各類面向3G、NGN、移動互聯(lián)網(wǎng)等新一代通信網(wǎng)絡監(jiān)控與管理的要求, 解決了當前大型通信網(wǎng)絡難以實現(xiàn)的告警關聯(lián)分析問題。本發(fā)明采用的基于數(shù)據(jù)挖掘的告 警頻繁項集獲取技術以及挖掘結果的冗余處理技術,能夠高效的處理海量告警中頻繁出現(xiàn) 的告警序列。將本發(fā)明應用于某通信公司告警數(shù)據(jù)的挖掘工作中,獲得三個月500多萬條 告警數(shù)據(jù)。包含了愛立信、諾基亞和華為三種廠商的典型設備。挖掘結果如下表所示
權利要求
1.通信告警頻繁項集挖掘引擎及冗余處理方法,其特征在于挖掘引擎包括以下內(nèi)容(1)采集通信告警數(shù)據(jù)并對數(shù)據(jù)進行預處理,通過對數(shù)據(jù)的預處理確保告警頻繁項集 挖掘的效率、準確度以及最終結果的有效性;(2)設定了告警時間窗和滑動步長兩個參數(shù),將告警關系型數(shù)據(jù)轉(zhuǎn)化成事務型數(shù)據(jù), 最大程度地保證在一個告警時間窗內(nèi)告警發(fā)生的完整性,為告警頻繁項集的挖掘工作做準 備;(3)頻繁模式增長改進算法,建立項頭列表和條件模式樹,在每條路徑上挖掘低階項的 所有條件模式基,并進行標記,在挖掘每一項時,首先判斷該節(jié)點標記,如果標記為真,則跳 過該路徑,直接挖掘下一個路徑,這樣只需要挖掘部分低階的項,就可以遍歷所有的路徑, 找出所有的條件模式基,然后生成條件模式樹,挖掘頻繁項集;(4)對挖掘到的告警頻繁項集進行冗余處理,將最大頻繁項集的所有子集,在支持數(shù)上 進行比較,從最大η階頻繁項集開始,如果η-1階子集的支持數(shù)大于等于最大η階頻繁項集 的支持數(shù)不超過一個常數(shù)c,將此項集刪除,對于滿足上述的頻繁項集進行保留;(5)對獲取到的告警頻繁項集進行歸納整理,并提供詳細的解釋信息,便于運維人員進 行規(guī)則核對。冗余處理步驟如下(1)從設備中采集告警數(shù)據(jù),并對數(shù)據(jù)進行清洗和集成,建立告警id表來標記告警數(shù) 據(jù),完成數(shù)據(jù)的采集和準備工作;(2)設置告警時間窗和滑動窗口,對數(shù)據(jù)進行轉(zhuǎn)換,將關系型告警數(shù)據(jù),轉(zhuǎn)換成事務型 告警數(shù)據(jù);(3)設置支持度閾值,調(diào)用改進的頻繁模式增長算法,對告警數(shù)據(jù)進行頻繁項集挖掘;(4)對挖掘結果進行冗余處理;(5)對最終得到的告警頻繁項集進行合理的解釋,并將結果呈現(xiàn)給運維人員便于查詢 和維護。
全文摘要
本發(fā)明提供一種通信告警頻繁項集挖掘引擎及冗余處理方法,本發(fā)明提供了通信告警頻繁項集挖掘及其冗余處理引擎架構及實現(xiàn),該引擎能夠處理海量的告警信息,并且不依賴于通信網(wǎng)絡的拓撲結構。能夠高效地挖掘出告警中的頻繁項集,并對挖掘結果進行冗余處理,滿足實際應用需要。該引擎由告警數(shù)據(jù)的獲取及預處理、參數(shù)的設定及告警類型轉(zhuǎn)換、頻繁模式增長改進算法、挖掘結果的冗余處理、最終結果的解釋與呈現(xiàn)五部分組成。基于本發(fā)明的告警頻繁項集挖掘及冗余處理引擎,可在不需要專家和運維人員的參與下實現(xiàn)通信網(wǎng)絡的告警關聯(lián),而且能夠在較低的運營成本情況下,成倍地提高處理效率,特別適合于通信網(wǎng)絡的關聯(lián)規(guī)則分析工作,具有廣泛的應用前景和良好的實用價值。
文檔編號G06F17/30GK102142992SQ20111000435
公開日2011年8月3日 申請日期2011年1月11日 優(yōu)先權日2011年1月11日
發(fā)明者李洋, 苗再良 申請人:浪潮通信信息系統(tǒng)有限公司