一種運(yùn)維自動化系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種監(jiān)控分析系統(tǒng),尤其是設(shè)及一種信息系統(tǒng)運(yùn)維自動化系統(tǒng)及方 法。
【背景技術(shù)】
[0002] 現(xiàn)有技術(shù)目前對各信息系統(tǒng)及網(wǎng)絡(luò)情況有告警監(jiān)控,集團(tuán)信息系統(tǒng)主要通過信息 運(yùn)維綜合監(jiān)管平臺(IM巧監(jiān)控告警,服務(wù)器主機(jī)通過主機(jī)監(jiān)控系統(tǒng)進(jìn)行監(jiān)控告警,數(shù)據(jù)中 屯、機(jī)房環(huán)境通過環(huán)控系統(tǒng)進(jìn)行監(jiān)控告警,網(wǎng)絡(luò)通過告警系統(tǒng)監(jiān)控告警,SAP業(yè)務(wù)系統(tǒng)通過 OCC進(jìn)行監(jiān)控告警,但總體各監(jiān)控系統(tǒng)還比較分散,未進(jìn)行集成整合,同時也缺乏自動化的 故障分析定位,故障分析和形成知識庫和自定義的數(shù)據(jù)分析模型,實現(xiàn)對隱患、性能瓶頸和 可能事件的預(yù)警。同時,集團(tuán)內(nèi)服務(wù)器集群規(guī)模大、結(jié)構(gòu)復(fù)雜,服務(wù)器負(fù)載隨時間變化,并且 存儲數(shù)據(jù)量隨時間而積累,一旦服務(wù)器某些節(jié)點(diǎn)負(fù)載過重或存儲空間溢出,會為整個電力 系統(tǒng)造成巨大損失。
[0003] 根據(jù)運(yùn)維業(yè)務(wù)現(xiàn)狀來看,目前服務(wù)器、存儲、數(shù)據(jù)庫等運(yùn)維不僅耗費(fèi)大量人力,而 且運(yùn)維效率底、成本高。現(xiàn)階段,傳統(tǒng)的、被動的、孤立的、半自動式的運(yùn)維管理模式經(jīng)常讓 運(yùn)維部口疲急不堪,其問題主要表現(xiàn)在W下幾個方面:
[0004] 1)無統(tǒng)一的運(yùn)維平臺 陽〇化]一方面,各個運(yùn)維監(jiān)控平臺(如信息運(yùn)維綜合監(jiān)管平臺、主機(jī)監(jiān)控系統(tǒng)等)之間相 互獨(dú)立工作,運(yùn)維信息分散、管理不集中,各類資源沒有進(jìn)行整合,運(yùn)維管理人員往往需要 對多個平臺進(jìn)行監(jiān)管,不僅工作量大,而且效率低下;另一方面,服務(wù)器各節(jié)點(diǎn)、磁盤各個分 區(qū)使用情況、數(shù)據(jù)庫及表的使用率等分別使用不同的監(jiān)控查詢機(jī)制,可視化效果差,各個監(jiān) 控設(shè)備的狀態(tài)信息顯示形式互異,不能對查詢結(jié)果進(jìn)行對比,更不能在全局范圍內(nèi)統(tǒng)計整 個集群設(shè)備狀態(tài)信息,無法實現(xiàn)對集群狀態(tài)信息的全局掌控。
[0006] 2)缺乏危險預(yù)測機(jī)制
[0007] 由于運(yùn)維系統(tǒng)缺乏危險預(yù)測功能,通常運(yùn)維人員需要保持24小時開機(jī),時刻要警 惕服務(wù)器安全問題的發(fā)生。如果服務(wù)器出現(xiàn)故障,或磁盤、數(shù)據(jù)庫空間寫滿,而運(yùn)維人員不 能立刻到達(dá)現(xiàn)場,會對集團(tuán)造成重大損失。
[0008] 3)缺乏輔助決策機(jī)制
[0009] 當(dāng)前運(yùn)維監(jiān)控系統(tǒng)只是簡單扮演"監(jiān)控告警"角色,當(dāng)各設(shè)備的實際監(jiān)測值大于所 設(shè)定闊值時,進(jìn)行告警?,F(xiàn)階段運(yùn)維監(jiān)控系統(tǒng)普遍缺乏輔助決策機(jī)制,當(dāng)告警、故障出現(xiàn)時 不能有效幫助運(yùn)維人員進(jìn)行事務(wù)處理,提供指導(dǎo)參考。同時由于運(yùn)維自動化水平的低下,很 多簡單的故障都需要運(yùn)維人員手動進(jìn)行處理,加大了工作負(fù)擔(dān)。所W,亟需建立輔助決策機(jī) 制。
[0010] 為推進(jìn)運(yùn)檢自動化管理,提升運(yùn)檢人員工作效率,提升運(yùn)維標(biāo)準(zhǔn)化和自動化水平, 實現(xiàn)運(yùn)維工作可靠、高效和信息系統(tǒng)的"可控、能控、在控",進(jìn)行運(yùn)維自動化應(yīng)用勢在必行。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種運(yùn)維自動化系統(tǒng)及方法,W服 務(wù)器集群運(yùn)維為中屯、,建設(shè)統(tǒng)一運(yùn)維監(jiān)控管理與負(fù)載預(yù)測系統(tǒng),管理監(jiān)控CPU、內(nèi)存、磁盤、 數(shù)據(jù)庫表運(yùn)行、使用狀態(tài)信息,并設(shè)計存儲與預(yù)測模型,實現(xiàn)整個服務(wù)器運(yùn)維集群中的存儲 資源預(yù)測管理與計算資源分配管理。
[0012] 本發(fā)明的目的是通過W下技術(shù)方案來實現(xiàn)的:一種運(yùn)維自動化系統(tǒng),它包括W下 功能模塊:
[0013] 數(shù)據(jù)采集模塊:用于通過網(wǎng)管協(xié)議或者日志文件獲取運(yùn)維系統(tǒng)中各個被監(jiān)控單元 的關(guān)鍵性能指標(biāo)和運(yùn)行狀態(tài),為運(yùn)維數(shù)據(jù)處理、分析W及預(yù)測提供數(shù)據(jù)基礎(chǔ)。
[0014] 預(yù)處理與存儲模塊:對數(shù)據(jù)采集模塊采集得到的數(shù)據(jù)進(jìn)行清洗、過濾、補(bǔ)缺失處理 和自動刪除預(yù)處理,同時對于結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)化和元數(shù)據(jù)提取,對于 不同類別的運(yùn)維數(shù)據(jù)進(jìn)行分類存儲。
[0015] 預(yù)測模塊:根據(jù)預(yù)處理與存儲模塊處理之后的數(shù)據(jù),針對不同的預(yù)測方式建立不 同的預(yù)測模型并進(jìn)行預(yù)測,所述的預(yù)測模塊包括CPU負(fù)載預(yù)測模塊和磁盤負(fù)載預(yù)測模塊。
[0016] 算法評價模塊:建立預(yù)測模塊的預(yù)測算法的評價標(biāo)準(zhǔn),將實際值與預(yù)測算法的預(yù) 測值進(jìn)行對比,建立自學(xué)習(xí)過程:當(dāng)預(yù)測算法的預(yù)測值不滿足規(guī)定誤差時,根據(jù)實際值修改 預(yù)測模塊的預(yù)測模型參數(shù),保證在特定環(huán)境和特定時間內(nèi)選擇出合適的算法模型。
[0017] 運(yùn)維監(jiān)控管理模塊:負(fù)責(zé)和運(yùn)維管理人員按進(jìn)行交互,其包括W下子模塊:
[0018] (1)數(shù)據(jù)展示單元:將數(shù)據(jù)采集模塊采集到的監(jiān)控單元的數(shù)據(jù)經(jīng)過預(yù)處理與存儲 模塊的分析和加工之后,向運(yùn)維管理人員進(jìn)行展示。
[0019] 似預(yù)測信息展示單元:將預(yù)測模塊預(yù)測得到的CPU負(fù)載和磁盤空間使用情況的 預(yù)測信息展示給運(yùn)維管理人員。
[0020] (3)告警單元:監(jiān)聽被監(jiān)控設(shè)備的狀態(tài)信息,包括當(dāng)前狀態(tài)信息和預(yù)測狀態(tài)信息, 當(dāng)設(shè)備某一狀態(tài)數(shù)據(jù)值超過所設(shè)置的闊值時,告警模塊將按提前設(shè)置好的告警方式進(jìn)行告 警,并且根據(jù)常見運(yùn)維故障構(gòu)建知識庫,在做出告警信息的同時并給出輔助決策。
[0021] 所述的數(shù)據(jù)采集模塊采集的數(shù)據(jù)來自于集群中主機(jī)服務(wù)器、數(shù)據(jù)庫、存儲設(shè)備和 監(jiān)控設(shè)備,包括非云環(huán)境下的數(shù)據(jù)采集和云環(huán)境下的數(shù)據(jù)采集,其中,對于非云環(huán)境下的數(shù) 據(jù)采集,針對不同的數(shù)據(jù)采集環(huán)境,提供集中式數(shù)據(jù)采集和分層式數(shù)據(jù)采集的框架,并且采 用SY化0G、SNMP、肥B沈RVICE、JMS協(xié)議的采集方式;對于云環(huán)境下的數(shù)據(jù)采集,提供多級多 域的數(shù)據(jù)采集框架,直接對云環(huán)境下的中的管理節(jié)點(diǎn)進(jìn)行數(shù)據(jù)采集。
[0022] 所述的運(yùn)維監(jiān)控管理模塊還包括一個用戶管理單元,所述的用戶管理單元用于權(quán) 限管理、用戶信息管理、用戶注冊和用戶登錄。
[0023] 所述的告警單元還包括對于有相應(yīng)權(quán)限的用戶提供告警級別設(shè)置、告警方式設(shè)置 和告警闊值設(shè)置子模塊。
[0024] 一種運(yùn)維自動化的方法,它包括W下步驟:
[00巧]Sl:數(shù)據(jù)采集,用于通過網(wǎng)管協(xié)議或者日志文件獲取運(yùn)維系統(tǒng)中各個被監(jiān)控單元 的關(guān)鍵性能指標(biāo)和運(yùn)行狀態(tài),為運(yùn)維數(shù)據(jù)處理、分析W及預(yù)測提供數(shù)據(jù)基礎(chǔ);
[00%] S2:預(yù)處理與存儲,對采集得到的數(shù)據(jù)進(jìn)行清洗、過濾、補(bǔ)缺失處理和自動刪除預(yù) 處理,同時對于結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)化和元數(shù)據(jù)提取,對于不同類別的運(yùn) 維數(shù)據(jù)進(jìn)行分類存儲;
[0027] S3:預(yù)測,利用預(yù)處理后的數(shù)據(jù),根據(jù)不同的預(yù)測方式建立不同的預(yù)測模型并進(jìn)行 預(yù)測,所述的預(yù)測模型包括CPU負(fù)載預(yù)測模型和磁盤負(fù)載預(yù)測模型;
[0028]S4:模型評價,建立預(yù)測模型的評價標(biāo)準(zhǔn),將實際值與預(yù)測模型的預(yù)測值進(jìn)行對 比,建立自學(xué)習(xí)過程:當(dāng)預(yù)測模型的預(yù)測值不滿足規(guī)定誤差時,根據(jù)實際值修改預(yù)測模型的 預(yù)測模型參數(shù),保證在特定環(huán)境和特定時間內(nèi)選擇出合適的模型;
[0029] S5 :運(yùn)維監(jiān)控管理,負(fù)責(zé)和運(yùn)維管理人員按進(jìn)行交互,其包括W下子步驟:
[0030] S51 :數(shù)據(jù)展示,將采集到的監(jiān)控單元的數(shù)據(jù)經(jīng)過預(yù)處理與存儲后,向運(yùn)維管理人 員進(jìn)行展示;
[00川 S52 :預(yù)測信息展示,將預(yù)測得到的CPU負(fù)載和磁盤空間使用情況展示給運(yùn)維管理 人員;
[0032]S53:告警,監(jiān)聽被監(jiān)控設(shè)備的狀態(tài)信息,包括當(dāng)前狀態(tài)信息和預(yù)測狀態(tài)信息,當(dāng)設(shè) 備某一狀態(tài)數(shù)據(jù)值超過所設(shè)置的闊值時,告警模塊將按提前設(shè)置好的告警方式進(jìn)行告警, 并且根據(jù)常見運(yùn)維故障構(gòu)建知識庫,在做出告警信息的同時并給出輔助決策。
[0033] 所述的磁盤負(fù)載預(yù)測模型為磁盤使用空間增長隨業(yè)務(wù)量與季節(jié)的變化而變化的 規(guī)律模型,其建模過程包括W下子步驟:
[0034]S311:建立基于時間序列的線性季節(jié)性增長模型,公式如下:
[0035] Yt= (a+bt)+S t+It;
[0036] 式中,yt為磁盤空間使用量,t為時間,St為季節(jié)變化,It為新增業(yè)務(wù)上線,a與b 均為常數(shù);
[0037]S312:確定步驟S311中的模型的輸入值,包括W下子步驟:
[0038]A :根據(jù)預(yù)處理與存儲,獲取服務(wù)器磁盤空間的已用空間、增長量、磁盤剩余空間;
[0039]B:通過增長量變化率即平均日增長量增量At'計算得出季節(jié)變化St:設(shè)日增長 量為At,平均日增長量增量為At' =Ati-At2,St即為平均日增長量增量At'在[t1,t2] 時間段內(nèi)的積分值,即
[00川 C:新增業(yè)務(wù)上線It與用戶使用量U相關(guān),用戶使用量U由每日業(yè)務(wù)點(diǎn)擊量計量, 經(jīng)業(yè)務(wù)數(shù)據(jù)與磁盤存儲之間的關(guān)系計算,獲得新增業(yè)務(wù)上線It;
[00創(chuàng) D:通過平均日增長量At'計算得出a與b,a與b的值為線性增長;
[0043]S313:根據(jù)步驟S312獲得的磁盤空間使用量yt的數(shù)據(jù)輸入值帶入步驟S311中的 增長模型,經(jīng)過計算得到磁盤使用空間值yt;
[0044]S314:根據(jù)步驟S313得到的磁盤使用空間值yt,進(jìn)行反解獲得告警時間,并發(fā)送 至運(yùn)維監(jiān)控管理模塊;當(dāng)運(yùn)維監(jiān)控管理模塊得到數(shù)據(jù)之后,通知運(yùn)維監(jiān)控人員進(jìn)行磁盤容 量擴(kuò)充或磁盤信息整理。
[0045] 所述的CPU負(fù)載預(yù)測模型包括基于模式的預(yù)測算法模型,其建模過程包括W下子 步驟:
[0046] S321 :獲取經(jīng)過預(yù)處理之后提取出來的CPU運(yùn)行狀態(tài)信息和CPU自身性能信息的 CPU負(fù)載歷史數(shù)據(jù),并且計算出各個時間節(jié)點(diǎn)上的CPU負(fù)載Load。。。,公式如下:
|;0048] 式中,used_cpu表示已使用的CPU,all_cpu表示總共的CPU,二者均W百萬條指令 每秒MIPS為單位;
[0049] S322 :對輸入的CPU負(fù)載歷史數(shù)據(jù)進(jìn)行計算預(yù)處理,并計算CPU負(fù)載在每個時間節(jié) 點(diǎn)上的變化率CR,公式如下:
[0051] 式中,為ti時刻的CPU負(fù)載數(shù)值,i= 0, 1,2,. ..,n;
[0052] S323 :選取當(dāng)前模式匹配長度以構(gòu)造CPU負(fù)載歷史數(shù)據(jù)及當(dāng)前負(fù)載模式、CPU負(fù)載 的變化率及當(dāng)前的變化率模式;
[0053] S324 :對輸入的CPU負(fù)載歷史數(shù)據(jù)進(jìn)行分段,段數(shù)為N,逐段計算相似性程度,包括 W下子步驟:
[0054] S3241 :令變量i的值為0 ;
[0055] S3242 :判斷i的值是否比N小的條件是否符合:
[0056] (1)如果條件不符合進(jìn)入步驟S325 ;
[0057] 似如果條件符合,包括W下子步驟:
[005引A:計算SDcR(ti)和SDcpu(ti),其中SDcR(ti)表示在CPU歷史記錄數(shù)據(jù)中從ti-L至。t逛段時間中記錄的CPU負(fù)載的標(biāo)準(zhǔn)差,SDcpu(ti)為當(dāng)前模式記錄的CPU負(fù)載的標(biāo)準(zhǔn)差; [0059]B:判斷W下兩個條件中的至少一項是否成立,如果成立則進(jìn)入步驟S3243,如果 不成立則對i的值進(jìn)行加1操作之后返回步驟S3242 : 1^0060]條件 1:SDcpu(ti)《SDcpu_threshold;
[006^1]條件 2:SDcpu(ti)《SDcpu_ /TOLERANCE并且SDck(ti)《SDck ^THRESHOLD
[00創(chuàng)式中,SDcp。胃表示相似模式標(biāo)準(zhǔn)的最大CPU負(fù)載標(biāo)準(zhǔn)方差, SDcpL)_T0LERANCE表習(xí)^ CPU負(fù)載標(biāo)準(zhǔn)方差的寬限值,SDttTHKESHaD表示相似模式標(biāo)準(zhǔn)的最大CPU負(fù)載變化率標(biāo)準(zhǔn)方 差;
[0063] S3243 :將ti處的SDCK(ti)和SDcpu(ti)加入相似模式集合Q中;
[0064] S325 :將集合Q中的相似模式按距離當(dāng)前模式時間的遠(yuǎn)近進(jìn)行排序,并賦予不同 權(quán)值;
[00化]S326 :將不同權(quán)重的相似模式的截止時間點(diǎn)ti點(diǎn)及其對應(yīng)權(quán)重保存在集合P中, 公式如下:
陽067] 式中,Pcpu(ti)表示距當(dāng)前模式第i個CPU負(fù)載模式,i= 0, 1,2, . . .,n;i越大表 示離當(dāng)前模式的時間越遠(yuǎn),a1表示相似模式i的權(quán)重;P? (t。)表示當(dāng)前CPU負(fù)載模式;W側(cè)S327 :遍歷集合P,計算各個預(yù)測值,比較得到最終預(yù)測值;
[0069] S328 :將得到的一