面向證券期貨行業(yè)大型分布式系統(tǒng)的智能監(jiān)控系統(tǒng)及監(jiān)控方法
【技術領域】
[0001]本發(fā)明涉及一種針對分布式系統(tǒng)的智能監(jiān)控系統(tǒng)以及應用該系統(tǒng)的監(jiān)控方法,尤其涉及一種面向證券期貨行業(yè)大型分布式系統(tǒng)的智能監(jiān)控系統(tǒng)。主要涉及專利分類號G06計算;推算;計數(shù)G06F電數(shù)字數(shù)據(jù)處理G06F11/00錯誤檢測;錯誤校正;監(jiān)控G06F11/30監(jiān)控。
【背景技術】
[0002]近年來,國內(nèi)外大中型金融機構和企業(yè)廣泛采用分布式系統(tǒng)技術,以滿足金融業(yè)務對并行高性能應用處理和應用容錯的需求。分布式技術為IT系統(tǒng)帶來應用處理性能提升和容錯能力提升的同時,也導致了 IT系統(tǒng)軟硬件規(guī)模的急劇擴大,為IT運維工作帶來極大的挑戰(zhàn)。
[0003]面對以上挑戰(zhàn),各大金融機構和企業(yè)的IT運維部門普遍采用相應對策,通過建設和使用IT監(jiān)控系統(tǒng)實現(xiàn)對IT系統(tǒng)故障的預警、告警、性能和容量瓶頸發(fā)現(xiàn)及故障綜合分析,進而保障IT系統(tǒng)的安全穩(wěn)定運行。IT監(jiān)控系統(tǒng)已經(jīng)成為IT運維中不可缺少的核心部件。
[0004]目前,市場上不難找到功能較全面的IT監(jiān)控軟件和系統(tǒng),其中不乏知名IT廠商提供的大型的IT監(jiān)控軟件和系統(tǒng)。但是,這些軟件和系統(tǒng)無法全面滿足用戶的個性化需求,系統(tǒng)的規(guī)劃設計較為封閉,提供的擴展方式和集成方式過于簡單呆板,導致新增功能難以集成,造成IT監(jiān)控系統(tǒng)進行橫向的規(guī)模擴展和縱向的功能擴展后,無法在可用性、擴展性、效率和智能化水平上得到有力的保障。
【發(fā)明內(nèi)容】
[0005]本發(fā)明針對以上問題的提出,而研制的一種面向證券期貨行業(yè)大型分布式系統(tǒng)的智能監(jiān)控系統(tǒng),系統(tǒng)應用于各數(shù)據(jù)中心之間,基于非集中控制的體系結構,具有:
[0006]數(shù)據(jù)采集層,該層位于系統(tǒng)底層,采集和壓縮監(jiān)控對象的監(jiān)視信息;
[0007]監(jiān)視控制層,該層與所述的數(shù)據(jù)采集層通信,分析管理由數(shù)據(jù)采集層傳輸?shù)膶崟r數(shù)據(jù)和歷史數(shù)據(jù);分析、管理事件、診斷故障、管理專家?guī)旌涂刂苿幼饔|發(fā);以及
[0008]展示層,該層位于系統(tǒng)最上層,向用戶展示和告警;
[0009]所述的數(shù)據(jù)采集層包括:前臺數(shù)據(jù)采集模塊、后臺數(shù)據(jù)采集模塊和共用的數(shù)據(jù)緩沖區(qū);
[0010]所述后臺數(shù)據(jù)采集模塊采集監(jiān)控對象信息,將該信息寫入數(shù)據(jù)緩沖區(qū),該模塊控制多個后臺數(shù)據(jù)采集實例的啟停;
[0011]所述前臺數(shù)據(jù)采集模塊,接收數(shù)據(jù)請求者的數(shù)據(jù)采集請求,按數(shù)據(jù)采集請求中指定的采集間隔,從數(shù)據(jù)緩沖區(qū)中采集特定指標的數(shù)據(jù),采集數(shù)據(jù)后返回給數(shù)據(jù)請求者,該模塊控制多個前臺數(shù)據(jù)采集實例的啟停;
[0012]工作時,所述的前臺數(shù)據(jù)采集模塊檢測所述的周期線程被啟動的原因,若非因新請求啟動,則所述的前臺數(shù)據(jù)采集實例從數(shù)據(jù)緩沖區(qū)中讀取需要采集的數(shù)據(jù)信息,并將采集到的信息返回給數(shù)據(jù)請求者;
[0013]若判定所述的周期性線程啟動的原因為新請求到來,則繼續(xù)判定該新請求類型是否為數(shù)據(jù)采集請求;若為新到來的數(shù)據(jù)采集請求,則建立新的前臺數(shù)據(jù)采集實例,同時,前臺數(shù)據(jù)采集模塊向所述的后臺數(shù)據(jù)采集模塊發(fā)送包含數(shù)據(jù)采集間隔和指標的數(shù)據(jù)采集請求;
[0014]后臺數(shù)據(jù)采集模塊接收到所述的數(shù)據(jù)采集請求,整合全部接收到的前臺發(fā)送的數(shù)據(jù)采集信息的數(shù)據(jù)采集間隔,按所述采集間隔時間的公約數(shù)判定是否需要建立新的數(shù)據(jù)后臺數(shù)據(jù)采集實例;若需要,則建立新的后臺數(shù)據(jù)采集實例;若不需要,則判定是否需要調(diào)整所述由前臺數(shù)據(jù)采集模塊傳送的時間間隔,若需要,則調(diào)節(jié)所述的數(shù)據(jù)采集時間間隔進行數(shù)據(jù)采集。
[0015]所述的前臺數(shù)據(jù)采集模塊判定為新請求啟動所述的周期性線程后,首先判定該新請求類型是否為結束數(shù)據(jù)采集請求,若為結束數(shù)據(jù)采集請求,則清除與之前數(shù)據(jù)采集指令對應的前臺數(shù)據(jù)采集實例,將所述采集終止信息傳遞給所述的后臺數(shù)據(jù)采集管理實例。
[0016]所述的后臺數(shù)據(jù)采集模塊首先判定周期性線程是否是達到了由否是由前臺數(shù)據(jù)采集實例傳輸?shù)牟杉g隔,若達到了采集間隔,則采集所需要的數(shù)據(jù)信息,將采集得到的數(shù)據(jù)信息放入所述的數(shù)據(jù)緩沖區(qū)。
[0017]若所述的后臺數(shù)據(jù)采集模塊接收到的信息不是數(shù)據(jù)采集信息,則判斷是否需要清除后臺數(shù)據(jù)采集實例;若只是部分請求者終止數(shù)據(jù)采集請求,則不清除對應的后臺數(shù)據(jù)采集實例,首先判定是否需要調(diào)整數(shù)據(jù)采集時間間隔,如果需要調(diào)整數(shù)據(jù)采集時間間隔,則調(diào)整數(shù)據(jù)采集時間間隔。
[0018]所述的數(shù)據(jù)采集層至少包含四類模塊:標準硬件監(jiān)控類、標準軟件監(jiān)控類、非標準硬件監(jiān)控類和非標準軟件監(jiān)控類;
[0019]所述的監(jiān)視控制層至少包含:通過數(shù)據(jù)總線模塊與所述數(shù)據(jù)采集層中各模塊通信的實時監(jiān)視和診斷模塊、與該模塊通信的事件分析和管理模塊、歷史數(shù)據(jù)分析和管理模塊、控制模塊以及專家?guī)欤?br>[0020]所述的展示層具有一與所述的控制模塊、實時監(jiān)視和診斷模塊、事件分析和管理模塊、歷史數(shù)據(jù)分析和管理模塊通信的展示模塊。
[0021]所述
[0022]標準硬件監(jiān)控類至少包含:服務器監(jiān)控模塊和網(wǎng)絡設備監(jiān)控模塊;
[0023]標準軟件監(jiān)控類至少包含:操作系統(tǒng)監(jiān)控模塊、數(shù)據(jù)庫監(jiān)控模塊、J2EE監(jiān)控模塊;
[0024]非標準硬件監(jiān)控類至少包含:安全設備監(jiān)控模塊、存儲監(jiān)控模塊、機房環(huán)境監(jiān)控模塊和大數(shù)據(jù)設備監(jiān)控模塊;
[0025]非標準軟件監(jiān)控類至少包含:應用程序監(jiān)控模塊和交易延遲監(jiān)控模塊。
[0026]一種面向證券期貨行業(yè)大型分布式系統(tǒng)的智能監(jiān)控方法,其特征在于具有如下步驟:
[0027]一在多個數(shù)據(jù)中心之間建設非集中控制的、可裁剪的對稱結構的的監(jiān)控系統(tǒng);
[0028]一啟動所述的監(jiān)控系統(tǒng),各數(shù)據(jù)中心內(nèi)部的數(shù)據(jù)的數(shù)據(jù)采集單元采集和壓縮監(jiān)控對象的數(shù)據(jù);
[0029]—檢測所述的周期性線程被啟動的原因,若所述的周期性線程被啟動的原因是有新的請求,則判定該新請求類型是否是結束數(shù)據(jù)采集請求;
[0030]一若為結束數(shù)據(jù)采集請求,則清除前臺數(shù)據(jù)采集實例,將數(shù)據(jù)采集終止信息傳遞給所述的后臺數(shù)據(jù)采集管理實例;
[0031]一若非結束數(shù)據(jù)采集請求,則建立新的前臺數(shù)據(jù)采集實例,將采集間隔和指標傳遞給后臺數(shù)據(jù)采集管理實例;
[0032]一所述后臺數(shù)據(jù)采集模塊接收到的信息是所述由前臺傳送的數(shù)據(jù)采集信息,則所述的后臺采集管理實例將所有的數(shù)據(jù)采集信息進行整合以判斷是否需要建立新的后臺數(shù)據(jù)采集實例;
[0033]一如果需要建立新的后臺數(shù)據(jù)采集實例,則建立新的后臺數(shù)據(jù)采集實例;
[0034]一如果不需要建立后臺數(shù)據(jù)采集實例,則判斷是否需要調(diào)整數(shù)據(jù)采集時間間隔;如果需要調(diào)整數(shù)據(jù)采集時間間隔;則調(diào)整時間間隔。
[0035]所述的若檢測所述的周期性線程被啟動不是因為有新的請求到達,則從所述的數(shù)據(jù)緩沖區(qū)中讀取所需要采集的數(shù)據(jù)信息,將所獲得的數(shù)據(jù)信息返回數(shù)據(jù)請求者。
[0036]還在于包括如下步驟:
[0037]一如果后臺數(shù)據(jù)采集模塊所接收到的信息不是數(shù)據(jù)采集信息,則判斷是否需要清除后臺數(shù)據(jù)采集實例;
[0038]一如果只是部分請求者終止了數(shù)據(jù)請求,則不需要清除相應的后臺數(shù)據(jù)采集實例;而判斷是否需要調(diào)整數(shù)據(jù)采集的時間間隔;如果需要調(diào)整數(shù)據(jù)采集時間間隔,則調(diào)整數(shù)據(jù)采集時間間隔。
[0039]由于采用了上述技術方案,本發(fā)明提出的面向證券期貨行業(yè)大型分布式系統(tǒng)的智能監(jiān)控系統(tǒng)及監(jiān)控方法具有如下優(yōu)點:
[0040]1.可用性好。本發(fā)明系統(tǒng)實現(xiàn)了多數(shù)據(jù)中心IT智能監(jiān)控系統(tǒng)的控制中心的分布部署,保證了個別數(shù)據(jù)中心出現(xiàn)整體或部分不可用情況下的IT智能監(jiān)控系統(tǒng)的可用性。
[0041]2.可擴展性好。本發(fā)明系統(tǒng)中多數(shù)據(jù)中心的IT智能監(jiān)控系統(tǒng)采用對稱結構,方便進行數(shù)據(jù)中心的復制和批量維護,能夠全面滿足用戶的個性化需求。
[0042]3.效率高。本發(fā)明系統(tǒng)模塊進行了合理的分類別、分層次、分功能設計,保證了系統(tǒng)可以穩(wěn)定高效運行。
【附圖說明】
[0043]為了更清楚的說明本發(fā)明的實施例或現(xiàn)有技術的