本發(fā)明屬于機(jī)場數(shù)據(jù)處理,尤其涉及一種機(jī)場數(shù)據(jù)服務(wù)接口故障分析方法及系統(tǒng)。
背景技術(shù):
1、機(jī)場內(nèi)部信息化系統(tǒng)較多,例如a-cdm系統(tǒng)、地面服務(wù)系統(tǒng)、飛行區(qū)管理系統(tǒng)等,涉及生產(chǎn)、服務(wù)、安全和管理等方面,各信息系統(tǒng)間需進(jìn)行數(shù)據(jù)的交互和共享,同時(shí)還需接入外部系統(tǒng)數(shù)據(jù),例如空管數(shù)據(jù)、航空公司數(shù)據(jù)等,數(shù)據(jù)服務(wù)接口常用于各應(yīng)用系統(tǒng)之間數(shù)據(jù)傳輸和存儲,一旦出現(xiàn)異常則會導(dǎo)致機(jī)場數(shù)據(jù)接收不及時(shí)甚至中斷,影響機(jī)場正常運(yùn)營,導(dǎo)致旅客投訴,因此發(fā)明一種高效智能的數(shù)據(jù)服務(wù)接口故障分析方法尤為必要。
2、發(fā)明專利(公開號cn113032238a,公開日20210625)公開了一種基于應(yīng)用知識圖譜的實(shí)時(shí)根因分析方法,通過構(gòu)建應(yīng)用知識圖譜,實(shí)現(xiàn)對運(yùn)維對象kpi指標(biāo)的實(shí)時(shí)檢測和根因分析。所用核心方法包括:多指標(biāo)異常檢測方法、跨層的應(yīng)用知識圖譜異常推理、故障鏈剪枝;基于相似性算法的實(shí)例級根因分析,最終能夠定位到系統(tǒng)故障的根本原因。以上方法從應(yīng)用服務(wù)和數(shù)據(jù)庫、中間件等資源類故障入手,未涉及錯(cuò)誤類、性能類故障的分析,不夠全面且故障定位效率不高。
技術(shù)實(shí)現(xiàn)思路
1、為克服相關(guān)技術(shù)中存在的問題,本發(fā)明公開實(shí)施例提供了一種機(jī)場數(shù)據(jù)服務(wù)接口故障分析方法及系統(tǒng)。針對數(shù)據(jù)及時(shí)、高效傳輸是機(jī)場正常生產(chǎn)運(yùn)營的基石,一旦發(fā)生故障將會產(chǎn)生不良影響,輕則航班延誤、旅客積壓,重則引發(fā)安全問題。本發(fā)明目的在于提出一種機(jī)場數(shù)據(jù)服務(wù)接口故障分析方法,通過機(jī)器學(xué)習(xí)算法檢測異常,通過知識圖譜進(jìn)行故障根因分析,幫助運(yùn)維人員及時(shí)發(fā)現(xiàn)問題、高效處理問題,排除風(fēng)險(xiǎn)隱患,避免因數(shù)據(jù)問題影響機(jī)場正常生產(chǎn),從而提升旅客服務(wù)質(zhì)量。
2、所述技術(shù)方案如下:機(jī)場數(shù)據(jù)服務(wù)接口故障分析方法,包括:
3、s1,建立故障判定模型,配置故障判定模型是否需要根因分析;
4、s2,根據(jù)故障判定模型,結(jié)合指標(biāo)、日志、鏈路三個(gè)維度的監(jiān)控?cái)?shù)據(jù),生成告警事件及告警事件詳情;
5、s3,對生成的告警事件判斷是否需要根因分析,對劃分的資源類故障、性能類故障以及錯(cuò)誤類故障,根據(jù)相應(yīng)的處置方式給出告警事件根因以及給出處置推薦。
6、在步驟s1中,所述故障判定模型分為資源類、性能類、錯(cuò)誤類;
7、資源類針對服務(wù)器資源的使用情況進(jìn)行故障判定,該類模型的判定要素為指標(biāo)數(shù)據(jù)、比較符、閾值;
8、性能類針對服務(wù)接口的響應(yīng)時(shí)長進(jìn)行故障判定,該類型的判定要素為響應(yīng)時(shí)長、比較符、閾值;
9、錯(cuò)誤類針對服務(wù)的錯(cuò)誤日志進(jìn)行故障判定,該類型的判定要素為異常關(guān)鍵字。
10、在步驟s2中,指標(biāo)維度監(jiān)控?cái)?shù)據(jù),用于資源類故障的判定,當(dāng)指標(biāo)監(jiān)控?cái)?shù)據(jù)滿足資源類故障判定模型的要素時(shí),生成告警事件及告警事件詳情;
11、日志維度監(jiān)控?cái)?shù)據(jù),用于錯(cuò)誤類故障的判定,當(dāng)日志監(jiān)控?cái)?shù)據(jù)滿足錯(cuò)誤類故障判定模型的要素時(shí),生成告警事件及告警事件詳情;
12、鏈路維度監(jiān)控?cái)?shù)據(jù),用于性能類故障的判定,當(dāng)鏈路監(jiān)控?cái)?shù)據(jù)滿足性能類故障判定模型的要素時(shí),生成所述告警事件及告警事件詳情。
13、進(jìn)一步,針對性能類故障判定模型,判定要素中的閾值分固定閾值和動態(tài)閾值,固定閾值采用人工維護(hù)的方式進(jìn)行配置,動態(tài)閾值采用機(jī)器學(xué)習(xí)算法通過歷史時(shí)序數(shù)據(jù)自動計(jì)算獲得。
14、進(jìn)一步,動態(tài)閾值的計(jì)算方法以機(jī)場日常運(yùn)行中接口的性能的變化規(guī)律為基礎(chǔ),引入機(jī)器學(xué)習(xí)算法,通過回歸預(yù)測算法生成接口性能曲線,并依據(jù)此曲線判斷數(shù)據(jù)服務(wù)接口的性能狀態(tài);
15、其中,接口性能曲線通過回歸預(yù)測算法對歷史數(shù)據(jù)進(jìn)行收集、計(jì)算,具體包括:
16、(1)數(shù)據(jù)樣本采樣:定時(shí)從skywalking中抽取接口調(diào)用性能數(shù)據(jù),將數(shù)據(jù)發(fā)送到kafka消息中間件;
17、(2)樣本處理:利用流式計(jì)算引擎調(diào)storm將大規(guī)模、實(shí)時(shí)的數(shù)據(jù)樣本進(jìn)行分析和計(jì)算,為降低誤差,對異常表現(xiàn)的數(shù)據(jù)進(jìn)行修正,將調(diào)用量過少的樣本數(shù)據(jù)刪除,調(diào)用量相似的數(shù)據(jù)按照相應(yīng)的耗費(fèi)時(shí)長計(jì)算平均值,再將調(diào)用量為0的數(shù)據(jù)修正為平均值,最后將預(yù)處理后的樣本數(shù)據(jù)存至?xí)r間序列數(shù)據(jù)庫opentsdb;
18、(3)異常檢測:異常檢測模塊考慮機(jī)場實(shí)際運(yùn)營情況,包括流控期間、重保期間、航班大面積延誤、暑運(yùn)春運(yùn)高峰、機(jī)場設(shè)備故障保障異常情況;利用l2正則化算法對預(yù)處理后的樣本數(shù)據(jù)進(jìn)行預(yù)測分析,對數(shù)據(jù)0-1標(biāo)準(zhǔn)化,利用公式進(jìn)行線性變換,使結(jié)果落到[0,1]區(qū)間;
19、
20、
21、式中,為標(biāo)準(zhǔn)化后的數(shù)據(jù),為原始數(shù)據(jù),為原始數(shù)據(jù)最大值,為原始數(shù)據(jù)最小值,為損失系數(shù),為目標(biāo)變量,為特征矩陣,為模型權(quán)重,為正則化參數(shù);
22、以刪減部分無效信息、降低部分精度獲得回歸系數(shù)更為符合實(shí)際需求,回歸系數(shù)越大,數(shù)據(jù)的整體增長趨勢就越大;通過所得的回歸系數(shù),按照大小把數(shù)據(jù)服務(wù)接口的發(fā)展趨勢進(jìn)行劃分,主動判斷數(shù)據(jù)服務(wù)接口的性能狀態(tài),在性能故障發(fā)生前提前進(jìn)行干預(yù)。
23、進(jìn)一步,資源類故障處置方式中,針對不同類型資源指標(biāo),執(zhí)行相應(yīng)的指標(biāo)下鉆查詢方法,調(diào)用prometheus的查詢api,獲取詳細(xì)數(shù)據(jù)作為故障根因。
24、進(jìn)一步,性能類故障處置方式中,如果性能類故障發(fā)生,依托調(diào)用鏈,結(jié)合系統(tǒng)拓?fù)洌ㄎ绘溌分懈吆臅r(shí)節(jié)點(diǎn),將高耗時(shí)節(jié)點(diǎn)作為起點(diǎn),按錯(cuò)誤類故障處置流程追溯下游拓?fù)?,并分析異常,獲取異常因果鏈路,取鏈路終點(diǎn)作為告警事件根因。
25、進(jìn)一步,錯(cuò)誤類故障處置方法包括:獲取事件相關(guān)資產(chǎn),匹配故障案例庫,計(jì)算知識圖譜,獲取故障事件的所有可疑路徑,從時(shí)間維度計(jì)算相關(guān)事件,篩選根因路徑,再從語義維度計(jì)算根因路徑的相關(guān)度,篩選根因路徑,最終生成根因路徑,給出處置推薦。
26、進(jìn)一步,錯(cuò)誤類故障根因定位過程包括:
27、第1步,根據(jù)系統(tǒng)圖譜,獲取故障事件的所有可疑路徑;系統(tǒng)圖譜由各業(yè)務(wù)系統(tǒng)的物理及邏輯組成,包含系統(tǒng)所在的物理環(huán)境、相關(guān)的邏輯組件及其關(guān)系,通過cmdb庫、數(shù)據(jù)鏈路、網(wǎng)絡(luò)發(fā)現(xiàn)技術(shù)進(jìn)行系統(tǒng)圖譜的構(gòu)建;
28、第2步,從時(shí)間維度分析每條路徑上的節(jié)點(diǎn)事件相關(guān)性,縮小路徑范圍;
29、第3步,根據(jù)運(yùn)維知識圖譜,從語義維度分析每條路徑上上下游節(jié)點(diǎn)事件相關(guān)性,精確定位根因路徑,確定故障根因。
30、本發(fā)明的另一目的在于提供一種機(jī)場數(shù)據(jù)服務(wù)接口故障分析系統(tǒng),該系統(tǒng)實(shí)施所述機(jī)場數(shù)據(jù)服務(wù)接口故障分析方法,該系統(tǒng)包括:
31、故障模型定義模塊,用于定義資源類、性能類、鏈路類故障判定模型實(shí)例,定義故障判定模型要素信息,配置判定模型是都需要根因分析;
32、告警事件生成模塊,用于告警事件生成,并生成告警事件詳情;性能類故障動態(tài)閾值曲線生成;
33、根因分析模塊,用于生成故障根因分析所需的系統(tǒng)圖譜和運(yùn)維知識圖譜;對劃分的資源類故障、性能類故障以及錯(cuò)誤類故障,根據(jù)相應(yīng)的處置方式給出告警事件根因以及給出處置推薦。
34、結(jié)合上述的所有技術(shù)方案,本發(fā)明所具備的有益效果為:本發(fā)明將機(jī)場數(shù)據(jù)接口故障進(jìn)行分類處理,通過機(jī)器學(xué)習(xí)算法預(yù)測性能發(fā)展趨勢,降低性能類故障的發(fā)生幾率;通過知識圖譜進(jìn)行性能類和錯(cuò)誤類故障根因分析,幫助運(yùn)維人員及時(shí)發(fā)現(xiàn)問題、高效處理問題,排除風(fēng)險(xiǎn)隱患,避免因數(shù)據(jù)問題影響機(jī)場正常生產(chǎn),從而提升旅客服務(wù)質(zhì)量。本發(fā)明有效降低了機(jī)場數(shù)據(jù)接口的故障頻率,并提高了故障解決的效率,減少了對技術(shù)專家的依賴。解決了機(jī)場運(yùn)維人員在數(shù)據(jù)接口服務(wù)的運(yùn)維過程中遇到的故障難預(yù)測、難解決問題。