本發(fā)明涉及數(shù)據(jù)管理,尤其涉及一種基于箱線法的數(shù)據(jù)體量評(píng)估方法、系統(tǒng)及設(shè)備。
背景技術(shù):
1、在數(shù)據(jù)分析和數(shù)據(jù)管理中,數(shù)據(jù)體量的正確性對(duì)于確保分析結(jié)果的準(zhǔn)確性和可靠性至關(guān)重要。然而,傳統(tǒng)方式主要依賴于數(shù)據(jù)分析人員的經(jīng)驗(yàn)和直覺來判斷數(shù)據(jù)體量是否異常,這種方式極度依賴于數(shù)據(jù)分析人員對(duì)數(shù)據(jù)熟悉程度,當(dāng)數(shù)據(jù)表類目繁多時(shí),靠人工核驗(yàn)是不可取的,存在效率低、誤差大等問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種基于箱線法的數(shù)據(jù)體量評(píng)估方法、系統(tǒng)及設(shè)備,旨在解決上述問題的至少之一。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于箱線法的數(shù)據(jù)體量評(píng)估方法,包括:
3、確定待測(cè)數(shù)據(jù)表;
4、新建數(shù)據(jù)表體量統(tǒng)計(jì)信息表和數(shù)據(jù)質(zhì)量檢測(cè)表;
5、基于數(shù)據(jù)體量收集腳本、數(shù)據(jù)體量監(jiān)測(cè)腳本以及所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表對(duì)所述待測(cè)數(shù)據(jù)表進(jìn)行監(jiān)測(cè),得到監(jiān)測(cè)結(jié)果;其中,所述監(jiān)測(cè)結(jié)果包括待檢測(cè)數(shù)據(jù)表的體量基準(zhǔn)值以及基于箱線法計(jì)算的所述待檢測(cè)數(shù)據(jù)表t日數(shù)據(jù)體量的置信區(qū)間;
6、將過程參數(shù)和所述監(jiān)測(cè)結(jié)果保存至所述數(shù)據(jù)質(zhì)量檢測(cè)表;
7、基于告警服務(wù)讀取所述數(shù)據(jù)質(zhì)量檢測(cè)表,生成實(shí)時(shí)告警信息。
8、在一些實(shí)施例中,所述新建數(shù)據(jù)表體量統(tǒng)計(jì)信息表和數(shù)據(jù)質(zhì)量檢測(cè)表,包括:
9、調(diào)用服務(wù)接口,讀取所述待測(cè)數(shù)據(jù)表在預(yù)設(shè)分區(qū)的數(shù)據(jù)行數(shù)和字節(jié)數(shù);
10、以日期、數(shù)據(jù)庫實(shí)例名、數(shù)據(jù)庫名、表名、預(yù)設(shè)分區(qū)作為條件,查詢數(shù)據(jù)表體量統(tǒng)計(jì)信息表中是否已經(jīng)存在記錄;
11、若已存在記錄,則刪除已存在的數(shù)據(jù)并將讀取的數(shù)據(jù)行數(shù)和字節(jié)數(shù)保存至數(shù)據(jù)表體量統(tǒng)計(jì)信息表中;
12、若不存在記錄,則將讀取的數(shù)據(jù)行數(shù)和字節(jié)數(shù)保存至數(shù)據(jù)表體量統(tǒng)計(jì)信息表中;
13、新建數(shù)據(jù)質(zhì)量檢測(cè)表。
14、在一些實(shí)施例中,所述基于數(shù)據(jù)體量收集腳本、數(shù)據(jù)體量監(jiān)測(cè)腳本以及所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表對(duì)所述待測(cè)數(shù)據(jù)表進(jìn)行監(jiān)測(cè),得到監(jiān)測(cè)結(jié)果,包括:
15、編寫數(shù)據(jù)體量收集腳本和數(shù)據(jù)體量監(jiān)測(cè)腳本;
16、將所述數(shù)據(jù)體量收集腳本和所述數(shù)據(jù)體量監(jiān)測(cè)腳本配置至任務(wù)流調(diào)度系統(tǒng)中;
17、運(yùn)行所述數(shù)據(jù)體量收集腳本和所述數(shù)據(jù)體量監(jiān)測(cè)腳本,根據(jù)所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表對(duì)所述待測(cè)數(shù)據(jù)表進(jìn)行監(jiān)測(cè),得到過程參數(shù)和監(jiān)測(cè)結(jié)果。
18、在一些實(shí)施例中,所述運(yùn)行所述數(shù)據(jù)體量收集腳本和所述數(shù)據(jù)體量監(jiān)測(cè)腳本,根據(jù)所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表對(duì)所述待測(cè)數(shù)據(jù)表進(jìn)行監(jiān)測(cè),得到過程參數(shù)和監(jiān)測(cè)結(jié)果,包括:
19、運(yùn)行所述數(shù)據(jù)體量收集腳本;
20、基于所述數(shù)據(jù)體量收集腳本收集所述待測(cè)數(shù)據(jù)表在預(yù)設(shè)日期的預(yù)設(shè)分區(qū)的體量數(shù)據(jù),并將所述體量數(shù)據(jù)保存至所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表;
21、運(yùn)行所述數(shù)據(jù)體量監(jiān)測(cè)腳本;
22、基于所述數(shù)據(jù)體量監(jiān)測(cè)腳本和所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表對(duì)所述待測(cè)數(shù)據(jù)表進(jìn)行監(jiān)測(cè),得到過程參數(shù)和監(jiān)測(cè)結(jié)果。
23、在一些實(shí)施例中,所述基于所述數(shù)據(jù)體量收集腳本收集所述待測(cè)數(shù)據(jù)表在預(yù)設(shè)日期的預(yù)設(shè)分區(qū)的體量數(shù)據(jù),并將所述體量數(shù)據(jù)保存至所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表,包括:
24、以實(shí)例、數(shù)據(jù)庫、表格、預(yù)設(shè)分區(qū)作為條件讀取所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表中的記錄;
25、從所述記錄中選取最新日期的記錄;
26、基于所述最新日期的記錄計(jì)算t日所述待檢測(cè)數(shù)據(jù)表的體量基準(zhǔn)值;
27、基于箱線法根據(jù)所述最新日期的記錄計(jì)算所述待檢測(cè)數(shù)據(jù)表t日數(shù)據(jù)體量的置信區(qū)間;
28、將所述待檢測(cè)數(shù)據(jù)表的體量基準(zhǔn)值以及所述待檢測(cè)數(shù)據(jù)表t日數(shù)據(jù)體量的置信區(qū)間保存至所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表。
29、在一些實(shí)施例中,計(jì)算t日所述待檢測(cè)數(shù)據(jù)表的體量基準(zhǔn)值:
30、
31、其中,表示t日行數(shù)估計(jì)值;δ表示近7日每行平均字節(jié)數(shù);表示t日字節(jié)數(shù)估計(jì)值;si表示字節(jié)數(shù);li表示行數(shù);t-1表示t日的前一日,t-2表示t日的前2日,t-7表示t日的前7日。
32、在一些實(shí)施例中,所述基于箱線法根據(jù)所述最新日期的記錄計(jì)算所述待檢測(cè)數(shù)據(jù)表t日數(shù)據(jù)體量的置信區(qū)間,包括:
33、計(jì)算近60日所述待檢測(cè)數(shù)據(jù)表數(shù)據(jù)字節(jié)最大值a_max、最小值a_min上4分位數(shù)a3/4、中位數(shù)a2/4、下4分位數(shù)a1/4,依據(jù)最大值a_max、最小值a_min上4分位數(shù)a3/4、中位數(shù)a2/4、下4分位數(shù)a1/4分別計(jì)算調(diào)和上限a_max和調(diào)和下限a_min:
34、a_max=max(a_max,a3/4+a3/4-a2/4)
35、a_min=min(a_min,a1/4-(a2/4-a1/4))
36、計(jì)算所述待檢測(cè)數(shù)據(jù)表t日數(shù)據(jù)體量的置信區(qū)間:
37、ci=(a_min,a_max)
38、其中,ci為待檢測(cè)數(shù)據(jù)表t日數(shù)據(jù)體量的置信區(qū)間。
39、在一些實(shí)施例中,所述基于告警服務(wù)讀取所述數(shù)據(jù)質(zhì)量檢測(cè)表,生成實(shí)時(shí)告警信息,包括:
40、基于告警服務(wù)讀取所述數(shù)據(jù)質(zhì)量檢測(cè)表,得到所述待檢測(cè)數(shù)據(jù)表t日數(shù)據(jù)體量的置信區(qū)間;
41、將當(dāng)日數(shù)據(jù)體量與所述置信區(qū)間進(jìn)行比較;
42、若所述當(dāng)日數(shù)據(jù)體量size落在所述置信區(qū)間內(nèi),則所述當(dāng)日數(shù)據(jù)體量檢測(cè)通過;
43、若所述當(dāng)日數(shù)據(jù)體量小于所述置信區(qū)間的調(diào)和下限或大于所述置信區(qū)間的調(diào)和上限,則生成實(shí)時(shí)告警信息。
44、此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提出一種基于箱線法的數(shù)據(jù)體量評(píng)估系統(tǒng),包括:
45、確定模塊,用于確定待測(cè)數(shù)據(jù)表;
46、新建模塊,用于新建數(shù)據(jù)表體量統(tǒng)計(jì)信息表和數(shù)據(jù)質(zhì)量檢測(cè)表;
47、監(jiān)測(cè)模塊,用于基于數(shù)據(jù)體量收集腳本、數(shù)據(jù)體量監(jiān)測(cè)腳本以及所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表對(duì)所述待測(cè)數(shù)據(jù)表進(jìn)行監(jiān)測(cè),得到監(jiān)測(cè)結(jié)果;所述監(jiān)測(cè)結(jié)果包括待檢測(cè)數(shù)據(jù)表的體量基準(zhǔn)值以及基于箱線法計(jì)算的所述待檢測(cè)數(shù)據(jù)表t日數(shù)據(jù)體量的置信區(qū)間;
48、保存模塊,用于將監(jiān)測(cè)過程參數(shù)和所述監(jiān)測(cè)結(jié)果保存至所述數(shù)據(jù)質(zhì)量檢測(cè)表;
49、告警模塊,用于基于告警服務(wù)讀取所述數(shù)據(jù)質(zhì)量檢測(cè)表,生成實(shí)時(shí)告警信息。
50、此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提出一種電子設(shè)備,所述電子設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的基于箱線法的數(shù)據(jù)體量評(píng)估程序,所述基于箱線法的數(shù)據(jù)體量評(píng)估程序配置為實(shí)現(xiàn)如上文所述的基于箱線法的數(shù)據(jù)體量評(píng)估方法。
51、本發(fā)明提供了一種基于箱線法的數(shù)據(jù)體量評(píng)估方法,包括:確定待測(cè)數(shù)據(jù)表;新建數(shù)據(jù)表體量統(tǒng)計(jì)信息表和數(shù)據(jù)質(zhì)量檢測(cè)表;基于數(shù)據(jù)體量收集腳本、數(shù)據(jù)體量監(jiān)測(cè)腳本以及所述數(shù)據(jù)表體量統(tǒng)計(jì)信息表對(duì)所述待測(cè)數(shù)據(jù)表進(jìn)行監(jiān)測(cè),得到監(jiān)測(cè)結(jié)果;其中,所述監(jiān)測(cè)結(jié)果包括待檢測(cè)數(shù)據(jù)表的體量基準(zhǔn)值以及基于箱線法計(jì)算的所述待檢測(cè)數(shù)據(jù)表t日數(shù)據(jù)體量的置信區(qū)間;將過程參數(shù)和所述監(jiān)測(cè)結(jié)果保存至所述數(shù)據(jù)質(zhì)量檢測(cè)表;基于告警服務(wù)讀取所述數(shù)據(jù)質(zhì)量檢測(cè)表,生成實(shí)時(shí)告警信息。本發(fā)明中通過基于箱線法計(jì)算數(shù)據(jù)體量的統(tǒng)計(jì)置信區(qū)間,并結(jié)合數(shù)據(jù)表數(shù)據(jù)體量的增長(zhǎng)模型,從而對(duì)數(shù)據(jù)表的數(shù)據(jù)體量進(jìn)行自動(dòng)檢測(cè),檢測(cè)效率更快、準(zhǔn)確率更高。相較于傳統(tǒng)方式,本發(fā)明使用行數(shù)和數(shù)據(jù)字節(jié)數(shù)綜合判定數(shù)據(jù)體量是否正常,還能給出大致的問題定位,該方法簡(jiǎn)單易于理解和實(shí)施。