本發(fā)明涉及計(jì)算機(jī),尤其涉及一種日志壓縮方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在當(dāng)前大規(guī)模分布式系統(tǒng)中,日志數(shù)據(jù)的記錄是系統(tǒng)調(diào)試、監(jiān)測、用戶行為分析的關(guān)鍵。然而,隨著系統(tǒng)規(guī)模的擴(kuò)大和業(yè)務(wù)復(fù)雜性的增加,日志數(shù)據(jù)量急劇增加,存儲和處理變得愈加困難。為了保證系統(tǒng)性能,日志數(shù)據(jù)往往需要壓縮存儲,但傳統(tǒng)的壓縮方式?jīng)]有針對日志特有的結(jié)構(gòu)和特征,往往無法做到高效存儲且保留關(guān)鍵數(shù)據(jù)。
2、傳統(tǒng)的日志壓縮方案中多采用無損壓縮算法,例如zip、gzip等,但這些算法并未針對日志的特征進(jìn)行優(yōu)化,導(dǎo)致壓縮比和效率較低;其次,傳統(tǒng)方案中日志的所有字段都會被存儲,而沒有針對性地選擇對故障排查、監(jiān)測分析最關(guān)鍵的字段,導(dǎo)致冗余數(shù)據(jù)占用大量存儲空間,無法靈活處理不同類型的日志數(shù)據(jù),缺乏動態(tài)調(diào)整壓縮策略的能力,無法適應(yīng)不同日志類型的特點(diǎn);最后,傳統(tǒng)壓縮方案的日志解壓縮過程較為緩慢,且難以選擇性還原部分字段,增加了系統(tǒng)的復(fù)雜性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種日志壓縮方法、裝置、電子設(shè)備及存儲介質(zhì),可以顯著降低日志壓縮過程中的數(shù)據(jù)維度,減少壓縮數(shù)據(jù)占用的存儲容量,同時保留日志數(shù)據(jù)中的重要信息,由此提高日志分析效率以及故障排查效率。
2、根據(jù)本發(fā)明的一方面,提供了一種日志壓縮方法,所述方法包括:
3、獲取原始日志數(shù)據(jù),對所述原始日志數(shù)據(jù)進(jìn)行預(yù)處理,然后采用特征選擇算法分析日志數(shù)據(jù)中各字段的重要程度;
4、根據(jù)所述重要程度,對所述日志數(shù)據(jù)中的關(guān)鍵日志特征進(jìn)行提取,并采用降維算法對提取后的日志特征進(jìn)行降維處理,得到壓縮日志數(shù)據(jù);
5、將所述壓縮日志數(shù)據(jù)以二進(jìn)制形式存儲至數(shù)據(jù)庫中。
6、可選的,對所述原始日志數(shù)據(jù)進(jìn)行預(yù)處理,包括:
7、按照預(yù)設(shè)的日志過濾規(guī)則,對所述原始日志數(shù)據(jù)進(jìn)行清洗;
8、使用正則表達(dá)式,對所述原始日志數(shù)據(jù)中的噪聲數(shù)據(jù)進(jìn)行清理;
9、根據(jù)所述原始日志數(shù)據(jù)的結(jié)構(gòu)信息,對所述原始日志數(shù)據(jù)進(jìn)行特征標(biāo)記與編碼處理;
10、對所述原始日志數(shù)據(jù)中的數(shù)值特征進(jìn)行標(biāo)準(zhǔn)化處理。
11、可選的,采用特征選擇算法分析日志數(shù)據(jù)中各字段的重要程度,包括:
12、采用lasso回歸算法,分析日志數(shù)據(jù)中各字段對應(yīng)的回歸系數(shù);
13、根據(jù)所述回歸系數(shù),確定日志數(shù)據(jù)中各字段的重要程度。
14、可選的,采用降維算法對提取后的日志特征進(jìn)行降維處理,得到壓縮日志數(shù)據(jù),包括:
15、根據(jù)所述提取后的日志特征,確定所述日志特征對應(yīng)的協(xié)方差矩陣,以及所述協(xié)方差矩陣對應(yīng)各個維度的方差貢獻(xiàn)率;
16、采用降維算法,根據(jù)所述協(xié)方差矩陣以及方差貢獻(xiàn)率,將所述日志特征映射至低維空間,得到壓縮日志數(shù)據(jù)。
17、可選的,將所述壓縮日志數(shù)據(jù)以二進(jìn)制形式存儲至數(shù)據(jù)庫中,包括:
18、根據(jù)所述壓縮日志數(shù)據(jù)對應(yīng)的時間序列,將所述壓縮日志數(shù)據(jù)進(jìn)行分塊存儲;
19、將所述壓縮日志數(shù)據(jù)與原始日志數(shù)據(jù)之間的特征映射關(guān)系,以及所述降維算法對應(yīng)的降維參數(shù)存儲至數(shù)據(jù)庫中。
20、可選的,在將所述壓縮日志數(shù)據(jù)以二進(jìn)制形式存儲至數(shù)據(jù)庫中之后,還包括:
21、響應(yīng)于日志還原請求,根據(jù)所述壓縮日志數(shù)據(jù)以及預(yù)先存儲的降維參數(shù),將所述壓縮日志數(shù)據(jù)還原為原始日志數(shù)據(jù)。
22、可選的,在將所述壓縮日志數(shù)據(jù)以二進(jìn)制形式存儲至數(shù)據(jù)庫中之后,還包括:
23、按照預(yù)設(shè)周期,根據(jù)不同的日志數(shù)據(jù)類型以及特征分布結(jié)果,對所述降維算法對應(yīng)的降維參數(shù)進(jìn)行動態(tài)更新,以根據(jù)更新后的降維參數(shù),對后續(xù)日志數(shù)據(jù)中的關(guān)鍵日志特征進(jìn)行降維處理。
24、根據(jù)本發(fā)明的另一方面,提供了一種日志壓縮裝置,所述裝置包括:
25、日志預(yù)處理模塊,用于獲取原始日志數(shù)據(jù),對所述原始日志數(shù)據(jù)進(jìn)行預(yù)處理,然后采用特征選擇算法分析日志數(shù)據(jù)中各字段的重要程度;
26、降維處理模塊,用于根據(jù)所述重要程度,對所述日志數(shù)據(jù)中的關(guān)鍵日志特征進(jìn)行提取,并采用降維算法對提取后的日志特征進(jìn)行降維處理,得到壓縮日志數(shù)據(jù);
27、日志存儲模塊,用于將所述壓縮日志數(shù)據(jù)以二進(jìn)制形式存儲至數(shù)據(jù)庫中。
28、根據(jù)本發(fā)明的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:
29、至少一個處理器;以及
30、與所述至少一個處理器通信連接的存儲器;其中,
31、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本發(fā)明任一實(shí)施例所述的日志壓縮方法。
32、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的日志壓縮方法。
33、本發(fā)明實(shí)施例提供的技術(shù)方案,通過獲取原始日志數(shù)據(jù),對所述原始日志數(shù)據(jù)進(jìn)行預(yù)處理,然后采用特征選擇算法分析日志數(shù)據(jù)中各字段的重要程度,根據(jù)所述重要程度,對所述日志數(shù)據(jù)中的關(guān)鍵日志特征進(jìn)行提取,并采用降維算法對提取后的日志特征進(jìn)行降維處理,得到壓縮日志數(shù)據(jù),將所述壓縮日志數(shù)據(jù)以二進(jìn)制形式存儲至數(shù)據(jù)庫中的技術(shù)手段,可以顯著降低日志壓縮過程中的數(shù)據(jù)維度,減少壓縮數(shù)據(jù)占用的存儲容量,同時保留日志數(shù)據(jù)中的重要信息,由此提高日志分析效率以及故障排查效率。
34、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本發(fā)明的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。
1.一種日志壓縮方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對所述原始日志數(shù)據(jù)進(jìn)行預(yù)處理,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用特征選擇算法分析日志數(shù)據(jù)中各字段的重要程度,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用降維算法對提取后的日志特征進(jìn)行降維處理,得到壓縮日志數(shù)據(jù),包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述壓縮日志數(shù)據(jù)以二進(jìn)制形式存儲至數(shù)據(jù)庫中,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在將所述壓縮日志數(shù)據(jù)以二進(jìn)制形式存儲至數(shù)據(jù)庫中之后,還包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在將所述壓縮日志數(shù)據(jù)以二進(jìn)制形式存儲至數(shù)據(jù)庫中之后,還包括:
8.一種日志壓縮裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的日志壓縮方法。