本發(fā)明涉及網(wǎng)絡(luò)安全與機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種融合時(shí)空特征與圖嵌入技術(shù)的apt數(shù)據(jù)壓縮與檢測(cè)方法。
背景技術(shù):
1、隨著信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)安全成為了一個(gè)日益嚴(yán)峻的挑戰(zhàn)。特別是針對(duì)政府機(jī)構(gòu)和企業(yè)的網(wǎng)絡(luò)攻擊,不僅數(shù)量在增加,而且攻擊手段也在不斷地演進(jìn)從而變得更加復(fù)雜。這些攻擊往往難以被傳統(tǒng)的基于簽名的入侵檢測(cè)系統(tǒng)(ids)所識(shí)別,因?yàn)樗鼈円蕾囉谝阎裟J降钠ヅ洌瑢?duì)于未知的或者零日(0-day)攻擊則無能為力。
2、現(xiàn)有的基于溯源圖(provenance-based)的入侵檢測(cè)系統(tǒng)(pids)提供了一種新的方法,通過跟蹤和分析用戶活動(dòng)日志會(huì)話來檢測(cè)潛在的惡意行為。這些系統(tǒng)通過構(gòu)建數(shù)據(jù)溯源圖,將系統(tǒng)的執(zhí)行過程表示為有向無環(huán)圖(dag),連接因果相關(guān)的事件以展示信息流。然而,這些系統(tǒng)在描述核心入侵行為時(shí)存在局限性,尤其是在面對(duì)信息流依賴爆炸的問題時(shí),許多與攻擊相關(guān)的實(shí)體無法有效反映攻擊的核心行為。
3、此外,現(xiàn)有的pids在很大程度上依賴于人類專家的知識(shí),需要專家預(yù)定義攻擊行為簽名或正?;顒?dòng)的規(guī)則,這不僅限制了系統(tǒng)的自動(dòng)化能力,也增加了對(duì)專家經(jīng)驗(yàn)和知識(shí)的依賴。而且,隨著攻擊者技術(shù)的進(jìn)步,攻擊行為變得越來越隱蔽,現(xiàn)有的pids在及時(shí)發(fā)現(xiàn)和響應(yīng)這些復(fù)雜威脅方面表現(xiàn)出了不足。
4、針對(duì)現(xiàn)有pids的局限性和網(wǎng)絡(luò)安全的新挑戰(zhàn),如何將時(shí)空信息與圖嵌入技術(shù)相融合,來精確捕捉系統(tǒng)日志中的關(guān)鍵信息,在此基礎(chǔ)上自主學(xué)習(xí)并識(shí)別高級(jí)持續(xù)性威脅(apt)的網(wǎng)絡(luò)攻擊模式,成為了網(wǎng)絡(luò)安全領(lǐng)域亟需攻克的關(guān)鍵問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于解決對(duì)apt攻擊溯源的分析準(zhǔn)確性不足、分析效率不足,且依賴于專家手動(dòng)標(biāo)注數(shù)據(jù)等問題,并提出一種融合時(shí)空特征與圖嵌入技術(shù)的apt數(shù)據(jù)壓縮與檢測(cè)方法。
2、為了達(dá)到上述目的,本發(fā)明提供的技術(shù)方案為:
3、一種融合時(shí)空特征與圖嵌入技術(shù)的apt數(shù)據(jù)壓縮與檢測(cè)方法,包括:
4、收集日志數(shù)據(jù)并進(jìn)行預(yù)處理,得到預(yù)處理后的日志數(shù)據(jù);
5、對(duì)預(yù)處理后的日志數(shù)據(jù)進(jìn)行壓縮,利用壓縮后的日志數(shù)據(jù)構(gòu)建溯源圖,其中,表示原始節(jié)點(diǎn)集合,表示邊集合,表示屬性節(jié)點(diǎn)集合,即原始節(jié)點(diǎn)的標(biāo)簽集合;
6、根據(jù)溯源圖創(chuàng)建二部圖,其中,表示屬性節(jié)點(diǎn)集合,表示原始節(jié)點(diǎn)集合,表示連接原始節(jié)點(diǎn)和屬性節(jié)點(diǎn)的邊集合;
7、以溯源圖中時(shí)間戳最早的原始節(jié)點(diǎn)作為初始節(jié)點(diǎn),基于溯源圖執(zhí)行第一隨機(jī)游走過程得到游走矩陣,對(duì)游走矩陣進(jìn)行l(wèi)1歸一化得到歸一化后的游走矩陣;
8、基于二部圖,根據(jù)歸一化后的游走矩陣執(zhí)行多次第二隨機(jī)游走過程生成多個(gè)節(jié)點(diǎn)序列,每個(gè)節(jié)點(diǎn)序列通過word2vec嵌入模型得到節(jié)點(diǎn)序列中每個(gè)節(jié)點(diǎn)的嵌入向量;
9、通過計(jì)算每個(gè)節(jié)點(diǎn)的嵌入向量的平均值,獲得每個(gè)節(jié)點(diǎn)的最終嵌入向量;
10、基于每個(gè)節(jié)點(diǎn)的最終嵌入向量,采用聚類方法得到簇中心,當(dāng)當(dāng)前節(jié)點(diǎn)的最終嵌入向量與簇中心的距離超過閾值x時(shí),當(dāng)前節(jié)點(diǎn)被識(shí)別為異常節(jié)點(diǎn),通過廣度優(yōu)先搜索算法從異常節(jié)點(diǎn)出發(fā),探索異常節(jié)點(diǎn)的鄰域節(jié)點(diǎn),識(shí)別攻擊路徑和受影響的區(qū)域。
11、進(jìn)一步的,所述收集日志數(shù)據(jù)并進(jìn)行預(yù)處理,包括:
12、采用fluentd日志處理工具收集日志數(shù)據(jù),對(duì)日志數(shù)據(jù)進(jìn)行去噪聲操作和過濾操作;
13、對(duì)去噪聲和過濾后的日志數(shù)據(jù)進(jìn)行去除重復(fù)項(xiàng)、填充缺失值和轉(zhuǎn)換數(shù)據(jù)類型的規(guī)范化處理;
14、將規(guī)范化處理后的日志數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)表征格式。
15、進(jìn)一步的,所述對(duì)預(yù)處理后的日志數(shù)據(jù)進(jìn)行壓縮,包括:
16、識(shí)別預(yù)處理后的日志數(shù)據(jù)中單調(diào)的數(shù)值字段,基于單調(diào)的數(shù)值字段對(duì)預(yù)處理后的日志數(shù)據(jù)進(jìn)行壓縮;
17、識(shí)別預(yù)處理后的日志數(shù)據(jù)中的數(shù)據(jù)類型,對(duì)每種數(shù)據(jù)類型進(jìn)行編碼,將對(duì)應(yīng)的關(guān)系存入?yún)⒖急碇校?/p>
18、基于預(yù)處理后的日志數(shù)據(jù)識(shí)別出結(jié)構(gòu)化格式的數(shù)據(jù),對(duì)結(jié)構(gòu)化格式的數(shù)據(jù)進(jìn)行基于數(shù)據(jù)格式的壓縮和存儲(chǔ)。
19、進(jìn)一步的,所述基于單調(diào)的數(shù)值字段對(duì)預(yù)處理后的日志數(shù)據(jù)進(jìn)行壓縮,包括:基于單調(diào)的數(shù)值字段得到連續(xù)的數(shù)值,在連續(xù)的數(shù)值中取一個(gè)作為基準(zhǔn)數(shù)值,將每個(gè)數(shù)值轉(zhuǎn)換為與基準(zhǔn)數(shù)值的偏移量。
20、進(jìn)一步的,所述對(duì)結(jié)構(gòu)化格式的數(shù)據(jù)進(jìn)行基于數(shù)據(jù)格式的壓縮和存儲(chǔ),包括:
21、結(jié)構(gòu)化格式的數(shù)據(jù)包括數(shù)據(jù)項(xiàng)和對(duì)應(yīng)的數(shù)值,識(shí)別數(shù)據(jù)項(xiàng)的固定格式,將固定格式作為模版并用特殊標(biāo)記表示,將模版和對(duì)應(yīng)的特殊標(biāo)記存入?yún)⒖急碇校?/p>
22、將固定格式中的數(shù)據(jù)項(xiàng)用對(duì)應(yīng)的數(shù)值表示,結(jié)合特殊標(biāo)記得到基于數(shù)據(jù)格式的壓縮結(jié)果。
23、進(jìn)一步的,所述基于溯源圖執(zhí)行第一隨機(jī)游走過程得到游走矩陣,對(duì)游走矩陣進(jìn)行l(wèi)1歸一化得到歸一化后的游走矩陣,包括:
24、從初始節(jié)點(diǎn)開始游走,根據(jù)溯源圖對(duì)應(yīng)的鄰接矩陣隨機(jī)游走到下一原始節(jié)點(diǎn),所述溯源圖對(duì)應(yīng)的鄰接矩陣表示為,其中為溯源圖原始節(jié)點(diǎn)的數(shù)量;
25、根據(jù)當(dāng)前原始節(jié)點(diǎn)的節(jié)點(diǎn)屬性鄰接矩陣游走到與當(dāng)前節(jié)點(diǎn)相關(guān)的屬性節(jié)點(diǎn),并根據(jù)當(dāng)前屬性節(jié)點(diǎn)關(guān)聯(lián)的原始節(jié)點(diǎn)集合,隨機(jī)游走到下一個(gè)原始節(jié)點(diǎn),所述節(jié)點(diǎn)屬性鄰接矩陣表示為,其中為屬性節(jié)點(diǎn)集合中屬性節(jié)點(diǎn)的數(shù)量;
26、重復(fù)根據(jù)溯源圖對(duì)應(yīng)的鄰接矩陣和根據(jù)節(jié)點(diǎn)屬性鄰接矩陣的游走,達(dá)到預(yù)設(shè)的游走長度后得到游走矩陣;
27、對(duì)游走矩陣進(jìn)行l(wèi)1歸一化,游走矩陣中的元素為游走概率,用公式表示如下:
28、
29、其中,表示歸一化后原始節(jié)點(diǎn)到屬性節(jié)點(diǎn)的游走概率,表示從原始節(jié)點(diǎn)移動(dòng)到屬性節(jié)點(diǎn)的游走概率,表示從原始節(jié)點(diǎn)移動(dòng)到節(jié)點(diǎn)的游走概率,表示從原始節(jié)點(diǎn)出發(fā)可能的下一個(gè)節(jié)點(diǎn),所述節(jié)點(diǎn)包括原始節(jié)點(diǎn)和屬性節(jié)點(diǎn),表示對(duì)所有可能的下一個(gè)節(jié)點(diǎn)的進(jìn)行求和;
30、用歸一化后的游走概率替換游走概率,得到歸一化后的游走矩陣。
31、進(jìn)一步的,所述第二隨機(jī)游走過程包括:
32、從初始節(jié)點(diǎn)開始游走;
33、根據(jù)歸一化后的游走矩陣從當(dāng)前節(jié)點(diǎn)隨機(jī)采樣下一個(gè)原始節(jié)點(diǎn)或?qū)傩怨?jié)點(diǎn),如果采樣結(jié)果是原始節(jié)點(diǎn),則游走到采樣結(jié)果,如果采樣結(jié)果是屬性節(jié)點(diǎn),則游走到根據(jù)屬性節(jié)點(diǎn)集合選擇的原始節(jié)點(diǎn),重復(fù)進(jìn)行h次游走;
34、生成一個(gè)節(jié)點(diǎn)序列。
35、進(jìn)一步的,所述基于每個(gè)節(jié)點(diǎn)的最終嵌入向量,采用聚類方法得到簇中心,包括:
36、從所有節(jié)點(diǎn)的最終嵌入向量中隨機(jī)選取一個(gè)為初始的質(zhì)心;
37、根據(jù)每個(gè)節(jié)點(diǎn)的最終嵌入向量與質(zhì)心的相似度,將每個(gè)節(jié)點(diǎn)分配到與當(dāng)前節(jié)點(diǎn)的最終嵌入向量距離最近的質(zhì)心所代表的簇中;
38、迭代更新質(zhì)心的位置,直至達(dá)到預(yù)設(shè)的迭代次數(shù),或迭代更新質(zhì)心的位置,計(jì)算質(zhì)心的位置變化率,直至當(dāng)前迭代中質(zhì)心的位置變化率低于預(yù)設(shè)閾值;
39、完成聚類得到最終的質(zhì)心,即簇中心。
40、進(jìn)一步的,所述更新質(zhì)心的位置用公式表示如下:
41、
42、其中,表示質(zhì)心的位置,表示簇中的初始節(jié)點(diǎn)的集合,表示集合中的最終嵌入向量。
43、本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)為:1、在日志數(shù)據(jù)收集與預(yù)處理階段,通過設(shè)計(jì)統(tǒng)一且高效的數(shù)據(jù)采集機(jī)制,整合不同操作系統(tǒng)中的系統(tǒng)日志數(shù)據(jù),確保了數(shù)據(jù)的全面性和代表性,同時(shí)使用fluentd工具自動(dòng)分割大型日志文件,提高了數(shù)據(jù)處理的效率和可擴(kuò)展性。2、基于時(shí)空特征對(duì)日志數(shù)據(jù)進(jìn)行壓縮,并構(gòu)建系統(tǒng)級(jí)溯源圖,優(yōu)化存儲(chǔ)結(jié)構(gòu),減少了存儲(chǔ)空間的需求。3、通過基于屬性的隨機(jī)游走技術(shù),增加了游走的語義多樣性和信息豐富度,有助于更精確地捕捉系統(tǒng)日志中的關(guān)鍵信息,這種方法不依賴于手動(dòng)標(biāo)注數(shù)據(jù),減少了對(duì)專家經(jīng)驗(yàn)和知識(shí)的依賴,提高了系統(tǒng)的自動(dòng)化能力。4、通過異常檢測(cè)與行為分析階段的聚類分析和距離度量,自動(dòng)識(shí)別與正常行為模式顯著不同的異常模式,并觸發(fā)異常警報(bào),同時(shí)使用廣度優(yōu)先搜索算法探索攻擊路徑,顯著提高了apt攻擊溯源的分析效率和準(zhǔn)確性,為安全分析師提供了強(qiáng)有力的工具。