本發(fā)明涉及信息安全,更具體的說是涉及一種異常主機(jī)識別方法、系統(tǒng)、裝置及可讀存儲介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)和各種網(wǎng)絡(luò)應(yīng)用的迅速發(fā)展,網(wǎng)絡(luò)規(guī)模越來越大,傳播的數(shù)據(jù)越來越多,網(wǎng)絡(luò)與信息安全影響越來越大。當(dāng)前針對計(jì)算機(jī)的各種攻擊層出不窮,?雖然使用基于特征分析的攻擊檢測方法能對部分攻擊手段進(jìn)行預(yù)警,?但是隨著攻擊手段越來越多樣化,內(nèi)部威脅愈演愈烈,?計(jì)算機(jī)仍將承受很大被攻擊與滲透的風(fēng)險。異常檢測不僅能檢測未知攻擊,?也能用于檢測內(nèi)部威脅,?因此針對主機(jī)的異常檢測系統(tǒng)愈發(fā)受到關(guān)注,?異常檢測的關(guān)鍵是通過將過去觀察到的主機(jī)正常行為與主機(jī)當(dāng)前的行為特征進(jìn)行比較,?如果兩者的偏差足夠大,?則說明發(fā)生了異常,?并向管理員提出警告。
2、當(dāng)前的異常主機(jī)判定方案比較多,主要有傳統(tǒng)機(jī)器學(xué)習(xí)方案以及深度學(xué)習(xí)方案兩個大類。
3、傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)一般首先依據(jù)專家知識從原始數(shù)據(jù)包中提取出若干個統(tǒng)計(jì)特征,然后使用隨機(jī)森林(random?forest,rf)、支持向量機(jī)(support?vector?machine,svm)、決策樹、樸素貝葉斯等訓(xùn)練分類器,最后在測試集上實(shí)現(xiàn)異常主機(jī)分類。但是,隨著網(wǎng)絡(luò)邊界和網(wǎng)絡(luò)應(yīng)用的不斷擴(kuò)展,網(wǎng)絡(luò)數(shù)據(jù)激增,傳統(tǒng)的機(jī)器學(xué)習(xí)方法已無法高效處理海量、復(fù)雜的流量數(shù)據(jù)。
4、深度學(xué)習(xí)方案能夠自動從原始數(shù)據(jù)中提取特征,無需人工干預(yù)。該類方法能夠取得良好的特征留存效果,并有效利用原始數(shù)據(jù)中的數(shù)據(jù)關(guān)聯(lián)性,如使用rnn保留數(shù)據(jù)的時序特征,或使用圖卷積網(wǎng)絡(luò)(gcn)在節(jié)點(diǎn)向量化表征中保留節(jié)點(diǎn)特征和圖結(jié)構(gòu)信息等。但是,深度學(xué)習(xí)模型通常需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)來取得良好的性能,但在實(shí)際應(yīng)用中,這樣的數(shù)據(jù)往往難以獲取。深度學(xué)習(xí)模型通常較為復(fù)雜,訓(xùn)練和推理過程可能需要大量的計(jì)算資源和時間;而且模型的可解釋性相對較差,難以直觀理解模型的決策過程和輸出結(jié)果。
技術(shù)實(shí)現(xiàn)思路
1、針對以上問題,本發(fā)明的目的在于提供一種異常主機(jī)識別方法、系統(tǒng)、裝置及可讀存儲介質(zhì),結(jié)合了gat與lstm模型的優(yōu)勢,實(shí)現(xiàn)了對網(wǎng)絡(luò)域中主機(jī)異常行為的準(zhǔn)確檢測和判定。
2、本發(fā)明為實(shí)現(xiàn)上述目的,通過以下技術(shù)方案實(shí)現(xiàn):
3、第一方面,本發(fā)明公開了一種異常主機(jī)識別方法,包括:
4、將網(wǎng)絡(luò)中的主機(jī)與訪問關(guān)系映射為圖結(jié)構(gòu),積累流量數(shù)據(jù)后,運(yùn)用圖注意力網(wǎng)絡(luò)提取節(jié)點(diǎn)特征,并通過平均多個時間段的特征向量獲得每個節(jié)點(diǎn)的表征向量;
5、預(yù)處理網(wǎng)絡(luò)流量數(shù)據(jù),用其替換節(jié)點(diǎn)的表征向量,形成訓(xùn)練數(shù)據(jù),構(gòu)建lstm模型進(jìn)行訓(xùn)練與驗(yàn)證,得到單變量時間序列預(yù)測模型;
6、將待檢測主機(jī)的流量數(shù)據(jù)輸入單變量時間序列預(yù)測模型,獲取預(yù)測結(jié)果;基于預(yù)測結(jié)果評估待檢測主機(jī)的異常值,以確定待檢測主機(jī)是否為異常主機(jī)。
7、進(jìn)一步,將網(wǎng)絡(luò)中的主機(jī)與訪問關(guān)系映射為圖結(jié)構(gòu),積累流量數(shù)據(jù)后,運(yùn)用圖注意力網(wǎng)絡(luò)提取節(jié)點(diǎn)特征,并通過平均多個時間段的特征向量獲得每個節(jié)點(diǎn)的表征向量;
8、預(yù)處理網(wǎng)絡(luò)流量數(shù)據(jù),用其替換節(jié)點(diǎn)的表征向量,形成訓(xùn)練數(shù)據(jù),構(gòu)建lstm模型進(jìn)行訓(xùn)練與驗(yàn)證,得到單變量時間序列預(yù)測模型;
9、將待檢測主機(jī)的流量數(shù)據(jù)輸入單變量時間序列預(yù)測模型,獲取預(yù)測結(jié)果;基于預(yù)測結(jié)果評估待檢測主機(jī)的異常值,以確定待檢測主機(jī)是否為異常主機(jī)。
10、進(jìn)一步,所述流量數(shù)據(jù)包括但不限于源ip地址、目標(biāo)ip地址、通信端口、數(shù)據(jù)包大小、通信時間。
11、進(jìn)一步,所述預(yù)處理網(wǎng)絡(luò)流量數(shù)據(jù),用其節(jié)點(diǎn)的表征向量,形成訓(xùn)練數(shù)據(jù),構(gòu)建lstm模型進(jìn)行訓(xùn)練與驗(yàn)證,得到單變量時間序列預(yù)測模型,包括如下步驟:
12、s201:獲取網(wǎng)絡(luò)的歷史流量數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理后,按源主機(jī)進(jìn)行分組,并按照時間順序排列,基于處理后的主機(jī)數(shù)據(jù),替換相應(yīng)節(jié)點(diǎn)的表征向量,形成一維的向量數(shù)組,作為訓(xùn)練數(shù)據(jù);
13、s202:構(gòu)建lstm模型,選取輸入層的時間窗口長度,根據(jù)節(jié)點(diǎn)的表征向量的長度設(shè)定特征數(shù)量;
14、s203:使用訓(xùn)練數(shù)據(jù)對lstm模型進(jìn)行訓(xùn)練與驗(yàn)證,以最小化預(yù)測誤差,得到單變量時間序列預(yù)測模型。
15、進(jìn)一步,所述將待檢測主機(jī)的流量數(shù)據(jù)輸入單變量時間序列預(yù)測模型,獲取預(yù)測結(jié)果;基于預(yù)測結(jié)果評估待檢測主機(jī)的異常值,以確定待檢測主機(jī)是否為異常主機(jī),包括如下步驟:
16、s301:將待檢測主機(jī)的流量數(shù)據(jù),選取近t條記錄,根據(jù)步驟s201的處理方法進(jìn)行處理后輸入到單變量時間序列預(yù)測模型中,獲取待檢測主機(jī)在t+1時刻的預(yù)測結(jié)果;
17、s302:獲取待檢測主機(jī)實(shí)際在t+1時刻訪問的主機(jī)節(jié)點(diǎn),記為;計(jì)算與的余弦距離,記為;
18、s303:重復(fù)執(zhí)行步驟s301至步驟s302的過程x次,并計(jì)算x個余弦距離的平均值,作為待檢測主機(jī)的異常值;
19、s304:判斷待檢測主機(jī)的異常值是否大于風(fēng)險閾值,若是,則待檢測主機(jī)為異常主機(jī)。
20、進(jìn)一步,所述x的取值為10。
21、進(jìn)一步,所述k取10至100之間的任一整數(shù)。
22、第二方面,本發(fā)明還公開了一種異常主機(jī)識別系統(tǒng),包括:
23、主機(jī)節(jié)點(diǎn)表征模塊,用于將網(wǎng)絡(luò)中的主機(jī)與訪問關(guān)系映射為圖結(jié)構(gòu),積累流量數(shù)據(jù)后,運(yùn)用圖注意力網(wǎng)絡(luò)提取節(jié)點(diǎn)特征,并通過平均多個時間段的特征向量獲得每個節(jié)點(diǎn)的表征向量;
24、模型構(gòu)建模塊,用于預(yù)處理網(wǎng)絡(luò)流量數(shù)據(jù),用其替換節(jié)點(diǎn)的表征向量,形成訓(xùn)練數(shù)據(jù),構(gòu)建lstm模型進(jìn)行訓(xùn)練與驗(yàn)證,得到單變量時間序列預(yù)測模型;
25、異常判定模塊,用于將待檢測主機(jī)的流量數(shù)據(jù)輸入單變量時間序列預(yù)測模型,獲取預(yù)測結(jié)果;基于預(yù)測結(jié)果評估待檢測主機(jī)的異常值,以確定待檢測主機(jī)是否為異常主機(jī)。
26、第三方面,本發(fā)明還公開了一種異常主機(jī)識別裝置,包括:
27、存儲器,用于存儲異常主機(jī)識別程序;
28、處理器,用于執(zhí)行所述異常主機(jī)識別程序時實(shí)現(xiàn)如上文任一項(xiàng)所述異常主機(jī)識別方法的步驟。
29、第四方面,本發(fā)明還公開了一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)上存儲有異常主機(jī)識別程序,所述異常主機(jī)識別程序被處理器執(zhí)行時實(shí)現(xiàn)如上文任一項(xiàng)所述異常主機(jī)識別方法的步驟。
30、對比現(xiàn)有技術(shù),本發(fā)明有益效果在于:
31、1、本發(fā)明通過結(jié)合圖注意力網(wǎng)絡(luò)(gat)與長短時記憶網(wǎng)絡(luò)(lstm),能夠深入挖掘主機(jī)間的復(fù)雜關(guān)系,并準(zhǔn)確預(yù)測主機(jī)的未來訪問情況,顯著提高了異常檢測的準(zhǔn)確性。本發(fā)明整體上將gat于lstm進(jìn)行了合理的組合,充分利用了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征,并利用主機(jī)的歷史訪問情況構(gòu)建了預(yù)測模型,在主機(jī)異常值得計(jì)算上,也避免了單個預(yù)測偶發(fā)性偏離的局限性,使得本發(fā)明具備較強(qiáng)的泛化能力。
32、2、本發(fā)明能夠根據(jù)網(wǎng)絡(luò)環(huán)境的實(shí)際情況調(diào)整參數(shù),如時間間隔、時間窗口長度等。這種靈活性確保了模型在不同規(guī)模和復(fù)雜度的網(wǎng)絡(luò)環(huán)境中都能表現(xiàn)出色,從而增強(qiáng)了模型的泛化能力。
33、3、本發(fā)明借助構(gòu)建圖的方式實(shí)現(xiàn)主機(jī)的節(jié)點(diǎn)表征,通過按照時間段劃分的方式將一段時間的流量數(shù)據(jù)構(gòu)建圖,并通過積累多個時間段多張圖的方式計(jì)算節(jié)點(diǎn)的平均向量,最大化利用了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
34、4、本發(fā)明能夠?qū)崟r收集和處理網(wǎng)絡(luò)流量數(shù)據(jù),并基于先進(jìn)的預(yù)測模型進(jìn)行自動異常判定。這種實(shí)時性和自動化程度的大幅提升,使得網(wǎng)絡(luò)安全管理人員能夠更快速地響應(yīng)和處理潛在的安全威脅。
35、由此可見,本發(fā)明與現(xiàn)有技術(shù)相比,具有突出的實(shí)質(zhì)性特點(diǎn)和顯著的進(jìn)步,其實(shí)施的有益效果也是顯而易見的。