本發(fā)明涉及網(wǎng)絡(luò)安全,具體的是一種未知類別惡意流量檢測方法及系統(tǒng)。
背景技術(shù):
1、隨著電子設(shè)備數(shù)量的不斷增長和網(wǎng)絡(luò)環(huán)境日益復雜,網(wǎng)絡(luò)安全問題愈發(fā)嚴重,給網(wǎng)絡(luò)經(jīng)濟帶來巨大損失。為有效避免網(wǎng)絡(luò)攻擊,構(gòu)建入侵檢測系統(tǒng)(ids,intrusiondetection?system)成為主要手段?,F(xiàn)有的入侵檢測系統(tǒng)分為基于主機的和基于網(wǎng)絡(luò)兩類,前者主要通過監(jiān)視日志信息進行檢測,后者則是分析網(wǎng)絡(luò)流量來判定是否存在入侵行為。盡管基于機器學習(ml,machine?learning)的入侵檢測系統(tǒng)應(yīng)用廣泛,但難以提取深層特征,無法應(yīng)對日益復雜的攻擊手段。深度學習(dl,deep?learning)因其強大的特征提取能力逐漸成為入侵檢測系統(tǒng)的重要組成部分,但仍面臨數(shù)據(jù)集類不平衡等問題。隨著惡意攻擊者策略不斷升級,惡意流量與正常流量之間界限變得愈加模糊,新型惡意流量不斷涌現(xiàn),現(xiàn)有的檢測方法面臨零日攻擊挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、為解決上述背景技術(shù)中提到的不足,本發(fā)明的目的在于提供一種未知類別惡意流量檢測方法及系統(tǒng)。
2、第一方面,本發(fā)明的目的可以通過以下技術(shù)方案實現(xiàn):一種未知類別惡意流量檢測方法,方法包括以下步驟:
3、獲取流量數(shù)據(jù),對流量數(shù)據(jù)進行預處理,將預處理后的流量數(shù)據(jù)進行特征提取,得到特征序列,將特征序列輸入至預先建立的對比學習編碼器內(nèi)進行訓練,得到訓練后的對比學習編碼器;
4、接收樣本流量數(shù)據(jù),將樣本流量數(shù)據(jù)輸入至訓練好的對比學習編碼器內(nèi),輸出得到編碼后的特征向量,將編碼后的特征向量輸入至預先建立的少樣本學習模型內(nèi),得出樣本類別原型,獲取待檢測流量樣本的特征向量,將待檢測流量樣本的特征向量與樣本類別原型進行相似度計算,根據(jù)相似度計算結(jié)果來判定流量數(shù)據(jù)是否為惡意流量。
5、結(jié)合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述對流量數(shù)據(jù)進行預處理包括對流量數(shù)據(jù)進行分割、清洗以及歸一化。
6、結(jié)合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述將預處理后的流量數(shù)據(jù)進行特征提取的過程包括:
7、采用深度神經(jīng)網(wǎng)絡(luò)自動提取高維特征,通過多層卷積網(wǎng)絡(luò)或循環(huán)網(wǎng)絡(luò)對流量進行建模,得到的特征向量包括時間維度上的流量行為模式以及包層面的微觀特征。
8、結(jié)合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述將特征向量輸入至預先建立的對比學習編碼器時進行數(shù)據(jù)增強,數(shù)據(jù)增強的計算過程如下:
9、給定網(wǎng)絡(luò)流數(shù)據(jù)包序列,其中包含個網(wǎng)絡(luò)流數(shù)據(jù)包,對網(wǎng)絡(luò)流數(shù)據(jù)包中個元素進行掩碼遮蓋操作,被賦值為一個數(shù)組,數(shù)組中包含1至個掩碼,表示其中第個掩碼包含個隨機位置為0的掩碼,剩余個位置元素為1,保持原有數(shù)據(jù)不變,添加掩碼公式定義為:
10、?(1)
11、添加掩碼的操作表示為:
12、?(2)。
13、結(jié)合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述數(shù)據(jù)增強后,將原始樣本的類別標簽賦予增強樣本,使得增強樣本與同類別的樣本構(gòu)成正樣本對,而與不同類別的樣本構(gòu)成負樣本對;
14、利用對比損失函數(shù)對預先建立的對比學習編碼器進行反向傳播優(yōu)化,對比損失函數(shù)的定義如下:
15、?(3)
16、其中,為錨點樣本的序列,為第個的錨點樣本的對比損失,為數(shù)量為個的錨點樣本的對比損失的總值,作為錨點樣本的特征,與同類別樣本的特征構(gòu)成正樣本對,和分別代表錨點樣本的正樣本對集和全部樣本對集,為正樣本對集中樣本的數(shù)量,樣本為正樣本對集中每個樣本的遍歷,樣本為全部樣本對集中樣本的遍歷;對比損失函數(shù)的分母中的和是在全部樣本對集中樣本的特征與錨點樣本同類別樣本的特征上進行計算,分子則表示錨點樣本的特征與其同類別樣本的特征之間的相似度;參數(shù)作為溫度系數(shù),用于調(diào)節(jié)模型更加關(guān)注困難樣本;為指數(shù)函數(shù)。
17、結(jié)合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述將編碼后的特征向量輸入至預先建立的少樣本學習模型的過程包括:
18、通過聚類選擇最接近聚類中心的樣本構(gòu)建支持集,并隨機抽取樣本作為查詢集:
19、對訓練集數(shù)據(jù)進行k均值聚類,并從中選擇距離聚類中心最近的若干樣本作為代表樣本,構(gòu)成原型網(wǎng)絡(luò)的支持集,在每次訓練迭代episode中,從剩余樣本中隨機抽取若干樣本作為查詢集,對于每個類別,計算其對應(yīng)的原型中心;原型中心的計算公式如下:
20、?(4)
21、其中,為支持集中類別為的樣本的數(shù)量,中為類別為的支持集中的樣本的遍歷,為樣本對應(yīng)的類別,為樣本提取的特征向量。
22、對于查詢集中的每個樣本,需要計算其特征向量與類別的原型中心之間的歐氏距離,距離計算公式如下:
23、?(5)
24、將查詢樣本分類為與其歐式距離最小的原型中心所在的類別,為遍歷全部原型中心的類別,分類公式如下:
25、?(6)
26、如果存在樣本與所有類別原型中心的距離均大于預設(shè)閾值,則樣本將被判定為屬于新類別,并相應(yīng)的更新原型中心。
27、結(jié)合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述將待檢測流量樣本的特征向量與樣本類別原型進行相似度計算的公式如下:
28、?(7)
29、其中為給定輸入樣本,輸出類別為的概率;代表指數(shù)函數(shù),用于將距離轉(zhuǎn)換為概率;為樣本提取的特征向量,為類別的原型中心,為所有類別的遍歷,為所有類別的原型中心,是樣本的特征向量與原型中心之間的距離,為樣本的特征向量與所有類別原型中心的距離。
30、結(jié)合第一方面,在第一方面的某些實現(xiàn)方式中,該方法還包括:所述查詢集中每個樣本及其真實類別,計算所有樣本的交叉熵損失并取平均,得到損失函數(shù):
31、?(8)
32、為查詢集中包含的所有流量樣本的數(shù)量,為查詢集中的樣本的遍歷,為樣本的真實類別,為樣本提取的特征向量,為類別的原型中心,為所有類別的遍歷,為所有類別的原型中心,是樣本的特征向量與其真實類別的原型中心之間的距離,為樣本的特征向量與所有類別原型中心的距離。
33、第二方面,為了達到上述目的,本發(fā)明公開了一種未知類別惡意流量檢測系統(tǒng),包括:
34、對比學習模塊,用于獲取流量數(shù)據(jù),對流量數(shù)據(jù)進行預處理,將預處理后的流量數(shù)據(jù)進行特征提取,得到特征序列,將特征序列輸入至預先建立的對比學習編碼器內(nèi)進行訓練,得到訓練后的對比學習編碼器;
35、惡意流量檢測模塊,用于接收樣本流量數(shù)據(jù),將樣本流量數(shù)據(jù)輸入至訓練好的對比學習編碼器內(nèi),輸出得到編碼后的特征向量,將編碼后的特征向量輸入至預先建立的少樣本學習模型內(nèi),得出樣本類別原型,獲取待檢測流量樣本的特征向量,將待檢測流量樣本的特征向量與樣本類別原型進行相似度計算,根據(jù)相似度計算結(jié)果來判定流量數(shù)據(jù)是否為惡意流量。
36、在本發(fā)明的另一方面,為了達到上述目的,公開了一種終端設(shè)備,包括存儲器、處理器及存儲在存儲器中并能夠在處理器上運行的計算機程序,所述存儲器中存儲有能夠在處理器上運行的計算機程序,所述處理器加載并執(zhí)行計算機程序時,采用了如上所述的一種未知類別惡意流量檢測方法。
37、本發(fā)明的有益效果:
38、本發(fā)明通過對比學習與少樣本學習的結(jié)合,系統(tǒng)在面對零日攻擊和新型威脅時,能夠快速適應(yīng)并進行準確檢測。這種方法突破了傳統(tǒng)依賴規(guī)則和簽名庫的局限,顯著提高了檢測未知攻擊的能力;對比學習提取的特征具有更強的區(qū)分性,結(jié)合少樣本學習快速學習新型攻擊模式,顯著減少了正常流量被誤判為攻擊(誤報)以及攻擊流量未被檢測(漏報)的情況,采用少樣本學習模型,在只有少量標注數(shù)據(jù)的情況下,依然能夠快速學習攻擊特征并應(yīng)用于實際檢測任務(wù)。這解決了數(shù)據(jù)標注成本高、標注數(shù)據(jù)稀缺的難題;通過對比學習的自監(jiān)督機制,系統(tǒng)能夠從海量網(wǎng)絡(luò)流量中學習到更具泛化能力的特征,使得其在不同網(wǎng)絡(luò)環(huán)境、不同攻擊類型和復雜多變的流量模式下均能保持高效的檢測性能。