本申請涉及ips日志去重合,尤其涉及一種基于機器學習的ips日志去重合并方法。
背景技術:
1、隨著信息化水平的提高,為了更好的防范網絡攻擊,中國農業(yè)銀行引入了許多網絡安全設備。這些設備中ips產生的告警日志數量較多,每月進行分析的時候工作量較大。觀察發(fā)現同一攻擊者發(fā)起的同類型攻擊會產生大量的日志,原因主要為攻擊目的ip不同(掃描遍歷)、攻擊路徑不同(目錄遍歷)、攻擊時間不同(重放攻擊)、攻擊源ip不同(秒撥ip)等原因導致。如果能將這些同類型的攻擊告警合并起來,更便于管理員對該類攻擊開展研究分析,也能形成更清晰的攻擊者畫像,因此,有必要設計一種基于機器學習的ips日志去重合并方法。
技術實現思路
1、本申請?zhí)峁┮环N基于機器學習的ips日志去重合并方法,以解決現有技術分析工作量較大的問題,實現了通過機器學習技術擬合模型,能通過不斷迭代優(yōu)化準確率;能大量減少人工對日志的去重合并工作。
2、本申請?zhí)峁┮环N基于機器學習的ips日志去重合并方法,包括以下步驟:
3、a、數據收集與準備;
4、b、數據特征處理;
5、c、數據集劃分;
6、d、選擇分類模型;
7、e、模型訓練;
8、f、模型評估;
9、g、模型測試與部署;
10、h、日志去重和合并;
11、i、模型優(yōu)化。
12、優(yōu)選的,所述步驟a具體包括如下步驟:
13、a、收集數據:收集大量真實的ips日志數據,確保這些數據具有代表性并涵蓋多種入侵類型;
14、b、清洗數據:處理缺失值、去除重復項、格式化時間戳和ip地址信息;
15、c、標注數據:對每條日志進行標注,區(qū)分它們是否屬于同一類攻擊或是不同的攻擊類型;
16、d、特征提取:從日志中提取出機器學習模型所需的特征,包括時間戳、源ip和目標ip、攻擊類型、攻擊嚴重等級、端口和協議。
17、優(yōu)選的,所述步驟b具體包括如下步驟:
18、a、文本特征處理:使用自然語言處理技術處理日志的自由文本字段,采用tf-idf、詞向量技術將日志轉化為數值特征;
19、b、數值特征處理:標準化或歸一化數值特征,確保不同特征維度之間的數值差異不會對模型造成偏差;
20、c、特征選擇:使用統計方法或基于模型的方法選擇對分類任務最有貢獻的特征。
21、優(yōu)選的,所述步驟c中數據集劃分具體流程如下:
22、a、將數據集劃分為訓練集、驗證集和測試集,訓練集、驗證集和測試集采用7:2:1的比例;
23、b、交叉驗證:使用k折交叉驗證來提高模型的泛化能力,k=5或k=10。
24、優(yōu)選的,所述步驟d中分類模型包括機器學習模型和深度學習模型,其中,機器學習模型選擇支持向量機、隨機森林、梯度提升決策樹、xgboost、lightgbm集成學習模型或神經網絡模型。
25、優(yōu)選的,所述步驟e中模型訓練方法如下:
26、a、定義損失函數:選擇合適的損失函數,并確定優(yōu)化器;其中,損失函數采用交叉熵損失,優(yōu)化器采用adam或sgd;
27、b、超參數調優(yōu):使用網格搜索或隨機搜索的方法調整模型的超參數,包括學習率、樹的深度、正則化參數;
28、c、模型訓練:使用訓練集進行模型訓練,記錄訓練損失和準確率的變化。
29、優(yōu)選的,所述步驟f中,在驗證集上評估模型性能,使用準確率、查準率、召回率、f1分數評估指標;若模型表現不佳,則調整特征、改變模型架構或進行更多的超參數調優(yōu)。
30、優(yōu)選的,所述步驟g具體流程如下:
31、a、在測試集上對模型進行最終測試,評估其泛化能力;
32、b、若結果滿意,則將模型集成到ips日志分析系統中,進行實時日志去重和合并。
33、優(yōu)選的,所述步驟h包括日志去重和日志合并,其中,日志去重:訓練模型識別重復的日志記錄,基于時間戳、攻擊特征和其他關鍵字段來判斷是否為重復條目;日志合并:對于屬于同一事件的多條日志,模型通過聚類或分類方法將它們合并為一條記錄。
34、優(yōu)選的,所述步驟i模型優(yōu)化具體為:
35、a、持續(xù)監(jiān)控模型的表現,根據新數據定期更新模型;
36、b、使用增量學習或在線學習的方法動態(tài)調整模型,以適應不斷變化的入侵模式。
37、有益效果:
38、(1)本發(fā)明采用的ips日志去重合并方法通過機器學習技術擬合模型,能通過不斷迭代優(yōu)化準確率;能大量減少人工對日志的去重合并工作,降低了人工成本。
39、(2)本發(fā)明通過真實攻擊收集的數據有更好的泛用性,同時該數據后期也可以用于其他項目的研究應用。
40、(3)本發(fā)明的模型具有多重標簽,可以按要求更改合并去重的條件,提高了日志的去重合并效率。
41、上述說明僅是本申請實施例技術方案的概述,為了能夠更清楚了解本申請實施例的技術手段,而可依照說明書的內容予以實施,并且為了讓本申請實施例的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本申請的具體實施方式。
1.一種基于機器學習的ips日志去重合并方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法,其特征在于,所述步驟a具體包括如下步驟:
3.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法,其特征在于,所述步驟b具體包括如下步驟:
4.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法,其特征在于,所述步驟c中數據集劃分具體流程如下:
5.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法,其特征在于,所述步驟d中分類模型包括機器學習模型和深度學習模型,其中,機器學習模型選擇支持向量機、隨機森林、梯度提升決策樹、xgboost、lightgbm集成學習模型或神經網絡模型。
6.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法,其特征在于,所述步驟e中模型訓練方法如下:
7.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法,其特征在于,所述步驟f中,在驗證集上評估模型性能,使用準確率、查準率、召回率、f1分數評估指標;若模型表現不佳,則調整特征、改變模型架構或進行更多的超參數調優(yōu)。
8.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法,其特征在于,所述步驟g具體流程如下:
9.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法,其特征在于,所述步驟h包括日志去重和日志合并,其中,日志去重:訓練模型識別重復的日志記錄,基于時間戳、攻擊特征和其他關鍵字段來判斷是否為重復條目;日志合并:對于屬于同一事件的多條日志,模型通過聚類或分類方法將它們合并為一條記錄。
10.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法,其特征在于,所述步驟i模型優(yōu)化具體為: