一種基于機器學習的IPS日志去重合并方法與流程

文檔序號：40635113發(fā)布日期：2025-01-10 18:41閱讀：3來源：國知局

本申請涉及ips日志去重合，尤其涉及一種基于機器學習的ips日志去重合并方法。

背景技術：

1、隨著信息化水平的提高，為了更好的防范網絡攻擊，中國農業(yè)銀行引入了許多網絡安全設備。這些設備中ips產生的告警日志數量較多，每月進行分析的時候工作量較大。觀察發(fā)現同一攻擊者發(fā)起的同類型攻擊會產生大量的日志，原因主要為攻擊目的ip不同(掃描遍歷)、攻擊路徑不同(目錄遍歷)、攻擊時間不同(重放攻擊)、攻擊源ip不同(秒撥ip)等原因導致。如果能將這些同類型的攻擊告警合并起來，更便于管理員對該類攻擊開展研究分析，也能形成更清晰的攻擊者畫像，因此，有必要設計一種基于機器學習的ips日志去重合并方法。

技術實現思路

1、本申請?zhí)峁┮环N基于機器學習的ips日志去重合并方法，以解決現有技術分析工作量較大的問題，實現了通過機器學習技術擬合模型，能通過不斷迭代優(yōu)化準確率；能大量減少人工對日志的去重合并工作。

2、本申請?zhí)峁┮环N基于機器學習的ips日志去重合并方法，包括以下步驟：

3、a、數據收集與準備；

4、b、數據特征處理；

5、c、數據集劃分；

6、d、選擇分類模型；

7、e、模型訓練；

8、f、模型評估；

9、g、模型測試與部署；

10、h、日志去重和合并；

11、i、模型優(yōu)化。

12、優(yōu)選的，所述步驟a具體包括如下步驟：

13、a、收集數據:收集大量真實的ips日志數據，確保這些數據具有代表性并涵蓋多種入侵類型；

14、b、清洗數據:處理缺失值、去除重復項、格式化時間戳和ip地址信息；

15、c、標注數據:對每條日志進行標注，區(qū)分它們是否屬于同一類攻擊或是不同的攻擊類型；

16、d、特征提取:從日志中提取出機器學習模型所需的特征，包括時間戳、源ip和目標ip、攻擊類型、攻擊嚴重等級、端口和協議。

17、優(yōu)選的，所述步驟b具體包括如下步驟：

18、a、文本特征處理:使用自然語言處理技術處理日志的自由文本字段，采用tf-idf、詞向量技術將日志轉化為數值特征；

19、b、數值特征處理:標準化或歸一化數值特征，確保不同特征維度之間的數值差異不會對模型造成偏差；

20、c、特征選擇:使用統計方法或基于模型的方法選擇對分類任務最有貢獻的特征。

21、優(yōu)選的，所述步驟c中數據集劃分具體流程如下：

22、a、將數據集劃分為訓練集、驗證集和測試集，訓練集、驗證集和測試集采用7:2:1的比例；

23、b、交叉驗證:使用k折交叉驗證來提高模型的泛化能力，k＝5或k＝10。

24、優(yōu)選的，所述步驟d中分類模型包括機器學習模型和深度學習模型，其中，機器學習模型選擇支持向量機、隨機森林、梯度提升決策樹、xgboost、lightgbm集成學習模型或神經網絡模型。

25、優(yōu)選的，所述步驟e中模型訓練方法如下：

26、a、定義損失函數:選擇合適的損失函數，并確定優(yōu)化器；其中，損失函數采用交叉熵損失，優(yōu)化器采用adam或sgd；

27、b、超參數調優(yōu):使用網格搜索或隨機搜索的方法調整模型的超參數，包括學習率、樹的深度、正則化參數；

28、c、模型訓練:使用訓練集進行模型訓練，記錄訓練損失和準確率的變化。

29、優(yōu)選的，所述步驟f中，在驗證集上評估模型性能，使用準確率、查準率、召回率、f1分數評估指標；若模型表現不佳，則調整特征、改變模型架構或進行更多的超參數調優(yōu)。

30、優(yōu)選的，所述步驟g具體流程如下：

31、a、在測試集上對模型進行最終測試，評估其泛化能力；

32、b、若結果滿意，則將模型集成到ips日志分析系統中，進行實時日志去重和合并。

33、優(yōu)選的，所述步驟h包括日志去重和日志合并，其中，日志去重:訓練模型識別重復的日志記錄，基于時間戳、攻擊特征和其他關鍵字段來判斷是否為重復條目；日志合并:對于屬于同一事件的多條日志，模型通過聚類或分類方法將它們合并為一條記錄。

34、優(yōu)選的，所述步驟i模型優(yōu)化具體為：

35、a、持續(xù)監(jiān)控模型的表現，根據新數據定期更新模型；

36、b、使用增量學習或在線學習的方法動態(tài)調整模型，以適應不斷變化的入侵模式。

37、有益效果：

38、(1)本發(fā)明采用的ips日志去重合并方法通過機器學習技術擬合模型，能通過不斷迭代優(yōu)化準確率；能大量減少人工對日志的去重合并工作，降低了人工成本。

39、(2)本發(fā)明通過真實攻擊收集的數據有更好的泛用性，同時該數據后期也可以用于其他項目的研究應用。

40、(3)本發(fā)明的模型具有多重標簽，可以按要求更改合并去重的條件，提高了日志的去重合并效率。

41、上述說明僅是本申請實施例技術方案的概述，為了能夠更清楚了解本申請實施例的技術手段，而可依照說明書的內容予以實施，并且為了讓本申請實施例的上述和其它目的、特征和優(yōu)點能夠更明顯易懂，以下特舉本申請的具體實施方式。

技術特征：

1.一種基于機器學習的ips日志去重合并方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法，其特征在于，所述步驟a具體包括如下步驟：

3.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法，其特征在于，所述步驟b具體包括如下步驟：

4.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法，其特征在于，所述步驟c中數據集劃分具體流程如下：

5.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法，其特征在于，所述步驟d中分類模型包括機器學習模型和深度學習模型，其中，機器學習模型選擇支持向量機、隨機森林、梯度提升決策樹、xgboost、lightgbm集成學習模型或神經網絡模型。

6.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法，其特征在于，所述步驟e中模型訓練方法如下：

7.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法，其特征在于，所述步驟f中，在驗證集上評估模型性能，使用準確率、查準率、召回率、f1分數評估指標；若模型表現不佳，則調整特征、改變模型架構或進行更多的超參數調優(yōu)。

8.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法，其特征在于，所述步驟g具體流程如下：

9.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法，其特征在于，所述步驟h包括日志去重和日志合并，其中，日志去重:訓練模型識別重復的日志記錄，基于時間戳、攻擊特征和其他關鍵字段來判斷是否為重復條目；日志合并:對于屬于同一事件的多條日志，模型通過聚類或分類方法將它們合并為一條記錄。

10.根據權利要求1所述的一種基于機器學習的ips日志去重合并方法，其特征在于，所述步驟i模型優(yōu)化具體為：

技術總結
本申請?zhí)峁┮环N基于機器學習的IPS日志去重合并方法，包括以下步驟：A、數據收集與準備；B、數據特征處理；C、數據集劃分；D、選擇分類模型；E、模型訓練；F、模型評估；G、模型測試與部署；H、日志去重和合并；I、模型優(yōu)化，本發(fā)明采用的IPS日志去重合并方法通過機器學習技術擬合模型，能通過不斷迭代優(yōu)化準確率；能大量減少人工對日志的去重合并工作，降低了人工成本；本發(fā)明通過真實攻擊收集的數據有更好的泛用性，同時該數據后期也可以用于其他項目的研究應用；本發(fā)明的模型具有多重標簽，可以按要求更改合并去重的條件，提高了日志的去重合并效率。

技術研發(fā)人員：張澤陽
受保護的技術使用者：中國農業(yè)銀行股份有限公司云南省分行
技術研發(fā)日：
技術公布日：2025/1/9

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：張澤陽
技術所有人：中國農業(yè)銀行股份有限公司云南省分行
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于機器學習的IPS日志去重合并方法與流程