專利名稱:一種基于半監(jiān)督學習的網(wǎng)絡協(xié)議識別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡安全技術(shù)領(lǐng)域,特別涉及一種基于半監(jiān)瞀學習的網(wǎng)絡協(xié)議識別方法及系統(tǒng)。
背景技術(shù):
網(wǎng)絡應用層協(xié)議識別技術(shù),簡稱協(xié)議識別,是Deep Inspection Firewall (深度檢測防火墻)、NIDS/NIPS(網(wǎng)絡入侵檢測/防御系統(tǒng))、UTM(統(tǒng)ー威脅管理)等安全網(wǎng)關(guān)系統(tǒng)的關(guān)鍵組成部分和核心技術(shù)所在,也是運營商進行流量統(tǒng)計和計費管理的基礎(chǔ)技木。協(xié)議識別技術(shù),主要依靠通過網(wǎng)絡流量的某種特征來進行識別判斷,推測出流量所屬的協(xié)議類型。其核心技術(shù)點包括識別所采用特征的選取,以及利用特征進行識別的方法。目前エ業(yè)界所采用的方法主要有兩種基于協(xié)議端ロ和基于深度包檢測技木。 基于協(xié)議端ロ的識別,往往適用于傳統(tǒng)的網(wǎng)絡協(xié)議。其原理是網(wǎng)絡協(xié)議有在IANACThe Internet Assigned Numbers Authority,互聯(lián)網(wǎng)數(shù)字分配機構(gòu))注冊 的固定的傳輸層端ロ 號碼。例如FTP(File Transfer Protocol,文件傳輸協(xié)議)協(xié)議的注冊傳輸層端口號為20 和21。這類方法僅僅檢測傳輸層端ロ,識別速度特別快。但由于很多協(xié)議并沒有固定的傳輸層端ロ號碼,某些新的協(xié)議甚至采用動態(tài)端ロ或者偽裝端ロ技木,基于端ロ的識別方法準確率不能滿足當前的需求。另ー類方法為基于深度包檢測技木,即事先生成好某些協(xié)議的特征字符串(包括精確串、正則表達式或語義串等)規(guī)則集合,通過在網(wǎng)包載荷中進行特征字符串探測,來進行協(xié)議識別。這種方法的效果依賴于事先生成的特征字符串規(guī)則集合。 通過提取精確的特征字符串可以達到較準確的識別效果,但一方面對多種協(xié)議提取精確的特征字符串十分困難,需要消耗大量人力物力,另ー方面,對網(wǎng)包載荷進行匹配識別需要很高的計算代價,造成識別速度慢。同時,某些新出現(xiàn)的協(xié)議如Skype,可能對載荷內(nèi)容進行加密,這種情況下,基于深度包檢測技術(shù)的協(xié)議識別無法正常工作。而在學術(shù)界,采用機器學習方法進行協(xié)議識別的研究非常熱門,代表性的方法如 基于PCA (Principal Component Analysis,主成分分析)的方法,基于最近鄰的方法,基于貝葉斯分類器的方法,基于期望最大化方法等。這些方法或者采用了非監(jiān)瞀機器學習,或者采取了監(jiān)瞀機器學習,要么無法準確分類,要么依賴大量標定的數(shù)據(jù)集。但是目前沒有ー種已公開的方法可以滿足所有的實用需求。
發(fā)明內(nèi)容
(一 )要解決的技術(shù)問題本發(fā)明要解決的技術(shù)問題是如何提供一種基于半監(jiān)瞀學習的網(wǎng)絡協(xié)議識別方法及系統(tǒng),以同時具有較高的識別準確率和較快的識別速度,不依賴大量的標定數(shù)據(jù)集,并且可以識別加密協(xié)議。( ニ)技術(shù)方案
為解決上述技術(shù)問題,本發(fā)明提供一種基于半監(jiān)瞀學習的網(wǎng)絡協(xié)議識別方法,其包括步驟A :基于半監(jiān)瞀學習方法訓練多個分類器;B :對待識別網(wǎng)絡流量進行分流處理,并對分流處理得到的待識別單流進行統(tǒng)計, 得到每個待識別單流中預定值個網(wǎng)包的長度信息;C :根據(jù)所述待識別單流中所述預定值個網(wǎng)包的長度信息,利用所述分類器,對所述待識別單流進行協(xié)議識別。優(yōu)選地,所述步驟A具體包括步驟Al :對第一預定量的第一單流進行協(xié)議識別并標定,標定的結(jié)果包括每個所述第一單流的前部的所述預定值個網(wǎng)包的長度信息,以及每個所述第一單流的協(xié)議類型;A2 :采集第二預定量的第二單流的流量信息,所述流量信息包括每個所述第二單流的前部的所述預定值個網(wǎng)包的長度信息;所述第二預定量大于所述第一預定量;A3:根據(jù)所述第一單流的標定結(jié)果和所述第二單流的流量信息,進行半監(jiān)瞀機器學習的訓練,得到多個所述分類器。優(yōu)選地,所述第二預定量是所述第一預定量的5倍至10倍。優(yōu)選地,所述分類器的形式為R = wx+b,每個所述分類器用于區(qū)分兩種網(wǎng)絡協(xié)議, 任意兩種待區(qū)分的網(wǎng)絡協(xié)議均對應ー個所述分類器;其中,X是所述預定值個網(wǎng)包的長度信息構(gòu)成的長度向量;w是所述分類器的第一參數(shù),b是所述分類器的第二參數(shù),W和b根據(jù)待區(qū)分的兩種網(wǎng)絡協(xié)議確定;R表示對應所述分類器的分類結(jié)果。優(yōu)選地,所述步驟B具體包括步驟BI :對待識別網(wǎng)絡流量進行分流處理,將包頭中的源IP地址、目標IP地址、源端 ロ、目標端ロ、三層協(xié)議均相同的網(wǎng)包劃分到一個待識別單流中;B2:對分流處理得到的所述待識別單流進行統(tǒng)計,得到每個所述待識別單流的前部的所述預定值個網(wǎng)包的長度信息。優(yōu)選地,所述步驟C具體包括步驟Cl :將所述待識別單流的前部的所述預定值個網(wǎng)包的長度信息分別代入每個所述分類器中,得到分類結(jié)果;C2:根據(jù)所述分類結(jié)果,對每種待區(qū)分網(wǎng)絡協(xié)議進行投票處理,得到所述待識別單流的協(xié)議識別結(jié)果。優(yōu)選地,所述方法在所述步驟C之后還包步驟D :根據(jù)每個所述分類器的參數(shù)和每個所述分類器對應的所述分類結(jié)果,計算所述協(xié)議識別結(jié)果的可信度參數(shù);E :判斷所述可信度參數(shù)是否大于預定閾值,如果是,輸出所述協(xié)議識別結(jié)果;否則,采用第二協(xié)議識別方法進行識別后輸出第二協(xié)議識別結(jié)果。優(yōu)選地,所述可信度參數(shù)的計算公式如下
權(quán)利要求
1.一種基于半監(jiān)督學習的網(wǎng)絡協(xié)議識別方法,其特征在于,包括步驟A :基于半監(jiān)督學習方法訓練多個分類器;B:對待識別網(wǎng)絡流量進行分流處理,并對分流處理得到的待識別單流進行統(tǒng)計,得到每個待識別單流中預定值個網(wǎng)包的長度信息;C :根據(jù)所述待識別單流中所述預定值個網(wǎng)包的長度信息,利用所述分類器,對所述待識別單流進行協(xié)議識別。
2.如權(quán)利要求I所述的方法,其特征在于,所述步驟A具體包括步驟Al :對第一預定量的第一單流進行協(xié)議識別并標定,標定的結(jié)果包括每個所述第一單流的前部的所述預定值個網(wǎng)包的長度信息,以及每個所述第一單流的協(xié)議類型;A2 :采集第二預定量的第二單流的流量信息,所述流量信息包括每個所述第二單流的前部的所述預定值個網(wǎng)包的長度信息;所述第二預定量大于所述第一預定量;A3 :根據(jù)所述第一單流的標定結(jié)果和所述第二單流的流量信息,進行半監(jiān)督機器學習的訓練,得到多個所述分類器。
3.如權(quán)利要求2所述的方法,其特征在于,所述第二預定量是所述第一預定量的5倍至 10倍。
4.如權(quán)利要求2所述的方法,其特征在于,所述分類器的形式為R= wx+b,每個所述分類器用于區(qū)分兩種網(wǎng)絡協(xié)議,任意兩種待區(qū)分的網(wǎng)絡協(xié)議均對應一個所述分類器;其中,X 是所述預定值個網(wǎng)包的長度信息構(gòu)成的長度向量;w是所述分類器的第一參數(shù),b是所述分類器的第二參數(shù),w和b根據(jù)待區(qū)分的兩種網(wǎng)絡協(xié)議確定;R表示對應所述分類器的分類結(jié)果O
5.如權(quán)利要求I所述的方法,其特征在于,所述步驟B具體包括步驟BI :對待識別網(wǎng)絡流量進行分流處理,將包頭中的源IP地址、目標IP地址、源端口、目標端口、三層協(xié)議均相同的網(wǎng)包劃分到一個待識別單流中;B2:對分流處理得到的所述待識別單流進行統(tǒng)計,得到每個所述待識別單流的前部的所述預定值個網(wǎng)包的長度信息。
6.如權(quán)利要求I所述的方法,其特征在于,所述步驟C具體包括步驟Cl :將所述待識別單流的前部的所述預定值個網(wǎng)包的長度信息分別代入每個所述分類器中,得到分類結(jié)果;C2 :根據(jù)所述分類結(jié)果,對每種待區(qū)分網(wǎng)絡協(xié)議進行投票處理,得到所述待識別單流的協(xié)議識別結(jié)果。
7.如權(quán)利要求6所述的方法,其特征在于,所述方法在所述步驟C之后還包步驟D :根據(jù)每個所述分類器的參數(shù)和每個所述分類器對應的所述分類結(jié)果,計算所述協(xié)議識別結(jié)果的可信度參數(shù);E :判斷所述可信度參數(shù)是否大于預定閾值,如果是,輸出所述協(xié)議識別結(jié)果;否則,采用第二協(xié)議識別方法進行識別后輸出第二協(xié)議識別結(jié)果。
8.如權(quán)利要求7所述的方法,其特征在于,所述可信度參數(shù)的計算公式如下
9.一種權(quán)利要求I至8中任一項所述的基于半監(jiān)瞀學習的網(wǎng)絡協(xié)議識別方法對應的系統(tǒng),其特征在于,所述系統(tǒng)包括分類器模塊、流量統(tǒng)計模塊、協(xié)議識別模塊;所述分類器模塊,用于基于半監(jiān)瞀學習方法訓練多個分類器;所述流量統(tǒng)計模塊,用于對待識別網(wǎng)絡流量進行分流處理,并對分流處理得到的待識別單流進行統(tǒng)計,得到每個待識別單流的前部的預定值個網(wǎng)包的長度信息;所述協(xié)議識別模塊,用于將所述待識別單流的前部的所述預定值個網(wǎng)包的長度信息分別代入每個所述分類器中,得到分類結(jié)果,井根據(jù)所述分類結(jié)果,對每種待區(qū)分網(wǎng)絡協(xié)議進行投票處理,得到所述待識別單流的協(xié)議識別結(jié)果。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括可信度計算模塊、可信度判斷模塊和第二協(xié)議識別模塊;所述可信度計算模塊,用于根據(jù)每個所述分類器的參數(shù)和每個所述分類器對應的所述分類結(jié)果,計算所述協(xié)議識別結(jié)果的可信度參數(shù);所述可信度判斷模塊,用于判斷所述可信度參數(shù)是否大于預定閾值,如果是,輸出所述協(xié)議識別結(jié)果;否則,通知所述第二協(xié)議識別模塊;所述第二協(xié)議識別模塊,用于采用第二協(xié)議識別方法對所述待識別單流進行協(xié)議識別,并輸出第二協(xié)議識別結(jié)果。
全文摘要
本發(fā)明公開了一種基于半監(jiān)督學習的網(wǎng)絡協(xié)議識別方法及系統(tǒng),涉及網(wǎng)絡安全技術(shù)領(lǐng)域。所述方法包括步驟基于半監(jiān)督學習方法訓練多個分類器;對待識別網(wǎng)絡流量進行分流處理,并對分流處理得到的待識別單流進行統(tǒng)計,得到每個待識別單流中預定值個網(wǎng)包的長度信息;根據(jù)待識別單流中預定值個網(wǎng)包的長度信息,利用分類器,對待識別單流進行協(xié)議識別。本發(fā)明所述基于半監(jiān)督學習的網(wǎng)絡協(xié)議識別方法及系統(tǒng),將半監(jiān)督機器學習的方法引入到協(xié)議識別中,即采用了少量的標定樣本信息,又充分利用了大量的未標記信息,實現(xiàn)了分類性能和實用擴展性的同時滿足,同時具有較高的識別準確率和較快的識別速度,不依賴大量的標定數(shù)據(jù)集,并且可以識別加密協(xié)議。
文檔編號H04L29/06GK102611706SQ20121007592
公開日2012年7月25日 申請日期2012年3月21日 優(yōu)先權(quán)日2012年3月21日
發(fā)明者李軍, 楊保華 申請人:清華大學