專利名稱:基于關聯(lián)性命令控制信息的流量識別方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及信息安全與監(jiān)控技術領域,尤其涉及一種基于關聯(lián)性命令控制信息的 流量識別方法及系統(tǒng)。
背景技術:
網(wǎng)絡流分類和協(xié)議識別技術是信息安全和監(jiān)控領域中的核心技術。其主要任務是 根據(jù)網(wǎng)絡流及流內報文包含的信息識別出流所屬的網(wǎng)絡協(xié)議類別。隨著高速互聯(lián)網(wǎng)技術和 多媒體技術的發(fā)展,網(wǎng)絡的有效管理變得越來越富有挑戰(zhàn)性。流分類是網(wǎng)絡管理的基礎,也 是解決網(wǎng)絡擁塞、確定關鍵性服務、組織網(wǎng)絡攻擊、追蹤非法流量的基礎。
現(xiàn)有的網(wǎng)絡流分類和協(xié)議識別技術包括基于包頭的技術、基于協(xié)議的技術和基 于行為的技術。分類和識別方法主要有基于模式匹配的方法、基于統(tǒng)計的方法和基于機器 學習的方法。
基于包頭和協(xié)議的技術通過對包中載荷里的字段分析,得到目標協(xié)議中特定字段 的固定模式,并應用模式匹配的方法進行協(xié)議識別。該類方法識別速度快,準確率高,但是 更新代價較大,無法識別加密流量和協(xié)議。
基于行為的技術主要利用目標協(xié)議在網(wǎng)絡中的傳輸行為特征,應用統(tǒng)計和機器學 習的方法進行網(wǎng)絡流分類和識別。該類方法一般情況下的識別速度和準確率都遜于基于包 頭和協(xié)議的匹配方法。但是,該類方法不需要分析載荷中的內容,因此能夠識別加密流量。
盡管傳統(tǒng)的基于端口的流分類方法和基于固定載荷特征的流分類方法仍然在大 量使用,但是越來越多的動態(tài)協(xié)議和加密協(xié)議使得基于包的流分類方法有效性不斷降低。發(fā)明內容
(一)要解決的技術問題
本發(fā)明所要解決的技術問題是提高流識別的速度、有效性以及適用范圍。
( 二 )技術方案
為解決上述問題,本發(fā)明提供了一種基于關聯(lián)性命令控制信息的流量識別方法, 該方法包括步驟
Si.對目標協(xié)議流量的初始握手交互過程進行分析,獲得載荷中包含的命令控制 信息集合,以及所述命令控制信息之間以交互為主要特征的關聯(lián)的集合;
S2.根據(jù)五元組將待識別的流量分成多條流;
S3.按照目標協(xié)議的消息重組的啟發(fā)性條件集合,判斷待識別的流是否能夠進行 目標協(xié)議的消息重組,若不能,則載入下一條流,并重新執(zhí)行步驟S3,若能,則執(zhí)行步驟S4 ;
S4.檢查待識別的流的消息中是否包含所述命令控制信息集合中的項,若不包含, 則判斷該流為非所述目標協(xié)議流量,載入下一條流,并返回步驟S3,若包含,則執(zhí)行步驟 S5 ;
S5.判斷待識別的流的消息的命令控制信息是否符合所述關聯(lián)集合中的項,若不符合,則判斷所述流為非所述目標協(xié)議流量,載入下一條流,并返回步驟S3,若符合,則判定 所述流為所述目標協(xié)議流量,載入下一條流,并返回步驟S3。
其中,在步驟Sl進一步包括
Si. 1抓取目標協(xié)議純流量;
Si. 2對所述目標協(xié)議純流量進行五元組分流;
Si. 3定義所述目標協(xié)議的消息,得到所述目標協(xié)議的消息重組的啟發(fā)性條件;
Si. 4將所述目標協(xié)議純流量中的每個流按照步驟Si. 3中的定義及啟發(fā)性條件進 行消息重組,獲得位于載荷開始位置的流量選定交互過程的命令控制信息集合,并對所述 命令控制信息按照以交互為主要特征的進行關聯(lián);
Si. 5對所述關聯(lián)進行相似度聚類和簡化,獲得命令控制信息之間的關聯(lián)的集合。
其中,步驟Si. 1中,抓取方法為在虛擬機中通過防火墻、以及抓包工具,運行所述 目標協(xié)議軟件,抓取所述目標協(xié)議純流量。
其中,所述五元組為源IP、目的IP、源端口、目的端口、以及協(xié)議號。
其中,步驟Si. 3中定義所述目標協(xié)議的消息進一步包括
Si. 31定義目標協(xié)議的流,為在設定時間內具有相同五元組的包組成的有序集 合;
Si. 32定義目標協(xié)議的消息,為目標協(xié)議的流中的一個獨立的交互步驟,一個消息 包括一個或多個所述包。
其中,步驟Si. 4中,每個消息的中所包含的有效屬性包括命令、長度、是否包含 傳輸數(shù)據(jù)。
其中,步驟Si. 5中的相似度聚類的方法為k-means聚類算法。
本發(fā)明還提供了一種基于關聯(lián)性命令控制信息的流量識別系統(tǒng),該系統(tǒng)包括分 析模塊,用于對目標協(xié)議流量的初始握手交互過程進行分析,獲得載荷中包含的命令控制 信息集合,以及所述命令控制信息之間以交互為主要特征的關聯(lián)的集合;分流模塊,用于根 據(jù)五元組將待識別的流量分成多條流;第一識別模塊,用于按照目標協(xié)議的消息重組的啟 發(fā)性條件集合,判斷待識別的流是否能夠進行目標協(xié)議的消息重組;第二識別模塊,用于檢 查待識別的流的消息中是否包含所述命令控制信息集合中的項;第三識別模塊,用于判斷 待識別的流的消息的命令控制信息是否符合所述關聯(lián)集合中的項,若不符合,則判斷所述 流為非所述目標協(xié)議流量若符合,則判定所述流為所述目標協(xié)議流量。
其中,所述敏捷分析模塊進一步包括抓取單元,用于抓取目標協(xié)議純流量;分流 單元,用于對所述目標協(xié)議純流量進行五元組分流;定義單元,用于定義所述目標協(xié)議的消 息,得到所述目標協(xié)議的消息重組的啟發(fā)性條件;消息重組單元,將所述目標協(xié)議純流量中 的每個流按照定義單元中的定義及啟發(fā)性條件進行消息重組,獲得位于載荷開始位置的流 量選定交互過程的命令控制信息集合,并對所述命令控制信息按照以交互為主要特征的進 行關聯(lián);聚類單元,用于對所述關聯(lián)進行相似度聚類和簡化,獲得命令控制信息之間的關聯(lián) 的集合。
(三)有益效果
本發(fā)明的方法及系統(tǒng)首先通過消息重組和聚類技術來對目標協(xié)議流量進行分析 和學習,得到命令控制信息集合和命令控制信息之間的關聯(lián)的集合,然后采用基于流的針對消息、命令控制信息及其關聯(lián)的實時在線系統(tǒng)來對流量進行識別和分類,該方法及系統(tǒng) 有效、快速、并有著較好的可擴展性。
圖1為依照本發(fā)明一種實施方式的基于關聯(lián)性命令控制信息的流量識別方法流 程圖2為依照本發(fā)明一種實施方式的基于關聯(lián)性命令控制信息的流量識別方法中 對目標協(xié)議流量的敏捷分析流程圖3為HTTP協(xié)議兩個關鍵交互過程的狀態(tài)關聯(lián)過程示意圖4(a)為QQ文本聊天協(xié)議空閑狀態(tài)以及聊天狀態(tài)的狀態(tài)關聯(lián)過程示意圖4(b)為QQ文本聊天協(xié)議登錄狀態(tài)的狀態(tài)關聯(lián)過程示意圖。
具體實施方式
對于本發(fā)明所提出的基于關聯(lián)性命令控制信息的流量識別方法及系統(tǒng),結合附圖 和實施例詳細說明。
本發(fā)明的方法是一種新型的基于流的流識別方法,它可以對多種類型的協(xié)議流量 進行有效快速區(qū)分,包括標準協(xié)議(如HTTP協(xié)議等),動態(tài)加密的協(xié)議(如即時通信協(xié)議 等)。本發(fā)明方法主要在于尋找通信中的命令控制信息的關聯(lián)過程,在一般情況下,一個流 開始的時候總是該協(xié)議的頻繁的握手交互過程。本發(fā)明首先對目標協(xié)議流量的初始握手交 互過程進行基于命令控制信息關聯(lián)的敏捷分析,定義目標協(xié)議的消息,并對抓取的目標協(xié) 議的純流量進行消息的重組聚類,最終得到代表選定的關鍵交互過程的命令控制信息關聯(lián) 集合(以狀態(tài)轉移圖和狀態(tài)機形式體現(xiàn))。然后在在線的實時分類過程中利用命令控制信 息和命令控制信息關聯(lián)判斷待識別流是否屬于目標協(xié)議。本發(fā)明的方法具有快速、有效、適 用范圍廣等優(yōu)點。
如圖1所示,依照本發(fā)明一種實施方式的基于關聯(lián)性命令控制信息的流量識別方 法包括
Si.對目標協(xié)議流量的初始握手交互過程進行敏捷分析,獲載荷中包含的命令控 制信息,以及所述命令控制信息之間以交互為主要特征的關聯(lián)的集合;。
如圖2所示,步驟Sl進一步包括
Si. 1抓取海量目標協(xié)議純流量,即全部為目標協(xié)議的流量,抓取方法為在沒有或 盡量不啟用其他會產(chǎn)生流量的網(wǎng)絡應用,即干凈的虛擬機中通過防火墻,抓包工具等,運行 目標軟件,抓取目標協(xié)議的純凈流量;
Si. 2對目標協(xié)議的純凈流量通過<源IP、目的IP、源端口、目的端口、協(xié)議號>五 元組分流;
Si. 3根據(jù)觀察和分析,定義目標協(xié)議的消息,并根據(jù)目標協(xié)議的消息的定義,找出 目標協(xié)議的消息重組的啟發(fā)性條件,根據(jù)這些啟發(fā)性條件能夠有效將流進行消息重組;
該步驟中,首先給出流的定義,流為一段時間內具有相同五元組<源IP、目的IP、 源端口、目的端口、協(xié)議號> 的包組成的有序集合,即流S =< P1,P2,...,Pn >,其中Pi (i = 1,2, ...η)為流中連續(xù)的包。消息代表流中一個獨立的交互步驟,一個消息由一個或多個包組成,一種協(xié)議的消息定義為M(a1; ,..., ),即該消息包含i個屬性,這些屬性通常包 括有效屬性命令字符串、長度、是否包含傳輸數(shù)據(jù)等,一個流可以表示成S =SM1,M2,..., Mm >,其中 m < η。
Si. 4將目標協(xié)議的每個流按上述定義及啟發(fā)性條件重組為多個消息,獲得位于載 荷開始位置的流量選定的關鍵交互過程的命令控制信息的集合,對命令控制信息按照交互 過程進行關聯(lián);
Si. 5按照每個消息中所包含的命令字符串、長度、是否包含傳輸數(shù)據(jù)等屬性進行 相似度聚類,即消息的轉移過程集合,對其進行簡化,最終獲得命令控制信息之間的關聯(lián)的 集合,即關鍵交互過程狀態(tài)機集合K,其中命令控制信息的集合為集合C。
在聚類過程中,優(yōu)選地使用k-means聚類算法,即目標協(xié)議純流量中有N條流,表 示為Si =<Mn,Mi2,...,Mim>,其中i = 1,2,...,N。根據(jù)觀察和經(jīng)驗給出初始的聚類狀 態(tài)集合Ctl= Ic1 (1),C2(I),...,Ck(I) },將流Si聚類到距離最近的聚類狀態(tài)Ci中。依次迭 代進行聚類,直到最終集合收斂,即Ci =< MCn,MCi2, ... , MCiMi >,(i = 1,2,. . .,k)。因 為通信協(xié)議總是具有一定的內在結構,因此大多數(shù)情況下使用k-means聚類算法結果都是 收斂的。
繼續(xù)如圖1所示
S2.對待識別的流量,首先進行分流,按照<源IP、目的IP、源端口、目的端口、協(xié) 議號>這五元組將流量分成多條流;
S3.以流為單位進行識別,首先按照目標協(xié)議的啟發(fā)性條件判斷待識別流是否能 被分成目標協(xié)議的消息,如果不行則該流被判斷為非目標協(xié)議流量,載入下一條待判斷的 流,轉至步驟S3,如果可以進行下一步驟;
S4.檢查待判斷流的消息中是否包含命令控制信息集合中的項,即屬于集合C的 命令控制信息,如果不包含,則該流被判斷為非目標協(xié)議流量,載入下一條待判斷的流,轉 至步驟S3,如果包含進行下一步驟;
S5.判斷待識別流的消息的命令控制信息是否包含所述關聯(lián)集合中的項,即關鍵 交互過程集合K中的某個狀態(tài)轉移過程,如果不符合,則該流被判斷為非目標協(xié)議流量,載 入下一條待判斷的流,轉至步驟S3,如果符合則說明待識別的流屬于迅雷流量,轉至S3進 行下一條流的判斷。
在上述過程中,一般只需要檢查一個流的頭十幾個至幾十個包,并且每個包只需 要檢查載荷的頭幾十個至一百個左右字節(jié)即可,我們假設待分類的流量共有N條流,假設 每條流需要檢查頭A個包,每個包需要檢查頭B個字節(jié),這樣識別分類的計算復雜度0 (N) =AbN,整體在線識別系統(tǒng)非常簡潔,復雜度也較低,能夠有效被運用到實際流量識別系統(tǒng) 中。
此外,選定的關鍵交互過程根據(jù)目標協(xié)議的不同而不同。
本發(fā)明還提供了一種基于命令控制信息關聯(lián)的流量識別系統(tǒng),該系統(tǒng)包括分析 模塊,用于對目標協(xié)議流量的初始握手交互過程進行分析,獲得載荷中包含的命令控制信 息集合,以及所述命令控制信息之間以交互為主要特征的關聯(lián)的集合;分流模塊,用于根據(jù) 五元組將待識別的流量分成多條流;第一識別模塊,用于按照目標協(xié)議的消息重組的啟發(fā) 性條件集合,判斷待識別的流是否能夠進行目標協(xié)議的消息重組;第二識別模塊,用于檢查待識別的流的消息中是否包含所述命令控制信息集合中的項;第三識別模塊,用于判斷待 識別的流的消息的命令控制信息是否符合所述關聯(lián)集合中的項,若不符合,則判斷所述流 為非所述目標協(xié)議流量若符合,則判定所述流為所述目標協(xié)議流量。
其中,所述敏捷分析模塊進一步包括抓取單元,用于抓取目標協(xié)議純流量;分流 單元,用于對所述目標協(xié)議純流量進行五元組分流;定義單元,用于定義所述目標協(xié)議的消 息,得到所述目標協(xié)議的消息重組的啟發(fā)性條件;消息重組單元,將所述目標協(xié)議純流量中 的每個流按照定義單元中的定義及啟發(fā)性條件進行消息重組,獲得位于載荷開始位置的流 量選定交互過程的命令控制信息集合,并對所述命令控制信息按照以交互為主要特征的進 行關聯(lián);聚類單元,用于對所述關聯(lián)進行相似度聚類和簡化,獲得命令控制信息之間的關聯(lián) 的集合。
實施例1
本實施例以HTTP協(xié)議為例,說明本發(fā)明的技術方案。其中HTTP協(xié)議的命令控制 信息之間的關聯(lián)的集合中的兩個選定的關鍵交互過程(請求狀態(tài)(Request)以及響應狀態(tài) (Response))如圖3所示。本實施例的基于關聯(lián)性命令控制信息的流量識別方法包括步驟
Si. 1抓取海量HTTP純流量,抓取方法為在干凈的虛擬機中通過防火墻,抓包工具 等,運行目標軟件,抓取目標協(xié)議的純凈流量;
Si. 2對目標協(xié)議的純凈流量通過<源IP、目的IP、源端口、目的端口、協(xié)議號>五 元組分流;
Si. 3根據(jù)觀察和分析,定義目標協(xié)議的消息,根據(jù)HTTP協(xié)議的消息的定義,找出 HTTP協(xié)議的消息重組的啟發(fā)性條件,根據(jù)這些啟發(fā)行條件能夠有效將目標流進行消息重 組;
協(xié)議的消息定義為M(命令,長度,是否包含數(shù)據(jù),版本),一個流可以表示成S = SM1,M2, ...,Mm>。HTTP協(xié)議消息重組的啟發(fā)性條件主要為由于HTTP命令數(shù)量有限且 較為固定,所以根據(jù)HTTP命令來劃分HTTP消息是比較快捷也比較準確的。
Si. 4將HTTP協(xié)議的每個流按上述定義和啟發(fā)性條件分成多個消息,然后提取 命令控制信息,得到命令控制信息集合C,包括Request命令GET,Post, Options, HEAD, PUT, DELETE, CONNECT, TRACE ;以及 Response 命令 informational lxx, Successful 2xx, Redirection 3xx, Client Error 4xx, Server Error ^cx ;獲得控制命令信息后,會根據(jù)消 息的交互過程對這些控制命令信息進行初步關聯(lián)。
Si. 5得到初步關聯(lián)結果后,需要對其進行聚類和簡化,最終得到的就是命令控制 信息之間的關聯(lián)的集合K;
在聚類過程中,使用k-means聚類算法,即HTTP協(xié)議純流量中有N條流,表示為Si = <Mil,Mi2,...,Mim>,其中i = 1,2,...,N。根據(jù)觀察和經(jīng)驗給出初始的聚類狀態(tài)集 合CO= {cl(l),c2(l),...,ck(l)},將流Si聚類到距離最近的聚類狀態(tài)ci中。依次迭代 進行聚類,直到最終集合收斂,即Ci =< MCi l,MCi2,...,MCiMi >,(i = 1,2,· · ·,k)。因 為通信協(xié)議總是具有一定的內在結構,因此大多數(shù)情況下使用k-means聚類算法結果都是 收斂的。
S2.對待識別的流量,首先進行分流,按照 <源IP、目的IP、源端口、目的端口、協(xié) 議號>這五元組將流量分成多條流;
S3.以流為單位進行識別,首先按照HTTP協(xié)議觀察得到的啟發(fā)性條件判斷待識別 流是否能夠進行HTTP消息重組,如果不行則該流被判斷為非HTTP協(xié)議流量,載入下一條待 判斷的流,轉至步驟S3,如果可以進行下一步驟;
S4.檢查待識別的流的消息中是否包含命令控制信息,即屬于集合C的命令,如果 不包含,則該流被判斷為非HTTP協(xié)議流量,載入下一條待判斷的流,轉至步驟S3,如果包含 進行下一步驟;
S5.判斷待識別的流的消息構成是否符合命令控制信息的關聯(lián)集合K中的某個狀 態(tài)轉移過程,如果不符合,則該流被判斷為非HTTP協(xié)議流量,載入下一條待判斷的流,轉至 步驟S3,如果符合則說明待識別的流屬于HTTP流量,轉至步驟S3進行下一條流的判斷。
實施例2
本實施例以QQ文本聊天協(xié)議為例,說明本發(fā)明的技術方案。本實施例的基于敏捷 流分析的流量識別方法包括的步驟與實施例1相同,其中QQ文本聊天協(xié)議的命令控制信息 之間的關聯(lián)的集合中的三個選定的關鍵交互過程(空閑狀態(tài)、登錄狀態(tài)以及聊天狀態(tài))如 圖5所示,其中空閑狀態(tài)以及聊天狀態(tài)的狀態(tài)關聯(lián)過程如圖5(a)所示,登錄狀態(tài)的狀態(tài)關 聯(lián)過程如圖5(b)所示。其消息重組的啟發(fā)性條件主要為
(1)流中一方的QQ版本是固定的;
(2)所有消息的版本應該屬于QQ已出的版本中的一種;
(3)QQ的命令較為固定,數(shù)量有限,可以用來區(qū)分。
在上述過程中,一般只需要檢查一個流的頭十幾個至幾十個包,并且每個包只需 要檢查載荷的頭幾十個至一百個左右字節(jié)即可,假設待分類的流量共有N條流,假設每條 流需要檢查頭A個包,每個包需要檢查頭B個字節(jié),這樣識別分類的計算復雜度O(N)= AbN,整體在線識別系統(tǒng)非常簡潔,復雜度也較低,能夠有效被運用到實際流量識別系統(tǒng)中。
實際過程中得到的命令控制信息集合C
C = {Keep_Alive(圖 5 (a)中的 SO)、(圖 5 (a)中的 Si)、 Touch (圖 5(b)中的 SO)、Successful( 5(b)中的 Si)、Token Request ( 5(b)中 的 S2)、Token Response (圖 5 (b)中的 S3)、Captchas Request (圖 5 (b)中的 S4)、 Captchas Response (圖 5(b)中的 S5) 、Password Verifying Request (圖 5(b)中的 S6)、 PasswordVerifying Successful (圖 5 (b)中的 S7)、Login Request ( 5(b)中的 S8)、 Login Successful (圖 5(b)中的 S9)、Send Friend Message (圖 5 (c)中的 SO)、Receive Friend Message (圖 5(c)中的 Si)}
以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關技術領域的普通 技術人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有 等同的技術方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護范圍應由權利要求限定。
權利要求
1.一種基于關聯(lián)性命令控制信息的流量識別方法,其特征在于,該方法包括步驟51.對目標協(xié)議流量的初始握手交互過程進行分析,獲得載荷中包含的命令控制信息 集合,以及所述命令控制信息之間以交互為主要特征的關聯(lián)的集合;52.根據(jù)五元組將待識別的流量分成多條流;53.按照目標協(xié)議的消息重組的啟發(fā)性條件集合,判斷待識別的流是否能夠進行目標 協(xié)議的消息重組,若不能,則載入下一條流,并重新執(zhí)行步驟S3,若能,則執(zhí)行步驟S4 ;54.檢查待識別的流的消息中是否包含所述命令控制信息集合中的項,若不包含,則判 斷該流為非所述目標協(xié)議流量,載入下一條流,并返回步驟S3,若包含,則執(zhí)行步驟S5 ;55.判斷待識別的流的消息的命令控制信息是否符合所述關聯(lián)集合中的項,若不符合, 則判斷所述流為非所述目標協(xié)議流量,載入下一條流,并返回步驟S3,若符合,則判定所述 流為所述目標協(xié)議流量,載入下一條流,并返回步驟S3。
2.如權利要求1所述的基于關聯(lián)性命令控制信息的流量識別方法,其特征在于,在步 驟Sl進一步包括Si. 1抓取目標協(xié)議純流量;Si. 2對所述目標協(xié)議純流量進行五元組分流;Si. 3定義所述目標協(xié)議的消息,得到所述目標協(xié)議的消息重組的啟發(fā)性條件;Si. 4將所述目標協(xié)議純流量中的每個流按照步驟Si. 3中的定義及啟發(fā)性條件進行消 息重組,獲得位于載荷開始位置的流量選定交互過程的命令控制信息集合,并對所述命令 控制信息按照以交互為主要特征的進行關聯(lián);Si. 5對所述關聯(lián)進行相似度聚類和簡化,獲得命令控制信息之間的關聯(lián)的集合。
3.如權利要求2所述的基于關聯(lián)性命令控制信息的流量識別方法,其特征在于,步驟 Si. 1中,抓取方法為在虛擬機中通過防火墻、以及抓包工具,運行所述目標協(xié)議軟件,抓取 所述目標協(xié)議純流量。
4.如權利要求2所述的基于關聯(lián)性命令控制信息的流量識別方法,其特征在于,所述 五元組為源IP、目的IP、源端口、目的端口、以及協(xié)議號。
5.如權利要求2所述的基于關聯(lián)性命令控制信息的流量識別方法,其特征在于,步驟 Si. 3中定義所述目標協(xié)議的消息進一步包括Si. 31定義目標協(xié)議的流,為在設定時間內具有相同五元組的包組成的有序集合;Si. 32定義目標協(xié)議的消息,為目標協(xié)議的流中的一個獨立的交互步驟,一個消息包括 一個或多個所述包。
6.如權利要求2所述的基于關聯(lián)性命令控制信息的流量識別方法,其特征在于,步驟 Si. 4中,每個消息的中所包含的有效屬性包括命令、長度、是否包含傳輸數(shù)據(jù)。
7.如權利要求2所述的基于關聯(lián)性命令控制信息的流量識別方法,其特征在于,步驟 Si. 5中的相似度聚類的方法為k-means聚類算法。
8.一種基于關聯(lián)性命令控制信息的流量識別系統(tǒng),其特征在于,該系統(tǒng)包括分析模塊,用于對目標協(xié)議流量的初始握手交互過程進行分析,獲得載荷中包含的命 令控制信息集合,以及所述命令控制信息之間以交互為主要特征的關聯(lián)的集合;分流模塊,用于根據(jù)五元組將待識別的流量分成多條流;第一識別模塊,用于按照目標協(xié)議的消息重組的啟發(fā)性條件集合,判斷待識別的流是否能夠進行目標協(xié)議的消息重組;第二識別模塊,用于檢查待識別的流的消息中是否包含所述命令控制信息集合中的項;第三識別模塊,用于判斷待識別的流的消息的命令控制信息是否符合所述關聯(lián)集合中 的項,若不符合,則判斷所述流為非所述目標協(xié)議流量若符合,則判定所述流為所述目標協(xié) 議流量。
9.如權利要求8所述的基于關聯(lián)性命令控制信息的流量識別系統(tǒng),其特征在于,所述 敏捷分析模塊進一步包括抓取單元,用于抓取目標協(xié)議純流量;分流單元,用于對所述目標協(xié)議純流量進行五元組分流;定義單元,用于定義所述目標協(xié)議的消息,得到所述目標協(xié)議的消息重組的啟發(fā)性條件;消息重組單元,將所述目標協(xié)議純流量中的每個流按照定義單元中的定義及啟發(fā)性條 件進行消息重組,獲得位于載荷開始位置的流量選定交互過程的命令控制信息集合,并對 所述命令控制信息按照以交互為主要特征的進行關聯(lián);聚類單元,用于對所述關聯(lián)進行相似度聚類和簡化,獲得命令控制信息之間的關聯(lián)的集合。
全文摘要
本發(fā)明公開了一種基于關聯(lián)性命令控制信息的流量識別方法及系統(tǒng),該方法包括S1.對目標協(xié)議流量的初始握手交互過程進行分析,獲得載荷中包含的命令控制信息集合,以及所述命令控制信息之間以交互為主要特征的關聯(lián)的集合;S2.根據(jù)五元組將待識別的流量分成多條流;S3.按照目標協(xié)議的消息重組的啟發(fā)性條件集合,判斷待識別的流是否能夠進行目標協(xié)議的消息重組;S4.檢查待識別的流的消息中是否包含所述命令控制信息集合中的項;S5.判斷待識別的流的消息的命令控制信息是否包含所述關聯(lián)集合中的項。本發(fā)明的方法及系統(tǒng)有效、快速、并有著較好的可擴展性。
文檔編號H04L12/26GK102045195SQ20101056239
公開日2011年5月4日 申請日期2010年11月23日 優(yōu)先權日2010年11月23日
發(fā)明者李城龍, 薛一波 申請人:清華大學