專利名稱:一種接入網(wǎng)的流量識別方法和裝置的制作方法
技術領域:
本發(fā)明涉及網(wǎng)絡通信技術領域,特別是涉及一種接入網(wǎng)的流量識別方法和裝置。
背景技術:
隨著網(wǎng)絡業(yè)務類型的多樣化,網(wǎng)絡流量的識別技術成為業(yè)界關注的熱點。接入網(wǎng) 是連接核心網(wǎng)和用戶終端,或連接核心網(wǎng)和用戶駐地網(wǎng)的網(wǎng)絡,及時準確地對接入網(wǎng)中不 同類型的網(wǎng)絡流量進行識別,對于流量工程、服務質(zhì)量(QoS)以及網(wǎng)絡安全管理都有重要 的意義。 在網(wǎng)絡通信過程中,原始數(shù)據(jù)信息需要被分割成為許多小的數(shù)據(jù)包,以便能高速 地通過網(wǎng)絡,因此,接入網(wǎng)中傳輸?shù)木W(wǎng)絡流量表現(xiàn)為數(shù)據(jù)包的形式。數(shù)據(jù)包分為包頭和有效 載荷兩部分,包頭是記錄數(shù)據(jù)包附加信息的部分,如協(xié)議字段等;網(wǎng)絡要傳輸?shù)木唧w信息存 在于數(shù)據(jù)包的有效載荷部分。 現(xiàn)有技術采用深度包檢測(DPI, De印Packet Inspection)技術對接入網(wǎng)中傳輸 的網(wǎng)絡流量進行檢測,其具體過程如下用專門的通信管理設備將接入網(wǎng)中正在傳輸?shù)臄?shù) 據(jù)包全部加以復制、存儲,然后將存儲起來的數(shù)據(jù)包重新組裝成為原始數(shù)據(jù),再將這些原始 數(shù)據(jù)進行緩存;通信管理設備通過扮演特定的應用程序數(shù)據(jù)流代理,尋找已經(jīng)定義的變量, 再根據(jù)這些變量決定采取的動作,從而找到原始數(shù)據(jù)所對應的應用程序的類型或信源和信 宿。當通信管理設備找到了數(shù)據(jù)包中有效載荷所攜帶的信息,它就會向能以最佳效果處理 該數(shù)據(jù)包的應用程序發(fā)送數(shù)據(jù)包。另外,通信管理設備還用于檢測已定義的變量的正確性, 從而確定數(shù)據(jù)包是否為病毒或網(wǎng)絡入侵等異常數(shù)據(jù)流,對于異常數(shù)據(jù)流,通信管理設備將 向管理員發(fā)送警報。這種DPI方法能夠?qū)尤刖W(wǎng)中傳輸?shù)娜繑?shù)據(jù)包加以深入檢測,因而 具有較高的準確性。 但是,上述的DPI實現(xiàn)過程中需要對接入網(wǎng)中傳輸?shù)娜繑?shù)據(jù)包進行復制、存儲, 再進行計算處理,其存儲開銷和計算量都很大,因而對網(wǎng)絡流量的檢測速度很慢,不能用于 對接入網(wǎng)進行高速在線的流量識別。 另外,在上述的DPI實現(xiàn)過程中,通信管理設備是通過扮演特定應用程序數(shù)據(jù)流 代理的方式進行檢測,而加密的數(shù)據(jù)包是無法用這種方式找到已定義的變量的,因此,無法 對接入網(wǎng)中傳輸?shù)募用軘?shù)據(jù)包進行檢測。
發(fā)明內(nèi)容
本發(fā)明提出了一種接入網(wǎng)的流量識別方法,能夠?qū)尤刖W(wǎng)進行高速在線的流量識 別,并能識別接入網(wǎng)中加密數(shù)據(jù)流的應用層協(xié)議。 本發(fā)明還提供了一種接入網(wǎng)的流量識別裝置,能夠?qū)尤刖W(wǎng)進行高速在線的流量
識別,并能識別接入網(wǎng)中加密數(shù)據(jù)流的應用層協(xié)議。 為了達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的 —種接入網(wǎng)的流量識別方法,該方法包括
從接入網(wǎng)的每個數(shù)據(jù)流中提取與該數(shù)據(jù)流對應的子流; 對所有子流進行抽樣,得到抽樣子流,對每個抽樣子流的應用層協(xié)議進行識別,并 根據(jù)識別結果建立抽樣子流與應用層協(xié)議的映射關系; 從每個子流提取原始數(shù)據(jù),并根據(jù)原始數(shù)據(jù)建立與該子流對應的子流特征向量;
根據(jù)所有子流特征向量將對應的子流進行聚類,形成多個簇; 根據(jù)抽樣子流與應用層協(xié)議的映射關系,建立簇與應用層協(xié)議的映射關系;其中, 如果一個簇不能與任何已知應用層協(xié)議建立映射關系,則該簇對應的應用層協(xié)議類型為未 知; 根據(jù)簇與應用層協(xié)議的映射關系,識別各簇中的每個子流所對應的應用層協(xié)議, 進而識別接入網(wǎng)中與該子流對應的數(shù)據(jù)流的應用層協(xié)議;其中,對于與未知應用層協(xié)議類 型相對應的簇,該簇中每個子流所對應的應用層協(xié)議類型為未知,進而接入網(wǎng)中與該子流 對應的數(shù)據(jù)流的應用層協(xié)議類型也為未知。 在所述進而識別接入網(wǎng)中與該子流對應的數(shù)據(jù)流的應用層協(xié)議之后,該方法進一 步包括 根據(jù)識別出來的接入網(wǎng)中數(shù)據(jù)流的應用層協(xié)議,對接入網(wǎng)中的數(shù)據(jù)流進行流量控
制;其中,對于接入網(wǎng)中與未知應用層協(xié)議類型對應的數(shù)據(jù)流,首先檢測其對應的子流所在
的簇是否為異常數(shù)據(jù)流,如果是異常數(shù)據(jù)流,則對接入網(wǎng)中與該未知應用層協(xié)議類型對應
的數(shù)據(jù)流進行接入控制,如果不是異常數(shù)據(jù)流,則將該未知應用層協(xié)議類型定義為新的應
用層協(xié)議,將接入網(wǎng)中與該未知應用層協(xié)議類型對應的數(shù)據(jù)流與所述新的應用層協(xié)議建立
映射關系,然后對接入網(wǎng)中與所述新的應用層協(xié)議建立映射關系的數(shù)據(jù)流進行流量控制。 所述從接入網(wǎng)的每個數(shù)據(jù)流中提取與該數(shù)據(jù)流對應的子流的步驟包括 對于接入網(wǎng)中的每一個數(shù)據(jù)流,提取該數(shù)據(jù)流起始位置的預設數(shù)量的數(shù)據(jù)包作為
該數(shù)據(jù)流的子流。 所述對每個抽樣子流的應用層協(xié)議進行識別的步驟包括 用深度包檢測技術對每個抽樣子流進行檢測,從而識別出抽樣子流所對應的應用 層協(xié)議,并將不能與已知應用層協(xié)議相對應的抽樣子流與未知應用層協(xié)議相對應。
從每個子流提取原始數(shù)據(jù),并根據(jù)原始數(shù)據(jù)建立與該子流對應的子流特征向量的 步驟包括 從子流中提取數(shù)據(jù)包的特征數(shù)據(jù)作為原始數(shù)據(jù),所述特征數(shù)據(jù)包括協(xié)議字段、子 流的持續(xù)時間、數(shù)據(jù)包的長度、數(shù)據(jù)包中有效載荷的大小、相鄰數(shù)據(jù)包到達接入點的時間間 隔中的任意一個或多個; 根據(jù)所述原始數(shù)據(jù),用統(tǒng)計學的方法計算子流的統(tǒng)計特征,所述統(tǒng)計特征包括最 大前向數(shù)據(jù)包的長度、數(shù)據(jù)包包頭中協(xié)議的類型、相鄰前向數(shù)據(jù)包到達接入點的最小時間 間隔、相鄰前向數(shù)據(jù)包到達接入點的時間間隔的標準差、相鄰后向數(shù)據(jù)包到達接入點的時 間間隔的標準差、最大后向數(shù)據(jù)包的長度以及后向數(shù)據(jù)包長度的均值中的任意一個或多 個. 將所述統(tǒng)計特征排列成一個向量,得到子流特征向量。 所述根據(jù)所有子流特征向量將對應的子流進行聚類,形成多個簇的步驟包括以下 步驟
第一步,將所有子流特征向量的狀態(tài)都設置為未歸類,并為每一個子流設置鄰近 特征向量距離印s和最小特征向量數(shù)目minpts這兩個參數(shù); 第二步,選定任一未歸類的子流特征向量p,則p具有鄰近特征向量距離p.印s和 最小特征向量數(shù)目P.minpts兩個參數(shù),計算p與其他所有未歸類的子流特征向量的距離;
將參數(shù)p.印s的大小與p和其他子流特征向量之間的距離作比較,并統(tǒng)計與p的 距離小于參數(shù)P.印s的子流特征向量的數(shù)目,然后將該數(shù)目與參數(shù)p. minpts作比較,如果 該數(shù)目不小于參數(shù)P. mi即ts,那么稱p為核對象,與p的距離小于p.印s的所有子流特征 向量稱為P的直接密度可達對象,將P與所有P的直接密度可達對象組成以P為核對象的 簇a,然后將p和所有p的直接密度可達對象以及其所對應的各子流的狀態(tài)都設置為屬于 簇a ;如果該數(shù)目小于p. minpts,那么稱p為噪聲對象,并將p以及其對應的子流的狀態(tài)設 置為未知; 第三步,判斷是否存在未歸類的子流特征向量,如果存在,則重復執(zhí)行第二步,如 果不存在,則結束流程; 其中,所述p與其他任一子流特征向量的距離,為p與其他任一子流特征向量的歐 氏距離。 所述根據(jù)抽樣子流與應用層協(xié)議的映射關系,建立簇與應用層協(xié)議的映射關系的 步驟包括根據(jù)抽樣子流與應用層協(xié)議的映射關系,統(tǒng)計簇內(nèi)各抽樣子流所對應的應用層 協(xié)議;如果一個簇內(nèi)各抽樣子流所對應的應用層協(xié)議至少包括一個已知應用層協(xié)議,則計 算簇內(nèi)各抽樣子流所對應的已知應用層協(xié)議的概率,然后將概率最大的已知應用層協(xié)議與 該簇建立映射; 所述如果一個簇不能與任何應用層協(xié)議建立映射關系,則該簇對應的應用層協(xié)議 類型為未知的步驟包括根據(jù)抽樣子流與應用層協(xié)議的映射關系,統(tǒng)計簇內(nèi)各抽樣子流所 對應的應用層協(xié)議;如果一個簇內(nèi)各抽樣子流所對應的應用層協(xié)議均為未知應用層協(xié)議, 那么該簇不能與任何已知應用層協(xié)議建立映射關系,則將該簇與未知應用層協(xié)議類型相對 應。 在根據(jù)抽樣子流與應用層協(xié)議的映射關系,建立簇與應用層協(xié)議的映射關系之 后,并且在根據(jù)簇與應用層協(xié)議的映射關系,識別各簇中的每個子流所對應的應用層協(xié)議, 進而識別接入網(wǎng)中與該子流對應的數(shù)據(jù)流的應用層協(xié)議之前,該方法進一步包括
評判聚類質(zhì)量是否符合聚類標準,如果聚類質(zhì)量符合聚類標準,則執(zhí)行所述根據(jù) 簇與應用層協(xié)議的映射關系,識別各簇中子流所對應的應用層協(xié)議,進而識別接入網(wǎng)中與 該子流對應的數(shù)據(jù)流的應用層協(xié)議;否則,重新為每一個子流設置印s和minpts這兩個參 數(shù),然后重新根據(jù)子流特征向量對子流進行聚類,形成簇,并重新根據(jù)抽樣子流與應用層協(xié) 議的映射關系建立簇與應用層協(xié)議的映射關系,直至評判結果為聚類質(zhì)量符合聚類標準;
所述聚類質(zhì)量符合聚類標準,是指聚類質(zhì)量同時達到三個標準,如果不能滿足其 中任一標準,都為聚類質(zhì)量不符合聚類標準,所述三個標準為 第一狀態(tài)為未知的子流特征向量的數(shù)目占所有子流特征向量數(shù)目的比例小于 10% ; 第二簇的數(shù)目為抽樣子流與應用層協(xié)議的映射關系中的已知應用層協(xié)議的數(shù)目 的兩倍以上;
第三根據(jù)抽樣子流與應用層協(xié)議的映射關系建立簇與應用層協(xié)議或未知應用層協(xié)議類型的映射關系之后,與應用層協(xié)議映射的任一簇中,概率最大的應用層協(xié)議的概率不低于60%。
—種接入網(wǎng)的流量識別裝置,該裝置包括 應用層協(xié)議模塊用于存儲應用層協(xié)議;向抽樣子流生成和應用識別模塊提供應用層協(xié)議查詢服務; 子流特征生成模塊用于從接入網(wǎng)的各數(shù)據(jù)流中分別提取與所述各數(shù)據(jù)流對應的子流;從所述子流分別提取原始數(shù)據(jù),并根據(jù)原始數(shù)據(jù)建立與各子流對應的子流特征向 子流聚類模塊用于從子流特征生成模塊接收子流及其子流特征向量;根據(jù)子流特征向量對子流進行聚類,形成簇;向簇的應用識別模塊發(fā)送簇; 抽樣子流生成和應用識別模塊用于從子流特征生成模塊接收子流;對子流進行抽樣,得到抽樣子流;向應用層協(xié)議模塊查詢應用層協(xié)議;對抽樣子流的應用層協(xié)議進行識別,并根據(jù)識別結果建立抽樣子流與應用層協(xié)議的映射關系; 簇的應用識別模塊用于從抽樣子流生成和應用識別模塊獲取抽樣子流與應用層協(xié)議的映射關系;從子流聚類模塊接收簇;根據(jù)抽樣子流與應用層協(xié)議的映射關系,建立簇與應用層協(xié)議的映射關系; 業(yè)務識別模塊用于從簇的應用識別模塊獲取簇與應用層協(xié)議的映射關系;根據(jù)簇與應用層協(xié)議的映射關系,識別各簇中子流所對應的應用層協(xié)議,進而識別接入網(wǎng)中與該子流對應的數(shù)據(jù)流的應用層協(xié)議。
該裝置進一步包括 異常流量檢測模塊用于從業(yè)務識別模塊接收與未知應用層協(xié)議類型映射的簇及其映射的未知應用層協(xié)議類型;判斷簇是否為異常數(shù)據(jù)流;將異常數(shù)據(jù)流的簇發(fā)送到異常流量控制模塊;將不是異常數(shù)據(jù)流的簇所映射的未知應用層協(xié)議類型定義為新的應用層協(xié)議,發(fā)送到應用層協(xié)議模塊;將不是異常數(shù)據(jù)流的簇與所述新的應用層協(xié)議建立映射;將不是異常數(shù)據(jù)流的簇及其映射的新的應用層協(xié)議發(fā)送到轉發(fā)策略模塊; 異常流量控制模塊用于從異常流量檢測模塊接收異常數(shù)據(jù)流的簇;向接入網(wǎng)發(fā)送子流接入控制信息; 轉發(fā)策略模塊用于從業(yè)務識別模塊接收與已知應用層協(xié)議映射的簇及其映射的已知應用層協(xié)議;從異常流量檢測模塊接收不是異常數(shù)據(jù)流的簇及其映射的新的應用層協(xié)議;將簇內(nèi)所有子流都與該簇映射的應用層協(xié)議建立映射;根據(jù)簇映射的應用層協(xié)議的類型,向接入網(wǎng)發(fā)送子流流量控制信息。 子流特征生成模塊,用于從接入網(wǎng)傳輸?shù)拿恳粋€數(shù)據(jù)流中提取該數(shù)據(jù)流起始位置的預設數(shù)量的數(shù)據(jù)包作為該數(shù)據(jù)流的子流。 抽樣子流生成和應用識別模塊,用深度包檢測技術對抽樣子流進行檢測,從而識別出抽樣子流所對應的應用層協(xié)議,并將不能與已知應用層協(xié)議相對應的抽樣子流與未知應用層協(xié)議相對應,從而建立抽樣子流與應用層協(xié)議的映射關系。 所述子流特征生成模塊,首先從子流中提取數(shù)據(jù)包的特征數(shù)據(jù)作為原始數(shù)據(jù),所述特征數(shù)據(jù)包括協(xié)議字段、子流的持續(xù)時間、數(shù)據(jù)包的長度、數(shù)據(jù)包中有效載荷的大小、相鄰數(shù)據(jù)包到達接入點的時間間隔中的任意一個或多個;然后,根據(jù)所述原始數(shù)據(jù),用統(tǒng)計學的方法計算子流的統(tǒng)計特征,所述統(tǒng)計特征包括最大前向數(shù)據(jù)包的長度、數(shù)據(jù)包包頭中協(xié)議的類型、相鄰前向數(shù)據(jù)包到達接入點的最小時間間隔、相鄰前向數(shù)據(jù)包到達接入點的時間間隔的標準差、相鄰后向數(shù)據(jù)包到達接入點的時間間隔的標準差、最大后向數(shù)據(jù)包的長度以及后向數(shù)據(jù)包長度的均值中的任意一個或多個;最后,將所述統(tǒng)計特征排列成一個向量,得到子流特征向量。 所述子流聚類模塊根據(jù)子流特征向量對子流進行聚類、形成簇包括 第一步,所述子流聚類模塊將所有子流特征向量的狀態(tài)都設置為未歸類,并為每
一個子流設置鄰近特征向量距離印s和最小特征向量數(shù)目minpts這兩個參數(shù); 第二步,所述子流聚類模塊選定任一未歸類的子流特征向量p,則p具有鄰近特征
向量距離p.印s和最小特征向量數(shù)目p. minpts兩個參數(shù),計算p與其他所有未歸類的子流
特征向量的距離; 所述子流聚類模塊將參數(shù)p.印s的大小與p和其他子流特征向量之間的距離作比較,并統(tǒng)計與P的距離小于參數(shù)P.印s的子流特征向量的數(shù)目,然后將該數(shù)目與參數(shù)p. minpts作比較,如果該數(shù)目不小于參數(shù)p. minpts,那么稱p為核對象,與p的距離小于P.印s的所有任一子流特征向量稱為p的直接密度可達對象,所述子流聚類模塊將p與所有P的直接密度可達對象組成以P為核對象的簇a,然后將p和所有p的直接密度可達對象以及其所對應的各子流的狀態(tài)都設置為屬于簇a ;如果與p的距離小于p.印s的子流特征向量的數(shù)目小于P. minpts,那么稱p為噪聲對象,并將p以及其對應的子流的狀態(tài)設置為未知; 第三步,所述子流聚類模塊判斷是否存在未歸類的子流特征向量,如果存在,則重復執(zhí)行第二步,如果不存在,結束流程; 其中,所述p與其他任一子流特征向量的距離,為p與其他任一子流特征向量的歐氏距離。 所述簇的應用識別模塊,用于根據(jù)抽樣子流與應用層協(xié)議的映射關系,統(tǒng)計簇內(nèi)各抽樣子流所對應的應用層協(xié)議,如果一個簇內(nèi)各抽樣子流所對應的應用層協(xié)議至少包括一個已知應用層協(xié)議,則所述簇的應用識別模塊計算簇內(nèi)各抽樣子流所對應的已知應用層協(xié)議的概率,然后將概率最大的已知應用層協(xié)議與該簇建立映射;其中,如果一個簇不能與任何已知應用層協(xié)議建立映射關系,則所述簇的應用識別模塊將該簇與未知應用層協(xié)議類型相對應。
該裝置進一步包括 聚類質(zhì)量評判模塊用于從抽樣子流生成和應用識別模塊接收抽樣子流與應用層協(xié)議的映射關系;從子流聚類模塊接收簇、子流及其子流特征向量;從簇的應用識別模塊接收簇與應用層協(xié)議的映射關系; 所述聚類質(zhì)量評判模塊,用于評判聚類質(zhì)量是否符合聚類標準,如果評判結果為聚類質(zhì)量符合聚類標準,則向子流聚類模塊發(fā)送聚類質(zhì)量評判結果; 所述子流聚類模塊,只有在聚類質(zhì)量評判結果為聚類質(zhì)量符合聚類標準時,向簇的應用識別模塊發(fā)送簇; 所述子流聚類模塊,在聚類質(zhì)量評判結果為聚類質(zhì)量不符合聚類標準時,重新為每一個子流設置印s和minpts這兩個參數(shù),然后重新根據(jù)子流特征向量對子流進行聚類,
形成簇,并將子流及其子流特征向量以及新的簇發(fā)送給聚類質(zhì)量評判模塊重新進行聚類質(zhì)
量的評判,直至所述聚類質(zhì)量評判模塊評判聚類質(zhì)量符合聚類標準為止; 所述聚類質(zhì)量符合聚類標準,是指聚類質(zhì)量同時達到三個標準,如果不能滿足其
中任一標準,都為聚類質(zhì)量不符合聚類標準,所述三個標準為 第一狀態(tài)為未知的子流特征向量的數(shù)目占所有子流特征向量數(shù)目的比例小于 10% ; 第二簇的數(shù)目為抽樣子流與應用層協(xié)議的映射關系中的已知應用層協(xié)議的數(shù)目 的兩倍以上; 第三所述簇的應用識別模塊根據(jù)抽樣子流與應用層協(xié)議的映射關系建立簇與應 用層協(xié)議的映射關系之后,在與已知應用層協(xié)議映射的任一簇中,概率最大的已知應用層 協(xié)議的概率不低于60%。 由于本發(fā)明從數(shù)據(jù)流中提取出子流,又從子流中抽樣出抽樣子流,然后將抽樣子 流所對應的應用層協(xié)議與聚類形成的簇建立映射,因而相對于現(xiàn)有技術,本發(fā)明的檢測工 作量很小,存儲開銷和計算量也都很小,從而可以通過低速在線檢測少量抽樣子流對應的 應用層協(xié)議的方式,來獲知所有子流對應的應用層協(xié)議,進而據(jù)此對接入網(wǎng)中的數(shù)據(jù)流進 行高速在線的流量識別,因此,本發(fā)明可以有效地對接入網(wǎng)進行高速在線的流量識別。
另外,由于本發(fā)明利用子流的統(tǒng)計特征對子流進行聚類,然后將聚類形成的簇與 簇內(nèi)概率最大的應用層協(xié)議建立映射,并以此為基礎進行網(wǎng)絡流量控制,因此,本發(fā)明可以 根據(jù)加密數(shù)據(jù)流的統(tǒng)計特征將其聚類到相應的簇,然后得到該加密數(shù)據(jù)所映射的應用層協(xié) 議,從而實現(xiàn)對接入網(wǎng)中傳輸?shù)募用軘?shù)據(jù)包的流量識別和控制。
圖1為本發(fā)明實施例提供的接入網(wǎng)的流量識別流程的示意圖;
圖2為本發(fā)明實施例提供的接入網(wǎng)的流量識別方法的流程圖;
圖3為本發(fā)明實施例提供的接入網(wǎng)的流量識別裝置的結構圖。
具體實施例方式
為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結合附圖和具體實施例對 本發(fā)明進行詳細描述。 圖1為本發(fā)明實施例中的接入網(wǎng)的流量識別流程的示意圖。如圖1所示,本發(fā)明 實施例的主要思想為步驟101,從接入網(wǎng)中的數(shù)據(jù)流中提取子流,并生成子流特征;步驟 102,通過對子流進行抽樣,得到抽樣子流,然后識別抽樣子流所對應的應用層協(xié)議;步驟 103,對子流進行聚類,形成簇;步驟104,根據(jù)各簇中的抽樣子流所對應的應用層協(xié)議,識 別各簇所對應的應用層協(xié)議;步驟105,判斷簇所對應的應用層協(xié)議是否為已知的應用層 協(xié)議,是則執(zhí)行步驟106,否則執(zhí)行步驟107 ;步驟106,根據(jù)該簇所對應的已知應用層協(xié)議, 對接入網(wǎng)中傳輸?shù)呐c簇中的子流相對應的數(shù)據(jù)流的應用層協(xié)議進行識別,并制定和執(zhí)行相 應的轉發(fā)策略;步驟107,對于應用層協(xié)議為未知的簇,對該簇進行異常流量檢測,對確認 是異常數(shù)據(jù)流的簇進行步驟108,對于確認不是異常數(shù)據(jù)流的簇,則將其對應的應用層協(xié)議定義為新的應用層協(xié)議,并根據(jù)該新的應用層協(xié)議,對接入網(wǎng)中傳輸?shù)呐c該簇中的子流相 對應的數(shù)據(jù)流,制定并執(zhí)行與新的應用層協(xié)議對應的轉發(fā)策略;步驟108,對確認是異常數(shù) 據(jù)流的簇進行異常流量控制,限制其對應的數(shù)據(jù)流在接入網(wǎng)中的傳輸。 如圖1所示,由于本發(fā)明實施例的方案中對接入網(wǎng)數(shù)據(jù)流的子流進行了抽樣,然 后對抽樣子流進行應用層協(xié)議識別,因此大大減少了需要進行應用層識別的數(shù)據(jù)量。這樣, 只需采用在線低速進行抽樣子流的應用層協(xié)議識別,就能夠與生成子流特征、子流聚類、應 用映射、業(yè)務識別、轉發(fā)策略、異常流量檢測以及異常流量控制等需要在線高速處理的工作 相匹配。因此,本發(fā)明能夠?qū)尤刖W(wǎng)進行高速在線的流量識別。 此外,本發(fā)明實施例的方案采用了聚類這種統(tǒng)計方法,將具有一定相似性的子流 聚類為一個簇,并使這些子流與相同的應用層協(xié)議相對應,這樣就可以識別出接入網(wǎng)中與 簇內(nèi)所有子流對應的數(shù)據(jù)流的應用層協(xié)議,因此,本發(fā)明能夠?qū)尤刖W(wǎng)中傳輸?shù)募用軘?shù)據(jù) 流進行應用層協(xié)議的識別。 本發(fā)明實施例中的接入網(wǎng)的流量識別方法中涉及的應用層協(xié)議是網(wǎng)絡和用戶終 端之間的接口,用于向用戶終端提供各種實際的網(wǎng)絡應用服務。常見的應用層協(xié)議包括超 文本傳輸協(xié)議(http)、文件傳輸協(xié)議(ftp)、電子郵件協(xié)議(smtp和pop3)等。在網(wǎng)絡通信 過程中,信源和信宿都使用應用層協(xié)議,并且所使用的應用層協(xié)議必須相同。
圖2為本發(fā)明實施例中的接入網(wǎng)的流量識別方法的流程圖。如圖2所示,本發(fā)明 實施例中的接入網(wǎng)的流量識別方法包括以下步驟 步驟201 :從接入網(wǎng)的各數(shù)據(jù)流中分別提取與各數(shù)據(jù)流對應的子流。 這里,對于接入網(wǎng)中的每一個數(shù)據(jù)流,提取該數(shù)據(jù)流起始位置的預設數(shù)量的數(shù)據(jù)
包,作為與各數(shù)據(jù)流對應的子流,例如,預設數(shù)量可以為5或6。 步驟202 :對子流進行抽樣,得到抽樣子流,對抽樣子流的應用層協(xié)議進行識別,
并根據(jù)識別結果建立抽樣子流與應用層協(xié)議的映射關系。 這里,對子流進行抽樣的方法包括隨機抽樣和重尾抽樣。 隨機抽樣,是指按照隨機性原則,從總體中抽取部分對象作為樣本進行調(diào)查,以樣 本的調(diào)查結果推斷總體有關指標的一種抽樣方法。隨機性原則是指從總體中抽取樣本時, 每個樣本被抽取的概率是相同的。
重尾抽樣是指按照重尾分布的規(guī)律對總體進行抽樣,重尾抽樣的特點如下大量
的小抽樣取值和少量的大抽樣取值并存,在這些抽樣數(shù)據(jù)集中,雖然大部分抽樣取值是小
的,但是對抽樣的均值和方差起決定作用的是那些少量的大抽樣取值。 隨機抽樣和重尾抽樣技術均為現(xiàn)有技術,本發(fā)明中不再詳細描述。 對子流進行隨機抽樣或重尾抽樣后,即可得到抽樣子流。 對抽樣子流的應用層協(xié)議進行識別是采用深度包檢測技術進行的,深度包檢測技 術屬于現(xiàn)有技術。用深度包檢測技術對抽樣子流進行檢測,從而識別出抽樣子流所對應的 應用層協(xié)議,并將不能與已知應用層協(xié)議相對應的抽樣子流,使其與未知應用層協(xié)議相對 應,從而建立抽樣子流與應用層協(xié)議的映射關系。 步驟203 :從子流分別提取原始數(shù)據(jù),并根據(jù)原始數(shù)據(jù)建立與各子流對應的子流 特征向量。 首先,從步驟201提取到的各子流中提取數(shù)據(jù)包的特征數(shù)據(jù)作為原始數(shù)據(jù),用于計算各子流的統(tǒng)計特征。這些作為原始數(shù)據(jù)的特征數(shù)據(jù)包括協(xié)議字段、子流的持續(xù)時間、 數(shù)據(jù)包的長度、數(shù)據(jù)包中有效載荷的大小、相鄰數(shù)據(jù)包到達接入點的時間間隔。將這些特征 數(shù)據(jù)全部提取出來可以計算得到子流最佳特征向量,如果不提取全部特征數(shù)據(jù),僅提取其 中的一個或多個,得到的子流特征向量雖然不是子流最佳特征向量,但也能實現(xiàn)本發(fā)明的 功能; 然后,根據(jù)提取到的原始數(shù)據(jù),用統(tǒng)計學的方法計算子流的統(tǒng)計特征,這些統(tǒng)計特 征包括最大前向數(shù)據(jù)包的長度、數(shù)據(jù)包包頭中協(xié)議的類型、相鄰前向數(shù)據(jù)包到達接入點的 最小時間間隔、相鄰前向數(shù)據(jù)包到達接入點的時間間隔的標準差、相鄰后向數(shù)據(jù)包到達接 入點的時間間隔的標準差、最大后向數(shù)據(jù)包的長度以及后向數(shù)據(jù)包長度的均值。其中,前向 是指數(shù)據(jù)流信源向信宿的傳輸方向,后向是指數(shù)據(jù)流信宿向信源的傳輸方向。這七項統(tǒng)計 特征可以組成子流最佳特征向量,如果僅采用其中的一項或多項,得到的子流特征向量雖 然不是子流最佳特征向量,但也能實現(xiàn)本發(fā)明的功能。 最后,將計算得到的統(tǒng)計特征排列成一個向量,得到子流特征向量。
步驟204 :根據(jù)子流特征向量對子流進行聚類,形成簇。 這里,聚類是一種統(tǒng)計學的方法,用于將一個集合中的多個對象按照相似性分為 若干類,每一個類稱為一個簇,同一個簇內(nèi)的對象具有某種相似性,并與其他簇內(nèi)的對象相 異。本發(fā)明根據(jù)子流特征向量對子流進行聚類、形成簇的步驟包括 第一步將步驟203中建立的所有子流特征向量的狀態(tài)都設置為未歸類,并為每
一個子流設置鄰近特征向量距離印s和最小特征向量數(shù)目minpts這兩個參數(shù)。 第二步選擇任一未歸類的子流特征向量p,則由第一步可知,p具有鄰近特征向
量距離p.印s和最小特征向量數(shù)目p. minpts這兩個參數(shù),然后,計算p與其他所有未歸類
的子流特征向量之間的距離,該距離為歐氏距離,歐氏距離的計算方法屬于現(xiàn)有技術,本發(fā)
明不做贅述。 將參數(shù)p.印s的大小與p和其他未歸類的子流特征向量之間的距離作比較,并統(tǒng) 計與P的距離小于參數(shù)P.印s的子流特征向量的數(shù)目,然后將該數(shù)目與參數(shù)p. minpts作比 較,如果該數(shù)目不小于P.mi即ts,那么p稱為核對象,與p的距離小于p.印s的所有子流特 征向量稱為P的直接密度可達對象,P與所有P的直接密度可達對象組成以P為核對象的 簇a ;如果與p的距離小于p.印s的子流特征向量的數(shù)目小于p.mi即ts,那么p稱為噪聲對 象。 如果p為簇a的核對象,那么將p和所有p的直接密度可達對象以及其所對應的 各子流的狀態(tài)都設置為屬于簇a ;如果p為噪音對象,那么將p以及其對應的子流的狀態(tài)設 置為未知(unknown)。 第三步,判斷是否存在未歸類的子流特征向量,如果存在,則重復執(zhí)行第二步,直 至不存在未歸類的子流特征向量,如果不存在,表示聚類完成,則結束聚類流程,執(zhí)行步驟 205。 聚類完成后,所有子流特征向量的狀態(tài)只能為屬于某一個簇或噪音對象中的一 種,不存在未歸類的子流特征向量。 步驟205 :根據(jù)抽樣子流與應用層協(xié)議的映射關系,按照應用層協(xié)議概率優(yōu)勢原 則,建立簇與應用層協(xié)議的映射關系。
這里,應用層協(xié)議概率優(yōu)勢原則是指,將簇內(nèi)各抽樣子流所對應的已知應用層協(xié) 議中概率最大的應用層協(xié)議,作為該簇所對應的應用層協(xié)議,從而建立簇與應用層協(xié)議的
映射關系。例如,某簇由ioo個子流聚類形成,其中有io個子流為抽樣后得到的抽樣子流,
在這10個抽樣子流中,有7個抽樣子流與應用層協(xié)議A映射,有2個抽樣子流與應用層協(xié) 議B映射,另外1個抽樣子流與未知應用層協(xié)議映射,那么該簇中各抽樣子流所對應的應用 層協(xié)議中概率最大的為應用層協(xié)議A,其概率計算如下7/10 = 70%,因此,利用應用層協(xié) 議概率優(yōu)勢原則即可決定該簇與應用層協(xié)議A建立映射。再例如,某簇由100個子流聚類 形成,其中有10個抽樣子流,在這10個抽樣子流中,有2個抽樣子流與應用層協(xié)議A映射, 有1個抽樣子流與應用層協(xié)議B映射,另外7個抽樣子流與未知應用層協(xié)議映射,那么該簇 中各抽樣子流所對應的已知應用層協(xié)議中概率最大的仍為應用層協(xié)議A。
根據(jù)抽樣子流與應用層協(xié)議的映射關系,統(tǒng)計簇內(nèi)各抽樣子流所對應的應用層協(xié) 議。 如果簇內(nèi)各抽樣子流所對應的應用層協(xié)議至少包括一個已知應用層協(xié)議,則計算 簇內(nèi)各抽樣子流所對應的已知應用層協(xié)議的概率,然后根據(jù)應用層協(xié)議概率優(yōu)勢原則,將 概率最大的已知應用層協(xié)議與該簇建立映射。 如果簇內(nèi)各抽樣子流所對應的應用層協(xié)議均為未知應用層協(xié)議,即該簇不能與任 何已知應用層協(xié)議建立映射關系,那么將該簇對應的應用層協(xié)議類型為未知,即將該簇與 未知應用層協(xié)議類型相對應。 這樣,就建立起簇與應用層協(xié)議的映射關系。 另外,如果簇內(nèi)各抽樣子流所對應的應用層協(xié)議至少包括一個已知應用層協(xié)議, 那么該簇內(nèi)概率最大的已知應用層協(xié)議的概率有最優(yōu)值,該最優(yōu)值可以最好地保證按照 應用層協(xié)議概率優(yōu)勢原則所建立的簇與應用層協(xié)議的映射關系的覆蓋全面性,該最優(yōu)值為 70% _80%中的任一值。 步驟206 :評判聚類質(zhì)量是否符合聚類標準。 這里,聚類質(zhì)量符合聚類標準意味著聚類質(zhì)量同時達到以下三個標準,如果不能 滿足其中任一標準,都判定為聚類質(zhì)量不符合聚類標準,這三個標準為
第一 步驟204設置的狀態(tài)為未知(unknown)的子流特征向量的數(shù)目占所有子流 特征向量數(shù)目的比例小于10%。 控制狀態(tài)為unknown的子流特征向量的比例,可以提高子流聚類成的簇的數(shù)量, 從而使本發(fā)明根據(jù)簇與應用層協(xié)議或未知應用層協(xié)議類型的映射來對接入網(wǎng)進行流量識 別的方法更有代表性,也更有效。 第二 步驟204形成的簇的數(shù)目為步驟202建立的抽樣子流與應用層協(xié)議的映射 關系中的已知應用層協(xié)議的數(shù)目的兩倍以上。 如果步驟204形成的簇的數(shù)目過少,達不到步驟202建立的抽樣子流與應用層協(xié) 議的映射關系中映射的數(shù)目的兩倍及以上,那么每個簇內(nèi)的抽樣子流所映射的應用層協(xié)議 的數(shù)目就會比較多,比如超過5個,這樣會直接導致簇中概率最大的應用層協(xié)議的概率比 較低,比如低于60%,從而使步驟205所建立的簇與應用層協(xié)議的映射關系不具有代表性, 進而影響對接入網(wǎng)流量識別的質(zhì)量。 第三步驟205中根據(jù)抽樣子流與應用層協(xié)議的映射關系,按照應用層協(xié)議概率優(yōu)勢原則,建立簇與已知應用層協(xié)議或未知應用層協(xié)議類型的映射關系之后,與已知應用 層協(xié)議映射的任一簇中,概率最大的應用層協(xié)議的概率不低于60%。 簇中概率最大的應用層協(xié)議的概率如果低于60 % ,那么所建立的該簇與應用層協(xié) 議或未知應用層協(xié)議類型的映射的代表性太差,不足以滿足對接入網(wǎng)進行流量識別的質(zhì)量 要求。 評判聚類質(zhì)量是否符合聚類標準,如果聚類質(zhì)量符合聚類標準,那么執(zhí)行步驟 207 ;如果評判結果為聚類質(zhì)量不符合聚類標準,那么重新設置步驟204中每一個子流的 印s和minpts這兩個參數(shù),然后重新根據(jù)子流特征向量對子流進行聚類,形成簇,并重新根 據(jù)抽樣子流與應用層協(xié)議的映射關系,按照應用層協(xié)議概率優(yōu)勢原則,建立簇與應用層協(xié) 議的映射關系,直至評判結果為聚類質(zhì)量符合聚類標準。 通過評判聚類質(zhì)量是否符合聚類標準,可以提高步驟204形成的簇的質(zhì)量,進而 提高步驟207對接入網(wǎng)中數(shù)據(jù)流的應用層協(xié)議進行識別的質(zhì)量。 步驟207 :根據(jù)簇與應用層協(xié)議的映射關系,識別各簇中子流所對應的應用層協(xié) 議,進而識別接入網(wǎng)中與該子流對應的數(shù)據(jù)流的應用層協(xié)議。 根據(jù)步驟205建立的簇與應用層協(xié)議的映射關系,可以得到各簇所對應的應用層 協(xié)議,將各簇中所有子流均與相應的簇所對應的應用層協(xié)議建立映射,然后就可以識別出 接入網(wǎng)中與各子流對應的數(shù)據(jù)流的應用層協(xié)議。 對于與未知應用層協(xié)議類型相對應的簇,該簇中所有子流所對應的應用層協(xié)議類 型均為未知,進而在接入網(wǎng)中與這些子流對應的數(shù)據(jù)流的應用層協(xié)議類型也為未知。
步驟208 :根據(jù)識別出來的接入網(wǎng)中數(shù)據(jù)流的應用層協(xié)議,對接入網(wǎng)中的數(shù)據(jù)流 進行流量控制。 這里,數(shù)據(jù)流的應用層協(xié)議不同,對數(shù)據(jù)流的流量控制方法也有所不同。 如果數(shù)據(jù)流與已知的應用層協(xié)議相對應,則根據(jù)識別出來的接入網(wǎng)中數(shù)據(jù)流的應
用層協(xié)議,在接入網(wǎng)的接入點處對數(shù)據(jù)流進行相適應的流量控制。 如果數(shù)據(jù)流與未知應用層協(xié)議類型相對應,則首先采用深度包檢測技術檢測該數(shù) 據(jù)流對應的子流所在的簇是否為異常數(shù)據(jù)流。如果該簇是異常數(shù)據(jù)流,則在接入網(wǎng)的接入 點處對接入網(wǎng)中傳輸?shù)呐c該簇內(nèi)子流相對應的數(shù)據(jù)流進行接入控制,比如,對于蠕蟲、木馬 等計算機病毒以及端口掃描等網(wǎng)絡入侵類型的異常數(shù)據(jù)流,通過本發(fā)明的高速在線識別, 可以及時地在接入網(wǎng)的接入點處進行接入限制,從而避免用戶或網(wǎng)絡受到病毒或網(wǎng)絡入侵 的危害。如果該簇不是異常數(shù)據(jù)流,則將該未知應用層協(xié)議類型定義為新的應用層協(xié)議,將 該簇與新的應用層協(xié)議相對應,從而建立該簇與所述新的應用層協(xié)議的映射,然后將該簇 中所有的子流以及接入網(wǎng)中與這些子流相應的數(shù)據(jù)流也與新的應用層協(xié)議建立映射,根據(jù) 這種新的應用層協(xié)議,在接入網(wǎng)的接入點處對接入網(wǎng)中傳輸?shù)呐c該簇內(nèi)子流相應的數(shù)據(jù)流 進行流量控制。 基于圖2所述的接入網(wǎng)的流量識別方法,本發(fā)明還提出了一種接入網(wǎng)的流量識別 裝置。圖3為本發(fā)明實施例提供的接入網(wǎng)的流量識別裝置的結構圖。如圖3所示,該裝置 包括 應用層協(xié)議模塊301 :用于存儲應用層協(xié)議;向抽樣子流生成和應用識別模塊304 提供應用層協(xié)議查詢服務;
子流特征生成模塊302 :用于從接入網(wǎng)的各數(shù)據(jù)流中分別提取與所述各數(shù)據(jù)流對 應的子流;從所述子流分別提取原始數(shù)據(jù),并根據(jù)原始數(shù)據(jù)建立與各子流對應的子流特征 向量; 子流聚類模塊303 :用于從子流特征生成模塊302接收子流及其子流特征向量;根
據(jù)子流特征向量對子流進行聚類,形成簇;向簇的應用識別模塊發(fā)送簇; 抽樣子流生成和應用識別模塊304 :用于從子流特征生成模塊302接收子流;對子
流進行抽樣,得到抽樣子流;向應用層協(xié)議模塊301查詢應用層協(xié)議;對抽樣子流的應用層
協(xié)議進行識別,并根據(jù)識別結果建立抽樣子流與應用層協(xié)議的映射關系; 簇的應用識別模塊305 :用于從抽樣子流生成和應用識別模塊304獲取抽樣子流
與應用層協(xié)議的映射關系;從子流聚類模塊303接收簇;根據(jù)抽樣子流與應用層協(xié)議的映
射關系,按照應用層協(xié)議概率優(yōu)勢原則,建立簇與應用層協(xié)議的映射關系; 業(yè)務識別模塊306 :用于從簇的應用識別模塊305獲取簇與應用層協(xié)議的映射關
系;根據(jù)簇與應用層協(xié)議的映射關系,識別各簇中子流所對應的應用層協(xié)議,進而識別接入
網(wǎng)中與該子流對應的數(shù)據(jù)流的應用層協(xié)議。 其中,子流特征生成模塊302從接入網(wǎng)的各數(shù)據(jù)流中分別提取與所述各數(shù)據(jù)流對 應的子流的方法包括子流特征生成模塊302從接入網(wǎng)傳輸?shù)拿恳粋€數(shù)據(jù)流中提取該數(shù)據(jù) 流起始位置的預設數(shù)量的數(shù)據(jù)包作為該數(shù)據(jù)流的子流。 抽樣子流生成和應用識別模塊304對抽樣子流的應用層協(xié)議進行識別,并根據(jù)識 別結果建立抽樣子流與應用層協(xié)議的映射關系的方法包括 抽樣子流生成和應用識別模塊304用深度包檢測技術對抽樣子流進行檢測,從而 識別出抽樣子流所對應的應用層協(xié)議,并將不能與已知應用層協(xié)議相對應的抽樣子流與未 知應用層協(xié)議相對應,從而建立抽樣子流與應用層協(xié)議的映射關系。 子流特征生成模塊302從所述子流分別提取原始數(shù)據(jù),并根據(jù)原始數(shù)據(jù)建立與各 子流對應的子流特征向量的方法包括 所述子流特征生成模塊302,首先從子流中提取數(shù)據(jù)包的特征數(shù)據(jù)作為原始數(shù)據(jù),
所述特征數(shù)據(jù)包括協(xié)議字段、子流的持續(xù)時間、數(shù)據(jù)包的長度、數(shù)據(jù)包中有效載荷的大小、
相鄰數(shù)據(jù)包到達接入點的時間間隔,將這些特征數(shù)據(jù)全部提取出來可以計算得到子流最佳
特征向量,如果不提取全部特征數(shù)據(jù),僅提取其中的一個或多個,得到的子流特征向量雖然
不是子流最佳特征向量,但也能實現(xiàn)本發(fā)明的功能;然后,根據(jù)所述原始數(shù)據(jù),用統(tǒng)計學的
方法計算子流的統(tǒng)計特征,所述統(tǒng)計特征包括最大前向數(shù)據(jù)包的長度、數(shù)據(jù)包包頭中協(xié)議
的類型、相鄰前向數(shù)據(jù)包到達接入點的最小時間間隔、相鄰前向數(shù)據(jù)包到達接入點的時間
間隔的標準差、相鄰后向數(shù)據(jù)包到達接入點的時間間隔的標準差、最大后向數(shù)據(jù)包的長度
以及后向數(shù)據(jù)包長度的均值,這七項統(tǒng)計特征可以組成子流最佳特征向量,如果僅采用其
中的一項或多項,得到的子流特征向量雖然不是子流最佳特征向量,但也能實現(xiàn)本發(fā)明的
功能;最后,將所述統(tǒng)計特征排列成一個向量,得到子流特征向量。 子流聚類模塊303根據(jù)子流特征向量對子流進行聚類、形成簇的方法包括 第一步,所述子流聚類模塊303將所有子流特征向量的狀態(tài)都設置為未歸類,并
為每一個子流設置鄰近特征向量距離印s和最小特征向量數(shù)目minpts這兩個參數(shù); 第二步,所述子流聚類模塊303選定任一未歸類的子流特征向量p,則p具有鄰近特征向量距離p.印s和最小特征向量數(shù)目p. minpts兩個參數(shù),計算p與其他所有未歸類的 子流特征向量的距離; 所述子流聚類模塊303將參數(shù)p.印s的大小與p和其他子流特征向量之間的距離 作比較,并統(tǒng)計與P的距離小于參數(shù)P.印s的子流特征向量的數(shù)目,然后將該數(shù)目與參數(shù) p. minpts作比較,如果該數(shù)目不小于參數(shù)p. minpts,那么稱p為核對象,與p的距離小于 P.印s的所有子流特征向量稱為p的直接密度可達對象,所述子流聚類模塊303將p與所有 P的直接密度可達對象組成以P為核對象的簇a,然后將p和所有p的直接密度可達對象以 及其所對應的各子流的狀態(tài)都設置為屬于簇a ;如果與p的距離小于p.印s的子流特征向 量的數(shù)目小于P. minpts,那么稱p為噪聲對象,并將p以及其對應的子流的狀態(tài)設置為未 知; 第三步,所述子流聚類模塊303判斷是否存在未歸類的子流特征向量,如果存在, 則重復執(zhí)行第二步,直至不存在未歸類的子流特征向量,如果不存在,那么所述子流聚類模 塊303根據(jù)子流特征向量對子流進行聚類、形成簇的流程結束; 其中,所述p與其他任一子流特征向量的距離,為p與其他任一子流特征向量的歐 氏距離。 簇的應用識別模塊305根據(jù)抽樣子流與應用層協(xié)議的映射關系,按照應用層協(xié)議 概率優(yōu)勢原則,建立簇與應用層協(xié)議的映射關系的方法包括所述簇的應用識別模塊305 根據(jù)抽樣子流與應用層協(xié)議的映射關系,統(tǒng)計簇內(nèi)各抽樣子流所對應的應用層協(xié)議,如果 一個簇內(nèi)各抽樣子流所對應的應用層協(xié)議至少包括一個已知應用層協(xié)議,則所述簇的應用 識別模塊305計算簇內(nèi)各抽樣子流所對應的已知應用層協(xié)議的概率,然后將概率最大的已 知應用層協(xié)議與該簇建立映射;其中,如果一個簇不能與任何已知應用層協(xié)議建立映射關 系,則所述簇的應用識別模塊305將該簇與未知應用層協(xié)議類型相對應。
本發(fā)明實施例中接入網(wǎng)的流量識別裝置將接入網(wǎng)中數(shù)據(jù)流的應用層協(xié)議識別出 來之后,還可以進一步對接入網(wǎng)中的數(shù)據(jù)流進行流量控制。由于數(shù)據(jù)流的應用層協(xié)議不同, 對數(shù)據(jù)流的流量控制方法也有所不同,因此,如圖3所示,該裝置進一步包括
異常流量檢測模塊307 :用于從業(yè)務識別模塊306接收與未知應用層協(xié)議類型映 射的簇及其映射的未知應用層協(xié)議類型;判斷簇是否為異常數(shù)據(jù)流;將異常數(shù)據(jù)流的簇發(fā) 送到異常流量控制模塊308 ;將不是異常數(shù)據(jù)流的簇所映射的未知應用層協(xié)議類型定義為 新的應用層協(xié)議,發(fā)送到應用層協(xié)議模塊301 ;將不是異常數(shù)據(jù)流的簇與所述新的應用層 協(xié)議建立映射;將不是異常數(shù)據(jù)流的簇及其映射的新的應用層協(xié)議發(fā)送到轉發(fā)策略模塊 309 ; 異常流量控制模塊308 :用于從異常流量檢測模塊307接收異常數(shù)據(jù)流的簇;向接 入網(wǎng)發(fā)送子流接入控制信息。 轉發(fā)策略模塊309 :用于從業(yè)務識別模塊306接收與已知應用層協(xié)議映射的簇及 其映射的已知應用層協(xié)議;從異常流量檢測模塊307接收不是異常數(shù)據(jù)流的簇及其映射的 新的應用層協(xié)議;將簇內(nèi)所有子流都與該簇映射的應用層協(xié)議建立映射;根據(jù)簇映射的應 用層協(xié)議的類型,向接入網(wǎng)發(fā)送子流流量控制信息。 在子流聚類模塊303根據(jù)子流特征向量對子流進行聚類、形成簇之后,為了提高 聚類質(zhì)量,進而提高本發(fā)明對接入網(wǎng)的流量識別質(zhì)量,如圖3所示,本發(fā)明實施例中的接入網(wǎng)的流量識別裝置進一步包括 聚類質(zhì)量評判模塊310 :用于從抽樣子流生成和應用識別模塊304接收抽樣子流 與應用層協(xié)議的映射關系;從子流聚類模塊303接收簇、子流及其子流特征向量;從簇的應 用識別模塊305接收簇與應用層協(xié)議的映射關系;評判聚類質(zhì)量是否符合聚類標準;向子 流聚類模塊303發(fā)送聚類質(zhì)量評判結果。 聚類質(zhì)量評判模塊310用于評判聚類質(zhì)量是否符合聚類標準,如果評判結果為聚 類質(zhì)量符合聚類標準,則向子流聚類模塊303發(fā)送聚類質(zhì)量評判結果;所述子流聚類模塊, 只有在聚類質(zhì)量評判結果為聚類質(zhì)量符合聚類標準時,才向簇的應用識別模塊發(fā)送簇;
所述子流聚類模塊,在聚類質(zhì)量不符合聚類標準時,那么所述聚類質(zhì)量評判模塊 310向子流聚類模塊303發(fā)送聚類質(zhì)量評判結果,所述子流聚類模塊303重新為每一個子流 設置印s和minpts這兩個參數(shù),然后所述子流聚類模塊303重新根據(jù)子流特征向量對子流 進行聚類,形成簇,并將子流及其子流特征向量以及新的簇發(fā)送給聚類質(zhì)量評判模塊重新 進行聚類質(zhì)量的評判,直至所述聚類質(zhì)量評判模塊310評判聚類質(zhì)量符合聚類標準為止;
所述聚類質(zhì)量符合聚類標準,是指聚類質(zhì)量同時達到三個標準,如果不能滿足其 中任一標準,都為聚類質(zhì)量不符合聚類標準,所述三個標準為 第一狀態(tài)為未知的子流特征向量的數(shù)目占所有子流特征向量數(shù)目的比例小于 10% ; 第二簇的數(shù)目為抽樣子流與應用層協(xié)議的映射關系中的已知應用層協(xié)議的數(shù)目 的兩倍以上; 第三所述簇的應用識別模塊305根據(jù)抽樣子流與應用層協(xié)議的映射關系、按照 應用層協(xié)議概率優(yōu)勢原則建立簇與應用層協(xié)議的映射關系之后,在與已知應用層協(xié)議映射 的任一簇中,概率最大的已知應用層協(xié)議的概率不低于60 % 。
由此可見,本發(fā)明具有以下優(yōu)點 (1)本發(fā)明從數(shù)據(jù)流中提取出子流,又從子流中抽樣出抽樣子流,然后將抽樣子流
所對應的應用層協(xié)議與聚類形成的簇建立映射,因而相對于現(xiàn)有技術,本發(fā)明的檢測工作
量很小,存儲開銷和計算量也都很小,從而可以通過低速在線檢測少量抽樣子流對應的應
用層協(xié)議的方式,來獲知所有子流對應的應用層協(xié)議,進而據(jù)此對接入網(wǎng)中的數(shù)據(jù)流進行
高速在線的流量識別,因此,本發(fā)明可以有效地對接入網(wǎng)進行高速在線的流量識別。
(2)本發(fā)明利用子流和抽樣子流來實現(xiàn)實時的網(wǎng)絡流量檢測,因而不需要采用現(xiàn)
有技術那種先完整接收整個數(shù)據(jù)流再生成統(tǒng)計特征的方法來進行檢測,因此,本發(fā)明可以
實時完成數(shù)據(jù)流的識別和控制操作。 (3)本發(fā)明利用子流的統(tǒng)計特征對子流進行聚類,然后將聚類形成的簇與簇內(nèi)概 率最大的應用層協(xié)議建立映射,并以此為基礎進行網(wǎng)絡流量控制,因此,本發(fā)明可以根據(jù)加 密數(shù)據(jù)流的統(tǒng)計特征將其聚類到相應的簇,然后得到該加密數(shù)據(jù)所映射的應用層協(xié)議,從 而實現(xiàn)對接入網(wǎng)中傳輸?shù)募用軘?shù)據(jù)包的流量識別和控制。 (4)本發(fā)明對于與未知應用層協(xié)議類型映射的簇,采取深度包檢測技術檢測其是 否為異常數(shù)據(jù)流,因而本發(fā)明能夠?qū)崟r檢測出蠕蟲、木馬等計算機病毒以及端口掃描等網(wǎng) 絡入侵類型的異常數(shù)據(jù)流,并對這些網(wǎng)絡流量進行實時的流量控制,進而及時產(chǎn)生告警通 知網(wǎng)絡管理員,因此,本發(fā)明能夠?qū)崟r地避免計算機病毒及網(wǎng)絡入侵等異常網(wǎng)絡數(shù)據(jù)流對網(wǎng)絡和用戶的危害。 (5)本發(fā)明可以評判聚類質(zhì)量是否符合聚類標準,從而自動調(diào)整聚類參數(shù),改善子 流的聚類質(zhì)量,因此,本發(fā)明能自動適應數(shù)據(jù)流的變化,保證了對接入網(wǎng)中網(wǎng)絡流量識別效 果的可靠性。 以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內(nèi)。
權利要求
一種接入網(wǎng)的流量識別方法,其特征在于,該方法包括從接入網(wǎng)的每個數(shù)據(jù)流中提取與該數(shù)據(jù)流對應的子流;對所有子流進行抽樣,得到抽樣子流,對每個抽樣子流的應用層協(xié)議進行識別,并根據(jù)識別結果建立抽樣子流與應用層協(xié)議的映射關系;從每個子流提取原始數(shù)據(jù),并根據(jù)原始數(shù)據(jù)建立與該子流對應的子流特征向量;根據(jù)所有子流特征向量將對應的子流進行聚類,形成多個簇;根據(jù)抽樣子流與應用層協(xié)議的映射關系,建立簇與應用層協(xié)議的映射關系;其中,如果一個簇不能與任何已知應用層協(xié)議建立映射關系,則該簇對應的應用層協(xié)議類型為未知;根據(jù)簇與應用層協(xié)議的映射關系,識別各簇中的每個子流所對應的應用層協(xié)議,進而識別接入網(wǎng)中與該子流對應的數(shù)據(jù)流的應用層協(xié)議;其中,對于與未知應用層協(xié)議類型相對應的簇,該簇中每個子流所對應的應用層協(xié)議類型為未知,進而接入網(wǎng)中與該子流對應的數(shù)據(jù)流的應用層協(xié)議類型也為未知。
2. 根據(jù)權利要求1所述的方法,其特征在于,在所述進而識別接入網(wǎng)中與該子流對應 的數(shù)據(jù)流的應用層協(xié)議之后,該方法進一步包括根據(jù)識別出來的接入網(wǎng)中數(shù)據(jù)流的應用層協(xié)議,對接入網(wǎng)中的數(shù)據(jù)流進行流量控制; 其中,對于接入網(wǎng)中與未知應用層協(xié)議類型對應的數(shù)據(jù)流,首先檢測其對應的子流所在的 簇是否為異常數(shù)據(jù)流,如果是異常數(shù)據(jù)流,則對接入網(wǎng)中與該未知應用層協(xié)議類型對應的 數(shù)據(jù)流進行接入控制,如果不是異常數(shù)據(jù)流,則將該未知應用層協(xié)議類型定義為新的應用 層協(xié)議,將接入網(wǎng)中與該未知應用層協(xié)議類型對應的數(shù)據(jù)流與所述新的應用層協(xié)議建立映 射關系,然后對接入網(wǎng)中與所述新的應用層協(xié)議建立映射關系的數(shù)據(jù)流進行流量控制。
3. 根據(jù)權利要求1所述的方法,其特征在于,所述從接入網(wǎng)的每個數(shù)據(jù)流中提取與該 數(shù)據(jù)流對應的子流的步驟包括對于接入網(wǎng)中的每一個數(shù)據(jù)流,提取該數(shù)據(jù)流起始位置的預設數(shù)量的數(shù)據(jù)包作為該數(shù) 據(jù)流的子流。
4. 根據(jù)權利要求1所述的方法,其特征在于,所述對每個抽樣子流的應用層協(xié)議進行 識別的步驟包括用深度包檢測技術對每個抽樣子流進行檢測,從而識別出抽樣子流所對應的應用層協(xié) 議,并將不能與已知應用層協(xié)議相對應的抽樣子流與未知應用層協(xié)議相對應。
5. 根據(jù)權利要求1所述的方法,其特征在于,從每個子流提取原始數(shù)據(jù),并根據(jù)原始數(shù) 據(jù)建立與該子流對應的子流特征向量的步驟包括從子流中提取數(shù)據(jù)包的特征數(shù)據(jù)作為原始數(shù)據(jù),所述特征數(shù)據(jù)包括協(xié)議字段、子流的 持續(xù)時間、數(shù)據(jù)包的長度、數(shù)據(jù)包中有效載荷的大小、相鄰數(shù)據(jù)包到達接入點的時間間隔中 的任意一個或多個;根據(jù)所述原始數(shù)據(jù),用統(tǒng)計學的方法計算子流的統(tǒng)計特征,所述統(tǒng)計特征包括最大前 向數(shù)據(jù)包的長度、數(shù)據(jù)包包頭中協(xié)議的類型、相鄰前向數(shù)據(jù)包到達接入點的最小時間間隔、 相鄰前向數(shù)據(jù)包到達接入點的時間間隔的標準差、相鄰后向數(shù)據(jù)包到達接入點的時間間隔 的標準差、最大后向數(shù)據(jù)包的長度以及后向數(shù)據(jù)包長度的均值中的任意一個或多個;將所述統(tǒng)計特征排列成一個向量,得到子流特征向量。
6. 根據(jù)權利要求1或4所述的方法,其特征在于,所述根據(jù)所有子流特征向量將對應的子流進行聚類,形成多個簇的步驟包括以下步驟第一步,將所有子流特征向量的狀態(tài)都設置為未歸類,并為每一個子流設置鄰近特征向量距離印s和最小特征向量數(shù)目minpts這兩個參數(shù);第二步,選定任一未歸類的子流特征向量P,則P具有鄰近特征向量距離P.印s和最小 特征向量數(shù)目P.minpts兩個參數(shù),計算p與其他所有未歸類的子流特征向量的距離;將參數(shù)p.印s的大小與p和其他子流特征向量之間的距離作比較,并統(tǒng)計與p的距離 小于參數(shù)P.印s的子流特征向量的數(shù)目,然后將該數(shù)目與參數(shù)p. minpts作比較,如果該數(shù) 目不小于參數(shù)P. mi即ts,那么稱p為核對象,與p的距離小于p.印s的所有子流特征向量稱 為P的直接密度可達對象,將P與所有P的直接密度可達對象組成以P為核對象的簇a,然 后將P和所有P的直接密度可達對象以及其所對應的各子流的狀態(tài)都設置為屬于簇a ;如 果該數(shù)目小于P. minpts,那么稱p為噪聲對象,并將p以及其對應的子流的狀態(tài)設置為未 知;第三步,判斷是否存在未歸類的子流特征向量,如果存在,則重復執(zhí)行第二步,如果不 存在,則結束流程;其中,所述P與其他任一子流特征向量的距離,為P與其他任一子流特征向量的歐氏距離。
7. 根據(jù)權利要求6所述的方法,其特征在于,所述根據(jù)抽樣子流與應用層協(xié)議的映射關系,建立簇與應用層協(xié)議的映射關系的步驟 包括根據(jù)抽樣子流與應用層協(xié)議的映射關系,統(tǒng)計簇內(nèi)各抽樣子流所對應的應用層協(xié)議; 如果一個簇內(nèi)各抽樣子流所對應的應用層協(xié)議至少包括一個已知應用層協(xié)議,則計算簇內(nèi) 各抽樣子流所對應的已知應用層協(xié)議的概率,然后將概率最大的已知應用層協(xié)議與該簇建 立映射;所述如果一個簇不能與任何應用層協(xié)議建立映射關系,則該簇對應的應用層協(xié)議類型 為未知的步驟包括根據(jù)抽樣子流與應用層協(xié)議的映射關系,統(tǒng)計簇內(nèi)各抽樣子流所對應 的應用層協(xié)議;如果一個簇內(nèi)各抽樣子流所對應的應用層協(xié)議均為未知應用層協(xié)議,那么 該簇不能與任何已知應用層協(xié)議建立映射關系,則將該簇與未知應用層協(xié)議類型相對應。
8. 根據(jù)權利要求7所述的方法,其特征在于,在根據(jù)抽樣子流與應用層協(xié)議的映射關系,建立簇與應用層協(xié)議的映射關系之后,并 且在根據(jù)簇與應用層協(xié)議的映射關系,識別各簇中的每個子流所對應的應用層協(xié)議,進而 識別接入網(wǎng)中與該子流對應的數(shù)據(jù)流的應用層協(xié)議之前,該方法進一步包括評判聚類質(zhì)量是否符合聚類標準,如果聚類質(zhì)量符合聚類標準,則執(zhí)行所述根據(jù)簇與 應用層協(xié)議的映射關系,識別各簇中子流所對應的應用層協(xié)議,進而識別接入網(wǎng)中與該子 流對應的數(shù)據(jù)流的應用層協(xié)議;否則,重新為每一個子流設置印s和minpts這兩個參數(shù),然 后重新根據(jù)子流特征向量對子流進行聚類,形成簇,并重新根據(jù)抽樣子流與應用層協(xié)議的 映射關系建立簇與應用層協(xié)議的映射關系,直至評判結果為聚類質(zhì)量符合聚類標準;所述聚類質(zhì)量符合聚類標準,是指聚類質(zhì)量同時達到三個標準,如果不能滿足其中任 一標準,都為聚類質(zhì)量不符合聚類標準,所述三個標準為第一 狀態(tài)為未知的子流特征向量的數(shù)目占所有子流特征向量數(shù)目的比例小于10% ;第二簇的數(shù)目為抽樣子流與應用層協(xié)議的映射關系中的已知應用層協(xié)議的數(shù)目的兩倍以上;第三根據(jù)抽樣子流與應用層協(xié)議的映射關系建立簇與應用層協(xié)議或未知應用層協(xié)議 類型的映射關系之后,與應用層協(xié)議映射的任一簇中,概率最大的應用層協(xié)議的概率不低 于60%。
9. 一種接入網(wǎng)的流量識別裝置,其特征在于,該裝置包括應用層協(xié)議模塊用于存儲應用層協(xié)議;向抽樣子流生成和應用識別模塊提供應用層 協(xié)議查詢服務;子流特征生成模塊用于從接入網(wǎng)的各數(shù)據(jù)流中分別提取與所述各數(shù)據(jù)流對應的子 流;從所述子流分別提取原始數(shù)據(jù),并根據(jù)原始數(shù)據(jù)建立與各子流對應的子流特征向量;子流聚類模塊用于從子流特征生成模塊接收子流及其子流特征向量;根據(jù)子流特征 向量對子流進行聚類,形成簇;向簇的應用識別模塊發(fā)送簇;抽樣子流生成和應用識別模塊用于從子流特征生成模塊接收子流;對子流進行抽 樣,得到抽樣子流;向應用層協(xié)議模塊查詢應用層協(xié)議;對抽樣子流的應用層協(xié)議進行識 別,并根據(jù)識別結果建立抽樣子流與應用層協(xié)議的映射關系;簇的應用識別模塊用于從抽樣子流生成和應用識別模塊獲取抽樣子流與應用層協(xié)議 的映射關系;從子流聚類模塊接收簇;根據(jù)抽樣子流與應用層協(xié)議的映射關系,建立簇與 應用層協(xié)議的映射關系;業(yè)務識別模塊用于從簇的應用識別模塊獲取簇與應用層協(xié)議的映射關系;根據(jù)簇與 應用層協(xié)議的映射關系,識別各簇中子流所對應的應用層協(xié)議,進而識別接入網(wǎng)中與該子 流對應的數(shù)據(jù)流的應用層協(xié)議。
10. 根據(jù)權利要求9所述的裝置,其特征在于,該裝置進一步包括異常流量檢測模塊用于從業(yè)務識別模塊接收與未知應用層協(xié)議類型映射的簇及其映 射的未知應用層協(xié)議類型;判斷簇是否為異常數(shù)據(jù)流;將異常數(shù)據(jù)流的簇發(fā)送到異常流量 控制模塊;將不是異常數(shù)據(jù)流的簇所映射的未知應用層協(xié)議類型定義為新的應用層協(xié)議, 發(fā)送到應用層協(xié)議模塊;將不是異常數(shù)據(jù)流的簇與所述新的應用層協(xié)議建立映射;將不是 異常數(shù)據(jù)流的簇及其映射的新的應用層協(xié)議發(fā)送到轉發(fā)策略模塊;異常流量控制模塊用于從異常流量檢測模塊接收異常數(shù)據(jù)流的簇;向接入網(wǎng)發(fā)送子 流接入控制信息;轉發(fā)策略模塊用于從業(yè)務識別模塊接收與已知應用層協(xié)議映射的簇及其映射的已知 應用層協(xié)議;從異常流量檢測模塊接收不是異常數(shù)據(jù)流的簇及其映射的新的應用層協(xié)議; 將簇內(nèi)所有子流都與該簇映射的應用層協(xié)議建立映射;根據(jù)簇映射的應用層協(xié)議的類型, 向接入網(wǎng)發(fā)送子流流量控制信息。
11. 根據(jù)權利要求9所述的裝置,其特征在于,子流特征生成模塊,用于從接入網(wǎng)傳輸?shù)拿恳粋€數(shù)據(jù)流中提取該數(shù)據(jù)流起始位置的預 設數(shù)量的數(shù)據(jù)包作為該數(shù)據(jù)流的子流。
12. 根據(jù)權利要求9所述的裝置,其特征在于,抽樣子流生成和應用識別模塊,用深度包檢測技術對抽樣子流進行檢測,從而識別出 抽樣子流所對應的應用層協(xié)議,并將不能與已知應用層協(xié)議相對應的抽樣子流與未知應用 層協(xié)議相對應,從而建立抽樣子流與應用層協(xié)議的映射關系。
13. 根據(jù)權利要求9所述的裝置,其特征在于,所述子流特征生成模塊,首先從子流中提取數(shù)據(jù)包的特征數(shù)據(jù)作為原始數(shù)據(jù),所述特征數(shù)據(jù)包括協(xié)議字段、子流的持續(xù)時間、數(shù)據(jù)包的長度、數(shù)據(jù)包中有效載荷的大小、相鄰數(shù) 據(jù)包到達接入點的時間間隔中的任意一個或多個;然后,根據(jù)所述原始數(shù)據(jù),用統(tǒng)計學的方 法計算子流的統(tǒng)計特征,所述統(tǒng)計特征包括最大前向數(shù)據(jù)包的長度、數(shù)據(jù)包包頭中協(xié)議的 類型、相鄰前向數(shù)據(jù)包到達接入點的最小時間間隔、相鄰前向數(shù)據(jù)包到達接入點的時間間 隔的標準差、相鄰后向數(shù)據(jù)包到達接入點的時間間隔的標準差、最大后向數(shù)據(jù)包的長度以 及后向數(shù)據(jù)包長度的均值中的任意一個或多個;最后,將所述統(tǒng)計特征排列成一個向量,得 到子流特征向量。
14. 根據(jù)權利要求9或12所述的裝置,其特征在于,所述子流聚類模塊根據(jù)子流特征向 量對子流進行聚類、形成簇包括第一步,所述子流聚類模塊將所有子流特征向量的狀態(tài)都設置為未歸類,并為每一個 子流設置鄰近特征向量距離印s和最小特征向量數(shù)目minpts這兩個參數(shù);第二步,所述子流聚類模塊選定任一未歸類的子流特征向量P,則P具有鄰近特征向量 距離p.印s和最小特征向量數(shù)目p.minpts兩個參數(shù),計算p與其他所有未歸類的子流特 征向量的距離;所述子流聚類模塊將參數(shù)P.印s的大小與p和其他子流特征向量之間的距離作比較, 并統(tǒng)計與P的距離小于參數(shù)P.印s的子流特征向量的數(shù)目,然后將該數(shù)目與參數(shù)p.minpts 作比較,如果該數(shù)目不小于參數(shù)P. mi即ts,那么稱p為核對象,與p的距離小于p.印s的所 有任一子流特征向量稱為P的直接密度可達對象,所述子流聚類模塊將P與所有P的直接 密度可達對象組成以P為核對象的簇a,然后將p和所有p的直接密度可達對象以及其所對 應的各子流的狀態(tài)都設置為屬于簇a;如果與p的距離小于p.印s的子流特征向量的數(shù)目 小于p.mi叩ts,那么稱p為噪聲對象,并將p以及其對應的子流的狀態(tài)設置為未知;第三步,所述子流聚類模塊判斷是否存在未歸類的子流特征向量,如果存在,則重復執(zhí) 行第二步,如果不存在,結束流程;其中,所述P與其他任一子流特征向量的距離,為P與其他任一子流特征向量的歐氏距離。
15. 根據(jù)權利要求14所述的裝置,其特征在于,所述簇的應用識別模塊,用于根據(jù)抽樣子流與應用層協(xié)議的映射關系,統(tǒng)計簇內(nèi)各抽 樣子流所對應的應用層協(xié)議,如果一個簇內(nèi)各抽樣子流所對應的應用層協(xié)議至少包括一個 已知應用層協(xié)議,則所述簇的應用識別模塊計算簇內(nèi)各抽樣子流所對應的已知應用層協(xié)議 的概率,然后將概率最大的已知應用層協(xié)議與該簇建立映射;其中,如果一個簇不能與任何 已知應用層協(xié)議建立映射關系,則所述簇的應用識別模塊將該簇與未知應用層協(xié)議類型相 對應。
16. 根據(jù)權利要求15所述的裝置,其特征在于,該裝置進一步包括聚類質(zhì)量評判模塊用于從抽樣子流生成和應用識別模塊接收抽樣子流與應用層協(xié)議 的映射關系;從子流聚類模塊接收簇、子流及其子流特征向量;從簇的應用識別模塊接收 簇與應用層協(xié)議的映射關系;所述聚類質(zhì)量評判模塊,用于評判聚類質(zhì)量是否符合聚類標準,如果評判結果為聚類質(zhì)量符合聚類標準,則向子流聚類模塊發(fā)送聚類質(zhì)量評判結果;所述子流聚類模塊,只有在聚類質(zhì)量評判結果為聚類質(zhì)量符合聚類標準時,向簇的應 用識別模塊發(fā)送簇;所述子流聚類模塊,在聚類質(zhì)量評判結果為聚類質(zhì)量不符合聚類標準時,重新為每一 個子流設置印s和minpts這兩個參數(shù),然后重新根據(jù)子流特征向量對子流進行聚類,形成 簇,并將子流及其子流特征向量以及新的簇發(fā)送給聚類質(zhì)量評判模塊重新進行聚類質(zhì)量的 評判,直至所述聚類質(zhì)量評判模塊評判聚類質(zhì)量符合聚類標準為止;所述聚類質(zhì)量符合聚類標準,是指聚類質(zhì)量同時達到三個標準,如果不能滿足其中任 一標準,都為聚類質(zhì)量不符合聚類標準,所述三個標準為第一 狀態(tài)為未知的子流特征向量的數(shù)目占所有子流特征向量數(shù)目的比例小于10% ;第二簇的數(shù)目為抽樣子流與應用層協(xié)議的映射關系中的已知應用層協(xié)議的數(shù)目的兩 倍以上;第三所述簇的應用識別模塊根據(jù)抽樣子流與應用層協(xié)議的映射關系建立簇與應用層 協(xié)議的映射關系之后,在與已知應用層協(xié)議映射的任一簇中,概率最大的已知應用層協(xié)議 的概率不低于60%。
全文摘要
本發(fā)明公開了一種接入網(wǎng)的流量識別方法和裝置。該方法包括從接入網(wǎng)的每個數(shù)據(jù)流提取與其對應的子流;對所有子流進行抽樣,得到抽樣子流,對每個抽樣子流的應用層協(xié)議進行識別,根據(jù)識別結果建立抽樣子流與應用層協(xié)議的映射關系;從每個子流提取原始數(shù)據(jù),并根據(jù)原始數(shù)據(jù)建立與該子流對應的子流特征向量;根據(jù)所有子流特征向量將子流進行聚類,形成多個簇;根據(jù)抽樣子流與應用層協(xié)議的映射關系,建立簇與應用層協(xié)議的映射關系;根據(jù)簇與應用層協(xié)議的映射關系,識別各簇中的每個子流對應的應用層協(xié)議,進而識別接入網(wǎng)中與該子流對應的數(shù)據(jù)流的應用層協(xié)議。本發(fā)明能夠?qū)尤刖W(wǎng)進行高速在線的流量識別,并能識別接入網(wǎng)中加密數(shù)據(jù)流的應用層協(xié)議。
文檔編號H04L12/26GK101714952SQ20091025939
公開日2010年5月26日 申請日期2009年12月22日 優(yōu)先權日2009年12月22日
發(fā)明者寧帆, 壽國礎, 張劍, 胡怡紅, 郭志剛, 錢宗玨 申請人:北京郵電大學