一種基于本體知識推理的并行網(wǎng)絡(luò)流量分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)管理技術(shù)領(lǐng)域,具體為一種基于本體知識推理的并行網(wǎng)絡(luò)流量分 類方法。
【背景技術(shù)】
[0002] 隨著Web技術(shù)的迅猛發(fā)展和企業(yè)信息化需求的不斷提高,許多新型網(wǎng)絡(luò)應(yīng)用模式 和應(yīng)用需求應(yīng)運(yùn)而生,隨之而來的網(wǎng)絡(luò)流量數(shù)據(jù)也呈現(xiàn)出爆炸性增長,給網(wǎng)絡(luò)監(jiān)管帶來前 所未有的挑戰(zhàn),也使得用戶對網(wǎng)絡(luò)流量進(jìn)行精細(xì)化管理的需求越來越強(qiáng)烈。作為管理和優(yōu) 化各類網(wǎng)絡(luò)資源的關(guān)鍵技術(shù),網(wǎng)絡(luò)流量分類廣泛應(yīng)用于網(wǎng)絡(luò)監(jiān)控、Q〇S(Quality of Service,服務(wù)質(zhì)量)管理、網(wǎng)絡(luò)安全、態(tài)勢分析等領(lǐng)域,是高效實(shí)現(xiàn)網(wǎng)絡(luò)管理、流量控制以及 安全檢測的重要環(huán)節(jié)。
[0003] 網(wǎng)絡(luò)流量分類是指在基于TCP/IP協(xié)議的互聯(lián)網(wǎng)中,按照網(wǎng)絡(luò)的應(yīng)用類型(例如 胃、?了?、獻(xiàn)11^2?等),將網(wǎng)絡(luò)通信產(chǎn)生的雙向1^流量或1^流量進(jìn)行分類。
[0004] 近年來許多研究人員將注意力轉(zhuǎn)向了基于網(wǎng)絡(luò)流量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)分類方 法,根據(jù)流量的某些屬性(如平均包長、平均包間隔時(shí)間等)的統(tǒng)計(jì)信息,采用機(jī)器學(xué)習(xí)方法 對流量進(jìn)行分類,該方法不受動(dòng)態(tài)端口、載荷加密及網(wǎng)絡(luò)地址轉(zhuǎn)換的影響。目前網(wǎng)絡(luò)流量分 類較為廣泛使用的機(jī)器學(xué)習(xí)方法主要有:貝葉斯、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和決策樹等。
[0005] 劍橋大學(xué)Moore的網(wǎng)絡(luò)流量分類方法研究主要是Naive Bayes及其改進(jìn)方法的研 究。Charalampos Rotsos和Moore等引入半監(jiān)督流量分類方法訓(xùn)練分類器,采用NB和核估計(jì) NB兩種算法對分類器進(jìn)行建模,實(shí)驗(yàn)結(jié)果表明該方法能比傳統(tǒng)方法取得更高分類性能。但 是此類算法是基于概率統(tǒng)計(jì)的學(xué)習(xí)方法,過于依賴樣本空間的分布,具有潛在的不穩(wěn)定性。
[0006] 使用前饋神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量分類方法有效地消除了基于端口或者基于負(fù)載的 分類方法的弊端,測試驗(yàn)證該方法較NB具有更好的穩(wěn)定性和健壯性,在網(wǎng)絡(luò)流量分類中的 應(yīng)用具有良好的性能和前景。但是,即使是神經(jīng)網(wǎng)絡(luò)應(yīng)用廣泛的BP算法,在應(yīng)用中也暴露了 不少的缺陷,如易形成局部極小而得不到全局最優(yōu),訓(xùn)練次數(shù)多使得學(xué)習(xí)效率低,收斂速度 慢等。
[0007] 從網(wǎng)絡(luò)數(shù)據(jù)包頭部獲得網(wǎng)絡(luò)流參數(shù),再進(jìn)行有規(guī)律的偏差訓(xùn)練和無偏差訓(xùn)練對比 SVM分類算法,在處理大樣本數(shù)據(jù)集時(shí),計(jì)算復(fù)雜度高,訓(xùn)練速度慢。用SVM決策樹進(jìn)行網(wǎng)絡(luò) 流量分類,解決SVM流量分類存在無法識別區(qū)域和訓(xùn)練時(shí)間較長的問題。然而研究還是不能 徹底解決計(jì)算性能瓶頸問題,而且該方法是一種有監(jiān)督的學(xué)習(xí)方法,不能很好地發(fā)現(xiàn)網(wǎng)絡(luò) 流量中的新應(yīng)用。
[0008] We i Li和Moore為了避免檢測包的載荷,從網(wǎng)絡(luò)流量開始的網(wǎng)絡(luò)數(shù)據(jù)包中提取12個(gè) 統(tǒng)計(jì)特征,同時(shí)考慮了延遲和吞吐量,在C4.5決策樹流量分類方法下分類準(zhǔn)確性達(dá)99.8%。 Tomasz Bu j low等人提出了一種C5 · 0機(jī)器學(xué)習(xí)算法,通過實(shí)驗(yàn)驗(yàn)證該算法平均分類準(zhǔn)確率 達(dá)到99.3-99.9%。但是決策樹缺乏伸縮性,并在處理大數(shù)據(jù)集時(shí)容易增加分類算法的額外 開銷,降低了分類的準(zhǔn)確性。
[0009] 在高速大規(guī)模復(fù)雜網(wǎng)絡(luò)環(huán)境下,各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)傳感器使用不同的網(wǎng)絡(luò)流量采集系 統(tǒng)收集網(wǎng)絡(luò)數(shù)據(jù)包,網(wǎng)絡(luò)流量數(shù)據(jù)格式不一,語義、語法異構(gòu)。故目前網(wǎng)絡(luò)流量數(shù)據(jù)的特點(diǎn) 是多源、異構(gòu)、海量,現(xiàn)有的網(wǎng)絡(luò)流量分類技術(shù)大多只能對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行簡單的格式 化,缺少對數(shù)據(jù)異構(gòu)(格式異構(gòu)、語法異構(gòu)、語義異構(gòu))的有效解決方法,也缺乏對流量信息 (如獲取環(huán)境等)的描述及知識推理,獲得的流量數(shù)據(jù)存在不一致性、不能共享和缺乏網(wǎng)絡(luò) 流量分類知識等問題,因而現(xiàn)有的流量分類方法難以提供網(wǎng)絡(luò)管理決策分析所需的資源信 息。
[0010] 在人工智能領(lǐng)域,本體逐漸被應(yīng)用于知識工程、智能信息集成、數(shù)據(jù)挖掘、海量信 息的組織和處理等領(lǐng)域中。本體為解決資源規(guī)范、無二義性和可擴(kuò)展性描述問題提供了有 效的途徑,在描述資源方面具有通用性、開放性、智能性、準(zhǔn)確性和綜合性等諸多優(yōu)點(diǎn)。本體 也被用于決策支持系統(tǒng)作為一種知識表達(dá)的工具,知識推理是本體在決策支持系統(tǒng)中的重 要功能,其也被應(yīng)用于分類(諸如圖像分類等)問題。
[0011 ] 近年來研究者嘗試引入本體到網(wǎng)絡(luò)流量分類領(lǐng)域。Pietrzyk,Marcin首次嘗試形 式化定義流的類別,使用經(jīng)典的開發(fā)本體準(zhǔn)則,迭代構(gòu)建一個(gè)基于本體范例的類別分類樹, 旨在消除流類別定義的模糊性。Chengj ie Gu等人提出一種基于流輪廓和本體的在線自學(xué) 習(xí)網(wǎng)絡(luò)流量分類框架,通過流輪廓與流量類別之間的映射關(guān)系實(shí)現(xiàn)流量分類。但是目前基 于本體的網(wǎng)絡(luò)流量分類方法還不能應(yīng)用于大規(guī)模復(fù)雜網(wǎng)絡(luò),本體在網(wǎng)絡(luò)流量分類領(lǐng)域的應(yīng) 用尚屬起步階段。
[0012] 云計(jì)算是以數(shù)據(jù)為中心的密集型超級計(jì)算技術(shù),對大數(shù)據(jù)集進(jìn)行處理、分析,并向 用戶提供高效服務(wù),具有并行化、虛擬化、按需服務(wù)等特點(diǎn)。其并行處理技術(shù)MapReduce能夠 為可劃分的大規(guī)模數(shù)據(jù)并行計(jì)算處理問題提供充分的并行計(jì)算語義,已經(jīng)被廣泛接受。云 計(jì)算技術(shù)為解決網(wǎng)絡(luò)流量分類中海量數(shù)據(jù)處理問題提供了新方法。因此,本體與云計(jì)算相 結(jié)合應(yīng)用于網(wǎng)絡(luò)流量分類,將發(fā)揮它們各自在海量異構(gòu)數(shù)據(jù)描述與處理方面的優(yōu)勢,本體 用于網(wǎng)絡(luò)流量信息資源一致性描述和知識管理,而云計(jì)算為本體的構(gòu)建及知識管理提供了 存儲和計(jì)算資源。
【發(fā)明內(nèi)容】
[0013] 本發(fā)明的目的是公開一種基于本體知識推理的并行網(wǎng)絡(luò)流量分類方法,針對大規(guī) 模網(wǎng)絡(luò)流量本體中的網(wǎng)絡(luò)流量實(shí)例,借助機(jī)器學(xué)習(xí)方法和本體的知識推理實(shí)現(xiàn)網(wǎng)絡(luò)流量分 類。
[0014] 本發(fā)明設(shè)計(jì)的一種基于本體知識推理的并行網(wǎng)絡(luò)流量分類方法,根據(jù)互聯(lián)網(wǎng)網(wǎng)絡(luò) 流量采集環(huán)境和流量的信息資源構(gòu)建多層的網(wǎng)絡(luò)流量本體,將互聯(lián)網(wǎng)中的每條網(wǎng)絡(luò)流量對 應(yīng)網(wǎng)絡(luò)流量本體中的一個(gè)網(wǎng)絡(luò)流量實(shí)例,按如下步驟對網(wǎng)絡(luò)流量進(jìn)行分類:
[0015] I、建立決策樹分類模型并生成推理規(guī)則集
[0016] 在互聯(lián)網(wǎng)中選取網(wǎng)絡(luò)流量作為樣本,已標(biāo)記應(yīng)用類型的網(wǎng)絡(luò)流量樣本作為網(wǎng)絡(luò)流 量訓(xùn)練樣本集,利用決策樹算法訓(xùn)練網(wǎng)絡(luò)流量訓(xùn)練樣本集,建立網(wǎng)絡(luò)流量的決策樹分類模 型,并將決策樹分類模型轉(zhuǎn)化成推理規(guī)則集;
[0017] Π 、通過知識推理對網(wǎng)絡(luò)流量實(shí)例進(jìn)行并行化分類
[0018]采用Jena工具包將步驟I生成的推理規(guī)則集構(gòu)造成相應(yīng)的推理機(jī),對已構(gòu)建的網(wǎng) 絡(luò)流量本體,借助MapReduce并行計(jì)算框架,調(diào)用推理機(jī)進(jìn)行并行知識推理,即挖掘出網(wǎng)絡(luò) 流量本體中網(wǎng)絡(luò)流量實(shí)例和網(wǎng)絡(luò)應(yīng)用類型的對應(yīng)關(guān)系,對網(wǎng)絡(luò)流量實(shí)例進(jìn)行網(wǎng)絡(luò)應(yīng)用類型 標(biāo)記,完成網(wǎng)絡(luò)流量分類。所述Jena工具包為用于本體構(gòu)建及其推理的工具包,其為2004年 HP公司開發(fā)的基于Java的開放源代碼語義網(wǎng)工具包。
[0019]以下對各步驟詳細(xì)說明。
[0020]所述步驟I具體包括如下子步驟:
[0021] 1-1、借助決策樹算法對已標(biāo)記應(yīng)用類型的網(wǎng)絡(luò)流量訓(xùn)練樣本集進(jìn)行訓(xùn)練,建立網(wǎng) 絡(luò)流量的決策樹分類模型,所述集合A = {ai,a2,......,ai}表示由網(wǎng)絡(luò)流量訓(xùn)練樣本集中i個(gè) 網(wǎng)絡(luò)流量的統(tǒng)計(jì)特征值組成的集合;集合T= {tl,t2,......,tj}表示由網(wǎng)絡(luò)流量訓(xùn)練樣本集 中j種網(wǎng)絡(luò)流量所屬的應(yīng)用類型組成的集合;集合V= {vi,V2,......,vk}表示由k個(gè)決策判定 基準(zhǔn)值組成的集合,它由集合A中的各個(gè)元素經(jīng)過決策樹算法統(tǒng)計(jì)計(jì)算得出,作為決策樹中 選取決策路徑的判定依據(jù);
[0022] 1-2、網(wǎng)絡(luò)流量的決策樹分類模型中從根節(jié)點(diǎn)到每個(gè)子葉的路徑均視為分類路徑, 以決策判定基準(zhǔn)值為依據(jù),將網(wǎng)絡(luò)流量的決策樹分類模型中的每條分類路徑均轉(zhuǎn)化成"如 果-則",即"IF-THEN"結(jié)構(gòu),建立IF-THEN結(jié)構(gòu)的網(wǎng)絡(luò)流量分類模型;
[002