應(yīng)用識別模型建立方法、流量數(shù)據(jù)的識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,特別是涉及一種基于深度學(xué)習(xí)的應(yīng)用識別模型建立 方法及裝置,以及一種流量數(shù)據(jù)的識別方法及裝置。
【背景技術(shù)】
[0002] 在企業(yè)局域網(wǎng)環(huán)境中,不同的應(yīng)用往往處于不同的優(yōu)先級。例如對于管理類的應(yīng) 用和P2P類應(yīng)用,在絕大多數(shù)企業(yè)中都會將前者列為重要應(yīng)用,而將后者列為限制應(yīng)用。在 不同企業(yè)中,即使是相同的應(yīng)用,也可能優(yōu)先級不同。例如,同樣是視頻類應(yīng)用,在視頻類公 司和電商類公司的地位是不同的。同時,了解各應(yīng)用的使用情況有利于合理優(yōu)化和配置企 業(yè)中的應(yīng)用及網(wǎng)絡(luò),以保證信息的快速傳遞和工作的高效開展。因此在局域網(wǎng)內(nèi)識別應(yīng)用 是非常必要的。
[0003] -種是端口匹配,即將數(shù)據(jù)流使用的源端口或目標(biāo)端口與系統(tǒng)已有的應(yīng)用一端口 數(shù)據(jù)庫進(jìn)行比較,從而確定數(shù)據(jù)流對應(yīng)的應(yīng)用。部分應(yīng)用產(chǎn)生的數(shù)據(jù)流采用特定端口進(jìn)行 傳輸,因此對這部分應(yīng)用是可行的。這種方式的優(yōu)點(diǎn)是不需要大量數(shù)據(jù)的存儲和分析,也不 需要復(fù)雜的算法,系統(tǒng)負(fù)擔(dān)很小。但是實(shí)際情況是有些端口會對應(yīng)多種應(yīng)用,或是應(yīng)用所采 用的端口并不固定,多種可能性導(dǎo)致識別的準(zhǔn)確性不高。
[0004] 另一種方法是模式匹配,也是目前應(yīng)用最廣泛的方法。模式匹配分為兩類,一類是 在主機(jī)端,根據(jù)已知特征庫匹配應(yīng)用的文件特征,如產(chǎn)品版本、產(chǎn)品名稱、公司、文件版本、 源文件名等。這種方法需要在每臺主機(jī)上安裝識別軟件,會影響用戶體驗(yàn)和主機(jī)性能。還有 一類是在網(wǎng)絡(luò)側(cè)通過對數(shù)據(jù)流匹配已知的特征規(guī)則來識別應(yīng)用。這種方法需要人為分析和 定義特征,而每天都有新增的應(yīng)用,人工分析工作量太大,遠(yuǎn)遠(yuǎn)跟不上應(yīng)用新增的速度。
【發(fā)明內(nèi)容】
[0005] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的一種基于深度學(xué)習(xí)的應(yīng)用識別模型建立方法及裝置,以及一種流量數(shù)據(jù)的識別方 法及裝置。
[0006] 根據(jù)本發(fā)明的一個方面,本發(fā)明實(shí)施例提供了一種基于深度學(xué)習(xí)的應(yīng)用識別模型 建立方法,應(yīng)用于主機(jī)與網(wǎng)絡(luò)側(cè)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)傳輸?shù)沫h(huán)境,所述主機(jī)上設(shè)置有至少一條具 備數(shù)據(jù)處理能力的主機(jī)進(jìn)程,包括:
[0007] 獲取所述主機(jī)傳輸?shù)亩鄺l主機(jī)數(shù)據(jù),其中,各主機(jī)數(shù)據(jù)中攜帶有所述主機(jī)中對該 主機(jī)數(shù)據(jù)進(jìn)行處理的主機(jī)進(jìn)程名稱;
[0008] 獲取所述網(wǎng)絡(luò)側(cè)節(jié)點(diǎn)接收的多條流量數(shù)據(jù),其中,各流量數(shù)據(jù)中攜帶有所述網(wǎng)絡(luò) 側(cè)節(jié)點(diǎn)接收該流量數(shù)據(jù)時的數(shù)據(jù)包載荷;
[0009]對各主機(jī)數(shù)據(jù)與各流量數(shù)據(jù)進(jìn)行比對,以查找出其中具備關(guān)聯(lián)性的至少一對主機(jī) 數(shù)據(jù)和流量數(shù)據(jù);
[0010]對各對具備關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)的參數(shù)進(jìn)行處理,以獲取各對具備關(guān)聯(lián) 性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)所對應(yīng)的主機(jī)進(jìn)程名稱與數(shù)據(jù)包載荷間的對應(yīng)關(guān)系;
[0011] 利用各對主機(jī)進(jìn)程名稱與數(shù)據(jù)包載荷的對應(yīng)關(guān)系建立所述應(yīng)用識別模型。
[0012] 可選地,對各主機(jī)數(shù)據(jù)與各流量數(shù)據(jù)進(jìn)行比對,以查找出其中具備關(guān)聯(lián)性的至少 一對主機(jī)數(shù)據(jù)和流量數(shù)據(jù),包括:
[0013] 對各主機(jī)數(shù)據(jù)與各流量數(shù)據(jù)攜帶的各參數(shù)進(jìn)行比對;
[0014] 根據(jù)多組參數(shù)相同,或者,相同參數(shù)比例超過比例閾值的比對規(guī)則,以查找出具備 關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對。
[0015] 可選地,主機(jī)數(shù)據(jù)攜帶的參數(shù)至少包括:主機(jī)數(shù)據(jù)的傳輸時間、源IP地址、源端口 號、目標(biāo)IP地址、目標(biāo)端口號、處理主機(jī)數(shù)據(jù)的進(jìn)程名稱;
[0016] 流量數(shù)據(jù)攜帶的參數(shù)至少包括:流量數(shù)據(jù)的接收時間、源IP地址、源端口號、目標(biāo) IP地址、目標(biāo)端口號、流量數(shù)據(jù)時的數(shù)據(jù)包載荷。
[0017] 可選地,根據(jù)多組參數(shù)相同,或者,相同參數(shù)比例超過比例閾值的比對規(guī)則,以查 找出具備關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對之后,還包括:
[0018] 根據(jù)篩選規(guī)則對確定的具備關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對進(jìn)行篩選,進(jìn)一步篩 選出其中具備偽關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對;
[0019] 刪除所述具備偽關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對。
[0020] 可選地,根據(jù)篩選規(guī)則對確定的具備關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對進(jìn)行篩選, 進(jìn)一步篩選出其中具備偽關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對,包括下列至少之一:
[0021 ]若一條主機(jī)數(shù)據(jù)與兩條以上流量數(shù)據(jù)具備關(guān)聯(lián)性,則確定此關(guān)聯(lián)性為偽關(guān)聯(lián)性;
[0022] 若一條主機(jī)數(shù)據(jù)與一條流量數(shù)據(jù)具備關(guān)聯(lián)性,但是兩者時間差超過時間差閾值, 則確定此關(guān)聯(lián)性為偽關(guān)聯(lián)性。
[0023] 可選地,利用各對主機(jī)進(jìn)程名稱與數(shù)據(jù)包載荷的對應(yīng)關(guān)系建立所述應(yīng)用識別模 型,包括:
[0024] 分別對主機(jī)進(jìn)程名稱和數(shù)據(jù)包載荷進(jìn)行機(jī)器語言轉(zhuǎn)化,轉(zhuǎn)化為機(jī)器可識別的機(jī)器 數(shù)據(jù);
[0025] 進(jìn)一步在轉(zhuǎn)化后的主機(jī)進(jìn)程名稱和數(shù)據(jù)包載荷間建立對應(yīng)關(guān)系,并利用該對應(yīng)關(guān) 系建立所述應(yīng)用識別模型。
[0026] 可選地,對主機(jī)進(jìn)程名稱進(jìn)行機(jī)器語言轉(zhuǎn)化,轉(zhuǎn)化為機(jī)器可識別的機(jī)器數(shù)據(jù),包 括:
[0027] 將主機(jī)進(jìn)程名稱與從0開始且逐一遞增的有序列表進(jìn)行映射,將各主機(jī)進(jìn)程名稱 轉(zhuǎn)化為對應(yīng)自然數(shù)。
[0028] 可選地,對數(shù)據(jù)包載荷進(jìn)行機(jī)器語言轉(zhuǎn)化,轉(zhuǎn)化為機(jī)器可識別的機(jī)器數(shù)據(jù),包括:
[0029] 將十六進(jìn)制串的數(shù)據(jù)包載荷轉(zhuǎn)化為對應(yīng)的十進(jìn)制數(shù);
[0030] 對轉(zhuǎn)化后的十進(jìn)制數(shù)除以255,得到L個[0,1]的浮點(diǎn)數(shù),其中,L為數(shù)據(jù)包載荷的長 度。
[0031] 可選地,所述應(yīng)用識別模型按如下步驟使用,包括:
[0032]獲取所述應(yīng)用識別模型的輸入數(shù)據(jù),經(jīng)卷積層和池化層處理,生成輸入數(shù)據(jù)的深 度特征;
[0033]將所述深度特征送至與神經(jīng)網(wǎng)絡(luò)相同的全連接層,并對所述深度特征進(jìn)行解析;
[0034] 由所述全連接層將所述深度特征的解析結(jié)果傳輸至輸出層,向外輸出。
[0035] 可選地,所述卷積層和所述池化層多層疊加使用,且疊加越多,所述深度特征越 深。
[0036] 可選地,所述卷積層和所述池化層成對使用。
[0037] 可選地,所述卷積層和所述池化層的窗口維度為l*n。
[0038] 根據(jù)本發(fā)明的另一個方面,本發(fā)明實(shí)施例提供了一種流量數(shù)據(jù)的識別方法,包括: [0039]接收流量數(shù)據(jù),其中,所述流量數(shù)據(jù)中攜帶有網(wǎng)絡(luò)側(cè)節(jié)點(diǎn)接收該流量數(shù)據(jù)時的數(shù) 據(jù)包載荷;
[0040]將所述流量數(shù)據(jù)轉(zhuǎn)換為應(yīng)用識別模型的可識別數(shù)據(jù);
[0041 ]將所述可識別數(shù)據(jù)輸入所述應(yīng)用識別模型,得到所識別數(shù)據(jù)屬于不同主機(jī)進(jìn)程的 概率;
[0042] 根據(jù)所述得到的概率識別所述流量數(shù)據(jù)對應(yīng)的主機(jī)進(jìn)程。
[0043] 可選地,將所述流量數(shù)據(jù)轉(zhuǎn)換為所述應(yīng)用識別模型的可識別數(shù)據(jù),包括:
[0044] 對所述流量數(shù)據(jù)的數(shù)據(jù)包載荷進(jìn)行機(jī)器語言轉(zhuǎn)化,轉(zhuǎn)化為所述應(yīng)用識別模型可識 別的數(shù)據(jù)。
[0045] 可選地,對所述流量數(shù)據(jù)的數(shù)據(jù)包載荷進(jìn)行機(jī)器語言轉(zhuǎn)化,轉(zhuǎn)化為所述應(yīng)用識別 模型可識別的數(shù)據(jù),包括:
[0046] 將十六進(jìn)制串的數(shù)據(jù)包載荷轉(zhuǎn)化為對應(yīng)的十進(jìn)制數(shù);
[0047]對轉(zhuǎn)化后的十進(jìn)制數(shù)除以255,得到L個[0,1]的浮點(diǎn)數(shù),其中,L為數(shù)據(jù)包載荷的長 度。
[0048] 可選地,根據(jù)所述得到的概率識別所述流量數(shù)據(jù)對應(yīng)的主機(jī)進(jìn)程,包括:
[0049] 選取概率最大值作為所述流量數(shù)據(jù)的判定結(jié)果,確定所述流量數(shù)據(jù)對應(yīng)的主機(jī)進(jìn) 程名稱。
[0050] 根據(jù)本發(fā)明的又一個方面,本發(fā)明實(shí)施例提供了一種基于深度學(xué)習(xí)的應(yīng)用識別模 型建立裝置,應(yīng)用于主機(jī)與網(wǎng)絡(luò)側(cè)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)傳輸?shù)沫h(huán)境,所述主機(jī)上設(shè)置有至少一條 具備數(shù)據(jù)處理能力的主機(jī)進(jìn)程,包括:
[0051 ]第一獲取模塊,適于獲取所述主機(jī)傳輸?shù)亩鄺l主機(jī)數(shù)據(jù),其中,各主機(jī)數(shù)據(jù)中攜帶 有所述主機(jī)中對該主機(jī)數(shù)據(jù)進(jìn)行處理的主機(jī)進(jìn)程名稱;
[0052]第二獲取模塊,適于獲取所述網(wǎng)絡(luò)側(cè)節(jié)點(diǎn)接收的多條流量數(shù)據(jù),其中,各流量數(shù)據(jù) 中攜帶有所述網(wǎng)絡(luò)側(cè)節(jié)點(diǎn)接收該流量數(shù)據(jù)時的數(shù)據(jù)包載荷;
[0053]比對模塊,適于對各主機(jī)數(shù)據(jù)與各流量數(shù)據(jù)進(jìn)行比對,以查找出其中具備關(guān)聯(lián)性 的至少一對主機(jī)數(shù)據(jù)和流量數(shù)據(jù);
[0054]第三獲取模塊,適于對各對具備關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)的參數(shù)進(jìn)行處理, 以獲取各對具備關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)所對應(yīng)的主機(jī)進(jìn)程名稱與數(shù)據(jù)包載荷間的 對應(yīng)關(guān)系;
[0055]建立模塊,適于利用各對主機(jī)進(jìn)程名稱與數(shù)據(jù)包載荷的對應(yīng)關(guān)系建立所述應(yīng)用識 別模型。
[0056] 可選地,所述比對模塊還適于:
[0057]對各主機(jī)數(shù)據(jù)與各流量數(shù)據(jù)攜帶的各參數(shù)進(jìn)行比對;
[0058] 根據(jù)多組參數(shù)相同,或者,相同參數(shù)比例超過比例閾值的比對規(guī)則,以查找出具備 關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對。
[0059] 可選地,主機(jī)數(shù)據(jù)攜帶的參數(shù)至少包括:主機(jī)數(shù)據(jù)的傳輸時間、源IP地址、源端口 號、目標(biāo)IP地址、目標(biāo)端口號、處理主機(jī)數(shù)據(jù)的進(jìn)程名稱;
[0000]流量數(shù)據(jù)攜帶的參數(shù)至少包括:流量數(shù)據(jù)的接收時間、源IP地址、源端口號、目標(biāo) IP地址、目標(biāo)端口號、流量數(shù)據(jù)時的數(shù)據(jù)包載荷。
[0061 ] 可選地,所述比對模塊還適于:
[0062] 根據(jù)多組參數(shù)相同,或者,相同參數(shù)比例超過比例閾值的比對規(guī)則,以查找出具備 關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對之后,根據(jù)篩選規(guī)則對確定的具備關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流 量數(shù)據(jù)對進(jìn)行篩選,進(jìn)一步篩選出其中具備偽關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對;
[0063] 刪除所述具備偽關(guān)聯(lián)性的主機(jī)數(shù)據(jù)和流量數(shù)據(jù)對。
[0064] 可選地,所述比對模塊還適于:
[0065] 若一條主機(jī)數(shù)據(jù)與兩條以上流量數(shù)據(jù)具備關(guān)聯(lián)性,則確定此關(guān)聯(lián)性為偽關(guān)聯(lián)性; 或者
[0066] 若一條主機(jī)數(shù)據(jù)與一條流量數(shù)據(jù)具備關(guān)聯(lián)性,但是兩者時間差超過時間差閾值, 則確定此關(guān)聯(lián)性為偽關(guān)聯(lián)性。
[0067] 可選地,所述建立模塊還適于:
[0068] 分別對主機(jī)進(jìn)程名稱和數(shù)據(jù)包載荷進(jìn)行機(jī)器語言轉(zhuǎn)化,轉(zhuǎn)化為機(jī)器可識別的機(jī)器 數(shù)據(jù);
[0069] 進(jìn)一步在轉(zhuǎn)化后的主機(jī)進(jìn)程名稱和數(shù)據(jù)包載荷間建立對應(yīng)關(guān)系,并利用該對應(yīng)關(guān) 系建立所述應(yīng)用識別模型。
[0070] 可選地,所述建立模塊還適于:
[0071] 將主機(jī)進(jìn)程名稱與從0開始且逐一遞增的有序列表進(jìn)行映射,將各主機(jī)進(jìn)程名稱 轉(zhuǎn)化為對應(yīng)自然數(shù)。
[0072] 可選地,所述建立模塊還適于:
[0073] 將十六進(jìn)制串的數(shù)據(jù)包載荷轉(zhuǎn)化為對應(yīng)的十進(jìn)制數(shù);
[0074]對轉(zhuǎn)化后的十進(jìn)制數(shù)除以255,得到L個[0,1]的浮點(diǎn)數(shù),其中,L為數(shù)據(jù)包載荷的長 度。
[0075] 根據(jù)本發(fā)明的再一個方面,本發(fā)明實(shí)施例提供了一種流量數(shù)據(jù)的識別裝置,包括:
[0076] 接收模塊,適于接收流量數(shù)據(jù),其中,所述流量數(shù)據(jù)中攜帶有網(wǎng)絡(luò)側(cè)節(jié)點(diǎn)接收該流 量數(shù)據(jù)時的數(shù)據(jù)包載荷;
[0077] 轉(zhuǎn)換模塊,適于將所述流量數(shù)據(jù)轉(zhuǎn)換為應(yīng)用識別模型的可識別數(shù)據(jù);
[0078] 輸入模塊,適于將所述可識別數(shù)據(jù)輸入所述應(yīng)用識別模型,得到所識別數(shù)據(jù)屬于 不同主機(jī)進(jìn)程的概率;
[0079] 識別模塊,適于根據(jù)所述輸入模塊得到的概率識別所述流量數(shù)據(jù)對應(yīng)的主機(jī)進(jìn) 程。
[0080] 可選地,所述轉(zhuǎn)換模塊還適