欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于通信行為聚類的木馬檢測(cè)方法

文檔序號(hào):7810667閱讀:443來源:國(guó)知局
一種基于通信行為聚類的木馬檢測(cè)方法
【專利摘要】本發(fā)明公開了一種基于通信行為聚類的木馬檢測(cè)方法,屬于信息安全領(lǐng)域。本發(fā)明針對(duì)木馬檢測(cè)技術(shù)中存在的特征提取能力較弱和聚類算法選用不當(dāng)?shù)葐栴},提出一種特征提取性能優(yōu)異、聚類算法適當(dāng)并且檢測(cè)效率和精度較高的未知木馬檢測(cè)方法。技術(shù)方案包括抓取網(wǎng)絡(luò)流量數(shù)據(jù)包和TCP會(huì)話重組,提取木馬逆向連接特征、熵特征、心跳特征等,建立TCP會(huì)話的特征向量,采用基于LSH的實(shí)時(shí)增量聚類算法對(duì)特征向量進(jìn)行實(shí)時(shí)聚類。本發(fā)明針對(duì)木馬會(huì)話的通信行為特征與正常網(wǎng)絡(luò)通信行為的差異性,并結(jié)合統(tǒng)計(jì)分析、時(shí)序分析等技術(shù),標(biāo)識(shí)二者的差異,在保證較高檢測(cè)精度和零誤報(bào)率的同時(shí),降低漏報(bào)率,利用本發(fā)明能夠有效的對(duì)木馬的通信異常行為進(jìn)行實(shí)時(shí)檢測(cè)。
【專利說明】一種基于通信行為聚類的木馬檢測(cè)方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息安全領(lǐng)域,尤指一種基于通信行為聚類的木馬檢測(cè)方法。

【背景技術(shù)】
[0002]近年來,網(wǎng)絡(luò)信息安全威脅發(fā)生了巨大變化,黑客攻擊行為從傳統(tǒng)帶有惡作劇與技術(shù)炫耀性質(zhì)的個(gè)人行為,逐步轉(zhuǎn)變?yōu)橛薪M織、有特定目標(biāo)、持續(xù)時(shí)間極長(zhǎng)并以追逐商業(yè)或其他特定利益的專業(yè)行為。為了突破傳統(tǒng)的網(wǎng)絡(luò)安全防御方法,一種名為APT (AdvancedPersistent Threat高級(jí)持續(xù)性威脅,簡(jiǎn)稱APT)的攻擊手段迅速發(fā)展起來,并已經(jīng)發(fā)展成為近年來最大的網(wǎng)絡(luò)安全威脅。木馬作為APT攻擊中最為重要的環(huán)節(jié)之一,已經(jīng)成為網(wǎng)絡(luò)安全的重點(diǎn)研究和防范對(duì)象。
[0003]通常新的APT攻擊發(fā)起之初,用于輔助其攻擊的木馬尚未廣泛傳播,這意味著對(duì)于反病毒廠商和IDS (Intrus1n Detect1n System入侵檢測(cè)系統(tǒng),簡(jiǎn)稱IDS)、IPS(Intrus1n Prevent1n System入侵防御系統(tǒng),簡(jiǎn)稱IPS)而言,這種木馬及其特征仍然是未知的,稱為未知木馬。利用Ο-day漏洞或合法的特征標(biāo)簽,未知木馬可以很輕易的繞過安全檢測(cè)軟件。在特定的網(wǎng)絡(luò)環(huán)境中,IDS能夠自動(dòng)檢測(cè)網(wǎng)絡(luò)通信流量異常行為。但是,對(duì)于大部分未知木馬,IDS是無效的。未知木馬在網(wǎng)絡(luò)層通過控制和模擬正常的網(wǎng)絡(luò)行為,使得其在網(wǎng)絡(luò)流量上并沒有明顯特征,未知木馬以此來繞過IDS。因此,對(duì)于未知木馬,繞過IDS檢測(cè)是輕而易舉的,及時(shí)檢測(cè)和防護(hù)未知木馬是值得研究的問題。通常,木馬攻擊主要有兩種目的,其一是破壞目標(biāo)的網(wǎng)絡(luò)和終端設(shè)施;其二是收集并竊取機(jī)密信息。
[0004]木馬的運(yùn)行機(jī)制與其他惡意代碼不同,由于在系統(tǒng)層面的隱藏特性,從系統(tǒng)變動(dòng)角度幾乎無法發(fā)現(xiàn)。目前,針對(duì)木馬的檢測(cè)技術(shù)可分為以下四類:基于主機(jī)特征標(biāo)簽的檢測(cè)、基于網(wǎng)絡(luò)特征標(biāo)簽的檢測(cè)、基于協(xié)議分析的檢測(cè)和基于網(wǎng)絡(luò)行為分析的檢測(cè)。基于主機(jī)特征標(biāo)簽的檢測(cè),主要是將檢測(cè)器安裝在主機(jī)上,通過特征標(biāo)簽?zāi)J狡ヅ溥M(jìn)行檢測(cè)?;诰W(wǎng)絡(luò)特征標(biāo)簽的檢測(cè),主要將檢測(cè)器安裝在網(wǎng)絡(luò)上,如IDS或IPS,通過網(wǎng)絡(luò)監(jiān)控獲得的網(wǎng)絡(luò)行為與預(yù)先設(shè)定的入侵模式進(jìn)行比較和匹配以實(shí)現(xiàn)檢測(cè);由于特征標(biāo)簽的滯后性,而且未知木馬引起的網(wǎng)絡(luò)通信流量中不攜帶特征標(biāo)簽,基于網(wǎng)絡(luò)特征標(biāo)簽的木馬檢測(cè)技術(shù)難以應(yīng)對(duì)未知的或變異的木馬,該方法檢測(cè)性能較低,且漏報(bào)率較高?;趨f(xié)議分析的檢測(cè)技術(shù)不能單獨(dú)實(shí)現(xiàn)對(duì)木馬的檢測(cè),需要與其他技術(shù)配合使用?;诰W(wǎng)絡(luò)行為分析的檢測(cè)技術(shù),主要根據(jù)木馬的通信行為特征進(jìn)行檢測(cè),由于該方法不使用特征匹配技術(shù),不存在特征標(biāo)簽不足的情況,使得該方法能夠有效實(shí)現(xiàn)針對(duì)未知木馬或變異木馬的檢測(cè)。在現(xiàn)有技術(shù)條件下,基于網(wǎng)絡(luò)行為分析的木馬檢測(cè)技術(shù)是木馬檢測(cè)方法中相對(duì)優(yōu)異的檢測(cè)方案。本發(fā)明即利用了木馬網(wǎng)絡(luò)行為分析中的通信行為特征,并結(jié)合適當(dāng)?shù)木垲愃惴?,?shí)現(xiàn)了對(duì)未知木馬的實(shí)時(shí)檢測(cè)。
[0005]從木馬的本質(zhì)看,其最終目的是惡意的,其最根本的網(wǎng)絡(luò)特征是接受控制端的控制命令,并將其從受控端主機(jī)獲得的敏感信息發(fā)送給控制端,即攻擊者。為實(shí)現(xiàn)木馬的惡意目的,木馬的通信行為與正常的網(wǎng)絡(luò)通信行為差異較大。鑒于當(dāng)前的主流方法對(duì)于木馬通信TCP (Transmiss1n Control Protocol傳輸控制協(xié)議,簡(jiǎn)稱TCP)會(huì)話的異常行為特征描述有限,存在誤報(bào)率較高的問題,本發(fā)明通過分析木馬的行為特征提出了更為全面的木馬通信行為特征,這些木馬行為的異常之處通常表現(xiàn)為以下幾點(diǎn):
上下行流量異常:木馬在與控制端的通信過程中,控制端向木馬發(fā)送控制指令,木馬需要向控制端發(fā)送大量其竊取的數(shù)據(jù)。這將導(dǎo)致木馬通信中下行流量往往遠(yuǎn)小于上行流量,而正常的瀏覽網(wǎng)頁(yè)和下載數(shù)據(jù),下行流量通常遠(yuǎn)大于上行流量。根據(jù)一個(gè)TCP會(huì)話中數(shù)據(jù)的傳輸方向、數(shù)據(jù)包大小,分別計(jì)算受控端到控制端的數(shù)據(jù)包總大小和控制端到受控端的數(shù)據(jù)包總大小,二者之比值即為上下行流量比。如果上下行流量比超過設(shè)定的閾值,說明在當(dāng)前TCP會(huì)話中受控端發(fā)送出去的數(shù)據(jù)量遠(yuǎn)大于其接收到的數(shù)據(jù)量,這與木馬的竊取數(shù)據(jù)行為非常相似,可判斷為異常。
[0006]上下行包大小異常:木馬的控制端的主要功能是發(fā)送控制指令,并在接收到受控端的數(shù)據(jù)后發(fā)送響應(yīng)報(bào)文。因此,由控制端發(fā)出的、位于TCP會(huì)話流中的下行數(shù)據(jù)包通常都是數(shù)據(jù)量很小的數(shù)據(jù)包,而木馬藏身的受控端發(fā)送的數(shù)據(jù)包中除了小部分是響應(yīng)控制端的報(bào)文外,其大部分是竊取的數(shù)據(jù)信息,數(shù)據(jù)包會(huì)比較大。根據(jù)一個(gè)TCP會(huì)話中數(shù)據(jù)的傳輸方向、數(shù)據(jù)包大小特征,分別計(jì)算受控端到控制端的數(shù)據(jù)包大小均值和控制端到受控端的數(shù)據(jù)包大小均值,即上行數(shù)據(jù)包的平均長(zhǎng)度和下行數(shù)據(jù)包的平均長(zhǎng)度。若某一 TCP會(huì)話流的上行數(shù)據(jù)包的平均長(zhǎng)度大于Seil ,且下行數(shù)據(jù)包的平均長(zhǎng)度小于,則符合木馬通信數(shù)據(jù)包的長(zhǎng)度特征,可判斷為異常。
[0007]心跳行為:木馬為了向其控制端表征其存活和工作的狀態(tài),通常會(huì)在其藏身的受控端和其控制端之間建立并保持一個(gè)會(huì)話,直至網(wǎng)絡(luò)連接斷開或任意一端的木馬程序被查殺。這種會(huì)話的保持是通過雙方發(fā)送數(shù)據(jù)包實(shí)現(xiàn)的,且這種數(shù)據(jù)包普遍采用定時(shí)發(fā)送的方式,其存在方式和意義類似于動(dòng)物的心臟跳動(dòng),故木馬引發(fā)的在其受控端和其控制端之間的這種會(huì)話行為被稱為心跳行為,心跳行為的相關(guān)數(shù)據(jù)包被稱為心跳包。心跳包是網(wǎng)絡(luò)數(shù)據(jù)流中一種自定義、固定信息、循環(huán)發(fā)送、可變長(zhǎng)和可變頻的數(shù)據(jù)包。
[0008]加密行為:木馬為了掩蓋其上傳敏感數(shù)據(jù)的行為,逃脫IDS或IPS的檢測(cè),通常將從受控端竊取的敏感數(shù)據(jù)加密后發(fā)送到控制端。
[0009]交互型命令異常:木馬在接收到來自其控制端的命令后,除竊取數(shù)據(jù)并發(fā)送給控制端外,還可能在其控制端主機(jī)上執(zhí)行某些操作(例如,執(zhí)行shell命令等)。在shell命令交互會(huì)話中,木馬向其控制端發(fā)送連續(xù)小數(shù)據(jù)包的間隔時(shí)間介于1ms和2s之間,當(dāng)連續(xù)小數(shù)據(jù)包的時(shí)間間隔介于1ms和2s之間的比例A大于一定的閥值時(shí),該數(shù)據(jù)流被認(rèn)為具有惡意軟件的命令交互型特征。
[0010]連接時(shí)間異常:正常流量通常由良性軟件產(chǎn)生,且為人為操作,因此,正常流量產(chǎn)生時(shí)間一般為工作時(shí)間。對(duì)于工作時(shí)間之外的流量,在排除P2P影響情況下,為木馬產(chǎn)生流量的可能性相對(duì)較大。而且,木馬連接一旦建立,如果不是控制端下線或者受控端關(guān)機(jī),木馬通常不會(huì)主動(dòng)斷開連接,因此連接的持續(xù)時(shí)間會(huì)相對(duì)較長(zhǎng)。
[0011]逆向連接異常:木馬使受控端與控制端建立連接后,受控端處于沉寂狀態(tài),只有在接收到控制端的數(shù)據(jù)包后,受控端才被激活并進(jìn)行數(shù)據(jù)發(fā)送。而正常連接的特點(diǎn)是客戶端發(fā)送請(qǐng)求,服務(wù)器端回應(yīng),在沒有客戶端請(qǐng)求的情況下,服務(wù)器端處于沉寂狀態(tài)。這種逆向連接行為,是反彈端口型木馬的主要特征。若TCP會(huì)話中存在逆向連接則判斷為異常。
[0012]當(dāng)前,主流的用于分析和提取木馬異常特征的聚類算法中最常見的是K-Mean方法,該算法存在局部最優(yōu)、初值敏感、不能實(shí)時(shí)增量聚類等問題。采用K-Mean聚類算法進(jìn)行檢測(cè),一旦聚類簇初值誤選或出現(xiàn)局部最優(yōu),其檢測(cè)精度往往不高。
[0013]綜上所述,現(xiàn)有技術(shù)下基于通信行為的木馬檢測(cè)技術(shù)是最佳的方法,但現(xiàn)階段該方法由于對(duì)TCP會(huì)話特征提取能力較弱,且特征聚類算法選用不當(dāng),不能夠?qū)CP會(huì)話進(jìn)行實(shí)時(shí)檢測(cè),且檢測(cè)效果不理想。提出一個(gè)特征提取性能優(yōu)異、聚類算法適當(dāng),并且檢測(cè)效率和精度高的未知木馬檢測(cè)方法十分緊迫。


【發(fā)明內(nèi)容】

[0014]為克服現(xiàn)有技術(shù)的缺陷,解決上述技術(shù)問題,本發(fā)明公開了一種基于通信行為聚類的木馬檢測(cè)方法。該方法在能夠全面、有效地提取木馬異常特征的基礎(chǔ)上,實(shí)現(xiàn)對(duì)未知木馬和變異木馬的實(shí)時(shí)檢測(cè)。同時(shí),該方法具有較高的檢測(cè)性能和計(jì)算效率。
[0015]本發(fā)明的技術(shù)方案為:
從互聯(lián)網(wǎng)入口處隨機(jī)抓取網(wǎng)絡(luò)流量數(shù)據(jù)包,并進(jìn)行TCP會(huì)話重組。
[0016]以TCP會(huì)話流的五元組信息,即源IP地址、目的IP地址、源端口號(hào)、目的端口號(hào)和傳輸層協(xié)議為基礎(chǔ),根據(jù)木馬的通信行為特征對(duì)TCP會(huì)話進(jìn)行處理,獲得TCP會(huì)話可能的異常特征信息,并建立TCP會(huì)話的/7維特征向量…,vj。
[0017]使用高斯歸一化算法將特征向量A各維度的特征值歸一化,以避免某些特征值的影響被放大而某些特征值的影響被忽略的情形,得到歸一化特征向量?U,其
>?) ?和A分別為特征向量A的均值和方差。利用k進(jìn)行歸一化處理,使得歸一化后特征值%落在區(qū)間[-U】的概率達(dá)99%以上。若Sf =
則規(guī)定β|=1,若吟<-1(泛則規(guī)定吟=-1 ο高斯歸一化后,特征向量中各個(gè)維度的特征值均落在區(qū)間[-11]中。
[0018]使用基于位置敏感哈希(Locality Sensitive Hashing,簡(jiǎn)稱LSH)的實(shí)時(shí)增量聚類對(duì)歸一化特征向量進(jìn)行聚類,得到三維聚類簇。具體步驟如下:
I:從哈希函數(shù)族中隨機(jī)選取#個(gè)哈希函數(shù)Λ0表名(I)?…;.2;計(jì)算% 的 LSH 值=1,11-,1? 講=1?2?—,1|.);:f 計(jì)算士-的 LSH 值 /■ (ej)(j = XX-^nKj * I; Mlf ---.S 計(jì)算歐氏距離(4/=1,2,-,?Ei*j);


Vm I
Iηφ^)< -μ,則判定和為同類聚類特征,擇一保存至聚類簇_中;
V100S|(J.若,則判定%和$為不同類的聚類特征,均保存至聚類簇C.中;r為差異距離,可利用大量惡意樣本和良性樣本經(jīng)機(jī)器學(xué)習(xí)訓(xùn)練得出;
!重復(fù)f 'I;直至遍歷中除《I外的所有向量值,得到聚類簇C.;
τ將聚類簇Cr作為新的特征向量,重復(fù)?F直至得到三維聚類簇,其中q、Ci和4分別標(biāo)定木馬、良性軟件和其他行為的聚類結(jié)果。
[0019]根據(jù)三維聚類簇C判別TCP會(huì)話為木馬、良性軟件或其他軟件的會(huì)話,判定條件為且*>力,并對(duì)木馬進(jìn)行告警。若三維聚類簇C=Pwmj],則聚類結(jié)果為木馬;若三維聚類簇c=[οαο],則聚類結(jié)果為良性軟件;若三維聚類簇,則聚類結(jié)果為其他軟件。
[0020]具體的,TCP會(huì)話的/7維特征向量A為15維特征向量,其各個(gè)維度特征值分別為TCP會(huì)話的上行流量、TCP會(huì)話的下行流量、TCP會(huì)話的上行小包數(shù)量、TCP會(huì)話的上行大包數(shù)量、TCP會(huì)話的下行小包數(shù)量、TCP會(huì)話的下行大包數(shù)量、TCP會(huì)話時(shí)長(zhǎng)、TCP會(huì)話數(shù)據(jù)傳輸量、TCP會(huì)話上行數(shù)據(jù)包的平均長(zhǎng)度、TCP會(huì)話下行數(shù)據(jù)包的平均長(zhǎng)度、TCP會(huì)話數(shù)據(jù)信息熵、TCP會(huì)話心跳特征、TCP會(huì)話是否存在交互性命令、TCP會(huì)話連接時(shí)間、TCP會(huì)話是否存在逆向連接。
[0021]其中,TCP會(huì)話的上行小包數(shù)量和TCP會(huì)話的下行小包數(shù)量中的小包,指流量大小在(Γ127 byte范圍內(nèi)的數(shù)據(jù)包;TCP會(huì)話的上行大包數(shù)量和TCP會(huì)話的下行大包數(shù)量中的大包,指流量大小> 1500 byte的數(shù)據(jù)包;TCP會(huì)話數(shù)據(jù)信息熵用于表征其是否存在加密行為,某一 TCP會(huì)話數(shù)據(jù)信息熵J/ = 1-/S-1ogS,其中,S為字符總數(shù),焉為字
Μ?/
符i出現(xiàn)的次數(shù);若一個(gè)TCP會(huì)話數(shù)據(jù)信息熵V >某閾值,則認(rèn)為當(dāng)前TCP會(huì)話為可疑加密會(huì)話,可判定為異常;使用一個(gè)TCP會(huì)話中數(shù)據(jù)的傳輸方向、數(shù)據(jù)包大小和數(shù)據(jù)包發(fā)送時(shí)間間隔計(jì)算相同大小數(shù)據(jù)包發(fā)送時(shí)間間隔序列的平穩(wěn)度P =其中//和σ分別為時(shí)間間隔序列的均值和標(biāo)準(zhǔn)差,平穩(wěn)度/^用來表征TCP會(huì)話的心跳特征,若平穩(wěn)度某閾值,則認(rèn)為當(dāng)前TCP會(huì)話異常;利用一個(gè)TCP會(huì)話中發(fā)送連續(xù)小數(shù)據(jù)包的時(shí)間間隔介于1ms和2s之間的比例左表征TCP會(huì)話是否存在交互性命令,若比例左 >某閾值,則認(rèn)為當(dāng)前TCP會(huì)話存在交互性命令,判定其異常;TCP會(huì)話連接時(shí)間指TCP會(huì)話建立連接的時(shí)間和TCP會(huì)話關(guān)閉連接的時(shí)間,是具體的時(shí)間點(diǎn),若TCP會(huì)話建立連接的時(shí)間和關(guān)閉連接的時(shí)間都在非工作時(shí)間,則認(rèn)定異常且特征值設(shè)定為2,若二者之一出現(xiàn)在非工作時(shí)間,則特征值設(shè)定為1,若二者均出現(xiàn)在工作時(shí)間,則認(rèn)定正常且特征值設(shè)定為O。
[0022]本發(fā)明的有益效果:1、隨機(jī)抓取網(wǎng)絡(luò)流量數(shù)據(jù)包并提取特征向量和聚類,實(shí)現(xiàn)了實(shí)時(shí)的木馬檢測(cè),具有較強(qiáng)的實(shí)用性;2、綜合全面地分析了木馬通信行為的固有特點(diǎn),提出了木馬通信行為特征的15維特征向量,兼顧木馬檢測(cè)的準(zhǔn)確性和實(shí)效性;3、聚類之前使用高斯歸一化算法對(duì)特征向量中的各個(gè)維度的特征值進(jìn)行歸一化處理,減少因特征值的單位不同或幅值差異過大等造成的某些特征的影響被過度放大或忽略遺漏等問題,增加了聚類的準(zhǔn)確度;4、基于LSH的增量實(shí)時(shí)聚類算法僅依據(jù)特征向量即可完成,擺脫了對(duì)木馬的經(jīng)驗(yàn)數(shù)據(jù)庫(kù)的依靠,從根本上克服了因數(shù)據(jù)庫(kù)更新滯后的固有技術(shù)缺陷導(dǎo)致的對(duì)未知木馬或變異木馬查殺能力不足的問題;另外,基于LSH的增量實(shí)時(shí)聚類算法的時(shí)間復(fù)雜度與特征向量的維度直接相關(guān),本發(fā)明提出的木馬通信行為的15維特征向量能夠在滿足木馬特征描述的前提下,同時(shí)使聚類算法的運(yùn)算復(fù)雜度和時(shí)間復(fù)雜度較低,使聚類過程滿足實(shí)時(shí)檢測(cè)的需要;5、使用三維聚類簇進(jìn)行判別,使得對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)包的劃界更為清晰,除木馬和良性軟件外引入其他行為的分類類別,避免了非此即彼的二值分類造成分類準(zhǔn)確度和靈活性較低的情況,適用面更廣。

【專利附圖】

【附圖說明】
[0023]圖1為本發(fā)明的流程示意圖。
[0024]圖2為實(shí)施例的組成結(jié)構(gòu)框圖。

【具體實(shí)施方式】
[0025]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說明。
[0026]按照?qǐng)D1逐步組織實(shí)施例的流程,將實(shí)施例劃分為幾個(gè)模塊,如圖2所示。實(shí)施例包括TCP會(huì)話重組模塊、異常特征提取模塊、通信行為特征向量生成模塊、高斯歸一化模塊、基于LSH的實(shí)時(shí)增量聚類模塊和TCP會(huì)話判別模塊。
[0027]其中,TCP會(huì)話重組模塊用于抓取網(wǎng)絡(luò)流量數(shù)據(jù)包,并對(duì)其進(jìn)行TCP會(huì)話重組,以方便后續(xù)獲得TCP會(huì)話信息;異常特征提取模塊根據(jù)木馬通信行為的特征,對(duì)TCP會(huì)話進(jìn)行數(shù)據(jù)流的統(tǒng)計(jì)分析;通信行為特征向量生成模塊根據(jù)異常特征提取模塊提供的相應(yīng)統(tǒng)計(jì)信息,結(jié)合異常特征計(jì)算算法,生成特征向量;高斯歸一化模塊使用高斯歸一化算法對(duì)TCP會(huì)話的特征向量進(jìn)行歸一化處理,生成歸一化特征向量;基于LSH的實(shí)時(shí)增量聚類模塊采用基于LSH的實(shí)時(shí)增量聚類算法,對(duì)TCP會(huì)話的歸一化特征向量進(jìn)行聚類,生成聚類簇信息,并對(duì)聚類簇進(jìn)行標(biāo)注;TCP會(huì)話判別模塊根據(jù)標(biāo)注后的聚類簇信息,確定每一個(gè)TCP會(huì)話是否為木馬。
[0028]需要說明的是,抓取網(wǎng)絡(luò)流量數(shù)據(jù)包和隨之進(jìn)行的TCP協(xié)議解析及TCP會(huì)話重組為本領(lǐng)域(信息安全領(lǐng)域)的公知常識(shí),即使本發(fā)明未進(jìn)行詳細(xì)說明,本領(lǐng)域技術(shù)人員也應(yīng)當(dāng)清楚這一步驟。
[0029]從現(xiàn)有技術(shù)可知,木馬的網(wǎng)絡(luò)通信行為和正常軟件的網(wǎng)絡(luò)通信行為是有區(qū)別的,根據(jù)這些差異,本實(shí)施例將TCP會(huì)話的通信行為特征進(jìn)行了統(tǒng)計(jì),得出能夠描述木馬通信行為的特征向量。本實(shí)施例中的特征向量為特征值分別為TCP會(huì)話的上行流量、TCP會(huì)話的下行流量、TCP會(huì)話的上行小包數(shù)量、TCP會(huì)話的上行大包數(shù)量、TCP會(huì)話的下行小包數(shù)量、TCP會(huì)話的下行大包數(shù)量、TCP會(huì)話時(shí)長(zhǎng)、TCP會(huì)話數(shù)據(jù)傳輸量、TCP會(huì)話上行數(shù)據(jù)包的平均長(zhǎng)度、TCP會(huì)話下行數(shù)據(jù)包的平均長(zhǎng)度、TCP會(huì)話數(shù)據(jù)信息熵、TCP會(huì)話心跳特征、TCP會(huì)話是否存在交互性命令、TCP會(huì)話連接時(shí)間和TCP會(huì)話是否存在逆向連接的15維特征向量。生成特征向量所用到的各種閾值,包括小包上限閾值、大包下限閾值、信息熵//上限閾值、平穩(wěn)度/^上限閾值和比例A上限閾值,均可利用大量惡意樣本和良性樣本經(jīng)機(jī)器學(xué)習(xí)訓(xùn)練得出。另外,本實(shí)施例中利用歐氏距離Z判定特征是否屬同一類時(shí),用到的差異距離r,也可利用大量惡意樣本和良性樣本經(jīng)機(jī)器學(xué)習(xí)訓(xùn)練得出。
[0030]以上所述實(shí)施方式僅為本發(fā)明的優(yōu)選實(shí)施例,而并非本發(fā)明可行實(shí)施的窮舉。對(duì)于本領(lǐng)域一般技術(shù)人員而言,在不背離本發(fā)明原理和精神的前提下對(duì)其所作出的任何顯而易見的改動(dòng),都應(yīng)當(dāng)被認(rèn)為包含在本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種基于通信行為聚類的木馬檢測(cè)方法,其特征在于步驟如下: (1)抓取網(wǎng)絡(luò)流量數(shù)據(jù)包; (2)對(duì)所述網(wǎng)絡(luò)流量數(shù)據(jù)包進(jìn)行傳輸控制協(xié)議會(huì)話重組,生成TCP會(huì)話; (3)提取所述TCP會(huì)話的通信行為特征,生成其通信行為的/7維特征向量^ =- ,Va]; (4)對(duì)所述特征向量進(jìn)行高斯歸一化處理,得到歸一化特征向量#; (5)對(duì)所述歸一化特征向量#進(jìn)行基于位置敏感哈希的實(shí)時(shí)增量聚類處理,生成三維的聚類威C=; (6)根據(jù)所述聚類簇C判別所述網(wǎng)絡(luò)流量數(shù)據(jù)包為木馬、良性軟件或其他軟件的通信數(shù)據(jù)包,并對(duì)木馬進(jìn)行告警。
2.按照權(quán)利要求1所述的一種基于通信行為聚類的木馬檢測(cè)方法,其特征在于所述步驟(3)中所述特征向量A為15維特征向量,包括TCP會(huì)話的上行流量、TCP會(huì)話的下行流量、TCP會(huì)話的上行小包數(shù)量、TCP會(huì)話的上行大包數(shù)量、TCP會(huì)話的下行小包數(shù)量、TCP會(huì)話的下行大包數(shù)量、TCP會(huì)話時(shí)長(zhǎng)、TCP會(huì)話數(shù)據(jù)傳輸量、TCP會(huì)話上行數(shù)據(jù)包的平均長(zhǎng)度、TCP會(huì)話下行數(shù)據(jù)包的平均長(zhǎng)度、TCP會(huì)話數(shù)據(jù)信息熵、TCP會(huì)話心跳特征、TCP會(huì)話是否存在交互性命令、TCP會(huì)話連接時(shí)間、TCP會(huì)話是否存在逆向連接。
3.按照權(quán)利要求1所述的一種基于通信行為聚類的木馬檢測(cè)方法,其特征在于所述步驟(4)中所述歸一化特征向量#_丨β1的各元素& =,若吟>1則規(guī)定β|=1 ,若1則規(guī)定β| = -1,其中鳥和&分別為所述特征向量萬的均值和方差。
4.按照權(quán)利要求1所述的一種基于通信行為聚類的木馬檢測(cè)方法,其特征在于所述步驟(5)中對(duì)所述歸一化特征向量#進(jìn)行基于位置敏感哈希實(shí)時(shí)增量聚類的步驟如下: (5a)從哈希函數(shù)族中隨機(jī)選取#個(gè)哈希函數(shù)Λ(成; (5b)計(jì)算(? 的 LSH 值m = \2- M); (5c)計(jì)算?的 LSH 值人($)(_/=m = XX--,M);
--- (5d)計(jì)算歐氏距離£(tKj.)=.、丨過尤(號(hào))-人(By)] (Kj = XX -,λΒ-? * j); (5e)若—j-Af,則判定吣和^為同類聚類特征,擇一保存至聚類簇e*中;若‘~ -M,則判定&和&為不同類的聚類特征,均保存至聚類簇e?中,其中r為差異距離;(5f)重復(fù);I;?g.直至遍歷中除6外的所有向量值,得到聚類簇£7 ;(5g)將聚類簇e.作為新的特征向量,重復(fù)g?.g.直至得到三維聚類簇C = [C11C2aC3],其中C1 C2和1?分別標(biāo)定木馬、良性軟件和其他行為的聚類結(jié)果。
5.按照權(quán)利要求4所述的一種基于通信行為聚類的木馬檢測(cè)方法,其特征在于所述步驟(6)中對(duì)所述三維聚類簇C的類別判定條件為j Cl l(U=X2^ i^j}。



二 O
【文檔編號(hào)】H04L29/06GK104168272SQ201410378948
【公開日】2014年11月26日 申請(qǐng)日期:2014年8月4日 優(yōu)先權(quán)日:2014年8月4日
【發(fā)明者】左曉軍, 董立勉, 陳澤, 盧寧, 常杰, 郗波, 張君艷, 侯波濤, 王春璞, 劉惠穎 申請(qǐng)人:國(guó)家電網(wǎng)公司, 國(guó)網(wǎng)河北省電力公司電力科學(xué)研究院, 河北省電力建設(shè)調(diào)整試驗(yàn)所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阿坝县| 凤冈县| 芦溪县| 萝北县| 景宁| 万荣县| 大余县| 蒙阴县| 陇南市| 洪江市| 浦城县| 翁源县| 兴化市| 镇坪县| 资阳市| 古浪县| 白山市| 修武县| 敦化市| 湘乡市| 长岭县| 临沧市| 寻甸| 临邑县| 当雄县| 白河县| 建瓯市| 沛县| 平罗县| 神池县| 湖南省| 高清| 宁阳县| 宝鸡市| 犍为县| 通海县| 聊城市| 平谷区| 顺昌县| 鄂州市| 壶关县|