基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法和裝置制造方法
【專利摘要】本發(fā)明實施例提供了一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法和裝置。該方法主要包括:將多個綜合特征向量Table<中心,權(quán)值,作用半徑>和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,提取待測數(shù)據(jù)包的各個字段的字段值,根據(jù)坐標化的待測數(shù)據(jù)包的各個字段的字段值,計算出待測數(shù)據(jù)包和存儲的各個Table的中心之間的距離值;根據(jù)待測數(shù)據(jù)包和各個Table的中心之間的距離值,以及先驗數(shù)據(jù)庫中存儲的各個Table的作用半徑和對應的數(shù)據(jù)包類型,判斷待測數(shù)據(jù)包是否為惡意數(shù)據(jù)包。本發(fā)明實施例可以在移動互聯(lián)網(wǎng)網(wǎng)關等網(wǎng)絡智能平臺處實時對數(shù)據(jù)包進行有效的惡意數(shù)據(jù)檢測,不僅可以保障用戶財產(chǎn)和隱私的安全,還可以增強運營商的競爭力。
【專利說明】 基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法和裝置
【技術(shù)領域】
[0001]本發(fā)明涉及網(wǎng)絡安全檢測【技術(shù)領域】,尤其涉及一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法和裝置。
【背景技術(shù)】
[0002]隨著科技的發(fā)展,手機等移動終端上各種應用在豐富人們生活的同時也為移動終端的安全性增添了一份隱患。當前移動終端中存在一些的惡意軟件,給用戶造成了極大的困擾,比如竊取了用戶隱私、造成惡意的消費等。因為受移動終端的運算速度、電量等的限制,移動終端本身難以有效地對惡意軟件進行檢測。
[0003]現(xiàn)在的移動終端的惡意軟件的行為與傳統(tǒng)的PC(personal computer,個人計算機)上的惡意軟件有所不同,其行為包括提取更高權(quán)限、竊取用戶隱私、遠程控制、發(fā)送短信等。惡意軟件的竊取用戶隱私和遠程控制的行為都必須通過移動互聯(lián)網(wǎng)的通信來完成,惡意軟件發(fā)送和接收的數(shù)據(jù)包必然會經(jīng)過移動互聯(lián)網(wǎng)網(wǎng)關。與此同時,大量存在的惡意軟件對移動運營商提出了一種挑戰(zhàn),即如何增強服務的質(zhì)量,確保用戶的數(shù)據(jù)安全。
[0004]因此,如何實現(xiàn)對惡意軟件發(fā)送的惡意數(shù)據(jù)包進行有效的檢測是一個亟待解決的問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的實施例提供了一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法和裝置,以實現(xiàn)在網(wǎng)絡智能平臺處實時對數(shù)據(jù)包進行有效的惡意數(shù)據(jù)檢測。
[0006]一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法,將多個綜合特征向量Table<中心,權(quán)值,作用半徑>和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述Table的中心為所述Table對應的數(shù)據(jù)密集區(qū)中的各個數(shù)據(jù)包的坐標化的各個字段的字段值的平均值,所述Table的作用半徑為所述中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離的最大值,所述方法具體包括:
[0007]網(wǎng)絡智能平臺接收到待測數(shù)據(jù)包后,提取待測數(shù)據(jù)包的各個字段的字段值,根據(jù)坐標化的所述待測數(shù)據(jù)包的各個字段的字段值,計算出所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值;
[0008]根據(jù)所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值,以及所述先驗數(shù)據(jù)庫中存儲的各個Table的作用半徑和對應的數(shù)據(jù)包類型,判斷所述待測數(shù)據(jù)包是否為惡意數(shù)據(jù)包。
[0009]所述的將多個綜合特征向量Table <中心,權(quán)值,作用半徑>和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述Table的中心為所述Table對應的數(shù)據(jù)密集區(qū)中的各個數(shù)據(jù)包的坐標化的各個字段的字段值的平均值,所述Table的作用半徑為所述中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離的最大值,包括:
[0010]提取已知的各個非惡意數(shù)據(jù)包、惡意數(shù)據(jù)包的特征值,根據(jù)該特征值選取多個數(shù)據(jù)密集區(qū),每個數(shù)據(jù)密集區(qū)中包含多個非惡意數(shù)據(jù)包或者惡意數(shù)據(jù)包;
[0011]對每一個數(shù)據(jù)密集區(qū)建立一個綜合特征向量Table <中心,權(quán)值,作用半徑>,提取一個數(shù)據(jù)密集區(qū)內(nèi)的各個數(shù)據(jù)包的各個字段的字段值,計算出各個數(shù)據(jù)包的各個字段值的平均值,將各個字段值的平均值坐標化,將坐標化的各個字段值的平均值作為所述數(shù)據(jù)密集區(qū)對應的Table的中心,將所述數(shù)據(jù)密集區(qū)內(nèi)的每個數(shù)據(jù)包作為一個數(shù)據(jù)點,將每個數(shù)據(jù)包的各個字段值坐標化,計算出所述Table的中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離值,將所有距離值中的最大值作為所述Table的作用半徑,所述數(shù)據(jù)密集區(qū)所含數(shù)據(jù)點的個數(shù)作為所述Table的權(quán)值;
[0012]將建立的多個Table和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包。
[0013]所述的計算所述Table的中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離值,包括:
[0014]設所述Table的中心為(A,B,C...M),坐標化的所述Table對應的數(shù)據(jù)密集區(qū)中一個數(shù)據(jù)點的各個字段值為(ai,bi,ci,...mi);
[0015]所述Table的中心到所述數(shù)據(jù)點的距離的計算公式如下:
|( A, B,C…M)- (ai,bi,ci,...mi) |
[0016]_ 公式 I
=VlA - ail2 + |B - bi|2 + |C - ci|2...+ |M - mi|2
[0017]在計算所述公式I中的|A_ai|, B-bi | , |C_ci|, M-mi時,對于數(shù)值型的字段直接相減;對于離散型的字段,如果所述Table的中心在該字段的值和所述數(shù)據(jù)點在該字段的值相等,則相減的結(jié)果為0,如果所述Table的中心在該字段的值和所述數(shù)據(jù)點在該字段的值不相等,則將相減的結(jié)果設定為指定數(shù)值。
[0018]所述的根據(jù)所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值,以及所述先驗數(shù)據(jù)庫中存儲的各個Table的作用半徑和對應的數(shù)據(jù)包類型,判斷所述待測數(shù)據(jù)包是否為惡意數(shù)據(jù)包,包括:
[0019]當所述待測數(shù)據(jù)包和某個Table的中心之間的距離值不大于所述某個Table的作用半徑時,則判斷所述待測數(shù)據(jù)包屬于所述某個Table對應的數(shù)據(jù)密集區(qū);
[0020]獲取先驗數(shù)據(jù)庫中存儲的所述某個Table對應的數(shù)據(jù)包類型,當所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包;當所述數(shù)據(jù)包類型為非惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為非惡意數(shù)據(jù)包。
[0021]所述的方法還包括:
[0022]將所述待測數(shù)據(jù)包的檢測結(jié)果存儲在檢測結(jié)果庫中,所述檢測結(jié)果中包括所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包,所述待測數(shù)據(jù)包所對應的綜合特征向量Table,所述待測數(shù)據(jù)包的各個字段的字段值;
[0023]讀取一段時間內(nèi)所述檢測結(jié)果庫中存儲的對應同一個Table的所有數(shù)據(jù)包的各個字段的字段值,并讀取先驗數(shù)據(jù)庫中存儲所述同一個Table的中心、作用半徑和權(quán)重值,根據(jù)讀取的所述信息運用設定的增量挖掘算法,對所述同一個Table的中心、作用半徑和權(quán)重進行更新;
[0024]將更新后的所述同一個Table的中心、作用半徑和權(quán)重重新寫入到先驗數(shù)據(jù)庫中,替換先驗數(shù)據(jù)庫中原先存儲的所述同一個Table的中心、作用半徑和權(quán)重值。
[0025]一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測裝置,包括:
[0026]原始挖掘模塊,用于將多個綜合特征向量Table <中心,權(quán)值,作用半徑>和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述Table的中心為所述Table對應的數(shù)據(jù)密集區(qū)中的各個數(shù)據(jù)包的坐標化的各個字段的字段值的平均值,所述Table的作用半徑為所述中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離的最大值;
[0027]距離值計算模塊,用于在網(wǎng)絡智能平臺接收到待測數(shù)據(jù)包后,提取待測數(shù)據(jù)包的各個字段的字段值,根據(jù)坐標化的所述待測數(shù)據(jù)包的各個字段的字段值,計算出所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值;
[0028]判斷處理模塊,用于根據(jù)所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值,以及所述先驗數(shù)據(jù)庫中存儲的各個Table的作用半徑和對應的數(shù)據(jù)包類型,判斷所述待測數(shù)據(jù)包是否為惡意數(shù)據(jù)包。
[0029]所述的原始挖掘模塊,具體用于提取已知的各個非惡意數(shù)據(jù)包、惡意數(shù)據(jù)包的特征值,根據(jù)該特征值選取多個數(shù)據(jù)密集區(qū),每個數(shù)據(jù)密集區(qū)中包含多個非惡意數(shù)據(jù)包或者惡意數(shù)據(jù)包;
[0030]對每一個數(shù)據(jù)密集區(qū)建立一個綜合特征向量Table <中心,權(quán)值,作用半徑>,提取一個數(shù)據(jù)密集區(qū)內(nèi)的各個數(shù)據(jù)包的各個字段的字段值,計算出各個數(shù)據(jù)包的各個字段值的平均值,將各個字段值的平均值坐標化,將坐標化的各個字段值的平均值作為所述數(shù)據(jù)密集區(qū)對應的Table的中心,將所述數(shù)據(jù)密集區(qū)內(nèi)的每個數(shù)據(jù)包作為一個數(shù)據(jù)點,將每個數(shù)據(jù)包的各個字段值坐標化,計算出所述Table的中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離值,將所有距離值中的最大值作為所述Table的作用半徑,所述數(shù)據(jù)密集區(qū)所含數(shù)據(jù)點的個數(shù)作為所述Table的權(quán)值;
[0031]將建立的多個Table和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包。
[0032]所述的距離值計算模塊,具體用于設所述Table的中心為(A,B,C...M),坐標化的所述Table對應的數(shù)據(jù)密集區(qū)中一個數(shù)據(jù)點的各個字段值為(ai,bi,ci,...mi);
[0033]所述Table的中心到所述數(shù)據(jù)點的距離的計算公式如下:
|( A1 B,C …M)- (ai,bi,ci,…mi) |
[0034]_ 公式 I
=VIA — ai|2 + |B — bi|2 + |C — ci|2...+ |M — mi|2
[0035]在計算所述公式I中的A-ai | , B-bi | , |C_ci|, M-mi時,對于數(shù)值型的字段直接相減;對于離散型的字段,如果所述Table的中心在該字段的值和所述數(shù)據(jù)點在該字段的值相等,則相減的結(jié)果為0,如果所述Table的中心在該字段的值和所述數(shù)據(jù)點在該字段的值不相等,則將相減的結(jié)果設定為指定數(shù)值。
[0036]所述的判斷處理模塊,具體用于當所述待測數(shù)據(jù)包和某個Table的中心之間的距離值不大于所述某個Table的作用半徑時,則判斷所述待測數(shù)據(jù)包屬于所述某個Table對應的數(shù)據(jù)密集區(qū);
[0037]獲取先驗數(shù)據(jù)庫中存儲的所述某個Table對應的數(shù)據(jù)包類型,當所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包;當所述數(shù)據(jù)包類型為非惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為非惡意數(shù)據(jù)包。
[0038]所述的裝置還包括:
[0039]增量挖掘模塊,用于將所述待測數(shù)據(jù)包的檢測結(jié)果存儲在檢測結(jié)果庫中,所述檢測結(jié)果中包括所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包,所述待測數(shù)據(jù)包所對應的綜合特征向量Table,所述待測數(shù)據(jù)包的各個字段的字段值;
[0040]讀取一段時間內(nèi)所述檢測結(jié)果庫中存儲的對應同一個Table的所有數(shù)據(jù)包的各個字段的字段值,并讀取先驗數(shù)據(jù)庫中存儲所述同一個Table的中心、作用半徑和權(quán)重值,根據(jù)讀取的所述信息運用設定的增量挖掘算法,對所述同一個Table的中心、作用半徑和權(quán)重進行更新;
[0041]將更新后的所述同一個Table的中心、作用半徑和權(quán)重重新寫入到先驗數(shù)據(jù)庫中,替換先驗數(shù)據(jù)庫中原先存儲的所述同一個Table的中心、作用半徑和權(quán)重值。
[0042]由上述本發(fā)明的實施例提供的技術(shù)方案可以看出,本發(fā)明實施例通過將初始挖掘得到的多個綜合特征向量Table作為檢測模型存儲在先驗數(shù)據(jù)庫中,可以在移動互聯(lián)網(wǎng)網(wǎng)關等網(wǎng)絡智能平臺處實時對數(shù)據(jù)包進行有效的惡意數(shù)據(jù)檢測,及時發(fā)現(xiàn)惡意軟件發(fā)送的惡意數(shù)據(jù)包,有效控制惡意數(shù)據(jù)包和惡意軟件的傳播,不僅可以保障用戶財產(chǎn)和隱私的安全,還可以增強運營商的競爭力。
【專利附圖】
【附圖說明】
[0043]為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0044]圖1為本發(fā)明實施例一提供的一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法的實現(xiàn)原理不意圖;
[0045]圖2為本發(fā)明實施例一提供的一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法的處理流程圖;
[0046]圖3為本發(fā)明實施例二提供的一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測裝置的具體實現(xiàn)結(jié)構(gòu)圖,圖中,原始挖掘模塊31,距離值計算模塊32,判斷處理模塊33,增量挖掘模塊34。
【具體實施方式】
[0047]為便于對本發(fā)明實施例的理解,下面將結(jié)合附圖以幾個具體實施例為例做進一步的解釋說明,且各個實施例并不構(gòu)成對本發(fā)明實施例的限定。
[0048]實施例一
[0049]本發(fā)明實施例在網(wǎng)絡智能平臺處利用原始挖掘得到的檢測模型對所有經(jīng)過的數(shù)據(jù)包的內(nèi)容進行分析和檢測,判斷數(shù)據(jù)包是否為惡意數(shù)據(jù)包,并將判斷結(jié)果進行存儲。然后,根據(jù)存儲的一段時間內(nèi)的判斷結(jié)果對檢測模型進行更新。
[0050]該實施例提供了一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法的實現(xiàn)原理示意圖如圖1所示,具體處理流程如圖2所示,包括如下的處理步驟:
[0051]步驟S210、利用縮點聚類的方法對已知的非惡意數(shù)據(jù)包、惡意數(shù)據(jù)包進行原始挖掘,得到每個密集區(qū)對應的數(shù)據(jù)包的綜合特征向量Table,將多個綜合特征向量Table作為初始的檢測模型存儲在先驗數(shù)據(jù)庫中。
[0052]在原始挖掘階段,通過對大量的已知的非惡意數(shù)據(jù)包、惡意數(shù)據(jù)包進行挖掘形成初始的檢測模型,并存儲在先驗數(shù)據(jù)庫中。原始挖掘過程首先提取已知的各個非惡意數(shù)據(jù)包、惡意數(shù)據(jù)包的特征值,根據(jù)該特征值選取多個數(shù)據(jù)密集區(qū),每個數(shù)據(jù)密集區(qū)中包含多個非惡意數(shù)據(jù)包或者惡意數(shù)據(jù)包,即每個數(shù)據(jù)密集區(qū)中包含的數(shù)據(jù)包都是具有相似特征值的相同類型的數(shù)據(jù)包(惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包)。上述特征值可以為數(shù)據(jù)包的特定字段等。
[0053]對每一個數(shù)據(jù)密集區(qū)建立一個數(shù)據(jù)包的綜合特征向量,該綜合特征向量定義為Table <中心,權(quán)值,作用半徑>。上述綜合特征向量Table的建立過程如下:
[0054]提取一個數(shù)據(jù)密集區(qū)內(nèi)的各個數(shù)據(jù)包的各個字段的字段值,上述字段可以為訪問方法、連接狀態(tài)、協(xié)議類型、URL、源IP、目的IP、源端口、目的端口、是否攜帶附件等。計算出所有數(shù)據(jù)包的各個字段值的平均值。對于數(shù)值型的字段如數(shù)據(jù)包長度、連接頻率等,所有數(shù)據(jù)包的字段值的平均值可以為所有數(shù)據(jù)包的字段值的數(shù)學平均值或者方差等;對于離散型的字段如訪問方法、URL等,所有數(shù)據(jù)包的字段值的平均值為出現(xiàn)次數(shù)最多的字段值。比如在一個數(shù)據(jù)密集區(qū)內(nèi)訪問方法有9個GET,5個POST,則該數(shù)據(jù)密集區(qū)內(nèi)所有數(shù)據(jù)包的訪問方法字段的平均值為GET。
[0055]然后,將各個字段值的平均值坐標化,這里的坐標化并沒有改變字段值的平均值的實際數(shù)值,只是將各個字段值的平均值按照坐標的形式進行排列。比如,各個字段值的平均值分別為S1、S2、S3...SM,則坐標化的各個字段值的平均值為(S1, S2, S3...Sm)。將坐標化的各個字段值的平均值作為上述數(shù)據(jù)密集區(qū)對應的綜合特征向量Table的中心。
[0056]將上述數(shù)據(jù)密集區(qū)內(nèi)的每個數(shù)據(jù)包作為一個數(shù)據(jù)點,同樣將每個數(shù)據(jù)包的各個字段值坐標化,根據(jù)坐標化的數(shù)據(jù)包的各個字段值計算出所述Table的中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離值,將所有距離值中的最大值作為所述Table的作用半徑,所述數(shù)據(jù)密集區(qū)所含數(shù)據(jù)點的個數(shù)作為所述Table的權(quán)值。
[0057]例如:在某個數(shù)據(jù)密集區(qū)內(nèi)的數(shù)據(jù)點有η個,每個數(shù)據(jù)包中各個字段為a?m,各個數(shù)據(jù)包的坐標化的字段值為(al, bl, cl...ml)、a2, b2, c2...m2)...(an, bn, cn...mn),該數(shù)據(jù)密集區(qū)的Table的中心為(A, B, C...Μ),其中,A = (al+a2+...+an) /n, B =(bl+b2+...+bn)/n, C = (cl+c2+...+cn)/n, M = (ml+m2+...+mn)/n。
[0058]Table的權(quán)值為數(shù)據(jù)點的個數(shù)n, Table的作用半徑為max ( (A,B,C...M)-(ai,bi,ci,...mi) I),i = 1...n,即中心到密集區(qū)內(nèi)各個數(shù)據(jù)點的距離的最大值。
[0059]設所述Table的中心為(A,B,C...M),坐標化的所述Table對應的數(shù)據(jù)密集區(qū)中一個數(shù)據(jù)點的各個字段值為仏1,1^,(^,...1^),所述1&1316的中心到所述數(shù)據(jù)點的距離的計算公式如下:
|( A, B,C …M)- (ai,bi,ci,".mi) |
[0060]_ 公式 I
=VlA - ail2 + IB - bi|2 + |C - ci|2...+ |M - mi|2
[0061]在計算上述公式I中的I A-ai I, B-bi | , |C_ci|, M-mi時,對于數(shù)值型的字段如數(shù)據(jù)包長度、連接頻率等,可以直接相減;對于離散型的字段如訪問方法、URL等,如果中心在該字段的值和數(shù)據(jù)點在該字段的值相等,則相減的結(jié)果為O,如果中心在該字段的值和數(shù)據(jù)點在該字段的值不相等,則將相減的結(jié)果設定為指定數(shù)值,比如I或者2等。
[0062]上述方法建立的一個綜合特征向量Table對應一個非惡意數(shù)據(jù)包或者惡意數(shù)據(jù)包的集合,將初始挖掘過程建立的多個綜合特征向量Table和該Table對應的數(shù)據(jù)包類型(惡意或者非惡意)作為先驗結(jié)論存儲在先驗數(shù)據(jù)庫中,先驗數(shù)據(jù)庫中的各個綜合特征向量Table和該Table對應的數(shù)據(jù)包類型(惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包)構(gòu)成了初始的檢測模塊。
[0063]Table這種向量的存儲方式,為縮點聚類提供聚類依據(jù),可以有效地減少聚類算法的時間復雜度和空間復雜度。
[0064]步驟S220、在先驗數(shù)據(jù)庫中還存儲惡意數(shù)據(jù)包的源IP地址列表,在網(wǎng)絡智能平臺接收到待檢測數(shù)據(jù)包后,根據(jù)上述惡意數(shù)據(jù)包的源IP地址列表在網(wǎng)絡智能平臺處對待測數(shù)據(jù)包進行初步過濾。
[0065]上述惡意數(shù)據(jù)包的源IP地址列表可以根據(jù)用戶舉報的惡意軟件和惡意數(shù)據(jù)包來更新,用戶舉報一個惡意數(shù)據(jù)包后,將惡意數(shù)據(jù)包放入指定環(huán)境中運行,調(diào)用檢測模型對其進行檢測,確定其為惡意數(shù)據(jù)包后,將該惡意數(shù)據(jù)包的源IP地址增加到上述惡意數(shù)據(jù)包的源IP地址列表中。
[0066]步驟S230、在網(wǎng)絡智能平臺處對所述待檢測數(shù)據(jù)包進行解析,獲取所述待檢測數(shù)據(jù)包的源IP地址。判斷待測數(shù)據(jù)包的源IP地址是否包含在上述惡意數(shù)據(jù)包的源IP地址列表中,如果是,則確定該待測數(shù)據(jù)包為惡意數(shù)據(jù)包,執(zhí)行步驟S250 ;否則,執(zhí)行步驟S240。
[0067]上述網(wǎng)絡智能平臺可以為移動互聯(lián)網(wǎng)網(wǎng)關。
[0068]步驟S240、調(diào)用先驗數(shù)據(jù)庫中存儲的初始的檢測模型對初步過濾后的待測數(shù)據(jù)包進行檢測,判斷數(shù)據(jù)包為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包。
[0069]提取初步過濾后的待測數(shù)據(jù)包的所有有效字段的字段值,按照設定的轉(zhuǎn)換方法將各個字段值坐標化,設待測數(shù)據(jù)包的坐標化的各個字段值為(T1, T2, T3...Tm)。由于先驗數(shù)據(jù)庫中存儲的綜合特征向量Table的中心為數(shù)據(jù)密集區(qū)內(nèi)各個數(shù)據(jù)點的字段平均值,設Table的中心為(S1, S2, S3...Sm)。因此,根據(jù)上述兩個坐標值(T1, T2, T3...Tm)和(S1, S2,S3-..Sm)按照上述公式I的計算方法,計算出待測數(shù)據(jù)包和先驗數(shù)據(jù)庫中存儲的各個綜合特征向量Table的中心之間的距離值。
[0070]當所述待測數(shù)據(jù)包和某個Table的中心之間的距離值不大于所述某個Table的作用半徑時,則判斷所述待測數(shù)據(jù)包屬于所述某個Table對應的數(shù)據(jù)密集區(qū)。然后,獲取先驗數(shù)據(jù)庫中存儲的所述某個Table對應的數(shù)據(jù)包類型,當所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包;當所述數(shù)據(jù)包類型為非惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為非惡意數(shù)據(jù)包。
[0071]將上述待測數(shù)據(jù)包的檢測結(jié)果通知給客戶,上述檢測結(jié)果包括待測數(shù)據(jù)包為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包,待測數(shù)據(jù)包所對應的綜合特征向量Table,待測數(shù)據(jù)包的源IP地址、目的IP地址、各個字段的坐標化后的字段值等參數(shù)信息。然后,將檢測結(jié)果存儲在檢測結(jié)果庫中。執(zhí)行步驟S260。
[0072]步驟S250、確定上述待測數(shù)據(jù)包為惡意數(shù)據(jù)包。
[0073]將上述待測數(shù)據(jù)包的檢測結(jié)果通知給客戶,上述檢測結(jié)果包括待測數(shù)據(jù)包為惡意數(shù)據(jù)包,待測數(shù)據(jù)包的源IP地址、目的IP地址、各個字段的坐標化后的字段值等參數(shù)信息。然后,將檢測結(jié)果存儲在檢測結(jié)果庫中。執(zhí)行步驟S260。
[0074]步驟S260、對檢測結(jié)果庫中存儲的數(shù)據(jù)包的檢測結(jié)果進行增量挖掘,根據(jù)增量挖掘?qū)ο闰灁?shù)據(jù)庫中存儲的綜合特征向量Table進行更新。
[0075]在增量挖掘的過程中,讀取檢測結(jié)果庫中存儲的一段時間(比如I個月或者I個星期)內(nèi)的檢測結(jié)果,運用設定的增量挖掘算法對檢測結(jié)果進行增量挖掘。
[0076]比如,讀取檢測結(jié)果庫中對應同一個綜合特征向量Table的所有數(shù)據(jù)包的各個字段的坐標化后的字段值,并讀取先驗數(shù)據(jù)庫中存儲上述同一個綜合特征向量Table的中心、作用半徑和權(quán)重值。然后,根據(jù)讀取的上述信息運用設定的增量挖掘算法,對上述同一個綜合特征向量Table的中心、作用半徑和權(quán)重進行更新,將更新后的上述同一個綜合特征向量Table的中心、作用半徑和權(quán)重重新寫入到先驗數(shù)據(jù)庫中,替換先驗數(shù)據(jù)庫中原先存儲的上述同一個綜合特征向量Table的中心、作用半徑和權(quán)重值。使得綜合特征向量Table的中心、作用半徑和權(quán)重值發(fā)生少量變化,以能夠適應新的數(shù)據(jù)包的檢測結(jié)果。使系統(tǒng)能夠?qū)π碌膼阂鈹?shù)據(jù)進行識別,增強數(shù)據(jù)檢測和數(shù)據(jù)挖掘的準確率。上述增量挖掘算法可以為貝葉斯分類模型、決策樹分類模型等。
[0077]在實際應用中,上述先驗數(shù)據(jù)庫中存儲的綜合特征向量Table還可以根據(jù)用戶定制的信息進行更新,上述用戶定制的信息可以為最新的惡意數(shù)據(jù)包等。
[0078]實施例二
[0079]該實施例提供了一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測裝置,其具體實現(xiàn)結(jié)構(gòu)如圖3所示,具體可以包括如下的模塊:
[0080]原始挖掘模塊31,用于將多個綜合特征向量Table <中心,權(quán)值,作用半徑>和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述Table的中心為所述Table對應的數(shù)據(jù)密集區(qū)中的各個數(shù)據(jù)包的坐標化的各個字段的字段值的平均值,所述Table的作用半徑為所述中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離的最大值;
[0081]距離值計算模塊32,用于在網(wǎng)絡智能平臺接收到待測數(shù)據(jù)包后,提取待測數(shù)據(jù)包的各個字段的字段值,根據(jù)坐標化的所述待測數(shù)據(jù)包的各個字段的字段值,計算出所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值;
[0082]判斷處理模塊33,用于根據(jù)所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值,以及所述先驗數(shù)據(jù)庫中存儲的各個Table的作用半徑和對應的數(shù)據(jù)包類型,判斷所述待測數(shù)據(jù)包是否為惡意數(shù)據(jù)包。
[0083]進一步地,所述的原始挖掘模塊31,具體用于提取已知的各個非惡意數(shù)據(jù)包、惡意數(shù)據(jù)包的特征值,根據(jù)該特征值選取多個數(shù)據(jù)密集區(qū),每個數(shù)據(jù)密集區(qū)中包含多個非惡意數(shù)據(jù)包或者惡意數(shù)據(jù)包;
[0084]對每一個數(shù)據(jù)密集區(qū)建立一個綜合特征向量Table <中心,權(quán)值,作用半徑>,提取一個數(shù)據(jù)密集區(qū)內(nèi)的各個數(shù)據(jù)包的各個字段的字段值,計算出各個數(shù)據(jù)包的各個字段值的平均值,將各個字段值的平均值坐標化,將坐標化的各個字段值的平均值作為所述數(shù)據(jù)密集區(qū)對應的Table的中心,將所述數(shù)據(jù)密集區(qū)內(nèi)的每個數(shù)據(jù)包作為一個數(shù)據(jù)點,將每個數(shù)據(jù)包的各個字段值坐標化,計算出所述Table的中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離值,將所有距離值中的最大值作為所述Table的作用半徑,所述數(shù)據(jù)密集區(qū)所含數(shù)據(jù)點的個數(shù)作為所述Table的權(quán)值;
[0085]將建立的多個Table和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包。
[0086]進一步地,所述的距離值計算模塊32,具體用于設所述Table的中心為(A,B,C...M),坐標化的所述Table對應的數(shù)據(jù)密集區(qū)中一個數(shù)據(jù)點的各個字段值為(ai,bi,ci,...mi);
[0087]所述Table的中心到所述數(shù)據(jù)點的距離的計算公式如下:
|( A1 B,C…M)- (ai,bi,ci,...mi) |
[0088]_ 公式 I
=VlA — ai|2 + |B - bi|2 + |C _ ci|2...+ |M - mi|2
[0089]在計算所述公式I中的I A-ai I, B-bi | , |C_ci|, M-mi時,對于數(shù)值型的字段直接相減;對于離散型的字段,如果所述Table的中心在該字段的值和所述數(shù)據(jù)點在該字段的值相等,則相減的結(jié)果為0,如果所述Table的中心在該字段的值和所述數(shù)據(jù)點在該字段的值不相等,則將相減的結(jié)果設定為指定數(shù)值。
[0090]進一步地,所述的判斷處理模塊33,具體用于當所述待測數(shù)據(jù)包和某個Table的中心之間的距離值不大于所述某個Table的作用半徑時,則判斷所述待測數(shù)據(jù)包屬于所述某個Table對應的數(shù)據(jù)密集區(qū);
[0091]獲取先驗數(shù)據(jù)庫中存儲的所述某個Table對應的數(shù)據(jù)包類型,當所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包;當所述數(shù)據(jù)包類型為非惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為非惡意數(shù)據(jù)包。
[0092]進一步地,所述的裝置還包括:
[0093]增量挖掘模塊34,用于將所述待測數(shù)據(jù)包的檢測結(jié)果存儲在檢測結(jié)果庫中,所述檢測結(jié)果中包括所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包,所述待測數(shù)據(jù)包所對應的綜合特征向量Table,所述待測數(shù)據(jù)包的各個字段的字段值;
[0094]讀取一段時間內(nèi)所述檢測結(jié)果庫中存儲的對應同一個Table的所有數(shù)據(jù)包的各個字段的字段值,并讀取先驗數(shù)據(jù)庫中存儲所述同一個Table的中心、作用半徑和權(quán)重值,根據(jù)讀取的所述信息運用設定的增量挖掘算法,對所述同一個Table的中心、作用半徑和權(quán)重進行更新;
[0095]將更新后的所述同一個Table的中心、作用半徑和權(quán)重重新寫入到先驗數(shù)據(jù)庫中,替換先驗數(shù)據(jù)庫中原先存儲的所述同一個Table的中心、作用半徑和權(quán)重值。
[0096]用本發(fā)明實施例的裝置進行基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測的具體過程與前述方法實施例類似,此處不再贅述。
[0097]本領域普通技術(shù)人員可以理解:附圖只是一個實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。
[0098]本領域普通技術(shù)人員可以理解:實施例中的設備中的模塊可以按照實施例描述分布于實施例的設備中,也可以進行相應變化位于不同于本實施例的一個或多個設備中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。
[0099]本領域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random AccessMemory, RAM)等。
[0100]綜上所述,本發(fā)明實施例通過將初始挖掘得到的多個綜合特征向量Table作為檢測模型存儲在先驗數(shù)據(jù)庫中,可以在移動互聯(lián)網(wǎng)網(wǎng)關等網(wǎng)絡智能平臺處實時對數(shù)據(jù)包進行有效的惡意數(shù)據(jù)檢測,及時發(fā)現(xiàn)惡意軟件發(fā)送的惡意數(shù)據(jù)包,有效控制惡意數(shù)據(jù)包和惡意軟件的傳播,不僅可以保障用戶財產(chǎn)和隱私的安全,還可以增強運營商的競爭力。
[0101]本發(fā)明實施例以面向服務的方式提供在移動互聯(lián)網(wǎng)網(wǎng)關等網(wǎng)絡智能平臺處檢測數(shù)據(jù)安全,并可以根據(jù)最近的數(shù)據(jù)包的檢測結(jié)果對先前存儲的檢測模型進行修正,以使檢測模型能夠適應新的數(shù)據(jù)包的檢測結(jié)果,使系統(tǒng)能夠?qū)π碌膼阂鈹?shù)據(jù)進行有效的識別。
[0102]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本【技術(shù)領域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應該以權(quán)利要求的保護范圍為準。
【權(quán)利要求】
1.一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法,其特征在于,將多個綜合特征向量Table <中心,權(quán)值,作用半徑>和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述Table的中心為所述Table對應的數(shù)據(jù)密集區(qū)中的各個數(shù)據(jù)包的坐標化的各個字段的字段值的平均值,所述Table的作用半徑為所述中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離的最大值,所述方法具體包括: 網(wǎng)絡智能平臺接收到待測數(shù)據(jù)包后,提取待測數(shù)據(jù)包的各個字段的字段值,根據(jù)坐標化的所述待測數(shù)據(jù)包的各個字段的字段值,計算出所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值; 根據(jù)所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值,以及所述先驗數(shù)據(jù)庫中存儲的各個Table的作用半徑和對應的數(shù)據(jù)包類型,判斷所述待測數(shù)據(jù)包是否為惡意數(shù)據(jù)包。
2.根據(jù)權(quán)利要求1所述的基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法,其特征在于,所述的將多個綜合特征向量Table <中心,權(quán)值,作用半徑>和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述Table的中心為所述Table對應的數(shù)據(jù)密集區(qū)中的各個數(shù)據(jù)包的坐標化的各個字段的字段值的平均值,所述Table的作用半徑為所述中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離的最大值,包括: 提取已知的各個非惡意數(shù)據(jù)包、惡意數(shù)據(jù)包的特征值,根據(jù)該特征值選取多個數(shù)據(jù)密集區(qū),每個數(shù)據(jù)密集區(qū)中包含多個非惡意數(shù)據(jù)包或者惡意數(shù)據(jù)包; 對每一個數(shù)據(jù)密集區(qū)建立一個綜合特征向量Table <中心,權(quán)值,作用半徑>,提取一個數(shù)據(jù)密集區(qū)內(nèi)的各個數(shù)據(jù)包的各個字段的字段值,計算出各個數(shù)據(jù)包的各個字段值的平均值,將各個字段值的平均值坐標化,將坐標化的各個字段值的平均值作為所述數(shù)據(jù)密集區(qū)對應的Table的中心,將所述數(shù)據(jù)密集區(qū)內(nèi)的每個數(shù)據(jù)包作為一個數(shù)據(jù)點,將每個數(shù)據(jù)包的各個字段值坐標化,計算出所述Table的中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離值,將所有距離值中的最大值作為所述Table的作用半徑,所述數(shù)據(jù)密集區(qū)所含數(shù)據(jù)點的個數(shù)作為所述Table的權(quán)值; 將建立的多個Table和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包。
3.根據(jù)權(quán)利要求1所述的基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法,其特征在于,所述的計算所述Table的中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離值,包括: 設所述Table的中心為(A,B,C...M),坐標化的所述Table對應的數(shù)據(jù)密集區(qū)中一個數(shù)據(jù)點的各個字段值為(ai,bi,ci,...mi); 所述Table的中心到所述數(shù)據(jù)點的距離的計算公式如下: |( A1 B,C…M)- (ai,bi,ci,".mi) |
公式I
=VlA - ai|2 + |B - bi|2 + |C - ci|2...+ |M - mi|2 在計算所述公式I中的|A-ai|, B-bi |, C-ci |, M-mi時,對于數(shù)值型的字段直接相減;對于離散型的字段,如果所述Table的中心在該字段的值和所述數(shù)據(jù)點在該字段的值相等,則相減的結(jié)果為O,如果所述Table的中心在該字段的值和所述數(shù)據(jù)點在該字段的值不相等,則將相減的結(jié)果設定為指定數(shù)值。
4.根據(jù)權(quán)利要求1或2或3所述的基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法,其特征在于,所述的根據(jù)所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值,以及所述先驗數(shù)據(jù)庫中存儲的各個Table的作用半徑和對應的數(shù)據(jù)包類型,判斷所述待測數(shù)據(jù)包是否為惡意數(shù)據(jù)包,包括: 當所述待測數(shù)據(jù)包和某個Table的中心之間的距離值不大于所述某個Table的作用半徑時,則判斷所述待測數(shù)據(jù)包屬于所述某個Table對應的數(shù)據(jù)密集區(qū); 獲取先驗數(shù)據(jù)庫中存儲的所述某個Table對應的數(shù)據(jù)包類型,當所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包;當所述數(shù)據(jù)包類型為非惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為非惡意數(shù)據(jù)包。
5.根據(jù)權(quán)利要求4所述的基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測方法,其特征在于,所述的方法還包括: 將所述待測數(shù)據(jù)包的檢測結(jié)果存儲在檢測結(jié)果庫中,所述檢測結(jié)果中包括所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包,所述待測數(shù)據(jù)包所對應的綜合特征向量Table,所述待測數(shù)據(jù)包的各個字段的字段值; 讀取一段時間內(nèi)所述檢測結(jié)果庫中存儲的對應同一個Table的所有數(shù)據(jù)包的各個字段的字段值,并讀取先驗數(shù)據(jù)庫中存儲所述同一個Table的中心、作用半徑和權(quán)重值,根據(jù)讀取的所述信息運用設定的增量挖掘算法,對所述同一個Table的中心、作用半徑和權(quán)重進行更新; 將更新后的所述同一個Table的中心、作用半徑和權(quán)重重新寫入到先驗數(shù)據(jù)庫中,替換先驗數(shù)據(jù)庫中原先存儲的所述同一個Table的中心、作用半徑和權(quán)重值。
6.一種基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測裝置,其特征在于,包括: 原始挖掘模塊,用于將多個綜合特征向量Table <中心,權(quán)值,作用半徑>和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述Table的中心為所述Table對應的數(shù)據(jù)密集區(qū)中的各個數(shù)據(jù)包的坐標化的各個字段的字段值的平均值,所述Table的作用半徑為所述中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離的最大值; 距離值計算模塊,用于在網(wǎng)絡智能平臺接收到待測數(shù)據(jù)包后,提取待測數(shù)據(jù)包的各個字段的字段值,根據(jù)坐標化的所述待測數(shù)據(jù)包的各個字段的字段值,計算出所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值; 判斷處理模塊,用于根據(jù)所述待測數(shù)據(jù)包和所述先驗數(shù)據(jù)庫中存儲的各個Table的中心之間的距離值,以及所述先驗數(shù)據(jù)庫中存儲的各個Table的作用半徑和對應的數(shù)據(jù)包類型,判斷所述待測數(shù)據(jù)包是否為惡意數(shù)據(jù)包。
7.根據(jù)權(quán)利要求6所述的基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測裝置,其特征在于: 所述的原始挖掘模塊,具體用于提取已知的各個非惡意數(shù)據(jù)包、惡意數(shù)據(jù)包的特征值,根據(jù)該特征值選取多個數(shù)據(jù)密集區(qū),每個數(shù)據(jù)密集區(qū)中包含多個非惡意數(shù)據(jù)包或者惡意數(shù)據(jù)包; 對每一個數(shù)據(jù)密集區(qū)建立一個綜合特征向量Table <中心,權(quán)值,作用半徑>,提取一個數(shù)據(jù)密集區(qū)內(nèi)的各個數(shù)據(jù)包的各個字段的字段值,計算出各個數(shù)據(jù)包的各個字段值的平均值,將各個字段值的平均值坐標化,將坐標化的各個字段值的平均值作為所述數(shù)據(jù)密集區(qū)對應的Table的中心,將所述數(shù)據(jù)密集區(qū)內(nèi)的每個數(shù)據(jù)包作為一個數(shù)據(jù)點,將每個數(shù)據(jù)包的各個字段值坐標化,計算出所述Table的中心到所述數(shù)據(jù)密集區(qū)中各個數(shù)據(jù)點之間的距離值,將所有距離值中的最大值作為所述Table的作用半徑,所述數(shù)據(jù)密集區(qū)所含數(shù)據(jù)點的個數(shù)作為所述Table的權(quán)值; 將建立的多個Table和每個Table對應的數(shù)據(jù)包類型存儲在先驗數(shù)據(jù)庫中,所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包。
8.根據(jù)權(quán)利要求6所述的基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測裝置,其特征在于: 所述的距離值計算模塊,具體用于設所述Table的中心為(A,B,C...M),坐標化的所述Table對應的數(shù)據(jù)密集區(qū)中一個數(shù)據(jù)點的各個字段值為(ai,bi,ci,...mi); 所述Table的中心到所述數(shù)據(jù)點的距離的計算公式如下:
|( A, B1C- -M) - (ai,bi,ci,…mi) |
公式I
=VIA - ai|2 + |B - bi|2 + |C - ci|2...+ |M - mi|2 在計算所述公式I中的|A-ai|, I B-bi I, C-ci |, M-mi時,對于數(shù)值型的字段直接相減;對于離散型的字段,如果所述Table的中心在該字段的值和所述數(shù)據(jù)點在該字段的值相等,則相減的結(jié)果為O,如果所述Table的中心在該字段的值和所述數(shù)據(jù)點在該字段的值不相等,則將相減的結(jié)果設定為指定數(shù)值。
9.根據(jù)權(quán)利要求6或7或8所述的基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測裝置,其特征在于: 所述的判斷處理模塊,具體用于當所述待測數(shù)據(jù)包和某個Table的中心之間的距離值不大于所述某個Table的作用半徑時,則判斷所述待測數(shù)據(jù)包屬于所述某個Table對應的數(shù)據(jù)密集區(qū); 獲取先驗數(shù)據(jù)庫中存儲的所述某個Table對應的數(shù)據(jù)包類型,當所述數(shù)據(jù)包類型為惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包;當所述數(shù)據(jù)包類型為非惡意數(shù)據(jù)包,則確定所述待測數(shù)據(jù)包為非惡意數(shù)據(jù)包。
10.根據(jù)權(quán)利要求9所述的基于挖掘的網(wǎng)絡智能平臺惡意數(shù)據(jù)檢測裝置,其特征在于,所述的裝置還包括: 增量挖掘模塊,用于將所述待測數(shù)據(jù)包的檢測結(jié)果存儲在檢測結(jié)果庫中,所述檢測結(jié)果中包括所述待測數(shù)據(jù)包為惡意數(shù)據(jù)包或者非惡意數(shù)據(jù)包,所述待測數(shù)據(jù)包所對應的綜合特征向量Table,所述待測數(shù)據(jù)包的各個字段的字段值; 讀取一段時間內(nèi)所述檢測結(jié)果庫中存儲的對應同一個Table的所有數(shù)據(jù)包的各個字段的字段值,并讀取先驗數(shù)據(jù)庫中存儲所述同一個Table的中心、作用半徑和權(quán)重值,根據(jù)讀取的所述信息運用設定的增量挖掘算法,對所述同一個Table的中心、作用半徑和權(quán)重進行更新; 將更新后的所述同一個Table的中心、作用半徑和權(quán)重重新寫入到先驗數(shù)據(jù)庫中,替換先驗數(shù)據(jù)庫中原先存儲的所述同一個Table的中心、作用半徑和權(quán)重值。
【文檔編號】G06F21/56GK104318158SQ201410325598
【公開日】2015年1月28日 申請日期:2014年7月9日 優(yōu)先權(quán)日:2014年7月9日
【發(fā)明者】崔寶江, 金海峰, 何珊珊, 金建林, 袁雋 申請人:北京郵電大學, 北京直真科技股份有限公司