特征模式集生成方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種特征模式集生成方法及裝置,屬于協(xié)議識別【技術(shù)領(lǐng)域】。所述方法包括:從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包,所述多個數(shù)據(jù)包的類型相同且等長度;對所述多個數(shù)據(jù)包進行特征分析,得到所述多個數(shù)據(jù)包的高頻字節(jié)串;確定所述高頻字節(jié)串的位置特征信息;根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集。由于基于高頻字節(jié)串的位置特征信息生成特征模式集,所以根據(jù)該特征模式集可有效對信令數(shù)據(jù)進行協(xié)議識別和分類。且在進行協(xié)議識別時對協(xié)議的版本號不敏感,即便采集到的數(shù)據(jù)的包頭信息不完整或有誤,也可對數(shù)據(jù)的協(xié)議類型進行識別,所以大大地增強了對數(shù)據(jù)包的解碼能力,提高了協(xié)議識別率。
【專利說明】特征模式集生成方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及協(xié)議識別【技術(shù)領(lǐng)域】,特別涉及一種特征模式集生成方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)服務(wù)質(zhì)量、網(wǎng)絡(luò)安全及網(wǎng)絡(luò)流量控制等問題日益突出。而準確地對網(wǎng)絡(luò)鏈路中流量所使用的協(xié)議進行識別,對提高網(wǎng)絡(luò)服務(wù)質(zhì)量、進行入侵檢測及網(wǎng)絡(luò)流量管理有著重要的意義。因此,協(xié)議識別成為了當(dāng)下的一個研究熱點。在對協(xié)議進行識別之前,需生成協(xié)議的特征模式集,通過生成的特征模式集便可對網(wǎng)絡(luò)鏈路中的各種流量所使用的協(xié)議進行識別。
[0003]現(xiàn)有技術(shù)在生成特征模式集時,采用基于應(yīng)用載荷的分析方法。也即,針對存在標(biāo)準文檔的協(xié)議,對標(biāo)準文檔中明確規(guī)定的交互過程中必定出現(xiàn)的特征進行提取或歸納總結(jié),得到協(xié)議的特征字符串;之后,根據(jù)該協(xié)議的特征字符串生成該協(xié)議的正則表達式,得到該協(xié)議的特征模式。以FTP(File Transfer Protocol,文本傳輸協(xié)議)為例,由于相互通信的兩臺FTP服務(wù)器在準備就緒時,通常會先發(fā)送字符串“220”,且在后續(xù)通信的過程中,發(fā)送的字符中通常包括字符串“FTP”,所以FTP的特征模式可利用正則表達式~220[\x09-\xOd-~]*ftp進行表示。其中,\x09-\x0d-指代所有的ASCII可打印字符。
[0004]在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0005]利用上述生成方法生成的特征模式對協(xié)議名稱或版本等關(guān)鍵字敏感。當(dāng)協(xié)議名稱發(fā)生變更或版本更新時,可能會無法識別采集到的信令數(shù)據(jù)的協(xié)議類型;且當(dāng)采集到的信令數(shù)據(jù)的包頭信息不完整或有誤時,也可能會無法識別該數(shù)據(jù)的協(xié)議類型;此外,在3G(3rd_generat1n,第三代移動通信技術(shù))信令網(wǎng)PS (Packet Switch,分組交換)域中,存在大量的非運營商OTT業(yè)務(wù)數(shù)據(jù),該類業(yè)務(wù)的信令數(shù)據(jù)均采用私有協(xié)議類型,所以采用該種生成方式生成的特征模式不能對該類數(shù)據(jù)進行協(xié)議識別。
【發(fā)明內(nèi)容】
[0006]為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實施例提供了一種特征模式集生成方法及裝置。所述技術(shù)方案如下:
[0007]一方面,提供了一種特征模式集生成方法,所述方法包括:
[0008]從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包,所述多個數(shù)據(jù)包的類型相同且等長度;
[0009]對所述多個數(shù)據(jù)包進行特征分析,得到所述多個數(shù)據(jù)包的高頻字節(jié)串;
[0010]確定所述聞頻字節(jié)串的位置特征?目息;
[0011]根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集。
[0012]可選地,所述對所述多個數(shù)據(jù)包進行特征分析,得到所述多個數(shù)據(jù)包的高頻字節(jié)串,包括:
[0013] 對于所述多個數(shù)據(jù)包中的一個數(shù)據(jù)包,對所述數(shù)據(jù)包中的每一個字節(jié)元素進行字符轉(zhuǎn)換,得到所述每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識;
[0014]確定所述每一個字節(jié)元素的字節(jié)值及所述每一個字節(jié)元素在所述數(shù)據(jù)包中的相對位置偏移;
[0015]判斷所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值是否一致;
[0016]如果所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值一致,則所述字節(jié)元素為第一高頻字節(jié)元素。
[0017]可選地,所述確定所述每一個字節(jié)元素的字節(jié)值及所述每一個字節(jié)元素在所述數(shù)據(jù)包中的相對位置偏移之后,所述方法還包括:
[0018]判斷所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識是否為同一類型;
[0019]如果所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識為同一類型,則所述字節(jié)元素為第二高頻字節(jié)元素。
[0020]可選地,所述確定所述高頻字節(jié)串的位置特征信息之前,所述方法還包括:
[0021]生成所述每一個字節(jié)元素的參數(shù)項,所述參數(shù)項中包括所述每一個字節(jié)元素的字節(jié)值、所述每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識及所述每一個字節(jié)元素在所述數(shù)據(jù)包中的相對位置偏移;
[0022]所述確定所述高頻字節(jié)串的位置特征信息,包括:
[0023]獲取所述第一高頻字節(jié)元素的參數(shù)項,將所述第一高頻字節(jié)元素的參數(shù)項作為第一位置特征信息;
[0024]獲取所述第二高頻字節(jié)元素的參數(shù)項,將所述第二高頻字節(jié)元素的參數(shù)項作為第二位置特征信息。
[0025]可選地,所述根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集,包括:
[0026]對于所述第一位置特征信息,確定所述第一位置特征信息中具有相同參數(shù)項的完全相等項集合,每一個完全相等項中至少包括兩個參數(shù)項;
[0027]確定所述完全相等項集合中,每一個完全相等項的支持度;
[0028]如果所述完全相等項集合中存在支持度小于預(yù)設(shè)閾值的完全相等項,則將所述完全相等項在所述完全相等項集合中刪除,得到新的完全相等項集合;
[0029]至少根據(jù)所述新的完全相等項集合,生成所述特征模式集。
[0030]可選地,所述根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集,包括:
[0031]對于所述第二位置特征信息,確定所述第二位置特征信息中具有相同字符類型標(biāo)識和相同相對位置偏移的同類相等項集合,每一個同類相等項中至少包括兩個參數(shù)項;
[0032]確定所述同類相等項集合中,每一個同類相等項的支持度;
[0033]如果所述同類相等項集合中存在支持度小于預(yù)設(shè)閾值的同類相等項,則將所述同類相等項在所述同類相等項集合中刪除,得到新的同類相等項集合;
[0034]至少根據(jù)所述新的同類相等項集合,生成所述特征模式集。
[0035]可選地,所述根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集,包括:
[0036]根據(jù)所述新的完全相等項集合和所述新的同類相等項集合,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集。
[0037]另一方面,提供了一種特征模式集生成裝置,所述裝置包括:
[0038]數(shù)據(jù)包獲取模塊,用于從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包,所述多個數(shù)據(jù)包的類型相同且等長度;
[0039]特征分析模塊,用于對所述多個數(shù)據(jù)包進行特征分析,得到所述多個數(shù)據(jù)包的高頻字節(jié)串;
[0040]特征信息確定模塊,用于確定所述高頻字節(jié)串的位置特征信息;
[0041]特征模式集生成模塊,用于根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集。
[0042]可選地,所述特征分析模塊,包括:
[0043]字符轉(zhuǎn)換單元,用于對于所述多個數(shù)據(jù)包中的一個數(shù)據(jù)包,對所述數(shù)據(jù)包中的每一個字節(jié)元素進行字符轉(zhuǎn)換,得到所述每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識;
[0044]位置偏移確定單元,用于確定所述每一個字節(jié)元素的字節(jié)值及所述每一個字節(jié)元素在所述數(shù)據(jù)包中的相對位置偏移;
[0045]字節(jié)元素判斷單元,用于判斷所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值是否一致;
[0046]高頻字節(jié)元素確定單元,用于當(dāng)所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值一致時,確定所述字節(jié)元素為第一高頻字節(jié)元素。
[0047]可選地,所述字節(jié)元素判斷單元,還用于判斷所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識是否為同一類型;
[0048]所述高頻字節(jié)元素確定單元,還用于當(dāng)所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識為同一類型時,確定所述字節(jié)元素為第二高頻字節(jié)元素。
[0049]可選地,所述裝置還包括:
[0050]參數(shù)項生成模塊,用于生成所述每一個字節(jié)元素的參數(shù)項,所述參數(shù)項中包括所述每一個字節(jié)元素的字節(jié)值、所述每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識及所述每一個字節(jié)元素在所述數(shù)據(jù)包中的相對位置偏移;
[0051]所述特征信息確定模塊,用于獲取所述第一高頻字節(jié)元素的參數(shù)項,將所述第一高頻字節(jié)元素的參數(shù)項作為第一位置特征信息;獲取所述第二高頻字節(jié)元素的參數(shù)項,將所述第二高頻字節(jié)元素的參數(shù)項作為第二位置特征信息。
[0052]可選地,所述特征模式集生成模塊,用于對于所述第一位置特征信息,確定所述第一位置特征信息中具有相同參數(shù)項的完全相等項集合,每一個完全相等項中至少包括兩個參數(shù)項;確定所述完全相等項集合中,每一個完全相等項的支持度;如果所述完全相等項集合中存在支持度小于預(yù)設(shè)閾值的完全相等項,則將所述完全相等項在所述完全相等項集合中刪除,得到新的完全相等項集合;至少根據(jù)所述新的完全相等項集合,生成所述特征模式集。
[0053]可選地,所述特征模式集生成模塊,用于對于所述第二位置特征信息,確定所述第二位置特征信息中具有相同字符類型標(biāo)識和相同相對位置偏移的同類相等項集合,每一個同類相等項中至少包括兩個參數(shù)項;確定所述同類相等項集合中,每一個同類相等項的支持度;如果所述同類相等項集合中存在支持度小于預(yù)設(shè)閾值的同類相等項,則將所述同類相等項在所述同類相等項集合中刪除,得到新的同類相等項集合;至少根據(jù)所述新的同類相等項集合,生成所述特征模式集。
[0054]可選地,所述特征模式集生成模塊,用于根據(jù)所述新的完全相等項集合和所述新的同類相等項集合,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集。
[0055]本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是:
[0056]在從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包后,對多個數(shù)據(jù)包進行特征分析,得到多個數(shù)據(jù)包的高頻字節(jié)串;之后,確定高頻字節(jié)串的位置特征信息;根據(jù)位置特征信息,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。由于基于高頻字節(jié)串的位置特征信息生成特征模式集,所以根據(jù)該特征模式集可有效對信令數(shù)據(jù)進行協(xié)議識別和分類。且在進行協(xié)議識別時對協(xié)議的版本號不敏感,即便采集到的數(shù)據(jù)的包頭信息不完整或有誤,也可對數(shù)據(jù)的協(xié)議類型進行識別,所以大大地增強了對數(shù)據(jù)包的解碼能力,提高了協(xié)議識別率。
【專利附圖】
【附圖說明】
[0057]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0058]圖1是本發(fā)明實施例提供的一種特征模式集的生成方法流程圖;
[0059]圖2是本發(fā)明實施例提供的一種特征模式集的生成方法流程圖;
[0060]圖3是本發(fā)明實施例提供的一種特征模式集生成裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0061]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述。
[0062]在對本發(fā)明實施例做詳細地解釋說明之前,先對后續(xù)實施例中出現(xiàn)的名詞作一下解釋。
[0063]偏移:任意非空字符串0、0且(1(=(3,(1在0中的首次出現(xiàn)位置稱為α相對于β的偏移,簡稱偏移。
[0064]支持度:特定字節(jié)串在已知字節(jié)串集合中出現(xiàn)次數(shù)占字節(jié)串總數(shù)的概率。
[0065]高頻字節(jié)串:已知字節(jié)串集合中,支持度不小于最小支持度閾值的字節(jié)串。
[0066]位置特征信息:在應(yīng)用層消息中有固定偏移約束的高頻字節(jié)串的位置信息。位置特征信息包括字節(jié)串和相應(yīng)的偏移標(biāo)識。反映在應(yīng)用協(xié)議消息中,可表現(xiàn)為某個或某幾個特定偏移上固定出現(xiàn)的字節(jié)或字節(jié)串信息。
[0067]參數(shù)項:特征模式集合中的一個字節(jié)元素,記作一個三元組:分別表示該字節(jié)相對于數(shù)據(jù)包的偏移;該字節(jié)的值;該字節(jié)所屬字符集的類型標(biāo)識。
[0068]完全相等項:任意兩個參數(shù)項,如果其對應(yīng)的偏移、值和類型均相同,則稱該兩項為完全相等項。
[0069]同類相等項:任意兩個參數(shù)項,如果其對應(yīng)的偏移、類型均相同,但值不相同,則稱該兩項為同類相等項。
[0070]相等項的支持度:完全相等項的支持度為該項的值在候選集合中相應(yīng)位置上出現(xiàn)的概率;同類相等項的支持度為該項的類型在候選集合中相應(yīng)位置上出現(xiàn)的概率。
[0071]圖1是本發(fā)明實施例提供的一種特征模式集的生成方法流程圖。參見圖1,本發(fā)明實施例提供的方法流程包括:
[0072]101、從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包,多個數(shù)據(jù)包的類型相同且等長度。
[0073]102、對多個數(shù)據(jù)包進行特征分析,得到多個數(shù)據(jù)包的高頻字節(jié)串。
[0074]103、確定高頻字節(jié)串的位置特征信息。
[0075]104、根據(jù)位置特征信息,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。
[0076]本發(fā)明實施例提供的方法,在從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包后,對多個數(shù)據(jù)包進行特征分析,得到多個數(shù)據(jù)包的高頻字節(jié)串;之后,確定高頻字節(jié)串的位置特征信息;根據(jù)位置特征信息,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。由于基于高頻字節(jié)串的位置特征信息生成特征模式集,所以根據(jù)該特征模式集可有效對信令數(shù)據(jù)進行協(xié)議識別和分類。且在進行協(xié)議識別時對協(xié)議的版本號不敏感,即便采集到的數(shù)據(jù)的包頭信息不完整或有誤,也可對數(shù)據(jù)的協(xié)議類型進行識別,所以大大地增強了對數(shù)據(jù)包的解碼能力,提聞了協(xié)議識別率。
[0077]可選地,對多個數(shù)據(jù)包進行特征分析,得到多個數(shù)據(jù)包的高頻字節(jié)串,包括:
[0078]對于多個數(shù)據(jù)包中的一個數(shù)據(jù)包,對數(shù)據(jù)包中的每一個字節(jié)元素進行字符轉(zhuǎn)換,得到每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識;
[0079]確定每一個字節(jié)元素的字節(jié)值及每一個字節(jié)元素在數(shù)據(jù)包中的相對位置偏移;
[0080]判斷多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值是否一致;
[0081]如果多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值一致,則字節(jié)元素為第一高頻字節(jié)元素。
[0082]可選地,確定每一個字節(jié)元素的字節(jié)值及每一個字節(jié)元素在數(shù)據(jù)包中的相對位置偏移之后,該方法還包括:
[0083]判斷多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識是否為同一類型;
[0084]如果多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識為同一類型,則字節(jié)元素為第二高頻字節(jié)元素。
[0085]可選地,確定高頻字節(jié)串的位置特征信息之前,該方法還包括:
[0086]生成每一個字節(jié)元素的參數(shù)項,參數(shù)項中包括每一個字節(jié)元素的字節(jié)值、每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識及每一個字節(jié)元素在數(shù)據(jù)包中的相對位置偏移;
[0087]確定高頻字節(jié)串的位置特征信息,包括:
[0088]獲取第一高頻字節(jié)元素的參數(shù)項,將第一高頻字節(jié)元素的參數(shù)項作為第一位置特征信息;
[0089]獲取第二高頻字節(jié)元素的參數(shù)項,將第二高頻字節(jié)元素的參數(shù)項作為第二位置特征信息。
[0090]可選地,根據(jù)位置特征信息,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集,包括:
[0091]對于第一位置特征信息,確定第一位置特征信息中具有相同參數(shù)項的完全相等項集合,每一個完全相等項中至少包括兩個參數(shù)項;
[0092]確定完全相等項集合中,每一個完全相等項的支持度;
[0093]如果完全相等項集合中存在支持度小于預(yù)設(shè)閾值的完全相等項,則將完全相等項在完全相等項集合中刪除,得到新的完全相等項集合;
[0094]至少根據(jù)新的完全相等項集合,生成特征模式集。
[0095]可選地,根據(jù)位置特征信息,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集,包括:
[0096]對于第二位置特征信息,確定第二位置特征信息中具有相同字符類型標(biāo)識和相同相對位置偏移的同類相等項集合,每一個同類相等項中至少包括兩個參數(shù)項;
[0097]確定同類相等項集合中,每一個同類相等項的支持度;
[0098]如果同類相等項集合中存在支持度小于預(yù)設(shè)閾值的同類相等項,則將同類相等項在同類相等項集合中刪除,得到新的同類相等項集合;
[0099]至少根據(jù)新的同類相等項集合,生成特征模式集。
[0100]可選地,根據(jù)位置特征信息,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集,包括:
[0101]根據(jù)新的完全相等項集合和新的同類相等項集合,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。
[0102]上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本發(fā)明的可選實施例,在此不再
--贅述。
[0103]圖2是本發(fā)明實施例提供的一種特征模式集的生成方法流程圖。參見圖2,本發(fā)明實施例提供的方法流程包括:
[0104]201、從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包,多個數(shù)據(jù)包的類型相同且等長度。
[0105]在本發(fā)明實施例中,對于某一協(xié)議來說,其協(xié)議特征一般都蘊含在其信令數(shù)據(jù)中,也即協(xié)議消息中。所以在分析某一協(xié)議的協(xié)議特征時,需獲取信令網(wǎng)絡(luò)中以該協(xié)議類型進行數(shù)據(jù)傳輸?shù)亩鄠€數(shù)據(jù)包。以該多個數(shù)據(jù)包作為候選統(tǒng)計數(shù)據(jù)包集合,通過對該多個數(shù)據(jù)包進行特征分析,得到該協(xié)議的協(xié)議特征。
[0106]在信令監(jiān)測采集數(shù)據(jù)環(huán)境下,保存信令數(shù)據(jù)的數(shù)據(jù)庫中常常會存儲多種協(xié)議類型的信令數(shù)據(jù)。所以在對某一個協(xié)議的協(xié)議特征進行分析時,還需在存儲的涵蓋多種協(xié)議類型的數(shù)據(jù)中,獲取待分析的多個數(shù)據(jù)包。在本發(fā)明實施例中,在獲取待分析的多個數(shù)據(jù)包時,具體可采取下述方式實現(xiàn):
[0107]在數(shù)據(jù)庫中選取長度相同的多個數(shù)據(jù)包,利用協(xié)議解碼工具對多個數(shù)據(jù)包進行解析。由于協(xié)議標(biāo)準規(guī)定數(shù)據(jù)包的頭部存放數(shù)據(jù)包的協(xié)議類型,所以提取解析后的數(shù)據(jù)包的頭部數(shù)據(jù)。根據(jù)該頭部數(shù)據(jù)確定該數(shù)據(jù)包的協(xié)議類型。如果該數(shù)據(jù)包的協(xié)議類型為待分析協(xié)議的協(xié)議類型,則將該數(shù)據(jù)包作為待分析的數(shù)據(jù)包。
[0108]以數(shù)據(jù)包012000R)為例,則根據(jù)協(xié)議標(biāo)準固定的封裝形式,從數(shù)據(jù)包的頭部至尾部依次代表:01指代協(xié)議類型;20指代數(shù)據(jù)包的源端口號/目的端口號;00指代數(shù)據(jù)內(nèi)容;H)指代結(jié)束標(biāo)識。所以在對數(shù)據(jù)包進行解析時,根據(jù)其頭部數(shù)據(jù)便可其對應(yīng)的協(xié)議類型。此夕卜,對于每一個協(xié)議來說,為了對協(xié)議類型進行簡便區(qū)分,通常為每個協(xié)議分配一個字符形式的協(xié)議類型標(biāo)識。比如,以O(shè)l代表FTP類型標(biāo)識,以02代表HTTP (Hypertext TransferProtocol,超文本傳輸協(xié)議)類型標(biāo)識,以 03 代表 TCP (Transmiss1n Control Protocol,傳輸控制協(xié)議)類型標(biāo)識等等。
[0109]202、對多個數(shù)據(jù)包進行特征分析,得到多個數(shù)據(jù)包的高頻字節(jié)串。
[0110]在本發(fā)明實施例中提出了高頻位置特征的概念。其中,高頻位置特征是指通過對大量的協(xié)議數(shù)據(jù)包進行分析,統(tǒng)計各個數(shù)據(jù)包上的特定位置上是否具有相似性;如果各個數(shù)據(jù)包的同一位置上的字節(jié)串相同或具有相似性,則其出現(xiàn)頻率較高,可稱其為協(xié)議數(shù)據(jù)包的高頻位置特征。本發(fā)明基于高頻位置特征的思想生成協(xié)議的特征模式集,通過協(xié)議的高頻位置特征可對信令網(wǎng)中的數(shù)據(jù)進行準確識別和分類。且對協(xié)議的版本號不敏感,即便版本號所在位置的字符發(fā)生改變,也可通過協(xié)議的高頻位置特征對數(shù)據(jù)進行有效識別。
[0111]在本發(fā)明實施例中,在對多個數(shù)據(jù)包進行特征分析得到多個數(shù)據(jù)包的高頻字節(jié)串時,具體可采取下述方式實現(xiàn):
[0112]202a、對于多個數(shù)據(jù)包中的一個數(shù)據(jù)包,對數(shù)據(jù)包中的每一個字節(jié)元素進行字符轉(zhuǎn)換,得到每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識。
[0113]其中,字節(jié)元素指代單個字節(jié)。對數(shù)據(jù)包中每一個字節(jié)元素進行字符轉(zhuǎn)換,也即對數(shù)據(jù)包中每一個字節(jié)進行ACSII碼轉(zhuǎn)換,可得到每一個字節(jié)對應(yīng)的字符。字節(jié)值不同,對應(yīng)的字符也不同。所以對于一個數(shù)據(jù)包來說,根據(jù)字節(jié)值的不同,可得到若干相互獨立的字符子集。由于字符是各種文字和符號的總稱,包括各國家文字、標(biāo)點符號、圖形符號、數(shù)字等。字符類型標(biāo)識可分為ASCII字符類型標(biāo)識、GB2312字符類型標(biāo)識、BIG5字符類型標(biāo)識、GB18030字符類型標(biāo)識、Unicode字符類型標(biāo)識等等。
[0114]202b、確定每一個字節(jié)元素的字節(jié)值及每一個字節(jié)元素在數(shù)據(jù)包中的相對位置偏移。
[0115]其中,對于一個字節(jié)元素來說,由于其由8位二進制數(shù)組成。所以字節(jié)元素的字節(jié)值也即指代8位二進制數(shù)的數(shù)值。字節(jié)元素在數(shù)據(jù)包中的相對位置偏移指代字節(jié)元素在數(shù)據(jù)包中的所在位置。對于一個數(shù)據(jù)包來說,在利用協(xié)議解碼工具對數(shù)據(jù)包進行解析后,從數(shù)據(jù)包的頭部遍歷至尾部,便可確定該數(shù)據(jù)包中每一個字節(jié)元素的字節(jié)值和每一個字節(jié)元素在該數(shù)據(jù)包中的相對位置偏移。
[0116]202c、判斷多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值是否一致;如果多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值一致,則字節(jié)元素為第一高頻字節(jié)元素。
[0117]在本發(fā)明實施例中,多個數(shù)據(jù)包的同一相對位置偏移指代多個數(shù)據(jù)包中的同一位置。比如,以數(shù)據(jù)包的包頭所在位置為地址O為例,則多個數(shù)據(jù)包中同一相對位置偏移可為相對于包頭所在位置地址O而言,地址偏移同為1、同為2的位置。
[0118]對于多個數(shù)據(jù)包來說,如果同一相對位置偏移上的字節(jié)元素的字節(jié)值趨于同一數(shù)據(jù)(比如,同為00001101),則說明該相對位置偏移上的字節(jié)值一致。也即多個數(shù)據(jù)包的同一位置上的字節(jié)元素相同,說明該字節(jié)元素為待分析的多個數(shù)據(jù)包的高頻字節(jié)元素。
[0119]需要說明的是,在確定高頻字節(jié)元素時,除可根據(jù)字節(jié)元素的字節(jié)值進行確定外,還可根據(jù)字節(jié)元素對應(yīng)的字符類型標(biāo)識進行確定。詳見下述步驟202d。
[0120]202d、判斷多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識是否為同一類型;如果多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識為同一類型,則字節(jié)元素為第二高頻字節(jié)元素。
[0121]對于多個數(shù)據(jù)包來說,如果同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識為同一類型,(比如,同為ACSII類型標(biāo)識),則說明該相對位置偏移上的字符類型趨于同一類型。也即多個數(shù)據(jù)包的同一位置上的字節(jié)元素對應(yīng)的字符類型標(biāo)識相同,說明該字節(jié)元素為待分析的多個數(shù)據(jù)包的高頻字節(jié)元素。
[0122]需要說明的是,上述步驟202d既可在步驟202c之前執(zhí)行,也可在步驟202c之后執(zhí)行,本發(fā)明實施例對此不作具體限定。
[0123]203、生成高頻字節(jié)串中每一個字節(jié)元素的參數(shù)項,參數(shù)項中包括每一個字節(jié)元素的字節(jié)值、每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識及每一個字節(jié)元素在數(shù)據(jù)包中的相對位置偏移。
[0124]在本發(fā)明實施例中,在確定高頻字節(jié)串后,為了后續(xù)根據(jù)高頻字節(jié)串的位置特征信息生成協(xié)議的特征模式集。對于高頻字節(jié)串中的每一個高頻字節(jié)元素的參數(shù)項。其中,該參數(shù)項為一個三元組,記錄了固定位置上字節(jié)元素的參數(shù)信息。該參數(shù)項中包括字節(jié)元素的字節(jié)值、字節(jié)元素對應(yīng)的字符類型標(biāo)識及字節(jié)元素在數(shù)據(jù)包中的相對位置偏移。當(dāng)然,參數(shù)項中參數(shù)信息除字節(jié)值、字符類型標(biāo)識和相對位置偏移外,還可存在其他類型的參數(shù)信息,本發(fā)明實施例對此不作具體限定。
[0125]204、確定高頻字節(jié)串的位置特征信息。
[0126]其中,在確定高頻字節(jié)串的位置特征信息時,具體可采取下述方式實現(xiàn):
[0127]獲取第一高頻字節(jié)元素的參數(shù)項,將第一高頻字節(jié)元素的參數(shù)項作為第一位置特征信息;獲取第二高頻字節(jié)元素的參數(shù)項,將第二高頻字節(jié)元素的參數(shù)項作為第二位置特征信息。
[0128]在本發(fā)明實施例中,在得到第一位置特征信息后,該第一位置特征信息構(gòu)成完全相等項訓(xùn)練集。也即,在該完全相等項訓(xùn)練集中存在完全相等項。在得到第二位置特征信息后,該第一位置特征信息構(gòu)成同類相等項訓(xùn)練集。也即,在該同類相等項訓(xùn)練集中存在同類相等項。其中,完全相等項訓(xùn)練集中參數(shù)項對應(yīng)的字符作為協(xié)議的主要特征字符,同類相等項訓(xùn)練集中參數(shù)項對應(yīng)的字符作為協(xié)議的輔助特征字符。
[0129]205、根據(jù)位置特征信息,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。
[0130]在本發(fā)明實施例中,在生成與多個數(shù)據(jù)包的類型相匹配的特征模式集時,采取基于完全相等項訓(xùn)練集合同類相等項訓(xùn)練集一同生成的方式。在生成特征模式集時,首先可根據(jù)完全相等項訓(xùn)練集生成完全相等項集合。具體的生成過程如下:
[0131]對于第一位置特征信息,確定第一位置特征信息中具有相同參數(shù)項的完全相等項集合,每一個完全相等項中至少包括兩個參數(shù)項;確定完全相等項集合中,每一個完全相等項的支持度;如果完全相等項集合中存在支持度小于預(yù)設(shè)閾值的完全相等項,則將完全相等項在完全相等項集合中刪除,得到新的完全相等項集合,也即完全位置特征庫。
[0132]其中,完全相等項指代字節(jié)值、字符類型標(biāo)識和相對位置偏移均一致的參數(shù)項。預(yù)設(shè)閾值的大小可為0.3或0.4等等,本發(fā)明實施例對預(yù)設(shè)閾值的大小不進行具體限定。當(dāng)然,除上述生成完全相等項集合的方式外,還可采取其他生成方式,本發(fā)明實施例對此不作具體限定。
[0133]需要說明的是,本步驟之所以將支持度小于預(yù)設(shè)閾值的完全相等項進行刪除,是為了保證后續(xù)生成的特征模式集能夠更加精確,以便能夠更好地對信令網(wǎng)中的數(shù)據(jù)進行協(xié)議識別和分類。
[0134]此外,在得到完全相等項集合后,可根據(jù)同類相等項訓(xùn)練集生成同類相等項訓(xùn)練集。具體生成過程如下:
[0135]對于第二位置特征信息,確定第二位置特征信息中具有相同字符類型標(biāo)識和相同相對位置偏移的同類相等項集合,每一個同類相等項中至少包括兩個參數(shù)項;確定同類相等項集合中,每一個同類相等項的支持度;如果同類相等項集合中存在支持度小于預(yù)設(shè)閾值的同類相等項,則將同類相等項在同類相等項集合中刪除,得到新的同類相等項集合,也即輔助位置特征庫。
[0136]其中,同類相等項指代字節(jié)值不同,但是字符類型標(biāo)識和相對位置偏移相同的參數(shù)項。預(yù)設(shè)閾值的大小可為0.3或0.4等等,本發(fā)明實施例對預(yù)設(shè)閾值的大小不進行具體限定。當(dāng)然,除上述生成同類相等項集合的方式外,還可采取其他生成方式,本發(fā)明實施例對此不作具體限定。
[0137]需要說明的是,本步驟之所以將支持度小于預(yù)設(shè)閾值的同類相等項進行刪除,是為了保證后續(xù)生成的特征模式集能夠更加精確,以便能夠更好地對信令網(wǎng)中的數(shù)據(jù)進行協(xié)議識別和分類。此外,在生成完全相等項集合和同類相等項集合后,還可按照字節(jié)元素在數(shù)據(jù)包中相對位置偏移遞增的順序,對完全相等項集合中的完全相等項建立關(guān)聯(lián),生成關(guān)系連接表。對同類相等項集合中的同類相等項建立關(guān)聯(lián),生成關(guān)系連接表。
[0138]在本發(fā)明實施例中,在得到完全相等項集合和同類相等項集合后,便可根據(jù)完全相等項集合和同類相等項集合,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。具體生成過程如下:
[0139]將新的完全相等項集合和新的同類相等項集合通過正則表達式進行合并表示。即,首先將得到的完全位置特征庫和輔助位置特征庫中的字符分別轉(zhuǎn)換成正則表達式;之后,根據(jù)字符出現(xiàn)的先后順序,依次編寫正則表達式匹配驗證語句;最后,判斷完成特征庫所有條件后,形成完整的正則表達式語句,也即生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。
[0140]當(dāng)然,除上述生成特征模式集的方式外,還可采取其他生成方式,本發(fā)明實施例對此不作具體限定。在信令監(jiān)測過程中,從通信網(wǎng)絡(luò)接口采集到的數(shù)據(jù)包信息不完整或者有誤時,采用本發(fā)明實施例的提供的方法,可增強對該類型數(shù)據(jù)包的解碼能力,提高協(xié)議識別率,降低丟包概率。此外,在信令監(jiān)測過程中,若從通信網(wǎng)絡(luò)接口采集到原系統(tǒng)無法識別的數(shù)據(jù)包,則也可通過本發(fā)明實施例的方法,快速、準確地建立針對該新型協(xié)議類型數(shù)據(jù)的特征庫,從而實現(xiàn)對該類數(shù)據(jù)包的協(xié)議識別,達到對信令監(jiān)測系統(tǒng)協(xié)議分析能力的完善和擴展。
[0141]本發(fā)明實施例提供的方法,在從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包后,對多個數(shù)據(jù)包進行特征分析,得到多個數(shù)據(jù)包的高頻字節(jié)串;之后,確定高頻字節(jié)串的位置特征信息;根據(jù)位置特征信息,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。由于基于高頻字節(jié)串的位置特征信息生成特征模式集,所以根據(jù)該特征模式集可有效對信令數(shù)據(jù)進行協(xié)議識別和分類。且在進行協(xié)議識別時對協(xié)議的版本號不敏感,即便采集到的數(shù)據(jù)的包頭信息不完整或有誤,也可對數(shù)據(jù)的協(xié)議類型進行識別,所以大大地增強了對數(shù)據(jù)包的解碼能力,提聞了協(xié)議識別率。
[0142]圖3是本發(fā)明實施例提供的一種特征模式集生成裝置的結(jié)構(gòu)示意圖。參見圖3,該裝置包括:數(shù)據(jù)包獲取模塊301、特征分析模塊302、特征信息確定模塊303、特征模式集生成模塊304。
[0143]其中,數(shù)據(jù)包獲取模塊301,用于從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包,多個數(shù)據(jù)包的類型相同且等長度;特征分析模塊302與數(shù)據(jù)包獲取模塊301連接,用于對多個數(shù)據(jù)包進行特征分析,得到多個數(shù)據(jù)包的高頻字節(jié)串;特征信息確定模塊303與特征分析模塊302連接,用于確定高頻字節(jié)串的位置特征信息;特征模式集生成模塊304與特征信息確定模塊303連接,用于根據(jù)位置特征信息,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。
[0144]可選地,特征分析模塊,包括:
[0145]字符轉(zhuǎn)換單元,用于對于多個數(shù)據(jù)包中的一個數(shù)據(jù)包,對數(shù)據(jù)包中的每一個字節(jié)元素進行字符轉(zhuǎn)換,得到每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識;
[0146]位置偏移確定單元,用于確定每一個字節(jié)元素的字節(jié)值及每一個字節(jié)元素在數(shù)據(jù)包中的相對位置偏移;
[0147]字節(jié)元素判斷單元,用于判斷多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值是否一致;
[0148]高頻字節(jié)元素確定單元,用于當(dāng)多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值一致時,確定字節(jié)元素為第一高頻字節(jié)元素。
[0149]可選地,字節(jié)元素判斷單元,還用于判斷多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識是否為同一類型;
[0150]高頻字節(jié)元素確定單元,還用于當(dāng)多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識為同一類型時,確定字節(jié)元素為第二高頻字節(jié)元素。
[0151]可選地,該裝置還包括:
[0152]參數(shù)項生成模塊,用于生成每一個字節(jié)元素的參數(shù)項,參數(shù)項中包括每一個字節(jié)元素的字節(jié)值、每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識及每一個字節(jié)元素在數(shù)據(jù)包中的相對位置偏移;
[0153]特征信息確定模塊,用于獲取第一高頻字節(jié)元素的參數(shù)項,將第一高頻字節(jié)元素的參數(shù)項作為第一位置特征信息;獲取第二高頻字節(jié)元素的參數(shù)項,將第二高頻字節(jié)元素的參數(shù)項作為第二位置特征信息。
[0154]可選地,特征模式集生成模塊,用于對于第一位置特征信息,確定第一位置特征信息中具有相同參數(shù)項的完全相等項集合,每一個完全相等項中至少包括兩個參數(shù)項;確定完全相等項集合中,每一個完全相等項的支持度;如果完全相等項集合中存在支持度小于預(yù)設(shè)閾值的完全相等項,則將完全相等項在完全相等項集合中刪除,得到新的完全相等項集合;至少根據(jù)新的完全相等項集合,生成特征模式集。
[0155]可選地,特征模式集生成模塊,用于對于第二位置特征信息,確定第二位置特征信息中具有相同字符類型標(biāo)識和相同相對位置偏移的同類相等項集合,每一個同類相等項中至少包括兩個參數(shù)項;確定同類相等項集合中,每一個同類相等項的支持度;如果同類相等項集合中存在支持度小于預(yù)設(shè)閾值的同類相等項,則將同類相等項在同類相等項集合中刪除,得到新的同類相等項集合;至少根據(jù)新的同類相等項集合,生成特征模式集。
[0156]可選地,特征模式集生成模塊,用于根據(jù)新的完全相等項集合和新的同類相等項集合,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。
[0157]本發(fā)明實施例提供的裝置,在從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包后,對多個數(shù)據(jù)包進行特征分析,得到多個數(shù)據(jù)包的高頻字節(jié)串;之后,確定高頻字節(jié)串的位置特征信息;根據(jù)位置特征信息,生成與多個數(shù)據(jù)包的類型相匹配的特征模式集。由于基于高頻字節(jié)串的位置特征信息生成特征模式集,所以根據(jù)該特征模式集可有效對信令數(shù)據(jù)進行協(xié)議識別和分類。且在進行協(xié)議識別時對協(xié)議的版本號不敏感,即便采集到的數(shù)據(jù)的包頭信息不完整或有誤,也可對數(shù)據(jù)的協(xié)議類型進行識別,所以大大地增強了對數(shù)據(jù)包的解碼能力,提聞了協(xié)議識別率。
[0158]需要說明的是:上述實施例提供的特征模式集生成裝置在生成特征模式集時,僅以上述各功能模塊的劃分進行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例提供的特征模式集生成裝置與特征模式集生成方法實施例屬于同一構(gòu)思,其具體實現(xiàn)過程詳見方法實施例,這里不再贅述。
[0159]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0160]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種特征模式集生成方法,其特征在于,所述方法包括: 從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包,所述多個數(shù)據(jù)包的類型相同且等長度; 對所述多個數(shù)據(jù)包進行特征分析,得到所述多個數(shù)據(jù)包的高頻字節(jié)串; 確定所述高頻字節(jié)串的位置特征信息; 根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述多個數(shù)據(jù)包進行特征分析,得到所述多個數(shù)據(jù)包的高頻字節(jié)串,包括: 對于所述多個數(shù)據(jù)包中的一個數(shù)據(jù)包,對所述數(shù)據(jù)包中的每一個字節(jié)元素進行字符轉(zhuǎn)換,得到所述每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識; 確定所述每一個字節(jié)元素的字節(jié)值及所述每一個字節(jié)元素在所述數(shù)據(jù)包中的相對位置偏移; 判斷所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值是否一致; 如果所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值一致,則所述字節(jié)元素為第一高頻字節(jié)元素。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定所述每一個字節(jié)元素的字節(jié)值及所述每一個字節(jié)元 素在所述數(shù)據(jù)包中的相對位置偏移之后,所述方法還包括: 判斷所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識是否為同一類型; 如果所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識為同一類型,則所述字節(jié)元素為第二高頻字節(jié)元素。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定所述高頻字節(jié)串的位置特征信息之前,所述方法還包括: 生成所述每一個字節(jié)元素的參數(shù)項,所述參數(shù)項中包括所述每一個字節(jié)元素的字節(jié)值、所述每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識及所述每一個字節(jié)元素在所述數(shù)據(jù)包中的相對位置偏移; 所述確定所述高頻字節(jié)串的位置特征信息,包括: 獲取所述第一高頻字節(jié)元素的參數(shù)項,將所述第一高頻字節(jié)元素的參數(shù)項作為第一位置特征信息; 獲取所述第二高頻字節(jié)元素的參數(shù)項,將所述第二高頻字節(jié)元素的參數(shù)項作為第二位置特征信息。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集,包括: 對于所述第一位置特征信息,確定所述第一位置特征信息中具有相同參數(shù)項的完全相等項集合,每一個完全相等項中至少包括兩個參數(shù)項; 確定所述完全相等項集合中,每一個完全相等項的支持度; 如果所述完全相等項集合中存在支持度小于預(yù)設(shè)閾值的完全相等項,則將所述完全相等項在所述完全相等項集合中刪除,得到新的完全相等項集合; 至少根據(jù)所述新的完全相等項集合,生成所述特征模式集。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集,包括: 對于所述第二位置特征信息,確定所述第二位置特征信息中具有相同字符類型標(biāo)識和相同相對位置偏移的同類相等項集合,每一個同類相等項中至少包括兩個參數(shù)項; 確定所述同類相等項集合中,每一個同類相等項的支持度; 如果所述同類相等項集合中存在支持度小于預(yù)設(shè)閾值的同類相等項,則將所述同類相等項在所述同類相等項集合中刪除,得到新的同類相等項集合; 至少根據(jù)所述新的同類相等項集合,生成所述特征模式集。
7.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,所述根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集,包括: 根據(jù)所述新的完全相等項集合和所述新的同類相等項集合,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集。
8.一種特征模式集生成裝置,其特征在于,所述裝置包括: 數(shù)據(jù)包獲取模塊,用于從信令數(shù)據(jù)流中獲取待分析的多個數(shù)據(jù)包,所述多個數(shù)據(jù)包的類型相同且等長度; 特征分析模塊,用于對所述多個數(shù)據(jù)包進行特征分析,得到所述多個數(shù)據(jù)包的高頻字節(jié)串; 特征信息確定模塊,用于確定所述高頻字節(jié)串的位置特征信息; 特征模式集生成模塊,用于根據(jù)所述位置特征信息,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模式集。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述特征分析模塊,包括: 字符轉(zhuǎn)換單元,用于對于所述多個數(shù)據(jù)包中的一個數(shù)據(jù)包,對所述數(shù)據(jù)包中的每一個字節(jié)元素進行字符轉(zhuǎn)換,得到所述每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識; 位置偏移確定單元,用于確定所述每一個字節(jié)元素的字節(jié)值及所述每一個字節(jié)元素在所述數(shù)據(jù)包中的相對位置偏移; 字節(jié)元素判斷單元,用于判斷所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值是否一致; 高頻字節(jié)元素確定單元,用于當(dāng)所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素的字節(jié)值一致時,確定所述字節(jié)元素為第一高頻字節(jié)元素。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述字節(jié)元素判斷單元,還用于判斷所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識是否為同一類型; 所述高頻字節(jié)元素確定單元,還用于當(dāng)所述多個數(shù)據(jù)包中同一相對位置偏移上的字節(jié)元素對應(yīng)的字符類型標(biāo)識為同一類型時,確定所述字節(jié)元素為第二高頻字節(jié)元素。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括: 參數(shù)項生成模塊,用于生成所述每一個字節(jié)元素的參數(shù)項,所述參數(shù)項中包括所述每一個字節(jié)元素的字節(jié)值、所述每一個字節(jié)元素對應(yīng)的字符類型標(biāo)識及所述每一個字節(jié)元素在所述數(shù)據(jù)包中的相對位置偏移; 所述特征信息確定模塊,用于獲取所述第一高頻字節(jié)元素的參數(shù)項,將所述第一高頻字節(jié)元素的參數(shù)項作為第一位置特征信息;獲取所述第二高頻字節(jié)元素的參數(shù)項,將所述第二高頻字節(jié)元素的參數(shù)項作為第二位置特征信息。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述特征模式集生成模塊,用于對于所述第一位置特征信息,確定所述第一位置特征信息中具有相同參數(shù)項的完全相等項集合,每一個完全相等項中至少包括兩個參數(shù)項;確定所述完全相等項集合中,每一個完全相等項的支持度;如果所述完全相等項集合中存在支持度小于預(yù)設(shè)閾值的完全相等項,則將所述完全相等項在所述完全相等項集合中刪除,得到新的完全相等項集合;至少根據(jù)所述新的完全相等項集合,生成所述特征模式集。
13.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述特征模式集生成模塊,用于對于所述第二位置特征信息,確定所述第二位置特征信息中具有相同字符類型標(biāo)識和相同相對位置偏移的同類相等項集合,每一個同類相等項中至少包括兩個參數(shù)項;確定所述同類相等項集合中,每一個同類相等項的支持度;如果所述同類相等項集合中存在支持度小于預(yù)設(shè)閾值的同類相等項,則將所述同類相等項在所述同類相等項集合中刪除,得到新的同類相等項集合;至少根據(jù)所述新的同類相等項集合,生成所述特征模式集。
14.根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,所述特征模式集生成模塊,用于根據(jù)所述新的完全相等項集合和所述新的同類相等項集合,生成與所述多個數(shù)據(jù)包的類型相匹配的特征模 式集。
【文檔編號】H04L29/06GK104079450SQ201410284711
【公開日】2014年10月1日 申請日期:2014年6月23日 優(yōu)先權(quán)日:2014年6月23日
【發(fā)明者】鄧中亮, 林文亮, 肖瀟, 王瑾, 李輝 申請人:北京郵電大學(xué)