1.基于郵件指紋對(duì)相同郵件進(jìn)行判定的方法,其特征在于,包括以下步驟:
S1、提取垃圾郵件樣本中的郵件指紋,并對(duì)所述郵件指紋構(gòu)造出i個(gè)基礎(chǔ)指紋分詞;
S2、對(duì)基礎(chǔ)指紋分詞執(zhí)行至少一次組合,以構(gòu)造出j個(gè)變形指紋分詞;其中,i、j均取正整數(shù);
S3、對(duì)步驟S2中的變形指紋分詞作為垃圾郵件樣本的集合X,集合X的元素?cái)?shù)量為N;
S4、將待判定郵件按照上述步驟S1-S3執(zhí)行,以得到待判定郵件的集合Y,集合Y的元素?cái)?shù)量為M;
S5、將所述垃圾郵件樣本的集合X與待判定郵件樣本的集合Y中出現(xiàn)的相同元素進(jìn)行匹配并計(jì)數(shù),以得到重復(fù)度C;
S6、計(jì)算集合X與集合Y中所具有的相同元素的相似比例V,若相似比例V大于或者等于閾值K,則判定為相同郵件;若相似比例V小于設(shè)置閾值,則表示不同郵件;
其中,相似比例V的計(jì)算公式為:V=2*C/(N+M)*100%。
2.根據(jù)權(quán)利要求1所述的基于郵件指紋對(duì)相同郵件進(jìn)行判定的方法,其特征在于,所述郵件指紋包括純文本信息、即時(shí)通訊賬戶、包含@的字符串、包含http://的字符串、包含https://的字符串、包含url的字符串、包含制表符的字符串、包含中文繁體的字符串、包含IP地址的字符串。
3.根據(jù)權(quán)利要求1或2所述的基于郵件指紋對(duì)相同郵件進(jìn)行判定的方法,其特征在于,所述步驟S2中還包括:對(duì)提取垃圾郵件樣本中的郵件指紋定義基礎(chǔ)指紋分詞的參數(shù)A=[y,z],其中y≥1,z≥y;以通過所述參數(shù)A對(duì)所述郵件指紋構(gòu)造出j個(gè)變形指紋分詞。
4.根據(jù)權(quán)利要求1或2所述的基于郵件指紋對(duì)相同郵件進(jìn)行判定的方法,其特征在于,所述步驟S2中變形指紋分詞的字節(jié)數(shù)≥基礎(chǔ)指紋分詞的字節(jié)數(shù)。
5.根據(jù)權(quán)利要求1或2所述的基于郵件指紋對(duì)相同郵件進(jìn)行判定的方法,其特征在于,所述步驟S1中在構(gòu)造基礎(chǔ)指紋分詞以及步驟S2中在構(gòu)造變形指紋分詞之前還包括對(duì)郵件指紋的預(yù)處理步驟,
所述預(yù)處理步驟包括:去除空格標(biāo)記的操作、去除回車標(biāo)記的操作以及去除換行標(biāo)記的操作;其中,
所述去除空格標(biāo)記的操作具體為:對(duì)內(nèi)容重組后的文本信息逐字符檢查,并對(duì)內(nèi)容重組后的文本信息中的ASCⅡ碼值為32的字符執(zhí)行刪除操作;
所述去除回車標(biāo)記的操作具體為:對(duì)內(nèi)容重組后的文本信息逐字符檢查,并對(duì)內(nèi)容重組后的文本信息中ASCⅡ碼值為10的字符執(zhí)行刪除操作;
所述去除換行標(biāo)記的操作具體為:對(duì)內(nèi)容重組后的文本信息逐字符檢查,并對(duì)內(nèi)容重組后的文本信息中ASCⅡ碼值為13的字符執(zhí)行刪除操作。
6.根據(jù)權(quán)利要求1所述的基于郵件指紋對(duì)相同郵件進(jìn)行判定的方法,其特征在于,所述步驟S6中的閾值K取80%~100%。
7.根據(jù)權(quán)利要求6所述的基于郵件指紋對(duì)相同郵件進(jìn)行判定的方法,其特征在于,所述步驟S6中的閾值K取90%。