一種垃圾郵件檢測方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種垃圾郵件檢測方法及裝置,該方法包括:針對一個待檢測郵件,確定該郵件對應(yīng)的表征郵件屬性信息的第一特征向量值與每個郵件樣本對應(yīng)的第二特征向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本;根據(jù)確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本;確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應(yīng)的相似度值大于所述相似度均值的相似郵件樣本的數(shù)量;分別確定該郵件歸屬于垃圾郵件類別和歸屬于正常郵件類別的權(quán)重值;根據(jù)所述權(quán)重值,確定該待檢測郵件的類型。采用本發(fā)明這里提出的技術(shù)方案,能夠較好地提高垃圾郵件歸類的準確性。
【專利說明】一種垃圾郵件檢測方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及業(yè)務(wù)支撐【技術(shù)領(lǐng)域】,尤其是涉及一種垃圾郵件檢測方法及裝置。
【背景技術(shù)】
[0002]自從1994年出現(xiàn)了第一封以Spam為代表的垃圾郵件開始,垃圾郵件檢測方法也應(yīng)運而生。垃圾郵件檢測方法經(jīng)歷了不同的發(fā)展階段:
[0003]第一階段:基于黑白名單的垃圾郵件檢測方法,該方法通過判斷當前郵件是否是黑白名單中的郵件來檢測垃圾郵件。例如在黑名單中的任何郵件都是垃圾郵件,可以直接刪除或者歸類至垃圾郵件類別中,反之,在白名單中的任何郵件都是正常郵件,允許通過。該方法的優(yōu)點是簡單明確,能最大程度的節(jié)省垃圾郵件檢測過程中占用的系統(tǒng)資源。其缺點是當接收到的郵件不在黑白名單中,該方法就失去了判斷力,容易造成誤判,因此基于黑白名單的垃圾郵件檢測方法準確性較低。
[0004]第二階段:基于人工規(guī)則的垃圾郵件檢測方法,該方法根據(jù)一定的規(guī)則對垃圾郵件檢測系統(tǒng)進行預(yù)先設(shè)置,根據(jù)設(shè)置的規(guī)則對接收到的郵件進行檢測。其中,檢測規(guī)則主要根據(jù)關(guān)鍵詞匹配、信頭分析、群發(fā)策略和郵件內(nèi)容的其它特征等幾個方面來進行設(shè)置,該方法的缺點是受人為因素影響比較大。
[0005]第三階段:基于內(nèi)容的垃圾郵件檢測方法,該方法是將機器學(xué)習(xí)中的一些算法應(yīng)用到對垃圾郵件的檢測中,一般分為基于規(guī)則和基于統(tǒng)計的兩種檢測算法?;趦?nèi)容的垃圾郵件檢測方法主要是通過分析垃圾郵件的主題和正文,獲得垃圾郵件具備的相關(guān)特征,將這些特征作為訓(xùn)練樣本,對垃圾郵件進行檢測。該方法優(yōu)點是在識別垃圾郵件方面有較高的準確率和召回率,但是該方法的準確性依賴于大量的訓(xùn)練樣本。
[0006]在現(xiàn)有技術(shù)中,一般米用基于K最近鄰(KNN, K-Nearest Neighbor)分類算法實現(xiàn)對垃圾郵件的檢測。KNN算法基本理論是:對于給定文本,如果該文本在特征空間中的K個最近或最相似的文本中的大多數(shù)屬于一個類別,則可以判定該文本也屬于這個類別。例如圖1所示,圖1中所示的三角形是等待歸類處理的形狀,正方形和圓形是兩個已知的類另U,若K=3,由于圓形所占比例為2/3,則等待歸類處理的三角形將被歸類到圓形類別中,若Κ=5,由于正方形所占比例為3/5,因此三角形被歸類到正方形類別中。基于上述原理,現(xiàn)有技術(shù)中基于KNN算法實現(xiàn)垃圾郵件檢測方法流程具體如下述:
[0007]步驟一:選取訓(xùn)練樣本集合,其中,訓(xùn)練樣本集合中包括垃圾郵件樣本和正常郵件樣本。在訓(xùn)練樣本集合中,分別確定表征垃圾郵件樣本和正常郵件樣本的屬性信息的特征
向量值。
[0008]步驟二:對于等待歸類確認的每一個郵件,獲得表征該郵件屬性信息的特征向量值。
[0009]步驟三:根據(jù)夾角余弦法,分別計算該郵件對應(yīng)的特征向量值與訓(xùn)練樣本集合中所有樣本對應(yīng)的特征向量值之間的相似度,將確定出的所有相似度按照大小排序,選取出與該等待歸類的郵件比較相似、比較接近的K個樣本。[0010]步驟四:對選取出的K個樣本,分別計算該待確定的郵件歸屬垃圾郵件和歸屬正常郵件的權(quán)重值,根據(jù)確定出的權(quán)重值,判斷該郵件是否是垃圾郵件,如果是將該郵件濾除,反之不做處理。
[0011]現(xiàn)有技術(shù)中提出的基于KNN算法實現(xiàn)垃圾郵件檢測的方法,對等待歸類確認的郵件進行歸類確認時,僅通過比較與垃圾郵件和正常郵件兩類的相似度之和來確定權(quán)重值,未考慮到其它因素等也會影響最終的歸類結(jié)果,因此準確性較低。
【發(fā)明內(nèi)容】
[0012]本發(fā)明實施例提供一種垃圾郵件檢測方法及裝置,能夠較好地提高垃圾郵件檢測的準確性。
[0013]一種垃圾郵件檢測方法,包括:針對一個待檢測郵件,確定該郵件對應(yīng)的表征郵件屬性信息的第一特征向量值與郵件樣本集合中的每個郵件樣本對應(yīng)的表征郵件屬性信息的第二特征向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本;根據(jù)確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本;確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應(yīng)的相似度值大于所述相似度均值的相似郵件樣本的數(shù)量;根據(jù)所述相似度均值和數(shù)量,分別確定該待檢測郵件歸屬于垃圾郵件類別和歸屬于正常郵件類別的權(quán)重值;根據(jù)垃圾郵件類別的權(quán)重值和正常郵件類別的權(quán)重值,確定該待檢測郵件的類型。
[0014]一種垃圾郵件檢測裝置,包括:相似度值確定單元,用于針對一個待檢測郵件,確定該郵件對應(yīng)的表征郵件屬性信息的第一特征向量值與郵件樣本集合中的每個郵件樣本對應(yīng)的表征郵件屬性信息的第二特征向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本;獲得單元,用于根據(jù)確定單元確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本;相似度均值確定單元,還用于確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應(yīng)的相似度值大于所述相似度均值的相似郵件樣本的數(shù)量;權(quán)重值確定單元,用于根據(jù)所述相似度均值確定出的相似度均值和數(shù)量,分別確定該待檢測郵件歸屬于垃圾郵件類別和歸屬于正常郵件類別的權(quán)重值;郵件類型確認單元,用于根據(jù)權(quán)重值確定單元確定出的垃圾郵件類別的權(quán)重值和正常郵件類別的權(quán)重值,確定該待檢測郵件的類型。
[0015]采用本發(fā)明上述提出的技術(shù)方案,對于一個待檢測郵件,通過確定該郵件對應(yīng)的第一特征向量值與郵件樣本集合中的每個郵件樣本對應(yīng)的第二特征向量值之間的相似度值,獲得該郵件與郵件樣本集合中的相似郵件樣本,然后再確定該郵件和獲得的相似郵件樣本之間的相似度均值,以及獲得相似度值大于相似度均值的相似郵件樣本的數(shù)量,根據(jù)相似度均值和數(shù)量,分別確定該郵件歸屬垃圾郵件類別的權(quán)重值和歸屬正常郵件樣本的權(quán)重值,最后根據(jù)歸屬不同類別的權(quán)重值,確定該待檢測郵件的類型。從而實現(xiàn)將待檢測郵件歸類為垃圾郵件或者歸類為正常郵件,本發(fā)明提出的技術(shù)方案中,引入了相似度均值作為參考,較好地提高了確定待檢測郵件類型的準確性。
【專利附圖】
【附圖說明】
[0016]圖1為現(xiàn)有技術(shù)中,提出的KNN算法示意圖;[0017]圖2為本發(fā)明實施例一中,提出的垃圾郵件檢測方法流程圖;
[0018]圖3為本發(fā)明實施例一中,提出的訓(xùn)練樣本的偽聚類示意圖;
[0019]圖4為本發(fā)明實施例一中,提出的原始樣本分成小類過程示意圖;
[0020]圖5為本發(fā)明實施例一中,提出的APC-KNN分類器的訓(xùn)練流程圖;
[0021]圖6為本發(fā)明實施例一中,提出的不同特征維數(shù)三組實驗的Fl值對比示意圖;
[0022]圖7為本發(fā)明實施例一中,提出的不同特征維數(shù)對分類結(jié)果的影響對比示意圖;
[0023]圖8為本發(fā)明實施例一中,提出的不同K值三組實驗的Fl值對比示意圖;
[0024]圖9為本發(fā)明實施例一中,提出的不同K值對分類結(jié)果的影響對比示意圖;
[0025]圖10為本發(fā)明實施例二中,提出的倆及郵件檢測裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0026]針對現(xiàn)有技術(shù)中垃圾郵件檢測方法,僅根據(jù)待檢測郵件與郵件樣本集合中的郵件樣本之間的相似度值之和來確定權(quán)重值,然后對待檢測郵件進行歸類,使得對郵件檢測的準確性較低的問題,本發(fā)明實施例這里提出的技術(shù)方案,結(jié)合改進的KNN算法和預(yù)先設(shè)置的郵件樣本集合,綜合考慮影響歸類結(jié)果的條件來確定待檢測的郵件類型,能夠較好地提高垃圾郵件檢測的準確性。
[0027]下面將結(jié)合各個附圖對本發(fā)明實施例技術(shù)方案的主要實現(xiàn)原理、【具體實施方式】及其對應(yīng)能夠達到的有益效果進行詳細地闡述。
[0028]實施例一
[0029]本發(fā)明實施例一這里提出一種垃圾郵件檢測方法,如圖2所示,具體處理過程如下:
[0030]步驟21,選取郵件樣本集合,郵件樣本集合也可以稱之為訓(xùn)練樣本集合。
[0031]其中,郵件樣本集合中包括垃圾郵件樣本和正常郵件樣本,垃圾郵件樣本的數(shù)量和正常郵件樣本的數(shù)量可以相同,也可以不相同。在敏感度要求較高的應(yīng)用環(huán)境中,在選取的郵件樣本集合中,包含的垃圾郵件樣本的數(shù)量可以大于正常郵件樣本的數(shù)量,反之,在敏感度要求較低的場合中,在選取的郵件樣本集合中,包含的垃圾郵件樣本的數(shù)量可以小于正常郵件樣本的數(shù)量?;诠降脑瓌t,本發(fā)明實施例一這里提出的技術(shù)方案,在選取的郵件樣本集合中,包含相同數(shù)量的垃圾郵件樣本和正常郵件樣本。
[0032]步驟22,針對一個待檢測郵件,確定該郵件對應(yīng)的表征郵件屬性信息的第一特征向量值以及確定選取的郵件樣本集合中每個郵件樣本對應(yīng)的表征郵件屬性信息的第二特征向量值。
[0033]其中,每個郵件都具備表征郵件屬性信息的特征向量值,為便于闡述,本發(fā)明實施例一這里待檢測郵件對應(yīng)的表征郵件屬性信息的特征向量值規(guī)定為第一特征向量值,將郵件樣本對應(yīng)的表征郵件屬性信息的特征向量值規(guī)定為第二特征向量值。具體地,第一特征向量值的選取和第二特征向量值的選取方法是相同的。
[0034]步驟23,根據(jù)確定出的第一特征向量值和第二特征向量值,計算二者之間的相似度值。
[0035]其中,可以基于夾角余弦算法,根據(jù)確定出的第一特征向量值和第二特征向量值,計算相似度值,該相似度值可以表征待檢測郵件和郵件樣本集合中包含的郵件樣本之間的相似度。
[0036]具體地,可以采用下述公式I來計算相似度值:
【權(quán)利要求】
1.一種垃圾郵件檢測方法,其特征在于,包括: 針對一個待檢測郵件,確定該郵件對應(yīng)的表征郵件屬性信息的第一特征向量值與郵件樣本集合中的每個郵件樣本對應(yīng)的表征郵件屬性信息的第二特征向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本; 根據(jù)確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本; 確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應(yīng)的相似度值大于所述相似度均值的相似郵件樣本的數(shù)量; 根據(jù)所述相似度均值和數(shù)量,分別確定該待檢測郵件歸屬于垃圾郵件類別和歸屬于正常郵件類別的權(quán)重值; 根據(jù)垃圾郵件類別的權(quán)重值和正常郵件類別的權(quán)重值,確定該待檢測郵件的類型。
2.如權(quán)利要求1所述的方法,其特征在于,采用下述公式確定所述正常郵件類別的權(quán)重值:
3.如權(quán)利要求1所述的方法,其特征在于,采用下述公式確定所述正常郵件類別的權(quán)重值:
4.如權(quán)利要求1所述的方法,其特征在于,采用下述方式確定郵件樣本集合: 基于聚類算法,將正常郵件樣本和垃圾郵件樣本分別進行聚類,得到至少一個正常郵件樣本簇和至少一個垃圾郵件樣本簇; 在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本; 將選擇出的第一中心樣本和第二中心樣本組成郵件樣本集合。
5.如權(quán)利要求4所述的方法,其特征在于,所述將正常郵件樣本進行聚類,得到至少一個正常郵件樣本簇,包括: 確定每個正常郵件樣本對應(yīng)的第一特征權(quán)重值; 根據(jù)確定的所述第一特征權(quán)重值,按照預(yù)設(shè)的步進值將所有正常郵件樣本劃分為至少一個正常郵件樣本簇。
6.如權(quán)利要求5所述的 方法,其特征在于,采用下述公式確定第一特征權(quán)重值:
其中,D1是第一特征權(quán)重值,Xi是每個正常郵件樣本對應(yīng)的正常郵件樣本特征向量值,Wi是預(yù)設(shè)的對應(yīng)正常郵件樣本的參數(shù)值。
7.如權(quán)利要求4所述的方法,其特征在于,所述將垃圾郵件樣本進行聚類,得到至少一個垃圾郵件樣本簇,包括: 確定每個垃圾郵件樣本對應(yīng)的第二特征權(quán)重值; 根據(jù)所述第二特征權(quán)重值,按照預(yù)設(shè)的步進值將垃圾郵件樣本劃分為至少一個垃圾郵件樣本簇。
8.如權(quán)利要求7所述的方法,其特征在于,采用下述公式確定第二特征權(quán)重值:
η D2 =η = \,2…N
J=I 其中,D2是第二特征權(quán)重值,Xj是每個垃圾郵件樣本對應(yīng)的垃圾郵件樣本特征向量值,Wj是預(yù)設(shè)的對應(yīng)垃圾郵件樣本的參數(shù)值。
9.如權(quán)利要求4所述的方法,其特征在于,所述在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本,包括: 基于平均中心算法,在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本。
10.一種垃圾郵件檢測裝置,其特征在于,包括: 相似度值確定單元,用于針對一個待檢測郵件,確定該郵件對應(yīng)的表征郵件屬性信息的第一特征向量值與郵件樣本集合中的每個郵件樣本對應(yīng)的表征郵件屬性信息的第二特征向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本; 獲得單元,用于根據(jù)確定單元確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本; 相似度均值確定單元,還用于確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應(yīng)的相似度值大于所述相似度均值的相似郵件樣本的數(shù)量; 權(quán)重值確定單元,用于根據(jù)所述相似度均值確定出的相似度均值和數(shù)量,分別確定該待檢測郵件歸屬于垃圾郵件類別和歸屬于正常郵件類別的權(quán)重值; 郵件類型確認單元,用于根據(jù)權(quán)重值確定單元確定出的垃圾郵件類別的權(quán)重值和正常郵件類別的權(quán)重值,確定該待檢測郵件的類型。
11.如權(quán)利要求10所述的裝置,其特征在于,所述權(quán)重值確定單元,具體采用下述公式確定所述正常郵件類別的權(quán)重值:
12.如權(quán)利要求10所述的裝置,其特征在于,所述權(quán)重值確定單元,具體采用下述公式確定所述正常郵件類別的權(quán)重值:
所述權(quán)重值確定單元具體采用下述公式確定所述垃圾郵件類別的權(quán)重值:
13.如權(quán)利要求10所述的裝置,其特征在于,還包括郵件樣本集合確定單元,具體用于采用下述方式確定郵件樣本集合: 基于聚類算法,將正常郵件樣本和垃圾郵件樣本分別進行聚類,得到至少一個正常郵件樣本簇和至少一個垃圾郵件樣本簇;在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本;將選擇出的第一中心樣本和第二中心樣本組成郵件樣本集合。
14.如權(quán)利要求13所述的裝置,其特征在于,所述郵件樣本集合確定單元,具體用于確定每個正常郵件樣本對應(yīng)的第一特征權(quán)重值;根據(jù)確定的所述第一特征權(quán)重值,按照預(yù)設(shè)的步進值將所有正常郵件樣本劃分為至少一個正常郵件樣本簇。
15.如權(quán)利要求14所述的裝置,其特征在于,所述郵件樣本集合確定單元,具體采用下述公式確定第一特征權(quán)重值: 其中,D1是第一特征權(quán)重值,Xi是每個正常郵件樣本對應(yīng)的正常郵件樣本特征向量值,Wi是預(yù)設(shè)的對應(yīng)正常郵件樣本的參數(shù)值。
16.如權(quán)利要求13所述的裝置,其特征在于,所述郵件樣本集合確定單元,具體用于確定每個垃圾郵件樣本對應(yīng)的第二特征權(quán)重值;根據(jù)所述第二特征權(quán)重值,按照預(yù)設(shè)的步進值將垃圾郵件樣本劃分為至少一個垃圾郵件樣本簇。
17.如權(quán)利要求16所述的裝置,其特征在于,所述郵件樣本集合確定單元,具體用于采用下述公式確定第二特征權(quán)重值: P =乞WjXi η = \.2…N
J=I 其中,D2是第二特征權(quán)重值,Xj是每個垃圾郵件樣本對應(yīng)的垃圾郵件樣本特征向量值,Wj是預(yù)設(shè)的對應(yīng)垃圾郵件樣本的參數(shù)值。
18.如權(quán)利要求13所述的裝置,其特征在于,郵件樣本集合確定單元,具體用于基于平均中心算法,在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本。
【文檔編號】H04L12/24GK103490974SQ201210195957
【公開日】2014年1月1日 申請日期:2012年6月14日 優(yōu)先權(quán)日:2012年6月14日
【發(fā)明者】韋媚, 劉曉峰, 梁耿, 陳陽, 凌俊民 申請人:中國移動通信集團廣西有限公司