專利名稱:電子郵件異常特征處理系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子郵件處理領(lǐng)域,尤其涉及一種電子郵件異常特征處理系統(tǒng)和方法。
背景技術(shù):
垃圾郵件的發(fā)送者通常向大量的郵件地址發(fā)送郵件,探測存在的用戶郵件地址并發(fā)送垃圾信息,由于這一發(fā)送的過程依賴于SMTP(簡單郵件傳輸協(xié)議)服務(wù),因此對來自外部的SMTP連接的監(jiān)控就成為反垃圾郵件系統(tǒng)的重要任務(wù)。
在目前眾多的反垃圾郵件系統(tǒng)中,以“探針郵箱”進行垃圾郵件收集的技術(shù)由于其能夠主動收集垃圾郵件樣本而逐漸成為反垃圾郵件技術(shù)的主流,探針郵箱就是在郵件系統(tǒng)中設(shè)置的一些非用戶使用郵箱,由于這類郵箱并非正常賬戶,所以其收到的所有郵件都被視為垃圾郵件。
如圖1所示,存在向郵件服務(wù)器(SMTP服務(wù)器)發(fā)出的外部連接請求,該請求為垃圾郵件的者發(fā)出,該非法連接企圖將大量的垃圾郵件發(fā)送到郵件服務(wù)器,所述垃圾郵件的目標(biāo)地址由發(fā)送方隨機、大量地產(chǎn)生,例如,對于郵件服務(wù)器21cn.com,非法垃圾郵件發(fā)送者通過例如軟件生成的方式產(chǎn)生大量的地址名作為垃圾郵件的目標(biāo)地址,如zha@21cn.com、zhan@21cn.com、zhang@21cn.com......等郵件地址中,其中有些是正常郵件地址,即用戶通過合法注冊取得的郵箱地址,而其他則是不存在的郵件地址。
在這些不存在的郵件地址中,系統(tǒng)可以設(shè)置多個探針郵箱(也稱為“蜜罐”),還可以向外公布其探針郵箱地址,以增加其被垃圾發(fā)送的機率。當(dāng)這些探針郵箱接收到郵件后,就認(rèn)定這些接收到的郵件為垃圾郵件。系統(tǒng)定時向所有的探針郵箱收信就可以得到?jīng)]有被該郵件系統(tǒng)反垃圾引擎過濾的垃圾郵件樣本。之后可以通過對這些垃圾郵件內(nèi)容的分析來判斷垃圾郵件,進而可以通過內(nèi)容過濾等方法過濾垃圾郵件。
但是,探針郵箱存在著一些不足之處,首先,探針郵箱只能用于垃圾郵件樣本收集,而不能收集連接時的連接特征信息,所述連接特征信息包括來源IP、中轉(zhuǎn)次數(shù)、對話時間、對話數(shù)量、命令數(shù)、連接信息日志等等。
其次,每個探針郵箱都需要申請真實的郵箱,即每個探針郵箱都需要開銷一定數(shù)量的服務(wù)器存儲空間,當(dāng)探針郵箱數(shù)量較多時,系統(tǒng)資源的消耗也很大。而且,由于是真實郵箱,一旦設(shè)置,就很不便于改動,因此監(jiān)控的策略難于調(diào)整。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中使用探針郵箱的反垃圾郵件系統(tǒng)和方法不能收集非法郵件的連接信息、系統(tǒng)資源開銷大且監(jiān)控策略難以調(diào)整的缺陷,本發(fā)明提供了一種能夠收集非法郵件連接信息、占用系統(tǒng)資源小且調(diào)整方便的反垃圾郵件系統(tǒng)和方法。
為解決上述問題,本發(fā)明提供了一種電子郵件異常特征處理系統(tǒng),包括SMTP服務(wù)單元,所述系統(tǒng)還包括代理控制單元,判斷外部連接并將外部連接轉(zhuǎn)發(fā)到SMTP服務(wù)單元或SMTP仿真監(jiān)控單元;郵箱驗證單元,驗證外部連接要訪問的郵箱的存在性,并根據(jù)郵箱的存在性向?qū)υ捒刂拼韱卧l(fā)出存在性驗證結(jié)果;虛擬探針郵箱列表,包括多個虛擬探針郵箱地址信息;SMTP仿真監(jiān)控單元,記錄要訪問虛擬探針郵箱的外部連接的連接信息,并對外部連接德連接信息進行應(yīng)答。
在所述電子郵件異常特征處理系統(tǒng)中,所述代理控制單元用于切斷外部連接。
其中,所述SMTP仿真監(jiān)控單元還包括連接信息存儲模塊,用于存儲所接收到的外部連接信息;應(yīng)答模塊,用于根據(jù)對外部非法連接的連接信息進行響應(yīng)。
所述電子郵件異常特征處理系統(tǒng)還包括樣本采集單元,用于將SMTP仿真監(jiān)控單元所監(jiān)控的外部連接的信息收集為異常連接樣本;異常樣本存儲單元,用于存儲所述異常連接樣本;數(shù)據(jù)挖掘單元,用于異常樣本存儲模塊中的異常連接樣本進行特征分析,以產(chǎn)生異常特征;異常特征存儲單元,用于存儲數(shù)據(jù)挖掘模塊所產(chǎn)生的異常特征。
所述數(shù)據(jù)挖掘單元還包括元素拆分模塊,用于將從樣本采集單元收集的異常樣本中的連接信息進行分解;特征收集模塊,將元素拆分模塊所分解的元素組成特征向量,并將所述特征向量存儲到特征向量存儲模塊中;特征向量存儲模塊,用于存儲從外部連接的連接信息中提取的特征向量;相似向量提取模塊,用于從特征向量存儲模塊中提取與所接收到的外部連接特征向量相似的所有向量;提純模塊,用于提取相似特征向量之間共有的元素。
所述郵箱驗證單元包括注冊用戶列表,該注冊用戶列表存儲有合法用戶注冊的郵件地址。
本發(fā)明還提供了一種電子郵件異常特征處理方法,所述方法包括驗證外部連接所要訪問的郵箱是否存在;如果所述外部連接所要訪問的郵箱在虛擬探針郵箱列表中,則將所述外部連接轉(zhuǎn)發(fā)到SMTP仿真監(jiān)控單元,仿真監(jiān)控單元記錄所述外部連接的連接信息,并進行應(yīng)答。
如果外部連接所要訪問的郵箱不在虛擬探針郵箱列表中,則切斷外部連接。
如果外部連接所要訪問的郵箱在虛擬探針郵箱列表中,并且當(dāng)該外部連接轉(zhuǎn)發(fā)到SMTP仿真監(jiān)控單元之后,還包括利用樣本采集模塊對仿真監(jiān)控單元所記錄的連接信息收集為異常連接樣本;將所述異常連接樣本存儲到異常樣本存儲模塊;通過數(shù)據(jù)挖掘模塊對異常樣本存儲模塊中的異常連接樣本進行特征分析,以產(chǎn)生異常特征;將所述異常特征存儲到異常特征存儲單元。
其中,對異常連接樣本進行特征分析的步驟進一步包括對異常連接樣本進行元素拆分;在拆分后的元素中選取部分元素組成特征向量;將該特征向量存儲到特征向量存儲模塊;從特征向量存儲模塊中提取與所接收的異常連接特征向量相似的向量;對所取出的相似向量進行提純;將提純后的特征向量存儲到異常特征存儲單元。
與現(xiàn)有技術(shù)相比,本發(fā)明不僅可以進行垃圾郵件樣本的收集,而且能夠通過SMTP仿真監(jiān)控單元收集連接時的特征信息,進一步通過SMTP仿真監(jiān)控單元向外部連接發(fā)送一些指令而誘使其繼續(xù)動作從而獲得更多的非法連接的連接信息。通過數(shù)據(jù)挖掘算法,還可以得到非法連接的異常特征信息。
由于虛擬探針郵箱列表并不真正開銷探針郵箱的資源,因此不會加大系統(tǒng)負(fù)擔(dān)。而且由于虛擬探針郵箱列表只存儲了虛擬探針郵件的地址,對于監(jiān)控方希望監(jiān)控的方向、策略的調(diào)整、更改都很方便。
圖1是現(xiàn)有技術(shù)中具有探針郵箱的反垃圾郵件系統(tǒng)的示意圖。
圖2是本發(fā)明實施例的郵件異常特征處理系統(tǒng)結(jié)構(gòu)示意圖。
圖3是本發(fā)明另一個實施例的郵件異常特征處理系統(tǒng)結(jié)構(gòu)示意圖。
圖4是本發(fā)明實施例中基于相似度的數(shù)據(jù)挖掘單元的結(jié)構(gòu)示意圖。
圖5是本發(fā)明實施例的郵件異常特征處理方法的流程圖。
圖6是本發(fā)明實施例的基于相似度的數(shù)據(jù)挖掘方法的流程圖。
圖7是本發(fā)明實施例的特征向量元素的相似度判定流程圖。
具體實施例方式
圖2為根據(jù)本發(fā)明的一個實施例所述的郵件異常特征處理系統(tǒng)結(jié)構(gòu)示意圖。其中,所述系統(tǒng)包括代理控制單元、郵箱驗證單元、虛擬探針郵箱列表、SMTP仿真控制單元和SMTP服務(wù)單元。所述郵件異常特征處理系統(tǒng)可以通過相應(yīng)的軟件或硬件(例如網(wǎng)關(guān)服務(wù)器等)來實現(xiàn)。
所述代理控制單元可以監(jiān)聽郵件服務(wù)器的端口(例如SMTP服務(wù)器的25端口),并且連接遠(yuǎn)程服務(wù),特別是SMTP服務(wù)。當(dāng)非法發(fā)送方要發(fā)送垃圾郵件時,它首先需要與郵件服務(wù)器(SMTP服務(wù)器)進行連接,即向SMTP服務(wù)器發(fā)出連接請求,代理控制單元監(jiān)聽到來自外部的向郵件服務(wù)器特定端口(例如25端口)發(fā)出的SMTP連接請求時,則將該連接請求轉(zhuǎn)向到代理控制單元的輸入端口,因此來自外部的SMTP連接請求不直接發(fā)送到郵件服務(wù)器,而是發(fā)送到代理控制單元,所述代理控制單元是完全對外開放的服務(wù)單元,對所有欲連接到郵件服務(wù)器的SMTP連接請求進行處理,每個連接產(chǎn)生一個單獨的處理線程。因而所述代理控制單元對真實的SMTP服務(wù)進行了掩蓋,從而起到對SMTP服務(wù)單元的保護作用。所述代理控制單元可以通過軟件模塊來實現(xiàn),例如通過socket網(wǎng)絡(luò)編程實現(xiàn)。
所述郵箱驗證單元具有注冊用戶列表,所述注冊用戶列表具有在該郵件服務(wù)器上注冊的所有合法用戶的電子郵件地址。郵箱驗證單元主要進行郵箱存在性驗證,即當(dāng)代理控制單元將外部連接所要訪問的郵箱地址發(fā)送到郵件驗證單元后,郵箱驗證單元在其注冊用戶列表中進行查找,當(dāng)發(fā)現(xiàn)在注冊用戶列表中找到與外部連接所要訪問的郵箱地址一致的用戶郵件地址的時候,郵箱驗證單元向代理控制單元發(fā)送為“1”的驗證結(jié)果,當(dāng)在注冊用戶列表中找不到與外部連接所要訪問的郵箱地址一致的用戶郵件地址的時候,郵箱驗證單元向代理控制單元發(fā)送為“0”的驗證結(jié)果。
所述虛擬探針郵箱列表在本發(fā)明中可以實現(xiàn)為一組存儲虛擬探針郵箱的存儲單元,在存儲單元中存放了所述郵件特征采集系統(tǒng)要進行監(jiān)控的非法SMTP連接所要訪問的郵箱地址。在虛擬探針郵箱列表中,列出了系統(tǒng)感興趣的郵箱地址范圍,所述郵箱地址可以使用通配符“*”、“?”等,例如當(dāng)“?de@21cn.com”出現(xiàn)在虛擬探針郵箱列表中時,就表示系統(tǒng)要對希望訪問三個字符并且后兩個字符分別為“d、e”郵箱的外部連接進行監(jiān)控。而當(dāng)“*de@21cn.com”出現(xiàn)在虛擬探針郵箱列表中時,就表示系統(tǒng)要對希望訪問后兩個字符分別為“d、e”的郵箱的外部連接進行監(jiān)控。
當(dāng)在郵箱驗證單元中找不到與外部連接所要訪問的郵箱地址一致的用戶郵件地址時,代理控制單元就要在虛擬探針郵箱列表中查找外部連接所要訪問的郵箱地址。以便確定是否監(jiān)控該外部連接。為了避免負(fù)荷太重,系統(tǒng)并不監(jiān)控所有的探針郵箱地址。
所述SMTP仿真控制單元用于對上述虛擬探針郵箱列表所命中的郵箱所對應(yīng)的外部連接進行監(jiān)控。由于垃圾發(fā)送方通常不會只發(fā)一次垃圾郵件,而是多次頻繁地發(fā)送,所以會被虛擬探針郵箱列表命中,從而可以監(jiān)控收集到多個垃圾郵件連接信息樣本。另外,某些垃圾郵件發(fā)送者會以某種方法(例如,先利用掃描手段找到郵件服務(wù)器,再利用窮舉法探測用戶郵件地址)來發(fā)送垃圾郵件,這種方法有一定的相似性,這些方法的特征也會被捕捉。SMTP仿真控制單元包括連接信息存儲模塊,用于對所監(jiān)控的外部連接的連接信息(例如連接特征,連接信息日志和所接收到的郵件等)進行存儲,以便進一步對非法連接的信息進行分析,所述連接信息存儲模塊可以是各種可能的存儲介質(zhì),例如SDRM、DDR、Flash、硬盤等。
SMTP仿真控制單元還包括應(yīng)答模塊,可以對正在監(jiān)控的非法外部連接所發(fā)出的指令進行響應(yīng)。進一步地,所述應(yīng)答模塊還可以根據(jù)外部非法連接的響應(yīng)信息向該連接繼續(xù)發(fā)出指令以誘使該非法的外部連接繼續(xù)其行為,或根據(jù)預(yù)定的邏輯產(chǎn)生應(yīng)答(例如故意返回一些錯誤)以得到與非法外部連接有關(guān)的更多信息。
所述SMTP服務(wù)單元是針對正常的外部連接的處理單元,其執(zhí)行正常的SMTP服務(wù)。
圖3是根據(jù)本發(fā)明另一個實施例的郵件異常特征處理系統(tǒng)結(jié)構(gòu)示意圖。參考圖2,在所述郵件異常特征處理系統(tǒng)中還包括了進行文本分析的部件,用于對所采集到的非法SMTP連接的連接信息進行分析,以獲得非法連接的特征。該郵件異常特征處理系統(tǒng)還包括樣本采集單元、異常樣本存儲單元、數(shù)據(jù)挖掘單元和異常特征存儲單元。
所述樣本采集單元用于將SMTP仿真監(jiān)控單元所監(jiān)控的外部連接的信息收集為異常連接樣本。所述樣本單元將連接信息中的特定字段或部分保存為一個異常連接特征向量。所述樣本采集單元可以通過相應(yīng)的數(shù)據(jù)庫軟件模塊實現(xiàn),每個異常連接樣本作為一條記錄存儲在樣本采集單元所建立的相應(yīng)數(shù)據(jù)庫中。
所述異常樣本存儲單元用于存儲所述異常連接樣本。異常樣本存儲單元可以實現(xiàn)為以記錄組成的數(shù)據(jù)庫,并且存儲在各種可能的存儲介質(zhì)中,例如SDRM、DDR、Flash、硬盤等存儲器。
所述數(shù)據(jù)挖掘單元用于異常樣本存儲模塊中的異常連接樣本進行特征分析,以產(chǎn)生異常特征。數(shù)據(jù)挖掘單元是通過數(shù)據(jù)挖掘軟件模塊或相應(yīng)的硬件邏輯單元實現(xiàn),所采用的數(shù)據(jù)挖掘算法是各種常用的數(shù)據(jù)分析算法,例如,決策樹算法、支持向量機算法、貝葉斯算法等等。在本發(fā)明的實施例中,將基于相似度的數(shù)據(jù)分析算法應(yīng)用于數(shù)據(jù)挖掘單元中。所述數(shù)據(jù)挖掘單元根據(jù)所采用數(shù)據(jù)分析算法而不同。在后面實施例中將根據(jù)具體算法將進一步描述數(shù)據(jù)挖掘單元。
所述異常特征存儲單元用于存儲數(shù)據(jù)挖掘模塊所產(chǎn)生的異常特征。所述異常特征是根據(jù)所述數(shù)據(jù)挖掘單元對異常樣本進行分析后產(chǎn)生的記錄,優(yōu)選地,如果利用基于相似度的數(shù)據(jù)挖掘單元,則將異常特征向量存儲在異常特征存儲單元中。所述異常特征存儲單元可以是各種可能的存儲介質(zhì),例如SDRM、DDR、Flash、硬盤等。
圖4是基于相似度的數(shù)據(jù)挖掘單元的結(jié)構(gòu)示意圖。所述數(shù)據(jù)處理單元包括元素拆分模塊、特征收集模塊、特征向量存儲模塊、相似向量提取模塊和提純模塊。
所述元素拆分模塊,用于將從樣本采集單元收集的異常樣本中的連接信息進行分解。所述連接信息通常為不同信息元素組成字符串,不同信息元素之間用特定的標(biāo)志(例如特定字符、二進制碼等等)分隔。元素拆分模塊通過對特定標(biāo)志的識別將連接信息進行拆分。所述元素拆分模塊由軟件模塊或?qū)iT的硬件邏輯單元實現(xiàn)。
所述特征收集模塊,將元素拆分模塊所分解的元素組成特征向量,并將所述特征向量存儲到特征向量存儲模塊中。根據(jù)通過元素拆分模塊分解出的元素中的一部分作為特征的元素需要被重新組合,以形成特征向量。
所述特征向量存儲模塊,用于存儲從外部連接的連接信息中提取的特征向量。特征向量存儲模塊可以通過數(shù)據(jù)庫實現(xiàn),記錄在存儲器介質(zhì)中。
所述相似向量提取模塊,用于從特征向量存儲模塊中提取與所接收到的外部連接特征向量相似的所有向量。相似向量提取模塊需要對特征向量存儲模塊中的向量與外部連接特征向量進行相似度判定,當(dāng)兩者的相似度大于設(shè)定值或閾值時,判定兩者相似,并從特征向量存儲模塊中提取該向量。
所述提純模塊,用于提取相似特征向量之間共有的元素。提純模塊檢索所有特征向量間的所有相似的元素,提取出多數(shù)元素都具有的元素,作為最終提取的異常特征。
圖5是本發(fā)明實施例的郵件異常特征處理方法的流程圖。首先,在步驟401,通過代理控制單元接收外部連接請求,以獲取外部連接請求中的目的地址。然后,在步驟403,代理控制單元將外部連接請求中的目的地址發(fā)送至郵箱驗證單元。
在步驟405,將所述目的地址發(fā)送到郵箱驗證單元是為了能夠驗證外部連接所要訪問的郵箱是否存在,所述郵箱驗證單元在其中的注冊用戶列表中進行搜索。如果在注冊用戶列表能夠搜索到外部連接所要訪問的郵箱地址,則確定該郵箱是存在的,即該外部連接為正常連接,于是在步驟413,代理控制單元將外部連接轉(zhuǎn)發(fā)到SMTP服務(wù)單元;如果在注冊用戶列表不能搜索到外部連接所要訪問的郵箱地址,則確定該郵箱是不存在的,即該外部連接為非法連接。
于是在步驟409,對該非法的外部連接進行進一步判斷,即判斷所述外部連接所要訪問的郵箱地址是否在虛擬探針郵箱列表中。所述虛擬探針郵箱列表中列舉了系統(tǒng)希望監(jiān)控的探針郵箱地址,從而避免了對所有郵箱地址進行監(jiān)控而帶給系統(tǒng)的負(fù)荷,并且,這種監(jiān)控方法還能夠方便地調(diào)整監(jiān)控策略。
如果所述外部連接所要訪問的郵箱地址不在虛擬探針郵箱列表中,則不監(jiān)控該外部非法連接,在步驟415,斷開該非法連接。可替換地,還可以通過其他方式處理不監(jiān)控的非法連接,例如,將所述連接發(fā)送的郵件接收到垃圾郵箱中,進而分析垃圾郵件的內(nèi)容等。
如果所述外部連接所要訪問的郵箱地址在虛擬探針郵箱列表中,則在步驟411,代理控制單元將外部連接轉(zhuǎn)發(fā)到SMTP仿真監(jiān)控單元,以便對該外部非法連接進行監(jiān)控。
圖6是本發(fā)明實施例的基于相似度的數(shù)據(jù)挖掘方法的流程圖。首先,在步驟551,利用樣本采集模塊將SMTP仿真監(jiān)控單元所記錄的連接信息收集為異常連接樣本,所述SMTP仿真監(jiān)控單元所記錄的連接信息可以包括外部連接請求的來源IP、中轉(zhuǎn)次數(shù)、對話時間、對話數(shù)量、命令數(shù)、有無向域名存在等等。
在步驟553,基于相應(yīng)的傳輸協(xié)議和文本分析,元素拆分模塊將連接信息中拆分為元素,所述連接信息通??梢允遣煌畔⒃亟M成字符串,不同信息元素之間用特定的標(biāo)志(例如特定字符、二進制碼等等)分隔。元素拆分模塊通過對特定標(biāo)志的識別將連接信息進行拆分。上述各項為一個元素。在步驟555,通過特征收集模塊將這些元素進行選擇后,利用一部分元素組成特征向量。并且在步驟557,將所述特征向量存入特征向量存儲模塊,以形成數(shù)據(jù)量足夠的特征向量數(shù)據(jù)庫。
在步驟559,相似向量提取模塊,從特征向量存儲模塊中提取與本向量相似的所有向量,相似是指特征向量之間元素的相似程度。下面,結(jié)合圖7,對步驟559中的相似度判定過程進行說明兩個向量是否相似,要看向量中元素相似度的總和,元素可以是數(shù)值、字符串或布爾值。其中,向量的相似度=相似的元素總數(shù)/向量元素個數(shù)通過相似向量提取模塊對所采集的樣本的特征向量進行相似度判定,從特征向量存儲模塊中提取相似的向量。特征向量的元素總是只有三種類型字符串,數(shù)值,布爾值。相似度對不同的元素類型,有不同的要求。對字符串,對于兩字符串相似,可以要求兩字符串完全相同,也可以要求兩字符串中的大部分字符相同??梢栽O(shè)定一個閾值,當(dāng)兩字符串中相同字符長度的百分比大于該閾值時,則認(rèn)為兩字符串中的大部分字符相同,即兩字符串相似。數(shù)值相似,可以要求兩個數(shù)完全相同,也可以要求兩個數(shù)的差值近似。可以設(shè)定一個閾值,當(dāng)兩個數(shù)的差值與兩數(shù)值平均值的比值小于該閾值時,則認(rèn)為兩數(shù)值近似,即兩數(shù)值相似,例如,設(shè)閾值為5%,兩數(shù)值為98與100,差值是2,平均值是99,則誤差是2/99,所以認(rèn)為98與100是相似的。布爾值相似,則要求兩個布爾值必須完全相同。判定兩個樣本是否相似,就是判斷其相似元素占總元素的百分比是否大于設(shè)定值。當(dāng)相似元素占總元素的百分比是否大于設(shè)定值時,兩樣本相似,反之,兩樣本不相似。所述相似樣本判定單元可以通過相應(yīng)的軟件程序模塊來實現(xiàn)。
在步驟561,通過元素提純模塊對相似的特征向量進行提純,以在一類相似的特征樣本向量組中提取異常特征。向量組普遍都具有的元素才是真正的異常特征,而向量之間差異較大的元素,則作為干擾元素去除。在經(jīng)過提純而得到真正代表該類異常連接的異常特征后,在步驟563,將所述異常特征加入到異常特征存儲單元保存。
下面將結(jié)合實例介紹本實施例的樣本處理過程。
首先,為清楚地說明該樣本處理過程,下面列舉出了一些常用的SMTP指令。其中,客戶端常用的SMTP指令為HELO hostname與服務(wù)器握手,并告知服務(wù)器客戶端所使用的機器名;MAIL FROMsender_id告知服務(wù)器發(fā)信人的地址;RCPT TOreceiver_id告知服務(wù)器收信人的地址;DATA開始傳輸信件內(nèi)容,且最后要以只含有.的特殊行結(jié)束;RESET取消剛才的指令,重新開始;VERIFY userid校驗帳號是否存在;QUIT退出連接,結(jié)束。
服務(wù)器返回的響應(yīng)信息為220服務(wù)就緒(在socket連接成功時,會返回此信息);221正在處理;250請求郵件動作正確,完成(HELO、MAIL FROM、RCPT TO、QUIT指令執(zhí)行成功會返回此信息);354開始發(fā)送數(shù)據(jù),結(jié)束以.(DATA指令執(zhí)行成功會返回此信息,客戶端應(yīng)發(fā)送信息);500語法錯誤,命令不能識別;550命令不能執(zhí)行,郵箱無效;
552中斷處理用戶超出文件空間。
例如郵件服務(wù)器從外部連接收集到的三個樣本,經(jīng)過元素拆分后得到A、B、C三個向量,其中A(30,abc.com.cn,否,12)B(20,abc.com.cn,否,12)C(100,abc.com.cn,否,12)此處,為了便于說明,收集到的樣本中的信息只包含四項RESET指令出現(xiàn)次數(shù)、域名、對服務(wù)器返回的響應(yīng)信息500(表示命令不能執(zhí)行,郵箱無效)的響應(yīng)結(jié)果是否重發(fā)、信件長度(KB),以向量A為例,即RESET指令出現(xiàn)次數(shù)為30次、域名為abc.com.cn、對服務(wù)器返回的響應(yīng)信息500的響應(yīng)結(jié)果不重發(fā)、信件長度為12KB。
在本實施例中,為了簡化起見,要求字符串相似的充要條件是兩字符串必須完全相同。對于數(shù)值相似,要求兩數(shù)值之間的誤差為5%。布爾值相似,則要求布爾值完全相同。對于兩個向量,決定相似的條件為相似度大于等于60%。
對于向量A,判斷兩個向量A、B之間的相似度,對于第一項,兩數(shù)值之間誤差為40%,大于5%的閾值,認(rèn)為該項不相似,對于另外三項元素,完全相同,則認(rèn)為另外三項相似,則相似度為75%,大于60%的相似度設(shè)定值,由此認(rèn)為樣本A、B相似。同理,可以得出A、C相似。
因此,對于A,有B,C所對應(yīng)的兩個相似樣本支持(這里只是三個樣本的情況,通常一個特征連接都可以找到一定數(shù)量的相似樣本來支持,反之,偶然、特殊的連接基本找不到相似樣本來支持)。于是,我們得到了一個相似的特征向量集(A,B,C),并且這個特征向量集內(nèi)的所有連接都很相似,代表了一種非法連接。
接下來是要對特征向量集中的元素提純,以去掉干擾元素,得到異常特征。提純過程遍歷所有的樣本的所有元素,把所有普遍具有的元素作為異常特征,去除其余的元素。比如上述三個樣本的特征向量A,B,C,對于第一個元素(RESET指令出現(xiàn)次數(shù)),并不是大部分樣本的該元素都相似,因此不是一個異常特征,而abc.com.cn、否、12,這三項元素是所有樣本都具有的,因此這三項元素是特征元素,所以上述代表一種非法連接的樣本集的異常特征是(域名、對500的響應(yīng)結(jié)果是否重發(fā)、信件長度)。
此向量組的值為(abc.com.cn、否、12)。(其中對于數(shù)值,在判斷相似時,利用差值/數(shù)值的平均值求出數(shù)值相似度)以上說明了基于相似度的非法連接特征分析過程,經(jīng)過該過程,產(chǎn)生的結(jié)果是得到了一個異常特征庫,異常特征庫里每條記錄都是一種非法連接的異常特征。
需要指出,對于本發(fā)明的實施并不局限于上述實施例,若有其他形式的修改,只要不脫離本發(fā)明的精神實質(zhì),也屬于本發(fā)明的保護范圍。
權(quán)利要求
1.一種電子郵件異常特征處理系統(tǒng),包括SMTP服務(wù)單元,其特征在于,還包括代理控制單元,判斷外部連接并將外部連接轉(zhuǎn)發(fā)到SMTP服務(wù)單元或SMTP仿真監(jiān)控單元;郵箱驗證單元,驗證外部連接要訪問的郵箱的存在性,并根據(jù)郵箱的存在性向?qū)υ捒刂拼韱卧l(fā)出存在性驗證結(jié)果;虛擬探針郵箱列表,包括多個虛擬探針郵箱地址信息;SMTP仿真監(jiān)控單元,記錄要訪問虛擬探針郵箱的外部連接的連接信息,并對外部連接的連接信息進行應(yīng)答。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括樣本采集單元,用于將SMTP仿真監(jiān)控單元所監(jiān)控的外部連接的信息收集為異常連接樣本;異常樣本存儲單元,用于存儲所述異常連接樣本;數(shù)據(jù)挖掘單元,用于異常樣本存儲模塊中的異常連接樣本進行特征分析,以產(chǎn)生異常特征;異常特征存儲單元,用于存儲數(shù)據(jù)挖掘模塊所產(chǎn)生的異常特征。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述數(shù)據(jù)挖掘單元還包括元素拆分模塊,用于將從樣本采集單元收集的異常樣本中的連接信息進行分解;特征收集模塊,將元素拆分模塊所分解的元素組成特征向量,并將所述特征向量存儲到特征向量存儲模塊中;特征向量存儲模塊,用于存儲從外部連接的連接信息中提取的特征向量;相似向量提取模塊,用于從特征向量存儲模塊中提取與所接收到的外部連接特征向量相似的所有向量;提純模塊,用于提取相似特征向量之間共有的元素。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述代理控制單元用于切斷外部連接。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述郵箱驗證單元包括注冊用戶列表,該注冊用戶列表存儲有合法用戶注冊的郵件地址。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述SMTP仿真監(jiān)控單元還包括連接信息存儲模塊,用于存儲所接收到的外部連接信息;應(yīng)答模塊,用于根據(jù)對外部非法連接的連接信息進行響應(yīng)。
7.一種電子郵件異常特征處理方法,其特征在于,所述方法包括驗證外部連接所要訪問的郵箱是否存在;如果所述外部連接所要訪問的郵箱在虛擬探針郵箱列表中,則將所述外部連接轉(zhuǎn)發(fā)到SMTP仿真監(jiān)控單元,仿真監(jiān)控單元記錄所述外部連接的連接信息,并進行應(yīng)答。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,如果外部連接所要訪問的郵箱不在虛擬探針郵箱列表中,則切斷外部連接。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,還包括a.對仿真監(jiān)控單元所記錄的連接信息收集為異常連接樣本并存儲;b.對所述異常連接樣本進行特征分析,獲得異常特征并存儲;c.將所述異常特征存儲到異常特征存儲單元。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,在步驟b,對異常連接樣本進行特征分析的步驟進一步包括(1)對異常連接樣本進行元素拆分;(2)在拆分后的元素中選取部分元素組成特征向量;(3)將該特征向量存儲到特征向量存儲模塊;(4)從特征向量存儲模塊中提取與所接收的異常連接特征向量相似的向量;(5)對所取出的相似向量進行提純;(6)將提純后的特征向量存儲到異常特征存儲單元。
全文摘要
本發(fā)明公開了一種電子郵件異常特征處理系統(tǒng),包括SMTP服務(wù)單元,該系統(tǒng)還包括代理控制單元、郵箱驗證單元、虛擬探針郵箱列表、SMTP仿真監(jiān)控單元。本發(fā)明還公開了一種電子郵件異常特征處理方法,該方法包括通過代理控制單元接收外部連接請求;通過郵箱驗證單元驗證所述外部連接所要訪問的郵箱是否存在;如果外部連接請求所要訪問的郵箱存在,則將所述外部連接轉(zhuǎn)發(fā)到SMTP服務(wù)單元。如果外部連接所要訪問的郵箱不存在,則根據(jù)對虛擬探針郵箱列表的查詢結(jié)果,確定將外部連接轉(zhuǎn)發(fā)到SMTP仿真監(jiān)控單元或切斷該外部連接。本發(fā)明可以進行垃圾郵件外部連接樣本的收集,而且能夠收集并且分析非法外部連接的特征信息。
文檔編號H04L29/06GK101026619SQ200610033978
公開日2007年8月29日 申請日期2006年2月23日 優(yōu)先權(quán)日2006年2月23日
發(fā)明者周顥, 謝尚成, 王暉, 母天石 申請人:騰訊科技(深圳)有限公司