用于識(shí)別垃圾電子郵件的方法和系統(tǒng)的制作方法

文檔序號(hào)：7643830閱讀：309來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：用于識(shí)別垃圾電子郵件的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
所公開的本發(fā)明寬泛地涉及信息處理系統(tǒng)領(lǐng)域，更具體地說，涉及未經(jīng)請求(unsolicited)的電子郵件的領(lǐng)域。
背景技術(shù)：
垃圾電子郵件(spam)是因特網(wǎng)上日益增加的問題，其繼續(xù)要求新的解決方案。用于攻擊垃圾電子郵件的現(xiàn)有機(jī)制使用諸如SMTP(簡單郵件傳輸協(xié)議)分析之類的獨(dú)立郵件傳送交易的分析、郵件尋址報(bào)頭(“來自”、“至”、“發(fā)送者”等)的分析以及郵件的主題和/或內(nèi)容的分析。雖然這些機(jī)制在較大程度上是有效的，但是垃圾電子郵件發(fā)送者(spammer)已經(jīng)學(xué)會(huì)了繞過它們，并且繼續(xù)改進(jìn)他們的技術(shù)。當(dāng)前在該領(lǐng)域中存在的流行機(jī)制和想法是(1)DNS(域名服務(wù)器)塊列表-“知道”要發(fā)送垃圾電子郵件的郵件代理的IP地址的列表；接收郵件服務(wù)器可以檢查這些列表并且拒絕從出現(xiàn)在該列表中的代理接受郵件。這些是由垃圾電子郵件抱怨者維持的反應(yīng)性的、靜態(tài)列表。它們遭受維護(hù)困難的困擾(包括大公司和服務(wù)提供商的有聲譽(yù)的發(fā)送者常常發(fā)現(xiàn)他們被錯(cuò)誤地放入這些列表中，并且經(jīng)常不容易將他們自己從這些列表中拿掉)。
(2)SPF(寄信人來源確認(rèn)(Sender Permitted From)或者發(fā)送者策略框架)、發(fā)送者ID、CSV(驗(yàn)證的服務(wù)器確認(rèn))、域密鑰和相關(guān)的建議-這些都是被設(shè)計(jì)來確認(rèn)郵件的發(fā)送者不試圖謊報(bào)其身份的技術(shù)。也就是，它們的每一個(gè)都定義“發(fā)送域”并且提供用于域發(fā)表信息的機(jī)制，該信息允許接收者確定好像具有特定“發(fā)送域”的消息是否來自被授權(quán)代表該域發(fā)送郵件的代理。當(dāng)充分采用時(shí)，這些對(duì)于“白列出(white listing)”是有效的但是不能用于檢測垃圾電子郵件。實(shí)際上，許多垃圾電子郵件域參與在SPF中，大概是希望這種參與會(huì)給予它們可信性(credibility)。
用于驗(yàn)證電子郵件消息的發(fā)送域的機(jī)制正變得流行、標(biāo)準(zhǔn)化和被激烈辯論。SPF、呼叫者ID和發(fā)送者ID的目標(biāo)基本上是相同的它們的每一個(gè)都被設(shè)計(jì)來通過使得域所有者發(fā)表有效的輸出(outgoing)電子郵件服務(wù)器的列表成為可能來防止“哄騙(spoofing)”。可以可靠地將通過這些測試之一的消息與參與該消息的傳輸?shù)挠蛳嚓P(guān)聯(lián)，“可靠地”的某種值是許多爭論和爭議的主題。因?yàn)檫@些技術(shù)意味著“最大努力(best effort)”驗(yàn)證，因此，“似乎正確(plausibly)”可能是較好的定性。
但是，這種信息不足以過濾垃圾電子郵件。在知道負(fù)責(zé)的域之外，垃圾電子郵件過濾需要關(guān)于什么域發(fā)送垃圾電子郵件的信息。因此域驗(yàn)證的大多數(shù)支持者建議將域驗(yàn)證與聲譽(yù)服務(wù)進(jìn)行組合。
SPF使得域聲明其輸出電子郵件網(wǎng)關(guān)。如果SPF信息正確，則來自該域的所有郵件“應(yīng)該”通過這些網(wǎng)關(guān)。如果消息通過SPF檢查，并且我們假設(shè)域原則上不發(fā)送垃圾電子郵件，則將該郵件直接繼續(xù)發(fā)給用戶是安全的。但是由于垃圾電子郵件發(fā)送者也已經(jīng)注冊了域并且發(fā)表了SPF記錄，因此我們不能假設(shè)通過了SPF驗(yàn)證的郵件是源自非垃圾電子郵件域的。
因此，需要分析超出垃圾電子郵件發(fā)送者的控制的電子郵件單元并且克服上述缺陷的方法和系統(tǒng)。

發(fā)明內(nèi)容
主要地，根據(jù)本發(fā)明的實(shí)施方式，方法包括步驟接收包括多個(gè)分組和發(fā)送路徑信息的電子郵件消息；使用所述發(fā)送路徑信息來確定所述電子郵件的路徑；將所述路徑與多個(gè)之前電子郵件路徑進(jìn)行比較；確定接收的所述電子郵件的所述路徑與多個(gè)之前電子郵件路徑中的一個(gè)或多個(gè)之間的相似性度量；以及根據(jù)相似性度量來確定接收的所述電子郵件的垃圾電子郵件得分。其他實(shí)施方式包括具有用于執(zhí)行上述功能的計(jì)算機(jī)代碼的計(jì)算機(jī)可讀介質(zhì)，和具有被配置(例如，被硬件布線(hard-wired)或者被編程)來執(zhí)行所述方法的處理器的信息處理系統(tǒng)。

圖1是表示簡化的電子郵件消息路徑的高級(jí)框圖；圖2是示出根據(jù)本發(fā)明另一種實(shí)施方式的信息處理系統(tǒng)的高級(jí)框圖；和圖3是根據(jù)本發(fā)明實(shí)施方式的方法的流程圖。
具體實(shí)施例方式
參照圖1，我們示出電子郵件基礎(chǔ)設(shè)施100的高度簡化的框圖。發(fā)送者節(jié)點(diǎn)102將電子郵件消息發(fā)送給目的地節(jié)點(diǎn)108。由路由器104和106將該電子郵件消息路由到目的地節(jié)點(diǎn)108。每個(gè)路由器將信息添加到該電子郵件消息，使得該消息包括從節(jié)點(diǎn)102到節(jié)點(diǎn)108的電子郵件路徑指示。本發(fā)明的實(shí)施方式針對(duì)該消息通過因特網(wǎng)郵件傳輸基礎(chǔ)設(shè)施的路徑來分析在該電子郵件消息中所存儲(chǔ)的信息。一旦該消息離開垃圾電子郵件發(fā)送者的控制，就將發(fā)送路徑信息添加到該消息中，垃圾電子郵件發(fā)送者不能去除該信息。通過分析這種信息，并且學(xué)習(xí)不同發(fā)送通道的垃圾電子郵件和非垃圾電子郵件模式，我們能夠檢測到通過內(nèi)容分析或者其他現(xiàn)存技術(shù)不能檢測到的垃圾電子郵件。就用于垃圾電子郵件檢測的現(xiàn)在所嘗試的解決方案來說，本發(fā)明的實(shí)施方式的優(yōu)點(diǎn)是使用我們發(fā)明的系統(tǒng)從實(shí)際消息中的發(fā)送路徑信息中動(dòng)態(tài)學(xué)習(xí)，不需要其他參與者的“參與”，并且能夠?qū)l(fā)送路徑識(shí)別為“垃圾電子郵件的”，以及將一些發(fā)送路徑識(shí)別為“好的”。
本實(shí)施方式通過下面步驟工作分析因特網(wǎng)消息報(bào)頭中的標(biāo)準(zhǔn)“接收”行、從它們中提取該消息聲稱被傳過的IP地址和郵件域的列表、以及將這種信息與習(xí)得的發(fā)送路徑數(shù)據(jù)庫進(jìn)行比較。參照圖2，我們示出了使用本發(fā)明實(shí)施方式的信息系統(tǒng)200的簡化的框圖。系統(tǒng)200包括處理器202、系統(tǒng)存儲(chǔ)器204、網(wǎng)絡(luò)接口206和數(shù)據(jù)庫208。數(shù)據(jù)庫208可以是系統(tǒng)200的一部分或者可以被遠(yuǎn)程地經(jīng)由網(wǎng)絡(luò)接口206耦合到系統(tǒng)200。系統(tǒng)200通過網(wǎng)絡(luò)接口206接收電子郵件消息。然后，其分析該電子郵件消息內(nèi)的路徑信息，以確定是否將該電子郵件消息路由到目的地。將處理器202配置(例如，硬件布線或者編程)為提取該路徑信息并且將其與來自之前所分析的電子郵件的路徑信息進(jìn)行比較。系統(tǒng)200通過被針對(duì)被分類(sort)的消息、垃圾電子郵件和非垃圾電子郵件的開始集合進(jìn)行訓(xùn)練來學(xué)習(xí)其初始數(shù)據(jù)庫；在其整個(gè)操作中，其通過從將它們接收到的新消息告訴給其的終端用戶接收者接收“選票”來繼續(xù)學(xué)習(xí)。根據(jù)它們的可靠性的判斷來對(duì)來自每個(gè)消息的地址進(jìn)行分類，根據(jù)已經(jīng)從該地址來的垃圾電子郵件和非垃圾電子郵件將得分給予這些地址的每一個(gè)，并且這些的組合產(chǎn)生用于該消息的總得分。然后可以單獨(dú)或者與其他消息分類器(classifier)組合來使用這種得分以確定該消息的處置。
當(dāng)評(píng)價(jià)每個(gè)地址并且將得分給予其時(shí)，我們使用“聚集(aggregation)”算法。聚集是不用所分配的網(wǎng)絡(luò)拓?fù)涞闹苯又R(shí)而執(zhí)行的、而是通過直接組合IP地址的各部分而進(jìn)行的一種特設(shè)算法。在當(dāng)前因特網(wǎng)郵件行進(jìn)其上的IPV4系統(tǒng)中，IP地址每個(gè)包括四個(gè)字節(jié)，并且層級(jí)地進(jìn)行分配。僅僅使用該信息，可以為收集用于每個(gè)IP地址的信息，并且為該地址及其數(shù)據(jù)與共享連續(xù)高級(jí)字節(jié)的所有那些相連接，而創(chuàng)建數(shù)據(jù)庫208。例如，表示為“64.233.161.99”的地址可以使得其信息與用“64.233.161”開始的所有那些聚集，其隨后與用“64.233”開始的那些聚集。數(shù)據(jù)庫208分散地維持這種信息(使得地址不產(chǎn)生浪費(fèi)空間)，并且結(jié)果是有效率的，并且在發(fā)現(xiàn)垃圾電子郵件發(fā)送和非垃圾電子郵件發(fā)送的模式時(shí)也有效。還可以使用諸如利用域所有者關(guān)系(例如，列在下面的whois)之類的其他“聚集”方法。
對(duì)于每個(gè)地址(和聚集)，我們保留在訓(xùn)練階段期間從該地址(或者聚集)接收來的、通過在操作階段期間所接收到的選票增加的一些數(shù)量的垃圾電子郵件和非垃圾電子郵件信息。在操作期間，我們通過沿如由聚集所確定的其父節(jié)點(diǎn)和“靠近”其的節(jié)點(diǎn)在數(shù)據(jù)庫中發(fā)現(xiàn)其節(jié)點(diǎn)來評(píng)價(jià)每個(gè)地址，這為那個(gè)地址產(chǎn)生一個(gè)得分。
在以最新地址開始評(píng)價(jià)了每個(gè)地址之后，我們累積經(jīng)加權(quán)的平均值，與僅僅從其他“靠近的”地址中獲得的那些相比，將更多的權(quán)重給予精確(exact)的數(shù)據(jù)庫匹配。我們檢測和去除虛假信息，并且結(jié)果是作為整體用于消息的得分?？梢詥为?dú)使用該得分、或者與從內(nèi)容分析或者其他反垃圾電子郵件技術(shù)中獲得的得分組合，以確定消息的最終處置。
參照圖3，我們討論根據(jù)本發(fā)明實(shí)施方式用于分類電子消息的計(jì)算機(jī)實(shí)施的方法300?？梢杂煽刂坡酚伞爸欣^段(hop)”的電子郵件網(wǎng)絡(luò)中的任何節(jié)點(diǎn)來實(shí)施方法300。
步驟302確定用于傳輸消息的網(wǎng)絡(luò)路徑。這可以包括從消息報(bào)頭提取發(fā)送路徑?？蛇x地，消息可以符合RFC 2822而且可以從“RECEIVED”報(bào)頭中提取網(wǎng)絡(luò)路徑。
步驟304將可信性函數(shù)應(yīng)用于網(wǎng)絡(luò)路徑以確定沿從其接收到電子郵件消息的路徑的節(jié)點(diǎn)的可信性。應(yīng)用可信性函數(shù)的步驟可以包括分離地考慮網(wǎng)絡(luò)路徑中的每個(gè)節(jié)點(diǎn)；針對(duì)每個(gè)節(jié)點(diǎn)確定初步可信性；使用所述初步可信性，和路徑中一個(gè)或多個(gè)其他節(jié)點(diǎn)的可信性來確定該節(jié)點(diǎn)的可信性。確定初步可信性的步驟可以包括計(jì)數(shù)每個(gè)節(jié)點(diǎn)之前所發(fā)送的每個(gè)分類的消息的頻率。每個(gè)節(jié)點(diǎn)可以由它的IP地址來表示。
步驟306將關(guān)系函數(shù)應(yīng)用于網(wǎng)絡(luò)路徑。步驟308根據(jù)網(wǎng)絡(luò)路徑與之前所分析的消息所使用的路徑的相似性來確定消息的分類。步驟310根據(jù)該路徑的分析來確定要對(duì)電子郵件消息采取的行動(dòng)(例如，作為垃圾電子郵件刪除、發(fā)送到用戶的收件箱(inbox)或者發(fā)送到諸如“可疑垃圾電子郵件”郵件箱之類的替代目的地)。步驟310可以包括檢查從最近到最早的節(jié)點(diǎn)和將不好于之前所檢查的節(jié)點(diǎn)的可信性分配給每個(gè)節(jié)點(diǎn)。
方法300可以包括附加條件，即將低可信性給予計(jì)數(shù)步驟中對(duì)于適當(dāng)計(jì)數(shù)不具有足夠的歷史的節(jié)點(diǎn)。在本方法中，可以通過檢查由從消息中確定的參考域所發(fā)表的信息來確定初步可信性。
關(guān)系函數(shù)將每個(gè)之前沒被看到的節(jié)點(diǎn)與帶有類似IP地址的已知節(jié)點(diǎn)進(jìn)行比較?？梢哉J(rèn)為在它們的高階比特(higher-order bit)中匹配的IP地址和具有相同所有者的IP地址類似。
關(guān)系函數(shù)將每個(gè)之前沒被看到的節(jié)點(diǎn)域帶有類似域名的已知節(jié)點(diǎn)進(jìn)行比較?？梢哉J(rèn)為在域名層級(jí)中帶有部分匹配的節(jié)點(diǎn)類似?？梢哉J(rèn)為其域名具有相同所有者的節(jié)點(diǎn)類似。
根據(jù)另一種實(shí)施方式，我們討論根據(jù)分析用于傳輸已知垃圾電子郵件和已知好郵件的路徑來學(xué)習(xí)電子郵件域和IP地址的聲譽(yù)的方法。將該信息與用于過濾經(jīng)哄騙的郵件報(bào)頭的方法組合以確保垃圾電子郵件發(fā)送者不能規(guī)避路由分類分析。
所討論的方法只使用來自電子郵件消息的報(bào)頭中在標(biāo)準(zhǔn)“接收”行中所提及的IP地址來將消息分類為垃圾電子郵件或者非垃圾電子郵件。其實(shí)施一學(xué)習(xí)算法，其中我們假設(shè)用所選擇的對(duì)應(yīng)IP地址在之前所分類的郵件的代表集合上訓(xùn)練該算法。來自相同或者類似IP地址的郵件可能共享相同的分類。
為了精確地標(biāo)定(label)針對(duì)其存在少量數(shù)據(jù)的站點(diǎn)，我們可以使用利用諸如本地Bayes(native Bayes)或者Chung-Kwei之類的、可以更加精確地進(jìn)行區(qū)分的另一種技術(shù)的分類器。例如，雖然SMTP路徑分析不如通常所使用的Bayesian垃圾電子郵件分類器精確，但是其識(shí)別Bayesian分類器一般處理得最好的信息，并且在該空間的那些部分上其做得更好。雖然Bayesian分類器可以分類針對(duì)其不存在用于有效路徑分析的足夠數(shù)據(jù)的例子，但是可以使用SMTP路徑分析結(jié)果來修正來自Bayesian分類器的錯(cuò)誤評(píng)價(jià)。使用兩種結(jié)果的聚集分類器可以比使用任何一個(gè)的都好。
這里所描述的方法直接使用IP地址并且有時(shí)根據(jù)鄰近的IP地址來建立它們的聲譽(yù)，而不是通過聲明的外部集合將它們成組(grouping)并且學(xué)習(xí)這些組的聲譽(yù)。SPF在這方面具有的主要優(yōu)點(diǎn)是SPF可以將根本不同的地址范圍成組為單個(gè)實(shí)體，所以需要損失信息來創(chuàng)建用于該成組的聲譽(yù)；而且SPF明確描述范圍的界限在哪里。
SPF(寄信人來源確認(rèn))可以宣稱另一個(gè)優(yōu)點(diǎn)，其中，如果聲稱發(fā)送的域發(fā)表SPF記錄，其可以將通過合法網(wǎng)關(guān)的郵件與從僵進(jìn)程(zombie)直接發(fā)送到因特網(wǎng)的郵件進(jìn)行區(qū)分。然而，我們的算法實(shí)際上善于識(shí)別合法網(wǎng)關(guān)以及將直接來自僵進(jìn)程機(jī)器(或者“botnets”)的郵件進(jìn)行分類，所以該優(yōu)點(diǎn)小于其可能表現(xiàn)的那樣。當(dāng)可用時(shí)可以結(jié)合我們的算法來清楚地使用SPF信息，而當(dāng)不可用時(shí)，該算法代表其自己。還要注意，雖然如果所聲稱的發(fā)送域不發(fā)布SPF記錄，則SPF不能說明任何問題，但是我們的算法還是從發(fā)送路徑中學(xué)習(xí)而不論將什么域宣稱為消息的源。
SMTP協(xié)議指定用于發(fā)送電子郵件消息的每個(gè)SMTP中繼必須將(至少)包含關(guān)于接收該消息的SMTP服務(wù)器(服務(wù)器從該位置接收了消息)的信息的“接收”行、和聲明添加該報(bào)頭的時(shí)間的時(shí)間戳添加到該消息報(bào)頭列表的開始處。當(dāng)被一同考慮時(shí)，這些報(bào)頭行提供用于發(fā)送消息的SMTP路徑的蹤跡(trace)。
然而，不能完全相信在消息的接收報(bào)頭中所列出的SMTP路徑。不以任何方式標(biāo)記(sign)或者驗(yàn)證消息報(bào)頭，因此可以容易地進(jìn)行哄騙。沿路徑的任何SMTP服務(wù)器可以插入虛假報(bào)頭，其使得該消息看起來來自發(fā)送者選擇的任何路徑。
盡管如此，某些所接收的行報(bào)頭是可靠的。例如，可以信任由用戶自己域的進(jìn)入(inbound)SMPT服務(wù)器添加的所有報(bào)頭。站點(diǎn)還可以相信由與其有規(guī)律地進(jìn)行商業(yè)往來的組織所產(chǎn)生的接收行，假設(shè)它們可以識(shí)別這些組織的發(fā)出(outbound)服務(wù)器。但是一旦在接收行中暗示的SMTP路徑到達(dá)未知或者不值得信任的服務(wù)器，就不能信任剩余的所聲稱的SMTP路徑。
SMTP路徑分析通過分析使用該IP地址所發(fā)送的電子郵件的過去的歷史來學(xué)習(xí)IP地址的垃圾電子郵件特性(spamminess)或者良好性以進(jìn)行工作。該算法的學(xué)習(xí)階段將被標(biāo)為垃圾電子郵件或者非垃圾電子郵件的預(yù)先分類的消息的集合作為輸入。該學(xué)習(xí)算法從每個(gè)消息中提取按照推測郵件采用來到達(dá)接收者的IP地址序列，并且收集關(guān)于每個(gè)IP地址的統(tǒng)計(jì)。在其分類階段，該算法從目標(biāo)消息中提取IP地址序列，并且根據(jù)按照推測用于傳輸該消息的網(wǎng)關(guān)的IP地址產(chǎn)生用于該消息的得分。該得分可以受閾值的支配以產(chǎn)生是否為垃圾電子郵件的分類，或者可以被用作對(duì)聚集分類器的輸入。該算法不查看其他信息；特別是，其不另外地分析消息的內(nèi)容，也不考慮任何域信息。
在我們的方法的最基本形式中，針對(duì)每個(gè)IP地址所收集的統(tǒng)計(jì)完全就是其為之出現(xiàn)的垃圾電子郵件和非垃圾電子郵件的數(shù)量。然后，使用這些計(jì)數(shù)來估計(jì)通過任何之前所看見的IP地址的郵件是垃圾電子郵件的概率。根據(jù)需要將所述概率估計(jì)進(jìn)行平滑以針對(duì)小樣本尺寸進(jìn)行修正。在分類期間，我們查看用于傳送該消息的IP地址的序列并且根據(jù)我們具有針對(duì)其的足夠數(shù)據(jù)的鏈中的最后IP地址來將垃圾電子郵件特性分配給該消息。
在算法的上述概述甚至似乎正確之前還有兩個(gè)必須被解決的問題1.許多機(jī)器(特別是在鏈的開始的那些，其可以是連接到它們的服務(wù)提供商的僵進(jìn)程或者垃圾電子郵件發(fā)送者)不具有固定的IP地址，所以在作為我們正在試圖分類的消息中的一個(gè)的訓(xùn)練集合中看見相同IP地址的概率比希望的小。
2.上面技術(shù)易于哄騙。也就是，該消息可能來自垃圾電子郵件性的(spammy)IP地址和可能宣稱其正在繼續(xù)發(fā)送來自合法發(fā)送者的消息的機(jī)器。
我們通過在不存在針對(duì)當(dāng)前IP地址作出可靠決定的足夠數(shù)據(jù)的任何時(shí)候?qū)?dāng)前IP地址的統(tǒng)計(jì)與“鄰近“IP”地址的那些進(jìn)行組合來應(yīng)對(duì)動(dòng)態(tài)IP問題。存在可以用于這種目的的“鄰近”的許多可能定義。一種解決方案是建造迄今我們已經(jīng)看見的IP地址的樹。該樹的根具有多至256個(gè)子樹，每個(gè)與IP地址的各種可能的第一字節(jié)對(duì)應(yīng)。為了效率，我們使得樹稀疏，所以我們還沒有遇到的第一字節(jié)在該樹中不出現(xiàn)。這種稀疏性在該樹的所有分支中繼續(xù)。
隨后這些子樹的每一個(gè)其自己具有多至256個(gè)子樹，每個(gè)對(duì)應(yīng)于第二字節(jié)。雖然針對(duì)第三和第四字節(jié)進(jìn)行相同的過程，當(dāng)然，當(dāng)我們沿樹向下時(shí)分支變得更加稀疏，產(chǎn)生帶有少于232個(gè)節(jié)點(diǎn)的樹。
在每個(gè)節(jié)點(diǎn)n，我們存儲(chǔ)該節(jié)點(diǎn)所表示的該IP地址或者范圍已經(jīng)出現(xiàn)在其中的非垃圾電子郵件消息的數(shù)量NSn和垃圾電子郵件消息的數(shù)量Sn。計(jì)算作為節(jié)點(diǎn)的垃圾電子郵件性度量的比率，即Sn/(Sn+NSn)將垃圾電子郵件消息的數(shù)量除以已經(jīng)通過該地址或者范圍的消息的總數(shù)。
我們不能僅僅就這樣使用該比率。而且，存在兩個(gè)問題1.我們正在試圖記錄在內(nèi)部節(jié)點(diǎn)處的是如果我們獲得IP地址而不具有在該節(jié)點(diǎn)下面的精確匹配則將會(huì)有幫助的信息。應(yīng)該通過在平均IP子范圍處所發(fā)生的而不是在這些范圍中在一些特定IP地址處可能發(fā)生的來影響該值。在垃圾電子郵件發(fā)送者使用特定地址而不是作為整體的范圍的情況下這可能特別重要，并且因此我們將子節(jié)點(diǎn)的活動(dòng)進(jìn)行平均，而不由通過它們的郵件的數(shù)量進(jìn)行加權(quán)。
2.如果節(jié)點(diǎn)僅僅看見一個(gè)垃圾電子郵件而沒有非垃圾電子郵件，下一個(gè)郵件是垃圾電子郵件的概率不是100％。
我們通過我們實(shí)際計(jì)算用于該IP地址的得分的方式來解決這兩個(gè)問題。我們添加帶有得分為0.5的人為的新的根。如果可以獲得一個(gè)的話，我們重復(fù)地轉(zhuǎn)到包含實(shí)際IP地址的子樹。在該子樹處，我們計(jì)算該子樹的孩子和父親的平均值。也就是，如果存在九個(gè)孩子則我們采用平均十個(gè)節(jié)點(diǎn)父親和九個(gè)孩子。對(duì)于葉節(jié)點(diǎn)，我們采用由包含該葉的消息的數(shù)量所加權(quán)的葉節(jié)點(diǎn)的比率和父親的平均值。當(dāng)然，有時(shí)如果我們從未在我們的訓(xùn)練集合中看見這種精確的IP地址，則我們不到達(dá)葉節(jié)點(diǎn)。當(dāng)我們獲得新消息時(shí)，我們查看每個(gè)IP地址，從最后一個(gè)(最接近我們的接收機(jī)器的一個(gè))開始。我們計(jì)算其得分，其為在0和1之間的數(shù)字，然后將其與用于下一個(gè)IP地址的得分組合。我們以權(quán)重等于1/(s*(1-s))采用兩個(gè)IP地址的垃圾電子郵件性的經(jīng)加權(quán)的平均，其中s是上述的垃圾電子郵件性。原理是在序列中強(qiáng)垃圾電子郵件性和強(qiáng)非垃圾電子郵件性的IP地址是消息郵件的特性的較高指示器-帶有最極端得分的地址是對(duì)于計(jì)算最有意義的地址。我們繼續(xù)將當(dāng)前的平均值與下一個(gè)IP地址的垃圾電子郵件性組合的這種過程，直到我們到達(dá)列表結(jié)尾為止。
如上所述，上面技術(shù)易于哄騙。如果垃圾電子郵件發(fā)送者進(jìn)行哄騙以妨礙我們的算法，則郵件將顯示為通過垃圾電子郵件性的地址而來自合法的源。為了應(yīng)對(duì)這種問題，我們?yōu)槊總€(gè)中間地址建立可信性值，并且如果地址是不可信的，則我們至少可以部分忽略剩余的地址。
在實(shí)踐中，如果在序列中存在與訓(xùn)練集合中的IP地址精確匹配的任何IP地址，則當(dāng)我們只發(fā)現(xiàn)內(nèi)部節(jié)點(diǎn)時(shí)，其是比上面給出的得分更好的指示器。所以我們將更多權(quán)重給予精確的匹配。
在作為消息源頭的地址和作為網(wǎng)關(guān)動(dòng)作的地址之間存在區(qū)別，而我們針對(duì)源頭地址和中間地址保持分離的統(tǒng)計(jì)。考慮這樣的例子，一個(gè)企業(yè)，當(dāng)其開發(fā)了其公司現(xiàn)在的因特網(wǎng)時(shí)，在一個(gè)部門中的、已經(jīng)在之前的某段時(shí)間內(nèi)具有了因特網(wǎng)電子郵件地址的大多數(shù)用戶緩慢地從該部門內(nèi)的網(wǎng)關(guān)向企業(yè)范圍的網(wǎng)關(guān)移動(dòng)。當(dāng)垃圾電子郵件增加時(shí)，很少將該部門的網(wǎng)關(guān)用于合法郵件-通過這些網(wǎng)關(guān)之一移動(dòng)的郵件中98％為垃圾電子郵件，但是某些部門員工還繼續(xù)使用它。因此，根據(jù)對(duì)接收到的行的分析，會(huì)將從那些到該企業(yè)的其他部分的郵件標(biāo)為可能的垃圾電子郵件?？梢酝ㄟ^將最后IP地址(按照推測為源頭站點(diǎn))的統(tǒng)計(jì)與所有其他的分離來解決這個(gè)問題。所以，如果地址范圍接收許多垃圾電子郵件，但是源頭靠近其的所有郵件是好的，則其將被給予好的得分。
因此，雖然已經(jīng)描述了現(xiàn)在被認(rèn)為是優(yōu)選實(shí)施方式的實(shí)施方式，但是本領(lǐng)域的普通技術(shù)人員應(yīng)該理解，在本發(fā)明的精神內(nèi)可以進(jìn)行其他修改。
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)施的方法，包括步驟接收電子郵件消息，其包括多個(gè)分組、包括一個(gè)或多個(gè)單元的傳輸路徑信息以及針對(duì)所述電子郵件消息的至少一個(gè)接收者；使用所述傳輸路徑信息的所述一個(gè)或多個(gè)單元來確定針對(duì)所述電子郵件的網(wǎng)絡(luò)路徑；將所述路徑與多個(gè)之前電子郵件路徑進(jìn)行比較；確定所接收到的電子郵件的路徑和多個(gè)之前電子郵件路徑中的一個(gè)或多個(gè)之間的相似性度量；和根據(jù)所述相似性度量來確定針對(duì)所接收到的所述電子郵件的垃圾電子郵件得分。
2.根據(jù)權(quán)利要求1所述的方法，還包括當(dāng)將所述電子郵件消息確定為包括垃圾電子郵件時(shí)不將所述電子郵件消息轉(zhuǎn)發(fā)到所述的至少一個(gè)接收者。
3.根據(jù)權(quán)利要求1所述的方法，其中，所述傳輸路徑信息包括接收行，而所述方法還包括分析所述電子郵件消息報(bào)頭中的所述接收行；從所述接收行中提取所述電子郵件聲稱通過的IP地址和郵件域的列表；和將所述IP地址與包括沿每個(gè)傳輸路徑的IP地址的傳輸路徑的習(xí)得數(shù)據(jù)庫進(jìn)行比較。
4.根據(jù)權(quán)利要求3所述的方法，其中，在接收所述電子郵件消息之前，所述方法包括通過訓(xùn)練包括垃圾電子郵件和非垃圾電子郵件消息的經(jīng)分類的消息的開始集合來創(chuàng)建用于存儲(chǔ)多個(gè)之前電子郵件路徑的習(xí)得數(shù)據(jù)庫；和存儲(chǔ)用于在所述數(shù)據(jù)庫中所存儲(chǔ)的每個(gè)IP地址的開始垃圾電子郵件得分，其中所述垃圾電子郵件得分指示所接收到的電子郵件是垃圾電子郵件的似然性。
5.根據(jù)權(quán)利要求4所述的方法，還包括通過從接收電子郵件的用戶處接收選票來更新所述數(shù)據(jù)庫，其中每個(gè)選票指示所述用戶將所述電子郵件當(dāng)作垃圾電子郵件還是非垃圾電子郵件。
6.根據(jù)權(quán)利要求5所述的方法，還包括當(dāng)存儲(chǔ)IP地址時(shí)組合所述IP地址的各部分。
7.根據(jù)權(quán)利要求6所述的方法，還包括當(dāng)訓(xùn)練所述數(shù)據(jù)庫時(shí)聚集IP地址。
8.根據(jù)權(quán)利要求1所述的方法，還包括在以最近地址開始評(píng)價(jià)每個(gè)地址之后，累積經(jīng)加權(quán)的平均值，并且與僅僅從其他鄰近地址所獲得的那些相比將更多的權(quán)重給予精確的數(shù)據(jù)庫匹配。
9.根據(jù)權(quán)利要求1所述的方法，還包括檢測和去除虛假信息，和作為整體提供關(guān)于該消息的得分。
10.根據(jù)權(quán)利要求1所述的方法，還包括對(duì)由所述電子郵件消息所跟隨的所述網(wǎng)絡(luò)路徑應(yīng)用可信性函數(shù)。
11.根據(jù)權(quán)利要求1所述的方法，還包括對(duì)由所述電子郵件消息所跟隨的所述網(wǎng)絡(luò)路徑應(yīng)用關(guān)系函數(shù)。
12.根據(jù)權(quán)利要求11所述的方法，其中應(yīng)用所述可信性函數(shù)的所述步驟包括分離地考慮所述網(wǎng)絡(luò)路徑中的每個(gè)節(jié)點(diǎn)；確定針對(duì)每個(gè)節(jié)點(diǎn)的初步可信性；使用所述初步可信性，和所述路徑中一個(gè)或多個(gè)其他節(jié)點(diǎn)的可信性，來確定該節(jié)點(diǎn)的可信性。
13.根據(jù)權(quán)利要求11所述的方法，其中確定所述初步可信性的所述步驟包括對(duì)之前由每個(gè)節(jié)點(diǎn)所發(fā)送的每個(gè)分類的消息的頻率進(jìn)行計(jì)數(shù)。
14.根據(jù)權(quán)利要求7所述的方法，其中聚集IP地址是基于域所有者關(guān)系的。
15.根據(jù)權(quán)利要求11所述的方法，其中至少一個(gè)節(jié)點(diǎn)由其IP地址表示。
16.根據(jù)權(quán)利要求11所述的方法，其中由所述網(wǎng)關(guān)計(jì)算機(jī)的DNS名表示至少一個(gè)節(jié)點(diǎn)。
17.根據(jù)權(quán)利要求12所述的方法，其中使用所述初步可信性的所述步驟包括檢查從最近到最早的所述節(jié)點(diǎn)；將不好于所述之前檢查的節(jié)點(diǎn)的可信性的可信性分配給每個(gè)節(jié)點(diǎn)。
18.根據(jù)權(quán)利要求12所述的方法，其中將低可信性給予在所述計(jì)數(shù)步驟中針對(duì)適當(dāng)計(jì)數(shù)不具有足夠歷史的節(jié)點(diǎn)。
19.一種信息處理系統(tǒng)，包括處理器，配置來接收包括多個(gè)分組和傳輸路徑信息的電子郵件消息；使用所述傳輸路徑信息來確定針對(duì)所述電子郵件的路徑；將所述路徑與多個(gè)之前電子郵件路徑進(jìn)行比較；確定所接收到的所述電子郵件的所述路徑和多個(gè)之前電子郵件路徑中的一個(gè)或多個(gè)之間的相似性度量；和根據(jù)所述相似性度量來確定針對(duì)接收到的所述電子郵件的垃圾電子郵件得分。
全文摘要
一種方法，包括步驟接收包括多個(gè)分組和傳輸路徑信息的電子郵件消息；使用所述傳輸路徑信息確定針對(duì)所述電子郵件的路徑；將所述路徑與多個(gè)之前電子郵件路徑進(jìn)行比較；確定所接收到的電子郵件的路徑和多個(gè)之前電子郵件路徑中的一個(gè)或多個(gè)之間的相似性度量；和根據(jù)所述相似性度量來確定針對(duì)所接收到的所述電子郵件的垃圾電子郵件得分。其他實(shí)施方式包括具有執(zhí)行上述功能的計(jì)算機(jī)代碼的計(jì)算機(jī)可讀介質(zhì)，和包括被配置(即，硬件布線或者編程)來執(zhí)行該方法的處理器的信息處理系統(tǒng)。
文檔編號(hào)H04L9/00GK101014020SQ200710004759
公開日2007年8月8日申請日期2007年1月30日優(yōu)先權(quán)日2006年2月3日
發(fā)明者馬克·N·韋格曼, 巴里·萊巴, 理查德·西格爾, 韋達(dá)科達(dá)圖·T·拉簡, 喬爾·奧施爾申請人:國際商業(yè)機(jī)器公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬克.N.韋格曼;巴里.萊巴;理查德.西格爾;韋達(dá)科達(dá)圖.T.拉簡;喬爾.奧施爾
技術(shù)所有人：國際商業(yè)機(jī)器公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用于電子郵件的協(xié)議是相關(guān)技術(shù)

用于電子郵件的協(xié)議相關(guān)技術(shù)

用于電子郵件的協(xié)議有相關(guān)技術(shù)

美的電子郵件系統(tǒng)相關(guān)技術(shù)

京東方電子郵件系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于識(shí)別垃圾電子郵件的方法和系統(tǒng)的制作方法