專利名稱:用于防止垃圾郵件的反饋循環(huán)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于識別合法(例如好郵件)和不受歡迎的信息(例如垃圾郵件)的系統(tǒng)與方法,尤其涉及為防止垃圾郵件而對電子郵件通信進行分類。
背景技術(shù):
諸如因特網(wǎng)等全球通信網(wǎng)絡(luò)的出現(xiàn)提供了與大量潛在顧客建立聯(lián)系的商業(yè)契機。電子消息通信,尤其是電子郵件(“e-mail”),作為向網(wǎng)絡(luò)用戶散布不需要的廣告與促銷(也稱“垃圾郵件”)的手段,正變得越來越普遍。
Radicati集團有限公司——一家咨詢與市場研究公司,估算到如在2002年8月,每天有20億垃圾電子郵件消息被發(fā)送——此數(shù)字預(yù)期每兩年增至三倍。個人與企業(yè)(例如公司、政府機構(gòu))感覺日益不便,并時常不勝垃圾郵件之煩。同樣地,垃圾電子郵件如今或即將成為對于可信計算的一種主要威脅。
一種用于阻礙垃圾電子郵件的關(guān)鍵技術(shù)是使用過濾系統(tǒng)和/或方法。一種已經(jīng)證實的過濾技術(shù)是基于機器學習方法——機器學習過濾器向傳入消息分配該消息為垃圾郵件的概率。在此方法中,通常從兩類示例消息(例如垃圾和非垃圾消息)中提取特征,并應(yīng)用學習過濾器在兩類間進行概率區(qū)分。因為許多消息特征涉及內(nèi)容(例如在消息主題和/或正文內(nèi)的單詞和短語),此類過濾器通常被稱作“基于內(nèi)容的過濾器”。
某些垃圾郵件/兜售信息過濾器是自適應(yīng)的,這是重要的,因為多語言用戶及使用小語種語言的用戶需要能自適應(yīng)于其特殊需求的過濾器。此外,不是所有用戶都能在什么是和不是垃圾郵件/兜售信息上取得一致。因此,通過使用可隱式地訓練的(例如,經(jīng)由觀察用戶行為)過濾器,可動態(tài)地度身定制各個過濾器以滿足用戶的特定消息識別需求。
過濾自適應(yīng)的一種方法是請求用戶將消息標記為垃圾郵件和非垃圾郵件。不幸的是,由于與此類訓練相關(guān)聯(lián)的復(fù)雜性,此類手動密集型訓練技術(shù)對許多用戶來說是不受歡迎的,更不必說正確地實現(xiàn)此類訓練所需的時間量。此外,個人用戶常常使此類手動訓練技術(shù)變得有缺陷。例如,免費郵件發(fā)送列表的訂閱常被用戶遺忘,因此被誤標為垃圾郵件。結(jié)果,合法郵件被無限期地阻斷進入用戶的郵箱。另一種自適應(yīng)過濾器訓練方法是使用隱式訓練提示。例如,如果用戶回復(fù)或轉(zhuǎn)發(fā)消息,該方法假設(shè)該消息是非垃圾郵件。然而,僅使用此類消息提示將統(tǒng)計偏差引入到訓練過程中,導致較低相應(yīng)準確率的過濾器。
又一種方法是將所有用戶的電子郵件用于訓練,其中初始標簽是由現(xiàn)有過濾器分配的,且用戶有時用顯式提示(例如“用戶糾正”方法)——例如,選擇諸如“作為垃圾郵件刪除”和“非垃圾郵件”等選項——和/或隱式提示覆蓋那些分配。盡管此類方法優(yōu)于前文所討論的技術(shù),與以下描述和要求保護的本發(fā)明相比,它仍是不完善的。
發(fā)明概述為了提供對本發(fā)明的某些方面的基本理解,以下給出本發(fā)明的簡化概述。此概述不是本發(fā)明的詳盡綜述。它不試圖標識本發(fā)明的關(guān)鍵和決定性元素或描繪本發(fā)明的范疇。其唯一的目的是以簡化形式提出本發(fā)明的一些概念,作為對稍后提供的更詳細描述的前言。
本發(fā)明提供一種便于就防止垃圾郵件而言對項目進行分類的反饋循環(huán)系統(tǒng)和方法。本發(fā)明利用了應(yīng)用于垃圾郵件過濾器的機器學習方法,尤其是隨機地對傳入的電子郵件消息進行采樣,從而獲得合法和垃圾/兜售信息郵件來生成訓練數(shù)據(jù)集。預(yù)先選定的個人擔當垃圾郵件戰(zhàn)士(fighter),并參與對樣本的各副本(可選擇性地稍作修改)進行歸類。
一般而言,對選中供輪詢用的消息在各個方面進行修改,使其表現(xiàn)為輪詢消息。本發(fā)明的一個獨特的方面是,對選中供輪詢用的傳入消息進行復(fù)制,從而某些用戶(例如,垃圾郵件戰(zhàn)士)會兩次接收到同一消息(例如,在消息內(nèi)容方面)一次是輪詢消息的形式,第二次是其原始形式。本發(fā)明的另一個獨特的方面是,所有消息都被考慮用于輪詢——包括那些已由現(xiàn)有過濾器標記為垃圾郵件的消息。被標記為垃圾郵件的消息被考慮用于輪詢,并且如果被選中,不作為垃圾郵件根據(jù)現(xiàn)有過濾器的規(guī)范來對待(例如,移到垃圾郵件文件夾、刪除……)。
和常規(guī)垃圾郵件過濾器不同,可通過根據(jù)本發(fā)明的反饋技術(shù)來訓練垃圾郵件過濾器,使其學會區(qū)分好郵件和垃圾郵件,創(chuàng)建了更準確的垃圾郵件過濾器,從而減少有偏差的和不準確的過濾。反饋至少部分地通過輪詢?nèi)魏魏线m數(shù)量的用戶以獲取對其傳入電子郵件的反饋來達成。被標識為垃圾郵件戰(zhàn)士的用戶被賦予對一傳入消息的選擇是合法郵件還是垃圾郵件進行表決的任務(wù)。對傳入電子郵件的肯定和否定分類都被期望減輕將供用戶使用的好郵件(例如,非垃圾郵件)錯誤地作為垃圾郵件過濾掉。相應(yīng)的分類和任何其它與每次郵件事務(wù)相關(guān)聯(lián)的信息被移到數(shù)據(jù)庫中,以便于訓練垃圾郵件過濾器。數(shù)據(jù)庫和相關(guān)組件能夠編譯和存儲選中消息(或選中的郵件事務(wù))的屬性,包括用戶屬性、用戶表決信息和歷史、諸如分配給每個選中消息的唯一標識號等消息屬性、消息分類、以及消息內(nèi)容摘要、或涉及以上任一個的統(tǒng)計數(shù)據(jù),來為機器學習系統(tǒng)生成訓練數(shù)據(jù)集。機器學習系統(tǒng)(例如,神經(jīng)網(wǎng)絡(luò)、支持矢量機(SVM)、貝葉斯信任網(wǎng)絡(luò))便于創(chuàng)建被訓練以識別合法郵件和垃圾郵件、并能區(qū)別這兩者的改進的垃圾郵件過濾器。一旦根據(jù)本發(fā)明訓練了新的垃圾郵件過濾器,則可將其分發(fā)到郵件服務(wù)器和客戶機電子郵件軟件程序。此外,可以相對于特定用戶來訓練新的垃圾郵件過濾器,以改進個性化過濾器的性能。當構(gòu)建了新的訓練數(shù)據(jù)集時,垃圾郵件過濾器可以經(jīng)由機器學習經(jīng)受進一步的訓練,來優(yōu)化其性能和準確度。還可以利用消息分類方式的用戶反饋,來生成垃圾郵件過濾器和家長控制的列表、測試垃圾郵件過濾器的性能、和/或識別垃圾郵件發(fā)源處。
本發(fā)明的另一個方面提供了一種通過交叉確認技術(shù)和/或已知結(jié)果測試消息來檢測不可信用戶的方法。交叉確認涉及對排除了某些用戶的輪詢結(jié)果的過濾器進行訓練。即,使用來自用戶子集的輪詢結(jié)果來訓練過濾器。平均來說,即使有一些錯誤,此的用子集戶仍工作得很好,足以檢測出那些通常與他們不一致的用戶。將來自被排除的用戶的輪詢結(jié)果與經(jīng)訓練的過濾器的結(jié)果進行比較。此比較實質(zhì)上確定了來自訓練子集的用戶對屬于被排除用戶的消息如何表決。如果被排除的用戶的表決和過濾器間的一致性很低,那么來自該用戶的輪詢結(jié)果可被舍棄或被標記以供手動檢查。此技術(shù)可如所需地重復(fù),每次排除來自不同用戶的數(shù)據(jù)。
諸如過濾器和用戶表決極不一致的消息等個別消息的錯誤也可被檢測出來。這些消息可被標記以供自動移除和/或手動檢查。作為交叉確認的替換,可以在全部或者基本全部用戶上訓練過濾器。與過濾器不一致的用戶表決和/或消息可被舍棄。交叉確認的另一替換涉及其中要求用戶對結(jié)果已知的消息進行表決的已知結(jié)果測試消息。用戶對消息的準確分類(例如,用戶表決和過濾器行動匹配)驗證該用戶的可信性,并且確定是否要從訓練中移除該用戶的分類,以及是否要從將來的輪詢中移除該用戶。
本發(fā)明的又一個方面提供創(chuàng)建已知垃圾郵件目標(例如,蜜罐(honeypot))來將傳入郵件標識為垃圾郵件,和/或跟蹤特定商業(yè)電子郵件地址的處理。已知垃圾郵件目標,或稱蜜罐,是可以確定合法郵件組并將所有其它郵件視為垃圾郵件的電子郵件地址。例如,可以用不太可能被人們發(fā)現(xiàn)的限制形式在某網(wǎng)站上透露電子郵件地址。因此,任何發(fā)送到此地址的電子郵件可被視為垃圾郵件。或者,可僅將該電子郵件地址透露給期望從其收到合法電子郵件的商家。因此,從該商家收到的郵件是合法的,但收到的所有其它郵件可被安全地視為垃圾郵件??蓪⒃从诿酃藓?或其它來源(例如,用戶)的垃圾郵件數(shù)據(jù)集成到反饋循環(huán)系統(tǒng)中,但是因為使用蜜罐的垃圾郵件分類的大量增長,應(yīng)減少此類數(shù)據(jù)的權(quán)重以減少獲得有偏差的輪詢結(jié)果,這將在下文更詳細地描述。
本發(fā)明的另一個方面提供對反饋循環(huán)系統(tǒng)或過濾器認為不確定的消息的隔離。此類消息被保留任何適當?shù)臅r間段,而不是被舍棄或分類。可以預(yù)先設(shè)定此時間段,或者可以保留該消息直至收到類似于該消息(例如,來自同一IP地址或具有相似的內(nèi)容)的預(yù)定數(shù)量的輪詢結(jié)果。
為了達成前述和有關(guān)目的,本文中連同以下描述和附圖描述了本發(fā)明的某些說明性方面。但是,這些方面僅示出可使用本發(fā)明的原理的各種方法中的一些方法,并且本發(fā)明旨在包括所有此類方面及其等效方面。當結(jié)合附圖考慮時,本發(fā)明的其它優(yōu)點與新穎特征將從以下對本發(fā)明的具體描述中變得顯而易見。
附圖簡述
圖1A是根據(jù)本發(fā)明的一個方面的反饋循環(huán)訓練系統(tǒng)的框圖。
圖1B是根據(jù)本發(fā)明的一個方面的示例性反饋循環(huán)訓練過程的流程圖。
圖2是根據(jù)本發(fā)明的一個方面,便于用戶分類郵件以創(chuàng)建垃圾郵件過濾器的示例性方法的流程圖。
圖3是根據(jù)本發(fā)明的一個方面,便于對參與圖2的方法的用戶進行交叉確認的示例性方法的流程圖。
圖4是根據(jù)本發(fā)明的一個方面,便于判定用戶是否不可信的示例性方法的流程圖。
圖5是根據(jù)本發(fā)明的一個方面,便于捕捉垃圾郵件并確定垃圾郵件始發(fā)者的示例性方法的流程圖。
圖6是根據(jù)本發(fā)明的一個方面的基于客戶機的反饋循環(huán)體系結(jié)構(gòu)的框圖。
圖7是根據(jù)本發(fā)明的一個方面,具有生成訓練數(shù)據(jù)的一個或多個用戶的基于服務(wù)器的反饋循環(huán)系統(tǒng)的框圖。
圖8是根據(jù)本發(fā)明的一個方面,跨組織的基于服務(wù)器的反饋循環(huán)系統(tǒng)的框圖,其中該系統(tǒng)包括自帶數(shù)據(jù)庫的內(nèi)部服務(wù)器,來拉出存儲在外部用戶數(shù)據(jù)庫上的訓練數(shù)據(jù)。
圖9示出了用于實現(xiàn)本發(fā)明的各個方面的示例性環(huán)境。
圖10是根據(jù)本發(fā)明的示例性通信環(huán)境的示意性框圖。
發(fā)明的詳細描述現(xiàn)在參考附圖描述本發(fā)明,圖中相同的參考標號始終用于指相同的元素。在以下描述中,出于解釋的目的,闡述了大量具體細節(jié),以提供對本發(fā)明的徹底理解。然而,顯然可以不用這些具體細節(jié)來實施本發(fā)明。在其它例子中,為了便于描述本發(fā)明,以框圖形式示出公知的結(jié)構(gòu)和設(shè)備。
如在本發(fā)明中所用的,術(shù)語“組件”和“系統(tǒng)”指的是計算機相關(guān)的實體,它們或者是硬件、硬件和軟件的組合、軟件、或者執(zhí)行中的軟件。例如,組件可以是,但不限于,運行于處理器上的進程、處理器、對象、可執(zhí)行碼、執(zhí)行線程、程序和/或計算機。作為說明,在服務(wù)器上運行的應(yīng)用程序及該服務(wù)器都可以是組件。一個或多個組件可駐留在進程和/或執(zhí)行線程內(nèi),且組件可位于一臺計算機上和/或分布在兩臺或多臺計算機之間。
本發(fā)明可結(jié)合與為機器學習的垃圾郵件過濾生成訓練數(shù)據(jù)有關(guān)的各種推論方案和/或技術(shù)。如本文中所用的,術(shù)語“推論”一般指從一組經(jīng)由事件和/或數(shù)據(jù)捕捉的觀察中推理或推斷系統(tǒng)、環(huán)境和/或用戶的狀態(tài)的過程。例如,推論可用于識別具體上下文或動作,或可生成狀態(tài)的概率分布。推論可以是概率性的——即,基于對數(shù)據(jù)和事件的考慮計算感興趣的狀態(tài)的概率分布。推論也可指用于從一組事件和/或數(shù)據(jù)組成高級事件的技術(shù)。此類推論導致從一組所觀察的事件和/或所存儲的事件數(shù)據(jù)中構(gòu)造新事件或行動,無論各事件是否在時間上緊密相關(guān),也無論各事件和數(shù)據(jù)是來自一個還是數(shù)個事件和數(shù)據(jù)源。
應(yīng)當理解,盡管貫穿此說明書大量使用術(shù)語消息,此類術(shù)語不限于電子郵件本身,而是可恰當?shù)剡m用于包括可分布在任何適當?shù)耐ㄐ朋w系結(jié)構(gòu)上的任何形式的電子消息通信。例如,便于兩人或多人之間的會議的會議應(yīng)用程序(例如,交互式聊天程序,以及即時消息通信程序)也可利用本文所揭示的過濾的益處,因為討厭的文本可在用戶交換消息時被電子地散布到正常的聊天消息中,和/或作為開始消息、結(jié)束消息或以上所有消息被插入。在此特定應(yīng)用中,為了捕捉非期望的內(nèi)容(例如商業(yè)廣告、促銷、或廣告)并將其標記為垃圾郵件,可將過濾器訓練成自動過濾特定消息內(nèi)容(文本和圖像)。
在本發(fā)明中,術(shù)語“接收者”指傳入消息或項目的收件人。術(shù)語“用戶”指被動地或主動地選擇參與如本文中所描述的反饋循環(huán)系統(tǒng)和過程的接收者。
現(xiàn)參考圖1,示出根據(jù)本發(fā)明的一個方面的反饋訓練系統(tǒng)10的通用框圖。消息接收組件12接收傳入的消息(記為IM)并將其傳送到預(yù)期的接收者14。如許多消息接收組件(例如,垃圾郵件過濾器)的慣例,該消息接收組件可包括至少一個過濾器16。消息接收組件12結(jié)合過濾器16來處理消息(IM)并向預(yù)期的接收者14提供過濾后的消息子集(IM’)。
作為本發(fā)明的反饋方面的一部分,輪詢組件18接收所有傳入的消息(IM)并識別各自的預(yù)期接收者14。例如,該輪詢組件選擇預(yù)期接收者14的一個子集(被稱為垃圾郵件戰(zhàn)士20)來將傳入消息的一個子集(記為IM”)分類為垃圾郵件或非垃圾郵件。分類相關(guān)的信息(記為表決信息)被提交給消息存儲/表決存儲22,其中表決信息和各個IM”的副本被儲存以供諸如反饋組件24等于稍后使用。具體地,反饋組件24使用了機器學習技術(shù)(例如,神經(jīng)網(wǎng)絡(luò)、SVM、貝葉斯網(wǎng)絡(luò)或者任何適用于本發(fā)明的機器學習系統(tǒng)),該機器學習技術(shù)利用表決信息,以相對于例如識別垃圾郵件來對過濾器16進行訓練和/或改進(和/或構(gòu)建新的過濾器)。當通過新訓練的過濾器16處理了新的傳入消息流,更少的垃圾郵件和更多的合法消息(記為IM’)被傳送到預(yù)期接收者14。因此,系統(tǒng)10通過利用垃圾郵件戰(zhàn)士20生成的反饋,促進了垃圾郵件的識別和改進的垃圾郵件過濾器的訓練。本發(fā)明的此類反饋方面提供了用于改進垃圾郵件檢測系統(tǒng)的豐富和高度動態(tài)的方案。以下討論關(guān)于本發(fā)明的更詳細方面的各種細節(jié)。
現(xiàn)參考圖1B,根據(jù)本發(fā)明示出了有關(guān)對抗垃圾郵件和垃圾郵件防止的反饋循環(huán)訓練流程圖100。在訓練過程的準備階段和/或訓練過程之前,選擇用戶作為垃圾郵件戰(zhàn)士(例如,從包含所有電子郵件用戶的主集中)——根據(jù)本發(fā)明,選擇可基于隨機采樣、或者信任級別、或者任何適當?shù)倪x擇方案/標準。例如,選中的用戶子集可包括所有用戶、一組隨機選擇的用戶、決定做垃圾郵件戰(zhàn)士的用戶、或者未決定退出的用戶、和/或其任意組合、和/或部分地基于其人口位置和相關(guān)信息。
或者,可將所選擇的電子郵件用戶主集限于付費用戶,這可以讓垃圾郵件發(fā)件人需付出更高代價才能破壞本發(fā)明。因此,被選中參與對抗垃圾郵件的用戶子集可僅包含付費用戶。隨即可創(chuàng)建包括選中的用戶(例如,垃圾郵件戰(zhàn)士)的名字和屬性的列表或顧客表。
當收到了傳入的消息流102時,在104對照所有垃圾郵件戰(zhàn)士的列表檢查每個消息的接收者。如果接收者在該列表上,那么該消息被考慮用于輪詢。接下來,確定是否要選擇消息用于輪詢。與常規(guī)垃圾郵件過濾器不同,本發(fā)明至少在所有傳入郵件被考慮用于輪詢之前不刪除任何消息(例如,垃圾郵件)。即,在郵件經(jīng)受任何標記(例如,垃圾郵件、非垃圾郵件)之前先分類該郵件——這樣做便于獲取可用于用戶輪詢的無偏差的消息樣本。
可使用用于消息選擇的組件(未示出)來按某一隨機概率選擇消息,以減少數(shù)據(jù)偏差。另一種方法涉及使用人口信息和其它用戶/接收者屬性和性質(zhì)。因此,可至少部分地基于用戶/接收者來選擇消息。存在用于選擇消息的其它替換算法。但是,對于每個用戶或每個用戶每個時間段選擇的消息數(shù)量,或從任何給定用戶選擇消息的概率可能有限制。如果沒有此類限制,垃圾郵件發(fā)件人可以創(chuàng)建賬號、向其發(fā)送數(shù)以百萬計的垃圾郵件消息、以及將所有此類消息分類為好的消息這將允許垃圾郵件發(fā)件人用錯誤地標記的消息來毀壞訓練數(shù)據(jù)庫。
著名的被稱為黑洞列表的某些形式的垃圾郵件過濾可能不能被跳過。黑洞列表防止服務(wù)器從互聯(lián)網(wǎng)協(xié)議(IP)地址列表接收任何郵件。因此,消息的選擇可以從并非來自黑洞列表的郵件組中選擇。
本發(fā)明的一個獨特方面是由當前就位的過濾器標記為垃圾郵件的被選中用于輪詢的消息不被刪除或移到垃圾郵件文件夾。相反,它們被放置在接收所有其它消息供輪詢考慮的普通收件箱或郵箱中。但是,如果消息有兩個副本,并且過濾器認為該消息是垃圾郵件,那么將一個副本傳送到垃圾郵件文件夾,或根據(jù)設(shè)定的參數(shù)進行處理(例如,刪除、特別標記、或移到垃圾郵件文件夾)。
當一消息被選中,它被轉(zhuǎn)發(fā)給用戶并以某種特殊方式標記以指示其為輪詢消息。具體地,選中的消息可由消息修改組件106修改。消息修改的例子包括,但不限于,將輪詢消息定位到單獨的文件夾、改變“自(from)”地址或主題行、和/或使用向用戶將該消息標識為輪詢消息的特殊圖標或特殊顏色。也可將選中的消息封裝在另一消息內(nèi),該另一消息向用戶提供如何表決和/或分類被封裝消息的指令。例如,這些指令可包括至少兩個按鈕或鏈接一個將消息表決為垃圾郵件,另一個將消息表決為非垃圾郵件。
在向用戶發(fā)送輪詢消息的副本之前,可通過修改消息的內(nèi)容來實現(xiàn)表決按鈕。當對于客戶機電子郵件軟件(與電子郵件服務(wù)器相對)使用本發(fā)明時,可修改用戶界面以包括表決按鈕。
此外,輪詢消息可包含指令和表決按鈕,以及所附的選中消息。輪詢消息還可包含諸如主題行、自地址、發(fā)送日期和/或接收日期、以及文本或文本的至少前幾行等選中消息的摘要。另一種方法涉及隨表決指令和對其預(yù)先考慮的表決按鈕一起發(fā)送消息。在實施中,當用戶打開和/或下載輪詢消息的副本時,包括但不限于“垃圾郵件”和“非垃圾郵件”按鈕的按鈕(或鏈接)會在用戶界面上彈出,或者可以結(jié)合到輪詢消息中。因此,每個輪詢消息都包含一組指令和適當?shù)谋頉Q按鈕是可能的。其它修改可以是必需的,可能包括移除HTML背景指令(它們將使指令的文本或按鈕難以看見)。
取決于期望信息的類型,還可提供諸如“索取的商業(yè)電子郵件”按鈕等另一按鈕。消息還可包括退出將來的輪詢的按鈕/鏈接。指令被本地化為用戶偏好的語言,并且可被嵌入到輪詢消息中。
此外,選中用于輪詢的消息可由消息修改組件106或由某些其它合適的病毒掃描組件(未示出)掃描病毒。如果找到病毒,可以剝離該病毒或舍棄該消息。應(yīng)當理解,病毒剝離可以發(fā)生在系統(tǒng)100的任何點,包括當消息被選中時以及正當用戶下載消息之前。
修改消息之后,消息傳送組件108向用戶傳送輪詢消息以供表決。向用戶反饋(例如,輪詢消息、用戶表決、以及任何與其相關(guān)聯(lián)的用戶屬性)分配唯一標識符(ID)110(例如,元數(shù)據(jù))。ID 110和/或與其對應(yīng)的信息被提交給編譯和存儲用戶分類/表決的消息存儲/表決存儲112(例如,中央數(shù)據(jù)庫)。
在數(shù)據(jù)庫級,可保存可用于輪詢的選中的消息以供稍后輪詢或使用。此外,數(shù)據(jù)庫可以在定時基礎(chǔ)上執(zhí)行頻率分析,來確定未對特定用戶過采樣,以及在如用戶所指定的限制內(nèi)從該用戶收集了一定數(shù)量的數(shù)據(jù)。具體地,反饋系統(tǒng)100監(jiān)視用戶郵件的百分比限制和采樣周期,以減輕采樣和數(shù)據(jù)的偏差。當從包括低使用率和高使用率用戶的所有可用用戶中選擇用戶時,這尤顯重要。例如,與高使用率用戶相比,低使用率用戶通常接收和發(fā)送數(shù)量少得多的郵件。因此,系統(tǒng)100監(jiān)視消息選擇過程,以確保選中的消息大約是用戶接收到的每T個消息中的1個,并且不多于用戶每Z小時收到1個消息。因此,例如,該系統(tǒng)可對每10個要被采樣的傳入消息中的1個進行輪詢(例如,考慮用于輪詢),但不多于每2小時1個。該頻率(或百分比)限制減輕了與高使用率用戶相比、對低使用率用戶采樣不成比例數(shù)量的消息,而且還減輕了過度騷擾某個用戶。
中央數(shù)據(jù)庫112時常掃描那些已被系統(tǒng)100采樣用于輪詢、但還未被分類的消息。數(shù)據(jù)庫拉出這些消息,并相對于相應(yīng)用戶的人口屬性將它們本地化,并創(chuàng)建輪詢消息來請求用戶表決和分類這些消息。但是,垃圾郵件過濾器可以不在收到每個新傳入分類之后就立即被修改或訓練。相反,離線訓練允許訓練者在被調(diào)度的、進行中的、或每日的基礎(chǔ)上不斷地查看接收到數(shù)據(jù)庫112中的數(shù)據(jù)。即,訓練者從預(yù)定的開始點或在過去設(shè)定的時間量開始,并查看從該點起向前的數(shù)據(jù)來訓練過濾器。例如,預(yù)定的時間段可以是從午夜到早上6點。
可以通過用機器學習技術(shù)114(例如,神經(jīng)網(wǎng)絡(luò)、支持矢量機(SVM))分析數(shù)據(jù)庫112中維護的消息分類,在進行中的基礎(chǔ)上訓練新的垃圾郵件過濾器。機器學習技術(shù)需要好郵件和垃圾郵件的例子以從中進行學習,從而它們能夠?qū)W會區(qū)分這兩者。甚至基于匹配已知的垃圾郵件示例的技術(shù)也可從具有好郵件的示例中獲益,從而它們能確定它們沒有意外地捕獲好的郵件。
因此,具有肯定和否定的垃圾郵件示例兩者,而非僅具有投訴,是很重要的。存在一些同時發(fā)送出大量垃圾郵件和諸如免費郵件發(fā)送列表等合法郵件的域。如果僅基于投訴構(gòu)建系統(tǒng),則來自這些域的所有郵件會被過濾掉,導致大量的錯誤。因此,知道該域還發(fā)送出大量好郵件是重要的。此外,用戶常常犯諸如忘記他們在某免費郵件發(fā)送列表上簽約等錯誤。例如,諸如New York Times等大型合法供應(yīng)者有規(guī)律地發(fā)送出合法郵件。一些用戶忘記他們曾簽約并進行投訴,從而將這些消息分類為垃圾郵件。如果沒有大多數(shù)用戶意識到此郵件為合法的數(shù)據(jù),來自此站點的郵件將被阻斷。
新過濾器116可由分發(fā)組件118在進行中的基礎(chǔ)上通過參與的因特網(wǎng)服務(wù)供應(yīng)商(ISP)分發(fā)到電子郵件或消息服務(wù)器、個別電子郵件客戶機、更新服務(wù)器、和/或個別公司的中央數(shù)據(jù)庫。此外,反饋系統(tǒng)100在進行中的基礎(chǔ)上運行,從而被考慮并用于輪詢的消息樣本可以遵循系統(tǒng)100收到的電子郵件的實際分布。結(jié)果,用于訓練新垃圾郵件過濾器的訓練數(shù)據(jù)集相對于自適應(yīng)的垃圾郵件發(fā)件人而言保持最新。當構(gòu)建了新的過濾器時,可以基于多久之前獲得輪詢數(shù)據(jù)來將其舍棄或降低權(quán)重(例如,進行折扣)。
當在諸如網(wǎng)關(guān)服務(wù)器、電子郵件服務(wù)器和/或消息服務(wù)器等服務(wù)器處接收郵件時,可以實現(xiàn)系統(tǒng)100。例如,當郵件進入電子郵件服務(wù)器時,該服務(wù)器查找預(yù)期接收者的屬性來確定接收者是否決定加入系統(tǒng)100。如果其屬性表明如此,則這些接收者的郵件潛在地可用于輪詢。還存在僅有客戶機的體系結(jié)構(gòu)。例如,客戶機電子郵件軟件可以為單個用戶作出輪詢決策,并將電子郵件傳送到中央數(shù)據(jù)庫,或使用該輪詢信息來改進個性化過濾器的性能。除了本文中所描述的體系結(jié)構(gòu)以外,存在此系統(tǒng)100的其它替換體系結(jié)構(gòu),并且構(gòu)想此類體系結(jié)構(gòu)都落入本發(fā)明的范疇之內(nèi)。
現(xiàn)參考圖2,根據(jù)本發(fā)明的一個方面,示出了基本反饋循環(huán)過程200的流程圖。盡管出于解釋簡單的目的,將該方法表示和描述為一系列動作,然而應(yīng)當理解,本發(fā)明不受各動作的次序的限制,因為根據(jù)本發(fā)明,某些動作可按不同順序發(fā)生,和/或與本文示出及描述的其它動作同時發(fā)生。例如,本領(lǐng)域技術(shù)人員將理解,方法能被替換地表示成諸如狀態(tài)圖中的一系列相互關(guān)聯(lián)的狀態(tài)或事件。并且,并非所有示出的行為都是實現(xiàn)根據(jù)本發(fā)明的方法所必須的。
過程200在202處郵件進入諸如服務(wù)器等組件并由其接收開始。當郵件到達服務(wù)器時,該服務(wù)器識別預(yù)期接收者的屬性,以確定預(yù)期接收者之前是否已決定參加作為垃圾郵件戰(zhàn)士用于輪詢(在204)。因此,過程200利用可指示接收者是否決定參加該反饋系統(tǒng)的用戶屬性字段,或者查閱決定參加的用戶的列表。如果在206確定該用戶是反饋系統(tǒng)的參與者并被選中用于輪詢,該反饋系統(tǒng)通過確定選中哪些消息用于輪詢(在208)來采取行動。否則,過程200返回到202,直至確定了傳入消息的至少一個預(yù)期接收者是用戶(例如,垃圾郵件戰(zhàn)士)。
在實施中,所有消息被考慮用于輪詢,包括那些由當前使用的過濾器(例如,個性化過濾器、Brightmail過濾器)指定為(或?qū)⑹?垃圾郵件的消息。因此,在消息被考慮用于輪詢之前,沒有消息被刪除、舍棄、或發(fā)送到垃圾郵件文件夾。
服務(wù)器收到的每個消息或郵件項目具有一組對應(yīng)于郵件事務(wù)的屬性。服務(wù)器編譯這些屬性并將其隨輪詢消息一起發(fā)送到中央數(shù)據(jù)庫。屬性的示例包括接收者列表(例如,如在“To(至)”、“cc(抄送)”、“bcc(暗送)”字段中所列出的)、當前使用的過濾器的定論(例如,過濾器是否將消息標識為垃圾郵件)、其它可任選垃圾郵件過濾器(例如,Brightmail過濾器)的定論、以及用戶信息(例如,用戶名、密碼、真名、輪詢消息的頻率、使用率數(shù)據(jù)、……)。輪詢消息和/或其內(nèi)容,以及對應(yīng)的用戶/接收者的每一個都被分配一唯一標識符。該標識符也可被發(fā)送到數(shù)據(jù)庫,并隨后如所需地更新。
在214,修改被選中用于輪詢的消息(例如,原始消息1-M,其中M是大于或等于1的整數(shù)),以向用戶指示消息1-M是輪詢消息P1-PM,并隨即將其傳送給用戶以供輪詢(在216)。例如,輪詢消息可包括附件形式的要表決的原始消息,以及關(guān)于如何對消息進行表決的一組指令。例如,該組指令包括諸如“好郵件”按鈕和“垃圾郵件”按鈕等至少兩個按鈕。當用戶點擊按鈕之一(在218)以將消息分類為好郵件或垃圾郵件時,用戶被指引到對應(yīng)于用戶所提交的分類的唯一標識符的統(tǒng)一資源定位器(URL)。此信息被記錄,且中央數(shù)據(jù)庫中該原始消息1-M的相關(guān)聯(lián)記錄被更新。
在216或過程200期間的任何其它適當?shù)臅r間,原始消息被可任選地傳送給用戶。因此,用戶收到該消息兩次——一次是其原始形式,第二次是修改后的輪詢形式。
在稍后的某個時間,至少部分基于用戶反饋在220創(chuàng)建并訓練了新的垃圾郵件過濾器。一旦創(chuàng)建并訓練了新的垃圾郵件過濾器,可以立即在電子郵件服務(wù)器上使用該過濾器,和/或可將其分發(fā)到客戶機服務(wù)器、客戶機電子郵件軟件等等(在222)。訓練和分發(fā)新的或更新后的垃圾郵件過濾器是進行中的活動。因此,當收到新的傳入消息流時,過程200在204繼續(xù)。當構(gòu)建了新的過濾器,基于多久以前獲得較舊數(shù)據(jù),將其舍棄或降低權(quán)重。
反饋系統(tǒng)100和過程200依賴于其參與用戶的反饋。不幸的是,某些用戶不可信任,或者實在懶惰到無法提供一致和準確的分類。中央數(shù)據(jù)庫112(圖1A)維護用戶分類歷史。因此,反饋系統(tǒng)100能夠跟蹤矛盾的數(shù)量、用戶改變他/她的主意的次數(shù)、用戶對已知的好郵件和已知的垃圾郵件的響應(yīng)、以及用戶回復(fù)輪詢消息的次數(shù)或者頻率。
當這些數(shù)量中的任何一個超過預(yù)定閾值,或僅僅對于系統(tǒng)的每個用戶,反饋系統(tǒng)100可調(diào)用一個或數(shù)個確認技術(shù)來訪問某個或某些特定用戶的可信性。根據(jù)本發(fā)明的另一個方面,一種方法是如圖3中所示的交叉確認方法300。
交叉確認技術(shù)在302開始,中央數(shù)據(jù)庫接收諸如輪詢結(jié)果和相應(yīng)用戶信息等傳入數(shù)據(jù)。接下來,在304,必須確定是否期望交叉確認來測試適當數(shù)量的用戶。如果期望如此,那么在306,使用傳入數(shù)據(jù)的某個部分來訓練新的垃圾郵件過濾器。即,來自正受測試的用戶的數(shù)據(jù)被排除在訓練之外。例如,用受輪詢用戶數(shù)據(jù)的大約90%來訓練過濾器(記為90%過濾器),從而排除了對應(yīng)于由受測試用戶提交的數(shù)據(jù)的數(shù)據(jù)的10%(記為10%受測試用戶)。
在308,對照其余10%受測試用戶數(shù)據(jù)運行90%過濾器,以確定90%的用戶對受測試用戶的消息如何表決。如果90%過濾器和10%受測試用戶數(shù)據(jù)之間的不一致量超過預(yù)定的閾值(在310),那么在312可以手動檢查該用戶的分類。作為替換或除此之外,可向可疑或不可信用戶發(fā)送測試消息,和/或?qū)⑦@些特定用戶從將來的輪詢中排除,和/或舍棄他們以往的數(shù)據(jù)。但是,如果沒有超過閾值,那么該過程返回到306。在實施中,交叉確認技術(shù)300可用于任何合適的測試用戶組,在必要時排除不同的用戶,來判定和維護表決/分類數(shù)據(jù)的可信性。
訪問用戶忠誠度和可靠性的第二種方法包括在給定時段中收集到的所有數(shù)據(jù)上訓練過濾器,然后在訓練數(shù)據(jù)上測試,并使用該過濾器。此技術(shù)被稱為邊訓練邊測試(test-on-training)。如果訓練中包括了某個消息,該過濾器應(yīng)當已獲知其分級,例如,經(jīng)訓練學到的過濾器應(yīng)當以和用戶同樣的方法來分類該消息。但是,當用戶將其標記為非垃圾郵件時過濾器可能繼續(xù)犯將其標記為垃圾郵件的錯誤,反之亦然。為使過濾器與其訓練數(shù)據(jù)不一致,該消息必須與其它消息非常不一致。否則,訓練過的過濾器將幾乎肯定能找到某種方法來將其正確分類。因此,可以將該消息當作具有不可靠標簽而舍棄。此技術(shù)或者交叉確認都可使用交叉確認能較不可靠地產(chǎn)生分類中較多錯誤;相反,邊訓練邊測試更可靠地找到較少的錯誤。
邊訓練邊測試和交叉確認技術(shù)300都可應(yīng)用于個別消息,其中個別用戶對消息的分類或分級被總協(xié)定排除(例如,遵循大多數(shù)人的分級)。替換地,兩種技術(shù)都可用于識別潛在不可靠用戶。
除了交叉確認和/或邊訓練邊測試技術(shù)之外,或作為其替代,可使用“已知結(jié)果”技術(shù)來驗證用戶的可信性(跟著314到圖4)。盡管單獨地示范了圖3和4的技術(shù),應(yīng)當理解,能夠同時利用這兩種技術(shù)。即,來自已知為好消息和已知為垃圾郵件消息的信息可與交叉確認或邊訓練邊測試的結(jié)果組合,以確定要舍棄哪些用戶。
現(xiàn)參考圖4,根據(jù)本發(fā)明的一個方面示出了確認用戶表決的忠誠度的過程400的流程圖。過程400引自如圖3中所示的314。在402,向可疑用戶(或所有用戶)發(fā)送已知結(jié)果測試消息。例如,可將測試消息注入傳入郵件,并隨即手動將其分類,從而數(shù)據(jù)庫接收到“已知”結(jié)果。否則,過程400可等待,直至第三方發(fā)送已知結(jié)果消息。用戶被允許對同樣的測試消息進行表決。在404,將表決的結(jié)果與已知結(jié)果相比較。在406,如果用戶的表決不一致,那么可以在一適當時間段內(nèi)手動檢查他們當前和/或?qū)砗?或過去的分類(在408),直至其表示出一致性和可靠性?;蛘?,可以折扣或移除他們當前或未來或過去的分類。最后,可將這些用戶從將來的輪詢中移除。但是,如果他們的表決結(jié)果的確與測試消息結(jié)果一致,那么在410可將這些用戶視為可信的。過程在412返回到圖3,以確定期望對下一組可疑用戶用哪種類型的確認技術(shù)。
訪問用戶可靠性的第四種方法(未示出)是主動學習。在主動學習技術(shù)中,并非隨機選取消息。相反,反饋系統(tǒng)可估計消息對系統(tǒng)的有用程度。例如,如果過濾器返回垃圾郵件的概率,則可優(yōu)先選擇當前過濾器最不確定地分類的的消息用于輪詢,即,其垃圾郵件概率最接近50%的那些消息。選擇消息的另一種方法是確定消息的普通程度。消息越普通,那么它對于輪詢就越有用。獨特的消息有用程度較低,因為它們普通程度較低??赏ㄟ^利用現(xiàn)有過濾器的置信度級別、利用消息特征的普通程度、以及利用現(xiàn)有過濾器的設(shè)置或內(nèi)容的置信度級別(例如,元置信度),來使用主動學習。還有諸如機器學習領(lǐng)域的技術(shù)人員公知的受托人查詢(query-by-committee)等其它主動學習技術(shù),可使用這些技術(shù)中任何一種。
現(xiàn)參考圖5,根據(jù)本發(fā)明的一個方面示出了將除用戶反饋外的蜜罐反饋結(jié)合到垃圾郵件過濾器訓練中的過程500的流程圖。蜜罐是已知誰應(yīng)向其發(fā)送電子郵件的電子郵件地址。例如,可將某新創(chuàng)建的電子郵件地址保密,并僅透露給選定的若干個體(在502)。也可公開地、但以人們看不見的限制性方式將其公開(例如,將其作為郵件鏈接,用白色字體放在白色背景上)。蜜罐在垃圾郵件發(fā)件人的字典攻擊中尤其有用。在字典攻擊中,垃圾郵件發(fā)件人試圖向非常大量的地址發(fā)送電子郵件,可能是字典中的所有地址,或者從地址中的單詞對制造出的地址,或用于找到有效的地址的類似技術(shù)。發(fā)送到蜜罐的任何電子郵件(在504)或者并非來自若干選定個體的任何電子郵件(在506)被視為垃圾郵件(在508)。還可將電子郵件地址與可疑商家簽約。因此,從該商家收到的任何電子郵件被視為好郵件(在510),但所有其它郵件被視為垃圾郵件??蓳?jù)此訓練垃圾郵件過濾器(在512)。此外,判定該可疑商家向第三方出售或透露了用戶的信息(例如,至少電子郵件地址)。可對其它可疑的商家重復(fù)此過程,并生成列表來警告用戶他們的信息可能被分發(fā)給垃圾郵件發(fā)件人。這些僅是獲取發(fā)送到蜜罐的、能被安全地視為垃圾郵件的電子郵件的技術(shù)中的幾種。在實施中,還有其它替換方法來獲取發(fā)送到蜜罐的、可被安全地視為垃圾郵件的電子郵件。
因為蜜罐是垃圾郵件的很好來源,但卻是合法郵件很糟的來源,所以可將來自蜜罐的數(shù)據(jù)和來自反饋循環(huán)系統(tǒng)(圖1)的數(shù)據(jù)相組合來訓練新的垃圾郵件過濾器??蓪碜圆煌瑏碓椿虿煌诸惖泥]件進行不同的加權(quán)。例如,如果有10個蜜罐和10個有10%的郵件被輪詢的用戶,則可期望來自蜜罐的垃圾郵件10倍于來自輪詢的垃圾郵件。因此,為了彌補此差異,可對來自輪詢的合法郵件進行10倍或11倍于垃圾郵件的加權(quán)?;蛘撸蛇x擇性地降低蜜罐數(shù)據(jù)的權(quán)重。例如,大約50%的用戶郵件是好郵件,大約50%是垃圾郵件。等量的垃圾郵件被傳到蜜罐中。因此,看似蜜罐有100%的垃圾郵件,并且全部都被采樣,而非僅僅10%。為了在組合的系統(tǒng)中用正確的垃圾郵件和好郵件之比來訓練,將蜜罐數(shù)據(jù)降低95%的權(quán)重,并將用戶垃圾郵件降低50%的權(quán)重,以導致1∶1的總比率。
垃圾郵件報告的其他來源包括未座位參與者包括在反饋循環(huán)系統(tǒng)中的用戶。例如,對于所有的郵件,可以有對所有用戶可用的“報告垃圾郵件”按鈕,來報告通過了過濾器的垃圾郵件。此數(shù)據(jù)可與來自反饋循環(huán)系統(tǒng)的數(shù)據(jù)相結(jié)合。再次,可降低此垃圾郵件來源的權(quán)重,或進行不同的加權(quán),因為在各個方面它可能是有偏差或者不可信的。還應(yīng)當進行重新加權(quán),以反映僅未被過濾掉的郵件可由“報告為垃圾郵件”按鈕來報告的事實。
除了垃圾郵件過濾器以外,反饋循環(huán)系統(tǒng)可創(chuàng)建和使用隔離過濾器。隔離過濾器利用了肯定和否定郵件特征兩者。例如,來自受歡迎的在線商家的郵件幾乎總是好的。垃圾郵件發(fā)件人通過在其垃圾郵件中模仿好的商家的郵件的某個方面,來惡意利用該系統(tǒng)。另一個例子是垃圾郵件發(fā)送者通過經(jīng)由IP地址發(fā)送少量好郵件,來故意欺騙反饋系統(tǒng)。反饋循環(huán)學會將此郵件分類為好郵件,而此時,垃圾郵件發(fā)件人開始從同一IP地址發(fā)送垃圾郵件。
因此,隔離過濾器在歷史記錄數(shù)據(jù)的基礎(chǔ)上注意到,與該系統(tǒng)習慣相比,收到大量增長的某個特定的肯定特征。這使得系統(tǒng)懷疑該消息,并因此在選擇送達該郵件或?qū)⒃撪]件標記為垃圾郵件之前將其隔離,直至獲得了足夠的輪詢結(jié)果。隔離過濾器還可在從新IP地址收到郵件時使用,對該新IP地址,未知或不確定該郵件是垃圾郵件還是非垃圾郵件,并且在一小段時間內(nèi)仍為未知??梢杂萌舾煞N方法執(zhí)行隔離,包括暫時將郵件標記為垃圾郵件并將其移到垃圾郵件文件夾、或不將其送達給用戶、或?qū)⑵浯鎯Φ讲槐豢吹降哪硞€地方??梢詫咏]件過濾器閾值的消息進行隔離可假設(shè)來自輪詢的附加信息會有助于作出正確的決策。還可在收到許多相似消息時進行隔離可發(fā)送一些消息供反饋循環(huán)進行輪詢,并且重新訓練的過濾器可用于正確地分類消息。
除了構(gòu)建過濾器之外,還可以利用如本文中所描述的反饋循環(huán)系統(tǒng)對其進行評估。即,可按需調(diào)整垃圾郵件過濾器的參數(shù)。例如,在昨晚的午夜充分訓練某過濾器。午夜之后,取進入數(shù)據(jù)庫的數(shù)據(jù)來確定垃圾郵件過濾器與用戶分類相比較之下的誤差率。此外,反饋循環(huán)可用于判定垃圾郵件過濾器的假肯定和捕獲率。例如,可取用戶的表決,并使郵件穿過一潛在的過濾器,以確定假肯定和捕獲率。此信息隨即可用于調(diào)整和優(yōu)化該過濾器。通過構(gòu)建若干個每一個都使用不同設(shè)置或算法的過濾器,可以手動或自動試驗不同的參數(shù)設(shè)置或不同的算法,從而獲得最低的假肯定和捕獲率。因此,可以比較各個結(jié)果以選擇最好或者最優(yōu)的過濾器參數(shù)。
可利用反饋循環(huán)來構(gòu)建和填充那些總是被表決為垃圾郵件或總是被表決為好郵件、或至少90%被表決為好郵件等的IP地址或域或URL的列表。這些列表可用于以其它方法進行垃圾郵件過濾。例如,至少90%被表決為垃圾郵件的IP地址列表可用于構(gòu)建不接受從其發(fā)送的電子郵件的地址黑洞列表。反饋循環(huán)還可用于終止垃圾郵件發(fā)件人的賬號。例如,如果ISP的一特定用戶看似正在發(fā)送垃圾郵件,則該ISP可被自動通知。類似地,如果特定域看似要為大量垃圾郵件負責,則該域的電子郵件供應(yīng)商可被自動通知。
有若干種可用于實現(xiàn)該反饋循環(huán)系統(tǒng)的體系結(jié)構(gòu)。如圖7中所描述的,一種示例性體系結(jié)構(gòu)是基于服務(wù)器的,當郵件到達電子郵件服務(wù)器時選擇過程發(fā)生。如圖6中所描述的,一種替換的體系結(jié)構(gòu)是基于客戶機的。在基于客戶機的反饋循環(huán)中,輪詢信息可用于改善個性化過濾器的性能,或者,在此處所示的示例性實現(xiàn)中,可將該信息作為用于共享過濾器(例如,公司范圍或全球的)的訓練數(shù)據(jù)發(fā)送到共享存儲庫。應(yīng)當理解,以下所述的體系結(jié)構(gòu)只是示例性的,并且可包括此處未描繪的附加組件和特征。
現(xiàn)在回到圖6,示出了基于客戶機的體系結(jié)構(gòu)中的反饋循環(huán)技術(shù)的示例性通用框圖。提供了網(wǎng)絡(luò)600以便于電子郵件往來于一個或多個客戶機602、604、和606(也記為客戶機1、客戶機2、……客戶機N,其中N是大于或等于1的整數(shù))之間的通信。該網(wǎng)絡(luò)可以是諸如因特網(wǎng)等全球通信網(wǎng)絡(luò)(GCN),或WAN(廣域網(wǎng))、LAN(局域網(wǎng))、或任何其它網(wǎng)絡(luò)配置。在此特定實現(xiàn)中,SMTP(簡單郵件傳輸協(xié)議)網(wǎng)關(guān)服務(wù)器608與網(wǎng)絡(luò)600接口,以向LAN 610提供SMTP服務(wù)。操作上安置在LAN 610上的電子郵件服務(wù)器612與網(wǎng)關(guān)608接口,以控制和處理客戶機602、604、和606的傳入和傳出的電子郵件。此類客戶機602、604和606也安置在LAN610上,以至少訪問其上提供的郵件服務(wù)。
客戶機1602包括控制客戶機進程的中央處理單元(CPU)614。CPU 614可由多個處理器組成。CPU 614執(zhí)行關(guān)于提供在上文描述的一個或多個數(shù)據(jù)收集/反饋功能的任一個的指令。這些指令包括,但不限于,已編碼指令,它們至少執(zhí)行上述的基本反饋循環(huán)方法、能與其結(jié)合使用的至少任何或所有方法,這些方法用于解決客戶機和消息的選擇、輪詢消息修改、數(shù)據(jù)保留、客戶機可靠性和分類確認、重新加權(quán)來自包括反饋循環(huán)等多個來源的數(shù)據(jù)、垃圾郵件過濾器優(yōu)化和調(diào)整、隔離過濾器、垃圾郵件列表的創(chuàng)建、以及對其各自ISP和電子郵件供應(yīng)商的垃圾郵件發(fā)件人的自動通知。提供用戶界面616以便于與CPU 614和客戶機操作系統(tǒng)通信,從而客戶機1能夠交互以訪問電子郵件和對輪詢消息進行表決。
可由消息選擇器620選擇從服務(wù)器612檢索的客戶機消息的采樣用于輪詢。如果預(yù)期接收者(客戶機)之前已同意參與,則選中并修改消息用于輪詢。消息修改器622將消息修改為輪詢消息。例如,根據(jù)上文提供的消息修改的描述,可將消息修改成包括表決指令和表決按鈕和/或鏈接。表決按鈕和/或鏈接是通過修改客戶機電子郵件軟件的用戶界面616來實現(xiàn)的。此外,在打開或下載消息供客戶機602查看之前,消息修改器622可移除消息(輪詢和非輪詢消息)中的任何病毒。
在一個實現(xiàn)中,對抗垃圾郵件的客戶機602的用戶僅看到每個消息一次,其中某些消息被特別地標記為輪詢消息,并包括表決按鈕等。在本實現(xiàn)中,垃圾郵件抵抗客戶機602的用戶可看到某些消息兩次,其中一次是正常消息,另一次是輪詢消息。這可用若干種方法來實現(xiàn)。例如,可向服務(wù)器612返回輪詢消息并將其存儲在輪詢消息存儲中。或者,客戶機602可在電子郵件服務(wù)器612中存儲額外消息?;蛘撸蛻魴C602可向用戶顯示每個消息兩次,一次是正常消息,一次是修改后的形式。
輪詢結(jié)果626可被發(fā)送到CPU 614,隨后被發(fā)送到數(shù)據(jù)庫630,取決于客戶機反饋體系結(jié)構(gòu)的特定安排,可將數(shù)據(jù)庫630配置成存儲來自一個客戶機或一個以上客戶機的數(shù)據(jù)。中央數(shù)據(jù)庫630存儲輪詢消息、輪詢結(jié)果以及各個客戶機用戶的信息??墒褂孟嚓P(guān)組件來分析此類信息,諸如確定輪詢頻率、客戶機用戶的可信性(例如,用戶確認632)、和其它客戶機統(tǒng)計量。尤其是當客戶機表決的可靠性受懷疑時,可使用確認技術(shù)。懷疑可能出自對不一致的次數(shù)、改變主意的次數(shù)、以及對某個或某些特定用戶輪詢消息的次數(shù)的分析;或者,可對每個用戶使用確認技術(shù)。存儲在中央數(shù)據(jù)庫中的任何適當數(shù)量的數(shù)據(jù)可用于機器學習技術(shù)634,以便于訓練新的和/或改進的垃圾郵件過濾器。
客戶機604和606包括和上文所述相似的組件,以獲取和訓練對特定客戶機個性化的過濾器。除了所描述的以外,輪詢消息沖洗器(scrubber)628可在CPU 614和中央數(shù)據(jù)庫630之間接口,從而可因為諸如數(shù)據(jù)聚集、數(shù)據(jù)壓縮等各種原因移除輪詢消息的某些方面。輪詢消息沖洗器628可以沖掉輪詢消息的無關(guān)部分以及與其相關(guān)聯(lián)的任何非期望的用戶信息。
現(xiàn)參考圖7,根據(jù)本發(fā)明的反饋循環(huán)技術(shù),示出了便于多用戶登錄并獲取輪詢數(shù)據(jù)的示例性基于服務(wù)器的反饋循環(huán)系統(tǒng)700。提供了網(wǎng)絡(luò)702以便于電子郵件往來于一個或多個用戶704(也記為用戶17041、用戶27042、……、和用戶N704N,其中N是大于或等于1的整數(shù))之間的通信。網(wǎng)絡(luò)702可以是諸如因特網(wǎng)等全球通信網(wǎng)絡(luò)(GCN),或WAN(廣域網(wǎng))、LAN(局域網(wǎng))、或任何其它網(wǎng)絡(luò)配置。在此特定實現(xiàn)中,SMTP(簡單郵件傳輸協(xié)議)網(wǎng)關(guān)服務(wù)器710與網(wǎng)絡(luò)702接口,以向LAN 712提供SMTP服務(wù)。操作上安置在LAN 712上的電子郵件服務(wù)器714與網(wǎng)關(guān)710接口,以控制和處理用戶704的傳入和傳出的電子郵件。
系統(tǒng)700提供多重登錄的能力,從而為登錄到系統(tǒng)700的每個不同用戶發(fā)生用戶和消息選擇716、消息修改718、以及消息輪詢(720、722、724)。因此,提供了用戶界面726,它呈現(xiàn)了登錄屏幕作為計算機操作系統(tǒng)引導過程的一部分,或按照所要求的在用戶704能訪問他或她的傳入消息之前預(yù)定一相關(guān)聯(lián)的用戶概況。因此,當?shù)谝挥脩?041(用戶1)選擇訪問消息時,該第一用戶7041通過輸入通常為用戶名和密碼形式的訪問信息,經(jīng)由登錄屏幕728登錄到系統(tǒng)中。CPU 730處理該訪問信息以允許該用戶經(jīng)由消息通信應(yīng)用程序(例如,郵件客戶端)僅訪問第一用戶收件箱位置732。
當在消息服務(wù)器714上收到傳入郵件時,它們被隨機地選擇用于輪詢,這意味著這些消息中的至少一個被標記用于輪詢。查看被標記消息的預(yù)期接收者,以確定這些接收者中的任何一個是否也是指定的對抗垃圾郵件的用戶??梢栽谙⒎?wù)器714或系統(tǒng)700的任何其它適當組件上維護指示此類信息的接收者屬性。一旦確定了預(yù)期接收者中哪些也是垃圾郵件戰(zhàn)士,可將他們各自郵件的副本以及關(guān)于該郵件事務(wù)的任何其它信息發(fā)送到中央數(shù)據(jù)庫734用于存儲。消息修改器718以上文描述的任意數(shù)量的方法修改被標記為用于輪詢的消息。被選中用于輪詢的消息也可以對用戶704是專用的。例如,用戶704可指示只有某些類型的消息可用于輪詢。因為這會導致有偏差的數(shù)據(jù)采樣,因此這類數(shù)據(jù)可相對于其它客戶機數(shù)據(jù)來重新加權(quán),以減輕構(gòu)造不成比例的訓練數(shù)據(jù)集。
還可在此時或在用戶704下載和/或打開輪詢消息之前的任何其它時間執(zhí)行輪詢消息的病毒掃描。一旦以適當?shù)姆绞叫薷牧讼?,即將其傳送到記為收件?732、收件箱2736、和收件箱N738的各個用戶的收件箱,在那里可將其打開用于輪詢。為便于輪詢過程,每個輪詢消息包括兩個或多個表決按鈕或鏈接,當用戶選中這些按鈕或鏈接,即生成涉及該輪詢消息和輪詢結(jié)果的信息??尚薷拿總€輪詢消息的文本,以將表決按鈕或鏈接結(jié)合到其中。
包括由分類產(chǎn)生的任何信息(例如,輪詢消息或與其相關(guān)聯(lián)的ID、用戶屬性)的消息輪詢結(jié)果(記為消息輪詢1720、消息輪詢2722和消息輪詢N724)經(jīng)由LAN 712上的網(wǎng)絡(luò)接口740發(fā)送到中央數(shù)據(jù)庫734。中央數(shù)據(jù)庫734可存儲來自各個用戶的輪詢和用戶信息(720、722、724),以應(yīng)用于機器學習技術(shù)來構(gòu)建或優(yōu)化新的和/或改進的垃圾郵件過濾器742。但是,出于隱私和/或安全的原因,在信息被發(fā)送到中央數(shù)據(jù)庫714之前,可從該信息中移除或剝離機密信息。還可將用戶704經(jīng)由輪詢生成的信息聚集到統(tǒng)計數(shù)據(jù)中。從而,使用了較小的帶寬來發(fā)送該信息。
然后可在諸如當新過濾器可用時等進行中的基礎(chǔ)上,通過特定請求或自動地將新訓練的垃圾郵件過濾器742分發(fā)到其它服務(wù)器(未示出)以及與LAN 712接口的客戶機電子郵件軟件(未示出)。例如,可自動向其推出最新的垃圾郵件過濾器,和/或經(jīng)由網(wǎng)站使其可用于下載。當生成了新的訓練數(shù)據(jù)集來構(gòu)建更新的垃圾郵件過濾器時,可依據(jù)數(shù)據(jù)的使用時間舍棄或折扣較舊的數(shù)據(jù)集(例如,之前獲取和/或用于訓練過濾器的信息)。
現(xiàn)在考慮替換的情形,其中致力于對抗垃圾郵件的組織使由許多不同的使用過濾器的組織共享的過濾器可用。在本發(fā)明的一個方面,過濾器供應(yīng)商也是非常大型的電子郵件服務(wù)(例如,付費和/或免費電子郵件賬號)供應(yīng)商。該過濾器供應(yīng)商選擇也使用來自某些使用過濾器的組織的某些數(shù)據(jù),而不是排他地依賴于來自其自己的組織的電子郵件,以更好地捕捉好郵件和垃圾郵件的范圍。如上文中所描述的反饋循環(huán)系統(tǒng)也可以用服務(wù)器或客戶機體系結(jié)構(gòu)的形式用于這樣的跨組織的情形中。將聚集來自其自己的用戶和來自不同的使用過濾器的組織的數(shù)據(jù)的過濾器供應(yīng)商稱為“內(nèi)部”組織,而將駐留在參與的使用過濾器的組織之一的組件稱為“外部”。一般而言,跨組織系統(tǒng)包括諸如但不限于Hotmail等位于過濾器供應(yīng)商的郵件數(shù)據(jù)庫服務(wù)器(內(nèi)部),和諸如那些可駐留在一個或多個單獨公司內(nèi)的消息服務(wù)器等一個或多個消息服務(wù)器(外部)。在此情形中,內(nèi)部郵件數(shù)據(jù)庫服務(wù)器還存儲來自其自己的顧客的實質(zhì)的電子郵件反饋。根據(jù)本發(fā)明的此方面,可基于存儲在內(nèi)部數(shù)據(jù)庫的信息(例如,Hotmail或MSN服務(wù)器上的免費電子郵件/消息通信)以及存儲在與各個外部服務(wù)器相關(guān)聯(lián)的一個或多個外部數(shù)據(jù)庫中的信息,生成訓練數(shù)據(jù)集。例如,可經(jīng)由諸如因特網(wǎng)等網(wǎng)絡(luò)將外部數(shù)據(jù)庫上維護的信息發(fā)送到內(nèi)部服務(wù)器,用于機器學習技術(shù)。最終,來自外部數(shù)據(jù)庫的數(shù)據(jù)可用于訓練新的垃圾郵件過濾器和/或改進位于外部(例如,在各個公司內(nèi))或與內(nèi)部郵件服務(wù)器相關(guān)聯(lián)的現(xiàn)有垃圾郵件過濾器。
來自一個或多個外部數(shù)據(jù)庫的數(shù)據(jù)應(yīng)當包括輪詢消息,輪詢結(jié)果(分類),用戶信息/屬性,以及每個用戶、每組用戶或平均每個公司的表決統(tǒng)計數(shù)據(jù)中的至少一項。表決統(tǒng)計數(shù)據(jù)便于確定由各個公司生成的信息的可靠性,以及減輕外部數(shù)據(jù)的偏差。因此,可對來自一個或多個外部數(shù)據(jù)庫(公司)的數(shù)據(jù)重新加權(quán),或者進行不同于一個或多個其它外部數(shù)據(jù)庫的加權(quán)。此外,可使用與上文中所描述的相類似的確認技術(shù)來測試外部實體的可靠性和可信性。
例如,為公司安全、隱私和機密起見,可將從每個公司通過因特網(wǎng)發(fā)送到電子郵件服務(wù)器的信息或數(shù)據(jù)從其原始形式進行沖洗、縮寫和/或濃縮。原始形式可在各個外部數(shù)據(jù)庫上維護,和/或根據(jù)每個公司的偏好來處理。因此,電子郵件服務(wù)器或任何其它內(nèi)部郵件服務(wù)器僅接收生成訓練數(shù)據(jù)所必須的有關(guān)信息,諸如垃圾郵件分類、發(fā)送者域、發(fā)送者名稱、分類為垃圾郵件的消息的內(nèi)容等。
現(xiàn)參考圖8,示出了示例性跨組織反饋系統(tǒng)800,其中內(nèi)部數(shù)據(jù)庫服務(wù)器和外部郵件服務(wù)器可經(jīng)由網(wǎng)絡(luò)通信和交換數(shù)據(jù)庫信息,以便生成在機器學習技術(shù)中用來構(gòu)建改進的垃圾郵件過濾器的訓練數(shù)據(jù)集。系統(tǒng)800包括至少一個外部消息服務(wù)器802(例如,與至少一家公司相關(guān)聯(lián))和內(nèi)部數(shù)據(jù)庫服務(wù)器804。由于跨組織系統(tǒng)的特性,外部服務(wù)器802和內(nèi)部電子郵件服務(wù)器804分別維護其自己的數(shù)據(jù)庫。即,電子郵件服務(wù)器804與也可用于訓練新垃圾過濾器808的內(nèi)部數(shù)據(jù)庫806相關(guān)聯(lián)。類似地,外部服務(wù)器802與可用于訓練至少一個新垃圾郵件過濾器812以及相對于電子郵件服務(wù)器804位于內(nèi)部的垃圾郵件過濾器808的外部數(shù)據(jù)庫810相關(guān)聯(lián)。因此,存儲在外部數(shù)據(jù)庫810上的信息可用于訓練位于電子郵件服務(wù)器上的垃圾郵件過濾器808。
提供了GCN 814以便于信息往來于內(nèi)部電子郵件服務(wù)器804和一個或多個外部消息服務(wù)器802的通信??缃M織系統(tǒng)的外部服務(wù)器組件以與基于服務(wù)器的反饋循環(huán)系統(tǒng)(例如,上述圖7)相似的方式運行。例如,消息服務(wù)器802、外部數(shù)據(jù)庫810和過濾器812可位于LAN 815上。此外,提供了用戶界面816,它呈現(xiàn)登錄屏幕818作為計算機操作系統(tǒng)的引導過程的一部分,或按照要求,在用戶704可訪問他或她的傳入消息之前預(yù)定相關(guān)聯(lián)的用戶概況。
在此基于服務(wù)器的系統(tǒng)中,為了利用可用的郵件服務(wù),一個或多個用戶(記為用戶1820、用戶2822、用戶N824)可同時登錄到系統(tǒng)中。在實施中,當?shù)谝挥脩?20(用戶1)選擇訪問消息時,該第一用戶820通過輸入通常為用戶名和密碼形式的訪問信息,經(jīng)由登錄屏幕818登錄到系統(tǒng)中。CPU 826處理該訪問信息以允許該用戶經(jīng)由消息通信應(yīng)用程序(例如,郵件客戶端)僅訪問第一用戶收件箱位置828。
當在消息服務(wù)器802上收到傳入郵件時,消息被隨機地或特別地定為輪詢的目標。在可選擇消息用于輪詢之前,將此類定為目標的消息的預(yù)期接收者與垃圾郵件戰(zhàn)士用戶列表進行比較,以確定這些接收者中的任何一個是否也是指定的對抗垃圾郵件的用戶。可以在消息服務(wù)器802、數(shù)據(jù)庫810、或系統(tǒng)800的任何其它恰當組件上維護指示此類信息的接收者屬性。一旦確定預(yù)期接收者中的哪些也是垃圾郵件戰(zhàn)士,即選擇消息用于輪詢,并向數(shù)據(jù)庫810發(fā)送輪詢消息的副本以及涉及郵件事務(wù)的任何其它信息。
消息修改器830可以上文描述的任意數(shù)量的方法修改被選中用于輪詢的消息。在實施中,可向每個輪詢消息、每個垃圾郵件戰(zhàn)士、和/或每個輪詢結(jié)果分配唯一標識符(ID)并將其存儲在數(shù)據(jù)庫810中。如前所述,被選中用于輪詢的消息可以是隨機選擇的,或者可以是對于相應(yīng)用戶(820、822、和824)是專用的。例如,用戶1820可指示僅某些類型的消息可用于輪詢(例如,從公司外部發(fā)送的消息)。對從此類特定消息生成的數(shù)據(jù)重新加權(quán)和/或折扣,以減輕獲得有偏差的數(shù)據(jù)采樣。
還可在此時或在用戶704下載和/或打開輪詢消息之前的任何其它時間執(zhí)行輪詢消息的病毒掃描。一旦以適當?shù)姆绞叫薷牧讼ⅲ磳⑵鋫魉偷接洖槭占?828、收件箱2832、和收件箱N834的各個用戶的收件箱,在那里可將其打開用于輪詢。為便于輪詢過程,每個輪詢消息包括兩個或多個表決按鈕或鏈接,當用戶選中這些按鈕或鏈接,即生成涉及該輪詢消息和輪詢結(jié)果的信息??尚薷拿總€輪詢消息的文本,以將表決按鈕或鏈接結(jié)合到其中。
包括由分類產(chǎn)生的任何信息(例如,輪詢消息或與其相關(guān)聯(lián)的ID、用戶屬性)的消息輪詢結(jié)果(記為消息輪詢1720、消息輪詢2722、和消息輪詢N724)經(jīng)由LAN815上的網(wǎng)絡(luò)接口842發(fā)送到中央數(shù)據(jù)庫810。中央數(shù)據(jù)庫810可存儲來自各個用戶的輪詢和用戶信息,以供稍后在用于構(gòu)建或優(yōu)化新的和/或改進的垃圾郵件過濾器812、808的機器學習技術(shù)中使用。
例如,出于隱私的原因,每個公司可能想要在通過GCN 814向其自己的數(shù)據(jù)庫810和/或電子郵件數(shù)據(jù)庫806發(fā)送輪詢消息和/或用戶信息之前剝離關(guān)鍵信息。一種方法是只向數(shù)據(jù)庫(806和/或810)提供對垃圾郵件消息的反饋,從而排除了對合法郵件的反饋。另一種方法是僅提供諸如發(fā)送者和發(fā)送者IP地址等合法郵件上的信息的部分子集。另一種方法是,對于選中的消息,諸如那些由用戶標記為好而由過濾器標記為壞,或相反的消息,在將其發(fā)送到過濾器之前,明確地要求用戶許可。這些方法中的任何一種或其組合便于維護參與的客戶機的機密信息的隱私,同時不斷地提供數(shù)據(jù)來訓練垃圾郵件過濾器(808和/或812)。
諸如上文中所描述的方案等用戶確認方案也可應(yīng)用于每個公司以及公司內(nèi)部的每個用戶。例如,用戶可個別地經(jīng)受交叉確認技術(shù),其中可疑用戶的分類從過濾器訓練中排除。過濾器使用來自其余用戶的數(shù)據(jù)進行訓練。經(jīng)訓練的過濾器隨后遍歷來自被排除的用戶的消息,以確定其如何分類這些消息。如果不一致量超過一閾值,那么該可疑用戶被視為不可信。來自不可信用戶的未來消息分類可在被數(shù)據(jù)庫和/或過濾器接受之前進行手動檢查。否則,可從將來的輪詢中移除這些用戶。
現(xiàn)參考圖9,用于實現(xiàn)本發(fā)明各個方面的示例性環(huán)境910包括計算機912。計算機912包括處理單元914、系統(tǒng)存儲器916和系統(tǒng)總線918。系統(tǒng)總線918將包括但不限于系統(tǒng)存儲器916的系統(tǒng)組件耦合到處理單元914。處理單元914可以是各種可用的處理器中的任何一種。雙微處理器及其它多處理器體系結(jié)構(gòu)也可用作處理單元914。
系統(tǒng)總線918可以是若干種總線結(jié)構(gòu)中的任何一種,包括存儲器總線或存儲器控制器、外圍總線或外部總線、和/或使用各種可用的總線體系結(jié)構(gòu)中的任一種的局部總線,這些體系結(jié)構(gòu)包括,但不限于,11位總線、工業(yè)標準體系結(jié)構(gòu)(ISA)、微通道體系結(jié)構(gòu)(MCA)、擴展的ISA(EISA)、智能驅(qū)動器電子設(shè)備(IDE)、VESA局部總線(VLB)、外圍部件互聯(lián)(PCI)、通用串行總線(USB)、高級圖形端口(AGP)、個人計算機存儲卡國際協(xié)會總線(PCMCIA)、及小型計算機系統(tǒng)接口(SCSI)。
系統(tǒng)存儲器916包括易失性存儲器920和非易失性存儲器922。包含諸如在啟動時幫助在計算機912內(nèi)部各元件間傳遞信息的基本例程的基本輸入/輸出系統(tǒng)(BIOS)儲存在非易失性存儲器922中。作為示例而非限制,非易失性存儲器922可包括只讀存儲器(ROM)、可編程ROM(PROM)、電可編程ROM(EPROM)、電可擦除ROM(EEPROM)或閃存。易失性存儲器920包括擔當外部高速緩存存儲器的隨機存取存儲器(RAM)。作為示例而非限制,RAM可有多種形式,諸如同步RAM(SRAM)、動態(tài)RAM(DRAM)、同步DRAM(SDRAM)、雙數(shù)據(jù)率SDRAM(DDR SDRAM)、增強型SDRAM(ESDRAM)、同步鏈路DRAM(SLDRAM)、及直接存儲器總線RAM(DRRAM)。
計算機912還包括可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)。例如,圖9示出磁盤存儲924。磁盤存儲924包括但不限于,如磁盤驅(qū)動器、軟盤驅(qū)動器、磁帶驅(qū)動器、Jaz驅(qū)動器、Zip驅(qū)動器、LS-100驅(qū)動器、閃存卡或記憶棒之類的設(shè)備。此外,磁盤存儲924可單獨包括存儲介質(zhì)或與其他存儲介質(zhì)組合,其他存儲介質(zhì)包括,但不限于,諸如光盤ROM設(shè)備(CD-ROM)、CD可記錄驅(qū)動器(CD-R驅(qū)動器)、CD可重寫驅(qū)動器(CD-RW驅(qū)動器)或數(shù)字多功能盤ROM驅(qū)動器(DVD-ROM)等光盤驅(qū)動器。為便于磁盤存儲設(shè)備924連接到系統(tǒng)總線918,通常使用諸如接口926等可移動或不可移動接口。
應(yīng)當理解,圖9描述了在用戶與在合適的操作環(huán)境910中描述的基本計算機資源間擔當中介的軟件。此類軟件包括操作系統(tǒng)928??蓛Υ嬖诖疟P存儲924上的操作系統(tǒng)928用于控制及分配計算機系統(tǒng)912的資源。系統(tǒng)應(yīng)用程序930利用了操作系統(tǒng)928通過存儲在系統(tǒng)存儲器916中或磁盤存儲924上的程序模塊932及程序數(shù)據(jù)934對資源的管理。應(yīng)當理解,本發(fā)明可以用各種操作系統(tǒng)或其組合來實現(xiàn)。
用戶通過輸入設(shè)備936輸入命令或信息到計算機912內(nèi)。輸入設(shè)備936包括,但不限于,諸如鼠標、跟蹤球、觸針、觸摸墊等定位設(shè)備、鍵盤、話筒、操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀、電視調(diào)諧卡、數(shù)碼相機、數(shù)碼攝像機、網(wǎng)絡(luò)攝像頭等等。這些及其他設(shè)備經(jīng)由接口端口938,通過系統(tǒng)總線918連到處理單元914。接口端口938包括例如串行端口、并行端口、游戲端口及通用串行總線(USB)。輸出設(shè)備940使用一些和輸入設(shè)備936相同類型的端口。因而,例如USB端口可用于提供到計算機912的輸入,及從計算機912輸出信息到輸出設(shè)備940。提供輸出適配器942,以示意在其他輸出設(shè)備940中有諸如監(jiān)視器、揚聲器及打印機等一些需要專用適配器的輸出設(shè)備940。作為示例而非限制,輸出適配器942包括,提供輸出設(shè)備940與系統(tǒng)總線918之間一種連接手段的顯卡與聲卡。應(yīng)當注意,諸如遠程計算機944等其他設(shè)備和/或設(shè)備系統(tǒng)同時提供輸入與輸出能力。
計算機912可使用到諸如遠程計算機944等一個或多個遠程計算機的邏輯連接在聯(lián)網(wǎng)環(huán)境中操作。遠程計算機944可以是個人計算機、服務(wù)器、路由器、網(wǎng)絡(luò)PC、工作站、基于微處理器的電器、對等設(shè)備或其他普通網(wǎng)絡(luò)節(jié)點等等,且通常包括相對于計算機912所描述的許多或全部元件。為簡單起見,僅隨遠程計算機944示出記憶存儲設(shè)備946。遠程計算機944通過網(wǎng)絡(luò)接口948邏輯地連接到計算機912,然后經(jīng)由通信連接950物理連接。網(wǎng)絡(luò)接口948包含諸如局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)等通信網(wǎng)絡(luò)。LAN技術(shù)包括光纖分布式數(shù)據(jù)接口(FDDI)、銅纜分布式數(shù)據(jù)接口(CDDI)、以太網(wǎng)/IEEE 1102.3、令牌環(huán)/IEEE 1102.5等等。WAN技術(shù)包括,但不限于,點對點鏈路、如綜合業(yè)務(wù)數(shù)字網(wǎng)及其變體的電路交換網(wǎng)絡(luò)、分組交換網(wǎng)絡(luò)及數(shù)字用戶線(DSL)。
通信連接950指用于將網(wǎng)絡(luò)接口948連到總線918的硬件/軟件。盡管為說明清楚,將通信連接950示于計算機912內(nèi)部,但它也可位于計算機912外部。僅為示例性目的,連接到網(wǎng)絡(luò)接口948所必需的硬件/軟件包括內(nèi)部和外部技術(shù),諸如包括常規(guī)電話級調(diào)制解調(diào)器、電纜調(diào)制解調(diào)器及DSL調(diào)制解調(diào)器在內(nèi)的調(diào)制解調(diào)器、ISDN適配器及以太網(wǎng)卡。
圖10是可與本發(fā)明交互的示例性計算環(huán)境1000的示意性框圖。系統(tǒng)1000包括一個或多個客戶機1010??蛻魴C1010可以是硬件和/或軟件(例如,線程、進程、計算設(shè)備)。系統(tǒng)1000還包括一個或多個服務(wù)器1030。服務(wù)器1030也可以是硬件和/或軟件(例如,線程、進程、計算設(shè)備)。例如,服務(wù)器1030可容納線程,以通過使用本發(fā)明來執(zhí)行轉(zhuǎn)換??蛻魴C1010和服務(wù)器1030間一種可能的通信可以是適于在兩個或多個計算機進程間發(fā)送的數(shù)據(jù)包的形式。系統(tǒng)1000包括可用來便于客戶1010和服務(wù)器1030間的通信的通信框架1050。客戶機1010操作上連接到可用于存儲對客戶機1010本地的信息的一個或多個客戶機數(shù)據(jù)存儲1060。類似地,服務(wù)器1030操作上連到可用于存儲對服務(wù)器1030本地的信息的一個或多個服務(wù)器數(shù)據(jù)存儲1040。
上面的描述包括本發(fā)明的示例。當然,不可能為描述本發(fā)明而描述各組件或方法的每個可想到的組合,但本領(lǐng)域的普通技術(shù)人員會意識到,本發(fā)明的許多其他組合與變換是可能的。因此,本發(fā)明旨在包括落入所附權(quán)利要求書的精神與范疇內(nèi)的所有此類改變、修改與變體。此外,在具體實施方式
或權(quán)利要求書中使用術(shù)語“包括”的意義上,此類術(shù)語意圖如術(shù)語“包含”那樣具有包容性,如同“包含”在用作權(quán)利要求書中的過渡詞時所解釋的。
權(quán)利要求
1.一種便于就防止垃圾郵件而言來對項目進行分類的系統(tǒng),其特征在于,包括接收一組所述項目的組件;識別所述項目的預(yù)期接收者、并將所述項目的一個子集標記為要受輪詢的組件,所述項目的子集對應(yīng)于已知為對抗垃圾郵件的用戶的接收者子集;以及接收涉及所述垃圾郵件戰(zhàn)士對所輪詢項目的分類的信息、并將所述信息用于訓練垃圾郵件過濾器和填充垃圾郵件列表的反饋組件。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述項目包括電子郵件(email)和消息中至少一種。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收一組所述項目的組件是電子郵件服務(wù)器、消息服務(wù)器、以及客戶機電子郵件軟件中的任何一個。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述要受輪詢的項目的子集包括所收到的所有項目。
5.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收者子集包括所有接收者。
6.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收者子集是隨機選擇的。
7.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收者子集包括所述系統(tǒng)的付費用戶。
8.如權(quán)利要求1所述的系統(tǒng),其特征在于,通常會被過濾掉的消息的至少一個子集被考慮用于輪詢。
9.如權(quán)利要求1所述的系統(tǒng),其特征在于,被標記用于輪詢的項目的子集限于至少的以下之一每個用戶的選中項目的數(shù)量;每個用戶在每個時間段的選中項目的數(shù)量;以及標記對應(yīng)于已知用戶的項目的概率。
10.如權(quán)利要求1所述的系統(tǒng),其特征在于,所標記的項目的每一個都被分配一唯一ID,所述唯一ID對應(yīng)于所標記項目和所標記項目的內(nèi)容中的任何一個。
11.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括修改被標記用于輪詢的項目以將其標識為輪詢項目的組件。
12.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述經(jīng)修改的項目包擴以下的至少一個經(jīng)修改的“自”地址;經(jīng)修改的主題行;輪詢圖標;以及用于標識為輪詢項目的輪詢顏色。
13.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述經(jīng)修改的項目包括所標記的項目作為附件。
14.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述經(jīng)修改的項目包括所標記項目的摘要,所述摘要包括主題、日期、消息文本、以及所述文本的前幾行中至少一項。
15.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述經(jīng)修改的項目包括表決指令和對應(yīng)于項目的至少兩個相應(yīng)類別的至少兩個表決按鈕和鏈接中的任意一個,以便于由用戶對項目進行分類。
16.如權(quán)利要求15所述的系統(tǒng),其特征在于,所述表決按鈕對應(yīng)于相應(yīng)的鏈接,從而當用戶選中所述表決按鈕中的任意一個時,涉及選中的表決按鈕、相應(yīng)的用戶、和分配給所述項目的唯一ID的信息被發(fā)送到一數(shù)據(jù)庫用于存儲。
17.如權(quán)利要求15所述的系統(tǒng),其特征在于,所述至少兩個表決按鈕包括第一表決按鈕,所述第一表決按鈕指示“合法郵件”;以及第二表決按鈕,所述第二表決按鈕指示“垃圾郵件”。
18.如權(quán)利要求15所述的系統(tǒng),其特征在于,所述表決按鈕是通過修改所述項目的文本來實現(xiàn)的。
19.如權(quán)利要求15所述的系統(tǒng),其特征在于,所述表決按鈕是通過修改客戶機電子郵件軟件的用戶界面來實現(xiàn)的。
20.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括存儲信息和數(shù)據(jù)的中央數(shù)據(jù)庫,所述信息和數(shù)據(jù)涉及用戶屬性、與所標記的項目相關(guān)聯(lián)的項目內(nèi)容和屬性、用戶分類和表決統(tǒng)計數(shù)據(jù)、每個用戶的輪詢及每個用戶每個時間段的輪詢的頻率分析數(shù)據(jù)、垃圾郵件列表、合法郵件列表、以及黑洞列表。
21.如權(quán)利要求1所述的系統(tǒng),其特征在于,由現(xiàn)有過濾器標記為垃圾郵件的被標記用于輪詢的項目被傳送到所述用戶的收件箱并被考慮用于輪詢。
22.如權(quán)利要求1所述的系統(tǒng),其特征在于,被標記用于輪詢的項目被掃描病毒,從而以下之一發(fā)生剝離檢測到的病毒并輪詢所述項目;以及舍棄受感染的項目。
23.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述系統(tǒng)在一個以上對抗垃圾郵件的公司中分布,從而來自每個公司的反饋被發(fā)送到操作上與每個公司接口的中央數(shù)據(jù)庫,其中,出于隱私的原因,所述反饋的某些部分被移除。
24.如權(quán)利要求23所述的系統(tǒng),其特征在于,所述公司反饋包含以下中的一項僅垃圾郵件項目,從而排除了合法項目;以及垃圾郵件項目及合法項目的發(fā)送者名稱、域名和IP地址。
25.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括測試用戶可靠性和可信性的用戶分類確認組件。
26.如權(quán)利要求25所述的系統(tǒng),其特征在于,所述用戶分類確認組件是交叉確認技術(shù)和已知結(jié)果測試消息技術(shù)中至少一種。
27.如權(quán)利要求25所述的系統(tǒng),其特征在于,所述用戶分類確認組件可被應(yīng)用于一個或多個受懷疑的用戶。
28.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述反饋組件接收涉及用戶反饋、蜜罐反饋、以可任選的收到項目的用戶接收者反饋的信息。
29.一種使用如權(quán)利要求1所述的系統(tǒng)的服務(wù)器。
30.一種使用如權(quán)利要求1所述的系統(tǒng)的電子郵件體系結(jié)構(gòu)。
31.一種其上存儲了如利要求1所述的組件的計算機可讀介質(zhì)。
32.一種便于就防止垃圾郵件而言來對消息進行分類的方法,其特征在于,包括接收一組所述的消息;識別所述消息的預(yù)期接收者;將所述消息的一個子集標記為要受輪詢,所述消息子集對應(yīng)于已知為對抗垃圾郵件的用戶的接收者子集;接收涉及所述用戶對輪詢消息的分類的信息;以及將所述信息用于訓練垃圾郵件過濾器和填充垃圾郵件列表。
33.如權(quán)利要求32所述的方法,其特征在于,通常會被過濾掉的消息的至少一個子集被電子郵件服務(wù)器接收并進入一反饋循環(huán)系統(tǒng)。
34.如權(quán)利要求32所述的方法,其特征在于,所有的傳入消息都由客戶機電子郵件軟件處理,從而被選中用于輪詢的消息對于個別用戶的偏好是專用的。
35.如權(quán)利要求32所述的方法,其特征在于,收到的所有消息被考慮用于輪詢,以減輕數(shù)據(jù)的偏差。
36.如權(quán)利要求32所述的方法,其特征在于,所述要受輪詢的消息子集包括所有消息。
37.如權(quán)利要求32所述的方法,其特征在于,所述接收者子集包括所有接收者。
38.如權(quán)利要求32所述的方法,其特征在于,所述已知為對抗垃圾郵件的用戶的接收者子集是通過每個接收者執(zhí)行以下至少一項來確定的決定參與提供對消息的反饋以便于訓練新的垃圾郵件過濾器;通過不決定退出而被動地決定參與提供對消息的反饋;為由參與的消息服務(wù)器提供的電子郵件和消息服務(wù)付費;以及向參與的消息服務(wù)器開設(shè)電子郵件賬號。
39.如權(quán)利要求32所述的方法,其特征在于,被選中參與消息輪詢的用戶子集是隨機選擇的。
40.如權(quán)利要求32所述的方法,其特征在于,被選中參與消息輪詢的用戶子集是從所有付費用戶中選出的,從而使某些垃圾郵件發(fā)送者需要付出更高代價才能破壞所述的垃圾郵件過濾器訓練。
41.如權(quán)利要求32所述的方法,其特征在于,所述被標記用于輪詢的消息子集是隨機選擇的。
42.如權(quán)利要求32所述的方法,其特征在于,所述被標記用于輪詢的消息子集受一個或多個輪詢限制所限。
43.如權(quán)利要求32所述的方法,其特征在于,所述一個或多個輪詢限制包括每個用戶的限制和每個用戶每個時間段的限制,以減輕數(shù)據(jù)偏差。
44.如權(quán)利要求32所述的方法,其特征在于,還包括修改所標記的消息,以將其標記并標識為輪詢消息。
45.如權(quán)利要求44所述的方法,其特征在于,修改所標記的消息包括執(zhí)行以下至少一項將所標記的消息移到用于輪詢消息的單獨的文件夾;修改所標記的消息的“自”地址;修改所標記的消息的主題行;在所標記的消息上使用輪詢圖標以將其標識為輪詢消息;以及使用獨特的顏色來將所標記的消息標識為輪詢消息。
46.如權(quán)利要求32所述的方法,其特征在于,所述輪詢消息包括原始收到的消息的附件和向用戶指示如何表決的一組指令。
47.如權(quán)利要求46所述的方法,其特征在于,還包括至少兩個表決按鈕,以便于將消息分類為垃圾郵件和非垃圾郵件。
48.如權(quán)利要求47所述的方法,其特征在于,所述表決按鈕是鏈接,當用戶選中所述鏈接時,即創(chuàng)建用于訓練垃圾郵件過濾器和填充垃圾郵件列表的反饋,所述反饋包含涉及選中的分類、用戶、消息、分配給消息和消息內(nèi)容中之一的唯一ID的信息。
49.如權(quán)利要求47所述的方法,其特征在于,還包括第三表決按鈕,以供決定退出將來的輪詢。
50.如權(quán)利要求47所述的方法,其特征在于,所述表決按鈕通過在將所述輪詢消息發(fā)送到各自的用戶之前修改所述消息的文本,被結(jié)合到所述輪詢消息中。
51.如權(quán)利要求47所述的方法,其特征在于,所述表決按鈕是通過修改客戶機電子郵件軟件的用戶界面來實現(xiàn)的。
52.如權(quán)利要求47所述的方法,其特征在于,所述表決按鈕被結(jié)合到所述輪詢消息中。
53.如權(quán)利要求32所述的方法,其特征在于,還包括在所標記的消息被下載用于輪詢之前對其掃描病毒。
54.如權(quán)利要求53所述的方法,其特征在于,還包括從任何受感染消息中移除病毒。
55.如權(quán)利要求53所述的方法,其特征在于,受病毒感染的所標記的消息被舍棄。
56.如權(quán)利要求46所述的方法,其特征在于,還包括消息摘要,所述摘要包含主題行、消息發(fā)送者、消息發(fā)送日期、消息收到日期、以及來自該消息的前幾行文本中的至少一項。
57.如權(quán)利要求32所述的方法,其特征在于,還包括將每個所標記的消息制作一個和原始收到時一樣的副本,從而使各個用戶能接收到所述消息的原始形式的第一副本和所述消息的輪詢形式的第二副本。
58.如權(quán)利要求32所述的方法,其特征在于,所標記的消息被個別地分配對應(yīng)于所標記消息和所標記消息的內(nèi)容中至少一項的唯一ID。
59.如權(quán)利要求58所述的方法,其特征在于,所標記的消息及其相關(guān)聯(lián)的ID被存儲在與訓練垃圾郵件過濾器和填充垃圾郵件列表有關(guān)的數(shù)據(jù)庫中。
60.如權(quán)利要求32所述的方法,其特征在于,反饋組件接收涉及用戶對所述輪詢消息的分類的信息,所述反饋組件包括中央數(shù)據(jù)庫。
61.如權(quán)利要求60所述的方法,其特征在于,所述數(shù)據(jù)庫提供與經(jīng)由機器學習技術(shù)來訓練垃圾郵件過濾器和填充垃圾郵件列表有關(guān)的信息。
62.如權(quán)利要求32所述的方法,其特征在于,所述垃圾郵件過濾器是使用被分類為垃圾郵件和非垃圾郵件的消息來訓練的,以減輕輪詢數(shù)據(jù)的偏差和輪詢消息的錯誤分類。
63.如權(quán)利要求32所述的方法,其特征在于,還包括將所述經(jīng)訓練的垃圾郵件過濾器分發(fā)到一個或多個服務(wù)器,所述分發(fā)是自動發(fā)生和/或通過電子郵件消息和網(wǎng)站上用于下載的通告中的至少一個的請求發(fā)生的。
64.如權(quán)利要求60所述的方法,其特征在于,識別用戶和標記用于輪詢的消息在一個或多個郵件服務(wù)器和一個或多個客戶機電子郵件軟件之間分布,從而由所述郵件服務(wù)器和客戶機電子郵件軟件生成的數(shù)據(jù)被返回到中央數(shù)據(jù)庫,用于與訓練垃圾郵件過濾器和填充垃圾郵件列表有關(guān)的存儲。
65.如權(quán)利要求64所述的方法,其特征在于,出于隱私的原因,從由所述郵件服務(wù)器和客戶機電子郵件軟件發(fā)送到所述中央數(shù)據(jù)庫的任何數(shù)據(jù)中移除關(guān)鍵信息,從而所述數(shù)據(jù)的僅一部分被發(fā)送到所述中央數(shù)據(jù)庫以便于訓練所述垃圾郵件過濾器。
66.如權(quán)利要求65所述的方法,其特征在于,所述發(fā)送到中央數(shù)據(jù)庫的數(shù)據(jù)部分包含以下至少一項涉及垃圾郵件消息的信息;嵌入在合法消息中的域名;以及嵌入在合法消息中的IP地址。
67.如權(quán)利要求64所述的方法,其特征在于,由所述電子郵件服務(wù)器生成的數(shù)據(jù)和由所述客戶機電子郵件軟件生成的數(shù)據(jù)被聚集到分別對應(yīng)于輪詢結(jié)果和輪詢消息的統(tǒng)計數(shù)據(jù)中,從而減輕了將所述消息發(fā)送到所述中央數(shù)據(jù)庫所需的帶寬。
68.如權(quán)利要求32所述的方法,其特征在于,訓練所述垃圾郵件過濾器和填充所述垃圾郵件列表是由機器學習技術(shù)使用基于用戶分類反饋和可任選的由一個或多個附加來源生成的數(shù)據(jù)來執(zhí)行的,所述一個或多個來源包含蜜罐、接收者非用戶分類反饋、以及主動學習技術(shù)。
69.如權(quán)利要求68所述的方法,其特征在于,由所述一個或多個來源生成的數(shù)據(jù)相對于由該來源生成的數(shù)據(jù)的類型并相對于所述用戶分類數(shù)據(jù)來成比例地重新加權(quán),以便于獲得數(shù)據(jù)的無偏差采樣。
70.如權(quán)利要求68所述的方法,其特征在于,蜜罐對應(yīng)于以限制性方式透露的電子郵件地址,使得已知誰向其發(fā)送合法消息,從而便于垃圾郵件發(fā)送者的即時識別、用戶訂戶信息分發(fā)給垃圾郵件發(fā)送者的可疑商家的驗證、以及和無需等待用戶分類的垃圾郵件消息即時分類。
71.如權(quán)利要求70所述的方法,其特征在于,由所述蜜罐生成的信息選擇性地至少部分取決于相對于其它來源的數(shù)量使用的蜜罐數(shù)量來減少權(quán)重,所述其它來源包括用戶分類反饋。
72.如權(quán)利要求70所述的方法,其特征在于,由所述蜜罐生成的數(shù)據(jù)被實時地集成到中央數(shù)據(jù)庫中,涉及用戶分類和輪詢消息的信息也存儲在所述中央數(shù)據(jù)庫中以供稍后用于訓練垃圾郵件過濾器和填充垃圾郵件列表。
73.如權(quán)利要求67所述的方法,其特征在于,所述消息是使用主動學習技術(shù),即,基于其估算值選擇消息來學習新的或已更新的過濾器的技術(shù)來選擇的。
74.如權(quán)利要求32所述的方法,其特征在于,還包括監(jiān)視傳入消息各自的一個或多個肯定特征;確定收到的肯定特征的頻率;至少部分地基于歷史數(shù)據(jù)來判定收到的一個或多個肯定特征是否超過一閾值頻率;以及隔離對應(yīng)于超過所述閾值頻率的一個或多個肯定特征的可疑消息,直至有其它分類數(shù)據(jù)可用于判定可疑消息是否為垃圾郵件。
75.如權(quán)利要求74所述的方法,其特征在于,所使用的特征是關(guān)于發(fā)送者的信息,包括發(fā)送者IP地址和域中的至少一個。
76.如權(quán)利要求74所述的方法,其特征在于,隔離可疑消息是通過以下動作中的至少一個來執(zhí)行的臨時將所述的可疑消息標記為垃圾郵件并將其移到垃圾郵件文件夾;延遲將所述可疑消息送達給用戶,直至其它分類數(shù)據(jù)可用;以及將所述可疑消息存儲在對用戶不可見的文件夾中。
77.如權(quán)利要求32所述的方法,其特征在于,還包括確定所述垃圾郵件過濾器的假肯定和捕獲率,以便于優(yōu)化所述垃圾郵件過濾器,其中,確定假肯定和捕獲率包括使用訓練數(shù)據(jù)集來訓練所述垃圾郵件過濾器,所述訓練數(shù)據(jù)集包括第一組輪詢結(jié)果;利用用戶反饋來分類第二組輪詢消息,以產(chǎn)生第二組輪詢結(jié)果;使所述第二組輪詢消息穿過所述經(jīng)訓練的垃圾郵件過濾器;將所述第二組輪詢結(jié)果與所述經(jīng)訓練的垃圾郵件過濾器結(jié)果進行比較,以確定所述過濾器的假肯定和捕獲率,從而根據(jù)最優(yōu)過濾器性能來評估和調(diào)整過濾器參數(shù)。
78.如權(quán)利要求77所述的方法,其特征在于,構(gòu)建一個以上垃圾郵件過濾器,其每一個都具有不同的參數(shù),且每一個都用同一訓練數(shù)據(jù)集來訓練,從而將每個垃圾郵件過濾器的假肯定和捕獲率與至少一個其它垃圾郵件過濾器進行比較,以為垃圾郵件過濾確定最優(yōu)參數(shù)。
79.如權(quán)利要求32所述的方法,其特征在于,還包括使用額外的傳入消息組來構(gòu)建改進的垃圾郵件過濾器,所述額外消息組的子集要受輪詢以產(chǎn)生與訓練所述改進的垃圾郵件過濾器有關(guān)的新信息,其中,先前獲得的信息至少部分地基于多久以前獲得它來對其重新加權(quán)。
80.如權(quán)利要求32所述的方法,其特征在于,還包括使用所述信息來構(gòu)建合法發(fā)送者列表。
81.如權(quán)利要求80所述的方法,其特征在于,所述合法發(fā)送者列表包括根據(jù)被分類為好郵件的消息的百分比,實質(zhì)上被分類為好郵件的來源的IP地址、域名和URL中的任何一個。
82.如權(quán)利要求32所述的方法,其特征在于,所述垃圾郵件列表用于生成不接受從其發(fā)送的任何郵件的地址的黑洞列表。
83.如權(quán)利要求32所述的方法,其特征在于,還包括使用所述信息以便于終結(jié)垃圾郵件發(fā)送者的賬號。
84.如權(quán)利要求83所述的方法,其特征在于,還包括識別正在使用ISP的垃圾郵件發(fā)送者并自動向該ISP通知該垃圾郵件發(fā)送。
85.如權(quán)利要求83所述的方法,其特征在于,還包括識別要為發(fā)送垃圾郵件負責的域,并自動地向該域的電子郵件供應(yīng)商和該域的ISP中的至少一個通知該垃圾郵件發(fā)送。
86.如權(quán)利要求32所述的方法,其特征在于,還包括將所述垃圾郵件過濾器和所述垃圾郵件列表中至少一個分發(fā)給郵件服務(wù)器、電子郵件服務(wù)器、以及客戶機電子郵件軟件中的任意一個,其中,所述分發(fā)包括以下的至少一項在網(wǎng)站上張貼通知,以通知所述垃圾郵件過濾器和垃圾郵件列表可用于下載;自動向郵件服務(wù)器、電子郵件服務(wù)器和客戶機電子郵件軟件推出所述垃圾郵件過濾器和所述垃圾郵件列表;以及手動向郵件服務(wù)器、電子郵件服務(wù)器和客戶機電子郵件軟件推出所述垃圾郵件過濾器和所述垃圾郵件列表。
87.一種便于驗證用戶分類的可靠性和可信性的交叉確認方法,其特征在于,包括從用于訓練垃圾郵件過濾器的數(shù)據(jù)中排除一個或多個受懷疑用戶的分類;使用所有其它可用的用戶分類來訓練所述垃圾郵件過濾器;以及使所述受懷疑用戶的輪詢消息穿過所述經(jīng)訓練的垃圾郵件過濾器,以確定與所述受懷疑用戶的分類相比較,它會如何分類所述消息。
88.如權(quán)利要求87所述的方法,其特征在于,還包括執(zhí)行以下的至少一項對由被確定為不可信的用戶提供的現(xiàn)有和將來的分類進行折扣,直至該用戶被確定為可信;舍棄由被確定為不可信的用戶提供的現(xiàn)有分類;以及將所述不可信用戶從將來的輪詢中移除。
89.一種便于驗證用戶分類中的可靠性和可信性,以經(jīng)由反饋循環(huán)系統(tǒng)來訓練垃圾郵件過濾器的方法,其特征在于,包括將對抗垃圾郵件的用戶的一個子集標識為可疑用戶;向所述可疑用戶提供具有已知結(jié)果的一個或多個消息用于輪詢;以及確定所述受懷疑用戶對所述一個或多個測試消息的分類是否與所述已知分類相匹配,以確定所述用戶分類的可靠性。
90.如權(quán)利要求89所述的方法,其特征在于,被標識為可疑用戶的所述對抗垃圾郵件的用戶的子集包括所有用戶。
91.如權(quán)利要求89所述的方法,其特征在于,所述消息是測試消息,它已知為垃圾郵件和好郵件中至少一種,并由所述反饋循環(huán)系統(tǒng)注入到傳入郵件流中并傳送到所述可疑用戶。
92.如權(quán)利要求89所述的方法,其特征在于,所述受懷疑用戶收到的用于輪詢的消息是由系統(tǒng)管理員手動分類的,以用正確的分類來訓練所述垃圾郵件分類器,來識別不可信用戶。
93.如權(quán)利要求89所述的方法,其特征在于,還包括以下動作中的至少一項對由被確定為不可信的用戶提供的現(xiàn)有和將來的分類進行折扣,直至該用戶被確定為可信;舍棄由被確定為不可信的用戶提供的現(xiàn)有分類;以及將所述的不可信用戶從將來的輪詢中移除。
94.一種其上存儲了以下計算機可執(zhí)行組件的計算機可讀介質(zhì)接收一組消息的組件;識別所述消息的預(yù)期接收者,并將所述消息的一個子集標記為要受輪詢的組件,所述消息子集對應(yīng)于已知為對抗垃圾郵件的用戶的接收者子集;修改所標記的消息以向用戶將其標識為輪詢消息的消息修改組件;以及接收涉及用戶對所述輪詢消息的分類、并將所述信息用于訓練垃圾郵件過濾器和填充垃圾郵件列表的反饋組件。
95.一種便于就防止垃圾郵件而言來對消息進行分類的系統(tǒng),其特征在于,包括用于接收一組消息的裝置;用于識別所述消息的預(yù)期接收者的裝置;用于將所述消息的一個子集標記為要受輪詢的裝置,所述消息子集對應(yīng)于已知為對抗垃圾郵件的用戶的接收者子集;用于接收涉及用戶對所述輪詢消息的分類的信息的裝置;以及用于將所述信息用于訓練垃圾郵件過濾器和填充垃圾郵件列表的裝置。
全文摘要
本發(fā)明提供了便于就在服務(wù)器和/或基于客戶機的體系結(jié)構(gòu)中防止垃圾郵件而對項目進行分類的反饋循環(huán)系統(tǒng)和方法。本發(fā)明利用機器學習方法,將其應(yīng)用于垃圾郵件過濾器,尤其是隨機地對傳入的電子郵件消息進行采樣,從而獲得合法和垃圾/兜售信息郵件兩者的例子來生成訓練數(shù)據(jù)集。被標識為垃圾郵件戰(zhàn)士的用戶被要求對其傳入電子郵件消息的選擇分別是合法郵件還是垃圾郵件進行表決。數(shù)據(jù)庫存儲每個郵件和表決事務(wù)的屬性,諸如用戶信息、消息屬性和內(nèi)容摘要以及每個消息的輪詢結(jié)果等,以生成用于機器學習系統(tǒng)的訓練數(shù)據(jù)。該機器學習系統(tǒng)便于創(chuàng)建改進的垃圾郵件過濾器,它被訓練成能識別合法郵件和垃圾郵件兩者,并能區(qū)分這兩者。
文檔編號H04L12/58GK1809821SQ200480003769
公開日2006年7月26日 申請日期2004年2月25日 優(yōu)先權(quán)日2003年3月3日
發(fā)明者R·L·朗特瓦特, D·E·黑克爾曼, J·D·梅爾, N·D·豪威爾, M·C·魯珀斯伯格, D·A·斯勞森, J·T·古德曼 申請人:微軟公司