專利名稱:外發(fā)垃圾郵件的阻止的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于識別垃圾郵件信息的系統(tǒng)和方法。尤其是監(jiān)視外發(fā)通信來幫助識別垃圾郵件的發(fā)送者。
背景技術(shù):
諸如互聯(lián)網(wǎng)之類的全球通信網(wǎng)的出現(xiàn)對能夠得到大量潛在的消費者而展示了商機。電子信息,特別是電子郵件(“email”)作為向網(wǎng)絡(luò)用戶傳播不需要的廣告和宣傳(也表示為“垃圾郵件”)的手段變得日益普遍。
Radicati Group.Inc,一個咨詢和市場調(diào)查公司,估測出在2002年8月中每天都發(fā)送了20億封垃圾郵件—這個數(shù)字有可能每兩年翻三番。個人和組織(例如商業(yè)、管理機構(gòu))被日益增多的打擾,并且時常因為垃圾信息而不快。照那樣的話,垃圾郵件現(xiàn)在或不遠的將來將會很快成為可靠計算的主要威脅。
用于阻止垃圾郵件的普通技術(shù)包括使用過濾系統(tǒng)/方法。一種公認的過濾技術(shù)是基于機器學習方法。在該方法中,通常從兩種類型的舉例信息(例如垃圾郵件和非垃圾郵件信息)中提取出特征,并使用一個學習過濾器在這兩種類型之間辨別可能性。由于大多數(shù)信息特征與內(nèi)容(例如,主題和/或信息本身中的詞和短語)有關(guān),這種類型的過濾器通常被稱為“基于內(nèi)容的過濾器”。
此外,傳統(tǒng)的垃圾郵件過濾器和過濾技術(shù)通常在外來信息上操作或與外來信息進行操作。也就是說,從濾波器中傳送外來信息以識別垃圾郵件和好的信息。由于許多垃圾郵件制造者已經(jīng)想到回避或繞開這些類型的過濾器的方法,這些濾波器仍然不夠完善。因此,傳統(tǒng)的基于內(nèi)容的和/或適應(yīng)性垃圾郵件過濾器通常在有效地識別垃圾郵件和阻止外來信息方面是無效的。
本發(fā)明的概述為了提供對本發(fā)明的一些方面的基本理解,接下來將描述本發(fā)明的概要。該概要不是本發(fā)明的廣泛觀點。其并不想確定本發(fā)明的關(guān)鍵點/要點或描繪本發(fā)明的范圍。其唯一的目的是以簡單的形式展現(xiàn)本發(fā)明的一些觀點,作為之后對本發(fā)明的詳細描述的前序。
本主題發(fā)明提供了用于在各種網(wǎng)絡(luò)通信環(huán)境中檢測和阻止垃圾郵件的系統(tǒng)和方法。特別是,本發(fā)明提供了幾種技術(shù),該技術(shù)通過監(jiān)視諸如郵件、即時信息發(fā)送、密談聊天室、和/或聊天室信息這樣的信息來識別潛在的垃圾郵件發(fā)送者,也稱為垃圾郵件制造者。垃圾郵件制造者經(jīng)常試圖通過利用合法的因特網(wǎng)服務(wù)提供者(ISP)或其它信息服務(wù)來發(fā)送他們的垃圾郵件。而這種行為嚴重的增加了ISP的帶寬以及維護的費用,并降低了ISP作為信息委托資源的聲譽,這可以妨礙其取得發(fā)送的合法信息的能力。由于ISP提供了免費的用戶賬戶而使得垃圾郵件制造者可以最容易利用它,因此該問題對ISP來說是非常重要的。
區(qū)別于常規(guī)垃圾郵件的阻止方法,本發(fā)明通過檢查用戶的外發(fā)信息—與外來信息相反—來識別潛在的垃圾郵件制造者。一種技術(shù)包括追蹤發(fā)送者的信息數(shù)量和/或接收人數(shù)量。舉例來說,被要求發(fā)送信息的ISP服務(wù)器可以保存特定用戶的發(fā)送信息數(shù)量的計數(shù)。作為選擇,ISP服務(wù)器可通過檢查信息的“To”欄和“cc”欄(副本)來對該特定信息的接收者數(shù)量進行計數(shù)??梢栽谝粋€周期時間內(nèi)(例如,每小時、每天、每星期、每月、每年、每隔h小時,每個d天等)對這些類型的計數(shù)進行追蹤,或者可以得到用戶曾經(jīng)發(fā)送的信息總數(shù)(例如從激活或打開賬戶到現(xiàn)在)。由于大多數(shù)垃圾郵件者向相對大量的收件人發(fā)送信息合法用戶通常向相對少量的收件人發(fā)送信息,因此這種技術(shù)是相當有效的。
另一種用于識別潛在的垃圾郵件制造者的技術(shù)包括機器學習系統(tǒng)和方法。例如,垃圾郵件具有屬于它們自己而且通常在合法信息中不會發(fā)現(xiàn)的特征??梢宰R別出這種特征,并將這種特征連同機器學習系統(tǒng)一起使用以建立和訓練過濾器。機器學習系統(tǒng)可以分配一個概率給外發(fā)信息并向ISP服務(wù)器或服務(wù)器操作者傳達各自的外發(fā)信息將落在最不類似垃圾郵件和最類似垃圾郵件的范圍中的某處。處理外發(fā)信息的服務(wù)器基于至少部分基于一個或多個外發(fā)信息為最類似垃圾郵件的概率來確定適當?shù)男袨榉绞???梢詫l(fā)送的信息中具有高概率成為垃圾郵件的發(fā)送者視為比僅發(fā)送具有成為垃圾郵件的低概率的信息的發(fā)送者更可疑。
除了或代替使用過濾器對一些或所有外發(fā)信息分配概率,還可以根據(jù)某些重要特征對外發(fā)信息進行記分,其中該記分表示該特定的信息更可能是垃圾郵件。舉例來說,本質(zhì)上所有的垃圾郵件都包含與垃圾郵件制造者的聯(lián)系方式,如URL或電話號碼??煞峙湟粋€高記分給帶有URL、鏈接、或電話號碼的信息,給那些不帶這些內(nèi)容的信息一個低記分,或甚至是等于0的記分。可以將這些記分添加到不同信息的機器學習系統(tǒng)概率中,或代替過濾器使用。
一些垃圾郵件制造者可以巧妙地控制機器學習系統(tǒng)以及同樣的設(shè)備來分配等于0或近似于0的外發(fā)信息記分,使得不論其內(nèi)容如何這些垃圾郵件作為非垃圾郵件或不太像的垃圾郵件通過。因此,本發(fā)明的另一方面通過總是或幾乎總是對每個外發(fā)信息分配某個最小記分而使記分總和(例如每個信息的總記分=MLS概率+最小記分)以某個可能的速率增加,以幫助減少垃圾郵件制造者的控制。作為選擇,可以為每個信息設(shè)置最小記分,例如每個信息的總記分=max(MLS概率,最小記分)。如果每個外發(fā)信息的記分總和超過了某個臨界值數(shù),則可標記該信息和/或各自的發(fā)送者為潛在的垃圾郵件制造者。
還有一種用于檢測潛在的垃圾郵件制造者的技術(shù)包括對用戶所發(fā)信息的不同接收者進行追蹤和計數(shù)。垃圾郵件制造者傾向于發(fā)送出少量的信息給大量不同接收者。而在本發(fā)明中,一個發(fā)送給20個接收者(如在“To”區(qū)域中列出了20個接收者)的信息相當于20個信息。因此,對用戶發(fā)送到的不同接收者的數(shù)量的計數(shù)任務(wù)可能是高消耗及低效率的。為了減少這種極低效率,可執(zhí)行對所有信息接收者的抽樣或探詢來估計在任意期望的周期內(nèi)每個發(fā)送者的接收者總數(shù)。
垃圾郵件制造者比合法用戶更可能試圖發(fā)送郵件到無效的郵箱中。因此,大量失敗的傳送嘗試也是垃圾郵件的象征。這些失敗可出現(xiàn)在信息交付時期,或者也可以在NDRs(未交付收據(jù))送回給發(fā)送者的時候。這種技術(shù)的缺點是,有時用戶會成為被垃圾郵件制造者使用他們的名字來發(fā)送垃圾郵件的受害者,而導致NDR實際上并不是來自于該用戶。驗證信息實際發(fā)送信息的發(fā)送者是可行的。例如,可通過追蹤來自該用戶的信息的接收者或由該用戶發(fā)送的信息來實現(xiàn)。每一次交付失敗時可分配一個較大的記分。
此外,可以追蹤指定的接收者來維護那些從例如被懷疑是潛在的垃圾郵件制造者的指定發(fā)送者處所接收到的信息的記錄??梢詫Πl(fā)送到這些指定接收者的信息進行存儲和/或分配給它們一個MSL概率??梢宰粉櫭總€接收者或每個發(fā)送者的最差得分信息。因此,計算每個發(fā)送者的全部接收者的最差記分總和可以幫助確定該發(fā)送者是否是潛在的垃圾郵件制造者。該技術(shù)通過不處罰或較少的處罰而允許合法用戶發(fā)送大量不像垃圾郵件的信息給接收者。發(fā)送單個類似垃圾郵件的信息也是有害的。此處假設(shè)給出的接收者可能會阻止或通告任何發(fā)送大量信息到相同接收者的垃圾郵件制造者,或至少認出該發(fā)送者的名字并不打開附加信息。
垃圾郵件制造者是不可能發(fā)送合法郵件的。由此可以假設(shè)發(fā)送大量合法郵件和少量類似垃圾郵件的用戶可能是合法的。因此,可以追蹤用戶發(fā)送的明顯合法的郵件數(shù)量,以及由于發(fā)送了合法郵件而對該用戶提供“獎勵”。該獎勵可以是增加或減少發(fā)送者記分的形式。作為選擇,該獎勵可以是允許用戶發(fā)送額外的外發(fā)信息(例如在每個指定的時間框架內(nèi)超過分配的數(shù)量)的形式。垃圾郵件制造者可能通過發(fā)送合法郵件試圖利用該技術(shù)。因此,應(yīng)該限制潛在的獎勵,例如通過限制在給定的時間框架內(nèi)對每個用戶的獎勵數(shù)量。
在識別出潛在的垃圾郵件制造者之后,可以執(zhí)行幾種動作來反對它們以阻止或禁止后續(xù)進行的垃圾郵件行為。根據(jù)一種方法,如果相對地確定了該用戶是垃圾郵件制造者,則可以關(guān)閉該用戶賬戶。如所期望的那樣,也可以通過ISP或信息程序操作者/服務(wù)器來實現(xiàn)其他可用的不太極端的方法。除了對來自潛在的垃圾郵件制造者的信息傳送采取暫時中斷,其它方法包括手動檢查發(fā)送者外發(fā)信息的一部分,通過突然彈出或定期的信息來發(fā)送關(guān)于用戶賬戶和垃圾郵件策略的警告,和/或發(fā)送諸如計算型或人為交互式證明(HIP)這樣的問題到潛在的垃圾郵件制造者。信息傳送是否繼續(xù)進行依賴于從潛在的垃圾郵件制造者那里接收到響應(yīng)。
在確定的假定情況下,可以對垃圾郵件者的行為進行經(jīng)濟分析。舉例來說,每100個信息的發(fā)送可以要求一個HIP。如果垃圾郵件制造者解答一個HIP需要向某人付出5美分(或者值得他們的時間的5美分),則每個信息征收了0.5美分的費用。假設(shè)接收者如果從相同的人那里接收了垃圾郵件,則很可能在第一個垃圾郵件之后阻止或不理睬這些信息,因而作為選擇,雖然每100個信息的發(fā)送可以要求一個HIP,但是允許向這些接收者發(fā)送無限量信息。由于許多用戶不會發(fā)送信息給多于100個指定的接收者,大多數(shù)用戶只需要在賬戶創(chuàng)建時解答一個HIP,而垃圾郵件制造者則將承擔很高的花費(可能會到達無利益點)。
經(jīng)濟上的分析也可以如下進行。假設(shè)可能存在這種情形,在接到垃圾郵件時,該接收者會向發(fā)送者的ISP投訴,由此導致該賬戶終止。例如,假設(shè)當垃圾郵件制造者發(fā)送2000個垃圾郵件時,它們其中的一個將被投訴,而它的賬戶將會被終止。同時還假設(shè)非常迅速地收到大多數(shù)投訴,也就是說在3天內(nèi)。如果對賬戶的創(chuàng)建每一次征收1美元,以及如果允許發(fā)送者在3天的周期內(nèi)發(fā)送高達2000個信息,在賬戶終止前任何對垃圾郵件的嘗試通常將導致至少0.5美分的花費。舉例來說,這將使得用戶對每個信息花費0.5美分。而合法用戶可能承受一次1美元的花費,隨后始終一天發(fā)送大約666個信息。假設(shè)這些合法信息中沒有一個被投訴,盡管限制了該用戶的發(fā)送速率,但他的總發(fā)送量將不受到限制。
可以通過HIP或計算性問題執(zhí)行相似的分析。可以對每100個信息要求一個HIP,直到20個HIP總數(shù),每個HIP花費5美分(總數(shù)為1美元)。在解答了20個HIP后,如上所述可在過去的3天中允許多達2000個信息。如果垃圾郵件制造者最初接到了20個HIP并發(fā)送了2000個垃圾郵件,他的賬戶將被終止,并且每個垃圾郵件將花費他0.5美分(也就是很多)。如果他試圖控制該系統(tǒng),例如通過解答20個HIP以及發(fā)送2000個合格信息(可能發(fā)送給他自己或同盟者),他沒有發(fā)送垃圾郵件。只要他愿意,他可以一直發(fā)送合格的信息,但是只要他發(fā)送了2000個垃圾郵件,就會有人投訴,他的賬戶將會被終止,并且每個垃圾郵件將花費0.5美分。因此,合法用戶為每個信息承擔的費用很低(假設(shè)他們在很長的運轉(zhuǎn)時間內(nèi)發(fā)送了大量信息),而垃圾郵件制造者對每個垃圾郵件承擔的費用很高??梢詫⒚總€問題(或花費)的發(fā)送量限制到某個最大量,比方說100個信息有一個問題則等于20個問題,由此發(fā)送者的速率受到了限制,即每天發(fā)送666個信息。
為了實現(xiàn)前述內(nèi)容和相關(guān)目的,在此結(jié)合隨后的描述及附圖來說明本發(fā)明例舉的某些方面。這些方面表現(xiàn)出雖然本發(fā)明的原理只使用了一些不同的手段,但本發(fā)明可以包括所有這種方面以及它們的等同方面。通過接下來結(jié)合附圖對本發(fā)明的詳細描述可以展現(xiàn)本發(fā)明的其它優(yōu)點和新穎的特征。
附圖的簡要說明
圖1是根據(jù)本發(fā)明的一個方面用于阻止外發(fā)垃圾郵件系統(tǒng)的大致方塊圖。
圖2是根據(jù)本發(fā)明的一個方面用于通過監(jiān)視外發(fā)信息對潛在的垃圾郵件制造者進行識別的系統(tǒng)的方塊圖。
圖3是根據(jù)本發(fā)明的一個方面用于識別和阻止外發(fā)垃圾郵件的典型方法的流程圖。
圖4是根據(jù)本發(fā)明的一個方面用于識別和阻止外發(fā)垃圾郵件的典型方法的流程圖。
圖5是根據(jù)本發(fā)明的一個方面用于識別潛在的垃圾郵件制造者的典型方法的流程圖。
圖6是根據(jù)本發(fā)明的一個方面用于識別潛在的垃圾郵件制造者的典型方法的流程圖。
圖7是根據(jù)本發(fā)明的一個方面用于識別潛在的垃圾郵件制造者的典型方法的流程圖。
圖8是根據(jù)本發(fā)明的一個方面用于采取行動來抵制垃圾郵件制造者的典型方法的流程圖。
圖9是根據(jù)本發(fā)明的一個方面用于驗證潛在的垃圾郵件制造者的典型方法的流程圖。
圖10是根據(jù)本發(fā)明的一個方面用于驗證潛在的垃圾郵件制造者的典型方法的流程圖。
圖11是根據(jù)本發(fā)明的一個典型通信環(huán)境的示意性方塊圖。
發(fā)明的詳細描述現(xiàn)在根據(jù)附圖來描述本發(fā)明,其中相似的相關(guān)數(shù)字始終用于指示相同的元件。在接下來的描述中,出于解釋的目的,為了對本發(fā)明的有徹底理解,因此闡述了許多特定的細節(jié)??梢宰C實,本發(fā)明也可以不在這些特定的細節(jié)中實施。在其它例子中,為了有助于描述本發(fā)明,以方塊圖的形式給出已知的結(jié)構(gòu)和設(shè)備。
如在本申請中所使用的,術(shù)語“部件”和“系統(tǒng)”指的是計算機相關(guān)實體,可以是硬件、硬件和軟件的結(jié)合、軟件、或者是運行中的軟件。舉例來說,部件可以是(但不局限于),運行在處理器上的處理、處理器、對象、可執(zhí)行的、執(zhí)行的線程、程序和/或計算機。作為解釋,運行在服務(wù)器上的應(yīng)用程序和該服務(wù)器都可以是一個部件。一個或多個部件可以駐留在一個處理和/或執(zhí)行的線程中,并且部件可以位于一個計算機上和/或分布在兩個或更多計算機之間。
本主題發(fā)明可以采用各種推理方案和/或為機器識別的垃圾過濾產(chǎn)生培訓數(shù)據(jù)的技術(shù)。如本發(fā)明所使用的,術(shù)語“推理”通常是指推出或推斷系統(tǒng)狀態(tài)、環(huán)境、和/或通過事件和/或數(shù)據(jù)而捕獲到觀測集中的用戶的處理。例如,推理可用于識別特殊的內(nèi)容或動作,或者可以產(chǎn)生狀態(tài)間的可能性分布。該推理可以是概率性的—也就是,根據(jù)數(shù)據(jù)和事件補償進行所關(guān)心的狀態(tài)間的概率分布的計算。推理也可以指用于根據(jù)事件集和/或數(shù)據(jù)集來構(gòu)成高級事件的技術(shù)。這種推理的結(jié)果是從觀測到的事件集和/或儲存的事件數(shù)據(jù)集里構(gòu)造新的事件或動作,無論這些事件是否有暫時的緊密聯(lián)系,還是事件和數(shù)據(jù)來自于一個或幾個事件和數(shù)據(jù)源。
可以意識到盡管術(shù)語信息貫穿本說明書被廣泛地使用,但該術(shù)語不限于電子郵件本身,并可適用于包括分布在任何適應(yīng)性通信體系之間的任意形式的電子通信。舉例來說,由于可以將不想要的文本作為用戶交換信息散布到一般交談中,和/或?qū)⒉幌胍奈募鳛殚_始信息、截止信息、或上述的所有信息插入,在兩人或多人之間建立會議的會議申請也可以使用此處所介紹的過濾的好處。
此外,術(shù)語“接收者”指的是外來信息的收件人。術(shù)語“用戶賬戶”可以是指根據(jù)信息所使用的內(nèi)容,使用信息發(fā)送系統(tǒng)來發(fā)送和/或接收諸如電子郵件、及時信息、交談信息、和/或密談信息這樣的信息的發(fā)件人或接收者。
現(xiàn)在參照圖1。圖1解釋了通常用于探測和識別潛在的垃圾郵件制造者的系統(tǒng)100的方塊圖。發(fā)送者可以使用基于用戶的信息生成部件110來產(chǎn)生一個外發(fā)信息120。該外發(fā)信息120可以由發(fā)送者發(fā)送到所期望的一個或多個接收者。
在將該外發(fā)信息交付給各自的接收者之前,檢測部件130處理并分析信息120以確定該信息是否可能是垃圾郵件和/或發(fā)送者是否是潛在的垃圾郵件制造者。存在多項通過垃圾郵件制造者的外發(fā)信息120來檢測垃圾郵件制造者的技術(shù)。一種方法包括監(jiān)視每個發(fā)送者的外發(fā)信息120的發(fā)送量或速率。由于大多數(shù)垃圾郵件制造者在給定的周期里傾向于比合法用戶更頻繁地發(fā)送信息,檢驗每個發(fā)送者的外發(fā)信息的發(fā)送量或速率有助于識別潛在的垃圾制造者。該周期可以是按需要規(guī)定的每m分鐘(m是大于等于1的整數(shù))或若干小時、若干天、若干星期、若干月、和/或若干年。例如,可以每隔10分鐘或以其它預(yù)定的基準追蹤在10分鐘的周期里的外發(fā)信息的發(fā)送量。為了識別潛在的垃圾郵件制造者,也可以計算每個發(fā)送者曾發(fā)出的信息總數(shù)(例如,從賬戶激活開始)。
另一個有可能更有效的方法需要計算每一個外發(fā)信息中的接收者的數(shù)量。通常,合法用戶發(fā)送大量信息,但僅是發(fā)送給少量接收者,反之,垃圾郵件制造者傾向于將少量信息發(fā)送給大量不同的接收者。舉例來說,信息的接收者可以記錄在“To”區(qū)域、“cc”區(qū)域(副本)、以及“bcc”區(qū)域。
考慮到了每個發(fā)送者的接收者數(shù)量,從而可以使得垃圾郵件制造者難以躲避諸如外發(fā)信息限制這樣的其它賬戶約束。例如,通常垃圾郵件制造者通過簡單地發(fā)送少量信息來躲避外發(fā)信息限制,藉此將每一個信息發(fā)送到盡可能多的接收者。為了減輕該類型垃圾郵件制造者所造成的危害,每一個信息接收者建立與本發(fā)明的一個方面相一致的獨立信息。換句話說,例如從發(fā)送者W發(fā)出的面向20個接收者的一個外發(fā)信息可以計數(shù)為來自發(fā)送者W的20個外發(fā)信息。因此,包括接收者的限制可以成為一個減少和阻止垃圾郵件行為的有效方法。
接收者的限制僅是另一種類型的適當約束,并且不可避免地,一些垃圾郵件制造者也將嘗試找到一種回避這種約束的方法。例如,垃圾郵件制造者可以反復(fù)地發(fā)送大量信息到相似的人群組從而不超過接收者的最大數(shù)量。在這種情況下,最初可能呈現(xiàn)出垃圾郵件制造者仿佛已經(jīng)成功地將他們的垃圾郵件經(jīng)常并大量地散布出去。但是,這種假象實際上并沒有成功。舉例來說,這是由于在持續(xù)一天的時間內(nèi)連續(xù)接收到相同垃圾郵件的接收組最終識別出該信息并停止打開該信息。此外,由于接收者接收到了對由指定發(fā)送者發(fā)送的相同或相似信息的阻攔,該接收者最終認識到這些信息是垃圾郵件。從而,對于大多數(shù)電子郵件客戶來說,他們可以很容易地列出垃圾郵件制造者的黑名單。因此,發(fā)送大量信息到一些相同的接收者看來似乎對垃圾郵件制造者來說比較沒有效率,因而采用不同的策略。
另一項技術(shù)使用了機器學習系統(tǒng)(MLS)。機器學習系統(tǒng)使用已知的在垃圾郵件中找到的或者在垃圾郵件中比在非垃圾郵件中更可能找到的特征或特性。機器學習系統(tǒng)也可以使用諸如在非垃圾郵件中比在垃圾郵件中更可能找到的那些不容置疑的特征。外發(fā)信息120可通過機器識別過濾器(例如,通MLS處理)處理,隨后分配給該外發(fā)信息一個概率或記分。該概率指示出該信息更可能或較不可能是垃圾郵件。舉例來說,一個更高的概率表示信息更可能是垃圾郵件,反之一個較低的概率表示信息較不可能是垃圾郵件(例如,更可能是非垃圾郵件)。因此根據(jù)這個例子,具有更高總記分的信息更可能被標記為垃圾郵件或潛在的垃圾郵件。
遺憾的是,垃圾郵件制造者已經(jīng)找到了例如巧妙地處理和/或誘使垃圾郵件過濾器總是對它們的信息分配0或者是接近0的概率的手段,從而成功通過這樣的過濾器。本發(fā)明的一個方面通過對所有外發(fā)信息分配附加的記分來緩解這種策略。例如,可以將一個常數(shù)值(例如,0.1,0.2等)和一些最小記分加入到過濾器的概率中或者加入到任何其它先前分配給該信息的記分中去。通過增加該常數(shù)值,檢測部件可以驗證記分的總和以某個合理的比率增加也就是說,以系數(shù)0.1,0.2等。
作為選擇或附加的,可以至少依據(jù)外發(fā)信息的一些內(nèi)容對每一個外發(fā)信息分配記分。例如,比起合法信息來說URL(通用資源定位符)通常更多的建立在垃圾郵件中。因此,可以對確定在信息的任意一處至少包含一個URL的外發(fā)信息分配一個比不包括URL的信息(例如小于2的記分)更高的記分(如2)。比起非垃圾郵件來說,其它諸如包含在信息中的電話號碼這樣的聯(lián)系信息更可能在垃圾郵件中找到。舉例來說,這是由于大多數(shù)垃圾郵件包含某些諸如電話號碼這種類型的聯(lián)系信息。電話號碼或者至少其中一部分(例如區(qū)域代碼和/或前綴)可以提供有關(guān)信息發(fā)送者的信息。因此,由于這種信息更可能是垃圾郵件,可以給這種信息分配一個更高的記分。
雖然以上已經(jīng)描述了幾種不同的記分方法,應(yīng)該看得出任何該記分方法的結(jié)合以及對機器學習系統(tǒng)的利用僅是系統(tǒng)100所使用的一種選擇。也可以使用其它基于規(guī)則的系統(tǒng)來實現(xiàn)本發(fā)明。舉例來說,過濾器可以是一個基于規(guī)則的系統(tǒng),一個模糊散列系統(tǒng)等。如果過濾器可以產(chǎn)生概率,這些概率可以在機器學習系統(tǒng)概率領(lǐng)域中使用。如果該過濾器可以產(chǎn)生記分,也可以使用這些記分。即使該過濾器僅能產(chǎn)生“垃圾郵件”/“非垃圾郵件”的猜測,這些猜測也可轉(zhuǎn)換成記分1/0,并使用它們。
作為另一種選擇或另外的記分方法,可以根據(jù)不能到達的信息接收者數(shù)量來分配記分。大量失敗的發(fā)送企圖是垃圾郵件的象征。這些失敗可能出現(xiàn)信息發(fā)送的時候,或者是NDR(未交付收據(jù))——反饋給發(fā)送者系統(tǒng)的出錯報告。該技術(shù)的不利之處是一些用戶將會成為垃圾郵件制造者使用他們的名字發(fā)送垃圾郵件、導致NDR并不是來自于該發(fā)送者的犧牲者。因此,驗證信息確實來自于發(fā)送者是有效的。可以進行這種處理,例如,追蹤來自用戶的信息接收者,或追蹤用戶發(fā)送的信息。較大的記分可以分配給每一個傳送不到的接收者。如果追蹤每一個用戶信息的接收者,則可以驗證任一NDR將發(fā)送給用戶實際發(fā)送電子郵件的對象,接下來描述一種包括每k個接收者中只追蹤一個接收者的技術(shù)。如果使用該技術(shù),則可以通過因數(shù)k為NDR增加未交付的處罰。
垃圾郵件制造者不可能發(fā)送合法郵件。因而可以確定發(fā)送大量合法郵件和少量類似垃圾郵件的用戶是合法的。由此可追蹤由用戶發(fā)送的看起來像是合法郵件的數(shù)量,并且可包括對發(fā)送合法郵件的“獎勵”。例如,分配給每一個合法用戶一個0.1分值的獎勵。假設(shè)由垃圾郵件過濾器給出一個足夠低的分數(shù)的信息可能是合法的。垃圾郵件制造者可能試圖通過發(fā)送合法郵件使用這種方法。因此要以某個最大值來限制潛在的獎勵,。
仍參照圖1,檢測部件130還可以通過計算分配給由給定發(fā)送者實際發(fā)出的全部信息的記分的總和來進一步處理每一個外發(fā)信息,如在一個指定持續(xù)時間內(nèi)確定各自的發(fā)送者是否是一個潛在的垃圾郵件制造者??梢酝ㄟ^至少部分地將記分與臨界值相比較而得到該確定。臨界值可根據(jù)發(fā)送者而改變,而當超過臨界值時,則可以確定該發(fā)送者便是潛在的垃圾郵件制造者。
為了驗證潛在的垃圾郵件制造者是否是真正的垃圾郵件制造者,任何諸如個體記分、總記分、發(fā)送者信息、和/或摘錄外發(fā)信息特征或與外發(fā)信息聯(lián)系在一起可得知是垃圾郵件這樣的信息140可以傳送到動作部件150。
動作部件與檢測部件130工作連接。至少部分地根據(jù)從檢測部件130接收到的信息140,動作部件150可以估測并發(fā)起一個抵制潛在的垃圾郵件的適當類型的動作。典型的動作類型包括對外發(fā)信息(每個發(fā)送者的)抽樣的人為檢查、請求發(fā)送者對動作部件產(chǎn)生的信息進行響應(yīng)、和/或信息交付的中斷(例如,持久的或暫時的)。任何由動作部件發(fā)起的動作既有效地減少了通過影響發(fā)送者的功能而直接產(chǎn)生并發(fā)送的信息,也減少了通過降低動作的成本并因此增加郵件垃圾制造者的消耗而間接的經(jīng)由受支配的用戶賬號來發(fā)送垃圾郵件。
參照圖2,圖2舉例說明了根據(jù)本發(fā)明一個方面的外發(fā)信息垃圾郵件檢測系統(tǒng)200的方塊圖。系統(tǒng)200包括發(fā)送者一方210,其中預(yù)先創(chuàng)建并處理外發(fā)信息以進行發(fā)送,系統(tǒng)200還包括接收者側(cè)220,其中外發(fā)信息被發(fā)送給他們想要送達的接收者。
發(fā)送者側(cè)220包含至少一個使用信息發(fā)生器232或其它可在其中創(chuàng)建信息的信息發(fā)送系統(tǒng)的發(fā)送者230。信息可包含如郵件信息、即時信息、聊天室信息、和/或密談信息(例如,類似于僅存在于聊天室中兩個人之間的即時信息)。一旦創(chuàng)建了外發(fā)信息,則將外發(fā)信息傳送到外送信息監(jiān)視器240,特別是要將信息從一個或多個過濾器250中通過。外送信息監(jiān)視器240包含信息接收者計數(shù)器242,該計數(shù)器可以追蹤每個發(fā)送者的外發(fā)信息的發(fā)送量,也就是每個發(fā)送者的接收者數(shù)量(或每個發(fā)送者的每個信息)。信息接收者計數(shù)器242與可計算在預(yù)定的持續(xù)時間內(nèi)每個發(fā)送者的外發(fā)信息量的時間功能部件244工作連接。
可以預(yù)先確定該持續(xù)時間以有效的檢測至少一個(如每日)或多個(如每小時、每日、以及每月)時間單位的信息發(fā)送量。舉例來說,可以在以5分鐘為周期(如每5分鐘10個信息)、以一小時為周期、和/或以每一天為基礎(chǔ)(如發(fā)送者230每天發(fā)送300個信息)的范圍內(nèi)記錄外發(fā)信息的數(shù)量。
由信息接收者計數(shù)器,也就是時間功能部件244產(chǎn)生的信息被傳送給處理器分析部件246。該處理器246處理并分析關(guān)于外發(fā)信息的資料以計算外發(fā)消息速率以及追蹤每個發(fā)送者的接收者和外發(fā)信息數(shù)量。通過處理器246可以在存儲器248中對每一個發(fā)送者的數(shù)據(jù)進行維護,以及/或從數(shù)據(jù)存儲器中找回這些數(shù)據(jù)。
如圖2所示,所有實際發(fā)送的信息通過至少一個過濾器250,并隨后直接傳遞到處理器部件246中進行分析,或傳遞到計數(shù)器242中。過濾器250可以根據(jù)每個信息的內(nèi)容分配某個記分或概率??梢愿鶕?jù)每個信息通過的過濾器250的數(shù)目及類型為每個信息分配一個上述記分。例如,一種記分可以是MSL概率。另一種記分可以是如0.1這樣的常數(shù)。另一種記分也可以指示該信息包含一個URL(如0.1)。處理器246可以計算每個信息的所有記分總和,和/或每個發(fā)送者的所有信息記分的總和。此外,也可以維護基于每個發(fā)送者的接收者名單的記分。這些名單可以通過系統(tǒng)200進行更新、刪除、以及自由地重新創(chuàng)建。由于大多數(shù)合法用戶通常發(fā)送較多的郵件給較少的接收者而多數(shù)垃圾郵件制造者傾向于發(fā)送較少的信息給大量不同的接收者,因此維護每個發(fā)送者的接收者動態(tài)名單對識別潛在的垃圾郵件制造者是有益的。
一旦發(fā)送者的記分和/或總記分(如針對一個外發(fā)信息或針對大量外發(fā)信息)超過了給定的臨界值,監(jiān)視器240發(fā)出信號通知規(guī)范部件260。針對一個外發(fā)信息的記分臨界值可以高于針對大量外發(fā)信息的設(shè)置臨界值。同樣地,記分臨界值可以在發(fā)送者中進行更改。每個發(fā)送者的臨界值信息可存儲在數(shù)據(jù)存儲器248中,并可從該存儲器中找回這些信息。
當通過外送信息監(jiān)視器識別出一個潛在的垃圾郵件制造者時,激活規(guī)范部件260。至少將該發(fā)送者的聯(lián)系信息傳送給規(guī)范部件260。其它可提供給規(guī)范部件260的信息包括發(fā)送者的記分(如單個信息記分的抽樣、總記分的抽樣、和/或從基于一個以四個星期為周期的每一周所獲得的記分抽樣等)。例如,規(guī)范部件260可以通過權(quán)衡記分信息來確定發(fā)送者是垃圾郵件制造者的確定性的級別。至少部分地依據(jù)該確定性的級別,提供給規(guī)范部件260幾個可用選項以幫助該規(guī)范部件來確定該發(fā)送者是否是垃圾郵件制造者,或者幫助該規(guī)范部件來提供該發(fā)送者不是垃圾郵件制造者的某個確定性級別。
一種選擇是包括可產(chǎn)生并傳送一個或多個問題給發(fā)送者(如發(fā)送者賬戶)的問題發(fā)生器262。該賬戶將被要求在可能發(fā)送任何其他外發(fā)信息之前以某種方式響應(yīng)該問題。作為選擇,當?shù)却龁栴}的響應(yīng)時可允許從該賬戶發(fā)送出某個最大數(shù)量的信息。
這些問題可以是發(fā)送者的外發(fā)信息的形式或者在信息發(fā)送時期(例如在發(fā)送者企圖發(fā)送它的外發(fā)信息時)突然彈出的信息的形式(例如,特別是當發(fā)送者使用了一個系統(tǒng)200已經(jīng)控制的客戶),作為發(fā)送給賬戶用戶的信息發(fā)送給賬戶。這些問題可以是人為交互式證明(HIPs)的形式和/或計算的問題形式。HIPs可由人來簡單地解答而不是計算機,反之計算型問題可由計算機來簡單地解答;因此,當選擇計算型問題作為問題時,是不需要人為注意。
除了超出臨界值標準涉及為可能是垃圾郵件的方式之外,出于其它不同原因可發(fā)送問題給用戶賬號。例如,作為監(jiān)視用戶行為的一種方式來驗證可能的垃圾郵件動作沒有發(fā)生時,這些問題是必需的。這是由于垃圾郵件制造者可能企圖通過最初發(fā)送合法信息并隨后大部分發(fā)送垃圾郵件信息來欺騙機器識別過濾器。為了監(jiān)視采用這種方式的用戶行為,可以要求用戶賬號和/或客戶在每發(fā)送完n個外發(fā)信息(其中n是大于等于1的整數(shù))之后解答一個問題。問題也可以響應(yīng)來自于服務(wù)器的反饋而發(fā)送,該反饋指示將要關(guān)閉該賬號。出于類似的原因并通過類似的方式,可以在計數(shù)了每個發(fā)送者的外發(fā)信息的r(r是大于等于1的整數(shù))個接收者之后發(fā)送問題。每個信息中的接收者只計數(shù)一次,例如兩個信息上的相同接收者計為兩個接收者,或者獨特的將兩個信息上的相同接收者計為一個接收者。
在一些例子中,發(fā)送者可以知道任何問題發(fā)送到哪里,特別是當客戶自動響應(yīng)這些問題而不需要人為的注意或動作。但是,如果客戶和/或用戶沒有做出響應(yīng)并在發(fā)送外發(fā)信息時進行了重復(fù)的嘗試,則會通知該賬戶需要做出回應(yīng)以繼續(xù)該賬戶的使用。只要正確和/或及時地回答了這些問題,就允許從該賬戶發(fā)送出外發(fā)信息。
另一種可選擇的方式包括通過(人為操作的)信息檢查器264對發(fā)送者的外發(fā)信息的抽樣進行人為檢查。由于一些合法賬戶持有者的行為可能與垃圾郵件行為相似(例如,每個信息的大量接收者,大量信息,和/或諸如組織郵件發(fā)送清單發(fā)送的較高的信息量和信息速度,家庭-朋友分布名單等),因此通過對發(fā)送者郵件的抽樣進行手動檢查來減少通過經(jīng)常性中斷合法發(fā)送者的外發(fā)信息的傳送而對該合法發(fā)送者產(chǎn)生的懲罰是有效的。當確定發(fā)送者是合法用戶時,將該發(fā)送者的記分置零或者增加這些記分的臨界值級別以至少降低將它們標記成潛在的垃圾郵件制造者的頻率。
一個可能是更迫切的選擇方式包括對潛在的垃圾郵件制造者發(fā)送一個與信息發(fā)送服務(wù)的用戶、垃圾郵件政策以及服務(wù)的條件有關(guān)的法律通知。該法律通知也可以作為警告潛在的垃圾郵件者違反了垃圾郵件政策和/或服務(wù)的條件而提供。提供這種類型的通知使得抵制垃圾郵件制造者的法律行為變得更簡單??梢詴簳r終止外發(fā)信息到接收者220(如信息接收部件270)的傳送或者立即停止該賬戶直到該發(fā)送者證實收到并閱讀了改法律通知。該法律通知可作為發(fā)送給賬戶的信息傳達給發(fā)送者,其形式可以是發(fā)送者的外發(fā)信息或在信息發(fā)送時突然彈出的信息(例如,特別是當發(fā)送者使用了系統(tǒng)200或信息服務(wù)器已經(jīng)控制的客戶)??蛇x擇地,在中斷賬戶操作以及請求發(fā)送者對該信息做出響應(yīng)之前可以允許發(fā)送者發(fā)送少量信息。
在一些例子中,確定發(fā)送者是垃圾郵件制造者的級別可以更高。在這種情況下,可以通過賬戶終止部件268暫時或永久終止或關(guān)閉該賬戶。賬戶終止部件268也可以與其它選件(如262、264、266)中的一個或多個合作或共同操作。高級確定可至少部分地根據(jù)一個至少分配給一個外發(fā)信息的高MLS概率??蛇x擇的或附加的,在對先前已知的垃圾郵件存在一個發(fā)送者信息的精確或近似匹配時,或者是在信息包含一個人為確定是類似垃圾郵件的表達時(例如,垃圾郵件制造者使用的網(wǎng)頁的鏈接)。
此外,系統(tǒng)200可根據(jù)發(fā)送者的記分以及發(fā)送者對先前發(fā)送的選項的回答來實現(xiàn)上述可選方式的任意結(jié)合。
現(xiàn)在將通過一系列的動作來描述根據(jù)本發(fā)明的不同的方法??梢岳斫獠⒁庾R到本發(fā)明并不因動作的順序而受到限制,例如根據(jù)本發(fā)明一些動作可以不同的順序發(fā)生,和/或與其它本發(fā)明所描述的動作同時進行。例如,本領(lǐng)域的技術(shù)人員可理解并意識到一個方法可以通過一系列相互關(guān)聯(lián)的狀態(tài)或事件來表現(xiàn),如以狀態(tài)圖的形式。此外,根據(jù)本發(fā)明,對實現(xiàn)一個方法來說,并不是所有列舉的動作都是必需的。
現(xiàn)在轉(zhuǎn)向圖3,圖3示出了根據(jù)本發(fā)明的一個方面通常用于檢測潛在的垃圾郵件制造者的處理過程300的流程圖。識別處理過程300包括在步驟310充分地監(jiān)視每個發(fā)送者的所有外發(fā)信息310。該監(jiān)視過程可包括追蹤每個發(fā)送者的外發(fā)信息量和/或速率。此外,也可以追蹤并記錄每個發(fā)送者的每個信息所列出的接收者的數(shù)量。根據(jù)本發(fā)明的一個方面,每一個信息上的接收者構(gòu)成一個信息。因此,如果一個外發(fā)信息列出了25個接收者,則該指定信息將不會被計為1個信息,而是由于將有25個接收者接收到該信息而被計為25個不同的信息。
另外,該監(jiān)視過程也可以通過在諸如一個周期的時間里對每個發(fā)送者的每個信息、僅對每個發(fā)送者、和/或每個發(fā)送者的接收者跟蹤記分來完成,其中可以對每一個信息的接收者計數(shù),也可以唯一計數(shù)(兩個信息上的相同接收者計為一個)。通過MLS過濾器、其它基于規(guī)則的過濾器、和/或其它基于內(nèi)容的過濾器來分配這種記分。例如,MLS過濾器可以根據(jù)信息的至少一部分所顯示的垃圾郵件的級別來分配一個概率。其它基于規(guī)則的過濾器可以至少早某種程度上依據(jù)信息的某些內(nèi)容來分配相似類型的記分。最后,基于內(nèi)容的過濾器可以在外發(fā)信息中查找類似垃圾的短語或已知的垃圾郵件短語。在步驟320,對匹配或近似匹配的信息進行標記以對檢測發(fā)送者是否是潛在的垃圾郵件制造者進行進一步研究或考察。如果這些結(jié)果中的任意一個或它們的組合給出類似垃圾郵件的指示和/或超出了臨界值水平,處理過程300可在步驟330確定啟動什么類型的動作來至少阻止對潛在的垃圾郵件制造者的批準,或驗證發(fā)送者實際上就是垃圾郵件制造者。
如果盡管發(fā)送者具有類似于垃圾郵件的信息,仍驗證該發(fā)送者為合法用戶,在這種情況下,則采用另一種度量方法。舉例來說,將發(fā)送者的記分重新置零和/或?qū)Πl(fā)送者的臨界值水平進行調(diào)整以減少發(fā)送者發(fā)送的外發(fā)信息所產(chǎn)生的更多破壞。
參照圖4,圖4說明了根據(jù)本發(fā)明的另一個方面用于追蹤信息的指定接收者的典型的垃圾郵件檢測過程400的流程圖。垃圾郵件檢測過程400包括在對所有發(fā)送者或賬戶的外發(fā)信息發(fā)送給各自的接收者進行處理時監(jiān)視它們所有的外發(fā)信息(步驟410)。在監(jiān)視過程410中可使用大量技術(shù)來識別潛在的垃圾郵件制造者。舉例來說,在步驟420可對來自各自發(fā)送者(如每一個發(fā)送者)的外發(fā)信息量進行計數(shù)和追蹤??梢砸庾R到由于信息上列出的每一個接收者計數(shù)為1,因此信息的計數(shù)與接收者的計數(shù)應(yīng)該是相似的,否則會彼此不一致。
由于對信息以及接收者的數(shù)量進行了監(jiān)視,在步驟430可對不同發(fā)送者的外發(fā)信息速率進行記錄。外發(fā)信息量和速率的數(shù)據(jù)可轉(zhuǎn)換成記分用于測定每個發(fā)送者的行為??蛇x擇地,也可以利用數(shù)量及速率數(shù)據(jù)的未轉(zhuǎn)換狀態(tài)。
如圖中440所描述的,可隨機或非隨機選擇外發(fā)信息的接收者并將它們置于名單上,例如根據(jù)發(fā)送者的接收者名單。因此,為了追蹤的目的,當信息發(fā)送給名單上的接收者(稱為選定的接收者)時,將該信息與該接收者結(jié)合在一起。舉例來說,可以追蹤與選定接收者在一起的更高記分信息,也可以追蹤與該接收者在一起的最差記分信息。由選定接收者接收的最差記分(例如,最像垃圾郵件)信息可以作為與該接收者的指定發(fā)送者結(jié)合在一起的記分來使用(步驟450)。
由于垃圾郵件制造者比合法用戶更可能將信息發(fā)送到無效郵箱(例如不存在的郵件地址),因此他們更可能收到較高數(shù)量的未交付收據(jù)。因而,具有相對大量失敗傳送企圖次數(shù)的發(fā)送者可以是潛在的垃圾郵件制造者的預(yù)示。根據(jù)這個特征,可選擇在步驟460追蹤每個發(fā)送者的未交付收據(jù)(NDRs)的數(shù)量;也可以執(zhí)行對實際來自于所謂的發(fā)送者的信息的驗證。一種用于驗證信息來自所謂的發(fā)送者的技術(shù)包括留意來自該發(fā)送者的信息接收者和/或留意由該發(fā)送者發(fā)送的信息。接下來,至少部分的根據(jù)每個發(fā)送者接收到的NDRs的數(shù)量對記分進行分配。
可選擇地,可以通過獎賞來獎勵通常發(fā)送合法信息以及少量類似于垃圾郵件信息的發(fā)送者。例如,獎賞可以是對發(fā)送者記分進行有利的調(diào)節(jié)的形式。
之后在步驟470,可計算某個列表(例如每個發(fā)送者)上所有接收者記分的總和。此外,如果該總記分超過了臨界值,則標記該發(fā)送者是潛在的垃圾郵件制造者并可以對檢查發(fā)送者的類垃圾郵件行為進行更進一步的動作。
通過僅使用與發(fā)送者結(jié)合在一起的最差記分來代替來自發(fā)送者(給選定的接收者)的所有信息的記分總和,而不會對沒有從發(fā)送者處接收到類似垃圾郵件的信息接收者進行抵制該發(fā)送者的計數(shù)。以下在圖6中將進一步論述追蹤隨機選定的接收者以及它們的信息。
參照圖4,為了在各自的信息中尋找類似垃圾郵件的特征,在步驟480可通過一個或更多過濾器對這些外發(fā)信息進行處理。舉例來說,包括URL的信息更可能是垃圾郵件。因此,可對含有URL的信息分配一個比例如是沒有URL的信息高的記分??梢砸庾R到與步驟420,430,440以及480有關(guān)的處理可以以任意順序發(fā)生和/或至少部分互相重疊發(fā)生。
通常,通常將記分計算成每個信息的總記分和/或每個發(fā)送者的總記分(例如發(fā)送者的所有不同信息的記分和),并隨后在步驟490與不同臨界值級別進行比較以幫助檢測和識別潛在的垃圾郵件制造者。
除了監(jiān)視外發(fā)信息的數(shù)量和速率之外,留意一個發(fā)送者所擁有或所曾經(jīng)擁有的不同接收者的數(shù)量也是可行的。隨著接收者的數(shù)量的增加,發(fā)送者更可能是潛在的垃圾郵件制造者。這是由于合法用戶通常發(fā)送大量信息到少量的相關(guān)接收者;反之,與之相反的通常是真正的垃圾郵件制造者。也就是說,垃圾郵件制造者傾向于發(fā)送少量信息到幾個不同的以及截然不同的接收者。
現(xiàn)在參照圖5,圖5說明了根據(jù)相應(yīng)的不同接收者來監(jiān)視外發(fā)信息的典型方法500的流程圖。該方法在由信息服務(wù)器(如在發(fā)送者一側(cè))接收外發(fā)信息的步驟510開始??蓪π畔⒎?wù)器或一些其它部件進行編程以每一個接收者增加一個外發(fā)信息名單。在步驟520,可對每一個外發(fā)信息分配一個記分并將該記分與相應(yīng)的接收者結(jié)合在一起。可獨立確定分配給每個外發(fā)信息的記分,例如,通過執(zhí)行一個邏輯操作來確定分配給指定外發(fā)信息的最合適的記分。
例如在步驟530,記分應(yīng)被設(shè)置成一個常數(shù)值。在對每個接收者的每一個外發(fā)信息設(shè)置常數(shù)值記分時,接收者的記分(例如,假定列出了向接收者傳送的多于一個的外發(fā)信息)應(yīng)該根據(jù)一個與該常數(shù)值相符的速率增加。因此,任何與此相背的情況可認為是一個或多個發(fā)送者試圖欺騙記分系統(tǒng)??梢愿綦x這種信息以及他們各自的接收者并至少將他們識別為垃圾郵件制造者。
可選擇地,分配給信息的記分可以是概率值(如MLS概率)。該概率可基于外發(fā)信息的MLS評估而得到;也就是說,該概率反映了外發(fā)信息是垃圾郵件或者發(fā)送者是垃圾郵件制造者的可能性。
此外,分配給每個外發(fā)信息的記分可以使MLS概率和常數(shù)值的結(jié)合。盡管可以利用不止一種記分的選擇方式,但應(yīng)該意識到記分的選擇方式應(yīng)與正在處理的外發(fā)信息組相一致,從而使得它們使用相似的參考等級或參考點來相互比較。但是也可以改變記分的選擇,只要這種變化與所有外發(fā)信息相一致。
為每一個接收者追蹤并記錄該外發(fā)信息。除了上述的記分以外,(在步驟550)也可以監(jiān)視發(fā)送給每個接收者的信息的數(shù)量、速率和/或頻率。例如,如果發(fā)送給任何接收者的信息的持續(xù)時間、速率和/或頻率超過了相應(yīng)給定的臨界值,則在步驟540對接收者列表增加一個記分來反映這種情況。
在步驟560,可以在相應(yīng)的持續(xù)時間內(nèi)計算該發(fā)送者的所有接收者的總記分??蛇x擇地或附加的,可追蹤該發(fā)送者對每個接收者的外發(fā)信息的最高記分,并作為計算總記分的一部分,以幫助識別該發(fā)送者是潛在的垃圾郵件制造者。
如果該總記分超過了臨界值(在步驟570),則可在步驟580確定該發(fā)送者是潛在的垃圾郵件制造者。類似的,如果一個最高記分信息超出了臨近值,也可在步驟580斷定它的發(fā)送者至少是潛在的垃圾郵件制造者。在步驟585,僅當經(jīng)過了充足的時間后可將與潛在的垃圾郵件制造者在一起的記分重新置零。對記分進行重置所需要的時間以及從發(fā)送者的外發(fā)信息的交付到下一次發(fā)送所需要的時間,至少部分的取決于和臨界值相關(guān)的垃圾郵件制造者的記分。也就是說,必須經(jīng)過充足的時間以使得垃圾郵件制造者的記分低于臨界值。
相反地,如果在指定時間內(nèi)與發(fā)送者在一起的總記分或者是單獨的信息記分超過了各自的臨界值,可如步驟590所示對發(fā)送者的記分重新置零;并在步驟510重新執(zhí)行方法500。
如以前所提到的,限制發(fā)送者可以發(fā)送的信息的接收者數(shù)量是減少垃圾郵件或類似垃圾郵件行為的有效方法。對發(fā)送者的唯一接收者數(shù)量(每個發(fā)送者的每一個接收者只計數(shù)一次)的限制對垃圾郵件制造者所產(chǎn)生的影響要比對合法發(fā)送者大;對每個信息的接收者數(shù)量的限制比對信息數(shù)量的限制更有效(由于垃圾郵件制造者可能發(fā)送一個信息給大量接收者)。此外,不僅在一個持續(xù)時間內(nèi)(例如每隔z分鐘、z小時、z天、z星期、z年等)對每個發(fā)送者的接收者總量進行計數(shù)是令人滿意的,同時追蹤發(fā)送給接收者的最可能的垃圾郵件也是有利的。
遺憾的是,由于需要追蹤每一個接收者(例如根據(jù)不同接收者的總數(shù)以及每個發(fā)送者的每個接收者記分來分配記分),追蹤每一個接收者以及接收者將要收到的信息的費用是昂貴的。因此,比留意每個接收者更有效的,可使用一項隨機化的技術(shù)來得到相似的結(jié)果。例如,假設(shè)存在最大接收者數(shù)n(例如n是大于等于1的整數(shù)),但僅追蹤(通過列表)該接收者的1/k(k是大于等于1的整數(shù))。然后,當察看了n/k個接收者時,可認為已經(jīng)達到了該最大值;或者是包含一個通過高概率來確定已經(jīng)達到了最大值的安全系數(shù)。
為了執(zhí)行該隨機化接收者追蹤處理,可使用散列法(hashing)。散列法是將一個特征串轉(zhuǎn)換成一個通常是較短的固定長度值或表現(xiàn)該原始特征串的關(guān)鍵字。由于使用較短的散列值找到項目信息比使用原始值要快,因此使用散列法來索引或重新找回數(shù)據(jù)庫或者是列表形式中的項目信息??蓪γ總€接收者的識別信息(諸如郵件地址這樣的ID)計算散列信息函數(shù)以產(chǎn)生每個接收者的散列值。根據(jù)使用該散列值進行比較而得出的匹配對接收者進行隨機選取。在本例中,如果以k為模的散列信息等于0則選定一個接收者進行追蹤。因此,當列表包含了n/k個接收者,則可確定每個發(fā)送者大約有n個接收者。該散列函數(shù)可基于每個發(fā)送者上的隨機因數(shù)建立,從而使得垃圾郵件制造者更難于利用本發(fā)明的這一方面。
圖6解釋了通過每隔接收者總數(shù)的1/k進行追蹤而評估每個發(fā)送者的不同接收者數(shù)量的典型隨機化技術(shù)600的流程圖。在步驟610,可計算每個接收者ID的散列函數(shù)。每一次發(fā)送外發(fā)信息給標識的接收者時,對該指定的接收者使用相同的散列。因此,一些接收者被追蹤,而一些沒有被追蹤。
在步驟620,使用與識別接收者時所使用的相同散列函數(shù)來計算散列值,然后使用該散列值進行一個匹配比較。在當前的例子中,模數(shù)為k的散列與某個隨機值進行比較,例如0。因此,如果接收者具有一個等于0的散列值并且獲得了匹配,則在步驟630把該接收者添加到用于信息追蹤的列表中。可以看到,作為必需的,模數(shù)為k的散列可與任何隨機值相比較以減少垃圾郵件制造者對本技術(shù)的欺騙與破解。但是,如果該接收者不具有等于0的散列值,則在步驟625檢查下一個接收者。
實踐中,假設(shè)發(fā)送者想要發(fā)送10,000個信息,而每天(獨立的)接收的限度為100。現(xiàn)在重新開始對接收量的1/k進行追蹤,在該實施例中k=10。因此,發(fā)送者發(fā)送信息給最初的10個人。在這10個人中,通常有一個在散列中,也就是說在這10個接收者中有一個接收者的以k為模的散列值等于0。選取該散列中的接收者并將其添加到用于信息追蹤的列表中。
發(fā)送者發(fā)送信息到另10個接收者。重復(fù)地,對于這10個接收者,其中一個的以k為模的散列值等于0。因此,散列中的接收者也被選定并添加到用于信息追蹤的列表中。經(jīng)過一段發(fā)送時間后,散列中有10個用戶,或者換句話說,10個用戶的散列值為0,并選定這10用戶以及將它們添加到用于信息追蹤的列表中。因此,由于列表中有10個接收者(接收者的散列值為0),從而可以很容易地計算出發(fā)送者至少向10個不同的接收者發(fā)送了外發(fā)信息,以及更可能是大約100個不同的接收者(如在步驟660)。
此外,對每個選定的接收者來說,可對最可能是垃圾郵件的信息進行記分,并且這些記分可以與不同的發(fā)送者結(jié)合在一起。舉例來說,在步驟640可存儲每個發(fā)送者的每個接收者的最可能是垃圾郵件的記分以及信息。周期性地或者在步驟650,可將存儲的信息和記分與其它信息和記分進行比較,從而驗證存儲了每個發(fā)送者的每個接收者的最可能是垃圾郵件的信息。相應(yīng)地可更新存儲的信息。除了偵察所有發(fā)送給接收者的信息之外,也可以使用隔離最可能是垃圾郵件信息的方法。通過這種策略,不會對沒有接收到可能是垃圾郵件的信息的接收者進行計數(shù)來抵制發(fā)送者。
可選擇上述存在的技術(shù),但他們可能是有問題的。一種選擇包括注意每個接收者的平均垃圾郵件記分,但這會允許一個垃圾郵件制造者發(fā)送幾個無關(guān)信息以及一個類似垃圾郵件的信息的攻擊,使得該平均記分降低。由于這種散列通常不是明顯的垃圾郵件,而由此干擾用戶并浪費用戶的時間,因此這種攻擊使用戶感到很煩惱。因此阻止這種攻擊是很重要的。另一種選擇是為給定的發(fā)送者計算其每個接收者的垃圾郵件記分總和。當為每一個給定發(fā)送者計算接收者的總和時,這將與計算所有接收者的垃圾郵件的記分總和所使用有效度量是相同;但是,這種方法不需要保留每個接收者的任何信息。同時,總分度量不利用垃圾郵件者傾向于發(fā)送到大量接收者,而合法用戶發(fā)送給少量用戶這種行為;最大值正利用該事實。最后,該總和方法也不利用如果垃圾郵件制造者向他們發(fā)送大量信息而可能進行投訴的這種事實。
在步驟670,可以計算由給定發(fā)送者發(fā)送給每個接收者的最可能是垃圾郵件信息的總記分,而最終確定是否進行抵制該發(fā)送者的行為。在步驟680的確定過程中也可考慮其它諸如估計的接收者數(shù)量這樣的因數(shù)。
除了之前在圖4-6中描述的各種技術(shù)。圖7提供了可以獨立使用或與其它技術(shù)結(jié)合使用來確定發(fā)送指示潛在的垃圾郵件制造者的因數(shù)。更明確地,如果在步驟720至少接下來中的一個是真的,則找到一個發(fā)送者是潛在的垃圾郵件制造者(步驟710)找到與已知垃圾郵件精確匹配或近似精確匹配——就該信息的至少一部分而言;以及包含確定為垃圾郵件特征的短語的信息。通過將過濾器概率與某個臨界值級別相比較,可確定該過濾器概率“過高”。該概率超出該臨界值的數(shù)字可以是“過高”的一個指示。
一旦確定了發(fā)送者是或可能是潛在的垃圾郵件制造者,則實施抵制該發(fā)送者的各種行為和/或每個發(fā)送者的用戶賬戶驗證該發(fā)送者實際上是垃圾郵件制造者,由此警告該發(fā)送者注意接下來的垃圾郵件行為,和/或?qū)Ρ憩F(xiàn)出可能是垃圾郵件行為的合法用戶調(diào)整臨界值級別。圖8示范了典型的反應(yīng)過程800的流程圖,該過程可在確定發(fā)送者更可能是類似垃圾郵件制造者行為的過程中實現(xiàn)。過程800可在圖3-7明顯的結(jié)束點開始,如在當前圖的810所描述的。
在步驟810,推斷出發(fā)送者是潛在的垃圾郵件制造者。接著在820,根據(jù)用戶的意愿可選以下之一或任何組合(a)在832,可由人為檢查來控制發(fā)送者外發(fā)信息的抽樣(如至少一個),以幫助進行驗證和/或確認該發(fā)送者是或不是垃圾郵件制造者,如以下在圖9中詳細描述的;(b)在834,產(chǎn)生一個問題并發(fā)送給發(fā)送者賬戶,由此為了繼續(xù)使用信息服務(wù)(如外發(fā)信息的發(fā)送和交付)而需要對該問題進行正確和/或即時的響應(yīng),如以下對圖10的詳細描述;(c)在838,可發(fā)送一個法律通知和/或警告給發(fā)送者以通知該發(fā)送者違反或可能違反了服務(wù)條款,由此進行接下來的法律行為;和/或(d)在838,當該發(fā)送者是垃圾郵件制造者的事實程度足夠高時,可至少暫時關(guān)閉發(fā)送者的賬戶,如果需要的話可永久關(guān)閉。
如果發(fā)送者使用了信息傳遞服務(wù)和/或反應(yīng)過程800所控制的客戶,可在信息發(fā)送期間以突然出現(xiàn)的形式發(fā)送諸如上述動作信息中(834、836、和/或838)的任意一個(例如在發(fā)送者企圖發(fā)送外發(fā)信息時)。作為選擇,可在任何其它適當?shù)臅r期發(fā)送該突然彈出的信息,以使該發(fā)送者意識到該動作信息也需要它進行響應(yīng)。
然而,如果沒有對信息傳遞服務(wù)和/或反應(yīng)過程800控制,該動作信息可以通過相同或類似的形式作為該發(fā)送者的外發(fā)信息(如密談、即時信息、聊天、郵件等)向發(fā)送者傳送。也就是說,如果外發(fā)信息是密談型的信息,則可將該動作信息作為密談型信息發(fā)送。同樣地,如果外發(fā)信息是一個及時信息,則發(fā)送給該發(fā)送者的動作信息也可以是即時信息。
發(fā)送者也可以接到通知,其通知了更多的外發(fā)信息將從傳送中被立即阻止(如關(guān)閉發(fā)送功能),直到該發(fā)送者或垃圾郵件制造者執(zhí)行了所要求的動作來確認閱讀了該動作信息。該確認可例如是對信息進行電子簽名或在鏈接上進行點擊的形式。實際上,可要求發(fā)送者確認已閱讀通知他/她違反了服務(wù)中的一項或多項條款的法律通知。該通知也可以指示是否將立即關(guān)閉服務(wù)(如,至少是發(fā)送功能)。
信息傳送至少可能會暫時延緩,直到發(fā)送者確認和/或響應(yīng)了該動作信息。作為選擇,可允許發(fā)送者在確認或響應(yīng)該動作信息之前發(fā)送一個最小數(shù)量的信息。
在一些情況中,發(fā)送者可能意識到他/她已被標記成潛在的郵件制造者。同樣地,發(fā)送者也可能沒有意識到正在進行對他/她的使用進行調(diào)查的行為,以及特別是對他/她的外發(fā)信息的內(nèi)容正在進行調(diào)查。當發(fā)送者被標記成潛在的垃圾郵件制造者時,一種可用于信息發(fā)送服務(wù)的選擇是至少對發(fā)送者的外發(fā)信息進行部分抽樣,以確定該發(fā)送者是否是真正的垃圾郵件制造者。圖9描述了使用這種類型的動作來阻止?jié)撛诶]件制造者的典型方法900的流程圖。
方法900包括在步驟910至少人為手動地檢查潛在垃圾郵件制造者的外發(fā)信息的子集。人為檢查既可以驗證信息的內(nèi)容也可以確定用戶發(fā)送可以信息的動機。例如,假設(shè)將外發(fā)信息寄給包含許多或數(shù)百在漫游技術(shù)展示中尋求信息的消費者或顧客。該信息通常包含指引接收者在網(wǎng)站上訂票、定購印刷品等的URL。由于許多原因這些類型的外發(fā)信息被分配足夠高的記分而超過了某個指示信息是垃圾郵件的臨界值級別。舉例來說,假設(shè)該信息包括大量的接收者,屬于垃圾郵件特征的URL,和/或還可能包括一些模仿在垃圾郵件中更常見的語言表達類型的廣告用語。
因此,在步驟920,人為檢查可以確定該信息是否是垃圾郵件。如果該信息不是垃圾郵件,則在步驟930將與發(fā)送者的賬戶結(jié)合在一起的記分重新置零。此外,如果該賬戶具有合法的理由而發(fā)送可疑的信息,則在步驟940可增加用于標記賬戶為潛在的垃圾郵件制造者臨界值級別。
相反地,如果在步驟920確定該信息是垃圾郵件,則在步驟950至少進行下述步驟之一可在步驟952立即關(guān)閉該賬戶和/或在步驟954通過與之前在圖8中所描述的相似方式向該賬戶傳送一個法律通知。
由于一些垃圾郵件制造者可能發(fā)送一些合法信息以進行偽裝或躲避記分系統(tǒng),周期性地驗證帳戶使用時有幫助的。特別有助于確定每個信息的一些最小花費,理論上該花費對垃圾郵件制造者來說是非常昂貴的,但合法用戶卻承擔得起。一種用于實現(xiàn)這種不需要完全破壞或中斷外發(fā)信息的傳送的方法包括在計數(shù)了給定數(shù)量的外發(fā)信息和/或接收者之后,對發(fā)送者或賬戶發(fā)送問題。例如,可以在計數(shù)了每30個外發(fā)信息或每30個接收者之后要求該賬戶回答諸如HIP(人為交互式證明)或計算式問題這樣的問題。作為選擇,可發(fā)送問題來響應(yīng)當察覺到有類似于垃圾郵件的行為時,服務(wù)器發(fā)送的用戶帳戶將被關(guān)閉的反饋。
對HIP問題的正確響應(yīng)通常需要一個人為產(chǎn)生的響應(yīng),反之可通過用戶的計算機來完成計算型問題而不需要用戶知曉。圖10示范了根據(jù)本發(fā)明的一個方面用于對非垃圾郵件制造者帳戶使用進行確認的典型方法1000。方法1000包括在步驟1010至少發(fā)送一個問題給發(fā)送者。在步驟1020延遲或拒絕對來自于發(fā)送者的外發(fā)信息的傳送,直到接收到問題的正確響應(yīng)。在步驟1030如果對問題的響應(yīng)是錯誤的,可進行其它規(guī)范動作,諸如關(guān)閉該賬戶,手動檢查一些外發(fā)信息,發(fā)送法律通知,在恢復(fù)帳戶使用前發(fā)送需要回答的附加問題。然而,如果在步驟1030該響應(yīng)是令人滿意的,則可在步驟1040傳送該發(fā)送者的外發(fā)信息。此外,可在每計數(shù)P(P是大于等于1的整數(shù))個信息或接收者(例如,每個接收者計為一個信息)之后重復(fù)方法1000作為周期性檢查該用戶的手段。
與以上對本發(fā)明的描述相一致,可以使用偽碼來實現(xiàn)本發(fā)明的至少一個方面。以所有大寫字母來表示不同的名稱。用點來表示記錄的子集。例如,如果SENDER是發(fā)送者的名稱以及DURATION是諸如天或月這樣的周期,則諸如SENDER.DURATION.firstupdate這樣的符號用于表示對在那段時期為發(fā)送者保存的接收者列表的第一次更新時間。
該典型的偽碼如下<pre listing-type="program-listing"><![CDATA[for each RECIPIENT of each outgoing message MESSAGE(whisper mode,IM,chat room,or email){SENDER=sender of MESSAGE;RECIPIENT=recipient of MESSAGE;use one of the following strategies to set SCORE;{SCORE=1;# use a constantorSCORE=score from machine learning spam filter to MESSAGE;Optionally SCORE=SCORE+.1 # add a constantorSCORE=1 if message contains a URL,.1 otherwise;}if RECIPIENT is not deliverable then{SCORE=SCORE+1;}if RECIPIENT(in the future)results in an NDR then{use one of these strategies{SCORE=SCORE+1;or# check that the NDR is realif RECIPIENT is on list of RECIPIENTS{SCORE=SCORE+1;}orif RECIPIENT is on list of RECIPIENTS and usingsampling then{SCORE=SCORE+k;}}}BADSENDER=FALSE;# optionally,skip some.or all but one durationforr each DURATION in(minute,hour,day,week,month,year,forever){# reset counters if necessaryif(now-SENSER.DURATION.firstupdate>DURATION);{reset SENDER.DURATION(total=0,list=empty,SENDER.DURATION.goodtotal=0,firstupdate=now);}SENDER.DURATION.total=SENDER.DURATION.total+SCORE;# optionally,compute bonuses for legitimate mail# for instance,if the score from spam filter# is<.1,then assume it is legitimateif message spam filter probability<.1{SENDER.DURATION.goodtotal=SENDER.DURATION.goodtotal+.1;If SENDER.DURATION.goodtotal>maxgoodtotal.DURATION{SENDER.DURATION.goodtotal=maxgoodtotal.DURATION;}}if SENDER.DURATION.total-SENDER.DURATION.goodtotal>threshold.DURATION then{BADSENDER=TURE;}optionally check ifhash of RECIPIENT modulo k=0;if hash?。?,go to next duration;SENDER.DURATION.list[RECIPIENT]=max(SENDER.DURATION.list[RECIPIENT],SCORE);compute TOTAL of SENDER.DURATION.list for all recipients;if Total-SENDER.DURATION.goodtotal>listthreshold.DURATION then{BADSENDER=TURE;}}# Now,we know if this sender should be added to the bad senders listif BADSENDER=FALSE{go on to next message;skip remainder’}perform one or more of the following actions{suspend or revoke the account of SENDER;orforword MESSAGE for human inspection(optionally,do this if we have not recently sent a message for inspection);orsend a legal notice to the spammer reminding themof the terms of service,if such a notice has not beenrecently sent;orrequire the account to answer another challenge,such as a HIP or computational challenge;when thechallenge has been answered,reset the scores as appropriate.}}]]></pre>為了對本發(fā)明的不同方面提供附加的內(nèi)容,圖11以及接下來的討論將提供實現(xiàn)本發(fā)明不同方面的合適的操作環(huán)境1110的簡要描述。當本發(fā)明以計算機可執(zhí)行指令的普通文本進行描述時,諸如由一個或多個計算機或其它設(shè)備執(zhí)行的程序模塊,本領(lǐng)域的技術(shù)人員可以意識到可以結(jié)合其它程序模塊和/作為硬件和軟件的結(jié)合來實現(xiàn)本發(fā)明。
通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定數(shù)據(jù)理性的例程、程序、對象、部件、數(shù)據(jù)結(jié)構(gòu)等。操作環(huán)境1110僅是一個合適的操作環(huán)境的舉例,并不想對本發(fā)明的使用范圍或功能提出限制。其它適合本發(fā)明使用的已知計算機體系、環(huán)境、和/或配置包括但并不局限于,個人計算機,便攜式或膝上設(shè)備,多處理器系統(tǒng),基于微處理器的系統(tǒng),可編程消費電子學,網(wǎng)絡(luò)個人計算機,小型計算機,大型計算機,包括以上系統(tǒng)或設(shè)備的分布式計算環(huán)境等。
參照圖11,用于實現(xiàn)本發(fā)明不同方面的典型環(huán)境1110包括計算機1112。計算機1112包括處理單元1114,系統(tǒng)存儲器1116,以及系統(tǒng)總線1018。系統(tǒng)總線1118連接了系統(tǒng)部件,包括但不限于系統(tǒng)存儲器1116到處理單元1114的連接。處理單元1114可以是各種可用處理器中的任何一種。雙重微處理器和其它多處理器結(jié)構(gòu)也可作為處理單元1114使用。
系統(tǒng)總線1118可以是幾種類型總線結(jié)構(gòu)的任意一種,包括存儲總線或存儲控制器,外圍總線或外部總線,和/或使用各種可用總線結(jié)構(gòu)的本地總線,該可用總線體系包括但不限于,11-比特總線,工業(yè)標準結(jié)構(gòu)(ISA),微通道(MCA)總線,增強型ISA(EISA)總線,集成器件電子技術(shù)(IDE),視頻電子標準協(xié)會局部總線(VLB)、外設(shè)部件互連(PCI),通用串行總線架構(gòu)(USB),加速圖形接口(AGP),個人計算機存儲器卡國際聯(lián)合會(PCMCIA),以及小型計算機系統(tǒng)接口(SCSI)。
系統(tǒng)存儲器1116包括易失性存儲器1120和非易失性存儲器1122。諸如在啟動期間,含有在計算機1112中的元件間傳送信息的基本程序的基本輸入外發(fā)系統(tǒng)(BIOS)存儲在非易失性存儲器1122中。作為解釋,但不局限于,非易失性存儲器1122包括只讀存儲器(ROM),可編程只讀存儲器(PROM),點可編程只讀存儲器(EPROM),電可擦除只讀存儲器(EEPROM),或閃存存儲器。易失性存儲器1120包括作為外部緩存存儲器使用的隨機存取存儲器(RAM)。作為解釋單布局限于,RAM可以多種形式使用,諸如靜態(tài)隨機存取存儲器(SRAM),動態(tài)隨機存取存儲器(DRAM),同步動態(tài)隨機存取存儲器(SDRAM),雙倍數(shù)據(jù)速率SDRAM(DDR SDRAM),增強型SDRAM(ESDRAM),同步鏈接DRAM(SLDRAM),以及控制存儲器總線RAM(DRRAM)。
計算機1112也包括可拆卸/不可拆卸、易失/非易失性計算機存儲介質(zhì)。如圖11所描述的磁盤存儲器1124。磁盤存儲器1124包括,但不局限于,類似磁性存儲器驅(qū)動器、軟盤驅(qū)動器、磁帶驅(qū)動器、jaz驅(qū)動器,ZIP驅(qū)動器,LS-100驅(qū)動器,閃存存儲卡,或存儲棒這樣的設(shè)備。此外,磁盤存儲器1124可以包括獨立的存儲介質(zhì)或與其它存儲介質(zhì)相結(jié)合的存儲介質(zhì),這些其它存儲介質(zhì)可包括,但不局限于,諸如光盤只讀存儲器設(shè)備(CD-ROM)這樣的光盤,可記錄光盤驅(qū)動器(CD-R Drive),可重寫光盤驅(qū)動器(CD-RW Drive)或數(shù)字通用磁盤ROM驅(qū)動器(DVD-ROM)。為了連接磁盤存儲器設(shè)備1124和系統(tǒng)總線1118,通常使用諸如接口1126這樣的可拆卸或不可拆卸接口。
如圖11所示,軟件擔當用戶和合適的操作環(huán)境1110中所描述的基礎(chǔ)計算機資源之間的中介。這種軟件包括操作系統(tǒng)1128。操作系統(tǒng)1128可存儲在磁盤存儲器1124中,其用于控制并分配計算機系統(tǒng)1112的資源。系統(tǒng)應(yīng)用程序1130利用通過程序模塊1132和程序數(shù)據(jù)1134進行的操作系統(tǒng)1128的資源管理存儲在系統(tǒng)存儲器1116或磁盤存儲器1124中??梢砸庾R到可通過各種操作系統(tǒng)或操作系統(tǒng)的結(jié)合來實現(xiàn)本發(fā)明。
用戶通過輸入設(shè)備1136將命令或信息輸入到計算機1112中。輸入設(shè)備1136包括,但不局限于,諸如鼠標這樣的定點設(shè)備、軌跡球、輸入筆、觸摸板、鍵盤、麥克風、操縱桿、游戲板、衛(wèi)星反射器、掃描儀、電視調(diào)諧器、數(shù)碼相機、數(shù)字錄像機、網(wǎng)絡(luò)照相機等。這些以及其它輸入設(shè)備通過系統(tǒng)總線1118經(jīng)由接口端1138連接到處理單元1114。接口端1138可包括如串行端口、并行端口、游戲端口、以及通用串行總線(USB)。外發(fā)設(shè)備1140使用一些于輸入設(shè)備1136類型相同的端口。因此,例如可使用USB端口對計算機1113提供輸入,并用于從計算機1112外發(fā)信息到外發(fā)設(shè)備1140。提供輸入適配器1142來舉例說明有一些諸如監(jiān)視器、揚聲器、以及在其它外發(fā)設(shè)備1140中的打印機這樣的其它外發(fā)設(shè)備1140需要特別的適配器。應(yīng)注意到其它設(shè)備和/或設(shè)備的系統(tǒng)同時提供了輸入和外發(fā)能力,諸如遠程計算機1144。
計算機1112可在使用邏輯連接與諸如遠程計算機1144這樣的一個或多個遠程計算機相連的網(wǎng)絡(luò)環(huán)境中操作。該遠程計算機1144可以使個人計算機、服務(wù)器、網(wǎng)絡(luò)PC、工作站、基于裝置的微處理器、對等設(shè)備或其它公用網(wǎng)絡(luò)節(jié)點等,并通常包括大量或全部所描述的與計算機1112相關(guān)的元件。對了簡明的目的,只列舉了遠程計算機1144中的內(nèi)存存儲器設(shè)備1146。遠程計算機1144通過網(wǎng)絡(luò)接口1148并隨后經(jīng)由通信線路1150的物理連接,邏輯地連接到計算機1112。網(wǎng)絡(luò)接口1148圍繞著諸如局域網(wǎng)(LAN)及萬維網(wǎng)(WAN)這樣的通信網(wǎng)絡(luò)。LAN技術(shù)包括光纖分布式數(shù)據(jù)接口(FDDI),銅線分布式數(shù)據(jù)接口(CDDI),以太網(wǎng)/IEEE 1102.3,令牌網(wǎng)/IEEE 1102.5等。萬維網(wǎng)包括,但不局限于,點到點鏈接,類似綜合數(shù)字服務(wù)網(wǎng)(ISDN)的線路轉(zhuǎn)接網(wǎng)絡(luò)以及在其上的變化,包交換技術(shù)網(wǎng)絡(luò),以及數(shù)字用戶線路(DSL)。
通信線路1150涉及用于連接網(wǎng)絡(luò)接口1148到總線1118的硬件/軟件。雖然用于解釋,通信線路1150清楚的顯示在計算機1112中,其也可以在計算機1112的外部。儀為了示范的目的,連接網(wǎng)絡(luò)接口1148所必需的硬件/軟件包括內(nèi)部或外部技術(shù),諸如包括標準電話等級調(diào)制解調(diào)器的調(diào)制解調(diào)器,線纜調(diào)制解調(diào)器及DSL調(diào)制解調(diào)器,ISDN適配器,即以太網(wǎng)卡。
以上所描述的內(nèi)容包括本發(fā)明的實施例。當然不可能描述每一種可能的部件的組合,或描述本發(fā)明的每一種方法,但本領(lǐng)域的普通技術(shù)人員可以意識到本發(fā)明的更多可能組合以及改變。因此,本發(fā)明包括所有不脫離附加的權(quán)利要求的精神和范圍的改造、修改和變化。此外,術(shù)語“包括”用于接示所描述的內(nèi)容或權(quán)利要求的范圍,由于術(shù)語“包含”作為權(quán)利要求中的過渡詞的使用來解釋,因此術(shù)語“包括”在某種意義上也包含在類似術(shù)語“包含”中。
權(quán)利要求
1.一種用于減少外發(fā)垃圾郵件的系統(tǒng),包含檢測部件,用于至少結(jié)合一個外發(fā)信息來檢測潛在的垃圾郵件制造者,該外發(fā)信息至少包含即時信息垃圾郵件、密談垃圾郵件、以及聊天室垃圾郵件中的一個,該檢測至少部分地依據(jù)垃圾郵件過濾器、信息量監(jiān)視、總接收者計數(shù)、指定接收者計數(shù)、信息速率監(jiān)視、明顯的合法信息的數(shù)量,以及沒有送達的信息數(shù)量中的一個;以及動作部件,從檢測部件上接收實體是潛在的垃圾郵件制造者的信息,該部件啟動至少一個動作來用于進行確定該實體是垃圾郵件制造者、減少該實體的垃圾郵件制造行為、增加垃圾郵件制造者的費用,以及它們的組合中的任何一項。
2.如權(quán)利要求1的系統(tǒng),該外發(fā)信息還包含郵件信息垃圾郵件。
3.如權(quán)利要求1的系統(tǒng),其中發(fā)動的動作至少包含以下一種關(guān)閉潛在的垃圾郵件制造者的用戶帳戶;要求潛在的垃圾郵件制造者和潛在的垃圾郵件制造者的計算機分別至少回答HIP問題和計算型問題中的一個;向潛在的垃圾郵件制造者發(fā)送關(guān)于至少違反了信息服務(wù)條款的一項的法律通知;以及至少對由潛在的垃圾郵件制造者產(chǎn)生的外發(fā)信息的子集進行的手動檢查。
4.如權(quán)利要求1的系統(tǒng),其中信息量監(jiān)視至少包含追蹤和計數(shù)外發(fā)信息之
5.如權(quán)利要求1的系統(tǒng),其中接收者的計數(shù)以每個接收者只計數(shù)一次的方式計算。
6.如權(quán)利要求5的系統(tǒng),包括保持每個接收者的最大記分的跟蹤。
7.如權(quán)利要求5的系統(tǒng),包含使用接收者的偽隨機函數(shù)來估計接收者的計數(shù),或相關(guān)的記分。
8.如權(quán)利要求1的系統(tǒng),其中信息速率監(jiān)視包含計算在一段持續(xù)的時間內(nèi)的外發(fā)信息量。
9.如權(quán)利要求8的系統(tǒng),其中該持續(xù)的時間至少包含分鐘、小時、星期、月、以及年中的一種。
10.如權(quán)利要求1的系統(tǒng),其中信息量監(jiān)視包含從激活用戶賬戶開始的信息總量。
11.如權(quán)利要求1的系統(tǒng),其中外發(fā)信息的每個接收者構(gòu)成一個信息。
12.如權(quán)利要求1的系統(tǒng),其中接收者的計數(shù)包含一個或多個至少列在to區(qū)域、cc區(qū)域、以及bcc區(qū)域中之一的接收者。
13.如權(quán)利要求1的系統(tǒng),其中該檢測部件通過處理并分析外發(fā)信息來至少確定該信息是否可能是垃圾郵件以及該發(fā)送者是否是潛在的垃圾郵件制造者中的一項。
14.如權(quán)利要求1的系統(tǒng),其中明顯的合法信息數(shù)量作為一種獎勵來補償其它記分。
15.如權(quán)利要求14的系統(tǒng),其中通過垃圾郵件過濾器來估計明顯的合法信息數(shù)量。
16.如權(quán)利要求14的系統(tǒng),其中明顯的合法信息數(shù)量的獎勵是受到限制的。
17.如權(quán)利要求1的系統(tǒng),其中至少部分地根據(jù)在信息交付時的失敗來估計未交付的信息數(shù)量。
18.如權(quán)利要求1的系統(tǒng),其中至少部分地根據(jù)未交付收據(jù)來估計未交付的信息數(shù)量。
19.如權(quán)利要求18的系統(tǒng),其中檢查未交付收據(jù)的精確度。
20.如權(quán)利要求19的系統(tǒng),其中通過核對來自發(fā)送者的信息的接收者列表來檢查未交付收據(jù)的精確度。
21.如權(quán)利要求20的系統(tǒng),其中該接收者的列表是一個抽樣列表,以及未交付收據(jù)的處罰是相應(yīng)增加的。
22.如權(quán)利要求1的系統(tǒng),其中檢測部件通過計算分配給外發(fā)信息的記分來確定每個發(fā)送者的總記分,并將每個用戶的總記分與至少一個臨界值級別進行比較以確定該發(fā)送者是否是潛在的垃圾郵件制造者。
23.如權(quán)利要22的系統(tǒng),其中臨界值級別對每個發(fā)送者來說是可調(diào)的。
24.如權(quán)利要求1的系統(tǒng),其中垃圾郵件過濾包含使用過濾器,該過濾器被訓練成為至少識別外發(fā)信息中的非類似垃圾郵件特征和類似垃圾郵件特征中的一種。
25.如權(quán)利要求1的系統(tǒng),其中通過機器識別方法執(zhí)行垃圾郵件過濾。
26.如權(quán)利要求1的系統(tǒng),其中垃圾郵件過濾包含通過向每一個外發(fā)信息分配一個概率來顯示該信息更類似于垃圾郵件或不類似垃圾郵件的任何一種可能性。
27.如權(quán)利要求1的系統(tǒng),還包含記分部件,該記分部件至少連同垃圾郵件過濾、總接收者計數(shù)、唯一接收者計數(shù)、信息量監(jiān)視以及信息速率監(jiān)視中的一項一起操作的。
28.如權(quán)利要求27的系統(tǒng),其中記分部件至少部分地根據(jù)外發(fā)信息量、外發(fā)信息速率、接收者計數(shù)、以及信息內(nèi)容來對每個發(fā)送者分配記分。
29.如權(quán)利要求27的系統(tǒng),其中記分部件通過向一個或多個外發(fā)信息分配和/或添加一個常數(shù)值來減少操作垃圾郵件過濾系統(tǒng)的垃圾郵件制造者。
30.如權(quán)利要求27的系統(tǒng),其中記分部件對由于具有至少一個類似垃圾郵件的特征而被識別出的外發(fā)信息分配一個選定值。
31.如權(quán)利要求30的系統(tǒng),其中該至少一個類似垃圾郵件的特征是URL。
32.如權(quán)利要求30的系統(tǒng),其中該至少一個類似垃圾郵件的特征包含聯(lián)系信息。
33.如權(quán)利要求32的系統(tǒng),其中該聯(lián)系信息包含電話號碼,該電話號碼至少包含用于識別該信息的地理位置的電話地區(qū)碼和前綴中的一個,從而幫助識別該潛在的垃圾郵件制造者。
34.如權(quán)利要求1的系統(tǒng),還包含基于用戶的信息發(fā)生部件,該部件產(chǎn)生發(fā)送給一個或多個部分地根據(jù)發(fā)送者優(yōu)先選擇的接收者的外發(fā)信息。
35.一種幫助減少外發(fā)垃圾郵件的方法包含連同至少一個外發(fā)信息來檢測潛在的垃圾郵件制造者,該外發(fā)信息至少包含即時信息垃圾郵件、密談垃圾郵件、以及聊天室垃圾郵件中中的一種,該檢測部分地依據(jù)至少垃圾郵件過濾、信息量監(jiān)視、總接收者計數(shù)、唯一接收者計數(shù)、以及信息速率監(jiān)視中的一項;從該檢測部件接收實體是潛在的垃圾郵件制造者的信息;以及啟動至少一個動作來用于進行確定該實體是垃圾郵件制造者、減少該實體的垃圾郵件制造行為、增加垃圾郵件制造者的費用中的任何一項。
36.如權(quán)利要求35的方法,其中該至少一個外發(fā)信息還包含郵件信息垃圾郵件。
37.如權(quán)利要求35的方法,還包含監(jiān)視至少與外發(fā)信息量、接收者量、以及外發(fā)信息速率之一有關(guān)的每個發(fā)送者的外發(fā)信息。
38.如權(quán)利要求35的方法,其中檢測潛在的垃圾郵件制造者包含至少執(zhí)行下述動作之一至少部分地根據(jù)信息的內(nèi)容來對每個外發(fā)信息分配記分;至少部分地根據(jù)每個發(fā)送者的外發(fā)信息量來對每個發(fā)送者分配記分;至少部分地根據(jù)每個發(fā)送者的外發(fā)信息速率來對每個發(fā)送者分配記分;至少部分地根據(jù)每個發(fā)送者的全部接收者計數(shù)來對每個發(fā)送者分配記分;至少部分地根據(jù)每個發(fā)送者的唯一計數(shù)者計數(shù)來對每個發(fā)送者分配記分;計算每個發(fā)送者的總記分;以及至少部分地根據(jù)該發(fā)送者的總記分來確定該發(fā)送者是否是潛在的垃圾郵件制造者。
39.如權(quán)利要求38的方法,其中該總記分超過了臨界值級別時,意味著該發(fā)送者至少是潛在的垃圾郵件制造者。
40.如權(quán)利要求35的方法,還包含追蹤一個或多個接收者以及相關(guān)的發(fā)送給該接收者的外發(fā)信息,從而識別從每個發(fā)送者接收到的一個或多個近似垃圾郵件的信息。
41.如權(quán)利要求40的方法,還包含分配一個或多個記分給該一個或多個近似垃圾郵件的信息,以及對每個發(fā)送者的記分進行合計以計算每個發(fā)送者的總記分。
42.如權(quán)利要求35的方法,其中該至少一個動作包含終止該發(fā)送者賬戶。
43.如權(quán)利要求42的方法,其中在確定由發(fā)送者發(fā)送的該外發(fā)信息是垃圾郵件時,終止該發(fā)送者賬戶。
44.如權(quán)利要求43的方法,其中至少部分地根據(jù)下述之一確定該外發(fā)信息是垃圾郵件的事實該外發(fā)信息的至少一部分包含至少與已知的垃圾郵件的精確匹配或近似匹配;該外發(fā)信息的至少一部分包含已被確定為類似垃圾郵件的特征;由垃圾郵件過濾器分配的概率至少超出一個臨界值級別;以及確定發(fā)送給人為檢查的信息是垃圾郵件。
45.如權(quán)利要求35的方法,其中該至少一個動作包含暫時中斷來自該發(fā)送者賬戶的外發(fā)信息交付。
46.如權(quán)利要求35的方法,其中該至少一個動作包含要求該發(fā)送者賬戶回答一個或多個問題。
47.如權(quán)利要求44的方法,其中該賬戶對每個問題具有數(shù)量限制直到解答了確定數(shù)量的問題,并此后對速率進行限制。
48.如權(quán)利要求45的方法,其中可以通過解答附加問題來增加該速率限制。
49.如權(quán)利要求46的方法,其中該一個或多個問題包含計算型問題或人為交互式證明。
50.如權(quán)利要求46的方法,其中該一個或多個問題以突然彈出的信息的形式傳送。
51.如權(quán)利要求46的方法,其中通過類似于發(fā)送者的外發(fā)信息的形式向該發(fā)送者賬戶傳送該一個或多個問題。
52.如權(quán)利要求46的方法,其中通過傳送該一個或多個問題給發(fā)送者來響應(yīng)來自服務(wù)器的關(guān)于即將關(guān)閉該賬戶的反饋。
53.如權(quán)利要求35的方法,其中該至少一個動作包含發(fā)送該發(fā)送者違反了服務(wù)條款的法律通知。
54.如權(quán)利要求53的方法,包含通過提供電子簽名和點擊一個鏈接中的至少一種方式來發(fā)送法律通知。
55.如權(quán)利要求53的方法,其中通過一個突然彈出的信息來傳送該法律通知。
56.如權(quán)利要求35的方法,其中暫時中斷外發(fā)信息的傳送直到接收到對該動作的響應(yīng)。
57.如權(quán)利要求35的方法,其中在界收到對該動作的響應(yīng)之前允許傳送少量外發(fā)信息。
58.如權(quán)利要求35的方法,還包含估計每個發(fā)送者的接收者的總數(shù)以用于識別潛在的垃圾郵件制造者。
59.如權(quán)利要求58的方法,其中估計每個發(fā)送者的不同接收者總數(shù)包含計算每個接收者的散列函數(shù)以獲取每個接收者的散列值;設(shè)置散列模數(shù)值;以及當該接收者的散列值等于該散列模數(shù)值時將該接收者添加到用于信息追蹤的列表中,以幫助估計每個發(fā)送者的不同接收者總數(shù)。
60.如權(quán)利要求59的方法,還包含對每個發(fā)送者追蹤每一個列出的接收者接收的最差記分信息;計算每個發(fā)送者的所有實際列出的接收者記分的總記分;以及將每個發(fā)送者的總記分與該發(fā)送者的臨界值級別相比較以確定該發(fā)送者是否是潛在的垃圾郵件制造者。
61.一種用于定期確定用戶的非垃圾郵件制造者行為的方法包含至少監(jiān)視外發(fā)信息量、接收者數(shù)量、外發(fā)信息速率之一在對大量外發(fā)信息和大量接收者中的至少一個進行計數(shù)后,要求該用戶賬戶解答一個或多個問題;以及終止以后的外發(fā)信息的傳送直到解答了一個或多個問題。
62.如權(quán)利要求61的方法,其中每一個在信息中列出的接收者作為一個單獨的信息計數(shù)。
63.如權(quán)利要求61的方法,其中該問題是計算型問題。
64.如權(quán)利要求61的方法,其中該問題是人為交互式證明。
65.一種減少垃圾郵件的方法包含至少執(zhí)行一種確定發(fā)送者數(shù)量限制的經(jīng)濟分析,該分析至少部分地取決于垃圾郵件制造者的行為和合法用戶的行為;以及將發(fā)送者的發(fā)送量至少限制到以下一種解答每個問題的最大數(shù)量;以及發(fā)送者付出每筆費用的最大數(shù)量。
66.如權(quán)利要求65的方法,其中該問題至少是人為交互式證明以及計算型問題中的一種。
67.如權(quán)利要求65的方法,其中該費用是用戶賬戶設(shè)立費用、每月的費用、每個外發(fā)信息的費用、以及每筆數(shù)目的外發(fā)信息的數(shù)量中的任何一種。
68.如權(quán)利要求65的方法,其中將該費用限制為對合法用戶的自動付賬是足夠低,而對減少發(fā)送垃圾郵件信息是足夠高的。
69.如權(quán)利要求65的方法,其中發(fā)送者的發(fā)送量限制約束了在一段持續(xù)時間內(nèi)外發(fā)信息的數(shù)量。
70.一種包含如權(quán)利要求1的方法的計算機可讀介質(zhì)。
71.一種在其中存儲了以下計算機可執(zhí)行部件的計算機可讀介質(zhì)一個用于結(jié)合至少一個外發(fā)信息檢測潛在的垃圾郵件制造者的檢測部件,該外發(fā)信息至少包含即時信息垃圾郵件、密談垃圾郵件、以及聊天室垃圾郵件之一,該檢測至少部分地取決于垃圾郵件的過濾、信息量監(jiān)視、接收者計數(shù)、以及信息速率監(jiān)視之一;以及從該檢測部件上獲取一個實體是潛在的垃圾郵件制造者的信息的動作部件,該部件至少啟動一個動作用于進行確認該實體是垃圾郵件制造者、減少該實體的垃圾郵件行為、增加垃圾郵件制造者的費用、以及它們的結(jié)合中的任何一項。
72.一種適應(yīng)于在兩個或多個用于識別潛在的垃圾郵件制造的計算機之間傳送的數(shù)據(jù)包,該數(shù)據(jù)包包含用戶至少對一個外發(fā)信息進行類似垃圾郵件特征檢測的信息,該外發(fā)信息至少包含即時信息垃圾郵件、密談垃圾郵件、以及聊天室垃圾郵件中的一種,該檢測至少部分地取決于垃圾郵件的過濾、信息量監(jiān)視、接收者計數(shù)、以及信息速率監(jiān)視之一,其中該信息確定是否啟動至少動作用于進行確認該實體是垃圾郵件制造者、減少該實體的垃圾郵件行為、以及增加垃圾郵件制造者的費用中的任何一項。
73.一種用戶檢測垃圾郵件的系統(tǒng)包括一個用于結(jié)合至少一個外發(fā)信息來檢測潛在的垃圾郵件制造者的裝置,該外發(fā)信息至少包含即時信息垃圾郵件、密談垃圾郵件、以及聊天室垃圾郵件中的一種,該檢測至少部分地取決于垃圾郵件的過濾、信息量監(jiān)視、接收者計數(shù)、以及信息速率監(jiān)視之一;一個從該檢測部件接收一個實體是潛在的垃圾郵件制造者的信息的裝置;以及一個用于至少啟動一個動作用于進行確認該實體是垃圾郵件制造者、減少該實體的垃圾郵件行為、以及增加垃圾郵件制造者的費用中的任何一項的裝置。
74.一種用于定期確定用戶的非垃圾郵件制造者行為的系統(tǒng)包含一個用于至少監(jiān)視外發(fā)信息量、接收者數(shù)量、外發(fā)信息速率之一的裝置;一個用于在對大量外發(fā)信息和大量接收者中的至少一個進行計數(shù)后,要求該用戶賬戶回答一個或多個問題的裝置;以及一個用于終止以后的外發(fā)信息的傳送直到回到了一個或多個問題的裝置。
75.一種用于減少垃圾郵件的系統(tǒng)包含一個用于至少執(zhí)行一種確定發(fā)送者數(shù)量限制的經(jīng)濟分析的裝置,該分析至少部分地取決于垃圾郵件制造者的行為和合法用戶的行為;以及一個用于將發(fā)送者的發(fā)送量至少限制到以下一種的裝置解答每個問題的最大數(shù)量;以及發(fā)送者付出每筆費用的最大數(shù)量。
全文摘要
本發(fā)明提供了用于在不同網(wǎng)絡(luò)通信環(huán)境中檢測和阻止垃圾郵件的系統(tǒng)和方法。特別是,本發(fā)明提供了幾種用于監(jiān)視外發(fā)通信的技術(shù)以識別潛在的垃圾郵件制造者??梢酝ㄟ^檢測部件來至少部分地實現(xiàn)潛在垃圾郵件制造者的識別,該部件至少監(jiān)視每個發(fā)送者的外發(fā)信息量、接收者的數(shù)量,和/或外發(fā)信息速率之一。此外,可至少根據(jù)外發(fā)信息的部分內(nèi)容來存儲外發(fā)信息。可以對每個發(fā)送者的每個信息添加記分,并且如果每個發(fā)送者或每個信息的總記分超過了某個臨界值,則可采取更多的行動來驗證該潛在的垃圾郵件制造者是否是垃圾郵件制造者。這些行動包括人為檢查信息的抽樣,發(fā)送問題給該賬戶,發(fā)送法律通知去警告潛在的垃圾郵件制造者和/或關(guān)閉該賬戶。
文檔編號G06F13/00GK1573783SQ200410063149
公開日2005年2月2日 申請日期2004年5月20日 優(yōu)先權(quán)日2003年6月20日
發(fā)明者J·T·古德曼, R·L·勞斯維特, E·C·吉倫 申請人:微軟公司