欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分析網(wǎng)址的系統(tǒng)及方法

文檔序號(hào):6457014閱讀:239來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):分析網(wǎng)址的系統(tǒng)及方法
技術(shù)領(lǐng)域
本申請(qǐng)案涉及數(shù)據(jù)及應(yīng)用程序安全。明確地說(shuō),本申請(qǐng)案揭示收集及挖掘數(shù)據(jù)以 基于其網(wǎng)址預(yù)測(cè)網(wǎng)站的內(nèi)容或性質(zhì)的系統(tǒng)、方法。
背景技術(shù)
傳統(tǒng)上,計(jì)算機(jī)病毒及其它惡意內(nèi)容最常通過(guò)將受感染磁盤(pán)或某些其它物理媒體 插入到客戶(hù)端計(jì)算機(jī)中而提供給所述計(jì)算機(jī)。隨著電子郵件及因特網(wǎng)的使用的增加,電子 郵件附件成為一種用于將病毒代碼分布到計(jì)算機(jī)的流行的方法。為使計(jì)算機(jī)感染這些具有 惡意內(nèi)容的類(lèi)型的病毒,通常需要用戶(hù)做些肯定性的動(dòng)作,例如打開(kāi)受感染文件附件或從 網(wǎng)站下載受感染文件并在其計(jì)算機(jī)上啟動(dòng)所述文件。隨著時(shí)間推移,防病毒軟件制造商開(kāi) 發(fā)出經(jīng)設(shè)計(jì)以掃描文件且在所述文件有機(jī)會(huì)感染客戶(hù)端計(jì)算機(jī)之前便對(duì)其進(jìn)行殺毒的日 益有效的程序。因此,迫使計(jì)算機(jī)黑客創(chuàng)建更精明且創(chuàng)新的方法來(lái)使計(jì)算機(jī)感染其惡意代 碼。在當(dāng)今連網(wǎng)日益增加的數(shù)字世界中,分布式應(yīng)用程序經(jīng)開(kāi)發(fā)以向開(kāi)放的合作連網(wǎng) 環(huán)境中的用戶(hù)提供越來(lái)越多的功能性。在這些應(yīng)用程序更為有力且復(fù)雜的同時(shí),其增加的 功能性需要網(wǎng)絡(luò)服務(wù)器以更完整的方式與客戶(hù)端計(jì)算機(jī)互動(dòng)。舉例來(lái)說(shuō),如果先前web應(yīng) 用程序主要經(jīng)由HTTP后命令向客戶(hù)端瀏覽器提供HTML內(nèi)容且從客戶(hù)端接收回?cái)?shù)據(jù),則許 多新web應(yīng)用程序經(jīng)配置以向客戶(hù)端計(jì)算機(jī)發(fā)送致使應(yīng)用程序在更新的web瀏覽器的經(jīng)增 強(qiáng)特征內(nèi)被啟動(dòng)的各種形式的目標(biāo)內(nèi)容(例如,活動(dòng)內(nèi)容)。舉例來(lái)說(shuō),許多基于web的應(yīng) 用程序現(xiàn)在利用必須下載到客戶(hù)端計(jì)算機(jī)才可有效地利用的Active-X控件。在某些情形 下,Java小應(yīng)用程序、Java腳本及VB腳本命令也具有修改客戶(hù)端計(jì)算機(jī)文件的能力。與功能性的這些增加一起到來(lái)的方便性尚未在無(wú)成本的情況下實(shí)現(xiàn)。更新的web 應(yīng)用程序及內(nèi)容明顯地比先前應(yīng)用程序環(huán)境更有力。因此,更新的應(yīng)用程序還提供將惡意 代碼下載到客戶(hù)端計(jì)算機(jī)的機(jī)會(huì)。另外,隨著操作系統(tǒng)及web瀏覽應(yīng)用程序的復(fù)雜性的增 加,識(shí)別可允許黑客將惡意代碼傳遞到客戶(hù)端計(jì)算機(jī)的安全薄弱環(huán)節(jié)變得更為困難。雖然 瀏覽器及操作系統(tǒng)供應(yīng)商通常發(fā)布軟件更新以補(bǔ)救這些薄弱環(huán)節(jié),但許多用戶(hù)尚未配置其 計(jì)算機(jī)以下載這些更新。因此,黑客已開(kāi)始寫(xiě)惡意代碼及應(yīng)用程序,所述惡意代碼及應(yīng)用程 序在不依賴(lài)用戶(hù)的任何特定活動(dòng)(例如啟動(dòng)受感染文件)的情況下利用這些薄弱環(huán)節(jié)將其 自身下載到用戶(hù)的機(jī)器。此攻擊的一個(gè)實(shí)例是在網(wǎng)站上使用嵌入到活動(dòng)內(nèi)容對(duì)象中的惡意 代碼。如果所述惡意代碼已經(jīng)配置以利用web瀏覽器中的薄弱環(huán)節(jié),則用戶(hù)可能因?qū)λ?頁(yè)面的僅一次訪問(wèn)而受到所述惡意代碼的感染或損害,因?yàn)樗鲰?yè)面中的目標(biāo)內(nèi)容將在用 戶(hù)的計(jì)算機(jī)上執(zhí)行。
4
解決嵌入活動(dòng)內(nèi)容中的惡意代碼的問(wèn)題的嘗試是在web瀏覽器上利用加強(qiáng)的安 全設(shè)定。然而,在許多公司環(huán)境中,內(nèi)網(wǎng)或外網(wǎng)應(yīng)用程序經(jīng)配置以向客戶(hù)端計(jì)算機(jī)發(fā)送可執(zhí) 行內(nèi)容。將瀏覽器設(shè)定到高安全等級(jí)往往阻礙或妨礙對(duì)這些類(lèi)型的“安全”應(yīng)用程序的有 效使用。解決所述問(wèn)題的另一嘗試是使用網(wǎng)絡(luò)防火墻應(yīng)用程序來(lái)阻止所有可執(zhí)行內(nèi)容。此 強(qiáng)力方法在許多環(huán)境中也是無(wú)效的,因?yàn)閷?duì)某些類(lèi)型的內(nèi)容的選擇性存取對(duì)于軟件正確地 工作來(lái)說(shuō)是必需的。

發(fā)明內(nèi)容
本發(fā)明的系統(tǒng)、方法及裝置各自具有數(shù)個(gè)方面,任何單一方面均不能單獨(dú)地負(fù)責(zé) 其所需的屬性。在不限定由以上權(quán)利要求書(shū)表達(dá)的本發(fā)明范圍的情況下,現(xiàn)在將簡(jiǎn)要論述 本發(fā)明的更顯著的特征。在考慮此論述之后,且尤其是在閱讀標(biāo)題為“具體實(shí)施方式
”的部 分之后,人們將理解本發(fā)明的特征如何提供包含對(duì)具有目標(biāo)內(nèi)容的網(wǎng)站的經(jīng)改進(jìn)的檢測(cè)的 優(yōu)點(diǎn)。一個(gè)實(shí)施例包含一種用于控制對(duì)web內(nèi)容的存取的方法。所述方法包括接收對(duì)至 少一個(gè)統(tǒng)一資源定位符(URL)的請(qǐng)求。所述方法進(jìn)一步包括產(chǎn)生與所述URL相關(guān)聯(lián)的活動(dòng) 內(nèi)容的指示符。所述指示符基于與所述URL的至少一個(gè)分量相關(guān)聯(lián)的數(shù)據(jù)。所述方法進(jìn)一 步包括至少部分地基于所述至少指示符來(lái)確定是否允許所述請(qǐng)求。另一實(shí)施例包含一種用于控制對(duì)web內(nèi)容的存取的系統(tǒng)。所述系統(tǒng)包括經(jīng)配置以 接收對(duì)至少一個(gè)統(tǒng)一資源定位符的請(qǐng)求的網(wǎng)關(guān)服務(wù)器模塊。所述系統(tǒng)進(jìn)一步包括經(jīng)配置以 產(chǎn)生與所述URL相關(guān)聯(lián)的活動(dòng)內(nèi)容的指示符的URL分析模塊。所述指示符基于與所述URL 的至少一個(gè)分量相關(guān)聯(lián)的數(shù)據(jù)。所述系統(tǒng)進(jìn)一步包括經(jīng)配置以識(shí)別與所述URL相關(guān)聯(lián)的策 略的策略模塊。所述系統(tǒng)進(jìn)一步包括經(jīng)配置以至少部分地基于所述至少指示符及所述策略 來(lái)確定是否允許所述請(qǐng)求的內(nèi)容過(guò)濾模塊。一個(gè)實(shí)施例包含一種用于控制對(duì)web內(nèi)容的存取的系統(tǒng)。所述系統(tǒng)包括用于接收 對(duì)至少一個(gè)統(tǒng)一資源定位符的請(qǐng)求的構(gòu)件。所述系統(tǒng)進(jìn)一步包括用于產(chǎn)生與所述URL相關(guān) 聯(lián)的活動(dòng)內(nèi)容的指示符的構(gòu)件。所述指示符基于與所述URL的至少一個(gè)分量相關(guān)聯(lián)的數(shù) 據(jù)。所述系統(tǒng)進(jìn)一步包括用于識(shí)別與所述URL相關(guān)聯(lián)的策略的構(gòu)件。所述系統(tǒng)進(jìn)一步包括 用于至少部分地基于所述至少指示符及所述策略來(lái)確定是否允許所述請(qǐng)求的構(gòu)件。


在本說(shuō)明中,將參照?qǐng)D式,其中在所有圖式中相同的部件用相同的編號(hào)來(lái)表示。圖1是根據(jù)本發(fā)明的方面的系統(tǒng)的各種組件的框圖。圖2是來(lái)自圖1的工作站模塊的框圖。圖3是來(lái)自圖1的網(wǎng)關(guān)服務(wù)器模塊的框圖。圖4是登錄數(shù)據(jù)庫(kù)的實(shí)例。圖5是URL存取策略數(shù)據(jù)庫(kù)表的實(shí)例。圖6A及6B分別是經(jīng)歸類(lèi)的及未經(jīng)歸類(lèi)的URL的實(shí)例。圖7是來(lái)自圖1的數(shù)據(jù)庫(kù)管理模塊的框圖。圖8是來(lái)自圖7的收集系統(tǒng)的框圖。
圖9是來(lái)自圖8的是收集模塊的框圖。圖10顯示根據(jù)本發(fā)明某些方面的蜂蜜客戶(hù)端系統(tǒng)。圖11是由來(lái)自圖9的收集模塊收集的URL相關(guān)數(shù)據(jù)的實(shí)例。圖12是圖解說(shuō)明來(lái)自圖7的計(jì)分及歸類(lèi)模塊的框圖。圖13A是特性表的實(shí)例。圖13B是經(jīng)處理的網(wǎng)頁(yè)特性表的實(shí)例。圖13C是定義表的實(shí)例。圖14是圖解說(shuō)明來(lái)自圖7的培訓(xùn)模塊的一個(gè)實(shí)施例的框圖。圖15是圖解說(shuō)明來(lái)自圖12的活動(dòng)分析系統(tǒng)的一個(gè)實(shí)施例的框圖。圖16是描述在一個(gè)實(shí)施例中如何在網(wǎng)關(guān)服務(wù)器模塊中處置URL的流程圖。圖17是描述根據(jù)某些實(shí)施例網(wǎng)關(guān)服務(wù)器模塊可如何結(jié)合策略模塊處置URL的流 程圖。圖18是描述收集系統(tǒng)可如何在網(wǎng)關(guān)服務(wù)器模塊內(nèi)處置URL的流程圖。圖19是描述收集系統(tǒng)可如何在數(shù)據(jù)庫(kù)管理模塊內(nèi)處置URL的流程圖。圖20是數(shù)據(jù)挖掘系統(tǒng)的框圖。圖21是圖解說(shuō)明在數(shù)據(jù)庫(kù)管理模塊內(nèi)將URL歸類(lèi)的方法的一個(gè)實(shí)施例的流程圖。圖22是圖解說(shuō)明識(shí)別圖21的方法中的URL的特性的方法的一個(gè)實(shí)施例的流程 圖。圖23是圖解說(shuō)明基于圖21的方法中的URL特性將URL歸類(lèi)的方法的一個(gè)實(shí)施例 的流程圖。圖24是圖解說(shuō)明識(shí)別在圖22及23的方法中用于將URL歸類(lèi)的特性的方法的一 個(gè)實(shí)施例的流程圖。圖25是圖解說(shuō)明基于與所請(qǐng)求的網(wǎng)址相關(guān)聯(lián)的指示符控制對(duì)web內(nèi)容的存取的 方法的一個(gè)實(shí)施例的流程圖。
具體實(shí)施例方式以下詳細(xì)說(shuō)明針對(duì)本發(fā)明的某些具體實(shí)施例。然而,本發(fā)明可以權(quán)利要求書(shū)所界 定及所涵蓋的多種不同方式來(lái)體現(xiàn)。在本說(shuō)明中,將參照?qǐng)D式,其中在所有圖式中相同的部 件用相同的編號(hào)來(lái)表示。某些實(shí)施例提供識(shí)別及歸類(lèi)在由統(tǒng)一資源定位符(URL)識(shí)別的位置處發(fā)現(xiàn)的web 內(nèi)容(包含潛在地可執(zhí)行web內(nèi)容及惡意內(nèi)容)的系統(tǒng)及方法。如本文中所使用,潛在地 可執(zhí)行web內(nèi)容通常指代包含由web瀏覽器或web客戶(hù)端計(jì)算機(jī)執(zhí)行的指令的任何類(lèi)型的 內(nèi)容。潛在地可執(zhí)行web內(nèi)容可包含(舉例來(lái)說(shuō))小應(yīng)用程序、嵌入HTML或其它超文本文 檔(包含例如Java腳本或VB腳本的腳本語(yǔ)言)中的可執(zhí)行代碼、嵌入其它文檔(例如微 軟字處理軟件宏或樣式單)中的可執(zhí)行代碼。潛在地可執(zhí)行web內(nèi)容還可指代執(zhí)行另一位 置(例如另一網(wǎng)頁(yè)、另一計(jì)算機(jī))中或web瀏覽器計(jì)算機(jī)本身上的代碼的文檔。舉例來(lái)說(shuō), 包含“對(duì)象”元素且因此可引起對(duì)ActiveX或其它可執(zhí)行分量的執(zhí)行的HTML網(wǎng)頁(yè)通常可被 視為潛在地可執(zhí)行web內(nèi)容,不論所述可執(zhí)行分量的位置如何。惡意內(nèi)容可指代不可執(zhí)行 但經(jīng)計(jì)算以利用客戶(hù)端計(jì)算機(jī)上的薄弱環(huán)節(jié)的內(nèi)容。然而,潛在地可執(zhí)行web內(nèi)容也可以是惡意內(nèi)容。舉例來(lái)說(shuō),當(dāng)處理圖像文件以供顯示時(shí),已使用那些圖像來(lái)利用某些操作系統(tǒng) 中的薄弱環(huán)節(jié)。此外,惡意web內(nèi)容還可指代互動(dòng)內(nèi)容,例如其中HTML形式或其它web內(nèi) 容經(jīng)設(shè)計(jì)以看似由另一通??尚湃蔚木W(wǎng)站(例如銀行)提供以欺騙用戶(hù)將憑證或其它敏感 信息提供給未經(jīng)授權(quán)方的“網(wǎng)絡(luò)釣魚(yú)(Phishing) ”方案。系統(tǒng)說(shuō)明圖1提供實(shí)例性系統(tǒng)的頂級(jí)圖解。所述系統(tǒng)包含網(wǎng)絡(luò)110。網(wǎng)絡(luò)110可以是局域 網(wǎng)、廣域網(wǎng)或某一其它類(lèi)型的網(wǎng)絡(luò)。網(wǎng)絡(luò)110可包含一個(gè)或一個(gè)以上工作站116。工作站 116可以是附接到所述網(wǎng)絡(luò)的各種類(lèi)型的客戶(hù)端計(jì)算機(jī)??蛻?hù)端計(jì)算機(jī)116可以是桌上型 計(jì)算機(jī)、筆記本計(jì)算機(jī)、手持式計(jì)算機(jī)或其類(lèi)似物。所述客戶(hù)端計(jì)算機(jī)還可用允許其通過(guò)各 種軟件模塊(例如web瀏覽器、電子郵件程序或其類(lèi)似物)利用所述網(wǎng)絡(luò)的操作系統(tǒng)來(lái)加 載。工作站116中的每一者可與網(wǎng)關(guān)服務(wù)器模塊120電連通。所述網(wǎng)關(guān)服務(wù)器模塊可 駐留在網(wǎng)絡(luò)110的邊緣處以使得發(fā)送到因特網(wǎng)112及從因特網(wǎng)112發(fā)送的業(yè)務(wù)可在進(jìn)入到 網(wǎng)絡(luò)110中或從網(wǎng)絡(luò)110中離開(kāi)的途中經(jīng)過(guò)所述網(wǎng)關(guān)服務(wù)器模塊。網(wǎng)關(guān)服務(wù)器模塊120可 采取安裝于服務(wù)器上的軟件模塊的形式,所述服務(wù)器充當(dāng)?shù)礁鼜V區(qū)域網(wǎng)絡(luò)112而非工作站 116所直接附接到的網(wǎng)絡(luò)110的網(wǎng)關(guān)。還連接到因特網(wǎng)112的是數(shù)據(jù)庫(kù)管理模塊114。所 述數(shù)據(jù)庫(kù)管理模塊也可以是駐留在一個(gè)或一個(gè)以上計(jì)算裝置上的軟件模塊(或者一個(gè)或 一個(gè)以上硬件用具)。數(shù)據(jù)庫(kù)管理模塊114可駐留在包含某一類(lèi)網(wǎng)絡(luò)連接硬件(例如,允許 數(shù)據(jù)庫(kù)管理模塊114向及從因特網(wǎng)112發(fā)送及接收數(shù)據(jù)與信息的網(wǎng)絡(luò)接口卡)的機(jī)器上。在圖1的實(shí)例性系統(tǒng)中,工作站116中的一者或一者以上可經(jīng)由因特網(wǎng)112與一 個(gè)或一個(gè)以上搜索引擎113通信。搜索引擎113通常是接收對(duì)信息的用戶(hù)請(qǐng)求的網(wǎng)站及與 所提交的用戶(hù)請(qǐng)求的參數(shù)相關(guān)的網(wǎng)站。眾所周知的搜索引擎的實(shí)例是谷歌(Google)、雅虎 (Yahoo)及百問(wèn)(Ask. com)。在圖1的實(shí)例性系統(tǒng)中,工作站116中的一者或一者以上可經(jīng)由因特網(wǎng)112與一 個(gè)或一個(gè)以上辛迪加式網(wǎng)站115通信。辛迪加式網(wǎng)站115提供對(duì)來(lái)自所述網(wǎng)站的內(nèi)容的 web饋送。通常,來(lái)自辛迪加式網(wǎng)站115的內(nèi)容由安裝于客戶(hù)端工作站116上的web饋送讀 取器存取?,F(xiàn)在參照?qǐng)D2,呈現(xiàn)工作站116的更詳細(xì)視圖。工作站116可包含工作站模塊130。 工作站模塊130可采取經(jīng)安裝以在工作站116的操作系統(tǒng)上運(yùn)行的軟件的形式?;蛘撸?作站模塊130可以是在由工作站116遠(yuǎn)程地啟動(dòng)的另一機(jī)器上運(yùn)行的應(yīng)用程序。工作站模塊130可包含各種組件。所述工作站模塊可包含記錄工作站116上所存 儲(chǔ)的所有web內(nèi)容的本地活動(dòng)內(nèi)容模塊132的編目。舉例來(lái)說(shuō),本地內(nèi)容編目模塊132可 周期性地對(duì)所有本地內(nèi)容進(jìn)行編目。可將經(jīng)編目的數(shù)據(jù)上載到網(wǎng)關(guān)服務(wù)器模塊120以供與 經(jīng)歸類(lèi)的URL/內(nèi)容數(shù)據(jù)庫(kù)146相比較,下文更詳細(xì)地論述數(shù)據(jù)庫(kù)146。本地內(nèi)容編目模塊 132可通過(guò)與工作站116中所含有的經(jīng)編目的本地內(nèi)容相比較來(lái)確定是否將新內(nèi)容引入到 工作站116。工作站模塊130還可包含一個(gè)或一個(gè)以上上載/下載模塊134及一個(gè)或一個(gè)以上 URL請(qǐng)求模塊136。上載/下載模塊134可用于通過(guò)網(wǎng)關(guān)服務(wù)器模塊120從因特網(wǎng)112且 到網(wǎng)絡(luò)110發(fā)送及接收數(shù)據(jù)。URL請(qǐng)求模塊136可從用戶(hù)或某一系統(tǒng)過(guò)程接收數(shù)據(jù)請(qǐng)求且
7經(jīng)由網(wǎng)關(guān)服務(wù)器模塊120發(fā)送所述請(qǐng)求以檢索與所述請(qǐng)求相關(guān)聯(lián)的文件及/或內(nèi)容。所述 請(qǐng)求可以是對(duì)搜索引擎113做出的搜索引擎請(qǐng)求。響應(yīng)于所述搜索,搜索引擎113可基于 搜索參數(shù)而返回一個(gè)網(wǎng)站或網(wǎng)站列表(及通向那些網(wǎng)站的鏈接)。所述請(qǐng)求還可以是對(duì)辛 迪加式網(wǎng)站115做出的內(nèi)容請(qǐng)求。響應(yīng)于所述請(qǐng)求,辛迪加式網(wǎng)站115可返回到所請(qǐng)求的 內(nèi)容的一個(gè)URL鏈接或URL鏈接列表。為便于解釋?zhuān)g(shù)語(yǔ)“網(wǎng)絡(luò)請(qǐng)求”用于包含經(jīng)由搜索引 擎113對(duì)內(nèi)容的用戶(hù)請(qǐng)求或經(jīng)由web饋送讀取器發(fā)送到辛迪加式網(wǎng)站115的請(qǐng)求。圖1的 系統(tǒng)監(jiān)視及/或修改響應(yīng)于所述網(wǎng)絡(luò)請(qǐng)求而返回的數(shù)據(jù)以抑制討厭的或惡意內(nèi)容可被用 戶(hù)獲得。通常,上載/下載模塊134及URL請(qǐng)求模塊136中的每一者的功能由軟件應(yīng)用程序 (例如web瀏覽器,其中Internet Explorer 、莫茲拉火狐(Mozilla Firefox)、歐普拉(0、 游獵(Safari)作為此項(xiàng)技術(shù)中眾所周知的瀏覽軟件的實(shí)例)執(zhí)行。這些功能還可由其它 類(lèi)型的軟件(例如web饋送讀取器、即時(shí)消息接發(fā)程序、對(duì)等文件共享應(yīng)用程序、數(shù)字媒體 播放器應(yīng)用程序(例如iTunes 、RealPlayer、Quicktime)或某些其它應(yīng)用程序)執(zhí)行。或者,可將所述模塊的功能劃分在不同的軟件應(yīng)用程序中。舉例來(lái)說(shuō),F(xiàn)TP應(yīng)用程 序可執(zhí)行上載/下載模塊134的功能,而web瀏覽器執(zhí)行將請(qǐng)求發(fā)送到搜索引擎的功能。 web饋送讀取器應(yīng)用程序可將對(duì)內(nèi)容的請(qǐng)求發(fā)送到辛迪加式網(wǎng)站115。其它類(lèi)型的軟件也 可執(zhí)行上載/下載模塊134的功能。雖然這些類(lèi)型的軟件在工作站上通常是不合需要的, 但例如間諜軟件(Spyware)或特洛伊木馬(Trojan Horses)的軟件可做出請(qǐng)求以從因特網(wǎng) 發(fā)送及接收數(shù)據(jù)。工作站模塊130可與網(wǎng)關(guān)服務(wù)器模塊120通信。網(wǎng)關(guān)服務(wù)器模塊120可用于分析 傳入及傳出web業(yè)務(wù)且做出關(guān)于所述業(yè)務(wù)可對(duì)工作站116產(chǎn)生的影響的各種確定?,F(xiàn)在參 照?qǐng)D3,提供網(wǎng)關(guān)服務(wù)器模塊120的實(shí)例。網(wǎng)關(guān)服務(wù)器模塊120與工作站116進(jìn)行雙向通 信。網(wǎng)關(guān)服務(wù)器模塊120可從工作站模塊130接收文件上載及下載以及URL請(qǐng)求。網(wǎng)關(guān)服 務(wù)器模塊120還與因特網(wǎng)112進(jìn)行雙向通信。因此,在網(wǎng)絡(luò)110的工作站116內(nèi)發(fā)起的請(qǐng) 求在其繼續(xù)到因特網(wǎng)時(shí)可能必須經(jīng)過(guò)網(wǎng)關(guān)服務(wù)器模塊120。在某些實(shí)施例中,網(wǎng)關(guān)服務(wù)器模 塊120可與保護(hù)網(wǎng)絡(luò)110免遭來(lái)自因特網(wǎng)112的未經(jīng)授權(quán)的入侵的某一防火墻硬件或軟件 成整體。在其它實(shí)施例中,網(wǎng)關(guān)服務(wù)器模塊120可以是獨(dú)立硬件用具或甚至安裝于駐留在 到因特網(wǎng)112的網(wǎng)絡(luò)網(wǎng)關(guān)處的單獨(dú)網(wǎng)關(guān)服務(wù)器上的軟件模塊。如以上所論述,網(wǎng)關(guān)服務(wù)器模塊120可通過(guò)工作站模塊130從工作站116接收URL 請(qǐng)求及上載/下載數(shù)據(jù)。網(wǎng)關(guān)服務(wù)器模塊120可包含基于所接收的數(shù)據(jù)而執(zhí)行各種功能的 各種組件。包含于網(wǎng)關(guān)服務(wù)器模塊120中的一個(gè)特征是經(jīng)歸類(lèi)的URL/內(nèi)容數(shù)據(jù)庫(kù)146。URL 數(shù)據(jù)庫(kù)146可用于存儲(chǔ)關(guān)于URL的信息,所述信息包含與所述URL相關(guān)聯(lián)的數(shù)據(jù)。經(jīng)歸類(lèi) 的URL/內(nèi)容數(shù)據(jù)庫(kù)146可以是關(guān)系數(shù)據(jù)庫(kù),或者其可以例如平面文件、面向?qū)ο蟮臄?shù)據(jù)庫(kù) 的其它形式來(lái)存儲(chǔ),且可經(jīng)由應(yīng)用程序編程接口(API)或某一數(shù)據(jù)庫(kù)管理軟件(DBMS)來(lái)存 取。URL數(shù)據(jù)庫(kù)146通常可用于幫助確定是否將準(zhǔn)許完成由URL請(qǐng)求模塊136發(fā)送的URL 請(qǐng)求。在一個(gè)實(shí)施例中,將存儲(chǔ)于URL數(shù)據(jù)庫(kù)146中的URL歸類(lèi)。網(wǎng)關(guān)服務(wù)器模塊120還可包含策略模塊142。策略模塊142可用于實(shí)施關(guān)于網(wǎng)關(guān) 服務(wù)器模塊102或安裝在網(wǎng)絡(luò)110內(nèi)的防火墻或某一其它安全軟件將如何處置某些內(nèi)容的網(wǎng)絡(luò)策略。在一個(gè)實(shí)施例中,策略模塊142可經(jīng)配置以提供關(guān)于如何處置對(duì)經(jīng)歸類(lèi)的URL 的URL請(qǐng)求的系統(tǒng)引導(dǎo)。舉例來(lái)說(shuō),網(wǎng)關(guān)服務(wù)器模塊120經(jīng)配置以不允許被歸類(lèi)為“惡意” 或“間諜軟件”的URL請(qǐng)求。在其它實(shí)施例中,策略模塊142可用于確定如何處置尚未被歸 類(lèi)的URL請(qǐng)求。在一個(gè)實(shí)施例中,所述系統(tǒng)可經(jīng)配置以阻止對(duì)不在經(jīng)歸類(lèi)的URL/內(nèi)容數(shù)據(jù) 庫(kù)146中的URL的所有請(qǐng)求。策略模塊142還可經(jīng)配置以基于做出請(qǐng)求的用戶(hù)或做出請(qǐng)求 的時(shí)間而允許未經(jīng)歸類(lèi)的URL的某些請(qǐng)求。此允許所述系統(tǒng)在(例如)配置將不滿(mǎn)足運(yùn)行 網(wǎng)關(guān)服務(wù)器模塊120的組織的商業(yè)需要時(shí)避免具有通用型(one-size-fits-all)配置。網(wǎng)關(guān)服務(wù)器模塊120可包含收集模塊140。收集模塊140可以是用于收集關(guān)于URL 的數(shù)據(jù)的軟件程序、例程或過(guò)程。在一個(gè)實(shí)施例中,當(dāng)從URL請(qǐng)求模塊136接收到對(duì)來(lái)自辛 迪加式網(wǎng)站115的內(nèi)容的因特網(wǎng)請(qǐng)求時(shí),收集模塊140可經(jīng)配置以訪問(wèn)與辛迪加式網(wǎng)站115 相關(guān)聯(lián)的網(wǎng)站且將數(shù)據(jù)下載到網(wǎng)關(guān)服務(wù)器模塊120以由網(wǎng)關(guān)服務(wù)器模塊120的組件進(jìn)行分 析。所下載的數(shù)據(jù)還可經(jīng)由因特網(wǎng)112發(fā)送以遞送到數(shù)據(jù)管理模塊114(下文將更詳細(xì)地 論述)。在某些實(shí)施例中,網(wǎng)關(guān)服務(wù)器模塊120還可包含登錄數(shù)據(jù)庫(kù)144。登錄數(shù)據(jù)庫(kù)144 可執(zhí)行各種功能。舉例來(lái)說(shuō),其可存儲(chǔ)網(wǎng)絡(luò)110內(nèi)的某些類(lèi)型的事件的紀(jì)錄。在一個(gè)實(shí)施例 中,登錄數(shù)據(jù)庫(kù)144可經(jīng)配置以記錄其中工作站116請(qǐng)求未經(jīng)歸類(lèi)的URL的每一事件。在 某些實(shí)施例中,登錄數(shù)據(jù)庫(kù)144還可經(jīng)配置以記錄請(qǐng)求特定未經(jīng)歸類(lèi)的URL的頻率。此信 息可用于確定未經(jīng)歸類(lèi)的URL是否應(yīng)具有特別重要性或優(yōu)先級(jí)且應(yīng)在較早所接收的數(shù)據(jù) 之前由數(shù)據(jù)庫(kù)管理模塊114歸類(lèi)。在某些實(shí)施例中,可將未經(jīng)歸類(lèi)的URL單獨(dú)地存儲(chǔ)于未 經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù)147中。舉例來(lái)說(shuō),某一間諜軟件可經(jīng)寫(xiě)入以從特定URL請(qǐng)求數(shù)據(jù)。如果網(wǎng)絡(luò)110內(nèi)的許 多工作站116感染有所述間諜軟件,則到特定URL的重復(fù)請(qǐng)求可提供所述網(wǎng)絡(luò)內(nèi)存在某一 異常的指示。所述登錄數(shù)據(jù)庫(kù)還可經(jīng)配置以記錄經(jīng)歸類(lèi)的URL數(shù)據(jù)的請(qǐng)求。在某些實(shí)施例 中,將經(jīng)歸類(lèi)的URL的請(qǐng)求歸類(lèi)可有助于確定是否已誤特征化特定URL?,F(xiàn)在參照?qǐng)D4,論述登錄數(shù)據(jù)庫(kù)144的實(shí)例。登錄數(shù)據(jù)庫(kù)包含四個(gè)數(shù)據(jù)列。第一列 “頁(yè)面請(qǐng)求號(hào)” 152指示特定URL已由網(wǎng)絡(luò)110內(nèi)的用戶(hù)請(qǐng)求的次數(shù)。第二列“URL”154記 錄被登錄在登錄數(shù)據(jù)庫(kù)144中的特定URL串。因此,當(dāng)向登錄數(shù)據(jù)庫(kù)144發(fā)送URL時(shí),所述 數(shù)據(jù)庫(kù)可首先經(jīng)搜索以確定所述URL串是否已在其中。如果不在其中,則可將所述URL串添 加到所述數(shù)據(jù)庫(kù)。在某些實(shí)施例中,收集模塊140可經(jīng)配置以訪問(wèn)所請(qǐng)求的URL且采集關(guān) 于所述URL的數(shù)據(jù)。收集模塊140可檢索所請(qǐng)求的URL的頁(yè)面源且對(duì)其進(jìn)行掃描以取得可 指示一種類(lèi)型的內(nèi)容的關(guān)鍵字。舉例來(lái)說(shuō),如果所述頁(yè)面源包含“javascript://”,則所述 頁(yè)面可被識(shí)別為具有Java腳本。盡管此內(nèi)容并非固有地危險(xiǎn),但具有Java腳本的網(wǎng)頁(yè)可 具有包含經(jīng)設(shè)計(jì)以利用瀏覽器應(yīng)用程序處置Java腳本函數(shù)調(diào)用的方式的惡意內(nèi)容的較大 機(jī)會(huì)。在某些實(shí)施例中,可在登錄數(shù)據(jù)庫(kù)144中將此數(shù)據(jù)存儲(chǔ)于Java腳本列155中。所述 登錄數(shù)據(jù)庫(kù)還可從包含Active-X內(nèi)容的頁(yè)面接收類(lèi)似信息且將所述內(nèi)容存儲(chǔ)于ActiveX 列156內(nèi)。在其它實(shí)施例中,可檢測(cè)其它類(lèi)型的活動(dòng)內(nèi)容并將其存儲(chǔ)為java小應(yīng)用程序、 VB腳本及其類(lèi)似物。再次參照?qǐng)D3,網(wǎng)關(guān)服務(wù)器模塊120可進(jìn)一步包含IT接口模塊148。接口模塊148 可用于允許組織內(nèi)的網(wǎng)絡(luò)管理員或其它技術(shù)人員配置網(wǎng)關(guān)服務(wù)器模塊120的各種特征。在
9某些實(shí)施例中,接口模塊148允許所述網(wǎng)絡(luò)管理員或某一其它網(wǎng)絡(luò)管理類(lèi)型配置策略模塊 142。網(wǎng)關(guān)服務(wù)器模塊120可進(jìn)一步包括URL分析模塊149。URL分析模塊149經(jīng)配置 以基于URL及與所述URL相關(guān)聯(lián)的數(shù)據(jù)分析所述URL。與URL相關(guān)聯(lián)的數(shù)據(jù)可包含信譽(yù)數(shù) 據(jù)。web信譽(yù)數(shù)據(jù)的實(shí)例包含與URL主機(jī)及與URL主機(jī)名稱(chēng)服務(wù)器相關(guān)聯(lián)的數(shù)據(jù)。下文參 照URL分析模塊149論述web信譽(yù)數(shù)據(jù)的額外實(shí)例。網(wǎng)關(guān)服務(wù)器模塊120還可包含內(nèi)容過(guò)濾模塊150。內(nèi)容過(guò)濾模塊150可結(jié)合所述 策略模塊及經(jīng)歸類(lèi)的URL/內(nèi)容數(shù)據(jù)庫(kù)146工作以過(guò)濾響應(yīng)于網(wǎng)絡(luò)請(qǐng)求而返回的搜索結(jié)果 的若干部分。在一個(gè)實(shí)施例中,內(nèi)容過(guò)濾模塊150可經(jīng)配置以從響應(yīng)于發(fā)送到因特網(wǎng)搜索 引擎113的用戶(hù)請(qǐng)求而返回的URL列表移除URL鏈接及其它內(nèi)容。以舉例而非限定方式,內(nèi) 容過(guò)濾模塊150可經(jīng)配置以辨識(shí)傳出搜索引擎查詢(xún)。由搜索引擎113返回到客戶(hù)端工作站 116的頁(yè)面可由網(wǎng)關(guān)服務(wù)器模塊120攔截且由內(nèi)容過(guò)濾模塊150分析。內(nèi)容過(guò)濾模塊150 可經(jīng)配置以剖析所返回的頁(yè)面且識(shí)別所返回的搜索結(jié)果中的URL鏈接及嵌入式內(nèi)容項(xiàng)(例 如圖像或活動(dòng)內(nèi)容)??蓪⒚恳唤?jīng)識(shí)別的URL鏈接或內(nèi)容項(xiàng)與URL/內(nèi)容數(shù)據(jù)庫(kù)146中的數(shù)據(jù)相比較以 確定是否已將所述URL歸類(lèi)。如果已將所述URL歸類(lèi),則向所述策略模塊咨詢(xún)關(guān)于如何處 置所述內(nèi)容的指令。舉例來(lái)說(shuō),策略模塊142可指令內(nèi)容過(guò)濾模塊150移除通向被歸類(lèi)為 “惡意”或“間諜軟件”的網(wǎng)頁(yè)的URL鏈接。另外,內(nèi)容過(guò)濾模塊150還可經(jīng)配置以基于討厭 的內(nèi)容在URL/內(nèi)容數(shù)據(jù)庫(kù)146中的存在及歸類(lèi)而從所返回的搜索引擎結(jié)果移除所述內(nèi)容。 在一個(gè)實(shí)施例中,內(nèi)容過(guò)濾模塊150可經(jīng)配置以基于由URL分析模塊149提供的信息而過(guò) 濾內(nèi)容?,F(xiàn)在參照?qǐng)D5,提供URL存取策略數(shù)據(jù)庫(kù)158的實(shí)例。策略模塊142可使用URL存 取策略數(shù)據(jù)庫(kù)158來(lái)實(shí)施用于由網(wǎng)絡(luò)110內(nèi)的工作站116存取基于web的內(nèi)容的策略。在 所顯示的實(shí)施例中,URL存取策略數(shù)據(jù)庫(kù)158包含具有四個(gè)列的表。第一列是用戶(hù)列160。 “用戶(hù)”列160包含關(guān)于服從所述表的給定行中所界定的策略的用戶(hù)的數(shù)據(jù)。下一列“類(lèi) 別” 162列出可應(yīng)用由所述行界定的策略的內(nèi)容的類(lèi)別。第三列“始終阻止” 164表示當(dāng)用 戶(hù)及所請(qǐng)求的內(nèi)容的類(lèi)別162匹配所述特定行中所界定的用戶(hù)及類(lèi)別時(shí)由系統(tǒng)實(shí)施的行 為或策略。在一個(gè)實(shí)施例中,“始終阻止”字段可以是其中可將數(shù)據(jù)設(shè)定為真或假的布爾類(lèi) 型(Boolean-type)字段。因此,在所述數(shù)據(jù)表中所示的第一行中,策略模塊142經(jīng)配置以 “始終阻止”用戶(hù)“asmith”對(duì)“惡意內(nèi)容”的請(qǐng)求。如上所述,策略模塊142還可經(jīng)配置以實(shí)施基于不同的時(shí)間的策略。在圖5中所 提供的實(shí)施例中,第四列“允許的時(shí)間” 166提供此功能性。第二數(shù)據(jù)行提供如何實(shí)施時(shí)間 策略的實(shí)例。用戶(hù)164被設(shè)定為“bnguyen”且類(lèi)別162是“賭博”。策略未經(jīng)配置以“始終 阻止” “bnguyen”的賭博內(nèi)容,如被留出空白的字段所指示。然而,準(zhǔn)許這些URL請(qǐng)求的時(shí) 間被限定為6PM to 8AM。因此,采取這些類(lèi)型的策略允許網(wǎng)絡(luò)管理員向工作站及用戶(hù)提供 某一程度的靈活性,但需以在典型的工作時(shí)間期間不損害網(wǎng)絡(luò)業(yè)務(wù)的方式來(lái)提供。在一個(gè)實(shí)施例中,URL分析模塊149可經(jīng)配置以檢查所請(qǐng)求的URL(例如,先前未 經(jīng)歸類(lèi)的URL)并產(chǎn)生指示所述URL可能涉及目標(biāo)(例如,活動(dòng))內(nèi)容的得分或其它數(shù)據(jù)。 在一個(gè)實(shí)施例中,URL分析模塊149可包括信譽(yù)計(jì)分模塊(例如圖12的信譽(yù)計(jì)分模塊331
10的實(shí)施例),所述信譽(yù)計(jì)分模塊產(chǎn)生表示所述URL的信譽(yù)的得分或其它數(shù)據(jù)。當(dāng)位于網(wǎng)關(guān)服務(wù)器模塊120內(nèi)時(shí),URL分析模塊149的信譽(yù)計(jì)分模塊可直接使用 本地?cái)?shù)據(jù)及數(shù)據(jù)庫(kù)分析URL的信譽(yù)以便以最小時(shí)間等待確定得分。所述信譽(yù)計(jì)分模塊可與 數(shù)據(jù)庫(kù)管理模塊114(參見(jiàn)圖1)的一個(gè)或一個(gè)以上數(shù)據(jù)庫(kù)通信以獲得關(guān)于URL或所述URL 的分量的額外信息以確定所述URL的得分。URL分析模塊149未必包含所述信譽(yù)計(jì)分模塊且替代地可依賴(lài)經(jīng)遠(yuǎn)程定位的信譽(yù) 計(jì)分模塊。舉例來(lái)說(shuō),信譽(yù)計(jì)分模塊331可位于數(shù)據(jù)庫(kù)管理模塊114處,如圖7及12中的 數(shù)據(jù)庫(kù)管理模塊114的實(shí)施例中所圖解說(shuō)明。URL分析模塊149將所請(qǐng)求的URL傳送到數(shù) 據(jù)庫(kù)管理模塊114以由經(jīng)遠(yuǎn)程定位的信譽(yù)計(jì)分模塊331計(jì)分。數(shù)據(jù)庫(kù)管理模塊114將信譽(yù) 計(jì)分模塊331所執(zhí)行的分析的結(jié)果傳送回到網(wǎng)關(guān)服務(wù)器模塊120。網(wǎng)關(guān)服務(wù)器模塊120可 依賴(lài)從數(shù)據(jù)庫(kù)管理模塊114接收的結(jié)果來(lái)確定在何種條件下將允許用戶(hù)對(duì)與所請(qǐng)求的URL 相關(guān)聯(lián)的網(wǎng)站的存取。網(wǎng)關(guān)服務(wù)器模塊120在確定是否將允許存取時(shí)可進(jìn)一步依賴(lài)與用戶(hù) 相關(guān)聯(lián)的預(yù)定策略。有利地,經(jīng)遠(yuǎn)程定位的信譽(yù)計(jì)分模塊可由多個(gè)網(wǎng)關(guān)服務(wù)器模塊120共 享。經(jīng)遠(yuǎn)程定位的信譽(yù)計(jì)分模塊可降低網(wǎng)關(guān)服務(wù)器模塊120處所需要的軟件的復(fù)雜性。在其它實(shí)施例中,所述信譽(yù)計(jì)分模塊的功能性可在網(wǎng)關(guān)服務(wù)器120與數(shù)據(jù)庫(kù)管理 模塊114之間共享。此布置可提供計(jì)分過(guò)程的等待時(shí)間的益處同時(shí)還提供所共享的存取的 益處。舉例來(lái)說(shuō),較高信譽(yù)得分可指示與URL相關(guān)聯(lián)的網(wǎng)站不包含活動(dòng)內(nèi)容的可能性。 如果URL的主機(jī)因特網(wǎng)協(xié)議(IP)地址和不與活動(dòng)或其它目標(biāo)內(nèi)容相關(guān)聯(lián)的經(jīng)歸類(lèi)的URL 的主機(jī)IP相同(例如,主機(jī)名稱(chēng)僅為別名),則未被歸類(lèi)的URL可仍具有高信譽(yù)得分。相反 地,如果主機(jī)IP地址和與活動(dòng)或其它目標(biāo)內(nèi)容相關(guān)聯(lián)的主機(jī)IP地址相同,則信譽(yù)得分可為 低。當(dāng)然,取決于實(shí)施例,可使用不同的得分范圍或不同的得分詮釋(例如,高得分指示不 良URL信譽(yù))。應(yīng)認(rèn)識(shí)到,指示URL的信譽(yù)的數(shù)據(jù)或得分可基于一個(gè)或一個(gè)以上不同的數(shù)據(jù)元素 及分析。下文參照?qǐng)D12中所圖解說(shuō)明的信譽(yù)計(jì)分模塊論述產(chǎn)生信譽(yù)得分的方式的實(shí)例。 URL分析模塊149可使用參照?qǐng)D12描述的信譽(yù)計(jì)分技術(shù)中的一者或一者以上來(lái)給URL產(chǎn)生 信譽(yù)的得分或其它指示符??舍槍?duì)用戶(hù)所請(qǐng)求的URL或針對(duì)代表用戶(hù)的代理所請(qǐng)求的URL產(chǎn)生指示信譽(yù)的得 分。舉例來(lái)說(shuō),例如web饋送讀取器或其它類(lèi)型的內(nèi)容聚合器的應(yīng)用程序通過(guò)單一聚合URL 來(lái)收集代表用戶(hù)的數(shù)據(jù)。這些類(lèi)型的應(yīng)用程序的眾所周知的實(shí)例包含谷歌讀取器(Google Reader) >http://www. mynewsbot. com/、我的雅虎! (MyYahoo !)、(新聞閱讀)NewsGator 及其類(lèi)似物。這些類(lèi)型的應(yīng)用程序通常允許工作站116的用戶(hù)指定或“訂閱”提供辛迪加 式內(nèi)容的各種外部網(wǎng)站。web饋送讀取器或聚合器訪問(wèn)用戶(hù)所訂閱的網(wǎng)站或URL中的每一 者且從所訪問(wèn)的網(wǎng)站采集辛迪加式內(nèi)容。用于采集或聚合辛迪加式內(nèi)容的已知web饋送協(xié) 議的實(shí)例包含RSS及ATOM。所述辛迪加式內(nèi)容通常被遞送到聚合網(wǎng)站且在聚合協(xié)議的URL 下被顯示給用戶(hù)。所聚合的內(nèi)容可(舉例來(lái)說(shuō))以XML包的形式被遞送到所述聚合網(wǎng)站且 包含與從其中采集內(nèi)容的網(wǎng)站相關(guān)聯(lián)的URL。與所述網(wǎng)站URL不同,在其下顯示所述內(nèi)容的聚合協(xié)議的URL對(duì)用戶(hù)或所采集 的內(nèi)容并非特定的。舉例來(lái)說(shuō),由雅虎的web饋送讀取器聚合的內(nèi)容在URL "http://my. yahoo, com”下被顯示。由于單一聚合URL (例如“httD //my. yahoo, com”)對(duì)用戶(hù)或所 采集的內(nèi)容并非特定的,因此在一個(gè)實(shí)施例中,信譽(yù)計(jì)分模塊331并不僅依賴(lài)所述聚合URL 來(lái)確定網(wǎng)站URL的一個(gè)或一個(gè)以上信譽(yù)得分。在此實(shí)施例中,信譽(yù)計(jì)分模塊331,不論是駐 留在網(wǎng)關(guān)服務(wù)器模塊120內(nèi)還是遠(yuǎn)離網(wǎng)關(guān)服務(wù)器模塊120,均優(yōu)選地依賴(lài)對(duì)與所采集的內(nèi) 容相關(guān)聯(lián)的網(wǎng)站URL的分析來(lái)產(chǎn)生信譽(yù)得分。在一個(gè)實(shí)施例中,內(nèi)容過(guò)濾模塊150向所述 URL分析模塊提供與所采集的內(nèi)容相關(guān)聯(lián)的網(wǎng)站URL。那么,每一信譽(yù)得分對(duì)于每一網(wǎng)站 URL可為唯一的且網(wǎng)關(guān)服務(wù)器模塊120依賴(lài)每一信譽(yù)得分來(lái)確定如果存在那么在何種情形 下將允許用戶(hù)存取與由此類(lèi)型的web饋送讀取器應(yīng)用程序采集的每一經(jīng)計(jì)分的網(wǎng)站URL相 關(guān)聯(lián)的內(nèi)容。網(wǎng)關(guān)服務(wù)器模塊120可將此相同過(guò)程應(yīng)用于響應(yīng)于搜索引擎請(qǐng)求而返回的URL列 表。網(wǎng)關(guān)服務(wù)器模塊120分析所返回的URL中的每一者以產(chǎn)生信譽(yù)得分。那么,每一信譽(yù) 得分對(duì)于每一所列出的URL可為唯一的且網(wǎng)關(guān)服務(wù)器模塊120可依賴(lài)每一信譽(yù)得分來(lái)確定 如果存在那么在何種情形下將允許用戶(hù)存取與搜索引擎所列出的每一經(jīng)計(jì)分的URL相關(guān) 聯(lián)的內(nèi)容。網(wǎng)關(guān)服務(wù)器模塊120還可將這些技術(shù)應(yīng)用于互動(dòng)網(wǎng)站及內(nèi)容。舉例來(lái)說(shuō),在將web 開(kāi)發(fā)到更多的通信平臺(tái)中,數(shù)個(gè)web特性允許終端用戶(hù)所進(jìn)行的互動(dòng)內(nèi)容上載。實(shí)例包含 但不限于我的空間(MySpace)、臉譜網(wǎng)(FaceBook)、谷歌頁(yè)面(GooglePages)等。這些站點(diǎn) 上的內(nèi)容通?;诶鏙ava腳本、XML及Ajax的活動(dòng)技術(shù)。為分析這些類(lèi)型的頁(yè)面及內(nèi) 容,網(wǎng)關(guān)服務(wù)器模塊120可至少部分地依賴(lài)域的頂級(jí)類(lèi)別并結(jié)合信譽(yù)計(jì)分模塊331對(duì)網(wǎng)站 上的內(nèi)容及所參考鏈接的分析。URL分析模塊149可將其得分提供給策略模塊142。策略模塊142可經(jīng)配置以取 決于所述得分、用戶(hù)或任何其它可應(yīng)用參數(shù)來(lái)實(shí)施不同的策略。因此,在一個(gè)實(shí)施例中,URL 分析模塊149可為未經(jīng)歸類(lèi)的URL產(chǎn)生充分高的信譽(yù)得分(例如,指示良好信譽(yù)或者活動(dòng) 或其它目標(biāo)內(nèi)容的低可能性)以使得當(dāng)策略模塊142原本不允許對(duì)所述未經(jīng)歸類(lèi)的URL的 存取時(shí)策略模塊142允許對(duì)所述URL的存取。或者,策略模塊142可經(jīng)配置以在可應(yīng)用策 略原本允許對(duì)具有低得分(例如,指示不良信譽(yù)或者活動(dòng)或其它目標(biāo)內(nèi)容的較高可能性) 的URL的存取時(shí)阻止對(duì)所述URL的存取。圖6A及6B提供經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù)146可如何存儲(chǔ)經(jīng)歸類(lèi)的數(shù)據(jù)的圖解。在一 個(gè)實(shí)施例中,可將經(jīng)歸類(lèi)的URL存儲(chǔ)于例如圖6A中所示的數(shù)據(jù)庫(kù)表的兩列數(shù)據(jù)庫(kù)表中。在 一個(gè)實(shí)施例中,所述表可包含URL列172,URL列172可僅存儲(chǔ)已被特征化的URL串。類(lèi)別 列174可存儲(chǔ)關(guān)于數(shù)據(jù)庫(kù)模塊114(如下文將詳細(xì)地描述)已如何特征化所述URL的數(shù)據(jù)。 在一個(gè)實(shí)施例中,可索引所述URL字段以使得可實(shí)時(shí)地更快地對(duì)其進(jìn)行搜索。由于經(jīng)歸類(lèi) 的URL的列表可完全達(dá)到數(shù)百萬(wàn)個(gè)URL,因此快速存取例程是有益的?,F(xiàn)在參照?qǐng)D6B,提供未歸類(lèi)URL的表147 (較早已結(jié)合圖3描述)。此表可由來(lái)自 工作站116的請(qǐng)求未存在于經(jīng)歸類(lèi)的URL/內(nèi)容數(shù)據(jù)庫(kù)146中的URL的URL請(qǐng)求填充。如 下文將更詳細(xì)地描述,網(wǎng)關(guān)服務(wù)器模塊120可經(jīng)配置以查詢(xún)經(jīng)歸類(lèi)的URL/內(nèi)容數(shù)據(jù)庫(kù)146 以確定是否應(yīng)阻止所請(qǐng)求的URL。如果所請(qǐng)求的URL在經(jīng)歸類(lèi)的數(shù)據(jù)庫(kù)146中,則所述策略 模塊可確定是否允許所述請(qǐng)求繼續(xù)到因特網(wǎng)112。然而,如果未在經(jīng)歸類(lèi)的URL/內(nèi)容數(shù)據(jù) 庫(kù)146中發(fā)現(xiàn)所請(qǐng)求的URL,則可將所述URL添加到未經(jīng)歸類(lèi)的URL的數(shù)據(jù)庫(kù)147以使得其可經(jīng)由因特網(wǎng)112被發(fā)送到數(shù)據(jù)庫(kù)管理模塊114且稍后被分析及歸類(lèi)并被下載到經(jīng)歸類(lèi)的 URL的數(shù)據(jù)庫(kù)146中。圖7是可包含于數(shù)據(jù)庫(kù)管理模塊114中的各種組件的圖解。如以上所論述,可遠(yuǎn) 離網(wǎng)絡(luò)110及其相關(guān)聯(lián)工作站116地定位數(shù)據(jù)庫(kù)管理模塊114(可經(jīng)由因特網(wǎng)112存取)。 所述數(shù)據(jù)庫(kù)管理模塊可采取一個(gè)或許多不同的硬件及軟件組件(例如同時(shí)運(yùn)行數(shù)百個(gè)服 務(wù)器的服務(wù)器庫(kù))的形式以實(shí)現(xiàn)經(jīng)改進(jìn)的性能。
在一個(gè)實(shí)施例中,數(shù)據(jù)庫(kù)管理模塊114可包含上載/下載模塊178。上載/下載模 塊178可以是軟件或硬件組件,其允許數(shù)據(jù)庫(kù)管理模塊114從因特網(wǎng)112到任何數(shù)量的位 置發(fā)送及接收數(shù)據(jù)且可取決于所述實(shí)施例而以與上載/下載模塊134大致類(lèi)似的方式對(duì)網(wǎng) 關(guān)服務(wù)器模塊120進(jìn)行操作。在一個(gè)實(shí)施例中,所述上載/下載模塊經(jīng)配置以在因特網(wǎng)112 上將新歸類(lèi)的URL發(fā)送到網(wǎng)關(guān)服務(wù)器模塊120以添加到其本地經(jīng)歸類(lèi)的URL/內(nèi)容數(shù)據(jù)庫(kù) 146。數(shù)據(jù)庫(kù)管理模塊114還可包含數(shù)據(jù)庫(kù)管理模塊URL/內(nèi)容數(shù)據(jù)庫(kù)180。數(shù)據(jù)庫(kù)管理 模塊URL/內(nèi)容數(shù)據(jù)庫(kù)180可采取數(shù)據(jù)倉(cāng)庫(kù)的形式,其存儲(chǔ)已由收集系統(tǒng)182(下文將更詳 細(xì)地描述)收集的URL串及關(guān)于URL的信息。數(shù)據(jù)庫(kù)管理模塊URL/內(nèi)容數(shù)據(jù)庫(kù)180可以 是經(jīng)索引以提供對(duì)數(shù)據(jù)的快速且有效的搜索的關(guān)系數(shù)據(jù)庫(kù)。在某些實(shí)施例中,URL/內(nèi)容數(shù) 據(jù)庫(kù)180可以是數(shù)據(jù)存庫(kù)應(yīng)用程序,其跨越眾多物理硬件組件及存儲(chǔ)媒體。URL/內(nèi)容數(shù)據(jù) 庫(kù)180可包含例如URL串、與那些串相關(guān)聯(lián)的內(nèi)容、關(guān)于如何采集所述內(nèi)容的信息(例如, 通過(guò)蜂蜜客戶(hù)端、通過(guò)顧客提交等)及可能地URL被寫(xiě)入到URL/內(nèi)容數(shù)據(jù)庫(kù)180中的日期 的數(shù)據(jù)。數(shù)據(jù)庫(kù)管理模塊114可進(jìn)一步包含培訓(xùn)系統(tǒng)184。培訓(xùn)系統(tǒng)184可以是用于界定 可用于將基于web的內(nèi)容歸類(lèi)的特性及定義的軟件/硬件模塊。數(shù)據(jù)庫(kù)管理模塊114可進(jìn) 一步提供計(jì)分/分類(lèi)系統(tǒng)186,計(jì)分/分類(lèi)系統(tǒng)186利用由培訓(xùn)系統(tǒng)184創(chuàng)建的定義及特性 來(lái)給web內(nèi)容提供得分或分類(lèi)(例如,歸類(lèi))以便可經(jīng)由上載/下載模塊178將所述歸類(lèi) 遞送到網(wǎng)關(guān)服務(wù)器模塊120?,F(xiàn)在參照?qǐng)D8,提供收集系統(tǒng)182的更詳細(xì)視圖。收集系統(tǒng)182可包含耦合(直接 或間接)到數(shù)據(jù)挖掘模塊192的數(shù)據(jù)庫(kù)管理收集模塊190。數(shù)據(jù)庫(kù)管理模塊114可使用數(shù) 據(jù)庫(kù)管理收集模塊190來(lái)為URL/內(nèi)容數(shù)據(jù)庫(kù)180收集關(guān)于尚未被歸類(lèi)的URL的數(shù)據(jù)。數(shù) 據(jù)庫(kù)管理收集模塊190還可用于收集URL以由其它系統(tǒng)組件進(jìn)行額外分析。數(shù)據(jù)庫(kù)管理收 集模塊190可與一個(gè)或一個(gè)以上收集源194相關(guān)聯(lián),數(shù)據(jù)庫(kù)管理收集模塊190可從收集源 194收集關(guān)于URL的數(shù)據(jù)。收集源194可采取各種形式。在某些實(shí)施例中,收集源194可包 含主動(dòng)及被動(dòng)蜜罐及蜂蜜客戶(hù)端、對(duì)存儲(chǔ)于網(wǎng)關(guān)服務(wù)器模塊120上的登錄數(shù)據(jù)庫(kù)144的數(shù) 據(jù)分析以識(shí)別應(yīng)用程序、URL及協(xié)議以供收集。收集源194還可以是web搜索應(yīng)用程序,其 搜索因特網(wǎng)112以取得頁(yè)面內(nèi)容內(nèi)的特定關(guān)鍵字或搜索短語(yǔ)。收集源194還可包含從DNS 數(shù)據(jù)庫(kù)挖掘的URL及IP地址數(shù)據(jù)以識(shí)別與已知惡意IP地址相關(guān)聯(lián)的域。在某些實(shí)施例中, 可通過(guò)從共享此信息的其它組織接收惡意代碼及惡意URL樣本來(lái)收集用于歸類(lèi)的URL。在 又一些實(shí)施例中,可經(jīng)由電子郵件模塊收集URL,所述電子郵件模塊經(jīng)配置以從普通公眾接 收提示,此與通過(guò)犯罪提示熱線來(lái)識(shí)別罪犯的方式差不多?,F(xiàn)在參照?qǐng)D9,提供數(shù)據(jù)庫(kù)管理收集模塊190的更詳細(xì)視圖。數(shù)據(jù)庫(kù)管理收集模塊190可包含允許其有效地利用以上所描述的收集源194中的每一者的各種子組件。數(shù)據(jù) 庫(kù)管理收集模塊190可包含搜索短語(yǔ)數(shù)據(jù)模塊197及表達(dá)式數(shù)據(jù)模塊198。搜索短語(yǔ)數(shù)據(jù) 模塊197收集并提供可與識(shí)別不適當(dāng)內(nèi)容相關(guān)的搜索短語(yǔ)。表達(dá)式數(shù)據(jù)模塊198可包含各 種類(lèi)型的表達(dá)式,例如正則表達(dá)式、操作數(shù)或某一其它表達(dá)式。搜索短語(yǔ)數(shù)據(jù)模塊197及表 達(dá)式數(shù)據(jù)模塊198各自可包含可更新紀(jì)錄組,所述可更新紀(jì)錄組可用于界定用于網(wǎng)絡(luò)爬行 收集源194的搜索參數(shù)。數(shù)據(jù)庫(kù)管理收集模塊190還可包含優(yōu)先級(jí)模塊200。優(yōu)先級(jí)模塊 200可采取在收集系統(tǒng)182內(nèi)運(yùn)行的軟件過(guò)程的形式,或者其可作為單獨(dú)的過(guò)程而運(yùn)行。所 述優(yōu)先級(jí)模塊可用于優(yōu)先化由所述數(shù)據(jù)庫(kù)管理收集模塊收集的數(shù)據(jù)以使?jié)撛谖kU(xiǎn)或可疑 URL(或數(shù)據(jù))在可能無(wú)害的URL之前接收密切檢查。在一個(gè)實(shí)施例中,優(yōu)先級(jí)模塊200可 基于 從那接收到URL的收集源194而指派優(yōu)先級(jí)。舉例來(lái)說(shuō),如果從顧客報(bào)告接收到URL, 則可給所述URL指定較高優(yōu)先級(jí)。類(lèi)似地,如果從存取過(guò)去為主機(jī)惡意內(nèi)容所知的域或IP 地址或子網(wǎng)的webcrawler搜索程序(web crawler)接收到URL,則所述URL可接收高優(yōu)先 級(jí)。類(lèi)似地,蜂蜜客戶(hù)端(下文更詳細(xì)地論述)所識(shí)別的潛在危險(xiǎn)網(wǎng)站也可接收高優(yōu)先級(jí)。 數(shù)據(jù)庫(kù)管理模塊190還可包含數(shù)據(jù)選擇模塊202,數(shù)據(jù)選擇模塊202可與優(yōu)先級(jí)模塊200 — 起工作以確定是否應(yīng)將經(jīng)識(shí)別的URL標(biāo)記為用于歸類(lèi)的候選URL。在一個(gè)實(shí)施例中,所述數(shù) 據(jù)選擇URL可提供用于接收搜索參數(shù)的用戶(hù)接口以通過(guò)基于優(yōu)先級(jí)及內(nèi)容來(lái)搜索數(shù)據(jù)而 進(jìn)一步細(xì)化經(jīng)優(yōu)先化的數(shù)據(jù)。如以上所指示,所述收集模塊還可包含數(shù)據(jù)下載模塊204。數(shù)據(jù)下載模塊204可經(jīng) 配置以識(shí)別將訪問(wèn)的URL并從所訪問(wèn)的URL下載數(shù)據(jù)及內(nèi)容。數(shù)據(jù)下載模塊204可結(jié)合數(shù) 據(jù)庫(kù)管理收集模塊190中的各種子系統(tǒng)一起工作以檢索URL/內(nèi)容數(shù)據(jù)庫(kù)180的數(shù)據(jù)。一種 此系統(tǒng)是webcrawler搜索程序模塊206。webcrawler搜索程序模塊206可以是經(jīng)配置以通 過(guò)存取網(wǎng)頁(yè)及跟蹤包含于那些頁(yè)面中的超鏈接而存取因特網(wǎng)112上的網(wǎng)站的軟件應(yīng)用程 序。webcrawler搜索程序模塊206可配置有數(shù)個(gè)同時(shí)過(guò)程,所述同時(shí)過(guò)程允許所述模塊同 時(shí)在許多網(wǎng)站上爬行且將所訪問(wèn)的URL報(bào)告回給數(shù)據(jù)庫(kù)管理模塊URL/內(nèi)容數(shù)據(jù)庫(kù)180(如 下文將更詳細(xì)地論述)。數(shù)據(jù)庫(kù)管理收集模塊190還可包含蜂蜜客戶(hù)端模塊208。蜂蜜客 戶(hù)端模塊208是經(jīng)配置以模擬web瀏覽器的行為從而以正邀請(qǐng)存儲(chǔ)于所訪問(wèn)的頁(yè)面內(nèi)的惡 意代碼的方式訪問(wèn)網(wǎng)站的軟件過(guò)程。蜂蜜客戶(hù)端模塊208可訪問(wèn)網(wǎng)站并追蹤所述網(wǎng)站的行 為且將內(nèi)容下載回到URL/內(nèi)容數(shù)據(jù)庫(kù)180以供進(jìn)一步分析。數(shù)據(jù)庫(kù)管理收集模塊190還可包含第三方供應(yīng)者模塊212,第三方供應(yīng)者模塊212 經(jīng)配置以從第三方接收URL及相關(guān)聯(lián)內(nèi)容。舉例來(lái)說(shuō),第三方模塊212可經(jīng)配置以提供可 由一般公眾存取的網(wǎng)站。所述模塊可經(jīng)配置以接收輸入U(xiǎn)RL串,接著可將所述輸入U(xiǎn)RL串 鍵入到URL/內(nèi)容數(shù)據(jù)庫(kù)180中。在某些實(shí)施例中,所述第三方模塊還可經(jīng)配置以從專(zhuān)用或 公用郵遞列表接收電子郵件且識(shí)別嵌入所述電子郵件內(nèi)的任何URL數(shù)據(jù)以供存儲(chǔ)在URL/ 內(nèi)容數(shù)據(jù)庫(kù)180中。數(shù)據(jù)庫(kù)管理收集模塊190還可包含網(wǎng)關(guān)服務(wù)器存取模塊210。所述網(wǎng)關(guān)服務(wù)器存 取模塊是可經(jīng)配置以規(guī)律地存取網(wǎng)關(guān)服務(wù)器模塊120上的登錄數(shù)據(jù)庫(kù)144以下載/上載由 登錄數(shù)據(jù)庫(kù)144識(shí)別的所有新未經(jīng)歸類(lèi)的web內(nèi)容的軟件組件或程序?,F(xiàn)在再參照?qǐng)D8,收集系統(tǒng)182還可包含數(shù)據(jù)挖掘模塊192。數(shù)據(jù)挖掘模塊192可 用于獲得關(guān)于存儲(chǔ)于數(shù)據(jù)庫(kù)管理模塊的URL/內(nèi)容數(shù)據(jù)庫(kù)180中的URL的額外數(shù)據(jù)。在許多情形下,由收集源194供應(yīng)給數(shù)據(jù)庫(kù)管理收集模塊190及URL/內(nèi)容數(shù)據(jù)庫(kù)180的信息僅 限定為URL串。因此,為使所述系統(tǒng)有效地將所述URL內(nèi)的內(nèi)容歸類(lèi),可能需要更多數(shù)據(jù)。 舉例來(lái)說(shuō),可需要檢驗(yàn)實(shí)際頁(yè)面內(nèi)容以確定是否存在嵌入U(xiǎn)RL內(nèi)的危險(xiǎn)內(nèi)容。數(shù)據(jù)挖掘模 塊192用于收集關(guān)于URL的此額外必需數(shù)據(jù)且將在下文中更詳細(xì)地加以論述。圖10提供蜂蜜客戶(hù)端系統(tǒng)208的更詳細(xì)視圖。蜂蜜客戶(hù)端系統(tǒng)208包含控制服 務(wù)器220??刂品?wù)器220用于控制多個(gè)蜂蜜挖掘器222,蜂蜜挖掘器222經(jīng)配置以訪問(wèn)網(wǎng) 站且模擬人類(lèi)瀏覽器行為以試圖檢測(cè)所述網(wǎng)站上的惡意代碼。蜂蜜挖掘器222可以是被動(dòng) 蜂蜜挖掘器或主動(dòng)蜂蜜挖掘器。被動(dòng)蜂蜜挖掘器類(lèi)似于以上所描述的webcrawler搜索程 序。然而,與以上僅訪問(wèn)網(wǎng)站且報(bào)告可從所述站點(diǎn)獲得的URL鏈接的webcrawler搜索程序 不同,被動(dòng)蜂蜜挖掘器可經(jīng)配置以下載頁(yè)面內(nèi)容且將其返回給控制服務(wù)器220以供插入到 URL數(shù)據(jù)庫(kù)180中。蜂蜜挖掘器222可以是單一機(jī)器上的軟件模塊,或替代地,其可各自實(shí) 施在單獨(dú)的計(jì)算裝置上。

在一個(gè)實(shí)施例中,每一控制服務(wù)器可控制17個(gè)被動(dòng)蜂蜜挖掘器222??刂品?wù)器 220可從URL數(shù)據(jù)庫(kù)180提取或接收需要額外信息以被全面地分析或歸類(lèi)的URL??刂品?務(wù)器220將所述URL提供給所述挖掘器,所述挖掘器又審查所述URL且存儲(chǔ)所收集的數(shù)據(jù)。 當(dāng)被動(dòng)挖掘器222完成特定URL時(shí),其可從其控制服務(wù)器222請(qǐng)求另一 URL。在某些實(shí)施例 中,挖掘器222可經(jīng)配置以跟蹤URL內(nèi)容上的鏈接以使得除訪問(wèn)由控制服務(wù)器220規(guī)定的 URL以外,所述挖掘器還可訪問(wèn)鏈接到那些URL的內(nèi)容。在某些實(shí)施例中,挖掘器222可經(jīng) 配置以相對(duì)于每一原始URL挖掘到規(guī)定深度。舉例來(lái)說(shuō),挖掘器222可經(jīng)配置以在從控制 服務(wù)器220請(qǐng)求新URL數(shù)據(jù)之前向下挖掘穿過(guò)四個(gè)web內(nèi)容層。在其它實(shí)施例中,控制服務(wù)器220可經(jīng)配置以控制主動(dòng)蜂蜜挖掘器222。與僅訪 問(wèn)網(wǎng)站且存儲(chǔ)所述站點(diǎn)上所呈現(xiàn)的內(nèi)容的被動(dòng)蜂蜜挖掘器相反,主動(dòng)蜂蜜挖掘器222可經(jīng) 配置以訪問(wèn)URL并運(yùn)行或執(zhí)行在所述站點(diǎn)上識(shí)別的內(nèi)容。在某些實(shí)施例中,主動(dòng)蜂蜜挖掘 器222包含實(shí)際web瀏覽軟件,所述web瀏覽軟件經(jīng)配置以訪問(wèn)網(wǎng)站且經(jīng)由所述瀏覽器軟 件存取所述網(wǎng)站上的內(nèi)容??刂品?wù)器220 (或蜂蜜挖掘器本身222)可經(jīng)配置以在蜂蜜挖 掘器222執(zhí)行其訪問(wèn)的網(wǎng)站上的內(nèi)容時(shí)監(jiān)視其特性。在一個(gè)實(shí)施例中,控制服務(wù)器220將 記錄由所述蜂蜜挖掘器因執(zhí)行所訪問(wèn)的網(wǎng)站上的應(yīng)用程序或內(nèi)容而訪問(wèn)的URL。因此,主動(dòng) 蜂蜜挖掘器222可提供用以更精確地追蹤系統(tǒng)行為的方式且發(fā)現(xiàn)先前未經(jīng)識(shí)別的利用。由 于所述主動(dòng)蜂蜜挖掘器將其自身暴露于可執(zhí)行內(nèi)容的危險(xiǎn)中,因此在某些實(shí)施例中,主動(dòng) 蜂蜜挖掘器222可位于沙箱環(huán)境內(nèi),所述沙箱環(huán)境提供供客戶(hù)程序在其中運(yùn)行的受緊密控 制的資源組以保護(hù)其它計(jì)算機(jī)免遭可能由惡意內(nèi)容造成的損壞。在某些實(shí)施例中,所述沙 箱可采取仿真操作系統(tǒng)的虛擬機(jī)器的形式。在其它實(shí)施例中,所述沙箱可采取與網(wǎng)絡(luò)隔離 的實(shí)際系統(tǒng)的形式??赏ㄟ^(guò)實(shí)時(shí)地追蹤對(duì)所述沙箱機(jī)器上的文件系統(tǒng)做出的改變來(lái)檢測(cè)異 常行為。在某些實(shí)施例中,由主動(dòng)蜂蜜挖掘器222執(zhí)行的代碼可致使所述挖掘器正在其上 運(yùn)行的機(jī)器由于嵌入網(wǎng)頁(yè)內(nèi)容中的惡意代碼而變得不可操作。為解決此問(wèn)題,所述控制服 務(wù)器可控制替換挖掘器,所述替換挖掘器可介入以完成在挖掘過(guò)程期間損壞的蜂蜜挖掘器 222的工作?,F(xiàn)在參照?qǐng)D11,提供已由收集系統(tǒng)收集的一組URL相關(guān)數(shù)據(jù)的實(shí)例。雖然提供了 所收集的數(shù)據(jù)的特定實(shí)例,但所屬領(lǐng)域的技術(shù)人員應(yīng)了解除此實(shí)例中所提供的數(shù)據(jù)以外還可收集其它數(shù)據(jù)。包含在所收集的數(shù)據(jù)中的是URL的IP地址230。IP地址230可用于識(shí)別 在同一 IP地址下或在同一服務(wù)器上托管多個(gè)有疑問(wèn)的內(nèi)容域的網(wǎng)站。因此,如果具有惡意 內(nèi)容的URL被識(shí)別為來(lái)自特定IP地址,則可挖掘URL/內(nèi)容數(shù)據(jù)庫(kù)180中的數(shù)據(jù)的剩余部 分以取得具有同一 IP地址的其它URL以選擇所述其它URL且更仔細(xì)地對(duì)其進(jìn)行分析。所 收集的URL數(shù)據(jù)還可包含由圖11中的第二列指示的URL
232。在其中所述數(shù)據(jù)是使用挖掘過(guò)程(例如以上所描述的蜂蜜客戶(hù)端過(guò)程)收 集的情形下,URL 232通常可包含來(lái)自同一 web域的各種頁(yè)面,因?yàn)橥诰蚱骺赡芤呀?jīng)配置以 爬行穿過(guò)網(wǎng)站中的鏈接。所收集的數(shù)據(jù)還可包含特定URL的頁(yè)面內(nèi)容234。由于URL的內(nèi) 容可呈圖形、文本、應(yīng)用程序及/或其它內(nèi)容的形式,因此在某些實(shí)施例中,存儲(chǔ)此URL數(shù)據(jù) 的數(shù)據(jù)庫(kù)可經(jīng)配置以將所述頁(yè)面內(nèi)容作為二進(jìn)制大對(duì)象(blob)或應(yīng)用程序?qū)ο蠖鎯?chǔ)于 數(shù)據(jù)紀(jì)錄中。然而,由于某些網(wǎng)頁(yè)僅含有文本,因此也可將頁(yè)面內(nèi)容234作為文本來(lái)存儲(chǔ)。 在某些實(shí)施例中,收集例程可經(jīng)配置以確定URL是否含有可執(zhí)行內(nèi)容。在這些情形下,所產(chǎn) 生的收集數(shù)據(jù)的數(shù)據(jù)集可包含URL在其頁(yè)面代碼內(nèi)是否具有可執(zhí)行內(nèi)容236的指示。此信 息稍后可用于從URL/內(nèi)容數(shù)據(jù)庫(kù)180選擇數(shù)據(jù)作為用于分析的候選數(shù)據(jù)中。圖12是圖解說(shuō)明來(lái)自圖7的計(jì)分及歸類(lèi)系統(tǒng)186的框圖。在一個(gè)實(shí)施例中,計(jì)分 及歸類(lèi)系統(tǒng)186包含特性數(shù)據(jù)庫(kù)320、經(jīng)處理的網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324、定義數(shù)據(jù)庫(kù)326、靜態(tài) 內(nèi)容分類(lèi)模塊328、內(nèi)容計(jì)分模塊330及信譽(yù)計(jì)分模塊331。在一個(gè)實(shí)施例中,計(jì)分及歸類(lèi) 系統(tǒng)186包含活動(dòng)分析模塊332。內(nèi)容分析模塊332從URL數(shù)據(jù)庫(kù)180接收一個(gè)或一個(gè)以 上候選URL且從特性數(shù)據(jù)庫(kù)320識(shí)別被發(fā)現(xiàn)與每一候選URL相關(guān)聯(lián)的特性。將每一 URL的 特性的值及/或計(jì)數(shù)存儲(chǔ)于經(jīng)處理的網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324中。靜態(tài)內(nèi)容分類(lèi)模塊328基于 來(lái)自定義數(shù)據(jù)庫(kù)326的定義而查詢(xún)經(jīng)處理的網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324以使類(lèi)別與候選URL相關(guān) 聯(lián)。內(nèi)容計(jì)分模塊330可進(jìn)一步使可用于進(jìn)一步歸類(lèi)或改變由靜態(tài)內(nèi)容分類(lèi)模塊328識(shí)別 的類(lèi)別的得分與每一 URL相關(guān)聯(lián)。在一個(gè)實(shí)施例中,內(nèi)容計(jì)分模塊330可識(shí)別由活動(dòng)分析 模塊332處理的候選URL?;顒?dòng)分析模塊332下載并執(zhí)行任何活動(dòng)內(nèi)容以識(shí)別與URL相關(guān) 聯(lián)的行為特性。接著,可將這些特性提供給所述內(nèi)容計(jì)分模塊以進(jìn)一步將候選URL歸類(lèi),例 如,改變其類(lèi)別或添加額外類(lèi)別。舉例來(lái)說(shuō),由內(nèi)容分析模塊322處理的URL可接收“惡意”類(lèi)別。內(nèi)容計(jì)分模塊330 可接著使指示URL不是惡意的得分(例如低得分)與所述URL相關(guān)聯(lián)。為加以解決,內(nèi)容 計(jì)分模塊330可將所述URL作為候選URL提供給活動(dòng)分析模塊332以識(shí)別可由內(nèi)容計(jì)分模 塊330使用以確定所述“惡意”類(lèi)別是否適當(dāng)?shù)倪M(jìn)一步特性或行為得分。特性數(shù)據(jù)庫(kù)320包含關(guān)鍵字、正則表達(dá)式及可用于將網(wǎng)頁(yè)歸類(lèi)的其它網(wǎng)頁(yè)特性。 特性還可以是與網(wǎng)頁(yè)相關(guān)聯(lián)的值,例如與網(wǎng)頁(yè)相關(guān)聯(lián)的HTTP請(qǐng)求標(biāo)題數(shù)據(jù)或其它元數(shù)據(jù)。 舉例來(lái)說(shuō),特性可包含將在文檔中識(shí)別的關(guān)鍵字(例如“<扭^%1^ 0”、“<013知(^>”)、例 如“data = · *\· txt"(例如,關(guān)鍵字“data =”之后是其后跟隨有“.txt”的任意長(zhǎng)度串) 的正則表達(dá)式或來(lái)自所述HTTP標(biāo)題的數(shù)據(jù)的content-type。圖13A是包含特性及識(shí)別特 性的類(lèi)型(例如,關(guān)鍵字或正則表達(dá)式)的額外字段的特性數(shù)據(jù)庫(kù)的實(shí)例。在說(shuō)明性數(shù)據(jù) 庫(kù)中,特性ID字段用于提供用于每一特性的唯一(在所述數(shù)據(jù)庫(kù)內(nèi))識(shí)別符。在其它實(shí)施 例中,可使用其它適合類(lèi)型的關(guān)鍵字。在一個(gè)實(shí)施例中,內(nèi)容分析模塊332從URL數(shù)據(jù)庫(kù)180接收已由收集系統(tǒng)182識(shí)別的候選URL。所述內(nèi)容分析模塊接收與所述URL相關(guān)聯(lián)的內(nèi)容及其它數(shù)據(jù)(例如HTTP標(biāo) 題)并識(shí)別特性數(shù)據(jù)庫(kù)320中與候選網(wǎng)頁(yè)相關(guān)聯(lián)的特性中的一者或一者以上且將與那些特 性相關(guān)的數(shù)據(jù)存儲(chǔ)于經(jīng)處理的網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324中。內(nèi)容分析模塊322可從所述URL數(shù) 據(jù)庫(kù)接收候選網(wǎng)頁(yè)的內(nèi)容或其本身可下載所述數(shù)據(jù)。在一個(gè)實(shí)施例中,蜂蜜客戶(hù)端模塊208 獲得每一候選網(wǎng)頁(yè)的內(nèi)容并將其存儲(chǔ)于所述URL數(shù)據(jù)庫(kù)中。在另一實(shí)施例中,內(nèi)容分析模 塊322下載所述候選網(wǎng)頁(yè)的內(nèi)容作為處理所述網(wǎng)頁(yè)以取得特性的一部分。
大體來(lái)說(shuō),特性數(shù)據(jù)庫(kù)320存儲(chǔ)所述特性及充足信息以識(shí)別與網(wǎng)頁(yè)相關(guān)聯(lián)的特 性。舉例來(lái)說(shuō),針對(duì)關(guān)鍵字或正則表達(dá)式特性,特性數(shù)據(jù)庫(kù)320可存儲(chǔ)所述關(guān)鍵字或正則表 達(dá)式。相反,經(jīng)處理的網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324可存儲(chǔ)由內(nèi)容分析模塊322發(fā)現(xiàn)與每一網(wǎng)頁(yè)相 關(guān)聯(lián)的關(guān)鍵字或正則表達(dá)式的計(jì)數(shù)。對(duì)于正則表達(dá)式,取決于實(shí)施例,可將匹配表達(dá)式的計(jì) 數(shù)或所述匹配表達(dá)式本身或兩者存儲(chǔ)于經(jīng)處理的網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324中。舉例來(lái)說(shuō),對(duì)于 特定網(wǎng)頁(yè),經(jīng)處理的網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324可參照特性“〈javascript〉”在頁(yè)面中出現(xiàn)的次數(shù) 存儲(chǔ)值3、針對(duì)特性“〈object〉”出現(xiàn)的次數(shù)存儲(chǔ)0且針對(duì)正則表達(dá)式特性“data = . txt.,,存儲(chǔ)"data = http://www. example, url/example, txt. ”。圖13B圖解說(shuō)明經(jīng)處理的網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324中的表的一個(gè)實(shí)施例,其中已相對(duì) 于數(shù)個(gè)網(wǎng)頁(yè)處理了圖13A的實(shí)例性特性。在所圖解說(shuō)明的實(shí)施例中,所述數(shù)據(jù)庫(kù)包含兩個(gè) 表,一個(gè)使URL與唯一(在所述數(shù)據(jù)庫(kù)內(nèi))識(shí)別符相關(guān)且第二個(gè)使所述URL識(shí)別符和與所 述URL相關(guān)聯(lián)的特性相關(guān)。在所圖解說(shuō)明的實(shí)施例中,所述表包含用于與所述URL相關(guān)聯(lián) 的web內(nèi)容數(shù)據(jù)的每一特性的條目或行。在一個(gè)實(shí)施例中,所述數(shù)據(jù)庫(kù)還包含對(duì)應(yīng)于關(guān)鍵 字特性的每一特性/URL的數(shù)值以指示在網(wǎng)頁(yè)中發(fā)現(xiàn)所述特定特性的次數(shù)。數(shù)據(jù)庫(kù)(舉例 來(lái)說(shuō),在所述URL/特性表中)還可包含匹配URL的正則表達(dá)式特性的實(shí)際表達(dá)式。在一個(gè) 實(shí)施例中,可在頁(yè)體中及在標(biāo)題或其它元數(shù)據(jù)中搜索關(guān)鍵字特性。在一個(gè)實(shí)施例中,僅搜索 所述頁(yè)體。在又一實(shí)施例中,特性(例如,在特性數(shù)據(jù)庫(kù)320中)可與指示在識(shí)別網(wǎng)頁(yè)中的 特性中處理何種數(shù)據(jù)的數(shù)據(jù)相關(guān)聯(lián)。在一個(gè)實(shí)施例中,靜態(tài)內(nèi)容分類(lèi)模塊328存取網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324并將一個(gè)或一 個(gè)以上網(wǎng)頁(yè)的特性與來(lái)自定義數(shù)據(jù)庫(kù)326的定義相比較。當(dāng)網(wǎng)頁(yè)匹配特定定義時(shí),用與所 述定義相關(guān)聯(lián)的一個(gè)或一個(gè)以上類(lèi)別識(shí)別所述網(wǎng)頁(yè)。在一個(gè)實(shí)施例中,將這些類(lèi)別存儲(chǔ)于 與URL相關(guān)聯(lián)的URL數(shù)據(jù)庫(kù)中。在一個(gè)實(shí)施例中,針對(duì)網(wǎng)頁(yè)的一個(gè)或一個(gè)以上特性表達(dá)每 一定義。在一個(gè)實(shí)施例中,將定義表達(dá)為與特性中的一者或一者以上相關(guān)的第一級(jí)邏輯操 作。在一個(gè)實(shí)施例中,定義的項(xiàng)由網(wǎng)頁(yè)特性之間或特性與值(包含恒定值)之間的比較構(gòu) 成。舉例來(lái)說(shuō),定義可包含例如“property_l” = "property 2” “與” property_3 > 5的 事件的表達(dá)式。除比較以外,項(xiàng)還可包含對(duì)網(wǎng)頁(yè)特性的其它操作,例如數(shù)學(xué)、串或任何其它 適合計(jì)算表達(dá)式。舉例來(lái)說(shuō),簡(jiǎn)單定義可以是“data =,*\. txt” ="data = xyx333. txt", 其與具有串‘‘data = xyx333. txt”(其匹配正則表達(dá)式特性“data =,*\· txt”)作為其內(nèi) 容的一部分的任何網(wǎng)頁(yè)匹配。更復(fù)雜的定義可包括對(duì)項(xiàng)的邏輯操作。此類(lèi)邏輯操作可包 含“與”、“或”、“非”、“異或”、“如果_則_否則”或?qū)μ匦缘恼齽t表達(dá)式匹配。在一個(gè)實(shí)施 例中,所述定義還可包含或?qū)?yīng)于數(shù)據(jù)庫(kù)查詢(xún)表達(dá)式,例如標(biāo)準(zhǔn)SQL數(shù)據(jù)庫(kù)比較函數(shù)及邏 輯操作。在一個(gè)實(shí)施例中,定義可包含可執(zhí)行代碼,例如腳本或?qū)蓤?zhí)行程序或至少部分地 確定URL的分類(lèi)的腳本的參考。圖13C圖解說(shuō)明根據(jù)一個(gè)實(shí)施例的定義數(shù)據(jù)庫(kù)326的實(shí)例性部分。如本文中所使用,類(lèi)別可指代任何類(lèi)型的分類(lèi)。舉例來(lái)說(shuō),類(lèi)別可僅是指示應(yīng)針對(duì) URL執(zhí)行進(jìn)一步處理或分析以識(shí)別所述URL的類(lèi)別的分類(lèi)。在一個(gè)實(shí)施例中,內(nèi)容計(jì)分模塊330進(jìn)一步分析網(wǎng)頁(yè)并給所述網(wǎng)頁(yè)指派與一個(gè)或 一個(gè)以上類(lèi)別相關(guān)聯(lián)的得分。在一個(gè)實(shí)施例中,所述得分可基于在所述網(wǎng)頁(yè)中找到關(guān)鍵字 的次數(shù)的加權(quán)組合。在一個(gè)實(shí)施例中,將權(quán)重存儲(chǔ)于與對(duì)應(yīng)特性相關(guān)聯(lián)的特性數(shù)據(jù)庫(kù)中。在 一個(gè)實(shí)施例中,內(nèi)容計(jì)分模塊330將此類(lèi)URL傳送到活動(dòng)分析模塊332以供額外分析。
在一個(gè)實(shí)施例中,內(nèi)容計(jì)分模塊330使所述得分至少部分地基于由信譽(yù)計(jì)分模塊 331產(chǎn)生的信譽(yù)得分。在一個(gè)實(shí)施例中,信譽(yù)計(jì)分模塊331可經(jīng)配置以基于URL的信息(包 含URL分量,例如,URL方案(例如,“http: ”)、主機(jī)(例如,www. uspto. gov)、路徑(例如, “index, html”)、查詢(xún)(例如“?”之后的部分)及片段(“# ”之后的部分))使得分與所述 URL相關(guān)聯(lián)。信譽(yù)計(jì)分模塊331可基于以下關(guān)于網(wǎng)頁(yè)的URL的信息(例如,計(jì)分準(zhǔn)則)產(chǎn) 生得分例如,URL內(nèi)容串中的一者或一者以上;與URL相關(guān)聯(lián)的地理位置數(shù)據(jù)(例如,URL 主機(jī)或主機(jī)域);提供URL主機(jī)的IP地址或其域的名稱(chēng)服務(wù)器;與URL主機(jī)地址或其域相 關(guān)聯(lián)的IP地址的網(wǎng)絡(luò)或塊;先前參照主機(jī)、主機(jī)的域或URL路徑識(shí)別的活動(dòng)內(nèi)容;與URL主 機(jī)的IP地址相關(guān)聯(lián)的歷史數(shù)據(jù);與URL主機(jī)的注冊(cè)相關(guān)聯(lián)的創(chuàng)建日期或到期日期;是否存 在對(duì)URL或URL主機(jī)的搜索引擎結(jié)果;與URL相關(guān)聯(lián)的證書(shū)細(xì)節(jié)(例如,用于安全(例如 HTTP)存取方案);和與URL主機(jī)相關(guān)聯(lián)的其它URL (例如,在URL數(shù)據(jù)庫(kù)180或經(jīng)處理的網(wǎng) 頁(yè)特性數(shù)據(jù)庫(kù)324)相關(guān)聯(lián)的元標(biāo)記類(lèi)別;與所述URL主機(jī)的其它URL(例如,在URL數(shù)據(jù) 庫(kù)180中)相關(guān)聯(lián)的類(lèi)別;與URL的內(nèi)容相關(guān)聯(lián)的指紋(例如,摘要或散列)供與先前經(jīng)歸 類(lèi)的URL的此數(shù)據(jù)相比較(且取決于具有相同指紋的URL是否具有目標(biāo)內(nèi)容而產(chǎn)生信譽(yù)數(shù) 據(jù));及基于站點(diǎn)(主機(jī)或域)存取統(tǒng)計(jì)的計(jì)分(例如,針對(duì)經(jīng)頻繁訪問(wèn)的站點(diǎn)比針對(duì)未經(jīng) 頻繁訪問(wèn)的站點(diǎn)產(chǎn)生更高的信譽(yù)得分,因?yàn)榻?jīng)頻繁訪問(wèn)的站點(diǎn)(對(duì)于不具有目標(biāo)內(nèi)容的其 它URL)較不可能具有新訪問(wèn)的URL中的目標(biāo)內(nèi)容)。在一個(gè)實(shí)施例中,信譽(yù)計(jì)分模塊331 可產(chǎn)生包括一個(gè)或一個(gè)以上此準(zhǔn)則的加權(quán)平均值的得分。已發(fā)現(xiàn)具有目標(biāo)內(nèi)容的URL較可能包含不符合字形成規(guī)則的機(jī)器產(chǎn)生的隨機(jī)或 其它串,以避免此內(nèi)容因包含已知(信譽(yù)不好)URL串而被容易地識(shí)別。因此,在一個(gè)實(shí)施例 中,信譽(yù)計(jì)分模塊331將URL串與字典字或與字形成規(guī)則相比較且基于此比較產(chǎn)生至少部 分得分。除掃描關(guān)鍵字以外,還可將URL串(子串)與來(lái)自字典的字相比較(或者,更一般 來(lái)說(shuō),一個(gè)或一個(gè)以上字的并置)以幫助確定所述URL串是否包含字或看似是隨機(jī)的機(jī)器 產(chǎn)生的、包含逸出(例如,%逸出)字符序列或包含長(zhǎng)無(wú)意義串(例如,www. XXXXXXxxxxx xxxxxxyyyyyyyyyyyyyyzzzzzzzzzzzzzzzzzzzzzzzz. com)。在一個(gè)實(shí)施例中,可使用用于一 種或一種以上語(yǔ)言的字典。字形成規(guī)則可以是與特定語(yǔ)言中的字相關(guān)聯(lián)的任一組規(guī)則。舉 例來(lái)說(shuō),在一個(gè)實(shí)施例中,簡(jiǎn)單字形成規(guī)則可識(shí)別在長(zhǎng)度上超出規(guī)定閾值(例如,四)的輔 音或元音串不可能是字。還可使用基于URL串中不可能的字母組合(例如,英語(yǔ)中的xqv) 而產(chǎn)生得分的更精密的字形成規(guī)則。舉例來(lái)說(shuō),在一個(gè)實(shí)施例中,可針對(duì)URL的一個(gè)或一個(gè) 以上分量、所述URL及/或所述URL的內(nèi)容計(jì)算信息內(nèi)容的適合信息理論度量(例如,信息 熵)。由于含有隨機(jī)信息的串往往具有較高熵度量,因此可通過(guò)基于熵對(duì)URL進(jìn)行計(jì)分或通 過(guò)將與URL(URL分量、URL串及/或URL的內(nèi)容)相關(guān)聯(lián)的數(shù)據(jù)的熵、或相對(duì)于長(zhǎng)度的熵與 閾值相比較來(lái)識(shí)別與所述URL相關(guān)聯(lián)的經(jīng)隨機(jī)產(chǎn)生的數(shù)據(jù)。
已發(fā)現(xiàn),所述計(jì)分準(zhǔn)則的某些組合對(duì)于識(shí)別活動(dòng)或其它目標(biāo)內(nèi)容尤其有用,因?yàn)?(舉例來(lái)說(shuō))所述組準(zhǔn)則涵蓋目標(biāo)活動(dòng)內(nèi)容可經(jīng)產(chǎn)生以避免檢測(cè)的若干不同方式。因此, 在一個(gè)實(shí)例性實(shí)施例中,URL得分組合包含熵得分、基于與所述URL相關(guān)聯(lián)的歷史數(shù)據(jù)的得 分、與所述URL相關(guān)聯(lián)的搜索結(jié)果及與所述URL的IP地址相關(guān)聯(lián)的歷史數(shù)據(jù)的計(jì)分準(zhǔn)則。在一個(gè)實(shí)施例中,信譽(yù)計(jì)分模塊331基于因特網(wǎng)地址及/或域名的數(shù)據(jù)庫(kù)產(chǎn)生得 分。信譽(yù)計(jì)分模塊331可將得分指派給整個(gè)子網(wǎng)絡(luò)(例如,匹配128. 2. *. *的所有地址均 可具有特定得分)。此網(wǎng)絡(luò)或子網(wǎng)絡(luò)幫助識(shí)別建立于特定國(guó)家中或具有特定服務(wù)提供商的 網(wǎng)站。已發(fā)現(xiàn)此在計(jì)分中為有用的,因?yàn)槟承﹪?guó)家及服務(wù)提供商由于不同的法律或法律的 松懈執(zhí)行而與某些類(lèi)型的web內(nèi)容相關(guān)。網(wǎng)絡(luò)或子網(wǎng)絡(luò)的計(jì)分系統(tǒng)可基于特定網(wǎng)絡(luò)或域中 具有特定類(lèi)別的URL的相對(duì)數(shù)量。舉例來(lái)說(shuō),如果URL數(shù)據(jù)庫(kù)180中用于特定網(wǎng)絡(luò)的URL 的95%被分類(lèi)為具有惡意活動(dòng)內(nèi)容,則可賦予新URL指示參考同一網(wǎng)絡(luò)中的服務(wù)器的其它 URL也可能具有此目標(biāo)內(nèi)容的可能性的得分。
在實(shí)施例中,信譽(yù)計(jì)分模塊331基于關(guān)于站點(diǎn)(例如,URL主機(jī)的域名)的注冊(cè)的 信息產(chǎn)生信譽(yù)的指示符(例如信譽(yù))。此注冊(cè)信息可包含(舉例來(lái)說(shuō))注冊(cè)的身份、注冊(cè) 者(包含注冊(cè)者的地址及聯(lián)系信息)、何時(shí)創(chuàng)建注冊(cè)紀(jì)錄、何時(shí)最后一次更新注冊(cè)紀(jì)錄、注 冊(cè)紀(jì)錄何時(shí)到期及包含WHOIS協(xié)議(例如,因特網(wǎng)工程任務(wù)組(IETF) RFC-3912)所提供的 數(shù)據(jù)的任何其它注冊(cè)數(shù)據(jù)。信譽(yù)計(jì)分模塊331可包含URL數(shù)據(jù)庫(kù)180中的URL的至少一部分的注冊(cè)數(shù)據(jù)的改 變的數(shù)據(jù)庫(kù)。與URL相關(guān)聯(lián)的注冊(cè)數(shù)據(jù)的改變的頻率或近況可用于至少部分地產(chǎn)生信譽(yù)得 分??芍辽俨糠值赝ㄟ^(guò)將與URL相關(guān)聯(lián)的注冊(cè)數(shù)據(jù)的至少一部分與先前經(jīng)歸類(lèi)的URL的注 冊(cè)數(shù)據(jù)相比較來(lái)產(chǎn)生所述URL的信譽(yù)得分。目標(biāo)內(nèi)容的主機(jī)可試圖通過(guò)使用多個(gè)主機(jī)及域名且通過(guò)頻繁地改變與域相關(guān)聯(lián) 的IP地址而混淆或隱藏其內(nèi)容以遠(yuǎn)離過(guò)濾器。信譽(yù)計(jì)分模塊331可基于名稱(chēng)服務(wù)器的信 譽(yù)產(chǎn)生信譽(yù)指示符數(shù)據(jù)或得分,所述名稱(chēng)服務(wù)器對(duì)于與所述名稱(chēng)服務(wù)器相關(guān)聯(lián)的多個(gè)主機(jī) 及域是共用的。舉例來(lái)說(shuō),信譽(yù)計(jì)分模塊331可包含名稱(chēng)服務(wù)器(提供域名系統(tǒng)(DNS)服 務(wù)以將因特網(wǎng)主機(jī)名稱(chēng)翻譯為IP地址的服務(wù)器)的數(shù)據(jù)庫(kù)。一般來(lái)說(shuō),特定服務(wù)器提供用 于特定域的DNS服務(wù)。因此,如果用于URL主機(jī)的名稱(chēng)服務(wù)器是用于先前已被歸類(lèi)或用目 標(biāo)內(nèi)容識(shí)別的其它主機(jī)的名稱(chēng)服務(wù)器,則信譽(yù)計(jì)分模塊331可在為未經(jīng)歸類(lèi)的URL產(chǎn)生信 譽(yù)得分時(shí)利用此信息。舉例來(lái)說(shuō),如果名稱(chēng)服務(wù)器與目標(biāo)內(nèi)容相關(guān)聯(lián),則未經(jīng)歸類(lèi)的URL的 信譽(yù)得分可為低。信譽(yù)計(jì)分模塊331還可維持主機(jī)到IP地址的數(shù)據(jù)庫(kù)且利用所述數(shù)據(jù)庫(kù) 以基于所述IP地址針對(duì)特定主機(jī)或域改變的頻率產(chǎn)生得分。在一個(gè)實(shí)施例中,用例如惡意的類(lèi)別識(shí)別具有高于閾值的得分的URL,不論通過(guò)對(duì) 網(wǎng)頁(yè)的內(nèi)容分析而識(shí)別的類(lèi)別如何或除通過(guò)對(duì)網(wǎng)頁(yè)的內(nèi)容分析而識(shí)別的類(lèi)別以外。在一個(gè) 實(shí)施例中,將與不同類(lèi)別相關(guān)聯(lián)的多個(gè)得分指派給每一 URL且用所述URL識(shí)別對(duì)應(yīng)于高于 給定閾值的每一得分的類(lèi)別。在一個(gè)實(shí)施例中,采用多個(gè)閾值。舉例來(lái)說(shuō),具有高于一個(gè)閾 值的得分的URL基于所述得分而被自動(dòng)地分類(lèi)。在一個(gè)實(shí)施例中,將具有低于第一閾值而 高于第二閾值的的得分的URL傳送給人類(lèi)分析員以供分類(lèi)。一個(gè)實(shí)施例可包含標(biāo)題為“用于控制對(duì)因特網(wǎng)站點(diǎn)存取的系統(tǒng)及方法”的第 6,606,659號(hào)美國(guó)專(zhuān)利中所圖解說(shuō)明的計(jì)分及歸類(lèi)系統(tǒng),所述文檔以全文引用的方式并入本文中。在一個(gè)實(shí)施例中,活動(dòng)分析模塊332執(zhí)行網(wǎng)頁(yè)的活動(dòng)內(nèi)容以識(shí)別其行為特性。接 著可使用這些特性來(lái)對(duì)所述網(wǎng)頁(yè)進(jìn)行計(jì)分及分類(lèi)。在一個(gè)實(shí)施例中,靜態(tài)內(nèi)容分類(lèi)模塊 328、信譽(yù)計(jì)分模塊331及內(nèi)容計(jì)分模塊330中的一者或多者識(shí)別由活動(dòng)分析模塊332處理 的URL。在接收候選URL之后,活動(dòng)分析模塊332可將與一個(gè)或一個(gè)以上行為特性(例如, 例如“寫(xiě)入到注冊(cè)表”的特性)相關(guān)聯(lián)的行為得分或數(shù)據(jù)提供給所述內(nèi)容計(jì)分模塊以供進(jìn) 一步歸類(lèi)。圖14是圖解說(shuō)明來(lái)自圖7的培訓(xùn)模塊184的一個(gè)實(shí)施例的框圖。在一個(gè)實(shí)施例 中,所述培訓(xùn)模塊包含分析任務(wù)模塊352,分析任務(wù)模塊352識(shí)別具有例如活動(dòng)內(nèi)容的內(nèi)容 的網(wǎng)頁(yè)或URL,需要所述活動(dòng)內(nèi)容的額外類(lèi)別。在一個(gè)實(shí)施例中,收集模塊190識(shí)別具有活 動(dòng)內(nèi)容的URL。在另一實(shí)施例中,外部源(例如安全研究員)識(shí)別具有已用一個(gè)或一個(gè)以上 類(lèi)別(例如,鍵盤(pán)記錄器、病毒、惡意內(nèi)容、蠕蟲(chóng)等)識(shí)別的活動(dòng)內(nèi)容的特定URL。在一個(gè)實(shí) 施例中,可將這些URL存儲(chǔ)于URL數(shù)據(jù)庫(kù)180中。在一個(gè)實(shí)施例中,任務(wù)模塊352維持此類(lèi) URL的數(shù)據(jù)庫(kù)(未顯示)。在一個(gè)實(shí)施例中,任務(wù)模塊352數(shù)據(jù)庫(kù)維持用于這些URL的優(yōu)先 級(jí)且基于所述優(yōu)先級(jí)將其呈現(xiàn)給分析員。特性識(shí)別模塊354識(shí)別網(wǎng)頁(yè)的特性及基于將所述網(wǎng)頁(yè)歸類(lèi)的那些特性的定義。在 一個(gè)實(shí)施例中,特性識(shí)別模塊354為人類(lèi)分析員提供接口,以使用計(jì)分及分類(lèi)系統(tǒng)186將 特定規(guī)則或定義應(yīng)用于URL。另外,在一個(gè)實(shí)施例中,特性識(shí)別模塊354可為分析員提供接 口,以將所述URL識(shí)別為用于圖10的活動(dòng)分析模塊332的候選者,從而對(duì)所述URL執(zhí)行行 為分析以從活動(dòng)分析模塊332接收回用于將所述URL分類(lèi)的額外數(shù)據(jù)。特性識(shí)別模塊354 可接著將此數(shù)據(jù)提供給所述分析員。在一個(gè)實(shí)施例中,所述分析員分析來(lái)自計(jì)分及分類(lèi)系 統(tǒng)186 (包含活動(dòng)分析模塊332)的URL數(shù)據(jù)以幫助識(shí)別適當(dāng)?shù)貙⑺鯱RL、且在可能時(shí)指代 以類(lèi)似方式分類(lèi)的內(nèi)容的其它URL的特性及定義。在一個(gè)實(shí)施例中,特性識(shí)別模塊354將 這些新識(shí)別的特性及定義提供給數(shù)據(jù)庫(kù)更新模塊356,數(shù)據(jù)庫(kù)更新模塊356將所述新定義 及特性存儲(chǔ)到特性數(shù)據(jù)庫(kù)320及定義數(shù)據(jù)庫(kù)326。圖15是圖解說(shuō)明來(lái)自圖12的活動(dòng)分析模塊332的一個(gè)實(shí)施例的框圖。在一個(gè)實(shí) 施例中,活動(dòng)分析模塊332包含沙箱模塊370,在沙箱模塊370中下載URL且執(zhí)行原本在典 型工作站116上發(fā)生的任何活動(dòng)內(nèi)容。沙箱模塊370透明地監(jiān)視計(jì)算機(jī)的狀態(tài)以識(shí)別影響 (舉例來(lái)說(shuō))大量生產(chǎn)的過(guò)程、網(wǎng)絡(luò)過(guò)程、處理器使用率、存儲(chǔ)器使用率、系統(tǒng)資源的使用、 文件系統(tǒng)存取或修改及注冊(cè)表存取或修改中的一者或一者以上的web內(nèi)容的行為。行為分析模塊372將來(lái)自所述沙箱模塊的受監(jiān)視的動(dòng)作與特征化所述受監(jiān)視的 動(dòng)作的列表、數(shù)據(jù)庫(kù)或規(guī)則相比較。在一個(gè)實(shí)施例中,這些特征界定URL的隨后由圖12的 靜態(tài)內(nèi)容分類(lèi)模塊328分析的特性。在另一實(shí)施例中,活動(dòng)計(jì)分分類(lèi)模塊374可使用與行 為特性相關(guān)聯(lián)的得分來(lái)確定所述URL的得分。在一個(gè)實(shí)施例中,所述得分是這些特性的加 權(quán)得分。此得分可用于將所述URL分類(lèi)或被傳送到內(nèi)容計(jì)分模塊以供分類(lèi)。在另一實(shí)施例 中,規(guī)則或定義(例如,來(lái)自定義數(shù)據(jù)庫(kù)326的那些定義)應(yīng)用于URL (且,在一個(gè)實(shí)施例中, 經(jīng)處理的網(wǎng)頁(yè)特性324)的行為特性以識(shí)別與所述URL相關(guān)聯(lián)的一個(gè)或一個(gè)以上類(lèi)別。在 一個(gè)實(shí)施例中,URL的得分可至少部分地基于所述URL的內(nèi)容內(nèi)的其它URL參考的經(jīng)識(shí)別 的類(lèi)別。舉例來(lái)說(shuō),如果站點(diǎn)未被分類(lèi)而用于所述參考(例如,使用HTML HREF元素)的所有經(jīng)識(shí)別的類(lèi)別是惡意的,則可賦予所述URL指示所述惡意內(nèi)容的得分。使用及操作方法的說(shuō)明取決于實(shí)施例,本文所描述的方法的動(dòng)作或事件可以不同順序來(lái)執(zhí)行、可加以合并或可全部忽略(例如,并非所有動(dòng)作或事件對(duì)于所述方法的實(shí)踐均是必需的),除非本文 另有具體且明確的說(shuō)明。另外,本文所描述的方法可包含額外動(dòng)作或事件,除非本文另有 具體且明確的說(shuō)明此外,除非另有明確說(shuō)明,否則可同時(shí)(例如,通過(guò)中斷處理或多個(gè)處理 器)而非按順序地執(zhí)行動(dòng)作或事件。如上文結(jié)合圖3所論述,在某些實(shí)施例中,網(wǎng)關(guān)服務(wù)器模塊120可經(jīng)配置以基于經(jīng) 歸類(lèi)的URL數(shù)據(jù)庫(kù)146中所存儲(chǔ)的數(shù)據(jù)控制對(duì)某些URL的存取。圖16是描述其中所述網(wǎng) 關(guān)服務(wù)器模塊處置來(lái)自工作站116的請(qǐng)求的實(shí)施例的流程圖。在塊1200處,工作站116向因特網(wǎng)112請(qǐng)求URL。此請(qǐng)求在因特網(wǎng)網(wǎng)關(guān)處被攔截 且在塊1202處被轉(zhuǎn)發(fā)到網(wǎng)關(guān)服務(wù)器模塊120。在塊1204處,查詢(xún)經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù)146 以確定所請(qǐng)求的URL是否存儲(chǔ)于數(shù)據(jù)庫(kù)146中。如果在所述數(shù)據(jù)庫(kù)中發(fā)現(xiàn)所請(qǐng)求的URL的 紀(jì)錄,則過(guò)程繼續(xù)到塊1206,在塊1206中所述過(guò)程分析所述URL紀(jì)錄以確定所述URL的類(lèi) 別是否是應(yīng)針對(duì)所述工作站用戶(hù)阻止的類(lèi)別。如果所述類(lèi)別被阻止,則所述過(guò)程跳躍到塊 1212且阻止所述請(qǐng)求。然而,如果所述類(lèi)別未被阻止,則在塊1208處允許所述請(qǐng)求。如果在塊1204處未在經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù)146中發(fā)現(xiàn)所請(qǐng)求的URL的紀(jì)錄,則系 統(tǒng)繼續(xù)到塊1210。在塊1210處,所述系統(tǒng)確定如何處置未經(jīng)歸類(lèi)的內(nèi)容。在某些實(shí)施例 中,所述系統(tǒng)可利用策略模塊142來(lái)做出此確定。如果網(wǎng)關(guān)服務(wù)器模塊120經(jīng)配置以阻止 對(duì)未經(jīng)歸類(lèi)的內(nèi)容的請(qǐng)求,則所述過(guò)程繼續(xù)到塊1212,且阻止所述請(qǐng)求。另一方面,如果所 述模塊經(jīng)配置以允許這些類(lèi)型的未經(jīng)歸類(lèi)的請(qǐng)求,則所述過(guò)程繼續(xù)到塊1208,在塊1208中 允許所述請(qǐng)求繼續(xù)到因特網(wǎng)112。在某些實(shí)施例中,URL數(shù)據(jù)的請(qǐng)求可導(dǎo)致新紀(jì)錄被添加到登錄數(shù)據(jù)庫(kù)144。稍后可 將這些記錄傳遞到數(shù)據(jù)庫(kù)管理模塊114以供進(jìn)一步分析。現(xiàn)在參照?qǐng)D17,提供描述所述網(wǎng) 關(guān)服務(wù)器模塊可處置URL請(qǐng)求的過(guò)程的另一流程圖。在塊1300處,網(wǎng)關(guān)服務(wù)器模塊120接 收對(duì)URL的請(qǐng)求。如上所述,此請(qǐng)求可來(lái)自工作站116。在塊1302處,接著將所述URL與經(jīng) 歸類(lèi)的URL數(shù)據(jù)庫(kù)146相比較且系統(tǒng)在塊1304處確定所請(qǐng)求的URL是否在所述經(jīng)歸類(lèi)的 URL數(shù)據(jù)庫(kù)中。如果所述URL已在經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù)146中,則過(guò)程跳躍到塊1308。然而,如果 未在經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù)146中發(fā)現(xiàn)所請(qǐng)求的URL,則所述過(guò)程繼續(xù)到塊1306,在塊1306 中將所述URL插入到未經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù)147中。在某些實(shí)施例中,登錄數(shù)據(jù)庫(kù)144與 未經(jīng)歸類(lèi)的URL 147數(shù)據(jù)庫(kù)可為同一數(shù)據(jù)庫(kù)。在將所述URL插入到所述數(shù)據(jù)庫(kù)中之后,所 述方法繼續(xù)到塊1308。在塊1308處,檢查策略數(shù)據(jù)庫(kù)以取得關(guān)于如何處置所接收的URL的 指令。一旦已檢查策略模塊142檢查,則在塊1310處登錄數(shù)據(jù)庫(kù)144經(jīng)更新以記錄已請(qǐng)求 所述URL。如果所述策略數(shù)據(jù)庫(kù)準(zhǔn)許工作站116存取所述URL,則過(guò)程移動(dòng)到塊1314且將 所述URL請(qǐng)求發(fā)送到因特網(wǎng)112。然而,如果所述策略數(shù)據(jù)庫(kù)不準(zhǔn)許所述請(qǐng)求,則所述過(guò)程 跳躍到塊1316且阻止所述請(qǐng)求。在某些實(shí)施例中,網(wǎng)關(guān)服務(wù)器模塊120可執(zhí)行收集活動(dòng)以減少數(shù)據(jù)庫(kù)管理模塊 114的收集系統(tǒng)182的負(fù)擔(dān)。圖18提供其中網(wǎng)關(guān)服務(wù)器收集模塊140用于收集關(guān)于未經(jīng)歸類(lèi)的URL的數(shù)據(jù)的系統(tǒng)的實(shí)例。在塊1400處,所述網(wǎng)關(guān)服務(wù)器模塊接收對(duì)URL的請(qǐng)求。接 下來(lái),在塊1402處,將所請(qǐng)求的URL與所述經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù)相比較。如果在塊1404處 所述系統(tǒng)確定所請(qǐng)求的URL在所述URL數(shù)據(jù)庫(kù)中,則過(guò)程繼續(xù)到塊1410,在塊1410中取決 于所述URL如何被歸類(lèi)而將所述請(qǐng)求轉(zhuǎn)發(fā)到因特網(wǎng)112或阻止所述請(qǐng)求。 如果所請(qǐng)求的URL不在經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù)146中,則過(guò)程移動(dòng)到塊1406,在塊 1406中將所述URL發(fā)送到網(wǎng)關(guān)服務(wù)器收集模塊140。接下來(lái),在塊1408處,收集模塊140收 集關(guān)于所請(qǐng)求的URL的URL數(shù)據(jù)。在某些實(shí)施例中,可將此數(shù)據(jù)存儲(chǔ)于未經(jīng)歸類(lèi)的URL數(shù) 據(jù)庫(kù)147中。或者,可僅經(jīng)由因特網(wǎng)112將此數(shù)據(jù)轉(zhuǎn)發(fā)到數(shù)據(jù)管理模塊114。一旦已收集且 存儲(chǔ)所述數(shù)據(jù),則過(guò)程繼續(xù)到塊1410,在塊1410中基于策略模塊142中所指示的策略允許 或阻止所述URL請(qǐng)求。如先前所論述,可將未經(jīng)歸類(lèi)的URL數(shù)據(jù)從網(wǎng)關(guān)服務(wù)器模塊120發(fā)送到數(shù)據(jù)庫(kù)管 理模塊114以供進(jìn)一步分析以使得可將所述URL歸類(lèi)且添加到經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù)146。 然而,由于未經(jīng)歸類(lèi)的數(shù)據(jù)的量有時(shí)為如此大,因此將所有所接收的數(shù)據(jù)歸類(lèi)而不影響精 確性或速度是不可能的。因此,在某些情形下,可能需要識(shí)別未經(jīng)歸類(lèi)的數(shù)據(jù)內(nèi)最可能向工 作站116及網(wǎng)絡(luò)110呈現(xiàn)威脅的候選URL。圖19提供用于識(shí)別用于進(jìn)一步分析的候選URL的方法的實(shí)例。所述方法以URL 被接收到數(shù)據(jù)庫(kù)模塊114的收集系統(tǒng)182中開(kāi)始。在塊1502處,預(yù)處理所述URL或應(yīng)用程 序以確定其是否攜載已知的惡意數(shù)據(jù)元素或數(shù)據(jù)簽名。接下來(lái),在塊1504處,如果所述系 統(tǒng)確定所述URL包含已知惡意元素,則過(guò)程跳躍到塊1514,在塊1514中將所述URL標(biāo)記為 候選URL且將其發(fā)送到計(jì)分/分類(lèi)系統(tǒng)186以供進(jìn)一步分析。如果塊1504中對(duì)所述URL 的最初分析未揭露惡意元素,則所述過(guò)程移動(dòng)到塊1506,在塊1506中將所述URL添加到潛 在候選URL的數(shù)據(jù)庫(kù)。接下來(lái),在塊1508處,數(shù)據(jù)挖掘模塊192經(jīng)配置以基于預(yù)配置條件 (例如攻擊串、病毒簽名及其類(lèi)似物)從源194 (潛在候選URL的數(shù)據(jù)庫(kù)是源194中的一者) 選擇URL。接著在塊1510處將包含所有數(shù)據(jù)源194的數(shù)據(jù)集發(fā)送到數(shù)據(jù)挖掘模塊192,其 中在塊1512處由數(shù)據(jù)挖掘模塊192分析每一 URL。如果所述URL滿(mǎn)足所界定的預(yù)配置條 件,則所述過(guò)程移動(dòng)到塊1514,在塊1514中將所述URL標(biāo)記為候選URL且繼續(xù)將其發(fā)送到 計(jì)分/分類(lèi)系統(tǒng)186以供額外分析。然而,如果所述URL不滿(mǎn)足規(guī)定用于將其轉(zhuǎn)換為候選 URL的條件,則所述方法繼續(xù)到塊1516且所述URL未被標(biāo)記為候選者。雖然在URL候選分 類(lèi)的上下文中描述此實(shí)施例,但所屬領(lǐng)域的技術(shù)人員將易于了解可使用上文所描述的過(guò)程 以類(lèi)似方式分析應(yīng)用程序且將其標(biāo)記為候選者。如以上所論述,收集及分析因特網(wǎng)數(shù)據(jù)以確定其是否包含有害活動(dòng)內(nèi)容的挑戰(zhàn)中 的一個(gè)挑戰(zhàn)是必須收集及分析的數(shù)據(jù)的絕對(duì)量。在又一實(shí)施例中,數(shù)據(jù)挖掘模塊192可用 于通過(guò)收集大量的相關(guān)數(shù)據(jù)以有效且高效地利用系統(tǒng)資源來(lái)解決這些問(wèn)題。現(xiàn)在參照?qǐng)D 20,提供數(shù)據(jù)挖掘系統(tǒng)192的更詳細(xì)框圖。數(shù)據(jù)挖掘系統(tǒng)192可采取運(yùn)行多個(gè)異步過(guò)程以 實(shí)現(xiàn)最大效率及輸出的軟件模塊。數(shù)據(jù)挖掘系統(tǒng)192可包含插件模塊242,插件模塊242接 收提供關(guān)于應(yīng)如何處置所輸入的數(shù)據(jù)的指令的配置參數(shù)。在一個(gè)實(shí)施例中,由所述插件模 塊接收的指令可采取HTTP協(xié)議插件的形式,其提供供數(shù)據(jù)挖掘系統(tǒng)192接收URL數(shù)據(jù)并基 于由所述數(shù)據(jù)挖掘系統(tǒng)對(duì)所述URL數(shù)據(jù)實(shí)施的各種HTTP相關(guān)指令而分析且補(bǔ)充所述數(shù)據(jù) 的參數(shù)。在另一實(shí)施例中,所述插件可適于挖掘某一其它協(xié)議(例如FTP、NNTP)或某一其它數(shù)據(jù)形式。數(shù)據(jù)挖掘系統(tǒng)192 (其還可用于實(shí)施被動(dòng)蜂蜜客戶(hù)端)還包含調(diào)度程序248的池 246。調(diào)度程序248是基于輸入到所述數(shù)據(jù)挖掘系統(tǒng)中(供分析)的數(shù)據(jù)及由插件模塊242 接收的配置數(shù)據(jù)而接收任務(wù)指派的個(gè)別異步處理實(shí)體。池246是由驅(qū)動(dòng)器244控制的調(diào)度 程序的集合。驅(qū)動(dòng)器244是用于所述池的管理機(jī)構(gòu)。驅(qū)動(dòng)器244可經(jīng)配置以監(jiān)視池246中 的調(diào)度程序248的活動(dòng)以確定何時(shí)將額外數(shù)據(jù)發(fā)送到池246中以供挖掘及分析 。在一個(gè)實(shí) 施例中,所述驅(qū)動(dòng)器可經(jīng)配置以每當(dāng)任何調(diào)度程序248空閑時(shí)將新數(shù)據(jù)單元發(fā)送到池246 中。在一個(gè)實(shí)施例中,驅(qū)動(dòng)器244可用作用于管理上文結(jié)合圖10所描述的蜂蜜客戶(hù)端挖掘 器222的控制服務(wù)器。池246可將所述數(shù)據(jù)單元遞送到空閑調(diào)度程序248。調(diào)度程序248 讀取插件配置且根據(jù)插件模塊242執(zhí)行動(dòng)作。在一個(gè)實(shí)施例中,插件模塊242可接收HTTP插件。所述HTTP插件可經(jīng)配置以接 收呈URL串的形式的輸入數(shù)據(jù),數(shù)據(jù)挖掘系統(tǒng)192將獲得關(guān)于所述URL串的額外信息,例如 所述URL的頁(yè)面內(nèi)容、所述URL在被存取時(shí)所返回的HTTP消息(例如,“未找到4χχ-文件” 或“5χχ-服務(wù)器錯(cuò)誤”)。所述插件可進(jìn)一步規(guī)定除收集頁(yè)面內(nèi)容以外調(diào)度還將所述URL內(nèi) 容內(nèi)的URL鏈接添加到將被分析的URL數(shù)據(jù)集的網(wǎng)絡(luò)爬行模式。圖21是圖解說(shuō)明在數(shù)據(jù)庫(kù)管理模塊114內(nèi)將URL歸類(lèi)的方法2000的一個(gè)實(shí)施例 的流程圖。方法2000在其中開(kāi)發(fā)可用于將網(wǎng)頁(yè)歸類(lèi)的特性的塊2002處開(kāi)始。在一個(gè)實(shí)施 例中,培訓(xùn)模塊184用于開(kāi)發(fā)特性數(shù)據(jù)庫(kù)320中的特性。在一個(gè)實(shí)施例中,開(kāi)發(fā)所述特性包 含開(kāi)發(fā)定義(例如,與一個(gè)或一個(gè)以上特性相關(guān)的表達(dá)式)且將所述定義存儲(chǔ)于定義數(shù)據(jù) 庫(kù)326中。接下來(lái),在塊2004處,識(shí)別網(wǎng)頁(yè)以進(jìn)行內(nèi)容分析。在一個(gè)實(shí)施例中,收集模塊 190識(shí)別網(wǎng)頁(yè)以進(jìn)行內(nèi)容分析。在一個(gè)實(shí)施例中,識(shí)別具有活動(dòng)內(nèi)容的特性或其它標(biāo)志的網(wǎng) 頁(yè)以進(jìn)行內(nèi)容分析。移動(dòng)到塊2006,內(nèi)容分析模塊322識(shí)別與經(jīng)識(shí)別的網(wǎng)頁(yè)中的每一者相關(guān)聯(lián)的一個(gè) 或一個(gè)以上特性。下文參照?qǐng)D22更詳細(xì)地描述塊2006的功能。繼續(xù)到塊2010,靜態(tài)內(nèi)容分 類(lèi)模塊328至少部分地基于特性用一個(gè)或一個(gè)以上類(lèi)別識(shí)別網(wǎng)頁(yè)。在一個(gè)實(shí)施例中,靜態(tài) 內(nèi)容分類(lèi)模塊328將來(lái)自定義數(shù)據(jù)庫(kù)326的定義與每一網(wǎng)頁(yè)的特性相比較以識(shí)別其特性。 在一個(gè)實(shí)施例中,所述類(lèi)別包含指示所述網(wǎng)頁(yè)是否與活動(dòng)內(nèi)容相關(guān)聯(lián)的那些類(lèi)別。在一個(gè) 實(shí)施例中,所述類(lèi)別包含指示與網(wǎng)頁(yè)相關(guān)聯(lián)或由網(wǎng)頁(yè)參考的活動(dòng)內(nèi)容的類(lèi)型(例如,惡意、 網(wǎng)絡(luò)釣魚(yú)站點(diǎn)、鍵盤(pán)記錄器、病毒、蠕蟲(chóng)等)的那些類(lèi)別。在一個(gè)實(shí)施例中,所述活動(dòng)內(nèi)容包 含于所述網(wǎng)頁(yè)的本體中。在一個(gè)實(shí)施例中,在所述網(wǎng)頁(yè)的鏈接或ActiveX對(duì)象元素中引用 所述活動(dòng)內(nèi)容。在一個(gè)實(shí)施例中,活動(dòng)內(nèi)容包含互動(dòng)“網(wǎng)絡(luò)釣魚(yú)”站點(diǎn),所述“網(wǎng)絡(luò)釣魚(yú)”站 點(diǎn)包含往往誤導(dǎo)用戶(hù)提供憑證或其它敏感、私人或個(gè)人信息的內(nèi)容。在一個(gè)實(shí)施例中,計(jì)分 模塊330進(jìn)一步對(duì)所述網(wǎng)頁(yè)進(jìn)行計(jì)分及分類(lèi)。移動(dòng)到塊2012,將與所述網(wǎng)頁(yè)相關(guān)聯(lián)的類(lèi)別 存儲(chǔ)于URL數(shù)據(jù)庫(kù)中。在一個(gè)實(shí)施例中,圖7的上載/下載模塊178將新URL類(lèi)別分布到一 個(gè)或一個(gè)以上網(wǎng)關(guān)服務(wù)器模塊120或工作站116 (均在圖1中)。在一個(gè)實(shí)施例中,可在由收 集模塊190接收新URL時(shí)連續(xù)地執(zhí)行方法2000的一個(gè)或一個(gè)以上塊,例如,塊2006-2012。 在一個(gè)實(shí)施例中,可周期性地執(zhí)行方法2000的一個(gè)或一個(gè)以上塊,例如塊2006-2012。圖22是圖解說(shuō)明執(zhí)行圖21的方塊2006的功能的方法的一個(gè)實(shí)施例的流程圖。所 述方法在其中內(nèi)容分析模塊322接收URL數(shù)據(jù)庫(kù)180中的網(wǎng)頁(yè)URL列表的塊2020處開(kāi)始。在一個(gè)實(shí)施例中,收集模塊190提供候選URL列表。接下來(lái),在塊2022處,針對(duì)每一 URL,內(nèi) 容分析模塊322接收所下載的網(wǎng)頁(yè)內(nèi)容。在一個(gè)實(shí)施例中,收集模塊190下載所述內(nèi)容且 將其存儲(chǔ)于URL數(shù)據(jù)庫(kù)180中,內(nèi)容分析模塊322從URL數(shù)據(jù)庫(kù)180存取所述內(nèi)容。在另 一實(shí)施例中,內(nèi)容分析模塊322下載并處理所述內(nèi)容。移動(dòng)到塊2024,內(nèi)容分析模塊322從 特性數(shù)據(jù)庫(kù)320存取特性。接下來(lái),在塊2026處,內(nèi)容分析模塊322至少部分地基于網(wǎng)頁(yè) 中的每一者的內(nèi)容識(shí)別與所述網(wǎng)頁(yè)中的每一者相關(guān)聯(lián)的特性。在一個(gè)實(shí)施例中,內(nèi)容分析 模塊322掃描所述內(nèi)容以識(shí)別來(lái)自特性數(shù)據(jù)庫(kù)320的串、關(guān)鍵字及正則表達(dá)式特性。在一 個(gè)實(shí)施例中,內(nèi)容分析模塊322還可在掃描特性之前及/或之后解碼內(nèi)容。舉例來(lái)說(shuō),內(nèi)容 分析模塊322可在掃描以幫助防止關(guān)鍵字因編碼或部分地編碼所述關(guān)鍵字而被隱藏之前 解碼web內(nèi)容,例如URL的經(jīng)URL編碼的部分或經(jīng)十六進(jìn)制編碼的網(wǎng)址。繼續(xù)到塊2028,內(nèi) 容分析模塊322將與每一網(wǎng)頁(yè)相關(guān)聯(lián)的經(jīng)識(shí)別的特性存儲(chǔ)于經(jīng)處理的網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324 中。
圖23是圖解說(shuō)明執(zhí)行圖21的塊2010的功能的方法的一個(gè)實(shí)施例的流程圖。所 述方法在其中靜態(tài)內(nèi)容分類(lèi)模塊328從定義數(shù)據(jù)庫(kù)326存取指示網(wǎng)頁(yè)類(lèi)別的定義的塊2042 處開(kāi)始。接下來(lái),在塊2044處,針對(duì)每一定義,靜態(tài)內(nèi)容分類(lèi)模塊328對(duì)照經(jīng)處理的網(wǎng)頁(yè)特 性數(shù)據(jù)庫(kù)324而識(shí)別與每一定義相關(guān)聯(lián)的一個(gè)或一個(gè)以上查詢(xún)。在一個(gè)實(shí)施例中,所述查 詢(xún)包括SQL查詢(xún)。移動(dòng)到塊2046,靜態(tài)內(nèi)容分類(lèi)模塊328將所述網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)中的URL的特性與 所述查詢(xún)相比較以識(shí)別匹配所述查詢(xún)的URL。在一個(gè)實(shí)施例中,靜態(tài)內(nèi)容分類(lèi)模塊328通過(guò) 對(duì)照經(jīng)處理的網(wǎng)頁(yè)特性數(shù)據(jù)庫(kù)324執(zhí)行所述一個(gè)或一個(gè)以上經(jīng)識(shí)別的數(shù)據(jù)庫(kù)查詢(xún)而實(shí)施 所述比較。接下來(lái),在塊2050處,靜態(tài)內(nèi)容分類(lèi)模塊328將任何經(jīng)識(shí)別的URL與所述定義相 比較以識(shí)別所述經(jīng)識(shí)別的URL中匹配所述定義的任一者。在一個(gè)實(shí)施例中,此比較包含使 用額外可執(zhí)行指令(例如,波爾腳本(Perl script))以識(shí)別匹配的URL。繼續(xù)到塊2052, 靜態(tài)內(nèi)容分類(lèi)模塊328基于所述定義而將所述經(jīng)識(shí)別的URL歸類(lèi)。在一個(gè)實(shí)施例中,每一 定義與單一類(lèi)別相關(guān)聯(lián)。在另一實(shí)施例中,每一定義與各自用所述URL識(shí)別的數(shù)個(gè)類(lèi)別相 關(guān)聯(lián)。在又一實(shí)施例中,所述定義可包含識(shí)別一個(gè)或一個(gè)以上類(lèi)別以用所述URL識(shí)別的邏 輯表達(dá)式。舉例來(lái)說(shuō),“如果-則-否則”表達(dá)式可取決于“如果”表達(dá)式的結(jié)果而識(shí)別不 同的類(lèi)別。在一個(gè)實(shí)施例中,內(nèi)容計(jì)分模塊進(jìn)一步對(duì)URL進(jìn)行計(jì)分?;谒龅梅郑捎盟?述URL來(lái)識(shí)別相同、不同或額外類(lèi)別。接下來(lái),在塊2054處,靜態(tài)內(nèi)容分類(lèi)模塊328將每一 URL的類(lèi)別存儲(chǔ)到經(jīng)歸類(lèi)的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)。在一個(gè)實(shí)施例中,URL數(shù)據(jù)庫(kù)180包含所述經(jīng)歸類(lèi) 的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)。圖24是圖解說(shuō)明執(zhí)行圖21的塊2002的功能作為識(shí)別用于在圖22及23的方法 中將URL歸類(lèi)的特性的一部分的方法的一個(gè)實(shí)施例的流程圖。所述方法在其中圖14的分 析任務(wù)模塊352接收活動(dòng)內(nèi)容數(shù)據(jù)或與活動(dòng)內(nèi)容相關(guān)聯(lián)的URL的塊2062處開(kāi)始。接下來(lái), 在塊2064處,特性識(shí)別模塊254識(shí)別將與活動(dòng)內(nèi)容數(shù)據(jù)相關(guān)的目標(biāo)URL與其它URL區(qū)分開(kāi) 的特性且識(shí)別與所述目標(biāo)URL相關(guān)聯(lián)的一個(gè)或一個(gè)以上類(lèi)別。在一個(gè)實(shí)施例中,計(jì)分及分 類(lèi)系統(tǒng)186用于幫助識(shí)別這些特性。另外,可識(shí)別包括所述特性中的一者或一者以上的定 義,所述定義將與特定類(lèi)別相關(guān)聯(lián)的目標(biāo)URL與不應(yīng)與所述類(lèi)別相關(guān)聯(lián)的其它URL區(qū)分開(kāi)。 移動(dòng)到塊2068,數(shù)據(jù)庫(kù)更新模塊356將所述特性、定義及類(lèi)別存儲(chǔ)于特性數(shù)據(jù)庫(kù)320及定義數(shù)據(jù)庫(kù)326中。因此,使得這些經(jīng)更新的特性及定義可用于使用(舉例來(lái)說(shuō))圖21中所圖 解說(shuō)明的方法來(lái)處理URL。圖25是圖解說(shuō)明基于所請(qǐng)求的URL的分量而控制對(duì)web內(nèi)容的存取的方法3000 的一個(gè)實(shí)施例的流程圖。方法3000在其中(舉例來(lái)說(shuō))圖1的網(wǎng)關(guān)服務(wù)器模塊120的URL 分析模塊149從工作站116接收對(duì)URL的請(qǐng)求的塊3010處開(kāi)始。接下來(lái),在塊3014處,信 譽(yù)計(jì)分模塊產(chǎn)生與所述URL相關(guān)聯(lián)的目標(biāo)內(nèi)容的信譽(yù)得分或其它信譽(yù)指示符。所述信譽(yù)計(jì) 分模塊可遠(yuǎn)程地定位于網(wǎng)關(guān)服務(wù)器模塊120處或遠(yuǎn)離網(wǎng)關(guān)服務(wù)器模塊120。舉例來(lái)說(shuō),信譽(yù) 計(jì)分模塊331可以是數(shù)據(jù)庫(kù)管理模塊114的一部分。 上文參照URL分析模塊149及信譽(yù)計(jì)分模塊331論述了產(chǎn)生信譽(yù)得分的方法。應(yīng) 認(rèn)識(shí)到,取決于實(shí)施例,信譽(yù)計(jì)分可作為允許對(duì)所請(qǐng)求的URL的存取的唯一方法或結(jié)合URL 策略及/或URL類(lèi)別來(lái)執(zhí)行。移動(dòng)到塊3010,網(wǎng)關(guān)服務(wù)器模塊120至少部分地基于所述信 譽(yù)得分來(lái)確定是否允許對(duì)所述URL的存取。替代地或另外,信譽(yù)計(jì)分模塊331可將所述信譽(yù)得分提供給內(nèi)容計(jì)分模塊330,內(nèi) 容計(jì)分模塊330可至少部分地基于所述信譽(yù)得分來(lái)確定所請(qǐng)求的URL的類(lèi)別。網(wǎng)關(guān)服務(wù)器 模塊120在確定是否允許對(duì)與所請(qǐng)求的URL相關(guān)聯(lián)的網(wǎng)站的用戶(hù)存取時(shí)可依賴(lài)所確定的類(lèi) 別并結(jié)合與所述URL相關(guān)聯(lián)的得分。如本文中所使用,“數(shù)據(jù)庫(kù)”指代存儲(chǔ)于媒體上可由計(jì)算機(jī)存取的所存儲(chǔ)的數(shù)據(jù)的 任何集合。舉例來(lái)說(shuō),數(shù)據(jù)庫(kù)可指代平面數(shù)據(jù)文件或指代結(jié)構(gòu)化數(shù)據(jù)文件。此外,應(yīng)認(rèn)識(shí) 至IJ,結(jié)合本文所揭示的實(shí)施例描述的各種說(shuō)明性數(shù)據(jù)庫(kù)可實(shí)施為組合各種說(shuō)明性數(shù)據(jù)庫(kù)的 若干方面的數(shù)據(jù)庫(kù)或說(shuō)明性數(shù)據(jù)庫(kù)可劃分為多個(gè)數(shù)據(jù)庫(kù)。舉例來(lái)說(shuō),各種說(shuō)明性數(shù)據(jù)庫(kù)中 的一者或一者以上可體現(xiàn)為一個(gè)或一個(gè)以上關(guān)系數(shù)據(jù)庫(kù)中的表。實(shí)施例可實(shí)施于關(guān)系數(shù)據(jù) 庫(kù)中,包含SQL數(shù)據(jù)庫(kù)(例如我的SQL(mySQL))、面向?qū)ο蟮臄?shù)據(jù)庫(kù)、對(duì)象關(guān)系數(shù)據(jù)庫(kù)、平面 文件或任何其它適合數(shù)據(jù)存儲(chǔ)系統(tǒng)。所屬領(lǐng)域的技術(shù)人員應(yīng)認(rèn)識(shí)到,可將結(jié)合本文所揭示的實(shí)施例描述的各種說(shuō)明性 邏輯塊、模塊、電路及算法步驟實(shí)施為電子硬件、計(jì)算機(jī)軟件或二者的組合。為明確地圖解 說(shuō)明硬件與軟件的此可互換性,上文就其功能性大體描述了各種說(shuō)明性組件、塊、模塊、電 路及步驟。此功能性實(shí)施為硬件還是軟件取決于施加于整體系統(tǒng)上的特定應(yīng)用及設(shè)計(jì)約束 條件。所屬領(lǐng)域的技術(shù)人員可針對(duì)每一特定應(yīng)用以不同方式實(shí)施所述功能性,但此實(shí)施方 案決策不應(yīng)被解釋為導(dǎo)致背離本發(fā)明的范圍。結(jié)合本文所揭示實(shí)施例描述的各種說(shuō)明性邏輯塊、模塊及電路均可由以下裝置實(shí) 施或執(zhí)行通用處理器、數(shù)字信號(hào)處理器(DSP)、專(zhuān)用集成電路(ASIC)、現(xiàn)場(chǎng)可編程門(mén)陣列 (FPGA)或其它可編程邏輯裝置、離散門(mén)或晶體管邏輯、離散硬件組件、或其設(shè)計(jì)用以執(zhí)行本 文所述功用的任何組合。通用處理器可為微處理器,但另一選擇為,處理器可為任一常規(guī)處 理器、控制器、微控制器或狀態(tài)機(jī)。處理器還可實(shí)施為計(jì)算裝置的組合,例如,DSP與微處理 器的組合、多個(gè)微處理器的組合、一個(gè)或一個(gè)以上微處理器與DSP核心的結(jié)合,或任何其它 此類(lèi)配置。結(jié)合本文所揭示實(shí)施例描述的方法或算法的步驟可直接體現(xiàn)于硬件中、體現(xiàn)于由 處理器執(zhí)行的軟件模塊中、或體現(xiàn)于兩者的組合中。軟件模塊可駐留在RAM存儲(chǔ)器、快閃存 儲(chǔ)器、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬磁盤(pán)、可抽換式磁盤(pán)、⑶-ROM或此項(xiàng)技術(shù)中已知的任何其它形式的存儲(chǔ)媒體中。實(shí)例性存儲(chǔ)媒體耦合到處理器而使得所述 處理器可從存儲(chǔ)媒體讀取信息和將信息寫(xiě)入到存儲(chǔ)媒體。另一選擇為,存儲(chǔ)媒體可與處理 器成整體。處理器和存儲(chǔ)媒體可駐留于ASIC中。ASIC可駐留于用戶(hù)終端中。另一選擇為, 處理器及存儲(chǔ)媒體可作為離散組件駐留于用戶(hù)終端中。鑒于上文,人們已經(jīng)了解,本發(fā)明的實(shí)施例通過(guò)提供處理大量URL的高效方法而 克服此項(xiàng)技術(shù)中長(zhǎng)期問(wèn)題中的許多問(wèn)題,所述方法可用于因特網(wǎng)上以識(shí)別URL、尤其是具有 活動(dòng)內(nèi)容的那些URL的類(lèi)別。即使對(duì)于人類(lèi)分析員來(lái)說(shuō),可能也難以將具有許多類(lèi)型的活 動(dòng)內(nèi)容的URL歸類(lèi),因?yàn)殛P(guān)系特性可埋置于可執(zhí)行代碼(包含腳本)中或ActiveX組件的 參數(shù)中。使用可被高效地處理的特性及定義允許ActiveX內(nèi)容由自動(dòng)過(guò)程有效地識(shí)別。此 夕卜,通過(guò)將網(wǎng)頁(yè)的特性存儲(chǔ)于數(shù)據(jù)庫(kù)中以供稍后查詢(xún),可在識(shí)別活動(dòng)內(nèi)容的新定義時(shí)基于 這些所述存儲(chǔ)的特性立即將大量URL歸類(lèi)。
盡管上文詳細(xì)說(shuō)明已顯示、描述及指出本發(fā)明的適用于各種實(shí)施例的新穎特征, 但應(yīng)理解,所屬領(lǐng)域的技術(shù)人員可在不背離本發(fā)明的精神的情況下在形式及細(xì)節(jié)上對(duì)所圖 解說(shuō)明的裝置或過(guò)程做出各種省略、替代及改變。應(yīng)認(rèn)識(shí)到,由于可獨(dú)立于其它特征使用或 實(shí)踐某些特征,因此可在并不提供所有本文所闡述特征及益處的形式內(nèi)體現(xiàn)本發(fā)明。本發(fā) 明的范圍由所附權(quán)利要求書(shū)而非由上文說(shuō)明來(lái)指示。歸屬于權(quán)利要求書(shū)的等效內(nèi)容的意義 及范圍內(nèi)的所有修改均將涵蓋于其范圍內(nèi)。
權(quán)利要求
一種控制對(duì)web內(nèi)容的存取的方法,其包括接收對(duì)至少一個(gè)統(tǒng)一資源定位符(URL)的請(qǐng)求;產(chǎn)生與所述URL相關(guān)聯(lián)的活動(dòng)內(nèi)容的指示符,其中所述指示符基于與所述URL的至少一個(gè)分量相關(guān)聯(lián)的數(shù)據(jù);及至少部分地基于所述指示符確定是否允許所述請(qǐng)求。
2.如權(quán)利要求1所述的方法,其中所述與所述URL的至少一個(gè)分量相關(guān)聯(lián)的數(shù)據(jù)包括 熵指示符、搜索結(jié)果、指示所述URL的歷史的數(shù)據(jù)及指示與所述URL相關(guān)聯(lián)的網(wǎng)絡(luò)地址的歷 史的數(shù)據(jù)中的至少一者。
3.如權(quán)利要求1所述的方法,其中所述URL的所述至少一個(gè)分量包括所述URL的方案、 所述URL的主機(jī)、所述URL的路徑或所述URL的查詢(xún)片段中的一者。
4.如權(quán)利要求1所述的方法,其進(jìn)一步包括將所述URL的至少一部分與來(lái)自字典的至 少一個(gè)字相比較。
5.如權(quán)利要求1所述的方法,其進(jìn)一步包括通過(guò)將至少一個(gè)字形成規(guī)則應(yīng)用于所述 URL的至少一部分來(lái)產(chǎn)生得分。
6.如權(quán)利要求5所述的方法,其進(jìn)一步包括識(shí)別至少URL中的輔音序列,其中所述輔音 序列超過(guò)規(guī)定長(zhǎng)度。
7.如權(quán)利要求1所述的方法,其進(jìn)一步包括識(shí)別與所URL相關(guān)聯(lián)的類(lèi)別,其中確定是否允許所述請(qǐng)求至少部分地基于所述經(jīng)識(shí)別 的類(lèi)別。
8.如權(quán)利要求1所述的方法,其進(jìn)一步包括識(shí)別與所述URL相關(guān)聯(lián)的策略,其中所述確 定是否允許所述請(qǐng)求至少部分地基于所述策略。
9.如權(quán)利要求8所述的方法,其進(jìn)一步包括確定所述URL是否在經(jīng)歸類(lèi)的URL的數(shù)據(jù)庫(kù)中。
10.如權(quán)利要求9所述的方法,其進(jìn)一步包括基于所述URL從所述數(shù)據(jù)庫(kù)中的缺失來(lái)識(shí) 別所述至少一個(gè)策略。
11.如權(quán)利要求1所述的方法,其中活動(dòng)內(nèi)容的所述指示符包括得分。
12.一種用于控制對(duì)web內(nèi)容的存取的系統(tǒng),其包括網(wǎng)關(guān)服務(wù)器模塊,其經(jīng)配置以接收對(duì)至少一個(gè)統(tǒng)一資源定位符(URL)的請(qǐng)求;URL分析模塊,其經(jīng)配置以基于與所述URL的至少一個(gè)分量相關(guān)聯(lián)的數(shù)據(jù)產(chǎn)生與所述 URL相關(guān)聯(lián)的活動(dòng)內(nèi)容的指示符;策略模塊,其經(jīng)配置以識(shí)別與所述URL相關(guān)聯(lián)的策略;及內(nèi)容過(guò)濾模塊,其經(jīng)配置以至少部分地基于所述指示符及所述策略來(lái)確定是否允許所 述請(qǐng)求。
13.如權(quán)利要求12所述的系統(tǒng),其中所述與所述URL的至少一個(gè)分量相關(guān)聯(lián)的數(shù)據(jù)包 括熵指示符、搜索結(jié)果、指示所述URL的歷史的數(shù)據(jù)及指示與所述URL相關(guān)聯(lián)的網(wǎng)絡(luò)地址的 歷史的數(shù)據(jù)中的至少一者。
14.如權(quán)利要求12所述的系統(tǒng),其中所述至少一個(gè)分量包括所述URL的方案、所述URL 的主機(jī)、所述URL的路徑或所述URL的查詢(xún)片段中的一者。
15.如權(quán)利要求12所述的系統(tǒng),其中所述URL分析模塊經(jīng)配置以將所述URL的至少一部分與來(lái)自字典的至少一個(gè)字相比較。
16.如權(quán)利要求12所述的系統(tǒng),其中所述URL分析模塊經(jīng)配置以通過(guò)將至少一個(gè)字形 成規(guī)則應(yīng)用于所述URL的至少一部分來(lái)產(chǎn)生得分。
17.如權(quán)利要求16所述的系統(tǒng),其中應(yīng)用所述至少一個(gè)字形成規(guī)則包括識(shí)別至少一個(gè) URL中的輔音序列,其中所述輔音序列超過(guò)規(guī)定長(zhǎng)度。
18.如權(quán)利要求12所述的系統(tǒng),其進(jìn)一步包括經(jīng)歸類(lèi)的URL數(shù)據(jù)庫(kù),其經(jīng)配置以識(shí)別與所述URL相關(guān)聯(lián)的類(lèi)別,其中確定是否允許所 述請(qǐng)求至少部分地基于所述經(jīng)識(shí)別的類(lèi)別。
19.如權(quán)利要求12所述的系統(tǒng),其中所述內(nèi)容過(guò)濾模塊經(jīng)配置以至少部分地基于所述 策略來(lái)確定是否允許所述請(qǐng)求。
20.如權(quán)利要求19所述的系統(tǒng),其中所述網(wǎng)關(guān)服務(wù)器模塊經(jīng)配置以確定所述URL是否 在經(jīng)歸類(lèi)的URL的數(shù)據(jù)庫(kù)中。
21.如權(quán)利要求20所述的系統(tǒng),其中所述策略模塊經(jīng)配置以基于所述URL從所述數(shù)據(jù) 庫(kù)中的缺失來(lái)識(shí)別所述至少一個(gè)策略。
22.如權(quán)利要求12所述的系統(tǒng),其中活動(dòng)內(nèi)容的所述指示符包括得分。
23.一種用于控制對(duì)web內(nèi)容的存取的系統(tǒng),所述系統(tǒng)包括接收構(gòu)件,其用于接收對(duì)至少一個(gè)統(tǒng)一資源定位符(URL)的請(qǐng)求; 產(chǎn)生構(gòu)件,其用于產(chǎn)生與所述URL相關(guān)聯(lián)的活動(dòng)內(nèi)容的指示符,其中所述指示符基于 與所述URL的至少一個(gè)分量相關(guān)聯(lián)的數(shù)據(jù);識(shí)別構(gòu)件,其用于識(shí)別與所述URL相關(guān)聯(lián)的策略;及確定構(gòu)件,其用于至少部分地基于所述至少指示符及所述策略來(lái)確定是否允許所述請(qǐng)求。
全文摘要
本發(fā)明提供一種用于識(shí)別網(wǎng)絡(luò)上的網(wǎng)站中的活動(dòng)內(nèi)容的系統(tǒng)及方法。一個(gè)實(shí)施例包含一種將網(wǎng)址分類(lèi)的方法。一個(gè)實(shí)施例可包含一種基于對(duì)未經(jīng)歸類(lèi)的URL的分析而產(chǎn)生指示與所述URL相關(guān)聯(lián)的網(wǎng)站含有活動(dòng)或其它目標(biāo)內(nèi)容的信譽(yù)或可能性的得分。在某些實(shí)施例中,僅從URL串確定所述得分。其它實(shí)施例包含經(jīng)配置以執(zhí)行此類(lèi)方法的系統(tǒng)。
文檔編號(hào)G06F17/30GK101971591SQ200780050598
公開(kāi)日2011年2月9日 申請(qǐng)日期2007年11月29日 優(yōu)先權(quán)日2006年12月1日
發(fā)明者丹·哈伯德, 艾倫·謝 申請(qǐng)人:網(wǎng)圣公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
临汾市| 加查县| 太仓市| 隆林| 兰考县| 寿宁县| 临高县| 察雅县| 荆州市| 南汇区| 连州市| 洛浦县| 噶尔县| 沙洋县| 罗甸县| 郸城县| 霍林郭勒市| 改则县| 孟村| 清镇市| 克山县| 德钦县| 巴彦县| 兰州市| 安新县| 池州市| 淮南市| 包头市| 富蕴县| 双流县| 清丰县| 辛集市| 阳西县| 军事| 安平县| 福清市| 巴马| 大化| 宿松县| 石嘴山市| 特克斯县|