一種網(wǎng)頁篡改的檢測(cè)方法及裝置制造方法【專利摘要】本發(fā)明公開了一種網(wǎng)頁篡改的檢測(cè)方法及其裝置。該方法包括:根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接;若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,則將其存入惡意鏈接庫;若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,則根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,對(duì)命中的惡意鏈接進(jìn)行標(biāo)記;根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則,并加入篡改特征庫中。本發(fā)明的方案通過自主學(xué)習(xí)的方式不斷擴(kuò)充篡改特征規(guī)則,并根據(jù)確定的惡意鏈接對(duì)網(wǎng)頁進(jìn)行檢測(cè),能夠及時(shí)捕獲變種的惡意鏈接,極大地提高了網(wǎng)頁篡改的檢測(cè)準(zhǔn)確率?!緦@f明】一種網(wǎng)頁篡改的檢測(cè)方法及裝置【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)站安全領(lǐng)域,特別是涉及一種網(wǎng)頁篡改的檢測(cè)方法及裝置?!?br>背景技術(shù):
】[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)上網(wǎng)站數(shù)量也越來越多。許多網(wǎng)站都是實(shí)體機(jī)構(gòu)及組織在互聯(lián)網(wǎng)中的形象展示。而一些具有不良企圖的組織或個(gè)人通過掃描服務(wù)器的弱口令、漏洞,然后攻擊網(wǎng)站并對(duì)其進(jìn)行惡意篡改。[0003]雖然目前已有防火墻、入侵檢測(cè)等安全防范手段,但現(xiàn)代操作系統(tǒng)的復(fù)雜性和多樣性導(dǎo)致系統(tǒng)漏洞層出不窮,防不勝防。黑客入侵和篡改頁面的事件時(shí)有發(fā)生。針對(duì)此,網(wǎng)頁防篡改系統(tǒng)應(yīng)運(yùn)而生。例如,給網(wǎng)頁掛惡意鏈接,如黑鏈、掛馬鏈接等,這些是網(wǎng)頁篡改的主要表現(xiàn)形式。[0004]目前的網(wǎng)頁防篡改系統(tǒng)對(duì)惡意鏈接的檢測(cè)方法過于簡(jiǎn)單,而且惡意鏈接嵌入網(wǎng)頁的方法層出不窮,日益變化。很多惡意鏈接都能繞過檢測(cè)系統(tǒng)。目前,國(guó)內(nèi)外主要采用以下兩類惡意鏈接檢測(cè)技術(shù):[0005](I)靜態(tài)特征匹配方式:[0006]即通過特征串(即大量人工收集的關(guān)鍵字)匹配網(wǎng)頁中的HTML正文,以判斷其是否被加入惡意鏈接。[0007](2)在網(wǎng)頁發(fā)布系統(tǒng)中增加網(wǎng)頁內(nèi)容審核和校驗(yàn)機(jī)制:[0008]即在網(wǎng)頁發(fā)布系統(tǒng)中構(gòu)建一個(gè)網(wǎng)頁內(nèi)容實(shí)時(shí)檢測(cè)系統(tǒng),所有網(wǎng)頁發(fā)布的內(nèi)容都經(jīng)過該系統(tǒng),經(jīng)過確認(rèn)后才能發(fā)布,同時(shí)還建立了網(wǎng)頁內(nèi)容指紋庫,篡改檢測(cè)系統(tǒng)通過定期掃描網(wǎng)頁內(nèi)容和指紋庫內(nèi)容對(duì)比來發(fā)現(xiàn)網(wǎng)頁是否被黑鏈篡改。[0009]上述兩種檢測(cè)技術(shù)均僅僅依賴于篡改特征庫,而篡改特征庫一般是固定不變的。但是惡意鏈接嵌入網(wǎng)頁的方式日益變化,層出不窮。這樣很多惡意鏈接可以成功繞過固有的篡改特征庫,以致即使網(wǎng)頁被黑客篡改了,檢測(cè)程序依然無法檢測(cè)出來惡意篡改。[0010]因此需要一種新的檢測(cè)網(wǎng)頁篡改的方法,提供一種惡意鏈接的獲取機(jī)制,用以在盡可能低成本、高效率獲取最新的惡意鏈接特征,并根據(jù)新獲取的惡意鏈接特征對(duì)網(wǎng)站進(jìn)行檢測(cè),以提高檢測(cè)頁面被惡意篡改的準(zhǔn)確率。【
發(fā)明內(nèi)容】[0011]為解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題,本發(fā)明提供了一種網(wǎng)頁篡改的檢測(cè)方法及其裝置,能夠低成本、高效率獲取最新的惡意鏈接特征,并根據(jù)新獲取的惡意鏈接特征對(duì)網(wǎng)站進(jìn)行檢測(cè),以提高檢測(cè)頁面被惡意篡改的準(zhǔn)確率。[0012]根據(jù)本發(fā)明的一方面,其提供了一種網(wǎng)頁篡改的檢測(cè)方法,包括:[0013]根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接;[0014]若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,則將其存入惡意鏈接庫;[0015]若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,則根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,對(duì)命中的惡意鏈接進(jìn)行標(biāo)記;[0016]根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則,并加入篡改特征庫中。[0017]其中,在提取所述篡改內(nèi)容中的惡意鏈接的同時(shí)還提取出與其對(duì)應(yīng)的篡改關(guān)鍵ο[0018]其中,根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則步驟中包括:利用所述惡意鏈接和/或與其對(duì)應(yīng)的篡改關(guān)鍵詞生成新的篡改特征規(guī)則。[0019]其中,所述篡改特征庫包含篡改關(guān)鍵詞和/或惡意鏈接的正則表達(dá)式。[0020]其中,在根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容時(shí),如果所述網(wǎng)頁的內(nèi)容命中所述惡意鏈接庫中的惡意鏈接,則標(biāo)記所述惡意鏈接的命中權(quán)重加I。[0021]其中,根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則的步驟中包括:根據(jù)標(biāo)記的命中權(quán)重高于第二預(yù)定閾值的惡意鏈接生成新的篡改特征規(guī)則。[0022]其中,所述惡意鏈接包括黑鏈、掛馬鏈接。[0023]根據(jù)本發(fā)明的另一方面,其提供了一種網(wǎng)頁篡改的檢測(cè)裝置,其包括:[0024]第一檢測(cè)模塊,其根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接;[0025]寫入模塊,若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,其將該所述惡意鏈接存入惡意鏈接庫;[0026]第二檢測(cè)模塊,若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,其根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,并對(duì)命中的惡意鏈接進(jìn)行標(biāo)記;[0027]規(guī)則生成模塊,其根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則,并加入篡改特征庫中。[0028]其中,所述第一檢測(cè)模塊在提取所述篡改內(nèi)容中的惡意鏈接的同時(shí)還提取出與其對(duì)應(yīng)的篡改關(guān)鍵詞。[0029]其中,所述規(guī)則生成模塊利用所述惡意鏈接和/或與其對(duì)應(yīng)的篡改關(guān)鍵詞生成新的篡改特征規(guī)則。[0030]其中,所述篡改特征庫包含篡改關(guān)鍵詞和/或惡意鏈接的正則表達(dá)式。[0031]其中,第二檢測(cè)模塊在所述網(wǎng)頁的內(nèi)`容命中所述惡意鏈接庫中的惡意鏈接時(shí),標(biāo)記所述惡意鏈接的命中權(quán)重加I。[0032]其中,所述規(guī)則生成模塊根據(jù)標(biāo)記的命中權(quán)重高于第二預(yù)定閾值的惡意鏈接生成新的篡改特征規(guī)則。[0033]其中,所述惡意鏈接包括黑鏈、掛馬鏈接。[0034]本發(fā)明提出的上述方案根據(jù)已有的篡改特征庫,結(jié)合搜索引擎技術(shù),對(duì)網(wǎng)站上的網(wǎng)頁進(jìn)行檢測(cè),并根據(jù)匹配頻率較高的惡意鏈接進(jìn)一步對(duì)無法使用現(xiàn)有的篡改特征庫中的篡改特征檢測(cè)出篡改內(nèi)容的網(wǎng)頁進(jìn)行檢測(cè),并對(duì)能夠命中所述網(wǎng)頁中的篡改內(nèi)容的惡意鏈接進(jìn)行標(biāo)記,并根據(jù)所標(biāo)記的命中權(quán)重高于一定閾值的惡意鏈接生成新的篡改特征規(guī)則,將其加入篡改特征庫中,以便后續(xù)的網(wǎng)頁檢測(cè)。本發(fā)明通過自主學(xué)習(xí)的方式不斷擴(kuò)充篡改特征庫,并根據(jù)確定的惡意鏈接對(duì)網(wǎng)頁進(jìn)行檢測(cè),能夠及時(shí)捕獲變種了的惡意鏈接,極大地提高了網(wǎng)頁篡改的檢測(cè)準(zhǔn)確率。[0035]為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】詳細(xì)說明?!緦@綀D】【附圖說明】[0036]圖1是本發(fā)明提出的一種網(wǎng)頁篡改的檢測(cè)方法的流程圖;[0037]圖2是本發(fā)明提出的一種網(wǎng)頁篡改的檢測(cè)裝置的結(jié)構(gòu)示意圖?!揪唧w實(shí)施方式】[0038]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。[0039]圖1示出了本發(fā)明提出的一種網(wǎng)頁篡改的檢測(cè)方法的流程圖。如圖1所示,該方法包括:[0040]步驟101:根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接;[0041]步驟102:若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,則將其存入惡意鏈接庫;[0042]步驟103:若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,則根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,對(duì)命中的惡意鏈接進(jìn)行標(biāo)記;[0043]步驟104:根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則,并加入篡改特征庫中。[0044]下面根據(jù)具體的實(shí)施例對(duì)本發(fā)明提出上述網(wǎng)頁篡改的檢測(cè)方法的各個(gè)步驟進(jìn)行詳細(xì)說明。[0045]步驟101中,根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接。[0046]所謂網(wǎng)頁篡改就是一些具有不良企圖的組織或個(gè)人通過掃描服務(wù)器的弱口令、漏洞,獲得網(wǎng)站的賬戶權(quán)限后,對(duì)網(wǎng)站的網(wǎng)頁源碼進(jìn)行惡意修改。最典型的一種修改方式就是在網(wǎng)頁源碼中插入惡意鏈接,如掛馬鏈接和黑鏈等。[0047]所謂掛馬,就是黑客通過各種手段,包括SQL注入,網(wǎng)站敏感文件掃描,服務(wù)器漏洞,網(wǎng)站程序Oday等各種方法獲得網(wǎng)站管理員賬號(hào),然后登陸網(wǎng)站后臺(tái),通過國(guó)數(shù)據(jù)庫備份/恢復(fù)或者上傳漏洞獲得一個(gè)webshell,利用所獲得的webshell修改網(wǎng)站頁面的內(nèi)容,向網(wǎng)頁中加入惡意轉(zhuǎn)向代碼,即掛馬鏈接。當(dāng)用戶訪問被加入掛馬鏈接的頁面時(shí),自動(dòng)的訪問被轉(zhuǎn)向的地址或者下載木馬病毒。如果進(jìn)入了被掛馬的網(wǎng)站,則會(huì)感染木馬病毒,并丟失大量的寶貴文件資料和賬戶密碼,其危害極大。[0048]掛馬鏈接主要目的是散播木馬病毒或騙取流量和點(diǎn)擊率等。掛馬鏈接的插入方式多種多樣,如通過iframe框架進(jìn)行掛馬鏈接的插入:[0049]<iframesrc=http://www.xxx.com/example.htmlwidth=0height=0Xiframe〉[0050]上述插入在網(wǎng)頁源碼中的語句表示在打開某一網(wǎng)站“www.XXX.com”的同時(shí),打開另一個(gè)網(wǎng)頁“example,html”,而“example,html”網(wǎng)頁極有可能包含大量的木馬病毒,也可能僅僅是為了騙取流量或點(diǎn)擊率。掛馬方式多種多樣,上面僅為舉例說明,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解本發(fā)明中涉及的掛馬方式不限于此。[0051]而插入黑鏈的主要目標(biāo)就是提升自己在搜索引擎中的排名。萬維網(wǎng)成為大量信息的載體,為有效地提取并利用這些信息,搜索引擎(SearchEngine)作為一個(gè)輔助人們檢索信息的工具,成為用戶訪問萬維網(wǎng)的入口和指南。[0052]例如,某新開的網(wǎng)站在搜索引擎中的排名很靠后,之后某個(gè)權(quán)利高(排名好,質(zhì)量高)的網(wǎng)站和這個(gè)新開的網(wǎng)站做了鏈接,那么搜索引擎就會(huì)認(rèn)為這個(gè)新開的網(wǎng)站既然可以和這樣權(quán)重高的網(wǎng)站做上鏈接,那么它的權(quán)重也不會(huì)低,所以這個(gè)網(wǎng)站在搜索引擎中的排名就會(huì)提升。如果有多個(gè)權(quán)重高的網(wǎng)站也都和這個(gè)網(wǎng)站做了鏈接,那么它的排名將會(huì)上升得非常快。[0053]反之,一個(gè)新網(wǎng)站的權(quán)重不會(huì)很高,所以搜索引擎不會(huì)給它很高的排名,其在搜索結(jié)果中的排名就會(huì)比較靠后。對(duì)于搜索引擎的這種特性,目前有些工具提供了黑鏈技術(shù),即通過入侵一些權(quán)重高的網(wǎng)站,入侵成功后將網(wǎng)站的鏈接插入到被入侵網(wǎng)站的頁面中,從而實(shí)現(xiàn)鏈接的效果,并且通過隱藏網(wǎng)站鏈接,使別人在被入侵網(wǎng)站的頁面上是看不到任何鏈接。[0054]然而,目前采用黑鏈技術(shù)來實(shí)現(xiàn)搜索排名提升的,相當(dāng)一部分是游戲私服網(wǎng)站、盜號(hào)木馬網(wǎng)站、釣魚網(wǎng)站和廣告網(wǎng)站等不安全網(wǎng)站。對(duì)于這些不安全網(wǎng)站,搜索引擎不會(huì)給它們很高的排名,但通過“黑鏈”,它們的排名就會(huì)很靠前,在這種情況下,當(dāng)使用搜索引擎的時(shí)候,點(diǎn)擊打開這些網(wǎng)站的概率就會(huì)很高,如果用戶沒有做好安全防護(hù)工作,那么就會(huì)容易就會(huì)感染網(wǎng)站上的病毒。[0055]現(xiàn)有的黑鏈技術(shù)中,隱藏鏈接有一些固定技巧,例如搜索引擎對(duì)javascript的識(shí)別不是很好,通過javascript來輸出隱藏的div。這樣的話,人工直接通過頁面無法看到這些鏈接,而搜索引擎確認(rèn)為這些鏈接是有效的。代碼為:首先通過javascript寫前面的div,設(shè)置display為none。然后輸出一個(gè)table,table中包含了要掛的黑鏈。最后再通過javascript輸出后半部分div。[0056]例如,黑客通過在網(wǎng)頁的源碼插入下面語句,在目標(biāo)網(wǎng)頁中插入黑鏈:[0057]<ahref=“http://www.45u.com”style=”margin-left:-83791;”〉傳奇私服發(fā)布〈/a>[0058]其中,通過設(shè)置style=”margin_left:-83791;”,使得該黑鏈在網(wǎng)頁中不可見。[0059]為檢測(cè)網(wǎng)頁中含有的惡意鏈接,目前很多安全工具、搜索引擎甚至瀏覽器本身都配備了一些檢測(cè)網(wǎng)頁是否被篡改的工具或插件等。而這些工具和/或插件的檢測(cè)方式也各有不同,最常用的方式就是通過一定的方式遍歷網(wǎng)頁源碼中是否存在一些異常的鏈接和/或關(guān)鍵詞等。[0060]本發(fā)明實(shí)施例中,通過篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容。所述篡改特征庫是由多個(gè)篡改關(guān)鍵詞和/或惡意鏈接的正則表達(dá)式所組成。對(duì)于待檢測(cè)網(wǎng)頁,首先獲取其源碼,然后利用現(xiàn)有的篡改特征庫中的正則表達(dá)式匹配所述源碼,以獲取與正則表達(dá)式相一致的內(nèi)容。如果通過篡改特征庫中的正則表達(dá)式命中待檢測(cè)網(wǎng)頁中的內(nèi)容,則說明該待檢測(cè)網(wǎng)頁中存在篡改內(nèi)容。[0061]正則表達(dá)式是用于進(jìn)行文本匹配的工具,通常由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義。正則表達(dá)式的匹配可以理解為,在給定的字符串中,尋找與給定的正則表達(dá)式相匹配的部分。有可能字符串里有不止一個(gè)部分滿足給定的正則表達(dá)式,這時(shí)每一個(gè)這樣的部分被稱為一個(gè)匹配。匹配在本文里可以包括三種含義:一種是形容詞性的,比如說一個(gè)字符串匹配一個(gè)表達(dá)式;一種是動(dòng)詞性的,比如說在字符串里匹配正則表達(dá)式;還有一種是名詞性的,就是剛剛說到的“字符串中滿足給定的正則表達(dá)式的一部分”。[0062]以下通過舉例對(duì)正則表達(dá)式的生成規(guī)則進(jìn)行說明。[0063]假設(shè)要查找hi,則可以使用正則表達(dá)式hi。這個(gè)正則表達(dá)式可以精確匹配這樣的字符串:由兩個(gè)字符組成,前一個(gè)字符是h,后一個(gè)是i。在實(shí)際中,正則表達(dá)式是可以忽略大小寫的。如果很多單詞里都包含hi這兩個(gè)連續(xù)的字符,比如him,history,high等等。用hi來查找的話,這此單詞里面的hi也會(huì)被找出來。如果要精確地查找hi這個(gè)單詞的話,則應(yīng)該使用\bhi\b。其中,\b是正則表達(dá)式的一個(gè)元字符,它代表著單詞的開頭或結(jié)尾,也就是單詞的分界處。雖然通常英文的單詞是由空格或標(biāo)點(diǎn)符號(hào)或換行來分隔的,但是4并不匹配這些單詞分隔符中的任何一個(gè),它只匹配一個(gè)位置。假如要找的是hi后面不遠(yuǎn)處跟著一個(gè)Lucy,貝U應(yīng)該用\bhi\b.*\bLucy\b。其中,.是另一個(gè)元字符,匹配除了換行符以外的任意字符。*同樣是元字符,它代表的是數(shù)量——即指定*前邊的內(nèi)容可以連續(xù)重復(fù)出現(xiàn)任意次以使整個(gè)表達(dá)式得到匹配?,F(xiàn)在\bhi\b.*\bLucy\b的意思就很明顯了:先是一個(gè)單詞hi,然后是任意個(gè)任意字符(但不能是換行),最后是Lucy這個(gè)單詞。[0064]例如,篡改特征庫中篡改特征規(guī)則對(duì)應(yīng)的正則表達(dá)式如下所示:[0065]〈script.*?>document\.write.*?\(.*?\+.*?\+.*?\+.*?\+.*?\+.*?\).*?〈/script〉([\S\s]+?)〈/div>[0066]則該正則表達(dá)式在網(wǎng)頁中匹配命中的網(wǎng)頁元素可以為:[0067]<script>document.write('<d'+'ivst'+'yle'+'="po'+'si,+'tio/+'n:a'+'bso/+'lu'+'te;1,+,ef+,t:'+,-,+,10,+,00,+,0,+,p,+,X;'+""+,>,)>XXXX<script>cbcuiBnt.write〈'+'/d'+'i'+'V>');</script〉[0068]可見,篡改特征規(guī)則對(duì)應(yīng)的正則表達(dá)式用于匹配網(wǎng)頁中具有特定格式的網(wǎng)頁內(nèi)容,如具有“〈script>document.write”和“<script>document.write(1<1+1/d'+1i1+1v>');</script〉”元素的內(nèi)容等。[0069]或如,另一篡改特征規(guī)則對(duì)應(yīng)的正則表達(dá)式如下所示:[0070]<a\s*href\s*=["\'].+?["\']\s*style=["\'][\w+\-]+:-[0_9]+.*?["V].*?>.*?〈/a>。[0071]通過該篡改特征規(guī)則能夠命中的頁面元素可以為:[0072]〈ahref=“http://www.45u.com”style=”margin-left:-83791;”〉;[0073]該正則表達(dá)式用于匹配網(wǎng)頁中出現(xiàn)“〈ahref=”且其后面跟隨的篡改關(guān)鍵詞“style”的值中存在負(fù)值(負(fù)值表示其不在顯示區(qū)域中顯示)的網(wǎng)頁內(nèi)容。[0074]當(dāng)然,上述正則表達(dá)式的表示方式僅僅用作示例,本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況采用任一種正則表達(dá)式的表示方式都是可行的,本申請(qǐng)對(duì)此無需加以限制。[0075]本發(fā)明實(shí)施例中,可以通過所述正則表達(dá)式匹配分析所述待檢測(cè)網(wǎng)頁中的頁面元素位置和顯示方式,來判定其是否為被篡改的內(nèi)容。例如,判斷黑鏈篡改時(shí),可以通過正則表達(dá)式匹配判斷所述待檢測(cè)網(wǎng)頁中的頁面元素的位置是否不在預(yù)設(shè)閾值范圍內(nèi),或者所述頁面元素是否具有不可見的屬性,和/或,所述頁面元素是否對(duì)瀏覽器隱藏等,若是,則判定所述待檢測(cè)頁面中的所述頁面元素為被篡改內(nèi)容。例如,若檢測(cè)到某個(gè)頁面的超鏈接是不可見的,或者,頁面中某個(gè)html標(biāo)簽元素的長(zhǎng)寬高是負(fù)值,則可判定該頁面被篡改的內(nèi)容。[0076]本發(fā)明實(shí)施例中,還可以通過正則表達(dá)式匹配所述待檢測(cè)網(wǎng)頁中是否存在已確定的惡意鏈接和/或其對(duì)應(yīng)的篡改關(guān)鍵詞。[0077]本發(fā)明中,根據(jù)篡改特征庫檢測(cè)出網(wǎng)頁中存在篡改內(nèi)容后,從所述篡改內(nèi)容中提取惡意鏈接?,F(xiàn)有的網(wǎng)頁檢測(cè)方法中,通常都是篡改特征庫中的篡改特征對(duì)待檢測(cè)網(wǎng)頁的源碼進(jìn)行匹配,若命中則認(rèn)為網(wǎng)頁被篡改,若沒有命中,則認(rèn)為待檢測(cè)網(wǎng)頁是安全的,將其顯示給用戶。但是目前惡意鏈接的插入方式層出不窮,日益變化。而使用固定的篡改特征庫或者利用人工手動(dòng)更新篡改特征庫顯然是跟不上步伐的。[0078]基于此,本發(fā)明在檢測(cè)出網(wǎng)頁被篡改后,還從篡改內(nèi)容中提取惡意鏈接,以便之后根據(jù)該惡意鏈接對(duì)其它網(wǎng)頁進(jìn)一步進(jìn)行檢測(cè)。[0079]—般情況下,在被篡改的網(wǎng)頁內(nèi)容中,惡意鏈接都會(huì)對(duì)應(yīng)特定的篡改關(guān)鍵詞,在提取惡意鏈接的同時(shí)還需要提取與其對(duì)應(yīng)的篡改關(guān)鍵詞,并將所述惡意鏈接與篡改關(guān)鍵詞對(duì)應(yīng)存儲(chǔ)在數(shù)據(jù)庫中,以便進(jìn)一步利用。[0080]例如:下面的惡意鏈接:[0081]<ahref=“http://www.45u.com”style=”display:none;”〉傳奇私服發(fā)布</a>。[0082]同時(shí)提取出的篡改關(guān)鍵詞可以為“display:none”,其表示該連接的顯示屬性為不可見。[0083]步驟102中,若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,則將其存入惡意鏈接庫。上一步驟中,每提取一個(gè)惡意鏈接,都將其存儲(chǔ)于數(shù)據(jù)存儲(chǔ)服務(wù)器中。[0084]本發(fā)明的方案中,為了提高檢測(cè)的準(zhǔn)確率,專門設(shè)置了惡意鏈接庫。所述惡意鏈接庫中用于存儲(chǔ)頻繁出現(xiàn)的惡意鏈接。本發(fā)明實(shí)施例中,在將所提取惡意鏈接存儲(chǔ)在數(shù)據(jù)存儲(chǔ)服務(wù)器的同時(shí),還統(tǒng)計(jì)其出現(xiàn)的次數(shù),如果統(tǒng)計(jì)某個(gè)惡意鏈接的出現(xiàn)次數(shù)超過第一預(yù)定閾值,則將該惡意鏈接存儲(chǔ)至惡意鏈接庫中。[0085]可選地,還可以將數(shù)據(jù)存儲(chǔ)服務(wù)器中的惡意鏈接根據(jù)其出現(xiàn)頻率進(jìn)行排名,并在一段時(shí)間內(nèi)排名靠前的惡意鏈接存儲(chǔ)至惡意鏈接庫中。[0086]例如,檢測(cè)到黑鏈http:LLwww.45u.com出現(xiàn)次數(shù)超過預(yù)定閾倌(如100次),則將其存入惡意鏈接庫中。[0087]步驟103中,若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,則根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,對(duì)命中的惡意鏈接進(jìn)行標(biāo)記。[0088]為提高檢測(cè)的準(zhǔn)確率,本發(fā)明不僅僅利用篡改特征庫檢測(cè)網(wǎng)頁的篡改內(nèi)容,其還利用惡意鏈接庫中的惡意鏈接對(duì)網(wǎng)頁進(jìn)行檢測(cè)。由于篡改特征庫相對(duì)穩(wěn)定且更新不及時(shí),因此對(duì)于很多新出現(xiàn)的惡意鏈接插入方式,利用篡改特征庫無法檢測(cè)出篡改內(nèi)容。因此,本發(fā)明的方案中,對(duì)無法根據(jù)所述篡改規(guī)則庫檢測(cè)到篡改內(nèi)容的網(wǎng)頁,還根據(jù)所述惡意鏈接庫中的惡意鏈接進(jìn)行檢測(cè)。[0089]本發(fā)明實(shí)施例中,利用惡意鏈接庫中的惡意鏈接匹配所述網(wǎng)頁源碼中的內(nèi)容,若網(wǎng)頁源碼中存在與所述惡意鏈接庫中的惡意鏈接相匹配的內(nèi)容,則認(rèn)為該網(wǎng)頁被篡改,并將該匹配的惡意鏈接進(jìn)行標(biāo)記。標(biāo)記的目的是為了統(tǒng)計(jì)惡意鏈接庫中的惡意鏈接的命中次數(shù)。如果惡意鏈接庫中的惡意鏈接命中次數(shù)高,說明該惡意鏈接比較活躍,其在網(wǎng)頁中出現(xiàn)的概率相對(duì)較大;而對(duì)于命中次數(shù)低的惡意鏈接,其活躍度較低,其可能僅在極少數(shù)的網(wǎng)頁中才會(huì)出現(xiàn)。[0090]本發(fā)明實(shí)施例中,可以通過為惡意鏈接庫中的每個(gè)惡意鏈接設(shè)置一命中權(quán)重來標(biāo)記其命中次數(shù)。若使用惡意鏈接庫中的惡意鏈接命中檢測(cè)網(wǎng)頁中的篡改內(nèi)容,則將該惡意鏈接的命中權(quán)重加I。[0091]本發(fā)明其它實(shí)施例中,還可以通過惡意鏈接的命中次數(shù)進(jìn)行排名來標(biāo)記其命中次數(shù),即將惡意鏈接庫中的惡意鏈接根據(jù)其命中此處進(jìn)行排名。[0092]例如,惡意鏈接〈ahref=“http://www.45u.com”style=”display:none;”>傳奇私服發(fā)布〈/a>的一個(gè)變種:〈ahref=“http://www.45u.com”style=^margin-left:-83791;”〉傳奇私服發(fā)布〈/a>出現(xiàn),原有的篡改特征不能識(shí)別出此變種,但惡意鏈接庫中的http://www.45u.com的權(quán)重會(huì)不斷提高。[0093]步驟104中,根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則,并加入篡改特征庫中。[0094]本發(fā)明的方案中,為提高檢測(cè)準(zhǔn)確率和檢測(cè)效率,還根據(jù)惡意鏈接庫中命中次數(shù)較高的惡意鏈接生成新的篡改特征規(guī)則,并將其加入到篡改特征庫中。例如,利用惡意鏈接庫對(duì)網(wǎng)頁的檢測(cè)過程中,某個(gè)惡意鏈接經(jīng)常出現(xiàn)在待檢測(cè)網(wǎng)頁中,即其命中次數(shù)較高,則說明該惡意鏈接出現(xiàn)在其他網(wǎng)頁中的概率也會(huì)比較高。因此,根據(jù)命中次數(shù)高的惡意鏈接生成篡改特征規(guī)則,并將其加入篡改特征規(guī)則庫顯然能提高檢測(cè)效率及準(zhǔn)確率。[0095]本發(fā)明實(shí)施例中,預(yù)先設(shè)定一閾值,當(dāng)惡意鏈接庫中的惡意鏈接的命中次數(shù)高于該預(yù)定閾值時(shí),則自動(dòng)生成對(duì)應(yīng)于該惡意鏈接的篡改特征規(guī)則,并將其存儲(chǔ)于篡改特征庫中,以便在檢測(cè)新的網(wǎng)頁時(shí),還可以利用該新生成的篡改特征規(guī)則對(duì)新的網(wǎng)頁進(jìn)行檢測(cè)。[0096]本發(fā)明其它實(shí)施例中,對(duì)于根據(jù)命中次數(shù)進(jìn)行排名的惡意鏈接庫,預(yù)先設(shè)置一閾值,對(duì)于排名次數(shù)大于該預(yù)設(shè)閾值的惡意鏈接,自動(dòng)生成與其對(duì)應(yīng)的篡改特征規(guī)則,并將該篡改特征加入到篡改特征規(guī)則庫中,以便在檢測(cè)新的網(wǎng)頁時(shí),還可以利用該新生成的篡改特征規(guī)則對(duì)新的網(wǎng)頁進(jìn)行檢測(cè)。[0097]可選地,所述篡改規(guī)則特征可以是包含惡意鏈接和/或篡改關(guān)鍵詞的正則表達(dá)式。本發(fā)明的方案中,從網(wǎng)頁中提取惡意鏈接的同時(shí)還提取與其對(duì)應(yīng)的篡改關(guān)鍵詞,并且篡改關(guān)鍵詞與所述惡意鏈接對(duì)應(yīng)存儲(chǔ)。對(duì)于符合條件的惡意鏈接,可以根據(jù)惡意鏈接和/或篡改關(guān)鍵詞來生成相應(yīng)的篡改特征規(guī)則。[0098]如前所述,正則表達(dá)式通常是根據(jù)普通字符和元字符來生成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊含義。正則表達(dá)式的匹配可以理解為,在給定的字符串中,尋找與給定的正則表達(dá)式相匹配的部分。有可能字符串里有不止一個(gè)部分滿足給定的正則表達(dá)式,這時(shí)每一個(gè)這樣的部分被稱為一個(gè)匹配。對(duì)于一個(gè)給定的惡意鏈接和/或篡改關(guān)鍵詞,其中的字母和/或數(shù)字作為正則表達(dá)式中的普通字符,而用于匹配惡意鏈接和/或篡改關(guān)鍵詞的一些規(guī)則則用元字符來表示。[0099]例如,對(duì)于惡意鏈接:[0100]<ahref=“http://www.45u.com”style=^margin-left:-83791;”〉;[0101]其對(duì)應(yīng)的正則表達(dá)式可以為:[0102]<a\s*href\s*=["V].+?["V]\s*style=["V][\w+\-]+:-[0_9]+.*?["\'].*?>.*?〈/a>;[0103]例如,對(duì)于惡意鏈接:[0104]<ahref=“http://www.45u.com,,style=“display:none;”〉;[0105]其對(duì)應(yīng)的正則表達(dá)式可以為:[0106]<a\s*href\s*=["\'].+?["\']\s*style=["\']display:none["V]〈/a>。[0107]當(dāng)然,上述正則表達(dá)式的表示方式僅僅用作示例,本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況采用任一種正則表達(dá)式的表示方式都是可行的,本申請(qǐng)對(duì)此無需加以限制。[0108]本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上面僅示例性的介紹了本發(fā)明所提出的網(wǎng)頁篡改的檢測(cè)方法的一部分【具體實(shí)施方式】,其中僅涵蓋了使用正則表達(dá)式對(duì)篡改特征規(guī)則的表達(dá),以及使用黑鏈和掛馬鏈接介紹了惡意鏈接,而其他對(duì)能夠匹配網(wǎng)頁內(nèi)容的規(guī)則表達(dá)式以及其它惡意鏈接均可沿用上述方法,對(duì)其進(jìn)行擴(kuò)展或變形,只要是通過提取檢測(cè)出篡改后的網(wǎng)頁中的惡意鏈接,并利用惡意鏈接自動(dòng)生成篡改特征規(guī)則的方式均涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。[0109]需要說明的是,對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請(qǐng)并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本申請(qǐng),某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本申請(qǐng)所必須的。[0110]圖2示出了本發(fā)明提出的一種網(wǎng)頁篡改的檢測(cè)裝置的結(jié)構(gòu)示意圖。如圖2所示,該裝置包括:[0111]第一檢測(cè)模塊201,其根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接;[0112]寫入模塊202,若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,其將該所述惡意鏈接存入惡意鏈接庫;[0113]第二檢測(cè)模塊203,若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,其根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,并對(duì)命中的惡意鏈接進(jìn)行標(biāo)記;[0114]規(guī)則生成模塊204,其根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則,并加入篡改特征庫中。[0115]下面根據(jù)具體的實(shí)施例對(duì)本發(fā)明提出上述網(wǎng)頁篡改的檢測(cè)裝置的各個(gè)模塊進(jìn)行詳細(xì)說明。[0116]第一檢測(cè)模塊201中,其根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接。[0117]所謂網(wǎng)頁篡改就是一些具有不良企圖的組織或個(gè)人通過掃描服務(wù)器的弱口令、漏洞,獲得網(wǎng)站的賬戶權(quán)限后,對(duì)網(wǎng)站的網(wǎng)頁源碼進(jìn)行惡意修改。最典型的一種修改方式就是在網(wǎng)頁源碼中插入惡意鏈接,如掛馬鏈接和黑鏈等。[0118]掛馬鏈接主要目的是散播木馬病毒或騙取流量和點(diǎn)擊率等。掛馬鏈接的插入方式多種多樣,如通過iframe框架進(jìn)行掛馬鏈接的插入:[0119]<iframesrc=h11P://www.xxx.com/example,htmlwidth=0height=0><iframe>[0120]上述插入在網(wǎng)頁源碼中的語句表示在打開某一網(wǎng)站“www.XXX.com”的同時(shí),打開另一個(gè)網(wǎng)頁“example,html”,而“example,html”網(wǎng)頁極有可能包含大量的木馬病毒,也可能僅僅是為了騙取流量或點(diǎn)擊率。掛馬方式多種多樣,上面僅為舉例說明,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解本發(fā)明中涉及的掛馬方式不限于此。[0121]而插入黑鏈的主要目標(biāo)就是提升自己在搜索引擎中的排名。萬維網(wǎng)成為大量信息的載體,為有效地提取并利用這些信息,搜索引擎(SearchEngine)作為一個(gè)輔助人們檢索信息的工具,成為用戶訪問萬維網(wǎng)的入口和指南。[0122]現(xiàn)有的黑鏈技術(shù)中,隱藏鏈接有一些固定技巧,例如搜索引擎對(duì)javascript的識(shí)別不是很好,通過javascript來輸出隱藏的div。這樣的話,人工直接通過頁面無法看到這些鏈接,而搜索引擎確認(rèn)為這些鏈接是有效的。代碼為:首先通過javascript寫前面的div,設(shè)置display為none。然后輸出一個(gè)table,table中包含了要掛的黑鏈。最后再通過javascript輸出后半部分div。[0123]例如,黑客通過在網(wǎng)頁的源碼插入下面語句,在目標(biāo)網(wǎng)頁中插入黑鏈:[0124]<ahref=“http://www.45u.com”style=”margin-left:-83791;”〉傳奇私服發(fā)布〈/a>[0125]其中,通過設(shè)置“style='display:none;丨”,使得該黑鏈在網(wǎng)頁中不可見。[0126]為檢測(cè)網(wǎng)頁中含有的惡意鏈接,目前很多安全工具、搜索引擎甚至瀏覽器本身都配備了一些檢測(cè)網(wǎng)頁是否被篡改的工具或插件等。而這些工具和/或插件的檢測(cè)方式也各有不同,最常用的方式就是通過一定的方式遍歷網(wǎng)頁源碼中是否存在一些異常的鏈接和/或關(guān)鍵詞等。[0127]本發(fā)明實(shí)施例中,通過篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容。所述篡改特征庫是由多個(gè)篡改關(guān)鍵詞和/或惡意鏈接的正則表達(dá)式所組成。對(duì)于待檢測(cè)網(wǎng)頁,首先獲取其源碼,然后利用現(xiàn)有的篡改特征庫中的正則表達(dá)式匹配所述源碼,以獲取與正則表達(dá)式相一致的內(nèi)容。如果通過篡改特征庫中的正則表達(dá)式命中待檢測(cè)網(wǎng)頁中的內(nèi)容,則說明該待檢測(cè)網(wǎng)頁中存在篡改內(nèi)容。[0128]正則表達(dá)式是用于進(jìn)行文本匹配的工具,通常由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義。正則表達(dá)式的匹配可以理解為,在給定的字符串中,尋找與給定的正則表達(dá)式相匹配的部分。有可能字符串里有不止一個(gè)部分滿足給定的正則表達(dá)式,這時(shí)每一個(gè)這樣的部分被稱為一個(gè)匹配。匹配在本文里可以包括三種含義:一種是形容詞性的,比如說一個(gè)字符串匹配一個(gè)表達(dá)式;一種是動(dòng)詞性的,比如說在字符串里匹配正則表達(dá)式;還有一種是名詞性的,就是剛剛說到的“字符串中滿足給定的正則表達(dá)式的一部分”。[0129]以下通過舉例對(duì)正則表達(dá)式的生成規(guī)則進(jìn)行說明。[0130]假設(shè)要查找hi,則可以使用正則表達(dá)式hi。這個(gè)正則表達(dá)式可以精確匹配這樣的字符串:由兩個(gè)字符組成,前一個(gè)字符是h,后一個(gè)是i。在實(shí)際中,正則表達(dá)式是可以忽略大小寫的。如果很多單詞里都包含hi這兩個(gè)連續(xù)的字符,比如him,history,high等等。用hi來查找的話,這此單詞里面的hi也會(huì)被找出來。如果要精確地查找hi這個(gè)單詞的話,則應(yīng)該使用\bhi\b。其中,\b是正則表達(dá)式的一個(gè)元字符,它代表著單詞的開頭或結(jié)尾,也就是單詞的分界處。雖然通常英文的單詞是由空格或標(biāo)點(diǎn)符號(hào)或換行來分隔的,但是\b并不匹配這些單詞分隔符中的任何一個(gè),它只匹配一個(gè)位置。假如要找的是hi后面不遠(yuǎn)處跟著一個(gè)Lucy,貝U應(yīng)該用\bhi\b.*\bLucy\b。其中,.是另一個(gè)元字符,匹配除了換行符以外的任意字符。*同樣是元字符,它代表的是數(shù)量——即指定*前邊的內(nèi)容可以連續(xù)重復(fù)出現(xiàn)任意次以使整個(gè)表達(dá)式得到匹配。現(xiàn)在\bhi\b.*\bLucy\b的意思就很明顯了:先是一個(gè)單詞hi,然后是任意個(gè)任意字符(但不能是換行),最后是Lucy這個(gè)單詞。[0131]例如,篡改特征庫中篡改特征規(guī)則對(duì)應(yīng)的正則表達(dá)式如下所示:[0132]〈script.*?>document\.write.*?\(.*?\+.*?\+.*?\+.*?\+.*?\+.*?\).*?〈/script〉([\S\s]+?)〈/div>[0133]則該正則表達(dá)式在網(wǎng)頁中匹配命中的網(wǎng)頁元素可以為:[0134]<script>document.write('<d'+'ivst'+'yle'+'="po'+'si,+'tio/+'n:a'+'bso/+'lu'+'te;1,+,ef+,t:'+,-,+,10,+,00,+,0,+,p,+,X;'+""+,>,)>XXXX<script>cbcuiBnt.write〈'+'/d'+'i'+'V>');</script〉[0135]可見,篡改特征規(guī)則對(duì)應(yīng)的正則表達(dá)式用于匹配網(wǎng)頁中具有特定格式的網(wǎng)頁內(nèi)容,如具有“〈script>document.write”和“<script>document.write('<1+1/d'+1i1+1v>');</script〉”元素的內(nèi)容等。[0136]或如,另一篡改特征規(guī)則對(duì)應(yīng)的正則表達(dá)式如下所示:[0137]<a\s*href\s*=["\1].+?["V]\s*style=["\1][\w+\-]+:-[0_9]+.*?["V].*?>.*?〈/a>。[0138]通過該篡改特征規(guī)則能夠命中的頁面元素可以為:[0139]〈ahref=“http://www.45u.com,,style=,,margin-left:-83791;”〉;[0140]該正則表達(dá)式用于匹配網(wǎng)頁中出現(xiàn)“〈ahref=”且其后面跟隨的篡改關(guān)鍵詞“style”的值中存在負(fù)值(負(fù)值表示其不在顯示區(qū)域中顯示)的網(wǎng)頁內(nèi)容。[0141]當(dāng)然,上述正則表達(dá)式的表示方式僅僅用作示例,本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況采用任一種正則表達(dá)式的表示方式都是可行的,本申請(qǐng)對(duì)此無需加以限制。[0142]本發(fā)明實(shí)施例中,可以通過所述正則表達(dá)式匹配分析所述待檢測(cè)網(wǎng)頁中的頁面元素位置和顯示方式,來判定其是否為被篡改的內(nèi)容。例如,判斷黑鏈篡改時(shí),可以通過正則表達(dá)式匹配判斷所述待檢測(cè)網(wǎng)頁中的頁面元素的位置是否不在預(yù)設(shè)閾值范圍內(nèi),或者所述頁面元素是否具有不可見的屬性,和/或,所述頁面元素是否對(duì)瀏覽器隱藏等,若是,則判定所述待檢測(cè)頁面中的所述頁面元素為被篡改內(nèi)容。例如,若檢測(cè)到某個(gè)頁面的超鏈接是不可見的,或者,頁面中某個(gè)html標(biāo)簽元素的長(zhǎng)寬高是負(fù)值,則可判定該頁面被篡改的內(nèi)容。[0143]本發(fā)明實(shí)施例中,還可以通過正則表達(dá)式匹配所述待檢測(cè)網(wǎng)頁中是否存在已確定的惡意鏈接和/或其對(duì)應(yīng)的篡改關(guān)鍵詞。[0144]本發(fā)明中,根據(jù)篡改特征庫檢測(cè)出網(wǎng)頁中存在篡改內(nèi)容后,從所述篡改內(nèi)容中提取惡意鏈接。現(xiàn)有的網(wǎng)頁檢測(cè)方法中,通常都是篡改特征庫中的篡改特征對(duì)待檢測(cè)網(wǎng)頁的源碼進(jìn)行匹配,若命中則認(rèn)為網(wǎng)頁被篡改,若沒有命中,則認(rèn)為待檢測(cè)網(wǎng)頁是安全的,將其顯示給用戶。但是目前惡意鏈接的插入方式層出不窮,日益變化。而使用固定的篡改特征庫或者利用人工手動(dòng)更新篡改特征庫顯然是跟不上步伐的。[0145]基于此,本發(fā)明在檢測(cè)出網(wǎng)頁被篡改后,還從篡改內(nèi)容中提取惡意鏈接,以便之后根據(jù)該惡意鏈接對(duì)其它網(wǎng)頁進(jìn)一步進(jìn)行檢測(cè)。[0146]一般情況下,在被篡改的網(wǎng)頁內(nèi)容中,惡意鏈接都會(huì)對(duì)應(yīng)特定的篡改關(guān)鍵詞,在提取惡意鏈接的同時(shí)還需要提取與其對(duì)應(yīng)的篡改關(guān)鍵詞,并將所述惡意鏈接與篡改關(guān)鍵詞對(duì)應(yīng)存儲(chǔ)在數(shù)據(jù)庫中,以便進(jìn)一步利用。[0147]例如:下面的惡意鏈接:[0148]<ahref=“http://www.45u.com”style=”display:none;”〉傳奇私服發(fā)布</a>。[0149]同時(shí)提取出的篡改關(guān)鍵詞可以為“display:none”,其表示該連接的顯示屬性為不可見。[0150]寫入模塊202中,若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,其將所述惡意鏈接存入惡意鏈接庫。上一步驟中,每提取一個(gè)惡意鏈接,都將其存儲(chǔ)于數(shù)據(jù)存儲(chǔ)服務(wù)器中。[0151]本發(fā)明的方案中,為了提高檢測(cè)的準(zhǔn)確率,專門設(shè)置了惡意鏈接庫。所述惡意鏈接庫中用于存儲(chǔ)頻繁出現(xiàn)的惡意鏈接。本發(fā)明實(shí)施例中,在將所提取惡意鏈接存儲(chǔ)在數(shù)據(jù)存儲(chǔ)服務(wù)器的同時(shí),還統(tǒng)計(jì)其出現(xiàn)的次數(shù),如果統(tǒng)計(jì)某個(gè)惡意鏈接的出現(xiàn)次數(shù)超過第一預(yù)定閾值,則將該惡意鏈接存儲(chǔ)至惡意鏈接庫中。[0152]可選地,還可以將數(shù)據(jù)存儲(chǔ)服務(wù)器中的惡意鏈接根據(jù)其出現(xiàn)頻率進(jìn)行排名,并在一段時(shí)間內(nèi)排名靠前的惡意鏈接存儲(chǔ)至惡意鏈接庫中。[0153]第二檢測(cè)模塊203中,若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,則其根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,對(duì)命中的惡意鏈接進(jìn)行標(biāo)記。[0154]為提高檢測(cè)的準(zhǔn)確率,本發(fā)明不僅僅利用篡改特征庫檢測(cè)網(wǎng)頁的篡改內(nèi)容,其還利用惡意鏈接庫中的惡意鏈接對(duì)網(wǎng)頁進(jìn)行檢測(cè)。由于篡改特征庫相對(duì)穩(wěn)定且更新不及時(shí),因此對(duì)于很多新出現(xiàn)的惡意鏈接插入方式,利用篡改特征庫無法檢測(cè)出篡改內(nèi)容。因此,本發(fā)明的方案中,對(duì)無法根據(jù)所述篡改規(guī)則庫檢測(cè)到篡改內(nèi)容的網(wǎng)頁,還根據(jù)所述惡意鏈接庫中的惡意鏈接進(jìn)行檢測(cè)。[0155]本發(fā)明實(shí)施例中,利用惡意鏈接庫中的惡意鏈接匹配所述網(wǎng)頁源碼中的內(nèi)容,若網(wǎng)頁源碼中存在與所述惡意鏈接庫中的惡意鏈接相匹配的內(nèi)容,則認(rèn)為該網(wǎng)頁被篡改,并將該匹配的惡意鏈接進(jìn)行標(biāo)記。標(biāo)記的目的是為了統(tǒng)計(jì)惡意鏈接庫中的惡意鏈接的命中次數(shù)。如果惡意鏈接庫中的惡意鏈接命中次數(shù)高,說明該惡意鏈接比較活躍,其在網(wǎng)頁中出現(xiàn)的概率相對(duì)較大;而對(duì)于命中次數(shù)低的惡意鏈接,其活躍度較低,其可能僅在極少數(shù)的網(wǎng)頁中才會(huì)出現(xiàn)。[0156]本發(fā)明實(shí)施例中,可以通過為惡意鏈接庫中的每個(gè)惡意鏈接設(shè)置一命中權(quán)重來標(biāo)記其命中次數(shù)。若使用惡意鏈接庫中的惡意鏈接命中檢測(cè)網(wǎng)頁中的篡改內(nèi)容,則將該惡意鏈接的命中權(quán)重加I。[0157]本發(fā)明其它實(shí)施例中,還可以通過惡意鏈接的命中次數(shù)進(jìn)行排名來標(biāo)記其命中次數(shù),即將惡意鏈接庫中的惡意鏈接根據(jù)其命中此處進(jìn)行排名。[0158]規(guī)則生成模塊204中,其根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)貝U,并加入篡改特征庫中。[0159]本發(fā)明的方案中,為提高檢測(cè)準(zhǔn)確率和檢測(cè)效率,還根據(jù)惡意鏈接庫中命中次數(shù)較高的惡意鏈接生成新的篡改特征規(guī)則,并將其加入到篡改特征庫中。例如,利用惡意鏈接庫對(duì)網(wǎng)頁的檢測(cè)過程中,某個(gè)惡意鏈接經(jīng)常出現(xiàn)在待檢測(cè)網(wǎng)頁中,即其命中次數(shù)較高,則說明該惡意鏈接出現(xiàn)在其他網(wǎng)頁中的概率也會(huì)比較高。因此,根據(jù)命中次數(shù)高的惡意鏈接生成篡改特征規(guī)則,并將其加入篡改特征規(guī)則庫顯然能提高檢測(cè)效率及準(zhǔn)確率。[0160]本發(fā)明實(shí)施例中,預(yù)先設(shè)定一閾值,當(dāng)惡意鏈接庫中的惡意鏈接的命中次數(shù)高于該預(yù)定閾值時(shí),則自動(dòng)生成對(duì)應(yīng)于該惡意鏈接的篡改特征規(guī)則,并將其存儲(chǔ)于篡改特征庫中,以便在檢測(cè)新的網(wǎng)頁時(shí),還可以利用該新生成的篡改特征規(guī)則對(duì)新的網(wǎng)頁進(jìn)行檢測(cè)。[0161]本發(fā)明其它實(shí)施例中,對(duì)于根據(jù)命中次數(shù)進(jìn)行排名的惡意鏈接庫,預(yù)先設(shè)置一閾值,對(duì)于排名次數(shù)大于該預(yù)設(shè)閾值的惡意鏈接,自動(dòng)生成與其對(duì)應(yīng)的篡改特征規(guī)則,并將該篡改特征加入到篡改特征規(guī)則庫中,以便在檢測(cè)新的網(wǎng)頁時(shí),還可以利用該新生成的篡改特征規(guī)則對(duì)新的網(wǎng)頁進(jìn)行檢測(cè)。[0162]可選地,所述篡改規(guī)則特征可以是包含惡意鏈接和/或篡改關(guān)鍵詞的正則表達(dá)式。本發(fā)明的方案中,從網(wǎng)頁中提取惡意鏈接的同時(shí)還提取與其對(duì)應(yīng)的篡改關(guān)鍵詞,并且篡改關(guān)鍵詞與所述惡意鏈接對(duì)應(yīng)存儲(chǔ)。對(duì)于符合條件的惡意鏈接,可以根據(jù)惡意鏈接和/或篡改關(guān)鍵詞來生成相應(yīng)的篡改特征規(guī)則。[0163]如前所述,正則表達(dá)式通常是根據(jù)普通字符和元字符來生成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊含義。正則表達(dá)式的匹配可以理解為,在給定的字符串中,尋找與給定的正則表達(dá)式相匹配的部分。有可能字符串里有不止一個(gè)部分滿足給定的正則表達(dá)式,這時(shí)每一個(gè)這樣的部分被稱為一個(gè)匹配。對(duì)于一個(gè)給定的惡意鏈接和/或篡改關(guān)鍵詞,其中的字母和/或數(shù)字作為正則表達(dá)式中的普通字符,而用于匹配惡意鏈接和/或篡改關(guān)鍵詞的一些規(guī)則則用元字符來表示。[0164]例如,對(duì)于惡意鏈接:[0165]<ahref=“http://www.45u.com,,style=umargin-left:-83791;”〉;[0166]其對(duì)應(yīng)的正則表達(dá)式可以為:[0167]<a\s*href\s*=["V].+?["V]\s*style=["V][\w+\-]+:-[0_9]+.*?["V].*?>.*?〈/a>;[0168]例如,對(duì)于惡意鏈接:[0169]<ahref=“http://www.45u.com,,style=“display:none;”〉;[0170]其對(duì)應(yīng)的正則表達(dá)式可以為:[0171]<a\s*href\s*=["\!].+?["\!]\s*style=["\!]display:none[,fV]〈/a>。[0172]當(dāng)然,上述正則表達(dá)式的表示方式僅僅用作示例,本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況采用任一種正則表達(dá)式的表示方式都是可行的,本申請(qǐng)對(duì)此無需加以限制。[0173]本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上面僅示例性的介紹了本發(fā)明所提出的網(wǎng)頁篡改的檢測(cè)裝置的一部分【具體實(shí)施方式】,其中僅涵蓋了使用正則表達(dá)式對(duì)篡改特征規(guī)則的表達(dá),以及使用黑鏈和掛馬鏈接介紹了惡意鏈接,而其他對(duì)能夠匹配網(wǎng)頁內(nèi)容的規(guī)則表達(dá)式以及其它惡意鏈接均可沿用上述裝置實(shí)現(xiàn)的功能,對(duì)其進(jìn)行擴(kuò)展或變形,只要是通過提取檢測(cè)出篡改后的網(wǎng)頁中的惡意鏈接,并利用惡意鏈接自動(dòng)生成篡改特征規(guī)則的方式均涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。[0174]由于所述裝置實(shí)施例基本相應(yīng)于前述圖1所示的方法實(shí)施例,故本實(shí)施例的描述中未詳盡之處,可以參見前述實(shí)施例中的相關(guān)說明,在此就不贅述了。[0175]Al、一種網(wǎng)頁篡改的檢測(cè)方法,包括:[0176]根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接;[0177]若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,則將其存入惡意鏈接庫;[0178]若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,則根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,對(duì)命中的惡意鏈接進(jìn)行標(biāo)記;[0179]根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則,并加入篡改特征庫中。[0180]A2、如權(quán)利要求1所述的網(wǎng)頁篡改的檢測(cè)方法,其中,在提取所述篡改內(nèi)容中的惡意鏈接的同時(shí)還提取出與其對(duì)應(yīng)的篡改關(guān)鍵詞。[0181]A3、如權(quán)利要求2所述的網(wǎng)頁篡改的檢測(cè)方法,其中,根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則步驟中包括:利用所述惡意鏈接和/或與其對(duì)應(yīng)的篡改關(guān)鍵詞生成新的篡改特征規(guī)則。[0182]A4、如權(quán)利要求1-3任一項(xiàng)所述的網(wǎng)頁篡改的檢測(cè)方法,其中,所述篡改特征庫包含篡改關(guān)鍵詞和/或惡意鏈接的正則表達(dá)式。[0183]A5、如權(quán)利要求1所述的網(wǎng)頁篡改的檢測(cè)方法,其中,在根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容時(shí),如果所述網(wǎng)頁的內(nèi)容命中所述惡意鏈接庫中的惡意鏈接,則標(biāo)記所述惡意鏈接的命中權(quán)重加I。[0184]A6、如權(quán)利要求5所述的網(wǎng)頁篡改的檢測(cè)方法,其中,根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則的步驟中包括:根據(jù)標(biāo)記的命中權(quán)重高于第二預(yù)定閾值的惡意鏈接生成新的篡改特征規(guī)則。[0185]A7、如權(quán)利要求1-3、5_6任一項(xiàng)所述的網(wǎng)頁篡改的檢測(cè)方法,其中,所述惡意鏈接包括黑鏈、掛馬鏈接。[0186]AS、一種網(wǎng)頁篡改的檢測(cè)裝置,其包括:[0187]第一檢測(cè)模塊,其根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接;[0188]寫入模塊,若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,其將該所述惡意鏈接存入惡意鏈接庫;[0189]第二檢測(cè)模塊,若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,其根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,并對(duì)命中的惡意鏈接進(jìn)行標(biāo)記;[0190]規(guī)則生成模塊,其根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則,并加入篡改特征庫中。[0191]A9、如權(quán)利要求8所述的網(wǎng)頁篡改的檢測(cè)裝置,其中,所述第一檢測(cè)模塊在提取所述篡改內(nèi)容中的惡意鏈接的同時(shí)還提取出與其對(duì)應(yīng)的篡改關(guān)鍵詞。[0192]A10、如權(quán)利要求9所述的網(wǎng)頁篡改的檢測(cè)裝置,其中,所述規(guī)則生成模塊利用所述惡意鏈接和/或與其對(duì)應(yīng)的篡改關(guān)鍵詞生成新的篡改特征規(guī)則。[0193]AU、如權(quán)利要求8-10任一項(xiàng)所述的網(wǎng)頁篡改的檢測(cè)裝置,其中,所述篡改特征庫包含篡改關(guān)鍵詞和/或惡意鏈接的正則表達(dá)式。[0194]A12、如權(quán)利要求8所述的網(wǎng)頁篡改的檢測(cè)裝置,其中,第二檢測(cè)模塊在所述網(wǎng)頁的內(nèi)容命中所述惡意鏈接庫中的惡意鏈接時(shí),標(biāo)記所述惡意鏈接的命中權(quán)重加I。[0195]A13、如權(quán)利要求12所述的網(wǎng)頁篡改的檢測(cè)裝置,其中,所述規(guī)則生成模塊根據(jù)標(biāo)記的命中權(quán)重高于第二預(yù)定閾值的惡意鏈接生成新的篡改特征規(guī)則。[0196]A14、如權(quán)利要求8-10、12_13任一項(xiàng)所述的網(wǎng)頁篡改的檢測(cè)裝置,其中,所述惡意鏈接包括黑鏈、掛馬鏈接。[0197]本發(fā)明提出的上述方案可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如:個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。[0198]本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本申請(qǐng),在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。[0199]最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。[0200]以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)?!緳?quán)利要求】1.一種網(wǎng)頁篡改的檢測(cè)方法,包括:根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接;若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,則將其存入惡意鏈接庫;若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,則根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,對(duì)命中的惡意鏈接進(jìn)行標(biāo)記;根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則,并加入篡改特征庫中。2.如權(quán)利要求1所述的網(wǎng)頁篡改的檢測(cè)方法,其中,在提取所述篡改內(nèi)容中的惡意鏈接的同時(shí)還提取出與其對(duì)應(yīng)的篡改關(guān)鍵詞。3.如權(quán)利要求2所述的網(wǎng)頁篡改的檢測(cè)方法,其中,根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則步驟中包括:利用所述惡意鏈接和/或與其對(duì)應(yīng)的篡改關(guān)鍵詞生成新的篡改特征規(guī)則。4.如權(quán)利要求1-3任一項(xiàng)所述的網(wǎng)頁篡改的檢測(cè)方法,其中,所述篡改特征庫包含篡改關(guān)鍵詞和/或惡意鏈接的正則表達(dá)式。5.如權(quán)利要求1所述的網(wǎng)頁篡改的檢測(cè)方法,其中,在根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容時(shí),如果所述網(wǎng)頁的內(nèi)容命中所述惡意鏈接庫中的惡意鏈接,則標(biāo)記所述惡意鏈接的命中權(quán)重加I。6.如權(quán)利要求5所述的網(wǎng)頁篡改的檢測(cè)方法,其中,根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則的步驟中包括:根據(jù)標(biāo)記的命中權(quán)重高于第二預(yù)定閾值的惡意鏈接生成新的篡改特征規(guī)則。7.如權(quán)利要求1-3、5-6任一項(xiàng)所述的網(wǎng)頁篡改的檢測(cè)方法,其中,所述惡意鏈接包括黑鏈、掛馬鏈接。8.—種網(wǎng)頁篡改的檢測(cè)裝置,其包括:第一檢測(cè)模塊,其根據(jù)篡改特征庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,提取所述篡改內(nèi)容中的惡意鏈接;寫入模塊,若所提取惡意鏈接的出現(xiàn)頻率高于第一預(yù)定閾值,其將該所述惡意鏈接存入惡意鏈接庫;第二檢測(cè)模塊,若根據(jù)篡改特征庫未檢測(cè)出網(wǎng)頁中的篡改內(nèi)容,其根據(jù)惡意鏈接庫檢測(cè)網(wǎng)頁中的篡改內(nèi)容,并對(duì)命中的惡意鏈接進(jìn)行標(biāo)記;規(guī)則生成模塊,其根據(jù)惡意鏈接庫中標(biāo)記的惡意鏈接生成新的篡改特征規(guī)則,并加入篡改特征庫中。9.如權(quán)利要求8所述的網(wǎng)頁篡改的檢測(cè)裝置,其中,所述第一檢測(cè)模塊在提取所述篡改內(nèi)容中的惡意鏈接的同時(shí)還提取出與其對(duì)應(yīng)的篡改關(guān)鍵詞。10.如權(quán)利要求9所述的網(wǎng)頁篡改的檢測(cè)裝置,其中,所述規(guī)則生成模塊利用所述惡意鏈接和/或與其對(duì)應(yīng)的篡改關(guān)鍵詞生成新的篡改特征規(guī)則。【文檔編號(hào)】G06F21/56GK103679053SQ201310629752【公開日】2014年3月26日申請(qǐng)日期:2013年11月29日優(yōu)先權(quán)日:2013年11月29日【發(fā)明者】何振科,趙武申請(qǐng)人:北京奇虎科技有限公司,奇智軟件(北京)有限公司