本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種頁面檢測的方法和裝置。
背景技術(shù):
網(wǎng)頁是一個包含超文本標(biāo)記語言(html)標(biāo)簽的純文本文件,它可以存放在世界某個角落的某一臺計算機(jī)中,是萬維網(wǎng)中的一“頁”,網(wǎng)頁可以是商品詳情頁、新聞頁面、知識分享性頁面等。
通常,各網(wǎng)絡(luò)平臺對頁面都有一些具體要求,在頁面發(fā)布前,需要按規(guī)定對頁面進(jìn)行審核,在頁面發(fā)布后,也需要經(jīng)常對頁面進(jìn)行抽查。例如對于商品詳情頁,在內(nèi)容上需要檢測每類商品的名稱、商品簡介、圖片的內(nèi)容、二維碼規(guī)則等內(nèi)容。
現(xiàn)有技術(shù)中,對頁面的審核通常包括首次審核和后續(xù)抽查審核,分別采用如下兩種方案:
首次審核:在頁面發(fā)布前,用文本關(guān)鍵字對頁面進(jìn)行過濾,即對如商品名稱、詳情介紹等內(nèi)容進(jìn)行敏感詞過濾;
后續(xù)抽查審核:在頁面發(fā)布后,通過人工抽檢頁面,查看其名稱、簡介、圖片或二維碼等信息是否符合規(guī)定。
在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:
無論是首次審核還是后續(xù)抽查審核,除了文本等少數(shù)可以經(jīng)機(jī)器自動過濾敏感詞的信息外,對于頁面發(fā)布的其他大部分信息,如眾多圖片、二維碼等審核需要依靠人工參與審核,費(fèi)時費(fèi)力且效率及準(zhǔn)確率極低。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明實施例提供一種頁面檢測的方法和裝置,能夠解決對于頁面檢測需要依靠人工參與審核,費(fèi)時費(fèi)力且效率及準(zhǔn)確率極低的技術(shù)問題。
為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的一個方面,提供了一種頁面檢測的方法。
本發(fā)明實施例的一種頁面檢測的方法包括:基于爬蟲技術(shù)抓取頁面信息;利用正則匹配技術(shù)和圖形分析技術(shù)根據(jù)頁面檢測規(guī)則對所述頁面信息進(jìn)行檢測,以得到頁面檢測結(jié)果。
可選地,基于爬蟲技術(shù)抓取頁面信息包括:基于所述爬蟲技術(shù)獲取頁面的超文本標(biāo)記語言文件信息,分析所述超文本標(biāo)記語言文件信息得到文本信息和圖案信息。
可選地,所述頁面檢測規(guī)則包括頁面布局規(guī)則、文本規(guī)則和圖案規(guī)則。
可選地,根據(jù)頁面檢測規(guī)則對所述頁面信息進(jìn)行檢測包括:利用所述正則匹配技術(shù)根據(jù)所述文本規(guī)則對所述文本信息進(jìn)行檢測;利用所述圖形分析技術(shù)根據(jù)所述圖案規(guī)則對所述圖案信息進(jìn)行檢測;以及根據(jù)所述頁面布局規(guī)則對所述超文本標(biāo)記語言文件信息進(jìn)行檢測。
可選地,所述圖形分析技術(shù)是opencv分析技術(shù)。
為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的另一方面,提供了一種頁面檢測的裝置。
本發(fā)明實施例的一種頁面檢測的裝置包括:抓取模塊,用于基于爬蟲技術(shù)抓取頁面信息;檢測模塊,用于利用正則匹配技術(shù)和圖形分析技術(shù)根據(jù)頁面檢測規(guī)則對所述頁面信息進(jìn)行檢測,以得到頁面檢測結(jié)果。
可選地,所述抓取模塊還用于:基于所述爬蟲技術(shù)獲取頁面的超文本標(biāo)記語言文件信息,分析所述超文本標(biāo)記語言文件信息得到文本信息和圖案信息。
可選地,所述頁面檢測規(guī)則包括頁面布局規(guī)則、文本規(guī)則和圖案規(guī)則。
可選地,所述檢測模塊還用于:利用所述正則匹配技術(shù)根據(jù)所述文本規(guī)則對所述文本信息進(jìn)行檢測;利用所述圖形分析技術(shù)根據(jù)所述圖案規(guī)則對所述圖案信息進(jìn)行檢測;以及根據(jù)所述頁面布局規(guī)則對所述超文本標(biāo)記語言文件信息進(jìn)行檢測。
可選地,所述圖形分析技術(shù)是opencv分析技術(shù)。
為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的再一方面,提供了一種頁面檢測的電子設(shè)備。
本發(fā)明實施例的一種頁面檢測的電子設(shè)備包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)本發(fā)明實施例的頁面檢測的方法。
為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的又一方面,提供了一種計算機(jī)可讀介質(zhì)。
本發(fā)明實施例的一種計算機(jī)可讀介質(zhì),其上存儲有計算機(jī)程序,所述程序被處理器執(zhí)行時實現(xiàn)本發(fā)明實施例的頁面檢測的方法。
上述發(fā)明中的一個實施例具有如下優(yōu)點或有益效果:因為采用基于爬蟲技術(shù)抓取頁面信息;利用正則匹配技術(shù)和圖形分析技術(shù)根據(jù)頁面檢測規(guī)則對頁面信息進(jìn)行檢測的技術(shù)手段,所以克服了現(xiàn)有技術(shù)中對于頁面檢測需要依靠人工參與審核,費(fèi)時費(fèi)力且效率及準(zhǔn)確率極低的技術(shù)問題,進(jìn)而實現(xiàn)對頁面合規(guī)性進(jìn)行自動處理的機(jī)制,利用爬蟲技術(shù)結(jié)合文本正則匹配技術(shù)、圖形分析技術(shù)實現(xiàn)了對頁面內(nèi)容的自動分析監(jiān)控,提高了檢測效率及準(zhǔn)確率。
上述的非慣用的可選方式所具有的進(jìn)一步效果將在下文中結(jié)合具體實施方式加以說明。
附圖說明
附圖用于更好地理解本發(fā)明,不構(gòu)成對本發(fā)明的不當(dāng)限定。其中:
圖1是根據(jù)本發(fā)明實施例的頁面檢測的方法的主要流程的示意圖;
圖2是根據(jù)本發(fā)明實施例的頁面檢測的方法的實現(xiàn)框架示意圖;
圖3是根據(jù)本發(fā)明實施例的頁面檢測的方法的應(yīng)用示意圖一;
圖4是根據(jù)本發(fā)明實施例的頁面檢測的方法的應(yīng)用示意圖二;
圖5是根據(jù)本發(fā)明實施例的頁面檢測的裝置的主要模塊的示意圖;
圖6是本發(fā)明實施例可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
圖7是適于用來實現(xiàn)本發(fā)明實施例的終端設(shè)備或服務(wù)器的計算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的示范性實施例做出說明,其中包括本發(fā)明實施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。
圖1是根據(jù)本發(fā)明實施例的頁面檢測的方法的主要流程的示意圖。
如圖1所示,本發(fā)明實施例的一種頁面檢測的方法主要包括如下步驟:
步驟s101:基于爬蟲技術(shù)抓取頁面信息。
爬蟲技術(shù)是一種按照一定的規(guī)則自動地抓取萬維網(wǎng)信息的程序或者腳本,一般用于頁面搜索、商品價格抓取等。
在本發(fā)明實施例中,利用爬蟲技術(shù)根據(jù)網(wǎng)站頁面的統(tǒng)一資源定位器(url)地址,抓取所有頁面信息,并存儲所有頁面信息。通過抓取并存儲頁面信息實現(xiàn)對頁面的監(jiān)控。此外,頁面的類型可以包括商品詳情頁、新聞頁面、知識說明頁面等。
文本和圖案是構(gòu)成一個頁面的兩個最基本的元素,一個頁面對應(yīng)一個超文本標(biāo)記語言文件,其中,文本和圖案分別以不同的標(biāo)簽在超文本標(biāo)記語言文件中顯示。本發(fā)明實施例中,本步驟基于爬蟲技術(shù)獲取頁面的超文本標(biāo)記語言文件信息,分析超文本標(biāo)記語言文件信息得到文本信息和圖案信息。在超文本標(biāo)記語言文件中圖案的常用標(biāo)簽為“<img>”,文本的常用標(biāo)簽包括“<pre></pre>”、“<font></font>”、“<h1></h1>……<h6></h6>”等。
步驟s102:利用正則匹配技術(shù)和圖形分析技術(shù)根據(jù)頁面檢測規(guī)則對頁面信息進(jìn)行檢測,以得到頁面檢測結(jié)果。
正則匹配技術(shù)是一種利用正則表達(dá)式對文本進(jìn)行校驗的技術(shù)。圖形分析技術(shù)可用于圖像識別、人臉識別、圖像分割、機(jī)器視覺等多個應(yīng)用領(lǐng)域。通過正則匹配技術(shù)能夠檢測頁面的文本中是否存在某些特定的內(nèi)容,以及通過圖形分析技術(shù)的圖像識別技術(shù)對頁面里圖片內(nèi)容進(jìn)行分析,從而實現(xiàn)對頁面的檢測。
由于文本和圖案是構(gòu)成一個頁面的兩個最基本的元素,因此,對頁面進(jìn)行檢測需要分別檢測頁面的文本和圖案。本發(fā)明實施例中,頁面檢測規(guī)則包括頁面布局規(guī)則、文本規(guī)則和圖案規(guī)則。頁面布局規(guī)則可以是頁面中文本和圖案的位置要求;文本規(guī)則可以是頁面中某些位置不能出現(xiàn)哪些文字或需要有哪些文字等,圖案規(guī)則可以是圖案的內(nèi)容要求或存在特定的圖層文字等。
本發(fā)明實施中,本步驟可以通過利用正則匹配技術(shù)根據(jù)文本規(guī)則對文本信息進(jìn)行檢測;利用圖形分析技術(shù)根據(jù)圖案規(guī)則對圖案信息進(jìn)行檢測;以及根據(jù)頁面布局規(guī)則對超文本標(biāo)記語言文件信息進(jìn)行檢測。對頁面進(jìn)行檢測即基于文本規(guī)則和圖案規(guī)則分別檢測頁面的文本信息和圖案信息是否符合要求,以及基于頁面布局規(guī)則檢測頁面中文本和圖案的位置是否符合要求。
在本發(fā)明實施中,圖形分析技術(shù)是opencv分析技術(shù)。opencv是一個基于伯克利軟件套件(bsd)許可(開源)發(fā)行的跨平臺計算機(jī)視覺庫,是一種能夠?qū)崿F(xiàn)圖像處理和計算機(jī)視覺等方面通用算法的計算機(jī)視覺庫。通過opencv分析技術(shù),可自動識別商品詳情頁圖片中內(nèi)嵌二維碼,識別二維碼內(nèi)容是否合規(guī);通過opencv分析技術(shù),自動匹配圖片中商家的商標(biāo)是否合規(guī),是否有規(guī)定的圖層文字等。
根據(jù)本發(fā)明實施例的頁面檢測的方法可以看出,因為采用基于爬蟲技術(shù)抓取頁面信息;利用正則匹配技術(shù)和圖形分析技術(shù)根據(jù)頁面檢測規(guī)則對頁面信息進(jìn)行檢測的技術(shù)手段,所以克服了現(xiàn)有技術(shù)中對于頁面檢測需要依靠人工參與審核,費(fèi)時費(fèi)力且效率及準(zhǔn)確率極低的技術(shù)問題,進(jìn)而實現(xiàn)對頁面合規(guī)性進(jìn)行自動處理的機(jī)制,利用爬蟲技術(shù)結(jié)合文本正則匹配技術(shù)、圖形分析技術(shù)實現(xiàn)了對頁面內(nèi)容的自動分析監(jiān)控,提高了檢測效率及準(zhǔn)確率。
圖2是根據(jù)本發(fā)明實施例的頁面檢測的方法的實現(xiàn)框架示意圖。
如圖2所示,本發(fā)明實施例的頁面檢測的方法包括制定檢測規(guī)則、抓取頁面和檢測頁面三部分。其中:
制定檢測規(guī)則:即制定對應(yīng)的頁面檢測規(guī)則,包括頁面布局規(guī)則、文本規(guī)則、圖案規(guī)則。該頁面檢測規(guī)則可以根據(jù)行業(yè)或網(wǎng)站的相關(guān)規(guī)定制定。
抓取頁面:系統(tǒng)調(diào)試器定時調(diào)度爬蟲技術(shù)抓取頁面,從而得到頁面的超文本標(biāo)記語言文件信息,分析超文本標(biāo)記語言文件信息得到文本信息和圖案信息,將文本信息和圖案信息進(jìn)行存儲以便于后期檢測。
檢測頁面:系統(tǒng)調(diào)試器定時調(diào)用合規(guī)分析系統(tǒng)根據(jù)檢測規(guī)則對抓取的頁面進(jìn)行檢測,檢測結(jié)果可以通過報表或郵件等形式展示、推送。具體地,對于文本信息,利用正則匹配技術(shù)根據(jù)文本規(guī)則進(jìn)行檢測;對于圖案信息,利用圖形分析技術(shù)根據(jù)圖案規(guī)則進(jìn)行檢測;對于頁面結(jié)構(gòu),檢測頁面結(jié)構(gòu)即檢測頁面中文本和圖案的位置,分析超文本標(biāo)記語言文件信息得到頁面中文本和圖案的位置,根據(jù)頁面布局規(guī)則檢測頁面中文本和圖案的位置是否符合要求。
圖3是根據(jù)本發(fā)明實施例的頁面檢測的方法的應(yīng)用示意圖一;圖4是根據(jù)本發(fā)明實施例的頁面檢測的方法的應(yīng)用示意圖二。
以京東商城的商品詳情頁的檢測為例,其商品詳情頁的文本規(guī)則為商品簡介中包含有“京東微聯(lián)app控制”、頁面右上角是否有“爆品0元預(yù)約享低價”的正確鏈接;圖案規(guī)則為包含有“上京東,搜微聯(lián),開啟智能新生活!”、“京東微聯(lián)”以及微聯(lián)二維碼;頁面布局規(guī)則為商品簡介作為標(biāo)題。
系統(tǒng)調(diào)試器利用爬蟲技術(shù)抓取商品詳情頁的超級文本標(biāo)記語言(html)文件,分析html文件能夠得到文本信息和圖案信息,文本信息包括頁面的所有文字,圖案信息包括頁面的所有圖片,將所有的文本信息和圖片分別存儲至服務(wù)器。
系統(tǒng)調(diào)試器利用正則匹配技術(shù)根據(jù)文本規(guī)則檢測對應(yīng)于文本信息的html文件,例如,頁面標(biāo)題對應(yīng)的html文件為“<title>【奧克斯kfr-72lw/ta01+2】奧克斯(au6)3匹二級能效變頻冷暖wifi智能京東微聯(lián)app控制圓柱空調(diào)柜機(jī)(kfr-72lw/bpta01+2)【行情報價價格評測】-京東</title>”,即頁面標(biāo)題中包含有“京東微聯(lián)app控制”,如圖3所示,在頁面顯示的標(biāo)題中包含有“京東微聯(lián)app控制”。
系統(tǒng)調(diào)試器分析html文件得到頁面的圖片,利用opencv分析技術(shù)根據(jù)圖案規(guī)則檢測該圖片,如圖4所示,在頁面顯示的圖片中包含有“上京東,搜微聯(lián),開啟智能新生活!”、“京東微聯(lián)”以及微聯(lián)二維碼。例如,html文件中“<imgsrc="file:///d|/images/tupian.jpeg"/>”表示圖片的物理路徑為“d盤的images文件下名稱為tupian.jpeg”;html文件中“<imgsrc="images/tupian.jpeg"/>”表示圖片的網(wǎng)絡(luò)路徑為網(wǎng)站的主目錄下。
html標(biāo)簽是html文件中最基本的單位,例如在超文本標(biāo)記語言文件中圖案的常用標(biāo)簽為“<img>”,文本的常用標(biāo)簽包括“<title>”、“<pre></pre>”、“<font></font>”等,分析html文件中的html標(biāo)簽即可獲取到頁面的文本和圖片的位置,進(jìn)而根據(jù)頁面布局規(guī)則檢測頁面結(jié)構(gòu)。
以上是本發(fā)明實施例的頁面檢測的方法應(yīng)用于商品詳情頁檢測的具體過程,對于其它類型頁面的檢測,只需重新制定新的檢測規(guī)則,抓取頁面和頁面檢測的過程相同。
圖5是根據(jù)本發(fā)明實施例的頁面檢測的裝置的主要模塊的示意圖。
如圖5所示,本發(fā)明實施例的頁面檢測的裝置500包括:抓取模塊501和檢測模塊。
其中:
抓取模塊501,用于基于爬蟲技術(shù)抓取頁面信息;
檢測模塊502,用于利用正則匹配技術(shù)和圖形分析技術(shù)根據(jù)頁面檢測規(guī)則對所述頁面信息進(jìn)行檢測,以得到頁面檢測結(jié)果。
此外,所述抓取模塊還用于:基于所述爬蟲技術(shù)獲取頁面的超文本標(biāo)記語言文件信息,分析所述超文本標(biāo)記語言文件信息得到文本信息和圖案信息。
本發(fā)明實施例中,所述頁面檢測規(guī)則包括頁面布局規(guī)則、文本規(guī)則和圖案規(guī)則。
此外,所述檢測模塊還用于:利用所述正則匹配技術(shù)根據(jù)所述文本規(guī)則對所述文本信息進(jìn)行檢測;利用所述圖形分析技術(shù)根據(jù)所述圖案規(guī)則對所述圖案信息進(jìn)行檢測;以及根據(jù)所述頁面布局規(guī)則對所述超文本標(biāo)記語言文件信息進(jìn)行檢測。
本發(fā)明實施例中,所述圖形分析技術(shù)是opencv分析技術(shù)。
根據(jù)本發(fā)明實施例的頁面檢測的裝置可以看出,因為采用基于爬蟲技術(shù)抓取頁面信息;利用正則匹配技術(shù)和圖形分析技術(shù)根據(jù)頁面檢測規(guī)則對頁面信息進(jìn)行檢測的技術(shù)手段,所以克服了現(xiàn)有技術(shù)中對于頁面檢測需要依靠人工參與審核,費(fèi)時費(fèi)力且效率及準(zhǔn)確率極低的技術(shù)問題,進(jìn)而實現(xiàn)對頁面合規(guī)性進(jìn)行自動處理的機(jī)制,利用爬蟲技術(shù)結(jié)合文本正則匹配技術(shù)、圖形分析技術(shù)實現(xiàn)了對頁面內(nèi)容的自動分析監(jiān)控,提高了檢測效率及準(zhǔn)確率。
圖6示出了可以應(yīng)用本發(fā)明實施例的頁面檢測的方法或頁面檢測的裝置的示例性系統(tǒng)架構(gòu)600。
如圖6所示,系統(tǒng)架構(gòu)600可以包括終端設(shè)備601、602、603,網(wǎng)絡(luò)604和服務(wù)器605。網(wǎng)絡(luò)604用以在終端設(shè)備601、602、603和服務(wù)器605之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)604可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
用戶可以使用終端設(shè)備601、602、603通過網(wǎng)絡(luò)604與服務(wù)器605交互,以接收或發(fā)送消息等。終端設(shè)備601、602、603上可以安裝有各種通訊客戶端應(yīng)用,例如購物類應(yīng)用、網(wǎng)頁瀏覽器應(yīng)用、搜索類應(yīng)用等。
終端設(shè)備601、602、603可以是具有顯示屏并且支持網(wǎng)頁瀏覽的各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、膝上型便攜計算機(jī)和臺式計算機(jī)等等。
服務(wù)器605可以是提供各種服務(wù)的服務(wù)器,例如對用戶利用終端設(shè)備601、602、603所瀏覽的購物類網(wǎng)站提供支持的后臺管理服務(wù)器。后臺管理服務(wù)器可以對接收到的產(chǎn)品信息查詢請求等數(shù)據(jù)進(jìn)行分析等處理,并將處理結(jié)果(例如目標(biāo)推送信息、產(chǎn)品信息)反饋給終端設(shè)備。
需要說明的是,本發(fā)明實施例所提供的頁面檢測的方法一般由服務(wù)器605執(zhí)行,相應(yīng)地,頁面檢測的裝置一般設(shè)置于服務(wù)器605中。
應(yīng)該理解,圖6中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。
下面參考圖7,其示出了適于用來實現(xiàn)本發(fā)明實施例的終端設(shè)備的計算機(jī)系統(tǒng)700的結(jié)構(gòu)示意圖。圖7示出的終端設(shè)備僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。
如圖7所示,計算機(jī)系統(tǒng)700包括中央處理單元(cpu)701,其可以根據(jù)存儲在只讀存儲器(rom)702中的程序或者從存儲部分708加載到隨機(jī)訪問存儲器(ram)703中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚怼T趓am703中,還存儲有系統(tǒng)700操作所需的各種程序和數(shù)據(jù)。cpu701、rom702以及ram703通過總線704彼此相連。輸入/輸出(i/o)接口705也連接至總線704。
以下部件連接至i/o接口705:包括鍵盤、鼠標(biāo)等的輸入部分706;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分707;包括硬盤等的存儲部分708;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分709。通信部分709經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器710也根據(jù)需要連接至i/o接口705??刹鹦督橘|(zhì)711,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器710上,以便于從其上讀出的計算機(jī)程序根據(jù)需要被安裝入存儲部分708。
特別地,根據(jù)本發(fā)明公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機(jī)軟件程序。例如,本發(fā)明公開的實施例包括一種計算機(jī)程序產(chǎn)品,其包括承載在計算機(jī)可讀介質(zhì)上的計算機(jī)程序,該計算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機(jī)程序可以通過通信部分709從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)711被安裝。在該計算機(jī)程序被中央處理單元(cpu)701執(zhí)行時,執(zhí)行本發(fā)明的系統(tǒng)中限定的上述功能。
需要說明的是,本發(fā)明所示的計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機(jī)可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機(jī)可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本發(fā)明中,計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本發(fā)明中,計算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機(jī)可讀的信號介質(zhì)還可以是計算機(jī)可讀存儲介質(zhì)以外的任何計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖或流程圖中的每個方框、以及框圖或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實現(xiàn)。
描述于本發(fā)明實施例中所涉及到的模塊可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的模塊也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括抓取模塊和檢測模塊。其中,這些模塊的名稱在某種情況下并不構(gòu)成對該模塊本身的限定,例如,抓取模塊還可以被描述為“基于爬蟲技術(shù)抓取頁面信息的模塊”。
作為另一方面,本發(fā)明還提供了一種計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)可以是上述實施例中描述的設(shè)備中所包含的;也可以是單獨存在,而未裝配入該設(shè)備中。上述計算機(jī)可讀介質(zhì)承載有一個或者多個程序,當(dāng)上述一個或者多個程序被一個該設(shè)備執(zhí)行時,使得該設(shè)備包括:步驟s101:基于爬蟲技術(shù)抓取頁面信息;步驟s102:利用正則匹配技術(shù)和圖形分析技術(shù)根據(jù)頁面檢測規(guī)則對頁面信息進(jìn)行檢測,以得到頁面檢測結(jié)果。
根據(jù)本發(fā)明實施例的技術(shù)方案,因為采用基于爬蟲技術(shù)抓取頁面信息;利用正則匹配技術(shù)和圖形分析技術(shù)根據(jù)頁面檢測規(guī)則對頁面信息進(jìn)行檢測的技術(shù)手段,所以克服了現(xiàn)有技術(shù)中對于頁面檢測需要依靠人工參與審核,費(fèi)時費(fèi)力且效率及準(zhǔn)確率極低的技術(shù)問題,進(jìn)而實現(xiàn)對頁面合規(guī)性進(jìn)行自動處理的機(jī)制,利用爬蟲技術(shù)結(jié)合文本正則匹配技術(shù)、圖形分析技術(shù)實現(xiàn)了對頁面內(nèi)容的自動分析監(jiān)控,提高了檢測效率及準(zhǔn)確率。
上述具體實施方式,并不構(gòu)成對本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍之內(nèi)。