欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)頁(yè)改版的監(jiān)控方法及裝置與流程

文檔序號(hào):11627716閱讀:233來(lái)源:國(guó)知局
網(wǎng)頁(yè)改版的監(jiān)控方法及裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁(yè)改版的監(jiān)控方法及裝置。



背景技術(shù):

為了批量獲取互聯(lián)網(wǎng)網(wǎng)站中的數(shù)據(jù)信息,可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取數(shù)據(jù)信息。其中,爬取規(guī)則是指在同一網(wǎng)站的相同類(lèi)型網(wǎng)頁(yè)中,根據(jù)html源碼抓取位于固定節(jié)點(diǎn)上的數(shù)據(jù)信息,在獲取數(shù)據(jù)信息時(shí),需要在爬取程序中指定網(wǎng)頁(yè)包含數(shù)據(jù)信息的節(jié)點(diǎn)的網(wǎng)頁(yè)路徑。在爬取同一個(gè)網(wǎng)站相同類(lèi)型網(wǎng)頁(yè)中的更新內(nèi)容時(shí),使用固定的爬取規(guī)則僅僅適用于網(wǎng)頁(yè)布局固定的情況,當(dāng)網(wǎng)頁(yè)改版后,需要重新修改爬取程序爬取正確的數(shù)據(jù)信息,因此,對(duì)網(wǎng)頁(yè)改版的監(jiān)控是十分重要的課題。

目前,在判斷網(wǎng)頁(yè)是否進(jìn)行改版時(shí),通常是通過(guò)人工分析爬取的數(shù)據(jù)信息是否正確,進(jìn)而判斷出網(wǎng)頁(yè)是否發(fā)生改版。但是,從網(wǎng)頁(yè)改版到人為發(fā)現(xiàn)爬取的數(shù)據(jù)為錯(cuò)誤數(shù)據(jù),進(jìn)而確認(rèn)網(wǎng)頁(yè)發(fā)生改版,需要的時(shí)間較長(zhǎng),造成網(wǎng)頁(yè)改版的監(jiān)控效率較低,且對(duì)爬取的錯(cuò)誤數(shù)據(jù)信息進(jìn)行修改,增加人為操作,會(huì)導(dǎo)致爬取數(shù)據(jù)的效率和準(zhǔn)確率較低。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)改版的監(jiān)控方法及裝置,主要目的是提高網(wǎng)頁(yè)改版的監(jiān)控效率以及網(wǎng)頁(yè)爬取數(shù)據(jù)的效率和準(zhǔn)確率。

借由上述技術(shù)方案,本發(fā)明提供的一種網(wǎng)頁(yè)改版的監(jiān)控方法,包括:

檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化;

若不存在,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍;

若否,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。

借由上述技術(shù)方案,本發(fā)明提供的一種網(wǎng)頁(yè)改版的監(jiān)控裝置,包括:

檢測(cè)單元,用于檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化;

判斷單元,用于若檢測(cè)單元檢測(cè)出待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址不存在變化,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍;

確定單元,用于若判斷單元判斷出所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)不符合預(yù)設(shè)范圍,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。

借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):

本發(fā)明實(shí)施例提供的一種網(wǎng)頁(yè)改版的監(jiān)控方法及裝置,首先檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化,若不存在,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍,若否,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。與目前通過(guò)人工分析爬取的數(shù)據(jù)信息是否正確,進(jìn)而判斷網(wǎng)頁(yè)是否發(fā)生改版相比,本發(fā)明通過(guò)檢測(cè)帶監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址和網(wǎng)頁(yè)的固定結(jié)構(gòu)標(biāo)識(shí)是否發(fā)生變化,若發(fā)生變化,則輸出網(wǎng)頁(yè)改版的提示信息,以便于重新修改爬取程序,避免加入人為操作,實(shí)現(xiàn)在網(wǎng)頁(yè)改版時(shí)立刻進(jìn)行修改爬取程序,從而提高網(wǎng)頁(yè)改版的監(jiān)控效率以及網(wǎng)頁(yè)爬取數(shù)據(jù)的效率和準(zhǔn)確率。

上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。

附圖說(shuō)明

通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:

圖1示出了發(fā)明實(shí)施例提供的一種網(wǎng)頁(yè)改版的監(jiān)控方法的流程圖;

圖2示出了發(fā)明實(shí)施例提供的另一種網(wǎng)頁(yè)改版的監(jiān)控方法的流程圖;

圖3示出了發(fā)明實(shí)施例提供的一種詞網(wǎng)頁(yè)改版的監(jiān)控裝置的方框圖;

圖4示出了發(fā)明實(shí)施例提供的另一種網(wǎng)頁(yè)改版的監(jiān)控裝置的方框圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)改版的監(jiān)控方法,如圖1所示,所述方法包括:

101、檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化。

其中,所述檢測(cè)網(wǎng)頁(yè)鏈接地址是否存在變化可以為檢測(cè)網(wǎng)頁(yè)鏈接地址中字母、符號(hào)等與原有網(wǎng)頁(yè)鏈接地址中字母、符號(hào)等是否出現(xiàn)不同,還可以通過(guò)xpath提取網(wǎng)頁(yè)鏈接地址的路徑信息,xpath為xml路徑語(yǔ)言(標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言的子集),它是一種用來(lái)確定xml文檔中某部分位置的語(yǔ)言,再利用正則表達(dá)式方法進(jìn)行匹配,本發(fā)明實(shí)施例不做具體限定。例如,監(jiān)控網(wǎng)站中原有網(wǎng)頁(yè)鏈接地址為“www.abcde.aa.com”,檢測(cè)現(xiàn)有網(wǎng)頁(yè)鏈接地址“www.abcde.ac.com”與原有網(wǎng)頁(yè)鏈接地址是否發(fā)生變化。

102、若檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址不存在變化,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍。

其中,所述預(yù)設(shè)范圍可以根據(jù)網(wǎng)頁(yè)中能夠顯示的具體網(wǎng)頁(yè)鏈接地址個(gè)數(shù)設(shè)定,以接近原有網(wǎng)頁(yè)鏈接地址個(gè)數(shù)為原則,本發(fā)明實(shí)施例不做具體限定。例如,原有網(wǎng)頁(yè)鏈接地址個(gè)數(shù)為10,預(yù)設(shè)范圍可以設(shè)置為8至12。通過(guò)判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍,實(shí)現(xiàn)即時(shí)發(fā)現(xiàn)因目錄頁(yè)鏈接地址或內(nèi)容頁(yè)鏈接地址個(gè)數(shù)過(guò)少,存在一定數(shù)量過(guò)期、正在維護(hù)的或者結(jié)構(gòu)不正確的少量網(wǎng)頁(yè)時(shí)發(fā)生的改版情況,從而提高網(wǎng)頁(yè)爬取數(shù)據(jù)的準(zhǔn)確率。

對(duì)于本發(fā)明實(shí)施例,與步驟102并列的步驟:若檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址存在變化,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。

103、若判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)不符合預(yù)設(shè)范圍,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。

通過(guò)確定待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版,以便于重新修改爬取程序,從而提高網(wǎng)頁(yè)爬取數(shù)據(jù)的準(zhǔn)確率。

對(duì)于本發(fā)明實(shí)施例,具體的應(yīng)用場(chǎng)景可以如下所示,但不限于此,包括:待監(jiān)控網(wǎng)站中,原有網(wǎng)頁(yè)鏈接地址為“www.abcde.ac.com”,并有類(lèi)似的9個(gè)網(wǎng)頁(yè)鏈接地址,檢測(cè)現(xiàn)有網(wǎng)頁(yè)鏈接地址“www.abcde.ac.com”不存在變化,并檢測(cè)另8個(gè)網(wǎng)頁(yè)鏈接地址不發(fā)生變化,現(xiàn)有網(wǎng)頁(yè)鏈接地址個(gè)數(shù)10,預(yù)設(shè)范圍為8至11,符合預(yù)設(shè)范圍,則確認(rèn)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)不存在改版。

本發(fā)明實(shí)施例提供的一種網(wǎng)頁(yè)改版的監(jiān)控方法,首先檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化,若不存在,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍,若否,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。與目前通過(guò)人工分析爬取的數(shù)據(jù)信息是否正確,進(jìn)而判斷網(wǎng)頁(yè)是否發(fā)生改版相比,本發(fā)明通過(guò)檢測(cè)帶監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址和網(wǎng)頁(yè)的固定結(jié)構(gòu)標(biāo)識(shí)是否發(fā)生變化,若發(fā)生變化,則輸出網(wǎng)頁(yè)改版的提示信息,以便于重新修改爬取程序,避免加入人為操作,實(shí)現(xiàn)在網(wǎng)頁(yè)改版時(shí)立刻進(jìn)行修改爬取程序,從而提高網(wǎng)頁(yè)改版的監(jiān)控效率以及網(wǎng)頁(yè)爬取數(shù)據(jù)的效率和準(zhǔn)確率。

本發(fā)明實(shí)施例提供另一種網(wǎng)頁(yè)改版的監(jiān)控方法,如圖2所示,所述方法包括:

201、根據(jù)預(yù)設(shè)時(shí)間間隔獲取待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址。

其中,所述監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址包括網(wǎng)站的目錄頁(yè)鏈接地址和內(nèi)容頁(yè)鏈接地址,所述預(yù)設(shè)時(shí)間間隔由具體業(yè)務(wù)需求進(jìn)行設(shè)定,預(yù)設(shè)時(shí)間間隔可以為小于兩次網(wǎng)站爬取程序運(yùn)行的時(shí)間間隔,以便于確保下一次運(yùn)行爬取程序之前發(fā)現(xiàn)待監(jiān)控網(wǎng)站是否發(fā)生改版。所述內(nèi)容頁(yè)鏈接地址可以在待監(jiān)控網(wǎng)站中的目錄頁(yè)鏈接地址對(duì)應(yīng)的目錄網(wǎng)頁(yè)中提取。例如,某新聞網(wǎng)站中,包含有不同新聞分類(lèi)對(duì)應(yīng)的目錄頁(yè)鏈接地址,如國(guó)際新聞、社會(huì)新聞、財(cái)經(jīng)新聞等,點(diǎn)擊國(guó)際新聞,進(jìn)入國(guó)際新聞對(duì)應(yīng)的目錄網(wǎng)頁(yè),目錄網(wǎng)頁(yè)中包含了國(guó)際新聞對(duì)應(yīng)的新聞標(biāo)題,點(diǎn)擊對(duì)應(yīng)的內(nèi)容頁(yè)鏈接地址,最后會(huì)進(jìn)入內(nèi)容網(wǎng)頁(yè)瀏覽新聞的具體內(nèi)容。再如,兩次爬取程序的時(shí)間間隔為5分鐘,可以設(shè)定預(yù)設(shè)時(shí)間間隔為1分鐘,即每隔1分鐘進(jìn)行待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址的獲取。通過(guò)根據(jù)預(yù)設(shè)時(shí)間間隔獲取待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址,以便于在執(zhí)行爬取程序之前及時(shí)發(fā)現(xiàn)待監(jiān)控網(wǎng)站網(wǎng)頁(yè)是否存在改版,從而提高網(wǎng)頁(yè)改版的監(jiān)控效率。

202、檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化。

其中,所述檢測(cè)網(wǎng)頁(yè)鏈接地址是否存在變化可以為檢測(cè)網(wǎng)頁(yè)鏈接地址中字母、符號(hào)等與原有網(wǎng)頁(yè)鏈接地址中字母、符號(hào)等是否出現(xiàn)不同,還可以通過(guò)xpath提取網(wǎng)頁(yè)鏈接地址的路徑信息,再利用正則表達(dá)式方法進(jìn)行匹配,本發(fā)明實(shí)施例不做具體限定。

對(duì)于本發(fā)明實(shí)施例,步驟202之前還包括:為所述內(nèi)容頁(yè)鏈接地址對(duì)應(yīng)的內(nèi)容頁(yè)中不同區(qū)域的內(nèi)容配置所述固定結(jié)構(gòu)標(biāo)識(shí)。其中,所述固定結(jié)構(gòu)標(biāo)識(shí)可以通過(guò)xpath進(jìn)行配置,xpath與固定結(jié)構(gòu)標(biāo)識(shí)的對(duì)應(yīng)信息存儲(chǔ)在監(jiān)控程序的配置文件中,在監(jiān)控程序啟動(dòng)時(shí)進(jìn)行加載,當(dāng)進(jìn)行目錄網(wǎng)頁(yè)更新檢測(cè)時(shí),只需要查找xpath指定的位置是否存在配置當(dāng)前版本指定的固定結(jié)構(gòu)標(biāo)識(shí)即可。通過(guò)為所述內(nèi)容頁(yè)鏈接地址對(duì)應(yīng)的內(nèi)容頁(yè)中不同區(qū)域的內(nèi)容配置固定結(jié)構(gòu)標(biāo)識(shí),避免當(dāng)固定結(jié)構(gòu)標(biāo)識(shí)發(fā)生變化時(shí),無(wú)法確定網(wǎng)頁(yè)是否存在改版,從而提高網(wǎng)頁(yè)改版的監(jiān)控效率。

203、若檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址不存在變化,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍。

其中,所述預(yù)設(shè)范圍可以根據(jù)網(wǎng)頁(yè)中能夠顯示的具體網(wǎng)頁(yè)鏈接地址個(gè)數(shù)設(shè)定,以接近原有網(wǎng)頁(yè)鏈接地址個(gè)數(shù)為原則,本發(fā)明實(shí)施例不做具體限定。

對(duì)于本發(fā)明實(shí)施例,與步驟203并列的步驟:若檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址存在變化,則輸出發(fā)生改版的提示信息。

204、若判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)不符合預(yù)設(shè)范圍,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。

通過(guò)確定待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版,以便于重新修改爬取程序,從而提高網(wǎng)頁(yè)爬取數(shù)據(jù)的準(zhǔn)確率。

對(duì)于本發(fā)明實(shí)施例,步驟204具體可以為:若所述目錄頁(yè)鏈接地址個(gè)數(shù)不符合預(yù)設(shè)范圍,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。通過(guò)判斷目錄頁(yè)鏈接地址的個(gè)數(shù)符合預(yù)設(shè)范圍,進(jìn)而確定網(wǎng)頁(yè)不存在改版,避免網(wǎng)頁(yè)存在改版后繼續(xù)判斷內(nèi)容頁(yè)鏈接地址的個(gè)數(shù)是否存在改版,從而提高網(wǎng)頁(yè)改版的檢測(cè)效率。

對(duì)于本發(fā)明實(shí)施例,步驟204具體還可以為:若所述內(nèi)容頁(yè)鏈接地址 個(gè)數(shù)符合預(yù)設(shè)范圍,則提取所述待監(jiān)控網(wǎng)站中內(nèi)容頁(yè)鏈接地址對(duì)應(yīng)網(wǎng)頁(yè)的固定結(jié)構(gòu)標(biāo)識(shí),檢測(cè)所述固定結(jié)構(gòu)標(biāo)識(shí)是否存在變化,若是,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。其中,所述待監(jiān)控網(wǎng)站中網(wǎng)頁(yè)的固定結(jié)構(gòu)標(biāo)識(shí)為監(jiān)控網(wǎng)站內(nèi)容網(wǎng)頁(yè)中對(duì)不同區(qū)域的內(nèi)容的固定結(jié)構(gòu)標(biāo)識(shí),所述固定結(jié)構(gòu)標(biāo)識(shí)在同一個(gè)網(wǎng)站同類(lèi)網(wǎng)頁(yè)中是相同的,所述存在變化包括固定結(jié)構(gòu)標(biāo)識(shí)本身與原有固定結(jié)構(gòu)標(biāo)識(shí)存在不同,還包括固定結(jié)構(gòu)標(biāo)識(shí)的增加或減少,本發(fā)明實(shí)施例不做具體限定。所述檢測(cè)固定結(jié)構(gòu)標(biāo)識(shí)可以通過(guò)檢測(cè)xpath對(duì)應(yīng)的固定結(jié)構(gòu)標(biāo)識(shí)的位置標(biāo)識(shí)是否正確,還可以檢測(cè)xpath指定位置在目前網(wǎng)頁(yè)中是否存在,本發(fā)明實(shí)施例不做具體限定。例如,在某論壇網(wǎng)站的內(nèi)容網(wǎng)頁(yè)中,隨著回帖數(shù)量的增加,網(wǎng)頁(yè)中的發(fā)帖人、發(fā)帖時(shí)間、帖子內(nèi)容都會(huì)發(fā)生變化,但網(wǎng)頁(yè)中“發(fā)帖人”、“發(fā)帖時(shí)間”、“發(fā)帖內(nèi)容”這些標(biāo)識(shí)文字不會(huì)發(fā)生變化,“發(fā)帖人”、“發(fā)帖時(shí)間”、“發(fā)帖內(nèi)容”即為網(wǎng)頁(yè)中的固定結(jié)構(gòu)標(biāo)識(shí)。通過(guò)檢測(cè)固定結(jié)構(gòu)標(biāo)識(shí)是否發(fā)生變化,進(jìn)而確認(rèn)網(wǎng)頁(yè)存在改版,避免忽略因固定結(jié)構(gòu)標(biāo)識(shí)變化而導(dǎo)致的改版,從而提高網(wǎng)頁(yè)改版監(jiān)測(cè)的準(zhǔn)確率。

對(duì)于本發(fā)明實(shí)施例,具體的應(yīng)用場(chǎng)景可以如下所示,但不限于此,包括:待監(jiān)控的某新聞網(wǎng)站中,每個(gè)預(yù)設(shè)時(shí)間間隔1分鐘獲取新聞網(wǎng)站中社會(huì)新聞的目錄頁(yè)鏈接地址“mini.eastday.com.shehui”,點(diǎn)擊目錄頁(yè)中的內(nèi)容頁(yè)鏈接地址“mini.eastday.com.shehui.20151225”,為內(nèi)容頁(yè)鏈接地址對(duì)應(yīng)的內(nèi)容頁(yè)中的“新聞內(nèi)容”、“評(píng)論”、“點(diǎn)擊次數(shù)”配置為固定結(jié)構(gòu)標(biāo)識(shí),檢測(cè)出目錄頁(yè)鏈接地址和內(nèi)容頁(yè)鏈接地址與上一次監(jiān)控的目錄頁(yè)鏈接地址和內(nèi)容頁(yè)鏈接地址不存在變化,判處出目錄頁(yè)鏈接地址和內(nèi)容頁(yè)鏈接地址在網(wǎng)頁(yè)中的個(gè)數(shù)20個(gè),符合預(yù)設(shè)范圍18至22,確認(rèn)目錄頁(yè)鏈接地址和內(nèi)容頁(yè)鏈接地址不存在變化,進(jìn)一步提取內(nèi)容頁(yè)鏈接地址對(duì)應(yīng)的內(nèi)容頁(yè)中的固定結(jié)構(gòu)標(biāo)識(shí)“新聞內(nèi)容”、“評(píng)論”、“點(diǎn)擊次數(shù)”、“點(diǎn)贊”,檢測(cè)固定結(jié)構(gòu)標(biāo)識(shí)發(fā)生變化,則確認(rèn)新聞網(wǎng)站的網(wǎng)頁(yè)發(fā)生改版。

本發(fā)明實(shí)施例提供的另一種網(wǎng)頁(yè)改版的監(jiān)控方法,首先檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化,若不存在,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍,若否,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。與 目前通過(guò)人工分析爬取的數(shù)據(jù)信息是否正確,進(jìn)而判斷網(wǎng)頁(yè)是否發(fā)生改版相比,本發(fā)明通過(guò)檢測(cè)帶監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址和網(wǎng)頁(yè)的固定結(jié)構(gòu)標(biāo)識(shí)是否發(fā)生變化,若發(fā)生變化,則輸出網(wǎng)頁(yè)改版的提示信息,以便于重新修改爬取程序,避免加入人為操作,實(shí)現(xiàn)在網(wǎng)頁(yè)改版時(shí)立刻進(jìn)行修改爬取程序,從而提高網(wǎng)頁(yè)改版的監(jiān)控效率以及網(wǎng)頁(yè)爬取數(shù)據(jù)的效率和準(zhǔn)確率。

該裝置實(shí)施例與前述方法實(shí)施例對(duì)應(yīng),為便于閱讀,本裝置實(shí)施例不再對(duì)前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。

進(jìn)一步地,作為圖1所示方法的具體實(shí)現(xiàn),本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)改版的監(jiān)控裝置,如圖3所示,所述裝置可以包括:檢測(cè)單元31、判斷單元32、確認(rèn)單元33。

檢測(cè)單元31,用于檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化;

判斷單元32,用于若檢測(cè)單元檢測(cè)出待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址不存在變化,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍;

確定單元33,用于若判斷單元判斷出所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)不符合預(yù)設(shè)范圍,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。

本發(fā)明實(shí)施例提供的一種網(wǎng)頁(yè)改版的監(jiān)控裝置,首先檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化,若不存在,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍,若否,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。與目前通過(guò)人工分析爬取的數(shù)據(jù)信息是否正確,進(jìn)而判斷網(wǎng)頁(yè)是否發(fā)生改版相比,本發(fā)明通過(guò)檢測(cè)帶監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址和網(wǎng)頁(yè)的固定結(jié)構(gòu)標(biāo)識(shí)是否發(fā)生變化,若發(fā)生變化,則輸出網(wǎng)頁(yè)改版的提示信息,以便于重新修改爬取程序,避免加入人為操作,實(shí)現(xiàn)在網(wǎng)頁(yè)改版時(shí)立刻進(jìn)行修改爬取程序,從而提高網(wǎng)頁(yè)改版的監(jiān)控效率以及網(wǎng)頁(yè)爬取數(shù)據(jù)的效率和準(zhǔn)確率。

該裝置實(shí)施例與前述方法實(shí)施例對(duì)應(yīng),為便于閱讀,本裝置實(shí)施例不再對(duì)前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。

進(jìn)一步地,作為圖2所示方法的具體實(shí)現(xiàn),本發(fā)明實(shí)施例提供另一種網(wǎng)頁(yè)改版的監(jiān)控裝置,如圖4所示,所述裝置可以包括:檢測(cè)單元41、判 斷單元42、確認(rèn)單元43、獲取單元44、配置單元45。

檢測(cè)單元41,用于檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化;

判斷單元42,用于若檢測(cè)單元41檢測(cè)出待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址不存在變化,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍;

確定單元43,用于若判斷單元42判斷出所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)不符合預(yù)設(shè)范圍,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。

進(jìn)一步地,所述裝置還包括:

獲取單元44,用于根據(jù)預(yù)設(shè)時(shí)間間隔獲取待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址。

所述確認(rèn)單元43,具體用于若判斷單元42判斷出所述目錄頁(yè)鏈接地址個(gè)數(shù)不符合預(yù)設(shè)范圍,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版;和/或

所述確認(rèn)單元43,具體用于若判斷單元42判斷出所述內(nèi)容頁(yè)鏈接地址個(gè)數(shù)符合預(yù)設(shè)范圍,則提取所述待監(jiān)控網(wǎng)站中內(nèi)容頁(yè)鏈接地址對(duì)應(yīng)網(wǎng)頁(yè)的固定結(jié)構(gòu)標(biāo)識(shí),檢測(cè)所述固定結(jié)構(gòu)標(biāo)識(shí)是否存在變化,若是,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。

進(jìn)一步地,所述裝置還包括:

配置單元45,用于為所述內(nèi)容頁(yè)鏈接地址對(duì)應(yīng)的內(nèi)容頁(yè)中不同區(qū)域的內(nèi)容配置固定結(jié)構(gòu)標(biāo)識(shí)。

本發(fā)明實(shí)施例提供的另一種網(wǎng)頁(yè)改版的監(jiān)控裝置,首先檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化,若不存在,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍,若否,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。與目前通過(guò)人工分析爬取的數(shù)據(jù)信息是否正確,進(jìn)而判斷網(wǎng)頁(yè)是否發(fā)生改版相比,本發(fā)明通過(guò)檢測(cè)帶監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址和網(wǎng)頁(yè)的固定結(jié)構(gòu)標(biāo)識(shí)是否發(fā)生變化,若發(fā)生變化,則輸出網(wǎng)頁(yè)改版的提示信息,以便于重新修改爬取程序,避免加入人為操作,實(shí)現(xiàn)在網(wǎng)頁(yè)改版時(shí)立刻進(jìn)行修改爬取程序,從而提高網(wǎng)頁(yè)改版的監(jiān)控效率以及網(wǎng)頁(yè)爬取數(shù)據(jù)的效率和準(zhǔn)確率。

所述網(wǎng)頁(yè)改版的監(jiān)控裝置包括處理器和存儲(chǔ)器,上述檢測(cè)單元、判斷單元和確認(rèn)單元等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來(lái)實(shí)現(xiàn)相應(yīng)的功能。

處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可 以設(shè)置一個(gè)或以上,通過(guò)調(diào)整內(nèi)核參數(shù)來(lái)解決對(duì)投放廣告效果評(píng)估準(zhǔn)確性低的問(wèn)題。

存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性?xún)?nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。

本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:檢測(cè)待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)鏈接地址是否存在變化;若不存在,則判斷所述網(wǎng)頁(yè)鏈接地址個(gè)數(shù)是否符合預(yù)設(shè)范圍;若否,則確定所述待監(jiān)控網(wǎng)站的網(wǎng)頁(yè)存在改版。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī) 實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。

存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性?xún)?nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。

計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類(lèi)型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤(pán)只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(pán)(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤(pán)存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪(fǎng)問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號(hào)和載波。

以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
梅州市| 南皮县| 平安县| 响水县| 运城市| 上林县| 麻江县| 云阳县| 鄂尔多斯市| 绍兴市| 芒康县| 清河县| 奈曼旗| 海兴县| 安乡县| 余庆县| 马鞍山市| 梅州市| 云阳县| 工布江达县| 喀什市| 盐边县| 尼勒克县| 青海省| 汤阴县| 来宾市| 临澧县| 潮安县| 徐闻县| 五常市| 天门市| 上栗县| 会昌县| 浦江县| 津南区| 天水市| 红桥区| 加查县| 格尔木市| 东海县| 通辽市|