欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)站數(shù)據(jù)采集方法及裝置與流程

文檔序號:12464887閱讀:238來源:國知局
一種網(wǎng)站數(shù)據(jù)采集方法及裝置與流程

本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)站數(shù)據(jù)采集方法及裝置。



背景技術(shù):

隨著網(wǎng)絡(luò)信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)信息數(shù)據(jù)時刻都在爆炸性地增長。對于各種資訊類網(wǎng)站,其咨詢信息實時更新,因此需要定期采集其它網(wǎng)站的數(shù)據(jù)內(nèi)容來更新自己的內(nèi)容。現(xiàn)有數(shù)據(jù)采集方法在采集數(shù)據(jù)前,程序員每次都需要根據(jù)不同的網(wǎng)站及不同的數(shù)據(jù)內(nèi)容,編寫與欲采集數(shù)據(jù)對應(yīng)的正則規(guī)則,增加了數(shù)據(jù)采集的工作量。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例的目的在于提供一種網(wǎng)站數(shù)據(jù)采集方法及裝置,以解決現(xiàn)有數(shù)據(jù)采集方法在采集數(shù)據(jù)前每次都需編寫與欲采集數(shù)據(jù)對應(yīng)的正則規(guī)則的問題。具體技術(shù)方案如下:

本發(fā)明實施例提供了一種網(wǎng)站數(shù)據(jù)采集方法,包括:

獲取欲采集網(wǎng)站的部分網(wǎng)頁數(shù)據(jù),所述部分網(wǎng)頁數(shù)據(jù)至少包括:所述欲采集網(wǎng)站的圖片數(shù)據(jù)、文字?jǐn)?shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù);

通過所述部分網(wǎng)頁數(shù)據(jù),判斷本地數(shù)據(jù)庫中是否存儲有與所述部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則;

如果有存儲,調(diào)取所述本地數(shù)據(jù)庫中的采集規(guī)則;

如果沒有存儲,根據(jù)所述部分網(wǎng)頁數(shù)據(jù)中的數(shù)據(jù)內(nèi)容,生成與所述部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則;

存儲所述采集規(guī)則至所述本地數(shù)據(jù)庫;

根據(jù)所述采集規(guī)則,生成數(shù)據(jù)采集腳本程序;

通過所述數(shù)據(jù)采集腳本程序,分布式采集所述欲采集網(wǎng)站的全部網(wǎng)頁數(shù)據(jù)。

優(yōu)選地,所述分布式采集所述欲采集網(wǎng)站的全部網(wǎng)頁數(shù)據(jù)之后,所述數(shù)據(jù)采集方法還包括:

將采集到的所述全部網(wǎng)頁數(shù)據(jù)按照不同的數(shù)據(jù)類型,存入本地內(nèi)容數(shù)據(jù)庫,所述不同的數(shù)據(jù)類型包括:圖片類型、文字類型、音頻類型和視頻類型。

優(yōu)選地,所述通過所述部分網(wǎng)頁數(shù)據(jù),判斷本地數(shù)據(jù)庫中是否存儲有與所述部分網(wǎng)頁數(shù)據(jù)相對應(yīng)的采集規(guī)則,包括:

通過所述欲采集網(wǎng)站的圖片數(shù)據(jù),得到所述圖片數(shù)據(jù)的信息,所述圖片數(shù)據(jù)的信息至少包括:所述圖片數(shù)據(jù)的格式類型、來源地址、圖片屬性及對應(yīng)網(wǎng)頁的源代碼;

根據(jù)所述圖片數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述圖片數(shù)據(jù)的信息對應(yīng)的采集規(guī)則;

通過所述欲采集網(wǎng)站的文字?jǐn)?shù)據(jù),得到所述文字?jǐn)?shù)據(jù)的信息,所述文字?jǐn)?shù)據(jù)的信息至少包括:所述文字?jǐn)?shù)據(jù)的格式類型、來源地址及對應(yīng)網(wǎng)頁的源代碼;

根據(jù)所述文字?jǐn)?shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述文字?jǐn)?shù)據(jù)的信息對應(yīng)的采集規(guī)則;

通過所述欲采集網(wǎng)站的音頻數(shù)據(jù),得到所述音頻數(shù)據(jù)的信息,所述音頻數(shù)據(jù)的信息至少包括:所述音頻數(shù)據(jù)的格式類型、來源地址及對應(yīng)網(wǎng)頁的源代碼;

根據(jù)所述音頻數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述音頻數(shù)據(jù)的信息對應(yīng)的采集規(guī)則;

通過所述欲采集網(wǎng)站的視頻數(shù)據(jù),得到所述視頻數(shù)據(jù)的信息,所述視頻數(shù)據(jù)的信息至少包括:所述視頻數(shù)據(jù)的格式類型、來源地址及對應(yīng)網(wǎng)頁的源代碼;

根據(jù)所述視頻數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述視頻數(shù)據(jù)的信息對應(yīng)的采集規(guī)則。

優(yōu)選地,所述根據(jù)所述部分網(wǎng)頁數(shù)據(jù)中的數(shù)據(jù)內(nèi)容,生成與所述部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則,包括:

根據(jù)所述部分網(wǎng)頁數(shù)據(jù)的數(shù)據(jù)內(nèi)容中的采集屬性及內(nèi)容類型,生成采集規(guī)則,所述采集規(guī)則與所述部分網(wǎng)頁數(shù)據(jù)對應(yīng);所述采集屬性包括:采集數(shù)據(jù)的類型,采集數(shù)據(jù)的時間,采集數(shù)據(jù)的數(shù)據(jù)量;所述內(nèi)容類型包括:數(shù)據(jù)格式類型,數(shù)據(jù)時間類型,數(shù)據(jù)大小類型。

優(yōu)選地,所述分布式采集所述欲采集網(wǎng)站的全部網(wǎng)頁數(shù)據(jù),進一步包括:通過服務(wù)器集群采集所述欲采集網(wǎng)站的全部網(wǎng)頁數(shù)據(jù),所述集群由多臺協(xié)同工作的采集服務(wù)器組成。

優(yōu)選地,所述將采集到的所述全部網(wǎng)頁數(shù)據(jù)按照不同的數(shù)據(jù)類型,存入本地內(nèi)容數(shù)據(jù)庫之后,所述網(wǎng)站數(shù)據(jù)采集方法還包括:

記錄所述采集腳本程序的運行狀態(tài),生成運行狀態(tài)日志;

根據(jù)所述運行狀態(tài)日志,判斷欲采集網(wǎng)站狀態(tài)是否正常;

如果所述欲采集網(wǎng)站狀態(tài)正常,繼續(xù)采集;

如果所述欲采集網(wǎng)站狀態(tài)異常,終止采集。

本發(fā)明實施例還提供了一種網(wǎng)站數(shù)據(jù)采集裝置,包括:

獲取模塊,用于獲取欲采集網(wǎng)站的部分網(wǎng)頁數(shù)據(jù),所述部分網(wǎng)頁數(shù)據(jù)至少包括:所述欲采集網(wǎng)站的圖片數(shù)據(jù)、文字?jǐn)?shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù);

第一判斷模塊,用于通過所述部分網(wǎng)頁數(shù)據(jù),判斷本地數(shù)據(jù)庫中是否存儲有與所述部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則;

調(diào)取模塊,用于如果有存儲,調(diào)取所述本地數(shù)據(jù)庫中的采集規(guī)則;

第一生成模塊,用于如果沒有存儲,根據(jù)所述部分網(wǎng)頁數(shù)據(jù)中的數(shù)據(jù)內(nèi)容,生成與所述部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則;

第一存儲模塊,用于存儲所述采集規(guī)則至所述本地數(shù)據(jù)庫;

第二生成模塊,用于根據(jù)所述采集規(guī)則,生成數(shù)據(jù)采集腳本程序;

采集模塊,用于通過所述數(shù)據(jù)采集腳本程序,分布式采集所述欲采集網(wǎng)站的全部網(wǎng)頁數(shù)據(jù)。

優(yōu)選地,所述網(wǎng)站數(shù)據(jù)采集裝置進一步包括:

第二存儲模塊,用于將采集到的所述全部網(wǎng)頁數(shù)據(jù)按照不同的數(shù)據(jù)類型,存入本地內(nèi)容數(shù)據(jù)庫,所述不同的數(shù)據(jù)類型包括:圖片類型、文字類型、音頻類型和視頻類型。

優(yōu)選地,所述第一判斷模塊進一步包括:

第一獲得子模塊,用于通過所述欲采集網(wǎng)站的圖片數(shù)據(jù),得到所述圖片數(shù)據(jù)的信息,所述圖片數(shù)據(jù)的信息至少包括:所述圖片數(shù)據(jù)的格式類型、來源地址、圖片屬性及對應(yīng)網(wǎng)頁的源代碼;

第一查找子模塊,用于根據(jù)所述圖片數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述圖片數(shù)據(jù)的信息對應(yīng)的采集規(guī)則;

第二獲得子模塊,用于通過所述欲采集網(wǎng)站的文字?jǐn)?shù)據(jù),得到所述文字?jǐn)?shù)據(jù)的信息,所述文字?jǐn)?shù)據(jù)的信息至少包括:所述文字?jǐn)?shù)據(jù)的格式類型、來源地址及對應(yīng)網(wǎng)頁的源代碼;

第二查找子模塊,用于根據(jù)所述文字?jǐn)?shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述文字?jǐn)?shù)據(jù)的信息對應(yīng)的采集規(guī)則;

第三獲得子模塊,用于通過所述欲采集網(wǎng)站的音頻數(shù)據(jù),得到所述音頻數(shù)據(jù)的信息,所述音頻數(shù)據(jù)的信息至少包括:所述音頻數(shù)據(jù)的格式類型、來源地址及對應(yīng)網(wǎng)頁的源代碼;

第三查找子模塊,用于根據(jù)所述音頻數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述音頻數(shù)據(jù)的信息對應(yīng)的采集規(guī)則;

第四獲得子模塊,用于通過所述欲采集網(wǎng)站的視頻數(shù)據(jù),得到所述視頻數(shù)據(jù)的信息,所述視頻數(shù)據(jù)的信息至少包括:所述視頻數(shù)據(jù)的格式類型、來源地址及對應(yīng)網(wǎng)頁的源代碼;

第四查找子模塊,用于根據(jù)所述視頻數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述視頻數(shù)據(jù)的信息對應(yīng)的采集規(guī)則。

優(yōu)選地,所述第一生成模塊進一步用于,根據(jù)所述部分網(wǎng)頁數(shù)據(jù)的數(shù)據(jù)內(nèi)容中的采集屬性及內(nèi)容類型,生成采集規(guī)則,所述采集規(guī)則與所述部分網(wǎng)頁數(shù)據(jù)對應(yīng);所述采集屬性包括:采集數(shù)據(jù)的類型,采集數(shù)據(jù)的時間,采集數(shù)據(jù)的數(shù)據(jù)量;所述內(nèi)容類型包括:數(shù)據(jù)格式類型,數(shù)據(jù)時間類型,數(shù)據(jù)大小類型。

本發(fā)明實施例提供的一種網(wǎng)站數(shù)據(jù)采集方法及裝置,通過判斷本地數(shù)據(jù)庫中是否存儲有與部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則,如果沒有存儲,根據(jù)部分網(wǎng)頁數(shù)據(jù)中的數(shù)據(jù)內(nèi)容,生成與部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則并存儲至本地數(shù)據(jù)庫,無需在每次采集數(shù)據(jù)前都編寫與欲采集數(shù)據(jù)對應(yīng)的正則規(guī)則,提高數(shù)據(jù)采集效率;并且,通過分布式采集網(wǎng)頁數(shù)據(jù),進一步提高采集效率。當(dāng)然,實施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時達到以上所述的所有優(yōu)點。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實施例網(wǎng)站數(shù)據(jù)采集方法的流程圖;

圖2為本發(fā)明實施例網(wǎng)站數(shù)據(jù)采集裝置的結(jié)構(gòu)示意圖;

圖3為本發(fā)明實施例的網(wǎng)站數(shù)據(jù)采集裝置的另一種結(jié)構(gòu)示意圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

本發(fā)明實施例公開了一種網(wǎng)站數(shù)據(jù)采集方法,參考圖1,圖1為本發(fā)明實施例一種網(wǎng)站數(shù)據(jù)采集方法的流程圖,包括:

S101、獲取欲采集網(wǎng)站的部分網(wǎng)頁數(shù)據(jù),其中部分網(wǎng)頁數(shù)據(jù)至少包括:欲采集網(wǎng)站的圖片數(shù)據(jù)、文字?jǐn)?shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù)。

大規(guī)模獲取欲采集網(wǎng)站的數(shù)據(jù)前,先試抓取一部分該網(wǎng)站的網(wǎng)頁數(shù)據(jù),這樣操作是為了通過抓取的小部分網(wǎng)頁數(shù)據(jù)判斷本地是否有對應(yīng)的采集規(guī)則,從而提高采集效率。本發(fā)明實施例中所指的網(wǎng)頁數(shù)據(jù)至少包括:欲采集網(wǎng)站的圖片數(shù)據(jù)、文字?jǐn)?shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù),以上列舉并非對網(wǎng)頁數(shù)據(jù)包含的數(shù)據(jù)類型的限定。

S102、通過部分網(wǎng)頁數(shù)據(jù),判斷本地數(shù)據(jù)庫中是否存儲有與部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則。

本地數(shù)據(jù)庫可以指本地服務(wù)器中的數(shù)據(jù)庫,也可以指將本地數(shù)據(jù)庫存儲于云端服務(wù)器,無論是上述哪種數(shù)據(jù)庫,其作用均為存儲先前生成的采集規(guī)則。本發(fā)明實施例所指的采集規(guī)則,是一種用于采集數(shù)據(jù)的正則表達式,通過編寫不同的采集規(guī)則,就可以實現(xiàn)對網(wǎng)頁數(shù)據(jù)的批量采集。

通過部分網(wǎng)頁數(shù)據(jù)判斷本地數(shù)據(jù)庫中是否存儲有與部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則,一般指,通過網(wǎng)頁數(shù)據(jù)所能提供的多種信息,來確定數(shù)據(jù)庫中對應(yīng)的采集規(guī)則,這些信息可以包括數(shù)據(jù)類型、數(shù)據(jù)大小、數(shù)據(jù)來源等信息,具體方法可以為:

以部分網(wǎng)頁數(shù)據(jù)中的圖片數(shù)據(jù)為例,通過欲采集網(wǎng)站的圖片數(shù)據(jù),得到圖片數(shù)據(jù)的信息,這些信息一般包括:圖片數(shù)據(jù)的格式類型,如JPEG格式、GIF格式、PNG格式等;來源地址,如圖片的來源網(wǎng)頁的URL地址或者IP地址;圖片屬性,如圖片大小、創(chuàng)建日期、修改日期等;以及圖片數(shù)據(jù)對應(yīng)網(wǎng)頁的源代碼。根據(jù)以上圖片數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述圖片數(shù)據(jù)的信息對應(yīng)的采集規(guī)則。舉例說明,通過圖片的創(chuàng)建日期在本地數(shù)據(jù)庫中查找采集規(guī)則:假設(shè)圖片的創(chuàng)建日期為2015年3月2日,本地數(shù)據(jù)庫中存儲的采集規(guī)則為:獲取2015年1至6月的數(shù)據(jù)(正則表達式為\d{2015}[年|\-|\.]\d{\1-\6}[月|\-|\.]\d{\1-\31}日?),則系統(tǒng)會在本地數(shù)據(jù)庫中查找到該采集規(guī)則。

再以部分網(wǎng)頁數(shù)據(jù)中的音頻數(shù)據(jù)為例,通過欲采集網(wǎng)站的音頻數(shù)據(jù),得到音頻數(shù)據(jù)的信息,這些信息一般包括:音頻數(shù)據(jù)的格式類型,如WAV格式、MP3格式等;來源地址,如音頻的來源網(wǎng)頁的URL地址或者IP地址;音頻屬性,如音頻大小、創(chuàng)建日期、修改日期等;以及音頻數(shù)據(jù)對應(yīng)網(wǎng)頁的源代碼。根據(jù)以上音頻數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述音頻數(shù)據(jù)的信息對應(yīng)的采集規(guī)則。舉例說明,通過音頻的來源IP地址或URL地址在本地數(shù)據(jù)庫中查找采集規(guī)則:假設(shè)音頻的來源URL地址為www.yahoo.com,本地數(shù)據(jù)庫中存儲的采集規(guī)則為:

(http|ftp|https)://[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?,因為音頻的來源URL地址和正則規(guī)則不對應(yīng),因此系統(tǒng)不會在本地數(shù)據(jù)庫中查找到該采集規(guī)則。

再以部分網(wǎng)頁數(shù)據(jù)中的文字?jǐn)?shù)據(jù)為例,通過欲采集網(wǎng)站的音頻數(shù)據(jù),得到文字?jǐn)?shù)據(jù)的信息,這些信息一般包括:文字?jǐn)?shù)據(jù)的格式類型,如txt格式;來源地址,如文字的來源網(wǎng)頁的URL(Uniform Resource Locator,統(tǒng)一資源定位符)地址或者IP(Internet Protocol,互聯(lián)網(wǎng)協(xié)議)地址;文字屬性,如文字創(chuàng)建日期、修改日期等;以及文字?jǐn)?shù)據(jù)對應(yīng)網(wǎng)頁的源代碼。根據(jù)以上文字?jǐn)?shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述文字?jǐn)?shù)據(jù)的信息對應(yīng)的采集規(guī)則,具體查找方法與上文中的查找類似,此處不再贅述。

同樣的,以部分網(wǎng)頁數(shù)據(jù)中的視頻數(shù)據(jù)為例,通過欲采集網(wǎng)站的視頻數(shù)據(jù),得到視頻數(shù)據(jù)的信息,這些信息一般包括:視頻數(shù)據(jù)的格式類型,如mp4格式、avi格式;來源地址,如視頻的來源網(wǎng)頁的URL地址或者IP地址;視頻屬性,如視頻大小、創(chuàng)建日期、修改日期等;以及視頻數(shù)據(jù)對應(yīng)網(wǎng)頁的源代碼。根據(jù)以上視頻數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述視頻數(shù)據(jù)的信息對應(yīng)的采集規(guī)則,具體查找方法與上文中的查找類似,此處不再贅述。

S103、如果有存儲,調(diào)取本地數(shù)據(jù)庫中的采集規(guī)則。

本地數(shù)據(jù)庫可以指本地服務(wù)器中的數(shù)據(jù)庫,也可以指將本地數(shù)據(jù)庫存儲于云端服務(wù)器,無論是上述哪種數(shù)據(jù)庫,其作用均為存儲先前生成的采集規(guī)則。如果本地數(shù)據(jù)庫中存儲有與部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則,直接調(diào)取對應(yīng)的采集規(guī)則。

S104、如果沒有存儲,根據(jù)部分網(wǎng)頁數(shù)據(jù)中的數(shù)據(jù)內(nèi)容,生成與部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則。

系統(tǒng)實時判斷本地數(shù)據(jù)庫中是否存儲有采集網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則,在檢測到?jīng)]有采集規(guī)則時,可以根據(jù)部分網(wǎng)頁數(shù)據(jù)的數(shù)據(jù)內(nèi)容中的采集屬性及內(nèi)容類型,生成與部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則。通常情況下,數(shù)據(jù)內(nèi)容中的采集屬性是指,采集到的數(shù)據(jù)內(nèi)容所固有的屬性,它由數(shù)據(jù)內(nèi)容自身攜帶,可以為數(shù)據(jù)劃分提供依據(jù);而數(shù)據(jù)內(nèi)容中的內(nèi)容類型是指,采集到的數(shù)據(jù)按照不同的類別進行劃分,以方便日后查找使用。

一般的,采集屬性可以包括:采集數(shù)據(jù)的類型,采集數(shù)據(jù)的時間,采集數(shù)據(jù)的數(shù)據(jù)量。例如,采集數(shù)據(jù)的格式類型,采集數(shù)據(jù)的采集時間,采集數(shù)據(jù)的占用空間大小,這些都是采集數(shù)據(jù)的固有屬性。以上只是采集屬性的列舉而非限定,只要采集屬性能夠?qū)?nèi)容類型提供依據(jù),都屬于本發(fā)明實施例保護范圍。

一般的,內(nèi)容類型可以包括:數(shù)據(jù)格式類型,數(shù)據(jù)時間類型,數(shù)據(jù)大小類型等分類。例如,將數(shù)據(jù)按照不同的格式類型進行分類,或?qū)?shù)據(jù)按照不同的采集時間進行分類,或?qū)?shù)據(jù)按照不同的占用空間大小進行分類。以上只是對分類方法的列舉而非限定,只要能保證通過對數(shù)據(jù)內(nèi)容類型達到對數(shù)據(jù)內(nèi)容規(guī)劃的目的,都屬于本發(fā)明實施例保護范圍。

采集規(guī)則可以利用正則表達式軟件生成,也可以人工編寫,其生成過程屬于現(xiàn)有技術(shù),在此不再贅述。

S105、存儲采集規(guī)則至本地數(shù)據(jù)庫。

將生成的采集規(guī)則存儲值本地數(shù)據(jù)庫,需要說明的是,本地數(shù)據(jù)庫可以指本地服務(wù)器中的數(shù)據(jù)庫,也可以指將本地數(shù)據(jù)庫存儲于云端服務(wù)器,無論是上述哪種數(shù)據(jù)庫,其作用均為存儲先前生成的采集規(guī)則。并且,數(shù)據(jù)庫中的采集規(guī)則是實時更新的,只要有新的采集規(guī)則生成,就存入本地數(shù)據(jù)庫。

S106、根據(jù)采集規(guī)則,生成數(shù)據(jù)采集腳本程序。

數(shù)據(jù)采集腳本程序是用來采集網(wǎng)頁數(shù)據(jù)的程序,一般的,數(shù)據(jù)采集腳本程序可以通過數(shù)據(jù)抓取軟件生成,也可以通過Javascript編譯,Javascript是一種直譯式腳本語言,是一種動態(tài)類型、弱類型、基于原型的語言。數(shù)據(jù)采集腳本程序還可以通過PHP(Hypertext Preprocessor,超文本預(yù)處理器)中的Snoopy進行編譯。其中,Snoopy是一個PHP類,用來模擬瀏覽器的功能,具有獲取網(wǎng)頁內(nèi)容,發(fā)送表單的功能。

S107、通過數(shù)據(jù)采集腳本程序,分布式采集所述欲采集網(wǎng)站的全部網(wǎng)頁數(shù)據(jù)。

分布式計算,是把一個需要非常巨大的計算能力才能解決的問題分成許多小的部分,然后把這些部分分配給許多計算機進行處理,最后把這些計算結(jié)果綜合起來得到最終的結(jié)果。本發(fā)明實施例中的分布式采集方式正是運用了分布式計算原理,利用多臺具有相同功能的服務(wù)器共同采集網(wǎng)頁數(shù)據(jù),從而降低采集時每臺服務(wù)器運算負(fù)荷,還能提高采集效率。

本發(fā)明上述實施例提供的網(wǎng)站數(shù)據(jù)采集方法無需在每次采集數(shù)據(jù)前都編寫與欲采集數(shù)據(jù)對應(yīng)的正則規(guī)則,提高網(wǎng)頁數(shù)據(jù)采集效率,并且,采用分布式采集,進一步提高網(wǎng)頁數(shù)據(jù)采集的效率。

本發(fā)明實施例還公開了一種網(wǎng)站數(shù)據(jù)采集方法的另一種實施例,在實施例一的基礎(chǔ)上進一步包括:

S201、將采集到的全部網(wǎng)頁數(shù)據(jù)按照不同的數(shù)據(jù)類型,存入本地內(nèi)容數(shù)據(jù)庫,其中不同的數(shù)據(jù)類型包括:圖片類型、文字類型、音頻類型和視頻類型。

本地內(nèi)容數(shù)據(jù)庫用于存儲采集到的網(wǎng)頁數(shù)據(jù),可以按照不同的數(shù)據(jù)類型進行存儲,這些數(shù)據(jù)類型包括圖片、文字、音頻、視頻等不同的類型;也可以按照數(shù)據(jù)的采集時間存儲;或者,還可以按照數(shù)據(jù)所占用空間的大小進行分類存儲。

S202、記錄采集腳本程序的運行狀態(tài),生成運行狀態(tài)日志。

系統(tǒng)實時記錄采集腳本程序的運行狀態(tài)是否正常,并生成運行狀態(tài)日志,供運維人員可以查看采集腳本程序的運行狀態(tài)。

S203、根據(jù)運行狀態(tài)日志,判斷欲采集網(wǎng)站狀態(tài)是否正常,如果欲采集網(wǎng)站狀態(tài)正常,繼續(xù)采集;如果欲采集網(wǎng)站狀態(tài)異常,終止采集。

同時,系統(tǒng)也可以根據(jù)記錄的運行狀態(tài)日志,判斷欲采集網(wǎng)站狀態(tài)是否正常。例如,如果日志中顯示采集腳本程序無法采集欲采集網(wǎng)站的數(shù)據(jù),說明欲采集網(wǎng)站系統(tǒng)可能出現(xiàn)異常。

系統(tǒng)根據(jù)所得出的判斷結(jié)果,決定是否繼續(xù)采集數(shù)據(jù),如果欲采集網(wǎng)站狀態(tài)正常,繼續(xù)采集,如果欲采集網(wǎng)站狀態(tài)異常,終止采集,避免不必要的運算資源浪費。并且,通過生成運行狀態(tài)日志,可以使運維人員查看采集腳本程序的運行狀態(tài),提高采集系統(tǒng)的穩(wěn)定性。

本發(fā)明上述實施例提供的網(wǎng)站數(shù)據(jù)采集方法,通過將采集到的數(shù)據(jù)按照不同數(shù)據(jù)類型存入本地數(shù)據(jù)庫,實現(xiàn)對采集到的數(shù)據(jù)的歸納整理,能夠在需要使用數(shù)據(jù)時方便快速地調(diào)取。

本發(fā)明實施例還公開了一種網(wǎng)站數(shù)據(jù)采集裝置,參考圖2,圖2為本發(fā)明實施例的網(wǎng)站數(shù)據(jù)采集裝置的結(jié)構(gòu)示意圖,包括:

獲取模塊301,用于獲取欲采集網(wǎng)站的部分網(wǎng)頁數(shù)據(jù),所述部分網(wǎng)頁數(shù)據(jù)至少包括:所述欲采集網(wǎng)站的圖片數(shù)據(jù)、文字?jǐn)?shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù)。

第一判斷模塊302,用于通過所述部分網(wǎng)頁數(shù)據(jù),判斷本地數(shù)據(jù)庫中是否存儲有與所述部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則。

其中,第一判斷模塊302進一步包括:

第一獲得子模塊3021,用于通過欲采集網(wǎng)站的圖片數(shù)據(jù),得到圖片數(shù)據(jù)的信息,圖片數(shù)據(jù)的信息至少包括:圖片數(shù)據(jù)的格式類型、來源地址、圖片屬性及對應(yīng)網(wǎng)頁的源代碼。

第一查找子模塊3022,用于根據(jù)圖片數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與圖片數(shù)據(jù)的信息對應(yīng)的采集規(guī)則。

第二獲得子模塊3023,用于通過欲采集網(wǎng)站的文字?jǐn)?shù)據(jù),得到文字?jǐn)?shù)據(jù)的信息,文字?jǐn)?shù)據(jù)的信息至少包括:文字?jǐn)?shù)據(jù)的格式類型、來源地址及對應(yīng)網(wǎng)頁的源代碼。

第二查找子模塊3024,用于根據(jù)文字?jǐn)?shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與文字?jǐn)?shù)據(jù)的信息對應(yīng)的采集規(guī)則。

第三獲得子模塊3025,用于通過欲采集網(wǎng)站的音頻數(shù)據(jù),得到音頻數(shù)據(jù)的信息,音頻數(shù)據(jù)的信息至少包括:音頻數(shù)據(jù)的格式類型、來源地址及對應(yīng)網(wǎng)頁的源代碼。

第三查找子模塊3026,用于根據(jù)音頻數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與音頻數(shù)據(jù)的信息對應(yīng)的采集規(guī)則。

第四獲得子模塊3027,用于通過欲采集網(wǎng)站的視頻數(shù)據(jù),得到視頻數(shù)據(jù)的信息,視頻數(shù)據(jù)的信息至少包括:視頻數(shù)據(jù)的格式類型、來源地址及對應(yīng)網(wǎng)頁的源代碼。

第四查找子模塊3028,用于根據(jù)視頻數(shù)據(jù)的信息,在本地數(shù)據(jù)庫中查找與所述視頻數(shù)據(jù)的信息對應(yīng)的采集規(guī)則。

調(diào)取模塊303,用于如果有存儲,調(diào)取所述本地數(shù)據(jù)庫中的采集規(guī)則。

第一生成模塊304,用于如果沒有存儲,根據(jù)所述部分網(wǎng)頁數(shù)據(jù)中的數(shù)據(jù)內(nèi)容,生成與所述部分網(wǎng)頁數(shù)據(jù)對應(yīng)的采集規(guī)則。

其中,第一生成模塊304進一步用于,根據(jù)部分網(wǎng)頁數(shù)據(jù)的數(shù)據(jù)內(nèi)容中的采集屬性及內(nèi)容類型,生成采集規(guī)則,采集規(guī)則與部分網(wǎng)頁數(shù)據(jù)對應(yīng);采集屬性包括:采集數(shù)據(jù)的類型,采集數(shù)據(jù)的時間,采集數(shù)據(jù)的數(shù)據(jù)量;內(nèi)容類型包括:數(shù)據(jù)格式類型,數(shù)據(jù)時間類型,數(shù)據(jù)大小類型。

第一存儲模塊305,用于存儲所述采集規(guī)則至所述本地數(shù)據(jù)庫。

第二生成模塊306,用于根據(jù)所述采集規(guī)則,生成數(shù)據(jù)采集腳本程序。

采集模塊307,用于通過所述數(shù)據(jù)采集腳本程序,分布式采集所述欲采集網(wǎng)站的全部網(wǎng)頁數(shù)據(jù)。

本發(fā)明上述實施例提供的網(wǎng)站數(shù)據(jù)采集裝置無需在每次采集數(shù)據(jù)前都編寫與欲采集數(shù)據(jù)對應(yīng)的正則規(guī)則,提高網(wǎng)頁數(shù)據(jù)采集效率,并且,采用分布式采集,進一步提高網(wǎng)頁數(shù)據(jù)采集的效率。

需要說明的是,本發(fā)明實施例的裝置是應(yīng)用上述網(wǎng)站數(shù)據(jù)采集方法的裝置,則上述網(wǎng)站數(shù)據(jù)采集方法的所有實施例均適用于該裝置,且均能達到相同或相似的有益效果。

本發(fā)明實施例還公開了一種網(wǎng)站數(shù)據(jù)采集裝置,參考圖3,圖3為本發(fā)明實施例的網(wǎng)站數(shù)據(jù)采集裝置的另一種結(jié)構(gòu)示意圖,在圖2所示結(jié)構(gòu)的基礎(chǔ)上進一步包括:

第二存儲模塊308,用于將采集到的所述全部網(wǎng)頁數(shù)據(jù)按照不同的數(shù)據(jù)類型,存入本地內(nèi)容數(shù)據(jù)庫,所述不同的數(shù)據(jù)類型包括:圖片類型、文字類型、音頻類型和視頻類型。

記錄模塊309,用于記錄采集腳本程序的運行狀態(tài),生成運行狀態(tài)日志。

第二判斷模塊310,用于根據(jù)運行狀態(tài)日志,判斷欲采集網(wǎng)站狀態(tài)是否正常,如果欲采集網(wǎng)站狀態(tài)正常,繼續(xù)采集;如果欲采集網(wǎng)站狀態(tài)異常,終止采集。

本發(fā)明上述實施例提供的網(wǎng)站數(shù)據(jù)采集裝置,能夠?qū)Σ杉降臄?shù)據(jù)的歸納整理,能夠在需要使用數(shù)據(jù)時方便快速地調(diào)取。并且,通過生成運行狀態(tài)日志,可以使運維人員查看采集腳本程序的運行狀態(tài),提高采集系統(tǒng)的穩(wěn)定性。

需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。

以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
新昌县| 潞西市| 东丰县| 老河口市| 华亭县| 马尔康县| 沾化县| 怀柔区| 洪湖市| 宝鸡市| 汕头市| 武胜县| 太谷县| 从化市| 汽车| 关岭| 霍邱县| 海丰县| 正宁县| 瑞丽市| 新源县| 大厂| 海晏县| 苏尼特左旗| 蒙山县| 皋兰县| 临高县| 惠州市| 林周县| 通州区| 社旗县| 长岭县| 沅江市| 乐业县| 宁河县| 桓仁| 临夏县| 盱眙县| 绥阳县| 宁德市| 商南县|