技術(shù)總結(jié)
本發(fā)明實(shí)施例提供了一種網(wǎng)站數(shù)據(jù)采集方法及裝置,其中,數(shù)據(jù)采集方法包括:獲取欲采集網(wǎng)站的部分網(wǎng)頁(yè)數(shù)據(jù),部分網(wǎng)頁(yè)數(shù)據(jù)至少包括:欲采集網(wǎng)站的圖片數(shù)據(jù)、文字?jǐn)?shù)據(jù)、音頻數(shù)據(jù)和視頻數(shù)據(jù);通過(guò)部分網(wǎng)頁(yè)數(shù)據(jù),判斷本地?cái)?shù)據(jù)庫(kù)中是否存儲(chǔ)有與部分網(wǎng)頁(yè)數(shù)據(jù)對(duì)應(yīng)的采集規(guī)則;如果有存儲(chǔ),調(diào)取本地?cái)?shù)據(jù)庫(kù)中的采集規(guī)則;如果沒(méi)有存儲(chǔ),根據(jù)部分網(wǎng)頁(yè)數(shù)據(jù)中的數(shù)據(jù)內(nèi)容,生成與部分網(wǎng)頁(yè)數(shù)據(jù)對(duì)應(yīng)的采集規(guī)則;存儲(chǔ)采集規(guī)則至本地?cái)?shù)據(jù)庫(kù);根據(jù)采集規(guī)則生成數(shù)據(jù)采集腳本程序;通過(guò)數(shù)據(jù)采集腳本程序分布式采集欲采集網(wǎng)站的全部網(wǎng)頁(yè)數(shù)據(jù)。本發(fā)明實(shí)施例提供的網(wǎng)站數(shù)據(jù)采集方法及裝置無(wú)需在每次采集數(shù)據(jù)前都編寫(xiě)與欲采集數(shù)據(jù)對(duì)應(yīng)的正則規(guī)則,提高網(wǎng)頁(yè)數(shù)據(jù)采集效率。
技術(shù)研發(fā)人員:沈文策
受保護(hù)的技術(shù)使用者:福建中金在線信息科技有限公司
文檔號(hào)碼:201610996853
技術(shù)研發(fā)日:2016.11.10
技術(shù)公布日:2017.05.31