欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

爬取動(dòng)態(tài)網(wǎng)頁(yè)的方法及裝置與流程

文檔序號(hào):12666477閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種爬取動(dòng)態(tài)網(wǎng)頁(yè)的方法,其特征在于,所述方法包括:

在獲取需要爬取的網(wǎng)頁(yè)的統(tǒng)一資源定位符URL之后,利用無(wú)界面瀏覽器爬取獲取的URL的網(wǎng)頁(yè)內(nèi)容;

利用解析引擎對(duì)爬取的網(wǎng)頁(yè)內(nèi)容進(jìn)行解析;

若所述網(wǎng)頁(yè)內(nèi)容中含有觸發(fā)加載動(dòng)態(tài)數(shù)據(jù)的特征信息,則通過(guò)所述無(wú)界面瀏覽器的模擬點(diǎn)擊事件接口觸發(fā)所述特征信息對(duì)應(yīng)的點(diǎn)擊事件;

爬取所述點(diǎn)擊事件產(chǎn)生的動(dòng)態(tài)數(shù)據(jù)。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在爬取所述點(diǎn)擊事件產(chǎn)生的動(dòng)態(tài)數(shù)據(jù)之后,所述方法還包括:

利用解析引擎對(duì)所述動(dòng)態(tài)數(shù)據(jù)進(jìn)行解析;

若所述動(dòng)態(tài)數(shù)據(jù)中含有特征信息,則繼續(xù)通過(guò)所述模擬點(diǎn)擊事件接口觸發(fā)所述特征信息對(duì)應(yīng)的點(diǎn)擊事件。

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在利用解析引擎對(duì)爬取的網(wǎng)頁(yè)內(nèi)容進(jìn)行解析之后,所述方法還包括:

將解析出的除所述特征信息之外的數(shù)據(jù)以及當(dāng)前爬取的URL進(jìn)行存儲(chǔ);

在利用解析引擎對(duì)所述動(dòng)態(tài)數(shù)據(jù)進(jìn)行解析之后,所述方法還包括:

將解析出的除所述特征信息之外的數(shù)據(jù)進(jìn)行存儲(chǔ)。

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在將解析出的除所述特征信息之外的數(shù)據(jù)以及當(dāng)前爬取的URL進(jìn)行存儲(chǔ)之后,所述方法還包括:

檢測(cè)所述解析出的除所述特征信息之外的數(shù)據(jù)中是否含有其他URL;

若含有其他URL,則利用所述無(wú)界面瀏覽器爬取所述其他URL的網(wǎng)頁(yè)內(nèi)容。

5.根據(jù)權(quán)利要求3所述的方法,其特征在于,在將解析出的除所述特征信息之外的數(shù)據(jù)以及當(dāng)前爬取的URL進(jìn)行存儲(chǔ)之后,所述方法還包括:

在后續(xù)爬取URL的網(wǎng)頁(yè)內(nèi)容之前,檢測(cè)存儲(chǔ)的已爬URL中是否含有待爬取的URL;

若含有所述待爬取的URL,則放棄爬取所述待爬取的URL的網(wǎng)頁(yè)內(nèi)容;

若沒(méi)有所述待爬取的URL,則利用所述無(wú)界面瀏覽器爬取所述待爬取的URL的網(wǎng)頁(yè)內(nèi)容。

6.根據(jù)權(quán)利要求3所述的方法,其特征在于,在將解析出的除所述特征信息之外的數(shù)據(jù)進(jìn)行存儲(chǔ)之后,所述方法還包括:

將所述解析出的除所述特征信息之外的數(shù)據(jù)以日志格式進(jìn)行導(dǎo)出,獲得網(wǎng)頁(yè)爬取日志。

7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其特征在于,所述無(wú)界面瀏覽器為phantom JS瀏覽器。

8.一種爬取動(dòng)態(tài)網(wǎng)頁(yè)的裝置,其特征在于,所述裝置包括:

爬取單元,用于在獲取需要爬取的網(wǎng)頁(yè)的統(tǒng)一資源定位符URL之后,利用無(wú)界面瀏覽器爬取獲取的URL的網(wǎng)頁(yè)內(nèi)容;

解析單元,用于利用解析引擎對(duì)所述爬取單元爬取的網(wǎng)頁(yè)內(nèi)容進(jìn)行解析;

觸發(fā)單元,用于當(dāng)所述解析單元的解析結(jié)果為所述網(wǎng)頁(yè)內(nèi)容中含有觸發(fā)加載動(dòng)態(tài)數(shù)據(jù)的特征信息時(shí),通過(guò)所述無(wú)界面瀏覽器的模擬點(diǎn)擊事件接口觸發(fā)所述特征信息對(duì)應(yīng)的點(diǎn)擊事件;

所述爬取單元還用于爬取所述觸發(fā)單元觸發(fā)的所述點(diǎn)擊事件產(chǎn)生的動(dòng)態(tài)數(shù)據(jù)。

9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述解析單元還用于在所述爬取單元爬取所述點(diǎn)擊事件產(chǎn)生的動(dòng)態(tài)數(shù)據(jù)之后,利用解析引擎對(duì)所述動(dòng)態(tài)數(shù)據(jù)進(jìn)行解析;

觸發(fā)單元還用于當(dāng)所述解析單元的解析結(jié)果為所述動(dòng)態(tài)數(shù)據(jù)中含有特征信息時(shí),繼續(xù)通過(guò)所述模擬點(diǎn)擊事件接口觸發(fā)所述特征信息對(duì)應(yīng)的點(diǎn)擊事件。

10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括:

存儲(chǔ)單元,用于在利用解析引擎對(duì)爬取的網(wǎng)頁(yè)內(nèi)容進(jìn)行解析之后,將解析出的除所述特征信息之外的數(shù)據(jù)以及當(dāng)前爬取的URL進(jìn)行存儲(chǔ);

所述存儲(chǔ)單元還用于在利用解析引擎對(duì)所述動(dòng)態(tài)數(shù)據(jù)進(jìn)行解析之后,將解析出的除所述特征信息之外的數(shù)據(jù)進(jìn)行存儲(chǔ)。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
且末县| 黑水县| 馆陶县| 武夷山市| 沙田区| 桃园县| 新蔡县| 离岛区| 余庆县| 休宁县| 郎溪县| 遂川县| 九寨沟县| 化州市| 洛宁县| 汉沽区| 马边| 察隅县| 通城县| 民丰县| 江油市| 兰西县| 社旗县| 浦城县| 高陵县| 永胜县| 五华县| 阳信县| 霸州市| 楚雄市| 鹤庆县| 饶河县| 合水县| 石楼县| 乌兰浩特市| 宁南县| 蒙自县| 阿鲁科尔沁旗| 稷山县| 织金县| 远安县|