欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法與流程

文檔序號(hào):11864853閱讀:1132來源:國知局

本發(fā)明涉及一種基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法。



背景技術(shù):

目前國內(nèi)主流爬蟲都是直接使用http協(xié)議,下載指定url的靜態(tài)html內(nèi)容,并對(duì)內(nèi)容進(jìn)行分析和抽取。此方法在搜索引擎、輿情監(jiān)控、垂直門戶網(wǎng)站等領(lǐng)域得到了大規(guī)模應(yīng)用。

但在電子商務(wù)領(lǐng)域,出于安全性、加載速度、頁面靜態(tài)化等因素的考慮,大部分網(wǎng)站的商品頁面中的價(jià)格、商品規(guī)格、圖文詳情等都是通過js以及ajax加載的動(dòng)態(tài)html內(nèi)容。這使得傳統(tǒng)的網(wǎng)絡(luò)爬蟲系統(tǒng),根本無法有效的自動(dòng)獲取商品信息。

隨著互聯(lián)網(wǎng)的發(fā)展,國內(nèi)大量線下零售企業(yè)均開始建設(shè)自有電商平臺(tái),如廣百百貨的廣百薈、廣州友誼商場的網(wǎng)上商城,以實(shí)現(xiàn)商品線上線下一體售賣。但是傳統(tǒng)零售企業(yè)如果想把自己大量的商品在線上售賣,就需要對(duì)每個(gè)商品錄制詳細(xì)的商品圖文信息,工作量十分巨大。以大家電為例,僅冰箱、洗衣機(jī)、彩電、空調(diào)四大類商品,常用的型號(hào)就有8千到1萬,如果按照5個(gè)人的錄入團(tuán)隊(duì),1個(gè)人平均每小時(shí)錄入4個(gè)PC版商品+4個(gè)移動(dòng)版的圖文詳情介紹,則需要3-4個(gè)月的時(shí)間,效率低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明要解決的技術(shù)問題是提供一種效率高的基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法。

為解決上述問題,本發(fā)明采用如下技術(shù)方案:

一種基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法,包括以下步驟:

1)抓取程序模塊啟動(dòng)瀏覽器;

2)模仿人的操作打開商品的詳情頁;

3)抓取頁面內(nèi)的信息,并下載關(guān)聯(lián)的圖片;

4)人工審核。

作為優(yōu)選,所述抓取程序模塊由Selenium測試工具和爬蟲程序搭建。

作為優(yōu)選,所述步驟1)的具體步驟包括:

1.1)在抓取程序模塊上輸入商品的基本信息和目標(biāo)商城;

1.2)抓取程序模塊基于Selenium測試工具的功能實(shí)現(xiàn)模仿人的操作啟動(dòng)瀏覽器;

1.3)登錄商城;

1.4)通過步驟1.1)預(yù)設(shè)的關(guān)鍵字,在目標(biāo)網(wǎng)站進(jìn)行搜索,找到對(duì)應(yīng)的商品。

作為優(yōu)選,所述步驟2)的具體步驟包括:

2.2)打開商品的詳情頁;

2.3)等待瀏覽器加載完靜態(tài)和動(dòng)態(tài)內(nèi)容。

作為優(yōu)選,所述步驟3)的具體步驟包括:

3.1)基于爬蟲程序的功能實(shí)現(xiàn)自動(dòng)抓取該頁面內(nèi)的商品價(jià)格、規(guī)格參數(shù)和商品詳情信息,并下載關(guān)聯(lián)的圖片;

3.2)將抓取到的圖文信息的格式進(jìn)行轉(zhuǎn)化。

作為優(yōu)選,所述步驟1.4)若找不到對(duì)應(yīng)的商品則重新返回到步驟1.1)重新輸入商品的基本信息和目標(biāo)商城。

本發(fā)明的有益效果為:通過模仿人在瀏覽器發(fā)起鼠標(biāo)點(diǎn)擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,再結(jié)合網(wǎng)絡(luò)爬蟲的抓取的信息功能,完全模擬一個(gè)真實(shí)的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實(shí)用戶看到的圖文信息是完全一致的。相比于傳統(tǒng)的網(wǎng)絡(luò)爬蟲產(chǎn)品兼容性好、速度快、數(shù)據(jù)抓取準(zhǔn)確等特點(diǎn)。

具體實(shí)施方式

一種基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法,包括以下步驟:

1)抓取程序模塊啟動(dòng)瀏覽器;

2)模仿人的操作打開商品的詳情頁;

3)抓取頁面內(nèi)的信息,并下載關(guān)聯(lián)的圖片;

4)商城管理人員查看已抓取的商品信息,對(duì)存在問題的內(nèi)容進(jìn)行快速修改,通過審核后信息開始應(yīng)用于自己的商城。

本發(fā)明的有益效果為:通過模仿人在瀏覽器發(fā)起鼠標(biāo)點(diǎn)擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,再結(jié)合網(wǎng)絡(luò)爬蟲的抓取的信息功能,完全模擬一個(gè)真實(shí)的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實(shí)用戶看到的圖文信息是完全一致的。相比于傳統(tǒng)的網(wǎng)絡(luò)爬蟲產(chǎn)品兼容性好、速度快、數(shù)據(jù)抓取準(zhǔn)確等特點(diǎn)。

實(shí)施例2

一種基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法,包括以下步驟:

1.在抓取程序模塊上輸入商品的基本信息和目標(biāo)商城;抓取程序模塊基于Selenium測試工具的功能實(shí)現(xiàn)模仿人的操作啟動(dòng)瀏覽器,登錄商城;通過預(yù)設(shè)的關(guān)鍵字,在目標(biāo)網(wǎng)站進(jìn)行搜索,找到對(duì)應(yīng)的商品,若找不到對(duì)應(yīng)的商品則重新輸入商品的基本信息和目標(biāo)商城;

2)打開商品的詳情頁,等待瀏覽器加載完靜態(tài)和動(dòng)態(tài)內(nèi)容;

3)基于爬蟲程序的功能實(shí)現(xiàn)自動(dòng)抓取該頁面內(nèi)的商品價(jià)格、規(guī)格參數(shù)和商品詳情信息,并下載關(guān)聯(lián)的圖片;然后將抓取到的圖文信息轉(zhuǎn)化為我方商城的商品數(shù)據(jù)格式;

4)商城管理人員查看已抓取的商品信息,對(duì)存在問題的內(nèi)容進(jìn)行快速修改,通過審核后信息開始應(yīng)用于自己的商城。

所述抓取程序模塊由Selenium測試工具和爬蟲程序搭建,基于Selenium技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)信息自動(dòng)抓取程序,具有可以控制瀏覽器的行為,模仿人在瀏覽器發(fā)起鼠標(biāo)點(diǎn)擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,模仿一個(gè)商城會(huì)員的操作:打開瀏覽器->登錄目標(biāo)商城->查找目標(biāo)商品->打開商品詳情頁面->等待瀏覽器加載完靜態(tài)和動(dòng)態(tài)內(nèi)容,然后再抽取商品名稱、價(jià)格、圖文詳情等內(nèi)容,操作完全模擬一個(gè)真實(shí)的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實(shí)用戶看到的圖文信息是完全一致的。

本發(fā)明的有益效果為:采用Selenium技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)通過模仿人在瀏覽器發(fā)起鼠標(biāo)點(diǎn)擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,再結(jié)合網(wǎng)絡(luò)爬蟲的抓取的信息功能,完全模擬一個(gè)真實(shí)的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實(shí)用戶看到的圖文信息是完全一致的。相比于傳統(tǒng)的網(wǎng)絡(luò)爬蟲產(chǎn)品兼容性好、速度快、數(shù)據(jù)抓取準(zhǔn)確等特點(diǎn)。

以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何不經(jīng)過創(chuàng)造性勞動(dòng)想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
门头沟区| 双柏县| 祁东县| 合肥市| 安达市| 阿尔山市| 张家口市| 通州区| 云阳县| 邯郸市| 敖汉旗| 宁陵县| 阳原县| 荥阳市| 乐山市| 万年县| 那坡县| 新化县| 页游| 石楼县| 仪陇县| 东光县| 太仆寺旗| 嘉黎县| 哈尔滨市| 南康市| 大连市| 道真| 盱眙县| 建始县| 绵竹市| 定西市| 夏津县| 辽源市| 通州区| 通山县| 大田县| 文登市| 吕梁市| 商丘市| 西平县|