本發(fā)明涉及一種基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法。
背景技術(shù):
目前國內(nèi)主流爬蟲都是直接使用http協(xié)議,下載指定url的靜態(tài)html內(nèi)容,并對(duì)內(nèi)容進(jìn)行分析和抽取。此方法在搜索引擎、輿情監(jiān)控、垂直門戶網(wǎng)站等領(lǐng)域得到了大規(guī)模應(yīng)用。
但在電子商務(wù)領(lǐng)域,出于安全性、加載速度、頁面靜態(tài)化等因素的考慮,大部分網(wǎng)站的商品頁面中的價(jià)格、商品規(guī)格、圖文詳情等都是通過js以及ajax加載的動(dòng)態(tài)html內(nèi)容。這使得傳統(tǒng)的網(wǎng)絡(luò)爬蟲系統(tǒng),根本無法有效的自動(dòng)獲取商品信息。
隨著互聯(lián)網(wǎng)的發(fā)展,國內(nèi)大量線下零售企業(yè)均開始建設(shè)自有電商平臺(tái),如廣百百貨的廣百薈、廣州友誼商場的網(wǎng)上商城,以實(shí)現(xiàn)商品線上線下一體售賣。但是傳統(tǒng)零售企業(yè)如果想把自己大量的商品在線上售賣,就需要對(duì)每個(gè)商品錄制詳細(xì)的商品圖文信息,工作量十分巨大。以大家電為例,僅冰箱、洗衣機(jī)、彩電、空調(diào)四大類商品,常用的型號(hào)就有8千到1萬,如果按照5個(gè)人的錄入團(tuán)隊(duì),1個(gè)人平均每小時(shí)錄入4個(gè)PC版商品+4個(gè)移動(dòng)版的圖文詳情介紹,則需要3-4個(gè)月的時(shí)間,效率低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是提供一種效率高的基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法。
為解決上述問題,本發(fā)明采用如下技術(shù)方案:
一種基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法,包括以下步驟:
1)抓取程序模塊啟動(dòng)瀏覽器;
2)模仿人的操作打開商品的詳情頁;
3)抓取頁面內(nèi)的信息,并下載關(guān)聯(lián)的圖片;
4)人工審核。
作為優(yōu)選,所述抓取程序模塊由Selenium測試工具和爬蟲程序搭建。
作為優(yōu)選,所述步驟1)的具體步驟包括:
1.1)在抓取程序模塊上輸入商品的基本信息和目標(biāo)商城;
1.2)抓取程序模塊基于Selenium測試工具的功能實(shí)現(xiàn)模仿人的操作啟動(dòng)瀏覽器;
1.3)登錄商城;
1.4)通過步驟1.1)預(yù)設(shè)的關(guān)鍵字,在目標(biāo)網(wǎng)站進(jìn)行搜索,找到對(duì)應(yīng)的商品。
作為優(yōu)選,所述步驟2)的具體步驟包括:
2.2)打開商品的詳情頁;
2.3)等待瀏覽器加載完靜態(tài)和動(dòng)態(tài)內(nèi)容。
作為優(yōu)選,所述步驟3)的具體步驟包括:
3.1)基于爬蟲程序的功能實(shí)現(xiàn)自動(dòng)抓取該頁面內(nèi)的商品價(jià)格、規(guī)格參數(shù)和商品詳情信息,并下載關(guān)聯(lián)的圖片;
3.2)將抓取到的圖文信息的格式進(jìn)行轉(zhuǎn)化。
作為優(yōu)選,所述步驟1.4)若找不到對(duì)應(yīng)的商品則重新返回到步驟1.1)重新輸入商品的基本信息和目標(biāo)商城。
本發(fā)明的有益效果為:通過模仿人在瀏覽器發(fā)起鼠標(biāo)點(diǎn)擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,再結(jié)合網(wǎng)絡(luò)爬蟲的抓取的信息功能,完全模擬一個(gè)真實(shí)的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實(shí)用戶看到的圖文信息是完全一致的。相比于傳統(tǒng)的網(wǎng)絡(luò)爬蟲產(chǎn)品兼容性好、速度快、數(shù)據(jù)抓取準(zhǔn)確等特點(diǎn)。
具體實(shí)施方式
一種基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法,包括以下步驟:
1)抓取程序模塊啟動(dòng)瀏覽器;
2)模仿人的操作打開商品的詳情頁;
3)抓取頁面內(nèi)的信息,并下載關(guān)聯(lián)的圖片;
4)商城管理人員查看已抓取的商品信息,對(duì)存在問題的內(nèi)容進(jìn)行快速修改,通過審核后信息開始應(yīng)用于自己的商城。
本發(fā)明的有益效果為:通過模仿人在瀏覽器發(fā)起鼠標(biāo)點(diǎn)擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,再結(jié)合網(wǎng)絡(luò)爬蟲的抓取的信息功能,完全模擬一個(gè)真實(shí)的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實(shí)用戶看到的圖文信息是完全一致的。相比于傳統(tǒng)的網(wǎng)絡(luò)爬蟲產(chǎn)品兼容性好、速度快、數(shù)據(jù)抓取準(zhǔn)確等特點(diǎn)。
實(shí)施例2
一種基于Web動(dòng)態(tài)信息抓取技術(shù)的詳情頁面自動(dòng)生成方法,包括以下步驟:
1.在抓取程序模塊上輸入商品的基本信息和目標(biāo)商城;抓取程序模塊基于Selenium測試工具的功能實(shí)現(xiàn)模仿人的操作啟動(dòng)瀏覽器,登錄商城;通過預(yù)設(shè)的關(guān)鍵字,在目標(biāo)網(wǎng)站進(jìn)行搜索,找到對(duì)應(yīng)的商品,若找不到對(duì)應(yīng)的商品則重新輸入商品的基本信息和目標(biāo)商城;
2)打開商品的詳情頁,等待瀏覽器加載完靜態(tài)和動(dòng)態(tài)內(nèi)容;
3)基于爬蟲程序的功能實(shí)現(xiàn)自動(dòng)抓取該頁面內(nèi)的商品價(jià)格、規(guī)格參數(shù)和商品詳情信息,并下載關(guān)聯(lián)的圖片;然后將抓取到的圖文信息轉(zhuǎn)化為我方商城的商品數(shù)據(jù)格式;
4)商城管理人員查看已抓取的商品信息,對(duì)存在問題的內(nèi)容進(jìn)行快速修改,通過審核后信息開始應(yīng)用于自己的商城。
所述抓取程序模塊由Selenium測試工具和爬蟲程序搭建,基于Selenium技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)信息自動(dòng)抓取程序,具有可以控制瀏覽器的行為,模仿人在瀏覽器發(fā)起鼠標(biāo)點(diǎn)擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,模仿一個(gè)商城會(huì)員的操作:打開瀏覽器->登錄目標(biāo)商城->查找目標(biāo)商品->打開商品詳情頁面->等待瀏覽器加載完靜態(tài)和動(dòng)態(tài)內(nèi)容,然后再抽取商品名稱、價(jià)格、圖文詳情等內(nèi)容,操作完全模擬一個(gè)真實(shí)的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實(shí)用戶看到的圖文信息是完全一致的。
本發(fā)明的有益效果為:采用Selenium技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)通過模仿人在瀏覽器發(fā)起鼠標(biāo)點(diǎn)擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,再結(jié)合網(wǎng)絡(luò)爬蟲的抓取的信息功能,完全模擬一個(gè)真實(shí)的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實(shí)用戶看到的圖文信息是完全一致的。相比于傳統(tǒng)的網(wǎng)絡(luò)爬蟲產(chǎn)品兼容性好、速度快、數(shù)據(jù)抓取準(zhǔn)確等特點(diǎn)。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何不經(jīng)過創(chuàng)造性勞動(dòng)想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。