Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取及產(chǎn)品信息庫建立方法

文檔序號(hào)：6545808閱讀：324來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取及產(chǎn)品信息庫建立方法
【專利摘要】本發(fā)明針對(duì)Web網(wǎng)站產(chǎn)品信息的獲取設(shè)計(jì)了一種網(wǎng)頁抓取方法，首先抓取網(wǎng)站產(chǎn)品一級(jí)分類的首頁，通過分析抓取的分類首頁源文件，獲取下一級(jí)產(chǎn)品分類首頁鏈接；然后逐級(jí)抓取，直到網(wǎng)站所有分類首頁抓取完畢；通過分析所有分類子頁面的源文件，獲取翻頁元素和各分類頁面數(shù)，然后生成各分類的子頁面鏈接，最后根據(jù)各分類的子頁面鏈接，完成各分類子頁面的抓取。同時(shí)通過分析爬蟲抓取的產(chǎn)品分類子頁面源文件，提取產(chǎn)品詳細(xì)信息和產(chǎn)品所屬分類信息，建立網(wǎng)站產(chǎn)品id、分類id以及其他詳細(xì)信息的映射關(guān)系，構(gòu)建產(chǎn)品信息庫。
【專利說明】Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取及產(chǎn)品信息庫建立方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)網(wǎng)絡(luò)爬蟲領(lǐng)域。針對(duì)有產(chǎn)品編號(hào)的網(wǎng)站，利用網(wǎng)絡(luò)爬蟲建立產(chǎn)品id、分類id與其他詳細(xì)信息的映射關(guān)系。
【背景技術(shù)】
[0002]隨著Internet技術(shù)的迅速發(fā)展，Web網(wǎng)站產(chǎn)品的不斷豐富,人們對(duì)信息價(jià)值認(rèn)識(shí)的不斷提高，從而激發(fā)了人們從Web網(wǎng)站海量產(chǎn)品信息中挖掘有用信息的需求。將海量的產(chǎn)品信息精準(zhǔn)分類，建立產(chǎn)品信息庫，是挖掘有用信息的一個(gè)重要依據(jù)。在整個(gè)數(shù)據(jù)挖掘過程中，網(wǎng)絡(luò)爬蟲扮演著一個(gè)重要的角色，網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁是大數(shù)據(jù)分析的數(shù)據(jù)來源，這些數(shù)據(jù)將直接響著數(shù)據(jù)挖掘的準(zhǔn)確性，但是傳統(tǒng)的網(wǎng)絡(luò)爬蟲是盡可能全面的抓取頁面信息，這樣缺乏目的性抓取將導(dǎo)致傳統(tǒng)爬蟲抓取效率的降低，這種方法對(duì)于包含海量產(chǎn)品信息的網(wǎng)站是不適用的。
[0003]通常有產(chǎn)品編碼的Web網(wǎng)站主要由產(chǎn)品頁面和產(chǎn)品分類頁面組成。產(chǎn)品頁面主要由產(chǎn)品詳細(xì)信息組成；產(chǎn)品分類頁面包含一個(gè)或多個(gè)子頁面，子頁面主要由產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊組成。這樣通過分析子頁面的源文件，可以將產(chǎn)品歸類。

【發(fā)明內(nèi)容】

[0004]基于現(xiàn)有技術(shù)存在的不足和以上發(fā)現(xiàn)，本發(fā)明提出一種對(duì)Web網(wǎng)站產(chǎn)品詳細(xì)信息分類抓取的方法，針對(duì)性抓取Web網(wǎng)站的產(chǎn)品分類子頁面；同時(shí)通過分析爬蟲抓取的產(chǎn)品分類子頁面源文件，提取產(chǎn)品詳細(xì)信息和產(chǎn)品所屬分類信息，建立網(wǎng)站產(chǎn)品id、分類id以及其他詳細(xì)信息的映射關(guān)系，構(gòu)建產(chǎn)品信息庫。
[0005]本發(fā)明針對(duì)Web網(wǎng)站產(chǎn)品信息的獲取設(shè)計(jì)了一種網(wǎng)頁抓取方法，首先抓取網(wǎng)站產(chǎn)品一級(jí)分類的首頁，通過分析抓取的分類首頁源文件，獲取下一級(jí)產(chǎn)品分類首頁鏈接；然后逐級(jí)抓取，直到網(wǎng)站所有分類首頁抓取完畢；通過分析所有分類子頁面的源文件，獲取翻頁元素和各分類頁面數(shù)，然后生成各分類的子頁面鏈接，最后根據(jù)各分類的子頁面鏈接，完成各分類子頁面的抓取。
[0006]各分類頁面的抓取具體步驟如下:
步驟1:一級(jí)分類首頁的url導(dǎo)入url任務(wù)隊(duì)列；
步驟2:判斷url任務(wù)隊(duì)列否為空，若不為空則網(wǎng)站的分類首頁還未抓取完畢；若為空則表示網(wǎng)站的所有分類首頁已抓取完，跳至步驟8，開始抓取各分類子頁面；
步驟3:若url任務(wù)隊(duì)列不為空，則根據(jù)url隊(duì)列中的網(wǎng)站分類首頁url開始抓取網(wǎng)
頁；
步驟4:記錄url的抓取狀態(tài)；保存抓取成功的分類首頁源文件和url ;未抓取成功的分類首頁的url再次加入url任務(wù)隊(duì)列；三次抓取失敗的url則認(rèn)為此url無效；
步驟5:解析分類首頁源文件，獲取下一級(jí)產(chǎn)品分類的首頁url ；
步驟6:根據(jù)抓取成功的頁面url,對(duì)解析出的url去重,然后加入url任務(wù)隊(duì)列；步驟7:循環(huán)步驟2，直到網(wǎng)站所有分類首頁源文件抓取完；
步驟8:解析所有分類首頁源文件，獲取各分類頁面數(shù)、翻頁元素和分類首頁url ；
步驟9:根據(jù)獲取的各分類頁面數(shù)、翻頁元素和分類首頁url，生成各分類的子頁面鏈
接;
步驟10:根據(jù)各分類的子頁面鏈接，抓取全部分類子頁面；
步驟11:保存各分類子頁面源文件。
[0007]進(jìn)一步，本發(fā)明提出一種基于以上分類抓取方法的Web網(wǎng)站產(chǎn)品詳細(xì)信息的產(chǎn)品信息庫構(gòu)建方法。本發(fā)明通過分析各分類子頁面源文件，根據(jù)產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊，提取產(chǎn)品信息和產(chǎn)品所屬分類信息字段，獲取字段中的id及文本描述信息，建立產(chǎn)品id與所屬各級(jí)分類id的映射關(guān)系，并對(duì)id描述說明，構(gòu)建產(chǎn)品信息庫。
[0008]信息庫分別由id映射、產(chǎn)品id描述、分類id描述3個(gè)表格組成。id映射表由產(chǎn)品id編號(hào)、產(chǎn)品所屬各級(jí)分類id和其他詳細(xì)信息組成；產(chǎn)品id描述表由產(chǎn)品id和產(chǎn)品的文本描述組成；分類id描述表由各級(jí)分類id和其文本描述組成。
[0009]建立產(chǎn)品信息庫的方法如下:
步驟1:解析分類子頁面源文件，獲取產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊；
步驟2:提取產(chǎn)品所屬分類信息塊(如網(wǎng)頁面包屑導(dǎo)航條)中的分類信息字段；
步驟3:提取產(chǎn)品列表信息塊中的每個(gè)產(chǎn)品的產(chǎn)品信息字段；
步驟4:提取分類信息字段和產(chǎn)品信息字段中的id和文本描述信息；
步驟5:按照表格格式輸入id字段和文本描述信息，最后存入數(shù)據(jù)庫。
[0010]本發(fā)明的優(yōu)點(diǎn)如下:
1、通過抓取網(wǎng)站各分類首頁，分析網(wǎng)頁源文件，獲取各個(gè)分類下包含的子頁面數(shù)，結(jié)合抓取的分類首頁url，最后生成目標(biāo)網(wǎng)站各個(gè)分類子頁面的url，其目的實(shí)現(xiàn)了對(duì)目標(biāo)網(wǎng)站僅進(jìn)行一次的抓取分析(前提是在目標(biāo)網(wǎng)站結(jié)構(gòu)不做很大變化的前提下)，便可在以后更新產(chǎn)品分類子頁面時(shí)多次利用這次分析所生成的url，這個(gè)方法減去了傳統(tǒng)爬蟲再次爬取目標(biāo)網(wǎng)站各分類子頁面時(shí)所花費(fèi)在解析網(wǎng)頁上的時(shí)間；
2、通過分析分類子頁面，提取關(guān)鍵字段，建立的產(chǎn)品信息庫，為基于Web產(chǎn)品的數(shù)據(jù)挖掘提供了有力的數(shù)據(jù)支持。同時(shí)信息庫使用者通過讀取url中的id值，可快速獲取url對(duì)應(yīng)的摘要信息，這無疑也為深度數(shù)據(jù)包挖掘工作的開展提供了便利。
【專利附圖】

【附圖說明】
[0011]圖1為抓取各分類子頁面流程圖；
圖2為建立產(chǎn)品信息庫流程圖；
圖3為id映射表；
圖4為產(chǎn)品id描述表；
圖5為分類id描述表。
[0012]具體實(shí)施方法
隨著21世紀(jì)互聯(lián)網(wǎng)技術(shù)的普遍運(yùn)用，信息量的爆炸式增長，人們步入了大數(shù)據(jù)的時(shí)代。面對(duì)Web網(wǎng)站琳瑯滿目的產(chǎn)品，實(shí)現(xiàn)對(duì)Web網(wǎng)站的產(chǎn)品分類子頁面抓取分析，建立產(chǎn)品信息庫，是數(shù)據(jù)挖掘的重要一步。對(duì)于有產(chǎn)品編碼的Web網(wǎng)站，如何建立產(chǎn)品信息庫，將直接影響后續(xù)web網(wǎng)站產(chǎn)品數(shù)據(jù)挖掘的精準(zhǔn)?；谝陨蠁栴}，本發(fā)明提出一種對(duì)Web網(wǎng)站產(chǎn)品詳細(xì)信息分類抓取的方法，獲取產(chǎn)品分類子頁面源文件；同時(shí)通過分析爬蟲抓取的產(chǎn)品分類子頁面源文件，提取產(chǎn)品詳細(xì)信息和產(chǎn)品所屬分類信息，建立產(chǎn)品信息庫。
[0013]本
【發(fā)明內(nèi)容】
包含各分類子頁面抓取和建立產(chǎn)品信息庫兩個(gè)部分。
[0014]以下結(jié)合【專利附圖】

【附圖說明】和具體實(shí)施對(duì)本發(fā)明做進(jìn)一步說明:
本發(fā)明針對(duì)Web網(wǎng)站產(chǎn)品信息的獲取設(shè)計(jì)了一種網(wǎng)頁抓取方法，首先抓取網(wǎng)站產(chǎn)品一級(jí)分類的首頁，通過分析抓取的分類首頁源文件，獲取下一級(jí)產(chǎn)品分類首頁鏈接，然后逐級(jí)抓取，直到網(wǎng)站所有分類首頁抓取完畢；通過分析所有分類子頁面的源文件，獲取翻頁元素和各分類頁面數(shù)，然后生成各分類的子頁面鏈接，最后根據(jù)各分類的子頁面鏈接，完成各分類子頁面的抓取。
[0015]參見圖1，各分類子頁面的抓取具體步驟如下:
步驟1:一級(jí)分類首頁的url導(dǎo)入url任務(wù)隊(duì)列；
步驟2:判斷url任務(wù)隊(duì)列否為空，若不為空則網(wǎng)站的分類首頁還未抓取完畢，若為空則表示網(wǎng)站的所有分類首頁已抓取完，跳至步驟8，開始抓取各分類子頁面；
步驟3:若url任務(wù)隊(duì)列不為空，則根據(jù)url隊(duì)列中的網(wǎng)站分類首頁url開始抓取網(wǎng)
頁；
步驟4:記錄url的抓取狀態(tài)，保存抓取成功的分類首頁源文件和url，未抓取成功的分類首頁的url再次加入url任務(wù)隊(duì)列,三次抓取失敗的url則認(rèn)為此url無效；
步驟5:解析分類首頁源文件，獲取下一級(jí)產(chǎn)品分類的首頁url ；
步驟6:根據(jù)抓取成功的頁面url,對(duì)解析出的url去重,然后加入url任務(wù)隊(duì)列；
步驟7:循環(huán)步驟2，直到網(wǎng)站所有分類首頁源文件抓取完；
步驟8:解析所有分類首頁源文件，獲取各分類頁面數(shù)、翻頁元素和分類首頁url ；
步驟9:根據(jù)獲取的各分類頁面數(shù)、翻頁元素和分類首頁url，生成各分類的子頁面鏈
接;
步驟10:根據(jù)各分類的子頁面鏈接，抓取全部分類子頁面；
步驟11:保存各分類子頁面源文件。
[0016]進(jìn)一步，本發(fā)明基于以上分類抓取方法獲得的網(wǎng)頁，構(gòu)建產(chǎn)品信息庫。構(gòu)建方法的總構(gòu)思是:通過分析各分類子頁面源文件，根據(jù)產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊，提取產(chǎn)品信息和產(chǎn)品所屬分類信息字段，獲取字段中的id及文本描述信息，建立產(chǎn)品id與所屬各級(jí)分類id的映射關(guān)系，并對(duì)id描述說明。
[0017]信息庫分別由id映射、產(chǎn)品id描述、分類id描述3個(gè)表格組成。id映射表由產(chǎn)品id編號(hào)、產(chǎn)品所屬各級(jí)分類id和其他詳細(xì)信息組成；產(chǎn)品id描述表由產(chǎn)品id和產(chǎn)品的文本描述組成；分類id描述表由各級(jí)分類id和其文本描述組成。
[0018]參見圖2，建立產(chǎn)品信息庫的具體方法步驟如下:
步驟1:解析分類子頁面源文件，獲取產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊；
步驟2:提取產(chǎn)品所屬分類信息塊(如網(wǎng)頁面包屑導(dǎo)航條)中的分類信息字段；
步驟3:提取產(chǎn)品列表信息塊中的每個(gè)產(chǎn)品的產(chǎn)品信息字段；
步驟4:提取分類信息字段和產(chǎn)品信息字段中的id和文本描述信息；
步驟5:按照表格格式輸入id字段和文本描述信息，最后入庫。[0019]以上所述僅為本發(fā)明的優(yōu)選并不用于限制本發(fā)明，顯然，本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1.Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取方法，其特征在于:首先抓取網(wǎng)站產(chǎn)品一級(jí)分類的首頁，通過分析抓取的分類首頁源文件，獲取下一級(jí)產(chǎn)品分類首頁鏈接；然后逐級(jí)抓取，直到網(wǎng)站所有分類首頁抓取完畢；通過分析各級(jí)分類子頁面的源文件，獲取翻頁元素和各分類頁面數(shù)，然后生成各分類的子頁面鏈接，最后根據(jù)各分類的子頁面鏈接，完成各分類子頁面的抓取。
2.根據(jù)權(quán)利要求1所述的Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取方法，其特征在于:各分類頁面抓取的具體步驟如下: 步驟1:一級(jí)分類首頁的url導(dǎo)入url任務(wù)隊(duì)列；步驟2:判斷url任務(wù)隊(duì)列否為空，若不為空則網(wǎng)站的分類首頁還未抓取完畢；若為空則表示網(wǎng)站的所有分類首頁已抓取完，跳至步驟8，開始抓取各分類子頁面；步驟3:若url任務(wù)隊(duì)列不為空，則根據(jù)url隊(duì)列中的網(wǎng)站分類首頁url開始抓取網(wǎng)頁；步驟4:記錄url的抓取狀態(tài)；保存抓取成功的分類首頁源文件和url ;未抓取成功的分類首頁的url再次加入url任務(wù)隊(duì)列；三次抓取失敗的url則認(rèn)為此url無效；步驟5:解析分類首頁源文件，獲取下一級(jí)產(chǎn)品分類的首頁url ；步驟6:根據(jù)抓取成功的頁面url,對(duì)解析出的url去重,然后加入url任務(wù)隊(duì)列；步驟7:循環(huán)步驟2，直到網(wǎng)站所有分類首頁源文件抓取完；步驟8:解析所有分類首頁源文件，獲取各分類頁面數(shù)、翻頁元素和分類首頁url ；步驟9:根據(jù)獲取的各分類頁面數(shù)、翻頁元素和分類首頁url，生成各分類的子頁面鏈接; 步驟10:根據(jù)各分類的子頁面鏈接，抓取全部分類子頁面；步驟11:保存各分類子頁面源文件。
3.Web網(wǎng)站產(chǎn)品詳細(xì)信息的產(chǎn)品信息庫構(gòu)建方法，其特征在于:所述方法是針對(duì)采用權(quán)利要求1或2的分類抓取方法抓取的網(wǎng)頁，通過分析各分類子頁面源文件，根據(jù)產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊，提取產(chǎn)品信息和產(chǎn)品所屬分類信息字段，獲取字段中的id及文本描述信息，最后建立網(wǎng)站產(chǎn)品id、所屬各級(jí)分類id以及其他詳細(xì)信息的映射關(guān)系，并對(duì)id描述說明，構(gòu)建成產(chǎn)品信息庫。
4.根據(jù)權(quán)利要求3所述的Web網(wǎng)站產(chǎn)品詳細(xì)信息的產(chǎn)品信息庫構(gòu)建方法，其特征在于:所述產(chǎn)品信息庫分別由id映射、產(chǎn)品id描述、分類id描述3個(gè)表格組成；id映射表由產(chǎn)品id編號(hào)、產(chǎn)品所屬各級(jí)分類id和其他詳細(xì)信息組成；產(chǎn)品id描述表由產(chǎn)品id和產(chǎn)品的文本描述組成；分類id描述表由各級(jí)分類id和其文本描述組成。
5.根據(jù)權(quán)利要求3或4所述的Web網(wǎng)站產(chǎn)品詳細(xì)信息的產(chǎn)品信息庫構(gòu)建方法，其特征在于:所述建立產(chǎn)品信息庫的方法如下: 步驟1:解析分類子頁面源文件，獲取產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊；步驟2:提取產(chǎn)品所屬分類信息塊中的分類信息字段；步驟3:提取產(chǎn)品列表信息塊中的每個(gè)產(chǎn)品的產(chǎn)品信息字段；步驟4:提取分類信息字段和產(chǎn)品信息字段中的id和文本描述信息；步驟5:按照表格格式輸入id字段和文本描述信息，最后存入數(shù)據(jù)庫。
【文檔編號(hào)】G06F17/30GK103927400SQ201410190477
【公開日】2014年7月16日申請日期:2014年5月7日優(yōu)先權(quán)日:2014年5月7日
【發(fā)明者】雒江濤, 申健, 楊軍超, 劉勇, 高偉, 鄧生雄, 王小平申請人:重慶郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：雒江濤;申健;楊軍超;劉勇;高偉;鄧生雄;王小平
技術(shù)所有人：重慶郵電大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

淘寶產(chǎn)品抓取相關(guān)技術(shù)

威科先行法律信息庫相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取及產(chǎn)品信息庫建立方法