欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取及產(chǎn)品信息庫建立方法

文檔序號(hào):6545808閱讀:324來源:國知局
Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取及產(chǎn)品信息庫建立方法
【專利摘要】本發(fā)明針對(duì)Web網(wǎng)站產(chǎn)品信息的獲取設(shè)計(jì)了一種網(wǎng)頁抓取方法,首先抓取網(wǎng)站產(chǎn)品一級(jí)分類的首頁,通過分析抓取的分類首頁源文件,獲取下一級(jí)產(chǎn)品分類首頁鏈接;然后逐級(jí)抓取,直到網(wǎng)站所有分類首頁抓取完畢;通過分析所有分類子頁面的源文件,獲取翻頁元素和各分類頁面數(shù),然后生成各分類的子頁面鏈接,最后根據(jù)各分類的子頁面鏈接,完成各分類子頁面的抓取。同時(shí)通過分析爬蟲抓取的產(chǎn)品分類子頁面源文件,提取產(chǎn)品詳細(xì)信息和產(chǎn)品所屬分類信息,建立網(wǎng)站產(chǎn)品id、分類id以及其他詳細(xì)信息的映射關(guān)系,構(gòu)建產(chǎn)品信息庫。
【專利說明】Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取及產(chǎn)品信息庫建立方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)網(wǎng)絡(luò)爬蟲領(lǐng)域。針對(duì)有產(chǎn)品編號(hào)的網(wǎng)站,利用網(wǎng)絡(luò)爬蟲建立產(chǎn)品id、分類id與其他詳細(xì)信息的映射關(guān)系。
【背景技術(shù)】
[0002]隨著Internet技術(shù)的迅速發(fā)展,Web網(wǎng)站產(chǎn)品的不斷豐富,人們對(duì)信息價(jià)值認(rèn)識(shí)的不斷提高,從而激發(fā)了人們從Web網(wǎng)站海量產(chǎn)品信息中挖掘有用信息的需求。將海量的產(chǎn)品信息精準(zhǔn)分類,建立產(chǎn)品信息庫,是挖掘有用信息的一個(gè)重要依據(jù)。在整個(gè)數(shù)據(jù)挖掘過程中,網(wǎng)絡(luò)爬蟲扮演著一個(gè)重要的角色,網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁是大數(shù)據(jù)分析的數(shù)據(jù)來源,這些數(shù)據(jù)將直接響著數(shù)據(jù)挖掘的準(zhǔn)確性,但是傳統(tǒng)的網(wǎng)絡(luò)爬蟲是盡可能全面的抓取頁面信息,這樣缺乏目的性抓取將導(dǎo)致傳統(tǒng)爬蟲抓取效率的降低,這種方法對(duì)于包含海量產(chǎn)品信息的網(wǎng)站是不適用的。
[0003]通常有產(chǎn)品編碼的Web網(wǎng)站主要由產(chǎn)品頁面和產(chǎn)品分類頁面組成。產(chǎn)品頁面主要由產(chǎn)品詳細(xì)信息組成;產(chǎn)品分類頁面包含一個(gè)或多個(gè)子頁面,子頁面主要由產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊組成。這樣通過分析子頁面的源文件,可以將產(chǎn)品歸類。

【發(fā)明內(nèi)容】

[0004]基于現(xiàn)有技術(shù)存在的不足和以上發(fā)現(xiàn),本發(fā)明提出一種對(duì)Web網(wǎng)站產(chǎn)品詳細(xì)信息分類抓取的方法,針對(duì)性抓取Web網(wǎng)站的產(chǎn)品分類子頁面;同時(shí)通過分析爬蟲抓取的產(chǎn)品分類子頁面源文件,提取產(chǎn)品詳細(xì)信息和產(chǎn)品所屬分類信息,建立網(wǎng)站產(chǎn)品id、分類id以及其他詳細(xì)信息的映射關(guān)系,構(gòu)建產(chǎn)品信息庫。
[0005]本發(fā)明針對(duì)Web網(wǎng)站產(chǎn)品信息的獲取設(shè)計(jì)了一種網(wǎng)頁抓取方法,首先抓取網(wǎng)站產(chǎn)品一級(jí)分類的首頁,通過分析抓取的分類首頁源文件,獲取下一級(jí)產(chǎn)品分類首頁鏈接;然后逐級(jí)抓取,直到網(wǎng)站所有分類首頁抓取完畢;通過分析所有分類子頁面的源文件,獲取翻頁元素和各分類頁面數(shù),然后生成各分類的子頁面鏈接,最后根據(jù)各分類的子頁面鏈接,完成各分類子頁面的抓取。
[0006]各分類頁面的抓取具體步驟如下:
步驟1:一級(jí)分類首頁的url導(dǎo)入url任務(wù)隊(duì)列;
步驟2:判斷url任務(wù)隊(duì)列否為空,若不為空則網(wǎng)站的分類首頁還未抓取完畢;若為空則表示網(wǎng)站的所有分類首頁已抓取完,跳至步驟8,開始抓取各分類子頁面;
步驟3:若url任務(wù)隊(duì)列不為空,則根據(jù)url隊(duì)列中的網(wǎng)站分類首頁url開始抓取網(wǎng)
頁;
步驟4:記錄url的抓取狀態(tài);保存抓取成功的分類首頁源文件和url ;未抓取成功的分類首頁的url再次加入url任務(wù)隊(duì)列;三次抓取失敗的url則認(rèn)為此url無效;
步驟5:解析分類首頁源文件,獲取下一級(jí)產(chǎn)品分類的首頁url ;
步驟6:根據(jù)抓取成功的頁面url,對(duì)解析出的url去重,然后加入url任務(wù)隊(duì)列; 步驟7:循環(huán)步驟2,直到網(wǎng)站所有分類首頁源文件抓取完;
步驟8:解析所有分類首頁源文件,獲取各分類頁面數(shù)、翻頁元素和分類首頁url ;
步驟9:根據(jù)獲取的各分類頁面數(shù)、翻頁元素和分類首頁url,生成各分類的子頁面鏈
接;
步驟10:根據(jù)各分類的子頁面鏈接,抓取全部分類子頁面;
步驟11:保存各分類子頁面源文件。
[0007]進(jìn)一步,本發(fā)明提出一種基于以上分類抓取方法的Web網(wǎng)站產(chǎn)品詳細(xì)信息的產(chǎn)品信息庫構(gòu)建方法。本發(fā)明通過分析各分類子頁面源文件,根據(jù)產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊,提取產(chǎn)品信息和產(chǎn)品所屬分類信息字段,獲取字段中的id及文本描述信息,建立產(chǎn)品id與所屬各級(jí)分類id的映射關(guān)系,并對(duì)id描述說明,構(gòu)建產(chǎn)品信息庫。
[0008]信息庫分別由id映射、產(chǎn)品id描述、分類id描述3個(gè)表格組成。id映射表由產(chǎn)品id編號(hào)、產(chǎn)品所屬各級(jí)分類id和其他詳細(xì)信息組成;產(chǎn)品id描述表由產(chǎn)品id和產(chǎn)品的文本描述組成;分類id描述表由各級(jí)分類id和其文本描述組成。
[0009]建立產(chǎn)品信息庫的方法如下:
步驟1:解析分類子頁面源文件,獲取產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊;
步驟2:提取產(chǎn)品所屬分類信息塊(如網(wǎng)頁面包屑導(dǎo)航條)中的分類信息字段;
步驟3:提取產(chǎn)品列表信息塊中的每個(gè)產(chǎn)品的產(chǎn)品信息字段;
步驟4:提取分類信息字段和產(chǎn)品信息字段中的id和文本描述信息;
步驟5:按照表格格式輸入id字段和文本描述信息,最后存入數(shù)據(jù)庫。
[0010]本發(fā)明的優(yōu)點(diǎn)如下:
1、通過抓取網(wǎng)站各分類首頁,分析網(wǎng)頁源文件,獲取各個(gè)分類下包含的子頁面數(shù),結(jié)合抓取的分類首頁url,最后生成目標(biāo)網(wǎng)站各個(gè)分類子頁面的url,其目的實(shí)現(xiàn)了對(duì)目標(biāo)網(wǎng)站僅進(jìn)行一次的抓取分析(前提是在目標(biāo)網(wǎng)站結(jié)構(gòu)不做很大變化的前提下),便可在以后更新產(chǎn)品分類子頁面時(shí)多次利用這次分析所生成的url,這個(gè)方法減去了傳統(tǒng)爬蟲再次爬取目標(biāo)網(wǎng)站各分類子頁面時(shí)所花費(fèi)在解析網(wǎng)頁上的時(shí)間;
2、通過分析分類子頁面,提取關(guān)鍵字段,建立的產(chǎn)品信息庫,為基于Web產(chǎn)品的數(shù)據(jù)挖掘提供了有力的數(shù)據(jù)支持。同時(shí)信息庫使用者通過讀取url中的id值,可快速獲取url對(duì)應(yīng)的摘要信息,這無疑也為深度數(shù)據(jù)包挖掘工作的開展提供了便利。
【專利附圖】

【附圖說明】
[0011]圖1為抓取各分類子頁面流程圖;
圖2為建立產(chǎn)品信息庫流程圖;
圖3為id映射表;
圖4為產(chǎn)品id描述表;
圖5為分類id描述表。
[0012]具體實(shí)施方法
隨著21世紀(jì)互聯(lián)網(wǎng)技術(shù)的普遍運(yùn)用,信息量的爆炸式增長,人們步入了大數(shù)據(jù)的時(shí)代。面對(duì)Web網(wǎng)站琳瑯滿目的產(chǎn)品,實(shí)現(xiàn)對(duì)Web網(wǎng)站的產(chǎn)品分類子頁面抓取分析,建立產(chǎn)品信息庫,是數(shù)據(jù)挖掘的重要一步。對(duì)于有產(chǎn)品編碼的Web網(wǎng)站,如何建立產(chǎn)品信息庫,將直接影響后續(xù)web網(wǎng)站產(chǎn)品數(shù)據(jù)挖掘的精準(zhǔn)?;谝陨蠁栴},本發(fā)明提出一種對(duì)Web網(wǎng)站產(chǎn)品詳細(xì)信息分類抓取的方法,獲取產(chǎn)品分類子頁面源文件;同時(shí)通過分析爬蟲抓取的產(chǎn)品分類子頁面源文件,提取產(chǎn)品詳細(xì)信息和產(chǎn)品所屬分類信息,建立產(chǎn)品信息庫。
[0013]本
【發(fā)明內(nèi)容】
包含各分類子頁面抓取和建立產(chǎn)品信息庫兩個(gè)部分。
[0014]以下結(jié)合【專利附圖】
附圖
【附圖說明】和具體實(shí)施對(duì)本發(fā)明做進(jìn)一步說明:
本發(fā)明針對(duì)Web網(wǎng)站產(chǎn)品信息的獲取設(shè)計(jì)了一種網(wǎng)頁抓取方法,首先抓取網(wǎng)站產(chǎn)品一級(jí)分類的首頁,通過分析抓取的分類首頁源文件,獲取下一級(jí)產(chǎn)品分類首頁鏈接,然后逐級(jí)抓取,直到網(wǎng)站所有分類首頁抓取完畢;通過分析所有分類子頁面的源文件,獲取翻頁元素和各分類頁面數(shù),然后生成各分類的子頁面鏈接,最后根據(jù)各分類的子頁面鏈接,完成各分類子頁面的抓取。
[0015]參見圖1,各分類子頁面的抓取具體步驟如下:
步驟1:一級(jí)分類首頁的url導(dǎo)入url任務(wù)隊(duì)列;
步驟2:判斷url任務(wù)隊(duì)列否為空,若不為空則網(wǎng)站的分類首頁還未抓取完畢,若為空則表示網(wǎng)站的所有分類首頁已抓取完,跳至步驟8,開始抓取各分類子頁面;
步驟3:若url任務(wù)隊(duì)列不為空,則根據(jù)url隊(duì)列中的網(wǎng)站分類首頁url開始抓取網(wǎng)
頁;
步驟4:記錄url的抓取狀態(tài),保存抓取成功的分類首頁源文件和url,未抓取成功的分類首頁的url再次加入url任務(wù)隊(duì)列,三次抓取失敗的url則認(rèn)為此url無效;
步驟5:解析分類首頁源文件,獲取下一級(jí)產(chǎn)品分類的首頁url ;
步驟6:根據(jù)抓取成功的頁面url,對(duì)解析出的url去重,然后加入url任務(wù)隊(duì)列;
步驟7:循環(huán)步驟2,直到網(wǎng)站所有分類首頁源文件抓取完;
步驟8:解析所有分類首頁源文件,獲取各分類頁面數(shù)、翻頁元素和分類首頁url ;
步驟9:根據(jù)獲取的各分類頁面數(shù)、翻頁元素和分類首頁url,生成各分類的子頁面鏈
接;
步驟10:根據(jù)各分類的子頁面鏈接,抓取全部分類子頁面;
步驟11:保存各分類子頁面源文件。
[0016]進(jìn)一步,本發(fā)明基于以上分類抓取方法獲得的網(wǎng)頁,構(gòu)建產(chǎn)品信息庫。構(gòu)建方法的總構(gòu)思是:通過分析各分類子頁面源文件,根據(jù)產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊,提取產(chǎn)品信息和產(chǎn)品所屬分類信息字段,獲取字段中的id及文本描述信息,建立產(chǎn)品id與所屬各級(jí)分類id的映射關(guān)系,并對(duì)id描述說明。
[0017]信息庫分別由id映射、產(chǎn)品id描述、分類id描述3個(gè)表格組成。id映射表由產(chǎn)品id編號(hào)、產(chǎn)品所屬各級(jí)分類id和其他詳細(xì)信息組成;產(chǎn)品id描述表由產(chǎn)品id和產(chǎn)品的文本描述組成;分類id描述表由各級(jí)分類id和其文本描述組成。
[0018]參見圖2,建立產(chǎn)品信息庫的具體方法步驟如下:
步驟1:解析分類子頁面源文件,獲取產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊;
步驟2:提取產(chǎn)品所屬分類信息塊(如網(wǎng)頁面包屑導(dǎo)航條)中的分類信息字段;
步驟3:提取產(chǎn)品列表信息塊中的每個(gè)產(chǎn)品的產(chǎn)品信息字段;
步驟4:提取分類信息字段和產(chǎn)品信息字段中的id和文本描述信息;
步驟5:按照表格格式輸入id字段和文本描述信息,最后入庫。[0019]以上所述僅為本發(fā)明的優(yōu)選并不用于限制本發(fā)明,顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1.Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取方法,其特征在于:首先抓取網(wǎng)站產(chǎn)品一級(jí)分類的首頁,通過分析抓取的分類首頁源文件,獲取下一級(jí)產(chǎn)品分類首頁鏈接;然后逐級(jí)抓取,直到網(wǎng)站所有分類首頁抓取完畢;通過分析各級(jí)分類子頁面的源文件,獲取翻頁元素和各分類頁面數(shù),然后生成各分類的子頁面鏈接,最后根據(jù)各分類的子頁面鏈接,完成各分類子頁面的抓取。
2.根據(jù)權(quán)利要求1所述的Web網(wǎng)站產(chǎn)品詳細(xì)信息的分類抓取方法,其特征在于:各分類頁面抓取的具體步驟如下: 步驟1:一級(jí)分類首頁的url導(dǎo)入url任務(wù)隊(duì)列; 步驟2:判斷url任務(wù)隊(duì)列否為空,若不為空則網(wǎng)站的分類首頁還未抓取完畢;若為空則表示網(wǎng)站的所有分類首頁已抓取完,跳至步驟8,開始抓取各分類子頁面; 步驟3:若url任務(wù)隊(duì)列不為空,則根據(jù)url隊(duì)列中的網(wǎng)站分類首頁url開始抓取網(wǎng)頁;步驟4:記錄url的抓取狀態(tài);保存抓取成功的分類首頁源文件和url ;未抓取成功的分類首頁的url再次加入url任務(wù)隊(duì)列;三次抓取失敗的url則認(rèn)為此url無效; 步驟5:解析分類首頁源文件,獲取下一級(jí)產(chǎn)品分類的首頁url ; 步驟6:根據(jù)抓取成功的頁面url,對(duì)解析出的url去重,然后加入url任務(wù)隊(duì)列; 步驟7:循環(huán)步驟2,直到網(wǎng)站所有分類首頁源文件抓取完; 步驟8:解析所有分類首頁源文件,獲取各分類頁面數(shù)、翻頁元素和分類首頁url ; 步驟9:根據(jù)獲取的各分類頁面數(shù)、翻頁元素和分類首頁url,生成各分類的子頁面鏈接; 步驟10:根據(jù)各分類的子頁面鏈接,抓取全部分類子頁面; 步驟11:保存各分類子頁面源文件。
3.Web網(wǎng)站產(chǎn)品詳細(xì)信息的產(chǎn)品信息庫構(gòu)建方法,其特征在于:所述方法是針對(duì)采用權(quán)利要求1或2的分類抓取方法抓取的網(wǎng)頁,通過分析各分類子頁面源文件,根據(jù)產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊,提取產(chǎn)品信息和產(chǎn)品所屬分類信息字段,獲取字段中的id及文本描述信息,最后建立網(wǎng)站產(chǎn)品id、所屬各級(jí)分類id以及其他詳細(xì)信息的映射關(guān)系,并對(duì)id描述說明,構(gòu)建成產(chǎn)品信息庫。
4.根據(jù)權(quán)利要求3所述的Web網(wǎng)站產(chǎn)品詳細(xì)信息的產(chǎn)品信息庫構(gòu)建方法,其特征在于:所述產(chǎn)品信息庫分別由id映射、產(chǎn)品id描述、分類id描述3個(gè)表格組成;id映射表由產(chǎn)品id編號(hào)、產(chǎn)品所屬各級(jí)分類id和其他詳細(xì)信息組成;產(chǎn)品id描述表由產(chǎn)品id和產(chǎn)品的文本描述組成;分類id描述表由各級(jí)分類id和其文本描述組成。
5.根據(jù)權(quán)利要求3或4所述的Web網(wǎng)站產(chǎn)品詳細(xì)信息的產(chǎn)品信息庫構(gòu)建方法,其特征在于:所述建立產(chǎn)品信息庫的方法如下: 步驟1:解析分類子頁面源文件,獲取產(chǎn)品列表信息塊和產(chǎn)品所屬分類信息塊; 步驟2:提取產(chǎn)品所屬分類信息塊中的分類信息字段; 步驟3:提取產(chǎn)品列表信息塊中的每個(gè)產(chǎn)品的產(chǎn)品信息字段; 步驟4:提取分類信息字段和產(chǎn)品信息字段中的id和文本描述信息; 步驟5:按照表格格式輸入id字段和文本描述信息,最后存入數(shù)據(jù)庫。
【文檔編號(hào)】G06F17/30GK103927400SQ201410190477
【公開日】2014年7月16日 申請日期:2014年5月7日 優(yōu)先權(quán)日:2014年5月7日
【發(fā)明者】雒江濤, 申健, 楊軍超, 劉勇, 高偉, 鄧生雄, 王小平 申請人:重慶郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
任丘市| 甘肃省| 双桥区| 麻江县| 五河县| 南部县| 安化县| 中西区| 绥阳县| 辽中县| 新津县| 宁强县| 白河县| 湘乡市| 武隆县| 远安县| 郁南县| 邢台市| 中西区| 罗山县| 襄樊市| 甘谷县| 英山县| 巴彦县| 桐梓县| 皋兰县| 方城县| 泽普县| 肥东县| 沐川县| 临桂县| 泗水县| 绵竹市| 清新县| 江北区| 凉山| 瑞昌市| 榆社县| 清丰县| 陇西县| 九江县|