1.一種爬取電商網(wǎng)站關鍵詞品類信息的方法,其特征在于,包括:
根據(jù)電商網(wǎng)站信息、爬取品類信息的關鍵詞構造電商網(wǎng)站的搜索統(tǒng)一資源定位符URL;
訪問構造的電商網(wǎng)站的搜索URL,獲取所述URL對應的網(wǎng)頁的頁面信息;
對所述網(wǎng)頁的頁面信息進行解析,提取出所述頁面中描述電商網(wǎng)站關鍵詞品類的信息,得到電商網(wǎng)站關鍵詞品類信息。
2.根據(jù)權利要求1所述的方法,其特征在于,所述電商網(wǎng)站信息包括電商網(wǎng)站的域名;根據(jù)電商網(wǎng)站信息、爬取品類信息的關鍵詞構造電商網(wǎng)站的搜索URL包括:
根據(jù)電商的域名信息、爬取品類信息的關鍵詞構造如下形式的電商網(wǎng)站的搜索URL:
http://search.XXX.com/Search?keyword=YYY
其中,XXX是電商網(wǎng)站的域名,YYY是指具體的爬取品類信息的關鍵詞。
3.根據(jù)權利要求1或2所述的方法,其特征在于,訪問構造的電商網(wǎng)站的搜索URL,獲取所述URL對應的網(wǎng)頁的頁面信息包括:
批量訪問構造的電商網(wǎng)站的搜索URL,獲取所述URL對應的網(wǎng)頁的頁面信息。
4.根據(jù)權利要求3所述的方法,其特征在于,所述批量訪問構造的電商網(wǎng)站的搜索URL,獲取所述URL對應的網(wǎng)頁的頁面信息包括:
通過多線程同時并發(fā)批量訪問構造的電商網(wǎng)站的搜索URL,獲取所述URL對應的網(wǎng)頁的頁面信息。
5.根據(jù)權利要求4所述的方法,其特征在于,所述頁面信息為超文本標記語言HTML代碼的形式的頁面信息。
6.根據(jù)權利要求5所述的方法,其特征在于,對所述網(wǎng)頁的頁面信息進行解析,提取出所述頁面中描述電商網(wǎng)站關鍵詞品類的信息,得到電商網(wǎng)站關鍵詞品類信息包括:
直接對所述HTML代碼進行解析,提取出所述頁面中描述電商網(wǎng)站關鍵詞品類的信息,得到電商網(wǎng)站關鍵詞品類信息。
7.一種爬取電商網(wǎng)站關鍵詞品類信息的裝置,其特征在于,包括:
構造單元,用于根據(jù)電商網(wǎng)站信息、爬取品類信息的關鍵詞構造電商網(wǎng)站的搜索統(tǒng)一資源定位符URL;
訪問單元,用于訪問構造的電商網(wǎng)站的搜索URL,獲取所述URL對應的網(wǎng)頁的頁面信息;
解析單元,用于對所述網(wǎng)頁的頁面信息進行解析,提取出所述頁面中描述電商網(wǎng)站關鍵詞品類的信息,得到電商網(wǎng)站關鍵詞品類信息。
8.根據(jù)權利要求7所述的裝置,其特征在于,所述電商網(wǎng)站信息包括電商網(wǎng)站的域名;所述構造單元具體用于:
根據(jù)電商的域名信息、爬取品類信息的關鍵詞構造如下形式的電商網(wǎng)站的搜索URL:
http://search.XXX.com/Search?keyword=YYY
其中,XXX是電商網(wǎng)站的域名,YYY是指具體的爬取品類信息的關鍵詞。
9.根據(jù)權利要求7或8所述的裝置,其特征在于,所述訪問單元用于批量訪問構造的電商網(wǎng)站的搜索URL,獲取所述URL對應的網(wǎng)頁的頁面信息。
10.根據(jù)權利要求9所述的裝置,其特征在于,所述批量訪問構造的電商網(wǎng)站的搜索URL,獲取所述URL對應的網(wǎng)頁的頁面信息包括:
通過多線程同時并發(fā)批量訪問構造的電商網(wǎng)站的搜索URL,獲取所述URL對應的網(wǎng)頁的頁面信息。