一種爬取網(wǎng)頁(yè)招聘信息的方法
【專(zhuān)利摘要】本發(fā)明是一種爬取網(wǎng)頁(yè)招聘信息的方法,解決了網(wǎng)頁(yè)招聘信息采集難、入庫(kù)難的問(wèn)題。目前互聯(lián)網(wǎng)上存在一定數(shù)目的招聘網(wǎng)站,而如今企業(yè)的主要招聘是通過(guò)在招聘網(wǎng)站發(fā)布招聘信息進(jìn)行的,同樣的,應(yīng)聘者獲取工作的主要途徑是企業(yè)在招聘網(wǎng)站上發(fā)布的招聘信息。這些招聘信息在一定程度上能夠反應(yīng)當(dāng)今社會(huì)經(jīng)濟(jì)結(jié)構(gòu)的需求與變化;如果對(duì)招聘信息進(jìn)行科學(xué)的處理與分析,可以實(shí)現(xiàn)更具針對(duì)性的政策調(diào)整與人才培養(yǎng)。
【專(zhuān)利說(shuō)明】一種爬取網(wǎng)頁(yè)招聘信息的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種計(jì)算機(jī)應(yīng)用,具體地說(shuō)是一種爬取網(wǎng)頁(yè)招聘信息的方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的普及,招聘信息的載體逐漸由紙質(zhì)報(bào)刊轉(zhuǎn)向互聯(lián)網(wǎng)上的各類(lèi)招聘網(wǎng)站。當(dāng)今,招聘網(wǎng)站已成為企業(yè)與應(yīng)聘者發(fā)布與獲取招聘信息的主要途徑。企業(yè)為了能夠招聘到高精尖的人才,都會(huì)在不同的招聘網(wǎng)站上發(fā)布相應(yīng)的招聘信息,應(yīng)聘者為了能夠找到滿(mǎn)意的工作,也會(huì)去不同的網(wǎng)站去尋找相應(yīng)的招聘信息。隨著招聘網(wǎng)站的不斷增多,招聘信息也呈現(xiàn)出不斷增長(zhǎng)的趨勢(shì),而且信息內(nèi)容隨著崗位與企業(yè)的不同也呈現(xiàn)出不同與多變,這給采集也帶了眾多難題如下:
1.頁(yè)面不規(guī)則,造成規(guī)則的多變;
2.隨著數(shù)據(jù)量的不斷增大,分頁(yè)地址不斷變化;
3.網(wǎng)站信息更新速度快。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是提供一種爬取網(wǎng)頁(yè)招聘信息的方法。
[0004]本發(fā)明的目的是針對(duì)招聘網(wǎng)站上的各類(lèi)招聘信息進(jìn)行采集,主要是因?yàn)檎衅妇W(wǎng)站已成為當(dāng)今企業(yè)與應(yīng)聘者發(fā)布獲取招聘信息最主要的途徑。根據(jù)采集互聯(lián)網(wǎng)上數(shù)據(jù)的規(guī)貝U,對(duì)招聘網(wǎng)站中各類(lèi)招聘信息進(jìn)行采集:本發(fā)明的目的是按以下方式實(shí)現(xiàn)的,具體步驟如下:
O安裝采集軟件及抓包工具;
2)分析招聘網(wǎng)站地址,尋找各自不同類(lèi)別招聘信息的地址;
3)通過(guò)抓包工具獲取分頁(yè)信息,配置相關(guān)工具實(shí)施數(shù)據(jù)采集;
4)從互聯(lián)網(wǎng)上找到要采集的主流招聘網(wǎng)站;
5)利用抓包工具獲得各類(lèi)招聘信息的分頁(yè)地址;
6)分析頁(yè)面,找到要抓取的招聘信息的頁(yè)面規(guī)則;
7)通過(guò)配置分析好的規(guī)則進(jìn)行信息采集;
8)把采集的數(shù)據(jù)儲(chǔ)存到數(shù)據(jù)庫(kù)。
[0005]本發(fā)明的目的有益效果是:解決了網(wǎng)頁(yè)招聘信息采集難、入庫(kù)難的問(wèn)題。目前互聯(lián)網(wǎng)上存在一定數(shù)目的招聘網(wǎng)站,而如今企業(yè)的主要招聘是通過(guò)在招聘網(wǎng)站發(fā)布招聘信息進(jìn)行的,同樣的,應(yīng)聘者獲取工作的主要途徑是企業(yè)在招聘網(wǎng)站上發(fā)布的招聘信息。這些招聘信息在一定程度上能夠反應(yīng)當(dāng)今社會(huì)經(jīng)濟(jì)結(jié)構(gòu)的需求與變化;如果對(duì)招聘信息進(jìn)行科學(xué)的處理與分析,可以實(shí)現(xiàn)更具針對(duì)性的政策調(diào)整與人才培養(yǎng)。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0006]圖1是爬取網(wǎng)頁(yè)招聘信息的流程圖。
【具體實(shí)施方式】
[0007]參照說(shuō)明書(shū)附圖對(duì)本發(fā)明的方法作以下詳細(xì)地說(shuō)明。
[0008]由于不同招聘網(wǎng)站地址不一樣,不同類(lèi)別的招聘信息地址更是不一樣,因此,分以下幾個(gè)步驟對(duì)招聘信息進(jìn)行數(shù)據(jù)采集:
1)安裝采集軟件及抓包工具;
2)分析招聘網(wǎng)站地址,尋找各自不同類(lèi)別招聘信息的地址;
3)通過(guò)抓包工具獲取分頁(yè)信息,配置相關(guān)工具實(shí)施數(shù)據(jù)采集;
4)從互聯(lián)網(wǎng)上找到要采集的主流招聘網(wǎng)站;
5)利用抓包工具獲得各類(lèi)招聘信息的分頁(yè)地址;
6)分析頁(yè)面,找到要抓取的招聘信息的頁(yè)面規(guī)則;
7)通過(guò)配置分析好的規(guī)則進(jìn)行信息采集;
8)把采集的數(shù)據(jù)儲(chǔ)存到數(shù)據(jù)庫(kù)。
[0009]除說(shuō)明書(shū)所述的技術(shù)特征外,均為本專(zhuān)業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種爬取網(wǎng)頁(yè)招聘信息的方法,其特征在于具體步驟如下:1)安裝采集軟件及抓包工具;2)分析招聘網(wǎng)站地址,尋找各自不同類(lèi)別招聘信息的地址;3)通過(guò)抓包工具獲取分頁(yè)信息,配置相關(guān)工具實(shí)施數(shù)據(jù)采集;4)從互聯(lián)網(wǎng)上找到要采集的主流招聘網(wǎng)站;5)利用抓包工具獲得各類(lèi)招聘信息的分頁(yè)地址;6)分析頁(yè)面,找到要抓取的招聘信息的頁(yè)面規(guī)則;7)通過(guò)配置分析好的規(guī)則進(jìn)行信息采集;8)把采集的數(shù)據(jù)儲(chǔ)存到數(shù)據(jù)庫(kù)。
【文檔編號(hào)】G06F17/30GK104462431SQ201410774571
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年12月16日 優(yōu)先權(quán)日:2014年12月16日
【發(fā)明者】邱繼釗, 于治樓, 范瑩 申請(qǐng)人:浪潮軟件集團(tuán)有限公司