信息抓取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例設(shè)及信息技術(shù)領(lǐng)域,尤其設(shè)及一種信息抓取方法及裝置。
【背景技術(shù)】
[0002] 信息抓取是一個將非結(jié)構(gòu)化的信息從網(wǎng)站中抓取出來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中 的過程。信息抓取是企業(yè)信息化的根基和第一步,只有利用先進(jìn)的技術(shù)作好了信息抓取工 作,才能為信息化帶來最大的價值。
[0003] 信息抓取主要應(yīng)用在W下幾個方面:關(guān)鍵信息抓取:獲取各種因特網(wǎng)上各種各樣 的專業(yè)信息數(shù)據(jù)庫;競爭情報系統(tǒng):通過關(guān)鍵字監(jiān)視網(wǎng)絡(luò)媒體上自己與競爭對手的市場信 息;企業(yè)內(nèi)容管理:批量精確地獲取外部內(nèi)容,并自動化處理;數(shù)據(jù)庫營銷:抽取留言本,論 壇,新聞組上面目標(biāo)潛在用戶的留言信息與聯(lián)系信息;企業(yè)整合口戶:在EIP中嵌入外部網(wǎng) 站的實(shí)時內(nèi)容;比較系統(tǒng):商品價格比較系統(tǒng);網(wǎng)絡(luò)信息集成:從多個同類網(wǎng)站中抽取信息 并集成在一起,如個人簡歷,招聘信息,租賃信息,商品信息,公司名錄;個性化信息代理:將 個人或企業(yè)感興趣的多個網(wǎng)站最新內(nèi)容整合在一起,通過Email的形式或者網(wǎng)頁形式提供 給用戶,節(jié)約用戶的逐個網(wǎng)站下載并瀏覽的時間等等。由此可見信息抓取非一般的價值且 高精度的信息抓取價值更高。
[0004] 然而,現(xiàn)有的信息抓取系統(tǒng)均需投入大量的硬件資源,否則無法保證抓取信息的 實(shí)時性。與此同時,對于不同抓取目標(biāo)站點(diǎn),現(xiàn)有技術(shù)信息抓取難W均保持文本高度準(zhǔn)確。
[0005] 因此,一種新的信息抓取方法亟待提出。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實(shí)施例提供一種信息抓取方法及裝置,用W解決現(xiàn)有技術(shù)中信息抓取非實(shí) 時、資源消耗大的缺陷。
[0007] 本發(fā)明實(shí)施例提供一種信息抓取方法,包括:
[000引統(tǒng)計信息網(wǎng)站列表,并將所述信息網(wǎng)站對應(yīng)的列表頁保存在第一數(shù)據(jù)庫中的列表 頁數(shù)據(jù)庫,其中,所述列表頁中保存有所述信息網(wǎng)站與對應(yīng)的詳情頁鏈接地址的對照關(guān)系;
[0009] 從所述第一數(shù)據(jù)庫中讀取所述列表頁的內(nèi)容,抓取符合預(yù)設(shè)抓取策略的所述詳情 頁鏈接地址并將所述抓取后的所述詳情頁鏈接地址保存在所述第一數(shù)據(jù)庫中的詳情頁數(shù) 據(jù)庫;
[0010] 將所述詳情頁鏈接地址分配到不同的抓取機(jī)器上進(jìn)行抓取,并將抓取得到的網(wǎng)頁 詳情數(shù)據(jù)保存在第二數(shù)據(jù)庫中;
[0011] 根據(jù)所述第一數(shù)據(jù)庫中的數(shù)據(jù)庫狀態(tài)碼從所述第二數(shù)據(jù)庫中抓取出相應(yīng)的所述 網(wǎng)頁詳情數(shù)據(jù),并抽取目標(biāo)字段,保存為目標(biāo)格式。
[0012] 進(jìn)一步地,統(tǒng)計信息網(wǎng)站列表,并將將所述信息網(wǎng)站對應(yīng)的列表頁保存在第一數(shù) 據(jù)庫中,包括:
[0013] 訪問互聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)下載,當(dāng)判定下載成功之后,抽取目標(biāo)信息網(wǎng)站的詳情頁鏈 接地址,并w所述目標(biāo)信息網(wǎng)站和對應(yīng)的所述詳情頁鏈接地址更新所述詳情頁數(shù)據(jù)庫,其 中,所述數(shù)據(jù)為目標(biāo)信息網(wǎng)站及對應(yīng)的所述詳情頁鏈接地址。
[0014] 進(jìn)一步地,所述詳情頁鏈接地址保存在所述第一數(shù)據(jù)庫中,包括;
[0015] 每保存一個新的所述詳情頁鏈接地址,則計算所述列表頁中出現(xiàn)的最新詳情頁比 例,從而動態(tài)規(guī)劃抓取間隔,更新所述第一數(shù)據(jù)庫中的下次抓取時間字段。
[0016] 進(jìn)一步地,從所述第一數(shù)據(jù)庫中讀取所述列表頁的內(nèi)容,包括:
[0017] 讀取所述第一數(shù)據(jù)庫,查詢下次抓取時間字段,若判定下次抓取時間小于當(dāng)前時 間,則通過查詢所述第一數(shù)據(jù)庫中的所述抓取狀態(tài)碼獲取所述列表頁中待抓取的所述詳情 頁鏈接地址,并修改所述數(shù)據(jù)庫狀態(tài)碼為正在抓取。
[0018] 進(jìn)一步地,將所述詳情頁鏈接地址分配到不同的抓取機(jī)器上進(jìn)行抓取,并將抓取 得到的網(wǎng)頁詳情數(shù)據(jù)保存在第二數(shù)據(jù)庫中,包括:
[0019] 將所述詳情頁鏈接地址分配到不同的所述抓取機(jī)器后,通過修改所述第一數(shù)據(jù)庫 中的所述數(shù)據(jù)庫狀態(tài)碼來監(jiān)控相應(yīng)詳情頁的抓取狀態(tài),并將抓取到的網(wǎng)頁詳情數(shù)據(jù)保存到 所述第二數(shù)據(jù)庫。
[0020] 進(jìn)一步地,所述第一數(shù)據(jù)庫為關(guān)系型數(shù)據(jù)庫,包括:MySQL、0racle、DB2、Microsoft SQL Server、Mic;rosoft Access ;所述第二數(shù)據(jù)庫為非關(guān)系型數(shù)據(jù)庫,包括:Cassandra、 皿日36、1?1日1<:、¥〇1(161]1〇1'1:、化日(316抓8。
[0021] 進(jìn)一步地,將所述詳情頁鏈接地址分配到不同的抓取機(jī)器上進(jìn)行抓取,包括:
[0022] 所述抓取機(jī)器根據(jù)預(yù)設(shè)的格式下載目標(biāo)信息,并將所述目標(biāo)信息數(shù)據(jù)保存到本地 磁盤用W備份數(shù)據(jù)。
[0023] 進(jìn)一步地,根據(jù)所述第一數(shù)據(jù)庫中的數(shù)據(jù)庫狀態(tài)碼從所述第二數(shù)據(jù)庫中抓取出相 應(yīng)的所述網(wǎng)頁詳情數(shù)據(jù),并抽取目標(biāo)字段,保存為目標(biāo)格式,包括:
[0024] 根據(jù)預(yù)設(shè)頻率將所述目標(biāo)信息數(shù)據(jù)從所述本地磁盤中讀取至所述第二數(shù)據(jù)庫,抽 取所述目標(biāo)字段并結(jié)構(gòu)化所述目標(biāo)字段;
[0025] 將所述結(jié)構(gòu)化的所述目標(biāo)字段保存在抽取列表中,通過關(guān)聯(lián)列表頁標(biāo)簽,生成目 標(biāo)格式并導(dǎo)入到目標(biāo)系統(tǒng)中。
[0026] 本發(fā)明實(shí)施例提供一種信息抓取裝置,包括:
[0027] 統(tǒng)計模塊,用于統(tǒng)計信息網(wǎng)站列表,并將所述信息網(wǎng)站對應(yīng)的列表頁保存在第一 數(shù)據(jù)庫中的列表頁數(shù)據(jù)庫,其中,所述列表頁中保存有所述信息網(wǎng)站與對應(yīng)的U化地址的對 照關(guān)系;
[0028] 采集模塊,用于從所述第一數(shù)據(jù)庫中讀取所述列表頁的內(nèi)容,抓取出符合預(yù)設(shè)抓 取策略的所述詳情頁鏈接地址并將所述抓取后的所述詳情頁鏈接地址保存在所述第一數(shù) 據(jù)庫中;
[0029] 調(diào)度模塊,用于將所述詳情頁鏈接地址分配到不同的抓取子模塊上進(jìn)行抓取,并 將抓取得到的網(wǎng)頁詳情數(shù)據(jù)保存在第二數(shù)據(jù)庫中的詳情頁數(shù)據(jù)庫;
[0030] 解析模塊,用于根據(jù)所述第一數(shù)據(jù)庫中的數(shù)據(jù)庫狀態(tài)碼從所述第二數(shù)據(jù)庫中抓取 出相應(yīng)的所述網(wǎng)頁詳情數(shù)據(jù),并抽取目標(biāo)字段,保存為目標(biāo)格式。
[0031] 進(jìn)一步地,所述統(tǒng)計模塊用于,訪問互聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)下載,當(dāng)判定下載成功之后, 抽取目標(biāo)信息網(wǎng)站的詳情頁鏈接地址,并W所述目標(biāo)信息網(wǎng)站和對應(yīng)的所述詳情頁鏈接地 址更新所述詳情頁數(shù)據(jù),其中,所述數(shù)據(jù)為目標(biāo)信息網(wǎng)站及對應(yīng)的所述詳情頁鏈接地址。
[0032] 進(jìn)一步地,所述統(tǒng)計模塊用于,每保存一個新的所述詳情頁鏈接地址,則計算所述 列表頁中出現(xiàn)的最新詳情頁比例,從而動態(tài)規(guī)劃抓取間隔,更新所述第一數(shù)據(jù)庫中的下次 抓取時間字段。
[0033] 進(jìn)一步地,所述采集模塊用于,讀取所述第一數(shù)據(jù)庫,查詢下次抓取時間字段,若 判定下次抓取時間小于當(dāng)前時間,則通過查詢所述第一數(shù)據(jù)庫中的所述抓取狀態(tài)碼獲取所 述列表頁中待抓取的所述詳情頁鏈接地址,并修改所述數(shù)據(jù)庫狀態(tài)碼為正在抓取。
[0034] 進(jìn)一步地,所述調(diào)度模塊用于,將所述詳情頁鏈接地址分配到不同的所述抓取機(jī) 器,并通過修改所述第一數(shù)據(jù)庫中的所述數(shù)據(jù)庫狀態(tài)碼來監(jiān)控相應(yīng)詳情頁的抓取狀態(tài),并 獎抓取到的所述網(wǎng)頁詳情數(shù)據(jù)保存到所述第二數(shù)據(jù)庫。
[0035] 進(jìn)一步地,所述第一數(shù)據(jù)庫為關(guān)系型數(shù)據(jù)庫,包括:MySQL、0racle、DB2、Microsoft SQL Server、Mic;rosoft Access ;所述第二數(shù)據(jù)庫為非關(guān)系型數(shù)據(jù)庫,包括:Cassandra、 皿日36、1?1日1<:、¥〇1(161]1〇1'1:、化日(316抓8。
[0036] 進(jìn)一步地,所述抓取子模塊用于,接收所述調(diào)度模塊分配的所述詳情頁鏈接地址, 并根據(jù)預(yù)設(shè)的格式下載目標(biāo)信息,并將所述目標(biāo)信息數(shù)據(jù)保存到本地磁盤用W備份數(shù)據(jù)。
[0037] 進(jìn)一步地,所述解析模塊用于,根據(jù)預(yù)設(shè)頻率將所述目標(biāo)信息數(shù)據(jù)從所述本地磁 盤中讀取至所述第二數(shù)據(jù)庫,抽取所述目標(biāo)字段并結(jié)構(gòu)化所述目標(biāo)字段;將所述結(jié)構(gòu)化的 所述目標(biāo)字段保存在抽取列表中,通過關(guān)聯(lián)列表頁標(biāo)簽,生成目標(biāo)格式并導(dǎo)入到