一種用于房庫網的網絡爬蟲服務系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出了一種用于房庫網的網絡爬蟲服務系統(tǒng),可快速的進行網站挖掘并提取房產相關的數據,包括:網站爬蟲模塊,由多個網站爬蟲組成,網站爬蟲與網站一一對應,并針對網站的頁面元素進行解析,網站爬蟲抽取網站數據進行語義分析并映射到預設的數據實體當中進行保存;監(jiān)控服務模塊,用于監(jiān)控各個網站爬蟲的工作情況,判斷網站爬蟲工作是否正常,數據抓取是否正確;管理服務模塊,用于配置網站爬蟲工作相關參數的設置,對網站爬蟲進行升級,并對服務系統(tǒng)的啟動與停止、網站爬蟲的生命周期及工作進行管理;部署服務模塊,用于對網站爬蟲進行分配與部署;調度服務模塊,內置網絡爬蟲的調度模式,對網站爬蟲的工作方式、時間、停止進行調度管理。
【專利說明】—種用于房庫網的網絡爬蟲服務系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及網站數據挖掘【技術領域】,尤其涉及一種用于房庫網的網絡爬蟲服務系統(tǒng)。
【背景技術】
[0002]房地產行業(yè)直接關系民生根本。當前居住市場將進入存量房時代,而許多存量房的房主并不是專業(yè)銷售人員,提供的出售信息不夠全面。同時目前政府部門的房屋的檔案管理仍停留在紙質階段,各種有關居住和房產方面的數據分散于各個單位和部門,這樣既給相關部門對人居和房產的管理帶來不便,同時各種有效數據也得不到充分的利用。百姓選擇住房,企業(yè)選擇辦公場所將面臨嚴重缺乏專業(yè)詳盡的信息服務。
[0003]在社會大環(huán)境下,推進房產信息化,便于購房者查詢信息,促進房產交易的完成,意義重大。房產信息化,需要建立收容房產相關“萬方數據”的大型數據庫。而建立數據庫的基礎就是數據挖掘,但是在進入信息高速傳播、垃圾信息滿天飛的今天,如何快速并有效的進行網站數據挖掘,一直是熱門話題,也一直沒有找到理想有效的解決手段。
【發(fā)明內容】
[0004]基于【背景技術】存在的問題,本發(fā)明提出了一種用于房庫網的網絡爬蟲服務系統(tǒng),可快速的進行網站挖掘并有效提取房產相關的數據。
[0005]本發(fā)明提出的一種用于房庫網的網絡爬蟲服務系統(tǒng),其特征在于,包括:
[0006]網站爬蟲模塊,由多個網站爬蟲組成,網站爬蟲與網站--對應,并針對網站的頁面元素進行解析,網站爬蟲抽取網站數據進行語義分析并映射到預設的數據實體當中進行保存;
[0007]監(jiān)控服務模塊,用于監(jiān)控各個網站爬蟲的工作情況,判斷網站爬蟲工作是否正常,數據抓取是否正確;
[0008]管理服務模塊,用于配置網站爬蟲工作相關參數的設置,對網站爬蟲進行升級,并對服務系統(tǒng)的啟動與停止、網站爬蟲的生命周期及工作進行管理;
[0009]部署服務模塊,用于對網站爬蟲進行分配與部署;
[0010]調度服務模塊,內置網絡爬蟲的調度模式,對網站爬蟲的工作方式、時間、停止進行調度管理;
[0011]網站爬蟲模塊分別連接監(jiān)控服務模塊、管理服務模塊、部署服務模塊和調度服務模塊,監(jiān)控服務模塊分別連接管理服務模塊,管理服務模塊分別連接部署服務模塊和調度服務模塊;
[0012]工作時,調度服務模塊對網站爬蟲的工作方式、時間、停止進行調度管理,部署服務模塊從網站爬蟲模塊調用網站爬蟲對相應的網站進行數據挖掘,監(jiān)控服務模塊監(jiān)控網站爬蟲的工作情況,當個別網站爬蟲工作異常時,監(jiān)控服務模塊通知管理服務模塊對異常的網站爬蟲進行參數及工作方式調節(jié),當異常網站爬蟲達到或超過門限值a時,監(jiān)控服務模塊通知管理服務模塊停止系統(tǒng)抓取網站數據,然后,管理服務模塊通知調度服務模塊和部署服務模塊重新對網站爬蟲進行調度和部署后再次進行網站數據挖掘,并由監(jiān)控服務模塊進行監(jiān)控,循環(huán)往復。
[0013]優(yōu)選地,門限值a為異常網站爬蟲與分布出去的總網站爬蟲的比值。
[0014]優(yōu)選地,a的取值范圍為[0.1,I]。
[0015]優(yōu)選地,a= 0.5。
[0016]優(yōu)選地,a為異常網站爬蟲的數量。
[0017]優(yōu)選地,a的取值范圍為[100,10000]。
[0018]優(yōu)選地,a的取值與分布出去的網站爬蟲數量成正比。
[0019]優(yōu)選地,a的取值可由人工設置或由系統(tǒng)自動生成。
[0020]優(yōu)選地,網站爬蟲均為聚焦爬蟲。
[0021 ] 本發(fā)明中,通過與網站一一對應的網站爬蟲進行數據挖掘,工作速率高,同時挖掘到的數據通過語義分析并與預設的數據實體進行映射后存儲,該手段可有效刪除無關信息及重復信息,提升存儲數據的價值,同時也減少所占存儲空間。本發(fā)明中,對網站爬蟲的管理十分便捷且人性化,既可以自動監(jiān)控調節(jié),也可以進行人工調控,保證網站數據挖掘的實時性、有效性以及精確性。
【專利附圖】
【附圖說明】
[0022]圖1為本發(fā)明提出的一種用于房庫網的網絡爬蟲服務系統(tǒng)的結構圖。
【具體實施方式】
[0023]參照圖1,本發(fā)明提出的一種用于房庫網的網絡爬蟲服務系統(tǒng),包括:網站爬蟲模塊、監(jiān)控服務模塊、管理服務模塊、部署服務模塊和調度服務模塊。網站爬蟲模塊分別連接監(jiān)控服務模塊、管理服務模塊、部署服務模塊和調度服務模塊,監(jiān)控服務模塊連接管理服務模塊,管理服務模塊分別連接部署服務模塊和調度服務模塊。
[0024]網站爬蟲模塊,由多個網站爬蟲組成,網站爬蟲與網站--對應,并針對網站的頁面元素進行解析,網站爬蟲抽取網站數據進行語義分析并映射到預設的數據實體當中進行保存。本實施方式,通過與網站--對應的網站爬蟲進行數據挖掘,工作速率高,同時挖掘到的數據通過語義分析并與預設的數據實體進行映射后存儲,該手段可有效刪除無關信息及重復信息,提升存儲數據的價值,同時也減少所占存儲空間。網站爬蟲均為聚焦爬蟲,僅僅挖掘與房產相關的信息。
[0025]監(jiān)控服務模塊,用于監(jiān)控各個網站爬蟲的工作情況,判斷網站爬蟲工作是否正常,數據抓取是否正確,以便運維與開發(fā)人員及時了解網站爬蟲的工作狀態(tài),進行調整。
[0026]管理服務模塊,用于配置網站爬蟲工作相關參數的設置,對網站爬蟲進行升級,并對服務系統(tǒng)的啟動與停止、網站爬蟲的生命周期及工作進行管理。網站爬蟲是該系統(tǒng)中最需要實時更新的部分,如果被抓取網站的頁面元素與認證模式等發(fā)生變化,那么對應的網站爬蟲就要進行相應的升級改造,以保證抓取內容的準確性。運維與開發(fā)人員可根據監(jiān)控服務模塊的監(jiān)控結果通過管理服務模塊及時進行網站爬蟲的升級,保證網站爬蟲的實時有效性。
[0027]部署服務模塊,用于對網站爬蟲進行分配與部署,使得每一個網站爬蟲負責且僅負責一個對應網站數據的抓取,提高數據挖掘效率,避免重復。部署服務模塊就是為了提升網站爬蟲的部署方便性而準備的’開發(fā)人員升級了網站爬蟲組件后可以方便快捷地進行部署。
[0028]調度服務模塊,內置網絡爬蟲的調度模式,對網站爬蟲的工作方式、時間、停止進行調度管理,該模塊可用于快速、批量地調節(jié)網站爬蟲,提高網站爬蟲的設置效率,減少空白時間,防止數據遺漏,提高網站數據挖掘的完整度。
[0029]本系統(tǒng)工作時,調度服務模塊對網站爬蟲的工作方式、時間、停止進行調度管理,部署服務模塊從網站爬蟲模塊調用網站爬蟲對相應的網站進行數據挖掘,監(jiān)控服務模塊監(jiān)控網站爬蟲的工作情況,當個別網站爬蟲工作異常時,監(jiān)控服務模塊通知管理服務模塊對異常的網站爬蟲進行參數及工作方式調節(jié),當異常網站爬蟲達到或超過門限值a時,監(jiān)控服務模塊通知管理服務模塊停止系統(tǒng)抓取網站數據,然后,管理服務模塊通知調度服務模塊和部署服務模塊重新對網站爬蟲進行調度和部署后再次進行網站數據挖掘,并由監(jiān)控服務模塊進行監(jiān)控,循環(huán)往復。
[0030]本系統(tǒng)中,門限值a為異常網站爬蟲與分布出去的總網站爬蟲的比值,且a = 0.5,即當a〈0.5時,利用管理服務模塊調整異常網站爬蟲,當a>0.5時,利用部署服務模塊和調度服務模塊調整異常網站爬蟲。具體實施時,a的取值范圍可設為[0.1,I]。
[0031]具體實施時,a也可以為異常網站爬蟲的數量,a的取值與分布出去的網站爬蟲數量成正比,即分布出去進行數據挖掘的網站爬蟲越多,a的取值越大,具體可設a的取值范圍為[100,10000],異常網站爬蟲的數量小于100時,管理服務模塊自行處理還不至于負荷過大,異常網站爬蟲的數量超過10000時,已經超過管理服務模塊的負荷范圍,啟用部署服務模塊和調度服務模塊更加快捷,可縮小數據挖掘的空白時間段。
[0032]a的取值可由人工設置或由系統(tǒng)自動生成,人工設置可提高其精確性,系統(tǒng)自動生成實時性更好。
[0033]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本【技術領域】的技術人員在本發(fā)明揭露的技術范圍內,根據本發(fā)明的技術方案及其發(fā)明構思加以等同替換或改變,都應涵蓋在本發(fā)明的保護范圍之內。
【權利要求】
1.一種用于房庫網的網絡爬蟲服務系統(tǒng),其特征在于,包括: 網站爬蟲模塊,由多個網站爬蟲組成,網站爬蟲與網站一一對應,并針對網站的頁面元素進行解析,網站爬蟲抽取網站數據進行語義分析并映射到預設的數據實體當中進行保存; 監(jiān)控服務模塊,用于監(jiān)控各個網站爬蟲的工作情況,判斷網站爬蟲工作是否正常,數據抓取是否正確; 管理服務模塊,用于配置網站爬蟲工作相關參數的設置,對網站爬蟲進行升級,并對服務系統(tǒng)的啟動與停止、網站爬蟲的生命周期及工作進行管理; 部署服務模塊,用于對網站爬蟲進行分配與部署; 調度服務模塊,內置網絡爬蟲的調度模式,對網站爬蟲的工作方式、時間、停止進行調度管理; 網站爬蟲模塊分別連接連接監(jiān)控服務模塊、管理服務模塊、部署服務模塊和調度服務模塊,監(jiān)控服務模塊連接管理服務模塊,管理服務模塊分別連接部署服務模塊和調度服務模塊; 工作時,調度服務模塊對網站爬蟲的工作方式、時間、停止進行調度管理,部署服務模塊從網站爬蟲模塊調用網站爬蟲對相應的網站進行數據挖掘,監(jiān)控服務模塊監(jiān)控網站爬蟲的工作情況,當個別網站爬蟲工作異常時,監(jiān)控服務模塊通知管理服務模塊對異常的網站爬蟲進行參數及工作方式調節(jié),當異常網站爬蟲達到或超過門限值a時,監(jiān)控服務模塊通知管理服務模塊停止系統(tǒng)抓取網站數據,然后,管理服務模塊通知調度服務模塊和部署服務模塊重新對網站爬蟲進行調度和部署后再次進行網站數據挖掘,并由監(jiān)控服務模塊進行監(jiān)控,循環(huán)往復。
2.如權利要求1所述的用于房庫網的網絡爬蟲服務系統(tǒng),其特征在于,門限值a為異常網站爬蟲與分布出去的總網站爬蟲的比值。
3.如權利要求2所述的用于房庫網的網絡爬蟲服務系統(tǒng),其特征在于,a的取值范圍為[0.1, I]。
4.如權利要求3所述的用于房庫網的網絡爬蟲服務系統(tǒng),其特征在于,a= 0.5。
5.如權利要求1所述的用于房庫網的網絡爬蟲服務系統(tǒng),其特征在于,a為異常網站爬蟲的數量。
6.如權利要求5所述的用于房庫網的網絡爬蟲服務系統(tǒng),其特征在于,a的取值范圍為[100,10000]。
7.如權利要求6所述的用于房庫網的網絡爬蟲服務系統(tǒng),其特征在于,a的取值與分布出去的網站爬蟲數量成正比。
8.如權利要求1至7任一項所述的用于房庫網的網絡爬蟲服務系統(tǒng),其特征在于,a的取值可由人工設置或由系統(tǒng)自動生成。
9.如權利要求1所述的用于房庫網的網絡爬蟲服務系統(tǒng),其特征在于,網站爬蟲均為聚焦爬蟲。
【文檔編號】G06F17/30GK104182462SQ201410347463
【公開日】2014年12月3日 申請日期:2014年7月21日 優(yōu)先權日:2014年7月21日
【發(fā)明者】賈巖 申請人:安徽華貞信息科技有限公司