欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

頁(yè)面數(shù)據(jù)抓取方法和系統(tǒng)的制作方法

文檔序號(hào):6633766閱讀:289來(lái)源:國(guó)知局
頁(yè)面數(shù)據(jù)抓取方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種頁(yè)面數(shù)據(jù)抓取方法和系統(tǒng),該方法包括:S1.解析目標(biāo)頁(yè)面得到目標(biāo)頁(yè)面的配置信息,根據(jù)配置信息生成匹配模板;S2.從配置信息中獲取目標(biāo)頁(yè)面的地址信息,根據(jù)地址信息確定目標(biāo)頁(yè)面,獲取目標(biāo)頁(yè)面中的文本數(shù)據(jù);S3.抓取單元根據(jù)匹配模板在目標(biāo)頁(yè)面中抓取文本數(shù)據(jù),存儲(chǔ)文本數(shù)據(jù)作為索引操作的根據(jù)。通過(guò)本發(fā)明的技術(shù)方案,使得抓取單元能夠快速適用于各種網(wǎng)站的頁(yè)面,并且能夠準(zhǔn)確抓取目標(biāo)頁(yè)面中特定的區(qū)域和/或數(shù)據(jù)。
【專利說(shuō)明】頁(yè)面數(shù)據(jù)抓取方法和系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,具體而言,涉及一種頁(yè)面數(shù)據(jù)抓取方法和一種頁(yè) 面數(shù)據(jù)抓取系統(tǒng)。

【背景技術(shù)】
[0002] 通過(guò)最便捷的方式,獲取最有效的信息是人們一直以來(lái)追求的目標(biāo)。因此,簡(jiǎn)單可 靠、性能穩(wěn)定是編程人員設(shè)計(jì)信息采集和檢索系統(tǒng)的最高要求。隨著全球信息化的快速發(fā) 展,互聯(lián)網(wǎng)上產(chǎn)生了大量的網(wǎng)頁(yè),傳統(tǒng)搜索引擎(Google,百度等)的出現(xiàn)為用戶直面海量 網(wǎng)頁(yè)的信息檢索問(wèn)題提供了解決途徑。但是,傳統(tǒng)搜索引擎注重的是信息檢索的廣度,很難 滿足用戶越來(lái)越個(gè)性化、專業(yè)化的檢索需求,因此,以特定用途或者領(lǐng)域的企業(yè)級(jí)檢索、主 題垂直檢索應(yīng)運(yùn)而生。個(gè)性化的搜索引擎只搜索特定的或者用戶認(rèn)為最感興趣的網(wǎng)絡(luò)資 源,能夠更好的為用戶提供便捷、高效的檢索服務(wù),逐漸成為現(xiàn)代信息檢索領(lǐng)域的一個(gè)重要 的發(fā)展趨勢(shì)。
[0003] 搜索引擎一般來(lái)講有三大功能:爬蟲(chóng),主要負(fù)責(zé)網(wǎng)頁(yè)數(shù)據(jù)的抓取,為搜索引擎提供 檢索的數(shù)據(jù)源頭;索引,為了提高檢索效率,把爬蟲(chóng)所采集的網(wǎng)頁(yè)數(shù)據(jù)分詞后建立的以詞為 單位的倒排文件;排名,根據(jù)用戶輸入的查詢和索引庫(kù)匹配后按照一定的排序規(guī)則所反饋 給用戶的檢索結(jié)果序列。由此可見(jiàn),爬蟲(chóng)所采集回來(lái)的網(wǎng)頁(yè)是搜索引擎的數(shù)據(jù)源頭,其質(zhì) 量對(duì)搜索引擎的檢索效果有很大的影響。個(gè)性化搜索引擎相比通用搜索引擎來(lái)說(shuō),最大的 區(qū)別就是爬蟲(chóng)系統(tǒng),傳統(tǒng)爬蟲(chóng)是通過(guò)最大化的網(wǎng)絡(luò)資源覆蓋來(lái)滿足大量用戶的一般檢索需 求,采用類似于有向圖的廣度優(yōu)先遍歷方式抓取網(wǎng)絡(luò)資源,注重的是信息采集的廣度。而個(gè) 性化搜索引擎目標(biāo)在于以最少的爬蟲(chóng)服務(wù)資源抓取最有價(jià)值的web信息,并最大化得過(guò)濾 無(wú)用信息,為用戶提供十分精準(zhǔn)的信息,其爬蟲(chóng)模塊暫且稱為"垂直爬蟲(chóng)"。所謂垂直,是相 對(duì)于綜合搜索引擎網(wǎng)絡(luò)爬蟲(chóng)模塊的橫向搜索、信息量大、查詢不夠精確、深度不夠而言的。 垂直爬蟲(chóng)與通用爬蟲(chóng)的區(qū)別主要是對(duì)網(wǎng)頁(yè)信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將網(wǎng)頁(yè)的 非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),其特點(diǎn)就是"專、精、深",且具有行業(yè)色彩, 相比較綜合搜索引擎的海量信息無(wú)序化,垂直爬蟲(chóng)則顯得更加專注、具體和深入。
[0004] 如上所述,個(gè)性化搜索引擎為了使搜索效果達(dá)到"專、精、深"的目標(biāo),其爬蟲(chóng)模塊 必須要準(zhǔn)確的抓取各類型網(wǎng)站或論壇的具體欄目,甚至某類主題的文章列表,盡量避免或 減少非既定主題的內(nèi)容出現(xiàn)在搜索結(jié)果中,以導(dǎo)致不良的用戶體驗(yàn)。為此,或許為每種類型 的網(wǎng)站編定制開(kāi)發(fā)出一套爬蟲(chóng)不失一種解決方案,但是,隨著互聯(lián)網(wǎng)站點(diǎn)的日益增長(zhǎng),網(wǎng)站 頁(yè)面內(nèi)容的不斷變化,這樣的方式勢(shì)必給開(kāi)發(fā)人員和維護(hù)人員帶來(lái)巨大繁重的工作量,并 且檢索效率也得不到保證。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明所要解決的技術(shù)問(wèn)題是,如何使得抓取單元能夠快速適用于各種網(wǎng)站的頁(yè) 面,并且能夠準(zhǔn)確抓取目標(biāo)頁(yè)面中特定的區(qū)域和/或數(shù)據(jù)。
[0006] 為此目的,本發(fā)明提出了一種頁(yè)面數(shù)據(jù)抓取方法,包括:S1,解析目標(biāo)頁(yè)面得到所 述目標(biāo)頁(yè)面的配置信息,根據(jù)所述配置信息生成匹配模板;S2,從所述配置信息中獲取所述 目標(biāo)頁(yè)面的地址信息,根據(jù)所述地址信息確定所述目標(biāo)頁(yè)面,獲取所述目標(biāo)頁(yè)面中的文本 數(shù)據(jù);S3,抓取單元根據(jù)所述匹配模板在所述目標(biāo)頁(yè)面中抓取文本數(shù)據(jù),存儲(chǔ)所述文本數(shù)據(jù) 作為索引操作的根據(jù)。
[0007] 優(yōu)選地,所述步驟Sl還包括:將所述配置信息加載到所述抓取單元的靜態(tài)內(nèi)存 中。
[0008] 優(yōu)選地,所述步驟S2還包括:將所述地址信息從隊(duì)尾插入地址隊(duì)列中,其中,所述 地址隊(duì)列通過(guò)單例模式管理。
[0009]優(yōu)選地,所述步驟S2還包括:過(guò)濾所述文本數(shù)據(jù)中與預(yù)設(shè)數(shù)據(jù)類型不相符的數(shù) 據(jù)。
[0010] 優(yōu)選地,在所述步驟Si之前還包括:判斷所述目標(biāo)頁(yè)面的復(fù)雜度,在所述復(fù)雜度 小于或等于預(yù)設(shè)值時(shí),通過(guò)正則表達(dá)式解析所述目標(biāo)頁(yè)面,在所述復(fù)雜度大于所述預(yù)設(shè)值 時(shí),通過(guò)jsoup框架解析所述目標(biāo)頁(yè)面。
[0011] 本發(fā)明還提出了一種頁(yè)面數(shù)據(jù)抓取系統(tǒng),包括:解析單元,用于解析目標(biāo)頁(yè)面得到 所述目標(biāo)頁(yè)面的配置信息,根據(jù)所述配置信息生成匹配模板;獲取單元,用于從所述配置信 息中獲取所述目標(biāo)頁(yè)面的地址信息,根據(jù)所述地址信息確定所述目標(biāo)頁(yè)面,獲取所述目標(biāo) 頁(yè)面中的文本數(shù)據(jù);抓取單元,用于根據(jù)所述匹配模板在所述目標(biāo)頁(yè)面中抓取文本數(shù)據(jù),存 儲(chǔ)所述文本數(shù)據(jù)作為索引操作的根據(jù)。
[0012] 優(yōu)選地,還包括:加載單元,用于將所述配置信息加載到所述抓取單元的靜態(tài)內(nèi)存 中。
[0013] 優(yōu)選地,還包括:隊(duì)列管理單元,用于將所述地址信息從隊(duì)尾插入地址隊(duì)列中,其 中,所述地址隊(duì)列通過(guò)單例模式管理。
[0014] 優(yōu)選地,還包括:過(guò)濾單元,用于過(guò)濾所述文本數(shù)據(jù)中與預(yù)設(shè)數(shù)據(jù)類型不相符的數(shù) 據(jù)。
[0015] 優(yōu)選地,還包括:判斷單元,用于判斷所述目標(biāo)頁(yè)面的復(fù)雜度,其中,所述解析單元 在所述復(fù)雜度小于或等于預(yù)設(shè)值時(shí),通過(guò)正則表達(dá)式解析所述目標(biāo)頁(yè)面,在所述復(fù)雜度大 于所述預(yù)設(shè)值時(shí),通過(guò)jsoup框架解析所述目標(biāo)頁(yè)面。
[0016] 通過(guò)上述技術(shù)方案,本發(fā)明通過(guò)解析目標(biāo)頁(yè)面,為目標(biāo)頁(yè)面量身定做一套匹配模 板,抓取單元就可根據(jù)模板的配置信息,對(duì)目標(biāo)頁(yè)面中的區(qū)域和/或數(shù)據(jù)進(jìn)行精確的抓取, 若網(wǎng)站或者網(wǎng)頁(yè)發(fā)生了變化,只需要修改模板即可,不用再行修改抓取單元,而修改模板的 工作量員小于修改抓取單元,這樣既提高了工作效率,又能縮短抓取單元抓取數(shù)據(jù)的周期, 使抓取單元為索引提供的內(nèi)容得到及時(shí)更新。

【專利附圖】

【附圖說(shuō)明】
[0017] 通過(guò)參考附圖會(huì)更加清楚的理解本發(fā)明的特征和優(yōu)點(diǎn),附圖是示意性的而不應(yīng)理 解為對(duì)本發(fā)明進(jìn)行任何限制,在附圖中:
[0018] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的頁(yè)面數(shù)據(jù)抓取方法的示意流程圖;
[0019] 圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的頁(yè)面數(shù)據(jù)抓取方法的示意框圖;
[0020] 圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的源代碼拆分示意圖;
[0021] 圖4示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的頁(yè)面數(shù)據(jù)抓取方法的示意流程圖;
[0022] 圖5示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的抓取操作的具體流程圖。

【具體實(shí)施方式】
[0023] 了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施 方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例 及實(shí)施例中的特征可以相互組合。
[0024] 在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可 以采用其他不同于在此描述的其他方式來(lái)實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開(kāi) 的具體實(shí)施例的限制。
[0025] 如圖1所示,根據(jù)本發(fā)明一個(gè)實(shí)施例的頁(yè)面數(shù)據(jù)抓取方法包括:S1,解析目標(biāo)頁(yè)面 得到目標(biāo)頁(yè)面的配置信息,根據(jù)配置信息生成匹配模板;S2,從配置信息中獲取目標(biāo)頁(yè)面的 地址信息,根據(jù)地址信息確定目標(biāo)頁(yè)面,獲取目標(biāo)頁(yè)面中的文本數(shù)據(jù);S3,抓取單元根據(jù)匹 配模板在目標(biāo)頁(yè)面中抓取文本數(shù)據(jù),存儲(chǔ)文本數(shù)據(jù)作為索引操作的根據(jù)。
[0026] 通過(guò)解析目標(biāo)頁(yè)面(例如網(wǎng)頁(yè)),可以得到目標(biāo)頁(yè)面的配置信息,將配置信息以 標(biāo)簽的形式存入XML文件中,以便抓取單元分析,在本發(fā)明的一個(gè)實(shí)施例中,配置信息存入 XML文件后如表1所示:
[0027]

【權(quán)利要求】
1. 一種頁(yè)面數(shù)據(jù)抓取方法,其特征在于,包括: S1,解析目標(biāo)頁(yè)面得到所述目標(biāo)頁(yè)面的配置信息,根據(jù)所述配置信息生成匹配模板; 52, 從所述配置信息中獲取所述目標(biāo)頁(yè)面的地址信息,根據(jù)所述地址信息確定所述目 標(biāo)頁(yè)面,獲取所述目標(biāo)頁(yè)面中的文本數(shù)據(jù); 53, 抓取單元根據(jù)所述匹配模板在所述目標(biāo)頁(yè)面中抓取文本數(shù)據(jù),存儲(chǔ)所述文本數(shù)據(jù) 作為索引操作的根據(jù)。
2. 根據(jù)權(quán)利要求1所述頁(yè)面數(shù)據(jù)抓取方法,其特征在于,所述步驟Sl還包括:將所述 配置信息加載到所述抓取單元的靜態(tài)內(nèi)存中。
3. 根據(jù)權(quán)利要求1所述頁(yè)面數(shù)據(jù)抓取方法,其特征在于,所述步驟S2還包括:將所述 地址信息從隊(duì)尾插入地址隊(duì)列中,其中,所述地址隊(duì)列通過(guò)單例模式管理。
4. 根據(jù)權(quán)利要求1至3中任一項(xiàng)所述頁(yè)面數(shù)據(jù)抓取方法,其特征在于,所述步驟S2還 包括:過(guò)濾所述文本數(shù)據(jù)中與預(yù)設(shè)數(shù)據(jù)類型不相符的數(shù)據(jù)。
5. 根據(jù)權(quán)利要求1至3中任一項(xiàng)所述頁(yè)面數(shù)據(jù)抓取方法,其特征在于,在所述步驟Sl 之前還包括:判斷所述目標(biāo)頁(yè)面的復(fù)雜度,在所述復(fù)雜度小于或等于預(yù)設(shè)值時(shí),通過(guò)正則表 達(dá)式解析所述目標(biāo)頁(yè)面,在所述復(fù)雜度大于所述預(yù)設(shè)值時(shí),通過(guò)jsoup框架解析所述目標(biāo) 頁(yè)面。
6. -種頁(yè)面數(shù)據(jù)抓取系統(tǒng),其特征在于,包括: 解析單元,用于解析目標(biāo)頁(yè)面得到所述目標(biāo)頁(yè)面的配置信息,根據(jù)所述配置信息生成 匹配模板; 獲取單元,用于從所述配置信息中獲取所述目標(biāo)頁(yè)面的地址信息,根據(jù)所述地址信息 確定所述目標(biāo)頁(yè)面,獲取所述目標(biāo)頁(yè)面中的文本數(shù)據(jù); 抓取單元,用于根據(jù)所述匹配模板在所述目標(biāo)頁(yè)面中抓取文本數(shù)據(jù),存儲(chǔ)所述文本數(shù) 據(jù)作為索引操作的根據(jù)。
7. 根據(jù)權(quán)利要求6所述頁(yè)面數(shù)據(jù)抓取系統(tǒng),其特征在于,還包括: 加載單元,用于將所述配置信息加載到所述抓取單元的靜態(tài)內(nèi)存中。
8. 根據(jù)權(quán)利要求6所述頁(yè)面數(shù)據(jù)抓取系統(tǒng),其特征在于,還包括: 隊(duì)列管理單元,用于將所述地址信息從隊(duì)尾插入地址隊(duì)列中,其中,所述地址隊(duì)列通過(guò) 單例模式管理。
9. 根據(jù)權(quán)利要求6至8中任一項(xiàng)所述頁(yè)面數(shù)據(jù)抓取系統(tǒng),其特征在于,還包括: 過(guò)濾單元,用于過(guò)濾所述文本數(shù)據(jù)中與預(yù)設(shè)數(shù)據(jù)類型不相符的數(shù)據(jù)。
10. 根據(jù)權(quán)利要求6至8中任一項(xiàng)所述頁(yè)面數(shù)據(jù)抓取系統(tǒng),其特征在于,還包括: 判斷單元,用于判斷所述目標(biāo)頁(yè)面的復(fù)雜度, 其中,所述解析單元在所述復(fù)雜度小于或等于預(yù)設(shè)值時(shí),通過(guò)正則表達(dá)式解析所述目 標(biāo)頁(yè)面,在所述復(fù)雜度大于所述預(yù)設(shè)值時(shí),通過(guò)jsoup框架解析所述目標(biāo)頁(yè)面。
【文檔編號(hào)】G06F17/30GK104317948SQ201410635960
【公開(kāi)日】2015年1月28日 申請(qǐng)日期:2014年11月5日 優(yōu)先權(quán)日:2014年11月5日
【發(fā)明者】劉旭輝, 任繼成, 高照 申請(qǐng)人:北京中科輔龍信息技術(shù)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
安乡县| 乌什县| 贵州省| 襄汾县| 拉萨市| 黄平县| 改则县| 彩票| 青河县| 托里县| 屯门区| 介休市| 呼伦贝尔市| 吉安市| 乌拉特中旗| 宜昌市| 故城县| 灵璧县| 海口市| 西安市| 吴旗县| 右玉县| 晋州市| 龙岩市| 仙居县| 黔西| 澄城县| 雅江县| 苏州市| 沽源县| 平罗县| 清丰县| 四会市| 湖南省| 宾川县| 登封市| 钟祥市| 大姚县| 卓资县| 苏州市| 新民市|