基于視覺的web頁面萃取方法

文檔序號：6426909閱讀：159來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于視覺的web頁面萃取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種web頁面萃取方法，尤其涉及一種基于視覺分析對web頁面進行分解，從中提取有價值數(shù)據(jù)的web頁面內(nèi)容萃取方法，屬于網(wǎng)頁信息采集技術(shù)領(lǐng)域。
背景技術(shù)：
目前，隨著互聯(lián)網(wǎng)的高速發(fā)展，web網(wǎng)絡(luò)已經(jīng)成為世界上最大的信息來源。web網(wǎng)絡(luò)的發(fā)展給人類生活帶來了巨大的方便，人們可以跨越時間和空間界限來共享大量信息。但是，整個web網(wǎng)絡(luò)是由無數(shù)的web頁面構(gòu)成的。web頁面的海量性、多樣性、動態(tài)性和半結(jié)構(gòu)化等特性增加了對其內(nèi)容進行自動處理的難度。如何有效獲取這些web頁面中的內(nèi)容為我們所用仍然是大家面臨的共同問題。在專利號為ZL 200410057064. 1的中國發(fā)明專利中，富士通株式會社提出了一種網(wǎng)頁信息塊提取裝置和方法。在該發(fā)明中，首先生成網(wǎng)頁的結(jié)構(gòu)信息塊樹，并對結(jié)構(gòu)信息塊進行分類歸并和合并，對結(jié)果塊的語義進行標記，從而根據(jù)內(nèi)容和功能把網(wǎng)頁分割為信息塊。根據(jù)該技術(shù)方案，網(wǎng)頁處理的粒度從整個頁面擴展為頁面內(nèi)的信息塊，使網(wǎng)頁更容易由機器處理。在申請?zhí)枮?00910139745. 5的中國發(fā)明專利申請中，富士通株式會社進一步提出了一種網(wǎng)頁內(nèi)容提取方法和裝置，其中該網(wǎng)頁內(nèi)容提取方法包括如下步驟對網(wǎng)頁的圖片進行視覺布局分析，以將所述圖片分割為至少一個布局塊；對每個布局塊進行光學字符識別，以生成所述布局塊的識別文本；對所述網(wǎng)頁進行分析，以建立所述網(wǎng)頁的文檔對象模型樹；利用所述文檔對象模型樹中的文本節(jié)點的真實文本與所述布局塊的識別文本之間的對應(yīng)關(guān)系，將所述文檔對象模型樹中的每個文本節(jié)點映射到所述布局塊之一中；以及至少利用所述布局塊在所述網(wǎng)頁中的位置信息來提取所述網(wǎng)頁的正文內(nèi)容。該技術(shù)方案開創(chuàng)性地融合了圖像布局分析和自然語言處理的相關(guān)技術(shù)，形成了一個全自動、高效、準確的網(wǎng)頁內(nèi)容提取方案。另外，在專利號為ZL 200810066432. 7的中國發(fā)明專利中，騰訊公司也提出了一種互聯(lián)網(wǎng)網(wǎng)頁清洗方法。該方法包括下述步驟分析輸入的網(wǎng)頁，對網(wǎng)頁標簽內(nèi)容自動糾錯，建立文檔對象模型樹；保留所述文檔對象模型樹中具有表示內(nèi)容的HTML的塊元素結(jié)點，生成與所述文檔對象模型樹對應(yīng)的結(jié)構(gòu)塊樹；在所述結(jié)構(gòu)塊樹的基礎(chǔ)上按照定義的網(wǎng)頁類型對輸入的網(wǎng)頁進行分類；根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型，對其進行語義塊分析，提取并輸出重要塊及其文本信息。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種基于視覺分析的web頁面萃取方法。該方法利用視覺因素對web頁面進行分析，可以有效提取web頁面中的有價值數(shù)據(jù)。為實現(xiàn)上述的發(fā)明目的，本發(fā)明采用下述的技術(shù)方案一種基于視覺分析的web頁面萃取方法，其特征在于包括如下步驟
(1)確認web頁面中給定的網(wǎng)頁地址已經(jīng)下載完成，并且經(jīng)完整展示后生成DOM 樹；(2)基于所述DOM樹將web頁面拆分成在視覺上無法進一步拆分的塊元素；(3)從主體塊在所述DOM樹中對應(yīng)的根節(jié)點出發(fā)，遍歷各個視覺塊在所述DOM樹中對應(yīng)的塊節(jié)點，從而獲得所述web網(wǎng)頁中的有價值數(shù)據(jù)。其中，在步驟(1)中，在web頁面中的IFame、Frame已經(jīng)下載完成，所需要的 JavaScriptXSS已經(jīng)下載完成，圖片參數(shù)已經(jīng)獲得且Ajax已經(jīng)執(zhí)行完成的情況下，進入步驟(2)。所述步驟O)中，根據(jù)所述DOM樹中的標簽名稱決定所述塊元素是否進行拆分?；蛘?，根據(jù)邊框內(nèi)容決定所述塊元素是否進行拆分?；蛘撸鶕?jù)背景色決定所述塊元素是否進行拆分?；蛘?，根據(jù)標簽內(nèi)部是否有明確的分割條決定所述塊元素是否進行拆分。所述步驟⑵中，對于標簽名稱一樣、類別相同，字體、字號、字重、顏色都相似的相似塊進行合并。所述步驟(3)中，在有價值數(shù)據(jù)為標題的情況下，對塊節(jié)點中包括長度、字號、字重、對齊方式、文本長度在內(nèi)的各項內(nèi)容進行分別加權(quán)，認定其中權(quán)值最大的視覺塊為標題塊。所述步驟(3)中，在有價值數(shù)據(jù)為正文的情況下，首先以所述標題塊為基礎(chǔ)向下掃描，直到掃描到明確的結(jié)束塊或者掃描完主體塊為止；其次，推測統(tǒng)計文字信息；再次，找到符合統(tǒng)計要求的主體字符，以背景與主體塊背景一致的字符作為正文的開始，接著遍歷所述標題塊在所述DOM樹中對應(yīng)節(jié)點的兄弟節(jié)點，在滿足預(yù)設(shè)條件后認為找到正文的結(jié)尾處；最后，合并正文開始處到結(jié)尾處為正文塊。所述預(yù)設(shè)條件為①字符覆蓋是否達到主體字符的90%以上，②是否有明確的分割線，③是否是分頁塊；在上述三個條件均為滿足的情況下認為滿足預(yù)設(shè)條件。本發(fā)明所提供的web頁面萃取方法能夠充分使用web頁面本身的視覺因素，并結(jié)合DOM樹進行頁面語義分塊，不僅有效彌補了現(xiàn)有技術(shù)中僅使用DOM樹所帶來的一些問題，而且顯著提高了 web頁面萃取的效率和質(zhì)量。

下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步的詳細說明。圖1為本發(fā)明的一個實施例中使用的資訊網(wǎng)頁截圖；圖2為使用本web頁面萃取方法提取網(wǎng)頁中標題的操作流程圖；圖3為使用本web頁面萃取方法提取網(wǎng)頁中正文的操作流程圖。
具體實施例方式當用戶觀察web頁面的時候，他總是自然而然地將一個語義塊作為一個單一對象來看待，而不會關(guān)心web頁面的內(nèi)部結(jié)構(gòu)是如何描述的。另一方面，用戶在分辨web頁面的語義塊的時候，通常情況下會使用一些視覺因素來進行幫助，例如背景顏色、字體顏色和大小，字重、邊框等等。如果能夠充分使用web頁面本身的視覺提示，并結(jié)合DOM(文檔對象模型)樹進行頁面語義分塊，可以有效彌補僅使用DOM樹所帶來的一些問題。這就是本發(fā)明所提供的web頁面萃取方法的基本思路，下面對此展開詳細的說明。實施本web頁面萃取方法的前提條件是給定的網(wǎng)頁地址(url)已經(jīng)下載完成，并且經(jīng)完整展示后生成DOM樹。這其中具體包括如下內(nèi)容> IFame、Frame等已經(jīng)下載完成IFame是指web頁面中內(nèi)嵌的框架，F(xiàn)rame是指web頁面中的框架。由于待分析的部分內(nèi)容在Frame里面，因此必須要等待IFame、Frame等下載完成。>所需要的JavaScript、CSS已經(jīng)下載完成這是因為CSS (Cascading Style Sheets，層疊樣式表)會嚴重影響web頁面的可視化元素，JavaScript ( 一種廣泛用于客戶端web開發(fā)的腳本語言，常用來給web頁面添加動態(tài)功能)會部分影響web頁面的數(shù)據(jù)。>圖片參數(shù)已經(jīng)獲得該要求的主要目的是分析圖片的長寬等參數(shù)。> Ajax已經(jīng)執(zhí)行完成Ajax 全稱為 Asynchronous JavaScript and XML (異步 JavaScript 禾口 XML)，是一種創(chuàng)建交互式網(wǎng)頁應(yīng)用的網(wǎng)頁開發(fā)工具。Ajax會影響web頁面中部分內(nèi)容的生成。在上述步驟完成之后，接下來的工作是生成web頁面的視覺塊。該視覺塊的生成過程遵循如下的邏輯順序DOM樹一塊元素一相似塊合并一邏輯塊合并一過濾塊操作DOM是Document Object Model (文檔對象模型)的縮寫。根據(jù)W3C DOM規(guī)范，DOM 是一種與瀏覽器、平臺、語言無關(guān)的接口，使得用戶可以訪問web頁面的其他標準組件。DOM 樹是指由文檔對象模型生成的樹狀結(jié)構(gòu)。塊元素是指將html格式的web頁面拆分成的塊狀結(jié)構(gòu)。每一個塊元素在視覺上無法進一步拆分。塊元素的內(nèi)部屬性應(yīng)該相似的，例如都是文本、鏈接或者圖片等。生成塊元素的拆分原則為>根據(jù)DOM樹中的標簽名稱來決定是否進行拆分例如Block類型通常進行拆分，Inline類型通常不進行拆分。如果Block類型的標簽內(nèi)部都是文本節(jié)點，不含有其他的Block類型，則無需拆分。>根據(jù)邊框內(nèi)容決定是否拆分例如內(nèi)部只是列表和文字，沒有其他更小的矩形框，不進行拆分；內(nèi)部還存在更小的局限邊框，或者是背景色反差比較大，有明確的分割條，進行進一步拆分。>根據(jù)背景色決定是否拆分例如背景色反差比較大，且面積較大，進行進一步拆分；反之不拆分。>根據(jù)標簽內(nèi)部是否有明確的分割條決定是否拆分例如如果一個標簽內(nèi)有明確的分割條，或者內(nèi)部有一條細線，或者有一整條背景色比較深，或者有背景圖片、圖片看上去是一條線，則遇到這種標簽需要繼續(xù)進行拆分。>由于IFrame的特殊性，在分析的時候可能預(yù)先不知道其寬高，且不能像其他節(jié)點那樣進行遍歷，故需要進行拆分。生成塊元素后，為了進行內(nèi)容信息分析，需要將相似塊進行合并。相似塊是指標簽的名稱一樣、類別相同，字體、字號、字重、顏色都非常相似。例如資訊的正文通常都是由許多
標簽組成，如果正文的主標簽內(nèi)部有相關(guān)新聞列表或者評論的區(qū)域，相應(yīng)的塊元素中會有大量相互聯(lián)系的
標簽，可以根據(jù)各自的特性進行合并。另外，兩個塊元素的標簽在視覺上可能完全不相同，但是它們之間有信息邏輯關(guān)系。這種情況稱為邏輯塊，例如>標題塊、正文塊，邏輯合并就是正文主體塊；>標題塊、列表內(nèi)容塊，邏輯合并就是列表主體塊；>圖片塊、短文本塊，邏輯合并就是圖片信息塊；為了降低運算的維度，邏輯塊生成后需要對沒有內(nèi)容塊及層數(shù)過深的塊進行裁剪。裁剪的結(jié)果稱為過濾塊。本發(fā)明中所說的視覺塊是進行DOM樹一塊元素一相似塊合并一邏輯塊合并一過濾塊操作等之后，生成的HLDOM樹，用繪圖方式將葉子節(jié)點畫出來的結(jié)果。對于相似塊合并之后的視覺塊可以進一步進行基于信息內(nèi)容的塊定義，例如頁眉塊、頁腳塊、正文主體塊、相關(guān)鏈接塊、作者塊、過濾塊等。邏輯塊是在進行相似塊合并后，視覺塊開發(fā)者根據(jù)關(guān)注點所在，對合并塊進行信息邏輯組合后生成的視覺塊。過濾塊是屬于視覺塊的，只是對某個視覺塊開發(fā)者認為是雜質(zhì)的就定義為過濾塊。例如將視覺塊高度小于17個像素的定義為過濾塊；將版權(quán)聲明塊定義為過濾塊等。需要說明的是，對于任何web頁面塊元素而言，相似塊是必然存在的。過濾塊是視覺塊開發(fā)者對不需要關(guān)注的視覺塊的定義，因此并不是必然存在的。表1顯示了在生成視覺塊的過程中，影響分塊的一些具體因素。
權(quán)利要求
1.一種基于視覺分析的web頁面萃取方法，其特征在于包括如下步驟(1)確認web頁面中給定的網(wǎng)頁地址已經(jīng)下載完成，并且經(jīng)完整展示后生成文檔對象模型樹；(2)基于所述文檔對象模型樹將web頁面拆分成在視覺上無法進一步拆分的塊元素；(3)從主體塊在所述文檔對象模型樹中對應(yīng)的根節(jié)點出發(fā)，遍歷各個視覺塊在所述文檔對象模型樹中對應(yīng)的塊節(jié)點，從而獲得所述web網(wǎng)頁中的有價值數(shù)據(jù)。
2.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法，其特征在于所述步驟(1)中，在web頁面中的IFame、Frame已經(jīng)下載完成，所需要的Javakript、 CSS已經(jīng)下載完成，圖片參數(shù)已經(jīng)獲得且Ajax已經(jīng)執(zhí)行完成的情況下，進入所述步驟O)。
3.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法，其特征在于所述步驟O)中，根據(jù)所述文檔對象模型樹中的標簽名稱決定所述塊元素是否進行拆分。
4.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法，其特征在于所述步驟O)中，根據(jù)邊框內(nèi)容決定所述塊元素是否進行拆分。
5.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法，其特征在于所述步驟O)中，根據(jù)背景色決定所述塊元素是否進行拆分。
6.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法，其特征在于所述步驟O)中，根據(jù)標簽內(nèi)部是否有明確的分割條決定所述塊元素是否進行拆分。
7.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法，其特征在于所述步驟⑵中，對于標簽名稱一樣、類別相同，字體、字號、字重、顏色都相似的相似塊進行合并。
8.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法，其特征在于所述步驟(3)中，在有價值數(shù)據(jù)為標題的情況下，對塊節(jié)點中包括長度、字號、字重、對齊方式、文本長度在內(nèi)的各項內(nèi)容進行分別加權(quán)，認定其中權(quán)值最大的視覺塊為標題塊。
9.如權(quán)利要求8所述的基于視覺分析的web頁面萃取方法，其特征在于所述步驟(3)中，在有價值數(shù)據(jù)為正文的情況下，首先以所述標題塊為基礎(chǔ)向下掃描，直到掃描到明確的結(jié)束塊或者掃描完主體塊為止；其次，推測統(tǒng)計文字信息；再次，找到符合統(tǒng)計要求的主體字符，以背景與主體塊背景一致的字符作為正文的開始，接著遍歷所述標題塊在所述文檔對象模型樹中對應(yīng)節(jié)點的兄弟節(jié)點，在滿足預(yù)設(shè)條件后認為找到正文的結(jié)尾處；最后，合并正文開始處到結(jié)尾處為正文塊。
10.如權(quán)利要求9所述的基于視覺分析的web頁面萃取方法，其特征在于所述預(yù)設(shè)條件為①字符覆蓋是否達到主體字符的90%以上，②是否有明確的分割線，③是否是分頁塊；在上述三個條件均為滿足的情況下認為滿足預(yù)設(shè)條件。
全文摘要
本發(fā)明公開了一種基于視覺分析的web頁面萃取方法，包括如下步驟(1)確認web頁面中給定的網(wǎng)頁地址已經(jīng)下載完成，并且經(jīng)完整展示后生成文檔對象模型樹；(2)基于文檔對象模型樹將web頁面拆分成在視覺上無法進一步拆分的塊元素；(3)從主體塊在文檔對象模型樹中對應(yīng)的根節(jié)點出發(fā)，遍歷各個視覺塊在文檔對象模型樹中對應(yīng)的塊節(jié)點，從而獲得web網(wǎng)頁中的有價值數(shù)據(jù)。本方法能夠充分使用web頁面本身的視覺提示，并結(jié)合文檔對象模型樹進行頁面語義分塊，顯著提高了web頁面萃取的效率和質(zhì)量。
文檔編號G06F17/30GK102253979SQ20111017153
公開日2011年11月23日申請日期2011年6月23日優(yōu)先權(quán)日2011年6月23日
發(fā)明者王東勝申請人:天津海量信息技術(shù)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王東勝
技術(shù)所有人：天津海量信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

webapp頁面跳轉(zhuǎn)方法相關(guān)技術(shù)

web網(wǎng)頁頁面布局方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于視覺的web頁面萃取方法