欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于視覺的web頁面萃取方法

文檔序號:6426909閱讀:159來源:國知局
專利名稱:基于視覺的web頁面萃取方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種web頁面萃取方法,尤其涉及一種基于視覺分析對web頁面進行分解,從中提取有價值數(shù)據(jù)的web頁面內(nèi)容萃取方法,屬于網(wǎng)頁信息采集技術(shù)領(lǐng)域。
背景技術(shù)
目前,隨著互聯(lián)網(wǎng)的高速發(fā)展,web網(wǎng)絡(luò)已經(jīng)成為世界上最大的信息來源。web網(wǎng)絡(luò)的發(fā)展給人類生活帶來了巨大的方便,人們可以跨越時間和空間界限來共享大量信息。 但是,整個web網(wǎng)絡(luò)是由無數(shù)的web頁面構(gòu)成的。web頁面的海量性、多樣性、動態(tài)性和半結(jié)構(gòu)化等特性增加了對其內(nèi)容進行自動處理的難度。如何有效獲取這些web頁面中的內(nèi)容為我們所用仍然是大家面臨的共同問題。在專利號為ZL 200410057064. 1的中國發(fā)明專利中,富士通株式會社提出了一種網(wǎng)頁信息塊提取裝置和方法。在該發(fā)明中,首先生成網(wǎng)頁的結(jié)構(gòu)信息塊樹,并對結(jié)構(gòu)信息塊進行分類歸并和合并,對結(jié)果塊的語義進行標記,從而根據(jù)內(nèi)容和功能把網(wǎng)頁分割為信息塊。根據(jù)該技術(shù)方案,網(wǎng)頁處理的粒度從整個頁面擴展為頁面內(nèi)的信息塊,使網(wǎng)頁更容易由機器處理。在申請?zhí)枮?00910139745. 5的中國發(fā)明專利申請中,富士通株式會社進一步提出了一種網(wǎng)頁內(nèi)容提取方法和裝置,其中該網(wǎng)頁內(nèi)容提取方法包括如下步驟對網(wǎng)頁的圖片進行視覺布局分析,以將所述圖片分割為至少一個布局塊;對每個布局塊進行光學字符識別,以生成所述布局塊的識別文本;對所述網(wǎng)頁進行分析,以建立所述網(wǎng)頁的文檔對象模型樹;利用所述文檔對象模型樹中的文本節(jié)點的真實文本與所述布局塊的識別文本之間的對應(yīng)關(guān)系,將所述文檔對象模型樹中的每個文本節(jié)點映射到所述布局塊之一中;以及至少利用所述布局塊在所述網(wǎng)頁中的位置信息來提取所述網(wǎng)頁的正文內(nèi)容。該技術(shù)方案開創(chuàng)性地融合了圖像布局分析和自然語言處理的相關(guān)技術(shù),形成了一個全自動、高效、準確的網(wǎng)頁內(nèi)容提取方案。另外,在專利號為ZL 200810066432. 7的中國發(fā)明專利中,騰訊公司也提出了一種互聯(lián)網(wǎng)網(wǎng)頁清洗方法。該方法包括下述步驟分析輸入的網(wǎng)頁,對網(wǎng)頁標簽內(nèi)容自動糾錯,建立文檔對象模型樹;保留所述文檔對象模型樹中具有表示內(nèi)容的HTML的塊元素結(jié)點,生成與所述文檔對象模型樹對應(yīng)的結(jié)構(gòu)塊樹;在所述結(jié)構(gòu)塊樹的基礎(chǔ)上按照定義的網(wǎng)頁類型對輸入的網(wǎng)頁進行分類;根據(jù)輸入的網(wǎng)頁所屬的網(wǎng)頁類型,對其進行語義塊分析,提取并輸出重要塊及其文本信息。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種基于視覺分析的web頁面萃取方法。該方法利用視覺因素對web頁面進行分析,可以有效提取web頁面中的有價值數(shù)據(jù)。為實現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案一種基于視覺分析的web頁面萃取方法,其特征在于包括如下步驟
(1)確認web頁面中給定的網(wǎng)頁地址已經(jīng)下載完成,并且經(jīng)完整展示后生成DOM 樹;(2)基于所述DOM樹將web頁面拆分成在視覺上無法進一步拆分的塊元素;(3)從主體塊在所述DOM樹中對應(yīng)的根節(jié)點出發(fā),遍歷各個視覺塊在所述DOM樹中對應(yīng)的塊節(jié)點,從而獲得所述web網(wǎng)頁中的有價值數(shù)據(jù)。其中,在步驟(1)中,在web頁面中的IFame、Frame已經(jīng)下載完成,所需要的 JavaScriptXSS已經(jīng)下載完成,圖片參數(shù)已經(jīng)獲得且Ajax已經(jīng)執(zhí)行完成的情況下,進入步驟(2)。所述步驟O)中,根據(jù)所述DOM樹中的標簽名稱決定所述塊元素是否進行拆分?;蛘?,根據(jù)邊框內(nèi)容決定所述塊元素是否進行拆分?;蛘撸鶕?jù)背景色決定所述塊元素是否進行拆分?;蛘?,根據(jù)標簽內(nèi)部是否有明確的分割條決定所述塊元素是否進行拆分。所述步驟⑵中,對于標簽名稱一樣、類別相同,字體、字號、字重、顏色都相似的相似塊進行合并。所述步驟(3)中,在有價值數(shù)據(jù)為標題的情況下,對塊節(jié)點中包括長度、字號、字重、對齊方式、文本長度在內(nèi)的各項內(nèi)容進行分別加權(quán),認定其中權(quán)值最大的視覺塊為標題塊。所述步驟(3)中,在有價值數(shù)據(jù)為正文的情況下,首先以所述標題塊為基礎(chǔ)向下掃描,直到掃描到明確的結(jié)束塊或者掃描完主體塊為止;其次,推測統(tǒng)計文字信息;再次,找到符合統(tǒng)計要求的主體字符,以背景與主體塊背景一致的字符作為正文的開始,接著遍歷所述標題塊在所述DOM樹中對應(yīng)節(jié)點的兄弟節(jié)點,在滿足預(yù)設(shè)條件后認為找到正文的結(jié)尾處;最后,合并正文開始處到結(jié)尾處為正文塊。所述預(yù)設(shè)條件為①字符覆蓋是否達到主體字符的90%以上,②是否有明確的分割線,③是否是分頁塊;在上述三個條件均為滿足的情況下認為滿足預(yù)設(shè)條件。本發(fā)明所提供的web頁面萃取方法能夠充分使用web頁面本身的視覺因素,并結(jié)合DOM樹進行頁面語義分塊,不僅有效彌補了現(xiàn)有技術(shù)中僅使用DOM樹所帶來的一些問題, 而且顯著提高了 web頁面萃取的效率和質(zhì)量。


下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步的詳細說明。圖1為本發(fā)明的一個實施例中使用的資訊網(wǎng)頁截圖;圖2為使用本web頁面萃取方法提取網(wǎng)頁中標題的操作流程圖;圖3為使用本web頁面萃取方法提取網(wǎng)頁中正文的操作流程圖。
具體實施例方式當用戶觀察web頁面的時候,他總是自然而然地將一個語義塊作為一個單一對象來看待,而不會關(guān)心web頁面的內(nèi)部結(jié)構(gòu)是如何描述的。另一方面,用戶在分辨web頁面的語義塊的時候,通常情況下會使用一些視覺因素來進行幫助,例如背景顏色、字體顏色和大小,字重、邊框等等。如果能夠充分使用web頁面本身的視覺提示,并結(jié)合DOM(文檔對象模型)樹進行頁面語義分塊,可以有效彌補僅使用DOM樹所帶來的一些問題。這就是本發(fā)明所提供的web頁面萃取方法的基本思路,下面對此展開詳細的說明。實施本web頁面萃取方法的前提條件是給定的網(wǎng)頁地址(url)已經(jīng)下載完成,并且經(jīng)完整展示后生成DOM樹。這其中具體包括如下內(nèi)容> IFame、Frame等已經(jīng)下載完成IFame是指web頁面中內(nèi)嵌的框架,F(xiàn)rame是指web頁面中的框架。由于待分析的部分內(nèi)容在Frame里面,因此必須要等待IFame、Frame等下載完成。>所需要的JavaScript、CSS已經(jīng)下載完成這是因為CSS (Cascading Style Sheets,層疊樣式表)會嚴重影響web頁面的可視化元素,JavaScript ( 一種廣泛用于客戶端web開發(fā)的腳本語言,常用來給web頁面添加動態(tài)功能)會部分影響web頁面的數(shù)據(jù)。>圖片參數(shù)已經(jīng)獲得該要求的主要目的是分析圖片的長寬等參數(shù)。> Ajax已經(jīng)執(zhí)行完成Ajax 全稱為 Asynchronous JavaScript and XML (異步 JavaScript 禾口 XML),是一種創(chuàng)建交互式網(wǎng)頁應(yīng)用的網(wǎng)頁開發(fā)工具。Ajax會影響web頁面中部分內(nèi)容的生成。在上述步驟完成之后,接下來的工作是生成web頁面的視覺塊。該視覺塊的生成過程遵循如下的邏輯順序DOM樹一塊元素一相似塊合并一邏輯塊合并一過濾塊操作DOM是Document Object Model (文檔對象模型)的縮寫。根據(jù)W3C DOM規(guī)范,DOM 是一種與瀏覽器、平臺、語言無關(guān)的接口,使得用戶可以訪問web頁面的其他標準組件。DOM 樹是指由文檔對象模型生成的樹狀結(jié)構(gòu)。塊元素是指將html格式的web頁面拆分成的塊狀結(jié)構(gòu)。每一個塊元素在視覺上無法進一步拆分。塊元素的內(nèi)部屬性應(yīng)該相似的,例如都是文本、鏈接或者圖片等。生成塊元素的拆分原則為>根據(jù)DOM樹中的標簽名稱來決定是否進行拆分例如Block類型通常進行拆分,Inline類型通常不進行拆分。如果Block類型的標簽內(nèi)部都是文本節(jié)點,不含有其他的Block類型,則無需拆分。>根據(jù)邊框內(nèi)容決定是否拆分例如內(nèi)部只是列表和文字,沒有其他更小的矩形框,不進行拆分;內(nèi)部還存在更小的局限邊框,或者是背景色反差比較大,有明確的分割條,進行進一步拆分。>根據(jù)背景色決定是否拆分例如背景色反差比較大,且面積較大,進行進一步拆分;反之不拆分。>根據(jù)標簽內(nèi)部是否有明確的分割條決定是否拆分例如如果一個標簽內(nèi)有明確的分割條,或者內(nèi)部有一條細線,或者有一整條背景色比較深,或者有背景圖片、圖片看上去是一條線,則遇到這種標簽需要繼續(xù)進行拆分。>由于IFrame的特殊性,在分析的時候可能預(yù)先不知道其寬高,且不能像其他節(jié)點那樣進行遍歷,故需要進行拆分。生成塊元素后,為了進行內(nèi)容信息分析,需要將相似塊進行合并。相似塊是指標簽的名稱一樣、類別相同,字體、字號、字重、顏色都非常相似。例如資訊的正文通常都是由許多
標簽組成,如果正文的主標簽內(nèi)部有相關(guān)新聞列表或者評論的區(qū)域,相應(yīng)的塊元素中會有大量相互聯(lián)系的
標簽,可以根據(jù)各自的特性進行合并。另外,兩個塊元素的標簽在視覺上可能完全不相同,但是它們之間有信息邏輯關(guān)系。這種情況稱為邏輯塊,例如>標題塊、正文塊,邏輯合并就是正文主體塊;>標題塊、列表內(nèi)容塊,邏輯合并就是列表主體塊;>圖片塊、短文本塊,邏輯合并就是圖片信息塊;為了降低運算的維度,邏輯塊生成后需要對沒有內(nèi)容塊及層數(shù)過深的塊進行裁剪。裁剪的結(jié)果稱為過濾塊。本發(fā)明中所說的視覺塊是進行DOM樹一塊元素一相似塊合并一邏輯塊合并一過濾塊操作等之后,生成的HLDOM樹,用繪圖方式將葉子節(jié)點畫出來的結(jié)果。對于相似塊合并之后的視覺塊可以進一步進行基于信息內(nèi)容的塊定義,例如頁眉塊、頁腳塊、正文主體塊、相關(guān)鏈接塊、作者塊、過濾塊等。邏輯塊是在進行相似塊合并后, 視覺塊開發(fā)者根據(jù)關(guān)注點所在,對合并塊進行信息邏輯組合后生成的視覺塊。過濾塊是屬于視覺塊的,只是對某個視覺塊開發(fā)者認為是雜質(zhì)的就定義為過濾塊。例如將視覺塊高度小于17個像素的定義為過濾塊;將版權(quán)聲明塊定義為過濾塊等。需要說明的是,對于任何web頁面塊元素而言,相似塊是必然存在的。過濾塊是視覺塊開發(fā)者對不需要關(guān)注的視覺塊的定義,因此并不是必然存在的。表1顯示了在生成視覺塊的過程中,影響分塊的一些具體因素。
權(quán)利要求
1.一種基于視覺分析的web頁面萃取方法,其特征在于包括如下步驟(1)確認web頁面中給定的網(wǎng)頁地址已經(jīng)下載完成,并且經(jīng)完整展示后生成文檔對象模型樹;(2)基于所述文檔對象模型樹將web頁面拆分成在視覺上無法進一步拆分的塊元素;(3)從主體塊在所述文檔對象模型樹中對應(yīng)的根節(jié)點出發(fā),遍歷各個視覺塊在所述文檔對象模型樹中對應(yīng)的塊節(jié)點,從而獲得所述web網(wǎng)頁中的有價值數(shù)據(jù)。
2.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法,其特征在于所述步驟(1)中,在web頁面中的IFame、Frame已經(jīng)下載完成,所需要的Javakript、 CSS已經(jīng)下載完成,圖片參數(shù)已經(jīng)獲得且Ajax已經(jīng)執(zhí)行完成的情況下,進入所述步驟O)。
3.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法,其特征在于所述步驟O)中,根據(jù)所述文檔對象模型樹中的標簽名稱決定所述塊元素是否進行拆分。
4.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法,其特征在于 所述步驟O)中,根據(jù)邊框內(nèi)容決定所述塊元素是否進行拆分。
5.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法,其特征在于 所述步驟O)中,根據(jù)背景色決定所述塊元素是否進行拆分。
6.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法,其特征在于所述步驟O)中,根據(jù)標簽內(nèi)部是否有明確的分割條決定所述塊元素是否進行拆分。
7.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法,其特征在于所述步驟⑵中,對于標簽名稱一樣、類別相同,字體、字號、字重、顏色都相似的相似塊進行合并。
8.如權(quán)利要求1所述的基于視覺分析的web頁面萃取方法,其特征在于所述步驟(3)中,在有價值數(shù)據(jù)為標題的情況下,對塊節(jié)點中包括長度、字號、字重、對齊方式、文本長度在內(nèi)的各項內(nèi)容進行分別加權(quán),認定其中權(quán)值最大的視覺塊為標題塊。
9.如權(quán)利要求8所述的基于視覺分析的web頁面萃取方法,其特征在于所述步驟(3)中,在有價值數(shù)據(jù)為正文的情況下,首先以所述標題塊為基礎(chǔ)向下掃描, 直到掃描到明確的結(jié)束塊或者掃描完主體塊為止; 其次,推測統(tǒng)計文字信息;再次,找到符合統(tǒng)計要求的主體字符,以背景與主體塊背景一致的字符作為正文的開始,接著遍歷所述標題塊在所述文檔對象模型樹中對應(yīng)節(jié)點的兄弟節(jié)點,在滿足預(yù)設(shè)條件后認為找到正文的結(jié)尾處;最后,合并正文開始處到結(jié)尾處為正文塊。
10.如權(quán)利要求9所述的基于視覺分析的web頁面萃取方法,其特征在于所述預(yù)設(shè)條件為①字符覆蓋是否達到主體字符的90%以上,②是否有明確的分割線,③是否是分頁塊;在上述三個條件均為滿足的情況下認為滿足預(yù)設(shè)條件。
全文摘要
本發(fā)明公開了一種基于視覺分析的web頁面萃取方法,包括如下步驟(1)確認web頁面中給定的網(wǎng)頁地址已經(jīng)下載完成,并且經(jīng)完整展示后生成文檔對象模型樹;(2)基于文檔對象模型樹將web頁面拆分成在視覺上無法進一步拆分的塊元素;(3)從主體塊在文檔對象模型樹中對應(yīng)的根節(jié)點出發(fā),遍歷各個視覺塊在文檔對象模型樹中對應(yīng)的塊節(jié)點,從而獲得web網(wǎng)頁中的有價值數(shù)據(jù)。本方法能夠充分使用web頁面本身的視覺提示,并結(jié)合文檔對象模型樹進行頁面語義分塊,顯著提高了web頁面萃取的效率和質(zhì)量。
文檔編號G06F17/30GK102253979SQ20111017153
公開日2011年11月23日 申請日期2011年6月23日 優(yōu)先權(quán)日2011年6月23日
發(fā)明者王東勝 申請人:天津海量信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
牟定县| 双牌县| 兴化市| 班玛县| 凭祥市| 宜良县| 博野县| 革吉县| 灯塔市| 无极县| 江北区| 苍梧县| 衡东县| 扎兰屯市| 梅州市| 卢湾区| 伊宁市| 丰顺县| 女性| 涿鹿县| 托克托县| 无为县| 湘潭市| 绵阳市| 台东县| 海晏县| 岳池县| 驻马店市| 汝阳县| 泊头市| 永济市| 永新县| 自贡市| 浦北县| 茶陵县| 江都市| 乌什县| 荆州市| 怀化市| 廉江市| 阳泉市|