欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種有效網(wǎng)頁內(nèi)容的抓取方法及裝置的制作方法

文檔序號:6603941閱讀:113來源:國知局

專利名稱::一種有效網(wǎng)頁內(nèi)容的抓取方法及裝置的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及互聯(lián)網(wǎng)信息處理領(lǐng)域,尤其涉及一種有效網(wǎng)頁內(nèi)容的抓取方法及裝置。
背景技術(shù)
:目前互聯(lián)網(wǎng)上存有目前人類所知的最大的信息庫,其中絕大部分信息都是以HTML(HyperTextMark-upLanugage,超文本鏈接標(biāo)記語言)格式網(wǎng)頁存在。HTML被用來結(jié)構(gòu)化信息——例如標(biāo)題、段落和列表,能夠豐富的表現(xiàn)文本,圖片以及其他多媒體信息。結(jié)合HTML閱讀工具“瀏覽器”人們能夠很方便地查看在HTML結(jié)構(gòu)中的信息。但是從信息記錄方面,HTML網(wǎng)頁包含了大量的用來結(jié)構(gòu)化信息的標(biāo)簽,同時網(wǎng)頁中可能包含很多無用的信息。并且,隨著各種移動終端的蓬勃發(fā)展,移動終端對上網(wǎng)的需求越來越高,若直接通過移動終端訪問HTML頁面時,由于移動終端設(shè)備本身的性能限制,會使每次訪問HTML的連接時間較長,速度較慢,并且由于大量無用信息的存在會導(dǎo)致數(shù)據(jù)傳輸流量較大,使用戶獲取網(wǎng)頁的時間和費用都會較高,因而如何把有用信息從HTML格式網(wǎng)頁中準(zhǔn)確快速地抽取出來對移動終端設(shè)備來說變得非常重要。目前的文本信息抽取技術(shù)只能通過HTML標(biāo)簽信息對特定HTML標(biāo)簽內(nèi)的內(nèi)容進行獲取,針對于目標(biāo)處理網(wǎng)頁需要事先考察網(wǎng)頁HTML標(biāo)簽結(jié)構(gòu),事先定制抽取模板。而對于事先無法獲知HTML結(jié)構(gòu)的網(wǎng)頁,文本信息抽取將無法進行。
發(fā)明內(nèi)容為了解決上述問題,本發(fā)明主要目的是提供一種有效網(wǎng)頁內(nèi)容的抓取方法及裝置,使其能夠簡單、方便地實現(xiàn)對通用HTML結(jié)構(gòu)的網(wǎng)頁進行有效信息的抽取。為了實現(xiàn)上述目的,本發(fā)明提供了一種有效網(wǎng)頁內(nèi)容的抓取方法,所述方法包括以下步驟步驟Sl導(dǎo)入超文本標(biāo)示語言HTML網(wǎng)頁;步驟S2將所述HTML網(wǎng)頁轉(zhuǎn)換成相應(yīng)的文檔樹結(jié)構(gòu);步驟S3根據(jù)所述文檔樹結(jié)構(gòu)找出有效內(nèi)容的標(biāo)題標(biāo)簽,將找出的標(biāo)題標(biāo)簽內(nèi)的文本內(nèi)容作為標(biāo)題;步驟S4在所述文檔樹結(jié)構(gòu)的<body>標(biāo)簽中,按照與所述標(biāo)題標(biāo)簽由小到大的標(biāo)簽距離依次查找文本標(biāo)簽,將包含有與正文有關(guān)的特定字符并具有大于預(yù)定長度的文本長度的文本標(biāo)簽作為正文文本標(biāo)簽,然后將所述正文文本標(biāo)簽的文本內(nèi)容作為正文。根據(jù)本發(fā)明的一個實施例,在所述步驟S2中,所述生成相應(yīng)的文檔樹只包括與所述有效網(wǎng)頁內(nèi)容有關(guān)的標(biāo)簽,將其它無關(guān)的標(biāo)簽刪除。根據(jù)本發(fā)明的一個實施例,所述步驟S3可具體為在所述文檔樹結(jié)構(gòu)中找出〈title〉標(biāo)簽;在所述〈title〉標(biāo)簽中查找與所述文檔樹中<body>標(biāo)簽中相同或者編輯距離相近的文本內(nèi)容,若查找到,則將所述文本內(nèi)容確定為標(biāo)題,否則,在所述〈title〉標(biāo)簽中查找距離所述<body>標(biāo)簽最近的有效文本標(biāo)簽,將所述有效文本標(biāo)簽內(nèi)的文本作為標(biāo)題;其中所述有效文本標(biāo)簽為標(biāo)簽<hl>、<h2>或者所述有效文本標(biāo)簽內(nèi)的文本內(nèi)容字體大于預(yù)定字體號,其中所述預(yù)定字體號優(yōu)選為5號,并且所述有效文本標(biāo)簽內(nèi)孩子文本標(biāo)簽中的不間斷文本超過另一預(yù)定值,其中所述另一預(yù)定值優(yōu)選為5個字。根據(jù)本發(fā)明的一個實施例,在步驟S3中找出〈title〉標(biāo)簽之后,還包括過濾處理步驟對所述〈title〉標(biāo)簽內(nèi)的文本標(biāo)簽進行連字符拆分和/或停用詞處理,將其中的廣告詞或者不是標(biāo)題的其它信息過濾掉。根據(jù)本發(fā)明的另一個實施例,所述步驟S4還包括過濾步驟S41在查找文本標(biāo)簽過程中,將具有與廣告信息有關(guān)的另一些特定字符而不包括所述與正文有關(guān)的特定字符的文本標(biāo)簽刪除掉,然后再查找下個文本標(biāo)簽。其中所述與正文有關(guān)的特定字符優(yōu)選包括、<br>、<div>或〈table〉等,所述預(yù)定長度優(yōu)選為50個字。根據(jù)本發(fā)明的另一個實施例,所述步驟S4還包括步驟S42在查找文本標(biāo)簽過程中,根據(jù)鏈接文本長度和非鏈接文本長度的占比來判斷所述文本標(biāo)簽內(nèi)的文本內(nèi)容是否為正文,若所述占比大于0并小于1,則直接判斷該文本標(biāo)簽內(nèi)的文本內(nèi)容為正文;否則判斷所述文本標(biāo)簽內(nèi)的文本內(nèi)容不是正文。根據(jù)本發(fā)明的另一個實施例,所述在步驟S3和S4之間還包括時間抽取步驟S31首先定義時間信息的正則表達式根據(jù)步驟S3中已經(jīng)獲得的標(biāo)題標(biāo)簽,查找距離所述標(biāo)題標(biāo)簽最近的符合所述時間信息正則表達式的標(biāo)簽,將查找到的所述標(biāo)簽中的內(nèi)容作為時間。根據(jù)本發(fā)明的再一個實施例,在步驟S4之后包括圖片抽取步驟S5將步驟S4中獲得正文標(biāo)簽中的孩子標(biāo)簽進行排序,記錄第一個孩子標(biāo)簽和最后一個孩子標(biāo)簽;在所述第一孩子標(biāo)簽和所述最后一個孩子標(biāo)簽中尋找<img>標(biāo)簽,將查找到的<img>標(biāo)簽中的內(nèi)容作為有效內(nèi)容的圖片。本發(fā)明還提供一種有效網(wǎng)頁內(nèi)容的抓取裝置,所述裝置包括導(dǎo)入模塊,用于導(dǎo)入超文本鏈接標(biāo)示語言HTML網(wǎng)頁;生成模塊,用于將所述HTML網(wǎng)頁生成相應(yīng)的文檔樹結(jié)構(gòu);標(biāo)題抽取模塊,用于根據(jù)所述文檔樹結(jié)構(gòu)找出有效內(nèi)容的標(biāo)題標(biāo)簽,將找出的標(biāo)題標(biāo)簽內(nèi)的文本內(nèi)容作為標(biāo)題;文本抽取模塊,用于在所述文檔樹結(jié)構(gòu)的<body>標(biāo)簽中,按照與所述標(biāo)題標(biāo)簽由小到大的標(biāo)簽距離依次查找文本標(biāo)簽,將包含有與正文有關(guān)的特定字符和具有大于預(yù)定長度的文本長度的文本標(biāo)簽作為正文文本標(biāo)簽,然后將所述正文文本標(biāo)簽的文本內(nèi)容作為正文。進一步地,所述標(biāo)題抽取模塊包括Title標(biāo)簽查找單元用于在所述文檔樹結(jié)構(gòu)中找出〈title〉標(biāo)簽;標(biāo)題確定單元,用于在所述〈title〉標(biāo)簽中查找與所述文檔樹中<body>標(biāo)簽中相同或者編輯距離相近的文本內(nèi)容,若查找到,則將所述文本內(nèi)容確定為標(biāo)題,否則,在所述〈title〉標(biāo)簽中查找距離所述<body>標(biāo)簽最近的有效文本標(biāo)簽,將所述有效文本標(biāo)簽內(nèi)的文本作為新聞標(biāo)題。其中在所述標(biāo)題確定單元中的所述有效文本標(biāo)簽為標(biāo)簽<hl>、<h2>或者所述有效文本標(biāo)簽內(nèi)的文本內(nèi)容字體大于預(yù)定字體號,并且所述有效文本標(biāo)簽內(nèi)孩子文本標(biāo)簽中的不間斷文本超過另一預(yù)定值。進一步地,在所述Title標(biāo)簽查找單元和標(biāo)題確定單元之間還包括過濾處理模塊,用于對所述〈title〉標(biāo)簽內(nèi)的文本標(biāo)簽進行連字符拆分和/或停用詞處理,將其中的廣告詞或者不是標(biāo)題的其它信息過濾掉。進一步地,所述文本抽取模塊還包括過濾模塊,用于在查找文本標(biāo)簽過程中,將具有與廣告信息有關(guān)的另一些特定字符而不包括所述與正文有關(guān)的特定字符的文本標(biāo)簽刪除掉,然后再查找下個文本標(biāo)簽。進一步地,所述文本抽取模塊還包括占比判斷單元,用于在查找文本標(biāo)簽過程中,根據(jù)鏈接文本長度和非鏈接文本長度的占比來判斷所述文本標(biāo)簽內(nèi)的文本內(nèi)容是否為正文,若所述占比大于0并小于1,則直接判斷該文本標(biāo)簽內(nèi)的文本內(nèi)容為正文;否則判斷所述文本標(biāo)簽內(nèi)的文本內(nèi)容不是正文。進一步地,所述裝置還包括時間抽取模塊,用于先定義時間信息的正則表達式,再根據(jù)所述標(biāo)題抽取模塊中已經(jīng)獲得的標(biāo)題標(biāo)簽,查找距離所述標(biāo)題標(biāo)簽最近的符合所述時間信息正則表達式的標(biāo)簽,將查找到的所述標(biāo)簽中的內(nèi)容作為時間。進一步地,所述裝置還包括圖片抽取模塊,用于對所述文本抽取模塊中所獲得正文標(biāo)簽中的孩子標(biāo)簽進行排序,并記錄第一個孩子標(biāo)簽和最后一個孩子標(biāo)簽,在所述第一孩子標(biāo)簽和所述最后一個孩子標(biāo)簽中尋找<img>標(biāo)簽,將查找到的<img>標(biāo)簽中的內(nèi)容作為有效內(nèi)容的圖片。本發(fā)明通過上述步驟處理,能夠自動的從HTML新聞網(wǎng)頁中抽取出文章標(biāo)題、文章時間、文章正文、文章圖片鏈接等信息。能夠避免目前抽取技術(shù)所需要的對于每種網(wǎng)頁進行預(yù)先模板設(shè)置的步驟。提高了對HTML網(wǎng)頁抽取的自動化程度。圖1為本發(fā)明的一種有效網(wǎng)頁內(nèi)容的抓取方法流程示意圖;圖2為本發(fā)明的一種HTML文檔樹的示意性組織結(jié)構(gòu)圖;圖3為本發(fā)明的一種HTML文檔樹中標(biāo)簽距離示意圖;圖4為根據(jù)本發(fā)明的一種實施例的抓取新聞網(wǎng)頁的示意性流程圖;圖5為本發(fā)明的一種有效網(wǎng)頁內(nèi)容的抓取裝置結(jié)構(gòu)示意圖。具體實施例方式下面將詳細描述本發(fā)明的具體實施例。應(yīng)當(dāng)注意,這里描述的實施例只用于舉例說明,并不用于限制本發(fā)明。本發(fā)明針對所要抽取的有效內(nèi)容網(wǎng)頁的整體結(jié)構(gòu)入手考察各種文本實體在網(wǎng)頁中的位置信息,特有結(jié)果信息以及標(biāo)簽信息,能夠?qū)崿F(xiàn)網(wǎng)頁文本實體的自動提取功能。由于網(wǎng)頁文件符合HTMLDOM(DocumentObjectModel)樹狀結(jié)構(gòu)。對于一個具有有效內(nèi)容的網(wǎng)頁,比如說新聞網(wǎng)頁,網(wǎng)頁中有許多種類的標(biāo)簽,從邏輯意義上一般分為,頁面功能標(biāo)簽,廣告標(biāo)簽,新聞內(nèi)容標(biāo)簽。網(wǎng)頁信息抽取就是需要從網(wǎng)頁中抽取出有效內(nèi)容如新網(wǎng)內(nèi)容標(biāo)簽。僅從HTML標(biāo)簽名稱和標(biāo)簽屬性上無法判斷標(biāo)簽的功能,需要借助其他信息判斷標(biāo)簽功能。因而本發(fā)明從標(biāo)簽中文本標(biāo)簽文本長度以及標(biāo)簽在整個HTML的文檔DOM樹(DocumentObjectModel)的位置判斷標(biāo)簽的邏輯功能,從而實現(xiàn)通用的網(wǎng)頁有效內(nèi)容文本的抽取功能。本發(fā)明適用于新聞網(wǎng)頁以及blog網(wǎng)頁等具有有效內(nèi)容網(wǎng)頁的抽取,并可過濾掉廣告或者其他無用的文本內(nèi)容。如圖1所示,本發(fā)明采用如下步驟進行有效內(nèi)容網(wǎng)頁抽取步驟Sl導(dǎo)入HTML網(wǎng)頁;步驟S2將所述導(dǎo)入的HTML網(wǎng)頁生成相應(yīng)的HTMLDOM樹結(jié)構(gòu);步驟S3根據(jù)所述HTMLDOM樹結(jié)構(gòu)找出有效內(nèi)容的標(biāo)題標(biāo)簽,將找出的標(biāo)題標(biāo)簽內(nèi)的文本內(nèi)容作為標(biāo)題;步驟S4在所述文檔樹結(jié)構(gòu)的<body>標(biāo)簽中,按照與所述標(biāo)題標(biāo)簽由小到大的標(biāo)簽距離依次查找文本標(biāo)簽,將包含有與正文有關(guān)的特定字符并具有大于預(yù)定長度的文本長度的文本標(biāo)簽作為正文文本標(biāo)簽,然后將所述正文文本標(biāo)簽的文本內(nèi)容作為正文。下面結(jié)合附圖將詳細描述上述各個步驟。在步驟Sl中,首先要導(dǎo)入HTML網(wǎng)頁,由于本發(fā)明是幫助移動設(shè)備處理互聯(lián)網(wǎng)上的HTML網(wǎng)頁信息,以使提高諸如手機之類的移動終端上網(wǎng)速度和快捷獲取所需要信息的能力,因此,本發(fā)明需要對輸入到移動終端之前的網(wǎng)頁做一次篩選處理,過濾掉廣告等無用信息,獲取所需要的有效內(nèi)容,比如說新聞網(wǎng)頁。在步驟S2中,將所述導(dǎo)入的HTML網(wǎng)頁生成相應(yīng)的HTMLDOM樹結(jié)構(gòu)。由于HTML是一種格式化的語言,其中文本信息需要被放在HTML標(biāo)簽中,由標(biāo)簽提供對信息位置、顯示方式等修飾。HTML格式文件中,標(biāo)簽由頂向下組成樹狀DOM結(jié)構(gòu)。根據(jù)W3CDOM規(guī)范對HTML標(biāo)簽和文本內(nèi)容有如下的規(guī)定整個文檔是一個文檔節(jié)點每個HTML標(biāo)簽是一個元素節(jié)點包含在HTML元素中的文本是文本節(jié)點每一個HTML屬性是一個屬性節(jié)點如圖2所示,HTML的DOM結(jié)構(gòu)是由文本節(jié)點和標(biāo)簽節(jié)點組成一個樹狀組織結(jié)構(gòu),在根標(biāo)簽下還具有<head>、<body>以及<table>等標(biāo)簽。其中在一對<head>標(biāo)簽中一般存放關(guān)于網(wǎng)頁標(biāo)題、關(guān)鍵字的內(nèi)容,比如在如下所示的html樣例圖中,一對<head>標(biāo)簽中還具有一對〈title〉標(biāo)簽,在〈title〉標(biāo)簽中存放的內(nèi)容就是有效內(nèi)容的標(biāo)題,如新聞網(wǎng)頁的標(biāo)題。其中在一對<body>標(biāo)簽下存放的是有效內(nèi)容的正文或圖片等。以下是一個HTML標(biāo)簽樣例圖<html><head><title>標(biāo)題文本</title></head><body><aherf>超鏈接文本</a><hl>正文文本</hl></body></html>在生成HTMLDOM樹結(jié)構(gòu)時,可以針對性的構(gòu)建DOM樹,如,如果只是新聞網(wǎng)頁范圍內(nèi)內(nèi)容的抽取,只需考慮和新聞內(nèi)容有關(guān)的標(biāo)簽,而其他跟新聞內(nèi)容無關(guān)的標(biāo)簽都可直接舍棄掉。在生成HTMLDOM樹之后,進行步驟S3來抽取有效內(nèi)容的標(biāo)題,也即在上述HTMLDOM樹結(jié)構(gòu)找出〈title〉標(biāo)簽,將找出的標(biāo)題標(biāo)簽內(nèi)的文本內(nèi)容作為標(biāo)題。具體地,在找出〈title〉標(biāo)簽之后,可以對〈title〉標(biāo)簽內(nèi)的文本標(biāo)簽(hi或h2)進行過濾處理,因為正規(guī)的新聞網(wǎng)頁會在〈title〉標(biāo)簽會存在新聞標(biāo)題字符串,有些網(wǎng)站會用中用hi或h2子標(biāo)簽對新聞標(biāo)題字符串進行修飾,可以對〈title〉標(biāo)簽中的文字進行處理以獲得新聞標(biāo)題。比如說進行連字符拆分和/或停用詞處理將其中的廣告詞或者不是標(biāo)題的其它信息過濾掉。例如網(wǎng)頁http://news.xinhuanet.com/world/2010-04/26/c_1255760.html中,〈title〉標(biāo)簽中的字符串為“世博服務(wù)能經(jīng)受住7000萬人次考驗嗎?_國際頻道_新華網(wǎng)”。其中“世博服務(wù)能經(jīng)受住7000萬人次考驗嗎?”為所要新聞;連字符為“_”下劃線;停用詞為“國際頻道”和“新華網(wǎng)”。然后在〈title〉標(biāo)簽內(nèi)尋找與<body>文本標(biāo)簽中相同或者編輯距離相近的文本內(nèi)容,將其確定為標(biāo)題。這里需要解釋說明的是,所謂的編輯距離是兩個字符串之間相似度的度量。是指兩個字符串之間,由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。兩個字符串的編輯距離越小,兩個字符串越相似。如果上述在〈title〉標(biāo)簽內(nèi)尋找匹配失敗,則還可以另一種方法來獲取標(biāo)題,該方法為尋找距離<body>標(biāo)簽具有最近標(biāo)簽距離的有效文本標(biāo)簽,該有效文本標(biāo)簽內(nèi)的文本作為新聞標(biāo)題。由于在HTML網(wǎng)頁中文本標(biāo)簽是文字信息最主要的載體,在網(wǎng)頁的展示意義上看來,文本信息的最主要的表現(xiàn)形式包括不間斷的文本段的長度和文字展示的字體大小,因此這里所述有效文本標(biāo)簽需要滿足下述任一條件1)在非<a>超鏈接標(biāo)簽中的文本內(nèi)容中,其不間斷文本超過一預(yù)定值,如25個字(漢字或者外文單詞);幻標(biāo)簽為<hl>、<h2>或者其標(biāo)簽內(nèi)的文本內(nèi)容字體大于5號,并且這些標(biāo)簽內(nèi)嵌套的孩子文本標(biāo)簽中不間斷文本超過另一預(yù)定值,比如5個字(漢字或者外文單詞)。在計算有效文本標(biāo)簽與其它標(biāo)簽的標(biāo)簽距離時,要基于它們在DOM樹結(jié)構(gòu)中的展示位置關(guān)系來進行,而兩個標(biāo)簽之間的位置關(guān)系可分為下述三種情況,如圖3和表1所示情況1其中一個標(biāo)簽為孩子節(jié)點標(biāo)簽,另一個標(biāo)簽為父節(jié)點標(biāo)簽,孩子節(jié)點標(biāo)簽與其父節(jié)點標(biāo)簽之間的標(biāo)簽距離為0,如標(biāo)簽A和B之間的距離為0;情況2同層的兩標(biāo)簽,其具有相同的父節(jié)點,它們的標(biāo)簽距離等于其在相同的父節(jié)點的孩子節(jié)點列表中順序的差值,如標(biāo)簽C和D,其標(biāo)簽距離為-1;情況3擁有不同父節(jié)點的兩標(biāo)簽,其之間的標(biāo)簽距離等于其在相同層次祖先的標(biāo)簽距離。比如說A和D的標(biāo)簽距離等于其父字節(jié)B和E之間的標(biāo)簽距離,而B和E之間的標(biāo)簽距離等于-1,因此A和D的標(biāo)簽距離也為-1。表權(quán)利要求1.一種有效網(wǎng)頁內(nèi)容的抓取方法,其特征在于,所述方法包括以下步驟步驟Sl導(dǎo)入超文本鏈接標(biāo)示語言HTML網(wǎng)頁;步驟S2將所述HTML網(wǎng)頁轉(zhuǎn)換成相應(yīng)的文檔樹結(jié)構(gòu);步驟S3根據(jù)所述文檔樹結(jié)構(gòu)找出有效內(nèi)容的標(biāo)題標(biāo)簽,將找出的標(biāo)題標(biāo)簽內(nèi)的文本內(nèi)容作為標(biāo)題;步驟S4在所述文檔樹結(jié)構(gòu)的<body>標(biāo)簽中,按照與所述標(biāo)題標(biāo)簽由小到大的標(biāo)簽距離依次查找文本標(biāo)簽,將包含有與正文有關(guān)的特定字符并具有大于預(yù)定長度的文本長度的文本標(biāo)簽作為正文文本標(biāo)簽,然后將所述正文文本標(biāo)簽的文本內(nèi)容作為正文。2.根據(jù)權(quán)利要求1所述的抓取方法,其特征在于,所述步驟S2中,所述生成相應(yīng)的文檔樹包括與所述有效網(wǎng)頁內(nèi)容有關(guān)的標(biāo)簽,將其它無關(guān)的標(biāo)簽刪除。3.根據(jù)權(quán)利要求1所述的抓取方法,其特征在于,所述步驟S3具體為在所述文檔樹結(jié)構(gòu)中找出〈title〉標(biāo)簽;在所述〈title〉標(biāo)簽中查找與所述文檔樹中<body>標(biāo)簽中文本相同或者編輯距離相近的文本內(nèi)容,若查找到,則將所述文本內(nèi)容確定為標(biāo)題,否則,在所述〈title〉標(biāo)簽中查找距離所述<body>標(biāo)簽最近的有效文本標(biāo)簽,將所述有效文本標(biāo)簽內(nèi)的文本作為標(biāo)題;其中所述有效文本標(biāo)簽為標(biāo)簽<hl>、<h2>或者所述有效文本標(biāo)簽內(nèi)的文本內(nèi)容字體大于預(yù)定字體號,并且所述有效文本標(biāo)簽內(nèi)孩子文本標(biāo)簽中的不間斷文本超過另一預(yù)定值。4.根據(jù)權(quán)利要求3所述的抓取方法,其特征在于,所述預(yù)定字體號為5號,所述另一預(yù)定值為5個字。5.根據(jù)權(quán)利要求3所述的抓取方法,其特征在于,在找出〈title〉標(biāo)簽之后,還包括過濾處理步驟對所述〈title〉標(biāo)簽內(nèi)的文本標(biāo)簽進行連字符拆分和/或停用詞處理,將其中的廣告詞或者不是標(biāo)題的其它信息過濾掉。6.根據(jù)權(quán)利要求1所述的抓取方法,其特征在于,所述步驟S4還包括過濾步驟S41在查找文本標(biāo)簽過程中,將具有與廣告信息有關(guān)的另一些特定字符而不包括所述與正文有關(guān)的特定字符的文本標(biāo)簽刪除掉,然后再查找下個文本標(biāo)簽。7.根據(jù)權(quán)利要求1所述的抓取方法,其特征在于,步驟S4中,所述與正文有關(guān)的特定字符包括P>、<br>、<div>或〈table〉,所述預(yù)定長度為50個字。8.根據(jù)權(quán)利要求1所述的抓取方法,其特征在于,所述步驟S4還包括步驟S42在查找文本標(biāo)簽過程中,根據(jù)鏈接文本長度和非鏈接文本長度的占比來判斷所述文本標(biāo)簽內(nèi)的文本內(nèi)容是否為正文,若所述占比大于0并小于1,則直接判斷該文本標(biāo)簽內(nèi)的文本內(nèi)容為正文;否則判斷所述文本標(biāo)簽內(nèi)的文本內(nèi)容不是正文。9.根據(jù)權(quán)利要求1所述的抓取方法,其特征在于,在所述步驟S3和S4之間還包括時間抽取步驟S31首先定義時間信息的正則表達式根據(jù)步驟S3中已經(jīng)獲得的標(biāo)題標(biāo)簽,查找距離所述標(biāo)題標(biāo)簽最近的符合所述時間信息的正則表達式的標(biāo)簽,將查找到的所述標(biāo)簽中的內(nèi)容作為時間。10.根據(jù)權(quán)利要求1所述的抓取方法,其特征在于,在步驟S4之后包括圖片抽取步驟S5將步驟S4中獲得正文標(biāo)簽中的孩子標(biāo)簽進行排序,記錄第一個孩子標(biāo)簽和最后一個孩子標(biāo)簽;在所述第一孩子標(biāo)簽和所述最后一個孩子標(biāo)簽中尋找<img>標(biāo)簽,將查找到的<img>標(biāo)簽中的內(nèi)容作為有效內(nèi)容的圖片。11.一種有效網(wǎng)頁內(nèi)容的抓取裝置,其特征在于,所述裝置包括導(dǎo)入模塊,用于導(dǎo)入超文本鏈接標(biāo)示語言HTML網(wǎng)頁;生成模塊,用于將所述HTML網(wǎng)頁生成相應(yīng)的文檔樹結(jié)構(gòu);標(biāo)題抽取模塊,用于根據(jù)所述文檔樹結(jié)構(gòu)找出有效內(nèi)容的標(biāo)題標(biāo)簽,將找出的標(biāo)題標(biāo)簽內(nèi)的文本內(nèi)容作為標(biāo)題;文本抽取模塊,用于在所述文檔樹結(jié)構(gòu)的<body>標(biāo)簽中,按照與所述標(biāo)題標(biāo)簽由小到大的標(biāo)簽距離依次查找文本標(biāo)簽,將包含有與正文有關(guān)的特定字符和具有大于預(yù)定長度的文本長度的文本標(biāo)簽作為正文文本標(biāo)簽,然后將所述正文文本標(biāo)簽的文本內(nèi)容作為正文。12.根據(jù)權(quán)利要求11所述的抓取裝置,其特征在于,所述標(biāo)題抽取模塊包括Title標(biāo)簽查找單元用于在所述文檔樹結(jié)構(gòu)中找出〈title〉標(biāo)簽;標(biāo)題確定單元,用于在所述〈title〉標(biāo)簽中查找與所述文檔樹中<body>標(biāo)簽中相同或者編輯距離相近的文本內(nèi)容,若查找到,則將所述文本內(nèi)容確定為標(biāo)題,否則,在所述〈title〉標(biāo)簽中查找距離所述<body>標(biāo)簽最近的有效文本標(biāo)簽,將所述有效文本標(biāo)簽內(nèi)的文本作為新聞標(biāo)題。其中在所述標(biāo)題確定單元中的所述有效文本標(biāo)簽為標(biāo)簽<hl>、<h2>或者所述有效文本標(biāo)簽內(nèi)的文本內(nèi)容字體大于預(yù)定字體號,并且所述有效文本標(biāo)簽內(nèi)孩子文本標(biāo)簽中的不間斷文本超過另一預(yù)定值。13.根據(jù)權(quán)利要求12所述的抓取裝置,其特征在于,在所述Title標(biāo)簽查找單元和標(biāo)題確定單元之間還包括過濾處理模塊,用于對所述〈title〉標(biāo)簽內(nèi)的文本標(biāo)簽進行連字符拆分和/或停用詞處理,將其中的廣告詞或者不是標(biāo)題的其它信息過濾掉。14.根據(jù)權(quán)利要求11所述的抓取裝置,其特征在于,所述文本抽取模塊還包括過濾模塊,用于在查找文本標(biāo)簽過程中,將具有與廣告信息有關(guān)的另一些特定字符而不包括所述與正文有關(guān)的特定字符的文本標(biāo)簽刪除掉,然后再查找下個文本標(biāo)簽。15.根據(jù)權(quán)利要求11所述的抓取裝置,其特征在于,所述文本抽取模塊還包括占比判斷單元,用于在查找文本標(biāo)簽過程中,根據(jù)鏈接文本長度和非鏈接文本長度的占比來判斷所述文本標(biāo)簽內(nèi)的文本內(nèi)容是否為正文,若所述占比大于0并小于1,則直接判斷該文本標(biāo)簽內(nèi)的文本內(nèi)容為正文;否則判斷所述文本標(biāo)簽內(nèi)的文本內(nèi)容不是正文。16.根據(jù)權(quán)利要求11所述的抓取裝置,其特征在于,所述裝置還包括時間抽取模塊,用于先定義時間信息的正則表達式,再根據(jù)所述標(biāo)題抽取模塊中已經(jīng)獲得的標(biāo)題標(biāo)簽,查找距離所述標(biāo)題標(biāo)簽最近的符合所述時間信息正則表達式的標(biāo)簽,將查找到的所述標(biāo)簽中的內(nèi)容作為時間。17.根據(jù)權(quán)利要求11所述的抓取方法,其特征在于,所述裝置還包括圖片抽取模塊,用于對所述文本抽取模塊中所獲得正文標(biāo)簽中的孩子標(biāo)簽進行排序,并記錄第一個孩子標(biāo)簽和最后一個孩子標(biāo)簽,在所述第一孩子標(biāo)簽和所述最后一個孩子標(biāo)簽中尋找<img>標(biāo)簽,將查找到的<img>標(biāo)簽中的內(nèi)容作為有效內(nèi)容的圖片。全文摘要本發(fā)明公開了一種有效網(wǎng)頁內(nèi)容的抓取方法及裝置,所述方法包括以下步驟步驟S1導(dǎo)入超文本鏈接標(biāo)示語言HTML網(wǎng)頁;步驟S2將所述HTML網(wǎng)頁轉(zhuǎn)換成相應(yīng)的文檔樹結(jié)構(gòu);步驟S3根據(jù)所述文檔樹結(jié)構(gòu)找出有效內(nèi)容的標(biāo)題標(biāo)簽,將找出的標(biāo)題標(biāo)簽內(nèi)的文本內(nèi)容作為標(biāo)題;步驟S4在所述文檔樹結(jié)構(gòu)的標(biāo)簽中,按照與所述標(biāo)題標(biāo)簽由小到大的標(biāo)簽距離依次查找文本標(biāo)簽,將包含有與正文有關(guān)的特定字符并具有大于預(yù)定長度的文本長度的文本標(biāo)簽作為正文文本標(biāo)簽,然后將所述正文文本標(biāo)簽的文本內(nèi)容作為正文。本發(fā)明能夠簡單、方便地實現(xiàn)對通用的HTML結(jié)構(gòu)網(wǎng)頁進行有效信息的抽取。文檔編號G06F17/30GK102270206SQ20101019636公開日2011年12月7日申請日期2010年6月3日優(yōu)先權(quán)日2010年6月3日發(fā)明者賈海祿申請人:北京迅捷英翔網(wǎng)絡(luò)科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
海城市| 临桂县| 凌源市| 常山县| 雷波县| 庆元县| 华容县| 泗洪县| 化德县| 库尔勒市| 运城市| 武威市| 柘城县| 洮南市| 屏东县| 承德市| 平顺县| 页游| 平南县| 大宁县| 南充市| 鄂温| 霍城县| 鱼台县| 富平县| 五家渠市| 镇巴县| 札达县| 丰顺县| 虹口区| 万年县| 仁寿县| 桂东县| 长乐市| 二连浩特市| 礼泉县| 巫山县| 应城市| 拜泉县| 永兴县| 化隆|