一種網(wǎng)頁(yè)信息抽取方法及裝置與流程

文檔序號(hào)：11155515閱讀：305來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域，尤其涉及一種網(wǎng)頁(yè)信息抽取方法及裝置。

背景技術(shù)：

在互聯(lián)網(wǎng)新聞聚合或新聞推薦等應(yīng)用中，需要使用爬蟲(chóng)爬取大量的新聞網(wǎng)站，然后將爬取結(jié)果中具有相關(guān)性的新聞聚合在一起，并根據(jù)用戶的閱讀習(xí)慣建立起用戶的興趣模型，最終根據(jù)用戶的興趣模型將聚合的相關(guān)新聞推送至對(duì)其感興趣的用戶。

新聞網(wǎng)站通常包括首頁(yè)和新聞頁(yè)面兩種不同的頁(yè)面，首頁(yè)中一般會(huì)包含一個(gè)最新更新新聞的新聞列表，新聞頁(yè)面則包含具體的新聞?lì)}目、發(fā)布者、發(fā)布時(shí)間、關(guān)鍵詞、正文等內(nèi)容，除此之外，新聞頁(yè)面往往還包括各種廣告信息、用戶評(píng)論或用于跳轉(zhuǎn)至其他內(nèi)容的多個(gè)鏈接等噪音數(shù)據(jù)(相對(duì)于新聞內(nèi)容而言)。在互聯(lián)網(wǎng)新聞聚合或新聞推薦等應(yīng)用中，通常僅需提取新聞頁(yè)面中新聞的題目、正文及關(guān)鍵詞等用戶較為關(guān)心的內(nèi)容，而對(duì)于其他內(nèi)容如發(fā)布者、上述噪音數(shù)據(jù)等則一般不予提取。

傳統(tǒng)的新聞內(nèi)容提取方式，往往只是根據(jù)新聞頁(yè)面對(duì)應(yīng)的HTML(HyperText Markup Language，超文本標(biāo)記語(yǔ)言)網(wǎng)頁(yè)文件中的HTML標(biāo)簽密度等信息，來(lái)識(shí)別并提取新聞內(nèi)容，比如一般來(lái)說(shuō)，正文內(nèi)容對(duì)應(yīng)的HTML標(biāo)簽密度較低，從而傳統(tǒng)的新聞?wù)淖詣?dòng)識(shí)別及提取方式，會(huì)將標(biāo)簽密度較低的頁(yè)面內(nèi)容識(shí)別為新聞?wù)模欢?，此種基于HTML標(biāo)簽密度來(lái)識(shí)別、提取新聞內(nèi)容的方式，存在信息識(shí)別、提取準(zhǔn)確率低的問(wèn)題，如很多非正文的內(nèi)容也常被識(shí)別為新聞?wù)摹?/p>

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明的目的在于提供一種網(wǎng)頁(yè)信息抽取方法及裝置，旨在解決現(xiàn)有技術(shù)存在的上述問(wèn)題，提升網(wǎng)頁(yè)信息的提取準(zhǔn)確率。

為此，本發(fā)明公開(kāi)如下技術(shù)方案：

一種網(wǎng)頁(yè)信息抽取方法，包括：

基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的第一劃分標(biāo)準(zhǔn)，將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊；

從所述多于一個(gè)的頁(yè)面塊中確定出符合第一條件的至少一個(gè)第一頁(yè)面塊；其中，所述第一條件為基于正文題目在網(wǎng)頁(yè)頁(yè)面中的第一視覺(jué)特征需求信息所確定的條件；

在所述至少一個(gè)第一頁(yè)面塊中搜索出與預(yù)先獲得的正文題目屬性值相匹配的題目元素，并從所述題目元素所在的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊，抽取所述題目塊中的題目信息；

從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊，并抽取所述正文塊中的正文信息；其中，所述第二條件為基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的第二視覺(jué)特征需求信息所確定的條件，所述正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊；

依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息，并結(jié)合正文關(guān)鍵詞在網(wǎng)頁(yè)頁(yè)面中的第三視覺(jué)特征需求信息，確定出關(guān)鍵詞塊，并抽取所述關(guān)鍵詞塊中的關(guān)鍵詞信息；所述關(guān)鍵詞塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊的子塊。

上述方法，優(yōu)選的，所述網(wǎng)頁(yè)元素的視覺(jué)信息包括網(wǎng)頁(yè)元素在網(wǎng)頁(yè)中的布局特征信息，則所述基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的第一劃分標(biāo)準(zhǔn)，將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊，包括：

基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的布局特征信息，確定網(wǎng)頁(yè)頁(yè)面的各個(gè)分割線；

依據(jù)所述分割線及預(yù)定的第一劃分標(biāo)準(zhǔn)，將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊。

上述方法，優(yōu)選的，所述第一視覺(jué)特征需求信息包括正文題目在網(wǎng)頁(yè)頁(yè)面中的第一位置需求信息，則所述從所述多于一個(gè)的頁(yè)面塊中確定出符合第一條件的至少一個(gè)第一頁(yè)面塊，包括：

從所述多于一個(gè)的頁(yè)面塊中，確定出在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第一位置需求信息的至少一個(gè)第一頁(yè)面塊。

上述方法，優(yōu)選的，所述在所述至少一個(gè)第一頁(yè)面塊中搜索出與預(yù)先獲得的正文題目屬性值相匹配的題目元素，并從所述題目元素所對(duì)應(yīng)的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊，包括：

基于所述題目元素所在的第一頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息，及預(yù)定的第二劃分標(biāo)準(zhǔn)，將所述題目元素所在的第一頁(yè)面塊劃分為多于一個(gè)的第一頁(yè)面塊子塊；

確定出所述題目元素所在的第一頁(yè)面塊子塊；

判斷所述題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素，若是，則確定出所述題目元素所在的第一頁(yè)面塊子塊為所述題目塊；若否，則繼續(xù)對(duì)所述題目元素所在的第一頁(yè)面塊子塊進(jìn)行劃分，直至確定出僅包含所述題目元素的題目塊為止。

上述方法，優(yōu)選的，所述第二條件所依據(jù)的第二視覺(jué)特征需求信息為：基于預(yù)設(shè)的候選正文視覺(jué)需求信息及正文文字在預(yù)定視覺(jué)特征上的相似度所確定的信息，則所述從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊，包括：

從所述候選正文塊中確定出文字長(zhǎng)度最大的子塊作為正文種子塊；

在所述候選正文塊中，若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊，且所述上位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值，則合并所述正文種子塊及所述上位子塊，并將合并后所得的塊作為新的正文種子塊；

在所述候選正文塊中，若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊，且所述下位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值，則合并所述正文種子塊及所述下位子塊，并將合并后所得的塊作為新的正文種子塊，直至所述候選正文塊中不存在所述相似度不低于第二預(yù)定閾值的上位子塊及下位子塊為止，合并結(jié)束后所得的最新正文種子塊作為所述正文塊；其中，所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

上述方法，優(yōu)選的，所述依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息，并結(jié)合正文關(guān)鍵詞在網(wǎng)頁(yè)頁(yè)面中的第三視覺(jué)特征需求信息，確定出關(guān)鍵詞塊，包括：

依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息，確定出候選關(guān)鍵詞總塊，所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊；

基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息，及預(yù)定的第三劃分標(biāo)準(zhǔn)，將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊；

從各個(gè)候選關(guān)鍵詞塊中確定出符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊，所述關(guān)鍵詞塊為某一個(gè)候選關(guān)鍵詞塊或某一個(gè)候選關(guān)鍵詞塊的子塊；

若未能從各個(gè)候選關(guān)鍵詞塊中確定出關(guān)鍵詞塊，則將處于所述正文塊正下方的塊作為新的候選關(guān)鍵詞總塊，并從所述新的候選關(guān)鍵詞總塊中確定符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊。

一種網(wǎng)頁(yè)信息抽取裝置，包括：

第一劃分單元，用于基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的第一劃分標(biāo)準(zhǔn)，將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊；

確定單元，用于從所述多于一個(gè)的頁(yè)面塊中確定出符合第一條件的至少一個(gè)第一頁(yè)面塊；其中，所述第一條件為基于正文題目在網(wǎng)頁(yè)頁(yè)面中的第一視覺(jué)特征需求信息所確定的條件；

第一抽取單元，用于在所述至少一個(gè)第一頁(yè)面塊中搜索出與預(yù)先獲得的正文題目屬性值相匹配的題目元素，并從所述題目元素所在的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊，抽取所述題目塊中的題目信息；

第二抽取單元，用于從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊，并抽取所述正文塊中的正文信息；其中，所述第二條件為基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的第二視覺(jué)特征需求信息所確定的條件，所述正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊；

第三抽取單元，用于依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息，并結(jié)合正文關(guān)鍵詞在網(wǎng)頁(yè)頁(yè)面中的第三視覺(jué)特征需求信息，確定出關(guān)鍵詞塊，并抽取所述關(guān)鍵詞塊中的關(guān)鍵詞信息；所述關(guān)鍵詞塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊的子塊。

上述裝置，優(yōu)選的，所述第一視覺(jué)特征需求信息包括正文題目在網(wǎng)頁(yè)頁(yè)面中的第一位置需求信息，則所述確定單元，進(jìn)一步用于：從所述多于一個(gè)的頁(yè)面塊中，確定出在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第一位置信息的至少一個(gè)第一頁(yè)面塊；

所述第一抽取單元，進(jìn)一步用于：

從所述至少一個(gè)第一頁(yè)面塊對(duì)應(yīng)的網(wǎng)頁(yè)源文件信息中，搜索出與預(yù)先從網(wǎng)頁(yè)源文件的標(biāo)頭信息中獲得的正文題目屬性值相匹配的題目元素，并在搜索成功時(shí)不再對(duì)所述至少一個(gè)第一頁(yè)面塊中未搜索的第一頁(yè)面塊進(jìn)行搜索；基于所述題目元素所在的第一頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息，及預(yù)定的第二劃分標(biāo)準(zhǔn)，將所述題目元素所在的第一頁(yè)面塊劃分為多于一個(gè)的第一頁(yè)面塊子塊；確定出所述題目元素所在的第一頁(yè)面塊子塊；判斷所述題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素，若是，則確定出所述題目元素所在的第一頁(yè)面塊子塊為所述題目塊；若否，則繼續(xù)對(duì)所述題目元素所在的第一頁(yè)面塊子塊進(jìn)行劃分，直至確定出僅包含所述題目元素的題目塊為止。

上述裝置，優(yōu)選的，所述第二條件所依據(jù)的第二視覺(jué)特征需求信息為：基于預(yù)設(shè)的候選正文視覺(jué)需求信息及正文文字在預(yù)定視覺(jué)特征上的相似度所確定的條件，則所述第二抽取單元從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊，進(jìn)一步包括：

從所述候選正文塊中確定出文字長(zhǎng)度最大的子塊作為正文種子塊；

上述裝置，優(yōu)選的，所述第三抽取單元確定出關(guān)鍵詞塊，進(jìn)一步包括：

依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息，確定出候選關(guān)鍵詞總塊，所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊；基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息，及預(yù)定的第三劃分標(biāo)準(zhǔn)，將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊；從各個(gè)候選關(guān)鍵詞塊中確定出符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊，所述關(guān)鍵詞塊為某一個(gè)候選關(guān)鍵詞塊或某一個(gè)候選關(guān)鍵詞塊的子塊；若未能從各個(gè)候選關(guān)鍵詞塊中確定出關(guān)鍵詞塊，則將處于所述正文塊正下方的塊作為新的候選關(guān)鍵詞總塊，并從所述新的候選關(guān)鍵詞總塊中確定符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊。

由以上方案可知，本發(fā)明公開(kāi)的網(wǎng)頁(yè)信息抽取方法，在基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的劃分標(biāo)準(zhǔn)，將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊的基礎(chǔ)上，通過(guò)基于待抽取部分在網(wǎng)頁(yè)頁(yè)面中對(duì)應(yīng)的相應(yīng)視覺(jué)特征需求信息，從劃分所得的各個(gè)頁(yè)面塊中確定出待抽取部分所對(duì)應(yīng)的信息塊，如基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征需求信息，從多于一個(gè)的頁(yè)面塊中確定出正文塊等，進(jìn)而在此基礎(chǔ)上，可實(shí)現(xiàn)從確定出的待抽取部分對(duì)應(yīng)的信息塊中進(jìn)行所需的信息抽取?？梢?jiàn)，本發(fā)明實(shí)現(xiàn)了一種基于網(wǎng)頁(yè)分割及待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征的網(wǎng)頁(yè)信息抽取方案，由于待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征具有較高的確定性，如正文題目一般在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部，在垂直方向上處于網(wǎng)頁(yè)的中上部等等，從而應(yīng)用本發(fā)明方案可有效提升網(wǎng)頁(yè)信息的提取準(zhǔn)確率。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)提供的附圖獲得其他的附圖。

圖1(a)是一個(gè)HTML頁(yè)面的外觀示意圖；

圖1(b)是采用現(xiàn)有的VIPS算法對(duì)圖1(a)的HTML頁(yè)面進(jìn)行頁(yè)面分割的示意圖；

圖2是本發(fā)明實(shí)施例一提供的網(wǎng)頁(yè)信息抽取方法的流程圖；

圖3(a)是另一個(gè)HTML頁(yè)面的外觀示意圖；

圖3(b)是本發(fā)明實(shí)施例一提供的采用VIPS對(duì)圖3(a)的HTML頁(yè)面進(jìn)行初步分割后所得的分割塊示意圖；

圖4是本發(fā)明實(shí)施例二提供的從網(wǎng)頁(yè)中抽取題目信息的實(shí)現(xiàn)過(guò)程流程圖；

圖5是本發(fā)明實(shí)施例二提供的基于題目信息的視覺(jué)特征需求進(jìn)行頁(yè)面分割的示意圖；

圖6是本發(fā)明實(shí)施例三提供的從網(wǎng)頁(yè)中抽取正文信息的實(shí)現(xiàn)過(guò)程流程圖；

圖7是本發(fā)明實(shí)施例三提供的基于正文信息的視覺(jué)特征需求進(jìn)行頁(yè)面分割的示意圖；

圖8是本發(fā)明實(shí)施例四提供的從網(wǎng)頁(yè)中抽取關(guān)鍵詞信息的實(shí)現(xiàn)過(guò)程流程圖；

圖9是本發(fā)明實(shí)施例四提供的基于關(guān)鍵詞的視覺(jué)特征需求進(jìn)行頁(yè)面分割的示意圖；

圖10是本發(fā)明實(shí)施例五提供的網(wǎng)頁(yè)信息抽取裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

為解決現(xiàn)有網(wǎng)頁(yè)信息抽取技術(shù)存在的網(wǎng)頁(yè)信息識(shí)別率低的問(wèn)題，如易將新聞頁(yè)面的非正文內(nèi)容識(shí)別為新聞?wù)?，本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)信息抽取方法及裝置，該方法或裝置是一種基于網(wǎng)頁(yè)分割及待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征，進(jìn)行網(wǎng)頁(yè)信息識(shí)別及抽取的方案，可以應(yīng)用于新聞聚合、新聞推薦等各種應(yīng)用中。

本發(fā)明具體基于VIPS(Visual Based Page Segment Algorithm，基于視覺(jué)的Web頁(yè)面分割算法)并結(jié)合待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)信息，來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)頁(yè)面中待抽取部分的信息識(shí)別及抽取。

具體地，由于在現(xiàn)實(shí)的網(wǎng)頁(yè)閱覽場(chǎng)景中，人們并不需要對(duì)網(wǎng)頁(yè)頁(yè)面的內(nèi)容如新聞頁(yè)面的內(nèi)容等進(jìn)行逐字掃描式閱覽，而一般是根據(jù)網(wǎng)頁(yè)頁(yè)面中各網(wǎng)頁(yè)元素的布局位置、背景顏色、字體大小等布局特征，對(duì)頁(yè)面進(jìn)行快速的區(qū)域劃分，然后找到其所關(guān)注的區(qū)域，如具體找到所關(guān)注的新聞?lì)}目、新聞?wù)牡葏^(qū)域進(jìn)行閱覽，而網(wǎng)站的設(shè)計(jì)者，也都充分利用這一原理，將諸如新聞?lì)}目、新聞?wù)牡容^為重要的信息放在頁(yè)面的比較明顯的位置上，并通過(guò)間隔、字體、背景顏色等加以強(qiáng)調(diào)。

受到啟發(fā)，微軟在2003年提出VIPS算法，VIPS算法充分利用了Web頁(yè)面的布局特征，首先從HTML網(wǎng)頁(yè)文件中提取出所有的HTML元素，然后根據(jù)各HTML元素的布局特征，如各HTML元素的位置信息、背景顏色、字體大小等檢測(cè)出網(wǎng)頁(yè)頁(yè)面的分割條，包括水平方向和垂直方向的分隔條，最后從檢測(cè)出的分割條中選取出寬度最大的分割條(水平方向和/或垂直方向)，并基于寬度最大的分割條對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步分割。之后，對(duì)于初步分割所得的每一個(gè)頁(yè)面塊，可使用VIPS算法繼續(xù)將其分割為更小的頁(yè)面塊。

在基于網(wǎng)頁(yè)頁(yè)面中各HTML元素的布局特征對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步分割的基礎(chǔ)上，VIPS采用自頂向下的方式對(duì)初步分割所得的各頁(yè)面塊繼續(xù)進(jìn)行分割。其中，每當(dāng)VIPS對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行一次分割，VIPS均會(huì)依據(jù)劃分所得的每一頁(yè)面塊內(nèi)各HTML元素的布局特征相似性，給出該頁(yè)面塊的DOC值，DOC值反映了頁(yè)面塊內(nèi)部?jī)?nèi)容的關(guān)聯(lián)性，DOC值越大，則表明頁(yè)面塊內(nèi)部?jī)?nèi)容之間的關(guān)聯(lián)越緊密，反之則越稀松。

從而，在基于網(wǎng)頁(yè)頁(yè)面的布局特征對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步分割的基礎(chǔ)上，VIPS會(huì)針對(duì)初步分割所得的每一頁(yè)面塊，均給出一相應(yīng)的DOC值，后續(xù)，VIPS基于每一頁(yè)面塊內(nèi)的HTML元素的布局特征，繼續(xù)對(duì)每一頁(yè)面塊進(jìn)行劃分，同時(shí)基于設(shè)定的DOC上限值(可根據(jù)經(jīng)驗(yàn)確定)對(duì)整個(gè)網(wǎng)頁(yè)頁(yè)面的區(qū)域劃分粒度進(jìn)行控制，當(dāng)整個(gè)網(wǎng)頁(yè)頁(yè)面中當(dāng)前劃分所得的最小劃分粒度的每一個(gè)子塊的DOC值達(dá)到設(shè)定的DOC上限值后，對(duì)網(wǎng)頁(yè)頁(yè)面的劃分結(jié)束。

參考圖1，其中，圖1(a)示出了一個(gè)HTML頁(yè)面的外觀，圖1(b)示出了使用VIPS算法對(duì)該HTML頁(yè)面進(jìn)行劃分后所得的各頁(yè)面塊的示意圖，其中，整個(gè)頁(yè)面最初被劃分為4個(gè)塊：VB1、VB2、VB3和VB4，而在設(shè)定的DOC上限值的控制下，VB1又被劃分為兩個(gè)子塊：VB1_1和VB1_2,其他塊的劃分情況也類似于此，具體可參考圖1(b)所示，此處不再詳述。

然而，VIPS只是對(duì)頁(yè)面進(jìn)行了劃分，無(wú)法判斷劃分后所得的各個(gè)部分的語(yǔ)義類型(如具體屬于題目、正文還是關(guān)鍵詞等)；另外，VIPS算法需要對(duì)整個(gè)頁(yè)面進(jìn)行遍歷式劃分，這會(huì)導(dǎo)致即使是無(wú)關(guān)的區(qū)域(如頁(yè)眉、頁(yè)腳、邊欄)也要進(jìn)行大量無(wú)效的劃分操作；并且在根據(jù)DOC值進(jìn)行劃分粒度的控制時(shí)，由于VIPS基于設(shè)定的DOC上限對(duì)整個(gè)網(wǎng)頁(yè)頁(yè)面進(jìn)行劃分，對(duì)于正文及題目來(lái)說(shuō)，可能會(huì)分別出現(xiàn)劃分粒度太細(xì)及太粗的問(wèn)題，從而往往無(wú)法準(zhǔn)確地滿足信息抽取時(shí)所需的檢測(cè)粒度，因此，直接使用VIPS并不能解決網(wǎng)頁(yè)頁(yè)面中重要信息(如新聞?lì)}目、正文)的自動(dòng)識(shí)別、抽取問(wèn)題。

為此，本發(fā)明提出一種基于區(qū)域分割(自頂向下)的網(wǎng)頁(yè)信息抽取方法及裝置，該方法/裝置基于VIPS，但與現(xiàn)有VIPS不同的是，本發(fā)明方案在基于VIPS對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步劃分的基礎(chǔ)上，僅僅在特定區(qū)域(而非整個(gè)頁(yè)面區(qū)域)對(duì)網(wǎng)頁(yè)進(jìn)行細(xì)分，并且，根據(jù)待抽取部分(如新聞?lì)}目、正文、關(guān)鍵詞)在頁(yè)面中的視覺(jué)特征需求，以最終是否在頁(yè)面中發(fā)現(xiàn)待抽取部分為準(zhǔn)進(jìn)行頁(yè)面劃分粒度的控制，以避免過(guò)細(xì)或者過(guò)粗的劃分，從而確保較高的識(shí)別效率，接下來(lái)，將通過(guò)多個(gè)實(shí)施例對(duì)本發(fā)明方案進(jìn)行詳細(xì)闡述。

實(shí)施例一

參考圖2，圖2示出了本發(fā)明的一種網(wǎng)頁(yè)信息抽取方法的流程圖，該方法可以包括以下步驟：

步驟201、基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的第一劃分標(biāo)準(zhǔn)，將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊。

本實(shí)施例中，所述網(wǎng)頁(yè)指互聯(lián)網(wǎng)網(wǎng)頁(yè)，其具體可以是諸如新聞、學(xué)術(shù)期刊、論文等各種類型的web網(wǎng)頁(yè)。網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素具體可以是網(wǎng)頁(yè)源文件如HTML網(wǎng)頁(yè)文件中的HTML元素。

此處，網(wǎng)頁(yè)中網(wǎng)頁(yè)元素的視覺(jué)信息，可以包括網(wǎng)頁(yè)元素在網(wǎng)頁(yè)中的布局位置、背景顏色、字體大小等布局信息，則該步驟201可以通過(guò)以下過(guò)程實(shí)現(xiàn)：基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的布局特征信息，確定網(wǎng)頁(yè)頁(yè)面的各個(gè)分割線；依據(jù)所述分割線及預(yù)定的第一劃分標(biāo)準(zhǔn)，將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊。

本步驟201具體利用VIPS，基于網(wǎng)頁(yè)中各HTML元素的布局信息，如布局位置、字體大小、背景顏色等對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步劃分，該初步劃分可以是基于VIPS所進(jìn)行的一輪或多于一輪的頁(yè)面分割。所劃分的輪數(shù)以預(yù)先制定的所述第一劃分標(biāo)準(zhǔn)為依據(jù)進(jìn)行確定。所述第一劃分標(biāo)準(zhǔn)具體為基于該步驟201對(duì)網(wǎng)頁(yè)進(jìn)行初步劃分時(shí)所需的劃分精細(xì)程度所制定的標(biāo)準(zhǔn)。

參考圖3(a)示出的網(wǎng)頁(yè)頁(yè)面，假設(shè)在基于VIPS對(duì)圖3(a)的頁(yè)面進(jìn)行一輪分割后，得到如圖3(b)所示的4個(gè)頁(yè)面塊VB1、VB2、VB3及VB4(即所述分割線為該頁(yè)面的所有分割線中的最粗分割線)，且假設(shè)此輪劃分后所得的劃分結(jié)果達(dá)到所述第一劃分標(biāo)準(zhǔn)要求的精細(xì)程度，則本步驟的劃分操作結(jié)束，否則，如果未達(dá)到，則可基于VIPS對(duì)前一輪的劃分結(jié)果繼續(xù)進(jìn)行劃分，直至達(dá)到該第一劃分標(biāo)準(zhǔn)對(duì)應(yīng)的劃分精細(xì)程度為止，例如，可繼續(xù)將VB2劃分為VB2_1、VB2_2、VB2_3這3個(gè)子塊以實(shí)現(xiàn)更精細(xì)的劃分等。

在此基礎(chǔ)上，僅僅在初步劃分所得的各區(qū)域中的特定區(qū)域(而非整個(gè)頁(yè)面區(qū)域)對(duì)網(wǎng)頁(yè)進(jìn)行細(xì)分，并且，根據(jù)待抽取部分(如新聞?lì)}目、正文、關(guān)鍵詞)在頁(yè)面中的視覺(jué)特征需求，以最終是否在頁(yè)面中發(fā)現(xiàn)待抽取部分為準(zhǔn)進(jìn)行頁(yè)面劃分粒度的控制，進(jìn)而實(shí)現(xiàn)待抽取部分的識(shí)別和信息抽取。接下來(lái)，將通過(guò)以下的各步驟實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)中的題目、正文及關(guān)鍵詞等待抽取部分進(jìn)行識(shí)別及信息抽取。

本實(shí)施例中，所述正文指網(wǎng)頁(yè)主體信息所對(duì)應(yīng)的網(wǎng)頁(yè)正文，如新聞網(wǎng)頁(yè)中的新聞?wù)牡?，所述題目及關(guān)鍵詞分別指與網(wǎng)頁(yè)正文相對(duì)應(yīng)的正文題目及正文關(guān)鍵詞，如與新聞?wù)膶?duì)應(yīng)的新聞?lì)}目及新聞關(guān)鍵詞等。

步驟202、從所述多于一個(gè)的頁(yè)面塊中確定出符合第一條件的至少一個(gè)第一頁(yè)面塊；其中，所述第一條件為基于正文題目在網(wǎng)頁(yè)頁(yè)面中的第一視覺(jué)特征需求信息所確定的條件。

所述第一視覺(jué)特征需求信息包括第一位置需求信息，所述第一位置需求信息具體為正文題目在網(wǎng)頁(yè)頁(yè)面中所處的位置需滿足的信息，該第一位置需求信息具體可基于正文題目在網(wǎng)頁(yè)頁(yè)面中的慣常布局特征來(lái)確定，例如，一般來(lái)說(shuō)，正文題目在網(wǎng)頁(yè)頁(yè)面中所處的位置具有以下特征：在水平方向上處于頁(yè)面中部，在垂直方向上處于頁(yè)面中部或上部，基于此，所述第一位置需求信息即可以包含該位置特征信息，從而，基于包括該第一位置需求信息的所述第一視覺(jué)特征需求，所確定的所述第一條件可以為：在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部，垂直方向上處于網(wǎng)頁(yè)頁(yè)面的中部或上部。

步驟203、在所述至少一個(gè)第一頁(yè)面塊中搜索出與預(yù)先獲得的正文題目屬性值相匹配的題目元素，并從所述題目元素所在的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊，抽取所述題目塊中的題目信息。

所述預(yù)先獲得的正文題目屬性值，具體為從網(wǎng)頁(yè)源文件如HTML網(wǎng)頁(yè)文件的標(biāo)頭信息中所獲得的title屬性值。其中，標(biāo)頭是HTML頁(yè)面中用<header>標(biāo)簽包含的部分，在標(biāo)頭與HTML主體之間尚需空一行分割，HTML網(wǎng)頁(yè)文件的標(biāo)頭信息中一般包括title屬性值，即網(wǎng)頁(yè)的正文題目屬性值。

在此基礎(chǔ)上，該步驟具體可以通過(guò)以下過(guò)程實(shí)現(xiàn)：從所述多于一個(gè)的頁(yè)面塊中，確定出在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第一位置需求信息的至少一個(gè)第一頁(yè)面塊；從所述至少一個(gè)第一頁(yè)面塊對(duì)應(yīng)的網(wǎng)頁(yè)源文件信息中，搜索出與預(yù)先從網(wǎng)頁(yè)源文件的標(biāo)頭信息中獲得的正文題目屬性值相匹配的題目元素，并在搜索成功時(shí)不再對(duì)所述至少一個(gè)第一頁(yè)面塊中未搜索的第一頁(yè)面塊進(jìn)行搜索。

該步驟可以通過(guò)以下過(guò)程實(shí)現(xiàn)從所述題目元素所在的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊：基于所述題目元素所在的第一頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息，及預(yù)定的第二劃分標(biāo)準(zhǔn)，將所述題目元素所在的第一頁(yè)面塊劃分為多于一個(gè)的第一頁(yè)面塊子塊；確定出所述題目元素所在的第一頁(yè)面塊子塊；判斷所述題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素，若是，則確定出所述題目元素所在的第一頁(yè)面塊子塊為所述題目塊；若否，則繼續(xù)對(duì)所述題目元素所在的第一頁(yè)面塊子塊進(jìn)行劃分，直至確定出僅包含所述題目元素的題目塊為止。

在確定出題目塊的基礎(chǔ)上，可從該塊中抽取出相應(yīng)的題目信息，從而完成了題目部分的信息抽取。

步驟204、從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊，并抽取所述正文塊中的正文信息；其中，所述第二條件為基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的第二視覺(jué)特征需求信息所確定的條件，所述正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊。

具體地，所述第二條件所依據(jù)的第二視覺(jué)特征需求信息為：基于預(yù)設(shè)的候選正文視覺(jué)需求信息及正文文字在預(yù)定視覺(jué)特征上的相似度所確定的信息。

在此基礎(chǔ)上，可通過(guò)以下過(guò)程實(shí)現(xiàn)正文塊的確定：

從所述多于一個(gè)的頁(yè)面塊中確定出符合候選正文視覺(jué)需求信息的一個(gè)最小塊作為候選正文塊，所述候選正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊；從所述候選正文塊中確定出文字長(zhǎng)度最大的子塊作為正文種子塊；在所述候選正文塊中，若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊，且所述上位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值，則合并所述正文種子塊及所述上位子塊，并將合并后所得的塊作為新的正文種子塊；在所述候選正文塊中，若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊，且所述下位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值，則合并所述正文種子塊及所述下位子塊，并將合并后所得的塊作為新的正文種子塊，直至所述候選正文塊中不存在所述相似度不低于第二預(yù)定閾值的上位子塊及下位子塊為止，合并結(jié)束后所得的最新正文種子塊作為所述正文塊；其中，所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

其中，所述候選正文視覺(jué)需求信息包括：在網(wǎng)頁(yè)頁(yè)面中所占面積與網(wǎng)頁(yè)頁(yè)面總面積的比值不低于第一預(yù)定閾值，且在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第二位置需求信息。所述第二位置需求信息具體可基于正文在網(wǎng)頁(yè)頁(yè)面中的慣常布局特征來(lái)確定，例如，一般來(lái)說(shuō)，正文在網(wǎng)頁(yè)頁(yè)面中所處的位置具有以下特征：在水平方向上處于頁(yè)面中部，在垂直方向上處于頁(yè)面中部或上部，基于此，所述第二位置需求信息即可包含該布局特征信息。

需要說(shuō)明書(shū)的是，本發(fā)明中某一頁(yè)面塊在某一方向上在網(wǎng)頁(yè)頁(yè)面中所處的位置(中部或上部等)，具體可以以該頁(yè)面塊的幾何中心與整個(gè)頁(yè)面幾何中心的相對(duì)位置來(lái)衡量、確定，例如，塊A在垂直方向上處于頁(yè)面的中部或上部，相應(yīng)地，具體可以是塊A的幾何中心與頁(yè)面幾何中心在同一水平線上，或塊A的幾何中心在頁(yè)面幾何中心的上部。

當(dāng)確定出正文塊后，可從所述正文塊中抽取出相應(yīng)的正文信息，從而實(shí)現(xiàn)了正文信息的抽取。

步驟205、依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息，并結(jié)合正文關(guān)鍵詞在網(wǎng)頁(yè)頁(yè)面中的第三視覺(jué)特征需求信息，確定出關(guān)鍵詞塊，并抽取所述關(guān)鍵詞塊中的關(guān)鍵詞信息；所述關(guān)鍵詞塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊的子塊。

該步驟可以通過(guò)以下過(guò)程實(shí)現(xiàn)：

基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的位置信息，及預(yù)定的第三劃分標(biāo)準(zhǔn)，將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊；所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊；從各個(gè)候選關(guān)鍵詞塊中確定出符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊，所述關(guān)鍵詞塊為某一個(gè)候選關(guān)鍵詞塊或某一個(gè)候選關(guān)鍵詞塊的子塊；若未能從各個(gè)候選關(guān)鍵詞塊中確定出關(guān)鍵詞塊，則將處于所述正文塊正下方的塊作為新的候選關(guān)鍵詞總塊，并從所述新的候選關(guān)鍵詞總塊中確定符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊。

接下來(lái)，會(huì)通過(guò)相應(yīng)實(shí)施例分別對(duì)從網(wǎng)頁(yè)中抽取題目、正文、關(guān)鍵詞的實(shí)現(xiàn)過(guò)程進(jìn)行詳細(xì)闡述。

由以上方案可知，本發(fā)明公開(kāi)的網(wǎng)頁(yè)信息抽取方法，在基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的位置信息及預(yù)定的劃分標(biāo)準(zhǔn)，將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊的基礎(chǔ)上，通過(guò)基于待抽取部分在網(wǎng)頁(yè)頁(yè)面中對(duì)應(yīng)的相應(yīng)視覺(jué)特征需求信息，從劃分所得的各個(gè)頁(yè)面塊中確定出待抽取部分所對(duì)應(yīng)的信息塊，如基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征需求信息，從多于一個(gè)的頁(yè)面塊中確定出正文塊等，進(jìn)而在此基礎(chǔ)上，可實(shí)現(xiàn)從確定出的待抽取部分對(duì)應(yīng)的信息塊中進(jìn)行所需的信息抽取。可見(jiàn)，本發(fā)明實(shí)現(xiàn)了一種基于網(wǎng)頁(yè)分割及待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征的網(wǎng)頁(yè)信息抽取方案，由于待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征具有較高的確定性，如正文題目一般在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部，在垂直方向上處于網(wǎng)頁(yè)的中上部等等，從而應(yīng)用本發(fā)明方案可有效提升網(wǎng)頁(yè)信息的提取準(zhǔn)確率。

實(shí)施例二

本實(shí)施二對(duì)從網(wǎng)頁(yè)中抽取題目信息的實(shí)現(xiàn)過(guò)程進(jìn)行詳述，參考圖4，具體可通過(guò)以下步驟實(shí)現(xiàn)網(wǎng)頁(yè)中題目信息的抽取：

步驟401、從所述多于一個(gè)的頁(yè)面塊中，確定出在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第一位置需求信息的至少一個(gè)第一頁(yè)面塊。

所述第一位置需求信息具體為正文題目在網(wǎng)頁(yè)頁(yè)面中所處的位置需滿足的信息，本實(shí)施例依據(jù)正文題目在網(wǎng)頁(yè)頁(yè)面中的慣常布局特征，將所述第一位置需求信息確定為：在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部，垂直方向上處于網(wǎng)頁(yè)頁(yè)面的中部或上部。

本步驟具體從對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步劃分所得的各個(gè)頁(yè)面塊中，確定出符合所述第一位置需求信息，即確定出在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部，垂直方向上處于網(wǎng)頁(yè)頁(yè)面的中部或上部的至少一個(gè)第一頁(yè)面塊。參考圖3(b)，假設(shè)對(duì)網(wǎng)頁(yè)頁(yè)面初步劃分后所得的各頁(yè)面塊為VB1、VB2、VB3及VB4，則本步驟可確定出符合所述第一位置需求信息的頁(yè)面塊為VB1、VB2，也就是說(shuō)在VB1、VB2、VB3及VB4四個(gè)頁(yè)面塊中，一般情況下，正文題目?jī)H可能出現(xiàn)在VB1或VB2中，而不太可能出現(xiàn)在VB3、VB4中。

步驟402、從所述至少一個(gè)第一頁(yè)面塊對(duì)應(yīng)的網(wǎng)頁(yè)源文件信息中，搜索出與預(yù)先從網(wǎng)頁(yè)源文件的標(biāo)頭信息中獲得的正文題目屬性值相匹配的題目元素，并在搜索成功時(shí)不再對(duì)所述至少一個(gè)第一頁(yè)面塊中未搜索的第一頁(yè)面塊進(jìn)行搜索。

所述預(yù)先獲得的正文題目屬性值，具體為從網(wǎng)頁(yè)源文件如HTML網(wǎng)頁(yè)文件的標(biāo)頭信息中所獲得的title屬性值。

由于正文題目一般在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部，垂直方向上處于網(wǎng)頁(yè)頁(yè)面的中部或上部，因此，本步驟僅從符合該位置需求(即第一位置需求信息)的一個(gè)或多于一個(gè)的頁(yè)面塊中，搜索與預(yù)先獲得的正文題目屬性值相匹配的題目元素，如對(duì)于圖3(b)中初步劃分所得的VB1、VB2、VB3、VB4四個(gè)塊，僅對(duì)VB1、VB2進(jìn)行搜索，具體地，可從VB1、VB2在HTML網(wǎng)頁(yè)文件中對(duì)應(yīng)的部分搜索具有標(biāo)題標(biāo)識(shí)的相關(guān)元素，如搜索h1/h2元素等，由于在HTML網(wǎng)頁(yè)文件中具有標(biāo)題標(biāo)識(shí)的元素可能是正文題目元素，也可能是一些非正文題目的元素，如廣告題目對(duì)應(yīng)的HTML元素等，從而在搜索出h1/h2元素時(shí)，需判斷該元素的內(nèi)容與title屬性值的編輯距離是否低于預(yù)定的距離閾值，如果低于，則表示搜索出的h1/h2元素的內(nèi)容與預(yù)先獲得的title屬性值相匹配，從而搜索成功。

一旦搜索成功，則不再繼續(xù)對(duì)符合第一位置需求信息的頁(yè)面塊中未搜索的塊進(jìn)行搜索，以提高搜索效率，避免對(duì)無(wú)效區(qū)域進(jìn)行操作，例如，假設(shè)在從VB2(VB2在HTML網(wǎng)頁(yè)文件中對(duì)應(yīng)的部分)中搜索出與所述title屬性值相匹配的題目元素即h1/h2元素后，則不再繼續(xù)對(duì)VB1進(jìn)行搜索。

步驟403、基于所述題目元素所在的第一頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息，及預(yù)定的第二劃分標(biāo)準(zhǔn)，將所述題目元素所在的第一頁(yè)面塊劃分為多于一個(gè)的第一頁(yè)面塊子塊。

在確定出題目元素所在的第一頁(yè)面塊后，繼續(xù)依據(jù)該頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息，及預(yù)定的第二劃分標(biāo)準(zhǔn)對(duì)該頁(yè)面塊進(jìn)行劃分，而對(duì)于其他不包含題目元素的頁(yè)面塊則不執(zhí)行劃分操作。

所述第二劃分標(biāo)準(zhǔn)具體為：根據(jù)對(duì)題目元素所在的第一頁(yè)面塊進(jìn)行劃分時(shí)實(shí)際所需的劃分精細(xì)程度所制定的標(biāo)準(zhǔn)。該步驟具體可依據(jù)所述第二劃分標(biāo)準(zhǔn)，利用VIPS對(duì)題目元素所在的第一頁(yè)面塊進(jìn)行一輪或多于一輪的分割操作。

步驟404、確定出所述題目元素所在的第一頁(yè)面塊子塊。

在對(duì)題目元素所在的第一頁(yè)面塊進(jìn)行分割，得到各個(gè)第一頁(yè)面塊子塊的基礎(chǔ)上，本步驟繼續(xù)從分割所得的各個(gè)第一頁(yè)面塊子塊中對(duì)題目元素進(jìn)行搜索，以確定題目元素所在的子塊。一旦搜索成功，則不再繼續(xù)對(duì)其他未搜索的子塊進(jìn)行搜索。

步驟405、判斷所述題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素。

步驟406、若是，則確定出所述題目元素所在的第一頁(yè)面塊子塊為所述題目塊。

步驟407、若否，則繼續(xù)對(duì)所述題目元素所在的第一頁(yè)面塊子塊進(jìn)行劃分，直至確定出僅包含所述題目元素的題目塊為止。

在以上步驟基礎(chǔ)上，步驟405判斷題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素，若是，則表示該子塊為包含題目元素的最小頁(yè)面塊，從而可確定出該子塊即為題目塊，最終可對(duì)該題目塊進(jìn)行信息抽取，并將抽取出的信息作為題目信息。

否則，若該子塊并非僅包含所述題目元素，則繼續(xù)對(duì)該子塊進(jìn)行劃分，直至確定出僅包含所述題目元素的題目塊為止。其中，該步驟的劃分過(guò)程與步驟403的劃分過(guò)程類似，是對(duì)步驟403的劃分過(guò)程的遞歸應(yīng)用，具體參考步驟403的描述即可，此處不再進(jìn)行詳述。

參考圖5所示，采用本實(shí)施例的題目抽取方案，當(dāng)將網(wǎng)頁(yè)頁(yè)面初步分割為VB1，VB2，VB3和VB4之后，由于在VB2中發(fā)現(xiàn)與預(yù)先獲得的title屬性值相匹配的題目元素，從而其他頁(yè)面塊無(wú)需進(jìn)一步劃分，而僅需對(duì)VB2進(jìn)行繼續(xù)展開(kāi)，如圖5所示，將VB2繼續(xù)劃分為VB2_1、VB2_2和VB2_3，并在VB2_2中發(fā)現(xiàn)題目元素，類似地，繼續(xù)對(duì)VB2_2進(jìn)行劃分，得到VB2_2_1和VB2_2_2，繼續(xù)對(duì)VB2_2_1進(jìn)行劃分，得到VB2_2_1_1及VB2_2_1_2，直到發(fā)現(xiàn)VB2_2_1_1僅包含題目元素，從而確定出VB2_2_1_1是題目塊，最終抽取該VB2_2_1_1塊的信息作為題目信息。

通過(guò)本實(shí)施例的方案，可實(shí)現(xiàn)準(zhǔn)確、有效地對(duì)網(wǎng)頁(yè)中的題目信息進(jìn)行抽取，且可避免對(duì)其他無(wú)效區(qū)域(相對(duì)于題目而言的無(wú)效)進(jìn)行操作，確保了較高的信息抽取效率。

實(shí)施例三

本實(shí)施三對(duì)從網(wǎng)頁(yè)中抽取正文信息的實(shí)現(xiàn)過(guò)程進(jìn)行詳述，參考圖6，具體可通過(guò)以下步驟實(shí)現(xiàn)網(wǎng)頁(yè)中題目信息的抽?。?/p>

步驟601、從所述多于一個(gè)的頁(yè)面塊中確定出符合候選正文視覺(jué)需求信息的一個(gè)最小塊作為候選正文塊，所述候選正文視覺(jué)需求信息包括：在網(wǎng)頁(yè)頁(yè)面中所占面積與網(wǎng)頁(yè)頁(yè)面總面積的比值不低于第一預(yù)定閾值，且在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第二位置需求信息；所述候選正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊。

本實(shí)施例通過(guò)從對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步劃分所得的各個(gè)頁(yè)面塊中，確定出符合候選正文視覺(jué)需求信息的最小塊，并將其作為候選正文塊，在此基礎(chǔ)上，通過(guò)對(duì)候選正文塊進(jìn)行操作，實(shí)現(xiàn)從候選正文塊中確定出最終的正文塊。其中，候選正文塊的任何子塊(如按VIPS對(duì)候選正文塊繼續(xù)劃分后所得的各個(gè)子塊)不符合所述候選正文視覺(jué)需求信息的要求。

一般來(lái)說(shuō)，網(wǎng)頁(yè)正文如新聞?wù)牡葧?huì)在頁(yè)面中占據(jù)相當(dāng)大一部分比例(如20％以上)，且一般在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部，在垂直方向上處于網(wǎng)頁(yè)的中部或上部，基于此，本實(shí)施例將所述候選正文視覺(jué)需求信息確定為：在網(wǎng)頁(yè)頁(yè)面中所占面積與網(wǎng)頁(yè)頁(yè)面總面積的比值不低于第一預(yù)定閾值，且在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第二位置需求信息。

其中，由于后續(xù)需要從該候選正文塊中確定出最終的正文塊，從而所確定出的所述候選正文塊至少需包含正文塊，基于此，所述第一預(yù)定閾值一般為一個(gè)較大的數(shù)值，如可以是依據(jù)經(jīng)驗(yàn)所確定的正文面積占整個(gè)頁(yè)面面積的比例上限值；所述第二位置需求信息即為：在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部，在垂直方向上處于網(wǎng)頁(yè)的中部或上部。

如圖5所示，依據(jù)所述候選正文視覺(jué)需求信息，可確定出圖5對(duì)應(yīng)的頁(yè)面中VB2_2_2為符合該需求信息的最小塊，從而該VB2_2_2塊即為候選正文塊。

步驟602、從所述候選正文塊中確定出文字長(zhǎng)度最大的子塊作為正文種子塊。

在確定出候選正文塊的基礎(chǔ)上，繼續(xù)對(duì)該候選正文塊進(jìn)行操作，實(shí)現(xiàn)從中確定出正文塊，而對(duì)于其他無(wú)關(guān)的塊(相對(duì)于正文而言)則不再執(zhí)行相應(yīng)操作。

具體的，可首先基于VIPS對(duì)該候選正文塊進(jìn)行劃分，得到候選正文塊的各個(gè)子塊，之后，從候選正文塊的各個(gè)子塊中找到文字長(zhǎng)度最大的子塊作為正文種子塊，比如，對(duì)圖5中候選正文塊VB2_2_2進(jìn)行劃分后，可得到如圖7所示的該候選正文塊的各個(gè)子塊：VB2_2_2_1、VB2_2_2_2、VB2_2_2_3、VB2_2_2_4和VB2_2_2_5，其中，VB2_2_2_4是文字長(zhǎng)度最大的子塊，從而可將VB2_2_2_4確定為正文種子塊。

步驟603、在所述候選正文塊中，若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊，且所述上位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值，則合并所述正文種子塊及所述上位子塊，并將合并后所得的塊作為新的正文種子塊。

正文文字間在文字密度、字體大小和/或背景顏色等方面具有較高的相似性，基于此，本實(shí)施例中，所述預(yù)定視覺(jué)特征上的相似度可以指在文字密度、字體大小和/或背景顏色等方面的相似度。所述第二預(yù)定閾值可以是基于經(jīng)驗(yàn)所確定的正文信息在上述相應(yīng)視覺(jué)特征上的相似度下限值。

在所述候選正文塊中，如果正文種子塊的上部存在與其相鄰的上位子塊，且該上位子塊與正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值，比如該上位子塊的文字密度不小于正文種子塊文字密度的30％(假設(shè)此時(shí)兩者在文字密度的相似度不低于所述第二預(yù)定閾值)，則將所述正文種子塊及所述上位子塊進(jìn)行合并，得到新的正文種子塊。

步驟604、在所述候選正文塊中，若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊，且所述下位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值，則合并所述正文種子塊及所述下位子塊，并將合并后所得的塊作為新的正文種子塊，直至所述候選正文塊中不存在所述相似度不低于第二預(yù)定閾值的上位子塊及下位子塊為止，合并結(jié)束后所得的最新正文種子塊作為所述正文塊；其中，所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

相對(duì)應(yīng)地，如果正文種子塊的下部存在與其相鄰的下位子塊，且該下位子塊與正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值，比如該下位子塊的文字密度不小于正文種子塊文字密度的30％(假設(shè)此時(shí)兩者在文字密度的相似度不低于所述第二預(yù)定閾值)，則將所述正文種子塊及所述下位子塊進(jìn)行合并，得到新的正文種子塊。

本實(shí)施例通過(guò)迭代執(zhí)行上述合并過(guò)程獲得最終的正文塊，其中迭代過(guò)程直至不存在符合上述要求的上位子塊及下位子塊時(shí)結(jié)束。迭代結(jié)束時(shí)所得的最新的正文種子塊即為最終的正文塊。從而，在此基礎(chǔ)上，可抽取該正文塊的信息作為網(wǎng)頁(yè)的正文信息。

仍以圖7為例，當(dāng)確定出文字長(zhǎng)度最大的子塊VB2_2_2_4初步作為正文種子塊后，向上，VB2_2_2_4和VB2_2_2_3合并成新的正文種子塊；向下，所述新的正文種子塊(即VB2_2_2_4加VB2_2_2_3)與VB2_2_2_5繼續(xù)合并成新的正文種子塊，而對(duì)于候選正文塊中包括的圖片部分，鑒于其與參與合并的文字類子塊具有相似的位置特征(均在水平方向上處于網(wǎng)頁(yè)中部，垂直方向上處于網(wǎng)頁(yè)中上部)，考慮其極有可能是正文配圖，會(huì)對(duì)用戶閱讀網(wǎng)頁(yè)正文產(chǎn)生較大的輔助作用，因此，本實(shí)施例優(yōu)選地，針對(duì)圖片部分的子塊，不必滿足上述文字類子塊合并時(shí)需滿足的要求，直接將其合并至正文塊即可，從而最后合并后可得到正文塊VB2_2_2。

本實(shí)施例實(shí)現(xiàn)了基于網(wǎng)頁(yè)正文的視覺(jué)特征信息對(duì)網(wǎng)頁(yè)正文進(jìn)行抽取，正文識(shí)別及抽取的準(zhǔn)確率較高，且避免了對(duì)無(wú)效區(qū)域進(jìn)行操作，能夠確保一較高的抽取效率。

實(shí)施例四

本實(shí)施四對(duì)從網(wǎng)頁(yè)中抽取關(guān)鍵詞的實(shí)現(xiàn)過(guò)程進(jìn)行詳述，參考圖8，具體可通過(guò)以下步驟實(shí)現(xiàn)網(wǎng)頁(yè)中關(guān)鍵詞信息的抽?。?/p>

步驟801、依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息，確定出候選關(guān)鍵詞總塊，所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊。

一般來(lái)說(shuō)，在網(wǎng)頁(yè)頁(yè)面中，多數(shù)情況下，正文關(guān)鍵詞處于正文題目與正文之間，少數(shù)情況下，正文關(guān)鍵詞處于正文的正下方，如具體處于正文正下方的偏左部分或正文正下方的偏右部分等。

基于此，本實(shí)施例依據(jù)確定出的題目塊及正文塊在頁(yè)面中的視覺(jué)信息，如具體所處的位置等，來(lái)定位出一候選關(guān)鍵詞總塊，如在圖7中，可確定出候選關(guān)鍵詞總塊為處于題目塊VB2_2_1_1與正文塊VB2_2_2之間的塊VB2_2_1_2，后續(xù)通過(guò)對(duì)該候選關(guān)鍵詞總塊進(jìn)行分割，并依據(jù)關(guān)鍵詞對(duì)應(yīng)的視覺(jué)特征需求從分割所得的各子塊中確定出關(guān)鍵詞塊。

步驟802、基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息，及預(yù)定的第三劃分標(biāo)準(zhǔn)，將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊；所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊。

其中，可基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息，及預(yù)定的第三劃分標(biāo)準(zhǔn)，將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊；候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息可以包括：候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的布局位置、間距(如詞間距)、背景顏色、字體大小等布局信息；所述第三劃分標(biāo)準(zhǔn)具體為基于對(duì)候選關(guān)鍵詞總塊進(jìn)行劃分時(shí)實(shí)際所需的劃分精細(xì)程度所制定的標(biāo)準(zhǔn)。

實(shí)際劃分時(shí)，可采用VIPS并結(jié)合所述第三劃分標(biāo)準(zhǔn)，對(duì)所述候選關(guān)鍵詞總塊進(jìn)行所需的一輪或多于一輪的分割，得到各個(gè)候選關(guān)鍵詞塊。

參考圖9，當(dāng)依據(jù)本實(shí)施例方法，從題目塊VB2_2_1_1與正文塊VB2_2_2之間確定出候選關(guān)鍵詞總塊VB2_2_1_2之后，可將該候選關(guān)鍵詞總塊VB2_2_1_2基于VIPS繼續(xù)劃分為VB2_2_1_2_1和VB2_2_1_2_2。其中，通過(guò)與圖3(a)的實(shí)際頁(yè)面對(duì)比可知，VB2_2_1_2_1實(shí)際對(duì)應(yīng)作者和日期信息，VB2_2_1_2_2實(shí)際對(duì)應(yīng)關(guān)鍵詞信息，后續(xù)通過(guò)依據(jù)關(guān)鍵詞需滿足的第三視覺(jué)特征需求信息對(duì)這兩個(gè)塊加以識(shí)別。

步驟803、從各個(gè)候選關(guān)鍵詞塊中確定出符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊，所述關(guān)鍵詞塊為某一個(gè)候選關(guān)鍵詞塊或某一個(gè)候選關(guān)鍵詞塊的子塊。

網(wǎng)頁(yè)的正文關(guān)鍵詞信息一般對(duì)應(yīng)一個(gè)包含多個(gè)關(guān)鍵詞的關(guān)鍵詞列表(該列表一般至少包括3個(gè)關(guān)鍵詞)，關(guān)鍵詞列表中的各關(guān)鍵詞具有較為相似的視覺(jué)特征，例如，一般情況下，各關(guān)鍵詞采用相同的字體，背景顏色，且各個(gè)關(guān)鍵詞中相鄰關(guān)鍵詞間的詞間距相同，基于此，本實(shí)施例中，所述第三視覺(jué)特征需求信息即可以是包含上述關(guān)鍵詞特征的信息。

本步驟具體從各個(gè)候選關(guān)鍵詞塊中確定出符合所述第三視覺(jué)特征需求信息的候選關(guān)鍵詞塊，并判斷確定出的該候選關(guān)鍵詞塊是否僅包含符合所述第三視覺(jué)特征需求信息的關(guān)鍵詞列表，如果否，則繼續(xù)對(duì)該候選關(guān)鍵詞塊進(jìn)行基于VIPS的劃分，直至確定出一個(gè)僅包含符合所述第三視覺(jué)特征需求信息的關(guān)鍵詞列表的塊為止，則該塊即為關(guān)鍵詞塊。之后，可通過(guò)抽取該關(guān)鍵詞塊中的關(guān)鍵詞列表信息，來(lái)實(shí)現(xiàn)關(guān)鍵詞信息的抽取。

由于在網(wǎng)頁(yè)頁(yè)面中，每個(gè)關(guān)鍵詞一般都會(huì)對(duì)應(yīng)包含一個(gè)鏈接，該鏈接要么帶有關(guān)鍵詞標(biāo)識(shí)，如該鏈接具體在HTML網(wǎng)頁(yè)文件中直接對(duì)應(yīng)有“tag|key”字樣，要么擁有一個(gè)class屬性并且屬性內(nèi)容中帶有“tag|key”字樣。也就是說(shuō)，每個(gè)正文關(guān)鍵詞在HTML文件中均會(huì)對(duì)應(yīng)一個(gè)關(guān)鍵詞標(biāo)識(shí)(反過(guò)來(lái)，帶有關(guān)鍵詞標(biāo)識(shí)的元素不一定對(duì)應(yīng)正文關(guān)鍵詞，可能對(duì)應(yīng)廣告詞等非正文關(guān)鍵詞的信息)，基于此，在本發(fā)明其他實(shí)施例中，還可通過(guò)查驗(yàn)所確定出的各關(guān)鍵詞的關(guān)鍵詞標(biāo)識(shí)來(lái)驗(yàn)證關(guān)鍵詞的正確性，一般來(lái)說(shuō)，如果確定出的關(guān)鍵詞不存在關(guān)鍵詞標(biāo)識(shí)，則可獲知該關(guān)鍵詞存在誤判，需重新確定及抽取關(guān)鍵詞。

另外，在本發(fā)明其他實(shí)施例中，還可通過(guò)將所述第三視覺(jué)特征需求信息以及存在關(guān)鍵詞標(biāo)識(shí)，共同作為關(guān)鍵詞的確定依據(jù)，來(lái)進(jìn)行候選關(guān)鍵詞總塊的區(qū)域劃分以及在此基礎(chǔ)上的關(guān)鍵詞塊的確定。

如圖9所示，通過(guò)對(duì)塊VB2_2_1_2_2進(jìn)行劃分處理，可知該塊由一系列具有相似特征的子塊VB2_2_1_2_2_1、VB2_2_1_2_2_2、VB2_2_1_2_2_3和VB2_2_1_2_2_4(圖9中未標(biāo)出，具體為圖9中VB2_2_1_2_2包括的四個(gè)子塊)構(gòu)成，具體地，各子塊中的字體大小相同、背景顏色相同、且相鄰子塊間的間距相同，從而識(shí)別出塊VB2_2_1_2_2即為關(guān)鍵詞塊，最終通過(guò)抽取該塊中各子塊的信息即可實(shí)現(xiàn)正文關(guān)鍵詞信息的抽取。

步驟804、若未能從各個(gè)候選關(guān)鍵詞塊中確定出關(guān)鍵詞塊，則將處于所述正文塊正下方的塊作為新的候選關(guān)鍵詞總塊，并從所述新的候選關(guān)鍵詞總塊中確定符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊。

如果從處于題目塊及正文塊之間的所述候選關(guān)鍵詞總塊中未確定出符合要求的關(guān)鍵詞塊，則繼續(xù)將正文塊正下方的塊作為新的候選關(guān)鍵詞總塊，并按上述從候選關(guān)鍵詞總塊中確定出關(guān)鍵詞塊的實(shí)現(xiàn)過(guò)程，對(duì)該新的候選關(guān)鍵詞總塊進(jìn)行處理，直至確定出符合要求的關(guān)鍵詞塊(或最終仍未確定出關(guān)鍵詞塊)為止，進(jìn)而在此基礎(chǔ)上實(shí)現(xiàn)關(guān)鍵詞信息的抽取(或在未確定出關(guān)鍵詞塊的情況下抽取失敗)。

本發(fā)明基于待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征信息，可以準(zhǔn)確、高效地對(duì)正文題目、網(wǎng)頁(yè)正文及正文關(guān)鍵詞等各個(gè)待抽取部分進(jìn)行基于頁(yè)面分割的信息識(shí)別及信息抽取，在對(duì)頁(yè)面進(jìn)行分割時(shí)，可基于是否找到待抽取部分對(duì)頁(yè)面進(jìn)行劃分粒度的控制，從而實(shí)現(xiàn)了頁(yè)面劃分粒度的按需控制，且在對(duì)頁(yè)面進(jìn)行分割時(shí)，可避免對(duì)待抽取部分所在區(qū)域以外的其他無(wú)效區(qū)域進(jìn)行分割，有效提高了基于頁(yè)面分割的網(wǎng)頁(yè)信息抽取效率。

實(shí)施例五

本實(shí)施例五公開(kāi)一種網(wǎng)頁(yè)信息抽取裝置，參考圖10示出的網(wǎng)頁(yè)信息抽取裝置的結(jié)構(gòu)示意圖，該裝置包括：

第一劃分單元101，用于基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的第一劃分標(biāo)準(zhǔn)，將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊；確定單元102，用于從所述多于一個(gè)的頁(yè)面塊中確定出符合第一條件的至少一個(gè)第一頁(yè)面塊；其中，所述第一條件為基于正文題目在網(wǎng)頁(yè)頁(yè)面中的第一視覺(jué)特征需求信息所確定的條件；第一抽取單元103，用于在所述至少一個(gè)第一頁(yè)面塊中搜索出與預(yù)先獲得的正文題目屬性值相匹配的題目元素，并從所述題目元素所在的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊，抽取所述題目塊中的題目信息；第二抽取單元104，用于從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊，并抽取所述正文塊中的正文信息；其中，所述第二條件為基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的第二視覺(jué)特征需求信息所確定的條件，所述正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊；第三抽取單元105，用于依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息，并結(jié)合正文關(guān)鍵詞在網(wǎng)頁(yè)頁(yè)面中的第三視覺(jué)特征需求信息，確定出關(guān)鍵詞塊，并抽取所述關(guān)鍵詞塊中的關(guān)鍵詞信息；所述關(guān)鍵詞塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊的子塊。

在本發(fā)明實(shí)施例的一實(shí)施方式中，所述確定單元，進(jìn)一步用于：從所述多于一個(gè)的頁(yè)面塊中，確定出在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第一位置信息的至少一個(gè)第一頁(yè)面塊；

所述第一抽取單元，進(jìn)一步用于：

在本發(fā)明實(shí)施例的一實(shí)施方式中，所述第二抽取單元從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊，進(jìn)一步包括：

從所述多于一個(gè)的頁(yè)面塊中確定出符合候選正文視覺(jué)需求信息的一個(gè)最小塊作為候選正文塊，所述候選正文視覺(jué)需求信息包括：在網(wǎng)頁(yè)頁(yè)面中所占面積與網(wǎng)頁(yè)頁(yè)面總面積的比值不低于第一預(yù)定閾值，且在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第二位置需求信息；所述候選正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊；從所述候選正文塊中確定出文字長(zhǎng)度最大的子塊作為正文種子塊；在所述候選正文塊中，若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊，且所述上位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值，則合并所述正文種子塊及所述上位子塊，并將合并后所得的塊作為新的正文種子塊；在所述候選正文塊中，若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊，且所述下位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值，則合并所述正文種子塊及所述下位子塊，并將合并后所得的塊作為新的正文種子塊，直至所述候選正文塊中不存在所述相似度不低于第二預(yù)定閾值的上位子塊及下位子塊為止，合并結(jié)束后所得的最新正文種子塊作為所述正文塊；其中，所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

在本發(fā)明實(shí)施例的一實(shí)施方式中，所述第三抽取單元確定出關(guān)鍵詞塊，進(jìn)一步包括：

此處，需要說(shuō)明的是，本實(shí)施例涉及的網(wǎng)頁(yè)信息抽取裝置的描述，與上文各實(shí)施例方法的描述是類似的，且同方法的有益效果描述，對(duì)于本發(fā)明的網(wǎng)頁(yè)信息抽取裝置在本實(shí)施例中未披露的技術(shù)細(xì)節(jié)，請(qǐng)參照本發(fā)明方法實(shí)施例的說(shuō)明，本實(shí)施對(duì)此不再作贅述。

需要說(shuō)明的是，本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。

為了描述的方便，描述以上系統(tǒng)或裝置時(shí)以功能分為各種模塊或單元分別描述。當(dāng)然，在實(shí)施本申請(qǐng)時(shí)可以把各單元的功能在同一個(gè)或多個(gè)軟件和/或硬件中實(shí)現(xiàn)。

通過(guò)以上的實(shí)施方式的描述可知，本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請(qǐng)可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)。基于這樣的理解，本申請(qǐng)的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái)，該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中，如ROM/RAM、磁碟、光盤(pán)等，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。

最后，還需要說(shuō)明的是，在本文中，諸如第一、第二、第三和第四等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái)，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒(méi)有明確列出的其他要素，或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下，由語(yǔ)句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王勇
技術(shù)所有人：東軟集團(tuán)股份有限公司
我是此專利的發(fā)明人

上一篇：基于深度問(wèn)答的問(wèn)答澄清方法和裝置與制造工藝
上一篇：一種基于kafka的消息處理方法與制造工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)頁(yè)結(jié)構(gòu)化信息抽取相關(guān)技術(shù)

網(wǎng)頁(yè)信息抽取相關(guān)技術(shù)

網(wǎng)頁(yè)信息提取相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁(yè)信息抽取方法及裝置與流程