欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁(yè)信息抽取方法及裝置與流程

文檔序號(hào):11155515閱讀:305來(lái)源:國(guó)知局
一種網(wǎng)頁(yè)信息抽取方法及裝置與制造工藝

本發(fā)明屬于互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁(yè)信息抽取方法及裝置。



背景技術(shù):

在互聯(lián)網(wǎng)新聞聚合或新聞推薦等應(yīng)用中,需要使用爬蟲(chóng)爬取大量的新聞網(wǎng)站,然后將爬取結(jié)果中具有相關(guān)性的新聞聚合在一起,并根據(jù)用戶的閱讀習(xí)慣建立起用戶的興趣模型,最終根據(jù)用戶的興趣模型將聚合的相關(guān)新聞推送至對(duì)其感興趣的用戶。

新聞網(wǎng)站通常包括首頁(yè)和新聞頁(yè)面兩種不同的頁(yè)面,首頁(yè)中一般會(huì)包含一個(gè)最新更新新聞的新聞列表,新聞頁(yè)面則包含具體的新聞?lì)}目、發(fā)布者、發(fā)布時(shí)間、關(guān)鍵詞、正文等內(nèi)容,除此之外,新聞頁(yè)面往往還包括各種廣告信息、用戶評(píng)論或用于跳轉(zhuǎn)至其他內(nèi)容的多個(gè)鏈接等噪音數(shù)據(jù)(相對(duì)于新聞內(nèi)容而言)。在互聯(lián)網(wǎng)新聞聚合或新聞推薦等應(yīng)用中,通常僅需提取新聞頁(yè)面中新聞的題目、正文及關(guān)鍵詞等用戶較為關(guān)心的內(nèi)容,而對(duì)于其他內(nèi)容如發(fā)布者、上述噪音數(shù)據(jù)等則一般不予提取。

傳統(tǒng)的新聞內(nèi)容提取方式,往往只是根據(jù)新聞頁(yè)面對(duì)應(yīng)的HTML(HyperText Markup Language,超文本標(biāo)記語(yǔ)言)網(wǎng)頁(yè)文件中的HTML標(biāo)簽密度等信息,來(lái)識(shí)別并提取新聞內(nèi)容,比如一般來(lái)說(shuō),正文內(nèi)容對(duì)應(yīng)的HTML標(biāo)簽密度較低,從而傳統(tǒng)的新聞?wù)淖詣?dòng)識(shí)別及提取方式,會(huì)將標(biāo)簽密度較低的頁(yè)面內(nèi)容識(shí)別為新聞?wù)模欢?,此種基于HTML標(biāo)簽密度來(lái)識(shí)別、提取新聞內(nèi)容的方式,存在信息識(shí)別、提取準(zhǔn)確率低的問(wèn)題,如很多非正文的內(nèi)容也常被識(shí)別為新聞?wù)摹?/p>



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明的目的在于提供一種網(wǎng)頁(yè)信息抽取方法及裝置,旨在解決現(xiàn)有技術(shù)存在的上述問(wèn)題,提升網(wǎng)頁(yè)信息的提取準(zhǔn)確率。

為此,本發(fā)明公開(kāi)如下技術(shù)方案:

一種網(wǎng)頁(yè)信息抽取方法,包括:

基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的第一劃分標(biāo)準(zhǔn),將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊;

從所述多于一個(gè)的頁(yè)面塊中確定出符合第一條件的至少一個(gè)第一頁(yè)面塊;其中,所述第一條件為基于正文題目在網(wǎng)頁(yè)頁(yè)面中的第一視覺(jué)特征需求信息所確定的條件;

在所述至少一個(gè)第一頁(yè)面塊中搜索出與預(yù)先獲得的正文題目屬性值相匹配的題目元素,并從所述題目元素所在的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊,抽取所述題目塊中的題目信息;

從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊,并抽取所述正文塊中的正文信息;其中,所述第二條件為基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的第二視覺(jué)特征需求信息所確定的條件,所述正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊;

依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息,并結(jié)合正文關(guān)鍵詞在網(wǎng)頁(yè)頁(yè)面中的第三視覺(jué)特征需求信息,確定出關(guān)鍵詞塊,并抽取所述關(guān)鍵詞塊中的關(guān)鍵詞信息;所述關(guān)鍵詞塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊的子塊。

上述方法,優(yōu)選的,所述網(wǎng)頁(yè)元素的視覺(jué)信息包括網(wǎng)頁(yè)元素在網(wǎng)頁(yè)中的布局特征信息,則所述基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的第一劃分標(biāo)準(zhǔn),將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊,包括:

基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的布局特征信息,確定網(wǎng)頁(yè)頁(yè)面的各個(gè)分割線;

依據(jù)所述分割線及預(yù)定的第一劃分標(biāo)準(zhǔn),將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊。

上述方法,優(yōu)選的,所述第一視覺(jué)特征需求信息包括正文題目在網(wǎng)頁(yè)頁(yè)面中的第一位置需求信息,則所述從所述多于一個(gè)的頁(yè)面塊中確定出符合第一條件的至少一個(gè)第一頁(yè)面塊,包括:

從所述多于一個(gè)的頁(yè)面塊中,確定出在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第一位置需求信息的至少一個(gè)第一頁(yè)面塊。

上述方法,優(yōu)選的,所述在所述至少一個(gè)第一頁(yè)面塊中搜索出與預(yù)先獲得的正文題目屬性值相匹配的題目元素,并從所述題目元素所對(duì)應(yīng)的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊,包括:

從所述至少一個(gè)第一頁(yè)面塊對(duì)應(yīng)的網(wǎng)頁(yè)源文件信息中,搜索出與預(yù)先從網(wǎng)頁(yè)源文件的標(biāo)頭信息中獲得的正文題目屬性值相匹配的題目元素,并在搜索成功時(shí)不再對(duì)所述至少一個(gè)第一頁(yè)面塊中未搜索的第一頁(yè)面塊進(jìn)行搜索;

基于所述題目元素所在的第一頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第二劃分標(biāo)準(zhǔn),將所述題目元素所在的第一頁(yè)面塊劃分為多于一個(gè)的第一頁(yè)面塊子塊;

確定出所述題目元素所在的第一頁(yè)面塊子塊;

判斷所述題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素,若是,則確定出所述題目元素所在的第一頁(yè)面塊子塊為所述題目塊;若否,則繼續(xù)對(duì)所述題目元素所在的第一頁(yè)面塊子塊進(jìn)行劃分,直至確定出僅包含所述題目元素的題目塊為止。

上述方法,優(yōu)選的,所述第二條件所依據(jù)的第二視覺(jué)特征需求信息為:基于預(yù)設(shè)的候選正文視覺(jué)需求信息及正文文字在預(yù)定視覺(jué)特征上的相似度所確定的信息,則所述從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊,包括:

從所述多于一個(gè)的頁(yè)面塊中確定出符合候選正文視覺(jué)需求信息的一個(gè)最小塊作為候選正文塊,所述候選正文視覺(jué)需求信息包括:在網(wǎng)頁(yè)頁(yè)面中所占面積與網(wǎng)頁(yè)頁(yè)面總面積的比值不低于第一預(yù)定閾值,且在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第二位置需求信息;所述候選正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊;

從所述候選正文塊中確定出文字長(zhǎng)度最大的子塊作為正文種子塊;

在所述候選正文塊中,若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊,且所述上位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,則合并所述正文種子塊及所述上位子塊,并將合并后所得的塊作為新的正文種子塊;

在所述候選正文塊中,若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊,且所述下位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,則合并所述正文種子塊及所述下位子塊,并將合并后所得的塊作為新的正文種子塊,直至所述候選正文塊中不存在所述相似度不低于第二預(yù)定閾值的上位子塊及下位子塊為止,合并結(jié)束后所得的最新正文種子塊作為所述正文塊;其中,所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

上述方法,優(yōu)選的,所述依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息,并結(jié)合正文關(guān)鍵詞在網(wǎng)頁(yè)頁(yè)面中的第三視覺(jué)特征需求信息,確定出關(guān)鍵詞塊,包括:

依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息,確定出候選關(guān)鍵詞總塊,所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊;

基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第三劃分標(biāo)準(zhǔn),將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊;

從各個(gè)候選關(guān)鍵詞塊中確定出符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊,所述關(guān)鍵詞塊為某一個(gè)候選關(guān)鍵詞塊或某一個(gè)候選關(guān)鍵詞塊的子塊;

若未能從各個(gè)候選關(guān)鍵詞塊中確定出關(guān)鍵詞塊,則將處于所述正文塊正下方的塊作為新的候選關(guān)鍵詞總塊,并從所述新的候選關(guān)鍵詞總塊中確定符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊。

一種網(wǎng)頁(yè)信息抽取裝置,包括:

第一劃分單元,用于基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的第一劃分標(biāo)準(zhǔn),將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊;

確定單元,用于從所述多于一個(gè)的頁(yè)面塊中確定出符合第一條件的至少一個(gè)第一頁(yè)面塊;其中,所述第一條件為基于正文題目在網(wǎng)頁(yè)頁(yè)面中的第一視覺(jué)特征需求信息所確定的條件;

第一抽取單元,用于在所述至少一個(gè)第一頁(yè)面塊中搜索出與預(yù)先獲得的正文題目屬性值相匹配的題目元素,并從所述題目元素所在的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊,抽取所述題目塊中的題目信息;

第二抽取單元,用于從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊,并抽取所述正文塊中的正文信息;其中,所述第二條件為基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的第二視覺(jué)特征需求信息所確定的條件,所述正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊;

第三抽取單元,用于依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息,并結(jié)合正文關(guān)鍵詞在網(wǎng)頁(yè)頁(yè)面中的第三視覺(jué)特征需求信息,確定出關(guān)鍵詞塊,并抽取所述關(guān)鍵詞塊中的關(guān)鍵詞信息;所述關(guān)鍵詞塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊的子塊。

上述裝置,優(yōu)選的,所述第一視覺(jué)特征需求信息包括正文題目在網(wǎng)頁(yè)頁(yè)面中的第一位置需求信息,則所述確定單元,進(jìn)一步用于:從所述多于一個(gè)的頁(yè)面塊中,確定出在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第一位置信息的至少一個(gè)第一頁(yè)面塊;

所述第一抽取單元,進(jìn)一步用于:

從所述至少一個(gè)第一頁(yè)面塊對(duì)應(yīng)的網(wǎng)頁(yè)源文件信息中,搜索出與預(yù)先從網(wǎng)頁(yè)源文件的標(biāo)頭信息中獲得的正文題目屬性值相匹配的題目元素,并在搜索成功時(shí)不再對(duì)所述至少一個(gè)第一頁(yè)面塊中未搜索的第一頁(yè)面塊進(jìn)行搜索;基于所述題目元素所在的第一頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第二劃分標(biāo)準(zhǔn),將所述題目元素所在的第一頁(yè)面塊劃分為多于一個(gè)的第一頁(yè)面塊子塊;確定出所述題目元素所在的第一頁(yè)面塊子塊;判斷所述題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素,若是,則確定出所述題目元素所在的第一頁(yè)面塊子塊為所述題目塊;若否,則繼續(xù)對(duì)所述題目元素所在的第一頁(yè)面塊子塊進(jìn)行劃分,直至確定出僅包含所述題目元素的題目塊為止。

上述裝置,優(yōu)選的,所述第二條件所依據(jù)的第二視覺(jué)特征需求信息為:基于預(yù)設(shè)的候選正文視覺(jué)需求信息及正文文字在預(yù)定視覺(jué)特征上的相似度所確定的條件,則所述第二抽取單元從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊,進(jìn)一步包括:

從所述多于一個(gè)的頁(yè)面塊中確定出符合候選正文視覺(jué)需求信息的一個(gè)最小塊作為候選正文塊,所述候選正文視覺(jué)需求信息包括:在網(wǎng)頁(yè)頁(yè)面中所占面積與網(wǎng)頁(yè)頁(yè)面總面積的比值不低于第一預(yù)定閾值,且在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第二位置需求信息;所述候選正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊;

從所述候選正文塊中確定出文字長(zhǎng)度最大的子塊作為正文種子塊;

在所述候選正文塊中,若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊,且所述上位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,則合并所述正文種子塊及所述上位子塊,并將合并后所得的塊作為新的正文種子塊;

在所述候選正文塊中,若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊,且所述下位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,則合并所述正文種子塊及所述下位子塊,并將合并后所得的塊作為新的正文種子塊,直至所述候選正文塊中不存在所述相似度不低于第二預(yù)定閾值的上位子塊及下位子塊為止,合并結(jié)束后所得的最新正文種子塊作為所述正文塊;其中,所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

上述裝置,優(yōu)選的,所述第三抽取單元確定出關(guān)鍵詞塊,進(jìn)一步包括:

依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息,確定出候選關(guān)鍵詞總塊,所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊;基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第三劃分標(biāo)準(zhǔn),將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊;從各個(gè)候選關(guān)鍵詞塊中確定出符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊,所述關(guān)鍵詞塊為某一個(gè)候選關(guān)鍵詞塊或某一個(gè)候選關(guān)鍵詞塊的子塊;若未能從各個(gè)候選關(guān)鍵詞塊中確定出關(guān)鍵詞塊,則將處于所述正文塊正下方的塊作為新的候選關(guān)鍵詞總塊,并從所述新的候選關(guān)鍵詞總塊中確定符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊。

由以上方案可知,本發(fā)明公開(kāi)的網(wǎng)頁(yè)信息抽取方法,在基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的劃分標(biāo)準(zhǔn),將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊的基礎(chǔ)上,通過(guò)基于待抽取部分在網(wǎng)頁(yè)頁(yè)面中對(duì)應(yīng)的相應(yīng)視覺(jué)特征需求信息,從劃分所得的各個(gè)頁(yè)面塊中確定出待抽取部分所對(duì)應(yīng)的信息塊,如基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征需求信息,從多于一個(gè)的頁(yè)面塊中確定出正文塊等,進(jìn)而在此基礎(chǔ)上,可實(shí)現(xiàn)從確定出的待抽取部分對(duì)應(yīng)的信息塊中進(jìn)行所需的信息抽取??梢?jiàn),本發(fā)明實(shí)現(xiàn)了一種基于網(wǎng)頁(yè)分割及待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征的網(wǎng)頁(yè)信息抽取方案,由于待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征具有較高的確定性,如正文題目一般在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部,在垂直方向上處于網(wǎng)頁(yè)的中上部等等,從而應(yīng)用本發(fā)明方案可有效提升網(wǎng)頁(yè)信息的提取準(zhǔn)確率。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。

圖1(a)是一個(gè)HTML頁(yè)面的外觀示意圖;

圖1(b)是采用現(xiàn)有的VIPS算法對(duì)圖1(a)的HTML頁(yè)面進(jìn)行頁(yè)面分割的示意圖;

圖2是本發(fā)明實(shí)施例一提供的網(wǎng)頁(yè)信息抽取方法的流程圖;

圖3(a)是另一個(gè)HTML頁(yè)面的外觀示意圖;

圖3(b)是本發(fā)明實(shí)施例一提供的采用VIPS對(duì)圖3(a)的HTML頁(yè)面進(jìn)行初步分割后所得的分割塊示意圖;

圖4是本發(fā)明實(shí)施例二提供的從網(wǎng)頁(yè)中抽取題目信息的實(shí)現(xiàn)過(guò)程流程圖;

圖5是本發(fā)明實(shí)施例二提供的基于題目信息的視覺(jué)特征需求進(jìn)行頁(yè)面分割的示意圖;

圖6是本發(fā)明實(shí)施例三提供的從網(wǎng)頁(yè)中抽取正文信息的實(shí)現(xiàn)過(guò)程流程圖;

圖7是本發(fā)明實(shí)施例三提供的基于正文信息的視覺(jué)特征需求進(jìn)行頁(yè)面分割的示意圖;

圖8是本發(fā)明實(shí)施例四提供的從網(wǎng)頁(yè)中抽取關(guān)鍵詞信息的實(shí)現(xiàn)過(guò)程流程圖;

圖9是本發(fā)明實(shí)施例四提供的基于關(guān)鍵詞的視覺(jué)特征需求進(jìn)行頁(yè)面分割的示意圖;

圖10是本發(fā)明實(shí)施例五提供的網(wǎng)頁(yè)信息抽取裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

為解決現(xiàn)有網(wǎng)頁(yè)信息抽取技術(shù)存在的網(wǎng)頁(yè)信息識(shí)別率低的問(wèn)題,如易將新聞頁(yè)面的非正文內(nèi)容識(shí)別為新聞?wù)?,本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)信息抽取方法及裝置,該方法或裝置是一種基于網(wǎng)頁(yè)分割及待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征,進(jìn)行網(wǎng)頁(yè)信息識(shí)別及抽取的方案,可以應(yīng)用于新聞聚合、新聞推薦等各種應(yīng)用中。

本發(fā)明具體基于VIPS(Visual Based Page Segment Algorithm,基于視覺(jué)的Web頁(yè)面分割算法)并結(jié)合待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)信息,來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)頁(yè)面中待抽取部分的信息識(shí)別及抽取。

具體地,由于在現(xiàn)實(shí)的網(wǎng)頁(yè)閱覽場(chǎng)景中,人們并不需要對(duì)網(wǎng)頁(yè)頁(yè)面的內(nèi)容如新聞頁(yè)面的內(nèi)容等進(jìn)行逐字掃描式閱覽,而一般是根據(jù)網(wǎng)頁(yè)頁(yè)面中各網(wǎng)頁(yè)元素的布局位置、背景顏色、字體大小等布局特征,對(duì)頁(yè)面進(jìn)行快速的區(qū)域劃分,然后找到其所關(guān)注的區(qū)域,如具體找到所關(guān)注的新聞?lì)}目、新聞?wù)牡葏^(qū)域進(jìn)行閱覽,而網(wǎng)站的設(shè)計(jì)者,也都充分利用這一原理,將諸如新聞?lì)}目、新聞?wù)牡容^為重要的信息放在頁(yè)面的比較明顯的位置上,并通過(guò)間隔、字體、背景顏色等加以強(qiáng)調(diào)。

受到啟發(fā),微軟在2003年提出VIPS算法,VIPS算法充分利用了Web頁(yè)面的布局特征,首先從HTML網(wǎng)頁(yè)文件中提取出所有的HTML元素,然后根據(jù)各HTML元素的布局特征,如各HTML元素的位置信息、背景顏色、字體大小等檢測(cè)出網(wǎng)頁(yè)頁(yè)面的分割條,包括水平方向和垂直方向的分隔條,最后從檢測(cè)出的分割條中選取出寬度最大的分割條(水平方向和/或垂直方向),并基于寬度最大的分割條對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步分割。之后,對(duì)于初步分割所得的每一個(gè)頁(yè)面塊,可使用VIPS算法繼續(xù)將其分割為更小的頁(yè)面塊。

在基于網(wǎng)頁(yè)頁(yè)面中各HTML元素的布局特征對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步分割的基礎(chǔ)上,VIPS采用自頂向下的方式對(duì)初步分割所得的各頁(yè)面塊繼續(xù)進(jìn)行分割。其中,每當(dāng)VIPS對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行一次分割,VIPS均會(huì)依據(jù)劃分所得的每一頁(yè)面塊內(nèi)各HTML元素的布局特征相似性,給出該頁(yè)面塊的DOC值,DOC值反映了頁(yè)面塊內(nèi)部?jī)?nèi)容的關(guān)聯(lián)性,DOC值越大,則表明頁(yè)面塊內(nèi)部?jī)?nèi)容之間的關(guān)聯(lián)越緊密,反之則越稀松。

從而,在基于網(wǎng)頁(yè)頁(yè)面的布局特征對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步分割的基礎(chǔ)上,VIPS會(huì)針對(duì)初步分割所得的每一頁(yè)面塊,均給出一相應(yīng)的DOC值,后續(xù),VIPS基于每一頁(yè)面塊內(nèi)的HTML元素的布局特征,繼續(xù)對(duì)每一頁(yè)面塊進(jìn)行劃分,同時(shí)基于設(shè)定的DOC上限值(可根據(jù)經(jīng)驗(yàn)確定)對(duì)整個(gè)網(wǎng)頁(yè)頁(yè)面的區(qū)域劃分粒度進(jìn)行控制,當(dāng)整個(gè)網(wǎng)頁(yè)頁(yè)面中當(dāng)前劃分所得的最小劃分粒度的每一個(gè)子塊的DOC值達(dá)到設(shè)定的DOC上限值后,對(duì)網(wǎng)頁(yè)頁(yè)面的劃分結(jié)束。

參考圖1,其中,圖1(a)示出了一個(gè)HTML頁(yè)面的外觀,圖1(b)示出了使用VIPS算法對(duì)該HTML頁(yè)面進(jìn)行劃分后所得的各頁(yè)面塊的示意圖,其中,整個(gè)頁(yè)面最初被劃分為4個(gè)塊:VB1、VB2、VB3和VB4,而在設(shè)定的DOC上限值的控制下,VB1又被劃分為兩個(gè)子塊:VB1_1和VB1_2,其他塊的劃分情況也類似于此,具體可參考圖1(b)所示,此處不再詳述。

然而,VIPS只是對(duì)頁(yè)面進(jìn)行了劃分,無(wú)法判斷劃分后所得的各個(gè)部分的語(yǔ)義類型(如具體屬于題目、正文還是關(guān)鍵詞等);另外,VIPS算法需要對(duì)整個(gè)頁(yè)面進(jìn)行遍歷式劃分,這會(huì)導(dǎo)致即使是無(wú)關(guān)的區(qū)域(如頁(yè)眉、頁(yè)腳、邊欄)也要進(jìn)行大量無(wú)效的劃分操作;并且在根據(jù)DOC值進(jìn)行劃分粒度的控制時(shí),由于VIPS基于設(shè)定的DOC上限對(duì)整個(gè)網(wǎng)頁(yè)頁(yè)面進(jìn)行劃分,對(duì)于正文及題目來(lái)說(shuō),可能會(huì)分別出現(xiàn)劃分粒度太細(xì)及太粗的問(wèn)題,從而往往無(wú)法準(zhǔn)確地滿足信息抽取時(shí)所需的檢測(cè)粒度,因此,直接使用VIPS并不能解決網(wǎng)頁(yè)頁(yè)面中重要信息(如新聞?lì)}目、正文)的自動(dòng)識(shí)別、抽取問(wèn)題。

為此,本發(fā)明提出一種基于區(qū)域分割(自頂向下)的網(wǎng)頁(yè)信息抽取方法及裝置,該方法/裝置基于VIPS,但與現(xiàn)有VIPS不同的是,本發(fā)明方案在基于VIPS對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步劃分的基礎(chǔ)上,僅僅在特定區(qū)域(而非整個(gè)頁(yè)面區(qū)域)對(duì)網(wǎng)頁(yè)進(jìn)行細(xì)分,并且,根據(jù)待抽取部分(如新聞?lì)}目、正文、關(guān)鍵詞)在頁(yè)面中的視覺(jué)特征需求,以最終是否在頁(yè)面中發(fā)現(xiàn)待抽取部分為準(zhǔn)進(jìn)行頁(yè)面劃分粒度的控制,以避免過(guò)細(xì)或者過(guò)粗的劃分,從而確保較高的識(shí)別效率,接下來(lái),將通過(guò)多個(gè)實(shí)施例對(duì)本發(fā)明方案進(jìn)行詳細(xì)闡述。

實(shí)施例一

參考圖2,圖2示出了本發(fā)明的一種網(wǎng)頁(yè)信息抽取方法的流程圖,該方法可以包括以下步驟:

步驟201、基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的第一劃分標(biāo)準(zhǔn),將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊。

本實(shí)施例中,所述網(wǎng)頁(yè)指互聯(lián)網(wǎng)網(wǎng)頁(yè),其具體可以是諸如新聞、學(xué)術(shù)期刊、論文等各種類型的web網(wǎng)頁(yè)。網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素具體可以是網(wǎng)頁(yè)源文件如HTML網(wǎng)頁(yè)文件中的HTML元素。

此處,網(wǎng)頁(yè)中網(wǎng)頁(yè)元素的視覺(jué)信息,可以包括網(wǎng)頁(yè)元素在網(wǎng)頁(yè)中的布局位置、背景顏色、字體大小等布局信息,則該步驟201可以通過(guò)以下過(guò)程實(shí)現(xiàn):基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的布局特征信息,確定網(wǎng)頁(yè)頁(yè)面的各個(gè)分割線;依據(jù)所述分割線及預(yù)定的第一劃分標(biāo)準(zhǔn),將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊。

本步驟201具體利用VIPS,基于網(wǎng)頁(yè)中各HTML元素的布局信息,如布局位置、字體大小、背景顏色等對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步劃分,該初步劃分可以是基于VIPS所進(jìn)行的一輪或多于一輪的頁(yè)面分割。所劃分的輪數(shù)以預(yù)先制定的所述第一劃分標(biāo)準(zhǔn)為依據(jù)進(jìn)行確定。所述第一劃分標(biāo)準(zhǔn)具體為基于該步驟201對(duì)網(wǎng)頁(yè)進(jìn)行初步劃分時(shí)所需的劃分精細(xì)程度所制定的標(biāo)準(zhǔn)。

參考圖3(a)示出的網(wǎng)頁(yè)頁(yè)面,假設(shè)在基于VIPS對(duì)圖3(a)的頁(yè)面進(jìn)行一輪分割后,得到如圖3(b)所示的4個(gè)頁(yè)面塊VB1、VB2、VB3及VB4(即所述分割線為該頁(yè)面的所有分割線中的最粗分割線),且假設(shè)此輪劃分后所得的劃分結(jié)果達(dá)到所述第一劃分標(biāo)準(zhǔn)要求的精細(xì)程度,則本步驟的劃分操作結(jié)束,否則,如果未達(dá)到,則可基于VIPS對(duì)前一輪的劃分結(jié)果繼續(xù)進(jìn)行劃分,直至達(dá)到該第一劃分標(biāo)準(zhǔn)對(duì)應(yīng)的劃分精細(xì)程度為止,例如,可繼續(xù)將VB2劃分為VB2_1、VB2_2、VB2_3這3個(gè)子塊以實(shí)現(xiàn)更精細(xì)的劃分等。

在此基礎(chǔ)上,僅僅在初步劃分所得的各區(qū)域中的特定區(qū)域(而非整個(gè)頁(yè)面區(qū)域)對(duì)網(wǎng)頁(yè)進(jìn)行細(xì)分,并且,根據(jù)待抽取部分(如新聞?lì)}目、正文、關(guān)鍵詞)在頁(yè)面中的視覺(jué)特征需求,以最終是否在頁(yè)面中發(fā)現(xiàn)待抽取部分為準(zhǔn)進(jìn)行頁(yè)面劃分粒度的控制,進(jìn)而實(shí)現(xiàn)待抽取部分的識(shí)別和信息抽取。接下來(lái),將通過(guò)以下的各步驟實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)中的題目、正文及關(guān)鍵詞等待抽取部分進(jìn)行識(shí)別及信息抽取。

本實(shí)施例中,所述正文指網(wǎng)頁(yè)主體信息所對(duì)應(yīng)的網(wǎng)頁(yè)正文,如新聞網(wǎng)頁(yè)中的新聞?wù)牡?,所述題目及關(guān)鍵詞分別指與網(wǎng)頁(yè)正文相對(duì)應(yīng)的正文題目及正文關(guān)鍵詞,如與新聞?wù)膶?duì)應(yīng)的新聞?lì)}目及新聞關(guān)鍵詞等。

步驟202、從所述多于一個(gè)的頁(yè)面塊中確定出符合第一條件的至少一個(gè)第一頁(yè)面塊;其中,所述第一條件為基于正文題目在網(wǎng)頁(yè)頁(yè)面中的第一視覺(jué)特征需求信息所確定的條件。

所述第一視覺(jué)特征需求信息包括第一位置需求信息,所述第一位置需求信息具體為正文題目在網(wǎng)頁(yè)頁(yè)面中所處的位置需滿足的信息,該第一位置需求信息具體可基于正文題目在網(wǎng)頁(yè)頁(yè)面中的慣常布局特征來(lái)確定,例如,一般來(lái)說(shuō),正文題目在網(wǎng)頁(yè)頁(yè)面中所處的位置具有以下特征:在水平方向上處于頁(yè)面中部,在垂直方向上處于頁(yè)面中部或上部,基于此,所述第一位置需求信息即可以包含該位置特征信息,從而,基于包括該第一位置需求信息的所述第一視覺(jué)特征需求,所確定的所述第一條件可以為:在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部,垂直方向上處于網(wǎng)頁(yè)頁(yè)面的中部或上部。

步驟203、在所述至少一個(gè)第一頁(yè)面塊中搜索出與預(yù)先獲得的正文題目屬性值相匹配的題目元素,并從所述題目元素所在的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊,抽取所述題目塊中的題目信息。

所述預(yù)先獲得的正文題目屬性值,具體為從網(wǎng)頁(yè)源文件如HTML網(wǎng)頁(yè)文件的標(biāo)頭信息中所獲得的title屬性值。其中,標(biāo)頭是HTML頁(yè)面中用<header>標(biāo)簽包含的部分,在標(biāo)頭與HTML主體之間尚需空一行分割,HTML網(wǎng)頁(yè)文件的標(biāo)頭信息中一般包括title屬性值,即網(wǎng)頁(yè)的正文題目屬性值。

在此基礎(chǔ)上,該步驟具體可以通過(guò)以下過(guò)程實(shí)現(xiàn):從所述多于一個(gè)的頁(yè)面塊中,確定出在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第一位置需求信息的至少一個(gè)第一頁(yè)面塊;從所述至少一個(gè)第一頁(yè)面塊對(duì)應(yīng)的網(wǎng)頁(yè)源文件信息中,搜索出與預(yù)先從網(wǎng)頁(yè)源文件的標(biāo)頭信息中獲得的正文題目屬性值相匹配的題目元素,并在搜索成功時(shí)不再對(duì)所述至少一個(gè)第一頁(yè)面塊中未搜索的第一頁(yè)面塊進(jìn)行搜索。

該步驟可以通過(guò)以下過(guò)程實(shí)現(xiàn)從所述題目元素所在的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊:基于所述題目元素所在的第一頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第二劃分標(biāo)準(zhǔn),將所述題目元素所在的第一頁(yè)面塊劃分為多于一個(gè)的第一頁(yè)面塊子塊;確定出所述題目元素所在的第一頁(yè)面塊子塊;判斷所述題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素,若是,則確定出所述題目元素所在的第一頁(yè)面塊子塊為所述題目塊;若否,則繼續(xù)對(duì)所述題目元素所在的第一頁(yè)面塊子塊進(jìn)行劃分,直至確定出僅包含所述題目元素的題目塊為止。

在確定出題目塊的基礎(chǔ)上,可從該塊中抽取出相應(yīng)的題目信息,從而完成了題目部分的信息抽取。

步驟204、從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊,并抽取所述正文塊中的正文信息;其中,所述第二條件為基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的第二視覺(jué)特征需求信息所確定的條件,所述正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊。

具體地,所述第二條件所依據(jù)的第二視覺(jué)特征需求信息為:基于預(yù)設(shè)的候選正文視覺(jué)需求信息及正文文字在預(yù)定視覺(jué)特征上的相似度所確定的信息。

在此基礎(chǔ)上,可通過(guò)以下過(guò)程實(shí)現(xiàn)正文塊的確定:

從所述多于一個(gè)的頁(yè)面塊中確定出符合候選正文視覺(jué)需求信息的一個(gè)最小塊作為候選正文塊,所述候選正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊;從所述候選正文塊中確定出文字長(zhǎng)度最大的子塊作為正文種子塊;在所述候選正文塊中,若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊,且所述上位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,則合并所述正文種子塊及所述上位子塊,并將合并后所得的塊作為新的正文種子塊;在所述候選正文塊中,若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊,且所述下位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,則合并所述正文種子塊及所述下位子塊,并將合并后所得的塊作為新的正文種子塊,直至所述候選正文塊中不存在所述相似度不低于第二預(yù)定閾值的上位子塊及下位子塊為止,合并結(jié)束后所得的最新正文種子塊作為所述正文塊;其中,所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

其中,所述候選正文視覺(jué)需求信息包括:在網(wǎng)頁(yè)頁(yè)面中所占面積與網(wǎng)頁(yè)頁(yè)面總面積的比值不低于第一預(yù)定閾值,且在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第二位置需求信息。所述第二位置需求信息具體可基于正文在網(wǎng)頁(yè)頁(yè)面中的慣常布局特征來(lái)確定,例如,一般來(lái)說(shuō),正文在網(wǎng)頁(yè)頁(yè)面中所處的位置具有以下特征:在水平方向上處于頁(yè)面中部,在垂直方向上處于頁(yè)面中部或上部,基于此,所述第二位置需求信息即可包含該布局特征信息。

需要說(shuō)明書(shū)的是,本發(fā)明中某一頁(yè)面塊在某一方向上在網(wǎng)頁(yè)頁(yè)面中所處的位置(中部或上部等),具體可以以該頁(yè)面塊的幾何中心與整個(gè)頁(yè)面幾何中心的相對(duì)位置來(lái)衡量、確定,例如,塊A在垂直方向上處于頁(yè)面的中部或上部,相應(yīng)地,具體可以是塊A的幾何中心與頁(yè)面幾何中心在同一水平線上,或塊A的幾何中心在頁(yè)面幾何中心的上部。

當(dāng)確定出正文塊后,可從所述正文塊中抽取出相應(yīng)的正文信息,從而實(shí)現(xiàn)了正文信息的抽取。

步驟205、依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息,并結(jié)合正文關(guān)鍵詞在網(wǎng)頁(yè)頁(yè)面中的第三視覺(jué)特征需求信息,確定出關(guān)鍵詞塊,并抽取所述關(guān)鍵詞塊中的關(guān)鍵詞信息;所述關(guān)鍵詞塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊的子塊。

該步驟可以通過(guò)以下過(guò)程實(shí)現(xiàn):

基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的位置信息,及預(yù)定的第三劃分標(biāo)準(zhǔn),將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊;所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊;從各個(gè)候選關(guān)鍵詞塊中確定出符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊,所述關(guān)鍵詞塊為某一個(gè)候選關(guān)鍵詞塊或某一個(gè)候選關(guān)鍵詞塊的子塊;若未能從各個(gè)候選關(guān)鍵詞塊中確定出關(guān)鍵詞塊,則將處于所述正文塊正下方的塊作為新的候選關(guān)鍵詞總塊,并從所述新的候選關(guān)鍵詞總塊中確定符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊。

接下來(lái),會(huì)通過(guò)相應(yīng)實(shí)施例分別對(duì)從網(wǎng)頁(yè)中抽取題目、正文、關(guān)鍵詞的實(shí)現(xiàn)過(guò)程進(jìn)行詳細(xì)闡述。

由以上方案可知,本發(fā)明公開(kāi)的網(wǎng)頁(yè)信息抽取方法,在基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的位置信息及預(yù)定的劃分標(biāo)準(zhǔn),將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊的基礎(chǔ)上,通過(guò)基于待抽取部分在網(wǎng)頁(yè)頁(yè)面中對(duì)應(yīng)的相應(yīng)視覺(jué)特征需求信息,從劃分所得的各個(gè)頁(yè)面塊中確定出待抽取部分所對(duì)應(yīng)的信息塊,如基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征需求信息,從多于一個(gè)的頁(yè)面塊中確定出正文塊等,進(jìn)而在此基礎(chǔ)上,可實(shí)現(xiàn)從確定出的待抽取部分對(duì)應(yīng)的信息塊中進(jìn)行所需的信息抽取。可見(jiàn),本發(fā)明實(shí)現(xiàn)了一種基于網(wǎng)頁(yè)分割及待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征的網(wǎng)頁(yè)信息抽取方案,由于待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征具有較高的確定性,如正文題目一般在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部,在垂直方向上處于網(wǎng)頁(yè)的中上部等等,從而應(yīng)用本發(fā)明方案可有效提升網(wǎng)頁(yè)信息的提取準(zhǔn)確率。

實(shí)施例二

本實(shí)施二對(duì)從網(wǎng)頁(yè)中抽取題目信息的實(shí)現(xiàn)過(guò)程進(jìn)行詳述,參考圖4,具體可通過(guò)以下步驟實(shí)現(xiàn)網(wǎng)頁(yè)中題目信息的抽取:

步驟401、從所述多于一個(gè)的頁(yè)面塊中,確定出在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第一位置需求信息的至少一個(gè)第一頁(yè)面塊。

所述第一位置需求信息具體為正文題目在網(wǎng)頁(yè)頁(yè)面中所處的位置需滿足的信息,本實(shí)施例依據(jù)正文題目在網(wǎng)頁(yè)頁(yè)面中的慣常布局特征,將所述第一位置需求信息確定為:在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部,垂直方向上處于網(wǎng)頁(yè)頁(yè)面的中部或上部。

本步驟具體從對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步劃分所得的各個(gè)頁(yè)面塊中,確定出符合所述第一位置需求信息,即確定出在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部,垂直方向上處于網(wǎng)頁(yè)頁(yè)面的中部或上部的至少一個(gè)第一頁(yè)面塊。參考圖3(b),假設(shè)對(duì)網(wǎng)頁(yè)頁(yè)面初步劃分后所得的各頁(yè)面塊為VB1、VB2、VB3及VB4,則本步驟可確定出符合所述第一位置需求信息的頁(yè)面塊為VB1、VB2,也就是說(shuō)在VB1、VB2、VB3及VB4四個(gè)頁(yè)面塊中,一般情況下,正文題目?jī)H可能出現(xiàn)在VB1或VB2中,而不太可能出現(xiàn)在VB3、VB4中。

步驟402、從所述至少一個(gè)第一頁(yè)面塊對(duì)應(yīng)的網(wǎng)頁(yè)源文件信息中,搜索出與預(yù)先從網(wǎng)頁(yè)源文件的標(biāo)頭信息中獲得的正文題目屬性值相匹配的題目元素,并在搜索成功時(shí)不再對(duì)所述至少一個(gè)第一頁(yè)面塊中未搜索的第一頁(yè)面塊進(jìn)行搜索。

所述預(yù)先獲得的正文題目屬性值,具體為從網(wǎng)頁(yè)源文件如HTML網(wǎng)頁(yè)文件的標(biāo)頭信息中所獲得的title屬性值。

由于正文題目一般在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部,垂直方向上處于網(wǎng)頁(yè)頁(yè)面的中部或上部,因此,本步驟僅從符合該位置需求(即第一位置需求信息)的一個(gè)或多于一個(gè)的頁(yè)面塊中,搜索與預(yù)先獲得的正文題目屬性值相匹配的題目元素,如對(duì)于圖3(b)中初步劃分所得的VB1、VB2、VB3、VB4四個(gè)塊,僅對(duì)VB1、VB2進(jìn)行搜索,具體地,可從VB1、VB2在HTML網(wǎng)頁(yè)文件中對(duì)應(yīng)的部分搜索具有標(biāo)題標(biāo)識(shí)的相關(guān)元素,如搜索h1/h2元素等,由于在HTML網(wǎng)頁(yè)文件中具有標(biāo)題標(biāo)識(shí)的元素可能是正文題目元素,也可能是一些非正文題目的元素,如廣告題目對(duì)應(yīng)的HTML元素等,從而在搜索出h1/h2元素時(shí),需判斷該元素的內(nèi)容與title屬性值的編輯距離是否低于預(yù)定的距離閾值,如果低于,則表示搜索出的h1/h2元素的內(nèi)容與預(yù)先獲得的title屬性值相匹配,從而搜索成功。

一旦搜索成功,則不再繼續(xù)對(duì)符合第一位置需求信息的頁(yè)面塊中未搜索的塊進(jìn)行搜索,以提高搜索效率,避免對(duì)無(wú)效區(qū)域進(jìn)行操作,例如,假設(shè)在從VB2(VB2在HTML網(wǎng)頁(yè)文件中對(duì)應(yīng)的部分)中搜索出與所述title屬性值相匹配的題目元素即h1/h2元素后,則不再繼續(xù)對(duì)VB1進(jìn)行搜索。

步驟403、基于所述題目元素所在的第一頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第二劃分標(biāo)準(zhǔn),將所述題目元素所在的第一頁(yè)面塊劃分為多于一個(gè)的第一頁(yè)面塊子塊。

在確定出題目元素所在的第一頁(yè)面塊后,繼續(xù)依據(jù)該頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第二劃分標(biāo)準(zhǔn)對(duì)該頁(yè)面塊進(jìn)行劃分,而對(duì)于其他不包含題目元素的頁(yè)面塊則不執(zhí)行劃分操作。

所述第二劃分標(biāo)準(zhǔn)具體為:根據(jù)對(duì)題目元素所在的第一頁(yè)面塊進(jìn)行劃分時(shí)實(shí)際所需的劃分精細(xì)程度所制定的標(biāo)準(zhǔn)。該步驟具體可依據(jù)所述第二劃分標(biāo)準(zhǔn),利用VIPS對(duì)題目元素所在的第一頁(yè)面塊進(jìn)行一輪或多于一輪的分割操作。

步驟404、確定出所述題目元素所在的第一頁(yè)面塊子塊。

在對(duì)題目元素所在的第一頁(yè)面塊進(jìn)行分割,得到各個(gè)第一頁(yè)面塊子塊的基礎(chǔ)上,本步驟繼續(xù)從分割所得的各個(gè)第一頁(yè)面塊子塊中對(duì)題目元素進(jìn)行搜索,以確定題目元素所在的子塊。一旦搜索成功,則不再繼續(xù)對(duì)其他未搜索的子塊進(jìn)行搜索。

步驟405、判斷所述題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素。

步驟406、若是,則確定出所述題目元素所在的第一頁(yè)面塊子塊為所述題目塊。

步驟407、若否,則繼續(xù)對(duì)所述題目元素所在的第一頁(yè)面塊子塊進(jìn)行劃分,直至確定出僅包含所述題目元素的題目塊為止。

在以上步驟基礎(chǔ)上,步驟405判斷題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素,若是,則表示該子塊為包含題目元素的最小頁(yè)面塊,從而可確定出該子塊即為題目塊,最終可對(duì)該題目塊進(jìn)行信息抽取,并將抽取出的信息作為題目信息。

否則,若該子塊并非僅包含所述題目元素,則繼續(xù)對(duì)該子塊進(jìn)行劃分,直至確定出僅包含所述題目元素的題目塊為止。其中,該步驟的劃分過(guò)程與步驟403的劃分過(guò)程類似,是對(duì)步驟403的劃分過(guò)程的遞歸應(yīng)用,具體參考步驟403的描述即可,此處不再進(jìn)行詳述。

參考圖5所示,采用本實(shí)施例的題目抽取方案,當(dāng)將網(wǎng)頁(yè)頁(yè)面初步分割為VB1,VB2,VB3和VB4之后,由于在VB2中發(fā)現(xiàn)與預(yù)先獲得的title屬性值相匹配的題目元素,從而其他頁(yè)面塊無(wú)需進(jìn)一步劃分,而僅需對(duì)VB2進(jìn)行繼續(xù)展開(kāi),如圖5所示,將VB2繼續(xù)劃分為VB2_1、VB2_2和VB2_3,并在VB2_2中發(fā)現(xiàn)題目元素,類似地,繼續(xù)對(duì)VB2_2進(jìn)行劃分,得到VB2_2_1和VB2_2_2,繼續(xù)對(duì)VB2_2_1進(jìn)行劃分,得到VB2_2_1_1及VB2_2_1_2,直到發(fā)現(xiàn)VB2_2_1_1僅包含題目元素,從而確定出VB2_2_1_1是題目塊,最終抽取該VB2_2_1_1塊的信息作為題目信息。

通過(guò)本實(shí)施例的方案,可實(shí)現(xiàn)準(zhǔn)確、有效地對(duì)網(wǎng)頁(yè)中的題目信息進(jìn)行抽取,且可避免對(duì)其他無(wú)效區(qū)域(相對(duì)于題目而言的無(wú)效)進(jìn)行操作,確保了較高的信息抽取效率。

實(shí)施例三

本實(shí)施三對(duì)從網(wǎng)頁(yè)中抽取正文信息的實(shí)現(xiàn)過(guò)程進(jìn)行詳述,參考圖6,具體可通過(guò)以下步驟實(shí)現(xiàn)網(wǎng)頁(yè)中題目信息的抽?。?/p>

步驟601、從所述多于一個(gè)的頁(yè)面塊中確定出符合候選正文視覺(jué)需求信息的一個(gè)最小塊作為候選正文塊,所述候選正文視覺(jué)需求信息包括:在網(wǎng)頁(yè)頁(yè)面中所占面積與網(wǎng)頁(yè)頁(yè)面總面積的比值不低于第一預(yù)定閾值,且在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第二位置需求信息;所述候選正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊。

本實(shí)施例通過(guò)從對(duì)網(wǎng)頁(yè)頁(yè)面進(jìn)行初步劃分所得的各個(gè)頁(yè)面塊中,確定出符合候選正文視覺(jué)需求信息的最小塊,并將其作為候選正文塊,在此基礎(chǔ)上,通過(guò)對(duì)候選正文塊進(jìn)行操作,實(shí)現(xiàn)從候選正文塊中確定出最終的正文塊。其中,候選正文塊的任何子塊(如按VIPS對(duì)候選正文塊繼續(xù)劃分后所得的各個(gè)子塊)不符合所述候選正文視覺(jué)需求信息的要求。

一般來(lái)說(shuō),網(wǎng)頁(yè)正文如新聞?wù)牡葧?huì)在頁(yè)面中占據(jù)相當(dāng)大一部分比例(如20%以上),且一般在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部,在垂直方向上處于網(wǎng)頁(yè)的中部或上部,基于此,本實(shí)施例將所述候選正文視覺(jué)需求信息確定為:在網(wǎng)頁(yè)頁(yè)面中所占面積與網(wǎng)頁(yè)頁(yè)面總面積的比值不低于第一預(yù)定閾值,且在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第二位置需求信息。

其中,由于后續(xù)需要從該候選正文塊中確定出最終的正文塊,從而所確定出的所述候選正文塊至少需包含正文塊,基于此,所述第一預(yù)定閾值一般為一個(gè)較大的數(shù)值,如可以是依據(jù)經(jīng)驗(yàn)所確定的正文面積占整個(gè)頁(yè)面面積的比例上限值;所述第二位置需求信息即為:在水平方向上處于網(wǎng)頁(yè)頁(yè)面的中部,在垂直方向上處于網(wǎng)頁(yè)的中部或上部。

如圖5所示,依據(jù)所述候選正文視覺(jué)需求信息,可確定出圖5對(duì)應(yīng)的頁(yè)面中VB2_2_2為符合該需求信息的最小塊,從而該VB2_2_2塊即為候選正文塊。

步驟602、從所述候選正文塊中確定出文字長(zhǎng)度最大的子塊作為正文種子塊。

在確定出候選正文塊的基礎(chǔ)上,繼續(xù)對(duì)該候選正文塊進(jìn)行操作,實(shí)現(xiàn)從中確定出正文塊,而對(duì)于其他無(wú)關(guān)的塊(相對(duì)于正文而言)則不再執(zhí)行相應(yīng)操作。

具體的,可首先基于VIPS對(duì)該候選正文塊進(jìn)行劃分,得到候選正文塊的各個(gè)子塊,之后,從候選正文塊的各個(gè)子塊中找到文字長(zhǎng)度最大的子塊作為正文種子塊,比如,對(duì)圖5中候選正文塊VB2_2_2進(jìn)行劃分后,可得到如圖7所示的該候選正文塊的各個(gè)子塊:VB2_2_2_1、VB2_2_2_2、VB2_2_2_3、VB2_2_2_4和VB2_2_2_5,其中,VB2_2_2_4是文字長(zhǎng)度最大的子塊,從而可將VB2_2_2_4確定為正文種子塊。

步驟603、在所述候選正文塊中,若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊,且所述上位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,則合并所述正文種子塊及所述上位子塊,并將合并后所得的塊作為新的正文種子塊。

正文文字間在文字密度、字體大小和/或背景顏色等方面具有較高的相似性,基于此,本實(shí)施例中,所述預(yù)定視覺(jué)特征上的相似度可以指在文字密度、字體大小和/或背景顏色等方面的相似度。所述第二預(yù)定閾值可以是基于經(jīng)驗(yàn)所確定的正文信息在上述相應(yīng)視覺(jué)特征上的相似度下限值。

在所述候選正文塊中,如果正文種子塊的上部存在與其相鄰的上位子塊,且該上位子塊與正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,比如該上位子塊的文字密度不小于正文種子塊文字密度的30%(假設(shè)此時(shí)兩者在文字密度的相似度不低于所述第二預(yù)定閾值),則將所述正文種子塊及所述上位子塊進(jìn)行合并,得到新的正文種子塊。

步驟604、在所述候選正文塊中,若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊,且所述下位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,則合并所述正文種子塊及所述下位子塊,并將合并后所得的塊作為新的正文種子塊,直至所述候選正文塊中不存在所述相似度不低于第二預(yù)定閾值的上位子塊及下位子塊為止,合并結(jié)束后所得的最新正文種子塊作為所述正文塊;其中,所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

相對(duì)應(yīng)地,如果正文種子塊的下部存在與其相鄰的下位子塊,且該下位子塊與正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,比如該下位子塊的文字密度不小于正文種子塊文字密度的30%(假設(shè)此時(shí)兩者在文字密度的相似度不低于所述第二預(yù)定閾值),則將所述正文種子塊及所述下位子塊進(jìn)行合并,得到新的正文種子塊。

本實(shí)施例通過(guò)迭代執(zhí)行上述合并過(guò)程獲得最終的正文塊,其中迭代過(guò)程直至不存在符合上述要求的上位子塊及下位子塊時(shí)結(jié)束。迭代結(jié)束時(shí)所得的最新的正文種子塊即為最終的正文塊。從而,在此基礎(chǔ)上,可抽取該正文塊的信息作為網(wǎng)頁(yè)的正文信息。

仍以圖7為例,當(dāng)確定出文字長(zhǎng)度最大的子塊VB2_2_2_4初步作為正文種子塊后,向上,VB2_2_2_4和VB2_2_2_3合并成新的正文種子塊;向下,所述新的正文種子塊(即VB2_2_2_4加VB2_2_2_3)與VB2_2_2_5繼續(xù)合并成新的正文種子塊,而對(duì)于候選正文塊中包括的圖片部分,鑒于其與參與合并的文字類子塊具有相似的位置特征(均在水平方向上處于網(wǎng)頁(yè)中部,垂直方向上處于網(wǎng)頁(yè)中上部),考慮其極有可能是正文配圖,會(huì)對(duì)用戶閱讀網(wǎng)頁(yè)正文產(chǎn)生較大的輔助作用,因此,本實(shí)施例優(yōu)選地,針對(duì)圖片部分的子塊,不必滿足上述文字類子塊合并時(shí)需滿足的要求,直接將其合并至正文塊即可,從而最后合并后可得到正文塊VB2_2_2。

本實(shí)施例實(shí)現(xiàn)了基于網(wǎng)頁(yè)正文的視覺(jué)特征信息對(duì)網(wǎng)頁(yè)正文進(jìn)行抽取,正文識(shí)別及抽取的準(zhǔn)確率較高,且避免了對(duì)無(wú)效區(qū)域進(jìn)行操作,能夠確保一較高的抽取效率。

實(shí)施例四

本實(shí)施四對(duì)從網(wǎng)頁(yè)中抽取關(guān)鍵詞的實(shí)現(xiàn)過(guò)程進(jìn)行詳述,參考圖8,具體可通過(guò)以下步驟實(shí)現(xiàn)網(wǎng)頁(yè)中關(guān)鍵詞信息的抽?。?/p>

步驟801、依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息,確定出候選關(guān)鍵詞總塊,所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊。

一般來(lái)說(shuō),在網(wǎng)頁(yè)頁(yè)面中,多數(shù)情況下,正文關(guān)鍵詞處于正文題目與正文之間,少數(shù)情況下,正文關(guān)鍵詞處于正文的正下方,如具體處于正文正下方的偏左部分或正文正下方的偏右部分等。

基于此,本實(shí)施例依據(jù)確定出的題目塊及正文塊在頁(yè)面中的視覺(jué)信息,如具體所處的位置等,來(lái)定位出一候選關(guān)鍵詞總塊,如在圖7中,可確定出候選關(guān)鍵詞總塊為處于題目塊VB2_2_1_1與正文塊VB2_2_2之間的塊VB2_2_1_2,后續(xù)通過(guò)對(duì)該候選關(guān)鍵詞總塊進(jìn)行分割,并依據(jù)關(guān)鍵詞對(duì)應(yīng)的視覺(jué)特征需求從分割所得的各子塊中確定出關(guān)鍵詞塊。

步驟802、基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第三劃分標(biāo)準(zhǔn),將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊;所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊。

其中,可基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第三劃分標(biāo)準(zhǔn),將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊;候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息可以包括:候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的布局位置、間距(如詞間距)、背景顏色、字體大小等布局信息;所述第三劃分標(biāo)準(zhǔn)具體為基于對(duì)候選關(guān)鍵詞總塊進(jìn)行劃分時(shí)實(shí)際所需的劃分精細(xì)程度所制定的標(biāo)準(zhǔn)。

實(shí)際劃分時(shí),可采用VIPS并結(jié)合所述第三劃分標(biāo)準(zhǔn),對(duì)所述候選關(guān)鍵詞總塊進(jìn)行所需的一輪或多于一輪的分割,得到各個(gè)候選關(guān)鍵詞塊。

參考圖9,當(dāng)依據(jù)本實(shí)施例方法,從題目塊VB2_2_1_1與正文塊VB2_2_2之間確定出候選關(guān)鍵詞總塊VB2_2_1_2之后,可將該候選關(guān)鍵詞總塊VB2_2_1_2基于VIPS繼續(xù)劃分為VB2_2_1_2_1和VB2_2_1_2_2。其中,通過(guò)與圖3(a)的實(shí)際頁(yè)面對(duì)比可知,VB2_2_1_2_1實(shí)際對(duì)應(yīng)作者和日期信息,VB2_2_1_2_2實(shí)際對(duì)應(yīng)關(guān)鍵詞信息,后續(xù)通過(guò)依據(jù)關(guān)鍵詞需滿足的第三視覺(jué)特征需求信息對(duì)這兩個(gè)塊加以識(shí)別。

步驟803、從各個(gè)候選關(guān)鍵詞塊中確定出符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊,所述關(guān)鍵詞塊為某一個(gè)候選關(guān)鍵詞塊或某一個(gè)候選關(guān)鍵詞塊的子塊。

網(wǎng)頁(yè)的正文關(guān)鍵詞信息一般對(duì)應(yīng)一個(gè)包含多個(gè)關(guān)鍵詞的關(guān)鍵詞列表(該列表一般至少包括3個(gè)關(guān)鍵詞),關(guān)鍵詞列表中的各關(guān)鍵詞具有較為相似的視覺(jué)特征,例如,一般情況下,各關(guān)鍵詞采用相同的字體,背景顏色,且各個(gè)關(guān)鍵詞中相鄰關(guān)鍵詞間的詞間距相同,基于此,本實(shí)施例中,所述第三視覺(jué)特征需求信息即可以是包含上述關(guān)鍵詞特征的信息。

本步驟具體從各個(gè)候選關(guān)鍵詞塊中確定出符合所述第三視覺(jué)特征需求信息的候選關(guān)鍵詞塊,并判斷確定出的該候選關(guān)鍵詞塊是否僅包含符合所述第三視覺(jué)特征需求信息的關(guān)鍵詞列表,如果否,則繼續(xù)對(duì)該候選關(guān)鍵詞塊進(jìn)行基于VIPS的劃分,直至確定出一個(gè)僅包含符合所述第三視覺(jué)特征需求信息的關(guān)鍵詞列表的塊為止,則該塊即為關(guān)鍵詞塊。之后,可通過(guò)抽取該關(guān)鍵詞塊中的關(guān)鍵詞列表信息,來(lái)實(shí)現(xiàn)關(guān)鍵詞信息的抽取。

由于在網(wǎng)頁(yè)頁(yè)面中,每個(gè)關(guān)鍵詞一般都會(huì)對(duì)應(yīng)包含一個(gè)鏈接,該鏈接要么帶有關(guān)鍵詞標(biāo)識(shí),如該鏈接具體在HTML網(wǎng)頁(yè)文件中直接對(duì)應(yīng)有“tag|key”字樣,要么擁有一個(gè)class屬性并且屬性內(nèi)容中帶有“tag|key”字樣。也就是說(shuō),每個(gè)正文關(guān)鍵詞在HTML文件中均會(huì)對(duì)應(yīng)一個(gè)關(guān)鍵詞標(biāo)識(shí)(反過(guò)來(lái),帶有關(guān)鍵詞標(biāo)識(shí)的元素不一定對(duì)應(yīng)正文關(guān)鍵詞,可能對(duì)應(yīng)廣告詞等非正文關(guān)鍵詞的信息),基于此,在本發(fā)明其他實(shí)施例中,還可通過(guò)查驗(yàn)所確定出的各關(guān)鍵詞的關(guān)鍵詞標(biāo)識(shí)來(lái)驗(yàn)證關(guān)鍵詞的正確性,一般來(lái)說(shuō),如果確定出的關(guān)鍵詞不存在關(guān)鍵詞標(biāo)識(shí),則可獲知該關(guān)鍵詞存在誤判,需重新確定及抽取關(guān)鍵詞。

另外,在本發(fā)明其他實(shí)施例中,還可通過(guò)將所述第三視覺(jué)特征需求信息以及存在關(guān)鍵詞標(biāo)識(shí),共同作為關(guān)鍵詞的確定依據(jù),來(lái)進(jìn)行候選關(guān)鍵詞總塊的區(qū)域劃分以及在此基礎(chǔ)上的關(guān)鍵詞塊的確定。

如圖9所示,通過(guò)對(duì)塊VB2_2_1_2_2進(jìn)行劃分處理,可知該塊由一系列具有相似特征的子塊VB2_2_1_2_2_1、VB2_2_1_2_2_2、VB2_2_1_2_2_3和VB2_2_1_2_2_4(圖9中未標(biāo)出,具體為圖9中VB2_2_1_2_2包括的四個(gè)子塊)構(gòu)成,具體地,各子塊中的字體大小相同、背景顏色相同、且相鄰子塊間的間距相同,從而識(shí)別出塊VB2_2_1_2_2即為關(guān)鍵詞塊,最終通過(guò)抽取該塊中各子塊的信息即可實(shí)現(xiàn)正文關(guān)鍵詞信息的抽取。

步驟804、若未能從各個(gè)候選關(guān)鍵詞塊中確定出關(guān)鍵詞塊,則將處于所述正文塊正下方的塊作為新的候選關(guān)鍵詞總塊,并從所述新的候選關(guān)鍵詞總塊中確定符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊。

如果從處于題目塊及正文塊之間的所述候選關(guān)鍵詞總塊中未確定出符合要求的關(guān)鍵詞塊,則繼續(xù)將正文塊正下方的塊作為新的候選關(guān)鍵詞總塊,并按上述從候選關(guān)鍵詞總塊中確定出關(guān)鍵詞塊的實(shí)現(xiàn)過(guò)程,對(duì)該新的候選關(guān)鍵詞總塊進(jìn)行處理,直至確定出符合要求的關(guān)鍵詞塊(或最終仍未確定出關(guān)鍵詞塊)為止,進(jìn)而在此基礎(chǔ)上實(shí)現(xiàn)關(guān)鍵詞信息的抽取(或在未確定出關(guān)鍵詞塊的情況下抽取失敗)。

本發(fā)明基于待抽取部分在網(wǎng)頁(yè)頁(yè)面中的視覺(jué)特征信息,可以準(zhǔn)確、高效地對(duì)正文題目、網(wǎng)頁(yè)正文及正文關(guān)鍵詞等各個(gè)待抽取部分進(jìn)行基于頁(yè)面分割的信息識(shí)別及信息抽取,在對(duì)頁(yè)面進(jìn)行分割時(shí),可基于是否找到待抽取部分對(duì)頁(yè)面進(jìn)行劃分粒度的控制,從而實(shí)現(xiàn)了頁(yè)面劃分粒度的按需控制,且在對(duì)頁(yè)面進(jìn)行分割時(shí),可避免對(duì)待抽取部分所在區(qū)域以外的其他無(wú)效區(qū)域進(jìn)行分割,有效提高了基于頁(yè)面分割的網(wǎng)頁(yè)信息抽取效率。

實(shí)施例五

本實(shí)施例五公開(kāi)一種網(wǎng)頁(yè)信息抽取裝置,參考圖10示出的網(wǎng)頁(yè)信息抽取裝置的結(jié)構(gòu)示意圖,該裝置包括:

第一劃分單元101,用于基于網(wǎng)頁(yè)中各網(wǎng)頁(yè)元素的視覺(jué)信息及預(yù)定的第一劃分標(biāo)準(zhǔn),將網(wǎng)頁(yè)頁(yè)面劃分為多于一個(gè)的頁(yè)面塊;確定單元102,用于從所述多于一個(gè)的頁(yè)面塊中確定出符合第一條件的至少一個(gè)第一頁(yè)面塊;其中,所述第一條件為基于正文題目在網(wǎng)頁(yè)頁(yè)面中的第一視覺(jué)特征需求信息所確定的條件;第一抽取單元103,用于在所述至少一個(gè)第一頁(yè)面塊中搜索出與預(yù)先獲得的正文題目屬性值相匹配的題目元素,并從所述題目元素所在的第一頁(yè)面塊中確定出僅包含所述題目元素的題目塊,抽取所述題目塊中的題目信息;第二抽取單元104,用于從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊,并抽取所述正文塊中的正文信息;其中,所述第二條件為基于網(wǎng)頁(yè)正文在網(wǎng)頁(yè)頁(yè)面中的第二視覺(jué)特征需求信息所確定的條件,所述正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊;第三抽取單元105,用于依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息,并結(jié)合正文關(guān)鍵詞在網(wǎng)頁(yè)頁(yè)面中的第三視覺(jué)特征需求信息,確定出關(guān)鍵詞塊,并抽取所述關(guān)鍵詞塊中的關(guān)鍵詞信息;所述關(guān)鍵詞塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊的子塊。

在本發(fā)明實(shí)施例的一實(shí)施方式中,所述確定單元,進(jìn)一步用于:從所述多于一個(gè)的頁(yè)面塊中,確定出在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第一位置信息的至少一個(gè)第一頁(yè)面塊;

所述第一抽取單元,進(jìn)一步用于:

從所述至少一個(gè)第一頁(yè)面塊對(duì)應(yīng)的網(wǎng)頁(yè)源文件信息中,搜索出與預(yù)先從網(wǎng)頁(yè)源文件的標(biāo)頭信息中獲得的正文題目屬性值相匹配的題目元素,并在搜索成功時(shí)不再對(duì)所述至少一個(gè)第一頁(yè)面塊中未搜索的第一頁(yè)面塊進(jìn)行搜索;基于所述題目元素所在的第一頁(yè)面塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第二劃分標(biāo)準(zhǔn),將所述題目元素所在的第一頁(yè)面塊劃分為多于一個(gè)的第一頁(yè)面塊子塊;確定出所述題目元素所在的第一頁(yè)面塊子塊;判斷所述題目元素所在的第一頁(yè)面塊子塊是否僅包含所述題目元素,若是,則確定出所述題目元素所在的第一頁(yè)面塊子塊為所述題目塊;若否,則繼續(xù)對(duì)所述題目元素所在的第一頁(yè)面塊子塊進(jìn)行劃分,直至確定出僅包含所述題目元素的題目塊為止。

在本發(fā)明實(shí)施例的一實(shí)施方式中,所述第二抽取單元從所述多于一個(gè)的頁(yè)面塊中確定出符合第二條件的正文塊,進(jìn)一步包括:

從所述多于一個(gè)的頁(yè)面塊中確定出符合候選正文視覺(jué)需求信息的一個(gè)最小塊作為候選正文塊,所述候選正文視覺(jué)需求信息包括:在網(wǎng)頁(yè)頁(yè)面中所占面積與網(wǎng)頁(yè)頁(yè)面總面積的比值不低于第一預(yù)定閾值,且在網(wǎng)頁(yè)頁(yè)面中所處的位置符合第二位置需求信息;所述候選正文塊為所述多于一個(gè)的頁(yè)面塊中的某一個(gè)頁(yè)面塊或某一個(gè)頁(yè)面塊的子塊;從所述候選正文塊中確定出文字長(zhǎng)度最大的子塊作為正文種子塊;在所述候選正文塊中,若所述正文種子塊的上部存在與所述正文種子塊相鄰的上位子塊,且所述上位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,則合并所述正文種子塊及所述上位子塊,并將合并后所得的塊作為新的正文種子塊;在所述候選正文塊中,若所述正文種子塊的下部存在與所述正文種子塊相鄰的下位子塊,且所述下位子塊與所述正文種子塊在預(yù)定視覺(jué)特征上的相似度不低于第二預(yù)定閾值,則合并所述正文種子塊及所述下位子塊,并將合并后所得的塊作為新的正文種子塊,直至所述候選正文塊中不存在所述相似度不低于第二預(yù)定閾值的上位子塊及下位子塊為止,合并結(jié)束后所得的最新正文種子塊作為所述正文塊;其中,所述上位子塊及所述下位子塊為所述候選正文塊的子塊。

在本發(fā)明實(shí)施例的一實(shí)施方式中,所述第三抽取單元確定出關(guān)鍵詞塊,進(jìn)一步包括:

依據(jù)所述題目塊和所述正文塊在頁(yè)面中對(duì)應(yīng)的視覺(jué)信息,確定出候選關(guān)鍵詞總塊,所述候選關(guān)鍵詞總塊為網(wǎng)頁(yè)頁(yè)面中處于所述題目塊及所述正文塊之間的塊;基于候選關(guān)鍵詞總塊中各網(wǎng)頁(yè)元素的視覺(jué)信息,及預(yù)定的第三劃分標(biāo)準(zhǔn),將所述候選關(guān)鍵詞總塊劃分為多于一個(gè)的候選關(guān)鍵詞塊;從各個(gè)候選關(guān)鍵詞塊中確定出符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊,所述關(guān)鍵詞塊為某一個(gè)候選關(guān)鍵詞塊或某一個(gè)候選關(guān)鍵詞塊的子塊;若未能從各個(gè)候選關(guān)鍵詞塊中確定出關(guān)鍵詞塊,則將處于所述正文塊正下方的塊作為新的候選關(guān)鍵詞總塊,并從所述新的候選關(guān)鍵詞總塊中確定符合第三視覺(jué)特征需求信息的關(guān)鍵詞塊。

此處,需要說(shuō)明的是,本實(shí)施例涉及的網(wǎng)頁(yè)信息抽取裝置的描述,與上文各實(shí)施例方法的描述是類似的,且同方法的有益效果描述,對(duì)于本發(fā)明的網(wǎng)頁(yè)信息抽取裝置在本實(shí)施例中未披露的技術(shù)細(xì)節(jié),請(qǐng)參照本發(fā)明方法實(shí)施例的說(shuō)明,本實(shí)施對(duì)此不再作贅述。

需要說(shuō)明的是,本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。

為了描述的方便,描述以上系統(tǒng)或裝置時(shí)以功能分為各種模塊或單元分別描述。當(dāng)然,在實(shí)施本申請(qǐng)時(shí)可以把各單元的功能在同一個(gè)或多個(gè)軟件和/或硬件中實(shí)現(xiàn)。

通過(guò)以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請(qǐng)可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)。基于這樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤(pán)等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。

最后,還需要說(shuō)明的是,在本文中,諸如第一、第二、第三和第四等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
棋牌| 铜川市| 铁岭市| 巴塘县| 红河县| 岗巴县| 六安市| 界首市| 丹阳市| 子长县| 织金县| 阿城市| 曲沃县| 横山县| 铜梁县| 苏州市| 潞西市| 泸水县| 永寿县| 枣庄市| 共和县| 乾安县| 三江| 宜宾市| 凤山市| 辉南县| 海门市| 栾川县| 黎川县| 铜梁县| 策勒县| 灵璧县| 灵丘县| 呼图壁县| 长海县| 兴义市| 桂阳县| 呼和浩特市| 洞头县| 策勒县| 平泉县|