欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種新聞列表區(qū)域的確定方法及裝置與流程

文檔序號:12550819閱讀:238來源:國知局
一種新聞列表區(qū)域的確定方法及裝置與流程

本發(fā)明涉信息處理技術(shù)領(lǐng)域,尤其涉及一種新聞列表區(qū)域的確定方法及裝置。



背景技術(shù):

在互聯(lián)網(wǎng)新聞聚合應(yīng)用中,需要使用爬蟲爬取大量的新聞網(wǎng)站,然后將相關(guān)的新聞聚合在一起,并根據(jù)用戶的閱讀習(xí)慣建立起用戶的興趣模型,并將新聞推送給對這些主題感興趣的用戶。

新聞網(wǎng)站一般包括新聞首頁和新聞頁面兩種不同的頁面,新聞首頁中一般會包含一個最新更新新聞的新聞列表,為了獲取最新的新聞,爬取系統(tǒng)需要自動地確定新聞列表,即需要確定新聞列表區(qū)域。但是,確定新聞列表區(qū)域不是一個容易的問題,這是因為,新聞首頁中,除了新聞列表之外,還包括主菜單、廣告條、版權(quán)信息等無關(guān)的因素。

傳統(tǒng)爬蟲在確定新聞列表時,會將非新聞列表如廣告列表等也作為新聞列表識別并爬取出來,這導(dǎo)致新聞列表的識別準確率較低,并且,在將新聞推送至用戶時,由于推送的內(nèi)容中除了包含新聞列表外,還包含了非新聞列表,而冗余的非新聞列表導(dǎo)致大量的網(wǎng)絡(luò)資源被浪費。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明提供了一種新聞列表區(qū)域的確定方法及裝置,用以解決傳統(tǒng)爬蟲在確定新聞列表時,會將非新聞列表如廣告列表等也作為新聞列表識別并爬取出來,從而導(dǎo)致新聞列表的識別準確率較低,且在將新聞推送至用戶時,冗余的非新聞列表導(dǎo)致大量的網(wǎng)絡(luò)資源被浪費的問題,其技術(shù)方案如下:

一種新聞列表區(qū)域的確定方法,所述方法包括:

判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊;

當所述目標頁面塊中包含所述滿足預(yù)設(shè)分割條件的頁面子塊時,將所述滿足預(yù)設(shè)分割條件的頁面子塊作為目標頁面塊分割為多個頁面子塊,轉(zhuǎn)入執(zhí)行所述判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊;

當所述目標頁面塊中不包含滿足所述預(yù)設(shè)分割條件的頁面子塊時,基于所述目標頁面塊中的頁面子塊判斷所述目標頁面塊是否滿足預(yù)設(shè)新聞列表判定條件,當所述目標頁面塊滿足所述預(yù)設(shè)新聞列表判定條件時,將所述目標頁面塊確定為新聞列表區(qū)域。

其中,所述判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊,包括:

在所述目標頁面塊中查找在目標頁面中所占比例大于預(yù)設(shè)值,且在所述目標頁面中的位置滿足預(yù)設(shè)位置條件的頁面子塊,獲得查找結(jié)果;

當所述查找結(jié)果表明在所述目標頁面塊中查找到在所述目標頁面中所占比例大于所述預(yù)設(shè)值,且在所述目標頁面中的位置滿足所述預(yù)設(shè)位置條件的頁面子塊時,判定所述目標頁面塊中包含滿足所述預(yù)設(shè)分割條件的頁面子塊。

其中,所述預(yù)設(shè)位置條件為:在水平方向上位于所述目標頁面的中部,且在垂直方向上位于所述目標頁面的中部或上部。

其中,所述將所述目標頁面塊分割為多個頁面子塊,包括:

基于VIPS算法將所述目標頁面塊進行一次分割,獲得所述多個頁面子塊。

其中,當所述目標頁面塊中滿足所述預(yù)設(shè)分割條件的頁面子塊為多個時,所述將所述滿足預(yù)設(shè)分割條件的頁面子塊作為目標頁面塊分割為多個頁面子塊,執(zhí)行所述判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊,包括:

當所述目標頁面塊中滿足所述預(yù)設(shè)分割條件的頁面子塊為多個時,對于每個所述滿足預(yù)設(shè)分割條件的頁面子塊,將該頁面子塊作為目標頁面塊分割為多個頁面子塊,執(zhí)行所述判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊。

其中,所述基于所述目標頁面塊中的多個頁面子塊判斷所述目標頁面塊是否滿足預(yù)設(shè)新聞列表判定條件,包括:

判斷所述目標頁面塊中頁面子塊的數(shù)量是否大于或等于預(yù)設(shè)數(shù)量;

當所述目標頁面塊中頁面子塊的數(shù)量大于或等于所述預(yù)設(shè)數(shù)量時,判斷所述目標頁面塊中的各個頁面子塊是否同時滿足三個預(yù)設(shè)條件,當所述目標頁面塊中的各個頁面子塊同時滿足所述三個預(yù)設(shè)條件時,判定所述目標頁面塊滿足所述預(yù)設(shè)新聞列表判定條件;

其中,所述三個預(yù)設(shè)條件分別為:所述各個頁面子塊均包含至少一個鏈接、所述各個頁面子塊具有相同的寬度、所述各個頁面子塊具有相同的鏈接密度。

一種新聞列表區(qū)域的確定裝置,所述裝置包括:第一判斷模塊、頁面分割模塊、第二判斷模塊和確定模塊;

所述第一判斷模塊,用于判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊;

所述頁面分割模塊,用于當所述第一判斷模塊判斷出所述目標頁面塊中包含所述滿足預(yù)設(shè)分割條件的頁面子塊時,將所述滿足預(yù)設(shè)分割條件的頁面子塊作為目標頁面塊分割為多個頁面子塊,并觸發(fā)所述第一判斷模塊判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊;

所述第二判斷模塊,用于當所述第一判斷模塊判斷出所述目標頁面塊中不包含滿足所述預(yù)設(shè)分割條件的頁面子塊時,基于所述目標頁面塊中的頁面子塊判斷所述目標頁面塊是否滿足預(yù)設(shè)新聞列表判定條件;

所述確定模塊,用于當所述第二判斷模塊判斷出所述目標頁面塊滿足所述預(yù)設(shè)新聞列表判定條件時,將所述目標頁面塊確定為新聞列表區(qū)域。

其中,所述第一判斷模塊包括:查詢子模塊和判定子模塊;

所述查詢子模塊,用于在所述目標頁面塊中查找在目標頁面中所占比例大于預(yù)設(shè)值,且在所述目標頁面中的位置滿足預(yù)設(shè)位置條件的頁面子塊,獲得查找結(jié)果;

所述判定子模塊,用于當所述查詢子模塊的所述查找結(jié)果表明在所述目標頁面塊中查找到在所述目標頁面中所占比例大于所述預(yù)設(shè)值,且在所述目標頁面中的位置滿足所述預(yù)設(shè)位置條件的頁面子塊時,判定所述目標頁面塊中包含滿足所述預(yù)設(shè)分割條件的頁面子塊。

其中,所述預(yù)設(shè)位置條件為:在水平方向上位于所述目標頁面的中部,且在垂直方向上位于所述目標頁面的中部或上部。

其中,所述第二判斷模塊,包括:第一判斷子模塊和第二判斷子模塊;

所述第一判斷子模塊,用于判斷所述目標頁面塊中頁面子塊的數(shù)量是否大于或等于預(yù)設(shè)數(shù)量;

所述第二判斷子模塊,用于當所述第一判斷子模塊判斷出所述目標頁面塊中頁面子塊的數(shù)量大于或等于所述預(yù)設(shè)數(shù)量時,判斷所述目標頁面塊中的各個頁面子塊是否同時滿足三個預(yù)設(shè)條件,當所述目標頁面塊中的各個頁面子塊同時滿足所述三個預(yù)設(shè)條件時,判定所述目標頁面塊滿足所述預(yù)設(shè)新聞列表判定條件;

其中,所述三個預(yù)設(shè)條件分別為:所述各個頁面子塊均包含至少一個鏈接、所述各個頁面子塊具有相同的寬度、所述各個頁面子塊具有相同的鏈接密度。

上述技術(shù)方案具有如下有益效果:

本發(fā)明提供的新聞列表區(qū)域的確定方法及裝置,首先判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊,當目標頁面塊中包含滿足預(yù)設(shè)分割條件的頁面子塊時,將滿足預(yù)設(shè)分割條件的頁面子塊作為目標頁面塊分割為多個頁面子塊,執(zhí)行判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊,當目標頁面塊中不包含滿足預(yù)設(shè)分割條件的頁面子塊時,基于目標頁面塊中的頁面子塊判斷目標頁面塊是否滿足預(yù)設(shè)新聞列表判定條件,當目標頁面塊滿足預(yù)設(shè)新聞列表判定條件時,將目標頁面塊確定為新聞列表區(qū)域。本發(fā)明提供的新聞列表區(qū)域的確定方法及裝置,能夠從目標頁面中確定出新聞列表所在區(qū)域,而不會將其它非新聞列表區(qū)域確定出來,因此,大大提高了新聞列表的識別準確率,并且,由于識別出的內(nèi)容不包含非新聞列表,因此,在向用戶推送新聞時,避免了大量的網(wǎng)絡(luò)資源浪費,另外,由于本發(fā)明通過設(shè)定分割條件僅對特定區(qū)域進行頁面分割,而并不是對所有區(qū)域進行分割,因此,新聞列表區(qū)域的識別效率較高。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。

圖1為本發(fā)明實施例提供的新聞列表區(qū)域的確定方法的流程示意圖;

圖2為本發(fā)明實施例提供的HTML頁面的示意圖;

圖3a-圖3c為本發(fā)明實施例提供的對HTML頁面進行頁面分割的示意圖;

圖4為本發(fā)明實施例提供的新聞列表區(qū)域的確定裝置的結(jié)構(gòu)示意圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

本發(fā)明實施例提供了一種新聞列表區(qū)域的確定方法,請參閱圖1,示出了該方法的流程示意圖,該方法可以包括:

步驟S101:判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊。

其中,目標頁面塊包含滿足預(yù)設(shè)分割條件的頁面子塊,表明該目標頁面塊可能包含新聞列表。

具體的,在目標頁面塊中查找滿足預(yù)設(shè)分割條件的頁面子塊,獲得查找結(jié)果,當查找結(jié)果表明在目標頁面塊中查找到滿足預(yù)設(shè)分割條件的頁面子塊時,判定目標頁面中包含滿足預(yù)設(shè)分割條件的頁面子塊。

步驟S102a:當目標頁面塊中包含滿足預(yù)設(shè)分割條件的頁面子塊時,將滿足預(yù)設(shè)分割條件的頁面子塊作為目標頁面塊分割為多個頁面子塊,轉(zhuǎn)入步驟S101。

需要說明的是,本發(fā)明實施例并不是對目標頁面中的所有頁面塊進行分割,而只是對滿足預(yù)設(shè)分割條件的頁面塊進行頁面分割,因為只有滿足預(yù)設(shè)分割條件的頁面塊才可能包含新聞列表。

在本實施例中,目標頁面塊是目標頁面所包含的頁面塊,目標頁面可以為互聯(lián)網(wǎng)網(wǎng)頁,網(wǎng)頁中的網(wǎng)頁元素可以是網(wǎng)頁源文件如HTML網(wǎng)頁文件中的HTML元素。

可以理解的是,在現(xiàn)實的網(wǎng)頁閱覽場景中,人們并不需要對網(wǎng)頁頁面的內(nèi)容如新聞頁面的內(nèi)容等進行逐字掃描式閱覽,而一般是根據(jù)網(wǎng)頁頁面中各網(wǎng)頁元素的布局位置、背景顏色、字體大小等布局特征,對頁面進行快速的區(qū)域劃分,然后找到其所關(guān)注的區(qū)域,如具體找到所關(guān)注的新聞題目、新聞?wù)牡葏^(qū)域進行閱覽,而網(wǎng)站的設(shè)計者,也都充分利用這一原理,將諸如新聞題目、新聞?wù)牡容^為重要的信息放在頁面的比較明顯的位置上,并通過間隔、字體、背景顏色等加以強調(diào)。

受到啟發(fā),微軟在2003年提出VIPS算法,VIPS算法充分利用了Web頁面的布局特征,首先從HTML網(wǎng)頁文件中提取出所有的HTML元素,然后根據(jù)各HTML元素的布局特征,如各HTML元素的位置信息、背景顏色、字體大小等檢測出網(wǎng)頁頁面的分割條,包括水平方向和垂直方向的分隔條,最后從檢測出的分割條中選取中寬度最大的分割條(水平方向和/或垂直方向),并基于寬度最大的分割條對網(wǎng)頁頁面進行初步分割。之后,對于初步分割所得的每一個頁面塊,可使用VIPS算法繼續(xù)將其分割為更小的頁面塊。

在本實施例中,當目標頁面塊中包含滿足預(yù)設(shè)分割條件的頁面子塊時,可基于VIPS算法對目標頁面塊進行一次分割,獲得多個頁面子塊。需要說明的是,初始目標頁面塊可以為整個目標頁面,首次分割為對目標頁面進行分割,具體的,對目標頁面塊基于網(wǎng)頁元素在目標頁面中的布局位置、背景顏色、字體大小等布局信息確定目標頁面的各個分割線,依據(jù)分割線將目標頁面劃分為多個頁面子塊。

需要說明的是,本實施例并不限定對目標頁面塊所采用的分割方式,即不限定采用VIPS算法對目標頁面塊進行分割,只要是對滿足預(yù)設(shè)分割條件的目標頁面塊進行分割都屬于本發(fā)明實施例保護的范圍。

步驟S102b:當目標頁面塊中不包含滿足預(yù)設(shè)分割條件的頁面子塊時,基于目標頁面塊中的頁面子塊判斷目標頁面塊是否滿足預(yù)設(shè)新聞列表判定條件。

由于新聞列表具有自身的特性,因此,本發(fā)明實施例基于新聞列表自身特性設(shè)定新聞列表判定條件,基于設(shè)定的新聞列表判定條件對滿足分割條件(即可能包含新聞列表)的目標頁面塊進一步進行判定。

步驟S103b:當目標頁面塊滿足預(yù)設(shè)新聞列表判定條件時,將目標頁面塊確定為新聞列表區(qū)域。

需要說明的是,當目標頁面塊不滿足預(yù)設(shè)新聞列表判定條件時,表明目標頁面中不包含新聞列表。

本發(fā)明實施例提供的新聞列表區(qū)域的確定方法,首先判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊,當目標頁面塊中包含滿足預(yù)設(shè)分割條件的頁面子塊時,將滿足預(yù)設(shè)分割條件的頁面子塊作為目標頁面塊分割為多個頁面子塊,執(zhí)行判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊,當目標頁面塊中不包含滿足預(yù)設(shè)分割條件的頁面子塊時,基于目標頁面塊中的頁面子塊判斷目標頁面塊是否滿足預(yù)設(shè)新聞列表判定條件,當目標頁面塊滿足預(yù)設(shè)新聞列表判定條件時,將目標頁面塊確定為新聞列表區(qū)域。本發(fā)明提供的新聞列表區(qū)域的確定方法,能夠從目標頁面中確定出新聞列表所在區(qū)域,而不會將其它非新聞列表區(qū)域確定出來,因此,大大提高了新聞列表的識別準確率,并且,由于識別出的內(nèi)容不包含非新聞列表,因此,在向用戶推送新聞時,避免了大量的網(wǎng)絡(luò)資源浪費,另外,由于本發(fā)明通過設(shè)定分割條件僅對特定區(qū)域進行頁面分割,而并不是對所有區(qū)域進行分割,因此,新聞列表區(qū)域的識別效率較高。

在上述實施例提供的新聞列表區(qū)域的確定方法中,判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊的過程可以包括:在目標頁面塊中查找在目標頁面中所占比例大于預(yù)設(shè)值,且在目標頁面中的位置滿足預(yù)設(shè)位置條件的頁面子塊,獲得查找結(jié)果,當查找結(jié)果表明在目標頁面中查找到在目標頁面中所占比例大于預(yù)設(shè)值,且在目標頁面中的位置滿足預(yù)設(shè)位置條件的頁面子塊時,判定目標頁面中包含滿足預(yù)設(shè)分割條件的頁面子塊。

其中,頁面子塊在目標頁面中所占比例可通過該頁面子塊在目標頁面中所占的面積與目標頁面總面積的比值確定,如果該頁面子塊在目標頁面中所占的面積與目標頁面總面積的比值大于預(yù)設(shè)值,且該頁面塊在目標頁面中的位置滿足預(yù)設(shè)位置條件,則判定目標頁面中包含滿足預(yù)設(shè)分割條件的頁面子塊。

示例性的,預(yù)設(shè)值為15%,即對于目標頁面塊所包含的頁面子塊,判斷該頁面子塊在目標頁面中所占比例是否大于15%,當該頁面子塊在目標頁面中所占比例大于15%時,進一步判斷該頁面子塊在目標頁面中的位置是否滿足預(yù)設(shè)的位置條件,如果該頁面子塊在目標頁面中的位置滿足預(yù)設(shè)的位置條件,則可判定該頁面子塊為滿足預(yù)設(shè)分割條件的頁面子塊,即目標頁面塊包含滿足預(yù)設(shè)分割條件的頁面子塊,該頁面子塊可能包含新聞列表,需對該頁面子塊進一步分割。

進一步的,考慮到新聞列表通常所處的位置,在本實施例中,預(yù)設(shè)位置條件可以為在水平方向上位于目標頁面的中部,且在垂直方向上位于目標頁面的中部或上部。

需要說明書的是,本發(fā)明實施例中頁面子塊在某一方向上在目標頁面中所處的位置(中部、中部或上部等),具體可以以該頁面子塊的幾何中心與整個頁面幾何中心的相對位置來衡量和確定,例如,塊A在垂直方向上處于目標頁面的中部或上部,相應(yīng)地,具體可以是塊A的幾何中心與頁面幾何中心在同一水平線上,或塊A的幾何中心在頁面幾何中心的上部。

在上述實施例中,基于目標頁面塊中的多個頁面子塊判斷目標頁面塊是否滿足預(yù)設(shè)新聞列表判定條件,可以包括:判斷目標頁面塊中頁面子塊的數(shù)量是否大于或等于預(yù)設(shè)數(shù)量;當目標頁面塊中頁面子塊的數(shù)量大于或等于預(yù)設(shè)數(shù)量時,判斷目標頁面塊中的各個頁面子塊是否同時滿足三個預(yù)設(shè)條件,當目標頁面塊中的各個頁面子塊同時滿足三個預(yù)設(shè)條件時,判定目標頁面塊滿足預(yù)設(shè)新聞列表判定條件。

示例性的,預(yù)設(shè)數(shù)量可以為3,即當目標頁面塊中頁面子塊的數(shù)量大于或等于3時,進一步判斷目標頁面塊中的各個頁面子塊是否同時滿足三個預(yù)設(shè)條件。

其中,三個預(yù)設(shè)條件分別為:各個頁面子塊均包含至少一個鏈接、各個頁面子塊具有相同的寬度、各個頁面子塊具有相同的鏈接密度。其中,連接密度=頁面子塊的URLlink文字長度/頁面子塊的全部文字長度。

在上述實施例中,可能存在目標頁面塊中滿足預(yù)設(shè)分割條件的頁面子塊為多個的情況,此時,對于每個滿足預(yù)設(shè)分割條件的頁面子塊,將該頁面子塊作為目標頁面塊分割為多個頁面子塊,執(zhí)行判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊這一步驟,直至目標頁面塊中不包含滿足預(yù)設(shè)分割條件的頁面子塊時,基于目標頁面塊中的頁面子塊判斷目標頁面塊是否滿足預(yù)設(shè)新聞列表判定條件。

需要說明的是,對于每個滿足預(yù)設(shè)條件的頁面子塊,在將其作為目標頁面塊分割為多個頁面子塊后,可按預(yù)設(shè)順序(例如,基于各個頁面子塊在目標頁面的位置,按從上到下的順序)針對每個頁面子塊進行判斷:具體的,假設(shè)目標頁面塊被分割為3個頁面子塊,按從上到下的順序分別為第一頁面子塊、第二頁面子塊和第三頁面子塊,則首先,判斷第一頁面子塊是否滿足預(yù)設(shè)分割條件,如果第一頁面子塊滿足預(yù)設(shè)分割條件,則進一步對第一頁面子塊進行分割,然后進一步判斷第一頁面子塊中是否包含滿足預(yù)設(shè)分割條件的頁面塊,如果有,進一步進行分割,以此類推…,如果第一頁面子塊不滿足預(yù)設(shè)分割條件,表明第一頁面子塊不能再進行分割;然后,判斷第二頁面子塊是否滿足預(yù)設(shè)分割條件,如果第二頁面子塊滿足預(yù)設(shè)分割條件,則進一步對第二頁面子塊進行分割,然后進一步判斷第二頁面子塊中是否包含滿足預(yù)設(shè)分割條件的頁面塊,如果有,進一步進行分割,以此類推…,如果第二頁面子塊不滿足預(yù)設(shè)分割條件,則表明第二頁面子塊不能再進行分割;最后,判斷第三頁面子塊是否滿足預(yù)設(shè)分割條件,如果第三頁面子塊滿足預(yù)設(shè)分割條件,則進一步對第三頁面子塊進行分割,然后進一步判斷第三頁面子塊中是否包含滿足預(yù)設(shè)分割條件的頁面塊,如果有,進一步進行分割,以此類推…,如果第三頁面子塊不滿足預(yù)設(shè)分割條件,則表明第三頁面子塊不能再進行分割。經(jīng)判斷,如果第一頁面子塊、第二頁面子塊和第三頁面子塊均不滿足預(yù)設(shè)分割條件,表明第一頁面子塊、第二頁面子塊和第三頁面子塊無法再分割,此時,進一步利用新聞列表判定條件判斷包含第一頁面子塊、第二頁面子塊和第三頁面子塊的目標頁面塊是否為新聞列表區(qū)域。

在上述本發(fā)明實施例提供的新聞列表區(qū)域的確定方法的基礎(chǔ)上,現(xiàn)列舉一具體進行說明:

請參閱圖2,示出了一HTML頁面的示意圖,下面對從圖2示出的HTML頁面中確定新聞列表區(qū)域的過程進行詳細說明:

需要說明的是,由于HTML頁面初始并未進行分割,所以其可看作包含一個頁面塊,即將整個HTML頁面作為目標頁面塊,因此,其必然滿足預(yù)設(shè)分割條件(在目標頁面中所占比例大于預(yù)設(shè)值(如15%),且在水平方向上位于目標頁面的中部,在垂直方向上位于目標頁面的中部或上部),利用VIPS算法對整個HTML頁面進行一次分割,分割為4個頁面塊,如圖3a所示,HTML頁面分割后的4個頁面子塊分別為VB_1、VB_2、VB_3和VB_4。

接著,判斷目標頁面塊是否包含滿足預(yù)設(shè)分割條件(在目標頁面中所占比例大于預(yù)設(shè)值,且在水平方向上位于目標頁面的中部,在垂直方向上位于目標頁面的中部或上部)的頁面子塊,即從VB_1、VB_2、VB_3和VB_4中確定滿足預(yù)設(shè)分割條件的頁面子塊,經(jīng)判斷,VB_1、VB_3和VB_4不滿足預(yù)設(shè)分割條件,即這幾個塊不可能包含新聞列表,而VB_2滿足預(yù)設(shè)分割條件,此時,將VB_2作為新的目標頁面塊,進一步進行分割。具體的,利用VIPS算法對VB_2進行一次分割,如圖3b所示,將VB_2分割為VB2_1、VB2_2和VB2_3,然后從VB2_1、VB2_2和VB2_3中確定出滿足預(yù)設(shè)分割條件的頁面子塊,經(jīng)查詢判斷,VB2_1、VB2_3不滿足預(yù)設(shè)分割條件(VB2_1、VB2_3不滿足預(yù)設(shè)位置條件),因此,不會進一步對其進行分割,而VB2_2因滿足預(yù)設(shè)分割條件將會被進一步分割,具體的,利用VIPS算法對VB2_2進行一次分割,如圖3c所示,將VB2_2分割為VB2_2_1、VB2_2_2和VB2_2_3。

由于VB2_2_1、VB2_2_2和VB2_2_3均不滿足預(yù)設(shè)分割條件(VB2_2_1、VB2_2_2和VB2_2_3在目標頁面中所占比例均小于15%),因此判斷VB2_2中的頁面子塊的數(shù)量是否大于等于預(yù)設(shè)數(shù)量,假設(shè)預(yù)設(shè)數(shù)量為3,由于VB_2中的頁面子塊的數(shù)量等于預(yù)設(shè)數(shù)量,因此進一步判斷VB2_2_1、VB2_2_2和VB2_2_3是否滿足三個預(yù)設(shè)條件,即判斷VB2_2_1、VB2_2_2和VB2_2_3是否均包含至少一個鏈接,且具有相同的寬度,且具有相同的鏈接密度,經(jīng)判斷,VB2_2_1、VB2_2_2和VB2_2_3均包含至少一個鏈接,且具有相同的寬度,且具有相同的鏈接密度,因此,確定VB_2為新聞列表區(qū)域,即{VB2_2_1,VB2_2_2,VB2_2_3}為新聞列表。

與上述方法相對應(yīng),本發(fā)明實施例還提供了一種新聞列表區(qū)域的確定裝置,請參閱圖4,示出了該裝置的結(jié)構(gòu)示意圖,可以包括:第一判斷模塊401、頁面分割模塊402、第二判斷模塊403和確定模塊404。

第一判斷模塊401,用于判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊。

頁面分割模塊402,用于當?shù)谝慌袛嗄K401判斷出目標頁面塊中包含滿足預(yù)設(shè)分割條件的頁面子塊時,將滿足預(yù)設(shè)分割條件的頁面子塊作為目標頁面塊分割為多個頁面子塊,并觸發(fā)第一判斷模塊401判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊。

第二判斷模塊403,用于當?shù)谝慌袛嗄K401判斷出目標頁面塊中不包含滿足預(yù)設(shè)分割條件的頁面子塊時,基于目標頁面塊中的頁面子塊判斷目標頁面塊是否滿足預(yù)設(shè)新聞列表判定條件。

確定模塊404,用于當?shù)诙袛嗄K403判斷出目標頁面塊滿足預(yù)設(shè)新聞列表判定條件時,將目標頁面塊確定為新聞列表區(qū)域。

本發(fā)明提供的新聞列表區(qū)域的確定裝置,能夠從目標頁面中確定出新聞列表所在區(qū)域,而不會將其它非新聞列表區(qū)域確定出來,因此,大大提高了新聞列表的識別準確率,并且,由于識別出的內(nèi)容不包含非新聞列表,因此,在向用戶推送新聞時,避免了大量的網(wǎng)絡(luò)資源浪費,另外,由于本發(fā)明實施例通過設(shè)定分割條件僅對特定區(qū)域進行頁面分割,而并不是對所有區(qū)域進行分割,因此,新聞列表區(qū)域的識別效率較高。

在上述實施例提供的新聞列表區(qū)域的確定裝置中,第一判斷模塊可以包括:查詢子模塊和判定子模塊。其中:

查詢子模塊,用于在目標頁面塊中查找在目標頁面中所占比例大于預(yù)設(shè)值,且在目標頁面中的位置滿足預(yù)設(shè)位置條件的頁面子塊,獲得查找結(jié)果。

判定子模塊,用于當查詢子模塊的查找結(jié)果表明在目標頁面塊中查找到在目標頁面中所占比例大于所述預(yù)設(shè)值,且在目標頁面中的位置滿足預(yù)設(shè)位置條件的頁面子塊時,判定目標頁面塊中包含滿足預(yù)設(shè)分割條件的頁面子塊。

其中,預(yù)設(shè)位置條件為:在水平方向上位于所述目標頁面的中部,且在垂直方向上位于所述目標頁面的中部或上部。

在上述實施例提供的新聞列表區(qū)域的確定裝置中,頁面分割模塊可基于VIPS算法將目標頁面塊進行一次分割,獲得多個頁面子塊。

在上述實施例提供的新聞列表區(qū)域的確定裝置中,頁面分割模塊,具體用于當所述目標頁面塊中滿足預(yù)設(shè)分割條件的頁面子塊為多個時,對于每個所述滿足預(yù)設(shè)分割條件的頁面子塊,將該頁面子塊作為目標頁面塊分割為多個頁面子塊,并觸發(fā)第一判斷模塊判斷目標頁面塊中是否包含滿足預(yù)設(shè)分割條件的頁面子塊。

在上述實施例提供的新聞列表區(qū)域的確定裝置中,第二判斷模塊,包括:第一判斷子模塊和第二判斷子模塊。其中:

第一判斷子模塊,用于判斷目標頁面塊中頁面子塊的數(shù)量是否大于或等于預(yù)設(shè)數(shù)量。

第二判斷子模塊,用于當?shù)谝慌袛嘧幽K判斷出目標頁面塊中頁面子塊的數(shù)量大于或等于預(yù)設(shè)數(shù)量時,判斷目標頁面塊中的各個頁面子塊是否同時滿足三個預(yù)設(shè)條件,當目標頁面塊中的各個頁面子塊同時滿足三個預(yù)設(shè)條件時,判定目標頁面塊滿足預(yù)設(shè)新聞列表判定條件。

其中,三個預(yù)設(shè)條件分別為:各個頁面子塊均包含至少一個鏈接、各個頁面子塊具有相同的寬度、各個頁面子塊具有相同的鏈接密度。

本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。

在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的方法、裝置和設(shè)備,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,單元的分割,僅僅為一種邏輯功能分割,實際實現(xiàn)時可以有另外的分割方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。

作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。

功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平阴县| 铁岭县| 鹤山市| 德安县| 深水埗区| 财经| 扶绥县| 新沂市| 浠水县| 晋宁县| 潞城市| 都匀市| 刚察县| 温宿县| 会宁县| 西和县| 丰都县| 涪陵区| 宝清县| 宁陵县| 建德市| 绩溪县| 合阳县| 定州市| 湖南省| 呼玛县| 德兴市| 资兴市| 望城县| 济源市| 来宾市| 丹江口市| 岑溪市| 邻水| 渝北区| 平阳县| 南靖县| 高邑县| 柘荣县| 进贤县| 平安县|