欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

啟發(fā)式多特征規(guī)則集網(wǎng)頁(yè)分塊方法與流程

文檔序號(hào):12550749閱讀:224來(lái)源:國(guó)知局
啟發(fā)式多特征規(guī)則集網(wǎng)頁(yè)分塊方法與流程

本發(fā)明涉及一種頁(yè)面分塊方法,具體地,涉及一種啟發(fā)式多特征規(guī)則集網(wǎng)頁(yè)分塊方法。



背景技術(shù):

近年來(lái),移動(dòng)通信技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展和廣泛應(yīng)用,對(duì)人們的生活方式產(chǎn)生巨大影響。移動(dòng)通信技術(shù)使人與人之間能夠隨時(shí)隨地進(jìn)行溝通,而互聯(lián)網(wǎng)的發(fā)展使人們能迅速、快捷地獲取豐富的信息資源。兩種技術(shù)的結(jié)合使人們無(wú)論何時(shí)何地能通過(guò)移動(dòng)終端自由地訪(fǎng)問(wèn)互聯(lián)網(wǎng)的信息資源。目前絕大部分Web(網(wǎng)頁(yè))頁(yè)面是為傳統(tǒng)個(gè)人電腦而設(shè)計(jì)的,包括臺(tái)式電腦和筆記本電腦,它們具有較大的屏幕和高分辨率。然而由于屏幕大小的物理局限、內(nèi)存大小和無(wú)線(xiàn)網(wǎng)絡(luò)帶寬等因素的限制,移動(dòng)終端直接訪(fǎng)問(wèn)已有的Web頁(yè)面難以正常顯示頁(yè)面,Web頁(yè)面的二維布局不適合移動(dòng)終端屏幕顯示。目前通常通過(guò)兩種手段來(lái)解決這種問(wèn)題:通過(guò)服務(wù)器進(jìn)行頁(yè)面轉(zhuǎn)換或者使用網(wǎng)頁(yè)縮略圖。前者首先將用戶(hù)訪(fǎng)問(wèn)的頁(yè)面進(jìn)行分頁(yè)和轉(zhuǎn)換,然后將分頁(yè)的結(jié)果提交給移動(dòng)設(shè)備;后者則是將整個(gè)Web頁(yè)面生成縮略圖,整個(gè)頁(yè)面被分割為數(shù)目不等的區(qū)域,用戶(hù)如果對(duì)特定區(qū)域感興趣,則可以再次訪(fǎng)問(wèn)該區(qū)域的內(nèi)容。通過(guò)這兩個(gè)策略,基本可以完成移動(dòng)終端訪(fǎng)問(wèn)互聯(lián)網(wǎng)的內(nèi)容,但是核心內(nèi)容就是對(duì)頁(yè)面進(jìn)行語(yǔ)義分割。

如何對(duì)Web頁(yè)面進(jìn)行有效的分頁(yè),目前提出的VIPS(基于視覺(jué)信息的網(wǎng)頁(yè)分塊)算法,充分利用了頁(yè)面的布局特點(diǎn)并從語(yǔ)義層次對(duì)頁(yè)面進(jìn)行劃分,將視覺(jué)提示信息和DOM(文檔對(duì)象模塊)結(jié)合起來(lái)推斷出可視化的內(nèi)容結(jié)構(gòu)。該算法以預(yù)定義的PDoC(頁(yè)面預(yù)先定義的內(nèi)聚度閥值,Permitted DegreeofCoherence)值作為迭代的終止條件,當(dāng)各塊的內(nèi)聚度值大于PDoC值是迭代終止,預(yù)定義的終止條件影響了分塊的效果。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種啟發(fā)式多特征規(guī)則集網(wǎng)頁(yè)分塊方法,其不需要事先定義PDoC值,方法簡(jiǎn)單可靠,網(wǎng)頁(yè)分塊效果好,便于服務(wù)器進(jìn)行頁(yè)面轉(zhuǎn)換或使用網(wǎng)頁(yè)縮略圖,使移動(dòng)端訪(fǎng)問(wèn)互聯(lián)網(wǎng)的內(nèi)容,并且在分塊過(guò)程中獲取了每個(gè)塊的結(jié)構(gòu)信息和內(nèi)容信息,便于后續(xù)進(jìn)行Web頁(yè)面信息的提取和頁(yè)面內(nèi)容的重組。

根據(jù)本發(fā)明的一個(gè)方面,提供啟發(fā)式多特征規(guī)則集網(wǎng)頁(yè)分塊方法,其特征在于,其包括以下步驟:

步驟一,調(diào)用VIPS算法將待操作的網(wǎng)頁(yè)生成頁(yè)面的塊結(jié)構(gòu)樹(shù);

步驟二,根據(jù)啟發(fā)式多特征規(guī)則集對(duì)結(jié)構(gòu)樹(shù)進(jìn)行裁剪;

步驟三,生成語(yǔ)義獨(dú)立的塊列表;

步驟二包括以下判斷過(guò)程:

過(guò)程一,根據(jù)塊間語(yǔ)義距離的推理規(guī)則確定當(dāng)前塊是否要繼續(xù)分隔;

過(guò)程二,若過(guò)程一的結(jié)果為否,繼續(xù)按照分割流程來(lái)判斷是否繼續(xù)分割;

過(guò)程三,將不需要分割的節(jié)點(diǎn)納入塊列表,需要分割的塊對(duì)它的子節(jié)點(diǎn)同樣進(jìn)行檢查;

推理規(guī)則包括:

規(guī)則一,兩個(gè)節(jié)點(diǎn)所對(duì)應(yīng)塊的語(yǔ)義距離初始為零;

規(guī)則二,如果兩個(gè)頁(yè)面塊的距離越遠(yuǎn),則兩個(gè)頁(yè)面塊的語(yǔ)義關(guān)系越不緊密;

規(guī)則三,如果兩個(gè)頁(yè)面塊的背景色不同,但兩個(gè)頁(yè)面塊相鄰且兩個(gè)頁(yè)面塊的寬度相差不超過(guò)30%且上面塊的面積大于下面塊的面積的一百倍,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離保持不變;

規(guī)則四,如果兩個(gè)頁(yè)面塊的背景色不同且不是規(guī)則三的情況,那么兩個(gè)頁(yè)面塊的語(yǔ)義關(guān)系不緊密,兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則五,如果兩個(gè)頁(yè)面塊的字體大小不同且兩個(gè)頁(yè)面塊不是上下相鄰,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則六,如果兩個(gè)頁(yè)面塊的字體不同,兩個(gè)頁(yè)面塊上下相鄰,上面塊的面積的一百倍小于下面塊的面積,上面塊的字體小于下面塊的字體,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則七,如果兩個(gè)頁(yè)面塊的字體不同,兩個(gè)頁(yè)面塊上下相鄰,上面塊的面積大于下面塊的面積,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則八,如果兩個(gè)頁(yè)面塊的字體大小不同,兩個(gè)頁(yè)面塊上下相鄰且上面塊的面積和下面塊的面積相差不超過(guò)30%,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則九,如果兩個(gè)頁(yè)面塊的字體重量不同且兩個(gè)頁(yè)面塊不是上下相鄰,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則十,如果兩個(gè)頁(yè)面塊的字體重量不同,兩個(gè)頁(yè)面塊上下相鄰,上面塊的面積的一百倍小于下面塊的面積,上面塊的字體重量小于下面塊的字體重量,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則十一,如果兩個(gè)頁(yè)面塊的字體重量不同,兩個(gè)頁(yè)面塊上下相鄰,上面塊的面積大于下面塊的面積,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則十二,如果兩個(gè)頁(yè)面塊的字體重量不同,兩個(gè)頁(yè)面塊上下相鄰且上面塊的面積和下面塊的面積相差不超過(guò)30%,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則十三,如果兩個(gè)頁(yè)面塊不是兄弟塊且其中一個(gè)塊的父節(jié)點(diǎn)與另外一塊為兄弟節(jié)點(diǎn),那么兩個(gè)頁(yè)面塊間語(yǔ)義距離等于父節(jié)點(diǎn)與其的塊間語(yǔ)義距離加上父塊與兄弟塊間的語(yǔ)義距離;

分割流程包括:

流程一,若該塊的內(nèi)聚度為十一,則表明該塊已經(jīng)是葉子節(jié)點(diǎn),不需要繼續(xù)分割,否則進(jìn)入流程二;

流程二,若該塊是一個(gè)列表類(lèi)型,則停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉,否則進(jìn)入流程三;

流程三,若該塊是一個(gè)橫向滾動(dòng)條列表類(lèi)型,則停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉,否則進(jìn)入流程四;

流程四,若該塊的所有孩子節(jié)點(diǎn)的內(nèi)聚度都是十一,則停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉,否則進(jìn)入流程五;

流程五,若該塊的孩子節(jié)點(diǎn)是左右相鄰的,則該塊需要繼續(xù)分割,否則進(jìn)入流程六;

流程六,若該塊的內(nèi)聚度與其所有孩子節(jié)點(diǎn)的內(nèi)聚度一致,表明父塊內(nèi)部結(jié)構(gòu)的緊密程度與子塊類(lèi)似,則停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉,否則進(jìn)入流程七;

流程七,若該塊有兩個(gè)孩子,其中一個(gè)孩子節(jié)點(diǎn)的DoC值為十一,另一個(gè)孩子節(jié)點(diǎn)的DoC值與當(dāng)前塊值一致,且該孩子節(jié)點(diǎn)的孩子不是左右相鄰的,則停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉,否則進(jìn)入流程八;

流程八,若上述流程中的條件都不滿(mǎn)足,則該塊需要繼續(xù)分割,遍歷其孩子節(jié)點(diǎn),繼續(xù)判斷。

優(yōu)選地,所述步驟三在生成語(yǔ)義獨(dú)立的塊列表的過(guò)程中獲取每個(gè)塊的結(jié)構(gòu)信息和內(nèi)容信息。

與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:本發(fā)明不需要事先定義PDoC值,方法簡(jiǎn)單可靠,網(wǎng)頁(yè)分塊效果好,便于服務(wù)器進(jìn)行頁(yè)面轉(zhuǎn)換或使用網(wǎng)頁(yè)縮略圖,使移動(dòng)端訪(fǎng)問(wèn)互聯(lián)網(wǎng)的內(nèi)容,并且在分塊過(guò)程中獲取了每個(gè)塊的結(jié)構(gòu)信息和內(nèi)容信息,便于后續(xù)進(jìn)行Web頁(yè)面信息的提取和頁(yè)面內(nèi)容的重組。本發(fā)明方便服務(wù)器進(jìn)行頁(yè)面轉(zhuǎn)換或是使用網(wǎng)頁(yè)縮略圖,從而完成移動(dòng)終端訪(fǎng)問(wèn)互聯(lián)網(wǎng)內(nèi)容。

附圖說(shuō)明

通過(guò)閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:

圖1為本發(fā)明的步驟流程圖。

圖2為本發(fā)明判斷塊節(jié)點(diǎn)是否需要分割的流程圖。

圖3為本發(fā)明耦合度隨分割層次的變化曲線(xiàn)圖。

圖4為本發(fā)明內(nèi)聚度隨分割層次的變化曲線(xiàn)圖。

圖5為本發(fā)明J值隨分割層次的變化曲線(xiàn)圖。

具體實(shí)施方式

下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。

如圖1所示,本發(fā)明啟發(fā)式多特征規(guī)則集網(wǎng)頁(yè)分塊方法包括以下步驟:

步驟一,調(diào)用VIPS算法將待操作的網(wǎng)頁(yè)生成頁(yè)面的塊結(jié)構(gòu)樹(shù),將頁(yè)面內(nèi)聚度PDoC值設(shè)置為允許的最大值;

步驟二,根據(jù)啟發(fā)式多特征規(guī)則集對(duì)結(jié)構(gòu)樹(shù)進(jìn)行裁剪;

步驟三,生成語(yǔ)義獨(dú)立的塊列表;

步驟二包括以下判斷過(guò)程:

過(guò)程一,根據(jù)塊間語(yǔ)義距離的推理規(guī)則確定當(dāng)前塊是否要繼續(xù)分隔;

過(guò)程二,若過(guò)程一的結(jié)果為否,繼續(xù)按照分割流程來(lái)判斷是否繼續(xù)分割;

過(guò)程三,將不需要分割的節(jié)點(diǎn)納入塊列表,需要分割的塊對(duì)它的子節(jié)點(diǎn)同樣進(jìn)行檢查;

調(diào)用VIPS算法后,每個(gè)頁(yè)面由樹(shù)表示,樹(shù)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)塊,每個(gè)塊由其結(jié)構(gòu)信息、內(nèi)容信息和內(nèi)聚度組成,深度遍歷塊結(jié)構(gòu)樹(shù),根據(jù)啟發(fā)式多特征規(guī)則集對(duì)結(jié)構(gòu)樹(shù)進(jìn)行裁剪,在每次迭代中,檢查結(jié)構(gòu)樹(shù)當(dāng)前層的每個(gè)塊節(jié)點(diǎn),確定它是否需要繼續(xù)分割,如果能,則對(duì)它的子節(jié)點(diǎn)進(jìn)行同樣的檢查,如果不能,則裁剪掉以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù);

推理規(guī)則包括以下規(guī)則:

規(guī)則一,兩個(gè)節(jié)點(diǎn)所對(duì)應(yīng)塊的語(yǔ)義距離初始為零;

規(guī)則二,如果兩個(gè)頁(yè)面塊的距離越遠(yuǎn),則兩個(gè)頁(yè)面塊的語(yǔ)義關(guān)系越不緊密,假設(shè)兩個(gè)頁(yè)面塊間的距離為distance,故兩個(gè)頁(yè)面塊間的語(yǔ)義距離增加distanc/l,其中1是規(guī)范因子,是整個(gè)頁(yè)面的對(duì)角線(xiàn)長(zhǎng)度;

規(guī)則三,如果兩個(gè)頁(yè)面塊的背景色不同,但兩個(gè)頁(yè)面塊相鄰且兩個(gè)頁(yè)面塊的寬度相差不超過(guò)30%且上面塊的面積大于下面塊的面積的一百倍,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離保持不變;

規(guī)則四,如果兩個(gè)頁(yè)面塊的背景色不同且不是規(guī)則三的情況,那么兩個(gè)頁(yè)面塊的語(yǔ)義關(guān)系不緊密,兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則五,如果兩個(gè)頁(yè)面塊的字體大小不同且兩個(gè)頁(yè)面塊不是上下相鄰,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則六,如果兩個(gè)頁(yè)面塊的字體不同,兩個(gè)頁(yè)面塊上下相鄰,上面塊的面積的一百倍小于下面塊的面積,上面塊的字體小于下面塊的字體,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則七,如果兩個(gè)頁(yè)面塊的字體不同,兩個(gè)頁(yè)面塊上下相鄰,上面塊的面積大于下面塊的面積,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則八,如果兩個(gè)頁(yè)面塊的字體大小不同,兩個(gè)頁(yè)面塊上下相鄰且上面塊的面積和下面塊的面積相差不超過(guò)30%,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則九,如果兩個(gè)頁(yè)面塊的字體重量不同且兩個(gè)頁(yè)面塊不是上下相鄰,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則十,如果兩個(gè)頁(yè)面塊的字體重量不同,兩個(gè)頁(yè)面塊上下相鄰,上面塊的面積的一百倍小于下面塊的面積,上面塊的字體重量小于下面塊的字體重量,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則十一,如果兩個(gè)頁(yè)面塊的字體重量不同,兩個(gè)頁(yè)面塊上下相鄰,上面塊的面積大于下面塊的面積,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則十二,如果兩個(gè)頁(yè)面塊的字體重量不同,兩個(gè)頁(yè)面塊上下相鄰且上面塊的面積和下面塊的面積相差不超過(guò)30%,那么兩個(gè)頁(yè)面塊間語(yǔ)義距離值加一;

規(guī)則十三,如果兩個(gè)頁(yè)面塊不是兄弟塊且其中一個(gè)塊的父節(jié)點(diǎn)與另外一塊為兄弟節(jié)點(diǎn),那么兩個(gè)頁(yè)面塊間語(yǔ)義距離等于父節(jié)點(diǎn)與其的塊間語(yǔ)義距離加上父塊與兄弟塊間的語(yǔ)義距離;

分割流程包括以下流程:

流程一,若該塊的內(nèi)聚度為十一,則表明該塊已經(jīng)是葉子節(jié)點(diǎn),不需要繼續(xù)分割,否則進(jìn)入流程二;

流程二,若該塊是一個(gè)列表類(lèi)型,則停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉,否則進(jìn)入流程三;

流程三,若該塊是一個(gè)橫向滾動(dòng)條列表類(lèi)型,則停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉,否則進(jìn)入流程四;

流程四,若該塊的所有孩子節(jié)點(diǎn)的內(nèi)聚度都是十一,則停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉,否則進(jìn)入流程五;

流程五,若該塊的孩子節(jié)點(diǎn)是左右相鄰的,則該塊需要繼續(xù)分割,否則進(jìn)入流程六;

流程六,若該塊的內(nèi)聚度與其所有孩子節(jié)點(diǎn)的內(nèi)聚度一致,表明父塊內(nèi)部結(jié)構(gòu)的緊密程度與子塊類(lèi)似,則停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉,否則進(jìn)入流程七;

流程七,若該塊有兩個(gè)孩子,其中一個(gè)孩子節(jié)點(diǎn)的DoC值為十一,另一個(gè)孩子節(jié)點(diǎn)的DoC值與當(dāng)前塊值一致,且該孩子節(jié)點(diǎn)的孩子不是左右相鄰的,則停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉,否則進(jìn)入流程八;

流程八,若上述流程中的條件都不滿(mǎn)足,則該塊需要繼續(xù)分割,遍歷其孩子節(jié)點(diǎn),繼續(xù)判斷。

塊間的耦合度可以根據(jù)塊間語(yǔ)義距離來(lái)確定,耦合度的計(jì)算公式如下式(1):

公式(1)中,DoCL是塊間的耦合度,SD是塊間的語(yǔ)義距離。塊間的語(yǔ)義距離用來(lái)衡量?jī)蓚€(gè)頁(yè)面塊之間的語(yǔ)義相關(guān)性,距離越大,說(shuō)明兩個(gè)頁(yè)面塊語(yǔ)義上越不相關(guān)。耦合度用來(lái)衡量頁(yè)面塊間語(yǔ)義的緊密關(guān)系。與塊間語(yǔ)義距離塊相反,塊間語(yǔ)義距離越大,塊間的耦合度就越小。

如圖3至圖4所示,當(dāng)塊較大的時(shí)候,由于塊包含的主題較多,與其他塊的語(yǔ)義有部分重疊,故塊間的耦合度比較大,隨著塊的分割,每個(gè)塊的語(yǔ)義越來(lái)越單一,與其他塊的語(yǔ)義重疊部分較少,使得塊間的耦合度不斷地減少,但是如果塊分割的過(guò)細(xì),就會(huì)破壞語(yǔ)義的完整性,使得塊間的耦合度增大,因此,隨著分割層次的增加,當(dāng)前葉子節(jié)點(diǎn)對(duì)應(yīng)塊之間的平均耦合度會(huì)不斷地減少,直到達(dá)到最小值,然后會(huì)隨著分割層次的增加不斷地增大。內(nèi)聚度是用來(lái)衡量塊內(nèi)部結(jié)構(gòu)緊密性的,子塊的內(nèi)聚度總是大于或等于父塊的內(nèi)聚度,內(nèi)聚度總是隨著塊的分割不斷地增大,當(dāng)塊分割到一定的程度,其內(nèi)聚度達(dá)到允許的最大值,因此,葉子節(jié)點(diǎn)對(duì)應(yīng)塊的平均內(nèi)聚度則會(huì)隨著分割層次的增加不斷地增大,直到達(dá)到最大值。

根據(jù)耦合度和內(nèi)聚度的變化趨勢(shì)可以看出對(duì)于頁(yè)面分割而言,當(dāng)塊與其他塊的耦合度值較低,同時(shí)塊的內(nèi)聚度比較高的時(shí)候,頁(yè)面的分割最好,因此根據(jù)內(nèi)聚度高,耦合度低的原則,進(jìn)行最大化下面的目標(biāo)函數(shù)J,如下式(2):

公式(2)中,avg_DoCL是所有節(jié)點(diǎn)所對(duì)應(yīng)塊間的耦合度的平均值,如下式(3):

在一個(gè)有k個(gè)節(jié)點(diǎn)的集合塊里,兩兩配對(duì)且不重復(fù),則第1個(gè)節(jié)點(diǎn)與它配對(duì)的有k-1個(gè)塊,第2個(gè)節(jié)點(diǎn)與它配對(duì)的有k-2個(gè)塊,依次類(lèi)推,則第k-1個(gè)節(jié)點(diǎn)與它配對(duì)的只有1個(gè)塊,即第k個(gè)節(jié)點(diǎn),所以一共有1+2+3+……k-1=k(k-1)/2對(duì)組合,而DoCL(i,j)代表集合塊里節(jié)點(diǎn)i和節(jié)點(diǎn)j間的耦合度,∑i=1..kj≠i DoCL(i,j)表示所有配對(duì)塊之間的耦合度值的總和,所以所有節(jié)點(diǎn)所對(duì)應(yīng)塊間的耦合度的平均值就是耦合度值的總和除以塊間配對(duì)組合數(shù),即公式(3)的表達(dá)。

avg_Doc是指所有節(jié)點(diǎn)所對(duì)應(yīng)塊的內(nèi)聚度的平均值,如下式(4):

在一個(gè)有k個(gè)節(jié)點(diǎn)的集合塊里,DoC(i)表示集合塊里第i個(gè)節(jié)點(diǎn)的內(nèi)聚度值,Σi=i..k DoC(i)表示所有k個(gè)節(jié)點(diǎn)內(nèi)聚度值的總和,而集合里共有k個(gè)節(jié)點(diǎn),所以所有節(jié)點(diǎn)所對(duì)應(yīng)塊的內(nèi)聚度的平均值就是內(nèi)聚度值的總和除以節(jié)點(diǎn)的個(gè)數(shù),即公式(4)的表達(dá)。

目標(biāo)函數(shù)J值的變化趨勢(shì)如圖5所示,對(duì)塊結(jié)構(gòu)樹(shù)的每個(gè)節(jié)點(diǎn)進(jìn)行檢查,將分割前的J值Jbefore與分割后的J值Jafter進(jìn)行比較,每次比較只考慮分割帶來(lái)的局部影響,即某節(jié)點(diǎn)分割后對(duì)其兄弟節(jié)點(diǎn)的影響。假設(shè)有兩個(gè)頁(yè)面塊集合A和B,A為某節(jié)點(diǎn)與其兄弟節(jié)點(diǎn),B為某節(jié)點(diǎn)的子節(jié)點(diǎn)與該節(jié)點(diǎn)的兄弟節(jié)點(diǎn),|A|表示集合A的大小,|B|表示集合B的大小,Jbefore是集合A中所有塊的J值Jafter是集合B中所有塊的J值,如果Jbefore≥Jafter,則該節(jié)點(diǎn)停止分割,以該節(jié)點(diǎn)為父節(jié)點(diǎn)的子樹(shù)被裁減掉。

所述步驟三在生成語(yǔ)義獨(dú)立的塊列表的過(guò)程中獲取每個(gè)塊的結(jié)構(gòu)信息和內(nèi)容信息,這樣便于后續(xù)進(jìn)行Web頁(yè)面信息的提取和頁(yè)面內(nèi)容的重組。

VIPS算法對(duì)頁(yè)面進(jìn)行劃分,是通過(guò)預(yù)先定義的閥值PDoC控制分塊的粒度。當(dāng)PDoC值較大,頁(yè)面塊分的很細(xì),當(dāng)PDoC較小時(shí),頁(yè)面塊分的很細(xì)。但對(duì)于不同的頁(yè)面,采用同一PDoC值,會(huì)導(dǎo)致部頁(yè)面塊分得過(guò)細(xì),而部分頁(yè)面塊分得過(guò)粗。而本發(fā)明不需要事先定義PDoC值,并且能夠取得近似于或好于取最佳PDoC值的VIPS劃分效果。

本發(fā)明在分塊的過(guò)程中會(huì)獲取每個(gè)塊的結(jié)構(gòu)信息:<起始點(diǎn)坐標(biāo),寬度,高度,字體大小,字體權(quán)重>,和內(nèi)容信息:<圖片數(shù),圖片大小,鏈接數(shù),鏈接文字樹(shù),總文字,總文字長(zhǎng)度,<Form>標(biāo)簽文字>,以便后續(xù)進(jìn)行Web頁(yè)面信息提取和頁(yè)面內(nèi)容重組。

以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
扶余县| 安龙县| 凯里市| 平度市| 彰化市| 武鸣县| 巴楚县| 大名县| 乐清市| 即墨市| 峨山| 南投市| 德庆县| 武冈市| 舞阳县| 富蕴县| 博湖县| 三江| 安乡县| 丘北县| 本溪| 原阳县| 浠水县| 青海省| 抚顺县| 石家庄市| 桂平市| 青川县| 海丰县| 芦溪县| 图木舒克市| 额济纳旗| 鄂托克前旗| 庄河市| 太康县| 大同市| 北京市| 曲松县| 随州市| 吐鲁番市| 乐都县|