1.一種啟發(fā)式多特征規(guī)則集網(wǎng)頁分塊方法,其特征在于,其包括以下步驟:
步驟一,調(diào)用VIPS算法將待操作的網(wǎng)頁生成頁面的塊結(jié)構(gòu)樹;
步驟二,根據(jù)啟發(fā)式多特征規(guī)則集對結(jié)構(gòu)樹進行裁剪;
步驟三,生成語義獨立的塊列表;
步驟二包括以下判斷過程:
過程一,根據(jù)塊間語義距離的推理規(guī)則確定當(dāng)前塊是否要繼續(xù)分隔;
過程二,若過程一的結(jié)果為否,繼續(xù)按照分割流程來判斷是否繼續(xù)分割;
過程三,將不需要分割的節(jié)點納入塊列表,需要分割的塊對它的子節(jié)點同樣進行檢查;
推理規(guī)則包括以下規(guī)則:
規(guī)則一,兩個節(jié)點所對應(yīng)塊的語義距離初始為零;
規(guī)則二,如果兩個頁面塊的距離越遠,則兩個頁面塊的語義關(guān)系越不緊密;
規(guī)則三,如果兩個頁面塊的背景色不同,但兩個頁面塊相鄰且兩個頁面塊的寬度相差不超過30%且上面塊的面積大于下面塊的面積的一百倍,那么兩個頁面塊間語義距離保持不變;
規(guī)則四,如果兩個頁面塊的背景色不同且不是規(guī)則三的情況,那么兩個頁面塊的語義關(guān)系不緊密,兩個頁面塊間語義距離值加一;
規(guī)則五,如果兩個頁面塊的字體大小不同且兩個頁面塊不是上下相鄰,那么兩個頁面塊間語義距離值加一;
規(guī)則六,如果兩個頁面塊的字體不同,兩個頁面塊上下相鄰,上面塊的面積的一百倍小于下面塊的面積,上面塊的字體小于下面塊的字體,那么兩個頁面塊間語義距離值加一;
規(guī)則七,如果兩個頁面塊的字體不同,兩個頁面塊上下相鄰,上面塊的面積大于下面塊的面積,那么兩個頁面塊間語義距離值加一;
規(guī)則八,如果兩個頁面塊的字體大小不同,兩個頁面塊上下相鄰且上面塊的面積和下面塊的面積相差不超過30%,那么兩個頁面塊間語義距離值加一;
規(guī)則九,如果兩個頁面塊的字體重量不同且兩個頁面塊不是上下相鄰,那么兩個頁面塊間語義距離值加一;
規(guī)則十,如果兩個頁面塊的字體重量不同,兩個頁面塊上下相鄰,上面塊的面積的一百倍小于下面塊的面積,上面塊的字體重量小于下面塊的字體重量,那么兩個頁面塊間語義距離值加一;
規(guī)則十一,如果兩個頁面塊的字體重量不同,兩個頁面塊上下相鄰,上面塊的面積大于下面塊的面積,那么兩個頁面塊間語義距離值加一;
規(guī)則十二,如果兩個頁面塊的字體重量不同,兩個頁面塊上下相鄰且上面塊的面積和下面塊的面積相差不超過30%,那么兩個頁面塊間語義距離值加一;
規(guī)則十三,如果兩個頁面塊不是兄弟塊且其中一個塊的父節(jié)點與另外一塊為兄弟節(jié)點,那么兩個頁面塊間語義距離等于父節(jié)點與其的塊間語義距離加上父塊與兄弟塊間的語義距離;
分割流程包括以下流程:
流程一,若該塊的內(nèi)聚度為十一,則表明該塊已經(jīng)是葉子節(jié)點,不需要繼續(xù)分割,否則進入流程二;
流程二,若該塊是一個列表類型,則停止分割,以該節(jié)點為父節(jié)點的子樹被裁減掉,否則進入流程三;
流程三,若該塊是一個橫向滾動條列表類型,則停止分割,以該節(jié)點為父節(jié)點的子樹被裁減掉,否則進入流程四;
流程四,若該塊的所有孩子節(jié)點的內(nèi)聚度都是十一,則停止分割,以該節(jié)點為父節(jié)點的子樹被裁減掉,否則進入流程五;
流程五,若該塊的孩子節(jié)點是左右相鄰的,則該塊需要繼續(xù)分割,否則進入流程六;
流程六,若該塊的內(nèi)聚度與其所有孩子節(jié)點的內(nèi)聚度一致,表明父塊內(nèi)部結(jié)構(gòu)的緊密程度與子塊類似,則停止分割,以該節(jié)點為父節(jié)點的子樹被裁減掉,否則進入流程七;
流程七,若該塊有兩個孩子,其中一個孩子節(jié)點的DoC值為十一,另一個孩子節(jié)點的DoC值與當(dāng)前塊值一致,且該孩子節(jié)點的孩子不是左右相鄰的,則停止分割,以該節(jié)點為父節(jié)點的子樹被裁減掉,否則進入流程八;
流程八,若上述流程中的條件都不滿足,則該塊需要繼續(xù)分割,遍歷其孩子節(jié)點,繼續(xù)判斷。
2.根據(jù)權(quán)利要求1所述的啟發(fā)式多特征規(guī)則集網(wǎng)頁分塊方法,其特征在于,所述步驟三在生成語義獨立的塊列表的過程中獲取每個塊的結(jié)構(gòu)信息和內(nèi)容信息。