專利名稱:一種識別相似網(wǎng)頁的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,特別涉及一種識別相似網(wǎng)頁的方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及和發(fā)展,無論是網(wǎng)站數(shù)量還是網(wǎng)站下的網(wǎng)頁數(shù)量,都呈現(xiàn)爆炸 式增長。由此產(chǎn)生了許多新興的互聯(lián)網(wǎng)服務(wù),如網(wǎng)頁聚類,網(wǎng)頁分類等服務(wù),這些服務(wù)都是 根據(jù)網(wǎng)頁呈現(xiàn)的信息為網(wǎng)頁進(jìn)行分類,由此提供更好的用戶體驗。在對網(wǎng)頁進(jìn)行分類時,需 要對待分類網(wǎng)頁進(jìn)行相似性判斷,找到與待分類網(wǎng)頁相似的已知類別的網(wǎng)頁即可確定待分 類網(wǎng)頁的類別。
網(wǎng)頁是由HTML (Hypertext Markup Language,超文本標(biāo)記語言)元素信息構(gòu)成, 因此某些HTML元素信息的組合對一個網(wǎng)頁來說是特有的,這就構(gòu)成了網(wǎng)頁的特征,通過人 工整理出網(wǎng)頁的特征并建立樣本庫,識別出含有同樣特征的網(wǎng)頁即可為待分類網(wǎng)頁進(jìn)行分 類。另一種方式是將網(wǎng)頁轉(zhuǎn)化為圖像,然后對該圖像的水平和豎直方向分割成一組小的圖 像,分別計算每個圖像的直方圖,每個網(wǎng)頁對應(yīng)一組直方圖,通過比較待分類網(wǎng)頁與已知分 類網(wǎng)頁的兩組直方圖的相似性,為待分類網(wǎng)頁進(jìn)行分類。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題
通過人工收集網(wǎng)頁的特征,耗費時間過長且效率低下;通過直方圖判斷網(wǎng)頁的相 似性時,由于不記錄每個圖片中的顏色信息在圖片中的位置,因此只要圖片中的顏色信息 相似度高則判斷為相似,因此對網(wǎng)頁的誤判率較高,會被確定為錯誤的類別。發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實施例提供了一種識別相似網(wǎng)頁的方法及裝 置。所述技術(shù)方案如下
第一方面,本發(fā)明實施例提供的一種識別相似網(wǎng)頁的方法包括
分別獲取待分類的第一網(wǎng)頁的超文本標(biāo)記語言HTML元素信息和已知類別信息的 第二網(wǎng)頁的HTML元素信息;
根據(jù)所述第一網(wǎng)頁和所述第二網(wǎng)頁的HTML元素信息,計算所述第一網(wǎng)頁和所述 第二網(wǎng)頁的相似度;
當(dāng)所述相似度大于預(yù)設(shè)相似閾值時,確定所述第一網(wǎng)頁和所述第二網(wǎng)頁為相似網(wǎng) 頁。
在第一方面的第一種可能的實現(xiàn)方式中,所述分別獲取待分類的第一網(wǎng)頁和已知 類別信息的第二網(wǎng)頁的超文本標(biāo)記語言HTML元素信息,包括
根據(jù)待分類的第一網(wǎng)頁的統(tǒng)一資源定位符URL地址,獲取所述第一網(wǎng)頁的文檔對 象模型DOM結(jié)構(gòu)信息;
在已知類別網(wǎng)頁數(shù)據(jù)庫中獲取已知類別信息的第二網(wǎng)頁的DOM結(jié)構(gòu)信息;
分別對所述第一網(wǎng)頁的DOM結(jié)構(gòu)信息和所述第二網(wǎng)頁的DOM結(jié)構(gòu)信息進(jìn)行廣度優(yōu)先遍歷,生成所述第一網(wǎng)頁的HTML元素信息的第一序列集合和所述第二網(wǎng)頁的HTML元素 信息的第二序列集合;
刪除所述第一序列集合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息以及所述第二序列集 合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息。
結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述刪除 所述第一序列集合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁結(jié) 構(gòu)無關(guān)的HTML元素信息,包括
將所述第一序列集合中未在預(yù)設(shè)的與網(wǎng)頁結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在 的HTML元素信息進(jìn)行刪除;
將所述第二序列集合中未在預(yù)設(shè)的與網(wǎng)頁結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在 的HTML元素信息進(jìn)行刪除。
結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述根據(jù) 所述第一網(wǎng)頁和所述第二網(wǎng)頁的HTML元素信息,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相 似度,包括
獲取所述第一序列集合包括的HTML元素信息的第一數(shù)量;
獲取所述第二序列集合包括的HTML元素信息的第二數(shù)量;
根據(jù)所述第一數(shù)量和所述第二數(shù)量,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度。
結(jié)合第一方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述根據(jù) 所述第一數(shù)量和所述第二數(shù)量,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度,包括
若所述第一數(shù)量等于所述第二數(shù)量,則根據(jù)序列相似度算法計算所述第一序列集 合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁和所述第二網(wǎng)頁的 相似度;
若所述第一數(shù)量大于所述第二數(shù)量,則在所述第一序列集合中按順序選取所述第 二數(shù)量的HTML元素信息作為新的第一序列集合,并根據(jù)序列相似度算法計算所述新的第 一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁和所述第 二網(wǎng)頁的相似度;
若所述第一數(shù)量小于所述第二數(shù)量,則在所述第二序列集合中按順序選取所述第 一數(shù)量的HTML元素信息作為新的第二序列集合,并根據(jù)序列相似度算法計算所述第一序 列集合與所述新的第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁和所述第 二網(wǎng)頁的相似度。
在第一方面的第五種可能的實現(xiàn)方式中,所述確定所述第一網(wǎng)頁和所述第二網(wǎng)頁 為相似網(wǎng)頁之后,所述方法還包括
獲取所述第二網(wǎng)頁的類別信息;
將所述第一網(wǎng)頁的類別信息設(shè)置為所述第二網(wǎng)頁的類別信息。
第二方面,本發(fā)明實施例提供的一種識別相似網(wǎng)頁的裝置包括
第一獲取模塊,用于分別獲取待分類的第一網(wǎng)頁的超文本標(biāo)記語言HTML元素信 息和已知類別信息的第二網(wǎng)頁的HTML元素信息;
計算模塊,用于根據(jù)所述第一網(wǎng)頁和所述第二網(wǎng)頁的HTML元素信息,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度;
確定模塊,用于當(dāng)所述相似度大于預(yù)設(shè)相似閾值時,確定所述第一網(wǎng)頁和所述第 二網(wǎng)頁為相似網(wǎng)頁。
在第二方面的第一種可能的實現(xiàn)方式中,所述第一獲取模塊,包括
第一獲取單元,用于根據(jù)待分類的第一網(wǎng)頁的統(tǒng)一資源定位符URL地址,獲取所 述第一網(wǎng)頁的文檔對象模型DOM結(jié)構(gòu)信息;
第二獲取單元,用于在已知類別網(wǎng)頁數(shù)據(jù)庫中獲取已知類別信息的第二網(wǎng)頁的 DOM結(jié)構(gòu)信息;
生成單元,用于分別對所述第一網(wǎng)頁的DOM結(jié)構(gòu)信息和所述第二網(wǎng)頁的DOM結(jié)構(gòu) 信息進(jìn)行廣度優(yōu)先遍歷,生成所述第一網(wǎng)頁的HTML元素信息的第一序列集合和所述第二 網(wǎng)頁的HTML元素信息的第二序列集合;
刪除單元,用于刪除所述第一序列集合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息以及 所述第二序列集合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息。
結(jié)合第二方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述刪除 單元,包括
第一刪除子單元,用于將所述第一序列集合中未在預(yù)設(shè)的與網(wǎng)頁結(jié)構(gòu)相關(guān)的HTML 元素信息列表中存在的HTML元素信息進(jìn)行刪除;
第二刪除子單元,用于將所述第二序列集合中未在預(yù)設(shè)的與網(wǎng)頁結(jié)構(gòu)相關(guān)的HTML 元素信息列表中存在的HTML元素信息進(jìn)行刪除。
結(jié)合第二方面的第一種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述計算 模塊,包括
第三獲取單元,用于獲取所述第一序列集合包括的HTML元素信息的第一數(shù)量;
第四獲取單元,用于獲取所述第二序列集合包括的HTML元素信息的第二數(shù)量;
計算單元,用于根據(jù)所述第一數(shù)量和所述第二數(shù)量,計算所述第一網(wǎng)頁和所述第 二網(wǎng)頁的相似度。
結(jié)合第二方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述計算 單元,包括
第一計算子單元,用于若所述第一數(shù)量等于所述第二數(shù)量,則根據(jù)序列相似度算 法計算所述第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一 網(wǎng)頁和所述第二網(wǎng)頁的相似度;
第二計算子單元,用于若所述第一數(shù)量大于所述第二數(shù)量,則在所述第一序列集 合中按順序選取所述第二數(shù)量的HTML元素信息作為新的第一序列集合,并根據(jù)序列相似 度算法計算所述新的第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為 所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度;
第三計算子單元,用于若所述第一數(shù)量小于所述第二數(shù)量,則在所述第二序列集 合中按順序選取所述第一數(shù)量的HTML元素信息作為新的第二序列集合,并根據(jù)序列相似 度算法計算所述第一序列集合與所述新的第二序列集合的相似度,并將所述相似度確定為 所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度。
在第二方面的第五種可能的實現(xiàn)方式中,所述裝置還包括
第二獲取模塊,用于獲取所述第二網(wǎng)頁的類別信息;
設(shè)置模塊,用于將所述第一網(wǎng)頁的類別信息設(shè)置為所述第二網(wǎng)頁的類別信息。
本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是
通過獲取待分類的第一網(wǎng)頁與已知類別的第二網(wǎng)頁的HTML元素信息,并根據(jù)兩 個網(wǎng)頁對應(yīng)的HTML元素信息計算相似度,確定兩個網(wǎng)頁是否相似,彌補(bǔ)了現(xiàn)有技術(shù)中人工 判斷網(wǎng)頁相似度效率低下以及通過直方圖判斷網(wǎng)頁相似度誤判率較高的缺陷。
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
圖1是本發(fā)明實施例一提供的識別相似網(wǎng)頁的方法流程圖2是本發(fā)明實施例二提供的識別相似網(wǎng)頁的方法流程圖3是本發(fā)明實施例二提供的DOM結(jié)構(gòu)信息結(jié)構(gòu)示意圖4是本發(fā)明實施例三提供的識別相似網(wǎng)頁的裝置結(jié)構(gòu)示意圖5是本發(fā)明實施例四提供的識別相似網(wǎng)頁的裝置結(jié)構(gòu)示意圖6是本發(fā)明實施例五提供的識別相似網(wǎng)頁的裝置結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方 式作進(jìn)一步地詳細(xì)描述。
實施例一
本發(fā)明實施例提供了一種識別相似網(wǎng)頁的方法,參見圖1,方法流程包括
101 :分別獲取待分類的第一網(wǎng)頁的超文本標(biāo)記語言HTML元素信息和已知類別信 息的第二網(wǎng)頁的HTML元素信息;
102 :根據(jù)所述第一網(wǎng)頁和所述第二網(wǎng)頁的HTML元素信息,計算所述第一網(wǎng)頁和 所述第二網(wǎng)頁的相似度;
103 :當(dāng)所述相似度大于預(yù)設(shè)相似閾值時,確定所述第一網(wǎng)頁和所述第二網(wǎng)頁為相 似網(wǎng)頁。
本發(fā)明實施例通過獲取待分類的第一網(wǎng)頁與已知類別的第二網(wǎng)頁的HTML元素信 息,并根據(jù)兩個網(wǎng)頁對應(yīng)的HTML元素信息計算相似度,確定兩個網(wǎng)頁是否相似,彌補(bǔ)了現(xiàn) 有技術(shù)中人工判斷網(wǎng)頁相似度效率低下以及通過直方圖判斷網(wǎng)頁相似度誤判率較高的缺 陷。
實施例二
本發(fā)明實施例提供了一種識別相似網(wǎng)頁的方法,參見圖2,方法流程包括
201 :分別獲取待分類的第一網(wǎng)頁的超文本標(biāo)記語言HTML元素信息和已知類別信 息的第二網(wǎng)頁的HTML元素信息。
步驟201可以具體為
2011 :根據(jù)待分類的第一網(wǎng)頁的統(tǒng)一資源定位符URL地址,獲取所述第一網(wǎng)頁的文檔對象模型DOM結(jié)構(gòu)信息。
通過網(wǎng)頁爬蟲爬取指定的URL對應(yīng)的待分類的第一網(wǎng)頁的網(wǎng)頁信息,其中網(wǎng)頁信息為該網(wǎng)頁的HTML代碼,從HTML代碼中獲取第一網(wǎng)頁的DOM結(jié)構(gòu)信息。
2012:在已知類別網(wǎng)頁數(shù)據(jù)庫中獲取已知類別信息的第二網(wǎng)頁的DOM結(jié)構(gòu)信息。
第二網(wǎng)頁泛指在已知類別網(wǎng)頁數(shù)據(jù)庫中的網(wǎng)頁,在查找待分類的第一網(wǎng)頁的類別時將已知類別網(wǎng)頁數(shù)據(jù)庫中的已知類別信息的網(wǎng)頁與第一網(wǎng)頁進(jìn)行相似度計算。因此第二網(wǎng)頁可以為已知類別網(wǎng)頁數(shù)據(jù)庫中的任一網(wǎng)頁,在已知類別網(wǎng)頁數(shù)據(jù)庫中獲取第二網(wǎng)頁, 第二網(wǎng)頁的DOM結(jié)構(gòu)信息在已知類別網(wǎng)頁數(shù)據(jù)庫中是已經(jīng)存在的信息。
例如一段網(wǎng)頁的HTML代碼如下
權(quán)利要求
1.一種識別相似網(wǎng)頁的方法,其特征在于,所述方法包括 分別獲取待分類的第一網(wǎng)頁的超文本標(biāo)記語言HTML元素信息和已知類別信息的第二網(wǎng)頁的HTML元素信息; 根據(jù)所述第一網(wǎng)頁和所述第二網(wǎng)頁的HTML元素信息,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度; 當(dāng)所述相似度大于預(yù)設(shè)相似閾值時,確定所述第一網(wǎng)頁和所述第二網(wǎng)頁為相似網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分別獲取待分類的第一網(wǎng)頁和已知類別信息的第二網(wǎng)頁的超文本標(biāo)記語言HTML元素信息,包括 根據(jù)待分類的第一網(wǎng)頁的統(tǒng)一資源定位符URL地址,獲取所述第一網(wǎng)頁的文檔對象模型DOM結(jié)構(gòu)信息; 在已知類別網(wǎng)頁數(shù)據(jù)庫中獲取已知類別信息的第二網(wǎng)頁的DOM結(jié)構(gòu)信息; 分別對所述第一網(wǎng)頁的DOM結(jié)構(gòu)信息和所述第二網(wǎng)頁的DOM結(jié)構(gòu)信息進(jìn)行廣度優(yōu)先遍歷,生成所述第一網(wǎng)頁的HTML元素信息的第一序列集合和所述第二網(wǎng)頁的HTML元素信息的第二序列集合; 刪除所述第一序列集合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述刪除所述第一序列集合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息,包括 將所述第一序列集合中未在預(yù)設(shè)的與網(wǎng)頁結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在的HTML元素信息進(jìn)行刪除; 將所述第二序列集合中未在預(yù)設(shè)的與網(wǎng)頁結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在的HTML元素信息進(jìn)行刪除。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第一網(wǎng)頁和所述第二網(wǎng)頁的HTML元素信息,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度,包括 獲取所述第一序列集合包括的HTML元素信息的第一數(shù)量; 獲取所述第二序列集合包括的HTML元素信息的第二數(shù)量; 根據(jù)所述第一數(shù)量和所述第二數(shù)量,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述第一數(shù)量和所述第二數(shù)量,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度,包括 若所述第一數(shù)量等于所述第二數(shù)量,則根據(jù)序列相似度算法計算所述第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度; 若所述第一數(shù)量大于所述第二數(shù)量,則在所述第一序列集合中按順序選取所述第二數(shù)量的HTML元素信息作為新的第一序列集合,并根據(jù)序列相似度算法計算所述新的第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度; 若所述第一數(shù)量小于所述第二數(shù)量,則在所述第二序列集合中按順序選取所述第一數(shù)量的HTML元素信息作為新的第二序列集合,并根據(jù)序列相似度算法計算所述第一序列集合與所述新的第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述第一網(wǎng)頁和所述第二網(wǎng)頁為相似網(wǎng)頁之后,所述方法還包括 獲取所述第二網(wǎng)頁的類別信息; 將所述第一網(wǎng)頁的類別信息設(shè)置為所述第二網(wǎng)頁的類別信息。
7.一種識別相似網(wǎng)頁的裝置,其特征在于,所述裝置包括 第一獲取模塊,用于分別獲取待分類的第一網(wǎng)頁的超文本標(biāo)記語言HTML元素信息和已知類別信息的第二網(wǎng)頁的HTML元素信息; 計算模塊,用于根據(jù)所述第一網(wǎng)頁和所述第二網(wǎng)頁的HTML元素信息,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度; 確定模塊,用于當(dāng)所述相似度大于預(yù)設(shè)相似閾值時,確定所述第一網(wǎng)頁和所述第二網(wǎng)頁為相似網(wǎng)頁。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一獲取模塊,包括 第一獲取單元,用于根據(jù)待分類的第一網(wǎng)頁的統(tǒng)一資源定位符URL地址,獲取所述第一網(wǎng)頁的文檔對象模型DOM結(jié)構(gòu)信息; 第二獲取單元,用于在已知類別網(wǎng)頁數(shù)據(jù)庫中獲取已知類別信息的第二網(wǎng)頁的DOM結(jié)構(gòu)信息; 生成單元,用于分別對所述第一網(wǎng)頁的DOM結(jié)構(gòu)信息和所述第二網(wǎng)頁的DOM結(jié)構(gòu)信息進(jìn)行廣度優(yōu)先遍歷,生成所述第一網(wǎng)頁的HTML元素信息的第一序列集合和所述第二網(wǎng)頁的HTML元素信息的第二序列集合; 刪除單元,用于刪除所述第一序列集合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁結(jié)構(gòu)無關(guān)的HTML元素信息。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述刪除單元,包括 第一刪除子單元,用于將所述第一序列集合中未在預(yù)設(shè)的與網(wǎng)頁結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在的HTML元素信息進(jìn)行刪除; 第二刪除子單元,用于將所述第二序列集合中未在預(yù)設(shè)的與網(wǎng)頁結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在的HTML元素信息進(jìn)行刪除。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述計算模塊,包括 第三獲取單元,用于獲取所述第一序列集合包括的HTML元素信息的第一數(shù)量; 第四獲取單元,用于獲取所述第二序列集合包括的HTML元素信息的第二數(shù)量; 計算單元,用于根據(jù)所述第一數(shù)量和所述第二數(shù)量,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述計算單元,包括 第一計算子單元,用于若所述第一數(shù)量等于所述第二數(shù)量,則根據(jù)序列相似度算法計算所述第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度; 第二計算子單元,用于若所述第一數(shù)量大于所述第二數(shù)量,則在所述第一序列集合中按順序選取所述第二數(shù)量的HTML元素信息作為新的第一序列集合,并根據(jù)序列相似度算法計算所述新的第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度; 第三計算子單元,用于若所述第一數(shù)量小于所述第二數(shù)量,則在所述第二序列集合中按順序選取所述第一數(shù)量的HTML元素信息作為新的第二序列集合,并根據(jù)序列相似度算法計算所述第一序列集合與所述新的第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度。
12.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括 第二獲取模塊,用于獲取所述第二網(wǎng)頁的類別信息; 設(shè)置模塊,用于將所述第一網(wǎng)頁的類別信息設(shè)置為所述第二網(wǎng)頁的類別信息。
全文摘要
本發(fā)明公開了一種識別相似網(wǎng)頁的方法及裝置,屬于計算機(jī)技術(shù)領(lǐng)域。所述方法包括分別獲取待分類的第一網(wǎng)頁的超文本標(biāo)記語言HTML元素信息和已知類別信息的第二網(wǎng)頁的HTML元素信息;根據(jù)所述第一網(wǎng)頁和所述第二網(wǎng)頁的HTML元素信息,計算所述第一網(wǎng)頁和所述第二網(wǎng)頁的相似度;當(dāng)所述相似度大于預(yù)設(shè)相似閾值時,確定所述第一網(wǎng)頁和所述第二網(wǎng)頁為相似網(wǎng)頁。本發(fā)明通過獲取待分類的第一網(wǎng)頁與已知類別的第二網(wǎng)頁的HTML元素信息,并根據(jù)兩個網(wǎng)頁對應(yīng)的HTML元素信息計算相似度,確定兩個網(wǎng)頁是否相似,彌補(bǔ)了現(xiàn)有技術(shù)中人工判斷網(wǎng)頁相似度效率低下以及通過直方圖判斷網(wǎng)頁相似度誤判率較高的缺陷。
文檔編號G06F17/30GK103049562SQ20121059033
公開日2013年4月17日 申請日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者李鵬 申請人:華為技術(shù)有限公司