專利名稱:一種網(wǎng)頁的排重方法及排重系統(tǒng)的制作方法
一種網(wǎng)頁的排重方法及排重系統(tǒng)技術(shù)領(lǐng)域 _本發(fā)明涉及網(wǎng)頁排重領(lǐng)域,特別是涉及一種網(wǎng)頁的排重方法及排重系統(tǒng)。
技術(shù)背景隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)上的網(wǎng)頁越來越多,據(jù)統(tǒng)計,中文網(wǎng)頁已逾百億,其中大約有70%屬于重復(fù)網(wǎng)頁。重復(fù)網(wǎng)頁是指實質(zhì)內(nèi)容相同的網(wǎng) 頁,例如,顯示內(nèi)容完全相同的網(wǎng)頁;正文內(nèi)容相同,^f旦標(biāo)題不同的網(wǎng)頁;正 文內(nèi)容相同,但輔助內(nèi)容不同的網(wǎng)頁等。重復(fù)網(wǎng)頁在互聯(lián)網(wǎng)網(wǎng)頁中所占的比重 非常大,如何在數(shù)量巨大的網(wǎng)頁中有效去掉重復(fù)網(wǎng)頁,是搜索引擎所面臨的一 個難題。目前,現(xiàn)有技術(shù)是通過在網(wǎng)頁中選取特征碼,對比特征碼的方式排除 重復(fù)網(wǎng)頁。參閱圖l,示出現(xiàn)有網(wǎng)頁的排重方法,具體步驟如下所述。步驟SlOl、在網(wǎng)頁中選取特定符號作為定位點。特定符號可為句號、逗號、分號、感嘆號等。將網(wǎng)頁正文中出現(xiàn)的特定符號作為定位點。步驟S102、在定位點兩邊選取一定數(shù)量的詞語作為特征碼。 一定數(shù)量可為根據(jù)網(wǎng)頁正文內(nèi)容的多少確定。例如,在定位點兩邊各選取5個詞語組成特征碼。步驟S103、比較選取的特征碼,如相同或相近似的特征碼超過閾值,判 定網(wǎng)頁為重復(fù)網(wǎng)頁;如低于闊值,判定網(wǎng)頁不是重復(fù)網(wǎng)頁。特征碼相同是指特 征碼所包含的詞語完全相同,特征碼相近似是指特征碼中所包含的具有實質(zhì)意 義的詞語相同,例如,特征碼為"天氣真好啊,,與特征碼"天氣真好"相近似。步驟S104、去除重復(fù)的網(wǎng)頁。上述方法雖然在一定程度上可有效地去除重復(fù)網(wǎng)頁,但針對互聯(lián)網(wǎng)上數(shù)以 百億的網(wǎng)頁,——對比分析網(wǎng)頁正文,通常網(wǎng)頁正文數(shù)據(jù)量較大,使分析對比 的效率低下。并且各網(wǎng)頁正文內(nèi)容的長短相差較大,特定符號的設(shè)置和閾值的 大小難以具體把握,設(shè)置不當(dāng)直接影響網(wǎng)頁排重的效果。例如,對于網(wǎng)頁正文 內(nèi)容很短的網(wǎng)頁,根據(jù)特定符號只提取20到個特征碼,但閾值為25,這樣,就是造成重復(fù)網(wǎng)頁的漏選,導(dǎo)致網(wǎng)頁排重的精度降低;而對于網(wǎng)頁正文內(nèi)容較長的網(wǎng)頁,根據(jù)特定符合提取500到個特征碼,但閾值為25,兩個內(nèi)容相關(guān) 但不重復(fù)的網(wǎng)頁很可能因相同或相近似的特征碼超過闊值,而被誤判為重復(fù)網(wǎng) 頁,導(dǎo)致網(wǎng)頁排重的準(zhǔn)確率較低。 發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種網(wǎng)頁的排重方法,以解決現(xiàn)有技術(shù) 中網(wǎng)頁排重效率低下的不足,該排重方法效率較高,并且能夠具有較高的精度 和準(zhǔn)確率。本發(fā)明的另 一個目的是提供一種網(wǎng)頁的排重系統(tǒng),以解決現(xiàn)有技術(shù)中網(wǎng)頁 排重效率低下的不足,該排重系統(tǒng)效率較高,并且能夠具有較高的精度和準(zhǔn)確 率。本發(fā)明一種網(wǎng)頁的排重方法,包括獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息; 比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的數(shù)量超過閾值的網(wǎng)頁;將提 取的網(wǎng)頁組成排重集合,基于所述排重集合排除重復(fù)網(wǎng)頁。優(yōu)選的,比較各網(wǎng)頁的正向鏈接信息之前,還包括去除各網(wǎng)頁正向鏈接 信息中的導(dǎo)航鏈接和回引鏈接。優(yōu)選的,基于所述排重集合排除重復(fù)網(wǎng)頁具體為在相同正向鏈接中查找 廣告鏈接,如廣告鏈接數(shù)量大于預(yù)設(shè)數(shù)值,排除包含上述相同正向鏈接的網(wǎng)頁。優(yōu)選的,基于所述排重集合排除重復(fù)網(wǎng)頁具體為在相同正向鏈4妄中查找 網(wǎng)頁正文鏈接,如網(wǎng)頁正文鏈接數(shù)量大于預(yù)置數(shù)值,排除包含上述相同正向鏈 接的網(wǎng)頁。優(yōu)選的,基于所述排重集合排除重復(fù)網(wǎng)頁具體為在相同正向鏈4妄中查找 相同的鏈接類型,如相同的鏈接類型數(shù)量超于設(shè)置數(shù)值,排除包含上述相同正 向鏈接的網(wǎng)頁。優(yōu)選的,基于所述排重集合排除重復(fù)網(wǎng)頁具體為獲 目同正向鏈接指向 的網(wǎng)頁,如上述網(wǎng)頁所屬主域的個數(shù)小于設(shè)定數(shù)值,排除包含上述相同正向鏈 接的網(wǎng)頁。優(yōu)選的,基于所述排重集合排除重復(fù)網(wǎng)頁具體為獲取相同正向鏈"^妄的錨 文本,如錨文本相同或相近似,排除包含上述相同正向鏈接的網(wǎng)頁。優(yōu)選的,基于所述排重集合排除重復(fù)網(wǎng)頁具體為才艮據(jù)相同正向鏈接的特 性,計算包含上述相同正向鏈接的網(wǎng)頁的分值,排除分值差在預(yù)定數(shù)值之內(nèi)的 網(wǎng)頁。優(yōu)選的,基于所述排重集合排除重復(fù)網(wǎng)頁具體為在相同正向鏈接中查找 廣告鏈接獲取廣告鏈接所占比例數(shù),網(wǎng)頁正文鏈接所占比例數(shù),相同鏈接類型 所占比例數(shù),網(wǎng)頁所屬的主域所占比例數(shù),相同及相近似的錨文本所占比例數(shù); 將上述比例數(shù)乘以相應(yīng)的系數(shù)后相加,如得到的數(shù)值大于設(shè)定閾值,排除包含 上述相同正向鏈接的網(wǎng)頁。優(yōu)選的,基于所述排重集合排除重復(fù)網(wǎng)頁具體為獲取正向鏈接指向網(wǎng)頁 的系數(shù)和各網(wǎng)頁的Rank值,上述網(wǎng)頁所在主域的系數(shù)和各主域的Rank值,及 正向鏈接錨文本的系數(shù)和各錨文本的權(quán)重值,其中,網(wǎng)頁的系數(shù)大于錨文本的 系數(shù)和主域的系數(shù);分別計算網(wǎng)頁的系數(shù)乘以各網(wǎng)頁的Rank值之和,主域的 系數(shù)乘以各主域的Rank值之和,錨文本的系數(shù)乘以各錨文本的權(quán)重值之和, 將計算數(shù)值相加得到網(wǎng)頁簽名;排除簽名相似度超過設(shè)定閾值的網(wǎng)頁。優(yōu)選的,還包括獲取正向鏈接指向網(wǎng)頁的系數(shù)和各網(wǎng)頁的Rank值,上 述網(wǎng)頁所在主域的系數(shù)和各主域的Rank值,及正向鏈接錨文本的系數(shù)和各錨 文本的權(quán)重值,其中,網(wǎng)頁的系數(shù)小于錨文本的系數(shù)和主域的系數(shù);分別計算 網(wǎng)頁的系數(shù)乘以各網(wǎng)頁的Rank值之和,主域的系數(shù)乘以各主域的Rank值之和, 錨文本的系數(shù)乘以各錨文本的權(quán)重值之和,將計算數(shù)值相加得到網(wǎng)頁質(zhì)量值; 保留網(wǎng)頁質(zhì)量值超過設(shè)置閾值的網(wǎng)頁。本發(fā)明還公開一種網(wǎng)頁的排重系統(tǒng),包括獲取模塊、比較模塊、提取模塊、 組成模塊、及排除模塊所述獲取模塊,用于獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接 信息;所述比較模塊,用于比較各網(wǎng)頁的正向鏈接信息;所述提取模塊,用于 提取相同正向鏈接的數(shù)量超過閾值的網(wǎng)頁;所述組成才莫塊,用于將提取的網(wǎng)頁 組成排重集合;所述排除模塊,用于基于所述排重集合排除重復(fù)網(wǎng)頁。優(yōu)選的,還包括特性計算模塊,用于根據(jù)相同正向鏈接的特性,計算包含 上述相同正向鏈接的網(wǎng)頁的分值,并將分值發(fā)送給排除模塊;所述排除模塊排 除分值差在預(yù)定數(shù)值之內(nèi)的網(wǎng)頁。優(yōu)選的,還包括數(shù)據(jù)獲取模塊和網(wǎng)頁簽名計算模塊所述數(shù)據(jù)獲取模塊,用于獲取正向鏈接指向網(wǎng)頁的系數(shù)和各網(wǎng)頁的Rank值,上述網(wǎng)頁所在主域的 系數(shù)和各主域的Rank值,及正向鏈接錨文本的系數(shù)和各錨文本的權(quán)重值,其 中,網(wǎng)頁的系數(shù)大于錨文本的系數(shù)和主域的系數(shù);所述網(wǎng)頁簽名計算^t塊,用 于分別計算網(wǎng)頁的系數(shù)乘以各網(wǎng)頁的Rank值之和,主域的系數(shù)乘以各主域的 Rank值之和,錨文本的系數(shù)乘以各錨文本的權(quán)重值之和,將計算數(shù)值相加得 到網(wǎng)頁簽名,將網(wǎng)頁簽名發(fā)送到所述排除模塊;所述排除模塊排除簽名相似度 超過設(shè)定閾值的網(wǎng)頁。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點本發(fā)明提取具有相同正向鏈接數(shù)量超過閾值的網(wǎng)頁作為排重集合,在基于 該排重集合排除重復(fù)網(wǎng)頁。相對應(yīng)現(xiàn)有技術(shù)中提取特征碼,對比特征碼,本發(fā) 明在互聯(lián)網(wǎng)各網(wǎng)頁上提取正向鏈接信息,對比正向鏈接信息。相對于人為規(guī)定 的特征碼,正向鏈接信息在網(wǎng)頁中更明確,易于識別和提取,并且方便對比。 本發(fā)明提取可能存在重復(fù)的網(wǎng)頁作為排重集合,大大縮小的排重計算的范圍, 減少計算量,提高排重效率。
圖1為現(xiàn)有網(wǎng)頁的排重方法流程圖; 圖2為本發(fā)明網(wǎng)頁的排重方法第一實施例流程圖; 圖3為本發(fā)明網(wǎng)頁的排重方法第二實施例流程圖; 圖4為本發(fā)明網(wǎng)頁的排重方法第三實施例流程圖; 圖5為本發(fā)明網(wǎng)頁的排重方法第四實施例流程圖; 圖6為本發(fā)明網(wǎng)頁的排重方法第五實施例流程圖; 圖7為本發(fā)明網(wǎng)頁的排重方法第六實施例流程圖; 圖8為本發(fā)明網(wǎng)頁的排重方法第七實施例流程圖; 圖9為本發(fā)明網(wǎng)頁的排重方法第八實施例流程圖; 圖IO為本發(fā)明網(wǎng)頁的排重方法第九實施例流程圖; 圖11為本發(fā)明網(wǎng)頁排重系統(tǒng)第一實施例示意圖; 圖12為本發(fā)明網(wǎng)頁排重系統(tǒng)第二實施例示意圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。一個網(wǎng)頁包含指向另 一個.網(wǎng)頁的超鏈接(URL ),認為這兩個網(wǎng)頁之間存在 鏈接關(guān)系,超鏈接上的文字為錨文本。如果網(wǎng)頁A使用錨文本S鏈接網(wǎng)頁B, 該鏈接對于網(wǎng)頁A為正向鏈接,對于網(wǎng)頁B為反向鏈接。每個網(wǎng)頁都可能存在 多個正向鏈接和反向鏈接。正向鏈接和錨文本可集中反映該網(wǎng)頁與其它網(wǎng)頁的 鏈接關(guān)系,鏈接關(guān)系相同或相近似的網(wǎng)頁一般網(wǎng)頁內(nèi)容也多相同或相近似。因 此,本發(fā)明將網(wǎng)頁中的正向鏈接和錨文本作為判斷重復(fù)網(wǎng)頁的依據(jù),高效、準(zhǔn) 確的排除重復(fù)網(wǎng)頁。參閱圖2,示出本發(fā)明網(wǎng)頁的排重方法第一實施例,具體步驟如下所述。步驟S201、獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息。網(wǎng)頁排重系統(tǒng)在互聯(lián) 網(wǎng)上抓取網(wǎng)頁,并提取各網(wǎng)頁的正向鏈接信息。正向鏈接包括圖片鏈接、文字 鏈接、廣告鏈接、隱藏鏈接、空文本鏈接、回引鏈接、導(dǎo)航鏈接等。其中,圖片鏈接是指鏈接標(biāo)識為圖片形式;文字鏈接是指鏈接標(biāo)識為文字 形式;廣告鏈接是指鏈接廣告信息的鏈接;隱藏鏈接是指鏈接標(biāo)識隱藏在其它 信息中;空文本鏈接是指超鏈接上沒有文字;回引鏈接是指指向本網(wǎng)頁主域、 子域首頁的鏈接;導(dǎo)航鏈接是指指向下一級域名或上一級域名,只起導(dǎo)航作用 的鏈接。步驟S202、比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的數(shù)量超過 閾值的網(wǎng)頁。將各網(wǎng)頁正向鏈接信息進行對比,如相同正向鏈接的數(shù)量超過閾 值,則提取包含這些相同正向鏈接的網(wǎng)頁;如相同正向鏈接的數(shù)量低于閾值, 則不提取該網(wǎng)頁。閾值的取值范圍為5-20。優(yōu)選為10。同理,本發(fā)明也可以通過預(yù)置比例,提取網(wǎng)頁。將各網(wǎng)頁正向鏈接信息進 行對比,如相同正向鏈接的數(shù)量超過預(yù)置比例,則提取包含這些相同正向鏈接 的網(wǎng)頁;如相同正向鏈接的數(shù)量低于預(yù)置比例,則不提取該網(wǎng)頁。預(yù)置比例的 取值范圍為20%-70%。優(yōu)選為50%。步驟S203、將提取的網(wǎng)頁組成排重集合,基于排重集合查找重復(fù)網(wǎng)頁。 例如,排重集合為((網(wǎng)頁A、網(wǎng)頁B、網(wǎng)頁C、網(wǎng)頁D)、(網(wǎng)頁A、網(wǎng)頁B、網(wǎng) 頁C、網(wǎng)頁D…)、(網(wǎng)頁A、網(wǎng)頁B、網(wǎng)頁C、網(wǎng)頁D…)...}。其中,小括號內(nèi) 為可能相互重復(fù)的網(wǎng)頁集合。本發(fā)明提取具有相同正向鏈接數(shù)量超過闊值的網(wǎng)頁作為排重集合,在基于 該排重集合排除重復(fù)網(wǎng)頁。相對應(yīng)現(xiàn)有技術(shù)中提取特征碼,對比特征碼,本發(fā) 明在互聯(lián)網(wǎng)各網(wǎng)頁上提取正向鏈接信息,對比正向鏈接信息。相對于人為規(guī)定 的特征碼,正向鏈接信息在網(wǎng)頁中更明確,易于識別和提取,并且方便對比。 本發(fā)明提取可能存在重復(fù)的網(wǎng)頁作為排重集合,大大縮小的排重計算的范圍, 減少計算量,提高排重效率。本發(fā)明可根據(jù)相同正向鏈接中廣告鏈接的數(shù)量,在排重集合中排除重復(fù)網(wǎng)頁。參閱圖3,示出本發(fā)明網(wǎng)頁的排重方法第二實施例,具體步驟如下所述。步驟S301、獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息。步驟S302、去除各網(wǎng)頁的正向鏈接信息中的導(dǎo)航鏈接和回引鏈接。因?qū)?航鏈接和回引鏈接是同主域網(wǎng)頁之間常使用的鏈接,不能很好地反映網(wǎng)頁本身 的鏈接特性,因此,將正向鏈接中的導(dǎo)航鏈接和回引鏈接去除,提高參與對比 的正向鏈接的質(zhì)量。步驟S303、比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的數(shù)量超過 閾值的網(wǎng)頁。步驟S304、將提取的網(wǎng)頁組成排重集合。步驟S305、在相同正向鏈接中查找廣告鏈接,如查找到的廣告鏈接數(shù)量 大于預(yù)設(shè)數(shù)值,排除包含上述相同正向鏈接的網(wǎng)頁;如查找到的廣告鏈接數(shù)量 小于預(yù)設(shè)數(shù)值,確定該網(wǎng)頁不為重復(fù)網(wǎng)頁。預(yù)設(shè)數(shù)值的范圍為5-10。因網(wǎng)頁廣告鏈接與該網(wǎng)頁正文內(nèi)容是密切相關(guān)的,如果網(wǎng)頁間相同正向鏈 接集中表現(xiàn)為廣告鏈接,表明上述網(wǎng)頁的內(nèi)容信息是相同或相近似的,可以確 定上述網(wǎng)頁為重復(fù)網(wǎng)頁,進行排除。該排重方法簡單實用,易于對比,可提高 排除效率。本發(fā)明可根據(jù)相同正向鏈接中正文鏈接的數(shù)量,在排重集合中排除重復(fù)網(wǎng)頁。參閱圖4,示出本發(fā)明網(wǎng)頁的排重方法第三實施例,具體步驟如下所述。步驟S401、獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息。步驟S402、去除各網(wǎng)頁的正向鏈接信息中的導(dǎo)航鏈接和回引鏈接。步驟S403、比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的數(shù)量超過 閾值的網(wǎng)頁。步驟S404、將提取的網(wǎng)頁組成排重集合。步驟S405、在相同正向鏈接中查找網(wǎng)頁正文鏈接,如網(wǎng)頁正文鏈接數(shù)量 大于預(yù)置數(shù)值,排除包含上述相同正向鏈"^的網(wǎng)頁;如網(wǎng)頁正文鏈接數(shù)量小于 預(yù)置凝:值,確定該網(wǎng)頁不為重復(fù)網(wǎng)頁。預(yù)置婆 f直的范圍為5-10。相對于其它正向鏈接,網(wǎng)頁正文鏈接更能反映網(wǎng)頁的鏈接特性,如相同正 向鏈接集中表現(xiàn)為網(wǎng)頁中文鏈接,表明上述網(wǎng)頁的內(nèi)容信息是相同或相近似 的,可以確定上述網(wǎng)頁為重復(fù)網(wǎng)頁,進行排除。該排重方法簡單實用,易于對 比,可提高排除效率。本發(fā)明可在相同的正向鏈接查找相同的鏈接類型,根據(jù)相同鏈接類型的數(shù) 量,在排重集合中排除重復(fù)網(wǎng)頁。參閱圖5,示出本發(fā)明網(wǎng)頁的排重方法第四實施例,具體步驟如下所述。步驟S501、獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息。步驟S502、去除各網(wǎng)頁的正向鏈接信息中的導(dǎo)航鏈接和回引鏈接。步驟S503、比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的數(shù)量超過 閾值的網(wǎng)頁。步驟S504、將提取的網(wǎng)頁組成排重集合。步驟S505、在相同的正向鏈接中查找相同鏈接類型,如相同鏈接類型數(shù) 量超于設(shè)置數(shù)值,排除包含上述相同正向鏈接的網(wǎng)頁;如相同鏈接類型數(shù)量小 于設(shè)置數(shù)值,確定該網(wǎng)頁不為重復(fù)網(wǎng)頁。設(shè)置數(shù)值的范圍為5-10。鏈接類型包括圖片鏈接、隱藏鏈接、文字鏈接、空文本鏈接等,如網(wǎng)頁間 相同正向鏈接的類型也基本相同,表明上述網(wǎng)頁的內(nèi)容信息是相同或相近似 的,可以確定上述網(wǎng)頁為重復(fù)網(wǎng)頁,進行排除。該排重方法簡單實用,易于對 比,可提高排除效率。本發(fā)明可查找相同正向鏈接指向網(wǎng)頁所屬的主域,根據(jù)主域的數(shù)量在排重 集合中排除重復(fù)網(wǎng)頁。參閱圖6,示出本發(fā)明網(wǎng)頁的排重方法第五實施例,具體步驟如下所述。步驟S601、獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息。步驟S602、去除各網(wǎng)頁的正向鏈接信息中的導(dǎo)航鏈接和回引鏈接。 步驟S603、比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的爽量超過 閾值的網(wǎng)頁。步驟S604、將提取的網(wǎng)頁組成排重集合。步驟S605、獲取相同的正向鏈接指向的網(wǎng)頁,如上述網(wǎng)頁所屬的主域個 數(shù)小于設(shè)定數(shù)值,排除包含上述相同正向鏈接的網(wǎng)頁;如上述網(wǎng)頁所屬的主域 個數(shù)大于設(shè)定數(shù)值,確定該網(wǎng)頁不為重復(fù)網(wǎng)頁。設(shè)定數(shù)值的范圍為5-10。網(wǎng)頁間相同正向鏈接集中指向某幾個主域的網(wǎng)頁,表明上述網(wǎng)頁的內(nèi)容信 息是相同或相近似的,可以確定上述網(wǎng)頁為重復(fù)網(wǎng)頁,進行排除。該排重方法 簡單實用,易于對比,可提高排除效率。本發(fā)明可獲取相同正向鏈接的錨文本,根據(jù)錨文本是否相同或相近似在排 重集合中排除重復(fù)網(wǎng)頁。參閱圖7,示出本發(fā)明網(wǎng)頁的排重方法第六實施例,具體步驟如下所述。步驟S701、獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息。步驟S 7 0 2 、去除各網(wǎng)頁的正向鏈接信息中的導(dǎo)航鏈接和回? 1鏈接。步驟S703、比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的數(shù)量超過 閾值的網(wǎng)頁。步驟S704、將提取的網(wǎng)頁組成排重集合。步驟S705、獲取相同正向鏈接的錨文本,如錨文本相同及相近似,排除 包含上述相同正向鏈接的網(wǎng)頁;如錨文本不相同也不相近似,確定該網(wǎng)頁不為 重復(fù)網(wǎng)頁。網(wǎng)頁間相同正向鏈接所使用的錨文本也相同或相近似,表明上述網(wǎng)頁的內(nèi) 容信息是相同或相近似的,可以確定上述網(wǎng)頁為重復(fù)網(wǎng)頁,進行排除。該排重 方法簡單實用,易于對比,可提高排除效率。本發(fā)明可根據(jù)相同正向鏈接的特性,計算包含上述相同正向鏈接的網(wǎng)頁的 分值,排除分值差在預(yù)定數(shù)值之內(nèi)的網(wǎng)頁。正向鏈接的特性的可依據(jù)其廣告鏈 接、網(wǎng)頁正文鏈接、鏈接類型、正向鏈接指向網(wǎng)頁的主域、正向鏈接的錨文本 等方面確定、例如,在上述方面任意選擇幾個組合使用,計算網(wǎng)頁的分值。如 將廣告鏈接、網(wǎng)頁正文鏈接兩方面組合使用;如將正向鏈接指向網(wǎng)頁的主域、正向鏈接的錨文本兩方面組合使用。下面重點說明其中 一優(yōu)選實施例。參閱圖8,示出本發(fā)明網(wǎng)頁的排重方法第七實施例,具體步驟如下所述。 步驟S801、獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息。步驟S802、去除各網(wǎng)頁的正向鏈接信息中的導(dǎo)航鏈接和回引鏈接。 步驟S803、比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的數(shù)量超過 閾值的網(wǎng)頁。步驟S804、將提取的網(wǎng)頁組成排重集合。步驟S805、根據(jù)相同正向鏈接的特性,計算包含上述相同正向鏈接的網(wǎng) 頁的分值,排除分值差在預(yù)定數(shù)值之內(nèi)的網(wǎng)頁。在相同正向鏈接中查找廣告鏈接,如廣告鏈接所占比例為Xl%,將該網(wǎng)頁 分值設(shè)置為Pl= XI* Ul;在相同的正向鏈接中查找網(wǎng)頁正文鏈接,如網(wǎng)頁正文鏈接所占比例為X2%, 將該網(wǎng)頁分值設(shè)置為P2= X2* U2;在相同的正向鏈接中查找相同鏈接類型,如相同鏈接類型所占比例為X3%, 將該網(wǎng)頁分值設(shè)置為P3= X3* U3;獲取相同的正向鏈接指向的網(wǎng)頁,如上述網(wǎng)頁所屬的主域所占比例為X4%, 將該網(wǎng)頁分值設(shè)置為P4= X4* U4;獲取相同正向鏈接的錨文本,如相同及相近似的錨文本所占比例為X5%, 將該網(wǎng)頁分值設(shè)置為PS- X5* U5;將網(wǎng)頁的上述數(shù)值相加,得到網(wǎng)頁的總分值為P = P1+ P2+ P3+ P4 + P5 = X1* U1+ X2* U2+ X3* U3 +X4* U4 +X5* U5。其中,Ul—U5為系數(shù), 取值范圍為O-l,根據(jù)網(wǎng)頁性質(zhì)的不同可進行調(diào)整。如相比較的網(wǎng)頁總分值超過設(shè)定閾值,則認為該網(wǎng)頁為重復(fù)網(wǎng)頁,進行排 重處理。本發(fā)明依據(jù)相同正向鏈接中廣告鏈接、網(wǎng)頁正文鏈接、鏈接類型、正向鏈 接指向網(wǎng)頁的主域、正向鏈接的錨文本等多方面判斷網(wǎng)頁是否為重復(fù)網(wǎng)頁,使 判斷更全面、更客觀,相應(yīng)的,網(wǎng)頁排重也更準(zhǔn)確。本發(fā)明還引入多種判斷標(biāo)準(zhǔn),進一步提高網(wǎng)頁排重的準(zhǔn)確率。本發(fā)明引入 網(wǎng)頁簽名的概念,根據(jù)正向鏈接指向網(wǎng)頁的系數(shù)和各網(wǎng)頁的Rank值,網(wǎng)頁所在主域的系數(shù)和各主域的Rank值,及正向鏈接錨文本的系數(shù)和各錨文本的權(quán)重值,計算網(wǎng)頁的簽名,排除簽名相似度高的網(wǎng)頁。參閱圖9,示出本發(fā)明網(wǎng)頁的排重方法第八實施例,具體步驟如下所述。步驟S901、獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息。步驟S902、去除各網(wǎng)頁的正向鏈接信息中的導(dǎo)航鏈接和回引鏈接。步驟S903、比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的數(shù)量超過閾值的網(wǎng)頁。步驟S904、將提取的網(wǎng)頁組成排重集合。步驟S905、計算網(wǎng)頁簽名,排除簽名相似度超過設(shè)定閾值的網(wǎng)頁。 獲取正向鏈接指向網(wǎng)頁的系數(shù)a和各網(wǎng)頁的Rank值PR,網(wǎng)頁所在主域的系數(shù)b和各主域的Rank值DR,及正向鏈4妻錨文本的系數(shù)c和各錨文本的權(quán)重值A(chǔ)R;網(wǎng)頁簽名等于=a*(PRl+PR2+PR3+...) + b*(DRl+DR2+DR3—) + c* (AR1+AR2+AR3+...);其中,a的取值大于b的取值和c的取值,a的取值范圍為0.5-0.9; b的 取值范圍為0.1-0.3; c的取值范圍為0.1 - 0.3;正向鏈接指向各網(wǎng)頁的Rank 值PR,網(wǎng)頁所在各主域的Rank值DR,及正向鏈接各錨文本的權(quán)重值A(chǔ)R根據(jù) 常規(guī)算法計算后存儲在數(shù)據(jù)庫內(nèi)。設(shè)定閾值的取值范圍100 - 10000。本發(fā)明通過合理設(shè)置系數(shù)值,使網(wǎng)頁簽名更側(cè)重反映正向鏈接指向網(wǎng)頁的 Rank值,簽名相似度高的網(wǎng)頁表明網(wǎng)頁內(nèi)容也非常相似,可直接認定為重復(fù) 網(wǎng)頁,進行排除。本發(fā)明在網(wǎng)頁排重中綜合考慮正向鏈接錨文本的權(quán)重值、正 向鏈接指向的各網(wǎng)頁的Rank值、上述網(wǎng)頁所屬主域的Rank值,使對重復(fù)網(wǎng)頁 的判斷更加客觀、全面,進一步提高網(wǎng)頁排重的準(zhǔn)確率。本發(fā)明引入網(wǎng)頁質(zhì)量值的概念,根據(jù)正向鏈接指向網(wǎng)頁的系數(shù)和各網(wǎng)頁的 Rank值,網(wǎng)頁所在主域的系數(shù)和各主域的Rank值,及正向鏈接錨文本的系數(shù) 和各錨文本的權(quán)重值,計算網(wǎng)頁的質(zhì)量值,在排除重復(fù)網(wǎng)頁之前,保留質(zhì)量較 高的網(wǎng)頁。參閱圖IO,示出本發(fā)明網(wǎng)頁的排重方法第九實施例,具體步驟如下所述。 步驟SIOOI、獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息。步驟S1002、去除各網(wǎng)頁的正向鏈接信息中的導(dǎo)航鏈接和回引鏈接。 步驟S1003、比較各網(wǎng)頁的正向鏈接信息,提M目同正向鏈接的數(shù)量超過 閾值的網(wǎng)頁。步驟S1004、將提取的網(wǎng)頁組成排重集合。步驟S1005、計算網(wǎng)頁質(zhì)量值,保留網(wǎng)頁質(zhì)量值超過設(shè)置閾值的網(wǎng)頁。 獲取正向鏈接指向網(wǎng)頁的系數(shù)x和各網(wǎng)頁的Rank值PR,網(wǎng)頁所在主域的系數(shù)y和各主域的Rank值DR, 及正向鏈^妻錨文本的系數(shù)z和各錨文本的權(quán)重值A(chǔ)R;網(wǎng)頁簽名等于=x*(PRl+PR2+PR3+...) + y*(DRl+DR2+DR3...) + z*(ARl+AR2+AR3+...);其中,x的取值范圍為0.1 - 0.3; b的取值范圍為0.5-0.9; c的取值范圍 為0.5 - 0.9;正向鏈接指向各網(wǎng)頁的Rank值PR,網(wǎng)頁所在各主域的Rank值 DR,及正向鏈接各錨文本的權(quán)重值A(chǔ)R根據(jù)常規(guī)算法計算后存儲在數(shù)據(jù)庫內(nèi)。 設(shè)置閾值的取值范圍100 - 10000。步驟S1006、計算網(wǎng)頁簽名,排除簽名相似度超過設(shè)定閾值的網(wǎng)頁。本發(fā)明通過合理設(shè)置系數(shù)值,使網(wǎng)頁質(zhì)量值更側(cè)重反映正向鏈接錨文本的 權(quán)重值、及其正向鏈接指向網(wǎng)頁所述主域的Rank值,質(zhì)量值高可表明網(wǎng)頁內(nèi) 容充實、豐富,存在重復(fù)的可能性較小。本發(fā)明在排重之前保留質(zhì)量值較高的 網(wǎng)頁,可有效避免網(wǎng)頁排重中的誤判,進一步提高網(wǎng)頁排重的準(zhǔn)確率?;谏鲜鼍W(wǎng)頁排重方法,本發(fā)明還提供一種網(wǎng)頁排重系統(tǒng),該排重系統(tǒng)效 率較高,并且能夠具有較高的精度和準(zhǔn)確率。參閱圖11,示出本發(fā)明網(wǎng)頁排重系統(tǒng)第一實施例,包括獲取模塊ll、比 較模塊12、提取模塊13、組成模塊14、及排除模塊15。獲取模塊11獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息。獲: Mt塊11在互聯(lián)網(wǎng) 上抓取網(wǎng)頁,并提取各網(wǎng)頁的正向鏈接信息。正向鏈接包括圖片鏈接、文字鏈 接、廣告鏈接、隱藏鏈接、空文本鏈接、回引鏈接、導(dǎo)航鏈接等。獲取模塊 11將獲取的正向鏈接信息發(fā)送到比較模塊12。比較模塊12比較各網(wǎng)頁的正向鏈接信息。比較模塊12將各網(wǎng)頁正向鏈接 信息進行對比,將比較結(jié)果發(fā)送到提取模塊13。提取模塊1 3提取相同正向鏈接的數(shù)量超過閾值的網(wǎng)頁,并將提取的網(wǎng)頁 發(fā)送到組成模塊14。組成模塊14將提取的網(wǎng)頁組成排重集合。排重集合為{(網(wǎng)頁A、網(wǎng)頁B、 網(wǎng)頁C、網(wǎng)頁D)、(網(wǎng)頁A、網(wǎng)頁B、網(wǎng)頁C、網(wǎng)頁D...)、(網(wǎng)頁A、網(wǎng)頁B、網(wǎng) 頁C、網(wǎng)頁D...)...}。其中,小括號內(nèi)為可能相互重復(fù)的網(wǎng)頁集合。組成模塊 14將排重集合發(fā)送到排除模塊15。排除模塊15基于排重集合排除重復(fù)網(wǎng)頁。參閱圖12,示出本發(fā)明網(wǎng)頁排重系統(tǒng)第二實施例,包括獲取模塊ll、比 較模塊12、提取模塊13、組成模塊14、排除模塊15、特性計算模塊16、數(shù) 據(jù)獲取模塊17、及網(wǎng)頁簽名計算模塊18。特性計算模塊16根據(jù)相同正向鏈接的特性,計算包含上述相同正向鏈接 的網(wǎng)頁的分值,并將分值發(fā)送給排除模塊15。特性計算模塊16在相同正向鏈接中查找廣告鏈接,如廣告鏈接數(shù)量大于 預(yù)設(shè)數(shù)值,將該網(wǎng)頁分值加l;如查找到的廣告鏈接數(shù)量小于預(yù)設(shè)數(shù)值,不增 加分值;特性計算模塊16在相同的正向鏈接中查找網(wǎng)頁正文鏈接,如網(wǎng)頁正文鏈 接數(shù)量大于預(yù)置數(shù)值,將該網(wǎng)頁分值加l;如查找到的網(wǎng)頁正文鏈接數(shù)量小于 預(yù)置數(shù)值,不增加分值;特性計算模塊16在相同的正向鏈接中查找相同鏈接類型,如相同鏈接類 型數(shù)量超于設(shè)置數(shù)值,將該網(wǎng)頁分值加1;如相同鏈接類型數(shù)量小于設(shè)置數(shù)值, 不增加分值;特性計算模塊16獲取相同的正向鏈接指向的網(wǎng)頁,如上述網(wǎng)頁所屬的主 域個數(shù)大于設(shè)定數(shù)值,將該網(wǎng)頁分值加l;如上述網(wǎng)頁所屬的主域個數(shù)大于設(shè) 定凄t值,不增加分值;特性計算模塊16獲取相同正向鏈接的錨文本,如錨文本相同及相近似, 將該網(wǎng)頁分值加1;如錨文本不相同也不相近似,不增加分值。排除模塊15在包含相同正向鏈接的網(wǎng)頁的分值在預(yù)定數(shù)值之內(nèi)時,排除 該網(wǎng)頁。數(shù)據(jù)獲:iMt塊17獲取正向鏈接指向網(wǎng)頁的系數(shù)a和各網(wǎng)頁的Rank值PR,網(wǎng)頁所在主域的系數(shù)b和各主域的Rank值DR,及正向鏈接錨文本的系it c和 各錨文本的權(quán)重值A(chǔ)R,其中,a的取值;^于b的取值和c的取值。數(shù)據(jù)獲取模 塊17將獲取的數(shù)值發(fā)送給網(wǎng)頁簽名計算模塊18。網(wǎng)頁簽名計算模塊18利用算式網(wǎng)頁簽名等于=a*(PRl+PR2+PR3+...) + b*(DRl+DR2+DR3...) + c*(ARl+AR2+AR3+...),計算網(wǎng)頁簽名,并將計算數(shù)值 發(fā)送給排除模塊15。排除模塊15排除模塊排除簽名相似度超過設(shè)定閾值的網(wǎng)頁。獲取模塊11、比較模塊12、提取模塊13、組成模塊14在該實施例中的 作用和功能與圖11所示實施例相同,不再贅述。以上對本發(fā)明所提供的一種網(wǎng)頁的排重方法及排重系統(tǒng),進行了詳細介例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的 一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變 之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1、一種網(wǎng)頁的排重方法,其特征在于,包括獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息;比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的數(shù)量超過閾值的網(wǎng)頁;將提取的網(wǎng)頁組成排重集合,基于所述排重集合排除重復(fù)網(wǎng)頁。
2、 如權(quán)利要求1所述的方法,其特征在于,比較各網(wǎng)頁的正向鏈接信息 之前,還包括去除各網(wǎng)頁正向鏈接信息中的導(dǎo)航鏈接和回引鏈接。
3、 如權(quán)利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重復(fù)網(wǎng)頁具體為在相同正向鏈接中查找廣告鏈接,如廣告鏈接數(shù)量大于預(yù)設(shè)數(shù)值,排除包 含上述相同正向鏈接的網(wǎng)頁。
4、 如權(quán)利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重復(fù)網(wǎng)頁具體為在相同正向鏈接中查找網(wǎng)頁正文鏈接,如網(wǎng)頁正文鏈接數(shù)量大于預(yù)置數(shù) 值,排除包含上述相同正向鏈接的網(wǎng)頁。
5、 如權(quán)利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重復(fù)網(wǎng)頁具體為在相同正向鏈接中查找相同的鏈接類型,如相同的鏈接類型數(shù)量超于設(shè)置 數(shù)值,排除包含上述相同正向鏈接的網(wǎng)頁。
6、 如權(quán)利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重復(fù)網(wǎng)頁具體為獲取相同正向鏈接指向的網(wǎng)頁,如上述網(wǎng)頁所屬主域的個數(shù)小于設(shè)定數(shù) 值,排除包含上述相同正向鏈接的網(wǎng)頁。
7、 如權(quán)利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重復(fù)網(wǎng)頁具體為獲取相同正向鏈接的錨文本,如錨文本相同或相近似,排除包含上述相同 正向鏈接的網(wǎng)頁。
8、 如權(quán)利要求1或2所述的方法,其特征在于,基于所述排重集合排除重復(fù)網(wǎng)頁具體為根據(jù)相同正向鏈接的特性,計算包含上述相同正向鏈接的網(wǎng)頁的分值,排 除分值差在預(yù)定數(shù)值之內(nèi)的網(wǎng)頁。
9、 如權(quán)利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重復(fù)網(wǎng)頁具體為在相同正向鏈接中查找廣告鏈接獲取廣告鏈接所占比例數(shù),網(wǎng)頁正文鏈接 所占比例數(shù),相同鏈接類型所占比例數(shù),網(wǎng)頁所屬的主域所占比例數(shù),相同及 相近似的錨文本所占比例數(shù);將上述比例數(shù)乘以相應(yīng)的系數(shù)后相加,如得到的數(shù)值大于設(shè)定閾值,排除 包含上述相同正向鏈接的網(wǎng)頁。
10、 如權(quán)利要求1或2所述的方法,其特征在于,基于所述排重集合排除 重復(fù)網(wǎng)頁具體為獲取正向鏈接指向網(wǎng)頁的系數(shù)和各網(wǎng)頁的Rank值,上述網(wǎng)頁所在主域的 系數(shù)和各主域的Rank值,及正向鏈接錨文本的系數(shù)和各錨文本的權(quán)重值,其 中,網(wǎng)頁的系數(shù)大于錨文本的系數(shù)和主域的系數(shù);分別計算網(wǎng)頁的系數(shù)乘以各網(wǎng)頁的Rank值之和,主域的系數(shù)乘以各主域 的Rank值之和,錨文本的系數(shù)乘以各錨文本的權(quán)重值之和,將計算數(shù)值相加 得到網(wǎng)頁簽名;排除簽名相似度超過設(shè)定閾值的網(wǎng)頁。
11、 如權(quán)利要求IO所述的方法,其特征在于,還包括 獲取正向鏈接指向網(wǎng)頁的系數(shù)和各網(wǎng)頁的Rank值,上述網(wǎng)頁所在主域的系數(shù)和各主域的Rank值,及正向鏈接錨文本的系數(shù)和各錨文本的權(quán)重值,其 中,網(wǎng)頁的系數(shù)小于錨文本的系數(shù)和主域的系數(shù);分別計算網(wǎng)頁的系數(shù)乘以各網(wǎng)頁的Rank值之和,主域的系數(shù)乘以各主域 的Rank值之和,錨文本的系數(shù)乘以各錨文本的權(quán)重值之和,將計算數(shù)值相加 得到網(wǎng)頁質(zhì)量值;保留網(wǎng)頁質(zhì)量值超過設(shè)置閾值的網(wǎng)頁。
12、 一種網(wǎng)頁的排重系統(tǒng),其特征在于,包括獲取模塊、比較^i塊、提取 模塊、組成模塊、及排除模塊所述獲取4莫塊,用于獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息; 所述比較模塊,用于比較各網(wǎng)頁的正向鏈接信息; _ 所述提取模塊,用于提取相同正向鏈接的數(shù)量超過閾值的網(wǎng)頁; 所述組成模塊,用于將提取的網(wǎng)頁組成排重集合; 所述排除模塊,用于基于所述排重集合排除重復(fù)網(wǎng)頁。
13、 如權(quán)利要求12所述的系統(tǒng),其特征在于,還包括特性計算模塊,用 于根據(jù)相同正向鏈接的特性,計算包含上述相同正向鏈接的網(wǎng)頁的分值,并將 分值發(fā)送給排除模塊;所述排除模塊排除分值差在預(yù)定數(shù)值之內(nèi)的網(wǎng)頁。
14、 如權(quán)利要求12或13所述的方法,其特征在于,還包括數(shù)據(jù)獲取模塊 和網(wǎng)頁簽名計算模塊所述數(shù)據(jù)獲取模塊,用于獲取正向鏈接指向網(wǎng)頁的系數(shù)和各網(wǎng)頁的Rank 值,上述網(wǎng)頁所在主域的系數(shù)和各主域的Rank值,及正向鏈接錨文本的系數(shù) 和各錨文本的權(quán)重值,其中,網(wǎng)頁的系數(shù)大于錨文本的系數(shù)和主域的系數(shù);所述網(wǎng)頁簽名計算模塊,用于分別計算網(wǎng)頁的系數(shù)乘以各網(wǎng)頁的Rank值 之和,主域的系數(shù)乘以各主域的Rank值之和,錨文本的系數(shù)乘以各錨文本的 權(quán)重值之和,將計算數(shù)值相加得到網(wǎng)頁簽名,將網(wǎng)頁簽名發(fā)送到所述排除模塊;所述排除模塊排除簽名相似度超過設(shè)定閾值的網(wǎng)頁。
全文摘要
本發(fā)明涉及一種網(wǎng)頁的排重方法,包括獲取互聯(lián)網(wǎng)上各網(wǎng)頁的正向鏈接信息,去除各網(wǎng)頁正向鏈接信息中的導(dǎo)航鏈接和回引鏈接,比較各網(wǎng)頁的正向鏈接信息,提取相同正向鏈接的數(shù)量超過閾值的網(wǎng)頁,將提取的網(wǎng)頁組成排重集合,基于所述排重集合排除重復(fù)網(wǎng)頁。本發(fā)明可根據(jù)相同正向鏈接的特性,計算包含上述相同正向鏈接的網(wǎng)頁的分值,排除分值差在預(yù)定數(shù)值之內(nèi)的網(wǎng)頁。本發(fā)明還計算網(wǎng)頁質(zhì)量值,保留網(wǎng)頁質(zhì)量值超過設(shè)置閾值的網(wǎng)頁,再計算網(wǎng)頁簽名,排除簽名相似度超過設(shè)定閾值的網(wǎng)頁。同時,本發(fā)明還公開一種網(wǎng)頁的排重系統(tǒng)。本發(fā)明解決現(xiàn)有技術(shù)中網(wǎng)頁排重效率低下的不足,網(wǎng)頁排重效率較高,并且能夠具有較高的精度和準(zhǔn)確率。
文檔編號G06F17/30GK101226533SQ20071030456
公開日2008年7月23日 申請日期2007年12月28日 優(yōu)先權(quán)日2007年12月28日
發(fā)明者劉云峰, 禹榮凌 申請人:騰訊科技(北京)有限公司