專利名稱:垃圾網(wǎng)頁的識別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息智能處理技術(shù)領(lǐng)域,特別涉及一種垃圾網(wǎng)頁的識別方法及系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)信息量的飛速增長使搜索引擎成為人們?nèi)粘9ぷ骱蜕钪胁豢苫蛉钡男畔@取手段。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心2011年12月的統(tǒng)計,我國的網(wǎng)民群體中搜索引擎用戶的數(shù)量已經(jīng)達到3. 96億,應(yīng)用普及率近80%,是網(wǎng)民使用最多的互聯(lián)網(wǎng)服務(wù)之一。搜索引擎在用戶的上網(wǎng)過程中發(fā)揮著重要的入口作用,因此,在搜索引擎檢索結(jié)果中取得有利的排名已經(jīng)成為網(wǎng)絡(luò)資源盡快獲得用戶關(guān)注的最有效途徑。在這種以搜索引擎為主要入口的信息獲取方式下,高搜索排名帶來的高流量和高收益誘使不少網(wǎng)絡(luò)內(nèi)容提供者使用作弊方式對搜索引擎算法進行欺詐,以獲取較有利的結(jié)果排名,而這種使用作弊方式基于欺詐獲利的網(wǎng)頁就是垃圾網(wǎng)頁。垃圾網(wǎng)頁的定義為利用搜索引擎運行算法的缺陷,采取針對搜索引擎的作弊手段,使其獲得高于其網(wǎng)絡(luò)信息質(zhì)量排名效果以謀求直接或間接利益的網(wǎng)頁。Fetterly等人在2003年通過對英文網(wǎng)絡(luò)頁面的采樣分析,認為其中至少有8. 1%的頁面是垃圾網(wǎng)頁;而07511871等人在2004年則估計Web中大約有10%至15%的垃圾內(nèi)容;根據(jù)我們在搜狗搜索引擎協(xié)助下對約8億個中文網(wǎng)頁的抽樣分析,中文網(wǎng)絡(luò)資源中約有15%的網(wǎng)頁屬于垃圾網(wǎng)頁。垃圾網(wǎng)頁對于網(wǎng)絡(luò)用戶、網(wǎng)絡(luò)資源環(huán)境和搜索引擎都會產(chǎn)生顯著的不利影響。對于網(wǎng)絡(luò)用戶而言,垃圾網(wǎng)頁排在檢索結(jié)果列表中靠前的位置以欺騙用戶點擊,這種行為增加了用戶查找想要的有用信息的難度,降低用戶的信息獲取效率;垃圾網(wǎng)頁還往往與病毒、木馬軟件等結(jié)合,對用戶的信息安全造成嚴重的影響。對于網(wǎng)絡(luò)資源環(huán)境而言,由于國家法律法規(guī)的限制,搜索引擎通常不會為色情、賭博等非法網(wǎng)絡(luò)內(nèi)容提供競價廣告服務(wù),這使得借助作弊方式提升排名成為了這些內(nèi)容提供網(wǎng)站的主要選擇,垃圾網(wǎng)頁中因而也充斥著各類非法內(nèi)容,而這種加入作弊技術(shù)的非法內(nèi)容網(wǎng)頁往往會造成更廣泛的不良影響,更嚴重的破壞網(wǎng)絡(luò)資源環(huán)境。對于搜索引擎系統(tǒng)而言,垃圾網(wǎng)頁的存在導(dǎo)致數(shù)據(jù)索引里充斥無用頁面,浪費大量存儲空間和處理時間,從而加大搜索引擎在處理每個查詢時的消耗,降低搜索處理效率,同時降低用戶對搜索引擎的信任度?,F(xiàn)有垃圾網(wǎng)頁識別方法的一種是針對基于內(nèi)容作弊的識別研究工作方面,針對垃圾頁面的URL特征及常用短語特征進行了分析,并對基于MSN搜索抓取的1. 05億網(wǎng)頁進行了頁面內(nèi)容特征提取,使用了包括標題長度、詞語的平均長度、可見內(nèi)容的比例、內(nèi)容壓縮比等特征來區(qū)分垃圾網(wǎng)頁與正常網(wǎng)頁。在此基礎(chǔ)上還使用了更多的內(nèi)容特征來進行識別工作,其特征包括錨文本的數(shù)量、頁面中含有熱門詞匯的數(shù)量等,并使用了排序?qū)W習(xí)方法對特征加以融合進行垃圾網(wǎng)頁的識別。另一種是基于鏈接結(jié)構(gòu)分析的垃圾網(wǎng)頁識別。GySngyi等人在2004年提出的TrustRank算法則開啟了一條利用鏈接結(jié)構(gòu)信息識別垃圾網(wǎng)頁的新途徑,可以應(yīng)用于包括內(nèi)容作弊和鏈接作弊在內(nèi)的多種垃圾網(wǎng)頁的識別。盡管該方法缺乏對于鏈接結(jié)構(gòu)圖中噪音數(shù)據(jù)的應(yīng)對方式,但仍有相當數(shù)量的研究者基于對TrustRank算法的改進提出了多個鏈接分析算法應(yīng)用于垃圾網(wǎng)頁識別,這些算法包括Ant1-TrustRank, Truncated PageRank等。以上垃圾網(wǎng)頁識別工作在相對固定的網(wǎng)頁測試集合上都獲得了較好的識別效果,國際知名的垃圾網(wǎng)頁評測Web Spam Challenge給出的評測結(jié)果很多達到80%以上的識別準確率,而不少相關(guān)論文給出的實驗結(jié)果準確率則往往超過90%。然而,種種原因造成這些識別算法在應(yīng)用于真實互聯(lián)網(wǎng)環(huán)境時仍然面臨著巨大的挑戰(zhàn),很難充分發(fā)揮其識別效果,這也造成了當今垃圾網(wǎng)頁仍舊對搜索引擎應(yīng)用造成巨大影響的事實?,F(xiàn)有技術(shù)的缺點主要如下(I)這些算法往往只能針對某種特定類型的垃圾網(wǎng)頁進行識別,缺乏識別的魯棒性,且垃圾網(wǎng)頁的作弊形式層出不窮,盡管識別算法對于某類垃圾網(wǎng)頁的識別性能很高,但無法對其他類型的垃圾進行識別,垃圾網(wǎng)頁作者一旦采用新的作弊形式,這些算法就往往會失去識別效用。(2)隨著作弊形式的發(fā)展,不少算法需要耗費大量計算、存儲或帶寬資源的方式進行垃圾識別,例如,對網(wǎng)頁內(nèi)容進行多元語言模型構(gòu)建、對網(wǎng)頁進行多次抓取、對網(wǎng)頁腳本進行深層解析等,這使得這些算法識別垃圾網(wǎng)頁的效率與搜索引擎的在線服務(wù)需求不相符合,因而無法應(yīng)用于實際搜索引擎服務(wù)中。
發(fā)明內(nèi)容
本發(fā)明的目的旨在至少解決上述的技術(shù)缺陷之一。為達到上述目的,本發(fā)明一方面的實施例提出一種垃圾網(wǎng)頁的識別方法,包括以下步驟S1 :獲取搜索引擎的查詢?nèi)罩静λ霾樵內(nèi)罩具M行預(yù)處理獲得預(yù)處理查詢?nèi)罩荆渲?,所述預(yù)處理查詢?nèi)罩景ǘ鄠€查詢和結(jié)果網(wǎng)頁;S2 :從所述預(yù)處理查詢?nèi)罩镜亩鄠€查詢和結(jié)果網(wǎng)頁中篩選出所述查詢的用戶點擊率和所述結(jié)果網(wǎng)頁的出現(xiàn)次數(shù)大于閾值的查詢-結(jié)果集合;S3 :從所述查詢-結(jié)果集合中人工篩選提取出多個垃圾網(wǎng)頁生成垃圾網(wǎng)頁樣例集合;S4 :根據(jù)所述查詢-結(jié)果集合和垃圾網(wǎng)頁樣例集合計算所述查詢-結(jié)果集合中每個結(jié)果網(wǎng)頁的垃圾得分和每個查詢的作弊得分;以及S5 :如果所述查詢-結(jié)果集合中結(jié)果網(wǎng)頁的垃圾得分大于閾值則所述結(jié)果網(wǎng)頁為垃圾網(wǎng)頁,并將所述結(jié)果網(wǎng)頁添加到所述垃圾網(wǎng)頁集合中。根據(jù)本發(fā)明實施例的方法,通過搜索引擎查詢?nèi)罩緮?shù)據(jù),從而發(fā)現(xiàn)和識別垃圾網(wǎng)頁降低了算法復(fù)雜度,并且結(jié)構(gòu)和參數(shù)簡單,識別結(jié)果全面可靠,具有較好的推廣性和適應(yīng)性。本發(fā)明的一個實例中,所述步驟SI具體包括Sll :獲取搜索引擎的查詢?nèi)罩?,并對所述查詢?nèi)罩巨D(zhuǎn)換為GBK格式;S12 :對所述轉(zhuǎn)換后的查詢?nèi)罩具M行整理獲得預(yù)處理查詢?nèi)罩?。本發(fā)明的一個實例中,所述步驟S2具體包括S21 :對所述預(yù)處理查詢?nèi)罩镜拿總€查詢分詞為多個關(guān)鍵詞,并將所述每個關(guān)鍵詞與用戶的點擊結(jié)果網(wǎng)頁構(gòu)建第一查詢-結(jié)果集合;S22 :計算所述第一查詢-結(jié)果集合中每個查詢的用戶結(jié)果網(wǎng)頁點擊頻率,并從中篩選出用戶點擊率大于閾值的查詢和結(jié)果網(wǎng)頁生成第二查詢-結(jié)果集合;S23 :計算所述第二查詢-結(jié)果集合中每個結(jié)果在所述第二查詢-結(jié)果集合中出現(xiàn)的次數(shù),并從中篩選出現(xiàn)次數(shù)大于閾值的查詢和結(jié)果網(wǎng)頁生成查詢-結(jié)果集合。本發(fā)明的一個實例中,所述步驟S4具體包括S41 :設(shè)置所述查詢-結(jié)果集合中每一個查詢的初始作弊得分,并設(shè)置所述查詢-結(jié)果集合中結(jié)果網(wǎng)頁的初始垃圾得分;S42 計算與所述查詢-結(jié)果集合中的每個查詢相關(guān)聯(lián)的所有結(jié)果網(wǎng)頁的垃圾得分的平均值作為對應(yīng)查詢的作弊得分;以及S43 :計算與所述查詢-結(jié)果集合中的每個結(jié)果網(wǎng)頁相關(guān)聯(lián)的所有查詢的作弊得分的平均值,如果所述結(jié)果網(wǎng)頁不在垃圾網(wǎng)頁中則將所述作弊得分的平均值作為對應(yīng)網(wǎng)頁的垃圾得分,否則不更改所述垃圾得分。為達到上述目的,本發(fā)明的實施例另一方面提出一種垃圾網(wǎng)頁的識別系統(tǒng),包括預(yù)處理模塊,用于獲取搜索引擎的查詢?nèi)罩静λ霾樵內(nèi)罩具M行預(yù)處理獲得預(yù)處理查詢?nèi)罩?,其中,所述預(yù)處理查詢?nèi)罩景ǘ鄠€查詢和結(jié)果網(wǎng)頁;篩選模塊,用于從所述預(yù)處理查詢?nèi)罩镜亩鄠€查詢和結(jié)果網(wǎng)頁中篩選出所述查詢的用戶點擊率和所述結(jié)果網(wǎng)頁的出現(xiàn)次數(shù)大于閾值的查詢-結(jié)果集合;提取模塊,用于從所述查詢-結(jié)果集合中人工篩選提取出多個垃圾網(wǎng)頁生成垃圾網(wǎng)頁樣例集合;計算模塊,用于根據(jù)所述查詢-結(jié)果集合和垃圾網(wǎng)頁樣例集合計算所述查詢-結(jié)果集合中每個結(jié)果網(wǎng)頁的垃圾得分和每個查詢的作弊得分;判斷模塊,用于判斷所述查詢-結(jié)果集合中結(jié)果網(wǎng)頁的垃圾得分是否大于閾值,如果大于閾值則為垃圾網(wǎng)頁;以及處理模塊,用于將所述結(jié)果網(wǎng)頁添加到所述垃圾網(wǎng)頁集合中。根據(jù)本發(fā)明實施例的系統(tǒng),通過搜索引擎查詢?nèi)罩緮?shù)據(jù),從而發(fā)現(xiàn)和識別垃圾網(wǎng)頁降低了算法復(fù)雜度,并且結(jié)構(gòu)和參數(shù)簡單,識別結(jié)果全面可靠,具有較好的推廣性和適應(yīng)性。本發(fā)明的一個實例中,所述預(yù)處理模塊包括獲取轉(zhuǎn)換單元,用于獲取搜索引擎的查詢?nèi)罩荆λ霾樵內(nèi)罩巨D(zhuǎn)換為GBK格式;預(yù)處理單元,用于對所述轉(zhuǎn)換后的查詢?nèi)罩具M行整理獲得預(yù)處理查詢?nèi)罩?。本發(fā)明的一個實例中,所述篩選模塊包括構(gòu)建單元,用于對所述預(yù)處理查詢?nèi)罩镜拿總€查詢分詞為多個關(guān)鍵詞,并將所述每個關(guān)鍵詞與用戶的點擊結(jié)果網(wǎng)頁構(gòu)建第一查詢-結(jié)果集合;第一計算單元,用于計算所述第一查詢-結(jié)果集合中每個查詢的用戶結(jié)果網(wǎng)頁點擊頻率,并從中篩選出用戶點擊率大于閾值的查詢和結(jié)果網(wǎng)頁生成第二查詢-結(jié)果集合;第二計算單元,用于計算所述第二查詢-結(jié)果集合中每個結(jié)果在所述第二查詢-結(jié)果集合中出現(xiàn)的次數(shù),并從中篩選出現(xiàn)次數(shù)大于閾值的查詢和結(jié)果網(wǎng)頁生成查詢-結(jié)果集合。本發(fā)明的一個實例中,所述計算模塊包括設(shè)置單元,用于設(shè)置所述查詢-結(jié)果集合中每一個查詢的初始作弊得分,并設(shè)置所述查詢-結(jié)果集合中結(jié)果網(wǎng)頁的初始垃圾得分;第三計算單元,用于計算與所述查詢-結(jié)果集合中的每個查詢相關(guān)聯(lián)的所有結(jié)果網(wǎng)頁的垃圾得分的平均值作為對應(yīng)查詢的作弊得分;以及第四計算單元,用于計算與所述查詢-結(jié)果集合中的每個結(jié)果網(wǎng)頁相關(guān)聯(lián)的所有查詢的作弊得分的平均值,如果所述結(jié)果網(wǎng)頁不在垃圾網(wǎng)頁中則將所述作弊得分的平均值作為對應(yīng)網(wǎng)頁的垃圾得分,否則不更改所述垃圾得分。本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中圖1為根據(jù)本發(fā)明一個實施例的垃圾網(wǎng)頁的識別方法的流程圖;圖2為根據(jù)本發(fā)明一個實施例的預(yù)處理后的日志組織結(jié)構(gòu)圖;圖3為根據(jù)本發(fā)明一個實施例的查詢-結(jié)果集合的垃圾得分的計算示意圖;圖4為根據(jù)本發(fā)明另一個實施例的垃圾網(wǎng)頁的識別系統(tǒng)的框架圖
具體實施例方式下面詳細描述本發(fā)明的實施例,實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。在本發(fā)明的描述中,需要理解的是,術(shù)語“第一”、“第二”、“第三”、“第四”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隱含地包括一個或者更多個該特征。在本發(fā)明的描述中,“多個”的含義是兩個或兩個以上,除非另有明確具體的限定。圖1為根據(jù)本發(fā)明一個實施例的垃圾網(wǎng)頁的識別方法的流程圖。如圖1所示,根據(jù)本發(fā)明實施例的垃圾網(wǎng)頁的識別方法,包括以下步驟步驟SlOl,獲取搜索引擎的查詢?nèi)罩静Σ樵內(nèi)罩具M行預(yù)處理獲得預(yù)處理查詢?nèi)罩荆渲?,預(yù)處理查詢?nèi)罩景ǘ鄠€查詢和結(jié)果網(wǎng)頁。具體地,首先獲取搜索引擎的查詢?nèi)罩?,并對查詢?nèi)罩巨D(zhuǎn)換為GBK格式。然后,對轉(zhuǎn)換后的查詢?nèi)罩具M行整理獲得預(yù)處理查詢?nèi)罩?,其預(yù)處理查詢?nèi)罩镜慕Y(jié)構(gòu)圖,如圖2所示。表I為預(yù)處理后搜索引擎查詢?nèi)罩景ǖ膬?nèi)容。表I
權(quán)利要求
1.一種垃圾網(wǎng)頁的識別方法,其特征在于,包括以下步驟 S1:獲取搜索引擎的查詢?nèi)罩静λ霾樵內(nèi)罩具M行預(yù)處理獲得預(yù)處理查詢?nèi)罩荆渲?,所述預(yù)處理查詢?nèi)罩景ǘ鄠€查詢和結(jié)果網(wǎng)頁;S2:從所述預(yù)處理查詢?nèi)罩镜亩鄠€查詢和結(jié)果網(wǎng)頁中篩選出所述查詢的用戶點擊率和所述結(jié)果網(wǎng)頁的出現(xiàn)次數(shù)大于閾值的查詢-結(jié)果集合; S3:從所述查詢-結(jié)果集合中人工篩選提取出多個垃圾網(wǎng)頁生成垃圾網(wǎng)頁樣例集合;S4:根據(jù)所述查詢-結(jié)果集合和垃圾網(wǎng)頁樣例集合計算所述查詢-結(jié)果集合中每個結(jié)果網(wǎng)頁的垃圾得分和每個查詢的作弊得分;以及 S5:如果所述查詢-結(jié)果集合中結(jié)果網(wǎng)頁的垃圾得分大于閾值則所述結(jié)果網(wǎng)頁為垃圾網(wǎng)頁,并將所述結(jié)果網(wǎng)頁添加到所述垃圾網(wǎng)頁集合中。
2.根據(jù)權(quán)利要求1所述的垃圾網(wǎng)頁的識別方法,其特征在于,所述步驟SI具體包括S11:獲取搜索引擎的查詢?nèi)罩?,并對所述查詢?nèi)罩巨D(zhuǎn)換為GBK格式;S12:對所述轉(zhuǎn)換后的查詢?nèi)罩具M行整理獲得預(yù)處理查詢?nèi)罩尽?br>
3.根據(jù)權(quán)利要求1所述的垃圾網(wǎng)頁的識別方法,其特征在于,所述步驟S2具體包括 S21 :對所述預(yù)處理查詢?nèi)罩镜拿總€查詢分詞為多個關(guān)鍵詞,并將所述每個關(guān)鍵詞與用戶的點擊結(jié)果網(wǎng)頁構(gòu)建第一查詢-結(jié)果集合; S22:計算所述第一查詢-結(jié)果集合中每個查詢的用戶結(jié)果網(wǎng)頁點擊頻率,并從中篩選出用戶點擊率大于閾值的查詢和結(jié)果網(wǎng)頁生成第二查詢-結(jié)果集合; S23 :計算所述第二查詢-結(jié)果集合中每個結(jié)果在所述第二查詢-結(jié)果集合中出現(xiàn)的次數(shù),并從中篩選出現(xiàn)次數(shù)大于閾值的查詢和結(jié)果網(wǎng)頁生成查詢-結(jié)果集合。
4.根據(jù)權(quán)利要求1所述的垃圾網(wǎng)頁的識別方法,其特征在于,所述步驟S4具體包括S41:設(shè)置所述查詢-結(jié)果集合中每一個查詢的初始作弊得分,并設(shè)置所述查詢-結(jié)果集合中結(jié)果網(wǎng)頁的初始垃圾得分;S42:計算與所述查詢-結(jié)果集合中的每個查詢相關(guān)聯(lián)的所有結(jié)果網(wǎng)頁的垃圾得分的平均值作為對應(yīng)查詢的作弊得分;以及S43:計算與所述查詢-結(jié)果集合中的每個結(jié)果網(wǎng)頁相關(guān)聯(lián)的所有查詢的作弊得分的平均值,如果所述結(jié)果網(wǎng)頁不在垃圾網(wǎng)頁中則將所述作弊得分的平均值作為對應(yīng)網(wǎng)頁的垃圾得分,否則不更改所述垃圾得分。
5.一種垃圾網(wǎng)頁的識別系統(tǒng),其特征在于,包括 預(yù)處理模塊,用于獲取搜索引擎的查詢?nèi)罩静λ霾樵內(nèi)罩具M行預(yù)處理獲得預(yù)處理查詢?nèi)罩?,其中,所述預(yù)處理查詢?nèi)罩景ǘ鄠€查詢和結(jié)果網(wǎng)頁; 篩選模塊,用于從所述預(yù)處理查詢?nèi)罩镜亩鄠€查詢和結(jié)果網(wǎng)頁中篩選出所述查詢的用戶點擊率和所述結(jié)果網(wǎng)頁的出現(xiàn)次數(shù)大于閾值的查詢-結(jié)果集合; 提取模塊,用于從所述查詢-結(jié)果集合中人工篩選提取出多個垃圾網(wǎng)頁生成垃圾網(wǎng)頁樣例集合; 計算模塊,用于根據(jù)所述查詢-結(jié)果集合和垃圾網(wǎng)頁樣例集合計算所述查詢-結(jié)果集合中每個結(jié)果網(wǎng)頁的垃圾得分和每個查詢的作弊得分; 判斷模塊,用于判斷所述查詢-結(jié)果集合中結(jié)果網(wǎng)頁的垃圾得分是否大于閾值,如果大于閾值則為垃圾網(wǎng)頁;以及處理模塊,用于將所述結(jié)果網(wǎng)頁添加到所述垃圾網(wǎng)頁集合中。
6.根據(jù)權(quán)利要求5所述的垃圾網(wǎng)頁的識別系統(tǒng),其特征在于,所述預(yù)處理模塊包括 獲取轉(zhuǎn)換單元,用于獲取搜索引擎的查詢?nèi)罩荆λ霾樵內(nèi)罩巨D(zhuǎn)換為GBK格式; 預(yù)處理單元,用于對所述轉(zhuǎn)換后的查詢?nèi)罩具M行整理獲得預(yù)處理查詢?nèi)罩尽?br>
7.根據(jù)權(quán)利要求5所述的垃圾網(wǎng)頁的識別系統(tǒng),其特征在于,所述篩選模塊包括 構(gòu)建單元,用于對所述預(yù)處理查詢?nèi)罩镜拿總€查詢分詞為多個關(guān)鍵詞,并將所述每個關(guān)鍵詞與用戶的點擊結(jié)果網(wǎng)頁構(gòu)建第一查詢-結(jié)果集合; 第一計算單元,用于計算所述第一查詢-結(jié)果集合中每個查詢的用戶結(jié)果網(wǎng)頁點擊頻率,并從中篩選出用戶點擊率大于閾值的查詢和結(jié)果網(wǎng)頁生成第二查詢-結(jié)果集合; 第二計算單元,用于計算所述第二查詢-結(jié)果集合中每個結(jié)果在所述第二查詢-結(jié)果集合中出現(xiàn)的次數(shù),并從中篩選出現(xiàn)次數(shù)大于閾值的查詢和結(jié)果網(wǎng)頁生成查詢-結(jié)果集合
8.根據(jù)權(quán)利要求5所述的垃圾網(wǎng)頁的識別系統(tǒng),其特征在于,所述計算模塊包括 設(shè)置單元,用于設(shè)置所述查詢-結(jié)果集合中每一個查詢的初始作弊得分,并設(shè)置所述查詢-結(jié)果集合中結(jié)果網(wǎng)頁的初始垃圾得分; 第三計算單元,用于計算與所述查詢-結(jié)果集合中的每個查詢相關(guān)聯(lián)的所有結(jié)果網(wǎng)頁的垃圾得分的平均值作為對應(yīng)查詢的作弊得分;以及 第四計算單元,用于計算與所述查詢-結(jié)果集合中的每個結(jié)果網(wǎng)頁相關(guān)聯(lián)的所有查詢的作弊得分的平均值,如果所述結(jié)果網(wǎng)頁不在垃圾網(wǎng)頁中則將所述作弊得分的平均值作為對應(yīng)網(wǎng)頁的垃圾得分,否則不更改所述垃圾得分。
全文摘要
本發(fā)明提出一種垃圾網(wǎng)頁的識別方法及系統(tǒng)。其中,方法包括獲取搜索引擎的查詢?nèi)罩静Σ樵內(nèi)罩具M行預(yù)處理獲得預(yù)處理查詢?nèi)罩?;從預(yù)處理查詢?nèi)罩镜亩鄠€查詢和結(jié)果網(wǎng)頁中篩選出查詢的用戶點擊率和結(jié)果網(wǎng)頁的出現(xiàn)次數(shù)大于閾值的查詢-結(jié)果集合;從查詢-結(jié)果集合中人工篩選提取出多個垃圾網(wǎng)頁生成垃圾網(wǎng)頁樣例集合;根據(jù)查詢-結(jié)果集合和垃圾網(wǎng)頁樣例集合計算查詢-結(jié)果集合中每個結(jié)果網(wǎng)頁的垃圾得分和每個查詢的作弊得分;當結(jié)果網(wǎng)頁的垃圾得分大于閾值則結(jié)果網(wǎng)頁為垃圾網(wǎng)頁,并將結(jié)果網(wǎng)頁添加到垃圾網(wǎng)頁集合中。根據(jù)本發(fā)明實施例的方法,通過搜索引擎查詢?nèi)罩景l(fā)現(xiàn)和識別垃圾網(wǎng)頁降低了算法復(fù)雜度,具有較好的推廣性和適應(yīng)性。
文檔編號G06F17/30GK103064984SQ20131002996
公開日2013年4月24日 申請日期2013年1月25日 優(yōu)先權(quán)日2013年1月25日
發(fā)明者劉奕群, 馬少平, 張敏, 金奕江, 張闊 申請人:清華大學(xué), 北京搜狗科技發(fā)展有限公司