專利名稱::網絡搜索中的基于鏈接層次分類的主題爬取方法
技術領域:
:本發(fā)明屬于網絡搜索
技術領域:
,尤其涉及在互聯(lián)網頁上進行主題搜索的方法。
背景技術:
:Web信息分布的局部專題化是互聯(lián)網信息所呈現(xiàn)的特征之一。但主題信息所占比例小、分散度高,傳統(tǒng)的搜索策略由于缺乏有效的內容預分析和過濾,爬取的無關主題網頁過多,成為限制爬蟲效率的瓶頸。因此如何利用有限的帶寬及存儲容量,迅速而準確地爬取主題網頁就成了近年來搜索引擎網頁爬取所關心的問題。目前,國內外在主題搜索領域展開了大量而深入的研究工作,基本思想和方法主要來源于SoumenChakrabarti等于1999年構建的FocusedCrawling系統(tǒng)SoumenChakrabarti,MartinvandenBerg,ByronDom.FocusedCrawling:anewapproachtotopic-specificWebresourcediscovery.In:Proceedingsofthe8thWorldWideWebConference.NewYork,NY,USA:ElsevierNorth-Holland,Inc.,1999.1623-1640,該系統(tǒng)主要由三部分構成①分類器,用于判定所爬取網頁的相關性,以確定是否以此進行擴展;②提取器,在已爬取網頁集中選取作為根結點的集成器網頁(HubPages);③網絡爬蟲,在分類器和提取器的指導下按照優(yōu)先級隊列進行網頁爬取。相關的主題搜索的研究工作主要提供了一些具體的實現(xiàn)方法,能夠支持濾取無關網頁和爬取盡可能多相關主題網頁的要求。2000年,MichelangeloDiligenti等人提出的基于上下文圖的主題爬取器[MichelangeloDiligenti,FransCoetzee,SteveLawrence,ClydeLeeGilesandMarcoGori.FocusedCrawlingUsingContextGraphs.Proceedingsofthe26thInternationalConferenceonVeryLargeDataBases.Cairo,Egypt,2000.。該爬取器的思想是依據(jù)整個網頁內容,將網頁按照到主題網頁距離劃分成不同類別,對候選網頁采用基于全部網頁內容的樸素貝葉斯分類算法分到不同類別,優(yōu)先爬取下預測離主題網頁距離最近的網頁中的所有鏈出URL。它的缺點如下l.由于對整個網頁內容進行分類,計算代價很大,而且由于互聯(lián)網網頁的不規(guī)范性,網頁中存在大量噪音會干擾分類的準確性;2.它給予同一個網頁中所有鏈出URL以相同的優(yōu)先級,這是不合理的,客觀上也導致實際爬取效果不佳。這些方法大都采用文本分類方法(如KNN,樸素貝葉斯,SVM等方法),依賴整個網頁內容進行判斷,計算代價昂貴。另外這些方法都給予同一個網頁中不同鏈接以相同的優(yōu)先級,忽略了不同鏈接重要性差異,顯然會影響爬取效果。之后也有研究更關注于錨文字(描述鏈出網頁的一段文字)和URL進行主題爬取器設計,如DouShen等分別基于錨文字和網頁內容采用SVM和樸素貝葉斯方法進行分類DouShen,Jian-TaoSun,QiangYang,ZhengChen.AComparisonofImplicitandExplicitLinksforWebPageClassification.Proceedingsofthe15thinternationalconferenceonWorldWideWeb.Banff,Canada,2006.,實驗結果表明單純對錨文字分類效果接近對目標網頁的整個網頁內容分類的效果。然而,目前利用錨文字和URL的方法并沒有考慮深層的網頁結構,僅僅通過與主題的相關程度確定優(yōu)先級,實驗也停留在小規(guī)模集合上,沒有成熟的系統(tǒng)并缺乏大規(guī)模爬取的性能測試。本發(fā)明利用了信息量濃縮的錨文字和URL文字,并基于網頁拓撲結構確定優(yōu)先級爬取,可以有效的避免上述缺點,提高爬取效率,并已經為背景系統(tǒng)提供了高效、穩(wěn)定的爬取服務。
發(fā)明內容網頁中的錨文字和URL在很大程度上能描述指向網頁的基本內容。所以,不同的鏈接(本發(fā)明所指的鏈接是錨文字和URL構成的一個整體,下同)在一定程度上指示了我們所要爬取主題網頁的代價。就某一個特定主題而言,從一些鏈接出發(fā)只需要很少的鏈接跳轉即可到達該主題網頁,而對于其他一些鏈接需要較多次鏈接跳轉才能到達。鏈接跳轉次數(shù)越少,說明從這個鏈接出發(fā)越能盡快爬取到盡可能多的主題網頁,即從這個鏈接出發(fā)爬取主題網頁的代價越小。因此,如果可以準確預測從一個鏈接出發(fā)到達主題相關網頁所經過的鏈接跳轉次數(shù),根據(jù)跳轉次數(shù)的差異確定優(yōu)先級,應能取得較好的爬取效率。本發(fā)明的目的是提供一種新的基于鏈接層次分類的主題爬取方法。本發(fā)明的技術方案如下一種基于鏈接層次分類的主題爬取方法,其總體結構如圖l所示,包括以下步驟:(1)構造訓練集選定一個相關主題的網站,爬取該網站下的所有網頁并保留網頁間的互連關系;標注該網站下的若干主題網頁,從標注的該網站下的主題網頁出發(fā),根據(jù)不同鏈接(URL和相應錨文字合并構成的詞串,下同)所屬層次的不同將鏈接劃分到不同類別,其中相同層次的鏈接歸為一個類,由鏈接組成的若干類構成訓練集;(2)將種子網頁加入待爬隊列;(3)爬取待爬隊列中所有URL,解析新爬取下的網頁,提取出所有的鏈接;(4)對于每一個新的鏈接,根據(jù)訓練集分類,然后根據(jù)所屬的鏈接類別確定該鏈接的優(yōu)先級,將其URL加入相應的優(yōu)先隊列;(5)按照順序査看n個優(yōu)先隊列,取優(yōu)先級最高的非空隊列中的所有URL放入待爬隊列中,跳到第(3)步;其它隊列保持不變;(6)優(yōu)先隊列全部為空或到達指定爬取循環(huán)次數(shù)則爬取結束。進一步,上述的基于鏈接層次分類的主題爬取方法,所述步驟(1)中還對訓練集中所有鏈接進行如下預處理去除URL和錨文字中的標點和停用詞(包括對語義無貢獻的詞,如a,and,html,php,edu,www等),并對URL和錨文字中的剩余詞語提取詞干(stemming)。進一步,上述的基于鏈接層次分類的主題爬取方法,所述步驟(4)中對新的鏈接進行分類以確定優(yōu)先級的方法是首先對步驟(3)提取的每一個新的鏈接作如下預處理去除URL和錨文字中的標點和停用詞,并對URL和錨文字中的剩余詞語提取詞干;然后采用一元模型計算處理后的詞串出現(xiàn)在訓練集中各個類中的概率,以概率最大的類作為該鏈接的分類結果,將URL放入相應的優(yōu)先隊列中。本發(fā)明的優(yōu)點和積極效果本發(fā)明提出了一種基于鏈接層次分類的主題爬取方法。本發(fā)明能夠有效地利用錨文字和URL等有用信息分析鏈接的層次性,在深層次網頁拓撲上展開分析和爬取。本發(fā)明在多個主題相關的網站上實際爬取,測試了性能,表明本發(fā)明系統(tǒng)能夠較為準確、高效地濾取無關網頁,爬取主題信息含量較高的網頁。-圖l為本發(fā)明的結構示意圖。圖2為本發(fā)明方法中的鏈接類別示意圖。圖3為采用本發(fā)明方法與兩種傳統(tǒng)方法對WSU課程網頁進行爬取的比較圖。圖4為采用本發(fā)明方法與兩種傳統(tǒng)方法對MIT課程網頁進行爬取的比較圖。圖5為采用本發(fā)明方法與兩種傳統(tǒng)方法對Caltech課程網頁進行爬取的比較圖。圖6為本發(fā)明的程序流程圖。具體實施例方式以下結合具體設施方式對本發(fā)明的方法進行詳細的描述。在本實施方式中,相關的主題網頁是大學網站上的課程網頁。詳細的基于鏈接層次分類的主題爬取方法,其流程圖如圖6所示,具體如下-構造訓練集在本發(fā)明的方法中,訓練集由鏈接組成的若干類構成。首先爬取2006年12月10日CaliforniaInstituteofTechnology主頁(www.caltech.edu)以下的所有網頁并保留其結構,生成有向圖PageGraph(V,E),v(vGV)是圖中的點,代表一個網頁,e(eGE)是圖中的有向邊,代表從一個網頁到另一個網頁的鏈接。之后手工標注了1543門課程相關網頁,并設定9個類,這是一個經驗值,可以根據(jù)不同的應用環(huán)境進行調整。如果存在從v,到課程網頁vo的一條路徑1:luenen-^.e^vo,則說明從鏈接e,(i<10)出發(fā),需要經過i次鏈接跳轉才能到達課程網頁,故鏈接ei被放入第i類。圖2是一個簡單示例,其中白圈代表非課程網頁,黑圈代表課程網頁,有向邊即是從一個網頁到6另一個網頁的鏈接,有向邊上的數(shù)字代表該鏈接所屬類別,其中一個鏈接可以同時屬于零個或多個不同類別(簡單起見,圖2中只標出了類別號小于4的所有鏈接)。在構造出訓練集之后,需要對訓練集作預處理首先去除標點符號(如","、";"、"/"等),然后去除停用詞(包括對語義無貢獻的詞,如a,and,html,php,edu,www等),并對英文詞語提取詞干(stemming)。具體的提取方法與[SpeechandLanguageProcessing.Jurafsky,D,&Martin,J.H.,PrenticeHall,2000相同。構造好訓練集后,將種子網頁加入待爬隊列。爬取待爬隊列中所有URL,解析新爬取下的網頁,提取出所有的鏈接,并對鏈接進行分類。分類器分類器的設計目的是為了計算每個鏈接所屬類別。本發(fā)明的方法采用一種新的分類方法。將訓練集看成9個語料庫,把新的鏈接作為一條語句,計算該語句在9個語料庫中出現(xiàn)的概率,以出現(xiàn)概率最高的那個類作為鏈接的分類結果。具體的,分類過程包括下面兩步1.語句預處理。首先去除標點符號(如","、";"、"/"等),然后去除停用詞(包括對語義無貢獻的詞,如a,and,html,php,edu,www等),并對英文詞語提取詞干(stemming)。具體的提取方法與SpeechandLanguageProcessing.J腦fsky,D.&Martin,J.H.,PrenticeHall,2000相同。2.對預處理后的詞串采用一元模型計算詞串出現(xiàn)在預處理后的語料庫1-9的概率DanielJurafsky,JamesH.Martin.SpeechandLanguageProcessing:AnIntroductiontoNaturalLanguageProcessing,ComputationalLinguisticsandSpeechRecognition.UpperSaddleRiver,NJ:PrenticeHall,2000.,以計算(1)式詞串概率最大的類作為該鏈接的分類結果,將鏈接放入相應的優(yōu)先隊列中<formula>formulaseeoriginaldocumentpage7</formula>其中Lj代表預處理后的詞串,Wk代表經過預處理后出現(xiàn)在鏈接中的詞,C,代表預處理過的第i類構成的語料庫,P(Wkld)代表Wk在語料庫i中的出現(xiàn)概率,具體計算如下。如果Wk在第i類中出現(xiàn),貝U:<formula>formulaseeoriginaldocumentpage8</formula>其中"^是Wk在第i類中出現(xiàn)的頻次,N,代表預處理后第i類中總的詞數(shù)。如果Wk不在第i類中出現(xiàn),但是在其它類中出現(xiàn),則需要對i類中Wk的出現(xiàn)概率做出估計IX,'其中分母是所有類的總詞數(shù),分子代表所有類中出現(xiàn)Wk的總頻次,即認為Wk在i類中出現(xiàn)概率為在任意語料庫中隨機出現(xiàn)的概率。如果Wk不在任何類中出現(xiàn),則該詞不影響類別判斷,跳過該詞。爬取器和頁面解析器爬取器用來爬取網頁中的鏈接,類似的方法在許多主題爬取器中都被采用,比如傳統(tǒng)的基于廣度優(yōu)先的爬取器nutchhttp:〃lucene鄰ache.org/nutch/,它從起始URL出發(fā),每次爬取完同一深度所有網頁后再爬取下一深度網頁,但是它不關注所爬網頁是否主題相關。而本發(fā)明的爬取器按照隊列序號從小到大檢査優(yōu)先隊列(即優(yōu)先級從高到低),如果高優(yōu)先級隊列不為空,則將其中的所有URL放入待爬隊列,否則,繼續(xù)檢查較低優(yōu)先級的隊列。然后,爬取器爬取待爬隊列中的URL。頁面解析器用來解析網頁中的鏈接,它從新爬取的網頁中提取出錨文字和URL進行下一步分類,按照分類結果將新URL放入不同的隊列,再開始新一輪的爬取。當所有隊列均為空或到達指定循環(huán)次數(shù)時,主題爬取結束。效果對比實驗在本具體實施方式中,爬取www.caltech.edu下的所有網頁(約300,000個),再手工標出其中課程網頁1543個,按照本發(fā)明的方法構造訓練集,其訓練集信息如表l所示表1:訓練集信息<table>tableseeoriginaldocumentpage9</column></row><table>為了實際評測本發(fā)明的性能,分別爬取了WashingtonStateUniversity(WSU)、MassachusettsInstituteofTechnology(MIT)以及CaliforniaInstituteofTechnology(Caltech)主頁以下的若干網頁(這三個網站的入口URL分別為www.wsu.edu、www.mit.edu以及www.caltech.edu)。作為對比,在采用本發(fā)明的同時還采用了其它兩個爬取器進行對照實驗(1)普通的廣度優(yōu)先爬取器Nutchhttp:〃lucene鄰ache.org/nutch/,該爬取器是一個被廣泛應用的開放源代碼的廣度優(yōu)先爬取器,能支持從若干個種子URL出發(fā),以一定的爬取器設置爬取指定層數(shù)網頁。(2)自主實現(xiàn)的傳統(tǒng)主題爬取器(實現(xiàn)思想見MichelangdoDiligenti,FransCoetzee,SteveLawrence,ClydeLeeGilesandMarcoGori.FocusedCrawlingUsingContextGraphs.Proceedingsofthe26thInternationalConferenceonVeryLargeDataBases.Cairo,Egypt,2000.),該爬取器是一個普適的主題爬取器,被大量文獻及工程采用。它依據(jù)整個網頁內容,將網頁按照到主題網頁距離分類,對候選網頁采用樸素貝葉斯分類算法分到不同類別,優(yōu)先爬取下預測離主題網頁距離最近的網頁中的所有鏈出URL。對主題爬取器評價可以通過記錄網頁的爬取時間,然后構造一個可信離線分類器來分類每段時間爬取下來的網頁,計算這段時間主題網頁占總爬取網頁比例,進而評價主題爬取器的效果SoumenChakrabarti,MartinvandenBerg,ByronDom.FocusedCrawling:anewapproachtotopic-specificWebresourcediscovery.In:Proceedingsofthe8thWorldWideWebConference.NewYork,NY,USA:ElsevierNorth-Holland,Inc.,1999.1623-1640;JunLi,KazutakaFuruse,KazunoriYamaguchi.FocusedCrawlingbyExploitingAnchorTextUsingDecisionTree.Proceedingsofthe14thinternationalWorldWildWebConference.Chiba,Japan,2005.。在本具體實施方式中采用的離線分類器是開源系統(tǒng)svmjighthttp:〃svmlight.joachims.org/,這是一個開源的支持向量機分類器,訓練集為人工標注的3677門課程網頁以及9555門非課程網頁(美國、歐洲數(shù)十個大學的網頁,與爬取器的訓練集不同)。為了驗證離線分類器的可信度,將訓練集隨機分成10個部分,以其中任何一個部分作為訓練集,其它部分作為測試集,經過測試,SVM分類器的宏平均和微平均Fl都在85%以上。圖3至圖5顯示了采用這樣的離線分類器評測主題爬取器的爬取進度和主題網頁比例的效果,其中橫坐標為一段時間爬取的總網頁數(shù),縱坐標為經SVM分類器分類后屬于課程網頁的比例。從圖中可以看到本發(fā)明(圖中為FuskmCrawler)在爬取相同數(shù)目網頁時得到的課程網頁的比例要明顯要高于其它兩個爬取器,在爬取WSU課程時,本發(fā)明平均可以達到21%的課程數(shù)目,然而傳統(tǒng)通用的主題爬取器僅有12%,廣度優(yōu)先的爬取器Nutch僅能達到7%,如圖3所示。在爬取MIT課程時,本發(fā)明可以達到33%的課程網頁比例,后兩者分別是25%和15%,如圖4所示。而在爬取Caltech課程時,三者的結果分別是40%,28%和22%。爬取MIT網頁時,對于一開始的數(shù)百個網頁傳統(tǒng)主題爬取器性能最優(yōu),但由于它給予同一個網頁中不同鏈接以相同的優(yōu)先級,缺乏深層考慮,性能很快被本發(fā)明超越,如圖5所示??傮w說來,本發(fā)明由于考慮了鏈接的層次性,相對于傳統(tǒng)通的主題爬取器以及廣度優(yōu)先的爬取器Nutch效率更高。在爬取WSU課程網頁時分別提高了77%和200%,在爬取Caltech課程網頁時提高了43%和167%,而在爬取MIT課程時分別提高了32%和120%。爬取MIT時提高的效率不如前兩者,主要原因是MIT課程網頁深度比較淺(在www.mit.edu主頁上就有一個擁有大量課程網頁的鏈接OpenCourseWare),因此即使廣度優(yōu)先的爬取器也能在一開始就有較高的課程網頁比例。另一個實驗爬取WSU的全部課程,并在其中標注了896個課程網頁,采用與上節(jié)同樣的方法構造另一個訓練集。然后將兩個訓練集的錨文字和URL中的詞采用信息增益(IG)的方法進行特征選取,并取出IG值較大的若干詞(IG值與相應詞在訓練集中對分類幫助正相關YimingYang,Jan0.Pedersen.AComparativeStudyonFeatureSelectioninTextCategorization.In:Proceedingsofthe14thInternationalConferenceonMachineLearning.SanFrancisco,CA,USA:MorganKaufmannPublishersInc.,1997,412-420.)比較兩個訓練集中重疊詞占所有詞的比例。表2是分別取前50,100,200,500,1000,2000個詞的比較結果:表2:WSU與Caltech分別構造的訓練集重疊性比較<table>tableseeoriginaldocumentpage11</column></row><table>注第1組WSU錨文字VS.WSUURL第2組Caltech錨文字vs.CaltechURL第3組WSU錨文字vs.Caltech錨文字第4組WSUURLvs.CaltechURL可以從中看出,由于網頁語言的不規(guī)范性,使得不同大學對課程網頁描述的錨文字、URL缺乏一個重疊度很高的交集。同一個大學網頁的URL和錨文字重疊程度要高于不同大學之間,不同大學間網頁的錨文字和錨文字所用的詞重疊性要略高于URL和URL的重疊性。這是因為錨文字是對目標網頁的語言描述,比URL這樣的符號描述要更為規(guī)范。因此,采用一個大學的訓練集爬取其它大學時候效果往往與預期存在差距。例如對于爬取器訓練集是Caltech網頁的情形,圖5爬取Caltech網頁可以達到平均40%比例的課程網頁,與此同時爬取另一個大學WSU網頁僅能達到21%的比例。通過構造更加全面的訓練集,本發(fā)明的效率應當會有更大的提高。權利要求1.網絡搜索中的基于鏈接層次分類的主題爬取方法,其特征在于包括以下步驟(1)構造訓練集選定一個相關主題的網站,爬取該網站下的所有網頁并保留網頁間的互連關系;標注該網站下的若干主題網頁,從標注的該網站下的主題網頁出發(fā),根據(jù)不同鏈接所屬層次不同構造由鏈接組成的若干類構成的訓練集,其中相同層次的鏈接歸為一個類;(2)將種子網頁加入待爬隊列;(3)爬取待爬隊列中所有URL,解析新爬取下的網頁,提取出所有的鏈接;(4)對于每一個新提取的鏈接,根據(jù)訓練集進行分類,然后根據(jù)所屬的鏈接類別確定該鏈接的優(yōu)先級,將其URL加入相應的優(yōu)先隊列;(5)按照順序查看優(yōu)先隊列,取優(yōu)先級最高的非空隊列中的URL放入待爬隊列中,跳到第(3)步;其它隊列保持不變;(6)優(yōu)先隊列全部為空或到達指定爬取循環(huán)次數(shù)則爬取結束。2.如權利要求1所述的主題爬取方法,其特征在于所述步驟(1)中訓練集中的鏈接還進行如下預處理去除URL和錨文字中的標點和停用詞,并對URL和錨文字中的剩余詞語提取詞干。3.如權利要求2所述的主題爬取方法,其特征在于所述步驟(3)中提取的鏈接還進行如下預處理去除URL和錨文字中的標點和停用詞,并對URL和錨文字中的剩余詞語提取詞干。4.如權利要求3所述的主題爬取方法,其特征在于所述步驟(4)中對確定鏈接優(yōu)先級的方法是采用一元模型計算處理后的詞串出現(xiàn)在訓練集中各個類中的概率,以概率最大的類作為該鏈接的分類結果,將鏈接放入相應的優(yōu)先隊列中。全文摘要本發(fā)明公開一種網絡搜索中的基于鏈接層次分類的主題爬取方法。該方法包括以下步驟(1)構造訓練集;(2)將種子網頁加入待爬隊列;(3)爬取待爬隊列中所有URL,解析新爬取下的網頁,提取出所有的鏈接;(4)對于每一個新的鏈接根據(jù)訓練集分類,然后根據(jù)所屬的鏈接類別確定該鏈接的優(yōu)先級,將其URL加入相應的優(yōu)先隊列;(5)按照順序查看優(yōu)先隊列,取優(yōu)先級最高的非空隊列中的所有URL放入待爬隊列中,跳到第(3)步,其它隊列保持不變;(6)優(yōu)先隊列全部為空或到達指定爬取循環(huán)次數(shù)則爬取結束。本發(fā)明能夠有效利用錨文字和URL等有用信息分析鏈接的層次性,在深層次網頁拓撲上展開分析和爬取。文檔編號H04L29/06GK101101601SQ20071011859公開日2008年1月9日申請日期2007年7月10日優(yōu)先權日2007年7月10日發(fā)明者毅周,銘張,江云亮申請人:北京大學