專利名稱::列表頁識別系統(tǒng)及方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,具體涉及一種列表頁識別系統(tǒng)及方法。
背景技術(shù):
:在搜索技術(shù)中,基本上分為兩大類。一類是以整個互聯(lián)網(wǎng)為對象,抓取全部網(wǎng)頁(目前在一個站點內(nèi)會限制抓取深度,且一般不處理js(Javascript),而且只是處理部分動態(tài)頁面),并對網(wǎng)頁進行處理和分析的網(wǎng)頁搜索,即全網(wǎng)搜索。另一類是只針對某類頁面進行抓取和分析處理的垂直搜索,如圖片搜索、視頻搜索、博客搜索、論壇搜索、新聞搜索等。對于大部分垂直搜索來說,目前都是基于種子(也稱作列表頁)進行處理。垂直搜索的處理可分為兩個部分其一是找種子;其二是從種子頁面上發(fā)現(xiàn)具體產(chǎn)品頁面,即不同類另IJ(圖片、視頻、新聞等)的頁面,然后對這些產(chǎn)品頁面進行處理。基于列表頁進行垂直搜索。先以人工或以某些預先指定的規(guī)則發(fā)現(xiàn)種子,然后對列表頁進行變頻抓取,從列表頁面上發(fā)現(xiàn)垂直搜索產(chǎn)品的具體產(chǎn)品頁面,對這些產(chǎn)品頁面進行下載、分析處理,最終形成垂直搜索系統(tǒng)需要的數(shù)據(jù)。傳統(tǒng)的以人工方式或已知的一些規(guī)則收集列表頁,很難把所有的列表頁面收集全。而且網(wǎng)站改版后,舊的列表頁會失效,而新的列表頁又可能會漏掉。所以,在傳統(tǒng)的垂直搜索引擎內(nèi),總有很多內(nèi)容搜索不到,導致搜索的準確度不高。
發(fā)明內(nèi)容鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的列表頁識別系統(tǒng)及方法。依據(jù)本發(fā)明的一個方面,提供了一種列表頁識別系統(tǒng),包括·頁面框架ID計算模塊,適于抽取預先獲取的網(wǎng)頁的頁面框架,計算頁面框架ID;模式累計模塊,適于累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式;列表頁識別模塊,適于按所述頁面框架模式與事先建立的產(chǎn)品知識庫中列表頁的頁面框架模式比對,以識別出列表頁??蛇x地,頁面框架ID計算模塊進一步包括頁面框架抽取模塊,適于根據(jù)網(wǎng)頁源代碼中的html語言標簽抽取所述網(wǎng)頁的頁面框架??蛇x地,頁面框架ID計算模塊進一步包括頁面框架抽取模塊,適于按標點識別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架??蛇x地,所述模式累計模塊進一步包括閾值調(diào)節(jié)模塊,適于判斷在預定時間內(nèi)對應同一ID的頁面框架數(shù)量是否累計達到所述閾值,若沒有,則將該ID對應的閾值以一定的步長遞減。可選地,所述模式累計模塊進一步包括待定列表頁識別模塊,適于判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時間的鏈接,若有,則設定該網(wǎng)頁為待定列表頁;列表頁框架模式確定模塊,適于每隔一段時間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設為列表頁框架模式。可選地,所述產(chǎn)品知識庫存儲有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,所述列表頁識別模塊進一步包括特征匹配模塊,適于將所述頁面框架模式的各網(wǎng)頁特征與知識庫中已知類別的頁面框架模式的各網(wǎng)頁特征進行匹配;特征評分模塊,適于對匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應的權(quán)重;權(quán)重累計模塊,適于按類別累計所述頁面框架模式在該類別下所得的權(quán)重,若對應列表頁類別所得的權(quán)重最高,則所述頁面為列表頁。可選地,所述系統(tǒng)還包括列表頁處理模塊,適于若識別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進一步獲取所述列表頁中列出的信息對應的網(wǎng)頁??蛇x地,所述系統(tǒng)還包括網(wǎng)頁獲取模塊,適于通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點為單位獲取網(wǎng)頁,同一站點下不同域名的對應的網(wǎng)頁存儲在相同的根目錄下。根據(jù)本發(fā)明的另一方面,提供了一種列表頁識別方法,包括以下步驟抽取預先獲取的網(wǎng)頁的頁面框架,并計算頁面框架ID;累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式;按所述頁面框架模式與事先建立的產(chǎn)品知識庫中列表頁的頁面框架模式比對,以識別出列表頁??蛇x地,抽取所述網(wǎng)頁的頁面框架的方式為根據(jù)網(wǎng)頁源代碼中的html語言標簽抽取所述網(wǎng)頁的頁面框架??蛇x地,抽取所述網(wǎng)頁的頁面框架的方式為按標點識別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架。可選地,判斷在預定時間內(nèi)對應同一ID的頁面框架數(shù)量是否累計達到所述閾值,若沒有,則將該ID對應的閾值以一定的步長遞減??蛇x地,所述列表頁框架模式的計算方式為判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時間的鏈接,若有,則設定該網(wǎng)頁為待定列表頁;每隔一段時間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設為列表頁框架模式??蛇x地,所述產(chǎn)品知識庫存儲有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,將所述頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對的方式為將所述頁面框架模式的各網(wǎng)頁特征與知識庫中已知類別的頁面框架模式的各網(wǎng)頁特征進行匹配;對匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應的權(quán)重;按類別累計所述頁面框架模式在該類別下所得的權(quán)重,若對應列表頁類別所得的權(quán)重最高,則所述頁面為列表頁??蛇x地,若識別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進一步獲取所述列表頁中列出的信息對應的網(wǎng)頁??蛇x地,通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點為單位獲取網(wǎng)頁,同一站點下不同域名的對應的網(wǎng)頁存儲在相同的根目錄下。根據(jù)本發(fā)明的列表頁識別系統(tǒng)及方法通過計算網(wǎng)頁的頁面框架模式并按模式在產(chǎn)品知識庫比對,以識別出列表頁,由此解決了列表頁很難搜集全的問題,取得了全面搜集列表頁,搜索的準確度高的有益效果。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中圖I示出了根據(jù)本發(fā)明一個實施例的列表頁識別方法流程圖;圖2示出了圖I中步驟S130的具體流程圖;圖3示出了根據(jù)本發(fā)明一個實施例的列表頁識別系統(tǒng)結(jié)構(gòu)示意圖;圖4示出了圖3中列表頁識別模塊的具體結(jié)構(gòu)示意圖。具體實施例方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。本實施例的列表頁識別方法流程如圖I所示,包括步驟S110,抽取預先獲取的網(wǎng)頁的頁面框架,并計算頁面框架ID。預先獲取的網(wǎng)頁可以是全網(wǎng)搜索抓取的網(wǎng)頁。抽取所述網(wǎng)頁的頁面框架的方式為根據(jù)網(wǎng)頁源代碼中的html語言標簽抽取所述網(wǎng)頁的頁面框架,抽取時只保留html語言標簽中框架類的標記,如frame、table等,同時保留id、name、class屬性,去掉其余屬性。還可以按標點識別出網(wǎng)頁正文,去除正文以得到網(wǎng)頁的頁面框架。抽取頁面框架后將頁面內(nèi)屬性根據(jù)哈希算法計算頁面框架的hash值,即為頁面框架ID,例如抽取頁面框架后利用MD5或FNV等哈希技術(shù)方法計算頁面框架的hash值,即將框架類的標記,如frame、table及其id、name、class屬性等按哈希算法進行計算,所得結(jié)果值即為頁面框架ID。由于采用相同的哈希函數(shù),相同的頁面框架計算出的頁面框架ID也相同。步驟S120,累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式。計算時分標題、時間、正文等分別計算,計算方法可以采用機器自動學習機制,如采用支持向量機(supportvectormachine,SVM)計算頁面框架模式。學習時將網(wǎng)頁轉(zhuǎn)換成基于Html語言的源代碼,并抽取html語言標簽關(guān)鍵標記,得到頁面框架,這一步在步驟SllO中已經(jīng)實現(xiàn)。將頁面框架輸入SVM進行學習,即對頁面框架進行html語言標簽關(guān)鍵標記的匹配,若干相同ID的頁面框架中的html語言標簽關(guān)鍵標記能夠完全匹配,因此,對于相同ID的頁面框架學習到上述閾值的數(shù)量后,SVM便輸出相應頁面框架的頁面框架模式。在學習之前對于頁面框架還需要做如下操作將標題與title或anchor(錨點)里的可變內(nèi)容匹配;時間要按照時間的格式計算;正文有可變比率及長度要求,這樣可以剔除廣告等垃圾內(nèi)容。為了防止某些網(wǎng)頁長時間得不到處理,判斷在預定時間內(nèi)對應同一ID的頁面框架數(shù)量是否累計達到該閾值,若沒有,則將該ID對應的閾值以一定的步長遞減。其中該閾值優(yōu)選為23。步驟S130,將頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對,以識別出列表頁。其中產(chǎn)品知識庫存儲有已知類別(列表頁為其中一種網(wǎng)頁類別)頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,網(wǎng)頁類別與其對應的頁面框架模式下的網(wǎng)頁特征及權(quán)重可以以映射表的形式記錄在產(chǎn)品知識庫中,如下表I所示表I網(wǎng)頁類別與其對應的頁面框架模式下的網(wǎng)頁特征及權(quán)重映射表權(quán)利要求1.一種列表頁識別系統(tǒng),包括頁面框架ID計算模塊,適于抽取預先獲取的網(wǎng)頁的頁面框架,計算頁面框架ID;模式累計模塊,適于累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式;列表頁識別模塊,適于按所述頁面框架模式與事先建立的產(chǎn)品知識庫中列表頁的頁面框架模式比對,以識別出列表頁。2.如權(quán)利要求I所述的列表頁識別系統(tǒng),其特征在于,頁面框架ID計算模塊進一步包括頁面框架抽取模塊,適于根據(jù)網(wǎng)頁源代碼中的html語言標簽抽取所述網(wǎng)頁的頁面框架。3.如權(quán)利要求I或2所述的列表頁識別系統(tǒng),其特征在于,頁面框架ID計算模塊進一步包括頁面框架抽取模塊,適于按標點識別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架。4.如權(quán)利要求廣3中任一項所述的列表頁識別系統(tǒng),其特征在于,所述模式累計模塊進一步包括閾值調(diào)節(jié)模塊,適于判斷在預定時間內(nèi)對應同一ID的頁面框架數(shù)量是否累計達到所述閾值,若沒有,則將該ID對應的閾值以一定的步長遞減。5.如權(quán)利要求廣4中任一項所述的列表頁識別系統(tǒng),其特征在于,所述模式累計模塊進一步包括待定列表頁識別模塊,適于判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時間的鏈接,若有,則設定該網(wǎng)頁為待定列表頁;列表頁框架模式確定模塊,適于每隔一段時間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設為列表頁框架模式。6.如權(quán)利要求廣5中任一項所述的列表頁識別系統(tǒng),其特征在于,所述產(chǎn)品知識庫存儲有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,所述列表頁識別模塊進一步包括特征匹配模塊,適于將所述頁面框架模式的各網(wǎng)頁特征與知識庫中已知類別的頁面框架模式的各網(wǎng)頁特征進行匹配;特征評分模塊,適于對匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應的權(quán)重;權(quán)重累計模塊,適于按類別累計所述頁面框架模式在該類別下所得的權(quán)重,若對應列表頁類別所得的權(quán)重最高,則所述頁面為列表頁。7.如權(quán)利要求1飛中任一項所述的列表頁識別系統(tǒng),其特征在于,所述系統(tǒng)還包括列表頁處理模塊,適于若識別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進一步獲取所述列表頁中列出的信息對應的網(wǎng)頁。8.如權(quán)利要求f7中任一項所述的列表頁識別系統(tǒng),其特征在于,所述系統(tǒng)還包括網(wǎng)頁獲取模塊,適于通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點為單位獲取網(wǎng)頁,同一站點下不同域名的對應的網(wǎng)頁存儲在相同的根目錄下。9.一種列表頁識別方法,包括以下步驟抽取預先獲取的網(wǎng)頁的頁面框架,并計算頁面框架ID;累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式;按所述頁面框架模式與事先建立的產(chǎn)品知識庫中列表頁的頁面框架模式比對,以識別出列表頁。10.如權(quán)利要求9所述的列表頁識別方法,其特征在于,抽取所述網(wǎng)頁的頁面框架的方式為根據(jù)網(wǎng)頁源代碼中的html語言標簽抽取所述網(wǎng)頁的頁面框架。11.如權(quán)利要求9或10所述的列表頁識別方法,其特征在于,抽取所述網(wǎng)頁的頁面框架的方式為按標點識別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架。12.如權(quán)利要求iTll中任一項所述的列表頁識別方法,其特征在于,判斷在預定時間內(nèi)對應同一ID的頁面框架數(shù)量是否累計達到所述閾值,若沒有,則將該ID對應的閾值以一定的步長遞減。13.如權(quán)利要求擴12中任一項所述的列表頁識別方法,其特征在于,所述列表頁框架模式的計算方式為判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時間的鏈接,若有,則設定該網(wǎng)頁為待定列表頁;每隔一段時間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設為列表頁框架模式。14.如權(quán)利要求擴13中任一項所述的列表頁識別方法,其特征在于,所述產(chǎn)品知識庫存儲有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,將所述頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對的方式為將所述頁面框架模式的各網(wǎng)頁特征與知識庫中已知類別的頁面框架模式的各網(wǎng)頁特征進行匹配;對匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應的權(quán)重;按類別累計所述頁面框架模式在該類別下所得的權(quán)重,若對應列表頁類別所得的權(quán)重最高,則所述頁面為列表頁。15.如權(quán)利要求擴14中任一項所述的列表頁識別方法,其特征在于,若識別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進一步獲取所述列表頁中列出的信息對應的網(wǎng)頁。16.如權(quán)利要求擴15中任一項所述的列表頁識別方法,其特征在于,通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點為單位獲取網(wǎng)頁,同一站點下不同域名的對應的網(wǎng)頁存儲在相同的根目錄下。全文摘要本發(fā)明公開了一種列表頁識別系統(tǒng),涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,該系統(tǒng)包括頁面框架ID計算模塊,適于抽取預先獲取的網(wǎng)頁的頁面框架,計算頁面框架ID;模式累計模塊,適于累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式;列表頁識別模塊,適于按所述頁面框架模式與事先建立的產(chǎn)品知識庫中列表頁的頁面框架模式比對,以識別出列表頁。本發(fā)明還公開了一種列表頁識別方法。本發(fā)明的列表頁識別系統(tǒng)及方法通過計算網(wǎng)頁的頁面框架模式并按模式在產(chǎn)品知識庫比對,以識別出列表頁,由此解決了列表頁很難搜集全的問題,取得了全面搜集列表頁,搜索的準確度高的有益效果。文檔編號G06F17/30GK102929948SQ20121037693公開日2013年2月13日申請日期2012年9月29日優(yōu)先權(quán)日2012年9月29日發(fā)明者盧宏林申請人:北京奇虎科技有限公司,奇智軟件(北京)有限公司