一種基于網(wǎng)頁信息數(shù)據(jù)的數(shù)據(jù)索引系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于網(wǎng)頁信息數(shù)據(jù)的數(shù)據(jù)索引系統(tǒng),包括索引器模塊、網(wǎng)絡應用程序模塊和solr搜索應用服務器模塊,所述索引器模塊中建立索引記錄數(shù)據(jù)庫;所述網(wǎng)絡應用程序模塊中包括查詢模塊和查詢反饋模塊;所述solr搜索應用服務器模塊中包括XML響應模塊、XML更新處理器、CSV更新處理器、標準請求處理器、客戶請求處理器、lucene搜索應用服務器和管理、跟新、查詢功能模塊;所述索引記錄數(shù)據(jù)庫的輸出端、查詢模塊的輸出端分別和solr搜索應用服務器模塊相連接,solr搜索應用服務器模塊的輸出端和查詢反饋模塊相連接,查詢反饋模塊向外界輸出最優(yōu)數(shù)據(jù)索引結果。本發(fā)明系統(tǒng)采用模塊化設計,能顯著提高數(shù)據(jù)源的質量和檢索的準確性。
【專利說明】
一種基于網(wǎng)頁信息數(shù)據(jù)的數(shù)據(jù)索引系統(tǒng)
技術領域
[0001]本發(fā)明公開了一種基于網(wǎng)頁信息數(shù)據(jù)的數(shù)據(jù)索引系統(tǒng),涉及網(wǎng)絡數(shù)據(jù)搜索技術領域。
【背景技術】
[0002]垂直搜索引擎,即專業(yè)或專用搜索引擎,就是為查詢某一學科或主題的信息而產生的查詢工具,專門收錄某一方面、某一行業(yè)或某一主題的信息,有的文獻也稱之為“主題搜索引擎”或“專業(yè)搜索引擎”。垂直搜索引擎市場巨大,近幾年垂直搜索引擎在商業(yè)領域獲得了巨大利潤,垂直搜索引擎面向的對象五花八門,不斷有面向新興行業(yè)的垂直搜索引擎網(wǎng)站出現(xiàn),比如工作搜索、旅游搜索、購物搜索,各行業(yè)都可以把分類細化,利用垂直搜索引擎技術滿足自己的需求。但目前垂直搜索所用的技術模式與傳統(tǒng)搜索引擎模式進本相同,只是把數(shù)據(jù)源進行了細化,效果更佳個性化地滿足了用戶需求。不同種類的垂直搜索引擎都是由大型通用搜索引擎慢慢發(fā)展演變而來的,所以新一代搜索引擎沒有完全拋棄前面搜索引擎的技術和資源,是一種繼承和發(fā)展的關系。這個時期應該是垂直搜索引擎和通用搜索引擎長時間共存的。
[0003]國內外目前對垂直搜索的研究主要集中在:
[0004](I)目錄精細化方向。由于垂直搜索引擎相對于綜合搜索引擎的最大優(yōu)勢,是對信息進行深度的、精細化的處理。與早期的網(wǎng)址分類搜索引擎相似,但垂直搜索引擎只選定了某一特定行業(yè)或某一主題進行目錄的細化分類,結合機器抓取行業(yè)相關站點的信息提供專業(yè)化的搜索服務。這種專業(yè)化的分類目錄,很容易讓用戶迅速知道自己要找的是什么,并且按目錄點擊就能找到。未來的垂直搜索引擎將會更加精細的劃分不同的行業(yè),用戶想要什么就可以得到什么。
[0005](2)深度挖掘分析元數(shù)據(jù)。通過對元數(shù)據(jù)信息進入深度加工,該類垂直搜索引擎為用戶提供綜合搜索引擎無法做到的專業(yè)性、功能性、關聯(lián)性,有的加入了用戶信息管理以及信息發(fā)布互動功能,能很好地滿足了用戶對專業(yè)性、準確性、功能性、個性化的需求。
[0006](3)向交易平臺發(fā)展。垂直搜索引擎由于自身對行業(yè)的專注,使得它可以提供行業(yè)信息深度和廣度的整合提供更加細致周到的服務。對消費領域可以推出針對某一行業(yè)的搜索交易平臺。搜索交易平臺提供行業(yè)內商家和顧客直接溝通、咨詢不再需要轉到第三方平臺再進行交易。
[0007]國內垂直搜索引擎與相關行業(yè)相結合,在房地產、IT信息、招聘、購物、生活服務及證券投資方面發(fā)展迅猛。代表性的垂直搜索引擎網(wǎng)站有:
[0008](I)搖籃網(wǎng)是國內專業(yè)權威的中文育兒網(wǎng)站。為年輕的父母和準備做父母的夫婦提供從母親懷孕到孩子六歲期間各個方面的知識、服務和產品資訊。搖籃網(wǎng)是全球最大的中文母嬰門戶網(wǎng)站之一。網(wǎng)站資料權威、內容豐富,讓用戶準確、高效的獲取育JL方面的服務?目息O
[0009](2)淘寶網(wǎng)是亞洲最大的網(wǎng)絡零售商圈。淘寶會員在交易過程中感覺到輕松活撥的家庭式文化氛圍。淘寶旺旺具備了查看交易歷史、了解對方信用情況、個人信息、頭像、多方聊天等一般聊天工具所具備的功能。淘寶網(wǎng)讓用戶足不出戶,選定合適的商品,提供了一個快速且準確的信息獲取平臺。
[0010](3)酷訊是中國領先的旅游搜索引擎,為廣大出行用戶提供便利的“機票〃、〃酒店、〃度假〃、〃火車票〃等信息搜索等信息,成為國內領先的旅游搜索引擎??嵊嵉暮诵氖抢眉夹g優(yōu)勢,幫助用戶在互聯(lián)網(wǎng)海量信息中發(fā)掘有價值的、可節(jié)省成本的信息,及時滿足個性化搜索需求。
[0011]但是盡管國內的垂直搜索引擎發(fā)展較快,但與國外的相比,無論是在數(shù)據(jù)挖掘、開放接口、信息共享等技術層面還是在行業(yè)經驗上都還有很多差距,這就大大的限制了垂直搜索引擎的發(fā)展,使得專業(yè)化搜索服務還無法在社會的各個領域得到廣泛發(fā)展。國外的垂直搜索引擎正處于一個蓬勃發(fā)展的時期,各種專業(yè)搜索引擎層出不窮,許多專門領域都有自己的垂直搜索引擎,以下幾個是最有代表性的:
[0012]I )Elsevier 的 Scirus 系統(tǒng)
[0013]Elsevier開發(fā)的Scims系統(tǒng)是專門面向科學家和科研人員的學術信息檢索系統(tǒng)。目前Scims系統(tǒng)的相關網(wǎng)頁資源達到了數(shù)億,其搜索領域涵蓋廣泛,主要以自然科學為主,其他的領域也頗有涉及,如經濟學、商學、管理學等社會學科。Scirus系統(tǒng)網(wǎng)頁信息來源包括期刊論文、預印本、報告、科學數(shù)據(jù)、發(fā)明專利及有關網(wǎng)頁,大多是網(wǎng)上開放獲取資源,也含部分商業(yè)收費資源。系統(tǒng)對搜索到的網(wǎng)頁資源進行整合處理,提取其中對科研人員有利信息,通過文章、內容等條件能夠檢索出信息來符合科研人員使用的要求。
[0014]2)Berkeley的Focused Project
[0015]Focused Project通過分類器和凈化器來引導網(wǎng)絡_蛛,幫助網(wǎng)絡購]蛛定位下載和主題分類相關度高的網(wǎng)頁信息。分類器負責計算網(wǎng)頁相關度,凈化器負責排除相關度不高的鏈接。
[0016]3)NEC 研究院的 CiteSeer
[0017]NE C研究院的CiteSeer(又名ResearcMndex)是在自動引文索引(AutonomousCitat1n Indexing ,ACI)機制的基礎上建設的一個學術論文數(shù)字圖書館,CiteSeer的數(shù)據(jù)資源已經有50多萬篇,而且都是計算機方向的論文,其目標是從多個方面促進學術文獻的傳播和反饋,CiteSeer系統(tǒng)具有檢索相關文獻及其屬性、查看文獻的引用
[0018]4)美國國家科學數(shù)字圖書館的Collect1n Building Program
[0019]美國國家科學數(shù)字圖書館的Collect1n Building Program項目是一個在線數(shù)字圖書館,致力于在科學、數(shù)學、工程和技術某些領域獲得學科資源的自動收集。
[0020]搜索引擎市場的穩(wěn)步發(fā)展與網(wǎng)絡信息爆炸式增長,網(wǎng)民人數(shù)不斷增加緊密相連?;ヂ?lián)網(wǎng)信息內容的急劇增加使用戶或得信息的方式更加復雜多樣化,對搜索引擎的依賴也不斷增加。使用垂直搜索引擎獲得信息已經成為網(wǎng)民的基本網(wǎng)絡行為之一,這將進一步推動我國垂直搜索引擎行業(yè)快速發(fā)展。
[0021]現(xiàn)有技術中常用的搜索引擎在數(shù)據(jù)源的質量選取上還有較大的缺陷,檢索的準確性還有待提尚。
【發(fā)明內容】
[0022]本發(fā)明所要解決的技術問題是:針對現(xiàn)有技術的缺陷,提供一種基于網(wǎng)頁信息數(shù)據(jù)的數(shù)據(jù)索引系統(tǒng),。
[0023 ]本發(fā)明為解決上述技術問題采用以下技術方案:
[0024]—種基于網(wǎng)頁信息數(shù)據(jù)的數(shù)據(jù)索引系統(tǒng),包括索引器模塊、網(wǎng)絡應用程序模塊和solr搜索應用服務器模塊,其中:
[0025]所述索引器模塊中建立索引記錄數(shù)據(jù)庫;
[0026]所述網(wǎng)絡應用程序模塊中包括查詢模塊和查詢反饋模塊;
[0027]所述solr搜索應用服務器模塊中包括XML響應模塊、XML更新處理器、CSV更新處理器、標準請求處理器、客戶請求處理器、Iucene搜索應用服務器和管理、跟新、查詢功能模塊;
[0028]所述索引記錄數(shù)據(jù)庫的輸出端、查詢模塊的輸出端分別和solr搜索應用服務器模塊相連接,solr搜索應用服務器模塊的輸出端和查詢反饋模塊相連接,查詢反饋模塊向外界輸出最優(yōu)數(shù)據(jù)索引結果;
[0029]索引記錄數(shù)據(jù)庫使用網(wǎng)絡蜘蛛自動從互聯(lián)網(wǎng)上抓取網(wǎng)頁數(shù)據(jù),solr搜索應用服務器模塊對網(wǎng)絡蜘蛛抓取到的網(wǎng)頁數(shù)據(jù)進行語義分析歸類,分析網(wǎng)頁的時效性和地域性,將時間和地域信息加入到索引記錄數(shù)據(jù)庫或跟索引記錄數(shù)據(jù)庫建立聯(lián)系,Iucene搜索應用服務器采用最佳優(yōu)先搜索策略進行網(wǎng)頁抓取,按照網(wǎng)頁分析算法,預測候選URL與目標網(wǎng)頁的相似度,或與主題的相關性,并選取評價最好的一個或幾個URL進行抓取,處理得出最優(yōu)數(shù)據(jù)索引結果。
[0030]作為本發(fā)明的進一步優(yōu)選方案,所述索引記錄數(shù)據(jù)庫采用php空間,包括10M的MYSQL數(shù)據(jù)庫+1G網(wǎng)頁空間。
[0031]作為本發(fā)明的進一步優(yōu)選方案,所述網(wǎng)絡應用程序模塊為C/S結構。
[0032]本發(fā)明采用以上技術方案與現(xiàn)有技術相比,具有以下技術效果:系統(tǒng)采用模塊化設計,分為數(shù)據(jù)采集預處理、核心搜索服務、行為分析個性化和群智優(yōu)化。
[0033]數(shù)據(jù)采集預處理負責互聯(lián)網(wǎng)資源的收集和預處理,為精準搜索建立完備的索引數(shù)據(jù)庫;行為分析個性化依據(jù)用戶當前的網(wǎng)絡行為和歷史行為記錄建立行為分析模型,進而得出用戶當前的搜索意圖;核心搜索服務是利用自主優(yōu)化的垂直搜索機制,搭建高效的搜索服務平臺;群智優(yōu)化是利用公眾對搜索的參與和信息過濾,提高數(shù)據(jù)源的質量和檢索的準確性。
【附圖說明】
[0034]圖1是本發(fā)明的系統(tǒng)模塊連接示意圖。
【具體實施方式】
[0035]下面詳細描述本發(fā)明的實施方式,所述實施方式的示例在附圖中示出,
[0036]其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0037]本技術領域技術人員可以理解的是,本發(fā)明中涉及到的相關模塊及其實現(xiàn)的功能是在改進后的硬件及其構成的裝置、器件或系統(tǒng)上搭載現(xiàn)有技術中常規(guī)的計算機軟件程序或有關協(xié)議就可實現(xiàn),并非是對現(xiàn)有技術中的計算機軟件程序或有關協(xié)議進行改進。例如,改進后的計算機硬件系統(tǒng)依然可以通過裝載現(xiàn)有的軟件操作系統(tǒng)來實現(xiàn)該硬件系統(tǒng)的特定功能。因此,可以理解的是,本發(fā)明的創(chuàng)新之處在于對現(xiàn)有技術中硬件模塊的改進及其連接組合關系,而非僅僅是對硬件模塊中為實現(xiàn)有關功能而搭載的軟件或協(xié)議的改進。
[0038]本技術領域技術人員可以理解的是,本發(fā)明中提到的相關模塊是用于執(zhí)行本申請中所述操作、方法、流程中的步驟、措施、方案中的一項或多項的硬件設備。所述硬件設備可以為所需的目的而專門設計和制造,或者也可以采用通用計算機中的已知設備或已知的其他硬件設備。所述通用計算機有存儲在其內的程序選擇性地激活或重構。
[0039]本技術領域技術人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復數(shù)形式。應該進一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應該理解,當我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或耦接。這里使用的措辭“和/或”包括一個或更多個相關聯(lián)的列出項的任一單元和全部組合。
[0040]本技術領域技術人員可以理解,除非另外定義,這里使用的所有術語(包括技術術語和科學術語)具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語應該被理解為具有與現(xiàn)有技術的上下文中的意義一致的意義,并且除非像這里一樣定義,不會用理想化或過于正式的含義來解釋。
[0041 ]下面結合附圖對本發(fā)明的技術方案做進一步的詳細說明:
[0042]本發(fā)明的系統(tǒng)模塊連接示意圖如圖1所示,所述基于網(wǎng)頁信息數(shù)據(jù)的數(shù)據(jù)索引系統(tǒng),包括索引器模塊、網(wǎng)絡應用程序模塊和solr搜索應用服務器模塊,其中:所述索引器模塊中建立索引記錄數(shù)據(jù)庫;所述網(wǎng)絡應用程序模塊中包括查詢模塊和查詢反饋模塊;所述solr搜索應用服務器模塊中包括XML響應模塊、XML更新處理器、CSV更新處理器、標準請求處理器、客戶請求處理器、Iucene搜索應用服務器和管理、跟新、查詢功能模塊;
[0043]所述索引記錄數(shù)據(jù)庫的輸出端、查詢模塊的輸出端分別和solr搜索應用服務器模塊相連接,solr搜索應用服務器模塊的輸出端和查詢反饋模塊相連接,查詢反饋模塊向外界輸出最優(yōu)數(shù)據(jù)索引結果;
[0044]索引記錄數(shù)據(jù)庫使用網(wǎng)絡蜘蛛自動從互聯(lián)網(wǎng)上抓取網(wǎng)頁數(shù)據(jù),solr搜索應用服務器模塊對網(wǎng)絡蜘蛛抓取到的網(wǎng)頁數(shù)據(jù)進行語義分析歸類,分析網(wǎng)頁的時效性和地域性,將時間和地域信息加入到索引記錄數(shù)據(jù)庫或跟索引記錄數(shù)據(jù)庫建立聯(lián)系,Iucene搜索應用服務器采用最佳優(yōu)先搜索策略進行網(wǎng)頁抓取,按照網(wǎng)頁分析算法,預測候選URL與目標網(wǎng)頁的相似度,或與主題的相關性,并選取評價最好的一個或幾個URL進行抓取,處理得出最優(yōu)數(shù)據(jù)索引結果。
[0045]其中,所述索引記錄數(shù)據(jù)庫采用php空間,包括10M的MYSQL數(shù)據(jù)庫+1G網(wǎng)頁空間。所述網(wǎng)絡應用程序模塊為C/S結構。
[0046]本發(fā)明的實現(xiàn)過程模塊分析,下面進行分塊描述:
[0047]1.數(shù)據(jù)采集預處理
[0048]數(shù)據(jù)采集主要是使用“網(wǎng)絡蜘蛛”自動從互聯(lián)網(wǎng)上抓取網(wǎng)頁數(shù)據(jù)。數(shù)據(jù)預處理主要是對網(wǎng)絡蜘蛛抓取到的網(wǎng)頁數(shù)據(jù)進行語義分析歸類,分析網(wǎng)頁的時效性和地域性,將時間和地域信息加入到索引數(shù)據(jù)庫或跟索引數(shù)據(jù)庫建立聯(lián)系,并建立專業(yè)知識信息
[0049]庫,從數(shù)據(jù)源上解決精準搜索的問題。
[0050]實現(xiàn)機制主要包括:
[0051]I)數(shù)據(jù)源抓取策略
[0052]為了達到精準搜索的目的,我們采用最佳優(yōu)先搜索策略進行網(wǎng)頁抓取。按照網(wǎng)頁分析算法,預測候選URL與目標網(wǎng)頁的相似度,或與主題的相關性,并選取評價最好的一個或幾個URL進行抓取。
[0053]2)網(wǎng)頁分析評價
[0054]系統(tǒng)采用基于網(wǎng)頁內容的分析算法,包括網(wǎng)頁數(shù)據(jù)抽取、機器學習、數(shù)據(jù)挖掘、語義理解等多種方法。根據(jù)網(wǎng)頁數(shù)據(jù)形式的不同,基于網(wǎng)頁內容的分析算法,我們提供以下三類分析方法:第一種針對以文本和超鏈接為主的無結構或結構很簡單的網(wǎng)頁;第二種針對從結構化的數(shù)據(jù)源(如RDBMS)動態(tài)生成的頁面,其數(shù)據(jù)不能直接批量訪問;第三種針對的數(shù)據(jù)界于第一和第二類數(shù)據(jù)之間。
[0055]3)數(shù)據(jù)類型
[0056]抓取的數(shù)據(jù)源包括各種格式:HTML、圖片、doc、pdf、多媒體以及其他格式等。對于doc、pdf等文檔,利用系統(tǒng)插件提取文本內容。HTML文檔,通過過濾標識符來獲取文本內容。對于多媒體、圖片等文件,一般通過鏈接文本和相關的文件注釋來獲取文件的內容。
[0057]4)數(shù)據(jù)源更新周期
[0058]為了達到精準搜索的高時效性,我們采用靈活的更新策略,根據(jù)網(wǎng)頁的更新頻率來動態(tài)調整抓取數(shù)據(jù)的更新周期。更新網(wǎng)站內容的時候,不用把網(wǎng)站網(wǎng)頁重新抓取一次,只需要判斷網(wǎng)頁的屬性,把得到的屬性和上次抓取的屬性相比較,如果一樣就不用更新。
[0059]5)數(shù)據(jù)預處理
[0060]數(shù)據(jù)預處理主要是對網(wǎng)絡蜘蛛抓取到的網(wǎng)頁自動歸類到預先定義好的分類體系中Ieb文本分類的組件主要包括:中文分詞、特征提取和文本分類算法。
[0061]這些關鍵技術的實現(xiàn)對最終的分類算法都有一定程度上的影響。
[0062]2.核心搜索服務:
[0063]我們的核心搜索服務采用分布式垂直搜索結構,實現(xiàn)機制主要包括:
[0064]I)分布式垂直搜索
[0065]我們提供的分布式索引服務將原來的大索引會分成多個小索引(小索引并不一定規(guī)模小,稱之為小索引是相對于之前的整個索引來講的),系統(tǒng)將從這些小索引返回的結果合并,然后返回給客戶端。
[0066]如果單個搜索足夠快,而只是為了提高整體的請求數(shù)/秒,那么可以嘗試用索引復制。
[0067]2)多核垂直搜索服務
[0068]為了實現(xiàn)最大程度的可定制,我們提供多核搜索方式的配置方案。多核允許在一個單一的搜索服務實例中擁有獨立的多個配置和索引,每個不同的應用有自己的配置和模式文件,但是有一個統(tǒng)一的管理。每個索引都是獨立的,在一個實例里面管理它們。可以建立新的核心來增加新的索引,甚至可以用一個核心在不關閉Servlet容器的情況下來替代另一個核心。
[0069]3.行為分析個性化
[0070]為了分析用戶的網(wǎng)絡行為,預測用戶的搜索意圖,系統(tǒng)需要知道用戶對正在瀏覽的網(wǎng)頁的興趣程度,并建立用戶興趣和網(wǎng)頁的關系模型,然后以此用來做今后的推薦的依據(jù)。最常用和最明顯的方法是用顯式反饋,但不是那么可靠。系統(tǒng)采用隱式反饋,通過各種方法間接從用戶得到評價信息。例如,在上網(wǎng)的時候收藏了一個網(wǎng)頁或者花很長的時間瀏覽一個網(wǎng)頁,我們可以認為用戶對這個頁面感興趣。系統(tǒng)采用隱式反饋的用戶行為分析的方法來進行推薦。
[0071]通過行為特征,系統(tǒng)運用訓練數(shù)據(jù)來確定頁面各關鍵詞的出現(xiàn)特征,判斷關鍵詞,進而選擇出用戶感興趣的詞輸入搜索引擎,這樣返回的結果與用戶信息需求最符合,達到精準搜索的目的。
[0072]4.群智優(yōu)化
[0073]我們采用顯式反饋和隱式反饋相結合的方式為用戶建立行為模式,并采用協(xié)同過濾(Collaborative FiItering)的方法從其他有關的瀏覽模型得到更多的預測結果,從而可以提高預測的精度和廣度。協(xié)同過濾(Collaborative FiItering)技術,是推薦系統(tǒng)中應用最為廣泛的技術之一。顧名思義,“Collaborative”本身就已經說明了協(xié)同過濾算法的主要意思,它基于一組興趣相同的用戶進行推薦。協(xié)同過濾基于這樣的假設:為用戶找到真正感興趣的內容的好方法是,首先找到與他興趣相似的用戶,然后將這些用戶感興趣的內容推薦給此用戶。結合互聯(lián)網(wǎng)精準搜索的需求,我們系統(tǒng)采用基于項目的協(xié)同過濾做為群智優(yōu)化的關鍵技術,資源占用少、擴展性強、準確度高。
[0074]上面結合附圖對本發(fā)明的實施方式作了詳細說明,但是本發(fā)明并不限于上述實施方式,在本領域普通技術人員所具備的知識范圍內,還可以在不脫離本發(fā)明宗旨的前提下做出各種變化。以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實施例揭露如上,然而并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術人員,在不脫離本發(fā)明技術方案范圍內,當可利用上述揭示的技術內容做出些許更動或修飾為等同變化的等效實施例,但凡是未脫離本發(fā)明技術方案內容,依據(jù)本發(fā)明的技術實質,在本發(fā)明的精神和原則之內,對以上實施例所作的任何簡單的修改、等同替換與改進等,均仍屬于本發(fā)明技術方案的保護范圍之內。
【主權項】
1.一種基于網(wǎng)頁信息數(shù)據(jù)的數(shù)據(jù)索引系統(tǒng),其特征在于,包括索引器模塊、網(wǎng)絡應用程序模塊和SOlr搜索應用服務器模塊,其中: 所述索引器模塊中建立索引記錄數(shù)據(jù)庫; 所述網(wǎng)絡應用程序模塊中包括查詢模塊和查詢反饋模塊; 所述solr搜索應用服務器模塊中包括XML響應模塊、XML更新處理器、CSV更新處理器、標準請求處理器、客戶請求處理器、Iucene搜索應用服務器和管理、跟新、查詢功能模塊; 所述索引記錄數(shù)據(jù)庫的輸出端、查詢模塊的輸出端分別和solr搜索應用服務器模塊相連接,solr搜索應用服務器模塊的輸出端和查詢反饋模塊相連接,查詢反饋模塊向外界輸出最優(yōu)數(shù)據(jù)索引結果; 索引記錄數(shù)據(jù)庫使用網(wǎng)絡蜘蛛自動從互聯(lián)網(wǎng)上抓取網(wǎng)頁數(shù)據(jù),solr搜索應用服務器模塊對網(wǎng)絡蜘蛛抓取到的網(wǎng)頁數(shù)據(jù)進行語義分析歸類,分析網(wǎng)頁的時效性和地域性,將時間和地域信息加入到索引記錄數(shù)據(jù)庫或跟索引記錄數(shù)據(jù)庫建立聯(lián)系,Iucene搜索應用服務器采用最佳優(yōu)先搜索策略進行網(wǎng)頁抓取,按照網(wǎng)頁分析算法,預測候選URL與目標網(wǎng)頁的相似度,或與主題的相關性,并選取評價最好的一個或幾個URL進行抓取,處理得出最優(yōu)數(shù)據(jù)索引結果。2.如權利要求1所述的一種基于網(wǎng)頁信息數(shù)據(jù)的數(shù)據(jù)索引系統(tǒng),其特征在于:所述索引記錄數(shù)據(jù)庫采用php空間,包括10M的MYSQL數(shù)據(jù)庫+1G網(wǎng)頁空間。3.如權利要求1或2所述的一種基于網(wǎng)頁信息數(shù)據(jù)的數(shù)據(jù)索引系統(tǒng),其特征在于:所述網(wǎng)絡應用程序模塊為C/S結構。
【文檔編號】G06F17/30GK105912584SQ201610202252
【公開日】2016年8月31日
【申請日】2016年4月1日
【發(fā)明人】第偉, 蔚承建, 張磊
【申請人】南京奧靈克物聯(lián)網(wǎng)科技有限公司