欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

搜索引擎系統(tǒng)及該搜索引擎系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)引入方法

文檔序號:6353017閱讀:520來源:國知局
專利名稱:搜索引擎系統(tǒng)及該搜索引擎系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)引入方法
技術(shù)領(lǐng)域
本發(fā)明涉及搜索引擎技術(shù),尤其涉及一種可搜索結(jié)構(gòu)化數(shù)據(jù)的搜索引擎系統(tǒng)以及 該搜索引擎系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)引入方法。
背景技術(shù)
互聯(lián)網(wǎng)的飛速發(fā)展為人們提供了一個全新的信息存儲、加工、傳遞和使用的載體, 網(wǎng)絡(luò)信息也迅速成為了人們獲取知識和信息的主要渠道之一。而如此規(guī)模的信息資源在將 人類占有的幾乎所有知識納入其中的同時,也給資源的使用者帶來了如何充分開發(fā)和利用 的問題。搜索引擎正是在這一需求下應(yīng)運而生,它協(xié)助網(wǎng)絡(luò)用戶在互聯(lián)網(wǎng)上查找信息。具 體地,搜索引擎根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進 行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶。目前的搜索引擎在互聯(lián)網(wǎng)上搜集信息時主要是通過網(wǎng)頁之間的靜態(tài)鏈接關(guān)系來 收集數(shù)據(jù)。然而,互聯(lián)網(wǎng)上大部分內(nèi)容信息是存儲在網(wǎng)絡(luò)數(shù)據(jù)庫中的,也就是說,目前搜索 引難以通過網(wǎng)頁抓取的方式獲取其全部的信息內(nèi)容,所以,當(dāng)前的搜索引擎也不能索引到 或不能在返回的搜索結(jié)果中顯示這些內(nèi)容,因此對用戶來說這部分內(nèi)容是隱藏的。但是,這 部分隱藏的內(nèi)容對于用戶又是非常重要的,例如股票數(shù)據(jù)、人民幣匯率、天氣預(yù)報、電視節(jié) 目表等,可以看出,這些隱藏的內(nèi)容大部分都是結(jié)構(gòu)化的數(shù)據(jù)。所以,如何使搜索引擎能夠 搜索到互聯(lián)網(wǎng)上的各種信息,即包括結(jié)構(gòu)化的和非結(jié)構(gòu)化的信息,是搜索引擎技術(shù)發(fā)展所 面臨的主要問題。有鑒于此,有必要對現(xiàn)有的搜索引擎予以改進,以解決上述問題。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種搜索引擎系統(tǒng),其能夠搜索不同特定領(lǐng)域的結(jié)構(gòu)化數(shù) 據(jù),從而為用戶提供全面、準確的搜索結(jié)果。本發(fā)明的目的還在于提供一種上述搜索引擎系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)引入方法,其能夠 使搜索引擎系統(tǒng)快速地更新結(jié)構(gòu)化數(shù)據(jù),從而提高搜索引擎系統(tǒng)的工作效率。為實現(xiàn)上述發(fā)明目的之一,本發(fā)明的一種搜索引擎系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)的引入方 法,其包括如下步驟通過預(yù)定的數(shù)據(jù)交互協(xié)議獲取結(jié)構(gòu)化數(shù)據(jù);將所述結(jié)構(gòu)化數(shù)據(jù)存儲到結(jié)構(gòu)化數(shù)據(jù)存儲庫中。作為本發(fā)明的進一步改進,所述數(shù)據(jù)交互協(xié)議包括站點地圖(sitemap)協(xié)議。作為本發(fā)明的進一步改進,所述數(shù)據(jù)交互協(xié)議中包含抓取更新周期;所述獲取結(jié) 構(gòu)化數(shù)據(jù)的步驟包括根據(jù)所述抓取更新周期抓取結(jié)構(gòu)化數(shù)據(jù)。作為本發(fā)明的進一步改進,所述獲取結(jié)構(gòu)化數(shù)據(jù)的步驟還包括把本次抓取的數(shù) 據(jù)與上一次抓取的數(shù)據(jù)進行比較,并將更新后的數(shù)據(jù)存入結(jié)構(gòu)化數(shù)據(jù)存儲庫中。作為本發(fā)明的進一步改進,該方法還包括對結(jié)構(gòu)化數(shù)據(jù)進行處理。
作為本發(fā)明的進一步改進,所述對結(jié)構(gòu)化數(shù)據(jù)處理的步驟包括對數(shù)據(jù)進行摘要式處理。作為本發(fā)明的進一步改進,所述對結(jié)構(gòu)化數(shù)據(jù)處理的步驟包括將數(shù)據(jù)統(tǒng)一成同一 數(shù)據(jù)格式。作為本發(fā)明的進一步改進,所述對結(jié)構(gòu)化數(shù)據(jù)處理的步驟包括為數(shù)據(jù)建立索引庫。作為本發(fā)明的進一步改進,所述索引庫包括倒排索引文件。作為本發(fā)明的進一步改進,所述結(jié)構(gòu)化數(shù)據(jù)存儲庫還包括網(wǎng)頁庫,所述網(wǎng)頁庫用 于備份數(shù)據(jù)。作為本發(fā)明的進一步改進,所述網(wǎng)頁庫還被用于定期全量更新所述索引庫。作為本發(fā)明的進一步改進,該方法還包括確定數(shù)據(jù)的相關(guān)度權(quán)值。作為本發(fā)明的進一步改進,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù)文本的基礎(chǔ)知識的相 關(guān)性來確定。作為本發(fā)明的進一步改進,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù)的特定特征的重要性 來確定。作為本發(fā)明的進一步改進,所述數(shù)據(jù)存儲庫中還存儲有語義模板,所述語義模板 根據(jù)用戶查詢?nèi)罩緛泶_定。為實現(xiàn)上述另一目的,本發(fā)明的一種搜索引擎系統(tǒng),其包括結(jié)構(gòu)化數(shù)據(jù)存儲庫,用于存儲結(jié)構(gòu)化數(shù)據(jù),所述結(jié)構(gòu)化數(shù)據(jù)通過預(yù)定的數(shù)據(jù)交互 協(xié)議獲??;分析器,用于處理獲取的結(jié)構(gòu)化數(shù)據(jù),并將其存入所述存儲庫中。作為本發(fā)明的進一步改進,所述數(shù)據(jù)交互協(xié)議包括站點地圖(sitemap)協(xié)議。作為本發(fā)明的進一步改進,所述數(shù)據(jù)交互協(xié)議中包含抓取更新周期;所述結(jié)構(gòu)化 數(shù)據(jù)的獲取包括根據(jù)所述抓取更新周期抓取結(jié)構(gòu)化數(shù)據(jù)。作為本發(fā)明的進一步改進,所述結(jié)構(gòu)化數(shù)據(jù)的獲取包括把本次抓取的數(shù)據(jù)與上 一次抓取的數(shù)據(jù)進行比較,并將更新后的數(shù)據(jù)存入所述存儲庫中。作為本發(fā)明的進一步改進,所述分析器對結(jié)構(gòu)化數(shù)據(jù)的處理包括將數(shù)據(jù)存入數(shù)據(jù) 存儲庫中的摘要庫。作為本發(fā)明的進一步改進,所述分析器對結(jié)構(gòu)化數(shù)據(jù)的處理包括將數(shù)據(jù)統(tǒng)一成同 一數(shù)據(jù)格式。作為本發(fā)明的進一步改進,所述分析器對結(jié)構(gòu)化數(shù)據(jù)的處理包括為數(shù)據(jù)建立索引庫。作為本發(fā)明的進一步改進,所述索引庫包括倒排索引文件。作為本發(fā)明的進一步改進,所述結(jié)構(gòu)化數(shù)據(jù)存儲庫還包括網(wǎng)頁庫,所述網(wǎng)頁庫用 于備份數(shù)據(jù)。作為本發(fā)明的進一步改進,所述網(wǎng)頁庫還被用于定期全量更新所述索引庫。作為本發(fā)明的進一步改進,所述分析器還用于確定數(shù)據(jù)的相關(guān)度權(quán)值。作為本發(fā)明的進一步改進,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù)文本的基礎(chǔ)知識的相 關(guān)性來確定。
作為本發(fā)明的進一步改進,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù)的特定特征的重要性 來確定。作為本發(fā)明的進一步改進,所述結(jié)構(gòu)化數(shù)據(jù)包括與若干屬性標簽對應(yīng)的屬性值; 所述結(jié)構(gòu)化數(shù)據(jù)存儲庫內(nèi)還存儲有語義模板,所述語義模板包括有屬性標簽。作為本發(fā)明的進一步改進,該系統(tǒng)還包括需求分析模塊,用于接收來自于客戶端的查詢詞表達式,根據(jù)所述查詢詞表達式 確定相應(yīng)的語義模板,并根據(jù)所述語義模板分析該查詢詞表達式,以確定所要搜索的結(jié)構(gòu) 化數(shù)據(jù);搜索組件,用于搜索結(jié)構(gòu)化數(shù)據(jù)存儲庫以獲取所要搜索的結(jié)構(gòu)化數(shù)據(jù)。作為本發(fā)明的進一步改進,所述需求分析模塊對查詢詞表達式的分析包括分析 出和語義模板中的屬性標簽對應(yīng)的屬性值,從而確定包含有所述屬性值的數(shù)據(jù)為所要搜索 的數(shù)據(jù)。作為本發(fā)明的進一步改進,所述需求分析模塊對查詢詞表達式的分析還包括根據(jù) 語義模板分析出所要搜索的屬性標簽;所述搜索組件還用于從所述獲取的數(shù)據(jù)中抽取與所 述所要搜索的屬性標簽對應(yīng)的屬性值,并將所述屬性值返回給客戶端。作為本發(fā)明的進一步改進,所述需求分析模塊對查詢詞表達式的分析包括根據(jù) 語義模板確定和語義模板中的屬性標簽對應(yīng)的詞項,并給所述詞項標注相應(yīng)的屬性標簽。作為本發(fā)明的進一步改進,所述需求分析模塊還用于對查詢詞表達式進行優(yōu)化。作為本發(fā)明的進一步改進,所述需求分析模塊對查詢詞表達式的優(yōu)化包括區(qū)間篩 選操作、和/或語義擴展操作、和/或分詞操作。作為本發(fā)明的進一步改進,所述搜索組件還用于根據(jù)數(shù)據(jù)的相關(guān)度權(quán)值來對搜索 獲取的數(shù)據(jù)進行排序。作為本發(fā)明的進一步改進,所述搜索組件還用于對排序后的數(shù)據(jù)進行打散操作。作為本發(fā)明的進一步改進,該系統(tǒng)還包括網(wǎng)頁存儲庫,用于存儲通過訪問互聯(lián)網(wǎng) 鏈接結(jié)構(gòu)而抓取的網(wǎng)頁文檔;所述搜索組件還用于搜索網(wǎng)頁存儲庫以獲取與所述查詢詞表 達式相關(guān)的網(wǎng)頁文檔。作為本發(fā)明的進一步改進,該系統(tǒng)還包括合成模塊,用于將獲取的網(wǎng)頁文檔和結(jié) 構(gòu)化數(shù)據(jù)合成后返回給客戶端。作為本發(fā)明的進一步改進,該系統(tǒng)還包括用戶界面,用于記錄用戶查詢?nèi)罩?,所?語義模板根據(jù)用戶查詢?nèi)罩径@得。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是本發(fā)明的搜索引擎系統(tǒng)通過預(yù)定的數(shù)據(jù) 交互協(xié)議獲取結(jié)構(gòu)化數(shù)據(jù),方便了結(jié)構(gòu)化數(shù)據(jù)的抓取和更新,并提高了搜索引器系統(tǒng)的資 源覆蓋面。此外,用戶在使用通用搜索引擎時,系統(tǒng)能夠識別潛在的結(jié)構(gòu)化數(shù)據(jù)搜索的需 求,并對結(jié)構(gòu)化數(shù)據(jù)和普通網(wǎng)頁文檔進行綜合搜索,從而為用戶提供全面、準確的搜索結(jié)果。


圖1是本發(fā)明的搜索引擎系統(tǒng)搜索結(jié)構(gòu)化數(shù)據(jù)的一具體實施方式
的工作原理框 圖2是本發(fā)明的搜索引擎系統(tǒng)搜索通用網(wǎng)頁的一具體實施方式
的工作原理框圖;圖3是本發(fā)明的搜索引擎系統(tǒng)搜索結(jié)構(gòu)化數(shù)據(jù)和通用網(wǎng)頁的一具體實施方式
的 工作原理框圖;圖4是本發(fā)明的搜索引擎系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)存儲庫中摘要式數(shù)據(jù)的一具體實施 方式;圖5是本發(fā)明的搜索引擎系統(tǒng)展現(xiàn)搜索結(jié)果的一具體實施方式
;圖6是圖1所示的搜索引擎系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)引入的工作流程圖;圖7是圖3所示的搜索引擎系統(tǒng)執(zhí)行搜索的工作流程圖;圖8是圖3所示的搜索引擎系統(tǒng)對查詢表達式進行分析的一具體實施方式
中的工 作流程圖;圖9是圖3所示的搜索引擎系統(tǒng)對查詢表達式進行分析的另一具體實施方式
中的 工作流程圖;圖10是圖3所示的搜索引擎系統(tǒng)對搜索結(jié)果進行排序和展現(xiàn)的工作流程圖。
具體實施例方式以下將結(jié)合附圖所示的各實施方式對本發(fā)明進行詳細描述。但這些實施方式并不 限制本發(fā)明,本領(lǐng)域的普通技術(shù)人員根據(jù)這些實施方式所輕易做出的結(jié)構(gòu)、方法、或功能上 的變換均包含在本發(fā)明的保護范圍內(nèi)。圖1所示的是本發(fā)明的搜索引擎系統(tǒng)100在一具體實施方式
中搜集和檢索結(jié)構(gòu)化 數(shù)據(jù)的工作原理框圖。本實施方式中,網(wǎng)站站長將結(jié)構(gòu)化數(shù)據(jù)以規(guī)范的形式主動提交給搜 索引擎系統(tǒng)100,從而搜索引擎系統(tǒng)可響應(yīng)客戶端40的瀏覽器41請求而提供結(jié)構(gòu)化數(shù)據(jù)搜 索的服務(wù)。其中,搜索引擎系統(tǒng)100可以包括一個或多個用來存儲和管理結(jié)構(gòu)化數(shù)據(jù)、并響 應(yīng)搜索請求的網(wǎng)絡(luò)服務(wù)器實體??蛻舳?0可以包括一個或多個用戶終端設(shè)備,如個人計算 機、筆記本電腦、無線電話、個人數(shù)字處理(PDA)、或其它計算機裝置和通信裝置。這些服務(wù)器和終端設(shè)備在架構(gòu)上都包含一些基本組件,如總線、處理裝置、存儲裝 置、一個或多個輸入/輸出裝置、和通信接口等??偩€可以包括一個或多個導(dǎo)線,用來實現(xiàn) 服務(wù)器或終端設(shè)備各組件之間的通信。處理裝置包括各類型的用來執(zhí)行指令、處理進程或 線程的處理器或微處理器。存儲裝置可以包括存儲動態(tài)信息的隨機訪問存儲器(RAM)等動 態(tài)存儲器,和存儲靜態(tài)信息的只讀存儲器(ROM)等靜態(tài)存儲器,以及包括磁或光學(xué)記錄介 質(zhì)與相應(yīng)驅(qū)動的大容量存儲器。輸入裝置供用戶輸入信息到服務(wù)器或終端設(shè)備,如鍵盤、鼠 標、手寫筆、聲音識別裝置、或生物測定裝置等。輸出裝置包括用來輸出信息的顯示器、打印 機、揚聲器等。通信接口用來使服務(wù)器或終端設(shè)備與其它系統(tǒng)或裝置進行通信。通信接口 之間可通過有線連接、無線連接、或光連接連接到網(wǎng)絡(luò)中,使搜索引擎系統(tǒng)100、客戶端40 間能夠通過網(wǎng)絡(luò)實現(xiàn)相互間的通信。網(wǎng)絡(luò)可以包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、電話網(wǎng)絡(luò) 如公共交換電話網(wǎng)(PSTN)、企業(yè)內(nèi)部的互聯(lián)網(wǎng)、因特網(wǎng)、或上述這些網(wǎng)絡(luò)的結(jié)合等。服務(wù)器 和終端設(shè)備上均包含有用來管理系統(tǒng)資源、控制其它程序運行的操作系統(tǒng)軟件,以及用來 實現(xiàn)特定功能模塊的應(yīng)用軟件。如圖1所示,搜索引擎系統(tǒng)100整體上可分為離線部分和在線部分。在離線部分, 系統(tǒng)會事先搜集一批結(jié)構(gòu)化數(shù)據(jù),并以某種方式存放在系統(tǒng)中,系統(tǒng)包括結(jié)構(gòu)化數(shù)據(jù)推送
8平臺15、對引入的結(jié)構(gòu)化數(shù)據(jù)進行分析的分析器16、記錄用戶查詢信息的用戶查詢?nèi)罩緮?shù) 據(jù)庫、對用戶查詢?nèi)罩具M行分析的日志分析器18、和結(jié)構(gòu)化數(shù)據(jù)存儲庫20。結(jié)構(gòu)化數(shù)據(jù)的 提供者可以為任何人,在本實施方式中,數(shù)據(jù)的提供者為一些行業(yè)網(wǎng)站的站長,站長通過結(jié) 構(gòu)化數(shù)據(jù)推送平臺15將結(jié)構(gòu)化數(shù)據(jù)包推送給搜索引擎系統(tǒng)100。這兒結(jié)構(gòu)化數(shù)據(jù)平臺15 是指站長和搜索引擎系統(tǒng)100之間可通過一份預(yù)定的數(shù)據(jù)交互協(xié)議來進行結(jié)構(gòu)化數(shù)據(jù)的 交互。本實施方式中,該協(xié)議為sitemap (站點地圖)協(xié)議。具體地,站長會按照sitemap 協(xié)議的規(guī)范將要提交的結(jié)構(gòu)化數(shù)據(jù)拼裝成一份xml (Extensible Markup Language,可擴展 置標語言)格式的文件,放到自己的服務(wù)器硬盤上,然后將存放地址提交給搜索引擎系統(tǒng) 100。
權(quán)利要求
1.一種搜索引擎系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)的引入方法,其特征在于,該方法包括如下步驟 通過預(yù)定的數(shù)據(jù)交互協(xié)議獲取結(jié)構(gòu)化數(shù)據(jù);將所述結(jié)構(gòu)化數(shù)據(jù)存儲到結(jié)構(gòu)化數(shù)據(jù)存儲庫中。
2.根據(jù)權(quán)利要求1所述的引入方法,其特征在于,所述數(shù)據(jù)交互協(xié)議包括站點地圖 (sitemap)協(xié)議。
3.根據(jù)權(quán)利要求1所述的引入方法,其特征在于,所述數(shù)據(jù)交互協(xié)議中包含抓取更新 周期;所述獲取結(jié)構(gòu)化數(shù)據(jù)的步驟包括根據(jù)所述抓取更新周期抓取結(jié)構(gòu)化數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的引入方法,其特征在于,所述獲取結(jié)構(gòu)化數(shù)據(jù)的步驟還包括 把本次抓取的數(shù)據(jù)與上一次抓取的數(shù)據(jù)進行比較,并將更新后的數(shù)據(jù)存入結(jié)構(gòu)化數(shù)據(jù)存儲 庫中。
5.根據(jù)權(quán)利要求1所述的引入方法,其特征在于,該方法還包括對結(jié)構(gòu)化數(shù)據(jù)進行處理。
6.根據(jù)權(quán)利要求5所述的引入方法,其特征在于,所述對結(jié)構(gòu)化數(shù)據(jù)處理的步驟包括 對數(shù)據(jù)進行摘要式處理。
7.根據(jù)權(quán)利要求5所述的引入方法,其特征在于,所述對結(jié)構(gòu)化數(shù)據(jù)處理的步驟包括 將數(shù)據(jù)統(tǒng)一成同一數(shù)據(jù)格式。
8.根據(jù)權(quán)利要求5所述的引入方法,其特征在于,所述對結(jié)構(gòu)化數(shù)據(jù)處理的步驟包括 為數(shù)據(jù)建立索引庫。
9.根據(jù)權(quán)利要求8所述的引入方法,其特征在于,所述索引庫包括倒排索引文件。
10.根據(jù)權(quán)利要求8所述的引入方法,其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)存儲庫還包括網(wǎng)頁 庫,所述網(wǎng)頁庫用于備份數(shù)據(jù)。
11.根據(jù)權(quán)利要求10所述的引入方法,其特征在于,所述網(wǎng)頁庫還被用于定期全量更 新所述索引庫。
12.根據(jù)權(quán)利要求1所述的引入方法,其特征在于,該方法還包括確定數(shù)據(jù)的相關(guān)度權(quán)值。
13.根據(jù)權(quán)利要求12所述的引入方法,其特征在于,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù) 文本的基礎(chǔ)知識的相關(guān)性來確定。
14.根據(jù)權(quán)利要求12所述的引入方法,其特征在于,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù)數(shù)據(jù) 的特定特征的重要性來確定。
15.根據(jù)權(quán)利要求1所述的引入方法,其特征在于,所述數(shù)據(jù)存儲庫中還存儲有語義模 板,所述語義模板根據(jù)用戶查詢?nèi)罩緛泶_定。
16.一種搜索引擎系統(tǒng),其特征在于,該搜索引擎系統(tǒng)包括結(jié)構(gòu)化數(shù)據(jù)存儲庫,用于存儲結(jié)構(gòu)化數(shù)據(jù),所述結(jié)構(gòu)化數(shù)據(jù)通過預(yù)定的數(shù)據(jù)交互協(xié)議 獲??;分析器,用于處理獲取的結(jié)構(gòu)化數(shù)據(jù),并將其存入所述存儲庫中。
17.根據(jù)權(quán)利要求16所述的搜索引擎系統(tǒng),其特征在于,所述數(shù)據(jù)交互協(xié)議包括站點 地圖(sitemap)協(xié)議。
18.根據(jù)權(quán)利要求16所述的搜索引擎系統(tǒng),其特征在于,所述數(shù)據(jù)交互協(xié)議中包含抓 取更新周期;所述結(jié)構(gòu)化數(shù)據(jù)的獲取包括根據(jù)所述抓取更新周期抓取結(jié)構(gòu)化數(shù)據(jù)。
19.根據(jù)權(quán)利要求18所述的搜索引擎系統(tǒng),其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)的獲取包括 把本次抓取的數(shù)據(jù)與上一次抓取的數(shù)據(jù)進行比較,并將更新后的數(shù)據(jù)存入所述存儲庫中。
20.根據(jù)權(quán)利要求16所述的搜索引擎系統(tǒng),其特征在于,所述分析器對結(jié)構(gòu)化數(shù)據(jù)的 處理包括將數(shù)據(jù)存入數(shù)據(jù)存儲庫中的摘要庫。
21.根據(jù)權(quán)利要求16所述的搜索引擎系統(tǒng),其特征在于,所述分析器對結(jié)構(gòu)化數(shù)據(jù)的 處理包括將數(shù)據(jù)統(tǒng)一成同一數(shù)據(jù)格式。
22.根據(jù)權(quán)利要求16所述的搜索引擎系統(tǒng),其特征在于,所述分析器對結(jié)構(gòu)化數(shù)據(jù)的 處理包括為數(shù)據(jù)建立索引庫。
23.根據(jù)權(quán)利要求22所述的搜索引擎系統(tǒng),其特征在于,所述索引庫包括倒排索引文件。
24.根據(jù)權(quán)利要求22所述的搜索引擎系統(tǒng),其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)存儲庫還包 括網(wǎng)頁庫,所述網(wǎng)頁庫用于備份數(shù)據(jù)。
25.根據(jù)權(quán)利要求M所述的搜索引擎系統(tǒng),其特征在于,所述網(wǎng)頁庫還被用于定期全 量更新所述索引庫。
26.根據(jù)權(quán)利要求16所述的搜索引擎系統(tǒng),其特征在于,所述分析器還用于確定數(shù)據(jù) 的相關(guān)度權(quán)值。
27.根據(jù)權(quán)利要求沈所述的搜索引擎系統(tǒng),其特征在于,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù) 數(shù)據(jù)文本的基礎(chǔ)知識的相關(guān)性來確定。
28.根據(jù)權(quán)利要求沈所述的搜索引擎系統(tǒng),其特征在于,所述數(shù)據(jù)的相關(guān)度權(quán)值根據(jù) 數(shù)據(jù)的特定特征的重要性來確定。
29.根據(jù)權(quán)利要求16所述的搜索引擎系統(tǒng),其特征在于,所述結(jié)構(gòu)化數(shù)據(jù)包括與若干 屬性標簽對應(yīng)的屬性值;所述結(jié)構(gòu)化數(shù)據(jù)存儲庫內(nèi)還存儲有語義模板,所述語義模板包括 有屬性標簽。
30.根據(jù)權(quán)利要求四所述的搜索引擎系統(tǒng),其特征在于,該系統(tǒng)還包括需求分析模塊,用于接收來自于客戶端的查詢詞表達式,根據(jù)所述查詢詞表達式確定 相應(yīng)的語義模板,并根據(jù)所述語義模板分析該查詢詞表達式,以確定所要搜索的結(jié)構(gòu)化數(shù) 據(jù);搜索組件,用于搜索結(jié)構(gòu)化數(shù)據(jù)存儲庫以獲取所要搜索的結(jié)構(gòu)化數(shù)據(jù)。
31.根據(jù)權(quán)利要求30所述的搜索引擎系統(tǒng),其特征在于,所述需求分析模塊對查詢詞 表達式的分析包括分析出和語義模板中的屬性標簽對應(yīng)的屬性值,從而確定包含有所述 屬性值的數(shù)據(jù)為所要搜索的數(shù)據(jù)。
32.根據(jù)權(quán)利要求30或31的搜索引擎系統(tǒng),其特征在于,所述需求分析模塊對查詢詞 表達式的分析還包括根據(jù)語義模板分析出所要搜索的屬性標簽;所述搜索組件還用于從所 述獲取的數(shù)據(jù)中抽取與所述所要搜索的屬性標簽對應(yīng)的屬性值,并將所述屬性值返回給客 戶端。
33.根據(jù)權(quán)利要求30所述的搜索引擎系統(tǒng),其特征在于,所述需求分析模塊對查詢詞 表達式的分析包括根據(jù)語義模板確定和語義模板中的屬性標簽對應(yīng)的詞項,并給所述詞 項標注相應(yīng)的屬性標簽。
34.根據(jù)權(quán)利要求30或33所述的搜索引擎系統(tǒng),其特征在于,所述需求分析模塊還用于對查詢詞表達式進行優(yōu)化。
35.根據(jù)權(quán)利要求34所述的搜索引擎系統(tǒng),其特征在于,所述需求分析模塊對查詢詞 表達式的優(yōu)化包括區(qū)間篩選操作、和/或語義擴展操作、和/或分詞操作。
36.根據(jù)權(quán)利要求30所述的搜索引擎系統(tǒng),其特征在于,所述搜索組件還用于根據(jù)數(shù) 據(jù)的相關(guān)度權(quán)值來對搜索獲取的數(shù)據(jù)進行排序。
37.根據(jù)權(quán)利要求36所述的搜索引擎系統(tǒng),其特征在于,所述搜索組件還用于對排序 后的數(shù)據(jù)進行打散操作。
38.根據(jù)權(quán)利要求30所述的搜索引擎系統(tǒng),其特征在于,該系統(tǒng)還包括網(wǎng)頁存儲庫,用 于存儲通過訪問互聯(lián)網(wǎng)鏈接結(jié)構(gòu)而抓取的網(wǎng)頁文檔;所述搜索組件還用于搜索網(wǎng)頁存儲庫 以獲取與所述查詢詞表達式相關(guān)的網(wǎng)頁文檔。
39.根據(jù)權(quán)利要求38所述的搜索引擎系統(tǒng),其特征在于,該系統(tǒng)還包括合成模塊,用于 將獲取的網(wǎng)頁文檔和結(jié)構(gòu)化數(shù)據(jù)合成后返回給客戶端。
40.根據(jù)權(quán)利要求四所述的搜索引擎系統(tǒng),其特征在于,該系統(tǒng)還包括用戶界面,用于 記錄用戶查詢?nèi)罩?,所述語義模板根據(jù)用戶查詢?nèi)罩径@得。
全文摘要
本發(fā)明提供一種搜索引擎系統(tǒng),其包括結(jié)構(gòu)化數(shù)據(jù)存儲庫和分析器。其中結(jié)構(gòu)化數(shù)據(jù)存儲庫用于存儲結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)通過預(yù)定的數(shù)據(jù)交互協(xié)議獲取。分析器用于處理獲取的結(jié)構(gòu)化數(shù)據(jù),并將其存入存儲庫中。本發(fā)明的搜索引擎系統(tǒng)通過預(yù)定的數(shù)據(jù)交互協(xié)議獲取結(jié)構(gòu)化數(shù)據(jù),方便了結(jié)構(gòu)化數(shù)據(jù)的抓取和更新,并提高了搜索引器系統(tǒng)的資源覆蓋面。此外,用戶在使用通用搜索引擎時,系統(tǒng)能夠識別潛在的結(jié)構(gòu)化數(shù)據(jù)搜索的需求,并對結(jié)構(gòu)化數(shù)據(jù)和普通網(wǎng)頁文檔進行綜合搜索,從而為用戶提供全面、準確的搜索結(jié)果。
文檔編號G06F17/30GK102073726SQ20111000482
公開日2011年5月25日 申請日期2011年1月11日 優(yōu)先權(quán)日2011年1月11日
發(fā)明者陳凱, 馬遠珍 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
蕲春县| 富裕县| 扶沟县| 武安市| 驻马店市| 靖远县| 郓城县| 岳阳市| 永泰县| 西吉县| 十堰市| 涟水县| 大埔区| 柳江县| 泰宁县| 繁峙县| 台东县| 汝城县| 金山区| 安陆市| 湄潭县| 眉山市| 凤城市| 淮滨县| 和平县| 隆林| 卓资县| 民乐县| 景泰县| 长葛市| 白玉县| 广汉市| 华容县| 康马县| 尉犁县| 绵阳市| 连平县| 冀州市| 南投市| 长宁区| 剑阁县|