欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于自然語言的全文檢索系統(tǒng)的制作方法

文檔序號:6459904閱讀:800來源:國知局
專利名稱:基于自然語言的全文檢索系統(tǒng)的制作方法
技術領域
本發(fā)明屬于計算機檢索技術,具體涉及一種基于自然語言的搜索引擎系 統(tǒng),該系統(tǒng)是對互聯(lián)網(wǎng)搜索引擎的改進,能夠對用戶提交的查詢內(nèi)容進行語義 分析和概念擴展,通過人機交互操作,用戶可得到準確豐富、清晰無歧義的查 詢結果。
背景技術
隨著Intemet以及相關技術的發(fā)展與成熟,人們己經(jīng)進入信息量極其豐富 的時代。但其固有的大容量、異構性、分布性和動態(tài)性,以及Web中大量缺乏 組織的無效數(shù)據(jù),降低了人們對豐富信息資源的利用效率,出現(xiàn)"信息過載" 和"信息迷向"的現(xiàn)象。于是搜索引擎應運而生,它是指對web站點資源和其它 網(wǎng)絡資源進行標引和檢索的一類信息檢索系統(tǒng)。大部分網(wǎng)絡搜索引擎都采用全 文檢索技術,處理的對象是文本,能夠對文檔(網(wǎng)頁數(shù)據(jù))建立由字(詞)到 文檔的倒排索引,在此基礎上,用戶使用關鍵詞對文檔(網(wǎng)頁)進行査詢時, 系統(tǒng)將給用戶返回包含該關鍵詞的網(wǎng)頁。目前的搜索引擎都是基于關鍵詞匹配的檢索,但由于詞匯的歧義、查詢條 件和文章選擇表達某一主題詞匯的不匹配,使檢索系統(tǒng)不能理解查詢條件的語 義而進行基于語義的搜索。即使文檔中的詞與査詢詞表達同一概念,卻會因為 字面形式不匹配而無法被檢索到,如"計算機"與"電腦"。這就要求具備檢索技 巧,以詞組或短語形式表達檢索請求,從而對普通用戶造成一定障礙。這樣, 政府、互聯(lián)網(wǎng)協(xié)會和社會公眾就需要耗費人力、財力和時間培訓檢索技巧。另 外一些不良網(wǎng)絡信息的提供者采取了特定技術回避某些敏感詞匯,改變其字面形式,用同義詞、近義詞來替代,從而輕易逃過信息過濾。因此研究基于自然 語言理解的信息搜索技術對政府、互聯(lián)網(wǎng)協(xié)會和社會公眾使用搜索引擎進行網(wǎng) 絡信息內(nèi)容監(jiān)管是非常有幫助和必要的。傳統(tǒng)的搜索引擎所存在"文海撈針"和"信息丟失"的問題,究其實質在于搜 索引擎缺乏對知識進行處理的能力和理解知識的能力,對要檢索的信息僅僅 采用某類檢索模型到預先建立好的索引文件中去檢索。詞的內(nèi)在信息負載太小, 把它作為信息檢索的唯一入口,必將帶來包括返回信息過多或信息丟失等問 題。為了解決這些問題,提高信息檢索的效率,檢索系統(tǒng)開始利用語義技術、 語義網(wǎng)檢索技術和知識處理技術,促進檢索系統(tǒng)向智能化方向發(fā)展。利用語義 知識詞典和中文自然語言的處理技術解決詞的概念擴展問題,把搜索引擎從基 于關鍵字層面的檢索提高到基于概念(知識)層面的檢索上來,從概念意義上 理解用戶的檢索請求是實現(xiàn)基于語義的信息檢索的一個突破點。發(fā)明內(nèi)容本發(fā)明的目的在于提供基于自然語言的全文檢索系統(tǒng),該系統(tǒng)不僅能夠對 用戶直接輸入的査詢內(nèi)容進行信息檢索,還能夠對查詢內(nèi)容進行語義分析和概 念擴展,具有查全率和智能化程度高的特點。本發(fā)明所述的基于自然語言理解的全文檢索系統(tǒng),其特征在于該系統(tǒng)包 括數(shù)據(jù)庫服務器、信息接收判斷模塊、自然語言處理模塊、檢索模塊、索引模 塊、索引庫和結果集處理模塊;數(shù)據(jù)庫服務器用于存儲知識數(shù)據(jù)詞典,規(guī)則庫、文本文件集和索引庫以及 操作信息;為自然語言處理模塊提供數(shù)據(jù)資源和管理服務,為索引模塊提供純 文本文件;信息接收判斷模塊用于接收用戶輸入的檢索信息并根據(jù)用戶選擇為系統(tǒng) 中的自然語言處理模塊部署任務,或者直接請求檢索模塊進行搜索服務;自然語言處理模塊依賴于數(shù)據(jù)庫服務器提供的知識數(shù)據(jù)詞典和規(guī)則庫,并 從信息接收判斷模塊獲得部署的任務;自然語言處理模塊根據(jù)部署任務選擇下述三種方式之一進行語言處理第 一種方式針對短句查詢,通過語義分析與自動切分相結合的分詞處理,分割出 査詢詞傳給檢索模塊進行搜索;第二種方式針對詞語査詢,依據(jù)知網(wǎng)的規(guī)則把 査詢詞從概念上擴展成對應的同義詞、近義詞,通過概念擴展及同義近義詞相 似度算法抽取部分擴展詞或接收用戶選擇的擴展詞,把查詢詞和限定的擴展詞 一起作為査詢條件傳給檢索模塊進行搜索;第三種方式是將上述二種方式結 合,把綜合處理后的查詢內(nèi)容提交給檢索模塊;檢索模塊為用戶提供搜索引擎的使用界面,并提供完備的搜索服務;檢索 模塊負責接收信息接收判斷模塊的指令和自然語言處理模塊遞交的處理結果, 根據(jù)查詢語句在索引庫中進行查詢匹配,返回和査詢語句匹配的所有文檔信 息,即結果集;根據(jù)關鍵詞和擴展詞在文檔中的集中程度對結果集進行排序處 理,將排序后的結果集交給結果集處理模塊處理;索引模塊用于接收數(shù)據(jù)庫服務器提供的純文本文件的內(nèi)容和相關信息,對 文本內(nèi)容、標題和自定義信息處理得到索引詞,利用索引詞和文檔相關信息建立索引庫;索引庫用于存儲由索引模塊對文本文件建立的索引;索引庫還根據(jù)檢索模 塊提交的查詢請求在索引中進行快速檢索和排序,并返回檢索模塊對應的結 果;結果集處理模塊用于接收來自檢索模塊的結果集,并根據(jù)索引庫的信息建 立結果集的文摘信息和快照信息,并對返回結果進行反顯、回顯、分頁處理并 將用戶査看快照信息的記錄存儲于數(shù)據(jù)庫中。本發(fā)明系統(tǒng)針對當前搜索引擎智能化水平較低的情況提出了兩種解決策 略——詞語加權結合句法分析策略和基于知網(wǎng)數(shù)據(jù)詞典的擴展查詢詞策略。部署后的系統(tǒng)將信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面, 對知識有一定的理解和處理能力。本發(fā)明系統(tǒng)具有信息服務智能化、人性化的 特征,允許檢索者采用自然語言進行信息檢索,在交互操作模式下,可以加入 用戶選擇行為,從而提供更方便、更確切的搜索服務。具體而言,本發(fā)明具有 如下優(yōu)點(1) 査全率高該系統(tǒng)利用語義知識詞典中對詞語的語法標注,擴展出 與查詢詞具有同一概念的一組詞語,這些詞語在詞法約束下構成了同義或近義 關系,實現(xiàn)了從詞到概念的擴展,從而提高了檢索的召回率(Recall),即查全率。利用概念擴展式檢索取代關鍵詞匹配式檢索還能夠有效地避免了表達差異 帶來的影響一。例如, 一個概念可能有不同表達方式,每個用戶由于習慣在搜 索時使用的關鍵字是不一樣的,于是造成返回結果不一致。(2) 執(zhí)行效率高本系統(tǒng)用于純文本的全文信息檢索,因而要求有較高的執(zhí)行效率。本系統(tǒng)采用詞語加權結合句法分析策略,對輸入的內(nèi)容分析后抽 取核心成分(句子的中心詞),以簡潔的形式提交給檢索模塊并在盡可能包含 所有有意義的詞的前提條件下盡量減少索引量。此外,在結果集處理時,系統(tǒng) 對這些檢索到的信息進行優(yōu)化排序,使用戶盡快地得到有用的信息。(3) 智能化程度高通過語義分析,該系統(tǒng)能抽取出查詢語句的中心詞, 再通過對中心詞的概念擴展,大多數(shù)情況下能反映查詢關鍵詞的應用場景以及 描述其語境上下文??梢砸龑в脩舸_立自己的査詢意圖,有助于用戶界定要査 詢的具體領域,實現(xiàn)了對原查詢內(nèi)容的補充和優(yōu)化。最終檢索出理想的結果, 達到用戶的檢索目的。


圖l是本發(fā)明系統(tǒng)的體系結構圖。 圖2是本發(fā)明系統(tǒng)的結構示意圖。 圖3是信息接收判斷模塊的流程圖。圖4是自然語言處理模塊中語義分析流程圖。 圖5是自然語言處理模塊中概念擴展流程圖。 圖6是檢索模塊的流程圖。 圖7是結果集處理模塊的流程圖。
具體實施方式
下面結合附圖和實例對本發(fā)明作進一步詳細的說明。如圖1所示,本發(fā)明提供的全文檢索系統(tǒng)包括數(shù)據(jù)庫服務器100、信息接收 判斷模塊200、自然語言處理模塊300、檢索模塊400、索引模塊500、索引庫600 和結果集處理模塊700。數(shù)據(jù)庫服務器IOO用于存儲知識數(shù)據(jù)詞典,規(guī)則庫、文本文件集索和引庫 600以及操作信息。主要功能包括為自然語言處理模塊300提供數(shù)據(jù)資源和 管理服務,為索引模塊500提供純文本文件。本系統(tǒng)可以采用任何商用數(shù)據(jù)庫 實現(xiàn)資源描述信息的保存。信息接收判斷模塊200用于接收用戶輸入的檢索信息并根據(jù)用戶的選擇為 系統(tǒng)中的自然語言處理模塊300部署任務,或者直接請求檢索模塊400進行搜索 服務,例如用戶輸入查詢內(nèi)容后,如果未勾選任何選項,在檢索時則跳過自 然語言處理模塊300,不對査詢內(nèi)容做任何處理而直接由檢索模塊400進^f亍檢 索;用戶如果選擇語義分析、概念擴展中某項功能或兩種功能組合,信息接收 判斷模塊200則根據(jù)要求進行相應的部署。如圖3所示,信息接收判斷模塊200的處理流程為(l)用戶輸入檢索信息, 根據(jù)需要選擇語義分析或者概念擴展中某項功能或兩種功能組合,提交查詢;(2)系統(tǒng)針對用戶的選擇調(diào)用相應的功能模塊;(3)如果用戶沒有選擇任何功能模塊,系統(tǒng)自動將查詢內(nèi)容遞交給檢索模塊400。自然語言處理模塊300依賴于數(shù)據(jù)庫服務器100提供的知識數(shù)據(jù)詞典和規(guī) 則庫,并從信息接收判斷模塊200獲得部署的任務。根據(jù)部署任務遵循下述三種方式之一進行語言處理第一種方式是針對檢索內(nèi)容為短句的情況,通過語 義分析與自動切分相結合的分詞處理,抽取出若干個查詢詞并傳給檢索模塊 400進行搜索;第二種方式是針對檢索內(nèi)容為單詞的情況,依據(jù)知網(wǎng)的規(guī)則把 查詢詞在概念上擴展成對應的同義詞、近義詞,依據(jù)同義近義詞相似度算法抽 取部分擴展詞或接收用戶選擇的擴展詞做為查詢詞;第三種方式是將兩種功能 結合,具體結合過程為首先對檢索內(nèi)容進行語義分析與自動切分相結合的分 詞處理,然后將分割出的查詢詞在概念上擴展成對應的同義詞、近義詞或者上 下位詞,依據(jù)相似度優(yōu)先算法抽取部分擴展詞或接收用戶選擇的擴展詞,最后 把査詢詞和限定的擴展詞一起作為查詢條件傳給檢索模塊400;檢索模塊400為用戶提供搜索引擎的使用界面和完備的搜索服務。檢索模塊400負責接收信息接收判斷模塊200的指令和自然語言處理模塊300遞交的處 理結果,對查詢內(nèi)容在索引庫600中進行查詢匹配,返回和查詢內(nèi)容匹配的所 有文檔信息(稱為結果集),再依據(jù)Lucence的文檔得分算法(如果用戶選擇了 概念擴展功能,將會依據(jù)查詢詞與擴展詞之間的語義相似度),對返回的所有 文檔進行排序,最后將排序后的結果集交給結果集處理模塊700;索引模塊500用于接收數(shù)據(jù)庫服務器100提供的純文本文件的內(nèi)容和相關 信息,對文本內(nèi)容、標題和自定義信息處理得到索引詞,利用索引詞和文檔相 關信息建立索引庫600;索引庫600用于存儲由索引模塊500對文本文件建立的索引。此外,索引庫 600還根據(jù)檢索模塊400提交的查詢請求在索引中進行快速檢索和排序,并返回 檢索模塊400對應的結果;結果集處理模塊700用于接收來自檢索模塊400的結果集,并根據(jù)索引庫 600的信息建立結果集的文摘信息和快照信息,并對返回結果進行反顯、回顯、 分頁處理并將用戶查看快照信息的記錄存儲于數(shù)據(jù)庫100中。下面分別舉例對自然語言處理模塊300、檢索模塊400和結果集處理模塊 700作進一步詳細的說明。如圖2所示,自然語言處理模塊300包括語義分析模塊310、概念擴展模塊 320和邏輯組合模塊330。語義分析模塊310采用語法分詞和語義分詞相結合的思想對用戶輸入的句 子切分,再通過句法分析得到句法結構樹,最后基于詞語加權算法分析句子中 各個詞的權值以顯示其在句子中的重要性。該模塊涉及到的分詞算法的基本思想是事先建立詞典。假設詞典中的最 長詞條所含漢字個數(shù)為i,則取被處理文本當前字符串序列中的前i個字作為匹 配字段,査找詞典,若詞典中有這樣一個i字詞,則匹配成功,匹配字段作為 一個詞被切分出來;如果詞典中找不到這樣的一個i字詞,則匹配失敗,匹配 字段去掉最后一個字,剩下的字作為新的匹配字段,再進行匹配,如此進行下 去,直到匹配成功為止。假定詞典中最長的詞由MAXLEN個字組成,句子長度為LEN (句子長度 可以用函數(shù)求出,在此不加介紹)。數(shù)組S[N-1]存放長度為N的句子,i, j, k,pOSition為變量;wik表示S[i]到S[wik+i]組成一個分詞單位;dik是wik所表示的分詞單位的屬性,如它在詞典中的位置、詞性等;函數(shù)match(S[i] ,S[i+j])判斷 字串S[i] S[i+j]是否為詞。 算法如下Segment (S[O],S[LEN-l]) { 〃對句子進行切分 i=0;While i<LEN{ k=0;for(j=MAXLEN-l ;j〉=0;j—){if(i+j)<Len and (match(S[i] ,S[i+j]) ) { 〃判斷字串S[i] ,S[i+j] 5是否 超出句子尾,是否為詞 wik=j; k++;<formula>formula see original document page 12</formula>句法分析是在已有規(guī)則庫的基礎上,結合某些特殊連詞,例如"因為"、"并 且"等,通過自動機的方法實現(xiàn)對詞性的分析,得到句子的結構關系,并借助 樹狀方式顯示出來。分析出來的結果反映短語內(nèi)部結構關系和短語功能類型。 短語結構關系的類型有主謂、述賓、狀中、定中、述補、并列、介賓等;短 語的功能類型有名詞性短語、動詞性短語、形容詞性短語、副詞性短語、介 詞短語。詞語加權算法是在句法分析的結果——句法結構樹的基礎上,給各個詞賦 予不同權值。其主要思想是利用句法結構樹得到句子的中心謂語,然后結合 中心詞分析其余句子成分,給不同詞性的詞賦予不同的權值并去除停用詞,如 代詞、連接詞等。賦權值遵循的規(guī)則為名詞權值>形容詞權值>動詞權值。 詞語加權結束后對權值排序,并根據(jù)具體情況設定一個閥值,將權值低于閥值 的詞語除去,而將權值高于閥值的詞語返回系統(tǒng)。如圖4所示,語義分析模塊310的工作流程為(1)用戶選擇語義分析功能 后,該模塊對用戶輸入的內(nèi)容進行語法分析和語義分析;(3)如果分析成功, (用戶輸入的查詢內(nèi)容被分割成能反映句子結構關系和實際意義的詞),模塊接著對查詢內(nèi)容進行詞性標注和基于語義的切分,并通過句法分析對中心詞賦予不同權重;(4)如果分析失敗,(用戶輸入的查詢內(nèi)容在語義分析后顯示為 無意義的詞語序列),則系統(tǒng)采取自動切分或者不處理策略,直接遞交給檢索模塊400。概念擴展模塊320利用知網(wǎng)數(shù)據(jù)詞典來建立數(shù)據(jù)庫,把用戶給出的查詢詞 擴展成一組在概念上同義近義的詞集合,并通過同義近義詞相似度算法分別計 算出每一個擴展詞和原査詢詞之間的相似度。本系統(tǒng)涉及到的知網(wǎng)知識如下 知網(wǎng)是面向計算機的雙語常識知識庫,提供了設計真正的智能軟件所需的常 識。數(shù)據(jù)庫中每一個概念是通過一組義原來表示的,每個記錄的具體記錄格式如下NO詞或短語序號 [W—X^司或短語G—X-詞或短語的詞性E—X^司或短語的例子] DEFH i念定義其中的W—X、 G—X、 £_乂構成每種語言的記錄,X用以描述記錄所代表語 種,X為C則為漢語,為E則為英語。DEF是概念定義項,表達了本概念的語義 信息,值由若干個義原及它們與主干詞之間的語義關系描述組成。本系統(tǒng)提出的一種基于知網(wǎng)的概念擴展及同義近義詞相似度算法如下概念擴展的準備工作1)首先打開到新的數(shù)據(jù)源的連接。使用vc中的智能指針—ConnectionPtr的 CreatelnstanceO函數(shù)完成odbc的數(shù)據(jù)庫連接 —ConnectionPtr m_pConn; m一strConnect = "LocalServer"; m_pConn.CreateInstance(_uuidof(Connection));m_pConn->Open(_bstr—t(m_strConnect.GetBuffer(0)), L"", L"", -1L );2) 開始處理用戶輸入的査詢詞,并保存為CString類型的變量m—strln;在 dict表中查找出查詢詞的所有義項,逐條取出每條記錄的"DEF'項、"\\^_£"項和 "FIRST—SEM"項并分別保存入三個CString類型變量的All—DEF 、 All—WE和 All一Fs沖while (當前義項行數(shù)<=最末行行數(shù)){ tempDEF保存當前義項行的"DEF'內(nèi)容; All—DEF+=tempDEF; temp W—E保存當前義項行的"W_E"內(nèi)容; All_WE+=tempW—E;tempFst保存當前義項行的"FIRST_SEM "內(nèi)容;All—Fst+=tempFst;當前義項行數(shù)加l;同義近義詞概念擴展部分3) 在語義詞典表(diet)中查找出一組這樣的詞語,每一個這樣的詞語的 所有義項中至少有一條的"W—E"項和原査詢詞的某一條"W—E"項相同,并査找 出這些詞語的所有義項行。用下面一條sql語句完成SELECT * FROM dietWHERE diet W—C IN( SELECT W_C FROM diet WHERE dict.W—E IN(SELECT DISTINCT W一E FROM diet WHERE W_C=m—strln)) ORDER BY No設找到符合條件的這一組詞語的個數(shù)為n,則完成了從查詢詞W擴展出具 有同一概念的其他詞Wel、 We2、 ...、 Wen; 擴展詞相似度計算部分4) 控制兩個float類型的數(shù)組TotalValue[]和Vahie[]來分別保存每一個擴展詞所有義項得到的相似度的總和,和該擴展詞所有義項的平均相似度;設置循 環(huán)控制變量1=1;5) 控制i從l到n來循環(huán)處理査詢詞W與擴展詞Wei;6) 利用同義近義詞相似度算法計算W與Wd之間的語義相似度;7) 若相似度的值小于某闊值,就濾掉該擴展詞,否則繼續(xù);8) 若未處理完所有擴展詞,則轉至步驟5,否則繼續(xù);9) 輸出査詢詞、擴展詞以及對應的擴展相似度,算法結束。 其中,同義近義詞相似度算法如下a) 設擴展詞Wd有m條義項即有m條記錄,并設置控制變量j;控制一個 float類型的數(shù)組EachVahie[]用于保存Wei的每一條義項用公式(l)計算 得到的相似度EachValue[j]=Xl*a+ X2 *p+ X3" …(1)其中,a、 |3、 Y是可調(diào)節(jié)的參數(shù),且有a+(3+Y= 1 Xl二l,當Wei的菊條義項的"DEF"項為All一DEF的字串; Xl二0,當Wei的菊條義項的"DEF"項不為AlLDEF的字串; X2二l,當Wei的菊條義項的"W^E"項為AlLWE的字串; X2二0,當Wei的菊條義項的"W—E"項不為A1LWE的字串; X3 = l,當Wei的第j條義項的"FIRST—SEM"項為A11—Fst的字串; X3二0,當Wei的第j條義項的"FIRST—SEM"項不為A11—Fst的字串;b) 控制變量j從l到m循環(huán)處理每一個Wei的義項與查詢詞W之間的比較c) 用公式(l)計算得到Wei的第j條義項的相似度值EachValue[j];d) 若未處理完所有擴展詞,則TotalValue[ihTotalValue[i]+EachValue[j], 轉至步驟b,否則繼續(xù);e) 利用公式Value[i^ TotalValue[i]/m得到Wei和W的平均相似度Value[i]; 如圖5所示,概念擴展模塊320的工作流程為(l)用戶選擇了概念擴展功能后,概念擴展模塊在Hownet中查找査詢內(nèi)容的擴展信息;(2)如果存在查詢內(nèi)容的擴展信息,則依據(jù)Hownet規(guī)則把査詢詞從概念上擴展成對應的同義 詞、近義詞。再通過相似度優(yōu)先算法抽取優(yōu)先級別高的部分擴展詞, 一方面把 査詢詞及限定的擴展詞一起作為査詢條件傳給檢索模塊;另一方面把次優(yōu)先級 的擴展詞顯示給用戶自主選擇;(3)如果不存在查詢內(nèi)容的擴展信息,則直接 將査詢內(nèi)容遞交給檢索模塊400 。邏輯組合模塊330將語義分析模塊310和概念擴展模塊320的功能有機結 合,具體結合過程為首先對檢索內(nèi)容進行語義分析與自動切分相結合的分詞 處理,然后將分割出的查詢詞在概念上擴展成對應的同義詞、近義詞或者上下 位詞,依據(jù)相似度優(yōu)先算法抽取部分擴展詞或接收用戶選擇的擴展詞,最后把 査詢詞和限定的擴展詞一起作為査詢條件傳給檢索模塊400;檢索模塊400是本系統(tǒng)提供給用戶檢索信息的模塊,它包括查詢模塊410 和排序模塊420。查詢模塊410在索引庫中査找所有匹配的文檔信息,從匹配的文檔信息中 選擇出滿足要求的那部分文檔信息作為結果集,并將結果集發(fā)送給排序模塊 420。排序模塊420用于對來自查詢模塊410的結果集進行排序。該模塊根據(jù)擴展 詞的權值和基于原詞的相似度,結合考慮文檔中關鍵詞的出現(xiàn)頻率、文檔長度 以及文檔的反轉頻率等因素進行排序。將命中次數(shù)較多的文檔排在結果集的前 面。最后把前若干(數(shù)目由用戶指定或系統(tǒng)默認)位的結果優(yōu)先返回給用戶。如圖6所示,檢索模塊400的處理流程為(1)接受直接來自用戶的查詢內(nèi) 容或經(jīng)過自然語言處理模塊分析擴展后的查詢內(nèi)容;(2)分析查詢內(nèi)容之間的 邏輯關系,首先在索引庫中進行查詢,返回與査詢內(nèi)容匹配的所有文檔信息即 結果集;(3)依據(jù)査詢詞與擴展詞之間的語義相似度,結合考慮文檔中關鍵詞 的出現(xiàn)頻率、文檔長度以及文檔的反轉頻率等因素,對返回的所有文檔進行排 序,主要是利用查詢詞和擴展詞在文檔中出現(xiàn)的頻率來進行排序,將命中次數(shù)較多的文檔排在結果集的前面。最后將排序結果遞交給結果集處理模塊。結果集處理模塊700是用戶查詢顯示的接口,它包括頭信息顯示模塊710、 反顯模塊720、回顯模塊730和分頁處理模塊740。頭信息顯示模塊710用于顯示查詢結果的提示信息,如果查詢模塊400返回的結果集不空,則在頁首顯示査詢用時和結果集中的文檔數(shù)以及由概念擴展模 塊320提供的可勾選擴展詞;如果查詢模塊400沒有檢索到匹配的結果,則顯示查找結果不存在的提示信息。反顯模塊720用于對查詢模塊400返回的文本文檔結果集和索引庫600的摘要中的關鍵字做強調(diào)突出處理。具體方法是對原査詢詞加紅色高亮,擴展詞 加不同于原查詢詞的褐色高亮?;仫@模塊730用于顯示返回給用戶的快照和摘要信息。頁面內(nèi)容以標題、 摘要的形式,按條羅列。標題為超鏈接形式,用戶可以點擊打開檢索內(nèi)容所在 的原文。摘要顯示原文中含有檢索內(nèi)容的一段文摘。類似于百度中的檢索返回 結果。分頁處理模塊740用于將結果集的多篇分檔分頁顯示。頁尾標注十頁范圍 供用戶選擇??紤]到用戶習慣,為加快搜索速度,每次翻頁只返回當頁文檔的 結果,不返回全部結果集。如圖7所示,結果集處理模塊700的處理流程為(1)接收來自檢索模塊400 遞交的結果集;(2)在頁首顯示査詢用時、返回結果數(shù)及備選擴展詞或者查詢 結果不存在的提示信息;(3)從索引庫600中獲得結果集的文摘信息,對查詢 詞和擴展詞反顯處理,對文摘及相應的源文檔之間建立鏈接;(4)用戶要求多 頁顯示時,再次從結果集中返回用戶需要數(shù)目的文檔。為了清晰明了地顯示系統(tǒng)功能,下面給出若干測試實例 (1)語義分析功能語義分析功能是將措詞結構簡單的短句(包括復句中的分句)進行中文分 詞、句法分析來抽取短句中的關鍵詞,提交給檢索系統(tǒng)進行査詢,提高了搜索 引擎的易用性,保證分析結果的正確性。語義分析模塊能對不同句型分析處理。a) 輸入陳述句"國家出臺了新的政策。"分析結果是"國家"、"政策",成 功剔除了結構助詞,分割出了中心詞;b) "省內(nèi)外糧食調(diào)配差額太大啦!"分析結果是"糧食"、"差額",成功 剔除了感嘆助詞;c) "全球的經(jīng)濟走勢如何?"分析結果是"經(jīng)濟"、"走勢"。成功剔除了 疑問助詞;根據(jù)詞法分析計算中心詞的權重,權重大的中心詞基本都出現(xiàn)在前10條 檢索結果中。(2)概念擴展功能 概念擴展模塊能對查詢詞進行多方面的擴展。a) 對査詢詞"馬鈴薯"擴展出同義詞"土豆"和"洋芋";b) 對查詢詞"技工"能擴展出近義詞"技師"、"技工"、"技術員"等;c) 對査詢詞"大學生"、能擴展出上位詞"本科生",同樣也可以從"本科 生"擴展出"大學生"和"??粕?等下位詞。
權利要求
1、一種基于自然語言理解的全文檢索系統(tǒng),其特征在于該系統(tǒng)包括數(shù)據(jù)庫服務器(100)、信息接收判斷模塊(200)、自然語言處理模塊(300)、檢索模塊(400)、索引模塊(500)、索引庫(600)和結果集處理模塊(700);數(shù)據(jù)庫服務器(100)用于存儲知識數(shù)據(jù)詞典,規(guī)則庫、文本文件集和索引庫(600)以及操作信息;為自然語言處理模塊(300)提供數(shù)據(jù)資源和管理服務,為索引模塊(500)提供純文本文件;信息接收判斷模塊(200)根據(jù)用戶的選擇為系統(tǒng)中的自然語言處理模塊(300)部署任務,或者直接請求檢索模塊(400)進行搜索服務;自然語言處理模塊(300)依賴于數(shù)據(jù)庫服務器(100)提供的知識數(shù)據(jù)詞典和規(guī)則庫,并從信息接收判斷模塊(200)獲得部署的任務;自然語言處理模塊(300)根據(jù)部署任務選擇下述三種方式之一進行語言處理第一種方式是對用戶的檢索命令進行語義分析與自動切分相結合的分詞處理,分割出查詢詞傳給檢索模塊(400)進行搜索;第二種方式是依據(jù)知網(wǎng)的規(guī)則把查詢詞從概念上擴展成對應的同義詞、近義詞,通過概念擴展及同義近義詞相似度算法抽取部分擴展詞或接收用戶選擇的擴展詞,把查詢詞和限定的擴展詞一起作為查詢條件傳給檢索模塊(400)進行搜索;第三種方式是將上述二種方式結合,把綜合處理后的查詢內(nèi)容提交給檢索模塊(400);檢索模塊(400)為用戶提供搜索引擎的使用界面,并提供完備的搜索服務;檢索模塊(400)負責接收信息接收判斷模塊(200)的指令和自然語言處理模塊(300)遞交的處理結果,根據(jù)查詢語句在索引庫(600)中進行查詢匹配,返回和查詢語句匹配的所有文檔信息,根據(jù)關鍵詞和擴展詞在文檔中的集中程度對結果集進行排序處理,將排序后的結果集交給結果集處理模塊(700)處理;索引模塊(500)用于接收數(shù)據(jù)庫服務器(100)提供的純文本文件的內(nèi)容和相關信息,對文本內(nèi)容、標題和自定義信息處理得到索引詞,利用索引詞和文檔相關信息建立索引庫;索引庫(600)用于存儲由索引模塊(500)對文本文件建立的索引;索引庫(600)還根據(jù)檢索模塊(400)提交的查詢請求在索引中進行快速檢索和排序,并返回檢索模塊(400)對應的結果;結果集處理模塊(700)用于接收來自檢索模塊(400)的結果集,并根據(jù)索引庫(600)的信息建立結果集的文摘信息和快照信息,并對返回結果進行反顯、回顯、分頁處理并將用戶查看快照信息的記錄存儲于數(shù)據(jù)庫(100)中。
2、 根據(jù)權利要求l所述的全文檢索系統(tǒng),其特征在于自然語言處理模塊 (300)包括語義分析模塊(310)、概念擴展模塊(320)、邏輯組合模塊(330);語義分析模塊(310)采用語法分詞和語義分詞相結合的方式對用戶輸入的句子切分,通過句法分析得到句法結構樹,依據(jù)詞語加權算法對對中心詞賦 予不同權重;概念擴展模塊(320)依據(jù)知網(wǎng)的規(guī)則把查詢詞從概念上擴展成對應的同 義詞、近義詞或上下位詞;通過相似度優(yōu)先算法,抽取部分擴展詞或接收用戶 選擇的擴展詞,最后把査詢詞及限定的擴展詞一起作為査詢條件傳給檢索模塊 (400);邏輯組合模塊(330)將兩種語義分析模塊(310)和概念擴展模塊(320) 的功能進行邏輯組合,并將處理結果發(fā)送給檢索模塊(400)。
3、 根據(jù)權利要求l所述的全文檢索系統(tǒng),其特征在于檢索模塊(400) 是本系統(tǒng)提供給用戶檢索信息的模塊,它包括查詢模塊(410)和排序模塊(420);查詢模塊(410)在索引庫中查找所有匹配的文檔信息,從匹配的文檔信 息中選擇出滿足要求的那部分文檔信息作為結果集,并將結果集發(fā)送給排序模塊(420);排序模塊(420)用于對來自査詢模塊(410)的結果集進行一個優(yōu)先級排 序,匹配強度最高的文檔排在結果集的最前面,匹配強度是用查詢詞和擴展詞 在文檔中的頻率和檢索詞的權重以及與原詞的相似度來衡量的。
4、根據(jù)權利要求l所述的全文檢索系統(tǒng),其特征在于結果集處理模塊 (700)是用戶查詢顯示的接口,它包括頭信息顯示模塊(710)、反顯模塊(720)、 回顯模塊(730)和分頁處理模塊(740);頭信息顯示模塊(710)用于顯示査詢結果的提示信息,如果查詢模塊(400) 返回的結果集不空,則在頁首顯示查詢用時和結果集中的文檔數(shù)以及由概念擴 展模塊(320)提供的可勾選擴展詞;如果查詢模塊(400)沒有檢索到匹配的 結果,則顯示查找結果不存在的提示信息;反顯模塊(720)用于對查詢模塊(400)返回的文本文檔結果集和索引庫 (600)的摘要中的關鍵字做強調(diào)突出處理;回顯模塊(730)用于顯示排序后結果集的文檔中包含有檢索詞的文摘信 息,選擇顯示文摘信息,每塊文摘信息都包含有突出顯示的檢索詞或者擴展詞; 并對搜索內(nèi)容的源文件進行鏈接,讀取源文件到頁面;分頁處理模塊(740)用于將結果集的多篇分檔分頁顯示,在頁尾標注頁 碼范圍供用戶選擇。
全文摘要
本發(fā)明公開了一種基于自然語言理解的全文檢索系統(tǒng),該系統(tǒng)包括數(shù)據(jù)庫服務器、信息接收判斷模塊、自然語言處理模塊、檢索模塊、索引模塊、索引庫和結果集處理模塊。本發(fā)明系統(tǒng)針對當前搜索引擎智能化水平較低的情況提出了兩種解決策略——語義分析與自動切分相結合的分詞策略和依據(jù)知網(wǎng)規(guī)則的擴展查詢詞策略。部署后的系統(tǒng)將信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解和處理能力,能夠運用分詞技術、同義詞技術、概念搜索、短語識別等技術。本搜索引擎具有信息服務的智能化、人性化特征,允許檢索者采用自然語言進行信息的檢索,在交互操作模式下,可以加入用戶選擇行為,從而提供更方便、更確切的搜索服務。
文檔編號G06F17/30GK101246492SQ20081004693
公開日2008年8月20日 申請日期2008年2月26日 優(yōu)先權日2008年2月26日
發(fā)明者毅 余, 明 劉, 盧正鼎, 張茂元, 楊付全, 趙冰心, 鄒春燕 申請人:華中科技大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
昌平区| 巴彦淖尔市| 杂多县| 鄂托克前旗| 隆化县| 平远县| 贡觉县| 岳池县| 富蕴县| 华宁县| 三亚市| 年辖:市辖区| 富锦市| 兴安盟| 五寨县| 新余市| 大余县| 延川县| 浦江县| 门源| 资中县| 信丰县| 小金县| 荥经县| 镇沅| 陵川县| 财经| 张家口市| 漠河县| 汉中市| 政和县| 石狮市| 乌兰浩特市| 四子王旗| 岱山县| 内江市| 綦江县| 晋州市| 道真| 山东| 司法|