欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于語義索引的檢索方法

文檔序號:6585402閱讀:378來源:國知局
專利名稱:一種基于語義索引的檢索方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)檢索領(lǐng)域,更具體地,涉及一種基于語義索引的數(shù)據(jù)檢索方法。
背景技術(shù)
基于計算機系統(tǒng)的文檔搜索處理器(即搜索引擎)已廣泛地用于對互聯(lián)網(wǎng)上的文 檔執(zhí)行關(guān)鍵詞搜索。用關(guān)鍵詞在網(wǎng)絡(luò)上進行搜索,固然會給用戶提供很大幫助,具備較高的價值,但該 方法本身也存在著一個先天的不足,以至于在很大程度上影響著這種價值的發(fā)揮。具體地 說,由于網(wǎng)絡(luò)上的可用信息是海量的,而關(guān)鍵詞搜索僅僅依據(jù)關(guān)鍵詞匹配就將所得到的結(jié) 果提交給了用戶,以至于產(chǎn)生了大量的下載信息,這其中的絕大多數(shù)是與用戶所想要的信 息無關(guān)的或不重要的?;陉P(guān)鍵詞檢索方法所存在的問題在科學(xué)技術(shù)領(lǐng)域也廣泛地存在。隨著越來越多 的研究機構(gòu)、大學(xué)、圖書館、專利部門以及其他可供網(wǎng)絡(luò)訪問的技術(shù)和科學(xué)信息的增加,該 問題顯得尤為嚴峻。科研人員被太多的報章、專利以及關(guān)于他們所感興趣的主題的一般性 信息所淹沒。與之形成巨大的反差的是,在實際查詢中,用戶所需要的僅僅是和某一特定請求 相關(guān)的若干篇文章。面對上述查準率較低的情況,用戶在檢查檢索結(jié)果以確定其與用戶查 詢的相關(guān)性時目前只有兩個選擇——一種選擇是讀取摘要,另一種是瀏覽全文以確定是否 保存或打印出該檢索到的文章。而實際上,由于很多摘要并不全面,所以其常常不能反映出 用戶真正感興趣的特定主題或以不全面的方式論述該主題。因此,瀏覽摘要可能幾乎沒有 價值。而瀏覽全文則需要用戶花費過多的時間。目前已有多種嘗試,試圖提高搜索的查準率,但這些方法僅僅依賴于基于關(guān)鍵詞 的變化或所謂短語理解的各種技術(shù)進行的關(guān)鍵詞或短語搜索,其仍然需要用戶耗費太多的 精力和時間來確定真正需要的文檔。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種查準率較高的基于語義索引的檢索方法。為實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種基于語義索引的檢索方法, 包括下列步驟10)提取用戶請求的候選動賓結(jié)構(gòu)并進行篩選,獲得合法動賓結(jié)構(gòu);20)匹配所述合法動賓結(jié)構(gòu)和文檔的動賓結(jié)構(gòu),其中所述文檔的動賓結(jié)構(gòu)是對文 檔進行提取并篩選所獲得。在上述方法中,所述篩選進一步包括下列步驟100)采用動賓結(jié)構(gòu)實例匹配進行所述候選動賓結(jié)構(gòu)的篩選。在上述方法中,所述篩選進一步包括下列步驟101)采用動賓結(jié)構(gòu)語義匹配進行所述候選動賓結(jié)構(gòu)的篩選。
在上述方法中,所述步驟101)中所說動賓結(jié)構(gòu)語義匹配進一步包括下列步驟將待篩選的動賓結(jié)構(gòu)表示為具體動詞Wl和具體名詞W2 ;利用搭配知識詞典的動賓搭配實例,選取能夠和所述具體名詞W2搭配的動詞概 念 VC2 ;利用語義限制詞典的動詞概念關(guān)系,獲得所述具體動詞Wl的動詞概念VCl ;將所述動詞概念VCl和所述動詞概念VC2相匹配。在上述方法中,所述提取進一步包括下列步驟分詞和詞性標注;進行動詞短語、名詞短語的句法分析。在上述方法中,所述步驟10)后還包括11)將所述合法動賓結(jié)構(gòu)進行同義擴展,生成查詢表達式;所述步驟20)還包括201)匹配所述查詢表達式和所述文檔的動賓結(jié)構(gòu)。在上述方法中,所述步驟201)后還包括步驟202)對于所述文檔的動賓結(jié)構(gòu)與所述合法動賓結(jié)構(gòu)相同的情況,則所述文檔在檢 索結(jié)果中居前,對于所述文檔的動賓結(jié)構(gòu)與所述查詢表達式相同的情況,則所述文檔在所 述檢索結(jié)果中居后。在上述方法中,對于所述合法動賓結(jié)構(gòu)為多個的情況,所述步驟202)中居后的文 檔根據(jù)下述規(guī)則排序?qū)τ谒龊戏▌淤e結(jié)構(gòu)的查詢表達式的個數(shù)最少的,將所述居后的文檔居于所述 檢索結(jié)果中的最后。本發(fā)明的技術(shù)效果在于根據(jù)本發(fā)明的檢索方法,對用戶輸入的問句進行預(yù)處理后 執(zhí)行問題識別,更精確地理解問句,提高了檢索的查準率;進一步地,還可以對識別的問題 進行查詢擴展,從而提高檢索的查全率。


圖1是根據(jù)本發(fā)明優(yōu)選實施例的基于語義索引的檢索方法的流程圖;圖2是根據(jù)本發(fā)明優(yōu)選實施例的提取候選動賓結(jié)構(gòu)并進行篩選的流程圖;圖3是根據(jù)本發(fā)明優(yōu)選實施例的動賓結(jié)構(gòu)語義匹配的流程圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖,對根據(jù)本發(fā) 明實施例的基于語義索引的檢索方法進一步詳細說明。應(yīng)當理解,此處所描述的具體實施 例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。根據(jù)本發(fā)明的優(yōu)選實施例,該方法開始于與用戶希望獲取的文檔概念相關(guān)的自然 語言文本的用戶請求,例如一個自然語言問句。解析該用戶請求,以識別和存儲用戶請求中 的動詞及其賓語所構(gòu)成的候選動賓結(jié)構(gòu)對用戶請求進行中文分詞、詞性標記;一旦該請 求中的所有詞都被標記,則執(zhí)行語義分析,在一個示例中,該語義分析包括識別用戶請求中 的動詞短語,然后識別用戶請求中的名詞短語。對此候選動賓結(jié)構(gòu)進行篩選,獲得合法動賓結(jié)構(gòu)。采用該合法動賓結(jié)構(gòu)及其同義擴展作為查詢表達式來搜索。對文檔集合也提取動賓 結(jié)構(gòu)并據(jù)此建立文檔語義索引,通過將查詢表達式與文檔語義索引進行匹配,并對匹配成 功的文檔加以排序,使得只有滿足查詢表達式的少量文檔返回給用戶。圖1示出了根據(jù)本發(fā)明的優(yōu)選實施例的檢索方法的流程圖,如其所示,本發(fā)明的 檢索方法包括下列步驟步驟10,首先提取用戶請求的候選動賓結(jié)構(gòu)并進行篩選,獲得合法動賓結(jié)構(gòu),也即 問題識別,該合法動賓結(jié)構(gòu)有效表示了用戶請求的意圖。圖2示出了該步驟10的詳細流程, 該過程將在后面詳細描述。步驟11,將上述步驟10所提取的用戶請求的合法動賓結(jié)構(gòu)進行同義擴展,生成查 詢表達式。同義擴展可以利用同義動賓結(jié)構(gòu)數(shù)據(jù)庫,該數(shù)據(jù)庫集中了同義的動賓結(jié)構(gòu)的實 例,例如“加熱(動詞)一水(賓語)”的同義組合可以是“提高(動詞)一水溫(賓語)”等, 該數(shù)據(jù)庫中的每一條記錄均按照動作-賓語格式存儲,具有相同含義的動賓結(jié)構(gòu)被賦以相 同的標識符(ID)。將所提取的動賓結(jié)構(gòu)與該數(shù)據(jù)庫中記錄進行匹配,若數(shù)據(jù)庫中存在與之 相同的記錄,則依據(jù)該記錄的ID執(zhí)行同義擴展。由此,生成代表用戶請求的查詢表達式。步驟12,與對用戶請求提取動賓結(jié)構(gòu)類似,對文檔集合中的文檔進行動賓結(jié)構(gòu)提 取和篩選。步驟13,存儲步驟12所提取的動賓結(jié)構(gòu)作為文檔語義索引。步驟14,匹配用戶請求的合法動賓結(jié)構(gòu)和步驟11所生成的查詢表達式二者與文 檔語義索引,獲取匹配成功的文檔構(gòu)成匹配文檔集合。步驟15,對步驟14獲得的匹配文檔集合中的匹配文檔執(zhí)行結(jié)果排序。更具體地, 若匹配文檔的語義索引與用戶請求的動賓結(jié)構(gòu)完全相同,則該匹配文檔排序居前,若匹配 文檔的語義索引與步驟11所生成的查詢表達式相同,則該匹配文檔排序靠后。更優(yōu)選地, 對于可能出現(xiàn)的用戶請求的合法動賓結(jié)構(gòu)不唯一的情況,按照其查詢表達式的個數(shù)對靠后 的文檔加以排序,即設(shè)若用戶請求為S,經(jīng)提取得到動賓結(jié)構(gòu)A和B,動賓結(jié)構(gòu)A經(jīng)過同義 擴展,得到Na篇文檔,而動賓結(jié)構(gòu)B經(jīng)過同義擴展,得到Nb篇文檔,若Nb > Na,則排序時將 Nb篇文檔置于Na篇文檔前。圖2示出了根據(jù)本發(fā)明優(yōu)選實施例的提取候選動賓結(jié)構(gòu)并進行篩選的流程圖。下 面將根據(jù)圖2詳細描述該過程步驟20,對用戶請求執(zhí)行分詞和詞性標注,即詞法分析,將用戶請求切分成若干詞 語構(gòu)成的詞串,并對各個詞語標示詞性。分詞和詞性標注屬于常用技術(shù),例如可以采用正向 最大匹配分詞算法進行分詞,采用863詞性標注集進行詞性標注,此處不詳細說明。例如, 用戶請求為“如何去除食用油中的游離脂肪酸? ”,經(jīng)過詞法分析得到如下分析結(jié)果如何/r去除/V食用油/n中/nd的/u游離/V脂肪酸/n ? /wp表1給出863詞性標注集及含義,說明了上述分析結(jié)果中的詞性標注標識及其含 義。表1 863詞性標注集及含義
標識含義示例標識含義示例
權(quán)利要求
1.一種基于語義索引的檢索方法,包括下列步驟10)提取用戶請求的候選動賓結(jié)構(gòu)并進行篩選,獲得合法動賓結(jié)構(gòu);20)匹配所述合法動賓結(jié)構(gòu)和文檔的動賓結(jié)構(gòu),其中所述文檔的動賓結(jié)構(gòu)是對文檔進 行提取并篩選所獲得。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述篩選進一步包括下列步驟100)采用動賓結(jié)構(gòu)實例匹配進行所述候選動賓結(jié)構(gòu)的篩選。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述篩選進一步包括下列步驟101)采用動賓結(jié)構(gòu)語義匹配進行所述候選動賓結(jié)構(gòu)的篩選。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟100)后包括下列步驟101)采用動賓結(jié)構(gòu)語義匹配進行未通過所述步驟100)篩選的候選動賓結(jié)構(gòu)的篩選。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述步驟101)中所說動賓結(jié)構(gòu)語義 匹配進一步包括下列步驟將待篩選的動賓結(jié)構(gòu)表示為具體動詞Wl和具體名詞W2 ;利用搭配知識詞典的動賓搭配實例,選取能夠和所述具體名詞W2搭配的動詞概念VC2 ;利用語義限制詞典的動詞概念關(guān)系,獲得所述具體動詞Wl的動詞概念VCl ; 將所述動詞概念VCl和所述動詞概念VC2相匹配。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取進一步包括下列步驟 分詞和詞性標注;進行動詞短語、名詞短語的句法分析。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟10)后還包括11)將所述合法動賓結(jié)構(gòu)進行同義擴展,生成查詢表達式; 所述步驟20)還包括201)匹配所述查詢表達式和所述文檔的動賓結(jié)構(gòu)。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述步驟201)后還包括步驟202)對于所述文檔的動賓結(jié)構(gòu)與所述合法動賓結(jié)構(gòu)相同的情況,則所述文檔在檢索結(jié) 果中居前,對于所述文檔的動賓結(jié)構(gòu)與所述查詢表達式相同的情況,則所述文檔在所述檢 索結(jié)果中居后。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,對于所述合法動賓結(jié)構(gòu)為多個的情況,所 述步驟202)中居后的文檔根據(jù)下述規(guī)則排序?qū)τ谒龊戏▌淤e結(jié)構(gòu)的查詢表達式的個數(shù)最少的,將所述居后的文檔居于所述檢索 結(jié)果中的最后。
全文摘要
本發(fā)明提供一種基于語義索引的檢索方法,包括下列步驟10)提取用戶請求的候選動賓結(jié)構(gòu)并進行篩選,獲得合法動賓結(jié)構(gòu);20)匹配所述合法動賓結(jié)構(gòu)和文檔的動賓結(jié)構(gòu),其中所述文檔的動賓結(jié)構(gòu)是對文檔進行提取并篩選所獲得。上述檢索方法,更精確地理解了用戶的目的,有效提高了檢索的查準率。
文檔編號G06F17/30GK102117285SQ20091024399
公開日2011年7月6日 申請日期2009年12月30日 優(yōu)先權(quán)日2009年12月30日
發(fā)明者王永剛, 范祝滿, 趙琦, 高建忠 申請人:安世亞太科技(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
文山县| 濮阳市| 富宁县| 湟中县| 山阴县| 柞水县| 连山| 梁平县| 文水县| 江北区| 莱州市| 沭阳县| 沂水县| 泸州市| 伊宁市| 上高县| 探索| 延边| 汾西县| 徐汇区| 满洲里市| 会宁县| 海口市| 施甸县| 鱼台县| 镇坪县| 察哈| 禹城市| 淅川县| 石棉县| 甘肃省| 普定县| 黄平县| 印江| 湾仔区| 井研县| 屯留县| 昌乐县| 肇东市| 杭锦旗| 锦州市|