文本檢索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出一種文本檢索方法,包括以下步驟:根據(jù)輸入的查詢語句,將查詢語句拆分為關(guān)鍵語義與關(guān)鍵詞;根據(jù)關(guān)鍵語義進(jìn)行基于領(lǐng)域本體的語義擴(kuò)展以生成擴(kuò)展語義,并根據(jù)擴(kuò)展語義和關(guān)鍵詞生成擴(kuò)展查詢語句;對擴(kuò)展語義進(jìn)行相似度評分并對擴(kuò)展查詢語句進(jìn)行語義加權(quán),擴(kuò)展查詢語句進(jìn)行文本檢索以得到相應(yīng)的查詢結(jié)果;顯示檢索后的所述查詢結(jié)果。本發(fā)明實施例的方法能夠提高搜索引擎在文本檢索時的檢索查全率和查準(zhǔn)率。本發(fā)明還提供了一種文本檢索系統(tǒng)。
【專利說明】文本檢索方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)智能處理分析【技術(shù)領(lǐng)域】,特別涉及一種文本檢索方法及系統(tǒng)。
【背景技術(shù)】
[0002]對于文本搜索和分類目錄的檢索,目前的主要方式是根據(jù)檢索對象的關(guān)鍵詞確定是否匹配,即將檢索語句分割成關(guān)鍵詞的形式分別進(jìn)行檢索,但是機(jī)器不能理解人類的語言,因此不能理解查詢意圖,從而導(dǎo)致搜索出的信息不夠準(zhǔn)確。比如搜索“美國黑人總統(tǒng)”,檢索意圖獲得“奧巴馬”,結(jié)果卻是包含“美國”、“黑人”、“總統(tǒng)”等等的關(guān)鍵詞。并且實際檢索語句基本上僅僅包括一兩個關(guān)鍵詞,不考慮語義,難以應(yīng)對同一關(guān)鍵詞具有不同含義或不同關(guān)鍵詞具有相同含義的問題,使得計算機(jī)很容易造成誤解,因此只能部分提高查準(zhǔn)率和查全率。比如搜索“蘋果”這個關(guān)鍵詞,結(jié)果包含電影“蘋果”、水果“蘋果”和企業(yè)“蘋果”等等。針對上述問題,用戶在搜索時可以加入高級語法進(jìn)行操作,但高級語法輸入復(fù)雜對用戶要求高,使得用戶體驗度降低。
[0003]基于語義的搜索通過為每個信息實例加上各式各樣的標(biāo)簽,不再拘泥于用戶所輸入請求語句的關(guān)鍵詞本身,而能夠較為準(zhǔn)確地捕捉到用戶所輸入語句潛在的意圖,從而能更準(zhǔn)確地向用戶返回最符合其需求的結(jié)果。目前,通過詞匯相關(guān)性的同義詞檢索技術(shù)己經(jīng)比較成熟。同義詞檢索算法是對利用詞庫搜索范圍內(nèi)的每一個相關(guān)詞進(jìn)行匹配運算以得到一個最優(yōu)的結(jié)果,但這種匹配無法表達(dá)詞匯的分類、參考等復(fù)雜關(guān)系,同時也沒有動態(tài)推理特征。
[0004]語義檢索能夠懂關(guān)鍵詞之間的邏輯關(guān)系,大大提高了檢索效率,但是目前語義的研究過于繁瑣,往往難以和現(xiàn)行技術(shù)結(jié)合到一起。到目前為止對語義檢索在概念上仍沒有統(tǒng)一的界定,因此基于本體的語義檢索大多停留在理論研究,真正實例很少。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少解決上述的技術(shù)問題之一。
[0006]為此,本發(fā)明的一個目的在于提出一種文本檢索方法,該方法通過本體詞匯的相互關(guān)聯(lián),能有效地對文本內(nèi)容進(jìn)行領(lǐng)域知識提取,提高了搜索引擎檢索文本時的查全率和查準(zhǔn)率。
[0007]本發(fā)明的另一個目的在于提供一種文本檢索系統(tǒng)。
[0008]為了實現(xiàn)上述目的,本發(fā)明第一方面的實施例提出了一種文本檢索方法,包括以下步驟:根據(jù)輸入的查詢語句,將所述查詢語句拆分為關(guān)鍵語義與關(guān)鍵詞;根據(jù)所述關(guān)鍵語義進(jìn)行基于領(lǐng)域本體的語義擴(kuò)展以生成擴(kuò)展語義,并根據(jù)所述擴(kuò)展語義和所述關(guān)鍵詞生成擴(kuò)展查詢語句;對所述擴(kuò)展語義進(jìn)行相似度評分并對所述擴(kuò)展查詢語句進(jìn)行語義加權(quán),并對所述擴(kuò)展查詢語句進(jìn)行文本檢索以得到相應(yīng)的查詢結(jié)果;以及顯示檢索后的所述查詢結(jié)果。
[0009]根據(jù)本發(fā)明實施例的文本檢索方法,在進(jìn)行文本檢索時,首先將輸入的查詢語句拆分為關(guān)鍵語義與關(guān)鍵詞,并根據(jù)關(guān)鍵語義進(jìn)行基于領(lǐng)域本體的語義擴(kuò)展以生成擴(kuò)展語義,結(jié)合擴(kuò)展語義和關(guān)鍵詞生成擴(kuò)展查詢語句,并進(jìn)一步對擴(kuò)展查詢語句進(jìn)行語義加權(quán),以及對該擴(kuò)展查詢語句進(jìn)行概念檢索以得到相應(yīng)的查詢結(jié)果,最后顯示檢索后的查詢結(jié)果。因此,本發(fā)明實施例的方法充分利用領(lǐng)域本體與查詢關(guān)鍵語義的對應(yīng)關(guān)系,根據(jù)相關(guān)詞匯的語義關(guān)系,領(lǐng)域本體限制了查詢文本的主題,獲取準(zhǔn)確率高的查詢結(jié)果;同時構(gòu)造語義擴(kuò)展的查詢語句對文本知識庫進(jìn)行搜索,從而可以有效地提高查全率。
[0010]另外,根據(jù)本發(fā)明上述實施例的文本檢索方法還可以具有如下附加的技術(shù)特征:
[0011]在一些示例中,所述查詢語句為多個所述關(guān)鍵語義與所述關(guān)鍵詞的邏輯組合,其中,所述邏輯組合包括:或、且、非邏輯關(guān)系。
[0012]在一些示例中,所述領(lǐng)域本體由概念集合、關(guān)系集合、實例集合以及事實集合組成。
[0013]在一些示例中,所述關(guān)鍵語義的集合即是所述領(lǐng)域本體中的所述概念集合。
[0014]在一些示例中,所述關(guān)系集合包括:等同關(guān)系,所述等同關(guān)系含有概念相同或用法相同的對稱關(guān)系,用于增加檢索入口 ;繼承關(guān)系,所述繼承關(guān)系包含屬種、整部和多層級關(guān)系,用于擴(kuò)大和縮小查找范圍;以及屬性關(guān)系,所述屬性關(guān)系用于擴(kuò)大檢索范圍和進(jìn)行隱式
信息查找。
[0015]在一些示例中,所述對所述擴(kuò)展語義進(jìn)行語義相似性評分并對所述擴(kuò)展查詢語句進(jìn)行語義加權(quán),包括:根據(jù)領(lǐng)域本體的局部密度、所述概念的深度、所述概念的關(guān)系以及所述概念之間的連系強(qiáng)度,計算所述概念之間的邊權(quán);根據(jù)所述邊權(quán),計算所述概念之間的語義距離;根據(jù)所述語義距離,計算所述概念之間的所述語義相似性評分;以及將所述語義相似性評分作為所述擴(kuò)展查詢語句的權(quán)重值。
[0016]在一些示例中,所述對所述擴(kuò)展查詢語句進(jìn)行概念檢索并得到相應(yīng)的查詢結(jié)果,包括:將由網(wǎng)絡(luò)上抓取下來的文本以及用戶上傳的文檔建立索引,并建立數(shù)據(jù)庫將所述文本以及所述文檔的題目、摘要、日期以及鏈接進(jìn)行組織;對組織后的所述文本以及所述文檔進(jìn)行內(nèi)容分析,建立起結(jié)構(gòu)化的索引文件;以及基于特定模型的評分方法以及所述擴(kuò)展查詢語句的權(quán)重值,對所述索引文件中的內(nèi)容進(jìn)行評分與匹配,將匹配成功的所述文件作為最終得到的所述查詢結(jié)果。
[0017]在一些示例中,所述顯示所述檢索后的所述查詢結(jié)果,包括:所述文件的相關(guān)元數(shù)據(jù)、所述文本的位置鏈接、所述文本的摘要以及所述文本中的相關(guān)關(guān)鍵詞。
[0018]在一些示例中,所述文本中的相關(guān)關(guān)鍵詞將由黃色高亮進(jìn)行標(biāo)識,并且,所述擴(kuò)展語義將被分層級地進(jìn)行展示。
[0019]本發(fā)明第二方面的實施例提供了一種文本檢索系統(tǒng),包括:查詢語句處理模塊,所述查詢語句處理模塊用于根據(jù)輸入的查詢語句,將所述查詢語句拆分為關(guān)鍵語義與關(guān)鍵詞;領(lǐng)域本體接口模塊,所述領(lǐng)域本體接口模塊根據(jù)所述關(guān)鍵語義,進(jìn)行基于領(lǐng)域本體的語義擴(kuò)展生成擴(kuò)展語義,并將所述擴(kuò)展語義與所述關(guān)鍵詞一起組成擴(kuò)展查詢語句;語義相似性評分模塊,所述語義相似性評分模塊用于將所述擴(kuò)展語義進(jìn)行語義相似性評分并對所述擴(kuò)展查詢語句進(jìn)行語義加權(quán);概念檢索模塊,所述概念檢索模塊用于對所述擴(kuò)展查詢語句進(jìn)行文本檢索并得到相應(yīng)的查詢結(jié)果;以及檢索結(jié)果顯示模塊,所述檢索結(jié)果顯示模塊用于顯示所述檢索后的所述查詢結(jié)果。[0020]根據(jù)本發(fā)明實施例的文本檢索系統(tǒng),在進(jìn)行文本檢索時,首先查詢語句處理模塊將輸入的查詢語句拆分為關(guān)鍵語義與關(guān)鍵詞,領(lǐng)域本體接口模塊根據(jù)關(guān)鍵語義進(jìn)行基于領(lǐng)域本體的語義擴(kuò)展以生成擴(kuò)展語義,結(jié)合擴(kuò)展語義和關(guān)鍵詞生成擴(kuò)展查詢語句,語義相似性評分模塊進(jìn)一步對擴(kuò)展查詢語句進(jìn)行語義加權(quán),然后概念檢索模塊對該擴(kuò)展查詢語句進(jìn)行概念檢索以得到相應(yīng)的查詢結(jié)果,最后由檢索結(jié)果顯示模塊顯示檢索后的查詢結(jié)果。因此,本發(fā)明實施例的系統(tǒng)充分利用了領(lǐng)域本體與查詢關(guān)鍵語義的對應(yīng)關(guān)系,根據(jù)相關(guān)詞匯的語義關(guān)系,領(lǐng)域本體限制了查詢文本的主題,獲取準(zhǔn)確率高的查詢結(jié)果;同時構(gòu)造語義擴(kuò)展的查詢語句對文本知識庫進(jìn)行搜索,從而可以有效地提高查全率。
[0021]另外,根據(jù)本發(fā)明上述實施例的文本檢索系統(tǒng)還可以具備如下附加的技術(shù)特征:
[0022]在一些示例中,所述查詢語句為多個所述關(guān)鍵語義與所述關(guān)鍵詞的邏輯組合,其中,所述邏輯組合包括或、且、非三種邏輯關(guān)系。
[0023]在一些示例中,所述領(lǐng)域本體由概念集合、關(guān)系集合、實例集合以及事實集合組成。
[0024]在一些示例中,所述關(guān)鍵語義的集合即是所述領(lǐng)域本體中的所述概念集合。
[0025]在一些示例中,所述關(guān)系集合包括:等同關(guān)系,所述等同關(guān)系含有概念相同或用法相同的對等關(guān)系,用于增加檢索入口 ;繼承關(guān)系,所述繼承關(guān)系包含屬種、整部和多層級關(guān)系,用于擴(kuò)大和縮小查找范圍;以及屬性關(guān)系,所述屬性關(guān)系用于擴(kuò)大檢索范圍和進(jìn)行隱式
信息查找。
[0026]在一些示例中,所述語義相似性評分模塊用于將所述擴(kuò)展語義進(jìn)行語義相似性評分并對所述擴(kuò)展查詢語句進(jìn)行語義加權(quán),包括:用于根據(jù)領(lǐng)域本體的局部密度、所述概念的深度、所述概念的關(guān)系以及所述概念之間的連系強(qiáng)度,計算所述概念之間的邊權(quán);根據(jù)所述邊權(quán),計算所述概念之間的語義距離;以及根據(jù)所述語義距離,計算所述概念之間的所述語義相似性評分,以及將所述語義相似性評分作為所述擴(kuò)展查詢語句的權(quán)重值。
[0027]在一些示例中,概念檢索模塊包括:文本知識庫,所述文本知識庫用于將由網(wǎng)絡(luò)上抓取下來的文本以及用戶上傳的文檔建立索引,并建立數(shù)據(jù)庫將所述文本以及所述文檔的題目、摘要、日期以及鏈接進(jìn)行組織;文本索引模塊,所述文本索引模塊用于對組織后的所述文本以及所述文檔進(jìn)行內(nèi)容分析,建立起結(jié)構(gòu)化的索引文件;以及文本檢索模塊,所述文本檢索模塊用于,基于特定模型的評分方法以及所述擴(kuò)展查詢語句的權(quán)重值,對所述索引文件中的內(nèi)容進(jìn)行評分與匹配,將匹配成功的所述文件作為最終得到的所述查詢結(jié)果。
[0028]在一些示例中,所述檢索結(jié)果顯示模塊用于顯示所述檢索后的所述查詢結(jié)果,包括:所述文件的相關(guān)元數(shù)據(jù)、所述文本的位置鏈接、所述文本的摘要以及所述文本中的相關(guān)關(guān)鍵詞。
[0029]在一些示例中,所述文本中的相關(guān)關(guān)鍵詞將由黃色高亮進(jìn)行標(biāo)識,并且,所述擴(kuò)展語義將被分層級地進(jìn)行展示。
[0030]本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0031]本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
[0032]圖1是根據(jù)本發(fā)明一個實施例的文本檢索方法的流程圖;
[0033]圖2是根據(jù)一個實施例的查詢語句語義擴(kuò)展的流程圖;
[0034]圖3是根據(jù)本發(fā)明一個實施例的文本檢索系統(tǒng)的結(jié)構(gòu)框圖。
【具體實施方式】
[0035]下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0036]以下結(jié)合附圖描述根據(jù)本發(fā)明實施例的文本檢索方法及系統(tǒng)。
[0037]圖1是根據(jù)本發(fā)明一個實施例的文本檢索方法的流程圖。如圖1所示,根據(jù)本發(fā)明一個實施例的文本檢索方法,包括以下步驟:
[0038]步驟S101,根據(jù)輸入的查詢語句,將查詢語句拆分為關(guān)鍵語義與關(guān)鍵詞。其中,在本發(fā)明的一個實施例中,該查詢語句為多個關(guān)鍵語義與關(guān)鍵詞的邏輯組合。更為具體地,該邏輯組合包括:或、且、非邏輯關(guān)系。
[0039]作為一個具體的示例,如圖2所示,將輸入的查詢語句根據(jù)分詞符號(此處為冒號“:”)拆分為關(guān)鍵語義和關(guān)鍵詞,其中關(guān)鍵語義在前、關(guān)鍵詞在后。關(guān)鍵語義即本體中的概念。一個查詢語句可能是多個關(guān)鍵語義和關(guān)鍵詞的邏輯組合,包括或、且、非三種邏輯運算關(guān)系。
[0040]步驟S102,根據(jù)關(guān)鍵語義進(jìn)行基于領(lǐng)域本體的語義擴(kuò)展以生成擴(kuò)展語義,并根據(jù)擴(kuò)展語義和關(guān)鍵詞生成擴(kuò)展查詢語句。其中,在本發(fā)明的一個實施例中,該領(lǐng)域本體由概念集合、關(guān)系集合、實例集合以及事實集合組成。在一些示例中,上述關(guān)鍵語義的集合即是領(lǐng)域本體中的概念集合。換言之,通過對關(guān)鍵語義進(jìn)行語義擴(kuò)展后形成語義擴(kuò)展概念,與關(guān)鍵詞一起組成擴(kuò)展后的查詢語句進(jìn)入知識搜索引擎的概念檢索模塊進(jìn)行搜索。圖2中展示了對查詢語句進(jìn)行語義擴(kuò)展的過程。例如關(guān)鍵語義“Rolling bearing”,其擴(kuò)展語義包括“Angular contact ball bearingsCylindrical roller bearing,,、“Needle rollerbearing”等。同時,關(guān)鍵語義“Dimension”對應(yīng)另一組擴(kuò)展語義“Inner diameter”、“Outerdiameter”、“Width”等。至少一個擴(kuò)展語義和相應(yīng)的關(guān)鍵詞出現(xiàn)在同一個文檔里面,才應(yīng)當(dāng)被搜索引擎檢索到,搜索結(jié)果基于擴(kuò)展語義和相應(yīng)的關(guān)鍵詞的出現(xiàn)頻率進(jìn)行排序。
[0041]具體而言,領(lǐng)域本體是一個概念詞表編輯器,提供用戶自定義領(lǐng)域本體的概念、建立概念間關(guān)聯(lián)的界面。建立領(lǐng)域本體,首先定義核心概念詞,核心概念詞是領(lǐng)域本體中的標(biāo)示詞匯,在定義核心概念詞后,可針對一個概念定義其數(shù)值屬性、從屬概念及概念間的關(guān)系,其輸入為用戶希望定義的概念方法相關(guān)詞匯,輸出為使用RDF描述的概念體系,包括:概念、概念關(guān)系、概念屬性及概念實例等。作為一個具體的示例,例如領(lǐng)域本體被定義為0=〈C,R, I, F〉的形式,其中C為概念集合,R為概念之間的關(guān)系集合,I為實例集合,F(xiàn)為事實集合。每個事實可以表示為一個三元組,即FgExRxE,其中E=I U C。
[0042]上述的關(guān)系集合包括:等同關(guān)系、繼承關(guān)系和屬性關(guān)系。具體而目,等同關(guān)系具含有概念相同或用法相同的對稱關(guān)系,用于增加檢索入口。繼承關(guān)系包含屬種、整部和多層級關(guān)系。用于擴(kuò)大和縮小查找范圍。屬性關(guān)系用于擴(kuò)大檢索范圍和進(jìn)行隱式信息查找。作為一個具體示例,例如通過領(lǐng)域本體概念定義文本內(nèi)容主題層,通過本體方法構(gòu)建概念間的關(guān)系,可以包括等同關(guān)系、繼承關(guān)系和屬性關(guān)系。其中,等同關(guān)系(EquivalenceRelationship),又稱同一關(guān)系,包含同義、近義的關(guān)系,這種關(guān)系含有概念相同或用法相同的對稱關(guān)系。揭不等同關(guān)系有利于增加檢索入口,提聞查準(zhǔn)率。繼承關(guān)系(InheritanceRelationship),又稱等級關(guān)系,這種關(guān)系包含屬種、整部和多層級關(guān)系,每種層級關(guān)系的下位詞都必須與上位詞的概念類型相同,即兩者都必須屬于同一范疇內(nèi)的事物、行為或性質(zhì),但下位詞具有更多的區(qū)分特征。揭示等級關(guān)系有助于通過它擴(kuò)大和縮小查找范圍,理解檢索意圖,提高查全率。屬性關(guān)系(Property Relationship),通過推理屬性關(guān)系可以確立概念和概念之間相互關(guān)聯(lián)的一種關(guān)系,是擴(kuò)大檢索范圍、進(jìn)行隱式信息查找的重要手段。進(jìn)一步地,在該示例中,通過Prot6g6本體編輯器,可以定義上述領(lǐng)域本體的概念、屬性、關(guān)系和實例,并進(jìn)行圖形化顯示,最終輸出使用RDF描述的概念體系模型。
[0043]步驟S103,對擴(kuò)展語義進(jìn)行語義相似度評分并對擴(kuò)展查詢語句進(jìn)行語義加權(quán),并對擴(kuò)展查詢語句進(jìn)行文本檢索以得到相應(yīng)的查詢結(jié)果。
[0044]其中,在本發(fā)明的一個實施例中,上述對擴(kuò)展語義進(jìn)行語義相似度評分并對擴(kuò)展查詢語句進(jìn)行語義加權(quán),具體包括以下步驟:
[0045]步驟1:根據(jù)領(lǐng)域本體的局部密度、概念的深度、概念的關(guān)系以及概念之間的連系強(qiáng)度,計算概念之間的邊權(quán)。
[0046]步驟2:根據(jù)上述計算得到的邊權(quán)計算概念之間的語義距離。
[0047]步驟3:根據(jù)上述得到的語義距離,計算概念之間的語義相似度評分。
[0048]步驟4:將得到的語義相似度評分作為擴(kuò)展查詢語句的權(quán)重值。
[0049]作為一個具體示例,例如在領(lǐng)域本體中,概念Cl、c2之間的語義相似性被定義為:
【權(quán)利要求】
1.一種文本檢索方法,其特征在于,包括以下步驟: 根據(jù)輸入的查詢語句,將所述查詢語句拆分為關(guān)鍵語義與關(guān)鍵詞; 根據(jù)所述關(guān)鍵語義進(jìn)行基于領(lǐng)域本體的語義擴(kuò)展以生成擴(kuò)展語義,并根據(jù)所述擴(kuò)展語義和所述關(guān)鍵詞生成擴(kuò)展查詢語句; 對所述擴(kuò)展語義進(jìn)行相似度評分并對所述擴(kuò)展查詢語句進(jìn)行語義加權(quán),并對所述擴(kuò)展查詢語句進(jìn)行文本檢索以得到相應(yīng)的查詢結(jié)果;以及顯示檢索后的所述查詢結(jié)果。
2.根據(jù)權(quán)利要求1所述的文本檢索方法,其特征在于,所述查詢語句為多個所述關(guān)鍵語義與所述關(guān)鍵詞的邏輯組合,其中,所述邏輯組合包括:或、且、非邏輯關(guān)系。
3.根據(jù)權(quán)利要求1所述的文本檢索方法,其特征在于,所述領(lǐng)域本體由概念集合、關(guān)系集合、實例集合以及事實集合組成。
4.根據(jù)權(quán)利要求3所述的文本檢索方法,其特征在于,所述關(guān)鍵語義的集合即是所述領(lǐng)域本體中的所述概念集合。
5.根據(jù)權(quán)利要求3所述的文本檢索方法,其特征在于,所述關(guān)系集合包括: 等同關(guān)系,所述等同關(guān)系含有概念相同或用法相同的對稱關(guān)系,用于增加檢索入口; 繼承關(guān)系,所述繼承關(guān)系包含屬種、整部和多層級關(guān)系,用于擴(kuò)大和縮小查找范圍;以及 屬性關(guān)系,所述屬性關(guān)系用于擴(kuò)大檢索范圍和進(jìn)行隱式信息查找。
6.根據(jù)權(quán)利要求1所述的文本檢索方法,其特征在于,所述對所述擴(kuò)展語義進(jìn)行語義相似性評分并對所述擴(kuò)展查詢語句進(jìn)行語義加權(quán),包括: 根據(jù)領(lǐng)域本體的局部密度、所述概念的深度、所述概念的關(guān)系以及所述概念之間的連系強(qiáng)度,計算所述概念之間的邊權(quán); 根據(jù)所述邊權(quán),計算所述概念之間的語義距離; 根據(jù)所述語義距離,計算所述概念之間的所述語義相似性評分;以及 將所述語義相似性評分作為所述擴(kuò)展查詢語句的權(quán)重值。
7.根據(jù)權(quán)利要求1所述的文本檢索方法,其特征在于,所述對所述擴(kuò)展查詢語句進(jìn)行概念檢索并得到相應(yīng)的查詢結(jié)果,包括: 將由網(wǎng)絡(luò)上抓取下來的文本以及用戶上傳的文檔建立索引,并建立數(shù)據(jù)庫將所述文本以及所述文檔的題目、摘要、日期以及鏈接進(jìn)行組織; 對組織后的所述文本以及所述文檔進(jìn)行內(nèi)容分析,建立起結(jié)構(gòu)化的索引文件;以及基于特定模型的評分方法以及所述擴(kuò)展查詢語句的權(quán)重值,對所述索引文件中的內(nèi)容進(jìn)行評分與匹配,將匹配成功的所述文件作為最終得到的所述查詢結(jié)果。
8.根據(jù)權(quán)利要求1所述的文件檢索方法,其特征在于,所述顯示所述檢索后的所述查詢結(jié)果,包括:所述文件的相關(guān)元數(shù)據(jù)、所述文本的位置鏈接、所述文本的摘要以及所述文本中的相關(guān)關(guān)鍵詞。
9.根據(jù)權(quán)利要求8所述的文件檢索方法,其特征在于,所述文本中的相關(guān)關(guān)鍵詞將由黃色高亮進(jìn)行標(biāo)識,并且,所述擴(kuò)展語義將被分層級地進(jìn)行展示。
10.一種文本檢索系統(tǒng),其特征在于,包括: 查詢語句處理模塊,所述查詢語句處理模塊用于根據(jù)輸入的查詢語句,將所述查詢語句拆分為關(guān)鍵語義與關(guān)鍵詞; 領(lǐng)域本體接口模塊,所述領(lǐng)域本體接口模塊根據(jù)所述關(guān)鍵語義,進(jìn)行基于領(lǐng)域本體的語義擴(kuò)展生成擴(kuò)展語義,并將所述擴(kuò)展語義與所述關(guān)鍵詞一起組成擴(kuò)展查詢語句; 語義相似性評分模塊,所述語義相似性評分模塊用于將所述擴(kuò)展語義進(jìn)行語義相似性評分并對所述擴(kuò)展查詢語句進(jìn)行語義加權(quán); 概念檢索模塊,所述概念檢索模塊用于對所述擴(kuò)展查詢語句進(jìn)行文本檢索并得到相應(yīng)的查詢結(jié)果;以及 檢索結(jié)果顯示模塊,所述檢索結(jié)果顯示模塊用于顯示所述檢索后的所述查詢結(jié)果。
11.根據(jù)權(quán)利要求10所述的文本檢索系統(tǒng),其特征在于,所述查詢語句為多個所述關(guān)鍵語義與所述關(guān)鍵詞的邏輯組合,其中,所述邏輯組合包括或、且、非三種邏輯關(guān)系。
12.根據(jù)權(quán)利要求10所述的文本檢索系統(tǒng),其特征在于,所述領(lǐng)域本體由概念集合、關(guān)系集合、實例集合以及事實集合組成。
13.根據(jù)權(quán)利要求12所述的文本檢索系統(tǒng),其特征在于,所述關(guān)鍵語義的集合即是所述領(lǐng)域本體中的所述概念集合。
14.根據(jù)權(quán)利要求12所述的文本檢索系統(tǒng),其特征在于,所述關(guān)系集合包括: 等同關(guān)系,所述等同關(guān)系含有概念相同或用法相同的對等關(guān)系,用于增加檢索入口 ; 繼承關(guān)系,所述繼承關(guān)系包含屬種、整部和多層級關(guān)系,用于擴(kuò)大和縮小查找范圍;以及 屬性關(guān)系,所述屬性關(guān)系用于擴(kuò)大檢索范圍和進(jìn)行隱式信息查找。
15.根據(jù)權(quán)利要求10所述的文本檢索系統(tǒng),其特征在于,所述語義相似性評分模塊用于將所述擴(kuò)展語義進(jìn)行語義相似性評分并對所述擴(kuò)展查詢語句進(jìn)行語義加權(quán),包括: 用于根據(jù)領(lǐng)域本體的局部密度、所述概念的深度、所述概念的關(guān)系以及所述概念之間的連系強(qiáng)度,計算所述概念之間的邊權(quán); 根據(jù)所述邊權(quán),計算所述概念之間的語義距離;以及 根據(jù)所述語義距離,計算所述概念之間的所述語義相似性評分,以及將所述語義相似性評分作為所述擴(kuò)展查詢語句的權(quán)重值。
16.根據(jù)權(quán)利要求10所述的文本檢索系統(tǒng),其特征在于,所述概念檢索模塊包括: 文本知識庫,所述文本知識庫用于將由網(wǎng)絡(luò)上抓取下來的文本以及用戶上傳的文檔建立索引,并建立數(shù)據(jù)庫將所述文本以及所述文檔的題目、摘要、日期以及鏈接進(jìn)行組織;文本索引模塊,所述文本索引模塊用于對組織后的所述文本以及所述文檔進(jìn)行內(nèi)容分析,建立起結(jié)構(gòu)化的索引文件;以及 文本檢索模塊,所述文本檢索模塊用于基于特定模型的評分方法以及所述擴(kuò)展查詢語句的權(quán)重值,對所述索弓丨文件中的內(nèi)容進(jìn)行評分與匹配,將匹配成功的所述文件作為最終得到的所述查詢結(jié)果。
17.根據(jù)權(quán)利要求10所述的文件檢索系統(tǒng),其特征在于,所述檢索結(jié)果顯示模塊用于顯示所述檢索后的所述查詢結(jié)果,包括:所述文件的相關(guān)元數(shù)據(jù)、所述文本的位置鏈接、所述文本的摘要以及所述文本中的相關(guān)關(guān)鍵詞。
18.根據(jù)權(quán)利要求17所述的文件檢索系統(tǒng),其特征在于,所述文本中的相關(guān)關(guān)鍵詞將由黃色高亮進(jìn)行標(biāo)識,并且,所述擴(kuò)展語義將被分層級地進(jìn)行展示。
【文檔編號】G06F17/27GK103927358SQ201410152090
【公開日】2014年7月16日 申請日期:2014年4月15日 優(yōu)先權(quán)日:2014年4月15日
【發(fā)明者】田凌, 馬嵩華 申請人:清華大學(xué)