專利名稱::一種自然語(yǔ)言搜索的方法和裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及自然語(yǔ)言搜索
技術(shù)領(lǐng)域:
,特別是關(guān)于一種自然語(yǔ)言的搜索方法和裝置。
背景技術(shù):
:在現(xiàn)有技術(shù)中常用的搜索技術(shù)主要是基于關(guān)鍵字匹配或主題分類,但是由于缺乏語(yǔ)義信息,缺乏知識(shí)理解和推理能力,存在搜索返回信息包括大量的無(wú)關(guān)信息,并且返回信息還存在質(zhì)量低及信息丟失、查準(zhǔn)率的精度不夠等問(wèn)題,其主要原因是因特網(wǎng)在信息表達(dá)和檢索方面存在的缺陷,沒有提供給計(jì)算機(jī)足夠的可讀信息,限制了計(jì)算才/M^險(xiǎn)索中的自動(dòng)分析能力?,F(xiàn)有技術(shù)中采用的方法是,首先對(duì)用戶的搜索輸入進(jìn)行語(yǔ)義分析,配合詞性標(biāo)注,找出對(duì)搜索引擎有意義的關(guān)鍵詞。然后再對(duì)業(yè)務(wù)數(shù)據(jù)的索引文件進(jìn)行檢索。如在搜索中輸入"從包頭怎么去五臺(tái)山?,,,可以依據(jù)漢語(yǔ)詞典對(duì)句子進(jìn)行語(yǔ)義的拆分,即分詞成"包頭"、"怎么去"、"五臺(tái)山"這些正是語(yǔ)義的主體,也是自然語(yǔ)言搜索需要的關(guān)鍵詞。因?yàn)閷?duì)于搜索而言,被搜索內(nèi)容事先已經(jīng)按詞典里的詞條進(jìn)行索引的創(chuàng)建。所以,在搜索時(shí)返回的答案可能是包頭的相關(guān)信息、五臺(tái)山的相關(guān)信息、同時(shí)也包括用戶需要查詢的從包頭怎么去五臺(tái)在返回的信息時(shí),不能及時(shí)準(zhǔn)確的反饋用戶所需要的信息。
發(fā)明內(nèi)容本發(fā)明提供一種自然語(yǔ)言的搜索方法和裝置,用于解決現(xiàn)有技術(shù)進(jìn)行自然語(yǔ)言搜索時(shí),只是為查詢用戶返回大量的相關(guān)網(wǎng)頁(yè)的問(wèn)題。一種自然語(yǔ)言4叟索的方法,包括A、構(gòu)建漢語(yǔ)框架知識(shí)庫(kù)CFN和專業(yè)領(lǐng)域知識(shí)本體庫(kù),所述漢語(yǔ)框架知識(shí)庫(kù)中保存具有相同語(yǔ)義的多個(gè)詞元、框架以及構(gòu)成框架的框架元素,其中所述框架用于表述所述相同語(yǔ)義;B、針對(duì)查詢用戶輸入的搜索語(yǔ)句,將所述搜索語(yǔ)句中的至少一個(gè)動(dòng)詞與漢語(yǔ)框架知識(shí)庫(kù)中的詞元進(jìn)行匹配,找到所述動(dòng)詞所屬的框架,并根據(jù)所述才匡架中包含的框架元素對(duì)所述4叟索語(yǔ)句進(jìn)4亍標(biāo)注;C、選擇所述動(dòng)詞中的一個(gè)作為語(yǔ)義謂詞,并根據(jù)所述標(biāo)注從所述搜索語(yǔ)句中提取出所述語(yǔ)義謂詞以及該語(yǔ)義謂詞的主體和/或客體生成三元組;D、將所述三元組作為查詢輸入,利用所述專業(yè)領(lǐng)域知識(shí)本體庫(kù)生成候選答案集。其中,所述漢語(yǔ)框架知識(shí)庫(kù)中的內(nèi)容由語(yǔ)義Web標(biāo)記語(yǔ)言描述。所述漢語(yǔ)知識(shí)框架庫(kù)包括框架庫(kù)、句子庫(kù)和詞元庫(kù)所述框架庫(kù)是以框架為單位,保存框架的定義、構(gòu)成框架的框架元素以及框架和框架之間的關(guān)系;所述句子庫(kù)記錄帶有框架語(yǔ)義標(biāo)注信息的句子,所述帶有框架語(yǔ)義標(biāo)注信息的句子是按照框架庫(kù)所提供的框架和框架元素標(biāo)注句子的框架語(yǔ)義信息和句法信息;所述詞元庫(kù)保存每個(gè)框架所涉及到的詞元。其中,構(gòu)建專業(yè)領(lǐng)域知識(shí)本體庫(kù),具體步驟包括參照與專業(yè)領(lǐng)域相關(guān)的分類體系標(biāo)準(zhǔn)構(gòu)建該領(lǐng)域的本體模型;通it^體編輯工具把本體庫(kù)內(nèi)M口識(shí)條目的概念、M口識(shí)條目的關(guān)系以及實(shí)例用語(yǔ)義Web標(biāo)記語(yǔ)言表示,并存儲(chǔ)為計(jì)算機(jī)可讀的文檔格式。所述步驟B之后,進(jìn)一步包括當(dāng)搜索語(yǔ)句中有多個(gè)動(dòng)詞時(shí),將每個(gè)動(dòng)詞與本體庫(kù)中的條目關(guān)系進(jìn)行比對(duì)得到所述動(dòng)詞的語(yǔ)義指數(shù),并根據(jù)所述語(yǔ)義指數(shù)選擇動(dòng)詞作為所述語(yǔ)句的語(yǔ)義謂詞,所述語(yǔ)義指數(shù)用于tf量動(dòng)詞的重要性。其中,所述步驟D,包括根據(jù)所述標(biāo)注從所述搜索語(yǔ)句中提取具有語(yǔ)義信息的三元組;根據(jù)所述三元組生成查詢語(yǔ)句,在本體庫(kù)中查找與該三元組匹配的相關(guān)內(nèi)容;如果查找成功則生成候選答案集;如果查找失敗,則利用相應(yīng)的查詢夫見則創(chuàng)建推理機(jī)進(jìn)行推理,并生成相應(yīng)的數(shù)據(jù)一莫型進(jìn)行查詢,查詢成功后生成相應(yīng)的候選答案集。所述生成候選答案集^^后,進(jìn)一步包括對(duì)候選答案集中的答案進(jìn)行排序,并將排序后的答案返回給查詢用戶。進(jìn)一步,當(dāng)用戶輸入的搜索語(yǔ)句為問(wèn)句時(shí),在生成三元組之后,包括進(jìn)行問(wèn)句分析,提取所述問(wèn)句的疑問(wèn)詞和疑問(wèn)意向詞,得到該問(wèn)句的詢問(wèn)信自'-將所述詢問(wèn)信息和三元組作為查詢輸入,利用所述專業(yè)領(lǐng)域本體庫(kù)生成候選答案集。根據(jù)上述方法,本發(fā)明還提供一種自然語(yǔ)言搜索裝置,包括存儲(chǔ)模塊,用于存儲(chǔ)漢語(yǔ)框架知識(shí)庫(kù)CFN和專業(yè)領(lǐng)域知識(shí)本體庫(kù),所述漢語(yǔ)框架知識(shí)庫(kù)中保存具有相同語(yǔ)義的多個(gè)詞元、框架以及構(gòu)成框架的框架元素,其中所述框架用于表述所述相同語(yǔ)義;分析才莫塊,用于當(dāng)查詢用戶輸入搜索語(yǔ)句時(shí),將所述搜索語(yǔ)句中的至少一個(gè)動(dòng)詞與漢語(yǔ)框架知識(shí)庫(kù)中的詞元進(jìn)行匹配,找到所述動(dòng)詞所屬的框架,并才艮據(jù)所述框架中包含的框架元素對(duì)所述搜索語(yǔ)句進(jìn)行標(biāo)注;語(yǔ)義謂詞4莫塊,用于選擇所迷動(dòng)詞中的一個(gè)作為語(yǔ)義謂詞,并4艮據(jù)所迷標(biāo)注從所述搜索語(yǔ)句中提取出所述語(yǔ)義謂詞以及該語(yǔ)義謂詞的主體和/或客體生成三元組;答案生成模塊,用于將所述三元組作為查詢輸入,利用所述專業(yè)領(lǐng)域知識(shí)本體庫(kù)生成候選答案集。其中,所述存儲(chǔ)才莫塊還用于利用語(yǔ)義Web標(biāo)記語(yǔ)言描述漢語(yǔ)框架知識(shí)庫(kù)中的內(nèi)容。進(jìn)一步,所述分析才莫塊包括框架確定單元,用于當(dāng)查詢用戶輸入搜索語(yǔ)句時(shí),將搜索語(yǔ)句中的動(dòng)詞與漢語(yǔ)框架知識(shí)庫(kù)中的詞元it;f亍匹配,找到所述動(dòng)詞所屬的框架;標(biāo)注單元,用于才艮據(jù)所述框架中包含的框架元素對(duì)所述搜索語(yǔ)句進(jìn)行標(biāo)注。所述語(yǔ)義謂詞才莫塊包括選擇單元,用于,人搜索語(yǔ)句的動(dòng)詞中選擇一個(gè)動(dòng)詞作為語(yǔ)義謂詞;提取單元,用于并根據(jù)所述標(biāo)注從所述搜索語(yǔ)句中提取出所述語(yǔ)義謂詞以及該語(yǔ)義謂詞的主體和/或客體生成三元組。所述答案生^t塊包4舌查詢單元,用于將所述三元組作為查詢搜索輸入,利用所述專業(yè)領(lǐng)域知識(shí)本體庫(kù)生成候選答案集;推理單元,用于當(dāng)查詢模塊查找失敗時(shí),利用相應(yīng)的查詢規(guī)則創(chuàng)建推理機(jī)進(jìn)行推理,并生成相應(yīng)的數(shù)據(jù)模型進(jìn)行查詢生成候選答案集。排序單元,用于對(duì)候選答案集中的答案進(jìn)行排序,并根據(jù)該排序?qū)⒋鸢阜祷亟o用戶。進(jìn)一步,所述選擇單元還用于當(dāng)搜索語(yǔ)句中有多個(gè)動(dòng)詞時(shí),將每個(gè)動(dòng)詞與本體庫(kù)中的條目關(guān)系進(jìn)行比對(duì)得到所述動(dòng)詞的語(yǔ)義指數(shù),并根據(jù)所述語(yǔ)義指數(shù)選擇一個(gè)動(dòng)詞作為所述語(yǔ)句的語(yǔ)義謂詞,所述語(yǔ)義指數(shù)用于衡量動(dòng)詞的重要性。該裝置還包括問(wèn)句模塊,用于當(dāng)用戶輸入的搜索語(yǔ)句為問(wèn)句時(shí),進(jìn)行問(wèn)句分析,提取所述問(wèn)句的疑問(wèn)詞和疑問(wèn)意向詞,得到該問(wèn)句的詢問(wèn)信息;則所述答案生成4莫塊還用于將所述詢問(wèn)信息和三元組作為查詢輸入,利用所述專業(yè)領(lǐng)域本體庫(kù)生成候選答案集。本發(fā)明利用CFN對(duì)查詢用戶輸入的自然搜索語(yǔ)句進(jìn)行自動(dòng)標(biāo)注,然后提:取具有語(yǔ)義信息的三元組,將所述三元組作為查詢輸入在本體庫(kù)中進(jìn)行答案的搜索。因?yàn)樵谶M(jìn)行本體庫(kù)搜索之前已經(jīng)進(jìn)行了語(yǔ)義分析并標(biāo)注所以能快速而且高效的搜尋到確切的答案。圖1為本發(fā)明實(shí)施例一種自然語(yǔ)言搜索的方法的流程圖;圖2為本發(fā)明實(shí)施例中漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)中各子庫(kù)的連接關(guān)系圖;圖2A為本發(fā)明實(shí)施例中漢語(yǔ)框架知識(shí)庫(kù)中各框架構(gòu)成的框架網(wǎng)絡(luò)圖;圖3為本發(fā)明實(shí)施例^M4叟索語(yǔ)句中提取三元組的流程圖;圖3A為本發(fā)明實(shí)施例利用漢語(yǔ)框架知識(shí)庫(kù)對(duì)查詢語(yǔ)句進(jìn)行語(yǔ)義角色標(biāo)注的流程圖4為本發(fā)明實(shí)施例利用本體庫(kù)進(jìn)行答案的提取的流程圖;圖4A為推理機(jī)的工作原理圖5為本發(fā)明實(shí)施例一種針對(duì)簡(jiǎn)單搜索語(yǔ)句的查詢方法流程圖;圖6為利用本發(fā)明方法應(yīng)用于旅游領(lǐng)域的流程圖6A為景點(diǎn)、住宿、交通工具、娛樂(lè)、#^大及購(gòu)物6類(概念)之間的關(guān)系模型圖7為本發(fā)明實(shí)施例對(duì)問(wèn)句進(jìn)行三元組提取的流程圖8為本發(fā)明實(shí)施例一種自然語(yǔ)言搜索裝置的裝置圖9為本發(fā)明實(shí)施例一種自然語(yǔ)言搜索裝置中分析^t塊裝置圖10為本發(fā)明實(shí)施例一種自然語(yǔ)言搜索裝置語(yǔ)中語(yǔ)義謂詞模塊裝置圖11為本發(fā)明實(shí)施例一種自然語(yǔ)言搜索裝置語(yǔ)中答案生成模塊裝置圖。具體實(shí)施例方式本發(fā)明實(shí)施例中,構(gòu)建漢i吾4匡架知識(shí)庫(kù)CFN和專業(yè)領(lǐng)域知識(shí)本體庫(kù),然后利用漢語(yǔ)框架知識(shí)庫(kù)對(duì)自然語(yǔ)言4臾索輸入的查詢語(yǔ)句進(jìn)行標(biāo)注,并根據(jù)所述標(biāo)注從查詢語(yǔ)句中的提取具有語(yǔ)義信息的三元組,最后將所述三元組作為查詢輸入,利用所述本體庫(kù)生成查詢答案。下面結(jié)合說(shuō)明書附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行詳細(xì)說(shuō)明,如圖1所示,本發(fā)明實(shí)施例一種自然語(yǔ)言搜索的方法,包括步驟步驟101、構(gòu)建漢語(yǔ)框架知識(shí)庫(kù)(ChineseFrameNet,CFN)。本發(fā)明實(shí)施例首先構(gòu)建了一個(gè)以有限詞語(yǔ)集合為描述對(duì)象的漢語(yǔ)框架知識(shí)庫(kù),并用語(yǔ)義Web標(biāo)記語(yǔ)言(可擴(kuò)展標(biāo)記語(yǔ)言(XML,ExtensibleMarkupLanguage)、資源描述框架(RDF,ResourceDescriptionFramework)、Web本體標(biāo)記語(yǔ)言(OWL,WebOntologyLanguage))表示了該語(yǔ)義知識(shí)庫(kù)的各種資源。(1)漢語(yǔ)框架知識(shí)庫(kù)主要由框架庫(kù)、句子庫(kù)和詞元庫(kù)組成,具體內(nèi)容包括A、詞元庫(kù)主要存放詞元,所迷詞元是具有相同語(yǔ)義的一類詞語(yǔ),其中所述相同的語(yǔ)義即框架。例如表述"陳述"語(yǔ)義的詞元,如表l所示包括:<table>tableseeoriginaldocumentpage11</column></row><table>表1B、框架庫(kù)是以框架為單位,明確給出框架的定義以及框架的框架元素(也稱為語(yǔ)義角色),并描述該框架和其他框架之間的概念關(guān)系。框架庫(kù)中主要存放①框架的定義;②框架元素(構(gòu)成框架的不同組成元素充當(dāng)不同的角色,稱之為語(yǔ)義角色也稱作框架元素。其中包括核心框架元素和非核心框架元素);③框架的關(guān)系。以下是"陳述,,框架的相關(guān)內(nèi)容包括包括框架的定義、核心框架元素(核心語(yǔ)義角色)如表1所示、非核心框架元素(非核心語(yǔ)義角色)如表2和表3所示。"陳述',的框架定義此框架表達(dá)的是說(shuō)話者用語(yǔ)言向聽話者傳達(dá)信息的行為。<table>tableseeoriginaldocumentpage12</column></row><table>表3C、句子庫(kù)記錄帶有框架語(yǔ)義標(biāo)注信息的句子,標(biāo)注的原則是"t妄照框架庫(kù)框架下的句子標(biāo)注實(shí)例,并且是分框架,分詞無(wú)存放的。CFN為每一個(gè)詞元的每一個(gè)義項(xiàng)提供了帶有框架語(yǔ)義標(biāo)注信息的句子,這些句子來(lái)自真實(shí)的自然語(yǔ)言語(yǔ)料庫(kù),而不是由語(yǔ)言學(xué)家或者詞典編輯者創(chuàng)造的。在選取句子上,力求盡可能地顯示出該詞元的所有可能的句法語(yǔ)義結(jié)合方式。這使得CFN的數(shù)據(jù)為概括詞語(yǔ)的句法語(yǔ)義組合性質(zhì)提供了豐富的材料,為自動(dòng)語(yǔ)義標(biāo)注技術(shù)的研究提供了訓(xùn)練數(shù)據(jù)。"陳述"框架的一個(gè)句子實(shí)例英方面作為報(bào)復(fù)措施也宣布4名俄羅斯大使館的外交官為不受歡迎的人。<spkr-np-subj英jn方面n>4乍為v才艮復(fù)v4普施n也d<tgt宣布v><msg-dj-obj4m名qj我羅斯nsy大<吏館n的u夕卜交官n為v不d受v歡迎v的u人n>。(2)漢語(yǔ)框架知識(shí)庫(kù)中各元素之間的聯(lián)系如圖2所示,在本發(fā)明實(shí)施例中詞元庫(kù)、句子庫(kù)和框架庫(kù)三者的關(guān)系包括詞元庫(kù)依附于框架庫(kù),即特定的詞語(yǔ)隸屬于特定的框架(雖然有一對(duì)多的現(xiàn)象,即一個(gè)詞元可隸屬于幾個(gè)框架),由于同一個(gè)詞元在不同的框架下,其語(yǔ)義搭配模式和句法實(shí)現(xiàn)形式不同,所以句子庫(kù)又依附于詞元庫(kù)和框架庫(kù)??蚣芎涂蚣苤g還存在多種聯(lián)系,構(gòu)成一個(gè)知識(shí)網(wǎng)絡(luò)如圖2A所示,其中各框架之間的4關(guān)系包括繼承關(guān)系、總分關(guān)系、總域/分域關(guān)系、參照關(guān)系、因果關(guān)系、后繼關(guān)系。同時(shí)一個(gè)框架涉及多個(gè)詞元,用同一個(gè)框架的框架元素集合進(jìn)行標(biāo)注;反過(guò)來(lái),一個(gè)多義詞代表多個(gè)詞元,屬于幾個(gè)不同的框架,即用不同的框架元素進(jìn)行表示,有了這樣的信息,一個(gè)應(yīng)用系統(tǒng)就有可能區(qū)分出同一個(gè)詞形在不同的使用環(huán)境中的不同意義。步驟102、構(gòu)建專業(yè)領(lǐng)域知識(shí)本體庫(kù),具體包括首先參照分類體系標(biāo)準(zhǔn)確定本體的領(lǐng)域和范圍,并列出本體中的重要術(shù)語(yǔ),所述術(shù)語(yǔ)大致表明建模過(guò)程所有涉及到的事物,以及這些事物所具有的屬性以及這些屬性之間的關(guān)系等。然后定義類和類的支撐、屬性、屬性之間的關(guān)系、屬性的限制,最后得到該本體的本體才莫型。通過(guò)本體編輯工具(其中較為常見的本體編輯工具包括Ontolingua、OntoEdit、Ontosaurus和Pro&g6等)把本體模型中各知識(shí)條目的概念、關(guān)系和實(shí)例(即三元組)用Web標(biāo)記語(yǔ)言表示出來(lái),并存儲(chǔ)為計(jì)算機(jī)可讀的文檔形式。本體的建立嚴(yán)格定義了類之間的逆關(guān)系(InverseOf)、傳遞關(guān)系(TranstiveProperty)、函H關(guān)系(FunctionalProperty)、對(duì)稱關(guān)系(SymmetricProperty)、逆函凄史關(guān)系(InverseFunctionalProperty)以及對(duì)屬性的限制。步驟103、搜索語(yǔ)句的三元組抽取。當(dāng)接收到用戶輸入的搜索語(yǔ)句后,首先進(jìn)ff預(yù)處理,即進(jìn)行分詞和標(biāo)注所有詞語(yǔ)的詞性。然后才是取出所述搜索語(yǔ)句中的所有動(dòng)詞,并將每個(gè)動(dòng)詞與漢語(yǔ)框架知識(shí)庫(kù)中的詞元進(jìn)行匹配,找到每個(gè)動(dòng)詞所屬的框架,根據(jù)所述框架中的框架元素對(duì)所述搜索語(yǔ)句進(jìn)行標(biāo)注。最后選擇動(dòng)詞中的一個(gè)作為所述搜索語(yǔ)句的語(yǔ)義謂詞并提取該語(yǔ)義謂詞的主體和客體生成具有語(yǔ)義信息的三元組,所述主體和J^體是查詢語(yǔ)句中與語(yǔ)義謂詞相鄰的前一個(gè)名詞和后一個(gè)名詞,所述三元組表達(dá)了詢問(wèn)語(yǔ)句的語(yǔ)義信息以及各框架元素之間的連接關(guān)系。其中,三元組中可以缺少主體或者^(guò)_客體,即三元組是由語(yǔ)義謂詞加上所述語(yǔ)義謂詞的主體和/^^體形成的。進(jìn)一步,如果搜索語(yǔ)句中沒有動(dòng)詞,則所述語(yǔ)義謂詞則是能夠表示該語(yǔ)句搜索意圖的詞語(yǔ)。如果所述搜索語(yǔ)句為不包含動(dòng)詞的問(wèn)句,則所述語(yǔ)義謂詞為疑問(wèn)詞,主體和客體則為與疑問(wèn)詞相鄰的名詞。如圖3所示,以動(dòng)詞三元組為例,對(duì)三元組的抽取進(jìn)行進(jìn)一步的說(shuō)明,具體包括步驟S301、才艮據(jù)漢語(yǔ)框架知識(shí)庫(kù)對(duì)查詢語(yǔ)句進(jìn)4亍語(yǔ)義角色標(biāo)注。如圖3A所示,具體包括步驟S3A01、對(duì)查詢用戶輸入的搜索語(yǔ)句進(jìn)行預(yù)處理,提取出該搜索語(yǔ)句中的所有動(dòng)詞。S3A02、將所述動(dòng)詞與漢語(yǔ)框架知識(shí)庫(kù)中的詞元進(jìn)行匹配,從而得到該動(dòng)詞所屬的框架。S3A03、根據(jù)該框架中所包含的框架元素對(duì)所述搜索語(yǔ)句進(jìn)行標(biāo)注。具體包括三層第一層框架元素標(biāo)注,框架元素是框架中的各種參與者,框架元素分為核心框架元素和非核心框架元素。核心框架元素是一個(gè)框架在概念理解上的必有成分,它們?cè)诓煌目蚣苤蓄愋秃蛿?shù)量不同,顯示出才匡架的個(gè)性。非核心框架元素并不顯示框架的個(gè)性,表達(dá)時(shí)間、空間、環(huán)境^f牛、原因、目的等外圍語(yǔ)義成分。第二層短語(yǔ)類型標(biāo)注。第三層句法功能標(biāo)注。5302、選擇所述搜索語(yǔ)句的語(yǔ)義謂詞,所述語(yǔ)義謂詞是能可以表述真?zhèn)€搜索語(yǔ)句最主要的搜索目的的詞語(yǔ)。1、當(dāng)用戶輸入的搜索語(yǔ)句中只有一個(gè)動(dòng)詞時(shí),則該動(dòng)詞為所述搜索語(yǔ)句的語(yǔ)義謂詞。2、如果用戶輸入的搜索語(yǔ)句中有多個(gè)動(dòng)詞時(shí),則##個(gè)動(dòng)詞與本體庫(kù)中的條目關(guān)系(條目關(guān)系包4舌才莫型中的扭克念,以及概念之間的關(guān)系以及概念的實(shí)例,例如交通工具中有汽車類,汽車和景點(diǎn)類之間有關(guān)系,而景點(diǎn)和汽車都有各自的具體實(shí)例)進(jìn)行比對(duì)得到每個(gè)動(dòng)詞的語(yǔ)義指數(shù),所述語(yǔ)義指數(shù)用于衡量語(yǔ)義謂詞的重要f生。然后根據(jù)語(yǔ)義指數(shù)選擇一個(gè)動(dòng)詞作為該搜索語(yǔ)句的語(yǔ)義謂詞。5303、三元組的^由取。根據(jù)標(biāo)注提取所述語(yǔ)義謂詞的主體和客體生成能夠表達(dá)該搜索語(yǔ)句的語(yǔ)義信息的三元組。所述三元組中可以缺少語(yǔ)義謂詞的主體或者客體。由于用戶輸入的語(yǔ)句中存在大量的口語(yǔ),所以根據(jù)受限領(lǐng)域中詞匯對(duì)應(yīng)的口語(yǔ)詞匯詞典對(duì)查詢語(yǔ)句的語(yǔ)義進(jìn)行理解。步驟104,利用本體庫(kù)進(jìn)行答案的提取。如圖4所示,具體包括步驟S401、利用所述三元組生成查詢語(yǔ)句在本體庫(kù)中查找與該三元組相匹配的相關(guān)信息。5402、如果查找成功,則生成候選答案集后轉(zhuǎn)入S405,若查找失敗,則轉(zhuǎn)入S403。5403、利用相應(yīng)的查詢規(guī)則(推理機(jī)中的自定義規(guī)則以及推理機(jī)中存放的本體庫(kù)中的全部關(guān)系)創(chuàng)建推理機(jī),進(jìn)行推理,并生成相應(yīng)的數(shù)據(jù)模型,再次進(jìn)行查詢。5404、如果查詢成功,則生成相應(yīng)的答案集,并轉(zhuǎn)入S405;若查詢?cè)俅问?,則轉(zhuǎn)至S406。5405、對(duì)答案集中的答案進(jìn)行排序,并將排序后的答案返回給用戶。5406、為查詢用戶返回所查內(nèi)容不能找到。在本發(fā)明實(shí)施例中,將提取的三元組與本體庫(kù)中的相關(guān)信息進(jìn)行匹配時(shí),釆用能夠解析和查詢RDF模型的工具包一Jena。Jena本體解析器可以對(duì)RDF進(jìn)行解析,并對(duì)RDQL的查詢支撐和對(duì)OWL的解析。Jena同時(shí)提供基于規(guī)則的推理機(jī)。Jena提供基于規(guī)則的推理機(jī)(如RDFSReasoner、OWLReasoner等),此外用戶還可以根據(jù)需要自定義推理規(guī)則,也可以注冊(cè)使用第三方推理引擎。如圖4A所示,推理機(jī)的工作原理是推理機(jī)注冊(cè)機(jī)制根據(jù)基本RDF向量描述(信息資源)和Ontology創(chuàng)建出推理機(jī),由此推理機(jī)可以生成包含推理機(jī)制的模型對(duì)象(InferenceGraph,InfGraph),在Jena中,圖(Graph)也被稱為模型(Model),而表現(xiàn)形式為才莫型界面(ModelInterface),然后可以使用模型應(yīng)用編程接口(ModelAPI,ModelApplicationProgrammingInterface)和^^體應(yīng)用參扁禾呈4矣口(OntologyAPI,OntologyApplicationProgrammingInterface)對(duì)此才莫型進(jìn)4亍才喿作和處理,從而實(shí)現(xiàn)語(yǔ)義層面的信息檢索。如圖5所示,本發(fā)明實(shí)施例還提供一種針對(duì)簡(jiǎn)單搜索語(yǔ)句的查詢方法,具體包括步驟步驟501、構(gòu)建專業(yè)領(lǐng)域知識(shí)本體庫(kù)。面向受限領(lǐng)域構(gòu)建專業(yè)領(lǐng)域知識(shí)本體,參照《中國(guó)分類主題詞表》、專業(yè)領(lǐng)域相關(guān)標(biāo)準(zhǔn),并根據(jù)專業(yè)領(lǐng)域的勤出術(shù)語(yǔ)以及專業(yè)領(lǐng)域內(nèi)各組成元素之間的關(guān)系等等一切可知的與該專業(yè)領(lǐng)i或相關(guān)的信息,構(gòu)建該領(lǐng)域的本體模型。然后采用OWL對(duì)本^f莫型進(jìn)行編碼,最后通過(guò)美國(guó)斯坦福大學(xué)的本體編輯工具Prot6g6,把本體庫(kù)內(nèi)各條目的概念、關(guān)系和實(shí)例用OWL和RDF表示出來(lái),并存儲(chǔ)為OWL文檔。本體的建立嚴(yán)格定義了類之間的逆關(guān)系(InverseOf)、傳遞關(guān)系(TranstiveProperty)、函凌丈關(guān)系(FunctionalProperty)、對(duì)稱關(guān)系(SymmetricProperty)、逆函凄史關(guān)系(InverseFunctionalProperty)以W于屬性的卩艮制。步驟502、首先對(duì)搜索語(yǔ)句進(jìn)行預(yù)處理,提取搜索語(yǔ)句中的三元組,然后利用所述三元組生成SPARQL查詢語(yǔ)句,在本體庫(kù)中進(jìn)行查找與該三元組相匹配的相關(guān)信息,如果查找成功,則轉(zhuǎn)入步驟504,若查找失敗,則轉(zhuǎn)入步驟503。步驟503、利用相應(yīng)的查詢規(guī)則創(chuàng)建推理機(jī),進(jìn)行推理,并生成相應(yīng)的數(shù)據(jù)模型,再次進(jìn)行查詢,如果查詢成功,則轉(zhuǎn)入步驟504;若查詢?cè)俅问?,則返回所查詢內(nèi)容不能找到。步驟504、對(duì)候選答案進(jìn)行排序,并將排序后的答案返回給查詢用戶。如圖6所示,下面結(jié)合旅游領(lǐng)域查詢用戶所提出的相關(guān)問(wèn)句,對(duì)本發(fā)明實(shí)施例做進(jìn)一步的說(shuō)明。因?yàn)橛脩粼诓樵兿嚓P(guān)內(nèi)容時(shí)候大部分都是以問(wèn)句的形式輸入,所以在本實(shí)施例中特別針對(duì)查詢問(wèn)句做了優(yōu)化的處理,具體步驟包括步驟601、構(gòu)建漢語(yǔ)框架知識(shí)庫(kù)(CFN)。步驟602、構(gòu)建旅游領(lǐng)域知識(shí)本體庫(kù)。面向某地的旅游信息,選取有特色的旅游景點(diǎn),針對(duì)每個(gè)景點(diǎn)都建立語(yǔ)料庫(kù),構(gòu)建旅游領(lǐng)域的本體庫(kù)。在景點(diǎn)語(yǔ)料庫(kù)的基礎(chǔ)上,根據(jù)旅游六要素即游、購(gòu)、娛、食、住、行,對(duì)文檔進(jìn)行了術(shù)語(yǔ)的抽取,并參照《中國(guó)分類主題詞表》及《旅游服務(wù)^f出術(shù)語(yǔ)》(gb/t16766-1997)、《旅游規(guī)劃通則》(gb/t18971-2003)、旅游業(yè)各學(xué)科在中國(guó)圖書館分類法中所屬類別、《旅游業(yè)標(biāo)準(zhǔn)體系表》、《旅行社國(guó)內(nèi)旅游服務(wù)質(zhì)量要求》(lb/t004-1997)、《導(dǎo)游服務(wù)質(zhì)量》(gb/15971-1995)、中國(guó)國(guó)家標(biāo)準(zhǔn)網(wǎng)(www.chinagb.org)、旅游規(guī)劃通則(gb/t18971-2003)、旅游資源分類調(diào)查與評(píng)價(jià)(gb/t18972-2003)、旅游服務(wù)彭出術(shù)語(yǔ)(gb/t16766-1997)等進(jìn)4亍了》良游本體模型的初步構(gòu)建。圖6A為景點(diǎn)、住宿、交通工具、娛樂(lè)、餐飲及購(gòu)物6類(概念)之間的關(guān)系模型圖。系統(tǒng)采用OWLLite進(jìn)行本體模型的編碼,并使用了美國(guó)斯坦福大學(xué)的本體編輯工具Prot6g6。本體的建立嚴(yán)才各定義了類之間的逆關(guān)系(InverseOf)、傳遞關(guān)系(TranstiveProperty)、函凄t關(guān)系(FunctionalProperty)、只十《爾關(guān)系(SymmetricProperty)、逆函凄t關(guān)系(InverseFunctionalProperty)以力寸屬性的限制。通iiProMg6,把與數(shù)據(jù)庫(kù)相關(guān)的概念、關(guān)系和實(shí)例用OWL和RDF表示出來(lái),存儲(chǔ)為OWL文檔。步驟603、對(duì)用戶搜索輸入的查詢語(yǔ)句進(jìn)行問(wèn)題分類。對(duì)問(wèn)題進(jìn)行分類時(shí),從不同的角度可以有不同的問(wèn)題分類。本系統(tǒng)釆取了多角度分類形式,在TRECCTextRetrievalConference)分類的彭出上,利用本體的思想,對(duì)問(wèn)題分類。根據(jù)問(wèn)句庫(kù)的統(tǒng)計(jì),目前對(duì)于旅游領(lǐng)域查詢用戶所提的問(wèn)句類型分為以下三類(1)簡(jiǎn)單的問(wèn)本體的主體,客體。包括特指疑問(wèn)句和是非疑問(wèn)句中詢問(wèn)人物、時(shí)間、#:字、實(shí)體。如五臺(tái)山的氣候怎么樣?五臺(tái)山附近有沒有旅館?(2)詢問(wèn)方法,屬于描述。如開車從北京出發(fā)去五臺(tái)山、怎么去?(3)原因、定義類的問(wèn)題。步驟604、利用漢語(yǔ)框架知識(shí)庫(kù)對(duì)用戶搜索輸入的查詢語(yǔ)句提取具有語(yǔ)義信息的三元組,具體步驟如圖7所示,包括S701、利用漢語(yǔ)框架知識(shí)庫(kù)對(duì)查詢語(yǔ)句進(jìn)行語(yǔ)義角色標(biāo)注。標(biāo)注共有三層,第一層為框架元素,框架元素分為核心框架元素和非核心框<table>tableseeoriginaldocumentpage19</column></row><table>表4架元素。核心框架元素是一個(gè)框架在概念理解上的必有成分,它們?cè)诓煌目蚣苤蓄愋秃蛿?shù)量不同,顯示出框架的個(gè)性。非核心框架元素并不顯示框架的個(gè)性,表達(dá)時(shí)間、空間、環(huán)境條件、原因、目的等外圍語(yǔ)義成分。第二層為短語(yǔ)類型標(biāo)注,第三層為句法功能標(biāo)注。表4中給出了"到達(dá)"框架的框架描述。例句"駕車從;U^到五臺(tái)山怎樣走最近?"進(jìn)4亍CFN標(biāo)注后為〈mot-vp-va駕車><src-pp-adva從;^^>〈tg1^到達(dá)到><goal-sp~obj五臺(tái)山>怎樣走最近?5702、問(wèn)句分析。獲取疑問(wèn)詞和疑問(wèn)意向詞。由于問(wèn)句可以通過(guò)疑問(wèn)詞和疑問(wèn)意向詞確定查詢用戶的查詢目的。5703、三元組的抽取。首先從問(wèn)句的動(dòng)詞中獲取語(yǔ)義謂詞,并將獲取到的語(yǔ)義謂詞與本體庫(kù)中的條目關(guān)系進(jìn)行比對(duì)。通過(guò)語(yǔ)義指數(shù)來(lái)衡量語(yǔ)義謂詞的重要、基于規(guī)則評(píng)分后提取語(yǔ)義謂詞的主體和客體。例句駕車從;U^到五臺(tái)山怎樣走最近?首先經(jīng)過(guò)預(yù)處理,通過(guò)CFN標(biāo)注的信息直接提取框架元素〈mot-vp-va駕車>、〈src-pp-adva從太原〉、〈tgt^到達(dá)到>、<goal-sp"Obj五臺(tái)山>,經(jīng)過(guò)問(wèn)題類型識(shí)別、判斷屬于TREC分類中的第二大類描述中的方法類,同時(shí)分析出比4交成分即路線屬性值。滿足<自駕車?,出發(fā)點(diǎn),iof、>,<自駕車?,目的地,五臺(tái)山〉的汽車子類自駕車的實(shí)例,然后對(duì)所有實(shí)例的路線屬性值進(jìn)行比較。例如本發(fā)明實(shí)施例利用"到達(dá)"、"穿越"、"出發(fā)"、"位移"、"存在,,等框架,對(duì)詢問(wèn)交通^各線或者交通工具的問(wèn)句進(jìn)行問(wèn)句分析,同時(shí)利用沖匡架中的詞元對(duì)動(dòng)詞進(jìn)4亍了同義擴(kuò)展。CFN第一層可以把交通工具以及出發(fā)點(diǎn)和目的;^艮快的識(shí)別出。表5為旅游交通領(lǐng)域的部分問(wèn)句標(biāo)注示例。<table>tableseeoriginaldocumentpage21</column></row><table>步驟605、答案的提取。將所述三元組和查詢用戶的查詢目的作為查詢輸入,生成SPARQL查詢語(yǔ)言和Jena推理機(jī)在所述旅游領(lǐng)域知識(shí)本體庫(kù)中進(jìn)行答案的查找,具體的查詢流程包括當(dāng)用戶輸入一個(gè)查詢"從包頭怎么去五臺(tái)山?",則系統(tǒng)通過(guò)上述步驟從中抽取出發(fā)點(diǎn)、動(dòng)詞和目的地<包頭,去,五臺(tái)山>,并問(wèn)句分析得到用戶的查詢目的為詢問(wèn)線路怎么走。根據(jù)三元組和查詢目的信息生成SPARQL查詢語(yǔ)句,在本體庫(kù)中查找與詢問(wèn)內(nèi)斜目匹配的相關(guān)信息。如果查找成功,則直接生成候選答案集;如果查找失敗,則生成相應(yīng)的查詢頭見則,并創(chuàng)建推理4幾,進(jìn)行推理,然后生成相應(yīng)的數(shù)據(jù)模型,再次進(jìn)行查詢,查找成功則生成相應(yīng)的候選答案集,并對(duì)候選答案集中的答案進(jìn)行排序。最后將排序后的結(jié)果返回給用戶。如果生成相應(yīng)的查詢MJ'j之后仍然失敗,則給查詢用戶返回空答案。例子的返回答案為1,火車1674/1675:包頭——忻州火車2462/2463:包頭——忻州大巴忻州2,飛機(jī)MU5690:包頭機(jī)場(chǎng)-i^f、武宿機(jī)場(chǎng)大巴;bf-i臺(tái)山3,大巴包頭——;U^、大巴A^、——i臺(tái)山。如圖8所示,本發(fā)明實(shí)施例還提供一種自然語(yǔ)言搜索裝置包括存儲(chǔ)才莫塊801、分析模塊802、問(wèn)句模塊803、語(yǔ)義謂詞模塊804、答案生成模塊805:存儲(chǔ)模塊801,用于構(gòu)建漢語(yǔ)框架知識(shí)庫(kù)CFN和專業(yè)領(lǐng)域知識(shí)本體庫(kù),所述漢語(yǔ)框架知識(shí)庫(kù)中保存具有相同語(yǔ)義的多個(gè)詞元、框架以及構(gòu)成框架的框架元素,其中所述框架用于表述所述相同語(yǔ)義,其中所述漢語(yǔ)框架知識(shí)庫(kù)中的所有內(nèi)容都由語(yǔ)義Web標(biāo)記語(yǔ)言描述。分析模塊802,用于當(dāng)查詢用戶輸入搜索語(yǔ)句時(shí),將所述搜索語(yǔ)句中的至少一個(gè)動(dòng)詞與漢語(yǔ)框架知識(shí)庫(kù)中的詞元進(jìn)行匹配,找到所述動(dòng)詞所屬的框架,并根據(jù)所述框架中包含的框架元素對(duì)所述搜索語(yǔ)句進(jìn)行標(biāo)注。'如圖9所示,所述分析模塊包括框架確定單元和標(biāo)注單元框架確定單元901,用于當(dāng)查詢用戶輸入搜索語(yǔ)句時(shí),將搜索語(yǔ)句中的動(dòng)詞與漢語(yǔ)框架知識(shí)庫(kù)中的詞元進(jìn);f亍匹配,找到所述動(dòng)詞所屬的框架。標(biāo)注單元902,用于根據(jù)所述框架中包含的框架元素對(duì)所述搜索語(yǔ)句進(jìn)行標(biāo)注。問(wèn)句模塊803,用于當(dāng)用戶輸入的搜索語(yǔ)句為問(wèn)句時(shí),進(jìn)行問(wèn)句分析,提取所述問(wèn)句的疑問(wèn)詞和#是問(wèn)意向詞,得到該問(wèn)句的詢問(wèn)信息;語(yǔ)義謂詞模塊804,用于選擇所述動(dòng)詞中的一個(gè)作為語(yǔ)義謂詞,并根據(jù)所述標(biāo)注從所述搜索語(yǔ)句中提取出所述語(yǔ)義謂詞以及該語(yǔ)義謂詞的主體和/或客體生成三元組。如圖10所示,所述語(yǔ)義謂詞模塊包括選擇單元1001和提取單元1002,其中所述選擇單元1001,用于當(dāng)用戶輸入的搜索語(yǔ)句中只有一個(gè)動(dòng)詞時(shí),則該動(dòng)詞為所述搜索語(yǔ)句的語(yǔ)義謂詞。如果用戶輸入的搜索語(yǔ)句中有多個(gè)動(dòng)詞時(shí),則將每個(gè)動(dòng)詞與本體庫(kù)中的條目關(guān)系(即屬性)進(jìn)行比對(duì)得到每個(gè)動(dòng)詞的語(yǔ)義指數(shù),所述語(yǔ)義指數(shù)用于衡量語(yǔ)義謂詞的重要性。然后根據(jù)語(yǔ)義指數(shù)選擇一個(gè)動(dòng)詞作為該搜索語(yǔ)句的語(yǔ)義謂詞。所述提取單元1002,用于并根據(jù)所述標(biāo)注從所述搜索語(yǔ)句中提取出所述語(yǔ)義謂詞以及該語(yǔ)義謂詞的主體和/或^:體生成三元組。答案生成模塊805,用于根據(jù)所述標(biāo)注從所述搜索語(yǔ)句中提取出具有語(yǔ)義信息的三元組,所述三元組包才舌動(dòng)詞以及動(dòng)詞的主體和/或^體,并將所述三元組作為查詢搜索輸入,利用所述專業(yè)領(lǐng)域知識(shí)本體庫(kù)生成候選答案集。當(dāng)所述搜索語(yǔ)句為問(wèn)句時(shí),則該答案生成沖莫塊還用于將所述詢問(wèn)信息和三元組作為查詢輸入,利用所述專業(yè)領(lǐng)域本體庫(kù)生成候選答案集。如圖ll所示,所述答案生成模塊包括查詢單元1101、推理單元1102、排序單元1103:查詢單元1101,用于將所述三元組作為查詢搜索輸入,利用所述專業(yè)領(lǐng)域知識(shí)本體庫(kù)生成候選答案集。推理單元1102,用于當(dāng)查詢模塊查找失敗時(shí),利用相應(yīng)的查詢規(guī)則創(chuàng)建推理才;ui行推理,并生成相應(yīng)的數(shù)據(jù)模型進(jìn)行查詢生成候選答案集。排序單元1103,用于對(duì)候選答案集中的答案進(jìn)行排序,并根據(jù)該排序?qū)⒋鸢阜祷亟o用戶。因?yàn)闈h語(yǔ)框架知識(shí)庫(kù)中的所有內(nèi)容都用語(yǔ)義Web進(jìn)行描述,所以為計(jì)算才幾應(yīng)用可讀、可理解的語(yǔ)義詞典,為實(shí)現(xiàn)語(yǔ)義Web中的語(yǔ)義知識(shí)共享以及智能化、個(gè)性化的Web服務(wù)提供基礎(chǔ)資源。并且,漢語(yǔ)框架知識(shí)庫(kù)中的句子庫(kù)記錄語(yǔ)義角色與短語(yǔ)類型、句法功能之間的對(duì)應(yīng)關(guān)系,代替了從直覺出發(fā)對(duì)角色的選擇限制的描述,比人工描述的結(jié)果更具體、更準(zhǔn)確,也更有實(shí)用價(jià)值。員根據(jù)本發(fā)明的技術(shù)方案得出其它的實(shí)施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。權(quán)利要求1、一種自然語(yǔ)言搜索的方法,其特征在于,包括A、構(gòu)建漢語(yǔ)框架知識(shí)庫(kù)CFN和專業(yè)領(lǐng)域知識(shí)本體庫(kù),所述漢語(yǔ)框架知識(shí)庫(kù)中保存具有相同語(yǔ)義的多個(gè)詞元、框架以及構(gòu)成框架的框架元素,其中所述框架用于表述所述相同語(yǔ)義;B、針對(duì)查詢用戶輸入的搜索語(yǔ)句,將所述搜索語(yǔ)句中的至少一個(gè)動(dòng)詞與漢語(yǔ)框架知識(shí)庫(kù)中的詞元進(jìn)行匹配,找到所述動(dòng)詞所屬的框架,并根據(jù)所述框架中包含的框架元素對(duì)所述搜索語(yǔ)句進(jìn)行標(biāo)注;C、選擇所述動(dòng)詞中的一個(gè)作為語(yǔ)義謂詞,并根據(jù)所述標(biāo)注從所述搜索語(yǔ)句中提取出所述語(yǔ)義謂詞以及該語(yǔ)義謂詞的主體和/或客體生成三元組;D、將所述三元組作為查詢輸入,利用所述專業(yè)領(lǐng)域知識(shí)本體庫(kù)生成候選答案集。2、如權(quán)利要求l所述的方法,其特征在于,所述漢語(yǔ)框架知識(shí)庫(kù)中的內(nèi)容由i吾義Web才示i己i吾言4翁述。3、如權(quán)利要求2所述的方法,其特征在于,所述語(yǔ)義Web標(biāo)記語(yǔ)言包括可擴(kuò)展標(biāo)記語(yǔ)言XML、資源描述框架RDF、本體標(biāo)記語(yǔ)言O(shè)WL。4、如權(quán)利要求1所述的方法,其特征在于,所述漢語(yǔ)知識(shí)框架庫(kù)包括框架庫(kù)、句子庫(kù)和詞元庫(kù)所述框架庫(kù)是以框架為單位,保存框架的定義、構(gòu)成框架的框架元素以及框架和框架之間的關(guān)系;所述句子庫(kù)記錄帶有框架語(yǔ)義標(biāo)注信息的句子,所述帶有框架語(yǔ)義標(biāo)注信息的句子是按照框架庫(kù)所提供的框架和框架元素標(biāo)注句子的框架語(yǔ)義信息和句法信息;所述詞元庫(kù)保存每個(gè)框架所涉及到的詞元。5、如權(quán)利要求1所述的方法,其特征在于,構(gòu)建專業(yè)領(lǐng)域知識(shí)本體庫(kù),包括參照與專業(yè)領(lǐng)域相關(guān)的分類體系標(biāo)準(zhǔn)構(gòu)建該領(lǐng)域的本體模型;通過(guò)本體編輯工具把本體庫(kù)內(nèi)^口識(shí)條目的概念、各知識(shí)條目的關(guān)系以及實(shí)例用語(yǔ)義Web標(biāo)記語(yǔ)言表示,并存儲(chǔ)為計(jì)算機(jī)可讀的文檔格式。6、如權(quán)利要求l所述的方法,其特征在于,所述步驟B之后,進(jìn)一步包括當(dāng)搜索語(yǔ)句中有多個(gè)動(dòng)詞時(shí),將每個(gè)動(dòng)詞與本體庫(kù)中的條目關(guān)系進(jìn)行比對(duì)得到所述動(dòng)詞的語(yǔ)義指數(shù),并根據(jù)所述語(yǔ)義指數(shù)選擇動(dòng)詞作為所述語(yǔ)句的語(yǔ)義謂詞,所述語(yǔ)義指數(shù)用于衡量動(dòng)詞的重要性。7、如權(quán)利要求l所述的方法,其特征在于,所述步驟D,包括根據(jù)所述標(biāo)注從所述搜索語(yǔ)句中提取具有語(yǔ)義信息的三元組;根據(jù)所述三元組生成查詢語(yǔ)句,在本體庫(kù)中查找與該三元組匹配的相關(guān)內(nèi)容;如果查找成功則生成l矣選答案集;如果查找失敗,則利用相應(yīng)的查詢MJ'J創(chuàng)建推理4幾進(jìn)行推理,并生成相應(yīng)的數(shù)據(jù)模型進(jìn)行查詢,查詢成功后生成相應(yīng)的候選答案集。8、如權(quán)利要求1或7所述的方法,其特征在于,所述生成候選答案集之后,進(jìn)一步包括對(duì)候選答案集中的答案進(jìn)行排序,并將排序后的答案返回給查詢用戶。9、如權(quán)利要求l所述的方法,其特44于,當(dāng)用戶輸入的搜索語(yǔ)句為問(wèn)句時(shí),在生成三元組之后,進(jìn)一步包才舌進(jìn)行問(wèn)句分析,提取所述問(wèn)句的疑問(wèn)詞和疑問(wèn)意向詞,得到該問(wèn)句的詢問(wèn)信息;將所述詢問(wèn)信息和三元組作為查詢輸入,利用所述專業(yè)領(lǐng)域本體庫(kù)生成候選答案集。10、一種自然語(yǔ)言搜索裝置,其特征在于,包括存儲(chǔ)模塊,用于存儲(chǔ)漢語(yǔ)框架知識(shí)庫(kù)CFN和專業(yè)領(lǐng)域知識(shí)本體庫(kù),所述漢語(yǔ)框架知識(shí)庫(kù)中保存具有相同語(yǔ)義的多個(gè)詞元、框架以及構(gòu)成框架的框架元素,其中所述框架用于表述所述相同語(yǔ)義;分析模塊,用于當(dāng)查詢用戶輸入搜索語(yǔ)句時(shí),將所述搜索語(yǔ)句中的至少一個(gè)動(dòng)詞與漢語(yǔ)框架知識(shí)庫(kù)中的詞元進(jìn)行匹配,找到所述動(dòng)詞所屬的框架,并根據(jù)所述框架中包含的框架元素對(duì)所述搜索語(yǔ)句進(jìn)行標(biāo)注;語(yǔ)義謂詞才莫塊,用于選擇所述動(dòng)詞中的一個(gè)作為語(yǔ)義謂詞,并才艮據(jù)所述標(biāo)注組;答案生成模塊,用于將所述三元組作為查詢輸入,利用所述專業(yè)領(lǐng)域知識(shí)本體庫(kù)生成候選答案集。11、如權(quán)利要求IO所述的裝置,其特征在于,所述存儲(chǔ)模塊還用于利用語(yǔ)義Web標(biāo)記語(yǔ)言描述漢語(yǔ)框架知識(shí)庫(kù)中的內(nèi)容。12、如權(quán)利要求10所述的裝置,其特征在于,所述分析模塊包括框架確定單元,用于當(dāng)查詢用戶輸入搜索語(yǔ)句時(shí),將搜索語(yǔ)句中的動(dòng)詞與漢語(yǔ)框架知識(shí)庫(kù)中的詞元進(jìn)行匹配,找到所述動(dòng)詞所屬的框架;標(biāo)注單元,用于根據(jù)所述框架中包含的框架元素對(duì)所述搜索語(yǔ)句進(jìn)行標(biāo)注。13、如權(quán)利要求IO所述的裝置,其特征在于,所述語(yǔ)義謂詞模塊包括選擇單元,用于從搜索語(yǔ)句的動(dòng)詞中選擇一個(gè)動(dòng)詞作為語(yǔ)義謂詞;提取單元,用于并根據(jù)所述標(biāo)注從所述搜索語(yǔ)句中提取出所述語(yǔ)義謂詞以及該-i吾義謂詞的主體和/或客體生成三元纟且。14、如權(quán)利10所述的裝置,其特征在于,所述答案生成才莫塊包括查詢單元,用于將所述三元組作為查詢4叟索輸入,利用所述專業(yè)領(lǐng)域知識(shí)本體庫(kù)生成候選答案集;推理單元,用于當(dāng)查詢模塊查找失敗時(shí),利用相應(yīng)的查詢規(guī)則創(chuàng)建推理機(jī)進(jìn)行推理,并生成相應(yīng)的#史據(jù)才莫型進(jìn)4于查詢生成候選答案集。15、如權(quán)利要求14所述的裝置,其特征在于,所述答案生成纟莫塊還包括排序單元,用于對(duì)候選答案集中的答案進(jìn)行排序,并根據(jù)該排序?qū)⒋鸢阜祷亟o用戶。16、如權(quán)利要求13所述的裝置,其特征在于,所iii^擇單元還用于當(dāng)搜索語(yǔ)句中有多個(gè)動(dòng)詞時(shí),將每個(gè)動(dòng)詞與本體庫(kù)中的條目關(guān)系進(jìn)行比對(duì)得到所述動(dòng)詞的語(yǔ)義指lt,并根據(jù)所述語(yǔ)義指數(shù)選擇一個(gè)動(dòng)詞作為所述語(yǔ)句的語(yǔ)義謂詞,所述語(yǔ)義指數(shù)用于衡量動(dòng)詞的重要性。17、如權(quán)利要求10所述的裝置,其特征在于,該裝置還包括問(wèn)句才莫塊,用于當(dāng)用戶輸入的4叟索語(yǔ)句為問(wèn)句時(shí),進(jìn)行問(wèn)句分析,提取所述問(wèn)句的疑問(wèn)詞和疑問(wèn)意向詞,得到該問(wèn)句的詢問(wèn)信息;則所述答案生成才莫塊還用于將所述詢問(wèn)信息和三元組作為查詢輸入,利用所述專業(yè)領(lǐng)域本體庫(kù)生成候選答案集。全文摘要本發(fā)明公開了一種自然語(yǔ)言的搜索方法和裝置,該方法為構(gòu)建漢語(yǔ)框架知識(shí)庫(kù)CFN和專業(yè)領(lǐng)域知識(shí)本體庫(kù),然后利用漢語(yǔ)框架知識(shí)庫(kù)對(duì)自然語(yǔ)言搜索輸入的查詢語(yǔ)句進(jìn)行漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注,并根據(jù)所述標(biāo)注從查詢語(yǔ)句中提取具有語(yǔ)義信息的三元組,最后將所述三元組作為查詢輸入,利用所述本體庫(kù)生成查詢答案。應(yīng)用本發(fā)明,能夠識(shí)別用戶自然語(yǔ)言輸入的搜索語(yǔ)句。并且在答案提取時(shí),不需要大量的答案庫(kù)進(jìn)行匹配。文檔編號(hào)G06F17/30GK101414310SQ20081022434公開日2009年4月22日申請(qǐng)日期2008年10月17日優(yōu)先權(quán)日2008年10月17日發(fā)明者劉開瑛,劉海靜,呂國(guó)英,孫占虎,宋小香,彭洪寶,茹李,李雙紅,王文晶,王瑞波,由麗萍,波谷,欣邢,郭海旭,郭韋昱,鐘立軍,陳雪艷,高俊杰申請(qǐng)人:山西大學(xué)