專利名稱:基于現(xiàn)有本體產(chǎn)生新概念的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明總的來說涉及一種用于對(duì)以自然語言表示的描述進(jìn)行處理的系統(tǒng)及其方法。具體地說,本發(fā)明涉及一種基于以自然語言格式表達(dá)的新概念描述、在現(xiàn)有本體中建立新概念的系統(tǒng)及其方法。
背景技術(shù):
本體(Ontology)是涉及某些感興趣的領(lǐng)域的共享理解(sharedunderstanding)的術(shù)語,其時(shí)常被考慮成一組類別(概念)、關(guān)系、功能、公理和實(shí)例。通過提供一個(gè)清楚而且正式的描述,本體可以大大地協(xié)助用戶以及應(yīng)用(application)來理解公知領(lǐng)域知識(shí)。其被看作是知識(shí)管理方面的支柱。
在過去十年內(nèi),已建立了相當(dāng)數(shù)量的本體,其大多數(shù)是由關(guān)于某些確定領(lǐng)域的通用概念所組成的。然而,在實(shí)際應(yīng)用中,具體應(yīng)用環(huán)節(jié)時(shí)常需要更加詳細(xì)的概念。這些詳細(xì)概念是針對(duì)某一確定應(yīng)用的、更具體的概念,我們稱其為新概念,其描述是以自然語言格式表示的確定概念的特性的描述,可以利用現(xiàn)有的本體的概念來表示。通常地說,創(chuàng)建這些詳細(xì)概念可以僅僅借助于手工進(jìn)行。要?jiǎng)?chuàng)建這些新概念的人們不得不仔細(xì)檢查整個(gè)本體,標(biāo)識(shí)本體中的新概念和現(xiàn)有概念之間的關(guān)系,這整個(gè)過程是一種高強(qiáng)度的勞動(dòng),并且容易出現(xiàn)差錯(cuò)。總之,有效地建立這些新概念是一件具有挑戰(zhàn)性的工作。
發(fā)明內(nèi)容
因此,本發(fā)明的目標(biāo)是提供一種基于現(xiàn)有本體自動(dòng)產(chǎn)生新的概念的系統(tǒng)及其方法。該系統(tǒng)對(duì)本體中的組成部分的重復(fù)使用率有極大的提高。該系統(tǒng)不僅提高了建立新概念的效率,而且還明顯有利于與本體有關(guān)的應(yīng)用。
為了實(shí)現(xiàn)本發(fā)明的上述和其他目的,提供一種基于以自然語言格式表達(dá)的新概念描述、在現(xiàn)有本體中建立新概念的系統(tǒng),包括正規(guī)化部件,用于接收并分析新概念描述,以將其轉(zhuǎn)換成正規(guī)化概念描述并輸出,其中所述正規(guī)化概念描述包括一個(gè)或多個(gè)具有核心術(shù)語的描述部分,所述描述部分只能含有在所述現(xiàn)有本體中能辨識(shí)的術(shù)語,而所述核心術(shù)語包括中心詞、零個(gè)或多個(gè)特性;以及新概念產(chǎn)生部件,用于基于正規(guī)化后的新概念描述,識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語,并將所識(shí)別到的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系提取出來,以便用戶根據(jù)現(xiàn)有本體建立新概念。
為了實(shí)現(xiàn)本發(fā)明的上述和其他目的,提供一種基于以自然語言格式表達(dá)的新概念描述、在現(xiàn)有本體中建立新概念的方法,包括步驟鑒別所接收到的新概念描述是否具有正規(guī)化的格式,如果所接收到新概念的描述不具有正規(guī)化的格式,則將非正規(guī)化格式的新概念描述轉(zhuǎn)換成正規(guī)化的描述,其中所述正規(guī)化概念描述包括一個(gè)或多個(gè)具有核心術(shù)語的描述部分,所述描述部分只能含有在所述現(xiàn)有本體中能辨識(shí)的術(shù)語,而所述核心術(shù)語包括中心詞、零個(gè)或多個(gè)特性;識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語,并提取所識(shí)別出的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系,由此根據(jù)現(xiàn)有本體產(chǎn)生新概念的表達(dá)式。
為了實(shí)現(xiàn)本發(fā)明上述和其他目的,提供一種計(jì)算機(jī)產(chǎn)品,用于在其上以計(jì)算機(jī)可讀形式存儲(chǔ)計(jì)算機(jī)程序代碼,以使得計(jì)算機(jī)系統(tǒng)執(zhí)行所述計(jì)算機(jī)程序代碼來實(shí)現(xiàn)步驟鑒別所接收到的新概念描述是否具有正規(guī)化的格式,如果所接收到新概念的描述不具有正規(guī)化的格式,則將非正規(guī)化格式的新概念描述轉(zhuǎn)換成正規(guī)化的描述,其中所述正規(guī)化概念描述包括一個(gè)或多個(gè)具有核心術(shù)語的描述部分,所述描述部分只能含有在所述現(xiàn)有本體中能辨識(shí)的術(shù)語,而所述核心術(shù)語包括中心詞、零個(gè)或多個(gè)特性;以及識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語,并提取所識(shí)別出的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系,由此根據(jù)現(xiàn)有本體產(chǎn)生新概念的表達(dá)式。
本發(fā)明基于以自然語言格式表達(dá)的新概念描述,在現(xiàn)有本體的基礎(chǔ)上,動(dòng)態(tài)地產(chǎn)生新概念。通過本發(fā)明的上述方法和系統(tǒng),將可以輕而易舉地管理某領(lǐng)域的本體,同時(shí)又能保持本體的小尺寸和低復(fù)雜性。
本領(lǐng)域熟練技術(shù)人員通過參考附圖可以更好地理解本發(fā)明,并且可以明白本發(fā)明的眾多目的、特征和優(yōu)點(diǎn),在附圖中,采用的相同標(biāo)記表示相似或相同的部件,其中圖l是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、基于新概念的描述自動(dòng)或部分自動(dòng)地建立新概念的系統(tǒng)的方框圖;圖2是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、自動(dòng)或部分自動(dòng)地建立新概念的方法的流程圖;圖3是詳細(xì)地示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、基于新概念的描述自動(dòng)或部分自動(dòng)地建立新概念的系統(tǒng)的方框圖;圖4是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、圖3所示的正規(guī)化器的方框圖;圖5是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、圖3所示的新概念表達(dá)式產(chǎn)生器的結(jié)構(gòu)的框圖;圖6是示出將非正規(guī)化概念描述轉(zhuǎn)換成正規(guī)化概念描述的流程圖;圖7是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、產(chǎn)生新概念的算法的流程圖;圖8示出了以有向圖表示的某領(lǐng)域的本體的一個(gè)實(shí)例;以及圖9示出了以有向圖表示的某領(lǐng)域的本體的另一個(gè)實(shí)例。
具體實(shí)施例方式
以下對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說明。應(yīng)該注意,以下描述不應(yīng)當(dāng)用來限制本發(fā)明。相反,根據(jù)本發(fā)明的發(fā)明構(gòu)思,本領(lǐng)域普通技術(shù)人員可以進(jìn)行適當(dāng)改變,這些改變可以落入緊隨說明書的權(quán)利要求書所限定的發(fā)明范圍之內(nèi)。
圖1是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、基于新概念的描述自動(dòng)或部分自動(dòng)地建立新概念的系統(tǒng)的方框圖。參照?qǐng)D1,自動(dòng)或部分自動(dòng)地建立新概念的系統(tǒng)包括正規(guī)化部件110和新概念產(chǎn)生部件120。
正規(guī)化部件110用于接收并分析以自然語言格式表達(dá)的新概念描述,以將其轉(zhuǎn)換成正規(guī)化概念描述并輸出。所述正規(guī)化概念描述包括一個(gè)或多個(gè)具有中心詞、零個(gè)或多個(gè)特性的描述部分,其中所述描述部分只能是可以在現(xiàn)有本體中辨識(shí)的術(shù)語。在存在多個(gè)描述部分的情況下,各描述部分之間的關(guān)系可以是AND/OR/NOT這樣的邏輯關(guān)系。
應(yīng)該注意,所述特性(或稱為屬性)是中心詞所代表的個(gè)體之間的二元/多元關(guān)系,也就是說,屬性把兩個(gè)個(gè)體連接在一起。例如,屬性″兄弟″可能會(huì)把張三和張四這兩個(gè)個(gè)體連接起來,而屬性″身高″會(huì)把張三和″180公分″連接起來;屬性可以有反向?qū)傩裕绺赣H的反向?qū)傩允莾鹤?;屬性也可以被限制為只能擁有一個(gè)值,即所謂的函數(shù)屬性;屬性還可以是具有傳遞性或是對(duì)稱的。在不同的場(chǎng)合,屬性也被稱作槽(Slot)、角色(Role)、關(guān)系(Relation)或者特性(Attribute)等等。
新概念產(chǎn)生部件120用于基于正規(guī)化后的新概念描述,根據(jù)現(xiàn)有本體為新概念產(chǎn)生表達(dá)式。根據(jù)所產(chǎn)生的表達(dá)式,用戶可以利用自然語言格式的新概念描述創(chuàng)建所述新概念。
這里,所述新概念是針對(duì)某一確定應(yīng)用的、更具體的概念,所謂新概念描述是以自然語言格式表示的確定概念的特性的描述,而所述現(xiàn)有本體是目前已經(jīng)針對(duì)很多領(lǐng)域建立的本體,相應(yīng)領(lǐng)域的基本概念以及這些基本概念的特性已經(jīng)包含在這些本體中。自然語言描述的一個(gè)例子是“自然人身份的貸款者資料”。
圖2是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、自動(dòng)或部分自動(dòng)地建立新概念的方法的流程圖。參照?qǐng)D2,在步驟S210,正規(guī)化部件110鑒別所接收到的、以自然語言格式表達(dá)的新概念描述是否具有正規(guī)化的格式。如果在步驟S210鑒別出所述新概念描述具有正規(guī)化的格式,則處理轉(zhuǎn)移到步驟S220,在其中,由新概念產(chǎn)生部件120根據(jù)現(xiàn)有本體為新概念產(chǎn)生表達(dá)式。
在步驟S220中產(chǎn)生新概念的形式化表達(dá)式的方式有以下幾種通過在現(xiàn)有本體的基本概念的范圍上施加約束來創(chuàng)建新概念;以及將施加/沒有施加約束的現(xiàn)有本體的基本概念執(zhí)行交/并/補(bǔ)操作創(chuàng)建新概念。后一種創(chuàng)建新概念的方式可以表示為施加/沒有施加約束的現(xiàn)有本體的基本概念的“AND”、“OR”和“NOT”邏輯操作。
如果在步驟210中鑒別出所接收到新概念的描述不具有正規(guī)化的格式,則處理轉(zhuǎn)移到步驟S230,在其中,正規(guī)化部件110將非正規(guī)化格式的新概念描述轉(zhuǎn)換成正規(guī)化的描述,并提取每個(gè)描述部分中的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系。所謂核心術(shù)語包括中心詞、零個(gè)或多個(gè)特性。正規(guī)化就是將非正規(guī)化概念描述分段為一個(gè)或多個(gè)具有中心詞、零個(gè)或多個(gè)特性的描述部分,并且保存各個(gè)描述部分之間的關(guān)系,所述關(guān)系可以是AND/OR/NOT這樣的邏輯關(guān)系。這里,如上所述,一個(gè)正規(guī)化的描述包括一個(gè)或多個(gè)描述部分,其中子短語(即,所述描述部分)只能是可以在現(xiàn)有本體中辨識(shí)的術(shù)語。
接下來,處理轉(zhuǎn)移到如上所述的步驟S220,以利用正規(guī)化后的新概念描述和相應(yīng)的核心術(shù)語,基于現(xiàn)有本體創(chuàng)建新概念。
接下來,處理還可以執(zhí)行步驟S240來確認(rèn)所產(chǎn)生的新概念,并根據(jù)確認(rèn)結(jié)果,利用新概念產(chǎn)生部件120對(duì)未通過確認(rèn)的、所產(chǎn)生的新概念進(jìn)行修改,其中這種修改是本領(lǐng)域技術(shù)人員可以根據(jù)現(xiàn)有本體來進(jìn)行的。然后,結(jié)束該處理。
值得注意的是,在這里所描述的所有操作步驟不是都必須出現(xiàn)在每一個(gè)實(shí)際的實(shí)施例中。例如,在提取出核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系以后,用戶可以跳過自動(dòng)概念產(chǎn)生操作步驟S220,而直接創(chuàng)建新概念。應(yīng)該注意,根據(jù)正規(guī)化之后的結(jié)果,本領(lǐng)域的普通技術(shù)人員應(yīng)該可以直接寫出新概念所對(duì)應(yīng)的表達(dá)式。例如,如果正規(guī)化后得到”男人并且年齡>30”這樣的結(jié)果,那么用戶自己直接寫出“<owl:Class>
<owl:unionOf rdf:parseType=“Collection”/>
…”形式的表達(dá)式。
圖3是詳細(xì)地示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、基于新概念的描述自動(dòng)或部分自動(dòng)地建立新概念的系統(tǒng)的方框圖。參考附圖3,根據(jù)該實(shí)施例的、建立新概念的系統(tǒng)包括正規(guī)化描述鑒別器310、描述正規(guī)化器320、核心術(shù)語識(shí)別器330、新概念表達(dá)式產(chǎn)生器340以及新概念確認(rèn)器350。
所述正規(guī)化描述鑒別器310用于接收關(guān)于新概念的描述,鑒別所述新概念描述是否為正規(guī)化概念描述,并直接輸出被鑒別為正規(guī)化概念描述。
所述描述正規(guī)化器320與正規(guī)化描述鑒別器310相連,用于分析被正規(guī)化描述鑒別器310鑒別為非正規(guī)化概念描述,并將所述非正規(guī)化概念描述轉(zhuǎn)換成正規(guī)化概念描述,然后輸出已轉(zhuǎn)換的正規(guī)化概念描述。這里,如上所述,所述新概念描述是以自然語言的格式出現(xiàn)的。此外,所述正規(guī)化概念描述包括一個(gè)或多個(gè)描述部分,各個(gè)描述部分之間的關(guān)系可以是AND/OR/NOT這樣的邏輯關(guān)系,并且一般來說,每個(gè)描述部分中應(yīng)該有中心詞、零個(gè)或多個(gè)特性。
圖4是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、圖3所示的描述正規(guī)化器320的方框圖。參照?qǐng)D4,圖3所示的所述描述正規(guī)化器320包括概念描述分段器410、概念識(shí)別器420和概念替換器430。概念描述分段器410用于將所接收到的非正規(guī)化概念描述分成一個(gè)或多個(gè)描述部分,其中各個(gè)描述部分之間的關(guān)系可以是AND/OR/NOT這樣的邏輯關(guān)系。一般來說,每個(gè)描述部分中應(yīng)該有中心詞、零個(gè)或多個(gè)特性。與所述概念描述分段器410的概念識(shí)別器420用于對(duì)于所分段出的每個(gè)描述部分,識(shí)別出其中的、諸如類別和特性之類的核心術(shù)語。與所述概念識(shí)別器420相連的概念替換器430用于如果所識(shí)別出來的核心術(shù)語(名稱)不具有正規(guī)化的形式,則以其在本體中的相應(yīng)的正規(guī)化的形式替換,其中,所述替換是基于所在領(lǐng)域的同義詞集和句子相似算法來執(zhí)行的。這樣,通過所述描述正規(guī)化器320的處理,原來非正規(guī)化概念描述可以轉(zhuǎn)換成正規(guī)化概念描述。
值得注意的是,所述概念識(shí)別器420與將在下文中描述的所述核心術(shù)語識(shí)別器330具有相同的結(jié)構(gòu)和功能。
圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的新概念表達(dá)式產(chǎn)生器340的結(jié)構(gòu)的框圖。參考圖5,所述新概念表達(dá)式產(chǎn)生器340包括最短路徑產(chǎn)生器510、語言表達(dá)式產(chǎn)生器520和組合表達(dá)式產(chǎn)生器530。
以下假定新概念描述中的描述部分為Part1,…,Partn(n>=1),每個(gè)描述部分的核心術(shù)語H1,…,Hn,每個(gè)描述部分Parti中的術(shù)語和特性分別為Ci1,…,Cim(m>=0)和Proi1,…,Proiw(w>=0),這里,m=0意味著沒有任何其他術(shù)語,而w=0意味著在相應(yīng)描述部分中沒有任何特性。
在上述假定下,所述新概念表達(dá)式產(chǎn)生器340中的最短路徑產(chǎn)生器510對(duì)每一個(gè)Cij(1<=j(luò)<=m),找出從Hi到Cij的最短路徑Pathij,該路徑應(yīng)該滿足下列要求a)如果w>0,則包含某個(gè)Proit(1<=t<=w),b)不包含任何循環(huán),c)對(duì)于該路徑中的任何節(jié)點(diǎn)Ni,如果Ni為類別,則跟隨著邊Ej,如果Ej為特性,則目標(biāo)必須是類別或?qū)嵗?,而如果Ej為父類包容關(guān)系(例如,”人”就是”男人”的父類(supper class),”人”和”男人”之間的關(guān)系就是“父類包容關(guān)系”,類似的關(guān)系對(duì)比如(動(dòng)物,脊椎動(dòng)物)、(學(xué)生,高中生)、(公司,IT公司)等等),則目標(biāo)必須是類別。
所述語言表達(dá)式產(chǎn)生器520接收所述最短路徑產(chǎn)生器510的輸出,并且利用所述最短路徑產(chǎn)生器產(chǎn)生的Pathij,以一定的語言產(chǎn)生相應(yīng)的表達(dá)式Eij。這種語言諸如為OWL(web ontology language,萬維網(wǎng)本體語言)或描述邏輯(Description logic)。本方法并不限于上述兩種語言。
然后,組合表達(dá)式產(chǎn)生器530接收所述語言表達(dá)式產(chǎn)生器520所產(chǎn)生的每個(gè)Parti中的所有表達(dá)式Eij,并基于Cij之間的關(guān)系(AND/OR/NOT)(默認(rèn)設(shè)置為AND),將每個(gè)Parti中的所有表達(dá)式Eij(j的取值范圍為1到m)與對(duì)應(yīng)關(guān)系組合到一個(gè)組合表達(dá)式CEi。
具體地說,組合表達(dá)式產(chǎn)生器530在產(chǎn)生組合表達(dá)式CEi時(shí),首先判斷所述描述部分的數(shù)量是否大于1。如果判定為所述描述部分的數(shù)量大于l,則基于Parti之間的關(guān)系(AND/OR/NOT)(默認(rèn)設(shè)置為AND),組合表達(dá)式CEi(1<i<=n)并產(chǎn)生最終的概念表達(dá)式。否則,如果組合表達(dá)式產(chǎn)生器530判定為所述描述部分的數(shù)量等于1,則將CEi作為最終的概念表達(dá)式。
圖6示出了將非正規(guī)化概念描述轉(zhuǎn)換成正規(guī)化概念描述的流程圖。參照?qǐng)D6,在正規(guī)化非正規(guī)化概念描述的過程中,在步驟S610,利用所述描述正規(guī)化器320的所述概念描述分段器410,將非正規(guī)化概念描述分段為一個(gè)或多個(gè)具有中心詞、零個(gè)或多個(gè)特性的描述部分,并且保存各個(gè)描述部分之間的關(guān)系,所述關(guān)系可以是AND/OR/NOT這樣的邏輯關(guān)系。
在步驟S620,利用所述描述正規(guī)化器320中的所述概念識(shí)別器420,對(duì)于每個(gè)描述部分,識(shí)別出包含在其中的、諸如類別和特性之類的核心術(shù)語。
接下來,在步驟S630,判斷所識(shí)別出來的核心術(shù)語是否具有正規(guī)化的形式。如果在步驟S630中鑒別出來的概念中不具有正規(guī)化形式的概念,則處理轉(zhuǎn)到步驟S640,在其中基于本體所在領(lǐng)域的同義詞集和句子相似算法,以所述核心術(shù)語在本體中的相應(yīng)的正規(guī)化的形式替換對(duì)應(yīng)的所述核心術(shù)語,然后結(jié)束該處理過程。
如果在步驟S630中所鑒別出來的概念都具有正規(guī)化的形式,則處理直接結(jié)束。
以下以一個(gè)例子說明上述處理過程??紤]描述“自然人和法人擁有的文件(documents which are held by natural person and legal person)”,該描述只包含一個(gè)描述部分。關(guān)于包含“文件”、“自然人”概念的本體和包含“文件←→材料”同義詞對(duì)的對(duì)應(yīng)同義詞集,其正規(guī)化格式是“[自然人AND法人擁有的文件(documentswhich areheld bynatural personANDlegal person])”。
而對(duì)于描述“信用貸款或抵押貸款(credit loan or mortgage loan)”,其可以被分成兩個(gè)的描述部分“信用貸款(credit loan)”和“抵押貸款(mortgageloan)”,它們之間的關(guān)系是“OR”。該描述的正規(guī)化格式是“[信用貸款]OR[抵押貸款]”。
再回到附圖3,通過正規(guī)化描述鑒別器310和描述正規(guī)化器320輸出的新概念描述具有正規(guī)化的形式。所述正規(guī)化后的新概念描述被輸入到核心術(shù)語識(shí)別器330。核心術(shù)語識(shí)別器330識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語,并將所識(shí)別到的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系提取出來。核心術(shù)語識(shí)別器330識(shí)別核心術(shù)語的方式有兩種,其中的一種方式是使用在自然語言處理區(qū)域中的核心術(shù)語識(shí)別方法。例如,對(duì)于上述描述“自然人和法人擁有的材料(documents which are held by natural person and legalperson)”,借助于現(xiàn)有算法(參見EP 1217533Method and computer systemfor part-of-speech tagging of incomplete sentences.Inventor(s)TARBOURIECH NELLY(FR);POIRIER HERVE(FR);并參見Williams,Geoffrey.(2002)`Corpus-driven lexicography and the specialized dictionaryheadword extraction for the parasitic plant research dictionary′,in Anna Braaschand Claus Povlsen(eds.)Proceedings of the Tenth EURALEX InternationalCongress,EURALEX 2002,CopenhagenCenter for Sprogteknologi,II,859-864),可以發(fā)現(xiàn)這個(gè)短語中的“文件”是一個(gè)核心術(shù)語。這意味著“文件”就是這個(gè)描述中的核心術(shù)語。
另一種方式是基于現(xiàn)有本體來分析描述中存在的概念。所述本體可以被看成有向圖G,在該有向圖G中,節(jié)點(diǎn)表示術(shù)語,而有向邊表示術(shù)語之間的關(guān)系。給定n個(gè)術(shù)語,令ci表示第i個(gè)術(shù)語,令d(ci,cj)表示有向圖G中的第i個(gè)術(shù)語ci和第j個(gè)術(shù)語cj之間的距離,而令s(nodei)表示第i個(gè)術(shù)語ci可以到達(dá)的、在有向圖G中的相關(guān)術(shù)語的總數(shù)。對(duì)于存在于描述中的每一個(gè)術(shù)語ci,可以通過以下兩個(gè)因素來確定其在所屬的描述部分中的重要性1)s(ci)術(shù)語ci可以到達(dá)的、在該描述部分中的術(shù)語的總數(shù)。越重要的術(shù)語可以到達(dá)越多的術(shù)語;2) 術(shù)語ci與該概念描述中的所有其它術(shù)語之間的距離之和。越重要的術(shù)語會(huì)具有越小的距離和。
術(shù)語ci的重要性被記為Di,可以通過如下公式來計(jì)算Didef=s(ci)Σj=1n,j≠id(ci,cj)]]>
該描述中的核心術(shù)語ck是具有最大重要性的值,其中k可以由以下公式確定(1≤k≤n)∧(Dk=Max(Di|i=l,n))核心術(shù)語識(shí)別器330利用這個(gè)公式,可以找出所述核心術(shù)語。
例如,對(duì)于概念描述部分“[自然人AND法人擁有的文件(documentswhich are held bynatural personANDlegal person)”,可以計(jì)算出D文件=1,D自然人=0,D法人=0。顯然,D文件是其中的最大值,所以術(shù)語“文件”為該描述中的核心術(shù)語。
再參照?qǐng)D3,在核心術(shù)語識(shí)別器330提取出正規(guī)化描述中的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系之后,新概念表達(dá)式產(chǎn)生器340可以自動(dòng)產(chǎn)生新概念。
圖7是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的、圖3所示的新概念表達(dá)式產(chǎn)生器340用來產(chǎn)生新概念的算法的流程圖。通過對(duì)核心術(shù)語識(shí)別器330所識(shí)別出的核心術(shù)語進(jìn)行特性的限制和/或?qū)λ鼈儓?zhí)行并、補(bǔ)和交操作,新概念表達(dá)式產(chǎn)生器340產(chǎn)生新概念表達(dá)式。
新概念表達(dá)式產(chǎn)生器340產(chǎn)生新概念的算法描述如下如上所述,若給定新概念描述中的描述部分為Part1,…,Partn(n>=1),每個(gè)描述部分的核心術(shù)語H1,…,Hn,每個(gè)描述部分Parti中的術(shù)語和特性分別為Ci1,…,Cim(m>=0)和Proi1,…,Proiw(w>=0),(這里,m=0意味著沒有任何其他術(shù)語,而w=0意味著在相應(yīng)描述部分中沒有任何特性)。
在步驟S710,新概念表達(dá)式產(chǎn)生器340首先對(duì)每一個(gè)Cij(1<=j(luò)<=m),找出從Hi到Cij的最短路徑Pathij,該路徑應(yīng)該滿足下列要求a)如果w>0,則包含某個(gè)Proit(1<=t<=w),b)不包含任何循環(huán),c)對(duì)于該路徑中的任何節(jié)點(diǎn)Ni,如果Ni為類別,則跟隨著邊Ej,如果Ej為特性,則目標(biāo)必須是類別或?qū)嵗绻鸈j為父類包容關(guān)系,則目標(biāo)必須是類別;然后利用Pathij,以一定的語言產(chǎn)生相應(yīng)的表達(dá)式Eij,這樣的語言諸如為OWL或描述邏輯。
然后,處理將基于Cij之間的關(guān)系(AND/OR/NOT)(默認(rèn)設(shè)置為AND),將每個(gè)Parti中的所有表達(dá)式Eij(j的取值范圍為1到m)與對(duì)應(yīng)關(guān)系組合到一個(gè)組合表達(dá)式CEi。具體地說,處理將轉(zhuǎn)移到步驟S720,在其中,判斷所述描述部分的數(shù)量是否大于1。
如果在步驟S720中判定所述描述部分的數(shù)量大于1,則處理轉(zhuǎn)移到步驟S730,在該步驟中,新概念表達(dá)式產(chǎn)生器340基于Parti之間的關(guān)系(AND/OR/NOT)(默認(rèn)設(shè)置為AND),組合表達(dá)式CEi(1<i<=n)并產(chǎn)生最終的概念表達(dá)式。然而,結(jié)束處理。
而如果在步驟S720中判定所述描述部分的數(shù)量等于1,則新概念表達(dá)式產(chǎn)生器340將CEi作為最終的概念表達(dá)式,然后結(jié)束處理。
通常地說,萬維網(wǎng)本體語言(OWL)可以全部支持這些類型的表達(dá)式。例如,“自然人或法人扮演的借用者的文件”可以由OWL表示為<owl:Class>
<rdfs:subClassOf rdf:about=”#Document”/>
<rdfs:subClassOf>
<owl:unionOf rd:parseType=”Collection”/>
<owl:Restriction>
<owl:onProperty rdf:resource=”#Playedby”/>
<owl:allValuesFrom rdf:resource=”NaturalPerson”/>
</owl:Restriction>
<owl:Restriction>
<owl:onProperty rdf:resource=”#Playedby”/>
<owl:allValuesFrom rdf:resource=”LegalPerson”/>
</owl:Restriction>
</owl:unionOf></rfds:subClassOf></owl:Class>
所述描述“信用貸款或抵押貸款”可以由OWL表示為<owl:Class><owl:unionOf rdf:parseType=”Collection”/>
<owl:class rdf:about=”#CreditLoan”>
<owl:class rdf:about=”#MortgageLoan”></owl:unionOf></owl:Class>
再參照?qǐng)D3,接下來,由新概念表達(dá)式產(chǎn)生器340所產(chǎn)生的新概念將由新概念確認(rèn)器350確認(rèn)是否確實(shí)是所要的新概念,并且在必要時(shí)可以修改所產(chǎn)生的新概念。最后,用戶基于新概念確認(rèn)器350輸出獲得新的類別。顯然,這里所獲得的類別是以新類別的形式化表達(dá)的。
以下將提供特定應(yīng)用場(chǎng)景來說明如何應(yīng)用本發(fā)明的方法。這個(gè)特定應(yīng)用場(chǎng)景的主要構(gòu)思是根據(jù)關(guān)于某一確定應(yīng)用的用戶描述,自動(dòng)選擇現(xiàn)有的實(shí)例。
例1現(xiàn)有類別與特性限制的聯(lián)合圖8給出了以有向圖表示的某領(lǐng)域的本體的一個(gè)實(shí)例。參考圖8,在這個(gè)特定應(yīng)用場(chǎng)景中,自動(dòng)選擇現(xiàn)有實(shí)例的主要步驟是1)由用戶描述實(shí)例的限制例如,如果用戶要獲得所有現(xiàn)有喜歡酒的男人和喜歡茶的女人,他可以給定類似于“喜歡酒的男人和喜歡茶的女人(male who likes wine and femalewho likes tea)”這樣的描述;2)正規(guī)化正規(guī)化之后,該描述將成為“[喜歡酒的男人]AND[喜歡茶的女人]([manwholikeswine]AND[womanwholikestea])”;3)識(shí)別核心術(shù)語對(duì)于上述例子,對(duì)于[喜歡酒的男人]([manwholikeswine])來說,核心術(shù)語為“男人(man)”,而對(duì)于[喜歡茶的女人]([womanwholikestea])來說,核心術(shù)語為“女人(woman)”;4)產(chǎn)生新類別該發(fā)明的系統(tǒng)利用正規(guī)化了的描述及其核心術(shù)語,按照如下方式產(chǎn)生新類別<owl:Class>
<owl:unionOf rdf:parseType=”Collection”/>
<owl:Class>
<rdfs:subClassOf rdf:about=”#man”/>
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource=”#like”/>
<owl:allValuesFrom rdf:resource=”#wine”/>
</owl:Restriction>
</rdfs:subClassOf>
</owl:Class>
<owl:Class>
<rdfs:subClassOf rdf:about=”#woman”/>
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource=”#like”/>
<owl:allValuesFrom rdf:resource=”#tea”/>
</owl:Restriction>
</rdfs:subClassOf>
</owl:Class>
</owl:unionOf></owl:Class>
這里,以O(shè)WL格式表示新類別。接下來,用戶需要檢查該表達(dá)式并確認(rèn)該新類別是否確實(shí)為其所要的新類別的;以及5)獲得實(shí)例本發(fā)明的系統(tǒng)利用該新類別,可以檢查現(xiàn)有實(shí)例并選擇符合該新類別的定義的那些實(shí)例。選擇結(jié)果是符合描述“喜歡酒的男人和喜歡茶的女人”的那些人。
例2特性限制圖9出了以有向圖表示的某領(lǐng)域的本體的另一個(gè)實(shí)例。參考圖9,在這個(gè)特定應(yīng)用場(chǎng)景下,自動(dòng)選擇現(xiàn)有實(shí)例的主要步驟是1)由用戶描述實(shí)例的限制例如,如果用戶要獲得所有現(xiàn)有由自然人扮演他們的借用者、他們的目的是買小汽車或房產(chǎn)的貸款,用戶可以給定類似于“其借用者是自然人并且其目的是買小汽車或房產(chǎn)的貸款(loan that its borrower is a natural person and itspurpose is to buy car or house)”這樣的描述;2)正規(guī)化正規(guī)化之后,該描述將成為“[其借用者是自然人并且其目的是買汽車或房產(chǎn)的貸款]([loanthat itsborroweris anatural personand itspurposeis to byautomobileorhouse])”;3)識(shí)別核心術(shù)語對(duì)于上述例子,核心術(shù)語為“貸款(loan)”;4)產(chǎn)生新類別該發(fā)明的系統(tǒng)利用正規(guī)化了的描述及其核心術(shù)語,按照如下方式產(chǎn)生新類別<owl:Class>
<rdfs:subClassOf rdf:about=”#Loan”/>
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource=”#borrower”/>
<owl:allValuesFrom rdf:resource=”#NaturalPerson”/>
</owl:Restriction></rdfs:subClassOf><rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource=”#purpose”/>
<owl:allValuesFrom>
<owl:Class>
<owl:unionOf rdf:parseType=”Collection”/>
<owl:class rdf:about=”#Automobile”>
<owl:class rdf:about=”#House”>
</owl:unionOf>
</owl:Class>
<owl:allValuesFrom>
</owl:Restriction>
</rdfs:subClassOf></owl:Class>
這里,以O(shè)WL格式表示新類別。接下來,用戶需要檢查該表達(dá)式并確認(rèn)該新類別是否確實(shí)為其所要的新類別的;以及
5)獲得實(shí)例本發(fā)明的系統(tǒng)利用該新類別,可以檢查現(xiàn)有實(shí)例并選擇符合該新類別的定義的那些實(shí)例。選擇結(jié)果是符合描述“其借用者是自然人并且其目的是買小汽車或房產(chǎn)的貸款”的那些。
利用現(xiàn)有方法,用戶必須構(gòu)造一組復(fù)雜的查詢語句來獲得需要的實(shí)例,而利用本發(fā)明的方法,用戶可以僅僅通過提供需要的實(shí)例的自然語言的描述,就獲得需要的實(shí)例。因此,本發(fā)明提供了一種輕松和自動(dòng)的方式來供用戶查詢數(shù)據(jù)用。
雖然上面主要以硬件結(jié)構(gòu)或方法步驟來描述了本發(fā)明的優(yōu)選實(shí)施例,但根據(jù)本發(fā)明的系統(tǒng)操作方法也可以實(shí)施為計(jì)算機(jī)程序軟件。例如,按照本發(fā)明的示范實(shí)施例的方法可以體現(xiàn)成一種計(jì)算機(jī)程序產(chǎn)品,它可以使得計(jì)算機(jī)執(zhí)行所示范的一種或多種方法。所述計(jì)算機(jī)程序產(chǎn)品可以包括計(jì)算機(jī)可讀的介質(zhì),其上包含計(jì)算機(jī)程序邏輯或代碼,用于使得所述系統(tǒng)能夠按照一種或多種示范方法運(yùn)行。
所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是被安裝在計(jì)算機(jī)主體中的內(nèi)置介質(zhì)或者被布置使得它可以從計(jì)算機(jī)主體拆卸的可移動(dòng)介質(zhì)。所述內(nèi)置介質(zhì)的示例包括但不限于可重寫的非易失性存儲(chǔ)器,諸如RAM、ROM、快閃存儲(chǔ)器和硬盤??梢苿?dòng)介質(zhì)的示例可以包括但不限于光存儲(chǔ)媒體,諸如CD-ROM和DVD;磁光存儲(chǔ)媒體,諸如MO;磁存儲(chǔ)媒體,諸如軟盤(商標(biāo))、盒帶和可移動(dòng)硬盤;具有內(nèi)置的可重寫的非易失性存儲(chǔ)器的媒體,諸如存儲(chǔ)卡;具有內(nèi)置的ROM的媒體,諸如ROM盒。
根據(jù)本發(fā)明的方法的程序也可以被提供為外部提供的傳播信號(hào)和/或在載波中包括的計(jì)算機(jī)數(shù)據(jù)信號(hào)的形式。體現(xiàn)為示范方法的一個(gè)或多個(gè)指令或功能的所述計(jì)算機(jī)數(shù)據(jù)信號(hào)可以被承載在用于通過執(zhí)行示范方法的指令或功能的實(shí)體來發(fā)送和/或接收的載波上。而且,這樣的程序當(dāng)被記錄在計(jì)算機(jī)可讀存儲(chǔ)媒體上時(shí)可以容易地被存儲(chǔ)和分發(fā)。
本發(fā)明的上述說明本質(zhì)上僅僅是示范性的,不脫離本發(fā)明的要旨的改變都應(yīng)該包含在本發(fā)明的范圍內(nèi)。這樣的改變不被看作與本發(fā)明的精神和范圍的脫離。
權(quán)利要求
1.一種基于以自然語言格式表達(dá)的新概念描述、在現(xiàn)有本體中建立新概念的系統(tǒng),包括正規(guī)化部件,用于接收并分析所述新概念描述,以將其轉(zhuǎn)換成正規(guī)化概念描述并輸出,其中所述正規(guī)化概念描述包括一個(gè)或多個(gè)具有核心術(shù)語的描述部分,所述描述部分只能含有在所述現(xiàn)有本體中能辨識(shí)的術(shù)語,而所述核心術(shù)語包括中心詞、零個(gè)或多個(gè)特性;以及新概念產(chǎn)生部件,用于基于正規(guī)化后的新概念描述,識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語,并將所識(shí)別到的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系提取出來,以便用戶根據(jù)現(xiàn)有本體建立新概念。
2.根據(jù)權(quán)利要求1所述的在現(xiàn)有本體中建立新概念的系統(tǒng),其中,在具有多個(gè)描述部分的情況下,各個(gè)描述部分之間的關(guān)系是AND/OR/NOT之一。
3.根據(jù)權(quán)利要求2所述的在現(xiàn)有本體中建立新概念的系統(tǒng),其中,所述正規(guī)化部件包括正規(guī)化描述鑒別器,用于鑒別所接收到的新概念描述是否為正規(guī)化概念描述,并且直接輸出被鑒別為正規(guī)化概念描述的新概念描述;以及與所述正規(guī)化描述鑒別器相連的描述正規(guī)化器,用于分析被所述正規(guī)化描述鑒別器鑒別為非正規(guī)化概念描述的描述,將所述非正規(guī)化概念描述轉(zhuǎn)換成正規(guī)化概念描述,并且輸出已轉(zhuǎn)換的正規(guī)化概念描述。
4.根據(jù)權(quán)利要求3所述的在現(xiàn)有本體中建立新概念的系統(tǒng),其中,所述描述正規(guī)化器包括概念描述分段器,用于將所接收到的非正規(guī)化概念描述分成所述描述部分;與所述概念描述分段器相連的概念識(shí)別器,用于對(duì)于所分段出的每個(gè)描述部分,識(shí)別出其中的核心術(shù)語;以及與所述概念識(shí)別器相連的概念替換器,用于如果所識(shí)別出來的核心術(shù)語不具有正規(guī)化形式,則以其在本體中的相應(yīng)的正規(guī)化形式替換,其中,所述替換是基于所在領(lǐng)域的同義詞集和句子相似算法來執(zhí)行的。
5.根據(jù)權(quán)利要求1-4之一所述的在現(xiàn)有本體中建立新概念的系統(tǒng),其中,所述新概念產(chǎn)生部件包括核心術(shù)語識(shí)別器,用于接收所述正規(guī)化后的新概念描述,識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語,并將所識(shí)別到的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系提取出來。
6.根據(jù)權(quán)利要求5所述的在現(xiàn)有本體中建立新概念的系統(tǒng),其中,所述核心術(shù)語識(shí)別器使用在自然語言處理區(qū)域中的核心術(shù)語識(shí)別方法來識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語。
7.根據(jù)權(quán)利要求5所述的在現(xiàn)有本體中建立新概念的系統(tǒng),其中,將現(xiàn)有本體看成有向圖G,其節(jié)點(diǎn)表示術(shù)語,而有向邊表示術(shù)語之間的關(guān)系,在給定n個(gè)術(shù)語的情況下,令ci表示第i個(gè)術(shù)語,d(ci,cj)表示有向圖G中的第i個(gè)術(shù)語ci和第j個(gè)術(shù)語cj之間的距離,s(nodei)表示第i個(gè)術(shù)語ci可以到達(dá)的、在有向圖G中的相關(guān)術(shù)語的總數(shù),s(ci)表示術(shù)語ci可到達(dá)的、在該描述部分中的術(shù)語的總數(shù),而 表示術(shù)語ci與該概念描述中的所有其它術(shù)語之間的距離之和,所述核心術(shù)語識(shí)別器以如下公式計(jì)算ci的重要性DiDi=defs(ci)Σj=1n,j≠id(ci,cj),]]>并由此取得該描述中的核心術(shù)語ck,其中k由下式確定(1≤k≤n)∧(Dk=Max(Di|i=1,n))。
8.根據(jù)權(quán)利要求5所述的在現(xiàn)有本體中建立新概念的系統(tǒng),還包括新概念表達(dá)式產(chǎn)生器,用于對(duì)所述核心術(shù)語識(shí)別器所識(shí)別出的核心術(shù)語進(jìn)行特性的限制和/或?qū)λ鼈儓?zhí)行并、補(bǔ)和交操作,以產(chǎn)生新概念表達(dá)式。
9.根據(jù)權(quán)利要求8所述的在現(xiàn)有本體中建立新概念的系統(tǒng),其中,所述新概念表達(dá)式產(chǎn)生器包括最短路徑產(chǎn)生器,若新概念描述中的描述部分為Part1,...,Partn,每個(gè)描述部分的核心術(shù)語H1,...,Hn,每個(gè)描述部分Parti中的術(shù)語和特性分別為Ci1,...,Cim和Proi1,...,Proiw,這里n>=1,m>=0,w>=0,并且m=0意味著沒有任何其他術(shù)語,而w=0意味著在相應(yīng)描述部分中沒有任何特性,則所述最短路徑產(chǎn)生器用于對(duì)每一個(gè)Cij,1<=j(luò)<=m,找出從Hi到Cij的最短路徑Pathij,該路徑應(yīng)該滿足下列要求a)如果w>0,則包含某個(gè)Proit,這里1<=t<=w,b)不包含任何循環(huán),對(duì)于該路徑中的任何節(jié)點(diǎn)Ni,如果Ni為類別,則跟隨著邊Ej,如果Ej為特性,則目標(biāo)必須是類別或?qū)嵗?,而如果Ej為父類包容關(guān)系,則目標(biāo)必須是類別;語言表達(dá)式產(chǎn)生器,用于利用所述最短路徑產(chǎn)生器產(chǎn)生的Pathij,以預(yù)定語言產(chǎn)生相應(yīng)的表達(dá)式Eij;以及組合表達(dá)式產(chǎn)生器,用于基于Cij之間的關(guān)系A(chǔ)ND/OR/NOT,將所述語言表達(dá)式產(chǎn)生器產(chǎn)生的每個(gè)Parti中的所有表達(dá)式Eij與對(duì)應(yīng)關(guān)系組合到一個(gè)組合表達(dá)式CEi,這里j的取值范圍為1到m。
10.根據(jù)權(quán)利要求9所述的在現(xiàn)有本體中建立新概念的系統(tǒng),其中,所述語言為OWL語言。
11.根據(jù)權(quán)利要求9所述的在現(xiàn)有本體中建立新概念的系統(tǒng),其中,所述語言為描述邏輯。
12.根據(jù)權(quán)利要求9所述的在現(xiàn)有本體中建立新概念的系統(tǒng),其中,所述組合表達(dá)式產(chǎn)生器判斷所述描述部分的數(shù)量是否大于1,并在所述描述部分的數(shù)量大于1時(shí),基于Parti之間的關(guān)系組合表達(dá)式CEi并產(chǎn)生最終的概念表達(dá)式,而當(dāng)所述描述部分的數(shù)量等于1時(shí),將CEi作為最終的概念表達(dá)式。
13.根據(jù)權(quán)利要求1-4之一所述的在現(xiàn)有本體中建立新概念的系統(tǒng),還包括新概念確認(rèn)器,用于確認(rèn)所產(chǎn)生的新概念是否確實(shí)是所要的,并在新概念不是所要求的概念的情況下,修改所產(chǎn)生的新概念。
14.一種基于以自然語言格式表達(dá)的新概念描述、在現(xiàn)有本體中建立新概念的方法,包括步驟鑒別所接收到的新概念描述是否具有正規(guī)化的格式,如果所接收到新概念的描述不具有正規(guī)化的格式,則將非正規(guī)化格式的新概念描述轉(zhuǎn)換成正規(guī)化的描述,其中所述正規(guī)化概念描述包括一個(gè)或多個(gè)具有核心術(shù)語的描述部分,所述描述部分只能含有在所述現(xiàn)有本體中能辨識(shí)的術(shù)語,而所述核心術(shù)語包括中心詞、零個(gè)或多個(gè)特性;以及識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語,并提取所識(shí)別出的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系,由此根據(jù)現(xiàn)有本體產(chǎn)生新概念的表達(dá)式。
15.根據(jù)權(quán)利要求14所述的在現(xiàn)有本體中建立新概念的方法,其中,在具有多個(gè)描述部分的情況下,各個(gè)描述部分之間的關(guān)系是AND/OR/NOT之
16.根據(jù)權(quán)利要求15所述的在現(xiàn)有本體中建立新概念的方法,其中,所述將非正規(guī)化格式的新概念描述轉(zhuǎn)換成正規(guī)化的描述包括步驟將非正規(guī)化概念描述分段為所述描述部分;對(duì)于每個(gè)描述部分,識(shí)別包含在該描述部分中的核心術(shù)語;判斷所識(shí)別出來的核心術(shù)語是否具有正規(guī)化的形式;以及如果鑒別出來的核心術(shù)語中不具有正規(guī)化形式的概念,則基于本體所在領(lǐng)域的同義詞集和句子相似算法,以所述核心術(shù)語在本體中的相應(yīng)的正規(guī)化的形式替換對(duì)應(yīng)的所述核心術(shù)語。
17.根據(jù)權(quán)利要求14-16之一所述的在現(xiàn)有本體中建立新概念的方法,其中,所述識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語使用的是在自然語言處理區(qū)域中的核心術(shù)語識(shí)別方法。
18.根據(jù)權(quán)利要求14-16之一所述的在現(xiàn)有本體中建立新概念的方法,其中,若將所述本體被看成有向圖G,其節(jié)點(diǎn)表示術(shù)語,有向邊表示術(shù)語之間的關(guān)系,并對(duì)給定的n個(gè)術(shù)語,令ci表示第i個(gè)術(shù)語,令d(ci,cj)表示有向圖G中的第i個(gè)術(shù)語ci和第j個(gè)術(shù)語cj之間的距離,而令s(nodei)表示第i個(gè)術(shù)語ci可到達(dá)的、在有向圖G中的相關(guān)術(shù)語的總數(shù),則所述識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語包括步驟對(duì)于存在于描述中的每一個(gè)術(shù)語ci,計(jì)算術(shù)語ci可到達(dá)的、在該描述部分中的術(shù)語的總數(shù)s(ci),以及術(shù)語ci與該概念描述中的所有其它術(shù)語之間的距離之和 利用所計(jì)算出的術(shù)語ci可到達(dá)的、在該描述部分中的術(shù)語的總數(shù)s(ci)和術(shù)語ci與該概念描述中的所有其它術(shù)語之間的距離之和 計(jì)算術(shù)語ci的重要性DiDi=defs(ci)Σj=1n,j≠id(ci,cj);]]>利用術(shù)語ci的重要性Di識(shí)別該描述中的核心術(shù)語ck,其中k由下列公式確定(1≤k≤n)∧(Dk=Max(Di/i=1,n))。
19.根據(jù)權(quán)利要求14-16之一所述的在現(xiàn)有本體中建立新概念的方法,其中,所述產(chǎn)生新概念的表達(dá)式包括通過在現(xiàn)有本體的基本概念的范圍上施加約和/或?qū)ΜF(xiàn)有本體的基本概念執(zhí)行交/并/補(bǔ)操作創(chuàng)建新概念表達(dá)式。
20.根據(jù)權(quán)利要求19所述的在現(xiàn)有本體中建立新概念的方法,其中,若給定新概念描述中的描述部分為Part1,...,Partn,每個(gè)描述部分的核心術(shù)語H1,...,Hn,每個(gè)描述部分Parti中的術(shù)語和特性分別為Ci1,...,Cim和Proi1,...,Proiw,這里,n>=1,m>=0,w>=0,并且m=0意味著沒有任何其他術(shù)語,而w=0意味著在相應(yīng)描述部分中沒有任何特性,則所述創(chuàng)建新概念表達(dá)式包括1)對(duì)每一個(gè)Cij,1<=j(luò)<=m,找出從Hi到Cij的最短路徑Pathij,該路徑應(yīng)該滿足下列要求a)如果w>0,則包含某個(gè)Proit,這里1<=t<=w,b)不包含任何循環(huán),c)對(duì)于該路徑中的任何節(jié)點(diǎn)Ni,如果Ni為類別,則跟隨著邊Ej,如果Ej為特性,則目標(biāo)必須是類別或?qū)嵗?,而如果Ej為父類包容關(guān)系關(guān)系,則目標(biāo)必須是類別;2)利用從Hi到Cij的最短路徑Pathij,以預(yù)定語言產(chǎn)生相應(yīng)的表達(dá)式Eij;以及3)基于Cij之間的關(guān)系A(chǔ)ND/OR/NOT,將每個(gè)Parti中的所有表達(dá)式Eij與對(duì)應(yīng)關(guān)系組合到一個(gè)組合表達(dá)式CEi,這里j的取值范圍為1到m。
21.根據(jù)權(quán)利要求20所述的在現(xiàn)有本體中建立新概念的方法,其中,所述語言為OWL語言。
22.根據(jù)權(quán)利要求20所述的在現(xiàn)有本體中建立新概念的方法,其中,所述語言為描述邏輯。
23.根據(jù)權(quán)利要求20所述的在現(xiàn)有本體中建立新概念的方法,其中,所述步驟3)包括步驟判斷所述描述部分的數(shù)量是否大于1;如果所述描述部分的數(shù)量大于1,則基于Parti之間的關(guān)系A(chǔ)ND/OR/NOT,組合表達(dá)式CEi并產(chǎn)生最終的概念表達(dá)式,而如果所述描述部分的數(shù)量等于1,則將CEi作為最終的概念表達(dá)式。
24.根據(jù)權(quán)利要求14-16之一所述的在現(xiàn)有本體中建立新概念的方法,還包括步驟確認(rèn)所產(chǎn)生的新概念,并根據(jù)確認(rèn)結(jié)果對(duì)未通過確認(rèn)的、所產(chǎn)生的新概念進(jìn)行修改。
25.根據(jù)權(quán)利要求14-16所述的在現(xiàn)有本體中建立新概念的方法,還包括步驟利用正規(guī)化后的新概念的形式化表達(dá)式和相應(yīng)的核心術(shù)語,基于現(xiàn)有本體創(chuàng)建新概念。
26.一種計(jì)算機(jī)產(chǎn)品,用于在其上以計(jì)算機(jī)可讀形式存儲(chǔ)計(jì)算機(jī)程序代碼,以使得計(jì)算機(jī)系統(tǒng)執(zhí)行所述計(jì)算機(jī)程序代碼來實(shí)現(xiàn)步驟鑒別所接收到的新概念描述是否具有正規(guī)化的格式,如果所接收到新概念的描述不具有正規(guī)化的格式,則將非正規(guī)化格式的新概念描述轉(zhuǎn)換成正規(guī)化的描述,其中所述正規(guī)化概念描述包括一個(gè)或多個(gè)具有核心術(shù)語的描述部分,所述描述部分只能含有在所述現(xiàn)有本體中能辨識(shí)的術(shù)語,而所述核心術(shù)語包括中心詞、零個(gè)或多個(gè)特性;以及識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語,并提取所識(shí)別出的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系,由此根據(jù)現(xiàn)有本體產(chǎn)生新概念的表達(dá)式。
全文摘要
提供基于現(xiàn)有本體自動(dòng)產(chǎn)生新概念的系統(tǒng)及其方法。所述系統(tǒng)基于自然語言格式表達(dá)的新概念描述在現(xiàn)有本體中建立新概念,包括正規(guī)化部件,用于接收并分析新概念描述,以將其轉(zhuǎn)換成正規(guī)化概念描述并輸出,其中所述正規(guī)化概念描述包括一個(gè)或多個(gè)具有核心術(shù)語的描述部分,所述描述部分只能含有在所述現(xiàn)有本體中能辨識(shí)的術(shù)語,而所述核心術(shù)語包括中心詞、零個(gè)或多個(gè)特性;以及新概念產(chǎn)生部件,用于基于正規(guī)化后的新概念描述,識(shí)別每一個(gè)正規(guī)化概念描述部分中的核心術(shù)語,并將所識(shí)別到的核心術(shù)語、相關(guān)特征以及核心術(shù)語間的關(guān)系提取出來,以便用戶根據(jù)現(xiàn)有本體建立新概念。因此,本體可以輕而易舉地被管理、擴(kuò)充或重用,同時(shí)又能保持本體的小尺寸和低復(fù)雜性。
文檔編號(hào)G06F17/30GK1877566SQ20051007780
公開日2006年12月13日 申請(qǐng)日期2005年6月9日 優(yōu)先權(quán)日2005年6月9日
發(fā)明者張卓, 裘照明, 劉世霞, 潘越, 謝國彤 申請(qǐng)人:國際商業(yè)機(jī)器公司