專利名稱:一種中文實(shí)體間語義關(guān)系抽取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于文本處理技術(shù)領(lǐng)域,尤其涉及一種中文實(shí)體間語義關(guān)系抽取方法。
背景技術(shù):
命名實(shí)體間語義關(guān)系抽取(可簡稱為實(shí)體關(guān)系抽取或關(guān)系抽取)是信息抽取中的一個(gè)重要研究內(nèi)容,其任務(wù)是從自然語言文本中提取出兩個(gè)命名實(shí)體之間所存在的語義關(guān)系,例如短語“美國總統(tǒng)克林頓的平壤之行”中的兩個(gè)實(shí)體“克林頓”(PER-人物)和“平壤”(GPE-地理政治實(shí)體)之間存在的物理位置關(guān)系(PHYS. Located)。命名實(shí)體間語義關(guān)系抽取作為一項(xiàng)應(yīng)用基礎(chǔ)性研究,對(duì)內(nèi)容理解、問題回答、自動(dòng)文摘、以及信息過濾等自然語言處理應(yīng)用都具有重要的意義。
實(shí)體間語義關(guān)系抽取通常采用指導(dǎo)性的機(jī)器學(xué)習(xí)方法,按關(guān)系實(shí)例的表達(dá)形式可分為基于特征向量的方法和基于核函數(shù)的方法。在基于特征向量的實(shí)體關(guān)系抽取方法中,將關(guān)系實(shí)例轉(zhuǎn)換成分類器可接受的包含詞匯、句法或語義特征的特征向量。該方法盡管速度很快,也很有效,然而由于實(shí)體間語義關(guān)系表達(dá)的復(fù)雜性和可變性,其關(guān)系抽取的性能較低。在基于核函數(shù)的實(shí)體關(guān)系抽取方法中,直接以結(jié)構(gòu)樹為處理對(duì)象,計(jì)算各個(gè)結(jié)構(gòu)樹之間的相似度,再使用支持核函數(shù)的分類器進(jìn)行關(guān)系抽取。由于該方法可以充分利用結(jié)構(gòu)化特征,理論上可探索隱含的高維特征空間,因此,雖然它訓(xùn)練和預(yù)測(cè)的速度較慢,人們?nèi)匀幌Mㄟ^對(duì)核函數(shù)的進(jìn)一步研究和應(yīng)用來提高關(guān)系抽取的性能。申請(qǐng)人:經(jīng)過研究發(fā)現(xiàn)詞匯語義信息在關(guān)系抽取中具有重要的作用。詞匯不同但語義相近的兩個(gè)詞語,在兩個(gè)不同的句子中可以表明相同的語義關(guān)系,例如,中文關(guān)系實(shí)例“他的妻子”和“她的丈夫”都屬于家庭關(guān)系(PER-SOC. Family),其中實(shí)體“他”和“她”、“妻子”和“丈夫”是兩個(gè)不同的詞匯,但是卻具有相近的語義。因此,如何利用詞匯語義信息提高中文實(shí)體間語義關(guān)系抽取的性能,并盡量簡化計(jì)算過程、降低計(jì)算量,從而降低系統(tǒng)開銷是本領(lǐng)域技術(shù)人員亟待解決的問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種中文實(shí)體間語義關(guān)系抽取的方法,利用詞匯語義信息提高關(guān)系抽取的性能,并盡量降低計(jì)算量,從而降低系統(tǒng)開銷。為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案一種中文實(shí)體間語義關(guān)系抽取方法,用于在包含兩個(gè)中文實(shí)體的自然語句中抽取實(shí)體間的語義關(guān)系,所述方法包括對(duì)自然語句進(jìn)行句法分析,確定所述自然語句的完全句法樹;在所述完全句法樹中提取所述兩個(gè)中文實(shí)體之間的最短路徑包含樹;在所述最短路徑包含樹中提取距離第二中文實(shí)體最近的路徑動(dòng)詞,所述第二中文實(shí)體為兩個(gè)中文實(shí)體中在所述自然語句出現(xiàn)位置靠后的中文實(shí)體;分別獲取所述兩個(gè)中文實(shí)體和路徑動(dòng)詞的語義信息;
按照預(yù)設(shè)規(guī)則將獲取的三個(gè)語義信息加入所述最短路徑包含樹的根節(jié)點(diǎn)下,確定擴(kuò)展后的最短路徑包含樹為所述自然語句的關(guān)系樹;利用預(yù)存的分類模型對(duì)所述關(guān)系樹進(jìn)行關(guān)系分類。優(yōu)選的,在上述方法中,在所述最短路徑包含樹中提取距離第二中文實(shí)體最近的路徑動(dòng)詞,具體包括在所述最短路徑包含樹中確定所述第二中文實(shí)體所處的結(jié)點(diǎn);從所述第二中文實(shí)體所處結(jié)點(diǎn)開始,在所述第二中文實(shí)體所處結(jié)點(diǎn)的上層結(jié)點(diǎn)中查找標(biāo)簽為“VP”的結(jié)點(diǎn);查找所述標(biāo)簽為“VP”的結(jié)點(diǎn)的子節(jié)點(diǎn);當(dāng)所述標(biāo)簽為“VP”的結(jié)點(diǎn)的子結(jié)點(diǎn)的標(biāo)簽為“VV”或“VE”時(shí),獲取所述標(biāo)簽為 “VV”或“VE”的結(jié)點(diǎn)的子結(jié)點(diǎn)處的詞匯作為所述路徑動(dòng)詞。優(yōu)選的,在上述方法中,所述分別查找所述兩個(gè)中文實(shí)體和路徑動(dòng)詞的語義信息,具體包括利用預(yù)存的詞語與基本義原的映射表,分別查找與所述兩個(gè)中文實(shí)體和路徑動(dòng)詞對(duì)應(yīng)的基本義原;當(dāng)查找到與所述兩個(gè)中文實(shí)體和路徑動(dòng)詞對(duì)應(yīng)的基本義原時(shí),將查找到的基本義原作為語義信息;當(dāng)詞語具有多個(gè)基本義原時(shí),所述映射表中僅包含所述詞語與其第一基本義原的映射關(guān)系。優(yōu)選的,在上述方法中,當(dāng)未在所述映射表中查找到與中文實(shí)體對(duì)應(yīng)的基本義原時(shí),所述方法還包括對(duì)所述未查找到基本義原的中文實(shí)體進(jìn)行分詞處理,獲得多個(gè)新的中文子實(shí)體;利用所述映射表,查找與所述多個(gè)新的中文子實(shí)體中出現(xiàn)位置最靠后的中文子實(shí)體對(duì)應(yīng)的基本義原;將查找到的中文子實(shí)體的基本義原作為所述未查找到基本義原的中文實(shí)體的語
義信息。優(yōu)選的,在上述方法中,當(dāng)未查找到與所述位置最靠后的中文子實(shí)體對(duì)應(yīng)的基本義原時(shí),將所述未查找到基本義原的中文實(shí)體的語義信息賦值為“NULL”。優(yōu)選的,在上述方法中,所述分別查找所述兩個(gè)中文實(shí)體和路徑動(dòng)詞的語義信息,具體包括利用預(yù)存的詞語與語義編碼的映射表,分別查找與所述兩個(gè)中文實(shí)體和路徑動(dòng)詞對(duì)應(yīng)的語義編碼;當(dāng)查找到與所述兩個(gè)中文實(shí)體和路徑動(dòng)詞對(duì)應(yīng)的語義編碼時(shí),在所述語義編碼中從其高位截取預(yù)設(shè)位數(shù)的字符,將截取出的預(yù)設(shè)位數(shù)的字符作為語義信息;當(dāng)詞語包括多個(gè)語義編碼時(shí),所述映射表僅包含所述詞語與其第一語義編碼的映身寸關(guān)系。優(yōu)選的,在上述方法中,當(dāng)在所述映射表中未查找到與中文實(shí)體對(duì)應(yīng)的語義編碼時(shí),所述方法還包括對(duì)所述未查找到語義編碼的中文實(shí)體進(jìn)行分詞處理,獲得多個(gè)新的中文子實(shí)體;
利用所述映射表,查找與所述多個(gè)新的中文子實(shí)體中出現(xiàn)位置最靠后的中文子實(shí)體對(duì)應(yīng)的語義編碼;在查找到的中文子實(shí)體的語義編碼中,從其高位截取預(yù)設(shè)位數(shù)的字符,將截取出的預(yù)設(shè)位數(shù)的字符作為所述未查找到語義編碼的中文實(shí)體的語義信息。優(yōu)選的,在上述方法中,當(dāng)未查找到與所述位置最靠后的中文子實(shí)體對(duì)應(yīng)的語義編碼時(shí),將所述未查找到語義編碼的中文實(shí)體的語義信息賦值為“NULL”。優(yōu)選的,在上述方法中,所述按照預(yù)設(shè)規(guī)則將獲取的三個(gè)語義信息加入所述最短路徑包含樹的根節(jié)點(diǎn)下,具體包括在所述最短路徑包含樹的根結(jié)點(diǎn)下添加三個(gè)標(biāo)識(shí)結(jié)點(diǎn),所述三個(gè)標(biāo)識(shí)結(jié)點(diǎn)分別用于標(biāo)識(shí)其子結(jié)點(diǎn)處的詞匯為第一中文實(shí)體的語義信息、第二中文實(shí)體的語義信息和路徑動(dòng) 詞的語義信息,所述第一中文實(shí)體為所述兩個(gè)中文實(shí)體中在所述自然語句出現(xiàn)位置靠前的中文實(shí)體;將所述三個(gè)語義信息分別寫入與其相應(yīng)的標(biāo)志結(jié)點(diǎn)的子結(jié)點(diǎn)處。由此可見,本發(fā)明的有益效果為本發(fā)明公開的中文實(shí)體間語義關(guān)系抽取方法,將中文實(shí)體和路徑動(dòng)詞的語義信息提取出來,然后將其加入包含中文實(shí)體對(duì)的最短路徑包含樹中形成關(guān)系樹。該關(guān)系樹包含了豐富的結(jié)構(gòu)化信息和詞匯語義信息,其通用性較好,因此同僅包含句法樹的結(jié)構(gòu)化信息相比,關(guān)系抽取的精度和召回率都得到了提高,總體性能較好;同時(shí),由于詞匯的語義信息(如語義編碼或基本義原)是在一定程度上對(duì)詞匯進(jìn)行泛化,因此得到的關(guān)系樹能夠識(shí)別訓(xùn)練語料中不存在但語義信息相同的關(guān)系實(shí)例,也就是減少了需要標(biāo)注的訓(xùn)練語料的數(shù)量,減輕了基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法對(duì)大規(guī)模語料庫的依賴程度;最后,同采用詞匯語義相似度的其它核函數(shù)方法相比,本發(fā)明只需要將中文實(shí)體和路徑動(dòng)詞的語義信息加入到句法樹的根結(jié)點(diǎn)下即可,不需要計(jì)算詞匯兩兩之間的語義相似度,從而避免了由此而帶來的計(jì)算量繁重的缺點(diǎn)。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明公開的中文實(shí)體間語義關(guān)系抽取方法的流程圖;圖2為本發(fā)明中在完全句法樹中提取兩個(gè)中文實(shí)體之間的最短路徑包含樹的流程圖;圖3為本發(fā)明中提取路徑動(dòng)詞的流程圖;圖4為本發(fā)明中獲取語義信息的一個(gè)流程圖;圖5為本發(fā)明中獲取語義信息的另一個(gè)流程圖;圖6為本發(fā)明中利用語義信息擴(kuò)展最短路徑包含樹的流程圖;圖7為本發(fā)明中一個(gè)自然語句的完全句法樹;圖8為從圖7所示完全句法樹提取出的兩個(gè)中文實(shí)體之間的最短路徑包含樹;圖9為利用語義信息擴(kuò)展后的關(guān)系樹的一個(gè)示意圖10為利用語義信息擴(kuò)展后的關(guān)系樹的另一個(gè)示意圖。
具體實(shí)施例方式為了描述清楚起見,對(duì)下文中出現(xiàn)的英文縮寫和術(shù)語進(jìn)行說明。句法樹Syntactic Parse Tree,是指自然語言句子的不同成分之間(如詞匯、詞性、短語和子句等)所存在的層次結(jié)構(gòu)關(guān)系;關(guān)系樹Relation Tree,在句法樹中能表達(dá)實(shí)體關(guān)系實(shí)例的結(jié)構(gòu)化信息的部分;最短路徑包含樹Shortest Path-enclosed Tree, SPT,在句法 樹中,連接兩個(gè)實(shí)體間的最短路徑及其所包含的部分,也稱為SPT樹;準(zhǔn)確率Prec i s ion,是指系統(tǒng)識(shí)別出的實(shí)體間關(guān)系實(shí)例中正確的關(guān)系實(shí)例所占的百分比;召回率Recall,是指系統(tǒng)識(shí)別出的正確的實(shí)體間關(guān)系實(shí)例占所有關(guān)系實(shí)例的百分比;Fl性能Fl-measure,是指準(zhǔn)確率和召回率的平均值,計(jì)算公式為F1=2*P*R/(P+R);PCFG !Probabilistic Context-Free Grammar,概率上下文無關(guān)文法;MLE Maxi mum Likely Estimation,最大似然估計(jì)。為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明公開了一種中文實(shí)體間語義關(guān)系抽取方法,利用該方法在包含兩個(gè)中文實(shí)體的自然語句中抽取實(shí)體間的語義關(guān)系,可以提高關(guān)系抽取的性能,同時(shí)與其他核函數(shù)方法相比,可以降低計(jì)算量,從而降低系統(tǒng)開銷。其原理如下在自然語句中提取兩個(gè)中文實(shí)體和位于這兩個(gè)中文實(shí)體之間的路徑動(dòng)詞,之后獲取兩個(gè)中文實(shí)體和路徑動(dòng)詞的語義信息,將獲取到的語義信息加入到從完全句法樹中提取出的最短路徑包含樹中,最終得到一個(gè)泛化能力較強(qiáng)的關(guān)系樹,然后利用基于樹核函數(shù)的機(jī)器學(xué)習(xí)方法來抽取兩個(gè)中文實(shí)體之間的語義關(guān)系。下面結(jié)合具體實(shí)施例對(duì)本發(fā)明公開的方法進(jìn)行說明。參見圖1,圖I為本發(fā)明公開的一種中文實(shí)體間語義關(guān)系抽取方法的流程圖。包括步驟SI :對(duì)自然語句進(jìn)行句法分析,確定該自然語句的完全句法樹。在中文語料中提取一個(gè)自然語句,該自然語句包含兩個(gè)中文實(shí)體。自然語句中兩個(gè)中文實(shí)體的位置是不同的,為了表述方便起見,將兩個(gè)中文實(shí)體中在自然語句中出現(xiàn)位置靠前的中文實(shí)體記為第一中文實(shí)體,將兩個(gè)中文實(shí)體中在自然語句中出現(xiàn)位置靠后的中文實(shí)體記為第二中文實(shí)體。利用一種句法分析方法對(duì)該自然語句進(jìn)行句法分析,得到該自然語句的完全句法樹。本發(fā)明中采用概率上下文無關(guān)文法(Probabilistic Context-FreeGrammar, PCFG)的句法分析方法來獲得自然語句的完全句法樹。其基本思想是,一棵句法樹的概率是由其包含的產(chǎn)生式概率決定的,產(chǎn)生式的概率與其出現(xiàn)的上下文無關(guān),而且可以從訓(xùn)練語料庫中采用最大似然估計(jì)(Maximum Likely Estimation, MLE)的方法估算出來。所謂產(chǎn)生式,是指在句法樹中由父結(jié)點(diǎn)推導(dǎo)出子結(jié)點(diǎn)的規(guī)則,如圖7中產(chǎn)生式IP — NP VP表示結(jié)點(diǎn)IP (句子)可推導(dǎo)為NP (名詞短語)和VP (動(dòng)詞短語)。每個(gè)自然語句可以有不同的句法樹,每個(gè)句法樹的概率都不相同,因此可以選取后驗(yàn)概率最大的句法樹作為正確結(jié)果,即
權(quán)利要求
1.一種中文實(shí)體間語義關(guān)系抽取方法,其特征在于,用于在包含兩個(gè)中文實(shí)體的自然語句中抽取實(shí)體間的語義關(guān)系,所述方法包括 對(duì)自然語句進(jìn)行句法分析,確定所述自然語句的完全句法樹; 在所述完全句法樹中提取所述兩個(gè)中文實(shí)體之間的最短路徑包含樹; 在所述最短路徑包含樹中提取距離第二中文實(shí)體最近的路徑動(dòng)詞,所述第二中文實(shí)體為兩個(gè)中文實(shí)體中在所述自然語句出現(xiàn)位置靠后的中文實(shí)體; 分別獲取所述兩個(gè)中文實(shí)體和路徑動(dòng)詞的語義信息; 按照預(yù)設(shè)規(guī)則將獲取的三個(gè)語義信息加入所述最短路徑包含樹的根節(jié)點(diǎn)下,確定擴(kuò)展后的最短路徑包含樹為所述自然語句的關(guān)系樹; 利用預(yù)存的分類模型對(duì)所述關(guān)系樹進(jìn)行關(guān)系分類。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,在所述最短路徑包含樹中提取距離第二中文實(shí)體最近的路徑動(dòng)詞,具體包括 在所述最短路徑包含樹中確定所述第二中文實(shí)體所處的結(jié)點(diǎn); 從所述第二中文實(shí)體所處結(jié)點(diǎn)開始,在所述第二中文實(shí)體所處結(jié)點(diǎn)的上層結(jié)點(diǎn)中查找標(biāo)簽為“VP”的結(jié)點(diǎn); 查找所述標(biāo)簽為“VP”的結(jié)點(diǎn)的子節(jié)點(diǎn); 當(dāng)所述標(biāo)簽為“VP”的結(jié)點(diǎn)的子結(jié)點(diǎn)的標(biāo)簽為“VV”或“VE”時(shí),獲取所述標(biāo)簽為“VV”或“VE”的結(jié)點(diǎn)的子結(jié)點(diǎn)處的詞匯作為所述路徑動(dòng)詞。
3.根據(jù)權(quán)利要求I或2所述的方法,其特征在于,所述分別查找所述兩個(gè)中文實(shí)體和路徑動(dòng)詞的語義信息,具體包括 利用預(yù)存的詞語與基本義原的映射表,分別查找與所述兩個(gè)中文實(shí)體和路徑動(dòng)詞對(duì)應(yīng)的基本義原; 當(dāng)查找到與所述兩個(gè)中文實(shí)體和路徑動(dòng)詞對(duì)應(yīng)的基本義原時(shí),將查找到的基本義原作為語義信息; 當(dāng)詞語具有多個(gè)基本義原時(shí),所述映射表中僅包含所述詞語與其第一基本義原的映射關(guān)系。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,當(dāng)未在所述映射表中查找到與中文實(shí)體對(duì)應(yīng)的基本義原時(shí),所述方法還包括 對(duì)所述未查找到基本義原的中文實(shí)體進(jìn)行分詞處理,獲得多個(gè)新的中文子實(shí)體; 利用所述映射表,查找與所述多個(gè)新的中文子實(shí)體中出現(xiàn)位置最靠后的中文子實(shí)體對(duì)應(yīng)的基本義原; 將查找到的中文子實(shí)體的基本義原作為所述未查找到基本義原的中文實(shí)體的語義信肩、O
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,當(dāng)未查找到與所述位置最靠后的中文子實(shí)體對(duì)應(yīng)的基本義原時(shí),將所述未查找到基本義原的中文實(shí)體的語義信息賦值為“NULL”。
6.根據(jù)權(quán)利要求I或2所述的方法,其特征在于,所述分別查找所述兩個(gè)中文實(shí)體和路徑動(dòng)詞的語義信息,具體包括 利用預(yù)存的詞語與語義編碼的映射表,分別查找與所述兩個(gè)中文實(shí)體和路徑動(dòng)詞對(duì)應(yīng)的語義編碼;當(dāng)查找到與所述兩個(gè)中文實(shí)體和路徑動(dòng)詞對(duì)應(yīng)的語義編碼時(shí),在所述語義編碼中從其高位截取預(yù)設(shè)位數(shù)的字符,將截取出的預(yù)設(shè)位數(shù)的字符作為語義信息; 當(dāng)詞語包括多個(gè)語義編碼時(shí),所述映射表僅包含所述詞語與其第一語義編碼的映射關(guān)系。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,當(dāng)在所述映射表中未查找到與中文實(shí)體對(duì)應(yīng)的語義編碼時(shí),所述方法還包括 對(duì)所述未查找到語義編碼的中文實(shí)體進(jìn)行分詞處理,獲得多個(gè)新的中文子實(shí)體; 利用所述映射表,查找與所述多個(gè)新的中文子實(shí)體中出現(xiàn)位置最靠后的中文子實(shí)體對(duì)應(yīng)的語義編碼; 在查找到的中文子實(shí)體的語義編碼中,從其高位截取預(yù)設(shè)位數(shù)的字符,將截取出的預(yù)設(shè)位數(shù)的字符作為所述未查找到語義編碼的中文實(shí)體的語義信息。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,當(dāng)未查找到與所述位置最靠后的中文子實(shí)體對(duì)應(yīng)的語義編碼時(shí),將所述未查找到語義編碼的中文實(shí)體的語義信息賦值為“NULL”。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述按照預(yù)設(shè)規(guī)則將獲取的三個(gè)語義信息加入所述最短路徑包含樹的根節(jié)點(diǎn)下,具體包括 在所述最短路徑包含樹的根結(jié)點(diǎn)下添加三個(gè)標(biāo)識(shí)結(jié)點(diǎn),所述三個(gè)標(biāo)識(shí)結(jié)點(diǎn)分別用于標(biāo)識(shí)其子結(jié)點(diǎn)處的詞匯為第一中文實(shí)體的語義信息、第二中文實(shí)體的語義信息和路徑動(dòng)詞的語義信息,所述第一中文實(shí)體為所述兩個(gè)中文實(shí)體中在所述自然語句出現(xiàn)位置靠前的中文實(shí)體; 將所述三個(gè)語義信息分別寫入與其相應(yīng)的標(biāo)志結(jié)點(diǎn)的子結(jié)點(diǎn)處。
全文摘要
本發(fā)明公開了一種中文實(shí)體間語義關(guān)系抽取方法,包括對(duì)自然語句進(jìn)行句法分析,確定自然語句的完全句法樹;在完全句法樹中提取兩個(gè)中文實(shí)體之間的最短路徑包含樹;在最短路徑包含樹中提取距離第二中文實(shí)體最近的路徑動(dòng)詞;分別獲取兩個(gè)中文實(shí)體和路徑動(dòng)詞的語義信息;按照預(yù)設(shè)規(guī)則將獲取的三個(gè)語義信息加入最短路徑包含樹的根節(jié)點(diǎn)下,確定擴(kuò)展后的最短路徑包含樹為自然語句的關(guān)系樹;利用預(yù)存的分類模型對(duì)關(guān)系樹進(jìn)行關(guān)系分類。本發(fā)明公開的中文實(shí)體間語義關(guān)系抽取方法,關(guān)系樹包含了豐富的結(jié)構(gòu)化信息和詞匯語義信息、具有較好的通用性,語義關(guān)系抽取的總體性能較好,并且減輕了對(duì)大規(guī)模語料庫的依賴程度,同時(shí)系統(tǒng)的計(jì)算量較低。
文檔編號(hào)G06F17/27GK102799577SQ20121029443
公開日2012年11月28日 申請(qǐng)日期2012年8月17日 優(yōu)先權(quán)日2012年8月17日
發(fā)明者錢龍華, 劉丹丹, 周國棟 申請(qǐng)人:蘇州大學(xué)