專利名稱:基于中心塊的句義成分關(guān)系分層識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于中心塊的句義成分關(guān)系分層識(shí)別方法,屬于計(jì)算機(jī)科學(xué)與中文信息處理技術(shù)領(lǐng)域。
背景技術(shù):
隨著信息的爆炸式增長(zhǎng),人們?cè)絹?lái)越迫切的需要計(jì)算機(jī)更好的理解自然語(yǔ)言中蘊(yùn)含的意義,因此,句義分析越來(lái)越迫切。漢語(yǔ)作為意合的語(yǔ)言,尤其注重對(duì)句義的掌握和分析。句義分析是分析句子的意義,采用形式化的結(jié)構(gòu)反映句義(句子意義),也就是分析句子結(jié)構(gòu)中實(shí)詞與實(shí)詞之間的語(yǔ)義關(guān)系,根據(jù)句子的句法結(jié)構(gòu)和句中每個(gè)實(shí)詞的詞義推導(dǎo)出能夠反映句義的某種形式化結(jié)構(gòu)(句義結(jié)構(gòu))。顯然,句義分析的核心是表示出句義的形式化結(jié)構(gòu)。句義結(jié)構(gòu)分析是整個(gè)語(yǔ)義分析研究中的最主要的內(nèi)容。目前,自然語(yǔ)言處理一般是以淺層的句義分析為底層技術(shù),對(duì)于更深層次的句義分析則鮮有研究。深層次的句義分析需要完成句義類型識(shí)別、成分識(shí)別、句義結(jié)構(gòu)模型框架提取、成分細(xì)節(jié)分析。其中,句義結(jié)構(gòu)模型框架提取提供了整個(gè)句義結(jié)構(gòu)基本框架,是句義結(jié)構(gòu)分析方法中最為重要的一環(huán),也是整個(gè)句義結(jié)構(gòu)分析方法中的難點(diǎn),然而相關(guān)分析發(fā)明卻是鳳毛麟角。在句義結(jié)構(gòu)模型框架的提取方法發(fā)明過(guò)程中主要存在兩個(gè)關(guān)鍵問(wèn)題:(1)實(shí)現(xiàn)句法結(jié)構(gòu)信息到句義結(jié)構(gòu)的有效利用,(2)實(shí)現(xiàn)將句義結(jié)構(gòu)模型框架的提取問(wèn)題向分類問(wèn)題轉(zhuǎn)化。句法結(jié)構(gòu)及句義結(jié)構(gòu)是對(duì)一個(gè)句子信息不同層次的表現(xiàn)形式,它們有著一定的映射關(guān)系,找到并有效的利用這種映射關(guān)系對(duì)于句義結(jié)構(gòu)模型框架的提取尤為重要,也是進(jìn)行句義結(jié)構(gòu)分析方法的關(guān)鍵。
發(fā)明內(nèi)容
本發(fā)明提出一種針對(duì)漢語(yǔ)句義結(jié)構(gòu)模型框架關(guān)系的提取方法。本發(fā)明的技術(shù)方案包括如下內(nèi)容:提出層次中心塊的概念,利用層次中心塊能有效的實(shí)現(xiàn)句法結(jié)構(gòu)與句義結(jié)構(gòu)的映身寸關(guān)系。( I)句法結(jié)構(gòu)樹中每層短語(yǔ)結(jié)構(gòu)的中心塊識(shí)別,中心塊的識(shí)別即是識(shí)別出句法結(jié)構(gòu)樹中,構(gòu)成父節(jié)點(diǎn)的各子節(jié)點(diǎn)是否為中心節(jié)點(diǎn);(2)語(yǔ)義格識(shí)別分為謂詞、基本格、一般格的識(shí)別;(3)各句義成分間關(guān)系識(shí)別,各句義成分間關(guān)系的識(shí)別分為對(duì)三類關(guān)系的識(shí)別:①謂詞間關(guān)系基本格與謂詞間關(guān)系一般格與各句義成分間關(guān)系。其中的一般格與各句義成分間關(guān)系的識(shí)別,即是對(duì)各句義成分的修飾與被修飾關(guān)系的識(shí)別,通過(guò)中心塊的識(shí)別可以得到句法樹中各短語(yǔ)結(jié)構(gòu)子節(jié)點(diǎn)的修飾與被修飾關(guān)系,進(jìn)而得到各句義成分的修飾與被修飾關(guān)系——一般格與各句義成分間關(guān)系。對(duì)三大類關(guān)系(如
圖1)(謂詞間關(guān)系,基本格與謂詞間關(guān)系、一般格與各句義成分的關(guān)系)的識(shí)別,并很好的實(shí)現(xiàn)了句法結(jié)構(gòu)與句義結(jié)構(gòu)的對(duì)應(yīng)。
整體上,本發(fā)明分為以下3個(gè)模塊。步驟I,中心塊識(shí)別中心塊定義:句法結(jié)構(gòu)樹中,構(gòu)成父節(jié)點(diǎn)的各子節(jié)點(diǎn)中處于被修飾地位的節(jié)點(diǎn)為中心塊,處于修飾地位的節(jié)點(diǎn)為非中心塊;若構(gòu)成父親節(jié)點(diǎn)的幾個(gè)子節(jié)點(diǎn)不存在修飾與被修飾的關(guān)系,則各子節(jié)點(diǎn)均標(biāo)為中心塊。包含主語(yǔ)、謂語(yǔ)、賓語(yǔ)、表語(yǔ)的短語(yǔ)節(jié)點(diǎn)也定義為中心塊。若句法結(jié)構(gòu)樹的節(jié)點(diǎn)在句義結(jié)構(gòu)中處于上下層的關(guān)系,則處于上層的是被修飾的,處于下層的充當(dāng)修飾成分;若在句義結(jié)構(gòu)中處于同一層,則相應(yīng)的節(jié)點(diǎn)不存在修飾與被修飾的關(guān)系。中心塊識(shí)別采用C4.5決策樹作為分類算法,包含兩個(gè)過(guò)程(如圖2):訓(xùn)練過(guò)程,基于中心塊定義進(jìn)行模型訓(xùn)練;識(shí)別過(guò)程,利用訓(xùn)練模型指導(dǎo)新句子的中心塊識(shí)別。中心塊識(shí)別的輸入、輸出表如下。表I中心塊識(shí)別輸入輸出關(guān)系表一IPO
權(quán)利要求
1.漢語(yǔ)句義結(jié)構(gòu)模型關(guān)系提取方法,先逐層提取句法結(jié)構(gòu)樹中層次中心塊,進(jìn)而獲取短語(yǔ)塊間的修飾關(guān)系并提取句子主干,其特征是:可分別完成句法結(jié)構(gòu)樹中每層短語(yǔ)結(jié)構(gòu)的中心塊識(shí)別;語(yǔ)義格識(shí)別;各句義成分間關(guān)系識(shí)別。
2.根據(jù)權(quán)利要求1所述的漢語(yǔ)句義結(jié)構(gòu)模型關(guān)系提取方法,其特征是中心塊定義。內(nèi)容如下: 中心塊定義:句法結(jié)構(gòu)樹中,構(gòu)成父節(jié)點(diǎn)的各子節(jié)點(diǎn)中處于被修飾地位的節(jié)點(diǎn)為中心塊,處于修飾地位的節(jié)點(diǎn)為非中心塊;若構(gòu)成父親節(jié)點(diǎn)的幾個(gè)子節(jié)點(diǎn)不存在修飾與被修飾的關(guān)系,則各子節(jié)點(diǎn)均標(biāo)為中心塊。包含主語(yǔ)、謂語(yǔ)、賓語(yǔ)、表語(yǔ)的短語(yǔ)節(jié)點(diǎn)也定義為中心塊。
3.根據(jù)權(quán)利要求1所述的漢語(yǔ)句義結(jié)構(gòu)模型關(guān)系提取方法,其特征是短語(yǔ)塊間修飾關(guān)系識(shí)別規(guī)則。內(nèi)容如下: 若句法結(jié)構(gòu)樹的 節(jié)點(diǎn)在句義結(jié)構(gòu)中處于上下層的關(guān)系,則處于上層的是被修飾的,處于下層的充當(dāng)修飾成分;若在句義結(jié)構(gòu)中處于同一層,則相應(yīng)的節(jié)點(diǎn)不存在修飾與被修飾的關(guān)系。
4.根據(jù)權(quán)利要求1所述的漢語(yǔ)句義結(jié)構(gòu)模型關(guān)系提取方法,其特征是識(shí)別中心塊模塊。內(nèi)容如下: 中心塊識(shí)別采用C4.5決策樹作為分類算法,包含兩個(gè)過(guò)程: 訓(xùn)練過(guò)程,基于中心塊定義進(jìn)行模型訓(xùn)練; 識(shí)別過(guò)程,利用訓(xùn)練模型指導(dǎo)新句子的中心塊識(shí)別。
5.根據(jù)權(quán)利要求1所述的漢語(yǔ)句義結(jié)構(gòu)模型關(guān)系提取方法,其特征是基本格識(shí)別規(guī)貝U。內(nèi)容如下: 基本格式別規(guī)則:若某個(gè)葉子節(jié)點(diǎn)為中心塊,此葉子節(jié)點(diǎn)必為基本格及謂詞。當(dāng)判斷了一個(gè)葉子節(jié)點(diǎn)屬于基本格及謂詞后結(jié)合謂詞便可得到此葉子節(jié)點(diǎn)是否為基本格。謂詞是作為已知條件輸入。
6.根據(jù)權(quán)利要求1所述的漢語(yǔ)句義結(jié)構(gòu)模型關(guān)系提取方法,其特征是一般格識(shí)別規(guī)貝U。內(nèi)容如下: 一般格式別規(guī)則:經(jīng)過(guò)統(tǒng)計(jì),嘆詞(Θ)、語(yǔ)氣詞(y)、連詞(C)、助詞(U)、方位詞(f)、及介詞(P)的大都為非語(yǔ)義格。利用以上這些特征進(jìn)行非語(yǔ)義格的識(shí)別,再通過(guò)排除篩選就可識(shí)別出一般格。
7.根據(jù)權(quán)利要求1所述的漢語(yǔ)句義結(jié)構(gòu)模型關(guān)系提取方法,其特征是謂詞間關(guān)系識(shí)別規(guī)則。內(nèi)容如下: 謂詞間關(guān)系識(shí)別規(guī)則: ①謂詞“A”、謂詞“B”屬于同一個(gè)述題(Comment)下的兩個(gè)兄弟節(jié)點(diǎn); ②謂詞“A”、謂詞“B”屬于同一個(gè)述題(Comment)下并列關(guān)系的兩個(gè)句子的謂詞; ③謂詞“A”所在的句子充當(dāng)謂詞“B”所在句子話題(Topic)的基本格; ④謂詞“A”所在的句子充當(dāng)謂詞“B”所在句子述題(Comment)的基本格; ⑤謂詞“A”、謂詞“B”所在的句子分別為構(gòu)成復(fù)合句的兩分句。
謂詞間關(guān)系的識(shí)別采用C4.5決策樹作為分類算法,包含兩個(gè)過(guò)程: 訓(xùn)練過(guò)程,基于謂詞間五類關(guān)系進(jìn)行模型訓(xùn)練識(shí)別過(guò)程,利用訓(xùn)練模型指導(dǎo)新句子謂詞間關(guān)系識(shí)別。
8.根據(jù)權(quán)利要求1所述的漢語(yǔ)句義結(jié)構(gòu)模型關(guān)系提取方法,其特征是基本格與謂詞間關(guān)系識(shí)別規(guī)則。內(nèi)容如下: 基本格與謂詞間關(guān)系識(shí)別規(guī)則: 根據(jù)話題與述題的相關(guān)定義,若基本格在句中處于謂詞之后,則此基本格為謂詞的相關(guān)述題。若基本格在句子中處于謂詞之前,一般將此基本格判為謂詞的相關(guān)話題;但是若此基本格所在的短語(yǔ)為介詞性短語(yǔ),且介詞不為“和”、“與”、“跟”、“并”,則此基本格仍判為述題,因?yàn)榇藭r(shí)的基本格充當(dāng)把字句或是被子句的介詞賓語(yǔ)。
9.根據(jù)權(quán)利要求1所述的漢語(yǔ)句義結(jié)構(gòu)模型關(guān)系提取方法,其特征是一般格與各句義成分間關(guān)系識(shí)別規(guī)則。內(nèi)容如下: 一般格與各句義成分間關(guān)系識(shí)別規(guī)則: 句法結(jié)構(gòu)樹中,構(gòu)成父節(jié)點(diǎn)的各子節(jié)點(diǎn)中處于被修飾地位的節(jié)點(diǎn)為中心塊,處于修飾地位的節(jié)點(diǎn)為非中心塊。用短語(yǔ)結(jié)構(gòu)的中心塊節(jié)點(diǎn)替換其父親節(jié)點(diǎn),原來(lái)的非中心塊則修飾現(xiàn)在的父親節(jié)點(diǎn);原來(lái)中心塊節(jié)點(diǎn)的子節(jié)點(diǎn)則成為了原來(lái)非中心塊的兄弟節(jié)點(diǎn);且原來(lái)的非中心塊依舊為其現(xiàn)在兄弟節(jié)點(diǎn)的非中心塊,原來(lái)中心塊節(jié)點(diǎn)的子節(jié)點(diǎn)中的中心塊與非中心塊關(guān)系依舊不變。
如上所述,用短語(yǔ)結(jié)構(gòu)的中心塊節(jié)點(diǎn)替換其父親節(jié)點(diǎn),經(jīng)過(guò)多輪替換之后,直到完成句法結(jié)構(gòu)樹中所有的中心塊替換,那么最終的結(jié)構(gòu)樹中各下層節(jié)點(diǎn)均修飾其父親節(jié)點(diǎn)。最終得到的是一般格與各句義成分間關(guān)系 的樹形表現(xiàn)形式。
全文摘要
本發(fā)明涉及一種基于中心塊的句義成分關(guān)系分層識(shí)別方法,屬于計(jì)算機(jī)科學(xué)與中文信息處理技術(shù)領(lǐng)域。本發(fā)明基于現(xiàn)代漢語(yǔ)語(yǔ)義學(xué),解決了漢語(yǔ)句義結(jié)構(gòu)模型中漢語(yǔ)句義成分關(guān)系識(shí)別的問(wèn)題。本發(fā)明首先給出一種“層次中心塊”的概念,實(shí)現(xiàn)句法結(jié)構(gòu)到句義結(jié)構(gòu)的有效映射;將句義成分關(guān)系識(shí)別問(wèn)題劃分為三類層次關(guān)系識(shí)別問(wèn)題,謂詞間關(guān)系、基本格與謂詞關(guān)系、一般格與各句義成分關(guān)系;分別提出了中心塊識(shí)別算法、基本格識(shí)別算法、一般格識(shí)別算法、謂詞間關(guān)系識(shí)別算法、基本格與謂詞間關(guān)系識(shí)別算法、一般格與各句義成分間關(guān)系識(shí)別算法,使得計(jì)算機(jī)能夠以較高的準(zhǔn)確率及效率分析得到句義成分關(guān)系,進(jìn)一步推進(jìn)了漢語(yǔ)句義結(jié)構(gòu)模型的研究。
文檔編號(hào)G06F17/27GK103177089SQ201310074970
公開日2013年6月26日 申請(qǐng)日期2013年3月8日 優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 魏超, 潘麗敏, 韓磊 申請(qǐng)人:北京理工大學(xué)