專利名稱:一種漢語框架網(wǎng)標(biāo)注時框架排歧方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及中文信息處理技術(shù)和語義處理技術(shù)領(lǐng)域,特別涉及一種漢語框架網(wǎng)標(biāo)注漢語句子時的框架排歧的方法及裝置。
背景技術(shù):
隨著中文信息處理技術(shù)的不斷發(fā)展,越來越多的研究人員逐漸從對詞法、句法方面的研究過渡到語義方面。漢語框架網(wǎng)(Chinese FrameNet)就是中文語義的探索性研究之一。利用漢語框架網(wǎng)對一個中文句子進行標(biāo)時,經(jīng)常遇到一個目標(biāo)詞可以充當(dāng)多個不同框架的詞元這種問題,這是由于中文詞匯的多義現(xiàn)象所致。上述情況導(dǎo)致用戶在利用漢語框架網(wǎng)進行中文句子分析時,很難選擇合適的框架?,F(xiàn)有技術(shù)中雖然提出了框架排歧的概念,即根據(jù)上下文語境與各個侯選框架所表示場景的一致程度,為目標(biāo)詞選擇一個合適的框架。但是針對以上提到的漢語框架排歧問題,至今還沒有一種有效的解決辦法。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種漢語框架網(wǎng)標(biāo)注漢語句子時的框架排歧方法及裝置,用于解決現(xiàn)有技術(shù)中沒有合適的方法實現(xiàn)漢語框架排歧的問題。一種漢語框架網(wǎng)標(biāo)注漢語句子時框架排歧的方法,當(dāng)應(yīng)用漢語框架網(wǎng)標(biāo)注待識別句子的框架信息時,包括選擇訓(xùn)練語料,該訓(xùn)練語料包含待識別句子中出現(xiàn)的目標(biāo)詞激起的所有框架的句子實例,并且包括每個句子實例的框架語義信息;對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關(guān)系;選擇樹結(jié)構(gòu)條件隨機場T-CRF模型作為框架排歧任務(wù)的標(biāo)注模型,并利用所述句子實例的詞法信息、依存句法關(guān)系和框架語義信息進行標(biāo)注模型的訓(xùn)練,得到特定參數(shù)的標(biāo)注模型;對待識別句子進行分詞、詞性標(biāo)注及依存句法分析,得到待識別句子的詞法信息和依存句法關(guān)系;將待識別句子的詞法信息和依存句法關(guān)系提交所述特定參數(shù)的標(biāo)注模型,得到待識別句子中目標(biāo)詞的所屬框架。根據(jù)上述方法本發(fā)明還提供一種漢語框架網(wǎng)標(biāo)注時框架排歧的裝置,包括訓(xùn)練語料選擇模塊,用于當(dāng)應(yīng)用漢語框架網(wǎng)標(biāo)注待識別句子的框架信息時,選擇訓(xùn)練語料,該訓(xùn)練語料包含待識別句子中出現(xiàn)的目標(biāo)詞激起的所有框架的句子實例,并且包括每個句子實例的框架語義信息;依存句法分析模塊,用于對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關(guān)系;
標(biāo)注模型生成模塊,用于選擇樹結(jié)構(gòu)條件隨機場T-CRF模型作為框架排歧任務(wù)的標(biāo)注模型,并利用所述句子實例的詞法信息、依存句法關(guān)系和框架語義信息進行標(biāo)注模型的訓(xùn)練,得到特定參數(shù)的標(biāo)注模型;待識別框架句子處理模塊,用于對待識別句子進行分詞、詞性標(biāo)注及依存句法分析,得到待識別句子的詞法信息和依存句法關(guān)系;將待識別句子的詞法信息和依存句法關(guān)系提交所述特定參數(shù)的標(biāo)注模型,得到待識別句子中目標(biāo)詞的所屬框架。應(yīng)用本發(fā)明實施例所提供的方法進行框架排歧時,首先,引入了句子的依存句法關(guān)系,由于語義上的歧義在許多情況下可以通過句法信息來區(qū)分,因此依存句法關(guān)系非常有利于框架排歧的處理。其次,運用了 T-CRF模型。T-CRF模型可以與句子的依存句法關(guān)系結(jié)合,更加合理地利用句子的依存句法關(guān)系。
圖1為本發(fā)明實施例一種漢語框架網(wǎng)標(biāo)注時框架排歧方法的流程圖;圖2為現(xiàn)有技術(shù)中舉例句子進行依存分析的結(jié)果示例圖;圖3為本發(fā)明實施例中處理待識別的句子具體實現(xiàn)流程圖;圖4為本發(fā)明實施例中得到合適標(biāo)注模型的方法流程圖;圖5為本發(fā)明實施例一種漢語框架網(wǎng)標(biāo)注時框架排歧裝置的結(jié)構(gòu)圖;圖6為本發(fā)明實施例中標(biāo)注模型生成模塊的結(jié)構(gòu)圖。
具體實施例方式本發(fā)明實施例提供一種語義消岐的方法,具體包括選擇訓(xùn)練語料,該訓(xùn)練語料包含待識別句子中出現(xiàn)的目標(biāo)詞激起的所有框架的句子實例,并且包括每個句子實例的框架語義信息;對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關(guān)系;選擇樹結(jié)構(gòu)條件隨機場T-CRF模型作為框架排歧任務(wù)的標(biāo)注模型,并利用所述句子實例的詞法信息、依存句法關(guān)系和框架語義信息進行標(biāo)注模型的訓(xùn)練,得到特定參數(shù)的標(biāo)注模型;對待識別句子進行分詞、詞性標(biāo)注及依存句法分析,得到待識別句子的詞法信息和依存句法關(guān)系;將待識別句子的詞法信息和依存句法關(guān)系提交所述特定參數(shù)的標(biāo)注模型,得到待識別句子中目標(biāo)詞的所屬框架。如圖1所示,本發(fā)明實施例提供一種漢語框架網(wǎng)標(biāo)注漢語句子時框架排歧的方法,當(dāng)應(yīng)用漢語框架網(wǎng)標(biāo)注待識別句子的框架信息時,具體實現(xiàn)方法包括步驟步驟101,選擇訓(xùn)練語料。本發(fā)明實施例所提供的方法運用了機器學(xué)習(xí)方法,因此需要訓(xùn)練語料來訓(xùn)練機器學(xué)習(xí)模型。訓(xùn)練語料必須包含待識別句子中出現(xiàn)的所有目標(biāo)詞能夠激起的所有框架的句子實例,并且包括每個句子實例的框架語義信息。如,動詞“是”一共可以激起兩個框架[等同]框架和[屬性]框架。因此,如果待識別句子中出現(xiàn)了 “是”這個目標(biāo)詞,那么訓(xùn)練語料中必須得有“是” 激起[等同]框架的實例,同時也得有“是”激起[屬性]框架的實例。訓(xùn)練語料可以選擇經(jīng)過漢語框架網(wǎng)標(biāo)注的特定的語料來充當(dāng),也可以直接選擇漢語框架網(wǎng)的句子庫作為訓(xùn)練語料。其中選擇漢語框架網(wǎng)的句子庫作為訓(xùn)練語料更方便、更合理。因為漢語框架網(wǎng)的句子庫有以下幾個特點規(guī)模大、語料有代表性、語言現(xiàn)象豐富、標(biāo)注完整無誤。步驟102,對訓(xùn)練語料中的句子實例進行依存句法分析,得到每個句子實例的依存句法關(guān)系。本發(fā)明方法需要運用句子的依存句法關(guān)系,因此需要對訓(xùn)練語料進行依存句法分析。依存句法分析一般通過運用現(xiàn)成的工具來實現(xiàn)。圖2則為句子“錢其琛表示同意斯卡爾法羅總統(tǒng)的看法”進行依存分析的結(jié)果示例圖。選擇依存分析圖中的特定依存關(guān)系是標(biāo)注模型完成標(biāo)注的主要依據(jù)。步驟103,選擇樹結(jié)構(gòu)條件隨機場(T-CRF,tree-structured conditional random field),模型作為框架排歧任務(wù)的標(biāo)注模型。條件隨機場(CRF)是處理序列標(biāo)注任務(wù)的最先進的方法。樹結(jié)構(gòu)條件隨機場 (T-CRF)是一種特殊的CRF模型,它能夠?qū)哟谓Y(jié)構(gòu)中的依存關(guān)系進行建模,句子的依存圖即可用T-CRF來建模。T-CRF的圖形結(jié)構(gòu)為一棵樹,它主要包括三種結(jié)點關(guān)系父-子,子-父,兄弟。本發(fā)明中僅考慮前兩種關(guān)系,而忽略兄弟關(guān)系,因為在一個句子的依存句法樹中,同一層次各結(jié)點之間的依存關(guān)系非常弱。基上以上考慮,本發(fā)明中,T-CRF模型中各種概率分配如下=+ α +
Z (X) VeFF ^λJj(V^iyXx)
JG = ^kgk{v,y{v),x,v\y{V))S 二 Σσ^;(ν,Χν),χ,ν*,Χν*))
ι
上面的F、G、S分別代表當(dāng)前結(jié)點的特征、當(dāng)前結(jié)點父結(jié)點的特征、當(dāng)前結(jié)點子結(jié)點的特征。T-CRF模型中的觀察序列χ對應(yīng)于句子中的一個詞,而標(biāo)注序列y對應(yīng)于這個詞激起框架的框架名稱。因此,如果一個詞為句子中的目標(biāo)詞,對應(yīng)的y為激起框架的名稱,若不然,對應(yīng)的y則為NULL。CRF模型的原理是使標(biāo)注序列在觀察序列上的條件概率最大。步驟104,利用句子實例的詞法信息、依存句法關(guān)系和框架語義信息進行T-CRF標(biāo)注模型的訓(xùn)練,得到特定參數(shù)的標(biāo)注模型。步驟105,對待識別句子進行分詞、詞性標(biāo)注及依存句法分析,得到待識別句子的詞法信息和依存句法關(guān)系。如圖3所示,本步驟的實現(xiàn)步驟具體包括步驟301,針對待識別句子,進行分詞、詞性標(biāo)注。步驟302,針對待識別句子,進行依存句法分析,得到待識別句子的依存句法關(guān)系。步驟106,將待識別句子的詞法信息和依存句法關(guān)系提交所述特定參數(shù)的標(biāo)注模
6型進行處理,得到句子中目標(biāo)詞的所屬框架。此步驟中的輸入為待識別的句子中的詞、詞性和句子特定依存關(guān)系,與步驟104 的輸入相比,僅差“當(dāng)前詞所屬框架” 一列。“當(dāng)前詞所屬框架”是標(biāo)注模型的輸出信息。如圖4所示,本發(fā)明實施例步驟104的具體實現(xiàn),包括以下步驟步驟401,選擇所述標(biāo)注模型的訓(xùn)練特征,該訓(xùn)練特征用于確定在訓(xùn)練所述標(biāo)注模型時,從句子實例的詞法信息、依存句法關(guān)系和框架語義信息中提取的具體參數(shù)。所述訓(xùn)練特征主要考慮兩種類型,訓(xùn)練語料中的詞性標(biāo)注信息特征和依存句法關(guān)系特征訓(xùn)練語料中的詞性標(biāo)注信息包括最基本的詞、詞性、詞與詞性的組合;依存結(jié)構(gòu)樹(即依存句法關(guān)系)中的特征包括當(dāng)前詞的父結(jié)點、當(dāng)前詞的子結(jié)點、結(jié)點間的關(guān)系,本發(fā)明中主要包括主謂關(guān)系(簡稱SBV)、動賓關(guān)系(簡稱V0B)、狀中結(jié)構(gòu)(簡稱ADV)、定中關(guān)系(簡稱ATT)。步驟402,根據(jù)所述訓(xùn)練特征從所述訓(xùn)練語料各句子實例的詞法信息、依存句法關(guān)系和框架語義信息中提取具體參數(shù)對所述標(biāo)注模型進行訓(xùn)練,得到特定參數(shù)的標(biāo)注模型; 使該特定參數(shù)的標(biāo)注模型根據(jù)待識別句子詞法信息和依存句法確定框架語義信息。本實施例所選擇的訓(xùn)練特征包括當(dāng)前詞、當(dāng)前詞詞性、當(dāng)前詞父結(jié)點、當(dāng)前詞與父結(jié)點的依存關(guān)系、SBV子結(jié)點、VOB子結(jié)點、ADV子結(jié)點、ATT子結(jié)點、當(dāng)前詞所屬框架。如“錢其琛表示同意斯卡爾法羅總統(tǒng)的看法”作為訓(xùn)練語料時,最終得到本步驟的輸入如表1所示,表中的每一列依次對應(yīng)于所述選擇的特征
權(quán)利要求
1.一種漢語框架網(wǎng)標(biāo)注漢語句子時框架排歧的方法,其特征在于,包括當(dāng)應(yīng)用漢語框架網(wǎng)標(biāo)注待識別句子的框架信息時,選擇訓(xùn)練語料,該訓(xùn)練語料包含待識別句子中出現(xiàn)的目標(biāo)詞激起的所有框架的句子實例,并且包括每個句子實例的框架語義 fn息;對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關(guān)系;選擇樹結(jié)構(gòu)條件隨機場T-CRF模型作為框架排歧任務(wù)的標(biāo)注模型,并利用所述句子實例的詞法信息、依存句法關(guān)系和框架語義信息進行標(biāo)注模型的訓(xùn)練,得到特定參數(shù)的標(biāo)注模型;對待識別句子進行分詞、詞性標(biāo)注及依存句法分析,得到待識別句子的詞法信息和依存句法關(guān)系;將待識別句子的詞法信息和依存句法關(guān)系提交所述特定參數(shù)的標(biāo)注模型,得到待識別句子中目標(biāo)詞的所屬框架。
2.如權(quán)利要求1所述的方法,其特征在于,所述訓(xùn)練語料為經(jīng)過漢語框架網(wǎng)標(biāo)注的語料。
3.如權(quán)利要求1所述的方法,其特征在于,利用所述句子實例的詞法信息、依存句法關(guān)系和框架語義信息進行標(biāo)注模型的訓(xùn)練,得到特定參數(shù)的標(biāo)注模型,包括選擇所述標(biāo)注模型的訓(xùn)練特征,該訓(xùn)練特征用于確定在訓(xùn)練所述標(biāo)注模型時,從句子實例的詞法信息、依存句法關(guān)系和框架語義信息中提取的具體參數(shù);根據(jù)所述訓(xùn)練特征從所述訓(xùn)練語料各句子實例的詞法信息、依存句法關(guān)系和框架語義信息中提取具體參數(shù)對所述標(biāo)注模型進行訓(xùn)練,得到特定參數(shù)的標(biāo)注模型;使該特定參數(shù)的標(biāo)注模型根據(jù)待識別句子詞法信息和依存句法關(guān)系確定框架語義信息。
4.如權(quán)利要求3所述的方法,其特征在于,利用所述訓(xùn)練語料的詞法信息、依存句法關(guān)系和框架語義信息訓(xùn)練所述標(biāo)注模型之前,還進一步包括根據(jù)選擇的特征從訓(xùn)練語料中提取詞法信息、依存句法關(guān)系和框架語義信息的具體參數(shù),并將選擇的訓(xùn)練特征和提取的具體參數(shù)設(shè)置為二維表格式作為所述標(biāo)注模型的輸入, 其中,所選擇的特征作為二維表的列,訓(xùn)練語料中的每個詞都生成二維表的一行。
5.如權(quán)利要求3或4所述的方法,其特征在于,所述訓(xùn)練特征包括當(dāng)前詞、當(dāng)前詞詞性、當(dāng)前詞父結(jié)點、當(dāng)前詞與父結(jié)點的依存關(guān)系、主謂關(guān)系SBV子結(jié)點、動賓關(guān)系VOB子結(jié)點、狀中結(jié)構(gòu)ADV子結(jié)點、定中關(guān)系A(chǔ)TT子結(jié)點、當(dāng)前詞所屬框架。
6.一種漢語框架網(wǎng)標(biāo)注漢語句子時框架排歧的裝置,其特征在于,包括訓(xùn)練語料選擇模塊,用于當(dāng)應(yīng)用漢語框架網(wǎng)標(biāo)注待識別句子的框架信息時,選擇訓(xùn)練語料,該訓(xùn)練語料包含待識別句子中出現(xiàn)的目標(biāo)詞激起的所有框架的句子實例,并且包括每個句子實例的框架語義信息;依存句法分析模塊,用于對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關(guān)系;標(biāo)注模型生成模塊,用于選擇樹結(jié)構(gòu)條件隨機場T-CRF模型作為框架排歧任務(wù)的標(biāo)注模型,并利用所述句子實例的詞法信息、依存句法關(guān)系和框架語義信息進行標(biāo)注模型的訓(xùn)練,得到特定參數(shù)的標(biāo)注模型;待識別框架句子處理模塊,用于對待識別句子進行分詞、詞性標(biāo)注及依存句法分析,得到待識別句子的詞法信息和依存句法關(guān)系;將待識別句子的詞法信息和依存句法關(guān)系提交所述特定參數(shù)的標(biāo)注模型,得到待識別句子中目標(biāo)詞的所屬框架。
7.如權(quán)利要求6所述的裝置,其特征在于,所述標(biāo)注模型生成模塊包括訓(xùn)練特征選擇單元,用于選擇所述標(biāo)注模型的訓(xùn)練特征,該訓(xùn)練特征用于確定在訓(xùn)練所述標(biāo)注模型時,從句子實例的詞法信息、依存句法關(guān)系和框架語義信息中提取的具體參數(shù);訓(xùn)練單元,用于根據(jù)所述訓(xùn)練特征從所述訓(xùn)練語料各句子實例的詞法信息、依存句法關(guān)系和框架語義信息中提取具體參數(shù),對所述標(biāo)注模型進行訓(xùn)練,得到特定參數(shù)的標(biāo)注模型;使該特定參數(shù)的標(biāo)注模型根據(jù)待識別句子詞法信息和依存句法關(guān)系確定框架語義信肩、ο
8.如權(quán)利要求7所述的裝置,其特征在于,所述標(biāo)注模型生成模塊還包括輸入數(shù)據(jù)生成單元,用于將選擇的訓(xùn)練特征和具體參數(shù)設(shè)置為二維表格式作為所述標(biāo)注模型的輸入,其中,所述訓(xùn)練特征作為二維表的列,訓(xùn)練語料中的每個詞都生成二維表的一行。
全文摘要
本發(fā)明公開了一種漢語框架網(wǎng)標(biāo)注漢語句子時的框架排歧方法及裝置,該方法包括選擇訓(xùn)練語料,對訓(xùn)練語料中的句子進行依存句法分析;將框架排歧任務(wù)作為標(biāo)注任務(wù),選擇樹結(jié)構(gòu)條件隨機場模型為標(biāo)注模型,并為建立的標(biāo)注模型選擇特征;根據(jù)所述選擇的特征利用訓(xùn)練語料對所述標(biāo)注模型進行訓(xùn)練,得到合適的標(biāo)注模型;將待識別句子的詞性標(biāo)注信息以及依存句法關(guān)系提交訓(xùn)練后的標(biāo)注模型,得到待識別句子中目標(biāo)詞的所屬框架。
文檔編號G06F17/27GK102375808SQ20101026437
公開日2012年3月14日 申請日期2010年8月20日 優(yōu)先權(quán)日2010年8月20日
發(fā)明者劉海靜, 李雙紅, 李茹, 高俊杰 申請人:山西大學(xué)