用于漢語中的零指代消解的裝置和方法以及模型訓(xùn)練方法
【專利摘要】本公開提供了一種用于漢語中的零指代消解的裝置和方法以及訓(xùn)練方法,該裝置包括:特征向量提取單元,被配置為從輸入的文本中提取分別基于候選零代詞位置、每個(gè)候選零代詞位置的候選零代詞類別-候選名詞詞對(duì)的特征向量;以及分類器,被配置為將特征向量輸入到聯(lián)合模型中,以確定文本中的零代詞。
【專利說明】
用于漢語中的零指代消解的裝置和方法從及模型訓(xùn)練方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明的實(shí)施例總體上設(shè)及信息處理領(lǐng)域,具體地設(shè)及自然語言處理,更具體地, 設(shè)及一種用于漢語中的零指代消解的裝置和方法,W及相應(yīng)的模型訓(xùn)練方法。
【背景技術(shù)】
[0002] 省略是漢語會(huì)話里常見的現(xiàn)象,由于運(yùn)些省略,計(jì)算機(jī)難W自動(dòng)地理解句子。例 如,零指代是零代詞與代詞指代兩種語言現(xiàn)象的合稱,運(yùn)兩種語言現(xiàn)象都是漢語里常見的 語言現(xiàn)象。
[0003] 零代詞指的是漢語里常常會(huì)把在前文出現(xiàn)過的代詞在后文中省略,例如:俄羅斯 作為米洛舍維奇一貫的支持者,*它*曾經(jīng)提出調(diào)停運(yùn)場(chǎng)政治危機(jī)。該例句中的它*"即 為一個(gè)在行文中的零代詞,在行文中是被省略、不出現(xiàn)的。
[0004] 代詞指代指的是漢語文本當(dāng)中,經(jīng)常使用代詞來代替前文出現(xiàn)過的事物等,例如: 李明怕高媽媽一人呆在家里寂寞,他便將家里的電視搬了過來。例句中的"他"實(shí)際指代的 是"李明"。
[0005] 零指代消解包括兩個(gè)方面,即零代詞恢復(fù)與代詞指代消解。零代詞恢復(fù)即為找出 行文中被省略的代詞,并將恢復(fù)出來代詞添加回句子中;代詞指代消解目標(biāo)為在對(duì)恢復(fù)完 代詞的句子,找出每個(gè)代詞所具體指代的事物。
【發(fā)明內(nèi)容】
[0006] 在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,W便提供關(guān)于本發(fā)明的某些方面的基本 理解。應(yīng)當(dāng)理解,運(yùn)個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的 關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是W簡(jiǎn)化的形式給出某些概 念,W此作為稍后論述的更詳細(xì)描述的前序。
[0007] 根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種用于漢語中的零指代消解的裝置,包括:特征 向量提取單元,被配置為從輸入的文本中提取分別基于候選零代詞位置、每個(gè)候選零代詞 位置的候選零代詞類別-候選名詞詞對(duì)的特征向量;W及分類器,被配置為將特征向量輸 入到聯(lián)合模型中,W確定文本中的零代詞。
[0008] 根據(jù)本申請(qǐng)的另一個(gè)方面,提供了一種用于漢語中的零指代消解的方法,包括:從 輸入的文本中提取分別基于候選零代詞位置、每個(gè)候選零代詞位置的候選零代詞類別-候 選名詞詞對(duì)的特征向量;W及將特征向量輸入到聯(lián)合模型中來進(jìn)行分類,W確定文本中的 零代詞。
[0009] 根據(jù)本申請(qǐng)的另一個(gè)方面,還提供了一種用于漢語中的零指代消解的聯(lián)合模型的 訓(xùn)練方法,包括:輸入標(biāo)注有零代詞和零代詞指代信息的訓(xùn)練文本集;根據(jù)標(biāo)注獲得訓(xùn)練 文本集中的每一個(gè)文本中的候選零代詞位置和零代詞類別、W及候選零代詞類別-候選名 詞詞對(duì);獲取候選零代詞位置的特征向量、W及候選零代詞類別-候選名詞詞對(duì)的特征向 量;基于特征向量和已標(biāo)注信息來訓(xùn)練聯(lián)合模型。
[0010] 依據(jù)本發(fā)明的其它方面,還提供了用于實(shí)現(xiàn)上述用于漢語中的零指代消解的方法 的計(jì)算機(jī)程序代碼和計(jì)算機(jī)程序產(chǎn)品W及其上記錄有該用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序 代碼的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
[0011] 根據(jù)本發(fā)明的裝置和方法W及訓(xùn)練方法通過采用聯(lián)合模型,將零指代消解轉(zhuǎn)化為 零代詞類別-代詞消解聯(lián)合最優(yōu)解的問題,有效地避免了誤差的累積,提高了零指代消解 的性能。
[0012] 通過W下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)說明,本發(fā)明的上述W及其他優(yōu) 點(diǎn)將更加明顯。
【附圖說明】
[0013] 為了進(jìn)一步闡述本發(fā)明的W上和其它優(yōu)點(diǎn)和特征,下面結(jié)合附圖對(duì)本發(fā)明的具體 實(shí)施方式作進(jìn)一步詳細(xì)的說明。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并且 形成本說明書的一部分。具有相同的功能和結(jié)構(gòu)的元件用相同的參考標(biāo)號(hào)表示。應(yīng)當(dāng)理解, 運(yùn)些附圖僅描述本發(fā)明的典型示例,而不應(yīng)看作是對(duì)本發(fā)明的范圍的限定。在附圖中:
[0014] 圖1是根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的用于漢語中的零指代消解的裝置的結(jié)構(gòu)框圖;
[0015] 圖2是根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的聯(lián)合模型的示例的結(jié)構(gòu)圖;
[0016] 圖3是根據(jù)本申請(qǐng)的實(shí)施例的基于聯(lián)合模型的方法與傳統(tǒng)方法的性能比較的圖;
[0017] 圖4是根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的用于漢語中的零指代消解的方法的流程圖;
[0018] 圖5是根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的用于漢語中的零指代消解的聯(lián)合模型的訓(xùn)練 方法的流程圖;W及
[0019] 圖6是其中可W實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的方法和/或裝置和/或系統(tǒng)的通用個(gè) 人計(jì)算機(jī)的示例性結(jié)構(gòu)的框圖。
【具體實(shí)施方式】
[0020] 在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見, 在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何運(yùn)種實(shí)際實(shí)施 例的過程中必須做出很多特定于實(shí)施方式的決定,W便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符 合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且運(yùn)些限制條件可能會(huì)隨著實(shí)施方式的不同而有 所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開 內(nèi)容的本領(lǐng)域技術(shù)人員來說,運(yùn)種開發(fā)工作僅僅是例行的任務(wù)。
[0021] 在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中 僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明 關(guān)系不大的其他細(xì)節(jié)。
[0022] 如上所述,在本文中,零代詞指的是文本中出于使得語言簡(jiǎn)潔或符合語言習(xí)慣的 目的而被省略的代詞。零指代消解指的是如下過程:在文本中找出被省略的零代詞(零代 詞恢復(fù)),并且找到運(yùn)個(gè)代詞實(shí)際指代的名詞(代詞指代消解)。
[0023] 如果將零代詞恢復(fù)與代詞指代消解兩個(gè)步驟W流水線的方式順序進(jìn)行,則在零代 詞恢復(fù)錯(cuò)誤的情況下將會(huì)導(dǎo)致代詞指代消解結(jié)果的進(jìn)一步偏離,因此性能較差。而在本申 請(qǐng)中,采用了聯(lián)合模型,對(duì)上述兩個(gè)問題同時(shí)進(jìn)行優(yōu)化,避免了誤差的累積。
[0024] 如圖1所示,根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的用于漢語中的零指代消解的裝置100包 括:特征向量提取單元101,被配置為從輸入的文本中提取分別基于候選零代詞位置、每個(gè) 候選零代詞位置的候選零代詞類別-候選名詞詞對(duì)的特征向量;W及分類器102,被配置為 將特征向量輸入到聯(lián)合模型中,W確定文本中的零代詞。
[00巧]例如,該輸入的文本已經(jīng)完成了分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和依存句法分析的 操作。其中,依存句法分析指的是將一個(gè)句子解析成運(yùn)樣一個(gè)樹狀結(jié)構(gòu):句子中核屯、動(dòng)詞 處于支配其它詞的中屯、位置;其它詞直接依存于某一詞;任何一個(gè)詞都不同時(shí)依存于兩個(gè) 或兩個(gè)W上的其他詞。命名實(shí)體識(shí)別指的是識(shí)別出文本中代表現(xiàn)實(shí)生活中的實(shí)體概念的詞 語。由于運(yùn)些操作與本發(fā)明的主旨并不密切相關(guān),且可W采用已有技術(shù)進(jìn)行,在此不再詳細(xì) 描述。
[00%] 針對(duì)該輸入的文本,特征向量提取單元101首先獲得候選零代詞位置,候選零代 詞位置為可能存在零代詞的位置,例如將句子中每一詞語的左側(cè)作為候選零代詞位置,然 后提取該候選零代詞位置的特征向量。此外,針對(duì)每一個(gè)候選零代詞位置,可能有某一個(gè)適 當(dāng)?shù)牧愦~類別,比如:我、我們、你、你們、他、他們、她、她們、它、它們等,此外還可W沒有 零代詞,即NU化。針對(duì)每一個(gè)候選零代詞位置的候選零代詞類別,可W提取相關(guān)的句子中 比如在該位置之前的N(例如,N為3)個(gè)句子中的所有名詞,從而形成候選零代詞類別-候 選名詞詞對(duì),特征向量提取單元101提取其特征向量。在獲得了上述特征向量之后,分類器 102將其輸入到聯(lián)合模型中,從而最終判斷哪一個(gè)候選零代詞位置上最可能存在零代詞W 及該零代詞最可能指代哪一個(gè)名詞。 陽027] 假設(shè)零代詞用P表示,P = Pi,…,P。,其中,P,1《i《n,P為代詞集合,例如 包括上述我、我們、你、你們、他、他們、她、她們、它、它們、NU化的集合,則分類器102解決如 下問題:
陽03引其中,W代表句子中詞語,r代表代詞指代消解過程,其中, r =《如的:巧€快,P色.?},η代表恢復(fù)的零代詞P所指代的名詞。魚和r:分別代表最 優(yōu)的零代詞恢復(fù)和最優(yōu)的代詞指代消解。
[0033] 可W看出,裝置100聯(lián)合完成了尋找零代詞類別-代詞消解的優(yōu)化,因此可W有效 地避免誤差的累積,提供零指代消解的性能。
[0034] 其中,上述聯(lián)合模型是基于訓(xùn)練文本集預(yù)先訓(xùn)練獲得的,并且裝置100例如在工 作時(shí)加載該聯(lián)合模型。下文中將結(jié)合模型的訓(xùn)練過程給出裝置100的具體示例。
[0035] 在訓(xùn)練聯(lián)合模型時(shí),首先輸入標(biāo)注了零代詞W及零代詞指代信息的訓(xùn)練文本集。 類似地,該文本集中的文本也可W是已經(jīng)完成了分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和依存句法 分析的文本。并且通過人工標(biāo)注的方法獲得在每一個(gè)詞語的左側(cè)是否存在一個(gè)零代詞,W 及如果存在運(yùn)樣的零代詞,其指代的名詞為哪個(gè)。例如,可w將運(yùn)樣的零代詞w及零代詞指 代信息與對(duì)應(yīng)的句子存放到同一個(gè)文件內(nèi),比如一行存放句子,接著一行存放零代詞W及 零代詞的指代信息。
[0036] 根據(jù)訓(xùn)練文本集的零代詞W及零代詞指代信息,可W得到標(biāo)注有零代詞類別的候 選零代詞位置作為訓(xùn)練實(shí)例。例如,假設(shè)原句為:"俄羅斯作為米洛舍維奇一貫的支持者,曾 經(jīng)提出調(diào)停運(yùn)場(chǎng)政治危機(jī)。"
[0037] 用"#"表示在每一個(gè)詞語左側(cè)的候選零代詞位置,該句表示如下"#俄羅斯#作為 #米洛舍維奇# 一貫#的#支持者#,#曾經(jīng)#提出#調(diào)停#運(yùn)#場(chǎng)#政治#危機(jī)#。"
[0038] 根據(jù)上述候選零代詞位置的指定方式,該句將產(chǎn)生15個(gè)候選零代詞位置,即有15 個(gè)#,編號(hào)W詞語索引來表示:⑩表示第0個(gè)詞"俄羅斯"左側(cè)的候選零代詞位置,即第1個(gè) #,W此類推。根據(jù)標(biāo)注信息,在第1個(gè)#處的零代詞標(biāo)簽為0,即沒有零代詞;⑦表示第7個(gè) 詞"曾經(jīng)"左側(cè)的候選零代詞位置,即第7個(gè)#,根據(jù)標(biāo)注信息,該位置的零代詞標(biāo)簽為"它"。 因此,包括該標(biāo)注信息的句子表示為"#俄羅斯#作為#米洛舍維奇# 一貫#的#支持者#, *它*曾經(jīng)#提出#調(diào)停#運(yùn)#場(chǎng)#政治#危機(jī)#。'',其中,標(biāo)注信息為"曾經(jīng)"的左邊存在 一個(gè)零代詞它*","*"表明運(yùn)是一個(gè)零代詞,運(yùn)個(gè)它*"指代的是"俄羅斯"。 陽039] 接下來,獲取候選零代詞位置的特征向量。例如,該特征向量中包括的W下特征中 的至少一種:語法特征;詞匯特征;結(jié)構(gòu)特征;代詞特定特征。運(yùn)些特征可W從通過依存句 法分析獲得的樹狀結(jié)構(gòu)的表示中獲得。
[0040] 作為示例,語法特征包括:當(dāng)前節(jié)點(diǎn)標(biāo)簽、父節(jié)點(diǎn)標(biāo)簽、前一節(jié)點(diǎn)標(biāo)簽、祖父節(jié)點(diǎn)標(biāo) 簽、最左兄弟標(biāo)簽、最右兄弟標(biāo)簽、前一節(jié)點(diǎn)子節(jié)點(diǎn)標(biāo)簽、左兄弟標(biāo)簽、右兄弟標(biāo)簽、當(dāng)前詞 的依存關(guān)系、頭詞的依存關(guān)系。詞匯特征包括:當(dāng)前詞的詞性、前一詞的詞性、當(dāng)前詞、前一 詞、當(dāng)前詞是否是動(dòng)詞、當(dāng)前詞是否是及物動(dòng)詞。結(jié)構(gòu)特征包括:當(dāng)前詞與前一詞之間的詞 距離、歸一化的當(dāng)前詞與前一詞之間的詞距離、當(dāng)前詞與最近的動(dòng)詞之間的詞距離、從當(dāng)前 詞到前一詞之間的路徑、從當(dāng)前詞到根節(jié)點(diǎn)的路徑。代詞特定特征包括:出現(xiàn)在當(dāng)前詞之前 的最近的代詞;上一句子的代詞集合。
[0041] 具體地,在一個(gè)示例中,候選零代詞位置的特征向量包括如下特征的至少之一:候 選零代詞位置對(duì)應(yīng)的當(dāng)前詞的語法特征、所述當(dāng)前詞的依存樹父節(jié)點(diǎn)的語法特征、所述當(dāng) 前詞前一個(gè)詞的語法特征、所述當(dāng)前詞與其依存樹父節(jié)點(diǎn)之間的距離、所述當(dāng)前詞與其依 存樹父節(jié)點(diǎn)之間的依存子樹中不包括所述當(dāng)前詞及其父節(jié)點(diǎn)在內(nèi)的動(dòng)詞的數(shù)量、所述當(dāng)前 詞與其依存樹父節(jié)點(diǎn)之間的依存子樹中不包括所述當(dāng)前詞及其父節(jié)點(diǎn)在內(nèi)的逗號(hào)的數(shù)量、 所述當(dāng)前詞的依存樹父節(jié)點(diǎn)的動(dòng)詞詞性特征、所述當(dāng)前詞詞性和所述當(dāng)前詞與其父節(jié)點(diǎn)的 依存弧標(biāo)簽W及所述當(dāng)前詞父節(jié)點(diǎn)詞性和所述當(dāng)前詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo) 簽、所述當(dāng)前詞詞性和所述當(dāng)前詞到依存樹根節(jié)點(diǎn)路徑的組合。
[0042] 例如,可W進(jìn)行如下操作(仍W上文中的例句為例):
[0043] 1)提取當(dāng)前詞的語法特征:即提取候選零代詞位置的編號(hào)所對(duì)應(yīng)的詞語的相關(guān) 特征,例如包括詞、詞性、依存樹父節(jié)點(diǎn)詞W及其與依存樹父節(jié)點(diǎn)間的依存弧標(biāo)簽。W候選 零代詞位置⑦為例,當(dāng)前詞即為句子的第7個(gè)詞:"曾經(jīng)"(后文中的"當(dāng)前詞"同此處定義), 詞性為d(意為該詞是一個(gè)副詞),依存樹父節(jié)點(diǎn)詞為"提出",依存弧標(biāo)簽為ADV (意為該詞 是作為其依存樹父節(jié)點(diǎn)詞的狀語成分)。
[0044] 2)提取當(dāng)前詞的依存樹父節(jié)點(diǎn)的語法特征:即提取父節(jié)點(diǎn)所對(duì)應(yīng)詞語的相關(guān)特 征,例如包括詞、詞性、依存樹父節(jié)點(diǎn)詞W及其與依存樹父節(jié)點(diǎn)間的依存弧標(biāo)簽。仍W候選 零代詞位置⑦對(duì)應(yīng)的當(dāng)前詞為例,其父節(jié)點(diǎn)詞為"提出",父節(jié)點(diǎn)詞性為V (動(dòng)詞),父節(jié)點(diǎn)在 依存樹上的更上一級(jí)父節(jié)點(diǎn)詞為ROOT (根節(jié)點(diǎn)),相應(yīng)依存弧標(biāo)簽為肥D。
[0045] 3)提取當(dāng)前詞前一個(gè)詞的語法特征:即提取前一個(gè)詞的相關(guān)特征,例如包括詞、 詞性、依存樹父節(jié)點(diǎn)詞W及其與依存樹父節(jié)點(diǎn)間的依存弧標(biāo)簽。仍W候選零代詞位置⑦對(duì) 應(yīng)的當(dāng)前詞為例,其前一個(gè)詞為","詞性為WP,依存樹父節(jié)點(diǎn)詞為"作為",依存弧標(biāo)簽為 WP。
[0046] 4)提取當(dāng)前詞與其依存樹父節(jié)點(diǎn)之間所相隔的距離。仍W候選零代詞位置⑦對(duì)應(yīng) 的當(dāng)前詞為例,其在句中的位置為7,其父節(jié)點(diǎn)在句中的位置為8,所W該特征取值為1。
[0047] 5)提取當(dāng)前詞與其依存父節(jié)點(diǎn)之間的依存子樹中不包含當(dāng)前詞及其父節(jié)點(diǎn)在內(nèi) 的動(dòng)詞的數(shù)量。W候選零代詞位置⑦對(duì)應(yīng)的當(dāng)前詞為例,其與之依存父節(jié)點(diǎn)之間的依存子 樹為"曾經(jīng)提出",因?yàn)闆]有動(dòng)詞,所W該特征取值為0。
[0048] 6)提取當(dāng)前詞與其依存父節(jié)點(diǎn)之間的依存子樹中不包含當(dāng)前詞及其父節(jié)點(diǎn)在內(nèi) 的逗號(hào)的數(shù)量。W候選零代詞位置⑦對(duì)應(yīng)的當(dāng)前詞為例,其與之依存父節(jié)點(diǎn)之間的依存子 樹為"曾經(jīng)提出",因?yàn)闆]有逗號(hào),所W該特征取值為0。
[0049] 7)提取當(dāng)前詞的依存父節(jié)點(diǎn)的動(dòng)詞詞性特征:如果依存父節(jié)點(diǎn)的詞性為動(dòng)詞,那 么其特征取值為1,反之為0。W候選零代詞位置⑦對(duì)應(yīng)的當(dāng)前詞為例,其依存父節(jié)點(diǎn)的詞 性為V,所W該特征取值為1。
[0050] 8)提取當(dāng)前詞詞性、當(dāng)前詞與其父節(jié)點(diǎn)的依存弧標(biāo)簽,W及當(dāng)前詞父節(jié)點(diǎn)詞性、當(dāng) 前詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo)簽,并組合起來。W候選零代詞位置⑦對(duì)應(yīng)的當(dāng)前 詞為例,當(dāng)前詞詞性為d,當(dāng)前詞與其父節(jié)點(diǎn)的依存弧標(biāo)簽為ADV,當(dāng)前詞父節(jié)點(diǎn)詞性為V, 當(dāng)前詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo)簽為肥D,組合起來即為"d ADV肥D V"。
[00川 9)提取當(dāng)前詞詞性,W及當(dāng)前詞到依存樹根節(jié)點(diǎn)路徑,并組合起來。W候選零代詞 位置⑦對(duì)應(yīng)的當(dāng)前詞為例,當(dāng)前詞詞性為d,當(dāng)前詞到依存樹根節(jié)點(diǎn)為"ADV肥D ROOT",組 合起來即為"d ADV肥D ROOT"。
[0052] 在如上獲得特征向量后,基于該特征向量及其對(duì)應(yīng)的零代詞類別來訓(xùn)練多元分類 模型,該模型用于判斷候選零代詞位置-候選零代詞類別。例如,該模型可W為最大賭模 型。在訓(xùn)練時(shí)可W使用最大賭建模工具來獲得該多元分類模型。而在實(shí)際使用預(yù)存的該多 元分類模型時(shí),輸入特征向量即可獲得其對(duì)應(yīng)的候選零代詞類別的恢復(fù)概率。
[0053] 接下來,根據(jù)訓(xùn)練文本集標(biāo)注的零代詞W及零代詞指代信息,得到標(biāo)注有指代關(guān) 系的候選零代詞類別-候選名詞詞對(duì)。具體地,仍W前文中的句子為例,"曾經(jīng)"的左邊存 在一個(gè)零代詞它*",在其前面的句子中存在Ξ個(gè)名詞"俄羅斯"、"支持者"和"米洛舍維 奇",則得到3組零代詞-候選名詞詞對(duì),分別為:(*它*,俄羅斯),(*它*,支持者),(*它 *,米洛舍維奇)。其中,像(*它*,俄羅斯)運(yùn)樣的具有指代關(guān)系的樣本標(biāo)簽為1,而(*它 *,米洛舍維奇)運(yùn)樣的沒有指代關(guān)系的樣本標(biāo)簽為0。
[0054] 針對(duì)每一個(gè)零代詞-候選名詞詞對(duì)獲取其特征向量。該特征向量可W包括W下特 征中的至少一種:詞匯特征、語法特征;二元文法特征;代詞特定特征。 陽化5] 具體地,例如,對(duì)于零代詞-候選名詞詞對(duì)(i,j),其中,i是代詞,j是名詞,詞匯 特征包括:詞j;詞性i;詞性j ;j是否是命名實(shí)體;詞j的依存關(guān)系;詞i的依存關(guān)系;j的 前一詞;i的前一詞。語法特征包括:從j到其前一詞路徑;從i到其前一詞的路徑;從i到 其根節(jié)點(diǎn)詞的路徑;從j到其根節(jié)點(diǎn)詞的路徑;i的父節(jié)點(diǎn);j的父節(jié)點(diǎn)。二元文法特征指 的是詞對(duì)的語言模式得分。代詞特定特征包括:詞i的性別信息;詞j的數(shù)量信息。
[0056] 在一個(gè)示例中,零代詞類別-候選名詞詞對(duì)的特征向量包括如下特征的至少之 一:名詞的語法特征、零代詞的語法特征、名詞的詞性和名詞與其父節(jié)點(diǎn)的依存弧標(biāo)簽W及 名詞父節(jié)點(diǎn)詞性和名詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo)簽、名詞詞性和名詞到依存樹根 節(jié)點(diǎn)路徑、零代詞的詞性和零代詞與其父節(jié)點(diǎn)的依存弧標(biāo)簽W及零代詞父節(jié)點(diǎn)詞性和零代 詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo)簽、零代詞詞性和零代詞到依存樹根節(jié)點(diǎn)路徑、名詞 與零代詞后面一個(gè)詞在大規(guī)模文本中統(tǒng)計(jì)出來的二元文法概率。
[0057] 例如,可W進(jìn)行如下操作(仍W上文中的例句為例):
[0058] 1)提取名詞的語法特征:即提取一個(gè)零代詞-候選名詞詞對(duì)中的名詞的相關(guān)特 征,包括詞、詞性、命名實(shí)體類別W及其與依存樹父節(jié)點(diǎn)間的依存弧標(biāo)簽。W (*它*,俄羅 斯)詞對(duì)為例,其中的名詞是"俄羅斯",所W詞為"俄羅斯",詞性為η (意為該詞是個(gè)名詞), 命名實(shí)體類別為ns (表明該詞是一個(gè)地理上的命名實(shí)體),依存弧標(biāo)簽為SBV (意為該名詞 是作為其依存樹父節(jié)點(diǎn)詞的主語成分)。
[0059] 2)提取零代詞的語法特征:即提取一個(gè)零代詞-候選名詞詞對(duì)中的零代詞的相 關(guān)特征,包括詞、詞性、命名實(shí)體類別、其與依存樹父節(jié)點(diǎn)間的依存弧標(biāo)簽,W及性別與單復(fù) 數(shù)。仍W (*它*,俄羅斯)詞對(duì)為例,其中的零代詞是它*",所W詞為"它",詞性為r, 命名實(shí)體類別為0,依存弧標(biāo)簽為ADV,性別為None (表明該代詞不具有性別信息),單復(fù)數(shù) 為single (表明該代詞用于指代單數(shù)名詞)。
[0060] 3)提取名詞的詞性、名詞與其父節(jié)點(diǎn)的依存弧標(biāo)簽,W及名詞父節(jié)點(diǎn)詞性、名詞父 節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo)簽,并組合起來。W (*它*,俄羅斯)詞對(duì)為例,其中的名 詞是"俄羅斯",所W詞為"俄羅斯",詞性為n,名詞與其父節(jié)點(diǎn)的依存弧標(biāo)簽為SBV,名詞父 節(jié)點(diǎn)詞性為V,名詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo)簽為肥D,組合起來即為"d SBV肥D V"。
[OOW] 4)提取名詞詞性,W及名詞到依存樹根節(jié)點(diǎn)路徑,并組合起來。W (*它*,俄羅 斯)詞對(duì)為例,其中的名詞是"俄羅斯",所W詞為"俄羅斯",詞性為n,名詞到依存樹根節(jié)點(diǎn) 路徑為"SBV肥D ROOT",組合起來即為"η SBV肥D ROOT"。
[0062] 5)提取零代詞的詞性、零代詞與其父節(jié)點(diǎn)的依存弧標(biāo)簽,W及零代詞父節(jié)點(diǎn)詞性、 零代詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo)簽,并組合起來。W (*它*,俄羅斯)詞對(duì)為例,其 中的零代詞是它*",所W詞為"它",詞性為r,零代詞與其父節(jié)點(diǎn)的依存弧標(biāo)簽為ADV,名 詞父節(jié)點(diǎn)詞性為V,名詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo)簽為肥D,組合起來即為"d ADV 肥D V"。
[0063] 6)提取零代詞詞性,W及零代詞到依存樹根節(jié)點(diǎn)路徑,并組合起來。W (*它*,俄 羅斯)詞對(duì)為例,其中的零代詞是它*",所W詞為"它",詞性為r,零代詞到依存樹根節(jié) 點(diǎn)路徑為"ADV肥D ROOT",組合起來即為"η ADV肥D ROOT"。
[0064] 7)提取名詞與零代詞后邊一個(gè)詞在大規(guī)模文本中統(tǒng)計(jì)出來的2元文法概率。W (*它*,俄羅斯)詞對(duì)為例,其中零代詞它*"的后一個(gè)詞是"提出",假設(shè)"俄羅斯提出" 運(yùn)樣一個(gè)2元文法在一組大規(guī)模文本中出現(xiàn)的概率為0. 00124,則該特征取值為0. 00124。
[0065] 在如上獲得特征向量后,基于該特征向量W及所標(biāo)注的是否具有指代關(guān)系的信息 來訓(xùn)練二元分類模型,該模型用于判斷零代詞與候選名詞是否具有指代關(guān)系。例如,該模型 可W為最大賭模型。在訓(xùn)練時(shí)可W使用最大賭建模工具來獲得該二元分類模型。而在實(shí)際 使用預(yù)存的該二元分類模型時(shí),輸入特征向量即可獲得該對(duì)零代詞和候選名詞存在指代關(guān) 系的消解概率。
[0066] 然后,根據(jù)訓(xùn)練文本集標(biāo)注的零代詞與零代詞指代信息,W及W上得到的多元分 類模型和二元分類模型,得到標(biāo)注有正負(fù)例的候選零代詞位置-候選零代詞類別-候選名 詞Ξ元組。具體地,對(duì)一個(gè)句子中所有標(biāo)注了零代詞的候選零代詞位置,利用所獲得的多元 分類模型得到該候選零代詞位置對(duì)應(yīng)每種零代詞類別的恢復(fù)概率;對(duì)一個(gè)句子中的每個(gè)標(biāo) 注了零代詞的候選零代詞位置W及每種類別的零代詞,利用所獲得的二元分類模型,得到 該位置的該類別零代詞被消解為該位置前各個(gè)候選名詞的消解概率;對(duì)于每個(gè)候選零代詞 位置-候選零代詞類別-候選名詞Ξ元組,將訓(xùn)練文本集中標(biāo)注出來的Ξ元組認(rèn)作是正例, 將其余的Ξ元組認(rèn)作為負(fù)例。
[0067] 例如,在上述句子"俄羅斯作為米洛舍維奇一貫的支持者,*它*曾經(jīng)提出調(diào)停運(yùn) 場(chǎng)政治危機(jī)。"中,標(biāo)注信息為"曾經(jīng)"的左邊存在一個(gè)被省略的它*",運(yùn)個(gè)它*"指代 的是"俄羅斯"。候選零代詞位置為⑦,利用上述多元分類模型,得到⑦被恢復(fù)成它*"的 概率為0. 254、⑦被恢復(fù)成他*"的概率為0. 144、⑦被恢復(fù)成她*"的概率為0. 106、 ⑦被恢復(fù)成我*"的概率為0. 077、等等。
[0068] 對(duì)于候選零代詞位置⑦被恢復(fù)為它*"運(yùn)一候選,(*它*,俄羅斯)具有指代關(guān) 系的消解概率是0. 447,為正例;(*它*,米洛舍維奇)具有指代關(guān)系的消解概率是0. 100, 為負(fù)例.(*它*,支持者)具有指代關(guān)系的消解概率是0. 204,也為負(fù)例。
[0069] 使用針對(duì)訓(xùn)練數(shù)據(jù)集獲得的上述結(jié)果,即,對(duì)于每一個(gè)Ξ元組,將其候選零代詞位 置-候選零代詞類別的恢復(fù)概率視為第1維特征,將候選零代詞類別-候選名詞的消解概 率視為第2維特征,連同運(yùn)個(gè)Ξ元組的正負(fù)例標(biāo)簽輸入到另一個(gè)二元分類模型(第二二元 分類模型)中進(jìn)行訓(xùn)練,該模型用于判斷該=元組所代表的零指代消解結(jié)果的置信度。例 如,在實(shí)際中使用該模型進(jìn)行判斷時(shí),所獲得的結(jié)果表示在該候選零代詞位置處存在該候 選零代詞類別并且其指代該候選名詞的正確(正例)或錯(cuò)誤(負(fù)例)的概率。
[0070] 作為示例,第二二元分類模型可W為支持向量機(jī)模型。在訓(xùn)練時(shí)可W使用支持向 量機(jī)的建模工具來獲得該模型。
[0071] 例如,在線性模型下,可W選擇如下置信度最高的Ξ元組(w,p,r)。
[0076] 其中,參數(shù)α和β可W通過自動(dòng)訓(xùn)練獲得,公式(5)和(6)可W分別基于上述恢 復(fù)概率和消解概率獲得。其中,W代表句子中的某一個(gè)詞,Pi是詞W的預(yù)測(cè)代詞。在式巧) 中,fk(w,Pi)代表特征向量,Z(W) = SnEpexp(XkAkfk(w,P))是歸一化因子。類似地,在 式(6)中 Z(w,P) = Sf ERexp(Xk Akfk(w,P,r)),是歸一化因子。
[0077] 在通過上述訓(xùn)練過程獲得了聯(lián)合模型之后,裝置100可W使用運(yùn)些聯(lián)合模型來對(duì) 輸入的文本進(jìn)行零指代消解。
[0078] 如圖2所示,在一個(gè)示例中,聯(lián)合模型200可W包括:多元分類模型201,被配置為 基于所述候選零代詞位置的特征向量進(jìn)行分類,W獲得該候選零代詞位置上的零代詞類別 的恢復(fù)概率;第一二元分類模型202,被配置為針對(duì)包括各個(gè)候選零代詞位置的各個(gè)零代 詞類別的零代詞類別-候選名詞詞對(duì)的特征向量進(jìn)行分類,W獲得該候選零代詞位置上的 每一對(duì)零代詞類別-候選名詞詞對(duì)存在指代關(guān)系的消解概率;W及第二二元分類模型203, 被配置為基于所述恢復(fù)概率和所述消解概率對(duì)每一個(gè)候選零代詞位置-零代詞類別-候選 名詞Ξ元組進(jìn)行分類,W獲得恢復(fù)消解結(jié)果。
[0079] 其中,在實(shí)際使用過程中,各個(gè)特征向量設(shè)置和提取方式與前述訓(xùn)練過程中的相 同,在此不再重復(fù)。
[0080] 在一個(gè)示例中,恢復(fù)消解結(jié)果包括結(jié)果標(biāo)號(hào)W及相應(yīng)的置信度,其中,結(jié)果標(biāo)號(hào)表 示是正例還是負(fù)例,分類器102被配置為選擇結(jié)果標(biāo)號(hào)為正例且置信度最高的候選零代詞 位置-零代詞類別-候選名詞Ξ元組,并且將該Ξ元組中的零代詞位置中的零代詞類別作 為文本中的零代詞,將該Ξ元組中的候選名詞作為所述零代詞指代的名詞。
[0081] 圖3示出了采用上述聯(lián)合模型W及采用傳統(tǒng)的流水線方法所獲得的零指代消解 的性能的比較。其中,準(zhǔn)確率任)指的是系統(tǒng)識(shí)別出的正確的關(guān)系實(shí)例占系統(tǒng)識(shí)別出的所 有關(guān)系實(shí)例的百分比;召回率(時(shí)是指系統(tǒng)識(shí)別出的正確的關(guān)系實(shí)例占所有正確的關(guān)系實(shí) 例的百分比;F1測(cè)度是指準(zhǔn)確率和召回率的調(diào)和平均值,定義呆
可W看出, 本發(fā)明的基于聯(lián)合模型的方法可W獲得較好的性能,F(xiàn)1指數(shù)明顯提高。
[0082] 在上文的實(shí)施方式中描述用于漢語中的零指代消解的裝置的過程中,顯然還公開 了一些處理或方法。下文中,在不重復(fù)上文中已經(jīng)討論的一些細(xì)節(jié)的情況下給出運(yùn)些方法 的概要,但是應(yīng)當(dāng)注意,雖然運(yùn)些方法在描述用于漢語中的零指代消解的裝置的過程中公 開,但是運(yùn)些方法不一定采用所描述的那些部件或不一定由那些部件執(zhí)行。例如,用于漢語 中的零指代消解的裝置的實(shí)施方式可W部分地或完全地使用硬件和/或固件來實(shí)現(xiàn),而下 面討論的用于漢語中的零指代消解的方法可W完全由計(jì)算機(jī)可執(zhí)行的程序來實(shí)現(xiàn),盡管運(yùn) 些方法也可W采用用于漢語中的零指代消解的裝置的硬件和/或固件。
[0083] 如圖4所示,根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的用于漢語中的零指代消解的方法包括如 下步驟:從輸入的文本中提取分別基于候選零代詞位置、每個(gè)候選零代詞位置的候選零代 詞類別-候選名詞詞對(duì)的特征向量(S11) 及將特征向量輸入到聯(lián)合模型中來進(jìn)行分類, W確定文本中的零代詞(S12)。
[0084] 如圖5所示,根據(jù)本申請(qǐng)的一個(gè)實(shí)施例的用于漢語中的零指代消解的聯(lián)合模型的 訓(xùn)練方法包括:輸入標(biāo)注有零代詞和零代詞指代信息的訓(xùn)練文本集(S21);根據(jù)標(biāo)注獲得 訓(xùn)練文本集中的每一個(gè)文本中的候選零代詞位置和零代詞類別、W及候選零代詞類別-候 選名詞詞對(duì)(S22);獲取候選零代詞位置的特征向量、W及候選零代詞類別-候選名詞詞對(duì) 的特征向量(S23);基于特征向量和已標(biāo)注信息來訓(xùn)練聯(lián)合模型(S24)。
[00化]注意,上述方法的細(xì)節(jié)在對(duì)裝置100的描述過程中已經(jīng)進(jìn)行了詳細(xì)描述,在此不 再重復(fù)。
[0086] W上結(jié)合具體實(shí)施例描述了本發(fā)明的基本原理,但是,需要指出的是,對(duì)本領(lǐng)域的 技術(shù)人員而言,能夠理解本發(fā)明的方法和裝置的全部或者任何步驟或部件,可W在任何計(jì) 算裝置(包括處理器、存儲(chǔ)介質(zhì)等)或者計(jì)算裝置的網(wǎng)絡(luò)中,W硬件、固件、軟件或者其組合 的形式實(shí)現(xiàn),運(yùn)是本領(lǐng)域的技術(shù)人員在閱讀了本發(fā)明的描述的情況下利用其基本電路設(shè)計(jì) 知識(shí)或者基本編程技能就能實(shí)現(xiàn)的。
[0087] 而且,本發(fā)明還提出了一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令 代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本發(fā)明實(shí)施例的方法。
[0088] 相應(yīng)地,用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包 括在本發(fā)明的公開中。所述存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等 等。
[0089] 在通過軟件或固件實(shí)現(xiàn)本發(fā)明的情況下,從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu) 的計(jì)算機(jī)(例如圖6所示的通用計(jì)算機(jī)600)安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各 種程序時(shí),能夠執(zhí)行各種功能等。
[0090] 在圖6中,中央處理單元(CPU)601根據(jù)只讀存儲(chǔ)器(ROM)602中存儲(chǔ)的程序或從 存儲(chǔ)部分608加載到隨機(jī)存取存儲(chǔ)器(RAM) 603的程序執(zhí)行各種處理。在RAM 603中,也根 據(jù)需要存儲(chǔ)當(dāng)CPU 601執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU 60UR0M 602和RAM 603經(jīng) 由總線604彼此連接。輸入/輸出接口 605也連接到總線604。
[0091] 下述部件連接到輸入/輸出接口 605 :輸入部分606 (包括鍵盤、鼠標(biāo)等等)、輸出 部分607 (包括顯示器,比如陰極射線管(CRT)、液晶顯示器化CD)等,和揚(yáng)聲器等)、存儲(chǔ)部 分608 (包括硬盤等)、通信部分609 (包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信 部分609經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器610也可連接到輸入/輸 出接口 605。可移除介質(zhì)611比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等根據(jù)需要被安裝在 驅(qū)動(dòng)器610上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分608中。
[0092] 在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可移 除介質(zhì)611安裝構(gòu)成軟件的程序。
[0093] 本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,運(yùn)種存儲(chǔ)介質(zhì)不局限于圖6所示的其中存儲(chǔ)有程 序、與設(shè)備相分離地分發(fā)W向用戶提供程序的可移除介質(zhì)611??梢瞥橘|(zhì)611的例子 包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(CD-ROM)和數(shù)字通用盤 值VD))、磁光盤(包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘撸鎯?chǔ)介質(zhì)可W是 ROM 602、存儲(chǔ)部分608中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被 分發(fā)給用戶。
[0094] 還需要指出的是,在本發(fā)明的裝置、方法和系統(tǒng)中,各部件或各步驟是可W分解和 /或重新組合的。運(yùn)些分解和/或重新組合應(yīng)該視為本發(fā)明的等效方案。并且,執(zhí)行上述系 列處理的步驟可W自然地按照說明的順序按時(shí)間順序執(zhí)行,但是并不需要一定按時(shí)間順序 執(zhí)行。某些步驟可W并行或彼此獨(dú)立地執(zhí)行。
[0095] 最后,還需要說明的是,術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋非排他 性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且 還包括沒有明確列出的其他要素,或者是還包括為運(yùn)種過程、方法、物品或者設(shè)備所固有的 要素。此外,在沒有更多限制的情況下,由語句"包括一個(gè)……"限定的要素,并不排除在包 括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0096] W上雖然結(jié)合附圖詳細(xì)描述了本發(fā)明的實(shí)施例,但是應(yīng)當(dāng)明白,上面所描述的實(shí) 施方式只是用于說明本發(fā)明,而并不構(gòu)成對(duì)本發(fā)明的限制。對(duì)于本領(lǐng)域的技術(shù)人員來說,可 W對(duì)上述實(shí)施方式作出各種修改和變更而沒有背離本發(fā)明的實(shí)質(zhì)和范圍。因此,本發(fā)明的 范圍僅由所附的權(quán)利要求及其等效含義來限定。
【主權(quán)項(xiàng)】
1. 一種用于漢語中的零指代消解的裝置,包括: 特征向量提取單元,被配置為從輸入的文本中提取分別基于候選零代詞位置、每個(gè)候 選零代詞位置的候選零代詞類別-候選名詞詞對(duì)的特征向量;以及 分類器,被配置為將所述特征向量輸入到聯(lián)合模型中,以確定所述文本中的零代詞。2. 根據(jù)權(quán)利要求1所述的裝置,其中,所述聯(lián)合模型包括: 多元分類模型,被配置為基于所述候選零代詞位置的特征向量進(jìn)行分類,以獲得該候 選零代詞位置上的零代詞類別的恢復(fù)概率; 第一二元分類模型,被配置為針對(duì)包括各個(gè)候選零代詞位置的各個(gè)零代詞類別的零代 詞類別-候選名詞詞對(duì)的特征向量進(jìn)行分類,以獲得該候選零代詞位置上的每一對(duì)零代詞 類別-候選名詞詞對(duì)存在指代關(guān)系的消解概率;以及 第二二元分類模型,被配置為基于所述恢復(fù)概率和所述消解概率對(duì)每一個(gè)候選零代詞 位置-零代詞類別-候選名詞三元組進(jìn)行分類,以獲得恢復(fù)消解結(jié)果。3. 根據(jù)權(quán)利要求2所述的裝置,其中,所述恢復(fù)消解結(jié)果包括結(jié)果標(biāo)號(hào)以及相應(yīng)的置 信度,所述分類器被配置為選擇結(jié)果標(biāo)號(hào)為正例且置信度最高的候選零代詞位置-零代詞 類別-候選名詞三元組,并且將該三元組中的零代詞位置中的零代詞類別作為所述文本中 的零代詞,將該三元組中的候選名詞作為所述零代詞指代的名詞。4. 根據(jù)權(quán)利要求2所述的裝置,其中,所述多元分類模型和所述第一分類模型為最大 熵模型。5. 根據(jù)權(quán)利要求2所述的裝置,其中,所述第二二元分類模型為支持向量機(jī)模型。6. 根據(jù)權(quán)利要求1所述的裝置,其中,所述聯(lián)合模型是基于訓(xùn)練文本集預(yù)先訓(xùn)練獲得 的。7. 根據(jù)權(quán)利要求1所述的裝置,其中,所述基于候選零代詞位置的特征向量包括如下 特征的至少之一: 候選零代詞位置對(duì)應(yīng)的當(dāng)前詞的語法特征、所述當(dāng)前詞的依存樹父節(jié)點(diǎn)的語法特征、 所述當(dāng)前詞前一個(gè)詞的語法特征、所述當(dāng)前詞與其依存樹父節(jié)點(diǎn)之間的距離、所述當(dāng)前詞 與其依存樹父節(jié)點(diǎn)之間的依存子樹中不包括所述當(dāng)前詞及其父節(jié)點(diǎn)在內(nèi)的動(dòng)詞的數(shù)量、所 述當(dāng)前詞與其依存樹父節(jié)點(diǎn)之間的依存子樹中不包括所述當(dāng)前詞及其父節(jié)點(diǎn)在內(nèi)的逗號(hào) 的數(shù)量、所述當(dāng)前詞的依存樹父節(jié)點(diǎn)的動(dòng)詞詞性特征、所述當(dāng)前詞詞性和所述當(dāng)前詞與其 父節(jié)點(diǎn)的依存弧標(biāo)簽以及所述當(dāng)前詞父節(jié)點(diǎn)詞性和所述當(dāng)前詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的 依存弧標(biāo)簽、所述當(dāng)前詞詞性和所述當(dāng)前詞到依存樹根節(jié)點(diǎn)路徑的組合。8. 根據(jù)權(quán)利要求1所述的裝置,其中,所述基于零代詞類別-候選名詞詞對(duì)的特征向量 包括如下特征的至少之一: 名詞的語法特征、零代詞的語法特征、名詞的詞性和名詞與其父節(jié)點(diǎn)的依存弧標(biāo)簽以 及名詞父節(jié)點(diǎn)詞性和名詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo)簽、名詞詞性和名詞到依存樹 根節(jié)點(diǎn)路徑、零代詞的詞性和零代詞與其父節(jié)點(diǎn)的依存弧標(biāo)簽以及零代詞父節(jié)點(diǎn)詞性和零 代詞父節(jié)點(diǎn)與更高級(jí)父節(jié)點(diǎn)的依存弧標(biāo)簽、零代詞詞性和零代詞到依存樹根節(jié)點(diǎn)路徑、名 詞與零代詞后面一個(gè)詞在大規(guī)模文本中統(tǒng)計(jì)出來的二元文法概率。9. 一種用于漢語中的零指代消解的方法,包括: 從輸入的文本中提取分別基于候選零代詞位置、每個(gè)候選零代詞位置的候選零代詞類 別-候選名詞詞對(duì)的特征向量;以及 將所述特征向量輸入到聯(lián)合模型中來執(zhí)行分類,以確定所述文本中的零代詞。10. -種用于漢語中的零指代消解的聯(lián)合模型的訓(xùn)練方法,包括: 輸入標(biāo)注有零代詞和零代詞指代信息的訓(xùn)練文本集; 根據(jù)標(biāo)注獲得訓(xùn)練文本集中的每一個(gè)文本中的候選零代詞位置和零代詞類別、以及候 選零代詞類別-候選名詞詞對(duì); 獲取候選零代詞位置的特征向量、以及候選零代詞類別-候選名詞詞對(duì)的特征向量; 以及 基于所述特征向量和已標(biāo)注信息來訓(xùn)練所述聯(lián)合模型。
【文檔編號(hào)】G06F17/27GK105988990SQ201510088829
【公開日】2016年10月5日
【申請(qǐng)日】2015年2月26日
【發(fā)明人】趙知緯, 小林賢郎, 小林賢一郎, 吳友政, 山岡啟介, 張宇, 尹慶宇, 張偉男, 劉挺
【申請(qǐng)人】索尼公司