一種基于謂詞論元結構的層次機器翻譯方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于謂詞論元結構的層次機器翻譯方法及系統(tǒng),包括訓練和翻譯過程,將句子中所有的謂詞論元結構有機的組織成圖狀結構,再將此結構作為改進層次短語機器翻譯的頂層語義骨架結構,從而直接將謂詞論元結構建模到層次短語機器翻譯中,將語義獨立的片段單獨翻譯并依據(jù)它們之間的結構組合成最終譯文,由此得到的譯文具有更好的語義相關性、語義結構和長距離調(diào)序特征,并因此降低了機器翻譯生成毫無意義譯文的概率。
【專利說明】一種基于謂詞論元結構的層次機器翻譯方法及系統(tǒng)【技術領域】
[0001]本發(fā)明涉及自然語言處理【技術領域】,具體地說,涉及一種基于謂詞語義結構的機器翻譯方法及系統(tǒng)。
【背景技術】
[0002]對于機器翻譯而言,語義信息是非常重要的信息。
[0003]發(fā)明專利“基于語義的機器翻譯系統(tǒng)及方法”公開了一種基于語義的自然語言機器翻譯方法,用于將原始語種的原文自動地翻譯成一個或多個目的語種的譯文,該方法包括如下步驟:提取原文的一句;根據(jù)語義單元表示庫,對該句進行語義分析,從而得到該句的句義表達式;根據(jù)語義單元表示庫,將該句義表達式用目的語種的語義單元表示進行展開;將展開后的句子作為譯文輸出。本發(fā)明機器翻譯方法可以高效的同時翻譯多種目的語種的譯文。基本翻譯方法和語義獲取和使用方法均不相同。該專利是基于規(guī)則機器翻譯方法的,利用人工定義的語義規(guī)則來進行語義處理的。
[0004]發(fā)明專利“一種基于語義模板的問題自動翻譯方法及其系統(tǒng)”公開了專利摘要:本發(fā)明公開了一種基于語義模板的問題自動翻譯方法及其系統(tǒng),其中該方法包括:模板獲取步驟,用于獲取與用戶提出的問題最相關的語義模板;模板映射步驟,用于將最相關的語義模板映射到目標語言模板,得到問題的可填充項及可填充項對應于目標語言模板中的語義標簽;語義選擇步驟,用于對可填充項進行自動翻譯,得到可填充項的所有語義;利用語義標簽從所有語義中選擇可填充項的最佳語義,將最佳語義填充到目標語言模板中,得目標語言問題。本發(fā)明能夠?qū)换ナ絾柎鹣到y(tǒng)中用戶提出的問題進行自動翻譯,實現(xiàn)了不同語言用戶之間的無障礙交流?;痉g方法和語義獲取和使用方法均不相同。該專利是基于規(guī)則機器翻譯方法的,利用人工定義的語義模板來進行翻譯的。
[0005]發(fā)明專利“一種語義約定全文翻譯系統(tǒng)和方法”公開了一種語義約定全文翻譯系統(tǒng)和方法。該翻譯系統(tǒng)和方法作為一種多語通用的人機交互自然語言翻譯技術可以滿足以下要求:保證語義信息傳遞質(zhì)量;人機交互只需使用母語;可自動轉換為多種語言譯文。本發(fā)明可用于短信、電子郵件、網(wǎng)頁和各類數(shù)據(jù)庫(比如數(shù)字圖書館)信息翻譯,可提供電子商務多語洽談、多語交流專線、多語共享BBS,并且可以以短信通訊方式實現(xiàn)任意語言用戶之間的遠程和面對面多語交流。該方法將不同語言的詞匯映射到相同的語義信息上去,利用該信息直接進行翻譯。該方法系規(guī)則翻譯方法,且歧義極大。
[0006]發(fā)明專利“語言翻譯系統(tǒng)”公開了用戶可以在各種語言之間通信的一種語言轉換系統(tǒng)。翻譯單元(300)將構建自然語言表達的自然語言的組元翻譯為對應于該組元并進入通用語言字典(210)的通用語言元素。翻譯規(guī)則(220)被應用于經(jīng)翻譯的通用語言元素,由此根據(jù)該次序創(chuàng)建以二項式關系表達的通用語言的表達。反翻譯部分(350)根據(jù)包括在所述翻譯規(guī)則中的以二元關系表達的規(guī)則、參考所述翻譯規(guī)則(220)將以所述二元關系表達的通用語言的表達解析為構建連接的通用語言元素。參考通用語言(210),將已解析的通用語言元素翻譯為構建自然語言表達的組元,由此創(chuàng)建自然語言的表達。該專利技術是一種自然語言的簡單翻譯技術,基本翻譯方法為規(guī)則方法,并未在翻譯過程中涉及任何語義相關處理,也未使用任何與謂詞語義相關的語義算法及結構。
[0007]可見,目前大部分的統(tǒng)計機器翻譯模型都沒有對語義結構進行直接建模。
[0008]語義結構和句法結構是兩種獨立的結構。任何結構都包括兩方面內(nèi)容,一是成分,二是成分關系。在成分方面,語義結構有施事、受事、謂詞等成分,句法結構有主語、謂語、賓語等成分。語義結構的最小單位是語義詞(又叫義位),最大單位是義句;句法結構的最小單位是詞匯詞(又叫詞位)。
[0009]謂詞論兀結構(PAS:Predicate Argument Structure)作為淺層語義結構的一種,表示句子成分之間的謂詞邏輯關系,例如謂詞論元結構:“他們[A0]舉行[Pred]會議[Al] ”,表示“他們”為施事,而“會議”為受事,“舉行”為響應的謂詞。該結構為統(tǒng)計機器翻譯提供了較強的先驗結構知識,能夠在一定程度上幫助機器進行詞匯選擇及調(diào)序。但是由于謂詞論元結構組織結構較為離散,現(xiàn)有工作均是以該結構作為補充信息指導翻譯而不是將其直接在機器翻譯中進行建模。目前直接針對謂詞論元結構建模的障礙在于:謂詞論元結構可以互相嵌套,且同樣的詞匯或短語可以在不同的謂詞論元結構中所作為不同的論元成分;謂詞論元結構中的成分之間有可能存在不屬于該謂詞論元結構的詞匯或短語。例如圖1中,一個句子中有三個謂詞論元結構,其中謂詞論元結構I中的“Al”成分嵌套著兩個不同的謂詞論元結構;謂詞論元結構2和3共享“會議”作為其結構的組成部分,并且“會議”在不同的謂詞論元結構中代表不同作用的論元(A1/A0);其中謂詞論元結構3中的“會議”和“將”之間存在著與該謂詞論元結構無關的詞匯及短語
[0010]在現(xiàn)有技術中,可以利用統(tǒng)計學習得到的轉換映射規(guī)則生成目標端語義結構,但不是在源端利用謂詞語義結構進行翻譯,更不是對語義獨立片段進行單獨翻譯,最終生成目標端翻譯。
【發(fā)明內(nèi)容】
[0011]為了解決上述問題,本發(fā)明的目的在于提出一種基于謂詞論元結構的層次機器翻譯方法:將句子中所有的謂詞論元結構有機的組織成圖狀結構,再將此結構作為改進層次短語機器翻譯的頂層語義骨架結構,從而直接將謂詞論元結構建模到層次短語機器翻譯中。直接在謂詞語義結構上對翻譯過程進行建模,將語義獨立的片段單獨翻譯并依據(jù)它們之間的結構組合成最終譯文,由此得到的譯文具有更好的語義相關性、語義結構和長距離調(diào)序特征,并因此降低了機器翻譯生成毫無意義譯文的概率。
[0012]具體地講,本發(fā)明公開了一種基于謂詞論元結構的層次機器翻譯方法,包括訓練和翻譯步驟,其中,訓練步驟包括:
[0013]步驟11,對雙語平行句對中的源語言句子進行語義角色標注,得到源語言句子所有的謂詞論元結構;源語言的謂詞論元結構可以由語義角色標注工具獲得。
[0014]步驟12,將雙語平行句對中的源語言句子的謂詞論元結構組織成相應的圖狀結構;所有謂詞論元結構是通過以下步驟轉換為圖狀結構的:
[0015]將源語言句子根據(jù)謂詞論元結構拆分成最小的謂詞語義元素;
[0016]將各個謂詞語義元素通過原有的謂詞論元結構中語義元素之間的關系聯(lián)系起來,從而將謂詞語義元素組織成圖狀結構,其中兩個不同與謂詞論元結構I有嵌套關系的謂詞論元結構2和3的謂詞通過“Pred”標簽與其上層結構的謂詞聯(lián)系起來,并通過相應邊的方向表示其從屬關系。
[0017]步驟13,將源端謂詞論元的圖狀結構拆分成多個語義獨立片段;所有謂詞論元的圖狀結構是通過以下步驟轉換語義獨立片段的:
[0018]將謂詞及所有指向謂詞的非謂詞語義元素構成的子圖抽取出來;
[0019]將上述抽取出的子圖轉換成語義獨立片段,其中句子中與該語義片段無關的單詞或短語和下層結構的謂詞元素將會泛化為語義非終結符S。
[0020]步驟14,得到雙語平行句對中的源語言句子及其對應的語義獨立片段結構后,在雙語詞匯對齊的雙語平行句對上抽取雙語謂詞論元結構規(guī)則和層次短語翻譯規(guī)則;抽取雙語謂詞論元結構規(guī)則和基本層次短語翻譯規(guī)則具體包括:將語義獨立片段中的單詞及對應標簽組織成線圖形式,并將對應的目標語言句子與語義非終極符對齊的部分泛化為同樣的語義非終結符;將源端語義獨立片段和目標端翻譯及其對齊組織成線圖結構,在該線圖結構上根據(jù)源端的線圖抽取翻譯所需的語義規(guī)則。
[0021]翻譯步驟包括:
[0022]步驟21,對待翻譯的源語言句子進行語義角色標注,得到待翻譯源語言句子所有的謂詞論元結構;
[0023]步驟22,將待翻譯源語言句子所有謂詞論元結構組織成相應的圖狀結構;
[0024]步驟23,將謂詞論元的圖狀結構拆分成多個語義獨立片段;
[0025]步驟24,根據(jù)基于謂詞論元結構的層次機器翻譯文法,將帶語義獨立片段單獨翻譯并將其合并成為目標語言譯文。
[0026]步驟21中獲得謂詞論元結構的方式與步驟11中相同,步驟22中將待翻譯源語言句子的謂詞論元結構的方法與步驟12中相同,步驟23將謂詞論元的圖狀結構拆分成多個語義獨立片段的方法與步驟13中相同。
[0027]步驟24中根據(jù)基于謂詞論元結構的層次機器翻譯方法分別涉及到運用兩個不同文法的具體包括:(a)運用語義獨立片段翻譯文法單獨翻譯每一個語義獨立片段;(b)使用語義獨立片段組合文法將上一步翻譯好的語義獨立片段連同非語義元素的詞匯或短語組合成最終的目標端譯文。其中:語義獨立片段翻譯文法為帶謂詞論元結構規(guī)則的雙語同步文法,其中謂詞論元結構包括:粘貼規(guī)則和泛化規(guī)則。
[0028]本發(fā)明還公開了一種基于謂詞論元結構的層次機器翻譯系統(tǒng),包括訓練系統(tǒng)和翻譯系統(tǒng),其中訓練系統(tǒng)包括:
[0029]標注模塊,用于對雙語平行句對中的源語言句子進行語義角色標注,得到源語言句子所有的謂詞論元結構;
[0030]組織模塊,用于將雙語平行句對中的源語言句子的謂詞論元結構組織成相應的圖狀結構;
[0031]拆分模塊,用于將源端謂詞論元的圖狀結構拆分成多個語義獨立片段;
[0032]抽取模塊,用于在得到雙語平行句對中的源語言句子及其對應的語義獨立片段結構后,在雙語詞匯對齊的雙語平行句對上抽取雙語謂詞論元結構規(guī)則和層次短語翻譯規(guī)則;
[0033]翻譯系統(tǒng)包括:[0034]標注模塊,用于對待翻譯的源語言句子進行語義角色標注,得到待翻譯源語言句子所有的謂詞論元結構;
[0035]組織模塊,用于將待翻譯源語言句子所有謂詞論元結構組織成相應的圖狀結構;
[0036]拆分模塊,用于將謂詞論元的圖狀結構拆分成多個語義獨立片段;
[0037]翻譯模塊,用于根據(jù)基于謂詞論元結構的層次機器翻譯文法,將帶語義獨立片段單獨翻譯并將其合并成為目標語言譯文。
[0038]拆分模塊具體包括:
[0039]謂詞語義元素拆分模塊,用于將源語言句子根據(jù)謂詞論元結構拆分成最小的謂詞語義元素;
[0040]語義元素關聯(lián)模塊,用于將各個謂詞語義元素通過原有的謂詞論元結構中語義元素之間的關系聯(lián)系起來,從而將謂詞語義元素組織成圖狀結構,其中兩個不同于謂詞論元結構I有嵌套關系的謂詞論元結構2和3的謂詞通過Pred標簽與其上層結構的謂詞聯(lián)系起來,并通過相應邊的方向表示其從屬關系。
[0041]抽取雙語謂詞論元結構規(guī)則和基本層次短語翻譯規(guī)則具體包括:將語義獨立片段中的單詞及對應標簽組織成線圖形式,并將對應的目標語言句子與語義非終極符對齊的部分泛化為同樣的語義非終結符;將源端語義獨立片段和目標端翻譯及其對齊組織成線圖結構,在該線圖結構上根據(jù)源端的線圖抽取翻譯所需的語義規(guī)則。
[0042]所述的基于謂詞論元結構的層次機器翻譯系統(tǒng),訓練系統(tǒng)的標注模塊、組織模塊和拆分模塊,與翻譯系統(tǒng)的標注模塊、組織模塊和拆分模塊相同。
[0043]本發(fā)明具有如下技術效果:
[0044]本發(fā)明直接在謂詞語義結構上對翻譯過程進行建模,將語義獨立的片段單獨翻譯并依據(jù)它們之間的結構組合成最終譯文。由此得到的譯文具有更好的語義相關性、語義結構和長距離調(diào)序特征,并因此降低了機器翻譯生成毫無意義譯文的概率。
【專利附圖】
【附圖說明】
[0045]圖1為一個帶有3個謂詞語義結構的漢語句子;
[0046]圖2為3個謂詞語義結構的漢語句子拆分成3個語義獨立片段的過程;
[0047]圖3為謂詞語義的圖結構中的子圖轉換成語義片段;
[0048]圖4為從語義獨立片段抽取語義規(guī)則的示例;
[0049]圖5為翻譯一個漢語句子的實施例;
[0050]圖6為利用語義獨立片段翻譯文法的翻譯例子;
[0051]圖7為運用語義獨立片段組合文法將翻譯好的語義獨立片段及獨立的詞匯或短語合并成最終譯文;
[0052]圖8為具體實施翻譯系統(tǒng)訓練及翻譯步驟。
【具體實施方式】
[0053]下面結合附圖對本發(fā)明進行詳細說明。
[0054]本發(fā)明提供的基于謂詞論元結構的層次機器翻譯方法,包括訓練步驟和翻譯步驟,其中:[0055]1、訓練步驟包括:
[0056]步驟1,對雙語平行句對中的源語言句子進行語義角色標注,得到源語言句子所有的謂詞論元結構。源語言的謂詞論元結構可以由語義角色標注工具獲得,所述語義角色標注工具可以是開源的 Illinois Semantic Role Labeler (SRL) I 等。
[0057]步驟2,將雙語平行句對中的源語言句子的謂詞論元結構組織成相應的圖狀結構。
[0058]所有謂詞論元結構是通過以下步驟轉換為圖狀結構的:
[0059]將源語言句子根據(jù)謂詞論元結構拆分成最小的謂詞語義元素,如圖2(a)與2(b)所示。圖2為3個謂詞語義結構的漢語句子拆分成3個語義獨立片段的過程;
[0060]將各個謂詞語義元素通過原有的謂詞論元結構中語義元素之間的關系聯(lián)系起來,從而將謂詞語義元素組織成圖狀結構,如圖2(c)所示。其中兩個不同與謂詞論元結構I有嵌套關系的謂詞論元結構2&3的謂詞通過“Pred”標簽與其上層結構的謂詞聯(lián)系起來,并通過相應邊的方向表示其從屬關系。
[0061]步驟3,將源端謂詞論元的圖狀結構拆分成多個語義獨立片段。所有謂詞論元的圖狀結構是通過以下步驟轉換語義獨立片段的(如圖2(c)和2(d)所示):
[0062]將謂詞(帶“Pred”標簽的詞)及所有指向謂詞的非謂詞語義元素構成的子圖抽取出來(如圖3(a)所示)。圖3為謂詞語義的圖結構中的子圖轉換成語義片段;
[0063]將上述抽取出的子圖轉換成語義獨立片段(如圖2 (d)及圖3(b)),其中句子中與該語義片段無關的單詞或短語和下層結構的謂詞元素將會泛化為語義非終結符“S”(如圖2 Cd)及圖3(b)所示)。
[0064]步驟4,得到雙語平行句對中的源語言句子及其對應的語義獨立片段結構后,在雙語詞匯對齊的雙語平行句對上抽取雙語謂詞論元結構規(guī)則和層次短語翻譯規(guī)則的步驟。
[0065]訓練步驟4中,抽取雙語謂詞論元結構規(guī)則和基本層次短語翻譯規(guī)則的步驟為:將語義獨立片段中的單詞及對應標簽組織成如圖4(a)中所示的線圖形式。并且將對應的目標語言句子與語義非終極符對齊的部分泛化為同樣的語義非終結符(如圖4(b))。圖4為從語義獨立片段抽取語義規(guī)則的示例;
[0066]將源端語義獨立片段和目標端翻譯及其對齊組織成如圖4的結構,在該結構上可以根據(jù)源端的線圖抽取翻譯所需的語義規(guī)則。在抽取過程中如果在源端抽取語義標簽的線段,目標端對齊的詞匯或短語也同樣會被泛化為相應的語義標簽。例如在圖4中,如果抽取線圖中(2,5)范圍內(nèi)的規(guī)則,將得到以下規(guī)則:
[0067]X,一 <f2f3S, Se3e4>
[0068]X’ — <ADVS, Se3ADV)
[0069]V — <ADVS, SADV>
[0070]其中,X,為基于謂詞論元結構的層次機器翻譯文法的起始符,f2f3代表原端詞匯對應的e3e4為目標端詞匯,S和ADV為語義非終結符。
[0071]根據(jù)以上方法抽取的源端帶語義標簽或語義非終結符(“S”)的規(guī)則稱之為謂詞論元結構規(guī)則。
[0072]根據(jù)雙語詞匯對齊語料,可以直接使用現(xiàn)有層次短語的規(guī)則抽取技術抽取基本層次短語翻譯規(guī)則。
[0073]訓練步驟4中所述其他通用訓練步驟為機器翻譯領域通用的概率計算,模型調(diào)參等訓練步驟,非本專利核心技術。
[0074]步驟5,其他通用訓練步驟。
[0075]2、翻譯步驟包括:
[0076]步驟1,對待翻譯的源語言句子進行語義角色標注,得到待翻譯源語言句子所有的謂詞論元結構(如圖5(a))。與訓練步驟I中相同。
[0077]步驟2,將待翻譯源語言句子所有謂詞論元結構組織成相應的圖狀結構(如圖5(a) -5(c))ο與訓練步驟2中相同。
[0078]步驟3,將謂詞論元的圖狀結構拆分成多個語義獨立片段(如圖5(c)_5(d))。與訓練步驟3中相同。
[0079]步驟4,根據(jù)基于謂詞論元結構的層次機器翻譯文法,將帶語義獨立片段單獨翻譯并將其合并成為目標語言譯文。
[0080]涉及到運用兩個不同文法的具體步驟:Ca)運用語義獨立片段翻譯文法單獨翻譯每一個語義獨立片段;(b)使用語義獨立片段組合文法將上一步翻譯好的語義獨立片段連同非語義元素的詞匯或短語組合成最終的目標端譯文。
[0081]其中:(a)語義獨立片段翻譯文法為帶謂詞論元結構規(guī)則的雙語同步文法,其中謂詞論元結構包括: [0082]粘貼規(guī)則:
[0083]X,一〈X,X,,X,X,>(I)
[0084]其中V為基于謂詞論元結構的層次機器翻譯文法的起始符,所有謂詞論元結構規(guī)則均由此非終結符推導出來。
[0085]泛化規(guī)則:
[0086]Xs —〈X,X〉(2)
[0087]其中Xs代表所有語義標簽及語義非終結符“S”,X代表一般層次短語同步文法的非終結符。一般的層次短語規(guī)則,與通用的層次短語翻譯方法所使用的規(guī)則一致。
[0088](b)語義獨立片段組合文法為改進后的層次短語文法,其中包括文法推導規(guī)則:
[0089]S — <SS,SS>(8)
[0090]其中“S”為語義非終結符。
[0091]S —<X,X>(9)
[0092]其中“X”為層次短語的非終結符。
[0093]依據(jù)上述方案,以圖5中的待翻譯句子為例。
[0094]圖5為翻譯一個漢語句子的實施例。先將該漢語句子拆分成兩個語義獨立片段進行翻譯。獲得了語義獨立片段之后,分別對兩個語義獨立片段利用語義獨立片段翻譯文法進行翻譯。
[0095]以第二個語義獨立片段為例,如圖6,圖6為利用語義獨立片段翻譯文法的翻譯例子(左上為待翻譯語義獨立片段;左下為通過語義獨立片段翻譯文法翻譯得到的片段譯文;右上為所使用的謂詞邏輯結構規(guī)則;右下為需要使用的層次短語翻譯規(guī)則)
[0096]根據(jù)語義獨立片段翻譯文法將該語義獨立片段通過以下規(guī)則推導生成對應的語義獨立片段譯文(見下頁):
[0097]其中箭頭上括號內(nèi)的數(shù)字代表該推導使用的規(guī)則編號,例如“(I) ”代表上述的粘貼規(guī)則,編號3-7的規(guī)則見圖6右側。
[0098]得到所有上述的語義獨立片段后可以通過語義獨立片段組合文法將其合并為最終的翻譯譯文,如圖7所示。圖7為運用語義獨立片段組合文法將翻譯好的語義獨立片段及獨立的詞匯或短語合并成最終譯文。
[0099]
【權利要求】
1.一種基于謂詞論元結構的層次機器翻譯方法,其特征在于,包括訓練和翻譯步驟,其中,訓練步驟包括: 步驟11,對雙語平行句對中的源語言句子進行語義角色標注,得到源語言句子所有的謂詞論元結構; 步驟12,將雙語平行句對中的源語言句子的謂詞論元結構組織成相應的圖狀結構; 步驟13,將源端謂詞論元的圖狀結構拆分成多個語義獨立片段; 步驟14,得到雙語平行句對中的源語言句子及其對應的語義獨立片段結構后,在雙語詞匯對齊的雙語平行句對上抽取雙語謂詞論元結構規(guī)則和層次短語翻譯規(guī)則; 翻譯步驟包括: 步驟21,對待翻譯的源語言句子進行語義角色標注,得到待翻譯源語言句子所有的謂詞論元結構; 步驟22,將待翻譯源語言句子所有謂詞論元結構組織成相應的圖狀結構; 步驟23,將謂詞論元的圖狀結構拆分成多個語義獨立片段; 步驟24,根據(jù)基于謂詞論元結構的層次機器翻譯文法,將帶語義獨立片段單獨翻譯并將其合并成為目標語言譯文。
2.如權利要求1所述的基于謂詞論元結構的層次機器翻譯方法,其特征在于,步驟11中,源語言的謂詞論元結構可以由語義角色標注工具獲得。
3.如權利要求1所述的基于謂詞論元結構的層次機器翻譯方法,其特征在于,步驟12中,所有謂詞論元結構是通過以下步驟轉換為圖狀結構的: 將源語言句子根據(jù)謂詞論元結構拆分成最小的謂詞語義元素; 將各個謂詞語義元素通過原有的謂詞論元結構中語義元素之間的關系聯(lián)系起來,從而將謂詞語義元素組織成圖狀結構,其中兩個不同與謂詞論元結構I有嵌套關系的謂詞論元結構2和3的謂詞通過“Pred”標簽與其上層結構的謂詞聯(lián)系起來,并通過相應邊的方向表示其從屬關系。
4.如權利要求1所述的基于謂詞論元結構的層次機器翻譯方法,其特征在于,步驟13中,所有謂詞論元的圖狀結構是通過以下步驟轉換語義獨立片段的: 將謂詞及所有指向謂詞的非謂詞語義元素構成的子圖抽取出來; 將上述抽取出的子圖轉換成語義獨立片段,其中句子中與該語義片段無關的單詞或短語和下層結構的謂詞元素將會泛化為語義非終結符S。
5.如權利要求1所述的基于謂詞論元結構的層次機器翻譯方法,其特征在于,步驟14中,抽取雙語謂詞論元結構規(guī)則和基本層次短語翻譯規(guī)則具體包括:將語義獨立片段中的單詞及對應標簽組織成線圖形式,并將對應的目標語言句子與語義非終極符對齊的部分泛化為同樣的語義非終結符;將源端語義獨立片段和目標端翻譯及其對齊組織成線圖結構,在該線圖結構上根據(jù)源端的線圖抽取翻譯所需的語義規(guī)則。
6.如權利要求1所述的基于謂詞論元結構的層次機器翻譯方法,其特征在于,步驟21中獲得謂詞論元結構的方式與步驟11中相同,步驟22中將待翻譯源語言句子的謂詞論元結構的方法與步驟12中相同,步驟23將謂詞論元的圖狀結構拆分成多個語義獨立片段的方法與步驟13中相同。
7.如權利要求1所述的基于謂詞論元結構的層次機器翻譯方法,其特征在于,步驟24中根據(jù)基于謂詞論元結構的層次機器翻譯方法分別涉及到運用兩個不同文法的具體包括:(a)運用語義獨立片段翻譯文法單獨翻譯每一個語義獨立片段;(b)使用語義獨立片段組合文法將上一步翻譯好的語義獨立片段連同非語義元素的詞匯或短語組合成最終的目標端譯文。 其中:語義獨立片段翻譯文法為帶謂詞論元結構規(guī)則的雙語同步文法,其中謂詞論元結構包括:粘貼規(guī)則和泛化規(guī)則。
8.一種基于謂詞論元結構的層次機器翻譯系統(tǒng),其特征在于,包括訓練系統(tǒng)和翻譯系統(tǒng),其中訓練系統(tǒng)包括: 標注模塊,用于對雙語平行句對中的源語言句子進行語義角色標注,得到源語言句子所有的謂詞論元結構; 組織模塊,用于將雙語平行句對中的源語言句子的謂詞論元結構組織成相應的圖狀結構; 拆分模塊,用于將源端謂詞論元的圖狀結構拆分成多個語義獨立片段; 抽取模塊,用于在得到雙語平行句對中的源語言句子及其對應的語義獨立片段結構后,在雙語詞匯對齊的雙語平行句對上抽取雙語謂詞論元結構規(guī)則和層次短語翻譯規(guī)則; 翻譯系統(tǒng)包括: 標注模塊,用于對待翻譯的源語言句子進行語義角色標注,得到待翻譯源語言句子所有的謂詞論元結構; 組織模塊,用于將待翻譯源語言句子所有謂詞論元結構組織成相應的圖狀結構; 拆分模塊,用于將謂詞論元的圖狀結構拆分成多個語義獨立片段; 翻譯模塊,用于根據(jù)基于謂詞論元結構的層次機器翻譯文法,將帶語義獨立片段單獨翻譯并將其合并成為目標語言譯文。
9.如權利要求8所述的基于謂詞論元結構的層次機器翻譯系統(tǒng),其特征在于,拆分模塊具體包括: 謂詞語義元素拆分模塊,用于將源語言句子根據(jù)謂詞論元結構拆分成最小的謂詞語義元素; 語義元素關聯(lián)模塊,用于將各個謂詞語義元素通過原有的謂詞論元結構中語義元素之間的關系聯(lián)系起來,從而將謂詞語義元素組織成圖狀結構,其中兩個不同于謂詞論元結構I有嵌套關系的謂詞論元結構2和3的謂詞通過Pred標簽與其上層結構的謂詞聯(lián)系起來,并通過相應邊的方向表示其從屬關系。
10.如權利要求8所述的基于謂詞論元結構的層次機器翻譯系統(tǒng),其特征在于,抽取雙語謂詞論元結構規(guī)則和基本層次短語翻譯規(guī)則具體包括:將語義獨立片段中的單詞及對應標簽組織成線圖形式,并將對應的目標語言句子與語義非終極符對齊的部分泛化為同樣的語義非終結符;將源端語義獨立片段和目標端翻譯及其對齊組織成線圖結構,在該線圖結構上根據(jù)源端的線圖抽取翻譯所需的語義規(guī)則。
11.如權利要求8所述的基于謂詞論元結構的層次機器翻譯系統(tǒng),其特征在于,訓練系統(tǒng)的標注模塊、組織模塊 和拆分模塊,與翻譯系統(tǒng)的標注模塊、組織模塊和拆分模塊相同。
【文檔編號】G06F17/28GK103577398SQ201310487641
【公開日】2014年2月12日 申請日期:2013年10月17日 優(yōu)先權日:2013年10月17日
【發(fā)明者】劉凱, 姜文斌, 呂雅娟, 劉群 申請人:中國科學院計算技術研究所