專利名稱:基于樹到樹翻譯模型的翻譯規(guī)則抽取方法和翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,更具體地,涉及一種語(yǔ)言翻譯規(guī)則抽取方法和翻 譯方法。
背景技術(shù):
基于句法的翻譯模型已經(jīng)逐漸成為統(tǒng)計(jì)機(jī)器翻譯的主流模型,根據(jù)是否在源語(yǔ) 言端和目標(biāo)語(yǔ)言端建立句法樹,基于句法的翻譯模型可以分為以下三類1)樹到串翻譯模 型,例如劉洋(Yang Liu)等人于2006年在第四十四屆計(jì)算語(yǔ)言學(xué)年會(huì)(ACL 2006)上所 公開的;2)串到樹翻譯模型,馬庫(kù)等人在2006年基于經(jīng)驗(yàn)主義方法的自然語(yǔ)言處理會(huì)議 (EMNLP 2006)上所公開的;3)樹到樹翻譯模型,例如艾斯勒等人于2003年在第四十一屆計(jì) 算語(yǔ)言學(xué)年會(huì)上所公開的?,F(xiàn)有的樹到樹的翻譯模型由于在源語(yǔ)言端和目標(biāo)語(yǔ)言端分別建立唯一的一棵句 法樹。句法樹的質(zhì)量很大程度上決定了最終翻譯的結(jié)果。當(dāng)句法分析不準(zhǔn)確時(shí),最優(yōu)句法 分析結(jié)果可能是錯(cuò)誤的,因此將對(duì)后面的解碼準(zhǔn)確率造成影響。而現(xiàn)有的句法分析技術(shù)準(zhǔn) 確率并不高,英語(yǔ)只能達(dá)到91 %,而漢語(yǔ)僅能達(dá)到85 %左右。另外,現(xiàn)有的樹到樹模型的翻譯規(guī)則都是從對(duì)齊的雙語(yǔ)句法樹中抽取出來(lái)的,其 中,對(duì)齊的雙語(yǔ)句法樹由一棵源語(yǔ)言句法樹和對(duì)應(yīng)的一棵目標(biāo)語(yǔ)言句法樹共同構(gòu)成。在這 種情況下,能抽取的規(guī)則數(shù)量十分有限,通常一對(duì)句法樹只能抽取出幾十條規(guī)則。所以,現(xiàn)有的基于樹到樹的翻譯模型的翻譯質(zhì)量不夠理想。
發(fā)明內(nèi)容
為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種翻譯質(zhì)量較高的基于樹到樹翻譯模型的翻 譯方法。為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種一種基于樹到樹翻譯模型 的翻譯規(guī)則抽取方法,包括下列步驟1)、分析訓(xùn)練語(yǔ)料中的源語(yǔ)言串和目標(biāo)語(yǔ)言串并輸出訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享 句法森林和訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林;2)、根據(jù)所述訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林和所述訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓 縮共享句法森林抽取翻譯規(guī)則。該翻譯規(guī)則抽取方法中,所述步驟2)進(jìn)一步包括獲取關(guān)于所述訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林中的每個(gè)節(jié)點(diǎn)的第一前沿樹 集合;獲取所述每個(gè)節(jié)點(diǎn)的所述訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林中的對(duì)應(yīng)節(jié)點(diǎn), 并獲取關(guān)于所述對(duì)應(yīng)節(jié)點(diǎn)的第二前沿樹集合,根據(jù)所述第一前沿樹集合和所述第二前沿樹 集合構(gòu)造前沿樹對(duì)集合;在所述前沿樹對(duì)集合中抽取最小前沿樹對(duì),并根據(jù)所述最小前沿樹對(duì)構(gòu)建翻譯規(guī)則。該翻譯規(guī)則抽取方法中,所述步驟2)包括將所述訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林和所述訓(xùn)練語(yǔ)料 的目標(biāo)語(yǔ)言壓縮共享句法森林進(jìn)行縮減,根據(jù)縮減后的訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森 林和訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林抽取翻譯規(guī)則。根據(jù)本發(fā)明的另一方面,還提供了一種根據(jù)翻譯規(guī)則抽取方法所抽取的翻譯規(guī)則 基于樹到樹翻譯模型的翻譯方法,包括下列步驟3)、分析測(cè)試語(yǔ)料中的待翻譯的句子生成測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林;4)、根據(jù)所述翻譯規(guī)則和所述測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林完成所述待翻 譯句子的翻譯。在該翻譯方法中,所述步驟4)包括對(duì)所述測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林進(jìn)行縮減,根據(jù)所 述翻譯規(guī)則和縮減后的所述測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林完成所述待翻譯句子的 翻譯。本發(fā)明的優(yōu)點(diǎn)在于,有效提高了句法分析準(zhǔn)確率;另外,還增加了可用的翻譯規(guī) 則,擴(kuò)大了搜索空間;從而有效提高了翻譯質(zhì)量。
圖1是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的基于樹到樹機(jī)器翻譯模型的翻譯方法的流 程圖;圖2是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的對(duì)齊的訓(xùn)練語(yǔ)料雙語(yǔ)壓縮共享句法森林示 意圖;圖3 (a)是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的前沿樹示意圖;圖3 (b)是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的最小前沿樹示意圖;圖3 (C)是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的前沿樹對(duì)示意圖;圖3(d)是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的最小前沿樹對(duì)示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,對(duì)根據(jù)本發(fā) 明一個(gè)實(shí)施例的基于樹到樹翻譯模型的翻譯規(guī)則抽取方法和翻譯方法進(jìn)一步詳細(xì)說(shuō)明。應(yīng) 當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。根據(jù)本發(fā)明的一個(gè)具體實(shí)施例,在樹到樹模型中引入了壓縮共享句法森林,其中 保存的并不是句法分析的一棵最優(yōu)句法樹,而是可能保存了多達(dá)上萬(wàn)棵句法樹,從而提高 了句法分析準(zhǔn)確率。雖然現(xiàn)有技術(shù)中已經(jīng)存在將壓縮共享句法森林應(yīng)用于樹到串的翻譯模 型的翻譯方法。但將壓縮共享句法森林引入樹到樹的翻譯模型,由于樹是一種復(fù)雜的結(jié)構(gòu), 而且壓縮共享森林存儲(chǔ)的不僅僅是一棵樹,而是包含了多棵句法樹,因此從源語(yǔ)言端和目 標(biāo)語(yǔ)言端的這兩個(gè)森林中抽取出理想的規(guī)則難度較大。圖1示出了根據(jù)本發(fā)明一個(gè)具體實(shí)施例的基于樹到樹機(jī)器翻譯模型的統(tǒng)計(jì)機(jī)器 翻譯方法的流程圖,如圖1所示,該方法包括以下步驟
步驟11),利用句法分析器分析訓(xùn)練語(yǔ)料中的源語(yǔ)言串和目標(biāo)語(yǔ)言串并輸出訓(xùn)練 語(yǔ)料的源語(yǔ)言壓縮共享句法森林和訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林,由這兩個(gè)壓縮 共享句法森林共同組成對(duì)齊的訓(xùn)練語(yǔ)料雙語(yǔ)壓縮共享句法森林。其中,壓縮是指采用超圖 的數(shù)據(jù)結(jié)構(gòu)可以將巨大的森林壓縮成一個(gè)簡(jiǎn)易的圖結(jié)構(gòu);共享是指多個(gè)樹節(jié)點(diǎn)可以共享 同一個(gè)子樹。句法分析的主要目的是從輸入的源語(yǔ)言串分析出與目標(biāo)語(yǔ)言串相應(yīng)的句法 樹。本領(lǐng)域普通技術(shù)人員可以理解,句法分析可采用如下多種短語(yǔ)樹句法分析器查尼亞 克句法分析器(Charniak parser)、比科爾句法分析器(Bikel Parser)、斯坦福句法分析器 (Stanford parser)、柯林斯句法分析器(Collins Parser)。句法分析器不僅要輸出一顆 最優(yōu)的句法分析樹,而且根據(jù)所分析的所有句法樹構(gòu)建并輸出訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享 句法森林和訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林。圖2示出了根據(jù)本發(fā)明一個(gè)具體實(shí)施 例的對(duì)齊的訓(xùn)練語(yǔ)料雙語(yǔ)壓縮共享句法森林示意圖,其中上部是訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共 享句法森林,下部是訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林。其中,每條超邊包括一個(gè)節(jié)點(diǎn) Head 和一個(gè)節(jié)點(diǎn)集合 Tails,如圖 2 所示,對(duì)于超邊 el,Head(el) = IP1,Tails (el) =NPB6 和 VP3。通常上述在訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林和訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共 享句法森林內(nèi)均含有大量概率很低的垃圾超邊和節(jié)點(diǎn),為加快搜索翻譯的速度,根據(jù)本發(fā) 明的優(yōu)選實(shí)施例,還包括步驟12)利用剪枝算法分別對(duì)在訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法 森林和訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林進(jìn)行縮減。具體縮減方法如下對(duì)于待縮減的壓縮共享句法森林中的每個(gè)節(jié)點(diǎn)V,計(jì)算維特比(Viterbi)向內(nèi)概 率負(fù)對(duì)數(shù)β (ν)、向外概率負(fù)對(duì)數(shù)α (ν);再對(duì)于每個(gè)句法超邊 依次計(jì)算參數(shù)S(ep) = a(Head(ep))+ ^ 々(ν,)-A(TOP) 其中β (TOP)為最優(yōu)句法樹概率之負(fù)對(duì)數(shù)值,如果參數(shù)δ (ep)小于預(yù)定的閾值t, 則保留超邊ep,否則刪除,其中優(yōu)選地3 < t < 15。最終將留下的超邊和與之相關(guān)的節(jié)點(diǎn) 組成縮減后的壓縮共享句法森林。步驟21),從生成的訓(xùn)練語(yǔ)料雙語(yǔ)壓縮共享句法森林中抽取翻譯規(guī)則。通??梢猿?取出上百甚至上千條規(guī)則。因此提供了豐富的規(guī)則用于翻譯。由這些翻譯規(guī)則構(gòu)成翻譯規(guī) 則的集合W。表1給了部分翻譯規(guī)則表1 翻譯規(guī)則表(1) IP (X1 :NPB, X2 :VP) — S (X1 :NP,X2 :VP)(2) NPB (X1 :NR) — NP (X1 :NNP)(3) NR (bushi) — NNP(Bush) (4) VP (X1 :PP, VPB (x2 :VV, AS (Ie),X3 :NPB)) — VP (x2 :VBD, NP (DT (a),X3 :NP),X1 PP)以翻譯規(guī)則(1)為例,翻譯規(guī)則Γι 為 IP (X1 =NPB X2 =VP) — S (X1 :NP, X2 =VP),其表 示代表源語(yǔ)言端的IP(NPB VP)子樹可以替換成目標(biāo)語(yǔ)言端的S(NP VP)子樹。步驟31)對(duì)于測(cè)試語(yǔ)料中的待翻譯的句子,重復(fù)步驟11)所述的方法,利用句法分 析器根據(jù)測(cè)試語(yǔ)料中的待翻譯的句子生成測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林。優(yōu)選地, 為加快搜索翻譯的速度,還對(duì)所生成的測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林進(jìn)行縮減。
步驟41),遍歷測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林,如果測(cè)試語(yǔ)料的源語(yǔ)言壓縮 共享句法森林已經(jīng)被縮減,則遍歷縮減后的測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林,從所抽 取的翻譯規(guī)則的集合W中搜索可用翻譯規(guī)則,最終生成待翻譯句子的翻譯森林。根據(jù)本發(fā) 明的具體實(shí)施例,該生成待翻譯句子的翻譯森林的過(guò)程具體如下遍歷測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林中的每個(gè)節(jié)點(diǎn)V,搜索每一個(gè)翻譯規(guī)則 ,如果LHS(r)和以ν為根節(jié)點(diǎn)的子樹片段完全匹配則生成與該節(jié)點(diǎn)ν對(duì)應(yīng)的翻譯超邊
e,其中LHS(r)表示規(guī)則r的左部,例如對(duì)于表1中的規(guī)則r1; LHS (巧)=IP (NPB VP);由測(cè) 試語(yǔ)料的源語(yǔ)言壓縮共享句法森林中的節(jié)點(diǎn)與翻譯超邊構(gòu)建待翻譯句子的翻譯森林,從而 在測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林上附加了翻譯規(guī)則,換句話說(shuō),為測(cè)試語(yǔ)料的源語(yǔ) 言壓縮共享句法森林的每一條超邊從規(guī)則表中尋找一條翻譯規(guī)則與其對(duì)應(yīng),如果規(guī)則表中 沒有找到對(duì)應(yīng)的翻譯規(guī)則,則構(gòu)造一條默認(rèn)的翻譯規(guī)則,即將測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享 句法森林的超邊作為翻譯規(guī)則。步驟42)遍歷待翻譯句子的翻譯森林,逐步構(gòu)造待翻譯句子的目標(biāo)語(yǔ)言端句法樹 并最終生成翻譯結(jié)果。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,該步驟過(guò)程如下按照后續(xù)遍歷順序,自 底向上對(duì)于測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享翻譯森林中的每個(gè)節(jié)點(diǎn)V,根據(jù)所有的Head(et)= ν的翻譯超邊et提取出節(jié)點(diǎn)ν對(duì)應(yīng)的翻譯規(guī)則,并在目標(biāo)語(yǔ)言端建立對(duì)應(yīng)的子樹結(jié)構(gòu),再按 照柱狀圖剪枝,去除概率較小的子樹結(jié)構(gòu)。最終搜索出目標(biāo)語(yǔ)言端一棵概率最大的待翻譯 句子的目標(biāo)語(yǔ)言端句法樹,進(jìn)而從待翻譯句子的目標(biāo)語(yǔ)言端句法樹中得到葉子節(jié)點(diǎn),即待 翻譯句子的翻譯結(jié)果。下面根據(jù)本發(fā)明的具體實(shí)施例,詳細(xì)說(shuō)明上述步驟21)的抽取翻譯規(guī)則的步驟。 為此首先對(duì)相關(guān)定義進(jìn)行說(shuō)明。節(jié)點(diǎn)的區(qū)間σ (V),表示該節(jié)點(diǎn)所覆蓋的源語(yǔ)言單詞的索引區(qū)間,圖2中的節(jié)點(diǎn) VPB5覆蓋了源語(yǔ)言串的三個(gè)單詞“jUXing Ie huitan”,所以其區(qū)間為σ (ν) = {4-6}。節(jié)點(diǎn)的目標(biāo)語(yǔ)言端區(qū)間δ (V),表示該節(jié)點(diǎn)覆蓋的源語(yǔ)言串對(duì)應(yīng)的目標(biāo)語(yǔ)言串的 索引區(qū)間,圖2中的節(jié)點(diǎn)VPB5對(duì)應(yīng)的目標(biāo)語(yǔ)言端語(yǔ)言串為“heldtalk”,所以其目標(biāo)語(yǔ)言端 區(qū)間為 Y (ν) = {2-4}。節(jié)點(diǎn)的補(bǔ)集區(qū)間δ (V),表示非該節(jié)點(diǎn)的祖先和后代的節(jié)點(diǎn)代表的目標(biāo)區(qū)間
δ (V)的合集,圖2中的非VPB5節(jié)點(diǎn)的祖先和后代節(jié)點(diǎn)集合為{NP2, NPB6, NR9, CC10, P11, PP4, NPB7,NR12},其對(duì)應(yīng)的目標(biāo)語(yǔ)言串為“Bush withSharon”,所以節(jié)點(diǎn)VPB5的補(bǔ)集區(qū)間為δ (ν) ={1,5-6},。根據(jù)
權(quán)利要求
一種基于樹到樹翻譯模型的翻譯規(guī)則抽取方法,包括下列步驟1)、分析訓(xùn)練語(yǔ)料中的源語(yǔ)言串和目標(biāo)語(yǔ)言串并輸出訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林和訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林;2)、根據(jù)所述訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林和所述訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林抽取翻譯規(guī)則。
2.根據(jù)權(quán)利要求1所述的翻譯規(guī)則抽取方法,其特征在于,所述步驟2)進(jìn)一步包括 獲取關(guān)于所述訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林中的每個(gè)節(jié)點(diǎn)的第一前沿樹集合;獲取所述每個(gè)節(jié)點(diǎn)的所述訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林中的對(duì)應(yīng)節(jié)點(diǎn),并獲 取關(guān)于所述對(duì)應(yīng)節(jié)點(diǎn)的第二前沿樹集合,根據(jù)所述第一前沿樹集合和所述第二前沿樹集合 構(gòu)造前沿樹對(duì)集合;在所述前沿樹對(duì)集合中抽取最小前沿樹對(duì),并根據(jù)所述最小前沿樹對(duì)構(gòu)建翻譯規(guī)則。
3.根據(jù)權(quán)利要求1或2所述的翻譯規(guī)則抽取方法,其特征在于,所述步驟2)包括將所述訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林和所述訓(xùn)練語(yǔ)料的目 標(biāo)語(yǔ)言壓縮共享句法森林進(jìn)行縮減,根據(jù)縮減后的訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林和 訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林抽取翻譯規(guī)則。
4.一種根據(jù)上述權(quán)利要求1至3任意一項(xiàng)所述的翻譯規(guī)則抽取方法所抽取的所述翻譯 規(guī)則基于樹到樹翻譯模型的翻譯方法,包括下列步驟3)、分析測(cè)試語(yǔ)料中的待翻譯的句子生成測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林;4)、根據(jù)所述翻譯規(guī)則和所述測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林完成所述待翻譯句 子的翻譯。
5.根據(jù)權(quán)利要求4所述的翻譯方法,其特征在于,所述步驟4)包括對(duì)所述測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林進(jìn)行縮減,根據(jù)所述翻 譯規(guī)則和縮減后的所述測(cè)試語(yǔ)料的源語(yǔ)言壓縮共享句法森林完成所述待翻譯句子的翻譯。
全文摘要
本發(fā)明提供一種基于樹到樹翻譯模型的翻譯規(guī)則抽取方法,包括下列步驟1)、分析訓(xùn)練語(yǔ)料中的源語(yǔ)言串和目標(biāo)語(yǔ)言串并輸出訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林和訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林;2)、根據(jù)所述訓(xùn)練語(yǔ)料的源語(yǔ)言壓縮共享句法森林和所述訓(xùn)練語(yǔ)料的目標(biāo)語(yǔ)言壓縮共享句法森林抽取翻譯規(guī)則。根據(jù)該翻譯規(guī)則進(jìn)行測(cè)試語(yǔ)料的翻譯,有效提高了翻譯質(zhì)量。
文檔編號(hào)G06F17/28GK101989257SQ20091009020
公開日2011年3月23日 申請(qǐng)日期2009年7月31日 優(yōu)先權(quán)日2009年7月31日
發(fā)明者劉洋, 劉群, 呂亞娟, 熊皓 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所