詞語對齊分?jǐn)?shù)算出裝置、詞語對齊裝置、以及計(jì)算機(jī)程序的制作方法
【專利摘要】本發(fā)明提供一種用于以高精度進(jìn)行詞語對齊的裝置。該裝置包括:接收對照翻譯句對和針對該對照翻譯句對的詞語對齊,以規(guī)定的順序依次選擇第1語言的句子的詞語fj的選擇單元;和針對第1語言的句子的所有詞語算出表示由對照翻譯句對的第2語言之中通過詞語對齊aj與詞語fj建立了對應(yīng)的詞語ea_{j}和詞語fj構(gòu)成的詞語對正確的可能性的分?jǐn)?shù)(102),基于該分?jǐn)?shù)算出詞語對齊aj的分?jǐn)?shù)的循環(huán)型神經(jīng)網(wǎng)絡(luò)(RNN)(100)。RNN(100)在算出詞語對(fj,ea_{j})的分?jǐn)?shù)時,通過循環(huán)連接(118),基于詞語對齊aj之中在詞語對(fj,ea_{j})的詞語fj之前通過選擇單元選擇出的詞語的對齊全體a1j?1算出詞語對(fj,ea_{j})的分?jǐn)?shù)(102)。
【專利說明】
詞語對齊分?jǐn)?shù)算出裝置、詞語對齊裝置、以及計(jì)算機(jī)程序
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及在對照翻譯句對內(nèi)解析各詞語的對應(yīng)關(guān)系(詞語對齊:Word Alignment)的詞語對齊裝置以及用于該詞語對齊裝置的詞語對齊分?jǐn)?shù)算出裝置。
【背景技術(shù)】
[0002] 詞語對齊為統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation:SMT)不可缺少的 重要處理之一。圖1中表示詞語對齊的例子。
[0003] 參照圖1,考慮日語句子和英語的對照翻譯句對20。對照翻譯句對20的各句子預(yù)先 按每個詞語被劃分。對照翻譯句對20包括日語句子30( "私I私I利用I料金I旮I払5 "" I "表 示詞語的劃分))和英語句子32("I pay usage fees.")。詞語對齊是以下處理:例如對構(gòu)成 日語句子30的各詞語被翻譯成英語句子32中的哪個詞語(或者詞語組)進(jìn)行推定,即對構(gòu)成 日語句子30的各詞語與英語句子32中的哪個詞語(或者詞語組)相對應(yīng)進(jìn)行推定。圖1中表 示了從日語向英語的詞語對齊,但也同樣可以進(jìn)行從英語向日語的詞語對齊。
[0004] 在SMT中,這種詞語對齊有非常重要的作用。SMT中,準(zhǔn)備包括大量上述那樣的對照 翻譯在內(nèi)的對照翻譯語料庫。針對各對照翻譯進(jìn)行詞語對齊?;谠撛~語對齊,通過統(tǒng)計(jì)上 的處理來創(chuàng)建翻譯模型。將該過程稱為翻譯模型的學(xué)習(xí)。簡單來說,翻譯模型是以概率的形 式來表示將一種語言的某個詞語翻譯成另一種語言的哪個詞語的模型。在SMT中,當(dāng)提供了 原語言的句子時,準(zhǔn)備大量翻譯目標(biāo)的語言(目標(biāo)語言)的句子的候補(bǔ),求出該原語言的句 子從目標(biāo)語言的各句子的候補(bǔ)中生成的概率,將目標(biāo)語言的句子之中該概率最高的句子推 定為針對原語言的句子的翻譯句子。在該過程中,使用上述翻譯模型。
[0005] 顯然,為了改善SMT的性能,需要提高翻譯模型的精度。為此,必須提高翻譯模型的 學(xué)習(xí)中所使用的對照翻譯語料庫的詞語對齊的精度。因此,為了改善SMT的性能,要求提高 對對照翻譯進(jìn)行詞語對齊的詞語對齊裝置的性能。
[0006] 作為廣泛使用的詞語對齊的方法,有IBM模型(參照后述的非專利文獻(xiàn)1)以及HMM 模型(參照非專利文獻(xiàn)2)。這些模型是假設(shè)詞語對齊根據(jù)某概率分布來生成,根據(jù)實(shí)際觀測 到的詞語對齊來推定(學(xué)習(xí))該概率分布的模型(生成模型)。若將原語言的句子設(shè)為fV = f\,...,fj、將目標(biāo)語言的句子設(shè)Se11 = ^, ..,ei,則原語言的句子fj按照詞語對齊aj根據(jù) 目標(biāo)語言的句子幻1來生成,其生成概率采用以下的式(1)來計(jì)算。式(1)中的各^是表示原 語言的詞語t與目標(biāo)語言的詞語e a」相對應(yīng)的隱變量。此外,在以下的文本中,采用下劃線 "表示對某下標(biāo)字符進(jìn)一步附加下標(biāo)字符的情況,用下劃線之后的"{}"表示下標(biāo)字符的 范圍。即,"ea_U}"之類的表現(xiàn)是表示對"e"添加的下標(biāo)字符在通常的表現(xiàn)下是"a/', "之類的表現(xiàn)是表示e的下標(biāo)字符為"之類的表現(xiàn)是表示e的下標(biāo)字符 是 aj-1〇
[0007] [數(shù)1]
[0008]
[0009] [數(shù) 2]
[0010]
[0011 ] 式⑵中,pa為對齊概率,Pt為詞匯翻譯概率。
[0012] 這些模型,對對照翻譯句對(f J,ei1),使用f orward-backward算法等來確定滿足 以下式(3)的最佳對齊、(記號"μ為本來應(yīng)在緊鄰之后的字符的正上方記載的記號。)。最 佳對齊、被稱作維特比對齊(Viterbi Alignment)。
[0013] 「撒 W
[0014]
[0015] 非專利文獻(xiàn)3中提出了以下對齊方法:即,將前饋型神經(jīng)網(wǎng)絡(luò)(feed forward neural networks(FFNN))的一種Context-Dependent Deep Neural Network for HMM應(yīng)用 于非專利文獻(xiàn)2的HMM模型,采用FFNN來計(jì)算與對齊概率相對應(yīng)的對齊分?jǐn)?shù)、與詞匯選擇概 率相對應(yīng)的詞匯分?jǐn)?shù)。即,針對對照翻譯句對(fI 1,ej)的對齊aj的分?jǐn)?shù)SNN(aJ I f J,e/)通過 以下的式(4)表示。
[0016] [數(shù) 4]
[0017]
[0018] 在非專利文獻(xiàn)3的方法中,由于所有詞語中的標(biāo)準(zhǔn)化的計(jì)算量變得龐大,因此使用 分?jǐn)?shù)來代替概率。在此,ta以及tt分別與式⑵的Pa以及Pt相對應(yīng)。Snn是對齊ai 1的分?jǐn)?shù),c (w) 表示詞語w的上下文。維特比對齊在該模型中也與HMM模型同樣地由forward-backward算法 來決定。
[0019] 圖3中表示用于計(jì)算式(4)中的詞匯翻譯分?jǐn)?shù)I 的神 經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)(詞匯翻譯模型)。圖3所示的神經(jīng)網(wǎng)絡(luò)60包括:輸入層(Lookup層)70,其 接收原語言的詞語f j-l、f j、f j+l、以及目標(biāo)語言的詞語63」」}-1、6£1」」}、6£1」」}+1,將這些詞語變換 為向量Z0;隱藏層72,其接收向量ZO并輸出通過式(5)得到的輸出向量Z 1;輸出層74,其接收 向量Z1通過式(6)來計(jì)算詞匯翻譯分?jǐn)?shù)76并輸出。各層分別具有權(quán)重矩陣L、{Η,Β Η}、以及{0, B〇}。在此說明隱藏層為1層的情況,但也可采用多層的隱藏層。
[0020] 權(quán)重矩陣L為embedding矩陣,管理各詞語的詞嵌入(word embedding)。所謂詞嵌 入是對詞語附加特征的低維的實(shí)向量,表示詞語的句法方面的、意義上的特性。如果將原語 言的詞語集合設(shè)為Vf,將目標(biāo)語言的詞語集合設(shè)為I,將詞嵌入的長度設(shè)為M,則權(quán)重矩陣L 為MX ( I Vf I + I Ve31 )矩陣。其中,在Vf和Ve3中,分別追加表示未知詞語的<unk>和表示詞語 "null" 的<null>〇
[0021] 該詞匯翻譯模型,與作為計(jì)算對象的原語言的詞語t和目標(biāo)語言的詞語ea_W-起 來受理它們的上下文詞語而作為輸入。所謂上下文詞語是在預(yù)定尺寸的窗口內(nèi)存在的詞 語。在此,如圖3所示那樣假設(shè)窗口寬度為3的情況。輸入層70包括原語言的輸入部80和目標(biāo) 語言的輸入部82。原語言的輸入部80與作為計(jì)算對象的原語言的詞語t 一起受理其前后的 2個詞語fj-i以及fj+i,從embedding矩陣(L)中找到對應(yīng)的列,輸出詞嵌入向量之中原語言部 分。目標(biāo)語言的輸入部82與作為計(jì)算對象的目標(biāo)語言的詞語ea_W-起受理其前后的兩個詞 語ejB以及ea_W+1,從embedding矩陣(L)中找到對應(yīng)的列,輸出詞嵌入向量之中目標(biāo)語言 的部分。原語言的輸入部8 O的輸出以及目標(biāo)語言的輸入部8 2的輸出被連結(jié)而形成實(shí)向量 zo,并被提供給隱藏層72的輸入。接下來,隱藏層72捕捉實(shí)向量ZO的非線性的特征并輸出向 量 21。最后,輸出層74接受隱藏層72輸出的向量Z1,計(jì)算以下的式子所表示的詞匯翻譯分?jǐn)?shù) 76并輸出。
[0022] [數(shù)5]
[0023]
[0024]隱藏層72以及輸出層74所進(jìn)行的具體的計(jì)算如下所示。
[0025] [數(shù)6]
[0026] zi = f (HXz〇+Bh) j (5)
[0027] tt = 〇 X ζι+Β〇 (6)
[0028] 在此,H、Bh、0、B〇 分別為 Iz1I X |zQ|、Iz1I X1、1X Iz1I、1X1矩陣。f(x)為非線性激 活函數(shù),在此采用htanh(x) Atanh(X)為如下那樣的函數(shù)。
[0029] [數(shù)7]
[0030]
[0031] 計(jì)算對齊分?jǐn)?shù)ta(aj_aj-i I c(ea」j!-i))的對齊模型也能與此同樣地構(gòu)成。
[0032] 各模型的學(xué)習(xí)中,按照使下式(7)的排序損失最小化的方式,通過隨機(jī)梯度下降法 (Stochastic Gradient Descent :SGD)來對各層的權(quán)重矩陣進(jìn)行學(xué)習(xí)。各權(quán)重的梯度采用 反向傳播來計(jì)算。
[0033] [數(shù)8]
[0034]
[0035] 在此,Θ表示最優(yōu)化的參數(shù)(權(quán)重矩陣的權(quán)重),T表示學(xué)習(xí)數(shù)據(jù),s θ表示參數(shù)Θ的模 型下的aj的分?jǐn)?shù)(參照式(4)),a+表示正解對齊,表示在參數(shù)Θ的模型下分?jǐn)?shù)最高的非正 解對齊。
[0036]現(xiàn)有技術(shù)文獻(xiàn) [0037]非專利文獻(xiàn)
[0038] 非專利文獻(xiàn)I: Peter F · Brown,Stephen A · Del la Pietra,Vincent J · Del Ia Pietra,and Robert L.Mercer .1993. The Mathematics of Statistical Machine TransIation parameter Estimation.Computational Linguistics,19(2):263-311·
[0039] 非專利文南犬2:Stephan Vogel,Hermann Ney,and Christoph Tillmann.1996.Hmm-based Word Alignment in Statistical Translation . In Proceedings of the 16th International Conference on Computational Linguistics,pages 836-841.
[0040] 非專利文獻(xiàn)3 : Nan Yang,Shu j ie Liu,Mu Li,Ming Zhou,and Nenghai Yu.2013.Word Alignment Modeling with Context Dependent Deep Neural Network.In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics(Volume I:Long Papers),pages 166-175.
【發(fā)明內(nèi)容】
[0041] 發(fā)明所要解決的課題
[0042] 在式(2)以及式(4)的任一個中,各詞語的對齊^都依賴于剛剛之前的對齊a^。如 圖2所示那樣,進(jìn)行了日語句子30的開頭的詞語"私"的對齊40之后,進(jìn)行接下來的詞語"私" 的對齊42時,參照對齊40的結(jié)果。即,在求出最佳對齊& a時,各詞語的對齊基于剛剛之前的 對齊關(guān)系(作為線索)來決定。
[0043] 但是,僅剛剛之前的對齊關(guān)系作為對齊的線索是否充分并不清楚。為了提高詞語 對齊的精度,也考慮其它的方法,如果有精度更高的方法則需要確定該方法。
[0044] 因此本發(fā)明的一個目的在于,提供一種進(jìn)行精度比現(xiàn)有方法高的詞語對齊的詞語 對齊裝置及用于該詞語對齊裝置的詞語對齊分?jǐn)?shù)算出裝置、以及用于這些裝置的計(jì)算機(jī)程 序。
[0045] 用于解決課題的手段
[0046] 本發(fā)明的第1方面相關(guān)的詞語對齊分?jǐn)?shù)算出裝置算出第1語言和第2語言的對照翻 譯句對的詞語對齊的分?jǐn)?shù)。該裝置包括:選擇單元,其接收對照翻譯句對和針對該對照翻譯 句對的詞語對齊,按照規(guī)定的順序依次選擇對照翻譯句對的第1語言的句子的詞語;和分?jǐn)?shù) 算出單元,其針對對照翻譯句對的第1語言的句子的所有的詞語,算出表示由通過選擇單元 選擇出的詞語和通過詞語對齊與該詞語建立了對應(yīng)的第2語言的詞語構(gòu)成的詞語對為正確 的詞語對的可能性的分?jǐn)?shù),基于該分?jǐn)?shù)算出詞語對齊的分?jǐn)?shù)。分?jǐn)?shù)算出單元在算出某詞語 對的分?jǐn)?shù)時,基于在構(gòu)成該詞語對的第1語言的詞語之前通過選擇單元選擇出的詞語的對 齊的全體,算出該某詞語對的分?jǐn)?shù)。
[0047] 優(yōu)選,選擇單元包括在對照翻譯句對內(nèi)從第1語言的句子的開頭起依次選擇第1語 言的句子的詞語的單元。
[0048] 更優(yōu)選,分?jǐn)?shù)算出單元包括:第1算出單元,其算出表示由通過選擇單元選擇出的 詞語和對照翻譯句對的第2語言的句子之中通過詞語對齊與該詞語建立了對應(yīng)的詞語構(gòu)成 的詞語對為正確的詞語對的可能性的分?jǐn)?shù);和第2算出單元,其基于針對對照翻譯句對的第 1語言的句子的所有詞語通過第1分?jǐn)?shù)算出單元算出的分?jǐn)?shù),算出詞語對齊的分?jǐn)?shù)。
[0049] 進(jìn)而優(yōu)選,第2算出單元包括通過將針對對照翻譯句對的第1語言的句子的所有詞 語通過第1算出單元算出的分?jǐn)?shù)彼此相乘,從而算出詞語對齊的分?jǐn)?shù)的單元。
[0050] 分?jǐn)?shù)算出單元也可包括:循環(huán)型的神經(jīng)網(wǎng)絡(luò),其具有第1輸入和第2輸入,其中,該 第1輸入接收通過選擇單元選擇出的詞語,該第2輸入接收通過詞語對齊與該詞語建立了對 應(yīng)的第2語言的詞語;和輸入控制單元,其將通過選擇單元選擇出的詞語和通過詞語對齊與 該詞語建立了對應(yīng)的詞語分別提供給第1輸入以及第2輸入。循環(huán)型的神經(jīng)網(wǎng)絡(luò)包括:輸入 層,其具有第1輸入以及第2輸入,從分別提供給第1輸入以及第2輸入的詞語中算出詞嵌入 向量并輸出;隱藏層,其接收輸入層的輸出,通過預(yù)先決定的非線性運(yùn)算來生成表示來自輸 入層的兩個輸出的關(guān)系的向量;和輸出層,其基于隱藏層的輸出來算出分?jǐn)?shù)并輸出。在將接 下來的詞語對作為輸入而提供給詞語對齊分?jǐn)?shù)算出裝置時,隱藏層的輸出被作為輸入而提 供給隱藏層。
[0051] 本發(fā)明的第2方面相關(guān)的詞語對齊裝置為對第1語言和第2語言的對照翻譯句對的 詞語對齊進(jìn)行推定的詞語對齊裝置。該裝置包括:上述任一個詞語對齊分?jǐn)?shù)算出裝置;詞語 對齊候補(bǔ)生成單元,其對對照翻譯句對生成多個詞語對齊候補(bǔ);算出單元,其針對通過詞語 對齊候補(bǔ)生成單元而生成的多個詞語對齊候補(bǔ)的每一個詞語對齊候補(bǔ),使用詞語對齊分?jǐn)?shù) 算出裝置來算出針對對照翻譯句對的詞語對齊分?jǐn)?shù);和詞語對齊決定單元,其將與通過算 出單元對多個詞語對齊候補(bǔ)算出的詞語對齊分?jǐn)?shù)之中最高的分?jǐn)?shù)對應(yīng)的詞語對齊候補(bǔ)決 定為對照翻譯句對的詞語對齊并輸出。
[0052] 本發(fā)明的第3方面相關(guān)的計(jì)算機(jī)程序,如果通過計(jì)算機(jī)被執(zhí)行,則使該計(jì)算機(jī)作為 上述任一個裝置的各單元起作用。
【附圖說明】
[0053]圖1為說明詞語對齊的示意圖。
[0054]圖2為說明現(xiàn)有的詞語對齊的方法的示意圖。
[0055] 圖3為示意地表示實(shí)現(xiàn)基于非專利文獻(xiàn)3的詞匯翻譯模型的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)的圖。
[0056] 圖4為表示本發(fā)明的1實(shí)施方式中的基于RNN的詞語對齊模型的結(jié)構(gòu)的示意圖。
[0057] 圖5為表示用于使用對照翻譯語料庫來進(jìn)行圖4所示的詞語對齊模型的學(xué)習(xí)的計(jì) 算機(jī)程序的控制結(jié)構(gòu)的流程圖。
[0058] 圖6為表示使用圖4所示的詞語對齊模型來進(jìn)行語料庫中的對照翻譯的詞語對齊 的計(jì)算機(jī)程序的控制結(jié)構(gòu)的流程圖。
[0059] 圖7為表示用于使用對照翻譯語料庫來進(jìn)行圖4所示的詞語對齊模型的單方向的 學(xué)習(xí)的計(jì)算機(jī)程序的控制結(jié)構(gòu)的流程圖。
[0060] 圖8為表示用于實(shí)驗(yàn)的數(shù)據(jù)組的大小的表格形式的圖。
[0061]圖9為以表格形式來表示本發(fā)明的1實(shí)施方式的詞語對齊性能的圖。
[0062]圖10為以表格形式來表示使用本發(fā)明的1實(shí)施方式的詞語對齊結(jié)果進(jìn)行了學(xué)習(xí)的 統(tǒng)計(jì)機(jī)器翻譯裝置的翻譯性能的圖。
[0063]圖11為表不詞語對齊的例子的圖。
[0064]圖12為表不詞語對齊的另一例子的圖。
[0065]圖13為以表格形式來表示相對于通過各種大小的學(xué)習(xí)數(shù)據(jù)進(jìn)行了學(xué)習(xí)時的BTEC 語料庫的詞語對齊性能的圖。
[0066] 圖14為表示實(shí)現(xiàn)本發(fā)明的1實(shí)施方式相關(guān)的詞語對齊裝置的計(jì)算機(jī)的外觀的圖。
[0067] 圖15為表示圖14所示的計(jì)算機(jī)的內(nèi)部結(jié)構(gòu)的框圖。
【具體實(shí)施方式】
[0068] 在以下的說明以及附圖中,對相同的部件賦予相同的參照編號。因此,不重復(fù)針對 它們的詳細(xì)說明。
[0069] [基本思路]
[0070] 本實(shí)施方式中,求取最佳對齊、時,各詞語的對齊基于從句子開頭到前一個對齊 為止的所有的對齊關(guān)系來決定。例如,如下式(8)那樣通過依賴于以前所有對齊關(guān)系的分?jǐn)?shù) 來求得對齊系列a^ = ai,. . .,aj的分?jǐn)?shù)。分?jǐn)?shù)也可為概率。
[0071] [數(shù) 9]
[0072]
[0073][第1實(shí)施方式]
[0074] 因此,在本實(shí)施方式中,采用基于RNN(Recurrent Neural Network)的對齊模型。 該模型使用RNN并使用式(8)來計(jì)算對齊aj的分?jǐn)?shù)SNN。根據(jù)式(8),第j個對齊^的預(yù)測依賴 于^之前所有的對齊a廣、在該例子中,需要注意與現(xiàn)有的FFNN型的情況同樣地,不是概率 而是采用分?jǐn)?shù)這一點(diǎn)。
[0075]圖4中表示基于該RNN的模型100的結(jié)構(gòu)。參照圖4,該模型100包括輸入層(Lookup 層)11〇、隱藏層112和輸出層114。這些層分別具有權(quán)重矩陣1^、{護(hù),(1,8(111}以及{0,8〇}。隱藏層 112的矩陣(Hd,Rd,BdH)依賴于對齊。在此,d表示從對齊a」-i到對齊aj的跳躍距離:d = aj-aj-u 此外,在后述的實(shí)驗(yàn)中,跳躍距離為8以上的情況以及為-8以下的情況分別集中設(shè)為"多8" 距離以及-8"距離。即,隱藏層112具有權(quán)重矩陣·
[0076] 參照圖4,輸入層110包括原語言的輸入部130和目標(biāo)語言的輸入部132。原語言的 輸入部130受理作為計(jì)算對象的原語言的詞語fj,從embedding矩陣(L)中找到對應(yīng)的列,輸 出詞嵌入向量之中原語言部分。目標(biāo)語言的輸入部132受理作為計(jì)算對象的目標(biāo)語言的詞 語e a_W,從embedding矩陣(L)中找到對應(yīng)的列,輸出詞嵌入向量之中目標(biāo)語言的部分。原語 言的輸入部130的輸出以及目標(biāo)語言的輸入部132的輸出被連結(jié)而形成實(shí)向量X j,并被提供 給隱藏層112的輸入。隱藏層112的上一次的輸出被暫時存儲,通過循環(huán)連接118而作為上一 次的輸出向量yH被提供給隱藏層112的輸入。接下來,隱藏層112捕捉實(shí)向量^以及輸出向 量y j -1的非線性的特征并輸出向量y j。該向量被暫時存儲,在原語言的接下來的詞語f j+1的 處理時經(jīng)由循環(huán)連接118被提供給隱藏層112的輸入。此外,在j = 0時,向量yj-i全部被初始 化為0。在隱藏層112中的計(jì)算中,需要注意,使用了依賴于特定的跳躍距離d的權(quán)重矩陣 {H d,Rd,BdH}。最后,輸出層114接受隱藏層112輸出的向量計(jì)算并輸出由下式表示的分?jǐn)?shù) 102,即
[0077] [數(shù) 10]
[0078]
[0079] 接收了隱藏層112輸出的向量yj的輸出層114響應(yīng)于向量yj而通過式(10)算出對齊 aj的分?jǐn)?shù)102(tRNN)并輸出?,F(xiàn)有的FFNN模型(圖3)由詞匯翻譯分?jǐn)?shù)和對齊分?jǐn)?shù)這兩個要素 構(gòu)成,但需要注意本實(shí)施方式的基于RNN的模型僅輸出一個分?jǐn)?shù)102這一點(diǎn)。
[0080] 該模型的隱藏層112以及輸出層114的計(jì)算通過以下式子進(jìn)行。
[0081 ][數(shù)11]
[0082]
(9)
[0083] tRNN = OXyj+Bo (10)
[0084] 其中,Hd、Rd、BdH、(m&Bc^1_|yj|x| Xj|、|yj|x|yj-1|、|yj|Xl、lX|y j|、W&l \1矩陣。在此,注意^| = ^-1|<^&)為非線性激活函數(shù),在本實(shí)施方式中為1^111^)。 [0085] 在本實(shí)施方式中,維特比對齊通過forward-backward算法決定,但嚴(yán)格來說不能 使用基于動態(tài)規(guī)劃的f orward-backward算法。這是因?yàn)獒槍 j的對齊的歷史記錄長的緣 故。因此,在此,通過啟發(fā)式集束搜索近似地算出維特比對齊。具體來說,在forward算法時, 針對各t,僅保持預(yù)先指定的集束寬度量的狀態(tài),除此之外的部分被舍棄。
[0086] 如上那樣,基于RNN的模型具有被循環(huán)連接的隱藏層。通過該循環(huán)連接,利用隱藏 層112能將到此為止的對齊的歷史記錄緊湊地編碼來進(jìn)行傳播。因此,通過按照該隱藏層 112的設(shè)定來求得分?jǐn)?shù),從而能夠計(jì)算考慮了以前的全體對齊關(guān)系的分?jǐn)?shù)。
[0087] 〈學(xué)習(xí)〉
[0088] 學(xué)習(xí)中,各層的權(quán)重矩陣的最優(yōu)化通過批大?。╞atch sise)D的Mini-batch SGD 來進(jìn)行。該方法與單純的SGD (D = I)相比,收斂快速且穩(wěn)定。梯度通過沿時間反向傳播(Back propagation through time:BPTT)算法進(jìn)行計(jì)算。BPTT中,將網(wǎng)絡(luò)在時間(j)方向上展開, 按每個時間步驟計(jì)算梯度。進(jìn)而通過在目標(biāo)函數(shù)中添加12標(biāo)準(zhǔn)化項(xiàng),從而防止模型的過學(xué) 習(xí)。
[0089]基于RNN的模型與基于FFNN的模型同樣地能夠進(jìn)行基于有監(jiān)督學(xué)習(xí)的學(xué)習(xí)。此時, 學(xué)習(xí)基于通過式(7)定義的排序損失來進(jìn)行。此外,除了該學(xué)習(xí)方法以外,通過組入取得對 齊的兩個方向的匹配性的制約,或進(jìn)行無監(jiān)督學(xué)習(xí),從而能夠進(jìn)一步改善性能。在有監(jiān)督學(xué) 習(xí)中,需要訓(xùn)練數(shù)據(jù)(理想的對齊)。為了解決這種問題,在本實(shí)施方式中,使用從無標(biāo)簽的 學(xué)習(xí)數(shù)據(jù)中進(jìn)行學(xué)習(xí)的、采用了 NCE(Noise-ContrastiveEstimation)的無監(jiān)督學(xué)習(xí)。 [0090]〈無監(jiān)督學(xué)習(xí)〉
[0091 ] Dyer等人提出了基于contrastive estimation(CE)的無監(jiān)督學(xué)習(xí)的對齊模型 (Chris Dyer,Jonathan Clark,Alon Lavie,and Noah A.Smith·2011.Unsupervised Word Alignment with Arbitrary Features. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguisties:Human Language Technologies Volume I ,pages 409-419.) XE針對被觀測的數(shù)據(jù),將其周邊的數(shù)據(jù)看作疑似的負(fù)樣本,對 識別觀測數(shù)據(jù)和其周邊數(shù)據(jù)的模型進(jìn)行學(xué)習(xí)。Dyer等人將針對提供為學(xué)習(xí)數(shù)據(jù)T的對照翻 譯句子而考慮的盡可能的詞語對齊看作觀測數(shù)據(jù),將翻譯的整個搜索空間Ω看作其周邊數(shù) 據(jù)。
[0092] 本實(shí)施方式中將該想法導(dǎo)入到帶裕量的排序損失中。
[0093] [數(shù) I2]
[0094]
[0095] 在此,Φ指給出了(f,e)時可能的所有的對齊的集合,E<D[se]表示Φ上的分?jǐn)?shù)se的 期待值,e+表示學(xué)習(xí)數(shù)據(jù)中的目標(biāo)語言的句子,eT表示疑似的目標(biāo)語言的句子。期待值的第1 項(xiàng)針對觀測數(shù)據(jù),第2項(xiàng)涉及周邊數(shù)據(jù)。
[0096] 針對整個搜索空間Ω的計(jì)算量變得龐大。為了削減計(jì)算量而采用了NCE JCE將從 整個搜索空間Ω中隨機(jī)選擇出的采樣句子設(shè)為e-。此外,通過集束寬度W的集束搜索來算出 期待值,通過舍棄分?jǐn)?shù)低的對齊來進(jìn)一步削減計(jì)算量。而且,將上述式(11)變形為適于在線 (on line)處理的形式。
[0097] [數(shù) 13]
[0098]
[0099]其中,e+表示在學(xué)習(xí)數(shù)據(jù)中成為f+的對照翻譯的目標(biāo)語言的句子,即(f +,e+)eT,eT 表示通過隨機(jī)采樣生成的、長度為I e+Ι的疑似的目標(biāo)語言的句子,N表示針對f+生成的疑似 的目標(biāo)語言的句子的數(shù)目。GEN表示可能的所有的對齊的集合Φ的、通過集束搜索而生成的 子集。
[0100] 在生成eT的單純的方法中,從目標(biāo)語言的詞語集合Ve3中隨機(jī)地采樣第|e+1次的語 言的詞語,通過排列這些詞語來生成e'為了通過模型的學(xué)習(xí)而生成有效的負(fù)樣本,從在原 語言的詞語Aef +和學(xué)習(xí)數(shù)據(jù)的對照翻譯句子內(nèi)同時出現(xiàn)的目標(biāo)語言的詞語之內(nèi)、判定為 在組入了 IOprior的IBM模型1中具有比閾值C大的概率的詞語(翻譯候補(bǔ)的詞語)的詞語集 合中進(jìn)行采樣。由于組入了 IOpr ior的IBM模型1與標(biāo)準(zhǔn)的IBM模型1相比生成更松散的對齊, 因此在削減翻譯候補(bǔ)的數(shù)目這一點(diǎn)上適合。
[0101] 〈協(xié)議制約〉
[0102] 基于FFNN的模型、基于RNN的模型都將HMM對齊模型作為基礎(chǔ),因此為非對稱。即, 在從目標(biāo)語言側(cè)觀察時,能表示1對多的對齊。這種非對稱模型的學(xué)習(xí)通常在兩個對齊方向 上進(jìn)行。但是,關(guān)于具有這種方向性的模型,已知如果進(jìn)行兩者一致那樣的學(xué)習(xí)則對齊性能 會提高。將這種制約稱作協(xié)議制約。以下,說明對上述模型加上協(xié)議制約來進(jìn)行學(xué)習(xí)的方 法。
[0103] 具體來說,協(xié)議制約加上使雙方向上的詞嵌入一致之類的條件。在本實(shí)施方式中, 針對雙方向的模型,按照以下所示那樣的導(dǎo)入了表現(xiàn)詞嵌入的差異的懲罰項(xiàng)的目標(biāo)函數(shù)來 進(jìn)行學(xué)習(xí)。
[0104] [數(shù) 14]
[0105]
[0106]
[0107]其中,0FE(0EF)表示從原語言向目標(biāo)語言(從目標(biāo)語言向原語言)的對齊模型中的 各層的權(quán)重,θ?表示輸入層(Lookup層)即詞嵌入的權(quán)重,α表示對協(xié)議制約的強(qiáng)度進(jìn)行控制 的參數(shù)。"Μ θ I |"表示范數(shù)(norm)。在后述的實(shí)驗(yàn)中,使用了2-norm。式(13)以及式(14)均能 利用于有監(jiān)督學(xué)習(xí)以及無監(jiān)督學(xué)習(xí)這兩者。也可分別將式(7)以及式(12)代入到式(13)、式 (14)的Ioss(Q)中。
[0108]參照圖5,實(shí)現(xiàn)本實(shí)施方式中的學(xué)習(xí)的程序具有以下那樣的控制結(jié)構(gòu)。此外,如后 述那樣與本實(shí)施方式相關(guān)的詞語對齊模型學(xué)習(xí)裝置、以及詞語對齊裝置一般實(shí)際上通過計(jì) 算機(jī)硬件和由該計(jì)算機(jī)硬件執(zhí)行的計(jì)算機(jī)程序來實(shí)現(xiàn)。但是,這些裝置也都可以通過專用 的硬件來實(shí)現(xiàn),還都可以通過可編程邏輯器件來實(shí)現(xiàn)。
[0109] 該程序首先讀出預(yù)先記入了參數(shù)的設(shè)定文件,設(shè)定批大小0、1^、〇(步驟150)。 接下來,接收G1feJ1EF和表示最大反復(fù)次數(shù)的常數(shù)MaxIter的輸入,同時讀入學(xué)習(xí)數(shù)據(jù)T和 IBMl (步驟152)。在此,IBMl是針對原語言以及目標(biāo)語言的各詞語,將利用組入了 IOprior的 IBM模型1而找到的翻譯候補(bǔ)的詞語進(jìn)行排列后得到的列表。該程序接著上述步驟還包括: 對滿足KtSMaxIter的所有t反復(fù)以下處理的步驟154;和輸出在步驟154完成時得到的值
并結(jié)束處理的步驟156。
[0110]步驟154中對各t反復(fù)的處理包括:從學(xué)習(xí)數(shù)據(jù)T中采樣D個對照翻譯句對(f+,e+)D 的步驟170;基于利用組入了 IOprior的IBM模型1而找到的f+中的各詞語的翻譯候補(bǔ) (IBMl),對各f+生成N個疑似的負(fù)樣本的步驟172;和通過同樣的處理,基于e +中的各詞語的 翻譯候補(bǔ),對各e+生成N個疑似的負(fù)樣本的步驟174。進(jìn)而,通過步驟176以及178,遵從上述 的目標(biāo)函數(shù)來更新神經(jīng)網(wǎng)絡(luò)的各層的權(quán)重。S tEF以及0V分別被反復(fù)同時更新,在更新0^和 QtEF時,為了分別使詞嵌入相互相符(一致)而使用Q 1^1EF和Q1^1FE的值。
[0111] 圖6中表示使用基于該RNN的模型來進(jìn)行對照翻譯語料庫的詞語對齊的計(jì)算機(jī)程 序的控制結(jié)構(gòu)。由此,例如能夠?qū)y(tǒng)計(jì)機(jī)器翻譯裝置的學(xué)習(xí)所使用的學(xué)習(xí)數(shù)據(jù)(對照翻譯語 料庫)賦予詞語對齊。參照圖6,該程序包括:讀出基于RNN的模型的學(xué)習(xí)完成參數(shù),對RNN進(jìn) 行初始化的步驟190;打開對照翻譯語料庫的步驟192;對所有的對照翻譯WAe 11)執(zhí)行詞 語對齊的步驟194;和通過步驟194對所有的對照翻譯關(guān)閉詞語對齊結(jié)束后的學(xué)習(xí)數(shù)據(jù)文件 并結(jié)束處理的步驟196。
[0112] 步驟194包括:對針對處理中的對照翻譯(fAei1)而考慮的所有的對齊(a/,k)(k =1~K)算出后述的分?jǐn)?shù)Sk并存儲的步驟200;在所有的對齊Ca 1 ^.) (k=l~K)之中選擇通 過步驟200存儲的分?jǐn)?shù)Sk成為最大的對齊作為針對處理中的對照翻譯的對齊,對對照翻譯 附加標(biāo)簽來更新學(xué)習(xí)數(shù)據(jù)的步驟202。
[0113] 步驟200包括:將分?jǐn)?shù)Sk初始化為1的步驟210;在以變量j = 1~J的順序依次變化 來選擇原語言的詞語t的同時,對于各j,針對詞語t和通過對齊W與該詞語t對齊的詞語 e a_W,考慮到此為止所得到的所有對齊結(jié)果(a廣0來更新分?jǐn)?shù)sk,算出最終的分?jǐn)?shù)Sk的步驟 212;和將在步驟212中算出的分?jǐn)?shù)Sk作為針對第k個對齊的分?jǐn)?shù)進(jìn)行存儲的步驟214。
[0114] 步驟212包括:算出分?jǐn)?shù)4順(&士1>1山而」」})的步驟220;和對分?jǐn)?shù)81 {乘以分?jǐn)?shù) tRNN來更新分?jǐn)?shù)Sk的步驟222。
[0115] [第2實(shí)施方式]
[0116] 第1實(shí)施方式為對基于RNN的模型加上雙方向的協(xié)議制約的實(shí)施方式。但是本發(fā)明 并不限于加上了這種協(xié)議制約的情況。也可采用沒有協(xié)議制約的一個方向的RNN模型。
[0117] 圖7中表示實(shí)現(xiàn)在該第2實(shí)施方式中使用的模型的學(xué)習(xí)的計(jì)算機(jī)程序的控制結(jié)構(gòu)。 圖7中所示的程序包括步驟240以及242來代替圖5所示的步驟154以及步驟156。步驟240實(shí) 質(zhì)上是從圖5的步驟154中去除步驟174以及步驟178,只計(jì)算兩個變量之中的一個變量。步 驟242與步驟156的不同之處在于,只輸出在圖5的步驟156中輸出的2個變量之中在步驟240 中計(jì)算的一個變量的值。
[0118] 圖5中的步驟176以及178分別將式(13)、式(14)作為目標(biāo)函數(shù)來更新各權(quán)重,相對 于此,在圖7的步驟176中,在將式(7)或者(12)設(shè)為目標(biāo)函數(shù)這一點(diǎn)上不同。圖7中,其他各 個步驟中進(jìn)行的處理分別與采用圖5中所示的步驟來執(zhí)行的處理相同。
[0119] [實(shí)驗(yàn)]
[0120] 為了研究上述實(shí)施方式中記載的詞語對齊方法的性能而進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)中,進(jìn) 行了語料庫BTEC(Toshiyuki Takezawa,Eiichiro Sumita,Fumiaki Sugaya,Hirofumi Yamamoto,and Seiichi Yamamoto.2002.Toward a Broad-coverage Bilingual Corpus for Speech Translation of Travel Conversations in the Real World. In Proceedings of the 3rd International Conference on Language Resources and Evaluation,page s 147-152.)中的日語和英語的詞語對齊、和200 3NAACL公共任務(wù)(Rada Mihalcea and Ted Pedersen.2003.An Evaluation Exercise for Word Alignment. In Proceedings of the HLT-NAACL 2003 Workshop on Building and Using Parallel Texts:Data Driven Machine Translation and Beyond,pages 1-10·)中米用的Hansards 數(shù)據(jù)組(Hansards)中的法語和英語的對齊。進(jìn)而,也針對FBIS語料庫中的從中文向英語的 翻譯任務(wù)、IWSLT2007中的從日語向英語的翻譯任務(wù)、以及NTCIR日語-英語專利翻譯任務(wù), 評價了其翻譯性能。
[0121] 圖8中采用表格形式表示所使用的數(shù)據(jù)組的大小。針對BTEC以及Hansards,由于通 過預(yù)備實(shí)驗(yàn)設(shè)定完成了用于對齊任務(wù)的超參數(shù)(hyper parameter),因此不采用開發(fā)組。 BTEC數(shù)據(jù)是IWSLT的學(xué)習(xí)數(shù)據(jù)中的最初的9,960個對照翻譯句對,通過Goh等人(Choo i-Ling Goh,Taro ffatanabe,Hirofumi Yamamoto,and Eiichiro Sumita.2010.Constraining a Generative Word Alignment Model with Discriminative Output.IEICE Transactions,93-D(7) :1976-1983.)附加了詞語對齊。將該數(shù)據(jù)分割為兩個。是由開頭的 9000個句對構(gòu)成的學(xué)習(xí)數(shù)據(jù)、和由最后的960個句對構(gòu)成的測試數(shù)據(jù)。針對BTEC的所有數(shù)據(jù) 進(jìn)行了詞語對齊,但Hansards中的學(xué)習(xí)數(shù)據(jù)沒有進(jìn)行標(biāo)簽附加。針對FBIS將NIST02評價數(shù) 據(jù)用作開發(fā)數(shù)據(jù),將NIST03以及04的評價數(shù)據(jù)用作測試數(shù)據(jù)。
[0122] 〈比較對象〉
[0123] 針對與上述實(shí)施方式相關(guān)的基于RNN的對齊模型,與兩個基準(zhǔn)模型進(jìn)行了對比。第 1為IBM模型4,第2為具有一個隱藏層的基于FFNN的模型。IBM模型4是利用由Och以及Ney (Franz Josef Och and Hermann Ney.2003.A Systematic Comparison of Various Statistical Alignment Models.Computational Linguistics,29:19-51 ·)表不的模型序 列(15H53545:采用IBM模型I反復(fù)5次,此后采用HMM模型反復(fù)5次、...)進(jìn)行了學(xué)習(xí)后的模型, 這是針對GIZA++的默認(rèn)的設(shè)定(IBM4)。針對基于FFNN的模型,將詞嵌入長M設(shè)定為30,將隱 藏層的單元數(shù)目|ζι|設(shè)定為100,將窗口寬度設(shè)定為5。按照Yang等人(Nan Yang,Shujie Liu,Mu Li,Ming Zhou,and Nenghai Yu.2013.Word Alignment Modeling with Context Dependent Deep Neural Network.In Proceedings of the 51st Annual Meeting of the Association for Computational Linguisties(Volume I:Long Papers),pages 166-175.)的指教,通過已經(jīng)說明的有監(jiān)督學(xué)習(xí)來進(jìn)行了基于FFNN的模型的學(xué)習(xí)。
[0124] 關(guān)于基于RNN的模型,分別將詞嵌入長M設(shè)定為30,將隱藏層的單元數(shù)I yi I設(shè)定為 100。在評價實(shí)驗(yàn)中,對基于RNN的4個模型即RNNs、RNNS+C、RNNu、以及RNN U+C的性能進(jìn)行了評 價。在此,"s/u"表示基于有監(jiān)督/無監(jiān)督學(xué)習(xí)的模型,"+C"表示是否加上了協(xié)議制約。
[0125] 在涉及除IBM4以外的模型的學(xué)習(xí)中,首先對各層的權(quán)重進(jìn)行了初始化。即,針對輸 入層(Lookup層)L的權(quán)重,對原語言以及目標(biāo)語言這兩者從學(xué)習(xí)數(shù)據(jù)的各側(cè)對詞嵌入進(jìn)行 學(xué)習(xí),將所得到的詞嵌入設(shè)定為L。由此,避免落入局部最優(yōu)解。針對其他權(quán)重,在閉區(qū)間[_ 0.1,0.1]的范圍內(nèi)設(shè)定為隨機(jī)的值。在詞嵌入的學(xué)習(xí)中以默認(rèn)設(shè)定采用了基于Mikolov等 人(Tomas Mikolov,Martin Karaf iat,Lukas Burget,Jan Cernocky,and Sanjeev Khudanpur.2010.Recurrent Neural Network based Language Model.In Proceedings of Ilth Annual Conference of the International Speech Communication Association,pages 1045-1048.)的RNNLM工具箱(http : //www .fit. vutbr.cz/~ imikolov/) 其中,在此,出現(xiàn)少于5次的詞語全部被收集于<unk>之類特別的標(biāo)識(token) 中。接下來,采用Mini-batch SGD對每個權(quán)重進(jìn)行了最優(yōu)化。在此,批大小D設(shè)定為100,學(xué)習(xí) 率設(shè)定為0.01,12標(biāo)準(zhǔn)化參數(shù)設(shè)定為0.1。學(xué)習(xí)在反復(fù)了 50代之后結(jié)束。其他參數(shù)如以下所 示那樣。無監(jiān)督學(xué)習(xí)中的參數(shù)W、N以及C分別設(shè)定為100、50以及0.001。表示協(xié)議制約的強(qiáng)度 的參數(shù)α設(shè)定為0.1。
[0126] 在翻譯任務(wù)中,米用了Koehn等人(Phi I ipp Koehn,Hieu Hoang,Alexandra Birch,Chris CalIison-Burch?MarcelIo Federico,Nicola Bertoldi,Brooke Cowan, Wade Shen,Christine Moran,Richard Zens,Chris Dyer?Ondrej Bojar?Alexandra Constrantin,and Evan Herbst.2007.Moses:Open Source Toolkit for Statistical Machine Translation. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics on Interactive Poster and Demonstration Sessions,pages 177-180.)的基于短語的SMTd日語以及中文句子全部使 用〇^8611以及3七311:[ >(^(186811^1^61'來分別進(jìn)行了詞語分割。在學(xué)習(xí)中,除去了超過40個詞 語的較長句子使用采用了改良型的Kneser-Ney(modified Kneser-Ney)平滑化的SRILM工 具箱(St0lcke,2002),采用學(xué)習(xí)數(shù)據(jù)的英語側(cè)進(jìn)行了用于IWSLT以及NTCIR的5文法語言模 型的學(xué)習(xí),采用English Gigaword Corpus的Xinhua側(cè)進(jìn)行了用于FBIS的5文法語言模型的 學(xué)習(xí)。關(guān)于SMT的權(quán)重參數(shù),采用開發(fā)數(shù)據(jù)并采用MERT(Franz Josef Och.2003.Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics ?pages 160-167.)進(jìn)行了調(diào)整D
[0127] 〈詞語對齊的結(jié)果〉
[0128] 圖9表示利用F值對詞語對齊的性能進(jìn)行了評價的結(jié)果。在以下的說明中,MODEL (R)以及MODEL(I)分別表示將正解對齊、基于IBM模型4的詞語對齊作為訓(xùn)練數(shù)據(jù)進(jìn)行了學(xué) 習(xí)后的模型中,利用從學(xué)習(xí)數(shù)據(jù)中隨機(jī)采樣到的IOOK的數(shù)據(jù)進(jìn)行了所有模型 的學(xué)習(xí)。關(guān)于詞語對齊的評價,首先在雙方向上對各模型進(jìn)行應(yīng)用并對各個方向的對齊進(jìn) 行了解析,之后利用 "grow-diag-final-and" 啟發(fā)式(Philipp Koehn,F(xiàn)ranz Josef Och, and Daniel Marcu.2003. Statistical Phrase-Based Translation.In Proceedings of the 2003 Human Language Technology Conference:North American Chapter of the Association for Computational Linguistics,pages 48-54.)將這些對齊組合起來,針 對組合后的結(jié)果來進(jìn)行。與詞語對齊的性能相關(guān)的顯著性檢驗(yàn)采用顯著標(biāo)簽5%通過符號 檢驗(yàn)來進(jìn)行。圖9的"+"表示與基準(zhǔn)(IBM4以及FFNNs(R/I))之間存在顯著性差異。
[0129] 圖9中,RNNU+C具備在上述實(shí)施方式中記載的所有的特征。即,全部應(yīng)用基于RNN的 模型、無監(jiān)督學(xué)習(xí)、以及協(xié)議制約。而且,該RNN U+C在BTEC以及Hansards這兩者中示出最好的 性能。尤其,與基準(zhǔn)的系統(tǒng)之間的差異在統(tǒng)計(jì)上是顯著性的。根據(jù)圖9還可知,針對BTEC, RNN S(R/I)相對于FFNNS(R/I)在統(tǒng)計(jì)上示出顯著性差異。根據(jù)這些結(jié)果,通過基于RNN的模 型,不僅是剛剛之前的對齊結(jié)果而且還考慮這以前的對齊結(jié)果來進(jìn)行詞語對齊,從而能夠 確認(rèn)到性能得到提高。
[0130] 根據(jù)圖9,RNNS+C(R/I)以及RNNU+C在任一個任務(wù)中都分別示出比RNN S(R/I)以及RNNu 更好的性能。根據(jù)該結(jié)果可知,如果加上協(xié)議制約則模型的性能會得到提高。
[0131] 在BTEC中,RNNu以及RNNU+C的性能分別超過RNN s(I)以及RNNS+C(I)的性能很多,但在 Hansards中在這些性能之間沒有較大的差異。這種情況表示,如將學(xué)習(xí)數(shù)據(jù)的自動對齊結(jié) 果使用作訓(xùn)練數(shù)據(jù)時那樣,在訓(xùn)練數(shù)據(jù)的精度不高時,上述實(shí)施方式的無監(jiān)督學(xué)習(xí)有效果。 [0132]〈機(jī)器翻譯的結(jié)果〉
[0133] 圖10表示利用區(qū)分了大寫字母和小寫字母的BLEU值(Kishore Papineni,Salim Roukos,Todd WarcUand Wei-Jing Zhu.2002.BLEU:a Method for Automatic Evaluation of Machine Translation. In Proceedings of 40th Annual Meeting of the Association for Computational Linguistics,pages 311-318.)進(jìn)行了測定的翻譯精 度。各值為采用3次獨(dú)立的MERT處理得到的BLEU值的算術(shù)平均。
[0134] 在NTCIR以及FBIS中,利用隨機(jī)采樣的jOOK的數(shù)據(jù)對各對齊模型進(jìn)行了學(xué)習(xí),之 后使用采用該對齊模型進(jìn)行了詞語對齊后得到的全部學(xué)習(xí)數(shù)據(jù)來進(jìn)行翻譯模型的學(xué)習(xí)。進(jìn) 而,也進(jìn)行了采用所有的學(xué)習(xí)數(shù)據(jù)進(jìn)行了學(xué)習(xí)的基于IBM模型4的SMT系統(tǒng)(IBM4all)的評價。 與翻譯性能相關(guān)的顯著性檢驗(yàn)采用顯著標(biāo)簽5%通過基于boot strap的檢驗(yàn)方法(PhiIipp Koehn.2004.Statistical Significance Tests for Machine Translation Evaluation. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing,pages 388-395.)來進(jìn)行。圖 10中 表不翻譯性能對于兩 個基準(zhǔn)、IBM4以及FFNNs(I)這兩者具有顯著性差異。
[0135] 根據(jù)圖10的結(jié)果可知,RNNu以及RNNU+C示出在所有的任務(wù)中超過FFNN s (I)以及IBM4 的性能。因此,可知,通過利用采用基于RNN的模型進(jìn)行了詞語對齊后的學(xué)習(xí)數(shù)據(jù)來進(jìn)行翻 譯模型的學(xué)習(xí),從而翻譯性能得到提高。進(jìn)而,根據(jù)圖10可知,基于RNN的模型在NTCIR以及 FBIS任務(wù)中,與僅采用一部分學(xué)習(xí)數(shù)據(jù)進(jìn)行了學(xué)習(xí)的情況無關(guān)地,示出與IBM4 all相匹敵的 性能。
[0136] 圖11中,采用?表示基于RNNs(R)的針對日語和英語的對照翻譯句子的詞語對齊 的結(jié)果,采用△表示基于FFNN s(R)的詞語對齊的結(jié)果,采用實(shí)線的口表示正確的對齊。根據(jù) 圖11可知,基于RNNs(R)的模型大致正確地進(jìn)行了包括遠(yuǎn)離的兩個詞語在內(nèi)的復(fù)雜的對齊。 在FFNN s(R)中尤其不能順利地進(jìn)行遠(yuǎn)離的兩個詞語的對齊。這是因?yàn)?,相對于FFNNs(R)只采 用剛剛之前的對齊的結(jié)果,RNN s(R)不僅采用剛剛之前的對齊的結(jié)果還采用這以前的對齊 的結(jié)果,在某種意義下可以說進(jìn)行了短語級的對齊。
[0137] 圖12中表示基于RNNs (R)和FFNNs (R)針對法語和英語的對照翻譯句子的詞語對齊 的結(jié)果。由于在英語和法語中詞序相似,因此可知,剛剛之前的對齊結(jié)果成為詞語對齊的較 大線索,在FFNNs(R)中也能提高對齊精度。因此,認(rèn)為在這種語言對中即使采用RNNs(R)也不 能得到這么大的效果。
[0138] 〈學(xué)習(xí)數(shù)據(jù)大小〉
[0139] 圖13中表示采用改變學(xué)習(xí)數(shù)據(jù)的大小后進(jìn)行了學(xué)習(xí)的各模型來進(jìn)行BTEC的詞語 對齊所得到的結(jié)果(F值)。學(xué)習(xí)數(shù)據(jù)為從IWSLT用的學(xué)習(xí)數(shù)據(jù)(40K)、BTEC用的學(xué)習(xí)數(shù)據(jù) (9K)、以及BTEC的學(xué)習(xí)數(shù)據(jù)中隨機(jī)采樣的學(xué)習(xí)數(shù)據(jù)(1K)。此外,由于針對IWSLT沒有對齊的 正解數(shù)據(jù),因此針對RNUR)不能進(jìn)行采用了 IWSLT用的數(shù)據(jù)(40K)的學(xué)習(xí)。
[0140] 根據(jù)圖13,與上述實(shí)施方式相關(guān)的基于RNN的模型的性能在采用IK的帶標(biāo)簽數(shù)據(jù) 中進(jìn)行了學(xué)習(xí)的情況下、采用9K的帶標(biāo)簽數(shù)據(jù)中進(jìn)行了學(xué)習(xí)的情況下,都超過利用40K的無 標(biāo)簽的學(xué)習(xí)數(shù)據(jù)進(jìn)行了學(xué)習(xí)后的IBM模型4。即,對于基于RNN的模型來說,即使采用不足IBM 模型4的學(xué)習(xí)數(shù)據(jù)的25%的數(shù)據(jù)進(jìn)行學(xué)習(xí)也示出超過IBM模型4的性能。因此,根據(jù)采用了利 用非常少的學(xué)習(xí)數(shù)據(jù)進(jìn)行了學(xué)習(xí)后得到的RNN U+C模型的SMT,能夠得到與圖10所示那樣的基 于使用所有學(xué)習(xí)數(shù)據(jù)進(jìn)行了學(xué)習(xí)后得到的IBM模型4的SMT同等以上的性能。
[0141] 如上那樣如果采用與上述實(shí)施方式相關(guān)的基于RNN的模型,則不僅使用剛剛之前 的詞語對齊的結(jié)果,而且使用這以前的詞語對齊的結(jié)果來進(jìn)行詞語的對齊。其結(jié)果是,如在 實(shí)驗(yàn)中所明確的那樣,采用了該模型的詞語對齊示出比以往的僅依賴于剛剛之前的詞語對 齊來進(jìn)行詞語對齊的模型更高的性能。而且該模型也可為無監(jiān)督學(xué)習(xí)下的學(xué)習(xí),其結(jié)果所 得到的模型的性能也高。進(jìn)而,即使學(xué)習(xí)中所需的學(xué)習(xí)數(shù)據(jù)的數(shù)量較少也能得到現(xiàn)有模型 的同等以上的性能。
[0142] [基于計(jì)算機(jī)的實(shí)現(xiàn)]
[0143] 上述的詞語對齊模型學(xué)習(xí)裝置以及詞語對齊裝置實(shí)質(zhì)上能夠由計(jì)算機(jī)硬件和與 計(jì)算機(jī)硬件進(jìn)行協(xié)作的計(jì)算機(jī)程序來實(shí)現(xiàn)。
[0144] 〈軟件結(jié)構(gòu)〉
[0145] 關(guān)于軟件結(jié)構(gòu),如圖5、圖6以及圖7中所記載的那樣。
[0146] 〈硬件結(jié)構(gòu)〉
[0147] 圖14表示實(shí)現(xiàn)上述詞語對齊模型學(xué)習(xí)裝置以及詞語對齊裝置的包括計(jì)算機(jī)340在 內(nèi)的計(jì)算機(jī)系統(tǒng)330的外觀,圖15表示計(jì)算機(jī)340的內(nèi)部結(jié)構(gòu)。
[0148] 參照圖14,該計(jì)算機(jī)系統(tǒng)330包括計(jì)算機(jī)340和與該計(jì)算機(jī)340連接的監(jiān)視器342、 鍵盤346、以及鼠標(biāo)348。計(jì)算機(jī)340具有能安裝DVD362(參照圖15)的DVD驅(qū)動器350和安裝可 移動存儲器364 (參照圖15)的存儲器端口 352。
[0149] 參照圖15,計(jì)算機(jī)340除了上述的DVD驅(qū)動器350以及存儲器端口 352之外,還包括: CPU(中央運(yùn)算處理裝置)356;與CPU356連接的總線366;存儲啟動程序等的可改寫的讀出專 用存儲器(R〇M)358;存儲程序命令、系統(tǒng)程序、以及操作數(shù)據(jù)等的隨機(jī)存取存儲器(RAM) 360;存儲計(jì)算機(jī)程序以及對照翻譯語料庫等的硬盤驅(qū)動器(HDD)354和能與其他終端進(jìn)行 通信的網(wǎng)絡(luò)接口(I/F)344。
[0150]用于使計(jì)算機(jī)系統(tǒng)330作為與上述實(shí)施方式相關(guān)的詞語對齊模型學(xué)習(xí)裝置以及詞 語對齊裝置的各功能部起作用的計(jì)算機(jī)程序,其預(yù)先被存儲于可移動存儲器364中,在將可 移動存儲器364裝載于存儲器端口 352之后啟動R0M358的改寫程序,從而被傳送并存儲于 R0M358或者HDD354中。或者將程序通過經(jīng)由網(wǎng)絡(luò)I/F344的通信從網(wǎng)絡(luò)上的其他裝置傳送到 RAM360,此后也可寫入到R0M358或者HDD354。程序在執(zhí)行時從R0M358或者HDD354中被讀出, 被載入RAM360,并由CPU356執(zhí)行。
[0151] 在R0M358或者HDD354中存儲的程序包括用于使計(jì)算機(jī)340作為與上述實(shí)施方式相 關(guān)的詞語對齊模型學(xué)習(xí)裝置以及詞語對齊裝置的各功能部起作用的多個命令所構(gòu)成的命 令串。進(jìn)行該動作所需的幾個基本功能有時通過在計(jì)算機(jī)340上進(jìn)行動作的操作系統(tǒng)或者 第三方程序或安裝于計(jì)算機(jī)340的各種可編程工具箱或程序庫被實(shí)時且動態(tài)地提供。因此, 該程序自身也可不必包括用于實(shí)現(xiàn)與本實(shí)施方式相關(guān)的詞語對齊模型學(xué)習(xí)裝置以及詞語 對齊裝置所需的所有功能。該程序只要僅包括命令之中為了得到期望的結(jié)果而以被控制的 方式從計(jì)算機(jī)340的存儲裝置內(nèi)動態(tài)地調(diào)取適當(dāng)?shù)墓δ芑蛘呖删幊坦ぞ呦鋬?nèi)的適當(dāng)?shù)某绦?工具從而實(shí)現(xiàn)作為上述系統(tǒng)的功能的命令即可。當(dāng)然,也可僅由程序來提供所有必要的功 能。
[0152] 執(zhí)行計(jì)算機(jī)程序時的計(jì)算機(jī)系統(tǒng)330的動作是眾所周知的。因此,在此不重復(fù)其詳 細(xì)情況。
[0153] 上述實(shí)施方式中,首先從英語句子的開頭依次地選擇詞語,按照對齊來算出各對 齊的分?jǐn)?shù)。但是,本發(fā)明并不限于這種實(shí)施方式。選擇詞語的順序也可以是任意的,只要能 夠以規(guī)定的順序選擇所有詞語就可以為任意的順序。不過,如上述實(shí)施方式那樣從一種語 言的句子的開頭的詞語起依次與另一種語言的詞語進(jìn)行對齊是比較簡單的。
[0154] 此外,在上述實(shí)施方式中采用特定的函數(shù)作為循環(huán)型的神經(jīng)網(wǎng)絡(luò)的各層的函數(shù)。 但是本發(fā)明并不限于這種實(shí)施方式。例如在隱藏層中,只要能夠表現(xiàn)兩個詞語之間的非線 性的關(guān)系就可以采用任何函數(shù)。關(guān)于輸入層以及輸出層也同樣。此外,在上述的實(shí)施方式 中,神經(jīng)網(wǎng)絡(luò)的輸出為分?jǐn)?shù),但如上述那樣神經(jīng)網(wǎng)絡(luò)的輸出也可以是兩個詞語正確地建立 對應(yīng)的概率。概率也能認(rèn)為是某種分?jǐn)?shù)。
[0155] 在上述實(shí)施方式中,采用同一計(jì)算機(jī)來執(zhí)行RNN型的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和詞語對齊。 但是,當(dāng)然本發(fā)明并不限于這種實(shí)施方式。將通過學(xué)習(xí)得到的神經(jīng)網(wǎng)絡(luò)的參數(shù)復(fù)制到其他 計(jì)算機(jī)并建立RNN型的神經(jīng)網(wǎng)絡(luò),從而能夠采用任意的計(jì)算機(jī)來進(jìn)行詞語對齊。
[0156] 本次公開的實(shí)施方式僅是例示,本發(fā)明不應(yīng)僅限于上述的實(shí)施方式。本發(fā)明的范 圍在參照發(fā)明的詳細(xì)說明的記載的基礎(chǔ)上,通過權(quán)利要求書的各權(quán)利要求來示出,包括與 在本文記載的語句均等的意思以及范圍內(nèi)的所有的變更。
[0157] 工業(yè)可利用性
[0158] 本發(fā)明能夠利用于在兩個句子、例如不同語言的兩個句子之間確定相對應(yīng)的詞 語,典型地能夠利用于用于基于統(tǒng)計(jì)的語言翻譯的翻譯模型的學(xué)習(xí)數(shù)據(jù)的創(chuàng)建、用于翻譯 者以及翻譯監(jiān)督人員的翻譯的驗(yàn)證裝置、用于兩個文件之間的比較的裝置等中。
[0159] 符號說明
[0160] 20對照翻譯句對
[0161] 30日語句子
[0162] 32英語句子
[0163] 40,42 對齊
[0164] 60神經(jīng)網(wǎng)絡(luò)
[0165] 70,110 輸入層(Lookup層)
[0166] 72,112 隱藏層
[0167] 74,114 輸出層
[0168] 76詞匯翻譯分?jǐn)?shù)
[0169] 80,130原語言的輸入部
[0170] 82,132目標(biāo)語言的輸入部
[0171] 100基于RNN的模型
[0172] 102 分?jǐn)?shù)
[0173] 118循環(huán)連接
【主權(quán)項(xiàng)】
1. 一種詞語對齊分?jǐn)?shù)算出裝置,算出第1語言和第2語言的對照翻譯句對的詞語對齊的 分?jǐn)?shù),該詞語對齊分?jǐn)?shù)算出裝置包括: 選擇單元,其接收上述對照翻譯句對和針對該對照翻譯句對的詞語對齊,按照規(guī)定的 順序依次選擇上述對照翻譯句對的上述第1語言的句子的詞語;和 分?jǐn)?shù)算出單元,其針對上述對照翻譯句對的上述第1語言的句子的所有詞語,算出表示 由通過上述選擇單元選擇出的詞語和通過上述詞語對齊與該詞語建立了對應(yīng)的上述第2語 言的詞語構(gòu)成的詞語對為正確的詞語對的可能性的分?jǐn)?shù),基于該分?jǐn)?shù)算出上述詞語對齊的 分?jǐn)?shù), 上述分?jǐn)?shù)算出單元在算出某詞語對的分?jǐn)?shù)時,基于上述詞語對齊之中、在構(gòu)成該某詞 語對的上述第1語言的詞語之前通過上述選擇單元選擇出的詞語的對齊的全體,算出該某 詞語對的分?jǐn)?shù)。2. 根據(jù)權(quán)利要求1所述的詞語對齊分?jǐn)?shù)算出裝置,其中, 上述選擇單元包括在上述對照翻譯句對內(nèi)從上述第1語言的句子的開頭起依次選擇上 述第1語言的句子的詞語的單元。3. 根據(jù)權(quán)利要求1或2所述的詞語對齊分?jǐn)?shù)算出裝置,其中, 上述分?jǐn)?shù)算出單元包括: 第1算出單元,其算出表示由通過上述選擇單元選擇出的詞語和上述對照翻譯句對的 上述第2語言的句子之中通過上述詞語對齊與該詞語建立了對應(yīng)的詞語構(gòu)成的詞語對為正 確的詞語對的可能性的分?jǐn)?shù);和 第2算出單元,其基于針對上述對照翻譯句對的上述第1語言的句子的所有詞語通過上 述第1分?jǐn)?shù)算出單元算出的分?jǐn)?shù),算出上述詞語對齊的分?jǐn)?shù)。4. 根據(jù)權(quán)利要求3所述的詞語對齊分?jǐn)?shù)算出裝置,其中, 上述第2算出單元包括通過將針對上述對照翻譯句對的上述第1語言的句子的所有詞 語通過上述第1算出單元算出的分?jǐn)?shù)彼此相乘,從而算出上述詞語對齊的分?jǐn)?shù)的單元。5. 根據(jù)權(quán)利要求1~4中任一項(xiàng)所述的詞語對齊分?jǐn)?shù)算出裝置,其中, 上述分?jǐn)?shù)算出單元包括: 循環(huán)型的神經(jīng)網(wǎng)絡(luò),其具有第1輸入和第2輸入,其中,該第1輸入接收通過上述選擇單 元選擇出的詞語,該第2輸入接收通過上述詞語對齊與該詞語建立了對應(yīng)的上述第2語言的 詞語;和 輸入控制單元,其將通過上述選擇單元選擇出的詞語和通過上述詞語對齊與該詞語建 立了對應(yīng)的詞語分別提供給上述第1輸入以及上述第2輸入, 上述循環(huán)型的神經(jīng)網(wǎng)絡(luò)包括: 輸入層,其具有上述第1輸入以及上述第2輸入,從分別提供給上述第1輸入以及上述第 2輸入的詞語中算出詞嵌入向量并輸出; 隱藏層,其接收上述輸入層的輸出,通過預(yù)先決定的非線性運(yùn)算來生成表示來自上述 輸入層的兩個輸出的關(guān)系的向量;和 輸出層,其基于上述隱藏層的輸出來算出上述分?jǐn)?shù)并輸出, 在將接下來的詞語對作為輸入而提供給上述詞語對齊分?jǐn)?shù)算出裝置時,上述隱藏層的 輸出被作為輸入而提供給上述隱藏層。6. -種詞語對齊裝置,對第1語言和第2語言的對照翻譯句對的詞語對齊進(jìn)行推定,該 詞語對齊裝置包括: 權(quán)利要求1~權(quán)利要求5中任一項(xiàng)所述的詞語對齊分?jǐn)?shù)算出裝置; 詞語對齊候補(bǔ)生成單元,其對上述對照翻譯句對生成多個詞語對齊候補(bǔ); 算出單元,其針對通過上述詞語對齊候補(bǔ)生成單元而生成的上述多個詞語對齊候補(bǔ)的 每一個詞語對齊候補(bǔ),使用上述詞語對齊分?jǐn)?shù)算出裝置來算出針對上述對照翻譯句對的詞 語對齊分?jǐn)?shù);和 詞語對齊決定單元,其將與通過上述算出單元對上述多個詞語對齊候補(bǔ)算出的詞語對 齊分?jǐn)?shù)之中最高的分?jǐn)?shù)對應(yīng)的詞語對齊候補(bǔ)決定為上述對照翻譯句對的詞語對齊并輸出。7. -種計(jì)算機(jī)程序,如果該計(jì)算機(jī)程序通過計(jì)算機(jī)被執(zhí)行,則使該計(jì)算機(jī)作為權(quán)利要 求1~權(quán)利要求6中任一項(xiàng)中所述的各單元起作用。
【文檔編號】G06F17/28GK106062736SQ201580012326
【公開日】2016年10月26日
【申請日】2015年2月12日 公開號201580012326.9, CN 106062736 A, CN 106062736A, CN 201580012326, CN-A-106062736, CN106062736 A, CN106062736A, CN201580012326, CN201580012326.9, PCT/2015/53825, PCT/JP/15/053825, PCT/JP/15/53825, PCT/JP/2015/053825, PCT/JP/2015/53825, PCT/JP15/053825, PCT/JP15/53825, PCT/JP15053825, PCT/JP1553825, PCT/JP2015/053825, PCT/JP2015/53825, PCT/JP2015053825, PCT/JP201553825
【發(fā)明人】田村晃裕, 渡邊太郎, 隅田英一郎
【申請人】國立研究開發(fā)法人情報通信研究機(jī)構(gòu)