欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

選擇改良多個(gè)候補(bǔ)譯文所生成的最優(yōu)譯文的機(jī)器翻譯系統(tǒng)的制作方法

文檔序號(hào):6427170閱讀:144來源:國知局
專利名稱:選擇改良多個(gè)候補(bǔ)譯文所生成的最優(yōu)譯文的機(jī)器翻譯系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器翻譯系統(tǒng),特別涉及在任意兩種語言之間的翻譯中,在有效活用可利用的語言資源的情況下可進(jìn)行高精度的翻譯的機(jī)器翻譯系統(tǒng)。
背景技術(shù)
隨著社會(huì)經(jīng)濟(jì)活動(dòng)的急劇全球化,需要高效地建立起一個(gè)以新的語言對(duì)或者領(lǐng)域?yàn)閷?duì)象的機(jī)器翻譯系統(tǒng)。另外,無論是在已經(jīng)被商業(yè)化且廣泛使用的文字語言的翻譯中,還是在被積極研究進(jìn)入實(shí)用階段的聲音語言翻譯中,都需要超過現(xiàn)有水平的高品質(zhì)的翻譯。
以往,為作成機(jī)器翻譯系統(tǒng),需要對(duì)翻譯對(duì)象的兩種語言精通的專家和數(shù)以年計(jì)的時(shí)間,還有巨額的費(fèi)用。在這樣的機(jī)器翻譯系統(tǒng)中,不能實(shí)現(xiàn)目前所需的高移植性或者品質(zhì)。今后,在機(jī)器翻譯系統(tǒng)的作成中,要盡可能做到不要人的參與,達(dá)到機(jī)械化、工業(yè)化。
現(xiàn)在,在世界的機(jī)器翻譯研究中,利用文集的手法打破以往手法的界限,不斷取得了突破性的成果。作為利用文集的機(jī)器翻譯方法,有兩個(gè)代表性趨勢。它們是(1)范例翻譯和(2)統(tǒng)計(jì)翻譯。這兩個(gè)都具有這樣的特點(diǎn),利用文集,根據(jù)半自動(dòng)的學(xué)習(xí)處理建立用于機(jī)器翻譯的系統(tǒng)。
范例翻譯,給出第1語言的輸入文后,在對(duì)譯文集中查找類似輸入文的第1語言的句子,根據(jù)查找的第1語言的句子的譯文(第2語言)形成輸出文。
另一方面,統(tǒng)計(jì)翻譯,從對(duì)譯文集中學(xué)習(xí)翻譯和語言的統(tǒng)計(jì)模型,在實(shí)行時(shí),按照這兩種統(tǒng)計(jì)模型,查找概率最大的譯文。
以下,在代表以往技術(shù)的翻譯手法中,對(duì)統(tǒng)計(jì)翻譯進(jìn)行說明,進(jìn)一步說明為更加提高統(tǒng)計(jì)翻譯的精度而以往所作的嘗試。
在統(tǒng)計(jì)翻譯中,把某語言的句子(現(xiàn)在,該句子表示為“J”)翻譯為另一語言的句子(該句子表示為“E”)這個(gè)問題,作為下面條件概率P(E|J)的最大化問題進(jìn)行公式化。
E^=argmaxEP(E|J)]]>通過對(duì)該式應(yīng)用貝葉斯定理得到下式。
E^=argmaxEP(E)P(J|E)/P(J)]]>這里,P(J)是和 的計(jì)算沒有關(guān)系。因此可以到達(dá)下式E^=argmaxEP(E)P(J|E)]]>右邊的第1項(xiàng)P(E)被稱為語言模型,表示句子E的類似度。第2項(xiàng)的P(J|E),被稱為翻譯模型,表示從句子E生成句子J的概率。在統(tǒng)計(jì)翻譯中,查找概率最大的譯文 作為對(duì)輸入文J的譯文。
另一方面,作為打破這個(gè)手法的界限的方法,提出下述手法最初生成信道源文的各個(gè)單詞翻譯的內(nèi)容以信道目標(biāo)文的順序排列,對(duì)于這個(gè)句子生成適用于各種操作者的多個(gè)句子的方法,這是Ulrich Germann MichaelJahr,Kevin Knight,Daniel Marcu,and Kenji Yamada,“Fast decoding andoptimal decoding for machine translation,”(2001)in proc of ACL2001,Toulouse,france中提出。根據(jù)提出的手法,在這樣生成的句子中,選擇最大類似度的作為譯文。
即使是使用以往的范例翻譯和統(tǒng)計(jì)翻譯的任一手法,也不能脫離在某些原理和數(shù)據(jù)中生成妥當(dāng)譯文的框架。因此,若要進(jìn)一步提高翻譯質(zhì)量,必須改變機(jī)器翻譯系統(tǒng)的內(nèi)部結(jié)構(gòu)。在改良中,無論是時(shí)間、人手、費(fèi)用上任一點(diǎn)都存在困難。
另外在Germann提出的方法中,在查找中存在很多到達(dá)局部的最優(yōu)解的問題,并不能夠穩(wěn)定地得到高精確的解。
在此基礎(chǔ)上,即使今后有新的翻譯手法出現(xiàn),各個(gè)手法以其手法完成翻譯,也不存在打破這些新手法的界限可以生成高質(zhì)量的譯文的這樣的框架。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種不管語言的組合,也能得到高品質(zhì)翻譯的機(jī)器翻譯系統(tǒng)。
該發(fā)明的另一個(gè)目的在于提供一種不管語言的組合,也能夠得到在某種程度的時(shí)間內(nèi)獲得高品質(zhì)翻譯的機(jī)器翻譯系統(tǒng)。
本發(fā)明的再一個(gè)目的在于提供一種可以充分有效地利用可以利用的翻譯資源,不管語言的組合,能夠穩(wěn)定地得到高品質(zhì)翻譯的機(jī)器翻譯系統(tǒng)。
有關(guān)本發(fā)明第1方案的機(jī)器翻譯系統(tǒng),具備對(duì)第1語言的輸入文,把輸入文分配到用于生成第2語言的譯文的多個(gè)機(jī)器翻譯系統(tǒng)的每一個(gè)當(dāng)中,得到第2語言的譯文的分配模塊;在分配模塊獲得的多個(gè)第2語言的每一個(gè)譯文作為起點(diǎn),按照以規(guī)定的評(píng)價(jià)方式改進(jìn)評(píng)價(jià)那樣,將譯文改良的譯文改良模塊;由譯文改良模塊改良的譯文中,將滿足規(guī)定條件的譯文作為輸入文的譯文進(jìn)行選擇的譯文選擇模塊。
分配模塊準(zhǔn)備了多個(gè)機(jī)器翻譯裝置翻譯的譯文。譯文改良模塊把這些譯文改良,改進(jìn)譯文的評(píng)價(jià)。譯文選擇模塊,在改良的譯文中選擇滿足規(guī)定條件的譯文,把它作為對(duì)輸入文的譯文。因?yàn)閷⒆畛跎傻亩鄠€(gè)譯文都將按照這些譯文評(píng)價(jià)改良那樣進(jìn)行改良,所以最終得到比最初生成的譯文的任一個(gè)評(píng)價(jià)都高的譯文。在這些當(dāng)中,將滿足規(guī)定條件的譯文作為對(duì)輸入文的譯文,由此對(duì)于輸入文可以得到,品質(zhì)高、滿足規(guī)定條件的譯文。
優(yōu)選機(jī)器翻譯系統(tǒng)進(jìn)一步包含分別接在分配模塊上的多個(gè)機(jī)器翻譯裝置,這些多個(gè)機(jī)器翻譯裝置,也可以包含互不相同方式的第1和第2機(jī)器翻譯裝置。使用多個(gè)機(jī)器翻譯裝置,特別是互不相同方式的機(jī)器翻譯裝置,準(zhǔn)備最初的譯文,作為譯文進(jìn)行改良的種子,得到不類似的可能性大。因此從這當(dāng)中能夠得到的最優(yōu)解互不相同的可能性大,其中之一是大范圍的最優(yōu)解的可能性大。
譯文改良模塊也可以包括譯文變形模塊,對(duì)于輸入的譯文,進(jìn)行規(guī)定的變形;譯文評(píng)價(jià)模塊,對(duì)譯文變形模塊得到的變形譯文進(jìn)行評(píng)價(jià);重復(fù)控制模塊,判斷由譯文評(píng)價(jià)模塊得到的評(píng)價(jià),對(duì)于輸入譯文得到的評(píng)價(jià)是否被改進(jìn),在被認(rèn)為沒有改進(jìn)之前,重復(fù)實(shí)行變形和評(píng)價(jià),象這樣進(jìn)行譯文變形模塊和評(píng)價(jià)模塊控制。
譯文的變形和評(píng)價(jià),重復(fù)到評(píng)價(jià)改進(jìn)消失為止。因此,各個(gè)譯文作為開始起點(diǎn),可以得到多個(gè)局部的最優(yōu)解。因?yàn)樽畛醯淖g文是多個(gè),所以其中包含大范圍最優(yōu)解的可能性大。
優(yōu)選譯文變形模塊包含對(duì)于一個(gè)譯文按照多個(gè)進(jìn)行變形,用于生成多個(gè)變形譯文的模塊;評(píng)價(jià)模塊包含分別對(duì)于多個(gè)變形的譯文進(jìn)行評(píng)價(jià)用的模塊。
從一個(gè)譯文通過多個(gè)變形可以得到多個(gè)譯文。得到評(píng)價(jià)高的譯文的可能性,被評(píng)價(jià)譯文越是多樣就越高,因此期望被評(píng)價(jià)譯文數(shù)量有很多。因此,根據(jù)該構(gòu)成,最終得到評(píng)價(jià)高的譯文的可能性高。
優(yōu)選譯文選擇模塊包含,在重復(fù)控制模塊的重復(fù)中得到的多個(gè)譯文中,用于選擇評(píng)價(jià)模塊評(píng)價(jià)最高的譯文的模塊。
最終得到的多個(gè)譯文。其中,評(píng)價(jià)最高的譯文是大范圍的最優(yōu)解的可能性高,因此,根據(jù)選擇這樣的譯文,能夠得到品質(zhì)最高的譯文的可能性高。
更優(yōu)選譯文評(píng)價(jià)模塊包含,根據(jù)第2語言的語言模型和從第2語言向第1語言翻譯模型,用于計(jì)算譯文類似度的模塊。
作為評(píng)價(jià)由于使用類似度,這樣得到的譯文作為第2語言的句子自然,成為輸入文相對(duì)應(yīng)的可能性也高。
有關(guān)本發(fā)明第2方案的記錄媒體,存儲(chǔ)著若用計(jì)算機(jī)執(zhí)行,使該計(jì)算機(jī)作為上述機(jī)器翻譯系統(tǒng)而運(yùn)行的計(jì)算機(jī)程序。
有關(guān)本發(fā)明第3方案的機(jī)器翻譯系統(tǒng)的控制裝置,包含譯文取得模塊,在互不相同的方式的多個(gè)機(jī)器翻譯裝置中,給予第1語言的輸入文,分別得到對(duì)應(yīng)的第2語言的譯文;變形譯文取得模塊,由譯文取得模塊得到的第2語言的譯文,分別作為第2語言的譯文的各個(gè)起點(diǎn),按照規(guī)定的評(píng)價(jià)方式進(jìn)行改進(jìn)那樣,分別給予用于譯文變形的多個(gè)譯文變形模塊,接受被變形的多個(gè)譯文和各自附帶的評(píng)價(jià)值;譯文選擇模塊,在變形譯文取得模塊接受的譯文中,用于選擇并輸出滿足規(guī)定條件的作為對(duì)輸入文的譯文。
有關(guān)本發(fā)明第4方案的機(jī)器翻譯方法,具備把輸入文分別分配到用于對(duì)于第1語言的輸入文分別生成第2語言的譯文的多個(gè)機(jī)器翻譯裝置的每一個(gè),根據(jù)獲得的對(duì)輸入文的第2語言的譯文,準(zhǔn)備多個(gè)候補(bǔ)譯文的步驟;在準(zhǔn)備步驟中,對(duì)于獲得的多個(gè)候補(bǔ)譯文每一個(gè)的,分別根據(jù)規(guī)定的變形、規(guī)定的評(píng)價(jià)方式計(jì)算出評(píng)價(jià),進(jìn)行改進(jìn)那樣的改良步驟;在改良步驟中,被改良的候補(bǔ)譯文中,選擇滿足規(guī)定的選擇條件的譯文,作為對(duì)輸入文的譯文的步驟。
優(yōu)選改良步驟包含多個(gè)候補(bǔ)譯文的每一個(gè)分別根據(jù)規(guī)定的變形方式變形的步驟;在變形步驟中被變形的候補(bǔ)譯文,根據(jù)評(píng)價(jià)方式評(píng)價(jià)的步驟;在評(píng)價(jià)步驟中,對(duì)候補(bǔ)譯文得到的評(píng)價(jià)值,判斷其相對(duì)于對(duì)在變形步驟中輸入的候補(bǔ)譯文所得到的評(píng)價(jià)是否被改進(jìn)的步驟;在判斷步驟中,被認(rèn)為評(píng)價(jià)值沒有被改進(jìn)之前,對(duì)由變形步驟變形的候補(bǔ)譯文,進(jìn)行變形的步驟和重復(fù)評(píng)價(jià)的步驟。
本發(fā)明的目的、特征、方案及效果,在下面參照附圖對(duì)發(fā)明進(jìn)行詳細(xì)說明,這樣會(huì)更加清楚。


圖1是與本發(fā)明第1實(shí)施例相關(guān)的機(jī)器翻譯系統(tǒng)的功能框圖。
圖2是圖1所示的候補(bǔ)譯文生成部32的詳細(xì)功能框圖。
圖3是圖2所示的第1翻譯裝置35A的詳細(xì)功能框圖。
圖4是圖2所示的第2翻譯裝置35B的詳細(xì)功能框圖。
圖5是圖2所示的第3翻譯裝置35C的詳細(xì)功能框圖。
圖6是圖2所示的第4翻譯裝置35D的詳細(xì)功能框圖。
圖7是用于說明譯文合并處理模式的圖。
圖8是圖2所示的第5翻譯裝置35E的詳細(xì)功能框圖。
圖9是用于說明譯文構(gòu)造共有化處理的圖。
圖10是圖1所示的譯文改良部36的功能框圖。
圖11是與本發(fā)明第2實(shí)施例相關(guān)的機(jī)器翻譯系統(tǒng)功能框圖。
圖12是圖11所示的第1最優(yōu)翻譯生成部102A的詳細(xì)功能框圖。
圖13是表示與第2實(shí)施例相關(guān)的機(jī)器翻譯系統(tǒng)的網(wǎng)絡(luò)構(gòu)成圖。
圖14是表示實(shí)現(xiàn)與本發(fā)明一實(shí)施例相關(guān)的機(jī)器翻譯系統(tǒng)的計(jì)算機(jī)外觀圖。
圖15是圖14所示計(jì)算機(jī)的框圖。
具體實(shí)施例方式
(第1實(shí)施例)本實(shí)施例的機(jī)器翻譯系統(tǒng),是根據(jù)已經(jīng)存在的翻譯資源和譯文改良手法的組合的新框架的系統(tǒng)。
-構(gòu)成-在圖1中表示與本實(shí)施例相關(guān)的機(jī)器翻譯系統(tǒng)20的框圖。參照?qǐng)D1,該機(jī)器翻譯系統(tǒng)20是把第1語言(作為語言J)的輸入文30翻譯成第2語言(作為語言E)譯文的輸出文42的系統(tǒng)。機(jī)器翻譯系統(tǒng)20,包含接受第1語言的輸入文30,作為候補(bǔ)譯文生成采用后述各種機(jī)器翻譯手法形成的譯文,以規(guī)定的順序輸出的候補(bǔ)譯文生成部32;將由候補(bǔ)譯文生成部32輸出的候補(bǔ)譯文,根據(jù)后述的方法進(jìn)行改良,在滿足規(guī)定條件的時(shí)刻,用于輸出最優(yōu)候補(bǔ)譯文的譯文改良部36;應(yīng)答在譯文改良部36被改良之后的候補(bǔ)譯文輸出的事件,判斷規(guī)定的結(jié)束條件是否被滿足,結(jié)束條件被滿足時(shí),在此之前得到的改良后的候補(bǔ)譯文中,按照規(guī)定的評(píng)價(jià)基準(zhǔn),選擇評(píng)價(jià)得分最高的譯文作為輸出文42并輸出的結(jié)束判斷部38。
結(jié)束判斷部38具有,在判斷為還不滿足結(jié)束條件時(shí),對(duì)候補(bǔ)譯文生成部32,發(fā)出指示再次生成初始候補(bǔ)這樣的控制信號(hào)41的功能。候補(bǔ)譯文生成部32具備,應(yīng)答該控制信號(hào)41,生成與先前生成的初始候補(bǔ)不同的初始候補(bǔ),給予譯文改良部36的功能。
圖2是表示候補(bǔ)譯文生成部32更詳細(xì)的功能框圖。參照?qǐng)D2,譯文生成部32包含翻譯所給出的句子,分別輸出各個(gè)譯文39A~39E的第1~第5翻譯裝置35A~35E;把輸入文30,按照從結(jié)束判斷部38輸出的控制信號(hào)41,分配到這些第1~第5翻譯裝置35A~35E中的任一個(gè)的分配部33;從接受了輸入文30的翻譯裝置中輸出的譯文,按照結(jié)束判斷部38輸出的控制信號(hào)41進(jìn)行選擇,作為初始候補(bǔ)譯文39輸出的選擇部37。
第1~第5翻譯裝置35A~35E,在本實(shí)施例中,以互相不同的方式進(jìn)行翻譯。因此,即使給出同一輸入文30,從第1~第5翻譯裝置35A~35E得到的譯文39A~39E互相之間不同的可能性很大。而且,在本例中,作為翻譯裝置,雖然是用了5個(gè),但是這個(gè)數(shù)目只要是多個(gè)即可,并不局限于5個(gè)。另外,同一方式的翻譯裝置,也可以是使用不同的翻譯知識(shí)。
圖3表示在本實(shí)施例中的第1翻譯裝置35A的詳細(xì)框圖。參照?qǐng)D3,第1翻譯裝置35A包含由第1語言的句子和第2語言的句子組成的對(duì)譯文包含多個(gè)的對(duì)譯文集34;參照對(duì)譯文集34,用于計(jì)算表示輸入文30和對(duì)譯文集34的各個(gè)第1語言的句子之間類似程度的類似尺度的tf/idf基準(zhǔn)Ptf/idf的tf/idf計(jì)算部50A。tf/idf基準(zhǔn)Ptf/idf把對(duì)譯文集34的第1語言的各個(gè)句子重新視為1個(gè)文件,在信息檢索算法中,一般使用被稱為文檔頻度的概念,是由下式定義的尺度。
Ptf/idf(Jk,J0)=Σi:J0,i∈Jklog(N/df(J0,i))/logN|J0|]]>式中,J0表示輸入文,J0,i表示輸入文J0的第i號(hào)單詞,df(J0,i)表示輸入文J0的第i號(hào)單詞J0,i所對(duì)的文檔頻度,N表示對(duì)譯文集34內(nèi)的所有譯文的數(shù)目。所謂文檔頻度df(J0,i)是指輸入文J0中的第i號(hào)單詞J0,i出現(xiàn)的文檔(本實(shí)施例中是句子)的數(shù)目。
第1的翻譯裝置35A進(jìn)一步包含編輯距離計(jì)算部52A,對(duì)于對(duì)譯文集34所包含的各個(gè)對(duì)譯文(Jk,Ek)的第1語言的句子Jk,和輸入文J0之間的DP(Dynamic Programming)進(jìn)行匹配,計(jì)算出編輯距離dis(Jk,J0);得分計(jì)算部54A,根據(jù)tf/idf計(jì)算部50A計(jì)算出的tf/idf基準(zhǔn)Ptf/idf及編輯距離部52A計(jì)算出的編輯距離,按照后述的式子計(jì)算出各個(gè)對(duì)譯文的得分。
編輯距離部52A計(jì)算的編輯距離dis(Jk,J0)用下面的式子表示。
dis(Jk,J0)=I(Jk,J0)+D(Jk,J0)+S(Jk,J0)式中,k是1≤k≤N的整數(shù),I(Jk,J0)、D(Jk,J0)、及S(Jk,J0)分別是從句子J0到Jk的插入/刪除/置換的次數(shù)(編輯距離)。另外編輯距離使用可以很容易得到的軟件工具計(jì)算。
由得分計(jì)算部54A計(jì)算出的得分根據(jù)下式表示。
式中,α是調(diào)整參數(shù),在本實(shí)施例中使α=0.2。
參照?qǐng)D3,第1翻譯裝置35A進(jìn)一步包含對(duì)譯文選擇部56A,其根據(jù)得分計(jì)算部54A計(jì)算出的得分,選擇具有最大得分的對(duì)譯文,把包含在該對(duì)譯文中的第2語言的句子作為第1初始候補(bǔ)譯文39A并輸出,給予圖1所示的譯文改良部36。
圖4以框圖形式表示第2翻譯裝置35B的構(gòu)成。參照?qǐng)D4,第2翻譯裝置35B包含把第1語言輸入文30翻譯為第3語言句子用的既存翻譯系統(tǒng)組成的第1中間翻譯裝置50B;用于把第1中間翻譯裝置50B輸出的第3語言的句子翻譯為上述第2語言的句子的第2中間翻譯裝置52B。
作為第1中間翻譯裝置50B和第2中間翻譯裝置52B以高性能存在時(shí),這樣通過第3語言,從第1語言向第2語言進(jìn)行翻譯,有時(shí)會(huì)得到很好的翻譯結(jié)果。在本實(shí)施例的系統(tǒng)中,用這樣的中間語言得到的翻譯結(jié)果,可以作為譯文的初始候補(bǔ)使用。
而且,第1和第3語言的也可是互相不同的語言,也可是互相相同的語言。這時(shí),第1中間翻譯裝置50B稱為在第1語言內(nèi)的進(jìn)行換言的裝置。另外,第2語言和第3語言可以是相同的語言。這時(shí),第2中間翻譯裝置52B稱為第2語言內(nèi)的進(jìn)行換言的裝置。
圖5是表示第3翻譯裝置35C的詳細(xì)框圖。參照?qǐng)D5,第3翻譯裝置35C包含用于將輸入文30分別翻譯為第2語言的,互不相同的翻譯方式的第1~第3翻譯部50C-1~50C-3;根據(jù)規(guī)定的基準(zhǔn)評(píng)價(jià)這些第1~第3翻譯部50C-1~50C-3輸出的翻譯質(zhì)量,選擇根據(jù)該基準(zhǔn)認(rèn)為最優(yōu)的,作為第3初始候補(bǔ)譯文39C輸出用的譯文選擇部52C。
第1~第3翻譯部50C-1~50C-3的翻譯方式,只要互不相同,哪種方式都可以。
作為譯文選擇部52C的譯文評(píng)價(jià)基準(zhǔn),可以考慮各種形式,關(guān)于這些,可以考慮和譯文改良部36的翻譯質(zhì)量評(píng)價(jià)的基準(zhǔn)相同,所以在這里不進(jìn)行詳細(xì)地說明。
圖6是表示第4翻譯裝置35D的詳細(xì)框圖。參照?qǐng)D6,第4翻譯裝置35D包含用于將輸入文30分別翻譯為第2語言的,互不相同的翻譯方式的第4~第6翻譯部50D-1~50D-3;合并這些第4~第6翻譯部50D-1~50D-3的輸出,作為第4初始候補(bǔ)譯文39D并輸出的譯文合并部52D。
第4~第6翻譯部50D-1~50D-3,和第1~第3翻譯部50C-1~50C-3一樣,只要互不相同的翻譯方式,哪種方式都可以。
由譯文合并部52D的譯文合并進(jìn)行以下那樣的處理。為了簡單,以輸入文為“This is a pen.”這句英語為例來說明。參照?qǐng)D7,從這第4~第6翻譯部50D-1~50D-3對(duì)于這句輸入文分別得到“これはペンです(這是筆)”、“これはペンだ(這是筆)”、“これは筆です(這是筆)”這樣的譯文。在譯文合并中,以構(gòu)成這些句子的每個(gè)單詞或者單詞列進(jìn)行各個(gè)譯文比較,選擇在譯文中出現(xiàn)最多的單詞或者單詞列作為后面譯文的單詞或者單詞列。
例如,在上述圖7所示的例子中,在方框60D內(nèi)顯示的部分在3個(gè)譯文中相同。因此從這部分選擇“これは(這)”作為譯文的要素。接著,如方框61D及62D所示,“ペン(筆)”這個(gè)詞在兩個(gè)譯文中出現(xiàn),“筆(筆)”這個(gè)詞只在一個(gè)譯文中出現(xiàn)。因此,從這部分選擇“ペン(筆)”作為譯文要素。同樣,從方框63D~65D選擇“です(是)”。其結(jié)果得到作為合并后的譯文如方框69D所示“これはペンです(這是筆)”。
一般地說,在多個(gè)機(jī)器翻譯系統(tǒng)中,如果有被共同使用的單詞或者單詞列,該單詞或者單詞列作為譯文是妥當(dāng)?shù)目赡苄源蟆R虼?,根?jù)象上述那樣的合并處理,能夠得到接近正確的譯文的可能性大。因此,使用這樣合并處理的結(jié)果作為初始候補(bǔ)譯文。
圖8是表示第5翻譯裝置35E的詳細(xì)框圖。第5翻譯裝置35E包含用于把輸入文分別翻譯為第2語言的第7~第9翻譯部50E-1~50E-3;對(duì)第7~第9翻譯部50E-1~50E-3輸出的譯文,生成具有共同結(jié)構(gòu)的的譯文作為第5初始候補(bǔ)譯文39E的譯文共同結(jié)構(gòu)化部52E。
所謂生成譯文共同結(jié)構(gòu)的處理是進(jìn)行如下的處理。參照?qǐng)D9,和圖7所示的一樣,以輸入文為“This is a pen.”這個(gè)英語句子為例進(jìn)行說明。參照?qǐng)D9,從該第7~第9的翻譯部50E-1~50E-3中,分別得到“これはペンです(這是筆)”、“これはペンだ(這是筆)”、“これは筆です(這是筆)”這樣的譯文。
譯文共有結(jié)構(gòu)的生成,譯文單詞列基本上以圖表示。例如,在圖9的方框60E所示,互相共同的部分(“これは(這)”)在圖中集中在一段弧線。而且,根據(jù)方框61E和62E及方框63E~65E分別所示那樣,生成互相對(duì)應(yīng)的部分且互不相同的單詞或者單詞列的部分中,把這些區(qū)別用另外的弧線(“ペン(筆)”和“筆(筆)”,以及“です(是)”和“だ(是)”)表示。第5初始候補(bǔ)譯文39E是具有這樣的圖結(jié)構(gòu)69E的候補(bǔ)譯文。
在本實(shí)施例中,使用以上的5個(gè)翻譯裝置。但是,對(duì)于這以外的翻譯系統(tǒng),只要是可以進(jìn)行從第1語言翻譯到第2語言的,無論哪個(gè)都可代替第1~第5翻譯裝置35A~35E的任一個(gè),或者加上這些一起使用。另外,也含有第1~第5翻譯裝置35A~35E,可以利用的翻譯系統(tǒng)無論怎樣組合都作為候補(bǔ)譯文生成部32的要素使用。
圖10是表示圖1所示的譯文改良部36的詳細(xì)框圖。參照?qǐng)D10,譯文改良部36包含候補(bǔ)譯文生成部32輸出的初始候補(bǔ)譯文39;用于從后述的譯文存儲(chǔ)部73讀出的譯文的任一個(gè)中選擇一個(gè)的譯文選擇部70;用于把譯文選擇部70選擇出的譯文,按照后述方式進(jìn)行變形的譯文變形部71;用于根據(jù)規(guī)定的評(píng)價(jià)基準(zhǔn),評(píng)價(jià)由譯文變形部71變形后的譯文翻譯質(zhì)量,輸出其得分的變形后譯文評(píng)價(jià)部72。
譯文改良部36進(jìn)一步包含與變形后譯文評(píng)價(jià)部72輸出的得分一起存儲(chǔ)變形后譯文的譯文存儲(chǔ)部73;根據(jù)變形后譯文評(píng)價(jià)部72輸出的得分,判斷是否滿足使譯文改良結(jié)束的結(jié)束條件,根據(jù)判斷結(jié)果控制重復(fù)執(zhí)行的重復(fù)控制部74。
重復(fù)控制部74具有按照選擇譯文存儲(chǔ)部73或者初始候補(bǔ)譯文39中的任一方那樣,對(duì)譯文選擇部70發(fā)送出選擇控制信號(hào)的功能。但是,在處理的最初,譯文選擇部70必須選擇譯文39A~39E。然后的處理中是選擇譯文39A~39E、還是選擇譯文存儲(chǔ)部73的輸出,這根據(jù)讓譯文以哪種方案變形的不同而不同。
重復(fù)控制部74另外還具有根據(jù)變形后評(píng)價(jià)部72的得分,判斷不滿足結(jié)束條件時(shí),以規(guī)定方式選擇從譯文存儲(chǔ)部73存儲(chǔ)的譯文中任一個(gè),給予譯文選擇部70,按照這樣控制譯文選擇部73的功能;以及被判斷滿足結(jié)束條件時(shí),對(duì)后續(xù)的結(jié)束判斷部38,發(fā)送出表示譯文改良部36的譯文改良處理完畢的信號(hào)的功能。
由重復(fù)控制部74從譯文存儲(chǔ)部73進(jìn)行譯文選擇的順序,是和在譯文變形部71進(jìn)行的譯文變形方式相關(guān)聯(lián)而定。在譯文變形部71進(jìn)行的譯文變形中,可以利用任意的文本變形算法。在本實(shí)施例中,使用根據(jù)在統(tǒng)計(jì)翻譯中被使用的語言模型和翻譯模型將譯文變形為類似度高的譯文的方式。
作為文本變形算法,也可以使用這以外的各種方法??梢耘e出下面這些示例。
(1)只用語言模型變形。
(2)只用翻譯模型變形。
(3)根據(jù)預(yù)先人工做成的句子改換模式變形。
(4)基于機(jī)械的學(xué)習(xí)出的改換模式變形。作為這時(shí)的學(xué)習(xí),例如,可以考慮,機(jī)器翻譯結(jié)果和范例文集中的正確之間進(jìn)行比較,其相差部分作為改換模式的學(xué)習(xí)方式。
(5)單詞置換、插入、刪除等隨機(jī)的或者某種模型進(jìn)行。
作為變形后譯文選擇評(píng)價(jià)部72的翻譯質(zhì)量評(píng)價(jià)手法,也可以使用包含將來可以使用的手法在內(nèi)的各種手法。在本實(shí)施例中,根據(jù)在統(tǒng)計(jì)翻譯中被使用的語言模型和翻譯模型計(jì)算譯文的類似度,變換后的譯文沒有出現(xiàn)改良時(shí)判斷為滿足結(jié)束條件。
此外,作為翻譯評(píng)價(jià)的尺度所考慮的手法例舉以下示例。
(1)只由語言模型得到的類似度。
(2)只有翻譯模型得到的類似度。
(3)被稱為直譯度的尺度。作為直譯度可以使用如下式定義的Tanimoto系數(shù)。

式中,|·|表示集合要素的數(shù)量、所謂內(nèi)容詞,是判斷句子意思內(nèi)容方面重要的詞。認(rèn)為根據(jù)在單詞字典中是否包含該單詞,來決定該單詞是否是內(nèi)容詞。
(4)多重反翻譯類似度。所謂多重反翻譯類似度,是表示把暫時(shí)得到的譯文,用向第1語言的多個(gè)翻譯系統(tǒng)反翻譯的結(jié)果,和輸入文何種程度類似的尺度。如果該尺度高,可以認(rèn)為譯文近似于輸入文的正確譯文。
(5)在生成參考譯文方面,使用該參考譯文,評(píng)價(jià)譯文的手法。作為該手法熟知的有BLEU得分、WER(Word Error Rate)、NIST得分、PER(Position Independent WER)等。以下對(duì)主要的進(jìn)行說明。
<WER>表示W(wǎng)ord-error-rate(單詞錯(cuò)誤率)。這是反映和作為基準(zhǔn)的標(biāo)準(zhǔn)翻譯相比較時(shí)的編輯距離(插入/刪除/置換)的手法。
<PRE>表示位置獨(dú)立(Positiong-independent)WER。這時(shí)除了位置問題,反映只和插入刪除相關(guān)的編輯距離的手法。
<BLEU>表示BLEU得分。在翻譯結(jié)果的N元當(dāng)中,在作為基準(zhǔn)的標(biāo)準(zhǔn)翻譯中,出現(xiàn)的幾率。與上述WER和PER不同,BLEU得分值越高翻譯質(zhì)量越好。
而且,評(píng)價(jià)除此之外使用哪種的手法進(jìn)行都可以。另外,也可以根據(jù)領(lǐng)域采用特定的評(píng)價(jià)手法。如果將來出現(xiàn)有效的手法,也可以采用。
而且,重復(fù)控制部74在變形的譯文的翻譯質(zhì)量未出現(xiàn)改良時(shí)結(jié)束重復(fù)變形。在翻譯質(zhì)量沒出現(xiàn)改良時(shí)也可以繼續(xù)變形。只是,本實(shí)施例因?yàn)樵谥貜?fù)控制中使用登山法,所以如果翻譯質(zhì)量惡化就結(jié)束重復(fù)變形。
這樣,譯文改良部36將譯文變形,評(píng)出具有最高評(píng)價(jià)的譯文作為輸出譯文,與得分一起輸出到結(jié)束判斷部38。
結(jié)束判斷部38,根據(jù)從譯文改良部36的輸出文76和其得分,判斷是否讓處理結(jié)束。在本實(shí)施例中,對(duì)于單純對(duì)在候補(bǔ)譯文生成部32所包含的第1~第5翻譯裝置35A~35E的輸出全部,判斷譯文改良部36的處理是否結(jié)束。在對(duì)于所有結(jié)束時(shí),將最高得分的譯文作為輸出文42輸出。對(duì)于所有沒有結(jié)束時(shí),對(duì)于下面的翻譯裝置按照進(jìn)行上述處理那樣,把控制信號(hào)輸出到候補(bǔ)譯文生成部32,使處理繼續(xù)。
作為處理結(jié)束條件,不限于此,下面例舉的示例條件中可以任意采用。但是,這個(gè)結(jié)束條件與翻譯質(zhì)量改良時(shí)的重復(fù)操作方法有關(guān)系,可能出現(xiàn)特定的重復(fù)方法只能用特定的結(jié)束判斷,或者特定的結(jié)束判斷不能適用特定的重復(fù)方法等情況。但是這些都屬于設(shè)計(jì)事項(xiàng)的問題,只要是從業(yè)者就可以選擇合適的結(jié)束條件。
(1)如果超過預(yù)先設(shè)定的重復(fù)次數(shù)或者計(jì)算時(shí)間就結(jié)束。
(2)如果在預(yù)先設(shè)定的重復(fù)次數(shù)或者計(jì)算時(shí)間內(nèi)翻譯質(zhì)量沒有得到改良就結(jié)束。
(3)如果翻譯質(zhì)量沒有得到改良就結(jié)束。
(4)如果得到達(dá)到預(yù)先設(shè)定的目標(biāo)得分的譯文就結(jié)束。
—?jiǎng)幼鳌獧C(jī)器翻譯系統(tǒng)20按照下面那樣動(dòng)作。圖3所示的對(duì)譯文集34中,預(yù)先包含由第1語言的原文和第2語言的譯文組成的多個(gè)對(duì)譯文。另外語言模型和翻譯模型也根據(jù)某種方式預(yù)先準(zhǔn)備。
參照?qǐng)D1,輸入文30被給予候補(bǔ)譯文生成部32。
參照?qǐng)D2,分配部33將輸入文30給予第1翻譯裝置35A。
參照?qǐng)D3,第1翻譯裝置35A的tf/idf計(jì)算部50A,計(jì)算輸入文30和對(duì)譯文集34中所有對(duì)譯文中的第1語言的句子之間的tf/idf基準(zhǔn)Ptf/idf。編輯距離計(jì)算部52A,同樣計(jì)算輸入文30和所有對(duì)譯文集34中的第1語言的句子Jk之間的編輯距離dis(Jk,J0)。
得分計(jì)算部54A,使用tf/idf計(jì)算部50A計(jì)算出的tf/idf基準(zhǔn)Ptf/idf和編輯距離計(jì)算部52A計(jì)算出的編輯距離dis(Jk,J0),按照下面的式子,計(jì)算出上述得分score。
對(duì)譯文選擇部56A,在對(duì)譯文集34中所包含的對(duì)譯文中,選擇得分score高的譯文,作為譯文39A給予圖2所示的選擇部37。
選擇部37,根據(jù)結(jié)束判斷部38的控制信號(hào)選擇譯文39A,作為譯文39給予譯文改良部36。
參照?qǐng)D10,譯文改良部36的譯文選擇部70,選擇被給予的初始候補(bǔ)譯文39給予譯文變形部71。譯文選擇部71對(duì)于該譯文進(jìn)行規(guī)定的幾種變形,把得到的多個(gè)變形譯文給予譯文變形后譯文評(píng)價(jià)部72。變形后譯文評(píng)價(jià)部72,對(duì)于各個(gè)被變形的譯文,按照上述那樣根據(jù)規(guī)定的評(píng)價(jià)方式進(jìn)行評(píng)價(jià),與其得分一起給予譯文存儲(chǔ)部73。變形后譯文評(píng)價(jià)部72,另外還把這些得分給予重復(fù)控制部74。
重復(fù)控制部74,判斷這些得分是否滿足規(guī)定的條件。在本實(shí)施例中,重復(fù)控制部74,如果認(rèn)為任一得分沒有被改善,就結(jié)束處理。在最初的處理中,通常認(rèn)為根據(jù)幾種變形得到的譯文得分是被改善,所以重復(fù)控制部74對(duì)于譯文選擇部70、譯文變形部71、及譯文存儲(chǔ)部73輸出重復(fù)處理指示,同時(shí)對(duì)譯文存儲(chǔ)部73輸出,方才存儲(chǔ)的譯文中得分出現(xiàn)改善的譯文之一輸出到譯文選擇部70這樣的指示。
譯文選擇部70,根據(jù)這一次重復(fù)控制部74發(fā)出的指示,選擇從譯文存儲(chǔ)部73給予的被變形的譯文之一,給予譯文變形部71。譯文變形部71,對(duì)給予的譯文進(jìn)行和上述同樣的幾種變形。對(duì)于各個(gè)由該變形得到的譯文,變形后譯文評(píng)價(jià)部72進(jìn)行再次評(píng)價(jià)計(jì)算得分,重復(fù)控制部74判斷得分是否被改善。譯文變形部71、變形后譯文評(píng)價(jià)部72、譯文存儲(chǔ)部73、及重復(fù)控制部74,一邊進(jìn)行改變變形對(duì)象的譯文一邊重復(fù)進(jìn)行這種處理,直到在任一譯文的得分都不出現(xiàn)改善為止。
象以上這樣,對(duì)于一個(gè)候補(bǔ)譯文按照多個(gè)變形進(jìn)行,評(píng)價(jià)這些得分,對(duì)得分出現(xiàn)改善的譯文進(jìn)一步進(jìn)行同樣的變形和評(píng)價(jià),這個(gè)動(dòng)作重復(fù)實(shí)行到對(duì)任一變形后的譯文都不見改善為止,根據(jù)這樣得到與初始候補(bǔ)譯文39相比得分提高很大的譯文的可能性大。
如果哪個(gè)譯文的得分都不見改善,那么重復(fù)控制部74,按照在上述重復(fù)處理中,把最高得分的譯文作為輸出文76輸出這樣控制譯文存儲(chǔ)部73,并把結(jié)束信號(hào)給予圖1所示的結(jié)束判斷部38。
結(jié)束判斷部38,響應(yīng)該結(jié)束信號(hào),判斷是否應(yīng)該將處理停止。在本實(shí)施例中,關(guān)于圖2所示第1~第5翻譯裝置35A~35E的全體,對(duì)于其生成的譯文的改良處理結(jié)束,全部處理才結(jié)束。因此結(jié)束判斷部38,根據(jù)第2翻譯裝置35B生成的譯文,應(yīng)將上述譯文重復(fù)進(jìn)行改良,把控制信號(hào)41給予候補(bǔ)譯文生成部32。
參照?qǐng)D2,分配部33響應(yīng)給信號(hào),把輸入文30給予第2翻譯裝置35B。第2翻譯裝置35B,如圖4所示那樣,進(jìn)行第1中間翻譯裝置50B和第2中間翻譯裝置52B的翻譯處理,生成譯文39B,給予選擇部37。
選擇部37,根據(jù)結(jié)束判斷部38輸出的控制信號(hào),選擇第2翻譯裝置35B的輸出譯文39B,作為初始候補(bǔ)譯文39給予譯文改良部36。以下,譯文改良部36和選擇部37,重復(fù)進(jìn)行與第1翻譯裝置35A的譯文處理相同的處理。
這樣,對(duì)于第1~第5翻譯裝置35A~35E生成的譯文39A~39E的全體,上述譯文改良處理一結(jié)束,圖10所示的重復(fù)控制部74就把完畢信號(hào)77給予圖1所示的結(jié)束判斷部38。結(jié)束判斷部38,一接到該完畢信號(hào)77,就判斷處理滿足應(yīng)該結(jié)束的條件,在至今以前的處理中得到的譯文中,把得分最高的譯文作為輸出文42輸出。
作為候補(bǔ)譯文生成部32使用的翻譯裝置,是已經(jīng)存在的裝置,也包括今后可以利用的裝置,哪種裝置都可以利用。
根據(jù)本實(shí)施例,對(duì)于同一輸入文,由互相不同的多個(gè)機(jī)器翻譯系統(tǒng)得到的譯文作為各自的起點(diǎn),進(jìn)行譯文改良,分別選擇具有最優(yōu)得分的譯文,進(jìn)一步從中選擇具有最高得分的譯文作為最終的譯文。因?yàn)閺亩鄠€(gè)譯文開始的,所以不但是局部解,而且獲得大范圍的最優(yōu)解的可能性很大。另外,作為用于得到的最初譯文的機(jī)器翻譯系統(tǒng),無論是哪種都可以,可以充分利用現(xiàn)有的機(jī)器翻譯系統(tǒng)。而且甚至也可以利用今后開發(fā)的機(jī)器翻譯系統(tǒng)或者翻譯評(píng)價(jià)手法,使用這種結(jié)構(gòu),譯文的品質(zhì)可以達(dá)到很高。
只要確定用于翻譯質(zhì)量的基準(zhǔn)和手法及基本的多個(gè)機(jī)器翻譯系統(tǒng),不管語言組合,都能改良任意語言之間的譯文質(zhì)量。
而且,在上述的機(jī)器翻譯系統(tǒng)中,具有為了改良譯文的品質(zhì)基本上不需要人工,系統(tǒng)結(jié)構(gòu)的開發(fā)也比較地簡單,具有短期內(nèi)可以實(shí)現(xiàn)的特點(diǎn)。
而且上述實(shí)施例中,被變形的譯文中,得分上出現(xiàn)提高的譯文全體再次進(jìn)行譯文的改良。但是,本發(fā)明并不局限于這樣的實(shí)施例。例如,被變形的譯文在得分上出現(xiàn)提高的譯文中,只對(duì)處于前幾位規(guī)定個(gè)數(shù)(例如1個(gè))的譯文,進(jìn)行其后的變形和評(píng)價(jià)也可以。
另外,優(yōu)選進(jìn)行多種變形,但是只進(jìn)行一種變形也可以。
另外,在上述實(shí)施例中,使多個(gè)機(jī)器翻譯裝置順序地動(dòng)作,做到一次只讓一個(gè)機(jī)器翻譯裝置動(dòng)作。但是,本發(fā)明并不局限于這樣的實(shí)施方式。使多個(gè)機(jī)器翻譯裝置同時(shí)動(dòng)作也可以。另外,如第2實(shí)施例,也可以使最初的機(jī)器翻譯和其后的譯文改良任一個(gè)并列實(shí)施。
(第2實(shí)施例)如上述那樣,第1實(shí)施例的裝置可以由計(jì)算機(jī)實(shí)現(xiàn)。另外,從圖2等也表明,第1實(shí)施例的裝置,包含其內(nèi)部可以相互獨(dú)立動(dòng)作的構(gòu)成要素(例如,第1~第5翻譯裝置35A~35E、第1~第3翻譯部50C-1~50C-3、第4~第6翻譯部50D-1~50D-3、第7~第9翻譯部50E-1~50E-3等)。因此根據(jù)使用計(jì)算機(jī)的通信功能和任務(wù)分配功能,可以將第1實(shí)施例的系統(tǒng)用網(wǎng)絡(luò)連接的多個(gè)計(jì)算機(jī)實(shí)現(xiàn)。第2實(shí)施例的系統(tǒng),是象這樣把多個(gè)計(jì)算機(jī)互相用網(wǎng)絡(luò)連接,將上述處理中能夠并行實(shí)行的,用各個(gè)計(jì)算機(jī)互相并行實(shí)行的系統(tǒng)。
圖11表示該機(jī)器翻譯系統(tǒng)100的概要的功能結(jié)構(gòu)。參照?qǐng)D11,機(jī)器翻譯系統(tǒng)100包含根據(jù)各個(gè)輸入文30,分別基于使用個(gè)別的翻譯系統(tǒng)翻譯的譯文,進(jìn)行上述譯文改良處理,生成最優(yōu)的譯文用的多個(gè)最優(yōu)生成部102A~102N;根據(jù)這些最優(yōu)生成部102A~102N分別生成的最優(yōu)的翻譯中,選擇具有最高得分的譯文作為輸出文進(jìn)行輸出的譯文選擇部104。
最優(yōu)選擇部102A~102N,可以由互相獨(dú)立的計(jì)算機(jī)和完成上述動(dòng)作的程序?qū)崿F(xiàn)。設(shè)置主計(jì)算機(jī)與這些計(jì)算機(jī)用網(wǎng)絡(luò)連接起來,可以用這個(gè)主計(jì)算機(jī)對(duì)各個(gè)計(jì)算機(jī)的輸入文30的分配,及接受來自各計(jì)算機(jī)的譯文從中選擇最優(yōu)的翻譯。
圖12是表示作為第1最優(yōu)翻譯生成部102A的功能性構(gòu)成。該最優(yōu)翻譯生成部102A,如上所述,是通過網(wǎng)絡(luò)連接在主計(jì)算機(jī)上的計(jì)算機(jī)和在其中運(yùn)行的程序?qū)崿F(xiàn)。其他的最優(yōu)翻譯生成部,除了初始候補(bǔ)翻譯部不同之外,都具有同樣的構(gòu)成。
最優(yōu)翻譯生成部102A,和圖2所示的候補(bǔ)譯文生成部32相同,包含只具有一個(gè)翻譯裝置的初始候補(bǔ)生成部106A;將初始候補(bǔ)生成部106A生成的譯文作為初始候補(bǔ)譯文,進(jìn)行與圖10所示的譯文改良部36同樣的處理,生成該最優(yōu)譯文生成部102A的輸出文108A,發(fā)送到主計(jì)算機(jī)用的譯文改良部107A。
譯文改良部107A的構(gòu)成,與圖10所示的譯文改良部36的構(gòu)成同樣。但是,由圖10所示的譯文變形部71和變形后譯文評(píng)價(jià)部72構(gòu)成的處理,可以按照同時(shí)并行的處理那樣的構(gòu)成。因此,這些處理可以通過網(wǎng)絡(luò)連接的其他計(jì)算機(jī)同時(shí)并行地進(jìn)行。
圖13表示由上述計(jì)算機(jī)網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng)的網(wǎng)絡(luò)構(gòu)成的概況。參照?qǐng)D13,該機(jī)器翻譯系統(tǒng)包含控制上述系統(tǒng)動(dòng)作的整體,進(jìn)行分配輸入文的處理和從譯文中選擇最高得分譯文的處理的主計(jì)算機(jī)200;從主計(jì)算機(jī)中接受輸入文,進(jìn)行互相同時(shí)并行的機(jī)器翻譯,將結(jié)果作為初始候補(bǔ),返回主計(jì)算機(jī)200用的初始候補(bǔ)生成計(jì)算機(jī)210A~210N;從主計(jì)算機(jī)200分別接受其他的初始候補(bǔ)計(jì)算機(jī)生成的譯文,把這作為初始候補(bǔ),實(shí)行譯文改良處理用的譯文改良計(jì)算機(jī)220A~220M。
根據(jù)這樣構(gòu)成的機(jī)器翻譯系統(tǒng),因?yàn)榭梢詫⒋罅康挠?jì)算同時(shí)并行地實(shí)行,所以能夠?qū)⒌玫阶罱K的輸出文之前的時(shí)間大幅度的縮短。而且,得到的輸出文的翻譯質(zhì)量和應(yīng)用范圍,和第1實(shí)施例的譯文是相同。進(jìn)一步可以實(shí)現(xiàn)將譯文改良處理的內(nèi)容細(xì)分,用更多的計(jì)算機(jī)階段的同時(shí)并行處理,可以達(dá)到處理進(jìn)一步高速化的目的。
<實(shí)施例的擴(kuò)展>
在上述第1和第2實(shí)施例的構(gòu)成中,可以進(jìn)一步追加下面例舉那樣的功能。
(1)上述實(shí)施例的機(jī)器翻譯系統(tǒng)所得到的輸入文30和輸出文42是成對(duì)存儲(chǔ)的,對(duì)同樣的輸入文30做到返回同樣的輸出文42。根據(jù)這種結(jié)構(gòu),不需要重復(fù)處理,在下一次之后的處理中,可以實(shí)現(xiàn)大幅度提高速度。
(2)上述實(shí)施例的機(jī)器翻譯系統(tǒng)所得到的輸入文30和輸出文42是成對(duì)收集,擴(kuò)展了對(duì)譯文集。使用該擴(kuò)展后的對(duì)譯文集,重構(gòu)范例翻譯或者統(tǒng)計(jì)翻譯。根據(jù)該擴(kuò)展,可以提高對(duì)改進(jìn)范例翻譯或者統(tǒng)計(jì)翻譯的覆蓋率和翻譯質(zhì)量的可能性。
計(jì)算機(jī)實(shí)現(xiàn)而且,與本實(shí)施例相關(guān)的機(jī)器翻譯系統(tǒng),也可由計(jì)算機(jī)硬件和在該機(jī)算計(jì)硬件上運(yùn)行的程序,及存儲(chǔ)在該計(jì)算機(jī)的存儲(chǔ)裝置中的對(duì)譯文集、翻譯模型,及語言模型實(shí)現(xiàn)。
而且,程序根據(jù)上述實(shí)施例的說明,只要是從業(yè)者就可以很容易地實(shí)現(xiàn)。
圖14表示實(shí)現(xiàn)上述機(jī)器翻譯系統(tǒng)的計(jì)算機(jī)系統(tǒng)330外觀,圖15是表示計(jì)算機(jī)系統(tǒng)330的內(nèi)部構(gòu)成。
參照?qǐng)D14,該計(jì)算機(jī)系統(tǒng)330包含具有FD(軟盤)驅(qū)動(dòng)器352和CD-ROM(高密度光盤讀出專用存儲(chǔ)器)驅(qū)動(dòng)器350的計(jì)算機(jī)340;鍵盤346;鼠標(biāo)348;顯示器342。
參照?qǐng)D15,計(jì)算機(jī)340,在FD驅(qū)動(dòng)器352和CD-ROM驅(qū)動(dòng)器350的基礎(chǔ)上,還包含CPU(中央處理器)356;連接FD驅(qū)動(dòng)器352和CD-ROM驅(qū)動(dòng)器350的總線366;存儲(chǔ)引導(dǎo)程序等讀出專用存儲(chǔ)器(ROM)358;連接在總線366上,存儲(chǔ)程序指令、系統(tǒng)程序、及操作數(shù)據(jù)等隨機(jī)存儲(chǔ)器(RAM)360。計(jì)算機(jī)系統(tǒng)330而且還包含打印機(jī)344。
在這里沒有指出,但是計(jì)算機(jī)340還包含提供局域網(wǎng)(LAN)連接的網(wǎng)絡(luò)適配器端口。
在計(jì)算機(jī)系統(tǒng)330中,用于進(jìn)行上述機(jī)器翻譯系統(tǒng)的動(dòng)作的計(jì)算機(jī)程序,存儲(chǔ)在插入CD-ROM驅(qū)動(dòng)器350或者FD驅(qū)動(dòng)器352中的CD-ROM或者FD364上,然后傳送到硬盤354?;蛘?,程序也可以通過圖中沒有表示的網(wǎng)絡(luò),發(fā)送到計(jì)算機(jī)340,存儲(chǔ)在硬盤354上。程序,在執(zhí)行時(shí)被裝載到RAM360中。也可以從CD-ROM362、FD364,或者網(wǎng)絡(luò),直接地裝在到RAM360中。
該程序包含使計(jì)算機(jī)340執(zhí)行上述各實(shí)施例的機(jī)器翻譯系統(tǒng)的動(dòng)作的多個(gè)指令。進(jìn)行該方法的幾項(xiàng)基本功能是由在計(jì)算機(jī)上運(yùn)行的操作系統(tǒng)(OS),或者第3方程序,或者安裝在計(jì)算機(jī)上的各種工具箱組件提供。因此,該程序可以不必包含實(shí)行本實(shí)施例系統(tǒng)和方法所必須的全部功能。該程序,指令中可以只含有實(shí)現(xiàn)上述機(jī)器翻譯系統(tǒng)的指令,根據(jù)調(diào)出適當(dāng)?shù)闹噶罨蛘摺肮ぞ摺保玫狡谕慕Y(jié)果。因?yàn)橛?jì)算機(jī)系統(tǒng)330的動(dòng)作是眾所周知所以這里不再重復(fù)。
本次公開的實(shí)施例只是示例,本發(fā)明并不局限于上述實(shí)施例。本發(fā)明的范圍,在參考發(fā)明的詳細(xì)說明的基礎(chǔ)上,由權(quán)利要求的范圍的各權(quán)利要求項(xiàng)所表示,包含與這里所記載的文字等同意思和在該范圍內(nèi)的所有變更。
權(quán)利要求
1.一種機(jī)器翻譯系統(tǒng),其特征在于,包括分配機(jī)構(gòu),對(duì)第1語言的輸入文,將所述輸入文分別分配給用于生成第2語言譯文的多個(gè)機(jī)器翻譯裝置,并從所述多個(gè)機(jī)器翻譯裝置的每一個(gè)中,接受對(duì)于所述輸入文的所述第2語言的譯文;譯文改良機(jī)構(gòu),以所述分配機(jī)構(gòu)接受的多個(gè)所述第2語言的每一個(gè)譯文作為起點(diǎn),按照以規(guī)定的評(píng)價(jià)方式改進(jìn)評(píng)價(jià)那樣改良譯文;和譯文選擇機(jī)構(gòu),被所述譯文改良機(jī)構(gòu)改良的譯文中,將滿足規(guī)定的條件譯文作為對(duì)所述輸入文的譯文進(jìn)行選擇。
2.根據(jù)權(quán)利要求1所述的機(jī)器翻譯系統(tǒng),其特征在于,進(jìn)一步包含分別連接在所述分配機(jī)構(gòu)上的所述多個(gè)機(jī)器翻譯裝置。
3.根據(jù)權(quán)利要求2所述的機(jī)器翻譯系統(tǒng),其特征在于,所述多個(gè)機(jī)器翻譯裝置含有互不相同方式的第1和第2機(jī)器翻譯裝置。
4.根據(jù)權(quán)利要求1所述的機(jī)器翻譯系統(tǒng),其特征在于,所述譯文改良機(jī)構(gòu)包含譯文變形機(jī)構(gòu),對(duì)被輸入的譯文,進(jìn)行規(guī)定的變形;譯文評(píng)價(jià)機(jī)構(gòu),對(duì)被所述譯文變形機(jī)構(gòu)變形的譯文進(jìn)行所述評(píng)價(jià);和重復(fù)控制機(jī)構(gòu),判斷所述譯文評(píng)價(jià)機(jī)構(gòu)對(duì)變形后的譯文得到的評(píng)價(jià),相對(duì)于所述輸入的譯文得到的評(píng)價(jià)是否被改進(jìn),在確認(rèn)沒有改進(jìn)之前,重復(fù)進(jìn)行所述變形和所述評(píng)價(jià),按照這樣控制所述譯文變形機(jī)構(gòu)和所述評(píng)價(jià)機(jī)構(gòu)。
5.根據(jù)權(quán)利要求4所述的機(jī)器翻譯系統(tǒng),其特征在于,所述譯文變形機(jī)構(gòu),包含用于對(duì)于一個(gè)譯文,進(jìn)行多個(gè)變形,生成多個(gè)被變形的譯文的機(jī)構(gòu);所述評(píng)價(jià)機(jī)構(gòu),包含用于對(duì)于所述多個(gè)被變形的每一個(gè)譯文進(jìn)行所述評(píng)價(jià)的機(jī)構(gòu)。
6.根據(jù)權(quán)利要求5所述的機(jī)器翻譯系統(tǒng),其特征在于,所述重復(fù)控制機(jī)構(gòu)包含對(duì)所述譯文變形機(jī)構(gòu)和所述評(píng)價(jià)機(jī)構(gòu)進(jìn)行控制的機(jī)構(gòu),其對(duì)所述譯文變形機(jī)構(gòu)變形的多個(gè)譯文的每一個(gè),在所述評(píng)價(jià)機(jī)構(gòu)的評(píng)價(jià)沒有出現(xiàn)改進(jìn)之前,重復(fù)實(shí)行所述變形和所述評(píng)價(jià)。
7.根據(jù)權(quán)利要求5所述的機(jī)器翻譯系統(tǒng),其特征在于,所述重復(fù)控制機(jī)構(gòu)包含對(duì)所述譯文變形機(jī)構(gòu)和所述評(píng)價(jià)機(jī)構(gòu)進(jìn)行控制的機(jī)構(gòu),其對(duì)所述譯文變形機(jī)構(gòu)變形的多個(gè)譯文中,對(duì)于評(píng)價(jià)在前幾位規(guī)定個(gè)數(shù)內(nèi)的每個(gè)譯文,由所述評(píng)價(jià)機(jī)構(gòu)的評(píng)價(jià)沒有出現(xiàn)改進(jìn)之前,重復(fù)實(shí)行所述變形和所述評(píng)價(jià)。
8.根據(jù)權(quán)利要求4所述的機(jī)器翻譯系統(tǒng),其特征在于,所述譯文評(píng)價(jià)機(jī)構(gòu)包含根據(jù)所述第2語言的語言模型和從所述第2語言向所述第1語言的翻譯模型,計(jì)算譯文的類似度的機(jī)構(gòu)。
9.根據(jù)權(quán)利要求1所述的機(jī)器翻譯系統(tǒng),其特征在于,所述譯文改良機(jī)構(gòu)包含譯文變形機(jī)構(gòu),對(duì)被輸入的譯文,進(jìn)行規(guī)定的變形;譯文評(píng)價(jià)機(jī)構(gòu),對(duì)被所述譯文變形機(jī)構(gòu)變形的譯文進(jìn)行所述評(píng)價(jià);和重復(fù)控制機(jī)構(gòu),對(duì)被所述譯文變形機(jī)構(gòu)變形后的譯文,只將所述變形和所述評(píng)價(jià)重復(fù)進(jìn)行預(yù)定的次數(shù)那樣,控制所述譯文變形機(jī)構(gòu)和所述評(píng)價(jià)機(jī)構(gòu)。
10.根據(jù)權(quán)利要求9所述的機(jī)器翻譯系統(tǒng),其特征在于,所述譯文選擇機(jī)構(gòu)包含,用于在所述重復(fù)控制機(jī)構(gòu)的重復(fù)中得到的多個(gè)譯文當(dāng)中,選擇由所述評(píng)價(jià)機(jī)構(gòu)評(píng)價(jià)最高的譯文的機(jī)構(gòu)。
11.根據(jù)權(quán)利要求9所述的機(jī)器翻譯系統(tǒng),其特征在于,所述譯文評(píng)價(jià)機(jī)構(gòu)包含,根據(jù)所述第2語言的語言模型和從所述第2語言向所述第1語言的翻譯模型,計(jì)算譯文類似度的機(jī)構(gòu)。
12.一種計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì),其特征在于,存儲(chǔ)著由計(jì)算機(jī)實(shí)現(xiàn)時(shí),使該計(jì)算機(jī)作為權(quán)利要求1所述的機(jī)器翻譯系統(tǒng)運(yùn)行的計(jì)算機(jī)程序。
13.一種機(jī)器翻譯系統(tǒng)的控制裝置,其特征在于,包含譯文取得機(jī)構(gòu),對(duì)互相不同方式的多個(gè)機(jī)器翻譯裝置給予第1語言的輸入文,分別得到對(duì)應(yīng)的第2語言的譯文;變形譯文取得機(jī)構(gòu),將所述譯文取得機(jī)構(gòu)得到的所述第2語言的譯文,分別作為所述第2語言的譯文的各個(gè)起點(diǎn),分別給予象改進(jìn)遵照規(guī)定評(píng)價(jià)方式的評(píng)價(jià)那樣將譯文變形的多個(gè)譯文變形機(jī)構(gòu),接受被變形的多個(gè)譯文和各自附帶的評(píng)價(jià)值;和譯文選擇機(jī)構(gòu),在變形譯文取得機(jī)構(gòu)所取得的譯文中,將滿足規(guī)定條件的譯文作為對(duì)所述輸入文的譯文進(jìn)行選擇并輸出。
14.根據(jù)權(quán)利要求13所述的機(jī)器翻譯系統(tǒng)的控制裝置,其特征在于,所述譯文選擇機(jī)構(gòu)包含,在所述變形譯文取得機(jī)構(gòu)所取得的譯文中選擇具有最高得分的譯文的機(jī)構(gòu)。
15.一種機(jī)器翻譯方法,其特征在于,包含對(duì)于第1語言的輸入文,將所述輸入文分配給用于分別生成第2語言譯文的多個(gè)機(jī)器翻譯裝置,從所述多個(gè)機(jī)器翻譯裝置的每一個(gè)中接受對(duì)于所述輸入文的所述第2語言的譯文,根據(jù)這樣準(zhǔn)備多個(gè)候補(bǔ)譯文的步驟;對(duì)于在所述準(zhǔn)備步驟中接受的所述多個(gè)候補(bǔ)譯文的每一個(gè),按照以規(guī)定的變形、規(guī)定的評(píng)價(jià)方式計(jì)算出的評(píng)價(jià)被改進(jìn)那樣,進(jìn)行改良的步驟;和在所述改良步驟中被改良的候補(bǔ)譯文當(dāng)中,將滿足規(guī)定的選擇條件的譯文作為對(duì)所述輸入文的譯文進(jìn)行選擇的步驟。
16.根據(jù)權(quán)利要求15所述的機(jī)器翻譯方法,其特征在于,所述改良步驟包含將所述多個(gè)候補(bǔ)譯文的每一個(gè),按照規(guī)定的變形方式進(jìn)行變形的步驟;將在所述變形步驟中變形后的候補(bǔ)譯文按照規(guī)定的評(píng)價(jià)方式進(jìn)行評(píng)價(jià)的步驟;判斷在所述評(píng)價(jià)步驟中對(duì)候補(bǔ)譯文得到的評(píng)價(jià)值,相對(duì)于被輸入到所述變形步驟的候補(bǔ)譯文所得到的評(píng)價(jià)值是否被改進(jìn)的步驟;和在所述判斷步驟中,到評(píng)價(jià)值被確認(rèn)未改進(jìn)之前,對(duì)變形步驟變形的候補(bǔ)譯文,重復(fù)進(jìn)行所述變形的步驟和所述評(píng)價(jià)的重復(fù)步驟。
17.根據(jù)權(quán)利要求16所述的機(jī)器翻譯方法,其特征在于,所述評(píng)價(jià)步驟包含,根據(jù)所述第2語言的語言模型和從所述第2語言向所述第1語言的翻譯模型,將在所述變形步驟中被變形的候補(bǔ)譯文的類似度作為所述評(píng)價(jià)值進(jìn)行計(jì)算的步驟。
18.根據(jù)權(quán)利要求16所述的機(jī)器翻譯方法,其特征在于,所述變形步驟包含,對(duì)一個(gè)候補(bǔ)譯文進(jìn)行多個(gè)變形,生成多個(gè)變形的候補(bǔ)譯文的步驟;所述評(píng)價(jià)步驟包含,對(duì)于所述多個(gè)變形的候補(bǔ)譯文的每一個(gè)進(jìn)行評(píng)價(jià)的步驟。
19.根據(jù)權(quán)利要求18所述的機(jī)器翻譯方法,其特征在于,所述重復(fù)步驟包含,對(duì)于由所述變形步驟變形的多個(gè)候補(bǔ)譯文的每一個(gè),所述評(píng)價(jià)步驟的評(píng)價(jià)未出現(xiàn)改進(jìn)之前,重復(fù)進(jìn)行所述變形步驟和所述評(píng)價(jià)步驟的步驟。
20.根據(jù)權(quán)利要求18所述的機(jī)器翻譯方法,其特征在于,所述重復(fù)步驟包含,在由所述變形步驟變形的多個(gè)候補(bǔ)譯文中,對(duì)于評(píng)價(jià)在前幾位規(guī)定個(gè)數(shù)內(nèi)的每一個(gè)譯文,所述評(píng)價(jià)步驟的評(píng)價(jià)未出現(xiàn)改進(jìn)之前,重復(fù)進(jìn)行所述變形步驟和所述評(píng)價(jià)步驟的步驟。
21.根據(jù)權(quán)利要求16所述的機(jī)器翻譯方法,其特征在于,所述選擇步驟包含,在所述重復(fù)步驟重復(fù)進(jìn)行中得到的多個(gè)候補(bǔ)譯文當(dāng)中,選擇所述評(píng)價(jià)步驟的評(píng)價(jià)值最高的譯文的步驟。
22.根據(jù)權(quán)利要求15所述的機(jī)器翻譯方法,其特征在于,所述改良步驟包含對(duì)于輸入的候補(bǔ)譯文,進(jìn)行規(guī)定變形的步驟;在所述變形步驟中被變形的候補(bǔ)譯文的每一個(gè)按照所述評(píng)價(jià)方式進(jìn)行評(píng)價(jià)的步驟;和對(duì)由所述變形步驟變形的候補(bǔ)譯文,將所述變形和所述評(píng)價(jià)只重復(fù)進(jìn)行預(yù)定次數(shù)的步驟。
23.根據(jù)權(quán)利要求22所述的機(jī)器翻譯方法,其特征在于,所述選擇步驟包含,在所述重復(fù)步驟的重復(fù)過程中得到的多個(gè)譯文候補(bǔ)中,選擇所述評(píng)價(jià)步驟的評(píng)價(jià)值最高的譯文的步驟。
24.根據(jù)權(quán)利要求15所述的機(jī)器翻譯方法,其特征在于,所述評(píng)價(jià)步驟包含,根據(jù)所述第2語言的語言模型和從所述第2語言的語言模型向所述第1語言的翻譯模型,在所述變形步驟中變形的候補(bǔ)譯文的類似度作為所述評(píng)價(jià)值計(jì)算的步驟。
全文摘要
機(jī)器翻譯系統(tǒng)包含分配模塊,將輸入文分配給用于將第1語言的輸入文分別生成第2語言譯文的多個(gè)機(jī)器翻譯裝置,從多個(gè)機(jī)器翻譯裝置的每一個(gè)中,接受對(duì)于輸入文的第2語言的譯文;譯文改良模塊,以分配模塊接受到的多個(gè)第2語言譯文的每一個(gè)作為起點(diǎn),按照規(guī)定的評(píng)價(jià)方式,改進(jìn)評(píng)價(jià)那樣改良譯文;譯文選擇模塊,在譯文改良模塊改良的譯文中,選擇滿足規(guī)定條件的譯文,作為輸入文的譯文。
文檔編號(hào)G06F17/28GK1595398SQ200410077038
公開日2005年3月16日 申請(qǐng)日期2004年9月9日 優(yōu)先權(quán)日2003年9月9日
發(fā)明者隅田英一郎, 渡邊太郎 申請(qǐng)人:株式會(huì)社國際電氣通信基礎(chǔ)技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
浮梁县| 库伦旗| 湘潭市| 永和县| 黎平县| 吉木乃县| 子洲县| 长治县| 福泉市| 荃湾区| 四平市| 石城县| 大埔县| 巨野县| 宜章县| 上林县| 云霄县| 华安县| 崇明县| 宁乡县| 镶黄旗| 岳普湖县| 山阳县| 九寨沟县| 内乡县| 西吉县| 夏邑县| 渝中区| 周宁县| 澄江县| 旌德县| 龙川县| 布拖县| 呼图壁县| 固阳县| 平利县| 溧阳市| 东安县| 隆子县| 永丰县| 商城县|