專利名稱:機(jī)器翻譯設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于將以源語言輸入的語句機(jī)器翻譯成目標(biāo)語言語句 的設(shè)備和方法。
背景技術(shù):
隨著自然語言處理技術(shù)向前進(jìn)展,轉(zhuǎn)換以第一語言(源語言)輸入的語 句并輸出第二語言(目標(biāo)語言)語句的機(jī)器翻譯設(shè)備已經(jīng)得到了發(fā)展。在這 些設(shè)備中,用于將日文文本翻譯成諸如英文和中文之類的其他語言的機(jī)器 翻譯系統(tǒng)己經(jīng)投入實(shí)用。盡管已經(jīng)為這種翻譯裝置提出過很多翻譯系統(tǒng), 但仍未實(shí)現(xiàn)能夠?yàn)槊烤湓挳a(chǎn)生恰當(dāng)翻譯的系統(tǒng)。
在機(jī)器翻譯中,采用了自然語言處理技術(shù),其包括語形學(xué)分析和句法
(syntactic)分析(相關(guān)性分析)。作為實(shí)現(xiàn)高精度翻譯機(jī)器的一種方式,提 高這些技術(shù)中每種的處理精度很重要。例如,JP-A2006-53679(特開)提出 了一種能夠以高精度提供翻譯處理的自然語言分析裝置。根據(jù)這項(xiàng)技術(shù), 并不是逐個(gè)評(píng)估剖析林(parse tree)所包含的剖析樹,而是對(duì)其整體進(jìn)行
相關(guān)性分析,從而能夠從多個(gè)選項(xiàng)中選擇最可信的翻譯,而不會(huì)落入局部 最優(yōu)的情況。
此外,作為實(shí)現(xiàn)高精度翻譯的方法,曾提出過通過組合不同翻譯系統(tǒng) 來翻譯源語言語句的翻譯裝置。例如,JP-A2001-222529(特幵)提出了一種 翻譯技術(shù),利用這種技術(shù),基于輸入語句的外在模式將以源語言輸入的語 句劃分成子串,切換翻譯系統(tǒng)使其通過為每個(gè)子串選擇最適當(dāng)?shù)姆g系統(tǒng) 而工作,集成翻譯結(jié)果以獲得全句的翻譯。
然而,根據(jù)JP-A 2001-222529(特開),是利用其外在模式,例如短語 和從句作為單元,以一維方式劃分輸入語句的。因此,有可能限制劃分模 式的類型并以不適于翻譯的單元來劃分語句。這可能會(huì)妨礙翻譯質(zhì)量的提 咼。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面, 一種機(jī)器翻譯設(shè)備,其包括輸入單元,其 輸入源語言形式的源語言語句;語素分析單元,其對(duì)所述源語言語句進(jìn)行 語形學(xué)分析并輸出所述源語言語句的語素序列;句法分析單元,其對(duì)所述 源語言語句的語素進(jìn)行句法分析并輸出所述源語言語句的句法結(jié)構(gòu);第一 提取單元,在所述句法結(jié)構(gòu)中包括的第一節(jié)點(diǎn)充當(dāng)有效節(jié)點(diǎn)時(shí),所述第一 提取單元從所述句法結(jié)構(gòu)提取與第一部分結(jié)構(gòu)相對(duì)應(yīng)的第一子串,所述第 一部分結(jié)構(gòu)包括要統(tǒng)一到所述第一節(jié)點(diǎn)的每一個(gè)中的所有葉子方向的節(jié) 點(diǎn);第二提取單元,在與所述第一節(jié)點(diǎn)具有直接或間接語法關(guān)系的第二節(jié) 點(diǎn)充當(dāng)所述有效節(jié)點(diǎn)時(shí),所述第二提取單元從所述句法結(jié)構(gòu)提取與第二部 分結(jié)構(gòu)相對(duì)應(yīng)的第二子串,所述第二部分結(jié)構(gòu)代表包括要統(tǒng)一到所述第二 節(jié)點(diǎn)的每一個(gè)中的所有葉子方向節(jié)點(diǎn)的部分結(jié)構(gòu)和所述第一部分結(jié)構(gòu)之間 的差異;翻譯單元,其利用多個(gè)翻譯系統(tǒng)中的每一個(gè)將所述第一子串和所 述第二子串翻譯成目標(biāo)語言的形式,并產(chǎn)生部分翻譯信息,在所述部分翻 譯信息中,代表翻譯可靠性的翻譯分?jǐn)?shù)與翻譯結(jié)果相關(guān)聯(lián);選擇單元,其 從所述部分翻譯信息的條目的多個(gè)組合中選擇一個(gè)組合,其中要選擇的組 合滿足如下條件作為所述部分翻譯信息的條目中包括的翻譯結(jié)果的原文 的所述第一子串和所述第二子串彼此不交疊,所述源語言語句中包括的語 素中的每一個(gè)匹配作為所述組合內(nèi)所述部分翻譯信息中包括的翻譯結(jié)果的 原文的所述第一子串和所述第二子串之一,且基于所述部分翻譯信息中包 括的所述翻譯分?jǐn)?shù)計(jì)算的用于表示所述組合可靠性的第一可信度采取最大 值;產(chǎn)生單元,其通過翻譯所述源語言語句產(chǎn)生所述目標(biāo)語言形式的目標(biāo) 語言語句,使得所述目標(biāo)語言語句具有所選組合內(nèi)的所述部分翻譯信息中 包括的翻譯結(jié)果;以及輸出單元,其輸出所述目標(biāo)語言語句。
根據(jù)本發(fā)明的另一個(gè)方面, 一種機(jī)器翻譯方法,其包括輸入源語言 形式的源語言語句;對(duì)所述源語言語句進(jìn)行語形學(xué)分析并輸出所述源語言 語句的語素序列;對(duì)所述源語言語句的語素進(jìn)行句法分析并輸出所述源語 言語句的句法結(jié)構(gòu);在所述句法結(jié)構(gòu)中包括的第一節(jié)點(diǎn)充當(dāng)有效節(jié)點(diǎn)時(shí), 從所述句法結(jié)構(gòu)提取與第一部分結(jié)構(gòu)相對(duì)應(yīng)的第一子串,所述第一部分結(jié) 構(gòu)包括要統(tǒng)一到所述第一節(jié)點(diǎn)的每一個(gè)中的所有葉子方向的節(jié)點(diǎn);在與所述第一節(jié)點(diǎn)具有直接或間接語法關(guān)系的第二節(jié)點(diǎn)充當(dāng)所述有效節(jié)點(diǎn)時(shí),從 所述句法結(jié)構(gòu)提取與第二部分結(jié)構(gòu)相對(duì)應(yīng)的第二子串,所述第二部分結(jié)構(gòu) 代表包括要統(tǒng)一到所述第二節(jié)點(diǎn)的每一個(gè)中的所有葉子方向節(jié)點(diǎn)的部分結(jié)
構(gòu)和所述第一部分結(jié)構(gòu)之間的差異;利用多個(gè)翻譯系統(tǒng)中的每一個(gè)將所述 第一子串和所述第二子串翻譯成目標(biāo)語言的形式,并產(chǎn)生部分翻譯信息, 在所述部分翻譯信息中,代表翻譯可靠性的翻譯分?jǐn)?shù)與翻譯結(jié)果相關(guān)聯(lián); 從所述部分翻譯信息的條目的多個(gè)組合中選擇一個(gè)組合,其中要選擇的組 合滿足如下條件作為所述部分翻譯信息的條目中包括的翻譯結(jié)果的原文 的所述第一子串和所述第二子串彼此不交疊,所述源語言語句中包括的語 素中的每一個(gè)匹配作為所述組合內(nèi)所述部分翻譯信息中包括的翻譯結(jié)果的 原文的所述第一子串和所述第二子串之一,且基于所述部分翻譯信息中包 括的所述翻譯分?jǐn)?shù)計(jì)算的用于表示所述組合可靠性的第一可信度采取最大 值;通過翻譯所述源語言語句產(chǎn)生所述目標(biāo)語言形式的目標(biāo)語言語句,使 得所述目標(biāo)語言語句具有所選組合內(nèi)的所述部分翻譯信息中包括的翻譯結(jié) 果;以及輸出所述目標(biāo)語言語句。
圖1為方框圖,示出了根據(jù)本發(fā)明實(shí)施例的機(jī)器翻譯設(shè)備的結(jié)構(gòu);
圖2為示出了語素分析單元獲得的分析結(jié)果范例的圖示;
圖3為示出了詞典存儲(chǔ)單元中存儲(chǔ)的詞匯詞典的范例數(shù)據(jù)結(jié)構(gòu)的圖示;
圖4為示出了規(guī)則存儲(chǔ)單元中存儲(chǔ)的語法規(guī)則的范例數(shù)據(jù)結(jié)構(gòu)的圖示;
圖5為示出了句法分析單元輸出的剖析林范例的圖示;
圖6為示出了圖5的剖析林中的剖析樹范例的圖示;
圖7為示出/圖5的剖析林中的另一剖析樹范例的圖示;
圖8為示出了圖5的剖析林中的又一剖析樹范例的圖示;
圖9為示出了圖5的剖析林中的又一剖析樹范例的圖示;
圖10為示出了圖5的剖析林中的又一剖析樹范例的圖示;
圖11為示出了減少了解譯歧義的剖析林范例的圖示;
圖12為示出了提取單元輸出的劃分信息的范例數(shù)據(jù)結(jié)構(gòu)的圖示;
圖13為詳細(xì)示出了翻譯單元范例結(jié)構(gòu)的方框圖;圖14為示出了部分翻譯存儲(chǔ)單元中存儲(chǔ)的部分翻譯信息的范例數(shù)據(jù)結(jié) 構(gòu)的圖示;
圖15為根據(jù)實(shí)施例的整個(gè)機(jī)器翻譯過程的流程圖16為根據(jù)該實(shí)施例的整合翻譯過程的流程圖17為根據(jù)該實(shí)施例的基本部分翻譯采納過程的流程圖18為根據(jù)該實(shí)施例的部分翻譯差異采納過程的流程圖19為示出了在機(jī)器翻譯過程期間產(chǎn)生的剖析林范例的圖示;
圖20為示出了在機(jī)器翻譯過程期間產(chǎn)生的剖析林另一范例的圖示;
圖21為示出了在機(jī)器翻譯過程期間產(chǎn)生的剖析林又一范例的圖示;以
及
圖22為解釋根據(jù)該實(shí)施例的機(jī)器翻譯設(shè)備硬件結(jié)構(gòu)的圖示。
具體實(shí)施例方式
下面將參考附圖詳細(xì)描述根據(jù)本發(fā)明的設(shè)備和方法的示范性實(shí)施例。 在下面的解釋中,采用了在日文和英文之間進(jìn)行翻譯的范例。然而,在翻 譯過程中處理的語言不限于這兩種語言,可以包括任何語言的組合。
根據(jù)本發(fā)明實(shí)施例的機(jī)器翻譯設(shè)備對(duì)以源語言輸入的語句(在下文中 稱為"源語言語句")進(jìn)行句法分析,并利用句法分析獲得的句法信息將源 語言語句劃分成適于翻譯的單元。然后,利用不同的翻譯系統(tǒng)逐個(gè)翻譯劃 分獲得的字符串(在下文中稱為"部分字符串"),并整合出可信度(翻譯分 數(shù))最大的翻譯結(jié)果,可信度表示翻譯的可靠性。由此以高精度翻譯了輸入 的源語言語句。
根據(jù)JP-A 2001-222529(特開),通過選擇適當(dāng)?shù)南到y(tǒng)輪流切換多個(gè)翻 譯系統(tǒng)。然而,根據(jù)這種方法,需要考慮每種可能的源語言語句,且需要 事先選擇以最佳方式劃分出部分字符串的方法和翻譯這些字符串的系統(tǒng)。 開發(fā)結(jié)合了這種方法的翻譯裝置需要大量的勞動(dòng)。此外,如果更新翻譯系 統(tǒng)的任一個(gè),就必需審查所有的規(guī)則。這使得難以在整個(gè)翻譯裝置上反映 出個(gè)別翻譯系統(tǒng)做出的改善。
相比之下,根據(jù)本實(shí)施例的機(jī)器翻譯設(shè)備利用所有翻譯系統(tǒng)翻譯部分 字符串,并利用翻譯分?jǐn)?shù)最高的翻譯系統(tǒng)整合翻譯結(jié)果以完成翻譯。因此,不需要事先為每個(gè)劃分出的部分字符串選擇翻譯系統(tǒng)。因此,可以發(fā)揮出 不同翻譯系統(tǒng)的最好能力,并可以在整個(gè)翻譯上直接反映出翻譯系統(tǒng)中逐 個(gè)做出的改善,以提高其質(zhì)量。
如圖1所示,機(jī)器翻譯設(shè)備100包括輸入單元101、語素分析單元102、 詞典存儲(chǔ)單元121、規(guī)則存儲(chǔ)單元122、句法分析單元103、提取單元104、 翻譯單元110、部分翻譯存儲(chǔ)單元123、最可信結(jié)構(gòu)選擇單元105、產(chǎn)生單 元106和輸出單元107。
輸入單元101接收由用戶輸入的源語言語句??梢岳萌魏瓮ㄓ幂斎?裝置,例如鍵盤、定點(diǎn)裝置、手寫字符識(shí)別、光學(xué)字符識(shí)別(OCR)和語音識(shí) 別,來輸入源語言語句。
語素分析單元102對(duì)所接收的源語言語句進(jìn)行語形學(xué)分析,并輸出源 語言語句的語素序列作為分析結(jié)果。在語素分析單元102執(zhí)行的語形分析 過程中,可以采用任何通常使用的語形分析技術(shù),例如最小連接成本法和 利用詞語劃分模型通過動(dòng)態(tài)規(guī)劃使劃分概率最大化的方法。
在圖2的范例中,源語言語句201為日文語句"watashi wa saizu ga ookii node kiniitta kedo yamemasu,,,語素串202示出了分析該語句的 結(jié)果。由符號(hào)"."表示語素串202的語素之間的斷點(diǎn)。
在圖1中,詞典存儲(chǔ)單元121中存儲(chǔ)詞匯詞典,在句法分析單元103 (稍 后介紹)執(zhí)行句法分析過程時(shí)會(huì)參考詞匯詞典。在圖3中,給出了圖2中所 示的語素串202的語素的語法范疇范例。
如圖3所示,詞匯詞典包括彼此關(guān)聯(lián)的單詞和單詞的語法范疇。例如, 表示"1, rae"的日文單詞301與語法范疇N(名詞)相關(guān)聯(lián)。除了 N(名詞) 之外,詞匯的語法范疇還包括CM(格標(biāo)記)、ADJ(形容詞)、CJF(連接小品詞)、 V(動(dòng)詞)和AUX(助動(dòng)詞)。
在圖1中,規(guī)則存儲(chǔ)單元122中存儲(chǔ)語法規(guī)則,在句法分析單元103 (稍 后介紹)執(zhí)行句法分析過程時(shí)會(huì)參考語法規(guī)則。
如圖4所示,規(guī)則存儲(chǔ)單元122中例如以"(語法范疇)-〉(語法范疇1 語法范疇2)"的形式存儲(chǔ)所述的語法規(guī)則。在語法規(guī)則的該列表中,指定 箭頭左方的語法范疇由箭頭右方所述的語法范疇1和2構(gòu)成。
例如,根據(jù)語法規(guī)則401,語句(語法范疇S)由名詞短語(語法范疇NP)和動(dòng)詞短語(語法范疇VP)構(gòu)成。此外,根據(jù)語法規(guī)則402,語句(S)由從屬短語(語法范疇SP)和動(dòng)詞短語(語法范疇VP)構(gòu)成。根據(jù)語法規(guī)則403,從屬短語(語法范疇SP)由形容詞短語(語法范疇AP)和連接小品詞(語法范疇CJP)構(gòu)成。
詞典存儲(chǔ)單元121和規(guī)則存儲(chǔ)單元122可以由任何通用記錄介質(zhì)形成,例如硬盤驅(qū)動(dòng)器(HDD)、光盤、存儲(chǔ)卡和隨機(jī)存取存儲(chǔ)器(RAM)。
在圖1中,句法分析單元103接收由語素分析單元102輸出的語素,并對(duì)所接收的語素進(jìn)行句法分析過程,結(jié)果,輸出表示源語言語句的句法結(jié)構(gòu)的圖示。在句法分析過程時(shí),句法分析單元103參考詞典存儲(chǔ)單元121中存儲(chǔ)的詞匯詞典和規(guī)則存儲(chǔ)單元122中存儲(chǔ)的語法規(guī)則。在句法分析單元103執(zhí)行的句法分析過程中,可以采用任何常規(guī)句法分析方法,例如圖表剖析和通用LR剖析。
句法分析單元103輸出表示至少一個(gè)句法結(jié)構(gòu)的圖示,其示出了語素串中的句法和語義關(guān)系。被稱為剖析樹的結(jié)構(gòu)代表涉及語素串中可能的語素關(guān)系的解譯。這意味著,根據(jù)語素串以及分析語素串的語法規(guī)則,單個(gè)源語言語句可能會(huì)采用超過一個(gè)可能的解譯,或換言之,超過一個(gè)剖析樹。
根據(jù)該實(shí)施例的本發(fā)明針對(duì)句法和語義二義性提供了魯棒性。為了實(shí)現(xiàn)這個(gè)目的,利用結(jié)合了一般化LR剖析的句法分析作為范例做出如下解釋。利用一般化LR剖析的方法,通過參考上下文無關(guān)語法同時(shí)分析輸入語句的所有語法上可信的句法選項(xiàng),并以一群共享林(在下文中簡稱"剖析林")的形式輸出輸入語句的句法信息。
在圖5中,示出了對(duì)圖2的語素串202執(zhí)行句法分析獲得的剖析林范例。在圖5的剖析林結(jié)構(gòu)中包括的節(jié)點(diǎn)中,葉節(jié)點(diǎn)對(duì)應(yīng)于語素串的語素。該圖的剖析林結(jié)構(gòu)是通過根據(jù)語法規(guī)則集中為那些語素構(gòu)成的不同剖析樹來加以描述的。
如圖5所示,剖析林的每個(gè)節(jié)點(diǎn)都與從圖4的語法規(guī)則導(dǎo)出的語法范疇相關(guān)聯(lián)。為了易于解釋,為每個(gè)節(jié)點(diǎn)也附加了標(biāo)識(shí)符以便彼此區(qū)分。在下文的解釋中,使用語法范疇和節(jié)點(diǎn)(例如節(jié)點(diǎn)S24)的標(biāo)識(shí)符的組合來將該節(jié)點(diǎn)與其他節(jié)點(diǎn)區(qū)分開。
如上所述,剖析林是這樣一種數(shù)據(jù)結(jié)構(gòu),其中以高效的方式保存從語20091法規(guī)則來看對(duì)特定源語言語句可信的多個(gè)剖析樹。例如,圖5的剖析林包含圖6到10所示的五棵剖析樹。
在剖析林中,如果一些剖析樹在部分上具有相同結(jié)構(gòu)(子樹),則共享該部分(共享子樹)。在圖5中,例如,節(jié)點(diǎn)AP14被節(jié)點(diǎn)AP15和SP16共享。
這是因?yàn)閳D6的剖析樹與圖8的剖析樹共享植根于節(jié)點(diǎn)AP14的部分結(jié)構(gòu)。在語素串的剖析林中,當(dāng)兩棵子樹或更多子樹的根與相同語法范疇相關(guān)聯(lián)時(shí),合并這些子樹的根(局部歧義被堆積),由此進(jìn)一步提高了數(shù)據(jù)保持的效率。例如,圖5的節(jié)點(diǎn)SP21具有如下結(jié)構(gòu)以節(jié)點(diǎn)NP12和SP20作為子節(jié)點(diǎn)的節(jié)點(diǎn)SP21a以及以節(jié)點(diǎn)SP17和SP19作為子節(jié)點(diǎn)的節(jié)點(diǎn)SP21b被合并。這是因?yàn)閳D9中的節(jié)點(diǎn)SP21和圖10中的節(jié)點(diǎn)SP21對(duì)應(yīng)于相同的語素串,且這些節(jié)點(diǎn)的語法范疇都是SP。
句法分析單元103還解析解譯剖析林中的語義歧義(semanticambiguity),并最終輸出僅具有最高可信度(首選項(xiàng))結(jié)構(gòu)的剖析林,其中
可信度表示該結(jié)構(gòu)的可靠性。
例如,圖8中所示的剖析樹是圖5的剖析林的結(jié)構(gòu)組件之一,其中,可以將該結(jié)構(gòu)解譯成"watashi wa saizu ga ookii ,, (I am size-wise large),這表明"watashi" (I)修飾"ookii" (large)。例如,如果產(chǎn)生這種解譯的頻率低于產(chǎn)生如下解譯的頻率即"watashi"修飾"kini-it(ta)"且"watashi"修飾"yame(masu)",則句法分析單元103判定"watashi"修飾"ookii"的解譯不恰當(dāng)。因此句法分析單元103拋棄圖8的剖析樹并保留其他剖析樹。結(jié)果,句法分析單元103輸出如圖11所示的剖析林,其中減少了解譯中的歧義。
有一些常規(guī)方法可以用來判斷剖析林所包含的剖析樹的語義選擇并解析解譯中的歧義。
一種方法是推測性自由語境語法(stochastic
free-context grammar),利用這種方法,從龐大的語料庫獲悉應(yīng)用每條語法規(guī)則的概率,并給出語法規(guī)則概率之積作為剖析樹的概率。也可以使用JP-A 2006-53679(特開)中介紹的方法。
如上所述,句法分析單元103針對(duì)根據(jù)語法規(guī)則通過一般化LR剖析分析的句法結(jié)構(gòu)從語義角度解析解譯中的歧義。如果解析了解譯中的所有歧義,句法分析單元103輸出具有單個(gè)解譯的剖析樹。另一方面,如果仍然存在未解析的歧義,句法分析單元103輸出包含若干剖析樹的剖析林。
句法分析單元103可以用于不解析語義歧義而輸出包括根據(jù)語法規(guī)則獲得的所有剖析樹的剖析林。
在圖1中,提取單元104提取對(duì)應(yīng)于具有形成剖析林并充當(dāng)最高有效節(jié)點(diǎn)(most significant node)的節(jié)點(diǎn)的子樹的語素,由此產(chǎn)生劃分后的源語言語句的劃分信息。更具體而言,提取單元104將句法分析單元103輸出的剖析林中包括的節(jié)點(diǎn)判定為要標(biāo)記節(jié)點(diǎn)(第一節(jié)點(diǎn)),并切分出第一節(jié)點(diǎn)將其作為葉子方向上較低結(jié)構(gòu)(子樹)來支配的區(qū)域(第一部分結(jié)構(gòu))。于是,第一部分結(jié)構(gòu)包括統(tǒng)一到第一節(jié)點(diǎn)中的所有葉子方向(leaf-ward)的節(jié)點(diǎn)。然后,提取單元104將對(duì)應(yīng)于每個(gè)切分出的第一部分結(jié)構(gòu)的源語言語句的范圍標(biāo)識(shí)為代表對(duì)應(yīng)于第一部分結(jié)構(gòu)的部分字符串的第一子串。之后,提取單元104通過將第一節(jié)點(diǎn)的每一個(gè)與從第一節(jié)點(diǎn)標(biāo)識(shí)的相應(yīng)的第一子串相關(guān)聯(lián)來產(chǎn)生劃分信息。在下文中,將通過這種方式產(chǎn)生的劃分信息稱為基本部分信息。
當(dāng)句法分析單元103輸出的剖析林中包括的兩個(gè)節(jié)點(diǎn)構(gòu)成組合且節(jié)點(diǎn)之一支配的區(qū)域包含另一節(jié)點(diǎn)的句法結(jié)構(gòu)時(shí),提取單元104切分開所包括的兩個(gè)節(jié)點(diǎn)支配的兩區(qū)域之間的差異。提取單元104將源語言語句中對(duì)應(yīng)于切分區(qū)域的該范圍(語素)識(shí)別為部分字符串。換言之,提取單元104針對(duì)每個(gè)第一節(jié)點(diǎn)切分出由第二節(jié)點(diǎn)(位置沿葉子方向低于第一節(jié)點(diǎn),作為較低結(jié)構(gòu)(子樹))支配的區(qū)域(劃分區(qū)域)。于是,第二節(jié)點(diǎn)與第一節(jié)點(diǎn)具有直接或間接的語法關(guān)系,并被統(tǒng)一到第一節(jié)點(diǎn)中。而且,切分區(qū)域包括統(tǒng)一到第二節(jié)點(diǎn)中的所有葉子方向的節(jié)點(diǎn)。然后,提取單元104將源語言語句中對(duì)應(yīng)于表示劃分區(qū)域和第一節(jié)點(diǎn)支配的第一部分結(jié)構(gòu)間差異的第二部分結(jié)構(gòu)的范圍標(biāo)識(shí)為第二子串,即對(duì)應(yīng)于第二部分結(jié)構(gòu)的部分字符串。
在以下描述中,將支配包含另一結(jié)構(gòu)的結(jié)構(gòu)的節(jié)點(diǎn)稱為父節(jié)點(diǎn),而將支配被包含結(jié)構(gòu)的節(jié)點(diǎn)稱為子節(jié)點(diǎn)。提取單元104產(chǎn)生劃分信息,在劃分信息中將父節(jié)點(diǎn)、子節(jié)點(diǎn)和源語言語句對(duì)應(yīng)于劃分出的第二部分結(jié)構(gòu)的區(qū)域(第二子串)彼此關(guān)聯(lián)。在下文中,將通過這種方式產(chǎn)生的劃分信息稱為差異部分信息。
該裝置可以具有如下結(jié)構(gòu),其中,可以由不同的單元(例如第一提取單元和第二提取單元)來執(zhí)行基本部分信息的提取和差異部分信息的提取。
圖12為示出了提取單元104輸出的劃分信息(基本部分信息和差異部分信息)的范例數(shù)據(jù)結(jié)構(gòu)的圖示。如圖的頂部所示,以"(語法范疇和節(jié)點(diǎn)標(biāo)識(shí)符),(對(duì)應(yīng)的部分字符串)"的形式描述基本部分信息。
在圖5中,例如,節(jié)點(diǎn)AP15支配著包含節(jié)點(diǎn)NP12、 Nl、 CM2、 AP14、NP13、 N3、 CM4和ADJ5的下方結(jié)構(gòu)。節(jié)點(diǎn)AP15對(duì)應(yīng)于源語言語句的字符串"watashi wa saizu ga ookii" (I am large size-wise)。于是,提取單元104針對(duì)節(jié)點(diǎn)AP15產(chǎn)生如圖12所示的基本部分信息1201 (AP15, watashiwa saizu ga ookii)。
此外,如圖12的底部所示,以"(父節(jié)點(diǎn)的語法范疇和標(biāo)識(shí)符),(子節(jié)點(diǎn)的語法范疇和標(biāo)識(shí)符),(對(duì)應(yīng)的部分字符串)"的形式描述差異部分信息。
例如,考慮針對(duì)圖5的節(jié)點(diǎn)S25a和SP16的組合產(chǎn)生的差異部分信息。節(jié)點(diǎn)S25a支配著包含節(jié)點(diǎn)NP12、 Nl、 CM2、 VP24 (堆積的局部歧義節(jié)點(diǎn)VP24a和VP24b)、 SP16、 CJP6、 AP14、 NP13、 N3、 CM4、 ADJ5、 SP20、 SP19、 VP18、V7、 AUX8、 CJP9、 VP23、 VP22、 V10和AUX11的下方結(jié)構(gòu)。換言之,節(jié)點(diǎn)S25a支配著圖5的區(qū)域501。
類似地,節(jié)點(diǎn)SP16支配著包含節(jié)點(diǎn)CJP6、 AP14、 NP13、 N3、 CM4和ADJ5的下方結(jié)構(gòu)。換言之,節(jié)點(diǎn)SP16支配著圖5的區(qū)域502。
這意味著節(jié)點(diǎn)S25a完全包含了由節(jié)點(diǎn)SP16支配的區(qū)域。然后,節(jié)點(diǎn)S25a變?yōu)楦腹?jié)點(diǎn),節(jié)點(diǎn)SP16變?yōu)樽庸?jié)點(diǎn)。
然后,提取單元104劃分出圖5的區(qū)域503,這是節(jié)點(diǎn)S25a和節(jié)點(diǎn)SP16所支配的區(qū)域之間的差異。區(qū)域503包含節(jié)點(diǎn)NP12、 Nl、 CM2、 VP24(堆積的局部歧義節(jié)點(diǎn)VP24a和VP24b)、 SP20、 SP19、 VP18、 V7、 AUX8、 CJP9、VP23、 W22、 VlO和AUXll。然后,提取單元104標(biāo)識(shí)輸入語句中對(duì)應(yīng)于區(qū)域503的范圍。
結(jié)果,提取單元104針對(duì)節(jié)點(diǎn)S25a和SP16的組合產(chǎn)生圖12中的差異部分信息1202(S25a、 SP16, "watashi wa kiniitta kedo yamemasu" (I likeit, but I won't take it))。
通過這種方式,提取單元104為所有節(jié)點(diǎn)和所有兩個(gè)節(jié)點(diǎn)的組合產(chǎn)生兩種劃分信息,即基本部分信息和差異部分信息。之后,提取單元104輸出一組所產(chǎn)生的劃分信息。
除了為每個(gè)節(jié)點(diǎn)和每一兩節(jié)點(diǎn)組合產(chǎn)生劃分信息之外,提取單元104也可以用于限制要提取的節(jié)點(diǎn)的語法范疇。例如,在圖4中,劃分出僅對(duì)應(yīng)于諸加名詞短語和動(dòng)詞短語之類的短語的區(qū)域。因此,可以將要?jiǎng)澐值墓?jié)點(diǎn)的語法范疇限制為S(語句)、SP(從屬短語)、VP(動(dòng)詞短語)、NP(名詞短語)和AP(形容詞短語)。由此可以控制源語言語句的劃分大小。
此外,可以基于語料庫計(jì)算由提取單元104產(chǎn)生的劃分信息中包括的部分字符串出現(xiàn)的概率,從而可以刪除包括概率低于預(yù)定值的部分字符串的劃分信息。那么就防止了劃分變得不自然。此外,該結(jié)構(gòu)可以使得僅對(duì)剖析林中優(yōu)先度高的剖析樹進(jìn)行劃分處理,從而可以減小處理量。
在圖1中,翻譯單元110在每個(gè)預(yù)定翻譯系統(tǒng)中將源語言的給定字符串翻譯成目標(biāo)語言,并產(chǎn)生包括翻譯結(jié)果和翻譯分?jǐn)?shù)的部分翻譯信息。如圖13所示,翻譯單元110包括實(shí)現(xiàn)不同翻譯系統(tǒng)的翻譯引擎111到lln。
翻譯引擎111到lln在通用機(jī)器翻譯系統(tǒng),諸如基于規(guī)則的、基于范例的和基于統(tǒng)計(jì)的系統(tǒng)中之類的預(yù)定系統(tǒng)中翻譯給定字符串。翻譯單元110將輸入字符串分布到翻譯引擎111到lln中的每一個(gè)。翻譯單元110還輸出由翻譯引擎111到lln翻譯的字符串和計(jì)算出的翻譯分?jǐn)?shù)。
例如,對(duì)于基于范例的翻譯系統(tǒng),可以采用字符串和范例之間的相似度作為翻譯分?jǐn)?shù)。對(duì)于基于統(tǒng)計(jì)的翻譯系統(tǒng)而言,可以采用基于語言模型的翻譯概率作為翻譯分?jǐn)?shù)。對(duì)于基于規(guī)則的翻譯系統(tǒng)而言,可以根據(jù)句法的可信度和所采用規(guī)則的優(yōu)選度獲得翻譯分?jǐn)?shù)。換言之,可以通過對(duì)于每種翻譯系統(tǒng)而言預(yù)定的計(jì)算方法計(jì)算翻譯分?jǐn)?shù)。然而,并非總是需要針對(duì)不同系統(tǒng)逐個(gè)決定計(jì)算方法來獲得翻譯分?jǐn)?shù)。例如,可以基于公共語言模型(語料庫)計(jì)算由翻譯系統(tǒng)輸出的每個(gè)翻譯字符串的出現(xiàn)概率并用作翻譯分?jǐn)?shù)。或者,可以基于事先從平行翻譯語料庫等獲悉的翻譯模型針對(duì)翻譯系統(tǒng)和源語言語句的每者輸出的翻譯字符串的組合計(jì)算翻譯概率,并用作翻譯分?jǐn)?shù)。
翻譯單元110產(chǎn)生部分翻譯信息并將其存儲(chǔ)在部分翻譯存儲(chǔ)單元123中。在部分翻譯信息中,提取單元104產(chǎn)生的劃分信息、翻譯劃分信息中包括的部分字符串獲得的部分翻譯、與部分翻譯一同輸出的翻譯分?jǐn)?shù)、原 始劃分信息中包括的節(jié)點(diǎn)信息以及標(biāo)識(shí)用于翻譯的翻譯系統(tǒng)的標(biāo)識(shí)符是彼 此相關(guān)聯(lián)的。
因?yàn)閯澐中畔ɑ静糠中畔⒑筒町惒糠中畔ⅲ苑g單元110
產(chǎn)生與劃分信息類型相對(duì)應(yīng)的兩種部分翻譯信息。
基本部分信息包括在切分部分結(jié)構(gòu)時(shí)參考的節(jié)點(diǎn)以及對(duì)應(yīng)于被切分部
分結(jié)構(gòu)的部分字符串。于是,翻譯單元iio產(chǎn)生部分翻譯信息,其中,節(jié)
點(diǎn)、部分字符串、翻譯單元110獲得的部分字符串的部分翻譯、以及與部
分翻譯一同輸出的翻譯分?jǐn)?shù)被彼此相關(guān)聯(lián)。在下文中,將把通過這種方式 從基本部分信息產(chǎn)生的部分翻譯信息稱為部分翻譯基本信息。
另一方面,差異部分信息包括在切分部分結(jié)構(gòu)時(shí)參考的父節(jié)點(diǎn)和子節(jié)
點(diǎn)、以及對(duì)應(yīng)于被切分部分結(jié)構(gòu)的部分字符串。于是,翻譯單元110產(chǎn)生
部分翻譯信息,其中,父節(jié)點(diǎn)、子節(jié)點(diǎn)、部分字符串、翻譯單元no獲得
的部分字符串的部分翻譯、以及與部分翻譯一同輸出的翻譯分?jǐn)?shù)被彼此相 關(guān)聯(lián)。在下文中,將從差異部分信息產(chǎn)生的部分翻譯信息稱為部分翻譯差 異信息。
在圖1中,部分翻譯存儲(chǔ)單元123中存儲(chǔ)著由翻譯單元110產(chǎn)生的部 分翻譯信息。下文詳細(xì)解釋部分翻譯信息。
如圖14所示,部分翻譯信息包括作為基本部分信息中包括的節(jié)點(diǎn)或差 異部分信息中包括的父節(jié)點(diǎn)的節(jié)點(diǎn)(父);作為差異部分信息中包括的子節(jié) 點(diǎn)的節(jié)點(diǎn)(子);基本部分信息或差異部分信息中包括的部分字符串;部分 翻譯;翻譯分?jǐn)?shù);以及標(biāo)識(shí)翻譯系統(tǒng)的標(biāo)識(shí)符。
對(duì)于部分翻譯基本信息而言,"節(jié)點(diǎn)(子)"單元始終保持空白。部分翻 譯表示翻譯切分部分字符串的結(jié)果。為了方便起見包括標(biāo)識(shí)符作為補(bǔ)充要 素,來表示利用多個(gè)翻譯系統(tǒng)之一獲得的翻譯。有/沒有標(biāo)識(shí)符不會(huì)對(duì)根據(jù) 本實(shí)施例的機(jī)器翻譯設(shè)備100的工作造成任何影響。
在圖14中,部分翻譯基本信息1401是部分翻譯基本信息的范例。部 分翻譯基本信息1401表明在參照節(jié)點(diǎn)S25a切分基本部分信息并利用翻譯 系統(tǒng)l(例如翻譯引擎lll)翻譯時(shí),以0.6的翻譯分?jǐn)?shù)獲得了部分翻譯 "Since I am large size, although it is pleased, I stop."。部分翻譯基本信息1402是部分翻譯基本信息的另一范例。以和部分翻 譯基本信息1401相同的方式,部分翻譯基本信息1402示出了翻譯針對(duì)節(jié) 點(diǎn)S25a切分出的基本部分信息的結(jié)果。然而,利用翻譯系統(tǒng)2(例如翻譯引 擎112)未獲得部分翻譯,翻譯分?jǐn)?shù)為0。這可能是這樣的情形即翻譯系 統(tǒng)2是基于范例的且未找到相似范例。
圖14的部分翻譯差異信息1405是部分翻譯差異信息的范例。部分翻 譯差異信息1405表明,利用翻譯系統(tǒng)2(例如翻譯引擎112)翻譯參照節(jié)點(diǎn) S25a切分的差異部分信息并消除節(jié)點(diǎn)SP16下方的結(jié)構(gòu),結(jié)果以0. 5的翻譯 分?jǐn)?shù)獲得了部分翻譯"Although I love it, I give it up."
在圖1中,最可信結(jié)構(gòu)選擇單元105檢查部分翻譯存儲(chǔ)單元123中存 儲(chǔ)的部分翻譯信息項(xiàng)的所有可能組合,以找到特定組合部分翻譯信息中 包括的節(jié)點(diǎn)處于同一剖析樹上;部分翻譯信息的部分字符串足以覆蓋整個(gè) 源語言語句而沒有彼此交疊;且該組合的概率在所有可能組合中具有最大 值,或者換言之,總翻譯分?jǐn)?shù),即從組合的部分翻譯信息產(chǎn)生的整個(gè)語句 的翻譯分?jǐn)?shù),具有最高值。然后,最可信結(jié)構(gòu)選擇單元105輸出一組最可 信的部分翻譯信息,其包含所選組合中包括的部分翻譯結(jié)構(gòu)。
例如,最可信結(jié)構(gòu)選擇單元105從多條部分翻譯信息中產(chǎn)生這些條目 的所有可能組合,其中,部分翻譯信息中包括的節(jié)點(diǎn)處于同一剖析樹上, 且部分翻譯信息的部分字符串足以覆蓋整個(gè)源語言語句。然后,最可信結(jié) 構(gòu)選擇單元105針對(duì)所產(chǎn)生的每個(gè)組合計(jì)算總翻譯分?jǐn)?shù),并選擇總翻譯分 數(shù)最高的組合。最可信結(jié)構(gòu)選擇單元105可以用于利用動(dòng)態(tài)規(guī)劃等選擇該 組最可信的部分翻譯信息,從而無需產(chǎn)生所有的組合。
作為總翻譯分?jǐn)?shù),最可信結(jié)構(gòu)選擇單元105使用的是部分翻譯信息中 包括的翻譯分?jǐn)?shù)的平均值。然而,總翻譯分?jǐn)?shù)的計(jì)算不限于該方法??梢?考慮到子樹的概率計(jì)算總翻譯分?jǐn)?shù),或者可以采用任何其他方法。例如, 作為剖析林中對(duì)應(yīng)于劃分信息的子樹的概率(基于劃分信息產(chǎn)生每條部分 翻譯信息),最可信結(jié)構(gòu)選擇單元105可以用于根據(jù)隨機(jī)上下文無關(guān)文法計(jì) 算產(chǎn)生句法結(jié)構(gòu)的概率,并通過將這些概率相乘來合并所得的翻譯分?jǐn)?shù)平 均值,作為總翻譯分?jǐn)?shù)。
在圖14中,部分翻譯差異信息1406示出了從基本部分信息獲得的部分翻譯信息,該信息是參照節(jié)點(diǎn)S25a獲得的。另一方面,節(jié)點(diǎn)S25a支配 著整個(gè)源語言語句。于是,翻譯對(duì)應(yīng)于該節(jié)點(diǎn)的字符串意味著翻譯整個(gè)源 語言語句。換言之,部分翻譯差異信息1406的部分翻譯代表著利用翻譯系 統(tǒng)l(例如翻譯引擎lll)翻譯整個(gè)源語言語句的結(jié)果。
包括利用不同翻譯系統(tǒng)翻譯針對(duì)支配整個(gè)源語言語句的節(jié)點(diǎn)切分的基 本部分信息獲得的部分翻譯的部分翻譯信息,包含了用每個(gè)翻譯系統(tǒng)可實(shí) 現(xiàn)的整個(gè)源語言語句的最佳翻譯結(jié)果以及該結(jié)果的翻譯分?jǐn)?shù)(全局翻譯分 數(shù))。因此,應(yīng)當(dāng)從利用翻譯單元110中包括的所有翻譯引擎獲得的翻譯結(jié) 果的組合中找到翻譯分?jǐn)?shù)的平均值大于全局翻譯分?jǐn)?shù)的組合。由此可以提 高整個(gè)源語言語句的翻譯結(jié)果的質(zhì)量。
在圖1中,產(chǎn)生單元106基于最可信結(jié)構(gòu)選擇單元105輸出的該組最 可信部分翻譯信息和句法分析單元103輸出的剖析林產(chǎn)生目標(biāo)語言的語句, 即翻譯整個(gè)源語言語句的結(jié)果。
當(dāng)該組最可信部分翻譯信息中的部分翻譯信息具有部分翻譯差異結(jié)構(gòu) 時(shí),產(chǎn)生單元106從父節(jié)點(diǎn)沿葉子方向支配的部分翻譯信息的區(qū)域消除子 節(jié)點(diǎn)沿葉子方向支配的部分翻譯信息的區(qū)域,并利用該部分翻譯信息中包 括的部分翻譯替換對(duì)應(yīng)于剩余區(qū)域的語素串。然后,產(chǎn)生單元106從剖析 林消除僅支配被替換的語素串的區(qū)域的任何節(jié)點(diǎn),使得該部分翻譯變成直 接被部分翻譯信息中包括的父節(jié)點(diǎn)支配的區(qū)域。當(dāng)父節(jié)點(diǎn)支配其他節(jié)點(diǎn)時(shí), 應(yīng)當(dāng)將對(duì)應(yīng)于這些節(jié)點(diǎn)的語素和部分翻譯重新設(shè)置成適當(dāng)次序。因此,產(chǎn) 生單元106參照被消除的語素串中最靠近源語言語句末尾的語素,將父節(jié) 點(diǎn)直接支配的節(jié)點(diǎn)按照對(duì)應(yīng)于其他節(jié)點(diǎn)支配的區(qū)域的語素串的次序重新設(shè) 置。
當(dāng)該組最可信部分翻譯信息中包括的部分翻譯信息具有部分翻譯基本 結(jié)構(gòu)時(shí),產(chǎn)生單元106利用該部分翻譯信息中的部分翻譯替換對(duì)應(yīng)于沿葉 子方向由部分翻譯信息的節(jié)點(diǎn)支配的區(qū)域的語素串。然后,產(chǎn)生單元106 從剖析林消除掉在其支配區(qū)域中包括被替換語素串但在其支配區(qū)域中不包 括部分翻譯信息中包括的節(jié)點(diǎn)的節(jié)點(diǎn),使得該部分翻譯變成直接被部分翻 譯信息的節(jié)點(diǎn)支配的區(qū)域。
通過這種方式,產(chǎn)生單元106在剖析林中嵌入部分翻譯信息,并由此以保持句法和語義關(guān)系的剖析樹的形式輸出由適當(dāng)翻譯系統(tǒng)獲得的源語言
語句部分字符串的翻譯結(jié)果。然后,產(chǎn)生單元106從左到右連接輸出的剖 析樹的葉節(jié)點(diǎn),由此產(chǎn)生目標(biāo)語言語句。
產(chǎn)生單元106可以用于采納更高級(jí)的翻譯產(chǎn)生方法。例如,可以對(duì)以 剖析樹形式輸出的翻譯結(jié)果再次采用基于規(guī)則的翻譯系統(tǒng),從而可以對(duì)目 標(biāo)語言語句做出調(diào)節(jié)。
輸出單元107輸出由產(chǎn)生單元106產(chǎn)生的目標(biāo)語言語句??梢岳萌?何常規(guī)系統(tǒng)來實(shí)現(xiàn)輸出單元107采用的輸出方法,例如輸出到顯示裝置上 的圖像,由打印機(jī)打印以及由語音合成器進(jìn)行語音合成??梢愿鶕?jù)需要切 換這些系統(tǒng),或者可以同時(shí)采用多種系統(tǒng)。
下面參考圖15解釋由根據(jù)本實(shí)施例的機(jī)器翻譯設(shè)備100執(zhí)行的翻譯過程。
首先,輸入單元101接收源語言語句S(步驟S1501)。接下來,語素分 析單元102對(duì)源語言語句S進(jìn)行語形學(xué)分析并產(chǎn)生語素串M(步驟S1502)。 然后,句法分析單元103對(duì)語素串M進(jìn)行句法分析并產(chǎn)生剖析林P(步驟 S1503)。
之后,提取單元104從剖析林F產(chǎn)生基本部分信息并將其添加到劃分 信息集D(步驟S1504)。提取單元104還從剖析林F產(chǎn)生差異部分信息,并 將其添加到劃分信息集D(步驟S1505)。
接下來,翻譯單元110利用翻譯單元110中包括的所有翻譯引擎111 到lln翻譯對(duì)應(yīng)于劃分信息集D中的各條部分信息的部分字符串,產(chǎn)生包 含翻譯結(jié)果的部分翻譯信息并將其存儲(chǔ)在部分翻譯存儲(chǔ)單元123中(步驟 S1506)。
然后,最可信結(jié)構(gòu)選擇單元105從各條所存儲(chǔ)的部分翻譯信息的所有
可能組合中選擇最可信部分翻譯信息集C(步驟S1507)。最可信部分翻譯信
息集C必需是所存儲(chǔ)的部分翻譯信息中其節(jié)點(diǎn)處于同一剖析樹上、其部分
字符串足以構(gòu)成整個(gè)源語言語句且其總翻譯分?jǐn)?shù)采取最大值的條目的組 合。
之后,產(chǎn)生單元106執(zhí)行整合翻譯過程,以從所選的最可信部分翻譯 信息集C產(chǎn)生目標(biāo)語言語句T(步驟S1508)。稍后將給出整合翻譯過程的細(xì)節(jié)。最后,輸出單元107輸出所產(chǎn)生的目標(biāo)語言語句T(步驟S1509)并終止 翻譯過程。
接下來,將參考圖16到18詳細(xì)描述步驟S1508的整合翻譯過程。 首先,產(chǎn)生單元106從剖析林F提取出具有最可信部分翻譯信息集C 中包括的部分翻譯信息的所有節(jié)點(diǎn)的剖析樹,并將其判定為剖析樹St (步驟
51601) 。由于最可信部分翻譯信息集C的性質(zhì)的原因,所以始終會(huì)將所提 取的剖析樹St判定為表示整個(gè)源語言語句的解譯的單個(gè)剖析樹。接下來, 從最可信部分翻譯信息集C獲取未處理的部分翻譯信息p(步驟S1602)。產(chǎn) 生單元106判斷該部分翻譯信息p是否是一條部分翻譯基本信息(步驟 S1603)。當(dāng)該部分翻譯信息p是一條部分翻譯基本信息時(shí)(步驟S1603處的
"是"),產(chǎn)生單元106執(zhí)行部分翻譯基本施加過程,以將部分翻譯基本信 息施加到剖析樹St(步驟S1604)。稍后將給出部分翻譯基本施加過程的細(xì)
當(dāng)該部分翻譯信息P不是一條部分翻譯基本信息時(shí),或換言之,當(dāng)該 部分翻譯信息P是一條部分翻譯差異信息時(shí)(步驟S1603處的"否"),產(chǎn) 生單元106執(zhí)行部分翻譯差異施加過程,以將部分翻譯差異信息施加到剖 析樹St (步驟S1605)。稍后將給出部分翻譯差異施加過程的細(xì)節(jié)。
然后,產(chǎn)生單元106判斷是否已經(jīng)處理了最可信部分翻譯信息集C中 的所有條的部分翻譯信息(步驟S1606)。如果有任何未處理信息項(xiàng)(步驟 S1606處的"否"),則檢索下一條部分翻譯信息P并重復(fù)該過程(步驟
51602) 。
當(dāng)處理過所有條的部分翻譯信息時(shí)(步驟S1606處的"是"),產(chǎn)生單 元106通過將對(duì)應(yīng)于最終獲得的剖析樹St的葉子的語素連接到一起來產(chǎn)生 目標(biāo)語言語句T(步驟S1607)。然后,整合翻譯過程結(jié)束。
接下來,將參考圖17詳細(xì)描述在步驟S1604執(zhí)行的部分翻譯基本施加 過程。
首先,產(chǎn)生單元106從部分翻譯信息p獲得節(jié)點(diǎn)n (步驟S1701)。更具 體而言,產(chǎn)生單元106從部分翻譯信息p的"節(jié)點(diǎn)(父)"單元獲得節(jié)點(diǎn)n。 接下來,產(chǎn)生單元106利用部分翻譯信息p中包括的部分翻譯t替換節(jié)點(diǎn)n 支配的區(qū)域中的語素(步驟S1702)。然后,產(chǎn)生單元106從剖析樹St消除由節(jié)點(diǎn)n支配的區(qū)域中的節(jié)點(diǎn)(步驟S1703)。之后,產(chǎn)生單元106將部分翻 譯t插入到由節(jié)點(diǎn)n支配的區(qū)域中(步驟S1704)。最后,產(chǎn)生單元106從剖 析樹St中消除其區(qū)域中不包括節(jié)點(diǎn)n的任何節(jié)點(diǎn)(步驟S1705),部分翻譯 基本施加過程結(jié)束。
下文將參考圖18詳細(xì)解釋在步驟S1605執(zhí)行的部分翻譯差異施加過程。
首先,產(chǎn)生單元106從部分翻譯信息p獲得父節(jié)點(diǎn)np和子節(jié)點(diǎn)nc (步 驟S1801)。更具體而言,產(chǎn)生單元106從部分翻譯信息p的"節(jié)點(diǎn)(父)" 單元獲得父節(jié)點(diǎn)叩,并從"節(jié)點(diǎn)(子)"單元獲得節(jié)點(diǎn)nc。然后,產(chǎn)生單元 106利用部分翻譯信息p中包括的部分翻譯t替換對(duì)應(yīng)于父節(jié)點(diǎn)np和子節(jié) 點(diǎn)nc支配的區(qū)域之間的差異的語素(步驟S1802)。之后,產(chǎn)生單元106從 剖析樹St消除支配僅包括那些被替換語素的區(qū)域的任何節(jié)點(diǎn)(步驟S1803)。 產(chǎn)生單元106將部分翻譯t插入到由父節(jié)點(diǎn)np支配的區(qū)域中涉驟S1804)。 然后,產(chǎn)生單元106根據(jù)被替換語素中最右邊的一個(gè)和剩余語素之間的位 置關(guān)系重新設(shè)置由父節(jié)點(diǎn)叩直接支配的節(jié)點(diǎn)(步驟S1805)。由此結(jié)束部分 翻譯差異施加過程。
接下來,將參考圖19到21詳細(xì)解釋根據(jù)本發(fā)明實(shí)施例的機(jī)器翻譯過 程。在以下解釋中,假設(shè)翻譯單元110擁有兩個(gè)翻譯系統(tǒng),其標(biāo)識(shí)符為"1" 和"2"。
假設(shè)輸入如圖2所示的日文源語言語句201 (步驟S1501)。語素分析單 元102對(duì)輸入的源語言語句201進(jìn)行語形學(xué)分析并例如獲取附圖的語素串 202作為語素串M(步驟S1502)。
句法分析單元103利用如圖3所示的詞匯詞典和如圖4所示的語法規(guī) 則對(duì)語素串M執(zhí)行一般化LR剖析,從而產(chǎn)生如圖5所示的剖析林。在此假 設(shè)句法分析單元103進(jìn)一步解決了解譯中的語義歧義,并輸出如圖11所示 的僅保持高優(yōu)先結(jié)構(gòu)的剖析林F(步驟S1503)。
提取單元104從剖析林F提取基本部分信息和差異部分信息,并輸出 例如如圖12所示的劃分信息D(步驟S1504和S1505)。然后,翻譯單元110 利用所有翻譯系統(tǒng)翻譯劃分信息集D的所有條的劃分信息中的部分字符串。 翻譯單元110將翻譯結(jié)果和翻譯分?jǐn)?shù)與原始劃分信息組合并依次產(chǎn)生各條部分翻譯信息。翻譯單元110然后在部分翻譯存儲(chǔ)單元123中存儲(chǔ)如圖14 所示的部分翻譯信息(步驟S1506)。
下面考慮如下的情形最可信結(jié)構(gòu)選擇單元105選擇部分翻譯基本信 息1403、部分翻譯基本信息1404和部分翻譯差異信息1406的組合作為最 可信部分翻譯信息集C(步驟S1507)。
對(duì)于該組合而言,最可信部分翻譯信息集C中包括的各條部分翻譯信 息的翻譯分?jǐn)?shù)平均值為(0. 8+0. 4+0. 9)/3 = 0. 7。該數(shù)字值大于針對(duì)部分翻 譯基本信息1401的翻譯分?jǐn)?shù)0. 6和針對(duì)部分翻譯基本信息1402的翻譯分 數(shù)0兩者,前者表示整個(gè)源語言語句是利用翻譯系統(tǒng)1翻譯的,后者表示 整個(gè)源語言語句是利用翻譯系統(tǒng)2翻譯的。這意味著本實(shí)施例以高于常規(guī) 技術(shù)的精確性實(shí)現(xiàn)了翻譯,常規(guī)技術(shù)單獨(dú)利用不同系統(tǒng)之一進(jìn)行翻譯或選 擇翻譯分?jǐn)?shù)高的翻譯系統(tǒng)的翻譯結(jié)果。
接下來,產(chǎn)生單元106基于剖析林F和最可信部分翻譯信息集C執(zhí)行 整合翻譯過程,以產(chǎn)生最終的目標(biāo)語言語句(步驟S1508)。
首先,產(chǎn)生單元106從剖析林F提取出具有屬于最可信部分翻譯信息 集C的部分翻譯信息中包括的所有節(jié)點(diǎn)的剖析樹St(步驟S1601)。該剖析 樹St對(duì)應(yīng)于圖ll的剖析林F中節(jié)點(diǎn)S25a下方的剖析樹。然后,產(chǎn)生單元 106例如從未處理的各條最可信部分翻譯信息集C中獲得部分翻譯差異信息 1406作為部分翻譯信息p,其包括圖14的部分翻譯基本信息1403、部分翻 譯基本信息1404和部分翻譯差異信息1406 (步驟S1602)。
因?yàn)樵摬糠址g信息P不是部分翻譯基本信息(步驟S1603處的"否"), 產(chǎn)生單元106執(zhí)行部分翻譯差異施加過程(步驟S1605)。
在部分翻譯差異施加過程中,產(chǎn)生單元106獲得部分翻譯信息p,或換 言之部分翻譯差異信息1406中包括的父節(jié)點(diǎn)S25a和子節(jié)點(diǎn)SP20作為父節(jié) 點(diǎn)叩和子節(jié)點(diǎn)nc (步驟S1801)。
對(duì)應(yīng)于父節(jié)點(diǎn)叩下方的區(qū)域和子節(jié)點(diǎn)nc下方的區(qū)域之間的差異的語 素串表示對(duì)應(yīng)于圖12的差異部分信息1203中包括的部分字符串的語素串。 因此,利用部分翻譯信息p中包括的部分翻譯"I just can't buy it"替 換包括對(duì)應(yīng)于節(jié)點(diǎn)N1、 CM2、 VlO和AUXll的語素的語素串(步驟S1802)。
接下來,產(chǎn)生單元106參照所替換的語素串從剖析樹St搜索僅支配以上語素的任何節(jié)點(diǎn)。在圖11的剖析林F的剖析樹St中,節(jié)點(diǎn)N1、CM2、NP12、 V10、AUX11和VP22滿足該條件。產(chǎn)生單元106從剖析樹St消除這些節(jié)點(diǎn)(步 驟S1803)。此外,產(chǎn)生單元106將部分翻譯t插入到由父節(jié)點(diǎn)叩支配的區(qū) 域中(步驟S1804)。圖19為示出了從上述過程獲得的剖析樹St的圖示。
應(yīng)當(dāng)指出,父節(jié)點(diǎn)np以節(jié)點(diǎn)VP24作為直接支配的節(jié)點(diǎn),且位于該節(jié) 點(diǎn)VP24支配的區(qū)域最右邊的語素對(duì)應(yīng)于節(jié)點(diǎn)CJF9。位于被替換語素串最右 邊的語素對(duì)應(yīng)于節(jié)點(diǎn)AUXll。該語素位于在輸入源語言語句的次序中對(duì)應(yīng)于 節(jié)點(diǎn)CJF9的語素后面。于是,對(duì)在步驟S1804處插入的區(qū)域排序并放置在 節(jié)點(diǎn)VP24之后(步驟S1805)。因此剖析樹St保持與圖19所示相同。
在完成了部分翻譯差異施加過程之后,產(chǎn)生單元106執(zhí)行步驟S1606 的操作。最可信部分翻譯信息集C仍然具有圖14的部分翻譯基本信息1403 和部分翻譯基本信息1404作為未處理的部分翻譯信息。因此,產(chǎn)生單元106 獲得部分翻譯基本信息1404,例如作為下一條要處理的部分翻譯信息p(步 驟S1602)。
因?yàn)樵摬糠址g信息P為部分翻譯基本信息(步驟S1603處的"是"), 產(chǎn)生單元106執(zhí)行部分翻譯基本施加過程(步驟S1604)。
在部分翻譯基本施加過程中,產(chǎn)生單元106獲取部分翻譯信息p,或換 言之,部分翻譯基本信息1404中包括的節(jié)點(diǎn)S19作為節(jié)點(diǎn)n (步驟S1701)。
對(duì)應(yīng)于節(jié)點(diǎn)n下方區(qū)域的語素串表示圖12的基本部分信息1204中包 括的部分字符串。于是,利用部分翻譯信息P中包括的部分翻譯"I like it, but."來替換包括圖11的對(duì)應(yīng)于節(jié)點(diǎn)V7、 AUX8和CJF9的語素的語素串(步 驟S1702)。
之后,產(chǎn)生單元106從剖析樹St搜索節(jié)點(diǎn)n下方區(qū)域中的節(jié)點(diǎn)。在圖 11的剖析林F中包括的剖析樹St中,節(jié)點(diǎn)V7、 AUX8、 CJP9和VP18滿足該 條件。因此產(chǎn)生單元106從剖析林F消除這些節(jié)點(diǎn)(步驟S1703)。產(chǎn)生單元 106將部分翻譯t插入到由節(jié)點(diǎn)n支配的區(qū)域中(步驟S1704)。圖20中示 出了從該過程獲得的剖析樹St。
在圖20中,剖析樹St不具有任何不包括節(jié)點(diǎn)n,或換言之節(jié)點(diǎn)SP19 的結(jié)構(gòu)。因此在步驟S1705不消除任何節(jié)點(diǎn)。
在完成了部分翻譯基本施加過程之后,產(chǎn)生單元106執(zhí)行步驟S1606的操作。因?yàn)樽羁尚挪糠址g信息集c仍包括未處理的部分翻譯信息,即 圖14的部分翻譯基本信息1403,產(chǎn)生單元106獲取部分翻譯基本信息1403 作為要處理的下一條部分翻譯信息P(步驟S1602)。
因?yàn)樵摬糠址g信息P為部分翻譯基本信息(步驟S1603處的"是"), 產(chǎn)生單元106執(zhí)行部分翻譯基本施加過程(步驟S1604)。
對(duì)部分翻譯基本信息1403執(zhí)行的部分翻譯基本施加過程與對(duì)部分翻譯 基本信息1404執(zhí)行的操作相同。在對(duì)部分翻譯基本信息1403執(zhí)行部分翻 譯基本施加過程之后,剖析樹St看起來像圖21中的那個(gè)剖析樹。
現(xiàn)在處理了最可信部分翻譯信息集C中所有條目的部分翻譯信息(步驟 S1606處的"是")。于是,產(chǎn)生單元106將對(duì)應(yīng)于剖析樹St的葉節(jié)點(diǎn)的語 素連接在一起,并產(chǎn)生目標(biāo)語言語句T "It's so big for me, I like it, but I just can't buy it"(步驟S1607)。
在完成了整合翻譯過程之后,輸出單元107輸出目標(biāo)語言語句T(步驟 S1509)。然后,機(jī)器翻譯過程結(jié)束。
根據(jù)本實(shí)施例的翻譯裝置利用語法信息將輸入的源語言語句劃分成部 分字符串,利用多個(gè)翻譯系統(tǒng)翻譯部分字符串并將具有最高翻譯分?jǐn)?shù)平均 值的翻譯組合成目標(biāo)語言語句。通過這種方式,即使在沒有翻譯系統(tǒng)能夠 獨(dú)自為整個(gè)源語言語句產(chǎn)生適當(dāng)翻譯結(jié)果時(shí),通過利用為每個(gè)部分字符串 選擇的最佳翻譯系統(tǒng)翻譯劃分的部分字符串并組合翻譯結(jié)果,也可以獲得 高度精確的翻譯。
根據(jù)本實(shí)施例,利用源語言語句的句法結(jié)構(gòu)從二維方面劃分源語言語 句,于是可以將所劃分部分字符串的關(guān)系用于翻譯。因此,與根據(jù)源語言 語句的外在模式進(jìn)行一維劃分相比,可以以高精度獲得翻譯結(jié)果并以高精 度產(chǎn)生最終的目標(biāo)語言語句。
此外,通過基于語法信息執(zhí)行整合過程,可以利用維持的部分翻譯關(guān) 系產(chǎn)生目標(biāo)語言語句。這提高了翻譯結(jié)果的精確性。此外,因?yàn)閯澐诌^程 和翻譯過程彼此無關(guān),所以個(gè)別翻譯系統(tǒng)的改進(jìn)可以直接有助于整個(gè)翻譯 質(zhì)量的提高。此外,在句法分析的時(shí)候處理剖析林結(jié)構(gòu)。于是,即使在源 語言語句有超過一個(gè)剖析樹時(shí),或者換言之,即使在輸入的源語言語句有 多個(gè)句法和語義解釋時(shí),也可以以并行方式執(zhí)行操作。由此可以提高機(jī)器翻譯過程的效率和可用性。
接下來,參考圖22解釋根據(jù)該實(shí)施例的翻譯裝置的硬件結(jié)構(gòu)。
根據(jù)該實(shí)施例的機(jī)器翻譯設(shè)備包括使用常規(guī)計(jì)算機(jī)的硬件結(jié)構(gòu),包括 諸如中央處理單元(CPU) 51之類的控制裝置、諸如只讀存儲(chǔ)器(ROM) 52和RAM 53之類的存儲(chǔ)裝置、連接到網(wǎng)絡(luò)以執(zhí)行通信的通信接口54、諸如硬盤驅(qū)動(dòng) 器(HDD)和緊致盤(CD)驅(qū)動(dòng)器之類的外部存儲(chǔ)裝置、顯示裝置、諸如鍵盤和 鼠標(biāo)之類的輸入裝置、以及連接這些組件的總線61。
根據(jù)該實(shí)施例的翻譯裝置所執(zhí)行的翻譯程序以可安裝或可執(zhí)行格式文 件的形式存儲(chǔ)并提供于計(jì)算機(jī)可讀記錄介質(zhì)中,例如光盤只讀存儲(chǔ)器 (CD-ROM)、軟盤(FD)、可記錄光盤(CD-R)和數(shù)字多用盤(DVD)中。
可以將根據(jù)該實(shí)施例的翻譯裝置執(zhí)行的翻譯程序存儲(chǔ)在連接到諸如因 特網(wǎng)之類的網(wǎng)絡(luò)的計(jì)算機(jī)中并經(jīng)過網(wǎng)絡(luò)下載其??梢越?jīng)由諸如因特網(wǎng)之類 的網(wǎng)絡(luò)提供或分布根據(jù)該實(shí)施例的翻譯裝置執(zhí)行的翻譯程序。
可以事先將根據(jù)該實(shí)施例的翻譯程序存儲(chǔ)在ROM等中并通過這種方式 來提供。
為根據(jù)該實(shí)施例的翻譯裝置執(zhí)行的翻譯程序賦予包括上述單元(輸入 單元、語素分析單元、句法分析單元、提取單元、翻譯單元、最可信結(jié)構(gòu) 選擇單元、產(chǎn)生單元和輸出單元)的模塊結(jié)構(gòu)。作為實(shí)際的硬件結(jié)構(gòu),CPU 51 (處理器)從記錄介質(zhì)讀取翻譯程序并執(zhí)行該程序,從而在主存儲(chǔ)裝置上 加載和產(chǎn)生各單元。
本領(lǐng)域的技術(shù)人員將容易想到更多的優(yōu)點(diǎn)和改進(jìn)。因此,在其更寬的 方面上,本發(fā)明不限于這里所示和所述的特定細(xì)節(jié)和代表性實(shí)施例。因此, 在不脫離如所附權(quán)利要求及其等價(jià)要件定義的一般發(fā)明構(gòu)思的精神或范圍 的情況下,可以做出各種修改。
權(quán)利要求
1、一種機(jī)器翻譯設(shè)備,其包括輸入單元,其輸入源語言形式的源語言語句;語素分析單元,其對(duì)所述源語言語句進(jìn)行語形學(xué)分析并輸出所述源語言語句的語素序列;句法分析單元,其對(duì)所述源語言語句的語素進(jìn)行句法分析并輸出所述源語言語句的句法結(jié)構(gòu);第一提取單元,在所述句法結(jié)構(gòu)中包括的第一節(jié)點(diǎn)充當(dāng)有效節(jié)點(diǎn)時(shí),所述第一提取單元從所述句法結(jié)構(gòu)提取與第一部分結(jié)構(gòu)相對(duì)應(yīng)的第一子串,所述第一部分結(jié)構(gòu)包括要統(tǒng)一到所述第一節(jié)點(diǎn)的每一個(gè)中的所有葉子方向的節(jié)點(diǎn);第二提取單元,在與所述第一節(jié)點(diǎn)具有直接或間接語法關(guān)系的第二節(jié)點(diǎn)充當(dāng)所述有效節(jié)點(diǎn)時(shí),所述第二提取單元從所述句法結(jié)構(gòu)提取與第二部分結(jié)構(gòu)相對(duì)應(yīng)的第二子串,所述第二部分結(jié)構(gòu)代表包括要統(tǒng)一到所述第二節(jié)點(diǎn)的每一個(gè)中的所有葉子方向節(jié)點(diǎn)的部分結(jié)構(gòu)和所述第一部分結(jié)構(gòu)之間的差異;翻譯單元,其利用多個(gè)翻譯系統(tǒng)中的每一個(gè)將所述第一子串和所述第二子串翻譯成目標(biāo)語言的形式,并產(chǎn)生部分翻譯信息,在所述部分翻譯信息中,代表翻譯可靠性的翻譯分?jǐn)?shù)與翻譯結(jié)果相關(guān)聯(lián);選擇單元,其從所述部分翻譯信息的條目的多個(gè)組合中選擇一個(gè)組合,其中要選擇的所述一個(gè)組合滿足如下條件作為所述部分翻譯信息的條目中包括的翻譯結(jié)果的原文的所述第二子串和所述第一子串彼此不交疊,所述源語言語句中包括的語素中的每一個(gè)匹配作為所述組合內(nèi)所述部分翻譯信息中包括的翻譯結(jié)果的原文的所述第二子串和所述第一子串之一,且基于所述部分翻譯信息中包括的所述翻譯分?jǐn)?shù)計(jì)算的、用于表示所述組合可靠性的第一可信度采取最大值;產(chǎn)生單元,其通過翻譯所述源語言語句產(chǎn)生所述目標(biāo)語言形式的目標(biāo)語言語句,使得所述目標(biāo)語言語句具有所選組合內(nèi)的所述部分翻譯信息中包括的翻譯結(jié)果;以及輸出單元,其輸出所述目標(biāo)語言語句。
2、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述句法結(jié)構(gòu)是包括多個(gè)剖析樹 的剖析林,可以基于用于所述源語言語句的句法分析的預(yù)定語法規(guī)則來采 用所述剖析樹。
3、 根據(jù)權(quán)利要求2所述的設(shè)備,其中所述句法分析單元產(chǎn)生包括所述剖析樹的所述剖析林,將所述剖析樹 中的每一個(gè)與表示對(duì)應(yīng)剖析樹的可靠性的第二可信度相關(guān)聯(lián);所述第一提取單元從所述剖析林內(nèi)包括的所述剖析樹中的、所述第二 可信度大于預(yù)定第一閾值的一個(gè)剖析樹提取所述第一子串;以及所述第二提取單元從所述剖析林內(nèi)包括的所述剖析樹中的、所述第二 可信度大于所述第一閾值的所述一個(gè)剖析樹提取所述第二子串。
4、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述句法結(jié)構(gòu)包括對(duì)應(yīng)語素的語法范疇與其每一個(gè)都關(guān)聯(lián)的節(jié)點(diǎn);以及所述第一提取單元從所述句法結(jié)構(gòu)提取與第一部分結(jié)構(gòu)相對(duì)應(yīng)的第一 子串,在所述第一部分結(jié)構(gòu)中,與特定語法范疇相關(guān)聯(lián)的所述第一節(jié)點(diǎn)充 當(dāng)所述有效節(jié)點(diǎn)。
5、 根據(jù)權(quán)利要求l所述的設(shè)備,其中所述第一提取單元還從所提取的第一子串中提取在源語言語料庫中出 現(xiàn)的概率大于預(yù)定第二閾值的一個(gè)第一子串;以及所述第二提取單元還從所提取的第二子串中提取在所述源語言語料庫 中出現(xiàn)的概率大于所述第二閾值的一個(gè)第二子串。
6、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述翻譯單元產(chǎn)生所述翻譯結(jié)果, 將通過預(yù)定計(jì)算方法針對(duì)所述翻譯系統(tǒng)中的每一個(gè)計(jì)算出的所述翻譯分?jǐn)?shù) 與所述翻譯結(jié)果相關(guān)聯(lián)。
7、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述翻譯單元產(chǎn)生所述翻譯結(jié)果, 將作為所述翻譯結(jié)果在目標(biāo)語言語料庫中出現(xiàn)的概率而計(jì)算出的所述翻譯 分?jǐn)?shù)與所述翻譯結(jié)果相關(guān)聯(lián)。
8、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述翻譯單元產(chǎn)生所述翻譯結(jié)果, 將作為基于預(yù)定翻譯模型的翻譯結(jié)果的翻譯概率而計(jì)算出的所述翻譯分?jǐn)?shù) 與所述翻譯結(jié)果相關(guān)聯(lián)。
9、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述選擇單元從所述組合中產(chǎn)生 一個(gè)組合,在所述一個(gè)組合中,所述部分翻譯信息內(nèi)的每一條中包括的所 述翻譯結(jié)果的原文的語素彼此不交疊,所述源語言語句中包括的所述語素 中的每一個(gè)對(duì)應(yīng)于所述組合內(nèi)的所述部分翻譯信息中包括的所述翻譯結(jié)果 的原文的所述語素之一,所述選擇單元為所產(chǎn)生的組合中的每一個(gè)計(jì)算所 述第一可信度并選擇針對(duì)所計(jì)算出的第一可信度具有最大值的組合。
10、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述產(chǎn)生單元根據(jù)所述源語言 語句中的所述翻譯結(jié)果的原文的語素的次序組合所選組合內(nèi)的所述部分翻 譯信息中包括的翻譯結(jié)果,從而產(chǎn)生所述目標(biāo)語言語句。
11、 一種機(jī)器翻譯方法,其包括 輸入源語言形式的源語言語句;對(duì)所述源語言語句進(jìn)行語形學(xué)分析并輸出所述源語言語句的語素序列;對(duì)所述源語言語句的語素進(jìn)行句法分析并輸出所述源語言語句的句法 結(jié)構(gòu);在所述句法結(jié)構(gòu)中包括的第一節(jié)點(diǎn)充當(dāng)有效節(jié)點(diǎn)時(shí),從所述句法結(jié)構(gòu) 提取與第一部分結(jié)構(gòu)相對(duì)應(yīng)的第一子串,所述第一部分結(jié)構(gòu)包括要統(tǒng)一到 所述第一節(jié)點(diǎn)的每一個(gè)中的所有葉子方向的節(jié)點(diǎn);在與所述第一節(jié)點(diǎn)具有直接或間接語法關(guān)系的第二節(jié)點(diǎn)充當(dāng)所述有效節(jié)點(diǎn)時(shí),從所述句法結(jié)構(gòu)提取與第二部分結(jié)構(gòu)相對(duì)應(yīng)的第二子串,所述第 二部分結(jié)構(gòu)代表包括要統(tǒng)一到所述第二節(jié)點(diǎn)的每一個(gè)中的所有葉子方向節(jié)點(diǎn)的部分結(jié)構(gòu)和所述第一部分結(jié)構(gòu)之間的差異;利用多個(gè)翻譯系統(tǒng)中的每一個(gè)將所述第一子串和所述第二子串翻譯成 目標(biāo)語言的形式,并產(chǎn)生部分翻譯信息,在所述部分翻譯信息中,代表翻 譯可靠性的翻譯分?jǐn)?shù)與翻譯結(jié)果相關(guān)聯(lián);從所述部分翻譯信息的條目的多個(gè)組合中選擇一個(gè)組合,其中要選擇 的所述一個(gè)組合滿足如下條件作為所述部分翻譯信息的條目中包括的翻 譯結(jié)果的原文的所述第二子串和所述第一子串彼此不交疊,所述源語言語 句中包括的語素中的每一個(gè)匹配作為所述組合內(nèi)所述部分翻譯信息中包括 的翻譯結(jié)果的原文的所述第二子串和所述第一子串之一,且基于所述部分 翻譯信息中包括的所述翻譯分?jǐn)?shù)計(jì)算的、用于表示所述組合可靠性的第一 可信度采取最大值;通過翻譯所述源語言語句產(chǎn)生所述目標(biāo)語言形式的目標(biāo)語言語句,使 得所述目標(biāo)語言語句具有所選組合內(nèi)的所述部分翻譯信息中包括的翻譯結(jié) 果;以及輸出所述目標(biāo)語言語句。
全文摘要
一種機(jī)器翻譯設(shè)備,其包括輸入單元,其輸入源語言語句;句法分析單元,其對(duì)所述源語言語句進(jìn)行句法分析并產(chǎn)生句法信息;提取單元,其從所述句法信息提取第一部分信息,第一部分信息包括第一部分結(jié)構(gòu),第一部分結(jié)構(gòu)包括作為句法信息節(jié)點(diǎn)的最高有效節(jié)點(diǎn)下方的所有節(jié)點(diǎn)和對(duì)應(yīng)的語素,該提取單元還提取第二部分信息,第二部分信息包括第二子樹和對(duì)應(yīng)語素,第二子樹代表第一部分信息中的兩條第一部分信息之間的差異;翻譯單元,其利用多個(gè)翻譯系統(tǒng)翻譯所有部分信息條目的語素;以及最可信結(jié)構(gòu)選擇單元,其選擇翻譯分?jǐn)?shù)平均值最高的組合。
文檔編號(hào)G06F17/28GK101526937SQ20091012693
公開日2009年9月9日 申請(qǐng)日期2009年3月5日 優(yōu)先權(quán)日2008年3月7日
發(fā)明者住田一男, 知野哲朗, 釜谷聰史 申請(qǐng)人:株式會(huì)社東芝