專利名稱:短語(yǔ)劃分模型建立方法、統(tǒng)計(jì)機(jī)器翻譯方法以及解碼器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域,具體而言,涉及一種短語(yǔ)劃分模型建立方法、統(tǒng)計(jì)機(jī)器翻譯方法以及解碼器。
背景技術(shù):
基于層次化短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法是近年來(lái)統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域的一種主流方法。在層次化短語(yǔ)模型中,允許短語(yǔ)中包含子短語(yǔ),并使用變量X來(lái)代替子短語(yǔ),從而使模型具有泛化能力。也就是說(shuō),從一個(gè)短語(yǔ)中學(xué)習(xí)到的翻譯知識(shí),可以用來(lái)翻譯具有相同模式的其他短語(yǔ)。例如,對(duì)于以下短語(yǔ)對(duì)短語(yǔ)對(duì)1 于四月訪問(wèn)中國(guó)visit China in April‘‘四月,April”和“中國(guó),China” 可以看作2個(gè)子短語(yǔ)。分別用\和\2代替這兩個(gè)子短語(yǔ),則可以得到一條翻譯規(guī)則規(guī)貝丨J1 =X-X 于 X1 訪問(wèn) X2, visit X2in X1)其中X是變量,下標(biāo)表示變量之間的對(duì)應(yīng)關(guān)系。例如,在規(guī)則1中,變量&在漢語(yǔ)端處于第二個(gè)位置,而當(dāng)翻譯為英語(yǔ)后,X1處于英語(yǔ)端的第四個(gè)位置。規(guī)則1具有泛化能力,能夠用來(lái)翻譯其他短語(yǔ)或句子。例如,當(dāng)用它來(lái)翻譯“于6 月訪問(wèn)美國(guó)華盛頓”時(shí),如果令& =“6月”,“美國(guó)華盛頓”,則可以得到翻譯結(jié)果于^C1 {6 月}訪問(wèn) X2 {美國(guó)華盛頓} visit U. S. Washingtonin June然而,基于層次化短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法面臨的一個(gè)問(wèn)題是,在規(guī)則匹配過(guò)程中,難以確定短語(yǔ)邊界,因而造成翻譯的不準(zhǔn)確。例如,以下是一個(gè)由漢語(yǔ)句子及其英語(yǔ)譯文組成的雙語(yǔ)句對(duì)的例子
權(quán)利要求
1.一種基于最大熵模型的短語(yǔ)劃分模型建立方法,包括 從雙語(yǔ)語(yǔ)料庫(kù)中獲取訓(xùn)練樣本;將所獲取的訓(xùn)練樣本輸入到最大熵模型的參數(shù)訓(xùn)練工具中進(jìn)行參數(shù)訓(xùn)練,得到最大熵模型的權(quán)重參數(shù);以及將所述權(quán)重參數(shù)代入最大熵模型中,生成所述短語(yǔ)劃分模型。
2.如權(quán)利要求1所述的方法,其中,所述獲取訓(xùn)練樣本的步驟包括針對(duì)所述雙語(yǔ)語(yǔ)料庫(kù)中的每個(gè)雙語(yǔ)句對(duì)中的源語(yǔ)言句子或目標(biāo)語(yǔ)言句子執(zhí)行以下步驟對(duì)所述句子進(jìn)行短語(yǔ)劃分;為所劃分出的短語(yǔ)中的每個(gè)詞標(biāo)注邊界標(biāo)簽,所述邊界標(biāo)簽指示該詞是所述短語(yǔ)的開(kāi)始、中間、結(jié)束部分還是所述短語(yǔ)本身;以及確定所述句子中的每個(gè)詞的上下文特征的值,其中所述句子中的每個(gè)詞及其邊界標(biāo)簽、上下文特征值組成一個(gè)訓(xùn)練樣本。
3.如權(quán)利要求2所述的方法,其中所述短語(yǔ)劃分步驟包括 將所述句子劃分為多個(gè)最大單調(diào)短語(yǔ),其中如果源語(yǔ)言短語(yǔ)中的詞的順序與目標(biāo)語(yǔ)言短語(yǔ)中的對(duì)應(yīng)詞的順序一致,則所述源語(yǔ)言短語(yǔ)和所述目標(biāo)語(yǔ)言短語(yǔ)均稱為單調(diào)短語(yǔ),并且如果通過(guò)所述單調(diào)短語(yǔ)在其所在的句子中的擴(kuò)展所生成的任何新短語(yǔ)都不是單調(diào)短語(yǔ),則所述單調(diào)短語(yǔ)是最大單調(diào)短語(yǔ)。
4.如權(quán)利要求2所述的方法,其中所述上下文特征包括上下文單詞特征和上下文詞性特征中的至少一種。
5.一種統(tǒng)計(jì)機(jī)器翻譯方法,用于將輸入的源語(yǔ)言句子翻譯成目標(biāo)語(yǔ)言句子,所述方法包括通過(guò)查詢翻譯規(guī)則表來(lái)獲得用于翻譯所述源語(yǔ)言句子的規(guī)則; 組合所述規(guī)則以得到中間翻譯結(jié)果;以及利用統(tǒng)計(jì)機(jī)器翻譯模型來(lái)從多個(gè)中間翻譯結(jié)果中確定目標(biāo)語(yǔ)言句子, 其中,所述方法還包括將短語(yǔ)劃分模型作為一種特征函數(shù)結(jié)合到統(tǒng)計(jì)機(jī)器翻譯模型中, 其中所述短語(yǔ)劃分模型是根據(jù)權(quán)利要求1-4中任意一項(xiàng)所述的方法建立的短語(yǔ)劃分模型。
6.如權(quán)利要求5所述的方法,其中,所述結(jié)合步驟包括對(duì)于用于翻譯所述源語(yǔ)言句子的每個(gè)規(guī)則,為所述規(guī)則中的每個(gè)源語(yǔ)言詞標(biāo)注初始邊界標(biāo)簽;在組合所述規(guī)則之后,更新所述中間翻譯結(jié)果中的源語(yǔ)言詞的邊界標(biāo)簽,以保證所述邊界標(biāo)簽所形成的標(biāo)簽序列的合理性;以及基于所述短語(yǔ)劃分模型和所述中間翻譯結(jié)果中的源語(yǔ)言詞的邊界標(biāo)簽來(lái)計(jì)算對(duì)應(yīng)于所述中間翻譯結(jié)果的短語(yǔ)劃分分?jǐn)?shù),作為所述統(tǒng)計(jì)機(jī)器翻譯模型的特征函數(shù)值。
7.如權(quán)利要求6所述的方法,其中所述結(jié)合步驟還包括在標(biāo)注初始邊界標(biāo)簽的步驟之前,對(duì)所述輸入的源語(yǔ)言句子中的每個(gè)詞,利用所述短語(yǔ)劃分模型來(lái)計(jì)算它對(duì)應(yīng)于每種邊界標(biāo)簽的概率以形成單詞-標(biāo)簽矩陣;以及在組合所述規(guī)則的步驟之前,基于所述初始邊界標(biāo)簽和所述單詞-標(biāo)簽矩陣來(lái)計(jì)算每個(gè)規(guī)則的短語(yǔ)劃分分?jǐn)?shù),并且其中,所述計(jì)算對(duì)應(yīng)于所述中間翻譯結(jié)果的短語(yǔ)劃分分?jǐn)?shù)的步驟包括 合計(jì)每個(gè)規(guī)則的短語(yǔ)劃分分?jǐn)?shù)以及所述邊界標(biāo)簽更新所導(dǎo)致的短語(yǔ)劃分分?jǐn)?shù)變化量, 以得到所述翻譯結(jié)果所對(duì)應(yīng)的短語(yǔ)劃分分?jǐn)?shù)。
8.一種解碼器,用于將輸入的源語(yǔ)言句子翻譯成目標(biāo)語(yǔ)言句子,所述解碼器包括 解碼單元,配置用于通過(guò)查詢翻譯規(guī)則表來(lái)獲得用于翻譯所述源語(yǔ)言句子的規(guī)則;組合所述規(guī)則以得到中間翻譯結(jié)果;以及利用統(tǒng)計(jì)機(jī)器翻譯模型來(lái)從多個(gè)中間翻譯結(jié)果中確定目標(biāo)語(yǔ)言句子;以及短語(yǔ)劃分模型單元,配置用于將短語(yǔ)劃分模型作為一種特征函數(shù)結(jié)合到統(tǒng)計(jì)機(jī)器翻譯模型中,其中所述短語(yǔ)劃分模型是根據(jù)權(quán)利要求1-4中任意一項(xiàng)所述的方法建立的短語(yǔ)劃分模型。
9.如權(quán)利要求8所述的解碼器,其中所述短語(yǔ)劃分模型單元包括邊界標(biāo)簽標(biāo)注單元,配置用于對(duì)于用于翻譯所述源語(yǔ)言句子的每個(gè)規(guī)則,為所述規(guī)則中的每個(gè)源語(yǔ)言詞標(biāo)注初始邊界標(biāo)簽;以及更新所述解碼單元得到的所述中間翻譯結(jié)果中的源語(yǔ)言詞的邊界標(biāo)簽,以保證所述邊界標(biāo)簽所形成的標(biāo)簽序列的合理性;以及短語(yǔ)劃分分?jǐn)?shù)計(jì)算單元,配置用于基于所述短語(yǔ)劃分模型和所述中間翻譯結(jié)果中的源語(yǔ)言詞的邊界標(biāo)簽來(lái)計(jì)算對(duì)應(yīng)于所述中間翻譯結(jié)果的短語(yǔ)劃分分?jǐn)?shù),作為所述統(tǒng)計(jì)機(jī)器翻譯模型的特征函數(shù)值。
10.如權(quán)利要求9所述的解碼器,其中所述邊界標(biāo)簽標(biāo)注單元進(jìn)一步配置用于對(duì)所述輸入的源語(yǔ)言句子中的每個(gè)詞,利用所述短語(yǔ)劃分模型來(lái)計(jì)算它對(duì)應(yīng)于每種邊界標(biāo)簽的概率以形成單詞-標(biāo)簽矩陣;并且所述短語(yǔ)劃分分?jǐn)?shù)計(jì)算單元進(jìn)一步配置用于基于所述初始邊界標(biāo)簽和所述單詞-標(biāo)簽矩陣來(lái)計(jì)算每個(gè)規(guī)則的短語(yǔ)劃分分?jǐn)?shù);以及合計(jì)每個(gè)規(guī)則的短語(yǔ)劃分分?jǐn)?shù)以及所述邊界標(biāo)簽更新所導(dǎo)致的短語(yǔ)劃分分?jǐn)?shù)變化量,以得到所述翻譯結(jié)果所對(duì)應(yīng)的短語(yǔ)劃分分?jǐn)?shù)。
全文摘要
本發(fā)明公開(kāi)了一種短語(yǔ)劃分模型建立方法、統(tǒng)計(jì)機(jī)器翻譯方法以及解碼器。所述短語(yǔ)模型建立方法包括從雙語(yǔ)語(yǔ)料庫(kù)中獲取訓(xùn)練樣本;將所獲取的訓(xùn)練樣本輸入到最大熵模型的參數(shù)訓(xùn)練工具中進(jìn)行參數(shù)訓(xùn)練,得到最大熵模型的權(quán)重參數(shù);以及將權(quán)重參數(shù)代入最大熵模型中,生成短語(yǔ)劃分模型。
文檔編號(hào)G06F17/27GK102193912SQ201010124870
公開(kāi)日2011年9月21日 申請(qǐng)日期2010年3月12日 優(yōu)先權(quán)日2010年3月12日
發(fā)明者于浩, 何中軍, 孟遙 申請(qǐng)人:富士通株式會(huì)社