網(wǎng)絡(luò)模型的翻譯方法中OOV的預(yù)測處理示 例性示意圖;
[0029] 圖4是示出本發(fā)明實施例二的基于神經(jīng)網(wǎng)絡(luò)模型的翻譯裝置的邏輯框圖。
【具體實施方式】
[0030] 本發(fā)明的基本構(gòu)思是,提供一種結(jié)合傳統(tǒng)的統(tǒng)計機器翻譯方法和RNN翻譯方法的 翻譯方式:利用對數(shù)線性模型將神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯特征和統(tǒng)計機器翻譯模型的翻譯 特征相結(jié)合,計算從預(yù)設(shè)的翻譯詞表中預(yù)測出的多個初選詞的得分(即翻譯概率),從經(jīng)排 序(得分從大到小順序排列)的多個初選詞中選取候選詞。
[0031] 然后,根據(jù)經(jīng)上述預(yù)測處理得到候選詞,自動地生成長度適宜的目標(biāo)語言語句,解 決了 RNN翻譯方法中存在的詞表受限、難以利用單語語料進行訓(xùn)練、無法豐富特征、傾向于 生成較短翻譯結(jié)果的問題,顯著提升翻譯質(zhì)量,且提高翻譯結(jié)果的可讀性及流利程度。
[0032] 下面結(jié)合附圖詳細(xì)描述本發(fā)明實施例的基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方法以及使用 所述方法的裝置。
[0033] 實施例一
[0034] 圖1是示出本發(fā)明實施例一的基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方法的流程圖??稍趯嵤?例二所述的裝置上執(zhí)行所述方法。
[0035] 參照圖1,在步驟S110,獲取源語言的語句。
[0036] 根據(jù)本發(fā)明的示例性實施例,步驟SllO包括以下處理之一:
[0037] 接收文本數(shù)據(jù),并將所述文本數(shù)據(jù)作為所述源語言的語句。
[0038] 接收語音數(shù)據(jù),對所述語音數(shù)據(jù)進行語音識別得到經(jīng)語音識別的文本數(shù)據(jù),并將 所述經(jīng)語音識別的文本數(shù)據(jù)作為所述源語言的語句。
[0039] 接收圖片數(shù)據(jù),對所述圖片數(shù)據(jù)進行光學(xué)字符識別OCR得到經(jīng)OCR識別的文本數(shù) 據(jù),并將所述經(jīng)OCR識別的文本數(shù)據(jù)作為所述源語言的語句。
[0040] 在步驟S120,將所述源語言的語句進行編碼,得到向量序列。
[0041] 具體地,可以對源語言的語句進行分詞,將分得的多個分詞分別轉(zhuǎn)換成與每個所 述分詞對應(yīng)的詞向量,由多個分詞各自對應(yīng)的詞向量得到所述向量序列。
[0042] 圖2是示出本發(fā)明實施例一的基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方法中神經(jīng)網(wǎng)絡(luò)翻譯模 型的應(yīng)用場景示例性示意圖。參照圖2,以獲取到的源語言語句"北京的出租車司機很熱情" 為例,對該語句進行分詞處理得到六個分詞,圖2中每個方框內(nèi)的字或詞語代表一個分詞, "0. 123, 0. 264*" 0. 465"是經(jīng)編碼處理后得到的向量序列。
[0043] 在步驟S130,基于所述向量序列逐詞地預(yù)測目標(biāo)語言中相應(yīng)的候選詞。其中,在任 一所述候選詞的預(yù)測處理中,從預(yù)設(shè)的翻譯詞表中獲取多個初選詞,并且基于對數(shù)線性模 型計算每個所述初選詞的翻譯概率,以根據(jù)所述翻譯概率從所述多個初選詞選取所述候選 詞,所述對數(shù)線性模型根據(jù)神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯特征和統(tǒng)計機器翻譯模型的翻譯特征 建立的。
[0044] 具體地,在本步驟中,所述從預(yù)設(shè)的翻譯詞表中獲取多個初選詞,并且基于對數(shù)線 性模型計算每個所述初選詞的翻譯概率,以根據(jù)所述翻譯概率從所述多個初選詞選取所述 候選詞的處理可包括:從預(yù)設(shè)的翻譯詞表中獲取M個詞語作為初選詞,M為正整數(shù);根據(jù)所 述向量序列和在獲取M個初選詞之前預(yù)測出的候選詞,計算每個所述初選詞的神經(jīng)網(wǎng)絡(luò)翻 譯模型的翻譯特征;計算每個所述初選詞的統(tǒng)計機器翻譯模型的翻譯特征;根據(jù)計算得到 的神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯特征和統(tǒng)計機器翻譯模型的翻譯特征,結(jié)合所述對數(shù)線性模型 計算每個所述初選詞的翻譯概率值。對計算得到的M個翻譯概率值進行排序,并將與前N 位的翻譯概率值相應(yīng)的初選詞選取為所述候選詞,N為正整數(shù),且N < M。
[0045] 在具體的實現(xiàn)方式中,仍以圖2為例進行說明,首先從預(yù)設(shè)的翻譯詞表中獲取多 個詞語(the,beijing,taxi等)作為初選詞,根據(jù)向量序列(0. 123,0. 264…0.465)計算 每個所述初選詞的神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯特征。這里,由于是預(yù)測目標(biāo)語句中位于第一 位的候選詞,在此之前沒有預(yù)測出的候選詞,因此計算時無需考慮之前預(yù)測出的候選詞。
[0046] 然而,在后續(xù)的候選詞的預(yù)測處理中均需考慮之前預(yù)測出的候選詞。也就是說,預(yù) 測出目標(biāo)語言語句中位于第一位的候選詞the,beijing與tax之后,將分別使用這三個候 選詞預(yù)測后面的候選詞taxi,driver與' s。在預(yù)測位于第二位的候選詞時,"the taxi", "the driver"以及"beijing' s"三者得分最高,參與后續(xù)的預(yù)測處理過程,而位于第一位 的候選詞"taxi"后續(xù)不會再被參考。
[0047] 優(yōu)選地,可通過以下公式(1)執(zhí)行所述根據(jù)所述向量序列和在獲取M個初選詞之 前預(yù)測出的候選詞,計算每個所述初選詞的神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯特征的處理:
[0049] 其中,hmn為神經(jīng)網(wǎng)絡(luò)翻譯模型的翻譯特征,e ,為目標(biāo)語言的語句中第j個初選詞, e, i,…,ei為獲取初選詞e ,之前預(yù)測出的前j_l個候選詞,I為所述向量序列。
[0050] 如前所述,在RNN翻譯方法中存在詞表受限的問題。圖3是示出本發(fā)明實施例一 的基于神經(jīng)網(wǎng)絡(luò)模型的翻譯方法中OOV的預(yù)測處理示例性示意圖。參照圖3,單詞"坑洞" 對于神經(jīng)網(wǎng)絡(luò)翻譯模型來說是一個00V,無法得到準(zhǔn)確的譯文。
[0051] 在本實施例中,對于OOV用"UNK"標(biāo)記,在后續(xù)的處理步驟中,使用預(yù)設(shè)的單詞翻 譯表對標(biāo)記為"UNK"的單詞進行預(yù)測候選詞處理。具體地,為了生成OOV的準(zhǔn)確翻譯,首 先找到源語言語句中對應(yīng)的詞,圖3中a 13= 0. 1表示"陷在"到"UNK"的單詞對齊概率是 0. 1,a 23= 〇. 7表示"坑洞"到"UNK"的單詞對齊概率是0. 7, a 33= 〇. 2表示"中"到"UNK" 的單詞對齊概率是0.2, a23的值最大。由此可知,"UNK"對應(yīng)源語言語句中的"坑洞"一詞, 然后,"坑洞"相應(yīng)的目標(biāo)語言語句中的候選詞可從大規(guī)模對齊雙語語料庫訓(xùn)練出來的單詞 翻譯表中獲得,如圖3所示的hole、pothole等。
[0052] 其次,計算每個所述初選詞的統(tǒng)計機器翻譯模型的翻譯特征。為了優(yōu)化單詞互譯 程度、提高翻譯質(zhì)量,優(yōu)選地,所述統(tǒng)計機器翻譯模型的翻譯特征可包括雙向單詞翻譯模型 特征??赏ㄟ^以下公式(2)和公式(3)執(zhí)行所述計算每個所述初選詞的雙向單詞翻譯模型 特征的處理:
[0055] 其中,htpl為源語言到目標(biāo)語言的單詞翻譯模型特征,h tp2為目標(biāo)語言到源語言 的單詞翻譯模型特征,P(Alf1)為源語言的單詞A到目標(biāo)語言的初選詞e ,的翻譯概率, P^le,)為目標(biāo)語言的初選詞4到源語言的單詞的翻譯概率,a M為源語言的單詞。 到目標(biāo)語言的初選詞^的單詞對齊概率,所述單詞對齊概率是基于神經(jīng)網(wǎng)絡(luò)翻譯模型生成 的。S (e],fj為目標(biāo)語言的初選詞士和源語言的單詞f i之間的翻譯參數(shù),S (e U = 1 時,目標(biāo)語言的初選詞4和源語言的單詞f ,之間互為翻譯,S (e A) = 〇時,目標(biāo)語言的 初選詞e#P源語言的單詞之間不互為翻譯。S (f^ej為源語言的單詞T1和目標(biāo)語言的 初選詞e,之間的翻譯參數(shù),S (f e]) = 1時,源語言的單詞T1和目標(biāo)語言的初選詞e ^之 間互為翻譯,S (Ga) =〇時,源語言的單詞仁和目標(biāo)語言的初選詞e ,之間不互為翻譯。
[0056] 進一步地,所述統(tǒng)計機器翻譯模型的翻譯特征還可以包括N元語言模型特征和/ 或詞懲罰特征。由于在RNN翻譯方法中通過求譯文中每個單詞的翻譯概率的乘積來計算所 述單詞的得分,而每個單詞的翻譯概率都是一個小于1的值,因此譯文長度越長得分越低, 反之譯文長度越短得分越高,這導(dǎo)致RNN翻譯系統(tǒng)更傾向于生成短譯文。因此,通過詞懲罰 特征對過短的翻譯結(jié)果進行懲罰,可以優(yōu)化翻譯結(jié)果的長度,生成長度適宜的譯文。
[