基于樣本重要性的自動機(jī)器翻譯領(lǐng)域自適應(yīng)方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及語言翻譯領(lǐng)域,具體涉及一種自動機(jī)器翻譯領(lǐng)域的自適應(yīng)方法。
【背景技術(shù)】
[0002] 隨著全球化時代的到來,機(jī)器翻譯在促進(jìn)國際政治、經(jīng)濟(jì)、文化、科技交流等方面 具有重大的實(shí)用價值和戰(zhàn)略意義。自動機(jī)器翻譯方法通過在大規(guī)模高質(zhì)量的雙語對齊語料 集上使用機(jī)器學(xué)習(xí)的方法來訓(xùn)練翻譯系統(tǒng)。自動機(jī)器翻譯系統(tǒng)是一種機(jī)器學(xué)習(xí)模型,機(jī)器 學(xué)習(xí) (Machine Learning)的相關(guān)研究已經(jīng)證明:訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布差異越大,機(jī) 器學(xué)習(xí)模型的泛化誤差也就會越大。對于自動機(jī)器翻譯系統(tǒng),當(dāng)訓(xùn)練語料與翻譯任務(wù)來自 不同的領(lǐng)域,即訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自于不同的分布,那么翻譯系統(tǒng)的性能就會下降。由 于大規(guī)模特定領(lǐng)域的雙語平行語料不易獲取,現(xiàn)實(shí)中使用的訓(xùn)練集往往為由來自多個領(lǐng)域 的語料組成的混合語料集,例如由議會記錄、法律文本、日常對話以及新聞報道等組成的混 合訓(xùn)練語料集。使用基于混合語料集的翻譯系統(tǒng)完成特定領(lǐng)域的翻譯任務(wù)時,翻譯結(jié)果往 往不能達(dá)到人們的期望。在訓(xùn)練語料為混合語料的前提下,為提高翻譯系統(tǒng)在特定領(lǐng)域的 翻譯性能,需要提高翻譯系統(tǒng)的領(lǐng)域自適應(yīng)能力。
[0003] 在現(xiàn)有自動機(jī)器翻譯方法上,為進(jìn)一步提高翻譯系統(tǒng)的翻譯性能和實(shí)用性,需要 提高翻譯系統(tǒng)的領(lǐng)域自適應(yīng)能力。目前,針對如何提高翻譯系統(tǒng)領(lǐng)域自適應(yīng)能力的問題,主 要有以下幾種解決方法:
[0004] (1)基于信息檢索(Information Retrieval)和數(shù)據(jù)選擇(Data Selection)的領(lǐng) 域自適應(yīng)方法:這是一種簡單直接的方法,通過檢索的方式選擇和目標(biāo)領(lǐng)域最相關(guān)的語料 作為訓(xùn)練數(shù)據(jù),提高翻譯系統(tǒng)與目標(biāo)領(lǐng)域的匹配程度從而提高翻譯質(zhì)量。訓(xùn)練數(shù)據(jù)和目標(biāo) 領(lǐng)域的相似性對于自動機(jī)器翻譯系統(tǒng)的性能是至關(guān)重要的,此方法通過提高這種相似性能 有效地提升翻譯系統(tǒng)的性能。這種方法實(shí)現(xiàn)簡單,適用于目標(biāo)領(lǐng)域單一而且預(yù)先確定的情 況,但是難以應(yīng)對目標(biāo)領(lǐng)域多樣或未知的環(huán)境。
[0005] (2)基于訓(xùn)練實(shí)例加權(quán)(Instance Weighting)的領(lǐng)域自適應(yīng)方法:這種方法可以 看作是檢索方法的柔性改進(jìn)。加權(quán)法根據(jù)訓(xùn)練實(shí)例與目標(biāo)領(lǐng)域的相關(guān)性,或者根據(jù)實(shí)例的 可靠性,用連續(xù)的實(shí)數(shù)表示實(shí)例的權(quán)重,并依據(jù)實(shí)例權(quán)重訓(xùn)練翻譯系統(tǒng)。實(shí)例的粒度可以有 多種級別,例如語料庫級別、篇章級別、句子級別、短語級別以及翻譯規(guī)則級別。在自動機(jī)器 翻譯系統(tǒng)的訓(xùn)練階段,適當(dāng)提高與目標(biāo)領(lǐng)域相匹配的實(shí)例的權(quán)重能有效提高翻譯系統(tǒng)在目 標(biāo)領(lǐng)域的翻譯性能。
[0006] (3)基于混合模型(Mixture Model)的領(lǐng)域自適應(yīng)方法:這類方法把上面的加權(quán)法 從實(shí)例延伸到了模型,預(yù)先在多個不同領(lǐng)域的數(shù)據(jù)集上分別訓(xùn)練相應(yīng)的翻譯模型,然后根 據(jù)目標(biāo)領(lǐng)域的特性來調(diào)整各個翻譯模型的重要性。該方法是一種粗粒度的領(lǐng)域自適應(yīng)方 法,能有效提高翻譯系統(tǒng)的領(lǐng)域自適應(yīng)性,但不能充分利用訓(xùn)練語料中的領(lǐng)域信息。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明為了解決現(xiàn)有的翻譯系統(tǒng)的自適應(yīng)方法不能充分利用訓(xùn)練語料中的領(lǐng)域 十目息的問題。
[0008] 基于樣本重要性的自動機(jī)器翻譯領(lǐng)域自適應(yīng)方法,包括以下步驟:
[0009] 步驟1、訓(xùn)練集為雙語言對齊的句對集合,一個雙語言對齊的句對中包括一個源語 言句子A、一個目標(biāo)語言句子ei;每個句對稱作一個訓(xùn)練樣本,
[0010] 為訓(xùn)練集中的每個訓(xùn)練樣本設(shè)置樣本權(quán)重M,i = l,2,3,···,!!,其中,η為訓(xùn)練樣本 的個數(shù);
[0011] 設(shè)置樣本權(quán)重向量λ= ... ,Ai, ...,λη},樣本權(quán)重向量是一個η維的向量, 每一維與訓(xùn)練集中的一個訓(xùn)練樣本相對應(yīng);
[0012] 步驟2、統(tǒng)計訓(xùn)練樣本源語言句子的一元詞頻分布:
[0013] 依據(jù)步驟1中設(shè)置的樣本權(quán)重向量,通過統(tǒng)計的方法得到訓(xùn)練樣本源語言句子的 一元詞頻分布,此分布為樣本權(quán)重向量的非線性表示,如下所示:
[0014] p(w) = Ψ (λ)⑴
[0015] 其中,w為訓(xùn)練樣本源語言句子中的詞語,p(w)為其概率值;Ψ(λ)為樣本權(quán)重向量 λ的非線性表示,是源語言詞語概率與樣本權(quán)重向量之間的非線性關(guān)系;
[0016] 步驟3、使用訓(xùn)練樣本源語言句子的一元詞頻分布計算目標(biāo)領(lǐng)域文本的句子概率; 依據(jù)目標(biāo)領(lǐng)域文本的句子概率建立訓(xùn)練樣本與目標(biāo)領(lǐng)域之間的聯(lián)系;
[0017] 步驟4、依據(jù)目標(biāo)領(lǐng)域文本的句子概率建立樣本權(quán)重向量的似然函數(shù)以入);
[0018] 步驟5、優(yōu)化樣本權(quán)重向量的似然函數(shù),求解最優(yōu)樣本權(quán)重向量,確定目標(biāo)領(lǐng)域文 本所屬的領(lǐng)域;
[0019] 步驟6、計算短語對的翻譯概率,依據(jù)短語對及其翻譯概率生成基于樣本權(quán)重向量 的翻譯規(guī)則,依據(jù)基于樣本權(quán)重向量的翻譯規(guī)則,提高翻譯系統(tǒng)領(lǐng)域適應(yīng)性。
[0020] 本發(fā)明具有以下有益效果:
[0021] 基于樣本重要性的機(jī)器翻譯領(lǐng)域自適應(yīng)方法使用源語言句子的一元詞頻分布相 似性來衡量文本的領(lǐng)域相似性,能夠處理目標(biāo)領(lǐng)域未知或多領(lǐng)域混合的領(lǐng)域適應(yīng)問題;通 過訓(xùn)練樣本權(quán)重,能夠訓(xùn)練得到具有領(lǐng)域自適應(yīng)的翻譯系統(tǒng)。在大規(guī)模中英翻譯任務(wù)上實(shí) 驗(yàn)檢驗(yàn)發(fā)現(xiàn),通過添加訓(xùn)練樣本權(quán)重,領(lǐng)域自適應(yīng)翻譯系統(tǒng)在未知目標(biāo)領(lǐng)域翻譯任務(wù)上的 翻譯性能得到了提高,翻譯系統(tǒng)BLEU值相對于未使用領(lǐng)域適應(yīng)方法的翻譯系統(tǒng)提高了0.75 個百分點(diǎn)。
【附圖說明】
[0022]圖1為本發(fā)明流程示意圖。
【具體實(shí)施方式】
【具體實(shí)施方式】 [0023] 一:結(jié)合圖1說明本實(shí)施方式,
[0024] 基于樣本重要性的自動機(jī)器翻譯領(lǐng)域自適應(yīng)方法,包括以下步驟:
[0025] 步驟1、訓(xùn)練集為雙語言對齊的句對集合,一個雙語言對齊的句對中包括一個源語 言句子A、一個目標(biāo)語言句子ei;每個句對稱作一個訓(xùn)練樣本,
[0026] 為訓(xùn)練集中的每個訓(xùn)練樣本設(shè)置樣本權(quán)重M,i = l,2,3,···,η,其中,η為訓(xùn)練樣本 的個數(shù);
[0027] 設(shè)置樣本權(quán)重向量λ= {λχ,λ?,. . .,Ai, . . .,λη},樣本權(quán)重向量是一個η維的向量, 每一維與訓(xùn)練集中的一個訓(xùn)練樣本相對應(yīng);
[0028] 步驟2、統(tǒng)計訓(xùn)練樣本源語言句子的一元詞頻分布:
[0029] 依據(jù)步驟1中設(shè)置的樣本權(quán)重向量,通過統(tǒng)計的方法得到訓(xùn)練樣本源語言句子的 一元詞頻分布,此分布為樣本權(quán)重向量的非線性表示,如下所示:
[0030] p(w) = Ψ (λ)⑴
[0031] 其中,w為訓(xùn)練樣本源語言句子中的詞語,p(w)為其概率值;Ψ(λ)為樣本權(quán)重向量 λ的非線性表示,是源語言詞語概率與樣本權(quán)重向量之間的非線性關(guān)系;
[0032]步驟3、使用訓(xùn)練樣本源語言句子的一元詞頻分布計算目標(biāo)領(lǐng)域文本的句子概率; 依據(jù)目標(biāo)領(lǐng)域文本的句子概率建立訓(xùn)練樣本與目標(biāo)領(lǐng)域之間的聯(lián)系;
[0033]步驟4、依據(jù)目標(biāo)領(lǐng)域文本的句子概率建立樣本權(quán)重向量的似然函數(shù)以入);
[0034]訓(xùn)練樣本源語言的一元詞頻分布與目標(biāo)領(lǐng)域文本的一元詞頻越相似時,兩者的領(lǐng) 域相似性也就越高;由于訓(xùn)練樣本源語言的一元詞頻分布為樣本權(quán)重向量的非線性函數(shù), 因此通過樣本權(quán)重向量調(diào)整訓(xùn)練樣本源語言句子的一元詞頻分布,修改訓(xùn)練集與目標(biāo)領(lǐng)域 文本的領(lǐng)域相似性;不同的樣本權(quán)重向量使得訓(xùn)練集與目標(biāo)領(lǐng)域文本之間具有不同的領(lǐng)域 相似性,由此可知,存在一個最優(yōu)樣本權(quán)重向量使得訓(xùn)練集和目標(biāo)領(lǐng)域文本的領(lǐng)域相似性 最高;本發(fā)明的樣本權(quán)重模型即是尋找一個這樣的樣本權(quán)重向量,依據(jù)目標(biāo)領(lǐng)域文本的句 子概率建立樣本權(quán)重向量的似然函數(shù),通過求解此似然函數(shù)得到所需要的最優(yōu)樣本權(quán)重向 量;
[0035] 步驟5、優(yōu)化樣本權(quán)重向量的似然函數(shù),求解最優(yōu)樣本權(quán)重向量,確定目標(biāo)領(lǐng)域文 本所屬的領(lǐng)域;
[0036] 在樣本權(quán)重向量的似然函數(shù)取得最大值時,訓(xùn)練樣本源語言句子與目標(biāo)領(lǐng)域文本 的一元詞頻分布相似性最高,此時兩者的領(lǐng)域相似性也最高;由于樣本權(quán)重向量維度過高, 似然函數(shù)所涉及變量較多,似然函數(shù)最優(yōu)值很難求解;在求解過程中本發(fā)明方法通過求解 似然函數(shù)的極大值代替求解最大值,將似然函數(shù)取極大值時的樣本權(quán)重向量作為最優(yōu)樣本 權(quán)重向量;
[0037] 步驟6、計算短語對的翻譯概率,依據(jù)短語對及其翻譯概率生成基于樣本權(quán)重向量 的翻譯規(guī)則,依據(jù)基于樣本權(quán)重向量的翻譯規(guī)則,提高翻譯系統(tǒng)領(lǐng)域適應(yīng)性。
[0038] 本發(fā)明提出的是機(jī)器翻譯領(lǐng)域自適應(yīng)方法;現(xiàn)實(shí)中,同一詞語在不同領(lǐng)域下可能 具有不同的翻譯結(jié)果,如:"粉絲"一詞在食物領(lǐng)域中應(yīng)當(dāng)翻譯為"vermicelIi",而在娛樂新 聞領(lǐng)域常翻譯為"fans",這種情況就要求翻譯系統(tǒng)針對相同的詞語在不同的領(lǐng)域下能夠使 用不同的翻譯規(guī)則;在訓(xùn)練翻譯系統(tǒng)時,本發(fā)明將求得的樣本權(quán)重向量應(yīng)用在翻譯規(guī)則的 抽取過程中,通過樣本權(quán)重向量修改生成的翻譯規(guī)則,使翻譯系統(tǒng)具有領(lǐng)域適應(yīng)性。
[0039]【具體實(shí)施方式】二:
[0040]本實(shí)施方式步驟2的具體實(shí)施步驟如下:
[0041 ] 訓(xùn)練集CTrain的表示如下:
[0042] CTrain= {(f 1, Θ1 ),( f 2 , Θ2 ),...,( f i , θ? ),...,(f η , θη) }
[0043] 其中,(Le1)表示訓(xùn)練集中第i個訓(xùn)練樣本;
[0044] 設(shè)訓(xùn)練集CTrain中所有訓(xùn)練樣本源語言句子的詞語集合如下:
[0045] W= {wi ,W2 , . . . ,Wr , . . . ,Wk}
[0046] 其中,Wr表示所有訓(xùn)練樣本源語言句子的詞語集中第r個詞語,k表示詞語的個數(shù); 由于為每個訓(xùn)練樣本設(shè)置了樣本權(quán)重,在此基礎(chǔ)之上通過統(tǒng)計的方法得到訓(xùn)練樣本源語言 句子的基于樣本權(quán)重的一元詞頻分布,對每一個詞語《,其一元詞頻概率如下:
[0048] 其中,O(^f1)表示在第i個訓(xùn)練樣本源語言句子^中詞語w出現(xiàn)的次數(shù),當(dāng)詞語在 句子中未出現(xiàn)時函數(shù)值為〇 ;Wr指訓(xùn)練樣本源語句子的詞語集中第r個詞語A1表示第i個訓(xùn) 練樣本的樣本權(quán)重。
[0049] 其他步驟和參數(shù)與【具體實(shí)施方式】一相同。
[0050]【具體實(shí)施方式】三:
[0051 ]本實(shí)施方式步驟3的具體實(shí)施步驟如下: