一種機(jī)器翻譯中翻譯單元表的抽取方法
【專利摘要】本發(fā)明提出了一種機(jī)器翻譯中翻譯單元表的抽取方法,本發(fā)明運(yùn)行于Hadoop并行計(jì)算平臺(tái)上,包括以下步驟:根據(jù)輸入的雙語(yǔ)對(duì)齊語(yǔ)料和詞對(duì)齊文件,選擇想要抽取的內(nèi)容,并對(duì)相關(guān)信息進(jìn)行合并;根據(jù)需要選擇是否平滑和平滑方法,進(jìn)行相應(yīng)的平滑計(jì)數(shù)和合并;計(jì)算相應(yīng)概率,輸出最終結(jié)果文件。對(duì)比現(xiàn)有的集中式抽取方法,能大大加快程序運(yùn)行時(shí)間;同時(shí)通過(guò)在計(jì)算概率的過(guò)程中可以選擇性加入多項(xiàng)平滑技術(shù),能夠處理在訓(xùn)練數(shù)據(jù)集中由于數(shù)據(jù)稀疏和經(jīng)驗(yàn)分布帶來(lái)的過(guò)擬合現(xiàn)象,使得其中的概率更符合真實(shí)世界的情況,在實(shí)際情況中也能提高計(jì)算機(jī)機(jī)器翻譯系統(tǒng)的性能。
【專利說(shuō)明】一種機(jī)器翻譯中翻譯單元表的抽取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種計(jì)算機(jī)統(tǒng)計(jì)機(jī)器翻譯和并行計(jì)算領(lǐng)域,特別是一種分布式抽取短語(yǔ)、層次短語(yǔ)表及詞匯化調(diào)序模型的方法。
【背景技術(shù)】
[0002]統(tǒng)計(jì)機(jī)器翻譯自上世紀(jì)90年代以來(lái)發(fā)展十分迅速,取得了很大的進(jìn)步,逐漸成為機(jī)器翻譯領(lǐng)域中的研究熱點(diǎn)。相對(duì)于基于規(guī)則的機(jī)器翻譯系統(tǒng),統(tǒng)計(jì)方法的最大優(yōu)點(diǎn)在于無(wú)需人工編寫(xiě)規(guī)則,可以利用語(yǔ)料庫(kù)直接通過(guò)訓(xùn)練得到機(jī)器翻譯系統(tǒng)。而基于短語(yǔ)或?qū)哟味陶Z(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)可以更好地把握局部上下文的依賴關(guān)系,在性能上優(yōu)于基于詞的統(tǒng)計(jì)機(jī)器翻譯方法;相對(duì)于基于句法的統(tǒng)計(jì)機(jī)器翻譯,又具有很好的通用性,且搜索空間比較小。
[0003]基于短語(yǔ)和層次短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的工作過(guò)程如下:輸入待翻譯的句子S,將之切分為η個(gè)短語(yǔ),即S=S1, S2,……Sn,接著將每個(gè)源短語(yǔ)Si翻譯成目標(biāo)語(yǔ)言短語(yǔ)ti;生成目標(biāo)語(yǔ)言句子T=t1;t2,……tn。最后在所有可能的候選翻譯中找出概率最高的句子。而短語(yǔ)表、層次短語(yǔ)表和詞匯化調(diào)序模型在基于短語(yǔ)和層次短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中扮演重要角色,其中短語(yǔ)表和層次短語(yǔ)表可以用來(lái)在翻譯過(guò)程中找出翻譯概率最大的目標(biāo)短語(yǔ);而詞匯化調(diào)序模型則可以用來(lái)調(diào)整翻譯結(jié)果中短語(yǔ)的次序,使得翻譯結(jié)果更符合人們的習(xí)慣。在現(xiàn)有的發(fā)明技術(shù)中,如中科院計(jì)算所2009年申請(qǐng)的《統(tǒng)計(jì)機(jī)器翻譯短語(yǔ)抽取方法》專利中,著重于抽取和計(jì)算概率的算法,沒(méi)有提到如何實(shí)現(xiàn)本項(xiàng)工作,如果采用集中式抽取方法進(jìn)行三個(gè)文件的抽取,即利用一臺(tái)計(jì)算機(jī)獨(dú)立完成工作,隨著訓(xùn)練語(yǔ)料規(guī)模的不斷增加,程序的時(shí)間消耗越來(lái)越大,而且每當(dāng)試驗(yàn)一種新的詞對(duì)齊方式都要重新抽取這些翻譯規(guī)則,這樣一來(lái)更是凸顯了集中式抽 取方法在效率上的不足,因此需要尋求更快抽取這些翻譯規(guī)則的方法。
[0004]Hadoop是由Apache基金會(huì)開(kāi)發(fā)的一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),用戶可以在不了解分布式底層細(xì)節(jié)的情況下開(kāi)發(fā)分布式程序,充分利用集群進(jìn)行高速運(yùn)算和存儲(chǔ)。Hadoop為大數(shù)據(jù)處理工作提供了優(yōu)秀的數(shù)據(jù)存儲(chǔ)與運(yùn)算平臺(tái),對(duì)于大規(guī)模訓(xùn)練語(yǔ)料下抽取短語(yǔ)、層次短語(yǔ)表和調(diào)序規(guī)則的工作,可以通過(guò)編寫(xiě)hadoop分布式程序,充分利用多臺(tái)計(jì)算結(jié)點(diǎn)來(lái)完成該項(xiàng)工作,從而縮短工作時(shí)間,提高效率。
【發(fā)明內(nèi)容】
[0005]發(fā)明目的:本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)集中式抽取方法在效率上的不足,提出一種機(jī)器翻譯中翻譯單元表的抽取方法。
[0006]為了解決上述技術(shù)問(wèn)題,本發(fā)明公開(kāi)了一種機(jī)器翻譯中翻譯單元表的抽取方法,該方法的所有步驟均運(yùn)行于Hadoop并行計(jì)算平臺(tái)上,利用Hadoop并行計(jì)算平臺(tái)分別抽取短語(yǔ)表、層次短語(yǔ)表以及詞匯化調(diào)序模型。
[0007]所述抽取短語(yǔ)表包括如下步驟:[0008]步驟11,輸入雙語(yǔ)對(duì)齊語(yǔ)料和對(duì)應(yīng)的詞對(duì)齊文件,對(duì)于雙語(yǔ)對(duì)齊語(yǔ)料中每一對(duì)雙語(yǔ)對(duì)齊句對(duì),根據(jù)詞對(duì)齊文件中的詞對(duì)齊信息,首先抽取出所有的對(duì)齊短語(yǔ)對(duì)并記錄其詞對(duì)齊信息和一次出現(xiàn)次數(shù);接著對(duì)相同對(duì)齊短語(yǔ)對(duì)進(jìn)行合并,即將出現(xiàn)次數(shù)相加,并保存出現(xiàn)次數(shù)最多的詞對(duì)齊信息;抽取出的對(duì)齊短語(yǔ)對(duì)滿足詞對(duì)齊上的相容性,即在原有句子的短語(yǔ)對(duì)中一端映射到另一端上的范圍不能超過(guò)該端短語(yǔ)的覆蓋范圍;
[0009]步驟12,以步驟11的結(jié)果作為輸入,采用Good-Turing平滑方法進(jìn)行平滑處理,統(tǒng)計(jì)(c,nc)對(duì),其中c是單個(gè)短語(yǔ)對(duì)的出現(xiàn)次數(shù),nc是所有短語(yǔ)對(duì)中出現(xiàn)次數(shù)為c的短語(yǔ)對(duì)的個(gè)數(shù)。也可以米用Kneser-Ney和Modified Kneser-Ney平滑方法(參閱An empiricalstudy of smoothing techniques for language modeling,I 999, Computer Speech andLanguage,13 :359-394)。
[0010]步驟13,以步驟11和步驟12的結(jié)果作為輸入,計(jì)算對(duì)齊短語(yǔ)對(duì)的正向和反向的相對(duì)頻率即短語(yǔ)互翻譯概率,以及詞匯化翻譯概率,得到短語(yǔ)表。
[0011]本發(fā)明步驟12包括以下步驟:
[0012]對(duì)于Good-Turing平滑,統(tǒng)計(jì)(c,n。)對(duì),其中c是短語(yǔ)對(duì)的共現(xiàn)次數(shù),η。是所有短語(yǔ)對(duì)中出現(xiàn)c次的短語(yǔ)對(duì)的個(gè)數(shù);假設(shè)目標(biāo)短語(yǔ)為t,源短語(yǔ)為S,對(duì)于Kneser-Ney平滑,統(tǒng)計(jì)與源短語(yǔ)滿足共現(xiàn)次數(shù)c (s,t) >0的目標(biāo)短語(yǔ)的數(shù)量和與目標(biāo)短語(yǔ)滿足c (s,t) >0的源短語(yǔ)的數(shù)量;對(duì)于Modified Kneser-Ney平滑,統(tǒng)計(jì)與源短語(yǔ)分別滿足c (s, t)=l、c(s, t)=2和c (s,t)>2的目標(biāo)短語(yǔ)的數(shù)量和與目標(biāo)短語(yǔ)分別滿足c (s,t)=l、c(s,t)=2和c (s,t)>2的源短語(yǔ)的數(shù)量;同時(shí)對(duì)于Kneser-Ney和Modified Kneser-Ney平滑也同樣統(tǒng)計(jì)(c, nc)對(duì)。統(tǒng)計(jì)這些量分別需要利用一次MapReduce過(guò)程。
[0013]對(duì)于Kneser-Ney和Modified Kneser-Ney平滑,在計(jì)數(shù)的同時(shí)要保存相應(yīng)的短語(yǔ),這樣會(huì)導(dǎo)致結(jié)果文件過(guò)大,如果直接讀到內(nèi)存中將使hadoop集群的開(kāi)銷過(guò)大,本方法利用兩個(gè)MapReduce過(guò)程將源短語(yǔ)和目標(biāo)短語(yǔ)相應(yīng)的計(jì)數(shù)合并到步驟11的結(jié)果中。
[0014]本發(fā)明步驟13包括以下步驟:
[0015]短語(yǔ)對(duì)的正向相對(duì)頻率為給定源短語(yǔ)翻譯為目標(biāo)短語(yǔ)的相對(duì)頻率,反向相對(duì)頻率為給定目標(biāo)短語(yǔ)翻譯為源短語(yǔ)的相對(duì)頻率。令s表示源短語(yǔ),t表示目標(biāo)短語(yǔ),未使用平滑技術(shù)的情況下,對(duì)齊短語(yǔ)對(duì)的正向相對(duì)頻率的計(jì)算公式如下:
【權(quán)利要求】
1.一種機(jī)器翻譯中翻譯單元表的抽取方法,其特征在于,利用Hadoop并行計(jì)算平臺(tái)分別抽取短語(yǔ)表、層次短語(yǔ)表以及詞匯化調(diào)序模型。
2.根據(jù)權(quán)利要求1所述的一種機(jī)器翻譯中翻譯單元表的抽取方法,其特征在于,所述抽取短語(yǔ)表包括如下步驟: 步驟11,輸入雙語(yǔ)對(duì)齊語(yǔ)料和對(duì)應(yīng)的詞對(duì)齊文件,對(duì)于雙語(yǔ)對(duì)齊語(yǔ)料中每一對(duì)雙語(yǔ)對(duì)齊句對(duì),根據(jù)詞對(duì)齊文件中的詞對(duì)齊信息,首先抽取出所有的對(duì)齊短語(yǔ)對(duì)并記錄其詞對(duì)齊信息和一次出現(xiàn)次數(shù);接著對(duì)相同對(duì)齊短語(yǔ)對(duì)進(jìn)行合并,即將出現(xiàn)次數(shù)相加,并保存出現(xiàn)次數(shù)最多的詞對(duì)齊信息;抽取出的對(duì)齊短語(yǔ)對(duì)滿足詞對(duì)齊上的相容性,即在原有句子的短語(yǔ)對(duì)中一端映射到另一端上的范圍不能超過(guò)該端短語(yǔ)的覆蓋范圍; 步驟12,以步驟11的結(jié)果作為輸入,采用Good-Turing方法進(jìn)行平滑處理,統(tǒng)計(jì)(c,η。)對(duì),其中c是單個(gè)短語(yǔ)對(duì)的出現(xiàn)次數(shù),η。是所有短語(yǔ)對(duì)中出現(xiàn)次數(shù)為c的短語(yǔ)對(duì)的個(gè)數(shù); 步驟13,以步驟11和步驟12的結(jié)果作為輸入,計(jì)算對(duì)齊短語(yǔ)對(duì)的正向和反向的相對(duì)頻率即短語(yǔ)互翻譯概率,以及詞匯化翻譯概率,得到短語(yǔ)表。
3.根據(jù)權(quán)利要求2所述的一種機(jī)器翻譯中翻譯單元表的抽取方法,其特征在于,步驟13包括以下步驟: 短語(yǔ)對(duì)的正向相對(duì)頻率為給定源短語(yǔ)翻譯為目標(biāo)短語(yǔ)的相對(duì)頻率,反向相對(duì)頻率為給定目標(biāo)短語(yǔ)翻譯為源短語(yǔ)的相對(duì)頻率,根據(jù)訓(xùn)練語(yǔ)料中短語(yǔ)對(duì)的計(jì)數(shù)特征來(lái)重新計(jì)算一個(gè)值來(lái)替代原先的計(jì)數(shù)值,替換公式如下:
4.根據(jù)權(quán)利要求1所述的一種機(jī)器翻譯中翻譯單元表的抽取方法,其特征在于,所述抽取層次短語(yǔ)表包括如下步驟: 步驟21,輸入雙語(yǔ)對(duì)齊語(yǔ)料和對(duì)應(yīng)的詞對(duì)齊文件,對(duì)于雙語(yǔ)對(duì)齊語(yǔ)料中每一對(duì)雙語(yǔ)對(duì)齊句對(duì),根據(jù)詞對(duì)齊文件中的詞對(duì)齊信息,首先抽取出所有的對(duì)齊層次短語(yǔ)對(duì)并記錄對(duì)應(yīng)詞對(duì)齊信息和一次出現(xiàn)次數(shù);接著對(duì)相同層次短語(yǔ)對(duì)進(jìn)行合并,即將出現(xiàn)次數(shù)相加,并保存出現(xiàn)次數(shù)最多的詞對(duì)齊信息; 步驟22,以步驟11的結(jié)果作為輸入,采用Good-Turing方法進(jìn)行平滑處理,統(tǒng)計(jì)(c,η。)對(duì),其中c是單個(gè)層次短語(yǔ)對(duì)的出現(xiàn)次數(shù),η。是所有層次短語(yǔ)對(duì)中出現(xiàn)次數(shù)為c的層次短語(yǔ)對(duì)的個(gè)數(shù); 步驟23,以步驟11和步驟12的結(jié)果作為輸入,計(jì)算層次短語(yǔ)對(duì)的正向和反向的相對(duì)頻率即層次短語(yǔ)互翻譯概率,以及詞匯化翻譯概率,得到層次短語(yǔ)表。
5.根據(jù)權(quán)利要求4所述的一種機(jī)器翻譯中翻譯單元表的抽取方法,其特征在于,步驟23包括以下步驟: 層次短語(yǔ)對(duì)的正向相對(duì)頻率為給定源層次短語(yǔ)翻譯為目標(biāo)層次短語(yǔ)的相對(duì)頻率,層次短語(yǔ)對(duì)的反向相對(duì)頻率為給定目標(biāo)層次短語(yǔ)翻譯為源層次短語(yǔ)的相對(duì)頻率; 根據(jù)訓(xùn)練語(yǔ)料中層次短語(yǔ)對(duì)的計(jì)數(shù)特征來(lái)重新計(jì)算一個(gè)值來(lái)替代原先的計(jì)數(shù)值,替換公式如下:
6.根據(jù)權(quán)利要求1所述的一種機(jī)器翻譯中翻譯單元表的抽取方法,其特征在于,所述抽取詞匯化調(diào)序模型包括以下步驟: 步驟31,輸入的雙語(yǔ)對(duì)齊語(yǔ)料和對(duì)應(yīng)的詞對(duì)齊文件,對(duì)于雙語(yǔ)對(duì)齊語(yǔ)料中每一對(duì)雙語(yǔ)對(duì)齊句對(duì),根據(jù)詞對(duì)齊文件中的詞對(duì)齊信息,抽取出所有的對(duì)齊短語(yǔ)對(duì)和對(duì)應(yīng)的調(diào)序規(guī)則并輸出至文件; 步驟32,根據(jù)步驟31的結(jié)果,統(tǒng)計(jì)各個(gè)調(diào)序規(guī)則出現(xiàn)的總次數(shù); 步驟33,合并相同的短語(yǔ)對(duì),統(tǒng)計(jì)各調(diào)序規(guī)則的出現(xiàn)次數(shù)和短語(yǔ)對(duì)的出現(xiàn)次數(shù),根據(jù)步驟32的結(jié)果,計(jì)算短語(yǔ)對(duì)的各個(gè)調(diào)序規(guī)則的概率,得到詞匯化調(diào)序模型表。
7.根據(jù)權(quán)利要求6所述的一種機(jī)器翻譯中翻譯單元表的抽取方法,其特征在于,步驟33包括以下步驟: 計(jì)算調(diào)序規(guī)則概率的公式如下:
【文檔編號(hào)】G06F17/28GK103488629SQ201310439927
【公開(kāi)日】2014年1月1日 申請(qǐng)日期:2013年9月24日 優(yōu)先權(quán)日:2013年9月24日
【發(fā)明者】黃書(shū)劍, 孫輝豐, 戴新宇, 陳家駿 申請(qǐng)人:南京大學(xué)