一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法及裝置制造方法
【專利摘要】一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法及裝置,本發(fā)明涉及機器翻譯的相關(guān)領(lǐng)域。本發(fā)明是要實現(xiàn)對多個機器翻譯系統(tǒng)進行后處理式融合,且在融合的過程中提高單語對齊的質(zhì)量,實現(xiàn)混淆網(wǎng)絡(luò)高效訓(xùn)練和解碼,而提供了一種使用詞義消歧的機器翻譯系統(tǒng)與融合方法。一、確定詞義;二、對句子相似度進行計算;(1)采用路徑長度計算單詞在句子中語義相似度;(2)采用語義矩陣計算兩個句子的語義相似度;三、混淆網(wǎng)絡(luò)的構(gòu)建;四、混淆網(wǎng)絡(luò)的訓(xùn)練;混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機器翻譯MERT訓(xùn)練方法;五、混淆網(wǎng)絡(luò)解碼,從混淆網(wǎng)絡(luò)中解碼出最好的翻譯,采用經(jīng)典自左向右的Beam-Search解碼。本發(fā)明應(yīng)用于機器翻譯領(lǐng)域。
【專利說明】一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及使用詞義消歧的融合機器翻譯系統(tǒng)的方法及裝置,屬于機器翻譯領(lǐng)域。
【背景技術(shù)】
[0002]機器翻譯系統(tǒng)融合技術(shù)通過融合多個機器翻譯系統(tǒng)的輸出結(jié)果來獲得更好性能。系統(tǒng)融合技術(shù)可以認(rèn)為是多個機器翻譯結(jié)果的后處理過程?;谠~的系統(tǒng)融合與基于句子/短語的系統(tǒng)融合技術(shù)相比,在性能上得到了大幅提高?;谠~的系統(tǒng)融合與模型級系統(tǒng)融合相比,有更低的復(fù)雜度,能融合更多系統(tǒng)。本發(fā)明使用開放本體庫資源WordNet進行詞義消歧,使得計算語義相似度更加準(zhǔn)確。
[0003]WordNet最初是1985年由普林斯頓大學(xué)認(rèn)知科學(xué)實驗室建立,它是在當(dāng)前基于人類詞匯記憶的心理語言學(xué)理論推動下產(chǎn)生的。它是一部在線詞典數(shù)據(jù)庫系統(tǒng),采用了與傳統(tǒng)詞典不同的方式,即按照詞義而不是詞形來組織詞匯信息。經(jīng)過十幾年的發(fā)展,它將逐漸成為一種國際標(biāo)準(zhǔn),許多國家在籌劃和建立與英文WordNet兼容的本國語言WordNet系統(tǒng),如Euro-WordNet,中文的HowNet。WordNet有很多應(yīng)用,如詞義標(biāo)注、詞義消歧、建立基于詞義分類的統(tǒng)計模型、基于概念的文本檢索、文本校對、知識推理、知識工程及概念建模等等。
[0004]WordNet使用同義詞集合(Synset)來代表詞匯概念,將英語的名詞、動詞、形容詞和副詞組織為Synset,并描述詞匯矩陣模型,即在詞的形式和意義之間建立起映射關(guān)系。每一個Synset表示一個基本的詞匯概念,并在這些概念之間建立四種關(guān)系:
[0005](I)同義關(guān)系(synonymy):兩個詞在句子中可以互相替代,貝U是同義關(guān)系,如heavy和weighty是一對同義詞;
[0006](2)反義關(guān)系(antonymy):反義關(guān)系并不是WordNet的基本組織形式,是一種詞形關(guān)系,如wet和dry就是形容詞的反義關(guān)系;
[0007](3)上-下位關(guān)系(hypernymy&hyponymy):是詞匯間的語義關(guān)系,這種關(guān)系也稱為下屬-上屬或子集-超集關(guān)系,如松樹是樹的下位詞,而樹稱為松樹的上位詞;
[0008](4)整體-部分關(guān)系(holonym&meronymy):該關(guān)系不具有對稱關(guān)系,且不一定滿足傳遞性,如wing是bird的部分詞,bird是wing的整體詞;
[0009]等多種語義關(guān)系。上-下位關(guān)系和整體-局部關(guān)系的Synset集合見圖3。WordNet中的詞由Synset組成,Synset之間用關(guān)系指針指示它們的語義關(guān)系。關(guān)系指針代表了一個Synset跟另一個Synset之間的關(guān)系如:同義、反義、上-下位以及整體_部分關(guān)系。
【發(fā)明內(nèi)容】
[0010]本發(fā)明是要實現(xiàn)對多個機器翻譯系統(tǒng)進行后處理式融合,且在融合過程中提高單語對齊的質(zhì)量,實現(xiàn)混淆網(wǎng)絡(luò)高效訓(xùn)練和解碼,而提供了一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法及裝置。
[0011]一種使用詞義消歧的融合機器翻譯系統(tǒng)的裝置包括預(yù)處理器,詞義和語義計算器,混淆網(wǎng)絡(luò)訓(xùn)練器與解碼器;
[0012]所述預(yù)處理器對翻譯結(jié)果進行分詞,過濾等處理;詞義和語義計算器使用WordNet系統(tǒng)和多個機器翻譯的結(jié)果生成混淆網(wǎng)絡(luò);混淆網(wǎng)絡(luò)的訓(xùn)練過程是一個迭代的過程,在訓(xùn)練的過程中需要用到語言模型;訓(xùn)練得到的特征權(quán)重被輸入到解碼器中,對于測試語料生成最終翻譯結(jié)果,并進行測試輸出得分。
[0013]一種使用詞義消歧技術(shù)的融合機器翻譯系統(tǒng)的方法包括以下步驟:
[0014]一、使用預(yù)處理器對多個機器翻譯結(jié)果進行預(yù)處理,使用詞義分析器確定詞義:
[0015]通過加入多種重疊打分機制對原Lesk算法進行改進,然后采用改進后的Lesk算法進行詞義消歧,確定每個詞的詞義;其中所述對原Lesk算法進行改進具體為:
[0016](I)在搜索過程的每個階段,搜索器將限制左右各K和J個最有前景的候選,而K和J是根據(jù)當(dāng)前詞所在短語所確定的數(shù);
[0017](2)通過Beam的局部搜索來優(yōu)化詞義組合,通過應(yīng)用啟發(fā)式技巧來縮減搜索空間;
[0018](3)加入各種重疊打分以引入更多的相關(guān)信息;
[0019]二、使用詞義和語義計算器對句子相似度進行計算:
[0020](I)采用路徑長度計算單詞在句子中語義相似度;
[0021](2)采用語義矩陣計算兩個句子的語義相似度;
[0022]三、混淆網(wǎng)絡(luò)的構(gòu)建;
[0023](I)骨架翻譯的選擇:通過改進后的Lesk算法和Hungarian算法計算語義相似度,找到與其他句子最相似的句子;
[0024]選擇所有系統(tǒng)的最好翻譯作為候選骨架翻譯,計算任意候選骨架翻譯和其他句子的句子相似度并取平均,把擁有最高分?jǐn)?shù)的句子作為骨架翻譯;
[0025]其中,所述計算句子相似度的流程如下:
[0026](a)斷詞;
[0027](b)對每個單詞進行還原詞根;
[0028](C)詞義消歧;
[0029](d)將每一個詞義對建立一個語義相關(guān)矩陣S [m,n],S [i,j]表示在假設(shè)翻譯X中位置i和在假設(shè)翻譯Y中位置j最相似詞義的語義相關(guān)度;因此s[i,j]也是從i到j(luò)的邊上的權(quán)重;如果字典中不存在這個詞則使用編輯距離計算相似性,輸出單詞之間的編輯距離;
[0030](e)把計算兩個句子的句子相似度看成二分圖的最大權(quán)匹配,其中X和Y是兩個不相交的集合;使用Hungarian算法求最大加權(quán)的匹配;
[0031](f)以上步驟的匹配結(jié)果形成了兩個句子的相似度分?jǐn)?shù);
[0032](2)采用改進TER算法假設(shè)對齊:在骨架翻譯和每個假設(shè)翻譯中建立對齊關(guān)系,通過計算每對單詞的相似度得分得到對齊結(jié)果;
[0033](3)混淆網(wǎng)絡(luò)的構(gòu)建:假設(shè)翻譯和骨架翻譯通過加入null進行拉伸和對齊,從而構(gòu)建混淆網(wǎng)絡(luò);
[0034]四、混淆網(wǎng)絡(luò)的訓(xùn)練:混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機器翻譯MERT訓(xùn)練方法;
[0035]五、混淆網(wǎng)絡(luò)解碼:從混淆網(wǎng)絡(luò)中解碼出最好的翻譯,采用經(jīng)典自左向右的Beam-Search解碼,完成混淆網(wǎng)絡(luò)的解碼,即完成了一種使用詞義消歧技術(shù)的融合機器翻譯系統(tǒng)的方法。
[0036]發(fā)明效果:
[0037]本發(fā)明比原有單系統(tǒng)明顯的提高了 6個百分點BLEU分?jǐn)?shù),特別是把多個不同的機器翻譯進行融合在一起,互相提高性能,是機器翻譯系統(tǒng)的實用化手段。隨著并行化技術(shù)的發(fā)展,算法時間復(fù)雜度和空間復(fù)雜度都可以接受。
【專利附圖】
【附圖說明】
[0038]圖1是使用詞義消歧的融合機器翻譯的裝置圖;
[0039]圖2是本發(fā)明流程圖;
[0040]圖3是【背景技術(shù)】中的WordNet中上下位的關(guān)系圖;
[0041]圖4是確定每個詞義消歧的左右語境圖;
[0042]圖5是骨架翻譯的選擇圖;
[0043]圖6是二分圖最大匹配的匈牙利算法偽代碼圖;
[0044]圖7是二分圖匹配的示例圖;
[0045]圖8是假設(shè)翻譯與骨架翻譯的對齊圖;
[0046]圖9是假設(shè)翻譯與骨架翻譯的拉伸圖;
[0047]圖1O是混淆網(wǎng)絡(luò)的構(gòu)建圖;
[0048]圖11是基于轉(zhuǎn)移的改進TER算法偽代碼圖;
[0049]圖12是核心Find_Best_Shift算法的偽代碼圖;
[0050]圖13是改進TER對齊的動態(tài)規(guī)劃表圖;
[0051]圖14是圖13的改進TER對齊結(jié)果圖;
[0052]圖15是混淆網(wǎng)絡(luò)解碼中剪枝算法的偽代碼;
[0053]圖16是混淆網(wǎng)絡(luò)解碼過程描述圖。
【具體實施方式】
[0054]結(jié)合圖1?16說明以下實施方式:
[0055]【具體實施方式】一:本實施方式的使用詞義消歧的機器翻譯系統(tǒng)包括預(yù)處理器,WordNet系統(tǒng),詞義和語義計算器,混淆網(wǎng)絡(luò)訓(xùn)練器與解碼器;
[0056]所述預(yù)處理器對翻譯結(jié)果進行分詞,過濾等處理;詞義和語義計算器使用WordNet系統(tǒng)和多個機器翻譯的結(jié)果生成混淆網(wǎng)絡(luò),對于混淆網(wǎng)絡(luò)的訓(xùn)練過程是一個迭代的過程,在訓(xùn)練的過程中需要用到語言模型,訓(xùn)練得到的特征權(quán)重被輸入到解碼器中,對于測試語料生成最終翻譯結(jié)果,并進行測試輸出得分。
[0057]【具體實施方式】二:本實施方式的使用詞義消歧技術(shù)的機器翻譯系統(tǒng)融合方法包括以下步驟:
[0058]一、使用詞義和語義計算器對句子相似度進行計算:
[0059]通過加入多種重疊打分機制對原Lesk算法進行改進,然后采用改進后的Lesk算法進行詞義消歧,確定每個詞的詞義;其中所述對原Lesk算法進行改進具體為:
[0060](I)在搜索過程的每個階段,搜索器將限制左右各K和J個最有前景的候選,而K和J是根據(jù)當(dāng)前詞所在短語所確定的數(shù);
[0061](2)通過Beam的局部搜索來優(yōu)化詞義組合,通過應(yīng)用啟發(fā)式的技巧來縮減搜索空間;
[0062](3)加入各種重疊打分以引入更多的相關(guān)信息;
[0063]二、使用詞義和語義計算器對句子相似度進行計算:
[0064](I)采用路徑長度計算單詞在句子中語義相似度;
[0065](2)采用語義矩陣計算兩個句子的語義相似度;
[0066]三、混淆網(wǎng)絡(luò)的構(gòu)建;
[0067](I)骨架翻譯的選擇:通過改進后的Lesk算法和Hungarian算法計算語義相似度,找到與其他句子最相似的句子;
[0068]選擇所有系統(tǒng)的最好翻譯作為候選骨架翻譯,計算任意候選骨架翻譯和其他句子的句子相似度并取平均,把擁有最高分?jǐn)?shù)的句子作為骨架翻譯;
[0069]其中,所述計算句子相似度的流程如下:
[0070](a)斷詞;
[0071](b)對每個單詞進行還原詞根;
[0072](C)詞義消歧;
[0073](d)將每一個詞義對建立一個語義相關(guān)矩陣S [m,n],S [i,j]表示在假設(shè)翻譯X中位置i和在假設(shè)翻譯Y中位置j最相似詞義的語義相關(guān)度;因此S[i,j]也是從i到j(luò)的邊上的權(quán)重;如果字典中不存在這個詞則使用編輯距離計算相似性,輸出單詞之間的編輯距離;
[0074](e)把計算兩個句子的句子相似度看成二分圖的最大權(quán)匹配,其中X和Y是兩個不相交的集合;使用Hungarian算法求最大加權(quán)的匹配;其偽代碼見圖6 ;給定兩個句子的最大匹配的示例見圖7,紅線代表最終最大匹配的結(jié)果,黑線代表所有可能的匹配,每個單詞斜杠后面是詞性;
[0075](f)以上步驟的匹配結(jié)果形成了兩個句子的相似度分?jǐn)?shù);
[0076](2)采用改進TER算法假設(shè)對齊:在骨架翻譯和每個假設(shè)翻譯中建立對齊關(guān)系,通過計算每對單詞的相似度得分得到對齊結(jié)果,示例見圖8 ;
[0077](3)混淆網(wǎng)絡(luò)的構(gòu)建:假設(shè)翻譯和骨架翻譯通過加入null進行拉伸和對齊,示例見圖9 ;混淆網(wǎng)絡(luò)的表示形式見圖10 ;
[0078]四、混淆網(wǎng)絡(luò)的訓(xùn)練:混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機器翻譯MERT訓(xùn)練方法;
[0079]五、混淆網(wǎng)絡(luò)解碼:從混淆網(wǎng)絡(luò)中解碼出最好的翻譯,采用經(jīng)典自左向右的Beam-Search解碼,完成了混淆網(wǎng)絡(luò)的解碼;即完成了一種使用詞義消歧技術(shù)的融合機器翻譯系統(tǒng)的方法。
[0080]本實施方式中,步驟一中詞義消歧是找出在給定語境下一個詞的最合適意思,改進后的Lesk算法是在句子語境下來消歧句子中的單詞。主要的目的是計算在兩個解釋中共享的詞數(shù),重疊的單詞越多,語義就越相關(guān)。為了詞義消歧,每一個單詞的解釋被和在短語中的其他單詞的解釋來作比較。
[0081]例如:在執(zhí)行短語“people person”的消歧過程中,按照WordNet3.0的解釋:
[0082]名詞people有四個意思:[0083](I)any group of human beings;
[0084](2)the body of citizens of a state or country;
[0085](3)the common people generally;
[0086](4)members of a family line;
[0087]動詞people有兩個意思:
[0088](I) fill with people or supply with inhabitants;"people a room〃;
[0089](2)furnish with people
[0090]名詞person有三個意思:
[0091](I)a human being;
[0092](2)a human body(usually including the clothing);
[0093](3) a grammatical category of pronouns and verb forms;
[0094]由于people除了名詞以外,還有動詞詞性,而person只有名詞詞性,只比較兩個名詞詞性,比較分為兩步:
[0095](I)為了提高單詞的匹配率,首先使用Porter Stemming進行還原詞根;
[0096](2)進行匹配公共的子串來確定詞義;
[0097]通過比較單詞“people”的四個解釋意思中的每一個和單詞“person”的三個解釋意思中的每一個,發(fā)現(xiàn)單詞“human being”出現(xiàn)在兩個單詞中一個詞義中,human出現(xiàn)在person的兩個詞義中,human出現(xiàn)在people的一個詞義中。當(dāng)單詞“people和person”一同使用時,則將包含“human being”或“human”的兩個詞義選擇為最合適的詞義。
[0098]本實施方式中,步驟二中句子相似度計算方法是通過詞義來計算兩個句子中所有匹配詞的相似得分。
[0099]在WordNet中每個詞性被組織在一個分類中,代表一個意思的每個節(jié)點是一系列同義詞。如果一個詞含有超過一個意思,它將出現(xiàn)在分類不同的多個同義詞集合。在Synset之間的關(guān)系是語義關(guān)系,在詞義間的關(guān)系是詞匯關(guān)系。不同是詞匯關(guān)系是兩個不同Synset集合中成員間的關(guān)系,但語義關(guān)系是兩個整個Synset集合的關(guān)系。
[0100]例如:語義關(guān)系是上下位關(guān)系等;
[0101]詞匯關(guān)系是反義關(guān)系和推導(dǎo)關(guān)系;
[0102]使用下面示例進行說明一下:
[0103]名詞light第十個意思(light#n#10)的反義詞在WordNet中是名詞dark的第一意思(dark#n#l)。這個 Synset 集合是{light#n#10, lighting#n#l},清楚的是 light#n#10是dark#n#l的反義詞,但是lighting#n#l不是dark#n#l的反義詞。因此反義關(guān)系需要一個詞匯關(guān)系,不是語義關(guān)系。語義相似性是語義關(guān)系的一個特例,僅僅是IS-A關(guān)系。
[0104]為了衡量兩個Synset集合的語義相似性,使用hyponym/hypernym(即IS-A關(guān)系)。衡量兩個Synset集合的語義相似性簡單方法是把分類看成一個無向圖,在WordNet中衡量它們的距離。P.Resnik說:“從一個節(jié)點到另一個路徑越短,它們就越相似”。注意這個路徑長度通過節(jié)點而不是通過邊衡量。為了衡量語義相似度得分,給定下面定義:
[0105](I)兩個詞的路徑長度(Path Length):在同一個Synset集合中兩個成員的路徑長度為I。圖3展示了用路徑長度相似度來計算上位分類的實例,圖3中可以看到motor和auto的長度是1,auto和bike的長度為3, motor和fork的長度為11。[0106](2)兩個詞的公共父親(Sub-Summer):這兩個詞所在Synset的公共父親。
[0107](3)兩個詞的最短公共父親(Least Common Sub-summer):也是兩個詞的最短路徑,且需要經(jīng)過公共父親。圖3的例子{motor, auto…}和{truck…}的LCS是{wheeledvehicle},因為{wheeled vehicle,…}是比普通的 Sub-Sumer {vehicle,…}更具體。
[0108]路徑長度給了計算兩個詞義關(guān)系的方法.有一些實際問題需要說明:
[0109](a)來自于同一詞性的兩個Synset集合可能沒有公共的Sub-Sumer。因為沒有把每一個詞性分類的所有不同最高節(jié)點連接在一起。在兩個Synset集合中之間的路徑不是一直都能發(fā)現(xiàn)的。但是如果唯一的根節(jié)點被使用,在兩個Synset集合將一直存在一條路徑。
[0110](b)注意在WordNet中是允許多繼承的;一些Synset集合屬于多個分類。所以在兩個Synset集合中有兩種分類下可能有兩條路徑,本實施方式選擇最短的路徑。
[0111](c)當(dāng)在WordNet中查找一個單詞時,詞首先被詞根化。因此“book”和” books”的距離為0,因為它們是同一個詞,這種不同于在同一個Synset集合中的詞,因為同一個詞比在同一 Synset集合中更相似。
[0112](d)這個方法僅僅比較有同樣詞性的兩個詞義。這意味著不比較noun和verb,因為它們位于不同的分類。由于使用了詞性標(biāo)注器,需要按照詞性標(biāo)注結(jié)果考慮一個詞,由于WordNet中只有四種詞性(名詞,動詞,形容詞,副詞),而詞性標(biāo)注結(jié)果要比WordNet更加細(xì)致,所以使用最相近的詞性來進行計算。
[0113](e)如果WordNet沒有這個詞,本實施方式使用最大公共串匹配來計算。根據(jù)詞的長度和公共串的長度來確定兩個詞的路徑長度。
[0114]有許多方法來衡量兩個Synset集合的語義相似性,經(jīng)典的方法主要有兩種:
[0115](I)傳統(tǒng)的衡量距離方法:
[0116]Sim(s, t) =1/Distance (s, t)
[0117]距離是節(jié)點計數(shù)從s到t的最短路徑長度。但是這種方法沒有考慮到最短公共祖先的深度,最短公共祖先的深度也會影響到兩個Synset集合的語義相似性。
[0118](2)基于公共父親節(jié)點衡量距離的方法:是Wu&Palmer提出的方法,這個方法考慮了路徑長度和LCS的深度:
[0119]Sim(s, t) =2*Depth (LCS) / (Depth (s) +Depth (t))
[0120]這里s和t表示被比較的源和目標(biāo)單詞。Depth(s)表示s所在Synset分類中從根節(jié)點到節(jié)點s的距離,LCS表示s和t的最小公共Sub-Submer,經(jīng)實驗比對這種方法更好。
[0121]本實施方式步驟三中混淆網(wǎng)絡(luò)的構(gòu)建:
[0122](e)中給定兩個句子的最大匹配實例見圖7,紅線代表最終最大匹配的結(jié)果,黑線代表所有可能的匹配,每個單詞斜杠后面是詞性;
[0123]匹配(Matching):是邊集的子集(M c= £,:E是邊集),VveF (V是頂點集合)在M中最多有一個邊;
[0124]可選路徑(Alternating Path):如果路徑中邊輪換的出現(xiàn)在M和E-M中;
[0125]增廣路徑(Augmenting Path):如果可選路徑的兩個端點都是自由頂點f e F (非匹配頂點);[0126]可選樹(Alternating Tree):是一棵根節(jié)點為某個自由頂點的樹,且樹中的每個路徑都是可選路徑;
[0127]可行標(biāo)簽(feasiblelabeling):對于VU ∈L,v∈R,,l (u) +1 (v) ≥ w(u, v);
[0128]關(guān)于可行標(biāo)簽I的等價圖(Equality Graph):是一個圖G= (V,E1),其中E1= {(χ, y) 11 (χ) +1 (y) =w (x, y)};
[0129]頂點u 和集合 S 的鄰居(neighbor) N1(U) = {v| (u, V) ∈E1},N1(S)=∪u∈sN1(U);
[0130]上面最大匹配結(jié)果形成了兩個句子的相似度分?jǐn)?shù),有很多策略來獲得兩個句子的總相似度數(shù)值。本專利提出了兩個新的公式來計算詞義的語義相似度,對于每一個公式用一個適當(dāng)?shù)牟呗詠碛嬎憧偟梅?
[0131](1)DICE 系數(shù):2*( χ ∩ Y )/|χ| + |Y|,這里(χ ∩ Y )是χ和Y匹配的詞次。這個相似性是兩個句子中所有匹配候選的相似度和除以詞次的和。
[0132](2)Tanimoto測度:
【權(quán)利要求】
1.一種使用詞義消歧的融合機器翻譯系統(tǒng)的裝置,其特征在于使用詞義消歧的融合機器翻譯系統(tǒng)的裝置包括預(yù)處理器,WordNet系統(tǒng),詞義和語義計算器,混淆網(wǎng)絡(luò)訓(xùn)練器與解碼器; 所述預(yù)處理器對翻譯結(jié)果進行分詞,過濾處理;詞義和語義計算器使用WordNet系統(tǒng)和多個機器翻譯的結(jié)果生成混淆網(wǎng)絡(luò);混淆網(wǎng)絡(luò)的訓(xùn)練過程是一個迭代的過程,在訓(xùn)練的過程中需要用到語言模型;訓(xùn)練得到的特征權(quán)重被輸入到解碼器中,對于測試語料生成最終翻譯結(jié)果,并進行測試輸出得分。
2.應(yīng)用權(quán)利要求1的使用詞義消歧的融合機器翻譯系統(tǒng)的方法,其特征在于一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法包括以下步驟: 一、使用預(yù)處理器對多個機器翻譯結(jié)果進行預(yù)處理,使用詞義分析器確定詞義: 通過加入多種重疊打分機制對原Lesk算法進行改進,然后采用Lesk算法進行詞義消歧,確定每個詞的詞義;其中所述對原Lesk算法進行改進具體為: (1)在搜索過程的每個階段,搜索器將限制左右各K和J個最有前景的候選,而K和J是根據(jù)當(dāng)前詞所在的短語進行確定的數(shù); (2)通過Beam的局部搜索來優(yōu)化詞義組合,通過應(yīng)用啟發(fā)式的技巧來縮減搜索空間; (3)加入各種重疊打分以引入更多的相關(guān)信息; 二、使用詞義和語義計算器對句子相似度進行計算: (1)采用路徑長度計算單詞在句子中語義相似度; (2)采用語義矩陣計算兩個句子的語義相似度; 三、混淆網(wǎng)絡(luò)的構(gòu)建; (1)骨架翻譯的選擇:通過改進后的Lesk算法和Hungarian算法計算語義相似度,找到與其他句子最相似的句子; 選擇所有系統(tǒng)的最好翻譯作為候選骨架翻譯,計算任意候選骨架翻譯和其他句子的句子相似度并取平均,把擁有最高分?jǐn)?shù)的句子作為骨架翻譯; 其中,所述計算句子相似度的流程如下: (a)斷詞; (b)對每個單詞進行還原詞根; (C)詞義消歧; (d)將每一個詞義對建立一個語義相關(guān)矩陣S[m,n],S [i,j]表示在假設(shè)翻譯X中位置i和在假設(shè)翻譯Y中位置j最相似詞義的語義相關(guān)度;因此s[i,j]也是從i到j(luò)邊上的權(quán)重;如果字典中不存在這個詞則使用編輯距離計算相似性,輸出單詞之間的編輯距離; (e)把計算兩個句子的句子相似度看成二分圖的最大權(quán)匹配,其中句子X和Y是兩個不相交的集合;使用Hungarian算法求最大加權(quán)的匹配; (f)以上步驟的匹配結(jié)果形成了兩個句子的相似度分?jǐn)?shù); (2)采用改進TER算法假設(shè)對齊:在骨架翻譯和每個假設(shè)翻譯中建立對齊關(guān)系,通過計算每對單詞的相似度得分得到對齊結(jié)果; (3)混淆網(wǎng)絡(luò)的構(gòu)建:假設(shè)翻譯和骨架翻譯通過加入null進行拉伸和對齊,從而構(gòu)建混淆網(wǎng)絡(luò); 四、混淆網(wǎng)絡(luò)的訓(xùn)練:混淆網(wǎng)絡(luò)的訓(xùn)練采用傳統(tǒng)的機器翻譯MERT訓(xùn)練方法,使用混淆網(wǎng)絡(luò)訓(xùn)練器進行迭代式訓(xùn)練,直到收斂為止; 五、混淆網(wǎng)絡(luò)解碼:使用解碼器從混淆網(wǎng)絡(luò)中解碼出最好的翻譯,采用經(jīng)典自左向右的Beam-Search解碼,完成混淆網(wǎng)絡(luò)的解碼,即完成一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法。
3.根據(jù)權(quán)利要求2所述的一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法,其特征在于所述步驟一中采用改進后的Lesk算法進行詞義消歧,確定每個詞的詞義具體為: (1)選擇一個語境:在目標(biāo)詞的周圍定義K個語境詞; (2)對于在選定語境下的每一個詞,將先進行詞性標(biāo)注,列出這個詞性的所有詞義; (3)對于一個詞的每個詞義,訪問下列關(guān)系: (a)由WordNet提供的解釋,包含實例項; (b)Synset通過上位關(guān)系連接到的解釋,如果一個詞義有超過一個上位詞,每個上位詞的解釋被連接成單個解釋串; (C)Synset通過下位關(guān)系連接到的解釋; (d)Synset通過整體關(guān)系連接到的解釋; (e)Synset通過局部關(guān)系連接到的解釋; (4)組合在第(3)步驟提供的所有可能解釋對,通過搜索重疊來計算相關(guān)得分,當(dāng)計算兩個Synset集合cl和c2之間的關(guān)系時,syn_syn意味著兩個同義詞之間解釋的比較;hype-hype意味著cl的hypernym的解釋可以和c2的hypernym的解釋作比較;hype_hypo意味著cl的hypernym的解釋和c2的hyponym的解釋作比較;并通過得分函數(shù)Score計算匹配詞的個數(shù),為了給重疊打分,使用新的打分機制,總得分為:
score_overall= Σ cl;c2 e c;g e Gscore (g) (5)其中C是cl和c2的在所有解釋對上的比較函數(shù),G={syn-syn, hype-hype, hype-hypo,…},即所有解釋形成的集合,一旦每個組合被打分,選擇有最高得分作為目標(biāo)詞在特定語境下目標(biāo)詞的最合適意思,輸出結(jié)果給出了消歧后的意思:
4.根據(jù)權(quán)利要求3所述的一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法,其特征在于所述步驟二中計算語義相似度具體為: 對于每一個公式應(yīng)用一個適當(dāng)?shù)牟呗詠碛嬎憧偟梅? (1)DICE系數(shù):2*(X η Y )/|χ| + |υ|,這里(χ η Y )是χ和Y匹配的詞次;這個相似性是兩個句子中所有匹配候選的相似度和除以詞次的和; (2)丁&11加0如測度:
5.根據(jù)權(quán)利要求4所述的一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法,其特征在于步驟三(2)中改進TER算法具體為: 一、基于混淆網(wǎng)絡(luò)的系統(tǒng)融合步驟為: (1)從機器翻譯系統(tǒng)中抽出N-best結(jié)果,選擇的翻譯結(jié)果數(shù)量N越大,結(jié)果越好; (2)挑選出一個與其他翻譯結(jié)果最相似的骨架翻譯; (3)把所有的假設(shè)翻譯與骨架翻譯進行對齊,以調(diào)整假設(shè)翻譯的順序; (4)用重排序的翻譯來建立混淆網(wǎng)絡(luò); (5)使用句子級特征和詞后驗概率特征作為解碼的特征,來對混淆網(wǎng)絡(luò)進行解碼; (6)用開發(fā)集來優(yōu)化參數(shù),為了使得訓(xùn)練更加可行,選擇訓(xùn)練集中和非訓(xùn)練集中的一部分句子作為開發(fā)集,最終在測試集上進行解碼; 二、解碼過程中采用柱搜索的剪枝;其中整個算法中有一個關(guān)鍵步驟Find_Best_Shift對于每種轉(zhuǎn)移需要計算最小編輯距離;計算最小編輯距離的時間復(fù)雜度為0(Ν*Μ),進行回溯的時間復(fù)雜度O(N+M),空間復(fù)雜度為0(Ν*Μ),其中N是參考翻譯的長度,M為假設(shè)翻譯的長度; 三、在構(gòu)建混淆網(wǎng)絡(luò)過程中,對于TER進行改進;給定兩個字符串計算改進TER對齊結(jié)果,改進TER得分計算為:
6.根據(jù)權(quán)利要求5所述的一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法,其特征在于所述步驟五中混淆網(wǎng)絡(luò)解碼具體為:
7.根據(jù)權(quán)利要求6所述的一種使用詞義消歧的融合機器翻譯系統(tǒng)的方法,其特征在于步驟五中解碼采用了三種剪枝方法: 重合并方法:把具有同樣翻譯結(jié)果的翻譯路徑進行合并,只留下得分較高的翻譯結(jié)果的路徑,而把得分較低的排除到搜索路徑以外; 柱狀圖剪枝:在搜索的每個棧中保留最好的N個結(jié)果,把其他的搜索路徑剪枝掉,這種剪枝方法可以在多項式時間內(nèi)完成搜索; 束搜索剪枝:將目前路徑的最高得分除以某個大于I的閾值,在閾值以下的路徑都將被丟棄,由于當(dāng)前的最高得分不一定是最終得分中最高得分;把每個翻譯假設(shè)的結(jié)果存儲在棧中,翻譯結(jié)果的信息存儲在翻譯假設(shè)中,搜索的過程也就是擴展翻譯假設(shè)的過程,對于翻譯假設(shè)的數(shù)據(jù)結(jié)構(gòu)如下: (1)回溯到父親節(jié)點的指針; (2)各項特征函數(shù)的得分; (3)特征的總得分; (4)未來的總得分; (5)被再合并后的翻譯路徑的得分; (6)目前產(chǎn)生的翻譯結(jié)果的后`兩個詞。
【文檔編號】G06F17/27GK103699529SQ201310751048
【公開日】2014年4月2日 申請日期:2013年12月31日 優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】劉宇鵬 申請人:哈爾濱理工大學(xué)