原文和譯文的對(duì)齊方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及翻譯技術(shù)領(lǐng)域,具體設(shè)及一種原文和譯文的對(duì)齊方法和裝置。
【背景技術(shù)】
[0002] 原文和譯文進(jìn)行對(duì)齊是文本翻譯完成后的一項(xiàng)基礎(chǔ)工作。原文和譯文的對(duì)齊是建 立平行語料庫的基礎(chǔ),也是翻譯錯(cuò)誤定位的基礎(chǔ)。
[0003] -般而言,如果是按段落對(duì)齊,可W將原文和譯文按照順序進(jìn)行對(duì)齊即可。但在段 落內(nèi)將原文和譯文按句進(jìn)行對(duì)齊則無法運(yùn)樣簡(jiǎn)單處理,由于源語言風(fēng)格、目標(biāo)語言風(fēng)格、翻 譯文風(fēng)、內(nèi)容調(diào)整等各種原因,段落內(nèi)的原文語句和譯文語句若是簡(jiǎn)單的按順序來進(jìn)行對(duì) 齊往往會(huì)造成大量錯(cuò)配的情況。所W往運(yùn)種基于句子的原譯文對(duì)齊工作往往需要人工來處 理,既費(fèi)時(shí)費(fèi)力,效率也很低。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例的目的在于克服現(xiàn)有技術(shù)的上述不足,提供一種原文和譯文的對(duì)齊 方法,該方法基于實(shí)義詞的相似度,解決了譯后處理的原譯文對(duì)齊問題。
[0005] 本發(fā)明實(shí)施例的另一目的在于克服現(xiàn)有技術(shù)的上述不足,提供一種原文和譯文的 對(duì)齊裝置,該裝置基于實(shí)義詞的相似度,解決了譯后處理的原譯文對(duì)齊問題。
[0006] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明實(shí)施例的技術(shù)方案如下:
[0007] -種原文和譯文的對(duì)齊方法,包括:對(duì)所有原文語句分詞,去除其中的停用詞,獲 得實(shí)義詞;獲取所述原文語句的每個(gè)實(shí)義詞的所有譯項(xiàng);將每個(gè)所述原文語句的每個(gè)實(shí)義 詞的所有譯項(xiàng)在所有譯文語句中進(jìn)行匹配,獲得每個(gè)所述原文語句的每個(gè)實(shí)義詞和所述譯 文語句的相似度;根據(jù)每個(gè)所述原文語句的所有實(shí)義詞和所述譯文語句的相似度,將每個(gè) 所述原文語句和所述譯文語句進(jìn)行匹配,獲得每個(gè)所述原文語句和所述譯文語句的相似 度;將與所述原文語句相似度最高的所述譯文語句和所述原文語句匹配并對(duì)齊。
[000引進(jìn)一步,所述將每個(gè)所述原文語句的每個(gè)實(shí)義詞的所有譯項(xiàng)在所有所述譯文語句 中進(jìn)行匹配,獲得每個(gè)所述原文語句的每個(gè)實(shí)義詞和所述譯文語句的相似度的過程包括: 根據(jù)3;[111(闊1,了1?獅10=17他3(闊1,了1?姐機(jī))+1^獲得原文語句01?的第^'個(gè)實(shí)義詞的第1個(gè)譯 項(xiàng)η W j 1與第i個(gè)譯文語句T R i的第r個(gè)實(shí)義詞T R i η W r的相似度;根據(jù)
獲得所述原文語句OR的第j個(gè)實(shí)義詞的第1個(gè) 譯項(xiàng)nww與所述譯文語句TRi的相似度;根據(jù)
I獲得 所述原文語句OR的第j個(gè)實(shí)義詞nw詞日第i個(gè)所述譯文語句TRi的相似度;其中,所述原文語句 OR具有m個(gè)實(shí)義詞,所述譯文中共有η個(gè)所述譯文語句,所述譯文語句TRi具有P個(gè)實(shí)義詞,第 j個(gè)實(shí)義詞具有k個(gè)譯項(xiàng),L表示調(diào)節(jié)參數(shù),dis (nwji,TRinwr)表示所述原文語句OR的第j個(gè)實(shí) 義詞的第1個(gè)譯項(xiàng)nww和第i個(gè)所述譯文語句TOi的第r個(gè)實(shí)義詞TRinwr在詞典中的代碼的距 離,i = l,2,...,n,j = l,2,...,m,l = l,2,...,k,r = l,2,...,p。
[0009] 進(jìn)一步,所述根據(jù)每個(gè)所述原文語句的所有實(shí)義詞和所述譯文語句的相似度,將 每個(gè)所述原文語句和所述譯文語句進(jìn)行匹配,獲得每個(gè)所述原文語句和所述譯文語句的相 似度的過程包括:根巧
獲得所述原文語句OR與所述譯 文語句TRi的相似度。
[0010] 進(jìn)一步,所述將與所述原文語句相似度最高的所述譯文語句和所述原文語句匹配 并對(duì)齊的過程包括:根據(jù)
獲得與所 述原文語句OR的相似度最高的所述譯文語句;將與所述原文語句OR的相似度最高的所述譯 文語句和所述原文語句OR匹配,并對(duì)齊所述原文語句OR和所述譯文語句。
[0011] 進(jìn)一步,還包括:對(duì)原文中的所述原文語句按順序進(jìn)行編號(hào);對(duì)譯文中的所述譯文 語句按順序進(jìn)行編號(hào);如果同一所述譯文語句和多個(gè)所述原文語句的相似度均為最高,貝U 獲取多個(gè)所述原文語句在所述原文中的所述編號(hào),W及所述譯文語句在所述譯文中的所述 編號(hào);如果多個(gè)所述原文語句中的一個(gè)所述原文語句在所述原文中的所述編號(hào)和所述譯文 語句在所述譯文中的所述編號(hào)最接近,則將該一個(gè)所述原文語句與所述譯文語句匹配并對(duì) 齊;如果多個(gè)所述原文語句中的兩個(gè)所述原文語句在所述原文中的所述編號(hào)和所述譯文語 句在所述譯文中的所述編號(hào)均為最接近,則將所述編號(hào)較小的所述原文語句與所述譯文語 句匹配并對(duì)齊;比較兩個(gè)所述原文語句中所述編號(hào)較大的所述原文語句與剩余所述譯文語 句的相似度的高低,將剩余所述譯文語句中與所述編號(hào)較大的所述原文語句的相似度最高 的所述譯文語句和所述編號(hào)較大的所述原文語句匹配并對(duì)齊;重復(fù)上述過程,直到每個(gè)所 述原文語句均與每個(gè)所述譯文語句匹配并對(duì)齊。
[0012] 進(jìn)一步:所述詞典為按樹形結(jié)構(gòu)編碼的同義詞分類詞典。
[0013] 進(jìn)一步:所述按樹形結(jié)構(gòu)編碼的同義詞分類詞典的每個(gè)節(jié)點(diǎn)具有唯一的所述代 碼。
[0014] 進(jìn)一步:所述調(diào)節(jié)參數(shù)L為所述按所述樹形結(jié)構(gòu)編碼的同義詞分類詞典的層數(shù)。
[0015] 進(jìn)一步,所述實(shí)義詞包括:名詞、動(dòng)詞、形容詞和副詞。
[0016] W及,一種原文和譯文的對(duì)齊裝置,包括:第一單元,用于對(duì)所有原文語句分詞,去 除其中的停用詞,獲得實(shí)義詞;第二單元,用于獲取所述原文語句的每個(gè)實(shí)義詞的所有譯 項(xiàng);第Ξ單元,用于將每個(gè)所述原文語句的每個(gè)實(shí)義詞的所有譯項(xiàng)在所有譯文語句中進(jìn)行 匹配,獲得每個(gè)所述原文語句的每個(gè)實(shí)義詞和所述譯文語句的相似度;第四單元,用于根據(jù) 每個(gè)所述原文語句的所有實(shí)義詞和所述譯文語句的相似度,將每個(gè)所述原文語句和所述譯 文語句進(jìn)行匹配,獲得每個(gè)所述原文語句和所述譯文語句的相似度;第五單元,用于將與所 述原文語句相似度最高的所述譯文語句和所述原文語句匹配并對(duì)齊。
[0017] 本發(fā)明實(shí)施例的有益效果如下:
[0018] 1、本發(fā)明實(shí)施例的原文和譯文的對(duì)齊方法,基于實(shí)義詞的相似度,解決了譯后處 理的原譯文對(duì)齊問題。
[0019] 2、本發(fā)明實(shí)施例的原文和譯文的對(duì)齊方法,不需要通過人工處理,節(jié)省了時(shí)間,提 高了效率。
[0020] 3、本發(fā)明實(shí)施例的原文和譯文的對(duì)齊裝置,基于實(shí)義詞的相似度,解決了譯后處 理的原譯文對(duì)齊問題。
[0021] 4、本發(fā)明實(shí)施例的原文和譯文的對(duì)齊裝置,實(shí)現(xiàn)了自動(dòng)化,節(jié)省了時(shí)間,提高了效 率。
【附圖說明】
[0022] 圖1是本發(fā)明實(shí)施例的原文和譯文的對(duì)齊方法的流程圖;
[0023] 圖2是本發(fā)明實(shí)施例的原文和譯文的對(duì)齊裝置的流程圖。
【具體實(shí)施方式】
[0024] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,W下結(jié)合附圖和實(shí)施例,對(duì) 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用W解釋本發(fā)明,并 不用于限定本發(fā)明。
[0025] 本發(fā)明實(shí)施例提供了一種原文和譯文的對(duì)齊方法。如圖1所示,為本發(fā)明實(shí)施例的 原文和譯文的對(duì)齊方法的流程圖。該原文和譯文的對(duì)齊方法的具體過程如下:
[0026] 步驟S10:對(duì)所有原文語句分詞,去除其中的停用詞,獲得實(shí)義詞。
[0027] 具體的,實(shí)義詞包括:名詞、動(dòng)詞、形容詞和副詞。優(yōu)選的,將所有實(shí)義詞建立一個(gè) 實(shí)義詞集合。
[00%]步驟S20:獲取原文語句的每個(gè)實(shí)義詞的所有譯項(xiàng)。
[0029] -個(gè)實(shí)義詞往往有多種表達(dá)含義,每個(gè)不同的含義稱之為該實(shí)義詞的一個(gè)譯項(xiàng)。 譯項(xiàng)為同義詞詞典中的最小單位,在詞典中有相應(yīng)的代碼與其對(duì)應(yīng)。例如:"驕傲"運(yùn)個(gè)詞可 W有兩種含義,"自豪"和"傲慢",該兩種含義就是驕傲運(yùn)個(gè)詞語的兩個(gè)譯項(xiàng)。因此,需要獲 取每個(gè)實(shí)義詞的所有譯項(xiàng)。例如,可建立如表1所示的實(shí)義詞和譯項(xiàng)的對(duì)應(yīng)表。
[0030] 表1實(shí)義詞和譯項(xiàng)的對(duì)應(yīng)表
[0031]
[0032] 步驟S30:將每個(gè)原文語句的每個(gè)實(shí)義詞的所有譯項(xiàng)在所有譯文語句中進(jìn)行匹配, 獲得每個(gè)原文語句的每個(gè)實(shí)義詞和譯文語句的相似度。
[0033] 其中,步驟S30具體包括如下的過程:
[0034] 步驟 S301:
[00對(duì)根據(jù)3;[111(闊1,了1?證?。?17他3(闊1,了1?化啊)+0獲得原文語句01?的第^'個(gè)實(shí)義詞 的第1個(gè)譯項(xiàng)nwji與第i個(gè)譯文語句TRi的第r個(gè)實(shí)義詞TRinwr的相似度。
[0036] 本實(shí)施例中的實(shí)義詞和實(shí)義詞之間的相似度是一個(gè)取值范圍在[0,1]之間的數(shù) 值。如果一個(gè)實(shí)義詞是另一個(gè)實(shí)義詞的本身的語義,則兩個(gè)實(shí)義詞之間的相似度為1;如果 兩個(gè)實(shí)義詞在任何上下文中都不能替換,則兩個(gè)實(shí)義詞之間的相似度為0。
[0037] 其中,原文語句OR具有m個(gè)實(shí)義詞。譯文中共有η個(gè)譯文語句。譯文語句TRi具有P個(gè) 實(shí)義詞。i表示譯文語句的計(jì)數(shù),1 = 1,2,-,,11。第^'個(gè)實(shí)義詞具有4個(gè)譯項(xiàng)〇表示一個(gè)原文語 句中的實(shí)義詞的計(jì)數(shù),j = 1,2,…,m。1表示一個(gè)實(shí)義詞的譯項(xiàng)的計(jì)數(shù),1 = 1,2,…,k。1·表示 一個(gè)譯文語句中的實(shí)義詞的計(jì)數(shù),r=l,2,···,pedis(nwji,TRinwr)表示在詞典中,原文語句 OR的第j個(gè)實(shí)義詞的第1個(gè)譯項(xiàng)nww和第i個(gè)譯文語句TOi的第r個(gè)實(shí)義詞TR迅wr之間的距離。L 表示調(diào)節(jié)參數(shù)。
[0038] 原文語句OR的第j個(gè)實(shí)義詞的第1個(gè)譯項(xiàng)nww與第i個(gè)譯文語句TRi的第r個(gè)實(shí)義詞 TRinwr的相似度與兩個(gè)詞在詞典中的距離呈反比關(guān)系。具體的,本發(fā)明中所述的詞典指的是 按樹形結(jié)構(gòu)編碼的同義詞分類的詞典。例如,《同義詞詞林》和《WordNet》等同義詞本體工 具。該詞典中,該按樹形結(jié)構(gòu)編碼的同義詞分類詞典的每個(gè)節(jié)點(diǎn)具有唯一的代碼。每個(gè)代碼 對(duì)應(yīng)了若干個(gè)譯項(xiàng)。調(diào)節(jié)參數(shù)L為按樹形結(jié)構(gòu)編碼的同義詞分類詞典的層數(shù),即樹形結(jié)構(gòu)的 層數(shù)。dis(nw山TRinwr)具體為原文語句OR的第j個(gè)實(shí)義詞的第1個(gè)譯項(xiàng)nww和第i個(gè)譯文語 句TRi的第r個(gè)實(shí)義詞TRmwr在詞典中的代碼的距離,即兩個(gè)代碼之間的差值。
[0039] 步驟 S302:
[0040] 根據(jù)下式
[0041]
[0042] 獲得原文語句OR的第j個(gè)實(shí)義詞的第1個(gè)譯項(xiàng)nww與譯文語句TRi的相似度。
[0043] 步驟 S303:
[0044] 根據(jù)下式