維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法,包括①記憶庫(kù)結(jié)構(gòu)和管理、②維漢句子對(duì)齊存儲(chǔ)、③翻譯記憶檢索和④翻譯編輯環(huán)境。本發(fā)明提高翻譯效率和翻譯質(zhì)量。
【專(zhuān)利說(shuō)明】維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及機(jī)器翻譯系統(tǒng)中廣泛應(yīng)用的翻譯記憶庫(kù)技術(shù),特別是維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法。
【背景技術(shù)】
[0002]隨著信息技術(shù)的不斷發(fā)展,不同語(yǔ)種的人們之間的語(yǔ)言交流障礙在不斷地突顯。雖然機(jī)器翻譯技術(shù)在這方面起到了很好的作用,但是機(jī)器翻譯仍面臨重重的困難。現(xiàn)階段機(jī)器翻譯系統(tǒng)主要采取基于規(guī)則(主要是語(yǔ)言學(xué)知識(shí)方面)和基于語(yǔ)料庫(kù)(主要是實(shí)例方面)等兩種方法。
[0003]因?yàn)榫S吾爾語(yǔ)和漢語(yǔ)是不屬于同種語(yǔ)系的語(yǔ)言,從語(yǔ)言學(xué)的角度來(lái)深層次的分析單詞切分,形態(tài),結(jié)構(gòu),歧義詞,句子語(yǔ)法結(jié)構(gòu)和語(yǔ)義結(jié)構(gòu)等方面是比較難實(shí)現(xiàn)。所以,現(xiàn)在漢維翻譯主要是基于語(yǔ)料庫(kù)的翻譯,雖然取得不錯(cuò)的效果,但是建設(shè)維漢語(yǔ)料庫(kù)涉及到很多方面的因素,再說(shuō)語(yǔ)料庫(kù)內(nèi)容覆蓋面很難包括全領(lǐng)域,所以翻譯質(zhì)量很難能夠保證。雖然機(jī)器翻譯性能目前不太理想,但是輔助翻譯記憶庫(kù)仍有望成為提高工作效率的有效手段。
[0004]由于基于規(guī)則和語(yǔ)料庫(kù)的翻譯技術(shù)的不足之處,又考慮到專(zhuān)業(yè)領(lǐng)域(科技文獻(xiàn),產(chǎn)品說(shuō)明書(shū),用戶(hù)手冊(cè)等)中詞匯或句子比較固定,遇到重復(fù)句子的比較多,因此提出了翻譯記憶技術(shù)。翻譯記憶也可看成已有資源的重新利用,翻譯新文本是重新利用譯者在以前翻譯過(guò)的譯文,再說(shuō)還可以在翻譯過(guò)程中譯者自身也要參與進(jìn)來(lái),所以最后的譯文質(zhì)量在一定程度上得以保證 的。翻譯記憶技術(shù)的應(yīng)用在國(guó)外比較普遍,并出現(xiàn)了大量的像Transit (STAR)、Trados等輔助翻譯軟件產(chǎn)品。在國(guó)內(nèi)輔助翻譯記憶技術(shù)也得到了一定的發(fā)展,出現(xiàn)了像雅信CAT —樣一些輔助翻譯軟件。因此,為了迎合維吾爾文信息處理的需要,方便維吾爾語(yǔ)作為母語(yǔ)的翻譯工作者,提高他們翻譯效率和質(zhì)量,開(kāi)發(fā)一個(gè)翻譯記憶工具具有非常重要的意義。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于提供一種維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法,提高翻譯效率和翻譯質(zhì)量。
[0006]本發(fā)明的目的是這樣實(shí)現(xiàn)的:一種維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法,①記憶庫(kù)結(jié)構(gòu)和管理:各種信息的組織和存儲(chǔ)被看做是由很多翻譯記憶單元的組合而成,也可以看做是一個(gè)平行語(yǔ)料庫(kù),記憶庫(kù)中存儲(chǔ)以往翻譯過(guò)的例句,采用句子句子級(jí)別對(duì)齊的維漢記憶庫(kù);對(duì)記憶庫(kù)進(jìn)行查找單詞,添加句子,刪除句子,記憶庫(kù)導(dǎo)入,導(dǎo)出;②維漢句子對(duì)齊存儲(chǔ):維漢記憶庫(kù)中所收集的所有維漢句子均以XML語(yǔ)言作為編碼語(yǔ)言,翻譯記憶以“翻譯單元”的形式存儲(chǔ),維語(yǔ)句子與漢語(yǔ)句子精確對(duì)應(yīng),維漢對(duì)應(yīng)的句子通過(guò)句子標(biāo)記對(duì)<tu>…<tu>下的id來(lái)描述翻譯記憶檢索:翻譯記憶系統(tǒng)中,檢索出來(lái)的實(shí)例越接近待翻譯句子,翻譯的質(zhì)量就越好;采用“最短編輯距離方法” (minimum edit distance)來(lái)計(jì)算待翻譯句子與已有句子之間的相似度,通過(guò)levenshtein distance (LD)算法獲得兩個(gè)句子之間有幾個(gè)單詞需要進(jìn)行匹配之后,通過(guò)模糊匹配計(jì)算公式,得到原句和目標(biāo)句之間的相似度翻譯編輯環(huán)境:翻譯之前通過(guò)內(nèi)部過(guò)濾器(filter)將相應(yīng)格式(主要是.txt,.doc)的文檔中的原文導(dǎo)入,在系統(tǒng)內(nèi)部完成分句、分詞,通過(guò)模糊匹配計(jì)算句子相似度,通過(guò)二分查找方法在已有的詞匯表中進(jìn)行相應(yīng)的查找并在單詞列表中顯示單詞及相應(yīng)的譯文,再通過(guò)翻譯后導(dǎo)出為原文檔格式的譯文。
[0007]針對(duì)翻譯人員輸入的待譯句子,在翻譯記憶庫(kù)中查找并返回完全匹配或相似的句子供翻譯人員選擇、使用。如何在翻譯記憶庫(kù)中查找相似的句子是非常關(guān)鍵本文借用了常在自然語(yǔ)言處理領(lǐng)域中用到的編輯距離來(lái)計(jì)算輸入句子與記憶庫(kù)中句子的相似度問(wèn)題。在翻譯過(guò)程中,翻譯記憶系統(tǒng)通過(guò)相似度計(jì)算來(lái)自動(dòng)搜索記憶庫(kù)中完全相同或部分相似的句型,并給譯者推薦參考譯文,讓譯者自行決定是否接受、編輯或拒絕,同時(shí)翻譯記憶庫(kù)也在后臺(tái)不斷的學(xué)習(xí)和自動(dòng)儲(chǔ)存新句子的原文和譯文。
[0008]本發(fā)明設(shè)計(jì)并實(shí)現(xiàn)了翻譯記憶系統(tǒng)模型,并在記憶庫(kù)設(shè)計(jì)中采用維吾爾文和漢文句子以句子精確對(duì)齊的方式存儲(chǔ)方式,并同時(shí)對(duì)記憶庫(kù)進(jìn)行查詢(xún),刪除,插入操作。其中關(guān)鍵技術(shù)是記憶庫(kù)中語(yǔ)句相似度,該技術(shù)通過(guò)自然語(yǔ)言中常用的“編輯距離”(editdistance)來(lái)實(shí)現(xiàn),其中大于閾值的句子所對(duì)應(yīng)的句子提供給用戶(hù)進(jìn)行翻譯參考,結(jié)果證明,該雙向翻譯記憶庫(kù)系統(tǒng)在翻譯中起到了很好的效果。本發(fā)明提高翻譯效率和翻譯質(zhì)量。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0009]下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
[0010]圖1是維漢翻譯記憶系統(tǒng)模型示意圖。
【具體實(shí)施方式】
[0011]一種維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法,①記憶庫(kù)結(jié)構(gòu)和管理。整個(gè)記憶庫(kù)中各種信息的組織和存儲(chǔ)可以看做是由很多翻譯記憶單元的組合而成,也可以看做是一個(gè)平行語(yǔ)料庫(kù)。記憶庫(kù)中存儲(chǔ)以往翻譯過(guò)的例句。本文在記憶庫(kù)設(shè)計(jì)中采用了句子句子級(jí)別對(duì)齊的維漢記憶庫(kù)。記憶庫(kù)設(shè)計(jì)好之后,還要對(duì)記憶庫(kù)進(jìn)行很好的管理,包括對(duì)記憶庫(kù)進(jìn)行查找單詞,添加句子,刪除句子,記憶庫(kù)導(dǎo)入,導(dǎo)出等;②維漢句子對(duì)齊存儲(chǔ)。維漢記憶庫(kù)中所收集的所有維漢句子均以XML語(yǔ)言作為編碼語(yǔ)言。翻譯記憶以“翻譯單元”的形式存儲(chǔ),維語(yǔ)句子與漢語(yǔ)句子精確對(duì)應(yīng)。維漢對(duì)應(yīng)的句子通過(guò)句子標(biāo)記對(duì)<tu>…<tu>下的id來(lái)描述;③翻譯記憶檢索。翻譯記憶系統(tǒng)中,檢索出來(lái)的實(shí)例越接近待翻譯句子,翻譯的質(zhì)量就越好。語(yǔ)句相似度的計(jì)算在翻譯記憶系統(tǒng)中是一個(gè)關(guān)鍵技術(shù)之一,所以相似度計(jì)算直接影響翻譯記憶系統(tǒng)的效率和質(zhì)量。目前翻譯記憶技術(shù)中常用到基于字符串和基于語(yǔ)言學(xué)知識(shí)方面的相似度計(jì)算方法???慮到維漢句子自身在結(jié)構(gòu),語(yǔ)義,形態(tài)等方面的不同和復(fù)雜性,文采用“最短編輯距離方法”(minimum edit distance)來(lái)計(jì)算待翻譯句子與已有句子之間的相似度。通過(guò)levenshtein distance (LD)算法獲得兩個(gè)句子之間有幾個(gè)單詞需要進(jìn)行匹配之后,通過(guò)模糊匹配計(jì)算公式,得到原句和目標(biāo)句之間的相似度;④翻譯編輯環(huán)境。翻譯編輯環(huán)境也可以看作是翻譯者進(jìn)行翻譯工作的環(huán)境。本系統(tǒng)翻譯工作在系統(tǒng)內(nèi)進(jìn)行。翻譯之前通過(guò)內(nèi)部過(guò)濾器(filter)將相應(yīng)格式(主要是.txt,.doc)的文檔中的原文導(dǎo)入,在系統(tǒng)內(nèi)部完成分句,分詞,通過(guò)模糊匹配計(jì)算句子相似度,通過(guò)二分查找的方法在已有的詞匯表中進(jìn)行相應(yīng)的查找并在單詞列表中顯示單詞及相應(yīng)的譯文,通過(guò)翻譯后導(dǎo)出為原文檔格式的譯文。
[0012]如圖1所示,待翻譯的文本進(jìn)行分句,然后逐步提取每一個(gè)句子根據(jù)記憶庫(kù)計(jì)算句子相似度。其中對(duì)相似度最高的句子進(jìn)行人工編輯,然后輸出翻譯結(jié)果。
[0013]如下述表1是記憶庫(kù)結(jié)構(gòu)表。記憶庫(kù)設(shè)計(jì)好之后,還要對(duì)記憶庫(kù)進(jìn)行很好的管理,包括對(duì)記憶庫(kù)進(jìn)行查找單詞,添加句子,刪除句子,記憶庫(kù)導(dǎo)入,導(dǎo)出等。
表1
【權(quán)利要求】
1.一種維吾爾文-漢文雙向翻譯記憶系統(tǒng)的構(gòu)造方法,其方法為:①記憶庫(kù)結(jié)構(gòu)和管理:各種信息的組織和存儲(chǔ)被看做是由很多翻譯記憶單元的組合而成,也可以看做是一個(gè)平行語(yǔ)料庫(kù),記憶庫(kù)中存儲(chǔ)以往翻譯過(guò)的例句,采用句子句子級(jí)別對(duì)齊的維漢記憶庫(kù);對(duì)記憶庫(kù)進(jìn)行查找單詞,添加句子,刪除句子,記憶庫(kù)導(dǎo)入,導(dǎo)出;②維漢句子對(duì)齊存儲(chǔ):維漢記憶庫(kù)中所收集的所有維漢句子均以XML語(yǔ)言作為編碼語(yǔ)言,翻譯記憶以“翻譯單元”的形式存儲(chǔ),維語(yǔ)句子與漢語(yǔ)句子精確對(duì)應(yīng),維漢對(duì)應(yīng)的句子通過(guò)句子標(biāo)記對(duì)<tu>…<tu>下的id來(lái)描述翻譯記憶檢索:翻譯記憶系統(tǒng)中,檢索出來(lái)的實(shí)例越接近待翻譯句子,翻譯的質(zhì)量就越好;采用最短編輯距離方法來(lái)計(jì)算待翻譯句子與已有句子之間的相似度,通過(guò)levenshtein distance算法獲得兩個(gè)句子之間有幾個(gè)單詞需要進(jìn)行匹配之后,通過(guò)模糊匹配計(jì)算公式,得到原句和目標(biāo)句之間的相似度翻譯編輯環(huán)境:翻譯之前通過(guò)內(nèi)部過(guò)濾器將相應(yīng)格式的文檔中的原文導(dǎo)入,在系統(tǒng)內(nèi)部完成分句、分詞,通過(guò)模糊匹配計(jì)算句子相似度,通過(guò)二分查找方法在已有的詞匯表中進(jìn)行相應(yīng)的查找并在單詞列表中顯示單詞及相應(yīng)的譯文,再通過(guò)翻譯后 導(dǎo)出為原文檔格式的譯文。
【文檔編號(hào)】G06F17/28GK103885939SQ201210553917
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2012年12月19日 優(yōu)先權(quán)日:2012年12月19日
【發(fā)明者】塔拉甫·加盤(pán), 王天軍, 鄒帥 申請(qǐng)人:新疆信息產(chǎn)業(yè)有限責(zé)任公司