一種基于機(jī)器翻譯的專名翻譯方法
【專利摘要】一種基于機(jī)器翻譯的專名翻譯方法,包括:對待譯文檔進(jìn)行分詞處理,建立詞語集;將所述詞語集中的每個(gè)詞語在專名映射表中進(jìn)行匹配,將匹配成功的詞語作為候選專名;確定每個(gè)所述候選專名在所述待譯文檔中特定段落中具有的關(guān)聯(lián)項(xiàng),以及每個(gè)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù);根據(jù)每個(gè)所述候選專名的所有關(guān)聯(lián)系數(shù)進(jìn)行計(jì)算;將結(jié)果滿足給定條件的所述候選專名作為專名,并按照專名對應(yīng)的譯文進(jìn)行翻譯。本發(fā)明有效的提高了機(jī)器翻譯對專名的翻譯質(zhì)量和翻譯效率。
【專利說明】一種基于機(jī)器翻譯的專名翻譯方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及翻譯【技術(shù)領(lǐng)域】,尤其是涉及一種基于機(jī)器翻譯的專名翻譯方法。
【背景技術(shù)】
[0002] 專名的翻譯是翻譯中一個(gè)重要的方面,由于其特殊性,雖然許多專名雖然按音譯 翻譯不是完全準(zhǔn)確,但長期以來約定俗成是固定翻譯的,所以應(yīng)該以固定的翻譯結(jié)果出 現(xiàn),否則對于譯文的理解就會產(chǎn)生很大的偏差,比如按韋氏拼音拼寫的"蔣介石"的英文名 "ChiangKai-shek"被誤譯成"常凱申"就是一種非常嚴(yán)重的誤翻譯。專名的翻譯包括人 名、地名、機(jī)構(gòu)名、媒體名、文藝作品名、品牌名等各類專有名詞的翻譯,在文字系統(tǒng)相同和 相似的語言間,由于書同文的便利,源語言名稱往往能夠以原文的書寫形式被目的語直接 借用,而在文字系統(tǒng)各不相同的語言間,由于文字兼容性不足,導(dǎo)致在專名翻譯中音譯、語 義翻譯、重新命名等多樣化轉(zhuǎn)換方式的存在,從而使得專名翻譯的規(guī)范化存在困難。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的之一是提供一種基于機(jī)器翻譯的專名翻譯方法,以解決現(xiàn)有技術(shù)中 對專名翻譯的準(zhǔn)確性低的問題。
[0004] 在一些說明性實(shí)施例中,所述獲取專業(yè)詞匯譯文的方法,包括:對待譯文檔進(jìn)行分 詞處理,建立詞語集;將所述詞語集中的每個(gè)詞語在專名映射表中進(jìn)行匹配,將匹配成功的 詞語作為候選專名;確定每個(gè)所述候選專名在所述待譯文檔中特定段落中具有的關(guān)聯(lián)項(xiàng), 以及每個(gè)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù);根據(jù)每個(gè)所述候選專名的所有關(guān)聯(lián)系數(shù)進(jìn)行計(jì)算;將結(jié)果滿 足給定條件的所述候選專名作為專名,并按照專名對應(yīng)的譯文進(jìn)行翻譯。
[0005] 與現(xiàn)有技術(shù)相比,本發(fā)明的說明性實(shí)施例包括以下優(yōu)點(diǎn):
[0006] 通過對待譯文檔中的具有名詞性質(zhì)的詞語進(jìn)行專名分析,確定該詞語是否為專 名,保證待譯文檔通過機(jī)器翻譯中名詞翻譯的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0007] 此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā) 明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0008] 圖1是按照本發(fā)明的說明性實(shí)施例的流程圖。
【具體實(shí)施方式】
[0009] 在以下詳細(xì)描述中,提出大量特定細(xì)節(jié),以便于提供對本發(fā)明的透徹理解。但是, 本領(lǐng)域的技術(shù)人員會理解,即使沒有這些特定細(xì)節(jié)也可實(shí)施本發(fā)明。在其它情況下,沒有詳 細(xì)描述眾所周知的方法、過程、組件和電路,以免影響對本發(fā)明的理解。
[0010] 為了更好的理解本發(fā)明中的說明性實(shí)施例,下面對本發(fā)明說明性實(shí)施例中的一些 術(shù)語進(jìn)行簡單說明。
[0011] 本文中所使用的方法適用于多種語種,例如英文、中文、日文、法文等,本領(lǐng)域技術(shù) 人員應(yīng)該可以了解本文所公開的方法不僅僅適用于英文、中文、日文和法文,還可以是其他 具有字詞結(jié)構(gòu)的語種,在此不再窮舉。
[0012] 機(jī)器翻譯引擎具有查找、索引、替換等功能,構(gòu)成的自動翻譯技術(shù),是基于各種語 料數(shù)據(jù)庫作為基礎(chǔ)實(shí)現(xiàn)。
[0013] 現(xiàn)在參照圖1,圖1示出了在一些說明性實(shí)施例中翻譯的流程圖。
[0014] 如圖1所示,在一些說明性實(shí)施例中,公開了一種基于機(jī)器翻譯的專名翻譯方法, 包括:
[0015]S11、對待譯文檔進(jìn)行分詞處理,建立詞語集;
[0016]S12、將所述詞語集中的每個(gè)詞語在專名庫中進(jìn)行匹配,將匹配成功的詞語作為候 選專名;
[0017]S13、根據(jù)專名映射表,確定每個(gè)所述候選專名在所述待譯文檔中特定段落中具有 的關(guān)聯(lián)項(xiàng),以及每個(gè)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù);
[0018]S14、根據(jù)每個(gè)所述候選專名的所有關(guān)聯(lián)系數(shù)進(jìn)行計(jì)算;
[0019]S15、將結(jié)果滿足給定條件的所述候選專名作為專名,并按照專名對應(yīng)的譯文進(jìn)行 翻譯。
[0020] 通過對待譯文檔中的具有名詞性質(zhì)的詞語進(jìn)行專名分析,確定該詞語是否為專 名,保證待譯文檔通過機(jī)器翻譯中名詞翻譯的準(zhǔn)確性。
[0021] 在一些說明性實(shí)施例中,在對待譯文檔進(jìn)行分詞處理之后,還包括:
[0022] 去除獲取到的所有詞匯中的停用詞、形容詞、副詞、動詞,保留其中的名詞、成語和 簡稱略語,并以保留的所述名詞、成語和簡稱略語建立所述候選詞匯庫。
[0023] 在一些說明性實(shí)施例中,所述特定段落至少為候選專名在所述待譯文檔中的所在 的句、所在的自然段和該候選專名在待譯文檔中前后一定范圍中之
[0024] 在一些說明性實(shí)施例中,所述關(guān)聯(lián)項(xiàng)映射表中每個(gè)專名對應(yīng)至少一個(gè)關(guān)聯(lián)項(xiàng),每 個(gè)關(guān)聯(lián)項(xiàng)具有關(guān)聯(lián)系數(shù);
[0025]關(guān)聯(lián)項(xiàng)映射表包括專名、關(guān)聯(lián)詞、關(guān)聯(lián)項(xiàng)、關(guān)聯(lián)系數(shù),例如表1所示為包含3個(gè)關(guān) 聯(lián)詞的關(guān)聯(lián)項(xiàng)映射表;其中,關(guān)聯(lián)項(xiàng)的數(shù)量是根據(jù)關(guān)聯(lián)詞的數(shù)量為定的,關(guān)聯(lián)項(xiàng)的數(shù)量為 +----^Cg,即2m_l個(gè);其中m為關(guān)聯(lián)詞匯的數(shù)量。
[0026]
【權(quán)利要求】
1. 一種基于機(jī)器翻譯的專名翻譯方法,其特征在于,包括: 對待譯文檔進(jìn)行分詞處理,建立詞語集; 將所述詞語集中的每個(gè)詞語在專名庫中進(jìn)行匹配,將匹配成功的詞語作為候選專名; 根據(jù)專名映射表,確定每個(gè)所述候選專名在所述待譯文檔中特定段落中具有的關(guān)聯(lián) 項(xiàng),以及每個(gè)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù); 根據(jù)每個(gè)所述候選專名的所有關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù)進(jìn)行計(jì)算; 將結(jié)果滿足給定條件的所述候選專名作為專名,并按照專名對應(yīng)的譯文進(jìn)行翻譯。
2. 根據(jù)權(quán)利要求1所述的專名翻譯方法,其特征在于,在對待譯文檔進(jìn)行分詞處理之 后,去除獲取到的所有詞匯中的停用詞、形容詞、副詞、動詞,保留其中的名詞、成語和簡稱 略語,并以保留的所述名詞、成語和簡稱略語建立所述候選詞匯庫。
3. 根據(jù)權(quán)利要求1所述的專名翻譯方法,其特征在于,所述特定段落至少為候選專名 在所述待譯文檔中的所在的句、所在的自然段和該候選專名在待譯文檔中前后一定范圍中 之一。
4. 根據(jù)權(quán)利要求1所述的專名翻譯方法,其特征在于,在對待譯文檔進(jìn)行分詞處理之 前,還包括: 構(gòu)建所述專名映射表,其過程包括: 提取翻譯參考文檔庫中包含有專名w的文本段落,建立文本集R ; 提取專名庫中專名W的專名關(guān)聯(lián)詞集其中,WpWy ···,¥_"分別為 w的關(guān)聯(lián)詞; 根據(jù)所述文本集和專名關(guān)聯(lián)詞集,確定關(guān)聯(lián)項(xiàng),并計(jì)算出每個(gè)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù),建立 所述專名映射表。
5. 根據(jù)權(quán)利要求4所述的專名翻譯方法,其特征在于,所述關(guān)聯(lián)項(xiàng)包括單項(xiàng)關(guān)聯(lián)項(xiàng)和 多項(xiàng)關(guān)聯(lián)項(xiàng); 每個(gè)所述單項(xiàng)關(guān)聯(lián)項(xiàng)為一個(gè)所述關(guān)聯(lián)詞; 每個(gè)所述多項(xiàng)關(guān)聯(lián)項(xiàng)為至少兩個(gè)所述單項(xiàng)關(guān)聯(lián)項(xiàng)構(gòu)成的唯一組合。
6. 根據(jù)權(quán)利要求5所述的專名翻譯方法,其特征在于,所述單項(xiàng)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù)的 計(jì)算過程,包括: 計(jì)算出第一文本集R中專名w按照專名翻譯的概率P(w); 計(jì)算出關(guān)聯(lián)詞K在第一文本集R中的出現(xiàn)概率P(Wi); 計(jì)算出文本集R中專名w按照專名翻譯的文本段落中關(guān)聯(lián)詞&出現(xiàn)的概率P(Wi |w); 按照如下公式計(jì)算出所述單項(xiàng)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù); P(Wi|vv) P(w) P(w wj) =----- P(Wj) 其中,P (w I Wi)為單項(xiàng)關(guān)聯(lián)項(xiàng)Wi的關(guān)聯(lián)系數(shù),1彡i彡m。
7. 根據(jù)權(quán)利要求6所述的專名翻譯方法,其特征在于,所述多項(xiàng)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù)的 計(jì)算過程,包括: 按照如下公式遞推出所述多項(xiàng)關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù); P(WWX - --Wn) r( W Wi ··· Wn )=- P(wn|w-丄…Wjk) X …X Pfwjwt) X PfWi) 其中,P(w|w^-wn)為多項(xiàng)關(guān)聯(lián)項(xiàng)w^-wn的關(guān)聯(lián)系數(shù),n為組成該多項(xiàng)關(guān)聯(lián)項(xiàng)的單項(xiàng)關(guān) 聯(lián)項(xiàng)的項(xiàng)數(shù),2彡η彡m。
8. 根據(jù)權(quán)利要求4所述的專名翻譯方法,其特征在于,根據(jù)每個(gè)所述候選專名的所有 關(guān)聯(lián)系數(shù)進(jìn)行計(jì)算的過程,包括: 按照如下公式計(jì)算出候選專名的專詞權(quán)重P (spec): P (spec) - Σ ^ e {1,2,…,n}Pi_ Σ i,j e {1,2,…,n}, i 矣 jPiPj+ Σ i,j,k e {1,2,…,n}, i 矣 j 矣 kPiPjPk-··· 其中,Pi、Pp Pk和Pn為關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù);n為待譯詞匯關(guān)聯(lián)項(xiàng)的項(xiàng)數(shù),i、j、k為關(guān)聯(lián) 項(xiàng)的序號,1彡i、j、k彡η。
9. 根據(jù)權(quán)利要求1所述的專名翻譯方法,其特征在于,所述給定條件至少包含以下之 1) 、P (spec) = 1 ; 2) 、P (spec)不小于預(yù)先設(shè)定的權(quán)重閾值; 3) 、P (spec)分別大于所述待譯詞匯的一定數(shù)量的關(guān)聯(lián)項(xiàng)的關(guān)聯(lián)系數(shù)。
【文檔編號】G06F17/28GK104239293SQ201410406501
【公開日】2014年12月24日 申請日期:2014年8月18日 優(yōu)先權(quán)日:2014年8月18日
【發(fā)明者】江潮, 張芃 申請人:武漢傳神信息技術(shù)有限公司