專(zhuān)利名稱(chēng):一種面向形態(tài)豐富語(yǔ)言的翻譯方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于自然語(yǔ)言處理技術(shù)領(lǐng)域,具體地說(shuō),本發(fā)明涉及一種面向形態(tài)豐富語(yǔ)言的翻譯方法和系統(tǒng)。
背景技術(shù):
目前的統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation)相關(guān)技術(shù)主要源自英語(yǔ)和類(lèi)似的語(yǔ)言。它假定詞是原子翻譯單元,在這個(gè)假定的基礎(chǔ)上,提出了基于詞、基于短語(yǔ),以及基于句法的翻譯模型;在語(yǔ)料庫(kù)規(guī)模較大的前提下,這類(lèi)方法有效地改善了孤立語(yǔ)(如漢語(yǔ))和形態(tài)變化不豐富的語(yǔ)言(如英語(yǔ)、法語(yǔ))的翻譯。
但對(duì)形態(tài)豐富語(yǔ)言而言,它存在一系列形態(tài)變化過(guò)程曲折變化、語(yǔ)音和諧、一致性、復(fù)合等;因此,對(duì)一個(gè)給定的詞干(stem form),理論上它可以產(chǎn)生成百上千種新的詞形(surface form)。如果我們將每個(gè)詞形當(dāng)成獨(dú)立的詞,數(shù)據(jù)稀疏問(wèn)題將會(huì)非常嚴(yán)重。為了緩解數(shù)據(jù)稀疏現(xiàn)象,關(guān)于形態(tài)豐富語(yǔ)言翻譯的研究主要集中在同一詞干的不同詞形上。通過(guò)形態(tài)分析來(lái)對(duì)輸入進(jìn)行優(yōu)化表示,以改善對(duì)齊和翻譯效果。但總的來(lái)說(shuō),相關(guān)研究還停留在將詞形、詞干,或者詞素(morpheme)作為原子翻譯單元上,而并沒(méi)有區(qū)別對(duì)待詞干和詞綴(affix)。(Zhiyang Wang, Yajuan Lvj and Qun Liu.2011. Multi-granularity wordalignment and decoding for agglutinative language translation. In Proceedings ofMT SUMMIT, pages 360 - 367.)論文實(shí)驗(yàn)表明了將詞干作為原子翻譯單元,可以有效的緩解數(shù)據(jù)稀疏現(xiàn)象,并改善了維吾爾語(yǔ)到漢語(yǔ)的翻譯質(zhì)量。但這一方法畢竟丟掉了詞綴信息,翻譯規(guī)則中存在一定的歧義現(xiàn)象。詞綴,尤其是構(gòu)形詞綴(inflectional affix),表征了很多語(yǔ)法信息,像時(shí)態(tài)、人稱(chēng)、數(shù)目、格等。這些信息對(duì)翻譯規(guī)則消歧是有用的。
發(fā)明內(nèi)容
為解決上述問(wèn)題,本發(fā)明的目的是提出一種面向形態(tài)豐富語(yǔ)言的翻譯方法和系統(tǒng)。通過(guò)區(qū)別對(duì)待詞干和詞綴,將詞干作為原子翻譯單元,緩解數(shù)據(jù)稀疏問(wèn)題;翻譯規(guī)則關(guān)聯(lián)的詞綴用來(lái)對(duì)翻譯規(guī)則消歧,從而改善形態(tài)豐富語(yǔ)言翻譯的質(zhì)量。本發(fā)明公開(kāi)一種面向形態(tài)豐富語(yǔ)言的翻譯方法,包括步驟1,對(duì)形態(tài)豐富語(yǔ)言進(jìn)行形態(tài)分析,獲得詞干和詞綴信息;步驟2,在抽取翻譯規(guī)則時(shí),以詞干作為原子翻譯單元,并保留相應(yīng)的詞綴分布信息;步驟3,在翻譯時(shí),對(duì)于待翻譯的片段,獲取其詞干、詞綴分布;詞干序列用來(lái)查詢(xún)規(guī)則表,詞綴分布信息和規(guī)則候選的詞綴分布計(jì)算相似度,表征兩者的相似程度,指導(dǎo)解碼,所述詞干序列是由多個(gè)詞干組成的序列。所述的面向形態(tài)豐富語(yǔ)言的翻譯方法,所述步驟I還包括步驟21,通過(guò)形態(tài)分析獲得所述詞干、詞綴信息;
所述的面向形態(tài)豐富語(yǔ)言的翻譯方法,所述步驟2還包括所述翻譯規(guī)則包括四部分規(guī)則源端、規(guī)則目標(biāo)端、詞綴分布信息,以及相應(yīng)的翻譯概率特征。所述的面向形態(tài)豐富語(yǔ)言的翻譯方法,所述步驟2詞綴分布信息還包括步驟41,在抽取詞干原子翻譯單元的翻譯規(guī)則時(shí),同時(shí)保留詞綴信息;步驟42,源端相同的翻譯規(guī)則構(gòu)成一個(gè)集合,在這個(gè)集合上,使用TF-IDF方法來(lái)表示規(guī)則相關(guān)的詞綴權(quán)重,所述TF-IDF為詞頻-倒文檔頻率;步驟43,在同一集合內(nèi),對(duì)于目標(biāo)端也相同的翻譯規(guī)則,使用基于質(zhì)心的分類(lèi)算法來(lái)表示詞綴分布結(jié)果。
所述的面向形態(tài)豐富語(yǔ)言的翻譯方法,所述步驟3還包括步驟51,使用詞干作為原子翻譯單元,緩解數(shù)據(jù)稀疏問(wèn)題;相應(yīng)的詞綴分布用來(lái)衡量待翻譯片斷與候選翻譯規(guī)則的匹配程度,指導(dǎo)選擇更合適的翻譯規(guī)則。本發(fā)明還公開(kāi)一種面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),包括形態(tài)分析模塊,用于對(duì)形態(tài)豐富語(yǔ)言進(jìn)行形態(tài)分析,獲得詞干和詞綴信息;抽取規(guī)則模塊,用于在抽取翻譯規(guī)則時(shí),以詞干作為原子翻譯單元,并保留相應(yīng)的詞綴分布信息;翻譯模塊,用于在翻譯時(shí),對(duì)于待翻譯的片段,獲取其詞干、詞綴分布;詞干序列用來(lái)查詢(xún)規(guī)則表,詞綴分布信息和規(guī)則候選的詞綴分布計(jì)算相似度,表征兩者的相似程度,指導(dǎo)解碼,所述詞干序列是由多個(gè)詞干組成的序列。所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),所述形態(tài)分析模塊還包括獲得信息模塊,用于通過(guò)形態(tài)分析獲得所述詞干、詞綴信息;所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),所述抽取規(guī)則模塊還包括所述翻譯規(guī)則包括四部分規(guī)則源端、規(guī)則目標(biāo)端、詞綴分布信息,以及相應(yīng)的翻譯概率特征。所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),所述抽取規(guī)則模塊還包括保留信息模塊,用于在抽取詞干原子翻譯單元的翻譯規(guī)則時(shí),同時(shí)保留詞綴信息;構(gòu)成集合模塊,用于源端相同的翻譯規(guī)則構(gòu)成一個(gè)集合,在這個(gè)集合上,使用TF-IDF方法來(lái)表示規(guī)則相關(guān)的詞綴權(quán)重,所述TF-IDF為詞頻-倒文檔頻率;表示結(jié)果模塊,用于在同一集合內(nèi),對(duì)于目標(biāo)端也相同的翻譯規(guī)則,使用基于質(zhì)心的分類(lèi)算法來(lái)表示詞綴分布結(jié)果。所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),所述翻譯模塊還包括衡量匹配模塊,用于使用詞干作為原子翻譯單元,緩解數(shù)據(jù)稀疏問(wèn)題;相應(yīng)的詞綴分布用來(lái)衡量待翻譯片斷與候選翻譯規(guī)則的匹配程度,指導(dǎo)選擇更合適的翻譯規(guī)則。本發(fā)明的有益效果為本發(fā)明區(qū)別對(duì)待詞干詞綴,詞干用來(lái)生成翻譯候選,詞綴用來(lái)對(duì)翻譯候選消歧,從而更明確地指導(dǎo)翻譯規(guī)則選擇。在5萬(wàn)平行雙語(yǔ)語(yǔ)料數(shù)據(jù)集上,本發(fā)明的形態(tài)豐富語(yǔ)言翻譯模型的性能較傳統(tǒng)的基于短語(yǔ)的方法都有所提高在維吾爾語(yǔ)到漢語(yǔ)翻譯上提高了+2. 6個(gè)點(diǎn)BLEU值;在哈薩克語(yǔ)到漢語(yǔ)翻譯上提高了 +2. 27個(gè)點(diǎn)BLEU值;在柯?tīng)柨俗握Z(yǔ)到漢語(yǔ)的翻譯上提高了 +0. 91個(gè)點(diǎn)BLEU值。
圖I為本發(fā)明提供的面向形態(tài)豐富語(yǔ)言翻譯方法總體技術(shù)方案的實(shí)現(xiàn)流程圖;圖2A為規(guī)則實(shí)例,在抽取詞干原子翻譯單元規(guī)則的同時(shí),保留相關(guān)的詞綴信息;圖2B表示在源端相同的翻譯規(guī)則的集合上,使用TF-IDF來(lái)表示相關(guān)的詞綴權(quán)重;圖2C則是對(duì)目標(biāo)端也相同的翻譯規(guī)則的使用質(zhì)心分類(lèi)算法來(lái)表示最終的詞綴分 布結(jié)果(這里使用向量表示);圖3為本發(fā)明面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng)示意圖。
具體實(shí)施例方式下面給出本發(fā)明的具體實(shí)施方式
,結(jié)合附圖對(duì)本發(fā)明做出了詳細(xì)描述。本發(fā)明的目的是提出一種面向形態(tài)豐富語(yǔ)言的翻譯方法。通過(guò)區(qū)別對(duì)待詞干和詞綴,將詞干作為原子翻譯單元,緩解數(shù)據(jù)稀疏問(wèn)題;翻譯規(guī)則關(guān)聯(lián)的詞綴用來(lái)對(duì)翻譯規(guī)則消歧,從而改善形態(tài)豐富語(yǔ)言翻譯的質(zhì)量。為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了具體的機(jī)器翻譯方法,包括以下步驟步驟I)對(duì)形態(tài)豐富語(yǔ)言進(jìn)行形態(tài)分析,獲得詞干和詞綴信息;步驟2)在抽取翻譯規(guī)則時(shí),以詞干作為原子翻譯單元,并保留相應(yīng)的詞綴分布。翻譯規(guī)則由四部分組成規(guī)則源端(使用詞干原子翻譯單元表示),規(guī)則目標(biāo)端,詞綴分布以及規(guī)則得分。和傳統(tǒng)的翻譯規(guī)則相比,這里的規(guī)則多了詞綴分布信息。步驟3)在翻譯時(shí),對(duì)于待翻譯的片段,獲取每個(gè)詞的詞干和詞綴信息;其中,詞干序列用來(lái)查詢(xún)規(guī)則表,詞綴分布和規(guī)則候選的詞綴分布計(jì)算相似度,表征兩者的相似程度,指導(dǎo)解碼,所述詞干序列是由多個(gè)詞干組成的序列。上述技術(shù)方案中,所述步驟I)中,形態(tài)分析的結(jié)果可以通過(guò)形態(tài)分析工具獲得,如開(kāi)源的無(wú)監(jiān)督形態(tài)分析工具M(jìn)orfessor,可參考Mathias Creutz and KristaLagus (2005). Inducing the Morphological Lexicon of aNatural Language fromUnannotated Text.In Proceedings of the International and InterdisciplinaryConference on Adaptive Knowledge Representation and Reasoning(AKRR’05),Espoo,F(xiàn)inland, 15-17June. 0上述技術(shù)方案中,所述步驟2)中,和傳統(tǒng)的翻譯規(guī)則相比,所述翻譯規(guī)則多出一部分,即相應(yīng)的詞綴分布信息。上述技術(shù)方案中,所述步驟2)中,規(guī)則源端(形態(tài)豐富語(yǔ)言)使用詞干來(lái)表示對(duì)應(yīng)的原詞,并使用詞干作為原子翻譯單元,進(jìn)行對(duì)齊和翻譯規(guī)則抽取。在抽取翻譯規(guī)則時(shí),同時(shí)保留相應(yīng)的詞綴分布信息。上述技術(shù)方案中,所述步驟2)中,詞綴分布的計(jì)算按以下方法獲得I、在抽取詞干原子翻譯單元的翻譯規(guī)則時(shí),同時(shí)保留詞綴信息;2、源端相同的翻譯規(guī)則構(gòu)成一個(gè)集合,在這個(gè)集合上,使用TF-IDF(詞頻-倒文檔頻率)方法來(lái)表示規(guī)則相關(guān)的詞綴權(quán)重;
3、在同一集合內(nèi),對(duì)于目標(biāo)端也相同的翻譯規(guī)則,使用基于質(zhì)心的分類(lèi)算法來(lái)表示詞綴分布結(jié)果(向量表示)。上述技術(shù)方案中,所述步驟3)中,在得到待翻譯片斷的詞干、詞綴組成后,使用詞干序列查詢(xún)規(guī)則候選,再計(jì)算匹配規(guī)則和翻譯片斷之間詞綴分布的相似度,并將相似度作為一個(gè)動(dòng)態(tài)特征加入到解碼器中。上述技術(shù)方案中,所述步驟3)中,詞綴分布的相似度可以通過(guò)向量的夾角余弦來(lái)表不。如圖I所示,圖I為本發(fā)明提供的面向形態(tài)豐富語(yǔ)言翻譯方法總體技術(shù)方案的實(shí)現(xiàn)流程圖,該方法包括以下步驟步驟101)、利用形態(tài)分析工具分析形態(tài)豐富語(yǔ)言串,并輸出相應(yīng)的詞干和詞綴序列;形態(tài)分析的主要任務(wù)是對(duì)形態(tài)豐富語(yǔ)言進(jìn)行分析,以獲得每個(gè)詞形的詞干和詞綴組成。形態(tài)分析結(jié)果可以通過(guò)無(wú)監(jiān)督方法獲得。本實(shí)施例中,采用的是芬蘭赫爾辛基大學(xué)開(kāi)放的無(wú)監(jiān)督形態(tài)分析工具M(jìn)orfessor,步驟102)、通過(guò)將形態(tài)豐富語(yǔ)言表示為詞干-詞綴序列,使用詞干原子翻譯單元來(lái)進(jìn)行對(duì)齊和規(guī)則抽??;并保留相應(yīng)的詞綴分布。具體的詞綴分布的計(jì)算方式可參照?qǐng)D2。在抽取詞干原子翻譯單元規(guī)則的同時(shí),保留相關(guān)的詞綴信息;然后,在源端相同的翻譯規(guī)則的集合上,使用TF-IDF來(lái)表示相關(guān)的詞綴權(quán)重;最后對(duì)目標(biāo)端也相同的翻譯規(guī)則的使用質(zhì)心分類(lèi)算法來(lái)表示最終的詞綴分布結(jié)果。步驟103)、在翻譯時(shí),首先獲得待翻譯片斷的詞干、詞綴序列;其詞干序列用來(lái)搜索翻譯規(guī)則表,計(jì)算其詞綴分布與相應(yīng)的翻譯規(guī)則候選的詞綴分布的相似度,并將相似度作為一個(gè)動(dòng)態(tài)特征加入到解碼器中。在5萬(wàn)平行雙語(yǔ)語(yǔ)料數(shù)據(jù)集上,本發(fā)明的形態(tài)豐富語(yǔ)言翻譯模型的性能較傳統(tǒng)的基于短語(yǔ)的方法都有所提高在維吾爾語(yǔ)到漢語(yǔ)翻譯上提高了+2. 6個(gè)點(diǎn)BLEU值;在哈薩克語(yǔ)到漢語(yǔ)翻譯上提高了 +2. 27個(gè)點(diǎn)BLEU值;在柯?tīng)柨俗握Z(yǔ)到漢語(yǔ)的翻譯上提高了 +0. 91個(gè)點(diǎn)BLEU值。如圖3所示,本發(fā)明還公開(kāi)一種面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),包括形態(tài)分析模塊,用于對(duì)形態(tài)豐富語(yǔ)言進(jìn)行形態(tài)分析,獲得詞干和詞綴信息;抽取規(guī)則模塊,用于在抽取翻譯規(guī)則時(shí),以詞干作為原子翻譯單元,并保留相應(yīng)的詞綴分布信息;翻譯模塊,用于在翻譯時(shí),對(duì)于待翻譯的片段,獲取其詞干、詞綴分布;詞干序列用來(lái)查詢(xún)規(guī)則表,詞綴分布信息和規(guī)則候選的詞綴分布計(jì)算相似度,表征兩者的相似程度,指導(dǎo)解碼,所述詞干序列是由多個(gè)詞干組成的序列。所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),所述形態(tài)分析模塊還包括獲得信息模塊,用于通過(guò)形態(tài)分析獲得所述詞干、詞綴信息;所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),所述抽取規(guī)則模塊還包括所述翻譯規(guī)則包括四部分規(guī)則源端、規(guī)則目標(biāo)端、詞綴分布信息,以及相應(yīng)的翻譯概率特征。所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),所述抽取規(guī)則模塊還包括保留信息模塊,用于在抽取詞干原子翻譯單元的翻譯規(guī)則時(shí),同時(shí)保留詞綴信、息;構(gòu)成集合模塊,用于源端相同的翻譯規(guī)則構(gòu)成一個(gè)集合,在這個(gè)集合上,使用TF-IDF方法來(lái)表示規(guī)則相關(guān)的詞綴權(quán)重,所述TF-IDF為詞頻-倒文檔頻率;表示結(jié)果模塊,用于在同一集合內(nèi),對(duì)于目標(biāo)端也相同的翻譯規(guī)則,使用基于質(zhì)心的分類(lèi)算法來(lái)表示詞綴分布結(jié)果。所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),所述翻譯模塊還包括衡量匹配模塊,用于使用詞干作為原子翻譯單元,緩解數(shù)據(jù)稀疏問(wèn)題;相應(yīng)的詞綴分布用來(lái)衡量待翻譯片斷與候選翻譯規(guī)則的匹配程度,指導(dǎo)選擇更合適的翻譯規(guī)則。本領(lǐng)域的技術(shù)人員在不脫離權(quán)利要求書(shū)確定 的本發(fā)明的精神和范圍的條件下,還可以對(duì)以上內(nèi)容進(jìn)行各種各樣的修改。因此本發(fā)明的范圍并不僅限于以上的說(shuō)明,而是由權(quán)利要求書(shū)的范圍來(lái)確定的。
權(quán)利要求
1.一種面向形態(tài)豐富語(yǔ)言的翻譯方法,其特征在于,包括 步驟I,對(duì)形態(tài)豐富語(yǔ)言進(jìn)行形態(tài)分析,獲得詞干和詞綴信息; 步驟2,在抽取翻譯規(guī)則時(shí),以詞干作為原子翻譯單元,并保留相應(yīng)的詞綴分布信息;步驟3,在翻譯時(shí),對(duì)于待翻譯的片段,獲取其詞干、詞綴分布;詞干序列用來(lái)查詢(xún)規(guī)則表,詞綴分布信息和規(guī)則候選的詞綴分布計(jì)算相似度,表征兩者的相似程度,指導(dǎo)解碼,所述詞干序列是由多個(gè)詞干組成的序列。
2.根據(jù)權(quán)利要求I所述的面向形態(tài)豐富語(yǔ)言的翻譯方法,其特征在于,所述步驟I還包括 步驟21,通過(guò)形態(tài)分析獲得所述詞干、詞綴信息;
3.根據(jù)權(quán)利要求I所述的面向形態(tài)豐富語(yǔ)言的翻譯方法,其特征在于,所述步驟2還包括 所述翻譯規(guī)則包括四部分規(guī)則源端、規(guī)則目標(biāo)端、詞綴分布信息,以及相應(yīng)的翻譯概率特征。
4.根據(jù)權(quán)利要求1、3任一所述的面向形態(tài)豐富語(yǔ)言的翻譯方法,其特征在于,所述步驟2詞綴分布信息還包括 步驟41,在抽取詞干原子翻譯單元的翻譯規(guī)則時(shí),同時(shí)保留詞綴信息; 步驟42,源端相同的翻譯規(guī)則構(gòu)成一個(gè)集合,在這個(gè)集合上,使用TF-IDF方法來(lái)表示規(guī)則相關(guān)的詞綴權(quán)重,所述TF-IDF為詞頻-倒文檔頻率; 步驟43,在同一集合內(nèi),對(duì)于目標(biāo)端也相同的翻譯規(guī)則,使用基于質(zhì)心的分類(lèi)算法來(lái)表示詞綴分布結(jié)果。
5.根據(jù)權(quán)利要求I所述的面向形態(tài)豐富語(yǔ)言的翻譯方法,其特征在于,所述步驟3還包括 步驟51,使用詞干作為原子翻譯單元,緩解數(shù)據(jù)稀疏問(wèn)題;相應(yīng)的詞綴分布用來(lái)衡量待翻譯片斷與候選翻譯規(guī)則的匹配程度,指導(dǎo)選擇更合適的翻譯規(guī)則。
6.一種面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),其特征在于,包括 形態(tài)分析模塊,用于對(duì)形態(tài)豐富語(yǔ)言進(jìn)行形態(tài)分析,獲得詞干和詞綴信息; 抽取規(guī)則模塊,用于在抽取翻譯規(guī)則時(shí),以詞干作為原子翻譯單元,并保留相應(yīng)的詞綴分布信息; 翻譯模塊,用于在翻譯時(shí),對(duì)于待翻譯的片段,獲取其詞干、詞綴分布;詞干序列用來(lái)查詢(xún)規(guī)則表,詞綴分布信息和規(guī)則候選的詞綴分布計(jì)算相似度,表征兩者的相似程度,指導(dǎo)解碼,所述詞干序列是由多個(gè)詞干組成的序列。
7.根據(jù)權(quán)利要求6所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),其特征在于,所述形態(tài)分析模塊還包括 獲得信息模塊,用于通過(guò)形態(tài)分析獲得所述詞干、詞綴信息;
8.根據(jù)權(quán)利要求6所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),其特征在于,所述抽取規(guī)則模塊還包括 所述翻譯規(guī)則包括四部分規(guī)則源端、規(guī)則目標(biāo)端、詞綴分布信息,以及相應(yīng)的翻譯概率特征。
9.根據(jù)權(quán)利要求6、8任一所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),其特征在于,所述抽取規(guī)則模塊還包括 保留信息模塊,用于在抽取詞干原子翻譯單元的翻譯規(guī)則時(shí),同時(shí)保留詞綴信息;構(gòu)成集 合模塊,用于源端相同的翻譯規(guī)則構(gòu)成一個(gè)集合,在這個(gè)集合上,使用TF-IDF方法來(lái)表示規(guī)則相關(guān)的詞綴權(quán)重,所述TF-IDF為詞頻-倒文檔頻率; 表示結(jié)果模塊,用于在同一集合內(nèi),對(duì)于目標(biāo)端也相同的翻譯規(guī)則,使用基于質(zhì)心的分類(lèi)算法來(lái)表示詞綴分布結(jié)果。
10.根據(jù)權(quán)利要求6所述的面向形態(tài)豐富語(yǔ)言的翻譯系統(tǒng),其特征在于,所述翻譯模塊還包括 衡量匹配模塊,用于使用詞干作為原子翻譯單元,緩解數(shù)據(jù)稀疏問(wèn)題;相應(yīng)的詞綴分布用來(lái)衡量待翻譯片斷與候選翻譯規(guī)則的匹配程度,指導(dǎo)選擇更合適的翻譯規(guī)則。
全文摘要
一種面向形態(tài)豐富語(yǔ)言的翻譯方法和系統(tǒng),所述方法包括步驟1,對(duì)形態(tài)豐富語(yǔ)言進(jìn)行形態(tài)分析,獲得詞干和詞綴信息;步驟2,在抽取翻譯規(guī)則時(shí),以詞干作為原子翻譯單元,并保留相應(yīng)的詞綴分布信息;步驟3,在翻譯時(shí),對(duì)于待翻譯的片段,獲取其詞干、詞綴分布;詞干序列用來(lái)查詢(xún)規(guī)則表,詞綴分布信息和規(guī)則候選的詞綴分布計(jì)算相似度,表征兩者的相似程度,指導(dǎo)解碼,所述詞干序列是由多個(gè)詞干組成的序列。
文檔編號(hào)G06F17/28GK102681985SQ20121015248
公開(kāi)日2012年9月19日 申請(qǐng)日期2012年5月16日 優(yōu)先權(quán)日2012年5月16日
發(fā)明者劉群, 呂雅娟, 王志洋 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所