欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多語(yǔ)機(jī)器翻譯智能輔助處理方法和系統(tǒng)的制作方法

文檔序號(hào):6379638閱讀:258來(lái)源:國(guó)知局
專利名稱:多語(yǔ)機(jī)器翻譯智能輔助處理方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言計(jì)算機(jī)處理技術(shù)領(lǐng)域,尤其是涉及機(jī)器翻譯技術(shù)領(lǐng)域,特別是涉及一種多語(yǔ)機(jī)器翻譯智能輔助處理方法和系統(tǒng)。
背景技術(shù)
在文本翻譯的過(guò)程中,翻譯人員通常需要將一種語(yǔ)言(源語(yǔ)言)翻譯成另外一種語(yǔ)目(目標(biāo)語(yǔ)目)。
近年來(lái),基于機(jī)器翻譯和翻譯記憶的計(jì)算機(jī)輔助翻譯解決了人工翻譯中的一些問(wèn)題,但是計(jì)算機(jī)輔助翻譯通常有三個(gè)問(wèn)題。第一,基于詞的輔助翻譯提示的粒度太小,部分詞語(yǔ)的在句子中的翻譯往往不是詞語(yǔ)直接對(duì)應(yīng)的目標(biāo)語(yǔ)言候選。第二,基于移動(dòng)調(diào)序的機(jī)器翻譯后編輯形式的輔助翻譯,很費(fèi)時(shí)費(fèi)力,翻譯人員操作很不方便。第三,基于機(jī)器翻譯的以短語(yǔ)為粒度的候選提示,首先將所有的短語(yǔ)翻譯候選列出,然后讓操作人員通過(guò)選擇候選的方式的進(jìn)行后編輯,這種方式一定程度地解決了詞粒度的候選提示問(wèn)題。但是,這種方式的短語(yǔ)候選翻譯列表不能根據(jù)翻譯人員輸入而動(dòng)態(tài)改變。翻譯人員在翻譯的過(guò)程中,要進(jìn)行目標(biāo)語(yǔ)言的輸入?,F(xiàn)有的目標(biāo)語(yǔ)言輸入方法通常是一種語(yǔ)言的音字轉(zhuǎn)換過(guò)程,從翻譯文本錄入過(guò)程的角度來(lái)看,現(xiàn)有方法主要有四個(gè)不足。第一,現(xiàn)有的方法通常直接針對(duì)目標(biāo)語(yǔ)言而設(shè)計(jì),沒(méi)有利用源語(yǔ)言的信息;第二,現(xiàn)有的方法,沒(méi)有把人工翻譯和機(jī)器翻譯交互式地結(jié)合起來(lái);第三,現(xiàn)有的方法很少有支持翻譯的功能,翻譯的粒度不夠。第四,現(xiàn)有的方法無(wú)法結(jié)合已輸入的目標(biāo)語(yǔ)言上下文和翻譯人員翻譯習(xí)慣的進(jìn)行智能翻譯。

發(fā)明內(nèi)容
本發(fā)明提供了一種多語(yǔ)機(jī)器翻譯智能輔助處理方法和系統(tǒng),其克服現(xiàn)有技術(shù)中存在的不足,加快多語(yǔ)翻譯的速度,用戶體驗(yàn)好,智能化程度高,提高了翻譯準(zhǔn)確度。為實(shí)現(xiàn)本發(fā)明目的而提供了一種多語(yǔ)機(jī)器翻譯智能輔助處理方法,包括如下步驟步驟S100,根據(jù)源語(yǔ)言和已翻譯目標(biāo)語(yǔ)言獲取源語(yǔ)言已翻譯的區(qū)間,對(duì)源語(yǔ)言未翻譯的區(qū)間進(jìn)行擴(kuò)展;步驟S200,根據(jù)源語(yǔ)言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集;并根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯的目標(biāo)語(yǔ)言生成輸入歷史提示集和語(yǔ)言模型提示集;步驟S300,結(jié)合輸入歷史提示集、語(yǔ)言模型提示集、以及K-best提示集,生成所述源語(yǔ)言未翻譯源區(qū)間對(duì)應(yīng)的目標(biāo)語(yǔ)言的候選集。較優(yōu)地,作為一可實(shí)施例,所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,所述步驟S300之后還包括如下步驟步驟S400,顯示所述目標(biāo)語(yǔ)言的候選集,等待用戶輸入或者選擇,并在捕捉到用戶輸入或者選擇動(dòng)作后,得到未翻譯源語(yǔ)言翻譯對(duì)應(yīng)的目標(biāo)語(yǔ)言,返回到步驟Sioo重新進(jìn)行未翻譯源語(yǔ)言翻譯,直至翻譯完成。
較優(yōu)地,作為一可實(shí)施例,所述步驟SlOO包括如下步驟步驟S110,設(shè)已翻譯目標(biāo)語(yǔ)言集E=ei. . . effl(m>=l),則確定一個(gè)E的劃分S: {(a, b) I l=〈a〈=b〈=m},對(duì)于任意的一個(gè)元素(a, b)屬于S,計(jì)算確定一個(gè)源語(yǔ)言集對(duì)應(yīng)的區(qū)間(a’,b’)的集合T,得到已翻譯源語(yǔ)言區(qū)間集合;步驟S120,將集合T的每一個(gè)區(qū)間序列作為一個(gè)實(shí)例采用語(yǔ)言模型解碼方法采用不同的短語(yǔ)特征對(duì)對(duì)應(yīng)的源語(yǔ)言未翻譯的區(qū)間進(jìn)行擴(kuò)展。較優(yōu)地,作為一可實(shí)施例,所述步驟S200中,根據(jù)源語(yǔ)言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集,包括如下步驟步驟S210,根據(jù)未翻譯的區(qū)間擴(kuò)展,獲取源語(yǔ)言未翻譯的區(qū)間對(duì)應(yīng)的翻譯結(jié)果中前K個(gè)最好的結(jié)果,其中,K為大于等于O的整數(shù); 步驟S220,將前K個(gè)最好的結(jié)果作為K-best提示集中的提示的字符串,并計(jì)算所述K個(gè)K-best提示集中的提示的字符串對(duì)應(yīng)的概率,將提示的類型設(shè)置為2,生成K-best提示集。較優(yōu)地,作為一可實(shí)施例,所述步驟S200中,根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯目標(biāo)語(yǔ)言,利用用戶輸入歷史集,生成輸入歷史提示集,包括如下步驟步驟S211’,初始化候選的輸入歷史提示集為空,根據(jù)源語(yǔ)言未翻譯的區(qū)間,獲得源語(yǔ)言未翻譯的區(qū)間中已輸入的字符串的后η個(gè)詞previous_n_word, η為整數(shù),η與所用的語(yǔ)言模型相對(duì)應(yīng);步驟S212’,將源語(yǔ)言未翻譯的區(qū)間全切分,得到不同的源語(yǔ)言片段,并根據(jù)源語(yǔ)言片段從語(yǔ)言模型集中檢索獲取對(duì)應(yīng)的所有可能的候選目標(biāo)翻譯語(yǔ)言的短語(yǔ)作為源語(yǔ)言片段對(duì)應(yīng)的候選短語(yǔ)集S ;步驟S213’,根據(jù)η個(gè)詞previous_n_word和所述源語(yǔ)言片段對(duì)應(yīng)的候選短語(yǔ)集,通過(guò)最小編輯距離算法,計(jì)算相似度,相似度大于等于閾值KT的詞作為候選的源語(yǔ)言集合{source_word};步驟S214’,根據(jù)previous_n_word和{source_word}查詢用戶輸入歷史集,并將查詢結(jié)果加入候選的輸入歷史提示集,其中對(duì)于action為〃選擇提示",直接將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為O ;對(duì)于action為〃插入〃,將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為O ;對(duì)于action為”不選擇提示”,將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為O ;對(duì)于action為“刪除”的,將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為3 ;步驟S215’,根據(jù)出現(xiàn)次數(shù)的多少,將候選的輸入歷史提示集中的前K’個(gè)作為結(jié)果作為輸入歷史提示集中的提示的字符串,并計(jì)算所述K’個(gè)輸入歷史提示集中的提示的字符串對(duì)應(yīng)的概率,以及對(duì)應(yīng)的提示的類型,生成輸入歷史提示集;其中,K’為大于等于I的整數(shù)。較優(yōu)地,作為一可實(shí)施例,所述步驟S200中,根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯目標(biāo)語(yǔ)言,生成語(yǔ)言模型提示集,包括如下步驟步驟S211 ”,根據(jù)所獲得的目標(biāo)語(yǔ)言的語(yǔ)料,訓(xùn)練一個(gè)N-Gram語(yǔ)言模型;步驟S212”,將源語(yǔ)言未翻譯的區(qū)間擴(kuò)展全切分,得到不同的源語(yǔ)言片段,并根據(jù)源語(yǔ)言片段從語(yǔ)言模型集中檢索獲取對(duì)應(yīng)的所有可能的候選目標(biāo)翻譯語(yǔ)言的短語(yǔ)作為源語(yǔ)言片段對(duì)應(yīng)的候選短語(yǔ)集S ;步驟S213”,對(duì)于短語(yǔ)翻譯候選集合S中的一個(gè)串S,枚舉s的所有前綴,構(gòu)成一個(gè)S的前綴集S_Prefix ;步驟S214”,根據(jù)用戶已輸入的字符串,從后往前,分別取I-gram, 2-gram,. . . , n-gram的字符串,得到一個(gè)字符串集合T ;步驟S215”,對(duì)于T中的每一個(gè)串t,在N-Gram語(yǔ)言模型中搜索所有以s為前綴的串,并記錄該串對(duì)應(yīng)的概率,并將搜索到的集合添加到候選提示集T_candidate中; 步驟S216”,對(duì)候選提示集T_candidate中的每一個(gè)串t_c,計(jì)算與前綴集S_Prefix的距離;其中,所述距離為串t_c與前前綴集S_prefix中的任意一個(gè)串的最大相似度;步驟S217”,根據(jù)相似度排序,取前K”個(gè)作為候選的結(jié)果;其中,K”為大于等于I的整數(shù);步驟S218”,對(duì)K”個(gè)候選的結(jié)果的概率做歸一化;步驟S219”,將前K”個(gè)候選的結(jié)果作為語(yǔ)言模型提示集中的提示的字符串,將相對(duì)應(yīng)的歸一化后的概率作為相應(yīng)的字符串對(duì)應(yīng)的概率,將提示的類型設(shè)置為1,生成語(yǔ)言模型提示集。較優(yōu)地,作為一可實(shí)施例,所述步驟S300包括如下步驟步驟S310,獲得輸入歷史提示集中提示類型為3的所有提示的集合A_delete,剩余的為集合A_history ;步驟S320,檢索語(yǔ)言模型提示集,K-best提示集;若語(yǔ)言模型提示集,K_best提示集中的提示在集合A_delete中存在,則將該提示刪除;否則保留;步驟S330,對(duì)于集語(yǔ)言模型提示集,K-best提示集中的剩下的每個(gè)目標(biāo)語(yǔ)言候選提示,將該每個(gè)目標(biāo)語(yǔ)言候選提示對(duì)應(yīng)的概率分別乘以相應(yīng)的權(quán)重Wa,Wb,Wc,得到最后的概率值,并按最后的概率值大小排序,取前Ν__個(gè)結(jié)果,作為目標(biāo)語(yǔ)言候選集;其中,Ntjbj為大于等于I的整數(shù)。較優(yōu)地,作為一可實(shí)施例,所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,所述步驟S400在得到目標(biāo)語(yǔ)言后,返回步驟Sioo前,還包括如下步驟步驟S400’,記錄用戶的輸入或者選擇動(dòng)作,將用戶的輸入記錄到用戶的輸入歷史集。為實(shí)現(xiàn)本發(fā)明目的還提供一種多語(yǔ)機(jī)器翻譯智能輔助處理系統(tǒng),包括擴(kuò)展模塊,提示集生成模塊和候選集生成模塊,其中所述擴(kuò)展模塊,用于根據(jù)源語(yǔ)言和已翻譯目標(biāo)語(yǔ)言獲取源語(yǔ)言已翻譯的區(qū)間,對(duì)源語(yǔ)言未翻譯的區(qū)間進(jìn)行擴(kuò)展;所述提示集生成模塊,用于根據(jù)源語(yǔ)言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集;并根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯的目標(biāo)語(yǔ)言生成輸入歷史提示集和語(yǔ)言模型提示集;所述候選集生成模塊,用于結(jié)合輸入歷史提示集、語(yǔ)言模型提示集、以及K-best提示集,生成所述源語(yǔ)言未翻譯源區(qū)間對(duì)應(yīng)的目標(biāo)語(yǔ)言的候選集。較優(yōu)地,作為一可實(shí)施例,所述的多語(yǔ)機(jī)器翻譯智能輔助處理系統(tǒng),還包括顯示處理模塊,用于顯示所述目標(biāo)語(yǔ)言的候選集,等待用戶輸入或者選擇,并在捕捉到用戶輸入或者選擇動(dòng)作后,得到未翻譯源語(yǔ)言翻譯對(duì)應(yīng)的目標(biāo)語(yǔ)言,返回重新進(jìn)行未翻譯源語(yǔ)言翻譯,直至翻譯完成。較優(yōu)地,作為一可實(shí)施例,所述的多語(yǔ)機(jī)器翻譯智能輔助處理系統(tǒng),還包括記錄模塊,用于記錄用戶的輸入或者選擇動(dòng)作,將用戶的輸入記錄到用戶的輸入歷史集。本發(fā)明的有益效果包括本發(fā)明提供的一種多語(yǔ)機(jī)器翻譯智能輔助處理方法和 系統(tǒng),將用戶輸入和機(jī)器翻譯結(jié)合起來(lái),融入到機(jī)器翻譯的語(yǔ)言模型和翻譯解碼過(guò)程中,為用戶提供更好的翻譯輸入體驗(yàn),可以在用戶無(wú)輸入,輸入部分字母或者單詞以及選擇候選之后分別給出針對(duì)性的智能提示,加快了翻譯的速度,又給出了更好的翻譯建議,其加快了多語(yǔ)翻譯的速度,用戶體驗(yàn)非常好,并且學(xué)習(xí)翻譯智能化程度高,從而進(jìn)一步提高翻譯準(zhǔn)確度。


以下,結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施例,其中圖I為本發(fā)明的多語(yǔ)機(jī)器翻譯智能輔助處理方法一實(shí)施例的流程圖;圖2為本發(fā)明實(shí)施例的多語(yǔ)機(jī)器翻譯智能輔助處理系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面結(jié)合說(shuō)明書附圖,對(duì)本發(fā)明多語(yǔ)機(jī)器翻譯智能輔助處理方法和系統(tǒng)的具體實(shí)施方式
進(jìn)行說(shuō)明。本發(fā)明實(shí)施例中,以漢-英或者英-漢機(jī)器翻譯為例,對(duì)本發(fā)明實(shí)施例的多語(yǔ)機(jī)器翻譯智能輔助處理方法和系統(tǒng)進(jìn)行詳細(xì)說(shuō)明,但應(yīng)當(dāng)理解的是,本發(fā)明同樣適用于多種語(yǔ)言之間的機(jī)器翻譯,本發(fā)明請(qǐng)求保護(hù)的范圍以權(quán)利要求書所請(qǐng)求保護(hù)的范圍為準(zhǔn),并不限于漢-英或者英-漢兩種語(yǔ)言的機(jī)器翻譯,亦不限于兩種語(yǔ)言之間的機(jī)器翻譯。本發(fā)明實(shí)施例的多語(yǔ)機(jī)器翻譯智能輔助處理方法,通過(guò)支持翻譯的英漢、漢英雙語(yǔ)輸入法智能輔助處理,解決計(jì)算機(jī)機(jī)器輔助翻譯過(guò)程中所存在的問(wèn)題和不足。本發(fā)明實(shí)施例的多語(yǔ)機(jī)器翻譯智能輔助處理方法,如圖I所示,包括如下步驟步驟S100,根據(jù)源語(yǔ)言和已翻譯目標(biāo)語(yǔ)言獲取源語(yǔ)言已翻譯的區(qū)間,對(duì)源語(yǔ)言未翻譯的區(qū)間進(jìn)行擴(kuò)展;作為一種可實(shí)施方式,在步驟SlOO包括如下步驟步驟S110,設(shè)已翻譯目標(biāo)語(yǔ)言集E=ei. . . effl(m>=l),則確定一個(gè)E的劃分S: {(a, b) I l=〈a〈=b〈=m},對(duì)于任意的一個(gè)元素(a, b)屬于S,計(jì)算確定一個(gè)源語(yǔ)言集對(duì)應(yīng)的區(qū)間(a’,b’)的集合T,得到已翻譯源語(yǔ)言區(qū)間集合。本發(fā)明實(shí)施例中,通過(guò)枚舉E的所有可能的劃分,即可以得所有合理的T的集合。
本發(fā)明實(shí)施例多語(yǔ)機(jī)器翻譯智能輔助處理過(guò)程中,需要確定目標(biāo)語(yǔ)言的某一個(gè)區(qū)間是由源語(yǔ)言的哪一個(gè)區(qū)間翻譯過(guò)去的,并在確定了源語(yǔ)言已翻譯的區(qū)間后進(jìn)行之后的翻譯擴(kuò)展,得到源語(yǔ)言未翻譯的區(qū)間。由于已翻譯得到的目標(biāo)語(yǔ)言,可能是用戶輸入翻譯的;或者可能是用戶從目標(biāo)語(yǔ)言候選集中選擇的;或者可能是用戶先從目標(biāo)語(yǔ)言候選集中進(jìn)行選擇,再進(jìn)行翻譯調(diào)整得至IJ。因此,它們對(duì)應(yīng)的源語(yǔ)言區(qū)間也不是確定的。而且用戶輸入的行為又多變,翻譯的順序也不一定是從第一個(gè)短語(yǔ)開(kāi)始翻譯,因此,為了保持翻譯提示的過(guò)程的一致性,本發(fā)明實(shí)施例中,需要確定源語(yǔ)言已翻譯區(qū)間。較佳地,作為一種可實(shí)施方式,步驟S110,根據(jù)源語(yǔ)言和已翻譯目標(biāo)語(yǔ)言獲取源語(yǔ)言已翻譯的區(qū)間,包括如下步驟步驟S111,設(shè)源語(yǔ)言的詞序列為C1. . . Cn ;目標(biāo)語(yǔ)言已翻譯的詞序列為ei. . . em,其中,n、m為整數(shù); 步驟S112,枚舉區(qū)間[l,m]的所有可能劃分,得到集合S ;步驟S113,根據(jù)已翻譯源語(yǔ)言從語(yǔ)言模型集中檢索獲取所有可能的候選目標(biāo)翻譯語(yǔ)目短語(yǔ)集合P ;其中,所述語(yǔ)言模型集(也稱為短語(yǔ)模型集)是根據(jù)大規(guī)模的訓(xùn)練語(yǔ)料訓(xùn)練得到的多語(yǔ)機(jī)器翻譯的語(yǔ)言模型集。所述大規(guī)模的訓(xùn)練語(yǔ)料可以通過(guò)購(gòu)買和網(wǎng)絡(luò)挖掘得到,例如互譯的漢英句對(duì)等。作為一種可實(shí)施方式,所述語(yǔ)言模型集可以由統(tǒng)計(jì)機(jī)器翻譯工具包Moses訓(xùn)練出語(yǔ)言模型而得到。訓(xùn)練語(yǔ)言模型是統(tǒng)計(jì)機(jī)器翻譯模型中最為成熟的模型之一,語(yǔ)言模型以雙語(yǔ)短語(yǔ)為基本的建模單元。從語(yǔ)言模型集中檢索獲取所有可能的候選目標(biāo)翻譯語(yǔ)言短語(yǔ)是一種現(xiàn)有技術(shù),因此,在本發(fā)明實(shí)施例中,不再詳細(xì)描述。本發(fā)明實(shí)施例中,較佳地,作為一種可實(shí)施方式,所述訓(xùn)練語(yǔ)言模型集采用判別式模型進(jìn)行訓(xùn)練,可以融合自定義的特征,使得語(yǔ)言模型可以更方便的擴(kuò)展,大大提高了模型的適應(yīng)性。步驟SI 14,對(duì)于集合S中的每一個(gè)可能劃分S,設(shè)置一個(gè)臨時(shí)的集合D,對(duì)于劃分s中的任意一個(gè)元素[a, b], l=〈a〈=b〈=m ;步驟SI 15,對(duì)于P中的任意一個(gè)原始元素p,查找與ea. . . eb最相似的類似元素P* ;如果目標(biāo)語(yǔ)言(a,b)區(qū)間對(duì)應(yīng)的串ea. . . eb,與源語(yǔ)言區(qū)間(a’,b’)的對(duì)應(yīng)的候選目標(biāo)語(yǔ)言翻譯短語(yǔ)集中某一個(gè)最相似,即認(rèn)為這兩個(gè)區(qū)間對(duì)應(yīng);作為一種可實(shí)施方式,所述相似度計(jì)算的方法為最小編輯距離計(jì)算方法。步驟S116,根據(jù)類似元素P*,查找到類似元素P*對(duì)應(yīng)的源語(yǔ)言的區(qū)間d,將d加入到D中;步驟S117,判斷D是否有重疊元素,如無(wú),則將D加入到已翻譯源語(yǔ)言區(qū)間集合T中,直至S中所有元素的劃分完成。步驟S120,將集合T的每一個(gè)區(qū)間序列作為一個(gè)實(shí)例采用語(yǔ)言模型解碼方法采用不同的短語(yǔ)特征對(duì)對(duì)應(yīng)的源語(yǔ)言未翻譯的區(qū)間進(jìn)行擴(kuò)展。所述語(yǔ)言模型解碼方法采用短語(yǔ)特征進(jìn)行擴(kuò)展是一種現(xiàn)有技術(shù),因此,在本發(fā)明實(shí)施例中,不再詳細(xì)描述。作為一種可實(shí)施方式,本發(fā)明的語(yǔ)言模型解碼方法進(jìn)行擴(kuò)展采用的特征包括但不限于正向短語(yǔ)翻譯概率,正向短語(yǔ)詞匯化翻譯概率,逆向短語(yǔ)翻譯概率,逆向短語(yǔ)詞匯化翻譯概率,短語(yǔ)長(zhǎng)度,詞長(zhǎng)度,調(diào)序的距離,雙向單調(diào)、交換、不連續(xù)(MSD)調(diào)序,語(yǔ)言模型,用戶歷史命中次數(shù)及其組合等特征。本發(fā)明實(shí)施例中,通過(guò)采用語(yǔ)言模型集,使用了跟用戶輸入歷史有關(guān)的特征等進(jìn)行擴(kuò)展,增加了機(jī)器翻譯的智能性,使得機(jī)器翻譯時(shí)的擴(kuò)展更具有針對(duì)性。步驟S200,根據(jù)源語(yǔ)言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集;并根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯的目標(biāo)語(yǔ)言生成輸入歷史提示集和語(yǔ)言模型提示集;較佳地,作為一種可實(shí)施方式,所述輸入歷史提示集、語(yǔ)言模型提示集、以及K-best提示集的字段格式相同,均為{提示的字符串;該字符串對(duì)應(yīng)的概率;提示的類型}。 其中,類型O表示輸入歷史提示;類型I表示語(yǔ)言模型提示;類型2表示K-best提示;類型3表示輸出歷史中的動(dòng)作類型為刪除詞的提示。較佳地,作為一種可實(shí)施方式,所述步驟S200中,根據(jù)源語(yǔ)言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集,包括如下步驟步驟S210,根據(jù)未翻譯的區(qū)間擴(kuò)展,獲取源語(yǔ)言未翻譯的區(qū)間對(duì)應(yīng)的翻譯結(jié)果中前K個(gè)最好的結(jié)果(K-best),其中,K為大于等于O的整數(shù);步驟S220,將前K個(gè)最好的結(jié)果作為K-best提示集中的提示的字符串,并計(jì)算所述K個(gè)K-best提示集中的提示的字符串對(duì)應(yīng)的概率,將提示的類型設(shè)置為2,生成K-best提示集。較佳地,所述K-best集合合并采用的是最長(zhǎng)公共前綴分組合并的方法,分組后的最長(zhǎng)公共前綴概率作為K-best提示集中的每一字符串對(duì)應(yīng)的概率,該分組后的最長(zhǎng)公共前綴概率采用了組內(nèi)平均的方式進(jìn)行計(jì)算。即前K個(gè)最好的結(jié)果(K-best)采用最長(zhǎng)公共前綴的方式進(jìn)行分組,不同的前綴集合即為合并結(jié)果,計(jì)算得到合并后的概率,作為所有相同前綴的串的概率平均。較佳地,作為一種可實(shí)施方式,所述步驟S200中,根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯目標(biāo)語(yǔ)言,生成輸入歷史提示集,是根據(jù)源語(yǔ)言未翻譯的區(qū)間,利用用戶輸入歷史集,生成輸入歷史提示集。用戶輸入歷史集,是利用在多語(yǔ)翻譯過(guò)程中,對(duì)從源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯過(guò)程中,用戶輸入或者選擇動(dòng)作的特征,生成的用戶輸入歷史記錄集合。其跟不同用戶的輸入和翻譯風(fēng)格有關(guān)。其中,作為一種可實(shí)施方式,所述用戶輸入歷史記錄的字段為{編號(hào);已輸入的目標(biāo)語(yǔ)言的后η個(gè)詞(previous_n_word) ;n為整數(shù),與所用的語(yǔ)言模型相對(duì)應(yīng);已輸入的目標(biāo)語(yǔ)言的后η個(gè)詞(previous_n_word)所對(duì)應(yīng)的源語(yǔ)言片段集{correlation_source_word};用戶輸入的動(dòng)作(action);用戶輸入的動(dòng)作所對(duì)應(yīng)的詞(action_word);累計(jì)出現(xiàn)的次數(shù)}其中用戶輸入的動(dòng)作(action)集合為{選擇提示;不選擇提示,直接輸入;插入詞;刪除詞};用戶輸入的動(dòng)作(action)所對(duì)應(yīng)的詞(action_word)為{“選擇提示”的action_word為選擇提示的內(nèi)容;“不選擇提示,直接輸入”的acti0n_W0rd為新輸入的詞;“插入詞”的acti0n_W0rd為當(dāng)前插入的內(nèi)容;“刪除詞”為刪除的內(nèi)容}累計(jì)出現(xiàn)的次數(shù)是當(dāng)“已輸入的目標(biāo)語(yǔ)言的后η個(gè)詞(preViOUS_n_WOrd) ”;“已輸入的目標(biāo)語(yǔ)言的后η個(gè)詞(previous_n_word)所對(duì)應(yīng)的源語(yǔ)言片段集{correlation_source_word} ” ;“用戶輸入的動(dòng)作(action)” ;“用戶輸入的動(dòng)作所對(duì)應(yīng)的詞(action_word) ”字段相同的時(shí)候,不重復(fù)插入,而是計(jì)數(shù)加I。較佳地,作為一種可實(shí)施方式,所述步驟S200中,根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯目標(biāo)語(yǔ)言,利用用戶輸入歷史集,生成輸入歷史提示集,包括如下步驟步驟S211’,初始化候選的輸入歷史提示集為空,根據(jù)源語(yǔ)言未翻譯的區(qū)間,獲得源語(yǔ)言未翻譯的區(qū)間中已輸入的字符串的后η個(gè)詞previous_n_word, η為整數(shù),η與所用的語(yǔ)言模型相對(duì)應(yīng);步驟S212’,將源語(yǔ)言未翻譯的區(qū)間全切分,得到不同的源語(yǔ)言片段,并根據(jù)源語(yǔ)言片段從語(yǔ)言模型集中檢索獲取對(duì)應(yīng)的所有可能的候選目標(biāo)翻譯語(yǔ)言的短語(yǔ)作為源語(yǔ)言片段對(duì)應(yīng)的候選短語(yǔ)集S ;步驟S213’,根據(jù)η個(gè)詞previous_n_word和所述源語(yǔ)言片段對(duì)應(yīng)的候選短語(yǔ)集,通過(guò)最小編輯距離算法,計(jì)算相似度,相似度大于等于閾值KT的詞作為候選的源語(yǔ)言集合{source_word};步驟S214’,根據(jù)previous_n_word和{source_word}查詢用戶輸入歷史集,并將查詢結(jié)果加入候選的輸入歷史提示集,其中對(duì)于action為〃選擇提示",直接將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為O ;對(duì)于action為〃插入〃,將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為O ;對(duì)于action為”不選擇提示”,將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為O ;對(duì)于action為“刪除”的,將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為3 ;步驟S215’,根據(jù)出現(xiàn)次數(shù)的多少,將候選的輸入歷史提示集中的前K’個(gè)作為結(jié)果作為輸入歷史提示集中的提示的字符串,并計(jì)算所述K’個(gè)輸入歷史提示集中的提示的字符串對(duì)應(yīng)的概率,以及對(duì)應(yīng)的提示的類型,生成輸入歷史提示集;其中,K’為大于等于I的整數(shù)。較佳地,作為一種可實(shí)施方式,對(duì)于用戶輸入歷史集生成的輸入歷史提示集而言,所述K’個(gè)輸入歷史提示集中的提示的字符串對(duì)應(yīng)的概率為
權(quán)利要求
1.一種多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,包括如下步驟 步驟S100,根據(jù)源語(yǔ)言和已翻譯目標(biāo)語(yǔ)言獲取源語(yǔ)言已翻譯的區(qū)間,對(duì)源語(yǔ)言未翻譯的區(qū)間進(jìn)行擴(kuò)展; 步驟S200,根據(jù)源語(yǔ)言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集;并根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯目標(biāo)語(yǔ)言生成輸入歷史提示集和語(yǔ)言模型提示集; 步驟S300,結(jié)合輸入歷史提示集、語(yǔ)言模型提示集、以及K-best提示集,生成所述源語(yǔ)言未翻譯源區(qū)間對(duì)應(yīng)的目標(biāo)語(yǔ)言的候選集。
2.根據(jù)權(quán)利要求I所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,所述步驟S300之后還包括如下步驟 步驟S400,顯示所述目標(biāo)語(yǔ)言的候選集,等待用戶輸入或者選擇,并在捕捉到用戶輸入或者選擇動(dòng)作后,得到未翻譯源語(yǔ)言翻譯對(duì)應(yīng)的目標(biāo)語(yǔ)言,返回到步驟SlOO重新進(jìn)行未翻譯源語(yǔ)言翻譯,直至翻譯完成。
3.根據(jù)權(quán)利要求I或2所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,所述步驟SlOO包括如下步驟 步驟SI 10,設(shè)已翻譯目標(biāo)語(yǔ)言集Eze1. . . em(m>=l),則確定一個(gè)E的劃分S: {(a, b) I l=〈a〈=b〈=m},對(duì)于任意的一個(gè)元素(a, b)屬于S,計(jì)算確定一個(gè)源語(yǔ)言集對(duì)應(yīng)的區(qū)間(a’,b’)的集合T,得到已翻譯源語(yǔ)言區(qū)間集合; 步驟S120,將集合T的每一個(gè)區(qū)間序列作為一個(gè)實(shí)例采用語(yǔ)言模型解碼方法采用不同的短語(yǔ)特征對(duì)對(duì)應(yīng)的源語(yǔ)言未翻譯的區(qū)間進(jìn)行擴(kuò)展。
4.根據(jù)權(quán)利要求3所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,所述步驟SllO包括如下步驟 步驟SI 11,設(shè)源語(yǔ)言的詞序列為C1. . . Cn ;目標(biāo)語(yǔ)言已翻譯的詞序列為ep . . em,其中,n、m為整數(shù); 步驟S112,枚舉區(qū)間[l,m]的所有可能劃分,得到集合S ; 步驟S113,根據(jù)已翻譯源語(yǔ)言從語(yǔ)言模型集中檢索獲取所有可能的候選目標(biāo)翻譯語(yǔ)言短語(yǔ)集合P ; 步驟SI 14,對(duì)于集合S中的每一個(gè)可能劃分S,設(shè)置一個(gè)臨時(shí)的集合D,對(duì)于劃分s中的任意一個(gè)元素[a, b], l=〈a〈=b〈=m ; 步驟SI 15,對(duì)于P中的任意一個(gè)原始元素P,查找與ea. . . eb最相似的類似元素p* ; 步驟S116,根據(jù)類似元素p*,查找到類似元素p*對(duì)應(yīng)的源語(yǔ)言的區(qū)間d,將d加入到D中; 步驟S 117,判斷D是否有重疊元素,如無(wú),則將D加入到已翻譯源語(yǔ)言區(qū)間集合T中,直至S中所有元素的劃分完成。
5.根據(jù)權(quán)利要求I或2所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,所述步驟S200中,根據(jù)源語(yǔ)言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集,包括如下步驟 步驟S210,根據(jù)未翻譯的區(qū)間擴(kuò)展,獲取源語(yǔ)言未翻譯的區(qū)間對(duì)應(yīng)的翻譯結(jié)果中前K個(gè)最好的結(jié)果,其中,K為大于等于0的整數(shù); 步驟S220,將前K個(gè)最好的結(jié)果作為K-best提示集中的提示的字符串,并計(jì)算所述K個(gè)K-best提示集中的提示的字符串對(duì)應(yīng)的概率,將提示的類型設(shè)置為2,生成K-best提示集。
6.根據(jù)權(quán)利要求I或2所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,所述步驟S200中,根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯目標(biāo)語(yǔ)言,利用用戶輸入歷史集,生成輸入歷史提示集,包括如下步驟 步驟S211’,初始化候選的輸入歷史提示集為空,根據(jù)源語(yǔ)言未翻譯的區(qū)間,獲得源語(yǔ)言未翻譯的區(qū)間中已輸入的字符串的后n個(gè)詞previous_n_word, n為整數(shù),n與所用的語(yǔ)言模型相對(duì)應(yīng); 步驟S212’,將源語(yǔ)言未翻譯的區(qū)間全切分,得到不同的源語(yǔ)言片段,并根據(jù)源語(yǔ)言片段從語(yǔ)言模型集中檢索獲取對(duì)應(yīng)的所有可能的候選目標(biāo)翻譯語(yǔ)言的短語(yǔ)作為源語(yǔ)言片段對(duì)應(yīng)的候選短語(yǔ)集S ; 步驟S213’,根據(jù)n個(gè)詞previous_n_word和所述源語(yǔ)言片段對(duì)應(yīng)的候選短語(yǔ)集,通過(guò)最小編輯距離算法,計(jì)算相似度,相似度大于等于閾值Kt的詞作為候選的源語(yǔ)言集合{source_word}; 步驟S214’,根據(jù)previous_n_word和{source_word}查詢用戶輸入歷史集,并將查詢結(jié)果加入候選的輸入歷史提示集,其中 對(duì)于action為〃選擇提示",直接將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為0 ; 對(duì)于action為〃插入",將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提不集中,其對(duì)應(yīng)的提不類型為0 ; 對(duì)于action為”不選擇提示”,將對(duì)應(yīng)的action_word和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為0 ; 對(duì)于action為“刪除”的,將對(duì)應(yīng)的acti0n_W0rd和出現(xiàn)的次數(shù)加入到候選的輸入歷史提示集中,其對(duì)應(yīng)的提示類型為3 ; 步驟S215’,根據(jù)出現(xiàn)次數(shù)的多少,將候選的輸入歷史提示集中的前K’個(gè)作為結(jié)果作為輸入歷史提示集中的提示的字符串,并計(jì)算所述K’個(gè)輸入歷史提示集中的提示的字符串對(duì)應(yīng)的概率,以及對(duì)應(yīng)的提示的類型,生成輸入歷史提示集; 其中,K’為大于等于I的整數(shù)。
7.根據(jù)權(quán)利要求I或2所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,所述步驟S200中,根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯目標(biāo)語(yǔ)言,生成語(yǔ)言模型提示集,包括如下步驟 步驟S211”,根據(jù)所獲得的目標(biāo)語(yǔ)言的語(yǔ)料,訓(xùn)練一個(gè)N-Gram語(yǔ)言模型; 步驟S212”,將源語(yǔ)言未翻譯的區(qū)間擴(kuò)展全切分,得到不同的源語(yǔ)言片段,并根據(jù)源語(yǔ)言片段從語(yǔ)言模型集中檢索獲取對(duì)應(yīng)的所有可能的候選目標(biāo)翻譯語(yǔ)言的短語(yǔ)作為源語(yǔ)言片段對(duì)應(yīng)的候選短語(yǔ)集S ; 步驟S213”,對(duì)于短語(yǔ)翻譯候選集合S中的一個(gè)串S,枚舉s的所有前綴,構(gòu)成一個(gè)S的前綴集S_Prefix ; 步驟S214”,根據(jù)用戶已輸入的字符串,從后往前,分別取1-gram, 2-gram,. . . , n-gram的字符串,得到一個(gè)字符串集合T ; 步驟S215”,對(duì)于T中的每一個(gè)串t,在N-Gram語(yǔ)言模型中搜索所有以s為前綴的串,并記錄該串對(duì)應(yīng)的概率,并將搜索到的集合添加到候選提示集T_candidate中; 步驟S216”,對(duì)候選提示集T_candidate中的每一個(gè)串t_c,計(jì)算與前綴集S_Pref ix的距離;其中,所述距離為串t_c與前前綴集S_prefix中的任意一個(gè)串的最大相似度; 步驟S217”,根據(jù)相似度排序,取前K”個(gè)作為候選的結(jié)果;其中,K”為大于等于I的整數(shù); 步驟S218”,對(duì)K”個(gè)候選的結(jié)果的概率做歸一化; 步驟S219”,將前K”個(gè)候選的結(jié)果作為語(yǔ)言模型提示集中的提示的字符串,將相對(duì)應(yīng)的歸一化后的概率作為相應(yīng)的字符串對(duì)應(yīng)的概率,將提示的類型設(shè)置為1,生成語(yǔ)言模型提示集。
8.根據(jù)權(quán)利要求I或2所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,所述步驟S300包括如下步驟 步驟S310,獲得輸入歷史提示集中提示類型為3的所有提示的集合A_delete,剩余的為集合 A_history ; 步驟S320,檢索語(yǔ)目模型提不集,K-best提不集;若語(yǔ)目模型提不集,K_best提不集中的提示在集合A_delete中存在,則將該提示刪除;否則保留; 步驟S330,對(duì)于集語(yǔ)言模型提示集,K-best提示集中的剩下的每個(gè)目標(biāo)語(yǔ)言候選提示,將該每個(gè)目標(biāo)語(yǔ)言候選提示對(duì)應(yīng)的概率分別乘以相應(yīng)的權(quán)重Wa,ffb, Wc,得到最后的概率值,并按最后的概率值大小排序,取前Ntjw個(gè)結(jié)果,作為目標(biāo)語(yǔ)言候選集;其中,Ntjw為大于等于I的整數(shù)。
9.根據(jù)權(quán)利要求8所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,所述步驟S330之后,還包括如下步驟 步驟S340,根據(jù)目標(biāo)語(yǔ)言候選集中對(duì)輸入歷史提示集,語(yǔ)言模型提示集,K-best提示集的中的相應(yīng)字符串的選擇次數(shù),對(duì)權(quán)重系數(shù)Wa,ffb, Wc這三個(gè)系數(shù)進(jìn)行動(dòng)態(tài)調(diào)整。
10.根據(jù)權(quán)利要求9所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,所述步驟S340包括如下步驟 步驟S341,設(shè)目標(biāo)語(yǔ)言候選集選擇輸入歷史提示集中的字符串的總次數(shù)Na,目標(biāo)語(yǔ)言候選集選擇語(yǔ)言模型提示集中的字符串的總次數(shù)是Nb,目標(biāo)語(yǔ)言候選集選擇K-best提示集中的字符串的總次數(shù)是N。,則對(duì)應(yīng)的新的權(quán)重為
11.根據(jù)權(quán)利要求2所述的多語(yǔ)機(jī)器翻譯智能輔助處理方法,其特征在于,所述步驟S400在得到目標(biāo)語(yǔ)言后,返回步驟SlOO前,還包括如下步驟 步驟S400’,記錄用戶的輸入或者選擇動(dòng)作,將用戶的輸入記錄到用戶的輸入歷史集。
12.—種多語(yǔ)機(jī)器翻譯智能輔助處理系統(tǒng),其特征在于,包括擴(kuò)展模塊,提示集生成模塊和候選集生成模塊,其中 所述擴(kuò)展模塊,用于根據(jù)源語(yǔ)言和已翻譯目標(biāo)語(yǔ)言獲取源語(yǔ)言已翻譯的區(qū)間,對(duì)源語(yǔ)言未翻譯的區(qū)間進(jìn)行擴(kuò)展; 所述提示集生成模塊,用于根據(jù)源語(yǔ)言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集;并根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯的目標(biāo)語(yǔ)言生成輸入歷史提示集和語(yǔ)言模型提示集; 所述候選集生成模塊,用于結(jié)合輸入歷史提示集、語(yǔ)言模型提示集、以及K-best提示集,生成所述源語(yǔ)言未翻譯源區(qū)間對(duì)應(yīng)的目標(biāo)語(yǔ)言的候選集。
13.根據(jù)權(quán)利要求12所述的多語(yǔ)機(jī)器翻譯智能輔助處理系統(tǒng),其特征在于,還包括顯示處理模塊,用于顯示所述目標(biāo)語(yǔ)言的候選集,等待用戶輸入或者選擇,并在捕捉到用戶輸入或者選擇動(dòng)作后,得到未翻譯源語(yǔ)言翻譯對(duì)應(yīng)的目標(biāo)語(yǔ)言,返回重新進(jìn)行未翻譯源語(yǔ)言翻譯,直至翻譯完成。
14.根據(jù)權(quán)利要求13所述的多語(yǔ)機(jī)器翻譯智能輔助處理系統(tǒng),其特征在于,還包括記錄模塊,用于記錄用戶的輸入或者選擇動(dòng)作,將用戶的輸入記錄到用戶的輸入歷史集。
全文摘要
本發(fā)明公開(kāi)的一種多語(yǔ)機(jī)器翻譯智能輔助處理方法和系統(tǒng)。其方法包括如下步驟根據(jù)源語(yǔ)言和已翻譯目標(biāo)語(yǔ)言獲取源語(yǔ)言已翻譯的區(qū)間,對(duì)源語(yǔ)言未翻譯的區(qū)間進(jìn)行擴(kuò)展;根據(jù)源語(yǔ)言未翻譯的區(qū)間擴(kuò)展,生成K-best提示集;并根據(jù)源語(yǔ)言未翻譯的區(qū)間和已翻譯目標(biāo)語(yǔ)言生成輸入歷史提示集和語(yǔ)言模型提示集;結(jié)合輸入歷史提示集、語(yǔ)言模型提示集、以及K-best提示集,生成所述源語(yǔ)言未翻譯源區(qū)間對(duì)應(yīng)的目標(biāo)語(yǔ)言的候選集。其加快多語(yǔ)翻譯的速度,用戶體驗(yàn)好,智能化程度高,提高了翻譯準(zhǔn)確度。
文檔編號(hào)G06F17/27GK102968411SQ201210410530
公開(kāi)日2013年3月13日 申請(qǐng)日期2012年10月24日 優(yōu)先權(quán)日2012年10月24日
發(fā)明者滕志揚(yáng), 駱衛(wèi)華, 劉群, 熊皓 申請(qǐng)人:橙譯中科信息技術(shù)(北京)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
象州县| 思南县| 宁晋县| 辽宁省| 佛学| 深泽县| 宁城县| 原平市| 札达县| 湘阴县| 天柱县| 涟水县| 阳原县| 乌苏市| 吉水县| 梧州市| 讷河市| 景洪市| 阿鲁科尔沁旗| 霍州市| 胶南市| 万载县| 富裕县| 冕宁县| 望奎县| 六枝特区| 郴州市| 康保县| 通城县| 台山市| 揭西县| 满城县| 高邮市| 新乡县| 迭部县| 阿克| 芒康县| 肥城市| 绍兴市| 平昌县| 凤凰县|