欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng)的制作方法

文檔序號:11519628閱讀:729來源:國知局
一種多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng)的制造方法與工藝

本發(fā)明涉及人工智能機(jī)器翻譯技術(shù)領(lǐng)域,具體來說,涉及一種多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng)。



背景技術(shù):

機(jī)器翻譯是利用計算機(jī)對人類自然語言進(jìn)行自動翻譯的技術(shù),是利用計算機(jī)把一種自然語言轉(zhuǎn)換成另一種自然語言的過程,而且兩種自然語言在意義上應(yīng)該是等價的。

目前,一種比較成熟而且主流的機(jī)器翻譯方法是基于統(tǒng)計的方法,該方法的優(yōu)點(diǎn)在于幾乎不需要人工撰寫翻譯規(guī)則,所有的翻譯信息都是自動地從語料中學(xué)習(xí)而獲得,因此該方法最大程度地發(fā)揮了計算機(jī)高速運(yùn)算的特點(diǎn),極大地降低了人工成本。

基于統(tǒng)計模型的機(jī)器翻譯技術(shù)從平行語料庫中學(xué)習(xí)從一種語言a到另一種語言b的短語翻譯。在翻譯新的句子時,把輸入語言a的句子分解成若干短語,根據(jù)學(xué)習(xí)來的短語(a語言)-短語(b語言)的共現(xiàn)概率,把語言a的句子翻譯成語言b的句子。整個學(xué)習(xí)、翻譯過程完全根據(jù)統(tǒng)計模型。

但是,這種根據(jù)共現(xiàn)頻度,概率方法的機(jī)器翻譯對于小概率短語(例如專有名詞翻譯)處理能力不足,另外,如何在統(tǒng)計模型中加入語法語義的表達(dá),使得生成的翻譯句子更加符合人的表達(dá)習(xí)慣,也是目前機(jī)器翻譯技術(shù)需要解決的問題。



技術(shù)實(shí)現(xiàn)要素:

針對相關(guān)技術(shù)中的上述技術(shù)問題,本發(fā)明提出一種多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng),能夠克服現(xiàn)有技術(shù)的上述不足。

為實(shí)現(xiàn)上述技術(shù)目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:

一種多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng),包括:

接收模塊,所述接收模塊用于對系統(tǒng)輸入的規(guī)范性進(jìn)行檢查,所述接收模塊包括文本語言接收模塊和語音識別結(jié)果接收模塊;其中文本語言接收模塊用于對文本語言進(jìn)行句子分割和格式轉(zhuǎn)換,語音識別結(jié)果接收模塊用于對語音進(jìn)行分割、噪音消除和格式轉(zhuǎn)換;

預(yù)處理模塊,所述預(yù)處理模塊包括文本預(yù)處理模塊和語音識別結(jié)果預(yù)處理模塊,所述文本預(yù)處理模塊用于對文本輸入的語言進(jìn)行單詞規(guī)范化操作、類別識別標(biāo)注及語塊語序調(diào)整;所述語音識別結(jié)果預(yù)處理模塊用于對語音進(jìn)行單詞規(guī)范化操作和標(biāo)點(diǎn)預(yù)測;

機(jī)器翻譯模塊,所述機(jī)器翻譯模塊用于學(xué)習(xí)短語對短語的翻譯,并對經(jīng)過預(yù)處理模塊處理的短語找出對應(yīng)的翻譯短語,以及生成完整的句子;

后處理模塊,所述后處理模塊用于對翻譯結(jié)果做單詞標(biāo)點(diǎn)規(guī)范化、大小寫規(guī)范化和格式規(guī)范化處理,使其更加接近目標(biāo)語言的表達(dá)習(xí)慣,并作為最終結(jié)果輸出。

進(jìn)一步的,所述文本語言接收模塊包括句子分割模塊和格式轉(zhuǎn)換模塊,所述句子分割模塊用于把輸入文本在標(biāo)點(diǎn)符號處斷開,使得后續(xù)機(jī)器翻譯模塊翻譯的基本單元為一句話;所述格式轉(zhuǎn)換模塊用于把語言文本的不同格式轉(zhuǎn)換為機(jī)器翻譯模塊翻譯時支持格式。

優(yōu)選的,所述機(jī)器翻譯模塊翻譯時支持格式是純文本格式或xml格式。

進(jìn)一步的,所述語音識別結(jié)果接收模塊包括句子分割模塊和噪音消除模塊,所述句子分割模塊用于對輸入的語音文本流根據(jù)詞與詞之間的停頓斷句;所述噪音消除模塊用于清除掉輸入中口語話文本流中相鄰重復(fù)的片段。

進(jìn)一步的,所述文本預(yù)處理模塊包括單詞規(guī)范化模塊、類別識別標(biāo)注模塊和語塊語序調(diào)整模塊,所述單詞規(guī)范化模塊用于使待翻譯語言在詞語層面上更加接近目標(biāo)語言;所述類別識別標(biāo)注模塊用于對待翻譯語言文本中的數(shù)字、日期、時間、url分別標(biāo)注為$number,$date,$hour和$www,并預(yù)先將類別中的內(nèi)容翻譯成目標(biāo)語言;所述語塊語序調(diào)整模塊用于對待翻譯語言的句子進(jìn)行語法分析,然后依據(jù)自動學(xué)習(xí)的規(guī)則對待翻譯語言的語塊順序進(jìn)行調(diào)整,使得待翻譯語言的語序更加接近目標(biāo)語言的語序。

進(jìn)一步的,所述的語音識別結(jié)果預(yù)處理模塊包括單詞規(guī)范化模塊和標(biāo)點(diǎn)預(yù)測模塊,所述單詞規(guī)范化模塊用于使待翻譯語言中的詞語顆粒更加接近目標(biāo)語言的詞語;所述標(biāo)點(diǎn)預(yù)測模塊用于根據(jù)上下文和詞語間的停頓判斷語音識別輸出中句號的位置;所述的語音識別結(jié)果預(yù)處理模塊對于語音識別結(jié)果可接收的模式為純文本和混淆網(wǎng)絡(luò)。

進(jìn)一步的,所述機(jī)器翻譯模塊包括訓(xùn)練模塊和翻譯模塊,所述的訓(xùn)練模塊利用giza++工具包在大規(guī)模平衡語料庫中學(xué)習(xí)短語對短語的翻譯;所述翻譯模塊用于對每個輸入進(jìn)來的句子,分割成短語片段,對每個短語片段根據(jù)訓(xùn)練模塊的訓(xùn)練結(jié)果進(jìn)行翻譯,所述翻譯模塊的翻譯過程是一個搜索過程,即從每一個翻譯子模型的翻譯結(jié)果組成的翻譯組合中找出最優(yōu)的翻譯組合,所述最優(yōu)的翻譯組合即為最終的翻譯結(jié)果。

優(yōu)選的,所述的翻譯子模型包括短語翻譯模型,語言模型,語序改變模型,基于詞性的語言模型,雙語語言模型和領(lǐng)域自適應(yīng)模型。

進(jìn)一步的,所述的后處理模塊包括單詞標(biāo)點(diǎn)規(guī)范化模塊、大小寫轉(zhuǎn)換模塊和格式轉(zhuǎn)換模塊,所述單詞標(biāo)點(diǎn)規(guī)范化模塊用于把機(jī)器翻譯結(jié)果中的單詞和標(biāo)點(diǎn)規(guī)范化為目標(biāo)語言的表現(xiàn)形式;所述大小寫轉(zhuǎn)換模塊用于以西語作為目標(biāo)語言的翻譯;格式轉(zhuǎn)換模塊用于將翻譯的目標(biāo)語言的格式與待翻譯語言的格式一致。

優(yōu)選的,所述大小寫轉(zhuǎn)換模塊用于將目標(biāo)語言中的首字母和專有名詞的字母改為大寫形式。

本發(fā)明的有益效果:本發(fā)明的機(jī)器翻譯系統(tǒng),能夠把一種語言的句子,篇章實(shí)時翻譯成另一種語言,該系統(tǒng)能夠翻譯句子完整,表達(dá)正確,帶有標(biāo)點(diǎn)符號的文本語言,也能翻譯沒有段落分割,句子可能不完整,沒有標(biāo)點(diǎn)符號,句子里有噪音的語音;本發(fā)明提高了對小概率詞語、短語的翻譯準(zhǔn)確度,即將數(shù)字、日期、時間、url等小概率詞語分別標(biāo)注并優(yōu)先翻譯;本發(fā)明的預(yù)處理模塊能夠?qū)斎氲木渥舆M(jìn)行規(guī)范化處理;本發(fā)明的后處理模塊能夠提高翻譯結(jié)果的流暢度。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1是根據(jù)本發(fā)明實(shí)施例所述的多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng)的翻譯流程圖;

圖2是根據(jù)本發(fā)明實(shí)施例所述的多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng)的文本接收模塊的示意圖;

圖3是根據(jù)本發(fā)明實(shí)施例所述的多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng)的語音識別結(jié)果接收模塊的示意圖;

圖4是根據(jù)本發(fā)明實(shí)施例所述的多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng)的文本預(yù)處理模塊的示意圖;

圖5是根據(jù)本發(fā)明實(shí)施例所述的多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng)的語音識別結(jié)果預(yù)處理模塊的示意圖;

圖6是根據(jù)本發(fā)明實(shí)施例所述的多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng)的機(jī)器翻譯模塊的示意圖;

圖7是根據(jù)本發(fā)明實(shí)施例所述的多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng)的后處理模塊的示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

如圖1-7所示,根據(jù)本發(fā)明實(shí)施例所述的一種多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng),包括:

接收模塊,所述接收模塊用于對系統(tǒng)輸入的規(guī)范性進(jìn)行檢查,所述接收模塊包括文本語言接收模塊和語音識別結(jié)果接收模塊;其中文本語言接收模塊用于對文本語言進(jìn)行句子分割和格式轉(zhuǎn)換,語音識別結(jié)果接收模塊用于對語音進(jìn)行分割、噪音消除和格式轉(zhuǎn)換;

預(yù)處理模塊,所述預(yù)處理模塊包括文本預(yù)處理模塊和語音識別結(jié)果預(yù)處理模塊,所述文本預(yù)處理模塊用于對文本輸入的語言進(jìn)行單詞規(guī)范化操作、類別識別標(biāo)注及語塊語序調(diào)整;所述語音識別結(jié)果預(yù)處理模塊用于對語音進(jìn)行單詞規(guī)范化操作和標(biāo)點(diǎn)預(yù)測;

機(jī)器翻譯模塊,所述機(jī)器翻譯模塊用于學(xué)習(xí)短語對短語的翻譯,并對經(jīng)過預(yù)處理模塊處理的短語找出對應(yīng)的翻譯短語,以及生成完整的句子;

后處理模塊,所述后處理模塊用于對翻譯結(jié)果做單詞標(biāo)點(diǎn)規(guī)范化、大小寫規(guī)范化和格式規(guī)范化處理,使其更加接近目標(biāo)語言的表達(dá)習(xí)慣,并作為最終結(jié)果輸出。

在一具體實(shí)施例中,所述文本語言接收模塊包括句子分割模塊和格式轉(zhuǎn)換模塊,所述句子分割模塊用于把輸入文本在標(biāo)點(diǎn)符號處斷開,使得后續(xù)機(jī)器翻譯模塊翻譯的基本單元為一句話;所述格式轉(zhuǎn)換模塊用于把語言文本的不同格式轉(zhuǎn)換為機(jī)器翻譯模塊翻譯時支持格式。

在一具體實(shí)施例中,所述機(jī)器翻譯模塊翻譯時支持格式是純文本格式或xml格式。

在一具體實(shí)施例中,所述語音識別結(jié)果接收模塊包括句子分割模塊和噪音消除模塊,所述句子分割模塊用于對輸入的語音文本流根據(jù)詞與詞之間的停頓斷句;所述噪音消除模塊用于清除掉輸入中口語話文本流中相鄰重復(fù)的片段。

在一具體實(shí)施例中,所述文本預(yù)處理模塊包括單詞規(guī)范化模塊、類別識別標(biāo)注模塊和語塊語序調(diào)整模塊,所述單詞規(guī)范化模塊用于使待翻譯語言在詞語層面上更加接近目標(biāo)語言;所述類別識別標(biāo)注模塊用于對待翻譯語言文本中的數(shù)字、日期、時間、url分別標(biāo)注為$number,$date,$hour和$www,并預(yù)先將類別中的內(nèi)容翻譯成目標(biāo)語言;所述語塊語序調(diào)整模塊用于對待翻譯語言的句子進(jìn)行語法分析,然后依據(jù)自動學(xué)習(xí)的規(guī)則對待翻譯語言的語塊順序進(jìn)行調(diào)整,使得待翻譯語言的語序更加接近目標(biāo)語言的語序。

在一具體實(shí)施例中,所述的語音識別結(jié)果預(yù)處理模塊包括單詞規(guī)范化模塊和標(biāo)點(diǎn)預(yù)測模塊,所述單詞規(guī)范化模塊用于使待翻譯語言中的詞語顆粒更加接近目標(biāo)語言的詞語;所述標(biāo)點(diǎn)預(yù)測模塊用于根據(jù)上下文和詞語間的停頓判斷語音識別輸出中句號的位置;所述的語音識別結(jié)果預(yù)處理模塊對于語音識別結(jié)果可接收的模式為純文本和混淆網(wǎng)絡(luò)。

在一具體實(shí)施例中,所述機(jī)器翻譯模塊包括訓(xùn)練模塊和翻譯模塊,所述的訓(xùn)練模塊利用giza++工具包在大規(guī)模平衡語料庫中學(xué)習(xí)短語對短語的翻譯;所述翻譯模塊用于對每個輸入進(jìn)來的句子,分割成短語片段,對每個短語片段根據(jù)訓(xùn)練模塊的訓(xùn)練結(jié)果進(jìn)行翻譯,所述翻譯模塊的翻譯過程是一個搜索過程,即從每一個翻譯子模型的翻譯結(jié)果組成的翻譯組合中找出最優(yōu)的翻譯組合,所述最優(yōu)的翻譯組合即為最終的翻譯結(jié)果。

在一具體實(shí)施例中,所述的翻譯子模型包括短語翻譯模型,語言模型,語序改變模型,基于詞性的語言模型,雙語語言模型和領(lǐng)域自適應(yīng)模型。

在一具體實(shí)施例中,所述的后處理模塊包括單詞標(biāo)點(diǎn)規(guī)范化模塊、大小寫轉(zhuǎn)換模塊和格式轉(zhuǎn)換模塊,所述單詞標(biāo)點(diǎn)規(guī)范化模塊用于把機(jī)器翻譯結(jié)果中的單詞和標(biāo)點(diǎn)規(guī)范化為目標(biāo)語言的表現(xiàn)形式;所述大小寫轉(zhuǎn)換模塊用于以西語作為目標(biāo)語言的翻譯;格式轉(zhuǎn)換模塊用于將翻譯的目標(biāo)語言的格式與待翻譯語言的格式一致。

在一具體實(shí)施例中,所述大小寫轉(zhuǎn)換模塊用于將目標(biāo)語言中的首字母和專有名詞的字母改為大寫形式。

為了方便理解本發(fā)明的上述技術(shù)方案,以下通過具體使用方式上對本發(fā)明的上述技術(shù)方案進(jìn)行詳細(xì)說明。

在具體使用時,根據(jù)本發(fā)明所述的一種多語言智能預(yù)處理實(shí)時統(tǒng)計機(jī)器翻譯系統(tǒng),包括接收模塊、預(yù)處理模塊、翻譯模塊和后處理模塊;

接收模塊對于系統(tǒng)輸入的規(guī)范性進(jìn)行檢查,包括文本語言接收模塊和語音識別結(jié)果接收模塊;文本語言的接收模塊主要由兩部分組成,如附圖中圖2所示:句子分割模塊和格式轉(zhuǎn)換模塊。a.1句子分割模塊把輸入文本在標(biāo)點(diǎn)符號句號,問號,感嘆號處斷開,使得后續(xù)機(jī)器翻譯模塊翻譯的基本單元為句子,當(dāng)輸入文本中包含有html標(biāo)記時,一對html標(biāo)記之間的內(nèi)容單獨(dú)成句,以保證其作為完整的句子加以翻譯,而不是作為html標(biāo)記外文本的一部分加以翻譯,流程的后續(xù)模塊支持純文本和xml格式文本的翻譯。當(dāng)輸入文本為其他格式,比如pdf或圖片時,a.2格式轉(zhuǎn)換模塊把其他格式轉(zhuǎn)換成純文本和xml格式。語音識別結(jié)果接收模塊也主要由兩部分組成,如附圖中圖3所示:句子分割模塊和噪音消除模塊。a.3句子分割模塊把輸入的文本流根據(jù)詞與詞之間的停頓斷句,當(dāng)停頓大于0.5s時,認(rèn)為在該停頓之后新開始一個句子,a.4噪音消除模塊的功能是清除掉輸入中口語話文本流中相鄰重復(fù)的片段,例如把“嗯嗯”簡化成“嗯”;“也就是說也就是說我們必須…”簡化成“也就是說我們必須…”,機(jī)器翻譯系統(tǒng)后續(xù)模塊對于語音識別結(jié)果可接收的模式為純文本和混淆網(wǎng)絡(luò)。

預(yù)處理模塊對輸入語言a進(jìn)行若干操作,使得其更加接近翻譯目標(biāo)語言b,以便后續(xù)的機(jī)器翻譯模塊取得更好的翻譯質(zhì)量。預(yù)處理模塊包括文本預(yù)處理模塊和語音識別結(jié)果預(yù)處理模塊。文本預(yù)處理模塊主要由三部分組成,如附圖中圖4所示。b.1單詞規(guī)范化模塊使得源語言a在詞語層面上更加接近目標(biāo)語言b。比如進(jìn)行中-英翻譯時,中文要進(jìn)行分詞,在詞語間插入空格。進(jìn)行德-英翻譯時,要對德語中的復(fù)合詞進(jìn)行拆分,增加德英句子中詞語一對一的對應(yīng)關(guān)系。b.2類別識別標(biāo)注模塊把源語言a中的數(shù)字、日期、時間、url分別標(biāo)注為對應(yīng)的類別$number,$date,$hour和$www。類別內(nèi)的內(nèi)容由規(guī)則預(yù)先翻譯成目標(biāo)語言b。后續(xù)的機(jī)器翻譯模塊不再對其進(jìn)行翻譯。b.3語塊語序調(diào)整模塊首先對源語言a的句子進(jìn)行語法分析:進(jìn)行短語的自動識別或語法樹生成。然后依據(jù)自動學(xué)習(xí)的規(guī)則(基于短語的)對源語言的語塊順序進(jìn)行調(diào)整,使得源語言的語序更加接近目標(biāo)語言。調(diào)整語序后的句子可以以最優(yōu)語序輸出,也可以把若干個較優(yōu)語序以字格(lattice)形式輸出。該模塊為一個可選的模塊,根據(jù)源語言是否具備性能良好的語法分析器等來決定是否開啟該模塊。語音識別結(jié)果預(yù)處理模塊由兩部分組成,如附圖中圖5所示。b.4單詞規(guī)范化模塊和和b.1單詞規(guī)范化模塊相似,也是在源語言的詞語層面上使a語言句子中的詞語顆粒更加接近目標(biāo)語言b的詞語。b.5標(biāo)點(diǎn)預(yù)測模塊根據(jù)上下文和詞語間的停頓預(yù)測語音識別輸出中的句號位置。該子模塊為一可選模塊,主要用于比較接近書面語的語音識別翻譯中,例如演講的翻譯。

其中,b.2類別識別標(biāo)注是基于雙語的半自動類別識別和翻譯。所謂半自動是指在雙語中在源語言上以人工的方式定義出需要識別的類別;然后根據(jù)平衡語料庫和詞語比對(wordalignment)自動學(xué)習(xí)出在另一種語言中對應(yīng)需要的類別和類別的翻譯。以英中翻譯為例,首先在英文上定義出需要識別的類別$number,$date,$hour,$www.每個類別的內(nèi)容可以包含若干的詞。然后在中文上識別出所有的數(shù)字,標(biāo)記為$bnumber,以及和萬維網(wǎng)相關(guān)的詞www,http,.com等,標(biāo)記為$bwww。此處的$bnumber和$bwww為中文中類別的核心。在此核心的基礎(chǔ)上,還要包含進(jìn)前后的詞語,才能構(gòu)成最終和英文中類別相對應(yīng)的中文類別。包涵哪些前后詞語,我們通過詞語比對(wordalignment)自動抽取。在詞語比對中和英文類別邊界詞相對應(yīng)的中文詞,也可能是中文類別的邊界詞語。確定了中文類別的邊界詞語,抽取出來的中文類別內(nèi)容,也就隱含了對應(yīng)的英文類別的中文翻譯。從中學(xué)習(xí)英文類別到中文類別的翻譯規(guī)則,例如:

$number{2個}→$number{2}

$number{2成}→$number{20%}

$number{第2}→$number{2nd}

該種方法提取出的規(guī)則更佳符合數(shù)據(jù)的實(shí)際情況,降低了人工定義的規(guī)則在實(shí)際應(yīng)用中產(chǎn)生的錯誤,和傳統(tǒng)在兩種語言上分別定義類別和規(guī)則相比,提高了效率;而且也不要求規(guī)則制定人同時熟悉兩種語言;還大大降低了在兩種語言上的規(guī)則的不匹配率,從而提高了機(jī)器翻譯質(zhì)量。

b.3語塊語序調(diào)整方法在統(tǒng)計翻譯系統(tǒng)中語序調(diào)整方面加入了語法的限制。當(dāng)一種語言翻譯成另一種語言時,由于語法的不同,表達(dá)習(xí)慣的不同,詞語表達(dá)的順序經(jīng)常有所差別。在完成翻譯時,除了要把詞語或短語翻譯成另一種語言,還要把翻譯的短語放到合適的位置。在統(tǒng)計翻譯系統(tǒng)中,其基本單位-短語-是任意詞串,并不要求其符合語法結(jié)構(gòu)。這導(dǎo)致挪動的語塊再拼接起來經(jīng)常產(chǎn)生很奇怪的翻譯。本發(fā)明在預(yù)處理階段通過淺層句法分析引入了符合語法規(guī)則的短語的信息。在后續(xù)的短語位置挪動步驟,只把符合語法約束的短語進(jìn)行挪動,從而提高了翻譯結(jié)果的正確性和流暢度,其具體步驟為:

對源語言進(jìn)行淺層句法分析,生成np(名詞短語)、vp(動詞短語)、pp(介詞短語)等語法信息。

通過詞語比對(wordalignment)學(xué)習(xí)詞序調(diào)整規(guī)則,并每條規(guī)則的概率,學(xué)習(xí)到的規(guī)則,例如:

dnpnpvp–>dnpnpvp(0.89)

dnpnpvp–>npdnpvp(0.11)

即短語序列dnpnpvp短語順序不變的概率為0.89,變?yōu)閚pdnpvp的概率為0.11,應(yīng)用這些則到源語言輸入句子上。不同的規(guī)則組合應(yīng)用產(chǎn)生不同短語序列變化。所有的這些變化以字格(lattice)形式表示出來。根據(jù)規(guī)則的概率,計算出字格中的每條路徑的概率。最優(yōu)路徑,或整個字格網(wǎng)絡(luò)作為后續(xù)機(jī)器翻譯模塊的新的輸入。

機(jī)器翻譯模塊分為訓(xùn)練模塊和翻譯模塊。訓(xùn)練模塊主要用于訓(xùn)練,在訓(xùn)練階段,利用giza++工具包在大規(guī)模平衡語料庫中學(xué)習(xí)短語對短語的翻譯(帶有概率值)。翻譯模塊用于翻譯,在翻譯階段,對于每個輸入進(jìn)來的句子,分割成若干短語片段(此處的短語不一定是符合語法規(guī)則的短語)。對每個短語片段,在訓(xùn)練結(jié)果中找出相應(yīng)的短語翻譯。把這些短語翻譯拼接成完整的目標(biāo)語言的句子。因?yàn)樵凑Z言的句子有很多短語分割方案,每個短語又有若干的可能的翻譯。所以翻譯過程本質(zhì)上是一個搜索過程。要從不同的拼接中找出最優(yōu)的組合,即最終的翻譯結(jié)果。在搜索過程中,應(yīng)用很多子模型來幫助搜索出最優(yōu)路徑。必須的子模型包括短語翻譯模型(translationmodel),語言模型(languagemodel)。其他的子模型,例如語序改變模型(distortionmodel),基于詞性的語言模型(poslanguagemodel),雙語語言模型(bilinguallanguagemodel),領(lǐng)域自適應(yīng)模型等(adaptationmodel),可以根據(jù)實(shí)際需要決定是否開啟。

后處理模塊對翻譯結(jié)果做進(jìn)一步處理,使其更加接近目標(biāo)語言的表達(dá)習(xí)慣,并作為最終結(jié)果輸出。進(jìn)一步的處理如附圖中圖7所示,主要包括d.1單詞標(biāo)點(diǎn)規(guī)范化模塊,其把機(jī)器翻譯結(jié)果中的單詞和標(biāo)點(diǎn)規(guī)范化為目標(biāo)語言的常用表現(xiàn)形式。例如,英-中翻譯的翻譯結(jié)果中中文單詞間的空格去掉。西語翻譯結(jié)果中句號,逗號和其前面一個單詞間的空格去掉等。d.2大小寫轉(zhuǎn)換模塊主要適用于西語作為目標(biāo)語言的翻譯。例如英文句子的首字母要大寫。一些專用名詞,例如usa也要大寫。該子模塊把翻譯結(jié)果中相應(yīng)的小寫字母轉(zhuǎn)換成大寫字母。d.3格式轉(zhuǎn)換模塊是a.2格式轉(zhuǎn)換模塊的逆操作,即保證輸出與輸入的格式一致。

綜上所述,本發(fā)明的機(jī)器翻譯系統(tǒng),能夠把一種語言的句子,篇章實(shí)時翻譯成另一種語言,該系統(tǒng)能夠翻譯句子完整,表達(dá)正確,帶有標(biāo)點(diǎn)符號的文本語言,也能翻譯沒有段落分割,句子可能不完整,沒有標(biāo)點(diǎn)符號,句子里有噪音的語音;本發(fā)明提高了對小概率詞語、短語的翻譯準(zhǔn)確度,即將數(shù)字、日期、時間、url等小概率詞語分別標(biāo)注并優(yōu)先翻譯;本發(fā)明的預(yù)處理模塊能夠?qū)斎氲木渥舆M(jìn)行規(guī)范化處理;本發(fā)明的后處理模塊能夠提高翻譯結(jié)果的流暢度。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
夏津县| 石林| 陵水| 额尔古纳市| 汉中市| 南靖县| 长宁区| 获嘉县| 武穴市| 冷水江市| 扬州市| 兴安盟| 万安县| 东源县| 开原市| 小金县| 龙南县| 嘉荫县| 吐鲁番市| 色达县| 西安市| 兴文县| 肥乡县| 二连浩特市| 宜春市| 静安区| 临澧县| 东辽县| 凭祥市| 嘉义县| 文登市| 平原县| 阳高县| 绥德县| 临猗县| 阜康市| 固阳县| 喜德县| 新巴尔虎左旗| 仙居县| 大同县|