欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

雙語(yǔ)文本的句子對(duì)齊方法

文檔序號(hào):6636343閱讀:1580來(lái)源:國(guó)知局
雙語(yǔ)文本的句子對(duì)齊方法
【專(zhuān)利摘要】本發(fā)明涉及一種文本自動(dòng)翻譯【技術(shù)領(lǐng)域】,公開(kāi)了一種雙語(yǔ)文本的句子對(duì)齊方法,在自動(dòng)對(duì)齊前,在雙語(yǔ)文本中標(biāo)定若干對(duì)齊錨點(diǎn),所述對(duì)齊錨點(diǎn)將雙語(yǔ)文本區(qū)分為若干對(duì)齊區(qū)間,然后在所述若干對(duì)齊區(qū)間內(nèi)分別進(jìn)行自動(dòng)對(duì)齊。所謂對(duì)齊錨點(diǎn),是分別將原文、譯文文本分成對(duì)齊的片段的句子對(duì)。采用本發(fā)明的雙語(yǔ)文本的句子對(duì)齊方法,句子對(duì)齊的準(zhǔn)確率較現(xiàn)有自動(dòng)對(duì)齊方法高,而且隨著標(biāo)定對(duì)齊錨點(diǎn)數(shù)數(shù)量提高而提高,理論上句子對(duì)齊準(zhǔn)確率接近100%。同時(shí)大大降低人工審核的工作量投入糾正,提高了自動(dòng)翻譯語(yǔ)料庫(kù)的制作效率。
【專(zhuān)利說(shuō)明】雙語(yǔ)文本的句子對(duì)齊方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本自動(dòng)翻譯【技術(shù)領(lǐng)域】,尤其涉及到制作自動(dòng)翻譯語(yǔ)料庫(kù)所必須的雙 語(yǔ)文本的句子對(duì)齊方法。

【背景技術(shù)】
[0002] 自動(dòng)翻譯語(yǔ)料庫(kù)存有大量已經(jīng)對(duì)齊的雙語(yǔ)句子。文本自動(dòng)翻譯離不開(kāi)自動(dòng)翻譯語(yǔ) 料庫(kù)的支撐。一般情況下,傳統(tǒng)的雙語(yǔ)文本的句子自動(dòng)對(duì)齊方法的準(zhǔn)確率在80%左右徘徊。 如果希望獲得高質(zhì)量的雙語(yǔ)對(duì)齊語(yǔ)料,則必須在自動(dòng)處理后采取人工審核。人工審核的工 作包括:1)從大量文本自動(dòng)對(duì)齊的平行語(yǔ)料中找到其中錯(cuò)誤的對(duì)齊;2)手動(dòng)調(diào)整對(duì)齊的內(nèi) 容。事后的人工審核工作存在兩方面不利影響,一是人工工作量大,二是降低了對(duì)齊語(yǔ)料的 產(chǎn)生效率。
[0003] 例如2006年5月出版的《哈爾濱工業(yè)大學(xué)學(xué)報(bào)》公開(kāi)了《基于長(zhǎng)度和位置信息的 雙語(yǔ)句子對(duì)齊方法》的論文(國(guó)家自然科學(xué)基金資助項(xiàng)目),該方法基于長(zhǎng)度和位置信息, 采用錨點(diǎn)定位法進(jìn)行雙語(yǔ)句子自動(dòng)對(duì)齊。但是,該方法在自動(dòng)對(duì)齊過(guò)程中存在錯(cuò)誤的蔓延 問(wèn)題,即,某一個(gè)步驟產(chǎn)生的錨點(diǎn)定位不準(zhǔn)確或錯(cuò)誤,導(dǎo)致后續(xù)步驟在前步驟錯(cuò)誤的基礎(chǔ)上 蔓延或擴(kuò)大,使自動(dòng)對(duì)齊的準(zhǔn)確率繼續(xù)下降。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種雙語(yǔ)文本的句子對(duì)齊方法,克服現(xiàn)有技術(shù) 在制作雙語(yǔ)平行語(yǔ)料的過(guò)程中所存在的錯(cuò)誤蔓延擴(kuò)大的缺陷。
[0005] 為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種雙語(yǔ)文本的句子對(duì)齊方法,在自動(dòng)對(duì)齊前, 在雙語(yǔ)文本中標(biāo)定若干對(duì)齊錨點(diǎn),所述對(duì)齊錨點(diǎn)將雙語(yǔ)文本區(qū)分為若干對(duì)齊區(qū)間,然后在 所述若干對(duì)齊區(qū)間內(nèi)分別進(jìn)行自動(dòng)對(duì)齊。
[0006] 所謂對(duì)齊錨點(diǎn),是分別將原文、譯文文本分成對(duì)齊的片段的句子對(duì),通常用句子在 原、譯中的序列號(hào)標(biāo)識(shí),如[20,21]表示原文中的第20句與譯文中的第21句是對(duì)齊的一對(duì) 句子。
[0007] 進(jìn)一步優(yōu)化的方案是,所述對(duì)齊錨點(diǎn)在雙語(yǔ)文本中均勻分布。這樣可最佳地克服 自動(dòng)對(duì)齊出現(xiàn)錯(cuò)誤對(duì)齊錨點(diǎn)的錯(cuò)誤蔓延效應(yīng)。
[0008] 更進(jìn)一步的優(yōu)化方案是,在進(jìn)行自動(dòng)對(duì)齊后,檢查所述對(duì)齊區(qū)間內(nèi)的句子對(duì)齊結(jié) 果,對(duì)自動(dòng)對(duì)齊過(guò)程錯(cuò)誤標(biāo)定的對(duì)齊錨點(diǎn)行進(jìn)修改。
[0009] 更加優(yōu)選的,對(duì)于自動(dòng)對(duì)齊后的所述對(duì)齊區(qū)間,增加標(biāo)定新的對(duì)齊錨點(diǎn),然后重新 進(jìn)行自動(dòng)對(duì)齊。
[0010] 采用本發(fā)明的雙語(yǔ)文本的句子對(duì)齊方法,句子對(duì)齊的準(zhǔn)確率較現(xiàn)有自動(dòng)對(duì)齊方法 1?,而且隨著標(biāo)定對(duì)齊鋪點(diǎn)數(shù)數(shù)量提1?而提1?,理論上句子對(duì)齊準(zhǔn)確率接近100%。同時(shí)大 大降低人工審核的工作量投入糾正,提高了自動(dòng)翻譯語(yǔ)料庫(kù)的制作效率。

【專(zhuān)利附圖】

【附圖說(shuō)明】 toon] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步具體說(shuō)明。
[0012] 圖1為本發(fā)明【具體實(shí)施方式】的整體流程示意圖。
[0013] 圖2為本發(fā)明所應(yīng)用的雙語(yǔ)句子自動(dòng)對(duì)齊模塊的一次嵌套流程圖。

【具體實(shí)施方式】
[0014] 如圖1所示的本發(fā)明【具體實(shí)施方式】的整體流程,包括:
[0015] 步驟101 :在自動(dòng)對(duì)齊前,在雙語(yǔ)文本中均勻分布標(biāo)定若干對(duì)齊錨點(diǎn),對(duì)齊錨點(diǎn)將 雙語(yǔ)文本區(qū)分為若干對(duì)齊區(qū)間,例如:在文本的1/8、1/4、3/8、1/2、5/8、3/4、7/8處標(biāo)定7處 對(duì)齊錨點(diǎn),將文本分為8個(gè)等分區(qū)間或片段。這樣做的好處是為后續(xù)的自動(dòng)對(duì)齊先提供一 個(gè)正確的參照,避免錯(cuò)誤的疊加效應(yīng);二是將自動(dòng)對(duì)齊限定在小長(zhǎng)度文本區(qū)間或片段內(nèi),避 免一個(gè)區(qū)間或片段的錯(cuò)誤標(biāo)定蔓延或外溢到其他區(qū)間或片段,客觀上為糾錯(cuò)設(shè)定了邊界。
[0016] 步驟102 :運(yùn)行自動(dòng)對(duì)齊模塊,分別在對(duì)齊錨點(diǎn)劃分的若干對(duì)齊區(qū)間內(nèi)進(jìn)行自動(dòng) 對(duì)齊。
[0017] 步驟103 :在進(jìn)行自動(dòng)對(duì)齊后,檢查各對(duì)齊區(qū)間內(nèi)的句子對(duì)齊結(jié)果,
[0018] 步驟104 :判斷是否符合對(duì)齊要求?如果是,則整個(gè)工作結(jié)束。如果否,則
[0019] 步驟105 :對(duì)自動(dòng)對(duì)齊過(guò)程錯(cuò)誤標(biāo)定的對(duì)齊錨點(diǎn)行進(jìn)修改,
[0020] 步驟106 :在對(duì)齊區(qū)間內(nèi)新增加對(duì)齊錨點(diǎn),然后返回步驟102,重新進(jìn)行自動(dòng)對(duì)齊。
[0021] 如此往復(fù)多次完成雙語(yǔ)文本的對(duì)齊工作,在這個(gè)過(guò)程中人工投入的檢查和糾正工 作量大大減小,以前人工要全檢的工作連降低到50%,另外修改量也大大減小,最大可以節(jié) 省 50%。
[0022] 自動(dòng)對(duì)齊模塊所涉及的算法、公式定義如下:
[0023] 公式中所有長(zhǎng)度均為字節(jié)長(zhǎng)度,對(duì)于中英文本,每個(gè)中文漢字算為2個(gè)字節(jié),每個(gè) 英文字母及英文符號(hào)計(jì)算為一個(gè)字節(jié)。
[0024] 全文長(zhǎng)度比:P。= Ls/Lt
[0025] 注:Ls代表原文s的文本總長(zhǎng)度,Lt代表譯文t的文本總長(zhǎng)度;
[0026] 原譯句長(zhǎng)度比=PJi, j] = Lsi/LtJ
[0027] 注:Lsi代表原文s第i句的長(zhǎng)度,Lu代表譯文第j句的文本長(zhǎng)度;
[0028] 原譯文上部長(zhǎng)度比:Pu[i,j] = Usi/Ut
[0029] 注:Usi:代表原文s第i句上半部分的文本長(zhǎng)度,Utj代表譯文t第j句上半部分 文本長(zhǎng)度;
[0030] 原譯文下部長(zhǎng)度比:Pd[i,j] = Dsi/Dtj
[0031] 注:Dsi:代表原文s第i句下半部分的文本長(zhǎng)度,Dw代表譯文t第j句下半部分 文本長(zhǎng)度;
[0032] 最優(yōu)形式對(duì)齊評(píng)價(jià)函數(shù):
[0033]

【權(quán)利要求】
1. 一種雙語(yǔ)文本的句子對(duì)齊方法,其特征在于,在自動(dòng)對(duì)齊前,在雙語(yǔ)文本中標(biāo)定若干 對(duì)齊錨點(diǎn),所述對(duì)齊錨點(diǎn)將雙語(yǔ)文本區(qū)分為若干對(duì)齊區(qū)間,在所述若干對(duì)齊區(qū)間內(nèi)分別進(jìn) 行自動(dòng)對(duì)齊;所謂對(duì)齊錨點(diǎn),是分別將原文、譯文文本分成對(duì)齊的片段的句子對(duì)。
2. 根據(jù)權(quán)利要求1所述的雙語(yǔ)文本的句子對(duì)齊方法,其特征在于,所述對(duì)齊錨點(diǎn)在雙 語(yǔ)文本中均勻分布標(biāo)定。
3. 根據(jù)權(quán)利要求1或2所述的雙語(yǔ)文本的句子對(duì)齊方法,其特征在于,在進(jìn)行自動(dòng)對(duì)齊 后,檢查所述對(duì)齊區(qū)間內(nèi)的句子對(duì)齊結(jié)果,對(duì)自動(dòng)對(duì)齊過(guò)程錯(cuò)誤標(biāo)定的對(duì)齊錨點(diǎn)進(jìn)行修改 標(biāo)定。
4. 根據(jù)權(quán)利要求3所述的雙語(yǔ)文本的句子對(duì)齊方法,其特征在于,對(duì)于自動(dòng)對(duì)齊后的 所述對(duì)齊區(qū)間,增加標(biāo)定新的對(duì)齊錨點(diǎn),然后重新進(jìn)行自動(dòng)對(duì)齊。
【文檔編號(hào)】G06F17/28GK104360996SQ201410706236
【公開(kāi)日】2015年2月18日 申請(qǐng)日期:2014年11月27日 優(yōu)先權(quán)日:2014年11月27日
【發(fā)明者】江潮, 何征宇 申請(qǐng)人:武漢傳神信息技術(shù)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
庆云县| 鄂尔多斯市| 阿拉善右旗| 大渡口区| 化德县| 临清市| 略阳县| 浦城县| 文山县| 泗阳县| 阿拉尔市| 巨野县| 内黄县| 修文县| 留坝县| 连山| 阿坝| 黄陵县| 平江县| 文登市| 陆丰市| 抚松县| 玛纳斯县| 新竹市| 金寨县| 报价| 监利县| 恭城| 南华县| 津南区| 额尔古纳市| 田东县| 濉溪县| 苍南县| 九江市| 静海县| 武邑县| 文水县| 通城县| 苏州市| 寻乌县|