欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種機器翻譯模板自動獲取方法及裝置的制作方法

文檔序號:6445123閱讀:203來源:國知局
專利名稱:一種機器翻譯模板自動獲取方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機科學與技術(shù)領(lǐng)域,特別是一種新的面向機器翻譯的翻譯模板自動獲取的方法及裝置。
背景技術(shù)
隨著語料庫技術(shù)的發(fā)展,越來越多的雙語語料庫資源被應(yīng)用于機器翻譯和自然語言理解中的知識獲取。機器翻譯的模板作為機器翻譯系統(tǒng)中的一種重要的知識,受到了廣泛的關(guān)注。在很多機器翻譯和機助翻譯系統(tǒng)中,機器翻譯模板都是一種不可或缺的資源。因此,機器翻譯模板自動獲取方法的研究具有重要的現(xiàn)實意義。在本文中,我們提出了一種從英漢對齊的雙語語料庫中基于短語結(jié)構(gòu)抽取和對齊的自動獲取機器翻譯模板的方法。
在早期的基于實例的機器翻譯系統(tǒng)中,翻譯模板往往是手工從語料庫中提取出來的。Kitano在他的系統(tǒng)中采取了一種翻譯規(guī)則的手工編碼的方式。Sato也建立了一個基于實例的機器翻譯系統(tǒng),在這個系統(tǒng)中,采用了人工撰寫的匹配表達式作為機器翻譯的模板。但是,當語料庫越來越大的時候,這種人工的方法就會變得越來越困難,會帶來越來越多的錯誤。
一些學者也提出了自動從語料庫中獲取模板的方法,如Güvenir和Cicekli等人提出的基于類比學習的方法和Watanabe、Imamura等人提出的基于結(jié)構(gòu)對齊的方法?;陬惐葘W習的方法是通過比較語料庫中的翻譯實例的相同部分和不同部分,加以歸納,將不同的部分進行變量置換而得到翻譯模板。這種方法需要非常大規(guī)模而且存在大量相似句子的雙語語料庫?;诮Y(jié)構(gòu)對齊的方法遵循著一個“分析—分析—匹配”的過程。這種方法首先分別對兩種語言進行句法分析,然后根據(jù)一定的啟發(fā)式算法進行雙語的結(jié)構(gòu)的匹配。這種方法同時需要兩種語言的高精度的句法分析器,就目前來說,尤其對于漢語,很難找到一個可靠的句法分析工具。呂雅娟等人提出了一種基于單語句法分析的結(jié)構(gòu)對齊方法,取得了不錯的效果,但是仍然需要以句法分析作為基礎(chǔ)?;诖耍疚淖髡邔ξ覀兲岢隽艘环N新的基于短語結(jié)構(gòu)抽取和對齊的模板獲取方法。在這種方法中采用了統(tǒng)計模型和動態(tài)規(guī)劃的策略,避免了句法解析器的使用。實驗證明新方法的采用可以使機器翻譯模板獲取的精度達到76.77%,充分證明了它的有效性。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種新的面向機器翻譯的翻譯模板自動獲取的方法。
本發(fā)明是以計算機作為工具,根據(jù)基于短語結(jié)構(gòu)抽取和對齊的模板獲取算法,采取一定的相似度量度和語法歸納裝置,建立了包含從文本預(yù)處理到短語結(jié)構(gòu)提取,再到短語結(jié)構(gòu)對齊以及后處理等一整套功能的自動分類裝置。
本發(fā)明提出了一種新的基于短語結(jié)構(gòu)抽取和對齊的模板獲取方法。在這種方法中采用了統(tǒng)計模型和動態(tài)規(guī)劃的策略,避免了句法解析器的使用。實驗證明這種方法的采用可以使機器翻譯模板獲取的精度達到76.77%,充分證明了它的有效性。
自動機器翻譯模板獲取器的裝置,由漢語分詞裝置、漢語語法歸納裝置、英語語法歸納裝置、短語結(jié)構(gòu)對齊裝置以及后處理裝置組成,其中,漢語分詞裝置和漢語語法歸納裝置串聯(lián)后,與英語語法歸納裝置并聯(lián),再依次與短語結(jié)構(gòu)對齊裝置以及后處理裝置串聯(lián)連接。
發(fā)明技術(shù)方案面向機器翻譯的模板自動獲取的方法用基于短語結(jié)構(gòu)抽取和對齊的方法進行機器翻譯模板自動獲取的步驟a)語料的預(yù)處理對需要進行模板獲取的雙語對齊語料庫中的中文部分進行分詞;
b)分別提取漢語部分的詞表以及英語部分的詞表;c)分別對漢語部分和英語部分進行語法的歸納(GrammarInduction),從而分別提取出兩部分的短語結(jié)構(gòu);d)對提取出來的短語結(jié)構(gòu)進行對齊;e)對采用不同相似度函數(shù)的結(jié)果進行對比,選取最優(yōu)的相似度函數(shù)。
f)對對齊的結(jié)果進行后處理以獲得所需要的機器翻譯模板。
步驟c中提到的語法歸納的過程中采取了基于語義相似度的統(tǒng)計模型。
步驟c中提到的語法歸納的過程中采取了遞歸循環(huán)的方式。
步驟c中提到的語法歸納的過程中采取了Kullback-Leibler(KL)距離、Cosine Measure,Cosine of Pointwise Mutual Information以及Dice Co-efficient作為相似度的量度。
步驟d中提到的結(jié)構(gòu)對齊方法中采用了基于動態(tài)規(guī)劃的反向劃界文法(Bracketing Inversion Transduction Grammar,BTG)。
自動機器翻譯模板獲取器的功能化設(shè)計思路(共五個裝置)漢語分詞裝置、漢語語法歸納裝置、英語語法歸納裝置、短語結(jié)構(gòu)對齊裝置以及后處理裝置,見附圖1。
下面詳細說明本發(fā)明技術(shù)方案中所涉及的各個細節(jié)問題。
1、語法歸納本文中所采用的語法歸納算法是一種聚類算法。這種算法包含兩個主要步驟空間聚類和時間聚類。在空間聚類過程中,我們將具有類似上下文的單元聚為一類,這些單元往往具有相似的語義,我們把這些類稱作語義類。在時間聚類的過程中,我們將具有最高同現(xiàn)概率的單元聚為一類,這些單元往往是常用的短語,我們將這些類稱作短語結(jié)構(gòu)類。
在空間聚類中,我們采用Kullback-Leibler(KL)距離作為一個單元上下文分布的相似程度的量度D(p1||p2)=Σi=1Vp1(i)logp1(i)p2(i)]]>其中,這p1表示單元e1的上下文的詞匯的分布,p2表示單元e2的上下文的詞匯的分布,V表示所有出現(xiàn)在e1和e2上下文中的詞匯的集合。
為了獲得對稱的距離量度,我們使用了散度作為距離的量度Div(p1,p2)=D(p1‖p2)+D(p2‖p1)兩個單元e1和e2的距離就可以表示成為Dist(e1,e2)=Div(p1left,p2left)+Div(p1right,p2right)]]>為了使得聚類的精度更高,我們引入了擴展上下文的概念。所謂的擴展上下文,就是上下文的鄰接詞。在計算中,我們也將擴展上下文考慮進來,兩個單位的距離就可以表示為Dist*(e1,e2)=Div(p1left,p2left)+12Div2(p1left,p2left)+Div(p1right,p2right)+12Div2(p1right,p2right)]]>其中,Div2(p1,p2)為擴展上下文的散度。
兩個單元的相似程度就可以表示為SIM=11+Dist*]]>我們還研究了其他一些基于向量空間的相似度量度。我們引入特征向量來描述一個單元的上下文,如果一個單元w出現(xiàn)在給定的單元e的上下文中,這個特征就可以用特征向量(posi,w)來表示,posi表示w的位置,如果w出現(xiàn)在e的左邊,posi的值就是left,反之,posi的值就是right。每個特征的值就是該特征在語料庫中出現(xiàn)的次數(shù)的總和。我們用(u1,u2,…,un)和(v1,v2,…,vn)來表示兩個單元u和v的特征向量,n為所有從語料庫中提取的特征的總數(shù)。fi表示第i個特征。
我們引入了三種向量空間的相似度量度,Cosine Measure,Cosine ofPointwise Mutual Information以及Dice Co-efficient。
Cosine Measure計算的是兩個特征向量的余弦Cos(u,v)=Σi=1nui×viΣi=1nui2×Σi=1nvi2]]>Cosine of Pointwise Mutual Information的定義為CosPMI(u,v)=Σi=1npmi(fi,u)×pmi(fi,v)Σi=1npmi(fi,u)2×Σi=1npmi(fi,v)2]]>
其中,pmi(fi,u)=log(P(fi,u)P(fi)×P(u))]]>P(fi,u)表示fi和u的共現(xiàn)概率,P(fi)表示fi出現(xiàn)的概率,P(u)表示u出現(xiàn)的概率。
Dice Co-efficient的定義為Dice(u,v)=2×Σi=1ns(ui)×s(vi)Σi=1ns(ui)+Σi=1ns(vi)]]>其中,如果x>0,s(x)=1,否則s(x)=0。
在空間聚類當中,我們選取最相似的單元(也就是相似度最大的單元),將它們聚為一類,并用SCi作為標記。然后,用標記替代該類中的單元,轉(zhuǎn)而進行時間聚類。
在時間聚類中,我們采用互信息作為表征兩個單元同現(xiàn)程度的量度MI(e1,e2)=P(e1,e2)logP(e1|e2)P(e2)]]>具有最大的互信息的單元將被聚為一類,并用PCi作為其標記。然后用相應(yīng)的標記替換其對應(yīng)的類別,接著進行循環(huán)進行空間聚類和時間聚類,直到達到預(yù)先設(shè)定的次數(shù)。
在語法歸納結(jié)束以后,我們就得到了標記為SCi的語義類和標記為PCi的短語結(jié)構(gòu)類,接下來就要進行短語結(jié)構(gòu)的對齊了。
2、短語結(jié)構(gòu)對齊假設(shè)一個英語的句子e1,…,eT,它對應(yīng)的漢語句子為c1,…,cv。es…t表示英語子串es+1,es+2,…,et,cu…v表示從cu+1到cv的漢語子串。由BTG,雙語的局部最優(yōu)函數(shù)可以定義為
其中,F(xiàn)e(s,t),F(xiàn)c(u,v)分別為英語和漢語的約束函數(shù),用來表征已經(jīng)得到的英語和漢語的分析結(jié)果。
短語級的結(jié)構(gòu)對齊可以通過動態(tài)規(guī)劃的算法來實現(xiàn),通過初始化、遞推計算以及回推的過程得到最終的優(yōu)化的對齊結(jié)果。
3、評價函數(shù)的確定實驗的正確率定義為Acc=NrN×100%]]>其中,N為算法從語料庫中抽取出的所有模板的個數(shù),Nr為其中正確模板的個數(shù)。
4、實驗語料庫我們實驗所采用的語料庫是收集于旅游信息查詢領(lǐng)域的英中雙語口語語料庫。該語料庫包含2950個句子對。共有漢語詞匯989個,英語詞匯1074個。漢語句子的平均句長為7.0個詞匯,英語句子的平均句長為6.7個。
5、實驗結(jié)果在只使用詞匯的對譯概率的情況下,BTG也可以進行雙語的分析,進行短語的對齊。因此,我們將我們的算法與僅僅使用BTG進行了比較,比較的結(jié)果如表1所示

表2實驗結(jié)果比較1為了考察不同的相似度量度對算法的影響,我們分別采用不同的相似度量度進行了實驗,實驗的結(jié)果如表3所示

表2實驗結(jié)果比較2從表1中可以看出,使用我們的算法的架構(gòu)進行機器翻譯模板的自動獲取要優(yōu)于僅僅使用BTG,而且正確率也達到了不錯的水平,說明了這種算法是有效的。
從表2中可以看出,采用不同的相似度的度量方式,對于系統(tǒng)的正確率有一定的影響,采用Cosine of Pointwise Mutual Information作為相似度量度所能達到的正確率最高,達到了77.67%,充分的說明了我們的方法的有效性。


圖1是本發(fā)明自動機器翻譯模板獲取器的裝置圖。
圖2是本發(fā)明自動機器翻譯模板獲取器的流程圖。
具體實施例方式
圖1的自動機器翻譯模板獲取器的裝置,由漢語分詞裝置1、漢語語法歸納裝置2、英語語法歸納裝置3、短語結(jié)構(gòu)對齊裝置4以及后處理裝置5組成,并且,漢語分詞裝置和漢語語法歸納裝置串聯(lián)后,與英語語法歸納裝置并聯(lián),再依次與短語結(jié)構(gòu)對齊裝置以及后處理裝置串聯(lián)連接。
圖2是本發(fā)明自動機器翻譯模板獲取器,面向機器翻譯的模板自動獲取的方法,其具體步驟如下步驟S1,語料的預(yù)處理對需要進行模板獲取的雙語對齊語料庫中的中文部分進行分詞;步驟S2,分別提取漢語部分的詞表以及英語部分的詞表;步驟S3,分別采用不同的相似度函數(shù)(Kullback-Leibler(KL)距離、Cosine Measure,Cosine of Pointwise Mutual Information以及DiceCo-efficient)對漢語部分和英語部分進行語法的歸納(GrammarInduction),從而分別提取出兩部分的短語結(jié)構(gòu);步驟S4,對提取出來的短語結(jié)構(gòu)在BTG的指導下,利用動態(tài)規(guī)劃的策略進行對齊;步驟S5,對采用不同相似度函數(shù)(Kullback-Leibler(KL)距離、CosineMeasure,Cosine of Pointwise Mutual Information以及Dice Co-efficient)的結(jié)果進行對比,選取最優(yōu)的相似度函數(shù);步驟S6,對對齊的結(jié)果進行后處理,得到所需的翻譯模板。
權(quán)利要求
1.用基于短語結(jié)構(gòu)抽取和對齊的方法進行機器翻譯模板的自動獲取的方法,其步驟如下a)語料的預(yù)處理對需要進行模板獲取的雙語對齊語料庫中的中文部分進行分詞;b)分別提取漢語部分的詞表以及英語部分的詞表;c)分別對漢語部分和英語部分進行語法的歸納,從而分別提取出兩部分的短語結(jié)構(gòu);d)對提取出來的短語結(jié)構(gòu)進行對齊;e)對采用不同相似度函數(shù)的結(jié)果進行對比,選取最優(yōu)的相似度函數(shù);f)對對齊的結(jié)果進行后處理以獲得所需要的機器翻譯模板。
2.據(jù)權(quán)利要求1的方法,其特征在于,步驟c中提到的語法歸納的過程中采取了基于語義相似度的統(tǒng)計模型。
3.根據(jù)權(quán)利要求1的方法,其特征在于,步驟c中提到的語法歸納的過程中采取了遞歸循環(huán)的方式。
4.根據(jù)權(quán)利要求1的方法,其特征在于,步驟c中提到的語法歸納的過程中采取了KL距離、Cosine Measure,Cosine of Pointwise MutualInformation以及Dice Co-efficient作為相似度的量度。
5.根據(jù)權(quán)利要求1的方法,其特征在于,步驟d中提到的結(jié)構(gòu)對齊方法中采用了基于動態(tài)規(guī)劃的反向劃界文法(BTG)。
6.自動機器翻譯模板獲取器的裝置,由漢語分詞裝置、漢語語法歸納裝置、英語語法歸納裝置、短語結(jié)構(gòu)對齊裝置以及后處理裝置組成,其中,漢語分詞裝置和漢語語法歸納裝置串聯(lián)后,與英語語法歸納裝置并聯(lián),再依次與短語結(jié)構(gòu)對齊裝置以及后處理裝置串聯(lián)連接。
7.根據(jù)權(quán)利要求1的方法,其具體步驟如下步驟S1,語料的預(yù)處理對需要進行模板獲取的雙語對齊語料庫中的中文部分進行分詞;步驟S2,分別提取漢語部分的詞表以及英語部分的詞表;步驟S3,分別采用不同的相似度函數(shù)KL、對漢語部分和英語部分進行語法的歸納,從而分別提取出兩部分的短語結(jié)構(gòu);步驟S4,對提取出來的短語結(jié)構(gòu)進行對齊;步驟S5,對采用不同相似度函數(shù)的結(jié)果進行對比,選取最優(yōu)的相似度函數(shù);步驟S6,對對齊的結(jié)果進行后處理,得到所需的翻譯模板。
全文摘要
本發(fā)明涉及計算機科學與技術(shù)領(lǐng)域,特別是一種新的面向機器翻譯的翻譯模板自動獲取的方法及裝置。方法步驟a)語料的預(yù)處理;b)分別提取漢語部分的詞表以及英語部分的詞表;c)分別對漢語部分和英語部分進行語法的歸納;d)對提取出來的短語結(jié)構(gòu)進行對齊;e)對采用不同相似度函數(shù)的結(jié)果進行對比,選取最優(yōu)的相似度函數(shù);f)對對齊的結(jié)果進行后處理以獲得所需要的機器翻譯模板。裝置包括漢語分詞裝置、漢語語法歸納裝置、英語語法歸納裝置、短語結(jié)構(gòu)對齊裝置以及后處理裝置。
文檔編號G06F17/28GK1801140SQ20041010187
公開日2006年7月12日 申請日期2004年12月30日 優(yōu)先權(quán)日2004年12月30日
發(fā)明者宗成慶, 胡日勒 申請人:中國科學院自動化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
绵阳市| 开原市| 九龙城区| 溧阳市| 台南县| 南江县| 余姚市| 阳东县| 威信县| 时尚| 鲜城| 太保市| 利津县| 阿尔山市| 论坛| 哈巴河县| 盐城市| 井研县| 阳曲县| 黔江区| 巴楚县| 特克斯县| 宜良县| 尚志市| 兰考县| 南川市| 巧家县| 新蔡县| 洪湖市| 雷山县| 岑巩县| 丹东市| 视频| 涡阳县| 永和县| 婺源县| 新化县| 安福县| 烟台市| 米脂县| 井冈山市|