欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種機(jī)器翻譯語序調(diào)整方法

文檔序號:9911009閱讀:1380來源:國知局
一種機(jī)器翻譯語序調(diào)整方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及機(jī)器翻譯領(lǐng)域,特別涉及一種機(jī)器翻譯語序調(diào)整方法。
【背景技術(shù)】
[0002]如今互聯(lián)網(wǎng)已經(jīng)遍布全球,來自不同國籍和民族的人們能夠隨時隨地分享交流信息;人們也迫切希望能快速暢通的獲得網(wǎng)絡(luò)上的所有信息。故而,多種語言之間準(zhǔn)確高效的機(jī)器自動翻譯在現(xiàn)在以及未來的國際化氛圍下,有著極大的市場需求。但是,一個性能高、功能強(qiáng)大、準(zhǔn)確率高的互聯(lián)網(wǎng)多語言翻譯系統(tǒng)在現(xiàn)在的技術(shù)水平下,還需要有很多重大的技術(shù)難點需要克服。在現(xiàn)有的機(jī)器翻譯水平之下,高質(zhì)量的可用的機(jī)器譯文依然是不可得的。目前解決這一問題的一般方式為使用機(jī)器翻譯作為前期處理,對機(jī)器翻譯的結(jié)果作人工后編輯,從而能夠得到可用的翻譯結(jié)果。一般情況下要得到高質(zhì)量的翻譯結(jié)果,對人工后編輯的編輯人員的專業(yè)素質(zhì)要求極高,專家級的人工后編輯人員是必不可少的,但是面對巨大的翻譯需求缺口,人工后編輯的工作量極大,數(shù)量有限的專家是解決不了如此龐大的任務(wù)量,在后編輯中居高不下的人力和時間成本限制了機(jī)器翻譯的發(fā)展和應(yīng)用。
[0003]研究者們通過對用戶編輯模式和翻譯錯誤類型的分析發(fā)現(xiàn),在機(jī)器翻譯的結(jié)果中,很多錯誤是重復(fù)出現(xiàn)的(如詞匯翻譯錯誤,句子結(jié)構(gòu)類型的錯誤,詞語形式的錯誤等),如果通過人工后編輯來處理這些重復(fù)的錯誤,將消耗極大的人力和物力成本,同時也嚴(yán)重降低了機(jī)器翻譯的效率和翻譯用戶體驗的滿意度。因此很多研究者嘗試構(gòu)建一個自動后編輯模型,以根據(jù)機(jī)器翻譯的錯誤類型自動得修改包含相同或類似的翻譯錯誤,以減少人工后編輯的工作量,提高機(jī)器翻譯質(zhì)量?,F(xiàn)有的主流方法大多是根據(jù)“機(jī)器譯文一一專家后編輯譯文”的平行語料訓(xùn)練出基于SMT(基于統(tǒng)計的機(jī)器翻譯)的自動后編輯模型。雖然基于統(tǒng)計機(jī)器翻譯的自動后編輯的研究已經(jīng)取得了一定的成果;但是統(tǒng)計機(jī)器翻譯SMT里面具體發(fā)生了什么,還有很多是不明確的。就這一后編輯技術(shù)而言,僅能知道該方法能夠提高最終翻譯結(jié)果質(zhì)量,但是不知道具體哪些后編輯操作是有效的(即那部分后編輯操作代表了機(jī)器翻譯系統(tǒng)的缺陷),這不利于直觀的分析機(jī)器翻譯的弊端。在這些情況下如果能通過自動學(xué)習(xí)的方式解析出機(jī)器翻譯的重復(fù)錯誤的相關(guān)模式,并且將這些模式化的錯誤自動更正;可以分析出機(jī)器翻譯的錯誤根源,有助于從源頭上提高機(jī)器翻譯的質(zhì)量。
[0004]此外對于機(jī)器翻譯重復(fù)出現(xiàn)的錯誤中,譯文詞語順序錯誤,語序語法錯誤是基本的錯誤之一,據(jù)統(tǒng)計,語序錯誤(包括置前語序錯誤、句內(nèi)疑問詞(W)短語語序錯誤、句內(nèi)be動詞/情態(tài)動詞(MD)短語語序錯誤、句內(nèi)鄰居短語語序錯誤等情況)在機(jī)器翻譯總錯誤中所占據(jù)的比重很大,而且鑒于不同語言之間存在的巨大的語法差異,語序錯誤在機(jī)器翻譯中出現(xiàn)的機(jī)率很大,語序錯誤極大的影響了機(jī)器翻譯的專業(yè)化程度;同時由于語序和語法本身的復(fù)雜性,使得機(jī)器翻譯語序或者語法錯誤在人工后編輯中的更正難度也很大;而且相對譯詞錯誤,語序和語法錯誤的重復(fù)率更高,如果都是通過人工后編輯來調(diào)整,耗費的人力和時間成本巨大。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供一種機(jī)器翻譯語序調(diào)整方法,通過在機(jī)器學(xué)習(xí)中引入譯詞調(diào)序規(guī)則模板,所述規(guī)則模板對比機(jī)器譯文與源文和標(biāo)準(zhǔn)譯文,提取出譯詞調(diào)序規(guī)則,通過規(guī)則匹配找出需要交換順序的“crossover”詞對或者詞組對,通過調(diào)整詞對的位置使得機(jī)器譯文的語序更加符合翻譯目標(biāo)語言的語法特點。
[0006]所述譯詞調(diào)序規(guī)則模板中,包含待調(diào)換詞對的相應(yīng)信息,當(dāng)在機(jī)器譯文和源文中檢測出符合譯詞調(diào)序規(guī)則模板的調(diào)序規(guī)則時,提取出該規(guī)則,并使用該調(diào)序規(guī)則來執(zhí)行相應(yīng)的詞對的位置調(diào)整動作。將調(diào)整后的機(jī)器譯文與源文進(jìn)行輸入到學(xué)習(xí)機(jī)中,再次匹配譯詞調(diào)序規(guī)則模板,進(jìn)行調(diào)序規(guī)則檢測,當(dāng)檢測出符合譯詞調(diào)序規(guī)則模板的調(diào)序規(guī)則時,提取出該規(guī)則,并應(yīng)用該規(guī)則再次調(diào)整機(jī)器譯文中的語序錯誤;重復(fù)上述過程,通過迭代不斷提取新的調(diào)序規(guī)則,直到不能學(xué)到新的譯詞調(diào)序規(guī)則時,停止迭代。在迭代的過程中通過將修改后機(jī)器譯文與標(biāo)準(zhǔn)譯文進(jìn)行比照,計算出調(diào)整前后的BLEU增益值,通過BLEU增益值來判斷修改后的機(jī)器譯文的調(diào)整效果。
[0007]為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供以下技術(shù)方案,一種機(jī)器翻譯語序調(diào)整方法,包含以下實現(xiàn)過程:
[0008](I)構(gòu)建譯詞調(diào)序規(guī)則模板,包括待調(diào)序詞對的對應(yīng)信息,所述待調(diào)換詞對包括當(dāng)前詞和調(diào)換詞,其中當(dāng)前詞信息包括:當(dāng)前詞,當(dāng)前詞的前N個詞,當(dāng)前詞的后N個詞,當(dāng)前詞的前N個詞的詞性,當(dāng)前詞的后N個詞的詞性,當(dāng)前詞對應(yīng)的源文中原詞的前N個詞和后N個詞;調(diào)換詞信息包括:調(diào)換詞,調(diào)換詞的前N個詞,調(diào)換詞的后N個詞,調(diào)換詞的前N個詞的詞性,調(diào)換詞的后N個詞的詞性,調(diào)換詞對應(yīng)的源文中原詞的前N個詞和調(diào)后N個詞,其中N為O或者正整數(shù);當(dāng)發(fā)現(xiàn)符合規(guī)則模板時的調(diào)序規(guī)則時,將該調(diào)序規(guī)則提取出來,將當(dāng)前詞與調(diào)換詞交換順序。
[0009]所述當(dāng)前詞和調(diào)換詞的獲取過程包括,通過將機(jī)器譯文和標(biāo)準(zhǔn)譯文的相應(yīng)內(nèi)容進(jìn)行對齊,當(dāng)發(fā)現(xiàn)機(jī)器譯文中的語序與標(biāo)準(zhǔn)譯文中存在差異時,根據(jù)機(jī)器譯文與標(biāo)準(zhǔn)譯文中的詞語對齊情況找到需要調(diào)換順序的詞對(aCrossoverVord or phrase),將待調(diào)換詞對中,處于機(jī)器譯文靠前位置的待調(diào)序詞定義為當(dāng)前詞,將位于機(jī)器譯文中靠后位置的待調(diào)序詞定義為調(diào)換詞。
[0010](2)使用上述譯詞調(diào)序規(guī)則模板提取機(jī)器翻譯的譯詞調(diào)序規(guī)則。
[0011](3)使用譯詞調(diào)序規(guī)則來抽取待調(diào)換詞對(“crossover”詞對),并將抽取出的詞對調(diào)換位置。
[0012]其中所述步驟(2)中包括以下實現(xiàn)步驟:
[0013](2-1)準(zhǔn)備訓(xùn)練集,所述訓(xùn)練集包括待翻譯源文和對應(yīng)的標(biāo)準(zhǔn)譯文;
[0014](2-2)將上述待翻譯源文輸入機(jī)器翻譯系統(tǒng)中獲取對應(yīng)的機(jī)器譯文;
[0015](2-3)將所述訓(xùn)練樣本集與機(jī)器譯文輸入到具有譯詞調(diào)序規(guī)則模板的學(xué)習(xí)機(jī)中;
[0016](2-4)所述學(xué)習(xí)機(jī)對比機(jī)器譯文與標(biāo)準(zhǔn)譯文和源文的差異,根據(jù)譯詞調(diào)序規(guī)則模板提取機(jī)器譯文中的語序調(diào)整的第一規(guī)則,形成對應(yīng)的第一規(guī)則集合;
[0017](2-5)利用第一規(guī)則集中的每條規(guī)則來修改Dev(開發(fā)集)機(jī)器譯文;并將修改后的譯文與Dev標(biāo)準(zhǔn)譯文進(jìn)行比較,計算調(diào)整前后BLEU的增益值,從規(guī)則集中選出BLEU的增益值最大的調(diào)序規(guī)則(將其定義為:第一調(diào)序規(guī)則);
[0018](2-6)應(yīng)用所述第一調(diào)序規(guī)則來調(diào)整機(jī)器譯文,形成第一調(diào)整譯文;
[0019](2-7)將第一調(diào)整譯文輸入學(xué)習(xí)機(jī)中;所述學(xué)習(xí)機(jī)對比第一調(diào)整譯文與標(biāo)準(zhǔn)譯文和源文的差異,根據(jù)譯詞調(diào)序規(guī)則模板提取第二規(guī)則,形成第二規(guī)則集;
[0020](2-8)利用第二規(guī)則集中的每條規(guī)則來調(diào)整Dev機(jī)器譯文;并將調(diào)整后的譯文與Dev標(biāo)準(zhǔn)譯文進(jìn)行比較,計算調(diào)整前后BLEU的增益值,從規(guī)則集中選出BLEU的增益值最大的調(diào)序規(guī)則(將其定義為:第二調(diào)序規(guī)則);
[0021 ]重復(fù)上述步驟,依次迭代,直到BLEU的增益值小于設(shè)定的閾值,停止計算;并將規(guī)則序列返回。
[0022]進(jìn)一步的,將所述規(guī)則序列應(yīng)用于測試集中,使用規(guī)則序列來調(diào)整測試集中機(jī)器譯文的語序錯誤,并對調(diào)整結(jié)果進(jìn)行評價,根據(jù)評價結(jié)果來測試規(guī)則序列對機(jī)器譯文
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
潞城市| 莆田市| 泊头市| 尼木县| 绩溪县| 镇巴县| 芦溪县| 剑河县| 叶城县| 青海省| 新巴尔虎左旗| 晋城| 博乐市| 甘洛县| 花垣县| 蒙城县| 阿城市| 志丹县| 开鲁县| 加查县| 永吉县| 白河县| 家居| 镇原县| 绿春县| 高邑县| 平度市| 株洲县| 韶山市| 大田县| 蓬莱市| 高州市| 循化| 新宾| 宜章县| 昌宁县| 高要市| 晋城| 尼勒克县| 乐昌市| 白水县|