本申請(qǐng)涉及機(jī)器翻譯,特別是涉及一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建方法。
背景技術(shù):
1、近年來(lái),隨著國(guó)際貿(mào)易和全球合作的增加,機(jī)器翻譯(mt)在消除語(yǔ)言障礙、促進(jìn)跨文化交流方面變得愈發(fā)重要,機(jī)器翻譯領(lǐng)域取得了顯著的進(jìn)展,研究者通過(guò)各種方法來(lái)應(yīng)對(duì)翻譯中會(huì)出現(xiàn)的各種問(wèn)題。從最早的統(tǒng)計(jì)機(jī)器翻譯方法,到傳統(tǒng)機(jī)器學(xué)習(xí)方法,再到現(xiàn)今的神經(jīng)機(jī)器翻譯(nmt),機(jī)器翻譯不斷變得智能。
2、早期的統(tǒng)計(jì)機(jī)器翻譯(smt)方法是機(jī)器翻譯研究的先驅(qū),依賴(lài)于短語(yǔ)模型和統(tǒng)計(jì)對(duì)齊模型。研究者首次使用大規(guī)模平行語(yǔ)料庫(kù)來(lái)估計(jì)翻譯概率和建立統(tǒng)計(jì)翻譯模型,其中最著名的包括ibm模型和短語(yǔ)模型。隨著技術(shù)的進(jìn)步,傳統(tǒng)機(jī)器學(xué)習(xí)方法在機(jī)器翻譯中變得受歡迎,因?yàn)樗鼈兡軌蚋玫夭蹲骄浞ê驼Z(yǔ)義信息。研究者通過(guò)使用多種方法,包括使用hmm和crf等傳統(tǒng)機(jī)器學(xué)習(xí)方法來(lái)建模中文句子的結(jié)構(gòu)和單詞預(yù)測(cè),以及使用svm等方法來(lái)分類(lèi)和排名候選翻譯。雖然傳統(tǒng)機(jī)器學(xué)習(xí)方法通常需要領(lǐng)域?qū)I(yè)知識(shí)和人工特征,但它們?cè)谔囟ㄈ蝿?wù)和數(shù)據(jù)集上表現(xiàn)出良好的結(jié)果。
3、然而,無(wú)論是smt還是傳統(tǒng)機(jī)器學(xué)習(xí)方法,都難以處理翻譯中的長(zhǎng)距離依賴(lài)和翻譯歧義問(wèn)題。深度學(xué)習(xí)的崛起徹底改變了機(jī)器翻譯,seq2seq模型成為了主要的翻譯模式。seq2seq模型通過(guò)將源語(yǔ)言句子編碼成固定長(zhǎng)度的表示,并將其解碼成目標(biāo)語(yǔ)言句子,有效地解決了這些問(wèn)題。但是機(jī)器翻譯仍然存在一些問(wèn)題,比如訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)需要大量的gpu資源和內(nèi)存,以及在過(guò)度翻譯、不足翻譯和生成不自然語(yǔ)言方面存在的問(wèn)題。
4、因此,相關(guān)技術(shù)中,亟需一種能夠提高機(jī)器翻譯準(zhǔn)確率并降低計(jì)算資源需求的方式。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種能夠提高機(jī)器翻譯準(zhǔn)確率并降低計(jì)算資源需求的一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建方法。
2、第一方面,本申請(qǐng)?zhí)峁┝艘环N用于機(jī)器翻譯的n-seq2seq模型構(gòu)建方法。所述方法包括:
3、獲取訓(xùn)練數(shù)據(jù);
4、搭建初始n-seq2seq模型,所述初始n-seq2seq模型包括編碼解碼模塊、多頭注意力模塊、相對(duì)位置編碼模塊、詞嵌入編碼模塊和文本候選搜索框模塊;
5、采用所述訓(xùn)練數(shù)據(jù)訓(xùn)練所述初始n-seq2seq模型;
6、分別進(jìn)行消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn),結(jié)合bleu值評(píng)價(jià)模型的翻譯結(jié)果,基于評(píng)價(jià)結(jié)果確定n-seq2seq模型。
7、可選的,在本申請(qǐng)的一個(gè)實(shí)施例中,所述編碼解碼模塊包括編碼器與解碼器,所述編碼器和解碼器的骨干網(wǎng)絡(luò)為循環(huán)神經(jīng)網(wǎng)絡(luò)。
8、可選的,在本申請(qǐng)的一個(gè)實(shí)施例中,所述多頭注意力模塊包括多個(gè)自注意力機(jī)制,以剔除輸入序列的非重要信息。
9、可選的,在本申請(qǐng)的一個(gè)實(shí)施例中,所述相對(duì)位置編碼模塊是在自注意力機(jī)制中加入的可訓(xùn)練的嵌入編碼,用于表示詞之間的相對(duì)距離。
10、可選的,在本申請(qǐng)的一個(gè)實(shí)施例中,所述詞嵌入編碼模塊采用wobert模型構(gòu)建詞向量。
11、可選的,在本申請(qǐng)的一個(gè)實(shí)施例中,所述文本候選搜索框模塊位于解碼器中,用于存儲(chǔ)候選詞集合以及預(yù)測(cè)輸出詞。
12、第二方面,本申請(qǐng)還提供了一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建裝置。所述裝置包括:
13、數(shù)據(jù)獲取模塊,用于獲取訓(xùn)練數(shù)據(jù);
14、初始模型搭建模塊,用于搭建初始n-seq2seq模型,所述初始n-seq2seq模型包括編碼解碼模塊、多頭注意力模塊、相對(duì)位置編碼模塊、詞嵌入編碼模塊和文本候選搜索框模塊;
15、初始模型訓(xùn)練模塊,用于采用所述訓(xùn)練數(shù)據(jù)訓(xùn)練所述初始n-seq2seq模型;
16、實(shí)驗(yàn)驗(yàn)證模塊,用于分別進(jìn)行消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn),結(jié)合bleu值評(píng)價(jià)模型的翻譯結(jié)果。
17、第三方面,本申請(qǐng)還提供了一種計(jì)算機(jī)設(shè)備。所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行上述各個(gè)實(shí)施例所述方法的步驟。
18、第四方面,本申請(qǐng)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述各個(gè)實(shí)施例所述方法的步驟。
19、上述一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建方法,首先,獲取訓(xùn)練數(shù)據(jù);之后,搭建初始n-seq2seq模型,所述初始n-seq2seq模型包括編碼解碼模塊、多頭注意力模塊、相對(duì)位置編碼模塊、詞嵌入編碼模塊和文本候選搜索框模塊;之后,采用所述訓(xùn)練數(shù)據(jù)訓(xùn)練所述初始n-seq2seq模型;最后,分別進(jìn)行消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn),結(jié)合bleu值評(píng)價(jià)模型的翻譯結(jié)果,基于評(píng)價(jià)結(jié)果確定n-seq2seq模型。也就是說(shuō),構(gòu)建了一種新的機(jī)器翻譯模型n-seq2seq,該模型采用兩種注意力機(jī)制,有針對(duì)性地關(guān)注全局信息和重要信息,通過(guò)超參數(shù)調(diào)整來(lái)實(shí)現(xiàn),并剔除掉非重要信息;使用基于詞的分詞方法和相對(duì)位置編碼,提高了文本分詞的準(zhǔn)確性以及增強(qiáng)詞的關(guān)聯(lián)性;引入文本候選詞框,通過(guò)提前預(yù)測(cè)來(lái)加速模型的推理速度,實(shí)現(xiàn)了模型推理速度加快、推理結(jié)果準(zhǔn)確、高效,并且具有輕量化的優(yōu)勢(shì)。
1.一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述編碼解碼模塊包括編碼器與解碼器,所述編碼器和解碼器的骨干網(wǎng)絡(luò)為循環(huán)神經(jīng)網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求1所述的一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述多頭注意力模塊包括多個(gè)自注意力機(jī)制,以剔除輸入序列的非重要信息。
4.根據(jù)權(quán)利要求1所述的一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述相對(duì)位置編碼模塊是在自注意力機(jī)制中加入的可訓(xùn)練的嵌入編碼,用于表示詞之間的相對(duì)距離。
5.根據(jù)權(quán)利要求1所述的一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述詞嵌入編碼模塊采用wobert模型構(gòu)建詞向量。
6.根據(jù)權(quán)利要求1所述的一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建方法,其特征在于,所述文本候選搜索框模塊位于解碼器中,用于存儲(chǔ)候選詞集合以及預(yù)測(cè)輸出詞。
7.一種用于機(jī)器翻譯的n-seq2seq模型構(gòu)建裝置,其特征在于,所述裝置包括:
8.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。