欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多語言混合文本翻譯方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)與流程

文檔序號:40638790發(fā)布日期:2025-01-10 18:44閱讀:3來源:國知局
多語言混合文本翻譯方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)與流程

本技術(shù)涉及人工智能,尤其涉及一種多語言混合文本翻譯方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。


背景技術(shù):

1、近年來,機(jī)器翻譯旨在解決單對單或單對多的單語言輸入的翻譯任務(wù)。而隨著人們在社交媒體、新聞報道、商務(wù)交流等領(lǐng)域的增加互動,同一篇文本中多種語言的混合使用變得普遍。多語言混合文本這一概念隨之出現(xiàn)。例如:在社交媒體上,人們經(jīng)常在帖子或評論中使用多種語言來表達(dá)自己觀點(diǎn)。多語言混合文本的機(jī)器翻譯可以促進(jìn)跨語言交流和理解,提升多語言社交媒體用戶體驗(yàn),拓寬資訊獲取范圍,促進(jìn)跨境商務(wù)合作。因此,發(fā)展和改進(jìn)多語言混合文本機(jī)器翻譯技術(shù)對于滿足現(xiàn)代社會的語言需求和促進(jìn)跨文化交流具有重要意義。

2、現(xiàn)有技術(shù)中,多對多單語言輸入的樣例如下:

3、輸入1(英語):"the?latest?technology?trends?are?shaping?the?future."

4、輸入2(法語):"les?dernières?tendances?technologiquesfa?onnent?l'avenir."

5、輸入3(中文):"最新的技術(shù)趨勢正在塑造未來。"

6、輸入4(西班牙語):"lasúltimas?tendencias?tecnológicas?están?dando?formaal?futuro."

7、在上述多對多單語言輸入中,輸入文本使用單一不同的語言,翻譯輸出將為指定的目標(biāo)語言。

8、而多語言混合文本輸入的例子如下:

9、輸入(混合語言):"the?future?of?technology?is?bright.latechnologie?dedemain?sera?incroyable.技術(shù)的未來將是光明的"

10、在上述多語言混合文本輸入的例子中,輸入文本結(jié)合了英語、法語和中文。

11、采用傳統(tǒng)的人工翻譯存在價格昂貴、實(shí)時性差等缺點(diǎn),僅適用于一小部分場景?,F(xiàn)代機(jī)器翻譯模型通過神經(jīng)網(wǎng)絡(luò)將輸入的句子轉(zhuǎn)化為另一種語言的句子。目前主流的神經(jīng)機(jī)器翻譯采用了"編碼器-解碼器"結(jié)構(gòu),編碼器將源語言句子編碼為連續(xù)空間中的向量,解碼器則以此向量為基礎(chǔ)生成目標(biāo)語言的句子。然而,對于多語言混合文本輸入的翻譯任務(wù)來說,目前很少有系統(tǒng)支持多語言混合文本輸入的翻譯,因?yàn)檫@涉及到不同語言結(jié)構(gòu)、語法、詞匯和文化的交織。處理這種情況需要考慮到語言切換的上下文,以確保翻譯結(jié)果既準(zhǔn)確又自然,這是一項(xiàng)十分復(fù)雜的任務(wù)。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例的目的在于提出一種多語言混合文本翻譯方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì),其主要目的是提高多語言混合文本翻譯的效率和準(zhǔn)確率。

2、為了解決上述技術(shù)問題,本技術(shù)實(shí)施例提供一種多語言混合文本翻譯方法,采用了如下所述的技術(shù)方案:

3、一種多語言混合文本翻譯方法,包括下述步驟:

4、獲取輸入文本,將輸入文本轉(zhuǎn)化為utf-8編碼;

5、將目標(biāo)語言的提示文本與轉(zhuǎn)化為utf-8編碼的輸入文本進(jìn)行拼接,得到拼接文本,將拼接文本轉(zhuǎn)化為utf-8編碼;

6、基于所述轉(zhuǎn)化為utf-8編碼的輸入文本和所述拼接文本對byt5模型進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練的byt5模型;

7、將待處理多語言混合文本輸入所述預(yù)訓(xùn)練的byt5模型,生成目標(biāo)語言的翻譯輸出。

8、進(jìn)一步的,所述將目標(biāo)語言的提示文本與轉(zhuǎn)化為utf-8編碼的輸入文本進(jìn)行拼接,得到拼接文本的步驟,具體包括:

9、將目標(biāo)語言的提示文本轉(zhuǎn)化為utf-8編碼,該提示文本用于提示預(yù)訓(xùn)練的byt5模型將輸入文本翻譯成目標(biāo)語言;

10、將轉(zhuǎn)化為utf-8編碼的提示文本作為前綴與轉(zhuǎn)化為utf-8編碼的輸入文本進(jìn)行拼接。

11、進(jìn)一步的,基于所述轉(zhuǎn)化為utf-8編碼的輸入文本和所述拼接文本對byt5模型進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練的byt5模型的步驟,具體包括:

12、以轉(zhuǎn)化為utf-8編碼的輸入文本作為byt5模型的輸入;

13、采用byt5模型的編碼器提取所述輸入文本的位置關(guān)系特征;

14、將轉(zhuǎn)化為utf-8編碼的拼接文本中目標(biāo)語言的提示文本作為解碼器的目標(biāo)語言,并將所述輸入文本的位置關(guān)系特征輸入至所述解碼器;

15、根據(jù)所述解碼器的目標(biāo)語言對輸入文本的位置關(guān)系特征進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練的byt5模型。

16、進(jìn)一步的,對生成提示文本所對應(yīng)的目標(biāo)語言作為輸出對所述byt5模型進(jìn)行訓(xùn)練中還包括:

17、通過梯度下降法優(yōu)化byt5模型的參數(shù)。

18、進(jìn)一步的,在將待處理多語言混合文本輸入所述預(yù)訓(xùn)練的byt5模型,生成目標(biāo)語言的翻譯輸出的步驟之后,還包括:

19、進(jìn)一步的,在將待處理多語言混合文本輸入所述預(yù)訓(xùn)練的byt5模型,生成目標(biāo)語言的翻譯輸出的步驟之后,還包括:

20、學(xué)習(xí)待處理多語言混合文本與翻譯輸出的語言的特征關(guān)系,并將該特征關(guān)系映射至一共享特征空間;

21、利用所述特征關(guān)系評價優(yōu)化所述byt5模型。

22、進(jìn)一步的,所述學(xué)習(xí)待處理多語言混合文本與翻譯輸出的語言的特征關(guān)系,并將該特征關(guān)系映射至一共享特征空間具體包括:

23、學(xué)習(xí)所述待處理多語言混合文本與翻譯輸出的語言的詞法特征、句法特征;

24、將所述詞法特征、句法特征進(jìn)行向量化處理;

25、將向量化處理的詞法特征、句法特征映射至共享特征空間中存儲,再利用所述特征關(guān)系評價優(yōu)化所述byt5模型。

26、進(jìn)一步的,所述利用所述特征關(guān)系評價優(yōu)化所述byt5模型具體包括:

27、將不同待處理多語言混合文本與翻譯輸出的語言的詞法特征、句法特征的相似性進(jìn)行比對;

28、若相似性達(dá)到預(yù)設(shè)值,則將所述待處理多語言混合文本與翻譯輸出的語言的詞法特征、句法特征進(jìn)行關(guān)聯(lián);

29、在多語言混合文本翻譯時,優(yōu)選在所述共享特征空間查找到相似性達(dá)到預(yù)設(shè)值的詞法特征、句法特征;

30、以相似性達(dá)到預(yù)設(shè)值的詞法特征、句法特征所對應(yīng)的翻譯輸出的語言進(jìn)行翻譯。

31、為了解決上述技術(shù)問題,本技術(shù)實(shí)施例還提供一種多語言混合文本翻譯裝置,采用了如下所述的技術(shù)方案:

32、一種多語言混合文本翻譯裝置,包括:

33、獲取模塊,用于獲取輸入文本,將輸入文本轉(zhuǎn)化為utf-8編碼;

34、拼接模塊,用于將目標(biāo)語言的提示文本與轉(zhuǎn)化為utf-8編碼的輸入文本進(jìn)行拼接,得到拼接文本,將拼接文本轉(zhuǎn)化為utf-8編碼;

35、訓(xùn)練模塊,用于基于所述轉(zhuǎn)化為utf-8編碼的輸入文本和所述拼接文本對byt5模型進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練的byt5模型;

36、處理模塊,用于將待處理多語言混合文本輸入所述預(yù)訓(xùn)練的byt5模型,生成目標(biāo)語言的翻譯輸出。

37、進(jìn)一步的,所述裝置還包括:

38、特征關(guān)系學(xué)習(xí)模塊,用于學(xué)習(xí)將待處理多語言混合文本與翻譯輸出的語言的特征關(guān)系,并將該特征關(guān)系映射至一共享特征空間,在評價byt5模型時將特征關(guān)系作為評價標(biāo)準(zhǔn)。

39、進(jìn)一步的,所述拼接模塊包括:

40、轉(zhuǎn)化子模塊,用于將目標(biāo)語言的提示文本轉(zhuǎn)化為utf-8編碼,該提示文本用于提示預(yù)訓(xùn)練的byt5模型將輸入文本翻譯成目標(biāo)語言;

41、拼接子模塊,用于將轉(zhuǎn)化為utf-8編碼的提示文本作為前綴與轉(zhuǎn)化為utf-8編碼的輸入文本進(jìn)行拼接。

42、為了解決上述技術(shù)問題,本技術(shù)實(shí)施例還提供一種計算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:

43、一種計算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計算機(jī)可讀指令,所述處理器執(zhí)行所述計算機(jī)可讀指令時實(shí)現(xiàn)上所述的多語言混合文本翻譯方法的步驟。

44、為了解決上述技術(shù)問題,本技術(shù)實(shí)施例還提供一種計算機(jī)可讀存儲介質(zhì),采用了如下所述的技術(shù)方案:

45、一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)可讀指令,所述計算機(jī)可讀指令被處理器執(zhí)行時實(shí)現(xiàn)如上所述的多語言混合文本翻譯方法的步驟。

46、與現(xiàn)有技術(shù)相比,本技術(shù)實(shí)施例主要有以下有益效果:本技術(shù)獲取輸入文本并轉(zhuǎn)化為utf-8編碼,借助utf-8的特性,可以支持全球大部分國家所使用的語言文本,解決了傳統(tǒng)機(jī)器翻譯模型由于受限于令牌編碼問題,僅支持單一語向翻譯的問題,將目標(biāo)語言的提示文本與轉(zhuǎn)化為utf-8編碼的輸入文本進(jìn)行拼接,再通過預(yù)訓(xùn)練的byt5模型,能夠充分利用各語言翻譯數(shù)據(jù)來學(xué)習(xí)相同高維語義分布,讓單個模型能夠靈活處理多對多雙語向單語言文本輸入的翻譯任務(wù)和多語言混雜文本輸入的翻譯任務(wù)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
绵阳市| 洛浦县| 长宁县| 日照市| 开封县| 文成县| 宁德市| 浦江县| 长海县| 陆川县| 湛江市| 滦平县| 洪雅县| 南投县| 方山县| 根河市| 镇康县| 叙永县| 武陟县| 鹤山市| 玛沁县| 青龙| 文昌市| 理塘县| 广丰县| 永和县| 高台县| 盖州市| 阳泉市| 宜昌市| 宾阳县| 雷州市| 青州市| 沙洋县| 苗栗市| 广元市| 公安县| 咸宁市| 郯城县| 舞钢市| 孝昌县|