本技術(shù)涉及機(jī)器翻譯,尤其涉及一種基于親屬語言的機(jī)器翻譯方法。
背景技術(shù):
1、親屬語言通常來自于同一個語系,有相同的詞序和詞匯特征,具有單調(diào)翻譯關(guān)系,大量商業(yè)活動和社會關(guān)系也會發(fā)生在講親屬語言的鄰近區(qū)域間。近年來在機(jī)器翻譯領(lǐng)域中,大量利用大語言模型來進(jìn)行翻譯,而由于翻譯的推理過程可能造成級聯(lián)錯誤,在翻譯時(shí)使用第三方中繼語來進(jìn)行親屬語言之間的翻譯是十分低效的。
2、然而,大語言模型所生成的翻譯通常會確保流利的語序,這就容易忽略掉被翻譯語言的獨(dú)有內(nèi)在特征,此外,大語言模型在選用訓(xùn)練數(shù)據(jù)時(shí)往往傾向于國際通用的幾大語言(例如英語),使得小眾的親屬語言之間的翻譯也可能需要借用通用語言以作為第三方中繼語進(jìn)行翻譯,這導(dǎo)致大語言模型在進(jìn)行親屬語言之間的翻譯時(shí)較為低效、難以發(fā)揮出全部性能。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,本技術(shù)實(shí)施例提出了一種基于親屬語言的機(jī)器翻譯方法,能夠高效且準(zhǔn)確地進(jìn)行親屬語言之間的翻譯,并確保所翻譯出的語言保留被翻譯語言的上下文語義,以保留被翻譯語言的內(nèi)在特征。
2、本技術(shù)實(shí)施例提供了一種基于親屬語言的機(jī)器翻譯方法,包括:
3、獲取翻譯樣例及測試樣例,并確定與所述測試樣例匹配的測試塊,其中,所述翻譯樣例包括由源語言句子及其對應(yīng)的目標(biāo)語言句子組成的句子對,所述測試樣例對應(yīng)的語言為源語言,目標(biāo)語言為源語言的親屬語言;
4、基于所述翻譯樣例及所述測試塊,生成第一提示模板,并根據(jù)所述第一提示模板確定所述測試塊對應(yīng)的第一獨(dú)立翻譯塊;
5、對所述第一獨(dú)立翻譯塊進(jìn)行語法檢測,以根據(jù)語法檢測結(jié)果修正所述第一獨(dú)立翻譯塊,得到第二獨(dú)立翻譯塊;
6、基于所述翻譯樣例及所述第二獨(dú)立翻譯塊,利用上下文翻譯模型生成上下文翻譯塊;
7、基于所述上下文翻譯塊及所述測試塊,進(jìn)行語義驗(yàn)證,以根據(jù)語義驗(yàn)證結(jié)果更新所述上下文翻譯塊,得到目標(biāo)上下文翻譯塊;
8、基于所述目標(biāo)上下文翻譯塊生成與所述測試樣例對應(yīng)的目標(biāo)語言翻譯結(jié)果。
9、可選地,所述測試樣例被分解為若干個所述測試塊,所述基于所述翻譯樣例及所述測試塊,生成第一提示模板,并根據(jù)所述第一提示模板確定所述測試塊對應(yīng)的第一獨(dú)立翻譯塊,包括:
10、基于每一測試塊及所述翻譯樣例,構(gòu)建每一測試塊對應(yīng)的第一提示模板;
11、將每一第一提示模板輸入至預(yù)先配置的多語言預(yù)訓(xùn)練模型中進(jìn)行翻譯,得到每一測試塊對應(yīng)的第一獨(dú)立翻譯塊,其中,所述多語言預(yù)訓(xùn)練模型包括第一mt5模型。
12、可選地,所述源語言句子包含若干第一源語言單詞塊,所述目標(biāo)語言句子包含與所述若干第一源語言單詞塊一一對應(yīng)的若干第一目標(biāo)語言單詞塊,所述基于每一測試塊及所述翻譯樣例,構(gòu)建每一測試塊對應(yīng)的第一提示模板,包括:
13、拼接每一第一源語言單詞塊及其對應(yīng)的第一目標(biāo)語言單詞塊,以構(gòu)建出每一第一源語言單詞塊對應(yīng)的獨(dú)立翻譯提示模板;
14、基于所述若干第一源語言單詞塊各自對應(yīng)的獨(dú)立翻譯提示模板,以及每一測試塊,構(gòu)建每一測試塊對應(yīng)的第一提示模板。
15、可選地,所述對所述第一獨(dú)立翻譯塊進(jìn)行語法檢測,以根據(jù)語法檢測結(jié)果修正所述第一獨(dú)立翻譯塊,得到第二獨(dú)立翻譯塊,包括:
16、利用第一深度學(xué)習(xí)模型,根據(jù)目標(biāo)語言所使用的目標(biāo)語法規(guī)則,對每一第一獨(dú)立翻譯塊進(jìn)行語法檢測,得到相應(yīng)的語法檢測結(jié)果,其中,所述第一深度學(xué)習(xí)模型包括roberta模型;
17、針對每一第一獨(dú)立翻譯塊,若該第一獨(dú)立翻譯塊對應(yīng)的語法檢測結(jié)果表征存在語法錯誤,則生成與所存在的語法錯誤相匹配的語法標(biāo)注結(jié)果,并將所述語法標(biāo)注結(jié)果反饋至所述多語言預(yù)訓(xùn)練模型,以使所述多語言預(yù)訓(xùn)練模型根據(jù)所述語法標(biāo)注結(jié)果對該第一獨(dú)立翻譯塊進(jìn)行修正,得到該第一獨(dú)立翻譯塊對應(yīng)的第二獨(dú)立翻譯塊,若不存在所述語法錯誤,則以該第一獨(dú)立翻譯塊作為對應(yīng)的第二獨(dú)立翻譯塊。
18、可選地,所述測試樣例被分解為具有先后順序的若干個所述測試塊,所述先后順序由所述測試樣例所指示文本的文本結(jié)構(gòu)確定,所述基于所述翻譯樣例及所述第二獨(dú)立翻譯塊,利用上下文翻譯模型生成上下文翻譯塊,包括:
19、針對每一測試塊,至少基于該測試塊及其相鄰測試塊,該測試塊及其相鄰測試塊各自所對應(yīng)的第二獨(dú)立翻譯塊,以及所述翻譯樣例,構(gòu)建該測試塊對應(yīng)的第二提示模板;
20、利用所述上下文翻譯模型,基于每一測試塊對應(yīng)的第二提示模板進(jìn)行上下文翻譯,生成每一測試塊對應(yīng)的上下文翻譯塊,其中,所述上下文翻譯模型包括第二mt5模型。
21、可選地,所述至少基于該測試塊及其相鄰測試塊,該測試塊及其相鄰測試塊各自所對應(yīng)的第二獨(dú)立翻譯塊,以及所述翻譯樣例,構(gòu)建該測試塊對應(yīng)的第二提示模板,包括:
22、基于該測試塊及其相鄰測試塊,該測試塊及其相鄰測試塊各自所對應(yīng)的第二獨(dú)立翻譯塊,所述翻譯樣例,以及該測試塊的上一個測試塊所對應(yīng)的上下文翻譯塊,構(gòu)建該測試塊對應(yīng)的第二提示模板。
23、可選地,所述源語言句子包含若干第二源語言單詞塊,所述目標(biāo)語言句子包含與所述若干第二源語言單詞塊一一對應(yīng)的若干第二目標(biāo)語言單詞塊;所述基于該測試塊及其相鄰測試塊,該測試塊及其相鄰測試塊各自所對應(yīng)的第二獨(dú)立翻譯塊,所述翻譯樣例,以及該測試塊的上一個測試塊所對應(yīng)的上下文翻譯塊,構(gòu)建該測試塊對應(yīng)的第二提示模板,包括:
24、拼接每一第二源語言單詞塊及其對應(yīng)的第二目標(biāo)語言單詞塊,以構(gòu)建出每一第二源語言單詞塊對應(yīng)的上下文翻譯提示模板;
25、基于所述若干第二源語言單詞塊各自對應(yīng)的上下文翻譯提示模板,該測試塊及其相鄰測試塊,該測試塊及其相鄰測試塊各自所對應(yīng)的第二獨(dú)立翻譯塊,以及該測試塊的上一個測試塊所對應(yīng)的上下文翻譯塊,構(gòu)建該測試塊對應(yīng)的第二提示模板。
26、可選地,所述基于所述上下文翻譯塊及所述測試塊,進(jìn)行語義驗(yàn)證,包括:
27、通過第二深度學(xué)習(xí)模型,確定每一測試塊與其對應(yīng)的上下文翻譯塊之間的語義相似度評分,其中,所述第二深度學(xué)習(xí)模型包括sentence-bert模型;
28、對于每一測試塊,通過所述第二深度學(xué)習(xí)模型,確定該測試塊所對應(yīng)的上下文翻譯塊,與上一測試塊所對應(yīng)的上下文翻譯塊之間的語義銜接度,以作為該測試塊所對應(yīng)的語義銜接評分;
29、基于每一上下文翻譯塊對應(yīng)的語義相似度評分與設(shè)定相似度閾值之間的第一比較結(jié)果,和/或,每一上下文翻譯塊對應(yīng)的語義銜接評分與設(shè)定銜接評分閾值之間的第二比較結(jié)果,確定所述語義驗(yàn)證結(jié)果。
30、可選地,所述語義驗(yàn)證結(jié)果由所述第一比較結(jié)果以及所述第二比較結(jié)果確定,所述根據(jù)語義驗(yàn)證結(jié)果更新所述上下文翻譯塊,得到目標(biāo)上下文翻譯塊,包括:
31、針對每一上下文翻譯塊,
32、在該上下文翻譯塊所對應(yīng)的語義相似度評分不小于所述設(shè)定相似度閾值,且所對應(yīng)的語義銜接評分不小于所述設(shè)定銜接評分閾值的情況下,將該上下文翻譯塊作為對應(yīng)的目標(biāo)上下文翻譯塊;
33、在該上下文翻譯塊所對應(yīng)的語義相似度評分小于所述設(shè)定相似度閾值的情況下,將該上下文翻譯塊所對應(yīng)的第一比較結(jié)果反饋給所述上下文翻譯模型,以使所述上下文翻譯模型根據(jù)所對應(yīng)的第一比較結(jié)果更新該上下文翻譯塊,將更新后的該上下文翻譯塊作為對應(yīng)的目標(biāo)上下文翻譯塊;
34、在該上下文翻譯塊所對應(yīng)的語義銜接評分小于所述設(shè)定銜接評分閾值的情況下,將該上下文翻譯塊所對應(yīng)的第二比較結(jié)果反饋給所述上下文翻譯模型,以使所述上下文翻譯模型根據(jù)所對應(yīng)的第二比較結(jié)果更新該上下文翻譯塊,將更新后的該上下文翻譯塊作為對應(yīng)的目標(biāo)上下文翻譯塊。
35、可選地,所述基于所述目標(biāo)上下文翻譯塊生成與所述測試樣例對應(yīng)的目標(biāo)語言翻譯結(jié)果,包括:
36、按照所述先后順序拼接所述目標(biāo)上下文翻譯塊,得到初始語言翻譯結(jié)果;
37、通過第二深度學(xué)習(xí)模型,對所述初始語言翻譯結(jié)果進(jìn)行連貫性檢測,若連貫性檢測結(jié)果指示檢測通過,則將所述初始語言翻譯結(jié)果作為目標(biāo)語言翻譯結(jié)果,否則根據(jù)所述連貫性檢測結(jié)果使用所述上下文翻譯模型修正所述初始語言翻譯結(jié)果,直至修正后的初始語言翻譯結(jié)果通過連貫性檢測,將通過連貫性檢測的初始語言翻譯結(jié)果作為目標(biāo)語言翻譯結(jié)果;
38、其中,所述連貫性檢測結(jié)果包括如下至少之一:語義連貫性檢測結(jié)果、語法連貫性檢測結(jié)果。
39、綜上,本技術(shù)實(shí)施例至少具有以下有益效果:
40、采用本技術(shù)實(shí)施例,通過獲取翻譯樣例及測試樣例,并確定與所述測試樣例匹配的測試塊,其中,所述翻譯樣例包括由源語言句子及其對應(yīng)的目標(biāo)語言句子組成的句子對,所述測試樣例對應(yīng)的語言為源語言,目標(biāo)語言為源語言的親屬語言;基于所述翻譯樣例及所述測試塊,生成第一提示模板,并根據(jù)所述第一提示模板確定所述測試塊對應(yīng)的第一獨(dú)立翻譯塊;對所述第一獨(dú)立翻譯塊進(jìn)行語法檢測,以根據(jù)語法檢測結(jié)果修正所述第一獨(dú)立翻譯塊,得到第二獨(dú)立翻譯塊;基于所述翻譯樣例及所述第二獨(dú)立翻譯塊,利用上下文翻譯模型生成上下文翻譯塊;基于所述上下文翻譯塊及所述測試塊,進(jìn)行語義驗(yàn)證,以根據(jù)語義驗(yàn)證結(jié)果更新所述上下文翻譯塊,得到目標(biāo)上下文翻譯塊;基于所述目標(biāo)上下文翻譯塊生成與所述測試樣例對應(yīng)的目標(biāo)語言翻譯結(jié)果,從而能夠高效且準(zhǔn)確地進(jìn)行親屬語言之間的翻譯,并確保所翻譯出的語言保留被翻譯語言的上下文語義,以保留被翻譯語言的內(nèi)在特征。