本發(fā)明涉及翻譯處理,更具體地說(shuō),本發(fā)明涉及一種基于預(yù)訓(xùn)練大語(yǔ)言模型的智能機(jī)器翻譯方法及裝置。
背景技術(shù):
1、隨著全球化進(jìn)程的加快,跨語(yǔ)言溝通的重要性愈加顯著,機(jī)器翻譯作為消除語(yǔ)言障礙的關(guān)鍵技術(shù),已廣泛應(yīng)用于各個(gè)行業(yè);然而,現(xiàn)有的基于規(guī)則、短語(yǔ)和統(tǒng)計(jì)模型的翻譯系統(tǒng)在應(yīng)對(duì)復(fù)雜的句法結(jié)構(gòu)、行業(yè)專用術(shù)語(yǔ)和語(yǔ)境理解方面表現(xiàn)出明顯的局限性;這些系統(tǒng)在處理多語(yǔ)言、多領(lǐng)域和多場(chǎng)景的翻譯任務(wù)時(shí),往往難以保證翻譯的準(zhǔn)確性和連貫性,尤其在面對(duì)專業(yè)領(lǐng)域如技術(shù)文獻(xiàn)、法律文件或醫(yī)學(xué)文檔等高度依賴術(shù)語(yǔ)精準(zhǔn)性的任務(wù)時(shí),傳統(tǒng)翻譯方法的不足更加凸顯。
2、隨著人工智能技術(shù)的快速發(fā)展,預(yù)訓(xùn)練的大語(yǔ)言模型的出現(xiàn)為機(jī)器翻譯領(lǐng)域帶來(lái)了新的突破;通過(guò)在大規(guī)模語(yǔ)料庫(kù)上進(jìn)行無(wú)監(jiān)督學(xué)習(xí),預(yù)訓(xùn)練的大語(yǔ)言模型展現(xiàn)出了強(qiáng)大的語(yǔ)義理解和語(yǔ)言生成能力,能夠更好地捕捉復(fù)雜的上下文關(guān)系并生成更符合目標(biāo)語(yǔ)言習(xí)慣的譯文;然而,這些大語(yǔ)言模型在短文語(yǔ)料和專業(yè)領(lǐng)域術(shù)語(yǔ)場(chǎng)景下進(jìn)行翻譯時(shí),往往無(wú)法有效識(shí)別并修正專業(yè)術(shù)語(yǔ)的翻譯錯(cuò)誤,導(dǎo)致在專有領(lǐng)域的短文翻譯上,仍存在專業(yè)性和準(zhǔn)確性的欠缺,無(wú)法保證翻譯或糾錯(cuò)的可靠性與一致性,進(jìn)而難以滿足專業(yè)技術(shù)人員的高效翻譯需求。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明的實(shí)施例提供一種基于預(yù)訓(xùn)練大語(yǔ)言模型的智能機(jī)器翻譯方法及裝置。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、第一方面,提供了一種基于預(yù)訓(xùn)練大語(yǔ)言模型的智能機(jī)器翻譯方法,所述方法包括:
4、利用預(yù)訓(xùn)練大語(yǔ)言模型對(duì)短文語(yǔ)料進(jìn)行翻譯,得到包含至少一個(gè)翻譯短句的第一翻譯文本,并提取每個(gè)翻譯短句中的詞組集;所述短文語(yǔ)料中包含至少一個(gè)原始短句,所述詞組集中包含主語(yǔ)、謂語(yǔ)和賓語(yǔ);
5、將翻譯短句中的主語(yǔ)和賓語(yǔ)融合為待測(cè)組合實(shí)體后,輸入預(yù)設(shè)的專業(yè)知識(shí)圖譜中進(jìn)行遍歷,根據(jù)遍歷結(jié)果獲取待測(cè)組合實(shí)體的共現(xiàn)頻率值,并根據(jù)共現(xiàn)頻率值判斷對(duì)應(yīng)翻譯短句是否存在翻譯歧義;
6、當(dāng)存在翻譯歧義時(shí),將對(duì)應(yīng)翻譯短句中的主語(yǔ)和賓語(yǔ)作為歧義術(shù)語(yǔ)詞,并基于對(duì)應(yīng)翻譯短句中的詞組集搜索出多個(gè)替換詞組,根據(jù)替換詞組對(duì)翻譯短句中的歧義術(shù)語(yǔ)詞進(jìn)行替換,得到多個(gè)替換短句;
7、在對(duì)每個(gè)替換短句進(jìn)行回譯后,計(jì)算每個(gè)回譯后的替換短句與對(duì)應(yīng)原始短句的相似度,根據(jù)相似度大小獲取對(duì)應(yīng)原始短句的修正譯文;
8、重復(fù)上述步驟,直至得到每個(gè)原始短句的修正譯文,將每個(gè)原始短句的修正譯文融合為第二翻譯文本。
9、進(jìn)一步地,所述預(yù)設(shè)的專業(yè)知識(shí)圖譜的生成邏輯如下:
10、從專業(yè)領(lǐng)域的平行語(yǔ)料庫(kù)中,抽取出每句語(yǔ)句的主-謂-賓結(jié)構(gòu),得到知識(shí)數(shù)據(jù),所述知識(shí)數(shù)據(jù)包括主語(yǔ)、謂語(yǔ)和賓語(yǔ);
11、分別將每句語(yǔ)句中的主語(yǔ)和賓語(yǔ)作為單一實(shí)體,以及將每句語(yǔ)句中的謂語(yǔ)作為單一實(shí)體之間的關(guān)系;
12、根據(jù)單一實(shí)體和單一實(shí)體之間的關(guān)系,構(gòu)建出包含<單一實(shí)體,關(guān)系,單一實(shí)體>的三元組,將三元組中單一實(shí)體作為圖譜的初始節(jié)點(diǎn),以及將單一實(shí)體之間的關(guān)系作為圖譜中節(jié)點(diǎn)之間的初始邊,形成初始知識(shí)圖譜;
13、分別將每句語(yǔ)句中的主語(yǔ)和賓語(yǔ)融合作為組合實(shí)體,并獲取組合實(shí)體的共現(xiàn)頻率值,并將共現(xiàn)頻率值作為組合實(shí)體的屬性值;
14、根據(jù)預(yù)定義單一實(shí)體與組合實(shí)體之間的關(guān)系以及組合實(shí)體的屬性規(guī)則,構(gòu)建出包含<單一實(shí)體,關(guān)系,組合實(shí)體>和<組合實(shí)體,屬性,屬性值>的新三元組;
15、將新三元組中組合實(shí)體作為新增節(jié)點(diǎn),以及將新三元組中單一實(shí)體與組合實(shí)體之間的關(guān)系作為新增邊;
16、根據(jù)新增節(jié)點(diǎn)和新增邊對(duì)初始知識(shí)圖譜進(jìn)行圖譜擴(kuò)充,并根據(jù)新三元組中的屬性值對(duì)組合實(shí)體的屬性進(jìn)行補(bǔ)充,形成專業(yè)知識(shí)圖譜。
17、進(jìn)一步地,所述根據(jù)遍歷結(jié)果獲取待測(cè)組合實(shí)體的共現(xiàn)頻率值,包括:
18、提取遍歷結(jié)果;
19、若遍歷結(jié)果返回為在專業(yè)知識(shí)圖譜中的某一組合實(shí)體,則獲取對(duì)應(yīng)組合實(shí)體的屬性,并根據(jù)對(duì)應(yīng)組合實(shí)體的屬性調(diào)取對(duì)應(yīng)的屬性值,得到待測(cè)組合實(shí)體的共現(xiàn)頻率值;
20、若遍歷結(jié)果返回為空集,則將待測(cè)組合實(shí)體的共現(xiàn)頻率值輸出為零。
21、進(jìn)一步地,所述判斷對(duì)應(yīng)翻譯短句是否存在翻譯歧義,包括:
22、獲取待測(cè)組合實(shí)體的共現(xiàn)頻率值,將共現(xiàn)頻率值與預(yù)設(shè)的共現(xiàn)頻率閾值進(jìn)行比對(duì);
23、若共現(xiàn)頻率值大于共現(xiàn)頻率閾值,則判定待測(cè)組合實(shí)體所屬的對(duì)應(yīng)翻譯短句不存在翻譯歧義;
24、若共現(xiàn)頻率值小于等于共現(xiàn)頻率閾值,則判定待測(cè)組合實(shí)體所屬的對(duì)應(yīng)翻譯短句存在翻譯歧義。
25、進(jìn)一步地,所述基于對(duì)應(yīng)翻譯短句中的詞組集搜索出多個(gè)替換詞組,包括:
26、提取對(duì)應(yīng)翻譯短句中的主語(yǔ)和謂語(yǔ);或提取對(duì)應(yīng)翻譯短句中的謂語(yǔ)和賓語(yǔ);
27、將主語(yǔ)和謂語(yǔ)作為一個(gè)詞組對(duì)x,或?qū)⒅^語(yǔ)和賓語(yǔ)作為另一個(gè)詞組對(duì)y;
28、將詞組對(duì)x或詞組對(duì)y輸入專業(yè)知識(shí)圖譜中進(jìn)行檢索,獲取與詞組對(duì)x或詞組對(duì)y相匹配的知識(shí)數(shù)據(jù),所述知識(shí)數(shù)據(jù)包含一個(gè)與主語(yǔ)相同的單一實(shí)體、與謂語(yǔ)相匹配的單一實(shí)體之間的關(guān)系以及多個(gè)與主語(yǔ)相關(guān)的單一實(shí)體;或包含一個(gè)與賓語(yǔ)相同的單一實(shí)體、與謂語(yǔ)相匹配的單一實(shí)體之間的關(guān)系以及多個(gè)與賓語(yǔ)相關(guān)的單一實(shí)體;
29、將每個(gè)與主語(yǔ)相關(guān)的單一實(shí)體作為替換詞組,或?qū)⒚總€(gè)與主語(yǔ)相關(guān)的單一實(shí)體作為替換詞組,得到多個(gè)替換詞組。
30、進(jìn)一步地,所述根據(jù)相似度大小獲取對(duì)應(yīng)原始短句的修正譯文,包括:
31、調(diào)取每個(gè)回譯后的替換短句與對(duì)應(yīng)原始短句的相似度,得到多個(gè)相似度;
32、從多個(gè)相似度中篩選出大于預(yù)設(shè)相似度閾值的相似度,將大于預(yù)設(shè)相似度閾值的相似度作為可信相似度,得到多個(gè)可信相似度;
33、按數(shù)值從大到小,對(duì)多個(gè)可信相似度進(jìn)行排序,將可信相似度排序第一對(duì)應(yīng)的回譯前的替換短句,作為對(duì)應(yīng)原始短句的修正譯文。
34、第二方面,提供了一種基于預(yù)訓(xùn)練大語(yǔ)言模型的智能機(jī)器翻譯裝置,包括:
35、模型翻譯模塊,用于利用預(yù)訓(xùn)練大語(yǔ)言模型對(duì)短文語(yǔ)料進(jìn)行翻譯,得到包含至少一個(gè)翻譯短句的第一翻譯文本,并提取每個(gè)翻譯短句中的詞組集;所述短文語(yǔ)料中包含至少一個(gè)原始短句,所述詞組集中包含主語(yǔ)、謂語(yǔ)和賓語(yǔ);
36、翻譯檢測(cè)模塊,用于將翻譯短句中的主語(yǔ)和賓語(yǔ)融合為待測(cè)組合實(shí)體后,輸入預(yù)設(shè)的專業(yè)知識(shí)圖譜中進(jìn)行遍歷,根據(jù)遍歷結(jié)果獲取待測(cè)組合實(shí)體的共現(xiàn)頻率值,并根據(jù)共現(xiàn)頻率值判斷對(duì)應(yīng)翻譯短句是否存在翻譯歧義;
37、搜索替換模塊,用于當(dāng)存在翻譯歧義時(shí),將對(duì)應(yīng)翻譯短句中的主語(yǔ)和賓語(yǔ)作為歧義術(shù)語(yǔ)詞,并基于對(duì)應(yīng)翻譯短句中的詞組集搜索出多個(gè)替換詞組,根據(jù)替換詞組對(duì)翻譯短句中的歧義術(shù)語(yǔ)詞進(jìn)行替換,得到多個(gè)替換短句;
38、回譯判別模塊,用于在對(duì)每個(gè)替換短句進(jìn)行回譯后,計(jì)算每個(gè)回譯后的替換短句與對(duì)應(yīng)原始短句的相似度,根據(jù)相似度大小獲取對(duì)應(yīng)原始短句的修正譯文;
39、翻譯修正模塊,用于重復(fù)上述步驟,直至得到每個(gè)原始短句的修正譯文,將每個(gè)原始短句的修正譯文融合為第二翻譯文本。
40、第三方面,提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的基于預(yù)訓(xùn)練大語(yǔ)言模型的智能機(jī)器翻譯方法。
41、第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的基于預(yù)訓(xùn)練大語(yǔ)言模型的智能機(jī)器翻譯方法。
42、相比于現(xiàn)有技術(shù),本發(fā)明的有益效果在于:
43、本技術(shù)公開(kāi)了一種基于預(yù)訓(xùn)練大語(yǔ)言模型的智能機(jī)器翻譯方法及裝置,包括:利用大語(yǔ)言模型對(duì)短文語(yǔ)料進(jìn)行翻譯,得到第一翻譯文本,并提取翻譯短句中的詞組集;將待測(cè)組合實(shí)體輸入專業(yè)知識(shí)圖譜中遍歷,并根據(jù)遍歷后得到的共現(xiàn)頻率值判斷對(duì)應(yīng)翻譯短句是否存在翻譯歧義;當(dāng)存在翻譯歧義時(shí),獲取歧義術(shù)語(yǔ)詞并搜索出替換詞組,根據(jù)替換詞組對(duì)歧義術(shù)語(yǔ)詞進(jìn)行替換,得到替換短句;計(jì)算每個(gè)回譯后的替換短句與對(duì)應(yīng)原始短句的相似度,根據(jù)相似度大小獲取修正譯文;重復(fù)上述步驟,直至得到每個(gè)原始短句的修正譯文,將每個(gè)原始短句的修正譯文融合為第二翻譯文本;基于上述技術(shù)特征,本發(fā)明能夠有效識(shí)別并修正專業(yè)術(shù)語(yǔ)的翻譯錯(cuò)誤,特別是在短文語(yǔ)料和專業(yè)領(lǐng)域術(shù)語(yǔ)場(chǎng)景下,顯著提高了翻譯的準(zhǔn)確性,且能保證翻譯或糾錯(cuò)的可靠性與一致性,進(jìn)而有利于極大程度上滿足專業(yè)技術(shù)人員的高效翻譯需求。