本發(fā)明涉及金融科技,尤其涉及二值量化翻譯模型的生成方法、機器翻譯方法及相關設備。
背景技術:
1、機器翻譯,又稱為自動翻譯,是利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程。隨著經濟全球化及互聯(lián)網的飛速發(fā)展,機器翻譯技術在多個領域起到越來越重要的作用,在金融領域,通過機器翻譯模型可以減少人工翻譯的時間和費用,提高翻譯速度和翻譯質量。
2、同時,目前隨著邊緣計算的發(fā)展,在端側使用ai技術可以即時處理采集的數(shù)據(jù),無需上傳到云端處理中心,從而顯著提高了系統(tǒng)響應速度和減少了處理延遲,因此在金融領域也將越來越多的ai模型部署在邊緣計算端,以更高效地處理有價值的關鍵數(shù)據(jù),減輕網絡帶寬限制和降低中心存儲壓力。
3、然而,對于機器翻譯的邊端部署,傳統(tǒng)的機器翻譯模型通常都非常龐大,邊緣設備的計算資源和內存容量有限,無法勝任復雜的機器翻譯模型,傳統(tǒng)的int8量化只能將浮點數(shù)轉換為-128到127之間的整數(shù),這對于復雜的模型來說難以滿足要求,因此難以將大型的機器翻譯模型壓縮到適應邊緣設備的配置,使得機器翻譯模型在邊緣設備上的部署十分困難。
技術實現(xiàn)思路
1、鑒于上述現(xiàn)有技術的不足,本發(fā)明的目的在于提供可應用于金融科技或其它相關領域的二值量化翻譯模型的生成方法、機器翻譯方法及相關設備,其主要目的在于提高機器翻譯模型與邊端設備的適配性,使得翻譯模型可以部署在邊緣計算端以提高翻譯效率。
2、本發(fā)明的技術方案如下:
3、本發(fā)明第一方面提供一種二值量化翻譯模型的生成方法,包括:
4、采集多種語言的樣本數(shù)據(jù),根據(jù)所述多種語言的樣本數(shù)據(jù)構建多個雙語句對,所述雙語句對包括互譯的兩個語句文本;
5、將所述雙語句對作為訓練樣本,通過知識蒸餾對預訓練的原始翻譯模型和壓縮翻譯模型進行訓練,所述壓縮翻譯模型是對所述原始翻譯模型進行二值量化處理得到的;
6、將完成訓練的壓縮翻譯模型作為可部署到邊端設備的二值量化翻譯模型,所述二值量化翻譯模型用于將給定的源語言語句轉換為目標語言語句。
7、在一個實施例中,所述將所述雙語句對作為訓練樣本,通過知識蒸餾對預訓練的原始翻譯模型和壓縮翻譯模型進行訓練,包括:
8、將所述雙語句對中的第一語言文本同時輸入到預訓練的原始翻譯模型和壓縮翻譯模型中,獲得預訓練的原始翻譯模型的第一預測輸出以及壓縮翻譯模型的第二預測輸出;
9、根據(jù)所述第一預測輸出、第二預測輸出以及所述雙語句對中與所述第一語言文本對應的第二語言文本,按預設的知識蒸餾策略調整所述壓縮翻譯模型的參數(shù),直到滿足預設收斂條件則完成訓練。
10、在一個實施例中,所述根據(jù)所述第一預測輸出、第二預測輸出以及所述雙語句對中與所述第一語言文本對應的第二語言文本,按預設的知識蒸餾策略調整所述壓縮翻譯模型的參數(shù),包括:
11、根據(jù)所述第一預測輸出和第二預測輸出計算所述壓縮翻譯模型的軟標簽損失;
12、根據(jù)所述第二預測輸出和所述第二語言文本計算所述壓縮翻譯模型的硬標簽損失;
13、根據(jù)所述軟標簽損失和硬標簽損失計算得到總損失,根據(jù)所述總損失反向傳播調整所述壓縮翻譯模型的參數(shù)。
14、在一個實施例中,所述對所述原始翻譯模型進行二值量化處理,包括:
15、對所述原始翻譯模型中的浮點數(shù)進行二值化處理;
16、通過縮放因子或層歸一化函數(shù)對二值化的浮點數(shù)進行縮放操作;
17、對二值化的注意力層添加殘差操作,得到二值量化的壓縮翻譯模型。
18、在一個實施例中,所述對所述原始翻譯模型中的浮點數(shù)進行二值化處理,具體包括:
19、通過公式clip(x,xmin,xmax):=min(xmax,max(xmin,x))
20、
21、對所述原始翻譯模型中的浮點數(shù)進行二值化處理,其中,x為輸入的浮點數(shù),xmin為x中的最小值,xmax為x中的最大值;xb是對x二值化后的結果,ε是一個浮點數(shù),b是二值化界限,clip為裁剪函數(shù),floor為向下取整操作。
22、本發(fā)明第二方面提供一種機器翻譯方法,包括:
23、獲取待翻譯的源語言語句;
24、將所述待翻譯的源語言語句輸入至二值量化翻譯模型中,輸出與所述源語言語句對應的目標語言語句;
25、其中,所述二值量化翻譯模型采用如上所述的二值量化翻譯模型的生成方法得到。
26、本發(fā)明第三方面提供一種二值量化翻譯模型的生成裝置,包括:
27、采集構建模塊,用于采集多種語言的樣本數(shù)據(jù),根據(jù)所述多種語言的樣本數(shù)據(jù)構建多個雙語句對,所述雙語句對包括互譯的兩個語句文本;
28、訓練模塊,將所述雙語句對作為訓練樣本,通過知識蒸餾對預訓練的原始翻譯模型和壓縮翻譯模型進行訓練,所述壓縮翻譯模型是對所述原始翻譯模型進行二值量化處理得到的;
29、生成部署模塊,用于將完成訓練的壓縮翻譯模型作為可部署到邊端設備的二值量化翻譯模型,所述二值量化翻譯模型用于將給定的源語言語句轉換為目標語言語句。
30、本發(fā)明第四方面提供一種機器翻譯裝置,包括:
31、獲取模塊,用于獲取待翻譯的源語言語句;
32、翻譯模塊,用于將所述待翻譯的源語言語句輸入至二值量化翻譯模型中,輸出與所述源語言語句對應的目標語言語句;
33、其中,所述二值量化翻譯模型采用如上所述的二值量化翻譯模型的生成方法得到。
34、本發(fā)明第五方面提供一種電子設備,包括至少一個處理器;以及,
35、與所述至少一個處理器通信連接的存儲器;其中,
36、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述二值量化翻譯模型的生成方法或者執(zhí)行上述機器翻譯方法。
37、本發(fā)明第六方面提供一種非易失性計算機可讀存儲介質,所述非易失性計算機可讀存儲介質存儲有計算機可執(zhí)行指令,該計算機可執(zhí)行指令被一個或多個處理器執(zhí)行時,可使得所述一個或多個處理器執(zhí)行上述的二值量化翻譯模型的生成方法或者執(zhí)行上述機器翻譯方法。
38、有益效果:本發(fā)明公開了二值量化翻譯模型的生成方法、機器翻譯方法及相關設備,相比于現(xiàn)有技術,本發(fā)明實施例采集多種語言的樣本數(shù)據(jù),根據(jù)多種語言的樣本數(shù)據(jù)構建多個雙語句對,雙語句對包括互譯的兩個語句文本;將雙語句對作為訓練樣本,通過知識蒸餾對預訓練的原始翻譯模型和壓縮翻譯模型進行訓練,壓縮翻譯模型是對原始翻譯模型進行二值量化處理得到的;將完成訓練的壓縮翻譯模型作為可部署到邊端設備的二值量化翻譯模型,二值量化翻譯模型用于將給定的源語言語句轉換為目標語言語句。通過二值量化有效減小翻譯模型規(guī)模,并通過知識蒸餾對模型進行訓練,得到可適應邊緣設備配置且翻譯性能良好的二值量化翻譯模型,使翻譯模型可以成功部署在邊緣計算端,提高翻譯效率。