本公開實施例涉及圖像處理,尤其涉及一種圖像處理方法、裝置及電子設(shè)備。
背景技術(shù):
1、多模態(tài)生成技術(shù)是指模型可以生成多種不同形式的數(shù)據(jù)。例如,模型可以將文本轉(zhuǎn)換為圖像,模型也可以將語音轉(zhuǎn)換為圖像等。
2、目前,電子設(shè)備可以基于訓(xùn)練樣本,對多模態(tài)模型進行訓(xùn)練。例如,電子設(shè)備可以基于樣本文本和樣本文本對應(yīng)的圖像,對文本轉(zhuǎn)圖像模型進行訓(xùn)練,在訓(xùn)練結(jié)束時,該文本轉(zhuǎn)圖像模型可以將文本轉(zhuǎn)換為圖像。但是,多模態(tài)生成的模型的步數(shù)較多,模型在推理過程中所需的時間較長,進而導(dǎo)致模型處理的效率較低。
技術(shù)實現(xiàn)思路
1、本公開提供一種圖像處理方法、裝置及電子設(shè)備,用于解決現(xiàn)有技術(shù)中的一個或多個技術(shù)問題。
2、第一方面,本公開提供一種圖像處理方法,該方法包括:
3、獲取將文本轉(zhuǎn)換為圖像的第一模型、待訓(xùn)練的文本轉(zhuǎn)圖像模型和第一文本,所述第一模型的模型步數(shù)為m*n,所述文本轉(zhuǎn)圖像模型的模型步數(shù)為n,所述m為大于1的整數(shù),所述n為大于0的整數(shù);
4、根據(jù)所述第一模型對所述第一文本進行處理,確定所述第一模型每步生成的第一預(yù)測圖像,得到m*n個第一預(yù)測圖像;
5、根據(jù)所述文本轉(zhuǎn)圖像模型對所述第一文本進行處理,確定所述文本轉(zhuǎn)圖像模型每步生成的第二預(yù)測圖像,得到n個第二預(yù)測圖像;
6、根據(jù)所述m*n個第一預(yù)測圖像和n個第二預(yù)測圖像,對所述文本轉(zhuǎn)圖像模型的模型參數(shù)進行更新。
7、第二方面,本公開提供一種圖像處理裝置,該圖像處理裝置包括獲取模塊、第一確定模塊、第二確定模塊和更新模塊,其中:
8、所述獲取模塊用于,獲取將文本轉(zhuǎn)換為圖像的第一模型、待訓(xùn)練的文本轉(zhuǎn)圖像模型和第一文本,所述第一模型的模型步數(shù)為m*n,所述文本轉(zhuǎn)圖像模型的模型步數(shù)為n,所述m為大于1的整數(shù),所述n為大于0的整數(shù);
9、所述第一確定模塊用于,根據(jù)所述第一模型對所述第一文本進行處理,確定所述第一模型每步生成的第一預(yù)測圖像,得到m*n個第一預(yù)測圖像;
10、所述第二確定模塊用于,根據(jù)所述文本轉(zhuǎn)圖像模型對所述第一文本進行處理,確定所述文本轉(zhuǎn)圖像模型每步生成的第二預(yù)測圖像,得到n個第二預(yù)測圖像;
11、所述更新模塊用于,根據(jù)所述m*n個第一預(yù)測圖像和n個第二預(yù)測圖像,對所述文本轉(zhuǎn)圖像模型的模型參數(shù)進行更新。
12、第三方面,本公開實施例提供一種電子設(shè)備包括:處理器和存儲器;
13、所述存儲器存儲計算機執(zhí)行指令;
14、所述處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令,使得所述至少一個處理器執(zhí)行如上第一方面以及第一方面各種可能涉及的所述圖像處理方法。
15、第四方面,本公開實施例提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,當處理器執(zhí)行所述計算機執(zhí)行指令時,實現(xiàn)如上第一方面以及第一方面各種可能涉及的所述圖像處理方法。
16、本公開提供一種圖像處理方法、裝置及電子設(shè)備,電子設(shè)備可以獲取將文本轉(zhuǎn)換為圖像的第一模型、待訓(xùn)練的文本轉(zhuǎn)圖像模型和第一文本,其中,第一模型的模型步數(shù)為m*n,文本轉(zhuǎn)圖像模型的模型步數(shù)為n,m為大于1的整數(shù),n為大于0的整數(shù),根據(jù)第一模型對第一文本進行處理,確定第一模型每步生成的第一預(yù)測圖像,得到m*n個第一預(yù)測圖像,根據(jù)文本轉(zhuǎn)圖像模型對第一文本進行處理,確定文本轉(zhuǎn)圖像模型每步生成的第二預(yù)測圖像,得到n個第二預(yù)測圖像,根據(jù)m*n個第一預(yù)測圖像和n個第二預(yù)測圖像,對文本轉(zhuǎn)圖像模型的模型參數(shù)進行更新。在上述方法中,由于文本轉(zhuǎn)圖像模型的模型步數(shù)小于第一模型的模型步數(shù),并且,電子設(shè)備可以基于第一模型的多步的輸出結(jié)果,對文本轉(zhuǎn)圖像模型的每步輸出進行監(jiān)督,因此,文本轉(zhuǎn)圖像模型可以學(xué)習到第一模型的能力,并且,文本轉(zhuǎn)圖像模型的步數(shù)較少,模型推理所需的時間較少,進而可以提高文本轉(zhuǎn)圖像模型的處理效率。
1.一種圖像處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述m*n個第一預(yù)測圖像和n個第二預(yù)測圖像,對所述文本轉(zhuǎn)圖像模型的模型參數(shù)進行更新,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述在所述m*n個第一預(yù)測圖像中確定n個目標預(yù)測圖像,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述n個目標預(yù)測圖像和所述n個第二預(yù)測圖像,對所述文本轉(zhuǎn)圖像模型的模型參數(shù)進行更新,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述n個目標損失,對所述文本轉(zhuǎn)圖像模型的模型參數(shù)進行更新,包括:
6.根據(jù)權(quán)利要求1-5任一項所述的方法,其特征在于,所述獲取將文本轉(zhuǎn)換為圖像的第一模型,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述第二模型和所述多個第二文本,對所述初始模型進行訓(xùn)練,包括:
8.一種圖像處理模型,其特征在于,包括獲取模塊、第一確定模塊、第二確定模塊和更新模塊,其中:
9.一種電子設(shè)備,其特征在于,包括:處理器和存儲器;
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,當處理器執(zhí)行所述計算機執(zhí)行指令時,實現(xiàn)如權(quán)利要求1-7任一項所述的圖像處理方法。