本申請(qǐng)實(shí)施例涉及但不限于金融科技,尤其涉及一種圖像生成方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在金融行業(yè)領(lǐng)域,根據(jù)輸入文本生成圖像的技術(shù)通常涉及人工智能中的文本到圖像生成任務(wù);這項(xiàng)技術(shù)可以用于多種應(yīng)用,例如生成報(bào)告的插圖、創(chuàng)建個(gè)性化的視覺(jué)內(nèi)容、或者在沒(méi)有實(shí)際圖像的情況下模擬潛在的投資項(xiàng)目的視覺(jué)表示。其中,穩(wěn)定擴(kuò)散模型是一種新型的深度學(xué)習(xí)模型,可以在保持穩(wěn)性的同時(shí)生成高質(zhì)量、多樣性的圖像。由于穩(wěn)定擴(kuò)散模型本身是一種多模態(tài)的模型,在短時(shí)間就被開(kāi)發(fā)出了多模態(tài)圖像生成的應(yīng)用,包括文字生成圖像,圖像轉(zhuǎn)換圖像,文字生成視頻等。然而,當(dāng)前的圖像生成方法存在一些缺點(diǎn),例如人像模糊、無(wú)法精準(zhǔn)控制人像等,難以滿足用戶的需求。
技術(shù)實(shí)現(xiàn)思路
1、以下是對(duì)本文詳細(xì)描述的主題的概述。本概述并非是為了限制權(quán)利要求的保護(hù)范圍。
2、為了解決上述背景技術(shù)中提到的問(wèn)題,本申請(qǐng)實(shí)施例提供了一種圖像生成方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),能夠更加精準(zhǔn)地控制圖像生成,從而可以很好地滿足用戶的需求。
3、第一方面,本申請(qǐng)實(shí)施例提供了一種圖像生成方法,包括:
4、獲取待轉(zhuǎn)換文本;
5、基于預(yù)設(shè)的文本編碼器對(duì)所述待轉(zhuǎn)換文本進(jìn)行轉(zhuǎn)化處理,得到文本嵌入向量;
6、將所述文本嵌入向量輸入至預(yù)設(shè)的潛在向量生成模塊,得到潛在向量;
7、將所述潛在向量輸入至預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型得到潛在圖像,以及,將所述潛在向量輸入至預(yù)訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò)得到調(diào)整圖像;
8、基于預(yù)設(shè)的解碼器對(duì)所述潛在圖像進(jìn)行轉(zhuǎn)換處理得到轉(zhuǎn)換圖像;
9、根據(jù)所述調(diào)整圖像對(duì)所述轉(zhuǎn)換圖像進(jìn)行約束修正處理得到目標(biāo)圖像。
10、根據(jù)本申請(qǐng)的一些實(shí)施例,所述文本編碼器包括文本倒置模塊和基準(zhǔn)編碼器;所述基于預(yù)設(shè)的文本編碼器對(duì)所述待轉(zhuǎn)換文本進(jìn)行轉(zhuǎn)化處理,得到文本嵌入向量,包括:
11、基于所述文本倒置模塊對(duì)所述待轉(zhuǎn)換文本進(jìn)行倒置變換處理得到變換文本;
12、基于所述基準(zhǔn)編碼器對(duì)所述變換文本進(jìn)行編碼轉(zhuǎn)換處理得到所述文本嵌入向量。
13、根據(jù)本申請(qǐng)的一些實(shí)施例,所述基于所述文本倒置模塊對(duì)所述待轉(zhuǎn)換文本進(jìn)行倒置變換處理得到變換文本,包括:
14、對(duì)所述待轉(zhuǎn)換文本進(jìn)行文本分割處理得到文本分割單元;
15、對(duì)所述文本分割單元進(jìn)行倒置處理得到所述變換文本。
16、根據(jù)本申請(qǐng)的一些實(shí)施例,所述將所述文本嵌入向量輸入至預(yù)設(shè)的潛在向量生成模塊,得到潛在向量,包括:
17、基于所述潛在向量生成模塊對(duì)所述文本嵌入向量進(jìn)行特征提取得到文本嵌入特征;
18、基于所述潛在向量生成模塊對(duì)所述文本嵌入特征進(jìn)行潛在空間映射處理得到潛在映射信息;
19、基于所述潛在向量生成模塊對(duì)所述潛在映射信息進(jìn)行正則化處理得到所述潛在向量。
20、根據(jù)本申請(qǐng)的一些實(shí)施例,所述將所述潛在向量輸入至預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型得到潛在圖像,包括:
21、基于所述穩(wěn)定擴(kuò)散模型對(duì)所述潛在向量進(jìn)行采樣處理得到采樣向量信息;
22、基于所述穩(wěn)定擴(kuò)散模型對(duì)所述采樣向量信息進(jìn)行去噪處理得到初始圖像信息;
23、基于所述穩(wěn)定擴(kuò)散模型對(duì)所述初始圖像信息進(jìn)行推理處理得到所述潛在圖像。
24、根據(jù)本申請(qǐng)的一些實(shí)施例,所述生成對(duì)抗網(wǎng)絡(luò)包括生成器模塊和判別器模塊;所述將所述潛在向量輸入至預(yù)訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò)得到調(diào)整圖像,包括:
25、對(duì)所述潛在向量進(jìn)行預(yù)處理得到預(yù)處理向量信息;
26、將所述預(yù)處理向量信息輸入至所述生成器模塊進(jìn)行轉(zhuǎn)換得到第一圖像信息;
27、基于所述判別器模塊對(duì)所述第一圖像信息進(jìn)行判別調(diào)整處理得到所述調(diào)整圖像。
28、根據(jù)本申請(qǐng)的一些實(shí)施例,所述根據(jù)所述調(diào)整圖像對(duì)所述轉(zhuǎn)換圖像進(jìn)行約束修正處理得到目標(biāo)圖像,包括:
29、根據(jù)所述調(diào)整圖像和所述轉(zhuǎn)換圖像確定圖像誤差信息;
30、基于預(yù)設(shè)的遺傳算法對(duì)所述圖像誤差信息進(jìn)行優(yōu)化處理得到圖像優(yōu)化結(jié)果;
31、根據(jù)所述圖像優(yōu)化結(jié)果對(duì)所述轉(zhuǎn)換圖像進(jìn)行修正處理得到所述目標(biāo)圖像。
32、第二方面,本申請(qǐng)實(shí)施例還提供了一種圖像生成裝置,包括:
33、第一處理模塊,用于獲取待轉(zhuǎn)換文本;
34、第二處理模塊,用于基于預(yù)設(shè)的文本編碼器對(duì)所述待轉(zhuǎn)換文本進(jìn)行轉(zhuǎn)化處理,得到文本嵌入向量;
35、第三處理模塊,用于將所述文本嵌入向量輸入至預(yù)設(shè)的潛在向量生成模塊,得到潛在向量;
36、第四處理模塊,用于將所述潛在向量輸入至預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型得到潛在圖像,以及,將所述潛在向量輸入至預(yù)訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò)得到調(diào)整圖像;
37、第五處理模塊,用于基于預(yù)設(shè)的解碼器對(duì)所述潛在圖像進(jìn)行轉(zhuǎn)換處理得到轉(zhuǎn)換圖像;
38、第六處理模塊,用于根據(jù)所述調(diào)整圖像對(duì)所述轉(zhuǎn)換圖像進(jìn)行約束修正處理得到目標(biāo)圖像。
39、第三方面,本申請(qǐng)實(shí)施例還提供了一種電子設(shè)備,包括:存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上第一方面所述的圖像生成方法。
40、第四方面,本申請(qǐng)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令用于執(zhí)行如上第一方面所述的圖像生成方法。
41、根據(jù)本申請(qǐng)?zhí)峁┑膶?shí)施例的圖像生成方法,至少具有如下有益效果:在進(jìn)行圖像生成的過(guò)程中,首先獲取待轉(zhuǎn)換文本;接著基于預(yù)設(shè)的文本編碼器對(duì)待轉(zhuǎn)換文本進(jìn)行轉(zhuǎn)化處理就可以得到文本嵌入向量;接著將文本嵌入向量輸入到預(yù)設(shè)的潛在向量生成模塊就可以得到潛在向量;接著將潛在向量輸入到預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型就可以得到潛在圖像,以及,將潛在向量輸入到預(yù)訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò)就可以得到調(diào)整圖像;接著基于預(yù)設(shè)的解碼器對(duì)潛在圖像進(jìn)行轉(zhuǎn)換處理就可以得到轉(zhuǎn)換圖像;最后根據(jù)調(diào)整圖像對(duì)轉(zhuǎn)換圖像進(jìn)行約束修正處理就可以得到對(duì)應(yīng)的目標(biāo)圖像;通過(guò)上述方式,通過(guò)將潛在向量輸入到穩(wěn)定擴(kuò)散模型得到潛在圖像,并且將潛在向量輸入到生成對(duì)抗網(wǎng)絡(luò)得到調(diào)整圖像,后續(xù)就可以基于調(diào)整圖像對(duì)轉(zhuǎn)換圖像進(jìn)行約束修正處理,進(jìn)而可以更加精準(zhǔn)地控制圖像生成,可以很好地滿足用戶的需求。
1.一種圖像生成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述文本編碼器包括文本倒置模塊和基準(zhǔn)編碼器;所述基于預(yù)設(shè)的文本編碼器對(duì)所述待轉(zhuǎn)換文本進(jìn)行轉(zhuǎn)化處理,得到文本嵌入向量,包括:
3.根據(jù)權(quán)利要求2所述的圖像生成方法,其特征在于,所述基于所述文本倒置模塊對(duì)所述待轉(zhuǎn)換文本進(jìn)行倒置變換處理得到變換文本,包括:
4.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述將所述文本嵌入向量輸入至預(yù)設(shè)的潛在向量生成模塊,得到潛在向量,包括:
5.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述將所述潛在向量輸入至預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型得到潛在圖像,包括:
6.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述生成對(duì)抗網(wǎng)絡(luò)包括生成器模塊和判別器模塊;所述將所述潛在向量輸入至預(yù)訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò)得到調(diào)整圖像,包括:
7.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述根據(jù)所述調(diào)整圖像對(duì)所述轉(zhuǎn)換圖像進(jìn)行約束修正處理得到目標(biāo)圖像,包括:
8.一種圖像生成裝置,其特征在于,包括:
9.一種電子設(shè)備,包括:存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任意一項(xiàng)所述的圖像生成方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,其特征在于,所述計(jì)算機(jī)可執(zhí)行指令用于執(zhí)行權(quán)利要求1至7中任意一項(xiàng)所述的圖像生成方法。