本申請涉及人工智能,尤其涉及一種文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、近年來,基于擴(kuò)散模型的文本到圖像合成在生成高質(zhì)量圖像方面表現(xiàn)出了顯著的性能。盡管對于簡單的文本表現(xiàn)良好,但當(dāng)面對包含多個(gè)對象或空間關(guān)系的復(fù)雜文本時(shí),擴(kuò)散模型面臨以下挑戰(zhàn)。
2、一是難以捕捉復(fù)雜關(guān)系:擴(kuò)散模型難以捕捉文本中對象之間的復(fù)雜關(guān)系,導(dǎo)致圖像合成不準(zhǔn)確或不完整。
3、二是文本編碼器容量有限:擴(kuò)散模型的性能受到文本編碼器容量的限制,可能無法有效捕捉復(fù)雜文本的細(xì)微差別。
4、三是難以處理長文本:擴(kuò)散模型可能難以處理長文本,導(dǎo)致圖像合成不完整或不準(zhǔn)確。
5、為了獲得想要的圖像,一些研究人員嘗試將生成過程分解為多個(gè)步驟,或結(jié)合語言解析器來提高準(zhǔn)確性;另一種方法是通過拼接特殊短語或仔細(xì)敘述文本來設(shè)計(jì)文本提示,從而提高文本到圖像的匹配。然而,這些方法需要大量的手動(dòng)調(diào)整文本描述,即對文本進(jìn)行敘述或添加一些單詞。
技術(shù)實(shí)現(xiàn)思路
1、本申請實(shí)施例的目的在于提出一種文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),以解決現(xiàn)有技術(shù)中難以捕捉復(fù)雜關(guān)系、文本編碼器容量有限以及難以處理長文本的技術(shù)問題。
2、為了解決上述技術(shù)問題,本申請實(shí)施例提供一種文本到圖像生成方法,采用了如下所述的技術(shù)方案:
3、一種文本到圖像生成方法,包括下述步驟:
4、獲取隨機(jī)采樣的噪聲向量和圖像的原始文本;
5、將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像;
6、計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異,并將所述差異作為質(zhì)量指導(dǎo);
7、計(jì)算文本和圖像相似性并作為語義指導(dǎo);
8、根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示;
9、將輸入文本與所述學(xué)習(xí)提示連接并發(fā)送到文本編碼器得到最終文本嵌入;
10、將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型,生成最終圖像。
11、進(jìn)一步的,所述預(yù)訓(xùn)練擴(kuò)散模型的訓(xùn)練步驟包括:
12、對每一個(gè)訓(xùn)練樣本進(jìn)行清洗、去噪和歸一化處理;
13、從處理后的訓(xùn)練樣本中提取一系列的噪聲數(shù)據(jù)對;
14、利用線性回歸算法對所述噪聲數(shù)據(jù)進(jìn)行訓(xùn)練得到預(yù)訓(xùn)練擴(kuò)散模型。
15、進(jìn)一步的,所述將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像具體包括:
16、將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型;
17、預(yù)訓(xùn)練擴(kuò)散模型根據(jù)所述噪聲向量對圖像的原始文本進(jìn)行正向擴(kuò)散過程,以生成粗糙的圖像;
18、預(yù)訓(xùn)練擴(kuò)散模型根據(jù)所述噪聲向量對圖像的原始文本進(jìn)行反向生成過程,以生成細(xì)致的圖像。
19、進(jìn)一步的,所述計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異,并將所述差異作為質(zhì)量指導(dǎo)的步驟具體包括:
20、計(jì)算所述粗糙的圖像和細(xì)致的圖像的像素級差異、結(jié)構(gòu)相似性指數(shù)或均方誤差;
21、將所述像素級差異、結(jié)構(gòu)相似性指數(shù)或均方誤差設(shè)定為質(zhì)量指導(dǎo)。
22、進(jìn)一步的,所述計(jì)算文本和圖像相似性并作為語義指導(dǎo)的步驟具體包括:
23、利用深度神經(jīng)網(wǎng)絡(luò)將文本和圖像編碼為向量的表示;
24、計(jì)算所述向量之間的余弦相似度和歐氏距離,將所述余弦相似度和歐氏距離標(biāo)記為所述文本和圖像的相似性;
25、將所述文本和圖像的相似性作為語義指導(dǎo)。
26、進(jìn)一步的,所述根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示的步驟之后,還包括:
27、對所述學(xué)習(xí)提示使用具有特定學(xué)習(xí)率的adam優(yōu)化器進(jìn)行訓(xùn)練。
28、進(jìn)一步的,所述將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型,生成最終圖像的步驟之后,還包括:
29、獲取輸入文本中與最終圖像相似度小于設(shè)定閾值的詞語,將所述詞語屏蔽,并對所述輸入文本進(jìn)行掩碼處理。
30、為了解決上述技術(shù)問題,本申請實(shí)施例還提供一種文本到圖像生成裝置,采用了如下所述的技術(shù)方案:
31、一種文本到圖像生成裝置,包括:
32、獲取模塊,用于獲取隨機(jī)采樣的噪聲向量和圖像的原始文本;
33、輸入模塊,用于將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像;
34、第一計(jì)算模塊,用于計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異,并將所述差異作為質(zhì)量指導(dǎo);
35、第二計(jì)算模塊,用于計(jì)算文本圖像相似性并作為語義指導(dǎo);
36、學(xué)習(xí)提示模塊,用于根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示;
37、連接模塊,用于將輸入文本與所述學(xué)習(xí)提示連接并發(fā)送到文本編碼器得到最終文本嵌入;
38、生成模塊,用于將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型,生成最終圖像。
39、為了解決上述技術(shù)問題,本申請實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:
40、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如上所述的文本到圖像生成方法的步驟。
41、為了解決上述技術(shù)問題,本申請實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),采用了如下所述的技術(shù)方案:
42、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的文本到圖像生成方法的步驟。
43、與現(xiàn)有技術(shù)相比,本申請實(shí)施例主要有以下有益效果:本申請通過利用預(yù)訓(xùn)練擴(kuò)散模型的質(zhì)量指導(dǎo)和語義指導(dǎo),有效地學(xué)習(xí)提示以改善輸入文本和生成圖像之間的匹配,有效地提高了文本到圖像合成的準(zhǔn)確性,尤其是基于復(fù)雜文本生成高質(zhì)量圖像的準(zhǔn)確性提高。
1.一種文本到圖像生成方法,其特征在于,包括下述步驟:
2.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述預(yù)訓(xùn)練擴(kuò)散模型的訓(xùn)練步驟包括:
3.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像具體包括:
4.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異,并將所述差異作為質(zhì)量指導(dǎo)的步驟具體包括:
5.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述計(jì)算文本和圖像相似性并作為語義指導(dǎo)的步驟具體包括:
6.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示的步驟之后,還包括:
7.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型,生成最終圖像的步驟之后,還包括:
8.一種文本到圖像生成裝置,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的文本到圖像生成方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的文本到圖像生成方法的步驟。