文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號：40547332發(fā)布日期：2025-01-03 11:06閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)與流程

本申請涉及人工智能，尤其涉及一種文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、近年來，基于擴(kuò)散模型的文本到圖像合成在生成高質(zhì)量圖像方面表現(xiàn)出了顯著的性能。盡管對于簡單的文本表現(xiàn)良好，但當(dāng)面對包含多個(gè)對象或空間關(guān)系的復(fù)雜文本時(shí)，擴(kuò)散模型面臨以下挑戰(zhàn)。

2、一是難以捕捉復(fù)雜關(guān)系:擴(kuò)散模型難以捕捉文本中對象之間的復(fù)雜關(guān)系，導(dǎo)致圖像合成不準(zhǔn)確或不完整。

3、二是文本編碼器容量有限:擴(kuò)散模型的性能受到文本編碼器容量的限制，可能無法有效捕捉復(fù)雜文本的細(xì)微差別。

4、三是難以處理長文本:擴(kuò)散模型可能難以處理長文本，導(dǎo)致圖像合成不完整或不準(zhǔn)確。

5、為了獲得想要的圖像，一些研究人員嘗試將生成過程分解為多個(gè)步驟，或結(jié)合語言解析器來提高準(zhǔn)確性；另一種方法是通過拼接特殊短語或仔細(xì)敘述文本來設(shè)計(jì)文本提示，從而提高文本到圖像的匹配。然而，這些方法需要大量的手動(dòng)調(diào)整文本描述，即對文本進(jìn)行敘述或添加一些單詞。

技術(shù)實(shí)現(xiàn)思路

1、本申請實(shí)施例的目的在于提出一種文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)，以解決現(xiàn)有技術(shù)中難以捕捉復(fù)雜關(guān)系、文本編碼器容量有限以及難以處理長文本的技術(shù)問題。

2、為了解決上述技術(shù)問題，本申請實(shí)施例提供一種文本到圖像生成方法，采用了如下所述的技術(shù)方案：

3、一種文本到圖像生成方法，包括下述步驟：

4、獲取隨機(jī)采樣的噪聲向量和圖像的原始文本；

5、將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像；

6、計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異，并將所述差異作為質(zhì)量指導(dǎo)；

7、計(jì)算文本和圖像相似性并作為語義指導(dǎo)；

8、根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示；

9、將輸入文本與所述學(xué)習(xí)提示連接并發(fā)送到文本編碼器得到最終文本嵌入；

10、將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型，生成最終圖像。

11、進(jìn)一步的，所述預(yù)訓(xùn)練擴(kuò)散模型的訓(xùn)練步驟包括：

12、對每一個(gè)訓(xùn)練樣本進(jìn)行清洗、去噪和歸一化處理；

13、從處理后的訓(xùn)練樣本中提取一系列的噪聲數(shù)據(jù)對；

14、利用線性回歸算法對所述噪聲數(shù)據(jù)進(jìn)行訓(xùn)練得到預(yù)訓(xùn)練擴(kuò)散模型。

15、進(jìn)一步的，所述將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像具體包括：

16、將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型；

17、預(yù)訓(xùn)練擴(kuò)散模型根據(jù)所述噪聲向量對圖像的原始文本進(jìn)行正向擴(kuò)散過程，以生成粗糙的圖像；

18、預(yù)訓(xùn)練擴(kuò)散模型根據(jù)所述噪聲向量對圖像的原始文本進(jìn)行反向生成過程，以生成細(xì)致的圖像。

19、進(jìn)一步的，所述計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異，并將所述差異作為質(zhì)量指導(dǎo)的步驟具體包括：

20、計(jì)算所述粗糙的圖像和細(xì)致的圖像的像素級差異、結(jié)構(gòu)相似性指數(shù)或均方誤差；

21、將所述像素級差異、結(jié)構(gòu)相似性指數(shù)或均方誤差設(shè)定為質(zhì)量指導(dǎo)。

22、進(jìn)一步的，所述計(jì)算文本和圖像相似性并作為語義指導(dǎo)的步驟具體包括：

23、利用深度神經(jīng)網(wǎng)絡(luò)將文本和圖像編碼為向量的表示；

24、計(jì)算所述向量之間的余弦相似度和歐氏距離，將所述余弦相似度和歐氏距離標(biāo)記為所述文本和圖像的相似性；

25、將所述文本和圖像的相似性作為語義指導(dǎo)。

26、進(jìn)一步的，所述根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示的步驟之后，還包括：

27、對所述學(xué)習(xí)提示使用具有特定學(xué)習(xí)率的adam優(yōu)化器進(jìn)行訓(xùn)練。

28、進(jìn)一步的，所述將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型，生成最終圖像的步驟之后，還包括：

29、獲取輸入文本中與最終圖像相似度小于設(shè)定閾值的詞語，將所述詞語屏蔽，并對所述輸入文本進(jìn)行掩碼處理。

30、為了解決上述技術(shù)問題，本申請實(shí)施例還提供一種文本到圖像生成裝置，采用了如下所述的技術(shù)方案：

31、一種文本到圖像生成裝置，包括：

32、獲取模塊，用于獲取隨機(jī)采樣的噪聲向量和圖像的原始文本；

33、輸入模塊，用于將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像；

34、第一計(jì)算模塊，用于計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異，并將所述差異作為質(zhì)量指導(dǎo)；

35、第二計(jì)算模塊，用于計(jì)算文本圖像相似性并作為語義指導(dǎo)；

36、學(xué)習(xí)提示模塊，用于根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示；

37、連接模塊，用于將輸入文本與所述學(xué)習(xí)提示連接并發(fā)送到文本編碼器得到最終文本嵌入；

38、生成模塊，用于將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型，生成最終圖像。

39、為了解決上述技術(shù)問題，本申請實(shí)施例還提供一種計(jì)算機(jī)設(shè)備，采用了如下所述的技術(shù)方案：

40、一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令，所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如上所述的文本到圖像生成方法的步驟。

41、為了解決上述技術(shù)問題，本申請實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，采用了如下所述的技術(shù)方案：

42、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令，所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的文本到圖像生成方法的步驟。

43、與現(xiàn)有技術(shù)相比，本申請實(shí)施例主要有以下有益效果：本申請通過利用預(yù)訓(xùn)練擴(kuò)散模型的質(zhì)量指導(dǎo)和語義指導(dǎo)，有效地學(xué)習(xí)提示以改善輸入文本和生成圖像之間的匹配，有效地提高了文本到圖像合成的準(zhǔn)確性，尤其是基于復(fù)雜文本生成高質(zhì)量圖像的準(zhǔn)確性提高。

技術(shù)特征：

1.一種文本到圖像生成方法，其特征在于，包括下述步驟：

2.根據(jù)權(quán)利要求1所述的文本到圖像生成方法，其特征在于，所述預(yù)訓(xùn)練擴(kuò)散模型的訓(xùn)練步驟包括：

3.根據(jù)權(quán)利要求1所述的文本到圖像生成方法，其特征在于，所述將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像具體包括：

4.根據(jù)權(quán)利要求1所述的文本到圖像生成方法，其特征在于，所述計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異，并將所述差異作為質(zhì)量指導(dǎo)的步驟具體包括：

5.根據(jù)權(quán)利要求1所述的文本到圖像生成方法，其特征在于，所述計(jì)算文本和圖像相似性并作為語義指導(dǎo)的步驟具體包括：

6.根據(jù)權(quán)利要求1所述的文本到圖像生成方法，其特征在于，所述根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示的步驟之后，還包括：

7.根據(jù)權(quán)利要求1所述的文本到圖像生成方法，其特征在于，所述將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型，生成最終圖像的步驟之后，還包括：

8.一種文本到圖像生成裝置，其特征在于，包括：

9.一種計(jì)算機(jī)設(shè)備，其特征在于，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令，所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的文本到圖像生成方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令，所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的文本到圖像生成方法的步驟。

技術(shù)總結(jié)
本申請實(shí)施例屬于人工智能領(lǐng)域，涉及一種文本到圖像生成方法，包括獲取隨機(jī)采樣的噪聲向量和圖像的原始文本；將噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像；計(jì)算粗糙的圖像和細(xì)致的圖像的差異，并將差異作為質(zhì)量指導(dǎo)；計(jì)算文本和圖像相似性并作為語義指導(dǎo)；根據(jù)質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示；將輸入文本與所述學(xué)習(xí)提示連接并發(fā)送到文本編碼器得到最終文本嵌入；將最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型，生成最終圖像。本申請還提供一種文本到圖像生成裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。本申請有效地提高了文本到圖像合成的準(zhǔn)確性。

技術(shù)研發(fā)人員：鄭喜民,鄭鈺昕,舒暢,陳又新
受保護(hù)的技術(shù)使用者：平安科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭喜民,鄭鈺昕,舒暢,陳又新
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：一種綜合訓(xùn)練器的制作方法
上一篇：一種紡織用品的紡織風(fēng)干裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)與流程

文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)與流程