欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號:40547332發(fā)布日期:2025-01-03 11:06閱讀:9來源:國知局
文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)與流程

本申請涉及人工智能,尤其涉及一種文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、近年來,基于擴(kuò)散模型的文本到圖像合成在生成高質(zhì)量圖像方面表現(xiàn)出了顯著的性能。盡管對于簡單的文本表現(xiàn)良好,但當(dāng)面對包含多個(gè)對象或空間關(guān)系的復(fù)雜文本時(shí),擴(kuò)散模型面臨以下挑戰(zhàn)。

2、一是難以捕捉復(fù)雜關(guān)系:擴(kuò)散模型難以捕捉文本中對象之間的復(fù)雜關(guān)系,導(dǎo)致圖像合成不準(zhǔn)確或不完整。

3、二是文本編碼器容量有限:擴(kuò)散模型的性能受到文本編碼器容量的限制,可能無法有效捕捉復(fù)雜文本的細(xì)微差別。

4、三是難以處理長文本:擴(kuò)散模型可能難以處理長文本,導(dǎo)致圖像合成不完整或不準(zhǔn)確。

5、為了獲得想要的圖像,一些研究人員嘗試將生成過程分解為多個(gè)步驟,或結(jié)合語言解析器來提高準(zhǔn)確性;另一種方法是通過拼接特殊短語或仔細(xì)敘述文本來設(shè)計(jì)文本提示,從而提高文本到圖像的匹配。然而,這些方法需要大量的手動(dòng)調(diào)整文本描述,即對文本進(jìn)行敘述或添加一些單詞。


技術(shù)實(shí)現(xiàn)思路

1、本申請實(shí)施例的目的在于提出一種文本到圖像生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),以解決現(xiàn)有技術(shù)中難以捕捉復(fù)雜關(guān)系、文本編碼器容量有限以及難以處理長文本的技術(shù)問題。

2、為了解決上述技術(shù)問題,本申請實(shí)施例提供一種文本到圖像生成方法,采用了如下所述的技術(shù)方案:

3、一種文本到圖像生成方法,包括下述步驟:

4、獲取隨機(jī)采樣的噪聲向量和圖像的原始文本;

5、將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像;

6、計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異,并將所述差異作為質(zhì)量指導(dǎo);

7、計(jì)算文本和圖像相似性并作為語義指導(dǎo);

8、根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示;

9、將輸入文本與所述學(xué)習(xí)提示連接并發(fā)送到文本編碼器得到最終文本嵌入;

10、將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型,生成最終圖像。

11、進(jìn)一步的,所述預(yù)訓(xùn)練擴(kuò)散模型的訓(xùn)練步驟包括:

12、對每一個(gè)訓(xùn)練樣本進(jìn)行清洗、去噪和歸一化處理;

13、從處理后的訓(xùn)練樣本中提取一系列的噪聲數(shù)據(jù)對;

14、利用線性回歸算法對所述噪聲數(shù)據(jù)進(jìn)行訓(xùn)練得到預(yù)訓(xùn)練擴(kuò)散模型。

15、進(jìn)一步的,所述將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像具體包括:

16、將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型;

17、預(yù)訓(xùn)練擴(kuò)散模型根據(jù)所述噪聲向量對圖像的原始文本進(jìn)行正向擴(kuò)散過程,以生成粗糙的圖像;

18、預(yù)訓(xùn)練擴(kuò)散模型根據(jù)所述噪聲向量對圖像的原始文本進(jìn)行反向生成過程,以生成細(xì)致的圖像。

19、進(jìn)一步的,所述計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異,并將所述差異作為質(zhì)量指導(dǎo)的步驟具體包括:

20、計(jì)算所述粗糙的圖像和細(xì)致的圖像的像素級差異、結(jié)構(gòu)相似性指數(shù)或均方誤差;

21、將所述像素級差異、結(jié)構(gòu)相似性指數(shù)或均方誤差設(shè)定為質(zhì)量指導(dǎo)。

22、進(jìn)一步的,所述計(jì)算文本和圖像相似性并作為語義指導(dǎo)的步驟具體包括:

23、利用深度神經(jīng)網(wǎng)絡(luò)將文本和圖像編碼為向量的表示;

24、計(jì)算所述向量之間的余弦相似度和歐氏距離,將所述余弦相似度和歐氏距離標(biāo)記為所述文本和圖像的相似性;

25、將所述文本和圖像的相似性作為語義指導(dǎo)。

26、進(jìn)一步的,所述根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示的步驟之后,還包括:

27、對所述學(xué)習(xí)提示使用具有特定學(xué)習(xí)率的adam優(yōu)化器進(jìn)行訓(xùn)練。

28、進(jìn)一步的,所述將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型,生成最終圖像的步驟之后,還包括:

29、獲取輸入文本中與最終圖像相似度小于設(shè)定閾值的詞語,將所述詞語屏蔽,并對所述輸入文本進(jìn)行掩碼處理。

30、為了解決上述技術(shù)問題,本申請實(shí)施例還提供一種文本到圖像生成裝置,采用了如下所述的技術(shù)方案:

31、一種文本到圖像生成裝置,包括:

32、獲取模塊,用于獲取隨機(jī)采樣的噪聲向量和圖像的原始文本;

33、輸入模塊,用于將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像;

34、第一計(jì)算模塊,用于計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異,并將所述差異作為質(zhì)量指導(dǎo);

35、第二計(jì)算模塊,用于計(jì)算文本圖像相似性并作為語義指導(dǎo);

36、學(xué)習(xí)提示模塊,用于根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示;

37、連接模塊,用于將輸入文本與所述學(xué)習(xí)提示連接并發(fā)送到文本編碼器得到最終文本嵌入;

38、生成模塊,用于將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型,生成最終圖像。

39、為了解決上述技術(shù)問題,本申請實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:

40、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如上所述的文本到圖像生成方法的步驟。

41、為了解決上述技術(shù)問題,本申請實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),采用了如下所述的技術(shù)方案:

42、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的文本到圖像生成方法的步驟。

43、與現(xiàn)有技術(shù)相比,本申請實(shí)施例主要有以下有益效果:本申請通過利用預(yù)訓(xùn)練擴(kuò)散模型的質(zhì)量指導(dǎo)和語義指導(dǎo),有效地學(xué)習(xí)提示以改善輸入文本和生成圖像之間的匹配,有效地提高了文本到圖像合成的準(zhǔn)確性,尤其是基于復(fù)雜文本生成高質(zhì)量圖像的準(zhǔn)確性提高。



技術(shù)特征:

1.一種文本到圖像生成方法,其特征在于,包括下述步驟:

2.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述預(yù)訓(xùn)練擴(kuò)散模型的訓(xùn)練步驟包括:

3.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述將所述噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像具體包括:

4.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述計(jì)算所述粗糙的圖像和細(xì)致的圖像的差異,并將所述差異作為質(zhì)量指導(dǎo)的步驟具體包括:

5.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述計(jì)算文本和圖像相似性并作為語義指導(dǎo)的步驟具體包括:

6.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述根據(jù)所述質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示的步驟之后,還包括:

7.根據(jù)權(quán)利要求1所述的文本到圖像生成方法,其特征在于,所述將所述最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型,生成最終圖像的步驟之后,還包括:

8.一種文本到圖像生成裝置,其特征在于,包括:

9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的文本到圖像生成方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的文本到圖像生成方法的步驟。


技術(shù)總結(jié)
本申請實(shí)施例屬于人工智能領(lǐng)域,涉及一種文本到圖像生成方法,包括獲取隨機(jī)采樣的噪聲向量和圖像的原始文本;將噪聲向量和圖像的原始文本輸入至預(yù)訓(xùn)練擴(kuò)散模型中生成粗糙的圖像和細(xì)致的圖像;計(jì)算粗糙的圖像和細(xì)致的圖像的差異,并將差異作為質(zhì)量指導(dǎo);計(jì)算文本和圖像相似性并作為語義指導(dǎo);根據(jù)質(zhì)量指導(dǎo)和語義指導(dǎo)對輸入文本進(jìn)行學(xué)習(xí)提示;將輸入文本與所述學(xué)習(xí)提示連接并發(fā)送到文本編碼器得到最終文本嵌入;將最終文本嵌入和隨機(jī)采樣的噪聲向量發(fā)送到預(yù)訓(xùn)練的擴(kuò)散模型,生成最終圖像。本申請還提供一種文本到圖像生成裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。本申請有效地提高了文本到圖像合成的準(zhǔn)確性。

技術(shù)研發(fā)人員:鄭喜民,鄭鈺昕,舒暢,陳又新
受保護(hù)的技術(shù)使用者:平安科技(深圳)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
永昌县| 宁乡县| 连江县| 鹤岗市| 三原县| 海伦市| 滨海县| 紫云| 南木林县| 云林县| 丁青县| 定兴县| 东明县| 富民县| 香格里拉县| 泾源县| 岑巩县| 富民县| 西丰县| 金沙县| 绥化市| 江永县| 富裕县| 衡山县| 曲阜市| 囊谦县| 阜平县| 马公市| 宜阳县| 保德县| 云和县| 社会| 台山市| 贵州省| 建阳市| 襄汾县| 城固县| 临颍县| 团风县| 左权县| 华坪县|