欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于擴散模型的多風格繪本生成方法

文檔序號:40544252發(fā)布日期:2025-01-03 11:03閱讀:11來源:國知局
一種基于擴散模型的多風格繪本生成方法

本發(fā)明屬于圖像處理,具體涉及一種基于擴散模型的多風格繪本生成方法。


背景技術(shù):

1、目前,手動創(chuàng)作具有不同藝術(shù)風格的故事繪本耗時耗力,且需要藝術(shù)家具備較高的繪畫技巧和風格把控能力。隨著深度學習技術(shù)的快速發(fā)展,計算機視覺和生成式模型的能力得到了極大提升,特別是在圖像生成和風格遷移領(lǐng)域,取得了突破性的進展。

2、現(xiàn)有的基于擴散模型(diffusion?model)的圖像生成技術(shù),已經(jīng)能夠根據(jù)文本提示生成高質(zhì)量的單幅圖像。然而,當應(yīng)用于生成復雜且連貫的多幀故事繪本時,這些技術(shù)面臨一些挑戰(zhàn)。主要問題表現(xiàn)在于角色和背景在不同幀之間缺乏一致性,導致角色形象和場景變化不連貫,這影響了故事的連貫性和敘事的流暢度。

3、此外,現(xiàn)有的風格遷移技術(shù)雖然能夠?qū)D像轉(zhuǎn)換為特定的藝術(shù)風格,但它們通常只能處理單一風格的轉(zhuǎn)換,缺乏在連續(xù)繪本中生成多種風格圖像所需的靈活性和一致性。

4、在故事繪本生成任務(wù)中需確保生成的角色在前后幀中保持外觀和特征的一致性,避免出現(xiàn)形象變化或失真。同時需要保證生成的結(jié)果整體風格統(tǒng)一以及背景的過渡平滑自然以維持空間感和敘事流暢度。因此現(xiàn)有技術(shù)在以下方面仍有待改進:無法高效、靈活地生成多種藝術(shù)風格的連續(xù)繪本圖像;難以確保生成圖像在繪本敘事中的連貫性和一致性;現(xiàn)有圖像風格遷移算法多局限于單一場景,不具備動態(tài)多風格遷移的能力。


技術(shù)實現(xiàn)思路

1、為了解決這些問題,本發(fā)明基于擴散模型提出了一種基于擴散模型的多風格繪本生成方法,包括以下步驟:

2、步驟s1:構(gòu)建繪本數(shù)據(jù)集,繪本數(shù)據(jù)集包括若干繪本圖像及對應(yīng)的故事文本;構(gòu)建風格參考數(shù)據(jù)集,風格參考數(shù)據(jù)集包括若干風格參考圖像;

3、步驟s2:構(gòu)建基于擴散模型的繪本生成模型,模型包括預處理模塊、風格一致性模塊、角色一致性模塊和基于注意力機制的unet模塊;預處理模塊對步驟s1中的繪本圖像及對應(yīng)的故事文本進行編碼處理,獲取文本嵌入、角色掩碼和角色圖像;

4、步驟s3:導入步驟s1的風格參考圖像至風格一致性模塊,獲取風格特征嵌入;

5、步驟s4:導入步驟s2的文本嵌入、角色掩碼和角色圖像至角色一致性模塊,獲取角色嵌入和布局嵌入;

6、步驟s5:導入步驟s1中的繪本圖像、步驟s3中的風格特征嵌入、步驟s4中的角色嵌入和布局嵌入至基于注意力機制的unet模塊中的注意力塊中進行繪本圖像噪聲預測,獲取預測的繪本圖像;

7、步驟s6:構(gòu)建損失函數(shù),最小化損失函數(shù)以優(yōu)化繪本生成模型的參數(shù)。

8、進一步的,步驟s1中的預處理模塊包括clip編碼器和圖像分割模型gsa;

9、步驟s1具體為:

10、步驟s11:通過clip編碼器對故事文本進行編碼,獲取預設(shè)好數(shù)據(jù)維度的文本嵌入,表示為:

11、;

12、其中,表示正則化,表示多層感知機,n表示多層感知機進行內(nèi)部操作的次數(shù),表示自注意力操作,表示對文本進行分詞操作,表示位置嵌入編碼,表示輸入的故事文本;

13、步驟s12:采用圖像分割模型gsa對繪本圖像進行分割,獲取角色掩碼和角色圖像,表示為:

14、;

15、其中,表示繪本圖像;表示選擇函數(shù),用于獲得繪本圖像中特定角色的掩碼信息,表示圖像分割模塊,表示點乘。

16、進一步的,步驟s3具體為:

17、步驟s31:對于輸入的風格參考圖像進行處理,具體為:

18、調(diào)用圖文大語言模型生成該風格參考圖像的文本語義內(nèi)容,然后用clip編碼器的圖像編碼器和文本編碼器分別對該風格參考圖像和對應(yīng)的文本語義內(nèi)容進行編碼,獲取風格參考圖像的圖像編碼和文本編碼,將兩者映射到同一個語義空間,用圖像編碼減去文本編碼,從而獲得去除了文本語義內(nèi)容的風格特征嵌入,表示為:

19、;

20、其中,表示clip編碼器的文本編碼器,表示多模態(tài)的大語言模型,表示clip編碼器的圖像編碼器,表示多層感知機;

21、步驟s32:對風格特征嵌入進行進一步的處理得到風格特征,表示為:

22、;

23、其中,?表示可學習的嵌入,表示自注意力操作,表示交叉注意力操作,表示全連接層,表示風格特征。

24、進一步的,角色一致性模塊包括重采樣模塊和布局嵌入模塊,

25、步驟s4具體為:

26、步驟s41:將角色圖像和角色掩碼輸入角色一致性模塊,獲取對應(yīng)每一個角色的重采樣嵌入,隨后通過mlp映射與擴散模型中間噪聲進行交叉注意力計算,獲取角色嵌入,表示為:

27、;

28、其中,表示重采樣嵌入,表示擴散模型中間噪聲,表示角色嵌入,表示交叉注意力機制,表示重采樣操作,表示多層感知機;

29、步驟s42:輸入文本嵌入和重采樣嵌入至布局控制模塊中進行處理,獲取布局嵌入,表示為:

30、?;

31、其中,表示全連接層,noise表示輸入噪聲。

32、進一步的,步驟s5的基于注意力機制的unet模塊包括用于引導圖像生成的若干注意力塊;

33、步驟s5具體為:

34、;

35、其中,表示預測的繪本圖像,表示unet模塊,表示加噪后的繪本圖像,表示加噪步數(shù)。

36、進一步的,步驟s6中的損失函數(shù)表示為:

37、;

38、其中,,,表示不同損失的權(quán)重系數(shù),,,分別為擴散模型的損失、角色一致性的損失和風格一致性的損失。

39、本發(fā)明的積極進步效果在于:

40、本發(fā)明基于擴散模型提出了一種高效的多風格繪本生成方法,該方法能夠根據(jù)風格參考圖像生成任意藝術(shù)風格的故事繪本,極大簡化了創(chuàng)作流程,同時提升了生成的繪本圖像的質(zhì)量和風格多樣性。



技術(shù)特征:

1.一種基于擴散模型的多風格繪本生成方法,其特征在于,包括以下步驟:

2.如權(quán)利要求1所述的一種基于擴散模型的多風格繪本生成方法,其特征在于,步驟s1中的預處理模塊包括clip編碼器和圖像分割模型gsa具體為:

3.如權(quán)利要求2所述的一種基于擴散模型的多風格繪本生成方法,其特征在于,步驟s3具體為:

4.如權(quán)利要求3所述的一種基于擴散模型的多風格繪本生成方法,其特征在于,角色一致性模塊包括重采樣模塊和布局嵌入模塊,

5.如權(quán)利要求4所述的一種基于擴散模型的多風格繪本生成方法,其特征在于,步驟s5的基于注意力機制的unet模塊包括用于引導圖像生成的若干注意力塊;

6.如權(quán)利要求1所述的一種基于擴散模型的多風格繪本生成方法,其特征在于,步驟s6中的損失函數(shù)表示為:


技術(shù)總結(jié)
本發(fā)明公開了一種基于擴散模型的多風格繪本生成方法,包括:S1:構(gòu)建數(shù)據(jù)集;步驟S2:構(gòu)建繪本生成模型;預處理模塊對繪本圖像及故事文本編碼,獲取文本嵌入、角色掩碼和角色圖像;S3:導入風格參考圖像至風格一致性模塊,獲取風格特征嵌入;S4:導入文本嵌入、角色掩碼和角色圖像至角色一致性模塊,獲取角色嵌入和布局嵌入;S5:導入繪本圖像、風格特征嵌入、角色嵌入和布局嵌入至Unet模塊中進行繪本圖像噪聲預測,獲取預測的繪本圖像;S6:構(gòu)建損失函數(shù)。本發(fā)明結(jié)合了深度學習中的擴散模型與圖像風格遷移算法,能夠根據(jù)輸入的參考圖像生成具有多種藝術(shù)風格的連貫繪本場景,可以廣泛應(yīng)用于動畫制作、圖像創(chuàng)意設(shè)計及數(shù)字內(nèi)容生成等領(lǐng)域。

技術(shù)研發(fā)人員:饒堃,汪強,應(yīng)浩,陳厚榮,江愛文
受保護的技術(shù)使用者:江西師范大學
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
滕州市| 隆安县| 夹江县| 元阳县| 尼勒克县| 康乐县| 金秀| 新龙县| 蒙山县| 麦盖提县| 老河口市| 旺苍县| 河池市| 昌都县| 东兴市| 长兴县| 寻甸| 汉阴县| 大名县| 岳池县| 毕节市| 卢湾区| 仪征市| 麟游县| 建瓯市| 鹿邑县| 阜新| 杭锦旗| 颍上县| 吉隆县| 平南县| 长乐市| 玉环县| 光山县| 鄂伦春自治旗| 酉阳| 刚察县| 馆陶县| 甘孜| 乌拉特前旗| 普洱|