一種圖像生成方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備與流程

文檔序號(hào)：40564786發(fā)布日期：2025-01-03 11:25閱讀：10來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種圖像生成方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備與流程

本發(fā)明涉及圖像生成及金融科技領(lǐng)域，特別是涉及一種圖像生成方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備。

背景技術(shù)：

1、圖像生成是計(jì)算機(jī)視覺(jué)領(lǐng)域的非?；钴S且有較多實(shí)際應(yīng)用場(chǎng)景的研究，其中diffusion模型生成圖像比gan更具多樣性，而且質(zhì)量更高，diffusion模型的訓(xùn)練過(guò)程也更加穩(wěn)定，使得圖像生成服務(wù)業(yè)務(wù)如推廣營(yíng)銷、創(chuàng)意設(shè)計(jì)等成為了現(xiàn)實(shí)。

2、在車險(xiǎn)、壽險(xiǎn)、銀行、商業(yè)推廣、促銷、廣告等的實(shí)際業(yè)務(wù)中，構(gòu)建宣傳海報(bào)、營(yíng)銷海報(bào)、活動(dòng)海報(bào)等圖片時(shí)，常常需要對(duì)于圖片的內(nèi)容布局有較多的要求，比如要求一輛車行駛在路上，左邊是現(xiàn)代建筑群，右邊是另一些元素，前方有一些其他標(biāo)志等等，但是由于diffusion生成過(guò)程的隨機(jī)性、以及領(lǐng)域適配能力欠缺等問(wèn)題，生成結(jié)果往往不能直接滿足業(yè)務(wù)需求，生成的圖像雖然包含有要求中的這些元素，但是，各個(gè)元素在圖片中的布局卻不滿足要求。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本發(fā)明提供一種圖像生成方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備，主要目的在于解決現(xiàn)有圖像生成方法生成的圖像中各個(gè)元素不滿足布局要求的問(wèn)題。

2、依據(jù)本發(fā)明一個(gè)方面，提供了一種圖像生成方法，包括：

3、獲取圖像文本對(duì)數(shù)據(jù)集，并從所述圖像文本對(duì)數(shù)據(jù)集中選取文本長(zhǎng)度與數(shù)據(jù)分布滿足布局要求的圖像文本對(duì)數(shù)據(jù)樣本；

4、從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的物體圖片，并生成與所述物體圖片相對(duì)應(yīng)的說(shuō)明文字；

5、對(duì)所述圖像文本對(duì)數(shù)據(jù)樣本中的圖像數(shù)據(jù)按區(qū)域進(jìn)行劃分處理，并基于區(qū)域劃分結(jié)果和所述說(shuō)明文字確定與所述圖像數(shù)據(jù)相對(duì)應(yīng)的整體布局標(biāo)簽；

6、基于所述整體布局標(biāo)簽構(gòu)建布局?jǐn)?shù)據(jù)集，并采用所述布局?jǐn)?shù)據(jù)集對(duì)圖像生成模型進(jìn)行調(diào)整處理，得到布局強(qiáng)化圖像生成模型，以使得基于所述布局強(qiáng)化圖像生成模型生成與輸入文本相對(duì)應(yīng)的目標(biāo)圖像。

7、進(jìn)一步地，所述從所述圖像文本對(duì)數(shù)據(jù)集中選取文本長(zhǎng)度與數(shù)據(jù)分布滿足布局要求的圖像文本對(duì)數(shù)據(jù)樣本，包括：

8、采用語(yǔ)義分割識(shí)別模型對(duì)所述圖像文本對(duì)數(shù)據(jù)集中的圖像數(shù)據(jù)分別進(jìn)行分割識(shí)別處理，得到與各個(gè)所述圖像數(shù)據(jù)相對(duì)應(yīng)的物體和位置信息；

9、基于所述布局要求、所述物體和所述位置信息對(duì)各個(gè)所述圖像數(shù)據(jù)進(jìn)行評(píng)分處理，得到各個(gè)所述圖像數(shù)據(jù)的布局評(píng)分；

10、基于所述布局評(píng)分確定滿足布局評(píng)分閾值的目標(biāo)圖像數(shù)據(jù)，并將所述目標(biāo)圖像數(shù)據(jù)相對(duì)應(yīng)的圖像文本對(duì)數(shù)據(jù)確定為滿足所述布局要求的所述圖像文本對(duì)數(shù)據(jù)樣本。

11、進(jìn)一步地，所述從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的物體圖片，并生成與所述物體圖片相對(duì)應(yīng)的說(shuō)明文字，包括：

12、獲取所述圖像文本對(duì)數(shù)據(jù)樣本中與圖像數(shù)據(jù)相對(duì)應(yīng)的位置信息和文本數(shù)據(jù)；

13、基于所述位置信息從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的所述物體圖片；

14、將所述文本數(shù)據(jù)與相對(duì)應(yīng)的所述物體圖片輸入多模態(tài)預(yù)訓(xùn)練模型中進(jìn)行相似度匹配處理，得到與所述物體圖片相對(duì)應(yīng)的所述說(shuō)明文字。

15、進(jìn)一步地，所述基于區(qū)域劃分結(jié)果和所述說(shuō)明文字確定與所述圖像數(shù)據(jù)相對(duì)應(yīng)的整體布局標(biāo)簽，包括：

16、基于所述區(qū)域劃分結(jié)果確定與各個(gè)區(qū)域所對(duì)應(yīng)的物體，并獲取與所述物體相對(duì)應(yīng)的所述說(shuō)明文字；

17、為各個(gè)區(qū)域配置對(duì)應(yīng)的區(qū)域名，并基于所述區(qū)域名和所述說(shuō)明文字構(gòu)建與所述圖像數(shù)據(jù)相對(duì)應(yīng)的基礎(chǔ)布局標(biāo)簽；

18、基于所述基礎(chǔ)布局標(biāo)簽構(gòu)建相對(duì)位置標(biāo)簽，并將所述基礎(chǔ)布局標(biāo)簽和所述相對(duì)位置標(biāo)簽相結(jié)合，得到所述整體布局標(biāo)簽。

19、進(jìn)一步地，所述基于所述基礎(chǔ)布局標(biāo)簽構(gòu)建相對(duì)位置標(biāo)簽，包括：

20、提取所述基礎(chǔ)布局標(biāo)簽中各個(gè)物體相對(duì)應(yīng)的所述說(shuō)明文字中的實(shí)體；

21、獲取所述區(qū)域劃分結(jié)果中各區(qū)域之間的相對(duì)位置關(guān)系，并基于所述相對(duì)位置關(guān)系和所述實(shí)體構(gòu)建所述相對(duì)位置標(biāo)簽。

22、進(jìn)一步地，所述基于所述整體布局標(biāo)簽構(gòu)建布局?jǐn)?shù)據(jù)集，包括：

23、獲取所述圖像文本對(duì)數(shù)據(jù)樣本中的文本數(shù)據(jù)；

24、計(jì)算所述整體布局標(biāo)簽與所述文本數(shù)據(jù)之間的余弦相似度；并基于所述余弦相似度對(duì)所述圖像文本對(duì)數(shù)據(jù)樣本進(jìn)行篩選處理，得到符合篩選指標(biāo)的圖像文本對(duì)數(shù)據(jù)樣本；

25、采用所述整體布局標(biāo)簽對(duì)符合篩選指標(biāo)的圖像文本對(duì)數(shù)據(jù)樣本進(jìn)行優(yōu)化處理，并將優(yōu)化后的圖像文本對(duì)數(shù)據(jù)樣本存入所述布局?jǐn)?shù)據(jù)集。

26、進(jìn)一步地，所述方法還包括：

27、獲取用戶對(duì)所述目標(biāo)圖像的評(píng)價(jià)信息；

28、基于所述評(píng)價(jià)信息對(duì)所述布局?jǐn)?shù)據(jù)集進(jìn)行更新處理，得到更新布局?jǐn)?shù)據(jù)集；

29、采用所述更新布局?jǐn)?shù)據(jù)集對(duì)所述布局強(qiáng)化圖像生成模型進(jìn)行優(yōu)化調(diào)整處理，得到優(yōu)化后的布局強(qiáng)化圖像生成模型。

30、依據(jù)本發(fā)明另一個(gè)方面，提供了一種圖像生成裝置，包括：

31、樣本選取模塊，用于獲取圖像文本對(duì)數(shù)據(jù)集，并從所述圖像文本對(duì)數(shù)據(jù)集中選取文本長(zhǎng)度與數(shù)據(jù)分布滿足布局要求的圖像文本對(duì)數(shù)據(jù)樣本；

32、修剪及生成模塊，用于從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的物體圖片，并生成與所述物體圖片相對(duì)應(yīng)的說(shuō)明文字；

33、標(biāo)簽確定模塊，用于對(duì)所述圖像文本對(duì)數(shù)據(jù)樣本中的圖像數(shù)據(jù)按區(qū)域進(jìn)行劃分處理，并基于區(qū)域劃分結(jié)果和所述說(shuō)明文字確定與所述圖像數(shù)據(jù)相對(duì)應(yīng)的整體布局標(biāo)簽；

34、模型調(diào)整模塊，用于基于所述整體布局標(biāo)簽構(gòu)建布局?jǐn)?shù)據(jù)集，并采用所述布局?jǐn)?shù)據(jù)集對(duì)圖像生成模型進(jìn)行調(diào)整處理，得到布局強(qiáng)化圖像生成模型，以使得基于所述布局強(qiáng)化圖像生成模型生成與輸入文本相對(duì)應(yīng)的目標(biāo)圖像。

35、進(jìn)一步地，所述樣本選取模塊包括：

36、分割識(shí)別單元，用于采用語(yǔ)義分割識(shí)別模型對(duì)所述圖像文本對(duì)數(shù)據(jù)集中的圖像數(shù)據(jù)分別進(jìn)行分割識(shí)別處理，得到與各個(gè)所述圖像數(shù)據(jù)相對(duì)應(yīng)的物體和位置信息；

37、評(píng)分單元，用于基于所述布局要求、所述物體和所述位置信息對(duì)各個(gè)所述圖像數(shù)據(jù)進(jìn)行評(píng)分處理，得到各個(gè)所述圖像數(shù)據(jù)的布局評(píng)分；

38、樣本確定單元，用于基于所述布局評(píng)分確定滿足布局評(píng)分閾值的目標(biāo)圖像數(shù)據(jù)，并將所述目標(biāo)圖像數(shù)據(jù)相對(duì)應(yīng)的圖像文本對(duì)數(shù)據(jù)確定為滿足所述布局要求的所述圖像文本對(duì)數(shù)據(jù)樣本。

39、進(jìn)一步地，所述修剪及生成模塊還包括：

40、獲取單元，用于獲取所述圖像文本對(duì)數(shù)據(jù)樣本中與圖像數(shù)據(jù)相對(duì)應(yīng)的位置信息和文本數(shù)據(jù)；

41、修剪單元，用于基于所述位置信息從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的所述物體圖片；

42、匹配處理單元，用于將所述文本數(shù)據(jù)與相對(duì)應(yīng)的所述物體圖片輸入多模態(tài)預(yù)訓(xùn)練模型中進(jìn)行相似度匹配處理，得到與所述物體圖片相對(duì)應(yīng)的所述說(shuō)明文字。

43、進(jìn)一步地，所述標(biāo)簽確定模塊還用于：

44、基于所述區(qū)域劃分結(jié)果確定與各個(gè)區(qū)域所對(duì)應(yīng)的物體，并獲取與所述物體相對(duì)應(yīng)的所述說(shuō)明文字；

45、為各個(gè)區(qū)域配置對(duì)應(yīng)的區(qū)域名，并基于所述區(qū)域名和所述說(shuō)明文字構(gòu)建與所述圖像數(shù)據(jù)相對(duì)應(yīng)的基礎(chǔ)布局標(biāo)簽；

46、基于所述基礎(chǔ)布局標(biāo)簽構(gòu)建相對(duì)位置標(biāo)簽，并將所述基礎(chǔ)布局標(biāo)簽和所述相對(duì)位置標(biāo)簽相結(jié)合，得到所述整體布局標(biāo)簽。

47、進(jìn)一步地，所述標(biāo)簽確定模塊還用于：

48、提取所述基礎(chǔ)布局標(biāo)簽中各個(gè)物體相對(duì)應(yīng)的所述說(shuō)明文字中的實(shí)體；

49、獲取所述區(qū)域劃分結(jié)果中各區(qū)域之間的相對(duì)位置關(guān)系，并基于所述相對(duì)位置關(guān)系和所述實(shí)體構(gòu)建所述相對(duì)位置標(biāo)簽。

50、進(jìn)一步地，所述模型調(diào)整模塊包括布局?jǐn)?shù)據(jù)集構(gòu)建單元，所述布局?jǐn)?shù)據(jù)集構(gòu)建單元用于：

51、獲取所述圖像文本對(duì)數(shù)據(jù)樣本中的文本數(shù)據(jù)；

52、計(jì)算所述整體布局標(biāo)簽與所述文本數(shù)據(jù)之間的余弦相似度；并基于所述余弦相似度對(duì)所述圖像文本對(duì)數(shù)據(jù)樣本進(jìn)行篩選處理，得到符合篩選指標(biāo)的圖像文本對(duì)數(shù)據(jù)樣本；

53、采用所述整體布局標(biāo)簽對(duì)符合篩選指標(biāo)的圖像文本對(duì)數(shù)據(jù)樣本進(jìn)行優(yōu)化處理，并將優(yōu)化后的圖像文本對(duì)數(shù)據(jù)樣本存入所述布局?jǐn)?shù)據(jù)集。

54、進(jìn)一步地，所述裝置還包括模型優(yōu)化模塊，用于：

55、獲取用戶對(duì)所述目標(biāo)圖像的評(píng)價(jià)信息；

56、基于所述評(píng)價(jià)信息對(duì)所述布局?jǐn)?shù)據(jù)集進(jìn)行更新處理，得到更新布局?jǐn)?shù)據(jù)集；

57、采用所述更新布局?jǐn)?shù)據(jù)集對(duì)所述布局強(qiáng)化圖像生成模型進(jìn)行優(yōu)化調(diào)整處理，得到優(yōu)化后的布局強(qiáng)化圖像生成模型。

58、依據(jù)本發(fā)明的又一方面，提供了一種存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一可執(zhí)行指令，所述可執(zhí)行指令使處理器執(zhí)行如上述圖像生成方法對(duì)應(yīng)的操作。

59、依據(jù)本發(fā)明另一個(gè)方面，提供了一種計(jì)算機(jī)設(shè)備，包括處理器、存儲(chǔ)器、通信接口和通信總線，所述處理器、所述存儲(chǔ)器和所述通信接口通過(guò)所述通信總線完成相互間的通信；

60、所述存儲(chǔ)器用于存放至少一可執(zhí)行指令，所述可執(zhí)行指令使所述處理器執(zhí)行如上述圖像生成方法對(duì)應(yīng)的操作。

61、借由上述技術(shù)方案，本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn)：本發(fā)明提供了一種圖像生成方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備，與現(xiàn)有技術(shù)相比，本發(fā)明通過(guò)獲取圖像文本對(duì)數(shù)據(jù)集，并從所述圖像文本對(duì)數(shù)據(jù)集中選取文本長(zhǎng)度與數(shù)據(jù)分布滿足布局要求的圖像文本對(duì)數(shù)據(jù)樣本；從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的物體圖片，并生成與所述物體圖片相對(duì)應(yīng)的說(shuō)明文字；對(duì)所述圖像文本對(duì)數(shù)據(jù)樣本中的圖像數(shù)據(jù)按區(qū)域進(jìn)行劃分處理，并基于區(qū)域劃分結(jié)果和所述說(shuō)明文字確定與所述圖像數(shù)據(jù)相對(duì)應(yīng)的整體布局標(biāo)簽；基于所述整體布局標(biāo)簽構(gòu)建布局?jǐn)?shù)據(jù)集，并采用所述布局?jǐn)?shù)據(jù)集對(duì)圖像生成模型進(jìn)行調(diào)整處理，得到布局強(qiáng)化圖像生成模型，以使得基于所述布局強(qiáng)化圖像生成模型生成與輸入文本相對(duì)應(yīng)的目標(biāo)圖像，實(shí)現(xiàn)了對(duì)目標(biāo)圖像的布局控制。本發(fā)明通過(guò)對(duì)現(xiàn)有的圖像文本對(duì)數(shù)據(jù)集進(jìn)行樣本選取、物體圖片修剪、匹配說(shuō)明文字、劃分區(qū)域、確定整體布局標(biāo)簽的處理手段得到攜帶布局信息的布局?jǐn)?shù)據(jù)集。因此，經(jīng)布局?jǐn)?shù)據(jù)集調(diào)整后的布局強(qiáng)化圖像生成模型具有較高的布局能力，可用于控制指導(dǎo)圖片生成，達(dá)到提升生成圖片布局可控性的目標(biāo)。本發(fā)明通過(guò)提高生成圖片布局可控性，使其生成滿足車險(xiǎn)、壽險(xiǎn)、銀行、商業(yè)推廣、促銷、廣告等的實(shí)際業(yè)務(wù)要求的圖片能力大大加強(qiáng)，因此本發(fā)明具有較大業(yè)務(wù)價(jià)值。

62、上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說(shuō)明書的內(nèi)容予以實(shí)施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂，以下特舉本發(fā)明的具體實(shí)施方式。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭喜民,舒暢,陳遠(yuǎn)旭
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種圖像生成方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備與流程

一種圖像生成方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備與流程