本發(fā)明涉及圖像生成及金融科技領(lǐng)域,特別是涉及一種圖像生成方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備。
背景技術(shù):
1、圖像生成是計(jì)算機(jī)視覺(jué)領(lǐng)域的非?;钴S且有較多實(shí)際應(yīng)用場(chǎng)景的研究,其中diffusion模型生成圖像比gan更具多樣性,而且質(zhì)量更高,diffusion模型的訓(xùn)練過(guò)程也更加穩(wěn)定,使得圖像生成服務(wù)業(yè)務(wù)如推廣營(yíng)銷、創(chuàng)意設(shè)計(jì)等成為了現(xiàn)實(shí)。
2、在車險(xiǎn)、壽險(xiǎn)、銀行、商業(yè)推廣、促銷、廣告等的實(shí)際業(yè)務(wù)中,構(gòu)建宣傳海報(bào)、營(yíng)銷海報(bào)、活動(dòng)海報(bào)等圖片時(shí),常常需要對(duì)于圖片的內(nèi)容布局有較多的要求,比如要求一輛車行駛在路上,左邊是現(xiàn)代建筑群,右邊是另一些元素,前方有一些其他標(biāo)志等等,但是由于diffusion生成過(guò)程的隨機(jī)性、以及領(lǐng)域適配能力欠缺等問(wèn)題,生成結(jié)果往往不能直接滿足業(yè)務(wù)需求,生成的圖像雖然包含有要求中的這些元素,但是,各個(gè)元素在圖片中的布局卻不滿足要求。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明提供一種圖像生成方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備,主要目的在于解決現(xiàn)有圖像生成方法生成的圖像中各個(gè)元素不滿足布局要求的問(wèn)題。
2、依據(jù)本發(fā)明一個(gè)方面,提供了一種圖像生成方法,包括:
3、獲取圖像文本對(duì)數(shù)據(jù)集,并從所述圖像文本對(duì)數(shù)據(jù)集中選取文本長(zhǎng)度與數(shù)據(jù)分布滿足布局要求的圖像文本對(duì)數(shù)據(jù)樣本;
4、從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的物體圖片,并生成與所述物體圖片相對(duì)應(yīng)的說(shuō)明文字;
5、對(duì)所述圖像文本對(duì)數(shù)據(jù)樣本中的圖像數(shù)據(jù)按區(qū)域進(jìn)行劃分處理,并基于區(qū)域劃分結(jié)果和所述說(shuō)明文字確定與所述圖像數(shù)據(jù)相對(duì)應(yīng)的整體布局標(biāo)簽;
6、基于所述整體布局標(biāo)簽構(gòu)建布局?jǐn)?shù)據(jù)集,并采用所述布局?jǐn)?shù)據(jù)集對(duì)圖像生成模型進(jìn)行調(diào)整處理,得到布局強(qiáng)化圖像生成模型,以使得基于所述布局強(qiáng)化圖像生成模型生成與輸入文本相對(duì)應(yīng)的目標(biāo)圖像。
7、進(jìn)一步地,所述從所述圖像文本對(duì)數(shù)據(jù)集中選取文本長(zhǎng)度與數(shù)據(jù)分布滿足布局要求的圖像文本對(duì)數(shù)據(jù)樣本,包括:
8、采用語(yǔ)義分割識(shí)別模型對(duì)所述圖像文本對(duì)數(shù)據(jù)集中的圖像數(shù)據(jù)分別進(jìn)行分割識(shí)別處理,得到與各個(gè)所述圖像數(shù)據(jù)相對(duì)應(yīng)的物體和位置信息;
9、基于所述布局要求、所述物體和所述位置信息對(duì)各個(gè)所述圖像數(shù)據(jù)進(jìn)行評(píng)分處理,得到各個(gè)所述圖像數(shù)據(jù)的布局評(píng)分;
10、基于所述布局評(píng)分確定滿足布局評(píng)分閾值的目標(biāo)圖像數(shù)據(jù),并將所述目標(biāo)圖像數(shù)據(jù)相對(duì)應(yīng)的圖像文本對(duì)數(shù)據(jù)確定為滿足所述布局要求的所述圖像文本對(duì)數(shù)據(jù)樣本。
11、進(jìn)一步地,所述從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的物體圖片,并生成與所述物體圖片相對(duì)應(yīng)的說(shuō)明文字,包括:
12、獲取所述圖像文本對(duì)數(shù)據(jù)樣本中與圖像數(shù)據(jù)相對(duì)應(yīng)的位置信息和文本數(shù)據(jù);
13、基于所述位置信息從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的所述物體圖片;
14、將所述文本數(shù)據(jù)與相對(duì)應(yīng)的所述物體圖片輸入多模態(tài)預(yù)訓(xùn)練模型中進(jìn)行相似度匹配處理,得到與所述物體圖片相對(duì)應(yīng)的所述說(shuō)明文字。
15、進(jìn)一步地,所述基于區(qū)域劃分結(jié)果和所述說(shuō)明文字確定與所述圖像數(shù)據(jù)相對(duì)應(yīng)的整體布局標(biāo)簽,包括:
16、基于所述區(qū)域劃分結(jié)果確定與各個(gè)區(qū)域所對(duì)應(yīng)的物體,并獲取與所述物體相對(duì)應(yīng)的所述說(shuō)明文字;
17、為各個(gè)區(qū)域配置對(duì)應(yīng)的區(qū)域名,并基于所述區(qū)域名和所述說(shuō)明文字構(gòu)建與所述圖像數(shù)據(jù)相對(duì)應(yīng)的基礎(chǔ)布局標(biāo)簽;
18、基于所述基礎(chǔ)布局標(biāo)簽構(gòu)建相對(duì)位置標(biāo)簽,并將所述基礎(chǔ)布局標(biāo)簽和所述相對(duì)位置標(biāo)簽相結(jié)合,得到所述整體布局標(biāo)簽。
19、進(jìn)一步地,所述基于所述基礎(chǔ)布局標(biāo)簽構(gòu)建相對(duì)位置標(biāo)簽,包括:
20、提取所述基礎(chǔ)布局標(biāo)簽中各個(gè)物體相對(duì)應(yīng)的所述說(shuō)明文字中的實(shí)體;
21、獲取所述區(qū)域劃分結(jié)果中各區(qū)域之間的相對(duì)位置關(guān)系,并基于所述相對(duì)位置關(guān)系和所述實(shí)體構(gòu)建所述相對(duì)位置標(biāo)簽。
22、進(jìn)一步地,所述基于所述整體布局標(biāo)簽構(gòu)建布局?jǐn)?shù)據(jù)集,包括:
23、獲取所述圖像文本對(duì)數(shù)據(jù)樣本中的文本數(shù)據(jù);
24、計(jì)算所述整體布局標(biāo)簽與所述文本數(shù)據(jù)之間的余弦相似度;并基于所述余弦相似度對(duì)所述圖像文本對(duì)數(shù)據(jù)樣本進(jìn)行篩選處理,得到符合篩選指標(biāo)的圖像文本對(duì)數(shù)據(jù)樣本;
25、采用所述整體布局標(biāo)簽對(duì)符合篩選指標(biāo)的圖像文本對(duì)數(shù)據(jù)樣本進(jìn)行優(yōu)化處理,并將優(yōu)化后的圖像文本對(duì)數(shù)據(jù)樣本存入所述布局?jǐn)?shù)據(jù)集。
26、進(jìn)一步地,所述方法還包括:
27、獲取用戶對(duì)所述目標(biāo)圖像的評(píng)價(jià)信息;
28、基于所述評(píng)價(jià)信息對(duì)所述布局?jǐn)?shù)據(jù)集進(jìn)行更新處理,得到更新布局?jǐn)?shù)據(jù)集;
29、采用所述更新布局?jǐn)?shù)據(jù)集對(duì)所述布局強(qiáng)化圖像生成模型進(jìn)行優(yōu)化調(diào)整處理,得到優(yōu)化后的布局強(qiáng)化圖像生成模型。
30、依據(jù)本發(fā)明另一個(gè)方面,提供了一種圖像生成裝置,包括:
31、樣本選取模塊,用于獲取圖像文本對(duì)數(shù)據(jù)集,并從所述圖像文本對(duì)數(shù)據(jù)集中選取文本長(zhǎng)度與數(shù)據(jù)分布滿足布局要求的圖像文本對(duì)數(shù)據(jù)樣本;
32、修剪及生成模塊,用于從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的物體圖片,并生成與所述物體圖片相對(duì)應(yīng)的說(shuō)明文字;
33、標(biāo)簽確定模塊,用于對(duì)所述圖像文本對(duì)數(shù)據(jù)樣本中的圖像數(shù)據(jù)按區(qū)域進(jìn)行劃分處理,并基于區(qū)域劃分結(jié)果和所述說(shuō)明文字確定與所述圖像數(shù)據(jù)相對(duì)應(yīng)的整體布局標(biāo)簽;
34、模型調(diào)整模塊,用于基于所述整體布局標(biāo)簽構(gòu)建布局?jǐn)?shù)據(jù)集,并采用所述布局?jǐn)?shù)據(jù)集對(duì)圖像生成模型進(jìn)行調(diào)整處理,得到布局強(qiáng)化圖像生成模型,以使得基于所述布局強(qiáng)化圖像生成模型生成與輸入文本相對(duì)應(yīng)的目標(biāo)圖像。
35、進(jìn)一步地,所述樣本選取模塊包括:
36、分割識(shí)別單元,用于采用語(yǔ)義分割識(shí)別模型對(duì)所述圖像文本對(duì)數(shù)據(jù)集中的圖像數(shù)據(jù)分別進(jìn)行分割識(shí)別處理,得到與各個(gè)所述圖像數(shù)據(jù)相對(duì)應(yīng)的物體和位置信息;
37、評(píng)分單元,用于基于所述布局要求、所述物體和所述位置信息對(duì)各個(gè)所述圖像數(shù)據(jù)進(jìn)行評(píng)分處理,得到各個(gè)所述圖像數(shù)據(jù)的布局評(píng)分;
38、樣本確定單元,用于基于所述布局評(píng)分確定滿足布局評(píng)分閾值的目標(biāo)圖像數(shù)據(jù),并將所述目標(biāo)圖像數(shù)據(jù)相對(duì)應(yīng)的圖像文本對(duì)數(shù)據(jù)確定為滿足所述布局要求的所述圖像文本對(duì)數(shù)據(jù)樣本。
39、進(jìn)一步地,所述修剪及生成模塊還包括:
40、獲取單元,用于獲取所述圖像文本對(duì)數(shù)據(jù)樣本中與圖像數(shù)據(jù)相對(duì)應(yīng)的位置信息和文本數(shù)據(jù);
41、修剪單元,用于基于所述位置信息從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的所述物體圖片;
42、匹配處理單元,用于將所述文本數(shù)據(jù)與相對(duì)應(yīng)的所述物體圖片輸入多模態(tài)預(yù)訓(xùn)練模型中進(jìn)行相似度匹配處理,得到與所述物體圖片相對(duì)應(yīng)的所述說(shuō)明文字。
43、進(jìn)一步地,所述標(biāo)簽確定模塊還用于:
44、基于所述區(qū)域劃分結(jié)果確定與各個(gè)區(qū)域所對(duì)應(yīng)的物體,并獲取與所述物體相對(duì)應(yīng)的所述說(shuō)明文字;
45、為各個(gè)區(qū)域配置對(duì)應(yīng)的區(qū)域名,并基于所述區(qū)域名和所述說(shuō)明文字構(gòu)建與所述圖像數(shù)據(jù)相對(duì)應(yīng)的基礎(chǔ)布局標(biāo)簽;
46、基于所述基礎(chǔ)布局標(biāo)簽構(gòu)建相對(duì)位置標(biāo)簽,并將所述基礎(chǔ)布局標(biāo)簽和所述相對(duì)位置標(biāo)簽相結(jié)合,得到所述整體布局標(biāo)簽。
47、進(jìn)一步地,所述標(biāo)簽確定模塊還用于:
48、提取所述基礎(chǔ)布局標(biāo)簽中各個(gè)物體相對(duì)應(yīng)的所述說(shuō)明文字中的實(shí)體;
49、獲取所述區(qū)域劃分結(jié)果中各區(qū)域之間的相對(duì)位置關(guān)系,并基于所述相對(duì)位置關(guān)系和所述實(shí)體構(gòu)建所述相對(duì)位置標(biāo)簽。
50、進(jìn)一步地,所述模型調(diào)整模塊包括布局?jǐn)?shù)據(jù)集構(gòu)建單元,所述布局?jǐn)?shù)據(jù)集構(gòu)建單元用于:
51、獲取所述圖像文本對(duì)數(shù)據(jù)樣本中的文本數(shù)據(jù);
52、計(jì)算所述整體布局標(biāo)簽與所述文本數(shù)據(jù)之間的余弦相似度;并基于所述余弦相似度對(duì)所述圖像文本對(duì)數(shù)據(jù)樣本進(jìn)行篩選處理,得到符合篩選指標(biāo)的圖像文本對(duì)數(shù)據(jù)樣本;
53、采用所述整體布局標(biāo)簽對(duì)符合篩選指標(biāo)的圖像文本對(duì)數(shù)據(jù)樣本進(jìn)行優(yōu)化處理,并將優(yōu)化后的圖像文本對(duì)數(shù)據(jù)樣本存入所述布局?jǐn)?shù)據(jù)集。
54、進(jìn)一步地,所述裝置還包括模型優(yōu)化模塊,用于:
55、獲取用戶對(duì)所述目標(biāo)圖像的評(píng)價(jià)信息;
56、基于所述評(píng)價(jià)信息對(duì)所述布局?jǐn)?shù)據(jù)集進(jìn)行更新處理,得到更新布局?jǐn)?shù)據(jù)集;
57、采用所述更新布局?jǐn)?shù)據(jù)集對(duì)所述布局強(qiáng)化圖像生成模型進(jìn)行優(yōu)化調(diào)整處理,得到優(yōu)化后的布局強(qiáng)化圖像生成模型。
58、依據(jù)本發(fā)明的又一方面,提供了一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一可執(zhí)行指令,所述可執(zhí)行指令使處理器執(zhí)行如上述圖像生成方法對(duì)應(yīng)的操作。
59、依據(jù)本發(fā)明另一個(gè)方面,提供了一種計(jì)算機(jī)設(shè)備,包括處理器、存儲(chǔ)器、通信接口和通信總線,所述處理器、所述存儲(chǔ)器和所述通信接口通過(guò)所述通信總線完成相互間的通信;
60、所述存儲(chǔ)器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如上述圖像生成方法對(duì)應(yīng)的操作。
61、借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):本發(fā)明提供了一種圖像生成方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備,與現(xiàn)有技術(shù)相比,本發(fā)明通過(guò)獲取圖像文本對(duì)數(shù)據(jù)集,并從所述圖像文本對(duì)數(shù)據(jù)集中選取文本長(zhǎng)度與數(shù)據(jù)分布滿足布局要求的圖像文本對(duì)數(shù)據(jù)樣本;從所述圖像文本對(duì)數(shù)據(jù)樣本中修剪出對(duì)應(yīng)的物體圖片,并生成與所述物體圖片相對(duì)應(yīng)的說(shuō)明文字;對(duì)所述圖像文本對(duì)數(shù)據(jù)樣本中的圖像數(shù)據(jù)按區(qū)域進(jìn)行劃分處理,并基于區(qū)域劃分結(jié)果和所述說(shuō)明文字確定與所述圖像數(shù)據(jù)相對(duì)應(yīng)的整體布局標(biāo)簽;基于所述整體布局標(biāo)簽構(gòu)建布局?jǐn)?shù)據(jù)集,并采用所述布局?jǐn)?shù)據(jù)集對(duì)圖像生成模型進(jìn)行調(diào)整處理,得到布局強(qiáng)化圖像生成模型,以使得基于所述布局強(qiáng)化圖像生成模型生成與輸入文本相對(duì)應(yīng)的目標(biāo)圖像,實(shí)現(xiàn)了對(duì)目標(biāo)圖像的布局控制。本發(fā)明通過(guò)對(duì)現(xiàn)有的圖像文本對(duì)數(shù)據(jù)集進(jìn)行樣本選取、物體圖片修剪、匹配說(shuō)明文字、劃分區(qū)域、確定整體布局標(biāo)簽的處理手段得到攜帶布局信息的布局?jǐn)?shù)據(jù)集。因此,經(jīng)布局?jǐn)?shù)據(jù)集調(diào)整后的布局強(qiáng)化圖像生成模型具有較高的布局能力,可用于控制指導(dǎo)圖片生成,達(dá)到提升生成圖片布局可控性的目標(biāo)。本發(fā)明通過(guò)提高生成圖片布局可控性,使其生成滿足車險(xiǎn)、壽險(xiǎn)、銀行、商業(yè)推廣、促銷、廣告等的實(shí)際業(yè)務(wù)要求的圖片能力大大加強(qiáng),因此本發(fā)明具有較大業(yè)務(wù)價(jià)值。
62、上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。