本發(fā)明涉及一種可編輯條件印花圖像生成方法,屬于圖像生成領(lǐng)域。
背景技術(shù):
1、花紋設(shè)計(jì)和印花設(shè)計(jì)是織物設(shè)計(jì)的重要環(huán)節(jié)。對(duì)于紡織與服裝行業(yè),高度的時(shí)尚性和時(shí)效性決定了進(jìn)行花紋和印花設(shè)計(jì)需要盡可能地快速。傳統(tǒng)的設(shè)計(jì)方法由設(shè)計(jì)師設(shè)計(jì)圖案并通過設(shè)計(jì)織造方式等具現(xiàn)于織物上,周期長,人力時(shí)間成本大;使用人工智能輔助設(shè)計(jì)師對(duì)圖案進(jìn)行設(shè)計(jì)可以節(jié)省大量時(shí)間,根據(jù)具體任務(wù)要求快速將設(shè)計(jì)元素和風(fēng)格融合,生成多種設(shè)計(jì)圖案供設(shè)計(jì)師選擇和修改。通常這種圖像生成的方式由生成對(duì)抗網(wǎng)絡(luò)(gan)或擴(kuò)散模型實(shí)現(xiàn)。goodfellow等在《generative?adversarial?networks》中提出生成對(duì)抗網(wǎng)絡(luò)理論(gan),通過生成器與辨別器相互促進(jìn)的方式實(shí)現(xiàn)圖片的生成,為圖片風(fēng)格轉(zhuǎn)換提供新思路。radford等在《unsupervised?representation?learning?with?deepconvolutional?generative?adversarial?net?works》中提出深度卷積生成對(duì)抗網(wǎng)絡(luò)(dcgan)之后,端到端的圖像翻譯這個(gè)框架便被提出,并不斷發(fā)展。mirza等的《conditionalgenerative?adversarial?nets》在gan的基礎(chǔ)上提出了帶有條件約束的cgan網(wǎng)絡(luò),可以通過條件信息引導(dǎo)模型生成。
2、如果輸入為設(shè)計(jì)圖進(jìn)行約束,需要生成指定的風(fēng)格圖像。這種方式通常稱為圖像翻譯,主要分為三種類型:有監(jiān)督、無監(jiān)督和多領(lǐng)域生成。有監(jiān)督的圖像翻譯通常由配對(duì)的圖像組成數(shù)據(jù)集實(shí)現(xiàn);無監(jiān)督圖像翻譯無需依賴成對(duì)的訓(xùn)練數(shù)據(jù),基于生成對(duì)抗網(wǎng)絡(luò)和自編碼器等深度學(xué)習(xí)模型實(shí)現(xiàn);多領(lǐng)域的圖像翻譯通??梢詽M足生成多種不同條件的任務(wù)要求。為了更好地實(shí)現(xiàn)圖像的風(fēng)格轉(zhuǎn)換;isola等在《image-to-image?translation?withconditional?adversarial?networks》中提出了pix2pix的算法模型,通過建立具有風(fēng)格不同的配對(duì)圖像的數(shù)據(jù)庫,提升了生成圖像的可控性。pix2pix本質(zhì)上也是一種條件生成對(duì)抗網(wǎng)絡(luò)cgan,使用了有監(jiān)督的方法,在圖像翻譯任務(wù)上有較為不錯(cuò)的表現(xiàn);wang等在《perceptual?adversarial?net?works?for?image-to-image?transformation》中提出了感知對(duì)抗網(wǎng)絡(luò)(pan),在pix2pix的基礎(chǔ)上加入了感知損失,實(shí)現(xiàn)通用的圖像轉(zhuǎn)換;zhu等在《toward?multimodal?im?age-to-image?translation》中提出匹配多模態(tài)圖像翻譯方法(bicyclegan),此方法通過2種模型的組合,強(qiáng)制生成器不忽略噪聲,使用噪聲生成多樣性結(jié)果。但是由于在某些任務(wù)上匹配數(shù)據(jù)集建立難度大,成本高;zhu等在《unpaired?image-to-image?translation?using?cycle-consistent?adversarial?networks》中提出了非匹配圖像數(shù)據(jù)集的無監(jiān)督訓(xùn)練方式,在pix2pix的基礎(chǔ)上進(jìn)一步改進(jìn)網(wǎng)絡(luò),提出了由兩組不同的生成器辨別器同時(shí)訓(xùn)練交換信息的方式,引入循環(huán)一致性損失,解決了生成網(wǎng)絡(luò)需要配對(duì)圖像的問題,使用cyclegan實(shí)現(xiàn)了圖像的風(fēng)格轉(zhuǎn)換。但是僅使用循環(huán)一致性損失約束效力弱;stylegan等的《analyzing?and?improving?the?image?quality?of?stylegan》在cyclegan的基礎(chǔ)上提出了一個(gè)新穎的生成器架構(gòu),在上采樣過程中通過噪聲影響細(xì)節(jié)的隨機(jī)生成,在圖像主內(nèi)容不變的情況下實(shí)現(xiàn)風(fēng)格多樣性和細(xì)節(jié)多樣性;sem-gan等在《semantically-consistent?image-to-image?translation》中搭建了語義一致框架,使用語義信息約束了圖像條件的生成;同時(shí),tang等在《attentiongan:unpaired?im?age-to-image?translation?using?attention-guided?generative?ad?versarial?networks》中提出了與注意力機(jī)制結(jié)合的生成方法(attentiongan),解決了以往算法未能翻譯圖像高級(jí)的語義信息的短板,采用輸出和注意力掩碼結(jié)合的方式,在翻譯圖像的同時(shí)最小化背景變化;emami等的《spa-gan:spatial?at?tention?gan?for?image-to-image?translation》在判別器中引入了空間注意力機(jī)制,加強(qiáng)了判別器的能力。
3、上述有監(jiān)督的圖像翻譯和多領(lǐng)域的圖像翻譯只能解決一對(duì)一映射問題,而多領(lǐng)域翻譯的情況無法解決?;谶@個(gè)問題,choi等在《stargan:?unified?generativeadversarial?networks?for?multi-domain?image-to-image?translation》中提出stargan,實(shí)現(xiàn)了單個(gè)網(wǎng)絡(luò)中同時(shí)翻譯不同領(lǐng)域的數(shù)據(jù)集,通過令判別器輸出圖像類別訓(xùn)練了網(wǎng)絡(luò)的多領(lǐng)域翻譯能力。雖然多領(lǐng)域圖像的翻譯框架可以保存源域圖像的結(jié)構(gòu)信息,但不能很好地遷移翻譯圖像的風(fēng)格;因此sun等在《multimodal?unsupervised?image-to-image?translation?without?independent?style?encoder》中提出了無需獨(dú)立風(fēng)格編碼器的多模態(tài)無監(jiān)督圖像到圖像轉(zhuǎn)換(mnise-gan),增強(qiáng)了風(fēng)格生成能力。huang等在《multimodal?unsupervised?image-to-image?translation》中采用munit網(wǎng)絡(luò)試圖解耦圖像翻譯的過程;hu等人在《latent?style:multi-style?image?transfer?via?latentstyle?coding?and?skip?connection》中認(rèn)為,風(fēng)格信息解耦后的代碼是隨機(jī)噪聲,在原有的munit基礎(chǔ)上加入自注意力和跳連結(jié)構(gòu),網(wǎng)絡(luò)更注重全局和細(xì)節(jié)信息。
4、fang等在《triple-gan:?progressive?face?aging?with?triple?translationloss》中建立了生成器、判別器和分類器3個(gè)網(wǎng)絡(luò),通過分類器預(yù)測(cè)生成圖像的標(biāo)簽,可生成多種不同的真實(shí)或非真實(shí)圖像,可應(yīng)用于印花的生成中。公開號(hào)為cn118628336a的中國專利公開了一種基于殘差網(wǎng)絡(luò)的圖像風(fēng)格遷移方法,使用多尺度變換mst一致的融合方式對(duì)刺繡和平面印花在隱空間進(jìn)行融合并通過解碼器實(shí)現(xiàn)圖像重構(gòu);但是具有結(jié)構(gòu)簡單,約束性差,無法實(shí)現(xiàn)元素可編輯性的缺點(diǎn)。
5、張佳偉等在《基于擴(kuò)散模型的印花圖案生成方法設(shè)計(jì)》中雖然通過微調(diào)實(shí)現(xiàn)了印花圖像的生成;但是沒有元素可控性,微調(diào)模型并不能很好地理解印花及織物語義。
6、在公開號(hào)為cn102360399a的中國專利中公開了一種基于廣義mandelbrot集的印花織物的圖案生成方法,通過構(gòu)造廣義mandelbrot集分形圖及其局部細(xì)節(jié)圖為基本元素,通過改變迭代式中的參數(shù)、顏色值的配置、圖像放大區(qū)域和放大倍數(shù)等設(shè)計(jì)紡織紋樣,實(shí)現(xiàn)了印花的快速設(shè)計(jì);但是這種方法圖像局限性強(qiáng),風(fēng)格單一,無法實(shí)現(xiàn)個(gè)性化設(shè)計(jì)。
7、在公開號(hào)為cn106709171a的中國專利公開了一種基于重復(fù)模式發(fā)現(xiàn)的印花圖案生成方法,對(duì)印花重復(fù)對(duì)象構(gòu)造布局模板并對(duì)輪廓進(jìn)行多粒度四邊形網(wǎng)格剖分和最優(yōu)布局求解后計(jì)算對(duì)象實(shí)例的仿射變換,通過拼接時(shí)實(shí)例之間的層次關(guān)系,從而進(jìn)行實(shí)例繪制以實(shí)現(xiàn)印花圖案的合成;但是該方法針對(duì)重復(fù)模板構(gòu)造布局模板,無法實(shí)現(xiàn)個(gè)性化生成,風(fēng)格局限于圖像集,拓展性差。
8、綜上所述,現(xiàn)有技術(shù)無法實(shí)現(xiàn)織物語義信息的解耦,生成滿足客戶需求的具有特定風(fēng)格的印花風(fēng)格。
技術(shù)實(shí)現(xiàn)思路
1、為了解決以上存在的一種或多種問題,本發(fā)明提出了一種可編輯條件印花圖像生成方法,可以協(xié)助印花設(shè)計(jì)師設(shè)計(jì)具有不同風(fēng)格和圖案的印花圖像,相對(duì)于現(xiàn)有的模型和方法,可以實(shí)現(xiàn)織物語義信息的解耦,生成滿足客戶需求的具有特定風(fēng)格的印花風(fēng)格,以滿足個(gè)性化設(shè)計(jì)和多樣化需求。
2、本發(fā)明的第一個(gè)目的是提供一個(gè)印花圖像生成模型,模型基于本發(fā)明提出的方法實(shí)現(xiàn),生成模型包括一個(gè)生成器和一個(gè)辨別器,其中生成器結(jié)構(gòu)如下:
3、如圖3所示,生成器包括第一編碼器、特征融合模塊、多頭注意力機(jī)制和解碼器;第一編碼器接受噪聲輸入,在隱空間生成噪聲隱空間向量;如圖4所示,特征融合模塊包括第二編碼器和yt注意力機(jī)制;在數(shù)據(jù)集中選取不同的元素以及指定的風(fēng)格特征圖經(jīng)過預(yù)處理后在第一路徑實(shí)現(xiàn)通道上進(jìn)行合并,并把多個(gè)合并后的特征圖輸入yt注意力機(jī)制中;同時(shí),在第二路徑經(jīng)過第二解碼器實(shí)現(xiàn)多維信息的提取以及信息交流,與第一路徑經(jīng)過yt注意力機(jī)制輸出的特征圖合并之后輸出一張?jiān)亟Y(jié)合風(fēng)格特征圖,并與提前編碼好的色彩信息向量合并形成隱空間向量;該隱空間向量與噪聲隱空間向量一起輸入至多頭注意力機(jī)制,此時(shí)再添加編碼好的條件信息向量,輸出目標(biāo)圖像的隱空間向量,對(duì)目標(biāo)函數(shù)的隱空間向量進(jìn)行解碼得到目標(biāo)圖像。
4、在一種實(shí)施方式中,第一編碼器結(jié)構(gòu)為三層卷積層,前兩層使用3x3的卷積核,其中第一層步長為1,第二層步長為2,第三層使用5x5的卷積核,并在每一個(gè)卷積層后使用殘差連接保證圖像清晰度。
5、在一種實(shí)施方式中,第二編碼器結(jié)構(gòu)為三個(gè)路徑:
6、其中路徑一(低尺度特征提?。?/p>
7、第一層卷積:使用3x3卷積核,步長為1,輸出64個(gè)通道。
8、第二層卷積:使用3x3卷積核,步長為2,輸出128個(gè)通道。
9、交互層:通過殘差連接將第一層的輸出與第二層的輸出相加,形成低層特征的增強(qiáng)。
10、路徑二(中尺度特征提取):
11、第一層卷積:使用5x5卷積核,步長為1,輸出128個(gè)通道。
12、第二層卷積:使用5x5卷積核,步長為2,輸出256個(gè)通道。
13、交互層:將路徑一的輸出與路徑二的第一層輸出進(jìn)行連接,促進(jìn)特征的交流和融合。
14、路徑三(高尺度特征提?。?/p>
15、第一層卷積:使用7x7卷積核,步長為1,輸出256個(gè)通道。
16、第二層卷積:使用7x7卷積核,步長為2,輸出512個(gè)通道。
17、交互層:通過殘差連接將路徑二的輸出與路徑三的第一層輸出進(jìn)行相加,增強(qiáng)中高層特征的交互。該編碼器實(shí)現(xiàn)多尺度特征提取:通過不同大小的卷積核并行提取特征;交互式殘差連接:不同路徑之間通過交互層實(shí)現(xiàn)信息共享,提升特征表達(dá)的豐富性。
18、在一種實(shí)施方式中,多頭注意力機(jī)制結(jié)構(gòu)含三個(gè)部分:鍵(key)、查詢(query)和值(value),分別代表了輸入數(shù)據(jù)中不同維度的特征,通過線性映射,計(jì)算自注意力并拼接,最后通過線性變換輸出圖像隱空間向量。
19、在一種實(shí)施方式中,色彩信息編碼方式為通過對(duì)rgb三通道的信息進(jìn)行編碼形成一個(gè)通道和寬度均為1的與詞向量大小相似的隱空間向量。
20、在一種實(shí)施方式中,條件信息編碼方式為使用文字向量編碼方式,使用pytorch自帶的文字編碼函數(shù)對(duì)條件信息進(jìn)行編碼。
21、在一種實(shí)施方式中,解碼器結(jié)構(gòu)為六層反卷積上采樣結(jié)構(gòu),附帶跳連結(jié)構(gòu),從而增強(qiáng)特征表達(dá)能力和信息流動(dòng)。
22、在一種實(shí)施方式中,yt注意力機(jī)制為如圖3所示,由兩個(gè)相互連接的路徑組成:一個(gè)是局部路徑,對(duì)輸入特征通道的一部分進(jìn)行空間注意力特征提取以及最大池化通道特征提取;另一個(gè)是全局路徑,對(duì)輸入特征通道的另一部分進(jìn)行傅里葉變換以及平均池化通道特征提取,以獲取元素全局信息,從而進(jìn)一步提取深層特征,每個(gè)路徑可以用不同感受野捕捉互補(bǔ)信息,這些路徑之間的信息交換在內(nèi)部進(jìn)行,從而實(shí)現(xiàn)非局部感受野和跨區(qū)域跨尺度融合。
23、本發(fā)明的第二個(gè)目的是提供一種印花圖像生成模型訓(xùn)練方法,生成模型訓(xùn)練方法基于本發(fā)明的技術(shù)方案實(shí)現(xiàn),建立了獨(dú)特的數(shù)據(jù)集和損失函數(shù);
24、在一種實(shí)施方式中,數(shù)據(jù)集內(nèi)容由三個(gè)不同的數(shù)據(jù)集構(gòu)成:
25、第一數(shù)據(jù)集:元素?cái)?shù)據(jù)集,通過cnn對(duì)不同印花圖像中的元素進(jìn)行特征提取,并將其高層輸出的特征圖保存為數(shù)據(jù)集,同樣的元素標(biāo)簽放在同一文件夾,數(shù)據(jù)集中共保存了50多中不同的元素不同風(fēng)格的特征圖。
26、第二數(shù)據(jù)集:風(fēng)格圖像,通過收集并標(biāo)注不同風(fēng)格的印花圖像,數(shù)據(jù)集規(guī)模為20種不同風(fēng)格的印花,每種風(fēng)格均包含10張以上包含不同元素的印花圖像。
27、第三數(shù)據(jù)集:真實(shí)約束圖像,每張圖像包含標(biāo)簽,具有獨(dú)特的代表性,數(shù)據(jù)集規(guī)模為400張。
28、在一種實(shí)施方式中,損失函數(shù)為由四個(gè)不同作用的損失函數(shù)構(gòu)成:
29、總損失函數(shù)l表示如下:
30、(1.1)
31、其中l(wèi)1表示第一損失函數(shù),用于約束印花圖像的真實(shí)性,l2表示第二損失函數(shù),l3表示第三損失函數(shù),二者用于共同約束印花圖像的循環(huán)性,l4表示第四損失函數(shù),表示第二損失函數(shù)l2在總損失函數(shù)l中的權(quán)重,表示第三損失函數(shù)l3在總損失函數(shù)l中的權(quán)重,表示第四損失函數(shù)l4在總損失函數(shù)l中的權(quán)重。
32、引入第一損失函數(shù)l1表示如下:
33、(1.2)
34、其中,g代表生成器,d代表辨別器,x代表從真實(shí)數(shù)據(jù)集采樣的圖片,y代表?xiàng)l件信息,z代表噪聲,ex~pdata(x)代表x關(guān)于數(shù)據(jù)分布pdata(x)的期望值,pdata(x)代表x的概率分布,ez~pz代表z關(guān)于數(shù)據(jù)分布pz的期望值,pz代表z的概率分布。
35、引入第二損失函數(shù)l2,從而進(jìn)一步約束生成印花圖像的循環(huán)性。計(jì)算第二損失函數(shù)l2時(shí),將在生成的印花圖像上截取多張固定大小的循環(huán)印花區(qū)域,并將其通過一個(gè)網(wǎng)絡(luò),表示為低維向量,通過計(jì)算向量之間的余弦距離來表征多張圖片之間的相似度,損失函數(shù)l2表示為:
36、(1.3)
37、其中,p與q分別表示兩張循環(huán)印花區(qū)域圖像的低維向量表示,pi表示低維特征p的第i個(gè)像素點(diǎn),qi表示低維特征q的第i個(gè)像素點(diǎn),n表示低維圖像特征q和p的像素點(diǎn)個(gè)數(shù),假設(shè)均相同且為n。
38、引入第三損失函數(shù)l3,對(duì)生成的圖像進(jìn)行一次cnn的特征提?。ú煌惺芤暗奶卣魈崛。?duì)下采樣的每一張?zhí)卣鲌D進(jìn)行傅里葉變換,并檢測(cè)他們相似的重復(fù)頻率進(jìn)行比對(duì)從而約束至特定的循環(huán)圖像和圖像大小;
39、(1.4)
40、其中,f(ki)表示對(duì)圖像k的第i次下采樣所得特征圖進(jìn)行傅里葉變換采集的頻率特征,同理,f(ki-1)為第i-1次下采樣所得特征圖進(jìn)行傅里葉變換采集的頻率特征,n為設(shè)定的采樣次數(shù)。
41、引入第四損失函數(shù)l4,對(duì)印花圖像的語義信息進(jìn)行約束以增強(qiáng)其信息表達(dá)能力;
42、(1.5)
43、其中,||·||1代表l1范數(shù),cl表示圖像的通道數(shù),hl表示圖像的長,wl表示圖像的寬,g(z)表示輸入為噪聲的生成器輸出內(nèi)容,x表示數(shù)據(jù)集中的真實(shí)圖像,l代表不同的vgg層數(shù)上輸出的特征圖,此函數(shù)的目標(biāo)是將生成圖和真實(shí)圖像通過預(yù)訓(xùn)練好的vgg網(wǎng)絡(luò),對(duì)特定層輸出的特征圖進(jìn)行第一損失函數(shù)l1正則,可以用有效地比較生成圖片的語義信息完整與否,原理是預(yù)訓(xùn)練好的vgg網(wǎng)絡(luò)會(huì)在前幾層提取底層特征如邊緣信息等,而較高層數(shù)則會(huì)輸出具有高位語義信息的特征。這個(gè)損失函數(shù)由感知損失改進(jìn)而來,可以更好地約束本模型。
44、本發(fā)明的有益效果:
45、1、通過降采樣提取出印花平面圖像的各個(gè)元素不同的高級(jí)特征,通過多尺度特征提取和信息交流來捕捉印花平面圖像中的元素和風(fēng)格信息,進(jìn)而解析不同印花平面圖像特征對(duì)應(yīng)的隱空間向量,在隱空間中實(shí)現(xiàn)特定風(fēng)格的融合,并通過解碼器實(shí)現(xiàn)印花設(shè)計(jì)圖像的解碼,實(shí)現(xiàn)了元素信息的解耦,可滿足個(gè)性化設(shè)計(jì)和多樣化需求,具有可拓展性。
46、2、模型的多輸入設(shè)計(jì)可以幫助生成更細(xì)致,更具設(shè)計(jì)感的印花圖像,給設(shè)計(jì)師提供更多樣化的設(shè)計(jì)思路。在解碼過程中,模型需要逐步上采樣特征圖,使得低維潛在表示變?yōu)楦叻直媛实膱D像。為了保證多尺度特征的一致性,本模型引入多頭注意力機(jī)制,可多個(gè)尺度上選擇最有用的特征。結(jié)合編碼器的輸出與解碼器正在處理的特征。這樣可以幫助模型結(jié)合編碼器中的全局信息,改進(jìn)解碼階段的特征表示。
47、3、通過雙路徑的方式進(jìn)一步實(shí)現(xiàn)了元素和風(fēng)格的特征融合和解析,提高了模型的表達(dá)能力。yt注意力機(jī)制的每個(gè)路徑可以用不同感受野捕捉互補(bǔ)信息,這些路徑之間的信息交換在內(nèi)部進(jìn)行,從而實(shí)現(xiàn)非局部感受野和跨區(qū)域跨尺度融合。
48、4、通過多頭注意力結(jié)合元素、風(fēng)格向量和噪聲隱空間向量,融合多尺度特征。在生成一幅包含多個(gè)印花元素的圖像時(shí),多頭注意力機(jī)制能夠幫助模型確保不同印花元素之間的風(fēng)格一致性和協(xié)調(diào)性。
49、5、通過獨(dú)特設(shè)計(jì)的損失函數(shù),其多個(gè)損失函數(shù)共同約束了印花圖像生成的真實(shí)性,可循環(huán)性以及語義信息完整性。