本公開涉及圖像處理,具體地,涉及一種圖像生成方法、裝置、介質(zhì)和電子設(shè)備。
背景技術(shù):
1、相關(guān)技術(shù)中,擴(kuò)散模型能夠根據(jù)輸入文本來生成圖像。因此,擴(kuò)散模型也被用于一些個(gè)性化應(yīng)用,例如,根據(jù)一張或少量幾張包含某同個(gè)目標(biāo)對(duì)象的參考圖像來生成定制化的內(nèi)容。然而,現(xiàn)有的擴(kuò)散模型不能很好地再現(xiàn)參考圖像中的目標(biāo)對(duì)象。
技術(shù)實(shí)現(xiàn)思路
1、提供該
技術(shù)實(shí)現(xiàn)要素:
部分以便以簡要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實(shí)施方式部分被詳細(xì)描述。該發(fā)明內(nèi)容部分并不旨在標(biāo)識(shí)要求保護(hù)的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護(hù)的技術(shù)方案的范圍。
2、第一方面,本公開提供一種圖像生成方法,包括:獲取參考圖像,所述參考圖像中包括目標(biāo)對(duì)象;接收文本描述,所述文本描述包括用于對(duì)所述目標(biāo)對(duì)象進(jìn)行描述的目標(biāo)對(duì)象標(biāo)識(shí)符和用于描述要對(duì)所述目標(biāo)對(duì)象做出的更改的更改描述;根據(jù)所述文本描述生成中間圖像;利用所述參考圖像,對(duì)所述中間圖像進(jìn)行校正,得到包含所述目標(biāo)對(duì)象的最終圖像。
3、第二方面,本公開提供一種圖像生成裝置,包括:獲取模塊,用于獲取參考圖像,所述參考圖像中包括目標(biāo)對(duì)象;接收模塊,用于接收文本描述,所述文本描述包括用于對(duì)所述目標(biāo)對(duì)象進(jìn)行描述的目標(biāo)對(duì)象標(biāo)識(shí)符和用于描述要對(duì)所述目標(biāo)對(duì)象做出的更改的更改描述;生成模塊,用于根據(jù)所述文本描述生成中間圖像;校正模塊,用于利用所述參考圖像,對(duì)所述中間圖像進(jìn)行校正,得到包含所述目標(biāo)對(duì)象的最終圖像。
4、第三方面,本公開提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理裝置執(zhí)行時(shí)實(shí)現(xiàn)本公開第一方面中任一項(xiàng)所述方法的步驟。
5、第四方面,本公開提供一種電子設(shè)備,包括:存儲(chǔ)裝置,其上存儲(chǔ)有計(jì)算機(jī)程序;處理裝置,用于執(zhí)行所述存儲(chǔ)裝置中的所述計(jì)算機(jī)程序,以實(shí)現(xiàn)本公開第一方面中任一項(xiàng)所述方法的步驟。
6、上述技術(shù)方案具有如下有益效果:
7、(1)由于是根據(jù)文本描述生成中間圖像,該文本描述包括用于對(duì)所述目標(biāo)對(duì)象進(jìn)行描述的目標(biāo)對(duì)象標(biāo)識(shí)符和用于描述要對(duì)所述目標(biāo)對(duì)象做出的更改的更改描述,而不需要采用額外圖像編碼器,因此,避免了因圖像編碼器的壓縮編碼導(dǎo)致的參考圖像重要細(xì)節(jié)的丟失。
8、(2)由于能夠利用包含目標(biāo)對(duì)象的參考圖像對(duì)中間圖像進(jìn)行校正來得到包含目標(biāo)對(duì)象的最終圖像,因此,在生成最終圖像時(shí),借助參考圖像加入了目標(biāo)對(duì)象相關(guān)的注意力,也即借助參考圖像加入了參考圖像中包含的目標(biāo)對(duì)象的一些具體細(xì)節(jié),從而,既能夠盡量少地影響預(yù)訓(xùn)練文生圖模型的文生圖能力,又能夠提供關(guān)于目標(biāo)對(duì)象的更多細(xì)節(jié),使得最終生成的圖像中的目標(biāo)對(duì)象與參考圖像中的目標(biāo)對(duì)象之間更相似,使得最終生成的圖像更真實(shí)地再現(xiàn)了目標(biāo)對(duì)象。
9、本公開的其他特征和優(yōu)點(diǎn)將在隨后的具體實(shí)施方式部分予以詳細(xì)說明。
1.一種圖像生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)對(duì)象標(biāo)識(shí)符包括所述目標(biāo)對(duì)象所屬的類別和用于對(duì)所述目標(biāo)對(duì)象的屬性進(jìn)行描述的目標(biāo)對(duì)象屬性標(biāo)識(shí)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標(biāo)對(duì)象屬性標(biāo)識(shí)通過如下方式獲得:
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述目標(biāo)對(duì)象屬性標(biāo)識(shí)為向量的形式。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述更改描述包括以下中的至少一者;背景、所述目標(biāo)對(duì)象的姿態(tài)、所述目標(biāo)對(duì)象的色彩、所述目標(biāo)對(duì)象的藝術(shù)演繹、所述目標(biāo)對(duì)象的物種、所述目標(biāo)對(duì)象的材質(zhì)。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述參考圖像,對(duì)所述中間圖像進(jìn)行校正,得到包含所述目標(biāo)對(duì)象的最終圖像,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述掩膜圖中的像素,對(duì)所述中間圖像中的目標(biāo)對(duì)象的像素進(jìn)行校正,包括:
8.一種圖像生成裝置,其特征在于,包括:
9.一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理裝置執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述方法的步驟。
10.一種電子設(shè)備,其特征在于,包括: