本發(fā)明涉及虛擬換發(fā)型,尤其涉及一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)。
背景技術(shù):
1、合適的發(fā)型能很好地體現(xiàn)一個(gè)人的風(fēng)格,發(fā)型對于整體的穿搭也起到了非常重要的作用。隨著對美的追求不斷深化,人們越來越注重自己的發(fā)型選擇。人們希望嘗試新發(fā)型之前預(yù)覽發(fā)型效果,從而極大地減少不滿意的理發(fā)體驗(yàn)。傳統(tǒng)的換發(fā)型技術(shù)通常借助修圖工具來完成,特別是較為復(fù)雜的發(fā)型,在細(xì)節(jié)處理需要花費(fèi)大量時(shí)間。
2、傳統(tǒng)的換發(fā)型技術(shù)通常借助修圖工具來完成,不僅需要找到新發(fā)型和本人照片角度相匹配的圖片,還需要花費(fèi)一定時(shí)間來將圖修得真實(shí)自然。隨著人工智能技術(shù)的發(fā)展,虛擬換發(fā)型技術(shù)應(yīng)運(yùn)而生,它能夠?qū)⒛繕?biāo)發(fā)型以自然的方式融入用戶的照片之中,同時(shí)保持發(fā)型的細(xì)節(jié)和用戶面部特征的清晰度。近年來,盡管基于生成對抗網(wǎng)絡(luò)(gan)的方法在虛擬換發(fā)型領(lǐng)域占據(jù)主導(dǎo)地位,但其在處理發(fā)型細(xì)節(jié)時(shí)仍存在挑戰(zhàn),容易產(chǎn)生不自然的偽影。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,本發(fā)明提供了一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)。
2、根據(jù)本發(fā)明的一方面,提出一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法,該方法包括:
3、獲取有頭發(fā)的源圖片和發(fā)型參考圖片;
4、提取發(fā)型參考圖片的發(fā)型描述詞;
5、對所述源圖片和所述發(fā)型參考圖片進(jìn)行處理,利用發(fā)型生成模型生成第一階段換發(fā)型圖片;
6、對所述第一階段換發(fā)型圖片和所述源圖片進(jìn)行處理,獲取遮擋發(fā)型圖片;
7、對所述遮擋發(fā)型圖片和所述發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理,利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片;其中,所述發(fā)型重繪dit模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型。
8、進(jìn)一步地,所述對源圖片和發(fā)型參考圖片進(jìn)行處理,利用發(fā)型生成模型生成第一階段換發(fā)型圖片包括:利用禿頂生成器對源圖片進(jìn)行處理,生成禿頂圖片;根據(jù)發(fā)型參考圖片和禿頂圖片,利用發(fā)型生成模型生成第一階段換發(fā)型圖片;其中,所述禿頂生成器包含vae編碼器、禿頂生成模型、禿頂controlnet、vae解碼器,所述禿頂生成模型和所述禿頂controlnet均包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型,所述禿頂controlnet為所述禿頂生成模型的可訓(xùn)練副本。
9、進(jìn)一步地,所述利用禿頂生成器對源圖片進(jìn)行處理,生成禿頂圖片包括:將源圖片輸入到vae編碼器中,得到隱空間編碼;將隱空間編碼輸入到禿頂controlnet中,經(jīng)過分塊化處理、線性層處理后輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行處理,獲得源圖片參考信息;將所述源圖片參考信息輸入到禿頂生成模型中;隨機(jī)生成隱空間高斯噪聲,并將所述噪聲輸入到禿頂生成模型中,經(jīng)過分塊化處理、線性層處理后,得到特征圖,將所述特征圖和禿頂controlnet輸出的源圖片參考信息一同輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行處理,得到的輸出經(jīng)過多層感知機(jī)處理后,再進(jìn)行反分塊化處理;將反分塊化處理后的結(jié)果輸入vae解碼器中,獲得源圖片對應(yīng)的禿頂圖片。
10、進(jìn)一步地,所述發(fā)型生成模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型;所述根據(jù)發(fā)型參考圖片和禿頂圖片,利用發(fā)型生成模型生成第一階段換發(fā)型圖片包括:將發(fā)型參考圖片和禿頂生成器生成的禿頂圖片分別輸入預(yù)訓(xùn)練的vae編碼器中,得到對應(yīng)的隱空間編碼;將發(fā)型參考圖片對應(yīng)的隱空間編碼輸入發(fā)型參考網(wǎng)絡(luò)中進(jìn)行處理,獲得發(fā)型細(xì)節(jié)特征;并將所述發(fā)型細(xì)節(jié)特征輸入到發(fā)型生成模型中;隨機(jī)生成隱空間高斯噪聲,并將所述噪聲和禿頂圖片對應(yīng)的隱空間編碼一同輸入到發(fā)型生成模型中,經(jīng)過分塊化處理、線性層處理后,得到特征圖,將所述特征圖和發(fā)型參考網(wǎng)絡(luò)輸出的發(fā)型細(xì)節(jié)特征一同輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行處理,得到的輸出經(jīng)過多層感知機(jī)處理后,再進(jìn)行反分塊化處理;將反分塊化處理后的結(jié)果輸入vae解碼器中,獲得源圖片對應(yīng)的第一階段換發(fā)型圖片。
11、進(jìn)一步地,所述對第一階段換發(fā)型圖片和源圖片進(jìn)行處理,獲取遮擋發(fā)型圖片包括:
12、對第一階段換發(fā)型圖片和源圖片分別進(jìn)行圖像分割,獲取對應(yīng)的分割圖片;
13、將兩個(gè)分割圖片疊加,獲得發(fā)型二值掩碼;
14、對發(fā)型二值掩碼進(jìn)行擴(kuò)張,得到擴(kuò)張之后的發(fā)型二值掩碼;
15、將擴(kuò)張之后的發(fā)型二值掩碼和第一階段換發(fā)型圖片疊加,獲取遮擋發(fā)型圖片。
16、進(jìn)一步地,所述對遮擋發(fā)型圖片和發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理,利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片包括:
17、對發(fā)型描述詞進(jìn)行文本編碼,獲得文本編碼;
18、將遮擋發(fā)型圖片輸入到vae編碼器中,獲得重繪背景隱編碼;
19、生成隱空間隨機(jī)高斯噪聲,將重繪背景隱編碼、隱空間隨機(jī)高斯噪聲和擴(kuò)張之后的發(fā)型二值掩碼沿通道進(jìn)行拼接,得到多通道輸入矩陣;
20、將多通道輸入矩陣進(jìn)行分塊化處理,再經(jīng)過線性層處理,并將處理得到的特征圖和文本編碼一同輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行循環(huán)去噪;
21、得到的輸出經(jīng)過多層感知機(jī)處理后,再進(jìn)行反分塊化處理還原回輸入的遮擋發(fā)型圖片大??;將反分塊化處理后的結(jié)果輸入vae解碼器中,獲得最終的換發(fā)型圖片。
22、進(jìn)一步地,所述基于transformer架構(gòu)的擴(kuò)散模型分為編碼塊和解碼塊;其中,編碼塊用于對輸入圖片進(jìn)行壓縮,以獲得圖片不同層次的特征,編碼塊包含自注意力模塊、交叉注意力模塊和前向傳播網(wǎng)絡(luò);解碼塊用于還原圖片大小,解碼塊包含自注意力模塊、交叉注意力模塊、前向傳播網(wǎng)絡(luò)和跳躍模塊。
23、進(jìn)一步地,所述發(fā)型生成模型和所述發(fā)型重繪dit模型均是預(yù)先訓(xùn)練好的模型,且在所述發(fā)型重繪dit模型的推理過程中利用訓(xùn)練好的低秩適應(yīng)微調(diào)模型對發(fā)型重繪dit模型中基于transformer架構(gòu)的擴(kuò)散模型的權(quán)重參數(shù)進(jìn)行微調(diào),微調(diào)公式為:
24、
25、式中,表示微調(diào)后的權(quán)重;表示基于transformer架構(gòu)的擴(kuò)散模型的原始權(quán)重參數(shù),表示低秩適應(yīng)微調(diào)模型的參數(shù),為分解得到的兩個(gè)矩陣。
26、進(jìn)一步地,所述發(fā)型生成模型訓(xùn)練過程中的損失函數(shù)如下所示:
27、
28、其中,表示高斯噪聲;表示vae編碼器;表示發(fā)型生成模型中基于transformer架構(gòu)的擴(kuò)散模型;表示發(fā)型參考網(wǎng)絡(luò);分別表示發(fā)型參考圖片和禿頂圖片;表示隱空間編碼;t表示時(shí)間步;表示分布下期望;
29、所述低秩適應(yīng)微調(diào)模型訓(xùn)練過程中的損失函數(shù)如下所示:
30、
31、其中,表示低秩適應(yīng)微調(diào)模型中基于transformer架構(gòu)的擴(kuò)散模型;表示文本編碼;表示分布下期望。
32、根據(jù)本發(fā)明的另一方面,提出一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型系統(tǒng),該系統(tǒng)包括:
33、圖片獲取模塊,其配置成獲取有頭發(fā)的源圖片和發(fā)型參考圖片;
34、發(fā)型描述提取模塊,其配置成提取發(fā)型參考圖片的發(fā)型描述詞;
35、初始換發(fā)型圖片生成模塊,其配置成對所述源圖片和所述發(fā)型參考圖片進(jìn)行處理,利用發(fā)型生成模型生成第一階段換發(fā)型圖片;
36、遮擋發(fā)型圖片生成模塊,其配置成對所述第一階段換發(fā)型圖片和所述源圖片進(jìn)行處理,獲取遮擋發(fā)型圖片;
37、換發(fā)型圖片生成模塊,其配置成對所述遮擋發(fā)型圖片和所述發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理,利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片;其中,所述發(fā)型重繪dit模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型。
38、本發(fā)明具有以下技術(shù)效果:
39、本發(fā)明提出了一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)。首先獲取有頭發(fā)的源圖片和發(fā)型參考圖片;并提取發(fā)型參考圖片的發(fā)型描述詞;然后對源圖片和發(fā)型參考圖片進(jìn)行處理,利用發(fā)型生成模型生成第一階段換發(fā)型圖片;對第一階段換發(fā)型圖片和所述源圖片進(jìn)行處理,獲取遮擋發(fā)型圖片;對遮擋發(fā)型圖片和發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理,利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片;其中,所述發(fā)型重繪dit模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型,并引入了針對每一款發(fā)型的lora訓(xùn)練,使得在生成比較復(fù)雜的發(fā)型時(shí)更加精細(xì)。
40、本發(fā)明提出一種兩階段的換發(fā)型方法,第一階段生成粗糙的換發(fā)型圖片:先生成禿頂圖片,減少原本用戶發(fā)型的影響,再生成換發(fā)型圖片,通過發(fā)型交叉注意力模塊注入發(fā)型信息;第二階段針對每一款發(fā)型的lora,在推理過程中,采用加載發(fā)型lora的發(fā)型重繪dit模型,通過重繪將換發(fā)型圖片繪制得更加精細(xì),對復(fù)雜的發(fā)型更加友好。
41、本發(fā)明可以為用戶提供一種高效便捷的虛擬換發(fā)型方案,同時(shí)也為美發(fā)行業(yè)帶來一種創(chuàng)新的服務(wù)模式;本發(fā)明能夠?yàn)楦嗳藥砣碌拿腊l(fā)體驗(yàn),并推動(dòng)個(gè)性化美發(fā)服務(wù)的發(fā)展。