欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種融合Transformer架構(gòu)與LoRA訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)與流程

文檔序號(hào):40583511發(fā)布日期:2025-01-07 20:23閱讀:5來源:國知局
一種融合Transformer架構(gòu)與LoRA訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)與流程

本發(fā)明涉及虛擬換發(fā)型,尤其涉及一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)。


背景技術(shù):

1、合適的發(fā)型能很好地體現(xiàn)一個(gè)人的風(fēng)格,發(fā)型對于整體的穿搭也起到了非常重要的作用。隨著對美的追求不斷深化,人們越來越注重自己的發(fā)型選擇。人們希望嘗試新發(fā)型之前預(yù)覽發(fā)型效果,從而極大地減少不滿意的理發(fā)體驗(yàn)。傳統(tǒng)的換發(fā)型技術(shù)通常借助修圖工具來完成,特別是較為復(fù)雜的發(fā)型,在細(xì)節(jié)處理需要花費(fèi)大量時(shí)間。

2、傳統(tǒng)的換發(fā)型技術(shù)通常借助修圖工具來完成,不僅需要找到新發(fā)型和本人照片角度相匹配的圖片,還需要花費(fèi)一定時(shí)間來將圖修得真實(shí)自然。隨著人工智能技術(shù)的發(fā)展,虛擬換發(fā)型技術(shù)應(yīng)運(yùn)而生,它能夠?qū)⒛繕?biāo)發(fā)型以自然的方式融入用戶的照片之中,同時(shí)保持發(fā)型的細(xì)節(jié)和用戶面部特征的清晰度。近年來,盡管基于生成對抗網(wǎng)絡(luò)(gan)的方法在虛擬換發(fā)型領(lǐng)域占據(jù)主導(dǎo)地位,但其在處理發(fā)型細(xì)節(jié)時(shí)仍存在挑戰(zhàn),容易產(chǎn)生不自然的偽影。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問題,本發(fā)明提供了一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)。

2、根據(jù)本發(fā)明的一方面,提出一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法,該方法包括:

3、獲取有頭發(fā)的源圖片和發(fā)型參考圖片;

4、提取發(fā)型參考圖片的發(fā)型描述詞;

5、對所述源圖片和所述發(fā)型參考圖片進(jìn)行處理,利用發(fā)型生成模型生成第一階段換發(fā)型圖片;

6、對所述第一階段換發(fā)型圖片和所述源圖片進(jìn)行處理,獲取遮擋發(fā)型圖片;

7、對所述遮擋發(fā)型圖片和所述發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理,利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片;其中,所述發(fā)型重繪dit模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型。

8、進(jìn)一步地,所述對源圖片和發(fā)型參考圖片進(jìn)行處理,利用發(fā)型生成模型生成第一階段換發(fā)型圖片包括:利用禿頂生成器對源圖片進(jìn)行處理,生成禿頂圖片;根據(jù)發(fā)型參考圖片和禿頂圖片,利用發(fā)型生成模型生成第一階段換發(fā)型圖片;其中,所述禿頂生成器包含vae編碼器、禿頂生成模型、禿頂controlnet、vae解碼器,所述禿頂生成模型和所述禿頂controlnet均包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型,所述禿頂controlnet為所述禿頂生成模型的可訓(xùn)練副本。

9、進(jìn)一步地,所述利用禿頂生成器對源圖片進(jìn)行處理,生成禿頂圖片包括:將源圖片輸入到vae編碼器中,得到隱空間編碼;將隱空間編碼輸入到禿頂controlnet中,經(jīng)過分塊化處理、線性層處理后輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行處理,獲得源圖片參考信息;將所述源圖片參考信息輸入到禿頂生成模型中;隨機(jī)生成隱空間高斯噪聲,并將所述噪聲輸入到禿頂生成模型中,經(jīng)過分塊化處理、線性層處理后,得到特征圖,將所述特征圖和禿頂controlnet輸出的源圖片參考信息一同輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行處理,得到的輸出經(jīng)過多層感知機(jī)處理后,再進(jìn)行反分塊化處理;將反分塊化處理后的結(jié)果輸入vae解碼器中,獲得源圖片對應(yīng)的禿頂圖片。

10、進(jìn)一步地,所述發(fā)型生成模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型;所述根據(jù)發(fā)型參考圖片和禿頂圖片,利用發(fā)型生成模型生成第一階段換發(fā)型圖片包括:將發(fā)型參考圖片和禿頂生成器生成的禿頂圖片分別輸入預(yù)訓(xùn)練的vae編碼器中,得到對應(yīng)的隱空間編碼;將發(fā)型參考圖片對應(yīng)的隱空間編碼輸入發(fā)型參考網(wǎng)絡(luò)中進(jìn)行處理,獲得發(fā)型細(xì)節(jié)特征;并將所述發(fā)型細(xì)節(jié)特征輸入到發(fā)型生成模型中;隨機(jī)生成隱空間高斯噪聲,并將所述噪聲和禿頂圖片對應(yīng)的隱空間編碼一同輸入到發(fā)型生成模型中,經(jīng)過分塊化處理、線性層處理后,得到特征圖,將所述特征圖和發(fā)型參考網(wǎng)絡(luò)輸出的發(fā)型細(xì)節(jié)特征一同輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行處理,得到的輸出經(jīng)過多層感知機(jī)處理后,再進(jìn)行反分塊化處理;將反分塊化處理后的結(jié)果輸入vae解碼器中,獲得源圖片對應(yīng)的第一階段換發(fā)型圖片。

11、進(jìn)一步地,所述對第一階段換發(fā)型圖片和源圖片進(jìn)行處理,獲取遮擋發(fā)型圖片包括:

12、對第一階段換發(fā)型圖片和源圖片分別進(jìn)行圖像分割,獲取對應(yīng)的分割圖片;

13、將兩個(gè)分割圖片疊加,獲得發(fā)型二值掩碼;

14、對發(fā)型二值掩碼進(jìn)行擴(kuò)張,得到擴(kuò)張之后的發(fā)型二值掩碼;

15、將擴(kuò)張之后的發(fā)型二值掩碼和第一階段換發(fā)型圖片疊加,獲取遮擋發(fā)型圖片。

16、進(jìn)一步地,所述對遮擋發(fā)型圖片和發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理,利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片包括:

17、對發(fā)型描述詞進(jìn)行文本編碼,獲得文本編碼;

18、將遮擋發(fā)型圖片輸入到vae編碼器中,獲得重繪背景隱編碼;

19、生成隱空間隨機(jī)高斯噪聲,將重繪背景隱編碼、隱空間隨機(jī)高斯噪聲和擴(kuò)張之后的發(fā)型二值掩碼沿通道進(jìn)行拼接,得到多通道輸入矩陣;

20、將多通道輸入矩陣進(jìn)行分塊化處理,再經(jīng)過線性層處理,并將處理得到的特征圖和文本編碼一同輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行循環(huán)去噪;

21、得到的輸出經(jīng)過多層感知機(jī)處理后,再進(jìn)行反分塊化處理還原回輸入的遮擋發(fā)型圖片大??;將反分塊化處理后的結(jié)果輸入vae解碼器中,獲得最終的換發(fā)型圖片。

22、進(jìn)一步地,所述基于transformer架構(gòu)的擴(kuò)散模型分為編碼塊和解碼塊;其中,編碼塊用于對輸入圖片進(jìn)行壓縮,以獲得圖片不同層次的特征,編碼塊包含自注意力模塊、交叉注意力模塊和前向傳播網(wǎng)絡(luò);解碼塊用于還原圖片大小,解碼塊包含自注意力模塊、交叉注意力模塊、前向傳播網(wǎng)絡(luò)和跳躍模塊。

23、進(jìn)一步地,所述發(fā)型生成模型和所述發(fā)型重繪dit模型均是預(yù)先訓(xùn)練好的模型,且在所述發(fā)型重繪dit模型的推理過程中利用訓(xùn)練好的低秩適應(yīng)微調(diào)模型對發(fā)型重繪dit模型中基于transformer架構(gòu)的擴(kuò)散模型的權(quán)重參數(shù)進(jìn)行微調(diào),微調(diào)公式為:

24、

25、式中,表示微調(diào)后的權(quán)重;表示基于transformer架構(gòu)的擴(kuò)散模型的原始權(quán)重參數(shù),表示低秩適應(yīng)微調(diào)模型的參數(shù),為分解得到的兩個(gè)矩陣。

26、進(jìn)一步地,所述發(fā)型生成模型訓(xùn)練過程中的損失函數(shù)如下所示:

27、

28、其中,表示高斯噪聲;表示vae編碼器;表示發(fā)型生成模型中基于transformer架構(gòu)的擴(kuò)散模型;表示發(fā)型參考網(wǎng)絡(luò);分別表示發(fā)型參考圖片和禿頂圖片;表示隱空間編碼;t表示時(shí)間步;表示分布下期望;

29、所述低秩適應(yīng)微調(diào)模型訓(xùn)練過程中的損失函數(shù)如下所示:

30、

31、其中,表示低秩適應(yīng)微調(diào)模型中基于transformer架構(gòu)的擴(kuò)散模型;表示文本編碼;表示分布下期望。

32、根據(jù)本發(fā)明的另一方面,提出一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型系統(tǒng),該系統(tǒng)包括:

33、圖片獲取模塊,其配置成獲取有頭發(fā)的源圖片和發(fā)型參考圖片;

34、發(fā)型描述提取模塊,其配置成提取發(fā)型參考圖片的發(fā)型描述詞;

35、初始換發(fā)型圖片生成模塊,其配置成對所述源圖片和所述發(fā)型參考圖片進(jìn)行處理,利用發(fā)型生成模型生成第一階段換發(fā)型圖片;

36、遮擋發(fā)型圖片生成模塊,其配置成對所述第一階段換發(fā)型圖片和所述源圖片進(jìn)行處理,獲取遮擋發(fā)型圖片;

37、換發(fā)型圖片生成模塊,其配置成對所述遮擋發(fā)型圖片和所述發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理,利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片;其中,所述發(fā)型重繪dit模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型。

38、本發(fā)明具有以下技術(shù)效果:

39、本發(fā)明提出了一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)。首先獲取有頭發(fā)的源圖片和發(fā)型參考圖片;并提取發(fā)型參考圖片的發(fā)型描述詞;然后對源圖片和發(fā)型參考圖片進(jìn)行處理,利用發(fā)型生成模型生成第一階段換發(fā)型圖片;對第一階段換發(fā)型圖片和所述源圖片進(jìn)行處理,獲取遮擋發(fā)型圖片;對遮擋發(fā)型圖片和發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理,利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片;其中,所述發(fā)型重繪dit模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型,并引入了針對每一款發(fā)型的lora訓(xùn)練,使得在生成比較復(fù)雜的發(fā)型時(shí)更加精細(xì)。

40、本發(fā)明提出一種兩階段的換發(fā)型方法,第一階段生成粗糙的換發(fā)型圖片:先生成禿頂圖片,減少原本用戶發(fā)型的影響,再生成換發(fā)型圖片,通過發(fā)型交叉注意力模塊注入發(fā)型信息;第二階段針對每一款發(fā)型的lora,在推理過程中,采用加載發(fā)型lora的發(fā)型重繪dit模型,通過重繪將換發(fā)型圖片繪制得更加精細(xì),對復(fù)雜的發(fā)型更加友好。

41、本發(fā)明可以為用戶提供一種高效便捷的虛擬換發(fā)型方案,同時(shí)也為美發(fā)行業(yè)帶來一種創(chuàng)新的服務(wù)模式;本發(fā)明能夠?yàn)楦嗳藥砣碌拿腊l(fā)體驗(yàn),并推動(dòng)個(gè)性化美發(fā)服務(wù)的發(fā)展。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
乾安县| 鄯善县| 建阳市| 乌兰县| 什邡市| 张掖市| 永德县| 丹巴县| 晋州市| 桐庐县| 道孚县| 南澳县| 邯郸市| 淳化县| 扎鲁特旗| 和平县| 汝州市| 正蓝旗| 南漳县| 宁化县| 石景山区| 东兰县| 泰州市| 临高县| 久治县| 麦盖提县| 盖州市| 容城县| 丹江口市| 扎赉特旗| 兴隆县| 常德市| 蓬溪县| 尚志市| 西畴县| 克东县| 松桃| 哈密市| 慈利县| 丹阳市| 阳江市|