一種融合Transformer架構(gòu)與LoRA訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)與流程

文檔序號(hào)：40583511發(fā)布日期：2025-01-07 20:23閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種融合Transformer架構(gòu)與LoRA訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)與流程

本發(fā)明涉及虛擬換發(fā)型，尤其涉及一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)。

背景技術(shù)：

1、合適的發(fā)型能很好地體現(xiàn)一個(gè)人的風(fēng)格，發(fā)型對于整體的穿搭也起到了非常重要的作用。隨著對美的追求不斷深化，人們越來越注重自己的發(fā)型選擇。人們希望嘗試新發(fā)型之前預(yù)覽發(fā)型效果，從而極大地減少不滿意的理發(fā)體驗(yàn)。傳統(tǒng)的換發(fā)型技術(shù)通常借助修圖工具來完成，特別是較為復(fù)雜的發(fā)型，在細(xì)節(jié)處理需要花費(fèi)大量時(shí)間。

2、傳統(tǒng)的換發(fā)型技術(shù)通常借助修圖工具來完成，不僅需要找到新發(fā)型和本人照片角度相匹配的圖片，還需要花費(fèi)一定時(shí)間來將圖修得真實(shí)自然。隨著人工智能技術(shù)的發(fā)展，虛擬換發(fā)型技術(shù)應(yīng)運(yùn)而生，它能夠?qū)⒛繕?biāo)發(fā)型以自然的方式融入用戶的照片之中，同時(shí)保持發(fā)型的細(xì)節(jié)和用戶面部特征的清晰度。近年來，盡管基于生成對抗網(wǎng)絡(luò)（gan）的方法在虛擬換發(fā)型領(lǐng)域占據(jù)主導(dǎo)地位，但其在處理發(fā)型細(xì)節(jié)時(shí)仍存在挑戰(zhàn)，容易產(chǎn)生不自然的偽影。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問題，本發(fā)明提供了一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)。

2、根據(jù)本發(fā)明的一方面，提出一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法，該方法包括：

3、獲取有頭發(fā)的源圖片和發(fā)型參考圖片；

4、提取發(fā)型參考圖片的發(fā)型描述詞；

5、對所述源圖片和所述發(fā)型參考圖片進(jìn)行處理，利用發(fā)型生成模型生成第一階段換發(fā)型圖片；

6、對所述第一階段換發(fā)型圖片和所述源圖片進(jìn)行處理，獲取遮擋發(fā)型圖片；

7、對所述遮擋發(fā)型圖片和所述發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理，利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片；其中，所述發(fā)型重繪dit模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型。

8、進(jìn)一步地，所述對源圖片和發(fā)型參考圖片進(jìn)行處理，利用發(fā)型生成模型生成第一階段換發(fā)型圖片包括：利用禿頂生成器對源圖片進(jìn)行處理，生成禿頂圖片；根據(jù)發(fā)型參考圖片和禿頂圖片，利用發(fā)型生成模型生成第一階段換發(fā)型圖片；其中，所述禿頂生成器包含vae編碼器、禿頂生成模型、禿頂controlnet、vae解碼器，所述禿頂生成模型和所述禿頂controlnet均包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型，所述禿頂controlnet為所述禿頂生成模型的可訓(xùn)練副本。

9、進(jìn)一步地，所述利用禿頂生成器對源圖片進(jìn)行處理，生成禿頂圖片包括：將源圖片輸入到vae編碼器中，得到隱空間編碼；將隱空間編碼輸入到禿頂controlnet中，經(jīng)過分塊化處理、線性層處理后輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行處理，獲得源圖片參考信息；將所述源圖片參考信息輸入到禿頂生成模型中；隨機(jī)生成隱空間高斯噪聲，并將所述噪聲輸入到禿頂生成模型中，經(jīng)過分塊化處理、線性層處理后，得到特征圖，將所述特征圖和禿頂controlnet輸出的源圖片參考信息一同輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行處理，得到的輸出經(jīng)過多層感知機(jī)處理后，再進(jìn)行反分塊化處理；將反分塊化處理后的結(jié)果輸入vae解碼器中，獲得源圖片對應(yīng)的禿頂圖片。

10、進(jìn)一步地，所述發(fā)型生成模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型；所述根據(jù)發(fā)型參考圖片和禿頂圖片，利用發(fā)型生成模型生成第一階段換發(fā)型圖片包括：將發(fā)型參考圖片和禿頂生成器生成的禿頂圖片分別輸入預(yù)訓(xùn)練的vae編碼器中，得到對應(yīng)的隱空間編碼；將發(fā)型參考圖片對應(yīng)的隱空間編碼輸入發(fā)型參考網(wǎng)絡(luò)中進(jìn)行處理，獲得發(fā)型細(xì)節(jié)特征；并將所述發(fā)型細(xì)節(jié)特征輸入到發(fā)型生成模型中；隨機(jī)生成隱空間高斯噪聲，并將所述噪聲和禿頂圖片對應(yīng)的隱空間編碼一同輸入到發(fā)型生成模型中，經(jīng)過分塊化處理、線性層處理后，得到特征圖，將所述特征圖和發(fā)型參考網(wǎng)絡(luò)輸出的發(fā)型細(xì)節(jié)特征一同輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行處理，得到的輸出經(jīng)過多層感知機(jī)處理后，再進(jìn)行反分塊化處理；將反分塊化處理后的結(jié)果輸入vae解碼器中，獲得源圖片對應(yīng)的第一階段換發(fā)型圖片。

11、進(jìn)一步地，所述對第一階段換發(fā)型圖片和源圖片進(jìn)行處理，獲取遮擋發(fā)型圖片包括：

12、對第一階段換發(fā)型圖片和源圖片分別進(jìn)行圖像分割，獲取對應(yīng)的分割圖片；

13、將兩個(gè)分割圖片疊加，獲得發(fā)型二值掩碼；

14、對發(fā)型二值掩碼進(jìn)行擴(kuò)張，得到擴(kuò)張之后的發(fā)型二值掩碼；

15、將擴(kuò)張之后的發(fā)型二值掩碼和第一階段換發(fā)型圖片疊加，獲取遮擋發(fā)型圖片。

16、進(jìn)一步地，所述對遮擋發(fā)型圖片和發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理，利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片包括：

17、對發(fā)型描述詞進(jìn)行文本編碼，獲得文本編碼；

18、將遮擋發(fā)型圖片輸入到vae編碼器中，獲得重繪背景隱編碼；

19、生成隱空間隨機(jī)高斯噪聲，將重繪背景隱編碼、隱空間隨機(jī)高斯噪聲和擴(kuò)張之后的發(fā)型二值掩碼沿通道進(jìn)行拼接，得到多通道輸入矩陣；

20、將多通道輸入矩陣進(jìn)行分塊化處理，再經(jīng)過線性層處理，并將處理得到的特征圖和文本編碼一同輸入到多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型中進(jìn)行循環(huán)去噪；

21、得到的輸出經(jīng)過多層感知機(jī)處理后，再進(jìn)行反分塊化處理還原回輸入的遮擋發(fā)型圖片大??；將反分塊化處理后的結(jié)果輸入vae解碼器中，獲得最終的換發(fā)型圖片。

22、進(jìn)一步地，所述基于transformer架構(gòu)的擴(kuò)散模型分為編碼塊和解碼塊；其中，編碼塊用于對輸入圖片進(jìn)行壓縮，以獲得圖片不同層次的特征，編碼塊包含自注意力模塊、交叉注意力模塊和前向傳播網(wǎng)絡(luò)；解碼塊用于還原圖片大小，解碼塊包含自注意力模塊、交叉注意力模塊、前向傳播網(wǎng)絡(luò)和跳躍模塊。

23、進(jìn)一步地，所述發(fā)型生成模型和所述發(fā)型重繪dit模型均是預(yù)先訓(xùn)練好的模型，且在所述發(fā)型重繪dit模型的推理過程中利用訓(xùn)練好的低秩適應(yīng)微調(diào)模型對發(fā)型重繪dit模型中基于transformer架構(gòu)的擴(kuò)散模型的權(quán)重參數(shù)進(jìn)行微調(diào)，微調(diào)公式為：

24、

25、式中，表示微調(diào)后的權(quán)重；表示基于transformer架構(gòu)的擴(kuò)散模型的原始權(quán)重參數(shù)，表示低秩適應(yīng)微調(diào)模型的參數(shù)，為分解得到的兩個(gè)矩陣。

26、進(jìn)一步地，所述發(fā)型生成模型訓(xùn)練過程中的損失函數(shù)如下所示：

27、

28、其中，表示高斯噪聲；表示vae編碼器；表示發(fā)型生成模型中基于transformer架構(gòu)的擴(kuò)散模型；表示發(fā)型參考網(wǎng)絡(luò)；分別表示發(fā)型參考圖片和禿頂圖片；表示隱空間編碼；t表示時(shí)間步；表示分布下期望；

29、所述低秩適應(yīng)微調(diào)模型訓(xùn)練過程中的損失函數(shù)如下所示：

30、

31、其中，表示低秩適應(yīng)微調(diào)模型中基于transformer架構(gòu)的擴(kuò)散模型；表示文本編碼；表示分布下期望。

32、根據(jù)本發(fā)明的另一方面，提出一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型系統(tǒng)，該系統(tǒng)包括：

33、圖片獲取模塊，其配置成獲取有頭發(fā)的源圖片和發(fā)型參考圖片；

34、發(fā)型描述提取模塊，其配置成提取發(fā)型參考圖片的發(fā)型描述詞；

35、初始換發(fā)型圖片生成模塊，其配置成對所述源圖片和所述發(fā)型參考圖片進(jìn)行處理，利用發(fā)型生成模型生成第一階段換發(fā)型圖片；

36、遮擋發(fā)型圖片生成模塊，其配置成對所述第一階段換發(fā)型圖片和所述源圖片進(jìn)行處理，獲取遮擋發(fā)型圖片；

37、換發(fā)型圖片生成模塊，其配置成對所述遮擋發(fā)型圖片和所述發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理，利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片；其中，所述發(fā)型重繪dit模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型。

38、本發(fā)明具有以下技術(shù)效果：

39、本發(fā)明提出了一種融合transformer架構(gòu)與lora訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)。首先獲取有頭發(fā)的源圖片和發(fā)型參考圖片；并提取發(fā)型參考圖片的發(fā)型描述詞；然后對源圖片和發(fā)型參考圖片進(jìn)行處理，利用發(fā)型生成模型生成第一階段換發(fā)型圖片；對第一階段換發(fā)型圖片和所述源圖片進(jìn)行處理，獲取遮擋發(fā)型圖片；對遮擋發(fā)型圖片和發(fā)型參考圖片的發(fā)型描述詞進(jìn)行處理，利用發(fā)型重繪dit模型生成最終的換發(fā)型圖片；其中，所述發(fā)型重繪dit模型包含多個(gè)串聯(lián)的基于transformer架構(gòu)的擴(kuò)散模型，并引入了針對每一款發(fā)型的lora訓(xùn)練，使得在生成比較復(fù)雜的發(fā)型時(shí)更加精細(xì)。

40、本發(fā)明提出一種兩階段的換發(fā)型方法，第一階段生成粗糙的換發(fā)型圖片：先生成禿頂圖片，減少原本用戶發(fā)型的影響，再生成換發(fā)型圖片，通過發(fā)型交叉注意力模塊注入發(fā)型信息；第二階段針對每一款發(fā)型的lora，在推理過程中，采用加載發(fā)型lora的發(fā)型重繪dit模型，通過重繪將換發(fā)型圖片繪制得更加精細(xì)，對復(fù)雜的發(fā)型更加友好。

41、本發(fā)明可以為用戶提供一種高效便捷的虛擬換發(fā)型方案，同時(shí)也為美發(fā)行業(yè)帶來一種創(chuàng)新的服務(wù)模式；本發(fā)明能夠?yàn)楦嗳藥砣碌拿腊l(fā)體驗(yàn)，并推動(dòng)個(gè)性化美發(fā)服務(wù)的發(fā)展。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：車宏圖
技術(shù)所有人：美眾（天津）科技有限公司
我是此專利的發(fā)明人

上一篇：一種軸與鏈板傳動(dòng)結(jié)構(gòu)的制作方法
上一篇：一種大型核電站用臥式管殼式潤滑油冷卻器的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種融合Transformer架構(gòu)與LoRA訓(xùn)練的虛擬換發(fā)型方法及系統(tǒng)與流程