本文描述的實施例一般涉及使用擴散模型來生成對象。更具體地,本文描述的實施例涉及使用擴散模型對對象的定制生成。
背景技術(shù):
1、擴散模型是可以被用來接收自然語言描述(例如,文本)作為輸入并生成與該描述匹配的圖像的機器學(xué)習(xí)模型。例如,擴散概率模型(dpm)可以包括一系列生成式模型,其將數(shù)據(jù)分布擴散到高斯白噪聲中,然后恢復(fù)隨機擴散過程以合成新的內(nèi)容/圖像。基于dpm的方法可以生成各種類型的內(nèi)容,諸如例如圖像、視頻、音頻數(shù)據(jù)等。在一些情況下,用戶可以定制商業(yè)可用的擴散模型(例如,預(yù)訓(xùn)練的dpm)來生成期望的圖像。擴散模型(例如,預(yù)訓(xùn)練的dpm)的這種定制可能需要多個參考示例來使預(yù)訓(xùn)練的dpm與用戶提供的概念對齊。例如,用戶可以使用多個梵高繪畫圖像作為輸入來定制預(yù)訓(xùn)練擴散模型的參數(shù),使得具有定制參數(shù)的預(yù)訓(xùn)練擴散模型可以生成具有文森特·梵高繪畫風(fēng)格的圖像。然而,當(dāng)輸入的文森特·梵高繪畫圖像數(shù)量有限時,得到的輸出圖像不僅看起來是文森特·梵高繪畫風(fēng)格的繪畫,而且還受到輸入圖像的內(nèi)容的限制,例如文森特·梵高繪畫中的向日葵。
技術(shù)實現(xiàn)思路
1、在一個示例實施例中,提供了一種用于使用擴散模型來生成風(fēng)格化對象的方法。該方法包括:獲得參考對象的參考風(fēng)格表示;通過執(zhí)行擴散模型的前向生成過程來生成一個或多個對象;確定每個對象相對于參考對象的風(fēng)格損失;通過反向傳播風(fēng)格損失相對于參考對象的網(wǎng)絡(luò)權(quán)重的梯度來優(yōu)化該網(wǎng)絡(luò)權(quán)重,以最小化風(fēng)格損失并獲得具有經(jīng)優(yōu)化的網(wǎng)絡(luò)權(quán)重的定制擴散模型;并且使用具有經(jīng)優(yōu)化的網(wǎng)絡(luò)權(quán)重的定制擴散模型來生成風(fēng)格化對象,該風(fēng)格化對象具有與參考對象的風(fēng)格相似的風(fēng)格。
2、在另一示例實施例中,提供了一種用于使用擴散模型來生成具有視覺效果的對象的方法。該方法包括:獲得具有預(yù)定視覺效果的參考對象,以及通過執(zhí)行具有控制信號的擴散模型的前向生成過程來生成一個或多個對象??刂菩盘柋慌渲脼榭刂茖ο蟮囊曈X效果。該方法還包括:確定每個對象相對于具有預(yù)定視覺效果的參考對象的特征損失;通過反向傳播特征損失相對于控制信號的梯度來優(yōu)化控制信號,以最小化特征損失并獲得具有優(yōu)化控制信號的定制擴散模型;并且使用具有優(yōu)化控制信號的定制擴散模型來生成對象。該對象具有與參考對象的預(yù)定視覺效果相似的視覺效果。
3、在又一示例實施例中,提供了一種用于通過執(zhí)行具有作為內(nèi)容調(diào)節(jié)器的輸入和具有擾動的起始噪聲的擴散模型的前向生成過程來生成一個或多個對象的方法。輸入對應(yīng)于由分類器標(biāo)識的參考內(nèi)容類別。該方法還包括經(jīng)由分類器確定針對每個對象的分類分?jǐn)?shù),以及確定分類分?jǐn)?shù)相對于目標(biāo)內(nèi)容類別的分類損失。目標(biāo)內(nèi)容類別不同于參考內(nèi)容類別。該方法還包括通過反向傳播分類損失相對于擾動的梯度來優(yōu)化起始噪聲的擾動,以最小化分類分?jǐn)?shù)的分類損失并獲得具有優(yōu)化起始噪聲的定制擴散模型,并且使用具有優(yōu)化起始噪聲的定制擴散模型來生成對抗示例。對抗示例被分類器標(biāo)識為目標(biāo)內(nèi)容類別。
4、本文描述的實施例可以提供使用擴散模型來定制對象的生成的示例,包括例如生成風(fēng)格化對象,生成具有特定視覺效果的對象,以及提供對抗示例以審核對象生成系統(tǒng)的安全性。本文描述的實施例還可以提供通過反向傳播過程來優(yōu)化擴散模型的一個或多個參數(shù)(例如,調(diào)節(jié)/控制信號、網(wǎng)絡(luò)權(quán)重、或初始或起始噪聲)的示例,該反向傳播過程通過基于伴隨靈敏度法求解增廣伴隨常微分方程(ode)而被執(zhí)行。
1.一種用于使用擴散模型來生成風(fēng)格化對象的方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中所述對象的所述生成包括:在通過執(zhí)行所述擴散模型的所述前向生成過程來完成對起始噪聲的迭代去噪之后,生成最終圖像。
3.根據(jù)權(quán)利要求1所述的方法,其中所述擴散模型是預(yù)訓(xùn)練的文本到圖像的基于擴散的生成式模型,其具有作為內(nèi)容調(diào)節(jié)器的輸入以生成所述對象。
4.根據(jù)權(quán)利要求3所述的方法,其中所述網(wǎng)絡(luò)權(quán)重的所述優(yōu)化還包括最小化所述風(fēng)格損失和內(nèi)容損失的組合,所述內(nèi)容損失對應(yīng)于由具有所述內(nèi)容調(diào)節(jié)器的所述預(yù)訓(xùn)練的文本到圖像的基于擴散的生成式模型生成所述對象的特征。
5.根據(jù)權(quán)利要求3所述的方法,其中所述網(wǎng)絡(luò)權(quán)重的所述優(yōu)化還包括優(yōu)化所述預(yù)訓(xùn)練的文本到圖像的基于擴散的生成式模型的一個或多個參數(shù)。
6.根據(jù)權(quán)利要求1所述的方法,其中所述風(fēng)格損失的所述梯度的所述反向傳播通過基于伴隨靈敏度法求解增廣伴隨常微分方程ode而被執(zhí)行。
7.根據(jù)權(quán)利要求6所述的方法,還包括:重新參數(shù)化所述增廣伴隨ode。
8.一種用于使用擴散模型來生成具有視覺效果的對象的方法,所述方法包括:
9.根據(jù)權(quán)利要求8所述的方法,其中所述對象的所述生成包括:在通過執(zhí)行所述擴散模型的所述前向生成過程來完成對起始噪聲的迭代去噪之后,生成最終圖像。
10.根據(jù)權(quán)利要求8所述的方法,其中所述擴散模型是預(yù)訓(xùn)練的文本到圖像的基于擴散的生成式模型,其具有作為內(nèi)容調(diào)節(jié)器的第一輸入和作為視覺效果調(diào)節(jié)器的第二輸入以生成所述對象。
11.根據(jù)權(quán)利要求10所述的方法,其中所述參考對象使用具有相同第一輸入的所述預(yù)訓(xùn)練的文本到圖像的基于擴散的生成式模型而被獲得。
12.根據(jù)權(quán)利要求10所述的方法,其中所述擴散模型的所述控制信號被優(yōu)化以將所述第二輸入轉(zhuǎn)移到所述視覺效果中。
13.根據(jù)權(quán)利要求8所述的方法,其中所述特征損失的所述梯度的所述反向傳播通過基于伴隨靈敏度法求解增廣伴隨常微分方程ode而被執(zhí)行。
14.根據(jù)權(quán)利要求13所述的方法,還包括:重新參數(shù)化所述增廣伴隨ode。
15.一種用于提供對抗示例以審核對象生成系統(tǒng)的安全性的方法,所述方法包括:
16.根據(jù)權(quán)利要求15所述的方法,其中所述對象的所述生成包括:在通過執(zhí)行所述擴散模型的所述前向生成過程來完成對所述起始噪聲的迭代去噪之后,生成最終圖像。
17.根據(jù)權(quán)利要求15所述的方法,還包括:通過執(zhí)行具有作為所述內(nèi)容調(diào)節(jié)器的所述輸入的所述擴散模型的所述前向生成過程來生成參考對象,所述參考對象被所述分類器標(biāo)識為所述參考內(nèi)容類別。
18.根據(jù)權(quán)利要求15所述的方法,其中所述分類器包括內(nèi)容審查過濾器。
19.根據(jù)權(quán)利要求18所述的方法,其中所述內(nèi)容審查過濾器將應(yīng)該被分類為有害類別的所述對抗示例澄清為安全類別。
20.根據(jù)權(quán)利要求15所述的方法,其中所述分類損失的所述梯度的所述反向傳播通過基于伴隨靈敏度法求解增廣伴隨常微分方程ode而被執(zhí)行。