本申請(qǐng)實(shí)施例涉及人工智能,具體涉及模型訓(xùn)練方法、圖像生成方法及其裝置。
背景技術(shù):
1、擴(kuò)散模型(diffusion?model,dm)是一種在深度學(xué)習(xí)和人工智能領(lǐng)域中使用的生成模型,其在圖像生成方面表現(xiàn)出色。擴(kuò)散模型的工作流程可以分為前向過(guò)程和逆向過(guò)程,前向過(guò)程也稱(chēng)為擴(kuò)散過(guò)程,用于給圖像添加噪聲,使圖像像素值分布產(chǎn)生變化。逆向過(guò)程也稱(chēng)為去噪過(guò)程,用于去除圖像噪聲,得到清晰圖像。在擴(kuò)散模型訓(xùn)練階段,通常需要對(duì)時(shí)間步進(jìn)行采樣,基于采樣的時(shí)間步來(lái)確定所添加的高斯噪聲,基于該噪聲與擴(kuò)散模型預(yù)測(cè)出的噪聲,進(jìn)行模型訓(xùn)練。
2、現(xiàn)有技術(shù)中,在擴(kuò)散模型訓(xùn)練過(guò)程中,通常對(duì)時(shí)間步進(jìn)行均勻采樣。然而,在不同時(shí)間步下圖像像素值分布的變化是非均勻的,在時(shí)間步較小時(shí),圖像像素值分布的變化較為劇烈,在時(shí)間步較大時(shí),圖像像素值分布的變化較為平緩,均勻采樣忽略了擴(kuò)散過(guò)程中圖像像素值的變化性質(zhì),因此擴(kuò)散模型對(duì)圖像像素值變化較大的階段的關(guān)注不足,導(dǎo)致訓(xùn)練效率較低以及圖像生成質(zhì)量較低。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例的目的是提供一種模型訓(xùn)練方法、圖像生成方法及其裝置,能夠提高擴(kuò)散模型的訓(xùn)練效率和圖像生成質(zhì)量。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練方法,該方法包括:獲取樣本圖像;基于貝塔分布,對(duì)擴(kuò)散模型在擴(kuò)散過(guò)程中所采用的時(shí)間步進(jìn)行采樣,得到采樣時(shí)間步,所述貝塔分布的參數(shù)值基于所述擴(kuò)散過(guò)程中圖像像素值分布的變化趨勢(shì)確定;基于所述樣本圖像和所述采樣時(shí)間步,對(duì)所述擴(kuò)散模型進(jìn)行訓(xùn)練。
3、第二方面,本申請(qǐng)實(shí)施例提供了一種模型訓(xùn)練裝置,該裝置包括:獲取單元,用于獲取樣本圖像;采樣單元,用于基于貝塔分布,對(duì)擴(kuò)散模型在擴(kuò)散過(guò)程中所采用的時(shí)間步進(jìn)行采樣,得到采樣時(shí)間步,所述貝塔分布的參數(shù)值基于所述擴(kuò)散過(guò)程中圖像像素值分布的變化趨勢(shì)確定;訓(xùn)練單元,用于基于所述樣本圖像和所述采樣時(shí)間步,對(duì)所述擴(kuò)散模型進(jìn)行訓(xùn)練。
4、第三方面,本申請(qǐng)實(shí)施例提供了一種圖像生成方法,該方法包括:獲取待去噪圖像;將所述待去噪圖像輸入至采用第一方面所述的模型訓(xùn)練方法訓(xùn)練得到的擴(kuò)散模型,得到所述擴(kuò)散模型輸出的噪聲數(shù)據(jù);基于所述待去噪圖像和所述噪聲數(shù)據(jù),生成目標(biāo)圖像。
5、第四方面,本申請(qǐng)實(shí)施例提供了一種圖像生成裝置,該裝置包括:獲取單元,用于獲取待去噪圖像;處理單元,用于將所述待去噪圖像輸入至采用第一方面所述的模型訓(xùn)練方法訓(xùn)練得到的擴(kuò)散模型,得到所述擴(kuò)散模型輸出的噪聲數(shù)據(jù);生成單元,用于基于所述待去噪圖像和所述噪聲數(shù)據(jù),生成目標(biāo)圖像。
6、第五方面,本申請(qǐng)實(shí)施例提供了一種電子設(shè)備,該電子設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)可在所述處理器上運(yùn)行的程序或指令,所述程序或指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面或第二方面所描述的方法的步驟。
7、第六方面,本申請(qǐng)實(shí)施例提供了一種可讀存儲(chǔ)介質(zhì),可讀存儲(chǔ)介質(zhì)上存儲(chǔ)計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面或第二方面所描述的方法的步驟。
8、第七方面,本申請(qǐng)實(shí)施例提供了一種芯片,所述芯片包括處理器和通信接口,所述通信接口和所述處理器耦合,所述處理器用于運(yùn)行程序或指令,實(shí)現(xiàn)如第一方面或第二方面所描述的方法。
9、第八方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,該程序產(chǎn)品被存儲(chǔ)在存儲(chǔ)介質(zhì)中,該程序產(chǎn)品被至少一個(gè)處理器執(zhí)行以實(shí)現(xiàn)如第一方面或第二方面所描述的方法。
10、在本申請(qǐng)實(shí)施例中,首先獲取樣本圖像;而后基于貝塔分布,對(duì)擴(kuò)散模型在擴(kuò)散過(guò)程中所采用的時(shí)間步進(jìn)行采樣,得到采樣時(shí)間步,貝塔分布的參數(shù)值基于擴(kuò)散過(guò)程中圖像像素值分布的變化趨勢(shì)確定;最后基于樣本圖像和采樣時(shí)間步,對(duì)擴(kuò)散模型進(jìn)行訓(xùn)練。由于貝塔分布的參數(shù)值基于擴(kuò)散過(guò)程中圖像像素值分布的變化趨勢(shì)確定,因此能夠使得貝塔分布與擴(kuò)散模型擴(kuò)散過(guò)程中圖像像素值分布具有相同的變化趨勢(shì)。在此基礎(chǔ)上,基于貝塔分布進(jìn)行時(shí)間步的采樣,一方面,能夠?qū)U(kuò)散過(guò)程中圖像像素值分布變化劇烈的時(shí)間步進(jìn)行較為密集的采樣,使得擴(kuò)散模型能夠更快地學(xué)習(xí)到圖像像素值分布變化較大的階段的特征,同時(shí)對(duì)圖像像素值分布變化緩慢的時(shí)間步進(jìn)行較為稀疏的采樣,使得擴(kuò)散模型能夠更快收斂,從而提高了擴(kuò)散模型的訓(xùn)練效率;另一方面,通過(guò)對(duì)擴(kuò)散過(guò)程中圖像像素值分布變化劇烈的時(shí)間步進(jìn)行較為密集的采樣,能夠使擴(kuò)散模型在訓(xùn)練過(guò)程中能夠更多地關(guān)注圖像像素值分布變化較大的階段,有助于提高擴(kuò)散模型生成圖像的質(zhì)量。
1.一種模型訓(xùn)練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于貝塔分布,對(duì)擴(kuò)散模型在擴(kuò)散過(guò)程中所采用的時(shí)間步進(jìn)行采樣,得到采樣時(shí)間步,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于貝塔分布,確定所述第一集合中的各候選時(shí)間步的采樣概率,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述樣本圖像和所述采樣時(shí)間步,對(duì)所述擴(kuò)散模型進(jìn)行訓(xùn)練,包括:
5.一種圖像生成方法,其特征在于,所述方法包括:
6.一種模型訓(xùn)練裝置,其特征在于,所述裝置包括:
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述采樣單元,還用于:
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述采樣單元,還用于:
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述訓(xùn)練單元,還用于:
10.一種圖像生成裝置,其特征在于,所述裝置包括: