欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

視頻生成模型的訓(xùn)練方法、視頻生成方法與流程

文檔序號(hào):40508469發(fā)布日期:2024-12-31 13:17閱讀:14來(lái)源:國(guó)知局
視頻生成模型的訓(xùn)練方法、視頻生成方法與流程

本申請(qǐng)涉及視頻制作領(lǐng)域,具體而言,涉及一種視頻生成模型的訓(xùn)練方法、視頻生成方法。


背景技術(shù):

1、數(shù)字對(duì)象,通常指通過(guò)計(jì)算機(jī)技術(shù)和數(shù)字媒體創(chuàng)建的虛擬對(duì)象,其可以是具有肢體行為、表情和語(yǔ)音的三維模型。

2、在一些應(yīng)用場(chǎng)景中,可以通過(guò)視頻呈現(xiàn)數(shù)字對(duì)象的動(dòng)態(tài)行為。例如,呈現(xiàn)數(shù)字人從微笑轉(zhuǎn)換為哭泣的連貫過(guò)程。

3、在相關(guān)技術(shù)中,可以通過(guò)擴(kuò)散模型生成視頻,但是在擴(kuò)散模型的訓(xùn)練過(guò)程中,其會(huì)將每一樣本視頻幀均進(jìn)行加噪和降噪處理,這樣使得擴(kuò)散模型在實(shí)際生成數(shù)字對(duì)象的視頻時(shí),只能通過(guò)樣本視頻幀中的部分信息對(duì)數(shù)字對(duì)象的姿態(tài)或外貌進(jìn)行簡(jiǎn)單約束,從而導(dǎo)致生成視頻中數(shù)字對(duì)象的行為的連貫性較差,且精準(zhǔn)度較低。


技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例的目的在于提供一種視頻生成模型的訓(xùn)練方法、視頻生成方法,用以通過(guò)視頻生成模型生成行為連貫且信息較為精準(zhǔn)的視頻。

2、第一方面,本申請(qǐng)實(shí)施例提供了一種視頻生成模型的訓(xùn)練方法,該方法包括:在樣本視頻中標(biāo)記出多個(gè)標(biāo)記視頻幀,得到標(biāo)記視頻;將所述標(biāo)記視頻以及所述樣本視頻中數(shù)字對(duì)象的樣本行為描述信息輸入擴(kuò)散模型,得到目標(biāo)樣本視頻;所述擴(kuò)散模型包括加噪模塊以及降噪模塊,所述加噪模塊用于對(duì)所述標(biāo)記視頻進(jìn)行加噪處理,所述降噪模塊用于對(duì)加噪后的標(biāo)記視頻進(jìn)行降噪處理,得到行為連貫的目標(biāo)樣本視頻;其中,所述標(biāo)記視頻幀在所述擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變;若所述目標(biāo)樣本視頻與所述樣本視頻匹配,則將所述擴(kuò)散模型確定為視頻生成模型。這樣,可以使標(biāo)記視頻幀在擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變,從而可以使擴(kuò)散模型將真實(shí)清晰的非連續(xù)幀作為擴(kuò)散基礎(chǔ),學(xué)習(xí)到非連續(xù)幀之間的連續(xù)性特征,以使訓(xùn)練得到的視頻生成模型能夠生成行為連貫且信息較為精準(zhǔn)的視頻。

3、可選地,所述在樣本視頻中標(biāo)記出多個(gè)標(biāo)記視頻幀,得到標(biāo)記視頻,包括:在所述樣本視頻中隨機(jī)標(biāo)記出預(yù)設(shè)比例的標(biāo)記視頻幀,得到所述標(biāo)記視頻。這樣,通過(guò)隨機(jī)方式對(duì)樣本視頻中的視頻幀進(jìn)行標(biāo)記,在一定程度上提高了標(biāo)記視頻的可信度,使得視頻生成模型更加適于在實(shí)際場(chǎng)景中應(yīng)用。

4、可選地,在所述樣本視頻中隨機(jī)標(biāo)記出預(yù)設(shè)比例的標(biāo)記視頻幀,得到所述標(biāo)記視頻,包括:將所述樣本視頻均分為預(yù)設(shè)個(gè)數(shù)的樣本視頻段;分別從多個(gè)樣本視頻段中隨機(jī)標(biāo)記出多個(gè)標(biāo)記視頻幀,得到所述標(biāo)記視頻;其中,首尾兩個(gè)樣本視頻段中的標(biāo)記視頻幀數(shù)量分別大于其他樣本視頻段中的標(biāo)記視頻幀數(shù)量。這樣,可以通過(guò)控制不同位置處的視頻幀的標(biāo)記視頻幀數(shù)量,使得視頻生成模型能夠在給定了首尾兩幀條件幀的情況下,生成較為準(zhǔn)確且連貫性較強(qiáng)的視頻,在一定程度上使視頻生成模型更加滿足實(shí)際所需。

5、可選地,通過(guò)所述加噪模塊對(duì)所述標(biāo)記視頻進(jìn)行加噪處理,包括:通過(guò)所述加噪模塊對(duì)所述標(biāo)記視頻中的每一個(gè)樣本視頻幀進(jìn)行加噪處理;以及,消除所述標(biāo)記視頻中每一個(gè)標(biāo)記視頻幀的加噪結(jié)果。這樣,一方面可以使標(biāo)記視頻幀在擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變,另一方面也可以使擴(kuò)散模型能夠使用統(tǒng)一的加噪方式處理所有樣本視頻幀,使加噪過(guò)程更加一致和易于管理。

6、可選地,通過(guò)所述降噪模塊對(duì)加噪后的標(biāo)記視頻進(jìn)行降噪處理,包括:通過(guò)所述降噪模塊對(duì)所述標(biāo)記視頻中的每一個(gè)樣本視頻幀進(jìn)行降噪處理;以及,消除所述標(biāo)記視頻中每一個(gè)標(biāo)記視頻幀的降噪結(jié)果。這樣,一方面可以使標(biāo)記視頻幀在擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變,另一方面也可以使擴(kuò)散模型能夠使用統(tǒng)一的降噪方式處理所有樣本視頻幀,使降噪過(guò)程更加一致和易于管理。

7、第二方面,本申請(qǐng)實(shí)施例提供了一種視頻生成方法,該方法包括:獲取待生成視頻中的條件幀以及行為描述信息;所述條件幀用于呈現(xiàn)數(shù)字對(duì)象的目標(biāo)行為;通過(guò)視頻生成模型中的降噪模塊根據(jù)所述條件幀以及所述行為描述信息,生成目標(biāo)視頻;所述視頻生成模型通過(guò)如第一方面所述的方法訓(xùn)練得到。這樣,由于僅使用了少量條件幀,結(jié)合行為描述信息就生成了目標(biāo)視頻,從而縮減了制作時(shí)間,降低了制作復(fù)雜度,節(jié)約了制作成本。

8、第三方面,本申請(qǐng)實(shí)施例提供了一種視頻生成模型的訓(xùn)練裝置,該裝置包括:標(biāo)記模塊,用于在樣本視頻中標(biāo)記出多個(gè)標(biāo)記視頻幀,得到標(biāo)記視頻;輸入模塊,用于將所述標(biāo)記視頻以及所述樣本視頻中數(shù)字對(duì)象的樣本行為描述信息輸入擴(kuò)散模型,得到目標(biāo)樣本視頻;所述擴(kuò)散模型包括加噪模塊以及降噪模塊,所述加噪模塊用于對(duì)所述標(biāo)記視頻進(jìn)行加噪處理,所述降噪模塊用于對(duì)加噪后的標(biāo)記視頻進(jìn)行降噪處理,得到行為連貫的目標(biāo)樣本視頻;其中,所述標(biāo)記視頻幀在所述擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變;確定模塊,用于若所述目標(biāo)樣本視頻與所述樣本視頻匹配,則將所述擴(kuò)散模型確定為視頻生成模型。這樣,可以使標(biāo)記視頻幀在擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變,從而可以使擴(kuò)散模型將真實(shí)清晰的非連續(xù)幀作為擴(kuò)散基礎(chǔ),學(xué)習(xí)到非連續(xù)幀之間的連續(xù)性特征,以使訓(xùn)練得到的視頻生成模型能夠生成行為連貫且信息較為精準(zhǔn)的視頻。

9、第四方面,本申請(qǐng)實(shí)施例提供了一種視頻生成裝置,該裝置包括:獲取模塊,用于獲取待生成視頻中的條件幀以及行為描述信息;所述條件幀用于呈現(xiàn)數(shù)字對(duì)象的目標(biāo)行為;生成模塊,用于通過(guò)視頻生成模型中的降噪模塊根據(jù)所述條件幀以及所述行為描述信息,生成目標(biāo)視頻;所述視頻生成模型通過(guò)如第一方面所述的方法訓(xùn)練得到。這樣,由于僅使用了少量條件幀,結(jié)合行為描述信息就生成了目標(biāo)視頻,從而縮減了制作時(shí)間,降低了制作復(fù)雜度,節(jié)約了制作成本。

10、第五方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括處理器以及存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)可讀取指令,當(dāng)所述計(jì)算機(jī)可讀取指令由所述處理器執(zhí)行時(shí),運(yùn)行如上述第一方面或者第二方面提供的所述方法中的步驟。

11、第六方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)運(yùn)行如上述第一方面或者第二方面提供的所述方法中的步驟。

12、第七方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,其包括計(jì)算機(jī)程序或指令,該計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)運(yùn)行如第一方面或者第二方面所述的方法。

13、本申請(qǐng)的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書闡述,并且,部分地從說(shuō)明書中變得顯而易見(jiàn),或者通過(guò)實(shí)施本申請(qǐng)實(shí)施例了解。本申請(qǐng)的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫的說(shuō)明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。



技術(shù)特征:

1.一種視頻生成模型的訓(xùn)練方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在樣本視頻中標(biāo)記出多個(gè)標(biāo)記視頻幀,得到標(biāo)記視頻,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述樣本視頻中隨機(jī)標(biāo)記出預(yù)設(shè)比例的標(biāo)記視頻幀,得到所述標(biāo)記視頻,包括:

4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,通過(guò)所述加噪模塊對(duì)所述標(biāo)記視頻進(jìn)行加噪處理,包括:

5.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,通過(guò)所述降噪模塊對(duì)加噪后的標(biāo)記視頻進(jìn)行降噪處理,包括:

6.一種視頻生成方法,其特征在于,包括:

7.一種視頻生成模型的訓(xùn)練裝置,其特征在于,包括:

8.一種視頻生成裝置,其特征在于,包括:

9.一種電子設(shè)備,其特征在于,包括處理器以及存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)可讀取指令,當(dāng)所述計(jì)算機(jī)可讀取指令由所述處理器執(zhí)行時(shí),運(yùn)行如權(quán)利要求1-6任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)運(yùn)行如權(quán)利要求1-6任一項(xiàng)所述的方法。

11.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,其特征在于,該計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)運(yùn)行如權(quán)利要求1-6任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本申請(qǐng)?zhí)峁┮环N視頻生成模型的訓(xùn)練方法、視頻生成方法,該訓(xùn)練方法可以包括:在樣本視頻中標(biāo)記出多個(gè)標(biāo)記視頻幀,得到標(biāo)記視頻;將標(biāo)記視頻以及所述樣本視頻中數(shù)字對(duì)象的樣本行為描述信息輸入擴(kuò)散模型,得到目標(biāo)樣本視頻;其中,標(biāo)記視頻幀在擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變;若目標(biāo)樣本視頻與樣本視頻匹配,則將擴(kuò)散模型確定為視頻生成模型。該訓(xùn)練方法訓(xùn)練得到的視頻生成模型能夠生成行為連貫且信息較為精準(zhǔn)的視頻。

技術(shù)研發(fā)人員:李瑋,郭建林,黃翔,龔鼎盛,王浩鈺
受保護(hù)的技術(shù)使用者:成都佳華物鏈云科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
读书| 延吉市| 岳池县| 云南省| 荥经县| 类乌齐县| 康定县| 芮城县| 高州市| 阳城县| 中阳县| 怀来县| 阳原县| 祁阳县| 五华县| 根河市| 循化| 龙江县| 库伦旗| 遂宁市| 台东市| 奉化市| 靖西县| 澜沧| 长汀县| 常宁市| 平远县| 望江县| 黄石市| 金门县| 五大连池市| 哈尔滨市| 图们市| 徐闻县| 芒康县| 读书| 准格尔旗| 台江县| 凤山县| 淮南市| 望都县|