視頻生成模型的訓(xùn)練方法、視頻生成方法與流程

文檔序號(hào)：40508469發(fā)布日期：2024-12-31 13:17閱讀：14來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及視頻制作領(lǐng)域，具體而言，涉及一種視頻生成模型的訓(xùn)練方法、視頻生成方法。

背景技術(shù)：

1、數(shù)字對(duì)象，通常指通過(guò)計(jì)算機(jī)技術(shù)和數(shù)字媒體創(chuàng)建的虛擬對(duì)象，其可以是具有肢體行為、表情和語(yǔ)音的三維模型。

2、在一些應(yīng)用場(chǎng)景中，可以通過(guò)視頻呈現(xiàn)數(shù)字對(duì)象的動(dòng)態(tài)行為。例如，呈現(xiàn)數(shù)字人從微笑轉(zhuǎn)換為哭泣的連貫過(guò)程。

3、在相關(guān)技術(shù)中，可以通過(guò)擴(kuò)散模型生成視頻，但是在擴(kuò)散模型的訓(xùn)練過(guò)程中，其會(huì)將每一樣本視頻幀均進(jìn)行加噪和降噪處理，這樣使得擴(kuò)散模型在實(shí)際生成數(shù)字對(duì)象的視頻時(shí)，只能通過(guò)樣本視頻幀中的部分信息對(duì)數(shù)字對(duì)象的姿態(tài)或外貌進(jìn)行簡(jiǎn)單約束，從而導(dǎo)致生成視頻中數(shù)字對(duì)象的行為的連貫性較差，且精準(zhǔn)度較低。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例的目的在于提供一種視頻生成模型的訓(xùn)練方法、視頻生成方法，用以通過(guò)視頻生成模型生成行為連貫且信息較為精準(zhǔn)的視頻。

2、第一方面，本申請(qǐng)實(shí)施例提供了一種視頻生成模型的訓(xùn)練方法，該方法包括：在樣本視頻中標(biāo)記出多個(gè)標(biāo)記視頻幀，得到標(biāo)記視頻；將所述標(biāo)記視頻以及所述樣本視頻中數(shù)字對(duì)象的樣本行為描述信息輸入擴(kuò)散模型，得到目標(biāo)樣本視頻；所述擴(kuò)散模型包括加噪模塊以及降噪模塊，所述加噪模塊用于對(duì)所述標(biāo)記視頻進(jìn)行加噪處理，所述降噪模塊用于對(duì)加噪后的標(biāo)記視頻進(jìn)行降噪處理，得到行為連貫的目標(biāo)樣本視頻；其中，所述標(biāo)記視頻幀在所述擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變；若所述目標(biāo)樣本視頻與所述樣本視頻匹配，則將所述擴(kuò)散模型確定為視頻生成模型。這樣，可以使標(biāo)記視頻幀在擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變，從而可以使擴(kuò)散模型將真實(shí)清晰的非連續(xù)幀作為擴(kuò)散基礎(chǔ)，學(xué)習(xí)到非連續(xù)幀之間的連續(xù)性特征，以使訓(xùn)練得到的視頻生成模型能夠生成行為連貫且信息較為精準(zhǔn)的視頻。

3、可選地，所述在樣本視頻中標(biāo)記出多個(gè)標(biāo)記視頻幀，得到標(biāo)記視頻，包括：在所述樣本視頻中隨機(jī)標(biāo)記出預(yù)設(shè)比例的標(biāo)記視頻幀，得到所述標(biāo)記視頻。這樣，通過(guò)隨機(jī)方式對(duì)樣本視頻中的視頻幀進(jìn)行標(biāo)記，在一定程度上提高了標(biāo)記視頻的可信度，使得視頻生成模型更加適于在實(shí)際場(chǎng)景中應(yīng)用。

4、可選地，在所述樣本視頻中隨機(jī)標(biāo)記出預(yù)設(shè)比例的標(biāo)記視頻幀，得到所述標(biāo)記視頻，包括：將所述樣本視頻均分為預(yù)設(shè)個(gè)數(shù)的樣本視頻段；分別從多個(gè)樣本視頻段中隨機(jī)標(biāo)記出多個(gè)標(biāo)記視頻幀，得到所述標(biāo)記視頻；其中，首尾兩個(gè)樣本視頻段中的標(biāo)記視頻幀數(shù)量分別大于其他樣本視頻段中的標(biāo)記視頻幀數(shù)量。這樣，可以通過(guò)控制不同位置處的視頻幀的標(biāo)記視頻幀數(shù)量，使得視頻生成模型能夠在給定了首尾兩幀條件幀的情況下，生成較為準(zhǔn)確且連貫性較強(qiáng)的視頻，在一定程度上使視頻生成模型更加滿足實(shí)際所需。

5、可選地，通過(guò)所述加噪模塊對(duì)所述標(biāo)記視頻進(jìn)行加噪處理，包括：通過(guò)所述加噪模塊對(duì)所述標(biāo)記視頻中的每一個(gè)樣本視頻幀進(jìn)行加噪處理；以及，消除所述標(biāo)記視頻中每一個(gè)標(biāo)記視頻幀的加噪結(jié)果。這樣，一方面可以使標(biāo)記視頻幀在擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變，另一方面也可以使擴(kuò)散模型能夠使用統(tǒng)一的加噪方式處理所有樣本視頻幀，使加噪過(guò)程更加一致和易于管理。

6、可選地，通過(guò)所述降噪模塊對(duì)加噪后的標(biāo)記視頻進(jìn)行降噪處理，包括：通過(guò)所述降噪模塊對(duì)所述標(biāo)記視頻中的每一個(gè)樣本視頻幀進(jìn)行降噪處理；以及，消除所述標(biāo)記視頻中每一個(gè)標(biāo)記視頻幀的降噪結(jié)果。這樣，一方面可以使標(biāo)記視頻幀在擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變，另一方面也可以使擴(kuò)散模型能夠使用統(tǒng)一的降噪方式處理所有樣本視頻幀，使降噪過(guò)程更加一致和易于管理。

7、第二方面，本申請(qǐng)實(shí)施例提供了一種視頻生成方法，該方法包括：獲取待生成視頻中的條件幀以及行為描述信息；所述條件幀用于呈現(xiàn)數(shù)字對(duì)象的目標(biāo)行為；通過(guò)視頻生成模型中的降噪模塊根據(jù)所述條件幀以及所述行為描述信息，生成目標(biāo)視頻；所述視頻生成模型通過(guò)如第一方面所述的方法訓(xùn)練得到。這樣，由于僅使用了少量條件幀，結(jié)合行為描述信息就生成了目標(biāo)視頻，從而縮減了制作時(shí)間，降低了制作復(fù)雜度，節(jié)約了制作成本。

8、第三方面，本申請(qǐng)實(shí)施例提供了一種視頻生成模型的訓(xùn)練裝置，該裝置包括：標(biāo)記模塊，用于在樣本視頻中標(biāo)記出多個(gè)標(biāo)記視頻幀，得到標(biāo)記視頻；輸入模塊，用于將所述標(biāo)記視頻以及所述樣本視頻中數(shù)字對(duì)象的樣本行為描述信息輸入擴(kuò)散模型，得到目標(biāo)樣本視頻；所述擴(kuò)散模型包括加噪模塊以及降噪模塊，所述加噪模塊用于對(duì)所述標(biāo)記視頻進(jìn)行加噪處理，所述降噪模塊用于對(duì)加噪后的標(biāo)記視頻進(jìn)行降噪處理，得到行為連貫的目標(biāo)樣本視頻；其中，所述標(biāo)記視頻幀在所述擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變；確定模塊，用于若所述目標(biāo)樣本視頻與所述樣本視頻匹配，則將所述擴(kuò)散模型確定為視頻生成模型。這樣，可以使標(biāo)記視頻幀在擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變，從而可以使擴(kuò)散模型將真實(shí)清晰的非連續(xù)幀作為擴(kuò)散基礎(chǔ)，學(xué)習(xí)到非連續(xù)幀之間的連續(xù)性特征，以使訓(xùn)練得到的視頻生成模型能夠生成行為連貫且信息較為精準(zhǔn)的視頻。

9、第四方面，本申請(qǐng)實(shí)施例提供了一種視頻生成裝置，該裝置包括：獲取模塊，用于獲取待生成視頻中的條件幀以及行為描述信息；所述條件幀用于呈現(xiàn)數(shù)字對(duì)象的目標(biāo)行為；生成模塊，用于通過(guò)視頻生成模型中的降噪模塊根據(jù)所述條件幀以及所述行為描述信息，生成目標(biāo)視頻；所述視頻生成模型通過(guò)如第一方面所述的方法訓(xùn)練得到。這樣，由于僅使用了少量條件幀，結(jié)合行為描述信息就生成了目標(biāo)視頻，從而縮減了制作時(shí)間，降低了制作復(fù)雜度，節(jié)約了制作成本。

10、第五方面，本申請(qǐng)實(shí)施例提供一種電子設(shè)備，包括處理器以及存儲(chǔ)器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)可讀取指令，當(dāng)所述計(jì)算機(jī)可讀取指令由所述處理器執(zhí)行時(shí)，運(yùn)行如上述第一方面或者第二方面提供的所述方法中的步驟。

11、第六方面，本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)運(yùn)行如上述第一方面或者第二方面提供的所述方法中的步驟。

12、第七方面，本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品，其包括計(jì)算機(jī)程序或指令，該計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)運(yùn)行如第一方面或者第二方面所述的方法。

13、本申請(qǐng)的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書闡述，并且，部分地從說(shuō)明書中變得顯而易見(jiàn)，或者通過(guò)實(shí)施本申請(qǐng)實(shí)施例了解。本申請(qǐng)的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫的說(shuō)明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。

技術(shù)特征：

1.一種視頻生成模型的訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述在樣本視頻中標(biāo)記出多個(gè)標(biāo)記視頻幀，得到標(biāo)記視頻，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，在所述樣本視頻中隨機(jī)標(biāo)記出預(yù)設(shè)比例的標(biāo)記視頻幀，得到所述標(biāo)記視頻，包括：

4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法，其特征在于，通過(guò)所述加噪模塊對(duì)所述標(biāo)記視頻進(jìn)行加噪處理，包括：

5.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法，其特征在于，通過(guò)所述降噪模塊對(duì)加噪后的標(biāo)記視頻進(jìn)行降噪處理，包括：

6.一種視頻生成方法，其特征在于，包括：

7.一種視頻生成模型的訓(xùn)練裝置，其特征在于，包括：

8.一種視頻生成裝置，其特征在于，包括：

9.一種電子設(shè)備，其特征在于，包括處理器以及存儲(chǔ)器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)可讀取指令，當(dāng)所述計(jì)算機(jī)可讀取指令由所述處理器執(zhí)行時(shí)，運(yùn)行如權(quán)利要求1-6任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)運(yùn)行如權(quán)利要求1-6任一項(xiàng)所述的方法。

11.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序或指令，其特征在于，該計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)運(yùn)行如權(quán)利要求1-6任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本申請(qǐng)?zhí)峁┮环N視頻生成模型的訓(xùn)練方法、視頻生成方法，該訓(xùn)練方法可以包括：在樣本視頻中標(biāo)記出多個(gè)標(biāo)記視頻幀，得到標(biāo)記視頻；將標(biāo)記視頻以及所述樣本視頻中數(shù)字對(duì)象的樣本行為描述信息輸入擴(kuò)散模型，得到目標(biāo)樣本視頻；其中，標(biāo)記視頻幀在擴(kuò)散模型的訓(xùn)練過(guò)程中保持不變；若目標(biāo)樣本視頻與樣本視頻匹配，則將擴(kuò)散模型確定為視頻生成模型。該訓(xùn)練方法訓(xùn)練得到的視頻生成模型能夠生成行為連貫且信息較為精準(zhǔn)的視頻。

技術(shù)研發(fā)人員：李瑋,郭建林,黃翔,龔鼎盛,王浩鈺
受保護(hù)的技術(shù)使用者：成都佳華物鏈云科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李瑋,郭建林,黃翔,龔鼎盛,王浩鈺
技術(shù)所有人：成都佳華物鏈云科技有限公司
我是此專利的發(fā)明人

上一篇：一種可調(diào)式條播機(jī)播種單體安裝裝置的制作方法
上一篇：一種戶外汽車充電樁的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

視頻生成模型的訓(xùn)練方法、視頻生成方法與流程

視頻生成模型的訓(xùn)練方法、視頻生成方法與流程