本公開涉及視頻生成,尤其是一種基于多視頻片段生成視頻的方法、裝置、設(shè)備、介質(zhì)。
背景技術(shù):
1、近些年,隨著文生視頻模型的迅速發(fā)展,使得文生視頻模型在aigc(artificialintelligence?generated?content,人工智能內(nèi)容生成)技術(shù)領(lǐng)域中大放異彩。在相關(guān)技術(shù)中,文生視頻模型通常是根據(jù)視頻對(duì)應(yīng)的文本描述生成相應(yīng)的視頻。然而在實(shí)際應(yīng)用中,往往需要生成的視頻中包括一些指定的視頻片段,而文生視頻模型無法生成包含指定的視頻片段的視頻,由此降低了生成視頻與用戶需要視頻之間的匹配度,影響用戶使用體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,本公開實(shí)施例提供一種基于多視頻片段生成視頻的方法、裝置、設(shè)備、介質(zhì)。
2、本公開實(shí)施例的一個(gè)方面,提供了一種基于多視頻片段生成視頻的方法,包括:獲取待生成視頻對(duì)應(yīng)的多個(gè)目標(biāo)視頻和文本信息;將所述多個(gè)目標(biāo)視頻設(shè)置到預(yù)設(shè)模板視頻中,得到初始視頻;將預(yù)設(shè)噪聲信息、所述初始視頻和所述文本信息輸入到預(yù)先訓(xùn)練的視頻生成模型中,由所述視頻生成模型中的適配器網(wǎng)絡(luò)模塊對(duì)所述初始視頻進(jìn)行處理,得到由所述適配器網(wǎng)絡(luò)模塊的各第一網(wǎng)絡(luò)層輸出的第一向量,由所述視頻生成模型中的視頻生成網(wǎng)絡(luò)模塊對(duì)多個(gè)第一向量、所述預(yù)設(shè)噪聲信息和所述文本信息進(jìn)行處理,得到所述待生成視頻,其中,所述待生成視頻包括所述多個(gè)目標(biāo)視頻。
3、本公開實(shí)施例的另一個(gè)方面,提供一種基于多視頻片段生成視頻的裝置,包括:信息獲取模塊,用于獲取待生成視頻對(duì)應(yīng)的多個(gè)目標(biāo)視頻和文本信息;第一視頻生成模塊,用于將所述多個(gè)目標(biāo)視頻設(shè)置到預(yù)設(shè)模板視頻中,得到初始視頻;第二視頻生成模塊,用于將預(yù)設(shè)噪聲信息、所述初始視頻和所述文本信息輸入到預(yù)先訓(xùn)練的視頻生成模型中,由所述視頻生成模型中的適配器網(wǎng)絡(luò)模塊對(duì)所述初始視頻進(jìn)行處理,得到由所述適配器網(wǎng)絡(luò)模塊的各第一網(wǎng)絡(luò)層輸出的第一向量,由所述視頻生成模型中的視頻生成網(wǎng)絡(luò)模塊對(duì)多個(gè)第一向量、所述預(yù)設(shè)噪聲信息和所述文本信息進(jìn)行處理,得到所述待生成視頻,其中,所述待生成視頻包括所述多個(gè)目標(biāo)視頻。
4、本公開實(shí)施例的又一個(gè)方面,提供了一種電子設(shè)備,包括:存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;處理器,用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序,且所述計(jì)算機(jī)程序被執(zhí)行時(shí),實(shí)現(xiàn)上述權(quán)的基于多視頻片段生成視頻的方法。
5、本公開實(shí)施例的再一個(gè)方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述的基于多視頻片段生成視頻的方法。
6、本公開實(shí)施例的再一個(gè)方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序指令,該計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的基于多視頻片段生成視頻的方法。
7、在本公開實(shí)施例中,將視頻生成模型設(shè)計(jì)為包括適配器網(wǎng)絡(luò)模塊和視頻生成網(wǎng)絡(luò)模塊,通過利用適配器網(wǎng)絡(luò)模對(duì)包括多個(gè)目標(biāo)視頻的初始視頻進(jìn)行處理,得到多個(gè)第一向量,之后利用視頻生成網(wǎng)絡(luò)模塊對(duì)多個(gè)第一向量、文本信息和預(yù)設(shè)噪聲信息進(jìn)行處理,使得視頻生成網(wǎng)絡(luò)模塊在生成待生成視頻時(shí)兼顧考慮到多個(gè)目標(biāo)視頻和文本信息,從而生成符合文本信息描述且包括多個(gè)目標(biāo)視頻的待生成視頻,提高了生成的待生成視頻與用戶需要的視頻之間的匹配度,提升了用戶體驗(yàn)。
8、下面通過附圖和實(shí)施例,對(duì)本公開的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
1.一種基于多視頻片段生成視頻的方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述適配器網(wǎng)絡(luò)模塊包括n個(gè)第一網(wǎng)絡(luò)層,所述視頻生成網(wǎng)絡(luò)模塊的輸入層包括n個(gè)第二網(wǎng)絡(luò)層,以及所述適配器網(wǎng)絡(luò)模塊的n個(gè)第一網(wǎng)絡(luò)層分別與所述視頻生成網(wǎng)絡(luò)模塊的n個(gè)第二網(wǎng)絡(luò)層一一對(duì)應(yīng);
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述在所述視頻生成網(wǎng)絡(luò)模塊每個(gè)時(shí)間步的去噪處理中,基于所述預(yù)設(shè)噪聲信息和所述文本信息,將所述n個(gè)第一網(wǎng)絡(luò)層輸出的n個(gè)第一向量分別與對(duì)應(yīng)的所述n個(gè)第二網(wǎng)絡(luò)層輸出的n個(gè)第二向量進(jìn)行計(jì)算,以得到所述待生成視頻,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述多個(gè)目標(biāo)視頻設(shè)置到預(yù)設(shè)模板視頻中,得到初始視頻,包括:
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述將所述多個(gè)目標(biāo)視頻設(shè)置到預(yù)設(shè)模板視頻中之前,還包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述視頻生成模型通過如下方式獲得:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述由所述視頻生成網(wǎng)絡(luò)模塊對(duì)多個(gè)第四向量和所述標(biāo)簽文本信息進(jìn)行處理,包括:
8.一種基于多視頻片段生成視頻的裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述權(quán)利要求1-7任一所述的基于多視頻片段生成視頻的方法。