欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

文檔序號:40817970發(fā)布日期:2025-01-29 02:37閱讀:11來源:國知局
一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

本技術(shù)涉及人工智能,尤其涉及一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。


背景技術(shù):

1、隨著人工智能技術(shù)的飛速發(fā)展,文生視頻技術(shù)逐漸成為研究和應(yīng)用的熱點。文生視頻技術(shù)是指利用計算機程序?qū)⑽淖置枋鲎詣愚D(zhuǎn)換為視頻內(nèi)容的過程。

2、在相關(guān)技術(shù)中,通常向文生視頻模型輸入文本描述,以基于文生視頻模型根據(jù)得到的文本描述,進行視頻數(shù)據(jù)的自動生成。

3、但是,目前的文生視頻模型一般基于英文的文字描述生成視頻數(shù)據(jù),如果用戶輸入的文字描述為中文,則需要先將其翻譯為英文,而翻譯的過程中可能會導(dǎo)致原文的意思被曲解或丟失,降低了視頻數(shù)據(jù)生成結(jié)果的準(zhǔn)確性。


技術(shù)實現(xiàn)思路

1、本技術(shù)提供一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,以解決相關(guān)技術(shù)降低了視頻數(shù)據(jù)生成結(jié)果的準(zhǔn)確性等缺陷。

2、本技術(shù)第一個方面提供一種視頻數(shù)據(jù)生成方法,包括:

3、獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集;其中,所述樣本數(shù)據(jù)集包括多個樣本對,所述樣本對包括跨語言描述和目標(biāo)視頻片段;

4、針對所述樣本數(shù)據(jù)集中的任一樣本對,將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量;

5、基于待訓(xùn)練嵌入對齊層,將所述跨語言特征向量轉(zhuǎn)換為對齊嵌入向量;

6、基于所述對齊嵌入向量和視頻特征向量,對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化,以得到目標(biāo)文生視頻模型;其中,所述待訓(xùn)練文生視頻模型包括所述待訓(xùn)練嵌入對齊層,所述對齊嵌入向量和視頻特征向量在語義空間對齊;

7、向所述目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述,以基于所述目標(biāo)文生視頻模型,根據(jù)所述目標(biāo)跨語言描述,生成對應(yīng)的視頻數(shù)據(jù)。

8、在一種可選的實施方式中,所述獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集,包括:

9、獲取原始視頻數(shù)據(jù);

10、對所述原始視頻數(shù)據(jù)進行預(yù)處理,得到多個目標(biāo)視頻片段;

11、將各所述目標(biāo)視頻片段輸入至視覺語言模型,得到各所述目標(biāo)視頻片段對應(yīng)的跨語言描述;

12、匯總各所述目標(biāo)視頻片段及各所述目標(biāo)視頻片段對應(yīng)的跨語言描述,得到待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集。

13、在一種可選的實施方式中,所述對所述原始視頻數(shù)據(jù)進行預(yù)處理,得到多個目標(biāo)視頻片段,包括:

14、在所述原始視頻數(shù)據(jù)中,篩選時長滿足預(yù)設(shè)約束條件的目標(biāo)視頻數(shù)據(jù);

15、對所述目標(biāo)視頻數(shù)據(jù)進行場景檢測,得到所述目標(biāo)視頻數(shù)據(jù)的場景檢測結(jié)果;

16、根據(jù)所述場景檢測結(jié)果,對所述目標(biāo)視頻數(shù)據(jù)進行片段分割,以得到多個原始視頻片段,以使每個原始視頻片段對應(yīng)單一場景;

17、對所述多個原始視頻片段進行過濾,得到多個目標(biāo)視頻片段。

18、在一種可選的實施方式中,所述對所述多個原始視頻片段進行過濾,得到多個目標(biāo)視頻片段,包括:

19、對各所述原始視頻片段進行評分;

20、根據(jù)各所述原始視頻片段的評分,對所述多個原始視頻片段進行過濾,得到多個目標(biāo)視頻片段;

21、其中,所述評分包括美學(xué)評分和光流評分,所述美學(xué)評分用于表征所述原始視頻片段的質(zhì)量,所述光流評分用于表征所述原始視頻片段是否為靜態(tài)視頻片段。

22、在一種可選的實施方式中,所述針對所述樣本數(shù)據(jù)集中的任一樣本對,將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量,包括:

23、對所述樣本數(shù)據(jù)集進行階段劃分,以得到各微調(diào)階段的樣本序列;

24、針對任一所述微調(diào)階段的樣本序列中的任一樣本對,將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量。

25、在一種可選的實施方式中,所述對所述樣本數(shù)據(jù)集進行階段劃分,以得到各微調(diào)階段的樣本序列,包括:

26、根據(jù)所述數(shù)據(jù)集中每條目標(biāo)視頻片段的分辨率,對所述樣本數(shù)據(jù)集中的樣本對進行分類,得到每種分辨率對應(yīng)的樣本對集合;

27、按照每個微調(diào)階段的模型優(yōu)化需求,確定每個微調(diào)階段的分辨率數(shù)據(jù)占比需求;

28、針對任一所述微調(diào)階段,根據(jù)該微調(diào)階段的分辨率數(shù)據(jù)占比需求,從每種分辨率對應(yīng)的樣本對集合中劃分相應(yīng)比例的樣本對,以得到該微調(diào)階段的樣本序列。

29、在一種可選的實施方式中,所述基于待訓(xùn)練嵌入對齊層,將所述跨語言特征向量轉(zhuǎn)換為對齊嵌入向量,包括:

30、將所述跨語言特征向量輸入至第一對齊塊,以基于所述第一對齊塊,對所述跨語言特征向量進行通道維度壓縮,得到壓縮后的跨語言特征向量;

31、將所述壓縮后的跨語言特征向量輸入至第二對齊塊,以基于所述第二對齊塊,對所述壓縮后的跨語言特征向量進行深層次語義轉(zhuǎn)換,得到深層語義特征向量;

32、將所述深層語義特征向量輸入至第三對齊塊,以基于所述第三對齊塊,將所述深層語義特征映射至所述跨語言特征向量的原始通道,得到對齊嵌入向量;

33、其中,所述待訓(xùn)練嵌入對齊層包括所述第一對齊塊、第二對齊塊和第三對齊塊。

34、在一種可選的實施方式中,所述基于所述對齊嵌入向量和視頻特征向量,對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化,包括:

35、將所述對齊嵌入向量和視頻特征向量輸入至待微調(diào)擴散模型,得到待微調(diào)擴散模型輸出的預(yù)測噪音;

36、以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo),對所述待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化;

37、其中,所述待訓(xùn)練文生視頻模型包括待微調(diào)擴散模型。

38、在一種可選的實施方式中,所述將所述對齊嵌入向量和視頻特征向量輸入至待微調(diào)擴散模型,得到待微調(diào)擴散模型輸出的預(yù)測噪音,包括:

39、在將所述對齊嵌入向量和視頻特征向量輸入至待微調(diào)擴散模型之后,所述待微調(diào)擴散模型向所述視頻特征向量中添加噪音并進行噪音擴散,以將所述視頻特征向量轉(zhuǎn)換為噪音向量;

40、所述待微調(diào)擴散模型通過學(xué)習(xí)所述噪音向量與所述對齊嵌入向量之間的映射關(guān)系,確定所述預(yù)測噪音。

41、在一種可選的實施方式中,所述方法還包括:

42、根據(jù)所述預(yù)測噪音與所述待微調(diào)擴散模型向所述視頻特征向量中添加的噪音之間的誤差,確定所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差。

43、在一種可選的實施方式中,所述以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo),對所述待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化,包括:

44、在第一微調(diào)階段,以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo),對所述待訓(xùn)練嵌入對齊層進行參數(shù)優(yōu)化;

45、在第二微調(diào)階段和第三微調(diào)階段,以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo),對所述待訓(xùn)練嵌入對齊層和待微調(diào)擴散模型進行參數(shù)優(yōu)化;

46、其中,所述第一微調(diào)階段、第二微調(diào)階段和第三微調(diào)階段采用的樣本序列不同,當(dāng)所述待訓(xùn)練文生視頻模型在第一微調(diào)階段的樣本學(xué)習(xí)輪數(shù)達到第一輪數(shù)閾值時,進入第二微調(diào)階段,當(dāng)所述待訓(xùn)練文生視頻模型在第二微調(diào)階段的樣本學(xué)習(xí)輪數(shù)達到第二輪數(shù)閾值時,進入第三微調(diào)階段,當(dāng)所述待訓(xùn)練文生視頻模型在第三微調(diào)階段的樣本學(xué)習(xí)輪數(shù)達到第三輪數(shù)閾值時,將當(dāng)前待訓(xùn)練文生視頻模型作為所述目標(biāo)文生視頻模型。

47、在一種可選的實施方式中,所述向所述目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述,以基于所述目標(biāo)文生視頻模型,根據(jù)所述目標(biāo)跨語言描述,生成對應(yīng)的視頻數(shù)據(jù),包括:

48、將目標(biāo)跨語言描述輸入至文本編碼器,以基于所述文本編碼器將所述目標(biāo)跨語言描述轉(zhuǎn)換為目標(biāo)跨語言特征向量;

49、將所述目標(biāo)跨語言特征向量輸入至目標(biāo)嵌入對齊層,以基于所述目標(biāo)嵌入對齊層,將所述目標(biāo)跨語言特征向量轉(zhuǎn)換為目標(biāo)對齊嵌入向量;

50、將所述目標(biāo)對齊嵌入向量輸入至目標(biāo)擴散模型的同時,向所述目標(biāo)擴散模型輸入目標(biāo)噪音,以使所述目標(biāo)擴散模型根據(jù)所述目標(biāo)對齊嵌入向量,將所述目標(biāo)噪音轉(zhuǎn)換為目標(biāo)視頻特征編碼;

51、根據(jù)所述目標(biāo)視頻特征編碼,生成所述目標(biāo)跨語言描述所對應(yīng)的視頻數(shù)據(jù);

52、其中,所述目標(biāo)文生視頻模型包括所述文本編碼器、目標(biāo)嵌入對齊層和目標(biāo)擴散模型。

53、本技術(shù)第二個方面提供一種視頻數(shù)據(jù)生成裝置,包括:

54、獲取模塊,用于獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集;其中,所述樣本數(shù)據(jù)集包括多個樣本對,所述樣本對包括跨語言描述和目標(biāo)視頻片段;

55、轉(zhuǎn)換模塊,用于針對所述樣本數(shù)據(jù)集中的任一樣本對,將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量;

56、對齊模塊,用于基于待訓(xùn)練嵌入對齊層,將所述跨語言特征向量轉(zhuǎn)換為對齊嵌入向量;

57、優(yōu)化模塊,用于基于所述對齊嵌入向量和視頻特征向量,對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化,以得到目標(biāo)文生視頻模型;其中,所述待訓(xùn)練文生視頻模型包括所述待訓(xùn)練嵌入對齊層,所述對齊嵌入向量和視頻特征向量在語義空間對齊;

58、生成模塊,用于向所述目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述,以基于所述目標(biāo)文生視頻模型,根據(jù)所述目標(biāo)跨語言描述,生成對應(yīng)的視頻數(shù)據(jù)。

59、本技術(shù)第三個方面提供一種電子設(shè)備,包括:至少一個處理器和存儲器;

60、所述存儲器存儲計算機執(zhí)行指令;

61、所述至少一個處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令,使得所述至少一個處理器執(zhí)行如上第一個方面以及第一個方面各種可能的設(shè)計所述的方法。

62、本技術(shù)第四個方面提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,當(dāng)處理器執(zhí)行所述計算機執(zhí)行指令時,實現(xiàn)如上第一個方面以及第一個方面各種可能的設(shè)計所述的方法。

63、本技術(shù)第五個方面提供一種計算機程序產(chǎn)品,包括計算機指令,計算機指令用于使計算機執(zhí)行如上第一個方面以及第一個方面各種可能的設(shè)計所述的方法。

64、本技術(shù)技術(shù)方案,具有如下優(yōu)點:

65、本技術(shù)提供一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,該方法包括:獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集;其中,樣本數(shù)據(jù)集包括多個樣本對,樣本對包括跨語言描述和目標(biāo)視頻片段;針對樣本數(shù)據(jù)集中的任一樣本對,將樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量;基于待訓(xùn)練嵌入對齊層,將跨語言特征向量轉(zhuǎn)換為對齊嵌入向量;基于對齊嵌入向量和視頻特征向量,對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化,以得到目標(biāo)文生視頻模型;其中,待訓(xùn)練文生視頻模型包括待訓(xùn)練嵌入對齊層,對齊嵌入向量和視頻特征向量在語義空間對齊;向目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述,以基于目標(biāo)文生視頻模型,根據(jù)目標(biāo)跨語言描述,生成對應(yīng)的視頻數(shù)據(jù)。上述方案提供的方法,通過對跨語言特征向量與視頻特征向量進行語義空間的對齊處理,得到跨語言特征向量所對應(yīng)的對齊嵌入向量,顯著提高了文生視頻模型對跨語言語義的理解能力,從而提高了文生視頻模型的視頻數(shù)據(jù)生成結(jié)果的準(zhǔn)確性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
同江市| 鄂州市| 扎囊县| 深州市| 海盐县| 视频| 克山县| 临颍县| 武城县| 东莞市| 济源市| 贵阳市| 壤塘县| 衡东县| 普兰店市| 呼玛县| 纳雍县| 临江市| 合山市| 永仁县| 泗阳县| 枣阳市| 无棣县| 龙江县| 鹤庆县| 罗山县| 镇赉县| 仁化县| 句容市| 徐州市| 河北省| 乌鲁木齐市| 安龙县| 成安县| 勃利县| 阿城市| 桦甸市| 秦皇岛市| 桐城市| 杭锦后旗| 佳木斯市|