一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

文檔序號：40817970發(fā)布日期：2025-01-29 02:37閱讀：11來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

本技術(shù)涉及人工智能，尤其涉及一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。

背景技術(shù)：

1、隨著人工智能技術(shù)的飛速發(fā)展，文生視頻技術(shù)逐漸成為研究和應(yīng)用的熱點。文生視頻技術(shù)是指利用計算機程序?qū)⑽淖置枋鲎詣愚D(zhuǎn)換為視頻內(nèi)容的過程。

2、在相關(guān)技術(shù)中，通常向文生視頻模型輸入文本描述，以基于文生視頻模型根據(jù)得到的文本描述，進行視頻數(shù)據(jù)的自動生成。

3、但是，目前的文生視頻模型一般基于英文的文字描述生成視頻數(shù)據(jù)，如果用戶輸入的文字描述為中文，則需要先將其翻譯為英文，而翻譯的過程中可能會導(dǎo)致原文的意思被曲解或丟失，降低了視頻數(shù)據(jù)生成結(jié)果的準(zhǔn)確性。

技術(shù)實現(xiàn)思路

1、本技術(shù)提供一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品，以解決相關(guān)技術(shù)降低了視頻數(shù)據(jù)生成結(jié)果的準(zhǔn)確性等缺陷。

2、本技術(shù)第一個方面提供一種視頻數(shù)據(jù)生成方法，包括：

3、獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集；其中，所述樣本數(shù)據(jù)集包括多個樣本對，所述樣本對包括跨語言描述和目標(biāo)視頻片段；

4、針對所述樣本數(shù)據(jù)集中的任一樣本對，將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量；

5、基于待訓(xùn)練嵌入對齊層，將所述跨語言特征向量轉(zhuǎn)換為對齊嵌入向量；

6、基于所述對齊嵌入向量和視頻特征向量，對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化，以得到目標(biāo)文生視頻模型；其中，所述待訓(xùn)練文生視頻模型包括所述待訓(xùn)練嵌入對齊層，所述對齊嵌入向量和視頻特征向量在語義空間對齊；

7、向所述目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述，以基于所述目標(biāo)文生視頻模型，根據(jù)所述目標(biāo)跨語言描述，生成對應(yīng)的視頻數(shù)據(jù)。

8、在一種可選的實施方式中，所述獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集，包括：

9、獲取原始視頻數(shù)據(jù)；

10、對所述原始視頻數(shù)據(jù)進行預(yù)處理，得到多個目標(biāo)視頻片段；

11、將各所述目標(biāo)視頻片段輸入至視覺語言模型，得到各所述目標(biāo)視頻片段對應(yīng)的跨語言描述；

12、匯總各所述目標(biāo)視頻片段及各所述目標(biāo)視頻片段對應(yīng)的跨語言描述，得到待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集。

13、在一種可選的實施方式中，所述對所述原始視頻數(shù)據(jù)進行預(yù)處理，得到多個目標(biāo)視頻片段，包括：

14、在所述原始視頻數(shù)據(jù)中，篩選時長滿足預(yù)設(shè)約束條件的目標(biāo)視頻數(shù)據(jù)；

15、對所述目標(biāo)視頻數(shù)據(jù)進行場景檢測，得到所述目標(biāo)視頻數(shù)據(jù)的場景檢測結(jié)果；

16、根據(jù)所述場景檢測結(jié)果，對所述目標(biāo)視頻數(shù)據(jù)進行片段分割，以得到多個原始視頻片段，以使每個原始視頻片段對應(yīng)單一場景；

17、對所述多個原始視頻片段進行過濾，得到多個目標(biāo)視頻片段。

18、在一種可選的實施方式中，所述對所述多個原始視頻片段進行過濾，得到多個目標(biāo)視頻片段，包括：

19、對各所述原始視頻片段進行評分；

20、根據(jù)各所述原始視頻片段的評分，對所述多個原始視頻片段進行過濾，得到多個目標(biāo)視頻片段；

21、其中，所述評分包括美學(xué)評分和光流評分，所述美學(xué)評分用于表征所述原始視頻片段的質(zhì)量，所述光流評分用于表征所述原始視頻片段是否為靜態(tài)視頻片段。

22、在一種可選的實施方式中，所述針對所述樣本數(shù)據(jù)集中的任一樣本對，將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量，包括：

23、對所述樣本數(shù)據(jù)集進行階段劃分，以得到各微調(diào)階段的樣本序列；

24、針對任一所述微調(diào)階段的樣本序列中的任一樣本對，將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量。

25、在一種可選的實施方式中，所述對所述樣本數(shù)據(jù)集進行階段劃分，以得到各微調(diào)階段的樣本序列，包括：

26、根據(jù)所述數(shù)據(jù)集中每條目標(biāo)視頻片段的分辨率，對所述樣本數(shù)據(jù)集中的樣本對進行分類，得到每種分辨率對應(yīng)的樣本對集合；

27、按照每個微調(diào)階段的模型優(yōu)化需求，確定每個微調(diào)階段的分辨率數(shù)據(jù)占比需求；

28、針對任一所述微調(diào)階段，根據(jù)該微調(diào)階段的分辨率數(shù)據(jù)占比需求，從每種分辨率對應(yīng)的樣本對集合中劃分相應(yīng)比例的樣本對，以得到該微調(diào)階段的樣本序列。

29、在一種可選的實施方式中，所述基于待訓(xùn)練嵌入對齊層，將所述跨語言特征向量轉(zhuǎn)換為對齊嵌入向量，包括：

30、將所述跨語言特征向量輸入至第一對齊塊，以基于所述第一對齊塊，對所述跨語言特征向量進行通道維度壓縮，得到壓縮后的跨語言特征向量；

31、將所述壓縮后的跨語言特征向量輸入至第二對齊塊，以基于所述第二對齊塊，對所述壓縮后的跨語言特征向量進行深層次語義轉(zhuǎn)換，得到深層語義特征向量；

32、將所述深層語義特征向量輸入至第三對齊塊，以基于所述第三對齊塊，將所述深層語義特征映射至所述跨語言特征向量的原始通道，得到對齊嵌入向量；

33、其中，所述待訓(xùn)練嵌入對齊層包括所述第一對齊塊、第二對齊塊和第三對齊塊。

34、在一種可選的實施方式中，所述基于所述對齊嵌入向量和視頻特征向量，對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化，包括：

35、將所述對齊嵌入向量和視頻特征向量輸入至待微調(diào)擴散模型，得到待微調(diào)擴散模型輸出的預(yù)測噪音；

36、以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo)，對所述待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化；

37、其中，所述待訓(xùn)練文生視頻模型包括待微調(diào)擴散模型。

38、在一種可選的實施方式中，所述將所述對齊嵌入向量和視頻特征向量輸入至待微調(diào)擴散模型，得到待微調(diào)擴散模型輸出的預(yù)測噪音，包括：

39、在將所述對齊嵌入向量和視頻特征向量輸入至待微調(diào)擴散模型之后，所述待微調(diào)擴散模型向所述視頻特征向量中添加噪音并進行噪音擴散，以將所述視頻特征向量轉(zhuǎn)換為噪音向量；

40、所述待微調(diào)擴散模型通過學(xué)習(xí)所述噪音向量與所述對齊嵌入向量之間的映射關(guān)系，確定所述預(yù)測噪音。

41、在一種可選的實施方式中，所述方法還包括：

42、根據(jù)所述預(yù)測噪音與所述待微調(diào)擴散模型向所述視頻特征向量中添加的噪音之間的誤差，確定所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差。

43、在一種可選的實施方式中，所述以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo)，對所述待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化，包括：

44、在第一微調(diào)階段，以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo)，對所述待訓(xùn)練嵌入對齊層進行參數(shù)優(yōu)化；

45、在第二微調(diào)階段和第三微調(diào)階段，以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo)，對所述待訓(xùn)練嵌入對齊層和待微調(diào)擴散模型進行參數(shù)優(yōu)化；

46、其中，所述第一微調(diào)階段、第二微調(diào)階段和第三微調(diào)階段采用的樣本序列不同，當(dāng)所述待訓(xùn)練文生視頻模型在第一微調(diào)階段的樣本學(xué)習(xí)輪數(shù)達到第一輪數(shù)閾值時，進入第二微調(diào)階段，當(dāng)所述待訓(xùn)練文生視頻模型在第二微調(diào)階段的樣本學(xué)習(xí)輪數(shù)達到第二輪數(shù)閾值時，進入第三微調(diào)階段，當(dāng)所述待訓(xùn)練文生視頻模型在第三微調(diào)階段的樣本學(xué)習(xí)輪數(shù)達到第三輪數(shù)閾值時，將當(dāng)前待訓(xùn)練文生視頻模型作為所述目標(biāo)文生視頻模型。

47、在一種可選的實施方式中，所述向所述目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述，以基于所述目標(biāo)文生視頻模型，根據(jù)所述目標(biāo)跨語言描述，生成對應(yīng)的視頻數(shù)據(jù)，包括：

48、將目標(biāo)跨語言描述輸入至文本編碼器，以基于所述文本編碼器將所述目標(biāo)跨語言描述轉(zhuǎn)換為目標(biāo)跨語言特征向量；

49、將所述目標(biāo)跨語言特征向量輸入至目標(biāo)嵌入對齊層，以基于所述目標(biāo)嵌入對齊層，將所述目標(biāo)跨語言特征向量轉(zhuǎn)換為目標(biāo)對齊嵌入向量；

50、將所述目標(biāo)對齊嵌入向量輸入至目標(biāo)擴散模型的同時，向所述目標(biāo)擴散模型輸入目標(biāo)噪音，以使所述目標(biāo)擴散模型根據(jù)所述目標(biāo)對齊嵌入向量，將所述目標(biāo)噪音轉(zhuǎn)換為目標(biāo)視頻特征編碼；

51、根據(jù)所述目標(biāo)視頻特征編碼，生成所述目標(biāo)跨語言描述所對應(yīng)的視頻數(shù)據(jù)；

52、其中，所述目標(biāo)文生視頻模型包括所述文本編碼器、目標(biāo)嵌入對齊層和目標(biāo)擴散模型。

53、本技術(shù)第二個方面提供一種視頻數(shù)據(jù)生成裝置，包括：

54、獲取模塊，用于獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集；其中，所述樣本數(shù)據(jù)集包括多個樣本對，所述樣本對包括跨語言描述和目標(biāo)視頻片段；

55、轉(zhuǎn)換模塊，用于針對所述樣本數(shù)據(jù)集中的任一樣本對，將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量；

56、對齊模塊，用于基于待訓(xùn)練嵌入對齊層，將所述跨語言特征向量轉(zhuǎn)換為對齊嵌入向量；

57、優(yōu)化模塊，用于基于所述對齊嵌入向量和視頻特征向量，對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化，以得到目標(biāo)文生視頻模型；其中，所述待訓(xùn)練文生視頻模型包括所述待訓(xùn)練嵌入對齊層，所述對齊嵌入向量和視頻特征向量在語義空間對齊；

58、生成模塊，用于向所述目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述，以基于所述目標(biāo)文生視頻模型，根據(jù)所述目標(biāo)跨語言描述，生成對應(yīng)的視頻數(shù)據(jù)。

59、本技術(shù)第三個方面提供一種電子設(shè)備，包括：至少一個處理器和存儲器；

60、所述存儲器存儲計算機執(zhí)行指令；

61、所述至少一個處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令，使得所述至少一個處理器執(zhí)行如上第一個方面以及第一個方面各種可能的設(shè)計所述的方法。

62、本技術(shù)第四個方面提供一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令，當(dāng)處理器執(zhí)行所述計算機執(zhí)行指令時，實現(xiàn)如上第一個方面以及第一個方面各種可能的設(shè)計所述的方法。

63、本技術(shù)第五個方面提供一種計算機程序產(chǎn)品，包括計算機指令，計算機指令用于使計算機執(zhí)行如上第一個方面以及第一個方面各種可能的設(shè)計所述的方法。

64、本技術(shù)技術(shù)方案，具有如下優(yōu)點：

65、本技術(shù)提供一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品，該方法包括：獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集；其中，樣本數(shù)據(jù)集包括多個樣本對，樣本對包括跨語言描述和目標(biāo)視頻片段；針對樣本數(shù)據(jù)集中的任一樣本對，將樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量；基于待訓(xùn)練嵌入對齊層，將跨語言特征向量轉(zhuǎn)換為對齊嵌入向量；基于對齊嵌入向量和視頻特征向量，對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化，以得到目標(biāo)文生視頻模型；其中，待訓(xùn)練文生視頻模型包括待訓(xùn)練嵌入對齊層，對齊嵌入向量和視頻特征向量在語義空間對齊；向目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述，以基于目標(biāo)文生視頻模型，根據(jù)目標(biāo)跨語言描述，生成對應(yīng)的視頻數(shù)據(jù)。上述方案提供的方法，通過對跨語言特征向量與視頻特征向量進行語義空間的對齊處理，得到跨語言特征向量所對應(yīng)的對齊嵌入向量，顯著提高了文生視頻模型對跨語言語義的理解能力，從而提高了文生視頻模型的視頻數(shù)據(jù)生成結(jié)果的準(zhǔn)確性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬嘉威,李令君,吳韶華
技術(shù)所有人：蘇州元腦智能科技有限公司
我是此專利的發(fā)明人

上一篇：一種上肢姿態(tài)計算方法及系統(tǒng)與流程
上一篇：一種抗干擾機場用弱電電纜的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程