一種通過文字驅(qū)動的AIGC視頻生成方法及裝置與流程

文檔序號：40613523發(fā)布日期：2025-01-07 21:00閱讀：13來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及人工智能，尤其涉及一種通過文字驅(qū)動的aigc視頻生成方法及裝置。

背景技術(shù)：

1、近年來，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，通過語音驅(qū)動三維數(shù)字人的臉部，生成說話視頻的技術(shù)得到了迅速發(fā)展，并且已經(jīng)在多個領(lǐng)域得到了應(yīng)用。該說話視頻為aigc（artificial?intelligence?generated?content，人工智能生成內(nèi)容）視頻?，F(xiàn)有的數(shù)字人說話視頻通常以驅(qū)動語音音頻作為輸入，這增加了數(shù)字人說話視頻的成本。并且，通過驅(qū)動語音作為輸入的數(shù)字人說話視頻需要對語音音頻進(jìn)行識別。在識別語音音頻的過程中，由于背景噪音、口音差異或快速說話等因素，對語音音頻產(chǎn)生識別錯誤。這樣導(dǎo)致數(shù)字人說話視頻的生成速度較慢、生成效果較差的問題。

技術(shù)實現(xiàn)思路

1、本申請實施例通過提供一種通過文字驅(qū)動的aigc視頻生成方法及裝置，解決了現(xiàn)有技術(shù)中數(shù)字人說話視頻的生成速度較慢、生成效果較差的技術(shù)問題，實現(xiàn)了以驅(qū)動文字作為輸入，使得數(shù)字人說話視頻的生成速度較快，還能通過文字挖掘出語義信息，使得數(shù)字人說話視頻生成效果優(yōu)異，數(shù)字人物逼真，數(shù)字人表情自然，提高用戶使用體驗度等技術(shù)效果。

2、第一方面，本發(fā)明實施例提供一種通過文字驅(qū)動的aigc視頻生成方法，包括：獲取驅(qū)動文字和人物圖像；

3、根據(jù)所述驅(qū)動文字，生成目標(biāo)語音特征；

4、根據(jù)所述人物圖像，得到所述人物圖像的圖像特征和臉部特征；

5、將所述目標(biāo)語音特征、所述圖像特征和所述臉部特征進(jìn)行融合，得到多幀視頻圖像；

6、根據(jù)多幀所述視頻圖像，生成所述人物圖像對應(yīng)的說話視頻，其中，所述說話視頻為aigc視頻，所述說話視頻的說話內(nèi)容為所述驅(qū)動文字的內(nèi)容。

7、優(yōu)選的，所述根據(jù)所述驅(qū)動文字，生成目標(biāo)語音特征，包括：

8、根據(jù)所述驅(qū)動文字，得到所述驅(qū)動文字對應(yīng)的語音和文字特征；

9、根據(jù)所述語音，得到語音特征，其中，所述語音特征為包含語義特征的特征向量；

10、根據(jù)所述語音特征和所述文字特征，得到所述目標(biāo)語音特征。

11、優(yōu)選的，所述根據(jù)所述語音特征和所述文字特征，得到所述目標(biāo)語音特征，包括：

12、通過lstm網(wǎng)絡(luò)，從所述語音特征中提取出音頻特征，以及通過文本提取器，從所述文字特征中提取出文本特征；

13、通過方差適配器，將所述音頻特征和所述文本特征進(jìn)行殘差連接，得到潛在屬性特征；

14、通過編碼器，將所述潛在屬性特征與所述語音特征進(jìn)行拼接，得到所述目標(biāo)語音特征。

15、優(yōu)選的，根據(jù)所述驅(qū)動文字，得到所述文字特征，包括：

16、通過clip編碼器對所述驅(qū)動文字進(jìn)行編碼，得到所述文字特征。

17、優(yōu)選的，所述根據(jù)所述語音，得到語音特征，包括：

18、通過卷積網(wǎng)絡(luò)，將所述語音映射到隱空間，得到所述隱空間中的所述語音的隱特征；

19、通過transformer網(wǎng)絡(luò)，將所述隱特征進(jìn)行編碼，得到所述語音特征。

20、優(yōu)選的，所述將所述目標(biāo)語音特征、所述圖像特征和所述臉部特征進(jìn)行融合，得到多幀視頻圖像，包括：

21、通過擴(kuò)散模型，對所述目標(biāo)語音特征、所述圖像特征和所述臉部特征進(jìn)行融合，直到達(dá)到運(yùn)動估計矩陣的姿態(tài)約束條件，得到一幀所述視頻圖像，進(jìn)而得到多幀所述視頻圖像。

22、優(yōu)選的，所述運(yùn)動估計矩陣為：

23、m?=?mt,t,e[||e?-?et(gt,t,c)||2]；

24、其中，m為運(yùn)動估計矩陣，t為時間步長，c為所述語音特征，e為多層感知機(jī)，gt為高斯噪聲，mt為在t時間步長下的運(yùn)動空間矩陣，et為多層感知線性運(yùn)算。

25、優(yōu)選的，所述運(yùn)動估計矩陣的姿態(tài)約束條件為通過所述運(yùn)動估計矩陣得到目標(biāo)特征的目標(biāo)姿態(tài)，且所述目標(biāo)特征從當(dāng)前姿態(tài)調(diào)整至所述目標(biāo)姿態(tài)的條件，其中，所述目標(biāo)特征為所述圖像特征的指定特征和/或所述臉部特征的指定特征。

26、優(yōu)選的，根據(jù)多幀所述視頻圖像，生成所述人物圖像對應(yīng)的說話視頻，包括：

27、通過人臉修復(fù)模型，對多幀所述視頻圖像進(jìn)行修復(fù)，得到多幀修復(fù)后的視頻圖像；

28、將多幀所述修復(fù)后的視頻圖像按序進(jìn)行視頻編碼，得到所述說話視頻。

29、基于同一發(fā)明構(gòu)思，第二方面，本發(fā)明還提供一種通過文字驅(qū)動的aigc視頻生成裝置，包括：存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序，所述處理器執(zhí)行所述程序時實現(xiàn)第一方面的通過文字驅(qū)動的aigc視頻生成方法的步驟。

30、本發(fā)明實施例中的一個或多個技術(shù)方案，至少具有如下技術(shù)效果或優(yōu)點：

31、在本發(fā)明實施例中，在獲取驅(qū)動文字和人物圖像之后，根據(jù)驅(qū)動文字得到目標(biāo)語音特征，并根據(jù)人物圖像得到圖像特征和臉部特征。這里，以驅(qū)動文字作為數(shù)字人說話視頻的輸入，大大降低說話視頻的生成成本，提高生成效率和生成速度。并且，通過驅(qū)動文字得到的目標(biāo)語音特征具有高層語義信息，便于說話視頻生成效果逼真。

32、再將目標(biāo)語音特征、圖像特征和臉部特征進(jìn)行融合，得到多幀視頻圖像。這里，將目標(biāo)語音特征與圖像特征和臉部特征進(jìn)行嵌入融合，逐幀生成視頻圖像?；诰哂姓Z音信息的目標(biāo)語音特征，使得視頻圖像中的數(shù)字人逼真，數(shù)字人的說話表情和口型自然，進(jìn)而使得視頻圖像能反映出說話時的情緒，還能制定個性化地視頻圖像和說話視頻。然后，根據(jù)多幀視頻圖像，生成人物圖像對應(yīng)的說話視頻。如此，使得說話視頻生成效率高、生成效果優(yōu)異，增強(qiáng)用戶體驗度。

技術(shù)特征：

1.一種通過文字驅(qū)動的aigc視頻生成方法，其特征在于，包括：

2.如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述驅(qū)動文字，生成目標(biāo)語音特征，包括：

3.如權(quán)利要求2所述的方法，其特征在于，所述根據(jù)所述語音特征和所述文字特征，得到所述目標(biāo)語音特征，包括：

4.如權(quán)利要求2所述的方法，其特征在于，根據(jù)所述驅(qū)動文字，得到所述文字特征，包括：

5.如權(quán)利要求2所述的方法，其特征在于，所述根據(jù)所述語音，得到語音特征，包括：

6.如權(quán)利要求1所述的方法，其特征在于，所述將所述目標(biāo)語音特征、所述圖像特征和所述臉部特征進(jìn)行融合，得到多幀視頻圖像，包括：

7.如權(quán)利要求6所述的方法，其特征在于，所述運(yùn)動估計矩陣為：

8.如權(quán)利要求6所述的方法，其特征在于，所述運(yùn)動估計矩陣的姿態(tài)約束條件為通過所述運(yùn)動估計矩陣得到目標(biāo)特征的目標(biāo)姿態(tài)，且所述目標(biāo)特征從當(dāng)前姿態(tài)調(diào)整至所述目標(biāo)姿態(tài)的條件，其中，所述目標(biāo)特征為所述圖像特征的指定特征和/或所述臉部特征的指定特征。

9.如權(quán)利要求1所述的方法，其特征在于，根據(jù)多幀所述視頻圖像，生成所述人物圖像對應(yīng)的說話視頻，包括：

10.一種通過文字驅(qū)動的aigc視頻生成裝置，包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序，其特征在于，所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-9中任一權(quán)利要求所述的通過文字驅(qū)動的aigc視頻生成方法步驟。

技術(shù)總結(jié)
本發(fā)明涉及人工智能技術(shù)領(lǐng)域，尤其涉及一種通過文字驅(qū)動的AIGC視頻生成方法，該方法包括：獲取驅(qū)動文字和人物圖像；根據(jù)所述驅(qū)動文字，生成目標(biāo)語音特征；根據(jù)所述人物圖像，得到所述人物圖像的圖像特征和臉部特征；將所述目標(biāo)語音特征、所述圖像特征和所述臉部特征進(jìn)行融合，得到多幀視頻圖像；根據(jù)多幀所述視頻圖像，生成所述人物圖像對應(yīng)的說話視頻，其中，所述說話視頻為AIGC視頻，所述說話視頻的說話內(nèi)容為所述驅(qū)動文字的內(nèi)容。該方法以驅(qū)動文字作為輸入，使得數(shù)字人說話視頻的生成速度較快，還能通過文字挖掘出語義信息，使得數(shù)字人說話視頻生成效果優(yōu)異，數(shù)字人物逼真，數(shù)字人表情自然，提高用戶使用體驗度。

技術(shù)研發(fā)人員：楊恒,龍濤,李娟,吳永杰,韋健文
受保護(hù)的技術(shù)使用者：深圳愛莫科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊恒,龍濤,李娟,吳永杰,韋健文
技術(shù)所有人：深圳愛莫科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種通過文字驅(qū)動的AIGC視頻生成方法及裝置與流程