欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種通過文字驅(qū)動的AIGC視頻生成方法及裝置與流程

文檔序號:40613523發(fā)布日期:2025-01-07 21:00閱讀:13來源:國知局
一種通過文字驅(qū)動的AIGC視頻生成方法及裝置與流程

本發(fā)明涉及人工智能,尤其涉及一種通過文字驅(qū)動的aigc視頻生成方法及裝置。


背景技術(shù):

1、近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,通過語音驅(qū)動三維數(shù)字人的臉部,生成說話視頻的技術(shù)得到了迅速發(fā)展,并且已經(jīng)在多個領(lǐng)域得到了應(yīng)用。該說話視頻為aigc(artificial?intelligence?generated?content,人工智能生成內(nèi)容)視頻?,F(xiàn)有的數(shù)字人說話視頻通常以驅(qū)動語音音頻作為輸入,這增加了數(shù)字人說話視頻的成本。并且,通過驅(qū)動語音作為輸入的數(shù)字人說話視頻需要對語音音頻進(jìn)行識別。在識別語音音頻的過程中,由于背景噪音、口音差異或快速說話等因素,對語音音頻產(chǎn)生識別錯誤。這樣導(dǎo)致數(shù)字人說話視頻的生成速度較慢、生成效果較差的問題。


技術(shù)實現(xiàn)思路

1、本申請實施例通過提供一種通過文字驅(qū)動的aigc視頻生成方法及裝置,解決了現(xiàn)有技術(shù)中數(shù)字人說話視頻的生成速度較慢、生成效果較差的技術(shù)問題,實現(xiàn)了以驅(qū)動文字作為輸入,使得數(shù)字人說話視頻的生成速度較快,還能通過文字挖掘出語義信息,使得數(shù)字人說話視頻生成效果優(yōu)異,數(shù)字人物逼真,數(shù)字人表情自然,提高用戶使用體驗度等技術(shù)效果。

2、第一方面,本發(fā)明實施例提供一種通過文字驅(qū)動的aigc視頻生成方法,包括:獲取驅(qū)動文字和人物圖像;

3、根據(jù)所述驅(qū)動文字,生成目標(biāo)語音特征;

4、根據(jù)所述人物圖像,得到所述人物圖像的圖像特征和臉部特征;

5、將所述目標(biāo)語音特征、所述圖像特征和所述臉部特征進(jìn)行融合,得到多幀視頻圖像;

6、根據(jù)多幀所述視頻圖像,生成所述人物圖像對應(yīng)的說話視頻,其中,所述說話視頻為aigc視頻,所述說話視頻的說話內(nèi)容為所述驅(qū)動文字的內(nèi)容。

7、優(yōu)選的,所述根據(jù)所述驅(qū)動文字,生成目標(biāo)語音特征,包括:

8、根據(jù)所述驅(qū)動文字,得到所述驅(qū)動文字對應(yīng)的語音和文字特征;

9、根據(jù)所述語音,得到語音特征,其中,所述語音特征為包含語義特征的特征向量;

10、根據(jù)所述語音特征和所述文字特征,得到所述目標(biāo)語音特征。

11、優(yōu)選的,所述根據(jù)所述語音特征和所述文字特征,得到所述目標(biāo)語音特征,包括:

12、通過lstm網(wǎng)絡(luò),從所述語音特征中提取出音頻特征,以及通過文本提取器,從所述文字特征中提取出文本特征;

13、通過方差適配器,將所述音頻特征和所述文本特征進(jìn)行殘差連接,得到潛在屬性特征;

14、通過編碼器,將所述潛在屬性特征與所述語音特征進(jìn)行拼接,得到所述目標(biāo)語音特征。

15、優(yōu)選的,根據(jù)所述驅(qū)動文字,得到所述文字特征,包括:

16、通過clip編碼器對所述驅(qū)動文字進(jìn)行編碼,得到所述文字特征。

17、優(yōu)選的,所述根據(jù)所述語音,得到語音特征,包括:

18、通過卷積網(wǎng)絡(luò),將所述語音映射到隱空間,得到所述隱空間中的所述語音的隱特征;

19、通過transformer網(wǎng)絡(luò),將所述隱特征進(jìn)行編碼,得到所述語音特征。

20、優(yōu)選的,所述將所述目標(biāo)語音特征、所述圖像特征和所述臉部特征進(jìn)行融合,得到多幀視頻圖像,包括:

21、通過擴(kuò)散模型,對所述目標(biāo)語音特征、所述圖像特征和所述臉部特征進(jìn)行融合,直到達(dá)到運(yùn)動估計矩陣的姿態(tài)約束條件,得到一幀所述視頻圖像,進(jìn)而得到多幀所述視頻圖像。

22、優(yōu)選的,所述運(yùn)動估計矩陣為:

23、m?=?mt,t,e[||e?-?et(gt,t,c)||2];

24、其中,m為運(yùn)動估計矩陣,t為時間步長,c為所述語音特征,e為多層感知機(jī),gt為高斯噪聲,mt為在t時間步長下的運(yùn)動空間矩陣,et為多層感知線性運(yùn)算。

25、優(yōu)選的,所述運(yùn)動估計矩陣的姿態(tài)約束條件為通過所述運(yùn)動估計矩陣得到目標(biāo)特征的目標(biāo)姿態(tài),且所述目標(biāo)特征從當(dāng)前姿態(tài)調(diào)整至所述目標(biāo)姿態(tài)的條件,其中,所述目標(biāo)特征為所述圖像特征的指定特征和/或所述臉部特征的指定特征。

26、優(yōu)選的,根據(jù)多幀所述視頻圖像,生成所述人物圖像對應(yīng)的說話視頻,包括:

27、通過人臉修復(fù)模型,對多幀所述視頻圖像進(jìn)行修復(fù),得到多幀修復(fù)后的視頻圖像;

28、將多幀所述修復(fù)后的視頻圖像按序進(jìn)行視頻編碼,得到所述說話視頻。

29、基于同一發(fā)明構(gòu)思,第二方面,本發(fā)明還提供一種通過文字驅(qū)動的aigc視頻生成裝置,包括:存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實現(xiàn)第一方面的通過文字驅(qū)動的aigc視頻生成方法的步驟。

30、本發(fā)明實施例中的一個或多個技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點:

31、在本發(fā)明實施例中,在獲取驅(qū)動文字和人物圖像之后,根據(jù)驅(qū)動文字得到目標(biāo)語音特征,并根據(jù)人物圖像得到圖像特征和臉部特征。這里,以驅(qū)動文字作為數(shù)字人說話視頻的輸入,大大降低說話視頻的生成成本,提高生成效率和生成速度。并且,通過驅(qū)動文字得到的目標(biāo)語音特征具有高層語義信息,便于說話視頻生成效果逼真。

32、再將目標(biāo)語音特征、圖像特征和臉部特征進(jìn)行融合,得到多幀視頻圖像。這里,將目標(biāo)語音特征與圖像特征和臉部特征進(jìn)行嵌入融合,逐幀生成視頻圖像?;诰哂姓Z音信息的目標(biāo)語音特征,使得視頻圖像中的數(shù)字人逼真,數(shù)字人的說話表情和口型自然,進(jìn)而使得視頻圖像能反映出說話時的情緒,還能制定個性化地視頻圖像和說話視頻。然后,根據(jù)多幀視頻圖像,生成人物圖像對應(yīng)的說話視頻。如此,使得說話視頻生成效率高、生成效果優(yōu)異,增強(qiáng)用戶體驗度。



技術(shù)特征:

1.一種通過文字驅(qū)動的aigc視頻生成方法,其特征在于,包括:

2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述驅(qū)動文字,生成目標(biāo)語音特征,包括:

3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述語音特征和所述文字特征,得到所述目標(biāo)語音特征,包括:

4.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述驅(qū)動文字,得到所述文字特征,包括:

5.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述語音,得到語音特征,包括:

6.如權(quán)利要求1所述的方法,其特征在于,所述將所述目標(biāo)語音特征、所述圖像特征和所述臉部特征進(jìn)行融合,得到多幀視頻圖像,包括:

7.如權(quán)利要求6所述的方法,其特征在于,所述運(yùn)動估計矩陣為:

8.如權(quán)利要求6所述的方法,其特征在于,所述運(yùn)動估計矩陣的姿態(tài)約束條件為通過所述運(yùn)動估計矩陣得到目標(biāo)特征的目標(biāo)姿態(tài),且所述目標(biāo)特征從當(dāng)前姿態(tài)調(diào)整至所述目標(biāo)姿態(tài)的條件,其中,所述目標(biāo)特征為所述圖像特征的指定特征和/或所述臉部特征的指定特征。

9.如權(quán)利要求1所述的方法,其特征在于,根據(jù)多幀所述視頻圖像,生成所述人物圖像對應(yīng)的說話視頻,包括:

10.一種通過文字驅(qū)動的aigc視頻生成裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-9中任一權(quán)利要求所述的通過文字驅(qū)動的aigc視頻生成方法步驟。


技術(shù)總結(jié)
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種通過文字驅(qū)動的AIGC視頻生成方法,該方法包括:獲取驅(qū)動文字和人物圖像;根據(jù)所述驅(qū)動文字,生成目標(biāo)語音特征;根據(jù)所述人物圖像,得到所述人物圖像的圖像特征和臉部特征;將所述目標(biāo)語音特征、所述圖像特征和所述臉部特征進(jìn)行融合,得到多幀視頻圖像;根據(jù)多幀所述視頻圖像,生成所述人物圖像對應(yīng)的說話視頻,其中,所述說話視頻為AIGC視頻,所述說話視頻的說話內(nèi)容為所述驅(qū)動文字的內(nèi)容。該方法以驅(qū)動文字作為輸入,使得數(shù)字人說話視頻的生成速度較快,還能通過文字挖掘出語義信息,使得數(shù)字人說話視頻生成效果優(yōu)異,數(shù)字人物逼真,數(shù)字人表情自然,提高用戶使用體驗度。

技術(shù)研發(fā)人員:楊恒,龍濤,李娟,吳永杰,韋健文
受保護(hù)的技術(shù)使用者:深圳愛莫科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
双柏县| 延寿县| 黄骅市| 当涂县| 西宁市| 区。| 涿州市| 青河县| 新宁县| 嘉义县| 虎林市| 翁源县| 壶关县| 北票市| 万载县| 定日县| 阿尔山市| 通榆县| 白城市| 大埔县| 巴塘县| 独山县| 随州市| 秀山| 松滋市| 乡城县| 宣恩县| 阿尔山市| 嘉鱼县| 嘉善县| 衡水市| 安溪县| 黄骅市| 河南省| 南康市| 工布江达县| 库尔勒市| 蒙阴县| 昆山市| 镇沅| 垦利县|