本發(fā)明涉及自然語言處理,特別是指一種用于語音驅動的口型生成方法及裝置。
背景技術:
1、語音驅動口型技術是指通過音頻信號(如人類語音)控制和生成虛擬或真實世界中口型運動的技術。該技術通常用于虛擬人物的面部動畫、實時通信和語音識別設備中,通過分析輸入的語音信號并將其轉換為相應的口型動作。
2、隨著虛擬角色在媒體制作、影視行業(yè)等領域的廣泛應用,生成逼真的“說話頭部”成為了一項重要的研究課題。但在少量參考數(shù)據(jù)的情況下,傳統(tǒng)的面部同步技術難以在高分辨率視頻中實現(xiàn)自然、精確的口型匹配?,F(xiàn)有的幾種方法通過卷積神經(jīng)網(wǎng)絡直接從隱向量生成嘴部區(qū)域的像素,盡管它們在低分辨率場景中取得了一定的成果,但在生成高分辨率的視頻時仍存在較為嚴重的模糊問題,無法充分保留面部的紋理細節(jié)。此外,口型運動與語音信號的同步性以及面部表情、頭部姿態(tài)的保持,也為現(xiàn)有技術帶來了巨大挑戰(zhàn)。
3、在現(xiàn)有技術中,缺乏一種針對于語音驅動的視頻分辨率高且面部紋理細節(jié)保留充分的口型生成方法。
技術實現(xiàn)思路
1、為了解決現(xiàn)有技術存在的生成高分辨率視頻無法充分保留面部紋理細節(jié)的技術問題,本發(fā)明實施例提供了一種用于語音驅動的口型生成方法及裝置。所述技術方案如下:
2、一方面,提供了一種用于語音驅動的口型生成方法,該方法由口型生成設備實現(xiàn),該方法包括:
3、獲取包含完整人臉的原始視頻數(shù)據(jù);根據(jù)所述原始視頻數(shù)據(jù),獲得原始音頻數(shù)據(jù);
4、基于ffmpeg工具,根據(jù)所述原始視頻數(shù)據(jù)進行圖像處理,獲得拼接幀圖像數(shù)據(jù)以及面部特征點;對所述拼接幀圖像數(shù)據(jù)進行二維卷積處理,獲得拼接圖像特征;
5、根據(jù)所述原始音頻數(shù)據(jù),通過深度音頻特征提取器進行特征提取,獲得音頻特征;
6、根據(jù)所述拼接圖像特征以及所述音頻特征,通過音頻-視頻序列特征融合器進行特征融合,獲得融合特征;
7、根據(jù)所述面部特征點以及所述融合特征,通過唇部動作生成器進行視頻生成,獲得合成視頻數(shù)據(jù);
8、根據(jù)所述原始視頻數(shù)據(jù)以及所述合成視頻數(shù)據(jù)進行計算,得到損失函數(shù);
9、根據(jù)所述損失函數(shù),對所述唇部動作生成器進行反向優(yōu)化,獲得優(yōu)化唇部動作生成器;
10、獲取目標音頻數(shù)據(jù);基于預設的參考序列視頻,根據(jù)所述目標音頻數(shù)據(jù),通過所述深度音頻特征提取器、所述音頻-視頻序列特征融合器和所述優(yōu)化唇部動作生成器進行視頻生成,獲得目標合成視頻數(shù)據(jù)。
11、另一方面,提供了一種用于語音驅動的口型生成裝置,該裝置應用于用于語音驅動的口型生成方法,該裝置包括:
12、原始數(shù)據(jù)獲取模塊,用于獲取包含完整人臉的原始視頻數(shù)據(jù);根據(jù)所述原始視頻數(shù)據(jù),獲得原始音頻數(shù)據(jù);
13、拼接圖像特征獲取模塊,用于基于ffmpeg工具,根據(jù)所述原始視頻數(shù)據(jù)進行圖像處理,獲得拼接幀圖像數(shù)據(jù)以及面部特征點;對所述拼接幀圖像數(shù)據(jù)進行二維卷積處理,獲得拼接圖像特征;
14、音頻特征獲取模塊,用于根據(jù)所述原始音頻數(shù)據(jù),通過深度音頻特征提取器進行特征提取,獲得音頻特征;
15、特征融合模塊,用于根據(jù)所述拼接圖像特征以及所述音頻特征,通過音頻-視頻序列特征融合器進行特征融合,獲得融合特征;
16、視頻合成模塊,用于根據(jù)所述面部特征點以及所述融合特征,通過唇部動作生成器進行視頻生成,獲得合成視頻數(shù)據(jù);
17、損失函數(shù)計算模塊,用于根據(jù)所述原始視頻數(shù)據(jù)以及所述合成視頻數(shù)據(jù)進行計算,得到損失函數(shù);
18、生成器優(yōu)化模塊,用于根據(jù)所述損失函數(shù),對所述唇部動作生成器進行反向優(yōu)化,獲得優(yōu)化唇部動作生成器;
19、目標視頻合成模塊,用于獲取目標音頻數(shù)據(jù);基于預設的參考序列視頻,根據(jù)所述目標音頻數(shù)據(jù),通過所述深度音頻特征提取器、所述音頻-視頻序列特征融合器和所述優(yōu)化唇部動作生成器進行視頻生成,獲得目標合成視頻數(shù)據(jù)。
20、另一方面,提供一種口型生成設備,所述口型生成設備包括:處理器;存儲器,所述存儲器上存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執(zhí)行時,實現(xiàn)如上述用于語音驅動的口型生成方法中的任一項方法。
21、另一方面,提供了一種計算機可讀存儲介質,所述存儲介質中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)上述用于語音驅動的口型生成方法中的任一項方法。
22、本發(fā)明實施例提供的技術方案帶來的有益效果至少包括:
23、本發(fā)明提出一種用于語音驅動的口型生成方法,通過深度音頻特征提取器不僅能夠提取局部特征,還能增強音頻信號中的全局信息,提升音頻-視頻序列的對齊精度,確保在復雜的語音識別任務中具有較高的魯棒性。通過自注意力機制,有效捕捉音頻信號中的長距離依賴,使得模型能夠從整個音頻序列中提取重要特征,提升口型生成的準確性和自然度。深度時序卷積模塊能夠充分學習時間依賴,增強音頻和視頻同步時的時序建模能力,從而有效支持高精度的口型生成。
24、基于雙向交叉注意力機制使得音頻和視頻特征能夠互相影響,從而提升了模型對音頻與視頻之間依賴關系的建模能力。該設計能更精確地同步音頻與視頻中的嘴唇運動,進而提高口型生成的精度和自然度。通過融合音頻與視頻特征的雙向交互,增強了模型對面部表情與語音之間的關聯(lián)捕捉能力,使得生成的面部表情與發(fā)音時間的匹配更為精準。使用融合特征深層卷積結構進一步融合特征,提升了生成面部圖像時的細節(jié)保真度,確保嘴部區(qū)域與音頻同步的同時,面部整體表情和細節(jié)得以真實再現(xiàn)。
25、仿射變換模塊能夠有效適應不同的角度、尺度和位置,確保在各種視角下嘴部特征得以精確提取和生成,增強了語音驅動口型生成的準確性與魯棒性。仿射變換計算簡單且高效,適合實時應用,能夠減少生成過程中的計算負擔,提高系統(tǒng)響應速度。上采樣模塊通過逐步恢復圖像的空間分辨率,確保生成的面部圖像在細節(jié)層面保持高度一致,且能夠準確呈現(xiàn)嘴型隨音頻變化的細節(jié),實現(xiàn)了高質量的口型與面部表情同步生成。本發(fā)明是一種針對于語音驅動的視頻分辨率高且面部紋理細節(jié)保留充分的口型生成方法。
1.一種用于語音驅動的口型生成方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的用于語音驅動的口型生成方法,其特征在于,所述基于ffmpeg工具,根據(jù)所述原始視頻數(shù)據(jù)進行圖像處理,獲得拼接幀圖像數(shù)據(jù)以及面部特征點,包括:
3.根據(jù)權利要求1所述的用于語音驅動的口型生成方法,其特征在于,所述深度音頻特征提取器包括音頻數(shù)據(jù)處理模塊、自注意力特征提取模塊和深度時序卷積模塊;
4.根據(jù)權利要求1所述的用于語音驅動的口型生成方法,其特征在于,所述根據(jù)所述原始音頻數(shù)據(jù),通過深度音頻特征提取器進行特征提取,獲得音頻特征,包括:
5.根據(jù)權利要求1所述的用于語音驅動的口型生成方法,其特征在于,所述音頻-視頻序列特征融合器包括特征時序整合模塊以及雙向交叉注意力機制特征融合模塊;
6.根據(jù)權利要求1所述的用于語音驅動的口型生成方法,其特征在于,所述根據(jù)所述面部特征點以及所述融合特征,通過唇部動作生成器進行視頻生成,獲得合成視頻數(shù)據(jù),包括:
7.一種用于語音驅動的口型生成裝置,所述用于語音驅動的口型生成裝置用于實現(xiàn)如權利要求1-6任一項所述用于語音驅動的口型生成方法,其特征在于,所述裝置包括:
8.根據(jù)權利要求7所述的用于語音驅動的口型生成裝置,其特征在于,所述音頻特征獲取模塊,進一步用于:
9.一種口型生成設備,其特征在于,所述口型生成設備包括:
10.一種計算機可讀取存儲介質,其特征在于,所述計算機可讀取存儲介質中存儲有程序代碼,所述程序代碼可被處理器調用執(zhí)行如權利要求1至6任一項所述的方法。