本發(fā)明涉及計算機信息,具體涉及一種基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法及系統(tǒng)。
背景技術(shù):
1、語音驅(qū)動的3d說話頭動畫(3d面部動畫)技術(shù)廣泛應(yīng)用于多媒體應(yīng)用,如商業(yè)、娛樂和教育。因此,開發(fā)準(zhǔn)確高效生成的說話頭像越來越受到圖形、計算機視覺和多媒體技術(shù)研究人員的關(guān)注。語音驅(qū)動的3d面部動畫是一項從語音到視覺的復(fù)雜且具有挑戰(zhàn)性的跨模態(tài)任務(wù)。它使用提供的語音來預(yù)測所有面部細(xì)微差別,同時保證動畫質(zhì)量,例如自然度和流暢度。
2、然而,由于固有的發(fā)音規(guī)則和面部表情、說話風(fēng)格和情緒等的變化,學(xué)習(xí)如何將語音特征映射到相應(yīng)的面部動作由于其一對多的本質(zhì)而變得困難。關(guān)鍵點對于表示語音過程中活動強度高的區(qū)域(如嘴部區(qū)域)的運動特別有效,這對于語音驅(qū)動的3d說話頭生成來說是理想的選擇,因此引起了研究人員的興趣。然而,大多數(shù)這些研究在學(xué)習(xí)面部關(guān)鍵點時,僅僅考慮了單級語音特征。因此,他們在很大程度上忽略了短期發(fā)音單元在不同音素、單詞、語句甚至不同說話風(fēng)格中的變化,這往往導(dǎo)致面部動畫不自然和過度平滑。
技術(shù)實現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題:針對現(xiàn)有技術(shù)的上述問題,提供一種基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法及系統(tǒng),有效捕捉到不同層級語音特征與面部關(guān)鍵點之間的相關(guān)性,幫助從語音里面推斷面部細(xì)節(jié),使得生成的3d說話頭動畫具有更高的質(zhì)量。
2、為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:
3、一種基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法,包括以下步驟:
4、獲取原始語音信號并提取不同層級的語音特征;
5、通過可學(xué)習(xí)的線性層為每個層級的語音特征學(xué)習(xí)對應(yīng)的重要性權(quán)重;
6、計算各層級的語音特征的加權(quán)和,得到加權(quán)關(guān)鍵點位移;
7、將加權(quán)關(guān)鍵點位移輸入線性層得到預(yù)測的稀疏關(guān)鍵點位移;
8、將稀疏關(guān)鍵點位移轉(zhuǎn)換為稠密關(guān)鍵點位移;
9、根據(jù)稠密關(guān)鍵點位移生成3d說話頭動畫。
10、進一步的,獲取原始語音信號并提取不同層級的語音特征時,包括:
11、將原始語音信號輸入語音特征提取器,得到語音特征
12、基于語音特征和短期發(fā)音單元在幀級別、音素級別、詞級別和句子級別的持續(xù)時間的統(tǒng)計學(xué)特性,使用分層語音特征提取器提取幀級別音素級別詞級別和句子級別的語音特征。
13、進一步的,通過可學(xué)習(xí)的線性層為每個層級的語音特征學(xué)習(xí)對應(yīng)的重要性權(quán)重時,包括:
14、將當(dāng)前層級的語音特性經(jīng)過線性層進行維度調(diào)整;
15、將當(dāng)前層級的維度調(diào)整后的語音特征分別輸入不同的兩個線性層,然后將兩個不同線性層的輸出經(jīng)過雙曲正切函數(shù)合并,最后輸入輸出維度為1的線性層,得到當(dāng)前層級的語音特征對應(yīng)的重要性權(quán)重;
16、對所有層級的語音特征對應(yīng)的重要性權(quán)重使用softmax(*)函數(shù)進行歸一化計算,得到所有層級的語音特征的最終重要性權(quán)重。
17、進一步的,將加權(quán)關(guān)鍵點位移輸入線性層得到預(yù)測的稀疏關(guān)鍵點位移之前,還包括:計算原始語音信號的語音特征對應(yīng)的稀疏關(guān)鍵點位移的真實參考值;將加權(quán)關(guān)鍵點位移輸入線性層得到預(yù)測的稀疏關(guān)鍵點位移時,包括:
18、將加權(quán)關(guān)鍵點位移輸入線性層進行維度變換,得到預(yù)測的稀疏關(guān)鍵的位移,并使用稀疏關(guān)鍵點位移的真實參考值進行約束,以更新每一輪預(yù)測時的網(wǎng)絡(luò)參數(shù)。
19、進一步的,使用稀疏關(guān)鍵點位移的真實參考值進行約束時,包括:
20、計算預(yù)測的稀疏關(guān)鍵點位移與稀疏關(guān)鍵點位移的真實參考值之間的損失函數(shù),所述損失函數(shù)表達(dá)式如下:
21、lhsf2s=1·lrec,hsf2s+1·lm,hsf2s+10·lvel,hsf2s+0.0001·lcos,hsf2s
22、其中,lrec,hsf2s表示預(yù)測的稀疏關(guān)鍵點位移與稀疏關(guān)鍵點位移的真實參考值之間的重構(gòu)損失,lm,hsf2s表示預(yù)測的稀疏關(guān)鍵點位移與稀疏關(guān)鍵點位移的真實參考值之間的嘴部損失,lvel,hsf2s表示預(yù)測的稀疏關(guān)鍵點位移與稀疏關(guān)鍵點位移的真實參考值之間的速度損失,lcos,hsf2s表示預(yù)測的稀疏關(guān)鍵點位移與稀疏關(guān)鍵點位移的真實參考值之間的余弦損失;
23、計算損失函數(shù)關(guān)于網(wǎng)絡(luò)參數(shù)的梯度,然后使用根據(jù)所述梯度更新網(wǎng)絡(luò)參數(shù)。
24、進一步的,計算原始語音信號的語音特征對應(yīng)的稀疏關(guān)鍵點位移的真實參考值時,包括:
25、獲取原始語音信號的每一幀對應(yīng)的面部關(guān)鍵點和中性面部關(guān)鍵點,計算面部關(guān)鍵點和中性面部關(guān)鍵點之差,得到稀疏關(guān)鍵點位移的真實參考值。
26、進一步的,將稀疏關(guān)鍵點位移轉(zhuǎn)換為稠密關(guān)鍵點位移時,包括以下步驟:
27、計算稠密關(guān)鍵點位移的真實參考值;
28、將當(dāng)前時刻預(yù)測得到的稀疏關(guān)鍵點位移和當(dāng)前時刻之前所有時刻的稠密關(guān)鍵點位移一起輸入稠密解碼器,獲取稠密解碼器輸出的當(dāng)前時刻預(yù)測的稠密關(guān)鍵點位移,并通過稠密關(guān)鍵點位移的真實參考值進行約束,以更新每一輪預(yù)測時稠密解碼器的網(wǎng)絡(luò)參數(shù)。
29、進一步的,計算稠密關(guān)鍵點位移的真實參考值時,包括:
30、獲取原始語音信號的每一幀對應(yīng)的稠密關(guān)鍵點和中性面部網(wǎng)格,計算稠密關(guān)鍵點和中性面部網(wǎng)格之差,得到稠密關(guān)鍵點位移的真實參考值。
31、進一步的,通過稠密關(guān)鍵點位移的真實參考值進行約束時,包括:
32、計算預(yù)測的稠密關(guān)鍵點位移與稠密關(guān)鍵點位移的真實參考值之間的損失函數(shù),所述損失函數(shù)表達(dá)式如下:
33、ls2d=1·lrec,s2d+1·lm,s2d+0.0001·lcos,s2d
34、其中,lrec,s2d表示預(yù)測的稠密關(guān)鍵點位移與稠密關(guān)鍵點位移的真實參考值之間的重構(gòu)損失,lm,s2d表示預(yù)測的稠密關(guān)鍵點位移與稠密關(guān)鍵點位移的真實參考值之間的嘴部損失,lcos,s2d表示預(yù)測的稠密關(guān)鍵點位移與稠密關(guān)鍵點位移的真實參考值之間的余弦損失;
35、計算損失函數(shù)關(guān)于網(wǎng)絡(luò)參數(shù)的梯度,然后使用根據(jù)所述梯度更新網(wǎng)絡(luò)參數(shù)。
36、本發(fā)明還提出一種基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成系統(tǒng),包括互相連接的微處理器和計算機可讀存儲介質(zhì),所述微處理器被編程或者配置以執(zhí)行任一項所述的基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法。
37、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:
38、本發(fā)明使用分層語音特征提取器,針對原始語音的語音特征提取不同層級的語音特征后,將不同層級的語音特征分別輸入線性層得到對應(yīng)的權(quán)重,通過權(quán)重機制來學(xué)習(xí)不同層級語音特征對人臉關(guān)鍵點的貢獻(xiàn)程度,提高了從語音中推斷關(guān)鍵點位移的準(zhǔn)確性。
1.一種基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法,其特征在于,獲取原始語音信號并提取不同層級的語音特征時,包括:
3.根據(jù)權(quán)利要求1所述的基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法,其特征在于,通過可學(xué)習(xí)的線性層為每個層級的語音特征學(xué)習(xí)對應(yīng)的重要性權(quán)重時,包括:
4.根據(jù)權(quán)利要求1所述的基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法,其特征在于,將加權(quán)關(guān)鍵點位移輸入線性層得到預(yù)測的稀疏關(guān)鍵點位移之前,還包括:計算原始語音信號的語音特征對應(yīng)的稀疏關(guān)鍵點位移的真實參考值;將加權(quán)關(guān)鍵點位移輸入線性層得到預(yù)測的稀疏關(guān)鍵點位移時,包括:
5.根據(jù)權(quán)利要求4所述的基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法,其特征在于,使用稀疏關(guān)鍵點位移的真實參考值進行約束時,包括:
6.根據(jù)權(quán)利要求4所述的基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法,其特征在于,計算原始語音信號的語音特征對應(yīng)的稀疏關(guān)鍵點位移的真實參考值時,包括:
7.根據(jù)權(quán)利要求1所述的基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法,其特征在于,將稀疏關(guān)鍵點位移轉(zhuǎn)換為稠密關(guān)鍵點位移時,包括以下步驟:
8.根據(jù)權(quán)利要求7所述的基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法,其特征在于,計算稠密關(guān)鍵點位移的真實參考值時,包括:
9.根據(jù)權(quán)利要求7所述的基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法,其特征在于,通過稠密關(guān)鍵點位移的真實參考值進行約束時,包括:
10.一種基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成系統(tǒng),其特征在于,包括互相連接的微處理器和計算機可讀存儲介質(zhì),所述微處理器被編程或者配置以執(zhí)行權(quán)利要求1~9任一項所述的基于層級語音特征關(guān)鍵點位移的3d說話頭動畫生成方法。