本發(fā)明涉及計(jì)算機(jī)動(dòng)畫(huà)和語(yǔ)音合成領(lǐng)域,具體為一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)。
背景技術(shù):
1、在現(xiàn)代多媒體技術(shù)中,文本到語(yǔ)音(tts)系統(tǒng)已經(jīng)廣泛應(yīng)用于各種場(chǎng)景,如虛擬助手、導(dǎo)航系統(tǒng)和教育軟件。然而,現(xiàn)有技術(shù)中,如何使文本到語(yǔ)音與動(dòng)畫(huà)中的口型同步仍然是一個(gè)挑戰(zhàn)。大多數(shù)現(xiàn)有的解決方案要么需要大量的手工調(diào)整,要么在同步精度上存在不足。因此,提出一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)具有重要意義。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),通過(guò)兩個(gè)階段的處理實(shí)現(xiàn)文本到語(yǔ)音與口型動(dòng)畫(huà)的高精度同步。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),包括以下步驟:
3、輸入文本:
4、在輸入欄中輸入需要轉(zhuǎn)化為語(yǔ)音口型的文字;
5、將文本轉(zhuǎn)換為語(yǔ)音:
6、然后計(jì)算機(jī)通過(guò)?tts?服務(wù)自動(dòng)將輸出的文本轉(zhuǎn)化為語(yǔ)音;
7、生成音素信息:
8、按標(biāo)點(diǎn)符號(hào)拆分語(yǔ)句為單句,每個(gè)單句單獨(dú)處理,并且使用音素分析工具將文本轉(zhuǎn)為對(duì)應(yīng)的音素;
9、使用差值算法計(jì)算各個(gè)時(shí)間點(diǎn)音素的權(quán)重:
10、根據(jù)語(yǔ)音時(shí)長(zhǎng)以及每個(gè)音素的時(shí)間占比計(jì)算每個(gè)音素影響的時(shí)間;
11、根據(jù)權(quán)重生成口型動(dòng)畫(huà):
12、然后利用計(jì)算音素的權(quán)重來(lái)匹配數(shù)據(jù)庫(kù)內(nèi)所對(duì)應(yīng)的語(yǔ)音口型;
13、混合情緒值:
14、再利用差值過(guò)渡微調(diào)音素的權(quán)重,從而實(shí)現(xiàn)插入情緒值的目的;
15、播放語(yǔ)音和口型動(dòng)畫(huà):
16、最后將口型連續(xù)起來(lái)形成完整的語(yǔ)音動(dòng)畫(huà),并將語(yǔ)音動(dòng)畫(huà)對(duì)應(yīng)起來(lái)即可。
17、可選的,采用口型模塊、音素模塊、對(duì)應(yīng)模塊和匹配模塊;
18、所述口型模塊用于將發(fā)出48個(gè)音素所形成的20個(gè)口型儲(chǔ)存起來(lái);
19、所述音素模塊用于將48個(gè)音素儲(chǔ)存起來(lái);
20、所述對(duì)應(yīng)模塊用于將每個(gè)所述音素發(fā)聲所對(duì)應(yīng)的所述口型一一對(duì)應(yīng)起來(lái);
21、所述匹配模塊用于匹配所述對(duì)應(yīng)模塊中的所述音素與所述口型的對(duì)應(yīng)匹配數(shù)據(jù)。
22、可選的,所述音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)中還包括有計(jì)算模塊;
23、所述計(jì)算模塊包括:
24、音素時(shí)間占比計(jì)算單元和差值過(guò)渡計(jì)算單元;
25、所述音素時(shí)間占比計(jì)算單元用于計(jì)算按標(biāo)點(diǎn)符號(hào)拆分語(yǔ)句的單句,每個(gè)單句單獨(dú)處理的因素權(quán)重?cái)?shù)據(jù);
26、所述差值過(guò)渡計(jì)算單元用于混合情緒值時(shí),微調(diào)音素的權(quán)重的計(jì)算。
27、可選的,所述音素時(shí)間占比計(jì)算單元如下:
28、
29、其中:
30、為第i個(gè)音素的權(quán)重;
31、t為語(yǔ)音的總時(shí)長(zhǎng);
32、為第i個(gè)音素的時(shí)間占比;
33、n為總音素?cái)?shù)。
34、可選的,所述音素分為最高點(diǎn)、起始點(diǎn)和結(jié)束點(diǎn):
35、每個(gè)音素的最高點(diǎn)時(shí)間,音素值為,根據(jù)其自身以及其后的音素分為4種情況:
36、元音-元音,元音-輔音,輔音-元音,輔音-輔音;
37、配置4種最高點(diǎn)的時(shí)間:
38、每個(gè)音素的起始點(diǎn)時(shí)間,當(dāng)音素值為0時(shí),為上一個(gè)音素的最高點(diǎn),如果是第一個(gè)音素,則為時(shí)間0;
39、每個(gè)音素的結(jié)束點(diǎn)時(shí)間,當(dāng)音素值為0時(shí),為下一個(gè)音素的最高點(diǎn),如果是最后一個(gè)音素,則為句末延遲0.5秒。
40、可選的,所述差值過(guò)渡計(jì)算單元如下:
41、
42、其中:
43、為每個(gè)音素的最高點(diǎn)時(shí)間,音素值為;
44、為每個(gè)音素的起始點(diǎn)時(shí)間,當(dāng)音素值為0時(shí),為上一個(gè)音素的最高點(diǎn);
45、為每個(gè)音素的結(jié)束點(diǎn)時(shí)間,當(dāng)音素值為0時(shí),為下一個(gè)音素的最高點(diǎn);
46、且當(dāng)t小于或大于時(shí),音素大小為0。
47、可選的,所述匹配模塊中包括:
48、輸入單元和尋找單元,輸入的文本信息運(yùn)輸所述輸入單元中,然后所述輸入單元經(jīng)過(guò)識(shí)別再將信息傳入到所述尋找單元,所述尋找單元通過(guò)所述輸入單元中的數(shù)據(jù)依次與所述音素表內(nèi)的音素元件相對(duì)應(yīng),直到尋找出與所述輸入單元中信息相匹配的音素。
49、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:
50、一、本發(fā)明通過(guò)?tts?服務(wù),首先將文本轉(zhuǎn)換為語(yǔ)音,并生成音素信息。隨后,根據(jù)語(yǔ)音的時(shí)長(zhǎng),精確計(jì)算每個(gè)音素峰值的時(shí)間點(diǎn)。
51、二、本發(fā)明設(shè)計(jì)師將預(yù)先準(zhǔn)備每個(gè)音素對(duì)應(yīng)的口型姿態(tài)(pose)。為了實(shí)現(xiàn)自然的過(guò)渡效果,在兩個(gè)音素之間逐步減少上一個(gè)音素的權(quán)重,同時(shí)增加下一個(gè)音素的權(quán)重。每個(gè)音素對(duì)應(yīng)于虛幻引擎姿態(tài)資產(chǎn)(pose?asset)中的一條曲線(xiàn),通過(guò)動(dòng)態(tài)調(diào)整音素權(quán)重來(lái)修改曲線(xiàn)值,從而生成最終的口型動(dòng)畫(huà)。此外,通過(guò)面部動(dòng)畫(huà)藍(lán)圖,可以混合情緒值,以實(shí)現(xiàn)更逼真的面部表情。
52、三、本發(fā)明在實(shí)時(shí)性和網(wǎng)絡(luò)延遲方面表現(xiàn)卓越,所需的動(dòng)畫(huà)序列資產(chǎn)僅約20個(gè),相較于傳統(tǒng)方案大大降低了資源消耗,提升了效率。
1.一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于包括:
2.根據(jù)權(quán)利要求1所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:
3.根據(jù)權(quán)利要求2所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:
4.根據(jù)權(quán)利要求3所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:所述音素時(shí)間占比計(jì)算單元如下:
5.根據(jù)權(quán)利要求4所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:
6.根據(jù)權(quán)利要求3所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:
7.根據(jù)權(quán)利要求2所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于: