一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)的制作方法

文檔序號(hào)：40549908發(fā)布日期：2025-01-03 11:09閱讀：12來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)的制作方法

本發(fā)明涉及計(jì)算機(jī)動(dòng)畫(huà)和語(yǔ)音合成領(lǐng)域，具體為一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)。

背景技術(shù)：

1、在現(xiàn)代多媒體技術(shù)中，文本到語(yǔ)音（tts）系統(tǒng)已經(jīng)廣泛應(yīng)用于各種場(chǎng)景，如虛擬助手、導(dǎo)航系統(tǒng)和教育軟件。然而，現(xiàn)有技術(shù)中，如何使文本到語(yǔ)音與動(dòng)畫(huà)中的口型同步仍然是一個(gè)挑戰(zhàn)。大多數(shù)現(xiàn)有的解決方案要么需要大量的手工調(diào)整，要么在同步精度上存在不足。因此，提出一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)具有重要意義。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)，通過(guò)兩個(gè)階段的處理實(shí)現(xiàn)文本到語(yǔ)音與口型動(dòng)畫(huà)的高精度同步。

2、為實(shí)現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)，包括以下步驟：

3、輸入文本：

4、在輸入欄中輸入需要轉(zhuǎn)化為語(yǔ)音口型的文字；

5、將文本轉(zhuǎn)換為語(yǔ)音：

6、然后計(jì)算機(jī)通過(guò)?tts?服務(wù)自動(dòng)將輸出的文本轉(zhuǎn)化為語(yǔ)音；

7、生成音素信息：

8、按標(biāo)點(diǎn)符號(hào)拆分語(yǔ)句為單句，每個(gè)單句單獨(dú)處理，并且使用音素分析工具將文本轉(zhuǎn)為對(duì)應(yīng)的音素；

9、使用差值算法計(jì)算各個(gè)時(shí)間點(diǎn)音素的權(quán)重：

10、根據(jù)語(yǔ)音時(shí)長(zhǎng)以及每個(gè)音素的時(shí)間占比計(jì)算每個(gè)音素影響的時(shí)間；

11、根據(jù)權(quán)重生成口型動(dòng)畫(huà)：

12、然后利用計(jì)算音素的權(quán)重來(lái)匹配數(shù)據(jù)庫(kù)內(nèi)所對(duì)應(yīng)的語(yǔ)音口型；

13、混合情緒值：

14、再利用差值過(guò)渡微調(diào)音素的權(quán)重，從而實(shí)現(xiàn)插入情緒值的目的；

15、播放語(yǔ)音和口型動(dòng)畫(huà)：

16、最后將口型連續(xù)起來(lái)形成完整的語(yǔ)音動(dòng)畫(huà)，并將語(yǔ)音動(dòng)畫(huà)對(duì)應(yīng)起來(lái)即可。

17、可選的，采用口型模塊、音素模塊、對(duì)應(yīng)模塊和匹配模塊；

18、所述口型模塊用于將發(fā)出48個(gè)音素所形成的20個(gè)口型儲(chǔ)存起來(lái)；

19、所述音素模塊用于將48個(gè)音素儲(chǔ)存起來(lái)；

20、所述對(duì)應(yīng)模塊用于將每個(gè)所述音素發(fā)聲所對(duì)應(yīng)的所述口型一一對(duì)應(yīng)起來(lái)；

21、所述匹配模塊用于匹配所述對(duì)應(yīng)模塊中的所述音素與所述口型的對(duì)應(yīng)匹配數(shù)據(jù)。

22、可選的，所述音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)中還包括有計(jì)算模塊；

23、所述計(jì)算模塊包括：

24、音素時(shí)間占比計(jì)算單元和差值過(guò)渡計(jì)算單元；

25、所述音素時(shí)間占比計(jì)算單元用于計(jì)算按標(biāo)點(diǎn)符號(hào)拆分語(yǔ)句的單句，每個(gè)單句單獨(dú)處理的因素權(quán)重?cái)?shù)據(jù)；

26、所述差值過(guò)渡計(jì)算單元用于混合情緒值時(shí)，微調(diào)音素的權(quán)重的計(jì)算。

27、可選的，所述音素時(shí)間占比計(jì)算單元如下：

28、

29、其中：

30、為第i個(gè)音素的權(quán)重；

31、t為語(yǔ)音的總時(shí)長(zhǎng)；

32、為第i個(gè)音素的時(shí)間占比；

33、n為總音素?cái)?shù)。

34、可選的，所述音素分為最高點(diǎn)、起始點(diǎn)和結(jié)束點(diǎn)：

35、每個(gè)音素的最高點(diǎn)時(shí)間，音素值為，根據(jù)其自身以及其后的音素分為4種情況：

36、元音-元音，元音-輔音，輔音-元音，輔音-輔音；

37、配置4種最高點(diǎn)的時(shí)間：

38、每個(gè)音素的起始點(diǎn)時(shí)間，當(dāng)音素值為0時(shí)，為上一個(gè)音素的最高點(diǎn)，如果是第一個(gè)音素，則為時(shí)間0；

39、每個(gè)音素的結(jié)束點(diǎn)時(shí)間，當(dāng)音素值為0時(shí)，為下一個(gè)音素的最高點(diǎn)，如果是最后一個(gè)音素，則為句末延遲0.5秒。

40、可選的，所述差值過(guò)渡計(jì)算單元如下：

41、

42、其中：

43、為每個(gè)音素的最高點(diǎn)時(shí)間，音素值為；

44、為每個(gè)音素的起始點(diǎn)時(shí)間，當(dāng)音素值為0時(shí)，為上一個(gè)音素的最高點(diǎn)；

45、為每個(gè)音素的結(jié)束點(diǎn)時(shí)間，當(dāng)音素值為0時(shí)，為下一個(gè)音素的最高點(diǎn)；

46、且當(dāng)t小于或大于時(shí)，音素大小為0。

47、可選的，所述匹配模塊中包括：

48、輸入單元和尋找單元，輸入的文本信息運(yùn)輸所述輸入單元中，然后所述輸入單元經(jīng)過(guò)識(shí)別再將信息傳入到所述尋找單元，所述尋找單元通過(guò)所述輸入單元中的數(shù)據(jù)依次與所述音素表內(nèi)的音素元件相對(duì)應(yīng)，直到尋找出與所述輸入單元中信息相匹配的音素。

49、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果如下：

50、一、本發(fā)明通過(guò)?tts?服務(wù)，首先將文本轉(zhuǎn)換為語(yǔ)音，并生成音素信息。隨后，根據(jù)語(yǔ)音的時(shí)長(zhǎng)，精確計(jì)算每個(gè)音素峰值的時(shí)間點(diǎn)。

51、二、本發(fā)明設(shè)計(jì)師將預(yù)先準(zhǔn)備每個(gè)音素對(duì)應(yīng)的口型姿態(tài)（pose）。為了實(shí)現(xiàn)自然的過(guò)渡效果，在兩個(gè)音素之間逐步減少上一個(gè)音素的權(quán)重，同時(shí)增加下一個(gè)音素的權(quán)重。每個(gè)音素對(duì)應(yīng)于虛幻引擎姿態(tài)資產(chǎn)（pose?asset）中的一條曲線(xiàn)，通過(guò)動(dòng)態(tài)調(diào)整音素權(quán)重來(lái)修改曲線(xiàn)值，從而生成最終的口型動(dòng)畫(huà)。此外，通過(guò)面部動(dòng)畫(huà)藍(lán)圖，可以混合情緒值，以實(shí)現(xiàn)更逼真的面部表情。

52、三、本發(fā)明在實(shí)時(shí)性和網(wǎng)絡(luò)延遲方面表現(xiàn)卓越，所需的動(dòng)畫(huà)序列資產(chǎn)僅約20個(gè)，相較于傳統(tǒng)方案大大降低了資源消耗，提升了效率。

技術(shù)特征：

1.一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)，其特征在于包括：

2.根據(jù)權(quán)利要求1所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)，其特征在于：

3.根據(jù)權(quán)利要求2所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)，其特征在于：

4.根據(jù)權(quán)利要求3所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)，其特征在于：所述音素時(shí)間占比計(jì)算單元如下：

5.根據(jù)權(quán)利要求4所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)，其特征在于：

6.根據(jù)權(quán)利要求3所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)，其特征在于：

7.根據(jù)權(quán)利要求2所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)，其特征在于：

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)，涉及計(jì)算機(jī)動(dòng)畫(huà)和語(yǔ)音合成領(lǐng)域，實(shí)現(xiàn)一種高效的文本到語(yǔ)音與口型同步技術(shù)，通過(guò)TTS服務(wù)，首先將文本轉(zhuǎn)換為語(yǔ)音，并生成音素信息，隨后根據(jù)語(yǔ)音的時(shí)長(zhǎng)，精確計(jì)算每個(gè)音素峰值的時(shí)間點(diǎn)，設(shè)計(jì)師將預(yù)先準(zhǔn)備每個(gè)音素對(duì)應(yīng)的口型姿態(tài)，在兩個(gè)音素之間逐步減少上一個(gè)音素的權(quán)重，同時(shí)增加下一個(gè)音素的權(quán)重，每個(gè)音素對(duì)應(yīng)于虛幻引擎姿態(tài)資產(chǎn)中的一條曲線(xiàn)，通過(guò)動(dòng)態(tài)調(diào)整音素權(quán)重來(lái)修改曲線(xiàn)值，從而生成最終的口型動(dòng)畫(huà)，此外通過(guò)面部動(dòng)畫(huà)藍(lán)圖，混合情緒值實(shí)現(xiàn)更逼真的面部表情，該方案在實(shí)時(shí)性和網(wǎng)絡(luò)延遲方面表現(xiàn)卓越，所需的動(dòng)畫(huà)序列資產(chǎn)僅20個(gè)，相較于傳統(tǒng)方案降低了資源消耗，提升了效率。

技術(shù)研發(fā)人員：師振華,趙同同,江彪
受保護(hù)的技術(shù)使用者：蘇州元繹互動(dòng)科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：師振華,趙同同,江彪
技術(shù)所有人：蘇州元繹互動(dòng)科技有限公司
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)的制作方法