欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)的制作方法

文檔序號(hào):40549908發(fā)布日期:2025-01-03 11:09閱讀:12來(lái)源:國(guó)知局
一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)的制作方法

本發(fā)明涉及計(jì)算機(jī)動(dòng)畫(huà)和語(yǔ)音合成領(lǐng)域,具體為一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)。


背景技術(shù):

1、在現(xiàn)代多媒體技術(shù)中,文本到語(yǔ)音(tts)系統(tǒng)已經(jīng)廣泛應(yīng)用于各種場(chǎng)景,如虛擬助手、導(dǎo)航系統(tǒng)和教育軟件。然而,現(xiàn)有技術(shù)中,如何使文本到語(yǔ)音與動(dòng)畫(huà)中的口型同步仍然是一個(gè)挑戰(zhàn)。大多數(shù)現(xiàn)有的解決方案要么需要大量的手工調(diào)整,要么在同步精度上存在不足。因此,提出一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)具有重要意義。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),通過(guò)兩個(gè)階段的處理實(shí)現(xiàn)文本到語(yǔ)音與口型動(dòng)畫(huà)的高精度同步。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),包括以下步驟:

3、輸入文本:

4、在輸入欄中輸入需要轉(zhuǎn)化為語(yǔ)音口型的文字;

5、將文本轉(zhuǎn)換為語(yǔ)音:

6、然后計(jì)算機(jī)通過(guò)?tts?服務(wù)自動(dòng)將輸出的文本轉(zhuǎn)化為語(yǔ)音;

7、生成音素信息:

8、按標(biāo)點(diǎn)符號(hào)拆分語(yǔ)句為單句,每個(gè)單句單獨(dú)處理,并且使用音素分析工具將文本轉(zhuǎn)為對(duì)應(yīng)的音素;

9、使用差值算法計(jì)算各個(gè)時(shí)間點(diǎn)音素的權(quán)重:

10、根據(jù)語(yǔ)音時(shí)長(zhǎng)以及每個(gè)音素的時(shí)間占比計(jì)算每個(gè)音素影響的時(shí)間;

11、根據(jù)權(quán)重生成口型動(dòng)畫(huà):

12、然后利用計(jì)算音素的權(quán)重來(lái)匹配數(shù)據(jù)庫(kù)內(nèi)所對(duì)應(yīng)的語(yǔ)音口型;

13、混合情緒值:

14、再利用差值過(guò)渡微調(diào)音素的權(quán)重,從而實(shí)現(xiàn)插入情緒值的目的;

15、播放語(yǔ)音和口型動(dòng)畫(huà):

16、最后將口型連續(xù)起來(lái)形成完整的語(yǔ)音動(dòng)畫(huà),并將語(yǔ)音動(dòng)畫(huà)對(duì)應(yīng)起來(lái)即可。

17、可選的,采用口型模塊、音素模塊、對(duì)應(yīng)模塊和匹配模塊;

18、所述口型模塊用于將發(fā)出48個(gè)音素所形成的20個(gè)口型儲(chǔ)存起來(lái);

19、所述音素模塊用于將48個(gè)音素儲(chǔ)存起來(lái);

20、所述對(duì)應(yīng)模塊用于將每個(gè)所述音素發(fā)聲所對(duì)應(yīng)的所述口型一一對(duì)應(yīng)起來(lái);

21、所述匹配模塊用于匹配所述對(duì)應(yīng)模塊中的所述音素與所述口型的對(duì)應(yīng)匹配數(shù)據(jù)。

22、可選的,所述音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng)中還包括有計(jì)算模塊;

23、所述計(jì)算模塊包括:

24、音素時(shí)間占比計(jì)算單元和差值過(guò)渡計(jì)算單元;

25、所述音素時(shí)間占比計(jì)算單元用于計(jì)算按標(biāo)點(diǎn)符號(hào)拆分語(yǔ)句的單句,每個(gè)單句單獨(dú)處理的因素權(quán)重?cái)?shù)據(jù);

26、所述差值過(guò)渡計(jì)算單元用于混合情緒值時(shí),微調(diào)音素的權(quán)重的計(jì)算。

27、可選的,所述音素時(shí)間占比計(jì)算單元如下:

28、

29、其中:

30、為第i個(gè)音素的權(quán)重;

31、t為語(yǔ)音的總時(shí)長(zhǎng);

32、為第i個(gè)音素的時(shí)間占比;

33、n為總音素?cái)?shù)。

34、可選的,所述音素分為最高點(diǎn)、起始點(diǎn)和結(jié)束點(diǎn):

35、每個(gè)音素的最高點(diǎn)時(shí)間,音素值為,根據(jù)其自身以及其后的音素分為4種情況:

36、元音-元音,元音-輔音,輔音-元音,輔音-輔音;

37、配置4種最高點(diǎn)的時(shí)間:

38、每個(gè)音素的起始點(diǎn)時(shí)間,當(dāng)音素值為0時(shí),為上一個(gè)音素的最高點(diǎn),如果是第一個(gè)音素,則為時(shí)間0;

39、每個(gè)音素的結(jié)束點(diǎn)時(shí)間,當(dāng)音素值為0時(shí),為下一個(gè)音素的最高點(diǎn),如果是最后一個(gè)音素,則為句末延遲0.5秒。

40、可選的,所述差值過(guò)渡計(jì)算單元如下:

41、

42、其中:

43、為每個(gè)音素的最高點(diǎn)時(shí)間,音素值為;

44、為每個(gè)音素的起始點(diǎn)時(shí)間,當(dāng)音素值為0時(shí),為上一個(gè)音素的最高點(diǎn);

45、為每個(gè)音素的結(jié)束點(diǎn)時(shí)間,當(dāng)音素值為0時(shí),為下一個(gè)音素的最高點(diǎn);

46、且當(dāng)t小于或大于時(shí),音素大小為0。

47、可選的,所述匹配模塊中包括:

48、輸入單元和尋找單元,輸入的文本信息運(yùn)輸所述輸入單元中,然后所述輸入單元經(jīng)過(guò)識(shí)別再將信息傳入到所述尋找單元,所述尋找單元通過(guò)所述輸入單元中的數(shù)據(jù)依次與所述音素表內(nèi)的音素元件相對(duì)應(yīng),直到尋找出與所述輸入單元中信息相匹配的音素。

49、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:

50、一、本發(fā)明通過(guò)?tts?服務(wù),首先將文本轉(zhuǎn)換為語(yǔ)音,并生成音素信息。隨后,根據(jù)語(yǔ)音的時(shí)長(zhǎng),精確計(jì)算每個(gè)音素峰值的時(shí)間點(diǎn)。

51、二、本發(fā)明設(shè)計(jì)師將預(yù)先準(zhǔn)備每個(gè)音素對(duì)應(yīng)的口型姿態(tài)(pose)。為了實(shí)現(xiàn)自然的過(guò)渡效果,在兩個(gè)音素之間逐步減少上一個(gè)音素的權(quán)重,同時(shí)增加下一個(gè)音素的權(quán)重。每個(gè)音素對(duì)應(yīng)于虛幻引擎姿態(tài)資產(chǎn)(pose?asset)中的一條曲線(xiàn),通過(guò)動(dòng)態(tài)調(diào)整音素權(quán)重來(lái)修改曲線(xiàn)值,從而生成最終的口型動(dòng)畫(huà)。此外,通過(guò)面部動(dòng)畫(huà)藍(lán)圖,可以混合情緒值,以實(shí)現(xiàn)更逼真的面部表情。

52、三、本發(fā)明在實(shí)時(shí)性和網(wǎng)絡(luò)延遲方面表現(xiàn)卓越,所需的動(dòng)畫(huà)序列資產(chǎn)僅約20個(gè),相較于傳統(tǒng)方案大大降低了資源消耗,提升了效率。



技術(shù)特征:

1.一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于包括:

2.根據(jù)權(quán)利要求1所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:

3.根據(jù)權(quán)利要求2所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:

4.根據(jù)權(quán)利要求3所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:所述音素時(shí)間占比計(jì)算單元如下:

5.根據(jù)權(quán)利要求4所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:

6.根據(jù)權(quán)利要求3所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:

7.根據(jù)權(quán)利要求2所述的一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),其特征在于:


技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于音素和面部姿態(tài)混合的語(yǔ)音口型同步系統(tǒng),涉及計(jì)算機(jī)動(dòng)畫(huà)和語(yǔ)音合成領(lǐng)域,實(shí)現(xiàn)一種高效的文本到語(yǔ)音與口型同步技術(shù),通過(guò)TTS服務(wù),首先將文本轉(zhuǎn)換為語(yǔ)音,并生成音素信息,隨后根據(jù)語(yǔ)音的時(shí)長(zhǎng),精確計(jì)算每個(gè)音素峰值的時(shí)間點(diǎn),設(shè)計(jì)師將預(yù)先準(zhǔn)備每個(gè)音素對(duì)應(yīng)的口型姿態(tài),在兩個(gè)音素之間逐步減少上一個(gè)音素的權(quán)重,同時(shí)增加下一個(gè)音素的權(quán)重,每個(gè)音素對(duì)應(yīng)于虛幻引擎姿態(tài)資產(chǎn)中的一條曲線(xiàn),通過(guò)動(dòng)態(tài)調(diào)整音素權(quán)重來(lái)修改曲線(xiàn)值,從而生成最終的口型動(dòng)畫(huà),此外通過(guò)面部動(dòng)畫(huà)藍(lán)圖,混合情緒值實(shí)現(xiàn)更逼真的面部表情,該方案在實(shí)時(shí)性和網(wǎng)絡(luò)延遲方面表現(xiàn)卓越,所需的動(dòng)畫(huà)序列資產(chǎn)僅20個(gè),相較于傳統(tǒng)方案降低了資源消耗,提升了效率。

技術(shù)研發(fā)人員:師振華,趙同同,江彪
受保護(hù)的技術(shù)使用者:蘇州元繹互動(dòng)科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
防城港市| 永宁县| 翁牛特旗| 平原县| 任丘市| 常州市| 宁化县| 界首市| 宁国市| 兴安盟| 霍林郭勒市| 二连浩特市| 兴国县| 太原市| 邢台县| 邢台市| 原阳县| 梨树县| 高陵县| 郯城县| 崇左市| 巴林左旗| 公安县| 钦州市| 容城县| 高台县| 绥棱县| 兴安盟| 师宗县| 武胜县| 原阳县| 兰州市| 大方县| 来宾市| 原平市| 阿拉尔市| 永靖县| 冀州市| 灵武市| 聂荣县| 沁阳市|