欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號:40443629發(fā)布日期:2024-12-24 15:18閱讀:25來源:國知局
一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)與流程

本發(fā)明涉及人工智能,尤其涉及一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)。


背景技術(shù):

1、大規(guī)模的預(yù)訓(xùn)練語言模型,如“bert(全稱為bidirectional?encoderrepresentations?from?transformers,是一種來自transformer的雙向編碼器表示,是一種預(yù)訓(xùn)練語言表示模型)、roberta(全稱為arobustly?optimized?bertpretrainingapproach,一種經(jīng)過魯棒性優(yōu)化的bert預(yù)訓(xùn)練方法,是一種基于bert模型的改進版本)和albert(alite?ber,albert和albert都是基于bert架構(gòu)的預(yù)訓(xùn)練語言模型),能夠考慮上下文的前后信息,提高了自然語言處理研究和應(yīng)用任務(wù)的性能。

2、但這些預(yù)先訓(xùn)練的語言模型的成功僅限于英語,從社會、語言、文化、機器學(xué)習(xí)和認知的角度出發(fā),值得探索英語以外的音位表示的預(yù)訓(xùn)練模型。


技術(shù)實現(xiàn)思路

1、鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供可應(yīng)用于金融科技或其它相關(guān)領(lǐng)域的一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì),旨在現(xiàn)有語音模型僅限于英語的問題。

2、本發(fā)明的技術(shù)方案如下:

3、本發(fā)明提供一種多語種音素表示模型的構(gòu)建方法,其包括:

4、獲取多種語言的文本數(shù)據(jù),并對所述文本數(shù)據(jù)進行預(yù)處理;

5、根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素;

6、將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型。

7、在一個實施例中,所述獲取多種語言的文本數(shù)據(jù),并對所述文本數(shù)據(jù)進行預(yù)處理的步驟,包括:

8、從預(yù)訓(xùn)練語料庫中獲取多種語言的文本數(shù)據(jù);

9、將所有文本數(shù)據(jù)的詞語和句子轉(zhuǎn)換為純文本,并濾除單個詞語和重復(fù)句子,形成待處理文本;

10、對所述待處理文本進行詞語和句子分割。

11、在一個實施例中,所述從預(yù)訓(xùn)練語料庫中獲取多種語言的文本數(shù)據(jù)包括:

12、從hugging?face數(shù)據(jù)集庫中下載wiki40b數(shù)據(jù)集,并獲取屬于維基百科語言和地區(qū)的文本文檔;

13、使用wikipedia數(shù)據(jù)集補充其他語言的文本。

14、在一個實施例中,在對所述待處理文本進行詞語和句子分割之后,還包括:

15、獲取需要規(guī)范化處理的待處理文本;

16、使用文本轉(zhuǎn)語音工具將所述待處理文本從書面形式轉(zhuǎn)換為口頭形式。

17、在一個實施例中,所述根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素的步驟,包括:

18、根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),并為每種語言分配一份待轉(zhuǎn)換文本數(shù)據(jù);

19、通過多語言轉(zhuǎn)換模型將所述待轉(zhuǎn)換文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素;

20、識別所述音素是否在多語言轉(zhuǎn)換模型的發(fā)音詞典中;

21、當識別所述音素在多語言轉(zhuǎn)換模型的發(fā)音詞典中時,使用發(fā)音詞典生成所述文本數(shù)據(jù)的音素描述;當識別的音素不在多語言轉(zhuǎn)換模型的發(fā)音詞典中時,使用多語言轉(zhuǎn)換模型生成所述文本數(shù)據(jù)的音素描述。

22、在一個實施例中,所述將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型的步驟,包括:

23、對多語言轉(zhuǎn)換模型輸出的連續(xù)音素序列進行分割;

24、在分割后的音素序列中插入空格作為音素邊界指示符;

25、使用元符號標記詞語邊界,以區(qū)分不同詞語的音素。

26、在一個實施例中,所述將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型之后,還包括:

27、設(shè)置多語種音素表示模型的參數(shù),參數(shù)設(shè)置包括transformer塊的數(shù)量、隱藏大小和自關(guān)注頭的數(shù)量;

28、采用roberta預(yù)訓(xùn)練方法的動態(tài)掩蔽策略對多語種音素表示模型進行預(yù)訓(xùn)練,優(yōu)化所述多語種音素表示模型。

29、一種多語種音素表示模型的構(gòu)建裝置,包括:

30、預(yù)處理模塊,用于獲取多種語言的文本數(shù)據(jù),并對所述文本數(shù)據(jù)進行預(yù)處理;

31、音素轉(zhuǎn)換模塊,用于根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素;

32、音位處理模塊,用于將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型。

33、一種多語種音素表示模型的構(gòu)建設(shè)備,所述設(shè)備包括至少一個處理器;以及,

34、與所述至少一個處理器通信連接的存儲器;其中,

35、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述多語種音素表示模型的構(gòu)建方法。

36、一種非易失性計算機可讀存儲介質(zhì),所述非易失性計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,該計算機可執(zhí)行指令被一個或多個處理器執(zhí)行時,可使得所述一個或多個處理器執(zhí)行上述的多語種音素表示模型的構(gòu)建方法。

37、有益效果:本發(fā)明公開了一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì),相比于現(xiàn)有技術(shù),本發(fā)明通過對多個語言的數(shù)據(jù)數(shù)據(jù)進行預(yù)處理,并將預(yù)處理后的文本數(shù)據(jù)根據(jù)語言的種類隨機分成相應(yīng)的份數(shù),并將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素,之后再對音素分割、標記詞語邊界構(gòu)成多語種音素表示模型,該多語種音素表示模型可直接作為語音合成模型的輸入音素編碼器,實現(xiàn)了多語種文本至語音的音素表示,從而高強神經(jīng)tts模型在自然度和韻律方面的性能,也有利于在有限的訓(xùn)練數(shù)據(jù)下產(chǎn)生相當高質(zhì)量的語音。



技術(shù)特征:

1.一種多語種音素表示模型的構(gòu)建方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法,其特征在于,所述獲取多種語言的文本數(shù)據(jù),并對所述文本數(shù)據(jù)進行預(yù)處理的步驟,包括:

3.根據(jù)權(quán)利要求2所述的多語種音素表示模型的構(gòu)建方法,其特征在于,所述從預(yù)訓(xùn)練語料庫中獲取多種語言的文本數(shù)據(jù)包括:

4.根據(jù)權(quán)利要求2所述的多語種音素表示模型的構(gòu)建方法,其特征在于,在對所述待處理文本進行詞語和句子分割之后,還包括:

5.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法,其特征在于,所述根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素的步驟,包括:

6.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法,其特征在于,所述將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型的步驟,包括:

7.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法,其特征在于,所述將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型之后,還包括:

8.一種多語種音素表示模型的構(gòu)建裝置,其特征在于,包括:

9.一種多語種音素表示模型的構(gòu)建設(shè)備,其特征在于,所述設(shè)備包括至少一個處理器;以及,

10.一種非易失性計算機可讀存儲介質(zhì),其特征在于,所述非易失性計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,該計算機可執(zhí)行指令被一個或多個處理器執(zhí)行時,可使得所述一個或多個處理器執(zhí)行權(quán)利要求1-7任一項所述的多語種音素表示模型的構(gòu)建方法。


技術(shù)總結(jié)
本發(fā)明公開了一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì),其包括:獲取多種語言的文本數(shù)據(jù),并對所述文本數(shù)據(jù)進行預(yù)處理;之后根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素;再將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型,該多語種音素表示模型可直接作為語音合成模型的輸入音素編碼器,實現(xiàn)了多語種文本至語音的音素表示,從而高強神經(jīng)TTS模型在自然度和韻律方面的性能,也有利于在有限的訓(xùn)練數(shù)據(jù)下產(chǎn)生相當高質(zhì)量的語音。

技術(shù)研發(fā)人員:孫奧蘭,王健宗,程寧
受保護的技術(shù)使用者:平安科技(深圳)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
竹山县| 维西| 徐水县| 赤城县| 白城市| 南汇区| 阿合奇县| 安陆市| 麦盖提县| 新河县| 肇庆市| 裕民县| 承德县| 万山特区| 门头沟区| 金平| 电白县| 玛多县| 资兴市| 抚顺县| 广州市| 铁岭市| 江达县| 伊金霍洛旗| 宜城市| 运城市| 金门县| 乌鲁木齐市| 阳原县| 达拉特旗| 绍兴县| 永吉县| 沙坪坝区| 丁青县| 绥棱县| 西乡县| 锡林郭勒盟| 瑞安市| 天门市| 宁远县| 昂仁县|