一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號：40443629發(fā)布日期：2024-12-24 15:18閱讀：25來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)與流程

本發(fā)明涉及人工智能，尤其涉及一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、大規(guī)模的預(yù)訓(xùn)練語言模型，如“bert(全稱為bidirectional?encoderrepresentations?from?transformers，是一種來自transformer的雙向編碼器表示，是一種預(yù)訓(xùn)練語言表示模型)、roberta(全稱為arobustly?optimized?bertpretrainingapproach，一種經(jīng)過魯棒性優(yōu)化的bert預(yù)訓(xùn)練方法，是一種基于bert模型的改進版本)和albert(alite?ber，albert和albert都是基于bert架構(gòu)的預(yù)訓(xùn)練語言模型)，能夠考慮上下文的前后信息，提高了自然語言處理研究和應(yīng)用任務(wù)的性能。

2、但這些預(yù)先訓(xùn)練的語言模型的成功僅限于英語，從社會、語言、文化、機器學(xué)習(xí)和認知的角度出發(fā)，值得探索英語以外的音位表示的預(yù)訓(xùn)練模型。

技術(shù)實現(xiàn)思路

1、鑒于上述現(xiàn)有技術(shù)的不足，本發(fā)明的目的在于提供可應(yīng)用于金融科技或其它相關(guān)領(lǐng)域的一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)，旨在現(xiàn)有語音模型僅限于英語的問題。

2、本發(fā)明的技術(shù)方案如下：

3、本發(fā)明提供一種多語種音素表示模型的構(gòu)建方法，其包括：

4、獲取多種語言的文本數(shù)據(jù)，并對所述文本數(shù)據(jù)進行預(yù)處理；

5、根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù)，將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素；

6、將所述音素進行分割，形成用空格分隔的音素序列，并標記文本數(shù)據(jù)中的詞語邊界，生成多語種音素表示模型。

7、在一個實施例中，所述獲取多種語言的文本數(shù)據(jù)，并對所述文本數(shù)據(jù)進行預(yù)處理的步驟，包括：

8、從預(yù)訓(xùn)練語料庫中獲取多種語言的文本數(shù)據(jù)；

9、將所有文本數(shù)據(jù)的詞語和句子轉(zhuǎn)換為純文本，并濾除單個詞語和重復(fù)句子，形成待處理文本；

10、對所述待處理文本進行詞語和句子分割。

11、在一個實施例中，所述從預(yù)訓(xùn)練語料庫中獲取多種語言的文本數(shù)據(jù)包括：

12、從hugging?face數(shù)據(jù)集庫中下載wiki40b數(shù)據(jù)集，并獲取屬于維基百科語言和地區(qū)的文本文檔；

13、使用wikipedia數(shù)據(jù)集補充其他語言的文本。

14、在一個實施例中，在對所述待處理文本進行詞語和句子分割之后，還包括：

15、獲取需要規(guī)范化處理的待處理文本；

16、使用文本轉(zhuǎn)語音工具將所述待處理文本從書面形式轉(zhuǎn)換為口頭形式。

17、在一個實施例中，所述根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù)，將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素的步驟，包括：

18、根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù)，并為每種語言分配一份待轉(zhuǎn)換文本數(shù)據(jù)；

19、通過多語言轉(zhuǎn)換模型將所述待轉(zhuǎn)換文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素；

20、識別所述音素是否在多語言轉(zhuǎn)換模型的發(fā)音詞典中；

21、當識別所述音素在多語言轉(zhuǎn)換模型的發(fā)音詞典中時，使用發(fā)音詞典生成所述文本數(shù)據(jù)的音素描述；當識別的音素不在多語言轉(zhuǎn)換模型的發(fā)音詞典中時，使用多語言轉(zhuǎn)換模型生成所述文本數(shù)據(jù)的音素描述。

22、在一個實施例中，所述將所述音素進行分割，形成用空格分隔的音素序列，并標記文本數(shù)據(jù)中的詞語邊界，生成多語種音素表示模型的步驟，包括：

23、對多語言轉(zhuǎn)換模型輸出的連續(xù)音素序列進行分割；

24、在分割后的音素序列中插入空格作為音素邊界指示符；

25、使用元符號標記詞語邊界，以區(qū)分不同詞語的音素。

26、在一個實施例中，所述將所述音素進行分割，形成用空格分隔的音素序列，并標記文本數(shù)據(jù)中的詞語邊界，生成多語種音素表示模型之后，還包括：

27、設(shè)置多語種音素表示模型的參數(shù)，參數(shù)設(shè)置包括transformer塊的數(shù)量、隱藏大小和自關(guān)注頭的數(shù)量；

28、采用roberta預(yù)訓(xùn)練方法的動態(tài)掩蔽策略對多語種音素表示模型進行預(yù)訓(xùn)練，優(yōu)化所述多語種音素表示模型。

29、一種多語種音素表示模型的構(gòu)建裝置，包括：

30、預(yù)處理模塊，用于獲取多種語言的文本數(shù)據(jù)，并對所述文本數(shù)據(jù)進行預(yù)處理；

31、音素轉(zhuǎn)換模塊，用于根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù)，將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素；

32、音位處理模塊，用于將所述音素進行分割，形成用空格分隔的音素序列，并標記文本數(shù)據(jù)中的詞語邊界，生成多語種音素表示模型。

33、一種多語種音素表示模型的構(gòu)建設(shè)備，所述設(shè)備包括至少一個處理器；以及，

34、與所述至少一個處理器通信連接的存儲器；其中，

35、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行上述多語種音素表示模型的構(gòu)建方法。

36、一種非易失性計算機可讀存儲介質(zhì)，所述非易失性計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令，該計算機可執(zhí)行指令被一個或多個處理器執(zhí)行時，可使得所述一個或多個處理器執(zhí)行上述的多語種音素表示模型的構(gòu)建方法。

37、有益效果：本發(fā)明公開了一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)，相比于現(xiàn)有技術(shù)，本發(fā)明通過對多個語言的數(shù)據(jù)數(shù)據(jù)進行預(yù)處理，并將預(yù)處理后的文本數(shù)據(jù)根據(jù)語言的種類隨機分成相應(yīng)的份數(shù)，并將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素，之后再對音素分割、標記詞語邊界構(gòu)成多語種音素表示模型，該多語種音素表示模型可直接作為語音合成模型的輸入音素編碼器，實現(xiàn)了多語種文本至語音的音素表示，從而高強神經(jīng)tts模型在自然度和韻律方面的性能，也有利于在有限的訓(xùn)練數(shù)據(jù)下產(chǎn)生相當高質(zhì)量的語音。

技術(shù)特征：

1.一種多語種音素表示模型的構(gòu)建方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法，其特征在于，所述獲取多種語言的文本數(shù)據(jù)，并對所述文本數(shù)據(jù)進行預(yù)處理的步驟，包括：

3.根據(jù)權(quán)利要求2所述的多語種音素表示模型的構(gòu)建方法，其特征在于，所述從預(yù)訓(xùn)練語料庫中獲取多種語言的文本數(shù)據(jù)包括：

4.根據(jù)權(quán)利要求2所述的多語種音素表示模型的構(gòu)建方法，其特征在于，在對所述待處理文本進行詞語和句子分割之后，還包括：

5.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法，其特征在于，所述根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù)，將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素的步驟，包括：

6.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法，其特征在于，所述將所述音素進行分割，形成用空格分隔的音素序列，并標記文本數(shù)據(jù)中的詞語邊界，生成多語種音素表示模型的步驟，包括：

7.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法，其特征在于，所述將所述音素進行分割，形成用空格分隔的音素序列，并標記文本數(shù)據(jù)中的詞語邊界，生成多語種音素表示模型之后，還包括：

8.一種多語種音素表示模型的構(gòu)建裝置，其特征在于，包括：

9.一種多語種音素表示模型的構(gòu)建設(shè)備，其特征在于，所述設(shè)備包括至少一個處理器；以及，

10.一種非易失性計算機可讀存儲介質(zhì)，其特征在于，所述非易失性計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令，該計算機可執(zhí)行指令被一個或多個處理器執(zhí)行時，可使得所述一個或多個處理器執(zhí)行權(quán)利要求1-7任一項所述的多語種音素表示模型的構(gòu)建方法。

技術(shù)總結(jié)
本發(fā)明公開了一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)，其包括：獲取多種語言的文本數(shù)據(jù)，并對所述文本數(shù)據(jù)進行預(yù)處理；之后根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù)，將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素；再將所述音素進行分割，形成用空格分隔的音素序列，并標記文本數(shù)據(jù)中的詞語邊界，生成多語種音素表示模型，該多語種音素表示模型可直接作為語音合成模型的輸入音素編碼器，實現(xiàn)了多語種文本至語音的音素表示，從而高強神經(jīng)TTS模型在自然度和韻律方面的性能，也有利于在有限的訓(xùn)練數(shù)據(jù)下產(chǎn)生相當高質(zhì)量的語音。

技術(shù)研發(fā)人員：孫奧蘭,王健宗,程寧
受保護的技術(shù)使用者：平安科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫奧蘭,王健宗,程寧
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：下圓片切割廢渣吸料機構(gòu)的制作方法
上一篇：一種便于進料的礦山破碎機用進料斗的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)與流程

一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)與流程