本發(fā)明涉及人工智能,尤其涉及一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、大規(guī)模的預(yù)訓(xùn)練語言模型,如“bert(全稱為bidirectional?encoderrepresentations?from?transformers,是一種來自transformer的雙向編碼器表示,是一種預(yù)訓(xùn)練語言表示模型)、roberta(全稱為arobustly?optimized?bertpretrainingapproach,一種經(jīng)過魯棒性優(yōu)化的bert預(yù)訓(xùn)練方法,是一種基于bert模型的改進版本)和albert(alite?ber,albert和albert都是基于bert架構(gòu)的預(yù)訓(xùn)練語言模型),能夠考慮上下文的前后信息,提高了自然語言處理研究和應(yīng)用任務(wù)的性能。
2、但這些預(yù)先訓(xùn)練的語言模型的成功僅限于英語,從社會、語言、文化、機器學(xué)習(xí)和認知的角度出發(fā),值得探索英語以外的音位表示的預(yù)訓(xùn)練模型。
技術(shù)實現(xiàn)思路
1、鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供可應(yīng)用于金融科技或其它相關(guān)領(lǐng)域的一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì),旨在現(xiàn)有語音模型僅限于英語的問題。
2、本發(fā)明的技術(shù)方案如下:
3、本發(fā)明提供一種多語種音素表示模型的構(gòu)建方法,其包括:
4、獲取多種語言的文本數(shù)據(jù),并對所述文本數(shù)據(jù)進行預(yù)處理;
5、根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素;
6、將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型。
7、在一個實施例中,所述獲取多種語言的文本數(shù)據(jù),并對所述文本數(shù)據(jù)進行預(yù)處理的步驟,包括:
8、從預(yù)訓(xùn)練語料庫中獲取多種語言的文本數(shù)據(jù);
9、將所有文本數(shù)據(jù)的詞語和句子轉(zhuǎn)換為純文本,并濾除單個詞語和重復(fù)句子,形成待處理文本;
10、對所述待處理文本進行詞語和句子分割。
11、在一個實施例中,所述從預(yù)訓(xùn)練語料庫中獲取多種語言的文本數(shù)據(jù)包括:
12、從hugging?face數(shù)據(jù)集庫中下載wiki40b數(shù)據(jù)集,并獲取屬于維基百科語言和地區(qū)的文本文檔;
13、使用wikipedia數(shù)據(jù)集補充其他語言的文本。
14、在一個實施例中,在對所述待處理文本進行詞語和句子分割之后,還包括:
15、獲取需要規(guī)范化處理的待處理文本;
16、使用文本轉(zhuǎn)語音工具將所述待處理文本從書面形式轉(zhuǎn)換為口頭形式。
17、在一個實施例中,所述根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素的步驟,包括:
18、根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),并為每種語言分配一份待轉(zhuǎn)換文本數(shù)據(jù);
19、通過多語言轉(zhuǎn)換模型將所述待轉(zhuǎn)換文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素;
20、識別所述音素是否在多語言轉(zhuǎn)換模型的發(fā)音詞典中;
21、當識別所述音素在多語言轉(zhuǎn)換模型的發(fā)音詞典中時,使用發(fā)音詞典生成所述文本數(shù)據(jù)的音素描述;當識別的音素不在多語言轉(zhuǎn)換模型的發(fā)音詞典中時,使用多語言轉(zhuǎn)換模型生成所述文本數(shù)據(jù)的音素描述。
22、在一個實施例中,所述將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型的步驟,包括:
23、對多語言轉(zhuǎn)換模型輸出的連續(xù)音素序列進行分割;
24、在分割后的音素序列中插入空格作為音素邊界指示符;
25、使用元符號標記詞語邊界,以區(qū)分不同詞語的音素。
26、在一個實施例中,所述將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型之后,還包括:
27、設(shè)置多語種音素表示模型的參數(shù),參數(shù)設(shè)置包括transformer塊的數(shù)量、隱藏大小和自關(guān)注頭的數(shù)量;
28、采用roberta預(yù)訓(xùn)練方法的動態(tài)掩蔽策略對多語種音素表示模型進行預(yù)訓(xùn)練,優(yōu)化所述多語種音素表示模型。
29、一種多語種音素表示模型的構(gòu)建裝置,包括:
30、預(yù)處理模塊,用于獲取多種語言的文本數(shù)據(jù),并對所述文本數(shù)據(jù)進行預(yù)處理;
31、音素轉(zhuǎn)換模塊,用于根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素;
32、音位處理模塊,用于將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型。
33、一種多語種音素表示模型的構(gòu)建設(shè)備,所述設(shè)備包括至少一個處理器;以及,
34、與所述至少一個處理器通信連接的存儲器;其中,
35、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述多語種音素表示模型的構(gòu)建方法。
36、一種非易失性計算機可讀存儲介質(zhì),所述非易失性計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,該計算機可執(zhí)行指令被一個或多個處理器執(zhí)行時,可使得所述一個或多個處理器執(zhí)行上述的多語種音素表示模型的構(gòu)建方法。
37、有益效果:本發(fā)明公開了一種多語種音素表示模型的構(gòu)建方法、裝置、設(shè)備及介質(zhì),相比于現(xiàn)有技術(shù),本發(fā)明通過對多個語言的數(shù)據(jù)數(shù)據(jù)進行預(yù)處理,并將預(yù)處理后的文本數(shù)據(jù)根據(jù)語言的種類隨機分成相應(yīng)的份數(shù),并將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素,之后再對音素分割、標記詞語邊界構(gòu)成多語種音素表示模型,該多語種音素表示模型可直接作為語音合成模型的輸入音素編碼器,實現(xiàn)了多語種文本至語音的音素表示,從而高強神經(jīng)tts模型在自然度和韻律方面的性能,也有利于在有限的訓(xùn)練數(shù)據(jù)下產(chǎn)生相當高質(zhì)量的語音。
1.一種多語種音素表示模型的構(gòu)建方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法,其特征在于,所述獲取多種語言的文本數(shù)據(jù),并對所述文本數(shù)據(jù)進行預(yù)處理的步驟,包括:
3.根據(jù)權(quán)利要求2所述的多語種音素表示模型的構(gòu)建方法,其特征在于,所述從預(yù)訓(xùn)練語料庫中獲取多種語言的文本數(shù)據(jù)包括:
4.根據(jù)權(quán)利要求2所述的多語種音素表示模型的構(gòu)建方法,其特征在于,在對所述待處理文本進行詞語和句子分割之后,還包括:
5.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法,其特征在于,所述根據(jù)語言環(huán)境類型將預(yù)處理后的文本數(shù)據(jù)隨機分成相應(yīng)的份數(shù),將各份文本數(shù)據(jù)轉(zhuǎn)換為相應(yīng)語言環(huán)境的音素的步驟,包括:
6.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法,其特征在于,所述將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型的步驟,包括:
7.根據(jù)權(quán)利要求1所述的多語種音素表示模型的構(gòu)建方法,其特征在于,所述將所述音素進行分割,形成用空格分隔的音素序列,并標記文本數(shù)據(jù)中的詞語邊界,生成多語種音素表示模型之后,還包括:
8.一種多語種音素表示模型的構(gòu)建裝置,其特征在于,包括:
9.一種多語種音素表示模型的構(gòu)建設(shè)備,其特征在于,所述設(shè)備包括至少一個處理器;以及,
10.一種非易失性計算機可讀存儲介質(zhì),其特征在于,所述非易失性計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,該計算機可執(zhí)行指令被一個或多個處理器執(zhí)行時,可使得所述一個或多個處理器執(zhí)行權(quán)利要求1-7任一項所述的多語種音素表示模型的構(gòu)建方法。