本申請涉及人工智能,尤其涉及基于人工智能的跨語言語音生成方法、及其相關(guān)設(shè)備。
背景技術(shù):
1、在人工智能技術(shù)的迅猛發(fā)展中,語音合成作為其核心領(lǐng)域之一,展現(xiàn)出了巨大的應(yīng)用潛力。語音合成旨在通過計算機(jī)生成接近人類自然語音的音頻,這一能力對于人機(jī)交互、虛擬角色創(chuàng)建、多語言翻譯輔助等多個領(lǐng)域具有重大意義。然而,盡管語音合成技術(shù)已取得顯著進(jìn)展,但是,跨語言語音合成領(lǐng)域,仍面臨諸多技術(shù)挑戰(zhàn)與難題。
2、跨語言語音合成系統(tǒng)需解決的問題是如何在不同語言間有效保留說話人的身份特征和情感風(fēng)格的表達(dá)。身份特征,包括音色、語調(diào)模式及發(fā)音習(xí)慣等,是區(qū)分不同說話人的關(guān)鍵要素。在單語言環(huán)境下,這些特征相對容易捕捉與再現(xiàn),但在跨語言場景下,語言結(jié)構(gòu)、發(fā)音規(guī)則及韻律特征存在顯著差異,目前合成的語音存在表達(dá)不自然,具有機(jī)械感的問題。
技術(shù)實現(xiàn)思路
1、本申請實施例的目的在于提出一種基于人工智能的跨語言語音生成方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì),以解決合成的跨語言的語音存在表達(dá)不自然,具有機(jī)械感的問題。
2、為了解決上述技術(shù)問題,本申請實施例提供一種基于人工智能的跨語言語音生成方法,采用了如下所述的技術(shù)方案:
3、接收跨語言文本信息和語言信息,將所述跨語言文本信息和語言信息輸入至預(yù)設(shè)的文本編碼模型中,得到輸出的語義特征;
4、接收目標(biāo)用戶的音頻信息,將所述音頻信息分別輸入至預(yù)設(shè)的情緒捕捉模型和音色提取模型,分別得到情緒特征和音色特征,并根據(jù)所述情緒特征和所述音色特征生成情感特征;
5、將所述語義特征輸入至預(yù)訓(xùn)練的發(fā)音時長預(yù)測模型,得到輸出的各個發(fā)音單元的時長,并通過所述發(fā)音單元的時長標(biāo)記對應(yīng)的所述語義特征,得到標(biāo)記特征;
6、將所述標(biāo)記特征輸入至預(yù)設(shè)的流模型中,獲得輸出的語音數(shù)據(jù)特征;
7、將所述語音數(shù)據(jù)特征和所述情感特征輸入至預(yù)設(shè)的音頻解碼模型中,得到輸出的語音信號。
8、進(jìn)一步的,所述流模型包括多層神經(jīng)網(wǎng)絡(luò),所述將所述標(biāo)記特征輸入至預(yù)設(shè)的流模型中,獲得輸出的語音數(shù)據(jù)特征的步驟包括:
9、將所述標(biāo)記特征輸入至所述流模型中,并將所述情感特征分別輸入至所述流模型的每一層神經(jīng)網(wǎng)絡(luò)中,得到輸出的所述語音數(shù)據(jù)特征。
10、進(jìn)一步的,在所述將所述語義特征輸入至預(yù)訓(xùn)練的發(fā)音時長預(yù)測模型,獲得標(biāo)記特征的步驟之前,還包括:
11、接收文本語音對,通過單調(diào)對齊搜索算法確定所述文本語音對中每個發(fā)音單元的發(fā)音幀數(shù);
12、通過所述發(fā)音幀數(shù)標(biāo)記所述文本語音對中的文本,得到訓(xùn)練數(shù)據(jù);
13、基于所述訓(xùn)練數(shù)據(jù)對預(yù)設(shè)的初始發(fā)音時長預(yù)測模型進(jìn)行訓(xùn)練和調(diào)整,得到所述發(fā)音時長預(yù)測模型。
14、進(jìn)一步的,在所述將所述標(biāo)記特征輸入至預(yù)設(shè)的流模型中,獲得輸出的語音數(shù)據(jù)特征的步驟之前,還包括:
15、接收語音線性譜,基于所述語音線性譜生成語音數(shù)據(jù)編碼特征;
16、將所述語音數(shù)據(jù)編碼特征輸入至預(yù)設(shè)的初始流模型中,得到輸出的轉(zhuǎn)換特征;
17、計算所述轉(zhuǎn)換特征與所述語義特征之間的庫爾巴克-萊布勒散度;
18、基于所述庫爾巴克-萊布勒散度調(diào)整所述初始流模型,得到所述流模型。
19、進(jìn)一步的,所述基于所述語音線性譜生成語音數(shù)據(jù)編碼特征的步驟包括:
20、將所述語音線性譜輸入至預(yù)設(shè)的后驗編碼器中,得到輸出的所述語音數(shù)據(jù)編碼特征。
21、進(jìn)一步的,所述根據(jù)所述情緒特征和所述音色特征生成情感特征的步驟包括:
22、將所述情緒特征和所述音色特征對應(yīng)維度的數(shù)據(jù)相加,得到所述情感特征。
23、進(jìn)一步的,所述根據(jù)所述情緒特征和所述音色特征生成情感特征的步驟包括:
24、拼接所述情緒特征和所述音色特征,得到所述情感特征。
25、為了解決上述技術(shù)問題,本申請實施例還提供一種基于人工智能的跨語言語音生成裝置,采用了如下所述的技術(shù)方案:
26、一種基于人工智能的跨語言語音生成裝置,包括:
27、接收模塊,用于接收跨語言文本信息和語言信息,將所述跨語言文本信息和語言信息輸入至預(yù)設(shè)的文本編碼模型中,得到輸出的語義特征;
28、生成模塊,用于接收目標(biāo)用戶的音頻信息,將所述音頻信息分別輸入至預(yù)設(shè)的情緒捕捉模型和音色提取模型,分別得到情緒特征和音色特征,并根據(jù)所述情緒特征和所述音色特征生成情感特征;
29、標(biāo)記模塊,用于將所述語義特征輸入至預(yù)訓(xùn)練的發(fā)音時長預(yù)測模型,得到輸出的各個發(fā)音單元的時長,并通過所述發(fā)音單元的時長標(biāo)記對應(yīng)的所述語義特征,得到標(biāo)記特征;
30、第一輸入模塊,用于將所述標(biāo)記特征輸入至預(yù)設(shè)的流模型中,獲得輸出的語音數(shù)據(jù)特征;
31、第二輸入模塊,用于將所述語音數(shù)據(jù)特征和所述情感特征輸入至預(yù)設(shè)的音頻解碼模型中,得到輸出的語音信號。
32、為了解決上述技術(shù)問題,本申請實施例還提供一種計算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:
33、一種計算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計算機(jī)可讀指令,所述處理器執(zhí)行所述計算機(jī)可讀指令時實現(xiàn)上述的基于人工智能的跨語言語音生成方法的步驟。
34、為了解決上述技術(shù)問題,本申請實施例還提供一種計算機(jī)可讀存儲介質(zhì),采用了如下所述的技術(shù)方案:
35、一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)可讀指令,所述計算機(jī)可讀指令被處理器執(zhí)行時實現(xiàn)上述的基于人工智能的跨語言語音生成方法的步驟。
36、與現(xiàn)有技術(shù)相比,本申請實施例主要有以下有益效果:
37、本申請通過將語言信息也輸入至文本編碼模型中,提高了輸出的語義特征的準(zhǔn)確性。分別使用情緒捕捉模型和音色提取模型提取說話人的情緒特征和音色特征,生成情感特征。通過預(yù)測出各個發(fā)音單元的時長,并標(biāo)記對應(yīng)的所述語義特征,以保證生成的語音中各發(fā)音單元的發(fā)音長度適宜,語音不生硬。通過訓(xùn)練后的流模型將標(biāo)記特征轉(zhuǎn)化為語音數(shù)據(jù)特征,實現(xiàn)文本至語音的第一步轉(zhuǎn)換,將語音數(shù)據(jù)特征和情感特征輸入至預(yù)設(shè)的音頻解碼模型中,得到輸出的語音信號,實現(xiàn)文本至語音的第二步轉(zhuǎn)換,情感特征中融合有說話人的情緒特征和音色特征,能夠保證即使處理跨語言文本,生成的跨語言的語音數(shù)據(jù)也能夠表達(dá)自然,貼近說話人的真實語音。
1.一種基于人工智能的跨語言語音生成方法,其特征在于,包括下述步驟:
2.根據(jù)權(quán)利要求1所述的基于人工智能的跨語言語音生成方法,其特征在于,所述流模型包括多層神經(jīng)網(wǎng)絡(luò),所述將所述標(biāo)記特征輸入至預(yù)設(shè)的流模型中,獲得輸出的語音數(shù)據(jù)特征的步驟包括:
3.根據(jù)權(quán)利要求1所述的基于人工智能的跨語言語音生成方法,其特征在于,在所述將所述語義特征輸入至預(yù)訓(xùn)練的發(fā)音時長預(yù)測模型,獲得標(biāo)記特征的步驟之前,還包括:
4.根據(jù)權(quán)利要求1所述的基于人工智能的跨語言語音生成方法,其特征在于,在所述將所述標(biāo)記特征輸入至預(yù)設(shè)的流模型中,獲得輸出的語音數(shù)據(jù)特征的步驟之前,還包括:
5.根據(jù)權(quán)利要求4所述的基于人工智能的跨語言語音生成方法,其特征在于,所述基于所述語音線性譜生成語音數(shù)據(jù)編碼特征的步驟包括:
6.根據(jù)權(quán)利要求1所述的基于人工智能的跨語言語音生成方法,其特征在于,所述根據(jù)所述情緒特征和所述音色特征生成情感特征的步驟包括:
7.根據(jù)權(quán)利要求1所述的基于人工智能的跨語言語音生成方法,其特征在于,所述根據(jù)所述情緒特征和所述音色特征生成情感特征的步驟包括:
8.一種基于人工智能的跨語言語音生成裝置,其特征在于,包括:
9.一種計算機(jī)設(shè)備,其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機(jī)可讀指令,所述處理器執(zhí)行所述計算機(jī)可讀指令時實現(xiàn)如權(quán)利要求1至7中任一項所述的基于人工智能的跨語言語音生成方法的步驟。
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)可讀指令,所述計算機(jī)可讀指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的基于人工智能的跨語言語音生成方法的步驟。