本公開大體上涉及對原始語音信號進行編碼及對原始語音信號進行解碼以用于混合對抗參數(shù)語音合成的方法、設備及系統(tǒng),且更明確來說,涉及通過實施在生成式對抗網(wǎng)絡設置中訓練的生成器并結(jié)合線性預測編碼來使用緊湊學習參數(shù)表示改進原始語音信號的合成。雖然本文將特別參考所述公開來描述一些實施例,但應理解,本公開不限于此類使用領域,且適用于更廣泛的上下文。
背景技術:
1、貫穿本公開對背景技術的任何討論決不應被視為承認此類技術是廣為人知的或形成本領域公知常識的部分。
2、語音是人類發(fā)聲系統(tǒng)生成的聲學信號,其以語言及情感信息傳輸說話者的意圖。在數(shù)字系統(tǒng)中,語音信號被表示為描述相應語音信號的幅度的時間相依進展的波形。
3、當語音信號要使用數(shù)字通信系統(tǒng)傳輸時出現(xiàn)挑戰(zhàn)。尤其針對具有有限帶寬的通信通道(例如,移動電話網(wǎng)絡),語音信號波形的有效表示是重要的??煽康男盘柋硎拘枰卟蓸勇?。然而,以高采樣率傳輸原始語音信號波形會導致高比特率及功耗,從而違反通道帶寬節(jié)省。為了節(jié)省通道帶寬,語音信號壓縮能夠傳輸相應語音信號波形的緊湊表示。這些緊湊表示通常足以用于可靠的語音信號波形重建。
4、在此上下文中,迄今為止使用的一種成功方法是基于模型的語音信號表示,它能夠根據(jù)模型參數(shù)描述語音信號波形。源濾波器模型是語音建模中眾所周知的方法,它利用聲門激勵信號的創(chuàng)建(源分量)及聲門激勵信號的頻譜成形(濾波器分量)。
5、語音編解碼器可由兩部分組成:將語音信號分解為其聲門激勵加其頻譜包絡的編碼器及將語音信號再次重建回來的解碼器。在此上下文中,編碼器可執(zhí)行線性預測編碼分析任務以創(chuàng)建源濾波器模型的相應分量,且解碼器可通過重建語音信號來執(zhí)行相應線性預測編碼合成任務。
6、然而,信號壓縮的總體目標是找到緊湊表示,其能夠以較少的數(shù)據(jù)占用量對語音信號進行編碼,并允許可靠及快速的重建。
7、最近,生成式對抗網(wǎng)絡(gan)因其在應用于例如包含條件圖像合成、圖像到圖像轉(zhuǎn)換、圖像樣式轉(zhuǎn)變、圖像超分辨率、圖像繪制、文本到圖像合成、視頻生成等任務中時不斷改進可靠性而得到越來越多的關注。在應用于語音增強之后,gan在語音及音頻信號處理領域也得到越來越多的關注。
8、例如,l.juvela、b.bollepalli、x.wang、h.kameoka、m.airaksinen、j.yamagishi及p.alku在他們關于“使用生成式對抗網(wǎng)絡由mfcc序列進行語音波形合成(speechwaveform?synthesis?from?mfcc?sequences?with?generative?adversarial?networks)”(ieee?icassp,卡爾加里,ab,2018,第5679到5683頁)的出版物中提出一種用于由濾波器組mel頻率倒譜系數(shù)(mfcc)進行語音重建的方法。
9、s.kankanahalli在關于“使用深度神經(jīng)網(wǎng)絡的端到端優(yōu)化語音編碼(end-to-endoptimized?speech?coding?with?deep?neural?networks)”(ieee?icassp,卡爾加里,ab,2018,第2521到2525頁)的出版物中提出將深度神經(jīng)網(wǎng)絡(dnn)應用到語音編碼的概念驗證。本出版物中的寬帶語音編碼器是從初始信號端到端學習的,除了相對簡單的感知損失外,幾乎沒有音頻專用處理。
10、此外,l.juvela、v.tsiaras、b.bollepalli、m.airaksinen、j.yamagishi及p.alku在他們關于“用于聲門激勵的與說話者無關的初始波形模型(speaker-independent?rawwaveform?model?for?glottal?excitation)”(2018年interspeech會議錄,第2012到2016頁)的出版物中提出一種與說話者無關的神經(jīng)波形生成器,它將線性自回歸(聲道濾波器)過程與非線性(聲門源)激勵過程組合,由波網(wǎng)(wavenet)參數(shù)化。
11、盡管正在進行研究,但用于參數(shù)語音合成的深度生成式模型的一個挑戰(zhàn)性限制是生成過程非常緩慢。當前用于參數(shù)語音合成的深度生成式模型通常以自回歸順序方式工作,其中信號以逐個樣本的方式順序地生成。
12、因此,現(xiàn)仍需要對語音信號進行有效信號壓縮,同時允許可靠且快速的重建(尤其以較低比特率)。
技術實現(xiàn)思路
1、根據(jù)本公開的第一方面,提供一種對原始語音信號進行編碼以用于混合對抗參數(shù)語音合成的方法。所述方法可包含(a)接收所述原始語音信號的步驟。所述方法可進一步包含(b)對所述原始語音信號應用線性預測編碼分析濾波以獲得對應殘差的步驟。所述方法可進一步包含(c)將所述獲得的殘差輸入到生成器的編碼器部分以對所述殘差進行編碼的步驟。所述方法可進一步包含(d)由所述生成器的所述編碼器部分輸出所述殘差的壓縮表示的步驟。所述方法可進一步包含(e)對所述原始語音信號應用線性預測編碼分析濾波以估計原始線性預測編碼參數(shù)的步驟。且所述方法可進一步包含(f)量化并傳輸所述原始線性預測編碼參數(shù)及所述殘差的所述壓縮表示的步驟。
2、在一個實施例中,步驟(e)中用于線性預測編碼分析濾波的階數(shù)可等于或高于步驟(b)中的階數(shù)。
3、在一個實施例中,步驟(b)中用于線性預測編碼分析濾波的階數(shù)可為16。
4、在一個實施例中,步驟(e)中用于線性預測編碼分析濾波的階數(shù)可從16到50。
5、在一個實施例中,所述生成器可為在生成式對抗網(wǎng)絡設置中訓練的生成器。
6、在一個實施例中,所述生成式對抗網(wǎng)絡設置可包含幾何設置、沃瑟斯坦(wasserstein)設置及基于能量的設置中的一或多者。
7、在一個實施例中,所述生成器的所述編碼器部分可包含l層,其中在每一層中具有n個濾波器,其中l(wèi)是≥1的自然數(shù),且其中n是≥1的自然數(shù)。
8、在一個實施例中,在所述l層的至少一層中,可執(zhí)行1d卷積運算,接著執(zhí)行非線性運算,所述非線性運算包含參數(shù)修正線性單元(prelu)、修正線性單元(relu)、泄漏修正線性單元(lrelu)、指數(shù)線性單元(elu)及縮放指數(shù)線性單元(selu)。
9、在一個實施例中,所述l層中的每一者中的所述n個濾波器的大小可相同。
10、在一個實施例中,所述l層中的每一者中的所述n個濾波器可以步長2操作。
11、在一個實施例中,輸出層可隨后跟隨所述生成器的所述編碼器部分的所述l層中的最后一層。
12、在一個實施例中,所述輸出層可包含以步長1操作的n個濾波器。
13、在一個實施例中,可在所述輸出層中執(zhí)行1d卷積運算,接著執(zhí)行非線性運算,所述非線性運算包含參數(shù)修正線性單元(prelu)、修正線性單元(relu)、泄漏修正線性單元(lrelu)、指數(shù)線性單元(elu)及縮放指數(shù)線性單元(selu)。
14、根據(jù)本公開的第二方面,提供一種對原始語音信號進行解碼以用于混合對抗參數(shù)語音合成的方法。所述方法可包含(a)接收通過對原始語音信號應用線性預測編碼分析濾波所估計的經(jīng)量化原始線性預測編碼參數(shù)及所述原始語音信號的殘差的經(jīng)量化壓縮表示的步驟。所述方法可進一步包含(b)對所述原始線性預測編碼參數(shù)及所述殘差的所述壓縮表示進行去量化的步驟。所述方法可進一步包含(c)將所述殘差的所述經(jīng)去量化壓縮表示輸入到生成器的解碼器部分,以應用從所述壓縮殘差域到偽(第一)信號域的對抗映射的步驟。所述方法可進一步包含(d)由所述生成器的所述解碼器部分輸出偽語音信號的步驟。所述方法可進一步包含(e)對所述偽語音信號應用線性預測編碼分析濾波以獲得對應偽殘差的步驟。且所述方法可進一步包含(f)通過對所述偽殘差及所述經(jīng)去量化原始線性預測編碼分析參數(shù)應用線性預測編碼交叉合成濾波來重建所述原始語音信號的步驟。
15、在一個實施例中,步驟(e)中用于線性預測編碼分析濾波的階數(shù)可與用于估計所述原始線性預測編碼參數(shù)的階數(shù)相同。
16、在一個實施例中,步驟(e)中用于線性預測編碼分析濾波的階數(shù)可從16到50。
17、在一個實施例中,所述生成器可為在生成式對抗網(wǎng)絡設置中訓練的生成器。
18、在一個實施例中,所述生成式對抗網(wǎng)絡設置可包含幾何設置、沃瑟斯坦設置及基于能量的設置中的一或多者。
19、在一個實施例中,所述生成器的所述解碼器部分可包含對抗生成區(qū)段。
20、在一個實施例中,所述對抗生成區(qū)段可包含l層,其中在每一層中具有n個濾波器,其中l(wèi)是≥1的自然數(shù),且其中n是≥1的自然數(shù)。
21、在一個實施例中,在所述對抗生成區(qū)段的所述l層中的至少一層中,可執(zhí)行轉(zhuǎn)置卷積,接著執(zhí)行門控tanh單元。
22、在一個實施例中,所述對抗生成區(qū)段的所述l層中的每一者中的所述n個濾波器的大小可相同。
23、在一個實施例中,所述對抗生成區(qū)段的所述l層中的每一者中的所述n個濾波器可以步長2操作。
24、在一個實施例中,輸出層可隨后跟隨所述對抗生成區(qū)段的所述l層中的最后一層。
25、在一個實施例中,所述輸出層可包含以步長1操作的n個濾波器。
26、在一個實施例中,可在所述輸出層中執(zhí)行1d卷積運算,接著執(zhí)行tanh運算。
27、在一個實施例中,所述生成器的所述解碼器部分可進一步包含在所述對抗生成區(qū)段之前的上下文解碼區(qū)段。
28、在一個實施例中,所述上下文解碼區(qū)段可包含具有n個濾波器的l=1層(其中n是≥1的自然數(shù)),接著是門控tanh單元的一或多個塊。
29、在一個實施例中,在所述上下文解碼區(qū)段的l=1層中,所述n個濾波器的大小可為1,且可執(zhí)行1d卷積運算。
30、在一個實施例中,所述上下文解碼區(qū)段的l=1層中的所述n個濾波器可以步長1操作。
31、在一個實施例中,所述上下文解碼區(qū)段的門控tanh單元的所述一或多個塊的所述輸出可與隨機噪聲向量(z)串接。
32、在一個實施例中,所述上下文解碼區(qū)段可包含門控tanh單元的10個塊。
33、根據(jù)本公開的第三方面,提供一種用于對原始語音信號進行編碼以用于混合對抗參數(shù)語音合成的設備。所述設備可包含(a)接收器,其用于接收所述原始語音信號。所述設備可進一步包含(b)線性預測編碼分析濾波器,其用于對所述原始語音信號應用線性預測編碼分析濾波以獲得對應殘差。所述設備可進一步包含(c)生成器的編碼器部分,其經(jīng)配置以在所述編碼器部分的輸入處接收所述獲得的殘差,并在所述編碼器部分的輸出處輸出所述殘差的壓縮表示,以用于對所述殘差進行編碼。所述設備可進一步包含(d)線性預測編碼分析濾波器,其用于對所述原始語音信號應用線性預測編碼分析濾波以估計原始線性預測編碼參數(shù)。且所述設備可進一步包含(e)用于量化并傳輸所述原始線性預測編碼參數(shù)及所述殘差的所述壓縮表示的構(gòu)件。
34、根據(jù)本公開的第四方面,提供一種用于對原始語音信號進行解碼以用于混合對抗參數(shù)語音合成的設備。所述設備可包含(a)接收器,其用于接收通過對原始語音信號應用線性預測編碼分析濾波所估計的經(jīng)量化原始線性預測編碼參數(shù)及所述原始語音信號的殘差的經(jīng)量化壓縮表示。所述設備可進一步包含(b)用于對所述原始線性預測編碼參數(shù)及所述殘差的所述壓縮表示進行去量化的構(gòu)件。所述設備可進一步包含(c)生成器的解碼器部分,其用于生成偽語音信號。所述設備可進一步包含(d)線性預測分析濾波器,其用于對所述偽語音信號應用線性預測編碼分析濾波以獲得對應偽殘差。且所述設備可進一步包含(e)線性預測編碼合成濾波器,其用于通過對所述偽殘差及所述經(jīng)去量化原始線性預測編碼分析參數(shù)應用線性預測編碼交叉合成濾波來重建所述原始語音信號。
35、根據(jù)本公開的第五方面,提供一種具有用于對原始語音信號進行編碼以用于混合對抗參數(shù)語音合成的設備(其中所述設備經(jīng)配置以執(zhí)行對原始語音信號進行編碼以用于混合對抗參數(shù)語音合成的方法)及用于對原始語音信號進行解碼以用于混合對抗參數(shù)語音合成的設備(其中所述設備經(jīng)配置以執(zhí)行對原始語音信號進行解碼以用于混合對抗參數(shù)語音合成的方法)的系統(tǒng)。
36、根據(jù)本公開的第六方面,提供一種用于在包含生成器(其包含編碼器部分及解碼器部分)以及鑒別器的生成式對抗網(wǎng)絡設置中訓練生成器的方法。所述方法可包含(a)將原始語音信號的殘差的壓縮表示輸入到所述生成器中的步驟。所述方法可進一步包含(b)基于所述殘差的所述壓縮表示由所述生成器生成偽語音信號的步驟。所述方法可進一步包含(c)一次一個地將所述偽語音信號及從中生成所述偽語音信號的所述原始語音信號的所述壓縮殘差輸入到所述鑒別器中的步驟。所述方法可進一步包含(d)由所述鑒別器判斷所述偽語音信號是與所述原始語音信號的所述壓縮殘差對應還是與未定義的壓縮殘差對應的步驟。且所述方法可進一步包含(e)調(diào)諧所述生成器的所述參數(shù),直到所述鑒別器不再能夠區(qū)分所述偽語音信號是與所述原始語音信號的所述壓縮殘差對應還是與所述未定義的壓縮殘差對應的步驟。
37、在一個實施例中,所述生成式對抗網(wǎng)絡設置可包含幾何設置、沃瑟斯坦設置及基于能量的設置中的一或多者。
38、在一個實施例中,由所述鑒別器進行的判斷可基于一或多個損失函數(shù)。
39、在一個實施例中,所述鑒別器可包含編碼器級,且所述編碼器級可包含l層,其中在每一層中具有n個濾波器,其中l(wèi)是≥1的自然數(shù),且其中n是≥1的自然數(shù)。
40、在一個實施例中,在l層的至少一層中,可執(zhí)行1d卷積運算,接著執(zhí)行包含泄漏修正線性單元(lrelu)的非線性運算。
41、在一個實施例中,所述l層中的每一者中的所述n個濾波器的大小可相同。
42、在一個實施例中,所述l層中的每一者中的所述n個濾波器可以步長2操作。
43、根據(jù)本公開的第七方面,提供一種計算機程序產(chǎn)品,其包括計算機可讀存儲媒體,所述計算機可讀存儲媒體具有適于使裝置執(zhí)行對原始語音信號進行編碼以用于混合對抗參數(shù)語音合成的方法的指令。
44、根據(jù)本公開的第八方面,提供一種計算機程序產(chǎn)品,其包括計算機可讀存儲媒體,所述計算機可讀存儲媒體具有適于使裝置執(zhí)行對原始語音信號進行解碼以用于混合對抗參數(shù)語音合成的方法的指令。
45、根據(jù)本公開的第九方面,提供一種計算機程序產(chǎn)品,其包括計算機可讀存儲媒體,所述計算機可讀存儲媒體具有適于使裝置執(zhí)行用于在包括生成器(其包含編碼器部分及解碼器部分)以及鑒別器的生成式對抗網(wǎng)絡設置中訓練生成器的方法的指令。