1.一種對原始語音信號進(jìn)行解碼以用于混合對抗參數(shù)語音合成的方法,其中所述方法包含以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其中步驟(e)中的用于線性預(yù)測編碼分析濾波的階數(shù)與用于估計所述原始線性預(yù)測編碼參數(shù)的階數(shù)相同。
3.根據(jù)權(quán)利要求1或權(quán)利要求2所述的方法,其中所述對抗網(wǎng)絡(luò)設(shè)置包含所述生成器及鑒別器,且其中所述生成器及所述鑒別器的訓(xùn)練是基于損失函數(shù)中的一或多者。
4.根據(jù)權(quán)利要求3所述的方法,其中所述生成器的所述解碼器部分包含對抗生成區(qū)段,所述對抗生成區(qū)段包含l層,其中在每一層中具有n個濾波器,其中l(wèi)是≥1的自然數(shù)且其中n是≥1的自然數(shù),其中所述n個濾波器以步長2操作,且在所述l層中的每一者中所述n個濾波器的大小是相同的,且其中在所述l層中的至少一者中,執(zhí)行轉(zhuǎn)置卷積,接著執(zhí)行門控tanh單元,且其中輸出層隨后跟隨所述對抗生成區(qū)段的所述l層中的最后一層,其中所述輸出層包含以步長1操作的n個濾波器,且其中在所述輸出層中執(zhí)行1d卷積運算,接著執(zhí)行tanh運算。
5.根據(jù)權(quán)利要求4所述的方法,其中所述生成器的所述解碼器部分進(jìn)一步包含在所述對抗生成區(qū)段之前的上下文解碼區(qū)段。
6.根據(jù)權(quán)利要求5所述的方法,其中所述上下文解碼區(qū)段包含具有n個濾波器的l=1層,其中n是≥1的自然數(shù),接著是softmax門控tanh單元的一或多個塊,其中所述n個濾波器的大小為1且所述n個濾波器以步長1操作,且其中在所述l=1層中執(zhí)行1d卷積運算,且其中所述上下文解碼區(qū)段的softmax門控tanh單元的所述一或多個塊的輸出與隨機噪聲向量串接。
7.一種對原始語音信號進(jìn)行編碼以用于混合對抗參數(shù)語音合成的方法,其中所述方法包含以下步驟:
8.根據(jù)權(quán)利要求7所述的方法,其中步驟(b)中用于線性預(yù)測編碼分析濾波的階數(shù)為16,且步驟(e)中用于線性預(yù)測編碼分析濾波的階數(shù)在16到50之間的范圍內(nèi)。
9.根據(jù)權(quán)利要求7或權(quán)利要求8所述的方法,其中所述對抗網(wǎng)絡(luò)設(shè)置包含所述生成器及鑒別器,且其中所述生成器及所述鑒別器的訓(xùn)練是基于損失函數(shù)中的一或多者。
10.根據(jù)權(quán)利要求9所述的方法,其中所述生成器的所述編碼器部分包含l層,其中在每一層中具有n個濾波器,其中l(wèi)是≥1的自然數(shù)且其中n是≥1的自然數(shù),其中在所述l層中的每一者中所述n個濾波器的大小是相同的,且所述n個濾波器以步長2操作,且其中在所述l層中的至少一層中,執(zhí)行1d卷積運算,接著執(zhí)行非線性運算,所述非線性運算包含參數(shù)修正線性單元(prelu)、修正線性單元(relu)、泄漏修正線性單元(lrelu)、指數(shù)線性單元(elu)及縮放指數(shù)線性單元(selu)中的一或多者。