欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法

文檔序號:2826314閱讀:290來源:國知局
基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法
【專利摘要】本發(fā)明公開了一種基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,屬于語音轉(zhuǎn)換【技術(shù)領(lǐng)域】。本發(fā)明的一種基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,針對源語音和目標(biāo)語音的非對稱數(shù)據(jù),首先利用深層網(wǎng)絡(luò)的預(yù)訓(xùn)練功能對其進(jìn)行概率建模,通過提煉語音信號中蘊(yùn)含的高階統(tǒng)計特性,給出網(wǎng)絡(luò)系數(shù)的后備優(yōu)選空間;其次,利用少量對稱數(shù)據(jù)進(jìn)行增量學(xué)習(xí),通過優(yōu)化后的傳遞誤差來修正網(wǎng)絡(luò)權(quán)重系數(shù),從而實(shí)現(xiàn)特征參數(shù)的映射。本發(fā)明優(yōu)化了網(wǎng)絡(luò)系數(shù)結(jié)構(gòu),并將其作為深層前向預(yù)測網(wǎng)絡(luò)的參數(shù)初始值,進(jìn)而在少量對稱數(shù)據(jù)的增量學(xué)習(xí)過程中,反向傳導(dǎo)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),實(shí)現(xiàn)說話人的個性特征參數(shù)的映射。
【專利說明】基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語音轉(zhuǎn)換【技術(shù)領(lǐng)域】,具體涉及一種基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法。
【背景技術(shù)】
[0002]語音轉(zhuǎn)換技術(shù),簡單地說就是將一個說話人(稱之為源)的聲音,通過某種手段進(jìn)行變換,使其聽起來仿佛是另一個說話人(稱之為目標(biāo))說的話。語音轉(zhuǎn)換屬于交叉性的學(xué)科分支,其內(nèi)容既涉及到語音學(xué)、語義學(xué)及心理聲學(xué)等領(lǐng)域的知識,又涵蓋語音信號處理領(lǐng)域的各個方面,如語音的分析與合成、說話人識別、語音編碼和增強(qiáng)等。
[0003]語音轉(zhuǎn)換的最終目標(biāo)是提供即時的、可以自動快速適應(yīng)任何說話者的語音服務(wù),這個系統(tǒng)不需要或者很少需要用戶訓(xùn)練就可以針對所有用戶和各種條件,良好地發(fā)揮功用。然而,現(xiàn)階段的語音轉(zhuǎn)換技術(shù)還做不到這一點(diǎn)。目前的系統(tǒng)一方面嚴(yán)格限制用戶措詞造句的方式(即需要對稱數(shù)據(jù)進(jìn)行訓(xùn)練),另一方面還需求較大的數(shù)據(jù)量來訓(xùn)練系統(tǒng)。
[0004]針對上述問題,目前已存在一些應(yīng)對方案。例如,針對“非對稱數(shù)據(jù)”問題,有學(xué)者提出先用矢量量化算法對源和目標(biāo)說話人的特征空間進(jìn)行劃分,然后比較聲道長度歸一化后的模板距離,從中選擇源和說話人對應(yīng)的碼字,最后在同一碼字空間里,用最鄰近算法找尋最相近的匹配語音幀。又如Salor等人則提出利用動態(tài)規(guī)劃算法來解決這類問題。該算法的核心思想是:構(gòu)建代價函數(shù),使源和目標(biāo)以及目標(biāo)前一幀和當(dāng)前幀的誤差和同時達(dá)到最小。針對“減少數(shù)據(jù)量”問題,Helander等人提出在建模的過程中考慮特征參數(shù)之間的耦合關(guān)系,并利用這一關(guān)系提高系統(tǒng)在數(shù)據(jù)量稀少情況下的魯棒性。除此之外,還有人提出利用基于變分貝葉斯的分析方法研究傳統(tǒng)的高斯混合模型,加強(qiáng)該模型在數(shù)據(jù)稀疏時建模能力。
[0005]經(jīng)檢索,中國專利申請?zhí)朲L201210229540.8,申請公布日為2012年10月17日,發(fā)明創(chuàng)造名稱為:一種基于LPC及RBF神經(jīng)網(wǎng)絡(luò)的聲音轉(zhuǎn)換的方法,該申請案涉及一種基于LPC及RBF神經(jīng)網(wǎng)絡(luò)的聲音轉(zhuǎn)換的方法,包括以下步驟:A、對語音進(jìn)行預(yù)處理;B、對濁音幀進(jìn)行基頻檢測;C、對基頻檢測后的濁音幀進(jìn)行轉(zhuǎn)換;D、對轉(zhuǎn)換后的基頻進(jìn)行濁音幀參量的提??;E、對提取到的濁音幀參量進(jìn)行計算,求得一幀濁音幀,然后對該一幀濁音幀進(jìn)行合成,得到轉(zhuǎn)換后的濁音幀。該申請案提出了一種高質(zhì)量、計算量適中的語音轉(zhuǎn)換技術(shù)方案,但其不足之處在于:該申請案的一種基于LPC及RBF神經(jīng)網(wǎng)絡(luò)的聲音轉(zhuǎn)換的方法,將待轉(zhuǎn)換語音分解成清音和濁音,又將濁音分成基頻、能量、LPC及LSF系數(shù)進(jìn)行語音轉(zhuǎn)換,增加了能量的測量,增大了測量難度和誤差,易造成轉(zhuǎn)換后的語音質(zhì)量不理想的問題。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是:克服現(xiàn)有技術(shù)中語音轉(zhuǎn)換系統(tǒng)不僅嚴(yán)格限制用戶措詞造句的方式,而且還需要較大的數(shù)據(jù)量來訓(xùn)練,同時轉(zhuǎn)換后的語音質(zhì)量并不理想的不足,提供一種基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,采用本發(fā)明提供的技術(shù)方案,針對實(shí)際環(huán)境中,語音轉(zhuǎn)換系統(tǒng)面臨的在非對稱數(shù)據(jù)和數(shù)據(jù)量匱乏條件下系統(tǒng)性能急劇惡化的問題,將上述兩方面相對獨(dú)立的環(huán)節(jié)綜合到統(tǒng)一的理論框架下進(jìn)行研究,同時利用深層神經(jīng)網(wǎng)絡(luò)對原始數(shù)據(jù)進(jìn)行非監(jiān)督式地訓(xùn)練,提煉其中包含的高階統(tǒng)計特征信息,在此基礎(chǔ)上通過監(jiān)督式的前向預(yù)測訓(xùn)練,最終提高語音轉(zhuǎn)換系統(tǒng)在實(shí)際環(huán)境下的泛化性能。
[0007]本發(fā)明的基本原理是:本發(fā)明的一種基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,針對源語音和目標(biāo)語音的非對稱數(shù)據(jù),首先利用深層神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練功能對其進(jìn)行概率建模,通過提煉語音信號中蘊(yùn)含的高階統(tǒng)計特性,給出網(wǎng)絡(luò)系數(shù)的后備優(yōu)選空間;其次,利用少量對稱數(shù)據(jù)進(jìn)行增量學(xué)習(xí),通過優(yōu)化后的傳遞誤差來修正網(wǎng)絡(luò)權(quán)重系數(shù),從而實(shí)現(xiàn)特征參數(shù)的映射。
[0008]具體地說,本發(fā)明是采用以下的技術(shù)方案來實(shí)現(xiàn)的,包括下列步驟:
[0009]I)在已有源語音信號的基礎(chǔ)上,根據(jù)采集到的目標(biāo)語音信號采集具有相同語義內(nèi)容的源語音信號,形成包含非對稱源語音信號、對稱源語音信號、目標(biāo)語音信號在內(nèi)的訓(xùn)練用語音信號;
[0010]采用諧波加隨機(jī)模型對訓(xùn)練用語音信號進(jìn)行分解,分別得到非對稱源語音信號的基音頻率軌跡、非對稱源語音信號的諧波聲道譜參數(shù)的幅度值和相位值、對稱源語音信號的基音頻率軌跡、目標(biāo)語音信號的基音頻率軌跡、對稱源語音信號的諧波聲道譜參數(shù)的幅度值和相位值、目標(biāo)語音信號的諧波聲道譜參數(shù)的幅度值和相位值;
[0011]根據(jù)對稱源語音信號的基音頻率軌跡和目標(biāo)語音信號的基音頻率軌跡,建立源語音基音頻率的高斯模型和目標(biāo)語音基音頻率的高斯模型;
[0012]2)分別對非對稱源語音信號的諧波聲道譜參數(shù)的幅度值和相位值、對稱源語音信號的諧波聲道譜參數(shù)的幅度值和相位值、目標(biāo)語音信號的諧波聲道譜參數(shù)的幅度值和相位值進(jìn)行降維處理,將聲道參數(shù)轉(zhuǎn)化為線性預(yù)測參數(shù),進(jìn)而產(chǎn)生適用于語音轉(zhuǎn)換的線性譜頻率參數(shù);
[0013]3)利用步驟2)中得到的非對稱源語音信號的線性譜頻率參數(shù)對深層置信網(wǎng)絡(luò)進(jìn)行非監(jiān)督訓(xùn)練,得到訓(xùn)練完成的深層置信網(wǎng)絡(luò);
[0014]4)利用動態(tài)時間規(guī)整算法,對步驟2)中得到的對稱源語音信號的線性譜頻率參數(shù)和目標(biāo)語音信號的線性譜頻率參數(shù)進(jìn)行對齊;
[0015]5)利用對齊后的對稱源語音信號的線性譜頻率參數(shù)和目標(biāo)語音信號的線性譜頻率參數(shù)對深層前向預(yù)測網(wǎng)絡(luò)進(jìn)行增量式監(jiān)督訓(xùn)練,得到訓(xùn)練完成的深層前向預(yù)測網(wǎng)絡(luò);
[0016]6)采用諧波加隨機(jī)模型對待轉(zhuǎn)換的源語音信號進(jìn)行分解,得到待轉(zhuǎn)換的源語音信號的基音頻率軌跡、待轉(zhuǎn)換的源語音信號的諧波聲道譜參數(shù)的幅度值和相位值;
[0017]對待轉(zhuǎn)換的源語音信號的諧波聲道譜參數(shù)的幅度值和相位值進(jìn)行降維處理,將聲道參數(shù)轉(zhuǎn)化為線性預(yù)測參數(shù),進(jìn)而產(chǎn)生適用于語音轉(zhuǎn)換的線性譜頻率參數(shù),然后利用步驟3)中訓(xùn)練完成的深層置信網(wǎng)絡(luò)對待轉(zhuǎn)換的源語音信號的線性譜頻率參數(shù)進(jìn)行特征映射,得到待轉(zhuǎn)換的源語音信號的新的特征參數(shù),最后將步驟5)中訓(xùn)練完成的深層前向預(yù)測網(wǎng)絡(luò)看作通用的泛函映射函數(shù),對待轉(zhuǎn)換的源語音信號的新的特征參數(shù)進(jìn)行映射轉(zhuǎn)換,得到轉(zhuǎn)換后的語音信號的線性譜頻率參數(shù);
[0018]利用步驟I)所得到的源語音基音頻率的高斯模型和目標(biāo)語音基音頻率的高斯模型,對待轉(zhuǎn)換的源語音信號的基音頻率軌跡進(jìn)行高斯轉(zhuǎn)換,得到轉(zhuǎn)換后的語音信號的基音頻率軌跡;
[0019]7)將轉(zhuǎn)換后的語音信號的線性譜頻率參數(shù)反變換為諧波加噪聲模型系數(shù),然后和轉(zhuǎn)換后的語音信號的基音頻率軌跡一起進(jìn)行語音合成,得到轉(zhuǎn)換后的語音信號。
[0020]上述技術(shù)方案的進(jìn)一步特征在于:所述步驟I)中,采用諧波加隨機(jī)模型對原始語音信號進(jìn)行分解的過程如下:
[0021]1-1)對原始語音信號進(jìn)行固定時長的分幀,用自相關(guān)法對基音頻率進(jìn)行估計;
[0022]1-2)對于濁音信號,在濁音信號中設(shè)置一個最大濁音頻率分量,用來劃分諧波成分和隨機(jī)成分的主能量區(qū)域;再利用最小二乘算法估計得到離散的諧波聲道譜參數(shù)幅度值和相位值;
[0023]1-3)對于清音信號,直接利用經(jīng)典的線性預(yù)測分析法對其進(jìn)行分析,得到線性預(yù)測系數(shù)。
[0024]上述技術(shù)方案的進(jìn)一步特征在于:在所述步驟2)中,將聲道參數(shù)轉(zhuǎn)化為線性預(yù)測參數(shù),進(jìn)而產(chǎn)生適用于語音轉(zhuǎn)換的線性譜頻率參數(shù)的過程如下:
[0025]2-1)對離散的諧波聲道譜參數(shù)的幅度值求取平方,并將其認(rèn)為是離散的功率譜的采樣值;
[0026]2-2)根據(jù)功率譜密度函數(shù)和自相關(guān)函數(shù)的一一對應(yīng)關(guān)系,得到關(guān)于線性預(yù)測系數(shù)的托普里茨矩陣方程,通過求解該方程得到線性預(yù)測系數(shù);
[0027]2-3)將線性預(yù)測系數(shù)轉(zhuǎn)換為線性譜頻率系數(shù)。
[0028]上述技術(shù)方案的進(jìn)一步特征在于:所述步驟3)中對深層置信網(wǎng)絡(luò)進(jìn)行非監(jiān)督訓(xùn)練的方式分為以下兩種:
[0029]3-1)將任意兩層網(wǎng)絡(luò)組成受限制的波爾茲曼機(jī),用對比發(fā)散法對其進(jìn)行訓(xùn)練,然后將所有的波爾茲曼機(jī)組合成堆棧形式,構(gòu)成一個完整的深層置信網(wǎng)絡(luò),該網(wǎng)絡(luò)中的權(quán)重系數(shù)集合構(gòu)成網(wǎng)絡(luò)參數(shù)后備優(yōu)選空間;
[0030]3-2)將兩個深層前向網(wǎng)絡(luò)正反疊接,構(gòu)成自適應(yīng)編解碼器結(jié)構(gòu)的組合網(wǎng)絡(luò),同時將語音信號的線性譜頻率系數(shù)置于輸入端和輸出端,在規(guī)則化隨機(jī)梯度下降準(zhǔn)則下,學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)。
[0031]上述技術(shù)方案的進(jìn)一步特征在于:所述步驟4)中,進(jìn)行對齊的準(zhǔn)則為:對于兩個不等長的特征參數(shù)序列,利用動態(tài)時間規(guī)整算法將其中一者的時間軸非線性的映射到另一者的時間軸上,從而實(shí)現(xiàn)一一對應(yīng)的匹配關(guān)系;在現(xiàn)參數(shù)集合的對齊的過程中,通過迭代優(yōu)化一個預(yù)設(shè)的累積失真函數(shù),并限制搜索區(qū)域,最終獲得時間匹配函數(shù)。
[0032]上述技術(shù)方案的進(jìn)一步特征在于:所述步驟5)中,對深層前向預(yù)測網(wǎng)絡(luò)進(jìn)行增量式監(jiān)督訓(xùn)練的過程如下:
[0033]5-1)在步驟3)中訓(xùn)練完成的深層置信網(wǎng)絡(luò)的最上層增加一層網(wǎng)絡(luò)輸出層,該層具有限幅的軟輸出特性,從而構(gòu)成深層前向網(wǎng)絡(luò);
[0034]5-2)將對齊后的對稱源語音信號的線性譜頻率系數(shù)按照步驟3-2)的方式進(jìn)行處理,并提取網(wǎng)絡(luò)中間層參數(shù)作為對稱源語音信號的新的特征參數(shù);
[0035]5-3)將對稱源語音信號的新的特征參數(shù)和目標(biāo)語音信號的線性譜頻率系數(shù)作為深層前向網(wǎng)絡(luò)的輸入和輸出,在后向傳遞誤差最小化的前提下調(diào)整網(wǎng)絡(luò)權(quán)重系數(shù),完成網(wǎng)絡(luò)的增量訓(xùn)練。[0036]上述技術(shù)方案的進(jìn)一步特征在于:所述步驟7)中語音合成的過程如下:
[0037]7-1)將濁音信號的離散的諧波聲道譜參數(shù)的幅度值和相位值用作正弦信號的幅度值和相位值,并進(jìn)行疊加,得到重構(gòu)的濁音信號;運(yùn)用內(nèi)插技術(shù)和相位補(bǔ)償技術(shù)使得重構(gòu)的濁音信號在時域波形上不產(chǎn)生失真;
[0038]7-2)將清音信號的白噪聲信號通過一個全極點(diǎn)濾波器,得到重構(gòu)的清音信號;
[0039]7-3)將重構(gòu)的濁音信號和重構(gòu)的清音信號進(jìn)行疊加,得到轉(zhuǎn)換后的語音信號。
[0040]本發(fā)明的有益效果如下:本發(fā)明的一種基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,充分利用了 “非對稱數(shù)據(jù)”和“數(shù)據(jù)量匱乏”問題的共性特征,設(shè)計了一套綜合兩種情況的數(shù)據(jù)采集和整合方法,在此基礎(chǔ)上利用深層置信網(wǎng)絡(luò)學(xué)習(xí)非對稱數(shù)據(jù)結(jié)構(gòu)特征,優(yōu)化網(wǎng)絡(luò)系數(shù)結(jié)構(gòu),并將其作為深層前向預(yù)測網(wǎng)絡(luò)的參數(shù)初始值,進(jìn)而在少量對稱數(shù)據(jù)的增量學(xué)習(xí)的過程下,反向傳導(dǎo)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),實(shí)現(xiàn)說話人個性特征參數(shù)的映射。
【專利附圖】

【附圖說明】
[0041]圖1為本發(fā)明涉及的語音轉(zhuǎn)換系統(tǒng)訓(xùn)練和轉(zhuǎn)換階段框圖;
[0042]圖2為本發(fā)明涉及深層置信網(wǎng)絡(luò)預(yù)訓(xùn)練方式示意圖。
【具體實(shí)施方式】
[0043]下面參照附圖并結(jié)合實(shí)例對本發(fā)明作進(jìn)一步詳細(xì)描述。
[0044]為了有效處理實(shí)際環(huán)境中“非對稱數(shù)據(jù)”和“數(shù)據(jù)量匱乏”問題,本發(fā)明設(shè)計以下數(shù)據(jù)獲取和整合方案,以便后續(xù)操作:對于大多數(shù)的應(yīng)用場合來說,采集目標(biāo)說話人的聲音數(shù)據(jù)一般比較被動,因此采集起來比較困難,常常會導(dǎo)致數(shù)據(jù)量匱乏;相比較之下,由于源說話人的聲音數(shù)據(jù)采集過程主動性較強(qiáng),所以收集起來相對容易,數(shù)據(jù)量也較為充足。為此,在已有源語音數(shù)據(jù)的基礎(chǔ)上,令源說話人根據(jù)采集到的目標(biāo)說話人的語音,再次錄制少量包含有相同語義內(nèi)容的聲音數(shù)據(jù)作為參考(源說話人增量式地錄制少量語音)。這樣,源和目標(biāo)的數(shù)據(jù)雖然總體上是非對稱的,但其中卻包含了少量的對稱數(shù)據(jù)。
[0045]因此,結(jié)合圖1和圖2,本實(shí)施例的一種基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,包括訓(xùn)練階段和轉(zhuǎn)換階段,以下步驟I?5)為訓(xùn)練階段,步驟6?7)為轉(zhuǎn)換階段:
[0046]I)在已有源語音信號的基礎(chǔ)上,根據(jù)采集到的目標(biāo)語音信號采集具有相同語義內(nèi)容的源語音信號,形成包含非對稱源語音信號、對稱源語音信號、目標(biāo)語音信號在內(nèi)的訓(xùn)練用語音信號。
[0047]采用諧波加隨機(jī)模型對訓(xùn)練用語音信號進(jìn)行分解,分別得到非對稱源語音信號的基音頻率軌跡、非對稱源語音信號的諧波聲道譜參數(shù)的幅度值和相位值、對稱源語音信號的基音頻率軌跡、目標(biāo)語音信號的基音頻率軌跡、對稱源語音信號的諧波聲道譜參數(shù)的幅度值和相位值、目標(biāo)語音信號的諧波聲道譜參數(shù)的幅度值和相位值。
[0048]采用諧波加隨機(jī)模型對原始語音信號進(jìn)行分解的具體步驟如下:
[0049]a.對語音信號進(jìn)行分巾貞,巾貞長20ms,巾貞重疊間隔10ms。
[0050]b.在每幀中,用自相關(guān)法估計基頻,若該幀為清音幀,則設(shè)置基頻等于零。
[0051]c.對于濁音幀(即基頻不為零的幀),假設(shè)語音信號sh(n)可以由一系列的正弦波疊加而成:
【權(quán)利要求】
1.基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,其特征在于,包括如下步驟: 1)在已有源語音信號的基礎(chǔ)上,根據(jù)采集到的目標(biāo)語音信號采集具有相同語義內(nèi)容的源語音信號,形成包含非對稱源語音信號、對稱源語音信號、目標(biāo)語音信號在內(nèi)的訓(xùn)練用語音信號; 采用諧波加隨機(jī)模型對訓(xùn)練用語音信號進(jìn)行分解,分別得到非對稱源語音信號的基音頻率軌跡、非對稱源語音信號的諧波聲道譜參數(shù)的幅度值和相位值、對稱源語音信號的基音頻率軌跡、目標(biāo)語音信號的基音頻率軌跡、對稱源語音信號的諧波聲道譜參數(shù)的幅度值和相位值、目標(biāo)語音信號的諧波聲道譜參數(shù)的幅度值和相位值; 根據(jù)對稱源語音信號的基音頻率軌跡和目標(biāo)語音信號的基音頻率軌跡,建立源語音基音頻率的高斯模型和目標(biāo)語音基音頻率的高斯模型; 2)分別對非對稱源語音信號的諧波聲道譜參數(shù)的幅度值和相位值、對稱源語音信號的諧波聲道譜參數(shù)的幅度值和相位值、目標(biāo)語音信號的諧波聲道譜參數(shù)的幅度值和相位值進(jìn)行降維處理,將聲道參數(shù)轉(zhuǎn)化為線性預(yù)測參數(shù),進(jìn)而產(chǎn)生適用于語音轉(zhuǎn)換的線性譜頻率參數(shù); 3)利用步驟2)中得到的非對稱源語音信號的線性譜頻率參數(shù)對深層置信網(wǎng)絡(luò)進(jìn)行非監(jiān)督訓(xùn)練,得到訓(xùn)練完成的深層置信網(wǎng)絡(luò); 4)利用動態(tài)時間規(guī)整算法,對步驟2)中得到的對稱源語音信號的線性譜頻率參數(shù)和目標(biāo)語音信號的線性譜頻率參數(shù)進(jìn)行對齊; 5)利用對齊后的對稱源語音信號的線性譜頻率參數(shù)和目標(biāo)語音信號的線性譜頻率參數(shù)對深層前向預(yù)測網(wǎng)絡(luò)進(jìn)行增量式監(jiān)督訓(xùn)練,得到訓(xùn)練完成的深層前向預(yù)測網(wǎng)絡(luò); 6)采用諧波加隨機(jī)模型對待轉(zhuǎn)換的源語音信號進(jìn)行分解,得到待轉(zhuǎn)換的源語音信號的基音頻率軌跡、待轉(zhuǎn)換的源語音信號的諧波聲道譜參數(shù)的幅度值和相位值; 對待轉(zhuǎn)換的源語音信號的諧波聲道譜參數(shù)的幅度值和相位值進(jìn)行降維處理,將聲道參數(shù)轉(zhuǎn)化為線性預(yù)測參數(shù),進(jìn)而產(chǎn)生適用于語音轉(zhuǎn)換的線性譜頻率參數(shù),然后利用步驟3)中訓(xùn)練完成的深層置信網(wǎng)絡(luò)對待轉(zhuǎn)換的源語音信號的線性譜頻率參數(shù)進(jìn)行特征映射,得到待轉(zhuǎn)換的源語音信號的新的特征參數(shù),最后將步驟5)中訓(xùn)練完成的深層前向預(yù)測網(wǎng)絡(luò)看作通用的泛函映射函數(shù),對待轉(zhuǎn)換的源語音信號的新的特征參數(shù)進(jìn)行映射轉(zhuǎn)換,得到轉(zhuǎn)換后的語音信號的線性譜頻率參數(shù); 利用步驟I)所得到的源語音基音頻率的高斯模型和目標(biāo)語音基音頻率的高斯模型,對待轉(zhuǎn)換的源語音信號的基音頻率軌跡進(jìn)行高斯轉(zhuǎn)換,得到轉(zhuǎn)換后的語音信號的基音頻率軌跡; 7)將轉(zhuǎn)換后的語音信號的線性譜頻率參數(shù)反變換為諧波加噪聲模型系數(shù),然后和轉(zhuǎn)換后的語音信號的基音頻率軌跡一起進(jìn)行語音合成,得到轉(zhuǎn)換后的語音信號。
2.根據(jù)權(quán)利要求1所述的基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,其特征在于,所述步驟I)中,采用諧波加隨機(jī)模型對原始語音信號進(jìn)行分解的過程如下: 1-1)對原始語音信號進(jìn)行固定時長的分幀,用自相關(guān)法對基音頻率進(jìn)行估計; 1-2)對于濁音信號,在濁音信號中設(shè)置一個最大濁音頻率分量,用來劃分諧波成分和隨機(jī)成分的主能量區(qū)域;再利用最小二乘算法估計得到離散的諧波聲道譜參數(shù)幅度值和相位值;1-3)對于清音信號,直接利用經(jīng)典的線性預(yù)測分析法對其進(jìn)行分析,得到線性預(yù)測系數(shù)。
3.根據(jù)權(quán)利要求1所述的基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,其特征在于,在所述步驟2)中,將聲道參數(shù)轉(zhuǎn)化為線性預(yù)測參數(shù),進(jìn)而產(chǎn)生適用于語音轉(zhuǎn)換的線性譜頻率參數(shù)的過程如下: 2-1)對離散的諧波聲道譜參數(shù)的幅度值求取平方,并將其認(rèn)為是離散的功率譜的采樣值; 2-2)根據(jù)功率譜密度函數(shù)和自相關(guān)函數(shù)的一一對應(yīng)關(guān)系,得到關(guān)于線性預(yù)測系數(shù)的托普里茨矩陣方程,通過求解該方程得到線性預(yù)測系數(shù); 2-3)將線性預(yù)測系數(shù)轉(zhuǎn)換為線性譜頻率系數(shù)。
4.根據(jù)權(quán)利要求1所述的基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,其特征在于,所述步驟3)中對深層置信網(wǎng)絡(luò)進(jìn)行非監(jiān)督訓(xùn)練的方式分為以下兩種: 3-1)將任意兩層網(wǎng)絡(luò)組成受限制的波爾茲曼機(jī),用對比發(fā)散法對其進(jìn)行訓(xùn)練,然后將所有的波爾茲曼機(jī)組合成堆棧形式,構(gòu)成一個完整的深層置信網(wǎng)絡(luò),該網(wǎng)絡(luò)中的權(quán)重系數(shù)集合構(gòu)成網(wǎng)絡(luò)參數(shù)后備優(yōu)選空間; 3-2)將兩個深層前向網(wǎng)絡(luò)正反疊接,構(gòu)成自適應(yīng)編解碼器結(jié)構(gòu)的組合網(wǎng)絡(luò),同時將語音信號的線性譜頻率系數(shù)置于輸入端和輸出端,在規(guī)則化隨機(jī)梯度下降準(zhǔn)則下,學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)。
5.根據(jù)權(quán)利要求1所述的基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,其特征在于,所述步驟4)中,進(jìn)行對齊`的準(zhǔn)則為:對于兩個不等長的特征參數(shù)序列,利用動態(tài)時間規(guī)整算法將其中一者的時間軸非線性的映射到另一者的時間軸上,從而實(shí)現(xiàn)一一對應(yīng)的匹配關(guān)系;在現(xiàn)參數(shù)集合的對齊的過程中,通過迭代優(yōu)化一個預(yù)設(shè)的累積失真函數(shù),并限制搜索區(qū)域,最終獲得時間匹配函數(shù)。
6.根據(jù)權(quán)利要求4所述的基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,其特征在于,所述步驟5)中,對深層前向預(yù)測網(wǎng)絡(luò)進(jìn)行增量式監(jiān)督訓(xùn)練的過程如下: 5-1)在步驟3)中訓(xùn)練完成的深層置信網(wǎng)絡(luò)的最上層增加一層網(wǎng)絡(luò)輸出層,該層具有限幅的軟輸出特性,從而構(gòu)成深層前向網(wǎng)絡(luò); 5-2)將對齊后的對稱源語音信號的線性譜頻率系數(shù)按照步驟3-2)的方式進(jìn)行處理,并提取網(wǎng)絡(luò)中間層參數(shù)作為對稱源語音信號的新的特征參數(shù); 5-3)將對稱源語音信號的新的特征參數(shù)和目標(biāo)語音信號的線性譜頻率系數(shù)作為深層前向網(wǎng)絡(luò)的輸入和輸出,在后向傳遞誤差最小化的前提下調(diào)整網(wǎng)絡(luò)權(quán)重系數(shù),完成網(wǎng)絡(luò)的增量訓(xùn)練。
7.根據(jù)權(quán)利要求1所述的基于深層神經(jīng)網(wǎng)絡(luò)特征映射的非對稱語音轉(zhuǎn)換方法,其特征在于,所述步驟7)中語音合成的過程如下: 7-1)將濁音信號的離散的諧波聲道譜參數(shù)的幅度值和相位值用作正弦信號的幅度值和相位值,并進(jìn)行疊加,得到重構(gòu)的濁音信號;運(yùn)用內(nèi)插技術(shù)和相位補(bǔ)償技術(shù)使得重構(gòu)的濁音信號在時域波形上不產(chǎn)生失真; 7-2)將清音信號的白噪聲信號通過一個全極點(diǎn)濾波器,得到重構(gòu)的清音信號; 7-3)將重構(gòu)的濁音信號和重構(gòu)的清音信號進(jìn)行疊加,得到轉(zhuǎn)換后的語音信號。
【文檔編號】G10L25/30GK103531205SQ201310468769
【公開日】2014年1月22日 申請日期:2013年10月9日 優(yōu)先權(quán)日:2013年10月9日
【發(fā)明者】鮑靜益, 徐寧 申請人:常州工學(xué)院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
长治市| 安化县| 宝坻区| 北辰区| 祁东县| 贺州市| 武功县| 嘉善县| 永新县| 崇礼县| 东莞市| 民权县| 会同县| 徐闻县| 孝义市| 惠州市| 龙岩市| 怀远县| 宁津县| 山丹县| 南阳市| 德庆县| 桂阳县| 闽清县| 红桥区| 巢湖市| 石阡县| 南宫市| 原平市| 广灵县| 双桥区| 江油市| 沾化县| 乌苏市| 浏阳市| 阳朔县| 宁强县| 隆尧县| 皮山县| 沅江市| 浙江省|