一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法

文檔序號(hào)：2823897閱讀：260來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語(yǔ)音轉(zhuǎn)換技術(shù)，尤其是一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，屬于語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域。
背景技術(shù)：
語(yǔ)音轉(zhuǎn)換是語(yǔ)音信號(hào)處理領(lǐng)域近年來(lái)新興的研究分支，是在說(shuō)話(huà)人識(shí)別和語(yǔ)音合成的研究基礎(chǔ)上進(jìn)行的，同時(shí)也是這兩個(gè)分支內(nèi)涵的豐富和延拓。語(yǔ)音轉(zhuǎn)換的目標(biāo)是改變?cè)凑f(shuō)話(huà)人語(yǔ)音中的個(gè)性特征信息，使之具有目標(biāo)說(shuō)話(huà)人的個(gè)性特征，從而使轉(zhuǎn)換后的語(yǔ)音聽(tīng)起來(lái)就像是目標(biāo)說(shuō)話(huà)人的聲音，而其中的語(yǔ)義信息保持不變。語(yǔ)音轉(zhuǎn)換的關(guān)鍵問(wèn)題在于說(shuō)話(huà)人個(gè)性特征的提取以及轉(zhuǎn)換模型的建立，經(jīng)過(guò)近二十年的發(fā)展，涌現(xiàn)出大量的研究成果，但這些方法大多要求訓(xùn)練語(yǔ)音是平行文本，即源說(shuō) 話(huà)人和目標(biāo)說(shuō)話(huà)人的語(yǔ)音在語(yǔ)音內(nèi)容，語(yǔ)音時(shí)長(zhǎng)方面都必須相同，因此在訓(xùn)練之前一般需要先采用動(dòng)態(tài)時(shí)間規(guī)整算法對(duì)源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的語(yǔ)音進(jìn)行強(qiáng)制對(duì)齊，這樣必然會(huì)引入失真；并且從實(shí)際應(yīng)用的角度考慮，要求大量的平行訓(xùn)練文本很不方便，甚至不可滿(mǎn)足，例如在跨語(yǔ)種的語(yǔ)音轉(zhuǎn)換中，源和目標(biāo)說(shuō)話(huà)人的語(yǔ)音存在語(yǔ)種的不同，根本不可能獲得平行文本。無(wú)論從方便高效的角度分析，還是從經(jīng)濟(jì)實(shí)用方面考慮，非平行文本條件下語(yǔ)音轉(zhuǎn) 換方法的研究都具有極大的實(shí)際意義和應(yīng)用價(jià)值。目前非平行文本條件下的語(yǔ)音轉(zhuǎn)換算法主要有兩種，基于語(yǔ)音聚類(lèi)的方法和基于參數(shù)自適應(yīng)的方法?；谡Z(yǔ)音聚類(lèi)的方法，是通過(guò)對(duì)語(yǔ)音幀之間距離的度量或者在音素信息的指導(dǎo)下選擇相對(duì)應(yīng)的語(yǔ)音單元進(jìn)行轉(zhuǎn)換，其本質(zhì)是一定條件下將非平行文本轉(zhuǎn)化為平行文本進(jìn)行處理。這類(lèi)方法原理簡(jiǎn)單，但需要對(duì)語(yǔ)音文本內(nèi)容進(jìn)行預(yù)提取，預(yù)提取的結(jié)果會(huì)直接影響語(yǔ)音的轉(zhuǎn)換質(zhì)量；(1. Meng Zhang, Jiaohua Tao, Jani Nurminen. Phoneme cluster based state mapping for text-independent voice conversion. ICASSP, 2009: 4281-4284. 2. Helenca Duxans, Daniel Erro, Javier Perez. Voice conversion of non-aligned data using unit selection. TC-Star Workshop on Speech to Speech Translation, 2006: 237-242.)基于參數(shù)自適應(yīng)的方法，是采用語(yǔ)音識(shí)別中的說(shuō)話(huà)人歸一化或自適應(yīng)方法對(duì)轉(zhuǎn)換模型的參數(shù)進(jìn)行處理，其本質(zhì)是使得預(yù)先建立的模型向基于目標(biāo)說(shuō) 話(huà)人的模型進(jìn)行轉(zhuǎn)化。這類(lèi)方法能夠合理利用預(yù)存儲(chǔ)的說(shuō)話(huà)人信息，但自適應(yīng)過(guò)程會(huì)引起頻譜的平滑，導(dǎo)致轉(zhuǎn)換語(yǔ)音中的說(shuō)話(huà)人個(gè)性信息不強(qiáng)。(1. Yamato Ohtani. Techniques for improving voice conversion based on eigenvoices. Doctoral Thesis, Nara Institute of Science and Technology, March 31, 2010. 2. D. Sundermann, H. Ney, H. Hoge. VTLN-based cross-language voice conversion. ASRU 2003: 676-681·)。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種結(jié)合漢語(yǔ)語(yǔ)言結(jié)構(gòu)特點(diǎn)和說(shuō)話(huà)人自適應(yīng) 思想的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，達(dá)到增強(qiáng)轉(zhuǎn)換語(yǔ)音中的說(shuō)話(huà)人個(gè)性特征的同時(shí)提高轉(zhuǎn)換語(yǔ)音的聽(tīng)覺(jué)質(zhì)量。本發(fā)明為實(shí)現(xiàn)上述發(fā)明目的采用如下技術(shù)方案
一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，包括訓(xùn)練階段和轉(zhuǎn)換階段，其中所述訓(xùn)練階段包括如下步驟
步驟A，語(yǔ)音信號(hào)預(yù)處理步驟分別對(duì)輸入語(yǔ)音信號(hào)依次進(jìn)行預(yù)加重、分幀和加窗處理，所述輸入語(yǔ)音信號(hào)分別包括目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào)；
步驟B，元音幀提取步驟根據(jù)頻域能量分布特征，分別判定經(jīng)步驟A預(yù)處理后的目標(biāo) 說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào)中元音的位置，分別提取目標(biāo)說(shuō)話(huà)人、源說(shuō) 話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào)中的元音幀；
步驟C，元音幀的音素分類(lèi)，對(duì)步驟B提取到的目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的元音幀，根據(jù)漢語(yǔ)元音映射表分別進(jìn)行音素分類(lèi)；
步驟D，元音幀的語(yǔ)音特征提取基于諧波加噪聲模型對(duì)分類(lèi)后的元音幀分別進(jìn)行分解，分別求取目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的元音幀中的諧波成分和噪聲成分，然后對(duì)諧波加噪聲模型的參數(shù)進(jìn)一步降維，提取元音幀中線(xiàn)性譜頻率參數(shù)，最終分別得到目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的元音幀的特征矢量，所述特征矢量包括頻譜特征和韻律特征；
步驟E，對(duì)于步驟D提取到的源說(shuō)話(huà)人的元音幀的特征矢量，訓(xùn)練HMM音素分類(lèi)模型；步驟F，對(duì)于頻譜特征矢量，建立頻譜特征轉(zhuǎn)換模型
F1，對(duì)步驟D所述源說(shuō)話(huà)人的頻譜特征和參考目標(biāo)說(shuō)話(huà)人的頻譜特征分別建立高斯混合模型，分別以各自高斯混合模型的均值矢量構(gòu)成超矢量，然后對(duì)所有超矢量進(jìn)行主成分分析，提取基矢量和偏移量，從而建立主成分語(yǔ)音模型；
F2，模型自適應(yīng)采用步驟D所述目標(biāo)說(shuō)話(huà)人的頻譜特征對(duì)步驟Fl得到的主成分語(yǔ)音模型進(jìn)行模型自適應(yīng)，得到源說(shuō)話(huà)人與目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換模型；
步驟G，對(duì)步驟D得到的源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的韻律特征采用單高斯建模，得到各自的均值和方差；
所述轉(zhuǎn)換階段包括如下步驟
步驟H，輸入源說(shuō)話(huà)人新的語(yǔ)音信號(hào)，對(duì)源說(shuō)話(huà)人輸入的新的語(yǔ)音信號(hào)依次進(jìn)行上述步驟A-步驟D所述的操作，得到源說(shuō)話(huà)人新的語(yǔ)音信號(hào)中元音幀的特征矢量，采用上述步驟 E得到的HMM音素分類(lèi)模型進(jìn)行音素分類(lèi)；
步驟I，采用步驟F2得到的源說(shuō)話(huà)人與目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換模型進(jìn)行語(yǔ)音頻譜轉(zhuǎn)換，得到轉(zhuǎn)換后的目標(biāo)說(shuō)話(huà)人的頻譜特征；
步驟J，對(duì)于步驟H中得到的源說(shuō)話(huà)人的韻律特征，采用步驟G得到的單高斯模型進(jìn)行韻律轉(zhuǎn)換，得到轉(zhuǎn)換后的目標(biāo)說(shuō)話(huà)人的韻律特征；
步驟K，對(duì)步驟F將轉(zhuǎn)換后的頻譜特征和韻律特征經(jīng)過(guò)諧波加噪聲模型進(jìn)行合成，最終得到轉(zhuǎn)換后的語(yǔ)音。進(jìn)一步的，本發(fā)明非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，所述步驟A的預(yù)處理步驟中，所述預(yù)加重處理的預(yù)加重系數(shù)為0. 96，分幀處理按20ms分幀，幀交疊為35%，所述加窗處理采用漢明窗進(jìn)行加窗處理；
進(jìn)一步的，本發(fā)明非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，所述步驟B的元音幀提取步驟如下
B-1，計(jì)算各頻率點(diǎn)處能量的貢獻(xiàn)度^ ；
根據(jù)公式Tmtl =嘗logC^+辦計(jì)算&，其中;表示人耳對(duì)音髙的主觀(guān)感知，f 為當(dāng)前頻率；
,j. FfN …ι FfN ^ -piloSi1+5-iog((i -1)+1)
接著根據(jù)公式G= “1——=——^mwm-^m^，計(jì)算第點(diǎn)頻率處
IOOOt
能量的貢獻(xiàn)度Γ其中i 表示采樣頻率，M為幀長(zhǎng)，頻率分辨率為巧’雙，21|表示人耳對(duì)第 i點(diǎn)頻率處的王觀(guān)感知，i表示頻率點(diǎn)數(shù)，且i為自然數(shù)；
B-2,依次取幀，計(jì)算短時(shí)能量式和短時(shí)平均過(guò)零率毛；
B-3，令當(dāng)前幀的接受系數(shù)為P = ^teI,其中是短時(shí)能量的約束閾值，7是短時(shí)
平均過(guò)零率的約束閾值；當(dāng)所述兩個(gè)約束閾值分別存在，則計(jì)算當(dāng)前幀的短時(shí)能量和短時(shí) 平均過(guò)零率進(jìn)行幀提取，直接進(jìn)入Β-5步；當(dāng)所述兩個(gè)約束閾值不存在，進(jìn)入Β-4步；
Β-4，對(duì)當(dāng)前幀進(jìn)行傅里葉變換，根據(jù)公式‘=^>/>,￡^=|照，分別計(jì)算低
MMFil
頻段能量和高頻段能量，其中‘代表低頻段能量、&代表高頻段能量，Λ-代表第點(diǎn) 頻率的能量，5是第點(diǎn)頻率處能量的貢獻(xiàn)度，ι表示低頻高頻分界點(diǎn)；當(dāng)幀內(nèi)無(wú)聲時(shí)令 1= ，預(yù)先求出ι的值；當(dāng)^ >2^_，判定當(dāng)前幀為元音幀；然后計(jì)算當(dāng)前幀的短
時(shí)能量和短時(shí)平均過(guò)零率進(jìn)行幀提取，給出短時(shí)能量和短時(shí)平均過(guò)零率的約束閾值，指導(dǎo) 后續(xù)幀的時(shí)域檢測(cè)中的閾值選擇；返回步驟B-2 ； B-5,
i，如果步驟B-3所述兩個(gè)約束閾值分別滿(mǎn)足條件式>~且則當(dāng)前幀被接
受為元音幀，繼續(xù)依照B-4步驟按1/F概率進(jìn)行抽樣檢測(cè)
若抽樣檢測(cè)結(jié)果判定當(dāng)前幀是元音幀，返回步驟B-2繼續(xù)進(jìn)行下一幀的判定；若當(dāng)前幀在上述抽樣檢測(cè)中不被接受，丟棄當(dāng)前幀并按比例修改閾值；將當(dāng)前短時(shí)能量和短時(shí)平均過(guò)零率的閾值分別與步驟B-3步的所述的兩個(gè)約束閾值進(jìn)行比較，將比較結(jié) 果中兩者較大的短時(shí)能量閾值、較小的短時(shí)平均過(guò)零率的閾值分別作為新的約束閾值；
，如果步驟Β-3所述兩個(gè)約束閾值不滿(mǎn)足條件式>^ I\ Zn<Zs，則當(dāng)前幀被丟棄，繼續(xù)依照B-4步驟進(jìn)行抽樣檢測(cè)
當(dāng)i >l時(shí)，全部進(jìn)行檢測(cè)；否則按1 抽樣檢測(cè)；
若檢測(cè)結(jié)果表示當(dāng)前幀不是元音幀，則丟棄該當(dāng)前幀，結(jié)束檢測(cè)；
若檢測(cè)結(jié)果表示當(dāng)前幀是元音幀，則接受當(dāng)前幀，并將當(dāng)前短時(shí)能量和短時(shí)平均過(guò)零率的閾值分別與步驟B-3步的所述的兩個(gè)約束閾值進(jìn)行比較，將比較結(jié)果中兩者較小的短時(shí)能量閾值、較大的短時(shí)平均過(guò)零率的閾值分別作為新的約束閾值；轉(zhuǎn)至B-2步驟；重復(fù)上述B-2至B-5步，直至所有元音幀提取完畢。進(jìn)一步的，本發(fā)明非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，所述步驟F建立頻譜特征轉(zhuǎn)換模型的具體實(shí)現(xiàn)過(guò)程如下
第一步，首先建立高斯混合模型，采用源說(shuō)話(huà)人和S個(gè)參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音以平行文本的方式訓(xùn)練高斯混合模型，得到與參考目標(biāo)說(shuō)話(huà)人無(wú)關(guān)的高斯混合模型。接著基于最大似然準(zhǔn)則，使用第S個(gè)參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音對(duì)得到的高斯混合模型進(jìn)行對(duì)應(yīng)的均值自適應(yīng)，得到與參考目標(biāo)說(shuō)話(huà)人有關(guān)的高斯混合模型；其中S = I-S, S表示參考目標(biāo)說(shuō)話(huà)人總數(shù)，S的取值范圍是20 100;
然后將得到的高斯混合模型的所有混合成分均值矢量Zf分別拼接構(gòu)成超矢量，維數(shù)為
2ΒΜ，表示成Iw, D是特征矢量的維數(shù)M是高斯混合度，/f表
示第$個(gè)參考目標(biāo)說(shuō)話(huà)人在聯(lián)合高斯混合模型的第i個(gè)混合成分的均值矢量，上標(biāo)Γ表示轉(zhuǎn)置；
最后對(duì)S個(gè)超矢量進(jìn)行主成分分析，提取基矢量和偏移量《Γ,建立主成分語(yǔ)音模型，在模型中目標(biāo)說(shuō)話(huà)人的均值表示為/^ W=CHOX…為J維權(quán)值矢量；
第二步，用目標(biāo)說(shuō)話(huà)人的訓(xùn)練語(yǔ)音對(duì)主成分語(yǔ)音模型進(jìn)行均值自適應(yīng)，先構(gòu)造輔助函數(shù)詢(xún)，將輔助函數(shù)對(duì)權(quán)值矢量的每一分量求解差分，接著采用期望最大化算法迭代求解非線(xiàn)性方程組，最終得到優(yōu)化后的目標(biāo)說(shuō)話(huà)人對(duì)應(yīng)的權(quán)值矢量A ；
第三步，采用自適應(yīng)后的權(quán)值矢量來(lái)確定源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換函
數(shù)，=巧其中下標(biāo)表示第個(gè)混合成
B-I爾Ifl
分，HS=Il--JMr ,高斯混合模型混合數(shù)共為Jf，^是待轉(zhuǎn)換的當(dāng)前幀，2 是訓(xùn)練階段得到的主成分語(yǔ)音模型，民是基矢量,為偏移量,i是目標(biāo)說(shuō)話(huà)人對(duì)應(yīng)的權(quán)值矢量，^T5
是I的協(xié)方差矩陣，f是:T與JT的互協(xié)方差矩陣。本發(fā)明與現(xiàn)有技術(shù)相比，其顯著優(yōu)點(diǎn)
1、在漢語(yǔ)元音映射理論的指導(dǎo)下將輸入語(yǔ)音分類(lèi)為不同的音素分別進(jìn)行轉(zhuǎn)換，不僅克服了轉(zhuǎn)換系統(tǒng)要求語(yǔ)料內(nèi)容相同的限制，而且符合漢語(yǔ)語(yǔ)言的結(jié)構(gòu)特點(diǎn)，使得轉(zhuǎn)換生成的語(yǔ)音具有良好的自然度；
2、對(duì)于每一個(gè)轉(zhuǎn)換模型而言，處理的語(yǔ)音幀的語(yǔ)義信息是相同的，主要差異表現(xiàn)在話(huà) 者信息方面，轉(zhuǎn)換函數(shù)的建立可以避免語(yǔ)義信息的干擾，保證了重構(gòu)語(yǔ)音中的說(shuō)話(huà)人個(gè)性特征。

圖1是本發(fā)明基于漢語(yǔ)元音映射和主成分語(yǔ)音的非平行文本語(yǔ)音轉(zhuǎn)換的示意圖；圖2是元音幀提取示意圖；圖3是音素分類(lèi)后第i類(lèi)音素的轉(zhuǎn)換流程圖；圖4是基于主成分語(yǔ)音的頻譜轉(zhuǎn)換算法示意圖。
具體實(shí)施方案
下面結(jié)合附圖對(duì)技術(shù)方案的實(shí)施作進(jìn)一步的詳細(xì)描述如圖1，本發(fā)明非平行文本語(yǔ)音轉(zhuǎn)換方法，步驟如下
第一步，對(duì)輸入語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀和加窗等預(yù)處理后，如圖2所示，根據(jù)頻域能量分布特征判定元音的位置，接著計(jì)算已判定為元音幀的短時(shí)能量和平均過(guò)零率，指導(dǎo) 后續(xù)幀在時(shí)域檢測(cè)中的閾值選擇。為適應(yīng)連續(xù)語(yǔ)音幀的短時(shí)能量的不斷變化，系統(tǒng)按概率對(duì)時(shí)域判斷中的接受幀和丟棄幀進(jìn)行抽樣檢測(cè)，并根據(jù)檢測(cè)結(jié)果修正閾值。完成元音幀的檢測(cè)與提取，具體過(guò)程如下
(1)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理，預(yù)加重系數(shù)為0.96，按20ms分幀，幀交疊35%，之后使用漢明窗進(jìn)行加窗處理；
(2)計(jì)算各頻率點(diǎn)處能量的貢獻(xiàn)度^，根據(jù)公式^=^log(‘ + 1)，計(jì)算:Tej表示
人耳對(duì)音高的主觀(guān)感知，其中/為當(dāng)前頻率。接著計(jì)算第i點(diǎn)頻率處能量的貢獻(xiàn)度IjF表示采樣頻率，JV為幀長(zhǎng)，頻率分辨率為，Tii表示人耳對(duì)第#點(diǎn)頻率處的主觀(guān)感知，公
Fi'NFfN
^ IogO*- -Io^O - I)·- - +
_—10001000
式為 ^— .WiN ^ ;
(3)依次取幀，計(jì)算短時(shí)能量和短時(shí)平均過(guò)零率，計(jì)算當(dāng)前幀的短時(shí)能量A，
公式為^ Σ Μ ω(η h)f。一般為消除小的隨機(jī)噪聲
的影響，設(shè)一個(gè)門(mén)「艮e將平均過(guò)零率的含義修改為跨過(guò)正負(fù)門(mén)限的次數(shù)，根據(jù)公
式 ^ =臺(tái)左《M^W—紹—《"fuel 蚤 Μ:*》蚤旬—！+句一》—*)
計(jì)算短時(shí)平均過(guò)零率^ ,其中if為窗長(zhǎng)，《( )為窗函數(shù)，sbhIXBM為標(biāo)記函數(shù)，定義為 r 1 Γ ,
—[咖H ι J、 …式中，、為第個(gè)語(yǔ)音幀，代表語(yǔ)音信號(hào)的總
H，咖<0咖 η1
幀數(shù)。判定是否接受為元音幀，若^是短時(shí)能量的約束閾值，^是短時(shí)平均過(guò)零率的約束閾值，傳統(tǒng)判定中滿(mǎn)足條件式>&且2 <^則接受該幀為元音幀。由于發(fā)聲過(guò)程會(huì)受到環(huán)境、身體狀態(tài)、情緒、發(fā)聲方式及發(fā)聲內(nèi)容的影響，聲音能量相差較大，針對(duì)能量和過(guò)零率
的變化不斷自適應(yīng)調(diào)整閾值，令當(dāng)前幀的接受系數(shù)為P = I5^I。當(dāng)短時(shí)能量和短時(shí)平均過(guò)零率的閾值^和^存在，則計(jì)算當(dāng)前幀的短時(shí)能量和短時(shí)平均過(guò)零率進(jìn)行幀提取，直接進(jìn)入(5)步；當(dāng)短時(shí)能量和短時(shí)過(guò)零率的閾值不存在，進(jìn)入(4)步；
權(quán)利要求
1.一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，其特征在于，包括訓(xùn)練階段和轉(zhuǎn)換階段，其中所述訓(xùn)練階段包括如下步驟步驟A，語(yǔ)音信號(hào)預(yù)處理步驟分別對(duì)輸入語(yǔ)音信號(hào)依次進(jìn)行預(yù)加重、分幀和加窗處理，所述輸入語(yǔ)音信號(hào)分別包括目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào)；步驟B，元音幀提取步驟根據(jù)頻域能量分布特征，分別判定經(jīng)步驟A預(yù)處理后的目標(biāo) 說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào)中元音的位置，分別提取目標(biāo)說(shuō)話(huà)人、源說(shuō) 話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào)中的元音幀；步驟C，元音幀的音素分類(lèi)，對(duì)步驟B提取到的目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的元音幀，根據(jù)漢語(yǔ)元音映射表分別進(jìn)行音素分類(lèi)；步驟D，元音幀的語(yǔ)音特征提取基于諧波加噪聲模型對(duì)分類(lèi)后的元音幀分別進(jìn)行分解，分別求取目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的元音幀中的諧波成分和噪聲成分，然后對(duì)諧波加噪聲模型的參數(shù)進(jìn)一步降維，提取元音幀中線(xiàn)性譜頻率參數(shù)，最終分別得到目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的元音幀的特征矢量，所述特征矢量包括頻譜特征和韻律特征；步驟E，對(duì)于步驟D提取到的源說(shuō)話(huà)人的元音幀的特征矢量，訓(xùn)練HMM音素分類(lèi)模型；步驟F，對(duì)于頻譜特征矢量，建立頻譜特征轉(zhuǎn)換模型F1，對(duì)步驟D所述源說(shuō)話(huà)人的頻譜特征和參考目標(biāo)說(shuō)話(huà)人的頻譜特征分別建立高斯混合模型，分別以各自高斯混合模型的均值矢量構(gòu)成超矢量，然后對(duì)所有超矢量進(jìn)行主成分分析，提取基矢量和偏移量，從而建立主成分語(yǔ)音模型；F2，模型自適應(yīng)采用步驟D所述目標(biāo)說(shuō)話(huà)人的頻譜特征對(duì)步驟Fl得到的主成分語(yǔ)音模型進(jìn)行模型自適應(yīng)，得到源說(shuō)話(huà)人與目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換模型；步驟G，對(duì)步驟D得到的源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的韻律特征采用單高斯建模，得到各自的均值和方差；所述轉(zhuǎn)換階段包括如下步驟步驟H，輸入源說(shuō)話(huà)人新的語(yǔ)音信號(hào)，對(duì)源說(shuō)話(huà)人輸入的新的語(yǔ)音信號(hào)依次進(jìn)行上述步驟A-步驟D所述的操作，得到源說(shuō)話(huà)人新的語(yǔ)音信號(hào)中元音幀的特征矢量，采用上述步驟 E得到的HMM音素分類(lèi)模型進(jìn)行音素分類(lèi)；步驟I，采用步驟F2得到的源說(shuō)話(huà)人與目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換模型進(jìn)行語(yǔ)音頻譜轉(zhuǎn)換，得到轉(zhuǎn)換后的目標(biāo)說(shuō)話(huà)人的頻譜特征；步驟J，對(duì)于步驟H中得到的源說(shuō)話(huà)人的韻律特征，采用步驟G得到的單高斯模型進(jìn)行韻律轉(zhuǎn)換，得到轉(zhuǎn)換后的目標(biāo)說(shuō)話(huà)人的韻律特征；步驟K，對(duì)步驟F將轉(zhuǎn)換后的頻譜特征和韻律特征經(jīng)過(guò)諧波加噪聲模型進(jìn)行合成，最終得到轉(zhuǎn)換后的語(yǔ)音。
2.根據(jù)權(quán)利要求1所述的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，其特征在于，所述步驟 A的預(yù)處理步驟中，所述預(yù)加重處理的預(yù)加重系數(shù)為0. 96，分幀處理按20ms分幀，幀交疊為 35%，所述加窗處理采用漢明窗進(jìn)行加窗處理。
3.根據(jù)權(quán)利要求1所述的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，其特征在于，所述步驟B 的元音幀提取步驟如下B-1，計(jì)算各頻率點(diǎn)處能量的貢獻(xiàn)度
4.根據(jù)權(quán)利要求1所述的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，其特征在于，所述步驟F 建立頻譜特征轉(zhuǎn)換模型的具體實(shí)現(xiàn)過(guò)程如下第一步，首先建立高斯混合模型，采用源說(shuō)話(huà)人和S個(gè)參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音以平行文本的方式訓(xùn)練高斯混合模型，得到與參考目標(biāo)說(shuō)話(huà)人無(wú)關(guān)的高斯混合模型；接著基于最大似然準(zhǔn)則，使用第S個(gè)參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音對(duì)得到的高斯混合模型進(jìn)行對(duì)應(yīng)的均值自適應(yīng)，得到與參考目標(biāo)說(shuō)話(huà)人有關(guān)的高斯混合模型；其中i = , S表示參考目標(biāo)說(shuō)話(huà)人總數(shù)，S的取值范圍是2(Γ100;然后將得到的高斯混合模型的所有混合成分均值矢量,分別拼接構(gòu)成超矢量，維數(shù)為IBM，表示成^w ^IJ^,^f--Pmi ’ D是特征矢量的維數(shù)M是高斯混合度，趕表示第s個(gè)參考目標(biāo)說(shuō)話(huà)人在高斯混合模型的第i個(gè)混合成分的均值矢量，上標(biāo)Γ表示轉(zhuǎn)置；最后對(duì)S個(gè)超矢量進(jìn)行主成分分析，提取基矢量民= Λ· ， \(·^和偏移量I^,建立主成分語(yǔ)音模型，在模型中目標(biāo)說(shuō)話(huà)人的均值表示為 ^[! (IX…為J維權(quán)值矢量；第二步，用目標(biāo)說(shuō)話(huà)人的訓(xùn)練語(yǔ)音對(duì)主成分語(yǔ)音模型進(jìn)行均值自適應(yīng)，先構(gòu)造輔助函數(shù)6( ,將輔助函數(shù)對(duì)權(quán)值矢量的每一分量求解差分，接著采用期望最大化算法迭代求解非線(xiàn)性方程組，最終得到優(yōu)化后的目標(biāo)說(shuō)話(huà)人對(duì)應(yīng)的權(quán)值矢量；第三步，采用自適應(yīng)后的權(quán)值矢量來(lái)確定源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換函數(shù)，，其中下標(biāo)ι 表示第m個(gè)混合成分，m =,高斯混合模型混合數(shù)共為M，A是待轉(zhuǎn)換的當(dāng)前幀，λ^是訓(xùn)練階段得到的主成分語(yǔ)音模型，K是基矢量，C為偏移量，Hf 是目標(biāo)說(shuō)話(huà)人對(duì)應(yīng)的權(quán)值矢量，f是JT的協(xié)方差矩陣,Σ 3是:T與JT的互協(xié)方差矩陣。
全文摘要
本發(fā)明提供一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，屬于語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域。該方法首先對(duì)語(yǔ)音音素分類(lèi)，其次對(duì)分類(lèi)后的語(yǔ)音幀基于諧波加噪聲模型進(jìn)行分解，提取特征矢量；接著在每類(lèi)音素集合中建立特征參數(shù)的轉(zhuǎn)換函數(shù)，通過(guò)對(duì)每一類(lèi)音素的頻譜特征矢量，基于主成分語(yǔ)音分析建立非平行文本條件下的頻譜轉(zhuǎn)換模型；最后在轉(zhuǎn)換階段，形成目標(biāo)說(shuō)話(huà)人的估計(jì)特征，得到轉(zhuǎn)換后的語(yǔ)音。本發(fā)明不僅能夠有效分離語(yǔ)音信號(hào)中的語(yǔ)義信息和話(huà)者身份信息，增強(qiáng)轉(zhuǎn)換語(yǔ)音中的話(huà)者信息，而且克服了訓(xùn)練階段要求平行語(yǔ)料的限制，實(shí)現(xiàn)了非平行文本條件下的語(yǔ)音轉(zhuǎn)換，同時(shí)降低了對(duì)語(yǔ)料數(shù)據(jù)量的依賴(lài)。
文檔編號(hào)G10L13/08GK102063899SQ20101052010
公開(kāi)日2011年5月18日申請(qǐng)日期2010年10月27日優(yōu)先權(quán)日2010年10月27日
發(fā)明者張玲華, 李燕萍申請(qǐng)人:南京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載