專(zhuān)利名稱(chēng):一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音轉(zhuǎn)換技術(shù),尤其是一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,屬于 語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域。
背景技術(shù):
語(yǔ)音轉(zhuǎn)換是語(yǔ)音信號(hào)處理領(lǐng)域近年來(lái)新興的研究分支,是在說(shuō)話(huà)人識(shí)別和語(yǔ)音合成的 研究基礎(chǔ)上進(jìn)行的,同時(shí)也是這兩個(gè)分支內(nèi)涵的豐富和延拓。語(yǔ)音轉(zhuǎn)換的目標(biāo)是改變?cè)凑f(shuō)話(huà)人語(yǔ)音中的個(gè)性特征信息,使之具有目標(biāo)說(shuō)話(huà)人的 個(gè)性特征,從而使轉(zhuǎn)換后的語(yǔ)音聽(tīng)起來(lái)就像是目標(biāo)說(shuō)話(huà)人的聲音,而其中的語(yǔ)義信息保持 不變。語(yǔ)音轉(zhuǎn)換的關(guān)鍵問(wèn)題在于說(shuō)話(huà)人個(gè)性特征的提取以及轉(zhuǎn)換模型的建立,經(jīng)過(guò)近 二十年的發(fā)展,涌現(xiàn)出大量的研究成果,但這些方法大多要求訓(xùn)練語(yǔ)音是平行文本,即源說(shuō) 話(huà)人和目標(biāo)說(shuō)話(huà)人的語(yǔ)音在語(yǔ)音內(nèi)容,語(yǔ)音時(shí)長(zhǎng)方面都必須相同,因此在訓(xùn)練之前一般需 要先采用動(dòng)態(tài)時(shí)間規(guī)整算法對(duì)源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的語(yǔ)音進(jìn)行強(qiáng)制對(duì)齊,這樣必然會(huì)引 入失真;并且從實(shí)際應(yīng)用的角度考慮,要求大量的平行訓(xùn)練文本很不方便,甚至不可滿(mǎn)足, 例如在跨語(yǔ)種的語(yǔ)音轉(zhuǎn)換中,源和目標(biāo)說(shuō)話(huà)人的語(yǔ)音存在語(yǔ)種的不同,根本不可能獲得平 行文本。無(wú)論從方便高效的角度分析,還是從經(jīng)濟(jì)實(shí)用方面考慮,非平行文本條件下語(yǔ)音轉(zhuǎn) 換方法的研究都具有極大的實(shí)際意義和應(yīng)用價(jià)值。目前非平行文本條件下的語(yǔ)音轉(zhuǎn)換算法主要有兩種,基于語(yǔ)音聚類(lèi)的方法和基于 參數(shù)自適應(yīng)的方法?;谡Z(yǔ)音聚類(lèi)的方法,是通過(guò)對(duì)語(yǔ)音幀之間距離的度量或者在音素信 息的指導(dǎo)下選擇相對(duì)應(yīng)的語(yǔ)音單元進(jìn)行轉(zhuǎn)換,其本質(zhì)是一定條件下將非平行文本轉(zhuǎn)化為平 行文本進(jìn)行處理。這類(lèi)方法原理簡(jiǎn)單,但需要對(duì)語(yǔ)音文本內(nèi)容進(jìn)行預(yù)提取,預(yù)提取的結(jié)果 會(huì)直接影響語(yǔ)音的轉(zhuǎn)換質(zhì)量;(1. Meng Zhang, Jiaohua Tao, Jani Nurminen. Phoneme cluster based state mapping for text-independent voice conversion. ICASSP, 2009: 4281-4284. 2. Helenca Duxans, Daniel Erro, Javier Perez. Voice conversion of non-aligned data using unit selection. TC-Star Workshop on Speech to Speech Translation, 2006: 237-242.)基于參數(shù)自適應(yīng)的方法,是采用語(yǔ)音識(shí)別中的說(shuō)話(huà)人歸一 化或自適應(yīng)方法對(duì)轉(zhuǎn)換模型的參數(shù)進(jìn)行處理,其本質(zhì)是使得預(yù)先建立的模型向基于目標(biāo)說(shuō) 話(huà)人的模型進(jìn)行轉(zhuǎn)化。這類(lèi)方法能夠合理利用預(yù)存儲(chǔ)的說(shuō)話(huà)人信息,但自適應(yīng)過(guò)程會(huì)引起 頻譜的平滑,導(dǎo)致轉(zhuǎn)換語(yǔ)音中的說(shuō)話(huà)人個(gè)性信息不強(qiáng)。(1. Yamato Ohtani. Techniques for improving voice conversion based on eigenvoices. Doctoral Thesis, Nara Institute of Science and Technology, March 31, 2010. 2. D. Sundermann, H. Ney, H. Hoge. VTLN-based cross-language voice conversion. ASRU 2003: 676-681·)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種結(jié)合漢語(yǔ)語(yǔ)言結(jié)構(gòu)特點(diǎn)和說(shuō)話(huà)人自適應(yīng) 思想的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,達(dá)到增強(qiáng)轉(zhuǎn)換語(yǔ)音中的說(shuō)話(huà)人個(gè)性特征的同時(shí)提高轉(zhuǎn)換語(yǔ)音的聽(tīng)覺(jué)質(zhì)量。本發(fā)明為實(shí)現(xiàn)上述發(fā)明目的采用如下技術(shù)方案
一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,包括訓(xùn)練階段和轉(zhuǎn)換階段,其中所述訓(xùn)練階 段包括如下步驟
步驟A,語(yǔ)音信號(hào)預(yù)處理步驟分別對(duì)輸入語(yǔ)音信號(hào)依次進(jìn)行預(yù)加重、分幀和加窗處 理,所述輸入語(yǔ)音信號(hào)分別包括目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào);
步驟B,元音幀提取步驟根據(jù)頻域能量分布特征,分別判定經(jīng)步驟A預(yù)處理后的目標(biāo) 說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào)中元音的位置,分別提取目標(biāo)說(shuō)話(huà)人、源說(shuō) 話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào)中的元音幀;
步驟C,元音幀的音素分類(lèi),對(duì)步驟B提取到的目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人 的元音幀,根據(jù)漢語(yǔ)元音映射表分別進(jìn)行音素分類(lèi);
步驟D,元音幀的語(yǔ)音特征提取基于諧波加噪聲模型對(duì)分類(lèi)后的元音幀分別進(jìn)行分 解,分別求取目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的元音幀中的諧波成分和噪聲成分, 然后對(duì)諧波加噪聲模型的參數(shù)進(jìn)一步降維,提取元音幀中線(xiàn)性譜頻率參數(shù),最終分別得到 目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的元音幀的特征矢量,所述特征矢量包括頻譜特征 和韻律特征;
步驟E,對(duì)于步驟D提取到的源說(shuō)話(huà)人的元音幀的特征矢量,訓(xùn)練HMM音素分類(lèi)模型; 步驟F,對(duì)于頻譜特征矢量,建立頻譜特征轉(zhuǎn)換模型
F1,對(duì)步驟D所述源說(shuō)話(huà)人的頻譜特征和參考目標(biāo)說(shuō)話(huà)人的頻譜特征分別建立高斯混 合模型,分別以各自高斯混合模型的均值矢量構(gòu)成超矢量,然后對(duì)所有超矢量進(jìn)行主成分 分析,提取基矢量和偏移量,從而建立主成分語(yǔ)音模型;
F2,模型自適應(yīng)采用步驟D所述目標(biāo)說(shuō)話(huà)人的頻譜特征對(duì)步驟Fl得到的主成分語(yǔ)音 模型進(jìn)行模型自適應(yīng),得到源說(shuō)話(huà)人與目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換模型;
步驟G,對(duì)步驟D得到的源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的韻律特征采用單高斯建模,得到各自 的均值和方差;
所述轉(zhuǎn)換階段包括如下步驟
步驟H,輸入源說(shuō)話(huà)人新的語(yǔ)音信號(hào),對(duì)源說(shuō)話(huà)人輸入的新的語(yǔ)音信號(hào)依次進(jìn)行上述步 驟A-步驟D所述的操作,得到源說(shuō)話(huà)人新的語(yǔ)音信號(hào)中元音幀的特征矢量,采用上述步驟 E得到的HMM音素分類(lèi)模型進(jìn)行音素分類(lèi);
步驟I,采用步驟F2得到的源說(shuō)話(huà)人與目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換模型進(jìn)行語(yǔ)音頻譜 轉(zhuǎn)換,得到轉(zhuǎn)換后的目標(biāo)說(shuō)話(huà)人的頻譜特征;
步驟J,對(duì)于步驟H中得到的源說(shuō)話(huà)人的韻律特征,采用步驟G得到的單高斯模型進(jìn)行 韻律轉(zhuǎn)換,得到轉(zhuǎn)換后的目標(biāo)說(shuō)話(huà)人的韻律特征;
步驟K,對(duì)步驟F將轉(zhuǎn)換后的頻譜特征和韻律特征經(jīng)過(guò)諧波加噪聲模型進(jìn)行合成,最終 得到轉(zhuǎn)換后的語(yǔ)音。進(jìn)一步的,本發(fā)明非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,所述步驟A的預(yù)處理步驟 中,所述預(yù)加重處理的預(yù)加重系數(shù)為0. 96,分幀處理按20ms分幀,幀交疊為35%,所述加窗 處理采用漢明窗進(jìn)行加窗處理;
進(jìn)一步的,本發(fā)明非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,所述步驟B的元音幀提取步驟如下
B-1,計(jì)算各頻率點(diǎn)處能量的貢獻(xiàn)度^ ;
根據(jù)公式Tmtl =嘗logC^+辦計(jì)算&,其中;表示人耳對(duì)音髙的主觀(guān)感知,f 為當(dāng)前頻率;
,j. FfN …ι FfN ^ -piloSi1+5-iog((i -1)+1)
接著根據(jù)公式G= “1——=——^mwm-^m^,計(jì)算第點(diǎn)頻率處
IOOOt
能量的貢獻(xiàn)度Γ其中i 表示采樣頻率,M為幀長(zhǎng),頻率分辨率為巧’雙,21|表示人耳對(duì)第 i點(diǎn)頻率處的王觀(guān)感知,i表示頻率點(diǎn)數(shù),且i為自然數(shù);
B-2,依次取幀,計(jì)算短時(shí)能量式和短時(shí)平均過(guò)零率毛;
B-3,令當(dāng)前幀的接受系數(shù)為P = ^teI,其中是短時(shí)能量的約束閾值,7是短時(shí)
平均過(guò)零率的約束閾值;當(dāng)所述兩個(gè)約束閾值分別存在,則計(jì)算當(dāng)前幀的短時(shí)能量和短時(shí) 平均過(guò)零率進(jìn)行幀提取,直接進(jìn)入Β-5步;當(dāng)所述兩個(gè)約束閾值不存在,進(jìn)入Β-4步;
Β-4,對(duì)當(dāng)前幀進(jìn)行傅里葉變換,根據(jù)公式‘=^>/>,£^=|照,分別計(jì)算低
MMFil
頻段能量和高頻段能量,其中‘代表低頻段能量、&代表高頻段能量,Λ-代表第 點(diǎn) 頻率的能量,5是第 點(diǎn)頻率處能量的貢獻(xiàn)度,ι表示低頻高頻分界點(diǎn);當(dāng)幀內(nèi)無(wú)聲時(shí)令 1= ,預(yù)先求出ι的值;當(dāng)^ >2^_,判定當(dāng)前幀為元音幀;然后計(jì)算當(dāng)前幀的短
時(shí)能量和短時(shí)平均過(guò)零率進(jìn)行幀提取,給出短時(shí)能量和短時(shí)平均過(guò)零率的約束閾值,指導(dǎo) 后續(xù)幀的時(shí)域檢測(cè)中的閾值選擇;返回步驟B-2 ; B-5,
i,如果步驟B-3所述兩個(gè)約束閾值分別滿(mǎn)足條件式>~且則當(dāng)前幀被接
受為元音幀,繼續(xù)依照B-4步驟按1/F概率進(jìn)行抽樣檢測(cè)
若抽樣檢測(cè)結(jié)果判定當(dāng)前幀是元音幀,返回步驟B-2繼續(xù)進(jìn)行下一幀的判定; 若當(dāng)前幀在上述抽樣檢測(cè)中不被接受,丟棄當(dāng)前幀并按比例修改閾值;將當(dāng)前短時(shí)能 量和短時(shí)平均過(guò)零率的閾值分別與步驟B-3步的所述的兩個(gè)約束閾值進(jìn)行比較,將比較結(jié) 果中兩者較大的短時(shí)能量閾值、較小的短時(shí)平均過(guò)零率的閾值分別作為新的約束閾值;
,如果步驟Β-3所述兩個(gè)約束閾值不滿(mǎn)足條件式>^ I\ Zn<Zs,則當(dāng)前幀被丟棄, 繼續(xù)依照B-4步驟進(jìn)行抽樣檢測(cè)
當(dāng)i >l時(shí),全部進(jìn)行檢測(cè);否則按1 抽樣檢測(cè);
若檢測(cè)結(jié)果表示當(dāng)前幀不是元音幀,則丟棄該當(dāng)前幀,結(jié)束檢測(cè);
若檢測(cè)結(jié)果表示當(dāng)前幀是元音幀,則接受當(dāng)前幀,并將當(dāng)前短時(shí)能量和短時(shí)平均過(guò)零率的閾值分別與步驟B-3步的所述的兩個(gè)約束閾值進(jìn)行比較,將比較結(jié)果中兩者較小的短 時(shí)能量閾值、較大的短時(shí)平均過(guò)零率的閾值分別作為新的約束閾值;轉(zhuǎn)至B-2步驟; 重復(fù)上述B-2至B-5步,直至所有元音幀提取完畢。進(jìn)一步的,本發(fā)明非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,所述步驟F建立頻譜特征 轉(zhuǎn)換模型的具體實(shí)現(xiàn)過(guò)程如下
第一步,首先建立高斯混合模型,采用源說(shuō)話(huà)人和S個(gè)參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音以平行 文本的方式訓(xùn)練高斯混合模型,得到與參考目標(biāo)說(shuō)話(huà)人無(wú)關(guān)的高斯混合模型。接著基于最 大似然準(zhǔn)則,使用第S個(gè)參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音對(duì)得到的高斯混合模型進(jìn)行對(duì)應(yīng)的均值自 適應(yīng),得到與參考目標(biāo)說(shuō)話(huà)人有關(guān)的高斯混合模型;其中S = I-S, S表示參考目標(biāo)說(shuō)話(huà)人 總數(shù),S的取值范圍是20 100;
然后將得到的高斯混合模型的所有混合成分均值矢量Zf分別拼接構(gòu)成超矢量,維數(shù)為
2ΒΜ,表示成Iw, D是特征矢量的維數(shù)M是高斯混合度,/f表
示第$個(gè)參考目標(biāo)說(shuō)話(huà)人在聯(lián)合高斯混合模型的第i個(gè)混合成分的均值矢量,上標(biāo)Γ表示 轉(zhuǎn)置;
最后對(duì)S個(gè)超矢量進(jìn)行主成分分析,提取基矢量和偏移 量《Γ,建立主成分語(yǔ)音模型,在模型中目標(biāo)說(shuō)話(huà)人的均值表示為/^ W=CHOX…為J維權(quán)值矢量;
第二步,用目標(biāo)說(shuō)話(huà)人的訓(xùn)練語(yǔ)音對(duì)主成分語(yǔ)音模型進(jìn)行均值自適應(yīng),先構(gòu)造輔助函 數(shù)詢(xún),將輔助函數(shù)對(duì)權(quán)值矢量的每一分量求解差分,接著采用期望最大化算法迭代求 解非線(xiàn)性方程組,最終得到優(yōu)化后的目標(biāo)說(shuō)話(huà)人對(duì)應(yīng)的權(quán)值矢量A ;
第三步,采用自適應(yīng)后的權(quán)值矢量來(lái)確定源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換函
數(shù),=巧其中下標(biāo)表示第個(gè)混合成
B-I爾Ifl
分,HS=Il--JMr ,高斯混合模型混合數(shù)共為Jf,^是待轉(zhuǎn)換的當(dāng)前幀,2 是訓(xùn)練階段得 到的主成分語(yǔ)音模型,民是基矢量,為偏移量,i是目標(biāo)說(shuō)話(huà)人對(duì)應(yīng)的權(quán)值矢量,^T5
是I的協(xié)方差矩陣,f是:T與JT的互協(xié)方差矩陣。本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)
1、在漢語(yǔ)元音映射理論的指導(dǎo)下將輸入語(yǔ)音分類(lèi)為不同的音素分別進(jìn)行轉(zhuǎn)換,不僅克 服了轉(zhuǎn)換系統(tǒng)要求語(yǔ)料內(nèi)容相同的限制,而且符合漢語(yǔ)語(yǔ)言的結(jié)構(gòu)特點(diǎn),使得轉(zhuǎn)換生成的 語(yǔ)音具有良好的自然度;
2、對(duì)于每一個(gè)轉(zhuǎn)換模型而言,處理的語(yǔ)音幀的語(yǔ)義信息是相同的,主要差異表現(xiàn)在話(huà) 者信息方面,轉(zhuǎn)換函數(shù)的建立可以避免語(yǔ)義信息的干擾,保證了重構(gòu)語(yǔ)音中的說(shuō)話(huà)人個(gè)性 特征。
圖1是本發(fā)明基于漢語(yǔ)元音映射和主成分語(yǔ)音的非平行文本語(yǔ)音轉(zhuǎn)換的示意圖;圖2是元音幀提取示意圖; 圖3是音素分類(lèi)后第i類(lèi)音素的轉(zhuǎn)換流程圖; 圖4是基于主成分語(yǔ)音的頻譜轉(zhuǎn)換算法示意圖。
具體實(shí)施方案
下面結(jié)合附圖對(duì)技術(shù)方案的實(shí)施作進(jìn)一步的詳細(xì)描述 如圖1,本發(fā)明非平行文本語(yǔ)音轉(zhuǎn)換方法,步驟如下
第一步,對(duì)輸入語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀和加窗等預(yù)處理后,如圖2所示,根據(jù)頻域 能量分布特征判定元音的位置,接著計(jì)算已判定為元音幀的短時(shí)能量和平均過(guò)零率,指導(dǎo) 后續(xù)幀在時(shí)域檢測(cè)中的閾值選擇。為適應(yīng)連續(xù)語(yǔ)音幀的短時(shí)能量的不斷變化,系統(tǒng)按概率 對(duì)時(shí)域判斷中的接受幀和丟棄幀進(jìn)行抽樣檢測(cè),并根據(jù)檢測(cè)結(jié)果修正閾值。完成元音幀的 檢測(cè)與提取,具體過(guò)程如下
(1)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,預(yù)加重系數(shù)為0.96,按20ms分幀,幀交疊35%,之后使用漢 明窗進(jìn)行加窗處理;
(2)計(jì)算各頻率點(diǎn)處能量的貢獻(xiàn)度^,根據(jù)公式^=^log(‘ + 1),計(jì)算:Tej表示
人耳對(duì)音高的主觀(guān)感知,其中/為當(dāng)前頻率。接著計(jì)算第i點(diǎn)頻率處能量的貢獻(xiàn)度IjF表 示采樣頻率,JV為幀長(zhǎng),頻率分辨率為,Tii表示人耳對(duì)第#點(diǎn)頻率處的主觀(guān)感知,公
Fi'NFfN
^ IogO*- -Io^O - I)·- - +
_—10001000
式為 ^— .WiN ^ ;
(3)依次取幀,計(jì)算短時(shí)能量和短時(shí)平均過(guò)零率,計(jì)算當(dāng)前幀的短時(shí)能量A,
公式為^ Σ Μ ω(η h)f。一般為消除小的隨機(jī)噪聲
的影響,設(shè)一個(gè)門(mén)「艮e將平均過(guò)零率的含義修改為跨過(guò)正負(fù)門(mén)限的次數(shù),根據(jù)公
式 ^ =臺(tái)左《M^W—紹—《"fuel 蚤 Μ:*》蚤旬—!+句一》—*)
計(jì)算短時(shí)平均過(guò)零率^ ,其中if為窗長(zhǎng),《( )為窗函數(shù),sbhIXBM為標(biāo)記函數(shù),定義為 r 1 Γ ,
—[咖H ι J、 …式中,、為第個(gè)語(yǔ)音幀,代表語(yǔ)音信號(hào)的總
H,咖<0咖 η1
幀數(shù)。判定是否接受為元音幀,若^是短時(shí)能量的約束閾值,^是短時(shí)平均過(guò)零率的約束 閾值,傳統(tǒng)判定中滿(mǎn)足條件式>&且2 <^則接受該幀為元音幀。由于發(fā)聲過(guò)程會(huì)受到 環(huán)境、身體狀態(tài)、情緒、發(fā)聲方式及發(fā)聲內(nèi)容的影響,聲音能量相差較大,針對(duì)能量和過(guò)零率
的變化不斷自適應(yīng)調(diào)整閾值,令當(dāng)前幀的接受系數(shù)為P = I5^I。當(dāng)短時(shí)能量和短時(shí)平均過(guò)零率的閾值^和^存在,則計(jì)算當(dāng)前幀的短時(shí)能量和短時(shí)平均過(guò)零率進(jìn)行幀提取,直 接進(jìn)入(5)步;當(dāng)短時(shí)能量和短時(shí)過(guò)零率的閾值不存在,進(jìn)入(4)步;
權(quán)利要求
1.一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,其特征在于,包括訓(xùn)練階段和轉(zhuǎn)換階段,其 中所述訓(xùn)練階段包括如下步驟步驟A,語(yǔ)音信號(hào)預(yù)處理步驟分別對(duì)輸入語(yǔ)音信號(hào)依次進(jìn)行預(yù)加重、分幀和加窗處 理,所述輸入語(yǔ)音信號(hào)分別包括目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào);步驟B,元音幀提取步驟根據(jù)頻域能量分布特征,分別判定經(jīng)步驟A預(yù)處理后的目標(biāo) 說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào)中元音的位置,分別提取目標(biāo)說(shuō)話(huà)人、源說(shuō) 話(huà)人、參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音信號(hào)中的元音幀;步驟C,元音幀的音素分類(lèi),對(duì)步驟B提取到的目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人 的元音幀,根據(jù)漢語(yǔ)元音映射表分別進(jìn)行音素分類(lèi);步驟D,元音幀的語(yǔ)音特征提取基于諧波加噪聲模型對(duì)分類(lèi)后的元音幀分別進(jìn)行分 解,分別求取目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的元音幀中的諧波成分和噪聲成分, 然后對(duì)諧波加噪聲模型的參數(shù)進(jìn)一步降維,提取元音幀中線(xiàn)性譜頻率參數(shù),最終分別得到 目標(biāo)說(shuō)話(huà)人、源說(shuō)話(huà)人、參考目標(biāo)說(shuō)話(huà)人的元音幀的特征矢量,所述特征矢量包括頻譜特征 和韻律特征;步驟E,對(duì)于步驟D提取到的源說(shuō)話(huà)人的元音幀的特征矢量,訓(xùn)練HMM音素分類(lèi)模型; 步驟F,對(duì)于頻譜特征矢量,建立頻譜特征轉(zhuǎn)換模型F1,對(duì)步驟D所述源說(shuō)話(huà)人的頻譜特征和參考目標(biāo)說(shuō)話(huà)人的頻譜特征分別建立高斯混 合模型,分別以各自高斯混合模型的均值矢量構(gòu)成超矢量,然后對(duì)所有超矢量進(jìn)行主成分 分析,提取基矢量和偏移量,從而建立主成分語(yǔ)音模型;F2,模型自適應(yīng)采用步驟D所述目標(biāo)說(shuō)話(huà)人的頻譜特征對(duì)步驟Fl得到的主成分語(yǔ)音 模型進(jìn)行模型自適應(yīng),得到源說(shuō)話(huà)人與目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換模型;步驟G,對(duì)步驟D得到的源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的韻律特征采用單高斯建模,得到各自 的均值和方差;所述轉(zhuǎn)換階段包括如下步驟步驟H,輸入源說(shuō)話(huà)人新的語(yǔ)音信號(hào),對(duì)源說(shuō)話(huà)人輸入的新的語(yǔ)音信號(hào)依次進(jìn)行上述步 驟A-步驟D所述的操作,得到源說(shuō)話(huà)人新的語(yǔ)音信號(hào)中元音幀的特征矢量,采用上述步驟 E得到的HMM音素分類(lèi)模型進(jìn)行音素分類(lèi);步驟I,采用步驟F2得到的源說(shuō)話(huà)人與目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換模型進(jìn)行語(yǔ)音頻譜 轉(zhuǎn)換,得到轉(zhuǎn)換后的目標(biāo)說(shuō)話(huà)人的頻譜特征;步驟J,對(duì)于步驟H中得到的源說(shuō)話(huà)人的韻律特征,采用步驟G得到的單高斯模型進(jìn)行 韻律轉(zhuǎn)換,得到轉(zhuǎn)換后的目標(biāo)說(shuō)話(huà)人的韻律特征;步驟K,對(duì)步驟F將轉(zhuǎn)換后的頻譜特征和韻律特征經(jīng)過(guò)諧波加噪聲模型進(jìn)行合成,最終 得到轉(zhuǎn)換后的語(yǔ)音。
2.根據(jù)權(quán)利要求1所述的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,其特征在于,所述步驟 A的預(yù)處理步驟中,所述預(yù)加重處理的預(yù)加重系數(shù)為0. 96,分幀處理按20ms分幀,幀交疊為 35%,所述加窗處理采用漢明窗進(jìn)行加窗處理。
3.根據(jù)權(quán)利要求1所述的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,其特征在于,所述步驟B 的元音幀提取步驟如下B-1,計(jì)算各頻率點(diǎn)處能量的貢獻(xiàn)度
4.根據(jù)權(quán)利要求1所述的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,其特征在于,所述步驟F 建立頻譜特征轉(zhuǎn)換模型的具體實(shí)現(xiàn)過(guò)程如下第一步,首先建立高斯混合模型,采用源說(shuō)話(huà)人和S個(gè)參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音以平行 文本的方式訓(xùn)練高斯混合模型,得到與參考目標(biāo)說(shuō)話(huà)人無(wú)關(guān)的高斯混合模型;接著基于最 大似然準(zhǔn)則,使用第S個(gè)參考目標(biāo)說(shuō)話(huà)人的語(yǔ)音對(duì)得到的高斯混合模型進(jìn)行對(duì)應(yīng)的均值自 適應(yīng),得到與參考目標(biāo)說(shuō)話(huà)人有關(guān)的高斯混合模型;其中i = , S表示參考目標(biāo)說(shuō)話(huà)人 總數(shù),S的取值范圍是2(Γ100;然后將得到的高斯混合模型的所有混合成分均值矢量,分別拼接構(gòu)成超矢量,維數(shù)為IBM,表示成^w ^IJ^,^f--Pmi ’ D是特征矢量的維數(shù)M是高斯混合度,趕表 示第s個(gè)參考目標(biāo)說(shuō)話(huà)人在高斯混合模型的第i個(gè)混合成分的均值矢量,上標(biāo)Γ表示轉(zhuǎn)置; 最后對(duì)S個(gè)超矢量進(jìn)行主成分分析,提取基矢量民= Λ· , \(·^和偏移量I^,建立主成分語(yǔ)音模型,在模型中目標(biāo)說(shuō)話(huà)人的均值表示為 ^[! (IX…為J維權(quán)值矢量;第二步,用目標(biāo)說(shuō)話(huà)人的訓(xùn)練語(yǔ)音對(duì)主成分語(yǔ)音模型進(jìn)行均值自適應(yīng),先構(gòu)造輔助函 數(shù)6( ,將輔助函數(shù)對(duì)權(quán)值矢量的每一分量求解差分,接著采用期望最大化算法迭代求 解非線(xiàn)性方程組,最終得到優(yōu)化后的目標(biāo)說(shuō)話(huà)人對(duì)應(yīng)的權(quán)值矢量;第三步,采用自適應(yīng)后的權(quán)值矢量來(lái)確定源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的頻譜特征轉(zhuǎn)換函數(shù),,其中下標(biāo)ι 表示第m個(gè)混合成分,m =,高斯混合模型混合數(shù)共為M,A是待轉(zhuǎn)換的當(dāng)前幀,λ^是訓(xùn)練階段得到的主成分語(yǔ)音模型,K是基矢量,C為偏移量,Hf 是目標(biāo)說(shuō)話(huà)人對(duì)應(yīng)的權(quán)值矢量,f是JT的協(xié)方差矩陣,Σ 3是:T與JT的互協(xié)方差矩陣。
全文摘要
本發(fā)明提供一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,屬于語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域。該方法首先對(duì)語(yǔ)音音素分類(lèi),其次對(duì)分類(lèi)后的語(yǔ)音幀基于諧波加噪聲模型進(jìn)行分解,提取特征矢量;接著在每類(lèi)音素集合中建立特征參數(shù)的轉(zhuǎn)換函數(shù),通過(guò)對(duì)每一類(lèi)音素的頻譜特征矢量,基于主成分語(yǔ)音分析建立非平行文本條件下的頻譜轉(zhuǎn)換模型;最后在轉(zhuǎn)換階段,形成目標(biāo)說(shuō)話(huà)人的估計(jì)特征,得到轉(zhuǎn)換后的語(yǔ)音。本發(fā)明不僅能夠有效分離語(yǔ)音信號(hào)中的語(yǔ)義信息和話(huà)者身份信息,增強(qiáng)轉(zhuǎn)換語(yǔ)音中的話(huà)者信息,而且克服了訓(xùn)練階段要求平行語(yǔ)料的限制,實(shí)現(xiàn)了非平行文本條件下的語(yǔ)音轉(zhuǎn)換,同時(shí)降低了對(duì)語(yǔ)料數(shù)據(jù)量的依賴(lài)。
文檔編號(hào)G10L13/08GK102063899SQ20101052010
公開(kāi)日2011年5月18日 申請(qǐng)日期2010年10月27日 優(yōu)先權(quán)日2010年10月27日
發(fā)明者張玲華, 李燕萍 申請(qǐng)人:南京郵電大學(xué)