基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法
【專利摘要】本發(fā)明提出了一種基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法,首先由源說話人和目標(biāo)說話人的頻譜特征分別訓(xùn)練得到各自的說話人模型,然后利用說話人模型中的參數(shù)找到源說話人特征向量和輔助向量之間的轉(zhuǎn)換函數(shù)、輔助向量和目標(biāo)說話人特征向量之間的轉(zhuǎn)換函數(shù),最后利用這兩個(gè)轉(zhuǎn)換函數(shù)求得源說話人和目標(biāo)說話人之間的轉(zhuǎn)換函數(shù);在語音轉(zhuǎn)換的過程中,使用了說話人模型對齊的方法,并且為了進(jìn)一步提升語音轉(zhuǎn)換的效果,還采用了將說話人模型對齊與高斯混合模型相融合的方法。實(shí)驗(yàn)結(jié)果表明:本發(fā)明在頻譜失真度和相關(guān)度、轉(zhuǎn)換語音的質(zhì)量和相似度上,都取得了比傳統(tǒng)基于INCA的語音轉(zhuǎn)換方法更好的效果。
【專利說明】基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方 法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種語音轉(zhuǎn)換技術(shù),尤其是涉及一種非對稱語音庫條件下的語音轉(zhuǎn)換 方法,屬于語音信號處理【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] 語音轉(zhuǎn)換指的是改變一個(gè)說話人(源說話人)的語音個(gè)性特征使之變?yōu)榱硪粋€(gè)說 話人(目標(biāo)說話人)的語音個(gè)性特征的一種技術(shù)。語音轉(zhuǎn)換技術(shù)有著廣泛的應(yīng)用前景,如 用于個(gè)性化的語音合成、在保密通信領(lǐng)域用于說話人身份的偽裝、在醫(yī)療領(lǐng)域用作受損語 音的恢復(fù)、在低比特率語音通信中的接收端用于說話人個(gè)性特征的恢復(fù)等。
[0003] 為了實(shí)現(xiàn)高質(zhì)量的說話人個(gè)性特征轉(zhuǎn)換,國內(nèi)外學(xué)者提出了很多的語音轉(zhuǎn)換方 法,如碼本映射法、高斯混合模型(Gaussian mixture model, GMM)法、人工神經(jīng)網(wǎng)絡(luò)法、 頻率彎折法、隱馬爾科夫模型法等。然而,這些方法都是針對對稱(相同文本內(nèi)容)語 音庫的情況提出來的,但是在實(shí)際情況中,對稱的語音庫很難直接獲取。因此許多學(xué)者 又提出了基于非對稱語音庫的語音轉(zhuǎn)換方法,如最大似然約束自適應(yīng)法、最近鄰循環(huán)迭代 (Iterative combination of a Nearest Neighbor search step and a Conversion step Alignment, INCA)方法、基于說話人自適應(yīng)的語音轉(zhuǎn)換方法等。但是這些方法仍然存在著較 大的局限性:如最大似然約束自適應(yīng)法需要預(yù)先訓(xùn)練得到參考說話人的轉(zhuǎn)換函數(shù);INCA方 法是建立在特征空間中鄰近的頻譜特征對應(yīng)著相同音素的假設(shè)基礎(chǔ)上,而該假設(shè)在實(shí)際中 往往并不十分準(zhǔn)確,同時(shí)這種訓(xùn)練方法需要較多的訓(xùn)練語句;基于說話人自適應(yīng)的語音轉(zhuǎn) 換方法依賴于第三方說話人訓(xùn)練模型。因此,這些問題都在很大程度上限制了非對稱語音 庫條件下的語音轉(zhuǎn)換技術(shù)的實(shí)際應(yīng)用。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是針對非對稱語音庫情況下的語音轉(zhuǎn)換,提出一種基于說話人模型 對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法。
[0005] 本發(fā)明的技術(shù)方案為:基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換 方法,該方法針對非對稱語音庫的情況,通過引入輔助向量來尋找源說話人和目標(biāo)說話人 之間的轉(zhuǎn)換函數(shù),即先由源說話人和目標(biāo)說話人的頻譜特征分別訓(xùn)練得到各自的說話人模 型,然后利用說話人模型中的均值與協(xié)方差找到源說話人特征向量和輔助向量之間的轉(zhuǎn)換 函數(shù),以及輔助向量和目標(biāo)說話人特征向量之間的轉(zhuǎn)換函數(shù),最后通過所求得的兩個(gè)轉(zhuǎn)換 函數(shù)之間的函數(shù)關(guān)系找到源說話人和目標(biāo)說話人之間的轉(zhuǎn)換函數(shù);在語音轉(zhuǎn)換的過程中, 使用說話人模型對齊的方法,以及將說話人模型對齊與高斯混合模型相融合的方法,最終 通過STRAIGHT語音分析/合成模型對轉(zhuǎn)換后的頻譜特征進(jìn)行合成得到轉(zhuǎn)換語音。
[0006] 基于說話人模型對齊的語音轉(zhuǎn)換方法的具體步驟如下:
[0007] 步驟I,模型訓(xùn)練:運(yùn)用STRAIGHT模型提取源說話人和目標(biāo)說話人的頻譜特征, 獲得源說話人和目標(biāo)說話人的特征向量,分別記為X和y ;通過期望最大化(Expectation maximization, EM)方法分別訓(xùn)練得到源說話人模型和目標(biāo)說話人模型,記為GMMX和GMMy, 這里采用高斯混合模型(Gaussian mixture model, GMM)對GMMjPGMMy進(jìn)行建模,具體為:
[0008]
【權(quán)利要求】
1. 一種基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法,其特征在于:針 對非對稱語音庫的情況,通過引入輔助向量來尋找源說話人和目標(biāo)說話人之間的轉(zhuǎn)換函 數(shù),即先由源說話人和目標(biāo)說話人的頻譜特征分別訓(xùn)練得到各自的說話人模型,然后利用 說話人模型中的均值與協(xié)方差找到源說話人特征向量和輔助向量之間的轉(zhuǎn)換函數(shù),以及輔 助向量和目標(biāo)說話人特征向量之間的轉(zhuǎn)換函數(shù),最后利用這兩個(gè)轉(zhuǎn)換函數(shù)求得源說話人和 目標(biāo)說話人之間的轉(zhuǎn)換函數(shù);在語音轉(zhuǎn)換的過程中,使用說話人模型對齊的方法,以及將說 話人模型對齊與高斯混合模型相融合的方法,最終通過STRAIGHT語音分析/合成模型對轉(zhuǎn) 換后的頻譜特征進(jìn)行合成得到轉(zhuǎn)換語音。
2. 根據(jù)權(quán)利要求1所述的基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方 法,其特征在于,所述的說話人模型對齊方法的步驟具體如下: 步驟I,訓(xùn)練得到說話人模型:運(yùn)用STRAIGHT模型提取源說話人和目標(biāo)說話人的頻譜 特征,獲得源說話人和目標(biāo)說話人的特征向量,分別記為X和y ;通過期望最大化方法分別 訓(xùn)練得到源說話人模型和目標(biāo)說話人模型,記為GMMX和GMMy,具體為:
(1) 其中,P (X)對應(yīng)著GMMX,p (y)對應(yīng)著GMMy,N( ·)表示高斯分布,iVh/i工;^和 ~〇;,///$)分別表示6麗!£和61^模型的第1個(gè)高斯分量,1表示高斯分量的個(gè)數(shù), /|/和# 表示第i個(gè)高斯分量的均值向量,ΣΗΡΙ?表示第i個(gè)高斯分量的協(xié)方差矩陣,0^和Vi表 示第i個(gè)高斯分量所占的權(quán)重,且滿足
步驟II,引入輔助向量并初始化:引入輔助向量序列X' ={V j,其中j表示第j幀, 且j = 1,2,...,J,J表示幀數(shù),且J彡1 ;X'用于每一次迭代搜索后的中間序列,并運(yùn)用期 望最大化方法訓(xùn)練得到輔助向量序列的模型,記作GMMX,,具體表達(dá)式為:
(2) 其中,X '表示輔助向量,表示第i個(gè)高斯分量所占的權(quán)重,且滿足
GMMX,的參數(shù)為
,并且初始化設(shè)定為
步驟III,說話人模型的相似度計(jì)算:GMMX和GMMy不同高斯分量之間的相似度用矩陣D 表示如下:
(3) 其中,扎表示6麗!£的第1個(gè)高斯分量.\仏/(工「)與61^的第」_個(gè)高斯分量~(>%// ::+^ 之間的相似度,并采用對稱的KL Divergence來描述兩個(gè)高斯分量A (X)和fj (X)之間的相 似度,具體為
步驟IV,最近鄰搜索:對GMMX,的每一高斯分量S,通過相似度矩陣D來尋找到GMMy中 與其相似度最高的高斯分量σ (s);類似地,對GMMy中的每一高斯分量t,通過D找到其在 GMMy中對應(yīng)的相似度最高的分量Ψ (t); 步驟V,轉(zhuǎn)換:通過最近鄰搜索,分別得到兩個(gè)均值向量對序列,分別記為
和
分別表示GMM^第s個(gè)高斯分量 的輔助均值向量及其在GMMy中對應(yīng)的高斯分量σ (s)所對應(yīng)的均值向量,/if和/<<t)分別表 示6靈^第七個(gè)高斯分量的輔助均值向量及其在GMMX,中對應(yīng)的高斯分量所對應(yīng)的均 值向量;去除
中重復(fù)的序列對,并連接在一起得到一個(gè)完整的均值 向量對序列{μχ,,yy};利用最小二乘估計(jì)法計(jì)算得到μχ,和間的映射函數(shù): fmu(y X- ) = Αμ x- +b (5) 其中,
T表示矩陣轉(zhuǎn)置,b = μ?_Αμχ,; 將表達(dá)式(5)所示的映射函數(shù)直接用于輔助向量與目標(biāo)說話人特征向量之間的轉(zhuǎn)換, 則轉(zhuǎn)換函數(shù)如下: fmu (χΙ ) = Αχ ; +b (6) 輔助向量X'通過下式得到,具體為: X' = fmu(x,) ⑵ 源說話人特征向量X和輔助向量V之間的轉(zhuǎn)換函數(shù)為: x, = fsa(x) = Cx+d (8) 其中,
步驟VI,通過期望最大化方法對輔助向量序列Γ重新進(jìn)行模型訓(xùn)練得到GMMX,,重復(fù) 上述步驟III?V,直到GMMX,和GMMy之間的相似度滿足收斂條件
'其中δ為一經(jīng) 驗(yàn)常數(shù)。
3.根據(jù)權(quán)利要求1所述的基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方 法,其特征在于,所述的說話人模型對齊與高斯混合模型相融合方法的具體步驟如下: 步驟I,經(jīng)過說話人模型的對齊訓(xùn)練,獲得輔助向量序列Γ ;采用聯(lián)合概率密度對輔 助向量V和目標(biāo)說話人特征向量y組成的特征序列對
進(jìn)行GMM建模,如下:
m 其中,Qi表示第i個(gè)高斯分量所占的權(quán)重,且滿足
μ i和分別表示第i個(gè)高斯分量的均值矩陣和協(xié)方差矩陣; 步驟II,采用最小均方誤差法計(jì)算得到輔助向量和目標(biāo)說話人特征向量之間的轉(zhuǎn)換函 數(shù):
0〇) 其中,p(i|x')表示V屬于第i個(gè)高斯分量的后驗(yàn)概率,滿足
(11) 其中,%表示第j個(gè)高斯分量所占的權(quán)重,且滿足
和 bj(X')分別表示第i個(gè)高斯分量和第j個(gè)高斯分量; 步驟III,根據(jù)表達(dá)式(8)和表達(dá)式(10)得到源說話人特征向量與目標(biāo)說話人特征向量 之間的轉(zhuǎn)換函數(shù):y = F(x) = fat(fsa(x))。
【文檔編號】G10L13/08GK104217721SQ201410399475
【公開日】2014年12月17日 申請日期:2014年8月14日 優(yōu)先權(quán)日:2014年8月14日
【發(fā)明者】宋鵬, 趙力, 金贊 申請人:東南大學(xué)