基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法

文檔序號：2827713閱讀：505來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法
【專利摘要】本發(fā)明提出了一種基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法，首先由源說話人和目標(biāo)說話人的頻譜特征分別訓(xùn)練得到各自的說話人模型，然后利用說話人模型中的參數(shù)找到源說話人特征向量和輔助向量之間的轉(zhuǎn)換函數(shù)、輔助向量和目標(biāo)說話人特征向量之間的轉(zhuǎn)換函數(shù)，最后利用這兩個(gè)轉(zhuǎn)換函數(shù)求得源說話人和目標(biāo)說話人之間的轉(zhuǎn)換函數(shù)；在語音轉(zhuǎn)換的過程中，使用了說話人模型對齊的方法，并且為了進(jìn)一步提升語音轉(zhuǎn)換的效果，還采用了將說話人模型對齊與高斯混合模型相融合的方法。實(shí)驗(yàn)結(jié)果表明：本發(fā)明在頻譜失真度和相關(guān)度、轉(zhuǎn)換語音的質(zhì)量和相似度上，都取得了比傳統(tǒng)基于INCA的語音轉(zhuǎn)換方法更好的效果。
【專利說明】基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種語音轉(zhuǎn)換技術(shù)，尤其是涉及一種非對稱語音庫條件下的語音轉(zhuǎn)換方法，屬于語音信號處理【技術(shù)領(lǐng)域】。

【背景技術(shù)】
[0002] 語音轉(zhuǎn)換指的是改變一個(gè)說話人（源說話人）的語音個(gè)性特征使之變?yōu)榱硪粋€(gè)說話人（目標(biāo)說話人）的語音個(gè)性特征的一種技術(shù)。語音轉(zhuǎn)換技術(shù)有著廣泛的應(yīng)用前景，如用于個(gè)性化的語音合成、在保密通信領(lǐng)域用于說話人身份的偽裝、在醫(yī)療領(lǐng)域用作受損語音的恢復(fù)、在低比特率語音通信中的接收端用于說話人個(gè)性特征的恢復(fù)等。
[0003] 為了實(shí)現(xiàn)高質(zhì)量的說話人個(gè)性特征轉(zhuǎn)換，國內(nèi)外學(xué)者提出了很多的語音轉(zhuǎn)換方法，如碼本映射法、高斯混合模型（Gaussian mixture model, GMM)法、人工神經(jīng)網(wǎng)絡(luò)法、頻率彎折法、隱馬爾科夫模型法等。然而，這些方法都是針對對稱（相同文本內(nèi)容）語音庫的情況提出來的，但是在實(shí)際情況中，對稱的語音庫很難直接獲取。因此許多學(xué)者又提出了基于非對稱語音庫的語音轉(zhuǎn)換方法，如最大似然約束自適應(yīng)法、最近鄰循環(huán)迭代 (Iterative combination of a Nearest Neighbor search step and a Conversion step Alignment, INCA)方法、基于說話人自適應(yīng)的語音轉(zhuǎn)換方法等。但是這些方法仍然存在著較大的局限性：如最大似然約束自適應(yīng)法需要預(yù)先訓(xùn)練得到參考說話人的轉(zhuǎn)換函數(shù)；INCA方法是建立在特征空間中鄰近的頻譜特征對應(yīng)著相同音素的假設(shè)基礎(chǔ)上，而該假設(shè)在實(shí)際中往往并不十分準(zhǔn)確，同時(shí)這種訓(xùn)練方法需要較多的訓(xùn)練語句；基于說話人自適應(yīng)的語音轉(zhuǎn) 換方法依賴于第三方說話人訓(xùn)練模型。因此，這些問題都在很大程度上限制了非對稱語音庫條件下的語音轉(zhuǎn)換技術(shù)的實(shí)際應(yīng)用。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是針對非對稱語音庫情況下的語音轉(zhuǎn)換，提出一種基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法。
[0005] 本發(fā)明的技術(shù)方案為：基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法，該方法針對非對稱語音庫的情況，通過引入輔助向量來尋找源說話人和目標(biāo)說話人之間的轉(zhuǎn)換函數(shù)，即先由源說話人和目標(biāo)說話人的頻譜特征分別訓(xùn)練得到各自的說話人模型，然后利用說話人模型中的均值與協(xié)方差找到源說話人特征向量和輔助向量之間的轉(zhuǎn)換函數(shù)，以及輔助向量和目標(biāo)說話人特征向量之間的轉(zhuǎn)換函數(shù)，最后通過所求得的兩個(gè)轉(zhuǎn)換函數(shù)之間的函數(shù)關(guān)系找到源說話人和目標(biāo)說話人之間的轉(zhuǎn)換函數(shù)；在語音轉(zhuǎn)換的過程中，使用說話人模型對齊的方法，以及將說話人模型對齊與高斯混合模型相融合的方法，最終通過STRAIGHT語音分析/合成模型對轉(zhuǎn)換后的頻譜特征進(jìn)行合成得到轉(zhuǎn)換語音。
[0006] 基于說話人模型對齊的語音轉(zhuǎn)換方法的具體步驟如下：
[0007] 步驟I，模型訓(xùn)練：運(yùn)用STRAIGHT模型提取源說話人和目標(biāo)說話人的頻譜特征，獲得源說話人和目標(biāo)說話人的特征向量，分別記為X和y ;通過期望最大化（Expectation maximization, EM)方法分別訓(xùn)練得到源說話人模型和目標(biāo)說話人模型，記為GMMX和GMMy, 這里采用高斯混合模型（Gaussian mixture model, GMM)對GMMjPGMMy進(jìn)行建模，具體為：
[0008]

【權(quán)利要求】
1. 一種基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法，其特征在于：針對非對稱語音庫的情況，通過引入輔助向量來尋找源說話人和目標(biāo)說話人之間的轉(zhuǎn)換函數(shù)，即先由源說話人和目標(biāo)說話人的頻譜特征分別訓(xùn)練得到各自的說話人模型，然后利用說話人模型中的均值與協(xié)方差找到源說話人特征向量和輔助向量之間的轉(zhuǎn)換函數(shù)，以及輔助向量和目標(biāo)說話人特征向量之間的轉(zhuǎn)換函數(shù)，最后利用這兩個(gè)轉(zhuǎn)換函數(shù)求得源說話人和目標(biāo)說話人之間的轉(zhuǎn)換函數(shù)；在語音轉(zhuǎn)換的過程中，使用說話人模型對齊的方法，以及將說話人模型對齊與高斯混合模型相融合的方法，最終通過STRAIGHT語音分析/合成模型對轉(zhuǎn) 換后的頻譜特征進(jìn)行合成得到轉(zhuǎn)換語音。
2. 根據(jù)權(quán)利要求1所述的基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法，其特征在于，所述的說話人模型對齊方法的步驟具體如下：步驟I，訓(xùn)練得到說話人模型：運(yùn)用STRAIGHT模型提取源說話人和目標(biāo)說話人的頻譜特征，獲得源說話人和目標(biāo)說話人的特征向量，分別記為X和y ;通過期望最大化方法分別訓(xùn)練得到源說話人模型和目標(biāo)說話人模型，記為GMMX和GMMy，具體為：
(1) 其中，P (X)對應(yīng)著GMMX，p (y)對應(yīng)著GMMy，N( ·)表示高斯分布，iVh/i工；^和 ~〇；，///$)分別表示6麗!￡和61^模型的第1個(gè)高斯分量，1表示高斯分量的個(gè)數(shù)， /|/和# 表示第i個(gè)高斯分量的均值向量，ΣΗΡΙ?表示第i個(gè)高斯分量的協(xié)方差矩陣，0^和Vi表示第i個(gè)高斯分量所占的權(quán)重，且滿足
步驟II，引入輔助向量并初始化：引入輔助向量序列X' ={V j，其中j表示第j幀，且j = 1，2，...，J，J表示幀數(shù)，且J彡1 ;X'用于每一次迭代搜索后的中間序列，并運(yùn)用期望最大化方法訓(xùn)練得到輔助向量序列的模型，記作GMMX,，具體表達(dá)式為：
(2) 其中，X '表示輔助向量，表示第i個(gè)高斯分量所占的權(quán)重，且滿足
GMMX，的參數(shù)為
，并且初始化設(shè)定為
步驟III，說話人模型的相似度計(jì)算：GMMX和GMMy不同高斯分量之間的相似度用矩陣D 表示如下：
(3) 其中，扎表示6麗!￡的第1個(gè)高斯分量.\仏/(工「)與61^的第」_個(gè)高斯分量~(>%// ::+^ 之間的相似度，并采用對稱的KL Divergence來描述兩個(gè)高斯分量A (X)和fj (X)之間的相似度，具體為
步驟IV，最近鄰搜索：對GMMX，的每一高斯分量S，通過相似度矩陣D來尋找到GMMy中與其相似度最高的高斯分量σ (s);類似地，對GMMy中的每一高斯分量t，通過D找到其在 GMMy中對應(yīng)的相似度最高的分量Ψ (t); 步驟V，轉(zhuǎn)換：通過最近鄰搜索，分別得到兩個(gè)均值向量對序列，分別記為
和
分別表示GMM^第s個(gè)高斯分量的輔助均值向量及其在GMMy中對應(yīng)的高斯分量σ (s)所對應(yīng)的均值向量，/if和/<<t)分別表示6靈^第七個(gè)高斯分量的輔助均值向量及其在GMMX，中對應(yīng)的高斯分量所對應(yīng)的均值向量；去除
中重復(fù)的序列對，并連接在一起得到一個(gè)完整的均值向量對序列{μχ,，yy};利用最小二乘估計(jì)法計(jì)算得到μχ，和間的映射函數(shù)： fmu(y X- ) = Αμ x- +b (5) 其中，
T表示矩陣轉(zhuǎn)置，b = μ?_Αμχ,; 將表達(dá)式（5)所示的映射函數(shù)直接用于輔助向量與目標(biāo)說話人特征向量之間的轉(zhuǎn)換，則轉(zhuǎn)換函數(shù)如下： fmu (χΙ ) = Αχ ; +b (6) 輔助向量X'通過下式得到，具體為： X' = fmu(x,) ⑵ 源說話人特征向量X和輔助向量V之間的轉(zhuǎn)換函數(shù)為： x, = fsa(x) = Cx+d (8) 其中，
步驟VI，通過期望最大化方法對輔助向量序列Γ重新進(jìn)行模型訓(xùn)練得到GMMX,，重復(fù) 上述步驟III?V，直到GMMX，和GMMy之間的相似度滿足收斂條件
'其中δ為一經(jīng) 驗(yàn)常數(shù)。
3.根據(jù)權(quán)利要求1所述的基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法，其特征在于，所述的說話人模型對齊與高斯混合模型相融合方法的具體步驟如下：步驟I，經(jīng)過說話人模型的對齊訓(xùn)練，獲得輔助向量序列Γ ;采用聯(lián)合概率密度對輔助向量V和目標(biāo)說話人特征向量y組成的特征序列對
進(jìn)行GMM建模，如下：
m 其中，Qi表示第i個(gè)高斯分量所占的權(quán)重，且滿足

μ i和分別表示第i個(gè)高斯分量的均值矩陣和協(xié)方差矩陣；步驟II，采用最小均方誤差法計(jì)算得到輔助向量和目標(biāo)說話人特征向量之間的轉(zhuǎn)換函數(shù)：
0〇) 其中，p(i|x')表示V屬于第i個(gè)高斯分量的后驗(yàn)概率，滿足
(11) 其中，％表示第j個(gè)高斯分量所占的權(quán)重，且滿足
和 bj(X')分別表示第i個(gè)高斯分量和第j個(gè)高斯分量；步驟III，根據(jù)表達(dá)式（8)和表達(dá)式（10)得到源說話人特征向量與目標(biāo)說話人特征向量之間的轉(zhuǎn)換函數(shù)：y = F(x) = fat(fsa(x))。
【文檔編號】G10L13/08GK104217721SQ201410399475
【公開日】2014年12月17日申請日期:2014年8月14日優(yōu)先權(quán)日:2014年8月14日
【發(fā)明者】宋鵬, 趙力, 金贊申請人:東南大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宋鵬;趙力;金赟
技術(shù)所有人：東南大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

非對稱誤差修正模型相關(guān)技術(shù)

非對稱garch模型相關(guān)技術(shù)

非對稱模型相關(guān)技術(shù)

非對稱信息模型相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于說話人模型對齊的非對稱語音庫條件下的語音轉(zhuǎn)換方法