本發(fā)明涉及一種轉換技術,尤其是一種聲音轉換方法及裝置,屬于語音信號處理技術領域。
背景技術:
聲音轉換是聲音信號處理領域近年來新興的研究分支,聲音轉換技術是指在保持語義內容不變的情況下,通過改變一個源說話人的語音個性特征,使他說的話被聽者認為是目標說話人說的話。經(jīng)過多年發(fā)展,聲音轉換領域已涌現(xiàn)出大量算法,但這些算法只能針對一對一進行轉換,轉換過程訓練階段需要大量對齊語料,運算復雜度高,這給實際應用帶來很大的不便。
技術實現(xiàn)要素:
本發(fā)明為解決上述技術問題,提供一種聲音轉換方法及裝置,可以實現(xiàn)將任意一源說話人的聲音轉換為具有中間說話人音色的聲音,并進一步實現(xiàn)將任意一源說話人的聲音轉換為具有任意一目標說話人音色的聲音。
為達到上述目的,本發(fā)明公開了一種聲音轉換方法,為了實現(xiàn)將任意一源說話人的聲音轉換為具有中間說話人音色的聲音,采用的技術方案為:
一種聲音轉換方法,包括步驟:
對參考源說話人語料和中間說話人第一語料分別提取聲音特征系數(shù),并建立第一聯(lián)合高斯混合模型,其中參考源說話人的數(shù)量為2個以上;
提取待轉換源說話人語料的聲音特征系數(shù),采用待轉換源說話人語料的聲音特征系數(shù)對第一聯(lián)合高斯混合模型進行自適應得到第一轉換模型,所述第一轉換模型為待轉換源說話人與中間說話人的聲音轉換模型;
通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音。
本發(fā)明進一步優(yōu)化,為了實現(xiàn)將任意一源說話人的聲音轉換為具有任意一目標說話人音色的聲音,還包括步驟:
對中間說話人第二語料與參考目標說話人語料分別提取聲音特征系數(shù),并建立第二聯(lián)合高斯混合模型,其中參考目標說話人的數(shù)量為2個以上;
提取待轉換目標說話人語料的聲音特征系數(shù),采用待轉換目標說話人語料的聲音特征系數(shù)對第二聯(lián)合高斯混合模型進行自適應得到第二轉換模型,所述第二轉換模型為中間說話人與待轉換目標說話人的聲音轉換模型;
通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音之后,再通過第二轉換模型將具有中間說話人音色的聲音轉換為具有待轉換目標說話人音色的聲音。
本發(fā)明進一步優(yōu)化,為了實現(xiàn)將任意一源說話人的聲音轉換為具有中間說話人音色的聲音,具體步驟包括:
提取預存儲的S個參考源說話人語料與中間說話人第一語料的梅爾倒譜MCEP系數(shù),S大于20;
采用動態(tài)時間規(guī)整算法對S個參考源說話人語料與中間說話人第一語料的梅爾倒譜MCEP系數(shù)分別進行對齊并組合,構成聯(lián)合特征矢量,所述S個參考源說話人與中間說話人的語料內容相同;
對S個參考源說話人與中間說話人的聯(lián)合特征矢量建立參考源說話人無關的聯(lián)合高斯混合模型;
提取待轉換源說話人語料的梅爾倒譜MCEP系數(shù),利用所述梅爾倒譜MCEP系數(shù)對參考源說話人無關的聯(lián)合高斯模型中的參考源說話人均值部分進行自適應,得到待轉換源說話人與中間說話人的第一轉換模型;
提取待轉換源說話人的待轉換聲音的梅爾倒譜MCEP系數(shù)后,并通過自適應后的第一轉換模型進行轉換,得到轉換后的梅爾倒譜MCEP系數(shù);
將轉換后的梅爾倒譜MCEP系數(shù)與待轉換源說話人的梅爾倒譜MCEP系數(shù)作差分并構建梅爾對數(shù)譜MLSA濾波器,利用所述濾波器對待轉換源說話人聲音信號進行濾波,得到具有中間說話人音色的聲音。
本發(fā)明進一步優(yōu)化,所述“利用所述梅爾倒譜MCEP系數(shù)對與參考源說話人無關的聯(lián)合高斯模型中的源說話人均值部分進行自適應,得到待轉換源說話人與中間說話人的轉換模型”包括:
將參考源說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考源說話人均值部分以及參考源說話人協(xié)方差部分,構建參考源說話人無關的高斯混合模型;
利用待轉換源說話人語料的梅爾倒譜MCEP系數(shù)對參考源說話人無關的高斯混合模型做MLLR均值自適應得到待轉換源說話人均值矢量;
將待轉換源說話人均值矢量替換聯(lián)合高斯混合模型中的參考源說話人均值部分,得到待轉換源說話人與中間說話人的聯(lián)合高斯模型。
本發(fā)明進一步優(yōu)化,為實現(xiàn)將任意一源說話人的聲音轉換為具有任意一目標說話人音色的聲音,具體步驟還包括:
提取預存儲的中間說話人第二語料與S個參考目標說話人語料的梅爾倒譜MCEP系數(shù),S大于20;
采用動態(tài)時間規(guī)整算法對中間說話人第二語料與S個參考目標說話人語料的梅爾倒譜MCEP系數(shù)分別進行對齊并組合,構成聯(lián)合特征矢量,所述中間說話人與S個參考目標說話人的語料內容相同;
對中間說話人與參考目標說話人聯(lián)合特征矢量建立參考目標說話人無關的聯(lián)合高斯混合模型;
提取待轉換目標說話人語料的梅爾倒譜MCEP系數(shù),利用所述梅爾倒譜MCEP系數(shù)對參考目標說話人無關的聯(lián)合高斯模型中的參考目標說話人均值部分進行自適應,得到中間說話人與待轉換目標說話人的第二轉換模型;
在通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音后,提取具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù),并通過自適應后的第二轉換模型進行轉換,得到轉換后的梅爾倒譜MCEP系數(shù);
將轉換后的梅爾倒譜MCEP系數(shù)與具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù)作差分并構建梅爾對數(shù)譜MLSA濾波器,利用所述濾波器對具有中間說話人音色的聲音信號進行濾波,從而得到具有待轉換目標說話人音色的聲音。
本發(fā)明進一步優(yōu)化,所述“利用所述梅爾倒譜MCEP系數(shù)對與參考目標說話人無關的聯(lián)合高斯模型中的參考目標說話人均值部分進行自適應,得到中間說話人與待轉換目標說話人的轉換模型”包括:
將參考目標說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考目標說話人均值部分以及目標說話人協(xié)方差部分,構建參考目標說話人無關的高斯混合模型;
利用待轉換目標說話人的梅爾倒譜MCEP系數(shù)對參考目標說話人無關的高斯混合模型做MLLR均值自適應得到待轉換目標說話人的均值矢量;
將待轉換目標說話人的均值矢量替換聯(lián)合高斯混合模型中的參考目標說話人均值部分,得到中間說話人與待轉換目標說話人的聯(lián)合高斯模型。
本發(fā)明進一步優(yōu)化,所述提取梅爾倒譜MCEP系數(shù)步驟包括:利用STRAIGHT分析合成器對聲音按幀分析,得到靜態(tài)頻譜包絡,根據(jù)所述靜態(tài)頻譜包絡提取梅爾倒譜MCEP系數(shù)。
為達到上述目的,本發(fā)明還公開了一種聲音轉換裝置,為了實現(xiàn)將任意一源說話人的聲音轉換為具有中間說話人音色的聲音,采用的技術方案為:
第一提取模塊,用于提取參考源說話人、中間說話人和待轉換源說話人的聲音特征系數(shù);
第一聯(lián)合高斯混合模型建立模塊,用于通過提取模塊得到的參考源說話人語料和中間說話人第一語料的聲音特征系數(shù),來建立參考源說話人和中間說話人的第一聯(lián)合高斯混合模型;
第一自適應模塊,用于通過第一提取模塊得到的待轉換源說話人語料的聲音特征系數(shù)對第一聯(lián)合高斯混合模型自適應,得到第一轉換模型,所述第一轉換模型為待轉換源說話人與中間說話人的聲音轉換模型;
第一轉換模塊,用于通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音。
本發(fā)明進一步優(yōu)化,為了實現(xiàn)將任意一源說話人的聲音轉換為具有任意一目標說話人音色的聲音,還包括:
第二提取模塊,用于提取中間說話人、參考目標說話人、待轉換目標說話人的聲音特征系數(shù);
第二聯(lián)合高斯混合模型建立模塊,用于通過所述第二提取模塊得到的中間說話人第二語料和參考目標說話人語料的聲音特征系數(shù)建立中間說話人和參考目標說話人的第二聯(lián)合高斯混合模型;
第二自適應模塊,用于通過第二提取模塊得到的待轉換目標說話人語料的聲音特征系數(shù)對第二聯(lián)合高斯混合模型自適應,得到第二轉換模型,所述第二轉換模型為中間說話人與待轉換目標說話人的聲音轉換模型;
第二轉換模塊,用于通過第一轉換模型把待轉換源說話人的聲音轉換為具有中間說話人音色的聲音之后,再通過第二轉換模型把具有中間說話人音色的聲音轉換為具有待轉換目標說話人音色的聲音;
本發(fā)明進一步優(yōu)化,所述第一聯(lián)合高斯混合模型建立模塊,具體用于:
通過第一提取模塊,提取預存儲的S個參考源說話人語料與中間說話人第一語料的梅爾倒譜梅爾倒譜MCEP系數(shù),S大于20;
采用動態(tài)時間規(guī)整算法對S個參考源說話人語料與中間說話人第一語料的梅爾倒譜MCEP系數(shù)分別進行對齊并組合,構成聯(lián)合特征矢量,所述S個參考源說話人與中間說話人的語料內容相同;
對S個參考源說話人與中間說話人的聯(lián)合特征矢量建立參考源說話人無關的聯(lián)合高斯混合模型。
所述第一自適應模塊,具體用于:
通過第一提取模塊,提取待轉換源說話人語料的梅爾倒譜MCEP系數(shù),利用所述梅爾倒譜MCEP系數(shù)對參考源說話人無關的聯(lián)合高斯模型中的參考源說話人均值部分進行自適應,得到待轉換源說話人與中間說話人的第一轉換模型;
所述第一轉換模塊,具體用于:
通過第一提取模塊,提取待轉換源說話人的待轉換聲音的梅爾倒譜MCEP系數(shù),并通過第一轉換模型進行轉換,得到轉換后的梅爾倒譜MCEP系數(shù);
將轉換后的梅爾倒譜MCEP系數(shù)與待轉換源說話人的梅爾倒譜MCEP系數(shù)作差分并構建梅爾對數(shù)譜MLSA濾波器,利用所述濾波器對待轉換源說話人聲音信號進行濾波,得到具有中間說話人音色的聲音;
本發(fā)明進一步優(yōu)化,所述第一自適應模塊,具體還用于:
將參考源說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考源說話人均值部分以及參考源說話人協(xié)方差部分,構建參考源說話人無關的高斯混合模型;
利用待轉換源說話人語料的梅爾倒譜MCEP系數(shù)對參考源說話人無關的高斯混合模型做MLLR均值自適應得到待轉換源說話人均值矢量;
將待轉換源說話人均值矢量替換聯(lián)合高斯混合模型中的參考源說話人均值部分,得到待轉換源說話人與目標說話人的聯(lián)合高斯模型;
本發(fā)明進一步優(yōu)化,所述第二聯(lián)合高斯混合模型建立模塊,具體用于:
通過第二提取模塊,提取預存儲的中間說話人第二語料與S個參考目標說話人語料的梅爾倒譜MCEP系數(shù),S大于20;
采用動態(tài)時間規(guī)整算法對中間說話人第二語料與S個參考目標說話人語料的梅爾倒譜MCEP系數(shù)分別進行對齊并組合,構成聯(lián)合特征矢量,所述中間說話人與S個參考目標說話人的語料內容相同;
對中間說話人與參考目標說話人聯(lián)合特征矢量建立參考目標說話人無關的聯(lián)合高斯混合模型;
所述第二自適應模塊,具體用于:通過第二提取模塊,提取待轉換目標說話人語料的梅爾倒譜MCEP系數(shù),利用所述梅爾倒譜MCEP系數(shù)對參考目標說話人無關的聯(lián)合高斯模型中的參考目標說話人均值部分進行自適應,得到中間說話人與待轉換目標說話人的第二轉換模型;
所述第二轉換模塊,具體用于:
通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音之后,再通過第二提取模塊提取具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù),并將所述梅爾倒譜MCEP系數(shù)通過第二轉換模型進行轉換,得到轉換后的梅爾倒譜MCEP系數(shù);
將轉換后的梅爾倒譜MCEP系數(shù)與具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù)作差分并構建梅爾對數(shù)譜MLSA濾波器,利用所述濾波器對具有中間說話人音色的聲音信號進行濾波,從而得到具有待轉換目標說話人音色的聲音。
本發(fā)明進一步優(yōu)化,所述第二自適應模塊,具體還用于:
將參考目標說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考目標說話人均值部分以及目標說話人協(xié)方差部分,構建參考目標說話人無關的高斯混合模型;
利用待轉換目標說話人的梅爾倒譜MCEP系數(shù)對參考目標說話人無關的高斯混合模型做MLLR均值自適應得到待轉換目標說話人的均值矢量;
將待轉換目標說話人的均值矢量替換聯(lián)合高斯混合模型中的參考目標說話人均值部分,得到中間說話人與待轉換目標說話人的聯(lián)合高斯模型;
本發(fā)明進一步優(yōu)化,所述第一提取模塊或所述第二提取模塊,具體還用于:利用STRAIGHT分析合成器對聲音按幀分析,得到靜態(tài)頻譜包絡,根據(jù)所述靜態(tài)頻譜包絡提取梅爾倒譜MCEP系數(shù);
本發(fā)明的有益效果為:
1、提出一種多對一聲音轉換方法,即將任意一源說話人的聲音轉換為具有中間說話人(特定目標說話人)音色的聲音;同時提出一種多對多聲音轉換方法,即將任意一源說話人的聲音轉換為具有任意一目標說話人音色的聲音;本發(fā)明方法也適用于歌唱聲音的轉換。
2、現(xiàn)有技術大都只能將某一個特定源說話人的聲音轉換成另一個特定目標說話人的聲音,且需要大量對稱語料才能訓練得到轉換模型,運算復雜度極高,而本發(fā)明的算法自適應過程不需要對稱語料即可得到轉換模型,且要求的語料數(shù)據(jù)量不多,估計的參數(shù)少,運算復雜度低,便于實際應用。
3、利用STRAIGHT分析合成器進行分析并提取梅爾倒譜系數(shù),可提高重建聲音的自然度。
4、聲音合成采用MLSA濾波器,可以極大提高轉換后聲音的質量。
附圖說明
圖1為本發(fā)明實施例1所述聲音轉換方法的流程圖;
圖2為本發(fā)明實施例2所述聲音轉換方法的流程圖;
圖3為本發(fā)明實施例3所述聲音轉換裝置的模塊圖。
圖4為本發(fā)明實施例4所述聲音轉換裝置的模塊圖。
具體實施方式
為詳細說明本發(fā)明的技術內容、構造特征、所實現(xiàn)目的及效果,以下結合實施方式并配合附圖詳予說明。
實施例1
本實施例可以實現(xiàn)將任意一源說話人的聲音轉換為具有中間說話人(特定目標說話人)音色的聲音,請參閱圖1,包括訓練階段、自適應階段以及轉換階段。
訓練階段:對參考源說話人語料和中間說話人第一語料分別提取聲音特征系數(shù),并建立第一聯(lián)合高斯混合模型,其中參考源說話人的數(shù)量為2個以上,包括步驟S101-S103。
步驟S101:
利用STRATIGHT分析合成器分別對預存儲的S個參考源說話人語料和中間說話人第一語料按幀分析,得到靜態(tài)頻譜包絡,并根據(jù)靜態(tài)頻譜包絡提取梅爾倒譜MCEP系數(shù)。本實施例梅爾倒譜MCEP系數(shù)取40維。S通常大于20。
步驟S102:
采用動態(tài)時間規(guī)整算法(DTW)對S個參考源說話人語料和中間說話人第一語料的梅爾倒譜MCEP系數(shù)Xt與Yt分別進行對齊并組合,構成聯(lián)合特征矢量S個參考源說話人與中間說話人的語料是對稱的,即內容相同。
步驟S103:
建立第一聯(lián)合高斯混合模型,具體如下:
對S個參考源說話人與中間說話人聯(lián)合特征矢量建立第一聯(lián)合高斯混合模型JDGMM:其中Ts是總的幀數(shù),λ1(0)是與參考源說話人無關的聯(lián)合高斯混合模型。M為高斯混合度,αi為混合權值,μi與∑i分別為第i個混合成分對應的均值和協(xié)方差矩陣,其中:分別為多參考源說話人和中間說話人第i個混合成分的均值向量;為多參考源說話人第i個混合成分的協(xié)方差矩陣,為多參考源說話人和中間說話人第i個混合成分的互協(xié)方差矩陣。
自適應階段:提取待轉換源說話人的語料的聲音特征系數(shù),采用待轉換源說話人語料的聲音特征系數(shù)對第一聯(lián)合高斯混合模型進行自適應得到第一轉換模型,所述第一轉換模型為待轉換源說話人與中間說話人的聲音轉換模型,包括步驟S104-S105。
步驟S104:
如步驟S101的方法提取待轉換源說話人語料的梅爾倒譜MCEP系數(shù)。
步驟S105:
利用步驟S104提取的梅爾倒譜MCEP系數(shù)對第一聯(lián)合高斯模型中的參考源說話人均值部分進行自適應,從而得到待轉換源說話人與中間說話人的頻譜特征轉換模型,既第一轉換模型。自適應過程如下:
將參考源說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考源說話人均值部分以及參考源說話人協(xié)方差部分,構建參考源說話人無關的高斯混合模型GMM:λ'1(α,μX,∑XX),
接著利用待轉換源說話人語料的梅爾倒譜MCEP系數(shù)對GMM做MLLR均值自適應得到待轉換源說話人的均值矢量
然后將待轉換源說話人的均值矢量替換聯(lián)合高斯混合模型中的參考源說話人均值部分,得到新聯(lián)合均值矢量:從而得到待轉換源說話人與中間說話人的聯(lián)合高斯模型λ1o(α,μo,∑)。在其他實施方式中,也可以采用MAP算法做均值自適應。
本發(fā)明自適應的過程對聲音內容沒有限制,即待轉換源說話人與中間說話人的聲音內容可以不同,可以在非平行文本條件下進行,而且自適應過程需要估計的參數(shù)較少,要求的數(shù)據(jù)量不多,因此運算速度較快。
轉換階段:通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音,包括步驟S106-S108。
步驟S106:
如步驟S101的方法提取待轉換源說話人的待轉換聲音的梅爾倒譜MCEP系數(shù)。
步驟S107:
通過自適應后的模型λo進行轉換。轉換函數(shù)為:其中pi(X)為頻譜特征X屬于模型(α,μX,∑XX)第i個混合成分的概率。
步驟S108:
將轉換后的中間說話人梅爾倒譜MCEP系數(shù)與待轉換源說話人的梅爾倒譜MCEP系數(shù)作差分并構建MLSA濾波器,使用這個濾波器直接對待轉換源說話人的待轉換聲音信號進行濾波,從而得到高質量的具有中間說話人音色的聲音。
聲音轉換一般要求在轉換頻譜包絡的同時也要轉換基頻,但基頻在提取以及用于合成聲音時,會引起誤差的存在,從而影響轉換聲音的自然度,本發(fā)明用一種新的合成方法來提高轉換聲音的質量,即將轉換后的頻譜特征與源說話人的聲音頻譜特征作差分并構建MLSA濾波器,使用這個濾波器直接對源說話人聲音信號進行濾波,可以極大的提高合成聲音的自然度。本實施例采用開源工具SPTK中的MLSA濾波器。
本實施例采用上述方法,可實現(xiàn)將任意一源說話人的聲音轉換為具有中間說話人(特定目標說話人)音色的聲音。
實施例2
本實施為了實現(xiàn)將任意一源說話人的聲音轉換為具有任意一目標說話人音色的聲音,參閱圖2,包括訓練階段、自適應階段以及轉換階段。
訓練階段:包括訓練得到第一聯(lián)合高斯模型與第二聯(lián)合高斯模型(不分先后順序),具體如下:
對參考源說話人語料和中間說話人第一語料分別提取聲音特征系數(shù),并建立第一聯(lián)合高斯混合模型,其中參考源說話人的數(shù)量為2個以上,包括步驟S101-S103。
對中間說話人第二語料與參考目標說話人語料分別提取聲音特征系數(shù),并建立第二聯(lián)合高斯混合模型,其中參考目標說話人的數(shù)量為2個以上,包括步驟S109-S111。
本實施例中,中間說話人第一語料與中間說話人第二語料可以相同,也可以不同。
步驟S109:
利用STRAIGHT分析合成器分別對中間說話人第二語料和S個參考目標說話人的語料按幀分析,得到靜態(tài)頻譜包絡,并根據(jù)靜態(tài)頻譜包絡提取梅爾倒譜MCEP系數(shù)。本實施例梅爾倒譜MCEP系數(shù)取40維。S通常大于20。
步驟S110:
采用動態(tài)時間規(guī)整算法(DTW)對中間說話人第二語料和S個參考目標說話人語料的梅爾倒譜MCEP系數(shù)Xt與Yt分別進行對齊并組合,構成聯(lián)合特征矢量S個參考目標說話人與中間說話人的語料是對稱的,即語料內容相同。
步驟S111:
建立第二聯(lián)合高斯混合模型,具體如下:
對中間說話人和S個參考目標說話人聯(lián)合特征矢量建立第二聯(lián)合高斯混合模型JDGMM:其中Ts是總的幀數(shù),λ2(0)是與參考目標說話人無關的聯(lián)合高斯混合模型。M為高斯混合度,αi為混合權值,μi與∑i分別為第i個混合成分對應的均值和協(xié)方差矩陣,其中分別為中間說話人和多參考目標說話人第i個混合成分的均值向量;為中間說話人第i個混合成分的協(xié)方差矩陣,為中間說話人和多參考目標說話人第i個混合成分的互協(xié)方差矩陣。
自適應階段:訓練階段結束后進入自適應階段,包括自適應生成第一轉換模型與第二轉換模型(不分先后順序),具體如下:
提取待轉換源說話人的語料的聲音特征系數(shù),采用待轉換源說話人的語料的聲音特征系數(shù)對第一聯(lián)合高斯混合模型進行自適應得到第一轉換模型,所述第一轉換模型為待轉換源說話人與中間說話人的聲音轉換模型,包括步驟S104-S105。
提取待轉換目標說話人語料的聲音特征系數(shù),采用待轉換目標說話人語料的聲音特征系數(shù)對第二聯(lián)合高斯混合模型進行自適應得到第二轉換模型,所述第二轉換模型為中間說話人與待轉換目標說話人的聲音轉換模型,包括步驟S112-S113。
步驟S112:
如步驟S101的方法提取待轉換目標說話人語料的梅爾倒譜MCEP系數(shù)。
步驟S113:
利用步驟S112提取的梅爾倒譜MCEP系數(shù)對聯(lián)合高斯模型中的待轉換目標說話人均值部分進行自適應,從而得到中間說話人與待轉換目標說話人的頻譜特征轉換模型,既第二轉換模型。自適應過程如下:
將參考目標說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考目標說話人均值部分以及目標說話人協(xié)方差部分,構建參考目標說話人無關的高斯混合模型GMM:λ'2(α,μY,∑YY);
利用待轉換目標說話人的梅爾倒譜MCEP系數(shù)對參考目標說話人無關的高斯混合模型做MLLR均值自適應得到待轉換目標說話人的均值矢量
將待轉換目標說話人的均值矢量替換聯(lián)合高斯混合模型中的參考目標說話人均值部分,得到新聯(lián)合均值矢量:從而得到中間說話人與待轉換目標說話人的聯(lián)合高斯模型λ2o(α,μo,∑)。在其他實施方式中,也可以采用MAP算法做均值自適應。
本發(fā)明自適應的過程對聲音內容沒有限制,即待轉換目標說話人與中間說話人的聲音內容可以不同,可以在非平行文本條件下進行,而且自適應過程需要估計的參數(shù)較少,要求的數(shù)據(jù)量不多,因此運算速度較快。
轉換階段:自適應階段完成之后,即可將待轉換源說話人的聲音進行轉換得到具有待轉換目標說話人音色的聲音,轉換過程需要先后通過第一轉換模型以及第二轉換模型,具體如下:
通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音之后,包括步驟S106-S108;再通過第二轉換模型將具有中間說話人音色的聲音轉換為具有待轉換目標說話人音色的聲音,包括步驟S114-S116。
步驟S114:
在經(jīng)過步驟S108得到具有中間說話人音色的聲音后,如步驟S101的方法提取具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù),
步驟S115:
根據(jù)自適應后的模型λo,對該梅爾倒譜MCEP系數(shù)進行轉換。轉換函數(shù)為:其中pi(X)為頻譜特征X屬于模型(α,μX,∑XX)第i個混合成分的概率。
步驟S116:
將轉換后的梅爾倒譜MCEP系數(shù)與具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù)作差分并構建MLSA濾波器,使用這個濾波器直接對具有中間說話人音色的聲音信號進行濾波,從而得到高質量的具有待轉換目標說話人音色的聲音。
聲音轉換一般要求在轉換頻譜包絡的同時也要轉換基頻,但基頻在提取以及用于合成聲音時,會引起誤差的存在,從而影響轉換聲音的自然度,本發(fā)明用一種新的合成方法來提高轉換聲音的質量,即將轉換后的頻譜特征與中間說話人的聲音頻譜特征作差分并構建MLSA濾波器,使用這個濾波器直接對中間說話人聲音信號進行濾波,可以極大的提高合成聲音的自然度。本實施例采用開源工具SPTK中的MLSA濾波器。
本實施例中,所述步驟S101-S108的操作與實施例1相同。
本實施例采用上述的技術方案,可實現(xiàn)將任意一源說話人的聲音轉換為具有任意一目標說話人音色的聲音,無需每次音色轉化都建一次轉化模型,針對多個音色的轉化,大大減少了計算量。
在其他實施例中,可省略步驟S108與步驟S114,即不需要重建具有中間說話人音色的聲音,而直接將步驟S107轉換后的梅爾倒譜MCEP系數(shù)輸入到步驟S115,并調整步驟S116如下:
將轉換后的梅爾倒譜MCEP系數(shù)與待轉換源說話人聲音的梅爾倒譜MCEP系數(shù)作差分并構建MLSA濾波器,使用這個濾波器直接對待轉換源說話人的聲音信號進行濾波,從而得到高質量的具有待轉換目標說話人音色的聲音。
實施例3
本實施例提供一種聲音轉換裝置,將任意一源說話人的聲音轉換為具有中間說話人(特定目標說話人)音色的聲音,請參閱圖3,具體包括:
第一提取模塊201:
用于提取參考源說話人、中間說話人和待轉換源說話人的聲音特征系數(shù),具體如下:
利用STRATIGHT分析合成器分別對預存儲的S個參考源說話人語料和中間說話人第一語料按幀分析,得到靜態(tài)頻譜包絡,并根據(jù)靜態(tài)頻譜包絡提取梅爾倒譜MCEP系數(shù)。本實施例梅爾倒譜MCEP系數(shù)取40維。S通常大于20。
第一聯(lián)合高斯混合模型建立模塊202:
用于通過第一提取模塊得到的參考源說話人語料和中間說話人第一語料的聲音特征系數(shù),建立參考源說話人和中間說話人的第一聯(lián)合高斯混合模型,具體如下:
采用動態(tài)時間規(guī)整算法(DTW)對S個參考源說話人語料和中間說話人第一語料的梅爾倒譜MCEP系數(shù)Xt與Yt分別進行對齊并組合,構成聯(lián)合特征矢量S個參考源說話人與中間說話人的語料是對稱的,即內容相同。
對S個參考源說話人與中間說話人聯(lián)合特征矢量建立第一聯(lián)合高斯混合模型JDGMM:其中Ts是總的幀數(shù),λ1(0)是與參考源說話人無關的聯(lián)合高斯混合模型。M為高斯混合度,αi為混合權值,μi與∑i分別為第i個混合成分對應的均值和協(xié)方差矩陣,其中:分別為多參考源說話人和中間說話人第i個混合成分的均值向量;為多參考源說話人第i個混合成分的協(xié)方差矩陣,為多參考源說話人和中間說話人第i個混合成分的互協(xié)方差矩陣。
第一自適應模塊203:
用于通過第一提取模塊,提取待轉換源說話人語料的梅爾倒譜MCEP系數(shù),利用所述梅爾倒譜MCEP系數(shù)對第一聯(lián)合高斯模型中的參考源說話人均值部分進行自適應,從而得到待轉換源說話人與中間說話人的頻譜特征轉換模型,既第一轉換模型。自適應過程如下:
將參考源說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考源說話人均值部分以及參考源說話人協(xié)方差部分,構建參考源說話人無關的高斯混合模型GMM:λ'1(α,μX,∑XX),
接著利用待轉換源說話人語料的梅爾倒譜MCEP系數(shù)對GMM做MLLR均值自適應得到待轉換源說話人的均值矢量
然后將待轉換源說話人的均值矢量替換聯(lián)合高斯混合模型中的參考源說話人均值部分,得到新聯(lián)合均值矢量:從而得到待轉換源說話人與中間說話人的聯(lián)合高斯模型λo1(α,μo,∑)。在其他實施方式中,也可以采用MAP算法做均值自適應。
本發(fā)明自適應的過程對聲音內容沒有限制,即待轉換源說話人與中間說話人的聲音內容可以不同,可以在非平行文本條件下進行,而且自適應過程需要估計的參數(shù)較少,要求的數(shù)據(jù)量不多,因此運算速度較快。
第一轉換模塊204:
用于通過第一提取模塊,提取待轉換源說話人的待轉換聲音的梅爾倒譜MCEP系數(shù),通過自適應后的模型λo進行轉換。轉換函數(shù)為:其中pi(X)為頻譜特征X屬于模型(α,μX,∑XX)第i個混合成分的概率。
將轉換后的中間說話人梅爾倒譜MCEP系數(shù)與待轉換源說話人的梅爾倒譜MCEP系數(shù)作差分并構建MLSA濾波器,使用這個濾波器直接對待轉換源說話人的待轉換聲音信號進行濾波,從而得到高質量的具有中間說話人音色的聲音。
聲音轉換一般要求在轉換頻譜包絡的同時也要轉換基頻,但基頻在提取以及用于合成聲音時,會引起誤差的存在,從而影響轉換聲音的自然度,本發(fā)明用一種新的合成方法來提高轉換聲音的質量,即將轉換后的頻譜特征與源說話人的聲音頻譜特征作差分并構建MLSA濾波器,使用這個濾波器直接對源說話人聲音信號進行濾波,可以極大的提高合成聲音的自然度。本實施例采用開源工具SPTK中的MLSA濾波器。
實施例4
為了實現(xiàn)將任意一源說話人的聲音轉換為具有任意一目標說話人音色的聲音,在實施例3的基礎上,還包括以下模塊,參閱圖4,具體如下:
第二提取模塊205:
用于對中間說話人第二語料與參考目標說話人語料分別提取聲音特征系數(shù),具體如下:
利用STRAIGHT分析合成器分別對中間說話人第二語料和S個參考目標說話人的語料按幀分析,得到靜態(tài)頻譜包絡,并根據(jù)靜態(tài)頻譜包絡提取梅爾倒譜MCEP系數(shù)MCEP。本實施例梅爾倒譜MCEP系數(shù)取40維。S通常大于20。
第二聯(lián)合高斯混合模型建立模塊206:
采用動態(tài)時間規(guī)整算法(DTW)對中間說話人第二語料和S個參考目標說話人語料的梅爾倒譜MCEP系數(shù)Xt與Yt分別進行對齊并組合,構成聯(lián)合特征矢量S個參考目標說話人與中間說話人的語料是對稱的,即語料內容相同。
對中間說話人和S個參考目標說話人聯(lián)合特征矢量建立第二聯(lián)合高斯混合模型JDGMM:其中Ts是總的幀數(shù),λ2(0)是與參考目標說話人無關的聯(lián)合高斯混合模型。M為高斯混合度,αi為混合權值,μi與∑i分別為第i個混合成分對應的均值和協(xié)方差矩陣,其中為分別中間說話人和多參考目標說話人第i個混合成分的均值向量;為中間說話人第i個混合成分的協(xié)方差矩陣,為中間說話人和多參考目標說話人第i個混合成分的互協(xié)方差矩陣。
第二自適應模塊207:
用于通過第二提取模塊,提取待轉換目標說話人語料的梅爾倒譜MCEP系數(shù),利用所述梅爾倒譜MCEP系數(shù)對聯(lián)合高斯模型中的待轉換目標說話人均值部分進行自適應,從而得到中間說話人與待轉換目標說話人的頻譜特征轉換模型,既第二轉換模型。自適應過程如下:
將參考目標說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考目標說話人均值部分以及目標說話人協(xié)方差部分,構建參考目標說話人無關的高斯混合模型GMM:λ'2(α,μY,∑YY);
利用待轉換目標說話人的梅爾倒譜MCEP系數(shù)對參考目標說話人無關的高斯混合模型做MLLR均值自適應得到待轉換目標說話人的均值矢量
將待轉換目標說話人的均值矢量替換聯(lián)合高斯混合模型中的參考目標說話人均值部分,得到新聯(lián)合均值矢量:從而得到中間說話人與待轉換目標說話人的聯(lián)合高斯模型λo2(α,μo,∑)。在其他實施方式中,也可以采用MAP算法做均值自適應。
本發(fā)明自適應的過程對聲音內容沒有限制,即待轉換目標說話人與中間說話人的聲音內容可以不同,可以在非平行文本條件下進行,而且自適應過程需要估計的參數(shù)較少,且要求的數(shù)據(jù)量不多,因此運算速度較快。
第二轉換模塊208:
用于通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音之后,通過第二提取模塊提取具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù),通過自適應后的模型λo對所述梅爾倒譜MCEP系數(shù)進行轉換。轉換函數(shù)為:其中pi(X)為頻譜特征X屬于模型(α,μX,∑XX)第i個混合成分的概率。
將轉換后的梅爾倒譜MCEP系數(shù)與具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù)作差分并構建MLSA濾波器,使用這個濾波器直接對具有中間說話人音色的聲音信號進行濾波,從而得到高質量的具有待轉換目標說話人音色的聲音。
聲音轉換一般要求在轉換頻譜包絡的同時也要轉換基頻,但基頻在提取以及用于合成聲音時,會引起誤差的存在,從而影響轉換聲音的自然度,本發(fā)明用一種新的合成方法來提高轉換聲音的質量,即將轉換后的頻譜特征與中間說話人聲音的頻譜特征作差分并構建MLSA濾波器,使用這個濾波器直接對中間說話人聲音信號進行濾波,可以極大的提高合成聲音的自然度。本實施例采用開源工具SPTK中的MLSA濾波器。
以上所述僅為本發(fā)明的實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內容所作的等效結構或等效流程變換,或直接或間接運用在其他相關的技術領域,均同理包括在本發(fā)明的專利保護范圍內。