1.一種聲音轉換方法,其特征在于:包括步驟:
對參考源說話人語料和中間說話人第一語料分別提取聲音特征系數(shù),并建立第一聯(lián)合高斯混合模型,其中參考源說話人的數(shù)量為2個以上;
提取待轉換源說話人語料的聲音特征系數(shù),采用待轉換源說話人語料的聲音特征系數(shù)對第一聯(lián)合高斯混合模型進行自適應得到第一轉換模型,所述第一轉換模型為待轉換源說話人與中間說話人的聲音轉換模型;
通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音。
2.根據(jù)權利要求1所述的聲音轉換方法,其特征在于:還包括步驟:
對中間說話人第二語料與參考目標說話人語料分別提取聲音特征系數(shù),并建立第二聯(lián)合高斯混合模型,其中參考目標說話人的數(shù)量為2個以上;
提取待轉換目標說話人語料的聲音特征系數(shù),采用待轉換目標說話人語料的聲音特征系數(shù)對第二聯(lián)合高斯混合模型進行自適應得到第二轉換模型,所述第二轉換模型為中間說話人與待轉換目標說話人的聲音轉換模型;
通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音之后,再通過第二轉換模型將具有中間說話人音色的聲音轉換為具有待轉換目標說話人音色的聲音。
3.根據(jù)權利要求1所述的聲音轉換方法,其特征在于:
具體步驟包括:
提取預存儲的S個參考源說話人語料與中間說話人第一語料的梅爾倒譜MCEP系數(shù),S大于20;
采用動態(tài)時間規(guī)整算法對S個參考源說話人語料與中間說話人第一語料的梅爾倒譜MCEP系數(shù)分別進行對齊并組合,構成聯(lián)合特征矢量,所述S個參考源說話人與中間說話人的語料內容相同;
對S個參考源說話人與中間說話人的聯(lián)合特征矢量建立參考源說話人無關的聯(lián)合高斯混合模型;
提取待轉換源說話人語料的梅爾倒譜MCEP系數(shù),利用所述梅爾倒譜MCEP系數(shù)對參考源說話人無關的聯(lián)合高斯模型中的參考源說話人均值部分進行自適應,得到待轉換源說話人與中間說話人的第一轉換模型;
提取待轉換源說話人的待轉換聲音的梅爾倒譜MCEP系數(shù)后,并通過自適應后的第一轉換模型進行轉換,得到轉換后的梅爾倒譜MCEP系數(shù);
將轉換后的梅爾倒譜MCEP系數(shù)與待轉換源說話人的梅爾倒譜MCEP系數(shù)作差分并構建梅爾對數(shù)譜MLSA濾波器,利用所述濾波器對待轉換源說話人聲音信號進行濾波,得到具有中間說話人音色的聲音。
4.根據(jù)權利要求3所述的聲音轉換方法,其特征在于:
所述“利用所述梅爾倒譜MCEP系數(shù)對與參考源說話人無關的聯(lián)合高斯模型中的源說話人均值部分進行自適應,得到待轉換源說話人與中間說話人的轉換模型”包括:
將參考源說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考源說話人均值部分以及參考源說話人協(xié)方差部分,構建參考源說話人無關的高斯混合模型;
利用待轉換源說話人語料的梅爾倒譜MCEP系數(shù)對參考源說話人無關的高斯混合模型做MLLR均值自適應得到待轉換源說話人均值矢量;
將待轉換源說話人均值矢量替換聯(lián)合高斯混合模型中的參考源說話人均值部分,得到待轉換源說話人與中間說話人的聯(lián)合高斯模型。
5.根據(jù)權利要求2所述的聲音轉換方法,其特征在于:
具體步驟包括:
提取預存儲的中間說話人第二語料與S個參考目標說話人語料的梅爾倒譜MCEP系數(shù),S大于20;
采用動態(tài)時間規(guī)整算法對中間說話人第二語料與S個參考目標說話人語料的梅爾倒譜MCEP系數(shù)分別進行對齊并組合,構成聯(lián)合特征矢量,所述中間說話人與S個參考目標說話人的語料內容相同;
對中間說話人與參考目標說話人聯(lián)合特征矢量建立參考目標說話人無關的聯(lián)合高斯混合模型;
提取待轉換目標說話人語料的梅爾倒譜MCEP系數(shù),利用所述梅爾倒譜MCEP系數(shù)對參考目標說話人無關的聯(lián)合高斯模型中的參考目標說話人均值部分進行自適應,得到中間說話人與待轉換目標說話人的第二轉換模型;
在通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音后,提取具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù),并通過自適應后的第二轉換模型進行轉換,得到轉換后的梅爾倒譜MCEP系數(shù);
將轉換后的梅爾倒譜MCEP系數(shù)與具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù)作差分并構建梅爾對數(shù)譜MLSA濾波器,利用所述濾波器對具有中間說話人音色的聲音信號進行濾波,從而得到具有待轉換目標說話人音色的聲音。
6.根據(jù)權利要求5所述的聲音轉換方法,其特征在于:
所述“利用所述梅爾倒譜MCEP系數(shù)對與參考目標說話人無關的聯(lián)合高斯模型中的參考目標說話人均值部分進行自適應,得到中間說話人與待轉換目標說話人的轉換模型”包括:
將參考目標說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考目標說話人均值部分以及目標說話人協(xié)方差部分,構建參考目標說話人無關的高斯混合模型;
利用待轉換目標說話人的梅爾倒譜MCEP系數(shù)對參考目標說話人無關的高斯混合模型做MLLR均值自適應得到待轉換目標說話人的均值矢量;
將待轉換目標說話人的均值矢量替換聯(lián)合高斯混合模型中的參考目標說話人均值部分,得到中間說話人與待轉換目標說話人的聯(lián)合高斯模型。
7.根據(jù)權利要求3至6之一所述的聲音轉換方法,其特征在于:
所述提取梅爾倒譜MCEP系數(shù)步驟包括:
利用STRAIGHT分析合成器對聲音按幀分析,得到靜態(tài)頻譜包絡,根據(jù)所述靜態(tài)頻譜包絡提取梅爾倒譜MCEP系數(shù)。
8.一種聲音轉換裝置,其特征在于,包括:
第一提取模塊,用于提取參考源說話人、中間說話人和待轉換源說話人的聲音特征系數(shù);
第一聯(lián)合高斯混合模型建立模塊,用于通過第一提取模塊得到的參考源說話人語料和中間說話人第一語料的聲音特征系數(shù),建立參考源說話人和中間說話人的第一聯(lián)合高斯混合模型;
第一自適應模塊,用于通過第一提取模塊得到的待轉換源說話人語料的聲音特征系數(shù)對第一聯(lián)合高斯混合模型自適應,得到第一轉換模型,所述第一轉換模型為待轉換源說話人與中間說話人的聲音轉換模型;
第一轉換模塊,用于通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音。
9.根據(jù)權利要求8所述的聲音轉換裝置,其特征在于:還包括:
第二提取模塊,用于提取中間說話人、參考目標說話人、待轉換目標說話人的聲音特征系數(shù);
第二聯(lián)合高斯混合模型建立模塊,用于通過所述第二提取模塊得到的中間說話人第二語料和參考目標說話人語料的聲音特征系數(shù),建立中間說話人和參考目標說話人的第二聯(lián)合高斯混合模型;
第二自適應模塊,用于通過第二提取模塊得到的待轉換目標說話人語料的聲音特征系數(shù)對第二聯(lián)合高斯混合模型自適應,得到第二轉換模型,所述第二轉換模型為中間說話人與待轉換目標說話人的聲音轉換模型;
第二轉換模塊,用于通過第一轉換模型把待轉換源說話人的聲音轉換為具有中間說話人音色的聲音之后,再通過第二轉換模型把具有中間說話人音色的聲音轉換為具有待轉換目標說話人音色的聲音。
10.根據(jù)權利要求8所述的聲音轉換裝置,其特征在于:
所述第一聯(lián)合高斯混合模型建立模塊,具體用于:
通過第一提取模塊,提取預存儲的S個參考源說話人語料與中間說話人第一語料的梅爾倒譜梅爾倒譜MCEP系數(shù),S大于20;
采用動態(tài)時間規(guī)整算法對S個參考源說話人語料與中間說話人第一語料的梅爾倒譜MCEP系數(shù)分別進行對齊并組合,構成聯(lián)合特征矢量,所述S個參考源說話人與中間說話人的語料內容相同;
對S個參考源說話人與中間說話人的聯(lián)合特征矢量建立參考源說話人無關的聯(lián)合高斯混合模型。
所述第一自適應模塊,具體用于:
通過第一提取模塊,提取待轉換源說話人語料的梅爾倒譜MCEP系數(shù),利用所述梅爾倒譜MCEP系數(shù)對參考源說話人無關的聯(lián)合高斯模型中的參考源說話人均值部分進行自適應,得到待轉換源說話人與中間說話人的第一轉換模型;
所述第一轉換模塊,具體用于:
通過第一提取模塊,提取待轉換源說話人的待轉換聲音的梅爾倒譜MCEP系數(shù),并通過第一轉換模型進行轉換,得到轉換后的梅爾倒譜MCEP系數(shù);
將轉換后的梅爾倒譜MCEP系數(shù)與待轉換源說話人的梅爾倒譜MCEP系數(shù)作差分并構建梅爾對數(shù)譜MLSA濾波器,利用所述濾波器對待轉換源說話人聲音信號進行濾波,得到具有中間說話人音色的聲音。
11.根據(jù)權利要求10所述的聲音轉換裝置,其特征在于:
所述第一自適應模塊,具體還用于:
將參考源說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考源說話人均值部分以及參考源說話人協(xié)方差部分,構建參考源說話人無關的高斯混合模型;
利用待轉換源說話人語料的梅爾倒譜MCEP系數(shù)對參考源說話人無關的高斯混合模型做MLLR均值自適應得到待轉換源說話人均值矢量;
將待轉換源說話人均值矢量替換聯(lián)合高斯混合模型中的參考源說話人均值部分,得到待轉換源說話人與中間說話人的聯(lián)合高斯模型。
12.根據(jù)權利要求9所述的聲音轉換裝置,其特征在于:
所述第二聯(lián)合高斯混合模型建立模塊,具體用于:
通過第二提取模塊,提取預存儲的中間說話人第二語料與S個參考目標說話人語料的梅爾倒譜MCEP系數(shù),S大于20;
采用動態(tài)時間規(guī)整算法對中間說話人第二語料與S個參考目標說話人語料的梅爾倒譜MCEP系數(shù)分別進行對齊并組合,構成聯(lián)合特征矢量,所述中間說話人與S個參考目標說話人的語料內容相同;
對中間說話人與參考目標說話人聯(lián)合特征矢量建立參考目標說話人無關的聯(lián)合高斯混合模型。
所述第二自適應模塊,具體用于:
通過第二提取模塊,提取待轉換目標說話人語料的梅爾倒譜MCEP系數(shù),利用所述梅爾倒譜MCEP系數(shù)對參考目標說話人無關的聯(lián)合高斯模型中的參考目標說話人均值部分進行自適應,得到中間說話人與待轉換目標說話人的第二轉換模型;
所述第二轉換模塊,具體用于:
通過第一轉換模型將待轉換源說話人的聲音轉換為具有中間說話人音色的聲音之后,再通過第二提取模塊提取具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù),并將所述梅爾倒譜MCEP系數(shù)通過第二轉換模型進行轉換,得到轉換后的梅爾倒譜MCEP系數(shù);
將轉換后的梅爾倒譜MCEP系數(shù)與具有中間說話人音色的聲音的梅爾倒譜MCEP系數(shù)作差分并構建梅爾對數(shù)譜MLSA濾波器,利用所述濾波器對具有中間說話人音色的聲音信號進行濾波,從而得到具有待轉換目標說話人音色的聲音。
13.根據(jù)權利要求12所述的聲音轉換裝置,其特征在于:
所述第二自適應模塊,具體還用于:
將參考目標說話人無關的聯(lián)合高斯模型拆分,抽取聯(lián)合高斯模型中的參考目標說話人均值部分以及目標說話人協(xié)方差部分,構建參考目標說話人無關的高斯混合模型;
利用待轉換目標說話人的梅爾倒譜MCEP系數(shù)對參考目標說話人無關的高斯混合模型做MLLR均值自適應得到待轉換目標說話人的均值矢量;
將待轉換目標說話人的均值矢量替換聯(lián)合高斯混合模型中的參考目標說話人均值部分,得到中間說話人與待轉換目標說話人的聯(lián)合高斯模型。
14.根據(jù)權利要求10至13之一所述的聲音轉換裝置,其特征在于:
所述第一提取模塊或所述第二提取模塊,具體用于:
利用STRAIGHT分析合成器對聲音按幀分析,得到靜態(tài)頻譜包絡,根據(jù)所述靜態(tài)頻譜包絡提取梅爾倒譜MCEP系數(shù)。