本發(fā)明涉及電子語音領(lǐng)域,更具體地,是一種基于高斯混合模型GMM和/或非負(fù)矩陣分解NMF的漢語電子喉語音轉(zhuǎn)換方法。
背景技術(shù):
每年都有不少咽喉病患需要接受聲帶切除手術(shù),以至于他們需要使用發(fā)聲設(shè)備來輔助日常生活。電子喉(Electrolarynx,EL)就是這種專門用于復(fù)原聲音的發(fā)聲儀器。當(dāng)患者嘗試說話時,他將EL設(shè)備頂在下頜附近,通過機(jī)械振動以及口腔變化而發(fā)出不同聲音。
但是傳統(tǒng)設(shè)備里有三個問題,第一是EL的振動頻率是不變的,因此發(fā)出的聲音是固定的音調(diào),讓聲音顯得很不自然。第二是由于機(jī)械能量轉(zhuǎn)換不夠到位,設(shè)備會散播出高能量振動的噪音,影響周圍聽眾,第三是喉嚨切除導(dǎo)致他們的特有的嗓音永遠(yuǎn)丟失,只能產(chǎn)生非自然人聲的語音。為了解決這些問題,目前對EL語音增強(qiáng)的研究主要使用兩個方法,第一是利用降噪的方法來提高語音質(zhì)量,第二是通過統(tǒng)計學(xué)語音轉(zhuǎn)換的方法,例如用GMM對語音頻譜信息(一般是梅爾倒譜參數(shù)的第1階到第24階)進(jìn)行估算,讓聲音結(jié)果更像本人聲音。前者沒有很明顯改善語音自然度,因為它保持原來的基頻F0信息不變,后者雖然通過語音轉(zhuǎn)換能大幅改善自然度,但是會降低音頻質(zhì)量,影響語音的可懂性,這是GMM語音轉(zhuǎn)換的通病。
技術(shù)實現(xiàn)要素:
本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷(不足),提供一種漢語電子喉語音轉(zhuǎn)換方法。該方法使用語音轉(zhuǎn)換技術(shù)來改善漢語電子喉語音。
為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:
一種漢語電子喉語音轉(zhuǎn)換方法,采用GMM轉(zhuǎn)換或NMF轉(zhuǎn)換,其具體過程分別為:
GMM轉(zhuǎn)換:
訓(xùn)練階段:
步驟101:從語音材料中獲取梅爾倒譜參數(shù)MCC和基頻F0;
步驟102:訓(xùn)練MCC的0階參數(shù)的GMM模型,訓(xùn)練動態(tài)F0的GMM模型,訓(xùn)練MCC的GMM模型;
轉(zhuǎn)換階段:
步驟103:根據(jù)以上模型估算0階參數(shù),動態(tài)F0和轉(zhuǎn)換的MCC;
步驟104:結(jié)合獲取的0階參數(shù)和動態(tài)F0,將轉(zhuǎn)換的MCC復(fù)原成轉(zhuǎn)換語音;
NMF轉(zhuǎn)換:
訓(xùn)練階段:
步驟201:從語音材料中獲取頻譜SP參數(shù)和基頻F0,
步驟202:訓(xùn)練SP的0階參數(shù)的GMM模型,訓(xùn)練動態(tài)F0的GMM模型,訓(xùn)練SP的NMF字典;
轉(zhuǎn)換階段:
步驟203:根據(jù)以上模型估算0階參數(shù),動態(tài)F0和轉(zhuǎn)換的MCC;
步驟204:結(jié)合獲取的0階參數(shù)和動態(tài)F0,將轉(zhuǎn)換的MCC復(fù)原成轉(zhuǎn)換語音。
優(yōu)選地,采用GMM轉(zhuǎn)換時,訓(xùn)練MCC的0階參數(shù)的GMM模型,估算0階參數(shù)的實現(xiàn)過程為:
訓(xùn)練過程:
步驟301:取出源語音的MCC及其一階差分參數(shù)△,以及目標(biāo)語音的MCC的0階參數(shù)以及其一階差分△;
步驟302:訓(xùn)練MCC的0階參數(shù)的GMM模型;
估算0階參數(shù)過程:
步驟303:對新獲得的電子喉語音提取同樣MCC和一階差分參數(shù)△;
步驟304:輸入到MCC的0階參數(shù)的GMM模型,估算出含有一階差分△信息約束的0階參數(shù),存儲備用。
優(yōu)選地,采用NMF轉(zhuǎn)換時,已知每個人的語音可以分解成兩個非負(fù)矩陣,分解公式如下:
X=H·W
X是電子喉的特征和自然人聲特征的聯(lián)合特征,W是要估算的字典,H是激活矩陣;
則訓(xùn)練NMF字典,并基于NMF字典將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn) 過程為:
訓(xùn)練過程:
步驟401:先提取兩種語音材料的頻譜信息高維特征SP;
步驟402:使用動態(tài)規(guī)整的方法對齊兩個特征;
步驟403:拼接成聯(lián)合特征訓(xùn)練NMF兩個字典:源說話人的字典和目標(biāo)說話人的字典;
轉(zhuǎn)換過程:
步驟404:對新獲得的電子喉語音提取同樣高維特征;
步驟405:利用已有的源說話人字典W對該語音進(jìn)行分解,得到一個激活矩陣H;
步驟406:令源語音和目標(biāo)語音的激活矩陣是相似的,則將該激活矩陣H乘以目標(biāo)說話人字典,得到估算出來的目標(biāo)高維頻譜SP;
步驟407:再和其他成分一起還原成語音。
優(yōu)選地,所述步驟402,是使用低維的MCC來對齊各個幀,以達(dá)到對齊兩個特征。
優(yōu)選地,采用NMF轉(zhuǎn)換時,訓(xùn)練動態(tài)F0模型,估算動態(tài)F0的實現(xiàn)過程為:
訓(xùn)練過程
步驟501:在分解好的兩種語音材料中,取出源語音的MCC和一階差分參數(shù)△,以及目標(biāo)語音的F0和一階差分△;
步驟502:拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型;
估算動態(tài)F0過程:
步驟503:對新獲得的電子喉語音提取MCC特征和一階差分參數(shù)△;
步驟504:輸入到動態(tài)F0的GMM模型,估算出有一階差分△信息約束的動態(tài)F0,存儲備用。
本發(fā)明使用語音轉(zhuǎn)換技術(shù)來改善漢語電子喉語音,特別是混合了高斯混合模型(Gaussian Mixture Model,GMM)和非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)的方法來提高電子喉語音質(zhì)量,并且添加梅爾倒譜參數(shù)(Mel-cepstral coefficient,MCC)的第0階參數(shù)來抑制噪聲,在NMF方法下使用頻譜SP第0階參數(shù)。
與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:本發(fā)明針對在提高EL自 然度的同時減少對語音可懂性的影響,提出了一種混合了NMF和GMM的方法來實施語音轉(zhuǎn)換。為了提高自然度,考慮到F0的影響,并使用GMM來估算動態(tài)F0。接著為了提高音頻可懂度,使用NMF來估算高質(zhì)量的頻譜用于聲音重建。同時為了抑制EL設(shè)備的振動噪聲,本發(fā)明還對語音特征的第0階參數(shù)同樣使用GMM的方法,通過合成0階參數(shù)來降噪。最后采取了客觀和主觀評價來說明本混合系統(tǒng)在自然度和可懂性上比傳統(tǒng)所得的更好結(jié)果。
附圖說明
圖1是基于GMM的語音轉(zhuǎn)換框架圖。
圖2是基于NMF的語音轉(zhuǎn)換框架圖。
圖3是MCC第0階參數(shù)和F0信息的訓(xùn)練材料結(jié)構(gòu)圖。
圖4是本發(fā)明中的語音轉(zhuǎn)換框架圖。
圖5是本發(fā)明的主觀評測結(jié)果。
具體實施方式
附圖僅用于示例性說明,不能理解為對本專利的限制;為了更好說明本實施例,附圖某些部件會有省略、放大或縮小,并不代表實際產(chǎn)品的尺寸;
對于本領(lǐng)域技術(shù)人員來說,附圖中某些公知結(jié)構(gòu)及其說明可能省略是可以理解的。下面結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案做進(jìn)一步的說明。
一種漢語電子喉語音轉(zhuǎn)換方法,具體過程為:
訓(xùn)練階段:從語音材料中獲取MCC,基頻F0和頻譜SP參數(shù),訓(xùn)練MCC和SP的0階段參數(shù)的GMM模型,訓(xùn)練動態(tài)F0模型,訓(xùn)練MCC的GMM模型,訓(xùn)練SP的NMF字典;
轉(zhuǎn)換階段:利用以上的GMM模型、NMF字典根據(jù)對轉(zhuǎn)換效果的要求進(jìn)行組合配置,將新的源語音轉(zhuǎn)換成目標(biāo)語音。
優(yōu)選的,訓(xùn)練0階段參數(shù)的GMM模型,動態(tài)F0的GMM模型,并基于GMM模型將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn)過程為:
訓(xùn)練過程
步驟101:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù)△,以及目標(biāo)語音的MCC和一階差分△,根據(jù)MCC動態(tài)規(guī)整信息對齊兩個特征,拼接成聯(lián)合特征訓(xùn)練一個MCC的GMM模型;
步驟102:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù) △,以及目標(biāo)語音的0階參數(shù)MCC和一階差分△,拼接成聯(lián)合特征訓(xùn)練一個0階參數(shù)的GMM模型;
步驟103:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù)△,以及目標(biāo)語音的F0和一階差分△,拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型;
估算0階參數(shù)過程:
步驟104:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△;
步驟105:輸入到0階參數(shù)的GMM模型,估算出有一階差分△信息約束的0階參數(shù);
估算動態(tài)F0過程:
步驟106:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△;
步驟107:輸入到動態(tài)F0的GMM模型,估算出有一階差分△信息約束的0階參數(shù);
轉(zhuǎn)換過程:
步驟108:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△
步驟109:輸入到MCC的GMM模型,估算出含有一階差分△信息約束的新MCC;
步驟1010:結(jié)合之前獲取的0階參數(shù)和動態(tài)F0,將新的MCC進(jìn)行合成得到轉(zhuǎn)換的語音;本實施例中采用的合成的方法是STRAIGHT方法。
已知每個人的語音可以分解成兩個非負(fù)矩陣,分解公式如下:
X=H·W
X是電子喉的特征和自然人聲特征的聯(lián)合特征,W是要估算的字典,H是激活矩陣;
則訓(xùn)練動態(tài)F0的GMM模型,并基于NMF模型將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn)過程為:
訓(xùn)練過程:
步驟201:先提取兩種語音材料的頻譜信息高維特征SP,使用動態(tài)規(guī)整的方法對齊兩個特征,拼接成聯(lián)合特征訓(xùn)練NMF兩個字典:源說話人的字典和目標(biāo)說話人的字典;
步驟202:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù) △,以及目標(biāo)語音的F0和一階差分△,拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型;
估算動態(tài)F0過程:
步驟203:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△;
步驟204:輸入到動態(tài)F0的GMM模型,估算出有一階差分△信息約束的動態(tài)F0;
轉(zhuǎn)換過程:
步驟205:對新獲得的電子喉語音提取同樣高維特征SP;
步驟206:利用已有的源說話人字典W對該語音進(jìn)行分解,得到一個激活矩陣H;
步驟207:令源語音和目標(biāo)語音的激活矩陣是相似的,則將該激活矩陣H乘以目標(biāo)說話人字典,得到估算出來的目標(biāo)高維頻譜SP;
步驟208:結(jié)合之前獲取的0階參數(shù)和動態(tài)F0,將新的SP進(jìn)行合成得到轉(zhuǎn)換的語音。
訓(xùn)練0階段參數(shù)的GMM模型,訓(xùn)練動態(tài)F0的GMM模型,并基于NMF字典將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn)過程為:
訓(xùn)練過程:
步驟301:先提取兩種語音材料的頻譜信息高維特征SP,使用動態(tài)規(guī)整的方法對齊兩個特征,拼接成聯(lián)合特征訓(xùn)練NMF兩個字典:源說話人的字典和目標(biāo)說話人的字典;
步驟302:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù)△,以及目標(biāo)語音的F0和一階差分△,拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型;
步驟303:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù)△,以及目標(biāo)語音的SP的0階參數(shù)和一階差分△,拼接成聯(lián)合特征訓(xùn)練一個0階參數(shù)的GMM模型;
估算0階參數(shù)過程:
步驟304:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△;
步驟305:輸入到0階參數(shù)的GMM模型,估算出有一階差分△信息約束的0階參數(shù);
估算動態(tài)F0過程:
步驟306:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△;
步驟307:輸入到動態(tài)F0的GMM模型,估算出有一階差分△信息約束的動態(tài)F0;
轉(zhuǎn)換過程:
步驟308:對新獲得的電子喉語音提取同樣高維特征SP;
步驟309:利用已有的源說話人字典W對該語音進(jìn)行分解,得到一個激活矩陣H;
步驟3010:令源語音和目標(biāo)語音的激活矩陣是相似的,則將該激活矩陣H乘以目標(biāo)說話人字典,得到估算出來的目標(biāo)高維頻譜SP;
步驟3011:結(jié)合之前獲取的0階參數(shù)和動態(tài)F0,將新的SP進(jìn)行合成得到轉(zhuǎn)換的語音。
本發(fā)明主要是利用到語音轉(zhuǎn)換的一些方法來提升電子喉的語音質(zhì)量,并且在此基礎(chǔ)上進(jìn)行改進(jìn)。一般語音轉(zhuǎn)換有兩個階段,訓(xùn)練階段和轉(zhuǎn)換階段,訓(xùn)練階段需要兩個說話人的語料,一般是源說話人(電子喉聲音)和目標(biāo)說話人(自然人聲)講了一模一樣內(nèi)容的語音。我們會將語音分解成基頻F0,頻譜特征等成分后單獨修改頻譜,最后將處理好的頻譜和原來的其他成分合成還原語音。
語音的分解和合成在本實施例中使用了STRAIGHT的方法。將一個語音分解了以后,主要轉(zhuǎn)換頻譜SP和基頻F0兩個部分,GMM方法中頻譜SP會往往進(jìn)一步降維到低維特征后再處理,例如MCC,而又由于MCC和SP的0階參數(shù)被認(rèn)為只與能量相關(guān),訓(xùn)練GMM前去掉0階參數(shù),防止不良影響。
傳統(tǒng)基于GMM的語音轉(zhuǎn)換框架如圖1:
訓(xùn)練過程:
步驟1:先分解兩者語音材料,取出當(dāng)中的頻譜低維特征例如25維MCC,
步驟2:去除0階參數(shù),使用動態(tài)規(guī)整的方法對齊兩者特征,
步驟3:拼接成聯(lián)合特征訓(xùn)練一個GMM模型。
轉(zhuǎn)換過程:
步驟1:對新獲得的電子喉語音提取同樣低維特征,去除0階參數(shù),輸入到GMM模型,得到估算出來的目標(biāo)低維特征;
步驟2:然后再將線性歸一化處理后的F0,該語音的原0階參數(shù),一起還原 成語音。
在這個基礎(chǔ)上,本實施例提出三個改進(jìn):
1、提出基于NMF的電子喉語音轉(zhuǎn)換框架如圖2,該方法由于直接對頻譜進(jìn)行轉(zhuǎn)換修改,能夠獲得更高質(zhì)量的轉(zhuǎn)換語音,NMF的方法認(rèn)為,每個人的語音可以分解成兩個非負(fù)矩陣(由于頻譜不可能出現(xiàn)負(fù)數(shù)),分解公式如下:
X=H·W
X是電子喉的特征和自然人聲特征的聯(lián)合特征,W是要估算的字典,H是激活矩陣。
訓(xùn)練過程:
步驟1:先提取兩者語音材料的頻譜信息高維特征,例如512維頻譜SP;
步驟2:使用動態(tài)規(guī)整的方法對齊兩者特征(可以使用低維的MCC來對齊各個幀);
步驟3:拼接成聯(lián)合特征訓(xùn)練NMF兩個字典:源說話人的字典和目標(biāo)說話人的字典。
轉(zhuǎn)換過程:
步驟1:對新獲得的電子喉語音提取同樣高維特征;
步驟2:利用已有的源說話人字典W對該語音進(jìn)行分解,得到一個激活矩陣H;
步驟3:由于認(rèn)為在同樣的語義內(nèi)容下,源語音和目標(biāo)語音的激活矩陣是相似的,所以直接將該激活矩陣乘以目標(biāo)說話人字典,就可以得到估算出來的目標(biāo)高維頻譜SP;
步驟4:再和其他成分一起還原成語音。
2、提出基于GMM的動態(tài)平滑F(xiàn)0估算方法。傳統(tǒng)的GMM語音轉(zhuǎn)換只考慮線性地處理源語音和目標(biāo)語音的F0信息,通過均值方差的換算方法來達(dá)到轉(zhuǎn)換F0的目的,但是由于電子喉發(fā)聲原理是使用固定的機(jī)械振動,轉(zhuǎn)換后到的靜態(tài)F0軌跡不能提高語音的自然度。因此本發(fā)明提出通過單獨訓(xùn)練一個用于獲取動態(tài)F0軌跡,讓轉(zhuǎn)換后的語音與自然人聲更相似。
訓(xùn)練過程
步驟1:在分解好的兩者語音材料,取出源語音的頻譜低維特征和一階差分參數(shù)△,以及目標(biāo)語音的F0特征和一階差分△,如圖3a;
步驟2:根據(jù)MCC動態(tài)規(guī)整信息對齊兩個特征;
步驟3:拼接成聯(lián)合特征訓(xùn)練一個GMM模型;
估算F0過程:
步驟1:對新獲得的電子喉語音提取同樣頻譜低維特征和一階差分參數(shù)△;
步驟2:輸入到GMM模型,估算出有一階差分△信息約束的動態(tài)F0特征,存儲備用。
步驟3:得到的這個動態(tài)F0將會替換傳統(tǒng)系統(tǒng)的歸一化F0,參與到轉(zhuǎn)換語音合成。
3、提出基于GMM的0階參數(shù)估算方法。
傳統(tǒng)GMM方法里頻譜特征的0階參數(shù)經(jīng)常不被考慮到語音轉(zhuǎn)換的計算中,考慮到它的能量對估算結(jié)果有副作用,所以在合成目標(biāo)語音時,直接使用源語音的0階參數(shù)。然而在電子喉語音中,EL設(shè)備會發(fā)出振動噪聲,而這個信息就包含在0階參數(shù)中,因此為了更好地恢復(fù)出轉(zhuǎn)換的結(jié)果,不能直接采用包含噪聲的源0階參數(shù),而是也通過訓(xùn)練一個GMM來估算0階參數(shù)的大小。對于第一個基于NMF的方法,可以繼續(xù)通過用這個參數(shù)均一化頻譜來進(jìn)一步提高音頻質(zhì)量。
訓(xùn)練過程
步驟1:在分解好的兩者語音材料,取出源語音的頻譜特征和一階差分參數(shù)△,以及目標(biāo)語音的0階參數(shù)和一階差分△,如圖3b;
步驟2:根據(jù)MCC動態(tài)規(guī)整信息對齊兩個特征;
步驟3:拼接成聯(lián)合特征訓(xùn)練一個GMM模型。
估算0階參數(shù)過程:
步驟1:對新獲得的電子喉語音提取同樣頻譜特征(SP或者M(jìn)CC)和一階差分參數(shù)△;
步驟2:輸入到GMM模型,估算出有一階差分△信息約束的0階參數(shù),存儲備用。
步驟3:在合成轉(zhuǎn)換語音的時候,我們將使用得到的這個估算的0階參數(shù),而不是像傳統(tǒng)方法那樣直接使用源語音的0階參數(shù)。
因此組合以上的改進(jìn),可以得到圖4的組合系統(tǒng),并且將會在實驗中驗證得到的結(jié)果是否跟預(yù)期的改善相符。
實驗設(shè)置:
源說話人和目標(biāo)說話人都是同一個23歲中國女性,用自然語音和電子喉分別各錄制100句內(nèi)容相同的日常用語。錄制電子喉語音時,該志愿者先通過培訓(xùn)如何在不振動聲帶的情況下,模擬失喉患者僅僅依賴電子喉發(fā)聲的情景。使用的電子喉是湖州天酬醫(yī)療器械有限公司的產(chǎn)品,錄音采樣率為16kHz。試驗設(shè)計了90句訓(xùn)練10句驗證的交叉驗證。語音信號幀長為25毫秒,幀移為5毫秒。GMM的核心數(shù)為125,而NMF的字典大小設(shè)為100。
客觀評測:
在該實驗中,客觀評價可以采用梅爾倒譜失真率MCD(Mel-cepstral Distortion)來評估兩個語音的相似程度,該參數(shù)通過以下的公式在變聲結(jié)果的MCC特征和目標(biāo)說話人語音MCC特征之間計算出來。
其中和分別是第d維目標(biāo)說話人倒譜參數(shù)和第d維變聲結(jié)果倒譜參數(shù),MCD值越大,表示音頻之間失真越嚴(yán)重,越不像,反之,表示音頻相似度越大,dB是單位。
主觀評測:
在主觀評測中,6位志愿者要根據(jù)音頻的自然度,可懂度和相似度使用五個標(biāo)準(zhǔn)對語音進(jìn)行打分,分別為5-很好,4-好,3-一般,2-差,1-很差,7個語音樣品被呈現(xiàn)在志愿者前:1)源語音(EL),2)GMM方法加上動態(tài)的F0,3)GMM方法加上0階參數(shù),4)NMF方法加上線性歸一化的F0(F0_Nor),5)NMF方法加上動態(tài)的F0,6)NMF方法加上動態(tài)的F0和0階參數(shù),7)參考目標(biāo)語音(TG)。
實驗結(jié)果:
客觀測試結(jié)果:
基于表1,可以看到相比沒有轉(zhuǎn)換,GMM+動態(tài)F0的轉(zhuǎn)換結(jié)果讓失真率降低6.28(dB)??紤]添加估算0階參數(shù)后,失真率進(jìn)一步降低0.82(dB)。而對于NMF方法,由于NMF直接在頻譜上操作,所以跟低維的GMM方法沒有可比性。 但是可以看到對于NMF來說,添加了0階參數(shù)后,呈現(xiàn)降低的趨勢。
表1
F0和0階參數(shù)的相關(guān)參數(shù)如表2,可以看到源語音F0和目標(biāo)語音的相關(guān)參數(shù)是0.0035,源語音F0在歸一化轉(zhuǎn)換后與目標(biāo)語音的相關(guān)參數(shù)也只是達(dá)到了0.0749,沒有明顯的改進(jìn)。而通過GMM估算獲得的動態(tài)F0把相關(guān)性提高到54%。對于0階參數(shù),我們得到了也得到了46%的相關(guān)系提高。這個高相關(guān)性大大抑制了EL語音的振動噪聲。
表2
主觀測試結(jié)果:
在自然度評測中(如圖5(a)),最高的提升了約47%。使用了估算的0階參數(shù)以后,相比基本的GMM和NMF的語音轉(zhuǎn)換方法(GMM+動態(tài)F0,NMF+F0_Nor),新方法(GMM+動態(tài)F0+0階參數(shù),NMF+F0_Nor+0階參數(shù))都比原來的系統(tǒng)表現(xiàn)更好。同時提出的NMF+動態(tài)F0比NMF+F0_Nor獲得了更好的自然度評價。整體而言GMM+動態(tài)F0+0階參數(shù)的系統(tǒng)得到了最好自然度性能。
在可懂度評測中(如圖5(b)),NMF+動態(tài)F0+0階參數(shù)的子系統(tǒng)的結(jié)果可懂度表現(xiàn)最好。除此以外可以看到考慮了0階參數(shù)后,可懂度提高得比較明顯, 說明振動噪聲對語音的可懂度影響比較大。
在相似度上(如圖5(c)),所有的方法都提高了轉(zhuǎn)換效果,相對來說GMM方法比NMF方法更明顯。也可以看到不同F(xiàn)0和是否考慮0階參數(shù)也是會影響相似度。
相同或相似的標(biāo)號對應(yīng)相同或相似的部件;
附圖中描述位置關(guān)系的用于僅用于示例性說明,不能理解為對本專利的限制;
顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。