欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種漢語電子喉語音轉(zhuǎn)換方法與流程

文檔序號:12274055閱讀:700來源:國知局
一種漢語電子喉語音轉(zhuǎn)換方法與流程

本發(fā)明涉及電子語音領(lǐng)域,更具體地,是一種基于高斯混合模型GMM和/或非負(fù)矩陣分解NMF的漢語電子喉語音轉(zhuǎn)換方法。



背景技術(shù):

每年都有不少咽喉病患需要接受聲帶切除手術(shù),以至于他們需要使用發(fā)聲設(shè)備來輔助日常生活。電子喉(Electrolarynx,EL)就是這種專門用于復(fù)原聲音的發(fā)聲儀器。當(dāng)患者嘗試說話時,他將EL設(shè)備頂在下頜附近,通過機(jī)械振動以及口腔變化而發(fā)出不同聲音。

但是傳統(tǒng)設(shè)備里有三個問題,第一是EL的振動頻率是不變的,因此發(fā)出的聲音是固定的音調(diào),讓聲音顯得很不自然。第二是由于機(jī)械能量轉(zhuǎn)換不夠到位,設(shè)備會散播出高能量振動的噪音,影響周圍聽眾,第三是喉嚨切除導(dǎo)致他們的特有的嗓音永遠(yuǎn)丟失,只能產(chǎn)生非自然人聲的語音。為了解決這些問題,目前對EL語音增強(qiáng)的研究主要使用兩個方法,第一是利用降噪的方法來提高語音質(zhì)量,第二是通過統(tǒng)計學(xué)語音轉(zhuǎn)換的方法,例如用GMM對語音頻譜信息(一般是梅爾倒譜參數(shù)的第1階到第24階)進(jìn)行估算,讓聲音結(jié)果更像本人聲音。前者沒有很明顯改善語音自然度,因為它保持原來的基頻F0信息不變,后者雖然通過語音轉(zhuǎn)換能大幅改善自然度,但是會降低音頻質(zhì)量,影響語音的可懂性,這是GMM語音轉(zhuǎn)換的通病。



技術(shù)實現(xiàn)要素:

本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷(不足),提供一種漢語電子喉語音轉(zhuǎn)換方法。該方法使用語音轉(zhuǎn)換技術(shù)來改善漢語電子喉語音。

為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:

一種漢語電子喉語音轉(zhuǎn)換方法,采用GMM轉(zhuǎn)換或NMF轉(zhuǎn)換,其具體過程分別為:

GMM轉(zhuǎn)換:

訓(xùn)練階段:

步驟101:從語音材料中獲取梅爾倒譜參數(shù)MCC和基頻F0;

步驟102:訓(xùn)練MCC的0階參數(shù)的GMM模型,訓(xùn)練動態(tài)F0的GMM模型,訓(xùn)練MCC的GMM模型;

轉(zhuǎn)換階段:

步驟103:根據(jù)以上模型估算0階參數(shù),動態(tài)F0和轉(zhuǎn)換的MCC;

步驟104:結(jié)合獲取的0階參數(shù)和動態(tài)F0,將轉(zhuǎn)換的MCC復(fù)原成轉(zhuǎn)換語音;

NMF轉(zhuǎn)換:

訓(xùn)練階段:

步驟201:從語音材料中獲取頻譜SP參數(shù)和基頻F0,

步驟202:訓(xùn)練SP的0階參數(shù)的GMM模型,訓(xùn)練動態(tài)F0的GMM模型,訓(xùn)練SP的NMF字典;

轉(zhuǎn)換階段:

步驟203:根據(jù)以上模型估算0階參數(shù),動態(tài)F0和轉(zhuǎn)換的MCC;

步驟204:結(jié)合獲取的0階參數(shù)和動態(tài)F0,將轉(zhuǎn)換的MCC復(fù)原成轉(zhuǎn)換語音。

優(yōu)選地,采用GMM轉(zhuǎn)換時,訓(xùn)練MCC的0階參數(shù)的GMM模型,估算0階參數(shù)的實現(xiàn)過程為:

訓(xùn)練過程:

步驟301:取出源語音的MCC及其一階差分參數(shù)△,以及目標(biāo)語音的MCC的0階參數(shù)以及其一階差分△;

步驟302:訓(xùn)練MCC的0階參數(shù)的GMM模型;

估算0階參數(shù)過程:

步驟303:對新獲得的電子喉語音提取同樣MCC和一階差分參數(shù)△;

步驟304:輸入到MCC的0階參數(shù)的GMM模型,估算出含有一階差分△信息約束的0階參數(shù),存儲備用。

優(yōu)選地,采用NMF轉(zhuǎn)換時,已知每個人的語音可以分解成兩個非負(fù)矩陣,分解公式如下:

X=H·W

X是電子喉的特征和自然人聲特征的聯(lián)合特征,W是要估算的字典,H是激活矩陣;

則訓(xùn)練NMF字典,并基于NMF字典將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn) 過程為:

訓(xùn)練過程:

步驟401:先提取兩種語音材料的頻譜信息高維特征SP;

步驟402:使用動態(tài)規(guī)整的方法對齊兩個特征;

步驟403:拼接成聯(lián)合特征訓(xùn)練NMF兩個字典:源說話人的字典和目標(biāo)說話人的字典;

轉(zhuǎn)換過程:

步驟404:對新獲得的電子喉語音提取同樣高維特征;

步驟405:利用已有的源說話人字典W對該語音進(jìn)行分解,得到一個激活矩陣H;

步驟406:令源語音和目標(biāo)語音的激活矩陣是相似的,則將該激活矩陣H乘以目標(biāo)說話人字典,得到估算出來的目標(biāo)高維頻譜SP;

步驟407:再和其他成分一起還原成語音。

優(yōu)選地,所述步驟402,是使用低維的MCC來對齊各個幀,以達(dá)到對齊兩個特征。

優(yōu)選地,采用NMF轉(zhuǎn)換時,訓(xùn)練動態(tài)F0模型,估算動態(tài)F0的實現(xiàn)過程為:

訓(xùn)練過程

步驟501:在分解好的兩種語音材料中,取出源語音的MCC和一階差分參數(shù)△,以及目標(biāo)語音的F0和一階差分△;

步驟502:拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型;

估算動態(tài)F0過程:

步驟503:對新獲得的電子喉語音提取MCC特征和一階差分參數(shù)△;

步驟504:輸入到動態(tài)F0的GMM模型,估算出有一階差分△信息約束的動態(tài)F0,存儲備用。

本發(fā)明使用語音轉(zhuǎn)換技術(shù)來改善漢語電子喉語音,特別是混合了高斯混合模型(Gaussian Mixture Model,GMM)和非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)的方法來提高電子喉語音質(zhì)量,并且添加梅爾倒譜參數(shù)(Mel-cepstral coefficient,MCC)的第0階參數(shù)來抑制噪聲,在NMF方法下使用頻譜SP第0階參數(shù)。

與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:本發(fā)明針對在提高EL自 然度的同時減少對語音可懂性的影響,提出了一種混合了NMF和GMM的方法來實施語音轉(zhuǎn)換。為了提高自然度,考慮到F0的影響,并使用GMM來估算動態(tài)F0。接著為了提高音頻可懂度,使用NMF來估算高質(zhì)量的頻譜用于聲音重建。同時為了抑制EL設(shè)備的振動噪聲,本發(fā)明還對語音特征的第0階參數(shù)同樣使用GMM的方法,通過合成0階參數(shù)來降噪。最后采取了客觀和主觀評價來說明本混合系統(tǒng)在自然度和可懂性上比傳統(tǒng)所得的更好結(jié)果。

附圖說明

圖1是基于GMM的語音轉(zhuǎn)換框架圖。

圖2是基于NMF的語音轉(zhuǎn)換框架圖。

圖3是MCC第0階參數(shù)和F0信息的訓(xùn)練材料結(jié)構(gòu)圖。

圖4是本發(fā)明中的語音轉(zhuǎn)換框架圖。

圖5是本發(fā)明的主觀評測結(jié)果。

具體實施方式

附圖僅用于示例性說明,不能理解為對本專利的限制;為了更好說明本實施例,附圖某些部件會有省略、放大或縮小,并不代表實際產(chǎn)品的尺寸;

對于本領(lǐng)域技術(shù)人員來說,附圖中某些公知結(jié)構(gòu)及其說明可能省略是可以理解的。下面結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案做進(jìn)一步的說明。

一種漢語電子喉語音轉(zhuǎn)換方法,具體過程為:

訓(xùn)練階段:從語音材料中獲取MCC,基頻F0和頻譜SP參數(shù),訓(xùn)練MCC和SP的0階段參數(shù)的GMM模型,訓(xùn)練動態(tài)F0模型,訓(xùn)練MCC的GMM模型,訓(xùn)練SP的NMF字典;

轉(zhuǎn)換階段:利用以上的GMM模型、NMF字典根據(jù)對轉(zhuǎn)換效果的要求進(jìn)行組合配置,將新的源語音轉(zhuǎn)換成目標(biāo)語音。

優(yōu)選的,訓(xùn)練0階段參數(shù)的GMM模型,動態(tài)F0的GMM模型,并基于GMM模型將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn)過程為:

訓(xùn)練過程

步驟101:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù)△,以及目標(biāo)語音的MCC和一階差分△,根據(jù)MCC動態(tài)規(guī)整信息對齊兩個特征,拼接成聯(lián)合特征訓(xùn)練一個MCC的GMM模型;

步驟102:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù) △,以及目標(biāo)語音的0階參數(shù)MCC和一階差分△,拼接成聯(lián)合特征訓(xùn)練一個0階參數(shù)的GMM模型;

步驟103:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù)△,以及目標(biāo)語音的F0和一階差分△,拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型;

估算0階參數(shù)過程:

步驟104:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△;

步驟105:輸入到0階參數(shù)的GMM模型,估算出有一階差分△信息約束的0階參數(shù);

估算動態(tài)F0過程:

步驟106:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△;

步驟107:輸入到動態(tài)F0的GMM模型,估算出有一階差分△信息約束的0階參數(shù);

轉(zhuǎn)換過程:

步驟108:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△

步驟109:輸入到MCC的GMM模型,估算出含有一階差分△信息約束的新MCC;

步驟1010:結(jié)合之前獲取的0階參數(shù)和動態(tài)F0,將新的MCC進(jìn)行合成得到轉(zhuǎn)換的語音;本實施例中采用的合成的方法是STRAIGHT方法。

已知每個人的語音可以分解成兩個非負(fù)矩陣,分解公式如下:

X=H·W

X是電子喉的特征和自然人聲特征的聯(lián)合特征,W是要估算的字典,H是激活矩陣;

則訓(xùn)練動態(tài)F0的GMM模型,并基于NMF模型將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn)過程為:

訓(xùn)練過程:

步驟201:先提取兩種語音材料的頻譜信息高維特征SP,使用動態(tài)規(guī)整的方法對齊兩個特征,拼接成聯(lián)合特征訓(xùn)練NMF兩個字典:源說話人的字典和目標(biāo)說話人的字典;

步驟202:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù) △,以及目標(biāo)語音的F0和一階差分△,拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型;

估算動態(tài)F0過程:

步驟203:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△;

步驟204:輸入到動態(tài)F0的GMM模型,估算出有一階差分△信息約束的動態(tài)F0;

轉(zhuǎn)換過程:

步驟205:對新獲得的電子喉語音提取同樣高維特征SP;

步驟206:利用已有的源說話人字典W對該語音進(jìn)行分解,得到一個激活矩陣H;

步驟207:令源語音和目標(biāo)語音的激活矩陣是相似的,則將該激活矩陣H乘以目標(biāo)說話人字典,得到估算出來的目標(biāo)高維頻譜SP;

步驟208:結(jié)合之前獲取的0階參數(shù)和動態(tài)F0,將新的SP進(jìn)行合成得到轉(zhuǎn)換的語音。

訓(xùn)練0階段參數(shù)的GMM模型,訓(xùn)練動態(tài)F0的GMM模型,并基于NMF字典將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn)過程為:

訓(xùn)練過程:

步驟301:先提取兩種語音材料的頻譜信息高維特征SP,使用動態(tài)規(guī)整的方法對齊兩個特征,拼接成聯(lián)合特征訓(xùn)練NMF兩個字典:源說話人的字典和目標(biāo)說話人的字典;

步驟302:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù)△,以及目標(biāo)語音的F0和一階差分△,拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型;

步驟303:在分解好的兩種語音材料,取出源語音的MCC和一階差分參數(shù)△,以及目標(biāo)語音的SP的0階參數(shù)和一階差分△,拼接成聯(lián)合特征訓(xùn)練一個0階參數(shù)的GMM模型;

估算0階參數(shù)過程:

步驟304:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△;

步驟305:輸入到0階參數(shù)的GMM模型,估算出有一階差分△信息約束的0階參數(shù);

估算動態(tài)F0過程:

步驟306:對新獲得的電子喉語音提取MCC和一階差分參數(shù)△;

步驟307:輸入到動態(tài)F0的GMM模型,估算出有一階差分△信息約束的動態(tài)F0;

轉(zhuǎn)換過程:

步驟308:對新獲得的電子喉語音提取同樣高維特征SP;

步驟309:利用已有的源說話人字典W對該語音進(jìn)行分解,得到一個激活矩陣H;

步驟3010:令源語音和目標(biāo)語音的激活矩陣是相似的,則將該激活矩陣H乘以目標(biāo)說話人字典,得到估算出來的目標(biāo)高維頻譜SP;

步驟3011:結(jié)合之前獲取的0階參數(shù)和動態(tài)F0,將新的SP進(jìn)行合成得到轉(zhuǎn)換的語音。

本發(fā)明主要是利用到語音轉(zhuǎn)換的一些方法來提升電子喉的語音質(zhì)量,并且在此基礎(chǔ)上進(jìn)行改進(jìn)。一般語音轉(zhuǎn)換有兩個階段,訓(xùn)練階段和轉(zhuǎn)換階段,訓(xùn)練階段需要兩個說話人的語料,一般是源說話人(電子喉聲音)和目標(biāo)說話人(自然人聲)講了一模一樣內(nèi)容的語音。我們會將語音分解成基頻F0,頻譜特征等成分后單獨修改頻譜,最后將處理好的頻譜和原來的其他成分合成還原語音。

語音的分解和合成在本實施例中使用了STRAIGHT的方法。將一個語音分解了以后,主要轉(zhuǎn)換頻譜SP和基頻F0兩個部分,GMM方法中頻譜SP會往往進(jìn)一步降維到低維特征后再處理,例如MCC,而又由于MCC和SP的0階參數(shù)被認(rèn)為只與能量相關(guān),訓(xùn)練GMM前去掉0階參數(shù),防止不良影響。

傳統(tǒng)基于GMM的語音轉(zhuǎn)換框架如圖1:

訓(xùn)練過程:

步驟1:先分解兩者語音材料,取出當(dāng)中的頻譜低維特征例如25維MCC,

步驟2:去除0階參數(shù),使用動態(tài)規(guī)整的方法對齊兩者特征,

步驟3:拼接成聯(lián)合特征訓(xùn)練一個GMM模型。

轉(zhuǎn)換過程:

步驟1:對新獲得的電子喉語音提取同樣低維特征,去除0階參數(shù),輸入到GMM模型,得到估算出來的目標(biāo)低維特征;

步驟2:然后再將線性歸一化處理后的F0,該語音的原0階參數(shù),一起還原 成語音。

在這個基礎(chǔ)上,本實施例提出三個改進(jìn):

1、提出基于NMF的電子喉語音轉(zhuǎn)換框架如圖2,該方法由于直接對頻譜進(jìn)行轉(zhuǎn)換修改,能夠獲得更高質(zhì)量的轉(zhuǎn)換語音,NMF的方法認(rèn)為,每個人的語音可以分解成兩個非負(fù)矩陣(由于頻譜不可能出現(xiàn)負(fù)數(shù)),分解公式如下:

X=H·W

X是電子喉的特征和自然人聲特征的聯(lián)合特征,W是要估算的字典,H是激活矩陣。

訓(xùn)練過程:

步驟1:先提取兩者語音材料的頻譜信息高維特征,例如512維頻譜SP;

步驟2:使用動態(tài)規(guī)整的方法對齊兩者特征(可以使用低維的MCC來對齊各個幀);

步驟3:拼接成聯(lián)合特征訓(xùn)練NMF兩個字典:源說話人的字典和目標(biāo)說話人的字典。

轉(zhuǎn)換過程:

步驟1:對新獲得的電子喉語音提取同樣高維特征;

步驟2:利用已有的源說話人字典W對該語音進(jìn)行分解,得到一個激活矩陣H;

步驟3:由于認(rèn)為在同樣的語義內(nèi)容下,源語音和目標(biāo)語音的激活矩陣是相似的,所以直接將該激活矩陣乘以目標(biāo)說話人字典,就可以得到估算出來的目標(biāo)高維頻譜SP;

步驟4:再和其他成分一起還原成語音。

2、提出基于GMM的動態(tài)平滑F(xiàn)0估算方法。傳統(tǒng)的GMM語音轉(zhuǎn)換只考慮線性地處理源語音和目標(biāo)語音的F0信息,通過均值方差的換算方法來達(dá)到轉(zhuǎn)換F0的目的,但是由于電子喉發(fā)聲原理是使用固定的機(jī)械振動,轉(zhuǎn)換后到的靜態(tài)F0軌跡不能提高語音的自然度。因此本發(fā)明提出通過單獨訓(xùn)練一個用于獲取動態(tài)F0軌跡,讓轉(zhuǎn)換后的語音與自然人聲更相似。

訓(xùn)練過程

步驟1:在分解好的兩者語音材料,取出源語音的頻譜低維特征和一階差分參數(shù)△,以及目標(biāo)語音的F0特征和一階差分△,如圖3a;

步驟2:根據(jù)MCC動態(tài)規(guī)整信息對齊兩個特征;

步驟3:拼接成聯(lián)合特征訓(xùn)練一個GMM模型;

估算F0過程:

步驟1:對新獲得的電子喉語音提取同樣頻譜低維特征和一階差分參數(shù)△;

步驟2:輸入到GMM模型,估算出有一階差分△信息約束的動態(tài)F0特征,存儲備用。

步驟3:得到的這個動態(tài)F0將會替換傳統(tǒng)系統(tǒng)的歸一化F0,參與到轉(zhuǎn)換語音合成。

3、提出基于GMM的0階參數(shù)估算方法。

傳統(tǒng)GMM方法里頻譜特征的0階參數(shù)經(jīng)常不被考慮到語音轉(zhuǎn)換的計算中,考慮到它的能量對估算結(jié)果有副作用,所以在合成目標(biāo)語音時,直接使用源語音的0階參數(shù)。然而在電子喉語音中,EL設(shè)備會發(fā)出振動噪聲,而這個信息就包含在0階參數(shù)中,因此為了更好地恢復(fù)出轉(zhuǎn)換的結(jié)果,不能直接采用包含噪聲的源0階參數(shù),而是也通過訓(xùn)練一個GMM來估算0階參數(shù)的大小。對于第一個基于NMF的方法,可以繼續(xù)通過用這個參數(shù)均一化頻譜來進(jìn)一步提高音頻質(zhì)量。

訓(xùn)練過程

步驟1:在分解好的兩者語音材料,取出源語音的頻譜特征和一階差分參數(shù)△,以及目標(biāo)語音的0階參數(shù)和一階差分△,如圖3b;

步驟2:根據(jù)MCC動態(tài)規(guī)整信息對齊兩個特征;

步驟3:拼接成聯(lián)合特征訓(xùn)練一個GMM模型。

估算0階參數(shù)過程:

步驟1:對新獲得的電子喉語音提取同樣頻譜特征(SP或者M(jìn)CC)和一階差分參數(shù)△;

步驟2:輸入到GMM模型,估算出有一階差分△信息約束的0階參數(shù),存儲備用。

步驟3:在合成轉(zhuǎn)換語音的時候,我們將使用得到的這個估算的0階參數(shù),而不是像傳統(tǒng)方法那樣直接使用源語音的0階參數(shù)。

因此組合以上的改進(jìn),可以得到圖4的組合系統(tǒng),并且將會在實驗中驗證得到的結(jié)果是否跟預(yù)期的改善相符。

實驗設(shè)置:

源說話人和目標(biāo)說話人都是同一個23歲中國女性,用自然語音和電子喉分別各錄制100句內(nèi)容相同的日常用語。錄制電子喉語音時,該志愿者先通過培訓(xùn)如何在不振動聲帶的情況下,模擬失喉患者僅僅依賴電子喉發(fā)聲的情景。使用的電子喉是湖州天酬醫(yī)療器械有限公司的產(chǎn)品,錄音采樣率為16kHz。試驗設(shè)計了90句訓(xùn)練10句驗證的交叉驗證。語音信號幀長為25毫秒,幀移為5毫秒。GMM的核心數(shù)為125,而NMF的字典大小設(shè)為100。

客觀評測:

在該實驗中,客觀評價可以采用梅爾倒譜失真率MCD(Mel-cepstral Distortion)來評估兩個語音的相似程度,該參數(shù)通過以下的公式在變聲結(jié)果的MCC特征和目標(biāo)說話人語音MCC特征之間計算出來。

其中和分別是第d維目標(biāo)說話人倒譜參數(shù)和第d維變聲結(jié)果倒譜參數(shù),MCD值越大,表示音頻之間失真越嚴(yán)重,越不像,反之,表示音頻相似度越大,dB是單位。

主觀評測:

在主觀評測中,6位志愿者要根據(jù)音頻的自然度,可懂度和相似度使用五個標(biāo)準(zhǔn)對語音進(jìn)行打分,分別為5-很好,4-好,3-一般,2-差,1-很差,7個語音樣品被呈現(xiàn)在志愿者前:1)源語音(EL),2)GMM方法加上動態(tài)的F0,3)GMM方法加上0階參數(shù),4)NMF方法加上線性歸一化的F0(F0_Nor),5)NMF方法加上動態(tài)的F0,6)NMF方法加上動態(tài)的F0和0階參數(shù),7)參考目標(biāo)語音(TG)。

實驗結(jié)果:

客觀測試結(jié)果:

基于表1,可以看到相比沒有轉(zhuǎn)換,GMM+動態(tài)F0的轉(zhuǎn)換結(jié)果讓失真率降低6.28(dB)??紤]添加估算0階參數(shù)后,失真率進(jìn)一步降低0.82(dB)。而對于NMF方法,由于NMF直接在頻譜上操作,所以跟低維的GMM方法沒有可比性。 但是可以看到對于NMF來說,添加了0階參數(shù)后,呈現(xiàn)降低的趨勢。

表1

F0和0階參數(shù)的相關(guān)參數(shù)如表2,可以看到源語音F0和目標(biāo)語音的相關(guān)參數(shù)是0.0035,源語音F0在歸一化轉(zhuǎn)換后與目標(biāo)語音的相關(guān)參數(shù)也只是達(dá)到了0.0749,沒有明顯的改進(jìn)。而通過GMM估算獲得的動態(tài)F0把相關(guān)性提高到54%。對于0階參數(shù),我們得到了也得到了46%的相關(guān)系提高。這個高相關(guān)性大大抑制了EL語音的振動噪聲。

表2

主觀測試結(jié)果:

在自然度評測中(如圖5(a)),最高的提升了約47%。使用了估算的0階參數(shù)以后,相比基本的GMM和NMF的語音轉(zhuǎn)換方法(GMM+動態(tài)F0,NMF+F0_Nor),新方法(GMM+動態(tài)F0+0階參數(shù),NMF+F0_Nor+0階參數(shù))都比原來的系統(tǒng)表現(xiàn)更好。同時提出的NMF+動態(tài)F0比NMF+F0_Nor獲得了更好的自然度評價。整體而言GMM+動態(tài)F0+0階參數(shù)的系統(tǒng)得到了最好自然度性能。

在可懂度評測中(如圖5(b)),NMF+動態(tài)F0+0階參數(shù)的子系統(tǒng)的結(jié)果可懂度表現(xiàn)最好。除此以外可以看到考慮了0階參數(shù)后,可懂度提高得比較明顯, 說明振動噪聲對語音的可懂度影響比較大。

在相似度上(如圖5(c)),所有的方法都提高了轉(zhuǎn)換效果,相對來說GMM方法比NMF方法更明顯。也可以看到不同F(xiàn)0和是否考慮0階參數(shù)也是會影響相似度。

相同或相似的標(biāo)號對應(yīng)相同或相似的部件;

附圖中描述位置關(guān)系的用于僅用于示例性說明,不能理解為對本專利的限制;

顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
饶阳县| 永寿县| 霍城县| 新民市| 丁青县| 周口市| 临湘市| 云和县| 任丘市| 平湖市| 闵行区| 延庆县| 德清县| 株洲市| 新野县| 商河县| 榕江县| 武穴市| 藁城市| 大姚县| 云梦县| 绥芬河市| 曲沃县| 平昌县| 昆山市| 巴中市| 六盘水市| 皮山县| 邯郸市| 客服| 新闻| 台东县| 黄龙县| 永川市| 饶河县| 慈溪市| 十堰市| 来凤县| 略阳县| 舒兰市| 潜山县|