一種漢語電子喉語音轉(zhuǎn)換方法與流程

文檔序號：12274055閱讀：700來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及電子語音領(lǐng)域，更具體地，是一種基于高斯混合模型GMM和/或非負(fù)矩陣分解NMF的漢語電子喉語音轉(zhuǎn)換方法。

背景技術(shù)：

每年都有不少咽喉病患需要接受聲帶切除手術(shù)，以至于他們需要使用發(fā)聲設(shè)備來輔助日常生活。電子喉(Electrolarynx，EL)就是這種專門用于復(fù)原聲音的發(fā)聲儀器。當(dāng)患者嘗試說話時，他將EL設(shè)備頂在下頜附近，通過機(jī)械振動以及口腔變化而發(fā)出不同聲音。

但是傳統(tǒng)設(shè)備里有三個問題，第一是EL的振動頻率是不變的，因此發(fā)出的聲音是固定的音調(diào)，讓聲音顯得很不自然。第二是由于機(jī)械能量轉(zhuǎn)換不夠到位，設(shè)備會散播出高能量振動的噪音，影響周圍聽眾，第三是喉嚨切除導(dǎo)致他們的特有的嗓音永遠(yuǎn)丟失，只能產(chǎn)生非自然人聲的語音。為了解決這些問題，目前對EL語音增強(qiáng)的研究主要使用兩個方法，第一是利用降噪的方法來提高語音質(zhì)量，第二是通過統(tǒng)計學(xué)語音轉(zhuǎn)換的方法，例如用GMM對語音頻譜信息(一般是梅爾倒譜參數(shù)的第1階到第24階)進(jìn)行估算，讓聲音結(jié)果更像本人聲音。前者沒有很明顯改善語音自然度，因為它保持原來的基頻F0信息不變，后者雖然通過語音轉(zhuǎn)換能大幅改善自然度，但是會降低音頻質(zhì)量，影響語音的可懂性，這是GMM語音轉(zhuǎn)換的通病。

技術(shù)實現(xiàn)要素：

本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷(不足)，提供一種漢語電子喉語音轉(zhuǎn)換方法。該方法使用語音轉(zhuǎn)換技術(shù)來改善漢語電子喉語音。

為解決上述技術(shù)問題，本發(fā)明的技術(shù)方案如下：

一種漢語電子喉語音轉(zhuǎn)換方法，采用GMM轉(zhuǎn)換或NMF轉(zhuǎn)換，其具體過程分別為：

GMM轉(zhuǎn)換：

訓(xùn)練階段：

步驟101：從語音材料中獲取梅爾倒譜參數(shù)MCC和基頻F0；

步驟102：訓(xùn)練MCC的0階參數(shù)的GMM模型，訓(xùn)練動態(tài)F0的GMM模型，訓(xùn)練MCC的GMM模型；

轉(zhuǎn)換階段：

步驟103：根據(jù)以上模型估算0階參數(shù)，動態(tài)F0和轉(zhuǎn)換的MCC；

步驟104：結(jié)合獲取的0階參數(shù)和動態(tài)F0，將轉(zhuǎn)換的MCC復(fù)原成轉(zhuǎn)換語音；

NMF轉(zhuǎn)換：

訓(xùn)練階段：

步驟201：從語音材料中獲取頻譜SP參數(shù)和基頻F0，

步驟202：訓(xùn)練SP的0階參數(shù)的GMM模型，訓(xùn)練動態(tài)F0的GMM模型，訓(xùn)練SP的NMF字典；

轉(zhuǎn)換階段：

步驟203：根據(jù)以上模型估算0階參數(shù)，動態(tài)F0和轉(zhuǎn)換的MCC；

步驟204：結(jié)合獲取的0階參數(shù)和動態(tài)F0，將轉(zhuǎn)換的MCC復(fù)原成轉(zhuǎn)換語音。

優(yōu)選地，采用GMM轉(zhuǎn)換時，訓(xùn)練MCC的0階參數(shù)的GMM模型，估算0階參數(shù)的實現(xiàn)過程為：

訓(xùn)練過程：

步驟301：取出源語音的MCC及其一階差分參數(shù)△，以及目標(biāo)語音的MCC的0階參數(shù)以及其一階差分△；

步驟302：訓(xùn)練MCC的0階參數(shù)的GMM模型；

估算0階參數(shù)過程：

步驟303：對新獲得的電子喉語音提取同樣MCC和一階差分參數(shù)△；

步驟304：輸入到MCC的0階參數(shù)的GMM模型，估算出含有一階差分△信息約束的0階參數(shù)，存儲備用。

優(yōu)選地，采用NMF轉(zhuǎn)換時，已知每個人的語音可以分解成兩個非負(fù)矩陣，分解公式如下：

X＝H·W

X是電子喉的特征和自然人聲特征的聯(lián)合特征，W是要估算的字典，H是激活矩陣；

則訓(xùn)練NMF字典，并基于NMF字典將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn) 過程為：

訓(xùn)練過程：

步驟401：先提取兩種語音材料的頻譜信息高維特征SP；

步驟402：使用動態(tài)規(guī)整的方法對齊兩個特征；

步驟403：拼接成聯(lián)合特征訓(xùn)練NMF兩個字典：源說話人的字典和目標(biāo)說話人的字典；

轉(zhuǎn)換過程：

步驟404：對新獲得的電子喉語音提取同樣高維特征；

步驟405：利用已有的源說話人字典W對該語音進(jìn)行分解，得到一個激活矩陣H；

步驟406：令源語音和目標(biāo)語音的激活矩陣是相似的，則將該激活矩陣H乘以目標(biāo)說話人字典，得到估算出來的目標(biāo)高維頻譜SP；

步驟407：再和其他成分一起還原成語音。

優(yōu)選地，所述步驟402，是使用低維的MCC來對齊各個幀，以達(dá)到對齊兩個特征。

優(yōu)選地，采用NMF轉(zhuǎn)換時，訓(xùn)練動態(tài)F0模型，估算動態(tài)F0的實現(xiàn)過程為：

訓(xùn)練過程

步驟501：在分解好的兩種語音材料中，取出源語音的MCC和一階差分參數(shù)△，以及目標(biāo)語音的F0和一階差分△；

步驟502：拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型；

估算動態(tài)F0過程：

步驟503：對新獲得的電子喉語音提取MCC特征和一階差分參數(shù)△；

步驟504：輸入到動態(tài)F0的GMM模型，估算出有一階差分△信息約束的動態(tài)F0，存儲備用。

本發(fā)明使用語音轉(zhuǎn)換技術(shù)來改善漢語電子喉語音，特別是混合了高斯混合模型(Gaussian Mixture Model，GMM)和非負(fù)矩陣分解(Non-negative Matrix Factorization，NMF)的方法來提高電子喉語音質(zhì)量，并且添加梅爾倒譜參數(shù)(Mel-cepstral coefficient，MCC)的第0階參數(shù)來抑制噪聲，在NMF方法下使用頻譜SP第0階參數(shù)。

與現(xiàn)有技術(shù)相比，本發(fā)明技術(shù)方案的有益效果是：本發(fā)明針對在提高EL自然度的同時減少對語音可懂性的影響，提出了一種混合了NMF和GMM的方法來實施語音轉(zhuǎn)換。為了提高自然度，考慮到F0的影響，并使用GMM來估算動態(tài)F0。接著為了提高音頻可懂度，使用NMF來估算高質(zhì)量的頻譜用于聲音重建。同時為了抑制EL設(shè)備的振動噪聲，本發(fā)明還對語音特征的第0階參數(shù)同樣使用GMM的方法，通過合成0階參數(shù)來降噪。最后采取了客觀和主觀評價來說明本混合系統(tǒng)在自然度和可懂性上比傳統(tǒng)所得的更好結(jié)果。

附圖說明

圖1是基于GMM的語音轉(zhuǎn)換框架圖。

圖2是基于NMF的語音轉(zhuǎn)換框架圖。

圖3是MCC第0階參數(shù)和F0信息的訓(xùn)練材料結(jié)構(gòu)圖。

圖4是本發(fā)明中的語音轉(zhuǎn)換框架圖。

圖5是本發(fā)明的主觀評測結(jié)果。

具體實施方式

附圖僅用于示例性說明，不能理解為對本專利的限制；為了更好說明本實施例，附圖某些部件會有省略、放大或縮小，并不代表實際產(chǎn)品的尺寸；

對于本領(lǐng)域技術(shù)人員來說，附圖中某些公知結(jié)構(gòu)及其說明可能省略是可以理解的。下面結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案做進(jìn)一步的說明。

一種漢語電子喉語音轉(zhuǎn)換方法，具體過程為：

訓(xùn)練階段：從語音材料中獲取MCC，基頻F0和頻譜SP參數(shù)，訓(xùn)練MCC和SP的0階段參數(shù)的GMM模型，訓(xùn)練動態(tài)F0模型，訓(xùn)練MCC的GMM模型，訓(xùn)練SP的NMF字典；

轉(zhuǎn)換階段：利用以上的GMM模型、NMF字典根據(jù)對轉(zhuǎn)換效果的要求進(jìn)行組合配置，將新的源語音轉(zhuǎn)換成目標(biāo)語音。

優(yōu)選的，訓(xùn)練0階段參數(shù)的GMM模型，動態(tài)F0的GMM模型，并基于GMM模型將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn)過程為：

訓(xùn)練過程

步驟101：在分解好的兩種語音材料，取出源語音的MCC和一階差分參數(shù)△，以及目標(biāo)語音的MCC和一階差分△，根據(jù)MCC動態(tài)規(guī)整信息對齊兩個特征，拼接成聯(lián)合特征訓(xùn)練一個MCC的GMM模型；

步驟102：在分解好的兩種語音材料，取出源語音的MCC和一階差分參數(shù) △，以及目標(biāo)語音的0階參數(shù)MCC和一階差分△，拼接成聯(lián)合特征訓(xùn)練一個0階參數(shù)的GMM模型；

步驟103：在分解好的兩種語音材料，取出源語音的MCC和一階差分參數(shù)△，以及目標(biāo)語音的F0和一階差分△，拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型；

估算0階參數(shù)過程：

步驟104：對新獲得的電子喉語音提取MCC和一階差分參數(shù)△；

步驟105：輸入到0階參數(shù)的GMM模型，估算出有一階差分△信息約束的0階參數(shù)；

估算動態(tài)F0過程：

步驟106：對新獲得的電子喉語音提取MCC和一階差分參數(shù)△；

步驟107：輸入到動態(tài)F0的GMM模型，估算出有一階差分△信息約束的0階參數(shù)；

轉(zhuǎn)換過程：

步驟108：對新獲得的電子喉語音提取MCC和一階差分參數(shù)△

步驟109：輸入到MCC的GMM模型，估算出含有一階差分△信息約束的新MCC；

步驟1010：結(jié)合之前獲取的0階參數(shù)和動態(tài)F0，將新的MCC進(jìn)行合成得到轉(zhuǎn)換的語音；本實施例中采用的合成的方法是STRAIGHT方法。

已知每個人的語音可以分解成兩個非負(fù)矩陣，分解公式如下：

X＝H·W

X是電子喉的特征和自然人聲特征的聯(lián)合特征，W是要估算的字典，H是激活矩陣；

則訓(xùn)練動態(tài)F0的GMM模型，并基于NMF模型將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn)過程為：

訓(xùn)練過程：

步驟201：先提取兩種語音材料的頻譜信息高維特征SP，使用動態(tài)規(guī)整的方法對齊兩個特征，拼接成聯(lián)合特征訓(xùn)練NMF兩個字典：源說話人的字典和目標(biāo)說話人的字典；

步驟202：在分解好的兩種語音材料，取出源語音的MCC和一階差分參數(shù) △，以及目標(biāo)語音的F0和一階差分△，拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型；

估算動態(tài)F0過程：

步驟203：對新獲得的電子喉語音提取MCC和一階差分參數(shù)△；

步驟204：輸入到動態(tài)F0的GMM模型，估算出有一階差分△信息約束的動態(tài)F0；

轉(zhuǎn)換過程：

步驟205：對新獲得的電子喉語音提取同樣高維特征SP；

步驟206：利用已有的源說話人字典W對該語音進(jìn)行分解，得到一個激活矩陣H；

步驟207：令源語音和目標(biāo)語音的激活矩陣是相似的，則將該激活矩陣H乘以目標(biāo)說話人字典，得到估算出來的目標(biāo)高維頻譜SP；

步驟208：結(jié)合之前獲取的0階參數(shù)和動態(tài)F0，將新的SP進(jìn)行合成得到轉(zhuǎn)換的語音。

訓(xùn)練0階段參數(shù)的GMM模型，訓(xùn)練動態(tài)F0的GMM模型，并基于NMF字典將新的源語音轉(zhuǎn)換成目標(biāo)語音的實現(xiàn)過程為：

訓(xùn)練過程：

步驟301：先提取兩種語音材料的頻譜信息高維特征SP，使用動態(tài)規(guī)整的方法對齊兩個特征，拼接成聯(lián)合特征訓(xùn)練NMF兩個字典：源說話人的字典和目標(biāo)說話人的字典；

步驟302：在分解好的兩種語音材料，取出源語音的MCC和一階差分參數(shù)△，以及目標(biāo)語音的F0和一階差分△，拼接成聯(lián)合特征訓(xùn)練一個動態(tài)F0的GMM模型；

步驟303：在分解好的兩種語音材料，取出源語音的MCC和一階差分參數(shù)△，以及目標(biāo)語音的SP的0階參數(shù)和一階差分△，拼接成聯(lián)合特征訓(xùn)練一個0階參數(shù)的GMM模型；

估算0階參數(shù)過程：

步驟304：對新獲得的電子喉語音提取MCC和一階差分參數(shù)△；

步驟305：輸入到0階參數(shù)的GMM模型，估算出有一階差分△信息約束的0階參數(shù)；

估算動態(tài)F0過程：

步驟306：對新獲得的電子喉語音提取MCC和一階差分參數(shù)△；

步驟307：輸入到動態(tài)F0的GMM模型，估算出有一階差分△信息約束的動態(tài)F0；

轉(zhuǎn)換過程：

步驟308：對新獲得的電子喉語音提取同樣高維特征SP；

步驟309：利用已有的源說話人字典W對該語音進(jìn)行分解，得到一個激活矩陣H；

步驟3010：令源語音和目標(biāo)語音的激活矩陣是相似的，則將該激活矩陣H乘以目標(biāo)說話人字典，得到估算出來的目標(biāo)高維頻譜SP；

步驟3011：結(jié)合之前獲取的0階參數(shù)和動態(tài)F0，將新的SP進(jìn)行合成得到轉(zhuǎn)換的語音。

本發(fā)明主要是利用到語音轉(zhuǎn)換的一些方法來提升電子喉的語音質(zhì)量，并且在此基礎(chǔ)上進(jìn)行改進(jìn)。一般語音轉(zhuǎn)換有兩個階段，訓(xùn)練階段和轉(zhuǎn)換階段，訓(xùn)練階段需要兩個說話人的語料，一般是源說話人(電子喉聲音)和目標(biāo)說話人(自然人聲)講了一模一樣內(nèi)容的語音。我們會將語音分解成基頻F0，頻譜特征等成分后單獨修改頻譜，最后將處理好的頻譜和原來的其他成分合成還原語音。

語音的分解和合成在本實施例中使用了STRAIGHT的方法。將一個語音分解了以后，主要轉(zhuǎn)換頻譜SP和基頻F0兩個部分，GMM方法中頻譜SP會往往進(jìn)一步降維到低維特征后再處理，例如MCC，而又由于MCC和SP的0階參數(shù)被認(rèn)為只與能量相關(guān)，訓(xùn)練GMM前去掉0階參數(shù)，防止不良影響。

傳統(tǒng)基于GMM的語音轉(zhuǎn)換框架如圖1：

訓(xùn)練過程：

步驟1：先分解兩者語音材料，取出當(dāng)中的頻譜低維特征例如25維MCC，

步驟2:去除0階參數(shù)，使用動態(tài)規(guī)整的方法對齊兩者特征，

步驟3：拼接成聯(lián)合特征訓(xùn)練一個GMM模型。

轉(zhuǎn)換過程：

步驟1：對新獲得的電子喉語音提取同樣低維特征，去除0階參數(shù)，輸入到GMM模型，得到估算出來的目標(biāo)低維特征；

步驟2：然后再將線性歸一化處理后的F0，該語音的原0階參數(shù)，一起還原成語音。

在這個基礎(chǔ)上，本實施例提出三個改進(jìn)：

1、提出基于NMF的電子喉語音轉(zhuǎn)換框架如圖2，該方法由于直接對頻譜進(jìn)行轉(zhuǎn)換修改，能夠獲得更高質(zhì)量的轉(zhuǎn)換語音，NMF的方法認(rèn)為，每個人的語音可以分解成兩個非負(fù)矩陣(由于頻譜不可能出現(xiàn)負(fù)數(shù))，分解公式如下：

X＝H·W

X是電子喉的特征和自然人聲特征的聯(lián)合特征，W是要估算的字典，H是激活矩陣。

訓(xùn)練過程：

步驟1：先提取兩者語音材料的頻譜信息高維特征，例如512維頻譜SP；

步驟2：使用動態(tài)規(guī)整的方法對齊兩者特征(可以使用低維的MCC來對齊各個幀)；

步驟3：拼接成聯(lián)合特征訓(xùn)練NMF兩個字典：源說話人的字典和目標(biāo)說話人的字典。

轉(zhuǎn)換過程：

步驟1：對新獲得的電子喉語音提取同樣高維特征；

步驟2：利用已有的源說話人字典W對該語音進(jìn)行分解，得到一個激活矩陣H；

步驟3：由于認(rèn)為在同樣的語義內(nèi)容下，源語音和目標(biāo)語音的激活矩陣是相似的，所以直接將該激活矩陣乘以目標(biāo)說話人字典，就可以得到估算出來的目標(biāo)高維頻譜SP；

步驟4：再和其他成分一起還原成語音。

2、提出基于GMM的動態(tài)平滑F(xiàn)0估算方法。傳統(tǒng)的GMM語音轉(zhuǎn)換只考慮線性地處理源語音和目標(biāo)語音的F0信息，通過均值方差的換算方法來達(dá)到轉(zhuǎn)換F0的目的，但是由于電子喉發(fā)聲原理是使用固定的機(jī)械振動，轉(zhuǎn)換后到的靜態(tài)F0軌跡不能提高語音的自然度。因此本發(fā)明提出通過單獨訓(xùn)練一個用于獲取動態(tài)F0軌跡，讓轉(zhuǎn)換后的語音與自然人聲更相似。

訓(xùn)練過程

步驟1：在分解好的兩者語音材料，取出源語音的頻譜低維特征和一階差分參數(shù)△，以及目標(biāo)語音的F0特征和一階差分△，如圖3a；

步驟2：根據(jù)MCC動態(tài)規(guī)整信息對齊兩個特征；

步驟3：拼接成聯(lián)合特征訓(xùn)練一個GMM模型；

估算F0過程：

步驟1：對新獲得的電子喉語音提取同樣頻譜低維特征和一階差分參數(shù)△；

步驟2：輸入到GMM模型，估算出有一階差分△信息約束的動態(tài)F0特征，存儲備用。

步驟3：得到的這個動態(tài)F0將會替換傳統(tǒng)系統(tǒng)的歸一化F0，參與到轉(zhuǎn)換語音合成。

3、提出基于GMM的0階參數(shù)估算方法。

傳統(tǒng)GMM方法里頻譜特征的0階參數(shù)經(jīng)常不被考慮到語音轉(zhuǎn)換的計算中，考慮到它的能量對估算結(jié)果有副作用，所以在合成目標(biāo)語音時，直接使用源語音的0階參數(shù)。然而在電子喉語音中，EL設(shè)備會發(fā)出振動噪聲，而這個信息就包含在0階參數(shù)中，因此為了更好地恢復(fù)出轉(zhuǎn)換的結(jié)果，不能直接采用包含噪聲的源0階參數(shù)，而是也通過訓(xùn)練一個GMM來估算0階參數(shù)的大小。對于第一個基于NMF的方法，可以繼續(xù)通過用這個參數(shù)均一化頻譜來進(jìn)一步提高音頻質(zhì)量。

訓(xùn)練過程

步驟1：在分解好的兩者語音材料，取出源語音的頻譜特征和一階差分參數(shù)△，以及目標(biāo)語音的0階參數(shù)和一階差分△，如圖3b；

步驟2：根據(jù)MCC動態(tài)規(guī)整信息對齊兩個特征；

步驟3：拼接成聯(lián)合特征訓(xùn)練一個GMM模型。

估算0階參數(shù)過程：

步驟1：對新獲得的電子喉語音提取同樣頻譜特征(SP或者M(jìn)CC)和一階差分參數(shù)△；

步驟2：輸入到GMM模型，估算出有一階差分△信息約束的0階參數(shù)，存儲備用。

步驟3：在合成轉(zhuǎn)換語音的時候，我們將使用得到的這個估算的0階參數(shù)，而不是像傳統(tǒng)方法那樣直接使用源語音的0階參數(shù)。

因此組合以上的改進(jìn)，可以得到圖4的組合系統(tǒng)，并且將會在實驗中驗證得到的結(jié)果是否跟預(yù)期的改善相符。

實驗設(shè)置：

源說話人和目標(biāo)說話人都是同一個23歲中國女性，用自然語音和電子喉分別各錄制100句內(nèi)容相同的日常用語。錄制電子喉語音時，該志愿者先通過培訓(xùn)如何在不振動聲帶的情況下，模擬失喉患者僅僅依賴電子喉發(fā)聲的情景。使用的電子喉是湖州天酬醫(yī)療器械有限公司的產(chǎn)品，錄音采樣率為16kHz。試驗設(shè)計了90句訓(xùn)練10句驗證的交叉驗證。語音信號幀長為25毫秒，幀移為5毫秒。GMM的核心數(shù)為125，而NMF的字典大小設(shè)為100。

客觀評測：

在該實驗中，客觀評價可以采用梅爾倒譜失真率MCD(Mel-cepstral Distortion)來評估兩個語音的相似程度，該參數(shù)通過以下的公式在變聲結(jié)果的MCC特征和目標(biāo)說話人語音MCC特征之間計算出來。

其中和分別是第d維目標(biāo)說話人倒譜參數(shù)和第d維變聲結(jié)果倒譜參數(shù)，MCD值越大，表示音頻之間失真越嚴(yán)重，越不像，反之，表示音頻相似度越大，dB是單位。

主觀評測：

在主觀評測中，6位志愿者要根據(jù)音頻的自然度，可懂度和相似度使用五個標(biāo)準(zhǔn)對語音進(jìn)行打分，分別為5-很好，4-好，3-一般，2-差，1-很差，7個語音樣品被呈現(xiàn)在志愿者前：1)源語音(EL)，2)GMM方法加上動態(tài)的F0，3)GMM方法加上0階參數(shù)，4)NMF方法加上線性歸一化的F0(F0_Nor)，5)NMF方法加上動態(tài)的F0，6)NMF方法加上動態(tài)的F0和0階參數(shù)，7)參考目標(biāo)語音(TG)。

實驗結(jié)果：

客觀測試結(jié)果：

基于表1，可以看到相比沒有轉(zhuǎn)換，GMM+動態(tài)F0的轉(zhuǎn)換結(jié)果讓失真率降低6.28(dB)?？紤]添加估算0階參數(shù)后，失真率進(jìn)一步降低0.82(dB)。而對于NMF方法，由于NMF直接在頻譜上操作，所以跟低維的GMM方法沒有可比性。但是可以看到對于NMF來說，添加了0階參數(shù)后，呈現(xiàn)降低的趨勢。

表1

F0和0階參數(shù)的相關(guān)參數(shù)如表2，可以看到源語音F0和目標(biāo)語音的相關(guān)參數(shù)是0.0035，源語音F0在歸一化轉(zhuǎn)換后與目標(biāo)語音的相關(guān)參數(shù)也只是達(dá)到了0.0749，沒有明顯的改進(jìn)。而通過GMM估算獲得的動態(tài)F0把相關(guān)性提高到54％。對于0階參數(shù)，我們得到了也得到了46％的相關(guān)系提高。這個高相關(guān)性大大抑制了EL語音的振動噪聲。

表2

主觀測試結(jié)果：

在自然度評測中(如圖5(a))，最高的提升了約47％。使用了估算的0階參數(shù)以后，相比基本的GMM和NMF的語音轉(zhuǎn)換方法(GMM+動態(tài)F0，NMF+F0_Nor)，新方法(GMM+動態(tài)F0+0階參數(shù)，NMF+F0_Nor+0階參數(shù))都比原來的系統(tǒng)表現(xiàn)更好。同時提出的NMF+動態(tài)F0比NMF+F0_Nor獲得了更好的自然度評價。整體而言GMM+動態(tài)F0+0階參數(shù)的系統(tǒng)得到了最好自然度性能。

在可懂度評測中(如圖5(b))，NMF+動態(tài)F0+0階參數(shù)的子系統(tǒng)的結(jié)果可懂度表現(xiàn)最好。除此以外可以看到考慮了0階參數(shù)后，可懂度提高得比較明顯，說明振動噪聲對語音的可懂度影響比較大。

在相似度上(如圖5(c))，所有的方法都提高了轉(zhuǎn)換效果，相對來說GMM方法比NMF方法更明顯。也可以看到不同F(xiàn)0和是否考慮0階參數(shù)也是會影響相似度。

相同或相似的標(biāo)號對應(yīng)相同或相似的部件；

附圖中描述位置關(guān)系的用于僅用于示例性說明，不能理解為對本專利的限制；

顯然，本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例，而并非是對本發(fā)明的實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說，在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3