欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度神經(jīng)網(wǎng)絡(luò)音素信息的語(yǔ)音轉(zhuǎn)換方法與流程

文檔序號(hào):12128576閱讀:762來(lái)源:國(guó)知局
一種基于深度神經(jīng)網(wǎng)絡(luò)音素信息的語(yǔ)音轉(zhuǎn)換方法與流程
本發(fā)明涉及統(tǒng)計(jì)學(xué)實(shí)現(xiàn)的語(yǔ)音轉(zhuǎn)換方法,更具體地,涉及一種基于深度神經(jīng)網(wǎng)絡(luò)音素信息的語(yǔ)音轉(zhuǎn)換方法,主要在傳統(tǒng)高斯混合模型GMM(GaussianMixtureModel,GMM)語(yǔ)音轉(zhuǎn)換的基礎(chǔ)上進(jìn)行改進(jìn),利用深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)提取的音素信息和頻譜低維特征實(shí)現(xiàn)非平行語(yǔ)料的轉(zhuǎn)換。
背景技術(shù)
:語(yǔ)音轉(zhuǎn)換是目前用來(lái)捕捉這些非語(yǔ)言特征并且利用它們合成特定人語(yǔ)音的一種有效方法。我們可以通過(guò)把語(yǔ)音分解成多個(gè)不同成分單獨(dú)處理,能把一個(gè)人的聲音變成另外一個(gè)人的聲音。通常我們把前者稱(chēng)為源說(shuō)話人,后者稱(chēng)為目標(biāo)說(shuō)話人。通過(guò)輸入新的語(yǔ)音就可以達(dá)到合成特定人語(yǔ)音的目的,因此受到了各個(gè)領(lǐng)域的關(guān)注,并且被嘗試運(yùn)用到不同的方面去,例如醫(yī)學(xué)輔助儀器,Text-To-Speech設(shè)備(TTS),敏感通信,保護(hù)關(guān)鍵證人和工作人員不被報(bào)復(fù)等等。學(xué)術(shù)界中早期的語(yǔ)音轉(zhuǎn)換技術(shù)研究大概源于上世紀(jì)90年代初,線性參數(shù)統(tǒng)計(jì)的映射方法是相對(duì)主流的語(yǔ)音轉(zhuǎn)換方法,最后不少研究為了提高音頻質(zhì)量等原因,逐漸也往非線性和非統(tǒng)計(jì)參數(shù)方法發(fā)展了分支,但是大部分方法依然是依賴(lài)于相同語(yǔ)義內(nèi)容的平行語(yǔ)音數(shù)據(jù),得到的模型也是一對(duì)一的。Kain等人提出了聯(lián)合分布混合高斯模型(Joint-densityGaussianMixtureModel,JD-GMM)是統(tǒng)計(jì)學(xué)方法中比較經(jīng)典和有效的方法。但是這個(gè)方法也是基于一個(gè)平行的語(yǔ)料數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換(即要提供源說(shuō)話人和目標(biāo)說(shuō)話人都說(shuō)了語(yǔ)義內(nèi)容完全一致的錄音數(shù)據(jù)集),一方面這樣的平行語(yǔ)料是非常難獲得,實(shí)際應(yīng)用中操作很不便利,數(shù)據(jù)量往往不足夠,同時(shí)如果是跨語(yǔ)言的情況,則完全不可能獲得平行數(shù)據(jù)。另一方面即使是一個(gè)平行的語(yǔ)料,也還是先通過(guò)對(duì)齊計(jì)算來(lái)保持時(shí)間上的一致,增加計(jì)算量。技術(shù)實(shí)現(xiàn)要素:為了解決平行語(yǔ)料依賴(lài)和模型只能一對(duì)一的問(wèn)題,本發(fā)明提出了一種基于深度神經(jīng)網(wǎng)絡(luò)音素信息的語(yǔ)音轉(zhuǎn)換方法。為了解決上述技術(shù)問(wèn)題,本發(fā)明的技術(shù)方案為:一種基于深度神經(jīng)網(wǎng)絡(luò)音素信息的語(yǔ)音轉(zhuǎn)換方法,包括:訓(xùn)練階段:步驟101:獲得一個(gè)目標(biāo)說(shuō)話人預(yù)料,分別提取PPP特征和頻譜低維特征;步驟102:去除頻譜低維特征0階系數(shù),直接拼接PPP特征和頻譜低維特征;步驟103:將聯(lián)合特征訓(xùn)練成一個(gè)JD-GMM模型;步驟104:計(jì)算源說(shuō)話人F0和目標(biāo)說(shuō)話人F0的均值和方差;轉(zhuǎn)換階段:步驟105:對(duì)源說(shuō)話人新的語(yǔ)音提取同樣配置的PPP特征;步驟106:輸入到JD-GMM模型,得到估算出來(lái)的目標(biāo)低維特征;步驟107:計(jì)算目標(biāo)說(shuō)話人的F0,做一個(gè)向目標(biāo)說(shuō)話人靠近的線性變換;步驟108:利用估算的頻譜,線性變換后的F0,該語(yǔ)音的原0階系數(shù),一起還原成語(yǔ)音。優(yōu)選地,PPP特征是基于深度神經(jīng)網(wǎng)絡(luò)DNN獲取的,其獲取過(guò)程為:深度神經(jīng)網(wǎng)絡(luò)DNN語(yǔ)音模型的訓(xùn)練:步驟201:獲得一個(gè)語(yǔ)音數(shù)據(jù)集以及其對(duì)應(yīng)的標(biāo)注數(shù)據(jù);步驟202:提取特征,根據(jù)標(biāo)注信息訓(xùn)練給定配置的DNN模型;PPP特征的獲取:步驟203:對(duì)輸入的語(yǔ)音提取特征,提取配置跟訓(xùn)練DNN語(yǔ)音模型時(shí)使用的特征一致;步驟2:得到該特征后輸入到DNN模型中解碼,獲得高維特征;步驟3:將該特征換算到log尺度上,對(duì)其使用主成分分析的方法降維到與頻譜低維特征維度相近的級(jí)別,降維后的特征即為PPP特征;或直接在DNN語(yǔ)音模型中設(shè)置一層維度低的瓶頸層,將瓶頸層的結(jié)果輸出作為PPP特征。優(yōu)選地,步驟107中計(jì)算目標(biāo)說(shuō)話人的F0,做一個(gè)向目標(biāo)說(shuō)話人靠近的線性變換,具體過(guò)程為:對(duì)數(shù)尺度下,xt和分別是源說(shuō)話人和變聲結(jié)果的F0,σ(x)和μ(x)是源說(shuō)話人F0的方差和均值,σ(y)和μ(y)分別是目標(biāo)說(shuō)話人F0的方差和均值;將轉(zhuǎn)換后的基頻F0,頻譜向量和源說(shuō)話人的非周期信息給到STRAIGHT工具合成最后的語(yǔ)音,就能得到變聲的結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:結(jié)合語(yǔ)音識(shí)別中的技術(shù),利用目標(biāo)說(shuō)話人的音素后驗(yàn)概率(PhonemePosteriorProbability,PPP)作為特征,結(jié)合聯(lián)合分布混合高斯模型JD-GMM的映射模型,在音素信息和頻譜低維特征之間訓(xùn)練一個(gè)可靠的映射模型PPP-JD-GMM。在轉(zhuǎn)換時(shí),先把源說(shuō)話人的語(yǔ)音通過(guò)基于DNN實(shí)現(xiàn)的音素解碼器提取出PPP特征,通過(guò)訓(xùn)練好的PPP-JD-GMM估計(jì)出了頻譜低維特征,這樣就能進(jìn)一步頻譜低維特征還原成頻譜,并且復(fù)原成目標(biāo)說(shuō)話人的聲音。最后通過(guò)客觀和主觀評(píng)估方法來(lái)檢驗(yàn)轉(zhuǎn)換結(jié)果的性能。附圖說(shuō)明圖1是傳統(tǒng)JD-GMM框架圖。圖2是基于音素的PPP-JD-GMM框架圖。圖3是PPP特征的提取流程圖。圖4是主觀評(píng)測(cè)實(shí)驗(yàn)結(jié)果示意圖。圖5是XAB實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)示意圖。圖6是MOS打分的結(jié)果示意圖。具體實(shí)施方式下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的描述,但本發(fā)明的實(shí)施方式并不限于此。語(yǔ)音的分解和合成使用了STRAIGHT的方法。將一個(gè)語(yǔ)音分解以后,主要轉(zhuǎn)換頻譜SP和基頻F0兩部分,JD-GMM方法中頻譜SP往往會(huì)進(jìn)一步降維成低維特征后再處理,例如梅爾倒譜系數(shù)(Mel-cepstralcoefficient,MCC),而又由于0階系數(shù)被認(rèn)為只與能量相關(guān),訓(xùn)練JD-GMM前往往去掉0階系數(shù),防止不良影響。在講論述本申請(qǐng)的改進(jìn)前,先簡(jiǎn)單補(bǔ)充一下傳統(tǒng)JD-GMM的語(yǔ)音轉(zhuǎn)換框架的實(shí)現(xiàn)。如圖1所示。訓(xùn)練階段:步驟1:獲得一個(gè)含源說(shuō)話人和目標(biāo)說(shuō)話人講了內(nèi)容一模一樣的平行語(yǔ)料,對(duì)語(yǔ)音進(jìn)行提取基頻(F0),頻譜低維特征例如MCC等。步驟2:去除頻譜低維特征0階系數(shù),使用動(dòng)態(tài)規(guī)整的方法進(jìn)行對(duì)齊各幀;步驟3:拼接成聯(lián)合特征訓(xùn)練一個(gè)JD-GMM模型;步驟4:計(jì)算源說(shuō)話人F0和目標(biāo)說(shuō)話人F0的均值和方差。轉(zhuǎn)換階段:步驟1:對(duì)源說(shuō)話人新的語(yǔ)音提取同樣的頻譜低維特征,去除0階系數(shù);步驟2:輸入到JD-GMM模型,得到估算出來(lái)的目標(biāo)低維特征;步驟3:計(jì)算目標(biāo)說(shuō)話人的F0,一般做一個(gè)向目標(biāo)說(shuō)話人靠近的線性變換;步驟4:利用估算的頻譜,線性變換后的F0,該語(yǔ)音的原0階系數(shù),一起還原成語(yǔ)音。本發(fā)明實(shí)施語(yǔ)音轉(zhuǎn)換時(shí)同樣有兩個(gè)階段,訓(xùn)練階段和轉(zhuǎn)換階段,訓(xùn)練階段只需要目標(biāo)說(shuō)話人的語(yǔ)料的頻譜低維特征和PPP特征。轉(zhuǎn)換時(shí)會(huì)將語(yǔ)音分解成基頻F0,頻譜特征等成分后根據(jù)訓(xùn)練好的模型來(lái)獲取轉(zhuǎn)換頻譜,最后將處理好的頻譜和原來(lái)的其他成分合成還原語(yǔ)音。受到說(shuō)話人識(shí)別技術(shù)中對(duì)音素特征PPP使用的啟發(fā),本發(fā)明考慮使用PPP特征來(lái)實(shí)現(xiàn)非平行語(yǔ)音轉(zhuǎn)換的方法。音素被認(rèn)為是發(fā)音的基本部分,假設(shè)兩個(gè)不同說(shuō)話人在發(fā)出同一個(gè)音素時(shí),用語(yǔ)音模型解碼出來(lái)的音素特征是具有相似性。因此,可以認(rèn)為,可以通過(guò)建立音素和頻譜特征的映射關(guān)系來(lái)達(dá)到語(yǔ)音轉(zhuǎn)換的目的。因此可以提出的PPP-JD-GMM語(yǔ)音轉(zhuǎn)換框架,如圖2所示。訓(xùn)練階段:步驟1:獲得一個(gè)目標(biāo)說(shuō)話人預(yù)料,分別提取PPP特征和頻譜低維特征;步驟2:去除頻譜低維特征0階系數(shù),直接拼接PPP特征和頻譜低維特征;步驟3:將聯(lián)合特征訓(xùn)練成訓(xùn)練一個(gè)JD-GMM模型;步驟4:計(jì)算源說(shuō)話人F0和目標(biāo)說(shuō)話人F0的均值和方差。轉(zhuǎn)換階段:步驟1:對(duì)源說(shuō)話人新的語(yǔ)音提取同樣的配置的PPP特征;步驟2:輸入到JD-GMM模型,得到估算出來(lái)的目標(biāo)低維特征;步驟3:計(jì)算目標(biāo)說(shuō)話人的F0,做一個(gè)向目標(biāo)說(shuō)話人靠近的線性變換;步驟4:利用估算的頻譜,線性變換后的F0,該語(yǔ)音的原0階系數(shù),一起還原成語(yǔ)音。相比傳統(tǒng)的語(yǔ)音轉(zhuǎn)換方法,本發(fā)明可以取得一個(gè)相近的性能,尤其是說(shuō)話人身份的保留程度。該方法在訓(xùn)練中不僅節(jié)省了對(duì)齊語(yǔ)料的時(shí)間,還能做到模型獨(dú)立化,一次訓(xùn)練結(jié)果可以重復(fù)對(duì)多人使用,無(wú)需針對(duì)特定兩個(gè)人來(lái)實(shí)現(xiàn)轉(zhuǎn)換,任意一個(gè)源說(shuō)話人的語(yǔ)料只要能提取出PPP特征,即可實(shí)現(xiàn)轉(zhuǎn)換?;贒NN的PPP特征可以按照?qǐng)D示3流程獲得:DNN語(yǔ)音模型的訓(xùn)練:步驟1:獲得一個(gè)較大規(guī)模的語(yǔ)音數(shù)據(jù)集以及其對(duì)應(yīng)的標(biāo)注數(shù)據(jù);步驟2:提取特征,例如40維MFCC,根據(jù)標(biāo)注信息訓(xùn)練給定配置的DNN模型;PPP特征的獲取:步驟1:對(duì)輸入的語(yǔ)音提取特征,提取的配置跟訓(xùn)練DNN語(yǔ)音模型時(shí)使用的特征一致;步驟2:得到該特征后輸入到DNN模型中解碼,獲得規(guī)格較龐大的高維特征,由于維度過(guò)高,該特征不能被直接;步驟3:將該特征換算到log尺度上,對(duì)其使用主成分分析的方法降維到與頻譜低維特征維度相近的級(jí)別,這就是需要的PPP特征。(除了通過(guò)主成分分析以外,也可以采取在DNN語(yǔ)音模型中設(shè)置一層維度比較低的瓶頸層,將瓶頸層的結(jié)果直接輸出作為PPP特征)。F0的變換:一般對(duì)F0也進(jìn)行一個(gè)簡(jiǎn)單的線性變換,以適應(yīng)目標(biāo)說(shuō)話人的基頻特征。其中,xt和分別是源說(shuō)話人和變聲結(jié)果的F0(對(duì)數(shù)尺度下)。σ(x)和μ(x)是源說(shuō)話人F0(對(duì)數(shù)尺度下)的方差和均值,σ(y)和μ(y)分別是目標(biāo)說(shuō)話人F0(對(duì)數(shù)尺度下)的方差和均值。將轉(zhuǎn)換后的基頻,頻譜向量和源說(shuō)話人的非周期信息給到STRAIGHT工具合成最后的語(yǔ)音,就可以得到變聲的結(jié)果了。實(shí)驗(yàn)設(shè)置:實(shí)驗(yàn)材料分為男男,女女,男女,女男四種不同性別轉(zhuǎn)換組合,涵蓋跨性別間和同性別的情況,并且每種性別組合有兩對(duì)說(shuō)話人對(duì)照,因此共有8組轉(zhuǎn)換實(shí)驗(yàn)。采用了VoiceConversionChallenge2016訓(xùn)練數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),分別是說(shuō)話人SF1,SF2,SM1,SM2,TF1,TF2,TM,TM2(S源說(shuō)話人,T目標(biāo)說(shuō)話人,F(xiàn)女性,M男性),該語(yǔ)音都是在朗讀相同的英文材料的錄音。編號(hào)21-162的語(yǔ)料作為了訓(xùn)練材料(共142句),編號(hào)1-20的語(yǔ)料作為了測(cè)試材料(共20句話),所有語(yǔ)料都是16kHz采樣率。DNN音素解碼器使用的是Fisher電話錄音訓(xùn)練出來(lái)的模型,語(yǔ)音經(jīng)過(guò)解碼后經(jīng)過(guò)主成分分析得到一個(gè)有24維系數(shù)的PPP特征,具有音素鑒別性。同時(shí)對(duì)所有的語(yǔ)料提取了24階的MCC,α值取0.42,幀的長(zhǎng)度為25ms,每次平移10ms處理。但是訓(xùn)練時(shí)候不把第0階MCC考慮進(jìn)去,因?yàn)樵搮?shù)代表的是頻譜的直流分量大小,主要和語(yǔ)音的能量有關(guān),幅值比其他維度的大,會(huì)影響映射函數(shù)對(duì)說(shuō)話人身份轉(zhuǎn)換的精確度,所以不訓(xùn)練和轉(zhuǎn)換第0階MCC。以下是本論文的基于音素后驗(yàn)概率特征的語(yǔ)音轉(zhuǎn)換系統(tǒng)和傳統(tǒng)JD-GMM系統(tǒng)的評(píng)測(cè)和比較??陀^評(píng)測(cè):在本發(fā)明的實(shí)驗(yàn)中,客觀評(píng)價(jià)可以采用梅爾倒譜失真率MCD(Mel-cepstralDistortion)來(lái)評(píng)估兩個(gè)語(yǔ)音的相似程度,該參數(shù)通過(guò)以下的公式在語(yǔ)音轉(zhuǎn)換結(jié)果的MCC特征和目標(biāo)說(shuō)話人語(yǔ)音MCC特征之間計(jì)算出來(lái)。其中和分別是第d維目標(biāo)說(shuō)話人倒譜系數(shù)和第d維語(yǔ)音轉(zhuǎn)換結(jié)果倒譜系數(shù),MCD值越大,表示音頻之間失真越嚴(yán)重,越不像,反之,表示音頻相似度越大。實(shí)驗(yàn)結(jié)果如圖4。原始總MCDMCC-JD-GMMPPP-JD-GMM相差值平均結(jié)果7.935.405.61-0.21從圖4中可以看到,MCC-JD-GMM和PPP-JD-GMM都明顯把失真降低到原來(lái)的四分之三左右,JD-GMM取得最低的MCD值,但是無(wú)論是在性別間還是同性別中,本發(fā)明在沒(méi)有源說(shuō)話人訓(xùn)練數(shù)據(jù)的情況也取得了非常接近JD-GMM方法的性能,因此說(shuō)明使用音素信息進(jìn)行語(yǔ)音轉(zhuǎn)換是可行的。從下面的數(shù)字統(tǒng)計(jì)可以看到,本發(fā)明在僅僅使用目標(biāo)說(shuō)話人約6分鐘左右的語(yǔ)料情況下,語(yǔ)音轉(zhuǎn)換結(jié)果的平均失真率比JD-GMM只提高了0.2左右,需要進(jìn)一步通過(guò)主觀測(cè)試來(lái)檢驗(yàn)該差距在人耳中是否有很大差距。主觀評(píng)測(cè):主觀實(shí)驗(yàn)中,本發(fā)明采取的是XAB測(cè)試和MOS測(cè)試。為了對(duì)比相似度,在XAB測(cè)試中,給予志愿者三個(gè)語(yǔ)音,X是目標(biāo)說(shuō)話人的語(yǔ)音,A和B是隨機(jī)選取的JD-GMM系統(tǒng)和本發(fā)明方法所合成的語(yǔ)音,5位志愿者必須要認(rèn)真聆聽(tīng)后在A和B中選擇與語(yǔ)音X說(shuō)話人身份最相似的語(yǔ)音。為了對(duì)比音頻質(zhì)量的好壞,進(jìn)行了MOS(meanopinionscore)測(cè)評(píng),5位志愿者要根據(jù)5很好,4好,3一般,2差,1很差的標(biāo)準(zhǔn)對(duì)語(yǔ)音進(jìn)行打分,在原始語(yǔ)音設(shè)定為5分的情況下。XAB實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)如圖5,MOS測(cè)試如圖6所示??梢钥吹?,雖然在客觀評(píng)測(cè)中我們的失真率出現(xiàn)了增高的情況,但是在主觀測(cè)試中本發(fā)明得到了更多的認(rèn)可率。實(shí)際在志愿者結(jié)束測(cè)評(píng)后,他們普遍認(rèn)為兩個(gè)音頻與原音頻的相似程度都在相似的水平上,經(jīng)常難以區(qū)分兩者的差異,因此主觀測(cè)評(píng)的數(shù)據(jù)有一定的隨機(jī)性選擇的差距。側(cè)面反映了本發(fā)明語(yǔ)音轉(zhuǎn)換的結(jié)果與傳統(tǒng)MCC-JD-GMM方法在主觀評(píng)測(cè)上達(dá)到了類(lèi)似的性能,身份信息在聽(tīng)覺(jué)上與傳統(tǒng)系統(tǒng)沒(méi)有太大的差異。接著得到了MOS打分的結(jié)果,如圖6,可以看到在音頻質(zhì)量的評(píng)判上,本發(fā)明也獲得與MCC-JD-GMM非常接近的評(píng)估結(jié)果,說(shuō)明通過(guò)PPP估計(jì)的MCC在質(zhì)量上也是達(dá)到了平行語(yǔ)料的水平。以上所述的本發(fā)明的實(shí)施方式,并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限定。任何在本發(fā)明的精神原則之內(nèi)所作出的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
永泰县| 临西县| 凤山市| 东丰县| 华蓥市| 罗田县| 进贤县| 商南县| 秦皇岛市| 塘沽区| 沾益县| 巴彦淖尔市| 喀喇沁旗| 文山县| 开远市| 通州区| 卓资县| 阳山县| 永昌县| 德江县| 丁青县| 玉环县| 宾阳县| 罗定市| 南郑县| 瑞安市| 大新县| 达州市| 通州区| 韩城市| 象山县| 临澧县| 喀喇| 凤山县| 达拉特旗| 泰和县| 嘉定区| 阜宁县| 安国市| 上林县| 昌平区|