欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種自適應(yīng)實(shí)現(xiàn)男女聲切換方法

文檔序號(hào):2826278閱讀:841來(lái)源:國(guó)知局
一種自適應(yīng)實(shí)現(xiàn)男女聲切換方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種自適應(yīng)實(shí)現(xiàn)男女聲切換方法,包括以下步驟:訓(xùn)練時(shí),將語(yǔ)音數(shù)據(jù)庫(kù)的語(yǔ)音數(shù)據(jù)進(jìn)行分段提取音頻數(shù)據(jù)庫(kù)的聲音數(shù)據(jù),再提取其動(dòng)靜態(tài)梅爾倒譜參數(shù)特征,然后將其送入深度限制波爾機(jī)網(wǎng)絡(luò)進(jìn)行語(yǔ)音性別學(xué)習(xí)。用戶使用時(shí),采集語(yǔ)音信號(hào),按照與語(yǔ)音數(shù)據(jù)庫(kù)的語(yǔ)音數(shù)據(jù)相同的步驟處理后送入深度限制波爾機(jī)網(wǎng)絡(luò)進(jìn)行語(yǔ)音性別判別;根據(jù)性別判別結(jié)果設(shè)定變音目標(biāo),再利用時(shí)間動(dòng)態(tài)規(guī)劃SOLAFS算法根據(jù)變音目標(biāo)對(duì)音頻信號(hào)進(jìn)行時(shí)長(zhǎng)規(guī)整和重采樣,最終達(dá)到自動(dòng)實(shí)現(xiàn)男女聲切換的效果。本發(fā)明能實(shí)時(shí)辨別性別并自適應(yīng)設(shè)定變聲目標(biāo),再進(jìn)行實(shí)時(shí)變聲處理,無(wú)需每次使用時(shí)手動(dòng)設(shè)定參數(shù),語(yǔ)音的動(dòng)態(tài)判斷準(zhǔn)確。
【專(zhuān)利說(shuō)明】一種自適應(yīng)實(shí)現(xiàn)男女聲切換方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及機(jī)器學(xué)習(xí)和音頻處理領(lǐng)域,特別涉及一種自適應(yīng)實(shí)現(xiàn)男女聲切換方法男女聲切換方法。
【背景技術(shù)】
[0002]男女聲互相變換是通過(guò)改變語(yǔ)音信號(hào)的音調(diào)和音色,傳統(tǒng)方法是利用語(yǔ)音信號(hào)處理方法來(lái)實(shí)現(xiàn),其是語(yǔ)音信號(hào)處理領(lǐng)域中一個(gè)的重要理論研究方向,并且男女語(yǔ)音切換可以應(yīng)用在保密通信,娛樂(lè)通信等多個(gè)領(lǐng)域,具有很好的實(shí)際應(yīng)用價(jià)值。目前也有不少方法設(shè)計(jì)了男女聲切換方法,如目前的專(zhuān)利CN03137014.4提供一種變聲方法,該方法通過(guò)手動(dòng)設(shè)定變音目標(biāo),通過(guò)改變信號(hào)的長(zhǎng)度來(lái)達(dá)到變音的效果。專(zhuān)利CN200410062337.1利用頻譜搬移,將語(yǔ)音信號(hào)先轉(zhuǎn)換成頻域型號(hào),然后在頻域上,將信號(hào)頻譜整體搬移到高頻域范圍,最后再將其變換回時(shí)域,最終完成變聲目的。但是現(xiàn)有的變聲方法需要手動(dòng)設(shè)定變音目標(biāo)(如設(shè)定男變女,或者女變男),設(shè)定變音目標(biāo)后,不能自動(dòng)變更變音目標(biāo),也不能實(shí)時(shí)監(jiān)測(cè)說(shuō)話人性別并進(jìn)行變音。

【發(fā)明內(nèi)容】

[0003]為了克服現(xiàn)有技術(shù)的上述缺點(diǎn)與不足,本發(fā)明的目的在于提供一種自適應(yīng)實(shí)現(xiàn)男女聲切換方法男女聲切換方法,能夠自動(dòng)實(shí)時(shí)辨識(shí)性別,然后根據(jù)識(shí)別的性別設(shè)定變音目標(biāo),并完成最終的男女語(yǔ)音變音。
[0004]本發(fā)明的目的通過(guò)以下技術(shù)方案實(shí)現(xiàn):
[0005]一種自適應(yīng)實(shí)現(xiàn)男女聲切換方法,包括以下步驟:
[0006](I)訓(xùn)練過(guò)程:
[0007](1-1)收集語(yǔ)音數(shù)據(jù)庫(kù);所述語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)包括男聲和女聲;
[0008](1-2)對(duì)語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理;
[0009](1-3)對(duì)預(yù)處理后的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取:先將預(yù)處理后的語(yǔ)音數(shù)據(jù)分成30ms的語(yǔ)音巾貞;對(duì)每語(yǔ)音巾貞提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)Xi進(jìn)行一階差分的處理得到12維的動(dòng)態(tài)差分參數(shù)yi;即Yi=X1-XH ;將動(dòng)態(tài)差分參數(shù)Ji和梅爾倒譜參數(shù)Xi級(jí)聯(lián)組成當(dāng)前語(yǔ)音巾貞的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征;然后隨機(jī)選取90中貞語(yǔ)音數(shù)據(jù)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,組成當(dāng)前語(yǔ)音數(shù)據(jù)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,即得到90*24維的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征矢量;
[0010](1-4)采用基于深度限制波爾機(jī)網(wǎng)絡(luò)進(jìn)行語(yǔ)音性別訓(xùn)練學(xué)習(xí):
[0011]基于深度限制波爾機(jī)網(wǎng)絡(luò)包括依次連接的輸入層、第一隱層、第二隱層、第三隱層和輸出層;基于深度限制波爾機(jī)網(wǎng)絡(luò)形成四層網(wǎng)絡(luò),其中,第一層網(wǎng)絡(luò)由輸入層和第一隱層組成,輸入層作為第一層網(wǎng)絡(luò)的輸入層,第一隱層作為第一層網(wǎng)絡(luò)的輸出層;第二層網(wǎng)絡(luò)由第一隱層和第二隱層組成,第一隱層作為第二層網(wǎng)絡(luò)的輸入層,第二隱層作為第二層網(wǎng)絡(luò)的輸出層;第三層絡(luò)由第二隱層和第三隱層組成,第二隱層作為第三層網(wǎng)絡(luò)的輸入層,第三隱層作為第三層網(wǎng)絡(luò)的輸出層;第四層絡(luò)由第三隱層和輸出層組成,第三隱層作為第四層網(wǎng)絡(luò)的輸入層,輸出層作為第四層網(wǎng)絡(luò)的輸出層;每層網(wǎng)絡(luò)的能量定義為E (v, h)=-bv-Ch-hWv,其中b是該層網(wǎng)絡(luò)的輸入層V的偏差,c是該層網(wǎng)絡(luò)的輸出層h的偏差,W是該層網(wǎng)絡(luò)的輸入層V和該層網(wǎng)絡(luò)的輸出層h的權(quán)重值;
[0012]將步驟(1-3)提取得到的語(yǔ)音特征矢量輸入基于深度限制波爾機(jī)網(wǎng)絡(luò),作為輸入層,采用吉比特采樣方法根據(jù)輸入層生成第一層網(wǎng)絡(luò)的輸入層的偏差、第一層網(wǎng)絡(luò)的輸出層的偏差、第一層網(wǎng)絡(luò)的輸入層和第一層網(wǎng)絡(luò)的輸出層的權(quán)重值;將當(dāng)前層網(wǎng)絡(luò)的輸出層作為下一層網(wǎng)絡(luò)的輸入層,分開(kāi)訓(xùn)練多層網(wǎng)絡(luò),將多層網(wǎng)絡(luò)疊加實(shí)現(xiàn)深度限制波爾機(jī)網(wǎng)絡(luò)的訓(xùn)練;得到各層網(wǎng)絡(luò)的輸入層的偏差、各層網(wǎng)絡(luò)輸出層的偏差、各層網(wǎng)絡(luò)的輸入層和輸出層的權(quán)重值;
[0013](2)識(shí)別過(guò)程:
[0014](2-1)采集用戶的語(yǔ)音信號(hào);
[0015]( 2-2 )對(duì)采集到的語(yǔ)音信號(hào)進(jìn)行預(yù)處理;
[0016](2-3)對(duì)預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行特征提取:先將預(yù)處理后的語(yǔ)音信號(hào)分成30ms的語(yǔ)音段;在每語(yǔ)音幀中提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)xi進(jìn)行一階差分的處理得到12維的動(dòng)態(tài)差分參數(shù)yi,即Yi=X1-Xp1 ;將動(dòng)態(tài)差分參數(shù)Ji和梅爾倒譜參數(shù)Xi級(jí)聯(lián)組成當(dāng)前語(yǔ)音幀的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征;然后隨機(jī)選取90巾貞語(yǔ)音信號(hào)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,組成當(dāng)前語(yǔ)音信號(hào)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,即得到90*24維的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征矢量;
[0017](2-3)將步驟(2-2)得到的語(yǔ)音特征矢量展開(kāi)成I維,利用步驟(1_4)得到的四層網(wǎng)絡(luò)的輸入層的偏差、四層網(wǎng)絡(luò)的輸出層的偏差、四層網(wǎng)絡(luò)的輸入層和輸出層的權(quán)重值,對(duì)當(dāng)前90幀語(yǔ)音的進(jìn)行性別判斷,根據(jù)性別判斷結(jié)果設(shè)定變音目標(biāo):
[0018]如果性別判斷為女,則變音目標(biāo)為女聲變男聲;
[0019]如果性別判斷為男,則變音目標(biāo)為男聲變女聲;
[0020](2-4)根據(jù)步驟(2-3)設(shè)定的變音目標(biāo),利用時(shí)間動(dòng)態(tài)規(guī)劃SOLAFS算法對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)長(zhǎng)規(guī)整,將時(shí)長(zhǎng)規(guī)整后的語(yǔ)音信息輸出。
[0021]步驟(1-2)所述對(duì)語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,具體為:
[0022]對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行去平均化能量處理。
[0023]步驟(2-2)所述對(duì)采集到的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,具體為:
[0024]對(duì)語(yǔ)音信號(hào)進(jìn)行去平均化能量處理。
[0025]步驟(2-4)所述利用時(shí)間動(dòng)態(tài)規(guī)劃SOLAFS算法對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)長(zhǎng)規(guī)整,具體為:
[0026]當(dāng)變音目標(biāo)為女聲變男聲時(shí),將語(yǔ)音信號(hào)的時(shí)長(zhǎng)擴(kuò)大為原語(yǔ)音時(shí)長(zhǎng)的1.25倍;再進(jìn)行重采樣,重采樣率為原采樣率的0.75倍;
[0027]當(dāng)變音目標(biāo)為男聲變女聲時(shí),將語(yǔ)音信號(hào)的時(shí)長(zhǎng)縮小為原語(yǔ)音時(shí)長(zhǎng)的0.75倍;再進(jìn)行重采樣,重采樣率為原采樣率的1.25倍。
[0028]進(jìn)行步驟(2-4)之后,還進(jìn)行以下步驟:
[0029](2-5)計(jì)算下一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)平均能量,如果當(dāng)前語(yǔ)音信號(hào)平均能量大于第一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量的0.2倍,則認(rèn)為當(dāng)前語(yǔ)音信號(hào)與第一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)由同一用戶發(fā)出,則繼續(xù)使用上一個(gè)語(yǔ)音信號(hào)變音目標(biāo),進(jìn)行步驟(2-4);
[0030]如果當(dāng)前語(yǔ)音信號(hào)平均能量小于上一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量的
0.2倍,則認(rèn)為當(dāng)前語(yǔ)音中斷;繼續(xù)計(jì)算下一個(gè)時(shí)長(zhǎng)為語(yǔ)音信號(hào)的平均能量,直至檢測(cè)到某一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量大于第一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量的
0.2倍時(shí),將語(yǔ)音信號(hào)的平均能量更新為當(dāng)前時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量,重新進(jìn)行步驟(2-3)~(2-5)。
[0031]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)和有益效果:[0032]( I)本發(fā)明的自適應(yīng)實(shí)現(xiàn)男女聲切換方法男女聲切換方法能實(shí)時(shí)辨別性別并自適應(yīng)設(shè)定變聲目標(biāo),再進(jìn)行實(shí)時(shí)變聲處理,無(wú)需每次使用時(shí)手動(dòng)設(shè)定參數(shù)。
[0033](2)本發(fā)明的自適應(yīng)實(shí)現(xiàn)男女聲切換方法提取的語(yǔ)音特征是采用動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,使語(yǔ)音的動(dòng)態(tài)判斷更加準(zhǔn)確。
[0034](3)本發(fā)明的自適應(yīng)實(shí)現(xiàn)男女聲切換方法采用深度限制波爾機(jī)網(wǎng)絡(luò)的語(yǔ)音性別訓(xùn)練學(xué)習(xí)和識(shí)別,從而對(duì)語(yǔ)音性別的判斷更準(zhǔn)確,減少誤判率。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0035]圖1為本發(fā)明的實(shí)施例的自適應(yīng)實(shí)現(xiàn)男女聲切換方法的流程圖。
【具體實(shí)施方式】
[0036]下面結(jié)合實(shí)施例,對(duì)本發(fā)明作進(jìn)一步地詳細(xì)說(shuō)明,但本發(fā)明的實(shí)施方式不限于此。
[0037]實(shí)施例
[0038]如圖1所示,本實(shí)施例的自適應(yīng)實(shí)現(xiàn)男女聲切換方法,包括以下步驟:
[0039](I)訓(xùn)練過(guò)程:
[0040](1-1)收集語(yǔ)音數(shù)據(jù)庫(kù):主要是從電子漢語(yǔ)詞典真人發(fā)音數(shù)據(jù)庫(kù)根據(jù)單詞提取了10組男女聲數(shù)據(jù)庫(kù),其中男生5組,女生5組,每組數(shù)據(jù)庫(kù)中包含常用的3893個(gè)單詞的語(yǔ)音
及曰;
[0041](1-2)對(duì)語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)進(jìn)行去平均化能量預(yù)處理;
[0042]首先截取語(yǔ)音開(kāi)始點(diǎn)和結(jié)束點(diǎn)的數(shù)據(jù),先統(tǒng)計(jì)整個(gè)語(yǔ)音的平均能量,為了簡(jiǎn)化計(jì)算,本發(fā)明取每個(gè)語(yǔ)音數(shù)據(jù)的絕對(duì)值的平均值作為其平均能量i,第一個(gè)語(yǔ)音信號(hào)值大于
!即是語(yǔ)音開(kāi)始點(diǎn),最后一個(gè)語(yǔ)音信號(hào)值大于!即為語(yǔ)音結(jié)束點(diǎn)。截取語(yǔ)音開(kāi)始和結(jié)束之55
間信號(hào),然后將語(yǔ)音數(shù)據(jù)進(jìn)行去平均化能量處理,即將語(yǔ)音數(shù)據(jù)除了平均能量互,以統(tǒng)一各個(gè)語(yǔ)音數(shù)據(jù)的能量分布;
[0043](1-3)對(duì)預(yù)處理后的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取:先將預(yù)處理后的語(yǔ)音數(shù)據(jù)分成30ms的語(yǔ)音幀;對(duì)每語(yǔ)音幀提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)Xi進(jìn)行一階差分的處理得到12維的動(dòng)態(tài)差分參數(shù)yi;即Yi=X1-XH ;將動(dòng)態(tài)差分參數(shù)Ji和梅爾倒譜參數(shù)Xi級(jí)聯(lián)組成當(dāng)前語(yǔ)音幀的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征;然后隨機(jī)選取90中貞語(yǔ)音數(shù)據(jù)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,組成當(dāng)前語(yǔ)音數(shù)據(jù)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,即得到90*24維的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征矢量;[0044](1-4)米用基于深度限制波爾機(jī)網(wǎng)絡(luò)(Deep Restrict Boltzman Machine, DRBM)進(jìn)行語(yǔ)音性別訓(xùn)練學(xué)習(xí):
[0045]基于深度限制波爾機(jī)網(wǎng)絡(luò)包括依次連接的輸入層、第一隱層、第二隱層、第三隱層和輸出層,其中輸入層維度為2160,第一、二、三隱層的維度分別為500、500、3000 ;基于深度限制波爾機(jī)網(wǎng)絡(luò)形成四層網(wǎng)絡(luò),其中,第一層網(wǎng)絡(luò)由輸入層和第一隱層組成,輸入層作為第一層網(wǎng)絡(luò)的輸入層,第一隱層作為第一層網(wǎng)絡(luò)的輸出層;第二層網(wǎng)絡(luò)由第一隱層和第二隱層組成,第一隱層作為第二層網(wǎng)絡(luò)的輸入層,第二隱層作為第二層網(wǎng)絡(luò)的輸出層;第三層絡(luò)由第二隱層和第三隱層組成,第二隱層作為第三層網(wǎng)絡(luò)的輸入層,第三隱層作為第三層網(wǎng)絡(luò)的輸出層;第四層絡(luò)由第三隱層和輸出層組成,第三隱層作為第四層網(wǎng)絡(luò)的輸入層,輸出層作為第四層網(wǎng)絡(luò)的輸出層。對(duì)于每層網(wǎng)絡(luò),正向迭代次數(shù)為50次,反向?yàn)?00次,每層網(wǎng)絡(luò)的能量定義為E(v,h)=-bv-Ch-hWv,其中b是該層網(wǎng)絡(luò)的輸入層V的偏差,c是該層網(wǎng)絡(luò)的輸出層h的偏差,W是該層網(wǎng)絡(luò)的輸入層V和該層網(wǎng)絡(luò)的輸出層h的權(quán)重值;
[0046]將步驟(1-3)提取得到的語(yǔ)音特征矢量輸入基于深度限制波爾機(jī)網(wǎng)絡(luò),作為輸入層,采用吉比特(Gibbs)采樣方法根據(jù)輸入層生成第一層網(wǎng)絡(luò)的輸入層的偏差、第一層網(wǎng)絡(luò)的輸出層的偏差、第一層網(wǎng)絡(luò)的輸入層和第一層網(wǎng)絡(luò)的輸出層的權(quán)重值(具體實(shí)現(xiàn)細(xì)節(jié)可參考文獻(xiàn) Hinton, G.E.,Osindero, S.and Teh, Y., A fast learning algorithm for deepbelief nets.Neural Computationl8:1527-1554, 2006);將當(dāng)前層網(wǎng)絡(luò)的輸出層作為下一層網(wǎng)絡(luò)的輸入層,分開(kāi)訓(xùn)練多層網(wǎng)絡(luò),將多層網(wǎng)絡(luò)疊加實(shí)現(xiàn)深度限制波爾機(jī)網(wǎng)絡(luò)的訓(xùn)練;得到各層網(wǎng)絡(luò)的輸入層的偏差、各層網(wǎng)絡(luò)輸出層的偏差、各層網(wǎng)絡(luò)的輸入層和輸出層的權(quán)重值;
[0047](2)識(shí)別過(guò)程:
[0048](2-1)采集用戶的語(yǔ)音信號(hào);
[0049]( 2-2 )對(duì)采集到的語(yǔ)音信號(hào)進(jìn)行去平均化能量預(yù)處理;
[0050]首先截取語(yǔ)音開(kāi)始點(diǎn)和結(jié)束點(diǎn)的數(shù)據(jù),先統(tǒng)計(jì)整個(gè)語(yǔ)音的平均能量,為了簡(jiǎn)化計(jì)算,本發(fā)明取每個(gè)語(yǔ)音數(shù)據(jù)的絕對(duì)值的平均值作為其平均能量:1,第一個(gè)語(yǔ)音信號(hào)值大于
即是語(yǔ)音開(kāi)始點(diǎn),最后一個(gè)語(yǔ)音信號(hào)值大于f即為語(yǔ)音結(jié)束點(diǎn)。截取語(yǔ)音開(kāi)始和結(jié)束之55
間信號(hào),然后將語(yǔ)音數(shù)據(jù)進(jìn)行去平均化能量處理,即將語(yǔ)音數(shù)據(jù)除了平均能量互,以統(tǒng)一各個(gè)語(yǔ)音數(shù)據(jù)的能量分布;
[0051](2-3)對(duì)預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行特征提取:先將預(yù)處理后的語(yǔ)音信號(hào)分成30ms的語(yǔ)音段;在每語(yǔ)音幀中提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)Xi進(jìn)行一階差分的處理得到12維的動(dòng)態(tài)差分參數(shù)yi;即Yi=X1-XH ;將動(dòng)態(tài)差分參數(shù)Ji和梅爾倒譜參數(shù)Xi級(jí)聯(lián)組成當(dāng)前語(yǔ)音幀的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征;然后隨機(jī)選取90巾貞語(yǔ)音信號(hào)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,組成當(dāng)前語(yǔ)音信號(hào)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,即得到90*24維的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征矢量;
[0052](2-3)將步驟(2-2)得到的語(yǔ)音特征矢量展開(kāi)成I維,利用步驟(1_4)得到的四層網(wǎng)絡(luò)的輸入層的偏差、四層網(wǎng)絡(luò)的輸出層的偏差、四層網(wǎng)絡(luò)的輸入層和輸出層的權(quán)重值,對(duì)當(dāng)前90幀語(yǔ)音的進(jìn)行性別判斷,根據(jù)性別判斷結(jié)果設(shè)定變音目標(biāo):[0053]如果性別判斷為女,則變音目標(biāo)為女聲變男聲;
[0054]如果性別判斷為男,則變音目標(biāo)為男聲變女聲;
[0055](2-4)根據(jù)步驟(2-3)設(shè)定的變音目標(biāo),利用時(shí)間動(dòng)態(tài)規(guī)劃SOLAFS算法對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)長(zhǎng)規(guī)整,將時(shí)長(zhǎng)規(guī)整后的語(yǔ)音信息輸出;所述利用時(shí)間動(dòng)態(tài)規(guī)劃SOLAFS算法對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)長(zhǎng)規(guī)整,具體為:
[0056]當(dāng)變音目標(biāo)為女聲變男聲時(shí),將語(yǔ)音信號(hào)的時(shí)長(zhǎng)擴(kuò)大為原語(yǔ)音時(shí)長(zhǎng)的1.25倍;再進(jìn)行重采樣,重采樣率為原采樣率的0.75倍;
[0057]當(dāng)變音目標(biāo)為男聲變女聲時(shí),將語(yǔ)音信號(hào)的時(shí)長(zhǎng)縮小為原語(yǔ)音時(shí)長(zhǎng)的0.75倍;再進(jìn)行重采樣,重采樣率為原采樣率的1.25倍。
[0058]在用戶的后續(xù)使用過(guò)程中,還可以進(jìn)行以下步驟:
[0059](2-5)計(jì)算下一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)平均能量,如果當(dāng)前語(yǔ)音信號(hào)平均能量大于第一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量的0.2倍,則認(rèn)為當(dāng)前語(yǔ)音信號(hào)與第一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)由同一用戶發(fā)出,則繼續(xù)使用上一個(gè)語(yǔ)音信號(hào)變音目標(biāo),進(jìn)行步驟(2-4);
[0060]如果當(dāng)前語(yǔ)音信號(hào)平均能量小于上一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量的
0.2倍,則認(rèn)為當(dāng)前語(yǔ)音中斷(可能使用人已改變);繼續(xù)計(jì)算下一個(gè)時(shí)長(zhǎng)為語(yǔ)音信號(hào)的平均能量,直至檢測(cè)到某一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量大于第一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量的0.2倍時(shí),將語(yǔ)音信號(hào)的平均能量更新為當(dāng)前時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量,重新進(jìn)行步驟(2-3)?(2-5),這樣處理的最大好處在于,當(dāng)當(dāng)前使用人發(fā)生改變時(shí),系統(tǒng)可以實(shí)現(xiàn)自動(dòng)化適配不同性別使用者的變聲處理。
[0061]本實(shí)施例的自適應(yīng)實(shí)現(xiàn)男女聲切換方法在應(yīng)用時(shí),可以使用計(jì)算機(jī)提取語(yǔ)音數(shù)據(jù)庫(kù)的語(yǔ)音信號(hào)特征和訓(xùn)練深度限制波爾機(jī)網(wǎng)絡(luò),然后將訓(xùn)練好的深度限制波爾機(jī)網(wǎng)絡(luò)模型配置在每臺(tái)手機(jī)端,當(dāng)手機(jī)用戶使用時(shí),麥克風(fēng)采集當(dāng)前用戶的語(yǔ)音信號(hào),提取當(dāng)前語(yǔ)音信號(hào)特征,并利用訓(xùn)練好的深度限制波爾機(jī)網(wǎng)絡(luò)模型進(jìn)行判斷性別,然后自動(dòng)調(diào)整變音目標(biāo),利用時(shí)間動(dòng)態(tài)規(guī)劃SOLAFS算法對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)長(zhǎng)規(guī)整和重采樣語(yǔ)音信號(hào),再傳送給遠(yuǎn)端用戶。
[0062]上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受所述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種自適應(yīng)實(shí)現(xiàn)男女聲切換方法,其特征在于,包括以下步驟: (1)訓(xùn)練過(guò)程: (1-1)收集語(yǔ)音數(shù)據(jù)庫(kù);所述語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)包括男聲和女聲; (1-2)對(duì)語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理; (1-3)對(duì)預(yù)處理后的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取:先將預(yù)處理后的語(yǔ)音數(shù)據(jù)分成30ms的語(yǔ)音中貞;對(duì)每語(yǔ)音幀提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)Xi進(jìn)行一階差分的處理得到12維的動(dòng)態(tài)差分參數(shù)yi,即Yi=X1-Xi^1 ;將動(dòng)態(tài)差分參數(shù)yjP梅爾倒譜參數(shù)Xi級(jí)聯(lián)組成當(dāng)前語(yǔ)音幀的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征;然后隨機(jī)選取90幀語(yǔ)音數(shù)據(jù)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,組成當(dāng)前語(yǔ)音數(shù)據(jù)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,即得到90*24維的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征矢量; (1-4)采用基于深度限制波爾機(jī)網(wǎng)絡(luò)進(jìn)行語(yǔ)音性別訓(xùn)練學(xué)習(xí): 基于深度限制波爾機(jī)網(wǎng)絡(luò)包括依次連接的輸入層、第一隱層、第二隱層、第三隱層和輸出層;基于深度限制波爾機(jī)網(wǎng)絡(luò)形成四層網(wǎng)絡(luò),其中,第一層網(wǎng)絡(luò)由輸入層和第一隱層組成,輸入層作為第一層網(wǎng)絡(luò)的輸入層,第一隱層作為第一層網(wǎng)絡(luò)的輸出層;第二層網(wǎng)絡(luò)由第一隱層和第二隱層組成,第一隱層作為第二層網(wǎng)絡(luò)的輸入層,第二隱層作為第二層網(wǎng)絡(luò)的輸出層;第三層絡(luò)由第二隱層和第三隱層組成,第二隱層作為第三層網(wǎng)絡(luò)的輸入層,第三隱層作為第三層網(wǎng)絡(luò)的輸出層;第四層絡(luò)由第三隱層和輸出層組成,第三隱層作為第四層網(wǎng)絡(luò)的輸入層,輸出層作為第四層網(wǎng)絡(luò)的輸出層;每層網(wǎng)絡(luò)的能量定義為E(V,h)=-bv-Ch-hWv,其中b是該層網(wǎng)絡(luò)的輸入層V的偏差,c是該層網(wǎng)絡(luò)的輸出層h的偏差,W是該層網(wǎng)絡(luò)的輸入層V和該層網(wǎng)絡(luò)的輸出層h的權(quán)重值; 將步驟(1-3)提取得到的語(yǔ)音特征矢量輸入基于深度限制波爾機(jī)網(wǎng)絡(luò),作為輸入層,采用吉比特采樣方法根據(jù)輸入層生成第一層網(wǎng)絡(luò)的輸入層的偏差、第一層網(wǎng)絡(luò)的輸出層的偏差、第一層網(wǎng)絡(luò)的輸入層和第一層網(wǎng)絡(luò)的輸出層的權(quán)重值;將當(dāng)前層網(wǎng)絡(luò)的輸出層作為下一層網(wǎng)絡(luò)的輸入層,分開(kāi)訓(xùn)練多層網(wǎng)絡(luò),將多層網(wǎng)絡(luò)疊加實(shí)現(xiàn)深度限制波爾機(jī)網(wǎng)絡(luò)的訓(xùn)練;得到各層網(wǎng)絡(luò)的輸入層的偏差、各層網(wǎng)絡(luò)輸出層的偏差、各層網(wǎng)絡(luò)的輸入層和輸出層的權(quán)重值 ; (2)識(shí)別過(guò)程: (2-1)采集用戶的語(yǔ)音信號(hào); (2-2)對(duì)采集到的語(yǔ)音信號(hào)進(jìn)行預(yù)處理; (2-3)對(duì)預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行特征提取:先將預(yù)處理后的語(yǔ)音信號(hào)分成30ms的語(yǔ)音段;在每語(yǔ)音幀中提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)Xi進(jìn)行一階差分的處理得到12維的動(dòng)態(tài)差分參數(shù)yi,即Yi=X1-Xi^1 ;將動(dòng)態(tài)差分參數(shù)71和梅爾倒譜參數(shù)Xi級(jí)聯(lián)組成當(dāng)前語(yǔ)音幀的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征;然后隨機(jī)選取90幀語(yǔ)音信號(hào)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,組成當(dāng)前語(yǔ)音信號(hào)的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征,即得到90*24維的動(dòng)靜態(tài)梅爾倒譜參數(shù)的語(yǔ)音特征矢量; (2-3)將步驟(2-2)得到的語(yǔ)音特征矢量展開(kāi)成I維,利用步驟(1-4)得到的四層網(wǎng)絡(luò)的輸入層的偏差、四層網(wǎng)絡(luò)的輸出層的偏差、四層網(wǎng)絡(luò)的輸入層和輸出層的權(quán)重值,對(duì)當(dāng)前90幀語(yǔ)音的進(jìn)行性別判斷,根據(jù)性別判斷結(jié)果設(shè)定變音目標(biāo): 如果性別判斷為女,則變音目標(biāo)為女聲變男聲;如果性別判斷為男,則變音目標(biāo)為男聲變女聲; (2-4)根據(jù)步驟(2-3)設(shè)定的變音目標(biāo),利用時(shí)間動(dòng)態(tài)規(guī)劃SOLAFS算法對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)長(zhǎng)規(guī)整,將時(shí)長(zhǎng)規(guī)整后的語(yǔ)首信息輸出。
2.根據(jù)權(quán)利要求1所述的自適應(yīng)實(shí)現(xiàn)男女聲切換方法,其特征在于,步驟(1-2)所述對(duì)語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,具體為: 對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行去平均化能量處理。
3.根據(jù)權(quán)利要求2所述的自適應(yīng)實(shí)現(xiàn)男女聲切換方法,其特征在于,步驟(2-2)所述對(duì)采集到的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,具體為: 對(duì)語(yǔ)音信號(hào)進(jìn)行去平均化能量處理。
4.根據(jù)權(quán)利要求1所述的自適應(yīng)實(shí)現(xiàn)男女聲切換方法,其特征在于,步驟(2-4)所述利用時(shí)間動(dòng)態(tài)規(guī)劃SOLAFS算法對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)長(zhǎng)規(guī)整,具體為: 當(dāng)變音目標(biāo)為女聲變男聲時(shí),將語(yǔ)音信號(hào)的時(shí)長(zhǎng)擴(kuò)大為原語(yǔ)音時(shí)長(zhǎng)的1.25倍;再進(jìn)行重采樣,重采樣率為原采樣率的0.75倍; 當(dāng)變音目標(biāo)為男聲變女聲時(shí),將語(yǔ)音信號(hào)的時(shí)長(zhǎng)縮小為原語(yǔ)音時(shí)長(zhǎng)的0.75倍;再進(jìn)行重采樣,重采樣率為原采樣率的1.25倍。
5.根據(jù)權(quán)利要求1所述的自適應(yīng)實(shí)現(xiàn)男女聲切換方法,其特征在于,進(jìn)行步驟(2-4)之后,還進(jìn)行以下步驟: (2-5)計(jì)算下一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)平均能量,如果當(dāng)前語(yǔ)音信號(hào)平均能量大于第一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量的0.2倍,則認(rèn)為當(dāng)前語(yǔ)音信號(hào)與第一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)由同一用戶發(fā)出,則繼續(xù)使用上一個(gè)語(yǔ)音信號(hào)變音目標(biāo),進(jìn)行步驟(2-4); 如果當(dāng)前語(yǔ)音信號(hào)平均能量小于上一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量的0.2倍,則認(rèn)為當(dāng)前語(yǔ)音中斷;繼續(xù)計(jì)算下一個(gè)時(shí)長(zhǎng)為語(yǔ)音信號(hào)的平均能量,直至檢測(cè)到某一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量大于第一個(gè)時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量的0.2倍時(shí),將語(yǔ)音信號(hào)的平均能量更新為當(dāng)前時(shí)長(zhǎng)為90幀的語(yǔ)音信號(hào)的平均能量,重新進(jìn)行步驟(2-3)~(2-5)。
【文檔編號(hào)】G10L21/003GK103514883SQ201310444837
【公開(kāi)日】2014年1月15日 申請(qǐng)日期:2013年9月26日 優(yōu)先權(quán)日:2013年9月26日
【發(fā)明者】郭禮華, 鄧迪 申請(qǐng)人:華南理工大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
郎溪县| 通州区| 张家港市| 卫辉市| 额敏县| 广汉市| 林口县| 嘉荫县| 行唐县| 闻喜县| 滨州市| 阿坝| 微山县| 安塞县| 红原县| 松桃| 理塘县| 佛教| 汪清县| 连江县| 衡东县| 寿光市| 德兴市| 六安市| 远安县| 新宁县| 达孜县| 贵港市| 姜堰市| 仪陇县| 綦江县| 铁岭市| 拉萨市| 礼泉县| 彭泽县| 鄄城县| 温宿县| 墨竹工卡县| 惠州市| 安陆市| 曲沃县|