欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音信號重構(gòu)方法及裝置與流程

文檔序號:11776289閱讀:571來源:國知局
語音信號重構(gòu)方法及裝置與流程

本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域,尤其涉及一種語音信號重構(gòu)方法及裝置。



背景技術(shù):

語音信號的重構(gòu)通常是指在發(fā)送端對語音信號進(jìn)行分析,提取出語音信號的特征參量加以編碼和加密,以取得和信道的匹配,經(jīng)信息通道傳遞到接收端,接收端根據(jù)收到的特征參量恢復(fù)(重構(gòu))原始語音波形。

但是,現(xiàn)有語音信號重構(gòu)的方法一般是基于源-濾波器(source-filter)模型,將語音信號x(t)分解成聲門激勵e(t)和聲道調(diào)制h(t)兩部分,寫成卷積形式如下:

x(t)=x(t)×e(t)。

這一基礎(chǔ)分解方式是很多語音信號處理技術(shù)的基礎(chǔ),如語音編碼中的參數(shù)編碼器,語音合成中的聲碼器等?,F(xiàn)有技術(shù)中還沒有基于內(nèi)容和說話人對語音信號進(jìn)行分解重構(gòu)的方法。

鑒于此,如何提供一種能夠基于內(nèi)容和說話人對語音信號進(jìn)行分解重構(gòu)的方法及裝置成為目前需要解決的技術(shù)問題。



技術(shù)實(shí)現(xiàn)要素:

為解決上述的技術(shù)問題,本發(fā)明實(shí)施例提供一種語音信號重構(gòu)方法及裝置,能夠基于內(nèi)容和說話人實(shí)現(xiàn)對語音信號的分解重構(gòu),與任務(wù)具有更強(qiáng)的相關(guān)性,重構(gòu)效率高,重構(gòu)后的語音信號與原語音信號比較相近。

第一方面,本發(fā)明實(shí)施例提供一種語音信號重構(gòu)方法,包括:

獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;

基于所述樣本語音信號的log域頻譜,利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型,提取每一幀樣本語音信號的說話人因子;

基于所提取的內(nèi)容因子和說話人因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將說話人因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;

將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,以及將目標(biāo)語音信號輸入所述內(nèi)容譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的內(nèi)容譜;

將所述內(nèi)容譜和所述聲紋譜相加,獲得所述目標(biāo)語音信號重構(gòu)后的log域頻譜。

可選地,將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,以及將目標(biāo)語音信號輸入所述內(nèi)容譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的內(nèi)容譜,包括:

獲取目標(biāo)語音信號,將所述目標(biāo)語音信號轉(zhuǎn)換成log域頻譜;

基于所述目標(biāo)語音信號的log域頻譜,利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型提取每一幀目標(biāo)語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型提取每一幀目標(biāo)語音信號的說話人因子;

利用所述內(nèi)容譜重構(gòu)模型,將每一幀目標(biāo)語音信號的內(nèi)容因子重構(gòu)成內(nèi)容譜,以及利用所述聲紋譜重構(gòu)模型,將每一幀目標(biāo)語音信號的說話人因子重構(gòu)成聲紋譜。

可選地,所述將所述樣本語音信號轉(zhuǎn)換成log域頻譜,包括:

將所述樣本語音信號進(jìn)行傅立葉變換,獲得所述樣本語音信號的log域頻譜;

相應(yīng)地,所述將所述目標(biāo)語音信號轉(zhuǎn)換成log域頻譜,包括:

將所述目標(biāo)語音信號進(jìn)行傅立葉變換,獲得所述目標(biāo)語音信號的log域頻譜。

可選地,在基于所述樣本語音信號的log域頻譜,利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型,提取每一幀樣本語音信號的說話人因子之前,所述方法還包括:

對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,以及對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化。

可選地,所述對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,包括:

基于fisher準(zhǔn)則,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化;

相應(yīng)地,

所述對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化,包括:

基于fisher準(zhǔn)則,對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化。

可選地,所述對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,包括:

基于交叉熵,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化;

相應(yīng)地,

所述對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化,包括:

基于交叉熵,對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化。

可選地,所述說話人因子提取模型、所述內(nèi)容因子提取模型、所述聲紋譜重構(gòu)模型和所述內(nèi)容譜重構(gòu)模型均是基于深度神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)的。

第二方面,本發(fā)明實(shí)施例提供一種語音信號重構(gòu)裝置,包括:

轉(zhuǎn)換模塊,用于獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;

提取模塊,用于利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型,提取每一幀樣本語音信號的說話人因子;

第一訓(xùn)練模塊,用于基于所提取的內(nèi)容因子和說話人因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將說話人因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;

重構(gòu)模塊,用于將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,以及將目標(biāo)語音信號輸入所述內(nèi)容譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的內(nèi)容譜;

合成模塊,用于將所述內(nèi)容譜和所述聲紋譜相加,獲得所述目標(biāo)語音信號重構(gòu)后的log域頻譜。

第三方面,本發(fā)明實(shí)施例提供一種電子設(shè)備,包括:處理器、存儲器、總線及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序;

其中,所述處理器,存儲器通過所述總線完成相互間的通信;

所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)上述方法。

第四方面,本發(fā)明實(shí)施例提供一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述方法。

由上述技術(shù)方案可知,本發(fā)明實(shí)施例的語音信號重構(gòu)方法及裝置,通過獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;基于所述樣本語音信號的log域頻譜,利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型,提取每一幀樣本語音信號的說話人因子;基于所提取的內(nèi)容因子和說話人因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將說話人因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,以及將目標(biāo)語音信號輸入所述內(nèi)容譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的內(nèi)容譜;將所述內(nèi)容譜和所述聲紋譜相加,獲得所述目標(biāo)語音信號重構(gòu)后的log域頻譜,由此,能夠基于內(nèi)容和說話人實(shí)現(xiàn)對語音信號的分解重構(gòu),與任務(wù)具有更強(qiáng)的相關(guān)性,重構(gòu)效率高,重構(gòu)后的語音信號與原語音信號比較相近。

附圖說明

圖1為本發(fā)明一實(shí)施例提供的一種語音信號重構(gòu)方法的流程示意圖;

圖2為本發(fā)明一實(shí)施例提供的一種語音信號重構(gòu)裝置的結(jié)構(gòu)示意圖;

圖3為本發(fā)明實(shí)施例提供的一種電子設(shè)備的實(shí)體結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整的描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他的實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

圖1示出了本發(fā)明一實(shí)施例提供的語音信號重構(gòu)方法的流程示意圖,如圖1所示,本實(shí)施例的語音信號重構(gòu)方法如下所述。

101、獲取樣本語音信號,將所述樣本語音信號x(t)轉(zhuǎn)換成log域頻譜log(x(t))。

在具體應(yīng)用中,舉例來說,所述步驟101可以將所述樣本語音信號x(t)進(jìn)行傅立葉變換,獲得所述樣本語音信號的log域頻譜log(x(t))。

102、基于所述樣本語音信號的log域頻譜log(x(t)),利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子fc(t),以及利用預(yù)先訓(xùn)練的說話人因子提取模型,提取每一幀樣本語音信號的說話人因子fs(t)。

可以理解的是,本實(shí)施例中,每一幀樣本語音信號包含兩類因子:內(nèi)容因子fc(t)和說話人因子fs(t)(即聲紋因子)。其中,內(nèi)容因子fc(t)和說話內(nèi)容相關(guān),說話人因子fs(t)和說話人特征相關(guān)。

在具體應(yīng)用中,所述說話人因子提取模型可用函數(shù)g來表示,所述步驟102可通過說話人因子提取模型,提取每一幀樣本語音信號的說話人因子fs(t),所述說話人因子提取模型為:

fs(t)=g(log(x(t)))(1)。

在具體應(yīng)用中,所述內(nèi)容因子提取模型可用函數(shù)f來表示,所述步驟102可通過內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子fc(t),所述內(nèi)容因子提取模型為:

fc(t)=f(log(x(t)))(2)。

在具體應(yīng)用中,在所述步驟102之前,還可以包括:

對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,以及對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化。

可以理解的是,所述說話人因子提取模型是基于深度神經(jīng)網(wǎng)絡(luò)和使說話人因子提取模型對說話人的區(qū)分能力最大化準(zhǔn)則來訓(xùn)練實(shí)現(xiàn)的,使說話人因子提取模型對說話人的區(qū)分能力最大化準(zhǔn)則可以有多種,舉例來說,可以基于fisher準(zhǔn)則,對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化;

或者,也可以基于交叉熵,對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化,即說話人因子提取模型g采用說話人作為區(qū)分學(xué)習(xí)對象,用模型預(yù)結(jié)果和實(shí)際說話人標(biāo)記的交叉熵作為訓(xùn)練的目標(biāo)函數(shù)。

可以理解的是,所述內(nèi)容因子提取模型是基于深度神經(jīng)網(wǎng)絡(luò)和使內(nèi)容因子提取模型對音素的區(qū)分能力最大化準(zhǔn)則來訓(xùn)練實(shí)現(xiàn)的,使內(nèi)容因子提取模型對音素的區(qū)分能力最大化準(zhǔn)則可以有多種,舉例來說,可以基于fisher準(zhǔn)則,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化;

或者,也可以基于交叉熵,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,即內(nèi)容因子提取模型f可采用音素作為區(qū)分學(xué)習(xí)的對象,用模型預(yù)結(jié)果和實(shí)際音素標(biāo)記的交叉熵作為訓(xùn)練的目標(biāo)函數(shù)。

103、基于所提取的內(nèi)容因子fc(t)和說話人因子fs(t),訓(xùn)練得到用于將內(nèi)容因子fc(t)重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型c(t)和用于將說話人因子fs(t)重構(gòu)成聲紋譜s(t)的聲紋譜重構(gòu)模型。

可以理解的是,所述聲紋譜重構(gòu)模型可用函數(shù)g來表示,所述聲紋譜重構(gòu)模型是基于深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練實(shí)現(xiàn)的,所述聲紋譜重構(gòu)模型為:

s(t)=g(fs(t))=g(g(log(x(t))))(3)。

可以理解的是,所述內(nèi)容譜重構(gòu)模型可用函數(shù)f來表示,所述內(nèi)容譜重構(gòu)模型是基于深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練實(shí)現(xiàn)的,所述內(nèi)容譜重構(gòu)模型為:

c(t)=f(fc(t))=f(f(log(x(t))))(4)。

需要說明的是,所述步驟103訓(xùn)練時的目標(biāo)是使重構(gòu)后的log域頻譜與重構(gòu)前的原log域頻譜盡可能相近,在訓(xùn)練時可以通過對下述公式(5)進(jìn)行優(yōu)化,進(jìn)而得到優(yōu)化的f和g;

l(f,g)=∑td(c(t)+s(t),log(x(t)))(5)

式中:d為距離度量函數(shù),l為訓(xùn)練目標(biāo)函數(shù)。

在具體應(yīng)用中,d對距離的度量可以采用平方誤差。

104、將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,以及將目標(biāo)語音信號輸入所述內(nèi)容譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的內(nèi)容譜。

在具體應(yīng)用中,所述步驟104可以包括圖中未示出的步驟s1-s3:

s1、獲取目標(biāo)語音信號,將所述目標(biāo)語音信號轉(zhuǎn)換成log域頻譜。

在具體應(yīng)用中,舉例來說,所述步驟s1可以將所述目標(biāo)語音信號進(jìn)行傅立葉變換,獲得所述目標(biāo)語音信號的log域頻譜。

s2、基于所述目標(biāo)語音信號的log域頻譜,利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型(即上述公式(2))提取每一幀目標(biāo)語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型即上述公式(1)提取每一幀目標(biāo)語音信號的說話人因子。

與上述樣本語音信號類似,每一幀目標(biāo)語音信號也包含兩類因子:內(nèi)容因子和說話人因子。其中,內(nèi)容因子和說話內(nèi)容相關(guān),說話人因子和說話人特征相關(guān)。

s3、利用所述內(nèi)容譜重構(gòu)模型(即上述公式(4)),將每一幀目標(biāo)語音信號的內(nèi)容因子重構(gòu)成內(nèi)容譜,以及利用所述聲紋譜重構(gòu)模型(即上述公式(3)),將每一幀目標(biāo)語音信號的說話人因子重構(gòu)成聲紋譜。

105、將所述內(nèi)容譜和所述聲紋譜相加,獲得所述目標(biāo)語音信號重構(gòu)后的log域頻譜。

本實(shí)施例的語音信號重構(gòu)方法,通過獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;基于所述樣本語音信號的log域頻譜,利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型,提取每一幀樣本語音信號的說話人因子;基于所提取的內(nèi)容因子和說話人因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將說話人因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,以及將目標(biāo)語音信號輸入所述內(nèi)容譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的內(nèi)容譜;將所述內(nèi)容譜和所述聲紋譜相加,獲得所述目標(biāo)語音信號重構(gòu)后的log域頻譜,由此,能夠基于內(nèi)容和說話人實(shí)現(xiàn)對語音信號的分解重構(gòu),本發(fā)明實(shí)施例的分解方式與現(xiàn)有技術(shù)(源-濾波器分解)相比,與任務(wù)具有更強(qiáng)的相關(guān)性,重構(gòu)效率高,重構(gòu)后的語音信號與原語音信號比較相近。

本實(shí)施例的語音信號重構(gòu)方法在眾多應(yīng)用場景中有重要應(yīng)用價(jià)值,具有通用性,例如,可以利用本實(shí)施例所述方法中提取目標(biāo)語音信號中的內(nèi)容因子和說話人因子的部分來精簡語音編碼,適合低帶寬網(wǎng)絡(luò)傳輸。

圖2示出了本發(fā)明一實(shí)施例提供的一種語音信號重構(gòu)裝置的結(jié)構(gòu)示意圖,如圖2所示,本實(shí)施例的語音信號重構(gòu)裝置,包括:轉(zhuǎn)換模塊21、提取模塊22、第一訓(xùn)練模塊23、重構(gòu)模塊24和合成模塊25;其中:

轉(zhuǎn)換模塊21,用于獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;

提取模塊22,用于利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型,提取每一幀樣本語音信號的說話人因子;

第一訓(xùn)練模塊23,用于基于所提取的內(nèi)容因子和說話人因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將說話人因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;

重構(gòu)模塊24,用于將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,以及將目標(biāo)語音信號輸入所述內(nèi)容譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的內(nèi)容譜;

合成模塊25,用于將所述內(nèi)容譜和所述聲紋譜相加,獲得所述目標(biāo)語音信號重構(gòu)后的log域頻譜。

在具體應(yīng)用中,舉例來說,所述轉(zhuǎn)換模塊21可以將所述樣本語音信號x(t)進(jìn)行傅立葉變換,獲得所述樣本語音信號的log域頻譜log(x(t))。

在具體應(yīng)用中,所述說話人因子提取模型可用函數(shù)g來表示,所述提取模塊22可通過說話人因子提取模型,提取每一幀樣本語音信號的說話人因子fs(t),所述說話人因子提取模型為:

fs(t)=g(log(x(t)))(1)。

在具體應(yīng)用中,所述內(nèi)容因子提取模型可用函數(shù)f來表示,所述提取模塊22可通過內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子fc(t),所述內(nèi)容因子提取模型為:

fc(t)=f(log(x(t)))(2)。

在具體應(yīng)用中,本實(shí)施例所述裝置還可以包括圖中未示出的:

第二訓(xùn)練模塊,用于對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,以及對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化。

可以理解的是,所述說話人因子提取模型是基于深度神經(jīng)網(wǎng)絡(luò)和使說話人因子提取模型對說話人的區(qū)分能力最大化準(zhǔn)則來訓(xùn)練實(shí)現(xiàn)的,其中,使說話人因子提取模型對說話人的區(qū)分能力最大化準(zhǔn)則可以有多種,舉例來說,所述第二訓(xùn)練模塊可以基于fisher準(zhǔn)則,對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化;

或者,所述第二訓(xùn)練模塊也可以基于交叉熵,對說話人因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述說話人因子提取模型對說話人的區(qū)分能力最大化,即說話人因子提取模型g采用說話人作為區(qū)分學(xué)習(xí)對象,用模型預(yù)結(jié)果和實(shí)際說話人標(biāo)記的交叉熵作為訓(xùn)練的目標(biāo)函數(shù)。

可以理解的是,所述內(nèi)容因子提取模型是基于深度神經(jīng)網(wǎng)絡(luò)和使內(nèi)容因子提取模型對音素的區(qū)分能力最大化準(zhǔn)則來訓(xùn)練實(shí)現(xiàn)的,使內(nèi)容因子提取模型對音素的區(qū)分能力最大化準(zhǔn)則可以有多種,舉例來說,所述第二訓(xùn)練模塊可以基于fisher準(zhǔn)則,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化;

或者,所述第二訓(xùn)練模塊也可以基于交叉熵,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,即內(nèi)容因子提取模型f可采用音素作為區(qū)分學(xué)習(xí)的對象,用模型預(yù)結(jié)果和實(shí)際音素標(biāo)記的交叉熵作為訓(xùn)練的目標(biāo)函數(shù)。

可以理解的是,本實(shí)施例所述聲紋譜重構(gòu)模型可用函數(shù)g來表示,所述聲紋譜重構(gòu)模型是基于深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練實(shí)現(xiàn)的,所述聲紋譜重構(gòu)模型為:

s(t)=g(fs(t))=g(g(log(x(t))))(3)。

可以理解的是,所述內(nèi)容譜重構(gòu)模型可用函數(shù)f來表示,所述內(nèi)容譜重構(gòu)模型是基于深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練實(shí)現(xiàn)的,所述內(nèi)容譜重構(gòu)模型為:

c(t)=f(fc(t))=f(f(log(x(t))))(4)。

需要說明的是,所述第一訓(xùn)練模塊22訓(xùn)練時的目標(biāo)是使重構(gòu)后的log域頻譜與重構(gòu)前的原log域頻譜盡可能相近,在訓(xùn)練時可以通過對下述公式(5)進(jìn)行優(yōu)化,進(jìn)而得到優(yōu)化的f和g;

l(f,g)=∑td(c(t)+s(t),log(x(t)))(5)

式中:d為距離度量函數(shù),l為訓(xùn)練目標(biāo)函數(shù)。

在具體應(yīng)用中,d對距離的度量可以采用平方誤差。

在具體應(yīng)用中,所述重構(gòu)模塊24,可具體用于

獲取目標(biāo)語音信號,將所述目標(biāo)語音信號轉(zhuǎn)換成log域頻譜;

基于所述目標(biāo)語音信號的log域頻譜,利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型(即上述公式(2))提取每一幀目標(biāo)語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型即上述公式(1)提取每一幀目標(biāo)語音信號的說話人因子;

利用所述內(nèi)容譜重構(gòu)模型(即上述公式(4)),將每一幀目標(biāo)語音信號的內(nèi)容因子重構(gòu)成內(nèi)容譜,以及利用所述聲紋譜重構(gòu)模型(即上述公式(3)),將每一幀目標(biāo)語音信號的說話人因子重構(gòu)成聲紋譜。

在具體應(yīng)用中,舉例來說,所述重構(gòu)模塊24可以通過將所述目標(biāo)語音信號進(jìn)行傅立葉變換,獲得所述目標(biāo)語音信號的log域頻譜。

本實(shí)施例的語音信號重構(gòu)裝置,通過轉(zhuǎn)換模塊獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜,提取模塊利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型,提取每一幀樣本語音信號的說話人因子,第一訓(xùn)練模塊基于所提取的內(nèi)容因子和說話人因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將說話人因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;重構(gòu)模塊將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,以及將目標(biāo)語音信號輸入所述內(nèi)容譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的內(nèi)容譜;合成模塊將所述內(nèi)容譜和所述聲紋譜相加,獲得所述目標(biāo)語音信號重構(gòu)后的log域頻譜,由此,能夠基于內(nèi)容和說話人實(shí)現(xiàn)對語音信號的分解重構(gòu),本發(fā)明實(shí)施例的分解方式與現(xiàn)有技術(shù)(源-濾波器分解)相比,與任務(wù)具有更強(qiáng)的相關(guān)性,重構(gòu)效率高,重構(gòu)后的語音信號與原語音信號比較相近。

本實(shí)施例的語音信號重構(gòu)裝置在眾多應(yīng)用場景中有重要應(yīng)用價(jià)值,具有通用性,例如,可以利用本實(shí)施例所述裝置提取目標(biāo)語音信號中的內(nèi)容因子和說話人因子的部分來精簡語音編碼,適合低帶寬網(wǎng)絡(luò)傳輸。

本實(shí)施例的語音信號重構(gòu)裝置,可以用于執(zhí)行前述方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。

圖3示出了本發(fā)明實(shí)施例提供的一種電子設(shè)備的實(shí)體結(jié)構(gòu)示意圖,如圖3所示,該電子設(shè)備可以包括:處理器11、存儲器12、總線13及存儲在存儲器12上并可在處理器11上運(yùn)行的計(jì)算機(jī)程序;

其中,所述處理器11,存儲器12通過所述總線13完成相互間的通信;

所述處理器11執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)上述各方法實(shí)施例所提供的方法,例如包括:獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;基于所述樣本語音信號的log域頻譜,利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型,提取每一幀樣本語音信號的說話人因子;基于所提取的內(nèi)容因子和說話人因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將說話人因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,以及將目標(biāo)語音信號輸入所述內(nèi)容譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的內(nèi)容譜;將所述內(nèi)容譜和所述聲紋譜相加,獲得所述目標(biāo)語音信號重構(gòu)后的log域頻譜。

本發(fā)明實(shí)施例提供一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述各方法實(shí)施例所提供的方法,例如包括:獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;基于所述樣本語音信號的log域頻譜,利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子,以及利用預(yù)先訓(xùn)練的說話人因子提取模型,提取每一幀樣本語音信號的說話人因子;基于所提取的內(nèi)容因子和說話人因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將說話人因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,以及將目標(biāo)語音信號輸入所述內(nèi)容譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的內(nèi)容譜;將所述內(nèi)容譜和所述聲紋譜相加,獲得所述目標(biāo)語音信號重構(gòu)后的log域頻譜。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請可采用在一個或多個其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本申請是參照根據(jù)本申請實(shí)施例的方法、裝置、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置/系統(tǒng)。

這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。術(shù)語“上”、“下”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。

本發(fā)明的說明書中,說明了大量具體細(xì)節(jié)。然而能夠理解的是,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。類似地,應(yīng)當(dāng)理解,為了精簡本發(fā)明公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋呈反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。本發(fā)明并不局限于任何單一的方面,也不局限于任何單一的實(shí)施例,也不局限于這些方面和/或?qū)嵤├娜我饨M合和/或置換。而且,可以單獨(dú)使用本發(fā)明的每個方面和/或?qū)嵤├蛘吲c一個或更多其他方面和/或其實(shí)施例結(jié)合使用。

最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
南投市| 十堰市| 关岭| 广东省| 金阳县| 汝南县| 白河县| 南汇区| 凉山| 鄢陵县| 乌鲁木齐市| 微博| 洪洞县| 土默特右旗| 贡嘎县| 那曲县| 平利县| 左云县| 株洲县| 北票市| 永顺县| 礼泉县| 义乌市| 准格尔旗| 珠海市| 靖宇县| 长春市| 射阳县| 瓦房店市| 盱眙县| 堆龙德庆县| 灌云县| 高阳县| 云梦县| 白沙| 汉沽区| 旬阳县| 徐水县| 措美县| 济源市| 博客|