一種基于K-SVD的人工語(yǔ)音帶寬擴(kuò)展方法及裝置技術(shù)領(lǐng)域本發(fā)明涉及一種帶寬擴(kuò)展方法及裝置,特別是關(guān)于一種基于K-SVD(K-meansSingularValueDecomposition,K均值奇異值分解)的人工語(yǔ)音帶寬擴(kuò)展方法及裝置。
背景技術(shù):人類語(yǔ)音能量主要分布在0.05~8KHz的頻率范圍內(nèi)。在語(yǔ)音通信系統(tǒng)中,如公用電話交換網(wǎng)(PSTN,PublicSwitchedTelephoneNetwork)和全球移動(dòng)通信系統(tǒng)(GSM,GlobalSystemforMobilecommunication)等,囿于技術(shù)、成本和系統(tǒng)復(fù)雜度等諸多原因,傳輸?shù)恼Z(yǔ)音信號(hào)帶寬一般都在4KHz以下,此類語(yǔ)音稱為窄帶語(yǔ)音。窄帶語(yǔ)音通信在減少帶寬需求的同時(shí),雖然保證了一定的清晰度,但卻降低了語(yǔ)音自然度,這在某些特殊場(chǎng)合,如電話會(huì)議系統(tǒng),窄帶語(yǔ)音聽(tīng)起來(lái)令人感覺(jué)不自然,難以滿足要求。隨著語(yǔ)音編碼技術(shù)的不斷發(fā)展,國(guó)際電信聯(lián)盟(ITU,InternationalTelecommunicationUnion)等標(biāo)準(zhǔn)化組織相繼提出了多種寬帶語(yǔ)音編解碼標(biāo)準(zhǔn)。然而,這些寬帶語(yǔ)音編解碼標(biāo)準(zhǔn)對(duì)碼流格式和編碼速率等改變很大,沒(méi)有考慮對(duì)現(xiàn)有通信網(wǎng)絡(luò)和標(biāo)準(zhǔn)的兼容,因此無(wú)法獲得預(yù)期性能,而通信網(wǎng)絡(luò)的更新漫長(zhǎng)且復(fù)雜,短時(shí)間內(nèi)難以實(shí)現(xiàn)。因此,人們一直在考慮如何在當(dāng)前網(wǎng)絡(luò)和標(biāo)準(zhǔn)的條件下如何得到寬帶品質(zhì)的語(yǔ)音。目前,使用人工語(yǔ)音帶寬擴(kuò)展(ArtificialSpeechBandwidthExtension,ASBWE)技術(shù)獲得寬帶品質(zhì)的語(yǔ)音是一個(gè)較好的解決方案。所謂人工語(yǔ)音帶寬擴(kuò)展,就是憑借語(yǔ)音信號(hào)處理技術(shù),利用窄帶語(yǔ)音擴(kuò)展出丟失的高頻成分,進(jìn)而合成出寬帶語(yǔ)音?,F(xiàn)有的針對(duì)語(yǔ)音信號(hào)的頻帶擴(kuò)展目前包括半盲類帶寬擴(kuò)展方法和全盲類帶寬擴(kuò)展方法:1)半盲類帶寬擴(kuò)展方法易與已有標(biāo)準(zhǔn)兼容,但存在的問(wèn)題也較為明顯。如在申請(qǐng)于2011年12月16日、公開(kāi)于2012年7月4日、公開(kāi)號(hào)為102543086A的專利“一種基于音頻水印的語(yǔ)音帶寬擴(kuò)展的裝置和方法”中,針對(duì)寬帶語(yǔ)音信號(hào),在通過(guò)電話線傳輸之前,將高頻參數(shù)嵌入到窄帶碼流中,通過(guò)電話線傳輸窄帶語(yǔ)音信號(hào);在接收端進(jìn)行A律解碼,然后提取高頻參數(shù),使用此高頻參數(shù)恢復(fù)寬帶語(yǔ)音中的高頻部分,最后將高頻語(yǔ)音和低頻語(yǔ)音合成寬帶語(yǔ)音。該裝置和方法利用音頻水印的特性,在窄帶語(yǔ)音中建立一條隱藏的信道,利用此信道傳輸高頻語(yǔ)音的參數(shù),從而在不改變?cè)芯W(wǎng)絡(luò)協(xié)議的前提下,實(shí)現(xiàn)了語(yǔ)音信號(hào)的頻帶擴(kuò)展。但嵌入信息對(duì)低頻信號(hào)本身來(lái)說(shuō)是額外的噪聲干擾,會(huì)降低其音質(zhì);同時(shí),允許嵌入信息量的多少嚴(yán)重依賴于具體的主要頻帶信號(hào),這將影響信息嵌入的穩(wěn)定性,進(jìn)而影響語(yǔ)音通信的實(shí)時(shí)性。2)全盲類帶寬擴(kuò)展方法在傳送窄帶低頻信號(hào)時(shí),不傳送高頻帶的任何信息,完全由窄帶低頻信號(hào)恢復(fù)出高頻帶分量,然后合成出寬帶語(yǔ)音,因而被稱為全盲類方法。目前人工語(yǔ)音帶寬擴(kuò)展的研究主要集中在全盲類帶寬擴(kuò)展方法上。全盲類帶寬擴(kuò)展方法認(rèn)為語(yǔ)音信號(hào)符合某種模型,使用最多的是語(yǔ)音產(chǎn)生的“源—濾波器”模型。該模型將帶寬擴(kuò)展分為寬帶譜包絡(luò)估計(jì)和寬帶激勵(lì)信號(hào)估計(jì)兩部分,通過(guò)成熟的線性預(yù)測(cè)理論較好地模擬了語(yǔ)音信號(hào)的生成過(guò)程,取得了良好的帶寬擴(kuò)展效果。但同時(shí)也一直存在著某些缺陷懸而未解。如在申請(qǐng)于2010年9月14日、公開(kāi)于2012年7月25日、公開(kāi)號(hào)為102612712A的專利“一種帶寬擴(kuò)展方法及其裝置”中,該方法提取窄帶低頻信號(hào)的特征集合,而后使用廣義加性模型將提取的特征映射到至少一個(gè)高頻帶參數(shù)。而后,通過(guò)譜平移法將窄帶低頻信號(hào)的副本頻移到高頻帶。通過(guò)至少一個(gè)高頻帶參數(shù)來(lái)控制低頻帶音頻信號(hào)頻移后副本的包絡(luò),以此完成帶寬擴(kuò)展。在申請(qǐng)于2002年10月30日、公開(kāi)于2005年3月2日、公開(kāi)號(hào)為CN1589469A的專利中“一種音頻信號(hào)帶寬擴(kuò)展方案”中,該方案先對(duì)窄帶音頻信號(hào)的某一部分進(jìn)行頻譜折疊,再對(duì)頻譜折疊后的音頻信號(hào)某一部分進(jìn)行噪聲整形產(chǎn)生整形后的噪聲信號(hào),最后通過(guò)合成器將整形后的噪聲信號(hào)和頻譜折疊后的音頻信號(hào)合并為寬帶信號(hào)。綜上可知,由于基于語(yǔ)音產(chǎn)生的“源—濾波器”模型,因而先驗(yàn)知識(shí)使用過(guò)多,且算法復(fù)雜度較高;寬帶譜包絡(luò)估計(jì)過(guò)程中所花費(fèi)較長(zhǎng)的訓(xùn)練時(shí)間去訓(xùn)練碼本或統(tǒng)計(jì)模型,因此實(shí)時(shí)性較差等,從而難以推廣。
技術(shù)實(shí)現(xiàn)要素:根據(jù)上述提出的技術(shù)問(wèn)題,而提供一種相對(duì)于現(xiàn)有的基于“源—濾波器”模型的語(yǔ)音寬帶擴(kuò)展方法,能夠取得較高質(zhì)量的寬帶語(yǔ)音,大幅度減少訓(xùn)練時(shí)間和先驗(yàn)知識(shí)的使用,具有較高的實(shí)用價(jià)值的基于K-SVD的人工語(yǔ)音帶寬擴(kuò)展方法及裝置。本發(fā)明采用的技術(shù)手段如下:一種基于K-SVD的人工語(yǔ)音帶寬擴(kuò)展方法,其包括以下步驟:1)在帶寬擴(kuò)展的發(fā)送端,對(duì)源寬帶語(yǔ)音信號(hào)進(jìn)行訓(xùn)練,得到寬帶語(yǔ)音字典、窄帶語(yǔ)音字典和窄帶語(yǔ)音稀疏矩陣,其包括以下步驟:①對(duì)源寬帶語(yǔ)音信號(hào)進(jìn)行低通濾波處理,得到對(duì)應(yīng)的窄帶語(yǔ)音信號(hào);②提取生成的窄帶語(yǔ)音信號(hào)和源寬帶語(yǔ)音信號(hào)各自對(duì)應(yīng)的STRAIGHT光滑聲道譜;③采用K-SVD算法對(duì)所得的窄帶語(yǔ)音STRAIGHT光滑聲道譜進(jìn)行訓(xùn)練,得到窄帶語(yǔ)音字典和窄帶語(yǔ)音稀疏矩陣;④采用K-SVD算法對(duì)寬帶語(yǔ)音STRAIGHT光滑聲道譜進(jìn)行訓(xùn)練,得到寬帶語(yǔ)音字典,且訓(xùn)練過(guò)程中所用稀疏矩陣為窄帶語(yǔ)音稀疏矩陣,以確保寬帶語(yǔ)音字典與窄帶語(yǔ)音字典之間的稀疏相關(guān)性;2)在帶寬擴(kuò)展的接收端,采用寬帶語(yǔ)音字典和窄帶語(yǔ)音字典對(duì)源窄帶語(yǔ)音信號(hào)進(jìn)行帶寬擴(kuò)展,得到擴(kuò)展出的最終寬帶語(yǔ)音信號(hào),其包括以下步驟:①將源窄帶語(yǔ)音信號(hào)進(jìn)行插值和低通濾波處理,以提高源窄帶語(yǔ)音信號(hào)的采樣頻率,而有效寬帶不變,得到最終寬帶語(yǔ)音信號(hào)的低頻分量;②提取經(jīng)過(guò)處理的源窄帶語(yǔ)音信號(hào)的STRAIGHT光滑聲道譜;③采用K-SVD算法對(duì)所得的源窄帶語(yǔ)音STRAIGHT光滑聲道譜進(jìn)行訓(xùn)練,所用字典為窄帶語(yǔ)音字典,并采用OMP稀疏編碼算法得到待擴(kuò)展的源窄帶語(yǔ)音稀疏矩陣;④將待擴(kuò)展的源窄帶語(yǔ)音稀疏矩陣和寬帶語(yǔ)音字典相乘,得到擴(kuò)展后寬帶語(yǔ)音的STRAIGHT光滑聲道譜,且利用其反推得到擴(kuò)展后的初始寬帶語(yǔ)音信號(hào);⑤對(duì)擴(kuò)展后的初始寬帶語(yǔ)音信號(hào)進(jìn)行高通濾波處理,得到最終寬帶語(yǔ)音信號(hào)的高頻分量;⑥將寬帶語(yǔ)音信號(hào)的高頻分量與經(jīng)過(guò)低通濾波后的低頻分量相疊加,得到擴(kuò)展出的最終寬帶語(yǔ)音信號(hào)。所述步驟1)的步驟②中STRAIGHT光滑聲道譜的提取過(guò)程如下:a、將語(yǔ)音信號(hào)進(jìn)行小波分解,得到一系列經(jīng)過(guò)Gabor濾波器濾波的復(fù)信號(hào)D(t,τc):其中,t為語(yǔ)音信號(hào)上的時(shí)間平移變量,且0≤t≤T0,T0為語(yǔ)音信號(hào)時(shí)長(zhǎng);τc為gAG(t)的伸縮因子,表示濾波時(shí)對(duì)應(yīng)的濾波通道且0≤τc≤t0,t0一般取10ms;u代表積分變量,取值范圍為積分區(qū)間Ω0,即s(t)為0到t時(shí)間段的語(yǔ)音輸入信號(hào);gAG(t)為分析小波,由復(fù)合的Gabor濾波器得到,gAG(t)=g(t-1/4)-g(t+1/4),其中η為Gabor濾波器的頻率分辨率,根據(jù)Gabor濾波器特性取值,通常η>1;b、把復(fù)信號(hào)D(t,τc)按時(shí)間段分為多個(gè)重疊的區(qū)間段,即把t分為[0,t0],[0.5t0,1.5t0],...,[T0-t0,T0],t0一般取10ms;若用tk表示第k個(gè)區(qū)間段t的變化范圍,即[0.5t0(k-1),0.5t0(k+1)],對(duì)每個(gè)區(qū)間段上的D(t,τc)計(jì)算代價(jià)函數(shù)M(τc),則第k個(gè)區(qū)間段的代價(jià)函數(shù)Mk(τc):其中,上式中D表示的是第k個(gè)區(qū)間段的所有復(fù)信號(hào)D(t,τc),用Dk(t,τc)表示,表示AM成分幅值;lg[∫Ω|D|2dt]表示AM總能量;表示FM成分幅值;2lgτc表示FM基頻的平方;lgΩ(τc)表示時(shí)域積分區(qū)間的歸一化因子,且Ω=Ω(τc)是積分區(qū)間,也是τc的函數(shù),且其范圍為c、求代價(jià)函數(shù)M(τ0)在每個(gè)區(qū)間段取最大值時(shí)對(duì)應(yīng)的τc集合τc(t),若第k個(gè)區(qū)間段Mk(τc)取最大值時(shí)對(duì)應(yīng)的τc為則所有區(qū)間段的對(duì)應(yīng)的所有區(qū)間段基頻值f0(t)為f0(t)=ω0(t)/2π其中,瞬時(shí)頻率Δt=1/fs;fs為語(yǔ)音信號(hào)采樣頻率;d、利用求出的基頻值來(lái)提取語(yǔ)音信號(hào)的光滑聲道譜,其過(guò)程如下:首先,求取語(yǔ)音信號(hào)每個(gè)區(qū)間段的加窗后的傅里葉變換且第k個(gè)區(qū)間段上的傅里葉變換為F(ω,tk)其中,為窗函數(shù);ω為角頻率,ω=2πf,0≤f≤8Hz;然后,采用內(nèi)插函數(shù)去除傅里葉短時(shí)譜在時(shí)頻域的周期性,得到語(yǔ)音信號(hào)STRAIGHT光滑聲道譜S(ω,t):其中,為內(nèi)插函數(shù),是兩個(gè)三角窗函數(shù)的乘積,τ0(t)=2π/ω0(t),-ω0(t)≤λ≤ω0(t),-τ0(t)≤τ≤τ0(t);函數(shù)g(·)定義了插值時(shí)所保留的特性。所述步驟1)的步驟③中包括以下步驟:a、設(shè)窄帶語(yǔ)音STRAIGHT光滑聲道譜為Y,其前K列數(shù)據(jù)作為初始窄帶語(yǔ)音字典,且K=40;b、設(shè)初始窄帶語(yǔ)音字典為固定的字典D,利用固定的字典D和窄帶語(yǔ)音STRAIGHT光滑聲道譜Y,結(jié)合OMP稀疏編碼算法求解對(duì)應(yīng)的窄帶語(yǔ)音稀疏矩陣X;其中,為N個(gè)訓(xùn)練信號(hào)的集合;為Y的解向量集合;T0為稀疏度;應(yīng)用OMP稀疏編碼算法分別對(duì)第i列訓(xùn)練信號(hào)yi求解對(duì)應(yīng)的最優(yōu)解向量且i=1,2,…,N,最后求得窄帶語(yǔ)音稀疏矩陣就可以表示為OMP稀疏編碼算法的實(shí)現(xiàn)過(guò)程如下:c、根據(jù)所得的窄帶語(yǔ)音稀疏矩陣X,對(duì)固定的字典D進(jìn)行迭代更新;設(shè)dk為固定的字典D中待更新的第k列向量,固定的字典D中其他列固定,則其中,表示Frobenius范數(shù)的平方,共有K個(gè)列向量每個(gè)列向量均為一個(gè)原子,為與dk相對(duì)應(yīng)的窄帶語(yǔ)音稀疏矩陣X中的第k行,表示去除dk后的誤差矩陣;為了確保窄帶語(yǔ)音稀疏矩陣X的稀疏性,對(duì)Ek進(jìn)行去零補(bǔ)償處理,其過(guò)程如下:其中,集合Λk為的點(diǎn)的索引值,Ωk為N×|Λk|矩陣,它在(Λk(i),i)位置上的元素值為1,其余元素值均為0;去掉了Y、Ek中的零輸入,得到的即為補(bǔ)償后的結(jié)果;對(duì)新的進(jìn)行SVD分解,得將U的第一列作為dk的優(yōu)化結(jié)果,而Δ(1,1)乘以的第一列后作為的解;至此,固定的字典D中的一列更新完畢;將固定的字典D中各列按此方法逐個(gè)更新,以便得到了新的字典而后,判斷對(duì)固定的字典D進(jìn)行迭代更新是否終止,通過(guò)迭代次數(shù)限制判斷是否終止;若不終止,則返回步驟b;若終止,則輸出窄帶語(yǔ)音字典和窄帶語(yǔ)音稀疏矩陣X。一種基于K-SVD的人工語(yǔ)音帶寬擴(kuò)展方法的裝置,其特征在于:它包括訓(xùn)練單元和擴(kuò)展單元;其中,在寬帶擴(kuò)展的發(fā)送端,所述訓(xùn)練單元對(duì)源寬帶語(yǔ)音信號(hào)進(jìn)行訓(xùn)練,得到寬帶語(yǔ)音字典、窄帶語(yǔ)音字典和窄帶語(yǔ)音稀疏矩陣,并將寬帶語(yǔ)音字典和窄帶語(yǔ)音字典傳送給位于帶寬擴(kuò)展的接收端的擴(kuò)展單元;所述擴(kuò)展單元根據(jù)所得的寬帶語(yǔ)音字典和窄帶語(yǔ)音字典對(duì)源窄帶語(yǔ)音信號(hào)進(jìn)行帶寬擴(kuò)展,得到擴(kuò)展出的最終寬帶語(yǔ)音信號(hào)。所述訓(xùn)練單元包括低通濾波模塊、基于STRAIGHT模型的參數(shù)提取模塊、所述K-SVD訓(xùn)練模塊以及所述稀疏矩陣固定的所述K-SVD訓(xùn)練模塊;其中,所述低通濾波模塊的輸入端輸入源寬帶語(yǔ)音信號(hào),將得到的窄帶語(yǔ)音信號(hào)傳送給所述基于STRAIGHT模型的參數(shù)提取模塊的輸入端相連;所述基于STRAIGHT模型的參數(shù)提取模塊的輸入端一方面輸入源寬帶語(yǔ)音信號(hào),另一方面與所述低通濾波模塊的輸出端相連,其輸出端分別與所述K-SVD訓(xùn)練模塊和所述稀疏矩陣固定的所述K-SVD訓(xùn)練模塊的輸入端相連;所述K-SVD訓(xùn)練模塊的輸入端與所述基于STRAIGHT模型的參數(shù)提取模塊的輸出端相連,其輸出端輸出窄帶語(yǔ)音字典和窄帶語(yǔ)音稀疏矩陣;所述稀疏矩陣固定的所述K-SVD訓(xùn)練模塊的輸入端一方面輸入窄帶語(yǔ)音稀疏矩陣,另一方面與所述基于STRAIGHT模型的參數(shù)提取模塊的輸出端相連,其輸出端輸出寬帶語(yǔ)音字典。所述擴(kuò)展單元包括2倍升采樣模塊、基于STRAIGHT模型的參數(shù)提取模塊、字典固定的K-SVD訓(xùn)練模塊、合成模塊、高通濾波模塊以及疊加模塊;其中,所述2倍升采樣模塊的輸入端輸入源窄帶語(yǔ)音信號(hào),其輸出端分別與所述基于STRAIGHT模型的參數(shù)提取模塊和所述疊加模塊的輸入端相連;所述基于STRAIGHT模型的參數(shù)提取模塊的輸入端與所述2倍升采樣模塊的輸出端相連,其輸出端與所述字典固定的所述K-SVD訓(xùn)練模塊的輸入端相連;所述字典固定的所述K-SVD訓(xùn)練模塊的輸入端一方面與所述基于STRAIGHT模型的參數(shù)提取模塊的輸出端相連,另一方面輸入訓(xùn)練單元中得到的窄帶語(yǔ)音字典,其輸出端與所述合成模塊的輸入端相連;所述合成模塊的輸入端一方面與所述字典固定的所述K-SVD訓(xùn)練模塊的輸出端相連,另一方面輸入訓(xùn)練單元中得到的寬帶語(yǔ)音字典,其輸出端與所述高通濾波模塊的輸入端相連;所述高通濾波模塊的輸入端與所述合成模塊的輸出端相連,其輸出端與所述疊加模塊的輸入端相連;所述疊加模塊的輸入端一方面與所述高通濾波模塊的輸出端相連,另一方面與所述2倍升采樣模塊的輸出端相連,其輸出端輸出最終寬帶語(yǔ)音信號(hào)。所述基于STRAIGHT模型的參數(shù)提取模塊包括小波分解機(jī)構(gòu)、基本性指數(shù)計(jì)算機(jī)構(gòu)、基頻提取機(jī)構(gòu)以及光滑聲道譜提取機(jī)構(gòu);其中,所述小波分解機(jī)構(gòu)的輸入端輸入寬帶語(yǔ)音信號(hào),其輸出端與所述基本性指數(shù)計(jì)算機(jī)構(gòu)的輸入端相連;所述基本性指數(shù)計(jì)算機(jī)構(gòu)的輸入端與所述小波分解機(jī)構(gòu)的輸出端相連,其輸出端與所述基頻提取機(jī)構(gòu)的輸入端相連;所述基頻提取機(jī)構(gòu)的輸入端與所述基本性指數(shù)計(jì)算機(jī)構(gòu)的輸出端相連,其輸出端與所述光滑聲道譜提取機(jī)構(gòu)的輸入端相連;所述光滑聲道譜提取機(jī)構(gòu)的輸入端與所述基頻提取機(jī)構(gòu)的輸出端相連,其輸出端輸出STRAIGHT光滑聲道譜。本發(fā)明具有以下優(yōu)點(diǎn):1、本發(fā)明由于采用將語(yǔ)音STRAIGHT光滑聲道譜分解成了字典和稀疏矩陣的信息分離思想,并采用K-SVD算法分別對(duì)窄帶語(yǔ)音光滑聲道譜和寬帶語(yǔ)音光滑聲道譜進(jìn)行訓(xùn)練,從而窄帶保證了語(yǔ)音字典與寬帶語(yǔ)音字典之間的稀疏相關(guān)性,從而提高了擴(kuò)展出的寬帶語(yǔ)音質(zhì)量。另外,K-SVD算法使用帶有稀疏約束的OMP稀疏編碼算法,去零補(bǔ)償和奇異值分解算法,來(lái)更新字典與稀疏系數(shù),僅需迭代很少的次數(shù)就可以得到最優(yōu)的字典及對(duì)應(yīng)的稀疏系數(shù),因而可以大幅度減少訓(xùn)練時(shí)間和先驗(yàn)知識(shí)的使用,因此具有較高的實(shí)用價(jià)值。2、本發(fā)明根據(jù)語(yǔ)音自身的特性,并采用稀疏表示,與矢量量化等高壓縮率算法相比分解誤差更小,因此提高了分解結(jié)果的準(zhǔn)確性。3、本發(fā)明由于采用OMP稀疏編碼算法完成字典固定的K-SVD訓(xùn)練,因此有效提高源窄帶語(yǔ)音稀疏矩陣結(jié)果的準(zhǔn)確性。4、本發(fā)明采用K-SVD算法分解STRAIGHT光滑聲道譜,而非時(shí)域語(yǔ)音信號(hào),而STRAIGHT模型對(duì)語(yǔ)音信號(hào)的短時(shí)譜進(jìn)行時(shí)域和頻域的自適應(yīng)平滑內(nèi)插,并以此來(lái)提取譜包絡(luò),可以較大幅度地調(diào)整語(yǔ)音的基頻和譜參數(shù)而不影響語(yǔ)音合成質(zhì)量,具有參數(shù)提取精確,靈活度高等特點(diǎn)。因此基于上述理由本發(fā)明可在語(yǔ)音通信等領(lǐng)域廣泛推廣。附圖說(shuō)明圖1是本發(fā)明裝置的結(jié)構(gòu)示意圖圖2是本發(fā)明裝置中的訓(xùn)練單元示意圖圖3是基于STRAIGHT模型的參數(shù)提取模塊示意圖圖4是本發(fā)明裝置的擴(kuò)展單元示意圖圖5是本發(fā)明的實(shí)施例中采用的FIR低通濾波器的幅頻響應(yīng)示意圖圖6是本發(fā)明的實(shí)施例中采用的K-SVD算法流程示意圖圖7是本發(fā)明的實(shí)施例中采用的FIR高通濾波器的幅頻響應(yīng)示意圖具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。如圖1所示,本發(fā)明裝置包括訓(xùn)練單元1和擴(kuò)展單元2。在寬帶擴(kuò)展的發(fā)送端,訓(xùn)練單元1對(duì)源寬帶語(yǔ)音信號(hào)進(jìn)行訓(xùn)練,得到寬帶語(yǔ)音字典、窄帶語(yǔ)音字典和窄帶語(yǔ)音稀疏矩陣,并將寬帶語(yǔ)音字典和窄帶語(yǔ)音字典傳送給位于帶寬擴(kuò)展的接收端的擴(kuò)展單元2。擴(kuò)展單元2根據(jù)所得的寬帶語(yǔ)音字典和窄帶語(yǔ)音字典對(duì)源窄帶語(yǔ)音信號(hào)進(jìn)行帶寬擴(kuò)展,得到擴(kuò)展出的最終寬帶語(yǔ)音信號(hào)。如圖2所示,訓(xùn)練單元1包括低通濾波模塊11、基于STRAIGHT(SpeechTransformationandRepresentationUsingAdaptiveInterpolationofWeightedSpectrum,基于自適應(yīng)加權(quán)譜內(nèi)插的語(yǔ)音轉(zhuǎn)換和重構(gòu))模型的參數(shù)提取模塊12、K-SVD訓(xùn)練模塊13以及稀疏矩陣固定的K-SVD訓(xùn)練模塊14。其中,低通濾波模塊11的輸入端輸入源寬帶語(yǔ)音信號(hào),將得到的窄帶語(yǔ)音信號(hào)傳送給基于STRAIGHT模型的參數(shù)提取模塊12的輸入端相連。基于STRAIGHT模型的參數(shù)提取模塊12的輸入端一方面輸入源寬帶語(yǔ)音信號(hào),另一方面與低通濾波模塊11的輸出端相連,其輸出端分別與K-SVD訓(xùn)練模塊13和稀疏矩陣固定的K-SVD訓(xùn)練模塊14的輸入端相連。K-SVD訓(xùn)練模塊13的輸入端與基于STRAIGHT模型的參數(shù)提取模塊12的輸出端相連,其輸出端輸出窄帶語(yǔ)音字典和窄帶語(yǔ)音稀疏矩陣。稀疏矩陣固定的K-SVD訓(xùn)練模塊14的輸入端一方面輸入窄帶語(yǔ)音稀疏矩陣,另一方面與基于STRAIGHT模型的參數(shù)提取模塊12的輸出端相連,其輸出端輸出寬帶語(yǔ)音字典。如圖3所示,基于STRAIGHT模型的參數(shù)提取模塊12包括小波分解機(jī)構(gòu)121、基本性指數(shù)計(jì)算機(jī)構(gòu)122、基頻提取機(jī)構(gòu)123以及光滑聲道譜提取機(jī)構(gòu)124。小波分解機(jī)構(gòu)121的輸入端輸入寬帶語(yǔ)音信號(hào),其輸出端與基本性指數(shù)計(jì)算機(jī)構(gòu)122的輸入端相連?;拘灾笖?shù)計(jì)算機(jī)構(gòu)122的輸入端與小波分解機(jī)構(gòu)121的輸出端相連,其輸出端與基頻提取機(jī)構(gòu)123的輸入端相連?;l提取機(jī)構(gòu)123的輸入端與基本性指數(shù)計(jì)算機(jī)構(gòu)122的輸出端相連,其輸出端與光滑聲道譜提取機(jī)構(gòu)124的輸入端相連。光滑聲道譜提取機(jī)構(gòu)124的輸入端與基頻提取機(jī)構(gòu)123的輸出端相連,其輸出端輸出STRAIGHT光滑聲道譜。如圖4所示,擴(kuò)展單元2包括2倍升采樣模塊21、基于STRAIGHT模型的參數(shù)提取模塊22、字典固定的K-SVD訓(xùn)練模塊23、合成模塊24、高通濾波模塊25以及疊加模塊26。其中,2倍升采樣模塊21的輸入端輸入源窄帶語(yǔ)音信號(hào),其輸出端分別與基于STRAIGHT模型的參數(shù)提取模塊22和疊加模塊26的輸入端相連?;赟TRAIGHT模型的參數(shù)提取模塊22的輸入端與2倍升采樣模塊21的輸出端相連,其輸出端與字典固定的K-SVD訓(xùn)練模塊23的輸入端相連。字典固定的K-SVD訓(xùn)練模塊23的輸入端一方面與基于STRAIGHT模型的參數(shù)提取模塊22的輸出端相連,另一方面輸入訓(xùn)練單元1中得到的窄帶語(yǔ)音字典,其輸出端與合成模塊24的輸入端相連。合成模塊24的輸入端一方面與字典固定的K-SVD訓(xùn)練模塊23的輸出端相連,另一方面輸入訓(xùn)練單元1中得到的寬帶語(yǔ)音字典,其輸出端與高通濾波模塊25的輸入端相連。高通濾波模塊25的輸入端與合成模塊24的輸出端相連,其輸出端與疊加模塊26的輸入端相連。疊加模塊26的輸入端一方面與高通濾波模塊25的輸出端相連,另一方面與2倍升采樣模塊21的輸出端相連,其輸出端輸出最終寬帶語(yǔ)音信號(hào)。需要說(shuō)明的是,圖2中基于STRAIGHT模型的參數(shù)提取模塊12和圖4中基于STRAIGHT模型的參數(shù)提取模塊22實(shí)現(xiàn)的功能是相同的,故不在詳述。基于STRAIGHT模型的參數(shù)提取模塊12的輸入端是窄帶語(yǔ)音信號(hào),而基于STRAIGHT模型的參數(shù)提取模塊22的輸入端是寬帶語(yǔ)音信號(hào),故圖3中統(tǒng)一寫(xiě)成語(yǔ)音信號(hào)。本發(fā)明方法包括以下步驟:需要說(shuō)明的是,人類語(yǔ)音頻率集中在0-7K范圍內(nèi),因此語(yǔ)音帶寬擴(kuò)展領(lǐng)域普遍采用采樣頻率為16KHz,有效帶寬為8KHz的語(yǔ)音信號(hào)模擬人類語(yǔ)音頻率,因此本發(fā)明主要針對(duì)這一區(qū)域的語(yǔ)音信號(hào)進(jìn)行帶寬擴(kuò)展。1)在帶寬擴(kuò)展的發(fā)送端,基于STRAIGHT模型和K-SVD算法,對(duì)采樣頻率為16KHz,有效帶寬為8KHz的源寬帶語(yǔ)音信號(hào)進(jìn)行訓(xùn)練,得到寬帶語(yǔ)音字典、窄帶語(yǔ)音字典和窄帶語(yǔ)音稀疏矩陣,其包括以下步驟:①對(duì)源寬帶語(yǔ)音信號(hào)進(jìn)行低通濾波處理,得到對(duì)應(yīng)的窄帶語(yǔ)音信號(hào)。由于所使用的低通濾波器進(jìn)行濾波后,窄帶語(yǔ)音會(huì)延遲濾波器階數(shù)地一半,從而源寬帶語(yǔ)音信號(hào)得到了延遲,進(jìn)而補(bǔ)償濾波器時(shí)延。上述實(shí)施例中,對(duì)源寬帶語(yǔ)音信號(hào)進(jìn)行低通濾波處理的低通濾波器優(yōu)選為對(duì)稱FIR(FiniteImpulseResponse,有限長(zhǎng)脈沖響應(yīng))低通濾波器,其通帶截止頻率為4KHz,阻帶截止頻率為4.3KHz,通帶波紋1dB,阻帶衰減50dB,幅頻響應(yīng)如圖5所示。②提取生成的窄帶語(yǔ)音信號(hào)和源寬帶語(yǔ)音信號(hào)各自對(duì)應(yīng)的窄帶語(yǔ)音STRAIGHT光滑聲道譜和寬帶語(yǔ)音STRAIGHT光滑聲道譜。由于生成的窄帶語(yǔ)音與寬帶語(yǔ)音STRAIGHT光滑聲道譜提取步驟一樣,因此僅以語(yǔ)音信號(hào)代表生成的窄帶語(yǔ)音和寬帶語(yǔ)音,即下述步驟中將語(yǔ)音信號(hào)換成生成的窄帶語(yǔ)音,則相應(yīng)生成窄帶語(yǔ)音STRAIGHT光滑聲道譜;將語(yǔ)音信號(hào)換成生成的寬帶語(yǔ)音,則相應(yīng)生成寬帶語(yǔ)音STRAIGHT光滑聲道譜,其提取過(guò)程如下:a、將語(yǔ)音信號(hào)進(jìn)行小波分解,得到一系列經(jīng)過(guò)Gabor濾波器濾波的復(fù)信號(hào)D(t,τc),即其中,t為窄帶語(yǔ)音信號(hào)上的時(shí)間平移變量,且0≤t≤T0,T0為窄帶語(yǔ)音信號(hào)時(shí)長(zhǎng),本實(shí)施例中取值為5-7s;τc為gAG(t)的伸縮因子,表示濾波時(shí)對(duì)應(yīng)的濾波通道且0≤τc≤t0,t0一般取10ms;u代表積分變量,取值范圍為積分區(qū)間Ω0,即(t)為0到t時(shí)間段的語(yǔ)音輸入信號(hào);gAG(t)為分析小波,由復(fù)合的Gabor濾波器得到,gAG(t)=g(t-1/4)-g(t+1/4),其中η為Gabor濾波器的頻率分辨率,根據(jù)Gabor濾波器特性取值,通常η>1即可。b、把復(fù)信號(hào)D(t,τc)按時(shí)間段分為多個(gè)重疊的區(qū)間段,即把t分為[0,t0],[0.5t0,1.5t0],...,[T0-t0,T0],t0一般取10ms,若用tk表示第k個(gè)區(qū)間段t的變化范圍,即[0.5t0(k-1),0.5t0(k+1)],對(duì)每個(gè)區(qū)間段上的D(t,τc)計(jì)算代價(jià)函數(shù)M(τc),則第k個(gè)區(qū)間段的代價(jià)函數(shù)Mk(τc):其中,上式中D表示的是第k個(gè)區(qū)間段的所有復(fù)信號(hào)D(t,τc),用Dk(t,τc)表示,表示AM(AmplitudeModulation,調(diào)幅)成分幅值;lg[∫Ω|D|2dt]表示AM總能量;表示FM(FrequencyModulation,調(diào)頻)成分幅值;2lgτc表示FM基頻的平方;lgΩ(τc)表示時(shí)域積分區(qū)間的歸一化因子,且Ω=Ω(τc)是積分區(qū)間,也是τc的函數(shù),且其范圍為c、求代價(jià)函數(shù)M(τ0)在每個(gè)區(qū)間段取最大值時(shí)對(duì)應(yīng)的τc集合τc(t),若第k個(gè)區(qū)間段Mk(τc)取最大值時(shí)對(duì)應(yīng)的τc為則所有區(qū)間段的對(duì)應(yīng)的所有區(qū)間段基頻值f0(t):f0(t)=ω0(t)/2π(3)其中,瞬時(shí)頻率Δt=2/fs;fs為語(yǔ)音信號(hào)采樣頻率,在實(shí)施例為8kHz(對(duì)于源寬帶語(yǔ)音信號(hào),應(yīng)為16kHz)。d、利用求出的基頻值來(lái)提取語(yǔ)音信號(hào)的光滑聲道譜,其過(guò)程如下:首先,求取語(yǔ)音信號(hào)每個(gè)區(qū)間段的加窗后的傅里葉變換且第k個(gè)區(qū)間段上的傅里葉變換為F(ω,tk)其中,為窗函數(shù);ω為角頻率,ω=2πf,0≤f≤8Hz。然后,采用內(nèi)插函數(shù)去除傅里葉短時(shí)譜在時(shí)頻域的周期性,得到語(yǔ)音信號(hào)的光滑聲道譜其中,為內(nèi)插函數(shù),是兩個(gè)三角窗函數(shù)的乘積,τ0(t)=2π/ω0(t),-ω0(t)≤λ≤ω0(t),-τ0(t)≤τ≤τ0(t)。函數(shù)g(·)定義了插值時(shí)所保留的特性。本實(shí)驗(yàn)例中取g(x)=x保留信號(hào)能量。③如圖6所示,采用K-SVD算法對(duì)所得的窄帶語(yǔ)音STRAIGHT光滑聲道譜進(jìn)行訓(xùn)練,得到窄帶語(yǔ)音字典和窄帶語(yǔ)音稀疏矩陣,其包括以下步驟:a、設(shè)窄帶語(yǔ)音STRAIGHT光滑聲道譜為Y,其前K列數(shù)據(jù)作為初始窄帶語(yǔ)音字典,且K=40;b、設(shè)初始窄帶語(yǔ)音字典為固定的字典D,利用固定的字典D和窄帶語(yǔ)音STRAIGHT光滑聲道譜Y,結(jié)合OMP(OrthogonalMatchingPursuit,正交匹配追蹤)稀疏編碼算法求解對(duì)應(yīng)的窄帶語(yǔ)音稀疏矩陣X。其中,為N個(gè)訓(xùn)練信號(hào)的集合。為Y的解向量集合。T0為稀疏度,即稀疏表示系數(shù)中非零分量個(gè)數(shù)的上限值,本實(shí)施例中,T0=15。OMP稀疏編碼算法的實(shí)現(xiàn)過(guò)程如下:分別對(duì)第i列訓(xùn)練信號(hào)yi求解對(duì)應(yīng)的最優(yōu)解向量具體過(guò)程如表1所示,最后求得窄帶語(yǔ)音系數(shù)矩陣就可以表示為表1OMP稀疏編碼算法實(shí)現(xiàn)過(guò)程(第i列訓(xùn)練信號(hào))c、根據(jù)所得的窄帶語(yǔ)音稀疏矩陣X,對(duì)固定的字典D進(jìn)行迭代更新。設(shè)dk為固定的字典D中待更新的第k列向量,固定的字典D中其他列固定,則其中,表示Frobenius范數(shù)的平方,共有K個(gè)列向量每個(gè)列向量均為一個(gè)原子,為與dk相對(duì)應(yīng)的窄帶語(yǔ)音稀疏矩陣X中的第k行,表示去除dk后的誤差矩陣。為了確保窄帶語(yǔ)音稀疏矩陣X的稀疏性,對(duì)Ek進(jìn)行去零補(bǔ)償處理,其過(guò)程如下:其中,集合Λk為的點(diǎn)的索引值,Ωk為N×|Λk|矩陣,它在(Λk(i),i)位置上的元素值為1,其余元素值均為0。去掉了Y、Ek中的零輸入,得到的即為補(bǔ)償后的結(jié)果。對(duì)新的進(jìn)行SVD(SingularValueDecomposition,奇異值分解)分解,得將U的第一列作為dk的優(yōu)化結(jié)果,而Δ(1,1)乘以的第一列后作為的解。至此,固定的字典D中的一列更新完畢。將固定的字典D中各列按此方法逐個(gè)更新,以便得到了新的字典而后,判斷對(duì)固定的字典D進(jìn)行迭代更新是否終止,通過(guò)迭代次數(shù)限制判斷是否終止,本實(shí)施例中,對(duì)固定的字典D進(jìn)行迭代更新的限定迭代次數(shù)為20次。若不終止,則返回步驟1)中步驟③的步驟b;若終止,則輸出窄帶語(yǔ)音字典和窄帶語(yǔ)音稀疏矩陣X。④采用K-SVD算法結(jié)合窄帶語(yǔ)音稀疏矩陣對(duì)寬帶語(yǔ)音STRAIGHT光滑聲道譜進(jìn)行訓(xùn)練,得到寬帶語(yǔ)音字典DW,以確保寬帶語(yǔ)音字典與窄帶語(yǔ)音字典之間的稀疏相關(guān)性。設(shè)寬帶語(yǔ)音STRAIGHT光滑聲道譜YW,并結(jié)合窄帶語(yǔ)音稀疏矩陣X通過(guò)矩陣除法求得初始寬帶字典而后,采用步驟1)中步驟③的步驟c對(duì)初始寬帶字典的更新,且由于不需進(jìn)行OMP稀疏編碼,因此只需進(jìn)行一次字典更新即可。需要說(shuō)明的是,按照步驟1)中步驟③的步驟c對(duì)初始寬帶字典的更新,當(dāng)?shù)玫秸`差矩陣后,不再對(duì)進(jìn)行SVD分解,而是將窄帶語(yǔ)音稀疏矩陣中的第k行賦值給通過(guò)矩陣除法求得dk的優(yōu)化結(jié)果至此,初始寬帶字典中的一列更新完畢。將初始寬帶字典中各列按此方法逐個(gè)更新,便得到寬帶語(yǔ)音字典DW,并輸出。2)在帶寬擴(kuò)展的接收端,采用語(yǔ)音字典寬帶和窄帶語(yǔ)音字典,對(duì)采樣頻率為8KHz,帶寬為4KHz的源窄帶語(yǔ)音信號(hào)進(jìn)行帶寬擴(kuò)展。需要說(shuō)明的是,采樣頻率為8KHz,帶寬為4KHz的語(yǔ)音信號(hào)為模擬人的語(yǔ)音范圍。①將源窄帶語(yǔ)音信號(hào)進(jìn)行2倍升采樣,以便將源窄帶語(yǔ)音信號(hào)的采樣頻率提高到16KHz,但有效帶寬依然為4KHz,其2倍升采樣包括以下步驟:a、將源窄帶語(yǔ)音信號(hào)每?jī)蓚€(gè)采樣點(diǎn)之間插入一個(gè)零值,以便將源窄帶語(yǔ)音信號(hào)的采樣頻率提高到16KHz,但與此同時(shí)頻譜的高頻部分會(huì)產(chǎn)生低頻的鏡像。b、使用一個(gè)低通濾波器濾除高頻部分,得到最終寬帶語(yǔ)音信號(hào)的低頻分量,以便使得有效帶寬不變,且所選用的低通濾波器的選取為步驟1)的步驟①中選用的低通濾波器的參數(shù)選擇相同,其通帶截止頻率為4KHz,阻帶截止頻率為4.3KHz,通帶波紋1dB,阻帶衰減50dB,幅頻響應(yīng)如圖5所示。②提取經(jīng)過(guò)2倍升采樣處理的源窄帶語(yǔ)音信號(hào)的STRAIGHT光滑聲道譜;③對(duì)所得的源窄帶語(yǔ)音STRAIGHT光滑聲道譜進(jìn)行字典固定的K-SVD訓(xùn)練,且所用字典為步驟1)的步驟③中得到的窄帶語(yǔ)音字典,并采用OMP稀疏編碼算法得到待擴(kuò)展的源窄帶語(yǔ)音稀疏矩陣HEXT;④將待擴(kuò)展的源窄帶語(yǔ)音稀疏矩陣HEXT、寬帶語(yǔ)音字典DW,將HEXT和DW帶入公式(6)后得到擴(kuò)展后寬帶語(yǔ)音的STRAIGHT光滑聲道譜SEXT:SEXT=DW·HEXT(11)再將擴(kuò)展后寬帶語(yǔ)音的STRAIGHT光滑聲道譜SEXT經(jīng)過(guò)步驟2)中步驟②的短時(shí)傅里葉的反變換處理得到擴(kuò)展后的初始寬帶語(yǔ)音信號(hào);⑤對(duì)擴(kuò)展后的初始寬帶語(yǔ)音信號(hào)進(jìn)行高通濾波處理,得到寬帶信號(hào)的高頻分量。上述進(jìn)行高通濾波處理的高通濾波器優(yōu)選為一個(gè)FIR高通濾波器,其通帶截止頻率為4KHz,阻帶截止頻率為3.7KHz,通帶波紋1dB,阻帶衰減50dB,幅頻響應(yīng)如圖7所示;⑥將高通濾波后的高頻分量與經(jīng)過(guò)低通濾波后的低頻分量,即步驟2)的步驟①的步驟中所得的低頻分量相疊加,得到擴(kuò)展出的最終寬帶語(yǔ)音信號(hào)。本發(fā)明方法通過(guò)計(jì)算機(jī)仿真實(shí)驗(yàn)驗(yàn)證其有效性。實(shí)驗(yàn)使用個(gè)人筆記本電腦,在MatlabR2009a平臺(tái)上進(jìn)行仿真及測(cè)試。實(shí)驗(yàn)語(yǔ)料采用錄制的10個(gè)不同人的無(wú)噪語(yǔ)音,其中5男5女,均有窄帶與寬帶兩種版本,他們的音調(diào)或高或低,有著不同的話音風(fēng)格特征。實(shí)驗(yàn)中對(duì)源寬帶和窄帶語(yǔ)音進(jìn)行截取,截取后各段長(zhǎng)度均在5秒~7秒之間,內(nèi)容均為“新型廣播系統(tǒng)功能完善,能實(shí)現(xiàn)智能化,區(qū)域化?!?,朗讀速度適中。各寬帶語(yǔ)音數(shù)據(jù)采樣頻率均為16KHz,窄帶語(yǔ)音數(shù)據(jù)為8KHz,量化精度為16bit。分別使用一種客觀和主觀評(píng)測(cè)標(biāo)準(zhǔn)對(duì)所提出的方法和基于“源—濾波器”模型的帶寬擴(kuò)展方法結(jié)果作比較,他們分別是對(duì)數(shù)譜失真測(cè)度(LSD)和平均意見(jiàn)評(píng)分(MOS)。在基于“源—濾波器”模型的方法中,分別使用碼本映射技術(shù)和譜折疊技術(shù)來(lái)估計(jì)寬帶譜包絡(luò)和寬帶激勵(lì)信號(hào)。源寬帶語(yǔ)音、源窄帶語(yǔ)音、本發(fā)明方法擴(kuò)展出的寬帶語(yǔ)音以及基于“源—濾波器”模型的方法擴(kuò)展出的寬帶語(yǔ)音,其語(yǔ)音質(zhì)量評(píng)估如表2所示。表2語(yǔ)音質(zhì)量評(píng)估由表2可得到如下結(jié)論:(1)本發(fā)明方法完成了語(yǔ)音的帶寬擴(kuò)展,得到了與基于“源—濾波器”模型的方法質(zhì)量相近的寬帶語(yǔ)音。(2)本發(fā)明方法完全脫離了傳統(tǒng)方法的框架,不再使用任何語(yǔ)音模型,因而大幅度減少了先驗(yàn)知識(shí)的實(shí)用。(3)從實(shí)際帶寬擴(kuò)展效果來(lái)看,提出的方法中K-SVD的迭代次數(shù)達(dá)到20次左右,僅需花費(fèi)數(shù)十分鐘就可以取得較高質(zhì)量的寬帶語(yǔ)音。與傳統(tǒng)方法中碼本映射和統(tǒng)計(jì)映射動(dòng)輒若干小時(shí)的訓(xùn)練時(shí)間相比,訓(xùn)練時(shí)間得以大幅度減少,實(shí)時(shí)性增強(qiáng)。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。