欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

識別濁音/清音的方法和裝置及其語音編碼方法

文檔序號:2820293閱讀:567來源:國知局
專利名稱:識別濁音/清音的方法和裝置及其語音編碼方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種濁音/清音的判定方法和裝置,用于判斷輸入的語言信號是清音還是濁音,以及一種應(yīng)用此濁音/清音識別方法進行語音編碼的方法。
目前已知有各種利用在時域和頻域中聲頻信號的統(tǒng)計特性以及人耳的機理特征壓縮聲頻信號的編碼方法,其中聲頻信號包括語音信號和聲信號。這些編碼方法可粗略地分為在時域內(nèi)編碼、在頻域編碼和分解/合成編碼。
為了對語言信號編碼,要判斷輸入的語言信號是濁音還是清音,濁音(Voiced sound)就是伴隨著聲帶振帶的聲音,而清音(Unvoiced sound)就是沒有伴隨聲帶振動的聲音。
一般地,濁音(V)和清音(UV)的判斷(V/UV判斷)通過根據(jù)由例如做為其周期性/非周期性特征的自相關(guān)函數(shù)的峰值所做的濁音/清音(V/UV)判斷,伴隨音高提取的方法進行。但是,因為在輸入聲音無周期性但為濁音的情況下不能給出有效的判斷,所以也采用例如語言信號的能量或零交疊的數(shù)目做為其它參數(shù)。
同時,因為濁音/清音(U/UV)識別傳統(tǒng)上是由對每個參數(shù)的判定結(jié)果進行邏輯運算的判定規(guī)則給出,所以對輸入?yún)?shù)整體上給出綜合的判定是困難的。例如,在下述規(guī)則下“如果幀平均能量大于預(yù)定的閥值并且其余項的自相關(guān)峰值大于預(yù)定的閥值,則此聲音即為濁音”,即使幀的平均能量顯著地超過閥值而其余項的自相關(guān)峰值比閥值小哪怕是一個很小的量,也不能判定此聲音為濁音。
另外,特殊的輸入語言需要適合于它的規(guī)則,從而為了適應(yīng)所有可能種類的輸入語言,需要引用相應(yīng)大量的規(guī)則,從而導(dǎo)致復(fù)雜。
另一方面,利用頻譜相似性進行的V/UV判斷,即基于頻帶的V/UV判斷結(jié)果,在用于例如多頻帶激勵編碼(MBE)時,其先決條件是正確的音調(diào)探測。但實際上正確地進行高精度的音調(diào)探測是非常困難的。
因此,本發(fā)明目的在于提供一種識別濁音/清音(U/UV)的方法和裝置,通過一種簡易算法綜合判別用于濁音/清音(V/UV)判定的各個輸入?yún)?shù),以實現(xiàn)高精度的V/UV判斷。
根據(jù)本發(fā)明,提供了一種判別輸入的語言信號是濁音或清音的方法,它包括,通過一種S形函數(shù)g(x)轉(zhuǎn)化用于輸入的語言信號的濁音/清音判別的參數(shù)x,g(x)函數(shù)表示為g(x)=A/(1+exp(-(x-b)/a))其中,A,a和b為常數(shù),然后利用通過此函數(shù)轉(zhuǎn)化的參數(shù)進行濁音/清音判斷。
通過此方式,可以綜合地判別用于濁音/清音(U/UV)判斷的輸入?yún)?shù),從而通過一種簡化的算法可實現(xiàn)高精度判斷。
參數(shù)x可由對S函數(shù)g(x)以多條線段近似而獲得的函數(shù)g′(x)轉(zhuǎn)化,利用轉(zhuǎn)化的參數(shù)做出濁音/清音判斷。在這種方法中,參數(shù)轉(zhuǎn)換可通過一個簡單的運算操作實現(xiàn),無需使用函數(shù)表或類似的手段,因此降低了裝置的成本并提高了運算速度。
輸入的語言信號幀平均能量、歸一化的自相關(guān)峰值,頻譜相似程度,零交疊的數(shù)量和音調(diào)周期至少有一個可做為濁音/清音判斷的參數(shù)。


圖1是采用根據(jù)本發(fā)明的語言編碼方法的語言信號編碼裝置的基本結(jié)構(gòu)方框圖。
圖2是采用根據(jù)本發(fā)明的語言編碼方法的語言信號編碼裝置基本結(jié)構(gòu)的另一方框圖。
圖3是與圖2所示語言信號編碼裝置相對應(yīng)的語言信號譯碼裝置的基本結(jié)構(gòu)方框圖。
圖4是采用根據(jù)本發(fā)明的語言編碼方法的語言信號編碼器更詳細的基本結(jié)構(gòu)方框圖。
圖5是表示關(guān)于輸入的語言信號幀平均能量Lev與濁音語言聲相似度的函數(shù)pLev(lev)的一個例曲線。
圖6是表示關(guān)于歸一化自相關(guān)峰值ror,與濁音語言的相似度的函數(shù)pRor(ror)的一個例曲線。
圖7是表示頻譜相似性pos與濁音語言的相似度的函數(shù)pPos(pos)的一個例曲線。
圖8是表示關(guān)于零交疊數(shù)nZero與濁音語言的相似度的函數(shù)pNzero(nzero)的一個例曲線。
圖9是表示關(guān)于音調(diào)延遲Pch與濁音語言的相似度的函數(shù)pPch(pch)的一例曲線。
圖10是表示關(guān)于歸一化自相關(guān)峰值ror與濁音語言的相似度的函數(shù)pRor′的一個例曲線。
以下將參考附圖,對本發(fā)明的優(yōu)選實施例做詳細地解釋。
圖1表示根據(jù)本發(fā)明識別濁音/清音(V/UV)方法的一個實施例。
參見圖1,圖中有輸入端11至15,分別輸入語言信號的幀平均能量水平,歸一化自相關(guān)峰值ror,頻譜相似度、零交疊數(shù)nZero和音調(diào)延遲Pch等用以進行濁音/清音(V/UV)判斷的輸入?yún)?shù)。幀平均能量Lev可通過從端子10向幀平均有效值(rms)計算電路21提供輸入語言信號而獲得。該幀平均能量Lev是每幀的平均有效值或等價值。其它的輸入?yún)?shù)將在后面加以解釋。
用作V/UV判斷的輸入?yún)?shù)可作如下推廣,如果n個輸入?yún)?shù)表示成x1,x2,…xn,其中n是自然數(shù),這些輸入?yún)?shù)xk與濁音(V)的相似度由函數(shù)gk(xk)表示,其中k=1,2,…n,則表示濁音語言的最終外形的函數(shù)可如下計算f(x1,x2,…,xn)=F(g(1)x(1),g(2)(x2),…g(n)(xn))以上的函數(shù)gk(xk)可以是自由函數(shù),其取值范圍從ck至dk,其中,k=1,2,…n,ck和dk為常數(shù),ck<dk。
以上的函數(shù)gk(xk),其中k=1,2,…n,還可以是連續(xù)函數(shù),具有不同的斜率,其取值范圍以ck至dk。
以上的函數(shù)gk(xk)其中k=1,2,…n,也可以是多條具有不同斜率的線段構(gòu)成的函數(shù),其取值范圍從ck至dk。
以上的函數(shù)gk(kx)也可以是如下S形函數(shù),
gk(xk)=Ak/(1+exp(-(xk-bk)/ak))其中,K=1,2,…n,Ak,ak和bk是不同于輸入?yún)?shù)xk的常數(shù);或者也可以是這些函數(shù)的乘法組合。
以上的S形函數(shù)gk(xk)或其乘法組合也可以用具有不同斜率的多條線段進行近似。
此輸入?yún)?shù)可以為上述的輸入語言信號的幀平均能量lev、歸一化的自相關(guān)峰值ror、相似度pos,零交疊數(shù)nZero及音調(diào)延遲pch。
如果代表這些輸入?yún)?shù)lev、ror、pos、nZerc和pch與最終濁音(V)相似度的函數(shù)分別表示為pLev(lev),pRor(ror),pPos(pos),pNZero(nZero)和pPch(pch),則代表濁音(V)最終外形的函數(shù)可通過下式計算f(lev,ror,pos,nZero和pch)=((αpRor(ror)+βpLev(lev))/(α+β))xpPpos(pos)×pNZero(nZero)×pPch(pch)其中,α和β是pRor和pLev的適當(dāng)權(quán)重常數(shù)。
參見圖1,輸入語言信號的幀平均能量lev、歸一化自相關(guān)峰值ror,相似程度pos,零交疊數(shù)nZero和音調(diào)延遲pch,作為輸入?yún)?shù),分別由輸入端11、12、13、14和15送至計算單元23,根據(jù)輸入語言信號的幀平均能量lev,通過函數(shù)計算電路31,對表示與濁音語言(V)相似度的函數(shù)進行計算。基于歸一化自相關(guān)峰值ror的代表濁音(V)的函數(shù)pRor(ror)由函數(shù)計算電路32計算。基于頻譜相似度pos的代表濁音(V)外表的函數(shù)pRor(ror)pPos(pos)由函數(shù)計算電路33計算?;诹憬化B數(shù)nZero的代表音(V)外形的函數(shù)pNZero(nZero)由函數(shù)計算電路34計算,同時,基于音調(diào)延遲pch的代表濁音(V)外形的函數(shù)pPch(pch)由函數(shù)計算電路35計算。由這些函數(shù)計算電路33至35進行的所示計算最好采用上述的S形函數(shù),以下將對函數(shù)計算電路進行解釋。
從函數(shù)計算電路31輸出的函數(shù)pLev(lev)值被常數(shù)β、α相乘,其結(jié)果在加法器24中相加。加法器的輸出和αpRor(ror)+βPlev(lev)送入乘法器25中。從這些函數(shù)計算電路33至35輸出的相應(yīng)函數(shù)pPos(pos),pNZero(nZero)和pPch(pch)被送往乘法器25進行乘法運算,以得出由上述方程表示的代表濁音(V)的最終外形之函數(shù)f(lev,ror,pos,nZero,pch)。這些函數(shù)被送往V/UV(濁音/清音)判定電路26,與預(yù)定閥值進行比較以做出V/UV判斷,在輸出端27輸出判斷結(jié)果。
圖2是實現(xiàn)采用上述識別濁音/清音的方法的本發(fā)明語音編碼方法的語言信號編碼裝置的基本結(jié)構(gòu)圖。
圖2所示的語言信號編碼裝置基本原理為,此編碼器包括一第一編碼單元110和一第二編碼單元120,第一編碼單元110找出短期前置余項的余項,如輸入語言信號的LPC(線性預(yù)編碼)余項,以進行正弦分解編碼,如諧波編碼,而第二編碼單元120通過波形傳遞的波形編碼對輸入的語言信號進行編碼。第一編碼單元110,用于對輸入語言信號的濁音部分(V)進行編碼,而第二編碼單元120用于對輸入語言信號的清音(UV)部分編碼。為進行本裝置的濁音/清音(V/UV)判斷,采用了根據(jù)本發(fā)明的上述V/UV判斷方法和裝置。
對于編碼單元110,采用了執(zhí)行對LPC余項的正弦分解編碼如r多頻帶編碼(MBE)的諧波編碼的結(jié)構(gòu)。對于第二編碼單元120,采用了通過利用分解合成方法,閉環(huán)搜索最佳矢量進行矢量量化的激勵碼線性預(yù)置(CELP)編碼的結(jié)構(gòu)。
在圖2例中,送至輸入端101的語言信號被送往第一編碼單元110的LPC轉(zhuǎn)換濾波器111和LPC分解量化單元113。LPC分解量化單元113產(chǎn)生的LPC系數(shù)或所謂的α參數(shù)被送往LPC轉(zhuǎn)換濾波器111,由它獲得輸入語言信號的線性預(yù)置誤差(LPC余項)。由LPC分解量化單元113獲取線性頻譜對(LSPs)的量化輸出,后面將加以解釋,并將其送至輸出端102。LPC余項的LPC余項被送入正弦分解編碼單元114。正弦分解編碼單元114進行音調(diào)探測或頻譜包絡(luò)的振幅計算,并通過濁音/清音(V/UV)判斷單元115做出V/UV判定。此V/UV的判斷單元115,采用了圖1中所示的上述V/UV判斷裝置。
由正弦分解編碼單元114產(chǎn)生的頻譜包絡(luò)幅值數(shù)據(jù)送至矢量量化單元116。從矢量量化單元116得出的碼表指數(shù),做為頻譜包絡(luò)的矢量量化輸出,通過開關(guān)117送往輸出端103,而正弦分解編碼單元114的輸出通過開關(guān)118送往輸出端105。由V/UV判斷單元115產(chǎn)生的V/UV判定輸出被送往輸出端105,同時也做為開關(guān)117,118的控制信號。對于濁音(V)語言,上述指數(shù)和音調(diào)被選取后由輸出端103、104輸出。
在本實施例中,圖2的第二編碼單元120有一個激勵碼線性預(yù)置(CELP)編碼結(jié)構(gòu),其工作原理為,通過一加權(quán)合成濾波器122對噪音碼本121的輸出進行合成,把得到的加權(quán)語言信號送入減法器123,獲取由送至輸入端101的語言信號通過感應(yīng)加權(quán)濾波器125產(chǎn)生的語言誤差,將此誤差送入距離計算電路124,進行距離計算并通過噪音碼本121搜尋最小誤差的矢量。也就是說其時域波形通過合成分解,利用閉環(huán)搜索得以進行矢量量化。如上所述,該CELP編碼用于清音部分編碼。碼表指數(shù)做為從噪音碼表中得出的V/UV數(shù)據(jù)由輸出端107經(jīng)過開關(guān)127輸出,開關(guān)127當(dāng)V/UV判斷單元115的V/UV判斷輸出是UV(清音)時接通。
圖3是做為圖2中裝置對應(yīng)裝置的語言信號譯碼器的基本結(jié)構(gòu)框圖。
參見圖3,碼表指數(shù),做為以圖2中輸出端102的線性頻譜對(LSPS)的量化輸出被往輸入端202。輸入端203,204和205分別輸入圖2中103、104和105輸出端的輸出,即作為包絡(luò)的量化輸出的上述指數(shù),音調(diào)和V/UV判定輸出。做為清音(UV)語言之?dāng)?shù)據(jù)的指數(shù)從圖2的輸出端107提供給輸入端207。
從輸入端203做為量化的包絡(luò)輸出的指數(shù)提供給反轉(zhuǎn)矢量量化器212。以進行反轉(zhuǎn)的矢量量化。取得LPC余項的頻譜包絡(luò)并送往濁音語言合成單元211。濁音語言合成單元211通過正弦合成而合成LPC(線性預(yù)置編碼)余項,同時還被送入分別從輸入端204,205輸出的音調(diào)和V/UV判定輸出。來自濁音語言合成單元211的濁音語言LPC余項被送LPC合成濾波器214。來自輸入端207的UV數(shù)據(jù)指數(shù)被送入清音語言合成單元220,此處必須參考噪音碼表以獲取清音語言部分的LPC余項。這些LPC余項也被送往LPC合成濾波器214。LPC合成濾波器214對濁音語言部分之余項和濁音語言部分的LPC余項彼此獨立地進行LPC合成。此LPC合成也可對濁音語言部分之LPC余項和清音語言部分的LPC余項合在一起進行。來自輸入端202的LSPS指數(shù)被送入LPC參數(shù)再生單元213,在此LPC的α參數(shù)被提取并送往LPC合成濾波器214。通過LPC合成濾波器214進行LPC合成得到的語言信號在輸出端201輸出。
參見圖4,對圖2中所示的語言信號編碼裝置之更詳細結(jié)構(gòu)加以解釋。在圖4中,相應(yīng)圖2中的那些部分或組件用同樣的標(biāo)號標(biāo)示。
在圖4所示的語言信號編碼裝置中,提供給輸入端101的語言信號由高通濾波器(HPF)109濾除,除去不需要的頻帶信號,再提供給LPC線性預(yù)置編碼)分解量化單元113的LPC分解電路132和LPC轉(zhuǎn)換濾波電路111。
LPC分解量化單元113的LPC分解電路132給16次采樣長度做為一組的輸入信號波形設(shè)置一個加重平均窗口,以通過自相關(guān)方法找到線性預(yù)置系數(shù)或所謂的α參數(shù)。做為數(shù)據(jù)輸出單位的幀間隔為進行160次取樣的時間量級。例如,如果取樣頻率fs是8KHz,則在160次取樣后幀間隔是20ms。
來自LPC分解量化器132的α參數(shù)被送往α-LSP轉(zhuǎn)換電路133,轉(zhuǎn)換成線性頻譜對(LSP)參數(shù)。由直接型濾波器系數(shù)得出的α-參數(shù)被轉(zhuǎn)化成,例如為10,即5對LSP參數(shù)。這種轉(zhuǎn)換可由例如牛頓-海普遜(Newton-Rhapson)方法完成。因為在插值特性上LSP參數(shù)優(yōu)于α-參數(shù),所以最好轉(zhuǎn)換成LSP參數(shù)。
來自α-LSP轉(zhuǎn)換電路133的LSP參數(shù)通過LSP量化器134進行矩陣量化或矢量量化。在矢量量化之前首先找出幀與幀的差別,或者在矩陣量化之前將多個幀組合在一起。在本實施例中,20ms做為一幀,并且通過矩陣量化或矢量量化將每隔20ms計算一次的LSP參數(shù)之兩幀進行量化。
LSP量化器134的量化輸出,即LSP量化指數(shù),在102端輸出。量化的LSP矢量被送入LSP的插值電路136。
LSP插值電路136對每20ms或40ms量化一次的LSP矢量進行插值以提供八倍速率。也即,對此LSP矢量每2.5ms量化一次。其原因在于如果以諧波編碼/譯碼的方法分解/合成余波,則合成的波形顯出非常平滑的包絡(luò),以至于,如果LPC系數(shù)精確地以每20ms一次變化,則易于產(chǎn)生附加的聲音。通過每隔2.5ms逐步改變LPC系數(shù),可避免產(chǎn)生此種附加聲音。
為了利用經(jīng)插值的基于2.5ms的LSP矢量對輸入的語言信號進行轉(zhuǎn)換濾波,LSP參數(shù)通過LSP-α轉(zhuǎn)換電路137轉(zhuǎn)換成α參數(shù),而α參數(shù)是例如10級的直接型濾波的系數(shù),LSP-α轉(zhuǎn)換回路137的輸出被送往LPC轉(zhuǎn)換濾波電路111,在其中利用每2.5ms更新的α-參數(shù)進行轉(zhuǎn)換濾波,以產(chǎn)生平滑的輸出。LPC轉(zhuǎn)換濾波回路111的輸出被送往正弦分解編碼114,尤其是送往諧波編碼電路114的正交轉(zhuǎn)換電路145,如離散的付里葉變換電路。
來自LPC分解量化單元113的LPC分解電路132的α參數(shù)被送往感應(yīng)加權(quán)濾波計算電路139,在那兒獲得感應(yīng)加權(quán)的數(shù)據(jù)。這些權(quán)重數(shù)據(jù)被送往感應(yīng)加權(quán)矢量量化器116(后面將加以解釋)和第二編碼單元120的感應(yīng)權(quán)重濾波器125以及感應(yīng)加權(quán)合成濾波器122。
諧波編碼電路的正弦分解編碼單元114通過諧波編碼法分解LPC轉(zhuǎn)換濾波電路111的輸出。也即,正弦分解編碼單元114檢測音調(diào),計算每個諧波Am的幅值并識別濁音(V)/清音(UV),以通過量綱變換提供隨音調(diào)改變之包絡(luò)或諧波幅值的常數(shù)值。
在圖4所示的正弦分解編碼單元114特例中,預(yù)先假定了一般的諧波編碼。特別地,在多波段激勵編碼(MBE)的情形中,模化建立在相同時刻(相同的組或幀)的每個頻帶中,即從一個頻帶到另一頻帶,存在濁音部分和清音部分的假設(shè)基礎(chǔ)上,在其它的諧波編碼中,交替地判斷同一組或幀中的語言是否為濁音還是清音。在以下的描述中,將以幀計的V/UV信號施加于MBE編碼裝置上,如果所有頻帶是UV,則判定給定幀為UV。
來自輸入端101的輸入語言信號提供給正弦分解編碼單元114的開環(huán)音調(diào)搜索單元141。來自高通濾波器(HPF)109的信號提供給零交疊計數(shù)器142。來自LPC轉(zhuǎn)換濾波器111的LPC余項或線性預(yù)置余項提供給正弦分解編碼單元114的正交變換電路145。開環(huán)音調(diào)搜索單元141接收輸入信號的LPC余項和開環(huán)的大致音調(diào)。提取的大致音高數(shù)據(jù)送往高精度搜索單元146,利用閉環(huán)(精確音調(diào)搜索)進行高精度的音調(diào)搜索。由開環(huán)音調(diào)搜索單元141通過對LPC余項的最大自相關(guān)值進行歸一化而獲得的歸一化的最大自相關(guān)值r(p)與大致音調(diào)數(shù)據(jù)一起輸出,并送往V/UV(濁音/清音)判定單元115。
正交變換電路145執(zhí)行正交變換,如離散付里葉變換,以把時域的LPC余項變換成頻域的頻譜幅值數(shù)據(jù)。正交變換電路145的輸出被送往高精度音調(diào)搜索單元146和頻譜計算單元148,以計算譜線的幅值或包絡(luò)。
由開環(huán)音調(diào)搜索單元141提取的大致音調(diào)數(shù)據(jù)和由正交變換單元145進行離散傅里葉變換得到的頻域數(shù)據(jù)被送往高精度(精細的)音調(diào)搜索單元146。精細音調(diào)搜索單元146以上述大致音調(diào)數(shù)據(jù)為中心通過在某一時刻加減0.2至0.5個取樣調(diào)整音調(diào)數(shù)據(jù),以獲得具有最佳十進制點(浮點)的精細音調(diào)數(shù)據(jù)。此精細音調(diào)搜索技術(shù)采用所得的合成分解方法選擇音調(diào),使得合成的能量譜將最接近原始聲音的能量譜。從高精度音調(diào)搜索單元146通過閉環(huán)獲得的音調(diào)數(shù)據(jù)經(jīng)開關(guān)118送到輸出端104。
頻譜計算單元148根據(jù)譜線的幅值以及做為LPC余項的正交變換輸出的音調(diào),計算每個諧波的幅值和做為幅度總和的頻譜包絡(luò),并將計算結(jié)果送往高精度音調(diào)搜索單元146,V/UV(濁音/清音)判斷單元115以及感應(yīng)加權(quán)矢量量化單元116。
V/UV(濁音/清音)判斷單元115根據(jù)正交變換電路145的輸出,來自高精度音調(diào)搜索單元146的最佳音調(diào),來自頻譜計算單元148的頻譜幅值數(shù)據(jù),來自開環(huán)音調(diào)搜索單元141的歸一化最大自相關(guān)值r(p)和來自零交疊計數(shù)器142的零交疊計數(shù)值,對給定幀作出V/UV判斷。
在MBE情形下,頻帶之間V/UV判斷結(jié)果的邊界位置也可做為對此幀進行V/UV判斷的條件。V/UV判斷單元115的判定結(jié)果從輸出端105輸出。
在頻譜計算單元148的輸出部分或矢量量化單元116的輸入部分設(shè)置一個屬于采樣速率轉(zhuǎn)換單元的數(shù)據(jù)轉(zhuǎn)換單元。數(shù)據(jù)數(shù)轉(zhuǎn)換單元的作用是根據(jù)在頻率軸上的頻帶劃分數(shù)目乃至數(shù)據(jù)數(shù)目隨音調(diào)的變化提供包絡(luò)的幅值數(shù)據(jù)|Am|的常數(shù)數(shù)目。也即是如果有效帶寬達3400KHz,則依據(jù)音調(diào)將有效頻帶分成8至63個波段,使得從波段到波段獲得的幅值數(shù)據(jù)|Am|的數(shù)目mMx+1在8至63的范圍內(nèi)變化。因此,數(shù)據(jù)數(shù)轉(zhuǎn)換單元119將幅值的可變數(shù)目mMx+1變成一常數(shù)M,例如44。
由設(shè)置在頻譜計算單元148的輸出部分或矢量量化單元116的輸入部分的數(shù)據(jù)數(shù)轉(zhuǎn)換單元獲得的幅值數(shù)據(jù)或包絡(luò)數(shù)據(jù)的常數(shù)數(shù)目M,如44,由矢量量化器116會集成組,每組含有預(yù)定數(shù)目的數(shù)據(jù),如44個數(shù)據(jù),以形成矢量,然后對其進行加權(quán)矢量量化。權(quán)數(shù)由感應(yīng)加權(quán)濾波計算電路139的輸出提供。來自于矢量量化器116的上述包絡(luò)指數(shù)經(jīng)過開關(guān)117在輸出端103輸出。在上述的加權(quán)矢量量化之前,具有一適當(dāng)?shù)男孤┫禂?shù)的幀與幀之間的差別可由預(yù)定數(shù)量的數(shù)據(jù)構(gòu)成的矢量得出。
現(xiàn)在介紹第二編碼單元120。第二編碼單元120具有所謂的激勵碼線性預(yù)置(CELP)的編碼結(jié)構(gòu),并特別用于輸入語言信號的清音部分的編碼。在用于清音語言部分的cELP編碼結(jié)構(gòu)中,等于清音語言LPC余項的噪音輸出,即所謂隨機譯碼本121的代表值輸出,通過增益控制電路126送往感應(yīng)加權(quán)的合成濾波器122。然后,感應(yīng)加權(quán)合成濾波器122對輸入噪音進行LPC合成,產(chǎn)生一加權(quán)的清音語言信號送入減法器123。減法器123中被送入從輸入端101經(jīng)HPF109提供的并且由感應(yīng)加權(quán)濾波器125進行感應(yīng)加權(quán)的語言信號,從而將來自合成濾波器122的信號和來自濾波器125的信號之間的差別或誤差輸出,并送入距離計算電路124,進行距離計算。由噪音譯碼本121搜索最小化誤差的矢量代表值。在這種方式中,通過合成分解,閉環(huán)搜索的方法對時域波形進行矢量量化。
做為來自采用CELP編碼結(jié)構(gòu)的第二編碼單元120的清音(UV)部分的數(shù)據(jù),來自噪音編碼本121的編碼本的外形指數(shù)和來自增益電路126的編碼本的增益指數(shù)被輸出。做為來自噪音編碼本121UV數(shù)據(jù)的外形指數(shù)通過開關(guān)127s被送往輸出端107s,而做為來自增益回路126的UV數(shù)據(jù)的增益指數(shù)通過開關(guān)127g被送往輸出端107g。
開關(guān)127s,127g和開關(guān)117,118由V/UV判斷單元115的V/UV判斷結(jié)果進行開/關(guān)控制。如果當(dāng)前傳遞的幀的語言信號V/UV判斷結(jié)果是濁音(V),則開關(guān)117,118開通,而如果當(dāng)前傳遞的幀的語言信號V/UV判斷結(jié)果是清音(UV),則開關(guān)127s,127g開通。
現(xiàn)在介紹圖4中語言信號編碼裝置的V/UV(濁音/清音)判斷單元115的一個示例。
V/UV判斷單元115以圖1中所示的V/UV判斷裝置作為基本結(jié)構(gòu),并根據(jù)輸入語言信號的幀平均能量lev,歸一化自相關(guān)峰值ror,頻譜相似度pos、零交疊數(shù)nZero和音調(diào)延遲pch對幀進行V/UV判定。
也就是說,輸入語言信號的幀平均能量,即幀平均rms或等價值lev根據(jù)正交變換電路145的輸出獲得并被提供給圖1的輸入端11。來自開環(huán)音調(diào)搜索單元141的歸一化自相關(guān)峰值ror被送往圖1的輸入端12。來自零交疊計數(shù)器142的零交疊數(shù)nZero提供給圖1的輸入端14。代表決定于采樣數(shù)目的音調(diào)周期的音調(diào)延遲pch被提供給圖1的輸入端15做為來自精細音調(diào)搜索單元146的最適當(dāng)音調(diào)。類似MBE的,基于頻帶的V/UV判斷結(jié)果的邊界位置也是對幀做V/UV判斷的條件,并做為頻譜相似度pos提供給圖1的輸入端13。
下面解釋作為V/UV判斷參數(shù)的頻譜相似度pos,它利用了對MBE進行基于頻帶的V/UV判斷的結(jié)果。
表明MBE的m階諧波大小的參數(shù)或幅值|Am|由下式給出|Am|=Σj=ambm|s(j)||E(j)|/Σj=ambm|E(j)|2]]>在以上的方程中,|S(j)|是對LPC余項進行離散傅里葉變換(DFT)所得的譜項,|E(j)|是基頻信號的譜項,尤其是對256點加重平均窗進行離散傅里葉變換所得的譜項。為做出基于頻帶的V/UV判斷,利用于噪信比(NSR)。第m階頻帶的NSR表示為NSR=Σj=ambm{|s(j)|-|Am||E(j)|}2Σj=ambm|s(j)|2]]>如果NSR值大于預(yù)定的閥值,如0.3,也就是如果誤差較大,可以判定|Am||E(j)|對|S(j)|的近似性不好,也即是說上述激勵信號|E(j)|不適于作為基頻。這種情況下,此頻帶被判定為清音(UV)。否則,可斷定已作出相當(dāng)滿意的近似并因而判定此頻帶為濁音(V)。
同時,依據(jù)聲音的音調(diào),被音調(diào)基頻劃分的頻帶數(shù)目(諧波數(shù))在大約8至63的范圍內(nèi)變化,V/UV標(biāo)志的數(shù)量也因而從頻帶到頻帶作類似變化。從而對于由固定頻帶劃分譜項所得的預(yù)定數(shù)量的頻帶之每一個,把V/UV判定的結(jié)果分組或分解。特別地,包括語言范圍的預(yù)定頻率譜項被分成例如12個頻帶,并對其每個做出V/UV判斷。至于基于頻帶的V/UV判斷數(shù)據(jù),在所有頻帶中濁音(V)語言區(qū)和清音(UV)語言區(qū)之間的至多一個分界位置或邊界位置做為頻譜相似度pos。在這種情況下,頻譜相似度的值可取為1≤pos≤12。
提供給圖1中輸入端11至15的輸入?yún)?shù)被送往函數(shù)計算電路31至35,用于計算代表與發(fā)音(V)語言的相似度的函數(shù)值。以下介紹此種函數(shù)的特例。
首先,在圖1所示的函數(shù)計算電路31中,根據(jù)輸入語言信號的幀平均能量lev值計算函數(shù)pLev(lev)的值。函數(shù)pLev(lev)可采用例如如下形式,pLev(lev)=1.0/(1.0+exp(-(lev-400.0)/(100.0))圖5表示此函數(shù)pLev(lev)的曲線。
接下來,在圖1所示的函數(shù)計算電路32中,根據(jù)歸一化自相關(guān)峰值ror信號(0≤ror≤1.0)計算函數(shù)pRor(ror)的值。函數(shù)pRor(ror)例如采用pRor(ror)=1.0/(1.0+exp(-(ror-0.3)/0.06))圖6表示該數(shù)pRor(ror)的曲線。
在圖1所示的函數(shù)計算電路33中,根據(jù)頻譜的相似度pos值(0≤pos≤1.0)計算函數(shù)pPos(pos)的值。函數(shù)pPos(pos)例如采用pPos(pos)=1.0/(1.0+exp(-(pos-1.5)/0.8))圖7表示該函數(shù)pPos(pos)的曲線。
在圖1所示的函數(shù)計算電路34中,根據(jù)零交疊數(shù)nZero(1≤nZero≤160)的值計算函數(shù)pNZero(nZero)的值。函數(shù)PNZero(nZero)例如采用pNZero(nZero)=1.0/(1.0+exp((nZero-70.0)/12.0))圖8表示該函數(shù)pNZero(nZero)的曲線。
在圖1所示的函數(shù)計算電路35中,根據(jù)音調(diào)延遲pch的數(shù)值(20≤pch≤147)計算函數(shù)pPch(pch)的值。函數(shù)pPch(pch)例如采用pPch(pch)=1.0/(1.0+exp(-(pch-12.0)/2.5))×1.0/(1.0+exp((pch-105.0)/6.0))圖9表示該函數(shù)pPch(pch)的曲線。
利用關(guān)于由這些函數(shù)pLev(lev)、pRor(ror)、pNZero(nZero)、和pPch(pch)計算的參數(shù)lev、ror、pos、nZero、pch的與濁音(V)聲音的相似度,計算V的最終外形。在這種情形中,最好考慮以下兩點。
首先,如果自相關(guān)峰值較小而幀平均能量非常大,則語言應(yīng)被判定為濁音(V)。因此,為了使參數(shù)表現(xiàn)出很強的互補關(guān)系,需采用一加權(quán)和。第二,各自獨立代表V外形的參數(shù)彼此相乘。
因此,具有彼此補償關(guān)系的自相關(guān)峰值和幀平均能量以一定的權(quán)重相加,而那些不顯示此補償關(guān)系的量彼此相乘。代表V最終外形的函數(shù)f(lev,ror,pos,nZero,pch)由下式計算f(lev,ror,pos,nZero,pch)=((1.2pRor(ror)+0.81Lev(lev))/2.0)×pPos(pos)×PNzero(nZero)×pPch(pch)在此,權(quán)數(shù)(α=1.2,β=0.8)由經(jīng)驗得出。
在給出濁音/清音(V/UV)的最后判定時,如果函數(shù)f不小于0.5和小于0.5,則語言分別被判定為V和UV。
本發(fā)明不局限于以上描述的實施例。例如,取代上述獲得與歸一化自相關(guān)峰值ror有關(guān)的V外形的函數(shù)pRor(ror),也可采用下述函數(shù)pRor′(ror)=0.6x,0≤x<7/34pRor′(ror)=4.0(x-0.175),7/34≤x<67/170pRor′(ror)=0.6x+0.64,67/170≤x<0.6pRor′(ror)=1,0.6≤x≤1.0作為以上函數(shù)pRor(ror)的近似函數(shù)pRor′(ror)。近似函數(shù)pRor′(ror)的曲線由圖10中的實線表示,圖中的虛線表示近似直線和原始函數(shù)pRor(ror)。
雖然語言分解方面的結(jié)構(gòu)表示成硬件,但它可由一種稱做數(shù)字信號處理器(DSP)的軟件程序來完成。做為采用了本發(fā)明V/UV判定方法的語言編碼方法,LPC余項信號可分解成V和UV,以便對其施用不同的編碼技術(shù)。也就是說,對V部分,可采用由諧波編碼對余項進行編碼的語言壓縮編碼或正弦分解編碼,而對UV部分,可采用多種不同的編碼技術(shù),如CELP編碼或應(yīng)用通過噪音著色的噪音合成進行編碼。另外,對LPC余項編碼可用于V部分,而實現(xiàn)不同量綱加權(quán)矢量量化的語言壓縮編碼系統(tǒng)可應(yīng)用于頻譜包絡(luò)。再者,本發(fā)明不僅可用于語言壓縮編碼系統(tǒng),還可用于多種不同的應(yīng)用領(lǐng)域,如音調(diào)轉(zhuǎn)換,速率轉(zhuǎn)換,利用一定規(guī)則的語言合成或噪音抑制。
權(quán)利要求
1.一種判斷輸入的語言信號為濁音或清音的方法,包括利用S形函數(shù)g(x)對用于輸入語言信號進行濁音/清音判斷的參數(shù)x進行變換,并利用此經(jīng)S形函數(shù)變換的參數(shù)進行濁音/清音判斷,其中,S形函數(shù)g(x)表示為g(x)=A/(1+exp(-(x-b)/a)),A、a和b是常數(shù)。
2.根據(jù)權(quán)利要求1所述的判斷輸入的語言信號為濁音或清音的方法,其特征在于所述參數(shù)x通過函數(shù)g′(x)轉(zhuǎn)換,而g′(x)通過對S形函數(shù)g(x)的多次直線近似獲得,并利用轉(zhuǎn)換的參數(shù)給出濁音/清音判定。
3.根據(jù)權(quán)利要求1所述的判斷輸入的語言信號為濁音或清音的方法,其特征在于輸入的語言信號的幀平均能量,歸一化自相關(guān)峰值,頻譜相似度、零交疊數(shù)和音調(diào)周期中,至少有一個用作上述進行濁音/清音判斷的參數(shù)。
4.根據(jù)權(quán)利要求1所述的判斷輸入的語言信號為濁音或清音的方法,其特征在于做為濁音/清音判斷的所述參數(shù),采用了輸入的語言信號的幀平均能量lev、歸一化自相關(guān)峰值ror、頻譜相似度pos、零交疊數(shù)nZero和音調(diào)延遲pch,其特征還在于如果基于這些參數(shù)并代表與濁音語言相似度的函數(shù)分別由pLev(lev),pRor(ror)、pPos(pos)、pNZero(nZero)和pPch(pch)表示,則利用這些函數(shù)代表濁音語言的最終外形的函數(shù)f(lev,ror,pos,nZero,pch)由下式計算f(lev,ror,pos,nZero,pch)=((αpRor(ror)+βpLev(lev)/(α+β))×pPos(pos)×pNZero(nZero)×pPch(pch)其中,α和β是常數(shù)。
5.一種判斷輸入的語言信號是濁音還是清音的裝置,包括函數(shù)計算裝置,通過S形函數(shù)g(x)轉(zhuǎn)換用于對輸入的語言信號進行濁音/清音判斷的參數(shù)x,產(chǎn)生一個函數(shù)輸出值,函數(shù)g(x)表示為g(x)=A/(1+exp(-(x-b)/a))其中a、A和b是常數(shù);和一種利用所述函數(shù)計算裝置根據(jù)S形函數(shù)g(x)得到的值進行濁音/清音判斷的裝置。
6.一種對輸入的語言信號進行編碼的方法,其中輸入的語言信號在時間域上以幀為單位進行劃分,并在此幀的基礎(chǔ)上進行編碼,該方法包括利用S形函數(shù)g(x)將用于輸入語言信號的濁音/清音判斷的參數(shù)x進行轉(zhuǎn)換,g(x)表示為g(x)=A/(1+exp(-(x-b)/a))其中A,a和b是常數(shù),并利用由此S形函數(shù)轉(zhuǎn)換的參數(shù)進行濁音/清音判斷;和根據(jù)濁音/清音的判定結(jié)果,對被認為是濁音的輸入語言信號部分進行正弦分解編碼。
7.根據(jù)權(quán)利要求6所述的語言編碼方法,其特征在于利用g′(x)函數(shù)轉(zhuǎn)換此參數(shù)x,并利用該轉(zhuǎn)換的參數(shù)作出濁音/清音判定,其中g(shù)′(x)通過對S形函數(shù)g(x)以多條線段近似獲得。
8.根據(jù)權(quán)利要求6所述的語言編碼方法,其特征在于被認作清音的輸入語言信號部分,根據(jù)濁音/清音的判定結(jié)果,通過利用合成分解方法閉環(huán)搜索最佳矢量對其時域波形進行矢量量化。
全文摘要
一種判斷輸入的語言信號是濁音或清音的濁音/清音判定方法和裝置。對用于濁音/清音(V/UV)判斷的輸入?yún)?shù)做綜合判斷,以通過簡單的算法進行V/UV的精確判斷。做為判斷輸入的語言信號為濁音或清音的參數(shù),輸入語言信號的幀平均能量lev,歸一化自相關(guān)峰值ror,頻譜相似度pos,零交疊數(shù)nZero和音調(diào)延遲等被提供給輸入端11至15。如果這些參數(shù)用x表示,則這些參數(shù)利用S形函數(shù)g(x)由函數(shù)計算電路31至35進行轉(zhuǎn)換。
文檔編號G10L11/02GK1173690SQ9711340
公開日1998年2月18日 申請日期1997年4月15日 優(yōu)先權(quán)日1996年4月15日
發(fā)明者飯島和幸, 西口正之, 松本淳, 大森士郎 申請人:索尼公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
绥德县| 高雄市| 蒙自县| 周宁县| 东乡族自治县| 巴青县| 灵台县| 普格县| 洞头县| 大冶市| 永仁县| 屏东县| 绥宁县| 甘孜| 北安市| 安陆市| 北碚区| 胶南市| 青神县| 邢台县| 涿州市| 扶风县| 常山县| 临江市| 嘉峪关市| 宣化县| 剑阁县| 玉田县| 剑阁县| 安龙县| 北宁市| 清丰县| 拉孜县| 鹤壁市| 隆德县| 嘉义县| 常州市| 轮台县| 珲春市| 鹿泉市| 楚雄市|