識別濁音/清音的方法和裝置及其語音編碼方法

文檔序號：2820293閱讀：567來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：識別濁音/清音的方法和裝置及其語音編碼方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種濁音/清音的判定方法和裝置，用于判斷輸入的語言信號是清音還是濁音，以及一種應(yīng)用此濁音/清音識別方法進行語音編碼的方法。
目前已知有各種利用在時域和頻域中聲頻信號的統(tǒng)計特性以及人耳的機理特征壓縮聲頻信號的編碼方法，其中聲頻信號包括語音信號和聲信號。這些編碼方法可粗略地分為在時域內(nèi)編碼、在頻域編碼和分解/合成編碼。
為了對語言信號編碼，要判斷輸入的語言信號是濁音還是清音，濁音(Voiced sound)就是伴隨著聲帶振帶的聲音，而清音(Unvoiced sound)就是沒有伴隨聲帶振動的聲音。
一般地，濁音(V)和清音(UV)的判斷(V/UV判斷)通過根據(jù)由例如做為其周期性/非周期性特征的自相關(guān)函數(shù)的峰值所做的濁音/清音(V/UV)判斷，伴隨音高提取的方法進行。但是，因為在輸入聲音無周期性但為濁音的情況下不能給出有效的判斷，所以也采用例如語言信號的能量或零交疊的數(shù)目做為其它參數(shù)。
同時，因為濁音/清音(U/UV)識別傳統(tǒng)上是由對每個參數(shù)的判定結(jié)果進行邏輯運算的判定規(guī)則給出，所以對輸入?yún)?shù)整體上給出綜合的判定是困難的。例如，在下述規(guī)則下“如果幀平均能量大于預(yù)定的閥值并且其余項的自相關(guān)峰值大于預(yù)定的閥值，則此聲音即為濁音”，即使幀的平均能量顯著地超過閥值而其余項的自相關(guān)峰值比閥值小哪怕是一個很小的量，也不能判定此聲音為濁音。
另外，特殊的輸入語言需要適合于它的規(guī)則，從而為了適應(yīng)所有可能種類的輸入語言，需要引用相應(yīng)大量的規(guī)則，從而導(dǎo)致復(fù)雜。
另一方面，利用頻譜相似性進行的V/UV判斷，即基于頻帶的V/UV判斷結(jié)果，在用于例如多頻帶激勵編碼(MBE)時，其先決條件是正確的音調(diào)探測。但實際上正確地進行高精度的音調(diào)探測是非常困難的。
因此，本發(fā)明目的在于提供一種識別濁音/清音(U/UV)的方法和裝置，通過一種簡易算法綜合判別用于濁音/清音(V/UV)判定的各個輸入?yún)?shù)，以實現(xiàn)高精度的V/UV判斷。
根據(jù)本發(fā)明，提供了一種判別輸入的語言信號是濁音或清音的方法，它包括，通過一種S形函數(shù)g(x)轉(zhuǎn)化用于輸入的語言信號的濁音/清音判別的參數(shù)x，g(x)函數(shù)表示為g(x)＝A/(1+exp(-(x-b)/a))其中，A，a和b為常數(shù)，然后利用通過此函數(shù)轉(zhuǎn)化的參數(shù)進行濁音/清音判斷。
通過此方式，可以綜合地判別用于濁音/清音(U/UV)判斷的輸入?yún)?shù)，從而通過一種簡化的算法可實現(xiàn)高精度判斷。
參數(shù)x可由對S函數(shù)g(x)以多條線段近似而獲得的函數(shù)g′(x)轉(zhuǎn)化，利用轉(zhuǎn)化的參數(shù)做出濁音/清音判斷。在這種方法中，參數(shù)轉(zhuǎn)換可通過一個簡單的運算操作實現(xiàn)，無需使用函數(shù)表或類似的手段，因此降低了裝置的成本并提高了運算速度。
輸入的語言信號幀平均能量、歸一化的自相關(guān)峰值，頻譜相似程度，零交疊的數(shù)量和音調(diào)周期至少有一個可做為濁音/清音判斷的參數(shù)。

圖1是采用根據(jù)本發(fā)明的語言編碼方法的語言信號編碼裝置的基本結(jié)構(gòu)方框圖。
圖2是采用根據(jù)本發(fā)明的語言編碼方法的語言信號編碼裝置基本結(jié)構(gòu)的另一方框圖。
圖3是與圖2所示語言信號編碼裝置相對應(yīng)的語言信號譯碼裝置的基本結(jié)構(gòu)方框圖。
圖4是采用根據(jù)本發(fā)明的語言編碼方法的語言信號編碼器更詳細的基本結(jié)構(gòu)方框圖。
圖5是表示關(guān)于輸入的語言信號幀平均能量Lev與濁音語言聲相似度的函數(shù)pLev(lev)的一個例曲線。
圖6是表示關(guān)于歸一化自相關(guān)峰值ror，與濁音語言的相似度的函數(shù)pRor(ror)的一個例曲線。
圖7是表示頻譜相似性pos與濁音語言的相似度的函數(shù)pPos(pos)的一個例曲線。
圖8是表示關(guān)于零交疊數(shù)nZero與濁音語言的相似度的函數(shù)pNzero(nzero)的一個例曲線。
圖9是表示關(guān)于音調(diào)延遲Pch與濁音語言的相似度的函數(shù)pPch(pch)的一例曲線。
圖10是表示關(guān)于歸一化自相關(guān)峰值ror與濁音語言的相似度的函數(shù)pRor′的一個例曲線。
以下將參考附圖，對本發(fā)明的優(yōu)選實施例做詳細地解釋。
圖1表示根據(jù)本發(fā)明識別濁音/清音(V/UV)方法的一個實施例。
參見圖1，圖中有輸入端11至15，分別輸入語言信號的幀平均能量水平，歸一化自相關(guān)峰值ror，頻譜相似度、零交疊數(shù)nZero和音調(diào)延遲Pch等用以進行濁音/清音(V/UV)判斷的輸入?yún)?shù)。幀平均能量Lev可通過從端子10向幀平均有效值(rms)計算電路21提供輸入語言信號而獲得。該幀平均能量Lev是每幀的平均有效值或等價值。其它的輸入?yún)?shù)將在后面加以解釋。
用作V/UV判斷的輸入?yún)?shù)可作如下推廣，如果n個輸入?yún)?shù)表示成x1，x2，…xn，其中n是自然數(shù)，這些輸入?yún)?shù)xk與濁音(V)的相似度由函數(shù)gk(xk)表示，其中k＝1，2，…n，則表示濁音語言的最終外形的函數(shù)可如下計算f(x1，x2，…，xn)＝F(g(1)x(1)，g(2)(x2)，…g(n)(xn))以上的函數(shù)gk(xk)可以是自由函數(shù)，其取值范圍從ck至dk，其中，k＝1，2，…n，ck和dk為常數(shù)，ck＜dk。
以上的函數(shù)gk(xk)，其中k＝1，2，…n，還可以是連續(xù)函數(shù)，具有不同的斜率，其取值范圍以ck至dk。
以上的函數(shù)gk(xk)其中k＝1，2，…n，也可以是多條具有不同斜率的線段構(gòu)成的函數(shù)，其取值范圍從ck至dk。
以上的函數(shù)gk(kx)也可以是如下S形函數(shù)，
gk(xk)＝Ak/(1+exp(-(xk-bk)/ak))其中，K＝1，2，…n，Ak，ak和bk是不同于輸入?yún)?shù)xk的常數(shù)；或者也可以是這些函數(shù)的乘法組合。
以上的S形函數(shù)gk(xk)或其乘法組合也可以用具有不同斜率的多條線段進行近似。
此輸入?yún)?shù)可以為上述的輸入語言信號的幀平均能量lev、歸一化的自相關(guān)峰值ror、相似度pos，零交疊數(shù)nZero及音調(diào)延遲pch。
如果代表這些輸入?yún)?shù)lev、ror、pos、nZerc和pch與最終濁音(V)相似度的函數(shù)分別表示為pLev(lev)，pRor(ror)，pPos(pos)，pNZero(nZero)和pPch(pch)，則代表濁音(V)最終外形的函數(shù)可通過下式計算f(lev，ror，pos，nZero和pch)＝((αpRor(ror)+βpLev(lev))/(α+β))xpPpos(pos)×pNZero(nZero)×pPch(pch)其中，α和β是pRor和pLev的適當(dāng)權(quán)重常數(shù)。
參見圖1，輸入語言信號的幀平均能量lev、歸一化自相關(guān)峰值ror，相似程度pos，零交疊數(shù)nZero和音調(diào)延遲pch，作為輸入?yún)?shù)，分別由輸入端11、12、13、14和15送至計算單元23，根據(jù)輸入語言信號的幀平均能量lev，通過函數(shù)計算電路31，對表示與濁音語言(V)相似度的函數(shù)進行計算。基于歸一化自相關(guān)峰值ror的代表濁音(V)的函數(shù)pRor(ror)由函數(shù)計算電路32計算。基于頻譜相似度pos的代表濁音(V)外表的函數(shù)pRor(ror)pPos(pos)由函數(shù)計算電路33計算?；诹憬化B數(shù)nZero的代表音(V)外形的函數(shù)pNZero(nZero)由函數(shù)計算電路34計算，同時，基于音調(diào)延遲pch的代表濁音(V)外形的函數(shù)pPch(pch)由函數(shù)計算電路35計算。由這些函數(shù)計算電路33至35進行的所示計算最好采用上述的S形函數(shù)，以下將對函數(shù)計算電路進行解釋。
從函數(shù)計算電路31輸出的函數(shù)pLev(lev)值被常數(shù)β、α相乘，其結(jié)果在加法器24中相加。加法器的輸出和αpRor(ror)+βPlev(lev)送入乘法器25中。從這些函數(shù)計算電路33至35輸出的相應(yīng)函數(shù)pPos(pos)，pNZero(nZero)和pPch(pch)被送往乘法器25進行乘法運算，以得出由上述方程表示的代表濁音(V)的最終外形之函數(shù)f(lev，ror，pos，nZero，pch)。這些函數(shù)被送往V/UV(濁音/清音)判定電路26，與預(yù)定閥值進行比較以做出V/UV判斷，在輸出端27輸出判斷結(jié)果。
圖2是實現(xiàn)采用上述識別濁音/清音的方法的本發(fā)明語音編碼方法的語言信號編碼裝置的基本結(jié)構(gòu)圖。
圖2所示的語言信號編碼裝置基本原理為，此編碼器包括一第一編碼單元110和一第二編碼單元120，第一編碼單元110找出短期前置余項的余項，如輸入語言信號的LPC(線性預(yù)編碼)余項，以進行正弦分解編碼，如諧波編碼，而第二編碼單元120通過波形傳遞的波形編碼對輸入的語言信號進行編碼。第一編碼單元110，用于對輸入語言信號的濁音部分(V)進行編碼，而第二編碼單元120用于對輸入語言信號的清音(UV)部分編碼。為進行本裝置的濁音/清音(V/UV)判斷，采用了根據(jù)本發(fā)明的上述V/UV判斷方法和裝置。
對于編碼單元110，采用了執(zhí)行對LPC余項的正弦分解編碼如r多頻帶編碼(MBE)的諧波編碼的結(jié)構(gòu)。對于第二編碼單元120，采用了通過利用分解合成方法，閉環(huán)搜索最佳矢量進行矢量量化的激勵碼線性預(yù)置(CELP)編碼的結(jié)構(gòu)。
在圖2例中，送至輸入端101的語言信號被送往第一編碼單元110的LPC轉(zhuǎn)換濾波器111和LPC分解量化單元113。LPC分解量化單元113產(chǎn)生的LPC系數(shù)或所謂的α參數(shù)被送往LPC轉(zhuǎn)換濾波器111，由它獲得輸入語言信號的線性預(yù)置誤差(LPC余項)。由LPC分解量化單元113獲取線性頻譜對(LSPs)的量化輸出，后面將加以解釋，并將其送至輸出端102。LPC余項的LPC余項被送入正弦分解編碼單元114。正弦分解編碼單元114進行音調(diào)探測或頻譜包絡(luò)的振幅計算，并通過濁音/清音(V/UV)判斷單元115做出V/UV判定。此V/UV的判斷單元115，采用了圖1中所示的上述V/UV判斷裝置。
由正弦分解編碼單元114產(chǎn)生的頻譜包絡(luò)幅值數(shù)據(jù)送至矢量量化單元116。從矢量量化單元116得出的碼表指數(shù)，做為頻譜包絡(luò)的矢量量化輸出，通過開關(guān)117送往輸出端103，而正弦分解編碼單元114的輸出通過開關(guān)118送往輸出端105。由V/UV判斷單元115產(chǎn)生的V/UV判定輸出被送往輸出端105，同時也做為開關(guān)117，118的控制信號。對于濁音(V)語言，上述指數(shù)和音調(diào)被選取后由輸出端103、104輸出。
在本實施例中，圖2的第二編碼單元120有一個激勵碼線性預(yù)置(CELP)編碼結(jié)構(gòu)，其工作原理為，通過一加權(quán)合成濾波器122對噪音碼本121的輸出進行合成，把得到的加權(quán)語言信號送入減法器123，獲取由送至輸入端101的語言信號通過感應(yīng)加權(quán)濾波器125產(chǎn)生的語言誤差，將此誤差送入距離計算電路124，進行距離計算并通過噪音碼本121搜尋最小誤差的矢量。也就是說其時域波形通過合成分解，利用閉環(huán)搜索得以進行矢量量化。如上所述，該CELP編碼用于清音部分編碼。碼表指數(shù)做為從噪音碼表中得出的V/UV數(shù)據(jù)由輸出端107經(jīng)過開關(guān)127輸出，開關(guān)127當(dāng)V/UV判斷單元115的V/UV判斷輸出是UV(清音)時接通。
圖3是做為圖2中裝置對應(yīng)裝置的語言信號譯碼器的基本結(jié)構(gòu)框圖。
參見圖3，碼表指數(shù)，做為以圖2中輸出端102的線性頻譜對(LSPS)的量化輸出被往輸入端202。輸入端203，204和205分別輸入圖2中103、104和105輸出端的輸出，即作為包絡(luò)的量化輸出的上述指數(shù)，音調(diào)和V/UV判定輸出。做為清音(UV)語言之?dāng)?shù)據(jù)的指數(shù)從圖2的輸出端107提供給輸入端207。
從輸入端203做為量化的包絡(luò)輸出的指數(shù)提供給反轉(zhuǎn)矢量量化器212。以進行反轉(zhuǎn)的矢量量化。取得LPC余項的頻譜包絡(luò)并送往濁音語言合成單元211。濁音語言合成單元211通過正弦合成而合成LPC(線性預(yù)置編碼)余項，同時還被送入分別從輸入端204，205輸出的音調(diào)和V/UV判定輸出。來自濁音語言合成單元211的濁音語言LPC余項被送LPC合成濾波器214。來自輸入端207的UV數(shù)據(jù)指數(shù)被送入清音語言合成單元220，此處必須參考噪音碼表以獲取清音語言部分的LPC余項。這些LPC余項也被送往LPC合成濾波器214。LPC合成濾波器214對濁音語言部分之余項和濁音語言部分的LPC余項彼此獨立地進行LPC合成。此LPC合成也可對濁音語言部分之LPC余項和清音語言部分的LPC余項合在一起進行。來自輸入端202的LSPS指數(shù)被送入LPC參數(shù)再生單元213，在此LPC的α參數(shù)被提取并送往LPC合成濾波器214。通過LPC合成濾波器214進行LPC合成得到的語言信號在輸出端201輸出。
參見圖4，對圖2中所示的語言信號編碼裝置之更詳細結(jié)構(gòu)加以解釋。在圖4中，相應(yīng)圖2中的那些部分或組件用同樣的標(biāo)號標(biāo)示。
在圖4所示的語言信號編碼裝置中，提供給輸入端101的語言信號由高通濾波器(HPF)109濾除，除去不需要的頻帶信號，再提供給LPC線性預(yù)置編碼)分解量化單元113的LPC分解電路132和LPC轉(zhuǎn)換濾波電路111。
LPC分解量化單元113的LPC分解電路132給16次采樣長度做為一組的輸入信號波形設(shè)置一個加重平均窗口，以通過自相關(guān)方法找到線性預(yù)置系數(shù)或所謂的α參數(shù)。做為數(shù)據(jù)輸出單位的幀間隔為進行160次取樣的時間量級。例如，如果取樣頻率fs是8KHz，則在160次取樣后幀間隔是20ms。
來自LPC分解量化器132的α參數(shù)被送往α-LSP轉(zhuǎn)換電路133，轉(zhuǎn)換成線性頻譜對(LSP)參數(shù)。由直接型濾波器系數(shù)得出的α-參數(shù)被轉(zhuǎn)化成，例如為10，即5對LSP參數(shù)。這種轉(zhuǎn)換可由例如牛頓-海普遜(Newton-Rhapson)方法完成。因為在插值特性上LSP參數(shù)優(yōu)于α-參數(shù)，所以最好轉(zhuǎn)換成LSP參數(shù)。
來自α-LSP轉(zhuǎn)換電路133的LSP參數(shù)通過LSP量化器134進行矩陣量化或矢量量化。在矢量量化之前首先找出幀與幀的差別，或者在矩陣量化之前將多個幀組合在一起。在本實施例中，20ms做為一幀，并且通過矩陣量化或矢量量化將每隔20ms計算一次的LSP參數(shù)之兩幀進行量化。
LSP量化器134的量化輸出，即LSP量化指數(shù)，在102端輸出。量化的LSP矢量被送入LSP的插值電路136。
LSP插值電路136對每20ms或40ms量化一次的LSP矢量進行插值以提供八倍速率。也即，對此LSP矢量每2.5ms量化一次。其原因在于如果以諧波編碼/譯碼的方法分解/合成余波，則合成的波形顯出非常平滑的包絡(luò)，以至于，如果LPC系數(shù)精確地以每20ms一次變化，則易于產(chǎn)生附加的聲音。通過每隔2.5ms逐步改變LPC系數(shù)，可避免產(chǎn)生此種附加聲音。
為了利用經(jīng)插值的基于2.5ms的LSP矢量對輸入的語言信號進行轉(zhuǎn)換濾波，LSP參數(shù)通過LSP-α轉(zhuǎn)換電路137轉(zhuǎn)換成α參數(shù)，而α參數(shù)是例如10級的直接型濾波的系數(shù)，LSP-α轉(zhuǎn)換回路137的輸出被送往LPC轉(zhuǎn)換濾波電路111，在其中利用每2.5ms更新的α-參數(shù)進行轉(zhuǎn)換濾波，以產(chǎn)生平滑的輸出。LPC轉(zhuǎn)換濾波回路111的輸出被送往正弦分解編碼114，尤其是送往諧波編碼電路114的正交轉(zhuǎn)換電路145，如離散的付里葉變換電路。
來自LPC分解量化單元113的LPC分解電路132的α參數(shù)被送往感應(yīng)加權(quán)濾波計算電路139，在那兒獲得感應(yīng)加權(quán)的數(shù)據(jù)。這些權(quán)重數(shù)據(jù)被送往感應(yīng)加權(quán)矢量量化器116(后面將加以解釋)和第二編碼單元120的感應(yīng)權(quán)重濾波器125以及感應(yīng)加權(quán)合成濾波器122。
諧波編碼電路的正弦分解編碼單元114通過諧波編碼法分解LPC轉(zhuǎn)換濾波電路111的輸出。也即，正弦分解編碼單元114檢測音調(diào)，計算每個諧波Am的幅值并識別濁音(V)/清音(UV)，以通過量綱變換提供隨音調(diào)改變之包絡(luò)或諧波幅值的常數(shù)值。
在圖4所示的正弦分解編碼單元114特例中，預(yù)先假定了一般的諧波編碼。特別地，在多波段激勵編碼(MBE)的情形中，模化建立在相同時刻(相同的組或幀)的每個頻帶中，即從一個頻帶到另一頻帶，存在濁音部分和清音部分的假設(shè)基礎(chǔ)上，在其它的諧波編碼中，交替地判斷同一組或幀中的語言是否為濁音還是清音。在以下的描述中，將以幀計的V/UV信號施加于MBE編碼裝置上，如果所有頻帶是UV，則判定給定幀為UV。
來自輸入端101的輸入語言信號提供給正弦分解編碼單元114的開環(huán)音調(diào)搜索單元141。來自高通濾波器(HPF)109的信號提供給零交疊計數(shù)器142。來自LPC轉(zhuǎn)換濾波器111的LPC余項或線性預(yù)置余項提供給正弦分解編碼單元114的正交變換電路145。開環(huán)音調(diào)搜索單元141接收輸入信號的LPC余項和開環(huán)的大致音調(diào)。提取的大致音高數(shù)據(jù)送往高精度搜索單元146，利用閉環(huán)(精確音調(diào)搜索)進行高精度的音調(diào)搜索。由開環(huán)音調(diào)搜索單元141通過對LPC余項的最大自相關(guān)值進行歸一化而獲得的歸一化的最大自相關(guān)值r(p)與大致音調(diào)數(shù)據(jù)一起輸出，并送往V/UV(濁音/清音)判定單元115。
正交變換電路145執(zhí)行正交變換，如離散付里葉變換，以把時域的LPC余項變換成頻域的頻譜幅值數(shù)據(jù)。正交變換電路145的輸出被送往高精度音調(diào)搜索單元146和頻譜計算單元148，以計算譜線的幅值或包絡(luò)。
由開環(huán)音調(diào)搜索單元141提取的大致音調(diào)數(shù)據(jù)和由正交變換單元145進行離散傅里葉變換得到的頻域數(shù)據(jù)被送往高精度(精細的)音調(diào)搜索單元146。精細音調(diào)搜索單元146以上述大致音調(diào)數(shù)據(jù)為中心通過在某一時刻加減0.2至0.5個取樣調(diào)整音調(diào)數(shù)據(jù)，以獲得具有最佳十進制點(浮點)的精細音調(diào)數(shù)據(jù)。此精細音調(diào)搜索技術(shù)采用所得的合成分解方法選擇音調(diào)，使得合成的能量譜將最接近原始聲音的能量譜。從高精度音調(diào)搜索單元146通過閉環(huán)獲得的音調(diào)數(shù)據(jù)經(jīng)開關(guān)118送到輸出端104。
頻譜計算單元148根據(jù)譜線的幅值以及做為LPC余項的正交變換輸出的音調(diào)，計算每個諧波的幅值和做為幅度總和的頻譜包絡(luò)，并將計算結(jié)果送往高精度音調(diào)搜索單元146，V/UV(濁音/清音)判斷單元115以及感應(yīng)加權(quán)矢量量化單元116。
V/UV(濁音/清音)判斷單元115根據(jù)正交變換電路145的輸出，來自高精度音調(diào)搜索單元146的最佳音調(diào)，來自頻譜計算單元148的頻譜幅值數(shù)據(jù)，來自開環(huán)音調(diào)搜索單元141的歸一化最大自相關(guān)值r(p)和來自零交疊計數(shù)器142的零交疊計數(shù)值，對給定幀作出V/UV判斷。
在MBE情形下，頻帶之間V/UV判斷結(jié)果的邊界位置也可做為對此幀進行V/UV判斷的條件。V/UV判斷單元115的判定結(jié)果從輸出端105輸出。
在頻譜計算單元148的輸出部分或矢量量化單元116的輸入部分設(shè)置一個屬于采樣速率轉(zhuǎn)換單元的數(shù)據(jù)轉(zhuǎn)換單元。數(shù)據(jù)數(shù)轉(zhuǎn)換單元的作用是根據(jù)在頻率軸上的頻帶劃分數(shù)目乃至數(shù)據(jù)數(shù)目隨音調(diào)的變化提供包絡(luò)的幅值數(shù)據(jù)|Am|的常數(shù)數(shù)目。也即是如果有效帶寬達3400KHz，則依據(jù)音調(diào)將有效頻帶分成8至63個波段，使得從波段到波段獲得的幅值數(shù)據(jù)|Am|的數(shù)目mMx+1在8至63的范圍內(nèi)變化。因此，數(shù)據(jù)數(shù)轉(zhuǎn)換單元119將幅值的可變數(shù)目mMx+1變成一常數(shù)M，例如44。
由設(shè)置在頻譜計算單元148的輸出部分或矢量量化單元116的輸入部分的數(shù)據(jù)數(shù)轉(zhuǎn)換單元獲得的幅值數(shù)據(jù)或包絡(luò)數(shù)據(jù)的常數(shù)數(shù)目M，如44，由矢量量化器116會集成組，每組含有預(yù)定數(shù)目的數(shù)據(jù)，如44個數(shù)據(jù)，以形成矢量，然后對其進行加權(quán)矢量量化。權(quán)數(shù)由感應(yīng)加權(quán)濾波計算電路139的輸出提供。來自于矢量量化器116的上述包絡(luò)指數(shù)經(jīng)過開關(guān)117在輸出端103輸出。在上述的加權(quán)矢量量化之前，具有一適當(dāng)?shù)男孤┫禂?shù)的幀與幀之間的差別可由預(yù)定數(shù)量的數(shù)據(jù)構(gòu)成的矢量得出。
現(xiàn)在介紹第二編碼單元120。第二編碼單元120具有所謂的激勵碼線性預(yù)置(CELP)的編碼結(jié)構(gòu)，并特別用于輸入語言信號的清音部分的編碼。在用于清音語言部分的cELP編碼結(jié)構(gòu)中，等于清音語言LPC余項的噪音輸出，即所謂隨機譯碼本121的代表值輸出，通過增益控制電路126送往感應(yīng)加權(quán)的合成濾波器122。然后，感應(yīng)加權(quán)合成濾波器122對輸入噪音進行LPC合成，產(chǎn)生一加權(quán)的清音語言信號送入減法器123。減法器123中被送入從輸入端101經(jīng)HPF109提供的并且由感應(yīng)加權(quán)濾波器125進行感應(yīng)加權(quán)的語言信號，從而將來自合成濾波器122的信號和來自濾波器125的信號之間的差別或誤差輸出，并送入距離計算電路124，進行距離計算。由噪音譯碼本121搜索最小化誤差的矢量代表值。在這種方式中，通過合成分解，閉環(huán)搜索的方法對時域波形進行矢量量化。
做為來自采用CELP編碼結(jié)構(gòu)的第二編碼單元120的清音(UV)部分的數(shù)據(jù)，來自噪音編碼本121的編碼本的外形指數(shù)和來自增益電路126的編碼本的增益指數(shù)被輸出。做為來自噪音編碼本121UV數(shù)據(jù)的外形指數(shù)通過開關(guān)127s被送往輸出端107s，而做為來自增益回路126的UV數(shù)據(jù)的增益指數(shù)通過開關(guān)127g被送往輸出端107g。
開關(guān)127s，127g和開關(guān)117，118由V/UV判斷單元115的V/UV判斷結(jié)果進行開/關(guān)控制。如果當(dāng)前傳遞的幀的語言信號V/UV判斷結(jié)果是濁音(V)，則開關(guān)117，118開通，而如果當(dāng)前傳遞的幀的語言信號V/UV判斷結(jié)果是清音(UV)，則開關(guān)127s，127g開通。
現(xiàn)在介紹圖4中語言信號編碼裝置的V/UV(濁音/清音)判斷單元115的一個示例。
V/UV判斷單元115以圖1中所示的V/UV判斷裝置作為基本結(jié)構(gòu)，并根據(jù)輸入語言信號的幀平均能量lev，歸一化自相關(guān)峰值ror，頻譜相似度pos、零交疊數(shù)nZero和音調(diào)延遲pch對幀進行V/UV判定。
也就是說，輸入語言信號的幀平均能量，即幀平均rms或等價值lev根據(jù)正交變換電路145的輸出獲得并被提供給圖1的輸入端11。來自開環(huán)音調(diào)搜索單元141的歸一化自相關(guān)峰值ror被送往圖1的輸入端12。來自零交疊計數(shù)器142的零交疊數(shù)nZero提供給圖1的輸入端14。代表決定于采樣數(shù)目的音調(diào)周期的音調(diào)延遲pch被提供給圖1的輸入端15做為來自精細音調(diào)搜索單元146的最適當(dāng)音調(diào)。類似MBE的，基于頻帶的V/UV判斷結(jié)果的邊界位置也是對幀做V/UV判斷的條件，并做為頻譜相似度pos提供給圖1的輸入端13。
下面解釋作為V/UV判斷參數(shù)的頻譜相似度pos，它利用了對MBE進行基于頻帶的V/UV判斷的結(jié)果。
表明MBE的m階諧波大小的參數(shù)或幅值|Am|由下式給出|Am|=Σj=ambm|s(j)||E(j)|/Σj=ambm|E(j)|2]]>在以上的方程中，|S(j)|是對LPC余項進行離散傅里葉變換(DFT)所得的譜項，|E(j)|是基頻信號的譜項，尤其是對256點加重平均窗進行離散傅里葉變換所得的譜項。為做出基于頻帶的V/UV判斷，利用于噪信比(NSR)。第m階頻帶的NSR表示為NSR=Σj=ambm{|s(j)|-|Am||E(j)|}2Σj=ambm|s(j)|2]]>如果NSR值大于預(yù)定的閥值，如0.3，也就是如果誤差較大，可以判定|Am||E(j)|對|S(j)|的近似性不好，也即是說上述激勵信號|E(j)|不適于作為基頻。這種情況下，此頻帶被判定為清音(UV)。否則，可斷定已作出相當(dāng)滿意的近似并因而判定此頻帶為濁音(V)。
同時，依據(jù)聲音的音調(diào)，被音調(diào)基頻劃分的頻帶數(shù)目(諧波數(shù))在大約8至63的范圍內(nèi)變化，V/UV標(biāo)志的數(shù)量也因而從頻帶到頻帶作類似變化。從而對于由固定頻帶劃分譜項所得的預(yù)定數(shù)量的頻帶之每一個，把V/UV判定的結(jié)果分組或分解。特別地，包括語言范圍的預(yù)定頻率譜項被分成例如12個頻帶，并對其每個做出V/UV判斷。至于基于頻帶的V/UV判斷數(shù)據(jù)，在所有頻帶中濁音(V)語言區(qū)和清音(UV)語言區(qū)之間的至多一個分界位置或邊界位置做為頻譜相似度pos。在這種情況下，頻譜相似度的值可取為1≤pos≤12。
提供給圖1中輸入端11至15的輸入?yún)?shù)被送往函數(shù)計算電路31至35，用于計算代表與發(fā)音(V)語言的相似度的函數(shù)值。以下介紹此種函數(shù)的特例。
首先，在圖1所示的函數(shù)計算電路31中，根據(jù)輸入語言信號的幀平均能量lev值計算函數(shù)pLev(lev)的值。函數(shù)pLev(lev)可采用例如如下形式，pLev(lev)＝1.0/(1.0+exp(-(lev-400.0)/(100.0))圖5表示此函數(shù)pLev(lev)的曲線。
接下來，在圖1所示的函數(shù)計算電路32中，根據(jù)歸一化自相關(guān)峰值ror信號(0≤ror≤1.0)計算函數(shù)pRor(ror)的值。函數(shù)pRor(ror)例如采用pRor(ror)＝1.0/(1.0+exp(-(ror-0.3)/0.06))圖6表示該數(shù)pRor(ror)的曲線。
在圖1所示的函數(shù)計算電路33中，根據(jù)頻譜的相似度pos值(0≤pos≤1.0)計算函數(shù)pPos(pos)的值。函數(shù)pPos(pos)例如采用pPos(pos)＝1.0/(1.0+exp(-(pos-1.5)/0.8))圖7表示該函數(shù)pPos(pos)的曲線。
在圖1所示的函數(shù)計算電路34中，根據(jù)零交疊數(shù)nZero(1≤nZero≤160)的值計算函數(shù)pNZero(nZero)的值。函數(shù)PNZero(nZero)例如采用pNZero(nZero)＝1.0/(1.0+exp((nZero-70.0)/12.0))圖8表示該函數(shù)pNZero(nZero)的曲線。
在圖1所示的函數(shù)計算電路35中，根據(jù)音調(diào)延遲pch的數(shù)值(20≤pch≤147)計算函數(shù)pPch(pch)的值。函數(shù)pPch(pch)例如采用pPch(pch)＝1.0/(1.0+exp(-(pch-12.0)/2.5))×1.0/(1.0+exp((pch-105.0)/6.0))圖9表示該函數(shù)pPch(pch)的曲線。
利用關(guān)于由這些函數(shù)pLev(lev)、pRor(ror)、pNZero(nZero)、和pPch(pch)計算的參數(shù)lev、ror、pos、nZero、pch的與濁音(V)聲音的相似度，計算V的最終外形。在這種情形中，最好考慮以下兩點。
首先，如果自相關(guān)峰值較小而幀平均能量非常大，則語言應(yīng)被判定為濁音(V)。因此，為了使參數(shù)表現(xiàn)出很強的互補關(guān)系，需采用一加權(quán)和。第二，各自獨立代表V外形的參數(shù)彼此相乘。
因此，具有彼此補償關(guān)系的自相關(guān)峰值和幀平均能量以一定的權(quán)重相加，而那些不顯示此補償關(guān)系的量彼此相乘。代表V最終外形的函數(shù)f(lev，ror，pos，nZero，pch)由下式計算f(lev，ror，pos，nZero，pch)＝((1.2pRor(ror)+0.81Lev(lev))/2.0)×pPos(pos)×PNzero(nZero)×pPch(pch)在此，權(quán)數(shù)(α＝1.2，β＝0.8)由經(jīng)驗得出。
在給出濁音/清音(V/UV)的最后判定時，如果函數(shù)f不小于0.5和小于0.5，則語言分別被判定為V和UV。
本發(fā)明不局限于以上描述的實施例。例如，取代上述獲得與歸一化自相關(guān)峰值ror有關(guān)的V外形的函數(shù)pRor(ror)，也可采用下述函數(shù)pRor′(ror)＝0.6x，0≤x＜7/34pRor′(ror)＝4.0(x-0.175)，7/34≤x＜67/170pRor′(ror)＝0.6x+0.64，67/170≤x＜0.6pRor′(ror)＝1，0.6≤x≤1.0作為以上函數(shù)pRor(ror)的近似函數(shù)pRor′(ror)。近似函數(shù)pRor′(ror)的曲線由圖10中的實線表示，圖中的虛線表示近似直線和原始函數(shù)pRor(ror)。
雖然語言分解方面的結(jié)構(gòu)表示成硬件，但它可由一種稱做數(shù)字信號處理器(DSP)的軟件程序來完成。做為采用了本發(fā)明V/UV判定方法的語言編碼方法，LPC余項信號可分解成V和UV，以便對其施用不同的編碼技術(shù)。也就是說，對V部分，可采用由諧波編碼對余項進行編碼的語言壓縮編碼或正弦分解編碼，而對UV部分，可采用多種不同的編碼技術(shù)，如CELP編碼或應(yīng)用通過噪音著色的噪音合成進行編碼。另外，對LPC余項編碼可用于V部分，而實現(xiàn)不同量綱加權(quán)矢量量化的語言壓縮編碼系統(tǒng)可應(yīng)用于頻譜包絡(luò)。再者，本發(fā)明不僅可用于語言壓縮編碼系統(tǒng)，還可用于多種不同的應(yīng)用領(lǐng)域，如音調(diào)轉(zhuǎn)換，速率轉(zhuǎn)換，利用一定規(guī)則的語言合成或噪音抑制。
權(quán)利要求
1.一種判斷輸入的語言信號為濁音或清音的方法，包括利用S形函數(shù)g(x)對用于輸入語言信號進行濁音/清音判斷的參數(shù)x進行變換，并利用此經(jīng)S形函數(shù)變換的參數(shù)進行濁音/清音判斷，其中，S形函數(shù)g(x)表示為g(x)＝A/(1+exp(-(x-b)/a))，A、a和b是常數(shù)。
2.根據(jù)權(quán)利要求1所述的判斷輸入的語言信號為濁音或清音的方法，其特征在于所述參數(shù)x通過函數(shù)g′(x)轉(zhuǎn)換，而g′(x)通過對S形函數(shù)g(x)的多次直線近似獲得，并利用轉(zhuǎn)換的參數(shù)給出濁音/清音判定。
3.根據(jù)權(quán)利要求1所述的判斷輸入的語言信號為濁音或清音的方法，其特征在于輸入的語言信號的幀平均能量，歸一化自相關(guān)峰值，頻譜相似度、零交疊數(shù)和音調(diào)周期中，至少有一個用作上述進行濁音/清音判斷的參數(shù)。
4.根據(jù)權(quán)利要求1所述的判斷輸入的語言信號為濁音或清音的方法，其特征在于做為濁音/清音判斷的所述參數(shù)，采用了輸入的語言信號的幀平均能量lev、歸一化自相關(guān)峰值ror、頻譜相似度pos、零交疊數(shù)nZero和音調(diào)延遲pch，其特征還在于如果基于這些參數(shù)并代表與濁音語言相似度的函數(shù)分別由pLev(lev)，pRor(ror)、pPos(pos)、pNZero(nZero)和pPch(pch)表示，則利用這些函數(shù)代表濁音語言的最終外形的函數(shù)f(lev，ror，pos，nZero，pch)由下式計算f(lev，ror，pos，nZero，pch)＝((αpRor(ror)+βpLev(lev)/(α+β))×pPos(pos)×pNZero(nZero)×pPch(pch)其中，α和β是常數(shù)。
5.一種判斷輸入的語言信號是濁音還是清音的裝置，包括函數(shù)計算裝置，通過S形函數(shù)g(x)轉(zhuǎn)換用于對輸入的語言信號進行濁音/清音判斷的參數(shù)x，產(chǎn)生一個函數(shù)輸出值，函數(shù)g(x)表示為g(x)＝A/(1+exp(-(x-b)/a))其中a、A和b是常數(shù)；和一種利用所述函數(shù)計算裝置根據(jù)S形函數(shù)g(x)得到的值進行濁音/清音判斷的裝置。
6.一種對輸入的語言信號進行編碼的方法，其中輸入的語言信號在時間域上以幀為單位進行劃分，并在此幀的基礎(chǔ)上進行編碼，該方法包括利用S形函數(shù)g(x)將用于輸入語言信號的濁音/清音判斷的參數(shù)x進行轉(zhuǎn)換，g(x)表示為g(x)＝A/(1+exp(-(x-b)/a))其中A，a和b是常數(shù)，并利用由此S形函數(shù)轉(zhuǎn)換的參數(shù)進行濁音/清音判斷；和根據(jù)濁音/清音的判定結(jié)果，對被認為是濁音的輸入語言信號部分進行正弦分解編碼。
7.根據(jù)權(quán)利要求6所述的語言編碼方法，其特征在于利用g′(x)函數(shù)轉(zhuǎn)換此參數(shù)x，并利用該轉(zhuǎn)換的參數(shù)作出濁音/清音判定，其中g(shù)′(x)通過對S形函數(shù)g(x)以多條線段近似獲得。
8.根據(jù)權(quán)利要求6所述的語言編碼方法，其特征在于被認作清音的輸入語言信號部分，根據(jù)濁音/清音的判定結(jié)果，通過利用合成分解方法閉環(huán)搜索最佳矢量對其時域波形進行矢量量化。
全文摘要
一種判斷輸入的語言信號是濁音或清音的濁音/清音判定方法和裝置。對用于濁音/清音(V/UV)判斷的輸入?yún)?shù)做綜合判斷,以通過簡單的算法進行V/UV的精確判斷。做為判斷輸入的語言信號為濁音或清音的參數(shù),輸入語言信號的幀平均能量lev,歸一化自相關(guān)峰值ror,頻譜相似度pos,零交疊數(shù)nZero和音調(diào)延遲等被提供給輸入端11至15。如果這些參數(shù)用x表示,則這些參數(shù)利用S形函數(shù)g(x)由函數(shù)計算電路31至35進行轉(zhuǎn)換。
文檔編號G10L11/02GK1173690SQ9711340
公開日1998年2月18日申請日期1997年4月15日優(yōu)先權(quán)日1996年4月15日
發(fā)明者飯島和幸, 西口正之, 松本淳, 大森士郎申請人:索尼公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：飯島和幸;西口正之;松本淳;大森士郎
技術(shù)所有人：索尼公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

識別濁音/清音的方法和裝置及其語音編碼方法