改善低速率碼激勵(lì)線性預(yù)測(cè)解碼器的非語(yǔ)音內(nèi)容的制作方法

文檔序號(hào)：12787789閱讀：249來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

改善低速率碼激勵(lì)線性預(yù)測(cè)解碼器的非語(yǔ)音內(nèi)容的制作方法與工藝

技術(shù)領(lǐng)域

本公開涉及一種裝置和方法，用于修正由時(shí)域解碼器解碼的時(shí)域激勵(lì)的合成。

背景技術(shù)：

現(xiàn)有技術(shù)的會(huì)話編解碼器可以用非常好的質(zhì)量表現(xiàn)具有大約8kbps比特率的干凈語(yǔ)音信號(hào)和16kbps比特率的近似透明度。為了維持這樣的高語(yǔ)音質(zhì)量，即使在低比特率，也可以使用多模態(tài)編碼方案。通常，輸入聲音信號(hào)被分離成反映其特性的不同類別。例如，不同的類別可以包括濁音(voiced)、清音(unvoiced)和起始(onset)。編解碼器對(duì)所有這些類別使用優(yōu)化的不同的編碼模式。

然而，一些部署的語(yǔ)音編解碼器不使用這種多模態(tài)方法，導(dǎo)致對(duì)不同于干凈語(yǔ)音的聲音信號(hào)的次優(yōu)質(zhì)量(特別是在低比特率)。由于比特流被標(biāo)準(zhǔn)化，并且對(duì)比特流的任何修正都將破壞編解碼器的互操作性的事實(shí)，因此在部署編解碼器時(shí)，很難對(duì)編碼器進(jìn)行修正。然而，對(duì)解碼器進(jìn)行修正可以被實(shí)現(xiàn)用來改善在接收器側(cè)感知到的質(zhì)量。

技術(shù)實(shí)現(xiàn)要素：

根據(jù)第一方面，本公開涉及一種用于修正由時(shí)域解碼器解碼的時(shí)域激勵(lì)的合成的設(shè)備，包括：分類器，用于將解碼的時(shí)域激勵(lì)的合成分類到多個(gè)類別之一；用于將解碼的時(shí)域激勵(lì)轉(zhuǎn)換到頻域激勵(lì)的轉(zhuǎn)換器；修正器，作為通過分類器將解碼的時(shí)域激勵(lì)的合成分類到的類別的函數(shù)來修正頻域激勵(lì)；用于將修正的頻域激勵(lì)轉(zhuǎn)換到修正的時(shí)域激勵(lì)的轉(zhuǎn)換器；以及合成濾波器，被提供修正的時(shí)域激勵(lì)以產(chǎn)生解碼的時(shí)域激勵(lì)的修正的合成。

根據(jù)另一個(gè)方面，本公開涉及一種用于解碼通過編碼參數(shù)編碼的聲音信號(hào)的設(shè)備，包括：響應(yīng)于聲音信號(hào)編碼參數(shù)對(duì)時(shí)域激勵(lì)進(jìn)行解碼的解碼器；合成濾波器，響應(yīng)于解碼的時(shí)域激勵(lì)產(chǎn)生所述時(shí)域激勵(lì)的合成；以及上述用于修正時(shí)域激勵(lì)的合成的設(shè)備。

根據(jù)第三方面，本公開涉及一種用于修正由時(shí)域解碼器解碼的時(shí)域激勵(lì)的合成的方法，包括：將解碼的時(shí)域激勵(lì)的合成分類到多個(gè)類別之一中；將解碼的時(shí)域激勵(lì)轉(zhuǎn)換到頻域激勵(lì)；作為解碼的時(shí)域激勵(lì)的合成被分類到的類別的函數(shù)來修改頻域激勵(lì)；將修正的頻域激勵(lì)轉(zhuǎn)換成修正的時(shí)域激勵(lì)；以及合成修正的時(shí)域激勵(lì)以產(chǎn)生解碼的時(shí)域激勵(lì)的修正的合成。

根據(jù)進(jìn)一步的方面，本公開涉及一種用于解碼通過編碼參數(shù)編碼的聲音信號(hào)的方法，包括：響應(yīng)于聲音信號(hào)編碼參數(shù)解碼時(shí)域激勵(lì)；合成解碼的時(shí)域激勵(lì)以產(chǎn)生所述時(shí)域激勵(lì)的合成；以及上述用于修正時(shí)域激勵(lì)的合成的方法。

在閱讀參照附圖以非限制性示例的方式給出的下面的非限制性描述之后，用于修正時(shí)域激勵(lì)的合成的設(shè)備和方法的前述和其他特征將變得更加明顯。

附圖說明

在附圖中：

圖1是示出用于無效(inactive)和有效(active)的清音幀改善的CELP解碼器的變型的簡(jiǎn)化示意圖；

圖2是示出用于無效和有效的清音幀改善的CELP解碼器變型的詳細(xì)示意圖；

圖3是示出用于通用音頻幀改善的CELP解碼器的變型的簡(jiǎn)化示意圖；以及

圖4是示出用于通用音頻幀改善的CELP解碼器變型的詳細(xì)示意圖。

具體實(shí)施方式

本公開涉及一種在解碼器側(cè)實(shí)現(xiàn)多模態(tài)解碼以維持互操作性并提升感知質(zhì)量的方法。在本公開中，雖然如在參考文獻(xiàn)[3GPP TS 26.190，《Adaptive Multi-Rate-Wideband(AMR-WB)speech codec；Transcoding functions》]中描述的AMR-WB用作示例性示例，但應(yīng)該切記的是，這種方法也可以應(yīng)用到其他類型的低比特率語(yǔ)音解碼器，該參考文獻(xiàn)的全部?jī)?nèi)容通過引用并入本文。

參照?qǐng)D1，為了實(shí)現(xiàn)這種多模態(tài)解碼，時(shí)域激勵(lì)解碼器102首先對(duì)接收到的比特流101進(jìn)行整體解碼，例如AMR-WB比特流，以獲得完整的時(shí)域碼本激勵(lì)線性預(yù)測(cè)(CELP)解碼的激勵(lì)。解碼的時(shí)域激勵(lì)通過線性預(yù)測(cè)(LP)合成濾波器103進(jìn)行處理，以獲得解碼器內(nèi)部采樣頻率的語(yǔ)音/聲音信號(hào)時(shí)域合成。對(duì)于AMR-WB，該內(nèi)部采樣頻率為12.8kHz，但對(duì)另一編解碼器，它可能是不同的。

來自LP合成濾波器103的當(dāng)前幀的時(shí)域合成通過分類器104-105-106-301(圖1、圖2和圖3)進(jìn)行處理，其中向所述分類器提供來自比特流101的話音有效性檢測(cè)(VAD)信息109。分類器104-105-106-301分析時(shí)域合成并將其分類成無效語(yǔ)音、有效濁音語(yǔ)音、有效清音或通用音頻。無效語(yǔ)音(在1051檢測(cè)到)包括語(yǔ)音突發(fā)、表示主動(dòng)語(yǔ)音突發(fā)期間具有濁音特性的幀的有效濁音語(yǔ)音(在1061檢測(cè)到)、表示在語(yǔ)音突發(fā)期間具有清音特性的幀的有效的清音語(yǔ)音(在1062檢測(cè)到)、以及表示音樂或混響語(yǔ)音的通用音頻(在3010檢測(cè)到)之間的所有的背景噪音。其他的類別可以添加或從上述類別得到。所公開的方法的目的是改進(jìn)尤其(但并非排他性地)是無效的語(yǔ)音、有效的清音語(yǔ)音和通用音頻的感知質(zhì)量。

一旦確定了時(shí)域合成的類別，轉(zhuǎn)換器/修正器107就使用非重疊頻率變換將來自時(shí)域激勵(lì)解碼器102的解碼的激勵(lì)轉(zhuǎn)換到頻域。也可以使用重疊變換，但它意味著增加了端到端延遲，這在大多數(shù)情況下是不希望的。然后，在轉(zhuǎn)換器/修正器107中，將激勵(lì)的頻率表示分離到不同的頻帶。頻帶可以有固定的大小，可以依賴于臨界頻帶[[J.D.Johnston，“Transform coding of audio signal using perceptual noise criteria”，IEEE J.Select.Areas Commun.，第6卷，第314-323頁(yè)，1988年2月](其全部?jī)?nèi)容通過引入并入本文)，或任何其他的組合。然后，計(jì)算每個(gè)頻帶的能量，并將其保存在轉(zhuǎn)換器/修正器107的存儲(chǔ)器中，以在整形(resample)處理后使用，以確保修正不改變?nèi)值膸芰考?jí)。

轉(zhuǎn)換器/修正器107執(zhí)行的頻域中的激勵(lì)的修正可能會(huì)隨著合成的分類而不同。對(duì)于無效的語(yǔ)音和有效的清音語(yǔ)音，整形可以包括對(duì)低頻歸一化再添加噪聲，以及僅用噪聲替換高頻內(nèi)容。解碼的時(shí)域合成的截止頻率、低頻和高頻之間的界限可以固定在約1至1.2kHz的值。當(dāng)在未修正的幀和修正的幀之間進(jìn)行切換時(shí)，保持解碼的時(shí)域合成的一些低頻內(nèi)容以防止偽像。也可以通過選擇頻率區(qū)間(frequency bin)作為來自時(shí)域激勵(lì)解碼器102的解碼的基音(pitch)的函數(shù)而使得截止頻率逐幀可變化。修正處理具有除去與低比特率語(yǔ)音編解碼器相關(guān)聯(lián)的電噪聲種類的效果。修正處理后，應(yīng)用每頻帶的增益匹配，以取回每個(gè)頻帶的初始能量級(jí)，其中稍微增加6kHz以上的頻率的能量，以補(bǔ)償在這些頻率上的LP濾波器增益下降。

對(duì)于被歸類為通用音頻的幀，轉(zhuǎn)換器/修正器107中的處理是不同的。首先，對(duì)所有頻帶的每一個(gè)頻帶進(jìn)行歸一化。在歸一化操作中，頻帶中低于頻帶內(nèi)最大頻率值的一部分的所有區(qū)間都被設(shè)置為零。對(duì)于更高的頻段，每個(gè)頻段內(nèi)更多的區(qū)間歸零。這以較高的比特預(yù)算模擬了頻率量化方案，但更多的比特分配給了較低的頻率。歸一化處理后，可以應(yīng)用噪聲填充，用隨機(jī)噪聲替換歸零的區(qū)間，但取決于不同的比特率，并不總是使用噪聲填充。修正處理后，應(yīng)用每頻帶的增益匹配，以取回每個(gè)頻帶的初始能量級(jí)，并沿頻帶應(yīng)用取決于比特率的傾斜校正，以補(bǔ)償在通用音頻輸入情形中對(duì)LP濾波器的系統(tǒng)性低估。通用音頻路徑的另一個(gè)不同來自于增益匹配并非應(yīng)用在所有的頻率區(qū)間上的事實(shí)。由于通用音頻的頻譜通常比語(yǔ)音更加多尖峰，因此當(dāng)可以識(shí)別頻譜脈沖并對(duì)其加重時(shí)，改善了感知質(zhì)量。要做到這一點(diǎn)，只對(duì)頻帶內(nèi)的最高能量區(qū)間應(yīng)用具有傾斜校正的全增益匹配。對(duì)于最低能量區(qū)間，對(duì)這些區(qū)間只應(yīng)用一部分增益匹配。這導(dǎo)致增加頻譜動(dòng)態(tài)。

在激勵(lì)頻率整形和增益匹配之后，轉(zhuǎn)換器/修正器107應(yīng)用逆頻率變換，以獲得修正的時(shí)域激勵(lì)。該修正的激勵(lì)通過LP合成濾波器108處理，以得到修正的時(shí)域合成。在去加重濾波器和重采樣器112中最終去加重和重采樣至16kHz(對(duì)于AMR-WB的示例)之前，取決于時(shí)域解碼合成的分類，覆寫器110簡(jiǎn)單地用來自LP合成濾波器108的修正后的時(shí)域合成覆寫來自LP合成濾波器103的時(shí)域解碼合成。

在無效的語(yǔ)音的情形中，與有效的清音語(yǔ)音的修正相比，唯一的區(qū)別是使用平滑器111用于平滑LP合成濾波器108以給出更平滑的噪聲變化。其余的修正都與有效的清音路徑相同。在下面的文本中，參照?qǐng)D2描述實(shí)現(xiàn)公開的方法的更詳細(xì)的示例。

1)信號(hào)分類

參照?qǐng)D2，分類器104-105-106-301對(duì)于應(yīng)用了修正的比特率在解碼器執(zhí)行如上文描述的語(yǔ)音/聲音信號(hào)的時(shí)域合成的分類1021。為了簡(jiǎn)化附圖的目的，圖2沒有示出LP濾波器103。解碼器處的分類與如在參考文獻(xiàn)[Milan Jelinek和Philippe Gournay；PCT專利申請(qǐng)WO03102921A1，“A method and device for efficient frame erasure concealment in linear predictive based speech codecs”]和[T.Vaillancourt等人，PCT專利申請(qǐng)WO2007073604A1，“Method and device for efficient frame erasure concealment in speech codecs”]中描述的相似(這些參考文獻(xiàn)的全部?jī)?nèi)容通過引用并入本文)，加上對(duì)通用音頻檢測(cè)的一些適配。下面的參數(shù)用于在解碼器處對(duì)幀進(jìn)行分類：歸一化的相關(guān)性r_x、頻譜傾斜度量e_t、基音穩(wěn)定性計(jì)數(shù)器pc、在當(dāng)前幀E_s結(jié)束處聲音信號(hào)的相對(duì)幀能量和過零計(jì)數(shù)器zc。這些用于對(duì)信號(hào)進(jìn)行分類的參數(shù)的計(jì)算在下面說明。

歸一化的相關(guān)性r_x在幀結(jié)束處基于語(yǔ)音/聲音信號(hào)的時(shí)域合成S_out(n)計(jì)算。使用來自時(shí)域激勵(lì)解碼器102的最后一個(gè)子幀的基音滯后(lag)。更具體地，歸一化的相關(guān)性r_x基音同步地計(jì)算如下：

其中x(n)＝S_out(n)，T是最后一個(gè)子幀的基音滯后，t＝L-T，L是幀大小。如果最后一個(gè)子幀的基音滯后大于3N/2(N是子幀的大小)，那么將T設(shè)置為最后兩個(gè)子幀的平均基音滯后。

因此，歸一化的相關(guān)性r_x是使用語(yǔ)音/聲音信號(hào)時(shí)域合成S_out(n)計(jì)算得到的。對(duì)于低于子幀大小(64個(gè)采樣)的基音滯后，歸一化的相關(guān)性在時(shí)刻t＝L-T和T＝L-2T計(jì)算兩次，并且歸一化的相關(guān)性r_x作為這兩次計(jì)算的平均值給出。

頻譜傾斜參數(shù)e_t包含有關(guān)能量的頻率分布的信息。作為非限定性的示例，解碼器處的頻譜傾斜被估計(jì)為時(shí)域合成的第一歸一化自相關(guān)系數(shù)。它基于最后的3個(gè)子幀計(jì)算為：

其中x(n)＝S_out(n)是時(shí)域合成信號(hào)，N是子幀大小，L是幀大小(在AMR-WB的示例中，N＝64，L＝256)。

基音穩(wěn)定性計(jì)數(shù)器pc對(duì)基音周期的變化進(jìn)行評(píng)估。它在解碼器處如下計(jì)算：pc＝|p₃+p₂-p₁-p₀| (3)

值P₀，P₁，P₂和P₃對(duì)應(yīng)于來自當(dāng)前幀的4個(gè)子幀的閉環(huán)基音滯后(在AMR-WB的示例中)。

相對(duì)幀能量E_s計(jì)算為以dB為單位的當(dāng)前幀能量E_f和其長(zhǎng)期平均值E_lt之間的差

E_s＝E_f-E_lt (4)

其中當(dāng)前幀能量E_f是在幀結(jié)束處基音同步地計(jì)算得到的以dB為單位的時(shí)域合成S_out(n)的能量

其中L＝256(在AMR-WB的示例中)是幀的長(zhǎng)度，T是最后兩個(gè)子幀的平均基音滯后。如果T小于子幀的大小，那么將T設(shè)置為2T(對(duì)于短基音滯后使用兩個(gè)基音周期計(jì)算得到的能量)。

使用下面的關(guān)系式更新有效語(yǔ)音幀的長(zhǎng)期平均能量：

最后一個(gè)參數(shù)是在時(shí)域合成S_out(n)的一個(gè)幀上計(jì)算得到的過零計(jì)數(shù)器zc。作為非限制性的示例，過零計(jì)數(shù)器zc計(jì)數(shù)在該間隔期間時(shí)域合成的符號(hào)從正變?yōu)樨?fù)的次數(shù)。

為了使分類更魯棒，將分類參數(shù)放在一起考慮形成評(píng)價(jià)(merit)函數(shù)fm。為了這個(gè)目的，首先使用線性函數(shù)對(duì)分類參數(shù)進(jìn)行縮放。讓我們考慮參數(shù)P_x，其縮放版本使用下式獲得：

p^s＝k_p·p_x+C_p (7)

縮放后的基音穩(wěn)定性計(jì)數(shù)器pc被截短(clip)在0和1之間。對(duì)于每個(gè)參數(shù)已經(jīng)通過實(shí)驗(yàn)找到函數(shù)系數(shù)K_p和C_p。在該實(shí)現(xiàn)的示例中使用的值總結(jié)在表1中：

表1：解碼器處的幀分類參數(shù)和其相應(yīng)的縮放函數(shù)的系數(shù)

評(píng)價(jià)函數(shù)定義為：

其中上標(biāo)s表示參數(shù)的縮放版本。

然后，使用評(píng)價(jià)函數(shù)f_m并遵循在表2中總結(jié)的規(guī)則進(jìn)行幀的分類：

表2：解碼器處的信號(hào)分類規(guī)則

除此分類之外，與編碼器的話音有效性檢測(cè)(VAD)相關(guān)的信息109可被發(fā)送至比特流101中(圖1)，與在AMR-WB的示例中的情形一樣。因此，一比特被發(fā)送到比特流101以指定編碼器是否將當(dāng)前幀視為有效內(nèi)容(VAD＝1)或無效內(nèi)容(背景噪聲，VAD＝0)。當(dāng)VAD信息表明內(nèi)容是無效的時(shí)，分類器部分104，105，106和301然后將分類覆寫為清音。

分類方案還包括通用的音頻檢測(cè)(見分類器部分301，圖3)。通用音頻類別包括音樂、混響語(yǔ)音，還可以包括背景音樂。分類的第二個(gè)步驟允許分類器104-105-106-301以較好的置信度確定當(dāng)前幀可以被歸類為通用音頻。使用兩個(gè)參數(shù)來實(shí)現(xiàn)該第二分類步驟。一個(gè)參數(shù)是如等式(5)中表達(dá)的總幀能量E_f。

首先，過去四十(40)個(gè)總幀能量變化的平均值用下面的關(guān)系式計(jì)算得到：

其中

然后，最后十五(15)個(gè)幀上的能量變化歷史的統(tǒng)計(jì)偏差用下面的關(guān)系式確定：

得到的偏差σ_E給出對(duì)解碼的合成的能量穩(wěn)定性的指示。通常情況下，音樂比語(yǔ)音具有更高的能量穩(wěn)定性(較低的能量變化歷史的統(tǒng)計(jì)偏差)。

此外，第一個(gè)步驟的分類被用來評(píng)估當(dāng)如在等式(5)中表達(dá)的幀能量E_f大于-12dB時(shí)被分類為清音N_UV的兩個(gè)幀之間的間隔。當(dāng)幀被分類為清音，并且?guī)芰縀_f大于-9dB時(shí)，意味著信號(hào)是清音而不是無聲(silent)，如果如在等式(6)中表達(dá)的長(zhǎng)期有效語(yǔ)音能量E_lt小于40dB，那么將清音間隔計(jì)數(shù)器設(shè)置為16，否則將清音間隔計(jì)數(shù)器N_UV減小8。對(duì)于有效語(yǔ)音信號(hào)，計(jì)數(shù)器N_UV也被限制在0和300之間，對(duì)于無效語(yǔ)音信號(hào)，被限制在0和125之間。應(yīng)該提醒注意的是，在說明性的示例中，有效和無效語(yǔ)音信號(hào)之間的差可以從包含在比特流101中的話音有效性檢測(cè)VAD信息推導(dǎo)得到。

對(duì)于有效語(yǔ)音信號(hào)，從該清音幀計(jì)數(shù)器得到長(zhǎng)期平均值：

對(duì)于無效的語(yǔ)音信號(hào)則如下：

此外，當(dāng)長(zhǎng)期平均值很高，并且偏差σ_E也高時(shí)，例如在實(shí)現(xiàn)的當(dāng)前示例中，當(dāng)N_UVlt＞140并且σ_E＞5時(shí)，長(zhǎng)期平均值修正如下：

分類器104-105-106-301使用有關(guān)被分類為清音的幀之間的幀的數(shù)量的長(zhǎng)期平均值的參數(shù)，來確定所述幀是否應(yīng)被視為通用音頻。越多清音幀在時(shí)間上接近，幀越可能具有語(yǔ)音特征(更小可能是通用音頻)。在說明性的示例中，用來決定幀是否被視為通用音頻G_A的閾值定義如下：

幀是G_A，如果：并且

加上在等式(9)中定義的參數(shù)以便不將大的能量變化分類為通用音頻，而是將它保持為有效語(yǔ)音。

對(duì)激勵(lì)的修正的執(zhí)行取決于幀的分類，并且對(duì)一些類型的幀，根本沒有修正。下表3總結(jié)了可以進(jìn)行或不可以進(jìn)行修正的情況。

表3：激勵(lì)修正的信號(hào)類別

*可以取決于對(duì)通用音頻類別進(jìn)行或不進(jìn)行修正。例如，可以僅當(dāng)通用音頻是無效的時(shí)候?qū)ζ溥M(jìn)行修正，或僅當(dāng)通用音頻是有效的時(shí)候進(jìn)行修正，始終進(jìn)行修正或根本不進(jìn)行修正。

2)頻率變換

在頻域修正階段，需要將激勵(lì)表示到變換域。例如，通過使用給出25Hz頻率分辨率的II型DCT(離散余弦變換)的轉(zhuǎn)換器/修正器107的時(shí)域到頻域轉(zhuǎn)換器201實(shí)現(xiàn)時(shí)間到頻率轉(zhuǎn)換，但也可以使用任何其他合適的變換。如果使用另一種變換，那么頻率分辨率(上面定義的)、頻帶的數(shù)目和每個(gè)頻帶的頻率區(qū)間的數(shù)目(下文進(jìn)一步定義)可能需要相應(yīng)地修改。在時(shí)域到頻域轉(zhuǎn)換器201中計(jì)算的時(shí)域CELP激勵(lì)f_e的頻率表示如下給出：

其中e_td(n)是時(shí)域CELP激勵(lì)，L是幀長(zhǎng)度。在AMR-WB的示例中，對(duì)于對(duì)應(yīng)的內(nèi)采樣頻率12.8kHz幀長(zhǎng)度是256個(gè)采樣。

在時(shí)域CELP解碼器，諸如102中，時(shí)域激勵(lì)信號(hào)由以下給出：

e_td(n)＝bv(n)+gc(n) (15)

其中V(n)是自適應(yīng)碼本貢獻(xiàn)，b是自適應(yīng)碼本增益，c(n)是固定碼本貢獻(xiàn)，g是固定碼本增益。

3)每個(gè)頻帶的能量分析

在對(duì)時(shí)域激勵(lì)進(jìn)行任何修正之前，轉(zhuǎn)換器/修正器107包括增益計(jì)算器208-209-210，其本身包括子計(jì)算器209，用來計(jì)算頻域激勵(lì)的每個(gè)頻帶的能量E_b并將計(jì)算得到的每個(gè)頻帶的能量E_b保存在存儲(chǔ)器中以用于激勵(lì)頻譜整形后的能量調(diào)整。對(duì)于12.8kHz的采樣頻率，可以通過子計(jì)算器209如下計(jì)算能量：

其中C_Bb代表每個(gè)頻帶的累積頻率區(qū)間，B_b為每個(gè)頻帶的區(qū)間數(shù)量，定義為：

B_b＝{4，4，4，4，4，5，6，6，6，8，8，10，11，13，15，18，22，16，16，20，20，20，16}

低頻帶可以對(duì)應(yīng)于臨界(critical)音頻頻帶，如在Milan Jelinek和Philippe Gournay的PCT專利申請(qǐng)WO03102921A1，“A method and device for efficient frame erasure concealment in linear predictive based speech codecs”中描述的，其全部?jī)?nèi)容通過引用并入本文，但3700Hz以上的頻帶可以短一點(diǎn)，以更好地匹配這些頻帶中可能的頻譜能量變化。頻譜頻帶的任何其他的配置也是可能的。

4)無效和有效的清音幀的激勵(lì)修正

a)時(shí)域貢獻(xiàn)的截止頻率對(duì)比噪聲填充

為了實(shí)現(xiàn)無效幀和有效的清音幀的未修正激勵(lì)和修正后激勵(lì)之間的透明切換，至少保持時(shí)域激勵(lì)貢獻(xiàn)的較低頻率。轉(zhuǎn)換器/修正器107包括截止頻率計(jì)算器203，用來確定停止使用時(shí)域貢獻(xiàn)的頻率，截止頻率f_c具有最小值1.2kHz。這意味著，始終保持解碼的激勵(lì)的第一個(gè)1.2kHz，并且取決于來自時(shí)域激勵(lì)解碼器102的解碼的基音值，截止頻率可以更高。8次諧波從所有子幀的最低基音計(jì)算得到，時(shí)域貢獻(xiàn)保持高達(dá)該8次諧波。對(duì)8次諧波的估計(jì)計(jì)算如下：

其中F_s＝12800Hz，N_sub是子幀的數(shù)量，T是解碼的子幀基音。對(duì)于所有的i<N_b，其中N_b是被包括在頻率范圍L_f中的最大頻帶，通過搜索最高的頻帶以找到8次諧波所在的頻帶來進(jìn)行驗(yàn)證，對(duì)于該最高的頻帶，依然驗(yàn)證下面的不等式：

其中L_f定義為：

L_f中的頻帶的索引將被稱為它表明8次諧波可能位于的頻段。截止頻率計(jì)算器203使用下面的關(guān)系將最終的截止頻率f_tc計(jì)算為1.2kHz和8次諧波可能位于的頻帶中的最后頻率之間的較高的頻率，：

b)歸一化和噪聲填充

轉(zhuǎn)換器/修正器107還包括將高于截止頻率f_c的頻帶的頻率區(qū)間歸零的歸零器204。

對(duì)于無效幀和有效的清音幀，轉(zhuǎn)換器/修正器107的歸一化器205使用下面的關(guān)系在[0，4]之間歸一化低于時(shí)域CELP激勵(lì)f_e的頻率表示的頻帶的f_c的頻率區(qū)間：

然后，轉(zhuǎn)換器/修正器107包括隨機(jī)噪聲產(chǎn)生器206，用來產(chǎn)生隨機(jī)噪聲，并通過加法器207來進(jìn)行簡(jiǎn)單的噪聲填充，以在所有的頻率區(qū)間上以恒定的等級(jí)添加噪聲。描述噪聲添加的函數(shù)定義如下：

其中r_and是限制在-1到1之間的隨機(jī)數(shù)產(chǎn)生器。

c)修正后激勵(lì)頻譜的每個(gè)頻帶的能量分析

增益計(jì)算器208-209-210的子計(jì)算器208用與在上面的第3小節(jié)描述的相同方法確定在頻譜整形后每個(gè)頻帶的能量E_b’。

d)能量匹配

對(duì)于無效幀和有效的清音幀，能量匹配僅在于在對(duì)其初始值進(jìn)行激勵(lì)頻譜修正后調(diào)整每個(gè)頻帶的能量。對(duì)于每個(gè)頻帶i，增益計(jì)算器208-209-210的子計(jì)算器210確定用來應(yīng)用到頻帶中的所有區(qū)間的匹配增益G_b，以如下匹配能量：

其中E_b(i)是如在子計(jì)算器209中使用上面第3小節(jié)的方法確定的激勵(lì)頻譜修正之前的每個(gè)頻帶的能量，E_b’(i)是如在子計(jì)算器208中計(jì)算的激勵(lì)頻譜修正之后的每個(gè)頻帶的能量。對(duì)于特定的頻帶i，如在子計(jì)算器210中確定的修正后的(去歸一化的)頻域激勵(lì)f′_edN可以寫為：

對(duì)于C_Bb(i)≤j＜C_Bb(i)+B_b(i)

f′_edN(j)＝G_b(i)·f′_eN(j) (23)

其中C_Bb和B_b在上面的第3小節(jié)中定義。

5)通用音頻幀的激勵(lì)修正

a)歸一化和噪聲填充

現(xiàn)在將參考圖3。對(duì)于如通過分類部分301確定的通用音頻幀，歸一化是略有不同的，并通過歸一化器302執(zhí)行。首先，歸一化因子N_f逐頻帶變化，對(duì)于低頻帶使用較大的值，對(duì)于高頻帶使用較小的值。這個(gè)想法允許在脈沖定位更準(zhǔn)確的低頻帶的較高幅度，以及在脈沖定位不那么準(zhǔn)確的較高頻帶的較低幅度。在這個(gè)示例性示例中，根據(jù)頻帶變化的歸一化因子N_f定義為：

N_f＝{16，16，16，16，16，16，16，12，12，12，12，8，8，8，8，8，4，4，2，2，1，1，1}

對(duì)于特定的頻帶i，通用音頻幀的時(shí)域激勵(lì)(頻域激勵(lì))f_e的頻率表示的歸一化可以描述如下：

對(duì)于C_Bb(i)≤j＜C_Bb(i)+B_b(i) (24)

其中B_b是每個(gè)頻帶的區(qū)間的數(shù)量，每個(gè)頻帶的累積頻率區(qū)間是C_Bb，f_eN(j)是歸一化頻域激勵(lì)。B_b和C_Bb在上面的第3小節(jié)中描述。

此外，歸一化器302包括歸零器(未顯示)，用來對(duì)每個(gè)頻帶中f_eN(j)的最大值的一部分Z_f以下的所有頻率區(qū)間進(jìn)行歸零以得到f’_eN(j)：

其中Z_f可以表示為：

Z_f＝{1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，0.5，0.5，0.5}

如果想要提高頻譜的多峰性(peakyness)，更積極的歸零可以通過增大向量Z_f的值來執(zhí)行。

b)修正后激勵(lì)頻譜的每個(gè)頻帶的能量分析

增益計(jì)算器303-304-306的計(jì)算器部分303確定用與在上面的第3小節(jié)描述的相同方法的頻譜整形之后的每頻帶的能量E_b’。

c)能量匹配

圖3示出了增益計(jì)算器303-304-306，圖4更詳細(xì)描述了該增益計(jì)算器的計(jì)算器部分306。

對(duì)于通用音頻幀，能量匹配更復(fù)雜，因?yàn)樗哪康囊彩翘岣哳l譜動(dòng)態(tài)。對(duì)于每個(gè)頻帶i，增益計(jì)算器303-304-306的計(jì)算器部分306的子計(jì)算器413計(jì)算如在等式(22)中類似地定義的估計(jì)的增益G_e：

其中E_b(i)是如在計(jì)算器部分304中使用如上面第3小節(jié)描述的方法確定的激勵(lì)頻譜修正之前的每個(gè)頻帶的能量，E_b’(i)是如在計(jì)算器部分303中計(jì)算的激勵(lì)頻譜修正之后的每個(gè)頻帶的能量。

計(jì)算器部分306的子計(jì)算器414使用下面的關(guān)系將增益G應(yīng)用到來自歸一化器302和頻譜分割器401-420的歸一化頻域激勵(lì)f’_eN的第一個(gè)400Hz(或最先的4個(gè)頻帶)以提供修正的(去歸一化的)頻域激勵(lì)f’_edN：

f′_edN(j)＝G_e(i)·f′_eN(j)，對(duì)于C_Bb(i)≤j＜C_Bb(i)+B_b(i)|_0≤i＜4 (27)

查找器404確定在400Hz以上的每個(gè)頻帶j的最大值max_a≤j＜b(|f_eN(j)|)，其中a＝C_Bb(i)，b＝C_Bb(i)+B_b(i)在上面的第3小節(jié)中定義。

對(duì)于包含在歸一化頻域激勵(lì)的400Hz和2kHz(頻帶4至12)之間的頻帶(參見模塊420和450)，如果歸一化頻域激勵(lì)在頻率區(qū)間f′_eN(j)≥0.86max_a≤j＜b(|f_eN(j)|)中(參見模塊451)，則放大器402如在等式(28)的上面一行所示將來自子計(jì)算器413的增益G_e放大因子1.1。子計(jì)算器403根據(jù)等式(28)的第一行將來自放大器402的放大的增益應(yīng)用到頻率區(qū)間中的歸一化頻譜激勵(lì)f’_eN以獲得修正的(去歸一化的)頻域激勵(lì)f’_edN。

再次，對(duì)于包含在歸一化頻域激勵(lì)的400Hz和2kHz(頻帶4至12)之間的頻帶(參見模塊420和450)，如果歸一化頻域激勵(lì)在頻率區(qū)間f′_eN(j)＜0.86max_a≤j＜b(|f_eN(j)|)中(參見模塊451)，則衰減器405如在等式(28)的下面一行所示將來自子計(jì)算器413的增益G_e衰減因子0.86。子計(jì)算器406根據(jù)等式(28)的下面一行將來自衰減器405的衰減的增益應(yīng)用到頻率區(qū)間中的歸一化頻譜激勵(lì)f’_eN以獲得修正的(去歸一化的)頻域激勵(lì)f’_edN。

用于總結(jié)，修正后的(去歸一化的)頻譜激勵(lì)f’_edN如下給出：

最后，對(duì)于頻譜中更高的部分，在該示例中為歸一化頻域激勵(lì)2kHz以上的頻帶(頻帶＞12)(參見模塊420和450)，如果歸一化頻域激勵(lì)在頻率區(qū)間f′_eN(j)≥0.86max_a≤j＜b(|f_eN(j)|)中(參見模塊452)，那么將作為頻帶i的函數(shù)并且也可以是比特率的函數(shù)的傾斜添加到增益G_e，以補(bǔ)償LPC濾波器過低的能量估計(jì)。每個(gè)頻帶的傾斜值δ(i)表示為：

傾斜通過傾斜計(jì)算器407-408計(jì)算得到，并通過子計(jì)算器409根據(jù)等式(30)的上面一行按頻率區(qū)間應(yīng)用到歸一化頻域激勵(lì)f’_eN，以得到修正的(去歸一化的)頻域激勵(lì)f’_edN。

再次，對(duì)于頻譜中更高的部分，在該示例性示例中為歸一化頻域激勵(lì)2kHz以上的頻帶(頻帶＞12)(參見模塊420和450)，如果歸一化頻域激勵(lì)在頻率區(qū)間f′_eN(j)＜0.86max_α≤j＜b(|f_eN(j)|)中(參見模塊452)，那么衰減器410計(jì)算由子計(jì)算器406根據(jù)等式(30)的下面一行按頻率區(qū)間應(yīng)用到歸一化頻譜激勵(lì)f’_eN以獲得修正的(去歸一化的)頻域激勵(lì)f’_edN的衰減增益[f′_eN(j)/max_a≤j＜b(|f_eN(j)|)]²。

用于總結(jié)，去歸一化的頻譜激勵(lì)f’_edN如下確定：

其中a和b在本文的上面有描述。也可以進(jìn)一步增大應(yīng)用到最新頻帶的增益，其中LPC的能量匹配是最差的。

6)逆頻率變換

合成器453合成來自子計(jì)算器414，403，406，409和411的對(duì)修正的(去歸一化的)頻域激勵(lì)f’_edN的貢獻(xiàn)，以形成完整的修正的(去歸一化的)頻域激勵(lì)f’_edN。

在頻域處理完成后，將逆頻率時(shí)間變換202應(yīng)用于來自合成器453的修正的(去歸一化的)頻域激勵(lì)f’_edN，以找到時(shí)域修正后的激勵(lì)。在這個(gè)示例性實(shí)施例中，頻率到時(shí)間轉(zhuǎn)換使用與對(duì)于時(shí)間到頻率轉(zhuǎn)換使用的給出25Hz分辨率的相同的II型DCT的逆過程實(shí)現(xiàn)。再次，可以使用任何其他的變換。獲得如下的修正的時(shí)域激勵(lì)e′_td：

其中f’_edN是修正后的激勵(lì)的頻率表示，L是幀長(zhǎng)度。在這個(gè)示例性示例中，對(duì)于對(duì)應(yīng)的12.8kHz的內(nèi)部采樣頻率，幀長(zhǎng)度為256個(gè)采樣(AMR-WB)。

7)合成濾波和覆寫當(dāng)前的CELP合成

一旦完成激勵(lì)修正，就通過合成濾波器108處理修正后的激勵(lì)，以獲得當(dāng)前幀的修正的合成。覆寫器110使用此修正的合成覆寫解碼的合成，從而提高感知質(zhì)量。

最后的去加重和重采樣到16kHz可以隨后在去加重濾波器和重采樣器112中進(jìn)行。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3