混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)的制作方法

文檔序號：2826516閱讀：292來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)，該方法把語音幀提供給混合音頻解碼器，語音幀提供混合音頻解碼器在合成音頻信號中所需使用的譜參數(shù)；根據(jù)譜參數(shù)判斷當(dāng)前幀是否為壞幀，若為壞幀，則根據(jù)當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性，選擇近鄰N個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)。本發(fā)明既考慮了連續(xù)壞幀和當(dāng)前壞幀與近鄰好幀間編碼模式的相關(guān)性，從而進(jìn)一步提高了音頻質(zhì)量。
【專利說明】混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)
【技術(shù)領(lǐng)域】[0001]本發(fā)明涉及混合音頻解碼器，具體涉及一種混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)。
【背景技術(shù)】
[0002]現(xiàn)代移動通信中，音頻信號通過分幀打包，然后以比特流的形式傳輸。由于不存在理想信道，傳輸過程中會出現(xiàn)丟包現(xiàn)象，接收端就會接收到錯誤信息，我們稱之為壞幀。在現(xiàn)有的AMR-WB、AMR-WB+, AVS-PlO編解碼器中，當(dāng)出現(xiàn)壞幀時，一般根據(jù)相鄰好幀的譜參數(shù)來代替當(dāng)前壞幀的譜參數(shù)，從而隱藏當(dāng)前壞幀譜參數(shù)，達(dá)到增強音頻質(zhì)量的效果。
[0003]現(xiàn)有的編碼方式中，ACELP256編碼模式適合語音音頻信號，TCX256編碼模式適合瞬變音樂音頻信號，TCX512編碼模式適合暫穩(wěn)態(tài)音頻信號，TCX1024編碼模式適合穩(wěn)態(tài)音頻信號。AMR-WB+和AVS-PlO編解碼器都是采用混合編碼模式，混合音頻編碼模式比單一音頻編碼模式適用范圍更廣。但是，混合音頻解碼器對壞幀進(jìn)行恢復(fù)時，均未考慮當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性。

【發(fā)明內(nèi)容】

[0004]針對現(xiàn)有技術(shù)存在的不足，本發(fā)明提供了一種考慮了當(dāng)前壞幀與近鄰好幀編碼模式相關(guān)性的、混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法及系統(tǒng)。
[0005]為解決上述問題，本發(fā)明采用如下的技術(shù)方案:
[0006]一、混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，該方法把語音幀提供給混合音頻解碼器，語音幀提供混合音頻解碼器在合成音頻信號中所需使用的譜參數(shù)；根據(jù)譜參數(shù)判斷當(dāng)前幀是否為壞幀，若為壞幀，則根據(jù)當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性，選擇近鄰N個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)。所述的N優(yōu)選為I或2或3。所述的待定系數(shù)a、0、Y通過樣本訓(xùn)練獲得。
[0007]上述選擇近鄰N個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)，具體采用如下公式進(jìn)行恢復(fù):
[0008]ISFq(i) = a *past_ISFji) +3 *ISFadaptiveJiea^ihMISFconst 隱n(i)
[0009]其中:ISF^i)是當(dāng)前壞幀ISF向量的第i分量TastJSFq⑴是當(dāng)前壞幀的上一好幀ISF向量的第i分量；ISFadaptive m_(i)是當(dāng)前壞幀的近鄰N個好幀ISF向量的第i分量的平均值；ISF_st m_(i)是ISF向量的長期平均值常數(shù)向量的第i分量，為經(jīng)驗常數(shù)；a、^、Y是待定系數(shù)，由當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性、連續(xù)壞幀數(shù)量及當(dāng)前誤碼率決定為ISF向量的分量編號，i = 0，1，...，15。
[0010]如果當(dāng)前壞幀與最近好幀的編碼模式相同，且當(dāng)前壞幀的近鄰M個好幀的編碼模式也相同，則使用該近鄰M個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)，即所述的ISFadaptive _(i)為該近鄰M個好幀的ISF向量第i分量的平均值；考慮當(dāng)前壞幀與近鄰好幀的相關(guān)度確定M0[0011] 如果當(dāng)前壞幀與最近好幀的編碼模式相同，當(dāng)前壞幀的近鄰M個好幀中離當(dāng)前壞幀最近的N個好幀的編碼模式相同，則使用該近鄰N個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)，即所述的ISFadaptive m_(i)為該近鄰N個好幀的ISF向量第i分量的平均值；考慮當(dāng)前壞幀與近鄰好幀的相關(guān)度確定M。
[0012]如果當(dāng)前壞幀與最近好幀的編碼模式不同，則使用該最近好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)，即所述的ISFadaptive m_(i)為該最近好幀的ISF向量的第i分量。
[0013]二、混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替系統(tǒng)，包括:
[0014]壞幀判斷模塊，用來根據(jù)譜參數(shù)判斷當(dāng)前幀是否為壞幀；
[0015]譜參數(shù)代替模塊，用來根據(jù)當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性，選擇近鄰N個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)。
[0016]本發(fā)明根據(jù)當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性，采用近鄰好幀的自適應(yīng)平均值來代替壞幀譜參數(shù)，隱藏壞幀對語音解碼器的影響，以提高語音解碼器合成音頻的主觀質(zhì)量。本發(fā)明中，壞幀指損壞幀和丟失幀。
[0017]與現(xiàn)有技術(shù)相比，本發(fā)明具有如下有益效果:
[0018]AMR-WB+編解碼器未考慮連續(xù)丟幀情況，當(dāng)連續(xù)丟幀較多時，其音頻質(zhì)量較差；AVS-PlO編解碼器雖然考慮了連續(xù)丟幀情況，但其僅利用最近一個好幀對壞幀譜參數(shù)進(jìn)行恢復(fù)，忽略了近鄰好幀間編碼模式的相關(guān)性，其音頻質(zhì)量仍有待提高。本發(fā)明既考慮了連續(xù)壞幀情況，也考慮了當(dāng)前壞幀與近鄰好幀間編碼模式的相關(guān)性，從而可進(jìn)一步提高合成音
頻質(zhì)量。
【專利附圖】

【附圖說明】
[0019]圖1是發(fā)射和存儲音頻信號的系統(tǒng)框圖；
[0020]圖2是本發(fā)明方法的一種具體流程圖。
【具體實施方式】
[0021]本發(fā)明用于混合音頻解碼器中幀差錯隱藏的譜參數(shù)替代，把語音幀提供給混合音頻解碼器，語音幀提供混合音頻解碼器在合成音頻中所需使用的譜參數(shù)，混合音頻解碼器根據(jù)譜參數(shù)判斷當(dāng)前語音幀是否為壞幀，若為壞幀，則根據(jù)當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性確定譜參數(shù)代替方法。
[0022]AMR-WB, AMR-WB+和AVS-PlO等編解碼器將接收語音幀的線性預(yù)測系數(shù)轉(zhuǎn)換為導(dǎo)譜頻率ISF并進(jìn)行量化，將ISF作為譜參數(shù)傳送至解碼端。本發(fā)明所需使用的譜參數(shù)即ISF向量。
[0023]本發(fā)明的譜參數(shù)替代方法可采用如下公式來表示:
[0024]ISFq(i) = a *past_ISFji) +3 *ISFadaptiveJiea^ihMISFconst 隱n(i) (I)
[0025]其中:
[0026]ISFq(i)是當(dāng)前壞幀ISF向量的第i分量；
[0027]past_ISFq(i)是當(dāng)前壞幀的上一好幀ISF向量的第i分量；
[0028]ISFadaptive mean(i)是當(dāng)前壞幀的近鄰N個好幀ISF向量的第i分量的平均值，根據(jù)當(dāng)前壞幀和近鄰好幀編碼模式的相關(guān)性確定N值；[0029]ISFconst fflean(i)是ISF向量的長期平均值常數(shù)向量的第i分量，為經(jīng)驗常數(shù)；
[0030]a、0Y是待定系數(shù)，由當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性、連續(xù)壞幀數(shù)量及當(dāng)前誤碼率決定；
[0031]i為ISF向量的分量的編號，i = 0，1，? ? ?，15。
[0032]上述待定系數(shù)可通過樣本訓(xùn)練得到，具體為:
[0033]根據(jù)當(dāng)前壞幀和前近鄰M個好幀編碼模式的相關(guān)性分為M類情況，該M類情況分別指取前近鄰1、2、…M個近鄰好幀ISF向量的平均值來恢復(fù)當(dāng)前壞幀的譜參數(shù)，這里M的優(yōu)選取值為I~3。基于上述M類情況對若干音頻序列在無差錯解碼時的ISF向量進(jìn)行分類訓(xùn)練。訓(xùn)練各類ISF向量時，考慮連續(xù)壞幀數(shù)量，分別在連續(xù)壞幀數(shù)量為I~P的情況下訓(xùn)練ISF向量，并以當(dāng)前壞幀的正確ISF向量為擬合目標(biāo)對該類ISF向量訓(xùn)練樣本進(jìn)行擬合，以獲得不同連續(xù)壞幀及不同誤碼率下對應(yīng)的待定系數(shù)。當(dāng)連續(xù)壞幀數(shù)大于3時，采用指數(shù)函數(shù)表示待定系數(shù)；當(dāng)連續(xù)壞幀數(shù)量不大于3時，則直接獲得待定系數(shù)值。
[0034]下面結(jié)合附圖和上述譜參數(shù)替代方法進(jìn)一步說明本發(fā)明的【具體實施方式】。
[0035]見圖1，音頻信號通過信道傳輸?shù)交旌弦纛l解碼端，當(dāng)混合音頻解碼器檢測到壞幀時，分析當(dāng)前壞幀和近鄰好幀的編碼模式，采用近鄰好幀的譜參數(shù)對當(dāng)前壞幀譜參數(shù)進(jìn)行隱藏。壞幀的譜參數(shù)會影響語音的質(zhì)量，隱藏壞幀的譜參數(shù)可增強音頻質(zhì)量。
[0036]目前的音頻編碼模式主要有四種，ACELP256編碼模式適合語音音頻信號，TCX256編碼模式適合瞬變音樂音頻信號，TCX512編碼模式適合暫穩(wěn)態(tài)音頻信號，TCX1024編碼模式適合穩(wěn)態(tài)音頻信號?；旌弦纛l編碼模式比單一音頻編碼模式適用范圍更廣，AMR-WB+和AVS-PLO編解碼器均是采用混合編碼模式，但在進(jìn)行幀差錯隱藏時，均未考慮當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性，僅僅只是在編碼模式切換時做了平滑處理。而本發(fā)明在幀差錯隱藏時考慮了當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性。
[0037]圖2為本發(fā)明方法的一種【具體實施方式】。根據(jù)本發(fā)明，把語音幀提供給混合音頻解碼器，各語音幀提供混合音頻解碼器在合成音頻中所需使用的譜參數(shù)，當(dāng)接收到好幀時，混合音頻解碼器使用常規(guī)解碼方式進(jìn)行解碼。當(dāng)接收到壞幀時，則對壞幀的譜參數(shù)進(jìn)行替代，然后使用常規(guī)解碼方式對譜參數(shù)替代后的壞幀進(jìn)行解碼。
[0038]在混合音頻編碼器編碼模式切換處，幀的相關(guān)性很低，需要用近鄰好幀的譜參數(shù)來恢復(fù)當(dāng)前壞幀。距離當(dāng)前壞幀越遠(yuǎn)的幀，當(dāng)前壞幀與其相關(guān)度越低。實際應(yīng)用過程中，一般可選取當(dāng)前壞幀的近鄰I~3個好幀的譜參數(shù)來恢復(fù)當(dāng)前壞幀。本【具體實施方式】中，取當(dāng)前壞幀的近鄰三個好幀的譜參數(shù)對當(dāng)前壞幀執(zhí)行譜參數(shù)代替，具體恢復(fù)方法為:如果當(dāng)前壞幀與最近好幀編碼模式相同，且當(dāng)前壞幀的近鄰三個好幀的編碼模式相同，則使用近鄰三個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀的譜參數(shù)，即公式(I)中的ISFadapti”aJi)為當(dāng)前壞幀的近鄰三個好幀ISF向量第i分量的平均值。如果當(dāng)前壞幀與最近好幀編碼模式相同，但當(dāng)前壞幀的近鄰三個好幀中僅最近的兩個近鄰好幀編碼模式相同，則使用近鄰兩個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀的譜參數(shù)，即公式(I)中的ISFadaptive _n(i)為當(dāng)前壞幀的近鄰兩個好幀的ISF向量第i分量的平均值。如果當(dāng)前壞幀與最近好幀編碼模式相同，但該最近好幀與其前一好幀的編碼模式不同，則僅使用該最近好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀的譜參數(shù)，即公式(I)中的ISFadaptive _n(i)為當(dāng)前壞幀的最近好幀的ISF向量第i分量。如果當(dāng)前壞幀與最近好幀編碼模式不同，則使用該最近好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀的譜參數(shù)，即公式(I) 中的ISFadaptive _(i)為當(dāng)前壞幀的最近好幀的ISF向量第i分量。
【權(quán)利要求】
1.混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，把語音幀提供給混合音頻解碼器，語音幀提供混合音頻解碼器在合成音頻信號中所需使用的譜參數(shù)，其特征在于: 根據(jù)譜參數(shù)判斷當(dāng)前幀是否為壞幀，若為壞幀，則根據(jù)當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性，選擇近鄰N個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)。
2.如權(quán)利要求1所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 所述的N為I或2或3。
3.如權(quán)利要求1所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 所述的選擇近鄰N個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)，具體采用如下公式進(jìn)行恢復(fù):
ISFq(i) = a *past_ISFji) + @ *ISFadaptive—咖⑴ +Y*ISFCQnst—^eanQ) 其中=ISFJi)是當(dāng)前壞幀ISF向量的第i分量；paSt_ISF^i)是當(dāng)前壞幀的上一好幀ISF向量的第i分量；ISFadaptive m_(i)是當(dāng)前壞幀的近鄰N個好幀ISF向量的第i分量的平均值；ISF_st m_(i)是ISF向量的長期平均值常數(shù)向量的第i分量，為經(jīng)驗常數(shù)；a、3、Y是待定系數(shù)，由當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性、連續(xù)壞幀數(shù)量及當(dāng)前誤碼率決定；i為ISF向量的分量編號，i = O，1，...，15。
4.如權(quán)利要求3所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 如果當(dāng)前壞幀與最近好幀的編碼模式相同，且當(dāng)前壞幀的近鄰M個好幀的編碼模式也相同，則使用該近鄰M個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)，即所述的ISFadaptive _n(i)為該近鄰M個好幀的ISF向量第i分量的平均值；考慮當(dāng)前壞幀與近鄰好幀的相關(guān)度確定M。
5.如權(quán)利要求3所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 如果當(dāng)前壞幀與最近好幀的編碼模式相同，當(dāng)前壞幀的近鄰M個好幀中離當(dāng)前壞幀最近的N個好幀的編碼模式相同，則使用該近鄰N個好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)，即所述的ISFadaptive _(i)為該近鄰N個好幀的ISF向量第i分量的平均值；考慮當(dāng)前壞幀與近鄰好幀的相關(guān)度確定M。
6.如權(quán)利要求3所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 如果當(dāng)前壞幀與最近好幀的編碼模式不同，則使用該最近好幀的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)，即所述的ISFadaptive _(i)為該最近好幀的ISF向量的第i分量。
7.如權(quán)利要求3所述的混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替方法，其特征在于: 所述的待定系數(shù)a、0、Y通過樣本訓(xùn)練獲得。
8.混合音頻解碼器中幀差錯隱藏的譜參數(shù)代替系統(tǒng)，其特征在于，包括: 壞幀判斷模塊，用來根據(jù)譜參數(shù)判斷當(dāng)前幀是否為壞幀；譜參數(shù)代替模塊，用來根據(jù)當(dāng)前壞幀與近鄰好幀編碼模式的相關(guān)性，選擇近鄰N個好中貞的譜參數(shù)恢復(fù)當(dāng)前壞幀譜參數(shù)。
【文檔編號】G10L19/20GK103646647SQ201310683244
【公開日】2014年3月19日申請日期:2013年12月13日優(yōu)先權(quán)日:2013年12月13日
【發(fā)明者】胡瑞敏, 楊玉紅, 王衍業(yè), 董少龍, 謝松波, 余洪江, 高麗, 王曉晨, 涂衛(wèi)平, 高戈申請人:武漢大學(xué)

完整全部詳細(xì)技術(shù)資料下載