專利名稱:用于嵌入式語音編碼的幀擦除隱藏方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及用于嵌入式語音編碼的幀擦除隱藏方法及系統(tǒng)。
技術背景對于語音的網(wǎng)絡傳輸,在無線通信網(wǎng)絡和分組交換網(wǎng)絡中,當發(fā)生網(wǎng)絡擁 塞時,會出現(xiàn)大量的IP幀丟失和較長時間的延遲,這種情況將嚴重影響接收端 合成語音的質量。承載語音幀的包丟失或者沒有及時到達接收端就叫做幀擦除,當幀擦除發(fā) 生時,解碼器利用已經(jīng)收到的正常幀,用一類似的結構來代替擦除的語音,這 種方法就叫做幀擦除隱藏。嵌入式語音編碼是針對語音的網(wǎng)絡傳輸而提出的一種新的編碼方案。它可 以生成一種具有層結構的嵌入式碼流,該碼流的核心層加栽的是語音的基本信 息,其它增強層則逐層加載對基本信息的補充,用以提高語音的合成質量。該 編碼器生成的全碼流在網(wǎng)絡中傳輸,當網(wǎng)絡質量下降時,則保留核心層而丟棄 若干增強層,從而最大程度的保證了接收端合成語音的質量。嵌入式語音編碼的幀擦除包括兩種情況第一種,保留核心層而丟棄若干 增強層,它相當于對碼流的截斷;第二種,整幀信息都丟失。傳統(tǒng)的基于CELP模型的編碼器,例如G.729、 G722.2等,幀擦除的隱藏 方法僅僅簡單的用前幾幀的語音信號內插得到丟失幀的各個參數(shù),包括線譜頻 率參數(shù)、自適應碼書及其增益和固定碼書及其增益。上述隱藏傳統(tǒng)的幀擦除掩 蔽方法簡單,復雜度低,但是恢復效果較差。發(fā)明內容本發(fā)明實施例提供用于嵌入式語音編碼的幀擦除的隱藏方法及系統(tǒng)。 一種嵌入式語音編碼的幀擦除隱藏方法,根據(jù)采用丟失幀之前接收到的幀 的語音信號內插得到的所述丟失幀的線語頻率參數(shù)和激勵,恢復得到所述丟失幀的合成語音,得到所述激勵中的自適應碼書的步驟為根據(jù)所述丟失幀的前一非丟失幀的速率,選擇不同的激勵內插得到所述丟 失幀的自適應碼書。一種用于嵌入式語音編碼的幀擦除的隱藏系統(tǒng),包括存儲單元、內插單元、 合成單元和控制單元,其中,所述存儲單元,用于存儲接收到的幀的語音信號的各參數(shù);所述內插單元,用于將所述控制單元從所述存儲單元中調用的所述語音信 號參數(shù)中的激勵信號進行內插后,得到的丟失幀的各參數(shù)發(fā)送給控制單元;所述控制單元,用于將接收到的所述丟失幀的各參數(shù)發(fā)送給所述合成單元 恢復得到所述丟失幀的合成語音;所述控制單元還用于根據(jù)所述丟失幀的前一非丟失幀的速率,選擇不同的 激勵發(fā)送給所述內插單元,得到所述丟失幀的自適應碼書。上述方法或系統(tǒng),在幀擦除隱藏時,對于恢復丟失幀的自適應碼書所使用 的內插激勵根據(jù)前一非丟失幀的速率進行選擇,這樣得到的自適應碼書更接近 丟失幀的原始編碼信號,從而提高了幀擦除隱藏的質量。
圖i是本發(fā)明實施例中寬帶嵌入式編碼碼流幀擦除的示意圖; 圖2是本發(fā)明實施例中寬帶嵌入式解碼端幀擦除的隱藏方法的原理框圖; 圖3是本發(fā)明實施例中語音類型判斷的流程圖; 圖4是本發(fā)明實施例中丟失幀自適應碼書恢復的原理框圖; 圖5是本發(fā)明一實施例中于嵌入式語音編碼的幀擦除的隱藏系統(tǒng)的結構 示意圖。
具體實施方式
圖l示出了寬帶嵌入式編碼碼流發(fā)生幀擦除的情況。嵌入式語音編碼器碼 流的幀擦除情況不同于傳統(tǒng)固定速率編碼器的碼流幀擦除。傳統(tǒng)編碼器生成的 碼流在發(fā)生幀擦除時,是將整幀信息全部丟棄;而嵌入式語音編碼器生成的碼 流發(fā)生幀擦除的情況比較復雜,包括丟失增強四層、丟失增強三四層、丟失增強二三四層、丟失增強一二三四層和將整幀全部丟失這五種情況。對于這五種情況,嵌入式語音解碼器對幀頭進行^r測,得到幀的長度信息。 除了"整幀全部丟失,,這種情況的幀長為O,前四種幀擦除的幀長分別為480bits、 320bits、 24bits、 160bits。對于這四種情況,解碼器僅根據(jù)接收到的碼流解碼, 從而得到合成語音。而對于"整幀全部丟失"這種情況的幀擦除,則恢復CELP 模型的各個參數(shù),包括語包絡、自適應碼書及其增益、固定碼書及其增益。本 發(fā)明實施例幀擦除的隱藏方法針對的是"整幀全部丟失"的幀擦除情況,具體方 法如下。圖2示出了解碼端幀擦除的隱藏方法的原理框圖。 方框201至206為丟失幀的語音類型估計。本實施例中,對所有接收的幀都進行語音類型估計,如果當前幀為丟失幀 則設當前丟失幀的語音類型與前一非丟失幀的語音類型相同。語音類型分為為靜音、濁音、清音、清音向濁音的過渡、濁音向清音的過 渡五種。語音類型分類用到的參數(shù)包括方框202中的平均能量A、方框203 中的歸一化自相關^、方框204中的過零率o,、方框205中的譜傾斜e,。根據(jù)式(1 )計算當前幀的平均能量& ,其中為合成語音根據(jù)式(2)計算自相關,其中〗(")為合成語音,r為第四子幀的整數(shù)基音延 遲,f = 256-r,其中256為采樣的樣點數(shù)。如果r"6,則r設為第三子幀和第 四子幀的平均值。如果基音延遲小于子幀的長度(r〈64),則歸一化自相關要再計算一次,此時t設為/^-r,且r為第三子幀和第四子幀的平均值,這時的歸 一化自相關為兩次計算的自相關的平均值。<formula>formula see original document page 7</formula>過零率O,則為當前幀合成語音的波形穿過零值的次數(shù)。鐠傾斜e,由歸一化自相關近似估計,計算公式如下,這里〗(")為合成語音。<formula>formula see original document page 8</formula>方框201表示根據(jù)以上計算的四個參數(shù)來判斷當前幀的語音類型。本發(fā)明 根據(jù)語音的特性,逐級分類。具體的判斷流程參見圖3,其中四個判斷條件由經(jīng) 驗得到,具體如下條件l : £,35,如果滿足條件1則當前幀為靜音幀,否則轉入條件2;條件2 : ^ >0.77且^> 0.885 ;或者^ >0.96且 <25,如果滿足條 件2的情況之一則為當前幀濁音幀,否則轉入條件3;條件3: >53且^<0.75,如果滿足條件3則當前幀為清音幀,否則轉 入條件4;條件4:當前幀的前一幀的類型為靜音幀或者為濁音向清音的過渡幀,如 果滿足條件4則當前幀為清音向濁音過渡幀,否則當前幀為濁音向清音過渡 幀。方框207為語包絡的恢復。設該丟失幀的ISF參數(shù)和前一非丟失幀的ISF 參數(shù)相同。方框20為激勵的恢復,包括自適應碼書及其增益的恢復,和固定碼書及 其增益的恢復。方框208為自適應碼書的恢復。根據(jù)語音的短時平穩(wěn)特性,通常情況下將 丟失幀的基音周期用過去一幀第四子幀的基音周期代替。但是對于寬帶語音, 其基音的動態(tài)范圍較大。如果僅用過去一子幀的基音周期代替,恢復的效果并 不好。本發(fā)明采用&722.2標準中對丟失幀基音周期估計的技術對過去一子 幀基音周期的可用性進行判斷,如果濁音性和穩(wěn)定性強,說明該丟失幀和過去 幀比較變化不大,該丟失幀的基音周期可以用過去一子幀的代替;否則,則該 丟失幀的基音周期值在一定范圍內隨機產(chǎn)生。另外,通過實驗證明如果過去 一子幀的基音周期可用,則將此基音周期值加1的效果比直接使用該值的效果 好。所以,本發(fā)明對所采用的&722.2標準中對丟失幀基音周期估計的技術稍 加改動如果過去一子幀的基音周期可用,則將此基音周期值加l。將此值作 為丟失幀的整氣基音周期。以上過程得到了丟失幀的整數(shù)基音周期,分數(shù)基音周期設為o。然后內插前一非丟失幀的激勵從而得到自適應碼書。傳統(tǒng)的基于CELP模型的編碼器中 僅存在唯一的激勵緩沖區(qū),而由于本編碼器嵌入式結構的特殊性,在CELP模 塊,解碼端除了生成核心層的激勵,還會生成包含增強層信息的激勵。如圖4, 對丟失幀,通過對前一非丟失幀幀速率的判斷選擇對應的激勵內插如果前一 非丟失幀的速率為8kb/s,則選用前一非丟失幀的核心層的激勵內插;如果前一 非丟失幀的速率為12kb/s,則選用前一非丟失幀的增強一層與核心層的激勵之 和內插;如果前一幀的速率大于等于16kb/s,則選用前一非丟失幀的增強二層、 增強 一層與核心層的激勵總和內插。方框209為固定碼書的恢復。丟失幀的固定碼書由隨機產(chǎn)生的序列代替。方框211、 212為自適應碼書和固定碼書增益的恢復。丟失幀的自適應碼 書增益,和固定碼書增益ge由過去五子幀的中值得到。方框213用能量外推法對丟失幀的自適應碼書增益進行調整,該方法可理 解為用丟失幀前兩子幀激勵的平均能量比來估計丟失幀自適應碼書的增益。這里,E為丟失幀的前兩子幀激勵平均能量比。=0.7£r'+0.3£, Ei是E 的幀間平滑值,E^表示前一子幀幀間平滑值。T(-"〉為前第n子幀的基音周期, n)為前第n子幀激勵。<formula>formula see original document page 9</formula>得到的E,為丟失幀自適應碼書的增益的調整值,但在以下兩種情況下E 不能代替原來計算的自適應碼書增益<formula>formula see original document page 9</formula>方框214為生成激勵和。但是,對于丟失幀,其固定碼書由隨機序列代替, 實驗表明,如果該丟失幀為濁音,包含此固定碼書的合成語音會有明顯的噪聲。同時,該固定碼書會破壞濁音激勵信號的波形,影響了丟失幀后的正常幀的語 音合成。所以本發(fā)明采用"固定碼書的能量限制技術",即對不同類型的丟失幀 的固定碼書的能量進行限制,具體如下1) 如果當前為濁音幀,固定碼書各樣點衰減0.5;2) 如果當前幀為"清音向濁音過渡",則第3、 4子幀固定碼書各樣點逐點 衰減,衰減系數(shù)由1漸變到0.5;3) 如果當前幀為"濁音向清音過渡",則第1、 2子幀固定碼書各樣點逐點 衰減,衰減系數(shù)為0.5漸變到1。其中0.5為實驗得到的經(jīng)驗值。固定碼書調整后,得到激勵和,最后通過合成濾波器215生成恢復的丟失 幀語音。為了進一步提高幀擦除隱藏的質量,在編碼端進行了一項特殊的處理控 制自適應碼書的貢獻。目的是限制自適應碼書在合成語音中的貢獻,從而減少 幀間的相關性。這樣,就能加快丟失幀后正常幀恢復的速度。而對自適應碼書 貢獻的限制,可以作用于自適應碼書的增益。式(7)為原始的自適應碼書增益 gp的計算公式,其中x(n)為目標矢量,y(n)為自適應碼書與感知加權濾波器的巻 積。<formula>formula see original document page 10</formula>本處理對自適應碼書在合成語音中的貢獻比R進行限制,式(8)為自適應碼書 在合成語音中貢獻64<formula>formula see original document page 10</formula>這里,Ep為自適應碼書貢獻的能量,Ex為目標矢量的能量。對自適應碼書貢獻 的控制方法為如果IKRth,則自適應碼書的增益gp不變,即仍用式(7)計算得到的gp;否則,gp按下式調整,其中Rth為預先設定的自適應碼書貢獻的門限值<formula>formula see original document page 11</formula>在具體實現(xiàn)時,參見圖5,相應的提出用于嵌入式語音編碼的幀擦除的隱 藏系統(tǒng),包括存儲單元l、內插單元2、合成單元3和控制單元4,其中,存 儲單元l,存儲接收到的幀的語音信號的各參數(shù);內插單元2,將控制單元從 存儲單元中調用的語音信號參數(shù)中的激勵信號進行內插后,得到的丟失幀的各 參數(shù)發(fā)送給控制單元;控制單元4,將接收到的所述丟失幀的各參數(shù)發(fā)送給合 成單元3恢復得到丟失幀的合成語音;控制單元4還根據(jù)丟失幀的前一非丟失 幀的速率,選擇不同的激勵發(fā)送給內插單元,得到丟失幀的自適應碼書??刂茊卧捎盟俾时容^器和加法器實現(xiàn)對前一非丟失幀的速率進行判斷和 選擇不同的激勵的目的,其中,所述速率比較器根據(jù)所述前一非丟失幀的速率,選擇所述前一非丟失幀的各層的激勵或核心層的激勵發(fā)送給所述加法器;所述 加法器將所述前一非丟失幀的各層的激勵求和后發(fā)送給所述內插單元;或直接 將所述核心層的激勵發(fā)送給所述內插單元。還包括分類單元5,分類單元對接收到的幀的語音類型進行分類后,發(fā)送 給存儲單元存儲。分類單元采用參數(shù)運算器和參數(shù)比較器實現(xiàn)語音類型的分類,其中,參數(shù) 運算器計算接收到的幀的平均能量Ex、歸一化自相關rx、過零率ox和語傾斜 ex,并發(fā)送給參數(shù)比較器;參數(shù)比較器將平均能量Ex、歸一化自相關rx、過 零率ox和語傾斜ex與分別與相關的預定值比較后,向存儲單元輸出接收到的 幀的語音類型。還包括能量調整單元6,用于對所述控制單元發(fā)送的所述丟失幀的各參數(shù) 中的固定碼書的能量進行調整后發(fā)送給所述合成單元。在本實施例中,所述能 量調整單元為衰減器。還包括增益調整單元7,用于對所述控制單元發(fā)送的所述丟失幀的自適應 碼書的增益進行調整后發(fā)送給所述合成單元。還包括基音周期單元8,所述控制單元調用的語音信號中的前一非丟失幀 的基音周期可用時,將所述前一非丟失幀的基音周期加一后發(fā)送給所述內插單元處理。還包括相關單元9,如果編碼端的嵌入式編碼信號中自適應碼書的貢獻大 于或等子預定門限時,用子對所迷自適應碼書的貴獻進行限制。測試表明,采用本發(fā)明實施例進行幀擦除的隱藏,速率為8kb/s(Rl)幀擦除 率(FER)為3%的合成語音,優(yōu)于G.722.2 8.85kb/s FER為3。/。合成語音質量; 本編碼器速率為24kb/s(R3) FER為6。/。的合成語音,與G.722.2 8.85kb/s無錯誤 率情況下的質量基本相當;本編碼器速率為32kb/s(R5) FER為3。/。的合成語音, 以及本編碼器各層發(fā)生擦除的情況(R1,L2,L3,L4,L5) FER分別為0,2,4,6,10%的 合成語音,與G.722.2 12.65kb/s無錯誤率情況下的質量基本相當,幀擦除隱藏 的質量符合ITU-T G.VBR提案的要求。
權利要求
1. 用于嵌入式語音編碼的幀擦除隱藏方法,根據(jù)采用丟失幀之前接收到的幀的語音信號內插得到的所述丟失幀的線譜頻率參數(shù)和激勵,恢復得到所述丟失幀的合成語音,其特征在于,得到所述激勵中的自適應碼書的步驟為根據(jù)所述丟失幀的前一非丟失幀的速率,選擇不同的激勵內插得到所述丟失幀的自適應碼書。
2、 根據(jù)權利要求1所述的隱藏方法,其特征在于,根據(jù)所述丟失幀的前 一非丟失幀的速率,選擇不同激勵內插得到所述丟失幀的自適應碼書的步驟包 括根據(jù)所述前一非丟失幀的速率,選擇所述前一非丟失幀的各層的激勵之和 或核心層的激勵內插得到所述丟失幀的自適應碼書。
3、 根據(jù)權利要求1所述的隱藏方法,其特征在于,還包括如下步驟對所述丟失幀的前一非丟失幀的語音類型進行估計,設置所述丟失幀的語 音類型與所述丟失幀前一非丟失幀的語音類型相同。
4、 根據(jù)權利要求3所述的隱藏方法,其特征在于,所述語音類型包括靜 音、濁音、清音、清音向濁音的過渡和濁音向清音的過渡。
5、 根據(jù)權利要求4所述的隱藏方法,其特征在于,所述語音類型的判斷 參數(shù)包括平均能量Ex、歸一化自相關rx、過零率Ox和譜傾斜ex。
6、 根據(jù)權利要求5所述的隱藏方法,其特征在于,對接收到的當前幀采 用所述判斷參數(shù)進行語音類型判斷的方法包括如果平均能量Ex《35,則所述當前幀為靜音幀,否則轉入以下步驟; 如果歸一化自相關r 0.77且鐠傾斜e一 0.885 ;或者譜傾斜ex> 0.96且過零率0)4<25,則所述當前幀為濁音幀,否則轉入以下步驟;如果過零率Ox》53且鐠傾斜ex〈0.75,則所述當前幀為清音幀,否則轉入以下步驟;如果所述當前幀的前一幀的類型為靜音幀或者為濁音向清音的過渡幀,則 所述當前幀為清音向濁音過渡幀,否則所述當前幀為濁音向清音過渡幀。
7、 根據(jù)權利要求4至6其中之一所述的隱藏方法,其特征在于,還包括 如下步驟對不同語音類型的丟失幀的激勵中的固定碼書的能量進行調整。
8、根據(jù)權利要求7所述的隱藏方法,其特征在于,對所述固定碼書的能 量進行調整的方法包括如杲所迷丟失幀為濁音幀,所迷固定碼書的各樣點進行衰減,衰減系數(shù)為 預定值;如果所述丟失幀為"清音向濁音過渡",則所述丟失幀的第3、 4子幀固定碼 書各樣點逐點衰減,衰減系數(shù)由l漸變到預定值;如果所述丟失幀為"濁音向清音過渡",則所述丟失幀的第1、 2子幀固定碼 書各樣點逐點衰減,衰減系數(shù)為預定值漸變到1,所述預定值在0和1之間。
9、 根據(jù)權利要求8所述的隱藏方法,其特征在于,所述預定值為0.5。
10、 根據(jù)權利要求1所述的隱藏方法,其特征在于,還包括如下步驟 用能量外推法對所述激勵中的自適應碼書的增益進行調整。
11、 根據(jù)權利要求1所述的隱藏方法,其特征在于,還包括如下步驟 如果所述前一非丟失幀的基音周期可用,則將所述前一非丟失幀的基音周期加1后作為所述丟失幀的基音周期。
12、 根據(jù)權利要求1所述的隱藏方法,其特征在于,還包括如下步驟 在編碼端,當嵌入式編碼信號中自適應碼書的貢獻大于或等于預定門限,則對所述自適應碼書的貢獻進行限制。
13、 用于嵌入式語音編碼的幀擦除的隱藏系統(tǒng),包括存儲單元、內插單元、 合成單元和控制單元,其中,所述存儲單元,用于存儲接收到的幀的語音信號的各參數(shù); 所述內插單元,用于將所述控制單元從所述存儲單元中調用的所述語音信 號參數(shù)中的激勵信號進行內插后,得到的丟失幀的各參數(shù)發(fā)送給控制單元; 所述控制單元,用于將接收到的所述丟失幀的各參數(shù)發(fā)送給所述合成單元恢復得到所述丟失幀的合成語音; 其特4正在于,所述控制單元還用于根據(jù)所述丟失幀的前一非丟失幀的速率,選擇不同的 激勵發(fā)送給所述內插單元,得到所述丟失幀的自適應碼書。
14、 根據(jù)權利要求13所述的隱藏系統(tǒng),其特征在于,所述控制單元包括速 率比較器和加法器,其中,所述速率比較器根據(jù)所述前一非丟失幀的速率,選擇所述前一非丟失幀的各層的激勵或核心層的激勵發(fā)送給所述加法器;所迷加法器將所述前一非丟失幀的各層的激勵求和后發(fā)送給所述內插單 元;或直接將所述核心層的激勵發(fā)送給所述內插單元。
15、 根據(jù)權利要求13所述的隱藏系統(tǒng),其特征在于,還包括分類單元,所 述分類單元對接收到的幀的語音類型進行分類后,發(fā)送給所述存儲單元存儲。
16、 根據(jù)權利要求15所述的隱藏系統(tǒng),其特征在于,所述分類單元包括參 數(shù)運算器和參數(shù)比較器,其中,所述參數(shù)運算器用于計算接收到的幀的平均能量Ex、歸一化自相關rx、過 零率ox和譜傾斜ex,并發(fā)送給所述參數(shù)比較器;所述參數(shù)比較器將所述平均能量Ex、歸一化自相關rx、過零率ox和譜傾 斜ex與分別與相關的預定值比較后,向所述存儲單元輸出接收到的幀的語音 類型。
17、 根據(jù)權利要求15或16所述的隱藏系統(tǒng),其特征在于,還包括能量調 整單元,用于對所述控制單元發(fā)送的所述丟失幀的各參數(shù)中的固定碼書的能量 進行調整后發(fā)送給所述合成單元。
18、 根據(jù)權利要求17所述的隱藏系統(tǒng),其特征在于,所述能量調整單元為
19、 根據(jù)權利要求13所述的隱藏系統(tǒng),其特征在于,還包括增益調整單元, 用于對所迷控制單元發(fā)送的所述丟失幀的自適應碼書的增益進行調整后發(fā)送 給所述合成單元。
20、 根據(jù)權利要求13所述的隱藏系統(tǒng),其特征在于,還包括基音周期單元, 所述控制單元調用的語音信號中的前一非丟失幀的基音周期可用時,將所述前 一非丟失幀的基音周期加一后發(fā)送給所述內插單元處理。
21、根據(jù)權利要求13所述的隱藏系統(tǒng),其特征在于,還包括相關單元, 如果編碼端的嵌入式編碼信號中自適應碼書的貢獻大于或等于預定門限時,用 于對所述自適應碼書的貢獻進行限制。
全文摘要
本發(fā)明實施例提供了一種用于嵌入式語音編碼的幀擦除隱藏方法及系統(tǒng),該方法為用丟失幀之前接收到的幀的語音信號內插得到所述丟失幀的各參數(shù),包括線譜頻率參數(shù)和激勵,根據(jù)所述線譜頻率參數(shù)和激勵恢復得到所述丟失幀的合成語音,得到所述激勵中的自適應碼書的步驟為根據(jù)所述丟失幀的前一非丟失幀的速率,選擇不同的激勵內插得到所述丟失幀的自適應碼書。在幀擦除隱藏時,對于恢復丟失幀的自適應碼書所使用的內插激勵根據(jù)前一非丟失幀的速率進行選擇,這樣得到的自適應碼書更接近丟失幀的原始編碼信號,從而提高了幀擦除隱藏的質量。
文檔編號G10L15/00GK101256774SQ20071008536
公開日2008年9月3日 申請日期2007年3月2日 優(yōu)先權日2007年3月2日
發(fā)明者劉澤新, 恒 朱, 銳 李, 李海婷, 李立雄, 睿 范, 賈懋珅, 鮑長春 申請人:北京工業(yè)大學;華為技術有限公司