在g.711語音編碼中隱藏冗余信息的方法

文檔序號：2831998閱讀：920來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：在g.711語音編碼中隱藏冗余信息的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及網(wǎng)絡(luò)丟包環(huán)境下改善語音通信質(zhì)量的方式和聲音信號中特征提取以及信息隱藏的方式，尤其涉及一種在G.711語音編碼中隱藏冗余信息提高語音抗丟包能力的方法。

背景技術(shù)：
VoIP是指通過分組交換IP數(shù)據(jù)網(wǎng)絡(luò)撥打電話的語音通信技術(shù)，其具有節(jié)約帶寬、降低話費(fèi)和可與其它數(shù)據(jù)業(yè)務(wù)融合等優(yōu)點(diǎn)，也因其分組傳輸?shù)奶匦?，存在著延遲(語音包延時(shí)到達(dá))、抖動(dòng)(語音包延遲時(shí)間和到達(dá)順序不可預(yù)見)和丟包(語音包丟失)等不可避免的問題。VoIP的基本傳輸過程是聲音經(jīng)過模-數(shù)轉(zhuǎn)換后，語音編碼器將數(shù)字化的語音信號轉(zhuǎn)化為比特流，比特流經(jīng)過打包后通過IP網(wǎng)絡(luò)傳輸。然后，語音解碼器利用接收的語音包，對語音信號進(jìn)行重構(gòu)，還原出原始語音信號。語音編碼器和解碼器是VoIP通訊質(zhì)量的關(guān)鍵。
語音編碼算法是語音編碼的核心組成部分，G.711是國際電信聯(lián)盟(ITU-T)制定的最常用的音頻編碼方式之一，采樣率為8k每秒，利用一個(gè)64kbps未壓縮通道傳輸語音訊號。其后許多新的編碼被提出，如G.729，G.723，speex，iLBC等；G.729等編碼考慮了共軛結(jié)構(gòu)的算術(shù)碼本激勵(lì)線性預(yù)測壓縮技術(shù)，使編碼后的語音包碼率降低到8kbps左右；有些編碼如iLBC則考慮了壓縮和冗余技術(shù)，使得通訊過程中的抗丟包性能大大提高。然而一種新的編碼實(shí)施成本往往非常昂貴，到目前為止，G.711仍然是使用最普遍的編碼方式，兼容于大多數(shù)電話設(shè)備，尤其是無法通過軟件升級來實(shí)現(xiàn)新的編碼的硬件上。
G.711是一種無損音頻壓縮編碼。根據(jù)日常生活中的語音信號特點(diǎn)和人耳的聲學(xué)特性，聲音信號其實(shí)可以用很低的碼率來表達(dá)主要信息。聲學(xué)的研究表明，將聲音的時(shí)域信號轉(zhuǎn)換成頻域信號，提取出頻譜中的主要特征，忽略掉次要細(xì)節(jié)，還原成的語音仍然能辨認(rèn)主要內(nèi)容。因此，在語音包丟失嚴(yán)重的惡劣網(wǎng)絡(luò)傳輸條件下，如果能犧牲一部分聲音細(xì)節(jié)信息，優(yōu)先傳送語音中的特征數(shù)據(jù)，可以避免丟包引起的聲音頓挫、斷續(xù)和不可辨認(rèn)，使語音平滑和連貫，從而在同等網(wǎng)絡(luò)條件下改善通話效果。
FFT算法可用來將聲音由時(shí)域變換到頻域，它是一種可逆算法，并且可以由硬件加速，適合實(shí)時(shí)處理。IFFT是其反變換，可用于將頻域信號變換回時(shí)域。如果頻域信號未改變，反變換的結(jié)果與原始語音相同。而語音的頻域信號上至少存在著以下幾種信息隱藏算法一、高頻隱藏將高頻信號截去一部分，替換成隱藏信息，人耳聽覺上會(huì)認(rèn)為其是背景噪聲；二、頻率掩蔽區(qū)域隱藏如果在某個(gè)頻率存在一個(gè)局部能量峰值，人耳會(huì)對其周圍的一部分頻率非常不敏感，因此將其截去或替換成其它信息，這就是心理聲學(xué)模型中的“頻率掩蔽效應(yīng)”；三、相位隱藏通過輕微改變頻域信號的相位信息來實(shí)現(xiàn)信息嵌入；四倒譜域隱藏采用復(fù)倒譜變換，在倒譜域進(jìn)行隱藏。
由于電話通訊中聲音的采樣頻率只有8k每秒，根據(jù)香農(nóng)定理，理論上只能承載最高4kHz的頻率信號，實(shí)際上一般認(rèn)為電話語音的可用頻率范圍是200Hz～3.4kHz，因此在3.4kHz～4kHz的一段頻域空間其實(shí)正好可以用來隱藏信息。頻率掩蔽區(qū)域隱藏、倒譜域隱藏等算法理論上隱藏的效果更好，但是計(jì)算量很大，而且電話帶寬太有限，處理起來不經(jīng)濟(jì)。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)存在的不足，提供一種在G.711語音編碼中隱藏冗余信息提高語音抗丟包能力的方法，使系統(tǒng)既能兼容于G.711編碼，又能大大提高語音通信的抗丟包能力，改善通話質(zhì)量。
本發(fā)明的目的通過以下技術(shù)方案來實(shí)現(xiàn) 在G.711語音編碼中隱藏冗余信息的方法，特點(diǎn)是在語音包編碼前進(jìn)行緩沖和前置處理，使語音信息中包含被隱藏的冗余信息，帶有人耳不敏感的隱藏信息，隱藏信息包含了臨近的前若干幀語音包的主要特征，然后用正常的G.711方式編碼和發(fā)送，在解碼端增加與解碼同步的緩沖和后置同步處理，恢復(fù)正常語音，即接收端用反向算法進(jìn)行解碼和后處理獲得原始語音信息；當(dāng)發(fā)生數(shù)據(jù)包丟失時(shí)，從其臨近的其它數(shù)據(jù)包中獲得丟失包的主要語音特征，從緩沖區(qū)中獲得鄰近包中含有丟失包特征的數(shù)據(jù)，重建丟失包的主要語音信號，從而恢復(fù)出丟失包的主要語音數(shù)據(jù)；而對于不知曉該隱藏算法的解碼端，直接用正常的G.711方式解碼獲得接近原始狀態(tài)的語音。
進(jìn)一步地，上述的在G.711語音編碼中隱藏冗余信息的方法，具體包含以下步驟—— ①對語音信號進(jìn)行前置處理，建立語音發(fā)送數(shù)據(jù)緩沖區(qū)，對緩沖區(qū)中的每一片語音信號變換到頻域，根據(jù)心理聲學(xué)模型，提取出頻域中包含的主要特征分量，對頻域數(shù)據(jù)去除一部分人耳不敏感的信號，然后把特征分量分散隱藏到緩沖區(qū)中鄰近的語音包中，最后把隱藏了冗余特征信息的語音包由頻域變換回時(shí)域； ②將隱藏了冗余信息的語音包按正常G.711編碼方式進(jìn)行編碼，通過上層通信環(huán)境發(fā)送到受話方； ③在語音接收方建立接收數(shù)據(jù)緩沖區(qū)，對收到的每一片語音包根據(jù)G.711編碼進(jìn)行解碼，然后變換到頻域，檢測是否存在隱藏信息，如果存在，將其分離出來，并還原出被壓縮部分的語音數(shù)據(jù)； ④當(dāng)緩沖區(qū)設(shè)定的超時(shí)時(shí)間截止后，檢查尚未到達(dá)的語音包，根據(jù)鄰近的已到達(dá)語音包中分離出來的特征信息，對丟失的語音包進(jìn)行特征重建，對無法獲得特征信息的語音包嘗試進(jìn)行預(yù)測重建，最后還原出完整的語音波形信號輸出； ⑤根據(jù)統(tǒng)計(jì)的丟包情況估計(jì)網(wǎng)絡(luò)質(zhì)量，調(diào)整冗余信息的密度，在低質(zhì)量網(wǎng)絡(luò)中使用更低的原始信號密度和更高的冗余信息密度，體現(xiàn)在回送的語音信號中。
更進(jìn)一步地，上述的在G.711語音編碼中隱藏冗余信息的方法，其中，所述語音編碼前置處理，建立語音發(fā)送數(shù)據(jù)緩沖區(qū)，對緩沖區(qū)中的每一片語音信號用FFT變換到頻域，根據(jù)心理聲學(xué)模型，提取出頻域中包含的主要特征分量，然后對頻域數(shù)據(jù)進(jìn)行壓縮，去除一部分人耳不敏感的信號區(qū)，然后將特征分量分散隱藏到緩沖區(qū)中鄰近的語音包中，最后將隱藏冗余特征信息的語音包用IFFT由頻域變換回時(shí)域，然后用G.711編碼發(fā)送。
更進(jìn)一步地，上述的在G.711語音編碼中隱藏冗余信息的方法，其中，所述語音解碼同步處理，建立語音接收數(shù)據(jù)緩沖區(qū)，對收到的每一片語音包根據(jù)G.711編碼進(jìn)行解碼，用FFT變換到頻域，檢測并分離出隱藏信息，還原出被壓縮部分的語音數(shù)據(jù)，當(dāng)緩沖區(qū)設(shè)定的超時(shí)時(shí)間已到，檢查尚未到達(dá)的語音包，根據(jù)鄰近的已到達(dá)語音包中分離出來的特征信息，對丟失的語音包進(jìn)行特征重建。
再進(jìn)一步地，上述的在G.711語音編碼中隱藏冗余信息的方法，其中，所述信息重建，重建的過程包括冗余信息重建和預(yù)測重建兩個(gè)步驟，冗余信息重建，在可以從鄰近包中得到該語音包的特征信息的情況下，恢復(fù)出該語音包的頻域數(shù)據(jù)；冗余信息重建，在無法從鄰近包中獲得該語音包確切特征信息的情況下，通過判斷語音信號在時(shí)域范圍上的變化特征，對該包的頻域信號進(jìn)行預(yù)測填充。
本發(fā)明技術(shù)方案突出的實(shí)質(zhì)性特點(diǎn)和顯著的進(jìn)步主要體現(xiàn)在 (1)針對G.711編碼設(shè)計(jì)的增強(qiáng)編碼和傳輸模式，通過在聲音頻域信息中隱藏鄰近包的特征信息，使語音數(shù)據(jù)在傳輸過程中不可避免地存在丟包的情況下，可以從相鄰包的冗余信息中還原出丟失包的語音信息，從而實(shí)現(xiàn)平滑的語音同時(shí)又保留大部分聲音細(xì)節(jié)；完全兼容于G.711原有的編解碼算法，不改變數(shù)據(jù)長度，因此在沒有該解碼算法的環(huán)境中，用普通的解碼算法仍然能還原出正常的語音，因此兼容于普通的G.711支持系統(tǒng)，同時(shí)在增強(qiáng)環(huán)境中提供更好的語音質(zhì)量； (2)不需要實(shí)現(xiàn)通知通話接收方新的編碼方式的存在，通話協(xié)商仍然是通過G.711方式建立，因此避免了引入一種新編碼方式對于原通訊系統(tǒng)調(diào)整的巨大代價(jià)，而G.711編碼仍然是目前使用最廣泛和通話質(zhì)量最好的編碼之一；即使接收方不知曉增強(qiáng)編碼方式的存在，以普通G.711方式解碼，仍然能獲得人耳聽覺上與原信號差異不大的語音信息，高頻區(qū)隱藏的冗余信息體現(xiàn)在通話背景中略微的“茲茲”聲； (3)不改變原有G.711編碼本身的結(jié)構(gòu)和輸出碼流的長度，其額外信息是隱藏在頻域信號中的，因此對G.711完全透明，同時(shí)具有較強(qiáng)的抗變換性能； (4)可以大大增強(qiáng)丟包情況發(fā)生時(shí)線路的通訊質(zhì)量，在間隔丟一兩個(gè)包的情況下基本上能還原出不間斷的完整信號，只有發(fā)生連續(xù)大片丟包時(shí)，才無法還原任何語音，因此可以較大幅度地提升惡劣環(huán)境下通話的MOS值。

下面結(jié)合附圖對本發(fā)明技術(shù)方案作進(jìn)一步說明圖1本發(fā)明的流程示意圖；圖2編碼過程示意圖；圖3頻域信息隱藏過程示意圖；圖4冗余信息嵌入前后波形對比示意圖；圖5解碼過程示意圖。
圖中各附圖標(biāo)記的含義見下表
具體實(shí)施例方式 不改變原有G.711語音數(shù)據(jù)編碼、傳輸、還原的方式，通過在語音編碼前進(jìn)行緩沖和前置處理，使語音信息中包含被隱藏的冗余信息，在解碼端增加與解碼同步的緩沖和后置同步處理，恢復(fù)正常語音，當(dāng)發(fā)生丟包的情況，從緩沖區(qū)中獲得鄰近包中含有丟失包特征的數(shù)據(jù)，重建丟失包的主要語音信號，從而實(shí)現(xiàn)在兼容G.711編碼的基礎(chǔ)上，增強(qiáng)通話的抗丟包性能。
如圖1所示，在G.711語音編碼中隱藏冗余信息的方法，具體過程是①對語音信號進(jìn)行前置處理，建立語音發(fā)送數(shù)據(jù)緩沖區(qū)，對緩沖區(qū)中的每一片語音信號變換到頻域，根據(jù)心理聲學(xué)模型，提取出頻域中包含的主要特征分量，對頻域數(shù)據(jù)去除一部分人耳不敏感的信號，然后把特征分量分散隱藏到緩沖區(qū)中鄰近的語音包中，最后把隱藏了冗余特征信息的語音包由頻域變換回時(shí)域；②將隱藏了冗余信息的語音包按正常G.711編碼方式進(jìn)行編碼，通過上層通信環(huán)境發(fā)送到受話方；③在語音接收方建立接收數(shù)據(jù)緩沖區(qū)，對收到的每一片語音包根據(jù)G.711編碼進(jìn)行解碼，然后變換到頻域，檢測是否存在隱藏信息，如果存在，將其分離出來，并還原出被壓縮部分的語音數(shù)據(jù)；④當(dāng)緩沖區(qū)設(shè)定的超時(shí)時(shí)間截止后，檢查尚未到達(dá)的語音包，根據(jù)鄰近的已到達(dá)語音包中分離出來的特征信息，對丟失的語音包進(jìn)行特征重建，對無法獲得特征信息的語音包嘗試進(jìn)行預(yù)測重建，最后還原出完整的語音波形信號輸出；⑤根據(jù)統(tǒng)計(jì)的丟包情況估計(jì)網(wǎng)絡(luò)質(zhì)量，調(diào)整冗余信息的密度，在低質(zhì)量網(wǎng)絡(luò)中使用更低的原始信號密度和更高的冗余信息密度，體現(xiàn)在回送的語音信號中。
其中，語音編碼前置處理方式，建立語音發(fā)送數(shù)據(jù)緩沖區(qū)，對緩沖區(qū)中的每一片語音信號用FFT變換到頻域，根據(jù)心理聲學(xué)模型，提取出頻域中包含的主要特征分量，然后對頻域數(shù)據(jù)進(jìn)行壓縮，去除一部分人耳不敏感的信號區(qū)，然后將特征分量分散隱藏到緩沖區(qū)中鄰近的語音包中，最后把隱藏了冗余特征信息的語音包用IFFT由頻域變換回時(shí)域，然后用G.711編碼發(fā)送。
語音解碼同步處理方式，建立語音接收數(shù)據(jù)緩沖區(qū)，對收到的每一片語音包根據(jù)G.711編碼進(jìn)行解碼，用FFT變換到頻域，檢測并分離出隱藏信息，還原出被壓縮部分的語音數(shù)據(jù)，當(dāng)緩沖區(qū)設(shè)定的超時(shí)時(shí)間已到，檢查尚未到達(dá)的語音包，根據(jù)鄰近的已到達(dá)語音包中分離出來的特征信息，對丟失的語音包進(jìn)行特征重建。
信息重建方式，重建的過程包括冗余信息重建和預(yù)測重建兩個(gè)步驟；冗余信息重建方式，在可以從鄰近包中得到該語音包的特征信息的情況下，恢復(fù)出該語音包的頻域數(shù)據(jù)。冗余信息重建方式，在無法從鄰近包中獲得該語音包確切特征信息的情況下，通過判斷語音信號在時(shí)域范圍上的變化特征，對該包的頻域信號進(jìn)行預(yù)測填充。
語音傳送方式，經(jīng)過前置處理后的聲音數(shù)據(jù)采用G.711正常的編碼方式編碼后發(fā)送，在解碼端不知曉的情況下，用普通的G.711解碼算法解出的語音數(shù)據(jù)人耳聽起來與原語音差別很小。語音傳送方式，用配套的增強(qiáng)解碼算法，在語音包丟失率增大的情況下，使用本發(fā)明所采用的方法語音通話效果要大大好于正常的G.711編碼方式。語音傳送方式，冗余信息的密度可以根據(jù)網(wǎng)絡(luò)丟包率自適應(yīng)調(diào)整，在惡劣傳輸環(huán)境下，通過犧牲單個(gè)語音包的細(xì)節(jié)信息，優(yōu)先滿足語音的平滑性能。
圖2描述了本發(fā)明涉及的語音包前置處理和G.711編碼相關(guān)過程，語音在經(jīng)A/D轉(zhuǎn)換后變成數(shù)字信號，根據(jù)G.711編碼的規(guī)定，以20ms或30ms為單位進(jìn)行幀采樣，建立發(fā)送緩沖區(qū)，對緩沖區(qū)中的每一片音頻數(shù)據(jù)進(jìn)行FFT運(yùn)算，變換成頻域信號；分析每一個(gè)語音包的頻域數(shù)據(jù)，提取主要和次要兩級特征向量；語音特征提取已經(jīng)有比較成熟的算法，例如線性預(yù)測(LPC)算法或Mel倒譜特征(MFCC)方法，可以通過很少的幾個(gè)基頻、主要共振峰參數(shù)或者M(jìn)el倒譜參數(shù)特征值來表示語音片段的主要頻譜特征，根據(jù)這些特征值可以反向合成出人耳能辨認(rèn)主要內(nèi)容的語音；考慮到兼顧碼率和細(xì)節(jié)的需要，將特征分成主要特征和次級特征兩部分，對主要特征冗余兩次，次級特征冗余一次；圖3描述了語音特征提取和冗余特征分配的過程，設(shè)當(dāng)前為第N幀語音數(shù)據(jù)，時(shí)域信號幀空間1由FFT變換轉(zhuǎn)換為頻域信號幀空間2，分離出兩級頻域特征參數(shù)分別為第N包的次級特征8、第N包的主要特征9；同樣，可得到第N-1片語音頻域特征參數(shù)第N-1包的次級特征6和第N-1包的主要特征7，第N-2包的次級特征4和第N-2包的主要特征5；對頻域信號幀空間2進(jìn)行低通濾波，保留0-3.4kHz的低頻部分；將3.4kHz-4kHz的范圍所對應(yīng)的FFT結(jié)果中的字節(jié)空間替換成第N-1片音頻的主要和次要特征參數(shù)(第N-1包的次級特征6和第N-1包的主要特征7)和第N-2包的主要特征5；這時(shí)FFT結(jié)果空間中的3.4kHz-4kHz段字節(jié)的含義已經(jīng)不是原先語音的高頻分量，不過可以理解為是原信號中的高頻噪聲；然后對該結(jié)果進(jìn)行反向FFT變換(IFFT)，轉(zhuǎn)換回時(shí)域波形信號，得到的結(jié)果即是嵌入了冗余特征信息的聲音波形信息，可以用傳統(tǒng)的G.711進(jìn)行編碼和發(fā)送。
圖4描述了一段語音的原始波形與嵌入隱藏冗余信息后的聲音波形的對比，從中可以看到，波形文件的細(xì)節(jié)中增加了高頻振動(dòng)信號。對人耳來說，這一信號聽起來象是輕微的背景電流噪聲。由于該信號經(jīng)G.711編碼后是以二進(jìn)制比特流的方式傳到對方，IP傳輸本身是數(shù)字信號，或者原封不動(dòng)到達(dá)，或者全部丟失(丟包情況下)，因此該信號在傳輸過程中不會(huì)受到干擾損壞。
圖5描述了本發(fā)明涉及的語音接收端后置處理和G.711解碼相關(guān)過程，在接收端建立接收緩沖區(qū)，對每一片數(shù)據(jù)進(jìn)行頻域轉(zhuǎn)換，檢測高頻區(qū)，分離出隱藏的特征字節(jié)待用；等緩沖區(qū)時(shí)間超時(shí)后，檢查有哪些丟失包，對丟失包通過第N+1或N+2片數(shù)據(jù)(如果到達(dá))中分離出來的特征向量進(jìn)行重建；如果無法獲得任何特征信息，則轉(zhuǎn)入預(yù)測重建。
預(yù)測重建的方法是依據(jù)語音在很短的時(shí)間內(nèi)頻域范圍內(nèi)的變化有一定連貫性，通過復(fù)制或內(nèi)插重建丟失包的頻域數(shù)據(jù)，然后變換回時(shí)域獲得估計(jì)的聲音波形。預(yù)測重建不可能獲得丟失的準(zhǔn)確細(xì)節(jié)，但是可以在一定程度上提高語音的連貫性，防止因語音幀丟失引起的輸出聲音產(chǎn)生頓、卡、爆音現(xiàn)象。
最后，把所有語音包的頻域信號還原成波形信號，向上層輸出。
由于冗余信息的存在，使得輸出的聲音在丟失間隔一個(gè)包或連續(xù)兩個(gè)包的情況下，仍然能保持較好的連貫性，而在線路質(zhì)量良好的情況下，又比損傷性壓縮編碼保留了更多的聲音細(xì)節(jié)，因此可以從整體上保持較好的語音通話質(zhì)量。
需要理解到的是上述說明并非是對本發(fā)明的限制，在本發(fā)明構(gòu)思范圍內(nèi)，所進(jìn)行的添加、變換、替換等，也應(yīng)屬于本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.在G.711語音編碼中隱藏冗余信息的方法，其特征在于在語音包編碼前進(jìn)行緩沖和前置處理，使語音信息中包含被隱藏的冗余信息，帶有人耳不敏感的隱藏信息，隱藏信息包含了臨近的前若干幀語音包的主要特征，然后用正常的G.711方式編碼和發(fā)送，在解碼端增加與解碼同步的緩沖和后置同步處理，恢復(fù)正常語音，即接收端用反向算法進(jìn)行解碼和后處理獲得原始語音信息；當(dāng)發(fā)生數(shù)據(jù)包丟失時(shí)，從其臨近的其它數(shù)據(jù)包中獲得丟失包的主要語音特征，從緩沖區(qū)中獲得鄰近包中含有丟失包特征的數(shù)據(jù)，重建丟失包的主要語音信號，從而恢復(fù)出丟失包的主要語音數(shù)據(jù)；而對于不知曉該隱藏算法的解碼端，直接用正常的G.711方式解碼獲得接近原始狀態(tài)的語音。
2.根據(jù)權(quán)利要求1所述的在G.711語音編碼中隱藏冗余信息的方法，其特征在于具體包含以下步驟——
①對語音信號進(jìn)行前置處理，建立語音發(fā)送數(shù)據(jù)緩沖區(qū)，對緩沖區(qū)中的每一片語音信號變換到頻域，根據(jù)心理聲學(xué)模型，提取出頻域中包含的主要特征分量，對頻域數(shù)據(jù)去除一部分人耳不敏感的信號，然后把特征分量分散隱藏到緩沖區(qū)中鄰近的語音包中，最后把隱藏了冗余特征信息的語音包由頻域變換回時(shí)域；
②將隱藏了冗余信息的語音包按正常G.711編碼方式進(jìn)行編碼，通過上層通信環(huán)境發(fā)送到受話方；
③在語音接收方建立接收數(shù)據(jù)緩沖區(qū)，對收到的每一片語音包根據(jù)G.711編碼進(jìn)行解碼，然后變換到頻域，檢測是否存在隱藏信息，如果存在，將其分離出來，并還原出被壓縮部分的語音數(shù)據(jù)；
④當(dāng)緩沖區(qū)設(shè)定的超時(shí)時(shí)間截止后，檢查尚未到達(dá)的語音包，根據(jù)鄰近的已到達(dá)語音包中分離出來的特征信息，對丟失的語音包進(jìn)行特征重建，對無法獲得特征信息的語音包嘗試進(jìn)行預(yù)測重建，最后還原出完整的語音波形信號輸出；
⑤根據(jù)統(tǒng)計(jì)的丟包情況估計(jì)網(wǎng)絡(luò)質(zhì)量，調(diào)整冗余信息的密度，在低質(zhì)量網(wǎng)絡(luò)中使用更低的原始信號密度和更高的冗余信息密度，體現(xiàn)在回送的語音信號中。
3.根據(jù)權(quán)利要求1所述的在G.711語音編碼中隱藏冗余信息的方法，其特征在于所述語音編碼前置處理，建立語音發(fā)送數(shù)據(jù)緩沖區(qū)，對緩沖區(qū)中的每一片語音信號用FFT變換到頻域，根據(jù)心理聲學(xué)模型，提取出頻域中包含的主要特征分量，然后對頻域數(shù)據(jù)進(jìn)行壓縮，去除一部分人耳不敏感的信號區(qū)，然后將特征分量分散隱藏到緩沖區(qū)中鄰近的語音包中，最后將隱藏冗余特征信息的語音包用IFFT由頻域變換回時(shí)域，然后用G.711編碼發(fā)送。
4.根據(jù)權(quán)利要求1所述的在G.711語音編碼中隱藏冗余信息的方法，其特征在于所述語音解碼同步處理，建立語音接收數(shù)據(jù)緩沖區(qū)，對收到的每一片語音包根據(jù)G.711編碼進(jìn)行解碼，用FFT變換到頻域，檢測并分離出隱藏信息，還原出被壓縮部分的語音數(shù)據(jù)，當(dāng)緩沖區(qū)設(shè)定的超時(shí)時(shí)間已到，檢查尚未到達(dá)的語音包，根據(jù)鄰近的已到達(dá)語音包中分離出來的特征信息，對丟失的語音包進(jìn)行特征重建。
5.根據(jù)權(quán)利要求1所述的在G.711語音編碼中隱藏冗余信息的方法，其特征在于所述信息重建，重建的過程包括冗余信息重建和預(yù)測重建兩個(gè)步驟，冗余信息重建，在可以從鄰近包中得到該語音包的特征信息的情況下，恢復(fù)出該語音包的頻域數(shù)據(jù)；冗余信息重建，在無法從鄰近包中獲得該語音包確切特征信息的情況下，通過判斷語音信號在時(shí)域范圍上的變化特征，對該包的頻域信號進(jìn)行預(yù)測填充。
全文摘要
本發(fā)明提供一種在G.711語音編碼中隱藏冗余信息的方法，在語音包編碼前進(jìn)行預(yù)處理，使其帶有人耳不敏感的隱藏信息，這些信息包含了臨近的其它語音包的主要特征，然后用正常的G.711方式編碼和發(fā)送，在接收端用同樣的反向算法進(jìn)行解碼和后處理，即可獲得原始語音信息。當(dāng)發(fā)生數(shù)據(jù)包丟失時(shí)，從其臨近的其它數(shù)據(jù)包中獲得丟失包的主要語音特征，從而恢復(fù)出丟失包的主要語音數(shù)據(jù)。而對于不知曉該隱藏算法的設(shè)備，直接用正常的G.711方式解碼也能獲得接近原始狀態(tài)的語音。使系統(tǒng)既能兼容于G.711編碼，又能大大提高語音通信的抗丟包能力，改善通話質(zhì)量。
文檔編號G10L19/00GK101604523SQ20091003151
公開日2009年12月16日申請日期2009年4月22日優(yōu)先權(quán)日2009年4月22日
發(fā)明者張格偉, 成承, 劉繼明申請人:網(wǎng)經(jīng)科技(蘇州)有限公司

完整全部詳細(xì)技術(shù)資料下載