網(wǎng)絡(luò)音頻丟包掩蔽方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡(luò)音頻丟包掩蔽方法和裝置,涉及音頻傳輸領(lǐng)域。本發(fā)明通過對丟包后的音頻流解碼,并將解碼得到的音頻信號進(jìn)行反轉(zhuǎn),然后對音頻信號和反轉(zhuǎn)音頻信號分別進(jìn)行丟包補(bǔ)償,并將補(bǔ)償后的反轉(zhuǎn)音頻信號再次反轉(zhuǎn),最后對兩路補(bǔ)償后的音頻信號進(jìn)行幅度平均得到輸出信號,這種雙向預(yù)測差錯掩蔽技術(shù)可以進(jìn)一步提高音頻質(zhì)量,特別在丟包率比較高的網(wǎng)絡(luò)環(huán)境下,仍然可以獲得比較清晰的語音效果。
【專利說明】網(wǎng)絡(luò)音頻丟包掩蔽方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻傳輸領(lǐng)域,特別涉及一種網(wǎng)絡(luò)音頻丟包掩蔽方法和裝置,從而減 低網(wǎng)絡(luò)音頻流由于丟包產(chǎn)生的不連續(xù)感,提高網(wǎng)絡(luò)音頻流的聽覺效果。
【背景技術(shù)】
[0002] 在VOIP (Voice over Internet Protocol,網(wǎng)絡(luò)電話)應(yīng)用中,由于網(wǎng)絡(luò)質(zhì)量等一 些原因,音頻流可能會發(fā)生丟包現(xiàn)象,嚴(yán)重的可能會影響語音質(zhì)量,對通話造成干擾。
[0003] iLBC( internet Low Bit Rate Codec,因特網(wǎng)低比特率編碼)算法是一種基于CELP (Code Excited Linear Prediction,碼激勵線性預(yù)測編碼)的低比特率語音編碼算法,其優(yōu) 異的語音質(zhì)量、突出的長時預(yù)測方法及丟包掩蔽(Packet Loss Concealment,簡稱PLC)技 術(shù),很好地解決了互聯(lián)網(wǎng)上傳輸語音的問題。iLBC主要針對包交換網(wǎng)絡(luò)設(shè)計,主要優(yōu)勢是其 對于網(wǎng)絡(luò)丟包的處理。iLBC采用由初始狀態(tài)構(gòu)造自適應(yīng)碼本對激勵信號進(jìn)行直接編碼,實 現(xiàn)了語音幀間的相互獨立編碼,丟幀的影響局限在本幀內(nèi)。當(dāng)數(shù)據(jù)丟失后,iLBC會根據(jù)之 前記錄的激勵信號和語音參數(shù),進(jìn)行相關(guān)處理、殘差增強(qiáng)、混合白噪聲等操作,生成模擬的 語音信號,從而替代丟失的語音。因此,iLBC在音頻流發(fā)生丟包的情況下,可以減低丟包產(chǎn) 生的不連續(xù)感。
[0004] 然而,在網(wǎng)絡(luò)環(huán)境較差的情況下可能會發(fā)生嚴(yán)重丟包現(xiàn)象,采用現(xiàn)有的iLBC丟包 掩蔽技術(shù)仍然無法獲得滿意的語音效果,因此,有必要提出一種丟包掩蔽技術(shù)在丟包率比 較高的網(wǎng)絡(luò)環(huán)境下,仍然可以獲得比較清晰的語音效果。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實施例所要解決的一個技術(shù)問題是:解決在丟包率比較高的網(wǎng)絡(luò)環(huán)境下如 何獲得比較清晰的語音效果的問題。
[0006] 根據(jù)本發(fā)明實施例的一個方面,提出一種網(wǎng)絡(luò)音頻丟包掩蔽方法,包括:將丟包后 的音頻流解碼為脈沖編碼調(diào)制PCM信號,將丟包導(dǎo)致缺失的數(shù)據(jù)段的PCM數(shù)據(jù)值設(shè)為0,將 處理后的PCM信號作為音頻信號S ;對音頻信號S進(jìn)行時間反轉(zhuǎn)得到音頻信號S';音頻信號 S經(jīng)過因特網(wǎng)低比特率編碼iLBC丟包補(bǔ)償處理得到音頻信號Si,音頻信號S'經(jīng)過iLBC丟 包補(bǔ)償處理得到音頻信號Si' ;對音頻信號Si'進(jìn)行時間反轉(zhuǎn)得到音頻信號Sit ;對音頻信 號Si和音頻信號Sit按滑動窗口進(jìn)行幅度譜平均得到輸出的音頻信號So。
[0007] 對音頻信號Si和音頻信號Sit按滑動窗口進(jìn)行幅度譜平均得到輸出的音頻信號 So,具體包括:采用滑動窗口對音頻信號Si,音頻信號Sit,音頻信號So進(jìn)行分幀,每幀的 長度2N,兩幀之間的滑動間隔為N,并記音頻信號Si中的第i幀數(shù)據(jù)為矢量a i,音頻信號 Sit中的第i幀數(shù)據(jù)為矢量0 i,音頻信號So中的第i幀數(shù)據(jù)為矢量h,窗函數(shù)的矢量為w ; 根據(jù)窗函數(shù)對a ,進(jìn)行加窗操作得到先,對咼進(jìn)行快速傅里葉變換后計算其幅度譜化和相 位譜t ;根據(jù)窗函數(shù)對I進(jìn)行加窗操作得到爲(wèi),對屬.進(jìn)行快速傅里葉變換后計算其幅度 譜&和相位譜ei;對幅度譜化和幅度譜&進(jìn)行平均得到2 ;對以2為幅度譜和以t為 相位譜的信號進(jìn)行快速傅里葉逆變換,根據(jù)快速傅里葉逆變換的結(jié)果計算〇i。
[0008] iLBC丟包補(bǔ)償處理具體包括:對丟失幀重建線性預(yù)測系數(shù),并且重建殘差信號。
[0009] 根據(jù)本發(fā)明實施例的再一個方面,提出一種網(wǎng)絡(luò)音頻丟包掩蔽裝置,包括:解碼模 塊,用于將丟包后的音頻流解碼為脈沖編碼調(diào)制PCM信號,將丟包導(dǎo)致缺失的數(shù)據(jù)段的PCM 數(shù)據(jù)值設(shè)為〇,將處理后的PCM信號作為音頻信號S ;反轉(zhuǎn)模塊,用于對音頻信號S進(jìn)行時間 反轉(zhuǎn)得到音頻信號S' ;補(bǔ)償模塊,用于音頻信號S經(jīng)過因特網(wǎng)低比特率編碼iLBC丟包補(bǔ)償 處理得到音頻信號Si,音頻信號S'經(jīng)過iLBC丟包補(bǔ)償處理得到音頻信號Si' ;反轉(zhuǎn)模塊, 還用于對音頻信號Si'進(jìn)行時間反轉(zhuǎn)得到音頻信號Sit ;幅度平均模塊,用于對音頻信號Si 和音頻信號Sit按滑動窗口進(jìn)行幅度譜平均得到輸出的音頻信號So。
[0010] 幅度平均模塊,具體用于:米用滑動窗口對音頻信號Si,音頻信號Sit,音頻信號 So進(jìn)行分幀,每幀的長度2N,兩幀之間的滑動間隔為N,并記音頻信號Si中的第i幀數(shù)據(jù) 為矢量a i,音頻信號Sit中的第i幀數(shù)據(jù)為矢量0 ,,音頻信號So中的第i幀數(shù)據(jù)為矢量 〇i,窗函數(shù)的矢量為w ;根據(jù)窗函數(shù)對a i進(jìn)行加窗操作得到七,對毛進(jìn)行快速傅里葉變換 后計算其幅度譜4和相位譜t ;根據(jù)窗函數(shù)對I進(jìn)行加窗操作得到屬,對爲(wèi)進(jìn)行快速傅 里葉變換后計算其幅度譜&和相位譜0i;對幅度譜化和幅度譜&進(jìn)行平均得到1 ;對以 Z為幅度譜和以叭為相位譜的信號進(jìn)行快速傅里葉逆變換,根據(jù)快速傅里葉逆變換的結(jié) 果計算〇i。
[0011] 補(bǔ)償模塊的iLBC丟包補(bǔ)償處理具體用于:對丟失幀重建線性預(yù)測系數(shù),并且重建 殘差號。
[0012] 本發(fā)明對丟包后的音頻流解碼,并將解碼得到的音頻信號進(jìn)行反轉(zhuǎn),然后對音頻 信號和反轉(zhuǎn)音頻信號分別進(jìn)行丟包補(bǔ)償,并將補(bǔ)償后的反轉(zhuǎn)音頻信號再次反轉(zhuǎn),最后對兩 路補(bǔ)償后的音頻信號進(jìn)行幅度平均得到輸出信號,這種雙向預(yù)測差錯掩蔽技術(shù)可以進(jìn)一步 提高音頻質(zhì)量,特別在丟包率比較高的網(wǎng)絡(luò)環(huán)境下,仍然可以獲得比較清晰的語音效果。
[0013] 通過以下參照附圖對本發(fā)明的示例性實施例的詳細(xì)描述,本發(fā)明的其它特征及其 優(yōu)點將會變得清楚。
【專利附圖】
【附圖說明】
[0014] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可 以根據(jù)這些附圖獲得其他的附圖。
[0015] 圖1為本發(fā)明網(wǎng)絡(luò)音頻丟包掩蔽方法一個實施例的流程示意圖。
[0016] 圖2為本發(fā)明采用的Hanning窗函數(shù)示意圖。
[0017] 圖3為本發(fā)明采用滑動窗口對語音信號疊加操作示意圖。
[0018] 圖4為本發(fā)明對錯誤掩蔽后的語音質(zhì)量進(jìn)行評估的結(jié)果示意圖。
[0019] 圖5為本發(fā)明網(wǎng)絡(luò)音頻丟包掩蔽裝置一個實施例的結(jié)構(gòu)示意圖。
【具體實施方式】
[0020] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。以下 對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應(yīng)用或使 用的任何限制。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提 下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0021] 為了在丟包率比較高的網(wǎng)絡(luò)環(huán)境下獲得比較清晰的語音效果,本發(fā)明采用雙向預(yù) 測差錯掩蔽技術(shù)可以進(jìn)一步提高音頻質(zhì)量,特別在丟包率比較高的網(wǎng)絡(luò)環(huán)境下,仍然可以 獲得比較清晰的語音效果。
[0022] 圖1為本發(fā)明網(wǎng)絡(luò)音頻丟包掩蔽方法一個實施例的流程示意圖。
[0023] 如圖1所示,本實施例的網(wǎng)絡(luò)音頻丟包掩蔽方法包括以下步驟:
[0024] S101,將丟包后的音頻流解碼為PCM (脈沖編碼調(diào)制)信號,將丟包導(dǎo)致缺失的數(shù) 據(jù)段的PCM數(shù)據(jù)值設(shè)為0,將處理后的PCM信號作為音頻信號S。
[0025] S102,對音頻信號S進(jìn)行時間反轉(zhuǎn)得到音頻信號S'。
[0026] 本實施例可以將音頻信號S和音頻信號S'分別存入兩個緩沖區(qū)。
[0027] S103,音頻信號S經(jīng)過iLBC丟包補(bǔ)償處理得到音頻信號Si,音頻信號S'經(jīng)過iLBC 丟包補(bǔ)償處理得到音頻信號Si'。
[0028] 其中,iLBC丟包補(bǔ)償處理過程后續(xù)詳細(xì)說明。
[0029] S104,對音頻信號Si'進(jìn)行時間反轉(zhuǎn)得到音頻信號Sit。
[0030] S105,對音頻信號Si和音頻信號Sit按滑動窗口進(jìn)行幅度譜平均得到輸出的音頻 信號So。
[0031] 本發(fā)明提出一種示例性的幅度譜平均方法,可以參考步驟(1)?步驟(5),具體如 下:
[0032] (1)假設(shè)有兩段相同長度的音頻信號Si和音頻信號Sit,進(jìn)行疊加得到輸出音頻 信號So的具體做法為:
[0033] 采用滑動窗口 b對音頻信號Si,音頻信號Sit,音頻信號So進(jìn)行分幀,每幀的長度 2N,兩幀之間的滑動間隔為N,即每一幀與其前后兩幀間分別有50%的重疊。這樣做可以保 證疊加得到的語音的平滑性,并記音頻信號Si中的第i幀數(shù)據(jù)為矢量a i,音頻信號Sit中 的第i幀數(shù)據(jù)為矢量0 i,音頻信號So中的第i幀數(shù)據(jù)為矢量Op 2N點對應(yīng)的Hanning (漢 明)窗函數(shù)的矢量為w。
[0034] 圖2為本發(fā)明采用的Hanning窗函數(shù)示意圖,如圖2所示,Hanning窗的長度為2N, N=80。
[0035] 圖3為本發(fā)明采用滑動窗口對語音信號疊加操作示意圖,如圖3所示,兩個滑動窗 口之間的間距為1/2幀。
[0036] (2)根據(jù)窗函數(shù)對a i進(jìn)行加窗操作得到先?,對&進(jìn)行快速傅里葉變換(簡稱FFT) 后計算其幅度譜A和相位譜小it)
[0037] 加窗操作可以參考如下公式:
[0038]
【權(quán)利要求】
1. 一種網(wǎng)絡(luò)音頻丟包掩蔽方法,包括: 將丟包后的音頻流解碼為脈沖編碼調(diào)制PCM信號,將丟包導(dǎo)致缺失的數(shù)據(jù)段的PCM數(shù) 據(jù)值設(shè)為〇,將處理后的PCM信號作為音頻信號S ; 對音頻信號S進(jìn)行時間反轉(zhuǎn)得到音頻信號S' ; 音頻信號S經(jīng)過因特網(wǎng)低比特率編碼iLBC丟包補(bǔ)償處理得到音頻信號Si,音頻信號 S'經(jīng)過iLBC丟包補(bǔ)償處理得到音頻信號Si' ; 對音頻信號Si'進(jìn)行時間反轉(zhuǎn)得到音頻信號Sit ; 對音頻信號Si和音頻信號Sit按滑動窗口進(jìn)行幅度譜平均得到輸出的音頻信號So。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對音頻信號Si和音頻信號Sit按滑 動窗口進(jìn)行幅度譜平均得到輸出的音頻信號So,具體包括: 采用滑動窗口對音頻信號Si,音頻信號Sit,音頻信號So進(jìn)行分幀,每幀的長度2N,兩 幀之間的滑動間隔為N,并記音頻信號Si中的第i幀數(shù)據(jù)為矢量a i,音頻信號Sit中的第 i幀數(shù)據(jù)為矢量0 i,音頻信號So中的第i幀數(shù)據(jù)為矢量h,窗函數(shù)的矢量為w ; 根據(jù)窗函數(shù)對a ,進(jìn)行加窗操作得到A,對&進(jìn)行快速傅里葉變換后計算其幅度譜& 和相位譜小i ; 根據(jù)窗函數(shù)對I進(jìn)行加窗操作得到爲(wèi),對爲(wèi)進(jìn)行快速傅里葉變換后計算其幅度譜& 和相位譜0 i ; 對幅度譜4和幅度譜&進(jìn)行平均得到:?; 對以Z為幅度譜和以小i為相位譜的信號進(jìn)行快速傅里葉逆變換,根據(jù)快速傅里葉逆 變換的結(jié)果計算〇i。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述iLBC丟包補(bǔ)償處理具體包括:對丟 失幀重建線性預(yù)測系數(shù),并且重建殘差信號。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對丟失幀重建線性預(yù)測系數(shù)具體包 括:將過去幀的最后一個子幀的線性預(yù)測系數(shù)作為丟失幀的線性預(yù)測系數(shù)。
5. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述重建殘差信號具體包括:對前一幀進(jìn) 行基音檢測,以基音同步方式重建丟失幀的語音部分,利用相關(guān)性得到類噪音的增益,將語 音部分與類噪音混合以重建殘差信號。
6. -種網(wǎng)絡(luò)音頻丟包掩蔽裝置,包括: 解碼模塊,用于將丟包后的音頻流解碼為脈沖編碼調(diào)制PCM信號,將丟包導(dǎo)致缺失的 數(shù)據(jù)段的PCM數(shù)據(jù)值設(shè)為0,將處理后的PCM信號作為音頻信號S ; 反轉(zhuǎn)模塊,用于對音頻信號S進(jìn)行時間反轉(zhuǎn)得到音頻信號S' ; 補(bǔ)償模塊,用于音頻信號S經(jīng)過因特網(wǎng)低比特率編碼iLBC丟包補(bǔ)償處理得到音頻信號 Si,音頻信號S'經(jīng)過iLBC丟包補(bǔ)償處理得到音頻信號Si' ; 反轉(zhuǎn)模塊,還用于對音頻信號Si'進(jìn)行時間反轉(zhuǎn)得到音頻信號Sit ; 幅度平均模塊,用于對音頻信號Si和音頻信號Sit按滑動窗口進(jìn)行幅度譜平均得到輸 出的音頻信號So。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述幅度平均模塊,具體用于: 采用滑動窗口對音頻信號Si,音頻信號Sit,音頻信號So進(jìn)行分幀,每幀的長度2N,兩 幀之間的滑動間隔為N,并記音頻信號Si中的第i幀數(shù)據(jù)為矢量a i,音頻信號Sit中的第 i幀數(shù)據(jù)為矢量0 i,音頻信號So中的第i幀數(shù)據(jù)為矢量h,窗函數(shù)的矢量為w ; 根據(jù)窗函數(shù)對a ,進(jìn)行加窗操作得到4,對進(jìn)行快速傅里葉變換后計算其幅度譜Ai和相位譜小i ; 根據(jù)窗函數(shù)對I進(jìn)行加窗操作得到,對爲(wèi)進(jìn)行快速傅里葉變換后計算其幅度譜& 和相位譜0 i ; 對幅度譜Ai和幅度譜&進(jìn)行平均得到Z ; 對以I為幅度譜和以t為相位譜的信號進(jìn)行快速傅里葉逆變換,根據(jù)快速傅里葉逆 變換的結(jié)果計算〇i。
8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述補(bǔ)償模塊的iLBC丟包補(bǔ)償處理具體 用于:對丟失幀重建線性預(yù)測系數(shù),并且重建殘差信號。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述補(bǔ)償模塊在重建線性預(yù)測系數(shù)時具 體用于:將過去幀的最后一個子幀的線性預(yù)測系數(shù)作為丟失幀的線性預(yù)測系數(shù)。
10. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述補(bǔ)償模塊在重建殘差信號時具體用 于:對前一幀進(jìn)行基音檢測,以基音同步方式重建丟失幀的語音部分,利用相關(guān)性得到類噪 音的增益,將語音部分與類噪音混合以重建殘差信號。
【文檔編號】G10L19/005GK104347076SQ201310345063
【公開日】2015年2月11日 申請日期:2013年8月9日 優(yōu)先權(quán)日:2013年8月9日
【發(fā)明者】屈振華, 江洪, 尹梅, 馬濤, 張海濤, 龍顯軍, 陳珣, 王剛, 王哲, 區(qū)洪輝, 黃梓南, 胡文勝, 許捷翰, 葉文超, 劉豪, 郭英 申請人:中國電信股份有限公司