基于音頻信號特性分類的無參考音頻質(zhì)量評價方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種基于音頻信號特性分類的無參考音頻質(zhì)量評價方法和系統(tǒng),包括步驟:步驟1,基于有參考音頻質(zhì)量評價模型建立訓(xùn)練模型,采用機器學(xué)習(xí)獲取不同類型音頻信號的音頻質(zhì)量與網(wǎng)絡(luò)參數(shù)的關(guān)系,即無參考音頻質(zhì)量評價模型;步驟2,在音頻信號網(wǎng)絡(luò)傳輸中,將當前丟包率、當前延遲時間和當前丟包數(shù)據(jù)的音頻信號類型輸入無參考音頻質(zhì)量評價模型,獲得當前音頻質(zhì)量。本發(fā)明對不同類型信號采用不同的質(zhì)量評價關(guān)系式進行質(zhì)量評價,能更真實地反映用戶體驗。
【專利說明】基于音頻信號特性分類的無參考音頻質(zhì)量評價方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻質(zhì)量評價領(lǐng)域,尤其涉及一種基于音頻信號特性分類的無參考音頻質(zhì)量評價方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著人們生活質(zhì)量提高,人們對音頻有了更高、更多樣化的需求,手機上移動音頻點播、音頻信息和音樂這樣的移動音頻服務(wù)正在快速增長,為了保證用戶在音頻服務(wù)上的良好體驗,音頻質(zhì)量評價必不可少。音頻質(zhì)量評價分為主觀質(zhì)量評價和客觀質(zhì)量評價,主觀質(zhì)量評價雖然更能反映用戶體驗,但是費時、費力,也不適合實時傳輸,實際應(yīng)用中往往采用客觀質(zhì)量評價。客觀質(zhì)量評價又分為有參考質(zhì)量評價和無參考質(zhì)量評價,有參考質(zhì)量評價需要原始音作為參考,能夠較為準確預(yù)測音頻質(zhì)量,但是實際通信時,特別是移動通信環(huán)境下,原始音往往不能夠獲得,此時,就需要無參考質(zhì)量評價。
[0003]現(xiàn)有的無參考音頻質(zhì)量評價都是通過統(tǒng)計網(wǎng)絡(luò)參數(shù)獲得,如丟包和延遲,最有代表性的是E-Model模型,但是均未考慮用戶對不同類型音頻信號感知失真的差異性。
【發(fā)明內(nèi)容】
[0004]針對現(xiàn)有技術(shù)存在的不足,本發(fā)明提出了一種基于音頻信號特性分類的無參考音頻質(zhì)量評價方法和系統(tǒng),本發(fā)明方法和系統(tǒng)考慮了用戶對不同類型音頻信號感知失真的差異性,可更真實的反應(yīng)用戶體驗。
[0005]為解決上述問題,本發(fā)明采用如下的技術(shù)方案:
[0006]一、音頻信號特性分類的無參考音頻質(zhì)量評價方法,包括步驟:
[0007]步驟1,基于有參考音頻質(zhì)量評價模型建立訓(xùn)練模型,采用機器學(xué)習(xí)獲取不同類型音頻信號的音頻質(zhì)量與網(wǎng)絡(luò)參數(shù)的關(guān)系,即無參考音頻質(zhì)量評價模型,所述的網(wǎng)絡(luò)參數(shù)包括延遲時間和丟包率;
[0008]步驟2,在音頻信號網(wǎng)絡(luò)傳輸中,將當前丟包率、當前延遲時間和當前丟包數(shù)據(jù)的音頻信號類型輸入無參考音頻質(zhì)量評價模型,獲得當前音頻質(zhì)量。
[0009]步驟I進一步包括子步驟:
[0010]1.1將原始音經(jīng)編碼、丟包、解碼后得到降質(zhì)音頻,利用有參考音頻質(zhì)量評價模型對降質(zhì)音頻進行質(zhì)量評價得到客觀質(zhì)量得分MOS ;
[0011]1.2將降質(zhì)音頻延遲產(chǎn)生延遲損傷,在客觀質(zhì)量得分MOS上減去延遲損傷Id,得到音頻質(zhì)量MOSc ;
[0012]1.3以音頻質(zhì)量MOSc為目標,以延遲時間、丟包率、音頻信號類型為輸入,通過機器學(xué)習(xí)方式獲得不同類型音頻信號的音頻質(zhì)量與網(wǎng)絡(luò)參數(shù)的關(guān)系,即無參考音頻質(zhì)量評價模型。
[0013]步驟2進一步包括子步驟:
[0014]2.1采用不同編碼模式分別對不同類型音頻信號進行編碼獲得音頻編碼信息;[0015]2.2對音頻編碼信息進行解碼,并統(tǒng)計當前丟包率和當前延遲時間,恢復(fù)丟包數(shù)據(jù)的編碼模式,獲取當前丟包數(shù)據(jù)的音頻信號類型;
[0016]2.3將當前丟包率、當前延遲時間和當前丟包數(shù)據(jù)的音頻信號類型輸入無參考音頻質(zhì)量評價模型,獲得當前音頻質(zhì)量MOSc。
[0017]上述音頻信號特性分類的無參考音頻質(zhì)量評價方法還包括步驟:
[0018]根據(jù)當前音頻質(zhì)量調(diào)整延遲時間和編碼碼率,使當前音頻質(zhì)量取最大值。
[0019]二、一種音頻信號特性分類的無參考音頻質(zhì)量評價系統(tǒng),包括:
[0020]訓(xùn)練模塊,基于有參考音頻質(zhì)量評價模型建立訓(xùn)練模型,采用機器學(xué)習(xí)獲取不同類型音頻信號的音頻質(zhì)量與網(wǎng)絡(luò)參數(shù)的關(guān)系,即無參考音頻質(zhì)量評價模型,所述的網(wǎng)絡(luò)參數(shù)包括延遲時間和丟包率;
[0021]質(zhì)量評價模塊,用來在音頻信號網(wǎng)絡(luò)傳輸中,將當前丟包率、當前延遲時間和當前丟包數(shù)據(jù)的音頻信號類型輸入無參考音頻質(zhì)量評價模型,獲得當前音頻質(zhì)量。
[0022]上述訓(xùn)練模塊進一步包括子模塊:
[0023]有參考音頻質(zhì)量評分模塊,用來將原始音經(jīng)編碼、丟包、解碼后得到降質(zhì)音頻,利用有參考音頻質(zhì)量評價模型對降質(zhì)音頻進行質(zhì)量評價得到客觀質(zhì)量得分MOS ;
[0024]音頻質(zhì)量評分模塊,用來將降質(zhì)音頻延遲產(chǎn)生延遲損傷,在客觀質(zhì)量得分MOS上減去延遲損傷Id,得到音頻質(zhì)量MOSc ;
[0025]機器學(xué)習(xí)模塊,用來以音頻質(zhì)量MOSc為目標,以延遲時間、丟包率、音頻信號類型為輸入,通過機器學(xué)習(xí)方式獲得不同類型音頻信號的音頻質(zhì)量與網(wǎng)絡(luò)參數(shù)的關(guān)系,即無參考音頻質(zhì)量評價模型。
[0026]上述質(zhì)量評價模塊進一步包括子模塊:
[0027]編碼模塊,用來采用不同編碼模式分別對不同類型音頻信號進行編碼獲得音頻編碼息;
[0028]網(wǎng)絡(luò)參數(shù)和音頻信號類型獲得模塊,用來對音頻編碼信息進行解碼,并統(tǒng)計當前丟包率和當前延遲時間,恢復(fù)丟包數(shù)據(jù)的編碼模式,獲取當前丟包數(shù)據(jù)的音頻信號類型;
[0029]質(zhì)量評價模塊,用來將當前丟包率、當前延遲時間和當前丟包數(shù)據(jù)的音頻信號類型輸入無參考音頻質(zhì)量評價模型,獲得當前音頻質(zhì)量MOSc。
[0030]上述音頻信號特性分類的無參考音頻質(zhì)量評價系統(tǒng),還包括網(wǎng)絡(luò)參數(shù)調(diào)整模塊,用來根據(jù)當前音頻質(zhì)量調(diào)整延遲時間和編碼碼率,使當前音頻質(zhì)量取最大值。
[0031]本發(fā)明根據(jù)音頻信號特性對音頻信號進行分類,基于有參考音頻質(zhì)量評價模型,通過機器學(xué)習(xí)方式訓(xùn)練適用于不同類型音頻信號的無參考音頻質(zhì)量評價模型,采用無參考音頻質(zhì)量評價模型對不同類型音頻信號質(zhì)量進行評價。
[0032]本發(fā)明可應(yīng)用于音頻網(wǎng)絡(luò)傳輸,通過統(tǒng)計丟包數(shù)據(jù)的丟包率、延遲時間和類型,采用無參考音頻質(zhì)量評價模型對音頻質(zhì)量進行評價,并實時反饋音頻質(zhì)量,自適應(yīng)調(diào)節(jié)網(wǎng)絡(luò)參數(shù),給用戶最好的感知體驗。
[0033]與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
[0034]現(xiàn)有無參考音頻質(zhì)量評價模型一般通過統(tǒng)計網(wǎng)絡(luò)參數(shù)(主要包括丟包率和延遲時間)來評價音頻質(zhì)量,但未按照音頻信號特性對音頻信號進行分類。同種網(wǎng)絡(luò)條件下,丟包和延遲對瞬變信號和穩(wěn)態(tài)信號造成的影響明顯不同。本發(fā)明則根據(jù)音頻信號特性對音頻信號進行分類,對不同類型信號采用不同的關(guān)系式進行質(zhì)量評價,能更真實地反映用戶體驗。
【專利附圖】
【附圖說明】
[0035]圖1是訓(xùn)練不同類型音頻信號的無參考音頻質(zhì)量評價模型的框圖;
[0036]圖2是本發(fā)明無參考音頻質(zhì)量評價模型在音頻網(wǎng)絡(luò)傳輸中的應(yīng)用框圖。
【具體實施方式】
[0037]本發(fā)明可應(yīng)用于音頻網(wǎng)絡(luò)傳輸中對音頻質(zhì)量進行評價,通過統(tǒng)計網(wǎng)絡(luò)傳輸中丟包數(shù)據(jù)的丟包率和延遲時間,根據(jù)音頻信號特性分類,將丟包率和延遲時間送入無參考音頻質(zhì)量評價模塊,獲得感知音頻質(zhì)量。
[0038]以AVS-PlO為例,AVS-PlO根據(jù)音頻信號特性將音頻信號分為語音信號、瞬變音樂信號、暫穩(wěn)態(tài)音樂信號和穩(wěn)態(tài)音樂信號四類信號,分別用ACELP256、TVC256、TVC512、TVC1024編碼模式進行編碼,接收端通過編碼模式對音頻信號進行分類,對于不同編碼模式下的丟包,采用對應(yīng)的關(guān)系式獲得感知音頻質(zhì)量。
[0039]下面結(jié)合附圖進一步說明本發(fā)明的【具體實施方式】。
[0040]見圖1,利用有參考音頻質(zhì)量評價模型訓(xùn)練無參考音頻質(zhì)量評價模型的參數(shù),本具體實施中采用的有參考音頻質(zhì)量評價模型為基于用戶關(guān)注度和抖動失真的PEAQ客觀質(zhì)量評價模型。無參考音頻質(zhì)量評價模型參數(shù)訓(xùn)練的具體步驟如下:
[0041]首先,將原始音經(jīng)編碼、丟包、解碼后得到降質(zhì)音頻,利用有參考音頻質(zhì)量評價模型對降質(zhì)音頻進行質(zhì)量評價得到客觀質(zhì)量得分MOS (Mean Opinion Score)。
[0042]接著,將降質(zhì)音頻延遲產(chǎn)生一個延遲損傷Id,由于有參考音頻質(zhì)量評價模型不含延遲損傷,而實際音頻網(wǎng)絡(luò)傳輸中必然存在延遲損傷,所以在客觀質(zhì)量得分MOS基礎(chǔ)上減去延遲損傷Id,得到音頻質(zhì)量MOSc。
[0043]最后,以音頻質(zhì)量MOSc為目標,以延遲時間d、丟包率ρ、音頻信號類型mod為輸入,通過機器學(xué)習(xí)方式,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,得到不同類型音頻信號質(zhì)量受丟包率和延遲時間影響的關(guān)系式:M0Sc = f (d, p, mod),即構(gòu)成無參考音頻質(zhì)量評價模型。本步驟中,將訓(xùn)練樣本的丟包率、延遲時間、音頻信號類型和音頻質(zhì)量MOSc輸入神經(jīng)網(wǎng)絡(luò)模型,即可直接獲得無參考音頻質(zhì)量評價模型。
[0044]見圖2,將訓(xùn)練的無參考音頻質(zhì)量評價模型應(yīng)用于音頻網(wǎng)絡(luò)傳輸,發(fā)送端采用不同編碼模式分別對不同類型音頻信號進行編碼獲得音頻編碼信息。音頻編碼信息經(jīng)網(wǎng)絡(luò)傳輸?shù)浇邮斩?,首先,?jīng)過緩沖區(qū),利用常規(guī)技術(shù)對音頻編碼信息進行去抖動、根據(jù)時間戳對數(shù)據(jù)包重排序、統(tǒng)計丟包率和延遲時間;然后,經(jīng)解碼器進行解碼,并恢復(fù)丟包數(shù)據(jù)的編碼模式,從而獲取丟包數(shù)據(jù)的音頻信號類型;然后,將當前丟包數(shù)據(jù)的音頻信號類型、當前丟包數(shù)據(jù)的丟包率和延遲時間傳入無參考音頻質(zhì)量評價模型,獲得此時的音頻質(zhì)量MOSc,并實時反饋,以便自適應(yīng)調(diào)節(jié)相應(yīng)網(wǎng)絡(luò)參數(shù),給用戶最好的音頻感知體驗。
[0045]下面以AVS-P10編解碼標準為例進一步說明本發(fā)明在音頻網(wǎng)絡(luò)傳輸中的應(yīng)用。發(fā)送端以一定碼率采用不同編碼模式對不同類型音頻信號分別進行編碼獲得音頻編碼信號,音頻編碼信號以流的方式在網(wǎng)絡(luò)中傳播。解碼端接收到音頻編碼信號,首先,通過自適應(yīng)抖動緩沖區(qū),對接收到的數(shù)據(jù)包進行重排序,并統(tǒng)計丟包率和延遲時間;然后,將重排序后的數(shù)據(jù)包送入解碼器解碼,并獲取丟包數(shù)據(jù)的編碼模式,即音頻信號類型;最后,把丟包率、延遲時間、音頻信號類型送入無參考音頻質(zhì)量評價模塊,對音頻信號進行質(zhì)量評價,并實時反饋到發(fā)送端的編碼模塊和解碼端的緩沖區(qū),通過自適應(yīng)調(diào)節(jié)緩沖區(qū)大小、編碼碼率等參數(shù),使音頻質(zhì)量MOSc取最大值,從而給用戶提供更好的音頻感知體驗,并盡可能節(jié)省網(wǎng)絡(luò)資源。
【權(quán)利要求】
1.音頻信號特性分類的無參考音頻質(zhì)量評價方法,其特征在于,包括步驟: 步驟1,基于有參考音頻質(zhì)量評價模型建立訓(xùn)練模型,采用機器學(xué)習(xí)獲取不同類型音頻信號的音頻質(zhì)量與網(wǎng)絡(luò)參數(shù)的關(guān)系,即無參考音頻質(zhì)量評價模型,所述的網(wǎng)絡(luò)參數(shù)包括延遲時間和丟包率; 步驟2,在音頻信號網(wǎng)絡(luò)傳輸中,將當前丟包率、當前延遲時間和當前丟包數(shù)據(jù)的音頻信號類型輸入無參考音頻質(zhì)量評價模型,獲得當前音頻質(zhì)量。
2.如權(quán)利要求1所述的音頻信號特性分類的無參考音頻質(zhì)量評價方法,其特征在于: 步驟I進一步包括子步驟: 1.1將原始音經(jīng)編碼、丟包、解碼后得到降質(zhì)音頻,利用有參考音頻質(zhì)量評價模型對降質(zhì)音頻進行質(zhì)量評價得到客觀質(zhì)量得分MOS ; 1.2將降質(zhì)音頻延遲產(chǎn)生延遲損傷,在客觀質(zhì)量得分MOS上減去延遲損傷Ι?/,得到音頻質(zhì)量MOSc ; 1.3以音頻質(zhì)量MOSc為目標,以延遲時間、丟包率、音頻信號類型為輸入,通過機器學(xué)習(xí)方式獲得不同類型音頻信號的音頻質(zhì)量與網(wǎng)絡(luò)參數(shù)的關(guān)系,即無參考音頻質(zhì)量評價模型。
3.如權(quán)利要求1所述的音頻信號特性分類的無參考音頻質(zhì)量評價方法,其特征在于: 步驟2進一步包括子步驟: 2.1采用不同編碼模式分別對不同類型音頻信號進行編碼獲得音頻編碼信息; 2.2對音頻編碼信息進行解碼,并統(tǒng)計當前丟包率和當前延遲時間,恢復(fù)丟包數(shù)據(jù)的編碼模式,獲取當前丟包數(shù)據(jù)的音頻信號類型; 2.3將當前丟包率、當前延遲時間和當前丟包數(shù)據(jù)的音頻信號類型輸入無參考音頻質(zhì)量評價模型,獲得當前音頻質(zhì)量MOSc。
4.如權(quán)利要求1所述的音頻信號特性分類的無參考音頻質(zhì)量評價方法,其特征在于,還包括步驟: 根據(jù)當前音頻質(zhì)量調(diào)整延遲時間和編碼碼率,使當前音頻質(zhì)量取最大值。
5.一種音頻信號特性分類的無參考音頻質(zhì)量評價系統(tǒng),其特征在于,包括: 訓(xùn)練模塊,基于有參考音頻質(zhì)量評價模型建立訓(xùn)練模型,采用機器學(xué)習(xí)獲取不同類型音頻信號的音頻質(zhì)量與網(wǎng)絡(luò)參數(shù)的關(guān)系,即無參考音頻質(zhì)量評價模型,所述的網(wǎng)絡(luò)參數(shù)包括延遲時間和丟包率; 質(zhì)量評價模塊,用來在音頻信號網(wǎng)絡(luò)傳輸中,將當前丟包率、當前延遲時間和當前丟包數(shù)據(jù)的音頻信號類型輸入無參考音頻質(zhì)量評價模型,獲得當前音頻質(zhì)量。
6.如權(quán)利要求5所述的音頻信號特性分類的無參考音頻質(zhì)量評價系統(tǒng),其特征在于: 所述的訓(xùn)練模塊進一步包括子模塊: 有參考音頻質(zhì)量評分模塊,用來將原始音經(jīng)編碼、丟包、解碼后得到降質(zhì)音頻,利用有參考音頻質(zhì)量評價模型對降質(zhì)音頻進行質(zhì)量評價得到客觀質(zhì)量得分MOS ; 音頻質(zhì)量評分模塊,用來將降質(zhì)音頻延遲產(chǎn)生延遲損傷,在客觀質(zhì)量得分MOS上減去延遲損傷1:得到音頻質(zhì)量MOSc ; 機器學(xué)習(xí)模塊,用來以音頻質(zhì)量MOSc為目標,以延遲時間、丟包率、音頻信號類型為輸入,通過機器學(xué)習(xí)方式獲得不同類型音頻信號的音頻質(zhì)量與網(wǎng)絡(luò)參數(shù)的關(guān)系,即無參考音頻質(zhì)量評價模型。
7.如權(quán)利要求5所述的音頻信號特性分類的無參考音頻質(zhì)量評價系統(tǒng),其特征在于: 所述的質(zhì)量評價模塊進一步包括子模塊: 編碼模塊,用來采用不同編碼模式分別對不同類型音頻信號進行編碼獲得音頻編碼信息; 網(wǎng)絡(luò)參數(shù)和音頻信號類型獲得模塊,用來對音頻編碼信息進行解碼,并統(tǒng)計當前丟包率和當前延遲時間,恢復(fù)丟包數(shù)據(jù)的編碼模式,獲取當前丟包數(shù)據(jù)的音頻信號類型; 質(zhì)量評價模塊,用來將當前丟包率、當前延遲時間和當前丟包數(shù)據(jù)的音頻信號類型輸入無參考音頻質(zhì) 量評價模型,獲得當前音頻質(zhì)量MOSc。
8.如權(quán)利要求5所述的音頻信號特性分類的無參考音頻質(zhì)量評價系統(tǒng),其特征在于,還包括: 網(wǎng)絡(luò)參數(shù)調(diào)整模塊,用來根據(jù)當前音頻質(zhì)量調(diào)整延遲時間和編碼碼率,使當前音頻質(zhì)量取最大值。
【文檔編號】H04L29/06GK103957216SQ201410196690
【公開日】2014年7月30日 申請日期:2014年5月9日 優(yōu)先權(quán)日:2014年5月9日
【發(fā)明者】胡瑞敏, 楊玉紅, 王衍業(yè), 謝松波, 董少龍, 余洪江, 高麗, 王曉晨, 涂衛(wèi)平, 高戈 申請人:武漢大學(xué)