一種基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法

文檔序號(hào)：2837326閱讀：312來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：：一種基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及先進(jìn)音頻編碼器，具體地說(shuō)涉及一種基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法。
背景技術(shù)：
：先進(jìn)音頻編碼(AdvancedAudioCoding,AAC)屬于一種變換域有損感知音頻編碼。有損感知音頻編碼可以獲得很高的壓縮比，但它的編碼誤差(量化噪聲)不可避免的較高。為了降低量化噪聲的影響，有損感知音頻編碼通過(guò)研究人耳的心理聲學(xué)效應(yīng)來(lái)控制編碼誤差的分布，從而使得由量化誤差產(chǎn)生的噪聲難以被察覺。這一過(guò)程在有損感知編碼里通過(guò)心理聲學(xué)模型來(lái)實(shí)現(xiàn)。心理聲學(xué)模型控制量化誤差的分布利用了人耳的聽覺掩蔽現(xiàn)象。掩蔽現(xiàn)象是一種常見的心理聲學(xué)現(xiàn)象，它是由人耳對(duì)聲音的頻率分辨機(jī)制和時(shí)間分辨機(jī)制決定的，指的是在一個(gè)較強(qiáng)的聲音附近，相對(duì)較弱的聲音將不被人耳察覺，即被強(qiáng)音掩蔽，這時(shí)的強(qiáng)音稱作掩蔽者(Masker),弱音叫被掩蔽者(Maskee)。掩蔽效應(yīng)分為同時(shí)掩蔽(SimultaneousMasking,SM)和異時(shí)掩蔽(HeterochronousMasking,歷)。同時(shí)掩蔽是指掩蔽現(xiàn)象發(fā)生在掩蔽者和被掩蔽者同時(shí)存在時(shí)，也稱作頻域掩蔽；異時(shí)掩蔽的掩蔽效應(yīng)發(fā)生在掩蔽者和被掩蔽者不同時(shí)存在時(shí)，也稱作時(shí)域掩蔽。異時(shí)掩蔽根據(jù)掩蔽者發(fā)生的前后順序又分為前掩蔽(ForwardMasking,FM)和后掩蔽(BackwardMasking,BM)。若掩蔽效應(yīng)發(fā)生在掩蔽者開始之前的某個(gè)時(shí)間，則為前掩蔽，之后發(fā)生則稱之為后掩蔽。傳統(tǒng)心理聲學(xué)模型為編碼器提供兩個(gè)重要的參數(shù)，一個(gè)是感知熵，它代表信號(hào)考慮人耳的聽覺掩蔽效應(yīng)，去除了人的感知冗余后的信息量的大小，它可以用來(lái)估計(jì)編碼的比特分配，也可以用以判斷編碼的塊類型；另一個(gè)是編碼器閾值，它是每個(gè)編碼子帶最大可容忍噪聲，可用以進(jìn)行量化器的失真控制。使用傳統(tǒng)心理聲學(xué)模型的AAC編碼器一般采用的量化算法是基于編碼器閾值的速率失真控制算法(Rate-Distortion,R-D)，這種算法有雙嵌套循環(huán)搜索算法(TwoLo叩Search,TLS)，格形框架算法(Trellis-Based)和級(jí)聯(lián)格形框架算法(CascadedTrellis-Based)，其中后兩種是雙嵌套循環(huán)搜索算法的衍生。AAC編碼器中的量化器是非均勻的量化器，它的熵編碼是變長(zhǎng)霍夫曼編碼。但因?yàn)榉蔷鶆蛄炕鞯氖褂?，使得編碼器無(wú)法根據(jù)感知容忍噪聲來(lái)指定足夠優(yōu)化的編碼器參數(shù)，并且因?yàn)樽冮L(zhǎng)熵編碼導(dǎo)致比特消耗數(shù)只能通過(guò)量化結(jié)果計(jì)算獲得，這些因素使得傳統(tǒng)心理聲學(xué)模型所提供的參數(shù)并不能很好的用以控制信號(hào)的量化和編碼，這造成了目前的碼率失真控制算法的復(fù)雜與低效。拋棄傳統(tǒng)的兩層內(nèi)嵌迭代的比特分配和失真控制算法，利用子帶比特分配比例預(yù)測(cè)同時(shí)完成碼率控制和失真控制的碼率失真控制，可以得到更高的計(jì)算效率，其編碼音質(zhì)將取決于子帶比特分配比例預(yù)測(cè)的足夠優(yōu)化。子帶比特消耗預(yù)測(cè)數(shù)可由公式子帶比特消耗預(yù)測(cè)數(shù)二子帶感知熵X當(dāng)前幀可用的比特?cái)?shù)/所有子帶感知熵和獲得。其中，如編碼是定比特率編碼(CBR)，那么當(dāng)前幀可用的比特?cái)?shù)是一個(gè)定值，等于比特率X1024/采樣率；如果是隨著使用情況變化，那么就是可變比特率編碼(VBR)，這種情況下的當(dāng)前幀可用的比特?cái)?shù)一般由幀間比特控制算法提供。可以看出，子帶比特消耗預(yù)測(cè)數(shù)僅僅是通過(guò)歸一化的感知熵與當(dāng)前幀可用比特?cái)?shù)的乘積得到，準(zhǔn)確性不高，進(jìn)而影響到碼率失真控制的效率。并且，由于傳統(tǒng)心理聲學(xué)模型僅考慮了人耳的同時(shí)掩蔽效應(yīng)，忽視了異時(shí)掩蔽效應(yīng)，編碼器不能夠利用異時(shí)掩蔽來(lái)提高編碼質(zhì)量，一旦前掩蔽失效，量化噪聲不可掩蔽而發(fā)生預(yù)回聲時(shí)，音質(zhì)會(huì)大幅降低。雖然AAC標(biāo)準(zhǔn)中提供了瞬時(shí)噪聲整形(TemporalNoiseShaping,TNS)以削弱預(yù)回聲的影響，但實(shí)際的測(cè)試表明使用該模塊會(huì)更加惡化音質(zhì)。
發(fā)明內(nèi)容本發(fā)明就是為了解決上述技術(shù)問(wèn)題，提出了一種基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，充分考慮了時(shí)域掩蔽和頻域掩蔽，從而輸出準(zhǔn)確的編碼子帶比特消耗預(yù)測(cè)數(shù)，提高了編碼器進(jìn)行量化編碼的編碼質(zhì)量和效率。為了實(shí)現(xiàn)上述目的，本發(fā)明采用了如下技術(shù)方案一種基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，包含如下處理過(guò)程A、由待編碼碼流的心理聲學(xué)子帶譜能量，通過(guò)掩蔽擴(kuò)散矩陣計(jì)算獲得編碼子帶的感知熵和掩蔽閾值；B、通過(guò)編碼子帶的感知熵和掩蔽閾值，應(yīng)用時(shí)頻掩蔽修正與預(yù)回聲修正，計(jì)算獲得子帶比特消耗預(yù)測(cè)數(shù)；C、心理聲學(xué)模型輸出子帶比特消耗預(yù)測(cè)數(shù)作為碼率失真控制的參數(shù)以進(jìn)行編碼處理。所述步驟B包含如下處理過(guò)程Bl、比較編碼子帶的當(dāng)前掩蔽閾值與長(zhǎng)期平均掩蔽閾值獲得時(shí)頻掩蔽修正因子；B2、通過(guò)時(shí)域掩蔽判斷預(yù)回聲是否失掩蔽，如是，修正時(shí)頻掩蔽修正因子；B3、使用時(shí)頻掩蔽修正因子修正感知熵計(jì)算獲得子帶比特消耗預(yù)測(cè)數(shù)。步驟Bl中的所述長(zhǎng)期平均掩蔽閾值通過(guò)如下公式得到Argmask功=orArgmask"+(1—a)mask砂其中，Argmask"(yt)是上一幀的編碼子帶長(zhǎng)期平均掩蔽閾值，Argmask砂("是當(dāng)前幀的編碼子帶長(zhǎng)期平均掩蔽閾值，mask^("是當(dāng)前幀編碼子帶掩蔽閾值，"是衰減指數(shù)；所述時(shí)頻掩蔽修正因子通過(guò)如下公式得到應(yīng)k,)，若壺>4，brustw=minfL5,,d)Argmask她(A:)''一'「2,a=0.98;若cM20.5，此時(shí)brust"A:):0.95，a=0.4;若cM〈0.5，此時(shí)brusts,(yt)-0.90，a=0.4;其中，cM為能量比值，bms^(;t)為時(shí)域掩蔽修正因子。步驟B2中所述通過(guò)時(shí)域掩蔽判斷預(yù)回聲是否失掩蔽包含如下步驟B21、將一幀時(shí)域信號(hào)分割成8段，求得每一段的時(shí)域絕對(duì)幅度和并放在分段絕對(duì)幅度abamp的中間8個(gè)元素中256mabamp(m+l)=Z|xf.(w)|,w=1，2，".,8"=256(m—l)十l其中，abamp為10xl的向量，其第一個(gè)元素abarap(l)繼承上一幀8段的均方幅度和abamp,.(lh玄abamp,一(m)2，最后一個(gè)元素繼承該幀的最后一段的絕、m=2對(duì)幅度abamp(10)=abamp(9);B22、由步驟B21得到的分段絕對(duì)幅度通過(guò)下式計(jì)算得到時(shí)域掩模Tmask()w):^+Tmask(m)二Tnorm(m)Zabamp(w)Ratermasfc()w—w+3)其中時(shí)域擴(kuò)散衰減系數(shù)Rate^為Raterm。Sil=時(shí)域擴(kuò)散歸一化系數(shù)Tnorm(附)為Tnorm(m)=^——^-,m=1,2,.,，8B23、當(dāng)1.3Tmask(l)〈Tmask(8)且Tmask(8)〉2000時(shí)，判斷為預(yù)回聲失掩蔽°當(dāng)判斷為預(yù)回聲失掩蔽時(shí)，按如下原則對(duì)連續(xù)兩幀時(shí)頻掩蔽修正因子進(jìn)行修正bniSt;W=bmS^W，其中，bmst;("為經(jīng)過(guò)預(yù)回聲修正的時(shí)頻掩蔽修正因子，bms^(/r)為原時(shí)域掩蔽修正因子，第一幀修正時(shí)c/mSn^=3，第二幀修正時(shí)c/m5n^=2。步驟B3通過(guò)如下步驟實(shí)現(xiàn)B31、使用時(shí)頻掩蔽修正因子修正感知熵得到子帶比特消耗預(yù)測(cè)比例，B32、根據(jù)實(shí)際比特消耗進(jìn)行幀間負(fù)反饋比特控制，得到當(dāng)前幀的可用比特?cái)?shù)；B33、由子帶比特消耗預(yù)測(cè)比例和當(dāng)前幀的可用比特?cái)?shù)計(jì)算獲得子帶比特消耗預(yù)測(cè)數(shù)。步驟B31中所述子帶比特消耗預(yù)測(cè)比例通過(guò)下式得到PE(A)sfbBitRatio("=49^brust;(A:)，其中，sfbBitRatio(it)為子帶比特消耗預(yù)測(cè)比例，bnist^("為時(shí)域掩蔽修正因子，PE^("為編碼子帶的感知熵。步驟B32中所述當(dāng)前幀的可用比特?cái)?shù)由下式得到Zz.^4雨7aWe(/)=cow/ra/i加o(ZzL4verage+tov4vaz7"6/e(z'—1)-toC/s^)，其中，為幀間修正因子，6z'"，"^為根據(jù)平均碼率得消耗的比特?cái)?shù)，所述幀間修正因子通過(guò)如下原則確定-若6"i加'o>1.06，cow的/ia"'o=-^-，若1.0626"iario>1.05，cow^o/ia"o=0.9，若1.052>1.02，cow^"o/iario=0.95，若1.022歸a"o20.98，畫的/too=1，若toifl"o<0.98，co"froW加o=1.2，其中=————，為當(dāng)前平均每幀比特?cái)?shù)和可用平均比特?cái)?shù)的比值。步驟B33中所述子帶比特消耗預(yù)測(cè)數(shù)由下式得到sftBits(A:)=tov4vaz7a6/e(/)sfbBitRatio(yt)，其中，sfbBits("為子帶比特消耗預(yù)測(cè)數(shù)，^"則7a6/e(0為當(dāng)前幀可用比特?cái)?shù)，sfbBitRatio(/t)為子帶比特消耗預(yù)測(cè)比例。步驟A包含如下步驟-Al、由待編碼碼流的心理聲學(xué)子帶的譜能量相加得到心理聲學(xué)子帶能A2、由心理聲學(xué)子帶能量計(jì)算子帶能量峰谷值；A3、通過(guò)二階線形方程將子帶能量峰谷值映射為掩蔽信號(hào)比；A4、利用掩蔽信號(hào)比和心理聲學(xué)子帶能量計(jì)算子帶的自掩蔽能量；A5、通過(guò)擴(kuò)散矩陣由自掩蔽能量得到心理聲學(xué)子帶的掩蔽閾值-，A6、由心理聲學(xué)子帶能量和掩蔽閾值計(jì)算心理聲學(xué)子帶的感知熵；A7、將心理聲學(xué)子帶的感知熵和掩蔽閾值分別映射成編碼子帶的感知熵和掩蔽閾值。步驟A5中所述擴(kuò)散矩陣為稀疏擴(kuò)散矩陣，對(duì)擴(kuò)散矩陣的稀疏化是通過(guò)將歸一化擴(kuò)散矩陣中小于預(yù)定分貝閾值的元素置為0實(shí)現(xiàn)的，所述歸一化擴(kuò)散矩陣的歸一化因子通過(guò)下式獲得70sprdngN(6)=Zsprdngf[bavl(Z>)-bval(66)]，其中，sprdngN(6)為歸一化因子，bavl(6)和bval(M)為巴克頻率，sprdngf是擴(kuò)散方程；所述擴(kuò)散方程由以下原則確定■spr=sprdngf(A/c)—A/c<=-3.3333=015.811389+7.5(1.5iVi+0.474)-17.5x/l+(1.54/;+0'474)2-3.3333<A,0，,=10^15.811389+7.5(34/;+0.474)-17.5^/1+(3仏+0.474)20<A/C<=0.5,^r=10^，其中，8[(3A/C-1.5)2-1]+15.8"389+7.5(3仏+0.474)-17.50+(34/;+0.474)20.5<A,<=2,5,,=1015.811389+7.5(3A/c+0.474)-17.5^/l+(34/;+0.474)22.5<A/c<=7.3333,wr=10^A/c>7.3333,w=0為擴(kuò)散方程的值。步驟A2中所述子帶能量峰谷值通過(guò)下式得到卯R辟):E^L匪K(H),E^其中卯Rate(6)為子帶能量峰谷值，E"6)為當(dāng)前心理聲學(xué)子帶能量，Eps#-l),E，("l)分別為上一心理聲學(xué)子帶和下一心理聲學(xué)子帶能量。步驟A3中所述二階線形方程為MSRpsy(6)=0.17453ppRate(6)2+0.08325ppRate(6)，其中，MSRpsy(6)為掩蔽信號(hào)比，ppRate(6)為子帶能量峰谷值。步驟A4中所述自掩蔽能量通過(guò)下式獲得Eseltoask(6)=Epsy(6).MSRpsy(6)，其中，Ew(6)為自掩蔽能量，E，(6)為心理聲學(xué)子帶能量，MSRpsy(6)為掩蔽信號(hào)比。步驟A5中所述掩蔽閾值通過(guò)下式得到maSkpsy(Z>)=EselfmaskxSprdiigMN，其中，masl^y(6)為心理聲學(xué)子帶的掩蔽閾值，sprdngMN為擴(kuò)散矩陣。步驟A6中所述心理聲學(xué)子帶感知熵通過(guò)下式得到mask，(6)bw附(6)為心理聲學(xué)子帶帶寬，E附(W為心理聲學(xué)子帶能量，maskpsy(6)為心理聲學(xué)子帶的掩蔽閾值。步驟A7中所述心理聲學(xué)子帶感知熵通過(guò)下式映射成編碼子帶的感知13PE^(6)=bWpsy(6)toglO，其中，PE^(6)為心理聲學(xué)子帶感知熵，熵PE""=￡P(guān)E，(w)，其中，PE一"為編碼子帶感知熵，psyLow(6)SpsyHigh(6)，psyHigh(6)，psyLow(6)分別為心理聲學(xué)子帶6的上界和下界；sfblow(6)，sfbhigh(6)分別為編碼子帶6的上界和下界；PE，(W)=^^，bw附^為心理聲學(xué)子帶帶寬，PE附^為心理聲學(xué)子帶感知熵；所述心理聲學(xué)子帶掩蔽閾值通過(guò)下式映射成編碼子帶的掩蔽閾值masksyJ(A:)=bwsyJ("min(mask,(6))，WS6S62，其中，mask^("為編碼子帶的掩蔽閾值，61滿足psyLow(M)Ssfblow(A:)Spsyhigh(61)，62滿足masU)丄、TmpsyLow(&2)"fbhigh(A:)Spsyhigh(62)，mask啊W-"、/，maskpsy(W為心理聲學(xué)子帶掩蔽閾值；psyHigh(W)，psyLow(W)分別為心理聲學(xué)子帶61的上界和下界；psyHigh(W)，psyLow(62)分別為心理聲學(xué)子帶62的上界和下界；sfblow(/t)，sfbhighOfc)分別為編碼子帶yfc的上界和下界。bw^(A:)為編碼子帶帶寬°本發(fā)明通過(guò)當(dāng)前幀的參數(shù)與以往幀長(zhǎng)期平均的參數(shù)的比較，以及通過(guò)時(shí)域掩蔽判斷預(yù)回聲進(jìn)行修正，實(shí)現(xiàn)了充分考慮時(shí)域掩蔽和頻域掩蔽(時(shí)頻掩蔽)的心理聲學(xué)模型的處理方法，從而更準(zhǔn)確地通過(guò)感知熵得到子帶比特消耗預(yù)測(cè)數(shù)，以該預(yù)測(cè)數(shù)作為編碼器進(jìn)行碼率失真控制的參數(shù)，大大提高了編碼器進(jìn)行量化編碼時(shí)的編碼效率和質(zhì)量。通過(guò)計(jì)算掩蔽擴(kuò)散矩陣來(lái)獲得感知熵，在計(jì)算過(guò)程中對(duì)掩蔽擴(kuò)散矩陣進(jìn)行稀疏處理，從而能夠更快速地得到感知熵，降低了計(jì)算感知熵的運(yùn)算量。圖1是使用了本發(fā)明實(shí)施例的MegalAAC編碼器的結(jié)構(gòu)框架圖；圖2是本發(fā)明實(shí)施例的處理方法的流程圖；圖3是掩蔽信號(hào)比在不同子帶上的約束子帶上界和約束子帶下界示意圖；圖4是預(yù)回聲失掩蔽的判斷示意圖；圖5是幾種編碼器的0DG指標(biāo)比較示意圖；圖6是幾種編碼器的麗R指標(biāo)的比較示意圖；圖7是幾種編碼器的0DG分布示意圖；圖8是幾種編碼器的麗R分布示意圖。具體實(shí)施方式下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行詳細(xì)的說(shuō)明。本發(fā)明的處理方法的具體實(shí)施方式參看圖2，其具體處理步驟如下1、由待編碼碼流的心理聲學(xué)子帶譜能量，通過(guò)掩蔽擴(kuò)散矩陣計(jì)算獲得編碼子帶的感知熵和掩蔽閾值la)將當(dāng)前幀每個(gè)心理聲學(xué)子帶的MDCT(改進(jìn)的離散余弦變換)譜能量相加得到心理聲學(xué)子帶能量E^lb)計(jì)算子帶能量峰谷值ppRate(6)其中b代表當(dāng)前子帶索引，b-l和b+l分別代表上一子帶和下一子帶。得到子帶能量峰谷值之后，將其約束在[lower(外upper(6)]之間IfppRate(6)〉upper(Z)，ppRate(6)=upper(6)IfppRate(6)<1ower(6)，ppRate(6)=1ower(6)艮卩ppRate(6)=max(lower(6)，min(upper(6)，ppRate(6)))，其中，1ower(6)=tan(1'5—0.5),6=2,…，69lower(l)=1ower(2)+0.1，1ower(70)=1ower(69)(2)upper(6)=1ower(6)+0.7lc)通過(guò)二階線形方程完成子帶能量峰谷值向掩蔽信號(hào)比MSRpsy(6)的映射MSRpsy(6)=0.17453ppRate(6)2+0.08325ppRate(6)(3)其中，方程的一次項(xiàng)和二次項(xiàng)系數(shù)為經(jīng)過(guò)大量測(cè)試獲取的較優(yōu)值。掩蔽信號(hào)比在不同的心理聲學(xué)子帶上的約束情況參看圖3，從圖中可以看到，掩蔽信號(hào)比位于約束上界和約束下界之間。ld)利用心理聲學(xué)子帶能量與掩蔽信號(hào)比計(jì)算出子帶的自掩蔽能量Eseiftnask(6)Eseltaask(6)=Epsy(Z>).MSRpsy(6)(4)le)利用歸一化擴(kuò)散矩陣計(jì)算掩蔽閾值maskpsy(6)maskpsy(6)=EselfimskxsprdngMN(5)其中，歸一化擴(kuò)散矩陣sprdiigMN由下式確定<formula>formulaseeoriginaldocumentpage16</formula>式(6)中，bavl()是子帶序號(hào)向巴克(bark)頻率的映射函數(shù)，巴克頻率是模擬人耳聽覺特性的一種頻率劃分原則，在20到20000Hz的頻率范圍內(nèi)，不均勻地劃分了25個(gè)bark，頻率到bark常用一個(gè)復(fù)雜的非線性函數(shù)表示，通常把有限的用得到的bark值實(shí)現(xiàn)算出來(lái)做成表，用來(lái)查找簡(jiǎn)化計(jì)算，bavl()即該簡(jiǎn)化計(jì)算表，由巴克頻率查找表預(yù)先算出歸一化因子sprdngN(。。sprdngf()是擴(kuò)散方程，其取值由下式得到<formula>formulaseeoriginaldocumentpage16</formula>將sprdngMN中小于-100dB的元素都置為0，sprdngMN將是一個(gè)稀疏擴(kuò)散矩陣，其非零項(xiàng)為sprdngMN[l,l]，sprdngMN[2,l]，sprdngMN[3,1]sprdngMN[l,2]，sprdngMN[2，2〗sprdngMN[l,3]，sprdngMN[2，3]sprdngMN[l,4]，sprdngMN[2,4]■sprdngMN[l,5]，sprdngMN[2，5]sprdngMN[l,6]，sprdngMN[2,6]sprdngMN[l,7],sprdngMN[2，7]-sprdngMN[2,8],sprdngMN[3，8]sprdng廳[4，2]sprdngMN[5,3].sprdngMN[6,4]'sprdngMN[8,5]sprdngMN[9，6]sprdngMN[10,7]sprdngMN[l1,8](8)sprdngMN[3,9]，sprdngMN[4,9]……sprdngMN[l2,9]sprdngMN[60,67],sprdngMN[61，67]sprdngMN[61，68],sprdngMN[62,68].sprdngMN[62,69]，sprdngMN[63，69].sprdngMN[63，70]，sprdngMN[64,70].sprdngMN[69,67]sprdngMN[70，68].sprdngMN[70，69].sprdngMN[70,70]sprdngMN總共有672個(gè)非零項(xiàng)，可以使用672次乘加運(yùn)算完成掩蔽閾值的計(jì)算。計(jì)算出掩蔽閾值后，對(duì)其進(jìn)行約束，使其在靜音聽覺閾值之上，如下式maskpsy(6)=max[maskpsy(6),qthr(6)](9)式中，qthr(6)為靜音聽覺閾值。lf)由心理聲學(xué)子帶能量和掩蔽閾值計(jì)算出感知熵PE，⑨PEwy(6)=bW^(6)lOgl0E0).mask，(6)其中，bw^(6)為心理聲學(xué)子帶帶寬。lg)獲得感知熵和掩蔽閾值的編碼子帶映射計(jì)算心理聲學(xué)子帶內(nèi)每個(gè)頻譜的感知熵映射到編碼子帶w=sfbHigh(6)PE砂(一J]PE，(10)(11)(12)其中psyLow(6)^w^psyHigh(&)，psyHigh(&)，psyLow(6)分別為心理聲學(xué)子帶6的上界和下界；sfblow(6)，sfbhigh(W分別為編碼子帶6的上界和下界。計(jì)算心理聲學(xué)子帶內(nèi)每個(gè)頻譜的掩蔽閾值<formula>formulaseeoriginaldocumentpage18</formula>映射到編碼子帶mask講("=bw妙(A)min(mask啊(6))，61S"62(14)其中M滿足psyLow洲Ssftlow(A:)Spsyhig,)(15)62滿足psyLow(&2)Ssfbhigh(/r)5psyhigh(W)(16)psyHigh(W)，psyLow(61)分別為心理聲學(xué)子帶61的上界和下界；psyHigh(62)，psyLow(62)分別為心理聲學(xué)子帶62的上界和下界；sfblow(Q，sfbhighW分別為編碼子帶/t的上界和下界。bw^("為編碼子帶帶寬。2、比較當(dāng)前掩蔽閾值與長(zhǎng)期平均掩蔽閾值獲得時(shí)頻掩蔽修正因子根據(jù)當(dāng)前幀的編碼子帶掩蔽閾值更新編碼子帶長(zhǎng)期平均掩蔽閾值A(chǔ)rgmask^(A)="Argmask"+(1-a)raask砂(A)(17)Argmask"(/c)是上一幀的編碼子帶長(zhǎng)期平均掩蔽閾值，Argmask""是當(dāng)前幀的編碼子帶長(zhǎng)期平均掩蔽閾值，mask""是當(dāng)前幀編碼子帶掩蔽閾值，其中a是衰減指數(shù)，它根據(jù)掩蔽情況的不同而不同，具體取值由式(18)確比較編碼子帶掩蔽能量和編碼子帶長(zhǎng)期平均掩蔽能量，獲得能量比值cM=,k""(18)Argmask砂(&)進(jìn)行比較<table>tableseeoriginaldocumentpage18</column></row><table>3、通過(guò)時(shí)域掩蔽判斷預(yù)回聲，修正時(shí)頻掩蔽修正因子可以通過(guò)時(shí)域掩蔽判斷預(yù)回聲失掩蔽，若發(fā)生則對(duì)時(shí)域掩蔽修正因子進(jìn)行修正以便進(jìn)一步提高利用時(shí)頻掩蔽修正因子進(jìn)行后續(xù)處理步驟的準(zhǔn)確性。具體步驟是將一幀時(shí)域信號(hào)分割成8段，求得每一段的時(shí)域絕對(duì)幅度和，放在分段絕對(duì)幅度abamp的中間8個(gè)元素中256mabampO+1)=￡|x(柳=1，之,…，8(19)w=256(m—1)+1abamp是一個(gè)10xl的向量，它的第一個(gè)元素abamp(l)繼承上一幀8段的均方幅度和abampi.(l)二」^]abamp,一"m)2(20)最后一個(gè)元素繼承該幀的最后一段的絕對(duì)幅度abamp(10)-abamp(9)。時(shí)域掩模Tmask(m)是一個(gè)8x1的向量，通過(guò)下式計(jì)算得到m+2Tmask(m)=Tnorm(m)Zabamp(w)Rate^。^(附一w+3)其中時(shí)域擴(kuò)散衰減系數(shù)RateM為Rater—=時(shí)域擴(kuò)散歸一化系數(shù)Tnorm(附)為Tnorm(—二~^——^-，m=1，2,…，8(21)咖(23)2>一當(dāng)1.3Tmask(1)<Tmask(8)且Tmask(8)>2000時(shí)，判斷為預(yù)回聲失掩蔽，其判斷效果見圖4。當(dāng)判斷預(yù)回聲失掩蔽時(shí)，對(duì)連續(xù)兩幀的時(shí)頻掩蔽修正因子進(jìn)行預(yù)回聲修正'bmsCbmW(24)其中，bnist;("為經(jīng)過(guò)預(yù)回聲修正的時(shí)頻掩蔽修正因子，第一幀修正時(shí)第二幀修正時(shí)c/m腸W=2。4、使用時(shí)頻掩蔽修正因子修正感知熵得到子帶比特消耗預(yù)測(cè)比例sfbBitRatio("sfbBitRatio("=49^、brusC)(25)5、根據(jù)實(shí)際比特消耗進(jìn)行幀間負(fù)反饋比特控制，由子帶比特消耗預(yù)測(cè)比例計(jì)算得到編碼子帶比特消耗預(yù)測(cè)數(shù)，具體步驟為5a)負(fù)反饋幀間比特修正令當(dāng)前使用的比特總數(shù)為當(dāng)前已處理幀數(shù)為《，上一幀實(shí)際消耗的比特?cái)?shù)為^仏erf，根據(jù)平均碼率得到的每幀可用的平均比特?cái)?shù)為to^4verage，上一幀可用比特?cái)?shù)為W"wnto6/e(z'-l)，當(dāng)前平均每幀比特?cái)?shù)為W虛/K，它和平均比特?cái)?shù)的比值toi加o=^^^。若秘ia"o>1.06，幀間4彥正因子coWra/ia"o=-+0.2若1,062ZnYia"o>1.05，coM^o/ia"'o=0.9若1.0526"ifl"o>1.02，coWro/ia/zo=0.95若1.0226幽"o20.98，=1若6欣a"'o<0.98，cowfra/及""'o=1.2當(dāng)前幀的可用比特?cái)?shù)&"柳7W/e(/)為6z'L4ra/to6/e(z')=cow的/itoz'o(6/L4verage+toy4w7a6/e(z.-1)-tot/set/)(26)將其約束在一定的范圍內(nèi)-.&A4verageSto^4葡7a6/e(/)Sor.6"Jverage(27)其中，0<"<1，/>1，一般設(shè)"=0.95，/=1.2比較合適。5b)計(jì)算編碼子帶比特消耗預(yù)測(cè)數(shù)sfbBits(A)sfbBits("=^"vm7a6/eO〕sfbBitRatio("(28)6、心理聲學(xué)模型輸出子帶比特消耗預(yù)測(cè)數(shù)作為碼率失真控制的參數(shù)以進(jìn)行編碼處理得到編碼子帶比特消耗預(yù)測(cè)數(shù)后，心理聲學(xué)模型輸出該預(yù)測(cè)數(shù)作為碼率失真控制的參數(shù)，碼率失真控制進(jìn)行熵編碼和碼流合成，完成編碼處理。以上本實(shí)施例中所給出的各閾值、參數(shù)和系數(shù)，均為實(shí)驗(yàn)所獲的較優(yōu)值，本發(fā)明并不限定僅取前述公開的數(shù)值，在本發(fā)明的構(gòu)思下，本領(lǐng)域技術(shù)人員可以理解，可根據(jù)實(shí)際的信號(hào)情況對(duì)以上數(shù)值進(jìn)行一定的調(diào)整以達(dá)到更好的效果。本發(fā)明的心理聲學(xué)模型稱為熵分配心理聲學(xué)模型(Entropy—allocationpsychoacousticmodel,EAPAM)，與在多禾中音步員編碼如MP3中采用，MPEG-4MC標(biāo)準(zhǔn)提供的傳統(tǒng)心理聲學(xué)模型2(PAMII)進(jìn)行對(duì)比。MegalAACEncoder(Megal)是一種利用子帶比特比例預(yù)測(cè)指導(dǎo)碼率失真控制的AAC編碼器，其結(jié)構(gòu)框架如圖l所示。有關(guān)算法復(fù)雜度評(píng)估通過(guò)比較使用PAMII的FreeAdvancedAudioCoder(FAAC)和使用EAPAM的MegalAACEncoder,在對(duì)44100Hz采樣，16位量化的立體聲音頻進(jìn)行平均比特率為128Kbps編碼的情況下進(jìn)行，參考指標(biāo)為每秒百萬(wàn)操作數(shù)。表1心理聲學(xué)模型類型的計(jì)算量與編碼算法的計(jì)算量<table>tableseeoriginaldocumentpage21</column></row><table>從表1可見，EAPAM算法的計(jì)算量相對(duì)于PAMII降低了48.478M0PS，這一模塊占總計(jì)算量的比重從57%降低到了17%，R-D算法因?yàn)槭褂昧俗訋П忍乇壤A(yù)測(cè)指導(dǎo)分配，計(jì)算量從35M0PS降低到12.8M0PS，總體計(jì)算量降低了69.6M0PS，幅度達(dá)76.7%。編碼器的音質(zhì)評(píng)估使用EAQUAL1.3，這是使用感知音頻客觀評(píng)價(jià)標(biāo)準(zhǔn)PEAQ的客觀評(píng)價(jià)程序，PEAQ提供的音質(zhì)評(píng)價(jià)指標(biāo)名稱及其描述見表2表2eaqual軟件輸出的評(píng)價(jià)指標(biāo)及意義<table>tableseeoriginaldocumentpage22</column></row><table>這里選擇總體指標(biāo)(ODG)和兩個(gè)重要的單項(xiàng)指標(biāo)(BandwidthTest和麗R)作為主要參考指標(biāo)。音質(zhì)評(píng)估使用四種編碼器參照進(jìn)行，對(duì)它們進(jìn)行橫向評(píng)估，這四個(gè)編碼器分別為使用本發(fā)明的EAPAM模型和傳統(tǒng)的PAMII模型的Megal，NCTUAACEncoder(以下簡(jiǎn)稱NCTU)和FAAC。其中NCTU是臺(tái)灣交通大學(xué)感知音頻小組開發(fā)的AAC編碼器，F(xiàn)AAC是德國(guó)FraunhoferIIS開發(fā)的AAC編碼器，F(xiàn)raunhoferIIS是Mpeg標(biāo)準(zhǔn)的主要制定者，其FMC編碼器是AAC標(biāo)準(zhǔn)的驗(yàn)證編碼器。音質(zhì)評(píng)估源使用美國(guó)惠威公司提供的音響試音碟的第一張和第二張，剔除了重復(fù)的曲目，選取了其中37支音樂(lè)剪輯，這些剪輯包含了樂(lè)曲的基本類型，它們的名稱以及描述見表3表3測(cè)試曲目<table>tableseeoriginaldocumentpage23</column></row><table>測(cè)試結(jié)果見表4表4測(cè)試結(jié)果<table>tableseeoriginaldocumentpage24</column></row><table><table>tableseeoriginaldocumentpage25</column></row><table>從圖5和圖6可見，NCTU的平均0DG相對(duì)Faac提高0.163，而使用本發(fā)明的Megal的平均0DG相對(duì)NCTU又提高了0.187,使用PAMII方法的megal基本與Faac相當(dāng)；NCTU的平均NMR相對(duì)Faac降低了1.06dB，而使用本發(fā)明的Megal的平均醒R相對(duì)NCTU又降低了1.08dB，使用PAMII方法的megal平均麗R要高于Faac。類似的結(jié)論可以在測(cè)試剪輯的圖7的0DG分布圖與圖8的麗R分布圖中得到。計(jì)算量評(píng)估與音質(zhì)客觀評(píng)價(jià)都說(shuō)明，本發(fā)明可以使AAC編碼器以大幅降低的計(jì)算量獲得大幅提高的音質(zhì)。本發(fā)明通過(guò)當(dāng)前幀的參數(shù)與以往幀長(zhǎng)期平均的參數(shù)的比較，以及時(shí)域預(yù)回聲判斷，實(shí)現(xiàn)了充分考慮時(shí)域掩蔽和頻域掩蔽(時(shí)頻掩蔽)的心理聲學(xué)模型，最終輸出準(zhǔn)確的編碼子帶比特分配比例預(yù)測(cè)，能夠提高量化編碼算法的編碼質(zhì)量，同時(shí)與傳統(tǒng)心理聲學(xué)模型算法相比運(yùn)算量也有大幅度降低。權(quán)利要求1、一種基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，包含如下處理過(guò)程A、由待編碼碼流的心理聲學(xué)子帶譜能量，通過(guò)掩蔽擴(kuò)散矩陣計(jì)算獲得編碼子帶的感知熵和掩蔽閾值；B、通過(guò)編碼子帶的感知熵和掩蔽閾值，應(yīng)用時(shí)頻掩蔽修正與預(yù)回聲修正，計(jì)算獲得子帶比特消耗預(yù)測(cè)數(shù)；C、心理聲學(xué)模型輸出子帶比特消耗預(yù)測(cè)數(shù)作為碼率失真控制的參數(shù)以進(jìn)行編碼處理。2、如權(quán)利要求1所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，所述步驟B包含如下處理過(guò)程Bl、比較編碼子帶的當(dāng)前掩蔽閾值與長(zhǎng)期平均掩蔽閾值獲得時(shí)頻掩蔽修正因子；B2、通過(guò)時(shí)域掩蔽判斷預(yù)回聲是否失掩蔽，如是，修正時(shí)頻掩蔽修正因子；B3、使用時(shí)頻掩蔽修正因子修正感知熵，計(jì)算獲得子帶比特消耗預(yù)測(cè)數(shù)。3、如權(quán)利要求2所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟B1中所述長(zhǎng)期平均掩蔽閾值通過(guò)如下公式得到Argmask彿<formula>formulaseeoriginaldocumentpage2</formula>其中，Argmask"W是上一幀的編碼子帶長(zhǎng)期平均掩蔽閾值，Argmask"A:)是當(dāng)前幀的編碼子帶長(zhǎng)期平均掩蔽閾值，mask^(yt)是當(dāng)前幀編碼子帶掩蔽閾值，"是衰減指數(shù)；所述時(shí)頻掩蔽修正因子通過(guò)如下公式得到<formula>formulaseeoriginaldocumentpage2</formula>若cM20.5，此時(shí)brust砂("-0.95，a=0.4;若cM〈0.5，此時(shí)brust砂(A:)-0.90，a=0.4;其中，cM為能量比值，brust^("為時(shí)域掩蔽修正因子。4、如權(quán)利要求2所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟B2中所述通過(guò)時(shí)域掩蔽判斷預(yù)回聲是否失掩蔽包含如下步驟-B21、將一幀時(shí)域信號(hào)分割成8段，求得每一段的時(shí)域絕對(duì)幅度和并放在分段絕對(duì)幅度abamp的中間8個(gè)元素中<formula>formulaseeoriginaldocumentpage3</formula>其中，abamp為10xl的向量，其第一個(gè)元素abamp(l)繼承上一幀8段的均方幅度和abamp,控abamp,—2，最后一個(gè)元素繼承該幀的最后一段的絕對(duì)幅度abamp(10)=abamp(9);B22、由步驟B21得到的分段絕對(duì)幅度通過(guò)下式計(jì)算得到時(shí)域掩模Tmask(w):附+2Tmask(m)=Tnorm(附)Zabamp(w)Raterm。5;t(m—w+3)其中時(shí)域擴(kuò)散衰減系數(shù)RateKg為Rate歸=時(shí)域擴(kuò)散歸一化系數(shù)Tiionn(m)為Tnorm(附)=^~^-,m=1,2，.，8B23、當(dāng)1.3Tmask(l)〈Tmask(8)且Tmask(8)〉2000時(shí)，判斷為預(yù)回聲失掩蔽。5、如權(quán)利要求2所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，當(dāng)判斷預(yù)回聲失掩蔽時(shí)，步驟B2按如下原則對(duì)連續(xù)兩幀時(shí)頻掩蔽修正因子進(jìn)行修正bniSt;W=brUS』W贈(zèng)，其中，brust^Ot)為經(jīng)過(guò)預(yù)回聲修正的時(shí)頻掩蔽修正因子，briist^W為原時(shí)域掩蔽修正因子，第一幀修正時(shí)c/m^nw^3，第二幀修正時(shí)c/m5n^二2。6、如權(quán)利要求2所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟B3通過(guò)如下步驟實(shí)現(xiàn)B31、使用時(shí)頻掩蔽修正因子修正感知熵得到子帶比特消耗預(yù)測(cè)比例;B32、根據(jù)實(shí)際比特消耗進(jìn)行幀間負(fù)反饋比特控制，得到當(dāng)前幀的可用比特?cái)?shù)；B33、由子帶比特消耗預(yù)測(cè)比例和當(dāng)前幀的可用比特?cái)?shù)計(jì)算獲得子帶比特消耗預(yù)測(cè)數(shù)。7、如權(quán)利要求6所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟B31中所述子帶比特消耗預(yù)測(cè)比例通過(guò)下式得到PEfit)sfbBitRatio("=49砂、,brust;(A:)，其中，sfbBitRatio("為子帶比特消耗預(yù)Zw測(cè)比例，brust^W為時(shí)域掩蔽修正因子，PE^(Q為編碼子帶的感知熵。8、如權(quán)利要求6所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟B32中所述當(dāng)前幀的可用比特?cái)?shù)由下式得到6/L4vaz7flWe(Z)=awZra/ifl,/(9(6z.L4verage+6/L4va亍/"We(7-1)-6zYL^ec/)，其中，ccm加W她'o為幀間修正因子，W"verage為根據(jù)平均碼率得到的每幀可用的平均比特?cái)?shù)，W"濯7祝e(卜l)為上一幀可用比特?cái)?shù)，為上一幀實(shí)際消耗的比特?cái)?shù)，所述幀間修正因子通過(guò)如下原則確定若6zYia"'o>1.06，cow的/i油'o=-^-，若1.06》6"/ario>1.05，co"o/ia"o=0.9，若1.052>1.02，畫的脂zo=0.95，若1.02>6aiario20.98，cow"o/Wario=1，若6幽rio<0.98，畫的/ia"o=1.2，其中磁加'o=--，為當(dāng)前平均每幀比特?cái)?shù)和可用平均比特?cái)?shù)的比值。9、如權(quán)利要求6所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟B33中所述子帶比特消耗預(yù)測(cè)數(shù)由下式得到sfbBits("=Z7/"vaz7a6/e(z')sfbBitRatio(A)，其中，sfbBits(A:)為子帶比特消耗預(yù)領(lǐng)U數(shù)，W"油/W/e(z')為當(dāng)前幀可用比特?cái)?shù)，sfbBitRatio("為子帶比特消耗預(yù)測(cè)比例。10、如權(quán)利要求1至9任一所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟A包含如下步驟Al、由待編碼碼流的心理聲學(xué)子帶的譜能量相加得到心理聲學(xué)子帶能A2、由心理聲學(xué)子帶能量計(jì)算子帶能量峰谷值；A3、通過(guò)二階線形方程將子帶能量峰谷值映射為掩蔽信號(hào)比；A4、利用掩蔽信號(hào)比和心理聲學(xué)子帶能量計(jì)算子帶的自掩蔽能量；A5、通過(guò)擴(kuò)散矩陣由自掩蔽能量得到心理聲學(xué)子帶的掩蔽閾值；A6、由心理聲學(xué)子帶能量和掩蔽閾值計(jì)算心理聲學(xué)子帶的感知熵；A7、將心理聲學(xué)子帶的感知熵和掩蔽閾值分別映射成編碼子帶的感知熵和掩蔽閾值。11、如權(quán)利要求10所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟A5中所述擴(kuò)散矩陣為稀疏擴(kuò)散矩陣，對(duì)擴(kuò)散矩陣的稀疏化是通過(guò)將歸一化擴(kuò)散矩陣中小于預(yù)定分貝閾值的元素置為0實(shí)現(xiàn)的，所述歸一化擴(kuò)散矩陣的歸一化因子通過(guò)下式獲得<formula>formulaseeoriginaldocumentpage5</formula>)為歸一化因子，bavl(6)和bval(M)為巴克頻率，sprdngf是擴(kuò)散方程；所述擴(kuò)散方程由以下原則確定-<formula>formulaseeoriginaldocumentpage5</formula>為擴(kuò)散方程的值。12、如權(quán)利要求10所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟A2中所述子帶能量峰谷值通過(guò)下式得到卯腕,=5^，—1),E，其中，卯Rate(w為子帶能量峰谷值，E柳(6)為當(dāng)前心理聲學(xué)子帶能量，E阿(6-1),Ep,+1)分別為上一心理聲學(xué)子帶和下一心理聲學(xué)子帶能量。13、如權(quán)利要求10所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟A3中所述二階線形方程為MSRpsy(6)=0.17453ppRate(6)2十0.08325ppRate(6)，其中，MSR附(6)為掩蔽信號(hào)比，ppRate(6)為子帶能量峰谷值。14、如權(quán)利要求10所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟A4中所述自掩蔽能量通過(guò)下式獲得Eselfinask(6)=Epsy(6).MSRpsy(6)，其中，Es麵sk(6)為自掩蔽能量，E附(6)為心理聲學(xué)子帶能量，MSR^(6)為掩蔽信號(hào)比。15、如權(quán)利要求10所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟A5中所述掩蔽閾值通過(guò)下式得到maskpsy(6)=Ese,fmaskxsprdngMN，其中，maskpsy(6)為心理聲學(xué)子帶的掩蔽閾值，sprdngMN為擴(kuò)散矩陣。16、如權(quán)利要求10所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟A6中所述心理聲學(xué)子帶感知熵通過(guò)下式得到其中，PE^(6)為心理聲學(xué)子帶感知熵，b,JW為心理聲學(xué)子帶帶寬，E^(。為心理聲學(xué)子帶能量，maskp砂(。為心理聲學(xué)子帶的掩蔽閾值。17、如權(quán)利要求10所述的基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，其特征在于，步驟A7中所述心理聲學(xué)子帶感知熵通過(guò)下式映射成編碼子帶的感知熵<formula>formulaseeoriginaldocumentpage6</formula>其中，PE""為編碼子帶感知熵，psyLow(6)Sw《psyHigh(6)，psyHigh(6)，psyLow(6)分別為心理聲學(xué)子帶6的上界和下界；sfblow(6)，sfbhigh(6)分別為編碼子帶6的上界和下界；<formula>formulaseeoriginaldocumentpage6</formula>6)為心理聲學(xué)子帶帶寬，PE阿(W為心理聲學(xué)子帶感知熵；所述心理聲學(xué)子帶掩蔽閾值通過(guò)下式映射成編碼子帶的掩蔽閾值mask砂(A:)-bw砂(A:)min(mask啊(6)),WS6《62,其中，mask^(A:)為編碼子帶的掩蔽閾值，W滿足psyLow(61)^sfblow("Spsyhigh(61)，62滿足masD)丄、TrapsyLow(62)"fbhigh("^psyhigh(W)'mask啊(6h";;~mask附(W為七、理聲學(xué)子帶掩蔽閾值；psyHigh(M)，psyLow(M)分別為心理聲學(xué)子帶W的上界和下界；psyHigh(62)，psyLow(W)分別為心理聲學(xué)子帶W的上界和下界；sfblow(/t)，sfbhigh(/t)分別為編碼子帶;t的上界和下界，bw^(;t)為編碼子帶帶寬。全文摘要本發(fā)明公開了一種基于先進(jìn)音頻編碼器的心理聲學(xué)模型的處理方法，包含如下處理過(guò)程A.由待編碼碼流的心理聲學(xué)子帶譜能量，通過(guò)掩蔽擴(kuò)散矩陣計(jì)算獲得編碼子帶的感知熵和掩蔽閾值；B.通過(guò)編碼子帶的感知熵和掩蔽閾值，應(yīng)用時(shí)頻掩蔽修正與預(yù)回聲修正，計(jì)算獲得子帶比特消耗預(yù)測(cè)數(shù)；C.心理聲學(xué)模型輸出子帶比特消耗預(yù)測(cè)數(shù)作為碼率失真控制的參數(shù)以進(jìn)行編碼處理。本發(fā)明能夠更準(zhǔn)確地通過(guò)感知熵得到子帶比特消耗預(yù)測(cè)數(shù)，以該預(yù)測(cè)數(shù)作為編碼器進(jìn)行碼率失真控制的參數(shù)，大大提高了編碼器進(jìn)行量化編碼時(shí)的編碼效率和質(zhì)量。文檔編號(hào)G10L19/02GK101308659SQ200710127660公開日2008年11月19日申請(qǐng)日期2007年6月20日優(yōu)先權(quán)日2007年5月16日發(fā)明者晟吳,邱小軍,強(qiáng)陳,黎家力申請(qǐng)人:中興通訊股份有限公司

完整全部詳細(xì)技術(shù)資料下載