專利名稱:用于確定量化器步長的設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻編碼器,并且尤其涉及基于變換的編碼器,即在編碼器流水線開始時執(zhí)行從時間表示到譜表示的轉(zhuǎn)換的編碼器。
背景技術(shù):
圖3中描述了基于變換的現(xiàn)有技術(shù)音頻編碼器。在國際標準ISO/IEC(國際標準化組織/國際電工技術(shù)委員會)14496-32001(E)第4子部分第4頁中說明了圖3所示的編碼器,該編碼器在該技術(shù)領(lǐng)域中也被稱為AAC編碼器。
以下將介紹該現(xiàn)有技術(shù)編碼器。要編碼的音頻信號在輸入1000處被供入。該音頻信號最初被饋給縮放級1002,其中所謂的AAC增益控制被引入以確立音頻信號的電平。來自縮放的輔助信息被供給位流格式器1004,如位于方框1002和方框1004之間的箭頭所示。然后,經(jīng)過縮放的音頻信號被供給改進離散余弦變換(MDCT)濾波器組1006。利用AAC編碼器,濾波器組用50%的重疊窗口來執(zhí)行改進的離散余弦變換,窗口長度由方框1008來確定。
一般來講,方框1008是為了以較短的窗口來為瞬態(tài)信號加窗、并以較長窗口來為趨向于穩(wěn)定的信號加窗而存在的。這用來,對于瞬態(tài)信號,由于較短的窗口而獲得較高的時間分辨率(以頻率分辨率為代價),而對于趨向于穩(wěn)定的信號,由于較長的窗口而獲得較高的頻率分辨率(以時間分辨率為代價),從而傾向于首選較長的窗口,因為較長的窗口導(dǎo)致較高的編碼增益。在濾波器組1006的輸出,存在時間上連續(xù)的譜值塊,取決于濾波器組的實現(xiàn),這些塊可能是MDCT系數(shù)、傅立葉系數(shù)或子帶信號,每個子帶信號都具有由濾波器組1006中的相應(yīng)子帶通道所指定的特定受限帶寬,并且每個子帶信號都有特定數(shù)量的子帶采樣。
接下來,舉例說明濾波器組輸出時間上連續(xù)的MDCT譜系數(shù)塊的情況,一般來講,這種MDCT譜系數(shù)塊代表要在輸入1000編碼的音頻信號的連續(xù)短期譜。然后,MDCT譜值塊被饋入其中執(zhí)行時域噪聲整形(TNS)的TNS處理方框1010。TNS技術(shù)用于對每個變換窗口內(nèi)的量化噪聲的時間形狀進行整形。這是通過向每個通道的部分譜數(shù)據(jù)應(yīng)用濾波過程來實現(xiàn)的。基于窗口執(zhí)行編碼。尤其是,執(zhí)行以下步驟,以便向譜數(shù)據(jù)的窗應(yīng)用TNS工具,即向譜值塊應(yīng)用TNS工具。
最初,選擇TNS工具的頻率范圍。合適的選擇包括用濾波器覆蓋1.5kHz的頻率范圍,直到最高可能縮放因子帶。應(yīng)該指出,該頻率范圍取決于采樣率,如AAC標準(ISO/IEC 14496-32001(E))中所規(guī)定的。
隨后,確切地說,利用選定目標頻率范圍中所存在的MDCT譜系數(shù)來執(zhí)行線性預(yù)測編碼(LPC)計算。為了提高穩(wěn)定性,從該過程中除去與2.5kHz以下的頻率對應(yīng)的系數(shù)。如語音處理領(lǐng)域所周知的普通LPC過程可用于LPC計算,例如周知的Levinson-Durbin算法。相對于噪聲整形濾波器的最大容許階數(shù),來執(zhí)行計算。
作為LPC計算的結(jié)果,獲得預(yù)期的預(yù)測增益PG。另外,獲得反射系數(shù)或Parcor(部分自相關(guān))系數(shù)。
如果預(yù)測增益不超過特定閾值,則不應(yīng)用TNS工具。在這種情況下,把一種控制信息寫入位流中,使得解碼器知道沒有執(zhí)行TNS處理。
然而,如果預(yù)測增益超過了閾值,則應(yīng)用TNS處理。
在下一步中,對反射系數(shù)進行量化。通過從反射系數(shù)數(shù)組的“尾部”去除絕對值比閾值小的所有反射系數(shù),來確定所使用的噪聲整形濾波器的階數(shù)。剩余反射系數(shù)的數(shù)目對應(yīng)于噪聲整形濾波器的階數(shù)。合適的閾值是0.1。
剩余反射系數(shù)典型地被轉(zhuǎn)換為線性預(yù)測系數(shù),該技術(shù)也被稱為“遞升(step-up)”過程。
然后,把所計算的LPC系數(shù)用作編碼器噪聲整形濾波器系數(shù),即用作預(yù)測濾波器系數(shù)。該有限脈沖響應(yīng)(FIR)濾波器用于在指定的目標頻率范圍中濾波。在解碼中使用自回歸濾波器,而在編碼中使用所謂的移動平均濾波器。最后,把TNS工具的輔助信息供給位流格式器,如圖3中TNS處理方框1010和位流格式器1004之間所示的箭頭所示。
然后,通過圖3中未示出的幾種任選工具,如長期預(yù)測工具、強度/耦合工具、預(yù)測工具、噪聲替代工具,直到最終到達mid/side(中間/旁邊)編碼器1012為止。當要編碼的音頻信號是多通道信號,即具有左邊通道和右邊通道的立體聲信號時,mid/side(中間/旁邊)編碼器1012起作用。到目前為止,即從圖3中的方框1012向上,通過濾波器組分別處理即縮放,變換了左邊和右邊立體聲通道,并且左邊和右邊立體聲通道分別受到或未受到TNS處理。
在mid/side(中間/旁邊)編碼器中,最初執(zhí)行關(guān)于mid/side(中間/旁邊)編碼是否有意義,即是否將完全產(chǎn)生編碼增益的驗證。如果左邊和右邊通道趨向于相似,則mid/side(中間/旁邊)編碼將產(chǎn)生編碼增益,因為在這種情況下,除了以1/2的因子進行縮放以外,中間通道即左邊和右邊通道之和幾乎等于左邊通道或右邊通道,而旁邊通道只有很小的值,因為它等于左邊和右邊通道之差。因此,可以看到,當左邊和右邊通道近似相同時,差近似為0,或者差只有很小的值—該很小值有望在隨后的量化器1014中被量化為0,從而可以以非常高效的方式進行傳輸,因為從量化器1014向下連接了熵編碼器1016。
通過心理聲學(xué)模型1020,向量化器1014提供每縮放因子帶的容許干擾。量化器以交互的方式操作,即最初調(diào)用外部迭代循環(huán),然后外部迭代循環(huán)調(diào)用內(nèi)部迭代循環(huán)。一般來講,從量化器步長起始值開始,最初在量化器1014的輸入執(zhí)行值塊的量化。尤其是,內(nèi)部循環(huán)量化MDCT系數(shù),在該過程中消耗特定的位數(shù)。外部循環(huán)利用縮放因子來計算系數(shù)的失真和改進能量,以便再次調(diào)用內(nèi)部循環(huán)。多次迭代該過程,直到滿足特定的條件字句為止。對于外部迭代循環(huán)中的每次迭代,都重構(gòu)信號,以便計算由量化引入的干擾,并將其和心理聲學(xué)模型1020所提供的容許干擾進行比較。另外,確切地說,對于外部迭代循環(huán)的每次迭代,逐次迭代地使在該比較后仍然被認為受干擾的那些頻帶的縮放因子放大一級或多級。
一旦達到由量化所引入的量化干擾小于由心理聲學(xué)模型所確定的容許干擾的情形,并且如果同時滿足位要求—確切地說就是不超過最大位速率,就終止迭代即分析合成(analysis-by-synthesis)方法,并且如方框1014中所說明的那樣對所獲得的縮放因子進行編碼,并以編碼的形式將其提供給位流格式器1004,如方框1014和方框1004之間所繪制的箭頭所示。然后,量化的值被提供給熵編碼器1016,熵編碼器1016典型地利用幾個Huffman碼表對幾個縮放因子帶執(zhí)行熵編碼,以便將量化值轉(zhuǎn)變?yōu)槎M制格式。眾所周知,Huffman編碼形式的熵編碼涉及求助于基于預(yù)期信號統(tǒng)計信息而生成的碼表,其中經(jīng)常出現(xiàn)的值被賦予的碼字比不經(jīng)常出現(xiàn)的值短。然后,經(jīng)過熵編碼的值作為實際主要信息被提供給位流格式器1004,然后位流格式器1004按照特定的位流語法在輸出端輸出編碼的音頻信號。
如已經(jīng)說明的,如果量化器步長所引入的干擾大于閾值,則在該迭代量化中使用更小的量化器步長,這樣做是希望,因為所執(zhí)行的量化更細、所以這將導(dǎo)致量化噪聲的減小。
該思想的缺點在于,由于量化器步長更小,要傳輸?shù)臄?shù)據(jù)量自然增加,從而壓縮增益減小了。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于確定量化器步長的,一方面引入低量化干擾且另一方面提供高壓縮增益的思想。
通過如專利權(quán)利要求1所要求的用于確定量化器步長的設(shè)備、如專利權(quán)利要求8所要求的用于確定量化器步長的方法、或如專利權(quán)利要求9所要求的計算機程序,來實現(xiàn)該目的。
本發(fā)明基于以下發(fā)現(xiàn)一方面可以實現(xiàn)干擾功率的額外減小,同時可實現(xiàn)編碼增益的增大或至少保持,這是因為即使當引入的干擾大于閾值時,也試驗至少幾種更粗的量化器步長,而不是像現(xiàn)有技術(shù)那樣執(zhí)行更細的量化。證明了即使利用更粗的量化器步長,也可實現(xiàn)量化所引入的干擾的減小,確切地說,在更粗量化器步長比更細量化器步長更好地“擊中”要量化的值的情況下,可實現(xiàn)量化所引入的干擾的減小。該效果是基于以下事實量化誤差不僅取決于量化器步長,而且自然也取決于要量化的值。如果要量化的值非常接近更粗量化器步長的步長,則將實現(xiàn)量化噪聲的減小、同時增大壓縮增益(因為量化更粗了)。
尤其是當作為執(zhí)行閾值比較的基礎(chǔ)的第一量化器步長已經(jīng)有很好的估計量化器步長時,本發(fā)明思想非常有益。因此,在本發(fā)明的優(yōu)選實施例中,優(yōu)選地基于平均噪聲能量而非最壞情況來進行直接計算,由此確定第一量化器步長。因而,根據(jù)現(xiàn)有技術(shù)的迭代循環(huán)可能已經(jīng)大大地減少了,或者可能變得完全廢棄。
在實施例中,本發(fā)明的量化器步長后處理然后將僅僅再一次試驗更粗的量化器步長,以便得益于所描述的、“提高擊中”要量化的值的效果。如果隨后證明通過更粗量化器步長所獲得的干擾小于先前的干擾乃至小于閾值,則可以執(zhí)行更多的迭代來試驗更粗的量化器步長。多次繼續(xù)使量化器步長變粗的該過程,直到所引入的干擾再次增大為止。然后,達到終止準則,從而利用所存儲的、提供最小引入干擾的那個量化器步長,來執(zhí)行量化,并根據(jù)需要繼續(xù)編碼過程。
在本發(fā)明的替換實施例中,為了估計第一量化器步長,可以執(zhí)行如現(xiàn)有技術(shù)中一樣的分析合成方法,多次繼續(xù)該方法,直到達到終止準則為止。然后,可以利用本發(fā)明的后處理來最終驗證,是否有可能利用更粗的量化器步長來獲得同樣好的干擾結(jié)果,乃至更好的干擾結(jié)果。如果發(fā)現(xiàn)對于所引入的干擾來說,更粗的量化器步長同樣好乃至更好,則將利用該步長進行量化。然而,如果發(fā)現(xiàn)更粗的量化沒有產(chǎn)生正面效果,則將利用例如借助于分析/合成方法最初確定的那個量化器步長,來進行最終的量化。
因而,根據(jù)本發(fā)明,可以利用任何量化器步長來整形第一閾值比較。該第一量化器步長是已經(jīng)通過分析/合成方案,還是借助于量化器步長的直接計算所確定的,是無關(guān)緊要的。
在本發(fā)明的優(yōu)選實施例中,該思想用于對存在于頻域中的音頻信號進行量化。然而,該思想也可用于對包括音頻和/或視頻信息的時域信號進行量化。
另外,應(yīng)該指出,用于比較的閾值是心理聲學(xué)或心理光學(xué)容許干擾,或期望落在其之下的另一閾值。例如,該閾值實際上可以是通過心理聲學(xué)模型提供的容許干擾。然而,該閾值也可以是為初始量化器步長預(yù)先確定的引入干擾、或其它任何閾值。
應(yīng)該注意,不必對量化的值進行Huffman編碼,而作為選擇可以利用另一種熵編碼如算術(shù)編碼對量化值進行編碼。作為選擇,也可以用二進制方式對量化值進行編碼,因為這種編碼也具有以下效果為了傳輸更小值或等于0的值,需要比傳輸更大值(一般為不等于0的值)所需的位更少的位。
為了確定起始值,即第一量化器步長,如果量化器步長是從直接噪聲能量估計來確定的,則優(yōu)選地可以完全或至少部分地省去迭代方法。從準確的噪聲能量估計來計算量化器步長比分析合成循環(huán)中的計算要快得多,因為用于計算的值直接就存在,不必首先執(zhí)行并比較幾種量化嘗試,直到找到適于編碼的量化器步長為止。
然而,因為所使用的量化器特征曲線是非線性特征曲線,所以在噪聲能量估計中必須考慮非線性特征曲線。不再可能把簡單的噪聲能量估計用于線性量化器,因為它不夠精確。根據(jù)本發(fā)明,使用具有以下量化特征曲線的量化器yi=round[(xiq)α+s]]]>在以上方程中,xi是要量化的譜值。起始值由yi來表征,因而yi是量化的譜值。q是量化器步長。round是舍入函數(shù),優(yōu)選地為nint函數(shù),“nint”代表“最接近的整數(shù)”。使量化器成為非線性量化器的指數(shù)被稱為α,α不等于1。典型地,指數(shù)α將小于1,使得量化器具有壓縮特性。對于第3層、并且對于AAC,指數(shù)α等于0.75。參數(shù)s是可以具有任何值,但也可以為0的加法常數(shù)。
根據(jù)本發(fā)明,利用以下關(guān)系來計算量化器步長。
Σi|Δxi|2≈q2α12α2·Σixi2(1-α)]]>在α等于3/4的情況下,得到以下方程
Σi|Δxi|2≈q3/26.75·Σi|xi|1/2]]>在這些方程中,左邊項代表頻帶中所容許的干擾THR,并且是通過心理聲學(xué)模型為具有i=i1至i=i2的頻率線的縮放因子帶而提供的。以上方程使能,幾乎準確地為具有指數(shù)α不等于1的以上量化器特征曲線的非線性量化器,估計由量化器步長q引入的干擾,其中量化器方程中的nint函數(shù)執(zhí)行舍入到下一整數(shù)的實際量化器方程。
應(yīng)該注意,可以使用任何期望的舍入函數(shù)來代替nint函數(shù),具體地說,例如舍入到下一偶數(shù)或下一奇數(shù)、或舍入到下一個10的倍數(shù)等。一般來講,舍入函數(shù)負責(zé)把值從具有特定數(shù)量允許值的值集合映射到具有更少的第二特定數(shù)量值的值集合。
在本發(fā)明的優(yōu)選實施例中,量化的譜值預(yù)先受到了TNS處理,并且如果所處理的是例如立體聲信號,則對于mid/side(中間/旁邊)編碼,假定通道能使得mid/side(中間/旁邊)編碼器被激活。
因而,可以直接指示每個縮放因子帶的縮放因子,并且可以將其饋入在量化器步長和縮放因子之間有關(guān)系的相應(yīng)音頻編碼器,其中按照以下方程來給定量化器步長和縮放因子之間的關(guān)系。
q=2(1/4)*scf.]]>由以下方程產(chǎn)生縮放因子。
⇔scf=8.8585·[log10(6.75·THR)-log10(FFAC)];Σi|Δxi|1/2=FFAC]]>在本發(fā)明的優(yōu)選實施例中,也可以利用基于分析合成原理的后處理迭代,以便稍微改變無迭代地直接計算的每個縮放因子帶的量化器步長,以便獲得實際最優(yōu)值。
然而,與現(xiàn)有技術(shù)相比,已經(jīng)非常精確的起始值計算使能非常短的迭代,雖然已經(jīng)證明了在大多數(shù)情況下,可以完全省去下游的迭代。
因此,利用平均噪聲能量來計算步長的優(yōu)選思想提供了良好的實際估計,因為和現(xiàn)有技術(shù)不一樣,它不是在最壞情況下操作,而是使用量化誤差的期望值來作為基礎(chǔ),從而使能以少得多的位計數(shù)和主觀上等效的質(zhì)量,對數(shù)據(jù)進行高效地編碼。另外,由于可以完全省去迭代以及/或者可以明確減少迭代步數(shù),所以可實現(xiàn)快得多的編碼器。這是值得注意的,尤其是因為現(xiàn)有技術(shù)編碼器中的迭代循環(huán)對于編碼器的總時間要求是必需的。因而,甚至一個或更少迭代步數(shù)的減少也將導(dǎo)致較大的編碼器總時間節(jié)約。
從以下連同附圖一起考慮的說明,本發(fā)明的這些及其它目的和特征將變得顯而易見,其中圖1是用于確定量化的音頻信號的設(shè)備的框圖;圖2是代表根據(jù)本發(fā)明優(yōu)選實施例的后處理的流程圖;圖3描述了根據(jù)AAC標準的現(xiàn)有技術(shù)編碼器的框圖;圖4表示由更粗量化器步長引起的量化干擾的減??;以及圖5描述了用于確定用來對信號進行量化的量化器步長的本發(fā)明設(shè)備的框圖。
具體實施例方式
以下,將參考圖5來介紹本發(fā)明的思想。圖5示出了用于確定用來對經(jīng)由信號輸入500提供的、包括音頻或信息的信號進行量化的量化器步長的設(shè)備的略圖。信號被供給用于提供第一量化器步長(QSS)、并提供以下也將稱為可引入干擾的干擾閾值的裝置502。應(yīng)該注意,干擾閾值可以是任何閾值。然而,優(yōu)選地,干擾閾值將是心理聲學(xué)或心理光學(xué)可引入干擾,這樣選擇該閾值,以致被引入干擾的信號仍將被聽眾或觀眾感覺為未受干擾的。
閾值(THR)及第一量化器步長被供給用于確定由第一量化器步長所引入的實際第一干擾的裝置504。優(yōu)選地,通過利用第一量化器步長進行量化、利用第一量化器步長進行重新量化、以及計算原始信號和重新量化的信號之間的距離,來確定實際引入的干擾。優(yōu)選地,當正在處理譜值時,使原始信號和重新量化的信號的相應(yīng)譜值平方,以便隨后確定平方之差??梢圆捎锰鎿Q的距離確定方法。
裝置504為由第一量化器步長實際引入的第一干擾提供值。該第一干擾和閾值THR一起被供給用于比較的裝置506。裝置506在閾值THR和實際引入的第一干擾之間執(zhí)行比較。如果實際引入的第一干擾大于閾值,則裝置506將激活用于選擇第二量化器步長的裝置508,裝置508被配置成選擇要比第一量化器步長更粗,即更大的第二量化器步長。裝置508所選擇的第二量化器步長被供給用于確定實際引入的第二干擾的裝置510。為此,裝置510獲得原始信號及第二量化器步長,并再次利用第二量化器步長執(zhí)行量化、利用第二量化器步長執(zhí)行重新量化、以及計算重新量化的信號和原始信號之間的距離,以便向用于比較的裝置512提供實際引入的第二干擾的測量。用于比較的裝置512對實際引入的第二干擾和實際引入的第一干擾或閾值THR進行比較。如果實際引入的第二干擾小于實際引入的第一干擾乃至小于閾值THR,則第二量化器步長將用于對信號進行量化。
應(yīng)該注意,圖5所描述的思想只是示意性的。自然,不一定需要提供分開的比較裝置來執(zhí)行方框506和512中的比較,而是也有可能提供單個據(jù)此控制的比較裝置。上述情況也適用于用于確定實際引入的干擾的裝置504和510。它們也不必被配置為分開的裝置。
另外,應(yīng)該注意,用于量化的裝置不必被配置為和裝置510分開的裝置。確切地說,當裝置510執(zhí)行量化和重新量化以確定實際引入的干擾時,典型地和裝置510中一樣早地產(chǎn)生通過第二量化器步長量化的信號。當用于比較的裝置512提供肯定結(jié)果時,所獲得的量化值也可被存儲和輸出為量化的信號,使得用于量化的裝置514照原樣和用于確定實際引入的第二干擾合并在一起。
在本發(fā)明的優(yōu)選實施例中,閾值THR是通過心理聲學(xué)確定的最大可引入干擾,在這種情況下信號是音頻信號。在此,通過心理聲學(xué)模型來提供閾值THR,該心理聲學(xué)模型以常規(guī)方式操作,并為每個縮放因子帶提供可引入該縮放因子帶中的估計最大量化干擾。最大可引入干擾是基于掩蔽閾值的,因為例如在利用安全間距執(zhí)行編碼,以致可引入干擾小于掩蔽閾值的意義上,或者在執(zhí)行位速率減小意義上的更具進攻性的(rather offensive)編碼的意義上,更具體地說在容許干擾超過掩蔽閾值的意義上,最大可引入干擾和掩蔽閾值是一樣的、或者是從掩蔽閾值衍生的。
以下將參考圖1來介紹用于提供第一量化器步長的裝置502的優(yōu)選實施方式。在這方面,圖2的裝置50和圖5的裝置502的功能性是相同的。優(yōu)選地,裝置502被配置成具有圖1的裝置10和裝置12的功能性。另外,在該例子中,圖5中的量化器514被配置成和圖1中的量化器14相同。
此外,以下將參考圖2來介紹,如果所引入的干擾超過閾值,也將嘗試更粗量化器步長的完整過程。
另外,延伸圖2中描述本發(fā)明思想的左邊分支,因為如果所引入的干擾超過閾值且量化器步長的變粗不產(chǎn)生任何效果,并且如果位速率要求不是特別嚴格以及/或者“位存儲單元(bit saving bank)”中仍有某些空間,則利用更小即更細的量化器步長執(zhí)行迭代。
最后,以下將參考圖4來介紹本發(fā)明所基于的效果,具體地說是以下效果盡管量化器步長變粗,也可獲得減小的量化噪聲以及與之關(guān)聯(lián)的壓縮增益增大。
圖1示出了用于確定作為譜值形式的譜表示而給出的量化音頻信號的設(shè)備。尤其是應(yīng)該注意,參考圖3,如果沒有執(zhí)行TNS處理和mid/side(中間/旁邊)編碼,則譜值直接就是濾波器組的起始值。然而,如果只執(zhí)行了TNS處理而沒有執(zhí)行mid/side(中間/旁邊)編碼,則饋入量化器1015中的譜值是如同由TNS預(yù)測濾波而形成的譜余值(spectral residual values)。
如果采用包括mid/side(中間/旁邊)編碼的TNS處理,則饋入本發(fā)明設(shè)備中的譜值是中間通道的譜值或旁邊通道的譜值。
首先,本發(fā)明包括用于提供容許干擾的裝置,由圖1中的10所指示。圖3所示的心理聲學(xué)模型1020可用作提供容許干擾的裝置,該心理聲學(xué)模型1020典型地被配置成,為每個縮放因子帶即一組在譜上相鄰的幾個譜值提供容許干擾或閾值(也稱為THR)。容許干擾是基于心理聲學(xué)掩蔽閾值,并指示在人耳感覺不到干擾能量的情況下、可引入原始音頻信號的能量。換句話說,容許干擾是(通過量化)人為引入的、被實際音頻信號掩蔽的信號部分。
裝置10被描述為,為頻帶、優(yōu)選地為縮放因子帶計算容許干擾THR,并將容許干擾THR供給下游裝置12。裝置12用來為被指定了容許干擾THR的頻帶計算量化器步長信息。裝置12被配置成將量化器步長信息q提供給下游的用于量化的裝置14。用于量化的裝置14按照方框14中所畫的量化規(guī)范來操作,在圖1所示的情況下量化器步長信息用于最初使譜值xi除以q值、然后使結(jié)果對不等于1的指數(shù)α取冪,然后視情況而定加上加法因子s。
隨后,該結(jié)果被提供給舍入函數(shù),在圖1所示實施例中舍入函數(shù)選擇下一整數(shù)。按照定義,可以通過截去小數(shù)點后的數(shù)字,即通過“總是下舍入”,來再次產(chǎn)生整數(shù)。作為選擇,也可以通過下舍入到0.499、并且上舍入到0.5,來產(chǎn)生下一整數(shù)。作為另一替換方案,取決于各別實施,可以通過“總是上舍入”來產(chǎn)生下一整數(shù)。然而,可以采用以下其它任何舍入函數(shù)來代替nint函數(shù)一般來講,該其它任何函數(shù)把要舍入的值從第一、較大的值集合映射為第二較小的值集合。
然后,量化的譜值將呈現(xiàn)在裝置14輸出處的頻帶中。如從方框14中描述的方程可以看到的,除量化器步長q以外,自然還將向裝置14提供要在所考慮的頻帶中進行量化的譜值。
應(yīng)該注意,裝置12不必直接計算量化器步長q,而是也可以計算如基于變換的現(xiàn)有技術(shù)音頻編碼器中所使用的縮放因子,作為替換的量化器步長信息。縮放因子經(jīng)由圖1中的方框12右邊所描述的關(guān)系式,鏈接到實際的量化器步長。如果用于計算的裝置進一步被配置成計算縮放因子scf作為量化器步長信息,則該縮放因子將被供給用于量化的裝置14,然后在方框14中裝置14將利用21/4scf值代替q值來執(zhí)行量化計算。
以下將給出方框12中所給出的形式的推導(dǎo)。
如所闡述的,如方框14中所描述的指數(shù)律量化器服從以下關(guān)系式y(tǒng)i=round[(xiq)α+s]]]>逆操作如下
xi′=yi1/α·q]]>因而,該方程式代表重新量化所需的操作,其中yi是量化的譜值,xi’是重新量化的譜值。此外,q是經(jīng)由圖1中的方框12右邊所示的關(guān)系式和縮放因子關(guān)聯(lián)的量化器步長。
如所預(yù)期的,如果α等于1,則結(jié)果和該方程一致。
如果對譜值的矢量來合計以上方程,則由索引i所確定的頻帶中的總噪聲的計算如下Σi|Δxi|2≈q2α12α2·Σixi2(1-α)]]>總之,由量化器步長q和描述矢量分量分布的所謂形狀因子,來確定矢量的量化噪聲的期望值。
即使相對所希望的不同程度干擾電平來計算以上方程,作為以上方程中最右邊項的形狀因子也取決于實際的輸入值,并且只需計算一次。
如已經(jīng)闡述的,把α等于3/4的該方程簡化如下Σi|Δxi|2≈q3/26.75·Σi|xi|1/2]]>從而,該方程的左邊是量化噪聲能量的估計,在邊界的情況下量化噪聲能量與容許噪聲能量(閾值)相符。
因而,將得到以下近似Σi|Δxi|2=THR]]>方程右邊部分中頻率線(frequency line)的根的總和對應(yīng)于頻率線均勻性的測量,并且優(yōu)選地和編碼器中一樣早地被稱為形狀因子Σi|Δxi|1/2=FFAC]]>從而,得到以下結(jié)果THR≈q3/26.75·FFAC]]>在此,q對應(yīng)于量化器步長。對于AAC,q被規(guī)定為
q=2(1/4)*scf]]>scf是縮放因子。如果要確定縮放因子,則可以根據(jù)步長和縮放因子之間的關(guān)系來如下計算方程THR≈2(3/8)scf6.75·FFAC]]>⇔2(3/8)scf=6.75·THRFFAC]]>⇔scf=83log2(6.75·THRFFAC)]]>⇔scf=83log102[log10(6.75·THR)-log10(FFAC)]]]>⇔scf=8.8585·[log10(6.75·THR)-log10(FFAC)]]]>因而,本發(fā)明在具有特定形狀因子的縮放因子帶的縮放因子scf和給出特定干擾閾值THR的縮放因子之間提供緊密聯(lián)系,干擾閾值THR典型地來源于心理聲學(xué)模型。
如已經(jīng)闡述的,利用平均噪聲能量計算步長提供了更好的估計,因為所使用的基礎(chǔ)是量化誤差的期望值,而不是最壞情況。
因而,本發(fā)明的思想適于確定量化器步長,以及/或者與此等效,適于無任何迭代地確定縮放因子帶的縮放因子。
然而,如果計算時間要求不很嚴格,則也可以執(zhí)行如以下借助于圖2表示的后處理。在圖2的第一步驟中,估計第一量化器步長(步驟50)。利用借助于圖1描述的過程,來執(zhí)行第一量化器步長(QSS)的估計。隨后在步驟52中,優(yōu)選地根據(jù)如利用圖1中方框14所描述的量化器、利用第一量化器步長執(zhí)行量化。隨后,對利用第一量化器步長所獲得的值進行重新量化,以便隨后計算所引入的干擾。因此,在步驟54中,驗證所引入的干擾是否超過預(yù)定義的閾值。
應(yīng)該指出,通過方框12中表示的關(guān)系所計算的量化器步長q(或scf)是近似值。如果圖1的方框12中給出的關(guān)系實際上是準確的,則在方框54中應(yīng)該確定所引入的干擾正好對應(yīng)于閾值。然而,由于圖1的方框12中的關(guān)系的近似性質(zhì),所引入的干擾可能超過閾值THR或落在閾值THR以下。
另外,應(yīng)該注意,閾值的偏離將不是特別大,即使將仍然存在閾值偏離。如果在步驟54中發(fā)現(xiàn),利用第一量化器步長、所引入的干擾落在閾值以下,即如果步驟54中問題的回答是否定,則將取圖3中的右邊分支。如果所引入的干擾落在閾值以下,則這意味圖1方框12中的估計太不利,從而在步驟56中,設(shè)置比第二量化器步長更粗的量化器步長。
可以選擇第二量化器步長比第一量化器步長粗的程度。然而,優(yōu)選地取較小的增量,因為方框50中的估計將是已經(jīng)較為準確的。
利用第二較粗(較大)量化器步長,在步驟58中執(zhí)行譜值的量化、隨后的重新量化、以及與第二量化器步長對應(yīng)的第二干擾的計算。
然后在步驟(60)中,驗證與第二量化器步長對應(yīng)的第二干擾是否仍然落在初始閾值以下。如果是這樣,則存儲第二量化器步長(62),并開始新的迭代,以便在步驟(56)中設(shè)置更粗的量化器步長。然后,利用更粗的量化器步長再次執(zhí)行步驟60以及看情況執(zhí)行步驟62,以便再次開始新迭代。如果在步驟60中的迭代期間,發(fā)現(xiàn)第二干擾沒有落在閾值之下,即第二干擾超過了閾值,則達到了終止準則,并且一旦達到終止準則,就利用最后存儲的量化器步長執(zhí)行量化(64)。
因為第一估計的量化器步長已經(jīng)是較好的值,所以與較差估計的起始值相比,迭代次數(shù)將減少,這將導(dǎo)致編碼時的計算時間的大大節(jié)約,因為用于計算量化器步長的迭代占據(jù)編碼器計算時間的最大部分。
以下將參考圖2的左邊分支,來描述當實際引入的干擾超過閾值時所使用的本發(fā)明過程。
盡管引入的干擾已經(jīng)超過閾值,也根據(jù)本發(fā)明設(shè)置更粗的第二量化器步長(70),然后在步驟72中執(zhí)行與第二量化器步長對應(yīng)的量化、重新量化和第二噪聲干擾計算。此后,在步驟74中驗證第二噪聲干擾現(xiàn)在是否落在閾值以下。如果是這樣,則步驟74中問題的回答是“是”,并存儲第二量化器步長(76)。然而,如果發(fā)現(xiàn)第二噪聲干擾超過了閾值,則利用所存儲的量化器步長來執(zhí)行量化,或者如果沒有存儲更好的第二量化器步長,則通過迭代,其中和現(xiàn)有技術(shù)中一樣,選擇更細的第二量化器步長來把把引入的干擾“推”到閾值以下。
接下來討論,為什么當使用更粗的量化器步長、尤其當所引入的干擾超過閾值時,仍然可以獲得改進。到目前為止,一直在以下的假定之下進行操作更細的量化器步長導(dǎo)致更小的引入量化能量,并且更大的量化器步長導(dǎo)致更高的引入量化干擾。平均起來,情況可能是這樣的,但不總是這樣的,并且尤其是對于相當稀疏填充的縮放因子帶、以及尤其當量化器具有非線性特征曲線時,情況將相反。已經(jīng)發(fā)現(xiàn),根據(jù)本發(fā)明,在不應(yīng)低估的許多情況下,更粗的量化器步長導(dǎo)致更小的引入干擾。這可以追溯到以下事實可能存在以下情況更粗的量化器步長比更細的量化器步長更好地擊中要量化的譜值,如將要利用參考圖4的以下例子進行陳述的。
例如,圖4示出了當對0和1之間的輸入信號進行量化時的量化特征曲線(60),該量化特征曲線(60)提供四個量化級0、1、2、3。量化值對應(yīng)于0.0、0.25、0.5和0.75。與之相比,在圖4中用點線畫出了不同的更粗量化特征曲線(62),該更粗量化特征曲線(62)只有和絕對值0.0、0.33和0.66對應(yīng)的三個量化級。因而,在第一種情況下,即對于量化器特征曲線60,量化器步長等于0.25,而在第二種情況下,即對于量化器特征曲線62,量化器步長等于0.33。因此,第二二量化器特征曲線(62)具有比代表細量化特征曲線的第一量化器特征曲線(60)粗的量化器步長。如果考慮要量化的值xi=0.33,則從圖4可以看到,利用具有4級的細量化器進行量化的誤差等于0.33和0.25之差,因此等于0.08。相反,由于量化器級照原樣準確地“擊中”要量化的值,利用3級進行量化的誤差等于0。
因此,從圖4可以看到,更粗的量化可能導(dǎo)致比細量化小的量化誤差。
另外,更粗的量化是所要求的更小起始位速率的決定因素,因為和其中必須在0、1、2、3這4級給出信號的更細量化情況不一樣,可能的狀態(tài)只有三種,即0、1、2。另外,更粗量化器步長的優(yōu)點在于,與其中更少的值被量化為“0”的更細量化器步長相比,更多的值傾向于被“量化”為0。即使當考慮一個縮放因子帶中的幾個譜值時、“量化為0”將導(dǎo)致量化誤差的增大,這也不一定變得有問題,因為更粗的量化器步長可能以更準確的方式擊中其它更重要的譜值,使得量化誤差被抵銷了,甚至被其它譜值的更粗量化過補償,同時出現(xiàn)更小的位速率。
換句話說,總而言之,所獲得的編碼器結(jié)果“更好”,因為本發(fā)明的思想實現(xiàn)了要通知的狀態(tài)數(shù)量的減小,同時提高了量化級的“擊中”。
根據(jù)本發(fā)明,如圖2左邊分支所表示的,當引入的干擾超過閾值時,從估計值開始嘗試更粗的量化器步長(圖2中的步驟50),以便得益于利用圖4表示的效果。另外,已證明,與圖4所畫出的兩條線性量化器特征曲線的情況相比,該效果對于非線性量化器更為重要。
因而,所提出的量化器步長后處理和/或縮放因子后處理思想用于改進縮放因子估計器的結(jié)果。
從縮放因子估計器(圖2中的50)中所確定的量化器步長開始,在分析合成步驟中確定盡可能大的、誤差能量落在預(yù)定義閾值以下的新量化器步長。
因此,利用所計算的量化器步長對譜進行量化,并確定誤差信號的能量,即優(yōu)選地為原始和量化的譜值之差的平方和。作為選擇,對于誤差確定,也可以使用時間信號,即使優(yōu)選使用譜值。
量化器步長和誤差信號被存儲為迄今所獲得的最好結(jié)果。如果所計算的干擾超過了閾值,則采用以下方法縮放因子在預(yù)定義范圍內(nèi)在最初計算的值周圍變化,尤其利用更粗量化器步長(70)。
對于每個新縮放因子,再次對譜進行量化,并計算誤差信號的能量。如果誤差信號小于迄今所計算的最小值,則把當前量化器步長和關(guān)聯(lián)的誤差信號的能量一起鎖存為迄今獲得的最好結(jié)果。
根據(jù)本發(fā)明,在此不僅考慮較小的縮放因子,而且還考慮較大的縮放因子,以便得益于參考圖4描述的思想,尤其是當量化器是非線性量化器時。
然而,如果所計算的干擾落在閾值以下,即如果步驟50中的估計太不利,則縮放因子將在預(yù)定義范圍內(nèi),在最初計算的值周圍變化。
對于每個新縮放因子,對譜進行重新量化,并計算誤差信號的能量。
如果誤差信號小于迄今所計算的最小值,則把當前量化器步長和關(guān)聯(lián)的誤差信號的能量一起鎖存為迄今獲得的最好結(jié)果。
然而,在此只考慮較粗的縮放因子,以便減少對音頻譜進行編碼所需的位數(shù)。
取決于環(huán)境,可以用硬件或軟件來實施本發(fā)明的方法??梢栽跀?shù)字存儲介質(zhì),尤其是具有電子可讀控制信號的盤或光盤(CD)上,實現(xiàn)本發(fā)明方法的實施,該電子可讀控制信號可以和可編程計算機系統(tǒng)協(xié)作,以執(zhí)行本發(fā)明方法。
一般,本發(fā)明是具有存儲在機器可讀載體上的程序代碼的計算機程序產(chǎn)品,該程序代碼用于當在計算機上運行該計算機程序產(chǎn)品時執(zhí)行本發(fā)明的方法。換句話說,可以這樣將本發(fā)明實現(xiàn)為一種具有程序代碼的計算機程序,該程序代碼用于當在計算機上運行該計算機程序時執(zhí)行本發(fā)明的方法。
權(quán)利要求
1.一種確定用于對包括音頻或視頻信息的信號進行量化的量化器步長的設(shè)備,該設(shè)備包括用于提供第一量化器步長和干擾閾值的裝置(502);用于確定由第一量化器步長所引入的第一干擾的裝置(504);用于對由第一量化器步長引入的干擾和干擾閾值進行比較的裝置(506);用于在引入的第一干擾超過干擾閾值時選擇比第一量化器步長大的第二量化器步長的裝置(508);用于確定由第二量化器步長所引入的第二干擾的裝置(510);用于對引入的第二干擾和干擾閾值或引入的第一干擾進行比較的裝置(512);以及用于在引入的第二干擾小于引入的第一干擾或小于干擾閾值時利用第二量化器步長對信號進行量化的裝置(514)。
2.根據(jù)權(quán)利要求1所述的設(shè)備,其中信號是音頻信號,并包括音頻信號的譜表示的譜值,并且用于提供的裝置(502)被配置為心理聲學(xué)模型,該心理聲學(xué)模型根據(jù)心理聲學(xué)掩蔽閾值來計算頻帶的容許干擾。
3.根據(jù)權(quán)利要求1所述的設(shè)備,其中用于確定引入的第一干擾的裝置(504)或用于計算引入的第二干擾的裝置(510)被配置成,利用量化器步長進行量化、利用量化器步長進行重新量化、以及計算重新量化的信號和信號之間的距離,以獲得所引入的干擾。
4.根據(jù)權(quán)利要求1所述的設(shè)備,其中用于提供第一量化器步長的裝置(502)被配置成根據(jù)以下方程來計算量化器步長Σi|Δxi|2≈q2α12α2·Σixi2(1-α)]]>其中用于量化的裝置(514)被配置成根據(jù)以下方程進行量化yi=round[(xiq)α+s]]]>其中xi是要量化的譜值,q代表量化器步長信息,s是不等于或等于0的數(shù),α是不同于“1”的指數(shù),round是把第一較大的值范圍內(nèi)的值映射到第二較小的值范圍內(nèi)的值的舍入函數(shù), (THR)是容許干擾,i是頻帶中的譜值的運算索引。
5.根據(jù)權(quán)利要求1所述的設(shè)備,其中用于選擇的裝置(508)進一步被配置成,當引入的干擾小于容許干擾時選擇更大的量化器步長。
6.根據(jù)權(quán)利要求1所述的設(shè)備,其中用于提供的裝置(502)被配置成,作為分析/合成確定的結(jié)果而提供第一量化器步長。
7.根據(jù)權(quán)利要求1所述的設(shè)備,其中用于選擇的裝置(508)被配置成,與另一頻帶的量化器步長無關(guān)地改變某一頻帶的量化器步長。
8.根據(jù)權(quán)利要求1所述的設(shè)備,其中用于提供的裝置(502)被配置成,作為在量化器步長變粗的情況下執(zhí)行的先前迭代步驟的結(jié)果來確定第一量化器步長,其中干擾閾值是在確定第一量化器步長的先前迭代步驟中所引入的干擾。
9.一種確定用于對包括音頻或視頻信息的信號進行量化的量化器步長的方法,該方法包括提供(502)第一量化器步長和干擾閾值;確定(504)由第一量化器步長所引入的第一干擾;對由第一量化器步長引入的干擾和干擾閾值進行比較(506);如果引入的第一干擾超過干擾閾值,選擇(508)比第一量化器步長大的第二量化器步長;確定(510)由第二量化器步長所引入的第二干擾;對引入的第二干擾和干擾閾值或引入的第一干擾進行比較(512);以及如果引入的第二干擾小于引入的第一干擾或小于干擾閾值,利用第二量化器步長對信號進行量化(514)。
10.一種具有程序代碼的計算機程序,所述程序代碼用于當在計算機上運行所述計算機程序時執(zhí)行根據(jù)權(quán)利要求9所述的方法。
全文摘要
為了確定用于對包括音頻或視頻信息的信號進行量化的量化器步長,提供第一量化器步長及干擾閾值(502)。根據(jù)本發(fā)明,確定通過第一量化器步長引入的實際干擾(504),并將其和干擾閾值進行比較(506)。如果比較指示實際引入的干擾高于閾值,則使用更粗的第二量化器步長(508),然后如果由更粗的第二量化器步長所引入的干擾落低于閾值或低于由第一量化器步長所引入的干擾(512),則利用該更粗的第二量化器步長進行量化(514)。這樣,在量化變粗期間由此在壓縮增益增大期間,量化干擾減小了。
文檔編號G10L19/032GK1922656SQ200580005107
公開日2007年2月28日 申請日期2005年2月17日 優(yōu)先權(quán)日2004年3月1日
發(fā)明者伯恩哈德·格瑞, 邁克爾·舒格, 博多·迪克曼, 尼古拉斯·里特爾博謝 申請人:弗勞恩霍夫應(yīng)用研究促進協(xié)會