本發(fā)明總體上涉及諸如信號壓縮和音頻編碼之類的信號處理,更特別地涉及音頻編碼和音頻解碼以及相應(yīng)的設(shè)備。
背景技術(shù):編碼器是一種能夠分析諸如音頻信號之類的信號并以編碼的形式輸出信號的設(shè)備、電路或計算機程序。所得到的信號通常用于傳輸、存儲和/加密的目的。另一方面,解碼器是一種能夠反轉(zhuǎn)編碼器操作的設(shè)備、電路或計算機程序,因為其接收編碼的信號并且輸出解碼的信號。在大多數(shù)現(xiàn)有技術(shù)的編碼器(例如音頻編碼器)中,在頻域中分析輸入信號的每個幀。該分析的結(jié)果被量化和編碼,并且然后根據(jù)應(yīng)用進行傳輸或存儲。在接收側(cè)(或者當(dāng)使用所存儲的編碼信號時),后面是合成過程的相應(yīng)解碼過程使得有可能在時域中恢復(fù)信號。編解碼器通常用于壓縮/解壓縮諸如音頻和視頻數(shù)據(jù)之類的信息以便通過帶寬受限的通信信道進行高效的傳輸。特別地,市場高度需要以低比特率傳輸和存儲音頻信號,同時保持高的音頻質(zhì)量。例如,在傳輸資源或存儲受限的情況下,低比特率操作是必要的成本因素。例如在移動通信系統(tǒng)中的流式傳輸和消息接發(fā)應(yīng)用中通常是這種情況。在圖1中示意性地示出使用音頻編碼和解碼的音頻傳輸系統(tǒng)的一般實例。整個系統(tǒng)基本上包括在發(fā)射側(cè)的音頻編碼器10和發(fā)射模塊(TX)20以及在接收側(cè)的接收模塊(RX)30和音頻解碼器40。公認(rèn)的是,為了處理特別用于音頻編碼應(yīng)用以及一般用于信號壓縮的非穩(wěn)態(tài)信號,必須格外小心。在音頻編碼中,被稱為前回聲失真的贗象(artifact)會出現(xiàn)在所謂的變換編碼器中。變換編碼器或更一般而言變換編解碼器(編碼器-解碼器)通?;跁r域到頻域的變換,例如DCT(離散余弦變換)、改進的離散余弦變換(MDCT)或另一重疊變換。變換編解碼器的共同特性是,它們對重疊采樣塊(即重疊幀)進行操作。由每個幀的變換分析或等效子帶分析所產(chǎn)生的編碼系數(shù)通常被量化和存儲或者作為比特流傳輸?shù)浇邮諅?cè)。解碼器一接收到比特流就執(zhí)行解量化和逆變換以便重構(gòu)信號幀。前回聲通常在具有尖銳上升(attack)的信號開始在緊接在低能量區(qū)域后的變換塊的末端附近時出現(xiàn)。這種情況例如在編碼打擊樂器(例如響板、鐘琴)的聲音時出現(xiàn)。在基于塊的算法中,當(dāng)量化變換系數(shù)時,在解碼器側(cè)的逆變換將在時間上均勻地擴展量化噪聲失真。這導(dǎo)致在時間上信號上升之前的低能量區(qū)域上的無掩蔽失真,如在圖2A和2B所示,其中圖2A示出原始的打擊聲音,以及圖2B示出變換編碼的信號,其顯示出導(dǎo)致前回聲失真的編碼噪聲的時間擴展。時間超前掩蔽(pre-mask)是人類聽覺的心理聲學(xué)特性,其具有掩蔽這一失真的潛力;然而這僅在變換塊尺寸足夠小以至于出現(xiàn)超前掩蔽時才有可能。前回聲贗象減輕(現(xiàn)有技術(shù))為了避免這種不期望的贗象,幾種方法已經(jīng)被提出并且被成功地應(yīng)用。這些技術(shù)的一些已經(jīng)被標(biāo)準(zhǔn)化并且在商業(yè)應(yīng)用上很普遍。比特儲存(bitreservoir)技術(shù)比特儲存技術(shù)背后的思想是保存來自“容易”在頻域中編碼的幀的一些比特。此后使用所保存的比特以便適應(yīng)要求高的幀,比如瞬態(tài)幀。這導(dǎo)致可變的瞬時比特率,通過某種調(diào)整可以使得平均比特率恒定。然而主要的缺點是,實際上需要非常大的儲存以便處理某些瞬態(tài),并且這導(dǎo)致非常大的延遲,從而使得該技術(shù)對會話式應(yīng)用沒有多大興趣。另外,該方法僅稍微減輕了前回聲贗象。增益修正以及時間噪聲整形在頻譜分析和編碼之前,增益修正方法在時域中應(yīng)用瞬態(tài)峰值的平滑。增益修正包絡(luò)被作為輔助信息進行發(fā)送,并且被反向應(yīng)用于逆變換信號,從而整形時間編碼噪聲。增益修正技術(shù)的主要缺點在于其對濾波器組(例如MDCT)分析窗的修正,因此引入濾波器組的頻率響應(yīng)的加寬。這可能在低頻下尤其是在帶寬超過臨界頻帶的帶寬的情況下導(dǎo)致問題。時間噪聲整形(TNS)受到增益修正技術(shù)的啟發(fā)。增益修正被應(yīng)用于頻域中并且對頻譜系數(shù)進行操作。僅在對前回聲敏感的輸入上升期間應(yīng)用TNS。該思想是在頻率上而不是在時間上應(yīng)用線性預(yù)測(LP)。這受如下事實的推動:在瞬態(tài)以及一般而言脈沖信號期間,通過使用LP技術(shù)來最大化頻域編碼增益。在AAC中TNS被標(biāo)準(zhǔn)化并且被證實提供對前回聲贗象的良好減輕。然而,TNS的使用涉及LP分析和濾波,這顯著增加編碼器和解碼器的復(fù)雜性。另外,LP系數(shù)必須被量化并且作為輔助信息而發(fā)送,這涉及進一步的復(fù)雜性和比特率開銷。窗切換圖3示出窗切換(MPEG-1,層III“mp3”),其中在長窗和短窗之間需要過渡窗“開始”和“停止”以保留PR(完全重構(gòu))特性。該技術(shù)首先由Ed1er[1]引入,并且廣泛用于特別是在基于MDCT的變換編碼算法的情況下的前回聲抑制。窗切換是基于一檢測到瞬態(tài)就改變變換的時間分辨率的思想。通常,這涉及將分析塊長度從穩(wěn)態(tài)信號期間的長持續(xù)時間改變到當(dāng)檢測到瞬態(tài)時的短持續(xù)時間。該思想是基于下面兩種考慮:●應(yīng)用于包含瞬態(tài)的短幀的短窗將最小化編碼噪聲的時間擴展,并且允許時間超前掩蔽生效和致使聽不見失真?!裣虬矐B(tài)的短時間區(qū)域分配較高的比特率。盡管窗切換已經(jīng)非常成功,但是它帶來相當(dāng)多的缺點。例如,編解碼器的感知模型和無損編碼模塊必須支持不同的時間分辨率,這通常轉(zhuǎn)化成增加的復(fù)雜性。另外,當(dāng)使用重疊變換(例如MDCT)時,并且為了滿足完全重構(gòu)約束,窗切換需要在短塊和長塊之間插入過渡窗,如圖3所示。對過渡窗的需要產(chǎn)生進一步的缺點,即由于切換窗不能瞬時完成這一事實而引起的增加的延遲,以及還有過渡窗的差的頻率局部化特性,其導(dǎo)致編碼增益的大大減小。
技術(shù)實現(xiàn)要素:本發(fā)明克服了現(xiàn)有技術(shù)方案的這些和其他缺點。因此,通常需要改進的信號處理技術(shù)和設(shè)備,更特別地,特別需要用于處理前回聲失真的新的音頻編解碼器策略。本發(fā)明的一般目的是提供一種對時域輸入信號的重疊幀進行操作的改進的信號處理的方法和設(shè)備。特別地,期望提供一種改進的音頻編碼器。本發(fā)明的另一個目的是提供一種基于表示時域信號的頻譜系數(shù)進行操作的改進的信號處理的方法和設(shè)備。特別地,期望提供一種改進的音頻解碼器。這些和其他目的由所附的專利權(quán)利要求所限定的本發(fā)明來滿足。本發(fā)明的第一方面涉及一種用于對輸入信號的重疊幀進行操作的信號處理的方法和設(shè)備。本發(fā)明是基于如下構(gòu)思:將時域混疊幀用作時間分段和頻譜分析的基礎(chǔ),基于時域混疊幀來在時間上執(zhí)行分段,并且基于所得到的時間段來執(zhí)行頻譜分析。因此可以通過基于應(yīng)用哪個頻譜分析而簡單地適配時間分段以獲得合適數(shù)目的時間段,從而改變整體“分段的”時間到頻率的變換的時間分辨率。更具體地,基本的思想是基于重疊幀來執(zhí)行時域混疊(TDA)以生成相應(yīng)的時域混疊幀,并且基于時域混疊幀來在時間上執(zhí)行分段以生成至少兩段,所述段也被稱為子幀。基于這些段,然后執(zhí)行頻譜分析以便為每段獲得表示該段的頻率內(nèi)容的系數(shù)。用于所有段的整體系數(shù)(也被稱為頻譜系數(shù))集提供原始信號幀的能選擇的時間-頻率平鋪(tiling)。瞬時分解成段例如可以被用來減輕前回聲效應(yīng)(例如在瞬態(tài)的情況下),或者通常用來提供高效信號表示,其允許所討論的幀的比特率高效編碼。本發(fā)明的第一方面特別涉及一種被配置成根據(jù)上述基本原理來操作的音頻編碼器。本發(fā)明的第二方面涉及一種基于表示時域信號的頻譜系數(shù)進行操作的信號處理的方法和設(shè)備。本發(fā)明的該方面基本上涉及本發(fā)明的第一方面的信號處理的自然逆操作。簡言之,基于頻譜系數(shù)的不同子集來執(zhí)行逆分段頻譜分析,以便為每個子集的頻譜系數(shù)生成逆變換子幀,所述逆變換子幀也被稱為段。然后基于重疊的逆變換子幀來執(zhí)行逆時間分段以將這些子幀組合成時域混疊幀?;谒鰰r域混疊幀來執(zhí)行逆時域混疊以實現(xiàn)時域信號的重構(gòu)。本發(fā)明的第二方面特別涉及一種被配置成根據(jù)上述基本原理來操作的音頻解碼器。當(dāng)閱讀下面對本發(fā)明的實施例的描述時將會認(rèn)識到由本發(fā)明提供的進一步優(yōu)點。附圖說明通過參考與附圖一起得到的下面的描述,將會最好地理解本發(fā)明連同其進一步的目的和優(yōu)點,其中:圖1是示出使用音頻編碼和解碼的音頻傳輸系統(tǒng)的一般實例的示意性框圖。圖2A示出原始打擊聲音,以及圖2B示出變換編碼的信號,其顯示出導(dǎo)致前回聲失真的編碼噪聲的時間擴展。圖3示出用于基于變換的編碼的常規(guī)窗切換技術(shù)。圖4A示意性地示出一般MDCT(改進的離散余弦變換)正變換。圖4B示意性地示出一般MDCT(改進的離散余弦變換)逆變換。圖5是示出將MDCT(改進的離散余弦變換)變換分解成兩個級聯(lián)的級的示意圖。圖6是示出根據(jù)本發(fā)明一個優(yōu)選示例性實施例的用于信號處理的方法的實例的示意性流程圖。圖7是根據(jù)本發(fā)明一個優(yōu)選示例性實施例的一般信號處理設(shè)備的示意性框圖。圖8是根據(jù)本發(fā)明另一個優(yōu)選示例性實施例的設(shè)備的示意性框圖。圖9是根據(jù)本發(fā)明又一個示例性實施例的設(shè)備的示意性框圖。圖10是根據(jù)本發(fā)明一個示例性實施例的時域混疊重新排序的實例的示意圖。圖11是根據(jù)本發(fā)明一個示例性實施例的分段成包括零填充的兩個時間段的實例的示意圖。圖12示出與0.25的歸一化頻率有關(guān)的圖11的分段的兩個基本函數(shù)的圖以及相應(yīng)的頻率響應(yīng)圖。圖13示出與0.25的歸一化頻率有關(guān)的原始MDCT基本函數(shù)的圖以及相應(yīng)的頻率響應(yīng)圖。圖14是示出根據(jù)本發(fā)明一個示例性實施例的分段成包括零填充的四個時間段的實例的示意圖。圖15是示出根據(jù)本發(fā)明一個示例性實施例的分段成包括零填充的八個時間段的實例的示意圖。圖16示出根據(jù)本發(fā)明一個示例性實施例的針對四段的情況所得到的總變換的實現(xiàn)。圖17示出借助于分級方法獲得非均勻分段的示例性方式。圖18示出一檢測到瞬態(tài)就瞬時切換到更精細(xì)的時間分辨率的實例。圖19是示出基于表示時域信號的頻譜系數(shù)進行操作的信號處理設(shè)備的基本實例的框圖。圖20是適合于全帶擴展的示例性編碼器的框圖。圖21是適合于全帶擴展的示例性解碼器的框圖。圖22是根據(jù)本發(fā)明一個優(yōu)選實施例的逆變換器以及相關(guān)聯(lián)的用于逆時間分段和可選重新排序的實施方式的特定實例的示意性框圖。具體實施方式在全部附圖中,相同的附圖標(biāo)記將被用于相應(yīng)的或類似的元素。為了更好地理解本發(fā)明,以對變換編碼以及尤其是基于所謂的重疊變換的變換編碼的簡短介紹來開始可能是有用的。如先前所述,變換編解碼器通常是基于時域到頻域的變換,例如DCT(離散余弦變換)、重疊變換(例如改進的離散余弦變換(MDCT))或調(diào)制重疊變換(MLT)。例如,改進的離散余弦變換(MDCT)是基于IV類型離散余弦變換(DCT-IV)的傅里葉相關(guān)的變換,其附加特性是被重疊:其被設(shè)計成在較大數(shù)據(jù)集的連續(xù)塊上執(zhí)行,其中重疊后續(xù)塊(所謂的重疊幀),以使一個塊的后一半與下一個塊的前一半重合,如圖4A中示意性所示。除了DCT的能量集中品質(zhì)之外,該重疊使得MDCT對于信號壓縮應(yīng)用尤其具有吸引力,因為它有助于避免源于塊邊界的贗象。因此,MDCT例如被用于MP3、AC-3、OggVorbis以及AAC中進行音頻壓縮。作為一種重疊變換,MDCT在與其他的傅里葉相關(guān)的變換相比時略有不同。事實上,MDCT的輸出是輸入的一半。形式上,MDCT是從R2N到RN的線性映射(其中R表示實數(shù)集)。在數(shù)學(xué)上,根據(jù)下面的公式將實數(shù)x0,x1,…,x2N變換成實數(shù)X0,X1,…,XN:根據(jù)慣例,上面的...