欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

采用附加的濾波器陣列在幀邊界處衰減頻譜鄰頻干擾的基于幀的音頻編碼的制作方法

文檔序號:6748190閱讀:199來源:國知局
專利名稱:采用附加的濾波器陣列在幀邊界處衰減頻譜鄰頻干擾的基于幀的音頻編碼的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及音頻信號處理,在其中,音頻信息流被排列成信息幀的形式。特別是,本發(fā)明涉及改進音頻信息流的音質(zhì),上述音頻信息流是通過將基于幀的諸音頻信息流加以拼接而形成的。
編輯音頻或視頻素材的過程實質(zhì)上是將兩段素材拼接或?qū)?其中之一)在一起的過程。一個簡單的編輯范例就是剪接動畫電影膠片的過程。待拼接的兩段素材可以取自不同的來源,例如,音頻信息的不同聲道,或者它們可以取自相同的來源。無論在哪一種情況下,拼接過程通常會在音頻或視頻素材中產(chǎn)生可覺察的或不可覺察的不連續(xù)性。
音頻編碼塊處理數(shù)字音頻的日益增長的應(yīng)用使得它難以在不產(chǎn)生可聽見的各種偽差的條件下去編輯音頻素材。這種情況的出現(xiàn),部分地是由于必須以塊的形式頻繁地對諸數(shù)字樣本塊進行處理或編碼。許多感知的或基于心理聲學(xué)的音頻編碼系統(tǒng)利用濾波器陣列或者各種變換,將各信號樣本塊轉(zhuǎn)換為已編碼的子帶信號樣本的諸塊或者各種變換系數(shù),它們必須經(jīng)過合成濾波或者被逆變換為各塊,以便恢復(fù)原始信號的一個復(fù)制品。起碼,必須在一個塊的邊界上來完成已處理的音頻信號;否則,由剩余的部分塊所代表的音頻信息不能完全地被恢復(fù)。
在本文的以下部分中,諸如“編碼”以及“編碼器”這樣的名詞指的是用于信號處理的各種方法和裝置,諸如“已編碼的”這樣的其他名詞指的是這樣的處理的諸結(jié)果。在這些名詞中,沒有一條隱含著任何特定的處理方式,例如在一組信號中降低信息的無關(guān)性或冗余度。例如,編碼包括產(chǎn)生代表一組信號的脈沖編碼調(diào)制(PCM)諸樣本,并按照某種規(guī)格將信息排列成樣板或格式。在本文中使用的諸如“塊”和“幀”這樣的名詞指的是跟這些名詞在別處(例如在ANSIS4.40-1992標(biāo)準(zhǔn),有時也稱為AES-3/EBU數(shù)字音頻標(biāo)準(zhǔn)中)所指的對象不同的那些信息的諸分組或諸間隔,本文所使用的名詞“濾波器”和“濾波器陣列”基本上包括任何形式的遞歸的和非遞歸的濾波方法,例如正交鏡像濾波器(QMF)和變換,并且“已濾波”的信息是使用這樣的濾波器所得到的結(jié)果。下面將對通過各種變換來實現(xiàn)的濾波器陣列作出更專門的說明。
使用重疊的塊結(jié)構(gòu)來處理和編碼節(jié)目素材的各種編碼系統(tǒng)對編輯工作產(chǎn)生了附加的限制。由于已編碼的各塊的重疊的性質(zhì),所以即使從已編碼的諸樣本或諸系數(shù)的一個完整的塊,也無法完全地恢復(fù)原始信號。
借助于一種常用的重疊塊變換,就能清楚地說明這種限制,這種修正的離散余弦變換(DCT),在Princen,Johnson和Bradley合寫的題為《使用基于時域混疊抵消的濾波器陣列設(shè)計的子帶/變換編碼》的論文中對此作了敘述,該文被收入1987年國際聲學(xué)、語音和信號處理會議論文集,1987年5月,第2161-2164頁。這種變換是一種奇數(shù)堆棧臨界采樣單邊帶分析-合成系統(tǒng)的時域等價物,并且在本文中被稱為奇數(shù)堆棧時域混疊抵消(O-TDAC)方法。對以半個塊長互相重疊的諸樣本塊實施正變換,并且通過將諸變換系數(shù)除以2來獲得臨界采樣;然而,由于這種縮減所帶來的信息損失將在已恢復(fù)的信號中產(chǎn)生時域混疊。通過對諸變換系數(shù)的諸塊實施逆變換以產(chǎn)生合成樣本的諸塊,對已合成樣本的諸塊施加一個形狀合適的合成窗口函數(shù),以及對窗口內(nèi)的諸塊進行重疊和相加,該合成過程就能抵消這種混疊。例如,若一個TDAC編碼系統(tǒng)產(chǎn)生諸塊B1-B2的一個序列,則處于塊B1的后半部和塊B2的前半部之中的混疊偽差將互相抵消。
若來自一個TDAC編碼系統(tǒng)的兩組已編碼的信息流在一個塊的邊界處被拼接,則所得到的諸塊的序列將不能抵消互相之間的混疊偽差。例如,假設(shè)一段已編碼的信息流被剪斷,使得它結(jié)束于介于諸塊B1-B2之間的一個塊邊界上,并且另一個已編碼的信息流被剪斷,使得它開始于介于諸塊A1-A2之間的一個塊邊界上。若這兩段已編碼的信息流被拼接,并使得塊B1緊挨著塊A2的前面,則處于塊B1的后半部以及塊A2的前半部的各種混疊偽差通常也將無法互相抵消。
現(xiàn)有技術(shù)的方法和裝置不是忽略了這個問題就是提出了不能令人滿意的解決方案。一種解決方案通過從每一組已編碼的音頻流中恢復(fù)或解碼原始音頻信號,來降低未被抵消的混疊偽差的可聽度。將一組音頻流交叉衰落(平滑過渡)到另一組,并且將所得到的交叉衰落流再編碼為一組新的已編碼音頻流。不幸的是,解碼/再編碼過程使所得到的結(jié)果信號惡化,該過程的開銷很大,使得它沒有吸引力,并且由于交叉衰落無法取消,所以緊挨著接合部兩側(cè)的原始信號不能獨立地被恢復(fù)。
頻譜鄰頻干擾拼接編輯產(chǎn)生了現(xiàn)有技術(shù)無法解決的另一個問題。在像感知編碼那樣的分割頻帶感知編碼技術(shù)中,這個問題帶來特別的麻煩。感知分割頻帶編碼方法將一個濾波器陣列施加到輸入信號上,以產(chǎn)生具有與人的聽覺系統(tǒng)的臨界帶寬相當(dāng)?shù)膸挼闹T子帶信號或者諸變換系數(shù)組。理想地,用剛好足夠的位數(shù)來對每一組子帶信號或者變換系數(shù)組進行量化或編碼,并且通過讓噪聲被原始信號中的頻譜成分所掩蓋,來使所得到的量化噪聲變?yōu)槁牪灰姟>幋a性能顯著地受到施加于輸入信號以產(chǎn)生子帶信號或諸變換系數(shù)的濾波器陣列的頻率響應(yīng)特性的影響。一般來說,通過在濾波器阻帶的頻率上增加衰減來換取較寬的濾波器通帶,使這些特性得以優(yōu)化。例如,見美國專利第5,109,417號。
拼接編輯傾向于在通常處于濾波器通帶或介于通帶與阻帶之間的過渡區(qū)域內(nèi)的頻率范圍內(nèi)(并且不在濾波器阻帶范圍內(nèi)),產(chǎn)生顯著的假頻譜成分或者“頻譜鄰頻干擾”,因此,為了優(yōu)化總的編碼性能而設(shè)計的濾波器陣列對在拼接編輯中產(chǎn)生的頻譜鄰頻干擾并不提供足夠的衰減。由于這些偽差通常是如此之大,以致不能被原始信號所掩蓋,所以它們通常是聽得見的。
音頻與視頻編碼幀同步對處理音頻和視頻信息的編輯應(yīng)用施加更多的限制至少是由于兩個原因。一個原因是視頻幀的長度通常不等于音頻塊的長度。第2個原因僅僅跟某些視頻標(biāo)準(zhǔn)有關(guān),像NTSC標(biāo)準(zhǔn)那樣,其幀頻不是音頻采樣率的整數(shù)倍。在下面所討論的所有實例中,都假設(shè)音頻采樣率為每秒48k個樣本。大多數(shù)專業(yè)設(shè)備都使用這個采樣率。類似的考慮也應(yīng)用到其他采樣率之中,例如每秒44.1k個樣本,這個采樣率典型地應(yīng)用于家電產(chǎn)品之中。
表I和表II分別地示出了幾種視頻和音頻編碼標(biāo)準(zhǔn)的幀與塊的長度。在表中,針對“MPEG II”和“MPEG III”的各行指的是由國際標(biāo)準(zhǔn)化組織的活動圖像專家組在標(biāo)準(zhǔn)ISO/IEC 13818-3中所指定的MPEG-2第2層以及MPEG-2第3層的編碼技術(shù)。針對“AC-3”這一行指的是由杜比實驗室公司開發(fā)、并且由高級電視系統(tǒng)委員會在標(biāo)準(zhǔn)A-52中指定的一種編碼技術(shù)。針對48kHz PCM的“塊長”為介于相鄰各樣本之間的時間間隔。視頻標(biāo)準(zhǔn) 幀長度 音頻標(biāo)準(zhǔn) 塊長度DTV(30Hz) 33.333msec. PCM 20.8μsec.NTSC33.367msec. MPEGII 24msec.PAL 40msec. MPEGIII 24msec.Film41.667msec AC-3 32msec.表I表II表I各種視頻幀 表II各種音頻幀在視頻與音頻信息被捆綁在一起的應(yīng)用中,各音頻塊與各視頻幀之間很少得到同步。介于音頻/視頻同步的兩次出現(xiàn)之間的時間間隔示于表III。例如,該表表示,每秒24幀的動畫電影膠片跟MPEG音頻塊邊界之間,每3秒種精確地出現(xiàn)一次同步,并且跟一個AC-3音頻塊之間,每4秒種精確地出現(xiàn)一次同步。音頻標(biāo)準(zhǔn)DTV(30Hz)NTSC PAL 電影膠片PCM 33.333msec. 166.833msec. 40msec. 41.667msec.MPEG II 600msec. 24.024sec.120msec. 3sec.MPEG III600msec. 24.024sec.120msec. 3sec.AC-3800msec. 32.032sec.160msec. 4sec.
表III介于音頻/視頻同步之間的時間間隔介于兩次同步之間的間隔,以音頻塊與視頻幀的比例數(shù)字示于表IV。例如,在跨越5個音頻塊和4個視頻幀的一段間隔內(nèi),介于諸AC-3塊和諸PAL幀之間精確地出現(xiàn)一次同步。值得注意的是,要求5個NTSC幀跟8008個PCM音頻樣本同步。這種關(guān)系的重要性將在下面討論。音頻標(biāo)準(zhǔn) DTV(30Hz) NTSCPAL 電影膠片PCM1600∶1 8008∶5 1920∶1.2000∶1MPEG II25∶181001∶720 5∶3125∶72MPEG III 25∶181001∶720 5∶3125∶72AC-3 25∶241001∶960 5∶4125∶96表IV介于音頻/視頻同步之間的幀的數(shù)目當(dāng)視頻和音頻信息被捆綁在一起時,通常在一個視頻幀的邊界上進行編輯。從表III和IV所示的信息中可以看出,這樣的編輯很少出現(xiàn)在一個音頻幀的邊界上。例如,對于NTSC視頻和AC-3音頻來說,同時在一個視頻幀邊界和一個音頻塊邊界上進行編輯的概率僅為1/960或者約為0.1%。當(dāng)然,在一個接合部兩側(cè)的編輯應(yīng)當(dāng)按照這種方式加以同步,否則,某些音頻信息將會丟失;因此,用于兩次隨機的編輯的一個NTSC/AC-3信息的一個接合部將出現(xiàn)在一個音頻塊邊界以外,并且將導(dǎo)致一或兩塊音頻信息的丟失,這幾乎是肯定無疑的。由于AC-3使用一種TDAC變換,然而,即使在不丟失信息塊的情況下,由于以上討論的原因,也將導(dǎo)致未抵消的混疊畸變。
這個問題類似于前面所討論的音頻塊處理問題?,F(xiàn)有技術(shù)的各種方法與裝置不是忽略了視頻/音頻幀問題,就是它們已經(jīng)提供了類似的不能令人滿意的解決方案,即通過從視頻信息中分解出音頻信息,對已編碼的音頻信息進行解碼,編輯已恢復(fù)的音頻信息,以及用視頻信息進行再編碼和重建音頻信息,來實現(xiàn)音頻的“后期處理”。
數(shù)據(jù)同步前面已經(jīng)指出,要求5幀NTSC視頻跟8008個每秒48k個樣本的PCM音頻樣本保持同步。換句話說,NTSC視頻幀不能將音頻信息整除為整數(shù)個樣本。每一個NTSC幀對應(yīng)于1601.6個樣本。類似地,NTSC幀也不能將已編碼的音頻信息劃分為由整數(shù)個樣本或系數(shù)組成的各塊。通過將諸音頻樣本排列成諸音頻幀的一個不斷重復(fù)著的序列,分別包括,例如,1602,1601,1602,1601和1602個樣本,就能解決這個問題,然而,由于只能在5幀序列(在本文中稱為一個“超幀”)的開始處完成編輯工作,所以這甚至?xí)庉嫅?yīng)用產(chǎn)生更多的限制。不幸的是,在許多應(yīng)用中,無論是視頻信息,或者是跟視頻捆綁在一起的音頻信息,都不會給出關(guān)于超幀諸邊界的任何表示。
在許多編碼應(yīng)用中,在一個超幀里面的各變長音頻塊還導(dǎo)致另一個問題。如上所述,許多編碼應(yīng)用都以塊的形式來處理已編碼的信息。除非該信號載有某種形式的同步信號,一個解碼器無法知道每一個超幀的邊界在何處,或者一次編輯是否刪除了一個超幀的某些部分。換句話說,解碼器無法知道每一個音頻幀或塊的邊界在何處。有可能將邊界中的不確定性降低到一個樣本那樣??;然而,當(dāng)以塊的形式來處理音頻信息時,一個樣本的誤差對于已編碼的音頻信息的恢復(fù)來說是足夠的。
本發(fā)明的一個目的是,改進由拼接兩個或多個基于幀的音頻信息流而形成的一個音頻信息流所代表的音質(zhì)。
根據(jù)本發(fā)明的一個方面的講授內(nèi)容,一種用于信號處理的方法或裝置接收一組按幀排列的輸入信號,每一幀包括多塊已濾波的音頻信息,接收一組控制信號,它標(biāo)識一個緊挨著一個第2輸入信號幀的第1輸入信號幀,通過在第1輸入信號幀的結(jié)尾處向一個終了塊施加一個第1合成濾波器陣列,產(chǎn)生一個第1臨時信號塊,通過在第2輸入信號幀的開始處向一個起始塊施加一個第2合成濾波器陣列,產(chǎn)生一個第2臨時信號塊,并且通過向一個或多個已濾波的其他音頻信息塊施加一個第3合成濾波器陣列,產(chǎn)生一個或多個第3臨時信號塊,其中第1合成濾波器陣列是這樣,使得在第1臨時信號塊中的諸樣本代表已經(jīng)按照一個第1頻率響應(yīng)進行濾波的音頻信息,第2合成濾波器陣列是這樣,使得在第2臨時信號塊中的諸樣本代表已經(jīng)按照一個第2頻率響應(yīng)進行濾波的音頻信息,并且第3合成濾波器陣列是這樣,使得在第3臨時信號塊中的諸樣本代表已經(jīng)按照一個第3頻率響應(yīng)進行濾波的音頻信息,并且其中第3頻率響應(yīng)在一個特定頻率上優(yōu)化了頻譜能量的衰減,以及第1和第2頻率響應(yīng)在低于指定頻率的一個頻率范圍內(nèi),優(yōu)化了頻譜能量的衰減,同時通過使相鄰的各臨時塊重疊并將對應(yīng)的重疊信號樣本相加,來產(chǎn)生一組輸出信號。
根據(jù)本發(fā)明的另一個方面的講授內(nèi)容,一種用于信號處理的方法或裝置接收一組按幀排列的輸入信號,每一幀包括多塊已濾波的音頻信息,接收一組控制信號,它標(biāo)識一個緊挨著一個第2輸入信號幀的第1輸入信號幀,通過在第1輸入信號幀的結(jié)尾處向一個終了塊施加一個第1合成濾波器陣列,產(chǎn)生一個第1臨時信號塊,通過在第2輸入信號幀的開始處向一個起始塊施加一個第2合成濾波器陣列,產(chǎn)生一個第2臨時信號塊,并且通過向一個或多個已濾波的其他音頻信息塊施加一個第3合成濾波器陣列,產(chǎn)生一個或多個第3臨時信號塊,其中第1合成濾波器陣列是這樣,使得在第1臨時信號塊中的諸樣本代表已經(jīng)按照一個第1頻率響應(yīng)進行濾波的音頻信息,第2合成濾波器陣列是這樣,使得在第2臨時信號塊中的諸樣本代表已經(jīng)按照一個第2頻率響應(yīng)進行濾波的音頻信息,并且第3合成濾波器陣列是這樣,使得在第3臨時信號塊中的諸樣本代表已經(jīng)按照一個第3頻率響應(yīng)進行濾波的音頻信息,并且其中第1和第2頻率響應(yīng)相對于一個對應(yīng)于其形狀像一個在大約5毫秒間隔上的線性遞減斜坡的脈沖響應(yīng)的參考響應(yīng)來說,優(yōu)化了頻譜能量的衰減,同時通過令相鄰的各臨時塊重疊并將對應(yīng)的重疊信號樣本相加,來產(chǎn)生一組輸出信號。
通過參照以下的討論和諸附圖,將能更好地理解本發(fā)明的各種特征及其優(yōu)選的諸實施例,在若干附圖中,相同的參考數(shù)字表示相同的元件。說明各種裝置的諸附圖表示出主要的部件,這對理解本發(fā)明是有幫助的。為了明確起見,這些附圖省略了在實際的實施例中可能是重要的、但對理解本發(fā)明的概念來說是不重要的其他各種特征。為實踐本發(fā)明所需的信號處理可以通過多種途徑來完成,包括由微處理器、數(shù)字信號處理器、邏輯陣列以及其他形式的計算電路來執(zhí)行的程序。實質(zhì)上可以用任何方法來實現(xiàn)諸信號濾波器,包括遞歸的、非遞歸的以及格子數(shù)字濾波器。根據(jù)該項應(yīng)用的各種需求和特性,可以按照不同的組合方式來使用數(shù)字的和模擬的技術(shù)。
關(guān)于處理音頻和視頻信息流的條件將作出更專門的說明,然而,本發(fā)明的諸方面可以在不包括視頻信息處理的應(yīng)用場合中來實行。以下的討論和諸附圖的內(nèi)容僅作為實例而被說明,并且不應(yīng)當(dāng)被理解為對本發(fā)明的范圍施加各種限制。


圖1a和1b是被排列成各塊、各幀和各超幀的視頻和音頻信息的概略的表示。
圖2a到2c是被各窗口函數(shù)調(diào)制的各重疊塊以及含有各窗口塊的諸幀的所得到的增益包絡(luò)的概略表示。
圖3表示由一種混疊抵消變換產(chǎn)生的信號與諸混疊成分。
圖4a到4c是表示在一個已編碼的信息流中,生成、改變和響應(yīng)于各增益控制字的諸裝置的功能框圖。
圖5a和5b是采用交替的濾波器陣列來抑制在幀邊界處的各種混疊偽差的功能框圖。
圖6a到6d是可以被用來抑制在幀邊界處的各種混疊偽差的諸窗口函數(shù)的概略表示。
圖7表示通過在各幀邊界處使用各種窗口函數(shù)所得到的諸頻率響應(yīng)特性。
圖8表示采用交替的濾波器陣列以增加在接合部處的頻譜鄰頻干擾衰減的一個裝置的功能框圖。
圖9、10a和11a是關(guān)于圖8的裝置的幾個窗口函數(shù)的概略表示。
圖10b和11b是在圖8的裝置中,通過使用各種窗口函數(shù)所得到的諸頻率響應(yīng)特性。
圖12a和12b是提供采樣率變換,以便在各音頻樣本和各視頻幀之間獲得同步的諸裝置的諸功能框圖。
圖13a和13b是提供動態(tài)音頻幀對準(zhǔn),以便跟跨越一個接合部的諸視頻超幀獲得同步的諸裝置的諸功能框圖。
圖14是各種視頻幀特性以及跨越一個接合部的動態(tài)音頻幀對準(zhǔn)的效果的概略表示。
諸信號及其處理各信號塊和各幀圖1a說明被排列在各音頻(數(shù)據(jù))塊10到18的一個序列之中的已編碼的音頻信息流,以及被排列在一個視頻幀(例如視頻幀1)序列之中的視頻信息流。在某些格式(制式)中,例如NTSC視頻,每一個視頻幀包括兩個視頻場,它們合起來定義一幅單獨的畫面或圖像。各音頻塊11到17跟視頻幀1組合為一個已編碼的信號幀21。
如上所述以及如表IV所示,某些應(yīng)用具有這樣的視頻幀,它們不能把已編碼的音頻整除為整數(shù)個樣本或諸變換系數(shù)之類。通過將已編碼的諸信號幀的諸小組安排到各自的超幀中,就能適應(yīng)這種情況。在圖1b中示出了將5個已編碼的信號幀21到25組合為超幀31的一種安排。這種特定的安排可以用于使用NTSC視頻和每秒48k個樣本的PCM音頻的應(yīng)用中。
已處理的諸信號塊已編碼的音頻信息塊的序列可以表示一組音頻信號的互相重疊的諸間隔。例如,某些分割頻帶的感知編碼系統(tǒng)處理以半個塊長互相重疊的諸音頻樣本塊。典型地,在這些互相重疊的諸塊中的諸樣本被一個分析窗口函數(shù)所調(diào)制。
圖2a表示將一個分析窗口函數(shù)施加到一個互相重疊的諸音頻塊的一個序列中的每一塊之后所得到的諸調(diào)制包絡(luò)61到67。重疊的長度等于塊長的一半。長度間隔通常被某些信號分析-合成系統(tǒng),例如上述的O-TDAC變換,所使用。
圖2b表示針對一個已編碼的信號幀而施加到互相重疊的各塊的一個序列中去的一個窗口函數(shù)的所得到的調(diào)制包絡(luò)。如圖2b所示,這種調(diào)制的凈效果或增益包絡(luò)81就是在重疊的諸間隔中相鄰各塊的調(diào)制包絡(luò)之和。最好是,跨越每一個重疊(塊)的凈效果應(yīng)當(dāng)是單位(unity)增益。
圖2c表示跨越相鄰的已編碼信號幀的窗口函數(shù)調(diào)制的總的效果。如圖所示,增益包絡(luò)80到82互相重疊并相加,使得凈效果為單位增益。
在僅使用分析窗口函數(shù)的那些系統(tǒng)中,所有窗口函數(shù)調(diào)制的凈效果等效于單獨由分析窗口函數(shù)所產(chǎn)生的諸調(diào)制效果。通過保證分析窗口函數(shù)的調(diào)制包絡(luò)互相重疊和相加為一個常數(shù),就能得到理想的增益包絡(luò)。
在使用分析和合成諸窗口函數(shù)的那些系統(tǒng)中,所有窗口函數(shù)調(diào)制的凈效果等效于由分析窗口函數(shù)以及合成窗口函數(shù)的一個乘積所形成的一個“乘積”窗口函數(shù)。在這樣的系統(tǒng)中,通過讓在重疊間隔中的乘積窗口函數(shù)的調(diào)制包絡(luò)相加為一個常數(shù),就能得到理想的增益包絡(luò)。
貫穿這里所公開的是,針對使用分析與合成這兩種窗口函數(shù)的各種編碼系統(tǒng)和各種方法來進行敘述。在本文中,從互相重疊的諸分析窗口函數(shù)所得到的增益包絡(luò)有時可以被說成是等于一個常數(shù)。類似地,從互相重疊的諸合成窗口函數(shù)所得到的增益輪廓有時可以被說成是等于一個常數(shù)。應(yīng)當(dāng)理解,這樣的敘述旨在把問題歸結(jié)為在該系統(tǒng)中所有窗口的凈調(diào)制效果。
窗口函數(shù)分析窗口函數(shù)的形狀不僅影響到信號的增益包絡(luò),而且它還影響到一個對應(yīng)的濾波器陣列的頻率響應(yīng)特性。
頻譜鄰頻干擾如上所述,在許多分割頻帶的感知編碼系統(tǒng)中,通過增加在濾波器中的阻帶諸頻率上的衰減,以取代一個較寬的濾波器通帶,從而使用具有為感知編碼而優(yōu)化的各種頻率響應(yīng)特性。遺憾的是,在不屬于濾波器阻帶范圍以內(nèi)的一個頻率范圍內(nèi),拼接編輯傾向于產(chǎn)生顯著的頻譜偽差或者“頻譜鄰頻干擾”。被設(shè)計用來優(yōu)化總的感知編碼性能的諸濾波器陣列不會提供足夠的衰減,使得在拼接編輯過程中所產(chǎn)生的這些頻譜偽差變?yōu)槁牪灰姟?br> TDAC變換混疊抵消就O-TDAC而言,分析窗口函數(shù),連同在應(yīng)用合成變換之后所施加的一個合成窗口函數(shù)一起,還應(yīng)當(dāng)滿足許多約束條件,以便抵消各種時域混疊偽差。
通過合成變換所恢復(fù)的信號可以被概念化為原始信號以及由分析變換所產(chǎn)生的時域混疊成分之和。在圖3中,諸曲線91、93和95表示從逆變換或合成變換所恢復(fù)的、并且受到分析與合成窗口函數(shù)調(diào)制的一組輸入信號的振幅包絡(luò)的一些區(qū)段。諸曲線92、94和96表示從逆變換或合成變換所恢復(fù)的、并且受到分析與合成窗口函數(shù)調(diào)制的時域混疊成分。正如在圖中可以看到的以及將在下面說明的那樣,時域混疊成分是由于受到分析與合成窗口函數(shù)的調(diào)制而反射的原始輸入信號的復(fù)制品。
分析與合成O-TDAC變換的諸核心函數(shù)被設(shè)計成用以產(chǎn)生各種時域混疊成分,它們是在一個數(shù)據(jù)塊的每一個半塊中用窗口截取的信號的端對端的反射物。如Princen等所公開的那樣,O-TDAC變換在兩個不同的區(qū)域中產(chǎn)生時域混疊成分。在區(qū)域2,時域混疊成分是在該區(qū)域中原始信號的一個用窗口截取的端對端反射物。在區(qū)域1,時域混疊成分是在該區(qū)域中輸入信號的一個用窗口截取的端對端反射物。但該反射物的振幅被倒置。
例如,混疊成分94a是信號成分93a的一個用窗口截取的端對端反射物。除了反射成分的振幅被倒置以外,混疊成分92b也是信號成分91b的一個用窗口截取的端對端反射物。
通過讓相鄰的各塊互相重疊和相加,使原始信號得以恢復(fù),并且各混疊成分得以抵消。例如,信號成分91b和93a被疊加,以便恢復(fù)沒有窗口函數(shù)調(diào)制影響的信號,并且混疊成分92b和94a被疊加,以便抵消混疊。類似地,信號成分93b和95a被相加,以便恢復(fù)信號,并且混疊成分94b和96a被疊加,以便抵消混疊。
由于緊挨著接合部前面的已合成的諸音頻樣本的半塊中的諸混疊偽差不等于緊挨著接合部后面的已合成的諸音頻塊的半塊的諸混疊偽差的倒置產(chǎn)物,所以在一個接合部邊界兩側(cè)的諸時域混疊偽差通常不能互相抵消。
例如作者Princen和bradley在《基于時域混疊抵消的分析/合成濾波器陣列設(shè)計》一文中所述,類似的考慮也應(yīng)用于其他的混疊抵消濾波器陣列(見《IEEE聲學(xué)、語音和信號處理匯刊》,ASSP-34卷,1986年,第1153-1161頁)。這種濾波器陣列系統(tǒng)是一個偶堆棧臨界采樣單邊帶分析-合成系統(tǒng)的時域等價物,并且在本文中被稱為偶堆棧時域混疊抵消(E-TDAC)。
用以衰減在接合部的各種偽差的增益控制一種可以用來降低由一個接合部產(chǎn)生的各種偽差的可聽度的技術(shù)就是將多個增益控制字納入到一組已編碼的音頻信號之中,上述增益控制字指示一個解碼器或回放系統(tǒng)去改變回放信號的幅度。在以下各段中將討論使用這些控制字的諸裝置的簡單的諸實施例。
圖4a表示裝置100的一份功能框圖,在其中,格式器111沿著通路112產(chǎn)生一組被排列為諸幀的輸出信號,該信號包括視頻信息、代表多條音頻信道的已編碼的音頻信息,以及各增益控制字。響應(yīng)于從通路108接收的一組信號,該信號被排列為運送視頻信息以及針對多條音頻信道的已編碼的音頻信息的諸幀的形式,并且響應(yīng)于從運送各增益控制字的通路110接收的一組信號,格式器111產(chǎn)生輸出信號。過程109從諸通路103a和103b接收多組控制信號,其中的每一組都跟多條音頻信道中的一條有關(guān),并且響應(yīng)于每一組控制信號,沿著通路110為一條有關(guān)的音頻信道產(chǎn)生一對增益控制字,它們表示在一個各自的幀里面的一個起始增益以及一個終了增益。為了簡明起見,在圖中僅示出了兩組控制信號103和兩條有關(guān)的音頻信道102。必要時,這種增益控制技術(shù)可以應(yīng)用于兩條以上的聲道。
在所示的實施例中,響應(yīng)于從通路102a和102b接收的多組音頻信道信號,編碼器105沿著通路106a和106b為多條音頻信道產(chǎn)生已編碼的音頻信息,并且通過以幀的形式來排列從通路101接收的視頻信息以及從通路106a和106b接收的已編碼的音頻信息,成幀器107沿著通路108產(chǎn)生該信號。
增益控制技術(shù)可以用于類似于沿著通路108通過的信號的諸輸入信號,因此,用不著編碼器105,也用不著成幀器107。在含有編碼器105的各實施例中,可以獨立地對每一條音頻信道進行編碼,也可以聯(lián)合地對多條音頻信道進行編碼。例如,可以聯(lián)合地對兩條或多條聲道使用AC-3編碼技術(shù),通過取銷或降低介于各聲道之間的冗余度來降低總的帶寬要求。
圖4c表示裝置140的一個功能框圖,裝置140根據(jù)在一組輸入信號中的增益控制字來產(chǎn)生諸輸出信號,以便再現(xiàn)或回放多條音頻信道的信息。去格式器142從通路141接收一組被排列為幀的形式的輸入信號,其中包括視頻信息、已編碼的音頻信息,以及各增益控制字。去格式器142從每一幀輸入信號中獲得代表多條音頻信道的已編碼的音頻信息,以及獲得跟每一條音頻信道有關(guān)的一對增益控制字。過程148從從通路145接收各增益控制字,并且作為響應(yīng),沿著通路149a和149b產(chǎn)生各增益控制字。解碼器146從通路144a和144b接收多條聲道的已編碼的音頻信息,并且作為響應(yīng),為每一條音頻信道產(chǎn)生一組輸出信號,因此,響應(yīng)于一組有關(guān)的增益控制信號,每一組輸出信號的幅度或電平將發(fā)生改變。
一對增益控制字表示在一個特定幀里面針對一條有關(guān)的音頻信道的一個起始增益和一個終了增益。步驟148產(chǎn)生表示這對增益控制字的一個內(nèi)插值的增益控制諸信號??梢宰裱魏嗡M能壽E,例如直線、二次曲線、對數(shù)或指數(shù)曲線來進行內(nèi)插。例如,在直線性內(nèi)插的情況下,增益控制信號將代表在一個特定幀的范圍內(nèi)按線性規(guī)律發(fā)生變化的一個增益。
可以獨立地對每一條音頻信道進行解碼,也可以聯(lián)合地對多條音頻信道進行解碼。例如,解碼過程對那些取消或降低介于各聲道之間的冗余度的編碼過程的各種形式來說,起到互補的作用。在使用一個合成濾波器陣列以及一個合成窗口函數(shù)的分割頻帶編碼應(yīng)用中,通過在應(yīng)用合成濾波器陣列之前修改已編碼的音頻,通過在應(yīng)用合成窗口函數(shù)之前修改從合成濾波器陣列中獲得的合成音頻,或者通過修改從應(yīng)用合成窗口函數(shù)而獲得的音頻信息,就能根據(jù)一個增益控制信號來有效地調(diào)制輸出信號。
圖4b表示用以修改現(xiàn)有的各增益控制字的裝置120的一份功能框圖。去格式器123從通路121接收一組排列成諸幀的輸入信號,其中包括視頻信息、代表多條音頻信道的已編碼的音頻信息,以及各輸入控制字。去格式器123從輸入信號中獲得跟針對一條或多條音頻信道的已編碼音頻信息有關(guān)的一個或多個輸入增益控制字,并沿著通路124a和124b傳送諸輸入增益控制字。響應(yīng)于從通路122接收的一組控制信號,步驟126通過修改一個或多個輸入增益控制字,沿著通路127產(chǎn)生一個或多個輸出增益控制字。格式器128沿著通路129產(chǎn)生一組被排列成諸幀的輸出信號,其中包括視頻信息、針對多條音頻信道的已編碼的音頻信息,輸出增益控制字,以及跟各輸出增益控制字不相符合的各輸入控制字。
在一種編輯應(yīng)用中,控制信號122指示在輸入信號中的一個接合部。作為響應(yīng),步驟126產(chǎn)生一個或多個輸出增益控制字,它(們)將使得一個裝置,例如裝置140,在緊挨著接合部的前面去衰減一組回放信號,并且緊挨著接合部的后面,讓衰減量按相反方向變回來。增益的改變可以延伸到跨越若干幀,然而,在許多應(yīng)用中,這種改變被限制在接合部任何一側(cè)的1幀上。通過平衡由增益改變乘以增益改變本身的可聽度所產(chǎn)生的調(diào)制產(chǎn)物的可聽度,就能確定增益改變的間隔。增益控制字技術(shù)不局限于編輯應(yīng)用。
用以在幀邊界處抑制混疊的濾波器陣列在使用一種混疊抵消(例如一種由TDAC變換所提供的)形式的編碼系統(tǒng)中,由于上面所討論的原因,拼接編輯妨礙了在接合部每一側(cè)的諸混疊偽差的互相抵消。通過在每一幀的開始和結(jié)尾對各音頻塊施加交替的濾波器陣列,就能避免這些未被抵消的混疊偽差。例如,參照圖1a的幀21,一個第1濾波器陣列被施加于塊11,一個第2濾波器陣列被施加于塊12到16,以及一個第3濾波器陣列被施加于塊17。這些濾波器陣列具有這樣的特性,使得從每一幀所恢復(fù)的音頻基本上不含有未被抵消的混疊偽差。
參照圖5a,裝置200包括緩沖存儲器202,它接收各音頻信息塊,并且沿著通路203產(chǎn)生一個控制信號,以表明一個音頻塊是一幀中的第1或起始塊,一幀中的最后或終了塊,或者是一幀中的一個臨時塊。響應(yīng)于從通路203接收的控制信號,開關(guān)204將每一幀中的第1或起始塊引導(dǎo)到第1濾波器陣列205,將每一幀中的所有臨時塊引導(dǎo)到第2濾波器陣列206,將每一幀中的最后或終了塊引導(dǎo)到第3濾波器陣列207。格式器208將從這3個濾波器陣列中的每一個所接收的已濾波的音頻信息組合成一組輸出信號,并沿著通路209傳送。
圖5b表示裝置220,在其中,去格式器222從通路221接收一組輸入信號,從中獲得已編碼的音頻信息,它沿著通路224被傳送。并沿著通路223產(chǎn)生一組控制信號,以表明已編碼的音頻信息是一幀中的第1或起始塊,一幀中的最后或終了塊,或者是一幀中的一個臨時塊。響應(yīng)于從通路223接收的控制信號,開關(guān)225將將已編碼的音頻信息引導(dǎo)到3個合成濾波器陣列當(dāng)中的一個。開關(guān)225將對應(yīng)于第1塊的已編碼的音頻信息引導(dǎo)到第1合成濾波器陣列226,將對應(yīng)于各臨時塊的已編碼音頻信息引導(dǎo)到第2合成濾波器陣列227,將對應(yīng)于最后塊的已編碼的音頻信息引導(dǎo)到第3合成濾波器陣列228。響應(yīng)于從3個合成濾波器陣列接收的已合成的各音頻塊,緩沖存儲器229沿著通路230產(chǎn)生一組輸出信號。
第2濾波器陣列在一個編碼器的一個實施例中,根據(jù)上面所引用的Princen等所公開的O-TDAC變換,通過一種N點修正的離散余弦變換(DCT)以及一個N點分析窗口函數(shù)來實現(xiàn)第2濾波器陣列。在一個互補的解碼器中,根據(jù)O-TDAC變換,通過一種N點修正的逆DCT以及一個N點合成窗口函數(shù)來實現(xiàn)第2濾波器陣列。正向和逆向的O-TDAC變換分別示于表達式1和2X(k)=Σn=0M-1x(n)cos[2πM(k+12)(n+m+12)]0≤k≤M----(1)]]>x(n)=1MΣk=0M-1X(k)cos[2πM(k+12)(n+m+12)]0≤n≤M----(2)]]>式中,k=頻率指標(biāo),n=信號樣本數(shù),
M=樣本塊長度,m=用于O-TDAC的相位項,x(n)=被窗口截取的輸入信號樣本數(shù)n,以及X(k)=變換系數(shù)k。
如圖3所示,第2濾波器陣列的長度M=N,并且生成兩個混疊反射區(qū)域,在一個塊的中點處有一段介于這兩個區(qū)域之間的邊界。為生成這兩個區(qū)域所需的TDAC相位項為m=N/2。
在一個優(yōu)選實施例中,根據(jù)如下所述的一項技術(shù)來導(dǎo)出分析與合成諸窗口函數(shù)。在圖6a中,通過曲線242來說明這些窗口函數(shù)的形狀。為了便于討論起見,這些窗口函數(shù)被稱為W2(n)。
第1濾波器陣列在同一實施例中,通過上面所示的修正的DCT以及窗口函數(shù)W2(n)的一種修正形式來實現(xiàn)在編碼器和互補的解碼器中的第1濾波器陣列。正向和逆向的O-TDAC變換分別示于表達式1和2。第1濾波器陣列的長度為M=3N/2,并且生成一個單獨的混疊反射區(qū)域1。諸混疊偽差是在該塊內(nèi)信號的倒置的端到端反射。實際上,反射區(qū)域2的長度為0,并且介于這兩個區(qū)域之間的邊界位于該塊的右邊緣的前沿。為生成這個單獨區(qū)域所需的TDAC相位項為m=0。
對應(yīng)于第1濾波器陣列的分析與合成窗口函數(shù)W1(n)與此相同。在圖6b中,通過曲線241來說明這些窗口函數(shù)的形狀。它由3部分組成。第1和第2部分表示為區(qū)段1和2,跟上面所描述的并示于圖6a的窗口函數(shù)W2(n)相同。第3部分表示為區(qū)段3,它等于0。
第1分析窗口函數(shù)W1(n)保證在區(qū)段3中的信號為0。其結(jié)果是,從區(qū)段3反射到區(qū)段1的混疊偽差也是0。從區(qū)段1反射到區(qū)段3的混疊偽差一般地將不是0;然而,當(dāng)向合成的音頻塊施加第1合成窗口函數(shù)W1(n)時,反射到區(qū)段3的任何偽差將被消除。其結(jié)果是,混疊偽差僅存在于區(qū)段2。
第3濾波器陣列在同一實施例中,通過上面所示的修正的DCT以及窗口函數(shù)W2(n)的一種修正形式來實現(xiàn)在編碼器和互補的解碼器中的第3濾波器陣列。正向和逆向的O-TDAC變換分別示于表達式1和2。第3濾波器陣列的長度為M=3N/2,并且生成一個單獨的混疊反射區(qū)域2?;殳B偽差是在該塊內(nèi)信號的一種端到端反射。實際上,反射區(qū)域1的長度為0,并且介于這兩個區(qū)域之間的邊界位于該塊的左邊緣的后沿。為生成這個單獨區(qū)域所需的TDAC相位項為m=3N/2。
對應(yīng)于第3濾波器陣列的分析與合成窗口函數(shù)W3(n)與此相同。在圖6c中,通過曲線243來說明這些窗口函數(shù)的形狀。它由3部分組成。表示為區(qū)段1的第1部分等于0。第2和第3部分,表示為區(qū)段2和3,跟上面所描述的并示于圖6a的窗口函數(shù)W2(n)相同。
第3分析窗口函數(shù)W3(n)保證在區(qū)段1中的信號為0。其結(jié)果是,從區(qū)段1反射到區(qū)段3的混疊偽差也是0。從區(qū)段3反射到區(qū)段1的混疊偽差一般地將不是0;然而,當(dāng)向合成的音頻塊施加第3合成窗口函數(shù)W3(n)時,反射到區(qū)段1的任何偽差將被消除。其結(jié)果是,混疊偽差僅存在于區(qū)段2。
圖6d說明諸窗口函數(shù)W1(n),W2(n),W3(n)241到243是如何互相重疊的。增益包絡(luò)240表示以端到端方式使用窗口函數(shù)的凈效果,對TDAC來說,它是由對應(yīng)的分析與合成諸窗口函數(shù)的乘積所形成的重疊的乘積窗口函數(shù)的一個序列。由分析-合成窗口函數(shù)W1(n)所加權(quán)的、在塊11的區(qū)段2中的混疊偽差被由分析-合成窗口函數(shù)W2(n)所加權(quán)的、在塊12的前半部中的混疊偽差所抵消。由分析-合成窗口函數(shù)W3(n)所加權(quán)的、在塊17的區(qū)段2中的混疊偽差被由分析-合成窗口函數(shù)W2(n)所加權(quán)的、在塊16的后半部中的混疊偽差所抵消。根據(jù)常規(guī)的TDAC來完成在臨時塊對(例如塊12和13或者塊15和16)中的信號恢復(fù)與混疊抵消。
通過使用此項技術(shù),可以在任何幀邊界處進行拼接編輯,并且將不會保留未被抵消的混疊偽差。
各窗口函數(shù)的推導(dǎo)使用在下列各段中所描述一項技術(shù),就能從一個基本窗口函數(shù)推導(dǎo)出窗口函數(shù)W2(n)。雖然具有適當(dāng)?shù)闹丿B-相加特性的任何窗口函數(shù)都可以被用來作為基礎(chǔ)窗口函數(shù),但是在一個優(yōu)選實施例中所使用的基礎(chǔ)窗口函數(shù)是凱撒-貝塞爾窗口函數(shù)。WKB(n)=I0[πα1-(nN/2)2]I0[πα]----(3)]]>上式在0≤n<N的條件下成立式中,α=凱撒-貝塞爾窗口函數(shù)的α因子,n=窗口內(nèi)的樣本數(shù)目,N=以樣本數(shù)目來表示的窗口長度,以及I0[x]=Σk=0∞(x/2)kk!.]]>通過將凱撒-貝塞爾窗口函數(shù)WKB(n)跟一個長度等于塊長N減去重疊間隔v的矩形窗口函數(shù)s(k)進行卷積運算,這樣的推導(dǎo)就產(chǎn)生一個分析-合成乘積窗口函數(shù)WP(n),或WP(n)=Σk=0N-1s(k)WKB(n-k)Σk=0vWKB(k)]]>上式在0≤n<N的條件下成立,此式可以簡化為WP(n)=Σk=0N-v-1WKB(n-k)Σk=0vWKB(k)]]>
上式在0≤n<N的條件下成立式中,n=乘積-窗口內(nèi)的樣本數(shù)目,v=在窗口重疊間隔內(nèi)的樣本數(shù)目,N=所希望的乘積-窗口長度,WKB(n)=長度為v+1的基本窗口函數(shù),WP(n)=推導(dǎo)出來的長度為N的乘積-窗口,以及s(k)=1對條件0≤k<N-v成立=0對其他條件成立。
對于O-TDAC變換來說,重疊間隔v=N/2,并且分析窗口函數(shù)以及合成窗口函數(shù)都是如此,因此,可以從下式得到其中任何一個窗口函數(shù)W2(n)=Σk=0N/2-1WKB(n-k)Σk=0N/2WKB(k)----(4)]]>上式在0≤n<N的條件下成立在本文中,以這種方式推導(dǎo)出來的分析與合成窗口函數(shù)被稱為一個凱撒-貝塞爾-導(dǎo)出(KBD)窗口函數(shù)。乘積窗口函數(shù)被稱為一個KBD乘積窗口函數(shù)??梢赃x擇基本凱撒-貝塞爾窗口函數(shù)的α因子以優(yōu)化編碼性能。在許多應(yīng)用中,用于編碼的最佳α因子處于2到6的范圍內(nèi)。
在整個幀里面都沒有未被抵消的混疊偽差這一事實使得任何窗口函數(shù)基本上都可以在一個接合部處被使用。一般來說,這些窗口函數(shù)都具有這樣一種形狀,它在跨越重疊間隔時保留一個恒定的增益包絡(luò)。在接合部,重疊間隔可以延伸到跨越若干幀;然而,人們期待,在許多應(yīng)用中,將使用一種處于5到30毫秒范圍內(nèi)的“接合部-重疊間隔”。由于將在下面討論的原因,跨越一個接合部的重疊間隔可以延長,這一點是值得注意的。
用以降低接合部的頻譜鄰頻干擾的諸濾波器陣列從優(yōu)化感知編碼這個意義上來說,處于上述范圍內(nèi)的α因子對許多編碼應(yīng)用來說是最佳的。如上所述,通常用增加在濾波器阻帶內(nèi)諸頻率上的衰減,來取代一個較寬的濾波器通帶,從而使編碼得以優(yōu)化。圖7中的曲線342表示針對一個為感知編碼而優(yōu)化的一種典型的頻率響應(yīng)的一個例子。這條曲線表示一個使用KBD窗口函數(shù)的O-TDAC分析-合成系統(tǒng)的幀增益包絡(luò)的頻率響應(yīng),上述KBD窗口函數(shù)的α=6,并且具有等于256個樣本的幀重疊間隔。雖然介于通帶和阻帶之間的邊界沒有明確地規(guī)定,但在本例中通帶覆蓋著高達200Hz的諸頻率,并且阻帶覆蓋著大約1kHz以上的諸頻率。一個過渡區(qū)域在這兩個頻帶之間延伸。
在使用施加于256個樣本塊的變換的各種應(yīng)用中,在約為200Hz到1kHz的濾波器的中心頻率范圍內(nèi),拼接編輯傾向于產(chǎn)生顯著的假頻譜成分或“頻譜鄰頻干擾”。對于使用其他長度的(數(shù)據(jù))塊的應(yīng)用來說,這個頻率范圍可以表示為兩個常數(shù)除以塊的長度;因此,顯著的頻譜鄰頻干擾出現(xiàn)在從大約50,000到256,000Hz的頻率范圍內(nèi),每一個都除以塊長度。
在圖7所示的例子中,這些頻率處于被認為是濾波器阻帶的范圍以外。被設(shè)計用于優(yōu)化感知編碼性能的諸濾波器陣列對在拼接編輯過程中所生成的頻譜鄰頻干擾未能提供足夠的衰減。這些偽差通常是可聽的,因為它們通常是如此之大,以致于無法被信號所遮蓋。
圖7中的曲線341和曲線343表示兩個其他的分析-合成系統(tǒng)的頻率響應(yīng),該系統(tǒng)在阻帶內(nèi)提供顯著地小的衰減,但在一個受到在接合部生成的頻譜鄰頻干擾的影響的頻率范圍內(nèi),提供更大的衰減。通過犧牲在感知編碼中的某些性能來增加對頻譜鄰頻干擾的衰減。最好是,在一個對256個樣本塊進行濾波的系統(tǒng)中,在包括200Hz和600Hz的一個頻率范圍內(nèi),或者在大約50,000到150,000Hz的頻率范圍內(nèi),每一個都除以塊長度,該頻率響應(yīng)使頻譜能量的衰減得以優(yōu)化。
有時,在滿足對一般編碼以及對在接合部處的交叉衰落各幀的頻率響應(yīng)要求之間達到一種折衷。在不能達到這樣一種折衷的各種應(yīng)用中,要檢出一個接合部,并且改變分析-合成系統(tǒng)的頻率響應(yīng)。由于分析濾波器陣列一般地不能預(yù)測拼接操作,所以這種改變應(yīng)當(dāng)結(jié)合合成濾波過程來完成。
圖8表示通過改變一個分析-合成系統(tǒng)的端到端頻率響應(yīng),裝置320可以被用來減少頻譜鄰頻干擾。在這個裝置中,去格式器322從通路321接收輸入信號,從中獲得沿著通路324傳送的已編碼的音頻信息,并沿著通路323產(chǎn)生控制信號,用以指示在一幀的開始或終了處,是否出現(xiàn)一個接合部。一個接合部的出現(xiàn)可以在輸入信號中明確地表達,或者可以根據(jù)在信號中所表達的其他信息來推斷。
例如,根據(jù)AES-3/EBU標(biāo)準(zhǔn),連續(xù)的音頻信息塊所含有的塊號碼從0增加到255,然后反過來減少到0。兩個鄰接的而不按順序的塊號碼表示一個接合部,然而,由于某些裝置在處理AES/EBU數(shù)據(jù)流時并不增加這個號碼,所以這種檢驗方法是不可靠的。若該音頻流已被編碼,則編碼方案可能提供順序的編號或者某些其他形式的可預(yù)測的信息。若該信息跟所預(yù)期的不相符,則可能產(chǎn)生一組信號以表明一個接合部的存在。
響應(yīng)于從通路323接收的控制信號,開關(guān)325將已編碼的音頻流引導(dǎo)到3個合成濾波器陣列當(dāng)中的一個。開關(guān)325將跟隨在一個接合部后面的一幀中的對應(yīng)于第1塊的已編碼的音頻信息引導(dǎo)到第1合成濾波器陣列326,將前置于一個接合部前面的一幀中的對應(yīng)于最后一塊的已編碼的音頻信息引導(dǎo)到第3合成濾波器陣列328,以及將對應(yīng)于其他各塊的已編碼音頻信息引導(dǎo)到第2合成濾波器陣列327。另一方面,也可以根據(jù)以上結(jié)合圖5b所討論的技術(shù),將對應(yīng)于這些其他各塊的已編碼的音頻信息引導(dǎo)到3個濾波器陣列當(dāng)中的一個。響應(yīng)于從這3個合成濾波器陣列所接收的已合成的各音頻塊,緩沖存儲器329沿著通路330產(chǎn)生一組輸出信號。
第1和第3合成濾波器陣列被設(shè)計成這樣,使其在與某些分析濾波器相結(jié)合的條件下,能獲得所需的頻率響應(yīng)。在許多應(yīng)用中,這個分析濾波器被設(shè)計成這樣,使其在與第2合成濾波器相結(jié)合的條件下,能優(yōu)化總的編碼性能?;旧峡梢酝ㄟ^能提供所需的總的頻率響應(yīng)的任何方式來實現(xiàn)第1和第3合成濾波器陣列。一般來說,這兩個濾波器陣列將具有相同的頻率響應(yīng),但將具有在時序上互為倒置的復(fù)制品那樣的脈沖響應(yīng)。在使用諸變換與諸窗口函數(shù)來實現(xiàn)諸濾波器陣列的那些應(yīng)用中,通過使用在一個接合部兩側(cè)相鄰的各幀之間增加重疊間隔的合成窗口函數(shù),就能實現(xiàn)適當(dāng)?shù)臑V波器陣列。
已合成音頻的調(diào)制可以通過幾鐘方法來完成這一步。一種方法就是對從合成濾波器陣列中恢復(fù)的已合成音頻信號進行調(diào)制,使得在一個接合部兩側(cè)的各幀通過交叉衰落融入對方??梢栽谝粋€裝置(例如示于圖4c的裝置140)中完成這一步。解碼器146降低在前置于接合部并跨越所需的接合部重疊間隔的幀中的已合成信號的幅度。實際上,在跨越這個間隔時,前置于接合部的幀的增益包絡(luò)從1減少到某個較低的水平。解碼器146還增加在跟隨著接合部并跨越所需的接合部重疊間隔的幀中的已合成信號的幅度。實際上,在跨越這個間隔時,跟隨著接合部的幀的增益包絡(luò)從較低的水平增加到1。若在各增益包絡(luò)的有效變化中考慮到分析-合成窗口的調(diào)制效應(yīng),則重疊的各幀的總的增益得以保留。
增益包絡(luò)的有效變化可以是直線性的。圖7中的曲線343表示一個寬度約為5毫秒的線性遞減的幀增益包絡(luò)的頻率響應(yīng)特性。在每秒48k個樣本的采樣率下,這個間隔對應(yīng)于大約256個樣本。在許多編碼應(yīng)用中,對具有256個樣本的樣本塊實施變換;因此,在這些特定的應(yīng)用中,一個含有256個樣本的斜坡或線性遞減的增益包絡(luò)在延伸,它越過處于幀邊界處的一個“終了”塊,并且跨越一個跟這個終了塊重疊的相鄰塊的一部分。這等效于將一個濾波器陣列施加于終了塊,經(jīng)另一個濾波器陣列施加于緊挨著的相鄰塊,以及將又一個濾波器陣列施加于該幀內(nèi)部的其他各塊。參看圖8所示的裝置320,它需要兩個附加的合成濾波器陣列,用以處理鄰接于并重疊于“終了”塊的各塊。
這個線性遞減的斜坡的頻率響應(yīng)表示一個參照的響應(yīng),其他各種頻率響應(yīng)都可以相對于它而作出評估。一般來說,在減少產(chǎn)生于接合部的頻譜鄰頻干擾方面,能優(yōu)化針對這種參考響應(yīng)的頻譜能量衰減的各種濾波器陣列都是有效的。
修正的合成窗口函數(shù)用以改變一個分析-合成系統(tǒng)的總的頻率響應(yīng)特性的另一種方法就是修改合成窗口函數(shù),使得分析-合成窗口的凈效應(yīng)實現(xiàn)所需的響應(yīng)。實際上,總的頻率響應(yīng)根據(jù)所得到的分析-合成乘積窗口函數(shù)而發(fā)生改變。
圖7中的曲線341表示一種頻率響應(yīng),它跟曲線343所表示的5毫秒的線性遞減增益包絡(luò)的頻率響應(yīng)相比,能在更大程度上衰減在各接合部的頻譜鄰頻干擾。借助于O-TDAC分析-合成系統(tǒng),使用256點變換以及α=1的KBD窗口函數(shù)來實現(xiàn)曲線341的響應(yīng)。如上所述,曲線342對應(yīng)于α=6的KBD窗口函數(shù)。
這些分析-合成系統(tǒng)的端到端頻率響應(yīng)等效于由分析窗口函數(shù)與合成窗口函數(shù)的乘積所形成的窗口的頻率響應(yīng)。用代數(shù)方法可以表示為WP6(n)=WA6(n)WS6(n) (5a)WP1(n)=WA1(n)WS1(n) (5b)式中,WA6(n)為α=6時的分析KBD窗口函數(shù),WS6(n)為α=6時的合成KBD窗口函數(shù),WP6(n)為α=6時的KBD乘積窗口函數(shù),WA1(n)為α=1時的分析KBD窗口函數(shù),WS1(n)為α=1時的合成KBD窗口函數(shù),以及WP1(n)為α=1時的KBD乘積窗口函數(shù)。
若一個合成窗口函數(shù)被修改成將端到端頻率響應(yīng)修改為所需的某種其他響應(yīng),則它應(yīng)當(dāng)被這樣修改,使得它本身與分析窗口函數(shù)的乘積等于具有所需響應(yīng)的乘積窗口。若希望得到對應(yīng)于WP1的一個頻率響應(yīng),并且分析窗口函數(shù)WA6被用于信號分析,則這種關(guān)系可以用代數(shù)方法表示為WP1(n)=WA6(n)WX(n)(5c)式中,WX(n)=為轉(zhuǎn)換頻率響應(yīng)所需的合成窗口函數(shù)。
上式可以寫成WX(n)=WP1(n)WA6(n)----(5d)]]>若接合部重疊間隔延伸到在幀中跟“終了”塊相重疊的一個相鄰的音頻塊之上時,則窗口函數(shù)WX的形狀跟表達式5d所表示的形狀相比,顯得更復(fù)雜一些。下面將對此進行更充分的討論。在任何情況下,表達式5d精確地表示了對在終了塊中不跟該幀中任何其他塊重疊的那一部分中的窗口函數(shù)WX的要求。對于使用O-TDAC的諸系統(tǒng)來說,該部分等于塊長的一半,或?qū)?yīng)于0≤n<N/2。
若合成窗口函數(shù)WX被用來將端到端頻率響應(yīng)從較高的α輪廓轉(zhuǎn)換到一個較低的α輪廓,則在接近幀邊界處,它必須具有非常大的數(shù)值。圖9示出了一個實例,在其中曲線351表示一個α=1的KBD分析或合成窗口函數(shù),曲線352表示一個α=1的KBD乘積窗口。曲線356表示一個α=6的KBD分析或合成窗口函數(shù),以及曲線359表示一個根據(jù)表達式5d的的合成窗口函數(shù)。隨著曲線356接近幀邊界,它變得比曲線352小很多,因此,曲線359變得非常大。遺憾的是,一個具有類似于曲線359的在窗口函數(shù)WX的邊緣處具有大的增加的形狀的合成窗口函數(shù)具有很差的頻率響應(yīng)特性,并將使被恢復(fù)信號的音質(zhì)惡化。有兩種技術(shù)可以被用來解決這個問題,這將在下面加以討論。
舍棄樣本用于修正一個合成窗口函數(shù)的第1種技術(shù)通過在分析窗口函數(shù)具有最小值的幀邊界處舍棄某一數(shù)目的樣本來避免在窗口函數(shù)WX中的大量增加。通過改變被舍棄的樣本的數(shù)目,就能調(diào)整為在幀重疊間隔中傳送諸樣本所需的帶寬,從而抵消由于解碼器的不良的頻率響應(yīng)特性而引起的系統(tǒng)編碼性能的下降。
例如,通過修正對應(yīng)于在一幀中的前3塊的各合成窗口函數(shù),以獲得一種對應(yīng)于乘積窗口函數(shù)WP1的所需的頻率響應(yīng),以及用于信號分析的窗口函數(shù)為WA6,則所需的修正合成窗口函數(shù)如下式所示
式中,WX1(n)=對應(yīng)于第1塊的修正的合成窗口函數(shù),WX2(n)=對應(yīng)于第2塊的修正的合成窗口函數(shù),
WX3(n)=對應(yīng)于第3塊的修正的合成窗口函數(shù),以及x=在幀邊界處被舍棄的樣本數(shù)目。
圖10a表示,對于x的若干數(shù)值來說,修正的合成窗口函數(shù)的形狀要求使用一個KBDα=6的分析窗口函數(shù)將一個256點O-TDAC分析-合成系統(tǒng)轉(zhuǎn)換為一個這樣的分析-合成系統(tǒng),后者的頻率響應(yīng)等效于一個使用KBDα=1的、幀重疊間隔等于256個樣本的分析與合成窗口函數(shù)。曲線361。362,363和364分別是對應(yīng)于x=8,16,24和32個樣本的修正的各合成窗口函數(shù)。
使用這些修正的窗口函數(shù)的各合成濾波器陣列的頻率響應(yīng)示于圖10b。諸曲線372。373和374分別是對應(yīng)于x=8,16和24個樣本的頻率響應(yīng)。曲線371是使用一個α=1的KBD窗口函數(shù)的一個合成濾波器陣列的頻率響應(yīng)。如圖所示,一個x=16的修正的合成窗口函數(shù)將大約200Hz以上的各頻率衰減到跟使用α=1的KBD窗口函數(shù)的合成濾波器陣列所獲得的衰減相同的程度。換句話說,一個舍棄了16個樣本的合成濾波器陣列,當(dāng)跟一個分析濾波器陣列以及一個α=6的分析窗口函數(shù)配合使用時,它所獲得的端到端分析-合成系統(tǒng)頻率響應(yīng)等效于一個使用α=1的分析與合成窗口函數(shù)的系統(tǒng)的端到端頻率響應(yīng),并且,與此同時,提供這樣一種合成濾波器陣列頻率響應(yīng),它對大約200Hz以上的各頻率的衰減程度接近于一個使用α=1的合成窗口函數(shù)的合成濾波器陣列的衰減程度。
一般來說,將具有較低α數(shù)值的KBD窗口函數(shù)用于正常編碼的各種系統(tǒng)將要求對合成窗口函數(shù)進行較小的修正,并且在幀的末尾舍棄較少的樣本。在一幀的末尾處所需要的修正的合成窗口函數(shù)類似于在表達式6a到6c所示的各窗口函數(shù),所不同的是發(fā)生了時序倒置。
對幀增益包絡(luò)進行調(diào)制用于修正一個合成窗口函數(shù)的第2種技術(shù)通過在一個接合部的兩側(cè)允許幀增益包絡(luò)稍為偏離理想水平來避免在窗口函數(shù)WX中的大量增加。通過改變增益包絡(luò)的偏離量,就能用該偏離量的可聽度來抵消頻譜鄰頻干擾的可聽度。
這種技術(shù)使修正的合成窗口函數(shù)變得平滑,因此它在幀邊界處或靠近幀邊界處具有小的數(shù)值。當(dāng)適當(dāng)?shù)赝瓿蛇@一步時,所得到的合成窗口函數(shù)將具有可接受的頻率響應(yīng),并且在幀邊界或靠近幀邊界處增益相當(dāng)?shù)?,幀增益包絡(luò)將偏離理想的KBD乘積窗口函數(shù)。跟由一種理想的交叉衰落增益形狀所提供的衰減相比,頻譜鄰頻干擾的衰減將僅有輕微的降低。
例如,若必須修正對應(yīng)于在一幀中前3塊的合成窗口函數(shù)以獲得所需的頻率響應(yīng),則為第2和第3塊所需的修正的合成窗口函數(shù)WX一般地相同于在x=0條件下由上面的表達式6b和6c所表示的情形。通過在平滑窗口函數(shù)長度的前半部逐點地跟一個平滑窗口函數(shù)相乘,就能使在上面的表達式6a中所表示的修正的合成窗口函數(shù)WX1變得平滑。所得到的對應(yīng)于第1塊的修正的合成窗口函數(shù)為
式中,WM(n)=平滑窗口函數(shù),以及P=平滑窗口函數(shù)的長度,假設(shè)小于N。
在一幀終了處所需的修正的合成窗口函數(shù)也相同于這個窗口函數(shù),所不同的是時序發(fā)生倒置。
平滑窗口函數(shù)WM基本上可以基于任何窗口函數(shù),但是,一個KBD平滑窗口函數(shù)似乎工作得更好一些。在本例中,平滑窗口函數(shù)是一個長度為128、α=6的KBD窗口函數(shù)。在圖11a中,曲線381表示未經(jīng)平滑的修正的合成窗口函數(shù)的形狀,而曲線382則表示經(jīng)平滑后的修正的合成窗口函數(shù)的形狀。
圖11b表示對應(yīng)于一個使用平滑后的修正的窗口函數(shù)的分析-合成系統(tǒng)的頻率響應(yīng)。曲線391表示使用平滑后的修正的窗口函數(shù)的頻率響應(yīng)。曲線341表示使用α=1的KBD窗口函數(shù)的一個分析-合成系統(tǒng)的頻率響應(yīng),曲線393則表示使用上面所討論的、并示于曲線343的、寬度約為5毫秒的線性遞減幀交叉衰落窗口函數(shù)所得到的頻率響應(yīng)的諸峰值的一個包絡(luò)。從這份圖中可以看出,一個經(jīng)過平滑的修正的合成窗口函數(shù)獲得一個類似于通過一個使用α=1的KBD窗口函數(shù)的分析-合成系統(tǒng)所獲得的頻率響應(yīng)。
混合分析-合成窗口函數(shù)的修正在以上所討論的各項技術(shù)中,幀增益包絡(luò)的所有變化都在信號合成過程中發(fā)生。作為另一種方法,分析過程也可以對處于幀邊界處的各塊使用具有一種頻率響應(yīng)的濾波器陣列,并且對內(nèi)部各塊使用另一種濾波器陣列。用于在幀邊界處各塊的各濾波器陣列可以被設(shè)計成減少在合成過程中所需的修正量,以便獲得對產(chǎn)生于接合部的頻譜鄰頻干擾的足夠的衰減。
數(shù)據(jù)同步在處理視頻與音頻信息的各種應(yīng)用中,視頻幀的長度一般地不等于音頻塊的長度。對示于表III和IV的各項標(biāo)準(zhǔn)來說,各視頻幀和各音頻塊很少同步。換句話說,在一個視頻幀邊界上的視頻/音頻信息的一次編輯可能不正好落在一個音頻塊的邊界上。其結(jié)果是,在各種塊編碼系統(tǒng)中,由剩余的部分塊所表示的音頻信息不能被完全地恢復(fù)。下面討論可以被用來解決這個問題的兩項技術(shù)。
音頻采樣率轉(zhuǎn)換第1種技術(shù)把按照一種外部速率接收的一組輸入音頻信號轉(zhuǎn)換為在編碼系統(tǒng)的內(nèi)部處理中所使用的另一種速率。內(nèi)部速率被這樣選擇,使之能為內(nèi)部信號提供足夠的帶寬,并且允許按照一個便于計算的樣本數(shù)目去跟每一幀視頻信號相組合。在解碼或重放時,輸出信號從內(nèi)部速率被轉(zhuǎn)換為一個外部速率,它不需要等于原始輸入音頻信號的外部速率。
表V表示在不同的視頻標(biāo)準(zhǔn)下,視頻幀的長度,與視頻幀長度相等的、在每秒48k個樣本下的音頻樣本的數(shù)目,為把這些音頻樣本轉(zhuǎn)換為一個目標(biāo)樣本數(shù)目所需的內(nèi)部速率,以及以樣本數(shù)表示的內(nèi)部音頻幀長度,這些將在下面進行討論。在每一種視頻標(biāo)準(zhǔn)下括號內(nèi)所示的數(shù)目是以Hz為單位的視頻幀速率。對于高于30Hz的視頻幀速率來說,其目標(biāo)樣本數(shù)是896,對于不大于30Hz的幀速率,其目標(biāo)樣本數(shù)目為1792。這些目標(biāo)長度被選擇用于說明,但是在許多編碼應(yīng)用中,由于它們可以被劃分為整數(shù)個含有256個樣本的塊,并且以128個樣本的寬度互相重疊,所以在許多編碼應(yīng)用中,它們是便于使用的長度。
視頻標(biāo)準(zhǔn) 幀長度 音頻長度 內(nèi)部速率 內(nèi)部音頻(msec.) (samples) (kHz)幀長度DTV(60) 16.66780053.761024NTSC(59.94) 16.683800.8 53.706 1024PAL(50) 2096044.8 1024DTV(30) 33.3331600 53.761920NTSC(29.97) 33.3671601.6 53.706 1920PAL(25) 401920 44.8 1920Film(24) 41.6672000 43 1920DTV(23.976) 41.7 2002 42.965 1920表V視頻與音頻速率例如,一種按照每秒48k個樣本的采樣率來處理一組輸入音頻信號以及一組每秒25幀的PAL視頻信號的應(yīng)用中,能將輸入音頻信號轉(zhuǎn)換為具有每秒43k個樣本的速率的一組內(nèi)部信號。諸內(nèi)部信號樣本可以被排列成各內(nèi)部音頻幀以便進行處理。在表V所示的例子中,內(nèi)部音頻幀長度為1920個樣本。在這些例子中,內(nèi)部音頻幀長度不等于視頻幀長度。這種差別是由于在一幀中的音頻樣本跟在另一幀中的音頻樣本發(fā)生重疊的樣本數(shù)目所致。
參看圖2c所示的例子,每一幀都有某種數(shù)目的樣本跟另一幀互相重疊。這個樣本數(shù)目構(gòu)成幀重疊間隔。在許多應(yīng)用中,幀重疊間隔等于在一個各自的幀中,介于相鄰的音頻塊之間的重疊間隔。等于一個視頻幀長度的樣本數(shù)目就是跨越從一幀的開始到下一幀的開始的間隔中的樣本數(shù)目。這等于內(nèi)部音頻幀長度小于在幀重疊間隔中的樣本數(shù)目的差值。
在上面討論并示于表V的諸實例中,等于視頻幀長度的樣本數(shù)目為1792或896,這依賴于視頻幀速率。幀重疊間隔為128個樣本。對于30Hz以上的視頻幀速率來說,每一個內(nèi)部音頻幀包括1024(896+128)個樣本,它們可以被排列成7個256樣本的塊,并且互相重疊128個樣本。對于較低的視頻幀速率來說,每一個內(nèi)部音頻幀包括1920(1792+128)個樣本,它們可以被排列成14個256樣本的塊,并且以128個樣本的寬度互相重疊。
若使用在各幀邊界處不會產(chǎn)生各種混疊偽差的的諸濾波器陣列,則幀重疊間隔最好增加到256個樣本,對于高于30Hz的視頻幀速率來說,這使內(nèi)部幀長度增加到1152(896+256)個樣本,而對較低的視頻幀速率來說,內(nèi)部幀長度增加到2048(1792+256)個樣本。
為使一組音頻信號跟一個所需的視頻幀速率同步,所需的內(nèi)部采樣率等于視頻幀速率與等于視頻幀長度的樣本數(shù)目的乘積。這等效于RI=RV*(LA-LO)(8)式中,RI=內(nèi)部采樣率,RV=視頻幀速率,LA=內(nèi)部音頻幀長度,LO=幀重疊間隔。
圖12a表示裝置400的一份功能框圖,在其中,轉(zhuǎn)換器403從通路402接收具有一個外部采樣率的一組輸入音頻信號,將輸入音頻信號轉(zhuǎn)換為具有一個內(nèi)部采樣率的一組內(nèi)部信號,并將內(nèi)部信號送往編碼器404。響應(yīng)于內(nèi)部信號,編碼器404沿著通路405產(chǎn)生一組被排列成內(nèi)部各音頻幀的編碼信號。格式器406從通路401接收被排列成幀的視頻信息,并且沿著通路407將一個內(nèi)部音頻幀跟每一個視頻幀組合在一起,以產(chǎn)生一組輸出信號。
圖12b表示裝置410的一份功能框圖,在其中,去格式器412從通路411接收被排列成各幀的一組輸入信號,包括視頻信息以及已編碼的音頻信息。去格式器412從輸入信號獲得沿通路413行進的視頻信息,并從輸入信號中獲得被排列成內(nèi)部各音頻幀并沿通路414行進的已編碼音頻信息。解碼器415對已編碼的音頻信息進行解碼,以產(chǎn)生具有一個內(nèi)部采樣率的一組內(nèi)部信號,并送往轉(zhuǎn)換器416。轉(zhuǎn)換器416將內(nèi)部信號轉(zhuǎn)換為具有一個外部采樣率的一組輸出信號。
基本上可以使用用于采樣率轉(zhuǎn)換的任何技術(shù)。在Adams和Kwan發(fā)表于《音頻工程師協(xié)會叢刊》1993年7月,41卷,第7/8期,第539-555頁的“用于異步采樣率轉(zhuǎn)換器的理論和VLSI體系結(jié)構(gòu)”一文中,公開了針對采樣率轉(zhuǎn)換的各種考慮和實施方案。
動態(tài)音頻幀對準(zhǔn)若不使用采樣率轉(zhuǎn)換,則音頻幀頻率必須隨著視頻幀速率而改變。內(nèi)部音頻幀長度可以被設(shè)置為一種便于計算的長度,比方說一個大小合理的2的冪的整數(shù)倍,以便進行塊處理,例如使用各種變換的分割頻帶編碼。然后將幀重疊間隔設(shè)置為等于介于內(nèi)部音頻幀長度與精確地跨越一個視頻幀的樣本數(shù)目之間的差值。這可以表示為LO=LA-LV(9)式中,LV=以音頻樣本數(shù)目來表示的視頻幀長度。
遺憾的是,如上面表V所示,由于NTSC視頻幀速率不是音頻采樣率的整數(shù)倍,所以此項技術(shù)對于那些處理NTSC視頻的應(yīng)用來說就顯得更為復(fù)雜。其結(jié)果是,NTSC幀長度不等于整數(shù)個音頻樣本。如表IV所示,要求5幀的NTSC視頻跟8008個采樣率為每秒48k個樣本的音頻樣本同步。在本文中將由5幀組成的一個小組稱為一個超幀。
在一個超幀內(nèi)對應(yīng)于每一個視頻幀的音頻樣本的數(shù)目不是恒定的,而是在不斷改變著??梢宰鞒龈鞣N各樣的安排,但是針對29.97Hz的NTSC視頻的一種優(yōu)選的安排就是分別對應(yīng)于1602。1601,1602,1601和1602個樣本的5幀的一個序列。對于59.94Hz的NTSC視頻來說,可以使用一種類似的序列,在其中,一對由801個樣本組成的塊被用來置換每一個1602樣本的塊,以及一個由801/800個樣本組成的塊對被用來置換每一個1601樣本的塊。下面的討論是針對一個處理29.97Hz視頻幀(頻率)的應(yīng)用的解決方案。這些概念也可以應(yīng)用于其他的視頻幀速率。
如表達式9所示,一個解碼器應(yīng)當(dāng)能夠測定視頻幀長度LV,使得它能夠正確地測定重疊間隔的長度。若一個解碼器面臨處于一個幀邊界上的一次拼接編輯,則跟隨在該接合部后面的幀可以代表5個可能的超幀序列中的任何一個。解碼器將無法恢復(fù)由跟隨著該接合部的各塊所代表的音頻,除非它們符合于該解碼器正在使用的超幀序列。借助于下面的動態(tài)音頻幀對準(zhǔn)技術(shù)就能完成這一步。
根據(jù)此項技術(shù),在裝置420中,如圖13a所示,編碼器423從通路422接收音頻信息,并產(chǎn)生被排列為各超幀的已編碼音頻信息,在一個各自的超幀中用對每一幀來說是唯一的一個標(biāo)號來標(biāo)識每一幀。已編碼的音頻信息的各超幀沿著通路425行進并且各幀標(biāo)號沿著通路424行進。格式器426從通路421接收視頻信息的各幀,并將這種視頻信息、已編碼的音頻信息的各幀以及對應(yīng)的各標(biāo)號組合為一組輸出信號,該信號沿著通路427送出。
如圖13b所示,在裝置430中,去格式器432從通路431接收一組輸入信號,獲得沿通路433傳送的視頻信息各幀,獲得沿通路435傳送的已編碼音頻信息的各超幀序列,并且獲得沿通路434傳送的對應(yīng)于已編碼音頻信息的每一幀的各標(biāo)號。步驟436響應(yīng)于該標(biāo)號,為已編碼音頻信息的每一幀測定一個起始樣本以及幀長度,并且解碼器438根據(jù)由步驟436所測定的起始樣本和幀長度,通過對已編碼的音頻信息的各幀進行解碼,沿著通路439產(chǎn)生一組輸出信號。
在一個優(yōu)選實施例中,在每一個超幀中的各幀被標(biāo)記為0,1,2,3和4。在幀0中的起始樣本被假設(shè)為跟視頻信號的幀邊界精確地同步。在一個超幀中的每一幀都按照相同的結(jié)構(gòu)來生成,它們具有一個“前置樣本”,一個“名義起始樣本”,以及1601個其他樣本,總共1603個樣本。在本優(yōu)選實施例中,各樣本被編號為0到1602,其中,1號樣本為名義起始樣本;因此,視頻幀長度為1603。如上所述,由于幀重疊間隔的存在,內(nèi)部音頻幀的長度可以較長一些。一種常規(guī)的內(nèi)部音頻幀長度為1792個樣本。根據(jù)1603的視頻幀長度來確定幀增益包絡(luò)。對于剛才敘述的實例來說,幀重疊間隔為189(1792-1603)個樣本。
裝置430采用所需的任何超幀排列,并且動態(tài)地改變每一個音頻幀的排列,以便獲得與視頻信息的良好同步。通過動態(tài)地選擇起始樣本以及每一幀的長度就能改變這種排列。如上所述,根據(jù)在一個超幀中的5幀模式,幀長度在1601和1602個樣本之間改變著。這種動態(tài)對準(zhǔn)的效果就是,緊跟在一個與伴隨著的視頻信息保持同步關(guān)系的接合部之后,立即得到良好的對準(zhǔn)。
在這里所討論的優(yōu)選實施例中,根據(jù)下列關(guān)鍵字,可以從一張表中獲得起始樣本號碼以及視頻幀的長度K=(FE-FD)以5為模求余數(shù)(10)式中,K=對準(zhǔn)表訪問關(guān)鍵字FE=編碼器幀標(biāo)號,以及FD=解碼器幀標(biāo)號。
解碼器從編碼信號中獲得編碼器幀標(biāo)號。由解碼器根據(jù)解碼器所假定的超幀對準(zhǔn)關(guān)系,在一個從0到4的重復(fù)序列中產(chǎn)生解碼器幀標(biāo)號。
使用K作為訪問該表的一個關(guān)鍵字,解碼器就能從表VI獲得適當(dāng)?shù)膸鹗紭颖咎柎a以及視頻幀長度。訪問 編碼幀 起始 視頻幀 訪問 編碼幀 起始 視頻幀關(guān)鍵字 標(biāo)號 樣本 長度 關(guān)鍵字 標(biāo)號 樣本 長度00 1 16021 0 1 160201 1 16011 1 1 160202 1 16021 2 2 160203 1 16011 3 1 160204 1 16021 4 2 160220 1 16013 0 1 160221 0 16013 1 1 160122 1 16023 2 1 160223 1 16013 3 1 160224 1 16023 4 2 160240 1 160141 0 160142 1 160143 0 160144 1 1602表VI動態(tài)音頻幀對準(zhǔn)圖14表示動態(tài)對準(zhǔn)的一個實例。在這個實例中,一個超幀開始于幀453,并且被跟隨在幀455后面的一個接合部所中斷。在一個超幀中的最后一幀456跟隨著接合部,而一個新的超幀開始于幀457。在行450的各框中顯示出在每一幀中音頻信息的理想長度。在行461示出了由一個編碼器為每一幀產(chǎn)生的幀標(biāo)號FE。要注意的是標(biāo)號0對應(yīng)于在每一個超幀中的第1幀。在本例中,由解碼器設(shè)定的解碼器標(biāo)號FD示于行462。根據(jù)表達式10計算出來的介于這兩個標(biāo)號之間的差值決定了對準(zhǔn)表的訪問關(guān)鍵字K,它被示于行463。根據(jù)對準(zhǔn)表確定的起始和終了樣本號碼示于行464。例如,標(biāo)記0-1601標(biāo)識一個1602樣本的幀,它開始于樣本0并結(jié)束于樣本1601。
在幀451,解碼器處理一個長度為1602個樣本的塊。根據(jù)編碼器超幀對準(zhǔn)關(guān)系,這一幀比“理想”長度長1幀。相應(yīng)地,幀452的起始點晚了一個樣本,因而比理想長度短了一個樣本。這使得幀453開始于1號樣本,精確地同步于該超幀的第1幀。幀454和455的對準(zhǔn)關(guān)系跟理想的對準(zhǔn)關(guān)系相同。
緊跟在接合部之后,幀456的對準(zhǔn)關(guān)系跟理想對準(zhǔn)關(guān)系相同。幀457開始于1號樣本,精確地同步于下一個超幀的起始點。幀457的長度比理想長度短一個樣本,然而,幀458提前一個樣本開始,并具有比理想長度多一個樣本的長度。幀459的起始點跟理想情況相符,但它比理想長度短一個樣本。相應(yīng)地,幀460提前一個樣本開始,并且比理想長度多一個樣本。
如本例所示,解碼器獲得跟每一個超幀的起始點的精確同步,不必考慮由于接合部所產(chǎn)生的任何不連續(xù)性。
裝置430使用一個修正的合成窗口函數(shù),以類似于上面結(jié)合表達式6a到6c所討論的方式去獲得適當(dāng)?shù)亩说蕉藥鲆姘j(luò)。根據(jù)表達式6a來確定在每一幀起始點處的修正的合成窗口函數(shù),其中,在幀邊界處所“舍棄”的樣本數(shù)目x等于該幀起始對準(zhǔn)相對于提前開始樣本的偏移。例如,對于一個開始于樣本2的幀來說,x=2。在每一幀終了處的修正的合成窗口函數(shù)也根據(jù)表達式6a來確定,所不同的是采取一種時序倒置方式。
權(quán)利要求
1.一種信號處理方法包括接收一組輸入信號,包括諸幀的一個序列,一個各自的輸入信號幀包括多個已濾波的音頻信息塊,接收一組控制信號,它在所述輸入信號幀序列的范圍內(nèi),對緊挨著一個第2輸入信號幀前面的一個第1輸入信號幀加以標(biāo)識,通過向位于所述第1輸入信號幀的末尾的已濾波的音頻信息的一個終了塊施加一個第1合成濾波器陣列,產(chǎn)生諸信號樣本的一個第1臨時信號塊,通過向位于所述第2輸入信號幀的起點的已濾波的音頻信息的一個起始塊施加一個第2合成濾波器陣列,產(chǎn)生諸信號樣本的一個第2臨時信號塊,并且通過向已濾波的音頻信息的一個或多個其他塊施加一個第3合成濾波器陣列,產(chǎn)生諸信號樣本的一個或多個第3臨時信號塊,其中所述第1合成濾波器陣列是這樣的,它使得在所述第1臨時信號塊中的諸樣本代表已經(jīng)根據(jù)一個第1頻率響應(yīng)進行濾波的音頻信息,所述第2合成濾波器陣列是這樣的,它使得在所述第2臨時信號塊中的諸樣本代表已經(jīng)根據(jù)一個第2頻率響應(yīng)進行濾波的音頻信息,以及所述第3合成濾波器陣列是這樣的,它使得在所述第3臨時信號塊中的諸樣本代表已經(jīng)根據(jù)一個第3頻率響應(yīng)進行濾波的音頻信息,其中所述第1頻率響應(yīng)使得在一個頻率范圍內(nèi)頻譜能量的衰減得以優(yōu)化,上述頻率范圍包括兩個以Hz表示的頻率,這兩個頻率分別等于大約50,000除以在所述第1臨時信號塊中的信號樣本數(shù)目以及大約150,000除以在所述第1臨時信號塊中的信號樣本數(shù)目,所述第2頻率響應(yīng)使得在一個頻率范圍內(nèi)頻譜能量的衰減得以優(yōu)化,上述頻率范圍包括兩個以Hz表示的頻率,這兩個頻率分別等于大約50,000除以在所述第2臨時信號塊中的信號樣本數(shù)目以及大約150,000除以在所述第2臨時信號塊中的信號樣本數(shù)目,并且所述第3頻率響應(yīng)使得在一個以Hz表示的頻率以上的頻譜能量的衰減得以優(yōu)化,上述頻率等于大約500,000除以在所述第3臨時信號塊中的樣本數(shù)目,以及通過使相鄰的各臨時信號塊互相重疊以及將對應(yīng)的互相重疊的信號樣本相加來產(chǎn)生一組輸出信號。
2.一種根據(jù)權(quán)利要求1所述的方法,還包括在所述第1臨時信號塊中舍棄一個或多個樣本,以及在所述第2臨時信號塊中舍棄一個或多個樣本,
3.一種信號處理方法,包括接收一組輸入信號,包括諸幀的一個序列,一個各自的輸入信號幀包括多個已濾波的音頻信息塊,接收一組控制信號,它在所述輸入信號幀序列的范圍內(nèi),對緊挨著一個第2輸入信號幀前面的一個第1輸入信號幀加以標(biāo)識,通過向位于所述第1輸入信號幀的末尾的已濾波的音頻信息的一個結(jié)尾塊施加一個第1合成濾波器陣列,產(chǎn)生諸信號樣本的一個第1臨時信號塊,通過向位于所述第2輸入信號幀的起點的已濾波的音頻信息的一個起始塊施加一個第2合成濾波器陣列,產(chǎn)生諸信號樣本的一個第2臨時信號塊,并且通過向已濾波的音頻信息的一個或多個其他塊施加一個第3合成濾波器陣列,產(chǎn)生諸信號樣本的一個或多個第3臨時信號塊,其中所述第1合成濾波器陣列是這樣的,它使得在所述第1臨時信號塊中的諸樣本代表已經(jīng)根據(jù)一個第1頻率響應(yīng)進行濾波的音頻信息,所述第2合成濾波器陣列是這樣的,它使得在所述第2臨時信號塊中的諸樣本代表已經(jīng)根據(jù)一個第2頻率響應(yīng)進行濾波的音頻信息,以及所述第3合成濾波器陣列是這樣的,它使得在所述第3臨時信號塊中的諸樣本代表已經(jīng)根據(jù)一個第3頻率響應(yīng)進行濾波的音頻信息,其中,通過相對于一個參考響應(yīng)的所述第1頻率響應(yīng)使得頻譜能量的衰減得以優(yōu)化,并且通過相對于一個參考響應(yīng)的所述第2頻率響應(yīng)使得頻譜能量的衰減得以優(yōu)化,其中所述參考響應(yīng)是通過向所述已濾波的音頻信息施加一個參考合成濾波器陣列而獲得的那個頻率響應(yīng),所述參考合成濾波器陣列具有這樣一種脈沖響應(yīng),它基本上符合于在一個大約5毫秒的間隔內(nèi),一個線性遞減的斜坡,以及通過使相鄰的各臨時信號塊互相重疊以及將對應(yīng)的互相重疊的信號樣本相加來產(chǎn)生一組輸出信號。
4.一種根據(jù)權(quán)利要求3所述的方法還包括在所述第1臨時信號塊中舍棄一個或多個樣本,以及在所述第2臨時信號塊中舍棄一個或多個樣本,
5.一種根據(jù)權(quán)利要求1,2,3或4所述的方法,還包括在所述第1輸入信號幀以及所述第2輸入信號幀之間標(biāo)識一個拼接編輯點,并產(chǎn)生響應(yīng)于此的所述控制信號。
6.一種根據(jù)權(quán)利要求1,2,3或4所述的方法,還包括標(biāo)識介于所述輸入信號的連續(xù)的各幀之間的邊界,以及產(chǎn)生響應(yīng)于此的控制信號,以便將前置于一個各自的邊界的每一個輸入信號幀標(biāo)識為一個各自的第1輸入信號幀,以及將跟隨于一個各自的邊界的每一個輸入信號幀標(biāo)識為一個各自的第2輸入信號幀。
7.一種根據(jù)權(quán)利要求1或3所述的方法,其中所述第1合成濾波器陣列包括從一個α值小于2的凱撒-貝塞爾窗口函數(shù)導(dǎo)出的一個或多個反變換以及一個合成窗口函數(shù),所述第2合成濾波器陣列包括從一個α值小于2的凱撒-貝塞爾窗口函數(shù)導(dǎo)出的一個或多個反變換以及一個合成窗口函數(shù),以及所述第3合成濾波器陣列包括從一個α值大于2的凱撒-貝塞爾窗口函數(shù)導(dǎo)出的一個或多個反變換以及一個合成窗口函數(shù)。
8.一種根據(jù)權(quán)利要求1或3所述的方法,其中所述第1合成濾波器陣列包括一個反變換以及一個第1合成窗口函數(shù),所述第2合成濾波器陣列包括所述反變換以及一個第2合成窗口函數(shù),并且所述第3合成濾波器陣列包括所述反變換以及一個第3合成窗口函數(shù)。
9.一種根據(jù)權(quán)利要求1或3所述的方法,其中在所述終了塊中的所述已濾波的音頻信息表示已經(jīng)由一個第1分析濾波器陣列進行濾波的音頻信息,在所述起始塊中的所述已濾波的音頻信息表示已經(jīng)由一個第2分析濾波器陣列進行濾波的音頻信息,以及在一個或多個其他輸入信號塊中的所述已濾波的音頻信息表示已經(jīng)由一個第3分析濾波器陣列進行濾波的音頻信息,其中這3種分析濾波器陣列的脈沖響應(yīng)各不相同。
10.一種信號處理裝置包括用于接收一組輸入信號的裝置,上述輸入信號包括諸幀的一個序列,一個各自的輸入信號幀包括多個已濾波的音頻信息塊,用于接收一組控制信號的裝置,上述控制信號在所述輸入信號幀序列的范圍內(nèi),對緊挨著一個第2輸入信號幀前面的一個第1輸入信號幀加以標(biāo)識,具有下列功能的裝置通過向位于所述第1輸入信號幀的末尾的已濾波的音頻信息的一個終了塊施加一個第1合成濾波器陣列,以產(chǎn)生諸信號樣本的一個第1臨時信號塊,通過向位于所述第2輸入信號幀的起點的已濾波的音頻信息的一個起始塊施加一個第2合成濾波器陣列,以產(chǎn)生諸信號樣本的一個第2臨時信號塊,以及通過向已濾波的音頻信息的一個或多個其他塊施加一個第3合成濾波器陣列,以產(chǎn)生諸信號樣本的一個或多個第3臨時信號塊,其中所述第1合成濾波器陣列是這樣的,它使得在所述第1臨時信號塊中的諸樣本表示已經(jīng)根據(jù)一個第1頻率響應(yīng)進行濾波的音頻信息,所述第2合成濾波器陣列是這樣的,它使得在所述第2臨時信號塊中的諸樣本表示已經(jīng)根據(jù)一個第2頻率響應(yīng)進行濾波的音頻信息,以及所述第3合成濾波器陣列是這樣的,它使得在所述第3臨時信號塊中的諸樣本表示已經(jīng)根據(jù)一個第3頻率響應(yīng)進行濾波的音頻信息,其中所述第1頻率響應(yīng)使得在一個頻率范圍內(nèi)頻譜能量的衰減得以優(yōu)化,上述頻率范圍包括兩個以Hz表示的頻率,這兩個頻率分別等于大約50,000除以在所述第1臨時信號塊中的信號樣本數(shù)目以及大約150,000除以在所述第1臨時信號塊中的信號樣本數(shù)目,所述第2頻率響應(yīng)使得在一個頻率范圍內(nèi)頻譜能量的衰減得以優(yōu)化,上述頻率范圍包括兩個以Hz表示的頻率,這兩個頻率分別等于大約50,000除以在所述第2臨時信號塊中的信號樣本數(shù)目以及大約150,000除以在所述第2臨時信號塊中的信號樣本數(shù)目,并且所述第3頻率響應(yīng)使得在一個以Hz表示的頻率以上的頻譜能量的衰減得以優(yōu)化,上述頻率等于大約500,000除以在所述第3臨時信號塊中的樣本數(shù)目,以及通過使相鄰的各臨時信號塊互相重疊以及將對應(yīng)的互相重疊的信號樣本相加來產(chǎn)生一組輸出信號的裝置。
11.一種根據(jù)權(quán)利要求1所述的裝置,還包括在所述第1臨時信號塊中舍棄一個或多個樣本、以及在所述第2臨時信號塊中舍棄一個或多個樣本的裝置,
12.一種信號處理裝置包括用于接收一組輸入信號的裝置,上述輸入信號包括諸幀的一個序列,一個各自的輸入信號幀包括多個已濾波的音頻信息塊,用于接收一組控制信號的裝置,上述控制信號在所述輸入信號幀序列的范圍內(nèi),對緊挨著一個第2輸入信號幀前面的一個第1輸入信號幀加以標(biāo)識,具有下列功能的裝置,它通過向位于所述第1輸入信號幀的末尾的已濾波的音頻信息的一個終了塊施加一個第1合成濾波器陣列,以產(chǎn)生諸信號樣本的一個第1臨時信號塊,通過向位于所述第2輸入信號幀的起點的已濾波的音頻信息的一個起始塊施加一個第2合成濾波器陣列,以產(chǎn)生諸信號樣本的一個第2臨時信號塊,以及通過向已濾波的音頻信息的一個或多個其他塊施加一個第3合成濾波器陣列,以產(chǎn)生諸信號樣本的一個或多個第3臨時信號塊,其中所述第1合成濾波器陣列是這樣的,它使得在所述第1臨時信號塊中的諸樣本表示已經(jīng)根據(jù)一個第1頻率響應(yīng)進行濾波的音頻信息,所述第2合成濾波器陣列是這樣的,它使得在所述第2臨時信號塊中的諸樣本表示已經(jīng)根據(jù)一個第2頻率響應(yīng)進行濾波的音頻信息,以及所述第3合成濾波器陣列是這樣的,它使得在所述第3臨時信號塊中的諸樣本表示已經(jīng)根據(jù)一個第3頻率響應(yīng)進行濾波的音頻信息,其中,通過所述第1頻率響應(yīng)使得頻譜能量的衰減相對于一個參考響應(yīng)得以優(yōu)化,并且通過所述第2頻率響應(yīng)使得頻譜能量的衰減相對于一個參考響應(yīng)得以優(yōu)化,其中所述參考響應(yīng)是通過向所述已濾波的音頻信息施加一個參考合成濾波器陣列而獲得的頻率響應(yīng),所述參考合成濾波器陣列具有這樣一種脈沖響應(yīng),它基本上符合于在一個大約5毫秒的間隔內(nèi),一個線性遞減的斜坡,以及通過使相鄰的各臨時信號塊互相重疊以及將對應(yīng)的互相重疊的信號樣本相加來產(chǎn)生一組輸出信號的裝置。
13.一種根據(jù)權(quán)利要求12所述的裝置,還包括在所述第1臨時信號塊中舍棄一個或多個樣本、以及在所述第2臨時信號塊中舍棄一個或多個樣本的裝置,
14.一種根據(jù)權(quán)利要求10,11,12或13所述的裝置,還包括用于在所述第1輸入信號幀以及所述第2輸入信號幀之間標(biāo)識一個拼接編輯點,以及響應(yīng)于此,產(chǎn)生所述控制信號的裝置。
15.一種根據(jù)權(quán)利要求10,11,12或13所述的裝置,還包括用于標(biāo)識介于所述輸入信號的連續(xù)的各幀之間的邊界,以及響應(yīng)于此,產(chǎn)生控制信號的裝置,以便將前置于一個各自的邊界的每一個輸入信號幀標(biāo)識為一個各自的第1輸入信號幀,以及將跟隨于一個各自的邊界的每一個輸入信號幀標(biāo)識為一個各自的第2輸入信號幀。
16.一種根據(jù)權(quán)利要求10或12所述的裝置,其中所述第1合成濾波器陣列包括從一個α值小于2的凱撒-貝塞爾窗口函數(shù)導(dǎo)出的一個或多個反變換以及一個合成窗口函數(shù),所述第2合成濾波器陣列包括從一個α值小于2的凱撒-貝塞爾窗口函數(shù)導(dǎo)出的一個或多個反變換以及一個合成窗口函數(shù),以及所述第3合成濾波器陣列包括從一個α值大于2的凱撒-貝塞爾窗口函數(shù)導(dǎo)出的一個或多個反變換以及一個合成窗口函數(shù),
17.一種根據(jù)權(quán)利要求10或12所述的裝置,其中所述第1合成濾波器陣列包括一個反變換以及一個第1合成窗口函數(shù),所述第2合成濾波器陣列包括所述反變換以及一個第2合成窗口函數(shù),并且所述第3合成濾波器陣列包括所述反變換以及一個第3合成窗口函數(shù),
18.一種根據(jù)權(quán)利要求10或12所述的裝置,其中在所述終了塊中的所述已濾波的音頻信息表示已經(jīng)由一個第1分析濾波器陣列進行濾波的音頻信息,在所述起始塊中的所述已濾波的音頻信息表示已經(jīng)由一個第2分析濾波器陣列進行濾波的音頻信息,以及在一個或多個其他輸入信號塊中的所述已濾波的音頻信息表示已經(jīng)由一個第3分析濾波器陣列進行濾波的音頻信息,其中這3種分析濾波器陣列的脈沖響應(yīng)各不相同。
全文摘要
可以按照不同的組合方式來使用幾種音頻信號處理技術(shù),以改進通過拼接編輯兩個以上的其他信息流而形成的一個信息流所代表的音質(zhì)。在將音頻信息跟視頻信息捆綁在一起的各種應(yīng)用中,這種技術(shù)是特別有用的。在一種技術(shù)中,在音頻信息流中所載運的各增益控制字被用來對跨越一個接合部的回放聲音電平進行內(nèi)插計算。在另一種技術(shù)中,特定的各種濾波器陣列或者各種TDAC變換形式被用來抑制出現(xiàn)在一個接合部兩側(cè)的各種混疊偽差。在又一種技術(shù)中,特定的濾波器陣列或者交叉衰落窗口函數(shù)被用來優(yōu)化對產(chǎn)生于接合部的頻譜鄰頻干擾的衰減。在再一種技術(shù)中,根據(jù)各種幀長度和頻率來轉(zhuǎn)換音頻采樣率,使得音頻信息得以跟,例如,視頻信息捆綁在一起。在還一種技術(shù)中,各音頻塊被動態(tài)地對準(zhǔn),使得在跨越一個接合部時,能保持良好的同步關(guān)系。討論了一個(采樣率為)48kHz的音頻跟NTSC視頻相組合的實例。
文檔編號G11B27/031GK1275234SQ98810093
公開日2000年11月29日 申請日期1998年10月15日 優(yōu)先權(quán)日1997年10月17日
發(fā)明者路易斯·杜恩·非爾德爾 申請人:多爾拜實驗特許公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
民和| 和政县| 文安县| 汉源县| 麦盖提县| 西畴县| 洞头县| 陇南市| 五莲县| 铁岭县| 钟祥市| 鸡泽县| 永昌县| 望城县| 全椒县| 榕江县| 青铜峡市| 灵川县| 内江市| 那坡县| 偃师市| 临城县| 永济市| 大渡口区| 陇西县| 保康县| 左贡县| 浙江省| 兰州市| 武山县| 本溪市| 呈贡县| 台北市| 古浪县| 大渡口区| 柘城县| 龙井市| 华安县| 华阴市| 壤塘县| 刚察县|