專利名稱:用于操縱包括暫態(tài)事件的音頻信號的裝置、方法和計算機程序的制作方法
用于操縱包括暫態(tài)事件的音頻信號的裝置、方法和計算機
程序
背景技術(shù):
根據(jù)本發(fā)明的實施例涉及用于操縱包括暫態(tài)事件的音頻信號的裝置、方法和計算機程序。在下文中,描述依據(jù)本發(fā)明的實施例可應(yīng)用的典型的應(yīng)用情景。在現(xiàn)行的音頻信號處理系統(tǒng)中,音頻信號通常使用數(shù)字技術(shù)來處理。例如特定信號部分,諸如暫態(tài)部分,對數(shù)字信號處理有特殊要求。暫態(tài)事件(或“暫態(tài)”)是信號中的事件,在該事件期間,整個頻帶或某一頻率范圍內(nèi)信號的能量快速變化,即,其能量快速增加或快速降低。特定暫態(tài)(暫態(tài)事件)的特征可在頻譜中的信號能量分布中得出。典型地,暫態(tài)事件期間音頻信號的能量在整個頻率范圍內(nèi)分布,而在非暫態(tài)信號部分中,能量在正常情況下集中在音頻信號的低頻部分或集中在一個或多個特定頻帶中。這意味著非暫態(tài)信號部分出(也稱為穩(wěn)態(tài)或“音調(diào)”信號部分)具有非平坦頻譜。此外,暫態(tài)信號部分的頻譜典型的是混沌的且“不可預(yù)測的”(例如,當在知曉暫態(tài)信號部分之前的信號部分的頻譜時)。換言之,信號的能量包括在相對較少的頻譜線或頻譜帶中,它們被強烈加重而超越音頻信號的噪聲基準。但是在暫態(tài)部分中,音頻信號的能量將在許多不同的頻帶內(nèi)分布且尤其將在高頻部分中分布,以致音頻信號的暫態(tài)部分的頻譜相對較平坦且通常將比音頻信號的音調(diào)部分的頻譜平坦。然而,應(yīng)指出的是,存在有具有平坦頻譜的其他類型的信號,例如,像不表示暫態(tài)的類噪聲信號。然而,盡管類噪聲信號的頻譜段具有不相關(guān)或弱相關(guān)的相位值,但是存在暫態(tài)的情況下頻譜段通常存在有非常顯著的相位相關(guān)性。典型地,暫態(tài)事件是音頻信號的時域表示中的強烈變化,其意味著在執(zhí)行傅立葉分解時信號將包括許多高頻分量。許多高次諧波的重要特征是高次諧波的相位具有極其特定的相互關(guān)系,以致所有這些諧波的迭加將使信號能量產(chǎn)生快速變化(當在時域中考慮時)。換言之,暫態(tài)事件附近的頻譜存在有強相關(guān)性。所有諧波中的特定相位情況還可被稱為“垂直相干性”。此“垂直相干性”與信號的時間/頻率譜圖表示有關(guān),其中水平方向與信號在時間上演進相對應(yīng),垂直維度描述在頻率上短時間頻譜中對頻譜分量的頻率的依賴性。例如,若變化在大時域范圍內(nèi)執(zhí)行,例如,通過量化,則所述變化將影響整個塊。因為暫態(tài)的特征在于能量的短期增加,所以當塊變化時,此能量可能將在該塊所表示的整個區(qū)域內(nèi)被涂抹開。當信號的再現(xiàn)速度變化而音高維持不變時,或當信號被轉(zhuǎn)換而原始再現(xiàn)持續(xù)時間維持不變時,問題變得尤為明顯。使用相位語音編碼器或諸如(P)SOLA的方法(參見關(guān)于此問題的參考文獻[Al]至[A4]),上述兩種情況均可被實現(xiàn)。后者通過再現(xiàn)以時間延展因數(shù)加速的經(jīng)延展信號來實現(xiàn)。在時間離散信號表示下,這與維持采樣頻率的同時以延展因數(shù)來下采樣信號相對應(yīng)。諸如相位語音編碼器等時間延展方法實際上僅適于穩(wěn)態(tài)或準穩(wěn)態(tài)信號,因為暫態(tài)通過分散在時間上“被涂抹開”。相位語音編碼器削弱了信號的所謂垂直相干特性(與時間/頻率譜圖表示有關(guān))。音頻信號的時間延展在娛樂及藝術(shù)中均起重要作用。常用的算法基于交疊和相加 (OLA)技術(shù),諸如相位語音編碼器(PV)、同步交疊相加(SOLA)、音高同步交疊相加(PSOLA), 以及波形相似性交疊相加(WSOLA)。盡管這些算法能夠改變音頻信號的重放速度同時保留它們的原始音高,但是暫態(tài)未被保留完好。使用OLA在時間上延展音頻信號而不改變其音高需要分別處理暫態(tài)及持續(xù)信號部分,以避免暫態(tài)分散[Bi]和時常伴隨WSOLA及SOLA發(fā)生的時域混迭。延展諸如定音管發(fā)出的絕對音調(diào)信號與諸如響板發(fā)出的打擊式信號的組合,這一任務(wù)提出了挑戰(zhàn)。下面將參照一些常規(guī)方法以提供本發(fā)明的背景。一些現(xiàn)行的方法較強地延展暫態(tài)周圍的時間以在暫態(tài)持續(xù)時間內(nèi)不執(zhí)行時間延展或只執(zhí)行很小的時間延展(例如參見參考文獻[5]至[8])。以下文章及專利描述了時間和/或音高操縱[Al]、[A2]、[A3]、[A4]、[A5]、[A6]、 [A7]、[A8]。在[B2]中,提出了一種方法,在時間延展版本中大致保留信號的包絡(luò)及其頻譜特性。該方法希望時間擴張打擊事件的衰減慢于原始事件。若干廣為人知的方法允許有區(qū)別地處理暫態(tài)及穩(wěn)態(tài)信號分量,例如,將信號建模為正弦波、暫態(tài)及噪聲的總和(S+T+N) [B4、B5]。為了在時間縮放修改之后保留暫態(tài),分離地延展所有三部分。此技術(shù)能夠完美地保留音頻信號的暫態(tài)分量。但是,所產(chǎn)生的聲音時常感覺不自然。其他方法改變時間延展的量且在暫態(tài)時間期間將其設(shè)定成1或在暫態(tài)事件下鎖定相位[B3、B6、B7]。文獻[B8]給出了利用PV如何在時間及頻率延展中保留暫態(tài)。在此方法中,在信號被延展之前從該信號中截除(cut out)暫態(tài)。暫態(tài)部分的移除使信號內(nèi)產(chǎn)生間隙,所述間隙通過PV過程被延展。在延展之后,暫態(tài)被重新加入該信號中,并具有在適合經(jīng)延展的間隙的周邊。鑒于上述內(nèi)容,需要一種操縱包括暫態(tài)事件的音頻信號的構(gòu)思,其提供具有改進的感知質(zhì)量的輸出信號。
發(fā)明內(nèi)容
依據(jù)本發(fā)明的實施例建立了用于操縱包括暫態(tài)事件的音頻信號的裝置。該裝置包括暫態(tài)信號替換器,被配置成以適應(yīng)于音頻信號的一個或多個非暫態(tài)信號部分的信號能量特性或適應(yīng)于暫態(tài)信號部分的信號能量特性的替換信號部分,來替換該音頻信號的包括暫態(tài)事件的暫態(tài)信號部分,以獲得暫態(tài)減少音頻信號。該裝置進一步包括信號處理器,該處理器被配置成處理暫態(tài)減少音頻信號來獲得暫態(tài)減少音頻信號的經(jīng)處理版本。該裝置還包括暫態(tài)信號重新插入器,被配置成將該暫態(tài)減少音頻信號的經(jīng)處理版本與以原始或經(jīng)處理形式表示暫態(tài)信號部分的暫態(tài)內(nèi)容的暫態(tài)信號相組合。上述實施例系基于以下研究結(jié)果若暫態(tài)信號部分由替換信號部分替換,其中替換信號部分的信號能量適應(yīng)于原始音頻信號的信號能量特性,則信號處理器提供具有改進質(zhì)量的輸出信號,同時減少或消除暫態(tài)事件。該構(gòu)思避免了簡單地從音頻信號中消除暫態(tài)信號部分而導(dǎo)致的輸入信號處理器的信號的能量的較大階躍式變化,且還可避免或至少減小暫態(tài)對該信號處理器的有害影響。因此,通過移除或減少音頻信號中的暫態(tài)事件(以獲得暫態(tài)減少音頻信號),且通過限制與輸入音頻信號相比時該暫態(tài)減少音頻信號的能量變化,信號處理器接收適當?shù)妮斎胄盘?,使得其輸出信號近似不具有暫態(tài)事件的所需輸出信號。在較佳實施例中,暫態(tài)信號替換器被配置成提供替換信號部分(或暫態(tài)減少信號部分),使得與暫態(tài)信號部分相比,該替換信號部分表示具有平滑時間演進的時間信號,且使得在該替換信號部分的能量與該暫態(tài)信號部分之前或該暫態(tài)信號部分之后的音頻信號非暫態(tài)信號部分的能量之間的偏差小于預(yù)定閾值。以此方式,可以實現(xiàn)替換信號部分滿足兩個條件,即所謂的“暫態(tài)條件”及所謂的“能量條件”。暫態(tài)條件指示由時域中的階躍或波峰表示的暫態(tài)事件在替換信號部分內(nèi)的強度(或階躍高度或波峰高度)上受限制。能量條件進一步指示(該替換信號部分的)暫態(tài)減少音頻信號應(yīng)具有能譜分布的平滑時間演進。 通常,能譜分布的時間演進中的不連續(xù)性導(dǎo)致可聽見的偽像的產(chǎn)生。因此,通過限制能譜分布的這些時間不連續(xù)性,可避免可聽見的偽像,偽像可能由僅從輸入音頻信號中刪除(而不替換)暫態(tài)信號部分而產(chǎn)生。在較佳實施例中,暫態(tài)信號替換器被配置成外插暫態(tài)信號部分之前的一個或多個信號部分的振幅值,來獲得替換信號部分的振幅值。暫態(tài)信號替換器還被配置成外插暫態(tài)信號部分之前的一個或多個信號部分的相位值,來獲得替換信號部分的相位值。使用此方法,可獲得暫態(tài)減少音頻信號的平滑振幅演進。而且,該暫態(tài)減少音頻信號的不同頻譜分量的相位(通過外插)得到良好地控制,使得由暫態(tài)信號部分期間的特定相位值(與非暫態(tài)信號部分的相位值不同)特征化的暫態(tài)事件被抑制。換言之,通過外插來強加相位值,所產(chǎn)生的相位值與特征化暫態(tài)的相位值不同。外插還提供以下優(yōu)勢為執(zhí)行外插,知曉暫態(tài)信號部分之前的音頻信號部分就足夠了。但是, 自然可能進一步應(yīng)用一些輔助信息,例如外插參數(shù),來執(zhí)行外插。在另一較佳實施例中,暫態(tài)信號重新插入器(150)被配置成使該暫態(tài)減少音頻信號的經(jīng)處理版本與以原始或經(jīng)處理形式表示暫態(tài)信號部分的暫態(tài)內(nèi)容的暫態(tài)信號交叉衰落(cross-fade)。在此情況下,該暫態(tài)減少信號的經(jīng)處理版本可能是輸入音頻信號的時間延展版本。因此,可將暫態(tài)平滑地重新插入到輸入音頻信號的延展版本中。換言之,在暫態(tài)減少音頻信號的(時間)延展之后,將(經(jīng)處理或未經(jīng)處理形式的)暫態(tài)重新加入到信號中,并具有適合延展間隙的周邊。在另一較佳實施例中,暫態(tài)信號替換器被配置成在暫態(tài)信號部分之前的信號部分的振幅值與暫態(tài)信號部分之后的信號部分的振幅值之間進行內(nèi)插,以獲得替換信號部分的一個或多個振幅值。此外,暫態(tài)信號替換器被配置成在暫態(tài)信號部分之前的信號部分的相位值與暫態(tài)信號部分之后的信號部分的相位值之間進行內(nèi)插,以獲得替換信號部分的一個或多個相位值。通過執(zhí)行內(nèi)插,可以獲得振幅值及相位值兩者的尤其平滑的時間演進。相位的內(nèi)插通常還使得暫態(tài)事件的減少或消除,因為暫態(tài)通常在直接接近暫態(tài)處包括極其特定的相位分布,該相位分布通常與遠離暫態(tài)的某一間距處的相位分布不同。在較佳實施例中,暫態(tài)信號替換器被配置成施加加權(quán)噪聲(例如,適應(yīng)于音頻信號的一個或多個非暫態(tài)信號部分的信號能量特性或適應(yīng)于暫態(tài)信號部分的信號能量特性的類噪聲信號頻譜)來獲得替換信號部分的振幅值,且施加加權(quán)噪聲來獲得替換信號部分的相位值。通過施加加權(quán)噪聲,可以在保持對能量的影響足夠小的同時進一步減少暫態(tài)。在較佳實施例中,暫態(tài)信號替換器被配置成將暫態(tài)信號部分的非暫態(tài)分量與外插或內(nèi)插值相組合,來獲得替換信號部分。已發(fā)現(xiàn)的是暫態(tài)減少音頻信號(及使用信號處理器而獲得的其經(jīng)處理版本)的質(zhì)量可得到改進,若暫態(tài)信號部分的非暫態(tài)分量被維持。例如,暫態(tài)信號部分的音調(diào)分量僅可對暫態(tài)產(chǎn)生有限的影響(因為時間暫態(tài)通常由在頻率范圍內(nèi)具有特定相位分布的寬頻信號引起)。因此,暫態(tài)信號部分的音調(diào)非暫態(tài)分量可能攜帶有珍貴信息,其實際上可有利于期望的信號處理器輸出信號的產(chǎn)生。因此,通過保持這些信號部分-同時減少暫態(tài)-可有利于改良經(jīng)處理的音頻信號。在本發(fā)明的實施例中,暫態(tài)信號替換器被配置成獲得依據(jù)暫態(tài)信號部分的長度而定的可變長度的替換信號部分。已發(fā)現(xiàn)的是音頻信號質(zhì)量有時可通過使替換信號部分的長度適應(yīng)于暫態(tài)信號部分的可變長度來改進。例如,在某些信號中,暫態(tài)信號部分的持續(xù)時間可能非常短。在此情況下,可通過僅替換輸入音頻信號的相對較短部分來獲得優(yōu)化處理的音頻信號。因此,可以保持盡可能多的原始輸入音頻信號的(非暫態(tài))信息。此外,通過保持替換信號部分較短(依據(jù)暫態(tài)信號部分的長度),在很多情況下可避免后續(xù)替換信號部分的交疊。因此,在大多數(shù)情況下,可以實現(xiàn)在兩個后續(xù)替換信號部分之間有原始非暫態(tài)信號部分。因此,能足夠精確地產(chǎn)生經(jīng)處理的音頻信號,并保持盡可能多的原始輸入音頻信號的(非暫態(tài))信息。在較佳實施例中,信號處理器被配置成處理暫態(tài)減少音頻信號,使得該暫態(tài)減少音頻信號的經(jīng)處理版本的給定時間信號部分依據(jù)該暫態(tài)減少音頻信號的多個時間上非交疊時間信號部分而定。換言之,較佳的是在產(chǎn)生暫態(tài)減少音頻信號的經(jīng)處理版本的信號部分時該信號處理器包括時間存儲器。使用存儲器的信號處理允許對暫態(tài)減少音頻信號進行逐塊處理,或允許對暫態(tài)減少音頻信號進行時間濾波(例如HR濾波,或UR濾波)。還發(fā)現(xiàn),替換暫態(tài)信號部分的本發(fā)明構(gòu)思非常適于與此信號處理器協(xié)同工作。盡管暫態(tài)通常會對所描述的執(zhí)行逐塊處理或具有時間存儲器的信號處理器產(chǎn)生明顯的負面影響,但是本發(fā)明的替換信號部分使暫態(tài)的該有害影響減小。盡管暫態(tài)通常會對信號處理器所提供的多個信號部分產(chǎn)生影響-延伸超出暫態(tài)信號部分的時間限度-但是本發(fā)明構(gòu)思減小或甚至消除暫態(tài)的有害影響。通過保持暫態(tài)減少信號能量的平滑時間演進,可以使任何劣化都足夠平滑。例如,(信號處理器的逐塊處理的)塊(例如,除了原始非暫態(tài)信號部分之外還)包括替換信號部分,該塊未嚴重劣化,因為替換信號部分的能量適應(yīng)于該塊的其余部分。因此, 從整體來看,塊僅受暫態(tài)事件消除或減少的輕微影響。而且,由于替換信號部分的使用,使會受暫態(tài)事件且還受暫態(tài)信號部分的(例如,以強制歸零形式的)完全移除的負面影響的時間濾波幾乎不受暫態(tài)移除(或減少)的影響。在較佳實施例中,信號處理器被配置成執(zhí)行對暫態(tài)減少音頻信號的基于時間塊的處理來獲得該暫態(tài)減少音頻信號的經(jīng)處理版本。暫態(tài)信號替換器還被配置成利用比時間塊的持續(xù)時間精細的時間分辨率,來調(diào)整要由替換信號部分替換的信號部分的持續(xù)時間,或以持續(xù)時間小于該時間塊的持續(xù)時間的替換信號部分來替換持續(xù)時間小于該時間塊的持續(xù)時間的暫態(tài)信號部分。因此,本文所提出的替換允許對音頻信號進行低失真處理,即使被移除的暫態(tài)部分的長度與時間塊的長度不同。
在較佳實施例中,信號處理器被配置成以頻率相關(guān)方式來處理暫態(tài)減少音頻信號,使得該處理將暫態(tài)劣化頻率相關(guān)相位偏移引入到暫態(tài)減少音頻信號中。但是,甚至此暫態(tài)劣化信號處理也不會對經(jīng)處理的音頻信號產(chǎn)生明顯的有害影響,因為通常與暫態(tài)減少音頻信號的處理相分離地處理暫態(tài)。因此,盡管暫態(tài)劣化信號處理算法可應(yīng)用于信號處理器, 但是使用對暫態(tài)的分別處理且在該處理的稍后階段使用暫態(tài)的重新插入,可以保持暫態(tài)的質(zhì)量。在較佳實施例中,暫態(tài)信號替換器包括暫態(tài)檢測器,其中該暫態(tài)檢測器被配置成提供時變檢測閾值以用于音頻信號中的暫態(tài)檢測,使得該檢測閾值以可調(diào)整平滑時間常數(shù)遵循音頻信號包絡(luò)。該暫態(tài)檢測器被配置成響應(yīng)于暫態(tài)的檢測及/或依據(jù)音頻信號的時間演進,來改變該平滑時間常數(shù)。通過使用此暫態(tài)檢測器,可以檢測不同強度的暫態(tài),即使暫態(tài)在時間上間隔很緊密。例如,本發(fā)明構(gòu)思允許對弱暫態(tài)進行檢測,即使該弱暫態(tài)緊緊跟隨先前的較強暫態(tài)。因此,針對暫態(tài)替換的暫態(tài)檢測可以可靠且精確的方式來執(zhí)行。在較佳實施例中,該裝置包括暫態(tài)處理器,被配置成接收表示暫態(tài)信號部分的暫態(tài)內(nèi)容的暫態(tài)信息。在此情況下,暫態(tài)處理器可被配置成基于暫態(tài)信息獲得經(jīng)處理的暫態(tài)信號,在該經(jīng)處理的暫態(tài)信號中音調(diào)分量減少。暫態(tài)信號重新插入器可被配置成將暫態(tài)減少音頻信號的經(jīng)處理版本與暫態(tài)處理器所提供的經(jīng)處理的暫態(tài)信號相組合。因此,可以執(zhí)行暫態(tài)減少音頻信號及輸入音頻信號的暫態(tài)分量(由暫態(tài)信息來表示)的分離的處理,使得不同信號部分的隨后的組合得到恰當?shù)目傒敵鲂盘?。暫態(tài)信號部分中的已經(jīng)“主”信號處理器處理的這些信號分量(例如,音調(diào)信號分量)不需要包括在暫態(tài)的分別處理中。因此,可以恰當?shù)毓蚕頃簯B(tài)信號部分的音頻分量的處理。依據(jù)本發(fā)明的其他實施例建立了用于操縱包括暫態(tài)事件的音頻信號的方法及計算機程序。
下面參照附圖描述依據(jù)本發(fā)明的實施例,附圖中圖1示出了依據(jù)本發(fā)明實施例的用于操縱包括暫態(tài)事件的音頻信號的裝置的方塊示意圖;圖2示出了依據(jù)本發(fā)明實施例的暫態(tài)信號替換器的方塊示意圖;圖3a_3c示出了依據(jù)本發(fā)明實施例的信號處理器的方塊示意圖;圖4示出了依據(jù)本發(fā)明實施例的暫態(tài)信號重新插入器的方塊示意圖;圖fe示出了圖1的信號處理器中使用的語音編碼器的實現(xiàn)方式的概覽;圖恥示出了圖1的信號處理器的部分(分析)的實現(xiàn)方式;圖5c說明圖1的信號處理器的其他部分(延展);圖6說明圖1的信號處理器中使用的相位語音編碼器的變換實現(xiàn)方式;圖7示出了相位語音編碼算法的操作示意圖,其中合成跳距與分析跳距不同,例如,以因子2相差;圖8示出了音頻信號的振幅的時間演進的圖形表示;圖9示出了圖1裝置中的信號處理的時序的圖形表示;圖10示出了可能在依據(jù)圖1的裝置中出現(xiàn)的信號的圖形表示;
圖11示出了可能在依據(jù)圖1的裝置中出現(xiàn)的信號的另一圖形表示;圖12示出了依據(jù)本發(fā)明實施例的用于操縱音頻信號的方法的流程圖;圖13示出了依據(jù)本發(fā)明的實施例的暫態(tài)移除及內(nèi)插的圖形表示;圖14示出了依據(jù)本發(fā)明實施例的時間延展及暫態(tài)重新插入的圖形表示;圖15示出了在利用相位語音編碼器的時間延展應(yīng)用中本發(fā)明的暫態(tài)處理的不同步驟中出現(xiàn)的信號波形的圖形表示;以及圖16示出了在時間延展的不同步驟出現(xiàn)的信號的圖形表示。
具體實施例方式在下文中,將描述依據(jù)本發(fā)明的一些實施例。用于操縱包括暫態(tài)事件的音頻信號的裝置的第一實施例將參見圖1,圖1示出了第一實施例的概覽,還可參見圖2、3a至3c、4、 fe、5b、5c、6及7來描述,這些圖示出了第一實施例的組件及相位語音編碼器的操作(圖7) 的細節(jié)。暫態(tài)信號在第圖8中示出,且其處理在圖9至11中說明。圖12示出了相對應(yīng)的方法的流程圖。隨后,參見圖13至17,描述用于操縱包括暫態(tài)事件的音頻信號的裝置的第二實施例的操作。依據(jù)圖1的實施例依據(jù)本發(fā)明的實施例,圖1示出了用于操縱包括暫態(tài)事件的音頻信號的裝置的方塊示意圖。在圖1中所示出的該裝置整體由100表示。裝置100被配置成接收包括暫態(tài)事件的音頻信號110被配置成在其基礎(chǔ)上提供具有未經(jīng)處理的“自然”或合成暫態(tài)的經(jīng)處理的音頻信號120。裝置100包括暫態(tài)信號替換器130,該暫態(tài)信號替換器130被配置成用適應(yīng)于該音頻信號的一個或多個非暫態(tài)信號部分的信號能量特性或適應(yīng)于該暫態(tài)信號部分的信號能量特性的替換信號部分,來替換包括音頻信號110的暫態(tài)事件的暫態(tài)信號部分, 以獲得暫態(tài)減少音頻信號132??蛇x地,替換信號部分的相位特性可適應(yīng)于音頻信號的一個或多個非暫態(tài)信號部分的相位特性。裝置100進一步包括信號處理器140,該信號處理器140被配置成處理暫態(tài)減少音頻信號132來獲得該暫態(tài)減少音頻信號的經(jīng)處理版本142。 裝置100進一步包括暫態(tài)信號重新插入器150,該暫態(tài)信號重新插入器150被配置成將暫態(tài)減少音頻信號的經(jīng)處理版本142與暫態(tài)信號152相組合,以獲得具有未經(jīng)處理的“自然”或合成暫態(tài)的經(jīng)處理的音頻信號120。該暫態(tài)信號152可以以原始或經(jīng)處理的形式來表示暫態(tài)信號部分的暫態(tài)內(nèi)容,該暫態(tài)信號部分已被暫態(tài)信號替換器130替換為替換信號部分。暫態(tài)信號替換器130可進一步可選地提供暫態(tài)信息134,該暫態(tài)信息134表示(在暫態(tài)減少音頻信號132中由替換信號部分所替換的)暫態(tài)信號部分的暫態(tài)內(nèi)容。因此,暫態(tài)信息134可用來“保存”音頻信號110的暫態(tài)內(nèi)容,暫態(tài)內(nèi)容在暫態(tài)減少音頻信號132中被減少或甚至完全被抑制。暫態(tài)信息134可被直接轉(zhuǎn)送至?xí)簯B(tài)信號重新插入器150以作為暫態(tài)信號152。但是,裝置100可進一步包括可選的暫態(tài)處理器160,暫態(tài)處理器160被配置成處理暫態(tài)信息134,來從中導(dǎo)出暫態(tài)信號152。例如,暫態(tài)處理器160可被配置成執(zhí)行暫態(tài)頻率轉(zhuǎn)換、暫態(tài)頻率偏移、或暫態(tài)合成。裝置100可進一步可選地包括信號調(diào)節(jié)器170,該信號調(diào)節(jié)器170被配置成調(diào)節(jié)經(jīng)處理的音頻信號120,來獲得用于再現(xiàn)的經(jīng)調(diào)節(jié)的音頻信號。
關(guān)于裝置100的功能,大體上來說該裝置100允許分離地處理音頻信號110的非暫態(tài)音頻內(nèi)容(由暫態(tài)減少音頻信號132來表示)及音頻信號110的暫態(tài)音頻內(nèi)容(由暫態(tài)信息134來表示)。暫態(tài)事件在暫態(tài)減少音頻信號132中被減少或甚至被抑制,使得信號處理器140可執(zhí)行會使暫態(tài)事件劣化和/或會受暫態(tài)事件的有害影響的信號處理。但是,通過以能量適應(yīng)的替換信號部分來替換暫態(tài)信號部分,暫態(tài)信號替換器130用來避免聽得見的偽像,若簡單地將暫態(tài)信號部分設(shè)定成零,則所述聽得見的偽像會由信號處理器140引入。恰當?shù)穆犛X效果還可通過使用暫態(tài)信號重新插入器150重新插入暫態(tài)來獲得。當然,若簡單消除暫態(tài)事件,則聽覺效果通常會嚴重劣化?;诖嗽颍瑫簯B(tài)被重新插入到經(jīng)處理的音頻信號142中。重新插入的暫態(tài)可與由暫態(tài)信號替換器130從音頻信號110中移除的暫態(tài)相同??蛇x擇地,對被移除的(或經(jīng)替換的)暫態(tài)的處理例如可以以頻率轉(zhuǎn)換或頻率偏移的形式來執(zhí)行。但是,在某些實施例中,重新插入的暫態(tài)甚至可被合成產(chǎn)生,例如在描述要被重新插入的暫態(tài)的時間及強度的暫態(tài)參數(shù)的基礎(chǔ)上。晳杰信號替換器細節(jié)在下文中,參見圖2,描述暫態(tài)信號替換器130的功能,其中圖2示出了暫態(tài)信號替換器130的實施例的方塊示意圖。暫態(tài)信號替換器130接收音頻信號110且在其基礎(chǔ)上提供暫態(tài)減少音頻信號132。為了達到此目的,暫態(tài)信號替換器130例如可包括暫態(tài)檢測器130a,暫態(tài)檢測器 130a被配置成檢測暫態(tài)且提供關(guān)于暫態(tài)的時序的信息。例如,暫態(tài)檢測器130a可提供信息130b,該信息130b描述暫態(tài)信號部分的開始時間及結(jié)束時間。關(guān)于暫態(tài)檢測的不同構(gòu)思是所屬領(lǐng)域中常規(guī)的,此處將省略詳細描述。但是,在某些情況下,暫態(tài)檢測器130a可被配置成區(qū)分不同長度的暫態(tài),使得識別出的暫態(tài)信號部分的長度可依據(jù)實際的信號形狀而變化??蛇x擇地,暫態(tài)信號替換器可包括輔助信息提取器130c,例如,如果描述暫態(tài)的時序的輔助信息與音頻信號110相關(guān)聯(lián)。在此情況下,暫態(tài)檢測器130a自然可被省略。輔助信息提取器130c可進一步可選地被配置成在與音頻信號110相關(guān)聯(lián)的輔助信息基礎(chǔ)上,提供一個或多個內(nèi)插參數(shù)、外插參數(shù)和/或替換參數(shù)。暫態(tài)替換器130進一步包括暫態(tài)部分替換器130d,例如,暫態(tài)部分內(nèi)插器或暫態(tài)部分外插器。暫態(tài)部分替換器130d被配置成接收音頻信號110和(由暫態(tài)檢測器130a或輔助信息提取器130c提供的)暫態(tài)時間信息 130b,且以替換信號部分來替換音頻信號110的暫態(tài)部分。在下文中,將描述關(guān)于檢測及替換(或移除)暫態(tài)的細節(jié)。尤其是將詳細討論暫態(tài)移除的不同方法。暫態(tài)(例如樂器的起音點(onset)或打擊式信號)大體上可描述為一短時間隔, 在此間隔期間,信號以不可預(yù)測的方式快速發(fā)展。例如,可通過評估音頻信號110的時域表示來檢測暫態(tài)(使用暫態(tài)檢測器130a)。若音頻信號110的時域表示超過閾值(可以是時變的),則可指示暫態(tài)事件的存在。包括該暫態(tài)事件的時間區(qū)域可被視為暫態(tài)信號部分,且可通過暫態(tài)時間信息130b來描述。因為這些信號部分(即暫態(tài),或信號以不可預(yù)測的方式快速發(fā)展的時間間隔,)理想地不在時間上延展,在時間延展(可通過信號處理器140來執(zhí)行)之前從信號中移除“暫態(tài)時間段”是有利的。抑制可在被視為“非穩(wěn)態(tài)”的整個時間段期間發(fā)生。對于打擊樂器而言,此時間段大部分由整個聲音事件(例如單一的腳踏鈸(HiHat)擊打)組成。對于樂器的起音點,所謂的ADSR(起音衰減延持釋音)包絡(luò)可用來說明暫態(tài)時間段。圖8示出了信號振幅的時間演進的圖形表示800。橫座標810描述時間,且縱座標812描述振幅。曲線814描述該振幅的時間演進。從圖8可以看出,該振幅的時間演進包括起音間隔、衰減間隔、延持間隔及釋音間隔。例如,起音間隔及衰減間隔可被視為“暫態(tài)區(qū)域”或暫態(tài)信號部分。但是,已發(fā)現(xiàn)的是對于進一步的信號處理(例如,在信號處理器140中)而言,由暫態(tài)抑制引起的音頻信號中的間隙應(yīng)被填充,使得在聽到經(jīng)處理的信號(=合成信號)(例如,使用信號處理器140處理)時,聽上去感覺是不具有破裂性暫停及振幅調(diào)制的連續(xù)的暫態(tài)自由信號。對于本文所描述的應(yīng)用的特定情況而言,較佳的是抑制合成信號中(例如,提供給信號處理器140的信號132中,或從而在由信號處理器140提供的信號142中)的原始信號(例如,信號110)的所有暫態(tài)部分,而音調(diào)部分及非暫態(tài)噪聲分量繼續(xù)存在。關(guān)于此方面,已經(jīng)存在有各種方法來解決,但是其目標絕不是得到高質(zhì)量暫態(tài)調(diào)整(或暫態(tài)清除)信號。關(guān)于此問題,可參照刊物,例如[Edler]。關(guān)于暫態(tài)檢測方法的效率及分解為各種分量,例如“暫態(tài)+噪聲”,下述結(jié)論可分別從專業(yè)刊物[Bello]及[Daudet]中得出,所述刊物極好地概覽了常見的方法這些方法無一明顯優(yōu)于其他方法;選擇應(yīng)由各自的應(yīng)用及可用的計算能力來控制。由此可見對特定的檢測及分解方法的選擇可顯著地影響本發(fā)明的方法的結(jié)果。對于本領(lǐng)域技術(shù)人員,可以容易應(yīng)用任何各種已知的方法以提供可能的最佳條件給各自的應(yīng)用情景。暫態(tài)部分替換的構(gòu)思某些應(yīng)用情景關(guān)于產(chǎn)生信號部分,所述信號部分不需要通過用參考信號來驗證以評估為“對”或“錯”,而僅以它們總體良好的聲音為基礎(chǔ)來評估。此意味著依據(jù)本發(fā)明的實施例不限于分離所述部分且不限于省略暫態(tài)分量,而是可自身產(chǎn)生具有特定特性的合成信號。因此,合成信號產(chǎn)生(例如,由暫態(tài)信號替換器130d產(chǎn)生暫態(tài)減少信132)可以是暫態(tài)時間段期間信號分解和信號產(chǎn)生(從假定信號的內(nèi)插和/或外插的意義上說)的組合。原始信號的非暫態(tài)分量可與內(nèi)插/外插的分量混合,或可將其替換。在依據(jù)本發(fā)明的些實施例中,外插可以等同于使用過去值的合成信號產(chǎn)生。因此, 外插能夠?qū)崟r地執(zhí)行。相反,在一些實施例中,內(nèi)插可等同于使用先前值和后續(xù)值的合成信號產(chǎn)生。因此,在某些情況下,內(nèi)插可能需要預(yù)測(look-ahead)。為了總結(jié)上述內(nèi)容,不同的構(gòu)思可應(yīng)用到暫態(tài)部分替換器130d以獲得暫態(tài)減少音頻信號132。例如,暫態(tài)部分替換器130d可配置為從音頻信號110中減少暫態(tài)分量,來獲得暫態(tài)減少音頻信號。在此情況下,暫態(tài)部分替換器130d可配置為確保在代替暫態(tài)信號部分的替換信號部分中保持足夠的能量。例如,可從音頻信號110中移除包括暫態(tài)相位特性的頻率分量,而其他不包括暫態(tài)相位特性的頻率分量(例如音調(diào)頻率分量)可從暫態(tài)信號部分獲取到替換信號部分中。因此,可確保替換信號部分包括足夠的信號能量,該信號能量不是嚴重偏離先前及后續(xù)信號部分的信號能量。備選地,暫態(tài)部分替換器130d可配置為通過破壞暫態(tài)信號部分中的暫態(tài)成形相位關(guān)系來獲得替換信號部分。例如,暫態(tài)部分替換器可配置為使暫態(tài)信號部分的不同頻率分量的相位隨機化或(確定性地)對其進行調(diào)整。因此,以此方式獲得的替換信號部分可包括與暫態(tài)信號部分(至少近似)相同的能量(因為頻率分量的相位修改不會改變能量)。 但是,替換信號部分所描述的時間信號的暫態(tài)成形時間演進可能消失,因為暫態(tài)時間演進是基于不同頻率分量的特定相位關(guān)系的,而該特定相位關(guān)系已被破壞。但是,可選擇地,暫態(tài)部分替換器130d可根據(jù)暫態(tài)信號部分之前的非暫態(tài)信號部分進行內(nèi)插,例如,內(nèi)插不同頻帶中能量的時間演進。因此,替換信號部分的內(nèi)容可僅基于暫態(tài)信號部分之前的非暫態(tài)信號部分的內(nèi)容的外插。因此,暫態(tài)信號部分的內(nèi)容可被完全忽略。但是,可選擇地,使用暫態(tài)部分替換器130d通過在暫態(tài)信號部分之前的非暫態(tài)信號部分的內(nèi)容與暫態(tài)信號部分之后的非暫態(tài)信號部分的內(nèi)容之間進行內(nèi)插,可獲得替換信號部分的內(nèi)容。暫態(tài)信號部分的內(nèi)容可同樣被完全忽略。內(nèi)插例如在時頻域中執(zhí)行。但是,可選擇地,上述方法的組合可用于獲得替換信號部分的內(nèi)容。例如,暫態(tài)信號部分的非暫態(tài)內(nèi)容(例如通過移除暫態(tài)內(nèi)容或通過破壞暫態(tài)成形相位關(guān)系而提取的)可與通過內(nèi)插或外插一個或多個暫態(tài)信號部分而獲得的音頻信號內(nèi)容相組合。作為另一范例,暫態(tài)信號部分中的暫態(tài)成形相位關(guān)系可被破壞且暫態(tài)信號部分的能量可被調(diào)整,以適應(yīng)于相鄰的非暫態(tài)信號部分的能量。鑒于以上內(nèi)容,可以說替換信號部分僅在非暫態(tài)信號部分(例如,在該暫態(tài)信號部分之前和/或在該暫態(tài)部分之后)的基礎(chǔ)上合成(而不使用暫態(tài)信號部分的內(nèi)容),或僅在暫態(tài)信號部分的基礎(chǔ)上合成,或在一個或多個非暫態(tài)信號部分及暫態(tài)信號部分的組合的基礎(chǔ)上合成。在下文中,描述關(guān)于暫態(tài)減少音頻信號132的產(chǎn)生的其他構(gòu)思,其方面可應(yīng)用于本文描述的任何實施例中。關(guān)于檢測及替代過程,可參見WO 2007/118533,其全部內(nèi)容在此并入本文以為參考資料。WO 2007/118533 Al描述用于周圍區(qū)域信號的產(chǎn)生的裝置和方法。該文獻描述暫態(tài)檢測器,該暫態(tài)檢測器被提供以檢測暫態(tài)時間段。在WO 2007/118533 Al中描述的暫態(tài)檢測器可例如用于實施(或替換)本文描述的暫態(tài)檢測器130a。該公開進一步描述合成信號產(chǎn)生器,其產(chǎn)生滿足暫態(tài)條件及連續(xù)條件的合成信號。例如在WO 2007/118533 Al中描述的合成產(chǎn)生器可用于實施暫態(tài)部分替換器130d,或甚至可代替暫態(tài)部分替換器130d。因此,在WO 2007/118533 Al中描述的關(guān)于合成信號產(chǎn)生的構(gòu)思可用于本發(fā)明的一些實施例中的暫態(tài)減少音頻信號132的產(chǎn)生。關(guān)于晳杰減小、咅步耐言號的產(chǎn)牛的 他^!周、-擴展這里描述的應(yīng)用中(在維持良好的聽覺效果的同時處理包括暫態(tài)的信號),產(chǎn)生的信號的高音頻質(zhì)量實質(zhì)上比在WO 2007/118533的應(yīng)用(周圍信號產(chǎn)生)中更加關(guān)鍵,WO 2007/118533中描述的方法通過一些步驟被擴展,以改進音頻信號質(zhì)量。
例如,除了振幅外插之外,依據(jù)本發(fā)明的實施例還可包括外插或內(nèi)插相位值,以獲得具有改進質(zhì)量且沒有暫態(tài)部分的合成信號。例如,使用線性預(yù)測或線性預(yù)測編碼(LPC)來執(zhí)行外插或內(nèi)插,或線性地和/或以樣條或類似物+加權(quán)噪聲,來執(zhí)行外插或內(nèi)插。在一些實施例中,上述暫態(tài)減少音頻信號132的產(chǎn)生在與相位語音編碼器組合使用時可能尤其有利,該相位語音編碼器可以是信號處理器140的一部分,或可構(gòu)成信號處理器140。在一些實施例中,利用相位語音編碼器的性質(zhì),該性質(zhì)通常被視為一大問題[8], 這在于在暫態(tài)期間不存在與先前幀的可預(yù)測的關(guān)系。在一些實施例中,正是利用這一事實來抑制暫態(tài),因為通過迫使與先前段(bin)建立關(guān)系來抹除暫態(tài)。換言之,對描述替換信號部分(例如,呈復(fù)數(shù)形式)的不同時間-頻率分段的不同系數(shù)的相位進行調(diào)整,例如,通過從(先前的非暫態(tài)信號部分的)先前時間-頻率分段開始進行外插,或在先前的非暫態(tài)信號部分的相對應(yīng)的時間-頻率分段與隨后的非暫態(tài)信號部分的相對應(yīng)的時間-頻率分段之間進行內(nèi)插。在刊物[Maher]中,描述了可比較的內(nèi)插方法。在[Maher]中呈現(xiàn)的該方法不能實時地執(zhí)行,因為還需要跟隨在信號間隙后之的部分。除此之外,[Maher]僅描述對音頻信號中的“峰”的處理(相比之下,依據(jù)本發(fā)明的一些實施例處理所有頻率線),且噪聲分量也未被明確處理。換言之,在一些實施例中,在[Maher]中描述的關(guān)于音頻信號中的間隙的橋接的構(gòu)思可與本申請一起應(yīng)用,以在原始輸入音頻信號110基礎(chǔ)上獲得暫態(tài)減少音頻信號132。被識別為暫態(tài)信號部分的一部分可使用[Maher]中描述的方法來替換,而不是橋接音頻信號的“丟失”部分。但是,可針對每個頻率分段獨立執(zhí)行內(nèi)插/外插??蛇x地,可 (例如,分離地)內(nèi)插振幅和相位。暫態(tài)檢測器130a在下文中,描述關(guān)于暫態(tài)檢測器130a —些細節(jié)。但是,應(yīng)指出的是,可以使用暫態(tài)檢測器130a的許多不同的實現(xiàn)方式,使得下述細節(jié)應(yīng)被視為有利實現(xiàn)方式的范例。在一些實施例中,自適應(yīng)閾值優(yōu)選地用于識別暫態(tài)時間段。通常,自適應(yīng)閾值是檢測函數(shù)的平滑版本,檢測函數(shù)可引起大波動且進而不能檢測到大波峰附近的小波峰。詳情可參照刊物 [Bello]。例如,通過依據(jù)當前檢測到的狀況(暫態(tài)區(qū)/非暫態(tài)區(qū))且依據(jù)檢測函數(shù)的發(fā)展 (例如,起音、衰減),進行平滑常數(shù)的適當適配,來解決該問題,。下面給出關(guān)于上文所提到的方面的一些參考文獻[Edler]、[Bello]、[Goodwin]、 [ffalther]、 [Maher]、 [Daudet]。暫態(tài)部分提取器130e除了上述功能之外,暫態(tài)信號替換器130可進一步包括暫態(tài)部分提取器130e,該暫態(tài)部分提取器130e可配置為接收音頻信號110 (或至少其暫態(tài)信號部分),且提供暫態(tài)信息134。暫態(tài)部分提取器130e可配置為提供任何可能形式的暫態(tài)信息134,例如暫態(tài)信號部分時間信號的形式,暫態(tài)信號部分時間頻率域表示的形式,或暫態(tài)參數(shù)(例如,暫態(tài)時間信息和/或暫態(tài)強度信息和/或暫態(tài)陡度信息和/或任何其他恰當?shù)臅簯B(tài)信息)的形式。特別地,暫態(tài)部分提取器130e可配置為僅針對從音頻信號110中移除的信號部分來提供暫態(tài)信息134,以獲得暫態(tài)減少音頻信號132,從而保持數(shù)據(jù)速率較小。信號處理器140的備選實現(xiàn)方式-概覽在下文中,將描述信號處理器140的實現(xiàn)方式的不同基本構(gòu)思。圖3a說明圖1的信號處理器140的較佳實現(xiàn)方式。此實現(xiàn)方式包括頻率選擇性分析器310及隨后連接的頻率選擇性處理裝置312,該頻率選擇性處理裝置312被實施為,使得其對原始音頻信號的 “垂直相干性”產(chǎn)生負面影響。此頻率選擇性處理的范例是信號在時間上的延展或信號在時間上的縮短,其中此延展或縮短動作以頻率選擇性方式應(yīng)用,使得例如該處理動作將相位偏移引入經(jīng)處理的音頻信號中,對于不同的頻帶所述相位偏移是不同的。例如相位偏移可被引入,使得暫態(tài)被劣化。圖3a所示的信號處理器140可進一步可選地包括頻率組合器 314,該頻率組合器314被配置成將由頻率選擇性處理312提供的經(jīng)處理的音頻信號的不同的頻率分量組合成單一信號(例如,時域信號)??蓪簯B(tài)減少音頻信號132分為多個頻率分量(例如,復(fù)值頻譜系數(shù))的頻率選擇性分析器310、以及可配置為在不同頻帶的多個復(fù)值頻譜系數(shù)基礎(chǔ)上獲得經(jīng)處理的音頻信號142的時域表示的頻率組合器314均可被配置為執(zhí)行逐塊處理。例如,頻率選擇性分析器310可處理(例如,窗口化的)音頻信號132采樣塊,以獲得表示該音頻信號采樣塊的音頻內(nèi)容的一組復(fù)值頻譜系數(shù)。相似地,可選的頻率組合器314可接收一組復(fù)值系數(shù)(例如,分別針對多個頻帶中的每一個頻帶),且在其基礎(chǔ)上提供包括多個時域采樣的有限時間間隔范圍內(nèi)的時域表示。另一較佳信號處理在圖北中相位語音編碼器處理上下文中說明。一般說來,相位語音編碼器包括子帶/變換分析器320、隨后連接的處理器322、以及隨后的子帶/變換組合器324,處理器322用于執(zhí)行對分析器320提供的多個輸出信號的頻率選擇性處理,該子帶/變換組合器3M將處理器322所處理的信號組合,以在輸出3 處最終獲得時域中的經(jīng)處理的信號142。此外,時域中的經(jīng)處理的信號142對于低通濾波信號而言是全帶寬信號,只要經(jīng)處理的信號142的帶寬大于由項目322及3M之間的單一分支表示的帶寬,這是因為子帶/變換組合器3M執(zhí)行頻率選擇性信號的組合。關(guān)于相位語音編碼器的進一步的細節(jié)將在下文結(jié)合圖fe、5b、5c及6討論。圖3c示出了信號處理器140的另一可能實現(xiàn)方式??梢钥闯?,在一些實施例中, 甚至可在時域中處理暫態(tài)減少音頻信號132。通常,時域處理330可包括存儲器,使得信號 132中的暫態(tài)對經(jīng)處理的音頻信號142產(chǎn)生長期影響。在某些情況下,暫態(tài)減少音頻信號 132會在經(jīng)處理的音頻信號142中引起暫態(tài)響應(yīng),該暫態(tài)響應(yīng)明顯比暫態(tài)持續(xù)時間(或暫態(tài)信號部分的持續(xù)時間)長(例如,延長了 1倍,或甚至延長了 4倍,或甚至延長了 9倍)。 在此情況下,例如通過產(chǎn)生可聽見的回音,音頻信號132中的暫態(tài)會以不希望的方式將經(jīng)處理的音頻信號142顯著劣化。而且,暫態(tài)信號部分的完全刪除也會對經(jīng)處理的音頻信號 142產(chǎn)生長期影響,因為暫態(tài)信號部分的完全刪除本身導(dǎo)致暫態(tài)產(chǎn)生。吾咅編碼器言號處理器的實現(xiàn),方式-^M^ffl^^Tf^在下文中,參見圖5及6,說明語音編碼器的較佳實施例,其可用于信號處理器140 的實現(xiàn)或可以是信號處理器140的一部分。圖fe示出了相位語音編碼器的濾波器組實現(xiàn)方式,其中輸入音頻信號(例如,暫態(tài)減少音頻信號13 在輸入500處饋入,經(jīng)處理的音頻信號(例如,經(jīng)處理的音頻信號14 在輸出510處獲得。特別地,圖fe所說明的示意性濾波器組的每一通道包括帶通濾波器501及下游的振蕩器502。來自每個通道的所有振蕩器的輸出信號被組合器組合,以在輸出510處獲得輸出信號,該組合器例如作為加法器實現(xiàn)且在503處被標示。每一濾波器501被實施為使得其一方面提供振幅信號而另一方面提供頻率信號。該振幅信號及該頻率信號是說明了濾波器501中振幅隨時間的發(fā)展的時間信號, 而該頻率信號表示濾波器501所濾波的信號的頻率的發(fā)展。濾波器501的示意性設(shè)置在圖恥中說明。圖fe的每一濾波器501可如圖恥中所示那樣設(shè)置,但是,其中只有供給兩個輸入混合器551以及加法器552的頻率^對于每個通道是不同的?;旌掀鬏敵鲂盘柧?jīng)低通濾波器553低通濾波,其中低通信號是不同,因為它們由相位相差90°的局部振蕩器信號產(chǎn)生。上部低通濾波器553提供正交信號554,而下部濾波器553提供同相信號555。此二信號即I和Q,被供給坐標變換器556,該坐標變換器556依據(jù)矩形表示產(chǎn)生幅度相位表示。圖fe的幅度信號或振幅信號隨著時間分別在輸出557處輸出。相位信號提供給相位展開器558。在該元件558的輸出處,不再有始終在0 與360°之間的相位值存在,而是出現(xiàn)線性增加的相位值。此“展開的”相位值提供給相位 /頻率轉(zhuǎn)換器559,該相位/頻率轉(zhuǎn)換器559例如可作為簡單的相位差形成器來實現(xiàn),其從在當前時間點處的相位中減去先前時間點處的相位,以獲得當前時間點的頻率值。該頻率值與濾波通道i的恒定頻率值相加,以在輸出560處獲得時變頻率值。在輸出560處的頻率值具有直流分量=f”以及交流分量=濾波通道中的信號的當前頻率偏離平均頻率& 的頻率偏差。因此,如圖如及恥中所說明的,相位語音編碼器實現(xiàn)了頻譜信息與時間信息的分離。頻譜信息在特殊通道中或在頻率fi中,頻率fi提供每一通道的頻率的直流部分,而時間信息相應(yīng)地包括于隨時間而變的頻率偏差或幅度中。圖5c示出了可在圖fe中以虛線所標出的語音編碼器的位置處在語音編碼器中執(zhí)行的操縱。對于時間縮放,例如,每一通道中的振幅信號A(t)或每一信號中信號f(t)的頻率可分別被抽取或內(nèi)插。因為對本發(fā)明有用,所以為了達到轉(zhuǎn)換的目的,內(nèi)插(即信號A(t)及 f(t)的時間延伸或擴展)被執(zhí)行以獲得擴展信號A’ (t)及f’(t),其中該內(nèi)插由擴展因數(shù)來控制。通過相位變量的內(nèi)插,即在由加法器552加上恒定頻率之前的值的內(nèi)插,圖fe中每一單獨振蕩器502的頻率不改變。但是,總體音頻信號的時間變化變慢,即慢了一半。結(jié)果得到時間上擴展的具有原始音高(即具有其諧波的原始基波)的音調(diào)。對于頻率轉(zhuǎn)換,可使用下面的構(gòu)想。通過執(zhí)行圖5c中說明的信號處理,其中此處理在圖fe中的每個濾波頻帶通道中執(zhí)行,且通過在抽取器中對產(chǎn)生的時間信號進行抽取, 音頻信號可收縮回到其原始持續(xù)時間而同時所有頻率加倍。這得到因數(shù)為2的音高轉(zhuǎn)換, 但是,其中獲得的音頻信號具有與原始音頻信號相同的長度,即相同數(shù)目的采樣。吾咅編碼器言號處理器的實現(xiàn),方式-轉(zhuǎn)換實現(xiàn)方式作為圖fe中說明的濾波器組實現(xiàn)方式的替代方案,相位語音編碼器的轉(zhuǎn)換實現(xiàn)方式還可如圖6所述那樣來使用。此處,音頻信號132饋入FFT (快速傅立葉變換)處理器中,或更一般地,饋入短時傅立葉變換處理器600中,作為時間采樣序列。FFT處理器600在圖6中示意性地實施為對音頻信號執(zhí)行時間加窗,以便接著通過FFT來計算頻譜的幅度和相位,其中此計算針對與音頻信號的嚴重交疊的多個塊有關(guān)的連續(xù)頻譜來執(zhí)行。在極端情況下,針對每個新音頻信號采樣,可以計算新頻譜,其中還可例如僅針對每第二十個新采樣來計算新頻譜。兩頻譜之間的采樣中的該距離a較佳地由控制器602給定??刂破?02進一步實施以向IFFT (快速傅立葉逆變換)處理器604提供輸入(feed),該IFFT處理器604實施為以交疊操作來操作。特別地,IFFT處理器604被實施使得其通過基于修改的頻譜的幅度及相位,來每頻譜執(zhí)行一個IFFT,來執(zhí)行短時傅立葉逆變換,以便接著執(zhí)行交疊相加操作,從中獲得產(chǎn)生的時間信號。該交疊相加操作消除了分析窗的影響。時間信號的擴展通過兩頻譜(當這兩個頻譜經(jīng)IFFT處理器604處理時)之間的距離b大于在FFT頻譜產(chǎn)生中的所述頻譜之間的距離a來實現(xiàn)?;鞠敕ㄊ呛唵蔚赝ㄟ^與分析FFT相比,使逆FFT間隔較遠,來擴展音頻信號。因此,合成音頻信號中的時間變化比原始音頻信號中的時間變化慢。但是在沒有塊606中的相位重新縮放的情況下,上述會導(dǎo)致偽像。例如,在考慮其中連續(xù)的相位值以45°來實現(xiàn)的單個頻率分段時,這意味著該濾波器組中的信號在相位上以周期的1/8這種速率增加,即每時間間隔增加45°,此處的時間間隔是連續(xù)的FFT之間的時間間隔。若現(xiàn)在逆FFT彼此間隔更遠,則這意味著45°相位增加在更長時間間隔上發(fā)生。這意味著由于相位偏移,在隨后的交疊相加過程中發(fā)生失配,導(dǎo)致了不希望的信號消除。為了消除此偽像,以與音頻信號用于在時間上擴展音頻信號的因數(shù)完全相同的因數(shù),來重新縮放相位。每個FFT頻譜值的相位因此以因數(shù)b/a增加,從而失配消除。盡管在圖5c說明的實施例中通過振幅內(nèi)插/頻率控制信號,針對圖如濾波器組實現(xiàn)方式中的一個信號振蕩器,來實現(xiàn)擴展,然而圖6中的擴展通過兩IFFT頻譜之間距離大于兩FFT頻譜之間距離來實現(xiàn),即b大于a,但是其中為了防止偽像,依據(jù)b/a來執(zhí)行相位重新縮放。關(guān)于相位語音編碼器的詳細說明,請參照下列文獻Mark Dolson 所著的"The phase Vocoder :A tutorial,,,Computer Music Journal,第 10 卷,第 4 期,第 14—27 頁,1986 年,或 L. Laroche 及 M. Dolson 所著的 “New phase Vocoder techniques for pitch-shifting, harmonizing and other exotic effects", Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics,紐普茲,紐約,1999 年 10 月 17-20 日,第 91 至 94 頁;A. Robel 所著的"New approached to transient processing interphase vocoder,,,Proceeding of the 6th international conference on digital audio effects (DAFx-03),倫敦,英 H, 2003 年 9 月 8-11 日,第 DAFx-I 至 DAFx-6 頁;Me Iler Puckette 所著的“Phase-locked Vocoder,,Proceedings 1995, IEEE ASSP, Conference on applications of signal processing to audio and acoustics,或美國專利申請?zhí)?6,549,884。在下文中,基于變換的相位語音編碼器的功能的范例將參見圖7來簡要描述。圖7 示出了利用合成跳距的相位語音編碼算法操作的示意圖,例如,該合成跳距(hop size)與分析跳距不同,相差1倍。相位語音編碼(PV)算法用于修改信號的持續(xù)時間而不改變其音高[B9]。其將信號分成所謂的顆粒(grain),所述顆粒表示通常具有數(shù)十毫秒范圍內(nèi)的長度的信號加窗截除部分(windowed cutout) 0所述顆粒在交疊相加(OLA)過程中被重新排列,在此過程中, 合成跳距與分析跳距不同。為了延展信號,例如,將其延展到2倍,合成跳距是分析跳距的兩倍。圖7示出了該算法。暫態(tài)信號重新插入器在下文中,圖1所示的暫態(tài)信號重新插入器150的較佳實現(xiàn)方式將參見圖4來描述。暫態(tài)信號重新插入器150包括作為重要元件的信號組合器150a。信號組合器150a 被配置成接收經(jīng)處理的音頻信號142及暫態(tài)信號152,且在其基礎(chǔ)上提供經(jīng)處理的音頻信號120。信號組合器150a例如可配置為執(zhí)行用暫態(tài)信號152的一部分對經(jīng)處理的音頻信號142的一部分的硬切換式替換。但是,在較佳實施例中,信號組合器150a可配置為在經(jīng)處理的音頻信號142與暫態(tài)信號152之間形成交叉衰落,使得在經(jīng)處理的音頻信號120內(nèi)信號142、152之間有平滑過渡。但是,暫態(tài)信號重新插入器150可配置為確定最優(yōu)插入系數(shù)。例如,暫態(tài)信號重新插入器150可包括用于計算暫態(tài)重新插入部分的長度的計算器150b。該暫態(tài)重新插入部分的長度的計算例如可能是重要的,如果(例如通過暫態(tài)檢測器130a確定的)經(jīng)替換的暫態(tài)部分的長度是依據(jù)信號特性而可變的。在經(jīng)處理的音頻信號142與原始輸入音頻信號110 相比時包括不同的長度(或每秒包括不同采樣數(shù)目,或不同總采樣數(shù))的情況下,計算器 150b可考慮延展因數(shù)或壓縮因數(shù)以確定暫態(tài)重新插入部分的長度。參見圖10及11,在下文提供長度變化的詳細討論。暫態(tài)信號重新插入器150可進一步包括用于計算重新插入位置的計算器150c。在某些情況下,重新插入位置的計算可將經(jīng)處理的音頻信號142的延展或壓縮考慮在內(nèi)。在某些情況下,較佳地是經(jīng)處理的音頻信號120中的非暫態(tài)信號內(nèi)容與暫態(tài)信號內(nèi)容之間的關(guān)系(例如,時間關(guān)系)至少與原始輸入音頻信號110中的該非暫態(tài)音頻內(nèi)容與該暫態(tài)音頻內(nèi)容的時間關(guān)系大致相同。但是,除了預(yù)先計算適當?shù)臅簯B(tài)信號重新插入位置之外,還可以執(zhí)行該重新插入位置的微調(diào)。例如,用于計算重新插入位置的計算器150c可配置為讀取經(jīng)處理的音頻信號142及暫態(tài)信號152,且在比較經(jīng)處理的音頻信號142與暫態(tài)信號152的基礎(chǔ)上確定重新插入時間點。關(guān)于重新插入位置的可能計算的細節(jié)將參見圖10及11中說明的范例在下文中描述。可能的時序關(guān)系在下文中,關(guān)于可能的時序關(guān)系的細節(jié)將參見圖9來描述。圖9示出了對原始輸入音頻信號110的不同塊的處理的圖形表示。第一圖形表示910描述原始輸入音頻信號 110的時間演進,其中橫座標912表示時間。輸入音頻信號110包括暫態(tài)信號部分920,其長度可變。作為時序參考,信號處理器140的處理間隔或處理塊92h、922b、922c在圖形表示910中被示出??梢钥闯?,暫態(tài)信號部分920的持續(xù)時間可能小于所述處理間隔922a、 922b、922c的持續(xù)時間。但是在某些情況下,暫態(tài)信號部分的持續(xù)時間甚至可能大于處理間隔的持續(xù)時間,或延伸越過僅一個處理間隔。在某些情況下,處理間隔92h、922b、922c還可能是時間交疊的。圖形表示930表示暫態(tài)減少音頻信號132,該暫態(tài)減少音頻信號132可通過暫態(tài)信號替換器130執(zhí)行的暫態(tài)替換來獲得??梢钥闯?,暫態(tài)信號部分920經(jīng)被替換信號部分替換。圖形表示950描述經(jīng)處理的音頻信號142,例如通過使用對暫態(tài)減少音頻信號132 的逐塊處理,來獲得經(jīng)處理的音頻信號142。例如該處理可使用相位語音編碼器和下采樣來執(zhí)行。在該處理中,可選的可以對塊加窗,所述塊還可選的是交疊的。另一圖形表示970表示經(jīng)處理的音頻信號120,其中暫態(tài)(或其修改版本)已被暫態(tài)信號重新插入器150重新插入。重要的是要指出,暫態(tài)信號部分920可能會對整個塊1”產(chǎn)生影響,如果在逐塊處理中已考慮到暫態(tài)信號部分920,這是因為暫態(tài)能量在這種逐塊處理中通常會在整個塊上散開。因此,若在該逐塊處理中要考慮暫態(tài)信號部分,則該塊的總能量將可能由于暫態(tài)能量而出錯。而且,暫態(tài)通常會展開(即增寬),如果暫態(tài)受該逐塊處理的影響。相反,對暫態(tài)的分別處理允許將暫態(tài)的影響限制在經(jīng)處理的音頻信號120的與暫態(tài)相關(guān)聯(lián)的時間間隔1” 中。暫態(tài)信號部分朝向信號處理器140中的逐塊信號處理的整個塊的擴展可被避免。相反, 經(jīng)處理的音頻信號120中的暫態(tài)信號部分的持續(xù)時間可通過暫態(tài)處理器160所執(zhí)行的暫態(tài)處理來確定??蛇x擇地,若需要,可以在暫態(tài)信號部分920的原始持續(xù)時間內(nèi)將暫態(tài)信號部分920插入到經(jīng)處理的音頻信號142中。因此,信號處理器140中不想要的暫態(tài)能量的擴展可被避免。咅頻信號的時間擴展從上述說明中可以看出,用于操縱包括暫態(tài)事件的音頻信號的本發(fā)明構(gòu)想可應(yīng)用到許多不同的應(yīng)用中。例如,該構(gòu)想可應(yīng)用到其中暫態(tài)將通過信號處理來劣化且其中仍然想要維持暫態(tài)的任何音頻信號處理中。例如,許多類型的非線性音頻信號處理由于暫態(tài)的存在會產(chǎn)生被嚴重劣化的結(jié)果。除此之外,某些類型的時間濾波由于暫態(tài)的存在而會受到嚴重影響。而且,音頻信號的任何逐塊處理通常都將由于暫態(tài)的存在而劣化,因為暫態(tài)的能量將被涂抹在整個處理塊上,從而致使可聽見的偽像。然而,音頻信號的時間延展可被視為用于操縱包括暫態(tài)事件的音頻信號的本發(fā)明構(gòu)想的尤其重要的應(yīng)用。由于此原因,關(guān)于此應(yīng)用的細節(jié)將在下文中描述。在下文中,關(guān)于音頻信號的時間延展的常規(guī)構(gòu)想的一些缺點將被描述以有利于對本發(fā)明構(gòu)想的優(yōu)點的理解。由相位語音編碼器對音頻信號進行的時間延展包括通過分散來 “涂抹開”暫態(tài)信號部分,因為信號的(從不同頻帶分量之間的特定相位關(guān)系的意義上說) 所謂垂直相干性被削弱。與所謂的交疊相加(OLA)方法一起執(zhí)行的方法可能產(chǎn)生暫態(tài)聲音事件的破壞性預(yù)回音及延遲回音。在暫態(tài)環(huán)境中進行較顯著的時間延展時,這些問題確實可能遇到。但是若發(fā)生轉(zhuǎn)換,轉(zhuǎn)換因數(shù)在暫態(tài)環(huán)境中將不再恒定,即疊加的(可能是音調(diào)的)信號分量的音高將改變且將感知為是破壞性的。若暫態(tài)被截除且若將產(chǎn)生的間隙延展,則此后必須填充非常大的間隙。若暫態(tài)彼此緊隨,則大間隙可能交疊。在下文中,將描述一種用于信號變換的新方法。此處所呈現(xiàn)的該方法解決了上述提到的問題。依據(jù)此方法的一方面,從要被操縱的信號(例如,原始輸入音頻信號110)中,內(nèi)插或外插包括暫態(tài)的加窗部分。若對于應(yīng)用來說時間是關(guān)鍵的,即若延遲要被避免,則可較佳地選擇外插。若未來被稱為所謂的預(yù)測,且若延遲不是太重要,則內(nèi)插是較佳的。在一些實施例中,該方法基本上可由下列步驟組成,且將在圖10及11圖中示出。1.暫態(tài)的辨識;2.暫態(tài)長度的確定;3.暫態(tài)保存;4.外插和/或內(nèi)插;
5.實際方法的應(yīng)用,例如相位語音編碼器;6.所保存的暫態(tài)的重新插入;以及7.可能的(可選的)重新采樣(用于采樣速率的修改)。當執(zhí)行上述序列時,暫態(tài)的持續(xù)時間在下采樣時被縮短。若這不是希望的,則可以調(diào)制暫態(tài),使得其在頻移鍵控之后、重新插入之前逐漸變?yōu)樘幱谒诖念l帶內(nèi)(步驟6及 7互換)。在下文中,一些細節(jié)將參見圖10來描述。圖10示出了不同信號的圖形表示,這些信號可出現(xiàn)在依據(jù)圖1的裝置100的實施例中。圖10表示的全部內(nèi)容由1000來表示。信號表示1010描述原始輸入音頻信號110的時間演進。可以看出,輸入音頻信號110包括暫態(tài)信號部分1012,該暫態(tài)信號部分1012的可變寬度(或持續(xù)時間)可通過暫態(tài)檢測器130a 以信號適應(yīng)的方式來確定。暫態(tài)信號部分1012可由暫態(tài)信號替換器130移除,且可被替換信號部分替換。因此,可獲得在信號表示1020中所示出的暫態(tài)減少音頻信號132。替換信號部分在參考數(shù)字1022處示出,其替換暫態(tài)信號部分1012。暫態(tài)減少音頻信號132可以逐塊方式來處理,其中不同的處理窗(確定逐塊處理的粒度,且還可以“顆粒”來表示)在信號表示1030中示出。例如,對于每一塊(或“顆?!?而言,可獲得一組頻譜系數(shù),以形成暫態(tài)減少音頻信號132的時頻域表示。相位語音編碼處理可在暫態(tài)減少音頻信號132的時頻域表示內(nèi)應(yīng)用,由此獲得持續(xù)時間增加的信號。為了達到此目的,可獲得經(jīng)內(nèi)插的時頻域系數(shù)。所述時頻域系數(shù)可接著用于構(gòu)建時域信號,與原始輸入音頻信號相比,該時域信號的持續(xù)時間延長,同時音高維持不變。換言之,信號周期的數(shù)目增加。通過相位語音編碼操作獲得的信號在信號表示1040中示出。從圖形表示1040可以看出所謂的“截除暫態(tài)區(qū)域”(其中替換信號部分已被插入以替換暫態(tài)信號部分)相對于原始輸入音頻信號110中的暫態(tài)信號部分的時間位置被時移了(當參照輸入音頻信號的開始而考慮時)。隨后,先前已被替換的暫態(tài)信號部分被重新插入,例如,通過暫態(tài)信號重新插入器 150。例如,暫態(tài)信號152所描述的暫態(tài)信號部分可交叉衰落而進入到暫態(tài)減少音頻信號的經(jīng)處理的版本142中。暫態(tài)重新插入的結(jié)果在圖形表示1050中示出。在隨后的下采樣中,可減少經(jīng)處理的音頻信號120的持續(xù)時間。該下采樣例如可通過信號調(diào)節(jié)器170來執(zhí)行。該下采樣例如可包括時間尺度的變化??蛇x擇地,可減少多個采樣點。因此,與相位語音編碼器所提供的信號相比,經(jīng)下采樣的信號的持續(xù)時間減少。 同時,與相位語音編碼器所提供的信號相比,可通過下采樣維持多個周期。因此,與相位語音編碼器所提供的信號(在信號表示1040中示出)相比,在信號表示1050中示出的經(jīng)下采樣的信號的音高可增加。圖11示出了另一信號表示,其表示在圖1裝置100的另一實施例中出現(xiàn)的信號。 該處理與參見圖10所解釋的處理相似,此處僅描述處理順序中的差別,且相同的信號表示及信號特性將由圖10及11中相同的參考數(shù)字表示。在信號表示1100所表示的信號處理中,下采樣在暫態(tài)信號重新插入之前執(zhí)行。因此,信號表示1150示出了不具有插入的暫態(tài)信號部分的經(jīng)下采樣的信號。但是,使用暫態(tài)頻率偏移操作1160來頻移暫態(tài)信號部分,該操作1160可由暫態(tài)處理器160執(zhí)行。頻率偏移的暫態(tài)信號(相對于經(jīng)暫態(tài)信號替換器130替換的暫態(tài)信號部分的頻率偏移)可由暫態(tài)信號重新插入器150重新插入到經(jīng)下采樣處理的音頻信號142中。暫態(tài)重新插入的結(jié)果在信號表示1170中示出。晳杰信號部分的配適在下文中,將描述如何使用暫態(tài)信號插入器150將暫態(tài)信號152與經(jīng)處理的音頻信號142組合。例如,暫態(tài)信號插入器150可配置為從經(jīng)處理的音頻信號142中截除暫態(tài)區(qū)域,暫態(tài)信號152要被插入經(jīng)處理的音頻信號142中。這里可以考慮的是,暫態(tài)信號152 的邊界部分可能在時間上會與截除的暫態(tài)區(qū)域的邊界部分交疊。在此交疊的邊界部分中, 經(jīng)處理的音頻信號142與暫態(tài)信號152之間可能發(fā)生交叉衰落。暫態(tài)信號152還可以相對于經(jīng)處理的音頻信號142被時移,使得被覆蓋的暫態(tài)區(qū)域的邊界部分的波形與暫態(tài)信號 152的邊界部分的波形十分一致。精確的配適可通過計算產(chǎn)生的凹口的邊緣與暫態(tài)部分的邊緣的交叉相關(guān)的最大值來執(zhí)行(其中該凹口可能是由于從經(jīng)處理的音頻信號142中截除暫態(tài)區(qū)域而引起的)。 以此方式,暫態(tài)的主觀音頻質(zhì)量不再會由于分散及回音效應(yīng)而被削弱。為達到選擇適當?shù)慕爻糠值哪康?,對暫態(tài)位置的精確確定可以執(zhí)行,例如,通過在合適的時間段上使用能量的浮動重心計算來確定。依據(jù)最大交叉相關(guān)的暫態(tài)的最優(yōu)配適可能需要在原始位置上的時間上略微偏移。 但是,由于存在時間前掩蔽以及尤其是后掩蔽效應(yīng),重新插入的暫態(tài)的位置不需要與原始位置精確匹配。由于掩蔽罩作用期間較長,在此上下文中優(yōu)選正時間方向上的暫態(tài)的偏移。 通過插入原始信號部分,采樣速率的變化致使音色的變化,或音高的變化。但是,這大體上通過心理聲學(xué)掩蔽機制來由暫態(tài)掩蔽。暫態(tài)處理若暫態(tài)在重新插入之前與截除之后相比具有較少音調(diào),例如,因為其僅將被加入到經(jīng)處理的信號上,則相對應(yīng)的窗口化的暫態(tài)部分將須以合適的方式來處理。在這種情況下,可實施反向(LPC)濾波??蛇x擇的方式將在下列內(nèi)容中簡要地描述1.確定(例如由暫態(tài)信息134所描述的暫態(tài)信號部分的)短時傅立葉變換 (STFT),以獲得頻譜;2.確定(例如該暫態(tài)信號部分的頻譜的)倒頻譜;3.高通濾波該倒頻譜(第一系數(shù)被設(shè)定成0),以獲得頻譜的高通濾波;4.將(例如該暫態(tài)信號部分的)頻譜除以(例如該暫態(tài)信號部分的)經(jīng)濾波的頻譜,以獲得平滑化的頻譜;及5.逆變換(例如該平滑化的頻譜)至?xí)r域(例如,以獲得經(jīng)處理的暫態(tài)信號152)。產(chǎn)生的信號展示出(至少大致)與輸出信號相同的頻譜包絡(luò),但是已丟失了音調(diào)部分。方法依據(jù)本發(fā)明的實施例包括用于操縱包括暫態(tài)事件的音頻信號的方法。圖12示出了該方法1200的流程圖。方法1200包括步驟1210,以適應(yīng)于音頻信號的一個或多個非暫態(tài)信號部分的信號能量特性或適應(yīng)于暫態(tài)信號部分的信號能量特性的替換信號部分,來替換包括音頻信號的暫態(tài)事件的暫態(tài)信號部分,以獲得暫態(tài)減少音頻信號。
方法1200進一步包括步驟1220,處理暫態(tài)減少音頻信號,以獲得該暫態(tài)減少音頻信號的經(jīng)處理版本。方法1200進一步包括步驟1230,將暫態(tài)減少音頻信號的經(jīng)處理版本與以原始或經(jīng)處理的形式表示該暫態(tài)信號部分的暫態(tài)內(nèi)容的暫態(tài)信號相組合。方法1200可通過本文所描述的同樣關(guān)于上述本發(fā)明的裝置的任何特征或功能來補充。換言之,盡管一些方面已在裝置的上下文中被描述,但顯然這些方面還表示相對應(yīng)的方法的說明,其中模塊或裝置與方法步驟或方法步驟的特征相對應(yīng)。類似地,方法步驟的上下文中所描述的方面還表示相對應(yīng)裝置的相對應(yīng)模塊或項目或特征的說明。計算機稈序依據(jù)某些實施要求,本發(fā)明的實施例可以硬件或軟件來實施。該實施可使用數(shù)字存儲介質(zhì)來執(zhí)行,例如軟盤、DVD、藍光碟、CD、ROM、PROM、EPROM、EEPROM或FLASH存儲器,該數(shù)字存儲介質(zhì)上儲存有電子可讀控制信號且與(或能夠與)可編程計算機系統(tǒng)協(xié)作使得相應(yīng)方法被執(zhí)行。因此,數(shù)字存儲介質(zhì)可以是計算機可讀的。依據(jù)本發(fā)明的一些實施例包括具有電子可讀控制信號的數(shù)據(jù)載體,其能夠與可編程計算機系統(tǒng)協(xié)作,使得本文所描述的方法之一被執(zhí)行。一般說來,本發(fā)明的實施例可作為具有程序代碼的計算機程序產(chǎn)品來實施,當該計算機程序產(chǎn)品在計算機上運行時,該程序代碼可操作地用于執(zhí)行所述方法之一。該程序代碼例如可被儲存在機器可讀載體上。其他實施例包括用于執(zhí)行本文所描述的所述方法之一的儲存在機器可讀載體上的計算機程序。換言之,本發(fā)明方法的實施例進而是具有程序代碼的計算機程序,當該計算機程序在計算機上運行時,該程序代碼用于執(zhí)行本文所描述的所述方法之一。本發(fā)明所述方法的另一實施例進而是數(shù)據(jù)載體(或數(shù)字存儲介質(zhì),或計算機可讀介質(zhì)),其包括記錄于其上用于執(zhí)行本文所描述的所述方法之一的計算機程序。本發(fā)明方法的另一實施例進而是表示用于執(zhí)行本文所描述的所述方法之一的計算機程序的數(shù)據(jù)流或信號序列。該數(shù)據(jù)流或信號序列例如可配置為經(jīng)由數(shù)據(jù)通信連接,例如經(jīng)由互聯(lián)網(wǎng)來傳送。另一實施例包括處理裝置,例如,被配置成或適于執(zhí)行本文所描述的所述方法之一的計算機或可編程邏輯器件。另一實施例包括計算機,其上安裝有用于執(zhí)行本文所描述的方法之一的計算機程序。在一些實施例中,可編程邏輯器件(例如,現(xiàn)場可編程門陣列)可用于執(zhí)行本文所描述的方法的某些功能或所有功能。在一些實施例中,現(xiàn)場可編程門陣列可與微處理器協(xié)作以執(zhí)行本文所描述的方法之一。一般說來,所述方法較佳地通過任何硬件裝置來執(zhí)行。Mrk總結(jié)上述內(nèi)容,依據(jù)本發(fā)明的實施例包括處理不需或不能通過實際處理例程(例如,使用信號處理器)來處理的聲音事件的新方法。在一些實施例中,本發(fā)明的方法實質(zhì)上包括對包含要被單獨處理的聲音事件的信號部分進行外插或內(nèi)插。在該處理之后,單獨處理后的暫態(tài)部分被再次加入。這種處理不限于時間或頻率延展,而是當信號的實際處理對暫態(tài)信號部分不利(或受暫態(tài)信號部分負面影響)時,這種處理一般可在信號處理中使用。在下文中,描述新方法的一些優(yōu)勢,所述優(yōu)勢可在實施例的一些中獲得。利用該新方法,有效防止了在使用時間延展及變換方法處理暫態(tài)期間可能產(chǎn)生的偽像(諸如分散、 預(yù)回音及延遲回音)。避免了疊加的(可能是音調(diào)的)信號部分的質(zhì)量的可能削弱。依據(jù)本發(fā)明的實施例可應(yīng)用于不同應(yīng)用領(lǐng)域中。該方法例如適于其中音頻信號的再現(xiàn)速度或它們的音高需改變的任何音頻應(yīng)用。綜上,已描述了用于單獨處理音頻信號中的聲音事件以避免偽像的裝置及方法。實施例2將參見圖13-16在下文中描述本發(fā)明的另一實施例。首先,討論關(guān)于暫態(tài)檢測的細節(jié)。隨后,將參見圖13及14解釋暫態(tài)處理。將參見圖15討論該暫態(tài)處理的結(jié)果。將參見圖16解釋該暫態(tài)處理的額外改進。除此之外,將給出該實施例的性能演進,且得出一些結(jié)論。實施例2-晳杰檢測為了實施本發(fā)明的構(gòu)想,重要的是檢測暫態(tài)的存在以允許替換暫態(tài)及單獨處理暫態(tài)。除了當前的時間延展應(yīng)用之外,范圍廣泛的信號處理方法需要了解關(guān)于音頻信號的暫態(tài)內(nèi)容。主要的范例是塊長度判定(B.Edler所著的“Coding of audio signals with over-lapping block transform and adaptive window functions(in German),"Frequenz,第43卷,第9期,第252-256頁,1989年9月)或變換音頻編解碼中的暫態(tài)信號及穩(wěn)態(tài)的分離編碼(Oliver Niemeyer及Bernd Edler所著的“Detection and extraction of transients for audio coding, AES 120th Convention,巴黎,法國,2006 年),暫態(tài)分量的修改(Μ. M. Goodwin 及 C. Avendano 所著的 “Frequency—domain algorithms for audio signal enhancement based on transient modifiation,,,, Journal of the Audio Engineering Society.,第 54 卷,第 827-840 頁,2006 年。)及音頻信號分段(P. Brossier, J. P. Bello,及 M. D. Plumbley 所著的"Real-time temporal segmentation of note objects in music signals,,,,ICMC,邁阿密,美國,2004 年)。 許多應(yīng)用是檢測暫態(tài)的方法。最普遍的是,通過計算檢測函數(shù)來執(zhí)行檢測(J.P.Bello、 L. Daudet> S. AbdalIah> C. Duxbury> Μ. Davies, R Μ. B. Sandler PA ^ ^ "A tutorial on onset detection in music signals,”, Speech and Audio Processing, IEEE Transactions on,第13卷,第5期,第1035-1047頁,2005年9月),即局部最大值與暫態(tài)的出現(xiàn)一致的函數(shù)。各種提出的方法通過研究子帶信號的(加權(quán))幅度或能量包絡(luò)、寬帶信號、其導(dǎo)數(shù)或其相對差函數(shù),得出檢測函數(shù)(例如,參見參考文獻(A. Klapuri所著的 "Sound onset detection by applying psychoacoustic knowledge,,,,ICAS SP,1999年) 及(P. Masri 及A. Bateman所著的“Improved modelling of attack transients in music analysis-resynthesis,,,,I CMC, 1996 # )。)其他方法計算所測量的相位與預(yù)測相位之間的偏差(例如,參見C.Duxbury、 Μ. Davies,及 Μ. Sandler 所著的 “Separation of transient information in musical audio using multiresolution analysis techniques,,,,DAFX,2001 年),子帶信號的相位及幅度的組合檢驗(參見 C. Duxbury、M. Sandler,及 Μ. Davies 所著的“A hybrid approach to musical note onset detection,”,DAFX,2002年),或自適應(yīng)線性預(yù)測器所產(chǎn)生的誤差(例如,參見 W-C. Lee 及 C-C. J. Kuo, "Musical onset detection based on adaptive linear prediction,扣1^,2006年)。通過波峰選取,暫態(tài)的存在及其在時間上的位置作為二元決策而獲得,或連續(xù)檢測函數(shù)被應(yīng)用于控制修改單元的動作(例如,參見參考文獻Μ. M. Goodwin 及 C. Avendano 所著的"Frequency-domain algorithms for audio signal enhancement based on transient modifiation, ”,Journal of the Audio Engineering Society.,第 M 卷,第 827-840 頁,2006 年)。利用二元決策,由于檢測階段中的錯誤分類而造成的錯誤分派可能會在某些應(yīng)用中導(dǎo)致嚴重的減損。對于目前的算法而言,誤否定(即錯失暫態(tài))會比誤肯定(即檢測出不存在的暫態(tài))糟糕。第一種情況會導(dǎo)致被涂抹開的暫態(tài)分量,而后者僅產(chǎn)生多余的內(nèi)插 (若內(nèi)插適當?shù)貓?zhí)行)。短時傅立葉變換塊的綜合加權(quán)絕對值用于暫態(tài)區(qū)域的檢測。此函數(shù)示出了起音暫態(tài)期間的顯著的升高且還能夠指示打擊式信號及相關(guān)聯(lián)的混響的衰減。關(guān)于平滑檢測函數(shù)的波峰選取,使用基于以下所描述的百分位計算的自適應(yīng)閾值來實現(xiàn),例如,參考文獻 J. P. Bello、L. Daudet> S. AbdalIah> C. Duxbury> Μ. Davies,及 Μ. B. Sandler 所著的"A tutorial on onset detection in music signals,,,, Speech and Audio Processing, IEEE Transactions on,第 13 卷,第 5 期,第 1035-1047 頁,2005 年 9 月??偨Y(jié)上述內(nèi)容,關(guān)于暫態(tài)檢測的不同構(gòu)想是領(lǐng)域中已知的且可應(yīng)用于本發(fā)明的裝置中。例如,上述關(guān)于暫態(tài)檢測的構(gòu)想可在暫態(tài)信號替換器130的暫態(tài)檢測器130a中使用。實施例2-暫態(tài)處理在下文中,將參見圖13及14來描述暫態(tài)處理。圖13示出了暫態(tài)移除及內(nèi)插的圖形表示。圖14示出了時間延展及暫態(tài)重新插入的圖形表示。因此,圖13及14中的所述示意表示說明所呈現(xiàn)的算法的處理步驟序列。圖13的第一行1310示出了包括暫態(tài)事件1312的原始信號(即音頻信號110)。 響應(yīng)于(或通過)對該暫態(tài)1312的檢測,(例如通過暫態(tài)檢測器130a)界定暫態(tài)區(qū)域(例如從暫態(tài)區(qū)域開始位置1314延伸至?xí)簯B(tài)區(qū)域結(jié)束位置1316),其隨后被從信號中扣減。換言之,首先,將暫態(tài)檢測出且對其加窗。其次,從該信號中扣減暫態(tài)。在參考文獻[B20]中示出了其中暫態(tài)被扣減的信號。存儲暫態(tài)本身,以備稍后使用。直到這一步驟,該算法與參考文獻[B8]中所描述的相同,盡管此處所使用的截除窗口是矩形的(點狀粗線)。為了存儲暫態(tài),在前和在后加上了幾毫秒的保護間隔,并且將窗口錐形化(細實線),以界定用于將儲存的暫態(tài)平滑地重新插入到時間刪除無暫態(tài)信號中的交叉衰落區(qū)域。隨后,應(yīng)用依據(jù)本實施例的發(fā)明性算法的最重要的特征-內(nèi)插以填充間隙。換言之,最后,產(chǎn)生的間隙透過內(nèi)插來填充。內(nèi)插的結(jié)果可在圖13的底行中參考數(shù)字1330處看出。因為在內(nèi)插之后信號通常為準穩(wěn)態(tài),所以現(xiàn)在信號可延展而不引入惱人的偽像。此延展的結(jié)果在圖14的第一行中參考數(shù)字1410處示出。移位后的位置處的暫態(tài)區(qū)被識別且為先前儲存的窗口化暫態(tài)的重新插入做準備。因此,錐形化的窗口(已用于暫態(tài)的提取及/ 或儲存,且通過圖形表示中的細實線于參考數(shù)字1310處示出)被反轉(zhuǎn)且施加于該信號,以允許暫態(tài)重新加入。此處理的結(jié)果在參考數(shù)字1420中示出了。最后,儲存的暫態(tài)加入到經(jīng)延伸的信號中,此在圖形表示中參考數(shù)字1430處可以看出??偨Y(jié)上述內(nèi)容,暫態(tài)移除和由暫態(tài)移除引起的間隙的內(nèi)插在圖13中示出。首先, 暫態(tài)被檢測出且被加窗。然后,從信號中扣減暫態(tài)。最后,通過內(nèi)插來填充產(chǎn)生的間隙。圖 14示出了緊隨暫態(tài)移除及內(nèi)插之后的時間延展及暫態(tài)重新插入。首先,將準穩(wěn)態(tài)信號延展, 例如,使用本文所描述的語音編碼器。隨后,通過與圖14中用于儲存暫態(tài)的窗口的反轉(zhuǎn)窗口相乘,來為該經(jīng)時間延展的信號中的暫態(tài)的位置作準備。最后,暫態(tài)被重新加入到該信號中。換言之,最后,將儲存的暫態(tài)加入到經(jīng)延展的信號中。實施例2-晳杰處理結(jié)果在下文中,將參見圖15來討論本發(fā)明的暫態(tài)處理的一些結(jié)果。圖15示出了利用相位語音編碼器的時間延展應(yīng)用中的該發(fā)明的暫態(tài)處理步驟的圖形表示。第一行包括未經(jīng)延展的信號,而第二行包括經(jīng)延伸的口(port)。應(yīng)注意在第一行及第二行的圖形表示中所使用的時間跨距不同。圖15繪示了在響板混合定音管的基礎(chǔ)上不同算法步驟的結(jié)果。圖1 中描述具有檢測到的暫態(tài)區(qū)域的指示的原始輸入信號的波形圖。圖1 示出了截除的暫態(tài)區(qū)域,截除的暫態(tài)區(qū)域(在隨后的步驟中)被內(nèi)插以產(chǎn)生圖15c中所示的無暫態(tài)穩(wěn)態(tài)信號。圖15d包含了包括交叉衰落保護間隔的暫態(tài)區(qū)域,而圖1 示出了經(jīng)內(nèi)插的(且通常經(jīng)時間延展的)信號,該信號在時間刪除暫態(tài)位置處受到反向交叉衰落窗口的阻尼。作為完成部分,圖15f示出了時間延展算法的最終輸出。因此,圖1 表示音頻信號110。圖Me表示暫態(tài)減少音頻信號132。圖15d表示暫態(tài)信號152。圖15f表示經(jīng)處理的音頻信號120。實施例2-暫態(tài)處理改進已發(fā)現(xiàn)關(guān)于截除暫態(tài)區(qū)域的內(nèi)插的不同構(gòu)想在某些情況下是重要的。例如,若暫態(tài)之前的信號與暫態(tài)之后的信號相當不同,則在暫態(tài)區(qū)域上的內(nèi)插是困難的。在此情況下, 在暫態(tài)事件期間所牽涉的信號在某些情況下幾乎不能被預(yù)測。圖16說明此情況,該情況通過舉例的方式使用分別對兩部分中的僅一個的可能的評估來簡化。算法(例如用于執(zhí)行內(nèi)插以填充間隙的算法)必須決定(用于填充間隙的內(nèi)插信號的)所包括的音高。這也應(yīng)用于更加復(fù)雜的寬帶信號??朔藛栴}的可能的解決方案在于彼此之間具有交叉衰落的向前預(yù)測及向后預(yù)測。因此,當計算用于填充間隙的內(nèi)插信號時,可應(yīng)用這樣彼此之間具有交叉衰落的向前預(yù)測及向后預(yù)測。此問題在圖16中說明,并提出依據(jù)本發(fā)明的一方面的解決方案。圖16示出了若信號在暫態(tài)期間顯著地變化,則暫態(tài)的內(nèi)插(即對由暫態(tài)移除所引起的間隙的內(nèi)插)是困難的。在內(nèi)插范圍(即移除暫態(tài)所引起的間隙)期間存在無限多種的音高輪廓。圖16a以時間頻率表示的形式示出了包括暫態(tài)事件的信號的圖形表示。暫態(tài)范圍,即已作為暫態(tài)時間間隔而被識別的時間間隔,由1610表示。圖16b示出了用于獲得輸入音頻信號的時間部分的不同可能性的圖形表示,在此時間部分期間,暫態(tài)已經(jīng)被檢測出且被移除??梢钥闯?, 若在時間上在暫態(tài)于期間從輸入音頻信號中被移除的時間間隔1620之前有第一音高,及在時間上在該時間間隔1620之后有第二音高,則必須確定用于填充移除該暫態(tài)時間間隔 1620而留下的間隙的音高演進。可以看出,例如,可以(在時間方向上)對時間間隔1620 之前的音高進行前向外插,以獲得該時間間隔1620期間的音高(參見虛線1630)??蛇x擇地,可以(在時間方向上)對在時間間隔1620之后呈現(xiàn)的音高進行后向外插,以獲得時間間隔1620期間的音高(參見虛線1632)??蛇x擇地,可以在時間間隔1620期間在時間間隔1620之前呈現(xiàn)的音高與時間間隔1620之后呈現(xiàn)的音高之間進行內(nèi)插(參見虛線1634)。 自然地,獲得時間間隔1620(由暫態(tài)移除所引起的間隙)期間的音高演進的不同方案是可能的。暫態(tài)信號重新插入之后最終獲得的經(jīng)處理的信號的影響在圖16c中示出了??梢钥闯觯匦虏迦氲臅簯B(tài)信號部分(反映暫態(tài)信號部分的原始或經(jīng)處理的暫態(tài)內(nèi)容)在時間上可能短于經(jīng)處理的(例如經(jīng)時間延展的)音頻信號142,該音頻信號142是已被處理而不具有暫態(tài)內(nèi)容。因此,對用于填充由音頻信號132中的暫態(tài)移除所引起的間隙的構(gòu)想的選擇實際上可能對經(jīng)處理的音頻信號120產(chǎn)生可聽得見的影響,甚至在暫態(tài)重新插入之后, 例如若(由暫態(tài)信號152所描述的)重新插入的暫態(tài)部分短于經(jīng)處理的音頻信號142中的間隙填充處理的結(jié)果。可參見重新插入的暫態(tài)之前的時間間隔140及重新插入的暫態(tài)之后的時間間隔142??偨Y(jié)上述內(nèi)容,參見圖16已示出的是若信號在暫態(tài)期間顯著地變化,則暫態(tài)區(qū)域的內(nèi)插需要一些考慮。在內(nèi)插范圍期間存在無限多種的音高輪廓。圖16a示出了包括暫態(tài)事件的信號。圖16b示出了以虛線來標示的內(nèi)插暫態(tài)范圍的不同可能性。圖16c示出了經(jīng)延展的信號。因為經(jīng)延展的內(nèi)插區(qū)延伸超出暫態(tài)部分,所以內(nèi)插的信號可聽見且可導(dǎo)致感知偽像。實施例2-件能評估為了獲得對所提出方法的感知性能的一些了解,進行非正式的收聽。選定的信號包括具有暫態(tài)及穩(wěn)態(tài)信號特性的項目以評估針對暫態(tài)信號的新方案的益處,同時確保穩(wěn)態(tài)信號不劣化。與現(xiàn)有軟件時間延展算法相比較,此非正式的測試示出了對于前文所提到的定音管與響板的組合而言優(yōu)勢明顯。結(jié)果示出了當焦點落在暫態(tài)信號上時,基于PV的時間延展算法優(yōu)于WSOLA。利用新方法來延展現(xiàn)實世界的信號有時也優(yōu)于以其他方法。Mrk總結(jié)上述內(nèi)容,描述了新暫態(tài)處理方案,其可有利地用于時間延展算法。在不影響各自對方的情況下改變音頻信號的速度或音高,這時常用于音樂制作及創(chuàng)造性再現(xiàn),諸如重新混合。其還可用于達到其他目的,諸如帶寬擴展及速度增強。盡管可在不有損質(zhì)量的情況下延展穩(wěn)態(tài)信號,但是當使用常規(guī)的算法時,暫態(tài)時常在延展之后不能被完好保留。本發(fā)明展示用于時間延展算法中的暫態(tài)處理方法。暫態(tài)區(qū)由穩(wěn)態(tài)信號來替換。因此被移除的暫態(tài)被保存且在時間延展之后被重新插入到時間擴張穩(wěn)態(tài)音頻信號中。延展諸如定音管發(fā)出的絕對音調(diào)信號及諸如響板發(fā)出的打擊式信號的組合,這項任務(wù)提出了挑戰(zhàn)。盡管某些常規(guī)的方法在經(jīng)時間延展版本中大致保留了信號的包絡(luò)以及其頻譜特性,且希望時間擴張打擊事件衰減慢過原始事件,但是本發(fā)明遵循相反的假定對于音樂信號的時間縮放而言,目標是保留暫態(tài)事件的包絡(luò)。因此,依據(jù)本發(fā)明的一些實施例僅延展被維持的分量以實現(xiàn)聽起來像是以不同的情緒來演奏相同樂器的效果(例如,參見參考文獻[B3])。為了實現(xiàn)此效果,依據(jù)本發(fā)明,分離地處理暫態(tài)及穩(wěn)態(tài)信號分量。依據(jù)本發(fā)明的實施例基于出版物[B8]中所描述的構(gòu)想,其中已說明了如何利用語音編碼器在時間上及頻率延展上保留暫態(tài)。在此方法中,在信號延展之前從該信號中截除暫態(tài)。暫態(tài)部分的截除導(dǎo)致信號內(nèi)出現(xiàn)間隙,所述間隙通過相位語音編碼處理被延展。在延展之后,暫態(tài)被重新加入到該信號中,具有適合于經(jīng)延展的間隙的周邊。但是,已發(fā)現(xiàn)該解決方案對于許多信號而言包括了一些優(yōu)勢。但是還發(fā)現(xiàn)通過截除暫態(tài),新的偽像出現(xiàn)了, 因為間隙將新的非穩(wěn)態(tài)部分引入到信號中,尤其是在引入的間隙的邊界處。這些非穩(wěn)態(tài)例如可在圖15b中看到。本文描述的本發(fā)明方法的實施例具有超越例如在刊物[B3]、[B6]、[B7]中所描述的技術(shù)的優(yōu)勢,因為它們能夠?qū)崿F(xiàn)時間延展,而不必在暫態(tài)的周邊改變延展因數(shù)。本發(fā)明方法與例如參考文獻[B8]及[B5]中描述的方法具有共性。本發(fā)明方案將信號分為暫態(tài)部分及無暫態(tài)準穩(wěn)態(tài)信號。與[B8]中描述的方法相反,由截除暫態(tài)而產(chǎn)生的間隙由穩(wěn)態(tài)信號替換。利用內(nèi)插方法來估計貫穿間隙的圍繞間隙時間段的信號的持續(xù)。那么產(chǎn)生的準穩(wěn)態(tài)部分非常適合時間延展算法。由于此信號現(xiàn)在(即內(nèi)插或外插之后)不再包括暫態(tài)及間隙, 所以可防止經(jīng)延伸的暫態(tài)及經(jīng)延伸的間隙的偽像。延展執(zhí)行之后,暫態(tài)替換內(nèi)插信號的多個部分。該技術(shù)依賴于暫態(tài)的準確檢測及穩(wěn)態(tài)部分的感知上正確的內(nèi)插。但是,如上所述, 除了內(nèi)插以外,其他填充技術(shù)也可使用。為了更好地總結(jié)上述內(nèi)容,在上述某些實施例中,目的是延展諸如定音管加響板發(fā)出的絕對音調(diào)信號和暫態(tài)信號的組合,而不產(chǎn)生任何感知偽像。已示出了本發(fā)明對實現(xiàn)此目的的方式而言有顯著地提高。本發(fā)明的重要方面之一在于對暫態(tài)事件的正確識別,尤其是暫態(tài)事件的精確的起音點,且更困難的是暫態(tài)事件的衰減及其相關(guān)聯(lián)的混響。因為暫態(tài)事件的衰減和混響覆蓋有信號的穩(wěn)態(tài)部分,這些部分需要仔細處理以避免重新加入到信號的經(jīng)延伸部分中之后出現(xiàn)可感知的波動?!┦章犝呲呄蛴谄没祉懪c維持的信號部分一起被延展的版本。此偏好與實際目的相矛盾,實際目的是將暫態(tài)及相關(guān)聯(lián)的聲音作為一體來考慮。因此,在某些情況下,需要更多了解收聽者的偏好。但是,依據(jù)本發(fā)明的觀念及原則性方法已針對特殊情況證明了它們的價值及應(yīng)用。然而,所希望的是本發(fā)明的應(yīng)用范圍甚至可擴展。由于其結(jié)構(gòu),本發(fā)明的算法可輕易地適應(yīng)用于暫態(tài)部分的操縱,例如,相較于穩(wěn)態(tài)信號部分改變它們的級別。本發(fā)明方法的另一可能的應(yīng)用是任意地衰減或增強暫態(tài),以便重放。這可用于改變諸如鼓等發(fā)出的暫態(tài)事件的響度或甚至完全移除它們,這是因為將信號分離為暫態(tài)和穩(wěn)態(tài)部分是該算法所固有的。上述實施例僅是說明本發(fā)明的原則。應(yīng)理解的是在此描述的所述布置及所述細節(jié)的修改及變化對于本領(lǐng)域技術(shù)人員而言是顯而易見的。因此,旨在僅受獨立權(quán)利要求的范圍的限制而不受通過本文的實施例的說明及解釋的方式所呈現(xiàn)的特定細節(jié)的限制。參考文獻[Al]J. L. Flanagan and R. Μ. Golden, "The Bell System Technical Journal, November 1966,,,pages 1394 to 1509 ;[A2]United States Patent 6,549,884, Laroche, J. & Dolson,M."Phase-vocoder pitch-shifting,,;[A3]Jean Laroche and Mark Dolson,"New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing and Other Exotic Effects,,,by Proc.[A4] Zolzer5U :"DAFX !Digital Audio Effects”,Wiley & Sons,Edition :1(26 February 2002),pages 201-298;[A5] Laroche L.,Dolson M. ” Improved phase vocoder timescale modification of audio,,,IEEE Trans. Speech and Audio Processing,vol. 7, no. 3, pp.323-332 ;[A6] Emmanuel Ravel 1 i , Mark Sandler and Juan P. Bello "Fast implementation for non-linear time-scaling of stereo audio”, Proc.of the 8thlnt.Conference on Digital Audio Effects(DAFx’ 05), Madrid, Spain, September 20-22,2005 ;[A7]Duxbury, C.,Μ. Davies, and Μ· Sandler (2001,December) ,Separation of transient information in musical audio using multiresoIution analysis techniques,,· In -Proceedings of the COST G_6 Conference on Digital Audio Effects (DAFX-Ol),Limerick,Ireland ;[A8] Robel A. :“A NEW APPROACH TO TRANSIENT PROCESSING IN THE PHASE VOCODER,,,Proc. Of the 6th Int. Conference on Digital Audio Effects (DAFx-03), London,UK, September8_ll,2003.[Bi]T. Karrer, E.Lee, and J.Borchers, "Phavorit :A phase vocoder for real-time interactive time-stretching,” in Proceedings of the ICMC 2006 International Computer Music Conference, New Orleans, USA, November 2006, pp. 708-715.[B2]T. F. Quatieri, R. B. Dunn, R. J. McAulay, and T. E. Hanna, "Time-scale modifications of complex acoustic signals in noise,,,Technical report, Massachusetts Institute of Technology, February 1994.[B3]C. Duxbury, M. Davies,and M.B. Sandler,“Improved time-scaling of musical audio using phase locking at transients,,? in 112thAES Convention, Munich,2002,Audio Engineering Society.[B4]S. Levine and Julius 0. Smith III,“A sines+transients+noise audio representation for data compression and time/pitchscale modifications,,,1998·[B5] T. S. Verma and T. H. Y. Meng,“Time scale modification using a sines+transients+noise signal model,,,in DAFX98, Barcelona, Spain, 1998.[B6]A. R0bel, “ A new approach to transient processing in the phase vocoder,,,in 6th Conference on Digital Audio Effects (DAFx-03),London,2003, pp. 344-349.[B7]A. R0bel, “ “ Transient detection and preservation in the phase vocoder,,,in Int. Computer Music Conference (ICMC 03),Singapore,2003,pp. 247-250·[B8]F. Nagel,S. Disch,and N. Rettelbach,"A phase vocoder driven bandwidthextension method with novel transient handling for audio codecs,,,in 126th AES Convention, Munich,2009.[B9]M. Dolson, "The phase vocoder :A tutorial,,,Computer Music Journal, vol. 10,no. 4,pp. 14-27,1986.[B10]B.Edler,"Coding of audio signals with over-lapping block transform and adaptive window functions (in german),“ Frequenz, vol. 43,no.9,pp. 252-256, Sept. 1989.[Bi1]Oliver Niemeyer and Bernd Edler,"Detection and extraction of transients for audio coding,,,in AES 120th Convention, Paris, France, 2006.[B12]M. M. Goodwin and C. Avendano,“Frequency-domain algorithms for audio signal enhancement based on transient modifiation,,,Journal of the Audio Engineering Society.,vol. 54,pp.827-840,2006.[B13]P. Brossier, J. P. Bello, and M. D. Plumbley, "Real-time temporal segmentation of note ob-jects in music signals,”in ICMC, Miami, USA,2004.[B14] J. P. Bello,L. Daudet,S. Abdallah,C. Duxbury,M. Davies,and M. B. Sandler, "A tutorial on onset detection in music signals,,,Speech and Audio Processing, IEEE Transactions on,vol. 13,no. 5,pp. 1035-1047,Sept. 2005.[B 15]A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge,” in ICASSP,1999.[B16]P. Masri and A. Bateman,“Improved modelling of attack transients in music analysis-resynthesis,“ in I CMC,1996.[B17] C. Duxbury, M. Davies,and M. Sandler,"Separation of transient information in musical audio using multiresolution analysis techniques,,,in DAFX ,2001.[B18]C. Duxbury, M. Sandler, and M. Davies, "A hybrid approach to musical note onset detection,,,in DAFX, 2002.[B19] W-C. Lee and C-C. J. Kuo, "Musical onset detection based on adaptive linear prediction,,,in ICME, 2006.[Edler]0. Niemeyer and B. Edler,"Detection and extraction of transients for audio coding,,,presented at the AES 120th Convention,Paris,F(xiàn)rance,2006 ;[Bello] J. P. Bello et al. , "A Tutorial on Onset Detection in Music Signals,,,IEEE Transactions on Speech and Audio Processing,Vol. 13,No. 5, September 2005 ;[Goodwin]Μ. Goodwin, C. Avendano, “Enhancement of Audio Signals Using Transient Detection and Modification,,,presented at the AES 117thConvention, USA,October 2004 ;[WaIther]Walther et al.,“Using Transient Suppression in Blind Multi-channel Upmix Algorithms,,,presented at the AES 122th Convention,Austria, May 2007 ;
[Maher]R. C. Maher,"A Method for Extrapolation of Missing Digital Audio Data,,,JAES, Vol. 42,No. 5,May 1994 ;[Daudet] L. Daudet, "A review on techniques for the extraction of transients in musical signals,,,book series Lecture Notes in Computer Science, Springer Berlin/Heidelberg, Volume 3902/2006, Book Computer Music Modeling and Retrieval,pp.219—232.
權(quán)利要求
1.一種用于操縱包括暫態(tài)事件的音頻信號(110)的裝置(100),該裝置(100)包括暫態(tài)信號替換器(130),被配置成用替換信號部分來替換音頻信號的包括暫態(tài)事件的暫態(tài)信號部分,以獲得暫態(tài)減少音頻信號(132),該替換信號部分適應(yīng)于音頻信號的一個或多個非暫態(tài)信號部分的信號能量特性,或適應(yīng)于暫態(tài)信號部分的信號能量特性;信號處理器(140),被配置成處理暫態(tài)減少音頻信號(13 來獲得暫態(tài)減少音頻信號的經(jīng)處理(14 ;以及暫態(tài)信號重新插入器(150),被配置成將暫態(tài)減少音頻信號(13 的經(jīng)處理版本(142) 與以原始或經(jīng)處理形式表示暫態(tài)信號部分的暫態(tài)內(nèi)容的暫態(tài)信號(15 相組合。
2.如權(quán)利要求1所述的裝置(100),其中暫態(tài)信號替換器(130)被配置成提供替換信號部分,使得替換信號部分表示與暫態(tài)信號部分相比時具有平滑化時間演進的時間信號, 使得替換信號部分的能量與暫態(tài)信號部分之前或暫態(tài)信號部分之后的音頻信號(110)非暫態(tài)信號部分的能量之間的偏差小于預(yù)定的閾值。
3.如權(quán)利要求1或2所述的裝置(100),其中暫態(tài)信號替換器(130)被配置成對暫態(tài)信號部分之前的一個或多個信號部分的振幅值進行外插,來獲得替換信號部分的振幅值, 以及,其中暫態(tài)信號替換器(130)被配置成對暫態(tài)信號部分之前的一個或多個信號部分的相位值進行外插,來獲得替換信號部分的相位值。
4.如權(quán)利要求1或2所述的裝置(100),其中暫態(tài)信號替換器(130)被配置成在暫態(tài)信號部分之前的信號部分的振幅值與暫態(tài)信號部分之后的信號部分的振幅值之間進行內(nèi)插, 來獲得替換信號部分的一個或多個振幅值,以及其中暫態(tài)信號替換器(130)被配置成在暫態(tài)信號部分之前的信號部分的相位值與暫態(tài)信號部分之后的信號部分的相位值之間進行內(nèi)插,來獲得替換信號部分的一個或多個相位值。
5.如權(quán)利要求3或4所述的裝置(100),其中暫態(tài)信號替換器(130)被配置成施加加權(quán)噪聲,來獲得替換信號部分的所述振幅值,或被配置成施加加權(quán)噪聲,來獲得替換信號部分的所述相位值。
6.如權(quán)利要求3至5之一所述的裝置(100),其中暫態(tài)信號替換器(130)被配置成將暫態(tài)信號部分的非暫態(tài)分量與外插或內(nèi)插的值相組合,來獲得替換信號部分。
7.如權(quán)利要求1至6之一所述的裝置(100),其中該信號替換器(130)被配置成獲得具有依據(jù)當前暫態(tài)信號部分的長度而定的可變長度的替換信號部分。
8.如權(quán)利要求1至7之一所述的裝置(100),其中信號處理器(140)被配置成處理暫態(tài)減少音頻信號(132),使得該暫態(tài)減少音頻信號的所述經(jīng)處理版本(14 的給定時間信號部分依據(jù)該暫態(tài)減少音頻信號(132)的多個時移時間信號部分而定。
9.如權(quán)利要求1至8之一所述的裝置(100),其中信號處理器(140)被配置成執(zhí)行暫態(tài)減少音頻信號(13 的基于時間塊的處理,來獲得該暫態(tài)減少音頻信號的所述經(jīng)處理版本(142);以及其中暫態(tài)信號替換器(130)被配置成利用比時間塊的持續(xù)時間精細的時間分辨率,來調(diào)整要被替換信號部分替換的暫態(tài)信號部分的持續(xù)時間,或以持續(xù)時間比所述時間塊的持續(xù)時間短的替換信號部分,來替換持續(xù)時間比所述時間塊的持續(xù)時間短的暫態(tài)信號部分。
10.如權(quán)利要求1至9之一所述的裝置(100),其中信號處理器(140)被配置成以頻率相關(guān)方式來處理暫態(tài)減少音頻信號(132),使得該處理將暫態(tài)劣化頻率相關(guān)相位偏移引入到暫態(tài)減少音頻信號(132)中。
11.如權(quán)利要求1至10之一所述的裝置(100),其中暫態(tài)信號替換器(130)包括暫態(tài)檢測器(130a),其中該暫態(tài)檢測器(130a)被配置成提供時變檢測閾值以用于檢測音頻信號 (110)中的暫態(tài),使得該檢測閾值遵循通過可調(diào)整平滑時間常數(shù)來遵循音頻信號的包絡(luò),以及其中該暫態(tài)檢測器被配置成響應(yīng)于對暫態(tài)的檢測和/或依據(jù)音頻信號的時間演進,來改變所述平滑時間常數(shù)。
12.如權(quán)利要求1至11之一所述的裝置(100),其中該裝置(100)包括暫態(tài)處理器 (160),該暫態(tài)處理器(160)被配置成接收暫態(tài)信息(134),并基于該暫態(tài)信息(134)獲得經(jīng)處理的暫態(tài)信號(152),在該經(jīng)處理的暫態(tài)信號中音調(diào)分量減少,以及其中暫態(tài)信號重新插入器(150)被配置成將暫態(tài)減少音頻信號(13 的所述經(jīng)處理版本(14 與暫態(tài)處理器(160)所提供的所述經(jīng)處理的暫態(tài)信號(15 相組合。
13.如權(quán)利要求1至12之一所述的裝置(100),其中暫態(tài)信號替換器(130)包括暫態(tài)檢測器(130a,130c),該暫態(tài)檢測器被配置成基于對音頻信號(110)的監(jiān)視或基于伴隨該音頻信號的輔助信息,檢測該音頻信號(110)的暫態(tài)信號部分,以及被配置成確定暫態(tài)信號部分的長度;其中暫態(tài)信號替換器(130)被配置成考慮暫態(tài)檢測器(130a,130c)所確定的暫態(tài)信號部分的長度;其中暫態(tài)信號替換器(130)被配置成在時頻域中,外插與暫態(tài)信號部分之前的音頻信號(110)非暫態(tài)信號部分相關(guān)聯(lián)的復(fù)值時頻域系數(shù),來獲得替換信號部分的時頻域系數(shù), 或者其中暫態(tài)信號替換器(130)被配置成在時頻域中,在與暫態(tài)信號部分之前的音頻信號 (110)非暫態(tài)信號部分相關(guān)聯(lián)的復(fù)值時頻域系數(shù)以及與暫態(tài)信號部分之后的音頻信號非暫態(tài)信號部分相關(guān)聯(lián)的復(fù)值時頻域系數(shù)之間進行內(nèi)插,來獲得替換信號部分的時頻域系數(shù);其中信號處理器(140)被配置成通過時間延展或時間壓縮來執(zhí)行暫態(tài)劣化音頻信號處理,使得信號處理器(140)所提供的經(jīng)處理的信號(14 包括比音頻信號處理器所接收的未經(jīng)處理的信號(132)的持續(xù)時間長或短的持續(xù)時間;以及其中該裝置(100)被配置成適配暫態(tài)信號重新插入器(150)所獲得的信號的時間縮放或采樣速率,使得至少由暫態(tài)信號重新插入器(150)獲得的信號的非暫態(tài)分量相比于輸入暫態(tài)信號替換器(150)的音頻信號(110)而言是頻率轉(zhuǎn)換的。
14.如權(quán)利要求1至13之一所述的裝置(100),其中暫態(tài)信號重新插入器(150)被配置成使暫態(tài)減少音頻信號(13 的經(jīng)處理版本(14 與以原始或經(jīng)處理形式表示暫態(tài)信號部分的暫態(tài)內(nèi)容的暫態(tài)信號(15 交叉衰落。
15.一種用于操縱包括暫態(tài)事件的音頻信號的方法(1200),該方法包括以適應(yīng)于音頻信號的一個或多個非暫態(tài)信號部分的信號能量特性或適應(yīng)于暫態(tài)信號部分的信號能量特性的替換信號部分,來替換(1210)音頻信號的包括暫態(tài)事件的暫態(tài)信號部分,以獲得暫態(tài)減少音頻信號;處理(1220)暫態(tài)減少音頻信號,以獲得該暫態(tài)減少音頻信號的經(jīng)處理版本;以及將暫態(tài)減少音頻信號的經(jīng)處理版本與以原始或經(jīng)處理形式表示暫態(tài)信號部分的暫態(tài)內(nèi)容的暫態(tài)信號相組合(1230)。
16. 一種計算機程序,在計算機上運行時執(zhí)行如權(quán)利要求15所述的方法。
全文摘要
用于操縱包括暫態(tài)事件的音頻信號(110)的裝置(100),該裝置(100)包括暫態(tài)信號替換器(130),被配置成用替換信號部分來替換音頻信號的包括暫態(tài)事件的暫態(tài)信號部分,以獲得暫態(tài)減少音頻信號(132),該替換信號部分適應(yīng)于音頻信號的一個或多個非暫態(tài)信號部分的信號能量特性,或適應(yīng)于暫態(tài)信號部分的信號能量特性。該裝置還包括信號處理器(140),被配置成處理暫態(tài)減少音頻信號(132)來獲得暫態(tài)減少音頻信號的經(jīng)處理(142)。該裝置還包括暫態(tài)信號重新插入器(150),被配置成將暫態(tài)減少音頻信號(132)的經(jīng)處理版本(142)與以原始或經(jīng)處理形式表示暫態(tài)信號部分的暫態(tài)內(nèi)容的暫態(tài)信號相組合。
文檔編號G10L19/02GK102341847SQ201080009914
公開日2012年2月1日 申請日期2010年1月5日 優(yōu)先權(quán)日2009年1月30日
發(fā)明者哈拉爾德·波普, 安德烈亞斯·沃爾瑟, 弗雷德里克·納格爾, 熱雷米·勒康特, 紀堯姆·??怂? 蒂洛·維嘉 申請人:弗勞恩霍夫應(yīng)用研究促進協(xié)會