專利名稱:對(duì)音頻信號(hào)進(jìn)行編碼和解碼的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體構(gòu)思涉及一種音頻編碼器/解碼器(編解碼器),更具體地講,涉及一種音頻編碼/解碼方法和設(shè)備,其可使用時(shí)標(biāo)壓縮/擴(kuò)展來(lái)再現(xiàn)高質(zhì)量的音頻信號(hào)而不損失高頻帶。
背景技術(shù):
運(yùn)動(dòng)圖像專家組-1(MPEG-1)是涉及數(shù)字視頻和音頻壓縮的標(biāo)準(zhǔn),其由國(guó)際標(biāo)準(zhǔn)化組織(ISO)支持。MPEG-1音頻被用于壓縮具有44.1KHz采樣率的音頻信號(hào),該音頻信號(hào)被存儲(chǔ)在具有60至72分鐘容量的CD上,并且該MPEG-1音頻基于壓縮方法和編碼譯碼器的復(fù)雜性被分為三層。
在這三層中,由于層3使用比層2更多的濾波器并且使用霍夫曼編碼方案,所以它是最復(fù)雜的。此外,在層3中,聲音的質(zhì)量取決于編碼的比特率(112kb/s、128kb/s和160kb/s等)。MPEG-1層3音頻一般被成為‘MP3’音頻。
使用具有濾波器組和心理聲學(xué)模型的離散余旋變換器(DCT),MP3音頻信號(hào)通過(guò)比特分配和量化被編碼。
然而,如果MP3音頻信號(hào)被加重地壓縮,則它的高頻帶可被損失或者刪除。例如,在96kb/s的MP3文件中,高于11.025kHz的頻率分量在32濾波器組值中被損失。在128kb/s的MP3文件中,高于15kHz的頻率分量在32濾波器組值中被損失。由于人的聽(tīng)覺(jué)一般對(duì)某些高頻分量不太敏感,所以為了將音頻信號(hào)壓縮成MP3格式,高頻帶有時(shí)被丟棄。然而,這種高頻帶的損失改變了音調(diào)并降低了聲音的清晰度,給出了單調(diào)的、抑制的輸出聲音。
發(fā)明內(nèi)容
本發(fā)明總體構(gòu)思提供了一種音頻編碼/解碼方法,該方法可通過(guò)使用時(shí)標(biāo)壓縮/擴(kuò)展來(lái)再現(xiàn)高質(zhì)量的音頻信號(hào)而不損失高頻帶。
本發(fā)明總體構(gòu)思還提供了一種音頻編碼/解碼設(shè)備,該設(shè)備可執(zhí)行所述音頻編碼/解碼方法。
本發(fā)明總體構(gòu)思的其它方面和優(yōu)點(diǎn)部分將在以下描述中闡述,部分從描述中將是清楚的,或者可通過(guò)本發(fā)明總體構(gòu)思的實(shí)踐而被了解。
本發(fā)明總體構(gòu)思的上述和/或其它方面和優(yōu)點(diǎn)將通過(guò)提供一種音頻編碼/解碼方法來(lái)實(shí)現(xiàn),該音頻編碼/解碼方法包括通過(guò)確定輸入音頻信號(hào)的幀之間的相似性來(lái)將所述輸入音頻信號(hào)編碼為音頻數(shù)據(jù);將關(guān)于時(shí)標(biāo)的輸入音頻信號(hào)壓縮;產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志;基于幀時(shí)標(biāo)修改標(biāo)志從編碼的音頻信號(hào)中對(duì)音頻數(shù)據(jù)進(jìn)行解碼。
本發(fā)明總體構(gòu)思的上述和/或其它方面和優(yōu)點(diǎn)還可以通過(guò)提供一種音頻編碼/解碼設(shè)備來(lái)實(shí)現(xiàn),該音頻編碼/解碼設(shè)備包括預(yù)處理器,基于輸入音頻信號(hào)的幀之間的相似性來(lái)壓縮關(guān)于時(shí)標(biāo)的輸入音頻信號(hào),并因此產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志;編碼器,基于心理聲學(xué)模型,將壓縮的音頻信號(hào)編碼成音頻數(shù)據(jù);打包單元,將由預(yù)處理器產(chǎn)生的幀時(shí)標(biāo)修改標(biāo)志和由編碼器編碼的音頻數(shù)據(jù)轉(zhuǎn)換為比特流;解包單元,從由解包單元接收的比特流中分離幀時(shí)標(biāo)修改標(biāo)志和音頻數(shù)據(jù);解碼器,通過(guò)使用預(yù)定的解碼算法將由解包單元分離的音頻數(shù)據(jù)解碼為解碼的音頻信號(hào);后處理器,當(dāng)由解包單元分離的幀時(shí)標(biāo)修改標(biāo)志是可用的時(shí),通過(guò)擴(kuò)展時(shí)標(biāo)將由解碼器解碼的音頻信號(hào)擴(kuò)展。
下面通過(guò)結(jié)合附圖對(duì)實(shí)施例進(jìn)行的描述,本發(fā)明總體構(gòu)思的這些和/或其它方面和優(yōu)點(diǎn)將會(huì)變得清楚和更容易理解,其中圖1是示出根據(jù)本發(fā)明總體構(gòu)思的實(shí)施例的音頻編碼設(shè)備的方框圖;圖2A示出了根據(jù)本發(fā)明總體構(gòu)思的實(shí)施例的圖1的音頻編碼設(shè)備的預(yù)處理器;圖2B示出根據(jù)本發(fā)明總體構(gòu)思的另一實(shí)施例的圖1的音頻編碼設(shè)備的預(yù)處理器;圖3示出了圖1的音頻編碼設(shè)備的編碼器;圖4是示出根據(jù)本發(fā)明總體構(gòu)思的實(shí)施例的音頻解碼設(shè)備的方框圖;
圖5示出了圖4的音頻解碼設(shè)備的后處理器;圖6示出了圖4的音頻解碼設(shè)備的解碼器;圖7是示出根據(jù)本發(fā)明總體構(gòu)思的實(shí)施例的確定幀相似性的方法的流程圖;圖8A至圖8C是示出根據(jù)本發(fā)明總體構(gòu)思的實(shí)施例的修改時(shí)標(biāo)的方法的波形圖。
具體實(shí)施例方式
現(xiàn)在將詳細(xì)地說(shuō)明本發(fā)明總體構(gòu)思的實(shí)施例,其示例在附圖中示出,其中,相同的標(biāo)號(hào)始終表示相同的元件。為了說(shuō)明本發(fā)明總體構(gòu)思,下面參照附圖來(lái)描述實(shí)施例。
圖1是示出根據(jù)本發(fā)明總體構(gòu)思的實(shí)施例的音頻編碼設(shè)備的方框圖。
參照?qǐng)D1,預(yù)處理器110確定輸入音頻信號(hào)的幀之間的相似性,如果相似性大于預(yù)定的值,則修改關(guān)于時(shí)標(biāo)的對(duì)應(yīng)的幀音頻信號(hào),并且產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志。
基于心理聲學(xué)模型,編碼器120將由預(yù)處理器110預(yù)處理的音頻信號(hào)編碼為音頻數(shù)據(jù)。
打包單元130根據(jù)由預(yù)處理器110產(chǎn)生的幀時(shí)標(biāo)修改標(biāo)志以及由編碼器120編碼的音頻數(shù)據(jù)來(lái)構(gòu)造信號(hào)輸出流(即比特流)。
圖2A示出了根據(jù)本發(fā)明總體構(gòu)思的實(shí)施例的圖1的預(yù)處理器110。
參照?qǐng)D2A,幀相似性確定器210對(duì)輸入信號(hào)的每個(gè)幀分析頻率分量,并基于各個(gè)幀的頻率分量之間的差來(lái)確定幀之間的相似性。如果先前幀和當(dāng)前幀之間的相似性大于預(yù)定的值,則幀相似性確定器210產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志。
根據(jù)如果幀相似性確定器210產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志,則時(shí)標(biāo)修改器220修改關(guān)于時(shí)標(biāo)的相應(yīng)的幀。
圖2B示出了根據(jù)本發(fā)明總體構(gòu)思的另一實(shí)施例的圖1的預(yù)處理器。
參照?qǐng)D2B,如果先前幀和當(dāng)前幀之間的相似性大于預(yù)定的值,則幀相似性確定器210產(chǎn)生跳幀標(biāo)志。
根據(jù)如果幀相似性確定器210產(chǎn)生跳幀標(biāo)志,則跳幀單元220-1跳過(guò)當(dāng)前幀。由于當(dāng)前幀與先前幀相似,則跳幀標(biāo)志通知跳幀單元220-1當(dāng)前幀不應(yīng)該被編碼。然后跳幀標(biāo)志與編碼的音頻數(shù)據(jù)一起由打包單元130(見(jiàn)圖1)被打包為比特流,以向解碼器設(shè)備通知當(dāng)前幀在編碼處理期間已經(jīng)被跳過(guò)。因此,然后解碼設(shè)備可使用先前幀的數(shù)據(jù)獲得當(dāng)前幀的數(shù)據(jù)。
圖3示出了圖1的編碼器120。
參照?qǐng)D3,濾波器組單元310使用多相濾波器組以每個(gè)粒度為單位將輸入的脈沖編碼調(diào)制(PCM)的音頻采樣頻帶分割為32子帶。另外,每個(gè)子帶通過(guò)改進(jìn)離散余弦變換(MDCT)被變換為18個(gè)頻譜系數(shù)。
心理聲學(xué)模型單元320使用心理聲學(xué)發(fā)現(xiàn)的聽(tīng)覺(jué)限制和掩蔽效應(yīng)來(lái)對(duì)于每個(gè)子帶確定比特分配信息。心理聲學(xué)依賴于人類對(duì)聲音的聽(tīng)覺(jué)特性。例如,高能級(jí)的頻率分量掩蓋了低能級(jí)的頻率分量。因此,可使用少量的比特(或者根本沒(méi)有比特)來(lái)以低準(zhǔn)確度對(duì)低能級(jí)的頻率分量進(jìn)行編碼。
使用對(duì)于基于心理聲學(xué)模型單元320的心理聲學(xué)模型確定的每個(gè)濾波器組子帶的比特分配信息,比特分配器330將比特分配給由濾波器組單元310分割的濾波器組子帶或者頻譜系數(shù)。
圖4是示出了根據(jù)本發(fā)明總體構(gòu)思的實(shí)施例的音頻解碼設(shè)備的方框圖。
參照?qǐng)D4,解包單元410接收比特流,并分離幀時(shí)標(biāo)修改標(biāo)志、頭信息、輔助信息和編碼的音頻數(shù)據(jù)的主要數(shù)據(jù)比特。
解碼器420恢復(fù)MDCT或者關(guān)于由解包單元410分離的主要數(shù)據(jù)比特的濾波器組元件,并通過(guò)執(zhí)行逆MDCT或者通過(guò)執(zhí)行MDCT或者濾波器組分量的逆濾波產(chǎn)生音頻信號(hào)。
如果從解包單元410接收的幀時(shí)標(biāo)修改標(biāo)志是可用的,則后處理器430通過(guò)執(zhí)行時(shí)標(biāo)擴(kuò)展來(lái)擴(kuò)展由解碼器420解碼的音頻信號(hào)。換句話說(shuō),當(dāng)在先前編碼處理期間解碼的音頻信號(hào)的對(duì)應(yīng)的幀已經(jīng)是修改的(壓縮的)時(shí)間幀時(shí),幀時(shí)標(biāo)修改標(biāo)志通知后處理器430,從而后處理器430可再修改(即擴(kuò)展)所述對(duì)應(yīng)的幀以獲得原始音頻信號(hào)。
圖5示出了圖4的后處理器430的示例。
參照?qǐng)D5,根據(jù)如果接收了幀時(shí)標(biāo)修改標(biāo)志,則時(shí)標(biāo)修改器550通過(guò)執(zhí)行時(shí)標(biāo)擴(kuò)展來(lái)擴(kuò)展由解碼器420解碼的音頻信號(hào)x(n)。
圖6示出了圖4的解碼器420的示例。
參照?qǐng)D6,逆量化器610通過(guò)逆量化解包的主要數(shù)據(jù)比特來(lái)恢復(fù)MDCT或者濾波器組元件。
逆濾波器組單元620通過(guò)執(zhí)行逆MDCT,或者通過(guò)執(zhí)行恢復(fù)的MDCT或者濾波器組元件的逆濾波來(lái)產(chǎn)生音頻信號(hào)x(n)。
圖7是示出通過(guò)根據(jù)本發(fā)明總體構(gòu)思的實(shí)施例的由幀相似性確定器210來(lái)確定幀相似性的方法的流程圖。在本發(fā)明總體構(gòu)思的幾個(gè)實(shí)施例中,通過(guò)圖2A和圖2B的預(yù)處理器110可執(zhí)行該方法。
在操作710中,輸入音頻信號(hào)。
在操作720中,通過(guò)使用FFT(快速傅立葉變換),所述輸入音頻信號(hào)的頻率分量以幀為單位(即對(duì)于輸入音頻信號(hào)中的每個(gè)幀)被分析。
在操作730中,計(jì)算先前幀和當(dāng)前幀之間的分析的頻率分量差。
在操作740中,如果分析出的頻率分量差小于或者等于預(yù)定的閾值,則確定在先前幀和當(dāng)前幀之間存在相似性,并且在操作750中,產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志。如果分析出的頻率分量差大于預(yù)定的閾值時(shí),則確定在先前幀和當(dāng)前幀之間不存在相似性,不產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志。
圖8A至圖8C是示出修改時(shí)標(biāo)的方法的波形圖。在幾個(gè)實(shí)施例中,可通過(guò)圖2A和圖2B的預(yù)處理器110和圖4的后處理器430應(yīng)用該方法,以分別壓縮或者擴(kuò)展關(guān)于時(shí)標(biāo)的音頻信號(hào)。
時(shí)標(biāo)修改指信號(hào)再現(xiàn)速率中的改變。所述時(shí)標(biāo)修改對(duì)信號(hào)再現(xiàn)速率進(jìn)行修改而不改變輸出音頻信號(hào)的音調(diào)。
時(shí)標(biāo)修改包括兩個(gè)主要操作時(shí)標(biāo)壓縮(信號(hào)再現(xiàn)速率的增加)和時(shí)標(biāo)擴(kuò)展(信號(hào)再現(xiàn)速率的減少)。時(shí)標(biāo)壓縮通過(guò)刪除音調(diào)持續(xù)時(shí)間(pitch duration)被執(zhí)行,而時(shí)標(biāo)擴(kuò)展通過(guò)插入附加音調(diào)持續(xù)時(shí)間而被執(zhí)行。被刪除和被插入的音調(diào)持續(xù)時(shí)間可存在于輸入音頻信號(hào)的幀中,或者對(duì)應(yīng)于所述輸入音頻信號(hào)的幀。一般地,SOLA(synchronized overlap and add)方法具有極好的性能并且可被用作刪除和/或插入音調(diào)持續(xù)時(shí)間。
SOLA方法使用互相關(guān)系數(shù),該互相關(guān)系數(shù)能夠不使用FFT在時(shí)間領(lǐng)域使時(shí)標(biāo)修改。
不管信號(hào)音調(diào),SOLA功能操作。即,輸入信號(hào)具有固定的長(zhǎng)度,并且通過(guò)將輸入信號(hào)劃分成多個(gè)窗口被傳輸。這里,所述固定長(zhǎng)度應(yīng)該具有至少2至3個(gè)音調(diào)持續(xù)時(shí)間。
輸出信號(hào)通過(guò)重疊和相加該輸入信號(hào)的音調(diào)持續(xù)時(shí)間被合成。
假設(shè)x(n)表示輸入信號(hào),y(n)表示時(shí)標(biāo)修改的信號(hào)(即,所述合成信號(hào))。此外,假設(shè)N表示幀的長(zhǎng)度,Sa表示輸入信號(hào)x(n)的幀之間的間隔,Ss表示時(shí)標(biāo)修改的信號(hào)y(n)的幀之間的間隔。修改比a通過(guò)Ss/Sa得到。這里,如果a大于1,則時(shí)標(biāo)修改對(duì)應(yīng)于時(shí)標(biāo)壓縮,如果a小于1,則時(shí)標(biāo)修改對(duì)應(yīng)于時(shí)標(biāo)擴(kuò)展。
SOLA功能從x(n)到y(tǒng)(n)復(fù)制第一幀x(Sa)。輸入信號(hào)的第m幀x(mSa+j)(0≤j≤N-1)被與鄰近的時(shí)標(biāo)修改的信號(hào)y(mSs+j)合成,并且被增加到鄰近的時(shí)標(biāo)修改信號(hào)y(mSs+j)。為了使當(dāng)前幀x(mSa+j)和先前幀x(m(Sa-1)+j)之間的互相關(guān)(由下面的方程1定義)最大化,當(dāng)前幀x(mSa+j)沿著y(mSs)位置周圍的時(shí)標(biāo)修改的信號(hào)y(n)移動(dòng),以發(fā)現(xiàn)標(biāo)準(zhǔn)的互相關(guān)系數(shù)Rm最大化的位置。因此,為了修改輸入信號(hào)x(n)的時(shí)標(biāo)而不影響輸入信號(hào)x(n)的音調(diào),SOLA功能允許在幀內(nèi)有可變的重疊區(qū)域。如方程1所示,第m幀內(nèi)的SOLA功能的標(biāo)準(zhǔn)的互相關(guān)系數(shù)Rm相對(duì)于允許范圍的幀排列偏移k而獲得。
方程1Rm(k)=Σj=0L-1y(mSS+k+j)x(mSa+j)Σj=0L-1x2(mSa+j)Σj=0L-1y2(mSS+k+j),-N2≤k≤N2]]>這里,x(n)表示用于時(shí)標(biāo)修改的輸入信號(hào),y(n)表示時(shí)標(biāo)修改的信號(hào),m表示幀的數(shù)量,L表示x(n)和y(n)重疊的區(qū)域的長(zhǎng)度。
因此,只要Rm被確定,y(n)就如方程2所示的被更新。
方程2y(mSS+km+j)=(1-f(j))y(mSS+km+j)+f(j)x(mSa+j)0≤j≤Lm-1x(mSa+j)Lm≤j≤N-1]]>這里,Lm表示兩個(gè)信號(hào)之間重疊的區(qū)域,其中,包括確定的Rm,f(j)表示0≤f(j)≤1中的加權(quán)函數(shù)。
因此,如圖8A至8C所示,原始信號(hào)的時(shí)標(biāo)壓縮和擴(kuò)展可使用SOLA方法被執(zhí)行。即,圖8A示出了原始信號(hào)(實(shí)線)以及第一重疊段和第二重疊段(點(diǎn)線),圖8B是示出使用重疊的同步段的原始信號(hào)的時(shí)標(biāo)擴(kuò)展的波形圖,圖8C是示出使用重疊的同步段的原始信號(hào)的時(shí)標(biāo)壓縮的波形圖。因此,在此描述的SOLA方法通過(guò)圖1的預(yù)處理器110和/或后處理器430被使用,以分別壓縮和/或擴(kuò)展信號(hào)的時(shí)標(biāo)。此外,本發(fā)明總體構(gòu)思可由計(jì)算機(jī)可讀介質(zhì)中的可執(zhí)行代碼被具體化,該計(jì)算機(jī)可讀介質(zhì)包括存儲(chǔ)介質(zhì),例如磁性存儲(chǔ)介質(zhì)(ROM、RAM、軟盤(pán)、磁帶等)、光學(xué)可讀介質(zhì)(CD-ROM、DVD等),和載波(在互聯(lián)網(wǎng)上傳輸)。
如上所述,根據(jù)本發(fā)明總體構(gòu)思的實(shí)施例,通過(guò)使用時(shí)標(biāo)修改來(lái)減少音頻信號(hào)中相似幀的數(shù)量,可再現(xiàn)極好質(zhì)量的音頻信號(hào)而不損失高頻帶。
雖然已經(jīng)顯示和描述了本發(fā)明總體構(gòu)思的幾個(gè)實(shí)施例,但是本領(lǐng)域的這些技術(shù)人員應(yīng)該理解,在不脫離由本發(fā)明總體構(gòu)思的原則和精神的情況下,可以對(duì)這些實(shí)施例進(jìn)行修改,本發(fā)明總體構(gòu)思的范圍由權(quán)利要求和它的等同物所限定。
權(quán)利要求
1.一種音頻編碼/解碼方法,該方法包括通過(guò)確定輸入音頻信號(hào)的幀之間的相似性來(lái)對(duì)所述輸入音頻信號(hào)的音頻數(shù)據(jù)進(jìn)行編碼,壓縮關(guān)于時(shí)標(biāo)的所述輸入音頻信號(hào),并產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志;基于幀時(shí)標(biāo)修改標(biāo)志從編碼的音頻信號(hào)中對(duì)所述音頻數(shù)據(jù)進(jìn)行解碼。
2.如權(quán)利要求1所述的方法,其中,所述輸入音頻信號(hào)的編碼包括通過(guò)確定所述輸入音頻信號(hào)的幀之間的相似性來(lái)預(yù)處理所述輸入音頻信號(hào),壓縮關(guān)于時(shí)標(biāo)的所述輸入音頻信號(hào),并產(chǎn)生所述幀時(shí)標(biāo)修改標(biāo)志;基于心理聲學(xué)模型來(lái)對(duì)所述預(yù)處理的音頻信號(hào)的音頻數(shù)據(jù)進(jìn)行編碼;將所述幀時(shí)標(biāo)修改標(biāo)志和所述編碼的音頻數(shù)據(jù)轉(zhuǎn)換為比特流。
3.如權(quán)利要求2所述的方法,其中,所述輸入音頻信號(hào)的預(yù)處理包括根據(jù)Rm(k)=Σj=0L-1y(mSS+k+j)x(mSa+j)Σj=0L-1x2(mSa+j)Σj-0L-1y2(mSS+k+j),-N2≤k≤N2]]>來(lái)執(zhí)行同步的重疊和相加處理,其中,Rm包括互相關(guān)系數(shù),x(n)包括輸入信號(hào),y(n)包括時(shí)標(biāo)修改的信號(hào)y(n),Sa包括所述輸入信號(hào)x(n)的幀之間的間隔,Ss包括所述時(shí)標(biāo)修改信號(hào)y(n)的幀之間的間隔,N包括幀的長(zhǎng)度,L包括所述輸入信號(hào)x(n)和所述時(shí)標(biāo)修改的信號(hào)y(n)之間重疊的區(qū)域。
4.如權(quán)利要求2所述的方法,其中,所述預(yù)處理包括確定所述輸入音頻信號(hào)的幀之間的相似性,如果先前幀和當(dāng)前幀之間的相似性大于預(yù)定的值,則產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志;基于所述產(chǎn)生的幀時(shí)標(biāo)修改標(biāo)志來(lái)壓縮關(guān)于所述時(shí)標(biāo)的所述當(dāng)前幀。
5.如權(quán)利要求4所述的方法,其中,所述相似性的確定包括對(duì)所述輸入音頻信號(hào)的每個(gè)幀分析頻率分量;計(jì)算所述先前幀和當(dāng)前幀之間的分析的頻率分量差;如果所述頻率分量差小于或者等于預(yù)定的閾值,則確定在所述先前幀和當(dāng)前幀之間存在相似性,如果所述頻率分量差大于所述預(yù)定的閾值,則確定在所述先前幀和當(dāng)前幀之間不存在相似性。
6.如權(quán)利要求2所述的方法,所述預(yù)處理包括確定所述輸入音頻信號(hào)的幀之間的相似性;如果所述先前幀和當(dāng)前幀之間的相似性大于預(yù)定的值,則跳過(guò)當(dāng)前幀。
7.如權(quán)利要求6所述的方法,其中,所述相似性的確定包括對(duì)所述輸入音頻信號(hào)的每個(gè)幀分析頻率分量;計(jì)算所述先前幀和當(dāng)前幀之間的分析的頻率分量差;如果所述頻率分量差小于或者等于預(yù)定的閾值,則確定相似性存在于所述先前幀和當(dāng)前幀之間,如果所述頻率分量差大于所述預(yù)定的閾值,則確定在所述先前幀和當(dāng)前幀之間不存在相似性。
8.如權(quán)利要求2所述的方法,其中,所述輸入音頻信號(hào)的編碼包括使用多相濾波器組將音頻采樣分割為多個(gè)子帶;根據(jù)多個(gè)子帶的心理聲學(xué)的掩蔽效應(yīng)和聽(tīng)覺(jué)限制,對(duì)于每個(gè)子帶確定比特分配信息;基于對(duì)每個(gè)子帶確定的所述比特分配信息,將比特分配給所述多個(gè)子帶。
9.如權(quán)利要求1所示的方法,其中,所述編碼的音頻信號(hào)的解碼包括從輸入比特流中分離所述幀時(shí)標(biāo)修改標(biāo)志和音頻數(shù)據(jù);使用預(yù)定的解碼算法來(lái)對(duì)所述分離的音頻數(shù)據(jù)進(jìn)行解碼;當(dāng)所述分離的幀時(shí)標(biāo)修改標(biāo)志是可用的時(shí),通過(guò)執(zhí)行時(shí)標(biāo)擴(kuò)展來(lái)擴(kuò)展所述解碼的音頻信號(hào)。
10.一種對(duì)音頻數(shù)據(jù)進(jìn)行編碼的方法,該方法包括接收具有被劃分為多個(gè)時(shí)間幀的數(shù)據(jù)的輸入信號(hào);確定所述輸入信號(hào)的多個(gè)幀之間的相似性,并當(dāng)當(dāng)前幀被確定為與先前幀相似時(shí),產(chǎn)生時(shí)標(biāo)修改標(biāo)志,以指示所述當(dāng)前幀的至少幾個(gè)數(shù)據(jù)沒(méi)有被編碼;根據(jù)如果所述時(shí)標(biāo)修改標(biāo)志被產(chǎn)生,則壓縮關(guān)于時(shí)標(biāo)的所述多個(gè)幀的數(shù)據(jù);形成包括所述壓縮數(shù)據(jù)以及一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志的比特流。
11.如權(quán)利要求10所述的方法,其中,所述多個(gè)幀的數(shù)據(jù)的壓縮包括當(dāng)對(duì)應(yīng)的時(shí)標(biāo)修改標(biāo)志被產(chǎn)生時(shí),跳過(guò)當(dāng)前幀。
12.如權(quán)利要求10所述的方法,其中,所述相似性的確定包括比較輸入信號(hào)的多個(gè)頻率子帶的頻率分量。
13.如權(quán)利要求12所述方法,其中,所述頻率分量的比較包括計(jì)算當(dāng)前幀和先前幀之間的頻率分量差,并且將所述計(jì)算的頻率分量差與相似性閾值比較。
14.如權(quán)利要求10所述的方法,其中,所述比特流的形成包括根據(jù)心理聲學(xué)模型來(lái)對(duì)所述壓縮的數(shù)據(jù)進(jìn)行編碼;將所述編碼的數(shù)據(jù)、所述一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志、頭信息和輔助信息打包成比特流。
15.如權(quán)利要求10所述的方法,其中,數(shù)據(jù)的壓縮包括增加信號(hào)再現(xiàn)速率。
16.如權(quán)利要求10所述的方法,其中,多個(gè)幀的數(shù)據(jù)的壓縮包括重疊和相加所述輸入信號(hào)的音調(diào)持續(xù)時(shí)間。
17.一種編碼音頻數(shù)據(jù)的方法,該方法包括通過(guò)壓縮關(guān)于時(shí)標(biāo)的音頻信號(hào)來(lái)對(duì)音頻信號(hào)執(zhí)行時(shí)標(biāo)修改操作,以增加所述音頻信號(hào)的信號(hào)再現(xiàn)速率;根據(jù)心理聲學(xué)模型,通過(guò)分配比特來(lái)對(duì)所述壓縮的音頻信號(hào)進(jìn)行編碼。
18.一種對(duì)音頻數(shù)據(jù)解碼的方法,該方法包括接收輸入比特流并且從其中提取音頻數(shù)據(jù)以及一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志;從所述的輸入比特流中對(duì)音頻數(shù)據(jù)進(jìn)行解碼以獲得音頻信號(hào);根據(jù)與所述音頻數(shù)據(jù)一起接收的所述一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志,擴(kuò)展關(guān)于時(shí)標(biāo)的解碼的音頻信號(hào)。
19.如權(quán)利要求18所述的方法,其中,所述一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志指示音頻信號(hào)的一個(gè)或者多個(gè)幀,該所述音頻信號(hào)在先前編碼操作期間關(guān)于時(shí)標(biāo)被壓縮。
20.如權(quán)利要求18所述的方法,其中,所述一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志指示音頻信號(hào)的一個(gè)或者多個(gè)幀,該所述音頻信號(hào)在先前編碼操作期間被跳過(guò)。
21.一種音頻編碼/解碼設(shè)備,包括預(yù)處理器,基于輸入音頻信號(hào)的幀之間的相似性來(lái)壓縮關(guān)于時(shí)標(biāo)的所述輸入音頻信號(hào),并由此產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志;編碼器,基于心理聲學(xué)模型,將所述壓縮的音頻信號(hào)編碼為音頻數(shù)據(jù);打包單元,將由所述預(yù)處理器產(chǎn)生的所述幀時(shí)標(biāo)修改標(biāo)志和由所述編碼器編碼的所述音頻數(shù)據(jù)轉(zhuǎn)換為比特流;解包單元,從由所述打包單元接收的比特流中分離所述幀時(shí)標(biāo)修改標(biāo)志和所述音頻數(shù)據(jù);解碼器,通過(guò)使用預(yù)定的解碼算法,將由所述解包單元分離的所述音頻數(shù)據(jù)解碼為解碼的音頻信號(hào);后處理器,當(dāng)由所述解包單元分離的所述幀時(shí)標(biāo)修改標(biāo)志是可用的時(shí),通過(guò)擴(kuò)展所述時(shí)標(biāo)來(lái)擴(kuò)展由解碼器解碼的音頻信號(hào)。
22.如權(quán)利要求21所述的設(shè)備,其中,所述的預(yù)處理器包括幀相似性確定器,對(duì)于所述輸入音頻信號(hào)的每個(gè)幀分析頻率分量,基于所述頻率分量之間的差確定幀之間的相似性,并且如果先前幀和當(dāng)前幀之間的相似性大于預(yù)定的值,則產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志;時(shí)標(biāo)修改器,根據(jù)如果由所述幀相似性確定器產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志,則壓縮關(guān)于所述時(shí)標(biāo)的所述當(dāng)前幀。
23.一種對(duì)音頻數(shù)據(jù)進(jìn)行編碼的設(shè)備,包括預(yù)處理器,接收具有被分為多個(gè)幀的數(shù)據(jù)的輸入信號(hào),所述預(yù)處理器包括幀相似性確定器,在所述輸入信號(hào)的多個(gè)幀之中確定相似性,并當(dāng)當(dāng)前幀被確定為相似于先前幀時(shí),產(chǎn)生時(shí)標(biāo)修改標(biāo)志,以指示所述當(dāng)前幀的至少幾個(gè)數(shù)據(jù)沒(méi)有被編碼;時(shí)標(biāo)修改器,根據(jù)如果產(chǎn)生時(shí)標(biāo)修改標(biāo)志,則壓縮關(guān)于時(shí)標(biāo)的所述多個(gè)幀的數(shù)據(jù);編碼器,形成比特流,所述比特流包括所述壓縮的數(shù)據(jù)和一個(gè)或者多個(gè)所述時(shí)標(biāo)修改標(biāo)志。
24.如權(quán)利要求23所述的設(shè)備,其中,所述時(shí)標(biāo)修改器包括跳幀單元,當(dāng)相應(yīng)的時(shí)標(biāo)修改標(biāo)志從幀相似性確定器被接收時(shí),跳過(guò)當(dāng)前幀。
25.如權(quán)利要求23所述的設(shè)備,其中,所述幀相似性確定器將所述輸入信號(hào)的多個(gè)頻率子帶的頻率分量進(jìn)行比較。
26.如權(quán)利要求25所述的設(shè)備,其中,通過(guò)計(jì)算當(dāng)前幀和先前幀之間的頻率分量差,并將所述計(jì)算的頻率分量差與相似性閾值進(jìn)行比較,幀相似性確定器將所述頻率分量進(jìn)行比較。
27.如權(quán)利要求23所述的設(shè)備,其中,所述編碼器包括比特分配器,根據(jù)心理聲學(xué)模型分配比特以對(duì)所述壓縮的數(shù)據(jù)進(jìn)行編碼;打包單元,將所述編碼的數(shù)據(jù)、所述一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志、頭信息和輔助信息打包為比特流。
28.如權(quán)利要求23所述的設(shè)備,其中,所述時(shí)標(biāo)修改器增加信號(hào)再現(xiàn)速率。
29.一種對(duì)音頻數(shù)據(jù)進(jìn)行編碼的設(shè)備,包括預(yù)處理器,對(duì)音頻信號(hào)執(zhí)行時(shí)標(biāo)修改操作,以通過(guò)壓縮關(guān)于時(shí)標(biāo)的所述音頻信號(hào)來(lái)增加所述音頻信號(hào)的信號(hào)再現(xiàn)速率;編碼單元,根據(jù)心理聲學(xué)模型,通過(guò)分配比特來(lái)對(duì)所述壓縮的音頻信號(hào)進(jìn)行編碼。
30.一種對(duì)音頻數(shù)據(jù)進(jìn)行解碼的設(shè)備,包括解包單元,接收輸入比特流并從其中提取音頻數(shù)據(jù)和一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志;解碼器,從所述輸入比特流中對(duì)所述音頻數(shù)據(jù)進(jìn)行解碼以獲得音頻信號(hào);后處理器,根據(jù)與所述音頻數(shù)據(jù)一起接收的所述一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志,將關(guān)于時(shí)標(biāo)的解碼的音頻信號(hào)擴(kuò)展。
31.如權(quán)利要求30所述的設(shè)備,其中,所述一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志指示所述音頻信號(hào)的一個(gè)或者多個(gè)幀,在先前編碼操作期間,該所述音頻信號(hào)關(guān)于所述時(shí)標(biāo)別壓縮。
32.如權(quán)利要求30所述的設(shè)備,其中,所述一個(gè)或者多個(gè)時(shí)標(biāo)修改標(biāo)志指示所述音頻信號(hào)的一個(gè)或者多個(gè)幀,該所述音頻信號(hào)在先前編碼期間被跳過(guò)。
33.一種包含對(duì)音頻信號(hào)數(shù)據(jù)進(jìn)行編碼和/或解碼的可執(zhí)行代碼的計(jì)算機(jī)可讀介質(zhì),所述介質(zhì)包括第一可執(zhí)行代碼,通過(guò)確定輸入音頻信號(hào)的幀之間的相似性,壓縮關(guān)于時(shí)標(biāo)的所述輸入音頻信號(hào),并因此產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志,來(lái)對(duì)所述輸入音頻信號(hào)的音頻數(shù)據(jù)編碼;第二可執(zhí)行代碼,基于所述幀時(shí)標(biāo)修改標(biāo)志,從所述編碼的音頻信號(hào)中對(duì)音頻數(shù)據(jù)進(jìn)行解碼。
全文摘要
一種音頻編碼/解碼方法和設(shè)備,通過(guò)使用時(shí)標(biāo)壓縮/擴(kuò)展來(lái)再現(xiàn)高質(zhì)量的音頻信號(hào)而不損失高頻帶。該方法包括通過(guò)確定輸入音頻信號(hào)的幀之間的相似性來(lái)將所述輸入音頻信號(hào)編碼為音頻數(shù)據(jù),壓縮關(guān)于時(shí)標(biāo)的所述輸入音頻信號(hào),產(chǎn)生幀時(shí)標(biāo)修改標(biāo)志,然后基于所述幀時(shí)標(biāo)修改標(biāo)志對(duì)編碼的音頻信號(hào)的音頻數(shù)據(jù)進(jìn)行解碼。
文檔編號(hào)H04N7/24GK1767394SQ200510105618
公開(kāi)日2006年5月3日 申請(qǐng)日期2005年9月28日 優(yōu)先權(quán)日2004年10月26日
發(fā)明者吳潤(rùn)學(xué) 申請(qǐng)人:三星電子株式會(huì)社