應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的方法及其裝置的制作方法

文檔序號(hào)：2831080閱讀：463來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的方法及其裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種簡(jiǎn)化聲學(xué)模型分析的方法，尤其涉及一種用于一音頻壓縮系統(tǒng)，且利用音頻幀頻譜平坦度(spectral flatness)來簡(jiǎn)化聲學(xué)模型分析的方法。
背景技術(shù)：
隨著電子音視頻產(chǎn)品的快速發(fā)展，應(yīng)用于電子音視頻產(chǎn)品的圖像壓縮技術(shù)愈來愈顯得重要，其中，以動(dòng)態(tài)圖像壓縮標(biāo)準(zhǔn)(Motion Picture ExpertsGroup, MPEG)來作圖像壓縮更是一種主流。請(qǐng)參考圖1，圖1為已知應(yīng)用動(dòng)態(tài)圖像壓縮標(biāo)準(zhǔn)的一音頻編碼器(audioencoder)的操作流程10的示意圖。首先，一模擬聲音信號(hào)經(jīng)過脈沖編碼調(diào)制(pulse-codemodulation, PCM)(步驟100)后變換成一數(shù)字聲音信號(hào)。此數(shù)字聲音信號(hào)經(jīng)過子帶濾波(subband filter)(步驟102)以將聲音分成數(shù)個(gè)頻域上的子頻帶，再經(jīng)過演進(jìn)式離散余弦變換(modified discrete cosinetransform， MDCT)(步驟104)及同異信號(hào)變換(middle/side transform,M/S transform)(步驟106)將聲音信號(hào)變換成頻域(frequencydomain)值后，送入再量化(requantize)模塊進(jìn)行量化(步驟108)，最后產(chǎn)生格式化的數(shù)據(jù)流(format bitstream)(步驟110)。為了達(dá)成有效率的壓縮，必須對(duì)聲音信號(hào)作分析，以得到一些重要的參數(shù)。因此，聲音信號(hào)經(jīng)過脈沖編碼調(diào)制后，除了進(jìn)行子帶濾波，也另外進(jìn)行了快速傅利葉變換(FastFourier Transform, FFT)(步驟112)，再通過聲學(xué)模型分析(PsychoacousticModel Analysis)(步驟114)以得到相關(guān)參數(shù)，如區(qū)塊類型(blocktype)、同異信號(hào)類型(middle/side type, M/S type)及遮蔽閾值(masking threshold)。其中，區(qū)塊類型是進(jìn)行演進(jìn)式離散余弦變換時(shí)的重要參數(shù)，同異信號(hào)類型是決定是否使用同異信號(hào)變換的重要參數(shù)，遮蔽閾值則為再量化模塊進(jìn)行量化時(shí)的參考參數(shù)。
在執(zhí)行演進(jìn)式離散余弦變換前需要先判斷要用何種區(qū)塊類型進(jìn)行變換，亦即，該聲音信號(hào)是適合用長(zhǎng)區(qū)塊(long block)或短區(qū)塊(short block)的演進(jìn)式離散余弦變換。當(dāng)聲音信號(hào)為短期穩(wěn)定(short-term stationary)的信號(hào)，則使用長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換；而當(dāng)聲音信號(hào)有轉(zhuǎn)調(diào)(transition)發(fā)生時(shí)，則使用短區(qū)塊的演進(jìn)式離散余弦變換，以避免回聲雜訊(pre-echo noise)的發(fā)生。請(qǐng)參考圖2，圖2為已知決定區(qū)塊類型的一流程20的示意圖。聲音信號(hào)經(jīng)過脈沖編碼調(diào)制(步驟200)后會(huì)先執(zhí)行長(zhǎng)區(qū)塊的聲學(xué)模型分析(步驟202)，接下來判斷該聲音信號(hào)是否要使用短區(qū)塊的演進(jìn)式離散余弦變換(步驟204)。如果是，則重新執(zhí)行一次短區(qū)塊的演進(jìn)式離散余弦變換(步驟206)，并執(zhí)行短區(qū)塊的聲學(xué)模型分析(步驟207);若否，則進(jìn)行同異信號(hào)變換或其它的聲音編碼(步驟208)。因此，不論聲音信號(hào)是屬于何種區(qū)塊類型，現(xiàn)有技術(shù)皆會(huì)在步驟202預(yù)設(shè)地執(zhí)行長(zhǎng)區(qū)塊的聲學(xué)模型分析，當(dāng)在步驟204中判斷聲音信號(hào)須使用短區(qū)塊的演進(jìn)式離散余弦變換時(shí)，則在步驟207重新執(zhí)行一次短區(qū)塊的聲學(xué)模型分析。在此種情況下，步驟202的運(yùn)算為多余，因而造成運(yùn)算量的增加。再者，在步驟204中，通常是以感知熵(perc印tual entropy)來作為判斷是否該使用短區(qū)塊的演進(jìn)式離散余
4弦變換的依據(jù)，當(dāng)感知熵大于一預(yù)設(shè)值時(shí)，則使用短區(qū)塊的演進(jìn)式離散余弦變換來變換該聲音信號(hào)。另外，同異信號(hào)變換是在聲音信號(hào)的左、右聲道信號(hào)的頻譜特性接近時(shí)，可以去除左、右聲道的相關(guān)性后再壓縮，以增加壓縮效率。例如，聲音信號(hào)的左聲道信號(hào)為L(zhǎng)[n]，右聲道信號(hào)為R[n]，則定義其同信號(hào)(middlesignal)M[n] = V 2X (L[n]+R[n])/2，其異信號(hào)(side signal)S[n] = V 2X (L[n]-R[n])/2。由上面兩個(gè)式子可以知道，同信號(hào)就是左、右聲道信號(hào)相同的部分，而異信號(hào)就是左、右聲道信號(hào)相異的部分，因此，通過同異信號(hào)變換可以減少數(shù)據(jù)量，增加壓縮效率。所以，判斷聲音信號(hào)是否適用于同異信號(hào)變換，只要檢視其的左、右聲道信號(hào)的頻譜特性是否接近即可。請(qǐng)參考圖3，圖3為已知判斷左、右聲道信號(hào)的性質(zhì)的一流程30的示意圖。在現(xiàn)有技術(shù)中，是先執(zhí)行左、右聲道信號(hào)的聲學(xué)模型分析(步驟300)，接下來再判斷左、右聲道信號(hào)是否適合使用同異信號(hào)變換(步驟302)。如果是，重新以同異信號(hào)變換來變換左、右聲道信號(hào)(步驟304)，并執(zhí)行同異信號(hào)的聲學(xué)模型分析(步驟305);若否，則進(jìn)行其它的聲音編碼(步驟306)，例如送入再量化模塊進(jìn)行量化。因此，當(dāng)左、右聲道信號(hào)適合使用同異信號(hào)變換時(shí)，則步驟300中先執(zhí)行左、右聲道信號(hào)的聲學(xué)模型分析就顯得多余，而造成運(yùn)算量不必要的增加。因此，有鑒于上述的流程20與流程30可能會(huì)造成運(yùn)算量不必要的增加，并且影響系統(tǒng)效率，其確有改進(jìn)的必要性。

發(fā)明內(nèi)容
因此，本發(fā)明的主要目的即在于提供一種應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的方法及其相關(guān)裝置，以增加壓縮的效率。本發(fā)明公開一種應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的方法，包含計(jì)算該聲音信號(hào)所包含的多個(gè)音頻幀在頻域上的能量；根據(jù)該多個(gè)音頻幀在頻域上的能量，計(jì)算出該多個(gè)音頻幀的多個(gè)頻譜平坦度；以及根據(jù)該多個(gè)頻譜平坦度，使用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該多個(gè)音頻幀的每一音頻幀。本發(fā)明另公開一種用于一音頻壓縮系統(tǒng)的音頻變換裝置，用來執(zhí)行前述的音頻變換方法。本發(fā)明另公開一種應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的方法，包含計(jì)算該聲音信號(hào)所包含的左、右聲道信號(hào)在頻域上的能量；根據(jù)該左、右聲道信號(hào)在頻域上的能量，計(jì)算出該左、右聲道信號(hào)的頻譜平坦度；以及根據(jù)該左、右聲道信號(hào)的頻譜平坦度，使用同異信號(hào)變換或左、右聲道編碼來變換該左、右聲道信號(hào)。本發(fā)明另公開一種用于一音頻壓縮系統(tǒng)的音頻變換裝置，用來執(zhí)行前述的音頻變換方法。

圖1為已知應(yīng)用動(dòng)態(tài)圖像壓縮標(biāo)準(zhǔn)的一音頻編碼器的操作流程的示意圖。圖2為已知決定區(qū)塊類型的一流程的示意圖。圖3為已知判斷左、右聲道信號(hào)的性質(zhì)的一流程的示意圖。
圖4為本發(fā)明實(shí)施例用以決定使用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換一音頻幀的一流程的示意圖。圖5為本發(fā)明實(shí)施例比較多個(gè)音頻幀的頻譜平坦度的一流程的示意圖。
圖6為三個(gè)音頻幀的頻譜平坦度的示意圖。圖7為本發(fā)明實(shí)施例用以決定使用同異信號(hào)變換或左、右聲道編碼來變換該左、右聲道信號(hào)的一流程的示意圖。圖8為本發(fā)明實(shí)施例一電子裝置的示意圖。
主要元件符號(hào)說明10、20、30、40、50、70流程100、102、104、106、108、110、步驟112、114200、202、204、206、207、208步驟300、302、304、305、306步驟400、402、404、406、408步驟500、502、504、506、508、510、步驟512、514700、702、704、706、708步驟80電子裝置■聲學(xué)模型分析單元802計(jì)算單元804判斷單元
具體實(shí)施例方式
本發(fā)明公開一種應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的方法，其主要概念是利用頻譜平坦度(spectral flatness)來決定一聲音信號(hào)的區(qū)塊類型(block type)及是否為同異信號(hào)類型(middle/side type，M/S type)，進(jìn)而簡(jiǎn)化聲學(xué)模型分析的執(zhí)行，以增加壓縮的效率。請(qǐng)參考圖4，圖4為本發(fā)明實(shí)施例一流程40的示意圖。流程40應(yīng)用音頻幀頻譜平坦度來簡(jiǎn)化聲學(xué)模型分析，其包含以下步驟
步驟400:開始。
步驟402 :計(jì)算一聲音信號(hào)所包含的多個(gè)音頻幀在頻域上的能量。步驟404:根據(jù)該多個(gè)音頻幀在頻域上的能量，計(jì)算出該多個(gè)音頻幀的多個(gè)頻譜
平坦度。步驟406 :根據(jù)該多個(gè)頻譜平坦度，使用短區(qū)塊(short block)或長(zhǎng)區(qū)塊(longblock)的演進(jìn)式離散余弦變換(modified discrete transform, MDCT)來變換該
多個(gè)音頻幀的每一音頻幀。
步驟408:結(jié)束。根據(jù)流程40，本發(fā)明實(shí)施例先對(duì)一聲音信號(hào)計(jì)算其包含的音頻幀在頻域上的能量，并據(jù)以計(jì)算出每一音頻幀的頻譜平坦度，進(jìn)而決定使用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換每一音頻幀。如此一來，通過頻譜平坦度的運(yùn)算，就可判斷每一音頻幀該用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換。藉此，即可避免如圖2所示，當(dāng)步驟204中判斷聲音信號(hào)須使用短區(qū)塊的演進(jìn)式離散余弦變換時(shí)，則步驟202的運(yùn)算為多余的缺點(diǎn)，以增加壓縮的效率并可簡(jiǎn)化已知技術(shù)中(例如圖2所示)所需的兩次聲學(xué)模型分析。
其中，在步驟402中，聲音信號(hào)已先經(jīng)過脈沖編碼調(diào)制(pulse-codemodulation，PCM)及適當(dāng)?shù)臑V波，然后再利用子帶濾波(subband filter)法或快速傅利葉變換(FFT)等
方式得到聲音信號(hào)所包含的多個(gè)音頻幀在頻域上的能量的參數(shù)，在此，先以子帶濾波法為例。首先定義一音頻幀為a[t]，t二0 N-l ;接著，以子帶濾波將該音頻幀a[t]分為M個(gè)子
頻帶，每個(gè)子頻帶的序列標(biāo)記為A[O] [k]，A[l] [k]，A[2] [k]......A[M-1] [k]，k = 0 (N/
M-l);最后，計(jì)算出該音頻幀a[t]的一能量序列A—ene[m]=達(dá)(A[m]
*A[m]
+A[m]*A[m][l]..........)，m = 0 M-l。如此一來，能量序列A_ene [m]即可表示其中的一
音頻幀在頻域上的能量的參數(shù)。接著，在步驟404中，利用這些能量的參數(shù)，計(jì)算出音頻幀的頻譜平坦度，其計(jì)算方式可參見下面的式子(A)，也就是將序列能量序列A—ene[m]的幾何平均數(shù)除以算數(shù)平均數(shù)，以得到其頻譜平坦度。
頻譜平坦度:^l J丄"lJ-^t——i.............(A)
一 Z」—
附m=0 最后，在步驟406中，根據(jù)所算出的頻譜平坦度，決定要使用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換音頻幀。關(guān)在步驟406的詳細(xì)操作方式，可再參考圖5。圖5為本發(fā)明實(shí)施例一流程50的示意圖。流程50為步驟406的詳細(xì)操作，其包含以下步驟
步驟500:開始。步驟502 :比較該多個(gè)音頻幀的其中的一音頻幀與其前一個(gè)音頻幀的頻譜平坦度，以產(chǎn)生一第一差值。步驟504 :比較該音頻幀與其后一個(gè)音頻幀的頻譜平坦度，以產(chǎn)生一第二差值。步驟506 :比較該第一差值與該第二差值，以產(chǎn)生一第三差值。步驟508 :判斷該第三差值是否大于一預(yù)設(shè)值？若是，則進(jìn)行步驟510 ;若否，則進(jìn)
行步驟512。步驟510 :使用短區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀。
步驟512 :使用長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀。
步驟514:結(jié)束。關(guān)于流程50的說明，請(qǐng)同時(shí)參考圖6。如圖6所示，假設(shè)一音頻幀為grN—p其前一個(gè)音頻幀為grN—2，后一個(gè)音頻幀為grN。首先，如步驟502所述，比較音頻幀grN—工與其前一個(gè)音頻幀giV2的頻譜平坦度所得的差值的絕對(duì)值為AN—p即第一差值。同樣的，如步驟504所述，比較音頻幀grN—工與其后一個(gè)音頻幀grN的頻譜平坦度所得的差值的絕對(duì)值為AN，即第二差值。接著，如步驟506所述，可計(jì)算出第三差值為I AN-AN—」(取絕對(duì)值以保證其值為正)。當(dāng)?shù)谌钪礗 AfA^I大于特定預(yù)設(shè)值時(shí)，表示音頻幀giV工有轉(zhuǎn)調(diào)(transition)發(fā)生，則如步驟510所述，使用短區(qū)塊的演進(jìn)式離散余弦變換來變換音頻幀grN—工；相反地，如果第三差值lAfA^I小于預(yù)設(shè)值，表示音頻幀giV工為短期穩(wěn)定(short-termstationary)的信號(hào)，則如步驟512所述，使用長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換音頻幀grN—工。
7
在前述說明中，第一差值A(chǔ)N—工及第二差值A(chǔ)w是指音頻幀giv工前、后音頻幀的頻譜平坦度差異程度。當(dāng)然，除了取絕對(duì)值外，也可取對(duì)數(shù)值。亦即，第一差值A(chǔ)N—工可以是音頻幀g!V工與音頻幀giv2的頻譜平坦度取對(duì)數(shù)結(jié)果后的差值的絕對(duì)值，而第二差值A(chǔ),則為音頻幀grN—工與音頻幀grN的頻譜平坦度取對(duì)數(shù)結(jié)果后的差值的絕對(duì)值，在此情況下，預(yù)設(shè)值可設(shè)為3，且不以此為限。當(dāng)然，前述比較各音頻幀的頻譜平坦度的差異的方式，僅為一舉例，并不以此為限，且相關(guān)的比較基準(zhǔn)的數(shù)值大小也可隨不同的狀況而加以變化。
如此一來，本發(fā)明便可利用頻譜平坦度來決定一音頻幀的區(qū)塊類型，以決定要用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀，藉此，可將已知技術(shù)中(例如圖2所示)所需的兩次聲學(xué)模型分析，簡(jiǎn)化只剩一次聲學(xué)模型分析，以增加壓縮的效率。
值得一提的是，在步驟402中，如果要使用快速傅利葉變換的方式來得到聲音信號(hào)所包含的多個(gè)音頻幀在頻域上的能量的參數(shù)，則可定義該音頻幀為a[t]， t = 0 N-l ;接著，以快速傅立葉變換將該音頻幀a[t]變換后，得到其頻域上的多個(gè)序列A[n]+B[n]*i，n = o N/2-1 ;其中，A[n]是此多個(gè)序列的實(shí)部，B[n]是此多個(gè)序列的虛部，而i為虛根。最后，計(jì)算出該音頻幀a[t]的一能量序列A_ene[n] = A[n]*A[n]+B[n]*B[n]， n = 0 N/2-1 。另外，針對(duì)立體聲信號(hào)的變換，請(qǐng)參考圖7，圖7為本發(fā)明實(shí)施例一流程70的示意圖。流程70應(yīng)用音頻幀頻譜平坦度來簡(jiǎn)化聲學(xué)模型分析，其包含以下步驟
步驟700:開始。步驟702 :計(jì)算一聲音信號(hào)所包含的左、右聲道信號(hào)在頻域上的能量。步驟704:根據(jù)該左、右聲道信號(hào)在頻域上的能量，計(jì)算出該左、右聲道信號(hào)的頻
譜平坦度。步驟706 :根據(jù)該左、右聲道信號(hào)的頻譜平坦度，使用同異信號(hào)變換(middle/sidetransform, M/S transform)或左、右聲道編碼(L/R encoding)來變換該左、右聲道信號(hào)。
步驟708:結(jié)束。類似于流程40，流程70亦是根據(jù)頻譜平坦度，決定立體聲音頻的變換方式。首先，流程70計(jì)算聲音信號(hào)所包含的左、右聲道信號(hào)在頻域上的能量，并據(jù)以計(jì)算出該左、右聲道信號(hào)的頻譜平坦度，進(jìn)而決定使用同異信號(hào)變換或左、右聲道編碼來變換該左、右聲道信號(hào)。其中，在步驟702中，聲音信號(hào)已先經(jīng)過脈沖編碼調(diào)制及適當(dāng)?shù)臑V波，然后再利用子帶濾波(subband filter)法或快速傅利葉變換(FFT)等其它方式得到聲音信號(hào)所包含的左、右聲道信號(hào)在頻域上的能量的參數(shù)。如果以子帶濾波法作說明，則首先定義該左、右聲道信號(hào)的其中一個(gè)為c[t]， t = 0 N-l ;接著，以子帶濾波將該左、右聲道信號(hào)的其中一個(gè)c[t]分為M個(gè)子頻帶，每個(gè)子頻帶的序列標(biāo)記為C[O] [k]， C[l][k]， C[2]......C[M-l][k]，k = 0 (N/M-l);最后，計(jì)算出該左、右聲道信號(hào)的其中一個(gè)c[t]的
一能量序歹lj C_ene[m] = s咖(C[m]
*C[m]
+C[m] [l]*C[m] [1]..........) ， m = 0
M-l。如此一來，能量序列C—ene[m]即可表示該左、右聲道信號(hào)的其中一個(gè)在頻域上的能量的參數(shù)。此外，在本發(fā)明另一實(shí)施例中步驟702中也可以快速傅利葉變換的方式來得到聲音信號(hào)所包含的多個(gè)音頻幀在頻域上的能量的參數(shù)。如果定義該左、右聲道信號(hào)的其中一個(gè)為c[t] ， t = 0 N-l ;接著，以快速傅立葉變換將該音頻幀c[t]變換后，得到其頻域上的多個(gè)序列C[n]+D[n]*i， n = 0 N/2-1 ;其中，C[n]是此多個(gè)序列的實(shí)部，D[n]是此多個(gè)序列的虛部，而i為虛根。最后，計(jì)算出該左、右聲道信號(hào)的其中一個(gè)c[t]的一能量序列C_ene [n] = C [n] *C [n] +D [n] *D [n] ， n = 0 N/2-1 。接著，在本發(fā)明以子帶濾波法求取聲音信號(hào)所包含的左、右聲道信號(hào)在頻域上的能量的參數(shù)的實(shí)施例中，步驟704利用這些能量的參數(shù)，計(jì)算出左、右聲道信號(hào)的頻譜平坦
度，其計(jì)算方式相同于前述式子(A)的計(jì)算方式，可參考下面的式子(B)。
頻譜平坦度=~l J丄"u-=_^——1............. ( B )
一 X! C — ewe[附〗最后，在步驟706中，根據(jù)所算出的左、右聲道信號(hào)的頻譜平坦度，決定要使用同異信號(hào)變換或左、右聲道編碼來變換該左、右聲道信號(hào)。當(dāng)左、右聲道信號(hào)的頻譜平坦度的差異值小于一預(yù)設(shè)值時(shí)，則使用同異信號(hào)變換來變換左、右聲道信號(hào)；而當(dāng)左、右聲道信號(hào)的頻譜平坦度的差異值大于該預(yù)設(shè)值時(shí)，使用左、右聲道編碼來變換左、右聲道信號(hào)。較佳地，本發(fā)明是將所算出的左、右聲道信號(hào)的頻譜平坦度取對(duì)數(shù)值后，再比較兩者的差異值的絕對(duì)值；若小于5，則判斷左、右聲道的頻譜接近而采用同異信號(hào)變換來變換左、右聲道信號(hào)；若大于或等于5，則采用左、右聲道編碼來變換左、右聲道信號(hào)。當(dāng)然，前述比較左、右聲道的頻譜平坦度的差異的方式，僅為一舉例，并不以此為限，且相關(guān)的比較基準(zhǔn)的數(shù)值大小也可隨不同的狀況而加以變化。如此一來，本發(fā)明便可利用頻譜平坦度來判斷左、右聲道信號(hào)的頻譜差異情況，并據(jù)以判斷是否采用同異信號(hào)變換來變換左、右聲道信號(hào)。藉此，即可避免如圖3所示，當(dāng)步驟302中判斷左、右聲道信號(hào)適合使用同異信號(hào)變換時(shí)，則步驟300中所執(zhí)行的聲學(xué)模型分析為多余的缺點(diǎn)，以增加壓縮的效率并可簡(jiǎn)化已知技術(shù)中(例如圖3所示)所需的兩次聲學(xué)模型分析。在圖4中，本發(fā)明應(yīng)用「頻譜平坦度特征值」來獲知同一聲道中前后音頻幀的相關(guān)性，以簡(jiǎn)化音頻壓縮過程，并簡(jiǎn)化所需的聲學(xué)模型分析；而在圖7中，本發(fā)明則是應(yīng)用「頻譜平坦度特征值」來獲知左、右聲道中音頻幀之間的相關(guān)性，以簡(jiǎn)化音頻壓縮過程及所需的聲學(xué)模型分析。需注意的是，圖4及圖7僅為本發(fā)明的實(shí)施例，本發(fā)明也可應(yīng)用「頻譜平坦度特征值」來簡(jiǎn)化音頻壓縮過程中的其它步驟，而不限于此。另一方面，關(guān)于圖4或圖7所示的音頻變換方法，本領(lǐng)域技術(shù)人員當(dāng)可據(jù)以實(shí)現(xiàn)應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的電子裝置。舉例來說，請(qǐng)參考圖8，圖8為本發(fā)明實(shí)施例一電子裝置80的示意圖。電子裝置80用來應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析，其包含有一能量計(jì)算單元800、一頻譜平坦度計(jì)算單元802及一判斷單元804。電子裝置80實(shí)現(xiàn)流程40，亦即能量計(jì)算單元800、頻譜平坦度計(jì)算單元802及判斷單元804分別用來執(zhí)行步驟402、404及406。當(dāng)然，本領(lǐng)域技術(shù)人員當(dāng)可據(jù)以調(diào)整各元件的實(shí)現(xiàn)方式。例如，能量計(jì)算單元800可利用子帶濾波法或快速傅利葉變換等方式得到聲音信號(hào)所包含的多個(gè)音頻幀在頻域上的能量的參數(shù)。如果能量計(jì)算單元800利用子帶濾波法得出聲音信號(hào)所包含的多個(gè)音頻幀在頻域上的能量的參數(shù)，則頻譜平坦度計(jì)算單元802可應(yīng)用前述的式子(A)，得到頻譜平坦度。當(dāng)?shù)玫筋l譜平坦度后，判斷單元804先比較一音頻幀與其前一個(gè)
9音頻幀的頻譜平坦度，以產(chǎn)生一第一差值；再比較該音頻幀與其后一個(gè)音頻幀的頻譜平坦度，以產(chǎn)生一第二差值；最后比較該第一差值與該第二差值，以產(chǎn)生一第三差值，并據(jù)以判斷使用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀。例如，如果該第三差值大于一預(yù)設(shè)值，則使用短區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀；反之，則使用長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀。上述操作可進(jìn)一步參考前述流程40及50的說明，在此不贅述。同樣地，關(guān)于圖7的流程70的實(shí)現(xiàn)方式，也可仿照電子裝置80，以一電子裝置實(shí)現(xiàn)，相關(guān)實(shí)現(xiàn)方式應(yīng)為本領(lǐng)域技術(shù)人員參考前述說明即能完成，故不贅述。
綜上所述，本發(fā)明可利用頻譜平坦度來決定一音頻幀的區(qū)塊類型，以決定要用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀，同時(shí)，可利用頻譜平坦度來判斷左、右聲道信號(hào)的頻譜差異情況，并據(jù)以判斷是否采用同異信號(hào)變換來變換左、右聲道信號(hào)。因此，本發(fā)明相較于已知技術(shù)中的決定區(qū)塊類型的流程，或是判斷左、右聲道信號(hào)的性質(zhì)，皆可簡(jiǎn)化聲學(xué)模型分析的執(zhí)行次數(shù)，從而增加壓縮的效率，故確實(shí)能達(dá)成本發(fā)明的目的。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例，凡依本發(fā)明權(quán)利要求書所做的均等變化與修飾，皆應(yīng)屬本發(fā)明的涵蓋范圍。
10
權(quán)利要求
一種應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的方法，包含有計(jì)算一聲音信號(hào)所包含的多個(gè)音頻幀在頻域上的能量；根據(jù)該多個(gè)音頻幀在頻域上的能量，計(jì)算出該多個(gè)音頻幀的多個(gè)頻譜平坦度；以及根據(jù)該多個(gè)頻譜平坦度，使用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該多個(gè)音頻幀的每一音頻幀。
2. 如權(quán)利要求1所述的方法，其中根據(jù)該多個(gè)頻譜平坦度使用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該多個(gè)音頻幀的每一音頻幀，包含有比較該多個(gè)音頻幀的其中的一音頻幀與其前一個(gè)音頻幀的頻譜平坦度，以產(chǎn)生一第一差值；比較該音頻幀與其后一個(gè)音頻幀的頻譜平坦度，以產(chǎn)生一第二差值；比較該第一差值與該第二差值，以產(chǎn)生一第三差值；以及根據(jù)該第三差值，決定使用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀。
3. 如權(quán)利要求2所述的方法，其中根據(jù)該第三差值決定使用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀，在該第三差值大于一預(yù)設(shè)值時(shí)，使用短區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀，而在該第三差值小于該預(yù)設(shè)值時(shí)，使用長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換該音頻幀。
4. 如權(quán)利要求2所述的方法，其中比較該多個(gè)音頻幀的其中的該音頻幀與其前一個(gè)音頻幀的頻譜平坦度以產(chǎn)生該第一差值，是比較該音頻幀與其前一個(gè)音頻幀的頻譜平坦度的對(duì)數(shù)值，以產(chǎn)生該第一差值；而比較該音頻幀與其后一個(gè)音頻幀的頻譜平坦度以產(chǎn)生該第二差值，是比較該音頻幀與其后一個(gè)音頻幀的頻譜平坦度的對(duì)數(shù)值，以產(chǎn)生該第二差值。
5. 如權(quán)利要求1所述的方法，其中計(jì)算一音頻幀在頻域上的能量包含有定義該音頻幀為a[t] ， t = 0 N-l ;以快速傅立葉變換(FFT)將該音頻幀a[t]變換后，得到其頻域上的序列A[n]+B[n]承i，n = 0 N/2-1 ;計(jì)算出該音頻幀a[t]的一能量序列A_ene[n] = A[n]*A[n]+B[n]*B[n] ， n = 0 N/2-1 。
6. 如權(quán)利要求1所述的方法，其中計(jì)算一音頻幀在頻域上的能量包含有定義該音頻幀為a[t] ， t = 0 N-l ;以子帶濾波(subband filter)將該音頻幀a[t]分為M個(gè)子頻帶，每個(gè)子頻帶的序列標(biāo)記為A[O] [k] ， A[l] [k] ， A[2] [k]......A[M-1] [k] ， k = 0 (N/M-l);計(jì)算出該音頻幀a[t]的一能量序列A—ene[m]=達(dá)(A[m]
*A[m]
+A[m] [l]*A[m][1]..........)，m = 0 M-l。
7. 如權(quán)利要求6所述的方法，其中該音頻幀a[t]的頻譜平坦度通過該能量序列A—ene[m]以下式求得: <formula>formula see original document page 2</formula>
8. —種應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的電子裝置，用來執(zhí)行如權(quán)利要求1所述的方法。
9. 一種應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的方法，包含有計(jì)算一聲音信號(hào)所包含的左、右聲道信號(hào)在頻域上的能量；根據(jù)該左、右聲道信號(hào)在頻域上的能量，計(jì)算出該左、右聲道信號(hào)的頻譜平坦度；以及根據(jù)該左、右聲道信號(hào)的頻譜平坦度，使用同異信號(hào)變換(middle/sidetransform，M/Stransform)或左、右聲道編碼(L/R encoding)來變換該左、右聲道信號(hào)。
10. 如權(quán)利要求9所述的方法，其中根據(jù)該左、右聲道信號(hào)的頻譜平坦度，使用同異信號(hào)變換或左、右聲道編碼來變換該左、右聲道信號(hào)，在該左、右聲道信號(hào)的頻譜平坦度的差異值小于一預(yù)設(shè)值時(shí)，使用同異信號(hào)變換來變換該左、右聲道信號(hào)；而在該左、右聲道信號(hào)的頻譜平坦度的差異值大于該預(yù)設(shè)值時(shí)，使用左、右聲道編碼來變換該左、右聲道信號(hào)。
11. 如權(quán)利要求10所述的方法，其中該左、右聲道信號(hào)的頻譜平坦度的差異值，分別將該左、右聲道信號(hào)的頻譜平坦度取對(duì)數(shù)值后相減得到；該預(yù)設(shè)值實(shí)質(zhì)上為5。
12. 如權(quán)利要求9所述的方法，其中計(jì)算該左、右聲道信號(hào)的其中一個(gè)在頻域上的能量包含有定義該左、右聲道信號(hào)的其中一個(gè)為c [t] ， t = 0 N-l ;以快速傅立葉變換(FFT)將該左、右聲道信號(hào)的其中一個(gè)c[t]變換后，得到其頻域上的序列C[n]+D[n]*i， n = 0 N/2-1 ;計(jì)算出該左、右聲道信號(hào)的其中一個(gè)c[t]的一能量序列C—ene [n] = C [n] *C [n] +D [n] *D [n] ， n = 0 N/2-1 。
13. 如權(quán)利要求9所述的方法，其中計(jì)算該左、右聲道信號(hào)的其中一個(gè)在頻域上的能量包含有定義該該左、右聲道信號(hào)的其中一個(gè)為c [t] ， t = 0 N-l ;以子帶濾波(subband filter)將該該左、右聲道信號(hào)的其中一個(gè)c[t]分為M個(gè)子頻帶，每個(gè)子頻帶的序列標(biāo)記為C[O] [k]， C[l][k]， C[2] [k]......C[M-l][k]， k = 0 (N/M-1);計(jì)算出該該左、右聲道信號(hào)的其中一個(gè)c[t]的一能量序列C—ene[m] = sum(C[m]
*C[m]
+C[m] [l]*C[m] [1]..........) ， m = 0 M_l。
14. 如權(quán)利要求13所述的方法，其中該該左、右聲道信號(hào)的其中一個(gè)c[t]的頻譜平坦度通過該能量序列C_ene[m]以下式求得<formula>formula see original document page 3</formula>
15. —種應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的電子裝置，用來執(zhí)行如權(quán)利要求9所述的方法。
全文摘要
應(yīng)用音頻幀頻譜平坦度簡(jiǎn)化聲學(xué)模型分析的方法及其裝置。其應(yīng)用音頻幀頻譜平坦度來簡(jiǎn)化對(duì)一聲音信號(hào)的聲學(xué)模型分析。如果該聲音信號(hào)包含多個(gè)音頻幀(a plurality of frames)，則先計(jì)算該聲音信號(hào)在頻域上的能量，接著據(jù)以計(jì)算出多個(gè)頻譜平坦度，并據(jù)以使用短區(qū)塊或長(zhǎng)區(qū)塊的演進(jìn)式離散余弦變換來變換每一音頻幀。如果該聲音信號(hào)包含左、右聲道信號(hào)，則本發(fā)明先對(duì)該聲音信號(hào)執(zhí)行聲學(xué)模型分析，以計(jì)算該左、右聲道信號(hào)在頻域上的能量，接著據(jù)以計(jì)算出該左、右聲道信號(hào)的頻譜平坦度，并據(jù)以使用同異信號(hào)變換或左、右聲道編碼來變換該左、右聲道信號(hào)。
文檔編號(hào)G10L19/02GK101751928SQ20081017889
公開日2010年6月23日申請(qǐng)日期2008年12月8日優(yōu)先權(quán)日2008年12月8日
發(fā)明者何宜倫申請(qǐng)人:揚(yáng)智科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載