本發(fā)明涉及用于針對HOA數(shù)據(jù)幀表示的壓縮而確定表示與所述HOA數(shù)據(jù)幀中的特定數(shù)據(jù)幀的通道信號相關聯(lián)的非差分增益值所需的最小整數(shù)比特數(shù)的方法和設備。
背景技術:
表示為HOA的高階高保真度立體聲響復制提供了表示三維聲音的一種可能性。其他技術是波場合成(WFS)或如22.2的基于通道的方法。與基于通道的方法相比,HOA表示提供了與特定揚聲器設置無關的優(yōu)點。然而,這種靈活性是以在特定揚聲器設置上回放HOA表示所需要的解碼過程為代價的。與所需揚聲器的數(shù)量通常很大的WFS方法相比,HOA也可以被呈現(xiàn)為僅包括幾個揚聲器的設置。HOA的另一個優(yōu)點是還可以采用相同的表示而不必對耳機的雙耳渲染進行任何修改。
HOA基于通過截斷的球面諧波函數(shù)(SH)展開來表示復合諧波平面波幅度的空間密度。每個展開系數(shù)是角頻率的函數(shù),角頻率可以由時域函數(shù)等效地表示。因此,在不失一般性的情況下,完整的HOA聲場表示實際上可以被假設成由O個時域函數(shù)組成,其中,O表示展開系數(shù)的數(shù)量。這些時域函數(shù)在下文中將被等效地稱為HOA系數(shù)序列或HOA通道。
HOA表示的空間解析度隨著展開的最大階數(shù)N的增長而提高。遺憾的是,展開系數(shù)O的數(shù)量隨著階數(shù)N呈二次方增長,特別地,O=(N+1)2。例如,使用階數(shù)N=4的典型HOA表示需要O=25個HOA(展開)系數(shù)。假設期望的單聲道采樣率為fS并且每個采樣的比特數(shù)為Nb,則用于傳輸HOA表示的總比特率由O·fS·Nb確定。以采用每采樣Nb=16比特的fS=48kHz采樣率傳輸階數(shù)為N=4的HOA表示,導致19.2MBits/s的比特率,該比特率對于許多實際應用(例如流式傳輸)來說是非常高的。因此,對HOA表示進行壓縮是非??扇〉?。
先前,在EP 2665208 A1、EP 2743922 A1、EP 2800401 Al中提出了HOA聲場表示的壓縮,參見2014年1月的MPEG-H 3D音頻的ISO/IEC JTC1/SC29/WG11、N14264、WD1-HOA文本。這些方法的共同點在于:它們都執(zhí)行聲場分析并且將給定的HOA表示分解成方向分量和殘余環(huán)境分量。一方面,最終壓縮的表示被假設成由若干量化信號組成,這些量化信號由方向信號和基于向量的信號的感知編碼以及環(huán)境HOA分量的相關系數(shù)序列產(chǎn)生。另一方面,最終壓縮的表示包括與量化信號相關的附加邊信息,根據(jù)其壓縮版本重構HOA表示需要所述邊信息。
在被傳遞至感知編碼器之前,要求這些中間時域信號具有在[-1,1]的值范圍內(nèi)的最大幅度,這是為實現(xiàn)當前可用的感知編碼器而產(chǎn)生的要求。為了當對HOA表示進行壓縮時滿足該要求,在感知編碼器之前使用平滑地衰減或放大輸入信號的增益控制處理單元(參見EP 2824661 A1和上面提到的ISO/IEC JTC1/SC29/WG11 N14264文獻)。所產(chǎn)生的信號修改被假設成是可逆的并且被逐幀地應用,其中特別地,連續(xù)幀之間的信號幅度的變化被假設成“2”的冪。為了便于該信號修改在HOA解壓縮器中的倒置,相應的歸一化邊信息包括在總邊信息中。該歸一化邊信息可以由底數(shù)為“2”的指數(shù)構成,這些指數(shù)描述了兩個連續(xù)幀之間的相對幅度變化。由于連續(xù)幀之間的較小幅度變化比較大幅度變化更有可能發(fā)生,因此根據(jù)上面提到的ISO/IEC JTCl/SC29/WG11 N14264文獻利用游程運行長度編碼(run length code)對這些指數(shù)進行編碼。
技術實現(xiàn)要素:
例如,在從開始至結束沒有任何時間跳躍地對單個文件解壓縮的情況下,在HOA解壓縮中使用差分編碼的幅度變化來重構原始信號幅度是可行的。然而,為了便于隨機訪問,獨立的訪問單元必須存在于編碼表示(其通常是比特流)中以使得能夠與來自在先幀的信息無關地從期望的位置(或至少在其附近)開始解壓縮。這種獨立的訪問單元必須包含由增益控制處理單元引起的從第一幀一直到當前幀的總絕對幅度變化(即,非差分增益值)。假設兩個連續(xù)幀之間的幅度變化是“2”的冪,則通過底數(shù)為“2”的指數(shù)來描述總絕對幅度變化就足夠了。為了對該指數(shù)進行高效編碼,在應用增益控制處理單元之前了解信號的可能的最大增益是必要的。然而,該知識高度依賴于對要壓縮的HOA表示的值范圍的約束規(guī)范。遺憾的是,MPEG-H 3D音頻文獻ISO/IEC JTC1/SC29/WG11 N14264僅提供用于輸入HOA表示的格式的描述,而沒有對值范圍設定任何約束。
本發(fā)明要解決的問題是提供表示非差分增益值所需的最小整數(shù)比特數(shù)。該問題通過權利要求1中公開的方法來解決。權利要求2中公開了使用該方法的設備。在相應的從屬權利要求中公開了本發(fā)明的有利的附加實施方式。
本發(fā)明確立了輸入HOA表示的值范圍與信號在HOA壓縮器中應用增益控制處理單元之前的可能的最大增益之間的相互關系。
基于該相互關系,針對輸入HOA表示的值范圍的給定規(guī)范、針對底數(shù)為“2”的指數(shù)的有效編碼來確定所需比特的量,以在訪問單元內(nèi)描述由增益控制處理單元引起的從第一幀一直到當前幀的修改信號的總絕對幅度變化(即,非差分增益值)。
此外,一旦計算用于對指數(shù)編碼的所需比特量的規(guī)則被確定,本發(fā)明就使用用于驗證給定HOA表示是否滿足所需值范圍約束的處理,使得給定HOA表示能夠被正確壓縮。
原則上,本發(fā)明的方法適合于針對HOA數(shù)據(jù)幀表示的壓縮而確定表示所述HOA數(shù)據(jù)幀中的特定HOA數(shù)據(jù)幀的通道信號的非差分增益值所需的最小整數(shù)比特數(shù)βe,其中,每個幀中的每個通道信號包括一組采樣值,并且其中,給所述HOA數(shù)據(jù)幀中的每個HOA數(shù)據(jù)幀的每個通道信號分配一個差分增益值,并且這樣的差分增益值引起當前HOA數(shù)據(jù)幀中的通道信號的采樣值的幅度相對于前一HOA數(shù)據(jù)幀中的通道信號的采樣值變化,并且其中,這樣的增益調整的通道信號在編碼器中被編碼,
并且其中,所述HOA數(shù)據(jù)幀表示在空間域中被渲染為O個虛擬揚聲器信號wj(t),其中,虛擬揚聲器的位置位于單位球體上并且旨在均勻分布在該單位球體上,所述渲染通過矩陣乘法w(t)=(Ψ)-1·c(t)來表示,其中,w(t)是包含所有虛擬揚聲器信號的向量,Ψ是虛擬揚聲器位置模矩陣,并且c(t)是所述HOA數(shù)據(jù)幀表示的相應HOA系數(shù)序列的向量,
并且其中,所述HOA數(shù)據(jù)幀表示被歸一化,使得
所述方法包括以下步驟:
-通過以下子步驟a)、b)、c)中的一個或更多個從所述歸一化HOA數(shù)據(jù)幀表示中形成所述通道信號:
a)為了表示所述通道信號中的主要聲音信號,將所述HOA系數(shù)序列c(t)的向量乘以混合矩陣A,混合矩陣A的歐幾里德范數(shù)不大于“1”,其中,混合矩陣A表示所述歸一化HOA數(shù)據(jù)幀表示的系數(shù)序列的線性組合;
b)為了表示所述通道信號中的環(huán)境分量cAMB(t)、從所述歸一化HOA數(shù)據(jù)幀表示中減去所述主要聲音信號,以及選擇所述環(huán)境分量cAMB(t)的系數(shù)序列的至少一部分,其中,||cAMB(t)||22≤||c(t)||22,以及通過計算對所得到的最小環(huán)境分量cAMB,MIN(t)進行變換,其中,并且ΨMIN是所述最小環(huán)境分量cAMB,MIN(t)的模矩陣;
c)選擇所述HOA系數(shù)序列c(t)的一部分,其中,所選擇的系數(shù)序列與對其實施空間變換的環(huán)境HOA分量的系數(shù)序列相關,并且描述所選擇的系數(shù)序列的數(shù)量的最小階數(shù)NMIN為NMIN≤9;
-將表示所述通道信號的所述非差分增益值所需的所述最小整數(shù)比特數(shù)βe設置為
其中,N是階數(shù),NMAX是感興趣的最大階數(shù),是所述虛擬揚聲器的方向,O=(N+1)2是HOA系數(shù)序列的數(shù)量,以及K是所述模矩陣的歐幾里德范數(shù)的平方||Ψ||22與O的比值。
原則上,本發(fā)明的設備適合于針對HOA數(shù)據(jù)幀表示的壓縮而確定用于表示所述HOA數(shù)據(jù)幀中的特定HOA數(shù)據(jù)幀的通道信號的非差分增益值所需的最小整數(shù)比特數(shù)βe,其中,每個幀中的每個通道信號包括一組采樣值,并且其中,給所述HOA數(shù)據(jù)幀中的每個HOA數(shù)據(jù)幀的每個通道信號分配差分增益值,并且這樣的差分增益值引起當前HOA數(shù)據(jù)幀中的通道信號的采樣值的幅度相對于前一HOA數(shù)據(jù)幀中的通道信號的采樣值變化,并且其中,這樣的增益調整的通道信號在編碼器中被編碼,
并且其中,所述HOA數(shù)據(jù)幀表示在空間域中被渲染為O個虛擬揚聲器信號wj(t),其中,虛擬揚聲器的位置位于單位球體上并且旨在均勻分布在該單位球體上,所述渲染通過矩陣乘法w(t)=(Ψ)-1·c(t)來表示,其中,w(t)是包含所有虛擬揚聲器信號的向量,Ψ是虛擬揚聲器位置模矩陣,并且c(t)是所述HOA數(shù)據(jù)幀表示的相應HOA系數(shù)序列的向量,
并且其中,所述HOA數(shù)據(jù)幀表示被歸一化,使得
所述設備包括:
-通過以下操作a)、b)、c)中的一個或更多個從所述歸一化HOA數(shù)據(jù)幀表示中形成所述通道信號的裝置:
a)為了表示所述通道信號中的主要聲音信號,將所述HOA系數(shù)序列c(t)的向量乘以混合矩陣A,混合矩陣A的歐幾里德范數(shù)不大于“1”,其中,混合矩陣A表示所述歸一化HOA數(shù)據(jù)幀表示的系數(shù)序列的線性組合;
b)為了表示所述通道信號中的環(huán)境分量cAMB(t)、從所述歸一化HOA數(shù)據(jù)幀表示中減去所述主要聲音信號以及選擇所述環(huán)境分量cAMB(t)的系數(shù)序列的至少一部分,其中,||cAMB(t)||22≤||c(t)||22,以及通過計算對所得到的最小環(huán)境分量cAMB,MIN(t)進行變換,其中,并且ΨMIN是所述最小環(huán)境分量cAMB,MIN(t)的模矩陣;
c)選擇所述HOA系數(shù)序列c(t)的一部分,其中,所選擇的系數(shù)序列與對其實施空間變換的環(huán)境HOA分量的系數(shù)序列相關,并且描述所選擇的系數(shù)序列的數(shù)量的最小階數(shù)NMIN為NMIN≤9;
-將用于表示所述通道信號的所述非差分增益值所需的所述最小整數(shù)比特數(shù)βe設置為的裝置,
其中,N是階數(shù),NMAX是感興趣的最大階數(shù),是所述虛擬揚聲器的方向,O=(N+1)2是HOA系數(shù)序列的數(shù)量,以及K是所述模矩陣的歐幾里德范數(shù)的平方||Ψ||22與O之間的比值。
附圖說明
參考附圖描述了本發(fā)明的示例性實施方式,在附圖中示出了:
圖1 HOA壓縮器;
圖2 HOA解壓縮器;
圖3 虛擬方向Ωj(N)(1≤j≤O)關于HOA階數(shù)(N=1,...,29)的縮放值K;
圖4 對于HOA階數(shù)(NMIN=1,...,9),逆模矩陣Ψ-1關于虛擬方向ΩMIN,d(d=1,...,OMIN)的歐幾里德范數(shù);
圖5 虛擬揚聲器在位置Ωj(N)(1≤j≤O,其中O=(N+1)2)處的信號的最大允許幅度γdB的確定;
圖6 球坐標系。
具體實施方式
即使沒有明確描述,也可以在任何組合或子組合中使用以下實施方式。
在下文中,介紹HOA壓縮和解壓縮的原理以提供存在上述問題的更詳細背景。該介紹的基礎是在MPEG-H 3D音頻文檔ISO/IEC JTCl/SC29/WG11 N14264(也參見EP 2665208 A1、EP 2800401 A1和EP 2743922 A1)中描述的處理。在N14264中,“方向分量”被擴展至“主要聲音分量”。作為方向分量,主要聲音分量被假設成部分地由方向信號連同用于根據(jù)方向信號預測原始HOA表示的多個部分的一些預測參數(shù)一起來表示,方向信號是指具有被假設為從其沖擊聽者的相應方向的單聲道信號。另外,主要聲音分量被假設為由“基于向量的信號”表示,基于向量的信號是指具有限定基于向量的信號的方向分布的相應向量的單聲道信號。
HOA壓縮
圖1示出了在EP 2800401 A1中描述的HOA壓縮器的總體架構。該HOA壓縮器的總體架構具有圖1A所示的空間HOA編碼部以及圖1B所示的感知編碼部及源編碼部??臻gHOA編碼器提供由I信號連同描述如何創(chuàng)建其HOA表示的邊信息一起構成的第一壓縮HOA表示。在對兩個編碼的表示進行多路復用之前,在感知編碼器和邊信息源編碼器中對I信號進行感知編碼,并且對邊信息進行源編碼。
空間HOA編碼
在第一步驟中,將原始HOA表示的當前第k幀C(k)輸入至方向和向量估計處理步驟或階段11,該當前第k幀C(k)被假設成提供元組集和元組集由其第一元素表示方向信號的索引并且第二元素表示相應的量化方向的元組構成。元組集由其第一元素表示基于向量的信號的索引并且第二元素表示限定信號的方向分布的向量(即,如何計算基于向量的信號的HOA表示)的元組構成。
使用兩個元組集和在HOA分解步驟或階段12中將初始HOA幀C(k)分解成所有主要聲音(即,方向的和基于向量的)信號的幀XPS(k-1)和環(huán)境HOA分量的幀CAMB(k-1)。注意由交疊相加處理引起的一個幀的延遲,以避免堵塞的假象。此外,HOA分解步驟/階段12被假設成輸出描述如何根據(jù)方向信號來預測原始HOA表示的多個部分的一些預測參數(shù)ζ(k-1),以豐富主要聲音HOA分量。另外,假設提供了包含關于將在HOA分解處理步驟或階段12中確定的主要聲音信號分配給I個可用通道的信息的目標分配向量vA,T(k-1)??梢约僭O要占用受影響的通道,這意味著受影響的通道不能用于在相應的時間幀中傳輸環(huán)境HOA分量的任何系數(shù)序列。
在環(huán)境分量修改處理步驟或階段13中,根據(jù)由目標分配向量vA,T(k-1)提供的信息來修改環(huán)境HOA分量的幀CAMB(k-1)。特別地,(在其他方面中)根據(jù)關于哪些通道可用并且還沒有被主要聲音信號占據(jù)的(包含在目標分配向量vA,T(k-1)中的)信息來確定要在給定的I個通道中傳輸環(huán)境HOA分量的哪些系數(shù)序列。
另外,如果所選擇的系數(shù)序列的索引在連續(xù)幀之間變化,則執(zhí)行系數(shù)序列的淡入淡出。
此外,假設環(huán)境HOA分量CAMB(k-2)的第一OMIN系數(shù)序列總是被選擇成被感知地編碼和傳輸,其中OMIN=(NMIN+1)2(NMIN≤N)的階數(shù)通常比原始HOA表示的階數(shù)更小。為了對這些HOA系數(shù)序列進行去相關,可以在步驟/階段13中將它們變換為從一些預定義方向ΩMIN,d(d=1,...,OMIN)沖擊的方向信號(即,一般平面波函數(shù))。
暫時預測的已修改環(huán)境HOA分量CP,M,A(k-1)連同修改的環(huán)境HOA分量CM,A(k-1)一起在步驟/階段13中被計算,并且被用于增益控制處理步驟或階段15、151以實現(xiàn)合理的預見,其中關于環(huán)境HOA分量的修改的信息與在通道分配步驟或階段14中將所有可能類型的信號分配給可用通道直接相關。關于該分配的最終信息被假設成包含在最終分配向量vA(k-2)中。為了在步驟/階段13中計算該向量,利用包含在目標分配向量vA,T(k-1)中的信息。
步驟/階段14中的通道分配利用由分配向量vA(k-2)提供的信息將包含在幀XPS(k-2)中和包含在幀CM,A(k-2)中的適當?shù)男盘柗峙浣oI個可用通道,從而得到信號幀yi(k-2),i=1,...,I。另外,還將包含在幀XPS(k-1)和幀CP,AMB(k-1)中的適當?shù)男盘柗峙浣oI個可用通道,從而得到預測的信號幀yP,i(k-1),i=1,...,I。
信號幀yi(k-2),i=1,...,I中的每一個最終通過增益控制15、151來處理,以得到指數(shù)ei(k-2)和異常標記βi(k-2),i=1,...,I以及信號zi(k-2),i=1,...,I,其中信號增益被平滑地修改以實現(xiàn)適合于感知編碼器步驟或階段16的值范圍。步驟/階段16輸出相應的編碼信號幀預測的信號幀yP,i(k-1),i=1,...,I實現(xiàn)了合理的預見以避免連續(xù)塊之間的較大增益變化。在邊信息源編碼器步驟或階段17中,對邊信息數(shù)據(jù)ei(k-2)、βi(k-2)、ζ(k-1)和vA(k-2)進行源編碼,以得到經(jīng)編碼的邊信息幀在多路復用器18中,對幀(k-2)的編碼信號與該幀的已編碼邊信息數(shù)據(jù)進行組合,以得到輸出幀
在空間HOA解碼器中,步驟/階段15、151中的增益修改被假設成通過使用由指數(shù)ei(k-2)和異常標記βi(k-2),i=1,...,I構成的增益控制邊信息來恢復。
HOA解壓縮
圖2示出了在EP 2800401 A1中描述的HOA解壓縮器的總體架構。該總體架構由HOA壓縮器部件的配對部件構成,所述配對部件以相反的順序布置并且包括圖2A所示的感知解碼部和源解碼部以及圖2B所示的空間HOA解碼部。
在感知解碼部和源解碼部(代表感知解碼器和邊信息源解碼器)中,解復用步驟或階段21從比特流接收輸入幀并且提供I個信號的感知編碼的表示以及描述如何創(chuàng)建其HOA表示的已編碼邊信息數(shù)據(jù)在感知解碼器步驟或階段22中對信號進行感知解碼,以得到解碼信號在邊信息源解碼器步驟或階段23中對已編碼邊信息數(shù)據(jù)進行解碼,以得到數(shù)據(jù)集指數(shù)ei(k)、異常標記βi(k)、預測參數(shù)ζ(k+1)和分配向量vAMB,ASSIGN(k)。關于vA與vAMB,ASSIGN之間的差別,參見上面提到的MPEG文獻N14264。
空間HOA解碼
在空間HOA解碼部中,感知解碼的信號中的每一個連同其關聯(lián)的增益校正指數(shù)ei(k)以及增益校正異常標記βi(k)一起被輸入至逆增益控制處理步驟或階段24、241。第i個逆增益控制處理步驟/階段提供了經(jīng)增益校正的信號幀
全部I個經(jīng)增益校正的信號幀連同分配向量vAMB,ASSIGN(k)以及元組集和一起被饋送至通道重分配步驟或階段25,參見元組集和的上述定義。分配向量vAMB,ASSIGN(k)由I個分量構成,所述I個分量針對每個傳輸通道而指示其是否包含環(huán)境HOA分量的系數(shù)序列以及它包含哪個系數(shù)序列。在通道重分配步驟/階段25中,經(jīng)增益校正的信號幀被重新分配以重構所有主要聲音信號(即,所有方向信號和基于向量的信號)的幀以及環(huán)境HOA分量的中間表示的幀CI,AMB(k)。另外,提供了在第k個幀中活躍的環(huán)境HOA分量的系數(shù)序列的索引的集合以及在第(k-1)個幀中必須被啟用、禁用及保持活躍的環(huán)境HOA分量的系數(shù)索引的數(shù)據(jù)集和
在主要聲音合成步驟或階段26中,利用元組集預測參數(shù)的集合ζ(k+1)、元組集以及數(shù)據(jù)集和根據(jù)所有主要聲音信號的幀來計算主要聲音分量的HOA表示。
在環(huán)境合成步驟或階段27中,利用在第k個幀中活躍的環(huán)境HOA分量的系數(shù)序列的索引的集合根據(jù)環(huán)境HOA分量的中間表示的幀CI,AMB(k)來創(chuàng)建環(huán)境HOA分量幀由于與主要聲音HOA分量的同步而引入一個幀的延遲。
最后,在HOA組成步驟或階段28中,將環(huán)境HOA分量幀與主要聲音HOA分量的幀進行疊加,以提供已解碼的HOA幀
此后,空間HOA解碼器根據(jù)I個信號和邊信息來創(chuàng)建重構的HOA表示。
在位于編碼側的情況下,環(huán)境HOA分量被變換為方向信號,在步驟/階段27中在解碼器側進行該變換的逆變換。
在HOA壓縮器內(nèi)的增益控制處理步驟/階段15、151之前,信號的可能最大增益十分依賴于輸入HOA表示的值范圍。因此,首先限定輸入HOA表示的有意義的值范圍,隨后在進入增益控制處理步驟/階段之前對信號的可能最大增益做出結論。
輸入HOA表示的歸一化
為了使用本發(fā)明的處理,要先執(zhí)行對(總)輸入HOA表示信號的歸一化。對于HOA壓縮,執(zhí)行逐幀處理,其中關于在高階高保真度立體聲響復制的章節(jié)Basics中的公式(54)中指定的時間連續(xù)HOA系數(shù)序列的向量c(t),將原始輸入HOA表示的第k個幀C(k)限定為
其中,k表示幀索引,L為(在采樣中的)幀長度,O=(N+1)2為HOA系數(shù)序列的數(shù)量,以及TS表示采樣周期。
如EP 2824661 A1中所提及的,從實際角度來看,HOA表示的有意義的歸一化不是通過對個別HOA系數(shù)序列的值范圍施加約束來實現(xiàn)的,這是因為這些時域函數(shù)不是在渲染之后由揚聲器實際播放的信號。相反,更方便的是考慮通過將HOA表示渲染為O個虛擬揚聲器信號wj(t),1≤j≤O而獲得的“等效空間域表示”。假設相應的虛擬揚聲器位置借助于球坐標系來表示,其中假設每個位置位于單位球體上并且半徑為“1”。因此,可以通過階數(shù)相關方向Ωj(N)=(θj(N),φj(N)),1≤j≤O等效地表達位置,其中θj(N)和φj(N)分別表示傾斜度和方位角(也參見圖6及其關于球坐標系定義的描述)。例如參見J.Fliege、U.Maier于1999年在多特蒙德大學的專業(yè)課范圍數(shù)學技術報告"A two-stage approach for computing cubature formulae for the sphere",這些方向應當盡可能均勻地分布在單位球體上。在以下網(wǎng)址中可以找到用于特定方向的計算的節(jié)點數(shù)量:http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/nodes/nodes.html。這些位置通常取決于“球上的均勻分布”的定義種類,因此是不明確的。
通過限定HOA系數(shù)序列的值范圍來限定虛擬揚聲器信號的值范圍的優(yōu)點在于:如常規(guī)揚聲器信號假定PCM表示的情況那樣,虛擬揚聲器信號的值范圍可以被直觀地設置為等于區(qū)間[-1,1]。這導致空間上均勻分布的量化誤差,使得在與實際聆聽相關的域中有利地應用量化。該背景中的一個重要方面是每采樣比特數(shù)可以被選擇成與通常用于常規(guī)揚聲器信號的比特數(shù)(即,16)一樣低,與通常需要更高的每采樣比特數(shù)(例如,24或甚至32)的HOA系數(shù)序列的直接量化相比,這提高了效率。
為了詳細描述空間域中的歸一化處理,所有虛擬揚聲器信號以向量被概括為w(t):=[w1(t)...wO(t)]T, (2)
其中,(·)T表示轉置。用Ψ表示關于虛擬方向Ωj(N),1≤j≤O的模矩陣,Ψ被定義為
其中,
,渲染處理可以用公式表示為矩陣乘積
w(t)=(Ψ)-1·c(t)。 (5)
使用這些定義,對虛擬揚聲器信號的合理要求是:
這意味著每個虛擬揚聲器信號的幅度需要落入范圍[-1,1]內(nèi)。時間t的時刻由所述HOA數(shù)據(jù)幀的采樣值的采樣索引l和采樣周期TS來表示。
揚聲器信號的總的冪因此滿足條件
HOA數(shù)據(jù)幀表示的渲染和歸一化在圖1A的輸入C(k)的上游執(zhí)行。
增益控制之前的信號值范圍結果
假設輸入HOA表示的歸一化是根據(jù)輸入HOA表示的歸一化小節(jié)中的描述執(zhí)行的,下面考慮被輸入至HOA壓縮器中的增益控制處理單元15、151的信號yi,i=1,...,I的值范圍。這些信號是通過向HOA系數(shù)序列或主要聲音信號xPS,d,d=1,...,D和/或環(huán)境HOA分量cAMB,n,n=1,...,O的特定系數(shù)序列中的一個或更多個分配可用I個通道來創(chuàng)建的,對這些信號中的一部分實施空間變換。因此,在公式(6)中的歸一化假設下,有必要分析所提及的這些不同信號類型的可能值范圍。由于所有種類的信號是根據(jù)原始HOA系數(shù)序列而在中間計算出的,因此檢查它們可能的值范圍。
圖1A和圖2B中未描繪I個通道中包含僅一個或更多個HOA系數(shù)序列的情況,即,在這種情況下,不需要HOA分解、環(huán)境分量修改塊和相應的合成塊。
HOA表示的值范圍結果
時間連續(xù)的HOA表示是通過c(t)=Ψw(t), (8)從虛擬揚聲器信號中獲得的,公式(8)是公式(5)的逆運算。
因此,使用公式(8)和公式(7)來如下限制所有HOA系數(shù)序列的總的冪:
||c(lTS)||22≤||Ψ||22·||w(lTS)||22≤||Ψ||22·O (9)
在球面諧波函數(shù)的N3D歸一化的假設下,模矩陣的歐幾里德范數(shù)的平方可以寫成:||Ψ||22=K·O, (10a)其中,表示模矩陣的歐幾里德范數(shù)的平方與HOA系數(shù)序列的數(shù)量O之間的比值。該比值取決于特定HOA階數(shù)N和特定虛擬揚聲器方向其可以通過向該比值附加相應參數(shù)列表來如下表示:
圖3示出了根據(jù)上面提到的Fliege等人的文章的虛擬方向關于HOA階數(shù)(N=1,...,29)的K的值。
結合所有先前的論證和考慮,提供如下HOA系數(shù)序列的幅度的上限:
其中,第一個不等式直接從范數(shù)定義得出。
重要的是注意:公式(6)中的條件意味著公式(11)中的條件,但是相反的情況不成立,即,公式(11)不意味著公式(6)。
另一個重要方面是:在虛擬揚聲器位置近似均勻分布的假設下,模矩陣Ψ的表示關于虛擬揚聲器位置的模向量的列向量幾乎彼此正交并且每個都具有歐幾里德范數(shù)N+1。該特性意味著:除了乘法常數(shù)之外,空間變換幾乎保持歐幾里德范數(shù),即,
||c(lTS)||2≈(N+1)||w(lTS)||2。 (12)
真實的范數(shù)||c(lTS)||2與公式(12)中的近似值相差越多,就越違反對模向量的正交性假設。
主要聲音信號的值范圍結果
兩種類型的(方向的和基于向量的)主要聲音信號的共同點在于:它們對HOA表示的貢獻由具有歐幾里德范數(shù)N+1的單個向量來描述,即,||v1||2=N+1。 (13)
在方向信號的情況下,該向量與關于某個信號源方向ΩS,1的模向量相對應,即,
v1=S(ΩS,1) (14)
該向量借助于HOA表示將方向束描述為信號源方向ΩS,1。在基于向量的信號的情況下,向量v1不限于關于任何方向的模向量,因此可以描述基于向量的單聲道信號的更一般的方向分布。
下面考慮D個主要聲音信號xd(t),d=1,...,D的一般情況,D個主要聲音信號可以根據(jù)下式被集中在向量x(t)中
x(t)=[x1(t) x2(t)...xD(t)]T (16)
這些信號必須基于以下矩陣來確定:
V:=[v1 v2...vD] (17)
該矩陣由表示單聲道主要聲音信號xd(t),d=1,...,D的方向分布的所有向量vd,d=1,...,D構成。
為了主要聲音信號x(t)的有意義的提取,規(guī)定以下約束:
a)每個主要聲音信號是作為原始HOA表示的系數(shù)序列的線性組合而獲得的,即
x(t)=A·c(t), (18)
其中,表示混合矩陣。
b)混合矩陣A應當被選擇成使得其歐幾里德范數(shù)不超過值“1”,即,
并且使得原始HOA表示與主要聲音信號的HOA表示之間的殘差的歐幾里德范數(shù)的平方(或冪)不大于原始HOA表示的歐幾里德范數(shù)的平方(或冪),即
通過將公式(18)代入公式(20)中,可以看出公式(20)與以下約束相當:
其中,I表示單位矩陣。
使用公式(18)、公式(19)和公式(11)根據(jù)公式(18)和公式(19)中的約束以及根據(jù)歐幾里德矩陣與向量范數(shù)的兼容性,通過下式來限定主要聲音信號的幅度上限:
||x(lTS)||∞≤||x(lTS)||2 (22)
≤||A||2||c(lTS)||2 (23)
因此,確保主要聲音信號保持在與原始HOA系數(shù)序列相同的范圍內(nèi)(與公式(11)比較),即,
選擇混合矩陣的示例
如何確定滿足約束(20)的混合矩陣的示例是通過計算主要聲音信號使得提取之后的殘差的歐幾里德范數(shù)最小來獲得的,即,
x(t)=argminx(t)||V·x(t)-c(t)||2。 (26)
公式(26)中的最小化問題的解決方案由下式給出:
x(t)=V+c(t), (27)
其中,(·)+表示摩爾-彭羅斯(Moore-Penrose)廣義逆。通過將公式(27)與公式(18)進行比較,由此得出,在這種情況下,混合矩陣等于矩陣V的摩爾-彭羅斯廣義逆,即A=V+。
然而,仍然必須選擇矩陣V以滿足約束(19),即,
在僅方向信號的情況下,其中,矩陣V是關于一些源信號方向ΩS,d,d=1,...,D的模矩陣,即
V=[S(ΩS,1) S(ΩS,2)...S(ΩS,D)], (29)
可以通過選擇源信號方向ΩS,d,d=1,...,D使得任何兩個相鄰方向的距離不是太小來滿足約束(28)。
環(huán)境HOA分量的系數(shù)序列的值范圍結果
環(huán)境HOA分量是通過從原始HOA表示中減去主要聲音信號的HOA表示來計算的,即,cAMB(t)=c(t)-V·x(t)。 (30)如果主要聲音信號x(t)的向量是根據(jù)標準(20)確定的,則可以得出結論:
||cAMB(lTS)||∞≤||cAMB(lTS)||2 (31)
環(huán)境HOA分量的空間變換系數(shù)序列的值范圍
EP 2743922 A1和上面提到的MPEG文獻N14264中提出的HOA壓縮處理的另一方面是:環(huán)境HOA分量的第一OMIN系數(shù)序列總是被選成被分配給傳輸通道,其中,OMIN=(NMIN+1)2,NMIN≤N通常是比原始HOA表示的階數(shù)更小的階數(shù)。為了對這些HOA系數(shù)序列去相關,可以將它們變換為從一些預定義方向ΩMIN,d′,d=1,...,OMIN(類似于輸入HOA表示的歸一化小節(jié)中描述的概念)沖擊的虛擬揚聲器信號。
用cAMB,MIN(t)來定義階數(shù)索引為n≤NMIN的環(huán)境HOA分量的所有系數(shù)序列的向量并且用ΨMIN來定義關于虛擬方向ΩMIN,d,d=1,...,OMIN的模矩陣,所有虛擬揚聲器信號的向量(被定義為)wMIN(t)通過下式獲得:
因此,使用歐幾里德矩陣與向量范數(shù)的兼容性,
||wMIN(lTS)||∞≤||wMIN(lTS)||2 (36)
在上面提到的MPEG文獻N14264中,根據(jù)上面提到的Fliege等人的文章來選擇虛擬方向ΩMIN,d,d=1,...,OMIN。圖4示出了模矩陣ΨMIN的逆矩陣針對階數(shù)(NMIN=1,...,9)的相應歐幾里德范數(shù)??梢钥闯觯簩τ贜MIN=1,...,9,然而,這通常不適用于的值通常遠大于“1”的NMIN>9的情況。然而,至少對于1≤NMIN≤9,虛擬揚聲器信號的幅度由下式限制:
通過限制輸入HOA表示以滿足條件(6),其中條件(6)要求根據(jù)該HOA表示創(chuàng)建的虛擬揚聲器信號的幅度不超過值“1”,可以保證在以下條件下,信號在增益控制之前的幅度將不超過值(參見公式(25)、公式(34)和公式(40)):
a)所有主要聲音信號x(t)的向量是根據(jù)公式/限制(18)、(19)和(20)來計算的;
b)如果使用如上述Fliege等人的文章中限定的虛擬揚聲器位置,則確定對其實施空間變換的環(huán)境HOA分量的第一系數(shù)序列的數(shù)量OMIN的最小階數(shù)NMIN必須小于“9”。
可以進一步得出結論:對于高達感興趣的最大階數(shù)NMAX的任何階數(shù)N,即1≤N≤NMAX,信號在增益控制之前的幅度將不超過值其中,
特別地,從圖3可以得出結論:如果假設用于初始空間變換的虛擬揚聲器方向是根據(jù)Fliege等人的文章中的分布來選擇的,并且如果另外假設感興趣的最大階數(shù)為NMAX=29(例如參見MPEG文獻N14264),則信號增益控制之前的幅度將不超過值1.5O,這是因為在這種特殊情況下即,可以選擇
KMAX取決于感興趣的最大階數(shù)NMAX和虛擬揚聲器方向其可以由下式來表示:
因此,為確保感知編碼之前的信號位于區(qū)間[-1,1]內(nèi)而通過增益控制施加的最小增益由給出,其中,
在信號在增益控制之前的幅度太小的情況下,在MPEG文獻N14264中提出可以用高達的因子來平滑地放大它們,其中,eMAX≥0作為編碼HOA表示中的邊信息被傳輸。
因此,在訪問單元內(nèi)描述由增益控制處理單元引起的從第一幀一直到當前幀的已修改信號的總絕對幅度變化的底數(shù)為“2”的每個指數(shù),可以假設在區(qū)間[eMIN,eMAX]內(nèi)的任何整數(shù)值。因此,編碼所需的(最小整數(shù))比特數(shù)βe由下式給出:
在信號在增益控制之前的幅度不太小的情況下,公式(42)可以簡化為:
可以在增益控制步驟/階段15,…,151的輸入處計算該比特數(shù)βe。
針對指數(shù)使用該比特數(shù)βe確??梢圆东@由HOA壓縮器增益控制處理單元15,…,151引起的所有可能的絕對幅度變化,從而允許在壓縮表示中的一些預定義入口點處開始解壓縮。
當在HOA解壓縮器中開始對壓縮HOA表示進行解壓縮時,被分配給一些數(shù)據(jù)幀的邊信息并且除了所接收的數(shù)據(jù)流之外從解復用器21接收到的、表示總絕對幅度變化的非差分增益值被用在逆增益控制步驟或階段24,…,241中,從而以與在增益控制步驟/階段15,…,151中執(zhí)行的處理相反的方式實施正確的增益控制。
另外的實施方式
當實現(xiàn)如在章節(jié)HOA壓縮、空間HOA編碼、HOA解壓縮和空間HOA解碼中描述的特定HOA壓縮/解壓縮系統(tǒng)時,用于對指數(shù)編碼的比特數(shù)βe必須依賴于縮放因子KMAX,DES根據(jù)公式(42)來設定,縮放因子KMAX,DES自身取決于要壓縮的HOA表示的期望的最大階數(shù)NMAX,DES和特定的虛擬揚聲器方向
例如,當假設NMAX,DES=29并且根據(jù)Fliege等人的文章來選擇虛擬揚聲器方向時,合理的選擇是在該情況下,保證對階數(shù)為N(1≤N≤NMAX)的HOA表示進行正確的壓縮,該HOA表示是利用相同的虛擬揚聲器方向根據(jù)章節(jié)輸入HOA表示的歸一化而被歸一化的。然而,在以下HOA表示的情況下不能給出這種保證:該HOA表示還(出于效率原因)由PCM格式的虛擬揚聲器信號等效地表示,但是其中虛擬揚聲器的方向被選擇成與在系統(tǒng)設計階段假定的虛擬揚聲器方向不同。
由于虛擬揚聲器位置的這種不同選擇,即使這些虛擬揚聲器信號的幅度在區(qū)間[-1,1]內(nèi),也不能再保證信號在增益控制之前的幅度將不超過值因此,不能保證該HOA表示根據(jù)MPEG文獻N14264中描述的處理而具有針對壓縮的適當?shù)臍w一化。
在這種情況下,具有以下系統(tǒng)是有利的:該系統(tǒng)基于虛擬揚聲器位置的知識而提供虛擬揚聲器信號的最大允許幅度以確保相應的HOA表示適合于根據(jù)在MPEG文獻N14264中描述的處理的壓縮。在圖5中示出了這樣的系統(tǒng)。它采用虛擬揚聲器位置作為輸入,其中,并且提供虛擬揚聲器信號的最大允許幅度γdB(其以分貝測量)作為輸出。在步驟或階段51中,根據(jù)公式(3)來計算關于虛擬揚聲器位置的模矩陣Ψ。在隨后的步驟或階段52中,計算模矩陣的歐幾里德范數(shù)||Ψ||2。在第三步驟或階段53中,將幅度γ計算為“1”與下述值中的最小值:該值為虛擬揚聲器位置數(shù)量的平方根和KMAX,DES的平方根的乘積與模矩陣的歐幾里德范數(shù)的商,
即
以分貝為單位的值通過下式獲得:γdB=20log10(γ)。 (44)
為了說明:從上面的推導可以看出,如果HOA系數(shù)序列的幅度不超過值即,如果
則在增益控制處理單元15、151之前的所有信號將相應地不超過該值,這是對適當?shù)腍OA壓縮的要求。
從公式(9)發(fā)現(xiàn)HOA系數(shù)序列的幅度由下式限制
||c(lTS)||∞≤||c(lTS)||2≤||Ψ||2·||w(lTS)||2。 (46)
因此,如果γ是根據(jù)公式(43)設置的并且PCM格式的虛擬揚聲器信號滿足
||w(lTS)||∞≤γ, (47)
則從公式(7)得出并且滿足要求(45)。
即,公式(6)中的最大幅度值“1”由公式(47)中的最大幅度值γ代替。
高階高保真度立體聲響復制的基礎
高階高保真度立體聲響復制(HOA)基于對感興趣的密集區(qū)域內(nèi)的聲場的描述,其被假設為沒有聲源。在該情況下,在感興趣的區(qū)域內(nèi)的時間t和位置x處的聲壓p(t,x)的時空行為在物理上完全由齊次波動方程確定。在下文中,假設如圖6所示的球坐標系。在所使用的坐標系中,x軸指向前面,y軸指向左側,z軸指向頂部??臻g中的位置x=(r,θ,φ)T由半徑r>0(即,到坐標原點的距離)、從極軸z測量的傾斜角θ∈[0,π]以及在x-y平面內(nèi)從x軸逆時針方向測量的方位角φ∈[0,2π[來表示。此外,(·)T表示轉置。
然后,從“傅里葉聲學”教科書中可以看出,聲壓關于時間的傅立葉變換由表示,即,
其中,ω表示角頻率,i表示虛數(shù)單位,根據(jù)下式可以將上述聲壓關于時間的傅里葉變換展開成球面諧波函數(shù)的級數(shù)
其中,cs表示聲速,k表示角波數(shù),其通過而與角頻率ω相關。此外,jn(·)表示第一類球貝塞爾函數(shù),且表示階數(shù)為n且度數(shù)為m的實值球面諧波函數(shù),在章節(jié)實值球面諧波函數(shù)的定義中對它們做出了定義。展開系數(shù)僅取決于角波數(shù)k。注意,已經(jīng)隱含地假設聲壓在空間上是頻帶受限的。因此,在稱為HOA表示的階數(shù)的上限N處關于階數(shù)索引n截斷該級數(shù)。
如果聲場是通過從由角度元組(θ,φ)指定的所有可能方向到達的無限個具有不同角頻率ω的諧波平面波進行疊加來表示的,則可以看出(參見B.Rafaely,“Plane-wave decomposition of the sound field on a sphere by spherical convolution”,J.Acoust.Soc.Am,卷4(116),第2149至2157頁,2004年10月),相應的平面波復幅度函數(shù)C(ω,θ,φ)可以由以下球面諧波函數(shù)展開式來表示
其中,展開系數(shù)通過下式與展開系數(shù)相關:
假設各個系數(shù)是角頻率ω的函數(shù),則逆傅里葉變換(由表示)的應用針對每個階數(shù)n和度數(shù)m提供以下時域函數(shù)
這些時域函數(shù)在這里稱為連續(xù)時間HOA系數(shù)序列,其可以通過下式被集中在單個向量c(t)中
向量c(t)內(nèi)的HOA系數(shù)序列的位置索引由n(n+1)+1+m給出。向量c(t)中的總元素數(shù)由O=(N+1)2給出。
最終的高保真度立體聲響復制格式利用采樣頻率fS提供c(t)的如下采樣版本
其中,TS=1/fS表示采樣周期。元素c(lTS)稱為離散時間HOA系數(shù)序列,其可以總是實值。該特性也適用于連續(xù)時間版本
實值球面諧波函數(shù)的定義
實值球面諧波函數(shù)(假設根據(jù)以下文獻的SN3D歸一化:J.Daniel,“Représentation de champs acoustiques,application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia”,博士論文,巴黎大學,2001年6月,3.1章)由下式給出
其中,
相關聯(lián)的勒讓德函數(shù)Pn,m(x)被定義為
其具有勒讓德多項式Pn(x),并且與Academic Press1999年出版的Applied Mathematical Sciences第93卷E.G.Williams的“Fourier Acoustics”中的不同,其沒有Condon-Shortley相位項(-1)m。
本發(fā)明的處理可以由單個處理器或電子電路,或者由并行工作和/或在本發(fā)明的處理的不同部分中工作的若干處理器或電子電路執(zhí)行。
用于操作一個或多個處理器的指令可以被存儲在一個或更多個存儲器中。