一種聲音對象的編碼方法

文檔序號：10539642閱讀：261來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種聲音對象的編碼方法
【專利摘要】本發(fā)明公開了一種聲音對象的編碼方法，包括：獲取聲場空間的聲音對象；以聲場空間水平切面中心、與錄音師雙耳連線中心等高的位置為原點建立三維坐標系；將聲音對象的位置軌跡以幀為單位劃分，每幀分為若干塊；確定聲音對象第i塊的位置坐標為（x(i)，y(i)，z(i)）；確定聲音對象的作用區(qū)域為（φ，θ，γ），其中φ為聲音對象和原點連線在xoy平面上的投影與x軸的夾角、范圍[0，2π)，θ為聲音對象和原點連線與z軸的夾角，γ是錐面張開大小的、定義為錐面母線和中軸線的夾角，范圍[0，π/2]。本發(fā)明提供的聲音對象的編碼方法，將聲音對象的坐標（x、y、z）和有效作用區(qū)域（φ，θ，γ）統(tǒng)一到一個坐標系統(tǒng)，實現(xiàn)更高效率的空間表示和更好的聲場效果。
【專利說明】
一種聲音對象的編碼方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及聲音編碼技術(shù)領(lǐng)域，具體涉及一種聲音對象的編碼方法。
【背景技術(shù)】
[0002] 隨著計算能力和網(wǎng)絡(luò)的快速發(fā)展，在電影、電視、音樂、游戲、虛擬現(xiàn)實和網(wǎng)絡(luò)視頻等應(yīng)用領(lǐng)域，能表現(xiàn)真實三維聲場的音頻錄制、縮混編輯、編碼、解碼、渲染和回放技術(shù)，有著重要的應(yīng)用價值。"全景聲"是對三維聲場的形象描述。
[0003] 目前，MPEG推出了MPEG Η的三維聲編碼技術(shù)，Dolby公司推出了Atmos全景聲編碼技術(shù)，都在傳統(tǒng)多聲道信號編碼的基礎(chǔ)上，提出了聲音對象編碼的概念。其中，Dolby Atmos 采用直接記錄聲音對象的三維運動軌跡的方式，對聲音對象的三維坐標(x、y、z)進行編碼，并且對聲音對象的渲染和回放方式，劃分為9個矩形區(qū)域。MPEG Η則不直接對聲音對象編碼，而是采用參數(shù)立體聲的編碼技術(shù)，將多個聲音混合成一個單聲道信號，并對每個聲音對象的空間感知信息（相位、強度和相關(guān)性)編碼;在解碼時，先解碼單聲道和信號，再利用聲音對象的空間感知信息，恢復(fù)出每個聲音對象。
[0004] 在高質(zhì)量應(yīng)用場合，如電影等領(lǐng)域，Dolby Atmos能夠獲得比MPEG Η更高的聲音質(zhì) 量。但是Dolby Atmos的空間坐標體系、坐標表示方法、聲音對象坐標編碼方法、聲音對象分區(qū)表示方法都存在編碼效率低、聲音表現(xiàn)力差和聲音制作不方便等局限。
[0005] DolbyAtmos在描述聲場時，將坐標原點定于前方左側(cè)屏幕揚聲器高度位置，從原點到右墻為X軸，從原點到后墻為Y軸，從原點到房頂為Z軸；同時，將房間劃分為左側(cè)屏幕揚聲器區(qū)域、中間屏幕揚聲器區(qū)域、右側(cè)屏幕揚聲器區(qū)域、左墻揚聲器區(qū)域、右墻揚聲器區(qū)域、后墻左側(cè)揚聲器區(qū)域、后墻右側(cè)揚聲器區(qū)域、左房頂揚聲器區(qū)域和右房頂揚聲器區(qū)域等九個區(qū)域。以如上的位置坐標和區(qū)域劃分來編碼聲音對象。
[0000] DolbyAtmos的坐標原點定義和區(qū)域是分離的，對點聲源、面聲源和擴散聲源等聲音對象的表達效率不高。另外，Do 1 by Atmos的揚聲器區(qū)域和實際聲音對象的有效作用區(qū)域不是等價關(guān)系，后者是實際物理聲場的更準確描述。
[0007] 從聲音編碼效率的角度看，一般來說在表達完整的信息的前提下力爭用更少的碼流，從而達到更高的編碼效率?，F(xiàn)有的坐標定義方法是用一個固定的比特數(shù)來對坐標進行編碼，比如DolbyAtmos就是將位置坐標的映射到單位立方體中，得到一個范圍在[0，1]的小數(shù)，然后用12比特來儲存這個無符號小數(shù)。這樣編碼的結(jié)果是無論位置坐標是否變化都要用12比特來存儲，從而產(chǎn)生了大量的碼流的浪費。實際上，聲音對象的位置大多變化緩慢，在相鄰幀或相鄰塊之間的位置坐標數(shù)據(jù)間存在較大冗余。
[0008] 從聲音表現(xiàn)力來看，現(xiàn)有的空間區(qū)域劃分都是采用的固定劃分的方式，例如 DolbyAtmos將空間劃分為左側(cè)屏幕揚聲器區(qū)域、中間屏幕揚聲器區(qū)域、右側(cè)屏幕揚聲器區(qū) 域、左墻揚聲器區(qū)域、右墻揚聲器區(qū)域、后墻左側(cè)揚聲器區(qū)域、后墻右側(cè)揚聲器區(qū)域、左房頂揚聲器區(qū)域和右房頂揚聲器區(qū)域等九個區(qū)域。這樣對于聲音對象的定位就缺乏彈性，可選擇的余地較少，從而使聲音表現(xiàn)不夠靈活。

【發(fā)明內(nèi)容】

[0009] 發(fā)明目的:針對現(xiàn)有技術(shù)的不足，本發(fā)明提供一種聲音對象的編碼方法，實現(xiàn)更高效率的空間表示和更好的聲場效果。
[0010] 技術(shù)方案:本發(fā)明所述的聲音對象的編碼方法，包括：
[0011] 獲取聲場空間的聲音對象；
[0012] 以聲場空間水平切面中心、與錄音師雙耳連線中心等高的位置為原點建立三維坐標系；
[0013] 將聲音對象的位置軌跡以幀為單位劃分，每幀分為若干塊；
[0014] 確定聲音對象第i塊的位置坐標為(x(i)，y(i)，z(i));
[0015] 位置坐標(x，y，z)映射為(pID，Ax，Ay，Az)，pID為象限標識符，Ax、Ay、Az為位置坐標的絕對值。
[0016] 所述聲音對象的作用區(qū)域為（Φ，θ，γ )，其中φ為聲音對象和原點連線在xoy平面上的投影與X軸的夾角、范圍[0，2π)，Θ為聲音對象和原點連線與z軸的夾角，γ是描述錐面張開大小的、定義為錐面母線和中軸線的夾角，范圍[0，V2]。
[0017] 進一步完善上述技術(shù)方案，所述聲場空間采用歸一化坐標，位置坐標絕對值A(chǔ)x、 Ay、Az的取值范圍為[0，1]。
[00?8] 進一步地，所述象限標識符pID與（X，y，z)的符號位信息（signb (X)，signb (y)， signb(z))相對應(yīng)，其中signb(x)是取符號位運算signb(x) = 0,當(dāng)x> = 0;signb(x) = 1，當(dāng)x <0〇
[0019] 進一步地，所述聲音對象采用1024樣本為一幀，每幀分為4塊或2塊。
[0020] 有益效果:與現(xiàn)有技術(shù)相比，本發(fā)明的優(yōu)點:本發(fā)明提供的一種聲場空間的坐標定義方法，并引入了聲音對象有效作用區(qū)域，并用錐形表示，將聲音對象的坐標(x、y、z)和有效作用區(qū)域（Φ，θ，γ )統(tǒng)一到一個坐標系統(tǒng)，實現(xiàn)更高效率的空間表示和更好的聲場效果，點源可以僅用三維坐標值表示，面源不僅需要三維坐標值，還需要區(qū)域信息，更有效的表示點源聲音對象、面源聲音對象，實現(xiàn)更高效率的空間表示和更好的聲場效果，更加完善的三維聲場;編碼效率高、聲音表現(xiàn)力好且聲音制作方便。
[0021] 而本發(fā)明提出了一種新的劃分方式，以對象與原點的連線為中軸來得到一個圓錐，圓錐的張角可調(diào)，圓錐所籠罩的區(qū)域就是對象的有效作用區(qū)域。現(xiàn)有的區(qū)域劃分是從揚聲器的角度出發(fā)對揚聲器的分布進行區(qū)域劃分，而本發(fā)明是從對象的角度出發(fā)劃分出對象的有效作用區(qū)域，有利于錄音師定義自己理想的有效作用區(qū)域，而在進行對象呈現(xiàn)時可以根據(jù)實際聲場的揚聲器布置和所采用的呈現(xiàn)算法來靈活地決定揚聲器的取舍，這樣形成的區(qū)域劃分將使得對聲音對象的重建更加具有表現(xiàn)力。
[0022] 從聲音的制作的角度來看，通過靈活的定義了聲音對象的位置以及聲場空間的區(qū) 域劃分，在聲音制作的環(huán)節(jié)上能夠方便地在傳統(tǒng)的3D立體聲基礎(chǔ)上隨意添加聲音對象，使得無論錄音還是聲音制作的環(huán)節(jié)都充滿了靈活性。
【附圖說明】
[0023] 圖1為本發(fā)明的揚聲器的區(qū)域劃分示意圖。
【具體實施方式】
[0024] 下面結(jié)合附圖對本發(fā)明技術(shù)方案進行詳細說明。
[0025] 實施例1:以一個立方體來描述聲場空間為例，典型應(yīng)用是揚聲器布置于立方體的邊界面。聲音對象的空間坐標定義:將坐標原點定義為水平切面的中心、高度與錄音師監(jiān)聽時耳朵齊平的位置，并令X軸指向右側(cè)(墻），y軸指向前方(通常為屏幕），Z軸垂直指向上方 (房頂）。
[0026] 對聲場空間采用歸一化坐標表示，X軸、y軸和z軸的最大絕對坐標值為l，z軸較短一側(cè)為地面，其歸一化絕對坐標值為a(a〈l )，則此聲場空間的8個坐標為：
[0027] (1，1，1)--表示區(qū)域前方右上角；
[0028] (-1,1,1) 表不區(qū)域前方左上角；
[0029] (1,1,-a)--表示區(qū)域前方右下角；
[0030] (_l，l，_a) 表不區(qū)域前方左下角；
[0031] (1,-1,1) 表不區(qū)域后方右上角；
[0032] (-1,-1,1) 表不區(qū)域后方左上角；
[0033] (l，_l，_a) 表不區(qū)域后方右下角；
[0034] (_l，-l，_a)--表不區(qū)域后方左下角。
[0035] 聲音對象的位置軌跡編碼以幀為單位劃分，每幀進一步分為若干塊。為和壓縮編碼兼容，采用1024個樣本為一幀：48kHz采樣頻率時，每個塊為256個樣本，時間間隔為 5.3ms; 96kHz采樣頻率時，每個塊為512個樣本，時間間隔為5.3ms。第i塊的某一聲音對象的位置坐標表示為(x(i)，y(i)，z(i))，i = l、2、3、4。聲音對象的位置坐標(x，y，z)可以映射為用四個量(PID，Ax，Ay，Az)來描述，即象限標識符p ID和位置坐標的絕對值A(chǔ)x、Ay、Az (取值范圍為[0，1])。
[0036] 聲音對象的象限標識符pID是對坐標(X，y，z)的象限位置的描述，與(X，y，z)的符號位信息(signb(x)，signb(y)，signb(z))相對應(yīng)，其中signb(x)是取符號位運算
[0037] signb(x)=0,當(dāng) x> = 0;
[0038] signb(x)=1，當(dāng)x〈0;
[0039] 象限標識符可取如下值：
[0040] 表1象限標識符pID表「00411
[0042]每幀的第一個塊為參考塊，對該塊的聲音對象空間位置信息采用直接編碼;后續(xù) 的塊為預(yù)測塊，對該塊的聲音對象空間位置信息采用差分編碼。
[0043] 第一個塊直接對(？104147^)編碼，？10用三個比特，如表1所示41^7^2在范圍[0，1]內(nèi)編碼為10比特的無符號數(shù)〇^〇7、〇2，，它們滿足的映射關(guān)系為：
[0044]
[0045]
[0046]
[0047] 后續(xù)塊做差分編碼，即對當(dāng)前塊與前一塊的坐標值的差值（Δχ，Ay，ΔΖ)進行編碼，其中，Αχ是當(dāng)前塊和前一塊χ軸坐標的差分值，Ay是當(dāng)前塊和前一塊y軸坐標的差分值，A z是當(dāng)前塊和前一塊z軸坐標的差分值;滿足如下關(guān)系：
[0048] x(k) =x(k_l)+Δ χ，-2 < Δ X < 2;
[0049] y(k)=y(k-l)+Ay,-2 < Ay<2；
[0050] z(k) =z(k~l)+Δ z ,-2 < Δζ<2；
[00511與前述過程類似，差值（Δχ，Ay，ΔΖ)也被映射為用四個量(PID，| Δχ|，| Ay|， A z I )來描述。pID是（Δ χ，Δ y，Δ z)的象限標識符，I Δχ|、| Ay|和I Δζ|分別對應(yīng)Δ χ、Δ y、八2的絕對值，取值范圍為[0,2]。？10用三個比特，如表1所示，|&刻、|&7|和|& 2|可映射為11比特的無符號數(shù)Dx、Dy和Dz，它們滿足的映射關(guān)系為：
[0052]
[0053]
[0054]
[0055] 而對于無符號數(shù)Dx、Dy和Dz采用DIF(n)編碼方法，DIF(n)編碼的編碼過程為:首先比較待編碼的無符號位置坐標DIFdata(DIFdata為Dx，Dy，Dz中的任意值）和（2~n_l)的大小，如果小于(2~n-l )，則用η個比特儲存它；否則將η個比特全部置1，然后緊跟2n個比特；以此類推直至（2~ (kn)-l )>DIFdata(k為正整數(shù)）。以DIF(4)編碼為例，對無符號數(shù)Dx、Dy和Dz 采用DIF(4)編碼時，可能出現(xiàn)的k值為1、2和3，具體碼流結(jié)構(gòu)如下：
[0056
[0057] 聲音對象的差分編碼過程中，要給坐標值的差分留足夠的空間，以便于使得它的儲存精度足夠和第一個塊中位置坐標的儲存精度一致。于是有如下公式：
[0058]
[0059] 其中R為房間的半邊長，L為相鄰兩個塊中對象的位移，η為儲存差分值所用的比特數(shù)。
[0060] 對于一個10m見方的房間，首先選取4比特來儲存這個差分值，那么它最多能夠儲存的值為：
[0061]
[0062] 于是解得L〈0.0781，那么此時聲音對象的最大速度為：
[0063]
[0064] 在實際錄音當(dāng)中，對于大多數(shù)聲音對象，其時速大多低于53km/h，采用4個比特儲存就夠了，這個效率非常高。至于高速運動的聲音對象，即速度大于53km/h，可擴展為8比特儲存。此時即便快如飛機(假設(shè)l〇〇m/s)，也有:L= 100X0.0053 = 0.53(m);L為相鄰兩個塊的距離，此時由于L/2 ~8〈5/2 ~ 10，可見8個比特完全能夠容納。
[0065]而當(dāng)房間擴大到100米時，由10比特儲存，其精度為50/2~ 10,此時儲存殘差的精度更是足夠的。下表定義了不同比特和房間尺寸時能夠存儲的最大聲像速度：
[0066] 表2不同情況下能夠儲存的對象速度
[0067]
[0068]在一個三維區(qū)域內(nèi)，對于聲音對象的重構(gòu)，有一些區(qū)域內(nèi)的聲音對象作用顯著，而另一些聲音對象可能毫無作用。從這個角度來看，對于某一特定的聲音對象，對其作用區(qū)域進行劃分，只使用區(qū)域內(nèi)一部分聲音對象，從而可以使得計算模型和混音操作更簡單。典型的聲音對象除了點聲源，還有面聲源（可以理解為距離很遠的點聲源）和擴散聲源（可以是很距離的擴散式聲源，如爆炸聲等），聲音對象有效作用區(qū)域是用于描述面聲源的。該有效作用區(qū)域?qū)嶋H是為錄音師在錄音監(jiān)聽時提供的，錄音師將自己理想的有效作用區(qū)域以元數(shù) 據(jù)的方式提供給編碼器，再由編碼器按所述的方式寫入到碼流中。因在解碼端只能拿到解碼三維坐標值，因此，編碼時可用解碼三維坐標值確定有效作用區(qū)域，以使編碼前的有效作用區(qū)域和解碼后的作用區(qū)域一致。實際上，在一定的精度內(nèi)，編碼前的三維坐標值和解碼后的三維坐標值非常接近，其差即三維坐標值的量化誤差。
[0069] 劃分方法見圖1，當(dāng)聲音對象的方位確定時，以原點和聲音對象連線為軸，展開一個圓椎，原點是圓錐的頂點。此時圓錐所籠罩的揚聲器便是有效揚聲器。
[0070] 對于這種劃分，為了方便表達，采用極坐標的形式，用三個參數(shù)來表示這個劃分， (Φ，θ，γ)。其中（Φ，Θ)組成了聲音對象的方位角，φ為對象和原點連線在 xoy平面上的投影與X軸的夾角，范圍[0,2π)，θ為對象和原點連線與z軸的夾角。而第三個參數(shù)γ是用來描述錐面張開大小的，定義為錐面母線和中軸線的夾角，范圍[0，V2]。由此，整個錐面就被確定下來，隨之三維空間的區(qū)域劃分就完成了。
[0071] 對于（Φ，θ)，前面已經(jīng)定義了對象的位置，聲音對象的位置坐標表示為(x，y，z)，于是很容易求得。
[0072]以上聲音對象編碼的偽代碼：
[007；
[0074]
[0075] 以上方法給出了三維聲場的聲音對象在錄音制作、編碼、解碼和渲染回放時的坐標定義、運動軌跡、作用區(qū)域等表示方法。在三維聲編碼時，除了聲音對象軌跡和作用區(qū)域等信息編碼外，還需要對聲音對象的波形做編碼。
[0076] 考慮到聲音對象彼此的獨立性，高質(zhì)量的聲音對象波形可采用獨立的編碼方式，包括各種已知的無損編碼和有損音頻編碼技術(shù)，如APE、FLAC、MP3、AAC、AVS等。在對帶寬要求很高的低碼率場合，亦可采用參數(shù)編碼的方式，將多個聲音對象混合成一個和聲道，并采用參數(shù)編碼方法，來有效表示多個聲音對象。此類的參數(shù)編碼方法包括SAC(Spatial Audio Coding)、BBC(Binaural Cue Coding)、MPEG Surround等。
[0077] 因聲音波形編碼的方法較為成熟，在此不作贅述。
[0078] 如上所述，盡管參照特定的優(yōu)選實施例已經(jīng)表示和表述了本發(fā)明，但其不得解釋為對本發(fā)明自身的限制。在不脫離所附權(quán)利要求定義的本發(fā)明的精神和范圍前提下，可對其在形式上和細節(jié)上作出各種變化。
【主權(quán)項】
1. 一種聲音對象的編碼方法，其特征在于，包括：獲取聲場空間的聲音對象；以聲場空間水平切面中心、與錄音師雙耳連線中心等高的位置為原點建立三維坐標系；將聲音對象的位置軌跡以幀為單位劃分，每幀分為若干塊；確定聲音對象第i塊的位置坐標為(x(i)，y(i)，z(i)); 位置坐標(x，y，z)映射為(pID，Ax，Ay，Az)，pID為象限標識符，Ax、Ay、Az為位置坐標的絕對值。2. 根據(jù)權(quán)利要求1所述聲音對象的編碼方法，其特征在于:所述聲音對象的作用區(qū)域為 (Φ，θ，γ )，其中Φ為聲音對象和原點連線在xoy平面上的投影與X軸的夾角、范圍[0,2ιτ)，θ 為聲音對象和原點連線與ζ軸的夾角，Y是描述錐面張開大小的，定義為錐面母線和中軸線的夾角，范圍[〇，V2]。3. 根據(jù)權(quán)利要求1所述聲音對象的編碼方法，其特征在于:所述聲場空間采用歸一化坐標，位置坐標絕對值A(chǔ)x、Ay、Az的取值范圍為[0，1 ]。4. 根據(jù)權(quán)利要求3所述聲音對象的編碼方法，其特征在于:所述象限標識符pID與(x，y， z)的符號位信息（signb(x)，signb (y)，signb (z))相對應(yīng)，其中signb (X)是取符號位運算signb (X)=O，當(dāng)x>=0;signb (x)=l，當(dāng)x〈0〇5. 根據(jù)權(quán)利要求1所述聲音對象的編碼方法，其特征在于:所述聲音對象采用1024樣本為一幀，每幀分為4塊或2塊。
【文檔編號】H04S7/00GK105898669SQ201610158782
【公開日】2016年8月24日
【申請日】2016年3月18日
【發(fā)明人】潘興德, 吳超剛
【申請人】南京青衿信息科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：潘興德;吳超剛;
技術(shù)所有人：南京青衿信息科技有限公司;
我是此專利的發(fā)明人

上一篇：一種藍牙基帶系統(tǒng)的制作方法
上一篇：一種聲場空間的坐標定義方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

有這樣一種聲音相關(guān)技術(shù)

懷念一種聲音相關(guān)技術(shù)

一種聲音相關(guān)技術(shù)

有這樣一種聲音600字相關(guān)技術(shù)

有這樣一種聲音800字相關(guān)技術(shù)

有這樣一種聲音作文相關(guān)技術(shù)

一種聲音作文相關(guān)技術(shù)

配售對象編碼相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種聲音對象的編碼方法