欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種聲音對象的編碼方法

文檔序號:10539642閱讀:261來源:國知局
一種聲音對象的編碼方法
【專利摘要】本發(fā)明公開了一種聲音對象的編碼方法,包括:獲取聲場空間的聲音對象;以聲場空間水平切面中心、與錄音師雙耳連線中心等高的位置為原點建立三維坐標系;將聲音對象的位置軌跡以幀為單位劃分,每幀分為若干塊;確定聲音對象第i塊的位置坐標為(x(i),y(i),z(i));確定聲音對象的作用區(qū)域為(φ,θ,γ),其中φ為聲音對象和原點連線在xoy平面上的投影與x軸的夾角、范圍[0,2π),θ為聲音對象和原點連線與z軸的夾角,γ是錐面張開大小的、定義為錐面母線和中軸線的夾角,范圍[0,π/2]。本發(fā)明提供的聲音對象的編碼方法,將聲音對象的坐標(x、y、z)和有效作用區(qū)域(φ,θ,γ)統(tǒng)一到一個坐標系統(tǒng),實現(xiàn)更高效率的空間表示和更好的聲場效果。
【專利說明】
一種聲音對象的編碼方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及聲音編碼技術(shù)領(lǐng)域,具體涉及一種聲音對象的編碼方法。
【背景技術(shù)】
[0002] 隨著計算能力和網(wǎng)絡(luò)的快速發(fā)展,在電影、電視、音樂、游戲、虛擬現(xiàn)實和網(wǎng)絡(luò)視頻 等應(yīng)用領(lǐng)域,能表現(xiàn)真實三維聲場的音頻錄制、縮混編輯、編碼、解碼、渲染和回放技術(shù),有 著重要的應(yīng)用價值。"全景聲"是對三維聲場的形象描述。
[0003] 目前,MPEG推出了MPEG Η的三維聲編碼技術(shù),Dolby公司推出了Atmos全景聲編碼 技術(shù),都在傳統(tǒng)多聲道信號編碼的基礎(chǔ)上,提出了聲音對象編碼的概念。其中,Dolby Atmos 采用直接記錄聲音對象的三維運動軌跡的方式,對聲音對象的三維坐標(x、y、z)進行編碼, 并且對聲音對象的渲染和回放方式,劃分為9個矩形區(qū)域。MPEG Η則不直接對聲音對象編 碼,而是采用參數(shù)立體聲的編碼技術(shù),將多個聲音混合成一個單聲道信號,并對每個聲音對 象的空間感知信息(相位、強度和相關(guān)性)編碼;在解碼時,先解碼單聲道和信號,再利用聲 音對象的空間感知信息,恢復(fù)出每個聲音對象。
[0004] 在高質(zhì)量應(yīng)用場合,如電影等領(lǐng)域,Dolby Atmos能夠獲得比MPEG Η更高的聲音質(zhì) 量。但是Dolby Atmos的空間坐標體系、坐標表示方法、聲音對象坐標編碼方法、聲音對象分 區(qū)表示方法都存在編碼效率低、聲音表現(xiàn)力差和聲音制作不方便等局限。
[0005] DolbyAtmos在描述聲場時,將坐標原點定于前方左側(cè)屏幕揚聲器高度位置,從原 點到右墻為X軸,從原點到后墻為Y軸,從原點到房頂為Z軸;同時,將房間劃分為左側(cè)屏幕揚 聲器區(qū)域、中間屏幕揚聲器區(qū)域、右側(cè)屏幕揚聲器區(qū)域、左墻揚聲器區(qū)域、右墻揚聲器區(qū)域、 后墻左側(cè)揚聲器區(qū)域、后墻右側(cè)揚聲器區(qū)域、左房頂揚聲器區(qū)域和右房頂揚聲器區(qū)域等九 個區(qū)域。以如上的位置坐標和區(qū)域劃分來編碼聲音對象。
[0000] DolbyAtmos的坐標原點定義和區(qū)域是分離的,對點聲源、面聲源和擴散聲源等聲 音對象的表達效率不高。另外,Do 1 by Atmos的揚聲器區(qū)域和實際聲音對象的有效作用區(qū)域 不是等價關(guān)系,后者是實際物理聲場的更準確描述。
[0007] 從聲音編碼效率的角度看,一般來說在表達完整的信息的前提下力爭用更少的碼 流,從而達到更高的編碼效率?,F(xiàn)有的坐標定義方法是用一個固定的比特數(shù)來對坐標進行 編碼,比如DolbyAtmos就是將位置坐標的映射到單位立方體中,得到一個范圍在[0,1]的小 數(shù),然后用12比特來儲存這個無符號小數(shù)。這樣編碼的結(jié)果是無論位置坐標是否變化都要 用12比特來存儲,從而產(chǎn)生了大量的碼流的浪費。實際上,聲音對象的位置大多變化緩慢, 在相鄰幀或相鄰塊之間的位置坐標數(shù)據(jù)間存在較大冗余。
[0008] 從聲音表現(xiàn)力來看,現(xiàn)有的空間區(qū)域劃分都是采用的固定劃分的方式,例如 DolbyAtmos將空間劃分為左側(cè)屏幕揚聲器區(qū)域、中間屏幕揚聲器區(qū)域、右側(cè)屏幕揚聲器區(qū) 域、左墻揚聲器區(qū)域、右墻揚聲器區(qū)域、后墻左側(cè)揚聲器區(qū)域、后墻右側(cè)揚聲器區(qū)域、左房頂 揚聲器區(qū)域和右房頂揚聲器區(qū)域等九個區(qū)域。這樣對于聲音對象的定位就缺乏彈性,可選 擇的余地較少,從而使聲音表現(xiàn)不夠靈活。

【發(fā)明內(nèi)容】

[0009] 發(fā)明目的:針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種聲音對象的編碼方法,實現(xiàn)更高 效率的空間表示和更好的聲場效果。
[0010] 技術(shù)方案:本發(fā)明所述的聲音對象的編碼方法,包括:
[0011] 獲取聲場空間的聲音對象;
[0012] 以聲場空間水平切面中心、與錄音師雙耳連線中心等高的位置為原點建立三維坐 標系;
[0013] 將聲音對象的位置軌跡以幀為單位劃分,每幀分為若干塊;
[0014] 確定聲音對象第i塊的位置坐標為(x(i),y(i),z(i));
[0015] 位置坐標(x,y,z)映射為(pID,Ax,Ay,Az),pID為象限標識符,Ax、Ay、Az為位置坐 標的絕對值。
[0016] 所述聲音對象的作用區(qū)域為(Φ,θ,γ ),其中φ為聲音對象和原點連線在xoy平面 上的投影與X軸的夾角、范圍[0,2π),Θ為聲音對象和原點連線與z軸的夾角,γ是描述錐面 張開大小的、定義為錐面母線和中軸線的夾角,范圍[0,V2]。
[0017] 進一步完善上述技術(shù)方案,所述聲場空間采用歸一化坐標,位置坐標絕對值A(chǔ)x、 Ay、Az的取值范圍為[0,1]。
[00?8] 進一步地,所述象限標識符pID與(X,y,z)的符號位信息(signb (X),signb (y), signb(z))相對應(yīng),其中signb(x)是取符號位運算signb(x) = 0,當(dāng)x> = 0;signb(x) = 1,當(dāng)x <0〇
[0019] 進一步地,所述聲音對象采用1024樣本為一幀,每幀分為4塊或2塊。
[0020] 有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點:本發(fā)明提供的一種聲場空間的坐標定 義方法,并引入了聲音對象有效作用區(qū)域,并用錐形表示,將聲音對象的坐標(x、y、z)和有 效作用區(qū)域(Φ,θ,γ )統(tǒng)一到一個坐標系統(tǒng),實現(xiàn)更高效率的空間表示和更好的聲場效果, 點源可以僅用三維坐標值表示,面源不僅需要三維坐標值,還需要區(qū)域信息,更有效的表示 點源聲音對象、面源聲音對象,實現(xiàn)更高效率的空間表示和更好的聲場效果,更加完善的三 維聲場;編碼效率高、聲音表現(xiàn)力好且聲音制作方便。
[0021] 而本發(fā)明提出了一種新的劃分方式,以對象與原點的連線為中軸來得到一個圓 錐,圓錐的張角可調(diào),圓錐所籠罩的區(qū)域就是對象的有效作用區(qū)域。現(xiàn)有的區(qū)域劃分是從揚 聲器的角度出發(fā)對揚聲器的分布進行區(qū)域劃分,而本發(fā)明是從對象的角度出發(fā)劃分出對象 的有效作用區(qū)域,有利于錄音師定義自己理想的有效作用區(qū)域,而在進行對象呈現(xiàn)時可以 根據(jù)實際聲場的揚聲器布置和所采用的呈現(xiàn)算法來靈活地決定揚聲器的取舍,這樣形成的 區(qū)域劃分將使得對聲音對象的重建更加具有表現(xiàn)力。
[0022] 從聲音的制作的角度來看,通過靈活的定義了聲音對象的位置以及聲場空間的區(qū) 域劃分,在聲音制作的環(huán)節(jié)上能夠方便地在傳統(tǒng)的3D立體聲基礎(chǔ)上隨意添加聲音對象,使 得無論錄音還是聲音制作的環(huán)節(jié)都充滿了靈活性。
【附圖說明】
[0023] 圖1為本發(fā)明的揚聲器的區(qū)域劃分示意圖。
【具體實施方式】
[0024] 下面結(jié)合附圖對本發(fā)明技術(shù)方案進行詳細說明。
[0025] 實施例1:以一個立方體來描述聲場空間為例,典型應(yīng)用是揚聲器布置于立方體的 邊界面。聲音對象的空間坐標定義:將坐標原點定義為水平切面的中心、高度與錄音師監(jiān)聽 時耳朵齊平的位置,并令X軸指向右側(cè)(墻),y軸指向前方(通常為屏幕),Z軸垂直指向上方 (房頂)。
[0026] 對聲場空間采用歸一化坐標表示,X軸、y軸和z軸的最大絕對坐標值為l,z軸較短 一側(cè)為地面,其歸一化絕對坐標值為a(a〈l ),則此聲場空間的8個坐標為:
[0027] (1,1,1)--表示區(qū)域前方右上角;
[0028] (-1,1,1) 表不區(qū)域前方左上角;
[0029] (1,1,-a)--表示區(qū)域前方右下角;
[0030] (_l,l,_a) 表不區(qū)域前方左下角;
[0031] (1,-1,1) 表不區(qū)域后方右上角;
[0032] (-1,-1,1) 表不區(qū)域后方左上角;
[0033] (l,_l,_a) 表不區(qū)域后方右下角;
[0034] (_l,-l,_a)--表不區(qū)域后方左下角。
[0035] 聲音對象的位置軌跡編碼以幀為單位劃分,每幀進一步分為若干塊。為和壓縮編 碼兼容,采用1024個樣本為一幀:48kHz采樣頻率時,每個塊為256個樣本,時間間隔為 5.3ms; 96kHz采樣頻率時,每個塊為512個樣本,時間間隔為5.3ms。第i塊的某一聲音對象的 位置坐標表示為(x(i),y(i),z(i)),i = l、2、3、4。聲音對象的位置坐標(x,y,z)可以映射為 用四個量(PID,Ax,Ay,Az)來描述,即象限標識符p ID和位置坐標的絕對值A(chǔ)x、Ay、Az (取值范 圍為[0,1])。
[0036] 聲音對象的象限標識符pID是對坐標(X,y,z)的象限位置的描述,與(X,y,z)的符 號位信息(signb(x),signb(y),signb(z))相對應(yīng),其中signb(x)是取符號位運算
[0037] signb(x)=0,當(dāng) x> = 0;
[0038] signb(x)=1,當(dāng)x〈0;
[0039] 象限標識符可取如下值:
[0040] 表1象限標識符pID表 「00411
[0042]每幀的第一個塊為參考塊,對該塊的聲音對象空間位置信息采用直接編碼;后續(xù) 的塊為預(yù)測塊,對該塊的聲音對象空間位置信息采用差分編碼。
[0043] 第一個塊直接對(?104147^)編碼,?10用三個比特,如表1所示41^7^2在范 圍[0,1]內(nèi)編碼為10比特的無符號數(shù)〇^〇7、〇2,,它們滿足的映射關(guān)系為:
[0044]
[0045]
[0046]
[0047] 后續(xù)塊做差分編碼,即對當(dāng)前塊與前一塊的坐標值的差值(Δχ,Ay,ΔΖ)進行編 碼,其中,Αχ是當(dāng)前塊和前一塊χ軸坐標的差分值,Ay是當(dāng)前塊和前一塊y軸坐標的差分 值,A z是當(dāng)前塊和前一塊z軸坐標的差分值;滿足如下關(guān)系:
[0048] x(k) =x(k_l)+Δ χ,-2 < Δ X < 2;
[0049] y(k)=y(k-l)+Ay,-2 < Ay<2;
[0050] z(k) =z(k~l)+Δ z ,-2 < Δζ<2;
[00511與前述過程類似,差值(Δχ,Ay,ΔΖ)也被映射為用四個量(PID,| Δχ|,| Ay|, A z I )來描述。pID是(Δ χ,Δ y,Δ z)的象限標識符,I Δχ|、| Ay|和I Δζ|分別對應(yīng)Δ χ、Δ y、 八2的絕對值,取值范圍為[0,2]。?10用三個比特,如表1所示,|&刻、|&7|和|& 2|可映射 為11比特的無符號數(shù)Dx、Dy和Dz,它們滿足的映射關(guān)系為:
[0052]
[0053]
[0054]
[0055] 而對于無符號數(shù)Dx、Dy和Dz采用DIF(n)編碼方法,DIF(n)編碼的編碼過程為:首先 比較待編碼的無符號位置坐標DIFdata(DIFdata為Dx,Dy,Dz中的任意值)和(2~n_l)的大 小,如果小于(2~n-l ),則用η個比特儲存它;否則將η個比特全部置1,然后緊跟2n個比特;以 此類推直至(2~ (kn)-l )>DIFdata(k為正整數(shù))。以DIF(4)編碼為例,對無符號數(shù)Dx、Dy和Dz 采用DIF(4)編碼時,可能出現(xiàn)的k值為1、2和3,具體碼流結(jié)構(gòu)如下:
[0056
[0057] 聲音對象的差分編碼過程中,要給坐標值的差分留足夠的空間,以便于使得它的 儲存精度足夠和第一個塊中位置坐標的儲存精度一致。于是有如下公式:
[0058]
[0059] 其中R為房間的半邊長,L為相鄰兩個塊中對象的位移,η為儲存差分值所用的比特 數(shù)。
[0060] 對于一個10m見方的房間,首先選取4比特來儲存這個差分值,那么它最多能夠儲 存的值為:
[0061]
[0062] 于是解得L〈0.0781,那么此時聲音對象的最大速度為:
[0063]
[0064] 在實際錄音當(dāng)中,對于大多數(shù)聲音對象,其時速大多低于53km/h,采用4個比特儲 存就夠了,這個效率非常高。至于高速運動的聲音對象,即速度大于53km/h,可擴展為8比特 儲存。此時即便快如飛機(假設(shè)l〇〇m/s),也有:L= 100X0.0053 = 0.53(m);L為相鄰兩個塊 的距離,此時由于L/2 ~8〈5/2 ~ 10,可見8個比特完全能夠容納。
[0065]而當(dāng)房間擴大到100米時,由10比特儲存,其精度為50/2~ 10,此時儲存殘差的精度 更是足夠的。下表定義了不同比特和房間尺寸時能夠存儲的最大聲像速度:
[0066] 表2不同情況下能夠儲存的對象速度
[0067]
[0068]在一個三維區(qū)域內(nèi),對于聲音對象的重構(gòu),有一些區(qū)域內(nèi)的聲音對象作用顯著,而 另一些聲音對象可能毫無作用。從這個角度來看,對于某一特定的聲音對象,對其作用區(qū)域 進行劃分,只使用區(qū)域內(nèi)一部分聲音對象,從而可以使得計算模型和混音操作更簡單。典型 的聲音對象除了點聲源,還有面聲源(可以理解為距離很遠的點聲源)和擴散聲源(可以是 很距離的擴散式聲源,如爆炸聲等),聲音對象有效作用區(qū)域是用于描述面聲源的。該有效 作用區(qū)域?qū)嶋H是為錄音師在錄音監(jiān)聽時提供的,錄音師將自己理想的有效作用區(qū)域以元數(shù) 據(jù)的方式提供給編碼器,再由編碼器按所述的方式寫入到碼流中。因在解碼端只能拿到解 碼三維坐標值,因此,編碼時可用解碼三維坐標值確定有效作用區(qū)域,以使編碼前的有效作 用區(qū)域和解碼后的作用區(qū)域一致。實際上,在一定的精度內(nèi),編碼前的三維坐標值和解碼后 的三維坐標值非常接近,其差即三維坐標值的量化誤差。
[0069] 劃分方法見圖1,當(dāng)聲音對象的方位確定時,以原點和聲音對象連線為軸,展開一 個圓椎,原點是圓錐的頂點。此時圓錐所籠罩的揚聲器便是有效揚聲器。
[0070] 對于這種劃分,為了方便表達,采用極坐標的形式,用三個參數(shù)來表示這個劃分, (Φ,θ,γ)。其中(Φ,Θ)組成了聲音對象的方位角,φ為對象和原點連線在 xoy平面上的投 影與X軸的夾角,范圍[0,2π),θ為對象和原點連線與z軸的夾角。而第三個參數(shù)γ是用來描 述錐面張開大小的,定義為錐面母線和中軸線的夾角,范圍[0,V2]。由此,整個錐面就被確 定下來,隨之三維空間的區(qū)域劃分就完成了。
[0071] 對于(Φ,θ),前面已經(jīng)定義了對象的位置,聲音對象的位置坐標表示為(x,y,z), 于是很容易求得。
[0072]以上聲音對象編碼的偽代碼:
[007;
[0074]
[0075] 以上方法給出了三維聲場的聲音對象在錄音制作、編碼、解碼和渲染回放時的坐 標定義、運動軌跡、作用區(qū)域等表示方法。在三維聲編碼時,除了聲音對象軌跡和作用區(qū)域 等信息編碼外,還需要對聲音對象的波形做編碼。
[0076] 考慮到聲音對象彼此的獨立性,高質(zhì)量的聲音對象波形可采用獨立的編碼方式, 包括各種已知的無損編碼和有損音頻編碼技術(shù),如APE、FLAC、MP3、AAC、AVS等。在對帶寬要 求很高的低碼率場合,亦可采用參數(shù)編碼的方式,將多個聲音對象混合成一個和聲道,并采 用參數(shù)編碼方法,來有效表示多個聲音對象。此類的參數(shù)編碼方法包括SAC(Spatial Audio Coding)、BBC(Binaural Cue Coding)、MPEG Surround等。
[0077] 因聲音波形編碼的方法較為成熟,在此不作贅述。
[0078] 如上所述,盡管參照特定的優(yōu)選實施例已經(jīng)表示和表述了本發(fā)明,但其不得解釋 為對本發(fā)明自身的限制。在不脫離所附權(quán)利要求定義的本發(fā)明的精神和范圍前提下,可對 其在形式上和細節(jié)上作出各種變化。
【主權(quán)項】
1. 一種聲音對象的編碼方法,其特征在于,包括: 獲取聲場空間的聲音對象; 以聲場空間水平切面中心、與錄音師雙耳連線中心等高的位置為原點建立三維坐標 系; 將聲音對象的位置軌跡以幀為單位劃分,每幀分為若干塊; 確定聲音對象第i塊的位置坐標為(x(i),y(i),z(i)); 位置坐標(x,y,z)映射為(pID,Ax,Ay,Az),pID為象限標識符,Ax、Ay、Az為位置坐標的 絕對值。2. 根據(jù)權(quán)利要求1所述聲音對象的編碼方法,其特征在于:所述聲音對象的作用區(qū)域為 (Φ,θ,γ ),其中Φ為聲音對象和原點連線在xoy平面上的投影與X軸的夾角、范圍[0,2ιτ),θ 為聲音對象和原點連線與ζ軸的夾角,Y是描述錐面張開大小的,定義為錐面母線和中軸線 的夾角,范圍[〇,V2]。3. 根據(jù)權(quán)利要求1所述聲音對象的編碼方法,其特征在于:所述聲場空間采用歸一化坐 標,位置坐標絕對值A(chǔ)x、Ay、Az的取值范圍為[0,1 ]。4. 根據(jù)權(quán)利要求3所述聲音對象的編碼方法,其特征在于:所述象限標識符pID與(x,y, z)的符號位信息(signb(x),signb (y),signb (z))相對應(yīng),其中signb (X)是取符號位運 算signb (X)=O,當(dāng)x>=0;signb (x)=l,當(dāng)x〈0〇5. 根據(jù)權(quán)利要求1所述聲音對象的編碼方法,其特征在于:所述聲音對象采用1024樣本 為一幀,每幀分為4塊或2塊。
【文檔編號】H04S7/00GK105898669SQ201610158782
【公開日】2016年8月24日
【申請日】2016年3月18日
【發(fā)明人】潘興德, 吳超剛
【申請人】南京青衿信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
嘉禾县| 高密市| 临清市| 西畴县| 双流县| 浏阳市| 万荣县| 双牌县| 横峰县| 沛县| 黄平县| 元阳县| 太原市| 天台县| 临夏县| 平阳县| 孟州市| 嘉祥县| 塔河县| 丰镇市| 甘德县| 抚松县| 曲阜市| 兴海县| 沿河| 汾西县| 胶南市| 遵义县| 阳春市| 夹江县| 榕江县| 固安县| 松江区| 宝清县| 孟村| 建阳市| 鸡西市| 双峰县| 阳朔县| 繁昌县| 麦盖提县|