本發(fā)明涉及音頻信號(hào)處理裝置和方法。具體而言,本發(fā)明涉及用于對(duì)音頻信號(hào)進(jìn)行下混和上混的音頻信號(hào)處理裝置和方法。
背景技術(shù):
聲音編碼、傳輸、記錄、混合和再現(xiàn)的技術(shù)一直是數(shù)十年來(lái)的研發(fā)主題。從單聲道技術(shù)開始,多聲道音頻技術(shù)已逐漸發(fā)展到立體聲、四聲道、5.1聲道等。與傳統(tǒng)的單聲道或立體聲音頻相比,多聲道音頻給終端用戶帶來(lái)了全新的聆聽體驗(yàn),因此越來(lái)越吸引音頻制作者。
為了成功實(shí)現(xiàn)多聲道音頻,就應(yīng)該可以在僅支持任意數(shù)量q的記錄聲道的子集m的傳統(tǒng)播放設(shè)備上再現(xiàn)多聲道音頻。播放設(shè)備中的m個(gè)再現(xiàn)聲道,如揚(yáng)聲器或耳機(jī),的子集可以根據(jù)用戶需求而變化。當(dāng)用戶切換其設(shè)備,例如從立體聲切換到5.1聲道或從立體聲切換到任何3個(gè)揚(yáng)聲器設(shè)備時(shí),可能發(fā)生這種情況。
在傳統(tǒng)播放設(shè)備上再現(xiàn)多聲道音頻的傳統(tǒng)方式是通過(guò)使用固定的下混矩陣來(lái)將q聲道音頻輸入信號(hào)下混到僅具有m個(gè)聲道的音頻輸出信號(hào)中。這可以在發(fā)送器或接收器側(cè)進(jìn)行,受到立體聲、5.1聲道和7.1聲道等普遍可用的內(nèi)容格式的約束。迄今為止,如果沒(méi)有事先的再現(xiàn)布局信息,任何播放設(shè)備都不可能以最佳且靈活的方式支持任意數(shù)量的輸出聲道,也不會(huì)向記錄設(shè)備進(jìn)行反饋,例如即插即用立體聲到3.0、立體聲到8.2等。
因此,需要一種改良的音頻信號(hào)處理裝置和方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種改良的音頻信號(hào)處理裝置和方法。
該目的通過(guò)獨(dú)立權(quán)利要求的主題實(shí)現(xiàn)。更多實(shí)施方式從從屬權(quán)利要求、描述內(nèi)容和附圖中顯而易見。
根據(jù)第一方面,本發(fā)明涉及一種用于將輸入音頻信號(hào)處理為輸出音頻信號(hào)的音頻信號(hào)下混裝置,其中所述輸入音頻信號(hào)包括在多個(gè)空間位置處記錄的多個(gè)輸入聲道,所述輸出音頻信號(hào)包括多個(gè)主輸出聲道。所述音頻信號(hào)下混裝置包括:下混矩陣確定器,用于為多個(gè)頻率點(diǎn)中的每個(gè)頻率點(diǎn)j確定下混矩陣du,其中j是范圍從1到n的整數(shù);對(duì)于給定頻率點(diǎn)j,所述下混矩陣du將與所述輸入音頻信號(hào)的所述多個(gè)輸入聲道相關(guān)聯(lián)的多個(gè)傅立葉系數(shù)映射到所述輸出音頻信號(hào)的所述主輸出聲道的多個(gè)傅立葉系數(shù);對(duì)于j小于或等于截止頻率點(diǎn)k的頻率點(diǎn),所述下混矩陣du通過(guò)確定離散laplace-beltrami算子l的特征向量來(lái)確定,所述離散laplace-beltrami算子l通過(guò)記錄所述多個(gè)輸入聲道的所述多個(gè)空間位置定義;對(duì)于j大于所述截止頻率點(diǎn)k的頻率點(diǎn),所述下混矩陣du通過(guò)確定協(xié)方差矩陣cov的特征向量的第一子集來(lái)確定,所述協(xié)方差矩陣cov通過(guò)所述輸入音頻信號(hào)的所述多個(gè)輸入聲道定義;以及處理器,用于使用所述下混矩陣du將所述輸入音頻信號(hào)處理為所述輸出音頻信號(hào)。所述空間位置可以通過(guò)多個(gè)麥克風(fēng)的空間位置定義。
因此,由于以下事實(shí)而提供了一種改良且靈活的音頻信號(hào)處理裝置:最佳下混矩陣以考慮到采集系統(tǒng)幾何的實(shí)際設(shè)計(jì)的頻選方式得到。
根據(jù)本發(fā)明所述第一方面,在所述音頻信號(hào)下混裝置的第一可能實(shí)施形式中,所述下混矩陣確定器用于使用以下等式確定所述離散laplace-beltrami算子l:
l=c-w
c=diag{c}
c=[c1,...,cp,...,cq]
其中,l是所述laplace-beltrami算子的矩陣表示,c和w是各自維度為qxq的矩陣,其中q是輸入聲道的數(shù)量,diag(…)表示將輸入向量元素作為輸出矩陣的對(duì)角線而其余矩陣元素為0的矩陣對(duì)角化運(yùn)算,c是維度q的向量,wpq是局部平均系數(shù)。
所述第一可能實(shí)施形式提供了一種計(jì)算所述離散laplace-beltrami算子l的高效計(jì)算方式。
根據(jù)本發(fā)明所述第一方面的所述第一實(shí)施形式,在所述音頻信號(hào)下混裝置的第二可能實(shí)施形式中,所述下混矩陣確定器用于使用以下等式確定所述局部平均系數(shù)wpq:
wpq=0;p=q
其中rp或rq是定義所述多個(gè)空間位置中的一個(gè)空間位置的向量,其中在所述多個(gè)空間位置處記錄所述輸入音頻信號(hào)的所述多個(gè)輸入聲道。
所述第二可能實(shí)施形式提供了一種基于各個(gè)設(shè)備的三維位置rp和rq使用所述平均系數(shù)wpq的距離權(quán)重記錄所述多個(gè)輸入聲道的高效計(jì)算近似法。
根據(jù)如上所述本發(fā)明第一方面或其所述第一或第二實(shí)施形式中的任一者,在第三可能實(shí)施形式中,通過(guò)選擇特征值大于預(yù)定義閾值的所述離散laplace-beltrami算子l的所述特征向量來(lái)為j小于或等于所述截止頻率點(diǎn)k的頻率點(diǎn)確定所述下混矩陣du。
所述第三可能實(shí)施形式提供了一種為所述下混矩陣du選擇所述laplace-beltrami算子l的最佳特征向量的高效計(jì)算方式。
根據(jù)如上所述本發(fā)明第一方面或其所述第一至第三實(shí)施形式中的任一者,在第四可能實(shí)施形式中,通過(guò)選擇特征值大于預(yù)定義閾值的所述協(xié)方差矩陣cov的特征向量來(lái)為j大于所述截止頻率點(diǎn)k的頻率點(diǎn)確定所述下混矩陣du。
所述第四可能實(shí)施形式提供了一種為所述下混矩陣du選擇所述協(xié)方差矩陣cov的最佳特征向量的高效計(jì)算方式。
根據(jù)如上所述本發(fā)明第一方面或其所述第一至第四實(shí)施形式中的任一者,在第五可能實(shí)施形式中,所述下混矩陣確定器用于通過(guò)以下操作確定所述截止頻率點(diǎn)k:確定所述多個(gè)頻率點(diǎn)中的密實(shí)度程度θc大于預(yù)定義閾值t的所有頻率點(diǎn)中的所述密實(shí)度程度θc最小的頻率點(diǎn),其中頻率點(diǎn)的所述密實(shí)度程度θc使用以下等式確定:
其中,
所述第五可能實(shí)施形式提供了一種用于通過(guò)使用所述密實(shí)度程度θc確定所述截止頻率點(diǎn)k的高效計(jì)算實(shí)施方式。如本領(lǐng)域技術(shù)人員將理解的那樣,所述截止頻率點(diǎn)k可以確定為最大頻率點(diǎn)n,從而在這種情況下,所述下混矩陣du僅由所述離散laplace-beltrami算子l的所述特征向量決定。
根據(jù)如上所述本發(fā)明第一方面或其所述第一至第五實(shí)施形式中的任一者,在第六可能實(shí)施形式,所述音頻信號(hào)下混裝置還包括:下混矩陣擴(kuò)展確定器,用于通過(guò)確定所述協(xié)方差矩陣cov的特征向量的第二子集來(lái)確定下混矩陣擴(kuò)展dw,所述第二子集包含所述協(xié)方差矩陣cov的至少一個(gè)特征向量以提供所述輸出音頻信號(hào)的至少一個(gè)輔助輸出聲道,其中,所述協(xié)方差矩陣cov的特征向量的所述第一子集與所述協(xié)方差矩陣cov的特征向量的所述第二子集是不相交集合,所述下混矩陣du和所述下混矩陣擴(kuò)展dw定義擴(kuò)展后的下混矩陣d。
根據(jù)本發(fā)明所述第一方面的所述第六實(shí)施形式,在第七可能實(shí)施形式中,所述下混矩陣擴(kuò)展確定器用于通過(guò)以下操作確定所述協(xié)方差矩陣cov的特征向量的所述第二子集:為所述協(xié)方差矩陣cov的每個(gè)特征向量確定所述特征向量與所述下混矩陣du的列定義的多個(gè)向量之間的多個(gè)角,為每個(gè)特征向量確定所述特征向量與所述下混矩陣du的所述列定義的所述多個(gè)向量之間的所述多個(gè)角中的最小角,以及選擇所述協(xié)方差矩陣cov的所述特征向量與所述下混矩陣du的所述列定義的所述多個(gè)向量之間的所述最小角大于閾值角θmin的那些特征向量。
所述第七可能實(shí)施形式提供了一種使用所述協(xié)方差矩陣cov的其它特征向量得到所述下混矩陣擴(kuò)展dw的高效計(jì)算方式。
根據(jù)如上所述本發(fā)明第一方面或其所述第一至第七實(shí)施形式中的任一者,在第八可能實(shí)施形式中,所述處理器用于針對(duì)所述多個(gè)輸入聲道中的每一個(gè)以多個(gè)輸入音頻信號(hào)時(shí)間幀的形式處理所述輸入音頻信號(hào),與所述輸入音頻信號(hào)的所述多個(gè)輸入聲道相關(guān)聯(lián)的所述多個(gè)傅立葉系數(shù)通過(guò)所述多個(gè)輸入音頻信號(hào)時(shí)間幀的離散傅立葉變換獲得。
所述第八可能實(shí)施形式提供了一種使用離散傅立葉變換,尤其是fft,逐幀進(jìn)行的所述輸入音頻信號(hào)的所述輸出聲道的高效計(jì)算處理。所述音頻信號(hào)時(shí)間幀可以重疊。
根據(jù)本發(fā)明所述第一方面的所述第八實(shí)施形式,在第九可能實(shí)施形式中,所述下混矩陣確定器用于通過(guò)以下操作確定所述輸入音頻信號(hào)的所述多個(gè)輸入聲道定義的所述協(xié)方差矩陣cov:使用以下等式為所述多個(gè)輸入音頻信號(hào)時(shí)間幀中的給定輸入音頻信號(hào)時(shí)間幀n以及為所述多個(gè)頻率點(diǎn)中的給定頻率點(diǎn)j確定所述協(xié)方差cov的系數(shù)cxy:
其中,e{}表示期望算子,jx表示所述輸入音頻信號(hào)的輸入聲道x在頻率點(diǎn)j處的傅立葉系數(shù),*表示復(fù)共軛,x和y的范圍是從1到所述輸入聲道的數(shù)量q。
所述第九可能實(shí)施形式提供了一種確定所述協(xié)方差矩陣cov的高效計(jì)算方式。
根據(jù)本發(fā)明所述第一方面的所述第八實(shí)施形式,在第十可能實(shí)施形式中,所述下混矩陣確定器用于通過(guò)以下操作確定所述輸入音頻信號(hào)的所述多個(gè)輸入聲道定義的所述協(xié)方差矩陣cov:使用以下等式為所述多個(gè)輸入音頻信號(hào)時(shí)間幀中的給定輸入音頻信號(hào)時(shí)間幀n以及為所述多個(gè)頻率點(diǎn)中的給定頻率點(diǎn)j確定所述協(xié)方差cov的系數(shù)cxy:
其中,β表示遺忘因子,0≤β<1,
根據(jù)第二方面,本發(fā)明涉及一種用于將輸入音頻信號(hào)處理為輸出音頻信號(hào)的音頻信號(hào)下混方法,其中所述輸入音頻信號(hào)包括在多個(gè)空間位置處記錄的多個(gè)輸入聲道,所述輸出音頻信號(hào)包括多個(gè)主輸出聲道。所述方法包括以下步驟:為多個(gè)頻率點(diǎn)中的每個(gè)頻率點(diǎn)j確定下混矩陣du,其中j是范圍從1到n的整數(shù);對(duì)于給定頻率點(diǎn)j,所述下混矩陣du將與所述輸入音頻信號(hào)的所述多個(gè)輸入聲道相關(guān)聯(lián)的多個(gè)傅立葉系數(shù)映射到所述輸出音頻信號(hào)的所述主輸出聲道的多個(gè)傅立葉系數(shù);對(duì)于j小于或等于截止頻率點(diǎn)k的頻率點(diǎn),所述下混矩陣du通過(guò)確定離散laplace-beltrami算子l的特征向量來(lái)確定,所述離散laplace-beltrami算子l通過(guò)記錄所述多個(gè)輸入聲道的所述多個(gè)空間位置定義;對(duì)于j大于所述截止頻率點(diǎn)k的頻率點(diǎn),所述下混矩陣du通過(guò)確定協(xié)方差矩陣cov的特征向量的第一子集來(lái)確定,所述協(xié)方差矩陣cov通過(guò)所述輸入音頻信號(hào)的所述多個(gè)輸入聲道定義;以及使用所述下混矩陣du將所述輸入音頻信號(hào)處理為所述輸出音頻信號(hào)。
根據(jù)本發(fā)明所述第二方面的所述音頻信號(hào)下混方法可以由根據(jù)本發(fā)明所述第一方面的所述音頻信號(hào)下混裝置來(lái)執(zhí)行。根據(jù)本發(fā)明所述第二方面的所述音頻信號(hào)下混方法的更多特征從根據(jù)本發(fā)明所述第一方面的所述音頻信號(hào)下混裝置的功能和其不同實(shí)施形式直接得到。
根據(jù)第三方面,本發(fā)明涉及一種編碼裝置,包括:根據(jù)本發(fā)明所述第一方面的所述音頻信號(hào)下混裝置;以及編碼器a,用于對(duì)所述輸出音頻信號(hào)的所述多個(gè)主輸出聲道進(jìn)行編碼,以獲得第一比特流形式的多個(gè)已編碼主輸出聲道。
根據(jù)第四方面,本發(fā)明涉及一種用于將輸入音頻信號(hào)處理為輸出音頻信號(hào)的音頻信號(hào)上混裝置,其中所述輸入音頻信號(hào)包括基于在多個(gè)空間位置處記錄的多個(gè)輸入聲道的多個(gè)主輸入聲道,所述輸出音頻信號(hào)包括多個(gè)輸出聲道。所述音頻信號(hào)上混裝置包括:上混矩陣確定器,用于為多個(gè)頻率點(diǎn)中的每個(gè)頻率點(diǎn)j確定上混矩陣,其中j是范圍從1到n的整數(shù);對(duì)于給定頻率點(diǎn)j,所述上混矩陣將與所述輸入音頻信號(hào)的所述多個(gè)主輸入聲道相關(guān)聯(lián)的多個(gè)傅立葉系數(shù)映射到所述輸出音頻信號(hào)的所述輸出聲道的多個(gè)傅立葉系數(shù);對(duì)于j小于或等于截止頻率點(diǎn)k的頻率點(diǎn),所述上混矩陣通過(guò)確定離散laplace-beltrami算子l的特征向量來(lái)確定,所述離散laplace-beltrami算子l通過(guò)記錄所述多個(gè)輸入聲道的所述多個(gè)空間位置定義;對(duì)于j大于所述截止頻率點(diǎn)k的頻率點(diǎn),所述上混矩陣通過(guò)確定協(xié)方差矩陣cov的特征向量的第一子集來(lái)確定,所述協(xié)方差矩陣cov通過(guò)所述輸入音頻信號(hào)的所述多個(gè)輸入聲道定義;以及處理器,用于使用所述上混矩陣將所述輸入音頻信號(hào)處理為所述輸出音頻信號(hào)。
根據(jù)第五方面,本發(fā)明涉及一種用于將輸入音頻信號(hào)處理為輸出音頻信號(hào)的音頻信號(hào)上混方法,其中所述輸入音頻信號(hào)包括基于在多個(gè)空間位置處記錄的多個(gè)輸入聲道的多個(gè)主輸入聲道,所述輸出音頻信號(hào)包括多個(gè)輸出聲道。所述方法包括以下步驟:為多個(gè)頻率點(diǎn)中的每個(gè)頻率點(diǎn)j確定上混矩陣,其中j是范圍從1到n的整數(shù);對(duì)于給定頻率點(diǎn)j,所述上混矩陣將與所述輸入音頻信號(hào)的所述多個(gè)輸入聲道相關(guān)聯(lián)的多個(gè)傅立葉系數(shù)映射到所述輸出音頻信號(hào)的所述主輸出聲道的多個(gè)傅立葉系數(shù),對(duì)于j小于或等于截止頻率點(diǎn)k的頻率點(diǎn),所述上混矩陣通過(guò)確定離散laplace-beltrami算子(l)的特征向量來(lái)確定,所述離散laplace-beltrami算子(l)通過(guò)記錄所述多個(gè)輸入聲道的所述多個(gè)空間位置定義;對(duì)于j大于所述截止頻率點(diǎn)k的頻率點(diǎn),所述上混矩陣通過(guò)確定協(xié)方差矩陣cov的特征向量的第一子集來(lái)確定,所述協(xié)方差矩陣cov通過(guò)所述輸入音頻信號(hào)的所述多個(gè)輸入聲道定義;以及使用所述上混矩陣將所述輸入音頻信號(hào)處理為所述輸出音頻信號(hào)。
根據(jù)本發(fā)明所述第五方面的所述音頻信號(hào)上混方法可以由根據(jù)本發(fā)明所述第四方面的所述音頻信號(hào)上混裝置來(lái)執(zhí)行。根據(jù)本發(fā)明所述第五方面的所述音頻信號(hào)上混方法的更多特征從根據(jù)本發(fā)明所述第四方面的所述音頻信號(hào)上混裝置的功能直接得到。
根據(jù)第六方面,本發(fā)明涉及一種解碼裝置,包括:根據(jù)本發(fā)明所述第四方面的音頻信號(hào)上混裝置;以及解碼器a,用于從根據(jù)本發(fā)明所述第三方面的編碼裝置接收第一比特流,并對(duì)所述第一比特流進(jìn)行解碼來(lái)獲得將由所述音頻信號(hào)上混裝置處理的多個(gè)主輸入聲道。
根據(jù)第七方面,本發(fā)明涉及一種音頻信號(hào)處理系統(tǒng),包括根據(jù)本發(fā)明所述第三方面的編碼裝置和根據(jù)本發(fā)明所述第六方面的解碼裝置,其中所述編碼裝置用于至少臨時(shí)與所述解碼裝置進(jìn)行通信。
根據(jù)第八方面,本發(fā)明涉及一種包括程序代碼的計(jì)算機(jī)程序,當(dāng)在計(jì)算機(jī)上執(zhí)行時(shí),用于執(zhí)行根據(jù)本發(fā)明所述第二方面的音頻信號(hào)下混方法和/或根據(jù)本發(fā)明所述第五方面的音頻信號(hào)上混方法。
本發(fā)明可以在硬件和/或軟件中實(shí)施。
附圖說(shuō)明
本發(fā)明的具體實(shí)施方式將結(jié)合以下附圖進(jìn)行描述,其中:
圖1示出了作為音頻信號(hào)處理系統(tǒng)的一部分的根據(jù)一實(shí)施例的音頻信號(hào)下混裝置和根據(jù)一實(shí)施例的音頻信號(hào)上混裝置的示意圖;
圖2示出了根據(jù)一實(shí)施例的音頻信號(hào)下混方法的示意圖。
具體實(shí)施方式
以下結(jié)合附圖進(jìn)行詳細(xì)描述,所述附圖是描述的一部分,并通過(guò)圖解說(shuō)明的方式示出可以實(shí)施本發(fā)明的具體方面。可以理解的是,在不脫離本發(fā)明范圍的情況下,可以利用其它方面,并可以做出結(jié)構(gòu)上或邏輯上的改變。因此,以下詳細(xì)的描述并不當(dāng)作限定,本發(fā)明的范圍由所附權(quán)利要求書界定。
應(yīng)理解,關(guān)于描述方法的公開還可以適用于執(zhí)行所述方法的對(duì)應(yīng)設(shè)備或系統(tǒng),反之亦然。例如,如果描述了特定方法步驟,則對(duì)應(yīng)設(shè)備或裝置可以包括用于執(zhí)行所描述的方法步驟的單元,即使此類單元沒(méi)有在圖中明確描述或圖示。此外,應(yīng)理解,本文所描述的各種示例性方面的特征可以相互組合,除非另外明確說(shuō)明。
圖1示出了作為音頻信號(hào)處理系統(tǒng)100的一部分的根據(jù)一實(shí)施例的音頻信號(hào)下混裝置105的示意圖。
音頻信號(hào)下混裝置105用于將輸入音頻信號(hào)處理為輸出音頻信號(hào),其中輸入音頻信號(hào)包括在多個(gè)空間位置處記錄的多個(gè)輸入聲道113,輸出音頻信號(hào)包括多個(gè)主輸出聲道123。在一個(gè)實(shí)施例中,多聲道輸入音頻信號(hào)113包括q個(gè)輸入聲道。在一個(gè)實(shí)施例中,音頻信號(hào)下混裝置105用于逐幀,即以多個(gè)輸入音頻信號(hào)時(shí)間幀的形式,處理多聲道輸入音頻信號(hào)113,其中音頻信號(hào)時(shí)間幀可以具有例如每個(gè)聲道約10ms至40ms的長(zhǎng)度。在一個(gè)實(shí)施例中,隨后的輸入音頻信號(hào)時(shí)間幀可以部分重疊。在一個(gè)實(shí)施例中,在頻域中處理多聲道輸入音頻信號(hào)113。在一個(gè)實(shí)施例中,通過(guò)離散傅立葉變換,尤其是fft,將多聲道輸入音頻信號(hào)113的聲道的輸入音頻信號(hào)時(shí)間幀變換到頻域,從而在多聲道音頻輸入信號(hào)113的輸入聲道x的頻率點(diǎn)j處產(chǎn)生多個(gè)傅立葉系數(shù)jx,其中j的范圍是從1到n,即,總頻率點(diǎn)數(shù),x的范圍是從1到總輸入聲道數(shù)q。
音頻信號(hào)下混裝置105包括:下混矩陣確定器107,用于為每個(gè)頻率點(diǎn)j(并且在針對(duì)每個(gè)輸入音頻信號(hào)時(shí)間幀進(jìn)行多聲道輸入音頻信號(hào)113的逐幀處理時(shí))確定一個(gè)下混矩陣du,其中,對(duì)于給定頻率點(diǎn)j,下混矩陣du將與輸入音頻信號(hào)的多個(gè)輸入聲道113相關(guān)聯(lián)的多個(gè)傅立葉系數(shù)映射到輸出音頻信號(hào)的主輸出聲道123的多個(gè)傅立葉系數(shù)。
另外,音頻信號(hào)下混裝置105包括處理器109,用于使用下混矩陣du將多聲道輸入音頻信號(hào)113處理為輸出音頻信號(hào)。
對(duì)于j小于或等于截止頻率點(diǎn)k的頻率點(diǎn),下混矩陣確定器107通過(guò)確定離散laplace-beltrami算子l的特征向量來(lái)確定下混矩陣du,離散laplace-beltrami算子l通過(guò)記錄或已記錄多個(gè)輸入聲道113的多個(gè)空間位置定義。在一個(gè)實(shí)施例中,記錄或已記錄多個(gè)輸入聲道113的多個(gè)空間位置通過(guò)用于記錄多聲道音頻輸入信號(hào)113的對(duì)應(yīng)的多個(gè)麥克風(fēng)或其它錄音設(shè)備的空間位置定義。在一個(gè)實(shí)施例中,關(guān)于已記錄多個(gè)輸入聲道113的多個(gè)空間位置的信息可以提供給或存儲(chǔ)到下混矩陣確定器107。
在一個(gè)實(shí)施例中,下混矩陣確定器107用于使用以下等式確定離散laplace-beltrami算子l:
l=c-w,
c=diag{c},
c=[c1,...,cp,...,cq],以及
其中,l是laplace-beltrami算子的矩陣表示,c和w是各自維度為qxq的矩陣,其中q是輸入聲道113的數(shù)量,diag(…)表示將輸入向量元素作為輸出矩陣的對(duì)角線而其余矩陣元素為0的矩陣對(duì)角化運(yùn)算,c是維度q的向量,wpq是局部平均系數(shù)。
在一個(gè)實(shí)施例中,下混矩陣確定器107用于使用以下等式確定局部平均系數(shù)wpq:
wpq=0;p=q,
其中rp或rq是三維向量,定義記錄輸入音頻信號(hào)的多個(gè)輸入聲道的多個(gè)空間位置中的一個(gè)空間位置,例如用于記錄多聲道音頻輸入信號(hào)113的q個(gè)麥克風(fēng)或其它錄音設(shè)備的空間位置。
在一個(gè)實(shí)施例中,下混矩陣確定器107用于通過(guò)以下操作為j小于或等于截止頻率點(diǎn)k的頻率點(diǎn)確定下混矩陣du:選擇離散laplace-beltrami算子l的特征值大于預(yù)定義閾值λl的特征向量。
對(duì)于j大于截止頻率點(diǎn)k的頻率點(diǎn),下混矩陣確定器107用于通過(guò)確定協(xié)方差矩陣cov的特征向量的第一子集來(lái)確定下混矩陣du,協(xié)方差矩陣cov通過(guò)輸入音頻信號(hào)的多個(gè)輸入聲道113定義。
在逐幀處理多聲道音頻輸入信號(hào)113的實(shí)施例中,下混矩陣確定器107用于通過(guò)以下操作確定由輸入音頻信號(hào)的多個(gè)輸入聲道113定義的協(xié)方差矩陣cov:使用以下等式為多個(gè)輸入音頻信號(hào)時(shí)間幀中的給定輸入音頻信號(hào)時(shí)間幀n以及為多個(gè)頻率點(diǎn)中的給定頻率點(diǎn)j確定協(xié)方差矩陣cov的系數(shù)cxy:
其中,e{}表示期望算子,*表示復(fù)共軛,x和y的范圍是從1到輸入聲道的數(shù)量q。
在逐幀處理多聲道音頻輸入信號(hào)113的實(shí)施例中,下混矩陣確定器107用于通過(guò)以下操作確定由輸入音頻信號(hào)的多個(gè)輸入聲道113定義的協(xié)方差矩陣cov:使用以下等式為多個(gè)輸入音頻信號(hào)時(shí)間幀中的給定輸入音頻信號(hào)時(shí)間幀n以及為多個(gè)頻率點(diǎn)中的給定頻率點(diǎn)j確定協(xié)方差矩陣cov的系數(shù)cxy:
其中,β表示遺忘因子,0≤β≤1,
在一個(gè)實(shí)施例中,為了降低計(jì)算復(fù)雜度,可以基于某些心理聲學(xué)量度,例如bark量度或者mel量度,將傅立葉系數(shù)分組為b種不同頻帶,并且可以對(duì)每個(gè)頻帶b確定協(xié)方差矩陣cov,其中b的范圍是從1到b。在這種情況下,通過(guò)執(zhí)行例如加法,可以使用具有以下系數(shù)的簡(jiǎn)化協(xié)方差矩陣:
這種分組為b種頻帶通過(guò)僅獲取總傅立葉系數(shù)的子集來(lái)降低計(jì)算復(fù)雜度。
在一個(gè)實(shí)施例中,下混矩陣確定器107用于通過(guò)以下操作為j大于截止頻率點(diǎn)k的頻率點(diǎn)確定下混矩陣du:將協(xié)方差矩陣cov的那些特征值大于預(yù)定義閾值λcov的特征向量選為特征向量的第一子集。
在一個(gè)實(shí)施例中,下混矩陣確定器107用于通過(guò)特征值分解(eigenvaluedecomposition,evd)為多個(gè)輸入音頻信號(hào)時(shí)間幀中的給定輸入音頻信號(hào)時(shí)間幀n以及為多個(gè)頻率點(diǎn)中的給定頻率點(diǎn)j確定協(xié)方差矩陣cov的特征向量,即,
cov(n,j)=uλuh,
其中,u是包含特征向量的酉矩陣,λ是包含特征值的對(duì)角矩陣,uh是矩陣u的厄米特轉(zhuǎn)置。
在一個(gè)實(shí)施例中,協(xié)方差矩陣cov的特征向量通過(guò)利用協(xié)方差矩陣估計(jì)的秩一修正字符來(lái)迭代地計(jì)算,以降低計(jì)算復(fù)雜度,因?yàn)椴恍枰獮槊總€(gè)幀n執(zhí)行evd。
利用變換域中自相關(guān)估計(jì)的性質(zhì)得到有效的karhunen-loeve變換(karhunen-loevetransform,klt)
λ(i)(n)=αλ(i(n-1)+(1-α)y(i)h(n)y(i)(n):
y(i)(n):=x(i)(n)u(i)(n-1).
其中,α是值在0與1之間的遺忘因子,y和x表示布置為由矩陣u執(zhí)行的下混操作的行向量的輸出和輸入傅立葉系數(shù)。
該估計(jì)基于對(duì)角線矩陣的秩一修改。在文獻(xiàn)中已經(jīng)表明,λ(i)(n)的特征值是以下函數(shù)的零:
函數(shù)w(λ)的零可以迭代地找到。但是搜索過(guò)程的收斂是二次的。一旦計(jì)算出特征值,就可以通過(guò)以下等式明確地計(jì)算λ(i)(n)的經(jīng)修改的時(shí)空變換的自相關(guān)矩陣guq的特征向量:
在一個(gè)實(shí)施例中,下混矩陣確定器107用于通過(guò)以下操作確定截止頻率點(diǎn)k:確定多個(gè)頻率點(diǎn)中的密實(shí)度程度θc大于預(yù)定義閾值t的所有頻率點(diǎn)中的密實(shí)度程度θc最小的頻率點(diǎn),其中頻率點(diǎn)的密實(shí)度程度θc通過(guò)以下等式定義:
其中,
本發(fā)明還涵蓋截止頻率點(diǎn)k等于與最高頻率對(duì)應(yīng)的頻率點(diǎn)的實(shí)施例。如本領(lǐng)域人員將理解的那樣,在這種情況下,下混矩陣du僅通過(guò)所有頻率點(diǎn)的離散laplace-beltrami算子l的特征向量來(lái)定義。
在一個(gè)實(shí)施例中,音頻信號(hào)下混裝置105還包括:下混矩陣擴(kuò)展確定器111,用于通過(guò)確定協(xié)方差矩陣cov的特征向量的第二子集來(lái)確定下混矩陣擴(kuò)展dw,第二子集包含協(xié)方差矩陣cov的至少一個(gè)特征向量以提供輸出音頻信號(hào)的至少一個(gè)輔助輸出聲道125。下混矩陣確定器107確定的協(xié)方差矩陣cov的特征向量的第一子集與下混矩陣擴(kuò)展確定器111確定的協(xié)方差矩陣cov的特征向量的第二子集以這樣一種方式確定:特征向量的第一與第二子集是不相交集合。下混矩陣du和下混矩陣擴(kuò)展dw共同定義擴(kuò)展后的下混矩陣d。
在一個(gè)實(shí)施例中,下混矩陣擴(kuò)展確定器111用于使用以下步驟確定協(xié)方差矩陣cov的特征向量的第二子集。在第一步驟中,下混矩陣確定器111為協(xié)方差矩陣cov的每個(gè)特征向量確定該特征向量與下混矩陣du的列定義的多個(gè)向量之間的多個(gè)角。在第二步驟中,下混矩陣確定器111為每個(gè)特征向量確定該特征向量與下混矩陣du的列定義的多個(gè)向量之間的多個(gè)角中的最小角。在第三步驟中,下混矩陣確定器111選擇協(xié)方差矩陣cov的特征向量與下混矩陣du的列定義的多個(gè)向量之間的最小角大于預(yù)定義閾值角θmin的那些特征向量。
下混矩陣du定義由擴(kuò)展后的下混矩陣d定義的空間的子空間u。下混矩陣擴(kuò)展dw定義由擴(kuò)展后的下混矩陣d定義的所述空間的子空間w。子空間u與子空間w之間的子空間角被定義為跨越子空間u的所有向量u與跨越子空間w的所有向量w之間的最小角,即,
其中,<u,w>表示向量u和w的點(diǎn)積,||u||表示向量u的范數(shù)。
下面給出了示例性情況m=2和q=4的示例,使得子空間u被向量u1和u2跨越,即u={u1,u2},并且子空間w被向量w1、w2、w3和w4跨越,即w={w1,w2,w3,w4}。在一個(gè)實(shí)施例中,計(jì)算以下角:
θ1=∠(u1,w1)θ5=∠(u2,w1)
θ2=∠(u1,w2)θ6=∠(u2,w2)
θ3=∠(u1,w3)θ7=∠(u2,w3)
θ4=∠(u1,w4)θ8=∠(u2,w4).
為了計(jì)算協(xié)方差矩陣cov的特征向量與下混矩陣du跨越的空間之間的子空間角,在每個(gè)特征向量與下混矩陣du的列之間計(jì)算θ。在上述示例中,產(chǎn)生以下角:
θa=min(θ1,θ5)θc=min(θ3,θ7)
θb=min(θ2,θ6)θd=min(θ4,θ8)
協(xié)方差矩陣cov的特征向量按子空間角的降序排列,其中優(yōu)選地選擇具有較大角的那些子空間角,用來(lái)定義下混矩陣擴(kuò)展dw。例如,在θc>θa>θb>θd的情況下,至少與角度θ3和θ7相關(guān)聯(lián)的特征向量w3會(huì)被選為下混矩陣擴(kuò)展dw的一部分。
如上所述,音頻信號(hào)下混裝置105的上述實(shí)施例可以實(shí)施為圖1所示的音頻信號(hào)處理系統(tǒng)100的編碼裝置101的組成部分。如上所述,編碼裝置101的音頻信號(hào)下混裝置105作為輸入接收包括q個(gè)輸入音頻信號(hào)聲道113的輸入音頻信號(hào)。
如上詳細(xì)描述,音頻信號(hào)下混裝置105基于下混矩陣du,或者,在一個(gè)實(shí)施例中,基于擴(kuò)展后的下混矩陣d,對(duì)多聲道輸入音頻信號(hào)113的q個(gè)聲道進(jìn)行處理,并且提供音頻輸出信號(hào)的m個(gè)主輸出聲道123,并且,在一個(gè)實(shí)施例中,還提供音頻輸出信號(hào)的多達(dá)q-m個(gè)輔助輸出聲道125。
編碼裝置101還包括編碼器a119和另一編碼器b121。編碼器a119接收由音頻信號(hào)下混裝置105提供的m個(gè)主輸出聲道123作為輸入。另一編碼器b121接收由音頻信號(hào)下混裝置105提供的從0個(gè)到多達(dá)q-m個(gè)輔助輸出聲道125作為輸入。
編碼器a119用于將由音頻信號(hào)下混裝置105提供的m個(gè)主輸出聲道123編碼為第一比特流127。另一編碼器b121用于將音頻信號(hào)下混裝置105在一個(gè)實(shí)施例中提供的多達(dá)q-m個(gè)輔助輸出聲道125編碼為第二比特流129。在一個(gè)實(shí)施例中,編碼器a119和另一編碼器b121可以實(shí)施為單個(gè)編碼器,從而提供單個(gè)比特流作為輸出。
將第一比特流127和第二比特流129作為輸入提供給圖1所示的音頻信號(hào)處理系統(tǒng)100的解碼裝置103。解碼裝置103包括對(duì)應(yīng)的解碼器,即解碼器a133和另一解碼器b143,分別用于解碼第一比特流127和第二比特流129。
解碼器a133用于對(duì)第一比特流127進(jìn)行解碼,使得由解碼器a133提供的m個(gè)主輸入聲道135作為輸出對(duì)應(yīng)于由音頻信號(hào)下混裝置105提供的m個(gè)主輸出聲道123,即,使得由解碼器a133提供的m個(gè)主輸入聲道135作為輸出基本上與由音頻信號(hào)下混裝置105提供的m個(gè)主輸出聲道123或其降級(jí)版本(在編碼器a119和解碼器a133中實(shí)施有損編解碼的情況下)相同。
另一解碼器b143用于對(duì)第二比特流129進(jìn)行解碼,使得由另一解碼器b143提供的多達(dá)q-m個(gè)輔助輸入聲道145作為輸出對(duì)應(yīng)于由音頻信號(hào)下混裝置105提供的多達(dá)q-m個(gè)輔助輸出聲道125,即,使得由另一解碼器b143提供的多達(dá)q-m個(gè)輔助輸入聲道145作為輸出基本上與由音頻信號(hào)下混裝置105提供的多達(dá)q-m個(gè)輔助輸出聲道125或其降級(jí)版本(在其它編碼器b121和其它解碼器b143中實(shí)施有損編解碼的情況下)相同。
在圖1所示的實(shí)施例中,解碼裝置103包括音頻信號(hào)上混裝置139。在一個(gè)實(shí)施例中,音頻信號(hào)上混裝置139和/或其組件用于基本上執(zhí)行音頻信號(hào)處理裝置105和/或其組件的逆操作,以產(chǎn)生輸出音頻信號(hào)149。為此,音頻信號(hào)上混裝置139可以包括上混矩陣確定器137、處理器141和上混矩陣擴(kuò)展確定器147。在一個(gè)實(shí)施例中,處理器141基本上執(zhí)行編碼裝置101的音頻信號(hào)處理裝置105的處理器109的逆操作(通過(guò)廣義逆方法,例如偽逆)。在一個(gè)實(shí)施例中,上混矩陣確定器137可用于基于laplace-beltrami算子l的特征向量,并且,如果適用,還基于協(xié)方差矩陣cov的特征向量,來(lái)確定上混矩陣。在一個(gè)實(shí)施例中,音頻信號(hào)上混裝置139可以用來(lái)產(chǎn)生輸出音頻信號(hào)的任何額外數(shù)據(jù),例如元數(shù)據(jù),都可以通過(guò)比特流131傳輸。例如,在一個(gè)實(shí)施例中,音頻信號(hào)下混裝置105可以通過(guò)比特流131向解碼裝置的音頻信號(hào)上混裝置139提供laplace-beltrami算子的特征向量和/或,如果適用,還提供協(xié)方差矩陣cov的特征向量,用于產(chǎn)生輸出音頻信號(hào)149??梢詫?duì)比特流131進(jìn)行編碼。額外的信號(hào)處理工具,即再混合(例如,平移和波場(chǎng)合成)可進(jìn)一步應(yīng)用于輸出音頻信號(hào)149以獲得目標(biāo)期望輸出音頻信號(hào)。如本領(lǐng)域技術(shù)人員將理解的那樣,由解碼器a133提供的m個(gè)主輸入聲道135表示m個(gè)主輸入聲道135,由另一解碼器b143提供的多達(dá)q-m個(gè)輔助輸入聲道145表示由音頻信號(hào)上混裝置139處理的輸入音頻信號(hào)的多達(dá)q-m個(gè)輔助輸入聲道145。
圖2示出了用于將輸入音頻信號(hào)處理為輸出音頻信號(hào)的音頻信號(hào)處理方法200的示意圖,其中輸入音頻信號(hào)包括在多個(gè)空間位置處記錄的多個(gè)輸入聲道113,輸出音頻信號(hào)包括多個(gè)主輸出聲道123。
音頻信號(hào)處理方法200包括為多個(gè)頻率點(diǎn)中的每個(gè)頻率點(diǎn)j確定下混矩陣du的步驟201,其中j是范圍從1到n的整數(shù);對(duì)于給定頻率點(diǎn)j,下混矩陣du將與輸入音頻信號(hào)的多個(gè)輸入聲道113相關(guān)聯(lián)的多個(gè)傅立葉系數(shù)映射到輸出音頻信號(hào)的主輸出聲道123的多個(gè)傅立葉系數(shù);對(duì)于j小于或等于截止頻率點(diǎn)k的頻率點(diǎn),下混矩陣du通過(guò)確定離散laplace-beltrami算子l的特征向量來(lái)確定,離散laplace-beltrami算子l通過(guò)記錄多個(gè)輸入聲道113的多個(gè)空間位置定義;對(duì)于j大于截止頻率點(diǎn)k的頻率點(diǎn),下混矩陣du通過(guò)確定協(xié)方差矩陣cov的特征向量的第一子集來(lái)確定,協(xié)方差矩陣cov通過(guò)輸入音頻信號(hào)的多個(gè)輸入聲道113定義。
此外,音頻信號(hào)處理方法200包括使用下混矩陣du將輸入音頻信號(hào)處理為輸出音頻信號(hào)的步驟203。
本發(fā)明實(shí)施例可以在用于在計(jì)算機(jī)系統(tǒng)上運(yùn)行的計(jì)算機(jī)程序中實(shí)現(xiàn),至少包括當(dāng)在諸如計(jì)算機(jī)系統(tǒng)等的可編程裝置上運(yùn)行時(shí)用于執(zhí)行根據(jù)本發(fā)明的方法步驟的代碼部分,或者使得可編程裝置執(zhí)行根據(jù)本發(fā)明的設(shè)備或系統(tǒng)的功能的代碼部分。
計(jì)算機(jī)程序是指令列表,例如,特定的應(yīng)用程序和/或操作系統(tǒng)。計(jì)算機(jī)程序例如可以包括以下中的一個(gè)或多個(gè):子例程、函數(shù)、流程、對(duì)象方法、對(duì)象實(shí)現(xiàn)、可執(zhí)行應(yīng)用、小程序、服務(wù)器小程序、源代碼、目標(biāo)代碼、共享庫(kù)/動(dòng)態(tài)加載庫(kù)和/或設(shè)計(jì)用于在計(jì)算機(jī)系統(tǒng)上執(zhí)行的其它指令序列。
計(jì)算機(jī)程序可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)部或通過(guò)計(jì)算機(jī)可讀傳輸介質(zhì)傳輸?shù)接?jì)算機(jī)系統(tǒng)。全部或部分計(jì)算機(jī)程序可以在永久地、可移除地或遠(yuǎn)程地耦合至信息處理系統(tǒng)的瞬時(shí)性或非瞬時(shí)性計(jì)算機(jī)可讀介質(zhì)上提供。計(jì)算機(jī)可讀介質(zhì)可以包括,例如但不限于,任意數(shù)量的以下示例:磁存儲(chǔ)介質(zhì),包括磁盤和磁帶存儲(chǔ)介質(zhì);光存儲(chǔ)介質(zhì),例如光盤介質(zhì)(例如,cd-rom、cd-r等)和數(shù)字視頻光盤存儲(chǔ)介質(zhì);非易失性存儲(chǔ)器存儲(chǔ)介質(zhì),包括基于半導(dǎo)體的存儲(chǔ)器單元,例如閃存、eeprom、eprom、rom;鐵磁數(shù)字存儲(chǔ)器;mram;易失性存儲(chǔ)介質(zhì),包括寄存器、緩沖器或緩存、主存儲(chǔ)器、ram等;以及數(shù)據(jù)傳輸介質(zhì),包括計(jì)算機(jī)網(wǎng)絡(luò)、點(diǎn)對(duì)點(diǎn)電信設(shè)備、載波傳輸介質(zhì),此處僅舉幾例。
計(jì)算機(jī)進(jìn)程通常包括執(zhí)行(運(yùn)行)程序或程序的一部分、當(dāng)前程序值和狀態(tài)信息,以及操作系統(tǒng)用來(lái)管理進(jìn)程的執(zhí)行的資源。操作系統(tǒng)(operatingsystem,簡(jiǎn)稱os)是管理計(jì)算機(jī)資源共享的軟件,并為程序員提供用于訪問(wèn)這些資源的接口。操作系統(tǒng)處理系統(tǒng)數(shù)據(jù)和用戶輸入,并通過(guò)分配及管理任務(wù)和內(nèi)部系統(tǒng)資源作為服務(wù)對(duì)系統(tǒng)的用戶和程序進(jìn)行響應(yīng)。
計(jì)算機(jī)系統(tǒng)例如可以包括至少一個(gè)處理單元、關(guān)聯(lián)存儲(chǔ)器和多個(gè)輸入/輸出(input/output,簡(jiǎn)稱i/o)設(shè)備。當(dāng)執(zhí)行計(jì)算機(jī)程序時(shí),計(jì)算機(jī)系統(tǒng)根據(jù)計(jì)算機(jī)程序處理信息并通過(guò)i/o設(shè)備生成合成的輸出信息。
此處討論的連接可以是適用于例如通過(guò)中間設(shè)備從或向相應(yīng)節(jié)點(diǎn)、單元或設(shè)備傳遞信號(hào)的任意類型的連接。因此,除非另有所指或所述,該連接例如可以是直接連接或間接連接??梢越Y(jié)合單個(gè)連接、多個(gè)連接、單向連接或雙向連接對(duì)該連接進(jìn)行說(shuō)明或描述。然而,不同的實(shí)施例可能會(huì)使該連接的實(shí)現(xiàn)發(fā)生變化。例如,可以使用單獨(dú)的單向連接而不是雙向連接,反之亦然。此外,多個(gè)連接可以被替換為以串行或時(shí)間復(fù)用方式傳遞多個(gè)信號(hào)的單個(gè)連接。同樣地,攜帶多個(gè)信號(hào)的單個(gè)連接可以被分離成攜帶這些信號(hào)的子集的各種不同的連接。因此,存在許多用于傳遞信號(hào)的選擇。
本領(lǐng)域技術(shù)人員將意識(shí)到,各邏輯塊之間的界限僅僅是說(shuō)明性的,并且替代實(shí)施例可以合并邏輯塊或電路元件,或者可以在各種邏輯塊或電路元件上實(shí)行功能的替代分解。因此,應(yīng)當(dāng)理解,此處所描述的架構(gòu)僅僅是示例性的,并且實(shí)際上,許多其它實(shí)現(xiàn)相同功能的架構(gòu)也能夠?qū)崿F(xiàn)。
因此,實(shí)現(xiàn)相同功能的組件的任意布置是有效地“關(guān)聯(lián)”,從而實(shí)現(xiàn)了所期望的功能。因此,不論是架構(gòu)或是中間組件,此處組合以實(shí)現(xiàn)某個(gè)特定功能的任意兩個(gè)組件可被視為相互“關(guān)聯(lián)”,從而實(shí)現(xiàn)了所期望的功能。同樣地,任意兩個(gè)如此關(guān)聯(lián)的組件也可被視為相互“可操作地連接”或“可操作地耦合”,以實(shí)現(xiàn)所期望的功能。
此外,本領(lǐng)域技術(shù)人員將意識(shí)到,以上所描述的操作之間的界限僅僅是說(shuō)明性的。多個(gè)操作可以組合成單個(gè)操作,單個(gè)操作可以分布在附加操作中,操作可以以在時(shí)間上至少部分重疊的方式來(lái)執(zhí)行。另外,替代實(shí)施例可以包括某個(gè)特定操作的多個(gè)示例,在各種其它實(shí)施例中可以改變操作的順序。
此外,例如,其中的示例或部分可以,例如以任意合適類型的硬件描述語(yǔ)言,實(shí)現(xiàn)為物理電路的或可轉(zhuǎn)換成物理電路的邏輯表示的軟或代碼表示。
此外,本發(fā)明不限于在不可編程硬件中實(shí)現(xiàn)的物理設(shè)備或單元,也可以應(yīng)用于能夠通過(guò)根據(jù)合適的程序代碼進(jìn)行操作來(lái)執(zhí)行所期望的設(shè)備功能的可編程設(shè)備或單元,例如,大型主機(jī)、小型計(jì)算機(jī)、服務(wù)器、工作站、個(gè)人計(jì)算機(jī)、記事本、個(gè)人數(shù)字助理、電子游戲、汽車和其它嵌入式系統(tǒng)、蜂窩電話和各種其它無(wú)線設(shè)備,在本申請(qǐng)中通常表示為‘計(jì)算機(jī)系統(tǒng)’。
然而,其它修改、變形和替代也是可能的。應(yīng)認(rèn)為本說(shuō)明書和附圖具有說(shuō)明性意義而非限制性意義。