用于音頻重構(gòu)增強的方法和設備的制作方法

文檔序號：7937194閱讀：260來源：國知局

專利名稱：用于音頻重構(gòu)增強的方法和設備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種關(guān)于如何提高對重構(gòu)音頻信號的源點方向的感知的技術(shù)。具體地，本發(fā)明提出了一種用于再現(xiàn)所記錄的音頻信號的設備和方法，使得相對于來自其他方向的音頻信號可以對音頻源的可選方向進行強化或過加權(quán)
(over-weighted X
背景技術(shù)：
通常，在多聲道再現(xiàn)和收聽中，收聽者被多個揚聲器環(huán)繞。存在捕獲針對特定設置(set-up)的音頻信號的各種方法。通常，再現(xiàn)的目標之一是再現(xiàn)原始記錄的聲音事件的空間合成，即各個音頻源的源點(origin),如管弦樂隊內(nèi)喇叭的位置。相當常見的多個揚聲器設置可以產(chǎn)生不同的空間感。不使用特殊的后生產(chǎn)技術(shù)，通常已知的兩聲道立體聲設置可以僅在兩個揚聲器之間的線上重建聽覺事件。這主要通過所謂的"振幅-平移(panning)"來實現(xiàn)，其中取決于音頻源相對于揚聲器的位置，與一個音頻源相關(guān)的信號的振幅分布在兩個揚聲器之間。這通常在記錄或后續(xù)的混音期間進行。g卩，來自相對于收聽位置較遠左側(cè)的音頻源將主要通過左揚聲器再現(xiàn)，而在收聽位置前面的音頻源將通過這兩個揚聲器以相同的振幅(電平)再現(xiàn)。然而，不能再現(xiàn)從其他方向發(fā)出的聲音。
因此，通過使用分布在收聽者周圍的更多揚聲器，可以覆蓋更多方向，并且可以產(chǎn)生更加自然的空間感。可能最公知的多聲道揚聲器布局是5.1標準 (ITU-R775-1)，其包括5個揚聲器，將這些揚聲器相對于收聽位置的方位角預先確定為0°、 ±30。和±110°。這表示，在記錄或混音期間，將信號調(diào)整為特定揚聲器配置，而且根據(jù)該標準的再現(xiàn)設置的偏差將導致再現(xiàn)質(zhì)量降低。
也提出了具有位于不同方向上的不同數(shù)目的揚聲器的多個其他系統(tǒng)。專業(yè)和專用系統(tǒng)(尤其在影院和聲音裝置中)也包括不同高度的揚聲器。
根據(jù)不同的再現(xiàn)設置，針對先前提及的揚聲器系統(tǒng)設計并提出了若干不同的記錄方法，以便記錄和再現(xiàn)收聽情況下如同記錄環(huán)境中所感知到的空間感。理論上用于記錄針對所選多聲道揚聲器系統(tǒng)的空間聲音的的理想方式是使用與
揚聲器個數(shù)相同的麥克風。在這種情況下，麥克風的方向性圖案(pattern)也應與揚聲器布局相對應，使得只使用少量麥克風(1、 2或更多)來記錄來自任意的單方向的聲音。每個麥克風與特定揚聲器相關(guān)聯(lián)。越多的揚聲器用于再現(xiàn)，麥克風的方向性圖案越窄。然而，窄方向麥克風相當昂貴，并具有典型非平坦的頻率響應，以超出預期的方式使所記錄的聲音的質(zhì)量發(fā)生惡化。此外，由于
總是使用以比所需更多的麥克風來再現(xiàn)從單個方向發(fā)出的聲音，使用具有過寬方向性圖案的多個麥克風作為多聲道再現(xiàn)的輸入導致歪曲(colored)和模糊的聽覺感知，好似其是以與不同揚聲器相關(guān)聯(lián)的麥克風而記錄的。通常，當前可用的麥克風最適于兩聲道的記錄和再現(xiàn)，即，這些麥克風并不是以再現(xiàn)環(huán)繞空間感為目標設計的。
從麥克風設計的觀點來看，討論了各種方式以調(diào)整麥克風的方向性圖案，以滿足空間-音頻-再現(xiàn)中的需求。通常，所有麥克風依據(jù)聲音到達麥克風的方向來有差別地捕獲聲音。即，麥克風具有不同的靈敏度，這取決于所記錄聲音的到達方向。在一些麥克風中，該影響是微小的，因為這些麥克風捕獲的是與方向幾乎無關(guān)的聲音。這些麥克風通常被稱為全向麥克風。在典型的麥克風設計中，將圓形隔膜(circulardiaphragm)附在小的氣密(airtight)殼上。如果隔膜沒有附在殼上，聲音等同地從每一側(cè)到達殼，其方向性圖案具有兩個波瓣。艮口，這種麥克風以相等的靈敏度從隔膜的前后捕獲聲音，然而極性相反。這種麥克風并不捕獲來自與隔膜平面垂直(即與最大靈敏度方向垂直)的方向的聲音。這種方向性圖案被稱為偶極子或八字。
使用用于麥克風的非氣密殼，也可以將全向麥克風修改為方向性麥克風。
7該殼特別構(gòu)造，使得允許聲波通過該殼傳播并到達隔膜，其中一些傳播方向是優(yōu)選的，從而這種麥克風的方向性圖案成為全向和偶極子之間的圖案。例如，這些圖案可以具有兩個波瓣。然而，這些波瓣可以具有不同強度。一些通常已知的麥克風具有僅僅單個波瓣的圖案。最重要的示例是心形圖案，其中可以將
方向性函數(shù)D表示為D=i+cos(e)， e是聲音到達的方向。因而方向性函數(shù)依據(jù)
方向來量化輸入聲音振幅中被捕獲的部分。
先前討論的全向圖案也被稱為零階圖案，先前所提及的其他圖案(偶極子和心形)被稱為一階圖案。所有先前討論的麥克風設計不允許方向性圖案的任意成形，因為它們的方向性圖案完全由其機械構(gòu)造來確定。
為了部分地克服該問題，設計了一些專用聲學結(jié)構(gòu)，可以用于產(chǎn)生比一階麥克風的方向性圖案更窄的方向性圖案。例如，當將有孔的管附在全向麥克風上時，可以產(chǎn)生具有窄方向性圖案的麥克風。這些麥克風被稱為獵槍或步槍式麥克風。然而，它們典型不具有平坦的頻率響應，即以所記錄聲音的質(zhì)量為代價來使方向性圖案變窄。此外，該方向性圖案由幾何構(gòu)造預先確定，因而以這種麥克風執(zhí)行的記錄的方向性圖案在該記錄后不能得到控制。
因此，提出了其他方法以部分地允許在實際記錄之后改變方向性圖案。通常，這依賴于以全向或方向性麥克風陣列記錄聲音、并在之后應用信號處理的基本思想。近來提出了各種這樣的技術(shù)。相當簡單的示例是使用彼此靠近的兩個全向麥克風來記錄聲音，并從彼此中減去信號。這產(chǎn)生了具有等同于偶極子的方向性圖案的虛擬麥克風信號。
在其他更加復雜的方案中，也可以在將麥克風信號相加之前對其進行時延或濾波。使用波束形成(也是無線局域網(wǎng)中公知的技術(shù))，通過利用特別設計的濾波器對每個麥克風信號進行濾波，并在濾波之后將信號相加(濾波-求和波束形成)，來形成與窄波束相對應的信號。然而，這些技術(shù)對于信號本身來說是隱
蔽的(blind)，即，它們不知道聲音到達的方向。因而，必須定義預定的方向性
8圖案，這與聲音源在預定方向的實際出現(xiàn)無關(guān)。通常，對聲音的"到達方向"的估計是其自身的任務。
通常，可以使用以上的技術(shù)來形成各種不同的空間方向特性。然而，形成任意的空間選擇性靈敏度圖案(即，形成窄的方向性圖案)需要多個麥克風。
產(chǎn)生多聲道記錄的可選方式是將麥克風定位在靠近要記錄的每個聲源(例
如，樂器)處，并通過在最終混音中控制緊靠(close-up)麥克風信號的電平來重新產(chǎn)生空間感。然而，這種系統(tǒng)在產(chǎn)生最終的立體聲縮混(downmix)的過程中需要大量麥克風和許多用戶交互。
近來已經(jīng)提出了克服上述問題的方法，被稱為方向性音頻編碼(DirAC)，這種方法可以與不同的麥克風系統(tǒng)一起使用，并能夠記錄聲音以便使用任意揚聲器設置進行再現(xiàn)。DirAC的目的是使用具有任意幾何設置的多聲道揚聲器系統(tǒng)，盡可能精確地再現(xiàn)現(xiàn)有聲學環(huán)境的空間感。在記錄環(huán)境中，以全向麥克風(W)和允許測量聲音到達方向以及聲音擴散的麥克風組來測量環(huán)境的響應(可以是連續(xù)記錄的聲音或脈沖響應)。在以下段落中以及在本申請中，術(shù)語"擴散"應被理解為針對聲音的非方向性的測量。即，以相等的強度從所有方向到達收聽或記錄位置的聲音是最大擴散的。量化擴散的通常方式是使用來自區(qū)間
的擴散值，其中，值1描述了最大擴散的聲音，以及值0描述了理想的定向聲音，即僅從一個可清晰辨識的方向到達的聲音。通常測量一個已知的聲音到達方向的方法是應用與笛卡爾坐標軸對齊的3個八字麥克風(XYZ)。設計了專用麥克風(所謂的"聲場麥克風")，直接產(chǎn)生所有期望的響應。然而，如以上所提及的，W、 X、 Y和Z信號也可以根據(jù)離散全向麥克風組來計算。
在DirAC分析中，將所記錄的聲音信號分至與人類聽覺感知的頻率選擇性相對應的頻道(frequency channel)。即例如，該信號通過濾波器組或傅立葉變換來處理，以將信號分至多個頻道，具有適于人類聽覺的頻率選擇性的帶寬。然后，分析頻帶信號以確定聲音源點的方向和針對具有預定時間分辨率(resolution)的每個頻道的擴散值。該時間分辨率并不需要是固定的，并且當然可以適合于記錄環(huán)境。在DirAC中，在記錄或傳輸所分析的方向和擴散數(shù)據(jù)時同時記錄或傳輸一個或更多個音頻聲道。
在合成或解碼中，最終應用于揚聲器的音頻聲道可以基于全向聲道W (由于所使用的麥克風的全向方向性圖案而以高質(zhì)量記錄)，或者針對每個揚聲器的聲音可以被計算為W、 X、 Y和Z的加權(quán)和，因而形成針對每個揚聲器的具有特定方向特性的信號。與編碼相對應，將每個音頻聲道分為頻道，可選地，還依據(jù)所分析的擴散，將頻道分為擴散或非擴散流。如果測量擴散為高，則可以使用產(chǎn)生聲音擴散感知的技術(shù)(例如也用于立體聲提示編碼中的去相關(guān)技術(shù))來再現(xiàn)擴散流。使用致力于產(chǎn)生類似點的虛擬音頻源(位于在分析中發(fā)現(xiàn)的方向數(shù)據(jù)所指示的方向上)的技術(shù)，即產(chǎn)生DirAC信號，來再現(xiàn)非擴散聲音。艮口，如在現(xiàn)有技術(shù)中，并不使空間再現(xiàn)適合于一個特定的"理想"揚聲器設置(例如，5.1)。這尤其是以下情況使用與用于記錄的麥克風的方向性圖案有關(guān)的知識，根據(jù)方向參數(shù)(即通過矢量來描述)來確定聲音的源點。如已經(jīng)討論的，以頻率選擇性方式來將三維空間中的聲音源點參數(shù)化。這樣，只要揚聲器設置的幾何結(jié)構(gòu)是已知的，便可以以高質(zhì)量針對任意揚聲器設置來再現(xiàn)方向感。因此，DirAC并不限于特定的揚聲器幾何結(jié)構(gòu)，并通常允許對空間的聲音的更加靈活的再現(xiàn)。盡管已經(jīng)開發(fā)了許多技術(shù)來再現(xiàn)多聲道音頻記錄，并記錄用于之后的多聲道再現(xiàn)的適合信號，但是現(xiàn)有技術(shù)中并不允許對已經(jīng)記錄的信號產(chǎn)生影響，使得可以在再現(xiàn)期間強化音頻信號的源點方向，例如可以增強來自一個獨特的期望方向的信號的清晰度。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個實施例，可以重構(gòu)具有至少一個音頻聲道和用于指示相對于記錄位置的音頻聲道的一部分的源點方向的相關(guān)聯(lián)的方向參數(shù)的音頻信號，以允許增強來自特定方向或來自多個特定方向的信號的感知度。
艮口，在再現(xiàn)中，可以選擇相對于記錄位置的期望源點方向。在導出重構(gòu)音頻信號的重構(gòu)部分時，修改音頻聲道的該部分，使得相對于具有指示遠離期望源點方向的源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近期望源點方向的源點方向的方向參數(shù)的音頻聲道的一部分的強度?？梢詮娀纛l聲道或多聲道信號中一部分的源點方向，從而允許對在記錄期間位于所選方向上的音頻對象的更好地感知。
11根據(jù)本發(fā)明的另一實施例，用戶可以在重構(gòu)期間選擇應當強化的一個或多個方向，從而強化與所選方向相關(guān)聯(lián)的音頻聲道的部分或多個音頻聲道的部分，即相對于剩余部分增大其強度或振幅。根據(jù)實施例，可以使用比未實現(xiàn)方向參數(shù)的系統(tǒng)尖銳得多的空間分辨率對來自特定方向的聲音進行強化或衰減。根據(jù)本發(fā)明的另一實施例，可以指定任意的空間加權(quán)函數(shù)，該函數(shù)以常規(guī)麥克風無法實現(xiàn)。此外，加權(quán)函數(shù)可以是隨時間和頻率而變化的，從而可以以高靈敏度使用本發(fā)明的其他實施例。此外，加權(quán)函數(shù)非常易于實現(xiàn)和更新，因為僅需將它們載入系統(tǒng)而不是更換硬件(例如，麥克風)。
根據(jù)本發(fā)明的另一實施例，對具有相關(guān)聯(lián)的擴散參數(shù)(該擴散參數(shù)指示音頻聲道的一部分的擴散)進行重構(gòu)，使得相對于具有相關(guān)聯(lián)的較低擴散的音頻聲道的其他部分，減小具有高擴散的音頻聲道的一部分的強度。
因此，在音頻信號的重構(gòu)過程中，可以考慮音頻信號的各個部分的擴散，以進一步增加重構(gòu)信號的方向感知。此外，相對于僅使用擴散聲音部分來增加信號的總擴散、而非利用針對音頻源的更好重分布的擴散信息的技術(shù)，這可以增大音頻源的重分布。應注意，本發(fā)明還允許相反地強化具有擴散源點的所記錄聲音的部分，例如環(huán)境信號。
根據(jù)另一實施例，將至少一個音頻聲道上混音(upmix)至多個音頻聲道。多個音頻聲道可與用于回放的揚聲器的數(shù)目相對應。可以使用任意揚聲器設置增強音頻源的重分布，同時可以保證總是盡可能好地使用現(xiàn)有設備再現(xiàn)音頻源的方向，而不用考慮可用揚聲器的數(shù)目。
根據(jù)本發(fā)明的另一實施例，甚至可以經(jīng)由單聲道揚聲器執(zhí)行再現(xiàn)。當然，在這種情況下，信號源點方向?qū)⑹菗P聲器的實際位置。然而，通過選擇相對于記錄位置的信號的期望源點方向，與簡單的立體聲縮混回放相比，可以顯著地增大源于所選方向的信號的可聽性。
根據(jù)本發(fā)明的另一實施例，當將一個或更多個聲道上混音至與揚聲器相對應的多個聲道時，可以精確地再現(xiàn)信號的源點方向。例如，通過使用振幅平移技術(shù)，可以盡可能好地重構(gòu)源點方向。為了進一步提高感知質(zhì)量，也可以依據(jù)所選方向引入附加相移。
另外，本發(fā)明的特定實施例可以減少用于記錄音頻信號的麥克風傳聲器頭
(capsule)的成本，而不會嚴重影響音頻質(zhì)量，這是因為至少用于確定方向/擴
散估計的麥克風無需具有平坦的頻率響應。

以下將參照附圖對本發(fā)明的若干實施例進行描述。
圖1示出了用于重構(gòu)音頻信號的方法實施例；
圖2示出了用于重構(gòu)音頻信號的設備框圖；圖3示出了另一實施例的框圖4示出了在電話會議場景中的本發(fā)明的方法或本發(fā)明的設備的應用示
例；
圖5示出了用于增強音頻信號的方向性感知的方法實施例；
圖6示出了用于重構(gòu)音頻信號的解碼器實施例；以及
圖7示出了用于增強音頻信號的方向性感知的系統(tǒng)實施例。
具體實施例方式
圖1示出了用于重構(gòu)音頻信號的方法實施例，該音頻信號具有至少一個音頻聲道和指示相對于記錄位置的音頻聲道的一部分的源點方向的相關(guān)聯(lián)的方向參數(shù)。在選擇步驟10中，針對重構(gòu)音頻信號的重構(gòu)部分，選擇相對于記錄位置的期望源點方向，其中重構(gòu)部分與音頻聲道的一部分相對應。§卩，針對要處理的信號部分來選擇源點方向，在重構(gòu)之后應可從該源點方向清楚地聽見該信號部分。可以直接通過用戶輸入或自動地做出該選擇，如下所述。
該部分可以是音頻聲道的時間部分、頻率部分或特定頻率間隔的時間部分。在修改步驟12中，修改音頻聲道的該部分，以導出重構(gòu)音頻信號的重構(gòu)部分，其中該修改包括相對于具有指示遠離期望的源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近期望的源點方向的方向參數(shù)的音頻聲道的一部分的強度。即，通過增大強度或電平來強化音頻聲道的該部分，例如，可以通過把縮放因子與音頻聲道的該部分相乘實現(xiàn)。根據(jù)實施例，把大的縮放因子乘以源自靠近所選(期望)方向的方向的部分，以在重構(gòu)過程中強化這些信號部分，并提高收聽者所感興趣的這些音頻記錄對象的可聽性。通常，在該申請的上下文中，應將信號或聲道強度的增大理解為使信號呈現(xiàn)更好的可聽性的任何措施。例如，這可以是增大信號振幅、增大信號所攜帶的能量，或者把信號乘
以大于單位1 (unity)的縮放因子?？蛇x地，可以減小競爭信號的響度以實現(xiàn)
該效果。
在收聽地點，用戶可以通過用戶接口直接執(zhí)行期望方向的選擇。然而，根據(jù)可選實施例，該選擇可以自動地執(zhí)行，例如通過分析方向性參數(shù)而自動執(zhí)行，從而強化了具有大致相同源點的頻率部分，而抑制了音頻聲道的剩余部分。因此，可以使信號自動匯聚于主要音頻源處，而不需要收聽端處的額外的用戶輸入。
根據(jù)其他實施例，由于已經(jīng)設置了源點方向，所以省略選擇步驟。即，增大具有指示靠近所設置方向的源點方向的方向參數(shù)的音頻聲道的一部分的強
度。例如，所設置的方向可以是硬接線的(hardwired),即該方向可以是預定的。例如，如果僅對電話會議場景中的中心談話者感興趣，則可以使用預定設置方向來實現(xiàn)?？蛇x實施例可以從存儲器中讀取設置方向，該存儲器也可以存儲多個待用作設置方向的可選方向。例如，在打開本發(fā)明的設備時，可以讀取這些
方向之一。
根據(jù)可選實施例，也可以在編碼器側(cè)(即，在記錄信號時)執(zhí)行期望方向的選擇，使得可以隨音頻信號一起傳輸附加參數(shù)，該附加參數(shù)指示用于再現(xiàn)的
14期望方向。因此，可能已經(jīng)在編碼器側(cè)選擇重構(gòu)信號的空間感知，而無需知道用于再現(xiàn)的特定揚聲器設置。
由于用于重構(gòu)音頻信號的方法獨立于意在再現(xiàn)重構(gòu)音頻信號的特定揚聲器設置，所以可以將該方法應用于單聲道或立體聲或多聲道揚聲器配置。S卩，根據(jù)另一實施例，可以對所再現(xiàn)的環(huán)境的空間感進行后處理，以增強信號的感知度。
當用于單聲道回放時，可以將該效果解釋為以能夠形成任意的方向性圖案的新式麥克風來記錄信號。然而，可以在接收端(即在信號回放期間)完全地獲得該效果，而無需對記錄設置做出任何改變。
圖2示出了用于重構(gòu)音頻信號的設備(解碼器)的實施例，即用于重構(gòu)音頻信號的解碼器20的實施例。解碼器20包括方向選擇器22和音頻部分修改器 24。根據(jù)圖2的實施例，由方向分析器28來分析若干麥克風所記錄的多聲道音頻輸入26，該方向分析器28導出指示音頻聲道一部分的源點方向(即所分析的信號部分的源點方向)的方向性參數(shù)。根據(jù)本發(fā)明的一個實施例，選擇將大部分能量入射到麥克風的方向。針對每個特定信號部分來確定記錄位置。例如，這也可以使用先前所描述的DirAC-麥克風-技術(shù)來實現(xiàn)。當然，基于所記錄的音頻信息的其他方向性分析方法也可以用于實現(xiàn)該分析。因此，方向分析器28導出方向參數(shù)30，該方向參數(shù)30指示音頻聲道的一部分或多聲道信號26的一部分的源點方向。此外，可以操作方向性分析器28以導出針對每個信號部分(例如，針對信號的每個頻率間隔或每個時幀)的擴散參數(shù)32。
將方向性參數(shù)30以及(可選地)擴散參數(shù)32傳輸至方向選擇器22，該方向選擇器22實現(xiàn)用于針對重構(gòu)音頻信號的重構(gòu)部分選擇關(guān)于記錄位置的期望的源點方向。將與期望方向有關(guān)的信息傳輸至音頻部分修改器24。音頻部分修改器24接收至少一個音頻聲道34，具有針對其導出方向參數(shù)的一部分。例如，通過音頻部分修改器修改的至少一個聲道可以是由傳統(tǒng)多聲道立體聲縮混算法產(chǎn)生的多聲道信號26的立體聲縮混。一個極其簡單的情況是多聲道音頻輸入 26的信號的直接求和。然而，因為本發(fā)明的實施例并不由輸入聲道的個數(shù)而限定，因而在可選實施例中，音頻解碼器20可以同時處理所有音頻輸入聲道26。
音頻部分修改器24對音頻部分進行修改，以導出重構(gòu)音頻信號的重構(gòu)部分，其中該修改包括相對于具有指示遠離期望源點方向的源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近期望源點方向的源點方向的方向參數(shù)的音頻聲道的一部分的強度。在圖2的示例中，通過將縮放因子36 (q) 乘以要修改的音頻聲道部分來執(zhí)行該修改。S卩，如果分析該音頻聲道部分源于靠近所選期望方向，將大的縮放因子36乘以該音頻部分。因而在其輸出38處，音頻部分修改器輸出與在其輸入處提供的音頻聲道部分相對應的重構(gòu)音頻信號的重構(gòu)部分。如在音頻部分修改器24的輸出38處的虛線所示，這不僅針對單輸出信號執(zhí)行，而且還針對多聲道輸出信號執(zhí)行，針對該多聲道輸出信號的輸出聲道的個數(shù)是不固定或預定的。
換言之，音頻解碼器20的實施例根據(jù)例如DirAC中使用的方向性分析來獲取其輸入。可以根據(jù)人類聽覺系統(tǒng)的頻率分辨率，把來自麥克風陣列的音頻信號26分為頻帶。依據(jù)每個頻道中的時間來分析聲音的方向以及(可選的)聲音的擴散。例如，這些屬性以方向角(方位角(azi)和仰角(de))和擴散索引Psi (在0和1之間改變)進行傳遞。
然后，通過對所獲取的信號使用加權(quán)操作(該操作取決于方向角azi和/或 ele、以及(可選的)擴散(Psi))，對所獲取的信號施加意欲或所選的方向特性。很明顯，可以針對不同頻帶有所區(qū)別地指定該加權(quán)，并且該加權(quán)通常會隨時間改變。
圖3示出了基于DirAC合成的本發(fā)明的另一實施例。在這種意義上，圖3 的實施例可以被解釋為DirAC再現(xiàn)的增強，這允許依據(jù)所分析的方向來控制聲音的電平。這使得可以強化來自一個或多個方向的聲音、或者抑制來自一個或多個方向的聲音。當應用于多聲道再現(xiàn)時，實現(xiàn)對所再現(xiàn)聲音圖像的后處理。如果僅使用一個聲道作為輸出，則該效果等同于在信號記錄期間使用具有任意方向性圖案的方向性麥克風。在圖3中示出的實施例中，示出了方向參數(shù)的導出、以及一個傳輸音頻聲道的導出。例如，基于由聲場麥克風所記錄的B格式
麥克風聲道W、 X、 Y和Z來執(zhí)行該分析。
逐幀地(frame-wise)執(zhí)行該過程。因此，將連續(xù)音頻信號分為幀，通過窗函數(shù)來對幀進行縮放，從而避免幀邊界處的不連續(xù)。在傅立葉變換塊40中對加窗信號幀進行傅立葉變換，將麥克風信號分為N個頻帶。為了簡單，將在以下段落中描述一個任意頻帶的處理，因為對余下的頻帶進行等同的處理。傅立葉變換塊40導出描述所分析的加窗幀內(nèi)每個B格式麥克風聲道W、 X、 Y和Z 中出現(xiàn)的頻率分量的強度的系數(shù)。將這些頻率參數(shù)42輸入音頻編碼器44以導出音頻聲道和相關(guān)聯(lián)的方向參數(shù)。在圖3中示出的實施例中，選擇所傳輸?shù)囊?頻聲道為全向聲道46,該全向聲道46具有與來自所有方向的信號有關(guān)的信息。基于針對B格式麥克風聲道的全向和定向部分的系數(shù)42，通過方向性分析塊48 執(zhí)行方向性和擴散分析。
將針對音頻聲道46的所分析部分的聲音的源點方向傳輸至音頻解碼器50，以便對音頻信號和全向聲道46—同進行重構(gòu)。當存在擴散參數(shù)52時，將信號路徑分為非擴散路徑54a和擴散路徑54b。非擴散路徑54a根據(jù)參數(shù)而進行縮放，從而在擴散甲為高時，大多數(shù)能量或振幅將保持在非擴散路徑中。相反，當擴散為高時，大多數(shù)能量將移至擴散路徑54b。在擴散路徑54b中，使用去相關(guān) 器56a或56b對信號進行去相關(guān)或擴散。可以使用傳統(tǒng)已知技術(shù)來執(zhí)行去相關(guān)，例如與白噪聲信號進行巻積，其中白噪聲信號可以逐頻道而不同。只要去相關(guān) 是保存能量的，便可以通過對輸出處的非擴散信號路徑54a和擴散信號路徑54b 的信號簡單地相加，重新生成最終輸出，因為已經(jīng)對信號路徑上的信號進行了縮放，如擴散參數(shù)甲所指示。可以依據(jù)揚聲器個數(shù)，使用適合的縮放規(guī)則對擴散信號路徑54b進行縮放。例如，可以使擴散路徑中的信號縮放1/V^，其中N 是揚聲器的個數(shù)。
當針對多聲道設置執(zhí)行重構(gòu)時，將直接信號路徑54a和擴散信號路徑54b 分裂為與各個揚聲器信號相對應的多個子路徑(在分裂位置58a和58b處)。為此，可以將在分裂位置58a和58b處的分裂解釋為等同于將至少一個音頻聲道上混音至多個聲道以便經(jīng)由具有多個揚聲器的揚聲器系統(tǒng)進行回放。因此，多個聲it中的每一個都具有音頻聲道46的聲道部分。通過重定向塊60來重構(gòu)各個音頻部分的源點方向，其中重定向塊60額外地增大或減小與用于回放的揚聲器相對應的信道部分的強度或振幅。為此，重定向塊60通常需要知道用于回放的揚聲器設置。例如，可以使用如基于矢量的振幅平移的技術(shù)，實現(xiàn)相關(guān)聯(lián)的加權(quán)因子的實際重分布(重定向)和導出。通過向重定向塊60提供不同的幾何揚聲器設置，可以使用回放揚聲器的任意配置來實現(xiàn)本發(fā)明的概念，而不會損壞再現(xiàn)質(zhì)量。在處理之后，通過逆傅立葉變換塊62，對頻域信號執(zhí)行多個逆傅立葉變換，以導出可以通過各個揚聲器進行回放的時域信號。在回放之前，必須通過求和單元64來執(zhí)行重疊和相加技術(shù)，以連接各個音頻幀，從而導出連續(xù) 的時域信號，準備好由揚聲器進行回放。
根據(jù)圖3中示出的本發(fā)明的實施例，修改Dir-AC的信號處理，即引入音頻部分修改器66來修改實際處理的音頻聲道的部分，這允許增大具有指示靠近期望方向的源點方向的方向參數(shù)的音頻聲道部分的強度。這通過將附加的加權(quán)因子應用于直接信號路徑而實現(xiàn)。即，如果所處理的頻率部分源于期望方向，則通過將附加增益應用于該特定信號部分來強化信號?？梢栽诜至腰c58a之前執(zhí) 行增益的應用，因為該效果應當對所有的聲道部分產(chǎn)生同等的作用。
在可選實施例中，附加加權(quán)因子的應用也可以在重分布塊60中實現(xiàn)，在這種情況下，重分布塊60應用增大或減小附加增益因子的重分布增益因子。
當對多聲道信號的重構(gòu)中使用方向性增強時，可以用如圖3所示的DirAC呈現(xiàn)方式來執(zhí)行再現(xiàn)。將要再現(xiàn)的音頻聲道分為等于方向性分析所使用的那些
頻帶。然后將這些頻帶分為擴散流和非擴散流。例如，通過在與30ms的寬噪聲脈沖串進行巻積之后將聲音作用于每個揚聲器，從而再現(xiàn)擴散流。每個揚聲器的噪聲脈沖串均不相同。將非擴撒流應用于從方向性分析所傳遞的方向，當然，該方向性分析取決于時間。為了實現(xiàn)多聲道揚聲器系統(tǒng)中的方向感知，可以使用簡單的逐對或逐三元組的振幅移動。此外，每個頻道乘以增益因子或縮放因子，這取決于所分析的方向。通常，可以指定函數(shù)，該函數(shù)定義了用于再現(xiàn)的期望的方向性圖案。例如，這可以是應當被強化的僅僅一個方向。然而，任意的方向性圖案都易于以圖3的實施例來實現(xiàn)。
在以下的方式中，將本發(fā)明的另一實施例描述為處理步驟的列表。該列表基于以下假設以B格式麥克風記錄聲音，然后進行處理.，以便使用DirAC樣式的呈現(xiàn)或提供參數(shù)(指示音頻聲道部分的源點方向)的呈現(xiàn)，利用多聲道或單聲道揚聲器設置進行收聽。該過程如下
1. 將麥克風信號分為多個頻帶并在每個頻帶處取決于頻率來分析方向和 (可選的)擴散。作為示例，可以通過方位角和仰角(azi、 ele)來對方向進行
參數(shù)化。 '
2. 指定函數(shù)F，該函數(shù)描述了期望的方向性圖案。該函數(shù)可以具有任意形狀。其典型地取決于方向。此外，如果擴散信息可用，該函數(shù)也可以取決于擴散。針對不同頻率，該函數(shù)可以不同，也可以依據(jù)時間而更改。在每個頻帶處，針對每個時間實例，根據(jù)函數(shù)F導出方向性因子q，該方向性因子q用于后續(xù) 的音頻信號的加權(quán)(縮放)。
3. 將音頻信號的采樣值與和每個時間和頻率部分相對應的方向性因子q值相乘，以形成輸出信號。這可以用時間和/或頻率域表示來進行。此外，例如，該過程可以實現(xiàn)為針對任意數(shù)目的期望輸出聲道的DirAC呈現(xiàn)的一部分。
如先前所述，可以使用多聲道或單聲道揚聲器系統(tǒng)收聽結(jié)果。圖4示出了關(guān)于如何利用本潭明的方法和設備大大增加電話會議場景內(nèi)參
與者的感知度的示例。在記錄側(cè)100，示出了四個談話者102a-102d，他們具有相對于記錄位置104不同的朝向。S卩，源自談話者102c的音頻信號具有相對于記錄位置104的固定的源點方向。假設在記錄位置104處記錄的音頻信號具有來自談話者102c的信號和例如一些源自談話者102a和102b的討論的"背景" 噪聲信號，那么所記錄和傳輸至收聽地點110的寬帶信號將包括這兩個信號分
作為示例，描繪了具有六個揚聲器112a-112f的收聽設置，這六個揚聲器環(huán) 繞著位于收聽位置114處的收聽者。因此，原理上，可以通過圖4所描述的設置來再現(xiàn)圍繞收聽者的位置114處源自大多數(shù)任意位置的聲音。傳統(tǒng)的多聲道系統(tǒng)將使用這六個揚聲器112a-112f來再現(xiàn)聲音，以盡可能在記錄期間重構(gòu)在記錄位置104處體驗到的空間感。因此，在使用傳統(tǒng)技術(shù)再現(xiàn)聲音時，也可清晰地聽見在正在討論的談話者102a和102b的"背景"下的談話者102c的聲音，這降低了談話者102c的信號的清晰度。
根據(jù)本發(fā)明的實施例，可以使用方向選擇器來選擇相對于記錄位置的期望源點方向，其用于將由揚聲器112a-112f回放的重構(gòu)音頻信號的重構(gòu)版本。因此，收聽者114可以選擇與談話者102c的位置相對應的期望方向116。因此，音頻部分修改器可以修改音頻聲道的部分，以導出重構(gòu)音頻信號的重構(gòu)部分，從而強化源自靠近所選方向116的方向的音頻聲道部分的強度。在接收端，收聽者可以決定應當再現(xiàn)哪個源點方向。選擇僅強化源自談話者102c的方向的那些信號部分，正在討論的談話者102a和102b的干擾將變小。除了強化來自所選方向的信號之外，可以通過振幅平移來再現(xiàn)該方向，如波形120a和120b所示。因為談話者102c將比揚聲器112c更加靠近揚聲器112d，所以振幅平移將導致經(jīng)由揚聲器112c和112d對強化信號的再現(xiàn)，而余下的揚聲器將幾乎是安靜的 (最終對擴散信號部分進行回放)。因為談話者102c更加靠近揚聲器112d，所
20以振幅平移將增大揚聲器112d相對于揚聲器112C的電平。
圖5示出了用于增強音頻信號的方向感知的方法實施例的框圖。在第一分析步驟150中，導出至少一個音頻聲道和指示相對于記錄位置的音頻聲道一部分的源點方向的相關(guān)聯(lián)的方向參數(shù)。
在選擇步驟152中，針對重構(gòu)音頻信號的重構(gòu)部分，選擇相對于記錄位置的期望的源點方向，所述重構(gòu)部分與音頻聲道的一部分相對應。
在修改步驟154中，對音頻聲道的該部分進行修改，以導出重構(gòu)音頻信號的重構(gòu)部分，其中該修改包括相對于具有指示遠離期望源點方向的源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近期望源點方向的源點方向的方向參數(shù)的音頻聲道的一部分的強度。
圖6示出了用于重構(gòu)音頻信號的音頻解碼器的實施例，所述音頻信號具有至少一個音頻聲道160和指示相對于記錄位置的音頻聲道部分的源點方向的相關(guān)聯(lián)的方向參數(shù)162。
音頻解碼器158包括方向選擇器164，用于針對重構(gòu)音頻信號的重構(gòu)部分，選擇相對于記錄位置的期望源點方向，所述重構(gòu)部分與音頻聲道的一部分相對應。解碼器158還包括音頻部分修改器166，用于修改音頻聲道的一部分，以導出重構(gòu)音頻信號的重構(gòu)部分，其中該修改包括相對于具有指示遠離期望源點方向的源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近期望源點方向的源點方向的方向參數(shù)的音頻聲道的一部分的強度。
如圖6所示，當解碼器用于多聲道再現(xiàn)設置中時，可以導出單個重構(gòu)部分 168,或者可以同時導出多個重構(gòu)部分170。如圖7所示的用于增強音頻信號180 的方向感知的系統(tǒng)實施例基于圖6的解碼器158。因此，以下僅對額外引入的元件進行描述。用于增強音頻信號的方向感知的系統(tǒng)180,接收音頻信號182作為輸入，該音頻信號182可以是多個麥克風所記錄的單聲道信號或多聲道信號。音頻編碼器184導出音頻信號，該音頻信號具有至少一個音頻聲道160和指示相對于記錄位置的音頻聲道一部分的源點方向的相關(guān)聯(lián)的方向參數(shù)162。此外，如己經(jīng)針對圖6的音頻解碼器所描述，對所述至少一個音頻聲道和相關(guān)聯(lián)的方向參數(shù)進行處理，以導出在感知上增強的輸出信號170。
盡管主要在多聲道音頻再現(xiàn)領(lǐng)域描述了本發(fā)明，不同領(lǐng)域的應用也可以從本發(fā)明的方法和設備中獲益。作為示例，本發(fā)明的概念可以用于集中(通過提升或衰減)電話會議場景下的特定個人發(fā)言。此外，其可以用于抑制(或放大) 環(huán)境分量，以及用于去混響或混響增強。其他可能的應用場景包括環(huán)境噪聲信號的噪聲抵消。另一可能的用途可以是助聽器信號的方向性增強。
依據(jù)本發(fā)明方法的特定實現(xiàn)需求，可以用硬件或軟件來實現(xiàn)本發(fā)明的方法。可以使用與可編程計算機系統(tǒng)協(xié)作的數(shù)字存儲介質(zhì)(尤其是具有電可讀控制信號存儲于其上的盤、DVD或CD)來執(zhí)行該實現(xiàn)本發(fā)明方法。因而通常本發(fā)明是具有存儲在機器可讀載體上的程序代碼的計算機程序產(chǎn)品，該程序代碼操作用于在計算機程序產(chǎn)品運行在計算機上時執(zhí)行本發(fā)明的方法。換言之，用于在計算機上運行的計算機程序是執(zhí)行本發(fā)明方法中的至少一種。
盡管已經(jīng)參照特定實施例特別示出并描述了以上內(nèi)容，但是本領(lǐng)域技術(shù)人員可以領(lǐng)會在不偏離本發(fā)明的精神和范圍的情況下做出的形式和細節(jié)上的各種其他改變。應理解，可以在適合于不同實施例的過程中做出各種改變，而不偏離這里所公開的、并由所附權(quán)利要求所限定的更寬的概念。
權(quán)利要求
1、一種用于重構(gòu)音頻信號的方法，所述音頻信號具有至少一個音頻聲道和指示相對于記錄位置的音頻聲道的一部分的源點方向的相關(guān)聯(lián)的方向參數(shù)，所述方法包括修改音頻聲道的一部分，以導出重構(gòu)音頻信號的重構(gòu)部分，其中所述修改包括相對于具有指示遠離所設置源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近所設置源點方向的方向參數(shù)的音頻聲道的一部分的強度。
2、如權(quán)利要求1所述的方法，還包括選擇相對于記錄位置的所設置源點方向。
3、如權(quán)利要求l所述的方法，還包括從存儲器讀取所設置方向。
4、如權(quán)利要求1所述的方法，其中所述修改步驟包括修改音頻信號的一部分的頻域表示。
5、如權(quán)利要求1所述的方法，其中所述修改步驟包括修改音頻信號的一部分的時域表示。
6、如權(quán)利要求l所述的方法，其中所述修改步驟包括導出針對音頻聲道的每個部分的縮放因子；相對于具有指示遠離期望源點方向的相關(guān)聯(lián)的方向參數(shù)的音頻聲道的其他己縮放部分，通過把音頻聲道的具有指示靠近期望源點方向的相關(guān)聯(lián)的方向參數(shù)的音頻聲道的已縮放部分與所述縮放因子相乘，使得該部分具有增大的強度。
7、如權(quán)利要求l所述的方法，還包括導出至少一個音頻聲道的頻率表示。
8、如權(quán)利要求7所述的方法，其中所述導出步驟包括導出至少一個音頻聲道的寬度有限的第一和第二頻率間隔的表示，其中所述第一頻率間隔的寬度不同于所述第二頻率間隔的寬度。
9、如權(quán)利要求2所述的方法，其中選擇期望源點方向的步驟包括接收指示期望方向的輸入?yún)?shù)作為用戶輸入。
10、如權(quán)利要求2所述的方法，其中選擇期望方向的步驟包括接收與音頻信號相關(guān)聯(lián)的方向參數(shù)，所述方向參數(shù)指示期望方向。
11、如權(quán)利要求2所述的方法，其中選擇期望方向的步驟包括確定至少一個音頻聲道的有限寬度頻率間隔的源點方向。
12、如權(quán)利要求l所述的方法，還包括接收與音頻聲道相關(guān)聯(lián)的擴散參數(shù)，所述擴散參數(shù)指示音頻聲道的一部分的擴散；以及其中修改音頻聲道的一部分的步驟包括相對于具有指示較低擴散的擴散參數(shù)的音頻聲道的其他部分，減小具有指示高擴散的擴散參數(shù)的音頻聲道的一部分的強度。
13、如權(quán)利要求l所述的方法，還包括將至少一個音頻聲道上混音至多聲道，經(jīng)具有多個揚聲器的揚聲器系統(tǒng)進行回放，其中多聲道中的每一個都具有與至少一個音頻聲道的一部分相對應的聲道部分。
14、如權(quán)利要求13所述的方法，其中所述修改步驟包括相對于從具有指示遠離期望源點方向的源點方向的方向參數(shù)的音頻聲道的其他部分上混音得到的多聲道的其他聲道部分，增大從具有指示靠近源點期望方向的方向參數(shù)的音頻聲道的一部分上混音的每個聲道部分的強度。
15、如權(quán)利要求13所述的方法，還包括平移聲道部分的振幅，使得重構(gòu)聲道部分所感知的源點方向與使用預定揚聲器設置進行回放時的源點方向相對應。
16、一種用于增強音頻信號的方向感知的方法，所述方法包括導出至少一個音頻聲道和指示音頻聲道的一部分相對于記錄位置的源點方向的相關(guān)聯(lián)的方向參數(shù)；修改音頻聲道的一部分，以導出重構(gòu)音頻信號的重構(gòu)部分，其中所述修改包括相對于具有指示遠離所設置源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近所設置源點方向的方向參數(shù)的音頻聲道的一部分的強度。
17、一種用于重構(gòu)音頻信號的音頻解碼器，所述音頻信號具有至少一個音頻聲道和指示相對于記錄位置的音頻聲道的一部分的源點方向的相關(guān)聯(lián)的方向參數(shù)，所述音頻解碼器包括音頻部分修改器，用于修改音頻聲道的一部分，以導出重構(gòu)音頻信號的重構(gòu)部分，其中所述修改包括相對于具有指示遠離所設置源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近所設置源點方向的方向參數(shù)的音頻聲道的一部分的強度。
18、一種用于增強音頻信號的方向感知的音頻編碼器，所述音頻編碼器包括信號生成器，用于導出至少一個音頻聲道和指示了相對于記錄位置的音頻聲道的一部分的源點方向的關(guān)聯(lián)方向參數(shù)；信號修改器，用于修改音頻聲道的一部分，以便導出重構(gòu)音頻信號的重構(gòu)部分，其中所述修改包括相對于具有指示遠離所設置源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近所設置源點方向的方向參數(shù)的音頻聲道的一部分的強度。
19、一種用于增強重構(gòu)音頻信號的系統(tǒng)，所述系統(tǒng)包括音頻編碼器，用于導出音頻信號，所述音頻信號具有至少一個音頻聲道和指示相對于記錄位置的音頻聲道的一部分的源點方向的相關(guān)聯(lián)的方向參數(shù)；具有音頻部分修改器的音頻解碼器，用于修改音頻聲道的一部分，以導出重構(gòu)音頻信號的重構(gòu)部分，其中所述修改包括相對于具有指示遠離所設置源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近所設置源點方向的方向參數(shù)的音頻聲道的一部分的強度。
20、一種用于產(chǎn)生音頻信號的方法，所述方法包括-導出音頻聲道，使得相對于具有遠離所設置源點方向的源點方向的音頻聲道的其他部分，強化具有靠近所設置源點方向的源點方向的音頻聲道的一部分的強度。
21、一種用于記錄音頻信號的音頻記錄器，所述記錄器包括聲道記錄器，用于導出音頻聲道，使得相對于具有遠離所設置源點方向的音頻聲道的其他部分，強化具有靠近所設置源點方向的音頻聲道的一部分的強度。
22、一種計算機程序，用于在計算機上運行時實現(xiàn)如權(quán)利要求1所述的方法。
23、一種計算機程序，用于在計算機上運行時實現(xiàn)如權(quán)利要求20所述的方法。
全文摘要
重構(gòu)一種音頻信號，所述音頻信號具有至少一個音頻聲道和指示相對于記錄位置的音頻聲道的一部分的源點方向的相關(guān)聯(lián)的方向參數(shù)，以導出重構(gòu)音頻信號。選擇相對于記錄位置的期望源點方向。修改音頻聲道的一部分，以導出重構(gòu)音頻信號的重構(gòu)部分，其中所述修改包括相對于具有指示遠離期望源點方向的源點方向的方向參數(shù)的音頻聲道的其他部分，增大具有指示靠近期望源點方向的源點方向的方向參數(shù)的音頻聲道的一部分的強度。
文檔編號H04S3/02GK101658052SQ200880008833
公開日2010年2月24日申請日期2008年2月1日優(yōu)先權(quán)日2007年3月21日
發(fā)明者V·普爾基申請人:弗勞恩霍夫應用研究促進協(xié)會

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：V.普爾基
技術(shù)所有人：弗勞恩霍夫應用研究促進協(xié)會
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

以下設備的音頻增強相關(guān)技術(shù)

壓縮標準用于音頻壓縮相關(guān)技術(shù)

用于音頻處理的芯片相關(guān)技術(shù)

音頻增強軟件相關(guān)技術(shù)

音頻增強功能已禁用相關(guān)技術(shù)

音頻增強導致出現(xiàn)問題相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于音頻重構(gòu)增強的方法和設備的制作方法