基于信號下混比進行中心信號縮放和立體聲增強的設(shè)備和方法
【專利說明】基于信號下混比進行中心信號縮放和立體聲増強的設(shè)備和 方法
[0001] 本發(fā)明涉及音頻信號處理,具體地,涉及基于信號下混比(signal-to-downmix ratio)進行中心信號縮放(scaling)和立體聲增強。
[0002] 音頻信號一般是直達(dá)聲和環(huán)境(或擴散)聲的混合。直達(dá)信號由聲源例如樂器、歌 唱者或揚聲器發(fā)出,并且沿著最短的可能路徑到達(dá)接收者例如收聽者的耳朵或麥克風(fēng)。當(dāng) 收聽直達(dá)聲時,直達(dá)聲被感知為來自聲源的方向。用于定位和用于其他空間聲音屬性的相 關(guān)聽覺線索是耳間聲級差(ILD)、耳間時間差(ITD)和耳間相干性。引起相同的ILD和ITD 的直達(dá)聲波被感知為來自同一方向。在不存在環(huán)境聲的情況下,到達(dá)左耳和右耳或到達(dá)任 何其他組的間隔開傳感器的信號是相干的。
[0003] 相比之下,環(huán)境聲由很多間隔開的聲源或者對同一聲音做出貢獻(xiàn)的聲音反射邊界 發(fā)出。當(dāng)聲波到達(dá)房間中的墻壁時,聲波的一部分被反射,并且房間中的所有反射的重疊, 即混響(reverberation),是環(huán)境聲的突出示例。其他示例是掌聲、多路重合噪聲(babble noise)和風(fēng)噪聲。環(huán)境聲被感知為是彌散的、不能夠定位,并且引起收聽者被包圍("沉浸 在聲音中")的印象。當(dāng)使用一組間隔開的傳感器捕獲環(huán)境聲場時,所記錄的信號至少部分 地不相干。
[0004] 關(guān)于分離、分解或縮放的相關(guān)現(xiàn)有技術(shù)基于的是平移信息(panning information),S卩,聲道間聲級差(ICLD)和聲道間時間差(ICTD)或者基于直達(dá)聲和環(huán)境聲 的信號特征。在兩聲道立體聲記錄中利用ICLD的方法是在[7]中描述的上混合方法、方位 辨別和再合成(ADRess)算法[8]、由Vickers提出的從兩聲道輸入信號到三聲道的上混合 [9]、以及在[10]中描述的中心信號提取。
[0005] 退化分離估計技術(shù)(DUET) [11,12]是基于將時頻點(time-frequencybin)聚類 成具有相似的ICLD和ICTD的組。對原始方法的限制在于:可以被處理的最大頻率等于在 最大麥克風(fēng)間距上的聲音速度的二分之一(由于在ICTD估計中的不定性),這在[13]中 已經(jīng)被論述。當(dāng)源在時頻域中交疊時并且當(dāng)混響增強時,該方法的性能降低。基于ICLD和 ICTD的其他方法是:修正的ADRess算法[14],其擴展了ADRess算法[8]以用于處理間隔 開的麥克風(fēng)記錄;用于時間延遲混合的基于時頻相關(guān)(AD-TIFC0RR)的方法[15];用于無回 聲混合的混合矩陣的方向估計(DEMIX) [16],其包括在特定時頻點處僅一個源是活動的置 信測度(confidencemeasure);基于模型的期望最大化源分離和定位(MESSL) [17];以及 在例如[18,19]中的模擬雙耳人類聽覺機制的方法。
[0006] 盡管用于盲源分離(BSS)的方法使用上述直達(dá)信號分量的空間線索,但是環(huán)境信 號的提取和衰減也與所提出的方法相關(guān)。在[22, 7, 23]中描述了基于兩聲道信號中的聲道 間相干性(ICC)的方法。在[24]中已經(jīng)提出了自適應(yīng)濾波的應(yīng)用,利用下述基本原理:能 夠跨聲道預(yù)測直達(dá)信號,而根據(jù)預(yù)測誤差獲得擴散聲音。
[0007] 基于多聲道維納濾波的兩聲道立體聲信號的上混合方法對直達(dá)聲的ICLD以及直 達(dá)信號分量和環(huán)境信號分量的功率譜密度(PSD)兩者都進行估計[25]。
[0008] 用于從信號聲道記錄提取環(huán)境信號的方法包括使用輸入信號的時頻表示的非負(fù) 矩陣分解,其中,根據(jù)該近似的殘差[26]、低級特征提取和監(jiān)督學(xué)習(xí)[27]、以及對混響系統(tǒng) 的沖激響應(yīng)的估計和頻域中的逆濾波[28]獲得環(huán)境信號。
[0009] 本發(fā)明的目的是提供用于音頻信號處理的改進概念。本發(fā)明的目的通過根據(jù)權(quán)利 要求1所述的設(shè)備、根據(jù)權(quán)利要求14所述的系統(tǒng)、根據(jù)權(quán)利要求15所述的方法以及根據(jù)權(quán) 利要求16所述的計算機程序來實現(xiàn)。
[0010] 提供了一種用于根據(jù)包括兩個或更多個音頻輸入聲道的音頻輸入信號生成包括 兩個或更多個修改音頻聲道的修改音頻信號的設(shè)備。所述設(shè)備包括用于生成信號下混信息 的信息生成器。信息生成器適于:通過以第一方式組合兩個或更多個音頻輸入聲道中的每 個音頻輸入聲道的頻譜值來生成信號信息。此外,信息生成器適于:通過以不同于第一方式 的第二方式組合兩個或更多個音頻輸入聲道中的每個音頻輸入聲道的頻譜值來生成下混 信息。此外,信息生成器適于:組合信號信息與下混信息以獲得信號下混信息。此外,所述 設(shè)備包括信號衰減器,其用于根據(jù)信號下混信息衰減兩個或更多個音頻輸入聲道,以獲得 兩個或更多個修改音頻聲道。
[0011] 在特定實施方式中,所述設(shè)備可以例如適用于:根據(jù)包括三個或更多個音頻輸入 聲道的音頻輸入信號來生成包括三個或更多個修改音頻聲道的修改音頻信號。
[0012] 在實施方式中,修改音頻聲道的數(shù)量等于或小于音頻輸入聲道的數(shù)量,或者其中, 修改音頻聲道的數(shù)量小于音頻輸入聲道的數(shù)量。例如,根據(jù)特定實施方式,所述設(shè)備可以適 于:根據(jù)包括兩個或更多個音頻輸入聲道的音頻輸入信號來生成包括兩個或更多個修改音 頻聲道的修改音頻信號,其中,修改音頻聲道的數(shù)量等于音頻輸入聲道的數(shù)量。
[0013] 實施方式提供了用于對音頻信號中的虛擬中心的水平進行縮放的新概念。在時頻 域中對輸入信號進行處理,使得在所有聲道中具有近似相等能量的直達(dá)聲音分量被放大或 衰減。根據(jù)所有輸入聲道信號的功率譜密度之和與所述和信號的功率譜密度之間的比率獲 得實值譜權(quán)重。所提出的概念的應(yīng)用是對兩聲道立體聲記錄進行上混合,以用于使用環(huán)繞 聲設(shè)置、立體聲增強、對話增強對其進行再現(xiàn),并且作為用于語義音頻分析的預(yù)處理。
[0014] 實施方式提供了用于對音頻信號中的中心信號進行放大或衰減的新概念。與先前 的概念相比,考慮了信號分量的橫向位移(lateraldisplacement)和擴散兩者。此外,當(dāng) 采用所述概念的實現(xiàn)時,討論了語義上有意義的參數(shù)的使用以便支持用戶。
[0015] -些實施方式致力于中心信號縮放,S卩,對音頻記錄中的中心信號的放大或衰減。 中心信號例如在此被定義為在所有聲道中具有近似相等強度并且在聲道之間具有可忽略 的時間差的所有直達(dá)信號分量之和。
[0016] 音頻信號處理和再現(xiàn)的各種應(yīng)用受益于中心信號縮放,例如上混合、對話增強和 語義音頻分析。
[0017] 上混合指的是:根據(jù)具有較少聲道的輸入信號創(chuàng)建輸出信號的處理。其主要應(yīng)用 是例如在[1]中詳細(xì)說明的使用環(huán)繞聲設(shè)置對兩聲道信號的再現(xiàn)。對空間音頻的主觀品質(zhì) 的研究[2]表明:定位性(locatedness) [3]、位置和寬度是聲音的突出的描述性屬性。對 2-5上混合算法的主觀評估的結(jié)果[4]顯示附加中心揚聲器的使用能夠使立體聲圖像變 窄。所提出的工作受到以下假設(shè)的啟發(fā):當(dāng)附加的中心揚聲器再現(xiàn)被平移至中心的主要直 達(dá)信號分量時,并且當(dāng)這些信號分量在偏離中心揚聲器信號中被衰減時,定位性、位置和寬 度能夠被保持或者甚至被改善。
[0018] 對話增強指的是提高例如廣播和電影聲音中的語音可理解度(speech intelligibility),并且當(dāng)背景聲音相對于對話太響亮?xí)r,經(jīng)常需要對話增強[5]。這 尤其適用于聽力不好的人、非母語的收聽者、在嘈雜的環(huán)境中的人或者當(dāng)耳間掩蔽級差 (binauralmaskingleveldifference)由于窄的揚聲器布置而減小時。所述概念方法可 以用于對對話被平移至中心的輸入信號進行處理,以便對背景聲音進行衰減,從而使得能 夠?qū)崿F(xiàn)較好的語音可理解度。
[0019] 語義音頻分析(或者音頻內(nèi)容分析)包括下述處理:從音頻信號推斷有意義的描 述符,例如主旋律的節(jié)拍跟蹤(beattracking)或改編(transcription)。例如參見[6], 當(dāng)感興趣的聲音嵌入在背景聲音中時,計算方法的性能通常惡化。由于在音頻生產(chǎn)中通常 的做法是:感興趣的聲源(例如,主要的樂器和歌唱者)被平移至中心,所以可以應(yīng)用中心 提取,作為對背景聲音進行衰減以及混響的預(yù)處理步驟。
[0020] 根據(jù)實施方式,信息生成器可以被配置成:組合信號信息與下混信息,使得信號下 混信息表示信號信息與下混信息的比率。
[0021] 在實施方式中,信息生成器可以被配置成:處理兩個或更多個音頻輸入聲道中的 每個音頻輸入聲道的頻譜值以獲得兩個或更多個處理值,以及其中,信息生成器可以被配 置成:組合兩個或更多個處理值以獲得信號信息。此外,信息生成器可以被配置成:組合兩 個或更多個音頻輸入聲道中的每個音頻輸入聲道的頻譜值以獲得組合值,以及其中,信息 生成器可以被配置成處理組合值以獲得下混信息。
[0022] 根據(jù)實施方式,信息生成器可以被配置成:通過將所述頻譜值乘以所述頻譜值的 復(fù)共輒以獲得兩個或更多個音頻輸入聲道中的每個音頻輸入聲道的頻譜值的自功率譜密 度,來處理該兩個或更多個音頻輸入聲道中的每個音頻輸入聲道的頻譜值。
[0023] 在實施方式中,信息生成器可以被配置成通過確定組合值的功率譜密度來處理所 述組合值。
[0024] 根據(jù)實施方式,信息生成器可以被配置成根據(jù)下面的公式生成信號信息s(m,k, β):
[0025]
[0026] 其中,Ν表示音頻輸入信號的音頻輸入聲道的數(shù)量,其中,Φ^Οιι,k)表示第i個 音頻信號聲道的頻譜值的自功率譜密度,其中,β是實數(shù)且β>〇,其中,m表示時間索引,并 且其中,k表示頻率索引。例如,根據(jù)特定實施方式,β多1。
[0027] 在實施方式中,信息生成器可以被配置成;根據(jù)公式R(m,k,β)確定信號下混比 作為信號下混信息
[0028]
i爾-:,'.r ,
[0029] 其中,?d(m,k)表示組合值的功率譜密度,以及其中,?d(m,k)e是下混信息。
[0030] 根據(jù)實施方式,信息生成器可以被配置成根據(jù)下面的公式生成信號信息Φ^πι, k),
[0031]
[0032] 其中,信息生成器被配置成根據(jù)下面的公式生成下混信息Φ2(πι,k),
[0033] Φ2〇η,k) =ε{VX(m,k) (VX(m,k))H},以及
[0034] 其中,信息生成器被配置成根據(jù)下面的公式生成信號下混比作為信號下混信息 Rg(m,k,β).
[0035] \V、丫、 ... . J
[0036] 其中,X(m,k)表示音頻輸入信號,其中,
[0037] X(m,k) = [X! (m,k) · · ·XN(m,k)]τ
[0038] 其中,N表示音頻輸入信號的音頻輸入聲道的數(shù)量,其中,m表示時間索引,并且其 中,k表示頻率索引,其中,Xjm,k)表示第一音頻輸入聲道,其中XN(m,k)表示第N音頻輸 入聲道,其中,V表示矩陣或向量,其中,W表示矩陣或向量,其中,11表示矩陣或向量的共輒 轉(zhuǎn)置,其中,ε{.}是期望運算,其中,β是實數(shù)且β>0,以及其中,tr{}是矩陣的跡。例如, 根據(jù)特定實施方式,β多1。
[0039] 在實施方式中,V可以是元素等于1的長度為Ν的行向量,W可以是大小為ΝXΝ的 單位矩陣。
[0040] 根據(jù)實施方式,ν= [1,1],其中,w= [1,-1],以及其中,Ν= 2。
[0041] 在實施方式中,信號衰減器可以適于:根據(jù)下面的公式根據(jù)增益函數(shù)G(m,k)來衰 減兩個或更多個音頻輸入聲道,
[0042] Y(m,k) =G(m,k)X(m,k),
[0043] 其中,增益函數(shù)G(m,k)取決于信號下混信息,以及其中,增益函數(shù)G(m,k)是信號 下混信息的單調(diào)遞增函數(shù)或者信號下混信息的單調(diào)遞減函數(shù),其中,X(m,k)表示音頻輸入 信號,其中,Y(m,k)表示修改音頻信號,其中,m表示時間索引,以及其中,k表示頻率索引。
[0044] 根據(jù)實施方式,增益函數(shù)G(m,k)可以是第一函數(shù)第二函數(shù) 良/:$~)、.第三函數(shù)()s.sL汰.7)或第四函數(shù)
[0045] 其中,
[0046] I?;;.k>V??" η).1.1 :,
[0047] 其中,