向信息,并在指數(shù)D(f,n)的到達(dá)估計(jì) 方向被確定為離散(例如,量化)值,例如,對(duì)于D(例如,20)到達(dá)離散(S卩"分級(jí)")方向, dG[1,D] 〇
[0126] 對(duì)于所獲取信號(hào)的每個(gè)時(shí)幀,定向直方圖的P(d|n)被形成,表不在時(shí)間幀n的不 同頻率分量源自的方向。在使用離散方向的實(shí)施例中,該方向直方圖由D方向每個(gè)的許多 組成:例如,標(biāo)記有該方向的幀中頻率箱體的總數(shù)目(即,箱體數(shù)量f表示其中D(f,n)= d)。相反于計(jì)數(shù)對(duì)應(yīng)于方向上的箱,人們可以使用這些箱體的STFT幅值的總和實(shí)現(xiàn)更好的 性能(例如,P(d|n) 2f:D(f|n)=dp(f,n)),或這些幅值的平方,或類似的方法更重加權(quán)的高 能量分箱的影響。在其它示例中,所獲取信號(hào)的處理提供了連續(xù)值(或精細(xì)量化方向)估 計(jì)D(f,n)或參數(shù)或非參數(shù)分布P(d|f,n),以及從方向估計(jì)計(jì)算直方圖或連續(xù)分布P(d|n)。 下面的方法在,其中P(d|n)形成直方圖(S卩,值當(dāng)d的離散值)的情況進(jìn)行詳細(xì)說(shuō)明,然而 應(yīng)該理解,該方法可以適于解決連續(xù)的情形。
[0127] 所得定向直方圖可以被解釋為從每個(gè)方向在每個(gè)時(shí)間幀中信號(hào)強(qiáng)度的測(cè)量。除了 由于噪聲的變化,人們期望當(dāng)源打開和關(guān)閉時(shí)這些直方圖隨時(shí)間而改變(例如,當(dāng)個(gè)人停 止說(shuō)話很少或幾乎沒(méi)有能量來(lái)自他的一般方向,除非有身后的其他噪聲來(lái)源,我們不會(huì)處 理的情況)。
[0128] 使用該信息的一種方法是要求和或平均隨時(shí)間的所有這些直方圖(例如, P(d) = (1/N)SnP(d|n))。產(chǎn)生的聚集直方圖的峰則對(duì)應(yīng)來(lái)源。這些可以使用峰 值尋找算法來(lái)檢測(cè),源之間的邊界可以通過(guò)例如取峰之間的中點(diǎn)來(lái)劃定。
[0129] 另一種方法是考慮所有定向直方圖隨時(shí)間的收集和分析哪個(gè)方向趨向于一起增 加或減少。這樣做的一種方法是計(jì)算這些直方圖的樣本協(xié)方差或相關(guān)矩陣。方向估計(jì)值的 分布的相關(guān)性或協(xié)方差用于標(biāo)識(shí)與不同來(lái)源關(guān)聯(lián)的不同分布。一種這樣的方法利用方向直 方圖的協(xié)方差,例如,計(jì)算為:
[0130]
[0131]
[0132]
[0133] 其中,P(n)和P是d維列向量。
[0134] 各種分析可以在協(xié)方差矩陣Q或在相關(guān)矩陣執(zhí)行。例如,Q的主分量(即與最大 特征值相關(guān)聯(lián)的特征向量)可以被認(rèn)為是代表不同來(lái)源的原型方向分布。
[0135] 也可以采用檢測(cè)這種模式的其它方法。例如,計(jì)算在所有時(shí)間平均的以后時(shí)間和 多個(gè)(例如,5-有趨于小變化后僅1)幀的方向?qū)Γㄒ苍S加權(quán))的聯(lián)合直方圖可以達(dá)到類似 的結(jié)果。
[0136] 使用相關(guān)或協(xié)方差矩陣的另一種方法是形成方向?qū)ν秃途胖g的成對(duì)"相似性"。 我們認(rèn)為協(xié)方差矩陣作為方向之間的相似性矩陣,并應(yīng)用諸如親和傳播或k-medoids的聚 類方法以組合關(guān)聯(lián)在一起的方向。所得集群然后采取對(duì)應(yīng)于各個(gè)源。
[0137] 以這種方式,識(shí)別環(huán)境中的源的離散集,以及為每個(gè)確定定向概況信息。這些配置 文件可用于使用上述的掩碼方法重建由每個(gè)聲源發(fā)出的聲音。它們也可用于向用戶呈現(xiàn)每 個(gè)源相對(duì)于傳聲器陣列的位置的圖解說(shuō)明,允許手動(dòng)選擇哪些源傳遞和阻斷或有關(guān)哪些源 被自動(dòng)阻止的視覺反饋。
[0138] 替代實(shí)施例中可以利用一個(gè)或多個(gè)下列替代特征。
[0139] 注意:上述討論利用離散定向估計(jì)。然而,等效方法可以根據(jù)在每個(gè)時(shí)間頻率分量 的方向分布,然后將其聚合。類似地,表征方向的數(shù)量不必是定向估計(jì)。例如,可在每個(gè)時(shí) 間頻率分量直接使用原始傳聲器間的延遲,以及方向分布可以表征在每個(gè)幀各種頻率分量 的這些傳聲器間延遲的分布。傳聲器間延遲可被離散化(例如,通過(guò)聚類或矢量量化),或 者可以被視為連續(xù)變量。
[0140] 代替計(jì)算在所有時(shí)間的樣本協(xié)方差矩陣,可以跟蹤運(yùn)行加權(quán)樣本平均值(例如, 使用平均或低通濾波器),并用它來(lái)跟蹤協(xié)方差矩陣的運(yùn)行估計(jì)。這具有的優(yōu)勢(shì)在于,計(jì)算 可以實(shí)時(shí)或流模式進(jìn)行,所施加的結(jié)果作為數(shù)據(jù)進(jìn)來(lái),而不是僅僅在所有數(shù)據(jù)已經(jīng)被收集 之后的批處理模式中。
[0141] 這種方法將"忘記"從遙遠(yuǎn)的過(guò)去收集到的數(shù)據(jù),這意味著它可以跟蹤移動(dòng)源。在 每個(gè)時(shí)間步,協(xié)方差(或同等學(xué)歷)矩陣不會(huì)有太大變化,所以組合方向成源也不會(huì)有太大 變化。因此,對(duì)于重復(fù)調(diào)用的聚類算法,從之前調(diào)用的輸出可用于熱啟動(dòng)(聚類算法往往迭 代),降低第一次后所有調(diào)用的運(yùn)行時(shí)間。另外,由于源可會(huì)相對(duì)于STFT幀的長(zhǎng)度慢慢移 動(dòng),聚類不必和每幀一樣經(jīng)常重新計(jì)算。
[0142] -些聚類方法(諸如,親和傳播)承認(rèn)簡(jiǎn)單修改以考慮可用的輔助信息。例如,一 種方法可以偏向方法于發(fā)現(xiàn)少數(shù)集群,或于僅尋求空間連續(xù)的方向的集群。以這種方式,可 以提高性能或使用較少數(shù)據(jù)實(shí)現(xiàn)的相同性能水平。
[0143] 源的所得方向分布可用于許多目的。一種用途是簡(jiǎn)單地確定許多來(lái)源,例如通過(guò) 使用在聚類方法確定的數(shù)量(例如,群集,特征值大小等的親和力)以及這些數(shù)量的閾值。 另一種用途是作為用于如上所述因子化方法中的固定方向分布。并非使用方向分布為固 定,它可以用作在上面參考的并入申請(qǐng)中描述的迭代方法的初始估計(jì)。
[0144] 在另一個(gè)實(shí)施例中,時(shí)間-頻率位置的集合上的輸入掩碼值由上述的一個(gè)或多個(gè) 方法確定。這些掩碼值可具有局部錯(cuò)誤或偏差。這些錯(cuò)誤或偏差具有潛在的結(jié)果:從掩碼 信號(hào)構(gòu)成的輸出信號(hào)具有不希望的特性,諸如音頻噪聲。
[0145] 另外,作為上述介紹,一般類的方法來(lái)"平滑"或以其他方式處理掩模值利用二進(jìn) 制markov隨機(jī)處理輸入掩碼值有效為真正的"噪音",但不知道(即實(shí)際所需)輸出掩碼 值。以下描述的多種計(jì)數(shù)解決二進(jìn)制掩模的情況,然而應(yīng)該理解,這些技術(shù)直接適用或者可 以適于非二進(jìn)制(例如,連續(xù)的或多值)掩模的情況。在許多情況下,使用吉布斯算法或相 關(guān)方法的逐次更新可能是計(jì)算上令人望而卻步??捎玫牟⑿懈鲁绦蚩梢允遣豢捎玫模?為馬爾可夫隨機(jī)場(chǎng)的鄰域結(jié)構(gòu)不允許以這樣一種方式分區(qū)位置,以使能當(dāng)前的并行更新程 序。例如,在時(shí)間-頻率網(wǎng)格中調(diào)整八個(gè)相鄰上的每個(gè)值不適合于分區(qū)成精確并行更新的 位置子集。
[0146] 在本文中公開另一種方法,其中吉布斯?fàn)钏惴ǖ牟⑿懈禄诙鄠€(gè)更新位置的子 集的選擇,認(rèn)識(shí)到條件獨(dú)立性假設(shè)可違反對(duì)許多位置平行進(jìn)行更新。雖然這可意味著被采 樣的分布不準(zhǔn)確對(duì)應(yīng)于MRF,在實(shí)踐中,該方法提供有用的結(jié)果。
[0147] 因此,本文呈現(xiàn)程序?qū)⒅貜?fù)更新周期的序列。在每個(gè)更新周期中,根據(jù)確定的圖 案,隨機(jī)選擇(例如,選擇隨機(jī)部分,諸如一半)位置的子集(即,時(shí)頻掩模的分量),或在一 些實(shí)施例形成位置的整個(gè)集合。
[0148] 當(dāng)其中底層MRF是同質(zhì)的情況下平行更新時(shí),按照固定內(nèi)核的位置不變卷積用于 在所有位置計(jì)算值,然后更新位置的值的子集用于常規(guī)吉布斯更新(例如,繪制隨機(jī)值并 且在至少一些示例中比較每次更新位置)。在一些示例中,在變換域(例如,傅立葉變換域) 中實(shí)現(xiàn)卷積。使用的變換域和/或所述固定卷積方法也適用于其中選擇更新的合適模式 (例如,棋盤圖案)的情況,例如因?yàn)橛?jì)算規(guī)律性提供勝過(guò)最終被未使用值的計(jì)算的優(yōu)勢(shì)。
[0149] 該過(guò)程的概要示于圖5的流程圖。注意:步驟的特定次序可以在一些實(shí)施方式中 改變,并且步驟可以使用不同的數(shù)學(xué)公式,而不改變?cè)摲椒ǖ幕痉矫鎭?lái)實(shí)現(xiàn)。首先,在多 個(gè)傳感器(例如,傳聲器)獲得多路信號(hào),例如音頻信號(hào)(步驟612)。在至少一些實(shí)施方 式中,在分析步驟確定在連續(xù)的分析幀(n)和頻率(f)的相對(duì)相位信息(步驟614)?;?這種分析,對(duì)每個(gè)時(shí)頻位置確定-1. 〇 (即,代表"可能關(guān)"的數(shù)值量)和1. 〇 (即,表示"可 能"的數(shù)字量)之間的值,作為原始(或輸入)掩模M(f,n)(步驟616)。當(dāng)然,在其它應(yīng)用 中,輸入掩模以其他方式根據(jù)到達(dá)信息的相位或方向來(lái)確定。該步驟的輸出是確定平滑掩 模S(f,n),其被初始化為等于原始掩模(步驟618)。進(jìn)一步步驟的迭代序列被執(zhí)行,例如 在迭代的預(yù)定次數(shù)后(例如,50次迭代)終止。每次迭代開始于當(dāng)前平滑掩模和本地內(nèi)核 的卷積,以形成過(guò)濾掩模(步驟622)。在一些示例中,該內(nèi)核在時(shí)間和頻率延伸正負(fù)一個(gè)樣 本,其權(quán)重:
[0150]
[0151] 其值范圍為0. 0到1. 0的過(guò)濾掩模F(f,n)通過(guò)傳遞過(guò)濾掩碼加a倍乘以原始掩 模通過(guò)乙狀結(jié)腸lAl+exp(-X))(步驟124)形成,例如,a=2.0。(f,n)位置的部分h的 子集(例如,h= 0. 5)隨機(jī)選擇或根據(jù)確定的模式備選(步驟626)。迭代地或并行地,在 這些隨機(jī)位置的平滑掩模S被更新概率,使得選擇要更新的位置(f,n)被設(shè)定為概率F(f, n)的1. 0和概率(1-F(f,n))的-1. 0 (步驟628)。迭代測(cè)試(步驟632)的結(jié)束允許步驟 122-128迭代繼續(xù),例如用于預(yù)定數(shù)量的迭代。
[0152] 進(jìn)一步的計(jì)算(在圖5的流程圖中沒(méi)有示出)可選地被執(zhí)行以確定經(jīng)平滑的濾波 掩模SF(f,n)。該掩模被計(jì)算為S形函數(shù),其被施加到過(guò)濾掩模的計(jì)算迭代尾隨范圍的平 均,以計(jì)算在50次迭代的最后40次的平均值,以得到具有在范圍0. 0到1. 0的量的掩模。
[0153] 應(yīng)當(dāng)理解,以上描述用于平滑輸入掩碼以形成輸出掩模的方法適用于更廣泛的應(yīng) 用,而不是音頻信號(hào)(如,頻率)索引分量的時(shí)間和分量的選擇。例如,相同的方法可用于 平滑空間掩模用于進(jìn)行圖像處理,并且可以在信號(hào)處理的領(lǐng)域之外使用。
[0154] 在一些實(shí)施方式中,上述過(guò)程可以以間歇方式實(shí)現(xiàn),例如,通過(guò)收集信號(hào)的時(shí)間間 隔(例如,若干秒,分鐘或更多),并估計(jì)每個(gè)源的頻譜分量。這樣的實(shí)現(xiàn)可以適合于"離線" 分析,其中增強(qiáng)源分離信號(hào)的信號(hào)采集和供應(yīng)之間延遲。在其它實(shí)施方式中,流傳輸模式用 在其中獲取信號(hào),推理過(guò)程用于例如使用滑動(dòng)滯后窗口以低延遲構(gòu)建源分離掩模。
[0155] 在選擇所需要的時(shí)間-頻率分量(S卩,通過(guò)形成二元或連續(xù)值輸出掩模)之后,可 以在時(shí)域中形成增強(qiáng)的信號(hào),例如,用于音頻呈現(xiàn)(例如,傳輸在語(yǔ)音通信鏈路)或用于自 動(dòng)處理(例如,使用自動(dòng)語(yǔ)音識(shí)別系統(tǒng))。在一些示例中,增強(qiáng)的時(shí)域信號(hào)不明顯地形成,以 及自動(dòng)化處理可以直接作用于用于源分離步驟的時(shí)間-頻率分析。
[0156] 上面描述的方法適用于各種最終應(yīng)用。例如,該多元件傳聲器(或多個(gè)這樣的話 筒)被集成到個(gè)人通信或計(jì)算設(shè)備(例如,"智能電話",根據(jù)人眼眼鏡的個(gè)人計(jì)算機(jī),基于 珠