基于迭代優(yōu)化算法的麥克風(fēng)陣列自校準(zhǔn)聲源定位系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于聲源定位技術(shù)領(lǐng)域,具體涉及一種麥克風(fēng)陣列聲源定位系統(tǒng)。
【背景技術(shù)】
[0002] 聲源定位技術(shù)是指通過電學(xué)和聲學(xué)裝置對語音信號進(jìn)行拾取和處理,繼而確定和 跟蹤聲源空間位置的技術(shù)。在機(jī)器人,語音增強(qiáng),安防系統(tǒng),攝像頭智能監(jiān)控以及智能家居 等方面有廣泛的應(yīng)用。
[0003] 聲源定位技術(shù)主要可以分成三類:第一類是基于最大輸出功率的可控波束形成 技術(shù),當(dāng)傳聲器陣列探測到信號時(shí),對各路信號進(jìn)行加權(quán)求和形成波束,直到得到具有最大 輸出功率的波束為止。該方法可以對單聲源進(jìn)行定位,也可以對多聲源進(jìn)行定位,但存在對 初值敏感的問題。另外還需要知道聲源和噪聲的先驗(yàn)知識,而且計(jì)算量大,不利于實(shí)時(shí)處 理。第二類是高分辨率譜估計(jì)技術(shù),該算法是針對窄帶信號,如要獲得較理想的精度,需要 利用傳聲器陣列獲取的信號計(jì)算空間譜的相關(guān)矩陣,計(jì)算量也比較大;另外該算法無法處 理高度相關(guān)的信號,混響會給算法的定位精度帶來較大影響;在實(shí)際操作過程中很少采用。 第三類是基于聲達(dá)時(shí)間差(time difference of arrival,TD0A)的定位技術(shù),利用到達(dá) 陣列上各傳聲器的聲音信號間的時(shí)間差來定位聲源,這類技術(shù)計(jì)算量小,比較適用于實(shí)時(shí) 處理,在實(shí)際應(yīng)用中占有很大的比重。但傳統(tǒng)時(shí)延法基于近似公式,僅能實(shí)現(xiàn)遠(yuǎn)場的聲源定 位,在近場和非遠(yuǎn)場的定位效果不是很理想。
[0004] 本發(fā)明基于迭代優(yōu)化算法設(shè)計(jì)了一種七元麥克風(fēng)陣列聲源定位系統(tǒng),該系統(tǒng)可以 實(shí)現(xiàn)三維空間的近場和遠(yuǎn)場的聲源定位,并且可以進(jìn)行自校準(zhǔn)。其不僅適用于水平方位的 角度跟蹤而且能夠三維追蹤聲源高度,具有結(jié)構(gòu)簡單,體積小,重量輕,攜帶方便等優(yōu)點(diǎn)。相 較于傳統(tǒng)的近似公式,該算法在近場也能實(shí)現(xiàn)聲源位置的精確定位。算法占用的RAM和ROM 小,運(yùn)算量小定位精確。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提供一種基于迭代優(yōu)化算法的自校準(zhǔn)麥克風(fēng)陣列聲源定位系 統(tǒng)。
[0006] 本發(fā)明提供的基于迭代優(yōu)化算法的自校準(zhǔn)麥克風(fēng)陣列聲源定位系統(tǒng),首先,設(shè)計(jì) 在三軸方向上都包含三組麥克風(fēng)的七元麥克風(fēng)陣列,該麥克風(fēng)陣列具備自校準(zhǔn)功能,如圖2 所示;然后,將空間平面劃分為8個(gè)象限,利用聲源到達(dá)各坐標(biāo)軸上兩個(gè)麥克的時(shí)延差的正 負(fù)值大致判斷聲源所在象限,如圖3所示;最后,在預(yù)估象限內(nèi)選取一個(gè)較大的棱錐區(qū)域, 要求該區(qū)域包含聲源點(diǎn),通過迭代優(yōu)化算法對棱錐區(qū)域不斷收縮,將聲源點(diǎn)鎖定在一個(gè)很 小的區(qū)域內(nèi)實(shí)現(xiàn)準(zhǔn)確定位,如圖4所示。
[0007] 本發(fā)明提供的基于迭代優(yōu)化算法的自校準(zhǔn)麥克風(fēng)陣列聲源定位系統(tǒng),其框圖如圖 1所示,包括:麥克風(fēng)陣列、多聲道采集模塊、聲源定位系統(tǒng);各部分功能如下: 所述麥克風(fēng)陣列,為在三軸方向上都包含三組麥克風(fēng)的七元麥克風(fēng)陣列,用于獲取聲 源各個(gè)麥克風(fēng)之間的語音信號; 所述多聲道采集模塊,以48K的采樣頻率對各個(gè)麥克風(fēng)獲取的語音信號進(jìn)行采樣,并 將語音信號傳入聲源定位系統(tǒng)(DSP)等待處理; 所述聲源定位系統(tǒng)包括:語音檢測、時(shí)延估計(jì)和聲源方位估計(jì)3個(gè)部分;其中,語音檢 測部分采用A/D轉(zhuǎn)換將麥克采集的語音信號轉(zhuǎn)換為對應(yīng)的電信號,并用可移動的有限長度 窗口進(jìn)行分幀;時(shí)延估計(jì)部分利用加權(quán)廣義互相關(guān)運(yùn)算獲取各個(gè)麥克風(fēng)之間的時(shí)延值,實(shí) 現(xiàn)采樣的自校準(zhǔn)以及聲源所在象限的估算;聲源方位估計(jì)部分是在象限內(nèi)選取一個(gè)包含聲 源的較大棱錐區(qū)域,采用迭代優(yōu)化算法,逐漸收縮,實(shí)現(xiàn)聲源的精確定位。
[0008] 本發(fā)明中,所述七元麥克風(fēng)陣列,在三軸方向上都包含三組麥克風(fēng),用于獲取聲源 到達(dá)各個(gè)麥克風(fēng)之間的語音信號,借助多聲道采集模塊以48K的采樣頻率對各語音信號進(jìn) 行采樣并將信號傳入聲源定位系統(tǒng)系統(tǒng)等待處理。其中,采用A/D轉(zhuǎn)換可以將麥克采集的 聲信號轉(zhuǎn)換為對應(yīng)的電信號,用可移動的有限長度窗口進(jìn)行分幀,再利用加權(quán)廣義互相關(guān) 運(yùn)算獲取各個(gè)麥克風(fēng)之間的時(shí)延值,實(shí)現(xiàn)采樣的自校準(zhǔn)以及聲源所在象限的估算。
[0009] 本發(fā)明中,所述迭代優(yōu)化算法,首先判斷確定聲源點(diǎn)所在象限,進(jìn)一步利用迭代收 縮的方法對其優(yōu)化,實(shí)現(xiàn)聲源目標(biāo)的精確定位。具體操作如下:在定位象限中選取四個(gè)點(diǎn): 0, A,B,C,構(gòu)成棱錐區(qū)域,作為假定聲源點(diǎn),該棱錐區(qū)域包裹目標(biāo)聲源點(diǎn);定義待優(yōu)化函數(shù), 優(yōu)化目標(biāo)是該函數(shù)的運(yùn)算值趨于〇 ;將四個(gè)點(diǎn):〇,A,B,C的坐標(biāo)分別代入該優(yōu)化函數(shù);剔除 誤差較大的點(diǎn),再用棱錐的重心替代剛剛被剔除的點(diǎn),構(gòu)成新的棱錐區(qū)域;重復(fù)上述操作; 棱錐區(qū)域會不斷趨近聲源目標(biāo)位置,通過不斷收縮可以將定位范圍鎖定在一個(gè)很小的區(qū)域 里。
[0010] 本發(fā)明設(shè)計(jì)了在三軸方向上都包含三組麥克風(fēng)的七元麥克風(fēng)陣列,并具備自校準(zhǔn) 功能;在求解時(shí)采用了迭代優(yōu)化算法,利用數(shù)值解逼近最優(yōu)解,可以獲取精確的近場和遠(yuǎn)場 聲源空間位置定位。本發(fā)明系統(tǒng)不僅適用于水平方位的角度跟蹤,而且能夠三維追蹤聲源 高度,結(jié)構(gòu)簡單,體積小,重量輕,攜帶方便。相較于傳統(tǒng)僅適用于遠(yuǎn)場的近似公式,該算法 在近場也能實(shí)現(xiàn)聲源位置的精確定位而且算法占用的RAM和ROM小,運(yùn)算量小定位精確。
【附圖說明】
[0011] 圖1為麥克風(fēng)陣列聲源定位系統(tǒng)框圖。
[0012] 圖2為麥克風(fēng)陣列示意圖。
[0013] 圖3為象限劃分示意圖。
[0014] 圖4為定位算法演示。
【具體實(shí)施方式】
[0015] 在利用本發(fā)明系統(tǒng)進(jìn)行聲源定位測試時(shí),用麥克風(fēng)陣列獲取聲源到達(dá)各個(gè)麥克風(fēng) 之間的語音信號,借助多聲道采集模塊以48K的采樣頻率對各語音信號進(jìn)行采樣并將信號 傳入聲源定位系統(tǒng)系統(tǒng)等待處理。采用A/D轉(zhuǎn)換可以將麥克采集的聲信號轉(zhuǎn)換為對應(yīng)的電 信號,再利用加權(quán)廣義互相關(guān)運(yùn)算獲取各個(gè)麥克風(fēng)之間的時(shí)延值,實(shí)現(xiàn)采樣的自校準(zhǔn)以及 聲源所在象限的估算;在象限內(nèi)選取一個(gè)包含聲源的較大棱錐區(qū)域,采用迭代優(yōu)化算法逐 漸收縮區(qū)域?qū)崿F(xiàn)聲源的精確定位。
[0016]在具體的測試過程中,需要獲取兩個(gè)麥克之間的時(shí)延值,具體的流程為: (1) 架設(shè)一個(gè)在三軸方向上都包含三組麥克風(fēng)的七元麥克風(fēng)陣列,用麥克風(fēng)陣列獲取 聲源到達(dá)各個(gè)麥克風(fēng)之間的語音信號; (2) 采用多聲道采集模塊,以48K的采樣頻率對各語音信號進(jìn)行采樣,并將信號傳入聲 源定位系統(tǒng)等待處理; (3) 采用A/D轉(zhuǎn)換可以將麥克采集的聲信號轉(zhuǎn)換為對應(yīng)的電信號; (4) 由麥克風(fēng)1和麥克風(fēng)2獲得語音信號,用可移動的有限長度窗口進(jìn)行分幀,對信號 進(jìn)行傅里葉變換,得到兩個(gè)信號的本幀互功率譜:
按照一定的權(quán)值 進(jìn)行頻域加權(quán)之后通過逆傅里葉變換得到本幀的互相關(guān)函數(shù)
找到Kt)峰值處就是兩個(gè)麥克風(fēng)1和麥克風(fēng)2間的時(shí)延;其中t為時(shí)延差參數(shù),《為角 頻率,步12 ( ? )為對應(yīng)于這兩個(gè)麥克風(fēng)的加權(quán)窗口,G12 ( ? )為對應(yīng)于這兩個(gè)麥克風(fēng)的功 率譜函數(shù);同理,可獲得其余的兩兩麥克風(fēng)間的時(shí)延。
[0017]在進(jìn)行聲源定位時(shí)需要測試聲源自校準(zhǔn)和大致定位聲源所在象限,示意圖如圖2 所示,具體流程為: (1) 分別記錄聲源到麥克風(fēng)1和原點(diǎn)0的延時(shí)射聲源到麥克風(fēng)2和原點(diǎn)0的延時(shí) ,聲源到麥克風(fēng)3和原點(diǎn)0的延時(shí),聲源到麥克風(fēng)4和原點(diǎn)0的延時(shí),聲源 到麥克風(fēng)5和原點(diǎn)0的延時(shí)ikM,聲源到麥克風(fēng)6和原點(diǎn)0的延時(shí)irw,聲源到麥克風(fēng)2 和原點(diǎn)1的延時(shí),聲源到麥克風(fēng)4和原點(diǎn)3的延時(shí)4,聲源到麥克風(fēng)6和原點(diǎn)5的延 時(shí)敘S.i ; (2) 當(dāng)滿足
則記錄的 測試聲源點(diǎn)正確,否則視為無效測試點(diǎn),應(yīng)重新測試,實(shí)現(xiàn)測試聲源自校準(zhǔn); (3) 根據(jù)同軸上兩個(gè)接收點(diǎn)之間的時(shí)延差確定定位象限,示意圖如圖3所示,
&
將點(diǎn)定位于第I象限,
,將點(diǎn)定位于第II 象限,
,將點(diǎn)定位于第III象限,
將 點(diǎn)定位于第iv象限,
將點(diǎn)定位于第v象限/ _
I *
,將點(diǎn)定位于第VI象限,
,將點(diǎn)定位于第VII象限,
,將點(diǎn)定位于第VIII象限,實(shí)現(xiàn)聲源所在象限的定位。其中, "&"是"并且"的符號表達(dá)。
[0018] 在進(jìn)行聲源精確定位時(shí)需要利用迭代優(yōu)化進(jìn)行收縮,確定聲源所在精確范圍,示 意圖如圖4所示,具體流程為: (1)構(gòu)造如下優(yōu)化函數(shù)R (x,y,z),求解目標(biāo)是R (x,y,z