基于神經(jīng)網(wǎng)絡(luò)的四通道陣列聲源定位系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種可用于人機(jī)交互代替鍵盤輸入的基于陣列麥克風(fēng)的聲音定位系統(tǒng)設(shè)計(jì),其中麥克風(fēng)陣列的聲源定位技術(shù)是指由一定的幾何結(jié)構(gòu)排列而成的若干個(gè)麥克風(fēng)組成的陣列。同一聲源到達(dá)不同麥克風(fēng)的時(shí)間不一樣。通過采集聲源到達(dá)不同麥克風(fēng)的時(shí)間延遲,計(jì)算發(fā)聲源位置,表征不同的功能命令,上位機(jī)發(fā)出相應(yīng)的動(dòng)作相應(yīng),以實(shí)現(xiàn)人機(jī)交互。采集手指叩擊桌面發(fā)出的聲音,在經(jīng)典時(shí)延估計(jì)算法基礎(chǔ)上,結(jié)合BP神經(jīng)網(wǎng)絡(luò)處理時(shí)延估計(jì)的結(jié)果,確定定位位置,得到輸入鍵值,即所敲的鍵,可以部分意義上代替?zhèn)鹘y(tǒng)PC鍵盤,實(shí)現(xiàn)命令輸入的人機(jī)交互功能。
【專利說明】基于神經(jīng)網(wǎng)絡(luò)的四通道陣列聲源定位系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)字信號(hào)處理,嵌入式系統(tǒng)設(shè)計(jì)等,尤其涉及多通道信號(hào)源定位技術(shù)?!颈尘凹夹g(shù)】
[0002]在過去的幾十年里,人機(jī)交互技術(shù)日新月異,尤其是隨著電子自動(dòng)化設(shè)備的普及和延伸,給嵌入式人機(jī)交互方式的開發(fā)帶來了指數(shù)型的快速發(fā)展。如何通過多種輸入輸出設(shè)備與計(jì)算機(jī)進(jìn)行交互是多媒體技術(shù)研究的重要內(nèi)容。發(fā)展聲學(xué)鍵盤和聲學(xué)輸入技術(shù)有助于推動(dòng)計(jì)算機(jī)輸入設(shè)備的進(jìn)步,伴隨新技術(shù)的不斷優(yōu)化和完善,產(chǎn)品化輸入設(shè)備的低成本,低功耗的環(huán)保特性和方便便捷,將會(huì)帶來較為可觀的經(jīng)濟(jì)效益和社會(huì)效益?;邴溈孙L(fēng)陣列的聲源定位技術(shù)是指由一定的幾何結(jié)構(gòu)排列而成的若干個(gè)麥克風(fēng)組成的陣列。同一聲源到達(dá)不同麥克風(fēng)的時(shí)間不一樣。通過采集聲源到達(dá)不同麥克風(fēng)的時(shí)間延遲,計(jì)算發(fā)聲源位置,表征不同的功能命令,上位機(jī)發(fā)出相應(yīng)的動(dòng)作相應(yīng),以實(shí)現(xiàn)人機(jī)交互。
[0003]本發(fā)明系統(tǒng)實(shí)現(xiàn)了這樣一種基于陣列麥克風(fēng)的聲音定位模型,在經(jīng)典時(shí)延估計(jì)算法基礎(chǔ)上,結(jié)合BP神經(jīng)網(wǎng)絡(luò)處理時(shí)延估計(jì)的結(jié)果,確定定位位置,實(shí)現(xiàn)命令輸入的人機(jī)交互功能。
【發(fā)明內(nèi)容】
[0004]本發(fā)明所要解決的技術(shù)問題是:在較低的采樣率下,經(jīng)典信號(hào)處理方法對(duì)于定位有很大的誤差,不能實(shí)現(xiàn)靈巧的人際交互。較高的采樣率下,信號(hào)處理的數(shù)據(jù)流巨大,同時(shí)對(duì)計(jì)算能力要求較高,高負(fù)荷的不間斷運(yùn)作代價(jià)較高,不適合用于輸入設(shè)備。為了在不增加運(yùn)算負(fù)荷和采樣率的前提下,利用信號(hào)處理技術(shù),克服噪聲等因素,盡可能的低功耗并且獲得更精細(xì)的聲音源定位,實(shí)現(xiàn)命令輸入功能,代替?zhèn)鹘y(tǒng)鍵盤作為人機(jī)交互方式,我們研究用同步采樣保真,時(shí)延估計(jì)和BP神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)這一系統(tǒng)。
[0005]本發(fā)明為解決以上技術(shù)問題,所采用的技術(shù)方案是:以數(shù)據(jù)采集和聲音保真硬件電路為基礎(chǔ),即通過多通道采集到聲音,聲音信號(hào)經(jīng)過模數(shù)轉(zhuǎn)換后得到多維數(shù)組,進(jìn)而計(jì)算聲音源位置。敲擊音信號(hào)是一種類似沖擊脈沖的信號(hào)當(dāng)敲擊發(fā)生時(shí)信號(hào)有較陡峭的前沿,屬于非平穩(wěn)信號(hào)。信號(hào)由聲音振動(dòng)產(chǎn)生,故在敲擊發(fā)生時(shí)信號(hào)生成且波動(dòng),幅度迅速增強(qiáng),一般經(jīng)歷2至3個(gè)峰值后開始衰減,聲音在空氣中傳播的平均速度通常估計(jì)為340m/
S。則0.01m的距離差可以引起2.94X10-5S的時(shí)間差。而中速數(shù)字采集電路可以達(dá)到44Khz-200KHz的采集頻率,保證了可以較為準(zhǔn)確地采集到聲音到達(dá)不同陣元點(diǎn)的相對(duì)時(shí)間,因此計(jì)算相位差,便可以真實(shí)地反映多路信號(hào)之間的關(guān)系,從而計(jì)算聲源位置,得到相應(yīng)的鍵值,實(shí)現(xiàn)輸入設(shè)備的意義。
[0006]理想情況,桌面無限大且各向同性,陣列中各陣元是不存在通道不一致、互耦等因素的影響的假設(shè)條件下的。但是,在實(shí)際的工程應(yīng)用中,各種誤差是不可避免的。麥克風(fēng)陣列的誤差,主要體現(xiàn)在聲傳感器的性能不一致、陣元間距不嚴(yán)格相等導(dǎo)致的陣列結(jié)構(gòu)誤差、以及整個(gè)麥克風(fēng)陣列數(shù)據(jù)采集系統(tǒng)的各陣元通道間幅度、相位誤差。桌面情況復(fù)雜,大小不一,形狀不一,木質(zhì)結(jié)構(gòu)致密疏松情況各異,多重發(fā)射波不確定疊加。傳統(tǒng)時(shí)延估計(jì)算法在定位精確上遇到很大挑戰(zhàn),本發(fā)明結(jié)合神經(jīng)網(wǎng)絡(luò)模型,有效的解決了算法的普遍實(shí)用性問題。
[0007]所述的硬件電路設(shè)計(jì)包括拾音器陣列,信號(hào)同步調(diào)整電路,信號(hào)保真調(diào)整電路,多通道數(shù)據(jù)采集卡,PCI輸入舒服
[0008]所述的軟件設(shè)計(jì)包括,離散信號(hào)處理,去噪聲濾波器,廣義互相關(guān)函數(shù)法時(shí)延估計(jì),BP神經(jīng)網(wǎng)絡(luò)。
[0009]本發(fā)明的有益效果如下:
[0010]本發(fā)明使用手指敲擊桌面產(chǎn)生的聲音定位鍵值位置,代替?zhèn)鹘y(tǒng)鍵盤,環(huán)保便捷。
[0011]本發(fā)明通過采用上述硬件電路設(shè)計(jì),可同步并且保真采集多路聲音信號(hào)。
[0012]本發(fā)明通過采用上述軟件算法設(shè)計(jì),可實(shí)現(xiàn)聲音信號(hào)源的定位,用于代替鍵盤識(shí)別鍵值。
【專利附圖】
【附圖說明】
[0013]圖1為本發(fā)明整體系統(tǒng)框圖
[0014]圖2為本發(fā)明聲音米樣麥克風(fēng)分布陣列圖
[0015]圖3為本發(fā)明硬件電路圖
[0016]圖4為本發(fā)明硬件實(shí)際采集到多路同步保真的信號(hào)
[0017]圖5為本發(fā)明中采用的時(shí)延估計(jì)算法流程圖
[0018]圖6為本發(fā)明中采用的神經(jīng)網(wǎng)絡(luò)算法網(wǎng)絡(luò)設(shè)計(jì)圖
[0019]圖7為本發(fā)明測(cè)試結(jié)果和準(zhǔn)確率情況
【具體實(shí)施方式】
[0020]下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。
[0021]本發(fā)明是基于拾音器陣列采樣,電路同步保真處理,數(shù)字采集卡進(jìn)行模數(shù)轉(zhuǎn)換,后經(jīng)由軟件算法處理信號(hào)得到聲源位置信息的一套系統(tǒng),如圖1所示。
[0022]整個(gè)系統(tǒng)主要通過硬件和軟件實(shí)現(xiàn)。
[0023]硬件電路:
[0024]主要目標(biāo)是采集多路寬帶近場(chǎng)音頻信號(hào)(如圖3)。為后續(xù)模型的實(shí)現(xiàn)提供物理基礎(chǔ)。其中重點(diǎn)側(cè)重于多通道同步和信號(hào)相位保真兩個(gè)方面性能的提高。實(shí)現(xiàn)將聲波傳到傳感器的信號(hào)采集下米,經(jīng)過保真電路,同步多通道采集并放大,然后進(jìn)行數(shù)模轉(zhuǎn)換后傳到上位機(jī)。
[0025]其中拾音器的分布采用線性陣列分布(如圖2),方便在不同的場(chǎng)合移動(dòng)和安裝系統(tǒng)。
[0026]軟件部分:
[0027]本算法處理,輸入信號(hào)為如圖4中描述的多通道麥克風(fēng)陣列采集桌面敲擊信號(hào)
[0028]設(shè)計(jì)目標(biāo)是輸入信號(hào)采集時(shí)敲擊的鍵值和計(jì)算輸出的鍵值一致,分為兩個(gè)基本步驟:
[0029]1.多通道采集信號(hào)一加窗截取敲擊發(fā)生位置一窗口校驗(yàn)調(diào)整一帶通濾波器濾波—求取互功率譜一降維到神經(jīng)網(wǎng)絡(luò)輸入樣本
[0030]2.—?jiǎng)?chuàng)建神經(jīng)網(wǎng)絡(luò)(目標(biāo)輸出\初始權(quán)值\神經(jīng)元個(gè)數(shù)\網(wǎng)絡(luò)層數(shù)\傳遞函數(shù)\學(xué)習(xí)速率\性能函數(shù))一訓(xùn)練網(wǎng)絡(luò)一網(wǎng)絡(luò)測(cè)試一識(shí)別輸出
[0031]其中,神經(jīng)網(wǎng)絡(luò)創(chuàng)建和訓(xùn)練過程僅在系統(tǒng)第一次運(yùn)行時(shí)計(jì)算,此后,保存該神經(jīng)網(wǎng)絡(luò)模型參數(shù),直接計(jì)算網(wǎng)絡(luò)識(shí)別結(jié)果,保證較低的運(yùn)算量,以實(shí)現(xiàn)系統(tǒng)實(shí)時(shí)響應(yīng)。
[0032]本發(fā)明使用的軟件算法第一部分為廣義互相關(guān)函數(shù)法(GCC,GeneralizedCross-Correlation),在經(jīng)典時(shí)延估計(jì)的方法中應(yīng)用最為廣泛。廣義互相關(guān)函數(shù)法通過求兩信號(hào)之間的互功率譜,并在頻域內(nèi)給予一定的加權(quán)來抑制噪聲,在變幻到時(shí)域,從而得到兩信號(hào)之間的互相關(guān)函數(shù),該互相關(guān)函數(shù)的峰值位置對(duì)應(yīng)兩個(gè)信號(hào)之間的相對(duì)時(shí)延,如圖5所示。經(jīng)由處理,初步得到時(shí)延差,作為下一級(jí)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)。
[0033]本發(fā)明使用的軟件算法第二部分是基于誤差反向傳播算法的多層前向神經(jīng)網(wǎng)絡(luò),BP神經(jīng)網(wǎng)絡(luò)是基于誤差反向傳播算法(BP算法)的多層前向神經(jīng)網(wǎng)絡(luò)。是D.E.Rumelhart和J.L.McCelland及其研究小組在1986年研究并設(shè)計(jì)出來的。BP算法是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,有近90%的神經(jīng)網(wǎng)絡(luò)應(yīng)用是基于BP算法的。是WINDR0W-H0FF算法在多層前向神經(jīng)網(wǎng)絡(luò)中的推廣。權(quán)值和閾值的調(diào)整采用誤差反向傳播,且沿著誤差變化的負(fù)梯度方向進(jìn)行,模式順傳播和誤差逆?zhèn)鞑ソ徊孢M(jìn)行,最終使網(wǎng)絡(luò)誤差達(dá)到極小值或最小值。
[0034]其中高度容錯(cuò)性,較強(qiáng)的適應(yīng)性使得在解決系統(tǒng)、環(huán)境等非線性誤差上有明顯效果,對(duì)輸入樣本具有很強(qiáng)的識(shí)別與分類能力。本文中采用二層BP網(wǎng)絡(luò)隱含層采用S型傳遞函數(shù),輸出層也采用對(duì)數(shù)S型傳遞函數(shù),以限制輸出范圍,輸入維數(shù)由經(jīng)典時(shí)延估計(jì)的到的序列特征向量維數(shù)大小來確定。輸出層的神經(jīng)元個(gè)數(shù)根據(jù)要識(shí)別的鍵值數(shù)目確定。即L-M優(yōu)化算法來訓(xùn)練,這是一種批處理模式算法,當(dāng)所有的輸入都被提交后網(wǎng)絡(luò)才被更新。它使用了 Levenberg-Marquardt優(yōu)化方法,從而使學(xué)習(xí)時(shí)間更短。默認(rèn)的mse函數(shù)做性能評(píng)估函數(shù),以網(wǎng)絡(luò)輸出和目標(biāo)輸出t之間的均方誤差作為性能評(píng)估標(biāo)準(zhǔn)。網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
[0035]最終,經(jīng)由硬件和軟件兩部分設(shè)計(jì)結(jié)構(gòu),識(shí)別結(jié)果為:45組樣本,失敗I組,成功44組,識(shí)別率97.7%,如圖7所示。
【權(quán)利要求】
1.基于神經(jīng)網(wǎng)絡(luò)的四通道陣列聲源定位系統(tǒng),其特征在于:使用手指叩擊桌面的位置不同而代表不同的鍵值鍵位,代替?zhèn)鹘y(tǒng)鍵盤的輸入方式。通過多通道采集叩擊聲音,經(jīng)由廣義互相關(guān)函數(shù)時(shí)延估計(jì)和神經(jīng)網(wǎng)絡(luò)計(jì)算得到聲源位置。
2.根據(jù)權(quán)利要求1所述的多通道采集系統(tǒng),其特征在于:同步采集多通道信號(hào),放大,保真聲音系統(tǒng)。
3.根據(jù)權(quán)利要求1所述的廣義互相關(guān)函數(shù)與神經(jīng)網(wǎng)絡(luò)結(jié)合的聲源定位算法,其特征在于,在中低采樣率條件下準(zhǔn)確的計(jì)算出聲源位置,抵抗噪聲干擾,回波反射等因素,同客觀環(huán)境條件下反復(fù)測(cè)試,識(shí)別率達(dá)95%。
【文檔編號(hào)】G01S5/22GK103576126SQ201210264336
【公開日】2014年2月12日 申請(qǐng)日期:2012年7月27日 優(yōu)先權(quán)日:2012年7月27日
【發(fā)明者】姜楠, 賽音, 傅洋, 張超 申請(qǐng)人:姜楠