專利名稱:一種聲音信號(hào)檢測和識(shí)別的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種聲音的檢測和識(shí)別方法,特別涉及一種能夠?qū)θ趼曇粜盘?hào)的檢測和識(shí)別也特別有效的基于聲音信號(hào)的特征化表達(dá)、背景抑制處理、信號(hào)檢出和數(shù)據(jù)融合的聲音信號(hào)檢測和識(shí)別方法。
背景技術(shù):
聲音檢測和識(shí)別技術(shù)在國防,安全監(jiān)控,人機(jī)交互等領(lǐng)域均有著廣泛的應(yīng)用,特別是由于聲音的檢測和識(shí)別的方法相對(duì)于圖像的檢測與識(shí)別方法,機(jī)動(dòng)靈活且不易受到自然條件的影響,近年來吸引了越來越多研究者的注意。成為當(dāng)前計(jì)算機(jī)聲音處理領(lǐng)域中的研
究熱點(diǎn)之
在計(jì)算機(jī)聲音處理領(lǐng)域,目前常用的數(shù)學(xué)分析工具有短時(shí)傅里葉變換、小波變換、 小波包變換等。通過這些數(shù)學(xué)分析工具,我們可以對(duì)聲音信號(hào)進(jìn)行詳細(xì)的時(shí)頻域分析,比如在對(duì)聲音信號(hào)進(jìn)行時(shí)域分析時(shí),可以獲得聲音信號(hào)的過零率、振幅、周期、能量等信息;進(jìn)行頻域分析時(shí)可以獲得聲音信號(hào)的頻譜分布、基頻頻率、各次諧波頻率,Mel倒頻譜系數(shù)等信息。通過對(duì)這些聲音信號(hào)進(jìn)行時(shí)頻譜分析,可以檢測出聲音信號(hào)中所包含的有用信息。其中,短時(shí)傅里葉變換通過選擇不同的窗函數(shù)可以反映出不同時(shí)變信號(hào)局部的時(shí)域和頻域的綜合信息,而小波變換則是法國從事石油信號(hào)處理的工程師J. Morlet在1974年首先提出的一種變換方法,它與傅里葉變換等變換相比,是一個(gè)時(shí)間和頻率的局網(wǎng)域變換,因而能有效的從信號(hào)中提取資訊,它可以通過伸縮和平移等運(yùn)算功能對(duì)函數(shù)或信號(hào)進(jìn)行多尺度細(xì)化分析,解決傅里葉變換不能解決的許多困難問題,因而小波變化被譽(yù)為“數(shù)學(xué)顯微鏡”,它是調(diào)和分析發(fā)展史上里程碑式的進(jìn)展。它的正交性和多分辨分析性已經(jīng)成功應(yīng)用于很多領(lǐng)域,特別在聲音信號(hào)處理領(lǐng)域,小波變換的的多分辨分析性已經(jīng)被廣泛地利用作由粗到精的逐步觀察聲音信號(hào)。諸多學(xué)者在這一領(lǐng)域進(jìn)行了大量的研究,例如馬寧等人用短時(shí)傅里葉變換及小波變換理論分析了強(qiáng)噪聲背景下雷達(dá)弱信號(hào)檢測方法,利用小波變換的“變焦特性”能夠有效地從強(qiáng)噪聲背景中檢測到弱信號(hào),從而將目標(biāo)從噪聲中檢測出來。徐巖等人采用從強(qiáng)噪聲中提取話音信號(hào)的自適應(yīng)噪聲抵消技術(shù)入手,對(duì)最小均方誤差的性能進(jìn)行了分析,針對(duì)其收斂速度慢、提取信號(hào)頻帶窄的缺點(diǎn),提出了改進(jìn)的有動(dòng)量因子的自適應(yīng)最小均方誤差算法,對(duì)解決弱信號(hào)提取問題有一定效果。童寧寧等人分析了小波包變換的良好時(shí)頻分析特性,根據(jù)信號(hào)與噪聲具有不同的Lipschitz指數(shù),通過引入子頻帶⑴-范數(shù),對(duì)信號(hào)和噪聲進(jìn)行頻譜分析,將最佳子空間的熵值及最佳子空間在完整二叉樹中的位置參數(shù)作為特征量,并應(yīng)用浮動(dòng)閾值去噪方法,解決了低信噪比情況下的弱信號(hào)檢測問題。通過計(jì)算機(jī)的數(shù)值計(jì)算,模擬了浮動(dòng)閾值去噪法基于小波包變換和小波變換的強(qiáng)噪聲背景下的弱信號(hào)檢測,從仿真的波形圖中得出在低信噪比情況下的弱信號(hào)檢測方面小波包變換優(yōu)于小波變換。在當(dāng)前聲音檢測和識(shí)別領(lǐng)域中,廣泛應(yīng)用的理論和方法是基于統(tǒng)計(jì)學(xué)中假設(shè)檢驗(yàn)的似然比檢驗(yàn)。但是由于在實(shí)際應(yīng)用中對(duì)人類有用的信息往往被淹沒在強(qiáng)的背景聲音干擾中,人類采集到數(shù)據(jù)信號(hào)一般是非平穩(wěn)的,并且只有很低的信干比(信噪比)。而當(dāng)傳統(tǒng)的信號(hào)檢測與識(shí)別方法在碰到信干比(信噪比)很低或非白噪聲干擾或非平穩(wěn)干擾聲音(噪聲)的時(shí)候,系統(tǒng)的檢測性能會(huì)急劇下降,很難獲得較高的檢測率。
發(fā)明內(nèi)容
為了解決上述聲音檢測和識(shí)別領(lǐng)域中的問題,從而在更低的信噪比條件下和更加復(fù)雜的信號(hào)環(huán)境下也能有效地進(jìn)行聲音信號(hào)的檢測和識(shí)別,發(fā)明人利用目前熱門的信號(hào)處理理論進(jìn)行信號(hào)檢測方面的研究,提出了一種基于聲音時(shí)頻域變換的聲音檢測算法,能夠克服當(dāng)前統(tǒng)計(jì)學(xué)中假設(shè)檢驗(yàn)似然比檢驗(yàn)方法的固有缺陷,提供一套有效的系統(tǒng)的實(shí)時(shí)聲音信號(hào)檢測和識(shí)別算法。本發(fā)明采用的技術(shù)方案如下—種聲音信號(hào)檢測和識(shí)別的方法,包括以下步驟步驟一,預(yù)處理過程首先利用目標(biāo)聲音的特征化表達(dá)方式將目標(biāo)聲音制作成目標(biāo)模板{QJ ;接著將實(shí)時(shí)獲取的原始聲音信號(hào)進(jìn)行分幀,每一定長度的數(shù)據(jù)分成一幀,每幀之間重疊一定的長度;同時(shí)初始化計(jì)數(shù)器i為零,初始化最終檢測和識(shí)別量化結(jié)果IRi I i = 1,2,…LENGTH}的每個(gè)元素為零,初始化加權(quán)系數(shù){a」i = 1,2,…Μ}的所有元素為零;步驟二,幀數(shù)據(jù)的特征化通過分幀后原始聲音的特征化表達(dá)方式計(jì)算第i幀數(shù)據(jù)的特征向量ISJ ;步驟三,基于背景抑制的處理方式將步驟一和步驟二得到的目標(biāo)模板IAJ和第 i幀數(shù)據(jù)的特征向量ISJ通過基于背景抑制的方法進(jìn)行處理,以抑制第i幀數(shù)據(jù)中的背景噪音和干擾部分,從而得到處理結(jié)果序列;步驟四,信號(hào)檢出的過程利用信號(hào)檢出的方法對(duì)步驟三得到的處理結(jié)果序列進(jìn)行信號(hào)檢出,以進(jìn)一步抑制背景噪聲或干擾并同時(shí)補(bǔ)償由于原始信號(hào)非平穩(wěn)而造成的影響,從而得到檢出結(jié)果序列丨《ι X = 1,2,…M};步驟五,數(shù)據(jù)融合利用數(shù)據(jù)融合的方法對(duì)檢出結(jié)果序列·}《1進(jìn)行加權(quán)處理,依據(jù)
每一幀的數(shù)據(jù)結(jié)果和檢測的即時(shí)性,從而得到一個(gè)用于判斷最終結(jié)果的統(tǒng)一的相似度量化序列R ;步驟六,遍歷每幀數(shù)據(jù)首先判斷當(dāng)前相似度量化序列R中是否有元素大于閾值 Τ,如果是則輸出該元素的位置;然后更新計(jì)數(shù)器『=/ + 1并且重復(fù)上面步驟二到步驟六,直至遍歷所有幀數(shù)據(jù)。通過以上的六個(gè)步驟后的算法輸出結(jié)果就是從原始聲音中檢測和識(shí)別到的目標(biāo)聲音發(fā)生的位置。本發(fā)明通過上述6個(gè)重要方面對(duì)聲音信號(hào)進(jìn)行處理,從而得到一個(gè)最終的相似度統(tǒng)一量化序列,該相似度統(tǒng)一量化序列中的每一個(gè)元素的值與在該元素位置上發(fā)生了原始聲音包含目標(biāo)聲音這個(gè)事件的概率成正比。我們最后通過閾值的方法對(duì)該相似度量化序列進(jìn)行濾波處理,從而檢測和識(shí)別該原始聲音中是否有目標(biāo)聲音發(fā)生,并且定位該目標(biāo)聲音出現(xiàn)的位置(即發(fā)生時(shí)間)。
圖1是小波包變換示意圖;圖2是13層小波包變換以及時(shí)頻域矩陣示意圖;圖3是步驟六得到的檢測與和識(shí)別結(jié)果{ α j}圖4是一種數(shù)據(jù)融合的方法中系數(shù){ α j}的變換示意圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)描述參見圖1-4,本發(fā)明欲解決的問題可以舉出如下一個(gè)例子說明,即就是從一段有著強(qiáng)的環(huán)境干擾聲音或噪聲的原始聲音中,檢測其中是否有目標(biāo)聲音發(fā)生,并且定位該目標(biāo)聲音出現(xiàn)的位置(即發(fā)生時(shí)間)。本發(fā)明的方法將通過如下文提到的技術(shù)部分予以實(shí)現(xiàn)。1目標(biāo)聲音的特征化表達(dá)方式。其目的是將目標(biāo)聲音通過該方法制作成特征模板以供后面的檢測和識(shí)別過程使用。2原始聲音的分幀處理。其目的是將待檢測和識(shí)別的原始聲音信號(hào)數(shù)據(jù)分割成為若干具有一定相互重疊的以幀為單位的數(shù)據(jù)。3幀信號(hào)的特征化表達(dá)方式。其目的是從幀數(shù)據(jù)中提取有用的特征序列。本方法與上文提到大目標(biāo)聲音的特征化表達(dá)方式非常相似,都是利用相同的聲音的特征化表達(dá)方法來計(jì)算該幀數(shù)據(jù)的特征序列,并將得到的特征序列提供給后面的算法使用。4基于背景抑制的信號(hào)處理方式。其目的是利用前面計(jì)算得到的目標(biāo)聲音特征模板和原始聲音特征序列,使用本處理方法抑制原始聲音中的背景干擾信號(hào)分量并增強(qiáng)其中的目標(biāo)聲音分量。5 一種信號(hào)檢出方式。其目的是進(jìn)一步增強(qiáng)背景抑制的效果,并兼顧考慮前后幀之間的影響。6—種數(shù)據(jù)融合方式。其目的是在信號(hào)檢出結(jié)果的基礎(chǔ)上,進(jìn)一步增加算法的魯棒性并同時(shí)保證算法的即時(shí)檢測效率。(1)目標(biāo)聲音的特征化表達(dá)方式對(duì)于目標(biāo)聲音信號(hào)來說,其特征化表達(dá)方法亦稱為目標(biāo)信號(hào)的模板化。由于聲音信號(hào)的頻譜中包含有大量的信息,所以根據(jù)不同的頻譜可以區(qū)分不同的聲音信號(hào)。特別是聲音信號(hào)的局部時(shí)頻能量&反映了原信號(hào)在該頻率范圍內(nèi)某時(shí)段的振動(dòng)能量大小,對(duì)于上文中提到的具有強(qiáng)烈能量特征的非平穩(wěn)聲音信號(hào)檢測和識(shí)別具有非常重要的意義??紤]到為了增加模板的魯棒性和降低模板對(duì)于數(shù)據(jù)初始位置的敏感性,我們首先通過滑動(dòng)窗口的方法將目標(biāo)聲音信號(hào)分成若干組滑動(dòng)窗結(jié)果。具體來說就是用一個(gè)大小為目標(biāo)信號(hào)長度(LEN)減去一定長度(Ien)的矩形窗(長度為LEN-len+Ι)依次向后位移一個(gè)數(shù)據(jù)的方法,將原本1個(gè)長度為LEN的目標(biāo)聲音信號(hào)濾波為Ien個(gè)長度為LEN-len+Ι的窗口目標(biāo)信號(hào)。接著,通過利用N層小波包變換的方法依次將每一個(gè)窗口目標(biāo)信號(hào)從時(shí)域轉(zhuǎn)換到時(shí)頻局域,從而得到Ien個(gè)窗口信號(hào)的時(shí)頻域矩陣。我們記第i個(gè)窗口信號(hào)的時(shí)頻域矩陣為{K’v I (μ = 1,2,…";ν = 2,···)}其中υ = 2Ν(下同)。注,本方法的N層小波包變換與目標(biāo)聲音模板化方法中提到的N層小波包變換相同。 然后按照如下公式一對(duì)該矩陣的每行求平方和,從而得到聲音信號(hào)的第i個(gè)窗口
號(hào)的特征向量耽|" = 1,2,···, /}
權(quán)利要求
1. 一種聲音信號(hào)檢測和識(shí)別的方法,其特征在于,包括以下步驟 步驟一,預(yù)處理過程首先利用目標(biāo)聲音的特征化表達(dá)方式將目標(biāo)聲音制作成目標(biāo)模板{aJu= l,2r··};接著將實(shí)時(shí)獲取的原始聲音信號(hào)進(jìn)行分幀,每一定長度的數(shù)據(jù)分成一幀,每幀之間重疊一定的長度;同時(shí)初始化計(jì)數(shù)器i為零,初始化最終檢測和識(shí)別量化結(jié)果 (Ri Ii = 1,2,…LENGTH}的每個(gè)元素為零,初始化加權(quán)系數(shù){a」i = 1,2,…M}的所有元素為零;其中LENGTH表示該待檢測聲音的數(shù)據(jù)長度。M表示一幀數(shù)據(jù)的長度。步驟二,幀數(shù)據(jù)的特征化通過分幀后原始聲音的特征化表達(dá)方式計(jì)算第i幀數(shù)據(jù)的特征向量 ISuIu = 1,2, ···};步驟三,基于背景抑制的處理方式將步驟一和步驟二得到的目標(biāo)模板IAJ和第i幀數(shù)據(jù)的特征向量{SJ通過基于背景抑制的方法進(jìn)行處理,以抑制第i幀數(shù)據(jù)中的背景噪音和干擾部分,從而得到處理結(jié)果序列;步驟四,信號(hào)檢出的過程利用信號(hào)檢出的方法對(duì)步驟三得到的處理結(jié)果序列進(jìn)行信號(hào)檢出,以進(jìn)一步抑制背景噪聲或干擾并同時(shí)補(bǔ)償由于原始信號(hào)非平穩(wěn)而造成的影響,從而得到檢出結(jié)果序列I χ = 1,2,…M};步驟五,數(shù)據(jù)融合利用數(shù)據(jù)融合的方法對(duì)檢出結(jié)果序列{《Ι進(jìn)行加權(quán)處理,依據(jù)每一幀的數(shù)據(jù)結(jié)果和檢測的即時(shí)性,從而得到一個(gè)用于判斷最終結(jié)果的統(tǒng)一的相似度量化序列 {RuIu = 1,2,…};步驟六,遍歷每幀數(shù)據(jù)首先判斷當(dāng)前相似度量化序列{RJ中是否有元素大于某一預(yù)先設(shè)定的閾值T,如果是則輸出該元素的位置;然后更新計(jì)數(shù)器? = + + ι并且重復(fù)上面步驟二到步驟六,直至遍歷所有幀數(shù)據(jù);通過以上的六個(gè)步驟后的算法輸出結(jié)果就是從原始聲音中檢測和識(shí)別到的目標(biāo)聲音發(fā)生的位置。
全文摘要
本發(fā)明涉及一種聲音信號(hào)檢測和識(shí)別的方法,公開了一種主要基于聲音特征化表達(dá)、背景抑制算法、信號(hào)檢出和數(shù)據(jù)融合這四個(gè)過程的聲音檢測和識(shí)別方法。其中聲音信號(hào)特征化表達(dá)的方法是基于聲音頻譜能量和分布進(jìn)行計(jì)算的;背景抑制算法,是根據(jù)聲音的相似度加權(quán)值對(duì)聲音的頻域進(jìn)行濾波進(jìn)行計(jì)算的;信號(hào)檢出是通過對(duì)能量歸一化的數(shù)據(jù)與抑制后數(shù)據(jù)求差來進(jìn)行計(jì)算的;最后,數(shù)據(jù)融合是通過變參數(shù)加權(quán)的方式一方面避免因分幀造成的延時(shí)效應(yīng)從而保證即時(shí)性,另一方面抵消非平穩(wěn)背景的干擾,從而提高魯棒性。該聲音信號(hào)檢測和識(shí)別方法識(shí)別精度高,能夠有效的避免背景干擾的影響,即便在極低的信噪比情況下亦可以達(dá)到滿意的檢測和識(shí)別結(jié)果。
文檔編號(hào)G10L11/00GK102419972SQ20111038310
公開日2012年4月18日 申請(qǐng)日期2011年11月28日 優(yōu)先權(quán)日2011年11月28日
發(fā)明者馮祖仁, 劉振, 程欣, 贠光梅, 郭文濤, 高紫晨 申請(qǐng)人:西安交通大學(xué)