本發(fā)明屬于聲音信號識別
技術(shù)領(lǐng)域:
,尤其涉及一種基于時頻域統(tǒng)計特征提取的自然環(huán)境聲音識別方法。
背景技術(shù):
:近年來自然環(huán)境聲音的識別取得了廣泛的關(guān)注,自然環(huán)境中充滿了多種聲音,如車輛行駛中的發(fā)動機(jī)聲和汽車?yán)嚷?,建筑工地上的施工聲音,人的說話聲,鳥蟲鳴叫聲,風(fēng)雨聲等。自然環(huán)境聲音的識別是機(jī)器監(jiān)控的一個重要部分,對建設(shè)智慧城市和發(fā)展智能家居也有重要的作用。目前的自然環(huán)境聲音識別技術(shù),在特征提取方面使用的技術(shù)大多借鑒于語音識別算法,包括:線性預(yù)測倒譜系數(shù)(LPCC)、梅爾頻率倒譜系數(shù)(MFCC)、過零率(ZCR)等。但此類特征用于語音信號的識別,是以語音的短時平穩(wěn)性為基礎(chǔ)的,自然環(huán)境中的聲音卻并非都具有短時平穩(wěn)性。同時,由于聲音信號在傳播中的的衰減效應(yīng),單一的時域特征如LPCC、ZCR或者單一的頻域特征如MFCC,都不能夠準(zhǔn)確的描述不同距離下的自然環(huán)境聲音信號。因此,語音識別的特征提取方法,在對自然環(huán)境聲音的識別方面并不能完全適用。技術(shù)實現(xiàn)要素:針對目前存在如以上所述的技術(shù)問題,本發(fā)明提供了一種基于時頻域統(tǒng)計特征提取的自然環(huán)境聲音識別方法。針對不同聲音信號如發(fā)動機(jī)聲、汽車?yán)嚷?、建筑施工聲、說話聲等,根據(jù)其能量隨時間變化程度的區(qū)別和頻譜能量分布上的區(qū)別,對各類自然環(huán)境中的聲音進(jìn)行識別,判斷目標(biāo)聲音所屬的類別。為了實現(xiàn)上述目的,本發(fā)明采用技術(shù)方案包括如下步驟:步驟1、采集各類自然環(huán)境聲音,建立聲音樣本庫;步驟2、聲音樣本信號的加窗分幀處理;步驟3、提取所有幀信號在時域上的統(tǒng)計特征:平均幀能量變化系數(shù)、能量沖擊型幀信號占比、平均能量脈沖寬度、脈沖寬度離散程度、平均脈沖間隔寬度、間隔寬度離散程度和脈沖個數(shù),以及在頻譜分布上的特征:頻帶能量分量占比、頻帶幀能量分布離散程度和總頻帶幀能量分布離散程度,組成特征向量;步驟4、標(biāo)記特征向量所屬聲音來源的種類,建立樣本特征庫;步驟5、利用支持向量機(jī)訓(xùn)練特征向量,建立訓(xùn)練模型;步驟6,提取目標(biāo)聲音的特征向量;步驟7、利用支持向量機(jī)對目標(biāo)聲音的特征向量進(jìn)行匹配分類;步驟8、提供識別結(jié)果。所述步驟1的建立聲音樣本庫:將聲音采集裝置放置在戶外施工現(xiàn)場,按照不同的距離采集自然環(huán)境聲音,并給聲音標(biāo)定其所屬自然環(huán)境聲音的種類后作為聲音樣本庫。自然環(huán)境聲音包括:發(fā)動機(jī)聲、汽車?yán)嚷暋⒔ㄖ┕ぢ?、說話聲和現(xiàn)場風(fēng)噪聲。所述步驟2的聲音樣本信號的加窗分幀處理:首先對聲音進(jìn)行濾波處理,使用高通濾波器濾除50Hz以下的低頻干擾信號;再將聲音分為一秒鐘每段,對每一段聲音加Hamming窗做分幀處理,每幀選取256個采樣點(diǎn),為了保持幀信號間的連續(xù)性,幀移選取為128個采樣點(diǎn)。所述步驟3的所有幀信號在時域上的統(tǒng)計特征提取過程如下:3-1.設(shè)fs為采樣頻率,每秒的連續(xù)聲音信號s(t)經(jīng)過采樣后離散化為s[n],設(shè)對每秒信號進(jìn)行分幀處理的幀長為N,幀移為總幀數(shù)為NF。則第i幀信號si(n)的短時幀能量計算公式為:Ei=Σn=0N-1si2(n)]]>3-2.對所有幀能量中位值以下的幀能量取平均值,記為Emed-ave,則:Emed-ave={1NlowerΣlEl|El<Emedian}]]>其中Emedian為所有幀能量的中位值,而Nlower為能量在中位值以下的幀的個數(shù),El表示中位值以下的幀能量。3-3.對信號s[n]做傅里葉變換,得到頻譜分布信息,短時傅里葉變換的公式為:Si(k)=Σn=0N-1si(n)e-j2nπNk,k=0,...N-1]]>其中,Si(k)是第i幀信號si(n)的STFT。3-4.根據(jù)不同種類的自然環(huán)境聲音在每幀時域能量和頻譜分布上的特點(diǎn),取其統(tǒng)計值作為每段聲音的特征。每幀信號時域能量幀能量變化系數(shù)公式表示為它反映的是幀信號的能量沖擊程度。為使各類自然環(huán)境聲音之間具有區(qū)別性,濾除低于幀能量平均值的幀后,取所有幀信號的平均幀能量變化系數(shù)作為特征I,即其中,為所有幀能量的平均值,mean(·)為對集合中的元素求平均值。3-5.根據(jù)不同聲音信號的特點(diǎn),設(shè)定一個幀能量沖擊系數(shù)的閾值T,將信號分為能量沖擊型幀信號和非沖擊型幀信號,濾除低于幀能量平均值的幀后,統(tǒng)計一段自然環(huán)境聲音的沖擊型能量幀信號所占比例,作為特征II,即crad({Ei|EiEmed-ave>T})crad({Ei|Ei>Eave})]]>其中,Eave表示所有幀能量的平均值,crad(·)表示求集合中元素的個數(shù)。由于不同的聲音信號能量波形具有不同的脈沖特性,利用平均幀能量截取信號的能量波形,即高于平均能量的幀用平均能量替代,截取后的幀能量公式為:ETr,i=EaveifEi≥EaveEiifEi<Eave]]>3-6.對將被截斷的各幀的序號存入一個向量a,a中的數(shù)值是遞增的,即a(k)<a(k+1)。計算da(k)=a(k+1)-a(k),k=1,…,K-1,其中,K是被截斷的幀的總個數(shù)。根據(jù)定義,將da表示為其中,為li維向量,表示有l(wèi)i個1,而Δi>1是截斷能量幀的不連續(xù)點(diǎn),i=1,…I是1-vector的數(shù)量,即這段信號的脈沖數(shù)量。因此脈沖的寬度脈沖之間的間隔寬度3-7.計算所有脈沖的寬度均值作為特征III,即mean(TERda);計算所有脈沖之間的間隔寬度的平均值作為特征IV,即mean(IoPda);計算所有脈沖的寬度變異系數(shù)作為特征V,即計算所有脈沖間隔寬度的變異系數(shù)作為特征VI,即計算所有脈沖的個數(shù)作為特征VII,即I。由于不同聲音信號的頻譜分布不同,其能量集中在不同的頻帶上,因此將每幀信號按照頻率劃分為三個頻帶,分別記為[k1,k2]、[k3,k4]、[k5,k6],整段信號s(n)在第k頻帶的能量公式為:Ek1,k2=Σi=1NFΣk=k1k2Efre(i)(k)]]>其中,為短時傅里葉變換后,第i幀信號在第k頻帶的能量分量。信號s(n)在所有頻帶的總能量為:Eall=Σi=1NFΣk=1N2Efre(i)(k)]]>因此能夠計算第一個頻帶的能量占總頻帶比重,作為一段聲音信號的特征VIII,即計算第二個頻帶能量占總能量的比重作為特征IX,即計算第三個頻帶能量占總能量的比重作為特征X,即由于不同聲音信號頻譜特性,一段聲音信號中,如說話聲,建筑施工聲的幀能量之間有高低間隔的情況出現(xiàn),而發(fā)動機(jī)的幀能量近似平均,即不同聲音信號幀能量的離散程度不同,且在不同頻帶有區(qū)別。因此,為了反映各類聲音的在不同幀信號之間的各頻帶和總能量上分布的離散程度,計算總頻帶所有幀能量的變異系數(shù)作為特征XI,即計算第一個頻帶所有幀能量的變異系數(shù)作為特征XII,即計算第二個頻帶所有幀能量的變異系數(shù)作為特征XIII,即計算第三個頻帶所有幀能量的變異系數(shù)作為特征XIV,即將以上14個特征組成一個14維向量,作為一段聲音信號的特征向量。步驟4的建立樣本特征庫:從聲音樣本庫中提取每一類自然環(huán)境聲音樣本的特征,并給每類聲音的特征標(biāo)定其所屬種類。所述步驟5的建立訓(xùn)練模型:是利用支持向量機(jī)對樣本特征庫進(jìn)行訓(xùn)練,得到訓(xùn)練模型。所述步驟6的提取目標(biāo)聲音特征向量:目標(biāo)聲音的特征提取和使用和樣本聲音特征提取完全相同的過程。所述步驟7的匹配分類:利用支持向量機(jī)對目標(biāo)聲音的特征向量與訓(xùn)練模型進(jìn)行模式匹配,給出判斷結(jié)果。本發(fā)明的有益效果如下:本發(fā)明的基于時頻域統(tǒng)計特征提取的自然環(huán)境聲音識別方法,由聲音的特性入手,在短時幀分析的基礎(chǔ)上,提取幀信號在時域和頻譜上的特征,彌補(bǔ)了傳統(tǒng)的聲音LPCC和MFCC特征提取方法在時頻結(jié)合方面的不足,滿足自然環(huán)境聲音的識別要求。利用本發(fā)明的基于時頻域統(tǒng)計特征提取的自然環(huán)境聲音識別方法能夠提高識別效果。附圖說明圖1為本發(fā)明方法流程圖;圖2為本發(fā)明方法中的特征提取流程圖;具體實施方式下面結(jié)合的具體實施方式對本發(fā)明作詳細(xì)說明,以下描述僅作為示范和解釋,并不對本發(fā)明作任何形式上的限制。如圖1和2所示,基于時頻域統(tǒng)計特征提取的自然環(huán)境聲音(如:發(fā)動機(jī)聲,汽車?yán)嚷?,建筑施工聲,說話聲)識別方法具體實施方式的步驟如下:步驟1、將采樣頻率為fs的聲音采集裝置放置在距離聲源點(diǎn)不同距離處,多次采集每類自然環(huán)境的聲音,標(biāo)定聲音所屬類型后作為聲音樣本庫。步驟2、將聲音樣本進(jìn)行預(yù)處理,通過高通濾波器,濾除50Hz以下的低頻干擾信號,再將聲音分幀為分為一秒鐘每段,并對每段信號加Hamming窗做分幀處理,每幀選取256個采樣點(diǎn),幀移選取為128個采樣點(diǎn)。步驟3、組成樣本特征向量步驟,分析每幀信號在時域及頻譜上的特性,選取分析結(jié)果的統(tǒng)計值作為特征組成特征向量,具體分步操作如下:(1)每秒的連續(xù)聲音信號s(t)經(jīng)過采樣后離散化為s[n],對每秒信號進(jìn)行分幀處理的幀長為N,幀移為總幀數(shù)為NF。第i幀信號si(n)的短時幀能量為對所有幀能量中位值以下的幀能量取平均值,記為Emed-ave,則其中Emedian為所有幀能量的中位值,而Nlower為能量在中位值以下的幀的個數(shù),El表示中位值以下的幀能量。對信號做短時傅里葉變換:其中,Si(k)是第i幀信號si(n)的STFT,得到信號頻譜分布信息。(2)計算每幀的能量變化系數(shù):統(tǒng)計一段聲音內(nèi)的幀能量沖擊程度的平均值:作為特征I;(3)選取能量大于Emed-ave的所有幀信號,幀能量變化系數(shù)的閾值以設(shè)定4.1為例,將選取的幀信號分為能量沖擊型幀和非能量沖擊型幀,統(tǒng)計一段聲音中能量沖擊型幀信號所占的比例:作為特征量II;(4)取所有幀能量的平均值Eave,用Eave截取幀能量波形,得到截取的幀能量:將被截斷的各幀的序號存入一個向量a,計算da(k)=a(k+1)-a(k),k=1,…,K-1,其中,K是被截斷的幀的總個數(shù)。將da表示為這種形式:其中,為li維向量,表示有l(wèi)i個1,而Δi>1是截斷能量幀的不連續(xù)點(diǎn),i=1,…I是1-vector的數(shù)量,即這段信號的脈沖數(shù)量。因此截取脈沖的寬度截取脈沖之間的間隔寬度計算所有脈沖的寬度均值:作為特征III;計算所有脈沖之間的間隔寬度的平均值作為特征IV;計算所有脈沖寬度的變異系數(shù):作為特征V;計算所有脈沖間隔寬度的變異系數(shù):作為特征VI;計算所有脈沖的個數(shù):I,作為特征VII。(5)計算短時傅里葉變換后,第i幀信號在第k頻帶的能量分量:信號s(n)在所有頻帶的總能量:將信號劃分為[k1,k2]、[k3,k4]、[k5,k6]三個頻帶,計算整段信號s(n)在第k頻帶的能量:計算第一個頻帶的能量占總頻帶比重:作為一段自然環(huán)境聲音信號的特征VIII;計算第二個頻帶能量占總能量的比重:作為特征IX;計算第三個頻帶能量占總能量的比重作為特征X。計算總頻帶所有幀能量的變異系數(shù):作為特征XI;計算第一個頻帶所有幀能量的變異系數(shù):作為特征XII;計算第二個頻帶所有幀能量的變異系數(shù):作為特征XIII;計算第三個頻帶所有幀能量的變異系數(shù):作為特征XIV。將以上14個特征組成14維向量,作為一段聲音信號的特征向量。步驟4、提取所有類型聲音的特征向量,標(biāo)定所屬種類,建立樣本聲音的特征向量庫;步驟5、利用支持向量機(jī)對樣本特征庫進(jìn)行分類訓(xùn)練,建立訓(xùn)練模型;步驟6、使用與樣本聲音同樣的采集裝置采集目標(biāo)聲音,按照與聲音樣本同樣的步驟提取目標(biāo)聲音的特征向量;步驟7、利用支持向量機(jī)將目標(biāo)聲音的特征向量與已建立的訓(xùn)練模型做匹配,提供分類結(jié)果;步驟8、目標(biāo)聲音識別結(jié)果步驟,根據(jù)支持向量機(jī)提供的分類結(jié)果判斷目標(biāo)聲音所屬的來源種類。當(dāng)前第1頁1 2 3