本發(fā)明涉及一種聲音信號處理技術(shù),具體涉及公共場所異常聲音檢測方法。
背景技術(shù):
:防止威脅公共安全事件的發(fā)生是公共場所安全防范的主要目標(biāo)之一。由于公共安全事件的發(fā)生常常伴有爆炸聲、尖叫聲、槍聲、玻璃破碎聲等各種異常聲音,因此檢測并識別聲音信號中的異常聲音對公共場所安全智能監(jiān)控具有重要作用。公共場所異常聲音檢測的目的是從聲音信號中檢測出公共安全事件發(fā)生時產(chǎn)生的爆炸聲、尖叫聲、槍聲、玻璃破碎聲等異常聲音片段,是一個二分類問題。目前,常用的異常聲音檢測方法為先利用信號端點檢測技術(shù)從輸入聲音信號中分離出聲音信號片段,然后提取該片段的特征,最后利用模式分類方法對特征進(jìn)行分類,實現(xiàn)異常聲音的檢測。這種方法存在的不足主要表現(xiàn)在:(1)分類模型是預(yù)先訓(xùn)練好的,訓(xùn)練模型時使用的場景聲音樣本數(shù)量有限,導(dǎo)致模型可能無法準(zhǔn)確描述場景變化;(2)訓(xùn)練分類模型時場景聲音樣本數(shù)量遠(yuǎn)大于異常聲音樣本數(shù)量,這種樣本的不平衡會造成分類模型決策邊界的不準(zhǔn),導(dǎo)致異常聲音檢測的準(zhǔn)確性降低;(3)對信號片段進(jìn)行分類前利用端點檢測技術(shù)分離聲音信號片段,需要占用較多的存儲空間且處理的實時性不高。技術(shù)實現(xiàn)要素:為了解決上述問題,本發(fā)明從背景建模的角度出發(fā),給出了一種基于場景建模的公共場所異常聲音檢測方法。本發(fā)明提出的公共場所異常聲音檢測方法是針對公共場所的聲音信號,首先對信號進(jìn)行分幀處理,計算每幀信號的平均幅值;然后根據(jù)場景聲音幀相對異常聲音幀平均幅值小,波動范圍較窄的統(tǒng)計特性,針對不同場景建立高斯混合模型,形成各場景相應(yīng)的場景模型;最后求取待測聲音信號與場景模型的似然度,通過設(shè)置似然度閾值與場景模型進(jìn)行似然度匹配,再基于多數(shù)投票原則和最小連續(xù)幀數(shù)的閾值條件判定待測聲音幀是否為異常聲音,實現(xiàn)異常聲音的檢測。本發(fā)明方案具體包括場景建模和異常聲音檢測兩個部分。(1)場景建模的過程為:(1.1)對訓(xùn)練數(shù)據(jù)中的場景聲音樣本和異常聲音樣本進(jìn)行分幀處理,計算每幀聲音信號的平均幅值。(1.2)建立表征場景的高斯混合模型。首先,將訓(xùn)練數(shù)據(jù)中每幀場景聲音樣本的平均幅值作為建模的輸入,利用期望最大化迭代算法進(jìn)行訓(xùn)練,確定高斯混合模型參數(shù),生成適應(yīng)該場景的高斯混合模型;然后,利用訓(xùn)練數(shù)據(jù)中已知類別信息的場景聲音樣本和異常聲音樣本對建立的場景模型進(jìn)行評估,基于等錯誤率原則確定場景模型的似然度閾值。為了使異常聲音檢測對各類公共場所的場景具有適應(yīng)性,本發(fā)明對不同的場景分別建立獨立的高斯混合場景模型;在進(jìn)行異常聲音檢測時,根據(jù)應(yīng)用場景的不同選擇不同的場景模型。(2)對待測聲音信號進(jìn)行異常聲音檢測的過程包括以下步驟:(2.1)對輸入的待測聲音信號進(jìn)行分幀處理,計算每幀聲音信號的平均幅值。(2.2)根據(jù)應(yīng)用場景的不同選擇不同的場景模型,計算每幀聲音信號與場景模型的似然度。似然度的計算方法為:在已建立場景模型的基礎(chǔ)上,將每幀聲音信號的平均幅值作為其概率密度函數(shù)的輸入,計算該幀聲音信號與場景模型中每個單高斯模型的似然度,并進(jìn)一步根據(jù)每個單高斯模型的權(quán)值計算其與整個場景模型的似然度。(2.3)對每幀聲音信號進(jìn)行似然度匹配,實現(xiàn)異常聲音檢測。似然度匹配的方法:首先,通過當(dāng)前幀信號似然度與場景模型似然度閾值的比較,初步判定當(dāng)前幀聲音信號為異常聲音信號的可能性,當(dāng)似然度小于似然度閾值時則初步判定當(dāng)前幀信號為異常聲音信號,否則為場景聲音信號;然后,結(jié)合前一幀信號、當(dāng)前幀信號和后一幀信號的初步判定結(jié)果,采用多數(shù)投票原則確定當(dāng)前幀信號的類型。最后,通過對異常聲音片段長度的統(tǒng)計分析,設(shè)置最小連續(xù)幀數(shù)閾值條件,基于該閾值濾除部分類似于異常聲音的較短場景聲音片段,檢測出待測聲音信號中的異常聲音信號。本發(fā)明的優(yōu)點在于:(1)對不同的場景建立不同的場景模型,克服了現(xiàn)有方法場景適應(yīng)性差的缺點;(2)僅對場景進(jìn)行建模,可以避免由于場景聲音樣本與異常聲音樣本不平衡而導(dǎo)致的檢測不準(zhǔn)確問題;(3)不需要利用端點檢測來獲得聲音事件,檢測的實時性和效率較高,占用存儲空間較少。附圖說明圖1本發(fā)明方案的整體框圖;圖2本發(fā)明方案中的場景建模圖;圖3本發(fā)明方案中的異常聲音檢測過程圖。具體實施方式下面結(jié)合附圖,對本發(fā)明的具體實施方式作進(jìn)一步的闡述。圖1為本發(fā)明方案的整體框圖,具體涉及一種基于場景建模的公共場所異常聲音檢測方法。該方法針對公共場所的聲音信號,首先對場景音信號和待測聲音信號進(jìn)行預(yù)處理,即對信號進(jìn)行分幀處理,并計算每幀信號的平均幅值;然后根據(jù)場景聲音幀相對異常聲音幀平均幅值小,波動范圍較窄的統(tǒng)計特性,用EM算法訓(xùn)練場景音信號,建立適應(yīng)于該場景的高斯混合模型,形成該場景的場景模型;最后計算待測聲音信號與場景模型的似然度,并進(jìn)行似然度匹配得出檢測結(jié)果,即先將所得似然度與場景模型的似然度閾值進(jìn)行比較,再基于多數(shù)投票原則和最小連續(xù)幀數(shù)的閾值條件判定待測聲音幀是否為異常聲音,實現(xiàn)異常聲音的檢測。本發(fā)明方案使用的聲音信號是采樣頻率為16kHz,采樣位數(shù)為16bit的公共場所聲音,其中包含公共場所的多個場景聲音以及其中可能存在的多種偶發(fā)異常聲音。公共場所的場景聲音由于其分布范圍廣,隨機(jī)性大,其聲音信號服從正態(tài)分布,特點為能量較小,能量波動范圍較窄。而異常聲音的能量比場景聲音大,且分布比較集中,通過對公共場所中的場景聲音建立模型,將待測聲音信號與場景模型進(jìn)行匹配,能夠根據(jù)異常聲音與場景聲音的差異檢測出公共場所中偶發(fā)的異常聲音。本發(fā)明方案主要包括場景建模和異常聲音檢測兩個部分。圖2為本發(fā)明方案中的場景建模圖,具體步驟為:(1)對訓(xùn)練數(shù)據(jù)中的場景聲音樣本和異常聲音樣本進(jìn)行分幀處理,計算每幀聲音信號的平均幅值。(2)建立表征場景的高斯混合模型。在步驟(1)中,對聲音信號分幀的幀長為8ms,幀移為8ms,相鄰兩幀之間不重疊。對于聲音信號中的第i幀信號xi(m)平均幅值的計算公式為:其中xi表示第i幀信號的平均幅值,N為一幀聲音信號中的數(shù)據(jù)點個數(shù)。步驟(2)中,對于公共場所的某個場景,利用場景聲音建立表征場景的高斯混合模型的過程為:將訓(xùn)練數(shù)據(jù)中每幀場景聲音樣本的平均幅值作為建模的輸入,利用期望最大化迭代算法進(jìn)行訓(xùn)練,確定高斯混合模型參數(shù),從而生成適應(yīng)該場景的高斯混合模型。在該模型中,設(shè)單高斯模型的個數(shù)為M,每個單高斯模型的均值、方差矩陣分別為μj,Cj,j=1,2,…M,輸入數(shù)據(jù)為一幀場景聲音的平均幅值xi,那么該高斯混合模型為:p(xi)=Σj=1MαjNj(xi;μj,Cj)]]>其中,αj為每個高斯分量所占的權(quán)重系數(shù),滿足:Σj=1Mαj=1]]>Nj(xi;μj,Cj)為每個高斯分量的概率密度函數(shù),表示一幀信號與每個單高斯的似然度,定義為:Nj(xi;μj,Cj)=1(2π)n|Cj|exp[-12(xi-μj)TCj-1(xi-μj)]]]>為了確定該高斯混合模型,即要確定每個單高斯的權(quán)重系數(shù)、均值、方差矩陣,本發(fā)明采用期望最大化訓(xùn)練算法,通過計算高斯混合模型的對數(shù)似然函數(shù)的最大值,即可確定上述參數(shù)。高斯混合模型的對數(shù)似然函數(shù)為:p(xi)=Σi=1nlog{Σj=1MαjNj(xi;μj,Cj)}]]>期望最大化(EM)算法的流程為:1)初始化由k均值聚類算法對樣本進(jìn)行聚類,初始化一組參數(shù),利用每個高斯分量的均值和方差矩陣作為μj0,Cj0,αj0為每個高斯分量所占的權(quán)重系數(shù);2)估計步驟在高斯混合模型中估計輸入樣本數(shù)據(jù)由各個單高斯模型生成的概率,即輸入樣本的后驗概率為:βij=αjNj(xi;Φ)Σk=1MαjNk(xi;Φ),1≤i≤n,1≤j≤M]]>其中,βij為輸入樣本屬于第j個高斯分量的后驗概率,n為樣本個數(shù),M為單高斯分量個數(shù),N為每個高斯分量的概率密度函數(shù),α為每個高斯分量所占的權(quán)重系數(shù),Φ表示高斯模型中的各個參數(shù)。3)最大化步驟最大化高斯混合模型的對數(shù)似然函數(shù)來更新權(quán)值、均值和方差矩陣,公式如下:更新權(quán)值:αj=Σi=1NβijN]]>其中,βij為輸入樣本屬于第j個高斯分量的后驗概率,N為每個高斯分量的概率密度函數(shù)。更新均值:μj=Σi=1NxiβijΣi=1Nβij]]>其中,xi為輸入樣本,βij為輸入樣本屬于第j個高斯分量的后驗概率。更新方差矩陣:cj=Σi=1Nβij(xi-μjT)(xi-μjT)TΣi=1Nβij]]>其中,βij為輸入樣本屬于第j個高斯分量的后驗概率,xi為輸入樣本,μj為每個高斯分量的均值。4)確定收斂條件不斷地迭代E和M步驟,重復(fù)更新上面三個值,直到滿足條件:|P(X|Φ)-P(X|Φ)'|<ε即前后兩次迭代得到的結(jié)果變化小于一定程度則終止迭代,其中P為輸入樣本在高斯混合模型中的似然度,Φ表示高斯模型中的各個參數(shù),通常ε<10-5。通過上述期望最大化迭代算法確定高斯混合模型各個高斯分量的參數(shù),從而完成該場景的高斯混合模型建立。然后對場景模型設(shè)置似然度閾值,該閾值用來初步判定該幀聲音信號的類型為異常聲音還是場景聲音。滿足閾值時初步判定該幀聲音信號為異常聲音信號,用1表示,否則為場景聲音信號,用0表示。似然度閾值確定方法為:利用訓(xùn)練數(shù)據(jù)中已知類別信息的場景聲音樣本和異常聲音樣本對建立的場景模型進(jìn)行評估,基于等錯誤率原則確定場景模型的似然度閾值。上述過程完成了公共場所中的某一個場景對應(yīng)的場景模型的建立過程,為了使異常聲音檢測對各類公共場所的場景具有適應(yīng)性,本發(fā)明對公共場所的不同場景分別建立獨立的高斯混合場景模型;在進(jìn)行異常聲音檢測時,根據(jù)應(yīng)用場景的不同選擇不同的場景模型。圖3為本發(fā)明方案中的異常聲音檢測過程圖,主要包括以下幾個步驟:(1)對待測聲音信號進(jìn)行分幀預(yù)處理,計算每幀聲音信號的平均幅值;(2)計算每幀信號與場景模型的似然度;(3)對每幀聲音信號進(jìn)行似然度匹配,實現(xiàn)異常聲音檢測。在步驟(1)中,本發(fā)明設(shè)置一幀待測聲音信號的幀長為8ms,幀移為8ms,相鄰兩幀之間不重疊,平均幅值計算方法與圖2場景建模過程中的方法相同。在步驟(2)中,對于第k幀聲音信號xk(m),設(shè)其平均幅值為xk,通過以下公式計算一幀聲音信號與場景模型中每個單高斯模型的似然度以及與該場景模型的似然度:Pixj(xk;μj,Cj)=1(2π)n|Cj|exp[-12(xk-μj)TCj-1(xk-μj)]]]>P=Σj=1MαjPixj(xk;μj,Cj)]]>其中,αj,μj,Cj為場景模型中每個單高斯模型的權(quán)值、均值和協(xié)方差矩陣,M為場景模型中單高斯模型的個數(shù),Pixj為該幀聲音信號與場景模型中每個單高斯模型的似然度,P為該幀聲音信號與該場景模型的似然度。在步驟(3)中,通過當(dāng)前幀信號似然度與場景模型似然度閾值的比較,初步判定當(dāng)前幀聲音信號為異常聲音信號的可能性,當(dāng)似然度小于似然度閾值時則初步判定當(dāng)前幀信號為異常聲音信號,用1表示,否則為場景聲音信號,用0表示。在步驟(3)中,在似然度閾值初步判定每幀信號類型的基礎(chǔ)上,再采用連續(xù)幀數(shù)投票原則進(jìn)一步來確定當(dāng)前幀信號為場景聲音還是異常聲音。連續(xù)幀數(shù)投票原則的判定方法為:設(shè)前一幀信號、當(dāng)前幀聲音信號、后一幀信號的初始類型分別為(為0或1),根據(jù)以下公式判定當(dāng)前幀的最后類型Tk:Tk=1,ifsum(T‾k-1+T‾k+T‾k+1)≥20,else]]>當(dāng)Tk為1時,判定該幀信號為異常聲音,為0時判定為場景聲音。在步驟(3)中,確定每一幀信號的類型后,通過對異常聲音片段長度的統(tǒng)計分析,設(shè)置最小連續(xù)幀數(shù)篩選閾值,基于該閾值濾除部分類似于異常聲音的較短場景聲音片段,檢測出待測聲音信號中完整的異常聲音。本發(fā)明的優(yōu)點在于:(1)對不同的場景建立不同的場景模型,克服了現(xiàn)有方法場景適應(yīng)性差的缺點;(2)僅對場景進(jìn)行建模,可以避免由于場景聲音樣本與異常聲音樣本不平衡而導(dǎo)致的檢測不準(zhǔn)確問題;(3)不需要利用端點檢測來獲得聲音事件,檢測的實時性和效率較高,占用存儲空間較少。為了驗證本發(fā)明所述異常聲音檢測方法的性能,在家庭,辦公室,ATM,銀行,商店等5個場景下分別進(jìn)行了實驗。首先,選取每個場景下時長為一小時的場景聲音數(shù)據(jù)訓(xùn)練并建立該場景的高斯混合模型;然后,選取每個場景下除訓(xùn)練數(shù)據(jù)外的時長為一小時的場景聲音作為測試數(shù)據(jù),在測試數(shù)據(jù)中隨機(jī)疊加200個槍聲、爆炸聲、玻璃破碎聲和尖叫聲等異常聲音,形成待測數(shù)據(jù)。通過對該待測數(shù)據(jù)進(jìn)行測試,計算本發(fā)明所述異常聲音檢測方法的誤檢率和漏檢率。表1所示為本發(fā)明方法的實驗結(jié)果。表1本發(fā)明方案實驗結(jié)果場景類型漏檢率誤檢率家庭0.50%0辦公室0.50%0ATM8.00%9.50%銀行5.00%5.00%商店6.50%6.50%實驗結(jié)果表明:本發(fā)明方法在不同場景下對異常聲音檢測的漏檢率和誤檢率均低于10%,其中家庭、辦公室等場景相對于銀行、商店等場景具有更低的漏檢率和誤檢率。與現(xiàn)有異常聲音檢測方法相比,本發(fā)明所述異常聲音檢測方法對公共場所異常聲音檢測具有更低的錯誤率和更好的場景適應(yīng)性,能夠適應(yīng)不同場景的應(yīng)用。當(dāng)前第1頁1 2 3