專利名稱::一種聲像聯(lián)合的監(jiān)控方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于一種工業(yè)環(huán)境監(jiān)控技術(shù),特別地,涉及一種聲像聯(lián)合的監(jiān)控方法及系統(tǒng)。
背景技術(shù):
:目前工業(yè)環(huán)境下使用的視頻監(jiān)控設(shè)備主要由視頻攝像頭和監(jiān)控顯示終端組成,通過值班員對監(jiān)控場所的各個場景的持續(xù)、循環(huán)的査看,判斷異常情況。近些年,隨著圖像處理技術(shù)的進步,具有一定智能分析功能的視頻實時分析系統(tǒng)也得到成功的應(yīng)用。例如利用連續(xù)幀的對比,判斷視頻場景內(nèi)是否存在運動物體,來提醒值班人員的注意力;或者通過添加紅外探測裝置,判斷是否有人或車輛的存在等等。這些措施不同程度地幫助值班人員提高警惕,提升監(jiān)控力度。但目前使用的視頻監(jiān)控設(shè)備絕大多數(shù)缺乏聲音監(jiān)控功能,即使有極少數(shù)的監(jiān)控系統(tǒng)提供了聲音傳輸通道,供值班人員在必要時切換到相應(yīng)的通道進行監(jiān)聽,但因為現(xiàn)有技術(shù)條件下監(jiān)控人員根本來不及監(jiān)聽各個位置的聲音,因此應(yīng)用很不充分,存在著"看得見,聽不著"的問題。在多個視場頻繁切換的過程中,值班人員容易疲勞,也難以辨認有安全隱患的地點。而另一方面,根據(jù)調(diào)查,現(xiàn)實中絕大部分的事故、災(zāi)難發(fā)生前都有大量的、早期的聲音信息可供預警。單純的視頻監(jiān)控受到功能、視角的限制難以奏效,貽誤救援時機。
發(fā)明內(nèi)容本發(fā)明要提供一種聲像聯(lián)合的監(jiān)控方法及系統(tǒng),以克服現(xiàn)有技術(shù)存在的僅使用視頻監(jiān)控值班人員容易疲勞,難以辨認有安全隱患的地點,同時視頻監(jiān)控受到功能、視角的限制難以奏效,導致不能及時發(fā)現(xiàn)隱患,貽誤救援時機的問題。為克服現(xiàn)有技術(shù)存在的問題,本發(fā)明的技術(shù)方案是一種聲像聯(lián)合的監(jiān)控方法,是采用聲音信號與視頻信號同時使用來進行環(huán)境監(jiān)測,利用聲音信號的識別結(jié)果引導值班人員有選擇地觀察視頻窗口,幫助值班人員對重點、嫌疑區(qū)域進行重點觀測;聲音信號的處理首先包括特征提取、模型訓練、聲音分類、在線學習這些步驟,最后為危險等級評估步驟一、特征提取步驟(a)短時特征選取MFCC的階數(shù)為L時,特征向量可表示為,M=[C|,c2,A,c,](b)全局特征提取以下的特征,它們各自的數(shù)學定義如下,設(shè)待處理的聲音單元被分為N個幀,T^(^A,A,pJ是各個幀的基頻其中k為本段數(shù)據(jù)中存在基頻的幀數(shù)。1)基頻的均值<formula>formulaseeoriginaldocumentpage6</formula>2)基步員變f七率w2=max(p2-p1,p3-p2,A,Pk-Pk-1)3)基頻的標準離差<formula>formulaseeoriginaldocumentpage6</formula>4)含基頻聲音所占比例w4=|5)最長含基音聲音長度w5(單位是幀)6)聲音平均能量<formula>formulaseeoriginaldocumentpage6</formula>,其中Ei(i=l,2,…,N)是第i幀的聲音能量。7)聲音強度的標準離差<formula>formulaseeoriginaldocumentpage6</formula>,其中E是平均聲音能量。8)第一共振峰w8(頻率)9)第二共振峰w9(頻率)10)語速w10=t1/n,特指在聲音為語音時,說話人的語速。主要用于辨別是否發(fā)生爭吵事件。t1指每句話的持續(xù)時間,其中包含音節(jié)間的停頓,n指的是發(fā)音的音節(jié)數(shù)。這10個特征組成一個特征向量如下『二[wpw2,A,M^。]二、模型訓練步驟針對以上特征,對所獲取的各類聲音的樣本進行計算和特征參數(shù)統(tǒng)計,為每個類別的聲音建立模型,采用高斯混合模型進行訓練;三、聲音分類步驟分類器可以選擇統(tǒng)計分類中的一些基本的方法,如高斯混合模型、貝葉斯分類器,K近鄰分類器,或者神經(jīng)網(wǎng)絡(luò)類中的支持向量機分類器等。四、在線學習步驟對聲音模型和聲音特征在分類器中各個參數(shù)的優(yōu)化和適應(yīng)。五、危險等級評估步驟確定了聲音的種類后,再將危害性聲音的程度確定出來,即根據(jù)聲音的類型,與定義好的危險系數(shù)權(quán)值對應(yīng)后獲得待測聲音的危險等級。上述步驟五中,危險等級還可以根據(jù)識別的概率來加以修正,即6-;7.G,其中P是對識別出的聲音種類的后驗概率,G為定義的危險系數(shù)權(quán)值。上述聲音分類步驟中采用高斯混合模型G應(yīng)進行分類。通過GMM識別,對訓練好的模型,根據(jù)實時計算出的現(xiàn)場聲音的特征,找到一個有最大后驗概率的模型對應(yīng)的聲音模型,即為所識別出的聲音類型。上述聲音分類步驟中聲音分類器采用GM4分別對短時特征和全局特征進行分類,然后在決策層再進行平均后獲得最終的分類結(jié)果,具體做法是假設(shè)x"表示某種分類器的輸入,其中n=l代表短時聲音特征方法,f2代表全局聲音特征方法。凡表示分類器的輸出,即對應(yīng)某種類型聲音的后驗概率。那么總的分類器的輸出"0.5"+力)。后驗概率最大的即為所識別出的聲音類別。上述模型訓練步驟中訓練時需要確定不同的監(jiān)控時段,如上下班時段、工作時段、節(jié)假日時段等,對不同時段的"正常聲音"進行"時段模型"訓練,分段的基本原則是如果在某時段內(nèi)環(huán)境背景聲音基本平穩(wěn),則可以認為是同一個時段。一種根據(jù)上述聲像聯(lián)合的監(jiān)控方法實現(xiàn)的系統(tǒng),包括監(jiān)控中心主機和與主機相接的視頻監(jiān)控子系統(tǒng),監(jiān)控中心主機包括顯示器,其特殊之處在于還包括音頻監(jiān)控子系統(tǒng),音頻監(jiān)控子系統(tǒng)包含數(shù)個音頻監(jiān)控處理器、音頻傳輸線路和音頻控制器,所述的音頻監(jiān)控處理器由依次相接的麥克風、放大器、濾波器、A/D轉(zhuǎn)換器、特征提取器和聲音分類器組成;音頻控制器設(shè)置于監(jiān)控中心主機內(nèi),輸出接于顯示器上。有益效果由于視頻監(jiān)控系統(tǒng)已經(jīng)十分成熟,應(yīng)用廣泛,本發(fā)明的基本思想是充分利用現(xiàn)有基礎(chǔ)和條件,盡量減少重新二次開發(fā)。因此本發(fā)明的重點體現(xiàn)在音頻監(jiān)控的建立上。人們可以很容易得聽出周圍環(huán)境所發(fā)生的事件,并在未看到場景的情況下作出預先反應(yīng)。但是在工業(yè)領(lǐng)域,對環(huán)境聲音的分類和識別技術(shù)的工程應(yīng)用尚不普及。一些略有相關(guān)的應(yīng)用包括利用語音進行人的情緒鑒別、說話人識別、利用機械振動聲音進行計算機輔助故障診斷等等。在利用語音進行人的情緒鑒別時,通過對語音信號中若干與情緒有關(guān)特征的分析、對比,建立起各種情緒語音的特征庫,利用相應(yīng)的判決準則和分類器對語音情緒分類。在計算機輔助機械故障診斷時,通過對特定機械振動的聲音或振動信號進行采集、時域頻域處理后,與正常情況下的結(jié)果進行對比,通過建模、統(tǒng)計等方法進行判定。以上技術(shù)雖然涉及到對不同聲音的分類識別,但由于監(jiān)測環(huán)境內(nèi)的聲音種類繁多,變化多樣,動態(tài)范圍很寬;多種聲音會以多種情形、比例、組合疊加在一起,判定難度加大;同時,由于要用于環(huán)境監(jiān)控預警,因此,對該系統(tǒng)的要求較高,一方面需要辨別出某種聲音是什么聲源;另一方面,需要辨認出該聲音是否具有危險性,危險程度如何。因此,以下各項公知技術(shù)均不能直接滿足要求(a)用于語音識別的各項技術(shù)(b)通過語音來辨別說話人感情的技術(shù)(C)通過語音來判斷說話人身份的技術(shù)(d)語音關(guān)鍵詞搜索技術(shù)(e)樂器種類識別技術(shù)(f)針對某種機械的故障診斷技術(shù)(g)簡單地利用頻譜分析、聲強、基頻、帶寬等特征值的識別技術(shù)等。本發(fā)明采用聲音信號與視頻信號同時使用來進行環(huán)境監(jiān)測,主要是在現(xiàn)有視頻監(jiān)控系統(tǒng)的基礎(chǔ)上增加聲音處理功能,利用聲音處理結(jié)果引導值班人員有選擇地觀察視頻窗口,幫助值班人員對重點、嫌疑區(qū)域進行重點觀測。本發(fā)明在對聲音信號的處理時,利用短時聲音特征與全局聲音特征相結(jié)合的方法,通過高斯混合模型,在決策層融合來進行聲音分類,分類效果好,虛警率低。整個系統(tǒng)安裝容易,兼容性好,利用音頻監(jiān)控子系統(tǒng),不僅可對原來的視頻監(jiān)控區(qū)域進行早期預警或?qū)σ曨l監(jiān)控區(qū)域進行預選,還可以發(fā)現(xiàn)視角之外的聲音事件,有效輔助視頻監(jiān)測系統(tǒng)擴大監(jiān)測范圍,大大增強現(xiàn)有安放系統(tǒng)的使用效率,降低值班人員的勞動強度,有利于促進社會穩(wěn)定和人民安全。本系統(tǒng)適用范圍廣,可為現(xiàn)有的各類工業(yè)現(xiàn)場的監(jiān)控提供場景預選和早期預警。在完全新增的音頻監(jiān)控子系統(tǒng)中,可借助有線/無線的通信方式,將各個音頻監(jiān)控處理器的判斷結(jié)果傳至中央控制中心,這樣避免了大數(shù)據(jù)量高速率的傳輸,聲音分類處理現(xiàn)場解決,實用性更強。圖1:MFCC計算過程示意圖2:G畫模型的訓練過程流程圖3:G醒模型的識別過程流程圖4:分類過程流程圖5:聲像聯(lián)合監(jiān)控系統(tǒng)的組成框圖6:音頻監(jiān)控處理器的原理框圖7:聲像聯(lián)合系統(tǒng)中顯示器的報警示意圖。具體實施例-下面將結(jié)合附圖對本發(fā)明作詳細地說明。一種聲像聯(lián)合的監(jiān)控方法,是采用聲音信號與視頻信號同時使用來進行環(huán)境監(jiān)測,利用聲音信號的處理結(jié)果引導值班人員有選擇地觀察視頻窗口,幫助值班人員對重點、嫌疑區(qū)域進行重點觀測;聲音信號的處理包括特征提取、模型訓練、聲音分類、在線學習以及危險等級評估步驟一、特征提取步驟從聲音信號中提取出有利于分類的聲音特征,是本發(fā)明的關(guān)鍵。要獲得好的分類效果,必須在對大量同類聲音信號數(shù)據(jù)庫分析的基礎(chǔ)上,有針對性地考慮不同類別聲音的長度、疊加、動態(tài)范圍等特點,提出新的特征組合和識別過程。為此,我們提取了短時MFCC特征與優(yōu)選的全局聲音特征(a)短時特征利用MFCC特征對相當一部分具有危害性的環(huán)境聲音進行識別,MFCC是一種常用的特征向量,其計算過程參見圖l,當選取MFCC的階數(shù)為L時,特征向量可表示為M=[c1,c2,A,cL](b)全局特征MFCC盡管可以對部分的環(huán)境聲音可以獲得較好的識別效果,但是對多種聲音的疊加,如多人語音及機械、環(huán)境噪音等的疊加,以及沒有基音的環(huán)境聲音效果較差,因此本發(fā)明中又確定了以下特征,以對常見環(huán)境危害類聲音進行更好的識別,這些特征各自的數(shù)學定義如下設(shè)待處理的聲音單元被分為N個幀,P=(p1,p2,A,pk)是各個幀的基頻其中k為本段數(shù)據(jù)中存在基頻的幀數(shù)。1)基頻的均值<formula>formulaseeoriginaldocumentpage10</formula>2)基步員變化率<formula>formulaseeoriginaldocumentpage10</formula>3)基頻的標準離差<formula>formulaseeoriginaldocumentpage10</formula>4)含基頻聲音所占比例w4=k/N5)最長含基音聲音長度w5(單位是幀)6)聲音平均能量w一丄i^,,其中g(shù)(i=l,2,…,N)是第i幀的聲音能量。7)聲音強度的標準離差w7=^J|:fe—對,其中I是平均聲音能量。V/=,8)第一共振峰w(頻率)9)第二共振峰,(頻率)10)語速=&,特指在聲音為語音時,說話人的語速。主要用于辨別是否發(fā)生爭吵事件。f,指每句話的持續(xù)時間,其中包含音節(jié)間的停頓,n指的是發(fā)音的音節(jié)數(shù)。上面的IO個特征組成一個特征向量如下二、模型訓練步驟-針對步驟一提取的特征,采用高斯混合模型進行訓練,其訓練過程的流程圖參見圖6。首先給GM1模型賦初值,如全是0的初始值。然后訓練開始,用于訓練的輸入聲音逐次輸入,對模型進行訓練。輸入的聲音首先進行特征提取,構(gòu)成一組特征向量。然后在G畫模型現(xiàn)有參數(shù)的基礎(chǔ)上,使用前向算法和后向算法進行G醒模型參數(shù)的修正估計。得到的參數(shù)作為新的GMM模型。這個過程在訓練樣本的驅(qū)動下,反復進行,直至G腿模型收斂,訓練過程就結(jié)束了。由于我們是在正常聲音中去査找異常的聲音,而在不同時段,正常的環(huán)境聲音的特點具有較大的區(qū)別。因此,在訓練時需要確定不同的監(jiān)控時段,如上下班時段、工作時段、節(jié)假日時段等,也就是說,各個"正常聲音"模型在不同時段是不同的。然后再對不同時段進行"正常聲音"進行"時段模型"訓練。所說的分段根據(jù)應(yīng)用場合的特殊性來確定,基本原則是如果在某時段內(nèi)環(huán)境背景聲音基本平穩(wěn),則可以認為是同一個時段。三、聲音分類步驟分類器可以選擇統(tǒng)計分類中的一些基本的方法,如高斯混合模型、貝葉斯分類器,K近鄰分類器,或者神經(jīng)網(wǎng)絡(luò)類中的支持向量機分類器等。在本發(fā)明中,我們采用高斯混合模型G匿進行分類。通過G醒識別,對訓練好的模型,根據(jù)實時計算出的現(xiàn)場聲音的特征,找到一個有最大后驗概率的模型對應(yīng)的聲音模型,即為所識別出的聲音類型。其具體的分類過程參見圖3。首先對觀測序列進行特征提取,然后利用前向-后向算法對該序列的特征進行計算,獲得針對不同模型情況下的后驗概率,最后對這些后驗概率進行比較,值最大的對應(yīng)的模型即為分類的結(jié)果。由于我們采用短時聲音特征與全局聲音特征相結(jié)合的方式,因此聲音分類器需要有機地將這兩者相結(jié)合,充分利用好獲得的特征信息。一種做法是將這兩種特征向量合成一個長的,不過這樣做會導致維數(shù)過高,訓練收斂慢。在本發(fā)明中,我們采用GMM分別對短時特征和全局特征進行分類,然后在決策層再進行平均后獲得最終的分類結(jié)果,具體流程參見圖4。假設(shè)、表示某種分類器的輸入,其中n=l代表短時聲音特征方法,n=2代表全局聲音特征方法。凡表示分類器的輸出,即對應(yīng)某種類型聲音的后驗概率。那么總的分類器的輸出y=0.5"+力)。y,表示利用MFCC通過G薩獲得的后驗概率,y2表示利用全局特征向量獲得的后驗概率,后驗概率最大的即為所識別出的聲音類別。四、在線學習步驟采用的是現(xiàn)有的技術(shù)思路。由于各類監(jiān)控環(huán)境差異很大,一個非常適合某種監(jiān)控環(huán)境的識別參數(shù)是難以在該環(huán)境外模擬獲得的。因此解決的方法是使系統(tǒng)具有在線學習功能,以便對聲音模型和聲音特征在分類器中各個參數(shù)的優(yōu)化和適應(yīng)。在線學習過程基本上是前期模型訓練過程的重復,區(qū)別在于這時參與訓練的數(shù)據(jù)是現(xiàn)場的真實數(shù)據(jù)。在線學習過程中,由于現(xiàn)場聲音信號的隨機性和不平穩(wěn)性,由它們獲得的模型參數(shù)將通過一定時間的積累,逐漸更新原來的舊模型,這也是在線學習的通用方法。在線學習可以一次,也可以在必要時多次進行,也可以安排時間,定期更新或調(diào)整,以便不斷更新完善原來建立的模型。五、危險等級評估步驟-確定了聲音的種類,我們還需要將危害性聲音的程度確定出來。因此,不同于其他的各類分類器,我們的系統(tǒng)后面還有下面的危險等級評估這一步。也就是說確定了聲音的種類后,再將危害性聲音的程度確定出來,即根據(jù)聲音的類型,與定義好的危險系數(shù)權(quán)值對應(yīng)后獲得待測聲音的危險等級。表1是與聲音的種類對應(yīng)定義的危險系數(shù)權(quán)值表表l:聲音事件危險系數(shù)權(quán)值表(示例)<table>tableseeoriginaldocumentpage13</column></row><table>通過上表的定義,根據(jù)聲音的類型獲得就可以對應(yīng)獲得待測聲音的危險等級。當然,這個危險等級還可以根據(jù)識別的概率來加以修正,即d-p.G,其中P是對識別出的聲音種類的后驗概率,G為表1中所定義的系數(shù)權(quán)值。簡單來講就是說,如果識別出來感覺沒有多大把握,那么危險系數(shù)會相應(yīng)降低。通過識別結(jié)果的歷史紀錄也可以對識別結(jié)果進行后處理,進一步提高正確識別概率,降低虛警概率。一種采用上述方法完成的聲像聯(lián)合監(jiān)控系統(tǒng)參見圖5圖7,所提供的系統(tǒng)主要包括以下部分監(jiān)控中心主機、視頻監(jiān)控子系統(tǒng)和音頻監(jiān)控子系統(tǒng),監(jiān)控中心主機包括顯示器。其中視頻監(jiān)控子系統(tǒng)包含視頻監(jiān)控處理器、視頻傳輸線路((線纜、無線、光纖或以太網(wǎng))和視頻控制器(在監(jiān)控中心主機內(nèi))。其中視頻監(jiān)控處理器主要是攝像頭,視頻傳輸線路一般為同軸電纜,視頻控制器主要完成視頻采集壓縮,配合視頻播放設(shè)備,將各個攝像頭采集的視頻圖像顯示在顯示器上。它們的連接關(guān)系很簡單,攝像頭通過傳輸線路接到視頻控制器上。目前視頻監(jiān)控子系統(tǒng)比較成熟,本發(fā)明以下除必要外,不做詳細介紹。音頻監(jiān)控子系統(tǒng)包含音頻監(jiān)控處理器、音頻傳輸線路和音頻控制器。所說的音頻監(jiān)控處理器的輸出通過音頻傳輸線路接至音頻控制器,音頻控制器設(shè)置在監(jiān)控中心主機內(nèi),音頻控制器將所獲得的音頻報警信號通過顯示器上顯示出來。目前絕大多數(shù)監(jiān)控系統(tǒng)沒有音頻信號的采集和處理功能,以此情況為例,詳細介紹音頻監(jiān)控子系統(tǒng)各個模塊的主要功能。(1)音頻監(jiān)控處理器音頻監(jiān)控處理器是整個音頻監(jiān)控子系統(tǒng)的核心模塊。參見圖6,它由麥克風、放大器、濾波器、A/D轉(zhuǎn)換器、特征提取器和聲音分類器六個模塊組成。它們的連接關(guān)系為麥克風輸出的信號經(jīng)過放大器,濾波器后,進入A/D轉(zhuǎn)換器,之后在進行特征提取器,最后進入聲音分類器。為了盡量不對原有的視頻監(jiān)控系統(tǒng)作改動,我們不將聲音信號本身傳輸至監(jiān)控中心進行集中處理,而是分布式地將聲音信號在現(xiàn)場的各個音頻監(jiān)控處理器上分別處理,僅將處理結(jié)果傳至監(jiān)控中心。這樣做可以避免對監(jiān)控中心的主機提出過高的要求,避免大數(shù)據(jù)量高速率的傳輸。另一方面,由于僅僅將分類處理結(jié)果傳至監(jiān)控中心,因此還有利于保護監(jiān)控區(qū)域聲音的隱私性和保密性。麥克風用來拾取聲音信號,并將其轉(zhuǎn)化為電信號。放大器將微弱的聲音信號放大至一定的幅度。濾波器將對聲音中的噪聲進行濾除,A/D轉(zhuǎn)換器將濾波后的聲音信號轉(zhuǎn)化為數(shù)字信號,供后續(xù)的數(shù)字信號處理使用。特征提取器從聲音信號中提取對聲音分類器最有用的多項聲音特征,例如聲強、基頻等。最后,聲音分類器用于把特征進行分類,確定出現(xiàn)場聲音的危險或異常等級。(2)音頻傳輸線路傳輸線路負責將音頻監(jiān)控處理器獲得的結(jié)果傳至監(jiān)控中心。根據(jù)系統(tǒng)的基礎(chǔ)設(shè)施情況,傳輸線路可以由線纜、無線、光纖或以太網(wǎng)來實現(xiàn)。為了盡量不對原有視頻監(jiān)控中心作改動,如果原來的系統(tǒng)中沒有額外的資源可以將音頻監(jiān)控處理器的結(jié)果傳至監(jiān)控中心,我們將采用適當頻率的無線傳輸方式來實現(xiàn)。雖然一般的無線數(shù)傳電臺就可以完成此功能,我們推薦在必要時采用目前先進的自組網(wǎng)或MESH無線通信技術(shù)。通過多個通信節(jié)點間的多跳、自組網(wǎng)技術(shù)來進行無線通信。這樣做的主要優(yōu)點在于布放簡單、低功耗;即使肇事者有意破壞某個觀測點的通信設(shè)施,利用自組網(wǎng)的特點,信息可以通過其他的路由通路進行傳輸。這樣做可以大大增強系統(tǒng)的可靠性和抗破壞能力。(3)音頻控制器音頻控制器用于將各路音頻監(jiān)控處理器獲得的聲音分析結(jié)果顯示在監(jiān)控顯示器上。通過音頻控制器與視頻控制器相結(jié)合,可以為值班人員提供包括文字、圖像、聲音在內(nèi)的多種提示方式,引導輔助值班人員在觀察各個視場時能集中精力,重點觀測,提高效率,避免疲勞。同時可以發(fā)現(xiàn)視角之外的聲音事件,有效輔助視頻監(jiān)測系統(tǒng)擴大監(jiān)測范圍。視頻監(jiān)控處理器和音頻監(jiān)控處理器可以成對設(shè)置,也可以根據(jù)情況單獨設(shè)置。整個系統(tǒng)的工作方式和流程如下1)將視頻監(jiān)控攝像頭按照實際需求安裝在適當?shù)奈恢谩?)將音頻監(jiān)控處理器安裝在各個視頻監(jiān)控攝像頭的附近,一個攝像頭附近或周圍可以安裝一個或多個。另外,也可以在沒有安裝視頻攝像頭的地方安裝。3)各個音頻監(jiān)控處理器在使用前需要進行訓練學習。在此階段,它們將對各個場景不同時段的聲音模型進行學習,并將模型存放在處理器內(nèi)的存儲器上,供實際使用時進行模型匹配。訓練學習可以一次,也可以在必要時多次進行,也可以安排時間,定期更新或調(diào)整。不斷更新完善原來建立的模型。4)視頻監(jiān)控子系統(tǒng)與聲音監(jiān)控子系統(tǒng)同時啟動工作。5)各個場景的視頻景象實時顯示在監(jiān)控顯示器上,供值班人員觀察。6)各個音頻監(jiān)控處理器實時處理現(xiàn)場聲音信號,并對其危險或異常等級作出判斷,及時通過傳輸線路傳至監(jiān)控中心。7)監(jiān)控中心的音頻控制器接收到各個音頻監(jiān)控處理器的結(jié)果后,以文字或圖像的方式,顯示在相應(yīng)場景圖像上的顯著位置,提示值班人員注意觀察。當危險等級達到某個水平后,也可以通過適當?shù)穆曇魜硖崾?。對于安裝在沒有攝像頭位置的聲音監(jiān)控處理器,軟件會另外安排顯示位置來顯示(例如,可以顯示在另外一臺監(jiān)控顯示器上),或通過聲音提示來通知。為了清楚地介紹系統(tǒng),下面做進一步的詳細描述整個系統(tǒng)分為兩部分視頻監(jiān)控子系統(tǒng)和音頻監(jiān)控子系統(tǒng)。下面分兩種情況來介紹如果原來的系統(tǒng)沒有提供聲音信號的接口和線路,那么整個發(fā)明的具體實施例如下(1)視頻監(jiān)控子系統(tǒng)采用現(xiàn)有技術(shù),包含視頻監(jiān)控攝像頭、視頻傳輸線路、監(jiān)控中心主機、視頻處理卡、視頻監(jiān)控器和監(jiān)控顯示器。一種實現(xiàn)視頻監(jiān)控系統(tǒng)的方法是采用北京華航天元科技發(fā)展有限公司的SDVR7004III型網(wǎng)絡(luò)監(jiān)控系統(tǒng),包括了T0YA-CC160H高清晰彩色紅外一體化變倍攝像機,采用SDVR7004III型監(jiān)控軟件,經(jīng)過定制的T0YASDVR7004SIV智能網(wǎng)絡(luò)監(jiān)控主機,監(jiān)控顯示器采用通用液晶顯示器。(2)音頻監(jiān)控子系統(tǒng)包含音頻監(jiān)控處理器、無線或有線傳輸線路和音頻控制器。其中(a)音頻監(jiān)控處理器由麥克風、放大器、濾波器、A/D轉(zhuǎn)換器、特征提取器和聲音分類器六部分組成。其中麥克風用來拾取聲音信號,并將其轉(zhuǎn)化為電信號??梢赃x用的麥克風應(yīng)當是各向同性的遠場麥克風,具有良好的靈敏度和較低的自噪聲。可以選用Panasonic的麗-034BY型麥克風。放大器將微弱的聲音電信號放大至一定的幅度,供后續(xù)處理。濾波器將對聲音中的噪聲進行濾除。一般來講,環(huán)境聲音中各類型的聲音頻率變化很大。因此,濾波器的實際需要根據(jù)實際情況進行選擇。例如,如果10kHz以上的信號對監(jiān)測環(huán)境聲音關(guān)系影響不大,就可以通過設(shè)計一個截至頻率為10KHz的Chybshev模擬低通濾波器對其進行濾除。A/D轉(zhuǎn)換器將濾波后的聲音信號轉(zhuǎn)化為數(shù)字信號,使用比較普遍的A-law和y-law的Codec數(shù)模轉(zhuǎn)化芯片進行聲音數(shù)字轉(zhuǎn)化。也可以選用內(nèi)置在DSP芯片內(nèi)部的A/D進行數(shù)模轉(zhuǎn)化。特征提取器從聲音信號中提取對分類識別最有用的多項聲音特征。由于各種不同環(huán)境下會出現(xiàn)的聲音比較復雜,我們采用短時聲音特征與全局聲音特征相結(jié)合的方式進行特征聲音鑒別。在分類方面,采用高斯混合模型的方法。各個音頻監(jiān)控處理器在使用前需要進行訓練學習。在此階段,它們將對各個場景不同時段的聲音模型進行學習,并將模型存放在閃存內(nèi),供實際使用時進行模型匹配。在使用過程中,也可以根據(jù)需要進行在線訓練學習,不斷更新完善原來建立的模型。聲音監(jiān)控處理器中的運算功能,包括特征提取和分類等,可以通過DSP芯片(例如,TI公司的芯片F(xiàn)2812)搭建的系統(tǒng)或FPGA編程來實現(xiàn)。其輸入為模擬信號,輸出為聲音危險等級的數(shù)據(jù),通過各種通信方式或端口輸出,如無線方式,網(wǎng)口、RS232、RS485等。(b)音頻傳輸線路采用目前先進的自組網(wǎng)無線通信技術(shù)。通過多個通信節(jié)點間的多跳、自組網(wǎng)技術(shù)來進行無線通信。例如,采用Renex公司生產(chǎn)的coRel無線數(shù)傳模塊,可以實現(xiàn)1到3公里(直線視距)的傳輸,速率可高達38.4kbps。該模塊在監(jiān)控主機一端放置1塊,作為接收基站。其他模塊安裝在各個聲音監(jiān)控處理器內(nèi)。實現(xiàn)無線多點對一點的傳輸。該模塊可以實現(xiàn)AdHoc自組網(wǎng)和Mesh網(wǎng)絡(luò),有利于實現(xiàn)可靠的無線通信線路,在距離上也完全滿足一般監(jiān)控系統(tǒng)的傳輸要求。(c)音頻控制器音頻控制器可以通過在監(jiān)控主機上安裝的一個應(yīng)用程序來實現(xiàn)。該程序使用VC++6.0或其他程序語言來開發(fā),操作系統(tǒng)可以是WindowsXP或其它操作系統(tǒng),與視頻監(jiān)控軟件多任務(wù)運行。當采用無線方式連接時,該軟件應(yīng)具有以下幾方面的設(shè)置功能a)從接收基站接收各個音頻監(jiān)控處理器中無線傳輸模塊傳來的數(shù)據(jù)結(jié)果,數(shù)據(jù)結(jié)果中包含了各個音頻監(jiān)控處理器的地理位置、聲音危險等級;C)設(shè)定各音頻監(jiān)控處理器結(jié)果在監(jiān)控顯示器上的顯示位置、顏色、字體,顯示屬性等;d)及時將數(shù)據(jù)結(jié)果顯示在設(shè)定的位置上。在必要時,利用聲音進行提示;e)存儲功能,把各個時間的聲音處理結(jié)果存儲在數(shù)據(jù)庫中,方便事后分析和回放。f)一個音頻監(jiān)控器和視頻監(jiān)控器同時使用時,在顯示器上的顯示參見圖7。如果原有監(jiān)控系統(tǒng)提供音頻輸出,所有聲音信號都可以在監(jiān)控中心獲得。那么,在這種情況下,所有聲音可以在監(jiān)控中心的主機上集中處理,無須使用音頻監(jiān)控處理器和額外的傳輸線路。這時,系統(tǒng)的使用與上面的實施例的區(qū)別在于,所有在聲音監(jiān)控處理器上完成的處理功能,包括A/D轉(zhuǎn)換、特征提取、聲音分類,都在監(jiān)控中心計算機上,由音頻控制器完成。權(quán)利要求1、一種聲像聯(lián)合的監(jiān)控方法,是采用聲音信號與視頻信號同時使用來進行環(huán)境監(jiān)測,利用聲音信號的識別結(jié)果引導值班人員有選擇地觀察視頻窗口,幫助值班人員對重點、嫌疑區(qū)域進行重點觀測;聲音信號的處理首先包括特征提取、模型訓練、聲音分類、在線學習這些步驟,最后為危險等級評估步驟一、特征提取步驟(a)短時特征選取MFCC的階數(shù)為L時,特征向量可表示為,M=[c1,c2,Λ,cL](b)全局特征提取以下的特征,它們各自的數(shù)學定義如下,設(shè)待處理的聲音單元被分為N個幀,P=(p1,p2,Λ,pk)是各個幀的基頻其中k為本段數(shù)據(jù)中存在基頻的幀數(shù)。1)基頻的均值2)基頻變化率w2=max(p2-p1,p3-p2,Λ,pk-pk-1)3)基頻的標準離差4)含基頻聲音所占比例5)最長含基音聲音長度w5(單位是幀)6)聲音平均能量其中E1(i=1,2,...,N)是第i幀的聲音能量。7)聲音強度的標準離差其中E是平均聲音能量。8)第一共振峰w8(頻率)9)第二共振峰w9(頻率)10)語速,特指在聲音為語音時,說話人的語速。主要用于辨別是否發(fā)生爭吵事件。t1指每句話的持續(xù)時間,其中包含音節(jié)間的停頓,n指的是發(fā)音的音節(jié)數(shù)。這10個特征組成一個特征向量如下W=[w1,w2,Λ,w10]二、模型訓練步驟針對以上特征,對所獲取的各類聲音的樣本進行計算和特征參數(shù)統(tǒng)計,為每個類別的聲音建立模型,采用高斯混合模型進行訓練;三、聲音分類步驟分類器可以選擇統(tǒng)計分類中的一些基本的方法,如高斯混合模型、貝葉斯分類器,K近鄰分類器,或者神經(jīng)網(wǎng)絡(luò)類中的支持向量機分類器等。四、在線學習步驟對聲音模型和聲音特征在分類器中各個參數(shù)的優(yōu)化和適應(yīng)。五、危險等級評估步驟確定了聲音的種類后,再將危害性聲音的程度確定出來,即根據(jù)聲音的類型,與定義好的危險系數(shù)權(quán)值對應(yīng)后獲得待測聲音的危險等級。2、如權(quán)利要求1所述的一種聲像聯(lián)合的監(jiān)控方法,其特征在于所述步驟五中,危險等級還可以根據(jù)識別的概率來加以修正,即d-p.G,其中/7是對識別出的聲音種類的后驗概率,G為定義的危險系數(shù)權(quán)值。3、如權(quán)利要求1或2所述的一種聲像聯(lián)合的監(jiān)控方法,其特征在于所述聲音分類步驟中采用高斯混合模型G畫進行分類。通過G麗識別,對訓練好的模型,根據(jù)實時計算出的現(xiàn)場聲音的特征,找到一個有最大后驗概率的模型對應(yīng)的聲音模型,即為所識別出的聲音類型。4、如權(quán)利要求3所述的一種聲像聯(lián)合的監(jiān)控方法,其特征在于所述聲音分類步驟中聲音分類器采用G醒分別對短時特征和全局特征進行分類,然后在決策層再進行平均后獲得最終的分類結(jié)果,具體做法是假設(shè)、表示某種分類器的輸入,其中n=l代表短時聲音特征方法,n=2代表全局聲音特征方法。凡表示分類器的輸出,即對應(yīng)某種類型聲音的后驗概率。那么總的分類器的輸出少=0.50;,+;;2)。后驗概率最大的即為所識別出的聲音類別。5、如權(quán)利要求4所述的一種聲像聯(lián)合的監(jiān)控方法,其特征在于所述模型訓練步驟中訓練時需要確定不同的監(jiān)控時段,如上下班時段、工作時段、節(jié)假日時段等,對不同時段的"正常聲音"進行"時段模型"訓練,分段的基本原則是如果在某時段內(nèi)環(huán)境背景聲音基本平穩(wěn),則可以認為是同一個時段。6、如權(quán)利要求1所述的一種根據(jù)上述聲像聯(lián)合的監(jiān)控方法實現(xiàn)的系統(tǒng),包括監(jiān)控中心主機和與主機相接的視頻監(jiān)控子系統(tǒng),監(jiān)控中心主機包括顯示器,其特征在于還包括音頻監(jiān)控子系統(tǒng),音頻監(jiān)控子系統(tǒng)包含數(shù)個音頻監(jiān)控處理器、音頻傳輸線路和音頻控制器,所述的音頻監(jiān)控處理器由依次相接的麥克風、放大器、濾波器、A/D轉(zhuǎn)換器、特征提取器和聲音分類器組成;音頻控制器設(shè)置于監(jiān)控中心主機內(nèi),輸出接于顯示器上。全文摘要本發(fā)明屬于一種工業(yè)環(huán)境監(jiān)控技術(shù),特別地,涉及一種聲像聯(lián)合的監(jiān)控方法及系統(tǒng)。本發(fā)明為克服現(xiàn)有技術(shù)存在的僅使用視頻監(jiān)控值班人員容易疲勞,難以辨認有安全隱患的地點,同時視頻監(jiān)控受到功能、視角的限制難以奏效,導致不能及時發(fā)現(xiàn)隱患,貽誤救援時機的問題,現(xiàn)提出的解決方案是一種聲像聯(lián)合的監(jiān)控方法,是采用聲音信號與視頻信號同時使用來進行環(huán)境監(jiān)測,利用聲音信號的識別結(jié)果引導值班人員有選擇地觀察視頻窗口,聲音信號的處理首先包括特征提取、模型訓練、聲音分類、在線學習這些步驟,最后為危險等級評估步驟一、特征提取步驟;二、模型訓練步驟;三、聲音分類步驟;四、在線學習步驟;五、危險等級評估步驟。文檔編號G10L15/00GK101364408SQ20081023160公開日2009年2月11日申請日期2008年10月7日優(yōu)先權(quán)日2008年10月7日發(fā)明者陳建峰申請人:西安成峰科技有限公司