欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向安防領(lǐng)域的無監(jiān)督的新穎性音頻事件檢測方法及系統(tǒng)與流程

文檔序號:12473145閱讀:405來源:國知局
面向安防領(lǐng)域的無監(jiān)督的新穎性音頻事件檢測方法及系統(tǒng)與流程

本發(fā)明涉及一種面向安防領(lǐng)域的無監(jiān)督的新穎性音頻事件檢測方法及系統(tǒng)。



背景技術(shù):

隨著數(shù)字信號處理技術(shù)的飛速發(fā)展和互聯(lián)網(wǎng)的迅速普及,數(shù)字音頻處理技術(shù)的研究已進(jìn)入一個快速發(fā)展的階段,在音頻信息檢索、分類、內(nèi)容理解等方面已經(jīng)取得了長足的進(jìn)步。近年來,隨著視頻監(jiān)控的發(fā)展以及在應(yīng)用中的不足,人們對音頻監(jiān)控也提出了較大的需求。主要表現(xiàn)在:(1)音頻監(jiān)控系統(tǒng)的實現(xiàn)雖然困難相當(dāng)多,但人們對音影同步監(jiān)控的需求也越來越強(qiáng)烈。仔細(xì)觀察,不難發(fā)現(xiàn),在公檢法機(jī)構(gòu)、機(jī)場、車站、銀行等一些區(qū)域,越來越多的安防工程急需清晰、逼真的音影同步監(jiān)控系統(tǒng),音頻監(jiān)控已經(jīng)成為安防行業(yè)的新亮點(diǎn)。(2)對于一些公共治安事件頻發(fā)區(qū)域,如學(xué)校、歌廳、大型廣場等,大部分都安裝了視頻監(jiān)控設(shè)備,但很多地方聲音監(jiān)控還是空白。這些視頻監(jiān)控系統(tǒng)大都沒有辦法對正在發(fā)生的緊急事件進(jìn)行實時報警,只能事后提供監(jiān)控信息;而對這些地方進(jìn)行音視頻監(jiān)控可以成為及時處理突發(fā)事件的最佳手段。

目前在發(fā)達(dá)國家的市場上也出現(xiàn)了一些利用聲音檢測技術(shù)進(jìn)行分析和處理的事件報警裝置。如一些家庭內(nèi)部老人監(jiān)護(hù)系統(tǒng)或者醫(yī)院內(nèi)的病人監(jiān)護(hù)系統(tǒng),這些系統(tǒng)可以通過監(jiān)聽老人的呻吟聲和摔倒的聲音來進(jìn)行緊急情況報警;如一種用于嬰兒看護(hù)的哭聲檢測系統(tǒng),它可以通過檢測到嬰兒的哭聲來提醒看護(hù)者對嬰兒進(jìn)行及時的照顧。這些系統(tǒng)目前都使用了特定聲音檢測技術(shù),利用特定聲音檢測的準(zhǔn)確性進(jìn)行實時的提醒和報警。但是這些系統(tǒng)應(yīng)用到公共領(lǐng)域的安防還存在這一定的難度,一個最主要的原因就是:安防裝置所放置的公共區(qū)域背景環(huán)境十分復(fù)雜。在公共領(lǐng)域放置的安防裝置周圍有大量的非緊急事件的聲音,這些聲音會造成聲音檢測系統(tǒng)的頻繁誤報,而且更重要的是,我們不可能窮舉在這些開放區(qū)域存在的所有可能的音頻事件。因此,需要一種方法檢測在這些公共區(qū)域發(fā)生的新穎性音頻事件。所謂新穎性音頻事件,就是指未知的或新穎的音頻事件,這些事件在訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)或與訓(xùn)練數(shù)據(jù)中的音頻有完全的不同。傳統(tǒng)的新穎性事件檢測方法大都是基于有監(jiān)督的方法去訓(xùn)練模型,然后根據(jù)某種準(zhǔn)則或度量檢測新穎性事件。然而,在公共的開放區(qū)域,不可能事先知道哪些音頻事件可能發(fā)生,更不可能采用有監(jiān)督的機(jī)器學(xué)習(xí)的方法為這些音頻事件建立模型。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的就是為了解決上述問題,提供一種面向安防領(lǐng)域的無監(jiān)督的新穎性音頻事件檢測方法及系統(tǒng),它具有利用無監(jiān)督的方法,自動檢測在公共安防區(qū)域發(fā)生的新穎性事件的優(yōu)點(diǎn)。

為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

面向安防領(lǐng)域的無監(jiān)督的新穎性音頻事件檢測方法,包括如下步驟:

模型訓(xùn)練步驟:對實際監(jiān)控場景下的音頻進(jìn)行訓(xùn)練,訓(xùn)練得到基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型;

新穎性音頻事件檢測步驟:對獲取在實際監(jiān)控場景下不同待測區(qū)域的音頻,對音頻進(jìn)行特征提取后,將提取后的特征輸入到已經(jīng)訓(xùn)練得到的基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型中,進(jìn)行新穎性音頻事件發(fā)生與否的檢測。

所述模型訓(xùn)練步驟包括如下步驟:

步驟(1-1):獲取在實際監(jiān)控場景下不同區(qū)域的音頻,并對獲取到的音頻提取聽覺譜特征,然后轉(zhuǎn)入步驟(1-2)進(jìn)行訓(xùn)練;

步驟(1-2):以步驟(1-1)提取的聽覺譜特征作為訓(xùn)練的輸出,以添加隨機(jī)噪聲的聽覺譜特征作為訓(xùn)練的輸入,以最小均方誤差作為訓(xùn)練準(zhǔn)則,采用通過時間反向傳播算法(Backpropagation Through Time,BPTT)訓(xùn)練基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型,并將訓(xùn)練好的基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型進(jìn)行存儲。

所述新穎性音頻事件檢測步驟包括如下步驟:

步驟(2-1):獲取實際應(yīng)用場景下音頻,并對獲得的音頻提取聽覺譜特征,然后轉(zhuǎn)入步驟(2-2);

步驟(2-2):將步驟(2-1)提取的特征輸入到模型訓(xùn)練步驟得到的基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型中,獲得自動編碼機(jī)模型的輸出;然后轉(zhuǎn)入步驟(2-3);

步驟(2-3):計算在步驟(2-2)中輸入自動編碼機(jī)模型的音頻特征和步驟(2-2)中自動編碼機(jī)模型輸出之間誤差;然后轉(zhuǎn)入步驟(2-4);

步驟(2-4):在設(shè)定時間段內(nèi)連續(xù)的音頻上,積累步驟(2-3)獲得的誤差,并根據(jù)積累的誤差數(shù)據(jù),計算閾值;當(dāng)誤差大于閾值時,則認(rèn)為新穎性音頻事件發(fā)生;否則,認(rèn)為新穎性音頻事件不發(fā)生。

所述步驟(1-1)的不同區(qū)域包括廣場、車展或商場等區(qū)域。

所述的步驟(1-2)中,在訓(xùn)練基于深度雙向長短時記憶遞歸網(wǎng)絡(luò)的降噪自動編碼機(jī)模型時,設(shè)置深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)為3個隱層,第一個隱層在每一個方向上含有156個長短時記憶細(xì)胞塊,第二個隱層在每一個方向上含有256個長短時記憶細(xì)胞塊,第三個隱層在每一個方向上含有156個長短時記憶細(xì)胞塊,且每一個記憶細(xì)胞塊只含有一個記憶細(xì)胞。

所述步驟(1-2)中,在訓(xùn)練基于深度雙向長短時記憶遞歸網(wǎng)絡(luò)的降噪自動編碼機(jī)模型時,為了防止梯度爆炸,采用梯度剪裁的方法來剪裁梯度。訓(xùn)練時,梯度的閾值設(shè)置為10。

所述步驟(1-2)中,在訓(xùn)練基于深度雙向長短時記憶遞歸網(wǎng)絡(luò)的降噪自動編碼機(jī)模型時,采用多個不同的流同時進(jìn)行,以加快模型訓(xùn)練的速度。

面向安防領(lǐng)域的無監(jiān)督的新穎性音頻事件檢測系統(tǒng),包括:

訓(xùn)練單元,用于對實際監(jiān)控場景下的音頻進(jìn)行訓(xùn)練,訓(xùn)練得到基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的自動編碼機(jī)模型;

新穎性事件檢測單元,用于對獲取在實際監(jiān)控場景下不同待測區(qū)域的音頻,對音頻進(jìn)行特征提取后,將提取后的特征輸入到已經(jīng)訓(xùn)練得到的基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的自動編碼機(jī)模型中,進(jìn)行新穎性音頻事件發(fā)生與否的檢測。

所述訓(xùn)練單元,包括:

第一音頻獲取模塊,用于獲取在實際監(jiān)控場景下不同區(qū)域的音頻,并將音頻送入音頻特征提取模塊;

第一音頻特征提取模塊,對送入的音頻進(jìn)行特征提取,提取出聽覺譜特征;將提取的聽覺譜特征送入模型訓(xùn)練模塊;

模型訓(xùn)練模塊,以聽覺譜特征作為訓(xùn)練的輸出,以添加隨機(jī)噪聲的聽覺譜特征作為訓(xùn)練的輸入,以最小均方誤差作為訓(xùn)練準(zhǔn)則,采用通過時間反向傳播算法(Back propagation Through Time,BPTT)訓(xùn)練基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型,并將訓(xùn)練好的基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型送入模型存儲模塊進(jìn)行存儲。

優(yōu)選的,所述訓(xùn)練單元,還包括:

模型存儲模塊,用于存儲模型訓(xùn)練模塊訓(xùn)練完成的自動編碼機(jī)模型。

所述的模型訓(xùn)練模塊在訓(xùn)練基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)時,對梯度進(jìn)行剪裁。同時,在更新基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)時,利用動量(momentum)方法更新模型。動量(momentum)系數(shù)設(shè)置為0.9。

新穎性事件檢測單元,包括:

第二音頻獲取模塊,用于獲取在實際監(jiān)控場景下不同待測區(qū)域的音頻,并將音頻送入第二音頻特征提取模塊;

第二音頻特征提取模塊,對送入的音頻進(jìn)行特征提取,提取出聽覺譜特征;將提取的聽覺譜特征送入新穎性事件檢測模塊;

新穎性事件檢測模塊,將第二音頻特征提取模塊提取的特征輸入到模型訓(xùn)練模塊得到的基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型中,獲得自動編碼機(jī)模型的輸出;計算輸入自動編碼機(jī)模型的音頻特征和自動編碼機(jī)模型輸出之間誤差;

在設(shè)定時間段內(nèi)連續(xù)的音頻上,積累獲得的誤差,并根據(jù)積累的誤差數(shù)據(jù),計算閾值;當(dāng)誤差大于閾值時,則認(rèn)為新穎性音頻事件發(fā)生;否則,認(rèn)為新穎性音頻事件不發(fā)生。

優(yōu)選的,所述新穎性事件檢測單元,還包括:

模型裝載模塊,用于裝載模型訓(xùn)練模塊訓(xùn)練完成的基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型。

優(yōu)選的,所述新穎性事件檢測單元,還包括:

檢測結(jié)果存儲模塊,用于存儲新穎性事件檢測模塊的新穎性事件檢測結(jié)果。

優(yōu)選的,所述新穎性事件檢測模塊,利用第二音頻特征提取模塊提取的特征,應(yīng)用模型裝載模塊加載的訓(xùn)練完成的自動編碼機(jī)模型,進(jìn)行新穎性音頻事件檢測,并將檢測結(jié)果傳送至檢測結(jié)果存儲模塊進(jìn)行存儲。

本發(fā)明的有益效果:

基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的自動編碼機(jī)通過引入長短時記憶細(xì)胞編碼了序列中過去與未來兩個方向信息,從這個意義上講,它是一個動力系統(tǒng),比只有類似靜態(tài)輸入輸出變換的前饋式深度神經(jīng)網(wǎng)絡(luò)具有更好的泛化能力,可以更好地學(xué)習(xí)到更長時間的上下文信息和編碼輸入音頻的信息。

基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)的新穎性事件檢測,是一種無監(jiān)督的數(shù)據(jù)驅(qū)動的方法。該方法可以通過數(shù)據(jù)自動編碼輸入音頻的信息,通過測量當(dāng)前的輸入和降噪自動編碼機(jī)的輸出之間的距離,判斷新穎性事件是否發(fā)生。該方法能夠克服傳統(tǒng)的利用有監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行新穎性事件檢測方法的不足。

附圖說明

圖1為本發(fā)明的方法流程圖;

圖2為基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的自動編碼機(jī)模型的訓(xùn)練單元;

圖3為基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的自動編碼機(jī)的新穎性事件檢測單元。

具體實施方式

下面結(jié)合附圖與實施例對本發(fā)明作進(jìn)一步說明。

如圖1所示,面向安防領(lǐng)域的無監(jiān)督的新穎性音頻事件檢測方法,該方法包括如下兩個部分:基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的自動編碼機(jī)的模型訓(xùn)練步驟A和利用基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的自動編碼機(jī)進(jìn)行新穎性事件檢測步驟B。

所述步驟A,包括如下步驟:

步驟A1:接收實際音頻場景下的音頻輸入;

步驟A2:對步驟A1的音頻提取聽覺譜特征;

步驟A3:以提取的聽覺譜特征作為模型訓(xùn)練的輸出特征,以提取的聽覺譜特征與隨機(jī)產(chǎn)生均值為0、方差為0.01的噪聲的加和作為模型訓(xùn)練的輸入特征,以最小化均方誤差為訓(xùn)練準(zhǔn)則,采用通過時間反向傳播算法訓(xùn)練基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型。在訓(xùn)練基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的自動編碼機(jī)模型時,對梯度進(jìn)行修剪。同時,為了增加訓(xùn)練速度,采用多個流的方式進(jìn)行;

步驟A4:存儲訓(xùn)練完成的自動編碼機(jī)模型。

所述步驟B,包括如下步驟:

步驟B1:獲取實際場景下音頻;

步驟B2:對步驟B1獲取的音頻進(jìn)行特征提取,提取聽覺譜特征;

步驟B3:加載由模型訓(xùn)練模塊訓(xùn)練完成的基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型;

步驟B4:應(yīng)用加載的降噪自動編碼機(jī)模型和提取的聽覺譜特征,檢測輸入的音頻流中是否存在新穎性音頻事件;

步驟B5:存儲新穎性音頻事件的檢測結(jié)果。

基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)采用梯度剪裁的方法以增強(qiáng)模型訓(xùn)練的魯棒性和有效性,避免訓(xùn)練時的梯度爆炸。同時,在訓(xùn)練時采用動量(momentum)方法更新訓(xùn)練參數(shù),以增強(qiáng)模型訓(xùn)練的穩(wěn)定性。為了加快模型的訓(xùn)練速度,采用多個不同的流同時進(jìn)行。為了獲得較好的檢測效果,設(shè)置深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)包含3個長短時記憶隱層。

所述提取聽覺譜特征的步驟為:

對于輸入的音頻按照16000赫茲進(jìn)行采樣,按照16位比特進(jìn)行量化,并采用窗長30毫秒,以及窗移是10毫秒的海明(Hamming)窗,以包含26個通道三角濾波器的濾波器組,計算Mel譜系數(shù),獲得26維特征。

為了匹配人類的響度感知,對這26維的Mel譜系數(shù)M30(n,m)在對數(shù)域進(jìn)行表示

并且?guī)哪芰恳沧鳛橐痪S特征,共27維特征用于表征音頻。

最后,對這27維特征計算一階差分

<mrow> <msub> <mi>D</mi> <mn>30</mn> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>Mel</mi> <mi>log</mi> <mn>30</mn> </msubsup> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>Mel</mi> <mi>log</mi> <mn>30</mn> </msubsup> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

以獲得54維聽覺譜特征。

優(yōu)選實施例,在利用通過時間反向傳播算法訓(xùn)練基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)時,對梯度進(jìn)行剪裁,設(shè)置梯度剪裁的閾值是10。

如圖2所示,面向安防領(lǐng)域的無監(jiān)督的新穎性音頻事件檢測系統(tǒng),包括:

第一音頻獲取模塊:輸入采樣率為16000赫茲,按16位比特編碼的PCM格式的實際場景的音頻。

第一音頻特征提取模塊:對第一輸入模塊輸入的音頻分別以30毫秒海明(Hamming)窗和10毫秒為窗移,以包含26通道個三角濾波器的濾波器組,提取54維聽覺譜特征。

模型訓(xùn)練模塊:用于訓(xùn)練基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)。

訓(xùn)練時采用的學(xué)習(xí)速率是0.00001,動量(momentum)的值為0.9。設(shè)置雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)有3個隱層。從第一個隱層到第三個隱層,在每一個方向上分別含有156,256和156個長短時記憶細(xì)胞塊,且每一個長短時記憶細(xì)胞塊只含有一個記憶細(xì)胞。同時,在訓(xùn)練基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)時,為了防止模型的過訓(xùn)練,梯度剪裁的方法用于剪枝梯度。訓(xùn)練時,梯度剪裁的閾值設(shè)置為10。

模型訓(xùn)練模塊,以對輸入的音頻特征作為模型訓(xùn)練的目標(biāo),以輸入音頻特征和隨機(jī)產(chǎn)生均值為0,方差為0.01的噪聲的和為模型訓(xùn)練的輸入,以最小化均方誤差為訓(xùn)練的準(zhǔn)則,采用通過時間反向傳播算法訓(xùn)練基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)。在訓(xùn)練模型時,對梯度進(jìn)行剪枝,設(shè)置梯度剪裁的閾值是10。并且在更新模型時,利用動量(momentum)方法更新模型,動量(momentum)系數(shù)設(shè)置為0.9。

對于遞歸神經(jīng)網(wǎng)絡(luò),表述如下:設(shè)xt是t時刻輸入的K×1特征矢量,ht是隱層單元的值,是N×1矢量,yt是輸出,是L×1矢量,則只有一個隱層的RNN表示為:

ht=f(Wxhxt+Whhht-1) (1)

yt=g(Whyht) (2)

其中,Why是連接N個隱層單元到L個輸出的L×N權(quán)值矩陣,Wxh是連接K個輸入單元到N個隱層單元的N×K矩陣,Whh是連接時刻t-1的N個隱層單元到時刻t的N個隱層單元權(quán)值矩陣。f(·)和g(·)分別是隱層的和輸出層的激活函數(shù)。

通過時間反向傳播(Back propagationThroughTime,BPTT)算法用于學(xué)習(xí)權(quán)值矩陣。RNN可以學(xué)習(xí)到長時依賴(Long-Term Dependent),并且理論上講,梯度下降法可用于訓(xùn)練RNN模型。但是,實際訓(xùn)練RNN時,存在著梯度消失(Vanishing Gradient)和梯度爆炸(Exploding Gradient)的問題。LSTM-RNN通過將長短時記憶細(xì)胞(Long Short-Term Memory Cell)引入到RNN中,可以在某種程度上避免梯度消失的問題。

LSTM-RNN記憶細(xì)胞集可以描述如下:

it=σ(Wxixt+Whiht-1+Wcict-1+bi) (3)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (4)

ct=ft·ct-1+it·tanh(Wxcxt+Whcht-1+bc) (5)

ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (6)

ht=ot·tanh(ct) (7)

其中it,ft,ct,ot,ht是維數(shù)相同的矢量,分別代表在時刻t時,輸入門(Input Gate)、遺忘門(Forget Gate)、細(xì)胞激活(Cell Activation)、輸出門(Output Gate)和隱層激活五種不同的信息類型,“·”表示逐元素相乘,σ(·)表示logistic sigmoid函數(shù),W是表示連接不同門的權(quán)值矩陣,b代表相應(yīng)的偏置矢量。LSTM-RNN模型訓(xùn)練仍然采用BPTT算法。

假設(shè)xt是輸入音頻特征,為了增加模型的泛化性,噪聲nt~N(0,0.01)與最初輸入的音頻特征xt相加,獲得特征xt′~N(xt,0.01),并將特征xt′作為基于雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的自動編碼機(jī)模型的輸入,最初輸入的音頻特征xt作為基于雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)的輸出。

為了簡化表示,輸入xt′經(jīng)過公式(3)至公式(7)變換之后的輸出表示為F(xt′),則輸出F(xt′)又可以作為輸入,利用雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)對輸入F(xt′)進(jìn)行重建,獲得一個新的輸出從而計算出輸出與最初的音頻輸入xt之間均方誤差。以最小化二者之間的均方誤差作為訓(xùn)練準(zhǔn)則,采用通過時間反向傳播算法訓(xùn)練降噪自動編碼機(jī)。

類似的,通過疊加、逐層訓(xùn)練的方式構(gòu)建基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)。模型存儲模塊:主要用于存儲由模型訓(xùn)練模塊訓(xùn)練獲得的降噪自動編碼機(jī)。

如圖3所示,新穎性事件檢測單元,包括:

第二音頻獲取模塊:輸入采樣率為16000赫茲,按16位比特編碼的PCM格式的實際場景下的音頻。

第二音頻特征提取模塊:對第二輸入模塊輸入的音頻,提取54維聽覺譜特征。

所述第二特征提取模塊,設(shè)定30毫秒Hamming窗,10毫秒窗移,以26個三角濾波器的濾波器組,獲得Mel譜系數(shù)M30(n,m)。同時為了匹配人類的響度感知,對Mel譜系數(shù)M30(n,m)在對數(shù)域進(jìn)行表示并且,幀的能量也作為一維特征。最后,對這27維特征計算一階差分以獲得54維聽覺譜特征。

模型裝載模塊:從模型存儲模塊裝載由模型訓(xùn)練模塊訓(xùn)練好的基于深度長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的降噪自動編碼機(jī)模型。

新穎性事件檢測模塊:對第二特征提取模塊提取的特征,利用模型裝載模塊裝載的自動編碼機(jī)模型,進(jìn)行新穎性事件檢測。

檢測結(jié)果存儲模塊:對新穎性事件檢測模塊檢測的結(jié)果進(jìn)行保存。

本系統(tǒng)可以在計算機(jī)、服務(wù)器或者計算機(jī)網(wǎng)絡(luò)中實現(xiàn),其第一、第二音頻獲取模塊可以使用麥克風(fēng)等設(shè)備。

所述新穎性事件檢測模塊,首先,計算在輸入特征和基于深度雙向長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的自動編碼機(jī)輸出之間的誤差e0,然后在一段連續(xù)的音頻片段積累誤差,并用積累的誤差自動更新閾值

θ‘=β*median{e0(1),e0(2),…,e0(N)},

其中β的值是位于1.0和2.0之間的實數(shù),median表示取中值。當(dāng)積累的誤差大于閾值θ‘時,則認(rèn)為新穎性事件發(fā)生。否則,新穎性事件不發(fā)生。

上述雖然結(jié)合附圖對本發(fā)明的具體實施方式進(jìn)行了描述,但并非對本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
吉木乃县| 皋兰县| 连平县| 塔城市| 岚皋县| 江安县| 象州县| 公安县| 大名县| 昆明市| 法库县| 荆门市| 东明县| 浠水县| 修水县| 汝南县| 年辖:市辖区| 博客| 宁强县| 宿州市| 平遥县| 若羌县| 汝城县| 玛纳斯县| 宕昌县| 高密市| 拉孜县| 阳高县| 磴口县| 彭泽县| 陈巴尔虎旗| 张北县| 民乐县| 深泽县| 平江县| 高州市| 孙吴县| 合肥市| 定兴县| 姜堰市| 洪湖市|