欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于svm和gmm的特定音頻事件分層泛化識(shí)別方法

文檔序號(hào):6372799閱讀:226來(lái)源:國(guó)知局
專利名稱:基于svm和gmm的特定音頻事件分層泛化識(shí)別方法
技術(shù)領(lǐng)域
本發(fā) 明涉及一種融合支持向量機(jī)(SVM)和高斯混合模型(GMM)的特定音頻事件分層泛化識(shí)別方法,屬于計(jì)算機(jī)與音頻事件識(shí)別技術(shù)領(lǐng)域。
背景技術(shù)
特定音頻事件是用戶指定的具有某種特定語(yǔ)義或內(nèi)容的一個(gè)音頻片段。隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)迅速發(fā)展,音視頻文件以及流媒體數(shù)據(jù)量迅速膨脹,從海量音頻信息中迅速準(zhǔn)確地發(fā)現(xiàn)或識(shí)別出所需要的特定音頻事件變得越來(lái)越重要。由于交通監(jiān)控、敏感區(qū)域安全監(jiān)測(cè)等應(yīng)用的迫切需求,特定音頻事件識(shí)別技術(shù)近年來(lái)得到了廣泛的研究。特定音頻事件識(shí)別技術(shù)就是基于音頻數(shù)據(jù)的內(nèi)容,將音頻流中的特定音頻事件識(shí)別出來(lái),在音頻信息處理研究領(lǐng)域中,特定音頻事件識(shí)別也被稱為音頻事件檢測(cè)(Audio Event Detection)、音頻事件識(shí)別(Audio Event Recognition)、音頻分類(AudioClassification)等。特定音頻事件通常包括多種子類音頻事件(例如槍聲包括機(jī)關(guān)槍聲、手槍聲、步槍聲等),且子類之間具有較大的差異。泛化識(shí)別就是在加強(qiáng)大類之間區(qū)分度的同時(shí)降低子類差異敏感度,提取子類的共性特征達(dá)到泛化的目標(biāo),使用盡可能少的子類模板去適應(yīng)盡可能大的類內(nèi)差異?;趦?nèi)容的音頻分析研究可以劃分為4個(gè)層次數(shù)據(jù)層、特征層、類別層、語(yǔ)義層。特定音頻事件識(shí)別又被稱為音頻事件識(shí)別、音頻分類等,屬于上述4層劃分的類別層。在研究工作中,人們也在特征層對(duì)特征提取、特征篩選與組合、特征向量生成等技術(shù)開展研究。近年來(lái),特定音頻事件識(shí)別的相關(guān)研究主要集中在音頻特征提取和分類器設(shè)計(jì)兩個(gè)方面。音頻特征提取技術(shù)是音頻類型識(shí)別的基礎(chǔ),它從音頻波形中提取出特征向量用于后一階段的識(shí)別(或分類);分類器設(shè)計(jì)的目標(biāo)是為特定音頻事件識(shí)別尋找或設(shè)計(jì)分類算法,提高識(shí)別準(zhǔn)確率、減少識(shí)別耗時(shí),并研究算法參數(shù)對(duì)識(shí)別性能的影響。I.在特征提取方面在音頻特征提取方面,早期的音頻特征包括短時(shí)能量、靜音率、過(guò)零率、和諧度、基頻、頻譜、譜中心、子帶能量;后來(lái)又引入了線性預(yù)測(cè)系數(shù)、Mel倒譜系數(shù)(Mel-FrequencyCepstral Coefficient, MFCC)等多種感知及倒譜域特征;近年來(lái),一些新的音頻特征和特征篩選算法也陸續(xù)被提出。(I)簡(jiǎn)單音頻特征由于特定音頻事件識(shí)別技術(shù)發(fā)源于信號(hào)處理、語(yǔ)音識(shí)別等相關(guān)理論,因此諸如短時(shí)能量、過(guò)零率、子帶能量等簡(jiǎn)單特征,被廣泛應(yīng)用于特定語(yǔ)音識(shí)別研究。(2)倒譜及感知特征在語(yǔ)音處理領(lǐng)域中,LPC、LPCC, LFCC, MFCC等特征得到了越來(lái)越多的應(yīng)用,研究者將這些特征引入特定類型音頻事件識(shí)別領(lǐng)域,取得了較好的識(shí)別效果。(3)統(tǒng)計(jì)特征及新的底層特征在特定音頻事件識(shí)別領(lǐng)域中,研究者對(duì)上述兩大類底層特征進(jìn)行統(tǒng)計(jì);或使用音頻壓縮域特征,使音頻特征向量更具代表性,例如MPEG7特征、頻譜直方圖等。同時(shí),新的底層特征也不斷被提出。此外,更早的一些研究還包括直方圖、梯度直方圖、基于分段仿射變換的表情特征點(diǎn)運(yùn)動(dòng)特征等。對(duì)于維度較大的特征類型,還常常涉及到降維處理,常見的特征降維處理方法有聚類線性鑒別分析方法、主成分分析法等??傊?,在底層音頻特征的提取研究上,經(jīng)歷了 “能量、過(guò)零率等簡(jiǎn)單特征一LPC、LPCC、MFCC等頻域及倒譜特征——MPEG7、頻譜直方圖等底層特征及其統(tǒng)計(jì)、描述”的發(fā)展過(guò)程。對(duì)于某大類的特定音頻事件,其中的子類一般具有較大的差異性(例如槍聲包括機(jī)關(guān)槍聲、手槍聲、連續(xù)槍聲等子類,各子類樣本間有著較大的差異),如何有針對(duì)性地選擇特征,采用更好的特征向量構(gòu)造方法,使其具有較強(qiáng)的大類之間區(qū)分度和較小的子類差異敏感度,是特定音頻事件識(shí)別研究下一步需要解決的問(wèn)題。2.在音頻分類器設(shè)計(jì)方面在分類器設(shè)計(jì)研究方面,目前的研究主要包括支持向量機(jī)(Support VectorMachine, SVM)、基于高斯混合模型(Gaussian Mixture Model, GMM)等。其中,基于支持向量機(jī)的分類器SVM是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力。SVM算法在訓(xùn)練時(shí),需要對(duì)核函數(shù)參數(shù)不斷進(jìn)行調(diào)整以進(jìn)行優(yōu)化,因此訓(xùn)練過(guò)程往往比較復(fù)雜,這是該算法使用中的重要不足;另外,SVM算法是一種兩分類算法,對(duì)于多種類別的識(shí)別,需要對(duì)算法做進(jìn)一步的改進(jìn)。該方法是目前特定音頻事件識(shí)別領(lǐng)域的研究熱點(diǎn)?;诟咚够旌夏P偷姆诸惼鱃MM是一種經(jīng)典的說(shuō)話人識(shí)別算法,在特定音頻事件識(shí)別領(lǐng)域也取得了較好的識(shí)別效果。隨著機(jī)器學(xué)習(xí)和模式識(shí)別研究的不斷深入,相關(guān)理論和技術(shù)逐漸被引入特定音頻事件識(shí)別領(lǐng)域,在基于分類算法的研究中,SVM、GMM等技術(shù)已經(jīng)成功地應(yīng)用,但對(duì)于特定音 頻事件識(shí)別這一應(yīng)用場(chǎng)景,現(xiàn)有的特征提取方法存在特征代表性有限、精度及提取速度不夠高等不足;同時(shí),現(xiàn)有的音頻分類方法也在存在識(shí)別精度不理想、復(fù)雜度過(guò)高、可識(shí)別的音頻類別數(shù)量受限、識(shí)別速度低等局限,并且國(guó)內(nèi)外研究大都以音頻樣例片段作為識(shí)別對(duì)象,采用MFCC和能量等基本音頻特征和GMM、SVM等分類算法,針對(duì)特定音頻事件片段識(shí)別,取得了一定的識(shí)別效果,而以連續(xù)音頻流為識(shí)別對(duì)象進(jìn)行識(shí)別時(shí),其識(shí)別性能明顯低于對(duì)單純音頻片段的識(shí)別性能。如何提高分類算法的識(shí)別性能、如何在音頻流中更加精準(zhǔn)地標(biāo)記出特定類型音頻事件的起止點(diǎn),都是實(shí)用中需要解決的問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明的目的是為解決連續(xù)音頻事件流中音頻事件識(shí)別準(zhǔn)確率低、持續(xù)時(shí)間短的音頻事件片段漏檢率高、音頻事件識(shí)別速度較慢的問(wèn)題,提出一種融合SVM和GMM的特定音頻事件分層泛化識(shí)別方法,通過(guò)使用MFCC等音頻特征組合,并融合SVM分類器和GMM模型實(shí)現(xiàn)特定音頻事件分層泛化高精度、快速識(shí)別。本發(fā)明的技術(shù)方案是通過(guò)如下步驟實(shí)現(xiàn)的
步驟1,獲得訓(xùn)練樣本的音頻特征向量文件。所述訓(xùn)練樣本根據(jù)音頻事件種類的不同,分別標(biāo)記為不同的類別標(biāo)簽。每類訓(xùn)練樣本為多個(gè)相同類型音頻事件原始信號(hào)的集合,并且不同訓(xùn)練樣本之間沒(méi)有交疊或者重合。具體方法為步驟I. 1,對(duì)輸入的每一個(gè)訓(xùn)練樣本分別作預(yù)處理。首先對(duì)訓(xùn)練樣本中的每個(gè)原始音頻信號(hào)作預(yù)加重處理,減少尖銳噪音影響,提升高頻信號(hào),然后針對(duì)音頻數(shù)據(jù)添加窗函數(shù)形成音頻幀,設(shè)置一定的幀移,完成音頻分段,最后去除靜音幀。預(yù)處理減少了音頻信號(hào)的干擾與音頻處理的運(yùn)算量,利于提取有效音頻文件,提高系統(tǒng)的運(yùn)算性能與識(shí)別效率。步驟I. 2,提取預(yù)處理后的訓(xùn)練樣本的多種音頻特征,對(duì)多種音頻特征形成的各種特征組合進(jìn)行篩選,獲得最有效的表征音頻特征屬性的參數(shù),形成訓(xùn)練樣本的音頻特征向量文件。 所述的多種音頻特征包括MFCC及其差分、短時(shí)能量、短時(shí)過(guò)零率和基音頻率。步驟2,分別使用GMM方法和SVM方法對(duì)步驟I得到的音頻特征向量文件進(jìn)行訓(xùn)練。通過(guò)對(duì)大量種類繁多的訓(xùn)練樣本的音頻特征向量文件進(jìn)行模型訓(xùn)練,最終得到具有泛化能力的GMM模型和SVM分類器,用于區(qū)分音頻事件流中的特定音頻事件。完成離線訓(xùn)練。本發(fā)明方法中采用“一對(duì)余”的分類識(shí)別策略,即針對(duì)一類音頻事件建立一組GMM模型和SVM分類器,將該類型作為正類別,其余類型作為負(fù)類別,并行采用多組GMM模型和SVM分類器可實(shí)現(xiàn)多類型音頻事件識(shí)別。針對(duì)某一類型音頻事件,建立GMM模型和SVM分類器的具體方法為步驟2. 1,對(duì)步驟I得到的所有訓(xùn)練樣本的音頻特征向量文件,使用最大似然估計(jì)通過(guò)最大期望算法(Expectation-Maximization algorithm,EM算法)計(jì)算,得到該類型音頻事件的高斯混合模型(GMM)。高斯混合模型\由各混合分量的均值矢量、協(xié)方差矩陣以及混合權(quán)重來(lái)描述。
X = (wJ5J Uj5J 2k}(k=l,2, ......,K)其概率密度函數(shù)表示為
KI ( / = T p(k)p(x\k)
k I
K= Z cok^fxljU^Z^)
k I式中,K是高斯混合模型中高斯分布的數(shù)量;x是d維數(shù)據(jù)矢量;是第k個(gè)高斯分布的混合權(quán)重(即先驗(yàn)概率);并且滿足Sf=j ft^=hN(x| yk,Sk)是均值矢量為U k,協(xié)方差矩陣為Sk的高斯密度函數(shù)。為完成高斯混合模型的建模,需要確定《k、iik、Ik三個(gè)參數(shù),使得nf //Vxj最大,其中N代表N個(gè)訓(xùn)練樣本。本發(fā)明的高斯混合模型建模過(guò)程轉(zhuǎn)化為求最大似然函數(shù)
N KI log{ I CokN(XbtZk)) i I k I首先根據(jù)所有訓(xùn)練樣本的音頻特征向量文件,使用K均值聚類的方法得到《k、U k、Sk的初始值,最后由EM算法通過(guò)迭代為正負(fù)類別音頻事件分別確定一組cok、i! k、2k。優(yōu)化調(diào)整GMM模型中《k、uk, 2k,使得最大似然函數(shù)的值滿足音頻識(shí)別要求的閾值,得到一組《k、yk、2 k,完成GMM建模過(guò)程。步驟2. 2,對(duì)步驟I得到訓(xùn)練樣本的音頻特征向量文件,使用二次型尋優(yōu)方法,將在低維向量空間中線性不可分的訓(xùn)練樣本映射到高維的特征空間,在高維空間中使用徑向基核函數(shù)實(shí)現(xiàn)原低維向量空間中的非線性判決函數(shù),最終得到SVM分類器為
n幸f⑴ Z yjajK(x*xj) 'h'其中,n是特征向量的維數(shù),Cii=U1, a 2,......,a n)是拉格朗日乘子,b*是最
優(yōu)超平面的偏移量,Yi是類別標(biāo)簽值。K(X*Xi)是對(duì)應(yīng)的內(nèi)積核函數(shù),在訓(xùn)練樣本為線性可分情況下,K(x*xi)取x*xp步驟3,利用步驟2離線訓(xùn)練得到的GMM模型和SVM分類器,對(duì)待測(cè)音頻事件流進(jìn)行在線識(shí)別與融合判決,輸出最終的識(shí)別結(jié)果。步驟3. 1,首先對(duì)待識(shí)別音頻事件流文件進(jìn)行預(yù)處理,完成待識(shí)別音頻事件流文件的分幀與分段,接著進(jìn)行音頻特征提??;待識(shí)別音頻事件流提取的音頻特征參數(shù)類別與步驟I. 2中訓(xùn)練樣本的音頻特征參數(shù)類別相同,最后形成待識(shí)別音頻事件流的音頻特征向量文件;所述音頻特征向量文件包含多個(gè)音頻特征片段。步驟3. 2,使用步驟2離線訓(xùn)練得到的GMM模型和SVM分類器對(duì)步驟3. I得到的音頻特征向量文件進(jìn)行分層識(shí)別,經(jīng)由一定的結(jié)果融合判決策略,得到每一個(gè)音頻片段的類 別標(biāo)簽屬性。其具體識(shí)別過(guò)程為步驟3. 2. I,對(duì)于待識(shí)別的音頻片段的特征向量序列0 = (O1,02,......,0T},該音
頻片段為第I個(gè)音頻事件的后驗(yàn)概率為P(Xl\o)=P^Xl^Xl)
P(O)
iM>-i)p( W
_7] f mxopoi)
1=1其中p U D為第I個(gè)音頻事件的先驗(yàn)概率;p (O)為所有音頻事件條件下特征矢量集O的概率;p (o I X i)為第I個(gè)音頻事件產(chǎn)生的特征矢量集O的條件概率。對(duì)于正類別音頻事件,類別標(biāo)簽I = I ;對(duì)于負(fù)類別音頻事件,I = 2。識(shí)別結(jié)果由最大后驗(yàn)概率給出,SP
「00501 n* = ar^ max P(M I °)
/=1,2式中,n*表示識(shí)別判決結(jié)果。由于每個(gè)音頻事件的先驗(yàn)概率相等,此外,p (O)也相等。則識(shí)別結(jié)果等式可化為n* = ar^ >nax ')(° I ;-/}
1=1,2這樣,最大后驗(yàn)概率準(zhǔn)則就轉(zhuǎn)化為對(duì)數(shù)似然函數(shù)L (o 入丄)=Iog p (0 I 入丄)I = 1,2GMM模型識(shí)別的任務(wù)就是由如下判決公式計(jì)算
權(quán)利要求
1.基于SVM和GMM的特定音頻事件分層泛化識(shí)別方法,其特征在于包括如下步驟步驟1,獲得訓(xùn)練樣本的音頻特征向量文件;所述訓(xùn)練樣本根據(jù)音頻事件種類的不同,分別標(biāo)記為不同的類別標(biāo)簽;每類訓(xùn)練樣本為多個(gè)相同類型音頻事件原始信號(hào)的集合,并且不同訓(xùn)練樣本之間沒(méi)有交疊或者重合; 步驟2,分別使用GMM方法和SVM方法對(duì)步驟I得到的多種訓(xùn)練樣本的音頻特征向量文件進(jìn)行訓(xùn)練,得到具有泛化能力的GMM模型和SVM分類器,完成離線訓(xùn)練; 針對(duì)某ー類型音頻事件,建立GMM模型和SVM分類器的具體方法為 步驟2. 1,對(duì)步驟I得到的所有訓(xùn)練樣本的音頻特征向量文件,使用最大似然估計(jì)通過(guò)最大期望算法,得到該類型音頻事件的高斯混合模型,并將其轉(zhuǎn)化為求最大似然函數(shù) N KS log{ Z cokN(x\fi卜Zkh1I I Ii I 式中,N代表N個(gè)訓(xùn)練樣本,K是高斯混合模型中高斯分布的數(shù)量3是(1維數(shù)據(jù)矢量; ,是第k個(gè)高斯分布的先驗(yàn)概率,且滿足Zf yWA-=I;N(x| uk, Sk)是均值矢量為yk、協(xié)方差矩陣為Sk的高斯密度函數(shù); 根據(jù)所有訓(xùn)練樣本的音頻特征向量文件,使用K均值聚類的方法得到《k、u k、Sk的初始值,最后由最大期望算法通過(guò)迭代為正負(fù)類別音頻事件分別確定ー組《k、uk> 2k;優(yōu)化調(diào)整GMM模型中《k、uk, 2k,使得最大似然函數(shù)的值滿足音頻識(shí)別要求的閾值,得到ー組uk> Sk,完成GMM建模過(guò)程; 步驟2. 2,對(duì)步驟I得到訓(xùn)練樣本的音頻特征向量文件,使用二次型尋優(yōu)方法,將在低維向量空間中線性不可分的訓(xùn)練樣本映射到高維的特征空間,在高維空間中使用徑向基核函數(shù)實(shí)現(xiàn)原低維向量空間中的非線性判決函數(shù),最終得到SVM分類器為n*f(x)= Z }>iaiK(x*Xf)+b I I 其中,n是特征向量的維數(shù),ai=(ai,a2,......, an)是拉格朗日乘子,ピ是最優(yōu)超平面的偏移量,Yi是類別標(biāo)簽值;K(X*Xi)是對(duì)應(yīng)的內(nèi)積核函數(shù),在訓(xùn)練樣本為線性可分情況下,K(x*xi)取 x*xi ; 步驟3,利用步驟2離線訓(xùn)練得到的GMM模型和SVM分類器,對(duì)待測(cè)音頻事件流進(jìn)行在線識(shí)別與融合判決,輸出最終的識(shí)別結(jié)果; 步驟3. 1,首先對(duì)待識(shí)別音頻事件流文件進(jìn)行預(yù)處理,完成待識(shí)別音頻事件流文件的分幀與分段,接著進(jìn)行音頻特征提?。淮R(shí)別音頻事件流提取的音頻特征參數(shù)類別與離線訓(xùn)練過(guò)程中訓(xùn)練樣本的音頻特征參數(shù)類別相同,最后形成待識(shí)別音頻事件流的包含多個(gè)音頻特征片段的音頻特征向量文件; 步驟3. 2,使用步驟2離線訓(xùn)練得到的GMM模型和SVM分類器對(duì)步驟3. I得到的音頻特征向量文件進(jìn)行分層識(shí)別,經(jīng)由一定的結(jié)果融合判決策略,得到每ー個(gè)音頻片段的類別標(biāo)簽屬性;其具體識(shí)別過(guò)程為 步驟3. 2. I,對(duì)于待識(shí)別的音頻片段的特征向量序列O = (O1,02,......,0T},該音頻片段為第I個(gè)音頻事件的后驗(yàn)概率為其中P (A1)為第I個(gè)音頻事件的先驗(yàn)概率;P(0)為所有音頻事件條件下特征矢量集O的概率;p (0 I A x)為第I個(gè)音頻事件產(chǎn)生的特征矢量集0的條件概率;對(duì)于正類別音頻事件,類別標(biāo)簽I = I ;對(duì)于負(fù)類別音頻事件,1 = 2; 識(shí)別結(jié)果由最大后驗(yàn)概率給出,即 n = arg max p(々 | o) /=1,2 式中,n*表示識(shí)別判決結(jié)果;由于每個(gè)音頻事件的先驗(yàn)概率相等,此外,p(0)也相等;則識(shí)別結(jié)果等式可化為 n = arg max p(o | Xj) 1=1,2 這樣,最大后驗(yàn)概率準(zhǔn)則就轉(zhuǎn)化為對(duì)數(shù)似然函數(shù) L (0 I A x) =Iogp (0 I A x) 1=1,2 GMM模型識(shí)別的任務(wù)就是由如下判決公式計(jì)算 *Kn =org max V IogfH /=/ノ k=l 其中P(ok| X1)為第I個(gè)音頻事件產(chǎn)生的特征矢量集Ok的條件概率;系統(tǒng)按照以上步驟3. 2. I的過(guò)程對(duì)每一段的特征向量得到的對(duì)數(shù)累加,使得T最大的類別標(biāo) k I簽就是最后識(shí)別結(jié)果,最后輸出GMM模型識(shí)別的類別標(biāo)簽屬性結(jié)果; 步驟3. 2. 2,將步驟3. I得到的待識(shí)別音頻事件流的音頻特征文件輸入到步驟2. 2訓(xùn)練獲得的SVM分類器中進(jìn)行識(shí)別,對(duì)每一段的特征向量,根據(jù)f (X)的正負(fù)符號(hào)判決特征向量的類別屬性,正數(shù)對(duì)應(yīng)正類型,0和負(fù)數(shù)對(duì)應(yīng)負(fù)類型;最后輸出SVM分類器的識(shí)別的類別標(biāo)簽屬性結(jié)果; 步驟3. 2. 3,結(jié)合步驟3. 2. I和步驟3. 2. 2得到的正負(fù)類別標(biāo)簽屬性結(jié)果,進(jìn)行融合判決,融合判決策略為當(dāng)GMM模型和SVM分類器識(shí)別的類別標(biāo)簽屬性結(jié)果一致,則以此類別標(biāo)簽作為識(shí)別結(jié)果輸出;當(dāng)GMM模型和SVM分類器識(shí)別的類別標(biāo)簽屬性結(jié)果不一致,則輸出負(fù)類別; 步驟3. 3,在步驟3. 2. 3得到的融合后的識(shí)別結(jié)果的基礎(chǔ)上,對(duì)音頻事件類別結(jié)果序列進(jìn)行平滑,去除識(shí)別結(jié)果序列當(dāng)中的毛刺判決,得到最終識(shí)別結(jié)果并輸出。
2.根據(jù)權(quán)利要求I所述的基于SVM和GMM的特定音頻事件分層泛化識(shí)別方法,其特征在于訓(xùn)練樣本的音頻特征向量文件的獲取方法具體為 步驟I. 1,對(duì)輸入的每ー個(gè)訓(xùn)練樣本分別作預(yù)處理首先對(duì)訓(xùn)練樣本中的每個(gè)原始音頻信號(hào)作預(yù)加重處理,減少尖鋭噪音影響,提升高頻信號(hào),然后針對(duì)音頻數(shù)據(jù)添加窗函數(shù)形成音頻幀,設(shè)置一定的幀移,完成音頻分段,最后去除靜音幀;步驟I. 2,提取預(yù)處理后的訓(xùn)練樣本的多種音頻特征,對(duì)多種音頻特征形成的各種特征組合進(jìn)行篩選,獲得最有效的表征音頻特征屬性的參數(shù),形成訓(xùn)練樣本的音頻特征向量文件; 所述的多種音頻特征包括=MFCC及其差分、短時(shí)能量、短時(shí)過(guò)零率和基音頻率。
3.根據(jù)權(quán)利要求I所述的基于SVM和GMM的特定音頻事件分層泛化識(shí)別方法,其特征在于采用“ー對(duì)余”的分類識(shí)別策略,針對(duì)ー類音頻事件建立ー組GMM模型和SVM分類器,將該類型作為正類別,其余類型作為負(fù)類別;并行采用多組GMM模型和SVM分類器能實(shí)現(xiàn)多類型音頻事件識(shí)別。
全文摘要
本發(fā)明涉及一種融合支持向量機(jī)(SVM)和高斯混合模型(GMM)的特定音頻事件分層泛化識(shí)別方法,屬于計(jì)算機(jī)與音頻事件識(shí)別技術(shù)領(lǐng)域。本方法首先獲得訓(xùn)練樣本的音頻特征向量文件,然后分別使用GMM方法和SVM方法對(duì)大量種類繁多的訓(xùn)練樣本的音頻特征向量文件進(jìn)行模型訓(xùn)練,得到具有泛化能力的GMM模型和SVM分類器,完成離線訓(xùn)練。最后使用GMM模型和SVM分類器對(duì)待識(shí)別音頻特征向量文件進(jìn)行分層識(shí)別,經(jīng)由一定的結(jié)果融合判決策略,得到每一個(gè)音頻片段的類別標(biāo)簽屬性。本方法解決了現(xiàn)有特定音頻事件識(shí)別中對(duì)連續(xù)音頻流識(shí)別效率低、持續(xù)時(shí)間特別短的音頻事件漏檢概率高等問(wèn)題,可應(yīng)用于特定音頻檢索和基于內(nèi)容的網(wǎng)絡(luò)音頻監(jiān)管。
文檔編號(hào)G06K9/62GK102799899SQ201210226349
公開日2012年11月28日 申請(qǐng)日期2012年6月29日 優(yōu)先權(quán)日2012年6月29日
發(fā)明者羅森林, 王坤, 潘麗敏, 謝爾曼 申請(qǐng)人:北京理工大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阿合奇县| 南涧| 鄂托克前旗| 蓝田县| 隆尧县| 江安县| 东明县| 类乌齐县| 安龙县| 中西区| 兖州市| 张家界市| 拜泉县| 页游| 华阴市| 思茅市| 内乡县| 和静县| 鹰潭市| 江口县| 鸡西市| 黄石市| 息烽县| 阿鲁科尔沁旗| 若尔盖县| 定安县| 册亨县| 洛阳市| 蕉岭县| 尉氏县| 吉木萨尔县| 永顺县| 康保县| 岑巩县| 会宁县| 五常市| 闸北区| 广东省| 进贤县| 禹城市| 禹城市|