本發(fā)明涉及一種樂音信號分類方法。特別是涉及一種基于多特征融合及特征選擇的樂音信號分類方法。
背景技術(shù):
樂音信號分類的過程主要包括特征提取、分類器分類兩部分。這是樂音信號分類領(lǐng)域使用最廣泛的框架,而且分類準(zhǔn)確率也較高。目前大多數(shù)研究者主要圍繞如何提取到能更好反映信號信息的特征和分類器的選擇兩個方面來研究如何提高分類的準(zhǔn)確率。
用來反映樂音信號信息的特征主要分為三類,包括音色特征、節(jié)奏特征和音高特征。除此之外,還有一些很好的特征可以反映樂音信號的特征,例如基于音程的頻譜散度、基于音程的調(diào)制頻譜散度等。
有很多分類器可以被用來決定歌曲的類型,例如高斯混合模型、支持向量機(jī)技術(shù)、隱馬爾科夫模型等。
在傳統(tǒng)的特征選擇中,可能會有部分特征是冗余的或者是不相關(guān)的。冗余特征會使得提取的特征對樂音信號的某一方面進(jìn)行了過多的表達(dá),而不相關(guān)特征本身不會對分類結(jié)果產(chǎn)生任何影響,也就是說,做了很多無用功來分析處理這種特征。雖然多特征融合有助于更全面地表達(dá)樂音信號的特性,但是卻產(chǎn)生了很高的維度。較高的維度往往會造成維度災(zāi)難,即不同特征之間可能會有部分的重疊,相當(dāng)于對樂音信號的某一方面進(jìn)行了過多地表達(dá),而忽略了其他方面,這反而又會降低分類的準(zhǔn)確率。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是,提供一種在保證學(xué)習(xí)準(zhǔn)確率不下降的前提下具有更快學(xué)習(xí)速度的基于多特征融合及特征選擇的樂音信號分類方法。
本發(fā)明所采用的技術(shù)方案是:一種基于多特征融合及特征選擇的樂音信號分類方法,包括如下步驟:
1)歌曲劃分,將一首歌曲劃分成許多易于提取特征的小段;
2)特征提取,從時域和頻域兩個方面來提取反映樂音信號信息的特征;
3)特征選擇,去除特征中的冗余特征;
4)多特征融合,把不同的特征按照一定的比例融合成一個融合特征;
5)分類和多數(shù)投票,采用極限學(xué)習(xí)機(jī)進(jìn)行分類,根據(jù)分類結(jié)果進(jìn)行多數(shù)投票得到最終的分類結(jié)果。
步驟1)所述的歌曲劃分,是將一段歌曲分成許多段相互覆蓋的紋理窗口,再將每段紋理窗口分成許多段相互覆蓋的分析窗口。
步驟2)所述的從時域和頻域兩個方面來提取反映樂音信號信息的特征,是在分析窗口從時域和頻域兩個方面提取反映樂音信號的短時的特征;所述紋理窗口提取的特征是反映樂音信號變化的特征,具體是所有在分析窗口提取特征的均值和方差。
步驟3)包括:
(1)按音樂流派對每一個信息的特征進(jìn)行分類,并計算分類準(zhǔn)確率,找出分類準(zhǔn)確率最高的特征放入特征子集中;
(2)將剩余的每一個特征分別與特征子集中的特征一起計算分類準(zhǔn)確率,找出分類準(zhǔn)確率最高的特征放入特征子集中;
(3)重復(fù)步驟2),在特征子集中得到m個特征和一個分類準(zhǔn)確率;
(4)對特征子集中每m-1個特征一起計算分類準(zhǔn)確率,共得到m個分類準(zhǔn)確率;
(5)在m個分類準(zhǔn)確率和特征子集中已有的一個分類準(zhǔn)確率中找出一個最高的分類準(zhǔn)確率;
(6)將步驟5)中最高分類準(zhǔn)確率和對應(yīng)所述最高分類準(zhǔn)確率的特征集合共同作為新的特征子集;
(7)當(dāng)最高的分類準(zhǔn)確率是步驟3)中已有的分類準(zhǔn)確率時,返回步驟3),否則返回步驟4),直到特征子集中的特征集合和最高分類準(zhǔn)確率不再變化。
第(1)步所述的分類是采用極限學(xué)習(xí)機(jī)來進(jìn)行分類。
所述的計算分類準(zhǔn)確率就采用如下公式:
式中,n為音樂流派的個數(shù),data為混淆矩陣,datai,j為混淆矩陣第i行第j列的值。
步驟4)包括:按音樂流派進(jìn)行分類并對每一個特征進(jìn)行分類準(zhǔn)確率計算,將分類準(zhǔn)確率由高至低設(shè)為:
步驟5)所述的多數(shù)投票,是通過極限學(xué)習(xí)機(jī)預(yù)測每一個紋理窗口的流派,占有窗口最多的流派為這首歌曲的流派,即為分類結(jié)果。
本發(fā)明的基于多特征融合及特征選擇的樂音信號分類方法,將特征選擇引入樂音信號分類中,選取最精簡卻最有效的特征子集來避免維度災(zāi)難,提高分類準(zhǔn)確率,從而在保證學(xué)習(xí)準(zhǔn)確率不下降的前提下具有更快學(xué)習(xí)速度的分類方式。相比傳統(tǒng)的多特征融合的分類準(zhǔn)確率提高了三個百分點。因此本發(fā)明提出的基于分類準(zhǔn)確率的多特征融合方法可以在一定程度上提高分類準(zhǔn)確率。
附圖說明
圖1是本發(fā)明基于多特征融合及特征選擇的樂音信號分類方法的流程圖;
圖2是單特征、多特征融合以及本發(fā)明的多特征融合的分類準(zhǔn)確率對比圖;
圖2中,特征1是調(diào)制頻譜散度;2是調(diào)制頻譜平整度和調(diào)制頻譜峰值;3是梅爾頻率倒譜系數(shù);4是基于音程的頻譜散度;5是標(biāo)準(zhǔn)化聲音頻譜包絡(luò);6是過零率;7是頻譜峰值因子;8是頻譜下降率;9是譜平度;10是頻譜音高色度;11是頻譜斜率;12是自相關(guān)系數(shù);13是最大自相關(guān);14是峰值包絡(luò);15是預(yù)測率;16是標(biāo)準(zhǔn)差;17是傳統(tǒng)的多特征融合;18是改進(jìn)后的多特征融合。
圖3是選擇不同數(shù)量的特征的最優(yōu)分類準(zhǔn)確率對比圖。
具體實施方式
下面結(jié)合實施例和附圖對本發(fā)明的基于多特征融合及特征選擇的樂音信號分類方法做出詳細(xì)說明。
本發(fā)明的基于多特征融合及特征選擇的樂音信號分類方法,將特征選擇引入樂音信號的自動分類中,采用基于wrapper框架的序列浮動選擇算法來進(jìn)行特征選擇,此外還提出一種新的基于分類準(zhǔn)確率的多特征融合方式,為提高樂音信號分類的準(zhǔn)確率和效率有效地提供了幫助。
如圖1所示,本發(fā)明的基于多特征融合及特征選擇的樂音信號分類方法,包括如下步驟:
1)歌曲劃分,將一首歌曲劃分成許多易于提取特征的小段;
所述的歌曲劃分,是將一段歌曲分成許多段相互覆蓋的紋理窗口,再將每段紋理窗口分成許多段相互覆蓋的分析窗口。
2)特征提取,從時域和頻域兩個方面來提取反映樂音信號信息的特征;
所述的從時域和頻域兩個方面來提取反映樂音信號信息的特征,是在分析窗口從時域和頻域兩個方面提取反映樂音信號的短時的特征,信號從時域到頻域上的轉(zhuǎn)化可以通過離散傅里葉變換來實現(xiàn);所述紋理窗口提取的特征是反映樂音信號變化的特征,具體是所有在分析窗口提取特征的均值和方差。
3)特征選擇,去除特征中的冗余特征;
特征選擇算法一般是由生成不同特征子集的搜索算法、對某個特定的特征子集進(jìn)行評價的評價方法和停止條件三部分構(gòu)成。根據(jù)在特征選擇時是否需要對特征子集進(jìn)行分類,可以將特征選擇分為兩類:filter類型和wrapper類型。wrapper類型的特征選擇是直接以得到更高的分類準(zhǔn)確率為目標(biāo)的,所以這它通常比filter類型的特征選擇得到的結(jié)果更好。本發(fā)明采用的特征選擇算法是基于wrapper類型的增l去r選擇算法。
本發(fā)明的特征選擇是使用序列浮動選擇算法,序列浮動選擇算法也包括序列浮動前向選擇和序列浮動后向選澤兩種算法。序列浮動前向選擇算法同樣是從空集開始,然后每次在未選擇的特征中選擇一個特征,使得添加這個特征后的特征子集的特征函數(shù)值達(dá)到最優(yōu),然后在已選擇的特征子集中再選擇一個子集,使得去除這個特征子集后的特征子集的特征函數(shù)值達(dá)到最優(yōu)。因此,如果特征子集的特征函數(shù)不能再優(yōu)化,那么就根本不需要進(jìn)行回溯過程。序列浮動后向選澤算法也是同樣的道理。在算法過程中回溯過程是動態(tài)控制的,所以根本不需要設(shè)置任何參數(shù)。
本發(fā)明的特征選擇具體包括:
(1)按音樂流派對每一個信息的特征進(jìn)行分類,并計算分類準(zhǔn)確率,找出分類準(zhǔn)確率最高的特征放入特征子集中,所述的分類是采用極限學(xué)習(xí)機(jī)(elm)來進(jìn)行分類;
(2)將剩余的每一個特征分別與特征子集中的特征一起計算分類準(zhǔn)確率,找出分類準(zhǔn)確率最高的特征放入特征子集中;
所述的計算分類準(zhǔn)確率就采用如下公式:
式中,n為音樂流派的個數(shù),data為混淆矩陣,datai,j為混淆矩陣第i行第j列的值。
(3)重復(fù)步驟2),在特征子集中得到m個特征和一個分類準(zhǔn)確率;
(4)對特征子集中每m-1個特征一起計算分類準(zhǔn)確率,共得到m個分類準(zhǔn)確率;
(5)在m個分類準(zhǔn)確率和特征子集中已有的一個分類準(zhǔn)確率中找出一個最高的分類準(zhǔn)確率;
(6)將步驟5)中最高分類準(zhǔn)確率和對應(yīng)所述最高分類準(zhǔn)確率的特征集合共同作為新的特征子集;
(7)當(dāng)最高的分類準(zhǔn)確率是步驟3)中已有的分類準(zhǔn)確率時,返回步驟3),否則返回步驟4),直到特征子集中的特征集合和最高分類準(zhǔn)確率不再變化。
4)多特征融合,把不同的特征按照一定的比例融合成一個融合特征;包括:
按音樂流派進(jìn)行分類并對每一個特征進(jìn)行分類準(zhǔn)確率計算,將分類準(zhǔn)確率由高至低設(shè)為:
5)分類和多數(shù)投票,采用極限學(xué)習(xí)機(jī)(elm)進(jìn)行分類,根據(jù)分類結(jié)果進(jìn)行多數(shù)投票得到最終的分類結(jié)果。所述的多數(shù)投票,是通過極限學(xué)習(xí)機(jī)預(yù)測每一個紋理窗口的流派,占有窗口最多的流派為這首歌曲的流派,即為分類結(jié)果。
本發(fā)明實施例中分析窗口的大小為23ms,紋理窗口的大小為9s,從時域和頻域兩個方面來提取反映樂音信號信息的特征,共提取了16種特征。從而根據(jù)一首曲子的每一段紋理窗口特征來決定這首曲子的流派。
從圖2中可以看出本發(fā)明的本發(fā)明的基于多特征融合及特征選擇的樂音信號分類方法確實會提高分類準(zhǔn)確率。圖中還列出了對單個特征進(jìn)行分類的分類準(zhǔn)確率,可以看到最差的分類準(zhǔn)確率有31%,而最好的分類準(zhǔn)確率有81%。本發(fā)明的方法也得到了實驗結(jié)果的證實,可以看到傳統(tǒng)的多特征融合得到的分類準(zhǔn)確率只有82%,而本發(fā)明的方法得到的分類準(zhǔn)確率卻有85:6%之多,相比傳統(tǒng)的多特征融合的分類準(zhǔn)確率提高了三個百分點。因此本發(fā)明的基于多特征融合及特征選擇的樂音信號分類方法確實可以在一定程度上提高分類準(zhǔn)確率。
本發(fā)明采用了基于wrapper類型的序列浮動算法來進(jìn)行特征選擇,即每計算出一個備選的特征子集,都會對這個特征子集進(jìn)行分類。本發(fā)明分別計算了提取不同數(shù)量的特征得到的分類準(zhǔn)確率如圖3所示。
從圖3中可以看出本發(fā)明所采用的特征選擇方法確實會提高分類準(zhǔn)確率。當(dāng)融合全部16種特征時得到的分類準(zhǔn)確率只有82%,而當(dāng)進(jìn)行特征選擇后分類準(zhǔn)確率最高達(dá)到了89.5%之多,相比沒有進(jìn)行特征選擇的分類準(zhǔn)確率提高了七個百分點。這也確實說明了提取的16種特征中存在冗余特征或者不相關(guān)特征。通過觀察可以看到,選擇4種特征和選擇11種特征都會達(dá)到89.5%的分類準(zhǔn)確率,但是根據(jù)特征數(shù)量越少越好的原則,本發(fā)明選擇4種特征即可,這是因為特征數(shù)量越少,分類時間越短,選擇4種特征的分類時間是107s,選擇16種特征的分類時間是348s,在保證分類準(zhǔn)確率不下降的情況下分類時間越短越好,所以選擇了這4種特征來進(jìn)行分類。