專利名稱:用于快速音樂分類和檢索的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種快速音樂分類和檢索的方法,更具體地說,涉及這樣一種方法和設(shè)備,其根據(jù)音樂文件的情感對音樂文件進(jìn)行分類,并且通過給定一個(gè)特定的音樂文件從音樂集中搜索與該特定的音樂文件的情感最相似的音樂文件。
背景技術(shù):
在自動(dòng)檢測音樂的情感的傳統(tǒng)方法中,音色特征(例如,譜形特征、譜對比特征)和節(jié)奏特征(例如,強(qiáng)度特征)、平均激烈度(strength)、平均規(guī)律(regularity)以及平均節(jié)拍(tempo)被提取并且用于對音樂的情感進(jìn)行分類。另外,在自動(dòng)檢測音樂的情感的一些傳統(tǒng)方法中,利用高斯混合模型(GMM)將音樂的情感通過等級結(jié)構(gòu)分為四類。但是,在自動(dòng)檢測音樂的情感的傳統(tǒng)方法中,因?yàn)楸仨殢木幋a的音樂文件被解碼的解壓縮域中提取音樂的特征,所以提取速度很慢,結(jié)果檢測的速度降低了。另外,在自動(dòng)檢測音樂的情感的一些傳統(tǒng)方法中,通過建模簡單地限定而不管音樂的類型的情感類來分類音樂的情感,從而產(chǎn)生許多分類錯(cuò)誤。
相反地,在傳統(tǒng)的音樂推薦(recommendation)系統(tǒng)中,存儲在硬盤驅(qū)動(dòng)器(HDD)上的大容量的音樂文件被根據(jù)用戶的喜好進(jìn)行分類。具體地說,例如,在傳統(tǒng)的音樂推薦系統(tǒng)中存儲了249首曲調(diào),10種曲調(diào)代表用戶指定的每種情感,并且用戶對于每種曲調(diào)適合/不適合做出反饋,從而對被分類為歡快、激動(dòng)、平靜、悲傷和平復(fù)的情感的音樂進(jìn)行選擇。但是,在這種傳統(tǒng)的音樂推薦系統(tǒng)中,因?yàn)楸仨殢木幋a的音樂文件被解碼的解壓縮域中提取音樂的特征,所以提取速度很慢。
如上所述,在傳統(tǒng)的音樂情感分類方法中,因?yàn)樾枰獙幋a的音樂文件(例如,MP3)解壓為PCM數(shù)據(jù)以便從解壓縮域中提取音樂文件的特征(例如,音色、節(jié)拍和強(qiáng)度),所以提取速度慢。
第2007/0107584號美國專利申請公開了一種從音樂文件的壓縮域中提取基于修正離散余弦變換(MDCT)的音色特征和節(jié)拍特征的方法和設(shè)備,并且基于提取的音色特征和提取的節(jié)拍特征對音樂的情感進(jìn)行分類。在所述申請中,GMM直接使用短時(shí)特征進(jìn)行分類,使得分類較復(fù)雜并且分類速度相對慢。
因此,需要一種更快速的音樂文件情感分類方法和設(shè)備。
發(fā)明內(nèi)容
提出本發(fā)明以解決以上在傳統(tǒng)技術(shù)中出現(xiàn)的不足和缺點(diǎn),并且提供以下優(yōu)點(diǎn)。
本發(fā)明的一方面提供一種用于快速音樂分類的方法,包括以下步驟輸入音樂文件;提取輸入的音樂文件的每一幀的基于修正離散余弦變換(MDCT)的聲學(xué)特征;計(jì)算每一幀的能量;按照能量大小將每一幀的聲學(xué)特征進(jìn)行排序。
根據(jù)本發(fā)明的一方面,所述方法還包括以下步驟將排序后的聲學(xué)特征劃分為多個(gè)段;針對所述多個(gè)段中的一個(gè)或多個(gè)計(jì)算均值和標(biāo)準(zhǔn)偏差;將計(jì)算的均值和標(biāo)準(zhǔn)偏差組合成向量。
本發(fā)明的另一方面提供一種用于從音樂集中搜索與預(yù)定音樂文件的情感最相似的音樂文件的相似性搜索方法,包括以下步驟輸入音樂文件;針對輸入的音樂文件的每一幀提取基于MDCT的聲學(xué)特征;計(jì)算每一幀的能量;按照能量大小將每一幀的聲學(xué)特征進(jìn)行排序。
根據(jù)本發(fā)明的另一方面,所述方法還包括以下步驟將排序后的聲學(xué)特征劃分為多個(gè)段;針對所述多個(gè)段中的一個(gè)或多個(gè)計(jì)算均值和標(biāo)準(zhǔn)偏差;將計(jì)算的均值和標(biāo)準(zhǔn)偏差組合成向量。
本發(fā)明的另一方面提供一種用于音樂情感分類的設(shè)備,包括以下部分基于MDCT的特征提取部分,當(dāng)輸入音樂文件時(shí),用于從所述音樂文件中提取基于MDCT的聲學(xué)特征;特征向量創(chuàng)建部分,用于通過計(jì)算輸入的音樂文件的每一幀的能量、按照能量大小排序從基于MDCT的特征提取部分輸出的聲學(xué)特征來創(chuàng)建輸入的音樂文件的最終特征向量;基于支持向量機(jī)(SVM)的情感分類器,用于根據(jù)特征向量創(chuàng)建部分創(chuàng)建的最終特征向量來對輸入的音樂文件的情感進(jìn)行分類。
根據(jù)本發(fā)明的另一方面,特征向量創(chuàng)建部分通過將排序后的聲學(xué)特征劃分為多個(gè)段,計(jì)算所述多個(gè)段中的一個(gè)或多個(gè)的均值和標(biāo)準(zhǔn)偏差并且將計(jì)算后的均值和標(biāo)準(zhǔn)偏差組合來創(chuàng)建最終特征向量。
本發(fā)明的另一方面提供一種用于從音樂集中搜索與預(yù)定音樂文件的情感最相似的音樂文件的相似性搜索設(shè)備,包括以下部分基于MDCT的特征提取部分,當(dāng)輸入音樂文件時(shí),用于從所述音樂文件中提取基于MDCT的聲學(xué)特征;特征向量創(chuàng)建部分,用于通過計(jì)算輸入的音樂文件的每一幀的能量、按照能量大小排序從基于MDCT的特征提取部分輸出的聲學(xué)特征來創(chuàng)建輸入的音樂文件的最終特征向量;基于SVM的情感分類器,用于根據(jù)特征向量創(chuàng)建部分創(chuàng)建的最終特征向量來從音樂集中搜索與預(yù)定音樂文件的情感最相似的音樂文件。
根據(jù)本發(fā)明的另一方面,特征向量創(chuàng)建部分通過將排序后的聲學(xué)特征劃分為多個(gè)段,計(jì)算所述多個(gè)段中的一個(gè)或多個(gè)的均值和標(biāo)準(zhǔn)偏差并且將計(jì)算后的均值和標(biāo)準(zhǔn)偏差組合來創(chuàng)建最終特征向量。
在本發(fā)明中使用的短時(shí)特征,通常是MFCC和音色特征是直接從MDCT系數(shù)中提取的。所以特征提取的處理速度非???。為了對一首音樂進(jìn)行分類,僅需對該音樂文件的12秒長度的部分進(jìn)行解碼。
通過有效的統(tǒng)計(jì)學(xué)處理,并且一個(gè)音樂文件最終僅輸出一個(gè)用于分類的特征向量,因此,大大提高了分類速度。
通常,本發(fā)明提供一種快速音樂分類的方法。并且本發(fā)明應(yīng)用在只支持MP3解碼的軟件的消費(fèi)品也可成功實(shí)現(xiàn)實(shí)時(shí)的分類。
通過下面結(jié)合附圖對實(shí)施例進(jìn)行的描述,本發(fā)明的上述和/或其它目的和特點(diǎn)將會(huì)變得更加清楚,其中 圖1是根據(jù)本發(fā)明實(shí)施例的快速音樂分類和檢索的系統(tǒng)概括圖; 圖2示出了根據(jù)本發(fā)明實(shí)施例的基于MDCT的特征提取以及傳統(tǒng)的基于DFT的特征提取的比較示圖; 圖3是根據(jù)本發(fā)明實(shí)施例的基于MDCT的MFCC提取的流程圖; 圖4示出了在一個(gè)音樂文件中基于MDCT的聲學(xué)特征提取的位置和時(shí)間段的示圖; 圖5是顯示根據(jù)本發(fā)明實(shí)施例的創(chuàng)建新類型的特征向量的流程圖; 圖6是示出用于訓(xùn)練SVM分類器和情感分類的最終特征向量的結(jié)構(gòu)的示圖。
具體實(shí)施例方式 現(xiàn)在,將參照附圖詳細(xì)說明本發(fā)明的實(shí)施例,其例子表示在附圖中,圖中相同的標(biāo)號始終指代相同的部件和步驟。以下,通過參照附圖描述實(shí)施例以解釋本發(fā)明。
圖1是根據(jù)本發(fā)明實(shí)施例的快速音樂分類和檢索的系統(tǒng)概括圖。如圖1所示,當(dāng)用戶輸入一個(gè)MP3文件時(shí),系統(tǒng)輸出該輸入的MP3文件的情感類型。
根據(jù)本發(fā)明的系統(tǒng)主要包括以下三個(gè)部分基于MDCT的特征提取部分100、新類型的特征向量創(chuàng)建部分200和基于支持向量機(jī)(SVM)的情感分類器300。
基于MDCT的特征提取部分100從音樂文件的壓縮域中提取聲學(xué)音樂特征,尤其是提取音色特征集和Mel倒譜系數(shù)(MFCC)。具體地說,基于MDCT的特征提取部分100通過對編碼(例如,使用MP3方法編碼)的音樂文件的一部分進(jìn)行解碼可提取MDCT系數(shù),可從提取的MDCT系數(shù)中選取預(yù)定的一部分,并且可從選取的MDCT系數(shù)中提取聲學(xué)音樂特征。
新類型的特征向量創(chuàng)建部分200通過預(yù)定的統(tǒng)計(jì)學(xué)方法從提取的升學(xué)音樂特征中創(chuàng)建作為輸出的新類型的特征向量以用于音樂文件情感分類。
如上所述,應(yīng)該理解,因?yàn)榛贛DCT的特征提取部分100從音樂文件的壓縮域中提取聲學(xué)音樂特征,并且只有一個(gè)用于音樂文件情感分類的向量從特征向量創(chuàng)建部分200輸出,所以分類速度相對于傳統(tǒng)方法較快。
基于SVM的情感分類器300基于從特征向量創(chuàng)建部分200輸出的向量對音樂文件的情感進(jìn)行分類。例如,具體地說,基于SVM的情感分類器300可基于從特征向量創(chuàng)建部分200輸出的向量將音樂文件的情感分類為高興、悲傷、平靜和甜美中的任何一種。
以下,將詳細(xì)描述基于MDCT的特征提取部分100、特征向量創(chuàng)建部分200和基于SVM的情感分類器300。
基于MDCT的特征提取部分100用于從音樂文件的壓縮域中提取聲學(xué)音樂特征,特別是音色特征集和MFCC。
圖2是根據(jù)本發(fā)明實(shí)施例的基于MDCT的特征提取以及傳統(tǒng)的基于離散傅立葉變換(DFT)的特征提取的比較的示圖。
如圖2所示,根據(jù)本發(fā)明,直接從MDCT系數(shù)中提取音樂特征??梢钥闯?,根據(jù)本發(fā)明的基于MDCT的特征提取不需要非常耗時(shí)間的修正離散余弦反變換(IMDCT)合成和多相合成(polyphase synthesis)的步驟。因此,基于MDCT的特征提取顯著地提高了特征提取的速度。
實(shí)際上,在壓縮文件的解碼過程當(dāng)中,就內(nèi)嵌了子帶濾波信號,比如修正離散余弦變換系數(shù)等,這一信號普遍存在于MP3、AC-3、Ogg Vorbis,AAC等多種音頻壓縮格式中。直接從這些信號中提取特征,將顯著提高系統(tǒng)特征提取的效率。
在MP3編解碼過程中,多相位濾波器組將數(shù)字音頻信號等分成為32個(gè)子帶信號,而修正離散余弦變換系數(shù)則通過在頻域方向上的細(xì)分,得到更為精細(xì)的頻率分辨率。對于標(biāo)準(zhǔn)的44.1kHz采樣頻率的MP3文件而言,其幀長約為13ms,每幀包含576個(gè)修正離散余弦變換系數(shù)子帶,每個(gè)子帶帶寬約為38.28Hz。
以下,將詳細(xì)描述提取音樂文件的基于MDCT的聲學(xué)特征(音色特征和MFCC)的過程。這里,用St(i)表示修正離散余弦變換系數(shù),其中t表示MDCT子帶系數(shù),范圍為0至575,i為MDCT系數(shù)序號。
音色特征是表征音頻信號聲學(xué)特點(diǎn)的一類特征,通常由時(shí)長、能量、音高、和弦結(jié)構(gòu)等參數(shù)來描述,基于短時(shí)傅立葉變換計(jì)算得到。而本實(shí)施例中所提取的所有音色特征,則是以修正離散余弦變換系數(shù)來代替信號的短時(shí)頻譜而來的,覆蓋了65Hz~8372Hz共計(jì)7個(gè)八度的頻率范圍。在下列公式中,N0和N分別表示了對應(yīng)65Hz和8372Hz的修正離散余弦變換系數(shù)的序號。
公式(1)表示修正離散余弦變換子帶質(zhì)心,其用于表示信號是高頻占主導(dǎo)還是低頻占主導(dǎo),類似于物體的重心。
公式(2)表示修正離散余弦變換子帶帶寬,其用于表示MDCT譜的形狀。
公式(3)表示修正離散余弦變換子帶滾降,也用于表示一幀MDCT系數(shù)的形狀,即數(shù)值集中于低頻部分,還是高頻部分。
公式(4)表示修正離散余弦變換子帶通量,用于描述相鄰MDCT幀間的變化情況,類似于加速度的概念。
公式(5)表示修正離散余弦變換子帶平坦度,即估計(jì)幾何均值與算術(shù)均值的比率,用于描述信號譜的平坦度 公式(6)、(7)、(8)表示修正離散余弦變換子帶對比系數(shù)。
在音樂分類領(lǐng)域,基于音樂八度的譜對比系數(shù)要比常見的MFCC提供更佳的區(qū)分度?;谝魳钒硕鹊淖V對比特征集由八度子帶的峰值、谷值、均值組成。
本發(fā)明的實(shí)施例使用了基于MDCT系數(shù)的對比系數(shù),選擇了7個(gè)子帶,每個(gè)子帶覆蓋了一個(gè)八度的頻率范圍65~131Hz、131~262Hz、262~523Hz、523~1047Hz、1047~2093Hz、2093~4186Hz、4186~8372Hz。
對于第k個(gè)子帶,可以將其包含的MDCT系數(shù)按照降序排列,得到序列{|St(k,1)|>|St(k,2)|>Λ>|St(k,Nk)|},而該子帶的峰值、谷值、均值分別可根據(jù)公式(6)、(7)、(8)求得 其中Nk是第k個(gè)子帶修正離散余弦變換系數(shù)的序號,而α則是一個(gè)0.02到0.2之間的常數(shù),使得相鄰的八度子帶之間有一定的交疊。
可見,本文中每幀音色特征均由26個(gè)分量組成,包括修正離散余弦變換子帶質(zhì)心、帶寬、滾降、通量、平坦度和21個(gè)對比系數(shù)。每幀音色特征均與MP3幀同步,其幀移亦為13ms。
圖3是根據(jù)本發(fā)明實(shí)施例的基于MDCT的MFCC提取的流程圖。如圖3所示,基于MDCT的MFCC提取可通過如下步驟實(shí)現(xiàn)針對每一幀的MDCT系數(shù)應(yīng)用Mel濾波器組分析,接著,對Mel濾波器組分析的結(jié)果進(jìn)行離散余弦變換(DCT)得到MFCC系數(shù)。以上基于MDCT的MFCC提取的過程對于本領(lǐng)域技術(shù)人員來說是公知的,因此,為了簡明起見,在此不做詳細(xì)描述。
傳統(tǒng)的特征提取方法對音樂文件的固定位置的固定長度部分進(jìn)行分析,這使得最終的結(jié)果(即,音樂文件的情感類型)極大地依賴所述位置和所述長度。根據(jù)本發(fā)明,不對音樂文件的起始部分和終止部分進(jìn)行分析,這是因?yàn)閷τ诙鄶?shù)音樂文件來說,這些部分比較相似,都是平緩的或是樂器的伴奏。根據(jù)本發(fā)明的當(dāng)前實(shí)施例,在音樂文件的中間部分選取固定長度(3秒)的4段以進(jìn)行分析,并且從所述4段分別基于MDCT提取聲學(xué)特征,如圖4所示。
圖5是顯示根據(jù)本發(fā)明實(shí)施例的創(chuàng)建新類型的特征向量的流程圖,圖6是示出用于訓(xùn)練SVM分類器和情感分類的最終特征向量的結(jié)構(gòu)的示圖。
在步驟201中,通過將基于MDCT的短時(shí)聲學(xué)音樂特征(包括音色特征集和MFCC)組合而創(chuàng)建作為系統(tǒng)輸入的向量。輸入音樂文件的基于MDCT的聲學(xué)特征,即,將根據(jù)步驟100得到的基于MDCT的MFCC和音色特征組合為一個(gè)向量作為輸入。該向量的各系數(shù)的順序可由用戶確定或由系統(tǒng)指定。在用戶輸入音樂文件之后,音樂文件的中間部分被選取出各自具有3s長度的4段。從所述4段中分別提取每一幀的基于MDCT的短時(shí)聲學(xué)音樂特征。然后,對于所選出的4段的每一幀,這些提取出的基于MDCT的短時(shí)聲學(xué)特征組合成一個(gè)向量作為輸入。
在步驟202中,計(jì)算從輸入的音樂文件中選取的部分的每一幀的能量。根據(jù)本發(fā)明的當(dāng)前實(shí)施例,所述能量通過將每一幀的576個(gè)MCDT系數(shù)相加而得到。
在步驟203中,按照在步驟202中計(jì)算得到的每一幀的能量的降序排列每一幀的聲學(xué)特征向量。
在步驟204中,將排列后的聲學(xué)特征向量組成的序列劃分為四段,所述四段分別占所述序列的總長的12.5%、50%、25%和12.5%。
在步驟205中,分別針對步驟204中的前三段計(jì)算均值和標(biāo)準(zhǔn)偏差。實(shí)際上,每一部分的均值是維數(shù)與每一幀的聲學(xué)特征向量的維數(shù)相同的向量。相似地,每一部分的標(biāo)準(zhǔn)偏差是維數(shù)與每一幀的聲學(xué)特征向量的維數(shù)相同的向量。
根據(jù)本發(fā)明的實(shí)施例,因?yàn)槟芰孔钚〉?2.5%的最后一段的區(qū)分性最小,所以將這段丟棄。但是,本發(fā)明不限于上述實(shí)施例,例如,上述四段中的后兩段可被丟棄或者可以不丟棄任一段。應(yīng)該清楚的是,丟棄的部分越多,音樂分類的速度越快。
以下,為了清楚和簡明起見,將僅針對12.5%的第一段詳細(xì)描述計(jì)算的均值和標(biāo)準(zhǔn)偏差向量。這里,為了方便描述,假設(shè)12.5%的第一段音樂文件具有N個(gè)D維的向量,均值{mi}和標(biāo)準(zhǔn)偏差{di}分別從這N個(gè)向量中計(jì)算出,其中,i是范圍為從1到D變化的自然數(shù),mi和di分別是計(jì)算的均值向量和標(biāo)準(zhǔn)偏差向量的第i個(gè)系數(shù)。當(dāng)然,計(jì)算的均值向量和標(biāo)準(zhǔn)偏差向量可組合成為一個(gè)向量。根據(jù)本發(fā)明的實(shí)施例,針對每個(gè)部分計(jì)算的統(tǒng)計(jì)值組合為一個(gè)向量,因此,針對前三段計(jì)算出三個(gè)統(tǒng)計(jì)學(xué)向量。
在步驟206中,將在步驟205中計(jì)算得到的均值和標(biāo)準(zhǔn)偏差前后連接組成一個(gè)最終的特征向量,如圖6所示。
在步驟207中,輸出最終的特征向量,將其用于訓(xùn)練基于SVM的情感分類器以及基于音樂情感分類。
應(yīng)該理解,以上實(shí)施例只是示例性的,并不用于限制本發(fā)明的范圍。例如,將在不脫離本發(fā)明的原理的情況下,在步驟203中,可按照在步驟202中計(jì)算得到的每一幀的能量的升序排列每一幀的聲學(xué)特征向量??蓪⑴帕泻蟮奶卣餍蛄袆澐譃槎喽味幌抻谒亩?,并且每一段占總長的百分比也可根據(jù)需要改變。
當(dāng)經(jīng)過步驟201至207輸出音樂文件的最終的特征向量時(shí),基于SVM的情感分類器300利用所述最終的特征向量對音樂文件的情感進(jìn)行分類。
根據(jù)本發(fā)明的實(shí)施例,用預(yù)先標(biāo)記的情感音樂文件庫訓(xùn)練基于SVM的情感分類器300,其中,使用的核函數(shù)是用于計(jì)算兩個(gè)向量之間的距離的徑向基函數(shù)(RBF)。當(dāng)然,用于訓(xùn)練基于SVM的情感分類器300的預(yù)先標(biāo)記的情感音樂文件庫中的每個(gè)音樂文件都經(jīng)過上述步驟201至207被計(jì)算出最終的特征向量。預(yù)先標(biāo)記的情感音樂文件庫中的音樂文件按照以下四類情感進(jìn)行分類愉悅、悲傷、平靜、甜美,但是本發(fā)明并不限于此,例如,預(yù)先標(biāo)記的情感音樂文件庫中的音樂文件可按照平靜、悲傷、高興和激動(dòng)或者其它類型來分類。由于訓(xùn)練基于SVM的情感分類器300的過程是本領(lǐng)域技術(shù)人員公知的,因此,將省略對訓(xùn)練分類器的過程的描述。
通過根據(jù)本發(fā)明的實(shí)施例訓(xùn)練后的基于SVM的情感分類器300基于通過步驟201至207計(jì)算得到的最終的特征向量,根據(jù)音樂的情感將音樂文件按照以下四類進(jìn)行劃分,所述四類為愉悅、悲傷、平靜、甜美。
根據(jù)本發(fā)明的另一實(shí)施例,還公開了一種在音樂集中搜索與預(yù)定音樂文件的情感最相似的情感的音樂文件(以下,稱作相似性搜索)的方法。
在根據(jù)本發(fā)明實(shí)施例的相似性搜索方法中,選擇在步驟204中獲得的四段中能量第二強(qiáng)的50%的第二段。能量最強(qiáng)的第一段和能量第三強(qiáng)的第三段均被舍棄,這是因?yàn)樗鼈兿鄬τ诘诙螀^(qū)別性較弱。另外,根據(jù)本發(fā)明的實(shí)施例,只針對第二段計(jì)算均值和標(biāo)準(zhǔn)偏差將大大提高相似性搜索的速度。第二段的統(tǒng)計(jì)學(xué)向量(即均值和標(biāo)準(zhǔn)偏差)被用作相似性搜索的相似性測量向量。然后,將該相似性測量向量的每個(gè)系數(shù)都標(biāo)準(zhǔn)化到N(0,1)分布。被標(biāo)準(zhǔn)化的相似性測量向量被稱作標(biāo)準(zhǔn)特征向量。
當(dāng)用戶輸入一個(gè)MP3文件并且希望在一個(gè)音樂集中搜索到與其輸入的文件情感最相似的文件時(shí),提取該輸入的MP3文件的標(biāo)準(zhǔn)特征向量。同時(shí),該音樂集中所有音樂文件的標(biāo)準(zhǔn)特征向量也被預(yù)先提取出,并被存儲在該音樂集中。根據(jù)本發(fā)明實(shí)施例的相似性搜索通過將該輸入的MP3文件的標(biāo)準(zhǔn)特征向量與音樂集中的所有音樂文件的標(biāo)準(zhǔn)特征向量進(jìn)行比較,并找到與輸入的MP3文件的標(biāo)準(zhǔn)特征向量最接近的標(biāo)準(zhǔn)特征向量來執(zhí)行。與該最接近的標(biāo)準(zhǔn)特征向量對應(yīng)的音樂文件即為與輸入的MP3文件的情感最相似的音樂文件。
以下是根據(jù)本發(fā)明實(shí)施例的相似性搜索所使用的等式。假設(shè)在所述音樂集中有M個(gè)音樂文件,i的范圍為從1到M。假設(shè)N是標(biāo)準(zhǔn)特征向量的維數(shù),n的范圍為從1到N。
在以上等式中,表示用戶輸入的MP3文件的標(biāo)準(zhǔn)特征向量;表示音樂集中第i個(gè)音樂文件的標(biāo)準(zhǔn)特征向量。
表示兩個(gè)二維向量之間的距離,根據(jù)公知技術(shù)可知 上述等式的含義為首先針對第i個(gè)音樂文件計(jì)算出
的最大值,其中,n=1~N;然后在M個(gè)最大值中取最小值。與所述最小值對應(yīng)的那個(gè)音樂文件即為音樂集中與輸入的音樂文件情感最相似的音樂文件。
在此公開的本發(fā)明可被用于關(guān)于音樂和多媒體內(nèi)容的多種產(chǎn)品。例如,本發(fā)明可用于個(gè)人PC、MP3播放器、移動(dòng)電話等的音樂管理工具。
根據(jù)上述本發(fā)明的實(shí)施例,提供了用于根據(jù)音樂的情感用于快速音樂分類和搜索的方法和設(shè)備,其通過提取壓縮域中的音樂文件的基于MDCT的聲學(xué)特征,根據(jù)每一幀的能量來排列這些基于MDCT的聲學(xué)特征,并從每一音樂文件中提取出一個(gè)最終的特征向量。根據(jù)本發(fā)明的用于分類的最終的特征向量的統(tǒng)計(jì)學(xué)計(jì)算方法不同于傳統(tǒng)方法。根據(jù)本發(fā)明的統(tǒng)計(jì)學(xué)計(jì)算方法最大限度地體現(xiàn)了短時(shí)特征的特點(diǎn),并且盡可能地去除音樂組分在不同位置的影響。
根據(jù)上述本發(fā)明的上述實(shí)施例,還提供一種自動(dòng)地將下載的或離線存儲的音樂文件自動(dòng)分類的方法和設(shè)備。情感分類的結(jié)果可被存儲在數(shù)據(jù)庫中或被存儲在音樂文件中。因此,用戶可選擇期望情感類型的音樂文件。
根據(jù)上述本發(fā)明的實(shí)施例,還提供一種用于從音樂集中選擇情感與給定的音樂文件的情感最相似的音樂文件的方法和設(shè)備。首先,給定的音樂文件的統(tǒng)計(jì)學(xué)向量和音樂集中的音樂文件的統(tǒng)計(jì)學(xué)向量被按照步驟201至207提取出來;然后,將上述統(tǒng)計(jì)學(xué)向量標(biāo)準(zhǔn)化為標(biāo)準(zhǔn)特征向量;最后,將給定的音樂文件的標(biāo)準(zhǔn)特征向量與音樂集中的音樂文件的標(biāo)準(zhǔn)特征向量進(jìn)行比較。比較方法可用Dmin-max來實(shí)現(xiàn),也可用本領(lǐng)域內(nèi)公知的其它的向量之間距離的測量方法來實(shí)現(xiàn)。
雖然已經(jīng)顯示并描述了本發(fā)明總體構(gòu)思的一些實(shí)施例,但是本領(lǐng)域技術(shù)人員應(yīng)該理解,在不脫離本發(fā)明總體構(gòu)思的原理和精神的情況下,可以對這些實(shí)施例進(jìn)行改變,本發(fā)明總體構(gòu)思的范圍由權(quán)利要求及其等同物限定。
權(quán)利要求
1、一種用于快速音樂分類的方法,包括以下步驟
a輸入音樂文件;
b提取輸入的音樂文件的每一幀的基于修正離散余弦變換的聲學(xué)特征;
c計(jì)算每一幀的能量;
d按照能量大小將每一幀的聲學(xué)特征進(jìn)行排序。
2、如權(quán)利要求1所述的方法,其中,在步驟d之后還包括以下步驟
e將排序后的聲學(xué)特征劃分為多個(gè)段;
f針對所述多個(gè)段中的一個(gè)或多個(gè)計(jì)算均值和標(biāo)準(zhǔn)偏差;
g將計(jì)算的均值和標(biāo)準(zhǔn)偏差組合成向量。
3、如權(quán)利要求1所述的方法,在步驟b之前還包括以下步驟
h從輸入的音樂文件的中間部分選取多個(gè)部分。
4、如權(quán)利要求3所述的方法,步驟h包括從輸入的音樂文件的中間部分選取均為3秒的4段。
5、如權(quán)利要求3或4所述的方法,步驟b包括從音樂文件的選取的部分中提取基于修正離散余弦變換的聲學(xué)特征。
6、如權(quán)利要求1所述的方法,步驟c包括通過將每一幀的修正離散余弦變換系數(shù)相加來計(jì)算每一幀的能量。
7、如權(quán)利要求1或2所述的方法,步驟d包括根據(jù)能量降序排列每一幀的聲學(xué)特征。
8、如權(quán)利要求7所述的方法,步驟e包括將排序后的聲學(xué)特征按照12.5%、50%、25%、12.5%劃分。
9、如權(quán)利要求8所述的方法,步驟f包括針對4段中的前三段計(jì)算均值和標(biāo)準(zhǔn)偏差。
10、一種用于從音樂集中搜索與預(yù)定音樂文件的情感最相似的音樂文件的相似性搜索方法,包括以下步驟
a輸入音樂文件;
b針對輸入的音樂文件的每一幀提取基于修正離散余弦變換的聲學(xué)特征
c計(jì)算每一幀的能量;
d按照能量大小將每一幀的聲學(xué)特征進(jìn)行排序。
11、如權(quán)利要求10所述的方法,在步驟d之后還包括以下步驟
e將排序后的聲學(xué)特征劃分為多個(gè)段;
f針對所述多個(gè)段中的一個(gè)或多個(gè)計(jì)算均值和標(biāo)準(zhǔn)偏差;
g將計(jì)算的均值和標(biāo)準(zhǔn)偏差組合成向量。
12、如權(quán)利要求10所述的方法,在步驟b之前還包括以下步驟
h從輸入的音樂文件的中間部分選取多個(gè)部分。
13、如權(quán)利要求12所述的方法,步驟h包括從輸入的音樂文件的中間部分選取均為3秒的4段。
14、如權(quán)利要求12或13所述的方法,步驟b包括從音樂文件的選取的部分中提取基于修正離散余弦變換的聲學(xué)特征。
15、如權(quán)利要求10所述的方法,步驟c包括通過將每一幀的修正離散余弦變換系數(shù)相加來計(jì)算每一幀的能量。
16、如權(quán)利要求10或11所述的方法,步驟d包括根據(jù)能量降序排列每一幀的聲學(xué)特征。
17、如權(quán)利要求16所述的方法,步驟e包括將排序后的聲學(xué)特征按照12.5%、50%、25%、12.5%劃分。
18、如權(quán)利要求17所述的方法,步驟f包括針對4段中的第二段計(jì)算均值和標(biāo)準(zhǔn)偏差。
19、如權(quán)利要求17所述的方法,還包括以下步驟
i將均值和標(biāo)準(zhǔn)偏差組合成的向量標(biāo)準(zhǔn)化到N(0,1)分布。
20、一種用于音樂情感分類的設(shè)備,包括以下部分
基于修正離散余弦變換的特征提取部分,當(dāng)輸入音樂文件時(shí),用于從所述音樂文件中提取基于修正離散余弦變換的聲學(xué)特征;
特征向量創(chuàng)建部分,用于通過計(jì)算輸入的音樂文件的每一幀的能量、按照能量大小排序從基于修正離散余弦變換的特征提取部分輸出的聲學(xué)特征來創(chuàng)建輸入的音樂文件的最終特征向量;
基于支持向量機(jī)的情感分類器,用于根據(jù)特征向量創(chuàng)建部分創(chuàng)建的最終特征向量來對輸入的音樂文件的情感進(jìn)行分類。
21、如權(quán)利要求20所述的設(shè)備,其中,特征向量創(chuàng)建部分通過將排序后的聲學(xué)特征劃分為多個(gè)段,計(jì)算所述多個(gè)段中的一個(gè)或多個(gè)的均值和標(biāo)準(zhǔn)偏差并且將計(jì)算后的均值和標(biāo)準(zhǔn)偏差組合來創(chuàng)建最終特征向量。
22、一種用于從音樂集中搜索與預(yù)定音樂文件的情感最相似的音樂文件的相似性搜索設(shè)備,包括以下部分
基于修正離散余弦變換的特征提取部分,當(dāng)輸入音樂文件時(shí),用于從所述音樂文件中提取基于修正離散余弦變換的聲學(xué)特征;
特征向量創(chuàng)建部分,用于通過計(jì)算輸入的音樂文件的每一幀的能量、按照能量大小排序從基于修正離散余弦變換的特征提取部分輸出的聲學(xué)特征來創(chuàng)建輸入的音樂文件的最終特征向量;
基于支持向量機(jī)的情感分類器,用于根據(jù)特征向量創(chuàng)建部分創(chuàng)建的最終特征向量來從音樂集中搜索與預(yù)定音樂文件的情感最相似的音樂文件。
23、如權(quán)利要求22所述的設(shè)備,其中,特征向量創(chuàng)建部分通過將排序后的聲學(xué)特征劃分為多個(gè)段,計(jì)算所述多個(gè)段中的一個(gè)或多個(gè)的均值和標(biāo)準(zhǔn)偏差并且將計(jì)算后的均值和標(biāo)準(zhǔn)偏差組合來創(chuàng)建最終特征向量。
全文摘要
本發(fā)明公開了一種用于快速音樂分類和搜索的方法和設(shè)備。所述方法包括以下步驟輸入音樂文件;提取輸入的音樂文件的每一幀的基于MDCT的聲學(xué)特征;計(jì)算每一幀的能量;按照能量大小將每一幀的聲學(xué)特征進(jìn)行排序。所述方法還包括以下步驟將排序后的聲學(xué)特征劃分為多個(gè)段;針對所述多個(gè)段中的一個(gè)或多個(gè)計(jì)算均值和標(biāo)準(zhǔn)偏差;將計(jì)算的均值和標(biāo)準(zhǔn)偏差組合成向量。本發(fā)明使用的短時(shí)音樂特征,即MFCC和音色特征,直接從MDCT系數(shù)中得到。所以特征提取的速度非??臁榱朔诸愐皇滓魳?,僅需對音樂文件的12秒長度的部分進(jìn)行解碼。
文檔編號G06F17/30GK101398825SQ200710151768
公開日2009年4月1日 申請日期2007年9月29日 優(yōu)先權(quán)日2007年9月29日
發(fā)明者菁 鄧, 璇 朱, 史媛媛, 嚴(yán)基完, 李在原 申請人:三星電子株式會(huì)社, 北京三星通信技術(shù)研究有限公司