專利名稱:音頻事件檢測方法和裝置的制作方法
技術領域:
本發(fā)明涉及音頻事件檢測方法和裝置,特別涉及基于長時特征的音頻事件檢測方法和裝置。
背景技術:
當今世界正處在信息爆炸的時代,信息正在以指數(shù)級的速度增長。多媒體技術和互聯(lián)網(wǎng)技術的不斷發(fā)展,使得對海量多媒體數(shù)據(jù)進行自動分析處理的必要性大大提高。然而,視頻分析運算量大,消耗資源較多,因此多媒體數(shù)據(jù)的音頻分析有著更大的優(yōu)勢。一般來說,諸如體育比賽之類的視頻時間比較長,而往往廣大體育愛好者真正關心的內容通常只占居整個內容的很小一部分。如果需要從中找到自己關注的內容,往往需要用戶從頭至尾遍歷一遍之后才能找到所需內容,這樣既費時又費力。另一方面,越來越多的體育視頻,使得人們對體育視頻的有效檢索和管理的要求也越來越迫切。因此,如果能夠有這樣一個體育內容檢索系統(tǒng),可以幫助用戶檢索一些真正關心的內容,就可以大大節(jié)約時間。特別地,對體育節(jié)目的自動音頻分析,近年來受到越來越多研究者的青睞。針對體育比賽來說,通過對喝彩聲、鼓掌聲、歡呼聲、笑聲之類的音頻事件的提取,來在體育比賽視頻中提取精彩場景,使得用戶能夠更便捷的找到自己感興趣的片段。對音頻事件的提取有以下幾個難點首先,在體育比賽中,音頻事件往往不是孤立出現(xiàn),而是同時伴隨著主持人的講話聲以及其他聲音,這就使得對音頻事件的建模產(chǎn)生一定困難;其次,在體育比賽中,音頻事件的頻譜特點往往和環(huán)境噪聲非常相似,導致在檢索過程中產(chǎn)生較多的虛警,從而精度偏低。Hermansky, H.在文 章"Perceptual linear predictive (PLP) analysis of speech,,(Journal of the Acoustical Society of America,87 :1738,1990)中,通過兩個階段進行處理。在第一階段,對有人工標注的多媒體數(shù)據(jù)利用語義標簽進行相關音頻尋找,而在第二階段,基于語義標簽的音頻查詢結果在線訓練該類音樂特征,并利用于音頻內容的查詢。從以上文獻可以看出,現(xiàn)有技術僅對某一兩種體育比賽內容的特定內容進行分析和檢測,這些技術針對性強,不能很好的擴展到其他類別的提取比賽的內容檢測中去。而隨著體育比賽種類的日益增加,消費者越來越不可能有足夠的時間將整場比賽從頭至尾的觀看一邊了,因此,如何能夠提供一套自動的體育比賽的內容檢測系統(tǒng),從而幫助用戶快速方便的檢測出自己關注的內容是目前廣大體育愛好者們迫切關注的問題。由于目前圖像分析技術對于僅止于場景分析,對于圖像內容的理解沒有很好的研究,因此,本發(fā)明側重于采用語音信號處理技術,對體育比賽內容進行理解和分析,幫助體育愛好者們提取一些感興趣的事件和信息,比如類別進行檢測比賽,檢測精彩事件,檢測關鍵人名和隊名等,檢測比賽不同場次的開始和結束時間點等等。
發(fā)明內容
有鑒于此,發(fā)明公開了一種魯棒的高性能的音頻事件檢測方法和裝置,其中的音頻事件包括鼓掌聲、歡呼聲、笑聲。該方法考慮到了時域上特征的連續(xù)性,結合了基于段的長時特征進行檢測,使得檢測的性能得到大幅度的提升。根據(jù)本發(fā)明的一方面,本發(fā)明提供基于長時特性的音頻事件檢測方法,所述方法包括如下步驟將輸入音頻流分成一系列的小段;對每個段提取短時和長時特征;并且根據(jù)所提取的短時和長時特征,得到關于音頻流的分類結果。根據(jù)本發(fā)明的該方面,所述音頻事件檢測方法還包括步驟經(jīng)過平滑處理得到事件檢測結果。 根據(jù)本發(fā)明的該方面,在所述音頻事件檢測方法中,在提取短時和長時特征之后, 采用降維算法對MSV (Mean Super Vector)特征矢量進行降維,以去除特征的冗余信息。根據(jù)本發(fā)明的該方面,在所述音頻事件檢測方法中,所述短時和長時特征是基于段和基于幀之一的。根據(jù)本發(fā)明的該方面,在所述音頻事件檢測方法中,所述分類結果通過支持向量機分類器來進行。根據(jù)本發(fā)明的該方面,在所述音頻事件檢測方法中,基于幀的短時特征至少包括以下特征之一 PLP、LPCC, LFCC, Pitch、短時能量、子帶能量分布、亮度和帶寬。根據(jù)本發(fā)明的該方面,在所述音頻事件檢測方法中,基于段的長時特征至少包括以下特征之一譜通量、長時平均譜和LPC熵。根據(jù)本發(fā)明的該方面,在所述音頻事件檢測方法中,在平滑處理中所使用的平滑規(guī)則如下(l)if{s(n) == 1 and s(n+l) ! = 1 and s (n+2) == ljthens (n+1) = 1(2)if {s(n) == 1 and s(n_l) ! = 1 and s(n+l) ! = ljthens (η) = s(n-l)根據(jù)本發(fā)明的另一方面,本發(fā)明提供基于長時特性的音頻事件檢測裝置,所述裝置包括音頻流分段部分,用于將輸入音頻流分成一系列的小段;特征提取部分,用于對每個段提取短時和長時特征;并且分類部分,用于根據(jù)所提取的短時和長時特征,得到關于音頻流的分類結果。根據(jù)本發(fā)明的再一方面,本發(fā)明提供用于在計算機上實現(xiàn)基于長時特性的音頻事件檢測方法的計算機產(chǎn)品,所述方法包括如下步驟將輸入音頻流分成一系列的小段;對每個段提取短時和長時特征;并且根據(jù)所提取的短時和長時特征,得到關于音頻流的分類結果??傊景l(fā)明通過將音頻流分成一系列的小段,采用對該段特征矢量求均值(得到MSV,Mean Super Vector)并進行降維的方法對每個段提取短時和長時特征,利用 SVM(支持向量機分類器)得到最終的分類結果,并且經(jīng)過平滑得到最終的事件檢測結果。 實驗結果顯示,在一般電視節(jié)目中,事件檢測的結果可以達到86 %的F值。
本發(fā)明的上述目的、有益技術效果等可以通過結合以下附圖的描述變得更清楚, 在這些附圖中,
圖1示出了根據(jù)本發(fā)明的實施例的、基于長時特征的音頻事件檢測方法的一個實例的流程圖;圖2是示出LFCC和LFCC中使用濾波器組的實例的曲線圖,其中圖2A是圖示用于 LFCC的多尺度濾波器組的一個實例的曲線圖,而圖2B是圖示用于LFCC的線性濾波器組的一個實例的曲線圖;圖3示出了根據(jù)本發(fā)明的實施例的、基于長時特征的音頻事件檢測方法的另一個實例的流程圖;圖4示出了根據(jù)本發(fā)明的實施例的、基于長時特征的音頻事件檢測裝置的一個實例的方塊圖;圖5是示出根據(jù)本發(fā)明的特征提取部分的詳細結構的方塊圖;圖6示出了基于長時特征的音頻事件檢測裝置的另一個實例的流程圖;圖7是示出了采用LDA,PCA, ICA三種不同降維算法的降維結果的圖表;以及圖8是示出了用LDA將PLP、LPCC、LFCC以及它們各自的一階、二階差分進行降維后的特征檢測性能以及降維后的特征+其他段特征的檢測性能的圖表。
具體實施例方式下面參考附圖詳細描述本發(fā)明的、基于長時特征的音頻事件檢測方法和裝置。圖1示出了根據(jù)本發(fā)明的實施例的、基于長時特征的音頻事件檢測方法的一個實例的流程圖。參考圖1,基于長時特征的音頻事件檢測方法包括音頻流分段步驟S110,在該步驟SllO中,將要處理的音頻流分成一系列的小段,以便于提取每個段的短時和長時特征。這里,為了對輸入語音信號進行分段,可以采用滑動窗將語音信號分成一系列的語音窗,每個語音窗對應于一個小段。從而達到分段的目的。基于長時特征的音頻事件檢測方法還包括音頻流長時特征提取步驟S120,在步驟 S120中,對每個段提取短時和長時特征。根據(jù)本發(fā)明的一個實施例,對于每個子段,可以對其每個段特征矢量提取出基于幀和基于段的兩種特征,即,幀特征和段特征。這里,基于幀的特征(幀特征)可以包括PLP (Perceptual Linear Predictive Coefficients,知覺線性預測系數(shù))、LPCC (Linear Predictive Cepstrum Coefficients, 線性預測倒譜系數(shù))、LFCC (Linear Frequency cepstral coefficients)、Pitch、短時能量 (Short-time energy, STE)、子帶能量分布(Sub-band energy distribution, SBED)、亮度和帶寬(Brightness and bandwidth,BR和BW),也可以是這些特征的一部分。而基于段的特征(段特征)可以包括譜通量(Spectrum Flux, SF)、長時平均譜(long-term average spectrum, LTAS)和LPC熵(LPC entropy),或者是這些特征的一部分。具體來說,PLP特征從等響曲線、強度能量定理、臨界頻譜分析等三個聽覺心理方面來進行語音分析的技術,具體算法參考Hynek Hermansky perceptual Linear Predictive (PLP) analysis of speech, J. Acoust. Soc. Am. 87 (4), April 1990。LPCC是基于聲道的特征參數(shù),而LFCC是考慮到人耳聽覺特性的參數(shù)特征,具體計算方法參考余建潮、 張瑞林基于LFCC和LPCC的說話人識別,計算機工程與設計,2009,30 (5)。LFCC和LFCC的差異是LFCC中考慮到人耳的感知特性,需要把一般頻率上的能量映射到更加符合人類聽覺的Mel頻譜上,而LFCC不是映射到Mel頻譜上,而是在一般頻域上將頻率用一系列線性三角窗進行處理。圖2是示出LFCC和LFCC中使用濾波器組的實例的曲線圖,其中圖2A是圖示用于 LFCC的多尺度濾波器組的ー個實例的曲線圖,而圖2B是圖示用于LFCC的線性濾波器組的 一個實例的曲線圖。圖2中橫坐標表示頻率,縱坐標表示三角濾波器的幅值。Pitch是語 音、音樂分析和合成的ー個重要參數(shù)。通常只有濁音才有明確的音調。但是,我們仍然可 以用基音頻率來表示任何聲波的基本頻率。要從音頻信號中準確可靠的提取基頻特征并 不容易。根據(jù)準確度和復雜度的不同要求,可以使用不同的基頻估計方法,包括自回歸模型 (auto-regressive model),平均星差函敘、average magnitude difference function),最 大后驗概率方法等。本文采用的自相關方法。利用公式(1)提取1維的短時能量,該短時能量描述了ー幀總共的頻譜能量。
權利要求
1.一種基于長時特性的音頻事件檢測方法,所述方法包括如下步驟將輸入音頻流分成一系列的小段;對每個段提取短時和長時特征;并且根據(jù)所提取的短時和長時特征,得到關于音頻流的分類結果。
2.如權利要求1所述的音頻事件檢測方法,還包括步驟經(jīng)過平滑處理得到事件檢測結果。
3.如權利要求1所述的音頻事件檢測方法,其中,在提取短時和長時特征之后,采用降維算法對MSV(Mean Super Vector)特征矢量進行降維,以去除特征的冗余信息。
4.如權利要求1所述的音頻事件檢測方法,其中,所述短時和長時特征是基于段和基于幀之一的。
5.如權利要求1所述的音頻事件檢測方法,其中,所述分類結果通過支持向量機分類器來進行。
6.如權利要求4所述的音頻事件檢測方法,其中,基于幀的短時特征至少包括以下特征之一 PLP、LPCC、LFCC、Pitch、短時能量、子帶能量分布、亮度和帶寬。
7.如權利要求4所述的音頻事件檢測方法,其中,基于段的長時特征至少包括以下特征之一譜通量、長時平均譜和LPC熵。
8.如權利要求2所述的音頻事件檢測方法,其中,在平滑處理中所使用的平滑規(guī)則如下(1)if{s(n)== 1 and s(n+l) ! = 1 and s (n+2) == ljthens (n+1) = 1(2)if{s(n) == 1 and s(n-l) ! = 1 and s(n+l) ! = ljthens (η) = s(n-l)
9.一種基于長時特性的音頻事件檢測裝置,所述裝置包括音頻流分段部分,用于將輸入音頻流分成一系列的小段;特征提取部分,用于對每個段提取短時和長時特征;并且分類部分,用于根據(jù)所提取的短時和長時特征,得到關于音頻流的分類結果。
10.如權利要求9所述的音頻事件檢測裝置,還包括平滑部分,用于經(jīng)過平滑處理得到事件檢測結果。
11.如權利要求9所述的音頻事件檢測裝置,其中,在提取短時和長時特征之后,采用降維算法對MSV特征矢量進行降維,以去除特征的冗余信息。
12.如權利要求9所述的音頻事件檢測裝置,其中,所述短時和長時特征是基于段和基于幀之一的。
13.如權利要求9所述的音頻事件檢測裝置,其中,所述分類結果通過支持向量機分類器來進行。
14.如權利要求12所述的音頻事件檢測裝置,其中,基于幀的短時特征至少包括以下特征之一 PLP、LPCC、LFCC、Pitch、短時能量、子帶能量分布、亮度和帶寬。
15.如權利要求12所述的音頻事件檢測裝置,其中,基于段的長時特征至少包括以下特征之一譜通量、長時平均譜和LPC熵。
16.如權利要求10所述的音頻事件檢測裝置,其中,平滑部分的平滑處理中所使用的平滑規(guī)則如下(l)if{s(n) == 1 and s(n+l) ! = 1 and s (n+2) == ljthens (n+1) = 1(2)if{s(n) == 1 and s(n-l) ! = 1 and s(n+l) ! = ljthens (η) = s(n-l)
17. 一種用于在計算機上實現(xiàn)基于長時特性的音頻事件檢測方法的計算機產(chǎn)品,所述方法包括如下步驟將輸入音頻流分成一系列的小段; 對每個段提取短時和長時特征;并且根據(jù)所提取的短時和長時特征,得到關于音頻流的分類結果。
全文摘要
基于長時特性的音頻事件檢測裝置和方法。所述方法包括如下步驟將輸入音頻流分成一系列的小段;對每個段提取短時和長時特征;并且根據(jù)所提取的短時和長時特征,得到關于音頻流的分類結果。
文檔編號G10L11/00GK102486920SQ201010590438
公開日2012年6月6日 申請日期2010年12月6日 優(yōu)先權日2010年12月6日
發(fā)明者劉昆, 盧鯉, 吳偉國, 趙慶衛(wèi) 申請人:中國科學院聲學研究所, 索尼公司