專利名稱:音頻分類方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號(hào)處理。更具體地,本發(fā)明的實(shí)施例涉及音頻分類方法和系統(tǒng)。
背景技術(shù):
在許多應(yīng)用中,需要對(duì)音頻信號(hào)進(jìn)行識(shí)別和分類。一種這樣的分類是把音頻信號(hào)自動(dòng)分類為話音、音樂或靜音。通常,音頻分類涉及從音頻信號(hào)中提取音頻特征以及用所訓(xùn)練的分類器根據(jù)音頻特征進(jìn)行分類。已經(jīng)提出音頻分類的方法來自動(dòng)估計(jì)輸入音頻信號(hào)的類型,使得能夠避免對(duì)音頻信號(hào)進(jìn)行人工標(biāo)記。這能夠被用于大量多媒體數(shù)據(jù)的高效分類和瀏覽。音頻分類也被廣泛地用于支持其它音頻信號(hào)處理部件。例如,話音-噪聲音頻分類器對(duì)于語(yǔ)音通信系統(tǒng)中使用的噪聲抑制系統(tǒng)有大的益處。作為另ー個(gè)例子,在無(wú)線通信系統(tǒng)設(shè)備中,通過音頻分類,音頻信號(hào)處理能夠根據(jù)信號(hào)是話音、音樂還是靜音來對(duì)信號(hào)實(shí)現(xiàn)不同的編碼和解碼算法。本章節(jié)中描述的方案是能夠采取的方案,但不一定是先前已經(jīng)構(gòu)思或采取的方案。因此,除非另外指出,不應(yīng)僅因?yàn)楸话诒菊鹿?jié)中就假定本章節(jié)描述的任何方案適合作為現(xiàn)有技木。類似地,根據(jù)本章節(jié)而關(guān)于ー個(gè)或更多個(gè)方案發(fā)現(xiàn)的問題不應(yīng)被假定為任何現(xiàn)有技術(shù)中已經(jīng)認(rèn)識(shí)到的問題,除非另外指出。
發(fā)明內(nèi)容
根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類系統(tǒng)。該系統(tǒng)包含能夠在需要不同資源的至少兩個(gè)模式下工作的至少ー個(gè)裝置。該系統(tǒng)也包含復(fù)雜度控制器,其確定組合并且指示該至少ー個(gè)裝置根據(jù)該組合來工作。對(duì)于該至少ー個(gè)裝置中的每個(gè),該組合指定該裝置的模式之一,而該組合的資源要求不超過最大可用資源。該至少ー個(gè)裝置可以包括預(yù)處理器、特征提取器、分類裝置和后處理器的至少之一,預(yù)處理器使音頻信號(hào)適配于音頻分類系統(tǒng),特征提取器從音頻信號(hào)的分段中提取音頻特征,分類裝置根據(jù)提取的音頻特征用訓(xùn)練的模型對(duì)分段進(jìn)行分類,后處理器對(duì)分段的音頻類型進(jìn)行平滑。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類方法。該方法包含能夠在需要不同資源的至少兩個(gè)模式下執(zhí)行的至少ー個(gè)步驟。確定ー個(gè)組合。該至少一個(gè)步驟被指示根據(jù)該組合來運(yùn)行。對(duì)于該至少ー個(gè)步驟中的每個(gè),該組合指定該步驟的模式之一,而該組合的資源要求不超過最大可用資源。該至少一個(gè)步驟包括預(yù)處理步驟、特征提取步驟、分類步驟和后處理步驟的至少之一,預(yù)處理步驟使音頻信號(hào)適配于音頻分類,特征提取步驟從音頻信號(hào)的分段中提取音頻特征,分類步驟根據(jù)提取的音頻特征用訓(xùn)練的模型對(duì)分段進(jìn)行分類,后處理步驟對(duì)分段的音頻類型進(jìn)行平滑。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類系統(tǒng)。系統(tǒng)包含用于從音頻信號(hào)的分段中提取音頻特征的特征提取器。特征提取器包含系數(shù)計(jì)算器和統(tǒng)計(jì)數(shù)據(jù)計(jì)算器。系數(shù)計(jì)算器根據(jù)維納-辛欽定理計(jì)算音頻信號(hào)中長(zhǎng)于ー個(gè)閾值的分段的長(zhǎng)期自相關(guān)系數(shù),以作為音頻特征。統(tǒng)計(jì)數(shù)據(jù)計(jì)算器計(jì)算有關(guān)長(zhǎng)期自相關(guān)系數(shù)的、用于音頻分類的至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù),以作為音頻特征。系統(tǒng)也包含分類裝置,用于通過訓(xùn)練的模型,基于所提取的音頻特征來對(duì)分段進(jìn)行分類。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類方法。從音頻信號(hào)的分段中提取音頻特征?;谒崛〉囊纛l特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類。為提取音頻特征,根據(jù)維納-辛欽定理計(jì)算音頻信號(hào)中長(zhǎng)于ー個(gè)閾值的分段的長(zhǎng)期自相關(guān)系數(shù),以作為音頻特征。計(jì)算有關(guān)長(zhǎng)期自相關(guān)系數(shù)的、用于音頻分類的至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù),以作為音頻特征。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類系統(tǒng)。系統(tǒng)包含特征提取器和分類裝置,特征提取器用于從音頻信號(hào)的分段中提取音頻特征,分類裝置用于通過訓(xùn)練的模型,基于所提取的音頻特征來對(duì)分段進(jìn)行分類。特征提取器包含用于對(duì)分段進(jìn)行濾波的低通濾波器,在該低通濾波器中允許低頻敲擊分量通過。特征提取器也包含計(jì)算器,其用于通過對(duì)每個(gè)分段應(yīng)用過零率(ZCR, zero crossing rate)來提取低音指示特征,以作為音頻特征。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類方法。從音頻信號(hào)的分段中提取音頻特征。基于所提取的音頻特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類。為提取音頻特征,通過低通濾波器對(duì)分段進(jìn)行濾波,在該低通濾波器中允許低頻敲擊分量通過。通過對(duì)每個(gè)分段應(yīng)用 過零率(ZCR)來提取低音指示特征,以作為音頻特征。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類系統(tǒng)。系統(tǒng)包含特征提取器和分類裝置,特征提取器用于從音頻信號(hào)的分段中提取音頻特征,分類裝置用于通過訓(xùn)練的模型,基于所提取的音頻特征來對(duì)分段進(jìn)行分類。特征提取器包含殘余計(jì)算器和統(tǒng)計(jì)數(shù)據(jù)計(jì)算器。對(duì)于每個(gè)分段,殘余計(jì)算器通過從該分段的每個(gè)幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計(jì)算至少ー級(jí)、ニ級(jí)和三級(jí)的頻率分解殘余。對(duì)于每個(gè)分段,統(tǒng)計(jì)數(shù)據(jù)計(jì)算器關(guān)于該分段的幀的相同級(jí)別的殘余計(jì)算至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù)。所計(jì)算的殘余和統(tǒng)計(jì)數(shù)據(jù)被包含在音頻特征中。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類方法。從音頻信號(hào)的分段中提取音頻特征?;谒崛〉囊纛l特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類。為提取音頻特征,對(duì)于每個(gè)分段,通過從該分段的每個(gè)幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計(jì)算至少ー級(jí)、ニ級(jí)和三級(jí)的頻率分解殘余。對(duì)于每個(gè)分段,關(guān)于該分段的幀的相同級(jí)別的殘余計(jì)算至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù)。所計(jì)算的殘余和統(tǒng)計(jì)數(shù)據(jù)被包含在音頻特征中。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類系統(tǒng)。系統(tǒng)包含特征提取器和分類裝置,特征提取器用于從音頻信號(hào)的分段中提取音頻特征,分類裝置用于通過訓(xùn)練的模型,基于所提取的音頻特征來對(duì)分段進(jìn)行分類。特征提取器包含比值計(jì)算器,其計(jì)算每個(gè)分段的譜區(qū)間高能量比以作為音頻特征。譜區(qū)間高能量比是分段的譜中能量高于閾值的頻率區(qū)間的數(shù)目與頻率區(qū)間的總數(shù)的比值。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類方法。從音頻信號(hào)的分段中提取音頻特征。基于所提取的音頻特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類。為提取音頻特征,針對(duì)每個(gè)分段計(jì)算譜區(qū)間高能量比,以作為音頻特征。譜區(qū)間高能量比是分段的譜中能量高于閾值的頻率區(qū)間的數(shù)目與頻率區(qū)間的總數(shù)的比值。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類系統(tǒng)。系統(tǒng)包含特征提取器和分類裝置,特征提取器用于從音頻信號(hào)的分段中提取音頻特征,分類裝置用于通過訓(xùn)練的模型,基于所提取的音頻特征來對(duì)分段進(jìn)行分類。分類裝置包含具有不同優(yōu)先級(jí)的至少兩個(gè)分類器級(jí)段的鏈,這些分類器級(jí)段按照優(yōu)先級(jí)的降序排列。每個(gè)分類器級(jí)段包含分類器,分類器根據(jù)提取自每個(gè)分段的相應(yīng)音頻特征生成當(dāng)前類別估計(jì)。當(dāng)前類別估計(jì)包含估計(jì)的音頻類型和相應(yīng)置信度。每個(gè)分類器級(jí)段也包含決策單元。如果分類器級(jí)段位于鏈的開始處,則決策単元確定當(dāng)前置信度是否高于與該分類器級(jí)段關(guān)聯(lián)的置信度閾值。如果確定當(dāng)前置信度高于置信度閾值,則決策単元通過輸出當(dāng)前類別估計(jì)來終止音頻分類。否則,決策単元把當(dāng)前類別估計(jì)提供給鏈中的所有后面的分類器級(jí)段。如果分類器級(jí)段位于鏈的中間,則決策単元確定當(dāng)前置信度是否高于置信度閾值,或確定當(dāng)前類別估計(jì)和所有先前的類別估計(jì)是否能夠根據(jù)第一判決準(zhǔn)則決定ー個(gè)音頻類型。如果確定當(dāng)前置信度高于置信度閾值,或類別估計(jì)能夠決定音頻類型,則決策単元通過輸出當(dāng)前類別估計(jì),或輸出所決定的音頻類型和相應(yīng)置信度來終止音頻分類。否則,決策単元把當(dāng)前類別估計(jì)提供給鏈中的所有后面的分類器級(jí)段。如果分類器級(jí)段位于鏈的結(jié)束處,則決策単元通過輸出當(dāng)前類別估計(jì)來終止音頻分類。或者,決策單元確定當(dāng)前類別估計(jì)和所有先前的類別估計(jì)是否能夠根據(jù)第二判決準(zhǔn)則決定ー個(gè)音頻類型。如果確定類別估計(jì)能夠決定音頻類型,則決策単元通過輸出所決定的音頻類型和相應(yīng)置信度來終止音頻分類。否則,決策単元通過輸出當(dāng)前類別估計(jì)來終止音頻分類。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類方法。從音頻信號(hào)的分段中提取音頻特征。基于所提取的音頻特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類。分類包含具有不同優(yōu)先級(jí)的至少兩個(gè)子步驟的鏈,這些子步驟按照優(yōu)先級(jí)的降序排列。每個(gè)子步驟涉及根據(jù)提取自每個(gè)分段的相應(yīng)音頻特征生成當(dāng)前類別估計(jì)。當(dāng)前類別估計(jì)包含估計(jì)的音頻類型和相應(yīng)置信度。如果子步驟位于鏈的開始處,則子步驟涉及確定當(dāng)前置信度是否高于與該子步驟關(guān)聯(lián)的置信度閾值。如果確定當(dāng)前置信度高于置信度閾值,則子步驟涉及通過輸出當(dāng)前類別估計(jì)來終止音頻分類。否則,子步驟涉及把當(dāng)前類別估計(jì)提供給鏈中的所有后面的子步驟。如果子步驟位于鏈的中間,則子步驟涉及確定當(dāng)前置信度是否高于置信度閾值,或確定當(dāng)前類別估計(jì)和所有先前的類別估計(jì)是否能夠根據(jù)第一判決準(zhǔn)則決定ー個(gè)音頻類型。如果確定當(dāng)前置信度高于置信度閾值,或類別估計(jì)能夠決定音頻類型,則子步驟涉及通過輸出當(dāng)前類別估計(jì),或輸出所決定的音頻類型和相應(yīng)置信度來終止音頻分類。否則,子步驟涉及把當(dāng)前類別估計(jì)提供給鏈中的所有后面的子步驟。如果子步驟位于鏈的結(jié)束處,則子步驟涉及通過輸出當(dāng)前類別估計(jì)來終止音頻分類?;蛘?,子步驟涉及確定當(dāng)前類別估計(jì)和所有先前的類別估計(jì)是否能夠根據(jù)第二判決準(zhǔn)則決定ー個(gè)音頻類型。如果確定類別估計(jì)能夠決定音頻類型,則子步驟涉及通過輸出所決定的音頻類型和相應(yīng)置信度來終止音頻分類。否則,子步驟涉及通過輸出當(dāng)前類別估計(jì)來終止音頻分類。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類系統(tǒng)。系統(tǒng)包含特征提取器、分類裝置和后處理器,特征提取器用于從音頻信號(hào)的分段中提取音頻特征,分類裝置用于通過訓(xùn)練的模型,基于所提取的音頻特征來對(duì)分段進(jìn)行分類,后處理器用于對(duì)分段的音頻類型進(jìn)行平滑。后處理器包含檢測(cè)器和平滑器,檢測(cè)器在音頻信號(hào)中搜索兩個(gè)重復(fù)部分,平滑器通過把兩個(gè)重復(fù)部分之間的分段當(dāng)作非話音類型來平滑分類結(jié)果。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供ー種音頻分類方法。從音頻信號(hào)的分段中提取音頻特征?;谒崛〉囊纛l特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類。通過下述操作對(duì)分段的音頻類型進(jìn)行平滑在音頻信號(hào)中搜索兩個(gè)重復(fù)部分,以及通過把兩個(gè)重復(fù)部分之間的分段當(dāng)作非話音類型來平滑分類結(jié)果。根據(jù)本發(fā)明一個(gè)實(shí)施例,提供一種在其上記錄有計(jì)算機(jī)程序指令的計(jì)算機(jī)可讀介質(zhì)。當(dāng)被處理器執(zhí)行時(shí),這些指令使得處理器能夠執(zhí)行ー種音頻分類方法。該方法包含能夠在需要不同資源的至少兩個(gè)模式下執(zhí)行的至少ー個(gè)步驟。確定ー個(gè)組合。該至少ー個(gè)步驟被指示根據(jù)該組合來運(yùn)行。對(duì)于該至少ー個(gè)步驟中的每個(gè),該組合指定該步驟的模式之一,而該組合的資源要求不超過最大可用資源。該至少一個(gè)步驟包括預(yù)處理步驟、特征提取步驟、分類步驟和后處理步驟的至少之一,預(yù)處理步驟使音頻信號(hào)適配于音頻分類,特征提取步驟從音頻信號(hào)的分段中提取音頻特征,分類步驟根據(jù)提取的音頻特征用訓(xùn)練的模型對(duì)分段進(jìn)行分類,后處理步驟對(duì)分段的音頻類型進(jìn)行平滑。下面參考附圖詳細(xì)描述本發(fā)明的進(jìn)ー步特性和優(yōu)點(diǎn),以及本發(fā)明各個(gè)實(shí)施例的結(jié)構(gòu)和操作。應(yīng)當(dāng)注意,本發(fā)明不限于這里描述的具體實(shí)施例。在這里出現(xiàn)這樣的實(shí)施例只是出于說明的目的。相關(guān)領(lǐng)域技術(shù)人員根據(jù)這里包含的指導(dǎo)會(huì)想到其它實(shí)施例。
在附圖中通過例子圖解本發(fā)明,但這些例子不對(duì)本發(fā)明產(chǎn)生限制,圖中用類似的附圖標(biāo)記表示類似的元件,其中圖I是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)的框圖;圖2是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法的流程圖;圖3是圖示示例高通濾波器的頻率響應(yīng)的曲線圖,該頻率響應(yīng)等價(jià)于由等式(I)表示的時(shí)域預(yù)加重,其中β = O. 98 ;圖4Α是圖示敲擊信號(hào)及其自相關(guān)系數(shù)的曲線圖;圖4Β是圖示語(yǔ)音信號(hào)及其自相關(guān)系數(shù)的曲線圖;圖5是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例分類裝置的框圖;圖6是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的分類步驟的示例過程的流程圖;圖7是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)的框圖;圖8是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法的流程圖;圖9是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)的框圖;圖10是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法的流程圖;圖11是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)的框圖;圖12是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法的流程圖;圖13是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)的框圖;圖14是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法的流程圖;圖15是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)的框圖;圖16是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法的流程圖;圖17是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)的框圖;圖18是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法的流程圖;圖19是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)的框圖;圖20是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法的流程圖;而
圖21是圖示用于實(shí)現(xiàn)本發(fā)明的實(shí)施例的示例性系統(tǒng)的框圖。
具體實(shí)施例方式下面參考附圖描述本發(fā)明實(shí)施例。應(yīng)當(dāng)注意,出于清楚的目的,在附圖和描述中省略了有關(guān)所屬技術(shù)領(lǐng)域的技術(shù)人員知道但是對(duì)于本發(fā)明的理解不是必要的部分和過程的表示和說明。本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明的各方面可以被實(shí)施為系統(tǒng)(例如,在線數(shù)字媒體商店、云計(jì)算服務(wù)、流媒體服務(wù)、電信網(wǎng)絡(luò)等等)、裝置(例如,蜂窩電話、便攜媒體播放器、個(gè)人計(jì)算機(jī)、電視機(jī)頂盒或數(shù)字視頻錄像機(jī)、或任何媒體播放器)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可以具體實(shí)現(xiàn)為以下形式,即,可以是完全硬件實(shí)施例、完全軟件實(shí)施例(包括固件、駐留軟件、微代碼等)、或組合軟件部分與硬件部分的實(shí)施例,本文可以一般稱為"電路"、"模塊"或"系統(tǒng)"。此外,本發(fā)明的各個(gè)方面可以采取體現(xiàn)為ー或多個(gè)計(jì) 算機(jī)可讀介質(zhì)的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)上面體現(xiàn)有計(jì)算機(jī)可讀程序代碼??梢允褂靡粋€(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)的任何組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是一但不限干--電的、磁的、光的、電磁的、紅外線的、或半導(dǎo)體的系統(tǒng)、設(shè)備或裝置、或前述各項(xiàng)的任何適當(dāng)?shù)慕M合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括以下有ー個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)裝置、磁存儲(chǔ)裝置、或前述各項(xiàng)的任何適當(dāng)?shù)慕M合。在本文語(yǔ)境中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何含有或存儲(chǔ)供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相聯(lián)系的程序的有形介質(zhì)。計(jì)算機(jī)可讀信號(hào)介質(zhì)可以包括例如在基帶中或作為載波的一部分傳播的其中帶有計(jì)算機(jī)可讀程序代碼的數(shù)據(jù)信號(hào)。這樣的傳播信號(hào)可以采取任何適當(dāng)?shù)男问?,包括但不限于電磁的、光的或其任何適當(dāng)?shù)慕M合。計(jì)算機(jī)可讀信號(hào)介質(zhì)可以是不同于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的、能夠傳達(dá)、傳播或傳輸供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相聯(lián)系的程序的任何一種計(jì)算機(jī)可讀介質(zhì)。體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)中的程序代碼可以采用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于無(wú)線、有線、光纜、射頻等等、或上述各項(xiàng)的任何適當(dāng)?shù)慕M合。用于執(zhí)行本發(fā)明各方面的操作的計(jì)算機(jī)程序代碼可以以ー種或多種程序設(shè)計(jì)語(yǔ)言的任何組合來編寫,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言,諸如Java、Smalltalk、C++之類,還包括常規(guī)的過程式程序設(shè)計(jì)語(yǔ)言,諸如"C"程序設(shè)計(jì)語(yǔ)言或類似的程序設(shè)計(jì)語(yǔ)言。程序代碼可以完全地在用戶的計(jì)算機(jī)上執(zhí)行、部分地在用戶的計(jì)算機(jī)上執(zhí)行、作為ー個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶的計(jì)算機(jī)上并且部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在后一種情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任何種類的網(wǎng)絡(luò),包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN),連接到用戶的計(jì)算機(jī),或者,可以(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng))連接到外部計(jì)算機(jī)。
以下參照按照本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖來描述本發(fā)明的各個(gè)方面。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備的處理器以生產(chǎn)出ー種機(jī)器,使得通過計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令產(chǎn)生用于實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在能夠指引計(jì)算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,使得存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令產(chǎn)生ー個(gè)包括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令的制造品。也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備上,導(dǎo)致在計(jì)算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,使得在計(jì)算機(jī)或其它可編程設(shè)備上執(zhí)行的指令提供實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。復(fù)雜度控制圖1是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)100的框圖。如圖1所示,音頻分類系統(tǒng)100包含復(fù)雜度控制器102。為對(duì)音頻信號(hào)進(jìn)行音頻分類,涉及到若干過程,例如特征提取和分類。相應(yīng)地,音頻分類系統(tǒng)100可以包含用于執(zhí)行這些過程的相應(yīng)裝置(共同由附圖標(biāo)記101表示)。ー些裝置(均稱作多模式裝置)可以在需要不同資源的不同模式下執(zhí)行相應(yīng)過程。圖1中圖示了這樣的多模式裝置之一,即裝置 111。執(zhí)行過程能夠消耗資源,例如內(nèi)存、I/O、電力、中央處理單元(CPU)等等。執(zhí)行過程的相同功能但是需要不同資源的不同算法和配置提供了這樣的可能性裝置通過采用這些不同算法和配置的組合(例如,模式)之一來進(jìn)行操作。每個(gè)模式可以決定裝置的具體資源要求(消耗)。例如,分類過程可以把音頻特征輸入到分類器以獲得分類結(jié)果。為執(zhí)行這個(gè)功能,處理較多音頻特征以進(jìn)行音頻分類的分類器所消耗的資源會(huì)多于處理較少音頻特征的另ー個(gè)分類器,如果兩個(gè)分類器基于相同分類算法的話。這是關(guān)于不同配置的例子。此外,為執(zhí)行這個(gè)功能,基于多個(gè)分類算法的組合的分類器所消耗的資源會(huì)多于僅基于這些算法之一的另ー個(gè)分類器,如果兩個(gè)分類器處理相同音頻特征的話。這是關(guān)于不同算法的例子。通過這種方式,一些多模式裝置(例如,裝置111)可以被配置成能夠在需要不同資源的不同模式下工作。任何這樣的多模式裝置可以具有超過兩個(gè)的模式,這取決于用于執(zhí)行裝置的功能的可供選擇的算法和配置。在執(zhí)行音頻分類時(shí),每個(gè)多模式裝置可工作于其模式之一。這個(gè)模式被稱作活躍模式。復(fù)雜度控制器102可以確定多模式裝置的活躍模式的組合,并且指示多模式裝置根據(jù)該組合,即在該組合中定義的相應(yīng)活躍模式下工作。可以有各種可能的組合。復(fù)雜度控制器102可以從中選擇資源要求不超過最大可用資源的組合。最大可用資源可以是固定的,或者可通過收集有關(guān)音頻分類系統(tǒng)100的可用資源的信息來估計(jì),或者可由用戶來設(shè)置。可以在安裝音頻分類系統(tǒng)100或啟動(dòng)音頻分類系統(tǒng)100時(shí)、按照規(guī)則時(shí)間間隔、在啟動(dòng)音頻分類任務(wù)吋、響應(yīng)于外部命令、或甚至是隨機(jī)地確定最大可用資源。在一個(gè)例子中,可以為姆個(gè)多模式裝置建立簡(jiǎn)表。簡(jiǎn)表包含表不相應(yīng)模式的條目。每個(gè)條目可以至少包含用于標(biāo)識(shí)相應(yīng)模式的模式標(biāo)識(shí)和有關(guān)該模式下的估計(jì)資源要求的信息。復(fù)雜度控制器102可以根據(jù)與每個(gè)可能組合中定義的活躍模式相對(duì)應(yīng)的條目中的估計(jì)資源要求來計(jì)算總資源要求,并且選擇總資源要求在最大資源要求以下的ー個(gè)組合。取決于具體實(shí)現(xiàn),多模式裝置可以包含預(yù)處理器、特征提取器、分類裝置和后處理器的至少之一。預(yù)處理器可以使音頻信號(hào)適配于音頻分類系統(tǒng)100。音頻信號(hào)的采樣速率和量化精度可能不同于音頻分類系統(tǒng)100要求的采樣速率和量化精度。在這樣的情況下,預(yù)處理器可以調(diào)整音頻信號(hào)的采樣速率和量化精度以符合音頻分類系統(tǒng)100的要求。另外或可選地,預(yù)處理器可以預(yù)加重音頻信號(hào)以加強(qiáng)音頻信號(hào)的具體頻率范圍(例如,高頻范圍)。在音頻分類系統(tǒng)100中,預(yù)處理器可以是可選的,即使它不是多模式的。為識(shí)別音頻信號(hào)的分段的音頻類型,特征提取器可以從分段中提取音頻特征。分類裝置中可以有ー個(gè)或更多個(gè)活躍分類器。每個(gè)分類器需要若干音頻特征以用于對(duì)分段執(zhí)行其分類操作。特征提取器根據(jù)分類器的要求提取音頻特征。取決于分類器的要求,ー些 音頻特征可以直接提取自分段,而ー些音頻特征可以是提取自分段中的幀的音頻特征(均稱作幀級(jí)特征),或幀級(jí)特征的派生特征(均稱作窗ロ級(jí)特征)。根據(jù)提取自分段的音頻特征,分類裝置用訓(xùn)練的模型對(duì)分段進(jìn)行分類(S卩,識(shí)別分段的音頻類型)。在訓(xùn)練的模型中用決策形成模式來組織ー個(gè)或更多個(gè)活躍分類器。通過對(duì)音頻信號(hào)的分段執(zhí)行音頻分類,能夠生成音頻類型的序列。后處理器可以平滑序列的音頻類型。通過平滑,可以消除序列中音頻類型的不現(xiàn)實(shí)的突然改變。例如,大量連續(xù)"音樂"音頻類型中間的單個(gè)"話音"音頻類型可能是錯(cuò)誤估計(jì),并且能夠由后處理器平滑(消除)棹。在音頻分類系統(tǒng)100中,后處理器可以是可選的,即使它不是多模式的。由于能夠通過選擇適當(dāng)?shù)幕钴S模式組合來調(diào)整音頻分類系統(tǒng)100的資源要求,音頻分類系統(tǒng)100可適應(yīng)于運(yùn)行環(huán)境隨時(shí)間的變化,或從ー個(gè)平臺(tái)遷移到另ー個(gè)平臺(tái)(例如,從個(gè)人計(jì)算機(jī)遷移到便攜終端)而不需顯著修改,因而提高了可用性、可伸縮性和可移植性中至少之一。圖2是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法200的流程圖。為對(duì)音頻信號(hào)進(jìn)行音頻分類,涉及到若干過程,例如特征提取和分類。相應(yīng)地,音頻分類方法200可以包含用于執(zhí)行這些過程的相應(yīng)步驟(共同由附圖標(biāo)記207表示)。一些步驟(均稱作多模式步驟)可以在需要不同資源的不同模式下執(zhí)行相應(yīng)過程。如圖2所示,音頻分類方法200從步驟201開始。在步驟203,確定多模式步驟的活躍模式的組合。在步驟205,指示多模式步驟根據(jù)該組合來工作,即在該組合中定義的相應(yīng)活躍模式下工作。在步驟207,執(zhí)行相應(yīng)過程以進(jìn)行音頻分類,其中在組合中定義的活躍模式下執(zhí)行多模式步驟。在步驟209,音頻分類方法200結(jié)束。取決于具體實(shí)現(xiàn),多模式步驟可以包含預(yù)處理步驟、特征提取步驟、分類步驟和后處理步驟的至少之一,預(yù)處理步驟使音頻信號(hào)適配于音頻分類,特征提取步驟從音頻信號(hào)的分段中提取音頻特征,分類步驟根據(jù)提取的音頻特征用訓(xùn)練的模型對(duì)分段進(jìn)行分類,后處理步驟對(duì)分段的音頻類型進(jìn)行平滑。預(yù)處理步驟和后處理步驟可以是可選的,即使它們不是多模式的。預(yù)處理在音頻分類系統(tǒng)100和音頻分類方法200的進(jìn)ー步的實(shí)施例中,多模式裝置和步驟分別包含預(yù)處理器和預(yù)處理步驟。預(yù)處理器的模式和預(yù)處理步驟的模式包含一個(gè)模式MP1和另ー個(gè)模式MP2。在模式MP1下,在進(jìn)行濾波的情況下轉(zhuǎn)換音頻信號(hào)的采樣速率(需要更多資源)。在模式MP2下,在不進(jìn)行濾波的情況下轉(zhuǎn)換音頻信號(hào)的采樣速率(需要更少資源)。在為音頻分類而提取的音頻特征中,第一類型的音頻特征不適合于預(yù)加重,也就是說,如果音頻信號(hào)被預(yù)加重,則該類型的音頻特征會(huì)降低分類性能,第二類型的音頻特征適合于預(yù)加重,也就是說,如果音頻信號(hào)被預(yù)加重,則該類型的音頻特征能夠提高分類性 倉(cāng)^:。作為預(yù)加重的ー個(gè)例子,可以在特征提取的處理之前對(duì)音頻信號(hào)應(yīng)用時(shí)域預(yù)加重。這種預(yù)加重能夠表示成s' (n) = s (η) - β · s (n-1) (I)其中n是時(shí)間索引,s(n)和W (η)分別是預(yù)加重前后的音頻信號(hào),β是預(yù)加重系數(shù),通常設(shè)置為接近I的值,例如O. 98。另外或可選地,預(yù)處理器的模式和預(yù)處理步驟的模式包含一個(gè)模式MP3和另ー個(gè)模式μρ4。在模式MP3下,音頻信號(hào)S(t)直接被預(yù)加重,并且把音頻信號(hào)S(t)和預(yù)加重的音頻信號(hào)s, (t)轉(zhuǎn)換到頻域,以獲得轉(zhuǎn)換音頻信號(hào)S(CO)和預(yù)加重的轉(zhuǎn)換音頻信號(hào)S' (ω)。在模式MP4下,音頻信號(hào)S(t)被轉(zhuǎn)換到頻域以獲得轉(zhuǎn)換音頻信號(hào)S(co),并且轉(zhuǎn)換音頻信號(hào)S(co)被預(yù)加重,例如通過使用具有與根據(jù)等式(I)導(dǎo)出的頻率響應(yīng)相同的頻率響應(yīng)的高通濾波器,以獲得預(yù)加重的轉(zhuǎn)換音頻信號(hào)S' (ω)。圖3是圖示示例高通濾波器的頻率響應(yīng)的曲線圖,該頻率響應(yīng)等價(jià)于由等式(I)表示的時(shí)域預(yù)加重,其中β =0.98。在這樣的情況下,在提取音頻特征的處理中,從沒有預(yù)加重的轉(zhuǎn)換音頻信號(hào)S ( ω )中提取第一類型的音頻特征,從經(jīng)過預(yù)加重的轉(zhuǎn)換音頻信號(hào)S' (ω)中提取第二類型的音頻特征。在模式MP4下,由于省略了ー個(gè)轉(zhuǎn)換,因而需要更少的資源。在預(yù)處理器和預(yù)處理步驟具有適配和預(yù)加重的功能的情況下,模式MP1到MP4可以是獨(dú)立模式。另外,可以有模式MP1和MP3、模式MP1和MP4、模式MP2和MP3、以及模式MP2和MP4的組合模式。在這樣的情況下,預(yù)處理器的模式和預(yù)處理步驟的模式可以包含模式MP1到MP4和組合模式中的至少兩個(gè)。在一個(gè)例子中,第一類型可以包含子帶能量分布(sub-band energydistribution)、頻率分解殘余(residual of frequency decomposition)、過零率(ZCR)、譜區(qū)間高能量比(spectrum-bin high energy ratio)、低音指不(bass indicator)和長(zhǎng)期自相關(guān)特征(long-term auto-correlation feature)中的至少之一,第二類型可以包含譜波動(dòng)(譜通量)和梅爾頻率倒譜系數(shù)(MFCC)中的至少之一。特征提取長(zhǎng)期自相關(guān)系數(shù)
在音頻分類系統(tǒng)100的一個(gè)進(jìn)ー步的實(shí)施例中,多模式裝置包含特征提取器。特征提取器可以根據(jù)維納-辛欽定理(Wiener-Khinchin theorem)計(jì)算音頻信號(hào)中長(zhǎng)于ー個(gè)閾值的分段的長(zhǎng)期自相關(guān)系數(shù)。特征提取器也可以計(jì)算有關(guān)長(zhǎng)期自相關(guān)系數(shù)的、用于音頻分類的至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù)。在音頻分類方法200的一個(gè)進(jìn)ー步的實(shí)施例中,多模式步驟包含特征提取步驟。特征提取步驟可以包含根據(jù)維納-辛欽定理計(jì)算音頻信號(hào)中長(zhǎng)于ー個(gè)閾值的分段的長(zhǎng)期自相關(guān)系數(shù)。特征提取步驟也可以包含計(jì)算有關(guān)長(zhǎng)期自相關(guān)系數(shù)的、用于音頻分類的至少一項(xiàng)統(tǒng)計(jì)數(shù)據(jù)。某些敲擊聲音,尤其是具有相對(duì)恒定的速度的敲擊聲音,具有獨(dú)特的特性,即它們 是高度周期性的,尤其是當(dāng)在敲擊開始或節(jié)拍之間觀察吋。通過具有相對(duì)長(zhǎng)的長(zhǎng)度,例如2秒的長(zhǎng)度的分段的長(zhǎng)期自相關(guān)系數(shù),能夠利用這種特性。根據(jù)定義,長(zhǎng)期自相關(guān)系數(shù)可在敲擊開始或節(jié)拍后的延遲點(diǎn)上表現(xiàn)出顯著的峰。在話音信號(hào)中不能找到這種特性,因?yàn)樵捯粜盘?hào)自身幾乎不重復(fù)。如圖4A所示,與圖4B圖示的話音信號(hào)的長(zhǎng)期自相關(guān)系數(shù)相比,在敲擊信號(hào)的長(zhǎng)期自相關(guān)系數(shù)中能夠找到周期性的峰。可以設(shè)置上述閾值以保證在長(zhǎng)期自相關(guān)系數(shù)中能夠表現(xiàn)出這種特性差異。計(jì)算統(tǒng)計(jì)數(shù)據(jù)以捕獲能夠?qū)⑶脫粜盘?hào)與話音信號(hào)區(qū)分開的長(zhǎng)期自相關(guān)系數(shù)的特性。在這樣的情況下,特征提取器的模式可以包含一個(gè)模式MF1和另ー個(gè)模式MF2。在模式MF1下,直接根據(jù)分段計(jì)算長(zhǎng)期自相關(guān)系數(shù)。在模式MF2下,分段被進(jìn)行抽減(decimated),并且根據(jù)經(jīng)抽減的分段計(jì)算長(zhǎng)期自相關(guān)系數(shù)。由于抽減,能夠降低計(jì)算成本,因而降低資源要求。在一個(gè)例子中,分段具有數(shù)目N個(gè)樣本s (η),η = 1,2,·N。在模式MF1下,根據(jù)維納-辛欽定理計(jì)算長(zhǎng)期根據(jù)相關(guān)系數(shù)。根據(jù)維納-辛欽定理,通過2Ν點(diǎn)快速富立葉變換(FFT)導(dǎo)出頻率系數(shù) S (k) = FFT (s (η),2Ν) (2)其中FFT (X,2Ν)表示信號(hào)χ的2Ν點(diǎn)FFT分析,于是長(zhǎng)期自相關(guān)系數(shù)被導(dǎo)出為A ( τ ) = IFFT (S (k) · S* (k)) (3)其中Α(τ)是長(zhǎng)期自相關(guān)系數(shù)的序列,S * (k)表示S (k)的復(fù)共軛,IFFT()表示逆FFT。在模式MF2下,在計(jì)算長(zhǎng)期自相關(guān)系數(shù)之前,分段s (η)被抽減(例如,按照系數(shù)D抽減,其中D > 10),而其它計(jì)算與模式MF1中的相同。例如,如果ー個(gè)分段具有32000個(gè)樣本,則其應(yīng)被填零為2X32768個(gè)樣本以便進(jìn)行高效FFT,而模式MF1下的處理需要大約I. 7 X IO6次乘法,包括I)用于 FFT 和 IFFT 的 2X2X32768Xlog(2X32768)次乘法;和2)用于頻率系數(shù)和共軛系數(shù)之間的乘法的4X2X32768次乘法。如果按照系數(shù)16把分段抽減為2048個(gè)樣本,則復(fù)雜度被顯著降低到大約8. 4X IO4次乘法。在這樣的情況下,復(fù)雜度被降低到初始復(fù)雜度的大約5%。在一個(gè)例子中,統(tǒng)計(jì)數(shù)據(jù)可以包含以下項(xiàng)中的至少之ーI)均值所有長(zhǎng)期自相關(guān)系數(shù)的平均值;2)方差所有長(zhǎng)期自相關(guān)系數(shù)的標(biāo)準(zhǔn)差;
3)High_AVerage (高平均值)滿足以下條件至少之ー的長(zhǎng)期自相關(guān)系數(shù)的平均值a)大于ー個(gè)閾值;以及b)在預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)內(nèi),該預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)不低于所有其它長(zhǎng)期自相關(guān)系數(shù)。例如,如果所有長(zhǎng)期自相關(guān)系數(shù)被表示成按照降序排列的C1, C2,,Cn,則該預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)包含C1, C2, , Cm,其中m/n等于該預(yù)定比例;4)High_Value_Percentage (高值百分比):High_Average所涉及的長(zhǎng)期自相關(guān)系數(shù)的數(shù)目與長(zhǎng)期自相關(guān)系數(shù)的總數(shù)的比值;5)LoW_AVerage (低平均值)滿足以下條件至少之ー的長(zhǎng)期自相關(guān)系數(shù)的平均值c)小于ー個(gè)閾值;以及d)在預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)內(nèi),該預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)不高于所有其它長(zhǎng)期自相關(guān)系數(shù)。例如,如果所有長(zhǎng)期自相關(guān)系數(shù)被表示成按照升序排列的C1, C2,,Cn,則該預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)包含C1, C2, , Cm,其中m/n等于該預(yù)定比例;6) Low_Value_Percentage (低值百分比):Low_Average所涉及的長(zhǎng)期自相關(guān)系數(shù)的數(shù)目與長(zhǎng)期自相關(guān)系數(shù)的總數(shù)的比值;和7)對(duì)比度High_Average 和 Low_Average 之間的比值。作為ー個(gè)進(jìn)ー步的改進(jìn),可以根據(jù)零時(shí)滯值對(duì)上述導(dǎo)出的長(zhǎng)期自相關(guān)系數(shù)進(jìn)行歸一化,以消除絕對(duì)能量的影響,即零時(shí)滯的長(zhǎng)期自相關(guān)系數(shù)均為1. O。此外,在計(jì)算統(tǒng)計(jì)數(shù)據(jù)時(shí)不考慮零時(shí)滯值和鄰近值(例如,時(shí)滯< 10個(gè)樣本),因?yàn)檫@些值不代表信號(hào)的任何自重復(fù)。低音指示在音頻分類系統(tǒng)100和音頻分類方法200的進(jìn)ー步的實(shí)施例中,通過低通濾波器對(duì)每個(gè)分段進(jìn)行濾波,在該低通濾波器中允許低頻敲擊分量通過。為音頻分類而提取的音頻特征包含通過對(duì)經(jīng)過濾波的分段應(yīng)用過零率(ZCR)而獲得的低音指示特征。ZCR能夠在話音的濁音和清音部分之間有明顯變化。能夠利用此特性來有效區(qū)別話音和其它信號(hào)。然而,為對(duì)類話音信號(hào)(具有類似話音的信號(hào)特征的非話音信號(hào),包含具有恒定速度的敲擊聲音,以及說唱音樂)進(jìn)行分類,尤其是對(duì)敲擊聲音進(jìn)行分類,傳統(tǒng)ZCR是低效的,因?yàn)榍脫袈曇舯憩F(xiàn)出的變化特性與話音信號(hào)中發(fā)現(xiàn)的變化特性相似。這是由于在許多敲擊片段(從敲擊聲音中采樣的低頻敲擊分量)中發(fā)現(xiàn)的低音響弦擊鼓節(jié)拍結(jié)構(gòu)(bass-snare drumming measure structure)可產(chǎn)生的ZCR變化與話音信號(hào)的池音-清音結(jié)構(gòu)所產(chǎn)生的ZCR變化相似。在本發(fā)明實(shí)施例中,引入低音指示特征以作為低音聲音的存在的指示。低通濾波器可具有例如80Hz的低截止頻率,使得除低頻敲擊分量(例如,低音鼓)之外,信號(hào)中的任何其他分量(包含話音)均會(huì)被顯著衰減。結(jié)果,這種低音指示能夠顯示低頻敲擊聲音和話音信號(hào)之間的不同特性。這能夠?qū)е骂愒捯粜盘?hào)和話音信號(hào)之間的有效鑒別,因?yàn)樵S多類話音信號(hào)包括大量低音分量,例如說唱音樂。頻率分解殘余在音頻分類系統(tǒng)100的一個(gè)進(jìn)ー步的實(shí)施例中,多模式裝置可以包含特征提取器。對(duì)于每個(gè)分段,特征提取器可以通過從該分段的每個(gè)幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計(jì)算至少ー級(jí)、ニ級(jí)和三級(jí)的頻率分解殘余。對(duì)于每個(gè)分段,特征提取器也可以關(guān)于該分段的幀的相同級(jí)別的殘余計(jì)算至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù)。在音頻分類方法200的一個(gè)進(jìn)ー步的實(shí)施例中,多模式步驟可以包含特征提取步驟。特征提取步驟可以包含,對(duì)于每個(gè)分段,通過從該分段的每個(gè)幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計(jì)算至少ー級(jí)、ニ級(jí)和三級(jí)的頻率分解殘余。特征提取步驟也可以包含,對(duì)于每個(gè)分段,關(guān)于該分段的幀的相同級(jí)別的殘余計(jì)算至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù)。所計(jì)算的殘余和統(tǒng)計(jì)數(shù)據(jù)被包含在音頻特征中以用于相應(yīng)分段的音頻分類。通過頻率分解,對(duì)于某些類型的敲擊信號(hào)(例如,具有恒定速度的低音擊鼓聲),·與話音信號(hào)相比有較少的頻率分量能夠近似這樣的敲擊聲音。原因是這些敲擊信號(hào)本質(zhì)上比話音信號(hào)和其它類型的音樂信號(hào)具有更少的復(fù)雜頻率成分。因此,通過移除不同數(shù)目的顯著頻率分量(例如,具有最高能量的分量),當(dāng)與話音和其它音樂信號(hào)的特性相比時(shí),這樣的敲擊聲音的殘余(剰余能量)能夠表現(xiàn)出顯著不同的特性,因而提高分類性能。特征提取器和特征提取步驟的模式可以包含一個(gè)模式MF3和另ー個(gè)模式MF4。在模式MF3下,第一能量是譜的H1個(gè)最高頻率區(qū)間的總能量,第二能量是譜的H2個(gè)最高頻率區(qū)間的總能量,而第三能量是譜的H3個(gè)最高頻率區(qū)間的總能量,其中H1 < H2 < H3。在模式MF4下,第一能量是譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,第二能量是譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含第一能量所涉及的峰區(qū)域,而第三能量是譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含第二能量所涉及的峰區(qū)域。峰區(qū)域可以是全局的,也可以是局部的。在ー個(gè)示例實(shí)現(xiàn)中,令S (k)是具有功率譜能量E的一個(gè)分段的譜系數(shù)序列,即E = Σ剛2
fc=l其中K是頻率區(qū)間的總數(shù)。在模式MF3下,通過從S (k)中移除H1個(gè)最高頻率區(qū)間之后的剰余能量來估計(jì)ー級(jí)殘余Rp這能夠表示成沢I=五-ΣΙ*^(,)Ι
Y其中Y 一 L1,L2…是H1個(gè)最聞?lì)l率區(qū)間的索引。類似地,令R2和R3分別是通過從S(co)中移除H2和H3個(gè)最高頻率區(qū)間而獲得的ニ級(jí)殘余和三級(jí)殘余,其中H1 < H2 < Η3。對(duì)于敲擊、話音和音樂信號(hào)可以發(fā)現(xiàn)(理想情況下)下列事實(shí)敲擊聲音E>> R1 ^ R2 ^ R3話音E> R1 > R2 ^ R3音樂E> R1 > R2 > R3。在模式MF4下,通過移除譜的最高峰,可以把ー級(jí)殘余R1估計(jì)為L(zhǎng)+WR1= E- ΣΙ則2
Y=L-W其中L是最高能量頻率區(qū)間的索引,W是限定峰區(qū)域的寬度的正整數(shù),即峰區(qū)域具有2W+1個(gè)頻率區(qū)間??蛇x地,代替如上所述定位全局峰的方式,也可以搜索和移除局部峰區(qū)域以進(jìn)行殘余估計(jì)。在這樣的情況下,在譜的一部分中捜索L以作為最高能量頻率區(qū)間的索引,而其它處理保持相同。與ー級(jí)殘余類似,通過從譜中移除更多的峰可以估計(jì)后續(xù)級(jí)別的殘余。在一個(gè)例子中,統(tǒng)計(jì)數(shù)據(jù)可以包含以下項(xiàng)中的至少之ー I)相同分段的幀的相同級(jí)別的殘余的均值;2)方差相同分段的幀的相同級(jí)別的殘余的標(biāo)準(zhǔn)差;3) Residual_High_Average (殘余高平均值)相同分段的巾貞的相同級(jí)別的、滿足下列條件中至少之ー的殘余的平均值a)大于ー個(gè)閾值;以及b)在預(yù)定比例的殘余內(nèi),該預(yù)定比例的殘余不低于所有其它殘余。例如,如果所有殘余被表示成按照降序排列的巧,r2,, rn,則該預(yù)定比例的殘余包含rp r2, , rm,其中m/n等于該預(yù)定比例;4)Residual_Low_Average (殘余低平均值)相同分段的巾貞的相同級(jí)別的、滿足下列條件中至少之ー的殘余的平均值c)小于ー個(gè)閾值;以及d)在預(yù)定比例的殘余內(nèi),該預(yù)定比例的殘余不高于所有其它殘余。例如,如果所有殘余被表示成按照升序排列的巧,r2,, rn,則該預(yù)定比例的殘余包含rp r2, , rm,其中m/n等于該預(yù)定比例;以及5) Residual_Contrast (殘余對(duì)比度)Residual_High_Average 和 Residual_Low_Average之間的比值。譜區(qū)間高能量比在音頻分類系統(tǒng)100和音頻分類方法200的進(jìn)ー步的實(shí)施例中,被提取用于對(duì)每個(gè)分段進(jìn)行音頻分類的音頻特征包含譜區(qū)間高能量比。譜區(qū)間高能量比是分段的譜中能量高于閾值的頻率區(qū)間的數(shù)目與頻率區(qū)間的總數(shù)的比值。在復(fù)雜度嚴(yán)格受限的某些情況下,能夠用稱作譜區(qū)間高能量比的特征來替代上述殘余分析。譜區(qū)間高能量比特征被用來近似頻率分解殘余的性能??梢源_定該閾值,使得其性能近似頻率分解殘余的性能。在一個(gè)例子中,該閾值可以被計(jì)算為下列之一I)分段的譜的平均能量,或該分段周圍的分段范圍的譜的平均能量;2)分段的譜的加權(quán)平均能量,或該分段周圍的分段范圍的譜的加權(quán)平均能量,其中該分段具有相對(duì)較高的權(quán)重,該范圍中的每個(gè)其它分段具有相對(duì)較低的權(quán)重,或者其中相對(duì)較高能量的每個(gè)頻率區(qū)間具有相對(duì)較高的權(quán)重,相對(duì)較低能量的每個(gè)頻率區(qū)間具有相對(duì)較低的權(quán)重;3)平均能量或加權(quán)平均能量的換算值;以及4)平均能量或加權(quán)平均能量加上或減去標(biāo)準(zhǔn)差。
在音頻分類系統(tǒng)100和音頻分類方法200的進(jìn)ー步的實(shí)施例中,音頻特征可以包含自相關(guān)系數(shù)、低音指示、頻率分解殘余和譜區(qū)間高能量比中的至少兩個(gè)。在音頻特征包含長(zhǎng)期自相關(guān)系數(shù)和頻率分解殘余的情況下,特征提取器的模式和特征提取步驟的模式可以包含作為獨(dú)立模式的模式MF1到MF4。另外,可以有模式MF1和MF3、模式MF1和MP4、模式MP2和MF3、以及模式MP2和MP4的組合模式。在這樣的情況下,特征提取器的模式和特征提取步驟的模式可以包含模式MP1到MF4和組合模式中的至少兩個(gè)。分類裝置圖5是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例分類裝置500的框圖。如圖5所示,分類裝置500包含具有不同優(yōu)先級(jí)的分類器級(jí)段502-1,502-2,...,502-n的鏈。雖然圖5中圖示了超過兩個(gè)的分類器級(jí)段,然而可以有兩個(gè)分類器級(jí)段。在鏈中,按照優(yōu)先級(jí)的降序排列分類器級(jí)段。在圖5中,分類器級(jí)段502-1被排列在鏈的開始處,具有最高優(yōu)先級(jí),分類器級(jí)段502-2被排列在鏈中的次最高位置,具有次最高優(yōu)先級(jí),等等。分類器級(jí)段502-n被排列在鏈的結(jié)束處,具有最低優(yōu)先級(jí)。分類裝置500也包含級(jí)段控制器505。級(jí)段控制器505確定從具有最高優(yōu)先級(jí)的分類器級(jí)段(例如,分類器級(jí)段502-1)開始的子鏈。子鏈的長(zhǎng)度取決于組合中針對(duì)分類裝置500的模式。分類裝置500的模式的資源要求與子鏈的長(zhǎng)度成比例。因此,分類裝置500可以配有對(duì)應(yīng)于不同子鏈,最長(zhǎng)達(dá)到整個(gè)鏈的不同模式。所有分類器級(jí)段502-1,502-2,. . . ,502-n具有相同結(jié)構(gòu)和功能,因此這里僅詳細(xì)描述分類器級(jí)段502-1。分類器級(jí)段502-1包含分類器503-1和決策單元504_1。分類器503-1根據(jù)提取自分段的相應(yīng)音頻特征501生成當(dāng)前類別估計(jì)。當(dāng)前類別估計(jì)包含估計(jì)的音頻類型和相應(yīng)置信度。決策單元504-1可以具有與其分類器級(jí)段在子鏈中的位置相對(duì)應(yīng)的不同功能。如果分類器級(jí)段位于子鏈的開始處(例如,分類器級(jí)段502-1),則激活第一功能。在第一功能中,確定當(dāng)前置信度是否高于與該分類器級(jí)段相關(guān)聯(lián)的置信度閾值。如果確定當(dāng)前置信度高于置信度閾值,則通過輸出當(dāng)前類別估計(jì)來終止音頻分類。否則,當(dāng)前類別估計(jì)被提供給子鏈中的所有后面的分類器級(jí)段(例如,分類器級(jí)段502-2,...,502-n),并且子鏈中的下一分類器級(jí)段開始工作。如果分類器級(jí)段位于子鏈的中間(例如,分類器級(jí)段502-2),則激活第二功能。在第二功能中,確定當(dāng)前置信度是否高于置信度閾值,或確定當(dāng)前類別估計(jì)和所有先前的類別估計(jì)(例如,分類器級(jí)段502-1)是否能夠根據(jù)第一判決準(zhǔn)則決定ー個(gè)音頻類型。因?yàn)橄惹暗念悇e估計(jì)可包含各種所決定的音頻類型和相關(guān)的置信度,各種判決準(zhǔn)則可以被用來根據(jù)先前的類別估計(jì)決定最可能的音頻類型和相關(guān)的做出決定的類別估計(jì)。如果確定當(dāng)前置信度高于置信度閾值,或類別估計(jì)能夠決定音頻類型,則通過輸出當(dāng)前類別估計(jì),或輸出所決定的音頻類型和相應(yīng)置信度來終止音頻分類。否則,當(dāng)前類別估計(jì)被提供給子鏈中的所有后面的分類器級(jí)段,并且子鏈中的下一分類器級(jí)段開始工作。如果分類器級(jí)段位于子鏈的結(jié)束處(例如,分類器級(jí)段502-n),則激活第三功能??梢酝ㄟ^輸出當(dāng)前類別估計(jì)來終止音頻分類,或者可以確定當(dāng)前類別估計(jì)和所有先前的類別估計(jì)是否能夠根據(jù)第二判決準(zhǔn)則決定ー個(gè)音頻類型。因?yàn)橄惹暗念悇e估計(jì)可包含各種所決定的音頻類型和相關(guān)的置信度,各種判決準(zhǔn)則可以被用來根據(jù)先前的類別估計(jì)決定最可能的音頻類型和相關(guān)的做出決定的類別估計(jì)。在后一種情況下,如果確定類別估計(jì)能夠決定音頻類型,則通過輸出所決定的音頻類型和相應(yīng)置信度來終止音頻分類。否則,通過輸出當(dāng)前類別估計(jì)來終止音頻分類。以這種方式,通過具有不同長(zhǎng)度的決策路徑,分類裝置的資源要求變得可配置和可伸縮。此外,在估計(jì)出具有足夠置信度的音頻類型的情況下,能夠防止遍歷整個(gè)決策路徑,從而提聞效率。子鏈中可以只包含ー個(gè)分類器級(jí)段。在這樣的情況下,決策單元可以通過輸出當(dāng)前類別估計(jì)來終止音頻分類。圖6是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的分類步驟的示例過程600的流程圖。如圖6所示,過程600包含具有不同優(yōu)先級(jí)的子步驟S1, S2, . . . , Sn的鏈。雖然圖6中圖示了超過兩個(gè)的子步驟,然而可以有兩個(gè)子步驟。在鏈中,按照優(yōu)先級(jí)的降序排列子步驟。在圖6中,子步驟SI被排列在鏈的開始處,具有最高優(yōu)先級(jí),子步驟S2被排列在鏈中的次最高位置,具有次最高優(yōu)先級(jí),等等。子步驟Sn被排列在鏈的結(jié)束處,具有最低優(yōu)先級(jí)。過程600從子步驟601開始。在子步驟603,確定從具有最高優(yōu)先級(jí)的子步驟(例如,子步驟S1)開始的子鏈。子鏈的長(zhǎng)度取決于組合中針對(duì)分類步驟的模式。分類步驟的模式的資源要求與子鏈的長(zhǎng)度成比例。因此,分類步驟可以配有對(duì)應(yīng)于不同子鏈,最長(zhǎng)達(dá)到整個(gè)鏈的不同模式。子步驟S1, S2, , Sn中的進(jìn)行分類和決策的所有操作具有相同功能,因此這里只詳細(xì)描述子步-S1中的進(jìn)行分類和決策的操作。在操作605-1中,利用分類器,根據(jù)從分段提取的相應(yīng)音頻特征產(chǎn)生當(dāng)前類別估計(jì)。當(dāng)前類別估計(jì)包含估計(jì)的音頻類型和相應(yīng)置信度。操作607-1可以具有與其子步驟在子鏈中的位置相對(duì)應(yīng)的不同功能。如果子步驟位于子鏈的開始處(例如,子步驟S1),則激活第一功能。在第一功能中,確定當(dāng)前置信度是否高于與該子步驟相關(guān)聯(lián)的置信度閾值。如果確定當(dāng)前置信度高于置信度閾值,則在操作609-1中確定終止音頻分類,并且于是在子步驟613輸出當(dāng)前類別估計(jì)。否則,在操作609-1中確定不終止音頻分類,于是在操作611-1中把當(dāng)前類別估計(jì)提供給子鏈中的所有后面的子步驟(例如,子步驟S2,...,Sn),并且子鏈中的下一子步驟開始執(zhí)行。如果子步驟位于子鏈的中間(例如,子步驟S2),則激活第二功能。在第二功能中,確定當(dāng)前置信度是否高于置信度閾值,或確定當(dāng)前類別估計(jì)和所有先前的類別估計(jì)(例如,子步驟S1)是否能夠根據(jù)第一判決準(zhǔn)則決定ー個(gè)音頻類型。如果確定當(dāng)前置信度高于置信度閾值,或類別估計(jì)能夠決定音頻類型,則在操作609-2中確定終止音頻分類,于是在子步驟613輸出當(dāng)前類別估計(jì),或輸出所決定的音頻類型和相應(yīng)置信度。否則,在操作609-2中確定不終止音頻分類,于是在操作611-2中把當(dāng)前類別估計(jì)提供給子鏈中的所有后面的子步驟,并且子鏈中的下一子步驟開始執(zhí)行。如果子步驟位于子鏈的結(jié)束處(例如,子步驟Sn),則激活第三功能??梢越K止音頻分類并且前進(jìn)到子步驟613以輸出當(dāng)前類別估計(jì),或者可以確定當(dāng)前類別估計(jì)和所有先前的類別估計(jì)是否能夠根據(jù)第二判決準(zhǔn)則決定ー個(gè)音頻類型。在后一種情況下,如果確定類別估計(jì)能夠決定ー個(gè)音頻類型,由終止音頻分類并且過程600前進(jìn)到子步驟613以輸出所決定的音頻類型和相應(yīng)置信度。否則,終止音頻分類并且過程600前進(jìn)到子步驟613以輸出當(dāng)前類別估計(jì)。在子步驟613,輸出分類結(jié)果。接著過程600在子步驟615結(jié)束。子鏈中可以只包含ー個(gè)子步驟。在這樣的情況下,子步驟可以通過輸出當(dāng)前類別估計(jì)來終止音頻分類。在一個(gè)例子中,第一判決準(zhǔn)則可以包含以下準(zhǔn)則中的至少之ーI)如果當(dāng)前置信度和對(duì)應(yīng)于與當(dāng)前音頻類型相同的音頻類型的先前置信度的平均置信度高于ー個(gè)閾值,則能夠決定當(dāng)前音頻類型;2)如果當(dāng)前置信度和對(duì)應(yīng)于與當(dāng)前音頻類型相同的音頻類型的先前置信度的加權(quán)平均置信度高于ー個(gè)閾值,則能夠決定當(dāng)前音頻類型;以及3)如果決定與當(dāng)前音頻類型相同的音頻類型的先前分類器級(jí)段的數(shù)目高于ー個(gè)閾值,則能夠決定當(dāng)前音頻類型,并且輸出的置信度是當(dāng)前置信度,或能夠決定所輸出的音頻類型的類別估計(jì)的置信度的加權(quán)或非加權(quán)平均,其中先前的置信度的權(quán)重高于后面的置信度的權(quán)重。在另ー個(gè)例子中,第二判決準(zhǔn)則可以包含以下準(zhǔn)則中的至少之ーI)在所有類別估計(jì)中,如果包含相同音頻類型的類別估計(jì)的數(shù)目最高,則此相同音頻類型能夠被這些相應(yīng)類別估計(jì)決定;2)在所有類別估計(jì)中,如果包含相同音頻類型的類別估計(jì)的加權(quán)數(shù)目最高,則此相同音頻類型能夠被這些相應(yīng)類別估計(jì)決定;以及3)在所有類別估計(jì)中,如果對(duì)應(yīng)于相同音頻類型的置信度的平均置信度最高,則此相同音頻類型能夠被相應(yīng)類別估計(jì)決定,并且輸出的置信度是當(dāng)前置信度,或能夠決定所輸出的音頻類型的類別估計(jì)的置信度的加權(quán)或非加權(quán)平均,其中先前的置信度的權(quán)重高于后面的置信度的權(quán)重。在分類裝置500和分類步驟600的進(jìn)ー步的實(shí)施例中,如果鏈中的分類器級(jí)段和子步驟之一所采用的分類算法在分類出各音頻類型的至少之一方面具有較高的準(zhǔn)確性,那么該分類器級(jí)段和子步驟被指定較高優(yōu)先級(jí)。在分類裝置500和分類步驟600的進(jìn)ー步的實(shí)施例中,用于每個(gè)在后分類器級(jí)段和子步驟的分類器的每個(gè)訓(xùn)練樣本至少包括標(biāo)記有正確音頻類型的音頻樣本,要由該分類器識(shí)別的各音頻類型,以及有關(guān)對(duì)應(yīng)于每個(gè)音頻類型的置信度的統(tǒng)計(jì)數(shù)據(jù),這些置信度是由所有先前的分類器級(jí)段根據(jù)該音頻樣本生成的。在分類裝置500和分類步驟600的進(jìn)ー步的實(shí)施例中,用于每個(gè)在后分類器級(jí)段和子步驟的分類器的訓(xùn)練樣本至少包括標(biāo)記有正確音頻類型但是被所有先前分類器級(jí)段誤分類或以低置信度分類的音頻樣本。后處理在音頻分類系統(tǒng)100和音頻分類方法200的進(jìn)ー步的實(shí)施例中,通過音頻分類針對(duì)音頻信號(hào)中的每個(gè)分段生成類別估計(jì),其中每個(gè)類別估計(jì)包含所估計(jì)的音頻類型和相應(yīng)
置信度。
多模式裝置和多模式步驟分別包含后處理器和后處理步驟。后處理器和后處理步驟的模式包含一個(gè)模式MO1和另ー個(gè)模式MO2。在模式MO1下,確定窗ロ中對(duì)應(yīng)于相同音頻類型的置信度的最高和數(shù)或平均值,并且當(dāng)前音頻類型彼此相同音頻類型所代替。在模式MO2下,采用具有相對(duì)短的長(zhǎng)度的窗ロ,并且/或者確定所述窗口中對(duì)應(yīng)于相同音頻類型的置信度的最高數(shù)目,當(dāng)前音頻類型彼此相同音頻類型所代替。在音頻分類系統(tǒng)100和音頻分類方法200的進(jìn)ー步的實(shí)施例中,多模式裝置和多模式步驟分別包含后處理器和后處理步驟。后處理器被配置成在音頻信號(hào)中搜索兩個(gè)重復(fù)部分,并且通過把兩個(gè)重復(fù)部分之間的分段當(dāng)作非話音類型來平滑分類結(jié)果。后處理步驟包括在音頻信號(hào)中搜索兩個(gè)重復(fù)部分,以及通過把兩個(gè)重復(fù)部分之間的分段當(dāng)作非話音類型來平滑分類結(jié)果。 后處理器和后處理步驟的模式包含一個(gè)模式MO3和另ー個(gè)模式M04。在模式MO3下,采用相對(duì)長(zhǎng)的捜索范圍。在模式MO4下,采用相對(duì)短的捜索范圍。在后處理包含基于置信度的平滑和根據(jù)重復(fù)模式的平滑的情況下,模式可以包含作為獨(dú)立模式的模式MO1到M04。另外,可以有模式MO1和MO3、模式MO1和MO4、模式MO2和M03、以及模式MO2和MO4的組合模式。在這樣的情況下,模式可以包含模式MO1到MO4和組合模式中的至少兩個(gè)。圖7是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)700的框圖。如圖7所示,在音頻分類系統(tǒng)700中,多模式裝置包括特征提取器711,分類裝置712和后處理器713。特征提取器711具有與在章節(jié)“頻率分解殘余”中描述的特征提取器相同的結(jié)構(gòu)和功能,這里不再詳細(xì)說明。分類裝置712具有與結(jié)合圖5描述的分類裝置相同的結(jié)構(gòu)和功能,這里不再詳細(xì)說明。后處理器713被配置成在音頻信號(hào)中搜索兩個(gè)重復(fù)部分,并且通過把兩個(gè)重復(fù)部分之間的分段當(dāng)作非話音類型來平滑分類結(jié)果。后處理器的模式包含采用相對(duì)長(zhǎng)的搜索范圍的模式,和采用相對(duì)短的搜索范圍的另ー個(gè)模式。音頻分類系統(tǒng)700也包含復(fù)雜度控制器702。復(fù)雜度控制器702具有與復(fù)雜度控制器102相同的功能,這里不再詳細(xì)說明。應(yīng)當(dāng)注意,因?yàn)樘卣魈崛∑?11、分類裝置712和后處理器713是多模式裝置,由復(fù)雜度控制器702確定的組合可以限定特征提取器711、分類裝置712和后處理器713的相應(yīng)活躍模式。圖8是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法800的流程圖。如圖8所示,音頻分類方法800從步驟801開始。步驟803和步驟805分別與步驟203和步驟205具有相同功能,這里不再詳細(xì)說明。多模式步驟包括特征提取步驟807、分類步驟809和后處理步驟811。特征提取步驟807具有與在章節(jié)“頻率分解殘余”中描述的特征提取步驟相同的功能,這里不再詳細(xì)說明。分類步驟809具有與結(jié)合圖6描述的分類過程相同的功能,這里不再詳細(xì)說明。后處理步驟811包括在音頻信號(hào)中搜索兩個(gè)重復(fù)部分,以及通過把兩個(gè)重復(fù)部分之間的分段當(dāng)作非話音類型來平滑分類結(jié)果。后處理步驟的模式包含采用相對(duì)長(zhǎng)的搜索范圍的模式,和采用相對(duì)短的搜索范圍的另ー個(gè)模式。應(yīng)當(dāng)注意,因?yàn)樘卣魈崛〔襟E807、分類步驟809和后處理步驟811是多模式步驟,在步驟803確定的組合可以限定特征提取步驟807、分類步驟809和后處理步驟811的相應(yīng)活躍模式。其它實(shí)施例圖9是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)900的框圖。
如圖9所示,音頻分類系統(tǒng)900包含從音頻信號(hào)的分段中提取音頻特征的特征提取器911,和基于所提取的音頻特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類的分類裝置912。特征提取器911包含系數(shù)計(jì)算器921和統(tǒng)計(jì)數(shù)據(jù)計(jì)算器922。系數(shù)計(jì)算器921根據(jù)維納-辛欽定理計(jì)算音頻信號(hào)中長(zhǎng)于ー個(gè)閾值的分段的長(zhǎng)期自相關(guān)系數(shù),以作為音頻特征。統(tǒng)計(jì)數(shù)據(jù)計(jì)算器922計(jì)算有關(guān)長(zhǎng)期自相關(guān)系數(shù)的、用于音頻分類的至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù),以作為音頻特征。圖10是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法1000的流程圖。如圖10所示,音頻分類方法1000從步驟1001開始。執(zhí)行步驟1003到1007以從
音頻信號(hào)的分段中提取音頻特征。在步驟1003,根據(jù)維納-辛欽定理計(jì)算音頻信號(hào)中長(zhǎng)于ー個(gè)閾值的分段的長(zhǎng)期自相關(guān)系數(shù),以作為音頻特征。在步驟1005,計(jì)算有關(guān)長(zhǎng)期自相關(guān)系數(shù)的、用于音頻分類的至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù),以作為音頻特征。在步驟1007,確定是否存在尚未處理的另ー個(gè)分段。如果存在,則方法1000返回到步驟1003。如果沒有,則方法1000前進(jìn)到步驟1009。在步驟1009,基于所提取的音頻特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類。方法1000在步驟1011結(jié)束。某些敲擊聲音,尤其是具有相對(duì)恒定的速度的敲擊聲音,具有獨(dú)特的特性,即它們是高度周期性的,尤其是當(dāng)在敲擊開始或節(jié)拍之間觀察吋。通過具有相對(duì)長(zhǎng)的長(zhǎng)度,例如2秒的長(zhǎng)度的分段的長(zhǎng)期自相關(guān)系數(shù),能夠利用這種特性。根據(jù)定義,長(zhǎng)期自相關(guān)系數(shù)可在敲擊開始或節(jié)拍后的延遲點(diǎn)上表現(xiàn)出顯著的峰。在話音信號(hào)中不能找到這種特性,因?yàn)樵捯粜盘?hào)自身幾乎不重復(fù)。計(jì)算統(tǒng)計(jì)數(shù)據(jù)以捕獲能夠?qū)⑶脫粜盘?hào)與話音信號(hào)區(qū)分開的長(zhǎng)期自相關(guān)系數(shù)的特性。因此,根據(jù)系統(tǒng)900和方法1000,可以降低把敲擊信號(hào)分類為話音信號(hào)的可能性。在一個(gè)例子中,統(tǒng)計(jì)數(shù)據(jù)可以包含以下項(xiàng)中的至少之ーI)均值所有長(zhǎng)期自相關(guān)系數(shù)的平均值;2)方差所有長(zhǎng)期自相關(guān)系數(shù)的標(biāo)準(zhǔn)差;3)High_AVerage (高平均值)滿足以下條件至少之ー的長(zhǎng)期自相關(guān)系數(shù)的平均值a)大于ー個(gè)閾值;以及b)在預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)內(nèi),該預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)不低于所有其它長(zhǎng)期自相關(guān)系數(shù);4)High_Value_Percentage (高值百分比):High_Average所涉及的長(zhǎng)期自相關(guān)系數(shù)的數(shù)目與長(zhǎng)期自相關(guān)系數(shù)的總數(shù)的比值;5)LoW_AVerage (低平均值)滿足以下條件至少之ー的長(zhǎng)期自相關(guān)系數(shù)的平均值c)小于ー個(gè)閾值;以及d)在預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)內(nèi),該預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)不高于所有其它長(zhǎng)期自相關(guān)系數(shù);
6) Low_Value_Percentage (低值百分比)Low_Average所涉及的長(zhǎng)期自相關(guān)系數(shù)的數(shù)目與長(zhǎng)期自相關(guān)系數(shù)的總數(shù)的比值;以及7)對(duì)比度High_Average 和 Low_Average 之間的比值。作為ー個(gè)進(jìn)ー步的改進(jìn),可以根據(jù)零時(shí)滯值對(duì)上述導(dǎo)出的長(zhǎng)期自相關(guān)系數(shù)進(jìn)行歸一化,以消除絕對(duì)能量的影響,即零時(shí)滯的長(zhǎng)期自相關(guān)系數(shù)均為1. O。此外,在計(jì)算統(tǒng)計(jì)數(shù)據(jù)時(shí)不考慮零時(shí)滯值和鄰近值(例如,時(shí)滯< 10個(gè)樣本),因?yàn)檫@些值不代表信號(hào)的任何自重復(fù)。圖11是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)1100的框圖。如圖11所示,音頻分類系統(tǒng)1100包含從音頻信號(hào)的分段中提取音頻特征的特征提取器1111,和基于所提取的音頻特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類的分類裝置1112。特征提取器1111包含低通濾波器1121和計(jì)算器1122。低通濾波器1121通過允許低頻敲擊分量通過來對(duì)分段進(jìn)行濾波。計(jì)算器1122通過對(duì)分段應(yīng)用過零率(ZCR)來提取低音指示特征,以作為音頻特征。圖12是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法1200的流程圖。如圖12所示,音頻分類方法1200從步驟1201開始。執(zhí)行步驟1203到1207以從音頻信號(hào)的分段中提取音頻特征。在步驟1203,通過低通濾波器對(duì)分段進(jìn)行濾波,在該低通濾波器中,允許低頻敲擊分量通過。在步驟1205,通過對(duì)分段應(yīng)用過零率(ZCR)來提取低音指示特征,以作為音頻特征。在步驟1207,確定是否存在尚未處理的另ー個(gè)分段。如果存在,則方法1200返回到步驟1203。如果沒有,則方法1200前進(jìn)到步驟1209。在步驟1209,基于所提取的音頻特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類。方法1200在步驟1211結(jié)束。ZCR能夠在話音的濁音和清音部分之間有明顯變化。能夠利用此特性來有效區(qū)別話音和其它信號(hào)。然而,為對(duì)類話音信號(hào)(具有類似話音的信號(hào)特征的非話音信號(hào),包含具有恒定速度的敲擊聲音,以及說唱音樂)進(jìn)行分類,尤其是對(duì)敲擊聲音進(jìn)行分類,傳統(tǒng)ZCR是低效的,因?yàn)榍脫袈曇舯憩F(xiàn)出的變化特性與話音信號(hào)中發(fā)現(xiàn)的變化特性相似。這是由于在許多敲擊片段中發(fā)現(xiàn)的低音響弦擊鼓節(jié)拍結(jié)構(gòu)可產(chǎn)生的ZCR變化與話音信號(hào)的濁音-清音結(jié)構(gòu)所產(chǎn)生的ZCR變化相似。在本發(fā)明實(shí)施例中,引入低音指示特征以作為低音聲音的存在的指示。低通濾波器可具有例如80Hz的低截止頻率,使得除低頻敲擊分量(例如,低音鼓)之外,信號(hào)中的任何其他分量(包含話音)均會(huì)被顯著衰減。結(jié)果,這種低音指示能夠顯示低頻敲擊聲音和話音信號(hào)之間的不同特性。這能夠?qū)е骂愒捯粜盘?hào)和話音信號(hào)之間的有效鑒別,因?yàn)樵S多類話音信號(hào)包括大量低音分量,例如說唱音樂。圖13是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類系統(tǒng)1300的框圖。如圖13所示,音頻分類系統(tǒng)1300包含從音頻信號(hào)的分段中提取音頻特征的特征提取器1311,和基于所提取的音頻特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類的分類裝置1312。特征提取器1311包含殘余計(jì)算器1321和統(tǒng)計(jì)數(shù)據(jù)計(jì)算器1322。
對(duì)于每個(gè)分段,殘余計(jì)算器1321通過從該分段的每個(gè)幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計(jì)算至少ー級(jí)、ニ級(jí)和三級(jí)的頻率分解殘余。對(duì)于每個(gè)分段,統(tǒng)計(jì)數(shù)據(jù)計(jì)算器1322關(guān)于該分段的幀的相同級(jí)別的殘余計(jì)算至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù)。圖14是圖示根據(jù)本發(fā)明一個(gè)實(shí)施例的示例音頻分類方法1400的流程圖。如圖14所示,音頻分類方法1400從步驟1401開始。執(zhí)行步驟1403到1407以從音頻信號(hào)的分段中提取音頻特征。在步驟1403,對(duì)于ー個(gè)分段,通過從該分段的每個(gè)幀的譜上的總能量E中分別至·少移除第一能量、第二能量和第三能量來分別計(jì)算至少ー級(jí)、ニ級(jí)和三級(jí)的頻率分解殘余。在步驟1405,針對(duì)該分段的幀,計(jì)算關(guān)于相同級(jí)別的殘余的至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù)。在步驟1407,確定是否存在尚未處理的另ー個(gè)分段。如果存在,則方法1400返回到步驟1403。如果沒有,則方法1400前進(jìn)到步驟1409。在步驟1409,基于所提取的音頻特征,用訓(xùn)練的模型對(duì)分段進(jìn)行分類。方法1400在步驟1411結(jié)束。通過頻率分解,對(duì)于某些類型的敲擊信號(hào)(例如,具有恒定速度的低音擊鼓聲),與話音信號(hào)相比有較少的頻率分量能夠近似這樣的敲擊聲音。原因是這些敲擊信號(hào)本質(zhì)上比話音信號(hào)和其它類型的音樂信號(hào)具有更少的復(fù)雜頻率成分。因此,通過移除不同數(shù)目的顯著頻率分量(例如,具有最高能量的分量),當(dāng)與話音和其它音樂信號(hào)的特性相比時(shí),這樣的敲擊聲音的殘余(剰余能量)能夠表現(xiàn)出顯著不同的特性,因而提高分類性能。此外,第一能量是譜的H1個(gè)最高頻率區(qū)間的總能量,第二能量是譜的H2個(gè)最高頻率區(qū)間的總能量,而第三能量是譜的H3個(gè)最高頻率區(qū)間的總能量,其中H1 < H2 < H3??蛇x地,第一能量是譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,第二能量是譜的ー個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含第一能量所涉及的峰區(qū)域,而第三能量是譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含第二能量所涉及的峰區(qū)域。峰區(qū)域可以是全局的,也可以是局部的。令S(k)是具有功率譜能量E的一個(gè)分段的譜系數(shù)序列,SP丑-た)丨其中K是頻率區(qū)間的總數(shù)。在一個(gè)例子中,通過從S(k)中移除H1個(gè)最高頻率區(qū)間之后的剰余能量來估計(jì)ー級(jí)殘余も。這能夠表示成R1 = 五-ΣΜ2
y其中尸ニ ΑΛ…Az1是H1個(gè)最高頻率區(qū)間的索引。類似地,令R2和R3分別是通過從S ( ω )中移除H2和H3個(gè)最高頻率區(qū)間而獲得的ニ級(jí)殘余和三級(jí)殘余,其中H1 < H2 < Η3。對(duì)于敲擊、話音和音樂信號(hào)可以發(fā)現(xiàn)(理想情況下)下列事實(shí)
敲擊聲音E>> R1 ^ R2 ^ R3話音E> R1 > R2 ^ R3音樂E> R1 > R2 > R3O在另ー個(gè)例子中,通過移除譜的最高峰,可以把ー級(jí)殘余R1估計(jì)為
權(quán)利要求
1.一種音頻分類系統(tǒng),包括能夠在需要不同資源的至少兩個(gè)模式下工作的至少一個(gè)裝置;以及復(fù)雜度控制器,其確定組合并且指示所述至少一個(gè)裝置根據(jù)所述組合來工作,其中對(duì)于所述至少一個(gè)裝置中的每個(gè),所述組合指定所述裝置的模式之一,所述組合的資源要求不超過最大可用資源,其中所述至少一個(gè)裝置包括下列至少之一預(yù)處理器,用于使音頻信號(hào)適配于所述音頻分類系統(tǒng);特征提取器,用于從所述音頻信號(hào)的分段中提取音頻特征;分類裝置,用于通過訓(xùn)練的模型,基于所提取的音頻特征來對(duì)所述分段進(jìn)行分類;以及后處理器,用于平滑所述分段的音頻類型。
2.如權(quán)利要求I所述的音頻分類系統(tǒng),其中所述預(yù)處理器的所述至少兩個(gè)模式包含在進(jìn)行濾波的情況下轉(zhuǎn)換所述音頻信號(hào)的采樣速率的模式,和在不進(jìn)行濾波的情況下轉(zhuǎn)換所述音頻信號(hào)的采樣速率的另一個(gè)模式。
3.如權(quán)利要求I或2所述的音頻分類系統(tǒng),其中用于音頻分類的音頻特征能夠被分成不適合于預(yù)加重的第一類型和適合于預(yù)加重的第二類型,并且其中所述預(yù)處理器的至少兩個(gè)模式包含所述音頻信號(hào)直接被預(yù)加重并且把所述音頻信號(hào)和所述預(yù)加重的音頻信號(hào)轉(zhuǎn)換到頻域的模式,和把所述音頻信號(hào)轉(zhuǎn)換到頻域并且對(duì)所述轉(zhuǎn)換的音頻信號(hào)進(jìn)行預(yù)加重的另一個(gè)模式,并且其中所述第一類型的音頻特征提取自未經(jīng)過預(yù)加重的所述轉(zhuǎn)換音頻信號(hào),第二類型的音頻特征提取自經(jīng)預(yù)加重的所述轉(zhuǎn)換音頻信號(hào)。
4.如權(quán)利要求3所述的音頻分類系統(tǒng),其中所述第一類型包含子帶能量分布、頻率分解殘余、過零率、譜區(qū)間高能量比、低音指示和長(zhǎng)期自相關(guān)特征中的至少之一,并且 所述第二類型包含譜波動(dòng)和梅爾頻率倒譜系數(shù)中的至少之一。
5.如權(quán)利要求I所述的音頻分類系統(tǒng),其中所述特征提取器被配置成根據(jù)維納-辛欽定理計(jì)算音頻信號(hào)中長(zhǎng)于第一閾值的分段的長(zhǎng)期自相關(guān)系數(shù),和計(jì)算有關(guān)所述長(zhǎng)期自相關(guān)系數(shù)的、用于所述音頻分類的至少一項(xiàng)統(tǒng)計(jì)數(shù)據(jù),其中所述特征提取器的所述至少兩個(gè)模式包含根據(jù)所述分段直接計(jì)算長(zhǎng)期自相關(guān)系數(shù)的模式,和對(duì)所述分段進(jìn)行抽減并且根據(jù)所述經(jīng)過抽減的分段計(jì)算所述長(zhǎng)期自相關(guān)系數(shù)的另一個(gè)模式。
6.如權(quán)利要求5所述的音頻分類系統(tǒng),其中所述統(tǒng)計(jì)數(shù)據(jù)包含以下各項(xiàng)中至少之一1)均值所有長(zhǎng)期自相關(guān)系數(shù)的平均值;2)方差所有長(zhǎng)期自相關(guān)系數(shù)的標(biāo)準(zhǔn)差;3)High_Average:滿足以下條件至少之一的長(zhǎng)期自相關(guān)系數(shù)的平均值a)大于第二閾值;以及b)在預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)內(nèi),所述預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)不低于所有其它長(zhǎng)期自相關(guān)系數(shù);4)High_Value_Percentage High_Average所涉及的長(zhǎng)期自相關(guān)系數(shù)的數(shù)目與長(zhǎng)期自相關(guān)系數(shù)的總數(shù)的比值;5)Low_Average :滿足以下條件至少之一的長(zhǎng)期自相關(guān)系數(shù)的平均值c)小于第三閾值;以及d)在預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)內(nèi),所述預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)不高于所有其它長(zhǎng)期自相關(guān)系數(shù);.6)Low_Value_Percentage Low_Average所涉及的長(zhǎng)期自相關(guān)系數(shù)的數(shù)目與長(zhǎng)期自相關(guān)系數(shù)的總數(shù)的比值;以及.7)對(duì)比度High_Average和Low_Average之間的比值。
7.如權(quán)利要求I或2所述的音頻分類系統(tǒng),其中用于音頻分類的音頻特征包含通過對(duì)經(jīng)過低通濾波器濾波的每個(gè)分段應(yīng)用過零率而獲得的低音指示特征,在所述低通濾波器中允許低頻敲擊分量通過。
8.如權(quán)利要求I所述的音頻分類系統(tǒng),其中所述特征提取器被配置成對(duì)于每個(gè)所述分段,通過從所述分段的每個(gè)幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計(jì)算至少一級(jí)、二級(jí)和三級(jí)的頻率分解殘余;以及對(duì)于每個(gè)所述分段,關(guān)于所述分段的幀的相同級(jí)別的殘余計(jì)算至少一項(xiàng)統(tǒng)計(jì)數(shù)據(jù),其中所計(jì)算的殘余和統(tǒng)計(jì)數(shù)據(jù)被包含在所述音頻特征中,并且其中所述特征提取器的所述至少兩個(gè)模式包含所述第一能量是所述譜的H1個(gè)最高頻率區(qū)間的總能量,所述第二能量是所述譜的H2個(gè)最高頻率區(qū)間的總能量,而所述第三能量是所述譜的H3個(gè)最高頻率區(qū)間的總能量的模式, 其中H1 < H2 < H3,以及所述第一能量是所述譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,所述第二能量是所述譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含所述第一能量所涉及的峰區(qū)域,而所述第三能量是所述譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含所述第二能量所涉及的峰區(qū)域的另一個(gè)模式。
9.如權(quán)利要求8所述的音頻分類系統(tǒng),其中所述統(tǒng)計(jì)數(shù)據(jù)包含以下各項(xiàng)中至少之一.1)相同分段的幀的相同級(jí)別的殘余的均值;.2)方差相同分段的幀的相同級(jí)別的殘余的標(biāo)準(zhǔn)差;.3)Residual_High_Average 相同分段的巾貞的相同級(jí)別的、滿足下列條件中至少之一的殘余的平均值a)大于第四閾值;以及b)在預(yù)定比例的殘余內(nèi),所述預(yù)定比例的殘余不低于所有其它殘余;.4)Residual_Low_Average :相同分段的巾貞的相同級(jí)別的、滿足下列條件中至少之一的殘余的平均值c)小于第五閾值;以及d)在預(yù)定比例的殘余內(nèi),所述預(yù)定比例的殘余不高于所有其它殘余;以及.5)Residual_Contrast Residual_High_Average 矛口 Residual_Low_Average 之間白勺比值。
10.如權(quán)利要求I或2所述的音頻分類系統(tǒng),其中用于音頻分類的音頻特征包含譜區(qū)間高能量比,所述譜區(qū)間高能量比是每個(gè)所述分段的譜中能量高于第六閾值的頻率區(qū)間的數(shù)目與頻率區(qū)間的總數(shù)的比值。
11.如權(quán)利要求10所述的音頻分類系統(tǒng),其中所述第六閾值被計(jì)算為下列之一1)所述分段的譜的平均能量,或所述分段周圍的分段范圍的譜的平均能量;2)所述分段的譜的加權(quán)平均能量,或所述分段周圍的分段范圍的譜的加權(quán)平均能量, 其中所述分段具有相對(duì)較高的權(quán)重,所述范圍中的每個(gè)其它分段具有相對(duì)較低的權(quán)重,或者其中相對(duì)較高能量的每個(gè)頻率區(qū)間具有相對(duì)較高的權(quán)重,相對(duì)較低能量的每個(gè)頻率區(qū)間具有相對(duì)較低的權(quán)重;3)所述平均能量或加權(quán)平均能量的換算值;以及4)所述平均能量或加權(quán)平均能量加上或減去標(biāo)準(zhǔn)差。
12.如權(quán)利要求I所述的音頻分類系統(tǒng),其中所述分類裝置包括具有不同優(yōu)先級(jí)的至少兩個(gè)分類器級(jí)段的鏈,這些分類器級(jí)段按照優(yōu)先級(jí)的降序排列;以及級(jí)段控制器,其確定從具有最高優(yōu)先級(jí)的分類器級(jí)段開始的子鏈,其中所述子鏈的長(zhǎng)度取決于所述組合中針對(duì)所述分類裝置的模式,其中每個(gè)所述分類器級(jí)段包括分類器,其根據(jù)提取自每個(gè)所述分段的相應(yīng)音頻特征生成當(dāng)前類別估計(jì),其中所述當(dāng)前類別估計(jì)包含所估計(jì)的音頻類型和相應(yīng)置信度;以及決策單元,其1)在所述分類器級(jí)段位于所述子鏈的開始處的情況下,確定所述當(dāng)前置信度是否高于與所述分類器級(jí)段相關(guān)聯(lián)的置信度閾值;以及如果確定所述當(dāng)前置信度高于所述置信度閾值,則通過輸出所述當(dāng)前類別估計(jì)來終止音頻分類,否則將所述當(dāng)前類別估計(jì)提供給所述子鏈中的所有后面的分類器級(jí)段,2)在所述分類器級(jí)段位于所述子鏈的中間的情況下,確定所述當(dāng)前置信度是否高于所述置信度閾值,或確定所述當(dāng)前類別估計(jì)和所有先前的類別估計(jì)是否能夠根據(jù)第一判決準(zhǔn)則決定一個(gè)音頻類型;以及如果確定所述當(dāng)前置信度高于所述置信度閾值,或所述類別估計(jì)能夠決定音頻類型, 則通過輸出所述當(dāng)前類別估計(jì),或輸出所決定的音頻類型和相應(yīng)置信度來終止音頻分類, 否則將所述當(dāng)前類別估計(jì)提供給所述子鏈中的所有后面的分類器級(jí)段,以及3)在所述分類器級(jí)段位于所述子鏈的結(jié)束處的情況下,通過輸出所述當(dāng)前類別估計(jì)來終止音頻分類,或者確定所述當(dāng)前類別估計(jì)和所有先前的類別估計(jì)是否能夠根據(jù)第二判決準(zhǔn)則決定一個(gè)音頻類型;以及如果確定所述類別估計(jì)能夠決定音頻類型,則通過輸出所決定的音頻類型和相應(yīng)置信度來終止音頻分類,否則通過輸出所述當(dāng)前類別估計(jì)來終止音頻分類。
13.如權(quán)利要求12所述的音頻分類系統(tǒng),其中所述第一判決準(zhǔn)則包括下列準(zhǔn)則之一1)如果所述當(dāng)前置信度和對(duì)應(yīng)于與所述當(dāng)前音頻類型相同的音頻類型的先前置信度的平均置信度高于第七閾值,則能夠決定所述當(dāng)前音頻類型;2)如果所述當(dāng)前置信度和對(duì)應(yīng)于與所述當(dāng)前音頻類型相同的音頻類型的先前置信度的加權(quán)平均置信度高于第八閾值,則能夠決定所述當(dāng)前音頻類型;以及3)如果決定與所述當(dāng)前音頻類型相同的音頻類型的先前分類器級(jí)段的數(shù)目高于第九閾值,則能夠決定所述當(dāng)前音頻類型,并且其中所輸出的置信度是所述當(dāng)前置信度,或能夠決定所輸出的音頻類型的類別估計(jì)的置信度的加權(quán)或非加權(quán)平均,其中所述先前的置信度的權(quán)重高于后面的置信度的權(quán)重。
14.如權(quán)利要求12所述的音頻分類系統(tǒng),其中所述第二判決準(zhǔn)則包括下列準(zhǔn)則之一1)在所有類別估計(jì)中,如果包含相同音頻類型的類別估計(jì)的數(shù)目最高,則所述相同音頻類型能夠被這些相應(yīng)類別估計(jì)決定;2)在所有類別估計(jì)中,如果包含相同音頻類型的類別估計(jì)的加權(quán)數(shù)目最高,則所述相同音頻類型能夠被這些相應(yīng)類別估計(jì)決定;以及3)在所有類別估計(jì)中,如果對(duì)應(yīng)于相同音頻類型的置信度的平均置信度最高,則所述相同音頻類型能夠被相應(yīng)類別估計(jì)決定,并且其中所輸出的置信度是所述當(dāng)前置信度,或能夠決定所輸出的音頻類型的類別估計(jì)的置信度的加權(quán)或非加權(quán)平均,其中所述先前的置信度的權(quán)重高于后面的置信度的權(quán)重。
15.如權(quán)利要求12所述的音頻分類系統(tǒng),其中如果所述分類器級(jí)段之一所采用的分類算法在分類出所述音頻類型的至少之一方面具有較高的準(zhǔn)確性,那么所述分類器級(jí)段被指定較高優(yōu)先級(jí)。
16.如權(quán)利要求12或15所述的音頻分類系統(tǒng),其中用于每個(gè)在后分類器級(jí)段中的分類器的每個(gè)訓(xùn)練樣本至少包括標(biāo)記有正確音頻類型的音頻樣本,要由所述分類器識(shí)別的音頻類型,以及有關(guān)對(duì)應(yīng)于每個(gè)所述音頻類型的置信度的統(tǒng)計(jì)數(shù)據(jù),這些置信度是由所有先前的分類器級(jí)段根據(jù)所述音頻樣本生成的。
17.如權(quán)利要求12或15所述的音頻分類系統(tǒng),其中用于每個(gè)在后分類器級(jí)段中的分類器的訓(xùn)練樣本至少包括標(biāo)記有正確音頻類型但是被所有先前分類器級(jí)段誤分類或以低置信度分類的音頻樣本。
18.如權(quán)利要求12所述的音頻分類系統(tǒng),其中所述至少一個(gè)裝置包括所述特征提取器、所述分類裝置和所述后處理器,并且其中所述特征提取器被配置成對(duì)于每個(gè)所述分段,通過從所述分段的每個(gè)幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計(jì)算至少一級(jí)、二級(jí)和三級(jí)的頻率分解殘余;以及對(duì)于每個(gè)所述分段,關(guān)于所述分段的幀的相同級(jí)別的殘余計(jì)算至少一項(xiàng)統(tǒng)計(jì)數(shù)據(jù),其中所計(jì)算的殘余和統(tǒng)計(jì)數(shù)據(jù)被包含在所述音頻特征中,并且其中所述特征提取器的所述至少兩個(gè)模式包含所述第一能量是所述譜的H1個(gè)最高頻率區(qū)間的總能量,所述第二能量是所述譜的H2個(gè)最高頻率區(qū)間的總能量,而所述第三能量是所述譜的H3個(gè)最高頻率區(qū)間的總能量的模式, 其中H1 < H2 < H3,以及所述第一能量是所述譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,所述第二能量是所述譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含所述第一能量所涉及的峰區(qū)域,而所述第三能量是所述譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含所述第二能量所涉及的峰區(qū)域的另一個(gè)模式,并且其中所述后處理器被配置成在所述音頻信號(hào)中搜索兩個(gè)重復(fù)部分,并且通過把所述兩個(gè)重復(fù)部分之間的分段當(dāng)作非話音類型來平滑分類結(jié)果,并且其中所述后處理器的所述至少兩個(gè)模式包含采用相對(duì)長(zhǎng)的搜索范圍的模式,和采用相對(duì)短的搜索范圍的另一個(gè)模式。
19.如權(quán)利要求I所述的音頻分類系統(tǒng),其中通過所述音頻分類針對(duì)所述音頻信號(hào)中的每個(gè)所述分段生成類別估計(jì),其中每個(gè)所述類別估計(jì)包含所估計(jì)的音頻類型和相應(yīng)置信度,并且其中所述后處理器的所述至少兩個(gè)模式包含確定窗口中對(duì)應(yīng)于相同音頻類型的置信度的最高和數(shù)或平均值,并且所述當(dāng)前音頻類型被所述相同音頻類型所代替的模式,以及采用具有相對(duì)短的長(zhǎng)度的窗口,并且/或者確定所述窗口中對(duì)應(yīng)于相同音頻類型的置信度的最高數(shù)目,所述當(dāng)前音頻類型被所述相同音頻類型所代替的另一個(gè)模式。
20.如權(quán)利要求I所述的音頻分類系統(tǒng),其中所述后處理器被配置成在所述音頻信號(hào)中搜索兩個(gè)重復(fù)部分,并且通過把所述兩個(gè)重復(fù)部分之間的分段當(dāng)作非話音類型來平滑分類結(jié)果,并且其中所述后處理器的所述至少兩個(gè)模式包含采用相對(duì)長(zhǎng)的搜索范圍的模式,和采用相對(duì)短的搜索范圍的另一個(gè)模式。
21.一種音頻分類方法,包括能夠在需要不同資源的至少兩個(gè)模式下執(zhí)行的至少一個(gè)步驟;確定組合;以及指示所述至少一個(gè)步驟根據(jù)所述組合來運(yùn)行,其中對(duì)于所述至少一個(gè)步驟中的每個(gè), 所述組合指定所述步驟的模式之一,而所述組合的資源要求不超過最大可用資源,其中所述至少一個(gè)步驟包括下列至少之一預(yù)處理步驟,使音頻信號(hào)適配于所述音頻分類;特征提取步驟,從所述音頻信號(hào)的分段中提取音頻特征;分類步驟,通過訓(xùn)練的模型,基于所提取的音頻特征來對(duì)所述分段進(jìn)行分類;以及后處理步驟,對(duì)所述分段的音頻類型進(jìn)行平滑。
22.如權(quán)利要求21所述的音頻分類方法,其中所述預(yù)處理器的所述至少兩個(gè)模式包含在進(jìn)行濾波的情況下轉(zhuǎn)換所述音頻信號(hào)的采樣速率的模式,和在不進(jìn)行濾波的情況下轉(zhuǎn)換所述音頻信號(hào)的采樣速率的另一個(gè)模式。
23.如權(quán)利要求21或22所述的音頻分類方法,其中用于音頻分類的音頻特征能夠被分成不適合于預(yù)加重的第一類型和適合于預(yù)加重的第二類型,并且其中所述預(yù)處理步驟的至少兩個(gè)模式包含所述音頻信號(hào)直接被預(yù)加重并且把所述音頻信號(hào)和所述預(yù)加重的音頻信號(hào)轉(zhuǎn)換到頻域的模式,和把所述音頻信號(hào)轉(zhuǎn)換到頻域并且對(duì)所述轉(zhuǎn)換的音頻信號(hào)進(jìn)行預(yù)加重的另一個(gè)模式,并且其中所述第一類型的音頻特征提取自未經(jīng)過預(yù)加重的所述轉(zhuǎn)換音頻信號(hào),所述第二類型的音頻特征提取自經(jīng)預(yù)加重的所述轉(zhuǎn)換音頻信號(hào)。
24.如權(quán)利要求23所述的音頻分類方法,其中所述第一類型包含子帶能量分布、頻率分解殘余、過零率、譜區(qū)間高能量比、低音指示和長(zhǎng)期自相關(guān)特征中的至少之一,并且所述第二類型包含譜波動(dòng)和梅爾頻率倒譜系數(shù)中的至少之一。
25.如權(quán)利要求21所述的音頻分類方法,其中所述特征提取步驟包括根據(jù)維納-辛欽定理計(jì)算音頻信號(hào)中長(zhǎng)于第一閾值的分段的長(zhǎng)期自相關(guān)系數(shù),和計(jì)算有關(guān)所述長(zhǎng)期自相關(guān)系數(shù)的、用于所述音頻分類的至少一項(xiàng)統(tǒng)計(jì)數(shù)據(jù),其中所述特征提取步驟的所述至少兩個(gè)模式包含根據(jù)所述分段直接計(jì)算長(zhǎng)期自相關(guān)系數(shù)的模式,和對(duì)所述分段進(jìn)行抽減并且根據(jù)所述經(jīng)過抽減的分段計(jì)算所述長(zhǎng)期自相關(guān)系數(shù)的另一個(gè)模式。
26.如權(quán)利要求25所述的音頻分類方法,其中所述統(tǒng)計(jì)數(shù)據(jù)包含以下各項(xiàng)中至少之1)均值所有長(zhǎng)期自相關(guān)系數(shù)的平均值;2)方差所有長(zhǎng)期自相關(guān)系數(shù)的標(biāo)準(zhǔn)差;3)High_Average:滿足以下條件至少之一的長(zhǎng)期自相關(guān)系數(shù)的平均值a)大于第二閾值;以及b)在預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)內(nèi),所述預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)不低于所有其它長(zhǎng)期自相關(guān)系數(shù);4)High_Value_Percentage High_Average所涉及的長(zhǎng)期自相關(guān)系數(shù)的數(shù)目與長(zhǎng)期自相關(guān)系數(shù)的總數(shù)的比值;5)Low_Average :滿足以下條件至少之一的長(zhǎng)期自相關(guān)系數(shù)的平均值c)小于第三閾值;以及d)在預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)內(nèi),所述預(yù)定比例的長(zhǎng)期自相關(guān)系數(shù)不高于所有其它長(zhǎng)期自相關(guān)系數(shù);6)Low_Value_Percentage Low_Average所涉及的長(zhǎng)期自相關(guān)系數(shù)的數(shù)目與長(zhǎng)期自相關(guān)系數(shù)的總數(shù)的比值;以及7)對(duì)比度High_Average和Low_Average之間的比值。
27.如權(quán)利要求21或22所述的音頻分類方法,其中用于音頻分類的音頻特征包含通過對(duì)經(jīng)過低通濾波器濾波的每個(gè)分段應(yīng)用過零率而獲得的低音指示特征,在所述低通濾波器中允許低頻敲擊分量通過。
28.如權(quán)利要求21所述的音頻分類方法,其中所述特征提取步驟包括對(duì)于每個(gè)所述分段,通過從所述分段的每個(gè)幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計(jì)算至少一級(jí)、二級(jí)和三級(jí)的頻率分解殘余;以及對(duì)于每個(gè)所述分段,關(guān)于所述分段的幀的相同級(jí)別的殘余計(jì)算至少一項(xiàng)統(tǒng)計(jì)數(shù)據(jù),其中所計(jì)算的殘余和統(tǒng)計(jì)數(shù)據(jù)被包含在所述音頻特征中,并且其中所述特征提取步驟的所述至少兩個(gè)模式包含所述第一能量是所述譜的H1個(gè)最高頻率區(qū)間的總能量,所述第二能量是所述譜的H2個(gè)最高頻率區(qū)間的總能量,而所述第三能量是所述譜的H3個(gè)最高頻率區(qū)間的總能量的模式, 其中H1 < H2 < H3,以及所述第一能量是所述譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,所述第二能量是所述譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含所述第一能量所涉及的峰區(qū)域,而所述第三能量是所述譜的一個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含所述第二能量所涉及的峰區(qū)域的另一個(gè)模式。
29.如權(quán)利要求28所述的音頻分類方法,其中所述統(tǒng)計(jì)數(shù)據(jù)包含以下各項(xiàng)中至少之1)相同分段的幀的相同級(jí)別的殘余的均值;2)方差相同分段的幀的相同級(jí)別的殘余的標(biāo)準(zhǔn)差;3)Residual_High_Average 相同分段的巾貞的相同級(jí)別的、滿足下列條件中至少之一的殘余的平均值a)大于第四閾值;以及b)在預(yù)定比例的殘余內(nèi),所述預(yù)定比例的殘余不低于所有其它殘余;4)Residual_Low_Average :相同分段的巾貞的相同級(jí)別的、滿足下列條件中至少之一的殘余的平均值c)小于第五閾值;以及d)在預(yù)定比例的殘余內(nèi),所述預(yù)定比例的殘余不高于所有其它殘余;以及5)Residual_Contrast Residual_High_Average 矛口 Residual_Low_Average 之間白勺比值。
30.如權(quán)利要求22或23所述的音頻分類方法,其中用于音頻分類的音頻特征包含譜區(qū)間高能量比,所述譜區(qū)間高能量比是每個(gè)所述分段的譜中能量高于第六閾值的頻率區(qū)間的數(shù)目與頻率區(qū)間的總數(shù)的比值。
31.如權(quán)利要求30所述的音頻分類方法,其中所述第六閾值被計(jì)算為下列之一1)所述分段的譜的平均能量,或所述分段周圍的分段范圍的譜的平均能量;2)所述分段的譜的加權(quán)平均能量,或所述分段周圍的分段范圍的譜的加權(quán)平均能量, 其中所述分段具有相對(duì)較高的權(quán)重,所述范圍中的每個(gè)其它分段具有相對(duì)較低的權(quán)重,或者其中相對(duì)較高能量的每個(gè)頻率區(qū)間具有相對(duì)較高的權(quán)重,相對(duì)較低能量的每個(gè)頻率區(qū)間具有相對(duì)較低的權(quán)重;3)所述平均能量或加權(quán)平均能量的換算值;以及4)所述平均能量或加權(quán)平均能量加上或減去標(biāo)準(zhǔn)差。
32.如權(quán)利要求21所述的音頻分類方法,其中所述分類步驟包括具有不同優(yōu)先級(jí)的至少兩個(gè)子步驟的鏈,這些子步驟按照優(yōu)先級(jí)的降序排列;以及控制步驟,確定從具有最高優(yōu)先級(jí)的所述子步驟開始的子鏈,其中所述子鏈的長(zhǎng)度取決于所述組合中針對(duì)所述分類步驟的模式,其中每個(gè)所述子步驟包括根據(jù)提取自每個(gè)所述分段的相應(yīng)音頻特征生成當(dāng)前類別估計(jì),其中所述當(dāng)前類別估計(jì)包含所估計(jì)的音頻類型和相應(yīng)置信度;在所述子步驟位于所述子鏈的開始處的情況下,確定所述當(dāng)前置信度是否高于與所述子步驟相關(guān)聯(lián)的置信度閾值;以及如果確定所述當(dāng)前置信度高于所述置信度閾值,則通過輸出所述當(dāng)前類別估計(jì)來終止音頻分類,否則將所述當(dāng)前類別估計(jì)提供給所述子鏈中的所有后面的子步驟,在所述子步驟位于所述子鏈的中間的情況下,確定所述當(dāng)前置信度是否高于所述置信度閾值,或確定所述當(dāng)前類別估計(jì)和所有先前的類別估計(jì)是否能夠根據(jù)第一判決準(zhǔn)則決定一個(gè)音頻類型;以及如果確定所述當(dāng)前置信度高于所述置信度閾值,或所述類別估計(jì)能夠決定音頻類型,則通過輸出所述當(dāng)前類別估計(jì),或輸出所決定的音頻類型和相應(yīng)置信度來終止音頻分類,否則將所述當(dāng)前類別估計(jì)提供給所述子鏈中的所有后面的子步驟,以及 在所述子步驟位于所述子鏈的結(jié)束處的情況下, 通過輸出所述當(dāng)前類別估計(jì)來終止音頻分類, 或者 確定所述當(dāng)前類別估計(jì)和所有先前的類別估計(jì)是否能夠根據(jù)第二判決準(zhǔn)則決定ー個(gè)音頻類型;以及 如果確定所述類別估計(jì)能夠決定音頻類型,則通過輸出所決定的音頻類型和相應(yīng)置信度來終止音頻分類,否則通過輸出所述當(dāng)前類別估計(jì)來終止音頻分類。
33.如權(quán)利要求32所述的音頻分類方法,其中所述第一判決準(zhǔn)則包括下列準(zhǔn)則之ー 1)如果所述當(dāng)前置信度和對(duì)應(yīng)于與所述當(dāng)前音頻類型相同的音頻類型的先前置信度的平均置信度高于第七閾值,則能夠決定所述當(dāng)前音頻類型; 2)如果所述當(dāng)前置信度和對(duì)應(yīng)于與所述當(dāng)前音頻類型相同的音頻類型的先前置信度的加權(quán)平均置信度高于第八閾值,則能夠決定所述當(dāng)前音頻類型;以及 3)如果決定與所述當(dāng)前音頻類型相同的音頻類型的先前子步驟的數(shù)目高于第九閾值,則能夠決定所述當(dāng)前音頻類型,并且 其中所輸出的置信度是所述當(dāng)前置信度,或能夠決定所輸出的音頻類型的類別估計(jì)的置信度的加權(quán)或非加權(quán)平均,其中所述先前的置信度的權(quán)重高于后面的置信度的權(quán)重。
34.如權(quán)利要求32所述的音頻分類方法,其中所述第二判決準(zhǔn)則包括下列準(zhǔn)則之ー 1)在所有類別估計(jì)中,如果包含相同音頻類型的類別估計(jì)的數(shù)目最高,則所述相同音頻類型能夠被這些相應(yīng)類別估計(jì)決定; 2)在所有類別估計(jì)中,如果包含相同音頻類型的類別估計(jì)的加權(quán)數(shù)目最高,則所述相同音頻類型能夠被這些相應(yīng)類別估計(jì)決定;以及 3)在所有類別估計(jì)中,如果對(duì)應(yīng)于相同音頻類型的置信度的平均置信度最高,則所述相同音頻類型能夠被相應(yīng)類別估計(jì)決定,并且 其中所輸出的置信度是所述當(dāng)前置信度,或能夠決定所輸出的音頻類型的類別估計(jì)的置信度的加權(quán)或非加權(quán)平均,其中所述先前的置信度的權(quán)重高于后面的置信度的權(quán)重。
35.如權(quán)利要求32所述的音頻分類方法,其中如果所述子步驟之一所采用的分類算法在分類出所述音頻類型的至少之一方面具有較高的準(zhǔn)確性,那么所述子步驟被指定較高優(yōu)先級(jí)。
36.如權(quán)利要求32或35所述的音頻分類方法,其中用于每個(gè)在后子步驟中的分類器的每個(gè)訓(xùn)練樣本至少包括標(biāo)記有正確音頻類型的音頻樣本,要由所述分類器識(shí)別的音頻類型,以及有關(guān)對(duì)應(yīng)于每個(gè)所述音頻類型的置信度的統(tǒng)計(jì)數(shù)據(jù),這些置信度是由所有先前的子步驟根據(jù)所述音頻樣本生成的。
37.如權(quán)利要求32或35所述的音頻分類方法,其中用于每個(gè)在后子步驟中的分類器的訓(xùn)練樣本至少包括標(biāo)記有正確音頻類型但是被所有先前子步驟誤分類或以低置信度分類的音頻樣本。
38.如權(quán)利要求32所述的音頻分類方法,其中所述至少一個(gè)步驟包括所述特征提取步驟、所述分類步驟和所述后處理步驟,并且其中所述特征提取步驟包括 對(duì)于每個(gè)所述分段,通過從所述分段的每個(gè)幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計(jì)算至少ー級(jí)、ニ級(jí)和三級(jí)的頻率分解殘余;以及對(duì)于每個(gè)所述分段,關(guān)于所述分段的幀的相同級(jí)別的殘余計(jì)算至少ー項(xiàng)統(tǒng)計(jì)數(shù)據(jù), 其中所計(jì)算的殘余和統(tǒng)計(jì)數(shù)據(jù)被包含在所述音頻特征中,并且 其中所述特征提取步驟的所述至少兩個(gè)模式包含 所述第一能量是所述譜的H1個(gè)最高頻率區(qū)間的總能量,所述第二能量是所述譜的H2個(gè)最高頻率區(qū)間的總能量,而所述第三能量是所述譜的H3個(gè)最高頻率區(qū)間的總能量的模式,其中Hi < H2 く H3,以及 所述第一能量是所述譜的ー個(gè)或更多個(gè)峰區(qū)域的總能量,所述第二能量是所述譜的ー個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含所述第一能量所涉及的峰區(qū)域,而所述第三能量是所述譜的ー個(gè)或更多個(gè)峰區(qū)域的總能量,這些峰區(qū)域的一部分包含所述第ニ能量所涉及的峰區(qū)域的另ー個(gè)模式,并且 其中所述后處理步驟包括在所述音頻信號(hào)中搜索兩個(gè)重復(fù)部分,以及通過把所述兩個(gè)重復(fù)部分之間的分段當(dāng)作非話音類型來平滑分類結(jié)果,并且 其中所述后處理步驟的所述至少兩個(gè)模式包含采用相對(duì)長(zhǎng)的搜索范圍的模式,和采用相對(duì)短的搜索范圍的另ー個(gè)模式。
39.如權(quán)利要求21所述的音頻分類方法,其中通過所述音頻分類針對(duì)所述音頻信號(hào)中的每個(gè)所述分段生成類別估計(jì),其中每個(gè)所述類別估計(jì)包含所估計(jì)的音頻類型和相應(yīng)置信度,并且 其中所述后處理步驟的所述至少兩個(gè)模式包含 確定窗口中對(duì)應(yīng)于相同音頻類型的置信度的最高和數(shù)或平均值,并且所述當(dāng)前音頻類型被所述相同音頻類型所代替的模式,以及 采用具有相對(duì)短的長(zhǎng)度的窗ロ,并且/或者確定所述窗ロ中對(duì)應(yīng)于相同音頻類型的置信度的最高數(shù)目,所述當(dāng)前音頻類型被所述相同音頻類型所代替的另ー個(gè)模式。
40.如權(quán)利要求21所述的音頻分類方法,其中所述后處理步驟包括在所述音頻信號(hào)中搜索兩個(gè)重復(fù)部分,以及通過把所述兩個(gè)重復(fù)部分之間的分段當(dāng)作非話音類型來平滑分類結(jié)果j并且 其中所述后處理步驟的所述至少兩個(gè)模式包含采用相對(duì)長(zhǎng)的搜索范圍的模式,和采用相對(duì)短的搜索范圍的另ー個(gè)模式。
全文摘要
描述了用于音頻分類的實(shí)施例。音頻分類系統(tǒng)包含對(duì)音頻信號(hào)執(zhí)行音頻分類的過程的至少一個(gè)裝置。該至少一個(gè)裝置能夠在需要不同資源的至少兩個(gè)模式下工作。音頻分類系統(tǒng)也包含復(fù)雜度控制器,其確定組合并且指示該至少一個(gè)裝置根據(jù)該組合來工作。對(duì)于該至少一個(gè)裝置中的每個(gè),該組合指定該裝置的模式之一,而該組合的資源要求不超過最大可用資源。通過控制模式,音頻分類系統(tǒng)改善了針對(duì)運(yùn)行環(huán)境的可伸縮性。
文檔編號(hào)G10L15/02GK102982804SQ201110269279
公開日2013年3月20日 申請(qǐng)日期2011年9月2日 優(yōu)先權(quán)日2011年9月2日
發(fā)明者程斌, 蘆烈 申請(qǐng)人:杜比實(shí)驗(yàn)室特許公司