1.一種音頻信號(hào)分類方法,其特征在于,包括:
根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得當(dāng)前音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,其中,所述頻譜波動(dòng)表示音頻信號(hào)的頻譜的能量波動(dòng);
根據(jù)音頻幀是否為敲擊音樂或歷史音頻幀的活動(dòng)性,更新頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng);
根據(jù)頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的統(tǒng)計(jì)量,將所述當(dāng)前音頻幀分類為語(yǔ)音幀或者音樂幀。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得當(dāng)前音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中包括:
若當(dāng)前音頻幀為活動(dòng)幀,則將當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得當(dāng)前音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中包括:
若當(dāng)前音頻幀為活動(dòng)幀,且當(dāng)前音頻幀不屬于能量沖擊,則將當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得當(dāng)前音頻幀的頻譜波動(dòng)并存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中包括:
若當(dāng)前音頻幀為活動(dòng)幀,且包含當(dāng)前音頻幀與其歷史幀在內(nèi)的多個(gè)連續(xù)幀都不屬于能量沖擊,則將音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中。
5.根據(jù)權(quán)利要求1至4所述的任一方法,其特征在于,根據(jù)所述當(dāng)前音頻幀是否為敲擊音樂,更新頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)包括:
若當(dāng)前音頻幀屬于敲擊音樂,則修改頻譜波動(dòng)存儲(chǔ)器中已存儲(chǔ)的頻譜波動(dòng)的值。
6.根據(jù)權(quán)利要求1至4所述的任一方法,其特征在于,根據(jù)所述歷史音頻幀的活動(dòng)性,更新頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)包括:
如果確定當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,且前一幀音頻幀為非活動(dòng)幀,則將頻譜波動(dòng)存儲(chǔ)器中已存儲(chǔ)的除當(dāng)前音頻幀的頻譜波動(dòng)之外的其他頻譜波動(dòng)的數(shù)據(jù)修改為無效數(shù)據(jù);或者
如果確定當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,且當(dāng)前音頻幀之前連續(xù)三幀歷史幀不全都為活動(dòng)幀,則將當(dāng)前音頻幀的頻譜波動(dòng)修正為第一值;或者
如果確定當(dāng)前音頻幀的頻譜波動(dòng)存儲(chǔ)于頻譜波動(dòng)存儲(chǔ)器中,且歷史分類結(jié)果為音樂信號(hào)且當(dāng)前音頻幀的頻譜波動(dòng)大于第二值,則將當(dāng)前音頻幀的頻譜波動(dòng)修正為第二值。
7.根據(jù)權(quán)利要求1-6所述的任一方法,其特征在于,根據(jù)頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的統(tǒng)計(jì)量,將所述當(dāng)前音頻幀分類為語(yǔ)音幀或者音樂幀包括:
獲得頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的均值;
當(dāng)所獲得的頻譜波動(dòng)的有效數(shù)據(jù)的均值滿足音樂分類條件時(shí),將所述當(dāng)前音頻幀分類為音樂幀;否則將所述當(dāng)前音頻幀分類為語(yǔ)音幀。
8.根據(jù)權(quán)利要求1-6所述的任一方法,其特征在于,還包括:
獲得當(dāng)前音頻幀的頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度;其中,頻譜高頻帶峰度表示當(dāng)前音頻幀的頻譜在高頻帶上的峰度或能量銳度;頻譜相關(guān)度表示當(dāng)前音頻幀的信號(hào)諧波結(jié)構(gòu)在相鄰幀間的穩(wěn)定度;線性預(yù)測(cè)殘差能量?jī)A斜度表示音頻信號(hào)的線性預(yù)測(cè)殘差能量隨線性預(yù)測(cè)階數(shù)的升高而變化的程度;
根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否將所述頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)于存儲(chǔ)器中;
其中,所述根據(jù)頻譜波動(dòng)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部數(shù)據(jù)的統(tǒng)計(jì)量,對(duì)所述音頻幀進(jìn)行分類包括:
分別獲得存儲(chǔ)的頻譜波動(dòng)有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù)的均值,頻譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差;
當(dāng)下列條件之一滿足時(shí),將所述當(dāng)前音頻幀分類為音樂幀,否則將所述當(dāng)前音頻幀分類為語(yǔ)音幀:所述頻譜波動(dòng)有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶峰度有效數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值;或者線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差小于第四閾值。
9.一種音頻信號(hào)的分類裝置,用于對(duì)輸入的音頻信號(hào)進(jìn)行分類,其特征在于,包括:
存儲(chǔ)確認(rèn)單元,用于根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否獲得并存儲(chǔ)當(dāng)前音頻幀的頻譜波動(dòng),其中,所述頻譜波動(dòng)表示音頻信號(hào)的頻譜的能量波動(dòng);
存儲(chǔ)器,用于在存儲(chǔ)確認(rèn)單元輸出需要存儲(chǔ)的結(jié)果時(shí)存儲(chǔ)所述頻譜波動(dòng);
更新單元,用于根據(jù)語(yǔ)音幀是否為敲擊音樂或歷史音頻幀的活動(dòng)性,更新存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng);
分類單元,用于根據(jù)存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的統(tǒng)計(jì)量,將所述當(dāng)前音頻幀分類為語(yǔ)音幀或者音樂幀。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述存儲(chǔ)確認(rèn)單元具體用于:確認(rèn)當(dāng)前音頻幀為活動(dòng)幀時(shí),輸出需要存儲(chǔ)當(dāng)前音頻幀的頻譜波動(dòng)的結(jié)果。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述存儲(chǔ)確認(rèn)單元具體用于:確認(rèn)當(dāng)前音頻幀為活動(dòng)幀,且當(dāng)前音頻幀不屬于能量沖擊時(shí),輸出需要存儲(chǔ)當(dāng)前音頻幀的頻譜波動(dòng)的結(jié)果。
12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述存儲(chǔ)確認(rèn)單元具體用于:確認(rèn)當(dāng)前音頻幀為活動(dòng)幀,且包含當(dāng)前音頻幀與其歷史幀在內(nèi)的多個(gè)連續(xù)幀都不屬于能量沖擊時(shí),輸出需要存儲(chǔ)當(dāng)前音頻幀的頻譜波動(dòng)的結(jié)果。
13.根據(jù)權(quán)利要求9-12所述的任一裝置,其特征在于,所述更新單元具體用于若當(dāng)前音頻幀屬于敲擊音樂,則修改頻譜波動(dòng)存儲(chǔ)器中已存儲(chǔ)的頻譜波動(dòng)的值。
14.根據(jù)權(quán)利要求9-12所述的任一裝置,其特征在于,所述更新單元具體用于:如果當(dāng)前音頻幀為活動(dòng)幀,且前一幀音頻幀為非活動(dòng)幀時(shí),則將存儲(chǔ)器中已存儲(chǔ)的除當(dāng)前音頻幀的頻譜波動(dòng)之外的其他頻譜波動(dòng)的數(shù)據(jù)修改為無效數(shù)據(jù);或
如果當(dāng)前音頻幀為活動(dòng)幀,且當(dāng)前音頻幀之前連續(xù)三幀不全都為活動(dòng)幀時(shí),則將當(dāng)前音頻幀的頻譜波動(dòng)修正為第一值;或
如果當(dāng)前音頻幀為活動(dòng)幀,且歷史分類結(jié)果為音樂信號(hào)且當(dāng)前音頻幀的頻譜波動(dòng)大于第二值,則將當(dāng)前音頻幀的頻譜波動(dòng)修正為第二值。
15.根據(jù)權(quán)利要求9-14所述的任一裝置,其特征在于,所述分類單元包括:
計(jì)算單元,用于獲得存儲(chǔ)器中存儲(chǔ)的頻譜波動(dòng)的部分或全部有效數(shù)據(jù)的均值;
判斷單元,用于將所述頻譜波動(dòng)的有效數(shù)據(jù)的均值與音樂分類條件做比較,當(dāng)所述頻譜波動(dòng)的有效數(shù)據(jù)的均值滿足音樂分類條件時(shí),將所述當(dāng)前音頻幀分類為音樂幀;否則將所述當(dāng)前音頻幀分類為語(yǔ)音幀。
16.根據(jù)權(quán)利要求9-14所述的任一裝置,其特征在于,還包括:
參數(shù)獲得單元,用于獲得當(dāng)前音頻幀的頻譜高頻帶峰度、頻譜相關(guān)度、濁音度參數(shù)和線性預(yù)測(cè)殘差能量?jī)A斜度;其中,頻譜高頻帶峰度表示當(dāng)前音頻幀的頻譜在高頻帶上的峰度或能量銳度;頻譜相關(guān)度表示當(dāng)前音頻幀的信號(hào)諧波結(jié)構(gòu)在相鄰幀間的穩(wěn)定度;濁音度參數(shù)表示當(dāng)前音頻幀與一個(gè)基音周期之前的信號(hào)的時(shí)域相關(guān)度;線性預(yù)測(cè)殘差能量?jī)A斜度表示音頻信號(hào)的線性預(yù)測(cè)殘差能量隨線性預(yù)測(cè)階數(shù)的升高而變化的程度;
所述存儲(chǔ)確認(rèn)單元還用于,根據(jù)所述當(dāng)前音頻幀的聲音活動(dòng)性,確定是否將所述頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度存儲(chǔ)于存儲(chǔ)器中;
所述存儲(chǔ)單元還用于,當(dāng)存儲(chǔ)確認(rèn)單元輸出需要存儲(chǔ)的結(jié)果時(shí)存儲(chǔ)所述頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度;
所述分類單元具體用于,分別獲得存儲(chǔ)的頻譜波動(dòng)、頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測(cè)殘差能量?jī)A斜度中有效數(shù)據(jù)的統(tǒng)計(jì)量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計(jì)量將所述音頻幀分類為語(yǔ)音幀或者音樂幀。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述分類單元包括:
計(jì)算單元,用于分別獲得存儲(chǔ)的頻譜波動(dòng)有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù)的均值,頻譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差;
判斷單元,用于當(dāng)下列條件之一滿足時(shí),將所述當(dāng)前音頻幀分類為音樂幀,否則將所述當(dāng)前音頻幀分類為語(yǔ)音幀:所述頻譜波動(dòng)有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶峰度有效數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值;或者線性預(yù)測(cè)殘差能量?jī)A斜度有效數(shù)據(jù)的方差小于第四閾值。