欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于Teager能量熵的音符切分方法

文檔序號:2825033閱讀:453來源:國知局
專利名稱:基于Teager能量熵的音符切分方法
技術(shù)領(lǐng)域
本發(fā)明涉及音頻信號處理,具體講涉及基于Teager能量熵(Teager Energy Entropy, TEE)的音符切分方法。
背景技術(shù)
隨著現(xiàn)代信息技術(shù),特別是多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,多媒體信息的數(shù) 據(jù)量急劇增多,如何在浩如煙海的數(shù)據(jù)庫中快速準確地挑選出有用的信息變得尤為重要。 同時在現(xiàn)有的信息檢索技術(shù)下,音頻信號、音樂領(lǐng)域也面臨著同樣的難題。而基于內(nèi)容音樂 檢索的研究在極大程度上緩解了這一尷尬。作為音樂基本單位的音符,包含了極具細節(jié)性 和有效性的信息,如何高效準確地切分出完整音符已經(jīng)成為基于內(nèi)容的音樂檢索中必不可 少的關(guān)鍵性步驟。如哼唱檢索(QBH,Query By Humming)系統(tǒng),一套完整的音符切分程序, 不僅極大地方便用戶進行自然哼唱,免除須爆破音哼唱的限制,而且有效地提升了檢索精 度,加快了檢索效率。此外,在基于內(nèi)容的音頻流切分與聚類,歌曲有歌唱部分檢測,音樂標 簽及當下熱門的音樂“指紋”識別等多種音樂處理中,音符切分都是不可或缺的重要環(huán)節(jié), 其準確性關(guān)乎整個系統(tǒng)的性能。傳統(tǒng)上主要提取時域特征來實現(xiàn)音符切分,如提取短時能量和過零率,這些方法 簡單易行,但只對能量變化鮮明的打擊類音樂(如鼓聲)效果較佳。近年來,隨著音樂檢索 領(lǐng)域相關(guān)理論的迅猛發(fā)展,出現(xiàn)了多種音符切分法,這些方法主要針對不同類型的音樂信 號提取各種新的特征參數(shù),如頻域中基于相位和譜能的方法,復域中譜差分法,小波域方法 及統(tǒng)計學方法,但這些方法往往只對有調(diào)性明顯的音樂性能較好,且計算量和復雜度都較 大。相對而言,自適應(yīng)子帶譜熵法(AdaptiveSub-band Spectral Entropy, ASSE)同 時包含子帶譜熵和能量信息,通用性和魯棒性更強。但是當音頻文件包含多種演奏樂器或 加有背景音樂時,音符切分效果便會下降。此外,由于只注重能量信息,ASSE容易漏檢能量 較低的音符,而且無法準確切分相臨近音符的邊界,同時提取頻域特征計算量較大。

發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的不足,將音頻信號中的各個音符準確、快速檢測出來,本發(fā)明采 用的技術(shù)方案是,基于Teager能量熵的音符切分方法,包括下列步驟1.預(yù)處理采用一階FIR數(shù)字濾波器,系數(shù)取0. 9375,實現(xiàn)預(yù)加重,選用漢明窗進行加窗,采 用可移動的有限窗口進行加權(quán)的方法實現(xiàn)分幀,使幀間有交疊,以保證連續(xù)音樂信號流的 自相關(guān)性和過渡信息的提取;2.特征提取提取Teager能量熵,即統(tǒng)計Teager能量的信息熵H ;3.后處理
H1 = OHAiax(H) (1)H2 = -H1^log10 (Hi+eps) (2)式(1)中H為初步特征提取得到的Teager能量熵,H1和吐為分兩步進行后處理 后所得到的Teager能量熵,eps是為了避免對O取對數(shù)而加入的一個極小值,C為經(jīng)驗值, 當波峰極大值與極小值相差大時,C取較大,具體依據(jù)兩極值間比例而定;當極大值與極小 值相差小或者有噪聲污染時,C取較小(C <1),以防噪聲被放大,最后再用移動窗進行曲線 平滑;4.峰值提取采用雙門限閾值法進行峰值提取首先計算音樂流前數(shù)幀數(shù)據(jù)的Teager能量熵, 并取平均值(記為N)作為背景噪聲估計,雙門限閾值分別為=M1 = α Ν,Μ2 = β N,其中α, β為經(jīng)驗值且α < β,即M1 < Μ2。對于式(2)所得第i幀Teager能量熵H2 (i),如果滿 SH2(i-l) < Mi;H2(i)彡M1,即由背景噪聲上升為過渡階段,且接下來的連續(xù)3 5幀都大 于M2,則第i幀標記為音符起始幀。所述提取Teager能量熵,即統(tǒng)計Teager能量的信息熵具體細化為核心步驟為運用aiarmon信息熵公式H(m) =n)* log(P(m, η) + eps)(3)
n=l式(3)中N為幀長,m為幀數(shù),η為幀內(nèi)樣本點序列號,eps是為了避免對O取對數(shù) 而加入的一個極小值。P(m,η)為第m幀中第η個樣本點Teager能量的概率分布
^-(te(m,n)- E(m))2
P=--(4)
hte、m,n)
m=\ n=\式G)中te(m,η)為統(tǒng)計得到的每幀數(shù)據(jù)的Teager能量值,E(m)為第m幀能量 的期望值,M和N分別為總幀數(shù)和幀長,m和η為每幀及幀內(nèi)樣本點的序列號;式中Teager能量的計算方法如下,對于離散信號、xn = Acos ( Ω η+Φ) (5)式(5)中,A為幅值,角頻率Ω =2Jif/fs,其中f為信號χ的頻率,fs為采樣率, Φ為任意初相角,η為離散信號的序列號。對式(5)信號Xn運用Teager能量算子(TEO) Ψ ( ·)
=^l2 Sin2(Q)-^i2Q2(6)式(6)中當Ω足夠小時約等號成立。本發(fā)明具有如下技術(shù)效果由本發(fā)明可以看出,Teager能量不僅反映樣本信號的 幅度,同時還反映振蕩頻率。Kaiser也指出該能量算法除了可以同時測量A和Ω的快速變 化外,對不同類型的信號還具有一定的區(qū)分度。這些特性使得Teager能量特征恰好適合用 于音樂信號處理。本發(fā)明將Teager能量與信息熵相結(jié)合,即提取Teager能量熵進行音符切分,得到了更佳的切分效果。與單統(tǒng)計信號幅度的頻譜和短時能量相比,Teager提出的非線性能量 算子ΤΕ0,同時考慮了幅度和頻率信息,因此不會漏檢低能高頻的音符。而音頻文件中所包 含的各個音符的能量分布在不同頻段上,且主音符所占頻帶較寬,因此Teager能量算子恰 好將音頻文件頻能分布差異更好地突顯出來,大大降低了漏檢率。


圖1.聲譜圖及其對應(yīng)的短時能量,頻譜能量及Teager能量,圖中,(a)聲譜圖,(b) 短時能量,(c)頻譜圖,(cOTeager能量。圖2. ROC曲線對比圖,圖中,(a)流行樂曲ROC曲線對比,(b)鋼琴曲ROC曲線 對比,(c)鼓聲ROC曲線對比圖;圖3.本發(fā)明音符切分流程圖;圖4.后處理前后對比結(jié)果,圖中,(a)TEE特征提取結(jié)果,(b)后處理結(jié)果;圖5.峰值提取結(jié)果,圖中,(a)標記有音符起始點的聲譜圖,(b)音符檢測結(jié)果。
具體實施例方式音符切分,是指將音頻信號中的各個音符檢測出來,并準確確定音符起始點的位 置。特別是對于和聲及復調(diào)音樂的分析處理,以單個音符作為基點,可以挖掘出更多有用的 節(jié)奏信息,在極大程度上減少了數(shù)據(jù)存儲量和處理時間,減弱了無關(guān)噪聲的干擾。本發(fā)明將Teager能量與信息熵相結(jié)合,即提取Teager能量熵進行音符切分。與 單統(tǒng)計信號幅度的頻譜和短時能量相比,Teager提出的非線性能量算子ΤΕ0,同時考慮了 幅度和頻率信息,因此不會漏檢低能高頻的音符。而音頻文件中所包含的各個音符的能量 分布在不同頻段上,且主音符所占頻帶較寬,因此Teager能量算子恰好將音頻文件頻能分 布差異更好地突顯出來。如圖1所示,由圖(a)聲譜圖容易看出第二,第三和第六個音符能 量主要分布在較高頻段上,而低頻段上能量較低,且被其前的高能量的重音符所覆蓋,即為 典型的能量低頻率高的音符。對應(yīng)的能量圖(d)中,由于Teager能量除幅度外,還融入了 頻率的信息,因此準確地檢測出了每一個音符。而短時能量及頻譜能量圖(b),(C)中,上述 三個能量較低的音符被覆蓋從而發(fā)生漏檢。此外,Teager能量曲線更加清晰平滑,波峰突 出且峰值分布均衡,因此更能有效區(qū)分音符邊界,有利于峰值提取。加之信息熵能很好地反 映參數(shù)的分布特征,而且對參數(shù)樣本值敏感度較低。由此本發(fā)明將二者相結(jié)合形成一種新 的音符切分算法——Imager能量熵法(Teager Energy Entropy,TEE)。TEE對于打擊類樂 曲切分效果較佳,尤其當音頻文件中包含多種演奏樂器或加有背景音樂時,TEE優(yōu)勢將更加 突出。本發(fā)明提取參數(shù)-Teager能量熵進行音符切分。首先運用Siarmon信息熵公式
權(quán)利要求
1、一種基于Teager能量熵的音符切分方法,其特征是,具體包括下列步驟
1.預(yù)處理采用一階FIR數(shù)字濾波器,系數(shù)取0. 9375,實現(xiàn)預(yù)加重,選用漢明窗進行加窗,采用可 移動的有限窗口進行加權(quán)的方法實現(xiàn)分幀,使幀間有交疊,以保證連續(xù)音樂信號流的自相 關(guān)性和過渡信息的提?。?br> 2.特征提取提取Teager能量熵,即統(tǒng)計Teager能量的信息熵H ;3.后處理H1 = OHAiax(H) (1)H2 = -H1^log10 (H^eps) (2)式(1)中H為初步特征提取得到的Teager能量熵,!^和吐為分兩步進行后處理后所得 到的Teager能量熵,eps是為了避免對O取對數(shù)而加入的一個極小值,C為經(jīng)驗值,當波峰 極大值與極小值相差大時,C取較大,具體依據(jù)兩極值間比例而定;當極大值與極小值相差 小或者有噪聲污染時,C取較小(C < 1),以防噪聲被放大,最后再用移動窗進行曲線平滑;4.峰值提取采用雙門限閾值法進行峰值提取首先計算音樂流前數(shù)幀數(shù)據(jù)的Teager能量熵,并取 平均值(記為N)作為背景噪聲估計,雙門限閾值分別為=M1 = α N, M2 = β N,其中α,β 為經(jīng)驗值且α < β,即M1 < Μ2。對于式(2)所得第i幀Teager能量熵H2 (i),如果滿足 H2(I-I) < M1, H2(i)彡M1,即由背景噪聲上升為過渡階段,且接下來的連續(xù)3 5幀都大于 M2,則第i幀標記為音符起始幀。2、根據(jù)權(quán)利要求1所述的一種基于Teager能量熵的音符切分方法,其特征是,所述提 取Teager能量熵,即統(tǒng)計Teager能量的信息熵具體細化為核心步驟為運用Siannon信息熵公式NH(m) = P(m,η) * log(P(m, η) + eps)(3)n=\式(3)中N為幀長,m為幀數(shù),η為幀內(nèi)樣本點序列號,eps是為了避免對O取對數(shù)而加 入的一個極小值。P(m,η)為第m幀中第η個樣本點Teager能量的概率分布^-(te(m,n)- E(m))2P=--(4)Σ Σ+,")式中te(m,η)為統(tǒng)計得到的每幀數(shù)據(jù)的Teager能量值,E(m)為第m幀能量的期 望值,M和N分別為總幀數(shù)和幀長,m和η為每幀及幀內(nèi)樣本點的序列號; 式中Teager能量的計算方法如下,對于離散信號ι xn = Acos ( Ω η+Φ) (5)式(5)中,A為幅值,角頻率Ω =2Jif/fs,其中f為信號χ的頻率,fs為采樣率,φ為 任意初相角,η為離散信號的序列號。對式(5)信號Xn運用Teager能量算子(TEO) Ψ ( ·)=^l2 Sin2(Q)-^i2Q2(6)式(6)中當Ω足夠小時約等號成立。
全文摘要
本發(fā)明涉及音頻信號處理。為克服現(xiàn)有技術(shù)的不足,將音頻信號中的各個音符準確、快速檢測出來,本發(fā)明采用的技術(shù)方案是,基于Teager能量熵的音符切分方法,包括下列步驟1.預(yù)處理采用一階FIR數(shù)字濾波器,系數(shù)取0.9375,實現(xiàn)預(yù)加重,選用漢明窗進行加窗,采用可移動的有限窗口進行加權(quán)的方法實現(xiàn)分幀,使幀間有交疊,以保證連續(xù)音樂信號流的自相關(guān)性和過渡信息的提??;2.特征提取提取Teager能量熵,即統(tǒng)計Teager能量的信息熵H;3.后處理4.峰值提取采用雙門限閾值法進行峰值提取。本發(fā)明主要應(yīng)用于音頻信號處理。
文檔編號G10L11/00GK102129858SQ20111006324
公開日2011年7月20日 申請日期2011年3月16日 優(yōu)先權(quán)日2011年3月16日
發(fā)明者關(guān)欣, 馮亞楠, 李鏘 申請人:天津大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
鄯善县| 贡觉县| 永嘉县| 诸暨市| 时尚| 页游| 城口县| 双辽市| 韩城市| 永平县| 罗山县| 澎湖县| 清苑县| 建瓯市| 法库县| 汕头市| 宜章县| 怀化市| 锡林郭勒盟| 鞍山市| 皋兰县| 兰州市| 铜山县| 金门县| 油尖旺区| 本溪| 黎平县| 淮阳县| 武宣县| 教育| 象州县| 怀集县| 安顺市| 航空| 安化县| 南靖县| 江山市| 武宣县| 临夏市| 鄂托克前旗| 纳雍县|