一種快速廣播音頻比對方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)字音頻處理技術(shù)領(lǐng)域,涉及對兩音頻信號進(jìn)行比較的方法,具體為 一種快速音頻比對方法,該方法可應(yīng)用于廣播音頻的實時比對。
【背景技術(shù)】
[0002] 當(dāng)前,音頻廣播已成為最為普及的大眾宣傳和娛樂媒體。廣播電臺的節(jié)目播出及 媒體資源管理等都涉及到音頻比對方面的需求,即對兩個音頻進(jìn)行比較,判斷二者是否相 同或相似。例如在節(jié)目監(jiān)播中,需要對實際發(fā)射播出的音頻信號進(jìn)行在線實時接收和查詢, 涉及到將接聽到的音頻流與欲播出的原音頻進(jìn)行比對,從而判斷整個開環(huán)播出通路是否正 常;又如在廣告統(tǒng)計管理中,也需要對每日播出記錄與原廣告音頻進(jìn)行比對查找,統(tǒng)計各廣 告實際播出的時間和次數(shù),從而判斷廣告播出是否存在漏播、多播或錯播等情況。
[0003] 音頻比對一般包括音頻提取特征和特征匹配兩個環(huán)節(jié)。特征提取是用代表原始信 號的結(jié)構(gòu)化數(shù)據(jù)來表達(dá)音頻信號。常用的音頻特征主要可以分為兩大類:聲學(xué)級特征和語 義級特征。聲學(xué)特征是音頻信號本身的特征(如時頻域特征),是其它類型音頻特征的基 礎(chǔ)。常用的聲學(xué)特征主要包括梅爾倒譜系數(shù)(MFCC)、基音頻率、短時能量、過零率、LPC等 等;語義級特征則是對音頻的概念級描述,它是在聲學(xué)級特征的基礎(chǔ)上,通過模型化處理, 抽取出來的更高級的感知特征,如音樂的旋律、音色和敘事感情等等。在提取特征之后,特 征匹配環(huán)節(jié)則是通過計算提取的兩音頻特征之間的距離來判斷兩音頻是否相同或相似。該 過程相對簡單,常用的特征距離有標(biāo)準(zhǔn)歐幾里德距離、曼哈頓距離、漢明距離等等。
[0004] 傳統(tǒng)的音頻比對方法針對普通音頻的比對,一般不太適用于廣播音頻,其原因主 要有如下兩個方面:一方面,在比對容錯性上,眾多音頻特征皆以準(zhǔn)確描述音頻為目標(biāo),追 求高的內(nèi)容辨識度,故音頻的細(xì)微變化,均能反應(yīng)在特征上。這樣,如果音頻受到噪聲干擾, 或經(jīng)過一些常規(guī)音效處理,如均衡 (EQ)調(diào)節(jié),再將處理后的音頻與原音頻進(jìn)行比較,傳統(tǒng) 比對方法往往判斷兩音頻不相似甚至完全不同,而噪聲干擾、音效處理等在廣播中是很常 見的。如在廣播監(jiān)測中,我們需要將播出原音頻與接聽到的音頻進(jìn)行比對,而接聽到的音頻 并非如原音頻一般純凈,常常含有噪聲;又如為了達(dá)到更好的播出主觀收聽效果,在廣播發(fā) 射前,通常使用音頻均衡器來對播出音頻的頻譜進(jìn)行調(diào)節(jié)。這些處理,使得被處理音頻相對 于原音頻發(fā)生了較大的變化。在這種情況下,傳統(tǒng)的比對方法往往不能適用,因為廣播音頻 比對需要判定播出的音頻內(nèi)容本身是否相同,而非聽覺效果上是否一致,即某音頻即使在 受到一定噪聲干擾、頻譜調(diào)節(jié)等處理后,算法仍應(yīng)該判定該音頻與其原音頻是相似的(或 互為相似音頻)。雖然文獻(xiàn)中也出現(xiàn)了對音頻變化不敏感的比對方法,如基于Philips音頻 指紋的比對方法,但這些方法中,處理前后兩音頻間的距離與真正完全不同的兩音頻間的 距離相差不大,故判別上容易混淆,尤其是在強(qiáng)噪聲干擾或音頻處理的變化幅度較大時,會 出現(xiàn)判別錯誤;另一方面,在比對的計算效率上,現(xiàn)有方法的計算復(fù)雜度相對較高,比對所 需的時間相對較長,不利于實時處理。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于針對【背景技術(shù)】存在的問題,采用新的音頻提取特征和特征匹配 方法,提供一種適合廣播音頻的比對方法。
[0006] 本發(fā)明的技術(shù)方案是:一種快速廣播音頻比對方法,包括以下步驟:
[0007] S1.特征提?。簩Υ葘Φ膬蓚€音頻,分別進(jìn)行如下操作:
[0008] S11.預(yù)處理:將音頻從原采樣頻率下采樣到4K Hz,將下采樣后的數(shù)據(jù)按固定長 度劃分為各音頻幀,相鄰幀間有重疊;將每一幀數(shù)據(jù)排列成一列矢量,并將矢量中各元素除 以列矢量中元素絕對值的最大值進(jìn)行歸一化,將歸一化處理后的幀數(shù)據(jù)保存在數(shù)據(jù)矩陣A 中;設(shè)總的音頻幀數(shù)目為M,則A = [&1,a2, a3, . . .,aM],其中A的每一列表示第i幀的數(shù) 據(jù);
[0009] S12.讀取音頻幀:取一幀音頻ai;設(shè)定初始值為0的幀計數(shù)器,每取一音頻幀,幀 計數(shù)器加1 ;
[0010] S13.幀數(shù)據(jù)變換:對音頻幀&1的數(shù)據(jù)進(jìn)行加窗處理,設(shè)Wi代表加窗后第i幀的幀 數(shù)據(jù),< 代表Wi的第n個元素;設(shè)w i的數(shù)據(jù)長度為L,取t為滿足2 L的所有t值中的 最大值;設(shè)置變量k,其初值為21'對&進(jìn)行如下迭代運(yùn)算:
[0011] S131.對n從1到k計算 _2]
(1)
[0013] S132?更新 wi:對 n 從 1 到 2k,使得 wX ;
[0014] S133.更新k :k = k/2 ;當(dāng)k > 0時轉(zhuǎn)到步驟S131繼續(xù)下一次迭代,否則,結(jié)束迭 代;
[0015] S14.計算音頻幀特征:設(shè)&代表第i幀的音頻幀特征,其維數(shù)(或特征個數(shù))為 t+1,f i^代表f i的第j個元素,對j = 1或2,/;7 x < ;對j從3到t+1計算
[0016]
C2)
[0017] S15.若幀計數(shù)器的當(dāng)前計數(shù)值小于M,則轉(zhuǎn)至步驟S12 ;
[0018] S16.生成音頻特征:將各音頻幀的特征矢量排列成一矩陣F = [f\,f2, f3, . . .,fM],該矩陣即為該音頻信號特征矩陣;
[0019] S2.特征匹配:
[0020] 設(shè)待比對的兩個音頻信號的特征矩陣分別為F1和F2,將F1和F2的對應(yīng)列(幀) 逐個進(jìn)行如下比較:
[0021] S21.對第1個音頻,對i從1到M,計算參考量/;/(./ = 2,3,…,M l)和 <(.7 = 2,3,…如下:
[0022] S211?對j從2到t+1,計算Af =夕-f-1,并計算
[0023] (3)
[0024] 其中,Tf(0. 5彡Tf< 50)為設(shè)定的閾值,sgn( ?)為符號函數(shù),其定義為
[0025]
(4)
[0026] SW2?對j從2到t,計算-#+1,并計算
[0027]
(5)
[0028] S22?對第2個音頻,對i從1到M,計算音頻2的參考量冗(./ = 2,3,…,/ + 1 )和 孟如下:
[0029] S221?對j從2到 t+1,計算 /7-1,并計算[0030]
(6)
[0031] S222?對j從2到 t,計算A/_=f-#+1,并計算[0032]
(7)
[0033] S23.對i從1到M,計算第i幀的距離:對兩音頻第i幀特征矢量,從第2個元素 起至第t+1個元素,逐個計算對應(yīng)元素對的距離如下:
[0034] S231?對j從2到t,若p;=厲或# =歹/,則記兩個元素的距離為0 ;否則,計算兩 個元素值的差的平方,將其作為第j個元素對的距離;
[0035] S232.對j = t+1時,若/)/ = /"V,則記兩個元素的距離為〇 ;否則,計算兩個元素值 的差的平方,將其作為第t+1個元素對的距離;
[0036] S233.將第2至第t+1個元素對的所有元素對距離進(jìn)行求和,并將該距離和作為兩 個音頻第i幀的距離;
[0037] S24.將待比對兩個音頻的所有幀的距離進(jìn)行平均,并將該平均值作為兩音頻信號 的距離;
[0038]S3.相似度判定:將求得的待比對兩個音頻信號距離除以單位距離得到相對距離 比,若該距離比小于設(shè)定的閾值T d(0. 3 < Td< 0. 5),則判定兩個音頻信號相似,否則不相 似。
[0039] 本發(fā)明的有益效果:本發(fā)明提供一種音頻實時比對方法,該方法具有較高的比對 容錯性,在音頻受到噪聲干擾,或進(jìn)行了音效處理的等情況下均能實現(xiàn)正確的比對。同時, 該方法算法簡單、處理快速,能夠廣泛應(yīng)用于廣播電臺的節(jié)目監(jiān)播、廣告監(jiān)測和管理等。
【附圖說明】:
[0040] 圖1為EQ處理均衡器設(shè)置圖。其中,(a)為流行風(fēng)格均衡器設(shè)置、(b)為搖滾風(fēng)格 均衡器設(shè)置、(c)為經(jīng)典風(fēng)格均衡器設(shè)置。
[0041] 圖2為特征提取過程流程圖。
[0042] 圖3為音頻比對流程圖。
【具體實施方式】
[0043] 仿真實驗共選擇了 16個音頻作為測試音頻。其中前6個音頻為未經(jīng)處理的原廣 播音頻,均為單聲道,48k采樣率,包含廣告、樂曲和歌曲各兩個,其具體信息如表1描述;后 10個音頻對歌曲1作均衡(EQ)、壓縮、加噪等處理得到的音頻,其音頻具體信息如表2描 述,EQ處理的均衡器設(shè)置如圖1所示。
[0044] 表1原測試音頻信息
[0045]
[0046] 表2歌曲1處理后的各音頻信息
[0047]
[0048] 本實施例以"歌曲1"及對其進(jìn)行搖滾風(fēng)格均衡處理后的"歌曲1-rock"這對音頻 為例,對其進(jìn)行比對,具體步驟如下:
[0049] S1.特征提?。簩Υ葘Φ膬蓚€音頻,分別進(jìn)行如下操作:
[0050] S11.預(yù)處理:將音頻從原采樣頻率下采樣到4K Hz,將下采樣后的數(shù)據(jù)按256個采 樣點的長度等分為各音頻幀,相鄰幀間有半幀長度的重疊,總的音頻幀數(shù)目M為935 ;將每 一幀數(shù)據(jù)排列成一列矢量,并將矢量中各元素除以列矢量中元素絕對值的最大值進(jìn)行歸一 化,將歸一化處理后的幀數(shù)據(jù)保存在數(shù)據(jù)矩陣A中;設(shè),則A =[叫,a2, a3, . . .,a935],其中A 的每一列ai表示第i幀的數(shù)據(jù);
[0051] S12.讀取音頻幀:取一幀音頻ai;設(shè)定初始值為0的幀計數(shù)器,每取一音頻幀,幀 計數(shù)器加1 ;
[0052] S13.幀數(shù)據(jù)變換:對音頻幀%的數(shù)據(jù)進(jìn)行加漢明窗處理,設(shè)Wi代表加窗后第i幀 的幀數(shù)據(jù),< 代表Wi的第n個元素;設(shè)w ,的數(shù)據(jù)長度為256,取t為滿足2 256的所有 t值中的最大值,即t = 8 ;設(shè)置變量k,其初值為27= 128,對w i進(jìn)行如下迭代運(yùn)算:
[0053] S131?對n從1到k計算
[0054]
⑴
[0055] S132?更新%:對n從1到2k計算;
[0056] S133.更新k :k = k/2;當(dāng)k > 0時轉(zhuǎn)到步驟S131繼續(xù)下一次迭代,否則,結(jié)束迭 代;
[0057] S14.計算音頻幀特征:設(shè)&代表第i幀的音頻幀特征,其維數(shù)(或特征個數(shù))為 9, fV代表f i的第j個元素,對j = 1或2, # = w/ x ;對j從3到9計算
[0058]
(2)
[0059] S15.若幀計數(shù)器的當(dāng)前計數(shù)值小于935,則轉(zhuǎn)至步驟S12 ;
[0060] S16.生成音頻特征:將各音頻幀的特征矢量排列成一矩陣F = [f\,f2, f3, . . .,f935],該矩陣即為該音頻信號特征矩陣。
[0061] S2?特征匹配:
[0062] 設(shè)待比對的兩個音頻信號的特征矩陣分別為F1