一種進(jìn)行廣告檢測的視頻拷貝檢測方法
【專利摘要】本發(fā)明屬于計算機(jī)視頻處理【技術(shù)領(lǐng)域】,具體為一種進(jìn)行廣告檢測的視頻拷貝檢測方法;其先采用音頻匹配的方法檢測出候選的匹配廣告片段,然后采用圖像匹配的方法去驗(yàn)證候選匹配片段,實(shí)現(xiàn)視頻拷貝檢測。本發(fā)明的有益效果在于:本發(fā)明方法采用把圖像和音頻特征二者相結(jié)合的算法,高效;其能夠處理大規(guī)模視頻,檢測過程快速,結(jié)果更加精確。
【專利說明】一種進(jìn)行廣告檢測的視頻拷貝檢測方法
[0001]【技術(shù)領(lǐng)域】
本發(fā)明屬于計算機(jī)視頻處理【技術(shù)領(lǐng)域】,具體為一種高效的視頻檢索方法。
[0002]【背景技術(shù)】
電視中的廣告對我們的生活有很大的影響,盡管大多數(shù)觀眾并不喜歡觀看廣告。電視中的廣告檢測有很多用途。例如:投放廣告的公司通常都會檢驗(yàn)他們的廣告有沒有按照合同播出;一些公司也可能想了解他們的競爭對手在做些什么[5];制作廣告的公司可能想要調(diào)查目前所有在播的廣告,然后制作出更具影響力的廣告。站在消費(fèi)者的角度來看,他們可能想要錄下電視節(jié)目但是并不想要把廣告也錄下來。然而,目前來說要想完成這項(xiàng)工作則必須需要人為干預(yù)。因此,能自動檢測電視中的廣告這項(xiàng)工作就顯得很有必要。
[0003]目前已經(jīng)出現(xiàn)了很多關(guān)于自動檢測電視中的廣告這方面的研究。這些研究方法可以被歸為三類[7]:第一類是基于規(guī)則的方法,這類方法采用一系列的特征和規(guī)則來區(qū)分廣告和非廣告[2,4]。第二類方法是基于商標(biāo)的算法,這類方法只能通過電視臺商標(biāo)來識別廣告[5,6]。第三類是基于識別的方法,這類方法通過視頻簽名只能夠檢測出一支的廣告[3,4]。
[0004]對于基于規(guī)則的方法來說,有很多閾值參數(shù)需要調(diào)整。系統(tǒng)對于一些閾值可能會非常敏感,從而很難為各種各樣的節(jié)目找到一個統(tǒng)一的閾值。目前許多電視臺在播出廣告時通常不會隱藏臺標(biāo),這就導(dǎo)致基于商標(biāo)的算法無法處理這種情況。更進(jìn)一步地說,現(xiàn)在的電視臺臺標(biāo)已經(jīng)變得越來越復(fù)雜,有時候甚至是半透明或有動畫效果的,這就使得檢測臺標(biāo)變得非常困難。對于基于識別的方法來說,只能檢測過去已知的廣告,因此需要一個相當(dāng)大的數(shù)據(jù)庫來存儲所有已知廣告的特征。對于一段全新的廣告,就必須要手動標(biāo)注,然后再把它的特征存放進(jìn)數(shù)據(jù)庫中。這些不足之處限制了這些方法的可應(yīng)用的范圍。
[0005]除了以上這些問題之外,這些方法主要用于檢測某種特殊節(jié)目中的廣告,例如新聞或電影[4]。它們選取的用來表示廣告的特征有時也不夠穩(wěn)定,因?yàn)樗鼈兺腔诓煌碾娨暸_甚至不同國家的節(jié)目來進(jìn)行研究的。這就很難找到一個統(tǒng)一的檢測系統(tǒng)。而且,不管是在廣告塊中或者在廣告塊的邊界,許多方法都高度依賴黑幀或者黑白幀。然而,電視臺可以很輕易地去除掉黑幀,而且其他節(jié)目像電影則可能包含許多黑幀。另外,對于音頻特征采用上述方法則不會有很好的效果。許多方法并沒有利用音頻特征[3,4,5,6]或者只是利用了很小的一部分[2]。
[0006]數(shù)字電視運(yùn)營商的廣告檢測,絕大部分都是重復(fù)性廣告檢測,也就是拷貝檢測。一則廣告持續(xù)的時間相對較長,因此我們主要解決拷貝檢測問題。主流的視頻拷貝檢測方法有兩種:1.基于圖像特征的拷貝檢測;2.基于圖像特征的機(jī)器學(xué)習(xí)。第一種方法的缺點(diǎn)是無法處理新的廣告,且速度較慢。隨著樣本數(shù)量的增加,性能會下降。第二種方法依賴樣本庫和廣告特征的人為主觀視覺映象,對復(fù)雜條件廣告沒有很好的辦法?;跈C(jī)器學(xué)習(xí)的方法,挑選了一批有代表性的廣告樣本,從中定義了一些能夠代表廣告特征的特征集,然后訓(xùn)練這些特征集得到分類器并以之來對視頻進(jìn)行分類。然而,這些方法對訓(xùn)練集的依賴性很強(qiáng),采用不同樣本進(jìn)行訓(xùn)練所得的分類器的差別比較大,隨著廣告拍攝手法的多樣化,特別是近年來出現(xiàn)的一些類似電視劇片段的廣告,這類方法面臨越來越大的困難。也有人提出了將音頻和視頻相結(jié)合的廣告檢測方法,通過提取廣告視頻的最具代表性的幀(通常是最后一幀)來分割廣告段和非廣告段,避開了對廣告區(qū)間的搜索,這種方法本質(zhì)上仍然是基于視頻的機(jī)器學(xué)習(xí)的方法,不同之處僅在于通過檢測廣告的靜音段來輔助定位廣告的邊界。機(jī)器學(xué)習(xí)方法所固有的缺陷依然存在。
[0007]參考資料
[1]D.Lowe.“Object recognition from local scale-1nvariant features, ”(基于局部尺度不變特征進(jìn)行物體識別)in Proc.0f International Conference onComputerVision, 1999.[2]D.Sadlier, et al, “Automatic TV Advertisement Detection fromMPEGBitstream, ”(自動從 MPEG 流中進(jìn)行廣告檢測)Intl Conf onEnterprise InformationSystems, Setubal,Portugal, 7-10 July 2001.[3]J.M.Sanchez, X.Binefa.“AudiCom: a Video Analysis System forAuditingCommercial Broadcasts,”(音頻廣告檢測系統(tǒng))in Proc.0f I CMCSj 1999,vol.2,pp.272-276,F(xiàn)irenze, Italy, June 1999.[4]P.Viola and M.Jones, “Robust real-time object detection, ”(具有魯棒性的實(shí)時物體檢測)InternationalJournal of Computer Vision, 2002.[5]R.Lienhart, et al.“On the Detection and Recognition ofTelevisionCommercials,”(電視廣告檢測與識別)in Proc.0f IEEE Conf on MultimediaComputing andSystems, Ottawa, Canada, pp.509—516, June 1997.[6]R.Wetzel, et al, “NOMAD,” http://www.fatalfx.com/nomad/,1998.[7]T.Hargrove, “Logo Detection in Digital Video, ” (電子視頻中的商標(biāo)檢測)http://toonarchive.com/logo-detection/,Mar 2001.[8]X.Hua, L.Lu, and H.Zhang.“Robust I earning-based TVco_ercialdetection,”(基于學(xué)習(xí)的魯棒性的電視廣告檢測)in Proc.0fICMEj 2005,pp.149 ' 152.[9]Y.Kej D.Hoiem, and R.Sukthankar.“Computer vision formusicidentification, ”(基于計算機(jī)視覺的音樂識別)in Proc.0fComputer Vision andPattern Recognition, 2005。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的在于提出一種高效的進(jìn)行廣告檢測的視頻拷貝檢測方法;其能夠處理大規(guī)模視頻,檢測過程快速準(zhǔn)確。
[0009]視頻拷貝檢測的任務(wù)是給定若干查詢的視頻片段,在視頻數(shù)據(jù)庫中進(jìn)行查找,檢測是否存在相應(yīng)的視頻片段與查詢視頻片段內(nèi)容相同;如果存在,查詢視頻片段就被稱為測試視頻拷貝片段。
[0010]本發(fā)明提供的一種進(jìn)行廣告檢測的視頻拷貝檢測方法,其先釆用音頻匹配的方法檢測出候選的匹
配廣告片段,然后釆用圖像匹配的方法去驗(yàn)證候選匹配片段。[0011]一、基于音頻特征的廣告拷貝檢測方法
基于音頻的拷貝檢測與基于圖像的拷貝檢測類似,目的都是能夠識別出數(shù)據(jù)庫中的廣告。該方法主要分為兩個過程:1.對廣告的處理;2.檢測實(shí)時視頻流。第一階段的主要工作是:首先提取廣告的音頻,然后利用Ke[9]的方法提取廣告的音頻特征,并建立音頻特征庫。第二階段的主要工作是:輸入實(shí)時視頻流,然后截取查詢音頻片段,提取該查詢片段的音頻特征,在廣告音頻數(shù)據(jù)庫中進(jìn)行查找,如果能夠檢索出與之相匹配的廣告片段,就判定該片段為廣告。
[0012]該方法的流程為:
(1)從廣告視頻語料庫進(jìn)行預(yù)處理,提取出相應(yīng)的音頻;
(2)提取廣告音頻特征
首先利用短時傅里葉變換(STFT)把每段廣告音頻數(shù)據(jù)轉(zhuǎn)換成二維的時間-頻率圖像(即聲譜圖),然后在Viola-Jones特征集合上應(yīng)用boosting算法,計算局部描述子,把這些描述子作為用于檢索的廣告音頻特征,進(jìn)而構(gòu)建廣告音頻特征庫,用.kdb和.fdb兩個文件來保存;
其中:描述子的計算方法采用Ke[9]提出的音樂識別系統(tǒng),具體算法如下:
采用0.372秒的滑動窗口在33個對數(shù)間隔的頻率段上計算一個聲譜圖,滑動窗口的步長為11.6毫秒。然后利用過濾后的聲譜圖在時間和頻率的不同尺度上去計算32個簡單的一階和二階的差值。過濾過程采用[6]提出的積分圖像技術(shù)能夠快速地完成。這些過濾器的輸出值是一系列的閾值,這些閾值能夠保證經(jīng)過濾器處理后在每11.6毫秒的時間步長中只有一個bit的值能夠保留。采用boosting算法來選取過濾器和閾值,從而形成了 32bit的描述子。在訓(xùn)練階段,boosting算法利用一些正樣本(變形但是匹配)和負(fù)樣本(不匹配)來選擇那些能夠提供高區(qū)分度且對噪聲具有魯棒性的過濾器和閾值。(3)對檢測視頻進(jìn)行拷貝檢測輸入待檢測視頻流,然后每隔3秒截取一段3秒長的音頻。之所以這么做,是因?yàn)榻?jīng)過我們實(shí)驗(yàn)測試得出Ke[9]的系統(tǒng)能夠識別的最短音頻為3秒,而且經(jīng)過測試還發(fā)現(xiàn)如果一段音頻中包含的數(shù)據(jù)庫中的音頻占的比例大于60%,就可以識別出該段音頻為廣告。該測試主要是針對在廣告邊界處截取到的音頻為混合音頻的情況?;旌弦纛l就是既有數(shù)據(jù)庫中A音頻的片段,又有數(shù)據(jù)庫中B音頻的片段或者是既有A音頻的片段又有非數(shù)據(jù)庫中音頻N的片段??傊?,考慮到準(zhǔn)確率的問題,我們最終選定截取3秒長的音頻;考慮到運(yùn)行時間的問題,我們選定每隔3秒去截取音頻。
[0013]采用與步驟(1)、(2)相同的方法從檢測視頻中抽取音頻,再轉(zhuǎn)換成聲譜圖,形成查詢片段,然后進(jìn)一步計算每段查詢片段的描述子,再采用標(biāo)準(zhǔn)哈希表進(jìn)行特征匹配,在廣告音頻特征庫中檢索出與查詢片段相匹配的候選片段,從而實(shí)現(xiàn)音頻匹配拷貝檢測。
[0014]本發(fā)明中,定義兩個相似的描述子之間的距離不大于2個漢明距離。首先探測哈希表,這一步返回的匹配片段與探測片段的漢明距離為O。然后構(gòu)造32個探測片段,每個都包含一個比特的反轉(zhuǎn)查詢描述子。這樣可以找出漢明距離為I的片段。最后,重復(fù)上述過程,不同的是每個探測片段包含兩個比特的反轉(zhuǎn)描述子,這樣可以找出漢明距離為2的片段。進(jìn)而找出相似的片段。
[0015]一旦所有相似的片段都找出后,需要識別與查詢片段最相似的片段。為了完成這個過程,該系統(tǒng)采用一個與物體識別技術(shù)中采用的局部特征[I]類似的幾何驗(yàn)證方法而不是簡單的投票系統(tǒng)。對每一段候選音頻,確認(rèn)描述子是不是具有連續(xù)匹配性。這里,采用RANSAC算法在時間軸上進(jìn)行迭代結(jié)算,然后采用EM算法計分。RANSAC算法可以在小于500次迭代的過程中收斂。最后進(jìn)行對齊。在所有候選片段都對齊后,選出具有最高EM得分的片段。
[0016]盡管這個方法能夠提供精確的音頻匹配,但是在不同的節(jié)目中經(jīng)常會出現(xiàn)相似的音樂,這就會導(dǎo)致偽匹配。另外,靜默片段經(jīng)常會導(dǎo)致不正確的匹配。因此采用圖像匹配就可以去除掉這些偽匹配。
[0017]二、基于圖像的廣告拷貝檢測方法
圖像匹配進(jìn)行廣告拷貝檢測的方法,具體步驟包括:
(I)廣告視頻關(guān)鍵幀的抽取
首先需要對廣告視頻語料庫進(jìn)行預(yù)處理,即提取廣告視頻特征,并建立從廣告視頻語料庫到廣告特征庫的哈希映射。廣告視頻特征的提取是在廣告視頻的關(guān)鍵幀的基礎(chǔ)上進(jìn)行的。
[0018]利用鏡頭分割技術(shù)提取關(guān)鍵幀。由于鏡頭之間有突變或漸變的切換(這里把漸變鏡頭的漸變結(jié)束點(diǎn)作為鏡頭邊界),而鏡頭的第一幀很好地反映了這個信息,所以本發(fā)明把每個鏡頭的第一幀作為關(guān)鍵幀提取,并記錄下相應(yīng)的時間軸信息。
[0019]本發(fā)明利用顏色直方圖作為判斷鏡頭變化的主要依據(jù),利用顏色直方圖的變化率(HCR)進(jìn)行比較。該方法的特點(diǎn)在于比較兩幀間直方圖的分布,而不是比較某一顏色在直方圖中的變化。
[0020](2)廣告視頻關(guān)鍵幀的特征向量形成
利用分塊顏色直方圖作為關(guān)鍵幀的特征:將每一個關(guān)鍵幀等分成4X4塊,對每一塊分別計算其平均亮度特征,然后計算相鄰塊之間的灰度排序特征;通過結(jié)合關(guān)鍵幀的時間軸信息,就能得到每一關(guān)鍵幀的十七維特征向量信息;
(3)廣告視頻語料庫到廣告特征庫的映射
對每個廣告視頻,通過哈希映射,將其所有的關(guān)鍵幀的特征信息寫入到一個對應(yīng)
的.feature文件中,形成了從廣告視頻語料庫到廣告特征庫的--映射;其中.feature文
件的格式如下:第一行記錄該特征文件對應(yīng)的廣告視頻信息,即廣告視頻文件名稱以及存放地址;第二行開始按時間軸的順序分別記錄關(guān)鍵幀的特征信息,共十七維,互相之間以空格形式間隔開;
(4)對視頻進(jìn)行拷貝檢測
對檢測視頻采用基于局部排序的視頻拷貝檢測方法,具體的步驟如下:
X按照步驟(1)、(2)中的方法提取檢測視頻的特征;:2匹配待檢測視頻特征與廣告特征庫,并生成匹配結(jié)果圖;采用基于局部敏感哈希的£近鄰查詢模式,使得數(shù)據(jù)庫中視頻幀距離近的矢量聚集到一起的概率遠(yuǎn)高于距離遠(yuǎn)的矢量;
I對匹配結(jié)果圖中的每個節(jié)點(diǎn)在匹配圖中查找其最長路徑,并形成最終的拷貝檢測結(jié)果;采用Floyd-warshall算法,計算出每個節(jié)點(diǎn)之間的最短路徑,通過該路徑信息形成視頻的拷貝的最長路徑,從而判定檢測視頻是否為廣告視頻庫中視頻的一個拷貝。[0021]對視頻進(jìn)行拷貝檢測時,同時進(jìn)行過期廣告的清除,具體方法如下:首先檢查廣告庫內(nèi)視頻的last_vist字段,若此時間已經(jīng)超過了過期廣告的時間期限則視為過期廣告,從視頻庫中刪除這條視頻。每次在拷貝檢測完成后,更新選中的視頻基本信息表的last_vist字段為當(dāng)前日期。
[0022]本發(fā)明的有益效果在于:本發(fā)明方法采用把圖像和音頻特征二者相結(jié)合的算法,高效;其能夠處理大規(guī)模視頻,檢測過程快速,結(jié)果更加精確。
【專利附圖】
【附圖說明】
[0023]圖1為基于圖像的視頻拷貝檢測流程圖。
[0024]圖2為提取廣告圖像特征流程圖。
[0025]【具體實(shí)施方式】
下面結(jié)合附圖和實(shí)例對本發(fā)明做進(jìn)一步闡述。
[0026]圖1為基于圖像的視頻拷貝檢測流程圖。
[0027]圖2為提取廣告圖像特征流程圖。
[0028]1.下面詳細(xì)介紹實(shí)驗(yàn)的鏡頭分割算法和廣告特征數(shù)據(jù)庫的建立。
[0029]1.1鏡頭分割算法
這里顏色特征選取HSV的顏色直方圖,其中直方圖只選取h和s分量,不選擇V的原因在于,對于漸變來說,色度和飽和度不會變化很大,但亮度會在這個過程中發(fā)生較大變化,去掉該分量就對漸變有一定的適應(yīng)性。
[0030]顏色直方圖變化率(HCR):
【權(quán)利要求】
1.一種進(jìn)行廣告檢測的視頻拷貝檢測方法,其特征在于:先采用音頻匹配的方法檢測出候選的匹配廣告片段,然后采用圖像匹配的方法去驗(yàn)證候選匹配片段,實(shí)現(xiàn)視頻拷貝檢測。
2.根據(jù)權(quán)利要求1所述的視頻拷貝檢測方法,其特征在于:所述檢測出候選的匹配廣告片段時采用的音頻匹配的方法,具體步驟如下: (1)從廣告視頻語料庫提取出相應(yīng)的音頻; (2)提取廣告音頻特征 首先利用短時傅里葉變換把每段廣告音頻數(shù)據(jù)轉(zhuǎn)換成聲譜圖,然后在Viola-Jones特征集合上應(yīng)用boosting算法,計算局部描述子,得到廣告音頻特征,進(jìn)而構(gòu)建廣告音頻特征庫; 其中:描述子的計算方法如下:采用0.372秒的滑動窗口在33個對數(shù)間隔的頻率段上計算一個聲譜圖,滑動窗口的步長為11.6毫秒;然后利用過濾后的聲譜圖在時間和頻率的不同尺度,去計算32個簡單的一階和二階的差值,得到32bit的描述子; (3)對檢測視頻進(jìn)行拷貝檢測 采用與步驟(1)、(2)相同的方法從檢測視頻中抽取音頻,再轉(zhuǎn)換成聲譜圖,形成查詢片段,然后進(jìn)一步計算每段查詢片段的描述子,再采用標(biāo)準(zhǔn)哈希表進(jìn)行特征匹配,在廣告音頻特征庫中檢索出與查詢片段相匹配的候選片段,從而實(shí)現(xiàn)音頻匹配拷貝檢測。
3.根據(jù)權(quán)利要求2所述的 視頻拷貝檢測方法,其特征在于:所使用標(biāo)準(zhǔn)哈希表進(jìn)行特征匹配的方法,具體如下: (1)選取描述子之間的距離不大于2個漢明距離的候選片段作為相似片段; (2)進(jìn)一步采用RANSAC算法在時間軸上進(jìn)行迭代結(jié)算,然后采用EM算法計分,選出具有最高EM得分的片段,即為與查詢片段最相似的片段,實(shí)現(xiàn)音頻匹配拷貝檢測。
4.根據(jù)權(quán)利要求1所述的視頻拷貝檢測方法,其特征在于:所述查找描述子之間距離不大于2個漢明距離片段的方法如下:首先探測哈希表,這一步返回的匹配片段與探測片段的漢明距離為0 ;然后構(gòu)造32個探測片段,每個都包含一個比特的反轉(zhuǎn)查詢描述子,這樣可以找出漢明距離為I的片段;最后,重復(fù)上述過程,每個探測片段包含2bit的反轉(zhuǎn)描述子,這樣可以找出漢明距離為2的片段。
5.根據(jù)權(quán)利要求1所述的視頻拷貝檢測方法,其特征在于:所述圖像匹配的方法,具體步驟包括: (1)廣告視頻關(guān)鍵幀的抽取 利用鏡頭分割技術(shù)提取關(guān)鍵幀,把每個鏡頭的第一幀選為關(guān)鍵幀,并記錄下相應(yīng)的時間軸信息; (2)廣告視頻關(guān)鍵幀的特征向量形成 利用分塊顏色直方圖作為關(guān)鍵幀的特征:將每一個關(guān)鍵幀等分成4X4塊,對每一塊分別計算其平均亮度特征,然后計算相鄰塊之間的灰度排序特征;通過結(jié)合關(guān)鍵幀的時間軸信息,就能得到每一關(guān)鍵幀的十七維特征向量信息; (3)廣告視頻語料庫到廣告特征庫的映射 對每個廣告視頻,通過哈希映射,將其所有的關(guān)鍵幀的特征信息寫入到一個對應(yīng)的.feature文件中,形成了從廣告視頻語料庫到廣告特征庫的--映射;其中.feature文件的格式如下:第一行記錄該特征文件對應(yīng)的廣告視頻信息,即廣告視頻文件名稱以及存放地址;第二行開始按時間軸的順序分別記錄關(guān)鍵幀的特征信息,共十七維,互相之間以空格形式間隔開; (4)對視頻進(jìn)行拷貝檢測 對檢測視頻采用基于局部排序的視頻拷貝檢測方法,具體的步驟如下: I按照步驟(1)、(2)中的方法提取檢測視頻的特征; I匹配待檢測視頻特征與廣告特征庫,并生成匹配結(jié)果圖;采用基于局部敏感哈希的£近鄰查詢模式,使得數(shù)據(jù)庫中視頻幀距離近的矢量聚集到一起的概率遠(yuǎn)高于距離遠(yuǎn)的矢量; I對匹配結(jié)果圖中的每個節(jié)點(diǎn)在匹配圖中查找其最長路徑,并形成最終的拷貝檢測結(jié)果;采用Floyd-warshall算法,計算出每個節(jié)點(diǎn)之間的最短路徑,通過該路徑信息形成視頻的拷貝的最長路徑,從而判定檢測視頻是否為廣告視頻庫中視頻的一個拷貝。
6.根據(jù)權(quán)利要求4所述的視頻拷貝檢測方法,其特征在于:對視頻進(jìn)行拷貝檢測時,同時進(jìn)行過期廣告的清除,具體方法如下:首先檢查廣告庫內(nèi)視頻的last_vist字段,若此時間已經(jīng)超過了過期 廣告的時間期限則視為過期廣告,從視頻庫中刪除這條視頻。
【文檔編號】G06F17/30GK103605666SQ201310513718
【公開日】2014年2月26日 申請日期:2013年10月28日 優(yōu)先權(quán)日:2013年10月28日
【發(fā)明者】金城, 吳淵, 趙花婷, 薛向陽 申請人:復(fù)旦大學(xué)