欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

從音視頻中檢測廣告的方法及系統(tǒng)的制作方法

文檔序號:7701033閱讀:177來源:國知局
專利名稱:從音視頻中檢測廣告的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及音視頻的檢測領(lǐng)域,特別是涉及從音視頻中檢測廣告的方法及系統(tǒng)。

背景技術(shù)
廣告檢測是指在視頻、音頻節(jié)目中定位和標(biāo)記廣告所出現(xiàn)的位置。自動廣告檢測就是利用計算機(jī)自動地從視、音流中檢測出廣告片段并精確地定位該廣告片段的位置。
目前常見的自動廣告檢測的方法包括基于規(guī)則的方法、基于標(biāo)識的方法、基于鏡頭分類的方法、基于識別的方法。
基于規(guī)則的方法,使用一系列的特征和規(guī)則來區(qū)分廣告和普通的廣播電視節(jié)目,普通的廣播電視節(jié)目為非廣告。通常廣告都是成組的出現(xiàn),每組廣告被稱為廣告群。廣告及廣告群有直接衡量特征和間接衡量特征。廣告及廣告群的直接衡量特征包括長度的有限,通常一個廣告的長度不超過30秒,廣告群不超過6分鐘;廣告與非廣告節(jié)目之間及廣告與廣告之間通常由3到5個黑幀所分隔;廣告的音量一般比電視節(jié)目的音量大。廣告及廣告群的間接衡量特征包括廣告通常有比非廣告節(jié)目具有更高的鏡頭切換頻率并且在顏色上具有更豐富的變化;廣告包含許多靜止的圖像,特別是最后一個場景經(jīng)常是一幅靜止的圖像來展示產(chǎn)品或公司的名字?;谝?guī)則的方法的問題包括對于全部種類的節(jié)目找到統(tǒng)一的規(guī)則存在困難;所選擇的表示廣告的特征有時不夠穩(wěn)定和可靠;通過該些特征難以建立統(tǒng)一的檢測系統(tǒng)。例如,很多基于規(guī)則的方法根據(jù)黑幀檢測廣告,但是很多電視臺現(xiàn)在已經(jīng)不使用黑幀,而且像電影這樣的節(jié)目也可能會含有許多黑幀。而普通節(jié)目片段和廣告片段轉(zhuǎn)換時不一定存在黑幀,甚至黑幀也可以為了某種剪輯需要隨機(jī)的插入,上述情況直接導(dǎo)致基于黑幀檢測方法的失敗。因此,基于規(guī)則的方法主要集中在檢測某些特點(diǎn)種類節(jié)目,如新聞節(jié)目,中的廣告。
基于標(biāo)識的方法,通過電視臺的臺標(biāo)來檢測廣告。該方法根據(jù)當(dāng)電視臺插播廣告時自動隱去臺標(biāo)來檢測廣告的存在,可以采用邊緣檢測的方法檢測臺標(biāo)是否存在。該方法的問題在于目前很多電視臺在插播廣告的時候不隱去臺標(biāo),而且這種現(xiàn)象越來越多,所以這種通過臺標(biāo)檢測廣告的方法就失效了。例如,中國國家廣電總局的相關(guān)規(guī)定明確要求所有的廣告必要帶有臺標(biāo)。此外,目前電視臺的臺標(biāo)變得越來越復(fù)雜,且有時臺標(biāo)是半透明的,檢測起來存在困難。
基于鏡頭分類的方法,將視頻切分為鏡頭,并從鏡頭中提取相關(guān)特征,然后利用這些特征將電視鏡頭分成普通節(jié)目鏡頭和廣告鏡頭。但是這種方法通常只是簡單的分類,沒有考慮如何消除錯分鏡頭的影響,同時也沒有考慮如何合并廣告鏡頭得到廣告片段的問題。該方法最大的問題在于,非廣告節(jié)目與廣告之間并不存在明顯的、確定的特征上的區(qū)別,因此該種方法很難對所有節(jié)目達(dá)到很高的檢測的性能。另外,上述方法即使在檢測切變鏡頭方面具有很好的效果,但當(dāng)檢測消隱鏡頭或者淡入淡出鏡頭時就會遇到一些問題,導(dǎo)致檢測結(jié)果錯誤。
基于識別的方法要求事先有一個大而全的廣告數(shù)據(jù)庫,該廣告數(shù)據(jù)庫存儲預(yù)先定義的廣告節(jié)目片段的特征,然后利用此數(shù)據(jù)庫識別嵌入在電視節(jié)目里面的廣告片段。然而,該方法的缺點(diǎn)在于包含大量廣告的數(shù)據(jù)庫獲取困難,如果用人工從節(jié)目中截取和標(biāo)注將耗費(fèi)巨大的人力、物力。而且,這種方法不能檢測出數(shù)據(jù)庫中不存在的廣告片段。另外,隨著數(shù)據(jù)庫規(guī)模的增大檢測效率會下降。
上述各種方法處理的數(shù)據(jù)是視頻數(shù)據(jù),由于視頻本身的特點(diǎn),上述各種方法所需處理的數(shù)據(jù)量大,特征復(fù)雜度高,因此計算速度慢。


發(fā)明內(nèi)容
為了解決上述的技術(shù)問題,本發(fā)明提供從音視頻中檢測廣告的方法及系統(tǒng),能夠比現(xiàn)有技術(shù)更準(zhǔn)確、高效地檢測出視頻音頻中的廣告片段。
本發(fā)明公開了從音視頻中檢測廣告的方法,所述方法包括 步驟1,從待檢測的音視頻中提取音頻,從音頻中提取幀的短時能量和美爾倒譜系數(shù)特征; 步驟2,根據(jù)幀的短時能量和美爾倒譜系數(shù)特征從所述音頻中查找出相互間相似度滿足預(yù)設(shè)條件的兩組幀,每組內(nèi)部中的幀在所述音頻中位置連續(xù),每組幀在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。
所述步驟2進(jìn)一步為 步驟21,根據(jù)幀的短時能量將所述音頻劃分為能量包絡(luò)單元; 步驟22,根據(jù)幀的短時能量和能量包絡(luò)單元的長度從所述能量包絡(luò)單元中查找出相互間能量包絡(luò)形狀相似度滿足預(yù)設(shè)形狀相似度條件的兩組位置連續(xù)能量包絡(luò)單元,每組能量包絡(luò)單元組成能量包絡(luò)序列; 步驟23,根據(jù)能量包絡(luò)序列中幀的美爾倒譜系數(shù)特征判斷所述能量包絡(luò)序列間的語義相似度是否滿足預(yù)設(shè)的語義相似度條件,如果滿足,則所述能量包絡(luò)序列在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。
在所述能量包絡(luò)序列間的語義相似度滿足預(yù)設(shè)的語義相似度條件時,所述步驟23后還包括 步驟31,對于滿足語義相似度條件的兩組能量包絡(luò)序列各自開始幀之前的幀,依次判斷對應(yīng)幀之間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中的下一個幀為廣告的起始位置。
在所述能量包絡(luò)序列間的語義相似度滿足預(yù)設(shè)的語義相似度條件時,所述步驟23后還包括 步驟41,對于滿足語義相似度條件的兩組能量包絡(luò)序列各自結(jié)束幀之后的幀,依次判斷對應(yīng)幀之間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中前一個幀為廣告的結(jié)束位置。
所述步驟1還包括, 步驟51,對幀的短時能量進(jìn)行平滑處理,以平滑處理后的短時能量作為幀的短時能量。
所述步驟21進(jìn)一步為, 步驟61,根據(jù)幀的短時能量,將位于能量曲線上升沿并且能量上升幅度超過預(yù)設(shè)的幅度值的幀作為能量包絡(luò)單元的劃分點(diǎn); 步驟62,從所述劃分點(diǎn)將音頻劃分為能量包絡(luò)單元。
所述步驟22進(jìn)一步為, 步驟71,從所述能量包絡(luò)單元中查找出滿足長度相似度條件的兩組位置連續(xù)的能量包絡(luò)單元,每組能量包絡(luò)單元組成候選能量包絡(luò)序列,所述長度相似度條件為每組間相同位置的能量包絡(luò)單元的長度的差值小于預(yù)設(shè)長度差值; 步驟72,依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值,如果是,則所述候選能量包絡(luò)序列為所述能量包絡(luò)序列。
所述步驟23進(jìn)一步為, 步驟81,計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離; 步驟82,判斷歐式距離小于預(yù)設(shè)距離閥值的幀的個數(shù)是否大于預(yù)設(shè)的數(shù)量閥值,如果是,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
所述步驟61進(jìn)一步為, 步驟91,對于音頻中每個幀,判斷所述幀的短時能量是否小于所述幀的下一幀的短時能量,如果是,則所述幀位于能量曲線上升沿; 步驟92,對于位于能量曲線上升沿的幀,按如下公式計算所述幀的能量上升幅度, 其中,DF為所述幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值; 如果DF大于所述預(yù)設(shè)的幅度值,則所述幀作為能量包絡(luò)的劃分點(diǎn)。
所述步驟71和所述步驟72之間還包括, 步驟101,判斷所述候選能量包絡(luò)序列的長度是否大于等于預(yù)設(shè)廣告長度閥值,如果是,執(zhí)行所述步驟72。
所述步驟72進(jìn)一步為, 步驟111,按如下公式計算所述候選能量包絡(luò)序列中幀的能量上升幅度, 其中,DF為所述候選能量包絡(luò)序列中幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值; 步驟112,根據(jù)所述幀的能量上升幅度計算所述候選能量包絡(luò)序列間的能量突變度相關(guān)度,如果所述候選能量包絡(luò)序列間的能量突變相關(guān)度大于預(yù)設(shè)的能量突變相關(guān)度閥值,則所述候選能量包絡(luò)序列為所述能量包絡(luò)序列。
所述步驟81進(jìn)一步為, 步驟121,第一個能量包絡(luò)序列的第i幀同第二個能量包絡(luò)序列的第i+e幀對應(yīng),e為整數(shù),取值范圍為預(yù)設(shè)的范圍; 步驟122,對應(yīng)e的不同取值,計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離,對應(yīng)相同e的取數(shù)計算的歐式距離組成一個歐式距離組; 所述步驟82進(jìn)一步為, 步驟123,對于每個歐式距離組,計算其中數(shù)值小于預(yù)設(shè)距離閥值的歐式距離的個數(shù),取所有歐式距離組中最大的個數(shù)值作為所述能量包絡(luò)序列的個數(shù)值; 步驟124,判斷所述能量包絡(luò)序列的個數(shù)值是否大于預(yù)設(shè)的數(shù)量閥值,如果大于,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
本發(fā)明還公開了從音視頻中檢測廣告的系統(tǒng),所述系統(tǒng)包括 參數(shù)提取模塊,用于從待檢測的音視頻中提取音頻,從音頻中提取幀的短時能量和美爾倒譜系數(shù)特征; 廣告查找模塊,用于根據(jù)幀的短時能量和美爾倒譜系數(shù)特征從所述音頻中查找出相互間相似度滿足預(yù)設(shè)條件的兩組幀,每組內(nèi)部的幀在所述音頻中位置連續(xù),每組幀在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。
所述廣告查找模塊進(jìn)一步包括 單元劃分模塊,用于根據(jù)幀的短時能量將所述音頻劃分為能量包絡(luò)單元; 形狀相似查找模塊,用于根據(jù)幀的短時能量和能量包絡(luò)單元的長度從所述能量包絡(luò)單元中查找出相互間能量包絡(luò)形狀相似度滿足預(yù)設(shè)形狀相似度條件的兩組位置連續(xù)能量包絡(luò)單元,每組能量包絡(luò)單元組成能量包絡(luò)序列; 語義相似查找模塊,用于根據(jù)能量包絡(luò)序列中幀的美爾倒譜系數(shù)特征判斷所述能量包絡(luò)序列間的語義相似度是否滿足預(yù)設(shè)的語義相似度條件,如果滿足,則所述能量包絡(luò)序列在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。
所述語義相似查找模塊,在所述能量包絡(luò)序列間的語義相似度滿足預(yù)設(shè)的語義相似度條件時,還用于對于每組能量包絡(luò)序列開始幀之前的幀,依次判斷該幀同其他能量包絡(luò)序列間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中的下一個幀為廣告的起始位置。
所述語義相似查找模塊,在所述能量包絡(luò)序列間的語義相似度滿足預(yù)設(shè)的語義相似度條件時,還用于對于每組能量包絡(luò)序列結(jié)束幀之后的幀,依次判斷該幀同其他能量包絡(luò)序列間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中前一個幀為廣告的結(jié)束位置。
所述參數(shù)提取模塊還用于對幀的短時能量進(jìn)行平滑處理,以平滑處理后的短時能量作為幀的短時能量。
所述單元劃分模塊進(jìn)一步用于根據(jù)幀的短時能量,將位于能量曲線上升沿并且能量上升幅度超過預(yù)設(shè)的幅度值的幀作為能量包絡(luò)單元的劃分點(diǎn);從所述劃分點(diǎn)將音頻劃分為能量包絡(luò)單元。
所述形狀相似查找模塊進(jìn)一步用于從所述能量包絡(luò)單元中查找出滿足長度相似度條件的兩組位置連續(xù)的能量包絡(luò)單元,每組能量包絡(luò)單元組成候選能量包絡(luò)序列,所述長度相似度條件為每組間相同位置的能量包絡(luò)單元的長度的差值小于預(yù)設(shè)長度差值;依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值,如果是,則所述候選能量包絡(luò)序列為所述能量包絡(luò)序列。
所述語義相似查找模塊進(jìn)一步用于計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離;判斷歐式距離小于預(yù)設(shè)距離閥值的幀的個數(shù)是否大于預(yù)設(shè)的數(shù)量閥值,如果是,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
所述單元劃分模塊進(jìn)一步用于在根據(jù)幀的短時能量,將位于能量曲線上升沿并且能量上升幅度超過預(yù)設(shè)的幅度值的幀作為能量包絡(luò)單元的劃分點(diǎn)時, 進(jìn)一步用于對于音頻中每個幀,判斷所述幀的短時能量是否小于所述幀的下一幀的短時能量,如果是,則所述幀位于能量曲線上升沿;對于位于能量曲線上升沿的幀,按如下公式計算所述幀的能量上升幅度, 其中,DF為所述幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值;如果DF大于所述預(yù)設(shè)的幅度值,則所述幀作為能量包絡(luò)的劃分點(diǎn)。
所述形狀相似查找模塊還用于判斷所述候選能量包絡(luò)序列的長度是否大于等于預(yù)設(shè)廣告長度閥值,如果是,則進(jìn)行所述依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值。
所述形狀相似查找模塊在依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值時, 進(jìn)一步用于按如下公式計算所述候選能量包絡(luò)序列中幀的能量上升幅度, 其中,DF為所述候選能量包絡(luò)序列中幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值;根據(jù)所述幀的能量上升幅度計算所述候選能量包絡(luò)序列間的能量突變度相關(guān)度,如果所述候選能量包絡(luò)序列間的能量突變相關(guān)度大于預(yù)設(shè)的能量突變相關(guān)度閥值,則所述候選能量包絡(luò)序列為所述能量包絡(luò)序列。
所述語義相似查找模塊在計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離時,進(jìn)一步用于將第一個能量包絡(luò)序列的第i幀同第二個能量包絡(luò)序列的第i+e幀對應(yīng),e為整數(shù),取值范圍為預(yù)設(shè)的范圍;對應(yīng)e的不同取值,計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離,對應(yīng)相同e的取數(shù)計算的歐式距離組成一個歐式距離組; 所述語義相似查找模塊在判斷歐式距離小于預(yù)設(shè)距離閥值的幀的個數(shù)是否大于預(yù)設(shè)的數(shù)量閥值時, 進(jìn)一步用于對于每個歐式距離組,計算其中數(shù)值小于預(yù)設(shè)距離閥值的歐式距離的個數(shù),取所有歐式距離組中最大的個數(shù)值作為所述能量包絡(luò)序列的個數(shù)值;判斷所述能量包絡(luò)序列的個數(shù)值是否大于預(yù)設(shè)的數(shù)量閥值,如果大于,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
本發(fā)明的有益效果在于,通過根據(jù)待測音視頻的音頻的短時能量和美爾倒普系數(shù)特征,按相似度查找音視頻中的廣告片段,能夠僅對音頻操作便可查找到音視頻中廣告,進(jìn)而提高檢測速度,應(yīng)用音頻短時能量和美爾倒普系數(shù)特征確定相似度,提高檢測準(zhǔn)確性;進(jìn)一步通過劃分能量包絡(luò)單元和進(jìn)行包絡(luò)形狀相似度和語義相似度的比較,查找相似片段,能夠更精確比較片段相似度;并能夠根據(jù)語義相似度,精確確定廣告片段起始位置。



圖1是本發(fā)明從音視頻中檢測廣告的方法流程圖; 圖2是本發(fā)明從音視頻中檢測廣告的系統(tǒng)結(jié)構(gòu)圖。

具體實(shí)施例方式 下面結(jié)合附圖,對本發(fā)明做進(jìn)一步的詳細(xì)描述。
步驟S100,從待檢測的音視頻中提取音頻,從音頻中提取幀的短時能量和MFCC(美爾倒譜系數(shù))特征。
步驟S200,根據(jù)幀的短時能量和MFCC特征從所述音頻中查找出相互間相似度滿足預(yù)設(shè)條件的兩組幀,每組內(nèi)部中的幀在所述音頻中位置連續(xù),每組幀在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。
所述步驟S100的具體實(shí)施方式
如下所述。
短時能量為語音信號的一個短段的能量,為語音信號處理領(lǐng)域常用的特征。
MFCC特征是語音識別和說話人識別領(lǐng)域的常用特征,MFCC特征為利用三角濾波器組對語音信號經(jīng)傅立葉變換得到的頻譜濾波而得,并且對其頻域進(jìn)行美爾(Mel)尺度變換后獲得,以更符合人類的聽覺特性。
現(xiàn)有技術(shù)中有多種對短時能量的計算方法,本發(fā)明具體實(shí)施方式
中每幀的短時能量的計算方法如下式。
其中,STNn表示第n幀的短時能量,n為幀在音頻中的序號,x(m)為語音信號,w(m)為窗函數(shù),N為一幀的采樣數(shù)。
為了消除噪聲等因素的影響,對短時能量進(jìn)行平滑處理。一個滿足∫θ(x)dx=1,且在無窮遠(yuǎn)處收斂到0的實(shí)函數(shù)θ(x)稱為平滑函數(shù)。
平滑后的能量為 STEN(x)=STE(x)×θ(x) θ(x)為平滑函數(shù),該函數(shù)滿足∫θ(x)dx=1,且在無窮遠(yuǎn)處收斂到0的實(shí)函數(shù)。STEN(x)為平滑的短時能量,x為音頻信號。
本發(fā)明具體實(shí)施方式
中提取MFCC特征的方法下列。
步驟S111,根據(jù)公式Mel(f)=2595lg(1+f/700)將實(shí)際頻率轉(zhuǎn)換為美爾(Mel)頻率,其中音頻信號的f為頻率(其中f為語音信號的頻率)。
步驟S112,根據(jù)音頻信號|Xn(k)|求每一個三角濾波器的輸出 其中o(l)、c(l)、h(l)分別是三角濾波器的下限、中心、上限頻率,且c(l)=h(l-1)=o(l+1)。Xn(k)是音頻的抽樣數(shù)據(jù),k是采樣點(diǎn),m(l)表示第l個濾波器的輸出,l是抽樣順序號。
步驟S113,對所有的濾波器輸出作對數(shù)運(yùn)算,再進(jìn)一步做離散余弦(DCT)變換,得到MFCC特征 其中,L為濾波器數(shù),Cmfcc(i)表示MFCC特征第i個參數(shù) 所述步驟S200的具體實(shí)施方式
如下所述,包括步驟S210至步驟S230。
步驟S210,根據(jù)幀的短時能量將所述音頻劃分為能量包絡(luò)單元。
根據(jù)幀的短時能量,將位于能量曲線上升沿并且能量上升幅度超過預(yù)設(shè)的幅度值的幀作為能量包絡(luò)單元的劃分點(diǎn);從所述劃分點(diǎn)將音頻劃分為能量包絡(luò)單元。
具體實(shí)施方式
如下。
按如下公式計算幀的Slope函數(shù)值。
Slopek=(STENk+1-STENk)/2 k為幀在音頻中序號,STEN為幀的平滑處理后的短時能量。
按如下的公式1計算幀的DF函數(shù)值,DF對應(yīng)于幀的能量上升幅度。
其中,DF為所述幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值,例如預(yù)設(shè)m為10。
能量包絡(luò)的劃分依據(jù)為,DF>T并且Slope>0,T為預(yù)設(shè)的幅度值,通過調(diào)整T的預(yù)設(shè)值可以調(diào)整能量包絡(luò)的劃分粒度,根據(jù)實(shí)驗(yàn)統(tǒng)計經(jīng)驗(yàn)T取值為1.25時的劃分粒度有利于檢索廣告處理。Slope>0表示該幀處于能量曲線的上升沿,DF>T表示能量突變程度滿足能量包絡(luò)的預(yù)設(shè)的劃分要求。
步驟S220,根據(jù)幀的短時能量和能量包絡(luò)單元的長度從所述能量包絡(luò)單元中查找出相互間能量包絡(luò)形狀相似度滿足預(yù)設(shè)形狀相似度條件的兩組位置連續(xù)能量包絡(luò)單元,每組能量包絡(luò)單元組成能量包絡(luò)序列。
通過該步驟依據(jù)形狀的相似程度從音頻中查找到相似的能量包絡(luò)單元序列,進(jìn)而確定語義相似度判斷的對象,由于語義相似度計算更為復(fù)雜,因而增加該步驟比直接應(yīng)用語義相似度判定相似程度更為快速;而且由于增加了形狀相似度的判斷,確定的兩組能量包絡(luò)單元序列間形似度更高,判斷更為準(zhǔn)確。
所述步驟S220的具體實(shí)施方式
如下。
步驟S221,從能量包絡(luò)單元中查找出滿足長度相似度條件的兩組位置連續(xù)的能量包絡(luò)單元,每組能量包絡(luò)單元組成候選能量包絡(luò)序列,長度相似度條件為每組間相同位置的能量包絡(luò)單元的長度的差值小于預(yù)設(shè)長度差值。
能量包絡(luò)單元的長度為能量包絡(luò)單元中幀的數(shù)量,di表示第i個能量包絡(luò)單元的長度。在劃分后的所有能量包絡(luò)單元中,查找到第i個能量包絡(luò)單元和第j個能量包絡(luò)單元,i<j,如果滿足|dj-di|≤T3,T3為預(yù)設(shè)長度差值,本具體實(shí)施方式
中為5。從第i個能量包絡(luò)單元和第j個能量包絡(luò)單元向后依次判斷是否滿足|dj+1-di+1|≤T3,|dj+2-di+2|≤T3,直到發(fā)現(xiàn)|dj+k-di+k|>T3時停止。從而,第i個至第i+k-1個能量包絡(luò)單元組成一個候選能量包絡(luò)序列;第j個至第j+k-1個能量包絡(luò)單元組成另一個候選能量包絡(luò)序列。
步驟S222,判斷候選能量包絡(luò)序列的長度是否大于等于預(yù)設(shè)廣告長度閥值,如果是,執(zhí)行步驟S223。
候選能量包絡(luò)序列的長度表示為候選能量包絡(luò)序列中幀的個數(shù),為該候選能量包絡(luò)序列中所有能量包絡(luò)單元的長度的加和。
候選能量包絡(luò)序列的長度為候選能量包絡(luò)序列中包含的幀的數(shù)量,判斷候選能量包絡(luò)序列的長度是否大于等于預(yù)設(shè)廣告長度閥值。根據(jù)統(tǒng)計,廣告的長度為大于5秒,對應(yīng)為125幀,所以一個優(yōu)選的實(shí)施方案中廣告長度閥值為125。如果有一個候選能量包絡(luò)序列的長度不滿足條件,小于廣告長度閥值,則表明所有的候選能量包絡(luò)序列雖然他們之間在長度上相近似,但是他們不具有廣告的時間長度特性,因而將上述的候選能量包絡(luò)序列都丟棄,重新進(jìn)行步驟221。如果對于音頻中所有幀都進(jìn)行過步驟S221操作,但沒有找到滿足條件的候選能量包絡(luò)序列,則得出結(jié)論待檢測的視音頻中不包含重復(fù)出現(xiàn)的廣告。
步驟S223,依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值,如果是,則所述候選能量包絡(luò)序列組為所述能量包絡(luò)形狀相似的序列組。
能量突變相關(guān)度為能量的突變的相似程度。
對于候選能量包絡(luò)序列間的能量突變相關(guān)度有多種不同的表達(dá)方式,對應(yīng)于不同的表達(dá)方式,對應(yīng)有不同的能量突變相關(guān)度閥值。
具體實(shí)施方式
一 以候選能量包絡(luò)序列的中所有幀按公式1計算的能量上升幅度,DF,的平均值作為候選能量包絡(luò)序列的突變度,將上述候選能量包絡(luò)序列的突變度的差值作為候選能量包絡(luò)序列間的能量突變相關(guān)度。
具體實(shí)施方式
二 為簡化計算,將具體實(shí)施方式
一中的候選能量包絡(luò)序列的突變度簡化為候選能量包絡(luò)序列的起始幀和結(jié)束幀的能量上升幅度的平均值。
具體實(shí)施方式
三 在具體實(shí)施方式
一和具體實(shí)施方式
二中,線性使用幀的能量上升幅度,作為候選能量包絡(luò)序列的能量突變相關(guān)度,產(chǎn)生二值性的影響。因而本發(fā)明提出一個優(yōu)選實(shí)施方式。
按如下公式計算候選能量包絡(luò)序列中能量包絡(luò)單元以概率形式表示的能量突變度。

其中,di代表候選能量包絡(luò)序列的第i個能量包絡(luò)單元。

為第i個能量包絡(luò)單元的起始幀的能量上升幅度,

為第i個能量包絡(luò)單元的結(jié)束幀的能量上升幅度。T1為第一閥值,根據(jù)實(shí)驗(yàn)統(tǒng)計一個優(yōu)化的取值為2.25;T2為第二閥值,根據(jù)實(shí)驗(yàn)統(tǒng)計一個優(yōu)化的取值為4。
一個能量包絡(luò)單元表示為

i為該能量包絡(luò)單元在音頻中的序號,di為該能量包絡(luò)單元的長度,pi為該能量包絡(luò)單元以概率形式表示的能量突變度。一個由k個連續(xù)能量包絡(luò)單元組成的候選能量包絡(luò)序列表示為i為該候選能量包絡(luò)序列的第1個能量包絡(luò)單元在音頻中的序號。對于通過步驟S221和S222查找到的兩個候選能量包絡(luò)序列分別表示為和 將作為

的邊緣概率,將作為

的邊緣概率,



的聯(lián)合概率為兩個候選能量包絡(luò)序列間的能量突變相關(guān)度按如下公式計算。
當(dāng)Pij大于閾值T4時,則認(rèn)為



是分別為一個能量包絡(luò)序列。其中,閾值T4根據(jù)大量實(shí)驗(yàn)統(tǒng)計經(jīng)驗(yàn)取值為0.8。T4為能量突變相關(guān)度閥值。
步驟S230,根據(jù)能量包絡(luò)序列中幀的MFCC特征判斷所述能量包絡(luò)序列間的語義相似度是否滿足預(yù)設(shè)的語義相似度條件,如果滿足,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
應(yīng)用MFCC特征表示語義相似度的方式具有多種。以多個候選能量包絡(luò)序列對應(yīng)幀的MFCC特征中參數(shù)的差值的平均值作為語義相似度,或者如步驟S223中方法將MFCC特征中參數(shù)進(jìn)行概率轉(zhuǎn)換,將

對第i個幀的MFCC特征中第一個參數(shù),

對應(yīng)為第i幀的MFCC特征中第二個參數(shù),進(jìn)而應(yīng)用該概率按步驟S223中方法計算候選能量包絡(luò)序列的語義相似度。
以下就以候選能量包絡(luò)序列的幀間的MFCC歐式距離作為能量包絡(luò)序列間的語義相似度的情況進(jìn)行詳細(xì)說明。
候選能量包絡(luò)序列表示為(ai1,ai2,…,aim)和(bi1,bi2,…,bim),其中ai1,…,aim分別表示第一個候選能量包絡(luò)序列中的幀,bi1,…,bim分別表示第二個候選能量包絡(luò)序列中的幀。
具體實(shí)施方式
一 按如下公式計算候選能量包絡(luò)序列中第j幀間的MFCC歐式距離。
其中,Dj表示第j幀間的MFCC歐式距離,

表示幀aij的MFCC,

表示幀bij的MFCC,k表示MFCC特征中的第k個參數(shù)。
計算MFCC歐式距離小于閥值T5的個數(shù),根據(jù)統(tǒng)計觀察,T5取4.5時可以最優(yōu)的區(qū)分出語音內(nèi)容上是否相似。如果小于閥值T5的MFCC歐式距離個數(shù)大于預(yù)設(shè)的廣告最少幀數(shù),該具體實(shí)施方式
為125,則認(rèn)為候選能量包絡(luò)序列的語義相似度滿足語義相似度條件,候選能量包絡(luò)序列為能量包絡(luò)序列,能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
具體實(shí)施方式
二 在現(xiàn)實(shí)中,候選能量包絡(luò)序列中幀不一定是同另一個候選能量包絡(luò)序列中相同序列位置的幀對應(yīng),對應(yīng)幀在候選能量包絡(luò)序列中的順序號可能存在前后的偏差,因而具體實(shí)施方式
一中的處理方法存在一定的誤差。為了校正上述誤差,在具體實(shí)施方式
二中,計算多組對應(yīng)幀間的MFCC歐式距離;第一個能量包絡(luò)序列的第i幀同第二個能量包絡(luò)序列的第i+e幀對應(yīng),e為整數(shù),取值范圍為預(yù)設(shè)的范圍;對應(yīng)一個e的取值,計算一組幀間的MFCC歐式距離。
例如,e的取值為0,1,…,9,10。候選能量包絡(luò)序列表示為(ai1,ai2,…,aim)和(bi1,bi2,…,bim)。一組幀間的MFCC歐式距離表示為一個m維向量De,De={de1,de2,......,dem}。
公式2

表示幀aij的MFCC,

表示幀bij的MFCC,k表示MFCC特征中的第k個參數(shù)。
對于向量De,計算MFCC歐式距離小于閥值T5的個數(shù),根據(jù)統(tǒng)計觀察,T5取4.5時可以最優(yōu)的區(qū)分出語音內(nèi)容上是否相似。取個數(shù)中的最大值,如果自大值大于預(yù)設(shè)數(shù)量閥值,該具體實(shí)施方式
中數(shù)量閥值為廣告最少幀數(shù),為125,則認(rèn)為候選能量包絡(luò)序列的語義相似度滿足語義相似度條件,候選能量包絡(luò)序列為能量包絡(luò)序列,能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
具體實(shí)施方式
三 對于具體實(shí)施方式
二中方法,獲得的廣告片段的起始和結(jié)束位置不夠精確。因而在具體實(shí)施方式
三增加判定廣告片段精確位置的步驟,其他過程同具體實(shí)施方式
二相同。
對于每組能量包絡(luò)序列開始幀之前的幀,依次判斷該幀同其他能量包絡(luò)序列間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中的下一個幀為廣告的起始位置。同理,對于每組能量包絡(luò)序列結(jié)束幀之后的幀,依次判斷該幀同其他能量包絡(luò)序列間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中前一個幀為廣告的結(jié)束位置。
從能量包絡(luò)序列的起始幀開始向前,按公式2計算e取不同值時,該幀間的語義相似度;如果對于所有e計算的語義相似度都小于閥值T5,則該幀被添加進(jìn)廣告片段,計算該幀的前一幀;如果對應(yīng)不同e的取值,存在一個語義相似度不小于閥值T5,則該幀為廣告片段的邊界幀,該幀在因音頻中為第n幀,則音頻中第n+1幀為廣告開始幀。同樣方法,查找準(zhǔn)確的廣告結(jié)束幀位置。
找到一對重復(fù)廣告片段后,從待檢測視音頻中查找和該對重復(fù)廣告片段其中之一的一個序列長度相似的包絡(luò)序列。
本發(fā)明一種從音視頻中檢測廣告的系統(tǒng)如圖2所示包括 參數(shù)提取模塊201,用于從待檢測的音視頻中提取音頻,從音頻中提取幀的短時能量和美爾倒譜系數(shù)特征。
參數(shù)提取模塊201還用于對幀的短時能量進(jìn)行平滑處理,以平滑處理后的短時能量作為幀的短時能量。
廣告查找模塊202,用于根據(jù)幀的短時能量和美爾倒譜系數(shù)特征從所述音頻中查找出相互間相似度滿足預(yù)設(shè)條件的兩組幀,每組內(nèi)部中的幀在所述音頻中位置連續(xù),每組幀在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。
廣告查找模塊202進(jìn)一步包括單元劃分模塊、形狀相似查找模塊、語義相似查找模塊。
單元劃分模塊,用于根據(jù)幀的短時能量將所述音頻劃分為能量包絡(luò)單元。
單元劃分模塊進(jìn)一步用于根據(jù)幀的短時能量,將位于能量曲線上升沿并且能量上升幅度超過預(yù)設(shè)的幅度值的幀作為能量包絡(luò)單元的劃分點(diǎn);從所述劃分點(diǎn)將音頻劃分為能量包絡(luò)單元。
單元劃分模塊進(jìn)一步用于在根據(jù)幀的短時能量,將位于能量曲線上升沿并且能量上升幅度超過預(yù)設(shè)的幅度值的幀作為能量包絡(luò)單元的劃分點(diǎn)時, 進(jìn)一步用于對于音頻中每個幀,判斷所述幀的短時能量是否小于所述幀的下一幀的短時能量,如果是,則所述幀位于能量曲線上升沿;對于位于能量曲線上升沿的幀,按如下公式計算所述幀的能量上升幅度, 其中,DF為所述幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值;如果DF大于所述預(yù)設(shè)的幅度值,則所述幀作為能量包絡(luò)的劃分點(diǎn)。
形狀相似查找模塊,用于根據(jù)幀的短時能量和能量包絡(luò)單元的長度從所述能量包絡(luò)單元中查找出相互間能量包絡(luò)形狀相似度滿足預(yù)設(shè)形狀相似度條件的兩組位置連續(xù)能量包絡(luò)單元,每組能量包絡(luò)單元組成能量包絡(luò)序列。
形狀相似查找模塊進(jìn)一步用于從所述能量包絡(luò)單元中查找出滿足長度相似度條件的兩組位置連續(xù)的能量包絡(luò)單元,每組能量包絡(luò)單元組成候選能量包絡(luò)序列,所述長度相似度條件為每組間相同位置的能量包絡(luò)單元的長度的差值小于預(yù)設(shè)長度差值;依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值,如果是,則所述候選能量包絡(luò)序列為所述能量包絡(luò)序列。
形狀相似查找模塊還用于判斷所述候選能量包絡(luò)序列的長度是否大于等于預(yù)設(shè)廣告長度閥值,如果是,則進(jìn)行所述依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值。
形狀相似查找模塊在依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值時, 進(jìn)一步用于按如下公式計算所述候選能量包絡(luò)序列中幀的能量上升幅度, 其中,DF為所述候選能量包絡(luò)序列中幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值;根據(jù)所述幀的能量上升幅度計算所述候選能量包絡(luò)序列間的能量突變度相關(guān)度,如果所述候選能量包絡(luò)序列間的能量突變相關(guān)度大于預(yù)設(shè)的能量突變相關(guān)度閥值,則所述候選能量包絡(luò)序列為所述能量包絡(luò)序列。
語義相似查找模塊,用于根據(jù)能量包絡(luò)序列中幀的美爾倒譜系數(shù)特征判斷所述能量包絡(luò)序列間的語義相似度是否滿足預(yù)設(shè)的語義相似度條件,如果滿足,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
語義相似查找模塊,在所述能量包絡(luò)序列間的語義相似度滿足預(yù)設(shè)的語義相似度條件時,還用于對于每組能量包絡(luò)序列開始幀之前的幀,依次判斷該幀同其他能量包絡(luò)序列間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中的下一個幀為廣告的起始位置。
語義相似查找模塊,在所述能量包絡(luò)序列間的語義相似度滿足預(yù)設(shè)的語義相似度條件時,還用于對于每組能量包絡(luò)序列結(jié)束幀之后的幀,依次判斷該幀同其他能量包絡(luò)序列間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中前一個幀為廣告的結(jié)束位置。
語義相似查找模塊進(jìn)一步用于計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離;判斷歐式距離小于預(yù)設(shè)距離閥值的幀的個數(shù)是否大于預(yù)設(shè)的數(shù)量閥值,如果是,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
語義相似查找模塊在計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離時,進(jìn)一步用于將第一個能量包絡(luò)序列的第i幀同第二個能量包絡(luò)序列的第i+e幀對應(yīng),e為整數(shù),取值范圍為預(yù)設(shè)的范圍;對應(yīng)e的不同取值,計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離,對應(yīng)相同e的取數(shù)計算的歐式距離組成一個歐式距離組; 語義相似查找模塊在判斷歐式距離小于預(yù)設(shè)距離閥值的幀的個數(shù)是否大于預(yù)設(shè)的數(shù)量閥值時,進(jìn)一步用于對于每個歐式距離組,計算其中數(shù)值小于預(yù)設(shè)距離閥值的歐式距離的個數(shù),取所有歐式距離組中最大的個數(shù)值作為所述能量包絡(luò)序列的個數(shù)值;判斷所述能量包絡(luò)序列的個數(shù)值是否大于預(yù)設(shè)的數(shù)量閥值,如果大于,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
下面通過對一段長度為10分鐘的廣播電視節(jié)目中的廣告進(jìn)行檢測作為實(shí)例,詳細(xì)介紹本發(fā)明的基于音頻重復(fù)性的廣告檢測方法的實(shí)施過程。整個過程基本分為四個階段音頻流的分割和音頻特征的提??;劃分能量包絡(luò)單元;具有重復(fù)性的能量包絡(luò)形狀相似的匹配對的檢測;音頻語義內(nèi)容上相似匹配對的驗(yàn)證,精確定位重復(fù)性片段的起始和結(jié)束位置。
音頻流的分割和音頻特征的提取階段,把此階段從10分鐘的廣播電視節(jié)目片段中分割音頻流,然后對該10分鐘的音頻流進(jìn)行特征提取,提取的特征包括MFCC、短時能量,采用的幀長為40ms,幀移為40ms。
例如該段長度為10分鐘的電視節(jié)目中有1個廣告新×××。其中新×××的2次出現(xiàn)位置分別為10-25秒,123-138秒。
能量包絡(luò)劃分階段,利用平滑后的短時能量特征計算包絡(luò)單元檢測函數(shù)Slope和DF。能量包絡(luò)劃分點(diǎn)的依據(jù)為DF>T并且Slope>0,DF>T表示能量突變程度滿足能量包絡(luò)的劃分條件;Slope>0表示能量包絡(luò)處于上升沿狀態(tài)。其中,T根據(jù)大量的實(shí)驗(yàn)統(tǒng)計經(jīng)驗(yàn)取值為1.25。
計算檢測函數(shù)Slope和DF的公式為 第k幀的Slope函數(shù)值 Slopek=(STENk+1-STENk)/2 第k幀的DF函數(shù)值 其中STEN為平滑后的短時能量。
對10分鐘的電視節(jié)目劃分能量包絡(luò),其中在10-25秒處附近的能量包絡(luò)為(55,1.51),(45,2.51),(51,2.77),(56,3.10),(74,2.63),(40,2.96),(60,3.54),(33,4.12),(22,6.32)在123-138秒處附件的能量包絡(luò)為(31,4.23),(43,2.45),(55,2.71),(55,3.05),(76,2.55),(40,3.02),(62,3.55),(34,4.30),(41,4.13),其中能量包絡(luò)(d,DF)中的d表示包絡(luò)長度,單位為幀。
具有重復(fù)性的能量包絡(luò)形狀相似的匹配對的檢測階段,利用能量包絡(luò)劃分得到的能量包絡(luò)單元,計算兩個片段單元的單元長度和單元間的概率匹配函數(shù)來檢測能量包絡(luò)形狀上相似的包絡(luò)單元。
當(dāng)能量包絡(luò)單元



滿足|dj-di|≤T3,依次向后尋找|dj+1-di+1|≤T3,|dj+2-di+2|≤T3,...,直到|dj+k-di+k|>T3,其中T3根據(jù)大量的實(shí)驗(yàn)表明取值為5時能達(dá)到很好的實(shí)驗(yàn)效果。計算di+di+1+…+di+k-1與dj+dj+1+…+dj+k-1,當(dāng)兩者距離最小的那個大于125時,就認(rèn)為該兩包絡(luò)單元序列在時間跨度距離上是相似的。上述10分鐘片段中,(45,2.51),(51,2.77),(56,3.10),(74,2.63),(40,2.96),(60,3.54),(33,4.12)序列和((43,2.45),(55,2.71),(55,3.05),(76,2.55),(40,3.02),(62,3.55),(34,4.30)序列滿足廣告能量包絡(luò)長度相似的條件。
對上述滿足長度相似性條件的序列對,根據(jù)以下公式計算DFP值
T1為第一閥值,根據(jù)實(shí)驗(yàn)統(tǒng)計一個優(yōu)化的取值為2.25;T2為第二閥值,根據(jù)實(shí)驗(yàn)統(tǒng)計一個優(yōu)化的取值為4。
計算DFP值之后的兩個能量包絡(luò)序列為(45,0.22),(51,0.39),(56,0.35),(74,0.31),(40,0.57),(60,0.90),(33,1)和((43,0.19),(55,0.36),(55,0.31),(76,0.30),(40,0.59),(62,0.95),(34,1) 將作為

的邊緣概率,將作為

的邊緣概率,



的聯(lián)合概率為兩個候選能量包絡(luò)序列間的能量突變相關(guān)度按如下公式計算 當(dāng)Pij大于閾值T4時,則認(rèn)為這兩個序列在能量包絡(luò)形狀上是相似的。其中,閾值T4根據(jù)大量實(shí)驗(yàn)統(tǒng)計經(jīng)驗(yàn)取值為0.8。
對于上述兩個序列,第一個序列的邊緣概率值為P1=3.74;第二個序列的邊緣概率值為P2=3.7;兩者的聯(lián)合概率為P12=3.63 兩者的能量突變相關(guān)度P=0.976,大于0.8。所以認(rèn)為這兩個能量包絡(luò)序列在能量包絡(luò)形狀上是相似的。
音頻語義內(nèi)容上相似匹配對的驗(yàn)證,精確定位重復(fù)性片段的起始和結(jié)束位置階段,利用MFCC特征和歐式距離來驗(yàn)證在包絡(luò)形狀上相似的匹配單元在音頻語義內(nèi)容上是否相似,當(dāng)匹配對滿足語義內(nèi)容相似時我們就認(rèn)為該匹配對是重復(fù)性片段。
對于上述(255,256,.......,620)和(3079,3080,......,3450)兩個在能量包絡(luò)形狀上匹配的片段,計算(251,256,.......,620),(252,256,.......,620),(253,256,.......,620),(254,256,.......,620),(255,256,.......,620)分別與(3074,3080,......,3450),(3075,3080,......,3450),(3076,3080,......,3450),(3077,3080,......,3450),(3078,3080,......,3450),(3079,3080,......,3450)之間兩兩的MFCC特征的歐式距離,經(jīng)計算(251,256,.......,620)和(3076,3080,......,3450)的歐式距離小于4.5的個數(shù)大于125滿足在語義內(nèi)容相似的條件,因此該兩個片段為重復(fù)出現(xiàn)的片段。
本領(lǐng)域的技術(shù)人員在不脫離權(quán)利要求書確定的本發(fā)明的精神和范圍的條件下,還可以對以上內(nèi)容進(jìn)行各種各樣的修改。因此本發(fā)明的范圍并不僅限于以上的說明,而是由權(quán)利要求書的范圍來確定的。
權(quán)利要求
1.一種從音視頻中檢測廣告的方法,其特征在于,所述方法包括
步驟1,從待檢測的音視頻中提取音頻,從音頻中提取幀的短時能量和美爾倒譜系數(shù)特征;
步驟2,根據(jù)幀的短時能量和美爾倒譜系數(shù)特征從所述音頻中查找出相互間相似度滿足預(yù)設(shè)條件的兩組幀,每組內(nèi)部中的幀在所述音頻中位置連續(xù),每組幀在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。
2.如權(quán)利要求1所述的從音視頻中檢測廣告的方法,其特征在于,所述步驟2進(jìn)一步為
步驟21,根據(jù)幀的短時能量將所述音頻劃分為能量包絡(luò)單元;
步驟22,根據(jù)幀的短時能量和能量包絡(luò)單元的長度從所述能量包絡(luò)單元中查找出相互間能量包絡(luò)形狀相似度滿足預(yù)設(shè)形狀相似度條件的兩組位置連續(xù)能量包絡(luò)單元,每組能量包絡(luò)單元組成能量包絡(luò)序列;
步驟23,根據(jù)能量包絡(luò)序列中幀的美爾倒譜系數(shù)特征判斷所述能量包絡(luò)序列間的語義相似度是否滿足預(yù)設(shè)的語義相似度條件,如果滿足,則所述能量包絡(luò)序列在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。
3.如權(quán)利要求2所述的從音視頻中檢測廣告的方法,其特征在于,
在所述能量包絡(luò)序列間的語義相似度滿足預(yù)設(shè)的語義相似度條件時,所述步驟23后還包括
步驟31,對于滿足語義相似度條件的兩組能量包絡(luò)序列各自開始幀之前的幀,依次判斷對應(yīng)幀之間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中的下一個幀為廣告的起始位置。
4.如權(quán)利要求2所述的從音視頻中檢測廣告的方法,其特征在于,
在所述能量包絡(luò)序列間的語義相似度滿足預(yù)設(shè)的語義相似度條件時,所述步驟23后還包括
步驟41,對于滿足語義相似度條件的兩組能量包絡(luò)序列各自結(jié)束幀之后的幀,依次判斷對應(yīng)幀之間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中前一個幀為廣告的結(jié)束位置。
5.如權(quán)利要求2所述的從音視頻中檢測廣告的方法,其特征在于,所述步驟1還包括,
步驟51,對幀的短時能量進(jìn)行平滑處理,以平滑處理后的短時能量作為幀的短時能量。
6.如權(quán)利要求5所述的從音視頻中檢測廣告的方法,其特征在于,所述步驟21進(jìn)一步為,
步驟61,根據(jù)幀的短時能量,將位于能量曲線上升沿并且能量上升幅度超過預(yù)設(shè)的幅度值的幀作為能量包絡(luò)單元的劃分點(diǎn);
步驟62,從所述劃分點(diǎn)將音頻劃分為能量包絡(luò)單元。
7.如權(quán)利要求5所述的從音視頻中檢測廣告的方法,其特征在于,所述步驟22進(jìn)一步為,
步驟71,從所述能量包絡(luò)單元中查找出滿足長度相似度條件的兩組位置連續(xù)的能量包絡(luò)單元,每組能量包絡(luò)單元組成候選能量包絡(luò)序列,所述長度相似度條件為每組間相同位置的能量包絡(luò)單元的長度的差值小于預(yù)設(shè)長度差值;
步驟72,依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值,如果是,則所述候選能量包絡(luò)序列為所述能量包絡(luò)序列。
8.如權(quán)利要求5所述的從音視頻中檢測廣告的方法,其特征在于,所述步驟23進(jìn)一步為,
步驟81,計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離;
步驟82,判斷歐式距離小于預(yù)設(shè)距離閥值的幀的個數(shù)是否大于預(yù)設(shè)的數(shù)量閥值,如果是,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
9.如權(quán)利要求6所述的從音視頻中檢測廣告的方法,其特征在于,所述步驟61進(jìn)一步為,
步驟91,對于音頻中每個幀,判斷所述幀的短時能量是否小于所述幀的下一幀的短時能量,如果是,則所述幀位于能量曲線上升沿;
步驟92,對于位于能量曲線上升沿的幀,按如下公式計算所述幀的能量上升幅度,
其中,DF為所述幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值;
如果DF大于所述預(yù)設(shè)的幅度值,則所述幀作為能量包絡(luò)的劃分點(diǎn)。
10.如權(quán)利要求7所述的從音視頻中檢測廣告的方法,其特征在于,所述步驟71和所述步驟72之間還包括,
步驟101,判斷所述候選能量包絡(luò)序列的長度是否大于等于預(yù)設(shè)廣告長度閥值,如果是,執(zhí)行所述步驟72。
11.如權(quán)利要求7所述的從音視頻中檢測廣告的方法,其特征在于,所述步驟72進(jìn)一步為,
步驟111,按如下公式計算所述候選能量包絡(luò)序列中幀的能量上升幅度,
其中,DF為所述候選能量包絡(luò)序列中幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值;
步驟112,根據(jù)所述幀的能量上升幅度計算所述候選能量包絡(luò)序列間的能量突變度相關(guān)度,如果所述候選能量包絡(luò)序列間的能量突變相關(guān)度大于預(yù)設(shè)的能量突變相關(guān)度閥值,則所述候選能量包絡(luò)序列為所述能量包絡(luò)序列。
12.如權(quán)利要求8所述的從音視頻中檢測廣告的方法,其特征在于,
所述步驟81進(jìn)一步為,
步驟121,第一個能量包絡(luò)序列的第i幀同第二個能量包絡(luò)序列的第i+e幀對應(yīng),e為整數(shù),取值范圍為預(yù)設(shè)的范圍;
步驟122,對應(yīng)e的不同取值,計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離,對應(yīng)相同e的取數(shù)計算的歐式距離組成一個歐式距離組;
所述步驟82進(jìn)一步為,
步驟123,對于每個歐式距離組,計算其中數(shù)值小于預(yù)設(shè)距離閥值的歐式距離的個數(shù),取所有歐式距離組中最大的個數(shù)值作為所述能量包絡(luò)序列的個數(shù)值;
步驟124,判斷所述能量包絡(luò)序列的個數(shù)值是否大于預(yù)設(shè)的數(shù)量閥值,如果大于,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
13.一種從音視頻中檢測廣告的系統(tǒng),其特征在于,所述系統(tǒng)包括
參數(shù)提取模塊,用于從待檢測的音視頻中提取音頻,從音頻中提取幀的短時能量和美爾倒譜系數(shù)特征;
廣告查找模塊,用于根據(jù)幀的短時能量和美爾倒譜系數(shù)特征從所述音頻中查找出相互間相似度滿足預(yù)設(shè)條件的兩組幀,每組內(nèi)部的幀在所述音頻中位置連續(xù),每組幀在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。
14.如權(quán)利要求13所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,所述廣告查找模塊進(jìn)一步包括
單元劃分模塊,用于根據(jù)幀的短時能量將所述音頻劃分為能量包絡(luò)單元;
形狀相似查找模塊,用于根據(jù)幀的短時能量和能量包絡(luò)單元的長度從所述能量包絡(luò)單元中查找出相互間能量包絡(luò)形狀相似度滿足預(yù)設(shè)形狀相似度條件的兩組位置連續(xù)能量包絡(luò)單元,每組能量包絡(luò)單元組成能量包絡(luò)序列;
語義相似查找模塊,用于根據(jù)能量包絡(luò)序列中幀的美爾倒譜系數(shù)特征判斷所述能量包絡(luò)序列間的語義相似度是否滿足預(yù)設(shè)的語義相似度條件,如果滿足,則所述能量包絡(luò)序列在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。
15.如權(quán)利要求14所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,
所述語義相似查找模塊,在所述能量包絡(luò)序列間的語義相似度滿足預(yù)設(shè)的語義相似度條件時,還用于對于每組能量包絡(luò)序列開始幀之前的幀,依次判斷該幀同其他能量包絡(luò)序列間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中的下一個幀為廣告的起始位置。
16.如權(quán)利要求14所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,
所述語義相似查找模塊,在所述能量包絡(luò)序列間的語義相似度滿足預(yù)設(shè)的語義相似度條件時,還用于對于每組能量包絡(luò)序列結(jié)束幀之后的幀,依次判斷該幀同其他能量包絡(luò)序列間的語義相似度是否滿足所述語義相似度條件,第一個不滿足所述語義相似度條件的幀在音頻中前一個幀為廣告的結(jié)束位置。
17.如權(quán)利要求14所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,所述參數(shù)提取模塊還用于對幀的短時能量進(jìn)行平滑處理,以平滑處理后的短時能量作為幀的短時能量。
18.如權(quán)利要求17所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,所述單元劃分模塊進(jìn)一步用于根據(jù)幀的短時能量,將位于能量曲線上升沿并且能量上升幅度超過預(yù)設(shè)的幅度值的幀作為能量包絡(luò)單元的劃分點(diǎn);從所述劃分點(diǎn)將音頻劃分為能量包絡(luò)單元。
19.如權(quán)利要求17所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,所述形狀相似查找模塊進(jìn)一步用于從所述能量包絡(luò)單元中查找出滿足長度相似度條件的兩組位置連續(xù)的能量包絡(luò)單元,每組能量包絡(luò)單元組成候選能量包絡(luò)序列,所述長度相似度條件為每組間相同位置的能量包絡(luò)單元的長度的差值小于預(yù)設(shè)長度差值;依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值,如果是,則所述候選能量包絡(luò)序列為所述能量包絡(luò)序列。
20.如權(quán)利要求17所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,所述語義相似查找模塊進(jìn)一步用于計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離;判斷歐式距離小于預(yù)設(shè)距離閥值的幀的個數(shù)是否大于預(yù)設(shè)的數(shù)量閥值,如果是,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
21.如權(quán)利要求18所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,
所述單元劃分模塊進(jìn)一步用于在根據(jù)幀的短時能量,將位于能量曲線上升沿并且能量上升幅度超過預(yù)設(shè)的幅度值的幀作為能量包絡(luò)單元的劃分點(diǎn)時,
進(jìn)一步用于對于音頻中每個幀,判斷所述幀的短時能量是否小于所述幀的下一幀的短時能量,如果是,則所述幀位于能量曲線上升沿;對于位于能量曲線上升沿的幀,按如下公式計算所述幀的能量上升幅度,
其中,DF為所述幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值;如果DF大于所述預(yù)設(shè)的幅度值,則所述幀作為能量包絡(luò)的劃分點(diǎn)。
22.如權(quán)利要求19所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,所述形狀相似查找模塊還用于判斷所述候選能量包絡(luò)序列的長度是否大于等于預(yù)設(shè)廣告長度閥值,如果是,則進(jìn)行所述依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值。
23.如權(quán)利要求19所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,所述形狀相似查找模塊在依據(jù)所述候選能量包絡(luò)序列中幀的短時能量判斷候選能量包絡(luò)序列間的能量突變相關(guān)度是否大于預(yù)設(shè)的能量突變相關(guān)度閥值時,
進(jìn)一步用于按如下公式計算所述候選能量包絡(luò)序列中幀的能量上升幅度,
其中,DF為所述候選能量包絡(luò)序列中幀的能量上升幅度,k為所述幀在音頻中的序號,STEN為幀的平滑處理后的短時能量,m為預(yù)設(shè)的比較幀數(shù)值;根據(jù)所述幀的能量上升幅度計算所述候選能量包絡(luò)序列間的能量突變度相關(guān)度,如果所述候選能量包絡(luò)序列間的能量突變相關(guān)度大于預(yù)設(shè)的能量突變相關(guān)度閥值,則所述候選能量包絡(luò)序列為所述能量包絡(luò)序列。
24.如權(quán)利要求20所述的從音視頻中檢測廣告的系統(tǒng),其特征在于,
所述語義相似查找模塊在計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離時,進(jìn)一步用于將第一個能量包絡(luò)序列的第i幀同第二個能量包絡(luò)序列的第i+e幀對應(yīng),e為整數(shù),取值范圍為預(yù)設(shè)的范圍;對應(yīng)e的不同取值,計算所述能量包絡(luò)序列間的每對對應(yīng)幀間的美爾倒譜系數(shù)的歐式距離,對應(yīng)相同e的取數(shù)計算的歐式距離組成一個歐式距離組;
所述語義相似查找模塊在判斷歐式距離小于預(yù)設(shè)距離閥值的幀的個數(shù)是否大于預(yù)設(shè)的數(shù)量閥值時,
進(jìn)一步用于對于每個歐式距離組,計算其中數(shù)值小于預(yù)設(shè)距離閥值的歐式距離的個數(shù),取所有歐式距離組中最大的個數(shù)值作為所述能量包絡(luò)序列的個數(shù)值;判斷所述能量包絡(luò)序列的個數(shù)值是否大于預(yù)設(shè)的數(shù)量閥值,如果大于,則所述能量包絡(luò)序列對應(yīng)的音視頻片段為廣告。
全文摘要
本發(fā)明涉及從音視頻中檢測廣告的方法和系統(tǒng),所述方法包括步驟1,從待檢測的音視頻中提取音頻,從音頻中提取幀的短時能量和美爾倒譜系數(shù)特征;步驟2,根據(jù)幀的短時能量和美爾倒譜系數(shù)特征從所述音頻中查找出相互間相似度滿足預(yù)設(shè)條件的兩組幀,每組內(nèi)部中的幀在所述音頻中位置連續(xù),每組幀在待檢測的音視頻中對應(yīng)的音視頻片段為廣告。本發(fā)明能夠比現(xiàn)有技術(shù)更準(zhǔn)確、高效地檢測出視頻音頻中的廣告片段。
文檔編號H04H60/61GK101576955SQ200910087428
公開日2009年11月11日 申請日期2009年6月22日 優(yōu)先權(quán)日2009年6月22日
發(fā)明者李新輝, 王向東, 揚(yáng) 高, 錢躍良, 林守勛 申請人:中國科學(xué)院計算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
邮箱| 锡林浩特市| 周至县| 大埔县| 上栗县| 鄂尔多斯市| 科尔| 汝南县| 文成县| 娱乐| 海门市| 天全县| 嘉义县| 开原市| 蒙山县| 宁安市| 桃源县| 仙居县| 公安县| 辽阳县| 云梦县| 原阳县| 黑山县| 吉木萨尔县| 新巴尔虎左旗| 桦甸市| 龙泉市| 邵武市| 西青区| 滦南县| 吴川市| 林口县| 西青区| 阳山县| 建平县| 蚌埠市| 灵璧县| 隆尧县| 太白县| 新安县| 如皋市|