一種基于上下文稀疏表示的恐怖視頻識別方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種基于上下文稀疏表示的恐怖視頻識別方法及裝置,該方法包括:對訓(xùn)練視頻樣本進行鏡頭分割,然后針對每個鏡頭選取一幅關(guān)鍵幀來代表該鏡頭;提取每個關(guān)鍵幀的視覺特征,并提取整個訓(xùn)練視頻樣本的音頻特征;建立起每一個訓(xùn)練視頻樣本內(nèi)部各個關(guān)鍵幀之間的上下文關(guān)系圖;提取待識別視頻的視覺特征、音頻特征;構(gòu)建待識別視頻與訓(xùn)練視頻樣本之間的代價矩陣;基于上下文稀疏表示模型,利用所有訓(xùn)練視頻樣本對所述待識別視頻進行重構(gòu),重構(gòu)誤差最小的訓(xùn)練視頻樣本的類別即為待識別視頻的類別;其中所述上下文稀疏表示模塊以所述訓(xùn)練視頻樣本的上下文關(guān)系圖作為稀疏表示的詞典,并利用所述代價矩陣對其進行約束。
【專利說明】—種基于上下文稀疏表示的恐怖視頻識別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及模式識別和計算機網(wǎng)絡(luò)內(nèi)容安全領(lǐng)域,特別涉及一種基于上下文稀疏表示的恐怖視頻識別方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)和應(yīng)用的迅速發(fā)展,互聯(lián)網(wǎng)也給人們的生活帶來便利的同時,也給不良信息的傳播提供了方便。在互聯(lián)網(wǎng)高速發(fā)展的基礎(chǔ)上,色情、暴力、恐怖等有害信息的傳播也變得越來越容易。心理學(xué)和生理學(xué)研究表明,互聯(lián)網(wǎng)中的恐怖信息對青少年的身心健康產(chǎn)生的危害絕不亞于色情信息的危害。過多的恐怖信息可能使人長期處于極度的焦慮和恐懼中,甚至使人身心受到損害,容易產(chǎn)生心理失衡或障礙,嚴重時出現(xiàn)病理癥狀,導(dǎo)致各種恐怖癥產(chǎn)生,甚至引發(fā)其它的精神疾病。過多恐怖信息的接觸是恐懼癥及其它心理病癥的根源所在。同時,恐怖信息的過剩導(dǎo)致兒童、青少年的恐懼泛化,進而影響他們的社會認知及未來人格的健康發(fā)展;過多恐怖信息的接觸將左右孩子的閱讀取向,影響兒童青少年的審美情趣,可能引發(fā)學(xué)習(xí)不良問題,甚至引發(fā)犯罪。
[0003]網(wǎng)絡(luò)不良信息的危害早已得到國際社會的廣泛關(guān)注,現(xiàn)有的研究主要關(guān)注色情信息的過濾。雖然恐怖信息的危害不亞于色情信息,但之前的研究主要關(guān)色情圖像和色情視頻的識別與過濾。目前尚未有太多的研究注恐怖信息的過濾。
【發(fā)明內(nèi)容】
[0004](一 )要解決的技術(shù)問題
[0005]本發(fā)明的主要目的是提出一種可以兼顧關(guān)鍵幀之間上下文關(guān)系以及音視頻融合的恐怖視頻識別的方法。
[0006]( 二 )技術(shù)方案
[0007]為達到上述目的,本發(fā)明提供了一種基于上下文稀疏表示的恐怖視頻識別方法,該方法包括:
[0008]步驟1:對訓(xùn)練視頻樣本進行鏡頭分割,然后針對每個鏡頭選取一幅關(guān)鍵幀來代表該鏡頭;
[0009]步驟2:提取每個關(guān)鍵幀的視覺特征,并提取整個訓(xùn)練視頻樣本的音頻特征;
[0010]步驟3:利用ε -graph建圖方法,建立起每一個訓(xùn)練視頻樣本內(nèi)部各個關(guān)鍵幀之間的上下文關(guān)系圖;
[0011]步驟4:對待識別視頻進行鏡頭分割,并針對每個鏡頭選取一幅關(guān)鍵幀,提取所選取關(guān)鍵幀的視覺特征;并提取待識別視頻的音頻特征;
[0012]步驟5:構(gòu)建待識別視頻與訓(xùn)練視頻樣本之間的代價矩陣,其對角元素為待識別視頻與各個訓(xùn)練視頻樣本的音頻特征之間的距離;
[0013]步驟6:基于上下文稀疏表示模型,利用所有訓(xùn)練視頻樣本對所述待識別視頻進行重構(gòu),重構(gòu)誤差最小的訓(xùn)練視頻樣本的類別即為待識別視頻的類別;其中所述上下文稀疏表示模塊以所述訓(xùn)練視頻樣本的上下文關(guān)系圖作為稀疏表示的詞典,并利用所述代價矩陣對其進行約束。
[0014]本發(fā)明還提供了一種基于上下文稀疏表示的恐怖視頻識別裝置,包括:
[0015]鏡頭提取模塊,對訓(xùn)練視頻樣本進行鏡頭分割,然后針對每個鏡頭選取一幅關(guān)鍵幀來代表該鏡頭;
[0016]特征提取模塊,提取每個關(guān)鍵幀的視覺特征,并提取整個訓(xùn)練視頻樣本的音頻特征;
[0017]關(guān)系建立模塊,利用ε-graph建圖方法,建立起每一個訓(xùn)練視頻樣本內(nèi)部各個關(guān)鍵幀之間的上下文關(guān)系圖;
[0018]待識別視頻特征提取模塊,對待識別視頻進行鏡頭分割,并針對每個鏡頭選取一幅關(guān)鍵幀,提取所選取關(guān)鍵幀的視覺特征;并提取待識別視頻的音頻特征;
[0019]距離構(gòu)建模塊,構(gòu)建待識別視頻與訓(xùn)練視頻樣本之間的代價矩陣,其對角元素為待識別視頻與各個訓(xùn)練視頻樣本的音頻特征之間的距離;
[0020]識別模塊,基于上下文稀疏表示模型,利用所有訓(xùn)練視頻樣本對所述待識別視頻進行重構(gòu),重構(gòu)誤差最小的訓(xùn)練視頻樣本的類別即為待識別視頻的類別;其中所述上下文稀疏表示模塊以所述訓(xùn)練視頻樣本的上下文關(guān)系圖作為稀疏表示的詞典,并利用所述代價矩陣對其進行約束。
[0021](三)有益效果
[0022]從上述技術(shù)方案可以看出,本發(fā)明具有以下優(yōu)點:
[0023]1、本發(fā)明提供的這種恐怖視頻識別方法,首次將視頻幀的上下文關(guān)系考慮進識別算法中。
[0024]2、本發(fā)明利用代價約束的方法有效地融合了音頻和視覺信息。
[0025]3、本發(fā)明所提出的恐怖視頻識別方法基于上下文稀疏表示模型,該模型無需學(xué)習(xí)過程,可擴充性強,能夠快捷、高效地完成視頻識別。
【專利附圖】
【附圖說明】
[0026]圖1為本發(fā)明提供的基于上下文稀疏表示的恐怖視頻識別流程圖。
【具體實施方式】
[0027]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明作進一步的詳細說明。
[0028]圖1示出了本發(fā)明提出的一種基于上下文稀疏表示的恐怖視頻識別方法的過程示意圖。如圖1所述,該方法包括以下幾方面內(nèi)容:
[0029]步驟1:對每一個訓(xùn)練視頻樣本進行視頻鏡頭分割和關(guān)鍵幀選取,然后提取關(guān)鍵幀的視覺特征,并提取整個視頻場景的音頻特征。將每個關(guān)鍵幀對應(yīng)的視覺特征向量構(gòu)成多示例學(xué)習(xí)中的示例,每個場景對應(yīng)的所有的關(guān)鍵巾貞的特征向量集合構(gòu)成一個示例包。
[0030]本發(fā)明采用基于信息論的鏡頭檢測方法分割視頻鏡頭,該方法通過計算相鄰幀之間的互信息和聯(lián)合熵來檢測鏡頭邊界,這種檢測方法在包含各種類型的鏡頭邊界、有顯著目標運動和攝像機運動的視頻數(shù)據(jù)庫上取得了很好的檢測結(jié)果。對于每個鏡頭選取鏡頭的中間幀作為關(guān)鍵幀。
[0031]特征提取在恐怖視頻識別框中起著最重要的作用,本發(fā)明中主要提取了以下視音頻特征:
[0032]表1特征匯總表
[0033]
【權(quán)利要求】
1.一種基于上下文稀疏表示的恐怖視頻識別方法,該方法包括: 步驟1:對訓(xùn)練視頻樣本進行鏡頭分割,然后針對每個鏡頭選取一幅關(guān)鍵幀來代表該鏡頭; 步驟2:提取每個關(guān)鍵幀的視覺特征,并提取整個訓(xùn)練視頻樣本的音頻特征; 步驟3:利用ε -graph建圖方法,建立起每一個訓(xùn)練視頻樣本內(nèi)部各個關(guān)鍵幀之間的上下文關(guān)系圖; 步驟4:對待識別視頻進行鏡頭分割,并針對每個鏡頭選取一幅關(guān)鍵幀,提取所選取關(guān)鍵幀的視覺特征;并提取待識別視頻的音頻特征; 步驟5:構(gòu)建待識別視頻與訓(xùn)練視頻樣本之間的代價矩陣,其對角元素為待識別視頻與各個訓(xùn)練視頻樣本的音頻特征之間的距離; 步驟6:基于上下文稀疏表示模型,利用所有訓(xùn)練視頻樣本對所述待識別視頻進行重構(gòu),重構(gòu)誤差最小的訓(xùn)練視頻樣本的類別即為待識別視頻的類別;其中所述上下文稀疏表示模塊以所述訓(xùn)練視頻樣本的上下文關(guān)系圖作為稀疏表示的詞典,并利用所述代價矩陣對其進行約束。
2.如權(quán)利要求1所述的方法,其特征在于,所述音頻特征包括Mel頻率倒譜系數(shù)、譜功率和頻譜質(zhì)心中的一種或幾種的組合;所述視覺特征包括:情感強度、顏色和諧度、顏色變化、亮度基調(diào)和紋理特征中的一種或幾種組合。
3.如權(quán)利要求1所述的方法,其特征在于,采用基于互信息熵的鏡頭分割算法對視頻進行鏡頭分割。
4.如權(quán)利要求1所述的方法,其特征在于,所述上下文稀疏模型如下表示:
5.如權(quán)利要求4所述的方法,其特征在于,求解所述上下文稀疏模型時,通過圖核函數(shù)Kg(Gi7Gj)來表達視頻場景上下文圖之間的相似度,所述圖核函數(shù)如下表示:
6.一種基于上下文稀疏表示的恐怖視頻識別裝置,包括: 鏡頭提取模塊,對訓(xùn)練視頻樣本進行鏡頭分割,然后針對每個鏡頭選取一幅關(guān)鍵幀來代表該鏡頭;特征提取模塊,提取每個關(guān)鍵幀的視覺特征,并提取整個訓(xùn)練視頻樣本的音頻特征; 關(guān)系建立模塊,利用ε -graph建圖方法,建立起每一個訓(xùn)練視頻樣本內(nèi)部各個關(guān)鍵幀之間的上下文關(guān)系圖; 待識別視頻特征提取模塊,對待識別視頻進行鏡頭分割,并針對每個鏡頭選取一幅關(guān)鍵幀,提取所選取關(guān)鍵幀的視覺特征;并提取待識別視頻的音頻特征; 距離構(gòu)建模塊,構(gòu)建待識別視頻與訓(xùn)練視頻樣本之間的代價矩陣,其對角元素為待識別視頻與各個訓(xùn)練視頻樣本的音頻特征之間的距離; 識別模塊,基于上下文稀疏表示模型,利用所有訓(xùn)練視頻樣本對所述待識別視頻進行重構(gòu),重構(gòu)誤差最小的訓(xùn)練視頻樣本的類別即為待識別視頻的類別;其中所述上下文稀疏表示模塊以所述訓(xùn)練視頻樣本的上下文關(guān)系圖作為稀疏表示的詞典,并利用所述代價矩陣對其進行約束。
7.如權(quán)利要求6所述的裝置,其特征在于,所述音頻特征包括Mel頻率倒譜系數(shù)、譜功率和頻譜質(zhì)心中的一種或幾種的組合;所述視覺特征包括:情感強度、顏色和諧度、顏色變化、亮度基調(diào)和紋理特征中的一種或幾種組合。
8.如權(quán)利要求6所述的裝置,其特征在于,采用基于互信息熵的鏡頭分割算法對視頻進行鏡頭分割。
9.如權(quán)利要求6所述的裝置,其特征在于,所述上下文稀疏模型如下表示:
10.如權(quán)利要求9所述的裝置,其特征在于,求解所述上下文稀疏模型時,通過圖核函來表達視頻場景上下文圖之間的相似度,所述圖核函數(shù)如下表示:
【文檔編號】G06K9/00GK103854014SQ201410065197
【公開日】2014年6月11日 申請日期:2014年2月25日 優(yōu)先權(quán)日:2014年2月25日
【發(fā)明者】李兵, 胡衛(wèi)明, 丁昕苗, 祝守宇 申請人:中國科學(xué)院自動化研究所