本發(fā)明涉及視頻圖像分類領(lǐng)域,尤其是涉及了一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法。
背景技術(shù):
視頻圖像分類是一個非常有挑戰(zhàn)的問題,因為姿勢和外觀變化引起大的內(nèi)部類型的變化,還有在類型之間的整體外觀上的細微差異引起的小的內(nèi)部變化。近來,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)已被用來學習許多強大的功能,用層次模型來處理大的變化,自動定位區(qū)域。盡管這些方法有所進步,但以前的工作把對象的分類任務(wù)作為一個靜止的圖像分類問題,忽略視頻中存在的互補的時間信息。至今,沒有使用神經(jīng)網(wǎng)絡(luò)方法為基礎(chǔ)的方法來對視頻的對象進行分類。
本發(fā)明引入基于視頻的對象分類問題,采用了早融的雙流網(wǎng)絡(luò)結(jié)合時間和空間信息(時空共生)方法,首先輸入圖像和光流信息,結(jié)合時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)進行早期融合,將融合輸出作為特征向量輸入到SVM分類器之中,獲得最終分類結(jié)果。從每個視頻使用更多的幀(即更多的空間數(shù)據(jù))產(chǎn)生一個顯著的精度提高;空間和時間信息的結(jié)合,兩者形成互補,精度達到65.8%。采用早期融合是由于晚期融合有一個潛在缺點,空間和時間的信息融合是在最后完成,這限制了從SoftMax分類層組合獲得的補充信息的數(shù)量(或決定),所以,通過使用共生的方法較少的分離的集群形成,和分離的集群往往是更緊密的在一起,可以更好地利用時間信息。
技術(shù)實現(xiàn)要素:
針對忽略了對視頻數(shù)據(jù)進行分類的問題,本發(fā)明的目的在于提供一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法,采用早融的雙流網(wǎng)絡(luò)結(jié)合時間和空間信息(時空共生)方法,使用猴類的視頻數(shù)據(jù)集,提高分類性能。
為解決上述問題,本發(fā)明提供一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法,其主要內(nèi)容包括:
(一)數(shù)據(jù)輸入;
(二)時空雙流網(wǎng)絡(luò);
(三)融合;
(四)SVM分類器。
其中,一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法,采用早融的雙流網(wǎng)絡(luò)結(jié)合時間和空間信息(時空共生)方法,使用猴類的視頻數(shù)據(jù)集,從每個視頻使用更多的幀(即更多的空間數(shù)據(jù))產(chǎn)生一個顯著的精度提高;空間和時間信息的結(jié)合,兩者形成互補,精度達到65.8%。
其中,一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法,基于降維的可視化技術(shù)使用t-分布鄰域嵌入算法(t-SNE)得出,通過使用共生的方法較少的分離的集群形成,和分離的集群往往是更緊密的在一起,更好地利用時間信息。
其中,所述的數(shù)據(jù)輸入,包括圖像和光流信息,數(shù)據(jù)集由100種猴類視頻集組成;該數(shù)據(jù)集分為訓練集和測試集。在一定距離內(nèi)記錄猴類視頻,該數(shù)據(jù)集具有較大的挑戰(zhàn),如大規(guī)模的相機運動變化和相當大的姿態(tài)變化;
對于每一個類(猴種)提供以下數(shù)據(jù):具有活動注釋的視頻剪輯,聲音剪輯,包圍盒,以及分類和分布位置。
進一步地,所述的測試,每個視頻剪輯采用每秒5幀(FPS)的方式測試,計算每5幀的光流來計算效率。
其中,所述的時空雙流網(wǎng)絡(luò),包括時間網(wǎng)絡(luò),空間網(wǎng)絡(luò),以及時空共生譯碼。
進一步地,所述的時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò),包括
(1)時序網(wǎng)絡(luò)使用作為水平流Ox,豎直流Oy和光流的大小Omag的輸入結(jié)合形成一個單一的光學特征映射O∈Rh×w×3,其中h×w是特征映射(圖像)的大?。?/p>
(2)空間網(wǎng)絡(luò)使用RGB幀(圖像)作為輸入;
和都使用DCNN結(jié)構(gòu),由5個卷積層組成Sc1,Sc2,…,Sc5,其次是完全連接層Sfc6;該網(wǎng)絡(luò)進行訓練,通過每一個視頻的輸入幀(圖像或光流)是一個單獨的實例,使用預(yù)訓練網(wǎng)絡(luò);在進行分類時,每一個圖像(或幀的光流)最初被視為獨立的;對于一個視頻的Nf幀生成Nf分類決定。
進一步地,所述的時空共生譯碼,包括通過共同出現(xiàn)的聯(lián)合的空間和時間特征,使用DCNNs方法通過計算共生結(jié)合空間和時間網(wǎng)絡(luò)的卷積層,具體地說,讓時空網(wǎng)絡(luò)的第n層的特征映射為和dn是特征映射的維數(shù)的數(shù)目,計算特征映射組合
和是指位置(i,j)上的空間和時間流的局部特征向量,進行矢量化操作,作為位置(i,j)的共生特征;因此,在每個空間位置的共生模式,外積運算捕獲的視覺運動,最大池應(yīng)用到所有的本地編碼向量;Pi,j創(chuàng)建最后的特征表示最后,L2標準化應(yīng)用于編碼向量;
時空雙線性DCNN特征結(jié)合fc6時空特征用于雙流早期融合,這使我們能夠結(jié)合局部和全局的空間和時間信息。
其中,所述的融合,包括如下步驟:
(1)早期融合
(2)使用兩個獨立的時序網(wǎng)絡(luò)和空間網(wǎng)絡(luò)So和的雙流網(wǎng)絡(luò)用于動作識別,在早期結(jié)合雙流的信息,通過融合fc6輸出,Sfc6和Tfc6,fc6是第一個全連接層,經(jīng)常用來從DCNNs中提取單特征;我們把這個網(wǎng)絡(luò)稱為雙流早融;
(3)進行早期融合,采用雙線性DCNN然后融合雙流的方法,空間和時間信息相結(jié)合;通過完全連接的層的組合原始數(shù)據(jù)預(yù)處理、確定分類計算對象、在計算對象上進行分類。
其中,所述的SVM分類器,其原理為:
設(shè)線性可分樣本集和為(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1}是類別標號,則
w·x+b=0
是SVM分類器的分類面方程;
在分類時,為了使分類面對所有樣本正確分類且分類間隔達到最大,需要滿足下面兩個條件:
Φ(x)=min(wTw)
yi(w·xi+b)-1≥0
通過解此約束優(yōu)化問題就可以得到最優(yōu)分類面,而過兩類樣本中離分類面最近的點且平行于最優(yōu)分類面的超平面上的訓練樣本就是使得公式中等號成立的那些特殊樣本,因為它們支撐了最優(yōu)分類面,因此被稱為支撐向量;將融合輸出作為特征向量輸入到SVM分類器之中,獲得最終分類結(jié)果。
附圖說明
圖1是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類的視頻數(shù)據(jù)集。
圖3是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的使用T-SNE可視化定性評價。
圖4是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的時空共生概念圖的方法。
圖5是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的早期融合策略示意圖。
圖6是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類實例定位圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的系統(tǒng)流程圖。主要包括數(shù)據(jù)輸入;時空雙流網(wǎng)絡(luò);融合;SVM分類器。
數(shù)據(jù)輸入包括圖像和光流信息,數(shù)據(jù)集由100種猴類視頻集組成;該數(shù)據(jù)集分為訓練集和測試集。在一定距離內(nèi)記錄猴類視頻,該數(shù)據(jù)集具有較大的挑戰(zhàn),如大規(guī)模的相機運動變化和相當大的姿態(tài)變化;對于每一個類(猴種)提供以下數(shù)據(jù):具有活動注釋的視頻剪輯,聲音剪輯,自動定位器檢測,以及分類和分布位置。
其中,每個視頻剪輯采用每秒5幀(FPS)的方式測試,,計算每5幀的光流來計算效率。
時空雙流網(wǎng)絡(luò),包括時間網(wǎng)絡(luò),空間網(wǎng)絡(luò),以及時空共生譯碼。
其中,時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò),包括
(1)時序網(wǎng)絡(luò)使用作為水平流Ox,豎直流Oy和光流的大小Omag的輸入結(jié)合形成一個單一的光學特征映射O∈Rh×w×3,其中h×w是特征映射(圖像)的大??;
(2)空間網(wǎng)絡(luò)使用RGB幀(圖像)作為輸入;
和都使用DCNN結(jié)構(gòu),由5個卷積層組成Sc1,Sc2,…,Sc5,其次是完全連接層Sfc6;該網(wǎng)絡(luò)進行訓練,通過每一個視頻的輸入幀(圖像或光流)是一個單獨的實例,使用預(yù)訓練網(wǎng)絡(luò);在進行分類時,每一個圖像(或幀的光流)最初被視為獨立的;對于一個視頻的Nf幀生成Nf分類決定。
其中,時空共生譯碼,包括通過共同出現(xiàn)的聯(lián)合的空間和時間特征,使用DCNNs方法通過計算共生結(jié)合空間和時間網(wǎng)絡(luò)的卷積層,具體地說,讓時空網(wǎng)絡(luò)的第n層的特征映射為和dn是特征映射的維數(shù)的數(shù)目,計算特征映射組合
和是指位置(i,j)上的空間和時間流的局部特征向量,矢量化操作,作為位置(i,j)的共生特征;因此,在每個空間位置的共生模式,外積運算捕獲的視覺運動,最大池應(yīng)用到所有的本地編碼向量;Pi,j創(chuàng)建最后的特征表示最后,L2標準化應(yīng)用于編碼向量;
時空雙線性DCNN特征結(jié)合fc6時空特征用于雙流早期融合,這使我們能夠結(jié)合局部和全局的空間和時間信息。
融合包括如下步驟:
(1)早期融合:使用兩個獨立的時序網(wǎng)絡(luò)和空間網(wǎng)絡(luò)So和的雙流網(wǎng)絡(luò)用于動作識別,在早期結(jié)合雙流的信息,通過融合fc6輸出,Sfc6和Tfc6,fc6是第一個全連接層,經(jīng)常用來從DCNNs中提取單特征;我們把這個網(wǎng)絡(luò)稱為雙流早融;
(2)進行早期融合,采用雙線性DCNN然后融合雙流的方法,空間和時間信息相結(jié)合;通過完全連接的層的組合原始數(shù)據(jù)預(yù)處理、確定分類計算對象、在計算對象上進行分類。
SVM分類器的原理為:
設(shè)線性可分樣本集和為(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1}是類別標號,則
w·x+b=0
是SVM分類器的分類面方程;
在分類時,為了使分類面對所有樣本正確分類且分類間隔達到最大,需要滿足下面兩個條件:
Φ(x)=min(wTw)
yi(w·xi+b)-1≥0
通過解此約束優(yōu)化問題就可以得到最優(yōu)分類面,而過兩類樣本中離分類面最近的點且平行于最優(yōu)分類面的超平面上的訓練樣本就是使得公式中等號成立的那些特殊樣本,因為它們支撐了最優(yōu)分類面,因此被稱為支撐向量;將融合輸出作為特征向量輸入到SVM分類器之中,獲得最終分類結(jié)果。
圖2是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類的視頻數(shù)據(jù)集。包括圖像和光流信息,數(shù)據(jù)集由100種猴類視頻集組成;該數(shù)據(jù)集分為訓練集和測試集。在一定距離內(nèi)記錄猴類視頻,該數(shù)據(jù)集具有較大的挑戰(zhàn),如大規(guī)模的相機運動變化和相當大的姿態(tài)變化;
圖3是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的使用T-SNE可視化定性評價?;诮稻S的可視化技術(shù)使用t-分布鄰域嵌入算法(t-SNE),可以看出,通過使用共生的方法較少的分離的集群形成,和分離的集群往往是更緊密的在一起,更好地利用時間信息。
圖4是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的時空共生概念圖的方法。包括通過共同出現(xiàn)的聯(lián)合的空間和時間特征,使用DCNNs方法通過計算共生結(jié)合空間和時間網(wǎng)絡(luò)的卷積層,具體地說,讓時空網(wǎng)絡(luò)的第n層的特征映射為和dn是特征映射的維數(shù)的數(shù)目,計算特征映射組合
和是指位置(i,j)上的空間和時間流的局部特征向量,矢量化操作,作為位置(i,j)的共生特征;因此,外積運算捕獲的視覺和運動在每個空間位置的共生模式,最大池被施加到所有的本地編碼向量;Pi,j創(chuàng)建最后的特征表示最后,L2標準化應(yīng)用于編碼向量;
時空雙線性DCNN特征結(jié)合fc6時空特征用于雙流早期融合,這使我們能夠結(jié)合局部和全局的空間和時間信息。
圖5是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的早期融合策略示意圖。融合包括如下步驟:
(1)早期融合
使用兩個獨立的時序網(wǎng)絡(luò)和空間網(wǎng)絡(luò)So和的雙流網(wǎng)絡(luò)用于動作識別,在早期結(jié)合兩個流的信息,通過融合fc6輸出,Sfc6和Tfc6,fc6是第一個全連接層,經(jīng)常用來從DCNNs中提取單特征;我們把這個修改網(wǎng)絡(luò)稱為雙流(早融);
(2)進行早期融合,通過完全連接的層的組合原始數(shù)據(jù)預(yù)處理、確定分類計算對象、在計算對象上進行分類;采用雙線性DCNN然后融合雙流的方法,空間和時間信息相結(jié)合。
圖6是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類實例定位圖。在大多數(shù)情況下,可以準確的定位到圖像中猴類的位置。但是當圖片中出現(xiàn)混淆的紋理,雜亂的物體和閉塞情況時,視頻圖像的定位發(fā)生錯誤。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應(yīng)視為本發(fā)明的保護范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。