本發(fā)明涉及視頻分類領(lǐng)域,尤其涉及一種基于video?swin?transformer的視頻分類識別方法。
背景技術(shù):
1、視頻分類模型是一種機器學習模型,專門用于識別視頻內(nèi)容。這種模型通過分析視頻幀以及幀之間的時空關(guān)系,來識別視頻中展示的動作或活動。視頻分類模型在訓練時,會在一組獨特的類別(如不同的動作或活動)的視頻數(shù)據(jù)集上進行訓練,這些類別可以是人類動作識別,如奔跑、鼓掌、揮手等。模型的輸入是視頻幀,輸出則是每一類在視頻中表示的概率。與圖像分類模型相似,視頻分類模型也使用圖像作為輸入來預測這些圖像屬于預定義類的概率,但視頻分類模型還會處理相鄰幀之間的時空關(guān)系,以識別視頻中的動作。
2、現(xiàn)有的視頻分類模型如transformer模型存在缺陷,它雖然能夠準確的提取圖像中廣泛分布的物體特征,但是其計算所需要的資源消耗與運行時內(nèi)存需求都比較大,在需要處理的圖像分辨率更大時更是如此。并且,對于圖像中小物體的檢測性能并不理想。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于video?swin?transformer的視頻分類識別方法,從而解決現(xiàn)有技術(shù)中存在的前述問題。
2、為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
3、一種基于video?swin?transformer的視頻分類識別方法,包括以下步驟:
4、s100、準備待識別的數(shù)據(jù)集;
5、s200、對所述數(shù)據(jù)集進行預處理、并將特征圖信息進入網(wǎng)絡塊,所述特征圖進行多尺度融合模塊;
6、s300、模型使用i3d分類頭,對8個類別進行最終的分類;
7、s400、根據(jù)所述模型的分類結(jié)果繪制混淆矩陣,并對所述模型分類錯誤的樣本進行重新分類或調(diào)整分類邊界。
8、在一些具體實施例中,所述步驟s100的具體方法為:
9、所述數(shù)據(jù)集采用kinetic400中選取8類行為動作視頻作為實驗數(shù)據(jù)集,每個類別實驗集300個30fps視頻,測試集40個30fps視頻,每個視頻長度約為10s,視頻采用mp4格式。
10、在一些具體實施例中,所述步驟s200的具體方法為:
11、首先進行所述數(shù)據(jù)集預處理,進行線性嵌入層使用3d卷積,調(diào)整模型的特征圖尺寸;所述特征圖信息進入四個網(wǎng)絡塊中,每個網(wǎng)絡塊包括自注意力模塊和下采樣模塊。
12、在一些具體實施例中,所述步驟s200的具體方法還包括:
13、所述自注意力模塊包括滑動窗口與非滑動窗口;
14、所述自注意力模塊能在不增加太多計算資源的同時有效建立特征圖之間信息聯(lián)系;所述下采樣模塊采用大核卷積與inverted?bottleneck架構(gòu)減小模型特征圖尺寸同時調(diào)整通道數(shù);所述特征圖進行多尺度融合模塊,選擇模型不同大小的所述特征圖信息進行融合使模型能辨識不同尺寸的物體。
15、在一些具體實施例中,所述步驟s400的具體方法還包括:
16、基于所述混淆矩陣計算模型準確率、精確率、召回率指標,這些指標能夠從不同角度反映模型的性能。
17、在一些具體實施例中,所述下采樣模塊用于全局信息的特征提取,縮小圖像特征圖尺寸的同時,過濾掉冗余特征信息,篩選關(guān)鍵信息;并在網(wǎng)絡中加入多尺度時空特征信息融合,提升模型對小物體的檢測能力,加強模型的特征融合性能;最后對模型進行簡化處理。
18、在一些具體實施例中,還包括:自注意力機制模塊;
19、所述自注意力機制模塊用于將所有傳入數(shù)據(jù)的像素級別信息進行編碼,然后關(guān)注它們的特征序列信息之間的關(guān)系,以此建立一個關(guān)聯(lián)全局信息的網(wǎng)絡。
20、在一些具體實施例中,還包括:多尺度特征信息融合模塊;
21、所述多尺度特征信息融合模塊,用于針對物體檢測中的多尺度問題,在基本不增加計算資源的前提下,提升模型對小物體的檢測能力。
22、本發(fā)明的有益效果是:本發(fā)明公開了一種基于video?swin?transformer的視頻分類識別方法,包括以下步驟:準備待識別的數(shù)據(jù)集;對數(shù)據(jù)集進行預處理、并將特征圖信息進入網(wǎng)絡塊,特征圖進行多尺度融合模塊;模型使用i3d分類頭,對8個類別進行最終的分類;根據(jù)模型的分類結(jié)果繪制混淆矩陣,并對模型分類錯誤的樣本進行重新分類或調(diào)整分類邊界。本發(fā)明的模型采用了vdieo?swin?transformer的滑動窗口設計,這使得模型能夠跨窗口學習特征信息,較多的減少了計算中的參數(shù)量。并且,層級化的模型能夠處理超分辨率的圖片信息,也減少了計算資源的消耗。該模型增加了一個時間維度t,時間維度用于捕獲傳入視頻的連續(xù)時間幀信息,將窗口化注意力的作用范圍從空間領(lǐng)域擴展到時空領(lǐng)域。本發(fā)明的模型在運行效率上超越了以前的時空分解建模的模型,因為它通過利用視頻固有的時空局部性,在時空距離上彼此更接近的像素更有可能相互關(guān)聯(lián),利用了這一假設偏執(zhí)達到了更高的建模效率。由于使用非重疊的窗口化設計,因此原始的滑動窗口設計也被重新的定義了,以符合時空兩個作用維度的信息。本發(fā)明能有效減少網(wǎng)絡訓練過程中信息的丟失,保留有效信息。并且在不增加計算復雜度的前提下,提升模型對小物體的檢測能力。對模型進行輕量化,減少了模型的深度,在模型參數(shù)量減少一半的同時增加模型性能。
1.一種基于video?swin?transformer的視頻分類識別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于video?swin?transformer的視頻分類識別方法,其特征在于,
3.根據(jù)權(quán)利要求2所述的基于video?swin?transformer的視頻分類識別方法,其特征在于,
4.根據(jù)權(quán)利要求3所述的基于video?swin?transformer的視頻分類識別方法,其特征在于,
5.根據(jù)權(quán)利要求4所述的基于video?swin?transformer的視頻分類識別方法,其特征在于,
6.根據(jù)權(quán)利要求5所述的基于video?swin?transformer的視頻分類識別方法,其特征在于,
7.根據(jù)權(quán)利要求6所述的基于video?swin?transformer的視頻分類識別方法,其特征在于,
8.根據(jù)權(quán)利要求7所述的基于video?swin?transformer的視頻分類識別方法,其特征在于,