本發(fā)明屬于視頻行為識別領(lǐng)域,尤其是一種基于雙路徑混合注意力網(wǎng)絡(luò)的視頻行為識別方法。
背景技術(shù):
1、計算機(jī)自動分析人的動作,從而更好地檢測物體,提高視頻動作識別的效率,成為計算機(jī)視覺領(lǐng)域的一個研究熱點(diǎn)。視頻中的人體動作分析與研究主要包括數(shù)據(jù)集選擇、人體目標(biāo)檢測、動作特征提取、動作分類、動作理解等。其中,針對視頻的人體行為識別研究取得了很大的成就,但仍存在如過于精確的定位、精確的跟蹤、對攝像機(jī)視點(diǎn)的極端敏感、噪聲、遮擋等諸多挑戰(zhàn)。
2、目前基于包括循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)、卷積神經(jīng)網(wǎng)絡(luò)(cnn)等深度學(xué)習(xí)的運(yùn)動識別算法可以根據(jù)不同的輸入類型進(jìn)行分類,主要分為兩大類:一類是根據(jù)輸入信號的類型進(jìn)行分類,另一類是根據(jù)輸入信號流的數(shù)量進(jìn)行分類,其中輸入信號流的數(shù)量可以分為單流、雙流和多流運(yùn)動識別模型,這三種模型的主要區(qū)別在于輸入數(shù)據(jù)的數(shù)量。上述方法一般都忽略了特征本身的重要性以及它們之間的相關(guān)性。注意機(jī)制可以通過學(xué)習(xí)人體的不同部位,從多個不同的角度進(jìn)行識別,但仍然存在著無法捕獲位置信息的不足,其捕獲能力及在小數(shù)據(jù)集上的表現(xiàn)均不如rnn和cnn?,F(xiàn)有技術(shù)所存在的上述問題,導(dǎo)致行為識別準(zhǔn)確率不高。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明是為了解決現(xiàn)有基于深度學(xué)習(xí)的行為識別準(zhǔn)確率不高的問題,提出了一種基于雙路徑混合注意力網(wǎng)絡(luò)的視頻行為識別方法。
2、本發(fā)明的技術(shù)解決方案是:一種基于雙路徑混合注意力網(wǎng)絡(luò)的視頻行為識別方法,是將視頻輸入到模型中進(jìn)行識別,所述模型包括低幀率慢速路徑和高幀率快速路徑,低幀率慢速路徑和高幀率快速路徑的輸出與預(yù)測模塊相接,所述低幀率慢速路徑和高幀率快速路徑均由視頻采集模塊、通道注意機(jī)制模塊及空間注意機(jī)制模塊構(gòu)成,按照如下方法進(jìn)行構(gòu)建:
3、步驟1.將視頻幀按照動作名稱進(jìn)行分類,將代表一個動作的視頻幀用該動作命名;
4、步驟2.將視頻輸入至低幀率慢速路徑進(jìn)行如下處理:
5、步驟2.1由視頻采集模塊按照設(shè)置的采樣頻率參數(shù)τ進(jìn)行低幀率采樣,采集總數(shù)為l的低幀特征圖sl∈rc×h×w,其中c是通道數(shù),h×w是特征的分辨率大小,記為{s1,s2,...,sl};
6、步驟2.2將低幀特征圖sl依次通過通道注意機(jī)制模塊scam和空間注意機(jī)制模塊ssam,得到重新校準(zhǔn)的慢速特征圖msl;
7、步驟2.2.1通道注意機(jī)制模塊scam首先將低幀特征圖依次通過平均池化和最大池化生成平均池化特征表示向量和最大池化特征表示向量為接著將這兩個空間特征表示向量放到共享的神經(jīng)網(wǎng)絡(luò)中,輸出后逐元素進(jìn)行求和得到慢速通道關(guān)注圖
8、步驟2.2.2慢速空間注意機(jī)制模塊ssam將慢速通道關(guān)注圖乘上低幀特征圖sl作為輸入,首先基于慢速通道關(guān)注圖的寬度和高度依次進(jìn)行全局最大池化和全局平均池化,分別得到全局最大池化慢速特征圖和全局平均池化慢速特征圖然后基于通道拼接著兩個慢速特征圖,并將慢速特征維數(shù)從h×w變?yōu)?×1;接下來,通過卷積核為7×7的卷積層和relu激活函數(shù)降低通道維數(shù)再恢復(fù)到原始維數(shù);最后,通過sigmoid激活函數(shù)生成慢速空間關(guān)注圖
9、步驟2.2.3將慢速通道關(guān)注圖和慢速空間關(guān)注圖經(jīng)過歸一化處理后進(jìn)行融合,得到在空間和通道維度上重新校準(zhǔn)的慢速特征圖msl;
10、步驟3.將視頻輸入至高幀率快速路徑進(jìn)行如下處理:
11、步驟3.1由視頻采集模塊按照設(shè)置的采樣頻率參數(shù)2τ進(jìn)行高幀率采樣,采集總數(shù)為n的高幀特征圖fn∈rc×h×w,其中c是通道數(shù),h×w是特征的分辨率大小,記為{f1,f2,...,fn};
12、步驟3.2將高幀特征圖fn依次通過通道注意機(jī)制模塊fcam和空間注意機(jī)制模塊fsam,得到重新校準(zhǔn)的快速特征圖mfn;
13、步驟3.2.1通道注意機(jī)制模塊fcam首先將高幀特征圖依次通過平均池化和最大池化生成平均池化特征表示向量和最大池化特征表示向量為接著將這兩個空間特征表示向量放到共享的神經(jīng)網(wǎng)絡(luò)中,輸出后逐元素進(jìn)行求和得到快速通道關(guān)注圖
14、步驟3.2.2快速空間注意機(jī)制模塊fsam將快速通道關(guān)注圖乘上高幀特征圖fn作為輸入,首先基于快速通道關(guān)注圖的寬度和高度依次進(jìn)行全局最大池化和全局平均池化,分別得到全局最大池化快速特征圖和全局平均池化快速特征圖然后基于通道拼接著兩個快速特征圖,并將快速特征維數(shù)從h×w變?yōu)?×1;接下來,通過卷積核為7×7的卷積層和relu激活函數(shù)降低通道維數(shù)再恢復(fù)到原始維數(shù);最后,通過sigmoid激活函數(shù)生成快速空間關(guān)注圖
15、步驟3.2.3將快速通道關(guān)注圖和快速空間關(guān)注圖經(jīng)過歸一化處理后進(jìn)行融合,得到在空間和通道維度上重新校準(zhǔn)的快速特征圖mfn;
16、步驟4.將重新校準(zhǔn)的慢速特征圖msl和重新校準(zhǔn)的快速特征圖mfn輸入至預(yù)測模塊進(jìn)行人體行為預(yù)測;
17、步驟5.訓(xùn)練網(wǎng)絡(luò),具體步驟如下:
18、步驟5.1:隨機(jī)初始化網(wǎng)絡(luò)參數(shù);
19、步驟5.2:開始訓(xùn)練整體網(wǎng)絡(luò),更新參數(shù);約定變量epoch記錄當(dāng)前網(wǎng)絡(luò)訓(xùn)練迭代次數(shù),所述epoch初始為0;
20、步驟5.3:計算這一輪迭代中的梯度,進(jìn)行反向傳播,通過adam優(yōu)化算法重新更新網(wǎng)絡(luò)參數(shù);
21、步驟5.4:本輪迭代結(jié)束,置epoch=epoch+1;當(dāng)epoch達(dá)到設(shè)定次數(shù)后,網(wǎng)絡(luò)停止訓(xùn)練,保存訓(xùn)練模型和參數(shù),模型構(gòu)建結(jié)束;否則再一次進(jìn)入步驟5.2,循環(huán)重復(fù)訓(xùn)練網(wǎng)絡(luò)。
22、本發(fā)明首先分別設(shè)置了慢速路徑和快速路徑,并在慢速路徑和快速路徑中分別加入通道注意機(jī)制和空間注意機(jī)制,使特征覆蓋了更多待識別物體的部分,以突出周邊環(huán)境的特征和作用,可以動態(tài)地生成不同的連接權(quán)重;其次,對訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)處理,將單獨(dú)放置的動作視頻幀放入相應(yīng)的動作文件夾中。通過一系列實(shí)驗(yàn)證明,本發(fā)明可以可以更好地關(guān)注特征信息,忽略其他信息,突出執(zhí)行動作的人的特征,從而更準(zhǔn)確地標(biāo)記動作,提高行為識別的準(zhǔn)確率。
1.一種基于雙路徑混合注意力網(wǎng)絡(luò)的視頻行為識別方法,是將視頻輸入到模型中進(jìn)行識別,其特征在于:所述模型包括低幀率慢速路徑和高幀率快速路徑,低幀率慢速路徑和高幀率快速路徑的輸出與預(yù)測模塊相接,所述低幀率慢速路徑和高幀率快速路徑均由視頻采集模塊、通道注意機(jī)制模塊及空間注意機(jī)制模塊構(gòu)成,按照如下方法進(jìn)行構(gòu)建: