1.一種基于注意力融合的視頻場景理解方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述視頻理解為行人動作識別,對應(yīng)行人視頻場景下的識別網(wǎng)絡(luò)為行人動作識別網(wǎng)絡(luò);
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述多維度注意力融合模塊包括通道預(yù)處理模塊、空間收縮采樣模塊、時間擴(kuò)展聚焦模塊以及多維特征計算模塊,所述通道預(yù)處理模塊、空間收縮采樣模塊、時間擴(kuò)展聚焦模塊分別用于獲取通道注意力、空間注意力、時間注意力,所述通道預(yù)處理模塊得到的輸出xc_out分別作為所述空間收縮采樣模塊、所述時間擴(kuò)展聚焦模塊的輸入;
4.根據(jù)權(quán)利要求3所述的方法,其特征在于:所述時間擴(kuò)展聚焦模塊的處理過程如下:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于:所述空間收縮采樣模塊的處理過程如下:
6.根據(jù)權(quán)利要求3所述的方法,其特征在于:所述多維度注意力融合模塊的輸入進(jìn)入所述通道預(yù)處理模塊后,處理過程如下:
7.根據(jù)權(quán)利要求2所述的方法,其特征在于:所述行人動作識別網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)為slowfast-rcnn的slow?path,所述多維度注意力融合模塊加入resnet-3d的每一個res-laye殘差層。
8.一種基于權(quán)利要求1-7任一項所述視頻場景理解方法的系統(tǒng),其特征在于:至少包含:
9.一種電子終端,其特征在于:包括:
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于:存儲了計算機(jī)程序,所述計算機(jī)程序被處理器調(diào)用以實現(xiàn):