一種基于注意力融合的視頻場景理解方法及系統(tǒng)

文檔序號：40526908發(fā)布日期：2024-12-31 13:36閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于注意力融合的視頻場景理解方法及系統(tǒng)

技術(shù)特征：

1.一種基于注意力融合的視頻場景理解方法，其特征在于：包括以下步驟：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于：所述視頻理解為行人動作識別，對應(yīng)行人視頻場景下的識別網(wǎng)絡(luò)為行人動作識別網(wǎng)絡(luò)；

3.根據(jù)權(quán)利要求1所述的方法，其特征在于：所述多維度注意力融合模塊包括通道預(yù)處理模塊、空間收縮采樣模塊、時間擴(kuò)展聚焦模塊以及多維特征計算模塊，所述通道預(yù)處理模塊、空間收縮采樣模塊、時間擴(kuò)展聚焦模塊分別用于獲取通道注意力、空間注意力、時間注意力，所述通道預(yù)處理模塊得到的輸出xc_out分別作為所述空間收縮采樣模塊、所述時間擴(kuò)展聚焦模塊的輸入；

4.根據(jù)權(quán)利要求3所述的方法，其特征在于：所述時間擴(kuò)展聚焦模塊的處理過程如下：

5.根據(jù)權(quán)利要求3所述的方法，其特征在于：所述空間收縮采樣模塊的處理過程如下：

6.根據(jù)權(quán)利要求3所述的方法，其特征在于：所述多維度注意力融合模塊的輸入進(jìn)入所述通道預(yù)處理模塊后，處理過程如下：

7.根據(jù)權(quán)利要求2所述的方法，其特征在于：所述行人動作識別網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)為slowfast-rcnn的slow?path，所述多維度注意力融合模塊加入resnet-3d的每一個res-laye殘差層。

8.一種基于權(quán)利要求1-7任一項所述視頻場景理解方法的系統(tǒng)，其特征在于：至少包含：

9.一種電子終端，其特征在于：包括：

10.一種計算機(jī)可讀存儲介質(zhì)，其特征在于：存儲了計算機(jī)程序，所述計算機(jī)程序被處理器調(diào)用以實現(xiàn)：

技術(shù)總結(jié)
本發(fā)明公開了一種基于注意力融合的視頻場景理解方法及系統(tǒng)，該方法將多維度注意力融合模塊加入骨干網(wǎng)絡(luò)構(gòu)建出行人視頻場景下的識別網(wǎng)絡(luò)，如行人動作識別網(wǎng)絡(luò)，其中，多維度注意力融合模塊是將通道，時間，空間三個維度獨立計算各自注意力再進(jìn)行融合；進(jìn)而獲取視頻數(shù)據(jù)集中每幀圖像的行人數(shù)據(jù)，再利用視頻數(shù)據(jù)集中每幀圖像的行人數(shù)據(jù)訓(xùn)練行人視頻場景下的識別網(wǎng)絡(luò)；最后，利用訓(xùn)練好的行人視頻場景下的識別網(wǎng)絡(luò)，對待檢測視頻進(jìn)行視頻理解，如輸出行人動作類型。本發(fā)明技術(shù)方案塊既單獨使用了注意力信息使得各類注意力信息最有效利用，又使注意力信息在時空兩個維度進(jìn)行了整合，得到更全面的信息，增強時序信息利用，提升視頻場景理解能力。

技術(shù)研發(fā)人員：張輝,吳讀桑,曹意宏,杜瑞,別克扎提·巴合提,劉航,王耀南,毛建旭
受保護(hù)的技術(shù)使用者：湖南大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于注意力融合的視頻場景理解方法及系統(tǒng)