欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于注意力融合的視頻場(chǎng)景理解方法及系統(tǒng)

文檔序號(hào):40526908發(fā)布日期:2024-12-31 13:36閱讀:8來(lái)源:國(guó)知局
一種基于注意力融合的視頻場(chǎng)景理解方法及系統(tǒng)

本發(fā)明屬于行人圖像/視頻識(shí)別,具體涉及一種基于注意力融合的視頻場(chǎng)景理解方法及系統(tǒng)。


背景技術(shù):

1、視頻場(chǎng)景理解是計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域中的一個(gè)重要課題,涉及從視頻中提取和解釋視覺(jué)信息,以實(shí)現(xiàn)對(duì)視頻內(nèi)容的理解和分析,包括目標(biāo)檢測(cè)、目標(biāo)跟蹤、行為識(shí)別、場(chǎng)景分割等多個(gè)層面的技術(shù)和任務(wù)。

2、posec3d是視頻場(chǎng)景理解常用網(wǎng)絡(luò),posec3d采用了基于三維卷積神經(jīng)網(wǎng)絡(luò)(3dcnn)的架構(gòu),旨在處理視頻數(shù)據(jù)中的時(shí)空信息,從而進(jìn)行視頻場(chǎng)景理解和分析人體姿態(tài)。posec3d在處理視頻中的動(dòng)態(tài)人體姿態(tài)時(shí)具備更加高效和準(zhǔn)確特性,適用于需要長(zhǎng)時(shí)間動(dòng)作識(shí)別和復(fù)雜動(dòng)作捕捉的應(yīng)用場(chǎng)景。其首先通過(guò)目標(biāo)檢測(cè)網(wǎng)絡(luò)得到僅包含人體的標(biāo)記框序列,對(duì)視頻序列進(jìn)行幀提取和規(guī)范化處理,利用三維卷積層,對(duì)視頻幀進(jìn)行特征提取,生成人體的關(guān)鍵點(diǎn)位置;再對(duì)網(wǎng)絡(luò)輸出的人體關(guān)鍵點(diǎn)進(jìn)行平滑和校正,以提高姿態(tài)估計(jì)的準(zhǔn)確性和魯棒性。最后在姿態(tài)估計(jì)的基礎(chǔ)上,進(jìn)一步分析人體姿態(tài)的變化,以識(shí)別特定的人體動(dòng)作或行為模式。

3、posec3d在處理關(guān)鍵點(diǎn)時(shí),采用的骨干網(wǎng)絡(luò)為3d-cnn網(wǎng)絡(luò),3d-cnn在設(shè)計(jì)時(shí)通常假定視頻幀之間的時(shí)間間隔是固定的,然而,這在實(shí)際應(yīng)用中可能不總是成立。且3d-cnn通常將時(shí)間視為另一個(gè)空間維度來(lái)處理,沒(méi)有特別優(yōu)化以理解時(shí)間上的復(fù)雜變化,因此在面對(duì)非線性運(yùn)動(dòng)、快速變化的場(chǎng)景中時(shí)不足以捕捉更復(fù)雜的時(shí)間動(dòng)態(tài)。同時(shí)由于動(dòng)作識(shí)別要求對(duì)時(shí)間維度的信息充分利用,沒(méi)有專門設(shè)計(jì)針對(duì)時(shí)間維度的信息處理模塊,使得posec3d仍有提升的空間。

4、在骨干網(wǎng)絡(luò)中添加數(shù)個(gè)專門設(shè)計(jì)的時(shí)間注意力模塊,能在增加少數(shù)參數(shù)的情況下增強(qiáng)模型對(duì)視頻中時(shí)間序列信息的處理能力,從而優(yōu)化姿態(tài)識(shí)別的精確度和效率。cbam(convolutional?blockattention?module)是一種用于卷積神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制模塊,它通過(guò)聯(lián)合使用通道注意力和空間注意力來(lái)提升網(wǎng)絡(luò)的表示能力。cbam模塊首先通過(guò)通道注意力模塊對(duì)輸入特征圖的不同通道進(jìn)行加權(quán),突出重要特征通道,然后通過(guò)空間注意力模塊對(duì)特征圖的不同空間位置進(jìn)行加權(quán),強(qiáng)調(diào)重要的空間區(qū)域。

5、然而,cbam模塊在處理長(zhǎng)時(shí)間序列數(shù)據(jù)時(shí),可能無(wú)法充分捕捉全局的時(shí)間依賴性,因?yàn)槠湓O(shè)計(jì)主要集中在通道和空間維度的注意力,缺乏對(duì)時(shí)序信息的建模和利用。同時(shí)將cbam中的卷積擴(kuò)展到3d的3d-cbam,由于使用了3d卷積導(dǎo)致參數(shù)量顯著增多,同時(shí)將時(shí)間維度與通道或空間維度的信息混合之后用相同的方法處理,同樣導(dǎo)致對(duì)時(shí)序信息的低效利用。

6、上述技術(shù)障礙導(dǎo)致了視頻場(chǎng)景理解、行人行為技術(shù)還有待進(jìn)一步提升。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是克服現(xiàn)有技術(shù)中對(duì)視頻的時(shí)間序列信息的處理能力有待提升,增強(qiáng)時(shí)序信息利用,進(jìn)而提升視頻場(chǎng)景理解能力的問(wèn)題,進(jìn)而提供一種基于注意力融合的視頻場(chǎng)景理解方法及系統(tǒng)。其中,本發(fā)明技術(shù)方案提出了一種全新的多維度注意力融合模塊,并將其融入骨干網(wǎng)絡(luò)中構(gòu)建出行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò),該多維度注意力融合模塊將通道,時(shí)間,空間三個(gè)維度獨(dú)立計(jì)算各自注意力,再融合通道注意力、時(shí)間注意力以及空間注意力信息,既單獨(dú)使用了注意力信息使得各類注意力信息最有效利用,又使注意力信息在時(shí)空兩個(gè)維度進(jìn)行了整合,得到更全面的信息,上述網(wǎng)絡(luò)在行人動(dòng)作識(shí)別應(yīng)用上表現(xiàn)尤其突出。

2、為此,本發(fā)明提供如下技術(shù)方案:

3、一方面,本發(fā)明提供的一種基于注意力融合的視頻場(chǎng)景理解方法,包括以下步驟:

4、將多維度注意力融合模塊加入骨干網(wǎng)絡(luò)構(gòu)建出行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò),所述多維度注意力融合模塊是將通道,時(shí)間,空間三個(gè)維度獨(dú)立計(jì)算各自注意力,再融合通道注意力、時(shí)間注意力以及空間注意力信息;

5、獲取視頻數(shù)據(jù)集中每幀圖像的行人數(shù)據(jù),進(jìn)而利用視頻數(shù)據(jù)集中每幀圖像的行人數(shù)據(jù)訓(xùn)練所述行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò)得到視頻理解的內(nèi)容;

6、利用訓(xùn)練好的所述行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò)對(duì)待檢測(cè)的視頻進(jìn)行視頻理解;

7、其中,根據(jù)視頻理解的目標(biāo)設(shè)置所述行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò)的輸入、輸出數(shù)據(jù),輸入數(shù)據(jù)對(duì)應(yīng)行人數(shù)據(jù),輸出數(shù)據(jù)為視頻理解的內(nèi)容。

8、進(jìn)一步可選的,所述視頻理解為行人動(dòng)作識(shí)別,對(duì)應(yīng)行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò)為行人動(dòng)作識(shí)別網(wǎng)絡(luò);

9、其中,所述行人數(shù)據(jù)為基于行人關(guān)鍵點(diǎn)姿態(tài)數(shù)據(jù)整合的3d體積熱圖,行人關(guān)鍵點(diǎn)表示人體關(guān)節(jié)位置,所述行人關(guān)鍵點(diǎn)姿態(tài)數(shù)據(jù)包括關(guān)節(jié)位置以及關(guān)節(jié)連線表示的肢體;所述行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò)的輸出數(shù)據(jù)為行人動(dòng)作類型。其中,行人動(dòng)作類別的具體內(nèi)容是人為設(shè)定的,根據(jù)識(shí)別需求進(jìn)行設(shè)置,如行走、跑步等。

10、本發(fā)明技術(shù)方案將通道,時(shí)間,空間三個(gè)維度的信息獨(dú)立處理,并分別計(jì)算注意力信息。再通過(guò)特征融合統(tǒng)一利用注意力信息。具體來(lái)說(shuō),首先輸入經(jīng)過(guò)通道注意力模塊,經(jīng)過(guò)注意力計(jì)算之后的輸出同時(shí)經(jīng)過(guò)空間注意力模塊和時(shí)間注意力模塊,空間注意力模塊和時(shí)間注意力模塊各自進(jìn)行注意力計(jì)算,最后三個(gè)模塊的注意力信息會(huì)在特征融合模塊進(jìn)行注意力信息融合計(jì)算得到模塊的最終輸出。

11、進(jìn)一步可選的,所述多維度注意力融合模塊包括通道預(yù)處理模塊、空間收縮采樣模塊、時(shí)間擴(kuò)展聚焦模塊以及多維特征計(jì)算模塊,所述通道預(yù)處理模塊、空間收縮采樣模塊、時(shí)間擴(kuò)展聚焦模塊分別用于獲取通道注意力、空間注意力、時(shí)間注意力,所述通道預(yù)處理模塊得到的輸出xc_out分別作為所述空間收縮采樣模塊、所述時(shí)間擴(kuò)展聚焦模塊的輸入;

12、其中,所述多維度注意力融合模塊用于融合通道注意力、時(shí)間注意力以及空間注意力信息,處理過(guò)程為:

13、將所述空間收縮采樣模塊的輸出xsa與所述時(shí)間擴(kuò)展聚焦模塊的輸出xta分別乘輸出xc_out得到空間注意力信息的激活輸出xs_out、時(shí)間注意力的激活輸出xt_out;以及輸出xsa與輸出xta相乘得到時(shí)空注意力信息xsta,再乘輸出xc_out得到輸出xst_out;最后將xs_out、xt_out、xst_out按預(yù)設(shè)權(quán)重比例加權(quán)作為所述多維特征計(jì)算模塊的輸出,即所述多維度注意力融合模塊的輸出。

14、本發(fā)明技術(shù)方案通過(guò)多維度注意力融合模塊,使得通道注意力與時(shí)間注意力、空間注意力得到融合,同時(shí),還將時(shí)間注意力與空間注意力進(jìn)行融合得到時(shí)空注意力,最終將xs_out、xt_out、xst_out按預(yù)設(shè)權(quán)重比例加權(quán),使得本發(fā)明技術(shù)方案既單獨(dú)使用了注意力信息,使得注意力信息最有效利用,又使注意力信息在時(shí)空兩個(gè)維度進(jìn)行了整合,得到更全面的信息。

15、進(jìn)一步可選的,所述時(shí)間擴(kuò)展聚焦模塊的處理過(guò)程如下:

16、將輸入xc_out的空間信息逐幀擴(kuò)展到時(shí)間通道得到xt;其中,時(shí)間擴(kuò)展聚焦模塊中的一個(gè)子模塊,即時(shí)間信息融合擴(kuò)展模塊將輸入xc_our的空間信息逐幀擴(kuò)展到時(shí)間通道得到xt,具體實(shí)現(xiàn)過(guò)程是:“將每一幀,即空間維度的信息分為數(shù)個(gè)2乘2的小塊,并將小塊相同位置的像素拼接在一起,得到四個(gè)拼接后的子幀,隨后將四個(gè)拼接后的子幀順序拼接,完成單幀內(nèi)的信息融合。再按時(shí)間維度的順序?qū)⒏鱾€(gè)單幀信息融合的結(jié)果進(jìn)行拼接;

17、再通過(guò)3d平均池化和3d最大池化分別得到xt_avg、xt_max;

18、接著,通過(guò)一個(gè)共享權(quán)重的mlp層將xt_avg、xt_max進(jìn)行逐元素相加,再通過(guò)sigmoid激活函數(shù)得到輸出xta,即時(shí)間注意力信息;其中,所述mlp層由兩個(gè)1d卷積和relu函數(shù)組成。

19、本發(fā)明技術(shù)方案提供的時(shí)間擴(kuò)展聚焦模塊將空間的信息集中到時(shí)間維度,避免有效信息的丟失。此外,將cbam模塊中的共享權(quán)重的mlp由2d卷積改進(jìn)為1d卷積,降低計(jì)算量的同時(shí)隔絕了其他維度的信息,使注意力信息更為集中在時(shí)間維度中。

20、進(jìn)一步可選的,所述空間收縮采樣模塊的處理過(guò)程如下:

21、將輸入xc_out通過(guò)平均池化和最大池化得到xs_avg、xs_max;

22、再將xs_avg、xs_max拼接得到xs;

23、最后,通過(guò)膨脹卷積和sigmoid激活函數(shù)得到輸出xsa,即空間注意力信息。

24、進(jìn)一步可選的,所述多維度注意力融合模塊的輸入進(jìn)入通道預(yù)處理模塊后,處理過(guò)程如下:

25、先通過(guò)3d平均池化和3d最大池化分別得到xc_avg、xc_max∈rb×c×1×1×1;

26、隨后通過(guò)一個(gè)共享權(quán)重的mlp層將xc_avg、xc_max進(jìn)行逐元素相加,再通過(guò)sigmoid激活函數(shù)得到通道注意力信息xca;

27、最后,通道注意力信息xca乘輸入x得到輸出xc_out。

28、本發(fā)明技術(shù)方案提供的通道預(yù)處理模塊將cbam模塊中的共享權(quán)重的mlp由2d卷積改進(jìn)為1d卷積,降低計(jì)算量的同時(shí)隔絕了其他維度的信息,使注意力信息更為集中在通道維度中。

29、此外,在一些實(shí)現(xiàn)方式中,一種基于注意力融合的視頻場(chǎng)景理解方法,包括以下步驟:

30、步驟1:建立關(guān)于行人行為的視頻數(shù)據(jù)集以及建立行人圖像數(shù)據(jù)集;

31、步驟2:利用所述行人圖像數(shù)據(jù)集訓(xùn)練行人關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)得到行人檢測(cè)模型,其中,所述行人檢測(cè)模型的輸入為行人圖像,輸出為行人的邊界框;

32、步驟3:利用所述行人檢測(cè)模型對(duì)視頻數(shù)據(jù)集進(jìn)行逐幀識(shí)別得到每一幀圖像的行人識(shí)別結(jié)果,并基于所述行人識(shí)別結(jié)果識(shí)別行人關(guān)鍵點(diǎn)的姿態(tài),行人關(guān)鍵點(diǎn)表示人體關(guān)節(jié)的位置,包括關(guān)節(jié)位置以及關(guān)節(jié)連線表示的肢體;

33、即通過(guò)構(gòu)建的行人檢測(cè)模型進(jìn)行行人檢測(cè);

34、步驟4:將多維度注意力融合模塊加入骨干網(wǎng)絡(luò)構(gòu)建出行人動(dòng)作識(shí)別網(wǎng)絡(luò),再利用視頻數(shù)據(jù)的每一幀圖像的行人關(guān)鍵點(diǎn)姿態(tài)數(shù)據(jù)整合的3d體積熱圖訓(xùn)練所述行人動(dòng)作識(shí)別網(wǎng)絡(luò);

35、其中,所述行人動(dòng)作識(shí)別網(wǎng)絡(luò)的輸入為基于行人關(guān)鍵點(diǎn)姿態(tài)數(shù)據(jù)整合的3d體積熱圖;輸出為行人動(dòng)作類別,即為視頻理解的內(nèi)容;

36、步驟5:將待檢測(cè)視頻輸入到所述行人檢測(cè)模型并進(jìn)行行人關(guān)鍵點(diǎn)識(shí)別,再將所述行人關(guān)鍵點(diǎn)的識(shí)別結(jié)果輸入所述行人動(dòng)作識(shí)別網(wǎng)絡(luò)得到動(dòng)作類別。

37、進(jìn)一步可選的,所述行人動(dòng)作識(shí)別網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)為slow?fast-rcnn的slowpath,所述多維度注意力融合模塊加入resnet-3d的每一個(gè)res-laye殘差層。

38、二方面,本發(fā)明提供的一種基于所述視頻場(chǎng)景理解方法的系統(tǒng),至少包含:

39、行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò)構(gòu)建模塊,用于將多維度注意力融合模塊加入骨干網(wǎng)絡(luò)構(gòu)建構(gòu)建出行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò),所述多維度注意力融合模塊是將通道,時(shí)間,空間三個(gè)維度獨(dú)立計(jì)算各自注意力,再融合通道注意力、時(shí)間注意力以及空間注意力信息;

40、行人數(shù)據(jù)獲取模塊,用于獲取視頻數(shù)據(jù)集中每幀圖像的行人數(shù)據(jù);

41、訓(xùn)練模塊,用于利用視頻數(shù)據(jù)集中每幀圖像的行人數(shù)據(jù)訓(xùn)練所述行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò)得到視頻理解的內(nèi)容;

42、檢測(cè)模塊,用于利用訓(xùn)練好的所述行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò)對(duì)待檢測(cè)的視頻進(jìn)行視頻理解;

43、其中,根據(jù)視頻理解的目標(biāo)設(shè)置所述行人視頻場(chǎng)景下的識(shí)別網(wǎng)絡(luò)的輸入、輸出數(shù)據(jù),輸入數(shù)據(jù)對(duì)應(yīng)行人數(shù)據(jù),輸出數(shù)據(jù)為視頻理解的內(nèi)容。

44、三方面,本發(fā)明提供的一種電子終端,包括:

45、一個(gè)或多個(gè)處理器;

46、存儲(chǔ)了一個(gè)或多個(gè)計(jì)算機(jī)程序的存儲(chǔ)器;

47、其中,所述處理器調(diào)用所述計(jì)算機(jī)程序以實(shí)現(xiàn):所述視頻場(chǎng)景理解方法。

48、四方面,本發(fā)明提供的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)了計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器調(diào)用以實(shí)現(xiàn):所述視頻場(chǎng)景理解方法。

49、有益效果

50、與現(xiàn)有方法相比,本發(fā)明的優(yōu)點(diǎn)有:

51、本發(fā)明提供的一種基于注意力融合的視頻場(chǎng)景理解方法提出了一種全新的多維度注意力融合模塊,并將其加入骨干網(wǎng)絡(luò)構(gòu)建出了全新的行人動(dòng)作識(shí)別網(wǎng)絡(luò),該多維度注意力融合模塊將通道,時(shí)間,空間三個(gè)維度的信息獨(dú)立處理,即三個(gè)不同的維度采用各自的模塊單獨(dú)計(jì)算注意力,每個(gè)維度的注意力信息側(cè)重不同,單獨(dú)處理能夠使注意力信息更加有效;同時(shí)在最后將時(shí)間和空間注意力信息結(jié)合成為時(shí)空注意力信息,避免單一維度的注意力信息在輸出中的占比過(guò)大,提升了對(duì)視頻的時(shí)間序列信息的處理能力,充分有效利用時(shí)序信息,最終提升了提升視頻場(chǎng)景理解能力。

52、相較于現(xiàn)有的cbam,本發(fā)明提出的mdaf將數(shù)據(jù)從2d擴(kuò)展到了3d,可以實(shí)現(xiàn)視頻數(shù)據(jù)的處理,同時(shí)本發(fā)明相較cbam增加了時(shí)間擴(kuò)展聚焦模塊,專門用于處理時(shí)序信息,cbam用于處理2d的信息,不具備利用時(shí)序信息的能力。

53、且本發(fā)明技術(shù)方案不僅僅是范圍三個(gè)維度進(jìn)行新處理,還針對(duì)每個(gè)維度信息的特征,采用了不同的結(jié)構(gòu)對(duì)各個(gè)維度的信息進(jìn)行處理,同時(shí)有多維特征計(jì)算模塊,通過(guò)自學(xué)習(xí)的權(quán)重來(lái)平衡各個(gè)維度之間的有效信息,從而保證了識(shí)別結(jié)果的可靠性。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
思茅市| 政和县| 宜兰市| 七台河市| 夹江县| 濉溪县| 叶城县| 阿拉善左旗| 崇义县| 田东县| 叶城县| 甘孜县| 罗甸县| 哈尔滨市| 南部县| 临城县| 洛浦县| 进贤县| 金阳县| 喀什市| 竹北市| 镇坪县| 本溪市| 旬邑县| 巴楚县| 康马县| 中宁县| 固原市| 平远县| 青岛市| 肃南| 开阳县| 台东市| 平利县| 沈阳市| 屏山县| 区。| 开平市| 新安县| 耿马| 津市市|