基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng)

文檔序號(hào)：40614481發(fā)布日期：2025-01-07 21:02閱讀：11來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及行為識(shí)別，特別是涉及一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng)。

背景技術(shù)：

1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息，不必然構(gòu)成在先技術(shù)。

2、隨著智能眼鏡等可穿戴技術(shù)的廣泛應(yīng)用，以自我為中心(即第一視角)的視頻行為識(shí)別(video?action?recognition，var)正逐漸成為視頻行為識(shí)別領(lǐng)域的一個(gè)重大轉(zhuǎn)折點(diǎn)。這些設(shè)備從根本上改變了數(shù)據(jù)收集的方式，提供了第一人稱視角，這在增強(qiáng)現(xiàn)實(shí)和機(jī)器人技術(shù)等領(lǐng)域尤為重要。通過這種視角，系統(tǒng)可以更深入地了解用戶的交互行為，從而提升用戶體驗(yàn)，覆蓋從個(gè)人助理到醫(yī)療監(jiān)控以及互動(dòng)游戲等廣泛的應(yīng)用場(chǎng)景。

3、然而，第一視角視頻行為識(shí)別面臨著獨(dú)特的挑戰(zhàn)，特別是在開放集識(shí)別的背景下。開放集識(shí)別要求系統(tǒng)不僅能夠識(shí)別已知的動(dòng)作類別，還能檢測(cè)并標(biāo)記出從未見過的新動(dòng)作，將其歸為“未知”類別。這一要求源于封閉集環(huán)境的局限性，封閉集環(huán)境下的分類器通常僅在預(yù)定義的類別上進(jìn)行訓(xùn)練和測(cè)試，缺乏應(yīng)對(duì)新出現(xiàn)的、未曾見過的類別的能力。而在現(xiàn)實(shí)世界中，隨著技術(shù)的不斷發(fā)展和應(yīng)用的變化，新操作層出不窮，這對(duì)行為識(shí)別系統(tǒng)的適應(yīng)性提出了更高的要求。

4、當(dāng)前的自我視角視頻行為識(shí)別研究大多集中在封閉集場(chǎng)景上，因此常常無法有效處理開放集環(huán)境中的復(fù)雜性。這一缺陷進(jìn)一步強(qiáng)調(diào)了開發(fā)新的識(shí)別方法的必要性，使其能夠在識(shí)別范圍廣泛的操作時(shí)保持高精度和高可靠性，尤其是在遇到新穎且未見過的操作時(shí)。

5、將第三視角的視頻動(dòng)作識(shí)別方法直接應(yīng)用到第一視角行為識(shí)別上存在明顯的局限性。雖然第三視角的視頻動(dòng)作識(shí)別在大量研究、復(fù)雜模型和數(shù)據(jù)集開發(fā)的推動(dòng)下取得了顯著進(jìn)展，但這些方法難以直接應(yīng)用于第一視角視頻動(dòng)作識(shí)別。主要挑戰(zhàn)在于兩者在數(shù)據(jù)特征上的差異以及視角不同導(dǎo)致的對(duì)動(dòng)作上下文理解的不同。第一視角的視頻通常未經(jīng)預(yù)處理，并且由于視角的局限和運(yùn)動(dòng)模糊等原因，要求同時(shí)進(jìn)行動(dòng)作和物體的識(shí)別。例如，在處理“切菜”這一行為時(shí)，系統(tǒng)不僅需要識(shí)別動(dòng)詞“切”，還需識(shí)別名詞“蔬菜”，而這在第三視角的視頻動(dòng)作識(shí)別中通常并不需要如此細(xì)致的處理。因此，第一視角行為識(shí)別的方法需要進(jìn)一步發(fā)展，以克服這些獨(dú)特的挑戰(zhàn)。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述問題，本發(fā)明提出了一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng)，不僅可以識(shí)別視頻中的動(dòng)作和對(duì)象，還能夠評(píng)估這些識(shí)別結(jié)果的確定性，在應(yīng)對(duì)不確定性和未知?jiǎng)幼鲿r(shí)更具優(yōu)勢(shì)，顯著提高了開放集第一視角行為識(shí)別任務(wù)的準(zhǔn)確度，使得在開放環(huán)境中的應(yīng)用更加可靠。

2、為了實(shí)現(xiàn)上述目的，本發(fā)明采用如下技術(shù)方案：

3、第一方面，本發(fā)明提供一種基于不確定性估計(jì)的第一視角行為識(shí)別方法，包括以下步驟：

4、獲取第一視角視頻，對(duì)第一視角視頻進(jìn)行預(yù)處理，獲得訓(xùn)練樣本；

5、對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取，對(duì)不同階段的特征進(jìn)行整合，獲得第一特征；

6、對(duì)第一特征進(jìn)行分類預(yù)測(cè)，量化分類結(jié)果的不確定性，獲得分類的證據(jù)向量，定義第一損失函數(shù)，最小化模型預(yù)測(cè)的證據(jù)參數(shù)和真實(shí)情況的差異，獲得預(yù)測(cè)標(biāo)簽，定義第二損失函數(shù)，最小化預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之間的差異；

7、匯總損失函數(shù)，優(yōu)化模型參數(shù)，獲得訓(xùn)練好的行為識(shí)別模型。

8、作為可選擇的實(shí)施方式，對(duì)第一視角視頻進(jìn)行預(yù)處理，包括對(duì)獲取的第一視角視頻進(jìn)行真實(shí)標(biāo)簽的標(biāo)注。

9、作為可選擇的實(shí)施方式，對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取，具體為：

10、在每個(gè)特征提取階段，利用動(dòng)態(tài)位置嵌入捕獲視頻中的空間和時(shí)間位置信息，利用多頭關(guān)系聚合器聚合不同時(shí)間幀的關(guān)系信息，利用前饋網(wǎng)絡(luò)進(jìn)一步提取和強(qiáng)化特征。

11、作為可選擇的實(shí)施方式，共有四個(gè)特征提取階段，每個(gè)特征提取階段的特征提取尺度不同，通過整合不同階段的特征，獲得層次化的特征表示。

12、作為可選擇的實(shí)施方式，所述第一損失函數(shù)定義為：

13、

14、其中，表示狄利克雷集中參數(shù)在k個(gè)類別中的總和，代表證據(jù)的整體強(qiáng)度，是一個(gè)常數(shù)，log(αj)是對(duì)模型預(yù)測(cè)的證據(jù)參數(shù)αj的對(duì)數(shù)變換，tj是與動(dòng)作標(biāo)簽y相對(duì)應(yīng)的獨(dú)熱編碼向量中的二進(jìn)制指示器，j為分類類別，k代表類別數(shù)量。

15、作為可選擇的實(shí)施方式，所述第二損失函數(shù)定義為：

16、

17、其中，tj是與動(dòng)作標(biāo)簽y相對(duì)應(yīng)的獨(dú)熱編碼向量中的二進(jìn)制指示器，j為分類類別，k代表類別數(shù)量，是模型對(duì)于第j個(gè)類別的原始預(yù)測(cè)值。

18、第二方面，本發(fā)明提供一種基于不確定性估計(jì)的第一視角行為識(shí)別系統(tǒng)，包括：

19、數(shù)據(jù)獲取和預(yù)處理模塊，被配置為：獲取第一視角視頻，對(duì)第一視角視頻進(jìn)行預(yù)處理，獲得訓(xùn)練樣本；

20、特征提取模塊，被配置為：對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取，對(duì)不同階段的特征進(jìn)行整合，獲得第一特征；

21、分類模塊，被配置為：對(duì)第一特征進(jìn)行分類預(yù)測(cè)，量化分類結(jié)果的不確定性，獲得分類的證據(jù)向量，定義第一損失函數(shù)，最小化模型預(yù)測(cè)的證據(jù)參數(shù)和真實(shí)情況的差異，獲得預(yù)測(cè)標(biāo)簽，定義第二損失函數(shù)，最小化預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之間的差異；

22、模型訓(xùn)練模塊，被配置為：匯總損失函數(shù)，優(yōu)化模型參數(shù)，獲得訓(xùn)練好的行為識(shí)別模型。

23、第三方面，本發(fā)明提供一種電子設(shè)備，包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí)，完成第一方面所述的方法。

24、第四方面，本發(fā)明提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，用于存儲(chǔ)計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)，完成第一方面所述的方法。

25、第五方面，本發(fā)明提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)完成第一方面所述的方法。

26、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果為：

27、本公開提出一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng)，基于openear框架，能夠有效處理第一人稱視角下常見的多樣化且未經(jīng)策劃的內(nèi)容。通過多尺度的特征提取，能夠理解第一視角視頻中的復(fù)雜動(dòng)作，通過四個(gè)階段的特征提取過程，有效地捕捉到視頻中的局部細(xì)節(jié)和全局上下文信息。通過與雙頭證據(jù)深度網(wǎng)絡(luò)分類器相結(jié)合，達(dá)到對(duì)開放集的第一視角視頻動(dòng)作進(jìn)行可信的、具有動(dòng)名詞區(qū)分的識(shí)別的良好性能。不僅可以識(shí)別視頻中的動(dòng)作和對(duì)象，還能夠評(píng)估這些識(shí)別結(jié)果的確定性。這種能力使得模型在應(yīng)對(duì)不確定性和未知?jiǎng)幼鲿r(shí)更具優(yōu)勢(shì)，在復(fù)雜多變的環(huán)境中能夠保持較高的識(shí)別準(zhǔn)確性。顯著提高了開放集第一視角行為識(shí)別任務(wù)的準(zhǔn)確度，使得在開放環(huán)境中的應(yīng)用更加可靠。

28、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。

技術(shù)特征：

1.基于不確定性估計(jì)的第一視角行為識(shí)別方法，其特征在于，包括以下步驟：

2.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法，其特征在于，對(duì)第一視角視頻進(jìn)行預(yù)處理，包括對(duì)獲取的第一視角視頻進(jìn)行真實(shí)標(biāo)簽的標(biāo)注。

3.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法，其特征在于，對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取，具體為：

4.如權(quán)利要求3所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法，其特征在于，共有四個(gè)特征提取階段，每個(gè)特征提取階段的特征提取尺度不同，通過整合不同階段的特征，獲得層次化的特征表示。

5.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法，其特征在于，所述第一損失函數(shù)定義為：

6.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法，其特征在于，所述第二損失函數(shù)定義為：

7.基于不確定性估計(jì)的第一視角行為識(shí)別系統(tǒng)，其特征在于，包括：

8.一種電子設(shè)備，其特征在于，包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí)，完成權(quán)利要求1-6任一項(xiàng)所述的方法。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，用于存儲(chǔ)計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)，完成權(quán)利要求1-6任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)完成權(quán)利要求1-6任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本發(fā)明屬于行為識(shí)別技術(shù)領(lǐng)域，公開了一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng)，包括獲取第一視角視頻，對(duì)第一視角視頻進(jìn)行預(yù)處理，獲得訓(xùn)練樣本；對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取，對(duì)不同階段的特征進(jìn)行整合，獲得第一特征；對(duì)第一特征進(jìn)行分類預(yù)測(cè)，量化分類結(jié)果的不確定性，獲得分類的證據(jù)向量，定義第一損失函數(shù)，最小化模型預(yù)測(cè)的證據(jù)參數(shù)和真實(shí)情況的差異，獲得預(yù)測(cè)標(biāo)簽，定義第二損失函數(shù)，最小化預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之間的差異；匯總損失函數(shù)，優(yōu)化模型參數(shù)，獲得訓(xùn)練好的行為識(shí)別模型。本發(fā)明在應(yīng)對(duì)不確定性和未知?jiǎng)幼鲿r(shí)更具優(yōu)勢(shì)，顯著提高了開放集第一視角行為識(shí)別任務(wù)的準(zhǔn)確度，使得在開放環(huán)境中的應(yīng)用更加可靠。

技術(shù)研發(fā)人員：劉萌,鄒沂杉,聶禮強(qiáng),劉慧,關(guān)惟俐,宋雪萌,郭杰,郭洋洋
受保護(hù)的技術(shù)使用者：山東建筑大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉萌,鄒沂杉,聶禮強(qiáng),劉慧,關(guān)惟俐,宋雪萌,郭杰,郭洋洋
技術(shù)所有人：山東建筑大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng)