欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng)

文檔序號(hào):40614481發(fā)布日期:2025-01-07 21:02閱讀:11來源:國知局
基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng)

本發(fā)明涉及行為識(shí)別,特別是涉及一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng)。


背景技術(shù):

1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。

2、隨著智能眼鏡等可穿戴技術(shù)的廣泛應(yīng)用,以自我為中心(即第一視角)的視頻行為識(shí)別(video?action?recognition,var)正逐漸成為視頻行為識(shí)別領(lǐng)域的一個(gè)重大轉(zhuǎn)折點(diǎn)。這些設(shè)備從根本上改變了數(shù)據(jù)收集的方式,提供了第一人稱視角,這在增強(qiáng)現(xiàn)實(shí)和機(jī)器人技術(shù)等領(lǐng)域尤為重要。通過這種視角,系統(tǒng)可以更深入地了解用戶的交互行為,從而提升用戶體驗(yàn),覆蓋從個(gè)人助理到醫(yī)療監(jiān)控以及互動(dòng)游戲等廣泛的應(yīng)用場(chǎng)景。

3、然而,第一視角視頻行為識(shí)別面臨著獨(dú)特的挑戰(zhàn),特別是在開放集識(shí)別的背景下。開放集識(shí)別要求系統(tǒng)不僅能夠識(shí)別已知的動(dòng)作類別,還能檢測(cè)并標(biāo)記出從未見過的新動(dòng)作,將其歸為“未知”類別。這一要求源于封閉集環(huán)境的局限性,封閉集環(huán)境下的分類器通常僅在預(yù)定義的類別上進(jìn)行訓(xùn)練和測(cè)試,缺乏應(yīng)對(duì)新出現(xiàn)的、未曾見過的類別的能力。而在現(xiàn)實(shí)世界中,隨著技術(shù)的不斷發(fā)展和應(yīng)用的變化,新操作層出不窮,這對(duì)行為識(shí)別系統(tǒng)的適應(yīng)性提出了更高的要求。

4、當(dāng)前的自我視角視頻行為識(shí)別研究大多集中在封閉集場(chǎng)景上,因此常常無法有效處理開放集環(huán)境中的復(fù)雜性。這一缺陷進(jìn)一步強(qiáng)調(diào)了開發(fā)新的識(shí)別方法的必要性,使其能夠在識(shí)別范圍廣泛的操作時(shí)保持高精度和高可靠性,尤其是在遇到新穎且未見過的操作時(shí)。

5、將第三視角的視頻動(dòng)作識(shí)別方法直接應(yīng)用到第一視角行為識(shí)別上存在明顯的局限性。雖然第三視角的視頻動(dòng)作識(shí)別在大量研究、復(fù)雜模型和數(shù)據(jù)集開發(fā)的推動(dòng)下取得了顯著進(jìn)展,但這些方法難以直接應(yīng)用于第一視角視頻動(dòng)作識(shí)別。主要挑戰(zhàn)在于兩者在數(shù)據(jù)特征上的差異以及視角不同導(dǎo)致的對(duì)動(dòng)作上下文理解的不同。第一視角的視頻通常未經(jīng)預(yù)處理,并且由于視角的局限和運(yùn)動(dòng)模糊等原因,要求同時(shí)進(jìn)行動(dòng)作和物體的識(shí)別。例如,在處理“切菜”這一行為時(shí),系統(tǒng)不僅需要識(shí)別動(dòng)詞“切”,還需識(shí)別名詞“蔬菜”,而這在第三視角的視頻動(dòng)作識(shí)別中通常并不需要如此細(xì)致的處理。因此,第一視角行為識(shí)別的方法需要進(jìn)一步發(fā)展,以克服這些獨(dú)特的挑戰(zhàn)。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述問題,本發(fā)明提出了一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng),不僅可以識(shí)別視頻中的動(dòng)作和對(duì)象,還能夠評(píng)估這些識(shí)別結(jié)果的確定性,在應(yīng)對(duì)不確定性和未知?jiǎng)幼鲿r(shí)更具優(yōu)勢(shì),顯著提高了開放集第一視角行為識(shí)別任務(wù)的準(zhǔn)確度,使得在開放環(huán)境中的應(yīng)用更加可靠。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

3、第一方面,本發(fā)明提供一種基于不確定性估計(jì)的第一視角行為識(shí)別方法,包括以下步驟:

4、獲取第一視角視頻,對(duì)第一視角視頻進(jìn)行預(yù)處理,獲得訓(xùn)練樣本;

5、對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取,對(duì)不同階段的特征進(jìn)行整合,獲得第一特征;

6、對(duì)第一特征進(jìn)行分類預(yù)測(cè),量化分類結(jié)果的不確定性,獲得分類的證據(jù)向量,定義第一損失函數(shù),最小化模型預(yù)測(cè)的證據(jù)參數(shù)和真實(shí)情況的差異,獲得預(yù)測(cè)標(biāo)簽,定義第二損失函數(shù),最小化預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之間的差異;

7、匯總損失函數(shù),優(yōu)化模型參數(shù),獲得訓(xùn)練好的行為識(shí)別模型。

8、作為可選擇的實(shí)施方式,對(duì)第一視角視頻進(jìn)行預(yù)處理,包括對(duì)獲取的第一視角視頻進(jìn)行真實(shí)標(biāo)簽的標(biāo)注。

9、作為可選擇的實(shí)施方式,對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取,具體為:

10、在每個(gè)特征提取階段,利用動(dòng)態(tài)位置嵌入捕獲視頻中的空間和時(shí)間位置信息,利用多頭關(guān)系聚合器聚合不同時(shí)間幀的關(guān)系信息,利用前饋網(wǎng)絡(luò)進(jìn)一步提取和強(qiáng)化特征。

11、作為可選擇的實(shí)施方式,共有四個(gè)特征提取階段,每個(gè)特征提取階段的特征提取尺度不同,通過整合不同階段的特征,獲得層次化的特征表示。

12、作為可選擇的實(shí)施方式,所述第一損失函數(shù)定義為:

13、

14、其中,表示狄利克雷集中參數(shù)在k個(gè)類別中的總和,代表證據(jù)的整體強(qiáng)度,是一個(gè)常數(shù),log(αj)是對(duì)模型預(yù)測(cè)的證據(jù)參數(shù)αj的對(duì)數(shù)變換,tj是與動(dòng)作標(biāo)簽y相對(duì)應(yīng)的獨(dú)熱編碼向量中的二進(jìn)制指示器,j為分類類別,k代表類別數(shù)量。

15、作為可選擇的實(shí)施方式,所述第二損失函數(shù)定義為:

16、

17、其中,tj是與動(dòng)作標(biāo)簽y相對(duì)應(yīng)的獨(dú)熱編碼向量中的二進(jìn)制指示器,j為分類類別,k代表類別數(shù)量,是模型對(duì)于第j個(gè)類別的原始預(yù)測(cè)值。

18、第二方面,本發(fā)明提供一種基于不確定性估計(jì)的第一視角行為識(shí)別系統(tǒng),包括:

19、數(shù)據(jù)獲取和預(yù)處理模塊,被配置為:獲取第一視角視頻,對(duì)第一視角視頻進(jìn)行預(yù)處理,獲得訓(xùn)練樣本;

20、特征提取模塊,被配置為:對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取,對(duì)不同階段的特征進(jìn)行整合,獲得第一特征;

21、分類模塊,被配置為:對(duì)第一特征進(jìn)行分類預(yù)測(cè),量化分類結(jié)果的不確定性,獲得分類的證據(jù)向量,定義第一損失函數(shù),最小化模型預(yù)測(cè)的證據(jù)參數(shù)和真實(shí)情況的差異,獲得預(yù)測(cè)標(biāo)簽,定義第二損失函數(shù),最小化預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之間的差異;

22、模型訓(xùn)練模塊,被配置為:匯總損失函數(shù),優(yōu)化模型參數(shù),獲得訓(xùn)練好的行為識(shí)別模型。

23、第三方面,本發(fā)明提供一種電子設(shè)備,包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí),完成第一方面所述的方法。

24、第四方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),完成第一方面所述的方法。

25、第五方面,本發(fā)明提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)完成第一方面所述的方法。

26、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:

27、本公開提出一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng),基于openear框架,能夠有效處理第一人稱視角下常見的多樣化且未經(jīng)策劃的內(nèi)容。通過多尺度的特征提取,能夠理解第一視角視頻中的復(fù)雜動(dòng)作,通過四個(gè)階段的特征提取過程,有效地捕捉到視頻中的局部細(xì)節(jié)和全局上下文信息。通過與雙頭證據(jù)深度網(wǎng)絡(luò)分類器相結(jié)合,達(dá)到對(duì)開放集的第一視角視頻動(dòng)作進(jìn)行可信的、具有動(dòng)名詞區(qū)分的識(shí)別的良好性能。不僅可以識(shí)別視頻中的動(dòng)作和對(duì)象,還能夠評(píng)估這些識(shí)別結(jié)果的確定性。這種能力使得模型在應(yīng)對(duì)不確定性和未知?jiǎng)幼鲿r(shí)更具優(yōu)勢(shì),在復(fù)雜多變的環(huán)境中能夠保持較高的識(shí)別準(zhǔn)確性。顯著提高了開放集第一視角行為識(shí)別任務(wù)的準(zhǔn)確度,使得在開放環(huán)境中的應(yīng)用更加可靠。

28、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。



技術(shù)特征:

1.基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,包括以下步驟:

2.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,對(duì)第一視角視頻進(jìn)行預(yù)處理,包括對(duì)獲取的第一視角視頻進(jìn)行真實(shí)標(biāo)簽的標(biāo)注。

3.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取,具體為:

4.如權(quán)利要求3所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,共有四個(gè)特征提取階段,每個(gè)特征提取階段的特征提取尺度不同,通過整合不同階段的特征,獲得層次化的特征表示。

5.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,所述第一損失函數(shù)定義為:

6.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,所述第二損失函數(shù)定義為:

7.基于不確定性估計(jì)的第一視角行為識(shí)別系統(tǒng),其特征在于,包括:

8.一種電子設(shè)備,其特征在于,包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí),完成權(quán)利要求1-6任一項(xiàng)所述的方法。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),完成權(quán)利要求1-6任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)完成權(quán)利要求1-6任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本發(fā)明屬于行為識(shí)別技術(shù)領(lǐng)域,公開了一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng),包括獲取第一視角視頻,對(duì)第一視角視頻進(jìn)行預(yù)處理,獲得訓(xùn)練樣本;對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取,對(duì)不同階段的特征進(jìn)行整合,獲得第一特征;對(duì)第一特征進(jìn)行分類預(yù)測(cè),量化分類結(jié)果的不確定性,獲得分類的證據(jù)向量,定義第一損失函數(shù),最小化模型預(yù)測(cè)的證據(jù)參數(shù)和真實(shí)情況的差異,獲得預(yù)測(cè)標(biāo)簽,定義第二損失函數(shù),最小化預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之間的差異;匯總損失函數(shù),優(yōu)化模型參數(shù),獲得訓(xùn)練好的行為識(shí)別模型。本發(fā)明在應(yīng)對(duì)不確定性和未知?jiǎng)幼鲿r(shí)更具優(yōu)勢(shì),顯著提高了開放集第一視角行為識(shí)別任務(wù)的準(zhǔn)確度,使得在開放環(huán)境中的應(yīng)用更加可靠。

技術(shù)研發(fā)人員:劉萌,鄒沂杉,聶禮強(qiáng),劉慧,關(guān)惟俐,宋雪萌,郭杰,郭洋洋
受保護(hù)的技術(shù)使用者:山東建筑大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
永春县| 财经| 南充市| 玉田县| 张家口市| 亳州市| 海丰县| 湖北省| 陇西县| 磴口县| 射阳县| 安西县| 常宁市| 石狮市| 化隆| 九台市| 绥棱县| 亚东县| 个旧市| 遂溪县| 土默特右旗| 广州市| 固安县| 定远县| 赤壁市| 婺源县| 商河县| 晋城| 太原市| 平定县| 若尔盖县| 涟源市| 万盛区| 台州市| 甘德县| 中牟县| 德安县| 嘉鱼县| 仙居县| 五原县| 长宁县|