本發(fā)明涉及行為識(shí)別,特別是涉及一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、隨著智能眼鏡等可穿戴技術(shù)的廣泛應(yīng)用,以自我為中心(即第一視角)的視頻行為識(shí)別(video?action?recognition,var)正逐漸成為視頻行為識(shí)別領(lǐng)域的一個(gè)重大轉(zhuǎn)折點(diǎn)。這些設(shè)備從根本上改變了數(shù)據(jù)收集的方式,提供了第一人稱視角,這在增強(qiáng)現(xiàn)實(shí)和機(jī)器人技術(shù)等領(lǐng)域尤為重要。通過這種視角,系統(tǒng)可以更深入地了解用戶的交互行為,從而提升用戶體驗(yàn),覆蓋從個(gè)人助理到醫(yī)療監(jiān)控以及互動(dòng)游戲等廣泛的應(yīng)用場(chǎng)景。
3、然而,第一視角視頻行為識(shí)別面臨著獨(dú)特的挑戰(zhàn),特別是在開放集識(shí)別的背景下。開放集識(shí)別要求系統(tǒng)不僅能夠識(shí)別已知的動(dòng)作類別,還能檢測(cè)并標(biāo)記出從未見過的新動(dòng)作,將其歸為“未知”類別。這一要求源于封閉集環(huán)境的局限性,封閉集環(huán)境下的分類器通常僅在預(yù)定義的類別上進(jìn)行訓(xùn)練和測(cè)試,缺乏應(yīng)對(duì)新出現(xiàn)的、未曾見過的類別的能力。而在現(xiàn)實(shí)世界中,隨著技術(shù)的不斷發(fā)展和應(yīng)用的變化,新操作層出不窮,這對(duì)行為識(shí)別系統(tǒng)的適應(yīng)性提出了更高的要求。
4、當(dāng)前的自我視角視頻行為識(shí)別研究大多集中在封閉集場(chǎng)景上,因此常常無法有效處理開放集環(huán)境中的復(fù)雜性。這一缺陷進(jìn)一步強(qiáng)調(diào)了開發(fā)新的識(shí)別方法的必要性,使其能夠在識(shí)別范圍廣泛的操作時(shí)保持高精度和高可靠性,尤其是在遇到新穎且未見過的操作時(shí)。
5、將第三視角的視頻動(dòng)作識(shí)別方法直接應(yīng)用到第一視角行為識(shí)別上存在明顯的局限性。雖然第三視角的視頻動(dòng)作識(shí)別在大量研究、復(fù)雜模型和數(shù)據(jù)集開發(fā)的推動(dòng)下取得了顯著進(jìn)展,但這些方法難以直接應(yīng)用于第一視角視頻動(dòng)作識(shí)別。主要挑戰(zhàn)在于兩者在數(shù)據(jù)特征上的差異以及視角不同導(dǎo)致的對(duì)動(dòng)作上下文理解的不同。第一視角的視頻通常未經(jīng)預(yù)處理,并且由于視角的局限和運(yùn)動(dòng)模糊等原因,要求同時(shí)進(jìn)行動(dòng)作和物體的識(shí)別。例如,在處理“切菜”這一行為時(shí),系統(tǒng)不僅需要識(shí)別動(dòng)詞“切”,還需識(shí)別名詞“蔬菜”,而這在第三視角的視頻動(dòng)作識(shí)別中通常并不需要如此細(xì)致的處理。因此,第一視角行為識(shí)別的方法需要進(jìn)一步發(fā)展,以克服這些獨(dú)特的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問題,本發(fā)明提出了一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng),不僅可以識(shí)別視頻中的動(dòng)作和對(duì)象,還能夠評(píng)估這些識(shí)別結(jié)果的確定性,在應(yīng)對(duì)不確定性和未知?jiǎng)幼鲿r(shí)更具優(yōu)勢(shì),顯著提高了開放集第一視角行為識(shí)別任務(wù)的準(zhǔn)確度,使得在開放環(huán)境中的應(yīng)用更加可靠。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、第一方面,本發(fā)明提供一種基于不確定性估計(jì)的第一視角行為識(shí)別方法,包括以下步驟:
4、獲取第一視角視頻,對(duì)第一視角視頻進(jìn)行預(yù)處理,獲得訓(xùn)練樣本;
5、對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取,對(duì)不同階段的特征進(jìn)行整合,獲得第一特征;
6、對(duì)第一特征進(jìn)行分類預(yù)測(cè),量化分類結(jié)果的不確定性,獲得分類的證據(jù)向量,定義第一損失函數(shù),最小化模型預(yù)測(cè)的證據(jù)參數(shù)和真實(shí)情況的差異,獲得預(yù)測(cè)標(biāo)簽,定義第二損失函數(shù),最小化預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之間的差異;
7、匯總損失函數(shù),優(yōu)化模型參數(shù),獲得訓(xùn)練好的行為識(shí)別模型。
8、作為可選擇的實(shí)施方式,對(duì)第一視角視頻進(jìn)行預(yù)處理,包括對(duì)獲取的第一視角視頻進(jìn)行真實(shí)標(biāo)簽的標(biāo)注。
9、作為可選擇的實(shí)施方式,對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取,具體為:
10、在每個(gè)特征提取階段,利用動(dòng)態(tài)位置嵌入捕獲視頻中的空間和時(shí)間位置信息,利用多頭關(guān)系聚合器聚合不同時(shí)間幀的關(guān)系信息,利用前饋網(wǎng)絡(luò)進(jìn)一步提取和強(qiáng)化特征。
11、作為可選擇的實(shí)施方式,共有四個(gè)特征提取階段,每個(gè)特征提取階段的特征提取尺度不同,通過整合不同階段的特征,獲得層次化的特征表示。
12、作為可選擇的實(shí)施方式,所述第一損失函數(shù)定義為:
13、
14、其中,表示狄利克雷集中參數(shù)在k個(gè)類別中的總和,代表證據(jù)的整體強(qiáng)度,是一個(gè)常數(shù),log(αj)是對(duì)模型預(yù)測(cè)的證據(jù)參數(shù)αj的對(duì)數(shù)變換,tj是與動(dòng)作標(biāo)簽y相對(duì)應(yīng)的獨(dú)熱編碼向量中的二進(jìn)制指示器,j為分類類別,k代表類別數(shù)量。
15、作為可選擇的實(shí)施方式,所述第二損失函數(shù)定義為:
16、
17、其中,tj是與動(dòng)作標(biāo)簽y相對(duì)應(yīng)的獨(dú)熱編碼向量中的二進(jìn)制指示器,j為分類類別,k代表類別數(shù)量,是模型對(duì)于第j個(gè)類別的原始預(yù)測(cè)值。
18、第二方面,本發(fā)明提供一種基于不確定性估計(jì)的第一視角行為識(shí)別系統(tǒng),包括:
19、數(shù)據(jù)獲取和預(yù)處理模塊,被配置為:獲取第一視角視頻,對(duì)第一視角視頻進(jìn)行預(yù)處理,獲得訓(xùn)練樣本;
20、特征提取模塊,被配置為:對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取,對(duì)不同階段的特征進(jìn)行整合,獲得第一特征;
21、分類模塊,被配置為:對(duì)第一特征進(jìn)行分類預(yù)測(cè),量化分類結(jié)果的不確定性,獲得分類的證據(jù)向量,定義第一損失函數(shù),最小化模型預(yù)測(cè)的證據(jù)參數(shù)和真實(shí)情況的差異,獲得預(yù)測(cè)標(biāo)簽,定義第二損失函數(shù),最小化預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之間的差異;
22、模型訓(xùn)練模塊,被配置為:匯總損失函數(shù),優(yōu)化模型參數(shù),獲得訓(xùn)練好的行為識(shí)別模型。
23、第三方面,本發(fā)明提供一種電子設(shè)備,包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí),完成第一方面所述的方法。
24、第四方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),完成第一方面所述的方法。
25、第五方面,本發(fā)明提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)完成第一方面所述的方法。
26、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
27、本公開提出一種基于不確定性估計(jì)的第一視角行為識(shí)別方法及系統(tǒng),基于openear框架,能夠有效處理第一人稱視角下常見的多樣化且未經(jīng)策劃的內(nèi)容。通過多尺度的特征提取,能夠理解第一視角視頻中的復(fù)雜動(dòng)作,通過四個(gè)階段的特征提取過程,有效地捕捉到視頻中的局部細(xì)節(jié)和全局上下文信息。通過與雙頭證據(jù)深度網(wǎng)絡(luò)分類器相結(jié)合,達(dá)到對(duì)開放集的第一視角視頻動(dòng)作進(jìn)行可信的、具有動(dòng)名詞區(qū)分的識(shí)別的良好性能。不僅可以識(shí)別視頻中的動(dòng)作和對(duì)象,還能夠評(píng)估這些識(shí)別結(jié)果的確定性。這種能力使得模型在應(yīng)對(duì)不確定性和未知?jiǎng)幼鲿r(shí)更具優(yōu)勢(shì),在復(fù)雜多變的環(huán)境中能夠保持較高的識(shí)別準(zhǔn)確性。顯著提高了開放集第一視角行為識(shí)別任務(wù)的準(zhǔn)確度,使得在開放環(huán)境中的應(yīng)用更加可靠。
28、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
1.基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,對(duì)第一視角視頻進(jìn)行預(yù)處理,包括對(duì)獲取的第一視角視頻進(jìn)行真實(shí)標(biāo)簽的標(biāo)注。
3.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,對(duì)訓(xùn)練樣本進(jìn)行多階段不同尺度的特征提取,具體為:
4.如權(quán)利要求3所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,共有四個(gè)特征提取階段,每個(gè)特征提取階段的特征提取尺度不同,通過整合不同階段的特征,獲得層次化的特征表示。
5.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,所述第一損失函數(shù)定義為:
6.如權(quán)利要求1所述的基于不確定性估計(jì)的第一視角行為識(shí)別方法,其特征在于,所述第二損失函數(shù)定義為:
7.基于不確定性估計(jì)的第一視角行為識(shí)別系統(tǒng),其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括存儲(chǔ)器和處理器以及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器運(yùn)行時(shí),完成權(quán)利要求1-6任一項(xiàng)所述的方法。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),完成權(quán)利要求1-6任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)完成權(quán)利要求1-6任一項(xiàng)所述的方法。