本發(fā)明屬于圖像信息處理,尤其涉及一種基于上下文感知和空間位置注意力的交互手重建方法。
背景技術(shù):
1、隨著虛擬現(xiàn)實、增強現(xiàn)實以及人機交互等技術(shù)的快速發(fā)展,手部三維重建已成為計算機視覺領(lǐng)域的一個研究熱點。手勢是人類最重要也是最直觀的交互方式之一,通過手部動作和姿態(tài),人們可以輕松地表達(dá)自己的意圖,傳遞豐富的信息。在人機交互系統(tǒng)中,通過對手部姿態(tài)和動作的準(zhǔn)確識別和理解,可以為計算機系統(tǒng)提供更加自然、高效的控制命令,極大地提升用戶體驗。虛擬現(xiàn)實技術(shù)旨在創(chuàng)建和體驗虛擬世界,為用戶提供身臨其境的沉浸感和交互。將用戶的手實時重建并映射到虛擬環(huán)境中,并與虛擬物體進(jìn)行交互,是增強虛擬現(xiàn)實體驗,提升用戶代入感的重要手段。交互手重建需要對雙手之間的運動進(jìn)行建模和理解,雙手之間頻繁的交互和遮擋導(dǎo)致了嚴(yán)重的自遮擋和互遮擋問題。手的自遮擋主要由單手手指的彎曲和交疊造成,而互遮擋則源于雙手之間的接觸和重疊。這些遮擋使得手部的許多關(guān)鍵點和區(qū)域在圖像中不可見,給手部姿態(tài)和形狀的推斷帶來了極大困難。其次,不同于單手場景中相對有限的手勢類別,雙手交互往往涉及更加多樣和復(fù)雜的手勢,這對重建模型的泛化能力提出了更高要求。從一張rgb圖片實現(xiàn)交互手重建面臨著復(fù)雜的挑戰(zhàn)。一方面,如果簡單地將雙手重建任務(wù)視為兩個獨立的單手任務(wù),不僅忽略了這些重要的交互信息,還會因遮擋導(dǎo)致部分手部區(qū)域的視覺信息缺失,最終無法重建出精準(zhǔn)的三維網(wǎng)格;另一方面。在以自頂向下的方式進(jìn)行重建時,通常需要用邊界框檢測模塊來識別手部位置后進(jìn)行裁剪處理。這種處理方式在一定程度上會失去原始圖像中手部之間的全局空間關(guān)系信息。
技術(shù)實現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提出了一種基于上下文感知和空間位置注意力的交互手重建方法,實現(xiàn)對復(fù)雜交互場景中雙手的精確重建。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種基于上下文感知和空間位置注意力的交互手重建方法,包括:
3、基于采集的單張包含雙手的彩色圖像,提取與全局空間相關(guān)的深度圖、中心位置熱圖和邊緣輪廓的上下文信息;
4、將提取的全局空間相關(guān)的深度圖、中心位置熱圖和邊緣輪廓的上下文信息在通道維度上進(jìn)行連接,提取上下文感知特征;
5、對所述上下文感知特征進(jìn)行仿射變換,獲取雙手關(guān)節(jié)點間的空間注意力特征;
6、將所述空間注意力特征輸入三維重建模型,從而得到雙手表面頂點的三維坐標(biāo),獲得交互手重建后的結(jié)果。
7、可選的,提取中心位置熱圖包括:
8、將采集的單張包含雙手的彩色圖像通過resnet-50網(wǎng)絡(luò)進(jìn)行處理,獲得細(xì)粒度特征圖;
9、通過反卷積對所述細(xì)粒度特征圖進(jìn)行上采樣,獲得空間分辨率縮減至四分之一的細(xì)粒度特征圖;
10、采用預(yù)設(shè)尺寸的卷積預(yù)測手部中心熱圖,通過soft-argmax算法對所述手部中心熱圖提取中心坐標(biāo),基于所述中心坐標(biāo)對所述空間分辨率縮減至四分之一的細(xì)粒度特征圖進(jìn)行采樣,提取特征向量;
11、根據(jù)所述特征向量預(yù)測手部邊界框的尺寸,對手部區(qū)域進(jìn)行裁剪,獲得中心位置熱圖。
12、可選的,獲得雙手關(guān)節(jié)點間的空間注意力特征包括:
13、將所述上下文感知特征輸入到resnet-50網(wǎng)絡(luò)獲得裁剪手部圖像特征;
14、將裁剪手部圖像特征通過卷積層和soft-argmax算法后獲得2.5d關(guān)節(jié)點坐標(biāo);
15、將所述2.5d關(guān)節(jié)點坐標(biāo)與圖像特征進(jìn)行插值,獲得空間特征向量;
16、對每只手進(jìn)行多頭自注意力處理,獲得每只手的查詢特征、鍵特征和值特征,并獲得自注意力加權(quán)的關(guān)節(jié)特征;
17、根據(jù)一只手的查詢特征通過多頭注意力獲取另一只手的鍵特征和值特征,根據(jù)雙手的鍵特征和值特征得到左右手的交叉注意特征;
18、通過mlp融合交叉注意力和自注意力的手部特征,獲得雙手關(guān)節(jié)點間的空間注意力特征。
19、可選的,獲得左右手的交叉注意特征的方法為:
20、
21、其中,表示編碼右手到左手相關(guān)性的交互注意力特征;表示編碼左手到右手相關(guān)性的交互注意力特征;dk表示歸一化常數(shù);softmax表示softmax算法;ql表示左手查詢特征;kr表示右手鍵特征;t表示矩陣轉(zhuǎn)置;vr表示右手值特征;kl表示左手鍵特征。
22、可選的,通過mlp融合交叉注意力和自注意力的手部特征,獲得雙手關(guān)節(jié)點間的空間注意力特征的方法為:
23、
24、其中,表示左手空間注意力特征;mlp表示mlp網(wǎng)絡(luò);表示左手自注意加權(quán)的關(guān)節(jié)特征;表示編碼右手到左手相關(guān)性的交互注意力特征;表示右手空間注意力特征;表示右手自注意加權(quán)的關(guān)節(jié)特征;表示編碼左手到右手相關(guān)性的交互注意力特征。
25、可選的,獲得交互手重建后的結(jié)果包括:
26、將所述雙手關(guān)節(jié)點間的空間注意力特征輸入?yún)?shù)回歸模型獲得姿態(tài);
27、通過resnet18提取的特征用于回歸形狀參數(shù)和弱透視相機參數(shù);
28、將所述形狀參數(shù)和所述弱透視相機參數(shù)通過mano模型計算,獲得交互重建后的左右手坐標(biāo)。
29、可選的,獲得交互重建后的左右手坐標(biāo)的方法為:
30、ol=m(βleft,θleft)+ζol,root
31、or=m(βright,θright)+ζor,root+δ
32、其中,m(·)表示mano模型;ζ表示三維關(guān)節(jié)點回歸矩陣;ol和or分別表示左手和右手的頂點坐標(biāo),ζol,root和ζor,root分別表示左右手根節(jié)點的位置,δ表示右手相對于左手的位置變化;βleft表示左手形狀參數(shù);θleft表示左手弱透視相機參數(shù);βright表示右手形狀參數(shù);θright表示右手弱透視相機參數(shù)。
33、本發(fā)明技術(shù)效果:本發(fā)明公開了一種基于上下文感知和空間位置注意力的交互手重建方法,選取了與全局空間相關(guān)的深度圖、中心位置熱圖和邊緣輪廓作為上下文信息;以上下文感知模塊,有效整合這些上下文信息并將其融入手部重建過程,通過自注意力機制捕捉單手內(nèi)部關(guān)節(jié)點的空間關(guān)系,并利用交叉注意力機制處理雙手間的交互和遮擋,從整張圖像中獲取更全面和語義化的特征表示,有效地利用了雙手之間的交互信息和遮擋線索,從而實現(xiàn)對復(fù)雜交互場景中雙手的精確重建。
1.一種基于上下文感知和空間位置注意力的交互手重建方法,其特征在于,包括:基于采集的單張包含雙手的彩色圖像,提取與全局空間相關(guān)的深度圖、中心位置熱圖和邊緣輪廓的上下文信息;
2.如權(quán)利要求1所述的基于上下文感知和空間位置注意力的交互手重建方法,其特征在于,提取中心位置熱圖包括:
3.如權(quán)利要求1所述的基于上下文感知和空間位置注意力的交互手重建方法,其特征在于,獲得雙手關(guān)節(jié)點間的空間注意力特征包括:
4.如權(quán)利要求3所述的基于上下文感知和空間位置注意力的交互手重建方法,其特征在于,獲得左右手的交叉注意特征的方法為:
5.如權(quán)利要求3所述的基于上下文感知和空間位置注意力的交互手重建方法,其特征在于,通過mlp融合交叉注意力和自注意力的手部特征,獲得雙手關(guān)節(jié)點間的空間注意力特征的方法為:
6.如權(quán)利要求1所述的基于上下文感知和空間位置注意力的交互手重建方法,其特征在于,獲得交互手重建后的結(jié)果包括:
7.如權(quán)利要求1所述的基于上下文感知和空間位置注意力的交互手重建方法,其特征在于,獲得交互重建后的左右手坐標(biāo)的方法為: