本發(fā)明涉及深度學(xué)習(xí)、計(jì)算機(jī)視覺,具體涉及一種三維人體姿態(tài)估計(jì)方法、裝置、電子設(shè)備及介質(zhì)。
背景技術(shù):
1、3d人體姿態(tài)估計(jì),作為計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要技術(shù),其核心在于從二維的圖像或視頻數(shù)據(jù)中重建出人體的三維姿態(tài),即確定人體各關(guān)節(jié)點(diǎn)在三維空間中的位置坐標(biāo)。這一技術(shù)因其廣泛的應(yīng)用前景,在人機(jī)交互、運(yùn)動分析、行為識別等多個領(lǐng)域展現(xiàn)出了重要的價(jià)值。然而,3d人體姿態(tài)估計(jì)也面臨著諸多技術(shù)挑戰(zhàn)。
2、首要難題在于從2d圖像到3d姿態(tài)的映射過程中存在的歧義性問題。由于二維圖像本身缺乏深度信息,一個二維姿態(tài)可能對應(yīng)多個可能的三維姿態(tài),這增加了3d姿態(tài)估計(jì)的難度。此外,人體在圖像中的遮擋問題以及缺乏大規(guī)模、多樣化的室外數(shù)據(jù)集也是該領(lǐng)域需要克服的障礙。
3、相關(guān)技術(shù)利用視頻序列中蘊(yùn)含的時(shí)間信息來增強(qiáng)3d人體姿態(tài)估計(jì)的準(zhǔn)確性和魯棒性。通過分析連續(xù)幀之間的變化,可以更好地推斷出人體的三維姿態(tài)。
4、近年來,transformer模型在計(jì)算機(jī)視覺領(lǐng)域的崛起為3d人體姿態(tài)估計(jì)帶來了新的突破。盡管transformer擅長對輸入令牌的遠(yuǎn)程依賴進(jìn)行建模,但是它在捕獲局部信息方面效率較低,而圖卷積網(wǎng)絡(luò)(gcn)則擅長于處理局部依賴關(guān)系,但是缺乏捕獲遠(yuǎn)程依賴關(guān)系的能力。而相關(guān)技術(shù)主要依賴于基于transformer或gcn的架構(gòu),這不是3d人體姿態(tài)估計(jì)的最佳選擇。
5、盡管基于transformer的方法在性能上取得了顯著進(jìn)展,但其高昂的計(jì)算成本也不容忽視。特別是在處理長視頻序列時(shí),transformer中自注意力機(jī)制的計(jì)算復(fù)雜性隨著令牌數(shù)量的增加而急劇上升,這限制了該方法在計(jì)算資源受限的邊緣設(shè)備上的應(yīng)用。此外,由于相鄰視頻幀之間的高度相似性,傳統(tǒng)的transformer模型在處理時(shí)往往包含大量冗余信息,進(jìn)一步降低了計(jì)算效率。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本公開實(shí)施例提供一種三維人體姿態(tài)估計(jì)方法、裝置、電子設(shè)備及介質(zhì),至少部分解決現(xiàn)有技術(shù)中存在的問題。
2、第一方面,本公開實(shí)施例提供了一種三維人體姿態(tài)估計(jì)方法,其包括:
3、獲取人體姿態(tài)估計(jì)數(shù)據(jù)集,并對所述數(shù)據(jù)集進(jìn)行預(yù)處理;
4、通過二維姿態(tài)檢測器從所述數(shù)據(jù)集中獲得連續(xù)的二維姿態(tài)序列,并將所述連續(xù)的二維姿態(tài)序列輸入到stgformer,獲得連續(xù)幀的三維姿態(tài);
5、通過所述stgformer獲得連續(xù)幀的三維姿態(tài)包括:
6、使用具有j個關(guān)節(jié)和t幀的所述連續(xù)的二維姿態(tài)序列作為輸入,其中輸入通道大小為2;
7、通過線性嵌入將p2d投影到高維特征每個關(guān)節(jié)表示的特征維度為d;
8、將空間位置嵌入加入到令牌中,得到包含關(guān)節(jié)位置信息的2d姿態(tài)序列,其中,
9、使用l個stgformer塊從所述包含關(guān)節(jié)位置信息的2d姿態(tài)序列學(xué)習(xí)時(shí)空上下文,以獲得包含人體全面運(yùn)動表示的2d姿態(tài)序列;
10、使用令牌修剪模塊對所述包含人體全面運(yùn)動表示的2d姿態(tài)序列進(jìn)行選擇以獲得包含高語義多樣性令牌的2d姿態(tài)序列;
11、通過恢復(fù)頭將所述包含高語義多樣性令牌的2d姿態(tài)序列恢復(fù)為全長序列,并從所述全長序列中估計(jì)3d姿態(tài)序列
12、根據(jù)本公開實(shí)施例的一種具體實(shí)現(xiàn)方式,所述stgformer塊包括:空間graphtransformer和時(shí)間graph?transformer;
13、所述空間graph?transformer將每個身體關(guān)節(jié)視為不同的令牌進(jìn)行處理,用于學(xué)習(xí)每個幀內(nèi)的身體關(guān)節(jié)關(guān)系;
14、所述時(shí)間graph?transformer將每個幀看作單個令牌,用于學(xué)習(xí)幀之間的時(shí)間相關(guān)性。
15、根據(jù)本公開實(shí)施例的一種具體實(shí)現(xiàn)方式,所述空間graph?transformer的處理包括:
16、利用空間多頭自注意力和空間圖卷積網(wǎng)絡(luò)對單個幀內(nèi)所有關(guān)節(jié)的空間相關(guān)
17、性進(jìn)行建模,公式如下:
18、x′s=xs+gcns(ln(xs))
19、x″s=x′s+msas(ln(x′s))
20、x″′s=x″s+mlp(ln(x″s))
21、其中,表示輸入的空間特征,ln代表層歸一化,gcns代表空間gcn,鄰接矩陣由人體骨骼的拓?fù)渚仃嚤硎?,msas代表空間msa,mlp代表多層感知器。
22、根據(jù)本公開實(shí)施例的一種具體實(shí)現(xiàn)方式,所述時(shí)間graph?transformer的處理包括:
23、將空間graph?transformer輸出的空間特征作為輸入;
24、將變形為從時(shí)間維度出發(fā),通過時(shí)間多頭自注意力和時(shí)間圖卷積網(wǎng)絡(luò)對人體關(guān)節(jié)的不同運(yùn)動軌跡進(jìn)行建模,建模公式具體如下:
25、x′t=xt+gcnt(ln(xt))
26、x″t=x′t+msat(ln(x′t))
27、x″′t=x″t+mlp(ln(x″t))
28、其中,ln代表層歸一化,msat代表時(shí)間msa,gcnt代表時(shí)間gcn,mlp代表多層感知器。
29、根據(jù)本公開實(shí)施例的一種具體實(shí)現(xiàn)方式,所述令牌修剪模塊處理包括:
30、對于輸入姿態(tài)令牌通過平均空間池化進(jìn)行空間冗余消除,得到空間池化令牌
31、隨機(jī)選擇t個令牌xj∈xi作為初始聚類中心,其中
32、然后計(jì)算其他令牌與聚類中心的距離并將其分配給最近的一個簇,具體如下:
33、d(xi,xj)=‖xi-xj||2,
34、對于每個聚類中心xj,計(jì)算其所屬簇內(nèi)所有令牌xi到聚類中心的總距離:
35、
36、其中,cj代表聚類中心xj所屬的簇;
37、選擇新的聚類中心使得簇內(nèi)所有令牌到聚類中心的總距離sj最?。?/p>
38、
39、迭代完成后,每個簇的聚類中心為最終確定的聚類中心,選擇聚類中心作為代表性令牌并丟棄其他令牌以減少視頻序列中的冗余信息。
40、根據(jù)本公開實(shí)施例的一種具體實(shí)現(xiàn)方式,所述恢復(fù)頭由mca和線性回歸頭構(gòu)成;
41、所述mca的處理步驟為:
42、將初始化為零的可學(xué)習(xí)令牌作為q,將最后一個stgformer塊輸出的代表性令牌作為k和v,然后進(jìn)行殘差連接,具體如下:
43、
44、其中,查詢鍵和值d表示維度,{nq,nk,nv}分別是{q,k,v}的令牌數(shù)量,是恢復(fù)的令牌,其時(shí)間維度與可學(xué)習(xí)令牌相同;
45、最后,使用所述線性回歸頭估計(jì)出三維姿態(tài)坐標(biāo)
46、根據(jù)本公開實(shí)施例的一種具體實(shí)現(xiàn)方式,多頭注意力機(jī)制的處理包括:輸入特征線性映射到查詢鍵和值其中n表示序列長度,d代表輸入特征的維度;
47、計(jì)算令牌到令牌的關(guān)聯(lián)矩陣并在不同令牌之間傳遞信息,具體如下:
48、
49、將查詢、鍵和值拆分為h次并且并行執(zhí)行注意力,并將h個注意力頭的輸出連接起來;
50、圖卷積網(wǎng)絡(luò)的處理包括:提取特征,具體如下:
51、
52、其中,表示鄰接矩陣,表示沿對角線的元素之和,w1和w2表示權(quán)重矩陣,bn表示批量歸一化,σ代表relu激活函數(shù)。
53、第二方面,本公開實(shí)施例提供了一種三維人體姿態(tài)估計(jì)裝置,其包括:
54、線性嵌入模塊,用于將原始的2d姿態(tài)坐標(biāo)從二維空間映射到高維特征空間;
55、空間位置嵌入模塊,用于將空間位置嵌入到令牌中以得到包含關(guān)節(jié)位置信息的2d姿態(tài)序列;
56、stgformer模塊,包括空間graph?transformer和時(shí)間graph?transformer,用于捕捉人體姿態(tài)數(shù)據(jù)中的空間和時(shí)間特征;
57、令牌修剪模塊,用于選擇具代表性的令牌進(jìn)行后續(xù)處理,以獲得包含高語義多樣性的代表性令牌的2d姿態(tài)序列;
58、恢復(fù)頭模塊,用于將修剪后的令牌恢復(fù)到原始的全長序列大?。?/p>
59、三維姿態(tài)估計(jì)模塊,用于從恢復(fù)的全長序列中估計(jì)出3d姿態(tài)序列。
60、第三方面,本公開實(shí)施例提供了一種電子設(shè)備,該電子設(shè)備包括:
61、至少一個處理器;以及,
62、與該至少一個處理器通信連接的存儲器;其中,
63、該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行上述的三維人體姿態(tài)估計(jì)方法。
64、第四方面,本公開實(shí)施例提供了一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),該非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì)存儲計(jì)算機(jī)指令,該計(jì)算機(jī)指令用于使該計(jì)算機(jī)執(zhí)行上述的三維人體姿態(tài)估計(jì)方法。
65、綜上所述,相較于現(xiàn)有技術(shù),本實(shí)施例具有如下優(yōu)點(diǎn):
66、本實(shí)施例提供的stgformer架構(gòu),融合了transformer的全局建模能力與圖卷積網(wǎng)絡(luò)在捕捉局部時(shí)空關(guān)系上的優(yōu)勢。不僅增強(qiáng)了模型對人體關(guān)節(jié)間復(fù)雜時(shí)空相關(guān)性的學(xué)習(xí)能力,還提升了3d人體姿態(tài)估計(jì)的精確度與魯棒性。
67、為了在保證模型高性能的同時(shí),有效控制計(jì)算復(fù)雜度與資源消耗,引入了姿態(tài)序列修剪。通過識別并剔除視頻序列中高度相似的冗余姿態(tài)幀,有效減少了數(shù)據(jù)處理量,從而加速了訓(xùn)練與推理過程,提升了整體效率。
68、集成了時(shí)空自注意力機(jī)制與時(shí)空gcn,使得模型能夠全面而深入地理解人體姿態(tài)的動態(tài)變化。為進(jìn)一步優(yōu)化模型性能與效率,設(shè)計(jì)了令牌修剪模塊。該評估視頻序列中每一幀姿態(tài)的重要性。通過剔除那些信息貢獻(xiàn)度低、語義重復(fù)性高的姿態(tài)幀,該模塊成功構(gòu)建了一個既精簡又高效的姿態(tài)令牌集合,為后續(xù)的姿態(tài)估計(jì)任務(wù)提供了更加高效、高質(zhì)的輸入數(shù)據(jù)。