本發(fā)明屬于計算機(jī)視覺中的3d人體姿態(tài)估計領(lǐng)域,具體而言,涉及一種3d人體姿態(tài)空間特征建模方法。
背景技術(shù):
1、人體姿態(tài)估計(hpe)是計算機(jī)視覺領(lǐng)域的一個重要且具有挑戰(zhàn)性的任務(wù),對action?recognition、virtual?reality、human-robot?interaction等眾多應(yīng)用領(lǐng)域具有重要意義。hpe的目的是從輸入的圖像或視頻,預(yù)測出每個人體關(guān)節(jié)的位置。按照預(yù)測得到的關(guān)節(jié)是否包含深度信息,人體姿態(tài)估計可以分為2d人體姿態(tài)估計(2d?hpe)和3d人體姿態(tài)估計(3d?hpe)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,2d?hpe領(lǐng)域目前已經(jīng)發(fā)展得較為成熟。2d檢測器的精度和泛化性都達(dá)到了先進(jìn)水平,但是模型輸出的只包含受限的2維信息。相比之下,3dhpe雖然面臨著更多挑戰(zhàn),但是深度信息的加入使其能夠?yàn)槿梭wpose提供更加豐富的3d空間信息,對人體的動作和交互有著更好的理解。因此,將發(fā)展成熟的2d檢測器運(yùn)用到3d?hpe任務(wù)中的2d-to-3d方法,已經(jīng)成為一類典型的單目解決方案。
2、由于單目數(shù)據(jù)存在深度歧義問題,多個潛在的3d姿態(tài)可能從同一個2d姿態(tài)映射而來,因此僅僅基于單幀2d關(guān)節(jié)位置信息,很難恢復(fù)出精確的3d姿態(tài)。最近受transformer捕捉長距離依賴關(guān)系能力的驅(qū)動,利用包含運(yùn)動時序特征的視頻幀序列進(jìn)行2d-to-3d的解決方案已經(jīng)取得了顯著的進(jìn)展。其中,mixste進(jìn)一步將整個人體pose分為多個關(guān)節(jié)來建模更加精細(xì)的temporal特征。然而,現(xiàn)有的大部分解決方案在設(shè)計spatial?block時,粗糙地將整個2d骨架作為模型空間特征的來源,或是將其簡單地分為相互獨(dú)立的幾個部位。
3、如何克服上述3d人體姿態(tài)估計所面臨的缺陷與不足,是目前需要解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、觀察了mixste中spatial?block對關(guān)節(jié)之間空間相關(guān)性的建模表現(xiàn),研究了human3.6m數(shù)據(jù)集中17個關(guān)節(jié)之間的平均依賴程度。應(yīng)用了一種可解釋的方案,將模型中間層的計算得到的所有注意力權(quán)重進(jìn)行平均,然后繪制成混淆矩陣??梢杂^察到,不是所有的人體關(guān)節(jié)都在空間位置上有高依賴性。距離較遠(yuǎn)的關(guān)節(jié)之間的空間相關(guān)性普遍較低,例如elbow關(guān)節(jié)與knee關(guān)節(jié)。此類joint?pairs在人體幾何結(jié)構(gòu)上不直接相關(guān),在運(yùn)動過程中也互相獨(dú)立。而屬于同一部位的關(guān)節(jié)距離較近,空間相關(guān)性普遍更高,例如hip關(guān)節(jié)、knee關(guān)節(jié)與ankle關(guān)節(jié)。此類joint?pairs在人體幾何結(jié)構(gòu)上緊密相連,在運(yùn)動過程中也同步移動。除此之外,觀察到所有的關(guān)節(jié)都與hip關(guān)節(jié)有著很高的關(guān)聯(lián)度,將其稱為人體骨骼的origin。origin的位置直接決定了人體的空間位置,進(jìn)而影響著其他所有關(guān)節(jié)的空間位置。因此將origin作為連接不同部位的橋梁,用以保護(hù)人體pose的整體性。具體來說,將origin與每個人體部位組合在一起,形成多個origin-based?parts。分別對每個origin-based?parts建??臻g特征,最終concat到一起形成完整的局部空間特征。
2、除此之外,也沒有忽略部位之外的空間關(guān)系,例如left?ankle和right?ankle關(guān)節(jié)、left?knee和right?knee關(guān)節(jié)。此類joint?pairs雖然不屬于同一部位,但仍然有一定的依賴性。對全部關(guān)節(jié)之間的關(guān)系進(jìn)行建模,生成與局部空間特征互補(bǔ)的全局空間特征。因此,提出的發(fā)明擁有并行的結(jié)構(gòu)設(shè)計,兩個并行通道分別負(fù)責(zé)捕捉全局與局部空間特征。最終,兩個通道的輸出融合后再通過temporal?block,得到每個關(guān)節(jié)在多個時間步的時序特征,以生成更為精準(zhǔn)的3d姿態(tài)結(jié)果。
3、本發(fā)明的內(nèi)容可以概括為三個方面:1、設(shè)計了一種新的origin-based?parttransformer?(opformer)?block,在模型建模不同部位內(nèi)部關(guān)節(jié)的空間關(guān)系的同時,將骨架的origin作為連接不同部位的橋梁,用以保護(hù)人體pose的整體性。
4、2、設(shè)計了一種新的交替的網(wǎng)絡(luò)結(jié)構(gòu),具有雙通道并行結(jié)構(gòu)捕捉不同范圍的空間特征,和temporal?block捕捉不同關(guān)節(jié)的時序特征,以提高3d姿態(tài)估計的結(jié)果。
5、3、整體的網(wǎng)絡(luò)結(jié)構(gòu)主要包含五個組成部分。origin-based?part?transformerblock與spatial?transformer?block組成了兩通道的并行結(jié)構(gòu),用于捕捉單幀2d?pose不同大小范圍的空間特征。其中,提出的opformer?block負(fù)責(zé)捕捉part內(nèi)部的關(guān)節(jié)之間的相關(guān)性,生成局部空間特征。以及,使用spatial?transformer?block捕捉人體所有關(guān)節(jié)的依賴關(guān)系,生成全局空間特征。采用自適應(yīng)的方式fuse兩個通道的結(jié)果,兩者結(jié)合用于增強(qiáng)網(wǎng)絡(luò)對不同范圍空間特征的建模能力。融合后的空間特征隨后輸入temporal?transformerblock,捕捉每個關(guān)節(jié)的時序特征。空間與時序特征的建模過程交替執(zhí)行,在經(jīng)過幾輪迭代的結(jié)構(gòu)之后,通過regression?head處理得到最終的3d姿態(tài)序列。
6、一種3d人體姿態(tài)空間特征建模方法,所述方法包括如下步驟:步驟一:采用一個預(yù)訓(xùn)練的2d人體姿態(tài)檢測器對輸入的圖像或視頻幀進(jìn)行處理,檢測并生成每個人體關(guān)節(jié)的二維坐標(biāo),生成2d骨架。該過程確保為后續(xù)的3d姿態(tài)估計提供準(zhǔn)確的輸入數(shù)據(jù)。
7、步驟二:將2d骨架劃分為幾個主要的部分,包括右腿、左腿、頭部、右臂和左臂。這種劃分是基于關(guān)節(jié)之間的空間和運(yùn)動相關(guān)性進(jìn)行的。例如,膝蓋與腳踝、肩膀與肘部等同一部分的關(guān)節(jié),在運(yùn)動過程中通常具有較高的相關(guān)性。通過將這些部位作為捕捉局部空間特征的對象,可以更好地理解局部關(guān)節(jié)的運(yùn)動特性,同時減小全局處理的復(fù)雜性。
8、步驟三:將每個部位的關(guān)節(jié)點(diǎn)與骨架原點(diǎn)結(jié)合,形成多個origin-based?parts。這種設(shè)計通過將局部關(guān)節(jié)與一個全局參考點(diǎn)(origin)相聯(lián)系,不僅能夠捕捉部位內(nèi)部的關(guān)節(jié)運(yùn)動關(guān)系,還可以保持人體整體姿態(tài)的連續(xù)性和完整性。origin與各部位間的連接,保證了在估計局部姿態(tài)時不丟失人體姿態(tài)的全局一致性。
9、步驟四:對形成了多個origin-based?parts的2d骨架加入空間位置編碼(spatialpositional?encoding),該編碼能夠表示各關(guān)節(jié)點(diǎn)在空間中的相對位置;然后將處理后的數(shù)據(jù)輸入spatial?transformer?encoder?(ste),捕捉整個骨架的全局空間特征;ste通過自注意力機(jī)制,能夠有效捕捉人體各關(guān)節(jié)之間的長距離依賴關(guān)系;這一過程幫助模型理解那些非局部相關(guān)的關(guān)節(jié)之間的相互作用,例如手部與足部、肩膀與膝蓋等,從而提升整體姿態(tài)的預(yù)測精度。
10、步驟五:除了捕捉全局空間特征外,還對每個origin-based?part進(jìn)行局部空間特征建模。利用ste,以每個origin-based?part為單位,通過自注意力機(jī)制提取關(guān)節(jié)內(nèi)部的空間依賴特征,實(shí)現(xiàn)對每個origin-based?part的局部空間特征建模;這些局部特征能夠很好地捕捉部位內(nèi)部的運(yùn)動相關(guān)性;接下來,將全局空間特征與局部空間特征進(jìn)行融合,生成一個包含全面信息的空間特征,從而提升3d姿態(tài)預(yù)測的精確性。
11、本發(fā)明在模型結(jié)構(gòu)中采用雙通道并行設(shè)計,其中一個通道用于捕捉局部空間特征,另一個通道用于捕捉全局空間特征,并將這兩種特征融合以生成更為準(zhǔn)確的空間特征。
12、步驟六:在完成空間特征的建模后,接下來為融合后的為空間特征加入時間位置編碼(temporal?positional?encoding),表示每個關(guān)節(jié)點(diǎn)在多個時間幀之間的運(yùn)動軌跡;通過自注意力機(jī)制,捕捉各關(guān)節(jié)點(diǎn)在時間維度上的依賴關(guān)系;最終,經(jīng)過回歸模塊,將時空特征轉(zhuǎn)換為關(guān)節(jié)點(diǎn)的三維坐標(biāo),生成3d人體姿態(tài)估計結(jié)果。
13、進(jìn)一步地,生成的2d關(guān)節(jié)點(diǎn)組成人體的骨架結(jié)構(gòu),包括頭部、肩膀、髖部、膝蓋、腳踝;生成的2d關(guān)節(jié)點(diǎn)數(shù)據(jù)通常包含每個關(guān)節(jié)點(diǎn)的x、y坐標(biāo)以及檢測的置信度;定義hip關(guān)節(jié)為人體的原點(diǎn)(origin),因?yàn)樗谌梭w結(jié)構(gòu)中具有較高的空間關(guān)聯(lián)性,是其他關(guān)節(jié)空間位置的參考點(diǎn)。
14、進(jìn)一步地,所述的融合過程通過一種自適應(yīng)融合(adaptive?fusion)的方式,包括對局部空間特征和全局空間特征進(jìn)行逐元素乘法,并通過線性變換生成的權(quán)重對兩種特征進(jìn)行加權(quán)平均,從而生成一個包含全面信息的空間特征,確保兩者的信息能夠被充分整合。
15、進(jìn)一步地,融合后的空間特征進(jìn)一步經(jīng)過temporal?transformer?encoder(tte),用于捕捉在多個時間幀中每個關(guān)節(jié)的時序特征,即捕捉各關(guān)節(jié)點(diǎn)在時間維度上的依賴關(guān)系,以生成更為精確的3d姿態(tài)估計結(jié)果;tte能夠有效地處理視頻序列,分析關(guān)節(jié)隨時間變化的運(yùn)動模式,進(jìn)而提高模型對動態(tài)姿態(tài)的理解。
16、進(jìn)一步地,所述圖像或視頻幀是基于單目攝像頭拍攝的視頻的。
17、進(jìn)一步地,對生成的3d人體姿態(tài)估計結(jié)果的優(yōu)化目標(biāo)包括位置損失函數(shù)和速度損失函數(shù);其中,位置損失函數(shù)用于衡量估計位置的精度,速度損失函數(shù)用于衡量關(guān)節(jié)運(yùn)動的平滑性;。