本發(fā)明涉及行為感知,具體是指一種魯棒性人體動(dòng)作識(shí)別方法。
背景技術(shù):
1、人體動(dòng)作識(shí)別是視頻理解領(lǐng)域的一個(gè)重要研究方向,其主要目標(biāo)是對(duì)人體關(guān)鍵骨骼點(diǎn)序列分析,實(shí)現(xiàn)對(duì)人體動(dòng)作的準(zhǔn)確識(shí)別和理解。這種方法通過(guò)使用深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)技術(shù)對(duì)骨骼點(diǎn)的時(shí)空信息進(jìn)行建模,從而實(shí)現(xiàn)對(duì)不同動(dòng)作的分類,在視頻監(jiān)控、動(dòng)作分析、人機(jī)交互、虛擬現(xiàn)實(shí)等方面發(fā)揮著重要作用。然而,面對(duì)室內(nèi)外復(fù)雜場(chǎng)景時(shí),此類方法仍然面臨以下挑戰(zhàn):背景和待識(shí)別動(dòng)作目標(biāo)的相似性高,圖像采集設(shè)備存在光照條件變化和部分遮擋截?cái)嗟纫蛩乜赡軐?dǎo)致估計(jì)骨骼點(diǎn)數(shù)據(jù)的不完整性和外部噪聲,另外現(xiàn)有的人體動(dòng)作模型未能有效提取各關(guān)鍵點(diǎn)之間的關(guān)聯(lián)關(guān)系特征。
2、近年來(lái),由于手工設(shè)計(jì)的特征和傳統(tǒng)的機(jī)器學(xué)習(xí)算法在復(fù)雜的動(dòng)作或者變化較大的環(huán)境下表現(xiàn)不佳,而深度學(xué)習(xí)算法,尤其是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn),圖神經(jīng)網(wǎng)絡(luò)(gcn)和卷積神經(jīng)網(wǎng)絡(luò)(cnn)的動(dòng)作識(shí)別方法在人體骨骼點(diǎn)序列的數(shù)據(jù)表示,特征提取等方面取得了顯著的進(jìn)展,提高了基于骨骼點(diǎn)序列判別人體運(yùn)動(dòng)模式的準(zhǔn)確度。因此,現(xiàn)有的基于骨骼點(diǎn)的動(dòng)作識(shí)別方法多以上述深度學(xué)習(xí)方法為主。
3、人體骨骼點(diǎn)位置估計(jì)偏差在姿態(tài)估計(jì)過(guò)程中非常容易發(fā)生,這是由于圖像采集設(shè)備可能受外部環(huán)境影響,比如氣候和光照變化,遮擋和截?cái)鄺l件,也可能受目標(biāo)本身的體態(tài)和動(dòng)作多樣性影響,導(dǎo)致位姿估計(jì)的偏移和失真;多節(jié)點(diǎn)之間的關(guān)聯(lián)運(yùn)動(dòng)對(duì)區(qū)分不同的人體動(dòng)作模式至關(guān)重要,但是現(xiàn)有的模型沒(méi)有有效提取和利用各關(guān)聯(lián)節(jié)點(diǎn)之間的相關(guān)性特征。
4、近年來(lái),一系列基于深度神經(jīng)網(wǎng)絡(luò)的骨骼點(diǎn)動(dòng)作識(shí)別方法被提出,例如,duan等人在computer?vision?and?pattern?recognition(cvpr)提出了一種基于3d殘差網(wǎng)絡(luò)的深度學(xué)習(xí)框架,該方法與基于gcn的方法相比,由于引入了高斯概率熱圖作為骨骼點(diǎn)序列的基本表示方法,并使用基于置信度的數(shù)據(jù)篩除方法剔除偏差數(shù)據(jù),使得所提模型對(duì)姿態(tài)估計(jì)存在的噪聲更加魯棒。但是在實(shí)際場(chǎng)景中,圖像采集設(shè)備的快速運(yùn)動(dòng),目標(biāo)與背景的高相似性,氣候條件的變化,人員的遮擋和截?cái)喽紩?huì)對(duì)上游姿態(tài)估計(jì)結(jié)果引入大量噪聲,導(dǎo)致骨骼點(diǎn)的位置與真實(shí)動(dòng)作存在偏差甚至錯(cuò)誤。僅依賴于3d高斯概率熱圖的運(yùn)動(dòng)表示方法和基于置信度的數(shù)據(jù)篩除方法無(wú)法有效應(yīng)對(duì)多關(guān)鍵點(diǎn)的估計(jì)偏差和錯(cuò)誤,導(dǎo)致實(shí)際應(yīng)用場(chǎng)景的人員動(dòng)作識(shí)別精度低,無(wú)法滿足實(shí)際需求。經(jīng)過(guò)相關(guān)技術(shù)檢索和實(shí)際試驗(yàn)驗(yàn)證發(fā)現(xiàn),目前尚未發(fā)現(xiàn)能夠在目標(biāo)關(guān)鍵點(diǎn)估計(jì)出現(xiàn)偏差時(shí)根據(jù)多節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系保證高準(zhǔn)確率的人體動(dòng)作識(shí)別算法。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有人體動(dòng)作識(shí)別方法無(wú)法克服實(shí)際環(huán)境下人體骨骼點(diǎn)噪聲大和關(guān)鍵點(diǎn)之間的關(guān)聯(lián)關(guān)系弱的帶來(lái)識(shí)別準(zhǔn)確率急劇下降問(wèn)題,本發(fā)明提出了魯棒性人體動(dòng)作識(shí)別新方法,該方法通過(guò)對(duì)比上游姿態(tài)估計(jì)網(wǎng)絡(luò)估計(jì)的人體拓?fù)浣Y(jié)構(gòu)和預(yù)定義的人體拓?fù)浣Y(jié)構(gòu)模板的相似度,篩除估計(jì)人體個(gè)體和模板存在大偏差的數(shù)據(jù),并設(shè)計(jì)基于注意力機(jī)制的數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)克服關(guān)鍵點(diǎn)低關(guān)聯(lián)性的問(wèn)題,提高實(shí)際應(yīng)用場(chǎng)景下動(dòng)作識(shí)別的精度。
2、本發(fā)明提供一種基于骨骼點(diǎn)的魯棒性動(dòng)作識(shí)別方法,該方法包括基于拓?fù)湎嗨贫鹊娜梭w數(shù)據(jù)去噪和基于通道注意力網(wǎng)絡(luò)的節(jié)點(diǎn)相關(guān)性分析和特征提取兩個(gè)階段,具體包含以下步驟:
3、s1、采集不同場(chǎng)景下不同體型人員做指定動(dòng)作(如站立、坐下等)的rgb圖像,輸入已有人體姿態(tài)估計(jì)網(wǎng)絡(luò)mmpose逐幀估計(jì)姿態(tài)后獲取人體關(guān)鍵點(diǎn)位置,每個(gè)人的一組所有關(guān)鍵點(diǎn)作為一個(gè)樣本數(shù)據(jù),根據(jù)每個(gè)樣本的關(guān)鍵點(diǎn)位置分布標(biāo)注動(dòng)作類別,獲得基于骨骼點(diǎn)的人體動(dòng)作數(shù)據(jù)集,根據(jù)數(shù)據(jù)集中每個(gè)人的骨骼點(diǎn)位置和骨骼的相對(duì)長(zhǎng)度統(tǒng)計(jì)量構(gòu)建人體拓?fù)淠0?,并將?shù)據(jù)集根據(jù)8:2比例劃分得到訓(xùn)練集和測(cè)試集。
4、圖像中每個(gè)人體的k個(gè)骨骼點(diǎn)(頭部、肩膀、肘部、手腕、臀部、膝蓋和腳踝等主要關(guān)節(jié))位置數(shù)據(jù)列表p=[(x1,y1,c1),(x2,y2,c2),...,(xk,yk,ck)]為一個(gè)樣本,每個(gè)關(guān)鍵點(diǎn)被表示為一個(gè)三元組(xk,yk,ck),k∈[1,k]。其中(xk,yk)表示一個(gè)人的關(guān)鍵點(diǎn)k在圖像中的位置坐標(biāo),ck表示上游姿態(tài)估計(jì)算法mmpose給出的該點(diǎn)的估計(jì)置信度,通過(guò)以下高斯概率分布預(yù)處理公式構(gòu)建特定大小的多通道圖m作為模型輸入,m中的每個(gè)點(diǎn)按照下式計(jì)算:
5、
6、其中w和h是生成高斯概率熱圖的大小,一般選用640*480,k表示該高斯概率熱圖的通道數(shù),和關(guān)鍵點(diǎn)的個(gè)數(shù)一致,即每個(gè)關(guān)鍵點(diǎn)生成一個(gè)通道的高斯概率熱圖,一般采用coco關(guān)鍵點(diǎn)數(shù)據(jù)的約定方式,k=17;此外i,j,k分別表示多通道圖mi,j,k的寬度值索引,高度值引和通道值索引;σ控制每個(gè)高斯概率熱圖上關(guān)鍵點(diǎn)的半徑大小在0-36個(gè)像素點(diǎn)之間,一般取σ=0.5。構(gòu)建了每個(gè)人的高斯概率熱圖m后,手工標(biāo)注每個(gè)高斯概率熱圖對(duì)應(yīng)的動(dòng)作類別,比如1代表站立,2代表蹲下,3代表躺著,為監(jiān)督學(xué)習(xí)提供樣本數(shù)據(jù)和分類標(biāo)簽,每一個(gè)樣本數(shù)據(jù)包含一個(gè)高斯概率熱圖和其對(duì)應(yīng)的類別標(biāo)簽。由姿態(tài)估計(jì)算法mmpose獲取視頻中的不同動(dòng)作的多個(gè)樣本數(shù)據(jù)后,按照8:2的比例劃分訓(xùn)練集和驗(yàn)證集,保證訓(xùn)練集和驗(yàn)證集合的數(shù)據(jù)分布一致性。
7、根據(jù)已經(jīng)建立的基于人體骨骼點(diǎn)的動(dòng)作數(shù)據(jù)集創(chuàng)建人體拓?fù)鋽?shù)據(jù)模板。數(shù)據(jù)集中每個(gè)樣本的骨干長(zhǎng)度用多元組l=(l1,...,lb,...,lb)表示,其中b表示骨干索引,b表示骨干的個(gè)數(shù),l代表每個(gè)骨骼,比如從左肩到左胯的長(zhǎng)度。使用每個(gè)人所有骨骼中最大值歸一化該多元組得到b骨干相對(duì)于最長(zhǎng)骨干的相對(duì)長(zhǎng)度l′b:
8、
9、將數(shù)據(jù)集中所有樣本中對(duì)應(yīng)骨干的相對(duì)長(zhǎng)度取均值后得到人體骨干相對(duì)長(zhǎng)度模板其中,表示一個(gè)人體骨干的標(biāo)準(zhǔn)模板向量,表示數(shù)據(jù)集中所有骨干b的相對(duì)長(zhǎng)度的均值,即所有l(wèi)′b的均值。
10、s2、構(gòu)建基于人體拓?fù)淠0娴臄?shù)據(jù)篩除器,將上游姿態(tài)估計(jì)網(wǎng)絡(luò)估計(jì)的人體骨骼點(diǎn)樣本數(shù)據(jù)作為輸入,計(jì)算估計(jì)拓?fù)浣Y(jié)構(gòu)l和模板拓?fù)浣Y(jié)構(gòu)的相似度,去除視頻中的估計(jì)個(gè)體的拓?fù)浣Y(jié)構(gòu)和模版拓?fù)浣Y(jié)構(gòu)相似度小于經(jīng)驗(yàn)值0.45的個(gè)體;根據(jù)數(shù)據(jù)集中計(jì)算骨干相對(duì)長(zhǎng)度的方式計(jì)算測(cè)試視頻或圖像中估計(jì)姿態(tài)的骨干相對(duì)長(zhǎng)度,并使用歐式距離的倒數(shù)作為相似度標(biāo)準(zhǔn)α:
11、
12、上游姿態(tài)估計(jì)網(wǎng)絡(luò)對(duì)每一個(gè)預(yù)測(cè)點(diǎn)k都輸出了一個(gè)預(yù)測(cè)置信度ck,將關(guān)鍵點(diǎn)估計(jì)置信度ck小于0.3,并且與標(biāo)準(zhǔn)人體拓?fù)浣Y(jié)構(gòu)模板相似度α小于0.45的關(guān)鍵點(diǎn)個(gè)體作為噪聲估計(jì),從待檢測(cè)動(dòng)作數(shù)據(jù)中去除。
13、s3、設(shè)計(jì)基于注意力機(jī)制的數(shù)據(jù)關(guān)聯(lián)模型提取骨骼關(guān)鍵點(diǎn)之間的相關(guān)性,獲得骨骼關(guān)鍵點(diǎn)相關(guān)性特征后全連接輸出各動(dòng)作概率;
14、將待識(shí)別的訓(xùn)練數(shù)據(jù)樣本m轉(zhuǎn)為tensor張量格式后由歸一化嵌入高斯函數(shù)計(jì)算關(guān)鍵點(diǎn)通道m(xù)k與mk’間的兩個(gè)通道數(shù)據(jù)相關(guān)性:
15、
16、其中,θ()和()表示參數(shù)權(quán)重不同的兩個(gè)1*1卷積,k和k,表示一個(gè)人的高斯概率熱圖的不同關(guān)鍵點(diǎn)通道索引。上式表示一張樣本m的兩個(gè)通道之間的相關(guān)性,根據(jù)上述公式分別計(jì)算代表每個(gè)通道和其他所有通道的相關(guān)性后拼接獲得大小為k*k的相關(guān)性圖g:
17、g=[g(m1,m1),...,g(m1,mk),...g(mk,mk)]
18、將不同關(guān)鍵點(diǎn)通道之間的相似度使用softmax層歸一化后并乘給每個(gè)關(guān)鍵點(diǎn)通道形成注意力圖ma:
19、ma=softmax(g)m
20、其中m表示大小為640*640*3的原始高斯熱圖,mk表示高斯熱圖的第k通道。將原始高斯概率熱圖和通道注意力熱圖使用殘差連接相加獲得特征融合圖mf:
21、mf=m+ma
22、此時(shí)的特征圖既包含了原始關(guān)鍵點(diǎn)位置信息,又包含了各通道間數(shù)據(jù)關(guān)聯(lián)信息,可以進(jìn)一步提取深層特征。采用resnet34作為骨干網(wǎng)絡(luò)提取融合圖的特征并經(jīng)過(guò)softmax層表示為概率分布z:
23、
24、其中,表示resnet34骨干網(wǎng)絡(luò),z表示各個(gè)類別動(dòng)作的預(yù)測(cè)概率。
25、s4、利用訓(xùn)練集的樣本數(shù)據(jù)和動(dòng)作標(biāo)簽,監(jiān)督學(xué)習(xí)訓(xùn)練s3構(gòu)建的數(shù)據(jù)關(guān)聯(lián)和特征提取網(wǎng)絡(luò)參數(shù),獲得最終的網(wǎng)絡(luò)模型;
26、s5、將測(cè)試集的樣本數(shù)據(jù)輸入訓(xùn)練后的最終模型,輸出人體動(dòng)作的預(yù)測(cè)結(jié)果,包括分類動(dòng)作和預(yù)測(cè)置信度。
27、本方法的優(yōu)點(diǎn)在于可以準(zhǔn)確識(shí)別噪聲條件下的人體動(dòng)作,經(jīng)過(guò)數(shù)據(jù)處理和模型優(yōu)化后可以有效提高挑戰(zhàn)性環(huán)境下的基于骨骼點(diǎn)的人體動(dòng)作識(shí)別精度,識(shí)別準(zhǔn)確率可≥80%。