本發(fā)明涉及計算機(jī)視覺領(lǐng)域,特別涉及一種姿態(tài)特征和回歸任務(wù)輔助的細(xì)粒度學(xué)生課堂行為識別方法。
背景技術(shù):
1、學(xué)生課堂行為識別是研究學(xué)生學(xué)習(xí)興趣、性格特點和知識掌握情況的重要基礎(chǔ),也是以“學(xué)生為主”的智慧教育的主要研究內(nèi)容。由于受到上課紀(jì)律和公開環(huán)境的限制,學(xué)生在學(xué)習(xí)過程中又會有求知的壓力、收獲的喜悅和交流的需求,因此,學(xué)生的課堂行為豐富而微妙。學(xué)生上課時頭部、眼睛、頸部、軀干等部位較為細(xì)膩的動作體現(xiàn)了豐富的心理狀態(tài),例如,當(dāng)學(xué)生處于高度專注狀態(tài)時,頭部通常微微前傾,眼睛直視前方。而在緊張或焦慮時,學(xué)生可能會頻繁移動視線,避免與老師的目光接觸,同時頭部輕微低垂。當(dāng)學(xué)生感到無聊或心不在焉時,頭部可能頻繁轉(zhuǎn)動,視線游離于教室四周或窗外,難以集中在老師或課本上。此外,學(xué)生骨骼關(guān)節(jié)的角度變化與課堂行為類別密切相關(guān),不同的課堂行為通常伴隨著特定的身體姿勢和動作。例如,當(dāng)學(xué)生進(jìn)行寫字或記筆記時,身體通常會前傾,手臂靠近桌面,并保持一定的角度以穩(wěn)定筆跡。這時,脊柱的前傾角度以及肘部和腕部的彎曲角度是識別此類行為的重要特征。因此,為了能更深入地理解學(xué)生上課時的心理狀態(tài),需要對學(xué)生頭部、頸部、軀干、眼睛、手等部位的細(xì)膩動作進(jìn)行定義和識別。但是,目前的學(xué)生課堂行為識別主要是針對“抬頭”、“舉手”、“睡覺”等個別的或籠統(tǒng)的動作進(jìn)行識別,缺乏對細(xì)膩動作的定義和相關(guān)數(shù)據(jù)集。
2、人體行為識別是計算機(jī)視覺的主要研究內(nèi)容。目前,基于深度學(xué)習(xí)的人體行為識別方法已經(jīng)比基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法取得了長足的進(jìn)步,成為人體行為識別的主流方法。相比其他場景,課堂場景下的人體行為具有其非常獨特的特征。課堂場景下的多個學(xué)生在聽同一堂課,他們的行為具有天然的聯(lián)系,同時又會因個體心理狀態(tài)的不同,使得不同學(xué)生的行為存在或多或少的差異。因此,相比其他場景的人體行為識別,學(xué)生課堂行為識別任務(wù)具有不同的側(cè)重點和難點,該任務(wù)既需要考慮不同個體之間的聯(lián)系和差異,又需要區(qū)分差別很微小的不同行為。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種姿態(tài)特征和回歸任務(wù)輔助的細(xì)粒度學(xué)生課堂行為識別方法。該方法定義了26種學(xué)生課堂行為,實現(xiàn)了學(xué)生課堂行為的細(xì)粒度分類,該分類是分析學(xué)生心理狀態(tài)的重要基礎(chǔ)。另外,該方法充分考慮了骨骼關(guān)節(jié)、姿態(tài)等特征對行為細(xì)粒度分類的重要作用,并采用transformers架構(gòu)分析不同學(xué)生的行為之間的關(guān)聯(lián)性,同時以姿態(tài)回歸任務(wù)作為輔助,有效提高了細(xì)粒度學(xué)生課堂行為識別的準(zhǔn)確率。實驗結(jié)果表明,該方法提出的多任務(wù)輔助、多特征融合、不同個體行為關(guān)聯(lián)性信息的提取有益于解決細(xì)粒度行為識別中易于混淆的技術(shù)難點。
2、本發(fā)明的上述目的通過以下技術(shù)方案實現(xiàn):
3、姿態(tài)特征和回歸任務(wù)輔助的細(xì)粒度學(xué)生課堂行為識別方法,首先定義了26種常見的細(xì)膩化學(xué)生課堂行為,構(gòu)建了學(xué)生課堂行為數(shù)據(jù)集,在此基礎(chǔ)上,通過相應(yīng)算法提取視頻中學(xué)生身體部位的3d關(guān)節(jié)角度特征、姿態(tài)特征(2d關(guān)節(jié)角度特征、身體全局方向特征、位置偏移特征)以及視頻外觀特征,設(shè)計了一個姿態(tài)特征和回歸任務(wù)輔助的細(xì)粒度學(xué)生課堂行為識別模型。通過輸入學(xué)生視頻多維度特征,實現(xiàn)對視頻中每個學(xué)生所發(fā)生的一種或多種行為的識別。包括以下步驟:
4、步驟1:定義學(xué)生課堂行為:在選擇學(xué)生課堂行為類別時,根據(jù)學(xué)生肢體變化,包括頭部、軀體、視線、手部、嘴巴,定義26種學(xué)生課堂行為,其中包括7種頭部行為、4種軀體行為、5種視線行為、9種手部行為以及1種嘴巴行為;
5、步驟1.1:頭部行為定義,選擇7種基于頭部的學(xué)生課堂行為,根據(jù)面部朝向、頭部傾向、下巴與脖子角度以及視線方向進(jìn)行定義;
6、步驟1.2:軀體行為定義,選擇了4種基于上半軀體的學(xué)生課堂行為,根據(jù)軀體角度、頭部傾向、以及肩膀高度進(jìn)行定義;
7、步驟1.3:視線行為定義,選擇5種基于視線的學(xué)生課堂行為,根據(jù)視線焦點進(jìn)行定義;
8、步驟1.4:手部行為定義,選擇9種基于手部狀態(tài)以及手部與物體交互的學(xué)生課堂行為,根據(jù)手部狀態(tài)進(jìn)行定義;
9、步驟1.5:嘴巴行為定義,共選擇1種基于嘴巴的學(xué)生課堂行為,根據(jù)嘴巴狀態(tài)進(jìn)行定義。
10、步驟2:建立學(xué)生課堂行為標(biāo)注網(wǎng)站及標(biāo)注方法,構(gòu)建學(xué)生課堂視頻行為數(shù)據(jù)集;根據(jù)學(xué)生課堂行為的定義以及收集的學(xué)生課堂視頻,設(shè)計數(shù)據(jù)集標(biāo)注的準(zhǔn)則以及視頻數(shù)據(jù)標(biāo)注網(wǎng)站;
11、步驟2.1:數(shù)據(jù)集標(biāo)注準(zhǔn)則,為了確保數(shù)據(jù)標(biāo)注的高質(zhì)量,采取了以下三個措施:標(biāo)注人員選拔、全程監(jiān)督、雙重標(biāo)注;
12、步驟2.2:數(shù)據(jù)標(biāo)注的網(wǎng)站設(shè)計,設(shè)計一個在線數(shù)據(jù)標(biāo)注網(wǎng)站,在數(shù)據(jù)標(biāo)注過程中,管理員將待標(biāo)注的視頻樣本上傳到在線網(wǎng)站,標(biāo)注人員能夠直接在網(wǎng)站上觀看視頻,并通過單選或多選的方式對視頻中學(xué)生的行為類別進(jìn)行標(biāo)注;數(shù)據(jù)標(biāo)注的網(wǎng)站包含以下五個部分:數(shù)據(jù)表管理、基本信息管理、視頻中學(xué)生位置的自動標(biāo)注、視頻中學(xué)生位置的微調(diào)、視頻中學(xué)生的行為標(biāo)注;
13、步驟2.3:數(shù)據(jù)集統(tǒng)計,新建的數(shù)據(jù)集在創(chuàng)建過程中,共收集66個學(xué)生聽課的視頻,從這些視頻中,挑選1906個學(xué)生行為變化頻繁的2秒學(xué)生視頻片段,共包含54461個學(xué)生行為標(biāo)注。
14、步驟3:多種特征的提取及融合:提取與學(xué)生課堂行為相關(guān)的5種特征,即3d關(guān)節(jié)角度特征、姿態(tài)特征的2d關(guān)節(jié)角度特征、身體全局方向特征、位置偏移特征以及視頻外觀信息,并設(shè)計一種基于深度學(xué)習(xí)的多特征融合方法;所述的多種特征的提取及融合方法如下:
15、步驟3.1:3d關(guān)節(jié)角度特征提取,使用phalp(predicting?human?appearance,location?and?pose?for?tracking,簡稱phalp)算法提取視頻每幀圖像中的人的3d關(guān)節(jié)角度信息ji,其中ji∈rt×135,t表示視頻時間長度,i表示視頻中出現(xiàn)的第i個學(xué)生;
16、步驟3.2:姿態(tài)特征提取,使用smpl(skinned?multi-person?linear,簡稱smpl)模型提取視頻每幀圖像中的學(xué)生的姿態(tài)特征表示;其中包括2d關(guān)節(jié)角度特征θi∈rt×23×3×3(對23個人體關(guān)節(jié)分別使用3×3的向量進(jìn)行表示)、身體全局方向特征以及位置偏移特征ωi∈rt×10,其中t表示視頻時間長度,i表示視頻中出現(xiàn)的第i個學(xué)生;
17、步驟3.3:視頻外觀特征提取,使用phalp算法跟蹤并獲取視頻中每個學(xué)生的軌跡,運行預(yù)訓(xùn)練的2d動作識別模型mvit(multiscale?vision?transformers,簡稱mvit),并保存其在分類層之前的特征向量作為視頻中每個學(xué)生的視頻外觀特征,即ai∈rt×4096;
18、步驟3.4:多特征融合,通過步驟3.1至步驟3.3,得到視頻中學(xué)生的多種特征表示;其中將步驟3.2中使用smpl提取的特征在時間維度上進(jìn)行線性拼接作為視頻中第i個學(xué)生的姿態(tài)特征表示視頻中n個學(xué)生的姿態(tài)特征表示為p=[p1,…,pi,…pn]∈r(n×t)×226;進(jìn)而,一個視頻中第i個學(xué)生的特征表示為gi=[ji,pi,ai];
19、首先,使用兩個線性網(wǎng)絡(luò)對3d關(guān)節(jié)角度信息ji進(jìn)行編碼,其公式為:
20、
21、其中,ji∈rt×135表示視頻中第i個學(xué)生的3d關(guān)節(jié)角度信息,采用relu激活函數(shù);為3d關(guān)節(jié)角度信息編碼網(wǎng)絡(luò)參數(shù);表示第i個學(xué)生的3d關(guān)節(jié)角度信息的編碼特征;
22、接著,使用線性網(wǎng)絡(luò)對姿態(tài)特征pi進(jìn)行編碼,其公式為:
23、
24、其中,pi∈rt×226表示視頻中第i個學(xué)生的姿態(tài)信息;為姿態(tài)信息編碼網(wǎng)絡(luò)參數(shù);表示第i個學(xué)生的姿態(tài)信息的編碼特征;
25、其次,使用線性網(wǎng)絡(luò)和雙向gru網(wǎng)絡(luò)對外觀特征ai進(jìn)行編碼,對于外觀特征ai∈rt×4096的每一個時間步特征xt∈r1×4096進(jìn)行前向gru計算,其公式為:
26、
27、對于外觀特征ai∈rt×4096的每一個時間步特征xt∈r1×4096進(jìn)行反向gru計算,其公式為:
28、
29、其中,σ(·)表示sigmoid激活函數(shù),⊙表示矩陣乘積,是輸入的權(quán)重矩陣,是前一時間步隱藏狀態(tài)的權(quán)重矩陣,是gru的參數(shù);表示特征在反向gru網(wǎng)絡(luò)第t時刻隱藏狀態(tài);
30、在每個時間步t,雙向gru的最終隱藏狀態(tài)ht是前向隱藏狀態(tài)和反向隱藏狀態(tài)的連接,即外觀特征ai經(jīng)過雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)的最終輸出為h=[h1,h2…,ht]∈rt×8192;
31、接著,使用線性網(wǎng)絡(luò)對外觀特征的gru輸出特征h編碼,其公式為:
32、
33、其中,為外觀特征編碼網(wǎng)絡(luò)參數(shù);表示第i個學(xué)生的姿態(tài)信息的編碼特征;
34、最后,將3d關(guān)節(jié)角度的編碼特征姿態(tài)編碼特征以及外觀特征在時間維度上進(jìn)行線性拼接,得到融合特征其公式為;
35、
36、其中,表示特征拼接,表示第i個學(xué)生的融合編碼特征;t表示視頻的時間長度;
37、步驟3.5:多人隱含關(guān)系特征融合,使用多層transformer網(wǎng)絡(luò)結(jié)構(gòu)對潛在的關(guān)聯(lián)進(jìn)行關(guān)系特征融合;多人隱含關(guān)系特征融合主要分為以下兩個模塊:位置信息提取和transformer融合。
38、位置信息提取使用yolov7模型對視頻每一幀中的學(xué)生位置進(jìn)行檢測,獲取視頻中存在的n個學(xué)生的位置信息locations={l1,l2,…li,…,ln},其中l(wèi)i=[lefti,topi,righti,bottomi]∈r1×4,lefti表示檢測到的學(xué)生框左邊框距離視頻左邊界的相對像素距離,topi表示檢測到的學(xué)生框上邊框距離視頻上邊界的相對像素距離,righti表示檢測到的學(xué)生框右邊框距離視頻右邊界的相對像素距離,bottomi表示檢測到的學(xué)生框下邊框距離視頻下邊界的相對像素距離;
39、接著,將位置編碼特征li和學(xué)生特征進(jìn)行拼接操作,其公式為:
40、
41、其中表示加入位置嵌入的視頻中第i個學(xué)生特征表示;表示特征向量在時間維度的拼接。
42、transformer融合,給定一個學(xué)生課堂視頻v,其場景中包含n個學(xué)生的信息,通過特征編碼步驟,得到視頻特征表示其中,f∈rn×t×1028,將視頻特征表示f進(jìn)行變換以滿足transformer網(wǎng)絡(luò)的輸入,即f∈r1×(n×t)×1028,其公式為:
43、
44、其中,transformers(·)表示多層transformer結(jié)構(gòu),層數(shù)設(shè)置為12,隱藏層單元設(shè)置為512;表示給定視頻中n個學(xué)生特征經(jīng)過transformers網(wǎng)絡(luò)編碼的結(jié)果,
45、步驟4:構(gòu)建多任務(wù)解碼器:在解碼過程中,設(shè)計姿態(tài)估計解碼器和視頻行為識別解碼器,分別用于姿態(tài)估計任務(wù)和視頻行為識別任務(wù)。具體步驟如下:
46、步驟4.1姿態(tài)估計解碼器,姿態(tài)估計解碼器包含三個子模塊,分別對smpl算法提取的三種姿態(tài)特征,2d關(guān)節(jié)角度特征θi、身體全局方向特征以及位置偏移特征ωi進(jìn)行回歸訓(xùn)練;
47、針對視頻中所有學(xué)生的2d關(guān)節(jié)角度特征θ,使用多層感知機(jī)網(wǎng)絡(luò)進(jìn)行解碼操作;其公式為:
48、
49、其中,σ(·)表示sigmoid激活函數(shù);表示視頻中n個學(xué)生初始特征經(jīng)過編碼層編碼后的特征表示;為2d關(guān)節(jié)角度解碼網(wǎng)絡(luò)參數(shù);為2d關(guān)節(jié)角度解碼網(wǎng)絡(luò)參數(shù);表示視頻中n個學(xué)生的2d關(guān)節(jié)角度解碼特征表示;
50、針對視頻中所有學(xué)生的身體全局方向特征使用多層感知機(jī)網(wǎng)絡(luò)進(jìn)行解碼操作;其公式為:
51、
52、其中,表示視頻中n個學(xué)生初始特征經(jīng)過編碼層編碼后的特征表示;σ(·)表示sigmoid激活函數(shù);為身體全局方向解碼網(wǎng)絡(luò)參數(shù);表示視頻中n個學(xué)生的身體全局方向特征的解碼表示;
53、針對視頻中所有學(xué)生的位置偏移特征ω,使用多層感知機(jī)網(wǎng)絡(luò)進(jìn)行解碼操作;其公式為:
54、
55、其中,表示視頻中n個學(xué)生初始特征經(jīng)過編碼層編碼后的特征表示;σ(·)表示sigmoid激活函數(shù);為位置偏移解碼網(wǎng)絡(luò)參數(shù);表示視頻中n個學(xué)生的位置偏移特征的解碼表示;
56、最終,將三種解碼特征在第二維度上進(jìn)行拼接,得到最終的姿態(tài)特征解碼表示
57、步驟4.2視頻行為分類解碼器;視頻行為分類解碼器用于行為識別的解碼;使用26個二分類器識別目標(biāo)學(xué)生是否包含對應(yīng)的26種行為;針對視頻中第n和學(xué)生在第t時刻時的模型編碼層的輸出進(jìn)行行為識別解碼,該學(xué)生行為包含行為類別c的具體解碼公式為:
58、
59、其中,表示視頻v中第n個學(xué)生在第t時刻的類別c上的解碼表示;表示視頻v中第n個學(xué)生在第t時刻的融合特征表示,512表示特征的維數(shù);σ(·)表示sigmoid激活函數(shù);為類別c的解碼網(wǎng)絡(luò)參數(shù),c表示26種學(xué)生課堂行為類別其中的一種;最終,視頻中第n個學(xué)生在第t時刻的行為識別解碼器在26種行為識別上的解碼表示為
60、
61、視頻中第n個學(xué)生在第t時刻時在26種行為上解碼結(jié)果進(jìn)行歸一化操作,其公式為:
62、
63、其中,是解碼特征在26種行為類別上經(jīng)過歸一化處理得到的特征表示,n表示視頻中第n個學(xué)生,t表示在視頻第t時刻;表示該學(xué)生解碼行為包含行為類別c1的概率,表示該學(xué)生解碼行為不包含行為類別c1的概率;最終視頻v中第n個學(xué)生在第t時刻的解碼器在26種行為類別的概率為,
64、步驟4.3多任務(wù)損失函數(shù)設(shè)置,多任務(wù)模型的整體目標(biāo)損失通過行為識別和姿勢估計兩個任務(wù)的損失加權(quán)相加得到;其中,姿態(tài)估計回歸任務(wù)使用均方誤差損失函數(shù)計算其損失,行為識別任務(wù)使用交叉熵?fù)p失函數(shù)計算其損失;
65、姿態(tài)估計回歸任務(wù)使用均方誤差損失函數(shù)進(jìn)行模型損失計算;具體如下:視頻中第n個學(xué)生在第t時刻真實姿態(tài)特征表示為pn,t∈r1×226,視頻中第n個學(xué)生在第t時刻模型解碼的特征表示為n表示視頻中第n個學(xué)生,t表示在視頻第t時刻;姿態(tài)估計回歸任務(wù)損失計算公式為:
66、
67、其中,lpose是視頻中第n個學(xué)生在第t時刻的姿態(tài)估計任務(wù)的損失值,pn,t∈k1×226表示視頻中第n個學(xué)生在第t時刻的姿態(tài)特征標(biāo)簽;表示模型對視頻中第n個學(xué)生在第t個時刻的姿態(tài)解碼器解碼特征;
68、學(xué)生行為識別任務(wù)使用交叉熵?fù)p失函數(shù)計算損失,具體如下:視頻中第n個學(xué)生在第t時刻模型解碼的特征表示為視頻中第n個學(xué)生在第t時刻的真實標(biāo)簽yn,t∈r1×26,yn,t(i)為向量yn,t的第i個元素:
69、
70、單個學(xué)生在時間t時的損失計算公式為:
71、
72、最終,模型的整體損失計算公式為:
73、l=αlpose+(1-α)laction?(24)
74、l為多任務(wù)的整體損失函數(shù)值,α是一個超參數(shù),用于平衡兩個任務(wù)的重要性,設(shè)置為0.3。
75、步驟5:設(shè)計評價指標(biāo)和實驗參數(shù),實現(xiàn)多任務(wù)模型訓(xùn)練;
76、步驟6:設(shè)計對比實驗,檢驗本發(fā)明提出方法的有益性。
77、本發(fā)明的有益效果在于:本發(fā)明提供的學(xué)生課堂行為識別方法,考慮了身體姿態(tài)特征及姿態(tài)回歸任務(wù)對學(xué)生課堂行為識別的重要輔助作用,融合3d關(guān)節(jié)角度特征、2d關(guān)節(jié)角度特征、身體全局方向特征、位置偏移特征以及視頻外觀特征5種特征,采用多任務(wù)模型實現(xiàn)行為識別,并且在個體行為識別中還考慮了其與周圍不同個體的行為之間的聯(lián)系。學(xué)生課堂行為識別是理解學(xué)生學(xué)習(xí)過程中認(rèn)知參與度、情感參與度的重要線索,是建立“以學(xué)生為主”的智慧教育的基礎(chǔ)?;趯W(xué)生課堂行為識別可以獲取學(xué)生的興趣、心理狀態(tài)、相關(guān)知識點掌握程度等方面的信息,進(jìn)而可以構(gòu)建個體學(xué)生的“課堂畫像”和群體學(xué)生的“課堂畫像”。
78、本發(fā)明給出了26種學(xué)生課堂行為的定義,構(gòu)建了包含54461個學(xué)生課堂行為的視頻數(shù)據(jù)集,并構(gòu)建模型實現(xiàn)了相應(yīng)行為的識別,這對于智慧教育研究領(lǐng)域具有重要意義。并且,所構(gòu)建的行為識別模型在本發(fā)明的數(shù)據(jù)集上和公開行為識別數(shù)據(jù)集上都取得了與基線模型相近或更高的識別精度。與現(xiàn)有技術(shù)相比較,本發(fā)明具有以下優(yōu)勢:一是充分考慮了身體姿態(tài)特征及姿態(tài)回歸任務(wù)的重要輔助作用,有效解決了細(xì)粒度行為在識別中易于混淆的技術(shù)難點。二是考慮了不同個體行為的關(guān)聯(lián)性,利用了環(huán)境提供的線索,有益于為個體行為識別補充必要信息。