本發(fā)明屬于計算機視覺中的行為識別領域,涉及一種人類的行為識別方法。
背景技術:
識別圖像或視頻中的人類行為在計算機視覺中是一個基本的問題,這在許多應用如運動視頻分析,監(jiān)控系統(tǒng)和視頻檢索中至關重要。最近的工作中,深度學習明顯提高了行為識別的性能。然而,這些工作不適用于處理包含多人互動的數(shù)據(jù)。首先,他們專注于分給每個圖像一個行為標簽,這不適用于包含多個行為類別的圖像。第二,他們忽視了人之間的相互關系為識別復雜的人類活動像握手,戰(zhàn)斗和足球比賽等提供了重要的語境信息。
技術實現(xiàn)要素:
為了克服已有人類的行為識別方式的無法適用于多個行為類別的圖像、無法識別交互行為的不足,本發(fā)明提供了一種適用于多個行為類別的圖像、能夠識別交互行為的用于人類行為識別的深度聯(lián)合結構化和結構化學習方法。
本發(fā)明解決其技術問題所采用的技術方案是:
一種用于人類行為識別的深度聯(lián)合結構化和結構化學習的方法,所述方法包括以下步驟:
1)構造聯(lián)合結構和結構公式化
假設有一組n個訓練樣本I表示一張圖像,a是圖像中所有人的行為標簽的集合;如果圖像包含m個個體,則a=[a1,…,am],矩陣E=(eij)∈{0,1}m×m是一個嚴格的上三角矩陣,表示圖像中所有個體的相互關系結構;eij=0意味著在人i和人j之間沒有交互,而eij=1指示人i和人j彼此交互;
為了預測a和E,最大化下面的潛在函數(shù):
這里w=[w0,w1,w2]T是訓練期間要學習的模型參數(shù),函數(shù)φ(·),μ(·)和ψ(·)用于計算三種類型的聯(lián)合特征,φ給出了圖像和行為標簽的聯(lián)合特征;μ計算所述圖像和所述交互標簽e的聯(lián)合特征;ψ輸出圖像和兩個個體的行為標簽a的聯(lián)合特征表示;
2)特征表示
使用空間網(wǎng)絡從圖像中的人體區(qū)域提取深層卷積神經網(wǎng)絡CNN特征,將空間網(wǎng)絡的fc6層的輸出作為深度特征,使用梯度直方圖HOG和光流直方圖特征HOF來進一步增強特征表示;CNN,HOG和HOF特征被連接以表示圖像中的個人行為或交互關系,使用這種特征為每個數(shù)據(jù)集訓練兩個線性支持向量機分類器,一個用于分類個人行為,另一個用于分類交互關系,使用組合特征來計算公式(1)中的聯(lián)合特征,為此,計算
這里dα,d∈是用訓練好的SVM分類器分類包含個人行為和交互關系得到的決策值表示的向量,并且所有運算符表示基于向量的元素計算;
sα(a)表示一個人的行為為a的判別分數(shù)。s∈(e)表示1兩個人有交互的判別分值或不在交互的分值,公式(1)中的聯(lián)合特征由下式定義:
φ(I,a)=1α(a)·Sα(a) (4)
μ(I,a)=1∈(e)·S∈(e) (5)
ψ(I,ai,aj)=1τ(ai,aj,pi,pj,rij) (6)
這里1α(a)∈{0,1}a是指示符向量,在位置a時取值1,,其他位置取0的。同樣,1∈(e)在位置e取1,在別處取0,1τ(·)在索引位置ai,aj,pi,pj,rij時取1,其中pi,pj表示人i和人j的姿勢,rij表示人j與人i的相對位置;為了計算rij,將圍繞人j的區(qū)域劃分為六個子區(qū)域,并且每個子區(qū)域被分配一個相對位置,rij是包圍邊界框i的中心的子區(qū)域的ID;
3)訓練模型的參數(shù)
給定n個訓練樣本,使用max-margin-style公式進行訓練:
這里ξ表示松弛變量,C是確定增加模型復雜性和減少對訓練數(shù)據(jù)的不正確預測之間的權衡的常數(shù);標簽成本,即不正確預測的懲罰由下式給出:
其中δ(·)是指示功能,如果測試條件為真則給出1,否則輸出0;
4)訓練和預測中的相關推理
在訓練的每次迭代期間,針對每個訓練示例解決以下?lián)p失增強推理:
由于潛在函數(shù)F的表達,成本項Δ被吸收到公式(1)中的兩個一元項中,因此,問題(10)與優(yōu)化是同質的:
進一步,所述步驟4)中,交替搜索標簽空間和結構空間,在每次迭代期間,算法依次執(zhí)行以下兩個步驟:
4.1)固定結構并通過循環(huán)信任傳播解決剩余問題,以找到的解;
4.2)固定標簽并解決剩余的整數(shù)線性規(guī)劃ILP問題(11),找到的解;
其中a*表示在第一步驟中發(fā)現(xiàn)的解,向(11)中添加兩種類型的約束,這導致另外兩個ILP問題:
其中||Z||0是Z的L0范數(shù);
(11),(12),(13)分別是沒有約束的,最大邊數(shù)約束和節(jié)點度約束的ILP問題,分別用ILP-NoC,ILP-MNE和ILP-NDC表示;
對于每對(i,j)i,j∈{1,…,m},i<j,考慮輸出
如果V0>V1,設置eij=0,否則把(i,j)放到候選隊列中;接下來,根據(jù)候選的V1值以降序對數(shù)組進行排序,然后從頭到尾訪問這個數(shù)組,對于當前對(s,t),如果在ILP-NDC中沒有違反約束,設置est=1;否則設置est=0。
本發(fā)明提出一個簡單但有效的框架,以有監(jiān)督的方式,來聯(lián)合學習人類互動結構和結構化標簽。為此,通過深層神經網(wǎng)絡學習特征表達式來表示個人行為和交互行為,并提出了一種高效的推理算法來估計標簽和圖形結構。
本發(fā)明的有益效果主要表現(xiàn)在:適用于多個行為類別的圖像、能夠識別交互行為。
具體實施方式
下面對本發(fā)明作進一步描述。
一種用于人類行為識別的深度聯(lián)合結構化和結構化學習的方法,包括以下步驟:
1)構造聯(lián)合結構和結構公式化
假設有一組n個訓練樣本這里I表示一張圖像,a是圖像中所有人的行為標簽的集合。如果圖像包含m個個體,則a=[a1,…,am]。矩陣E=(eij)∈{0,1}m×m是一個嚴格的上三角矩陣,表示圖像中所有個體的相互關系結構。具體地,eij=0意味著在人i和人j之間沒有交互,而eij=1指示人i和人j彼此交互。事實上,a和E可以被認為是對人類活動的直接描述。通過這種表示,識別系統(tǒng)不僅能夠回答問題1)他們在做什么,而且能夠回答問題2)它們之間的相互作用關系是什么。
為了預測a和E,最大化下面的潛在函數(shù):
這里w=[w0,w1,w2]T是訓練期間要學習的模型參數(shù)。函數(shù)φ(·),μ(·)和ψ(·)用于計算三種類型的聯(lián)合特征。φ給出了觀察信息(即圖像)和行為標簽的聯(lián)合特征;μ計算所述圖像和所述交互標簽e的聯(lián)合特征;ψ輸出圖像和兩個個體的行為標簽a的聯(lián)合特征表示。在該公式中,任何成對特征可以通過將二進制變量eij打開(eij=1或關閉(eij=0)來包括或排除。直觀地,從上述模型中排除成對項(通過設置e=0)表示相關人沒有彼此交互。包括這樣的項不是信息性的,并且將使模型的訓練復雜化。這個模型的目的是獲得行為標簽和交互關系的聯(lián)合優(yōu)化。例如,如果知道人u和人v正在交互,將他們的行為標簽預測為(握手-握手)而不是(握手-吻)更合理。
公式(1)在兩個方面表現(xiàn)新穎。首先,添加新項(即第二項)來促進交互結構的學習。這種簡單的修改使得能夠更好地識別個人行為和交互關系,部分是因為與之前僅使用高級特征的方法相比,它結合高級信息(即公式(1)中的第三項)和低級特征(即第二項)來明確地估計結構。第二,用深層卷積神經網(wǎng)絡計算聯(lián)合特征,其能力在人類行為識別中沒有得到很好的探索??偟膩碚f,此公式優(yōu)于公共數(shù)據(jù)集的最好方法。
2)特征表示
通過深層卷積神經網(wǎng)絡(CNN)學習到的特征和手工制作的特征相結合。使用空間網(wǎng)絡從圖像中的人體區(qū)域提取CNN特征??臻g網(wǎng)絡捕獲了靜止圖像的靜態(tài)外觀。由于其良好的性能,將空間網(wǎng)絡的fc6層的輸出作為深度特征。使用梯度直方圖和光流直方圖(HoG和HoF)特征來進一步增強特征表示。HoF是從相鄰幀中提取的,這是對不捕獲運動線索的CNN特征和HoG特征的良好補充。為了計算HoF,提取扭曲光流。最后,CNN,HOG和HOF特征被連接以表示圖像中的個人行為或交互關系。使用這種特征為每個數(shù)據(jù)集訓練兩個線性支持向量機(SVM)分類器,一個用于分類個人行為,另一個用于分類交互關系。注意,其目的是使用組合特征來計算公式(1)中的聯(lián)合特征。為此,計算
這里dα,d∈是用訓練好的SVM分類器分類包含個人行為和交互關系得到的決策值表示的向量,并且所有運算符表示基于向量的元素計算。
sα(a)表示一個人的行為為a的判別分數(shù)。s∈(e)表示1兩個人有交互的判別分值(當e=1時)或不在交互的分值(當e=0時)。公式(1)中的聯(lián)合特征由下式定義:
φ(I,a)=1α(a)·Sα(a) (4)
μ(I,a)=1∈(e)·S∈(e) (5)
ψ(I,ai,aj)=1τ(ai,aj,pi,pj,rij) (6)
這里1α(a)∈{0,1}a是指示符向量,在位置a時取值1,,其他位置取0的。同樣,1∈(e)在位置e取1,在別處取0,1τ(·)在索引位置ai,aj,pi,pj,rij時取1,其中pi,pj表示人i和人j的姿勢,rij表示人j與人i的相對位置。在本文中,將人體姿勢分為五類,即p∈{profile left,profile right,frontal left,frontal right,backwards}。為了計算rij,將圍繞人j的區(qū)域劃分為六個子區(qū)域,并且每個子區(qū)域被分配{overlap,adjacentleft(right),nearleft(right),far}中的一個相對位置。rij是包圍邊界框i的中心的子區(qū)域的ID。
3)訓練模型的參數(shù)
給定n個訓練樣本,目的是訓練用于行為識別的判別模型。如通常所做的,使用以下的max-margin-style公式進行訓練:
這里ξ表示松弛變量,C是確定增加模型復雜性和減少對訓練數(shù)據(jù)的不正確預測之間的權衡的常數(shù)。確定“最佳”C的常見策略是交叉驗證。標簽成本,即不正確預測的懲罰由下式給出:
其中δ(·)是指示功能,如果測試條件為真則給出1,否則輸出0。
把這種公式稱為聯(lián)合結構和結構化學習(JSSL),因為它打算同時學習結構標簽a和交互結構E。很容易發(fā)現(xiàn)公式(7)是凸的,可以通過切平面算法或基于子梯度的方法有效地求解w。
4)訓練和預測中的相關推理
在訓練的每次迭代期間,必須針對每個訓練示例解決以下?lián)p失增強推理:
由于潛在函數(shù)F的表達,成本項Δ可以被吸收到公式(1)中的兩個一元項中。因此,問題(10)與下面的優(yōu)化是同質的:
知道訓練的模型w,這個優(yōu)化實際上是預測問題。換句話說,可以使用相同的算法來解決損失增加的推斷和預測問題。然而,這種優(yōu)化通常是NP完全問題。引入多個輔助變量和約束,可以把它近似到雙線性規(guī)劃問題。本發(fā)明提出一個簡單而有效的算法來近似解決這樣的問題。
本發(fā)明的算法交替搜索標簽空間和結構空間。在每次迭代期間,算法依次執(zhí)行以下兩個步驟:
1.固定結構并通過循環(huán)信任傳播解決剩余問題,以找到的解。
2.固定標簽并解決剩余的整數(shù)線性規(guī)劃(1LP)問題(11),找到的解。
其中a*表示在第一步驟中發(fā)現(xiàn)的解。為了確保稀疏性,我們向(11)中添加兩種類型的約束,這導致另外兩個ILP問題:
其中||Z||0是Z的L0范數(shù)。
實際上,(11),(12),(13)分別是沒有約束的,最大邊數(shù)約束和節(jié)點度約束的ILP問題,分別用ILP-NoC,ILP-MNE和ILP-NDC表示。很容易發(fā)現(xiàn)ILP-NoC和ILP-MNE是容易解決的,總是能找到確切的解決方案。
本發(fā)明近似解決ILP-NDC。該算法維護交互的候選陣列。對于每對(i,j)i,j∈{1,…,m},i<j,考慮輸出
如果V0>V1,設置eij=0,否則把(i,j)放到候選隊列中。接下來,根據(jù)候選的V1值以降序對數(shù)組進行排序。然后從頭到尾訪問這個數(shù)組。對于當前對(s,t),如果在ILP-NDC中沒有違反約束,設置est=1;否則設置est=0。
本發(fā)明提出了一個聯(lián)合學習交互結構和結構化標簽的方法。本發(fā)明的公式基于低級圖像信息和高級上下文信息,以監(jiān)督的方式明確地學習人類交互關系。本發(fā)明已經包括通過深層卷積神經網(wǎng)絡學習的特征,并且發(fā)現(xiàn)這樣的特征能夠增強對人類個人行為和交互的識別。使用max-margin-style訓練方法來學習模型參數(shù),并提出了一種有效的算法來解決相關的推理問題。