本發(fā)明屬于智能視頻監(jiān)控技術(shù)領(lǐng)域,具體涉及一種零訓(xùn)練樣本行為識別方法。
背景技術(shù):
行為識別在視頻監(jiān)控中扮演著重要的角色,它可以識別出視頻中人體的行為動作,為危險行為報警、特定行為識別做出貢獻(xiàn)。行為識別中最簡單最有效的方法當(dāng)屬基于詞包模型(bag-of-words,BOW)的方法,此方法先對視頻進(jìn)行特征提取,然后將所有的特征聚類,然后根據(jù)每個視頻特征在聚類中心出現(xiàn)的頻率進(jìn)行直方圖化。但是此方法的一個缺點是沒有考慮到時空特征。Zhang等人利用基于語義的線性編碼方式不僅考慮了特征之間的時空關(guān)系而且減少了重構(gòu)誤差。Ryoo等人提出一種“特征×特征×關(guān)系”直方圖去同時獲取特征點之間表象的關(guān)系。Kovashaka等人利用近鄰時空興趣點設(shè)計一種層級直方圖來彌補詞包模型的不足?;谠~包模型的方法均是直接將底層特征和類別標(biāo)簽相連,然而,豐富的時空信息很難被單一的類別標(biāo)簽表示。所以近期的一些研究工作提出用屬性描述動作的相關(guān)信息,屬性特征可以被視為高層語義特征。Lampert等人提出直接屬性預(yù)測模型(directattributeprediction,DAP)。劉等人把每個動作屬性當(dāng)成潛變量去預(yù)測行為類別。在這些模型中,均是把屬性當(dāng)做一個二值變量,表示該屬性是否存在于某個動作。但是在現(xiàn)實生活中,二值屬性并不能準(zhǔn)確的描述行為動作。因此,Parikh等人提出相對屬性的概念,其通過描述屬性之間的相對關(guān)系來表示行為。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是要解決上述現(xiàn)有技術(shù)中存在的技術(shù)問題,進(jìn)而提供一種零訓(xùn)練樣本行為識別方法。為了實現(xiàn)所述目的,本發(fā)明基于零訓(xùn)練樣本行為識別方法包括以下步驟:一種零訓(xùn)練樣本行為識別方法,其特征在于,該方法包括以下步驟:步驟S1,提取視頻樣本庫中每個動作視頻樣本的特征向量;步驟S2,設(shè)定對應(yīng)于多種人體行為的多個人體運動屬性,以及在每個人體運動屬性下,每兩個代表人體行為的動作視頻,即動作視頻對之間的關(guān)系;步驟S3,將所述動作視頻對之間的關(guān)系作為輸入,利用排序支持向量機進(jìn)行訓(xùn)練,得到訓(xùn)練模型;步驟S4,利用所述排序支持向量機輸出的排序分?jǐn)?shù),對每一類具有訓(xùn)練樣本的人體行為進(jìn)行擬合得到一個混合高斯模型;步驟S5,根據(jù)所述步驟S4得到的混合高斯模型,利用遷移學(xué)習(xí),獲得零訓(xùn)練樣本人體行為類別的混合高斯模型;步驟S6,按照步驟S1的描述,提取得到測試視頻樣本的特征向量;步驟S7,根據(jù)所述測試視頻樣本的特征向量以及所述步驟S5得到的零訓(xùn)練樣本人體行為類別的混合高斯模型,利用最大后驗概率原則,判斷所述測試視頻樣本中零訓(xùn)練樣本人體行為所屬的類別。本發(fā)明的有益效果為:通過利用混合高斯模型擬合排序分?jǐn)?shù),達(dá)到行為識別的目的,通過最大后驗判斷所屬類別,從而提高行為識別的魯棒性。附圖說明圖1是本發(fā)明提出的零訓(xùn)練樣本行為識別方法的流程圖。具體實施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。圖1是本發(fā)明提出的零訓(xùn)練樣本行為識別方法的流程圖,如圖1所示,所述方法包括以下步驟:步驟S1,提取視頻樣本庫中每個動作視頻樣本的特征向量;所述步驟S1進(jìn)一步包括以下步驟:步驟S11,對所述視頻樣本庫中的每個動作視頻樣本利用三維角點特征(Harris3D)提取多個時空興趣點;步驟S12,在每個提取到的時空興趣點周圍(比如20*20像素點的范圍)提取梯度直方圖(histogramoforientedgradients,HOG)和光流直方圖(histogramofopticalflow,HOF),并將提取得到的這兩個特征直接連成一個特征向量;步驟S13,利用聚類方法將所有得到的特征向量聚集為多個聚類中心(比如2000個);所述聚類方法可以使用現(xiàn)有技術(shù)中常用的k-means聚類方法或其他聚類方法。步驟S14,利用詞包模型(bag-of-words,BOW)將每個動作視頻樣本表示成一個維數(shù)與所述聚類中心的個數(shù)相同的直方圖,作為相應(yīng)動作視頻樣本的特征向量,該直方圖的每一維表示該動作視頻樣本的特征向量在相應(yīng)聚類中心出現(xiàn)的頻率。步驟S2,設(shè)定對應(yīng)于多種人體行為的多個人體運動屬性,以及在每個人體運動屬性下,每兩個代表人體行為的動作視頻,即動作視頻對之間的關(guān)系;在本發(fā)明一實施例中定義了六種人體行為,分別為:拳擊,鼓掌,揮手,慢跑,跑和走,并定義了5種人體運動屬性以及它們之間的關(guān)系,如表1所示,表1中,左欄表示六種人體行為的5種人體運動屬性,右欄表示這5種人體運動屬性之間的相對關(guān)系,其中,1表示拳擊,2表示鼓掌,3表示揮手,4表示慢跑,5表示跑,6表示走,“>”表示人體運動屬性的大于(強于)關(guān)系,比如對于跑這種人體行為來說,其腿部運動要大于或者說強于慢跑這種人體行為的腿部運動,這樣的話,對于人體運動屬性“腿的運動”,跑和慢跑這兩種人體行為存在關(guān)系:5>4,“~”表示人體運動屬性的相似關(guān)系:表1屬性關(guān)系腿的運動5>4>6>1~2~3手臂的運動3>2>1>5>4~6手臂的張合2>3>1~4~5~6手臂形狀的筆直情況2~3>6>1>4~5過胸的手臂運動3>1~2>4~5>6步驟S3,將所述動作視頻對之間的關(guān)系作為輸入,利用排序支持向量機(RankSVM)進(jìn)行訓(xùn)練,得到訓(xùn)練模型;所述排序支持向量機采用Sigmoid和Gaussian函數(shù)作為損失函數(shù),所述排序支持向量機的目標(biāo)函數(shù)可以寫為:其中,λ是用來平衡排序支持向量機參數(shù)的稀疏度和損失之間的關(guān)系的平衡因子;w是待求的排序支持向量機參數(shù)向量;xi和xj表示兩個人體運動屬性為大于關(guān)系的樣本,即xi>xj;xm和xn表示兩個人體運動屬性為相似關(guān)系的樣本,即xm~xn;L1為Sigmoid損失函數(shù),L2為Gaussian損失函數(shù),分別定義如下:這里,t是損失值,α用于控制Sigmoid函數(shù)的形狀,e是自然對數(shù);這里,t是損失值,β用于控制Gaussian函數(shù)的形狀,e是自然對數(shù);步驟S4,利用所述排序支持向量機輸出的排序分?jǐn)?shù),對每一類具有訓(xùn)練樣本的人體行為進(jìn)行擬合得到一個混合高斯模型:其中,為訓(xùn)練樣本x的排序分?jǐn)?shù),角標(biāo)q代表有訓(xùn)練樣本的人體行為的類別,i為Q類有訓(xùn)練樣本的人體行為中的第i類人體行為,Z表示所需要的高斯函數(shù)的數(shù)量,為第z個高斯函數(shù)的權(quán)重,為第z個高斯函數(shù)的均值,為第z個高斯函數(shù)的協(xié)方差矩陣,為高斯密度函數(shù),公式如下:步驟S5,根據(jù)所述步驟S4得到的混合高斯模型,利用遷移學(xué)習(xí),獲得零訓(xùn)練樣本人體行為類別的混合高斯模型;所述步驟S5中按照以下規(guī)則獲得零訓(xùn)練樣本人體行為類別的混合高斯模型:1)對于上文中定義的某一人體運動屬性ad,當(dāng)存在人體行為時,所述零訓(xùn)練樣本人體行為類別的混合高斯模型中的第z個高斯函數(shù)的第d維的均值為:其中,和代表有訓(xùn)練樣本的第i個和第k個人體行為類別,代表無訓(xùn)練樣本的第j個人體行為類別;2)當(dāng)存在人體行為時,第z個高斯函數(shù)的第d維的均值為:其中,gz為人體運動屬性ad對應(yīng)的所有有訓(xùn)練樣本的人體行為的排序分?jǐn)?shù)的平均權(quán)重;3)相似地,當(dāng)存在人體行為時,第z個高斯函數(shù)的第d維的均值為:4)當(dāng)存在人體行為時,第z個高斯函數(shù)的第d維的均值為:第z個高斯函數(shù)的協(xié)方差矩陣也設(shè)為相等,即:5)如果在人體運動屬性ad中,沒有相應(yīng)的與人體行為相關(guān)的描述,則令第z個高斯函數(shù)的第d維的均值為:以上除了第4種情況外,第z個高斯函數(shù)的協(xié)方差矩陣都設(shè)為:根據(jù)以上準(zhǔn)則就可以求得零訓(xùn)練樣本人體行為類別的混合高斯模型。步驟S6,按照步驟S1的描述,提取得到測試視頻樣本的特征向量;步驟S7,根據(jù)所述測試視頻樣本的特征向量以及所述步驟S5得到的零訓(xùn)練樣本人體行為類別的混合高斯模型,利用最大后驗概率原則,判斷所述測試視頻樣本中零訓(xùn)練樣本人體行為所屬的類別。該步驟中,首先將提取得到的測試視頻樣本的特征向量輸入至零訓(xùn)練樣本人體行為類別的混合高斯模型中,取得概率值最大的類別即認(rèn)為是所述測試視頻樣本的類別,即:其中,c*表示概率最大的類別標(biāo)簽,表示樣本在第k個類別下的概率,R表示類別數(shù)量。以網(wǎng)上公開的數(shù)據(jù)庫作為測試對象,比如在KTH數(shù)據(jù)庫上,當(dāng)零訓(xùn)練樣本為1類時本發(fā)明方法的人體行為識別正確率為86.8%,當(dāng)零訓(xùn)練樣本為2類時本發(fā)明方法的人體行為識別正確率為83.07%,當(dāng)零訓(xùn)練樣本為3類時本發(fā)明方法的人體行為識別正確率為72.7%,由此可見本發(fā)明方法的有效性。以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。