本發(fā)明屬于計算機(jī)科學(xué)技術(shù)領(lǐng)域,尤其涉及基于視頻的行為識別方法及裝置。
背景技術(shù):
近年來,遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)因其有效的序列建模能力而被廣泛應(yīng)用于視頻中的行為識別。現(xiàn)有技術(shù)中,RNN將視頻各幀的高層語義特征作為各個時刻的輸入,進(jìn)行序列模型訓(xùn)練,然而,使用高層語義特征,通常會對復(fù)雜行為的細(xì)節(jié)位置信息造成忽略,因此限制了RNN的行為識別能力。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明實施例提供了基于視頻的行為識別方法及裝置,以解決現(xiàn)有技術(shù)中基于RNN的行為識別技術(shù)對于復(fù)雜行為的識別能力低的問題。
第一方面,提供了一種基于視頻的行為識別方法,包括:
提取所有采樣時刻視頻幀的深度特征,所述深度特征包括所述采樣時刻視頻幀中行為的高層語義特征和細(xì)節(jié)特征;
基于所述采樣時刻視頻幀的細(xì)節(jié)特征,獲取用于表達(dá)當(dāng)前時刻視頻幀的行為的時空特征;
將所述時空特征與所述高層語義特征一同輸入LSTM模型,以對所述當(dāng)前時刻視頻幀進(jìn)行行為識別。
第二方面,提供了一種基于視頻的行為識別裝置,包括:
提取單元,用于提取所有采樣時刻視頻幀的深度特征,所述深度特征包括所述采樣時刻視頻幀中行為的高層語義特征和細(xì)節(jié)特征;
時空特征獲取單元,基于所述采樣時刻視頻幀的細(xì)節(jié)特征,獲取用于表達(dá)當(dāng)前時刻視頻幀的行為的時空特征;
行為識別單元,用于將所述時空特征與所述高層語義特征一同輸入LSTM模型,以對所述當(dāng)前時刻視頻幀進(jìn)行行為識別。
本發(fā)明實施例通過在RNN結(jié)構(gòu)中導(dǎo)入時空注意機(jī)制,使得RNN在每一時刻從全局視頻范圍內(nèi)自主學(xué)習(xí)一個與當(dāng)前時刻視頻幀行為密切相關(guān)的時空特征。該時空特征包含有關(guān)當(dāng)前時刻視頻幀行為的重要細(xì)節(jié)信息,并與當(dāng)前時刻視頻幀的高層語義特征有著較強(qiáng)的互補(bǔ)性,使得時空特征和高層語義特征可以在RNN每一時刻的行為建模中互補(bǔ)協(xié)作,以增強(qiáng)RNN識別復(fù)雜行為的能力。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例提供的基于視頻的行為識別方法的實現(xiàn)流程圖;
圖2是本發(fā)明實施例提供的基于視頻的行為識別裝置的結(jié)構(gòu)框圖。
具體實施方式
以下描述中,為了說明而不是為了限定,提出了諸如特定系統(tǒng)結(jié)構(gòu)、技術(shù)之類的具體細(xì)節(jié),以便透徹理解本發(fā)明實施例。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)清楚,在沒有這些具體細(xì)節(jié)的其它實施例中也可以實現(xiàn)本發(fā)明。在其它情況中,省略對眾所周知的系統(tǒng)、裝置、電路以及方法的詳細(xì)說明,以免不必要的細(xì)節(jié)妨礙本發(fā)明的描述。
本發(fā)明實施例提供了一種基于遞歸時空注意網(wǎng)絡(luò)的行為識別方法,通過在RNN結(jié)構(gòu)中導(dǎo)入時空注意機(jī)制,使得RNN在每一時刻從全局視頻范圍內(nèi)自主學(xué)習(xí)一個與當(dāng)前時刻視頻幀行為密切相關(guān)的時空特征,這樣一來,該時空特征能夠包含有關(guān)當(dāng)前時刻視頻幀行為的重要細(xì)節(jié)信息,并與當(dāng)前時刻視頻幀的高層語義特征有著較強(qiáng)的互補(bǔ)性,使得時空特征和高層語義特征可以在RNN每一時刻的行為建模中互補(bǔ)協(xié)作,以增強(qiáng)RNN識別復(fù)雜行為的能力。
為了說明本發(fā)明所述的技術(shù)方案,下面通過具體實施例來進(jìn)行說明。
圖1示出了本發(fā)明實施例提供的基于視頻的行為識別方法的實現(xiàn)流程,詳述如下:
在S101中,提取所有采樣時刻視頻幀的深度特征,所述深度特征包括所述采樣時刻視頻幀中行為的高層語義特征和細(xì)節(jié)特征。
優(yōu)選地,作為本發(fā)明的一個實施例,可以基于雙流卷積神經(jīng)網(wǎng)絡(luò)(Two-Stream CNNs)提取所有采樣時刻視頻幀的深度特征。具體地,可以選用VGG-16結(jié)構(gòu)的雙流CNNs作為特征抽取器,將每一個采樣的視頻幀對應(yīng)的RGB圖像和疊加光流圖像分別輸入外形流CNN和運(yùn)動流CNN,并針對每一流的CNN,對第t個視頻幀(即當(dāng)前時刻視頻幀)(t=1,…,T)進(jìn)行深度特征抽取,包括:
1、提取CNN最后一個卷積層池化后的特征立方體其中,K×K是最后一個卷積層每個特征圖的長和寬,d是最后一個卷積層的特征圖個數(shù),在此,將該特征立方體表示為其各個空間位置的特征向量集合:當(dāng)*為a時,是外形流CNN的卷積層特征,當(dāng)*為m時,是運(yùn)動流CNN的卷積層特征。此時,提取出的特征作為視頻幀中行為的細(xì)節(jié)特征。
2、CNN第一個全連接層的特征向量其中,當(dāng)*為a時,是外形流CNN的全連接層特征,當(dāng)*為m時,是運(yùn)動流CNN的全連接層特征。此時,提取出的特征作為視頻幀中行為的高層語義特征。
在S102中,基于所述采樣時刻視頻幀的細(xì)節(jié)特征,獲取用于表達(dá)當(dāng)前時刻視頻幀的行為的時空特征。
具體地,從雙流CNN中得到各個采樣視頻幀的深度特征后,采用長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)作為時空注意機(jī)制的載體,為RNN定義一個時空注意機(jī)制,以得到當(dāng)前時刻視頻幀的時空特征。
定義時空注意機(jī)制的過程如下:
首先,以LSTM上一時刻的隱藏狀態(tài)為引導(dǎo),基于所有視頻幀的特征立方體,估計各個空間位置的特征向量對于當(dāng)前時刻視頻幀行為識別的重要性:其中,是CV*(n,k)對于當(dāng)前時刻視頻幀重要性的未歸一化空間權(quán)重分?jǐn)?shù),CV*(n,k)是第n個時刻視頻幀(n=1,…,T)的特征立方體的第k個位置(k=1,…,K2)的特征向量,是空間注意機(jī)制的模型參數(shù)。
然后,針對第n個時刻視頻幀的特征立方體,對進(jìn)行歸一化處理:其中,γα是控制空間注意機(jī)制分?jǐn)?shù)分布的形狀參數(shù)。
通過將外形流和運(yùn)動流的空間權(quán)重分?jǐn)?shù)取最大值,以融合不同流的空間重要性:并計算所述當(dāng)前時刻視頻幀在外形流與運(yùn)動流的行為的空間特征:
。在得到關(guān)于當(dāng)前時刻視頻幀的T個空間特征后,以LSTM上一時刻的隱藏狀態(tài)為引導(dǎo),分別估計各個空間特征對于當(dāng)前時刻視頻幀的重要性:并對其進(jìn)行歸一化,得到:其中和分別是第n個空間特征對于當(dāng)前時刻視頻幀重要性的未歸一化時間權(quán)重分?jǐn)?shù)和歸一化時間權(quán)重分?jǐn)?shù),是時間注意機(jī)制的模型參數(shù)。
通過將外形流和運(yùn)動流的時間權(quán)重分?jǐn)?shù)取最大值,以融合不同流的時間重要性:并將與帶入為外形流和運(yùn)動流分別計算時空特征
在S103中,將所述時空特征與所述高層語義特征一同輸入LSTM模型,以對所述當(dāng)前時刻視頻幀進(jìn)行行為識別。
。在獲取到每一時刻的時空特征之后,將時空特征作為除高層語義特征之外的額外輸入,與高層語義特征一道輸入LSTM模型。具體地,LSTM模型可以為:
其中,若*為a,則LSTM模型代表了外形流LSTM,若*為m,則LSTM模型代表了運(yùn)動流LSTM。U和b的集合是LSTM的模型參數(shù),σ(·)和tanh(·)是sigmoid和tanh函數(shù),⊙表示對應(yīng)元素相乘,和分別為輸入門、遺忘門和輸出門,和分別表示待選記憶單元、記憶單元和隱藏狀態(tài),x是LSTM模型的輸入,即CNN全連接層的特征
由于時空特征包含關(guān)于當(dāng)前時刻視頻幀中行為的重要全局上下文細(xì)節(jié)信息,因此它與當(dāng)前時刻視頻幀的高層語義特征之間有很強(qiáng)的互補(bǔ)性,所以,這兩種特征相互合作,能夠增強(qiáng)LSTM模型在每一時刻對行為的判別能力。另外,外形流和運(yùn)動流的時空注意機(jī)制融合,使得外形流與運(yùn)動流中的時空注意機(jī)制相互幫助,促進(jìn)外形流RNN與運(yùn)動流RNN形成一個有機(jī)整體,從而進(jìn)一步地增強(qiáng)了模型的行為表達(dá)能力。
最后,為了通過一種端對端的統(tǒng)一方式來訓(xùn)練網(wǎng)絡(luò),外形流LSTM與運(yùn)動流LSTM的當(dāng)前隱藏狀態(tài)和共同被用于計算行為識別的預(yù)測概率向量:其中{Wa,Wm,bam}是對應(yīng)的模型參數(shù)。訓(xùn)練網(wǎng)絡(luò)的總損失函數(shù)為:Ltotal=main+AALAA,其中主損失函數(shù)是帶有權(quán)重衰減的交叉熵:C是行為的類別個數(shù),T是總的時刻的個數(shù),Θ代表所有的模型參數(shù),λΘ是權(quán)重衰減的系數(shù),yt,c代表真實的行為類別標(biāo)簽。另外,作為本發(fā)明的一個實施例,由于視頻中的行為通常發(fā)生在動作人的周圍,因此,可以定義一個基于動作人的注意正則項:其中,λAA為正則項系數(shù),是空間注意機(jī)制的外形流和運(yùn)動流融合的融合權(quán)重分?jǐn)?shù),M(t,·)是視頻中動作人的剪影或者邊界框。這樣,時空注意機(jī)制在每一時刻會更加關(guān)注當(dāng)前時刻動作人的周圍區(qū)域,以進(jìn)一步地輔助進(jìn)行行為識別,提高行為識別的準(zhǔn)確率。
對應(yīng)于上文實施例所述的基于視頻的行為識別方法,圖2示出了本發(fā)明實施例提供的基于視頻的行為識別裝置的結(jié)構(gòu)框圖,為了便于說明,僅示出了與本實施例相關(guān)的部分。
參照圖2,該裝置包括:
提取單元21,用于提取所有采樣時刻視頻幀的深度特征,所述深度特征包括所述采樣時刻視頻幀中行為的高層語義特征和細(xì)節(jié)特征;
時空特征獲取單元22,基于所述采樣時刻視頻幀的細(xì)節(jié)特征,獲取用于表達(dá)當(dāng)前時刻視頻幀的行為的時空特征;
行為識別單元23,用于將所述時空特征與所述高層語義特征一同輸入LSTM模型,以對所述當(dāng)前時刻視頻幀進(jìn)行行為識別。
可選地,所述提取單元21包括:
輸入子單元,用于將所述采樣時刻視頻幀的RGB圖像和疊加光流圖像分別輸入雙流卷積神經(jīng)網(wǎng)絡(luò)的外形流和運(yùn)動流;
卷積特征提取子單元,用于提取卷積神經(jīng)網(wǎng)絡(luò)最后一個卷積層池化后的特征立方體以作為第t時刻視頻幀中行為的細(xì)節(jié)特征,其中,K×K是所述最后一個卷積層每個特征圖的長和寬,d是所述最后一個卷積層的特征圖個數(shù),當(dāng)*為a時,是外形流卷積神經(jīng)網(wǎng)絡(luò)的卷積層特征,當(dāng)*為m時,是運(yùn)動流卷積神經(jīng)網(wǎng)絡(luò)的卷積層特征;
全連接特征提取子單元,用于提取卷積神經(jīng)網(wǎng)絡(luò)第一個全連接層的特征向量以作為第t時刻視頻幀中行為的高層語義特征,其中,當(dāng)*為a時,是外形流卷積神經(jīng)網(wǎng)絡(luò)的全連接層特征,當(dāng)*為m時,是運(yùn)動流卷積神經(jīng)網(wǎng)絡(luò)的全連接層特征。
可選地,所述時空特征獲取單元22包括:
空間子單元,用于以長短時記憶神經(jīng)網(wǎng)絡(luò)LSTM上一時刻的隱藏狀態(tài)為引導(dǎo),基于所有采樣視頻幀的所述特征立方體,估計各個空間位置的特征向量對于當(dāng)前第t時刻視頻幀行為識別的重要性:其中,αt*n,k是CV*n,k對于當(dāng)前第t時刻視頻幀重要性的未歸一化空間權(quán)重分?jǐn)?shù),CV*(n,k)是第n個時刻視頻幀(n=1,…,T)的所述特征立方體的第k個位置(k=1,…,K2)的特征向量,是空間注意機(jī)制的模型參數(shù);針對第n個時刻視頻幀的所述特征立方體,對進(jìn)行歸一化處理:其中,γα是控制空間注意機(jī)制分?jǐn)?shù)分布的形狀參數(shù);通過將外形流和運(yùn)動流的空間權(quán)重分?jǐn)?shù)取最大值,以融合不同流的空間重要性:并計算所述當(dāng)前時刻視頻幀在外形流與運(yùn)動流的行為的空間特征:
時間子單元,用于在得到關(guān)于所述當(dāng)前時刻視頻幀的T個空間特征后,以為引導(dǎo),分別估計各個空間特征對于所述當(dāng)前時刻視頻幀重要性的時間權(quán)重分?jǐn)?shù):并對其進(jìn)行歸一化得到:其中是時間注意機(jī)制的模型參數(shù)。通過將外形流和運(yùn)動流的時間權(quán)重分?jǐn)?shù)取最大值,以融合不同流的時間重要性:并將與帶入為外形流和運(yùn)動流分別計算時空特征
可選地,所述行為識別單元23包括:
預(yù)測輸出獲取子單元,將外形流和運(yùn)動流的時空特征分別輸入LSTM模型,以分別獲取外形流LSTM與運(yùn)動流LSTM的當(dāng)前隱藏狀態(tài)和以計算行為識別的預(yù)測概率向量:其中{Wa,Wm,bam}是對應(yīng)的模型參數(shù)。
模型訓(xùn)練子單元,基于總損失函數(shù)Ltotal=Lmain+λAALAA訓(xùn)練網(wǎng)絡(luò),其中主損失函數(shù)是帶有權(quán)重衰減的交叉熵:C是行為的類別個數(shù),T是總的時刻的個數(shù),Θ代表所有的模型參數(shù),λΘ是權(quán)重衰減的系數(shù),yt,c代表真實的行為類別標(biāo)簽,額外損失函數(shù)為基于動作人的注意正則項:其中是空間注意機(jī)制的外形流和運(yùn)動流融合的融合權(quán)重分?jǐn)?shù),M(t,·)是視頻中動作人的剪影或者邊界框,λAA為正則項系數(shù)。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡潔,僅以上述各功能單元、模塊的劃分進(jìn)行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能單元、模塊完成,即將所述裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能單元或模塊,以完成以上描述的全部或者部分功能。實施例中的各功能單元、模塊可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中,上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。另外,各功能單元、模塊的具體名稱也只是為了便于相互區(qū)分,并不用于限制本申請的保護(hù)范圍。上述系統(tǒng)中單元、模塊的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機(jī)軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
在本發(fā)明所提供的實施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的系統(tǒng)實施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是通過一些接口,裝置或單元的間接耦合或通訊連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明實施例的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明實施例各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。