視頻分類快速識(shí)別的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域,尤其涉及視頻分類快速識(shí)別的方法及裝置。
【背景技術(shù)】
[0002] 視頻中內(nèi)容的識(shí)別技術(shù)在視頻監(jiān)控、檢索、人機(jī)交互等領(lǐng)域被廣泛應(yīng)用。近年來(lái), 基于稠密軌跡的特征提取方法以及基于雙神經(jīng)網(wǎng)絡(luò)(即圖像深度網(wǎng)絡(luò)和光流深度網(wǎng)絡(luò))方 法展現(xiàn)出了較好的動(dòng)作識(shí)別能力。然而,雖然所述基于稠密軌跡的特征提取方法以及基于 雙神經(jīng)網(wǎng)絡(luò)方法可以有效的提高動(dòng)作識(shí)別的準(zhǔn)確率,但是由于基于稠密軌跡的特征提取方 法以及基于雙神經(jīng)網(wǎng)絡(luò)方法都需要計(jì)算光流(Opticalflow)信息,而光流信息的計(jì)算非常 耗時(shí),從而導(dǎo)致現(xiàn)有基于稠密軌跡的特征提取方法以及基于雙神經(jīng)網(wǎng)絡(luò)方法在進(jìn)行視頻中 內(nèi)容識(shí)別時(shí)耗時(shí)較長(zhǎng)。
【發(fā)明內(nèi)容】
[0003] 鑒于此,本發(fā)明實(shí)施例提供一種視頻分類快速識(shí)別的方法及裝置,以解決現(xiàn)有技 術(shù)在進(jìn)行視頻中內(nèi)容識(shí)別時(shí)耗時(shí)較長(zhǎng)的問(wèn)題。
[0004] 第一方面,本發(fā)明實(shí)施例提供了一種視頻分類快速識(shí)別的方法,所述方法包括:
[0005] 獲取待測(cè)試視頻,從所述待測(cè)試視頻的視頻碼流中提取出運(yùn)動(dòng)向量和原始RGB圖 像;
[0006] 將所述運(yùn)動(dòng)向量轉(zhuǎn)換為運(yùn)動(dòng)向量圖像;
[0007] 將所述原始RGB圖像輸入至預(yù)定的基于RGB圖像的卷積神經(jīng)網(wǎng)絡(luò)中,以獲得所述待 測(cè)試視頻的基于RGB的分類類別置信度;
[0008] 將所述運(yùn)動(dòng)向量圖像輸入至預(yù)定的基于運(yùn)動(dòng)向量的增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)中,以獲得 所述測(cè)試視頻的基于運(yùn)動(dòng)向量的分類類別置信度;
[0009] 將所述基于RGB的分類類別置信度和所述基于運(yùn)動(dòng)向量的分類類別置信度進(jìn)行融 合,獲得所述待測(cè)試視頻的分類類別置信度;
[0010]將所述待測(cè)試視頻的分類類別置信度中分值最高的一項(xiàng)所對(duì)應(yīng)的類別作為所述 待測(cè)試視頻中內(nèi)容所對(duì)應(yīng)的類別。
[0011] 第二方面,一種視頻分類快速識(shí)別的裝置,所述裝置包括:
[0012] 測(cè)試提取單元,用于獲取待測(cè)試視頻,從所述待測(cè)試視頻的視頻碼流中提取出運(yùn) 動(dòng)向量和原始RGB圖像;
[0013] 轉(zhuǎn)換單元,用于將所述運(yùn)動(dòng)向量轉(zhuǎn)換為運(yùn)動(dòng)向量圖像;
[0014] 第一處理單元,用于將所述原始RGB圖像輸入至預(yù)定的基于RGB圖像的卷積神經(jīng)網(wǎng) 絡(luò)中,以獲得所述待測(cè)試視頻的基于RGB的分類類別置信度;
[0015] 第二處理單元,用于將所述運(yùn)動(dòng)向量圖像輸入至預(yù)定的基于運(yùn)動(dòng)向量的增強(qiáng)卷積 神經(jīng)網(wǎng)絡(luò)中,以獲得所述測(cè)試視頻的基于運(yùn)動(dòng)向量的分類類別置信度;
[0016]融合單元,用于將所述基于RGB的分類類別置信度和所述基于運(yùn)動(dòng)向量的分類類 別置信度進(jìn)行融合,獲得所述待測(cè)試視頻的分類類別置信度;
[0017] 識(shí)別單元,用于將所述待測(cè)試視頻的分類類別置信度中分值最高的一項(xiàng)所對(duì)應(yīng)的 類別作為所述待測(cè)試視頻中內(nèi)容所對(duì)應(yīng)的類別。
[0018] 本發(fā)明實(shí)施例與現(xiàn)有技術(shù)相比存在的有益效果是:本發(fā)明實(shí)施例在測(cè)試階段不需 要計(jì)算光流信息,而是直接使用從視頻碼流中解碼得到的運(yùn)動(dòng)向量信息,由于不需要通過(guò) 相鄰兩幀計(jì)算光流信息,從而解決了現(xiàn)有技術(shù)在進(jìn)行視頻中內(nèi)容識(shí)別時(shí)耗時(shí)較長(zhǎng)的問(wèn)題, 滿足了對(duì)視頻的實(shí)時(shí)處理需求。而且,與光流信息一樣,所述運(yùn)動(dòng)向量信息也可以表征相鄰 兩幀之間的運(yùn)動(dòng)信息,并能與原始RGB圖像信息互補(bǔ),從而提升視頻中內(nèi)容識(shí)別的能力,具 有較強(qiáng)的易用性和實(shí)用性。
【附圖說(shuō)明】
[0019] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述 中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些 實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些 附圖獲得其他的附圖。
[0020] 圖1是本發(fā)明實(shí)施例提供的視頻分類快速識(shí)別的方法的實(shí)現(xiàn)流程示意圖;
[0021] 圖2是本發(fā)明實(shí)施例提供的運(yùn)動(dòng)向量與光流的示意圖;
[0022] 圖3是本發(fā)明實(shí)施例提供的視頻分類快速識(shí)別的裝置的組成結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023] 以下描述中,為了說(shuō)明而不是為了限定,提出了諸如特定系統(tǒng)結(jié)構(gòu)、技術(shù)之類的具 體細(xì)節(jié),以便透切理解本發(fā)明實(shí)施例。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)清楚,在沒(méi)有這些具體 細(xì)節(jié)的其它實(shí)施例中也可以實(shí)現(xiàn)本發(fā)明。在其它情況中,省略對(duì)眾所周知的系統(tǒng)、裝置、電 路以及方法的詳細(xì)說(shuō)明,以免不必要的細(xì)節(jié)妨礙本發(fā)明的描述。
[0024] 為了說(shuō)明本發(fā)明所述的技術(shù)方案,下面通過(guò)具體實(shí)施例來(lái)進(jìn)行說(shuō)明。
[0025] 請(qǐng)參閱圖1,圖1示出了本發(fā)明實(shí)施例提供的視頻分類快速識(shí)別的方法的實(shí)現(xiàn)流 程,該方法可適用于各類終端設(shè)備,如個(gè)人計(jì)算機(jī)、平板電腦、手機(jī)等。該方法過(guò)程詳述如 下:
[0026] 步驟S101,獲取待測(cè)試視頻,從所述待測(cè)試視頻的視頻碼流中提取出運(yùn)動(dòng)向量和 原始RGB圖像。
[0027] 在本實(shí)施例中,所述運(yùn)動(dòng)向量表示相鄰兩幀圖像中,局部圖像塊的平移量。由于視 頻壓縮標(biāo)準(zhǔn)如H.264、MPEG等利用運(yùn)動(dòng)向量實(shí)現(xiàn)對(duì)視頻數(shù)據(jù)的壓縮,因此運(yùn)動(dòng)向量可以快速 從視頻中提取。例如,使用視頻解碼器對(duì)所述待測(cè)試視頻進(jìn)行解碼,從解碼后的視頻碼流中 獲得具有運(yùn)動(dòng)信息的運(yùn)動(dòng)向量以及原始RGB圖像。
[0028] 在步驟S102中,將所述運(yùn)動(dòng)向量轉(zhuǎn)換為運(yùn)動(dòng)向量圖像。
[0029] 在本實(shí)施例中,由于所述運(yùn)動(dòng)向量是基于視頻編碼中宏塊的模式進(jìn)行編碼,運(yùn)動(dòng) 向量表示的是宏塊的運(yùn)動(dòng)信息,而宏塊的大小為8X8或16X16。因此,在將所述運(yùn)動(dòng)向量轉(zhuǎn) 換為運(yùn)動(dòng)向量圖像時(shí),本發(fā)明采用填充的方式,將所述運(yùn)動(dòng)向量賦值給大小為8X8或16X 16的宏塊。另外,由于在視頻編碼中存在自編碼幀(I-frame),I-frame不包含任何運(yùn)動(dòng)向量 信息。所以針對(duì)I-frame,本發(fā)明I-frame將前一幀的運(yùn)動(dòng)向量直接賦值到該I-frame中,而 視頻編碼中存在的另外兩種編碼幀:P-frame和B-frame都具有運(yùn)動(dòng)信息,所以無(wú)需進(jìn)一步 處理。
[0030] 在步驟S103中,將所述原始RGB圖像輸入至預(yù)定的基于RGB圖像的卷積神經(jīng)網(wǎng)絡(luò) 中,以獲得所述待測(cè)試視頻的基于RGB的分類類別置信度;
[0031] 在步驟S104中,將所述運(yùn)動(dòng)向量圖像輸入至預(yù)定的基于運(yùn)動(dòng)向量的增強(qiáng)卷積神經(jīng) 網(wǎng)絡(luò)中,以獲得所述測(cè)試視頻的基于運(yùn)動(dòng)向量的分類類別置信度。
[0032] 在本實(shí)施例中,所述預(yù)定的基于RGB圖像的卷積神經(jīng)網(wǎng)絡(luò)以及基于運(yùn)動(dòng)向量的增 強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)是在訓(xùn)練階段獲得,具體的是:
[0033] 從訓(xùn)練集中抽取出訓(xùn)練視頻,并從所述訓(xùn)練視頻的視頻碼流中提取出運(yùn)動(dòng)向量圖 和原始RGB圖像;
[0034] 將所述運(yùn)動(dòng)向量轉(zhuǎn)換為運(yùn)動(dòng)向量圖像;
[0035] 基于視頻的類別標(biāo)定信息和所述訓(xùn)練視頻的視頻碼流中提取出的原始RGB圖像訓(xùn) 練獲得基于RGB圖像的卷積神經(jīng)網(wǎng)絡(luò),并基于視頻的類別標(biāo)定信息、該運(yùn)動(dòng)向量圖像和已經(jīng) 訓(xùn)練完成的基于光流的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練獲得基于運(yùn)動(dòng)向量的增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)。
[0036] 較佳的,由于訓(xùn)練基于運(yùn)動(dòng)向量的增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)需要運(yùn)動(dòng)向量圖像以及已經(jīng) 訓(xùn)練完成的基于光流的卷積神經(jīng)網(wǎng)絡(luò)的參數(shù),因此下面具體說(shuō)明如何從運(yùn)動(dòng)向量圖像中訓(xùn) 練得到基于運(yùn)動(dòng)向量的增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò):
[0037] 設(shè)定已經(jīng)訓(xùn)練完成的基于光流的卷積神經(jīng)網(wǎng)絡(luò)為T(mén),其參數(shù)為 J;二彳/^^.,^^,...,塒…為丁的層數(shù)義定待訓(xùn)練的基于運(yùn)動(dòng)向量的增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò) 為S,其參數(shù)為1=試:,<,...,仏《 = 1,...,]¥}』為5的層數(shù),1'與5的結(jié)構(gòu)相同,巧與?^的結(jié)構(gòu) 相同;
[0038] 通過(guò)所述已經(jīng)訓(xùn)練完成的基于光流的卷積神經(jīng)網(wǎng)絡(luò)T的參數(shù)初始化待訓(xùn)練的基于 運(yùn)動(dòng)向量的增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)S的參數(shù),即# = ,k=l,. . .,N;其中,<、巧分別為S和T關(guān) 于第k層的參數(shù);
[0039] 設(shè)定所述訓(xùn)練視頻中內(nèi)容所對(duì)應(yīng)的類別為Q,S的第N層輸出為Sf,第N-1層輸出為 5^-l,.其中 (.SgUhsoftmax表示softmax函數(shù),softmax函數(shù)設(shè)定為:
'x表示softmax函數(shù)的輸入向量,m表示x的維度,i 表示輸入或輸出向量的某一維(例如第1維、第2維等)的指標(biāo),示將輸入向量X的每一 維計(jì)算#之后進(jìn)行相加,并設(shè)定Q與Sf的損失函數(shù)Ζ丨,其中1[χ]為 示性函數(shù),當(dāng)Q=i時(shí),l[Q=i] =l,其余情況均等于0,#切表示S的第Ν層輸出的第i維; m
[0040] 設(shè)定T的第N-1層輸出為If'損失函數(shù)=-Σ*Ρ/丨Ι,Ρ??_丨,其中m為PsU}和Ρτ /-1 {i}的維度,Ps和Ρτ分別為
車(chē)中Temp為溫度參數(shù), 用來(lái)調(diào)節(jié)輸出分布,Ps {i}表示Ps的第i項(xiàng),Ρτ{i}表示Ρτ的第i項(xiàng);
[0041 ]通過(guò)最小化損失函數(shù)L獲得基于運(yùn)動(dòng)向量的增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò),其中L=Lct+wLtsl,w為預(yù)先設(shè)定的Lgt和Ltsl的權(quán)重,例如w=Temp2。
[