視頻分類方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種視頻分類方法和裝置,通過根據(jù)視頻樣本的特征之間的關(guān)系和語義之間的關(guān)系建立神經(jīng)網(wǎng)絡(luò)分類模型;獲取待分類的視頻文件的特征組合;采用所述神經(jīng)網(wǎng)絡(luò)分類模型和所述待分類的視頻文件的特征組合,對(duì)所述待分類的視頻文件進(jìn)行分類。由于神經(jīng)網(wǎng)絡(luò)分類模型是根據(jù)視頻樣本的特征之間的關(guān)系和語義之間的關(guān)系建立的,充分考慮了特征之間的關(guān)系和語義之間的關(guān)系,因此,可以提高視頻分類的準(zhǔn)確性。
【專利說明】視頻分類方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例涉及計(jì)算機(jī)技術(shù),尤其涉及一種視頻分類方法和裝置。
【背景技術(shù)】
[0002] 視頻分類是指利用視頻的視覺信息、聽覺信息W及動(dòng)作信息對(duì)視頻進(jìn)行處理和分 析,并判斷和識(shí)別出視頻中出現(xiàn)的動(dòng)作和事件。視頻分類應(yīng)用非常廣泛,例如:進(jìn)行智能監(jiān) 控、視頻數(shù)據(jù)管理等。
[0003] 現(xiàn)有技術(shù)中,通過早期融合的技術(shù)進(jìn)行視頻分類,具體地,將從視頻文件中提取出 的不同特征或者不同特征的核矩陣線性組合起來,輸入到分類器中進(jìn)行分析,從而,對(duì)視頻 進(jìn)行分類。然而,采用現(xiàn)有技術(shù)的方法,忽略了特征之間和語義之間的關(guān)系,因此,視頻分類 的準(zhǔn)確性不高。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例提供一種視頻分類方法和裝置,W提高視頻分類的準(zhǔn)確性。
[0005] 本發(fā)明實(shí)施例第一方面提供一種視頻分類方法,包括:
[0006] 根據(jù)視頻樣本的特征之間的關(guān)系和語義之間的關(guān)系建立神經(jīng)網(wǎng)絡(luò)分類模型;
[0007] 獲取待分類的視頻文件的特征組合;
[0008] 采用所述神經(jīng)網(wǎng)絡(luò)分類模型和所述待分類的視頻文件的特征組合,對(duì)所述待分類 的視頻文件進(jìn)行分類。
[0009] 結(jié)合第一方面,在第一種可能的實(shí)現(xiàn)方式中,所述根據(jù)視頻樣本的特征之間的關(guān) 系和語義之間的關(guān)系建立神經(jīng)網(wǎng)絡(luò)分類模型,包括:
[0010] 根據(jù)視頻樣本的特征之間的關(guān)系和語義之間的關(guān)系,獲取神經(jīng)網(wǎng)絡(luò)分類模型融合 層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重矩陣;
[0011] 根據(jù)所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類層的權(quán)重矩 陣建立神經(jīng)網(wǎng)絡(luò)的分類模型。
[0012] 結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式中,所述根據(jù) 視頻樣本的特征之間的關(guān)系和語義之間的關(guān)系,獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣 和所述神經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重矩陣,包括:
[0013] 通過優(yōu)化目標(biāo)函數(shù),獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分 類模型分類層的權(quán)重矩陣;
[0014] 所述目標(biāo)函數(shù)為:
[00巧]min".。( + 卻I We II,, + 4^化(Wl I Q W/ I) ' 2 如 2
[001 引 S. t Q ^ 0 tr ( Q )二 1
[0017] 其中,^表示視頻樣本的預(yù)測(cè)值和真實(shí)值么間的偏差,A 1表示預(yù)設(shè)的第一權(quán)重系 數(shù),A 2表示預(yù)設(shè)的第二權(quán)重系數(shù),W。表示所述神經(jīng)網(wǎng)絡(luò)分類模型離合層的權(quán)重矩陣,W。的 每一列對(duì)應(yīng)一種特征,Wh表示所述神經(jīng)網(wǎng)絡(luò)分類模型分類器層的權(quán)重矩陣,will表示所述 Wy的轉(zhuǎn)置,IlWcI Ui表示W(wǎng)c的2, 1范數(shù),Q表示一個(gè)半正定的對(duì)稱矩陣,用于表征語義之 間的關(guān)系,Q初始值為單位矩陣。
[0018] 結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第H種可能的實(shí)現(xiàn)方式中,所述通過 優(yōu)化目標(biāo)函數(shù),獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模型分類層 的權(quán)重矩陣,包括:
[0019] 采用近端梯度算法優(yōu)化目標(biāo)函數(shù),獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所 述神經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重矩陣。
[0020] 結(jié)合第一方面的第H種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,所述采用 近端梯度算法優(yōu)化目標(biāo)函數(shù),包括:
[0021] 初始化所述目標(biāo)函數(shù)中的所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng) 網(wǎng)絡(luò)分類模型分類層的權(quán)重矩陣;
[0022] 通過輸入視頻樣本的特征,獲取輸出的預(yù)測(cè)值和實(shí)際值的偏差;
[0023] 根據(jù)所述偏差調(diào)整所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分 類模型分類層的權(quán)重矩陣,直到所述偏差小于預(yù)設(shè)闊值。
[0024] 本發(fā)明實(shí)施例第二方面提供一種視頻分類裝置,包括:
[00巧]模型建立模塊,用于根據(jù)視頻樣本的特征之間的關(guān)系和語義之間的關(guān)系建立神經(jīng) 網(wǎng)絡(luò)分類模型;
[0026] 特征提取模塊,用于獲取待分類的視頻文件的特征組合;
[0027] 分類模塊,用于采用所述神經(jīng)網(wǎng)絡(luò)分類模型和所述待分類的視頻文件的特征組 合,對(duì)所述待分類的視頻文件進(jìn)行分類。
[0028] 結(jié)合第二方面,在第一種可能的實(shí)現(xiàn)方式中,所述模型建立模塊具體用于根據(jù)視 頻樣本的特征之間的關(guān)系和語義之間的關(guān)系,獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和 所述神經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重矩陣;根據(jù)所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣 和所述神經(jīng)網(wǎng)絡(luò)分類層的權(quán)重矩陣建立神經(jīng)網(wǎng)絡(luò)的分類模型。
[0029] 結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式中,所述模型 建立模塊具體用于通過優(yōu)化目標(biāo)函數(shù),獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神 經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重矩陣;
[0030] 所述目標(biāo)函數(shù)為:
[0031]
【權(quán)利要求】
1. 一種視頻分類方法,其特征在于,包括: 根據(jù)視頻樣本的特征之間的關(guān)系和語義之間的關(guān)系建立神經(jīng)網(wǎng)絡(luò)分類模型; 獲取待分類的視頻文件的特征組合; 采用所述神經(jīng)網(wǎng)絡(luò)分類模型和所述待分類的視頻文件的特征組合,對(duì)所述待分類的視 頻文件進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)視頻樣本的特征之間的關(guān)系和 語義之間的關(guān)系建立神經(jīng)網(wǎng)絡(luò)分類模型,包括: 根據(jù)視頻樣本的特征之間的關(guān)系和語義之間的關(guān)系,獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的 權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重矩陣; 根據(jù)所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類層的權(quán)重矩陣建 立神經(jīng)網(wǎng)絡(luò)的分類模型。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)視頻樣本的特征之間的關(guān)系和 語義之間的關(guān)系,獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模型分類 層的權(quán)重矩陣,包括: 通過優(yōu)化目標(biāo)函數(shù),獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模 型分類層的權(quán)重矩陣; 所述目標(biāo)函數(shù)為:
s. t Q ^ Otr (Q)=I 其中,(表示視頻樣本的預(yù)測(cè)值和真實(shí)值之間的偏差,A1表示預(yù)設(shè)的第一權(quán)重系數(shù), 入2表示預(yù)設(shè)的第二權(quán)重系數(shù),We表示所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣,We的每一 列對(duì)應(yīng)一種特征,Wm表示所述神經(jīng)網(wǎng)絡(luò)分類模型分類器層的權(quán)重矩陣,W匕表示所述Wm的轉(zhuǎn)置,I IweI Iu表示W(wǎng)e的2, 1范數(shù),Q表示一個(gè)半正定的對(duì)稱矩陣,用于表征語義之間的 關(guān)系,Q初始值為單位矩陣。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述通過優(yōu)化目標(biāo)函數(shù),獲取神經(jīng)網(wǎng)絡(luò)分 類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重矩陣,包括: 采用近端梯度算法優(yōu)化目標(biāo)函數(shù),獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神 經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重矩陣。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述采用近端梯度算法優(yōu)化目標(biāo)函數(shù),包 括: 初始化所述目標(biāo)函數(shù)中的所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò) 分類模型分類層的權(quán)重矩陣; 通過輸入視頻樣本的特征,獲取輸出的預(yù)測(cè)值和實(shí)際值的偏差; 根據(jù)所述偏差調(diào)整所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模 型分類層的權(quán)重矩陣,直到所述偏差小于預(yù)設(shè)閾值。
6. -種視頻分類裝置,其特征在于,包括: 模型建立模塊,用于根據(jù)視頻樣本的特征之間的關(guān)系和語義之間的關(guān)系建立神經(jīng)網(wǎng)絡(luò) 分類模型; 特征提取模塊,用于獲取待分類的視頻文件的特征組合; 分類模塊,用于采用所述神經(jīng)網(wǎng)絡(luò)分類模型和所述待分類的視頻文件的特征組合,對(duì) 所述待分類的視頻文件進(jìn)行分類。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述模型建立模塊具體用于根據(jù)視頻樣 本的特征之間的關(guān)系和語義之間的關(guān)系,獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述 神經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重矩陣;根據(jù)所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所 述神經(jīng)網(wǎng)絡(luò)分類層的權(quán)重矩陣建立神經(jīng)網(wǎng)絡(luò)的分類模型。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述模型建立模塊具體用于通過優(yōu)化目 標(biāo)函數(shù),獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重 矩陣; 所述目標(biāo)函數(shù)為:
s. t Q ^ Otr (Q)=I 其中,(表示視頻樣本的預(yù)測(cè)值和真實(shí)值之間的偏差,A1表示預(yù)設(shè)的第一權(quán)重系數(shù), 入2表示預(yù)設(shè)的第二權(quán)重系數(shù),We表示所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣,We的每一 列對(duì)應(yīng)一種特征,Wm表示所述神經(jīng)網(wǎng)絡(luò)分類模型分類器層的權(quán)重矩陣,Wi3I 1表示所述Wm的轉(zhuǎn)置,I IweI Iu表示W(wǎng)e的2, 1范數(shù),Q表示一個(gè)半正定的對(duì)稱矩陣,用于表征語義之間的 關(guān)系,Q初始值為單位矩陣。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述模型建立模塊具體用于采用近端梯 度算法優(yōu)化目標(biāo)函數(shù),獲取神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模型 分類層的權(quán)重矩陣。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述模型建立模塊具體用于初始化所述 目標(biāo)函數(shù)中的所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模型分類層 的權(quán)重矩陣;通過輸入視頻樣本的特征,獲取輸出的預(yù)測(cè)值和實(shí)際值的偏差;根據(jù)所述偏 差調(diào)整所述神經(jīng)網(wǎng)絡(luò)分類模型融合層的權(quán)重矩陣和所述神經(jīng)網(wǎng)絡(luò)分類模型分類層的權(quán)重 矩陣,直到所述偏差小于預(yù)設(shè)閾值。
【文檔編號(hào)】G06K9/62GK104331442SQ201410580006
【公開日】2015年2月4日 申請(qǐng)日期:2014年10月24日 優(yōu)先權(quán)日:2014年10月24日
【發(fā)明者】姜育剛, 吳祖煊, 薛向陽, 顧子晨, 柴振華 申請(qǐng)人:華為技術(shù)有限公司, 復(fù)旦大學(xué)