一種基于多特征時(shí)空關(guān)系融合的人類行為識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)視覺領(lǐng)域,尤其是設(shè)及一種基于多特征時(shí)空關(guān)系融合的人類行 為識(shí)別方法。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)科學(xué)的發(fā)展,視頻開始成為人們生活的一部分,如何讓計(jì)算機(jī)"理解" 視頻中的人類行為,對(duì)基于內(nèi)容的視頻檢索、智能監(jiān)控、人機(jī)交互和虛擬現(xiàn)實(shí)等領(lǐng)域都具有 重要作用。
[0003] -般而言,一個(gè)經(jīng)典的人類行為識(shí)別框架主要包括=個(gè)步驟:特征抽取、視頻編碼 W及分類器的訓(xùn)練和識(shí)別,此外,對(duì)于采用多種特征的情況,還包括一個(gè)可選的多特征前期 融合或后期融合步驟,其中的視頻編碼是決定識(shí)別準(zhǔn)確率的關(guān)鍵步驟。
[0004] 目前,被廣泛使用和改進(jìn)的編碼方法之一是詞袋(BagofWords,簡(jiǎn)稱BoW)方法,經(jīng) 典的BoW方法首先對(duì)特征進(jìn)行聚類,接著把視頻表示成特征出現(xiàn)在每一個(gè)質(zhì)屯、中的頻次直 方圖向量,雖然BoW編碼已經(jīng)在很多文獻(xiàn)中顯示了很好的泛化能力和健壯性,但該方法也 有很多缺點(diǎn);比如費(fèi)時(shí)的特征聚類過程,KMEANS算法的有監(jiān)督參數(shù)kW及質(zhì)屯、之間時(shí)空關(guān) 系f目息的丟失。
[0005] 為了消除KMEANS算法的參數(shù)k依賴經(jīng)驗(yàn)確定的問題,"LiuJ,ShahM.Learning humanactionsviainformationmaximization[C].ComputerVisionandPatternRecogniti on,2008.CVPR2008.IE邸Conferenceon.I邸E,2008:l-8."使用互信息最大化聚類算法無 監(jiān)督的確定最合適的質(zhì)屯、數(shù)量,該算法首先用一個(gè)較大的k進(jìn)行KMEANS聚類,W減少由于 KMEANS聚類造成的信息丟失,之后通過互信息最大化聚類算法在盡可能少的丟失信息的前 提下減少質(zhì)屯、數(shù)量,W此提高后續(xù)步驟的計(jì)算速度。
[0006] 為了解決時(shí)空關(guān)系信息丟失的問題,許多研究者們提出了基于BoW的擴(kuò)展方法, 按照所保留信息的不同,該些方法被分為兩類;保留絕對(duì)時(shí)空信息的BoW表示和保留相對(duì) 時(shí)空信息的BoW表示。前者通常需要對(duì)視頻的時(shí)空體進(jìn)行全局分割,該使得計(jì)算得到的視 頻編碼與特征的絕對(duì)時(shí)空坐標(biāo)相關(guān),缺乏平移不變性。"LaptevI,MarszalekM,SchmidC,e tal.Learningrealistichumanactionsfrommovies[C].ComputerVisionandPatternRecog nition, 2008.CVPR2008.IE邸Conferenceon.I邸E, 2008:1-8."把視頻的時(shí)空體積分割成 預(yù)定義的時(shí)空網(wǎng)格,之后分別在每個(gè)網(wǎng)格中計(jì)算BoW并把所有網(wǎng)格的BoW向量串聯(lián)起來作 為最終的視頻編碼。然而,為了確定最佳的網(wǎng)格組合,該方法需要用交叉驗(yàn)證進(jìn)行貪屯、捜 索,而該個(gè)步驟是非常費(fèi)時(shí)的,此外,通過串聯(lián)不同網(wǎng)格的BoW得到的超長向量進(jìn)一步增 方口了 計(jì)算復(fù)雜度。"SunJ,WuX,YanS,etal.Hierarchicalspatio-temporalcontextmodeli ngforactionrecognition[C].ComputerVisionandPatternRecognition, 2009.CVPR2009. I邸EConferenceon.IE邸,2009:2004-2011. "W-種層級(jí)的方式獲取S層時(shí)空上下文信息。 而后者,即保留相對(duì)時(shí)空信息的方法,通常是利用BoW質(zhì)屯、或特征之間的相對(duì)時(shí)空距離進(jìn) 行視步巧編石馬。"KovashkaA,GraumanK.Learningahierarchyofdiscriminativespace-timen eighborhoodfeaturesforhumanactionrecognition[C].ComputerVisionandPatternRecog nition(CVPR),20101 邸EConferenceon.IE邸,2010:2046-2053."首先用原特征點(diǎn)周圍的點(diǎn) 構(gòu)造新特征,之后結(jié)合新特征所屬質(zhì)屯、信息和新特征方向信息構(gòu)造視頻編碼。由于需要構(gòu) 造多層級(jí)的質(zhì)屯、,該方法的計(jì)算復(fù)雜度相對(duì)較高。"WangJ,化enZ,WuY.Actionreco即itionw ithmultiscalespatio-temporalcontexts[C].ComputerVisionandPatternRecognition(C VPR), 20111邸EConferenceon.IE邸,2011:3185-3192."通過在原特征的多個(gè)時(shí)空尺度中獲 取特征之間的時(shí)空上下文交互信息進(jìn)行視頻編碼。。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明主要解決的技術(shù)問題是提供一種基于多特征時(shí)空關(guān)系融合的人類行為識(shí) 別方法,該方法對(duì)兩種特征對(duì)應(yīng)質(zhì)屯、之間的時(shí)空關(guān)系信息進(jìn)行顯式編碼,能夠更好的挖掘 不同特征的有效信息進(jìn)行人類行為識(shí)別。
[0008] 為解決上述技術(shù)問題,本發(fā)明采用的一個(gè)技術(shù)方案是;一種基于多特征時(shí)空關(guān)系 融合的人類行為識(shí)別方法,具體步驟包括: 步驟1 ;對(duì)視頻進(jìn)行密集軌跡特征抽取,并W光流直方圖和運(yùn)動(dòng)邊界直方圖兩種方法 對(duì)抽取的軌跡特征進(jìn)行表示,得到兩種特征表示; 步驟2 ;用KMEANS算法構(gòu)建兩種特征對(duì)應(yīng)質(zhì)屯、之間的時(shí)空二部圖; 步驟3 ;采用K路二部圖分割技術(shù)將步驟2中的時(shí)空二部圖分割為具有強(qiáng)時(shí)空關(guān)系的 質(zhì)屯、和具有弱時(shí)空關(guān)系的質(zhì)屯、,將分割后具有強(qiáng)時(shí)空關(guān)系的質(zhì)屯、融合起來,將具有弱時(shí)空 關(guān)系的質(zhì)屯、分開; 步驟4;計(jì)算具有強(qiáng)時(shí)空關(guān)系的質(zhì)屯、之間的時(shí)空距離矩陣,并采用基于條件概率的表 示方法對(duì)距離矩陣進(jìn)行壓縮,得到兩種特征融合后的視頻級(jí)編碼; 步驟5 ;訓(xùn)練分類器并進(jìn)行識(shí)別。
[0009] 在本發(fā)明一個(gè)較佳實(shí)施例中,所述步驟2中KMEANS算法將所述步驟1中得到的兩 種特征進(jìn)行聚類,從而得到若干個(gè)質(zhì)屯、,通過計(jì)算每個(gè)視頻中任意兩個(gè)特征對(duì)應(yīng)時(shí)空坐標(biāo) 之間的L1距離來衡量兩個(gè)特征之間的時(shí)空關(guān)系,利用兩種特征之間的時(shí)空關(guān)系計(jì)算其質(zhì) 屯、之間的時(shí)空關(guān)系,并得到兩種特征對(duì)應(yīng)質(zhì)屯、之間的時(shí)空二部圖。
[0010] 在本發(fā)明一個(gè)較佳實(shí)施例中,所述的步驟4中所述條件概率表示方法首先對(duì)質(zhì)屯、 之間的距離向量進(jìn)行離散化,然后W條件概率描述任意兩個(gè)融合后質(zhì)屯、之間的時(shí)空距離分 布信息。
[0011] 本發(fā)明的有益效果是;本發(fā)明一種基于多特征時(shí)空關(guān)系融合的人類行為識(shí)別方 法,該方法通過計(jì)算每個(gè)視頻中特征之間的時(shí)空距離,從而構(gòu)建兩種特征對(duì)應(yīng)質(zhì)屯、之間的 時(shí)空二部圖,并采用K路二部圖分割技術(shù)對(duì)時(shí)空二部圖進(jìn)行分割,W此將具有強(qiáng)時(shí)空關(guān)系 的質(zhì)屯、融合,更好的挖掘了不同特征的有效信息,提升了識(shí)別準(zhǔn)確率。