專利名稱:一種視頻序列中人體動(dòng)作的識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域,特別涉及一種人體動(dòng)作的識(shí)別方法。
背景技術(shù):
現(xiàn)在數(shù)字化網(wǎng)絡(luò)化的步伐正在逐步加快,視頻監(jiān)控系統(tǒng)上升參與到全行業(yè)的管理 中已成為事實(shí),以其直觀性和實(shí)時(shí)性的優(yōu)點(diǎn)而在各行各業(yè)特別是安全防范領(lǐng)域倍受青睞。 隨著攝像機(jī)等監(jiān)控設(shè)備成本的日益降低,視頻監(jiān)控系統(tǒng)可以廣泛地應(yīng)用于銀行、郵電、監(jiān) 獄、法庭、大型公共設(shè)施、大型倉(cāng)庫(kù)及軍事基地等場(chǎng)所,公共安全領(lǐng)域起著日益重要的作用。 但是目前監(jiān)控系統(tǒng)的功能大多僅僅停留在監(jiān)控人員對(duì)視頻信號(hào)的人工監(jiān)視和事后錄像分 析上,并沒(méi)有充分利用到目前計(jì)算機(jī)技術(shù)高速發(fā)展所提供的巨大計(jì)算能力上。事實(shí)上,多數(shù) 監(jiān)控系統(tǒng)還是模擬式的,少數(shù)數(shù)字式的系統(tǒng)也僅僅是提供多畫(huà)面顯示及硬盤(pán)錄像類的簡(jiǎn)單 功能?,F(xiàn)有的監(jiān)控系統(tǒng)都不能實(shí)現(xiàn)實(shí)時(shí)主動(dòng)的監(jiān)督作用,即監(jiān)控的智能化和無(wú)人化。智能 監(jiān)控系統(tǒng)能實(shí)現(xiàn)全天實(shí)時(shí)監(jiān)控,并自動(dòng)分析攝像機(jī)捕捉的圖像數(shù)據(jù),當(dāng)異常發(fā)生時(shí),能向安 全保衛(wèi)人員準(zhǔn)確及時(shí)的發(fā)送警報(bào),從而避免犯罪的發(fā)生,而視頻監(jiān)控的核心在于對(duì)人體動(dòng) 作的識(shí)別。目前對(duì)人體動(dòng)作的識(shí)別,主要有3種方法(1)模板匹配的方法;(2)狀態(tài)空間的 方法;(3)基于模型的方法。模板匹配方法(template matching)其優(yōu)點(diǎn)是算法單間容易實(shí)現(xiàn),時(shí)間開(kāi)銷少,對(duì) 相差比較大的行為識(shí)別效果較好,但對(duì)細(xì)微差別的行為識(shí)別效果較差,對(duì)運(yùn)動(dòng)持續(xù)時(shí)間的 變化及噪聲比較敏感。近年來(lái),采用狀態(tài)空間法開(kāi)展人體動(dòng)作行為識(shí)別的研究較多,具有代表性的是馬 爾可夫網(wǎng)絡(luò),隱馬爾可夫模型(HMM,Hidden Markov Model)已經(jīng)被廣泛應(yīng)用于視頻、圖像 序列的預(yù)測(cè)、估計(jì)、檢測(cè)與行為識(shí)別中。然而,狀態(tài)空間法需要大量的訓(xùn)練樣本來(lái)訓(xùn)練狀態(tài) 轉(zhuǎn)移概率參數(shù)其準(zhǔn)確度受到訓(xùn)練樣本數(shù)量影響很大,狀態(tài)序列識(shí)別過(guò)程其原理也是模板匹 配,而由于行為的復(fù)雜性只靠模板匹配顯然是不夠的?,F(xiàn)在更多的人體動(dòng)作行為識(shí)別研究者更傾向于把目光投向使用自然語(yǔ)言描述的 方法對(duì)人體動(dòng)作行為進(jìn)行識(shí)別,使得人體動(dòng)作行為的語(yǔ)義描述分析研究得到了一定的進(jìn) 展,用于視頻圖像中人體動(dòng)作行為的自然語(yǔ)言描述,如建立2D、3D模型首先,使用3D模型 對(duì)人體瞬時(shí)姿勢(shì)描述,使構(gòu)建的模型盡可能與人體目標(biāo)姿態(tài)相似,即圖像中人體的邊緣信 息,或是把行為看成是2D靜態(tài)姿勢(shì)序列,通過(guò)基于模型的方法,對(duì)人體二維、三維姿勢(shì)、角 度、位置以及與環(huán)境中其它一些目標(biāo)相對(duì)距離的變化等進(jìn)行重建與估計(jì)最后生成人體動(dòng)作 行為描述的自然語(yǔ)言文本。但基于模型的方法的構(gòu)建復(fù)雜度高難于實(shí)現(xiàn),而目前自然語(yǔ)言 描述的特征提取方法提取的特征非常的多,一個(gè)一百幀左右的視頻提取出幾百到幾千個(gè)特 征,處理時(shí)間開(kāi)銷大,因而不易于應(yīng)用于實(shí)時(shí)系統(tǒng)。最近國(guó)外主要是以自然語(yǔ)言描述和各種 概率模型的建立來(lái)進(jìn)行為識(shí)別,但行為識(shí)別仍處于初級(jí)階段。上述各種方法不能在識(shí)別正確率和實(shí)時(shí)性之間達(dá)到平衡,即要么識(shí)別正確率比較高,但計(jì)算復(fù)雜度高,實(shí)時(shí)性差;要么計(jì)算復(fù)雜度低,實(shí)時(shí)性好,但識(shí)別正確率比較低。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有的視頻圖像中人體動(dòng)作識(shí)別方法在準(zhǔn)確率和實(shí)時(shí) 性之間的矛盾,提出了一種視頻序列中人體動(dòng)作的識(shí)別方法。本發(fā)明的技術(shù)方案是一種視頻序列中人體動(dòng)作的識(shí)別方法,包括特征提取和特 征訓(xùn)練與識(shí)別兩個(gè)過(guò)程,其中,特征提取包括如下步驟Si.計(jì)算視頻序列的像素運(yùn)動(dòng)變化頻率圖;S2.劃分像素運(yùn)動(dòng)變化頻率圖的區(qū)域,確定像素運(yùn)動(dòng)變化頻率圖中值大于某一閾 值的區(qū)域,找到該區(qū)域中的像素的最小縱坐標(biāo)和最小橫坐標(biāo),以及最大縱坐標(biāo)和最大橫坐 標(biāo),然后以此最小縱坐標(biāo)和最小橫坐標(biāo),最大縱坐標(biāo)和最大橫坐標(biāo)確定一個(gè)目標(biāo)區(qū)域,并按 一定的比例在縱軸或橫軸方向上劃分若干個(gè)子區(qū)域;S3.對(duì)目標(biāo)區(qū)域和若干個(gè)子區(qū)域分別求像素變化直方圖,具體如下S31.將目標(biāo)區(qū)域的像素運(yùn)動(dòng)變化頻率圖中的值非均勻量化為N個(gè)量化值;S32.分別求出目標(biāo)區(qū)域和若干個(gè)子區(qū)域各個(gè)量化值對(duì)應(yīng)在像素運(yùn)動(dòng)變化頻率圖 中的值的和,這樣每個(gè)區(qū)域就得到一個(gè)N維的直方圖;S33.將目標(biāo)區(qū)域和若干個(gè)子區(qū)域的直方圖平鋪成一個(gè)多維的向量并歸一化,得到 像素變化直方圖;S4.對(duì)目標(biāo)區(qū)域和若干個(gè)子區(qū)域分別求邊緣梯度直方圖;S5.計(jì)算視頻序列的差分邊緣直方圖,具體過(guò)程如下計(jì)算當(dāng)前幀與前一幀的差 分圖像,如果差分圖像絕對(duì)值中的元素的最大值大于預(yù)設(shè)定的閾值,計(jì)算差分圖像的邊緣 直方圖,得到差分邊緣直方圖;S6.求運(yùn)動(dòng)直方圖,計(jì)算視頻序列的運(yùn)動(dòng)歷史圖,對(duì)得到的運(yùn)動(dòng)歷史圖求邊緣梯度 直方圖,進(jìn)而得到運(yùn)動(dòng)直方圖;S7.將步驟S3得到的像素變化直方圖、步驟S4得到的邊緣梯度直方圖、步驟S5得 到的差分邊緣直方圖和步驟S6得到的運(yùn)動(dòng)直方圖平鋪成一個(gè)特征池,為最終得到的視頻 序列特征。上述特征訓(xùn)練與識(shí)別具體包括如下步驟S8.對(duì)視頻序列特征在線字典訓(xùn)練與學(xué)習(xí),得到字典;S9.用字典對(duì)視頻序列特征進(jìn)行k近鄰局部約束線性編碼;S10.對(duì)編碼后得到的編碼特征進(jìn)行監(jiān)督距離度量學(xué)習(xí)得到一個(gè)馬氏距離轉(zhuǎn)換矩 陣代替歐氏距離k均值聚類形成碼書(shū),然后計(jì)算每個(gè)視頻編碼后的特征對(duì)應(yīng)于碼書(shū)的統(tǒng)計(jì) 直方圖;Sll.用tf_idf分類器對(duì)統(tǒng)計(jì)直方圖進(jìn)行分類,得到最終的識(shí)別結(jié)果。上述步驟S4求邊緣梯度直方圖的具體過(guò)程如下S41.對(duì)目標(biāo)區(qū)域分別求出χ方向,y方向上的梯度px,py,并求出幅值平方和梯度 方向,然后再對(duì)幅值歸一化;S42.把梯度方向量化為M個(gè)量化值,分別在各個(gè)區(qū)域求出各個(gè)量化區(qū)間的幅值的和,得到各個(gè)區(qū)間的直方圖,為一種新的特征;S43.求各個(gè)區(qū)域的面積與各個(gè)區(qū)域幅值和的比值,然后將其與步驟S42得到直方 圖相乘,得到另一種新的特征;S44.求各個(gè)區(qū)域各個(gè)量化值所對(duì)應(yīng)該的幅值的和,同時(shí)求出其所對(duì)應(yīng)的幅值個(gè) 數(shù),各方向幅值的和與幅值個(gè)數(shù)的比值作為第三種新的特征。步驟Sl計(jì)算視頻序列的像素運(yùn)動(dòng)變化頻率圖的具體過(guò)程如下將視頻序列當(dāng)前 三幀差分并把差值結(jié)果累積,得到一張與視頻幀同樣大小的圖像,然后對(duì)其各個(gè)點(diǎn)的值取 平方再除以最大值,即為像素運(yùn)動(dòng)變化頻率圖。本發(fā)明的有益效果本發(fā)明的方法通過(guò)計(jì)算視頻序列的差分邊緣直方圖,大大減 少了所使用的視頻特征,提高了識(shí)別的速度,滿足了人體動(dòng)作識(shí)別的實(shí)時(shí)性;通過(guò)對(duì)目標(biāo)區(qū) 域和若干個(gè)子區(qū)域分別求像素變化直方圖和邊緣梯度直方圖,可以提高動(dòng)作細(xì)節(jié)識(shí)別的準(zhǔn)確率。
圖1是本發(fā)明的具體流程圖。
圖2是本發(fā)明實(shí)施例的跑步的像素變化概率圖的示意圖。
圖3是本發(fā)明實(shí)施例的跑步像素變化概率圖的統(tǒng)計(jì)直方圖示意圖。
圖4是本發(fā)明實(shí)施例的差分圖像梯度幅值示意圖。
圖5是本發(fā)明實(shí)施例的差分圖像的邊緣梯度直方圖示意圖。
圖6是本發(fā)明實(shí)施例的運(yùn)動(dòng)歷史圖示意圖。
圖7是本發(fā)明實(shí)施例的運(yùn)動(dòng)歷史圖的邊緣梯度直方圖示意圖。
圖8是本發(fā)明實(shí)施例的識(shí)別結(jié)果示意圖。
具體實(shí)施例方式為使本發(fā)明的技術(shù)方案更加清楚,下面結(jié)合附圖和具體的實(shí)施例對(duì)本發(fā)明作進(jìn)一 步的描述。本實(shí)施例以視頻監(jiān)控為例。先調(diào)好監(jiān)控區(qū)域,在監(jiān)控區(qū)域內(nèi)對(duì)從攝像頭采集 特定幀數(shù)圖像,本實(shí)施例中幀數(shù)為100,也即是100幀構(gòu)成一個(gè)視頻,視頻序列的大小為 240*320,以四個(gè)人體動(dòng)作——“打架、伸手、跑步、走路”為例進(jìn)行說(shuō)明。本發(fā)明的視頻序列中人體動(dòng)作的識(shí)別方法,具體流程如圖1所示,包括特征提取 和特征訓(xùn)練與識(shí)別兩個(gè)過(guò)程,其中,特征提取包括如下步驟Si.計(jì)算視頻序列的像素運(yùn)動(dòng)變化頻率圖。這里可以采用傳統(tǒng)方法,具體過(guò)程如 下將視頻序列當(dāng)前三幀差分并把差值結(jié)果累積,得到一張與視頻幀同樣大小的圖像,然后 對(duì)其各個(gè)點(diǎn)的值取平方再除以最大值(也就是完成了圖像的歸一化操作),即得到了像素 運(yùn)動(dòng)變化頻率圖。圖2是“跑步”像素變化概率圖的示意圖。S2.劃分像素運(yùn)動(dòng)變化頻率圖的區(qū)域,確定像素運(yùn)動(dòng)變化頻率圖中值大于某一閾 值的區(qū)域,在這里閾值取0. 03 (相對(duì)于0 1圖像),進(jìn)而找到該區(qū)域中的像素的最小縱坐 標(biāo)和最小橫坐標(biāo),以及最大縱坐標(biāo)和最大橫坐標(biāo),然后以此最小縱坐標(biāo)和最小橫坐標(biāo),最大 縱坐標(biāo)和最大橫坐標(biāo)確定一個(gè)目標(biāo)區(qū)域,并按一定的比例在縱軸或橫軸方向上劃分若干個(gè)子區(qū)域;為了與人體圖像結(jié)構(gòu)相吻合,這里按3 4 8在橫軸方向上分成三個(gè)子區(qū)域。S3.對(duì)目標(biāo)區(qū)域和三個(gè)子區(qū)域分別求像素變化直方圖,具體如下S31.將目標(biāo)區(qū)域的像素運(yùn)動(dòng)變化頻率圖中的值非均勻量化為N個(gè)量化值,這里N 為自然數(shù),為了達(dá)到最優(yōu)效果,本實(shí)施例中N取8 ;S32.分別求目標(biāo)區(qū)域和三個(gè)子區(qū)域各個(gè)量化值對(duì)應(yīng)在像素運(yùn)動(dòng)變化頻率圖中的 值,這樣每個(gè)區(qū)域就得到一個(gè)8維的直方圖;S33.將目標(biāo)區(qū)域和三個(gè)子區(qū)域的直方圖平鋪成一個(gè)多維的向量并歸一化,得到像 素變化直方圖,本實(shí)例一個(gè)視頻最終只得到一個(gè)像素變化直方圖,結(jié)果如圖3所示;S4.對(duì)目標(biāo)區(qū)域和三個(gè)個(gè)子區(qū)域分別求邊緣梯度直方圖。具體過(guò)程如下S41.對(duì)目標(biāo)區(qū)域分別求出χ方向,y方向上的梯度px,py,并求出梯度幅值平方和 梯度方向,然后再對(duì)幅值歸一化;
,ρ (j y \、P = px2+py2,^(^^) = arctan^-^-^J 這里P表示梯度幅值,py(x,y)表示y 方
向的梯度圖、Px(X,y)表示X方向的梯度圖,θ表示梯度方向角度。S42.把梯度方向量化為M個(gè)量化值,這里M為自然數(shù),為了達(dá)到最優(yōu)效果,本實(shí)施 例中M取8,然后分別在各個(gè)區(qū)域求出各個(gè)量化區(qū)間的幅值的和,得到各個(gè)區(qū)間的直方圖, 為一種新的特征;S43.求各個(gè)區(qū)域的面積與各個(gè)區(qū)域幅值和的比值,然后將其與步驟S42得到直方 圖相乘,得到另一種新的特征;S44.求各個(gè)區(qū)域各個(gè)量化值所對(duì)應(yīng)該的幅值的和,同時(shí)求出其所對(duì)應(yīng)的幅值個(gè) 數(shù),各方向幅值的和與幅值個(gè)數(shù)的比值作為第三種新的特征。S45.把目標(biāo)區(qū)域和三個(gè)子區(qū)域的S42、S43、S44三種子特征平鋪成一個(gè)特征池并 且歸一化得到邊緣梯度直方圖,本實(shí)施例一個(gè)視頻最終只得到一個(gè)這樣的邊緣梯度直方 圖。S5.計(jì)算視頻序列的差分邊緣直方圖,具體過(guò)程如下計(jì)算當(dāng)前幀Ii與前一幀I" 的差分圖像d(x,y) = Ii-Ig,如果差分圖像d(x,y)絕對(duì)值中的元素的最大值大于預(yù)設(shè)定 的閾值,這里預(yù)設(shè)定的取7. 65 (相對(duì)于0 255灰度圖像),計(jì)算差分圖像d(x,y)邊緣直 方圖,其方法使用步驟S4所述的方法;差分梯度幅值圖像如圖4所示,差分邊緣直方圖如圖 5所示,橫坐標(biāo)為特征維數(shù),縱坐標(biāo)為各個(gè)維數(shù)值大小,這里特征的維數(shù)為96維。一個(gè)視頻 如果有L幀,最多只得到L-I個(gè)這樣的差分邊緣直方圖。S6.計(jì)算視頻序列的運(yùn)動(dòng)歷史圖,對(duì)得到的運(yùn)動(dòng)歷史圖求邊緣梯度直方圖,得到運(yùn) 動(dòng)直方圖;運(yùn)動(dòng)歷史圖如圖6所示,本實(shí)施例一個(gè)視頻最終只得到一個(gè)這樣的運(yùn)動(dòng)直方圖, 如圖7所示,橫坐標(biāo)為特征維數(shù),縱坐標(biāo)為各個(gè)維數(shù)值大小,這里特征的維數(shù)為96維。步驟S3和步驟S6中也可以把100幀圖像化分成好幾個(gè)子片段來(lái)得到幾個(gè)子像素 變化直方圖及子運(yùn)動(dòng)直方圖。S7.將步驟S3得到的像素變化直方圖、步驟S4得到的邊緣梯度直方圖、步驟S5得 到的差分邊緣直方圖和步驟S6得到的運(yùn)動(dòng)直方圖平鋪成一個(gè)特征池,為最終得到的視頻序列特征。在平鋪成一個(gè)特征池過(guò)程中,每一個(gè)差分邊緣直方圖特征共用像素變化直方圖 特征、邊緣梯度直方圖特征、運(yùn)動(dòng)直方圖特征,這樣一個(gè)視頻最終只得到與差分邊緣直方圖 數(shù)量一樣多的特征,最多為L(zhǎng)-I個(gè)特征,特征數(shù)量比其它自然語(yǔ)言描述方法提取的特征大 大減少。得到視頻序列特征之后,進(jìn)而可以進(jìn)行特征訓(xùn)練與識(shí)別。為了進(jìn)一步提高識(shí)別的 準(zhǔn)備率,采用如下步驟進(jìn)行特征訓(xùn)練與識(shí)別S8.對(duì)樣本視頻序列特征在線字典訓(xùn)練與學(xué)習(xí),得到字典;在線字典學(xué)習(xí)可具體 參考文獻(xiàn) Julien Mairal, Online Learning for Matrix Factorization and Sparse Coding,Journal of Machine Learning Research 11(2010),19-60。S9.用訓(xùn)練得到的字典對(duì)視頻序列特征進(jìn)行k近鄰局部約束線性編碼;局部約束 線性編石馬具體可參見(jiàn)文獻(xiàn):Wang, Jinjun ;Yang, Jianchao, Locality-constrained Linear Coding for Image Classification,Computer Vision and Pattern Recognition(CVPR), 2010,3360-3367。S10.對(duì)編碼后得到的編碼特征進(jìn)行監(jiān)督距離度量學(xué)習(xí)得到一個(gè)馬氏距離轉(zhuǎn)換矩 陣代替歐氏距離k均值聚類形成碼書(shū),然后計(jì)算每個(gè)視頻編碼后的特征對(duì)應(yīng)于碼書(shū)的統(tǒng) 計(jì)直方圖。監(jiān)督距離度量學(xué)習(xí)具體可參見(jiàn)文獻(xiàn)Kilian Q. Weinberger, Distance Metric Learning for Large Margin Nearest Neighbor Classification, Journal of Machine Learning Research 10(2009)207-244。Sll.用tf_idf分類器對(duì)統(tǒng)計(jì)直方圖進(jìn)行分類,得到最終的識(shí)別結(jié)果。如圖8所 示。tf_idf 分類器具體可參見(jiàn)文獻(xiàn)Salton,G. and Buckley, C. 1988 Term-weighting approaches in automatic text retrieval. Information Processing&Managemen 24(5) 513-523。從識(shí)別結(jié)果可以看出本方法用于人體動(dòng)作行為識(shí)別是有效的,不僅能夠識(shí)別簡(jiǎn) 單的、跑步、走路的普通正常行為,也能夠識(shí)別可疑的伸手行為(偷盜經(jīng)常發(fā)生的伸手行 為)復(fù)雜的打架行為。圖8中對(duì)角線數(shù)據(jù)為正確識(shí)別率,其余數(shù)據(jù)為錯(cuò)誤識(shí)別率,如第四行 表示走路行為正確識(shí)別率為91%,其中有3%誤判為打架行為,6%誤判為伸手行為。本發(fā)明的方法具有較快的執(zhí)行速度,用matlab2009a開(kāi)發(fā)的仿真程序,在雙核 2. 5GCPU,2G內(nèi)存的PC機(jī)平臺(tái)上,對(duì)240*320像素的視頻圖像進(jìn)行識(shí)別,識(shí)別每100幀的視 頻圖像需要7 9s。如果程序改為用C,在VC環(huán)境下,可以達(dá)到實(shí)時(shí)的效果。本發(fā)明的方法通過(guò)計(jì)算視頻序列的差分邊緣直方圖,大大減少了所使用的視頻特 征,提高了識(shí)別的速度,滿足了人體動(dòng)作識(shí)別的實(shí)時(shí)性;通過(guò)對(duì)目標(biāo)區(qū)域和若干個(gè)子區(qū)域分 別求像素變化直方圖和邊緣梯度直方圖,可以提高動(dòng)作細(xì)節(jié)識(shí)別的準(zhǔn)確率。本領(lǐng)域的普通技術(shù)人員將會(huì)意識(shí)到,這里所述的實(shí)施例是為了幫助讀者理解本發(fā) 明的原理,應(yīng)被理解為本發(fā)明的保護(hù)范圍并不局限于這樣的特別陳述和實(shí)施例。本領(lǐng)域的 普通技術(shù)人員可以根據(jù)本發(fā)明公開(kāi)的這些技術(shù)啟示做出各種不脫離本發(fā)明實(shí)質(zhì)的其它各 種具體變形和組合,這些變形和組合仍然在本發(fā)明的保護(hù)范圍內(nèi)。
權(quán)利要求
1.一種視頻序列中人體動(dòng)作的識(shí)別方法,包括特征提取和特征訓(xùn)練與識(shí)別兩個(gè)過(guò)程, 其特征在于,特征提取包括如下步驟-51.計(jì)算視頻序列的像素運(yùn)動(dòng)變化頻率圖;-52.劃分像素運(yùn)動(dòng)變化頻率圖的區(qū)域,確定像素運(yùn)動(dòng)變化頻率圖中值大于某一閾值的 區(qū)域,找到該區(qū)域中的像素的最小縱坐標(biāo)和最小橫坐標(biāo),以及最大縱坐標(biāo)和最大橫坐標(biāo),然 后以此最小縱坐標(biāo)和最小橫坐標(biāo),最大縱坐標(biāo)和最大橫坐標(biāo)確定一個(gè)目標(biāo)區(qū)域,并按一定 的比例在縱軸或橫軸方向上劃分若干個(gè)子區(qū)域;-53.對(duì)目標(biāo)區(qū)域和若干個(gè)子區(qū)域分別求像素變化直方圖,具體如下-531.將目標(biāo)區(qū)域的像素運(yùn)動(dòng)變化頻率圖中的值非均勻量化為N個(gè)量化值;-532.分別求出目標(biāo)區(qū)域和若干個(gè)子區(qū)域各個(gè)量化值對(duì)應(yīng)在像素運(yùn)動(dòng)變化頻率圖中的 值的和,這樣每個(gè)區(qū)域就得到一個(gè)N維的直方圖;-533.將目標(biāo)區(qū)域和若干個(gè)子區(qū)域的直方圖平鋪成一個(gè)多維的向量并歸一化,得到像素 變化直方圖;-54.對(duì)目標(biāo)區(qū)域和若干個(gè)子區(qū)域分別求邊緣梯度直方圖;-55.計(jì)算視頻序列的差分邊緣直方圖,具體過(guò)程如下計(jì)算當(dāng)前幀與前一幀的差分圖 像,如果差分圖像絕對(duì)值中的元素的最大值大于預(yù)設(shè)定的閾值。計(jì)算差分圖像的邊緣直方 圖,得到差分邊緣直方圖;-56.計(jì)算視頻序列的運(yùn)動(dòng)歷史圖,對(duì)得到的運(yùn)動(dòng)歷史圖求邊緣梯度直方圖,得到運(yùn)動(dòng)直 方圖;-57.將步驟S3得到的像素變化直方圖、步驟S4得到的邊緣梯度直方圖、步驟S5得到的 差分邊緣直方圖和步驟S6得到的運(yùn)動(dòng)直方圖平鋪成一個(gè)特征池,為最終得到的視頻序列 特征。
2.根據(jù)權(quán)利要求1所述的視頻序列中人體動(dòng)作的識(shí)別方法,其特征在于,所述特征訓(xùn) 練與識(shí)別具體包括如下步驟58.對(duì)視頻序列特征在線字典訓(xùn)練與學(xué)習(xí),得到字典;59.用字典對(duì)視頻序列特征進(jìn)行k近鄰局部約束線性編碼;-510.對(duì)編碼后得到的編碼特征進(jìn)行監(jiān)督距離度量學(xué)習(xí)得到一個(gè)馬氏距離轉(zhuǎn)換矩陣代 替歐氏距離k均值聚類形成碼書(shū),然后計(jì)算每個(gè)視頻編碼后的特征對(duì)應(yīng)于碼書(shū)的統(tǒng)計(jì)直方 圖;-511.用tf_idf分類器對(duì)統(tǒng)計(jì)直方圖進(jìn)行分類,得到最終的識(shí)別結(jié)果。
3.根據(jù)權(quán)利要求1或2所述的視頻序列中人體動(dòng)作的識(shí)別方法,其特征在于,步驟S4 求邊緣梯度直方圖的具體過(guò)程如下-541.對(duì)目標(biāo)區(qū)域分別求出χ方向,y方向上的梯度px,py,并求出幅值平方和梯度方向, 然后再對(duì)幅值歸一化;-542.把梯度方向量化為M個(gè)量化值,分別在各個(gè)區(qū)域求出各個(gè)量化區(qū)間的幅值的和, 得到各個(gè)區(qū)間的直方圖,為一種新的特征;-543.求各個(gè)區(qū)域的面積與各個(gè)區(qū)域幅值和的比值,然后將其與步驟S42得到直方圖相 乘,得到另一種新的特征;-544.求各個(gè)區(qū)域各個(gè)量化值所對(duì)應(yīng)該的幅值的和,同時(shí)求出其所對(duì)應(yīng)的幅值個(gè)數(shù),各方向幅值的和與幅值個(gè)數(shù)的比值作為第三種新的特征。
4.根據(jù)權(quán)利要求1或2所述的視頻序列中人體動(dòng)作的識(shí)別方法,其特征在于,步驟Sl 所述的計(jì)算視頻序列的像素運(yùn)動(dòng)變化頻率圖的具體過(guò)程如下將視頻序列當(dāng)前三幀差分并 把差值結(jié)果累積,得到一張與視頻幀同樣大小的圖像,然后對(duì)其各個(gè)點(diǎn)的值取平方再除以 最大值,即為像素運(yùn)動(dòng)變化頻率圖。
5.根據(jù)權(quán)利要求1或2所述的視頻序列中人體動(dòng)作的識(shí)別方法,其特征在于,步驟S2 所述的按一定的比例在縱軸或橫軸方向上劃分若干個(gè)子區(qū)域?yàn)榘凑?48在橫軸方向 上分成三個(gè)子區(qū)域。
6.根據(jù)權(quán)利要求1或2所述的視頻序列中人體動(dòng)作的識(shí)別方法,其特征在于,步驟S31 和步驟S32所述的N為8。
7.根據(jù)權(quán)利要求3所述的視頻序列中人體動(dòng)作的識(shí)別方法,其特征在于,步驟S42所述 的M為8。
全文摘要
本發(fā)明公開(kāi)了一種視頻序列中人體動(dòng)作的識(shí)別方法,本發(fā)明針對(duì)現(xiàn)有的視頻圖像中人體動(dòng)作識(shí)別方法在準(zhǔn)確率和實(shí)時(shí)性之間的矛盾而提出的。本發(fā)明的方法包括特征提取和特征訓(xùn)練與識(shí)別兩個(gè)過(guò)程。在特征提取中,通過(guò)計(jì)算視頻序列的差分邊緣直方圖,大大減少了所使用的視頻特征,提高了識(shí)別的速度,滿足了人體動(dòng)作識(shí)別的實(shí)時(shí)性;通過(guò)對(duì)目標(biāo)區(qū)域和若干個(gè)子區(qū)域分別求像素變化直方圖和邊緣梯度直方圖,可以提高動(dòng)作細(xì)節(jié)識(shí)別的準(zhǔn)確率。本發(fā)明的方法既提高了識(shí)別的準(zhǔn)確率又滿足了識(shí)別的實(shí)時(shí)性。
文檔編號(hào)G06K9/00GK102136066SQ201110109440
公開(kāi)日2011年7月27日 申請(qǐng)日期2011年4月29日 優(yōu)先權(quán)日2011年4月29日
發(fā)明者李宏亮, 覃耀輝 申請(qǐng)人:電子科技大學(xué)