專利名稱:圖像識別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種根據(jù)攝像機等的拍攝探測搭乘自動扶梯或自動人行 道等的乘客用運送系統(tǒng)的乘客和乘客的異常動作的圖像識別技術(shù),特別 是,涉及一種應(yīng)用于根據(jù)使用該圖像識別的喚起注意與自動扶梯控制來確 保乘客的安全并提供安全感的圖像監(jiān)視系統(tǒng)的技術(shù)。
背景技術(shù):
在從影像中探測對象物體的圖像處理中,以往使用了以背景差分為基 準的方法。這是一種記住未寫入探測對象的背景圖像并進行輸入圖像與背 景圖像的差分,抽出有變化的像素來檢測對象物體的方法。由于該方法以 固定的背景為前提條件而工作,因此存在也檢測了天氣的變動、照明的變 動、存在于背景中的各種樹木或樹葉的擺動等的問題。
因此,為了在不探測這樣的背景的變動的情況下探測對象,例如,如 作為現(xiàn)有技術(shù)記載在非專利文獻1中所示,具有在時間方向上觀測圖像中 的各像素的亮度值并制作亮度值的柱狀圖的技術(shù)。由于各種樹木或樹葉的 擺動進行周期的反復(fù)運動,因此在時間方向上觀測某一像素位置的亮度、 生成亮度值的柱狀圖時,觀測以某一亮度為中心的分布。這既有單一的情 況,也存在多個分布的情況。以混合正態(tài)分布模型化這些分布,輸入影像 的亮度值為從這些正態(tài)分布(構(gòu)成混合正態(tài)分布的各正態(tài)分布)脫離的值 時,當(dāng)作存在與背景不同的物體,進行對象物體的檢測。
非專禾U文獻1: Stauffer, C. and Grimson, W.E丄.,"Adaptive background mixture models for real-time tracking," Vol.2, Computer Vision and Pattern Recognition, 1999 (CVPR1999).正EE Computer Society.
在所述現(xiàn)有技術(shù)中,輸入接近于以正態(tài)分布近^^了的背景模型的亮度 值時,存在即使其為對象物體也會作為背景來進行判定的問題。這是因為 只考慮到作為差分處理的基礎(chǔ)的像素的亮度值和時間的變動。另外,如自動態(tài)變化背景的場景的像素的亮度值隨 時間大幅變化,且從所述亮度值的柱狀圖不能正確求出正態(tài)分布,存在不 能以很好的精度檢測對象物體(包括搭乘在乘客用運送系統(tǒng)的乘客)的問 題。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于提高搭乘在自動扶梯或自動人行道等乘客用 運送系統(tǒng)的乘客的探測和探測乘客的異常動作的圖像識別的精度。
為了該目的,本發(fā)明的特征在于,在進行從拍攝裝置獲得的運動圖像 的圖像識別、該拍攝裝置拍攝承載乘客并進行運送的運送系統(tǒng)的圖像識別 裝置中,具有存儲部,從所述運送系統(tǒng)中無乘客的狀態(tài)下拍攝到的由所 述拍攝裝置獲得的運動圖像進行計算,使用由空間方向和時間方向上對該 像素的亮度值進行微分得到的時空間亮度梯度所表現(xiàn)的時空間特征矢量, 存儲用1以上的正態(tài)分布近似所述時空間特征矢量的發(fā)生概率而構(gòu)成的背 景模型;和控制部,從某一時刻拍攝到的所述拍攝裝置獲得的運動圖像進
行計算,計算由空間方向和時間方向上對該像素的亮度值進行微分得到的 時空間亮度梯度所表現(xiàn)的時空間特征矢量是否屬于構(gòu)成所述背景模型的 所述正態(tài)分布,若不屬于所述正態(tài)分布,則判定在該運動圖像中所拍攝到 的所述運送系統(tǒng)中存在前景。
這樣,本發(fā)明在乘客用運送系統(tǒng)的監(jiān)視區(qū)域中,在整體區(qū)域或在每一 分割為區(qū)域塊的局部區(qū)域塊中,計算從輸入運動圖像(輸入圖像)獲得的 亮度值的空間方向與時間方向的微分值(亮度梯度),并計算稱作格拉姆
(Gram)矩陣的時空間信息。計算該時空間信息的幀數(shù)最低是1幀,根據(jù) 檢測的人物的動作特征而增加。從該時空間信息用后述的方法做出的時空 間特征矢量的維數(shù)最低是6,能夠?qū)⒋诉B接在時間方向上并作為6的整數(shù) 倍的時空間特征矢量。這樣,用正態(tài)分布近似時間、空間上擴張的時空間 特征矢量的分布,將此作為背景模型,若從某一輸入運動圖像計算出的時 空間特征矢量遠離該背景模型時、即不屬于正態(tài)分布時,判定具有背景中 不存在的前景,進行對象物體的檢測或檢測該探測區(qū)域的異常動作。
本發(fā)明移動式變動的背景根據(jù)所述格拉姆(Gram)矩陣能夠同時表現(xiàn)和學(xué)習(xí)動態(tài)變動的背景的拍攝到背景的場景的結(jié)構(gòu)、顏色、亮度的模式和 運動。由此,即使輸入了在非專利文獻l中記載的方法中成為問題的、與 背景相似的亮度值,也能根據(jù)結(jié)構(gòu)等信息分離背景與前景。而且,即使在 非專利文獻l中記載的方法中成為問題的、背景在動態(tài)變動的場景的對象 物體的檢測中,由于模型化該背景的運動本身,因此也能夠探測人物或物 體。
另外,將在后面詳細敘述解決方法。 (發(fā)明效果)
根據(jù)本發(fā)明,能夠提高搭乘在自動扶梯或自動人行道等乘客用運送系 統(tǒng)中的乘客的探測和探測乘客的異常動作的圖像識別的精度。
圖1是使用附帶攝像機的可動式保護板的自動扶梯圖像監(jiān)視系統(tǒng)的整 體結(jié)構(gòu)圖。
圖2是圖像識別裝置的功能框圖。
圖3是探測乘客的危險搭乘時的處理區(qū)域設(shè)定的圖。
圖4是進行異常動作探測和動作種類識別的處理的流程圖。
圖5是求出混合正態(tài)分布的處理的流程圖。
圖6是檢測自動扶梯的臺階上的人物的處理的示意圖。
圖7是使用混合正態(tài)分布來進行前景與背景之間的分離的處理的說明圖。
圖8是表示探測乘客向扶手探出身體的例子的圖。 圖9是使用檢測框的人物區(qū)域探測例子的圖。
圖10是表示進行異常動作探測和動作種類判定時的區(qū)域設(shè)定的變化 的圖。
圖11是進行基于BOM (Bag of Motions)的異常動作探測和動作種類 識別的處理的流程圖。
圖中101—自動扶梯的臺階;102—自動扶梯的扶手;103 —攝像機;
104 —揚聲器;105— (可動式保護板的)支架(jig) ; 106 —可動式保護
板;107—圖像識別裝置;108 —影像錄制裝置;109 —乘客;110 —頂棚;
6201 —圖像輸入部;202 —圖像存儲器;203 —無人狀態(tài)判定部;204—異常動作探測部;205 —參數(shù)輸入設(shè)備;206—圖像發(fā)送控制部;207 —碰撞探測部;208 —報警信號發(fā)送部;209—圖像發(fā)送部;301 —臺階;302 —扶手;
303 —外側(cè)板;304 —乘客;305 —圖像處理區(qū)域;601 —學(xué)習(xí)用背景運動圖像;602 —輸入運動圖像;603 —每一局部區(qū)域塊的結(jié)構(gòu)與動作;604_時空間信息的混合正態(tài)分布模型;605 —背景差分圖像;701—背景學(xué)習(xí)時;702—輸入影像評價;703 —圖像處理區(qū)域;704—局部區(qū)域塊;705 —局部
區(qū)域塊;706 —柱狀圖;707 —無變動區(qū)域塊;708 —有變動區(qū)域塊;709 —
混合正態(tài)分布;901—檢測框;902—輸入圖像;IOOI —圖像整體區(qū)域;1002一前景區(qū)域塊;1003 —檢測框;1004—前景區(qū)域塊;1005 —前景區(qū)域塊;1006 —部分區(qū)域;1007—部分區(qū)域。
具體實施例方式
以下,說明本發(fā)明的實施方式。進行說明時,參照適當(dāng)附圖。將基于本發(fā)明的圖像識別裝置的人物與異常動作探測方法的實施方
法作為圖1所示的向自動扶梯的探出身體探測系統(tǒng)的應(yīng)用例子來進行說明。
(構(gòu)成)
圖1是使用附帶攝像機可動式保護板的自動扶梯圖像監(jiān)視系統(tǒng)的整體
結(jié)構(gòu)圖。在圖1中,101是自動扶梯的臺階,102是自動扶梯的的扶手。103是影像監(jiān)視用攝像機(拍攝裝置),監(jiān)視臺階101上的乘客的搭乘狀態(tài)。104是喚起注意播放用揚聲器,乘客作出異常搭乘或危險搭乘時進行喚起注意,使乘客認識到危險。105是可動式保護板的支架,106是乘客碰撞防止用的可動式保護板,構(gòu)成為乘客碰撞時搖晃的結(jié)構(gòu)。
107是圖像識別裝置,處理由攝像機103拍攝到的圖像(有時也稱作運動圖像或影像),探測異常搭乘或危險搭乘等異常動作。108是影像錄制裝置,平時進行錄制,將由圖像識別裝置107探測到的異常動作作為觸發(fā)信號,只錄制異常動作前后的影像。向自動扶梯控制裝置(未圖示)發(fā)送從圖像識別裝置107輸出的觸發(fā)信號,發(fā)生異常動作時能夠停止或緩慢停止自動扶梯。另外,從圖像識別裝置107輸出的觸發(fā)信號用于經(jīng)由有線
7或無線因特網(wǎng)作為報警信號發(fā)送給監(jiān)視室,從而提高在其中的監(jiān)視員的監(jiān)
視效率。另外,在影像錄制裝置108存儲的影像數(shù)據(jù)中保存這樣的觸發(fā)信 號、報警信號,在影像數(shù)據(jù)中作為元數(shù)據(jù)由其它文件附加這些信號,用于 為了檢證事故而在脫機狀態(tài)下事后檢索影像的場合。110是某一層的頂棚 (或上層的底板)。
在圖1中,自動扶梯的乘客109身體探出扶手102時,圖像識別裝置 107探測發(fā)生了異常動作,影像錄制裝置108錄制其前后的影像。
下面利用圖2說明圖像識別裝置107的內(nèi)部功能。圖2是圖像識別裝 置的功能模塊圖。所謂計算機的圖像識別裝置107作為其硬件結(jié)構(gòu),具有: 有輸入端口的輸入部;有輸出端口的輸出部;作為CPU (Central Processing Unit)等而實現(xiàn)的控制部;由作為外部存儲裝置的HDD (Hard Disk Drive) 等實現(xiàn)的存儲部;由有展開讀寫的數(shù)據(jù)的存儲區(qū)域的RAM (Random Access Menory)等實現(xiàn)的存儲器。由這些裝置執(zhí)行有關(guān)本發(fā)明處理時,在 存儲器中加載保存在各裝置的存儲部中的程序,通過由CPU (控制部)執(zhí) 行,實現(xiàn)具體化在構(gòu)成因特網(wǎng)的各裝置上的各處理部。另外,各程序也可 以預(yù)先保存在存儲部中,也可以在必要時通過其它存儲介質(zhì)或通信介質(zhì) (因特網(wǎng)或在因特網(wǎng)中傳播的載波)導(dǎo)入。
首先,圖像輸入部201獲得從安裝在圖1的可動式保護板106上的攝 像機103輸入的圖像的圖像數(shù)據(jù)。在圖像存儲器202中只保存輸入的圖像 數(shù)據(jù)的固定幀數(shù),探測到異常動作時,向圖像發(fā)送控制部206發(fā)送。
之后,輸入的圖像數(shù)據(jù)在無人狀態(tài)判定部203中識別攝像機視野內(nèi)是 否存在乘客。之后,在異常動作探測部204中,在乘客碰撞可動式保護板 106之前,預(yù)先探測乘客的異常動作。在這里,識別乘客是否身體探出扶 手102。另外,在異常動作探測部204中,除了身體探出扶手102以外, 還探測在臺階101上的逆行、失足、跌倒等異常動作,由揚聲器104喚起 注意。
從參數(shù)輸入設(shè)備(205;例如,具有作為硬件結(jié)構(gòu)的輸入部、輸出部、 控制部、存儲部的計算機)輸入用于由異常動作探測部204進行的圖像處 理的處理區(qū)域設(shè)定(后述)與參數(shù)設(shè)定(后述)。另外,也可以經(jīng)由因特 網(wǎng)從外部向圖像識別裝置107發(fā)送。碰撞探測部207通過圖像識別來探測乘客與可動式保護板106碰撞并且攝像機103的影像搖晃的情況。由異常 動作探測部204與碰撞探測部207探測出異常搭乘或乘客碰撞到可動式保 護板106等(異常動作)時,向圖像發(fā)送控制部206發(fā)送該探測信號,在 圖像發(fā)送部209中對保存在圖像存儲器202中的異常動作前后的影像(數(shù) 幀的圖像數(shù)據(jù))進行適當(dāng)編碼,發(fā)送到影像錄制裝置108。另一方面,向 圖像發(fā)送控制部206發(fā)送所述探測信號時,生成向自動扶梯控制裝置發(fā)送 的設(shè)備控制信號,進行自動扶梯的停止或緩慢停止等的運行控制。
而且,由異常動作探測部204與碰撞探測部207探測出異常搭乘或乘 客碰撞到可動式保護板106等時,在報警信號發(fā)送部208中生成適當(dāng)形式 的報警信號。該報警信號例如發(fā)送給揚聲器104,進行喚起注意播放,或 發(fā)送給自動扶梯控制設(shè)備,進行自動扶梯的停止或緩慢停止等的運行控 制。
參照圖3說明探測乘客的危險搭乘時的處理區(qū)域設(shè)定。圖3圖示從攝 像機103拍攝時的圖像。從參數(shù)輸入設(shè)備205或經(jīng)由因特網(wǎng)的其它的PC (Personal Computer)上指定包括臺階301、扶手302、外側(cè)板303的圖像 處理區(qū)域305。圖像處理區(qū)域305是由攝像機103拍攝到的圖像中判定乘 客304的探出身體狀況的區(qū)域。另外,為了方便說明,有時也將圖像處理 區(qū)域稱作指定區(qū)域或處理區(qū)域。 (動作)
下面,參照圖4的進行異常動作探測和動作種類識別的處理的流程圖, 詳細說明應(yīng)用本實施方式的人物與異常動作探測方法的圖2的無人狀態(tài)判 定部203與異常動作探測部204的處理。
首先,相對于圖像識別裝置107,輸入從攝像機103輸入的圖像數(shù)據(jù) 構(gòu)成的影像(S401)。
之后,在輸入的影像(S401)中,指定進行異常動作探測和動作種類 識別的圖像處理區(qū)域(S402)。指定的區(qū)域的形狀是任意的,例如,如圖 3的圖像處理區(qū)域305 (虛線所示)那樣指定區(qū)域。另外,也可以將拍攝 到的區(qū)域整體范圍作為指定的區(qū)域。
然后,從處理區(qū)域內(nèi)的運動圖像(影像幀)的像素的亮度值計算由 作為時空間微分值的時空間亮度梯度所表現(xiàn)的格拉姆(Gram)矩陣(時空間信息)(S403)。此時,格拉姆(Gmm)矩陣可以從指定區(qū)域305整體 計算,也可以將指定區(qū)域305分割為多個局部區(qū)域塊,在每一區(qū)域塊中計 算格拉姆(Gram)矩陣。如下進行格拉姆(Gram)矩陣的計算S403。
首先,從當(dāng)前的幀與前一次的幀進行幀間差分處理,對差分結(jié)果迸行 閾值處理。根據(jù)該處理,從輸入運動圖像抽出移動物體的邊緣信息(決定 物體的輪廓的信息)。之后,計算運動邊緣的位置的空間方向與時間方向 的亮度梯度(時空間亮度梯度)。用以下數(shù)學(xué)式表示該時空間亮度梯度v P。
(數(shù)學(xué)式1)
<formula>formula see original document page 10</formula>(1)
這里p是構(gòu)成幀的像素的亮度值(矢量),是由二維圖像的一個方向
(x方向)和與其正交的方向(y方向)構(gòu)成的位置x、 y和時間t的函數(shù)。 另外,Px、 Py、 Pt是關(guān)于亮度值P的x、 y和t的偏微分值。
然后,從數(shù)學(xué)式(1)的值求出由如下數(shù)學(xué)式表示的時空間亮度梯度 VP的協(xié)方差矩陣M。 M也被稱作格拉姆(Gram)矩陣。 (數(shù)學(xué)式2)
X /
Pf
《2
(2)
從1幀的圖像整體或指定區(qū)域中的所有的像素計算數(shù)學(xué)式(2)的總 和。另外,在時間方向上進行該總和,例如,區(qū)域的大小為縱橫7像素、 幀數(shù)為7幀時,針對數(shù)學(xué)式(2)的矩陣的各要素計算在7X7X7像素的 三維區(qū)域內(nèi)判斷為運動邊緣的像素的時空間亮度梯度的總和。數(shù)學(xué)式(2) 是時空間亮度梯度的某一時空間的三維區(qū)域中的方差(對角分量)與協(xié)方 差(非對角分量),表示數(shù)學(xué)式(1)的繪圖偏差情況。區(qū)域中的移動大 小與方向偏離時,數(shù)學(xué)式(2)的等級、即格拉姆(Gmm)矩陣M的非零 特征值的個數(shù)增多(最多為3個)。數(shù)學(xué)式(2)的等級變動的方法對應(yīng)
www
尸 / D,;4
3 J 丄
cC尸,
2 c 尸 p
10于人物的動作,利用該信息進行動作種類識別或異常動作探測。將在后面 詳細敘述該方法。
之后,利用從數(shù)學(xué)式(2)生成的時空間特征矢量(后述)生成背景 模型(由除了人物等的檢測對象的影像構(gòu)成的混合正態(tài)分布模型(有時也 稱作背景模型))(S405),比較該混合正態(tài)分布模型與輸入影像,區(qū)別 指定區(qū)域或分割了該指定區(qū)域的局部區(qū)域塊是前景還是背景(S404)。另 外,在圖像識別裝置107的存儲部中存儲(學(xué)習(xí))作成的背景模型。
在這里,首先參照圖5的流程圖說明混合正態(tài)分布模型的生成。直到 相對于輸入影像(S501)指定處理區(qū)域(S502),與圖4的(S401)、 (S402) 相同。
下面,說明相當(dāng)于時空間亮度梯度計算(S503)且用于從數(shù)學(xué)式(2) 生成時空間特征矢量的參數(shù)指定的方法(S506)。在(S506)中,例如, 由參數(shù)輸入設(shè)備205指定的參數(shù)(時空間亮度梯度計算用參數(shù))是計算數(shù) 學(xué)式(2)的區(qū)域的大小,即所述的縱橫方向的像素數(shù)與幀數(shù)。使用處理 區(qū)域整體時只指定幀數(shù)。而且在此指定數(shù)學(xué)式(2)的格拉姆(Gram)矩 陣M連接幾幀。只使用1幀時,縱向排列從格拉姆(Gram)矩陣M除去 對稱分量的6個要素(上三角分量),將由下列數(shù)學(xué)式表示的6維矢量作 為時空間特征矢量。為了便于記載,在數(shù)學(xué)式(3)中橫向排列要素來表 示。
(數(shù)學(xué)式3)
^dx加,加,i:(加,2x),.. (3)
N幀連接數(shù)學(xué)式(3)時(N:自然數(shù)),設(shè)時刻t的m為mt,修改 時空間特征矢量m并由以下數(shù)學(xué)式表示。 (數(shù)學(xué)式4)
附二(附,,附卜1,W卜2,…,附"AT-1) . . . (4)
此時,時空間特征矢量m變成6XN維矢量。也可以直接使用該6X N維矢量,但是表示周期性長的動作特征時,有時N變大,時空間特征矢 量的維數(shù)也會變大。因此,將6XN維的時空間特征矢量例如根據(jù)主分量分析(PCA: Principal Component Analysis)或線性判別分析進行維度壓縮 并投影到低維部分空間,能夠使時空間特征矢量的維數(shù)變小。該維度壓縮 的指定也作為時空間亮度梯度計算用參數(shù)(S506)來追加并指定。
然后,對進行如上所述得到的時空間特征矢量的集合進行向混合正態(tài) 分布的應(yīng)用(匹配)(S504),推定該參數(shù)。具體而言,進行如下的處理。 混合正態(tài)分布是組合預(yù)備的多個正態(tài)分布的概率模型。設(shè)數(shù)據(jù)X (矢量) 的概率密度分布p (5C)為C個概率密度分布
{p (X|i) ; i=l,…,C} 的加權(quán)線性結(jié)合,用以下數(shù)學(xué)式表示p (X)。 (數(shù)學(xué)式5)
C
(5)
這里,od是加權(quán)系數(shù),滿足以下條件。 (數(shù)學(xué)式6)
! =1 ■
pi (xlCi)是正態(tài)分布,用以下數(shù)學(xué)式來表示, (數(shù)學(xué)式7)
I C,') = A(義I A) = AO I A,2,,)
(6)
1
(7)
此時,M是時空間特征矢量的維數(shù)(注意與格拉姆(Gram)矩陣的 M的不同點),0i表示為0—(lU, 2i}, ui是平均、Si是協(xié)方差矩陣。 另外,T意味著倒置。這樣,在混合正態(tài)分布中,在每一正態(tài)分布中需要 3個參數(shù)。
(1) 平均Hi (正態(tài)分布的中心)
(2) 協(xié)方差矩陣(分布的寬度)(3)加權(quán)系數(shù)(xi (正態(tài)分布所占的比例)
在如混合正態(tài)分布的復(fù)雜的模型中,由于不能一次求出這些參數(shù),因 此根據(jù)EM算法推定各參數(shù)。對于觀測到的特征量的離散概率分布(柱狀 圖),在圖7的706與709中表示應(yīng)用混合正態(tài)分布的例子。
混合正態(tài)分布的應(yīng)用中有直接應(yīng)用數(shù)學(xué)式(4)的6XN維矢量的柱狀 圖分布的情況,有在每一6XN維矢量的部分維度中應(yīng)用的情況。在后者 的情況下,最大求出6XN個1維矢量空間的混合正態(tài)分布。有對正態(tài)分 布的個數(shù)C預(yù)先提供固定數(shù)的情況,有在混合正態(tài)分布的計算過程中自動 決定的情況。這些處理的切換標志位也與時空間亮度梯度計算用參數(shù) (S506)指定時同時指定。
由以上的處理得到的混合正態(tài)分布(S505)作為背景模型,過度到圖 4的混合正態(tài)分布(S405),在(S404)中用于與輸入影像間的比較。
下面,利用圖7說明從輸入影像計算出的時空間特征矢量與混合正態(tài) 分布模型的比較(S404)。在這里,設(shè)包括在圖3中指定的扶手302的圖 像處理區(qū)域305的外接矩形區(qū)域為處理區(qū)域(也可以將該外接矩形區(qū)域改 稱為圖像處理區(qū)域305)。而且,分割該外接矩形區(qū)域為多個局部區(qū)域塊, 在每一局部區(qū)域塊中進行輸入影像與混合正態(tài)分布模型之間的比較,顯示 進行前景與背景的分離的例子。
背景學(xué)習(xí)時701,在所述每一局部區(qū)域塊中求出時空間特征矢量的概 率密度。這通過量子化時空間特征矢量的矢量要素并求出多維柱狀圖而得 到。這里,在圖7的706中表示1維時空間特征矢量(稱作時空間特征量) 的概率密度分布例子。
然后,相對于該概率密度分布匹配(應(yīng)用)由數(shù)學(xué)式(5)表示的混 合正態(tài)分布模型,求出所述的(1)平均ui (正態(tài)分布的中心)、(2) 協(xié)方差矩陣2i(分布的寬度)、G)加權(quán)系數(shù)(xi(正態(tài)分布所占的比例)。 在圖7的709中表示此時的匹配結(jié)果例子。另外,針對局部區(qū)域塊704與 705,由706上的A標記表示每一局部區(qū)域塊的時空間特征量與柱狀圖706 的哪一位置對應(yīng)的例子。
然后,輸入影像評價時702,由混合正態(tài)分布709上的A標記表示從 這些局部區(qū)域塊計算的時空間特征矢量(由于是1維,所以是時空間特征量)的混合正態(tài)分布上的位置。在這里,作為示例,設(shè)對應(yīng)局部區(qū)域塊704 的局部區(qū)域塊(707:無變動區(qū)域塊)沒有物體的入侵,具有與背景相同 的時空間特征量。此時,向表示混合正態(tài)分布模型的數(shù)學(xué)式(5)代入輸 入影像的時空間特征矢量時,返回值變大。因此,若該返回值為某一閾值 以上時,判定在該局部區(qū)域塊區(qū)域中沒有物體侵入。即,由于表示大的返 回值的時空間特征矢量屬于混合正態(tài)分布,因此無前景的存在,判定為背
學(xué)
另一方面,對應(yīng)區(qū)域塊705的區(qū)域塊(708:有變動區(qū)域塊)區(qū)域中 有物體或人物侵入時,向表示混合正態(tài)分布模型的數(shù)學(xué)式(5)代入輸入 影像的時空間特征矢量時,返回值反而變小。這是因為輸入影像時,.空間 特征矢量基本不屬于混合正態(tài)分布。此時,根據(jù)閾值處理判定該區(qū)域塊中 存在前景物體或人物。
以上,假設(shè)時空間特征矢量為1維,但是在如數(shù)學(xué)式(4)所示的6 XN維的矢量中,處理也相同。但是,由于在6XN維的多維柱狀圖中匹 配數(shù)學(xué)式(5)的混合正態(tài)分布時,若N變大則計算成本會變高,因此分 割6XN維的時空間特征矢量為多個低維部分空間矢量,向各個低維矢量 分布匹配混合正態(tài)分布模型并能夠生成背景模型。此時,前景與背景的分 離的做法中具有幾個方法,例如,能夠使用獲得多個混合正態(tài)分布模型的 前景與背景的判定結(jié)果的多數(shù)決定的方法,或從多個混合正態(tài)分布模型內(nèi) 至少判定出一個前景并優(yōu)先該判定結(jié)果等的方法。
在圖6表示以上的根據(jù)時空間信息的混合正態(tài)分布模型的匹配進行前 景與背景的分離的處理概要。圖6是檢測自動扶梯的臺階上的人物的處理 的示意圖。
從作為學(xué)習(xí)用背景動畫的學(xué)習(xí)用背景運動圖像601求出在每一局部區(qū) 域塊(圖6中的粗線所圍的框)中表示時空間特征矢量的數(shù)學(xué)式(4)、 或數(shù)學(xué)式(5) (603)。在603中,作為例子,表示3個根據(jù)時空間特征 矢量表現(xiàn)的物體的結(jié)構(gòu)和運動。第一個是包括扶手的進行向下的小運動的 復(fù)雜結(jié)構(gòu),第二個是有關(guān)臺階的進行向上的大運動的周期結(jié)構(gòu),第三個是 包括地板或廣告牌的無運動的單純結(jié)構(gòu)。這樣,針對具有多樣的結(jié)構(gòu)與運 動的模式的局部區(qū)域塊分別求出時空間信息的混合正態(tài)分布模型(604)。另外,所述模式中其它還包括物體的顏色、亮度。
而且,進行該混合正態(tài)分布模型604與作為被輸入的影像的輸入運動 圖像602之間的差分計算時,獲得在每一局部區(qū)域塊中前景與背景分離了 的背景差分圖像605。但是,在該時間點上,只是在每一局部區(qū)域塊中進 行了前景與背景的分離,不知道在拍攝場景中或設(shè)定的處理區(qū)域中是否有 物體或人物存在。因此,在作為下一個處理臺階的探出身體探測(S406) 與人物區(qū)域探測(S407)中使用這樣得到的每一區(qū)域塊的前景與背景的判 定結(jié)果。
首先,說明圖4中的探出身體探測(S406)。該處理非常單純,在處 理區(qū)域305內(nèi),若判定為前景的局部區(qū)域塊的數(shù)量為某一閾值個數(shù)以上時, 判定處理區(qū)域內(nèi)有物體或人物存在。在圖8中表示包括自動扶梯的扶手的 區(qū)域內(nèi)的處理結(jié)果例子。在例中采用由攝像機103拍攝到的圖像。人物身 體探出扶手時,判定為前景的局部區(qū)域塊數(shù)增加(由圖8中的正方形表示), 判定為人物探出身體。另外,例如作為時空間亮度梯度計算用參數(shù)來追加 并指定關(guān)于局部區(qū)域塊數(shù)的閾值。
此時,在處理區(qū)域內(nèi),背景中移動的人物或映射在自動扶梯的外側(cè)板 等上的影子的存在成為問題,但是能夠根據(jù)在學(xué)習(xí)用背景運動圖像中學(xué)習(xí) 到的混合正態(tài)分布模型適當(dāng)判斷。即,對于在背景中移動的與攝像機103 離得較遠的人物而言,假設(shè)即使探出身體,判定為前景的局部區(qū)域塊的數(shù) 量也為閾值以下,存在無法作為異常動作而被檢測出的隱患。但是,由于 該局部區(qū)域塊的時空間特征矢量表現(xiàn)來源于該人物的結(jié)構(gòu),因此作為從混 合正態(tài)分布模型遠離的時空間特征而使用,能夠判定為引起異常動作的前
學(xué)
另外,由于映射在自動扶梯的外側(cè)板的影子并不是作為原來前景而應(yīng) 判定的部分,因此存在因為未探出身體的人物的影子侵入而導(dǎo)致在某一程 度上時空間特征產(chǎn)生變化且判定為前景的局部區(qū)域塊的數(shù)量變成閾值以 上,作為異常動作而被檢測出的隱患。但是基于影子的結(jié)構(gòu)非常小,且由 于該局部區(qū)域塊的時空間特征矢量也表現(xiàn)這樣的結(jié)構(gòu),因此作為屬于混合 正態(tài)分布模型的時空間特征來使用,能夠判定為不構(gòu)成前景的背景。
這樣,本實施方式的方法對干擾能夠返回穩(wěn)定的判定結(jié)果。200910166245.0
下面,在圖4中說明人物區(qū)域探測407。這里,在分割的局部區(qū)域塊 內(nèi)使用判定為前景的局部區(qū)域塊具有的時空間信息來進行人物探測。如圖 9所示,對此準備具有人物輪廓的長寬比的檢測框901,變更尺寸并在輸 入圖像902上進行掃描(scan)。然后在掃描的每一位置上判定是否為人 物。設(shè)用于判定的特征量是判定為所述的前景的局部區(qū)域塊具有的時空間 信息,是具有(數(shù)學(xué)式(3)或數(shù)學(xué)式(4)的時空間特征矢量維數(shù))X (判 定為前景的區(qū)域塊數(shù))維數(shù)的特征矢量。通過例如向支持向量機(SVM: Support vector machine)或AdaBoost等識別器輸入該特征矢量來判定是否 為人物(乘客)。基本上,判定輪廓與檢測框卯l大致一致的前景為自動 扶梯的乘客(人物)。但是,也可以根據(jù)乘客的體格、位置等適當(dāng)變更檢 測框901的尺寸、長寬比。
下面,在探測到的人物區(qū)域內(nèi),進行人物的動作種類識別或異常動作 探測的處理。在這里,計算從數(shù)學(xué)式(2)的格拉姆(Gram)矩陣算出的 連續(xù)等級增量(S408)。由于格拉姆(Gram)矩陣的特征值計算因噪聲等 影響數(shù)學(xué)式(2)的特征值很少會變成零,因此作為指定區(qū)域中的異常動 作的指標,使用以下數(shù)學(xué)式所示的連續(xù)等級增量Ar。 (數(shù)學(xué)式8)
▲ A, * /I;
V乂2 …(8)
這里,A 2、入3是格拉姆(Gram)矩陣M的特征值(升順), (數(shù)學(xué)式9)
。
A,、 …(9)
是格拉姆(Gmm)矩陣M的左上2X2矩陣的特征值(升順)。連續(xù) 等級增量Ar的取值范圍是0 1.0,越接近0,則指定區(qū)域內(nèi)的運動越相干 (coherent),越接近于1.0,則表示在指定區(qū)域內(nèi)存在多個運動。
例如,在自動扶梯的臺階上,產(chǎn)生跌倒或逆行等異常動作時,包括該 異常動作的局部區(qū)域內(nèi)存在多個運動分量,通過觀察連續(xù)等級增量Ar的 值來判定指定區(qū)域內(nèi)是否存在異常動作。用于判定異常動作或動作種類的指定區(qū)域中具有幾種變化,利用圖IO來說明。另外,作為時空間亮度梯 度計算用參數(shù)(S506)而指定使用哪一個變化。另外,也作為時空間亮度 梯度計算用參數(shù)(S506)而指定連續(xù)等級增量Ar的閾值,若連續(xù)等級增 量Ar為該閾值以上,則判定具有異常動作。
第一,是如圖像整體區(qū)域1001所示,將圖像整體作為判定區(qū)域的方 法(a)。這是應(yīng)探測的人物區(qū)域比較大時使用的方法,具有省略叫做處 理區(qū)域的設(shè)定的工序使用方便的優(yōu)點。對利用單機(stand-alone)工作、 編入圖像識別處理的IP (InternetProtocol)因特網(wǎng)攝像機等有效。
第二,是使用由混合正態(tài)分布模型(S404)判定為前景的局部區(qū)域塊 (1002:前景區(qū)域塊)的方法(b)。使用該區(qū)域時,由于根據(jù)使用圖像 整體而能夠降低存在于背景中的噪聲的影響,因此能提高異常動作的檢測 精度或動作種類的識別精度,但是需要在每一局部區(qū)域塊中進行前景和背 景的判定,所以與使用圖像整體區(qū)域1001時相比,計算成本上升。
第三,是從前景區(qū)域塊1002的集合由人物區(qū)域探測(S407)探測出 的人物區(qū)域內(nèi)進行異常動作探測和動作種類識別的方法(c)。作為根據(jù) 由圖IO中的粗框表示的檢測框(1003:參照圖9)探測出的人物區(qū)域,只 使用存在于其中(畫陰影線的)的前景區(qū)域塊1004,暫且在作為前景區(qū)域 塊的異常動作檢測和動作種類識別中不使用探測框之外(白色表示的)的 區(qū)域塊1005。這成為圖4的流程圖中的默認處理。使用前景區(qū)域塊1002 的集合時,在判定為前景區(qū)域的區(qū)域塊中混有影子或背景的移動等,但是 通過詳細限定如1004的人物區(qū)域,能夠提高異常動作檢測和動作種類判 定的精度。但是,由于改變檢測框1003的尺寸,并且進行整畫面掃描, 因此具有計算成本變高的缺點。
最后第四,是在檢測框1003中探測出的人物區(qū)域內(nèi)作為部分1006、 1007選擇假定特別容易發(fā)生異常動作的區(qū)域、并進行異常動作檢測和動作 種類判定的方法(d)。在該方法中,能夠進行在每一部分區(qū)域1006、 1007 中計算出的異常動作檢測和動作種類判定的結(jié)果的統(tǒng)計判定。例如,多個 判定結(jié)果的多數(shù)決定判定。另外,部分區(qū)域1006相當(dāng)于人物的手臂的可 動區(qū)域,部分區(qū)域1007相當(dāng)于人物的腳的可動區(qū)域。這些部分區(qū)域1006、 1007也可以從與檢測框1003的相對的位置關(guān)系自動設(shè)定,也可以由外部
17的計算機操作并設(shè)定。
以上的處理是根據(jù)由人物區(qū)域探測(S407)的結(jié)果的等級增量計算 (S408)的異常動作檢測和動作種類判定。這是有關(guān)在用于進行異常動作 檢測和動作種類判定的空間的分割中的方法,也是時間分割動作、根據(jù)這 些的統(tǒng)計處理進行異常動作檢測和動作種類判定的處理。這是圖4中的 BoM (S409),利用圖11說明該處理流程。另外,設(shè)該處理的主體為圖 像識別裝置107的控制部。
BoM是Bag of Motions的縮寫,是在文件解析處理中使用的概念Bag ofWords的類推。按照以下順序進行BoM。在學(xué)習(xí)的第一階段中,首先獲 得輸入運動圖像(S1101),在獲得的輸入運動圖像中從任意的時間位置 和時間長度的幀組計算數(shù)學(xué)式(3) 、 (4)的時空間特征矢量(S1102)。 根據(jù)需要,由主分量分析(PCA) (SU03)進行維度壓縮,對這些矢量 組進行K平均聚類處理。作為其處理結(jié)果,生成作為輸入運動圖像中的物 體(主要是人物(乘客))的動作要素的動作碼(motion word) (SI 104)。 在圖像識別裝置107的存儲部中存儲生成的動作碼。
在學(xué)習(xí)的第二階段中,作為與(S1101)不同的處理,獲得輸入運動
圖像的連續(xù)鏡頭(學(xué)習(xí)用連續(xù)鏡頭所述幀組的全部或一部分幀組)作為 學(xué)習(xí)用(S1105),與(S1102)同樣地從獲得的學(xué)習(xí)用連續(xù)鏡頭計算時空 間特征矢量(S1106)。同樣地,(S1103)根據(jù)需要由PCA進行維度壓 縮(S1107)。之后,搜索該時空間特征矢量對應(yīng)登錄了在(S1104)中作 成的動作碼的目錄中的哪一個動作要素(S1108),生成動作碼的柱狀圖 (例如,作為時空間特征矢量的(各分量的)發(fā)生概率而表示的柱狀圖) (S1109)。在每一動作種類中計算該動作碼的柱狀圖,例如,使用支持 向量機(SVM)或AdaBoost等識別器對物體的動作進行學(xué)習(xí)(S1110)。 在圖像識別裝置107的存儲部中存儲基于該學(xué)習(xí)的學(xué)習(xí)結(jié)果(S1111)。
在識別階段中,首先,獲得成為對象的輸入運動圖像(S1112),從 獲得的輸入運動圖像計算時空間特征矢量(S1113)。與(S1103)同樣地, 根據(jù)需要由PCA進行維度壓縮(S1114)。之后,將該時空間特征矢量作 為檢索碼,與(S1108)同樣地,通過從登陸了動作碼的目錄(S1104)中 搜索對應(yīng)的動作要素(S1115),來確定對應(yīng)于成為檢索碼的時空間特征矢量的動作碼,與(S1109)同樣地,生成確定的動作碼的柱狀圖(S1116)。 在每一動作種類中計算該動作碼的柱狀圖,向讀入學(xué)習(xí)結(jié)果(S1111)的 識別器輸入該計算結(jié)果(S1U7),輸出識別結(jié)果并返回(S1118)。通過 比較該識別結(jié)果與學(xué)習(xí)結(jié)果,判定識別階段中的物體(包括乘客等的人物) 的動作。
該方法通過將在時間上分割人物動作的結(jié)果作為特征量,能夠高精度 地檢測并識別在時間上變化的人物舉動。另外,通過縮短生成動作碼時的 時間長度,也能夠同時探測如自動扶梯的臺階上的跌倒等突發(fā)事件。 (總結(jié))
根據(jù)本實施方式的人物與異常動作探測方法,在自動扶梯的臺階或自 動人行道的人行道面移動的情景中能夠有效檢測出人物,通過解析檢測到 的區(qū)域內(nèi)的時空間信息,能夠進行人物的異常動作或動作種類的識別。根 據(jù)該識別,防止乘客的事故于未然,能夠確保乘客的安全。能夠降低監(jiān)視 自動扶梯等的監(jiān)視員的疲勞或自動扶梯監(jiān)視系統(tǒng)的設(shè)置成本。
另外,由于與紅外線傳感器或振動探測傳感器不同,即使是遠方,只 要看到乘客就能進行圖像識別,因此,對設(shè)置場所的限制少。即,由于攝 像機即使是遠方,也能夠探測異常搭乘或危險搭乘的異常動作的征兆,因 此能夠減少設(shè)置攝像機數(shù)量,能夠降低系統(tǒng)構(gòu)筑的成本。
在本實施方式中,不需要其它物理傳感器,由于僅通過向己設(shè)的圖像 錄制裝置追加圖像識別功能就能夠構(gòu)筑自動扶梯圖像監(jiān)視系統(tǒng),因此能夠 減少設(shè)置成本。例如,想用紅外線傳感器探測乘客的扶手的探出身體時, 不得不沿著扶手按固定間隔設(shè)置紅外線傳感器,但是若為圖像傳感器,能 夠從保護板的位置用一臺攝像機監(jiān)視扶手區(qū)域。毫米波雷達時,與紅外線 傳感器不同,能夠進行比較遠距離和廣視角的監(jiān)視,但是框架大,設(shè)置場 所受到限制。但是,在本發(fā)明的圖像監(jiān)視系統(tǒng)中并用現(xiàn)有的物理傳感器, 能夠更高精度地檢測自動扶梯乘客的異常動作狀態(tài)。 (其它)
另外,所述實施方式是用于實施本發(fā)明的最佳方式,但是該實施方式 并不僅限于此。因此,在不變更本發(fā)明的要旨的范圍中,能夠?qū)⒃搶嵤┓?式變形為各種各樣的方式。例如,在本實施方式中,生成背景模型時,也可以具備任意決定構(gòu)成 背景模型的正態(tài)分布數(shù)或者從拍攝場面的結(jié)構(gòu)、顏色、亮度模式、移動的 復(fù)雜度來自動決定該分布數(shù)的最佳值的功能。另外,也可以具備任意決定 該時空間特征矢量的維數(shù)或者從乘客的檢測率自動決定最佳數(shù)的功能。另 外,求背景模式的分布時,也可以具備將時空間信息作為一個特征矢量并 作為一個模型來生成背景模型或者分割特征矢量為多個矢量生成多個背 景模型后、統(tǒng)計判定利用該多個背景模型的多個人物檢測結(jié)果并進行人物 檢測的功能。
另外,在本實施方式中,也可以具備即使變化攝像機的配置,通過運 送系統(tǒng)的扶手位置和臺階的信息,例如從張數(shù)、速度、位置計算攝像機的 設(shè)置高度與俯角而進行圖像的俯瞰變換,通常向攝像機的配置前的學(xué)習(xí)圖 像的位置與形狀匹配輸入圖像,使用一次生成的背景模型的功能。
另外,在本實施方式中,也可以在進行使用BoM的處理時,進行實 驗,并從成為乘客的人物協(xié)助得到各種各樣的動作,事先生成并存儲學(xué)習(xí) 第一階段的動作碼和學(xué)習(xí)第二階段的柱狀圖后,在現(xiàn)場執(zhí)行識別階段。另 外,作為其它方法,也可以最初在現(xiàn)場配置攝像機103、圖像識別裝置107 等,并從第一階段開始執(zhí)行處理,拍攝到足夠的數(shù)據(jù)后執(zhí)行識別階段,也 可以依次處理學(xué)習(xí)第一階段、學(xué)習(xí)第二階段、識別階段。
另外,在不超出本發(fā)明的宗旨的范圍內(nèi)能夠適當(dāng)變更硬件、軟件、各 程序等具體的構(gòu)成。
權(quán)利要求
1、一種圖像識別裝置,進行從拍攝裝置獲得的運動圖像的圖像識別,該拍攝裝置拍攝承載乘客并進行運送的運送系統(tǒng),其特征在于,具有存儲部,從所述運送系統(tǒng)中無乘客的狀態(tài)下拍攝到的由所述拍攝裝置獲得的運動圖像進行計算,使用由空間方向和時間方向上對該像素的亮度值進行微分得到的時空間亮度梯度所表現(xiàn)的時空間特征矢量,存儲用1以上的正態(tài)分布近似所述時空間特征矢量的發(fā)生概率而構(gòu)成的背景模型;和控制部,從某一時刻拍攝到的所述拍攝裝置獲得的運動圖像進行計算,計算由空間方向和時間方向上對該像素的亮度值進行微分得到的時空間亮度梯度所表現(xiàn)的時空間特征矢量是否屬于構(gòu)成所述背景模型的所述正態(tài)分布,若不屬于所述正態(tài)分布,則判定在該運動圖像中的所拍攝到的所述運送系統(tǒng)中存在前景。
2、 根據(jù)權(quán)利要求l所述的圖像識別裝置,其特征在于,所述控制部從連接到的能夠通信的計算機至少獲得決定從所述拍攝 裝置獲得的運動圖像的幀數(shù)的時空間亮度梯度計算用參數(shù),所述控制部參照獲得的所述時空間亮度梯度計算用參數(shù),將所述時空 間特征矢量的維數(shù)作為與所述幀數(shù)對應(yīng)的維數(shù)。
3、 根據(jù)權(quán)利要求2所述的圖像識別裝置,其特征在于, 所述控制部將成為所述圖像識別的對象的區(qū)域的全部或一部分分割為多個局部區(qū)域塊,在各個分割的所述局部區(qū)域塊中判定是否存在所述前旦 牙、,所述控制部參照決定了與所述局部區(qū)域塊的個數(shù)相關(guān)的閾值的所述 時空間亮度梯度計算用參數(shù),若判定為存在所述前景的局部區(qū)域塊的個數(shù) 是所述閾值以上,則判定所述運送系統(tǒng)的乘客進行了異常動作。
4、 根據(jù)權(quán)利要求l所述的圖像識別裝置,其特征在于, 所述控制部通過使用具有人物輪廓的長寬比的檢測框來掃描成為所述圖像識別的對象的區(qū)域,判定與所述檢測框與輪廓大致一致的所述前景 為所述運送系統(tǒng)的乘客。
5、 根據(jù)權(quán)利要求4所述的圖像識別裝置,其特征在于, 所述控制部通過計算所述時空間亮度梯度的格拉姆矩陣的固有值,計算使用了所述固有值的連續(xù)等級增量,所述控制部根據(jù)所述連續(xù)等級增量的值判定所述乘客的動作。
6、 根據(jù)權(quán)利要求5所述的圖像識別裝置,其特征在于, 所述控制部將成為所述圖像識別的對象的區(qū)域的全部或一部分分割為多個局部區(qū)域塊,在各個分割的所述局部區(qū)域塊中判定是否存在所述運 送系統(tǒng)的乘客,并且在判定為存在所述乘客的局部區(qū)域塊內(nèi),選擇假定易 發(fā)生異常動作的乘客的局部區(qū)域塊,在所述選擇的局部區(qū)域塊中判定所述 乘客的動作。
7、 一種圖像識別裝置,進行從拍攝裝置獲得的運動圖像的圖像識別, 該拍攝裝置拍攝承載乘客并進行運送的運送系統(tǒng),其特征在于,具有-存儲部,在某一時間長度的幀組中,從所述運送系統(tǒng)上有乘客的狀態(tài) 下拍攝到的所述拍攝裝置獲得的運動圖像進行計算,對應(yīng)并存儲由空間 方向和時間方向上對該像素的亮度值進行微分得到的時空間亮度梯度所 表現(xiàn)的時空間特征矢量;使用所述時空間特征矢量通過進行K平均聚類處 理而生成的乘客的動作要素;生成所述動作要素的柱狀圖并通過向識別器 輸入所述柱狀圖從而所述識別器對乘客的動作進行學(xué)習(xí)時的學(xué)習(xí)結(jié)果;和控制部,從持續(xù)某一時間長度拍攝到的所述拍攝裝置獲得的運動圖像 進行計算,由空間方向和時間方向上對該像素的亮度值進行微分得到的時 空間亮度梯度所表現(xiàn)的時空間特征矢量,通過參照所述存儲部來確定動作 要素,向所述識別器輸入所述動作要素的柱狀圖,通過比較從所述識別器 輸出的識別結(jié)果與所述學(xué)習(xí)結(jié)果,來判定乘客的動作。
全文摘要
本發(fā)明提供一種圖像識別裝置,能夠提高搭乘在自動扶梯或自動人行道等乘客用運送系統(tǒng)中的乘客的探測和探測乘客的異常動作的圖像識別的精度。本發(fā)明根據(jù)從時空間亮度梯度計算出的格拉姆矩陣,能同時表現(xiàn)和學(xué)習(xí)動態(tài)變動的背景的結(jié)構(gòu)和運動。由此,既使輸入了與背景相似的亮度值,也能由結(jié)構(gòu)的信息分離背景與前景。而且,即使背景在動態(tài)變動的場景的對象物體的檢測中,由于模型化該背景的運動本身,因此也能探測人物或物體。另外,利用探測到的人物區(qū)域能夠提高異常動作探測或動作種類識別的精度。背景的模型作為表示由格拉姆矩陣的時空間特征矢量的分量的概率密度的混合正態(tài)分布模型而構(gòu)成,輸入的時空間特征矢量不屬于該正態(tài)分布時判定存在前景。
文檔編號B66B25/00GK101665210SQ20091016624
公開日2010年3月10日 申請日期2009年8月20日 優(yōu)先權(quán)日2008年9月3日
發(fā)明者三好雅則, 主稅雅裕, 數(shù)井誠人, 藤吉弘亙 申請人:株式會社日立制作所;株式會社日立建筑系統(tǒng)