一種基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法
【專利摘要】一種基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,包括:對視頻流逐幀進(jìn)行背景建模,獲取運(yùn)動(dòng)前景作為候選運(yùn)動(dòng)目標(biāo);使用多目標(biāo)跟蹤算法對每一幀的候選運(yùn)動(dòng)目標(biāo)跟蹤,更新形成運(yùn)動(dòng)軌跡的候選目標(biāo);使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練目標(biāo)分類器,對候選目標(biāo)進(jìn)行確認(rèn),在確認(rèn)真實(shí)運(yùn)動(dòng)目標(biāo)后,使用分類器對目標(biāo)類別進(jìn)行判定;將所有真實(shí)運(yùn)動(dòng)目標(biāo)和相關(guān)信息貼合在少量圖像上,形成視頻快照顯示給用戶。本發(fā)明利用深度學(xué)習(xí)技術(shù)對真實(shí)目標(biāo)和噪聲進(jìn)行準(zhǔn)確區(qū)分;且利用準(zhǔn)確的多目標(biāo)追蹤技術(shù)來避免逐幀進(jìn)行目標(biāo)確認(rèn),大幅減少了計(jì)算量,有效降低了弱小目標(biāo)的漏檢率及噪聲的虛警率,提升了視頻處理速度,能夠運(yùn)用于各種復(fù)雜的場景。
【專利說明】一種基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像處理【技術(shù)領(lǐng)域】,更具體地,涉及一種基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法。
【背景技術(shù)】
[0002]現(xiàn)代社會中,視頻監(jiān)控系統(tǒng)在各行各業(yè)中都扮演著重要的角色,在維護(hù)社會治安,加強(qiáng)社會管理以及安全保障方面發(fā)揮著重要的作用;但是伴隨著攝像頭數(shù)目的飛速增長,海量的監(jiān)控視頻數(shù)據(jù)的存儲以及了解這些視頻中記錄的事件會耗費(fèi)大量的人力、物力。根據(jù)IteportLinker公司統(tǒng)計(jì),在2011年,全世界擁有超過1.65億個(gè)監(jiān)控?cái)z像機(jī),產(chǎn)生1.4萬億個(gè)小時(shí)的監(jiān)控?cái)?shù)據(jù),假如有20 %的重要監(jiān)控視頻數(shù)據(jù)需要人工觀看,則需要雇傭超過I億的勞動(dòng)力(每天工作8小時(shí),每年工作300天)。因此,將大量的視頻進(jìn)行濃縮,幫助用戶快速了解視頻中發(fā)生的事件,迅速鎖定檢索對象,能夠有效地提高海量監(jiān)控視頻的利用效率。
[0003]在圖像處理領(lǐng)域,為了提高視頻的瀏覽效率,可采用視頻摘要技術(shù),將視頻中用戶感興趣的內(nèi)容提取出來,然后將它們以緊湊的方式重新安排,以視頻快照的形式將視頻的內(nèi)容展示出來。為了能夠自動(dòng)的提取視頻中用戶感興趣的內(nèi)容,最簡單的方法是提取原始視頻中的關(guān)鍵幀,來構(gòu)成視頻摘要(例如參考文獻(xiàn):查德威克凱姆等,“一種基于目標(biāo)的視頻摘要整體方案”,《第八屆計(jì)算機(jī)協(xié)會多媒體國際會議匯刊》,2000年,第303-311頁(Kim, C., Hwang, J.N.:An integrated scheme for object-based video abstract1n.1n:Proceedings of the eighth ACM internat1nal conference on Multimedia.(2000) 303-311)),但是關(guān)鍵幀無法完整的描述整段視頻,會造成視頻中重要信息的丟失,而且由于視頻內(nèi)容種類繁多,如何選擇合適的關(guān)鍵幀是一個(gè)難題。另一種方法是先對視頻內(nèi)容進(jìn)行分析,提取原始視頻中運(yùn)動(dòng)目標(biāo)的相關(guān)信息,然后將提取出的運(yùn)動(dòng)信息緊湊地安排,生成視頻摘要(例如參考文獻(xiàn):雅艾爾普瑞奇等,“非時(shí)序視頻摘要與索引”,《IEEE模式分析與機(jī)器智能匯刊》,2008年,第1971-1984頁(Pritch, Y.,Rav-Acha, A.,Peleg,S.:Nonchronological video synopsis and indexing.1EEE Trans.Pattern Anal.Mach.1ntell.30(2008) 1971-1984)),這種方法能夠較好的保留視頻的動(dòng)態(tài)內(nèi)容。對于這種方法來說,問題的關(guān)鍵在于如何準(zhǔn)確地提取用戶感興趣的所有事件。
[0004]對于監(jiān)控視頻來說,監(jiān)控視頻的拍攝場景非常復(fù)雜:有的場景車輛多,運(yùn)動(dòng)速度快,如高速公路;有的場景中,運(yùn)動(dòng)目標(biāo)在畫面上所占像素面積很??;有的場景中,樹木、旗子等不感興趣的物體由于風(fēng)吹而同樣產(chǎn)生運(yùn)動(dòng)等等;場景的復(fù)雜性為運(yùn)動(dòng)目標(biāo)的準(zhǔn)確檢測帶來很大的挑戰(zhàn)。目前的視頻摘要技術(shù)并不能很好地解決復(fù)雜場景中運(yùn)動(dòng)目標(biāo)的檢測問題,常常使得運(yùn)動(dòng)目標(biāo)的漏檢率非常高,同時(shí)受噪聲干擾較大,無法準(zhǔn)確提取視頻中的重要事件,從而致使生成的視頻摘要漏掉原始視頻中的重要信息。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明的目的是提出一種基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,以方便用戶對長時(shí)間的監(jiān)控視頻進(jìn)行快速瀏覽,降低復(fù)雜場景中運(yùn)動(dòng)目標(biāo)的漏檢率以及錯(cuò)檢率。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,包括以下步驟:
[0007]步驟1,對輸入的原始視頻的圖像序列進(jìn)行背景建模,提取運(yùn)動(dòng)目標(biāo)對應(yīng)的前景區(qū)域;
[0008]步驟2,將獲得的所述前景區(qū)域作為運(yùn)動(dòng)候選目標(biāo),使用多目標(biāo)跟蹤技術(shù)對所述運(yùn)動(dòng)候選目標(biāo)進(jìn)行跟蹤,計(jì)算每一幀中所述運(yùn)動(dòng)候選目標(biāo)的運(yùn)動(dòng)軌跡;
[0009]步驟3,對確定所述運(yùn)動(dòng)軌跡為活躍軌跡的運(yùn)動(dòng)候選目標(biāo)使用基于深度學(xué)習(xí)技術(shù)的目標(biāo)分類器進(jìn)行進(jìn)一步確認(rèn),判定所述運(yùn)動(dòng)候選目標(biāo)是否是真實(shí)的目標(biāo),以及確認(rèn)目標(biāo)后,再使用分類器判斷所述運(yùn)動(dòng)候選目標(biāo)的類別;
[0010]步驟4,將多個(gè)檢測到的所述運(yùn)動(dòng)目標(biāo)貼合在同一幅圖像中,生成視頻快照,以所述視頻快照展示視頻中檢測到的所述運(yùn)動(dòng)目標(biāo)。
[0011]其中,在步驟I中對輸入的原始視頻的圖像序列進(jìn)行背景建模的步驟之前還包括將輸入的所述原始視頻的圖像序列縮放至相同大小的步驟。
[0012]其中,在步驟I所述提取運(yùn)動(dòng)目標(biāo)對應(yīng)的前景區(qū)域的步驟中還包括對獲得的所述運(yùn)動(dòng)前景進(jìn)行后處理的步驟,具體包括:
[0013]步驟11,用形態(tài)學(xué)結(jié)構(gòu)元素,對所述前景區(qū)域進(jìn)行形態(tài)學(xué)開運(yùn)算和形態(tài)學(xué)閉運(yùn)算,獲得輪廓光滑的前景區(qū)域,并且消除面積較小的噪聲塊;
[0014]步驟12,對所述前景區(qū)域進(jìn)行面積計(jì)算,若所述前景區(qū)域像素點(diǎn)數(shù)目小于T1 = 5時(shí),則濾除所述前景區(qū)域,否則,保留所述前景區(qū)域,確定所述前景區(qū)域是候選目標(biāo)。
[0015]其中,在步驟2中所述的多目標(biāo)跟蹤技術(shù)是基于匈牙利算法構(gòu)建的,具體包括:
[0016]步驟21,計(jì)算當(dāng)前幀的所述運(yùn)動(dòng)候選目標(biāo)的顏色直方圖特征,以及所述顏色直方圖特征與上一幀中運(yùn)動(dòng)候選目標(biāo)的相似性;
[0017]步驟22,利用卡爾曼濾波預(yù)測上一幀中的所述運(yùn)動(dòng)候選目標(biāo)在當(dāng)前幀的位置信息,計(jì)算所述運(yùn)動(dòng)候選目標(biāo)的預(yù)測位置與當(dāng)前幀所述運(yùn)動(dòng)候選目標(biāo)位置之間的歐氏距離;
[0018]步驟23,根據(jù)上述計(jì)算結(jié)果,使用匈牙利算法,對當(dāng)前幀中的所述運(yùn)動(dòng)候選目標(biāo)與上一幀中所述運(yùn)動(dòng)候選目標(biāo)的軌跡進(jìn)行匹配,獲得匹配結(jié)果,并根據(jù)所述匹配結(jié)果更新所述運(yùn)動(dòng)候選目標(biāo)的軌跡。
[0019]其中,在步驟3中所述的目標(biāo)分類器是預(yù)先使用深度學(xué)習(xí)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練得到的,用于判定所述運(yùn)動(dòng)候選目標(biāo)是否是真實(shí)目標(biāo),以及所述運(yùn)動(dòng)候選目標(biāo)的類型。
[0020]其中,對所述的目標(biāo)分類器進(jìn)行離線訓(xùn)練的步驟包括采用樣品集來離線訓(xùn)練所述目標(biāo)分類器,以及訓(xùn)練所述目標(biāo)分類器使用的樣本集包括監(jiān)控視頻中出現(xiàn)的五類運(yùn)動(dòng)目標(biāo)或物體對應(yīng)的圖像和除去這五類外的圖像背景區(qū)域:①行人;②非機(jī)動(dòng)車;③轎車等小型車卡車等大型車;⑤樹木、旗幟等非感興趣目標(biāo)但是會運(yùn)動(dòng)物體的局部;⑥監(jiān)控場景中的除了上述五類運(yùn)動(dòng)物體外的圖像區(qū)域;通過上述訓(xùn)練得到一個(gè)六分類的目標(biāo)分類器,用于確認(rèn)所述運(yùn)動(dòng)候選目標(biāo)是否是真實(shí)目標(biāo)。
[0021]其中,將上述樣本中①、②類樣本以及③、④樣本分別組合成兩個(gè)大的類別:人、機(jī)動(dòng)車,使用這兩類樣本訓(xùn)練一個(gè)人/機(jī)動(dòng)車的二分類分類器,用于在確認(rèn)所述運(yùn)動(dòng)候選目標(biāo)為感興趣目標(biāo)之后,對所述運(yùn)動(dòng)候選目標(biāo)的類別進(jìn)行判定。
[0022]其中,步驟3具體包括以下步驟:
[0023]步驟31,對于沒有形成軌跡的所述運(yùn)動(dòng)候選目標(biāo),使用所述六分類分類器進(jìn)行分類,只有當(dāng)所述運(yùn)動(dòng)候選目標(biāo)被判定為上述第⑤或者第⑥類時(shí)才認(rèn)為該候選目標(biāo)是噪聲,否則認(rèn)為是真實(shí)目標(biāo);而對于形成軌跡的所述運(yùn)動(dòng)候選目標(biāo),挑選其軌跡中的三個(gè)位置對應(yīng)的包含所述運(yùn)動(dòng)候選目標(biāo)的圖像,分別使用所述六分類分類器進(jìn)行分類,判定所述運(yùn)動(dòng)候選目標(biāo)是否是真實(shí)目標(biāo),如果在這三個(gè)位置,所述運(yùn)動(dòng)候選目標(biāo)都被判定為第⑤或者第⑥類,才認(rèn)為所述運(yùn)動(dòng)候選目標(biāo)是噪聲,刪除該軌跡,否則認(rèn)為所述運(yùn)動(dòng)候選目標(biāo)為真實(shí)運(yùn)動(dòng)目標(biāo);
[0024]步驟32,對于判定為真實(shí)運(yùn)動(dòng)目標(biāo)的情況,如果在所述運(yùn)動(dòng)候選目標(biāo)確認(rèn)時(shí)的三次分類中,對所述運(yùn)動(dòng)候選目標(biāo)是人還是機(jī)動(dòng)車的判定存在分歧,則對所述運(yùn)動(dòng)候選目標(biāo)使用人/機(jī)動(dòng)車的分類器對其進(jìn)行類型判定。
[0025]其中,在步驟4中,在確認(rèn)后的所述目標(biāo)軌跡中,挑選面積最大的一個(gè)位置,使將所述位置對應(yīng)的圖像貼合在一幅快照上,多個(gè)所述運(yùn)動(dòng)候選目標(biāo)貼合組成一張快照,使用所述快照展示視頻中出現(xiàn)的運(yùn)動(dòng)目標(biāo)。
[0026]其中,在步驟4中,生成的所述快照中所有所述運(yùn)動(dòng)候選目標(biāo)沒有重疊,并且所述運(yùn)動(dòng)候選目標(biāo)在所述快照上出現(xiàn)的先后順序整體上是按照所述運(yùn)動(dòng)候選目標(biāo)出現(xiàn)的真實(shí)時(shí)間排列。
[0027]基于上述技術(shù)方案可知,本發(fā)明針對復(fù)雜場景下的監(jiān)控視頻,通過新穎的視頻內(nèi)容分析技術(shù),提取原始視頻中的候選運(yùn)動(dòng)目標(biāo),并通過多目標(biāo)跟蹤,對候選目標(biāo)進(jìn)行初步區(qū)分,對于未形成軌跡和形成軌跡的候選運(yùn)動(dòng)目標(biāo),通過深度學(xué)習(xí)方法進(jìn)行確認(rèn)和分類,并以圖像的形式緊湊地顯示給用戶,用戶通過觀看記錄每個(gè)運(yùn)動(dòng)目標(biāo)事件的圖片便可達(dá)到觀看原始視頻的目的,大大地縮短了用戶觀看視頻所耗費(fèi)的時(shí)間。本發(fā)明的方法充分考慮到場景的復(fù)雜性,采用的技術(shù)方案能夠保證計(jì)算結(jié)果的可靠性,將運(yùn)動(dòng)目標(biāo)事件的漏檢率以及噪聲的干擾控制在極低的水平,從而使得本發(fā)明可以廣泛運(yùn)用于許多部門的實(shí)戰(zhàn)中,例如公安偵查等。
【專利附圖】
【附圖說明】
[0028]圖1是本發(fā)明的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法的流程圖;
[0029]圖2是本發(fā)明的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法中多目標(biāo)跟蹤方法的流程圖;
[0030]圖3是本發(fā)明的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法中候選目標(biāo)確認(rèn)的流程圖。
【具體實(shí)施方式】
[0031]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0032]本發(fā)明提出了一種基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,該方法包括以下步驟:
[0033]首先,對原始視頻的圖像序列進(jìn)行背景建模,獲得運(yùn)動(dòng)前景塊,并對其進(jìn)行前景后處理等;其次,把提取出來的運(yùn)動(dòng)區(qū)域當(dāng)做候選運(yùn)動(dòng)目標(biāo),利用基于匈牙利算法的多目標(biāo)跟蹤技術(shù)對這些候選運(yùn)動(dòng)目標(biāo)進(jìn)行跟蹤,將候選目標(biāo)分為形成軌跡和未形成軌跡兩類;再次,使用卷積神經(jīng)網(wǎng)絡(luò)分類器對于候選運(yùn)動(dòng)目標(biāo)進(jìn)行進(jìn)一步的確認(rèn)和分類;最后,將多個(gè)確認(rèn)的運(yùn)動(dòng)目標(biāo)貼合在同一幅圖像上,本發(fā)明將貼合后的圖像稱為“視頻快照”。值得指出的是,本發(fā)明方法先把提取的運(yùn)動(dòng)區(qū)域當(dāng)做潛在的運(yùn)動(dòng)目標(biāo)進(jìn)行跟蹤,將候選運(yùn)動(dòng)目標(biāo)初步區(qū)分,并使用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)對候選目標(biāo)進(jìn)行進(jìn)一步的確認(rèn)與類型判定,從而有效地降低了把噪聲誤判為運(yùn)動(dòng)目標(biāo)的概率,并且保證了運(yùn)動(dòng)目標(biāo)的檢測率,并且對于形成軌跡的候選運(yùn)動(dòng)目標(biāo)只進(jìn)行三次分類判定,減少了計(jì)算量??蛇M(jìn)行視頻摘要處理的原始視頻包括但不限于:視頻監(jiān)控系統(tǒng)采集的實(shí)時(shí)視頻流、視頻監(jiān)控系統(tǒng)儲存的錄像文件、常規(guī)的多媒體視頻文件、電視節(jié)目、電影等。
[0034]為了更好地理解本發(fā)明的技術(shù)方案,以下結(jié)合附圖對本發(fā)明的實(shí)施方式作進(jìn)一步描述。
[0035]本發(fā)明的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法的框架圖如圖1所示,本發(fā)明提出了一種基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,可以用于復(fù)雜場景進(jìn)行可靠工作,其具體實(shí)施步驟如下:
[0036]步驟S101,采集待生成視頻摘要的視頻數(shù)據(jù);
[0037]步驟S102,存儲所采集的原始視頻,形成原始視頻數(shù)據(jù)庫;原始視頻可以是監(jiān)控?cái)z像頭實(shí)時(shí)采集的視頻,也可以是監(jiān)控錄像的回放視頻;
[0038]步驟S103,對不同分辨率的原始視頻,將視頻的每一幀都縮放至相同大小,進(jìn)行背景建模,提取運(yùn)動(dòng)的前景區(qū)域,并進(jìn)行后處理,作為候選運(yùn)動(dòng)目標(biāo);
[0039]將不同分辨率的原始視頻幀進(jìn)行統(tǒng)一縮放,而不是直接對高分辨率的原始圖像進(jìn)行處理,能夠有效地提高背景建模提取運(yùn)動(dòng)區(qū)域的運(yùn)算速度。在本發(fā)明的實(shí)施例中,背景建??梢圆捎枚喾N相關(guān)算法,本實(shí)施例不一一列舉。背景建模的目的,是為了將視頻幀中的背景以及運(yùn)動(dòng)目標(biāo)區(qū)分開。場景中的背景是指視頻中較長時(shí)間保持不變或者有微小變化的區(qū)域,相對應(yīng)的,場景中的前景是指有明顯變化的區(qū)域。例如在一段監(jiān)控視頻中,在場景中行駛的汽車和走路的行人,只在短時(shí)間內(nèi)存在在視頻場景中,所以被認(rèn)為是運(yùn)動(dòng)前景,而馬路、紅綠燈和路兩旁的樹木,長時(shí)間存在在視頻場景中,可以被當(dāng)做運(yùn)動(dòng)背景。通過對原始視頻進(jìn)行背景建模,再使用當(dāng)前幀與背景模型進(jìn)行匹配,區(qū)分運(yùn)動(dòng)前景與背景。
[0040]但是,對于復(fù)雜監(jiān)控場景下視頻的運(yùn)動(dòng)前景提取往往存在一些噪聲點(diǎn),例如樹木等屬于背景的部分,由于風(fēng)吹擾動(dòng),而被誤判為前景,為了有效地減少噪聲點(diǎn),本發(fā)明的優(yōu)選實(shí)施例中對同一段視頻使用兩個(gè)背景模型,兩個(gè)背景模型相差300幀分別更新,但是在提取運(yùn)動(dòng)前景時(shí),使用當(dāng)前幀分別與這兩個(gè)背景模型進(jìn)行對比,得到兩幅前景二值圖,分別指示當(dāng)前幀上的運(yùn)動(dòng)區(qū)域,對這兩幅前景二值圖進(jìn)行“與”操作,得到的二值圖作為當(dāng)前幀對應(yīng)的前景二值圖;此外,對所獲得的運(yùn)動(dòng)前景進(jìn)行前景后處理,前景后處理采用形態(tài)學(xué)計(jì)算,具體包括:
[0041]首先,使用形態(tài)學(xué)結(jié)構(gòu)元素,對前景目標(biāo)進(jìn)行形態(tài)學(xué)開運(yùn)算和形態(tài)學(xué)閉運(yùn)算,可獲得輪廓光滑的前景,并消除面積較小的噪聲點(diǎn),縮小面積較大的噪聲點(diǎn);
[0042]然后,對前景目標(biāo)進(jìn)行面積計(jì)算,若前景目標(biāo)的面積中像素點(diǎn)個(gè)數(shù)小于閾值1\ = 5時(shí),則認(rèn)為該前景目標(biāo)屬于噪聲,應(yīng)濾除,反之,則保留該前景目標(biāo)。通過以上方法,來消除運(yùn)動(dòng)前景中的噪聲干擾,并且可使前景的邊緣變得平滑。
[0043]步驟S104,把步驟S103中每一幀提取的運(yùn)動(dòng)前景當(dāng)做候選的運(yùn)動(dòng)目標(biāo),利用基于匈牙利算法多目標(biāo)跟蹤技術(shù)對這些候選運(yùn)動(dòng)目標(biāo)進(jìn)行跟蹤。其中,活躍軌跡表示正在跟蹤的、在實(shí)時(shí)處理結(jié)果中顯示的軌跡;歷史軌跡,表示當(dāng)前沒有被跟蹤,但是可能轉(zhuǎn)變成活躍軌跡的軌跡;死亡軌跡,表示徹底結(jié)束、不再被跟蹤的軌跡。
[0044]本方法采用基于匈牙利算法的多目標(biāo)跟蹤方式來獲取運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)軌跡,其中匈牙利算法用來計(jì)算多個(gè)運(yùn)動(dòng)目標(biāo)的最優(yōu)對應(yīng)問題。其中,運(yùn)動(dòng)目標(biāo)相似度的描述是基于運(yùn)動(dòng)目標(biāo)的顏色信息和位置信息。顏色信息采用顏色直方圖來量化,顏色直方圖表示圖像中顏色分布的一種統(tǒng)計(jì)值,表示不同色彩在圖像中所占的比例,計(jì)算簡單,而且具有尺度、平移以及旋轉(zhuǎn)不變性。位置信息結(jié)合卡爾曼濾波器來計(jì)算,卡爾曼濾波是在最小均方誤差準(zhǔn)則下的線性系統(tǒng)最優(yōu)估計(jì)方法,它的基本思想是使得估計(jì)誤差的方差為最小,并且估計(jì)是無偏的,能夠提升目標(biāo)跟蹤效果。
[0045]如圖2所示,本發(fā)明中基于匈牙利算法的多目標(biāo)跟蹤方式來獲取運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)軌跡具體可分為以下幾個(gè)步驟:
[0046]步驟S1041,計(jì)算步驟S103中所有候選運(yùn)動(dòng)目標(biāo)的8 X 8 X 8顏色直方圖特征,然后計(jì)算當(dāng)前幀中獲得的運(yùn)動(dòng)目標(biāo)的顏色直方圖特征與上一幀運(yùn)動(dòng)目標(biāo)的顏色直方圖特征的相似性。優(yōu)選地,本發(fā)明采用RGB顏色空間計(jì)算每一個(gè)運(yùn)動(dòng)目標(biāo)的顏色直方圖:先對顏色空間RGB中的三個(gè)顏色分量進(jìn)行量化,將每個(gè)顏色空間劃分為8個(gè)子空間,每個(gè)子空間對應(yīng)直方圖中的一維(bin),統(tǒng)計(jì)落在直方圖每一維對應(yīng)的子空間內(nèi)的像素?cái)?shù)目,從而得到顏色直方圖,然后計(jì)算上一幀活躍軌跡對應(yīng)的運(yùn)動(dòng)目標(biāo)與當(dāng)前幀運(yùn)動(dòng)目標(biāo)的顏色直方圖特征之間的相似度。優(yōu)選地,本發(fā)明采用Hellinger距離來度量兩個(gè)直方圖分布的相似度:
[0047].h2)= 1--1 玄Vh1O^h2O/)
-Sjh1H2N- 9=i
[0048]其中,Ii1 (q) *h2(q)代表兩個(gè)顏色直方圖向量,N為8 X 8 X 8,Κ=^Σ.Α(./)^
Al J
[0049]若兩個(gè)目標(biāo)的顏色直方圖越相似,即顏色直方圖向量之間的Hellinger距離越小,則兩個(gè)目標(biāo)匹配的可能性越高,其概率分布符合高斯分布。例如,公路的監(jiān)控視頻畫面中,左側(cè)有一輛白色小轎車W,右側(cè)有一輛黑色小轎車B,本方法需要對這兩個(gè)運(yùn)動(dòng)目標(biāo)進(jìn)行跟蹤,從而獲取它們的運(yùn)動(dòng)軌跡。若在上一幀中,對畫面中檢測到的兩個(gè)運(yùn)動(dòng)物體W和B計(jì)算顏色直方圖得到h和h2,對當(dāng)前幀畫面中的兩個(gè)運(yùn)動(dòng)物體W和B計(jì)算顏色直方圖得到h3和h4,通過計(jì)算Ii1和h3, Ii1和h4, h2和h3, h2和h4之間的Hellinger距離,可發(fā)現(xiàn)Ii1和h3, h2和h4的Hellinger距離遠(yuǎn)遠(yuǎn)小于Ii1和h4, h2和h3之間的Hellinger距離,那么能夠得到Ii1和h3是W在連續(xù)兩幀所對應(yīng)的顏色直方圖,h2和h4是B在連續(xù)兩幀所對應(yīng)的顏色直方圖,該信息可幫助連續(xù)兩幀出現(xiàn)的目標(biāo)進(jìn)行匹配。
[0050]步驟S1042,根據(jù)上一幀圖像中運(yùn)動(dòng)目標(biāo)的活躍軌跡信息,利用卡爾曼濾波器預(yù)測運(yùn)動(dòng)目標(biāo)的位置。根據(jù)第t-Ι幀圖像中的每條活躍軌跡信息,利用卡爾曼濾波器預(yù)測第t幀中運(yùn)動(dòng)目標(biāo)出現(xiàn)的位置。步驟S103中得到第t幀的候選運(yùn)動(dòng)目標(biāo),而在S1042中該步驟中依次對運(yùn)動(dòng)目標(biāo)在第t幀的預(yù)測位置與第t幀檢測模塊的目標(biāo)檢測結(jié)果進(jìn)行歐式距離計(jì)算,歐氏距離越小,則預(yù)測位置與確切位置越接近,那么兩個(gè)目標(biāo)匹配的可能性越高,其概率分布符合高斯分布。例如,上文提到的監(jiān)控畫面中的左側(cè)車輛W和右側(cè)車輛B,若在第t-Ι幀中,對畫面中的檢測到的兩個(gè)運(yùn)動(dòng)物體W和B利用卡爾曼濾波器進(jìn)行位置預(yù)測,得到在第t幀中的預(yù)測位置I/和I2',步驟S104中在第t幀對兩個(gè)運(yùn)動(dòng)物體W和B進(jìn)行檢測后,獲取目標(biāo)的實(shí)際位置1工和12。因?yàn)樵谶B續(xù)的兩幀中,車輛的位置不會發(fā)生巨大變動(dòng),所以I/和I1,12'和I2的歐式距離將遠(yuǎn)遠(yuǎn)小于I/和12,1/和I2的歐式距離,該信息可幫助連續(xù)兩幀出現(xiàn)的目標(biāo)進(jìn)行匹配。
[0051]步驟S1043,采用匈牙利算法,利用顏色信息和位置信息來進(jìn)行多目標(biāo)的匹配,匈牙利算法是解決二分圖最大匹配問題的經(jīng)典算法。例如,若在第t-ι幀中存在m個(gè)活躍軌跡,步驟S103在第t巾貞中獲得了 η個(gè)候選運(yùn)動(dòng)目標(biāo),并由Hellinger計(jì)算第t_l巾貞的活躍軌跡與第t幀的運(yùn)動(dòng)目標(biāo)顏色直方圖特征之間的相似度,并得到mXn的矩陣M1 ;而計(jì)算第t-1幀的活躍軌跡在第t幀中的預(yù)測位置與第t幀運(yùn)動(dòng)目標(biāo)的確切位置之間的歐式距離,可以得到mXn的矩陣M2。將矩陣M1和M2對應(yīng)位置的元素相乘,得到mXn的矩陣M,將該矩陣M作為匈牙利算法的輸入值,匈牙利算法可給出第t-Ι幀中m個(gè)活躍軌跡與第t幀η個(gè)運(yùn)動(dòng)目標(biāo)的匹配結(jié)果,匹配結(jié)果中若相似度小于閾值T2 = 0.5時(shí),則認(rèn)為不匹配,反之則匹配成功。
[0052]步驟S1044,根據(jù)上一步驟中目標(biāo)的匹配結(jié)果,生成當(dāng)前幀中運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)軌跡;同時(shí)預(yù)測目標(biāo)在下一幀中的位置信息等。
[0053]若第t-Ι幀的活躍軌跡mi與第t幀的運(yùn)動(dòng)目標(biāo)Iij匹配成功,則認(rèn)為目標(biāo)Iij在前t-Ι幀中的運(yùn)動(dòng)軌跡為mi,更新活躍軌跡mi。此時(shí),對于目標(biāo)r^_在第t幀的跟蹤過程結(jié)束。
[0054]若第t幀的運(yùn)動(dòng)目標(biāo)沒有匹配到第t-Ι幀的活躍軌跡,說明該目標(biāo)沒有運(yùn)動(dòng)軌跡,為新目標(biāo);若第t-1幀的活躍軌跡沒有匹配到第t幀的運(yùn)動(dòng)目標(biāo),說明目標(biāo)已消失,則將該活躍軌跡與歷史軌跡進(jìn)行匹配,若能匹配上,則該活躍軌跡與歷史軌跡整合為新的活躍軌跡,否則,該活躍軌跡轉(zhuǎn)變?yōu)闅v史軌跡。
[0055]本發(fā)明在第t幀目標(biāo)r^_更新活躍軌跡后,利用卡爾曼濾波器預(yù)測目標(biāo)r^_在第t+1幀的位置,并保存目標(biāo)r^_的類型、位置、面積、寬高比等信息,以在第t+Ι幀目標(biāo)檢測時(shí)使用。
[0056]步驟S105,利用目標(biāo)分類器,對候選運(yùn)動(dòng)目標(biāo)進(jìn)行確認(rèn)和分類。
[0057]在步驟S103、S104中,通過背景建模的方法對原始視頻中的運(yùn)動(dòng)區(qū)域進(jìn)行了提取和跟蹤,但是由于噪聲(如樹木、旗幟等)能夠直接干擾到背景建模對于運(yùn)動(dòng)區(qū)域的提取,因此在S103、S104中提取的候選運(yùn)動(dòng)目標(biāo)中很容易混有大量的噪聲,如果直接把這些候選目標(biāo)當(dāng)做真實(shí)的運(yùn)動(dòng)目標(biāo),用以生成視頻快照,會導(dǎo)致快照數(shù)目過多,虛警過多,從而影響用戶查找感興趣目標(biāo)的效率,因此,需要對這些候選運(yùn)動(dòng)目標(biāo)進(jìn)行進(jìn)一步的篩選和判定,區(qū)分真實(shí)的運(yùn)動(dòng)目標(biāo)和噪聲。鑒于深度學(xué)習(xí)技術(shù)在越來越多圖像識別領(lǐng)域的應(yīng)用中表現(xiàn)出了優(yōu)越的性能,本發(fā)明創(chuàng)造性的將深度學(xué)習(xí)技術(shù)使用在視頻摘要方法中,充分的利用了深度學(xué)習(xí)技術(shù)在圖像識別方面的卓絕性能。在本發(fā)明中,我們使用了基于深度學(xué)習(xí)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為目標(biāo)分類器來區(qū)分真實(shí)運(yùn)動(dòng)目標(biāo)以及噪聲。
[0058]在步驟S104中,分別對步驟S103中每一幀提取得到的候選運(yùn)動(dòng)目標(biāo)進(jìn)行跟蹤,對于未形成軌跡的候選目標(biāo),直接使用目標(biāo)分類器對其進(jìn)行判定,而對于形成軌跡的候選運(yùn)動(dòng)目標(biāo),在其軌跡變成死亡軌跡之后,使用目標(biāo)分類器對其進(jìn)行進(jìn)一步的確認(rèn),判斷該候選目標(biāo)是否是真實(shí)運(yùn)動(dòng)目標(biāo),如果判定是真實(shí)目標(biāo),則對該目標(biāo)進(jìn)行類別判定。這樣做,一方面可以利用CNN分類器的優(yōu)越性能,對候選目標(biāo)進(jìn)行精確地判定,區(qū)分噪聲和真實(shí)目標(biāo);另一方面,對于形成軌跡的目標(biāo)只進(jìn)行少量的分類操作,而不是逐幀進(jìn)行分類,減少計(jì)算量;最后,對目標(biāo)進(jìn)行了分類,方便之后的快照生成與目標(biāo)檢索。
[0059]本發(fā)明優(yōu)選實(shí)施例中,采用離線訓(xùn)練好的目標(biāo)分類器,對步驟S104中獲得的候選目標(biāo)進(jìn)行確認(rèn)和分類。目標(biāo)分類器的離線訓(xùn)練具體實(shí)施方法如下:
[0060]首先,收集訓(xùn)練樣本。樣本集可以根據(jù)各種具體場景需要進(jìn)行分類,例如對于交通路況監(jiān)控,可以分為:(I)行人;(2)非機(jī)動(dòng)車;(3)轎車等小型車;(4)卡車等大型車;(5)樹木、旗幟等非感興趣目標(biāo)但是會運(yùn)動(dòng)物體的局部;(6)監(jiān)控場景中的除了上述五類運(yùn)動(dòng)物體外的圖像區(qū)域;這些樣本是根據(jù)具體場景需要從真實(shí)的監(jiān)控視頻中通過人工標(biāo)注裁剪得到的。對于其他場景也可以有各種不同的分類。在本發(fā)明的優(yōu)選實(shí)施例中,針對交通路況監(jiān)控,訓(xùn)練了一個(gè)六分類分類器分別用來判定候選目標(biāo)是否是真實(shí)目標(biāo),和一個(gè)人/機(jī)動(dòng)車的二分類分類器對真實(shí)的目標(biāo)進(jìn)行類型判定。之所以在確認(rèn)目標(biāo)時(shí)將目標(biāo)類別進(jìn)行細(xì)致的劃分,是因?yàn)檫@樣充分考慮到了感興趣目標(biāo)類內(nèi)的差異,可以更加詳細(xì)準(zhǔn)確的區(qū)分真實(shí)的感興趣目標(biāo)與噪聲,例如,轎車與大卡車如果共同歸類為機(jī)動(dòng)車大類進(jìn)行訓(xùn)練,由于兩者在外觀上存在差異性,會使得訓(xùn)練獲得的分類器模型更容易將噪聲判定為機(jī)動(dòng)車大類,而如果拆分為兩個(gè)小類,那么這兩個(gè)類別與噪聲的區(qū)分度會變大,從而能夠更準(zhǔn)確的區(qū)分感興趣目標(biāo)與噪聲。
[0061]其次,卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建。本發(fā)明使用深度學(xué)習(xí)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來對目標(biāo)圖像進(jìn)行分類。在本發(fā)明的優(yōu)選實(shí)施例中,我們構(gòu)建了一個(gè)包含三個(gè)卷積層,三個(gè)下采樣層,三個(gè)非線性傳播函數(shù)層,一個(gè)全連接層,一個(gè)回歸層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),收集的樣本經(jīng)過縮放歸一化之后,與其類別標(biāo)簽一起輸入網(wǎng)絡(luò),以最大化的區(qū)分輸入的不同類別樣本為目標(biāo),使用隨機(jī)梯度下降算法,對網(wǎng)絡(luò)進(jìn)行優(yōu)化,學(xué)習(xí)得到網(wǎng)絡(luò)結(jié)構(gòu)中各層的參數(shù)。這一學(xué)習(xí)過程是離線進(jìn)行的,為了能夠?qū)τ诖罅繕颖具M(jìn)行快速學(xué)習(xí)訓(xùn)練,本發(fā)明提出了一種對于圖像進(jìn)行分割,并行計(jì)算圖像卷積的方法:
[0062]以卷積核大小為nXn(n為奇數(shù))為例:
[0063]1、將輸入的訓(xùn)練樣本圖像分割為mXm的若干塊,如果圖像不能夠分割為整數(shù)個(gè)小塊,則在邊緣處補(bǔ)O后分割;
[0064]2、對于每一小塊圖像,以該小塊圖像中心為中心取(m+n-1) X (m+n-1)大小的圖像作為訓(xùn)練樣本圖像的子圖像,將同一個(gè)樣本圖像的的子圖像并行地進(jìn)行卷積計(jì)算,這樣得到的每個(gè)子圖像卷積后特征圖大小為mXm ;
[0065]3、將同一幅子圖像mXm特征圖按照其在原圖上的位置進(jìn)行排列,很容易證明獲得的與原圖等大小的特征圖即是該圖像經(jīng)過卷積計(jì)算得到的特征圖;
[0066]使用這樣的方法能夠?qū)崿F(xiàn)對于同一幅圖像卷積計(jì)算的并行化,從而極大地提高了模型訓(xùn)練的速度,此外,為了使模型的訓(xùn)練更加精細(xì),在本方法中,對于每一層網(wǎng)絡(luò)的學(xué)習(xí)率參數(shù)進(jìn)行動(dòng)態(tài)設(shè)置,學(xué)習(xí)率參數(shù)會根據(jù)模型的收斂程度進(jìn)行自動(dòng)微調(diào),從而使得模型應(yīng)用在實(shí)際場景中的魯棒性更高。
[0067]在學(xué)習(xí)得到所有最優(yōu)的參數(shù)后,獲得相應(yīng)的模型。在對圖像進(jìn)行分類時(shí),使用該模型,通過三個(gè)卷積層、下采樣層以及非線性傳播函數(shù)層計(jì)算該圖像對應(yīng)的特征圖,特征圖的計(jì)算方法如下:
[0068]1、將圖像按照RGB三通道分解為三幅等大小圖像,作為整個(gè)卷積網(wǎng)絡(luò)的輸入;
[0069]2、輸入卷積層,通過訓(xùn)練得到的N個(gè)卷積核對輸入圖像進(jìn)行卷積,獲得N幅特征圖;
[0070]3、對N幅特征圖進(jìn)行下采樣,獲得新的特征圖;
[0071]4、對于采樣后的特征圖通過一個(gè)非線性傳播函數(shù)層,對每個(gè)特征值進(jìn)行放大;
[0072]5、把非線性傳播函數(shù)層的輸出作為下一個(gè)卷積層的輸入,重復(fù)2-4的步驟,一共通過三次卷積層、下采樣層和非線性傳播函數(shù)層,把最后一個(gè)非線性傳播函數(shù)層的輸出作為輸入圖像的特征圖;
[0073]把得到的特征圖作為全連接層以及邏輯回歸層的輸入,將訓(xùn)練得到的特征圖分別通過全連接層網(wǎng)絡(luò),全連接層的每個(gè)卷積核對所有的特征圖進(jìn)行卷積計(jì)算,并將卷積結(jié)果按照一定的順序排成組成一個(gè)N維的特征向量組,該特征向量轉(zhuǎn)置后通過邏輯回歸層的NXM參數(shù)矩陣得到一個(gè)IXM的概率矩陣,該矩陣的M個(gè)元素分別表示該圖像屬于M個(gè)類別的概率,從而達(dá)到對輸入圖像進(jìn)行分類的目的。
[0074]如圖3所示,候選目標(biāo)的確認(rèn)以及分類具體可分為以下幾個(gè)步驟:
[0075]步驟S1051,判定候選目標(biāo)是否形成了軌跡;
[0076]步驟S1053、S1054,對于未形成軌跡的候選目標(biāo),使用六分類分類器進(jìn)行判定,如果該候選目標(biāo)類型屬于第(5)或者第(6)類,則認(rèn)為該候選目標(biāo)確實(shí)為噪聲;
[0077]步驟S1052,判定候選目標(biāo)的軌跡是否是死亡軌跡,如果不是死亡軌跡,說明目標(biāo)仍然在被跟蹤,此時(shí)不進(jìn)行目標(biāo)確認(rèn),這樣是為了對每一個(gè)軌跡只確認(rèn)一次,提高運(yùn)算速度;在本方法中,當(dāng)某個(gè)歷史軌跡,經(jīng)過N幀的匹配運(yùn)算,仍然無法與運(yùn)動(dòng)前景匹配上,則視為該歷史軌跡終止,本算法中N = 50。
[0078]步驟S1055,一個(gè)候選目標(biāo)在不同幀中存在于視頻幀上的不同位置,根據(jù)其軌跡記錄的位置信息,從相應(yīng)的視頻幀上獲得該目標(biāo)的對應(yīng)圖像,進(jìn)行確認(rèn),在本發(fā)明的優(yōu)選實(shí)施例中,為保證目標(biāo)確認(rèn)的準(zhǔn)確性,從一個(gè)目標(biāo)軌跡的起始、中間以及終止處各選擇一幅包含候選目標(biāo)的圖像,共三幅進(jìn)行確認(rèn)。
[0079]步驟S1056、S1057和S1058,使用六分類分類器分別對三幅候選目標(biāo)圖像進(jìn)行分類,如果三幅圖像的類別都被判定為屬于第(5)或者(6)類,則認(rèn)為該候選目標(biāo)是噪聲,刪除該目標(biāo)的信息;否則,則認(rèn)為該目標(biāo)是真實(shí)目標(biāo);同時(shí)記錄六分類分類器對于該目標(biāo)的三次類型判定,如果這三次類型判定對于該目標(biāo)的大類別(人/機(jī)動(dòng)車)判斷存在分歧,例如,一次判斷為非機(jī)動(dòng)車,另外兩次判斷為轎車等小型車,那么對于該目標(biāo)使用人/機(jī)動(dòng)車分類器進(jìn)行類別判定。
[0080]步驟S1059,當(dāng)確定一個(gè)真實(shí)目標(biāo)的類別之后,記錄該目標(biāo)的類型、軌跡信息用以在之后生成視頻快照。
[0081]步驟S106,把所有記錄的運(yùn)動(dòng)目標(biāo)用少量的快照展示。使用原始視頻中若干幀的平均作為生成的快照背景圖像,把記錄的真實(shí)運(yùn)動(dòng)目標(biāo)按照其在原始幀中出現(xiàn)的位置貼合在快照背景圖像上;由于每一個(gè)運(yùn)動(dòng)目標(biāo)除了類型信息之外,還記錄該目標(biāo)的軌跡信息,為了使用少量的快照清晰地展現(xiàn)該目標(biāo),從該目標(biāo)軌跡上的各個(gè)位置中挑選目標(biāo)面積最大的位置,提取該目標(biāo),并且按照其在該幀中出現(xiàn)的位置貼合在快照背景圖像上;同時(shí),為了只使用少量的快照展示所有的目標(biāo),并且每一個(gè)目標(biāo)都能夠在快照上清晰地展現(xiàn),本方法提出了一種局部優(yōu)化的快照生成算法:
[0082]1、在算法處理過程中即時(shí)記錄檢測到的目標(biāo),在隊(duì)列中進(jìn)行保存;
[0083]2、當(dāng)隊(duì)列長度大于一定閾值T時(shí),進(jìn)行一次快照生成:將隊(duì)列中第一個(gè)目標(biāo)01進(jìn)行貼合;
[0084]3、判斷隊(duì)列中剩余的目標(biāo)是否與第01重疊,找到第一個(gè)與01不重疊的目標(biāo)02貼合在快照上;
[0085]4、以02為起始,向后查找,直到找到第一個(gè)與02無重疊的目標(biāo),貼合在快照上;
[0086]依次類推,直至隊(duì)列遍歷結(jié)束。
[0087]該方法生成的快照中所有目標(biāo)沒有重疊,并且目標(biāo)在快照上的出現(xiàn)的先后順序整體上是按照目標(biāo)出現(xiàn)的真實(shí)時(shí)間排列,從而保證了目標(biāo)在快照上的清晰展示,同時(shí)可以通過提高閾值T來靈活地提高目標(biāo)在快照上密度,減少快照數(shù)目;對于每一個(gè)貼合在快照上的目標(biāo),其出現(xiàn)在視頻中的時(shí)間都會標(biāo)定在目標(biāo)上,方便,用戶快速的在原始視頻中定位感興趣的目標(biāo)。
[0088]經(jīng)過實(shí)際驗(yàn)證,本發(fā)明的優(yōu)選實(shí)施例在配置Intel ?7-3770 CPU的PC機(jī)上對高清的監(jiān)控視頻(1280X720以上)的處理速度可以達(dá)到視頻正常播放速度的12-20倍,而目標(biāo)的遺漏率小于2%,虛警率小于5%。
[0089]本發(fā)明關(guān)注視頻摘要系統(tǒng)在復(fù)雜場景下的可靠性,創(chuàng)造性的使用了基于深度學(xué)習(xí)的目標(biāo)分類技術(shù),大幅減小了運(yùn)動(dòng)目標(biāo)的漏檢率,同時(shí),降低噪聲被誤判為運(yùn)動(dòng)目標(biāo)從而干擾視頻摘要質(zhì)量的概率;除此之外,在對運(yùn)動(dòng)目標(biāo)的判定與檢測過程中,使用了多目標(biāo)追蹤技術(shù),從而避免了對于每一幀中的候選運(yùn)動(dòng)目標(biāo)逐個(gè)進(jìn)行分類判定,大幅減少了計(jì)算量,從而提升了視頻摘要系統(tǒng)處理視頻的速度。與傳統(tǒng)的視頻摘要方法相比,本發(fā)明能夠準(zhǔn)確、快速、完整地提取復(fù)雜場景中前景運(yùn)動(dòng)目標(biāo),以少量快照圖片的形式清晰地展示出長段視頻中的所有運(yùn)動(dòng)目標(biāo),在復(fù)雜場景下,能夠生成可靠的視頻摘要。
[0090]以上所述的具體實(shí)施例,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,包括以下步驟: 步驟1,對輸入的原始視頻的圖像序列進(jìn)行背景建模,提取運(yùn)動(dòng)目標(biāo)對應(yīng)的前景區(qū)域; 步驟2,將獲得的所述前景區(qū)域作為運(yùn)動(dòng)候選目標(biāo),使用多目標(biāo)跟蹤技術(shù)對所述運(yùn)動(dòng)候選目標(biāo)進(jìn)行跟蹤,計(jì)算每一幀中所述運(yùn)動(dòng)候選目標(biāo)的運(yùn)動(dòng)軌跡; 步驟3,對確定所述運(yùn)動(dòng)軌跡為活躍軌跡的運(yùn)動(dòng)候選目標(biāo)使用基于深度學(xué)習(xí)技術(shù)的目標(biāo)分類器進(jìn)行進(jìn)一步確認(rèn),判定所述運(yùn)動(dòng)候選目標(biāo)是否是真實(shí)的目標(biāo),以及確認(rèn)目標(biāo)后,再使用分類器判斷所述運(yùn)動(dòng)候選目標(biāo)的類別; 步驟4,將多個(gè)檢測到的所述運(yùn)動(dòng)目標(biāo)貼合在同一幅圖像中,生成視頻快照,以所述視頻快照展示視頻中檢測到的所述運(yùn)動(dòng)目標(biāo)。
2.如權(quán)利要求1所述的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,其中在步驟I中對輸入的原始視頻的圖像序列進(jìn)行背景建模的步驟之前還包括將輸入的所述原始視頻的圖像序列縮放至相同大小的步驟。
3.如權(quán)利要求1所述的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,其中在步驟I所述提取運(yùn)動(dòng)目標(biāo)對應(yīng)的前景區(qū)域的步驟中還包括對獲得的所述運(yùn)動(dòng)前景進(jìn)行后處理的步驟,具體包括: 步驟11,用形態(tài)學(xué)結(jié)構(gòu)元素,對所述前景區(qū)域進(jìn)行形態(tài)學(xué)開運(yùn)算和形態(tài)學(xué)閉運(yùn)算,獲得輪廓光滑的前景區(qū)域,并且消除面積較小的噪聲塊; 步驟12,對所述前景區(qū)域進(jìn)行面積計(jì)算,若所述前景區(qū)域像素點(diǎn)數(shù)目小于T1 = 5時(shí),則濾除所述前景區(qū)域,否則,保留所述前景區(qū)域,確定所述前景區(qū)域是候選目標(biāo)。
4.如權(quán)利要求1所述的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,其中在步驟2中所述的多目標(biāo)跟蹤技術(shù)是基于匈牙利算法構(gòu)建的,具體包括: 步驟21,計(jì)算當(dāng)前幀的所述運(yùn)動(dòng)候選目標(biāo)的顏色直方圖特征,以及所述顏色直方圖特征與上一幀中運(yùn)動(dòng)候選目標(biāo)的相似性; 步驟22,利用卡爾曼濾波預(yù)測上一幀中的所述運(yùn)動(dòng)候選目標(biāo)在當(dāng)前幀的位置信息,計(jì)算所述運(yùn)動(dòng)候選目標(biāo)的預(yù)測位置與當(dāng)前幀所述運(yùn)動(dòng)候選目標(biāo)位置之間的歐氏距離; 步驟23,根據(jù)上述計(jì)算結(jié)果,使用匈牙利算法,對當(dāng)前幀中的所述運(yùn)動(dòng)候選目標(biāo)與上一幀中所述運(yùn)動(dòng)候選目標(biāo)的軌跡進(jìn)行匹配,獲得匹配結(jié)果,并根據(jù)所述匹配結(jié)果更新所述運(yùn)動(dòng)候選目標(biāo)的軌跡。
5.如權(quán)利要求1所述的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,其中在步驟3中所述的目標(biāo)分類器是預(yù)先使用深度學(xué)習(xí)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練得到的,用于判定所述運(yùn)動(dòng)候選目標(biāo)是否是真實(shí)目標(biāo),以及所述運(yùn)動(dòng)候選目標(biāo)的類型。
6.如權(quán)利要求5所述的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,其中對所述的目標(biāo)分類器進(jìn)行離線訓(xùn)練的步驟包括采用樣品集來離線訓(xùn)練所述目標(biāo)分類器,以及訓(xùn)練所述目標(biāo)分類器使用的樣本集包括監(jiān)控視頻中出現(xiàn)的五類運(yùn)動(dòng)目標(biāo)或物體對應(yīng)的圖像和除去這五類外的圖像背景區(qū)域:①行人;②非機(jī)動(dòng)車轎車等小型車卡車等大型車;⑤樹木、旗幟等非感興趣目標(biāo)但是會運(yùn)動(dòng)物體的局部;⑥監(jiān)控場景中的除了上述五類運(yùn)動(dòng)物體外的圖像區(qū)域;通過上述訓(xùn)練得到一個(gè)六分類的目標(biāo)分類器,用于確認(rèn)所述運(yùn)動(dòng)候選目標(biāo)是否是真實(shí)目標(biāo)。
7.如權(quán)利要求5所述的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,其中將上述樣本中①、②類樣本以及③、④樣本分別組合成兩個(gè)大的類別:人、機(jī)動(dòng)車,使用這兩類樣本訓(xùn)練一個(gè)人/機(jī)動(dòng)車的二分類分類器,用于在確認(rèn)所述運(yùn)動(dòng)候選目標(biāo)為感興趣目標(biāo)之后,對所述運(yùn)動(dòng)候選目標(biāo)的類別進(jìn)行判定。
8.如權(quán)利要求6所述的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,其中步驟3具體包括以下步驟: 步驟31,對于沒有形成軌跡的所述運(yùn)動(dòng)候選目標(biāo),使用所述六分類分類器進(jìn)行分類,只有當(dāng)所述運(yùn)動(dòng)候選目標(biāo)被判定為上述第⑤或者第⑥類時(shí)才認(rèn)為該候選目標(biāo)是噪聲,否則認(rèn)為是真實(shí)目標(biāo);而對于形成軌跡的所述運(yùn)動(dòng)候選目標(biāo),挑選其軌跡中的三個(gè)位置對應(yīng)的包含所述運(yùn)動(dòng)候選目標(biāo)的圖像,分別使用所述六分類分類器進(jìn)行分類,判定所述運(yùn)動(dòng)候選目標(biāo)是否是真實(shí)目標(biāo),如果在這三個(gè)位置,所述運(yùn)動(dòng)候選目標(biāo)都被判定為第⑤或者第⑥類,才認(rèn)為所述運(yùn)動(dòng)候選目標(biāo)是噪聲,刪除該軌跡,否則認(rèn)為所述運(yùn)動(dòng)候選目標(biāo)為真實(shí)運(yùn)動(dòng)目標(biāo); 步驟32,對于判定為真實(shí)運(yùn)動(dòng)目標(biāo)的情況,如果在所述運(yùn)動(dòng)候選目標(biāo)確認(rèn)時(shí)的三次分類中,對所述運(yùn)動(dòng)候選目標(biāo)是人還是機(jī)動(dòng)車的判定存在分歧,則對所述運(yùn)動(dòng)候選目標(biāo)使用人/機(jī)動(dòng)車的分類器對其進(jìn)行類型判定。
9.如權(quán)利要求1所述的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,其中在步驟4中,在確認(rèn)后的所述目標(biāo)軌跡中,挑選面積最大的一個(gè)位置,使將所述位置對應(yīng)的圖像貼合在一幅快照上,多個(gè)所述運(yùn)動(dòng)候選目標(biāo)貼合組成一張快照,使用所述快照展示視頻中出現(xiàn)的運(yùn)動(dòng)目標(biāo)。
10.如權(quán)利要求9所述的基于深度學(xué)習(xí)技術(shù)的視頻摘要生成方法,其中在步驟4中,生成的所述快照中所有所述運(yùn)動(dòng)候選目標(biāo)沒有重疊,并且所述運(yùn)動(dòng)候選目標(biāo)在所述快照上出現(xiàn)的先后順序整體上是按照所述運(yùn)動(dòng)候選目標(biāo)出現(xiàn)的真實(shí)時(shí)間排列。
【文檔編號】H04N21/8549GK104244113SQ201410525704
【公開日】2014年12月24日 申請日期:2014年10月8日 優(yōu)先權(quán)日:2014年10月8日
【發(fā)明者】袁飛, 唐矗 申請人:中國科學(xué)院自動(dòng)化研究所