欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于泛化多標(biāo)記學(xué)習(xí)的監(jiān)控視頻多粒度標(biāo)注方法與流程

文檔序號(hào):11387174閱讀:304來(lái)源:國(guó)知局
基于泛化多標(biāo)記學(xué)習(xí)的監(jiān)控視頻多粒度標(biāo)注方法與流程

本發(fā)明屬于計(jì)算機(jī)視覺(jué)領(lǐng)域,具體地說(shuō),涉及基于泛化多標(biāo)記學(xué)習(xí)的監(jiān)控視頻多粒度標(biāo)注方法。



背景技術(shù):

隨著視頻監(jiān)控技術(shù)的日益成熟和監(jiān)控設(shè)備的不斷普及,視頻監(jiān)控應(yīng)用越來(lái)越廣泛,監(jiān)控視頻數(shù)據(jù)量呈現(xiàn)出爆炸式的增長(zhǎng),已經(jīng)成為大數(shù)據(jù)時(shí)代的重要數(shù)據(jù)對(duì)象。例如,遍布上海市的百萬(wàn)級(jí)監(jiān)控探頭每分鐘產(chǎn)生tb級(jí)的視頻數(shù)據(jù),為實(shí)時(shí)掌握社會(huì)動(dòng)態(tài)和保障公共安全提供了寶貴的視頻資源。然而,由于視頻數(shù)據(jù)本身的非結(jié)構(gòu)化特性,使得其處理和分析相對(duì)困難。目前對(duì)視頻數(shù)據(jù)的應(yīng)用仍然主要以人工分析為主,輔以簡(jiǎn)單的智能化分析手段,存在“視頻在、找不到”,“找得到、找太久”,“有服務(wù)、不可靠”等海量視頻應(yīng)用的瓶頸。同時(shí),目前的視頻監(jiān)控系統(tǒng)還存在傳輸壓力大、描述方法不統(tǒng)一等問(wèn)題。這些問(wèn)題嚴(yán)重制約了視頻監(jiān)控技術(shù)進(jìn)一步發(fā)展和應(yīng)用。因此,面對(duì)海量的監(jiān)控視頻大數(shù)據(jù),如何實(shí)現(xiàn)高效的視頻內(nèi)容表示是視頻監(jiān)控應(yīng)用亟待解決的關(guān)鍵問(wèn)題。

將視頻信息轉(zhuǎn)化為表征其內(nèi)容的文本信息是解決上述問(wèn)題的一個(gè)有效途徑?;谠擃惙椒ㄟM(jìn)行視頻表示的研究大多基于兩類方法:1)視頻內(nèi)容標(biāo)注:基于機(jī)器學(xué)習(xí)算法為視頻中對(duì)象自動(dòng)添加類別標(biāo)記,用類別標(biāo)記表示視頻內(nèi)容;2)視頻內(nèi)容理解:基于計(jì)算機(jī)視覺(jué)和自然語(yǔ)言理解技術(shù),通過(guò)提取視頻中對(duì)象的局部特征,形成對(duì)視頻內(nèi)容的自然語(yǔ)言描述。視頻內(nèi)容標(biāo)注對(duì)視頻的描述單一化,缺乏對(duì)對(duì)象特征和對(duì)象間關(guān)聯(lián)性的描述;視頻內(nèi)容理解雖然可能包含更多的信息,但由于現(xiàn)實(shí)場(chǎng)景復(fù)雜多變,難以統(tǒng)一定義,目前只能在特定場(chǎng)景下取得一定的效果,還無(wú)法服務(wù)于實(shí)際應(yīng)用。

因此,這些問(wèn)題的存在導(dǎo)致監(jiān)控視頻的智能化應(yīng)用還處于較低的水平。針對(duì)現(xiàn)有視頻內(nèi)容表示方法中標(biāo)注單一化,各部件空間關(guān)系難以準(zhǔn)確定義和描述等問(wèn)題,我們需要一種能夠?qū)?fù)雜場(chǎng)景中多種對(duì)象同時(shí)標(biāo)注,且能進(jìn)一步標(biāo)注對(duì)象自身部件特征的結(jié)構(gòu)化視頻表示方法,即泛化多標(biāo)記視頻內(nèi)容標(biāo)注方法。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于公開(kāi)一種基于泛化多標(biāo)記學(xué)習(xí)的監(jiān)控視頻多粒度標(biāo)注方法,針對(duì)當(dāng)前視頻監(jiān)控中存在的問(wèn)題和困難,圍繞視頻特征多層次獲取和多粒度表示的理論和方法展開(kāi)研究工作。本發(fā)明的研究成果將豐富和拓展機(jī)器學(xué)習(xí)理論和方法,同時(shí)也為未來(lái)推動(dòng)視頻監(jiān)控智能化發(fā)展奠定理論和應(yīng)用基礎(chǔ)。

本發(fā)明公開(kāi)了一種基于泛化多標(biāo)記學(xué)習(xí)的監(jiān)控視頻多粒度標(biāo)注方法,其特征在于,以公安視頻監(jiān)控內(nèi)容分析為背景,從視頻特征多層次獲取和多粒度表示的理論和方法開(kāi)展研究工作。首先,基于多標(biāo)記學(xué)習(xí)理論和深度學(xué)習(xí)理論,分析和提取視頻中各對(duì)象不同層次的特征,構(gòu)建泛化的多標(biāo)記分類算法,識(shí)別出監(jiān)控視頻的多個(gè)多種不同類別的目標(biāo);其次,基于粒計(jì)算理論和自然語(yǔ)言理解技術(shù),探索視頻信息的多粒度表示模型,從不同粒度不同層次不同方面對(duì)目標(biāo)進(jìn)行描述,最后生成文本信息。

本發(fā)明公開(kāi)了一種泛化多標(biāo)記學(xué)習(xí)方法,其特征在于,可以對(duì)同一樣本中多個(gè)對(duì)象同時(shí)學(xué)習(xí)標(biāo)記并標(biāo)記其部件信息。其中“泛化”體現(xiàn)在從多個(gè)層次將對(duì)象的部件信息和多層次特征附加在類別標(biāo)記上,從而輸出以類別標(biāo)記為核心的一組詞匯來(lái)描述視頻。

本發(fā)明公開(kāi)了一種基于詞簇的視頻內(nèi)容多粒度表示算法,其特征在于,這是一種多粒度監(jiān)控視頻表示模型,將不同層次的特征對(duì)應(yīng)到不同的粒層,設(shè)計(jì)不同粒層之間的信息轉(zhuǎn)換與合并機(jī)制。在泛化多標(biāo)記分類算法已獲得的詞匯基礎(chǔ)上建立一種多粒度的詞匯結(jié)構(gòu)表示模型—詞簇,其中包含了針對(duì)視頻中某個(gè)部件的一組詞匯以及詞匯間的關(guān)系,這種關(guān)系能反映出視頻中各要素的聯(lián)系,這種結(jié)構(gòu)化的表示形式不追求形成優(yōu)美的自然語(yǔ)言語(yǔ)句,但可以從多個(gè)粒度上反映視頻內(nèi)容。

本發(fā)明公開(kāi)了一種基于泛化多標(biāo)記學(xué)習(xí)的監(jiān)控視頻多粒度標(biāo)注方法,包括以下步驟:

1)對(duì)采集的監(jiān)控視頻進(jìn)行關(guān)鍵幀的提??;

2)使用深度學(xué)習(xí)方法對(duì)圖像進(jìn)行訓(xùn)練,構(gòu)造分類器;

3)使用步驟2)所述分類器對(duì)視頻第一幀圖像進(jìn)行多標(biāo)記學(xué)習(xí),檢測(cè)并標(biāo)定出圖像中的目標(biāo);

4)根據(jù)步驟3)中標(biāo)定的目標(biāo),對(duì)后續(xù)的視頻圖像同時(shí)使用目標(biāo)跟蹤算法和目標(biāo)檢測(cè)算法。目標(biāo)檢測(cè)算法用于標(biāo)定目標(biāo)位置和目標(biāo)類別信息,目標(biāo)跟蹤算法用于得到目標(biāo)的運(yùn)動(dòng)信息軌跡信息。檢測(cè)算法和跟蹤算法結(jié)合使用,提升算法整體的魯棒性;

5)對(duì)步驟4)中識(shí)別的目標(biāo)進(jìn)行hog特征提取,獲得圖像的邊緣輪廓特征;

6)對(duì)步驟4)中識(shí)別的目標(biāo)進(jìn)行l(wèi)bp特征提取,獲得圖像的lbp特征譜統(tǒng)計(jì)直方圖;

7)對(duì)步驟4)中識(shí)別的目標(biāo)進(jìn)行hsv顏色提取,獲得圖像顏色直方圖;

8)對(duì)步驟5)、步驟6)和步驟7)中獲取的信息進(jìn)行整合,對(duì)識(shí)別目標(biāo)使用基于詞簇的多粒度表示算法,從不同粒度不用方面對(duì)目標(biāo)進(jìn)行表示及描述;

9)對(duì)步驟4)中提取的目標(biāo)軌跡信息使用軌跡分析方法進(jìn)行分析,得到目標(biāo)的運(yùn)動(dòng)特征和運(yùn)動(dòng)狀態(tài)信息;

10)對(duì)步驟8)和步驟9)得到的目標(biāo)信息進(jìn)行整合,使用自然語(yǔ)言處理的方法生成視頻內(nèi)容分析的語(yǔ)句。

有益效果

1)本發(fā)明針對(duì)現(xiàn)有視頻內(nèi)容表示方法標(biāo)注單一化,各部件空間關(guān)系難以準(zhǔn)確定義和描述等問(wèn)題,提出泛化多標(biāo)記學(xué)習(xí),對(duì)同一樣本中多個(gè)對(duì)象同時(shí)學(xué)習(xí)標(biāo)記并標(biāo)記其部件信息。深度學(xué)習(xí)從人類感知世界的機(jī)理出發(fā),通過(guò)無(wú)監(jiān)督學(xué)習(xí)方式從數(shù)據(jù)中學(xué)習(xí)到層次化的特征,并在海量樣本上加以訓(xùn)練,往往能夠獲取對(duì)象的多層次語(yǔ)義特征,基于深度學(xué)習(xí)理論構(gòu)造的泛化多標(biāo)記學(xué)習(xí)算法,能夠?yàn)槎鄬哟我曨l信息提供有效的理論和方法。

2)本發(fā)明在目標(biāo)識(shí)別方面除了使用深度學(xué)習(xí)理論構(gòu)造分類器,還使用目標(biāo)跟蹤算法來(lái)強(qiáng)化檢測(cè)效果并得到目標(biāo)的運(yùn)動(dòng)軌跡信息。首先,單一的檢測(cè)算法或單一的跟蹤算法在目標(biāo)識(shí)別上都有其優(yōu)勢(shì)及不足,使用檢測(cè)加跟蹤并行的方法,可以增強(qiáng)算法的魯棒性,減少誤報(bào)率和漏檢率。同時(shí),跟蹤算法的使用可以獲得目標(biāo)的軌跡信息,結(jié)合目標(biāo)軌跡算法的使用,可以分析并獲取目標(biāo)的運(yùn)動(dòng)信息,為視頻內(nèi)容分析奠定基礎(chǔ)。

3)本發(fā)明使用粒計(jì)算的思想對(duì)監(jiān)控視頻中的目標(biāo)進(jìn)行描述。粒計(jì)算是計(jì)算智能研究領(lǐng)域中通過(guò)模擬人類思維以解決海量復(fù)雜問(wèn)題的一種新的計(jì)算范式。人類以不同的粒度和抽象度來(lái)看待世界,在不同粒度上概念化世界并在不同粒度上相互轉(zhuǎn)化是人類智能與適應(yīng)能力的表現(xiàn)。粒計(jì)算理論提供了信息在不同粒層之間的轉(zhuǎn)換理論和方法,為視頻表示模型提供了對(duì)象與對(duì)象、對(duì)象與部件間進(jìn)行轉(zhuǎn)化和相似度度量的基礎(chǔ)。因此,模擬人類認(rèn)識(shí)和描述圖像的方法,建立多粒度視頻表示理論和方法,應(yīng)能為視頻內(nèi)容表示提供新的思路。使用基于詞簇的視頻內(nèi)容多粒度表示方法,可以使算法對(duì)監(jiān)控視頻中的目標(biāo)物體描述更加全面具體,結(jié)合自然語(yǔ)言處理技術(shù),形成描述性更加完備的文本信息。

附圖說(shuō)明

此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:

圖1發(fā)明框架圖

圖2深度學(xué)習(xí)理論和多標(biāo)記學(xué)習(xí)理論示意圖

圖3目標(biāo)檢測(cè)與跟蹤算法流程圖

圖4基于詞簇的目標(biāo)多粒度表示示意圖

圖5軌跡表示與運(yùn)動(dòng)描述圖

圖6綜合示意圖

具體實(shí)施方式

以下將配合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式,藉此對(duì)本發(fā)明如何應(yīng)用技術(shù)手段來(lái)解決技術(shù)問(wèn)題并達(dá)成技術(shù)功效的實(shí)現(xiàn)過(guò)程能充分理解并據(jù)以實(shí)施。

本發(fā)明公開(kāi)了一種基于泛化多標(biāo)記學(xué)習(xí)的監(jiān)控視頻多粒度標(biāo)注方法,其特征在于,以公安視頻監(jiān)控內(nèi)容分析為背景,從視頻特征多層次獲取和多粒度表示的理論和方法開(kāi)展研究工作。首先,基于多標(biāo)記學(xué)習(xí)理論和深度學(xué)習(xí)理論,分析和提取視頻中各對(duì)象不同層次的特征,構(gòu)建泛化的多標(biāo)記分類算法,識(shí)別出監(jiān)控視頻的多個(gè)多種不同類別的目標(biāo);其次,基于粒計(jì)算理論和自然語(yǔ)言理解技術(shù),探索視頻信息的多粒度表示模型,從不同粒度不同層次不同方面對(duì)目標(biāo)進(jìn)行描述,最后生成文本信息。

本發(fā)明公開(kāi)了一種基于泛化多標(biāo)記學(xué)習(xí)的監(jiān)控視頻多粒度標(biāo)注方法,包括以下步驟:

1)在本實(shí)施例中,所述視頻來(lái)源于上海市某路口的交通監(jiān)控視頻,視頻的分辨率為2448*2048p,監(jiān)控視頻中包含多種多樣的車輛以及行人,場(chǎng)景比較復(fù)雜。在本實(shí)施例中,算法描述的目標(biāo)為視頻中的行人和車輛。

2)在本實(shí)施例中,如圖2所示,使用基于注意力機(jī)制的快速卷積神經(jīng)網(wǎng)絡(luò)(fastrcnn)對(duì)圖像進(jìn)行目標(biāo)檢測(cè)與識(shí)別。卷積神經(jīng)網(wǎng)絡(luò)(cnn)直接從原始像素出發(fā),特別適合于二維視覺(jué)圖像。深度卷積神經(jīng)網(wǎng)通過(guò)共享權(quán)值和網(wǎng)絡(luò)結(jié)構(gòu)重組將特征學(xué)習(xí)融入到多層神經(jīng)網(wǎng)絡(luò)中,有效地避免人工特征提取方法的缺陷。cnn對(duì)于識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形有較好的效果,同時(shí)可以從訓(xùn)練數(shù)據(jù)中隱式學(xué)習(xí)到物體的拓?fù)浣Y(jié)構(gòu)。

將視頻中的關(guān)鍵幀作為fastrcnn的輸入。首先用selectivesearch在輸入圖片中提取約2k個(gè)objectproposal(這里稱為roi)。然后縮放圖片的尺度得到圖片金字塔。對(duì)于每個(gè)尺度的每個(gè)roi,求取映射關(guān)系,在之后的卷積層中裁剪(crop)出對(duì)應(yīng)的patch。并用一個(gè)單層的spplayer(這里稱為rolpoolinglayer)來(lái)統(tǒng)一到一樣的尺度。接著經(jīng)過(guò)兩個(gè)全連接得到roi特征向量,并將此特征共享到兩個(gè)新的全連接層,連接上兩個(gè)優(yōu)化目標(biāo)。第一個(gè)優(yōu)化目標(biāo)是分類,使用softmax,第二個(gè)優(yōu)化目標(biāo)是bboxregression,使用了一個(gè)smooth的l1-loss。

其中,roipoolinglayer的作用主要有兩個(gè),一個(gè)是將圖像中的roi定位到特征圖中對(duì)應(yīng)patch,另一個(gè)是用一個(gè)單層的spplayer將這個(gè)特征圖patch下采樣為大小固定的特征再傳入全連接層。

經(jīng)過(guò)fastrcnn,我們實(shí)現(xiàn)目標(biāo)的檢測(cè)與識(shí)別。

3)在本實(shí)施例中,使用步驟2)中得到的分類器,對(duì)視頻幀中的目標(biāo)進(jìn)行檢測(cè),在訓(xùn)練過(guò)程中,設(shè)定的輸出類別為三類,分別為行人,車輛和環(huán)境(環(huán)境為除人和車輛之外物體的統(tǒng)稱)。在本實(shí)施例中,如圖2所示,使用分類器對(duì)視頻中的目標(biāo)進(jìn)行檢測(cè),深色(紅色)框標(biāo)出的目標(biāo)為車輛,淺色(綠色)框標(biāo)出的目標(biāo)為行人,無(wú)標(biāo)記的部分為環(huán)境。

4)在本實(shí)施例中,對(duì)于步驟3)中標(biāo)定的目標(biāo),對(duì)后續(xù)幀使用檢測(cè)加跟蹤算法,流程如圖3所示。使用檢測(cè)算法找出當(dāng)前幀中的目標(biāo)位置,記為d;再根據(jù)上一幀中目標(biāo)的位置使用跟蹤算法,得到目標(biāo)在當(dāng)前幀中的位置,記為t;目標(biāo)上一幀的位置記為p。根據(jù)連續(xù)性假設(shè),檢測(cè)和跟蹤算法得到的目標(biāo)邊界框應(yīng)該與上一幀中目標(biāo)出現(xiàn)的位置距離不會(huì)太大,并且跟蹤算法得到的結(jié)果應(yīng)該和檢測(cè)算法得到的結(jié)果之間的距離也應(yīng)該小于某個(gè)閾值,因此可以得到:

||t-p||<λ1(1)

||d-p||<λ2(2)

||t-d||<λ3(3)

如果式(1)、式(2)滿足條件,式(3)也滿足條件,我們認(rèn)為檢測(cè)算法和跟蹤算法都成功識(shí)別目標(biāo),直接將結(jié)果作為下一幀的輸入;如果式(1)滿足條件,式(2)不滿足條件,那么我們認(rèn)為檢測(cè)算法得到了一個(gè)錯(cuò)誤的結(jié)果,將跟蹤算法的結(jié)果作為下一幀的輸入位置,并把跟蹤算法的結(jié)果返回給分類器,作為正例,把檢測(cè)算法得到的結(jié)果返回給分類器,作為負(fù)例,更新分類器;如果式(1)不滿足條件,式(2)滿足條件,那么我們認(rèn)為跟蹤算法跟蹤失敗,我們將使用檢測(cè)算法的結(jié)果作為下一幀的輸入位置;如果式(1)和式(2)都不滿足條件,式(3)也不滿足條件,那么我們認(rèn)為算法失敗,重新初始化;如果式(1)和式(2)都不滿足條件,式(3)滿足條件,我們將檢測(cè)和跟蹤算法得到的結(jié)果作為下一幀的輸入,觀察下一幀的結(jié)果,如果滿足條件,那么算法繼續(xù)執(zhí)行下去;如果不滿足條件,檢測(cè)跟蹤失敗,重新初始化。

5)對(duì)步驟4)中識(shí)別的目標(biāo)進(jìn)行hog特征的提取,獲得圖像的邊緣輪廓特征,具體步驟如下:首先歸一化所述原始圖像以消除光照的影響,在本實(shí)施例中歸一化采用gamma壓縮處理,gamma壓縮能有效降低圖像局部陰影和光照變化將原始圖像分割為若干個(gè)小塊,每塊由2*2個(gè)細(xì)胞單元組成,其中每一個(gè)細(xì)胞單元又由8*8個(gè)像素點(diǎn)所組成,這些塊是互有重疊的即每一個(gè)單元可能在構(gòu)成特征向量時(shí)多次被使用,且每次的數(shù)值均不同;然后計(jì)算所述原始圖像中像素點(diǎn)水平方向和垂直方向梯度,得到像素點(diǎn)梯度幅值和梯度方向,本實(shí)施例中將梯度方向平均劃分成9個(gè)直方圖通道,其中每一個(gè)通道代表一個(gè)方向區(qū)間,而每個(gè)方向區(qū)間占40度(360/9=40),根據(jù)梯度幅度賦予每個(gè)方向不同權(quán)重,即可得到每一個(gè)單元的直方圖特征以及每一塊的直方圖特征;最后將每一塊的直方圖特征聯(lián)立起來(lái)就得到整個(gè)圖像的hog特征。

6)對(duì)步驟4)中識(shí)別的目標(biāo)進(jìn)行l(wèi)bp特征提取,獲得圖像lbp特征譜統(tǒng)計(jì)直方圖,具體步驟如下:首先將所述原始圖像劃分成10*10的細(xì)胞單元;然后對(duì)于細(xì)胞單元中中的每個(gè)像素,計(jì)算該像素點(diǎn)半徑r之內(nèi)n個(gè)像素點(diǎn)的lbp值;為了保證lbp算子的旋轉(zhuǎn)不變性,在本實(shí)施例中,將所得到n個(gè)像素點(diǎn)循環(huán)左移n-1次,取其中最小的值作為lbp算子;其次計(jì)算每個(gè)細(xì)胞單元的直方圖,即每個(gè)十進(jìn)制lbp值出現(xiàn)的頻率,并對(duì)其進(jìn)行歸一化處理;最后將每個(gè)細(xì)胞單元的直方圖級(jí)聯(lián)成整張圖像的lbp紋理特征向量。

7)對(duì)步驟4)中識(shí)別的目標(biāo)進(jìn)行顏色特征提取,獲得圖像hsv顏色直方圖,首先進(jìn)行顏色量化,將顏色空間劃分成若干個(gè)小的顏色空間,每個(gè)小區(qū)間成為直方圖的一個(gè)bin,然后通過(guò)計(jì)算顏色落在每個(gè)小區(qū)間內(nèi)的像素?cái)?shù)量可以得到顏色直方圖。

8)在本實(shí)例中,對(duì)目標(biāo)使用基于詞簇的多粒度表示算法對(duì)目標(biāo)進(jìn)行描述,如圖4所示,具體步驟如下:首先對(duì)步驟5)和步驟6)的信息進(jìn)行整合,在得到的目標(biāo)的hog特征和lbp特征之后,使用構(gòu)造好的hog特征分類器和lbp特征分類器分別對(duì)目標(biāo)進(jìn)行分類,得到兩個(gè)分類結(jié)果。在本實(shí)例中,使用集成學(xué)習(xí)的思想對(duì)分類結(jié)果進(jìn)行判定,得到目標(biāo)的細(xì)粒度的種類信息,集成學(xué)習(xí)的使用保證得到的目標(biāo)信息更加準(zhǔn)確。再將步驟7)中得到的hsv顏色轉(zhuǎn)化為顏色向量,使用分類器對(duì)其進(jìn)行分類,得到目標(biāo)細(xì)粒度的的顏色信息。在得到目標(biāo)的粗粒度和細(xì)粒度信息之后,就能夠定義這些信息之間的量化信息,使之能夠用來(lái)計(jì)算圖像視頻片段之間的相似度,還可以用于后續(xù)視頻檢索與分析等應(yīng)用。

對(duì)監(jiān)控視頻場(chǎng)景中動(dòng)態(tài)變化的人和物定義表示模式,例如:輸入視頻關(guān)鍵幀集合x(chóng)={x1,x2,...xp},對(duì)應(yīng)標(biāo)記集合l={l1,l2,...lq},其對(duì)應(yīng)的標(biāo)記集合為yi,設(shè)yi對(duì)應(yīng)一個(gè)對(duì)象集合o={oi,o2,...on},對(duì)于任意對(duì)象oi,存在一個(gè)細(xì)粒度特征集合m表示特征維數(shù)。

對(duì)于任意兩個(gè)對(duì)象oi和oj,如果存在yi=y(tǒng)j,則其特征維數(shù)相等且各維特征意義相同,可以定義對(duì)象oi和oj的相似度s(oi,oj),如式(4)所示。

其中∑為特征向量的協(xié)方差矩陣,表示特征間的相關(guān)性,該矩陣需要根據(jù)實(shí)際應(yīng)用背景在大量真實(shí)數(shù)據(jù)上訓(xùn)練得到,采用最優(yōu)化方法訓(xùn)練該參數(shù)。

對(duì)于任意兩個(gè)對(duì)象oi和oj,如果存在yi≠yj,則需定義對(duì)象oi和oj的關(guān)聯(lián)度c(oi,oj)。在這種情況下,兩對(duì)象不屬于同一類別,因此無(wú)法定義其相似度,而它們的關(guān)聯(lián)度事實(shí)上就是標(biāo)記依賴性,需要通過(guò)在大量訓(xùn)練集上訓(xùn)練得到。構(gòu)造如公式(5)所示的目標(biāo)函數(shù),通過(guò)最優(yōu)化算法求得使多標(biāo)記分類錯(cuò)誤率最小的依賴關(guān)系hr。

其中,p表示訓(xùn)練集中包含的樣本數(shù),r表示約束關(guān)系hr中的參數(shù)簇,hr(y,ω)表示在標(biāo)記關(guān)系約束下得到的分類結(jié)果,δ表示兩個(gè)標(biāo)記集合之間的求異運(yùn)算。依賴關(guān)系ω對(duì)分類器的約束參數(shù)擬采用深度學(xué)習(xí)算法訓(xùn)練得到。

基于s(oi,oj)和c(oi,oj)可以分別從粗粒度和細(xì)粒度上定義兩幅圖像間的相似度。粗粒度上的圖像相似度僅考慮兩幅圖中所有對(duì)象之間的關(guān)聯(lián)度(即標(biāo)記相同的對(duì)象關(guān)聯(lián)度設(shè)為1)。細(xì)粒度上的相似度則需要綜合考慮圖像間的關(guān)聯(lián)度和相似度,并訓(xùn)練兩者所占的權(quán)重。

9)對(duì)步驟4)中使用的跟蹤算法得到的目標(biāo)軌跡進(jìn)行分析,如圖5所示。常用的軌跡分析方法有基于原始軌跡信息分析、基于空間域變換的軌跡分析和基于概率模型的軌跡分析等。在本實(shí)施例中,由于是在監(jiān)控視頻下對(duì)目標(biāo)軌跡進(jìn)行分析,因此采用的是基于原始軌跡信息分析算法。為了更加全面地描述軌跡信息,我們使用軌跡路徑,目標(biāo)速度曲線,目標(biāo)本身大小等信息作為特征對(duì)軌跡進(jìn)行分析,最終得到目標(biāo)的運(yùn)動(dòng)、行為信息。

10)使用自然語(yǔ)言處理的方法對(duì)上述步驟得到的信息進(jìn)行整合,在本實(shí)施例中采用的是基于模板匹配的方法。首先,根據(jù)步驟4)中識(shí)別目標(biāo)的不同的信息,定義不同的模板;其次,根據(jù)粗粒度類別信息模板的不同,將各個(gè)步驟根據(jù)分類器得到的細(xì)粒度的信息整合進(jìn)模板中,最后生成該監(jiān)控視頻的文本描述信息。

本實(shí)施例的綜合示意圖如圖6所示。

上述說(shuō)明展示并描述了本發(fā)明的若干優(yōu)選實(shí)施例,但如前所述,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對(duì)其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi),通過(guò)上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護(hù)范圍內(nèi)。

創(chuàng)新點(diǎn)

創(chuàng)新之一:泛化多標(biāo)記學(xué)習(xí)理論

傳統(tǒng)的監(jiān)督學(xué)習(xí)僅能為對(duì)象提供一個(gè)或多個(gè)標(biāo)記作為描述信息,不能全面反映對(duì)象本身的多層次特征。本發(fā)明突破傳統(tǒng)監(jiān)督學(xué)習(xí)模式,通過(guò)深度學(xué)習(xí)實(shí)現(xiàn)標(biāo)記泛化,建立了視頻中對(duì)象標(biāo)注和對(duì)象各部件多層次特征提取一體化的學(xué)習(xí)方法。該思路同樣可以運(yùn)用于其他機(jī)器學(xué)習(xí)算法,是對(duì)機(jī)器學(xué)習(xí)理論的擴(kuò)展。

創(chuàng)新之二:基于詞簇的多粒度視頻表示模型

已有的視頻描述方法只能反映視頻中單一粒度上的信息,而形成類似于人類的自然語(yǔ)言描述尚且存在許多困難。本發(fā)明采用的詞簇是一種類似于人類思維方式,能反映詞匯間結(jié)構(gòu)模式的多粒度視頻表示方式,以文本詞匯間的結(jié)構(gòu)來(lái)對(duì)應(yīng)圖像/視頻各部件之間的結(jié)構(gòu),從而實(shí)現(xiàn)視頻內(nèi)容深度解析。該模型的提出為視頻描述提供了可行的解決方案,同時(shí)擴(kuò)展了自然語(yǔ)言理解理論。

創(chuàng)新之三:檢測(cè)與跟蹤并行的目標(biāo)識(shí)別算法

大部分的目標(biāo)識(shí)別算法大多只使用單一的檢測(cè)算法或跟蹤算法進(jìn)行目標(biāo)識(shí)別,這樣的算法大多都存在魯棒性不足的問(wèn)題。單一的檢測(cè)算法容易出現(xiàn)誤判和漏檢的問(wèn)題,單一的跟蹤算法在出現(xiàn)目標(biāo)遮擋,視頻斷幀問(wèn)題時(shí)會(huì)出現(xiàn)跟蹤失敗。本發(fā)明采用檢測(cè)加跟蹤并行使用的方法,通過(guò)與前一幀識(shí)別的目標(biāo)進(jìn)行比較,判斷檢測(cè)和跟蹤結(jié)果的準(zhǔn)確性,根據(jù)不同條件使用檢測(cè)結(jié)果修正跟蹤結(jié)果或者跟蹤結(jié)果修正檢測(cè)結(jié)果,達(dá)到一個(gè)互補(bǔ)的效果,彌補(bǔ)單一檢測(cè)或跟蹤算法魯棒性不足的問(wèn)題,使得整個(gè)算法的目標(biāo)識(shí)別能力更好,算法魯棒性更高。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
休宁县| 辽宁省| 阆中市| 兴城市| 长寿区| 郴州市| 许昌市| 顺平县| 阳春市| 两当县| 都昌县| 汶川县| 中西区| 如皋市| 花垣县| 日喀则市| 浑源县| 公主岭市| 句容市| 陵川县| 砚山县| 禄丰县| 陆河县| 塘沽区| 武定县| 乌拉特后旗| 大荔县| 长岭县| 纳雍县| 科技| 嫩江县| 汝城县| 建始县| 汪清县| 平顺县| 阿拉尔市| 类乌齐县| 色达县| 奉贤区| 开江县| 河曲县|