專利名稱:一種面向檢索的監(jiān)控視頻語(yǔ)義描述和檢測(cè)建模方法
技術(shù)領(lǐng)域:
本發(fā)明涉及監(jiān)控視頻的描述和檢索領(lǐng)域,具體是一種針對(duì)監(jiān)控視頻的改進(jìn)的語(yǔ)義描述和檢索方法。
背景技術(shù):
21世紀(jì)是信息化時(shí)代,隨著以多媒體為代表的信息技術(shù)產(chǎn)業(yè)的突飛猛進(jìn),人們對(duì)生活和工作環(huán)境的安全性要求也在不斷提高 ,監(jiān)控設(shè)施越來(lái)越多地出現(xiàn)在各種公共場(chǎng)所。目前,視頻監(jiān)控系統(tǒng)已經(jīng)涉及到了社會(huì)生活的各行各業(yè),例如交通路口、超市、銀行、車站和居民小區(qū)等,與此同時(shí),在各種大型活動(dòng)場(chǎng)所和重要保衛(wèi)區(qū)域的警衛(wèi)工作中也配置了許多監(jiān)控設(shè)備,如奧運(yùn)會(huì)場(chǎng)地、人民廣場(chǎng)、世博園區(qū)等。I.傳統(tǒng)視頻監(jiān)控系統(tǒng)存在的問(wèn)題視頻監(jiān)控系統(tǒng)是多媒體技術(shù)、網(wǎng)絡(luò)通信技術(shù)、工業(yè)控制和智能計(jì)算技術(shù)等綜合運(yùn)用的產(chǎn)物,傳統(tǒng)視頻監(jiān)控系統(tǒng)由于缺少智能,也被稱為“被動(dòng)監(jiān)控”,其最大的特點(diǎn)就是以人為主。實(shí)時(shí)監(jiān)控作用的發(fā)揮主要依靠監(jiān)控室的值班人員實(shí)時(shí)觀看監(jiān)控畫面,對(duì)畫面出現(xiàn)的異常事件作出判斷,實(shí)現(xiàn)報(bào)警聯(lián)動(dòng)指揮;而歷史視頻查看作用的發(fā)揮主要依靠工作人員人工調(diào)用并回放視頻錄像,同樣需要人對(duì)感興趣目標(biāo)的判讀,并確定其為證據(jù)。這種“被動(dòng)監(jiān)控”系統(tǒng)將會(huì)帶來(lái)以下問(wèn)題(I)隨著監(jiān)控探頭和錄像數(shù)據(jù)量的增加,其效率會(huì)大大下降,要從海量的監(jiān)控錄像數(shù)據(jù)中快速查找需要的證據(jù)是十分困難的;(2)海量視頻數(shù)據(jù)的傳輸和存儲(chǔ),將會(huì)造成資源浪費(fèi)和信息污染。隨著城市監(jiān)控范圍和規(guī)模的迅速增長(zhǎng),完全依靠人工監(jiān)看的傳統(tǒng)視頻監(jiān)控系統(tǒng)已經(jīng)不能滿足需求,人們需要更智能化、自動(dòng)化、自主化的視頻監(jiān)控系統(tǒng),因此智能視頻監(jiān)控系統(tǒng)成為了當(dāng)前提升視頻監(jiān)控系統(tǒng)效能的主要發(fā)展方向。2.智能視頻監(jiān)控系統(tǒng)的產(chǎn)生近年來(lái),隨著網(wǎng)絡(luò)帶寬、計(jì)算機(jī)處理能力、集成電路速度和存儲(chǔ)容量的迅速提高,以及各種視頻信息處理技術(shù)的出現(xiàn),全程數(shù)字化、網(wǎng)絡(luò)化的視頻監(jiān)控系統(tǒng)優(yōu)勢(shì)愈發(fā)明顯,其高度的開放性、集成性和靈活性為視頻監(jiān)控系統(tǒng)和設(shè)備的整體性能提升創(chuàng)造了必要的條件,極大地推動(dòng)了視頻監(jiān)控技術(shù)向智能化方向的發(fā)展。智能視頻監(jiān)控技術(shù)主要指的是自動(dòng)地分析和抽取視頻源中的關(guān)鍵信息。智能視頻技術(shù)借助計(jì)算機(jī)強(qiáng)大的數(shù)據(jù)處理功能,對(duì)視頻畫面中的海量數(shù)據(jù)進(jìn)行高速分析,過(guò)濾掉用戶不關(guān)心的信息,僅僅為監(jiān)控者提供有用的關(guān)鍵信息,最終實(shí)現(xiàn)集視頻采集、視頻分析及描述為一體的智能監(jiān)控系統(tǒng)。3.基于內(nèi)容的監(jiān)控視頻檢索與描述在智能視頻監(jiān)控系統(tǒng)中,如何利用計(jì)算機(jī)從海量的監(jiān)控視頻中快速地檢索出用戶需要的信息是當(dāng)前監(jiān)控領(lǐng)域急需解決的問(wèn)題之一。傳統(tǒng)的基于文本的視頻檢索方法利用文本信息對(duì)視頻進(jìn)行注釋,通過(guò)關(guān)鍵字抽取來(lái)描述視頻信息。但由于目前的技術(shù)還不能對(duì)視頻信息自動(dòng)生成關(guān)鍵字描述,仍然需要使用手工的方法對(duì)視頻進(jìn)行解釋和注釋,這是一項(xiàng)非常耗時(shí)的工作,而且具有一定的主觀性。因此,基于文本的視頻檢索方法已不能滿足海量監(jiān)控視頻的檢索需要。目前,基于內(nèi)容的視頻檢索方法(Content-Based Video Queries,CBVQ)已成為多媒體技術(shù)研究領(lǐng)域的熱點(diǎn),它突破了傳統(tǒng)的基于文本檢索技術(shù)的局限,直接對(duì)視頻的內(nèi)容進(jìn)行分析,抽取特征和語(yǔ)義,利用這些內(nèi)容特征建立索引并進(jìn)行檢索,提供了一種符合人類認(rèn)知規(guī)律的高效檢索方法。隨著各種圖像處理技術(shù)的進(jìn)步,尤其是特征提取和目標(biāo)分類算法的改進(jìn),基于內(nèi)容的視頻檢索方法得到了廣泛的應(yīng)用,也能夠很好地滿足海量監(jiān)控視頻的檢索需要。從監(jiān)控視頻內(nèi)容中提取的關(guān)鍵信息主要包括視頻對(duì)象特征以及對(duì)象間的時(shí)空關(guān)系等,各種信息從不同層次對(duì)視頻的內(nèi)容進(jìn)行了描述,為了能夠有效地支持基于內(nèi)容的監(jiān)控視頻檢索,就需要通過(guò)視頻建模將視頻內(nèi)容的描述信息有效地組織起來(lái)。通過(guò)對(duì)視頻信息進(jìn)行結(jié)構(gòu)化的分層描述,在視頻數(shù)據(jù)流之外產(chǎn)生一路視頻數(shù)據(jù)的描述流,從而可以基于描述流進(jìn)行高效檢索和關(guān)聯(lián)調(diào)閱,這將為海量視頻的快速檢索提供可行的解決方案。·
4.監(jiān)控視頻的語(yǔ)義描述方案語(yǔ)義是指數(shù)據(jù)的含義,對(duì)于計(jì)算機(jī)科學(xué)來(lái)說(shuō),語(yǔ)義一般是指用戶對(duì)于那些用來(lái)描述現(xiàn)實(shí)世界的計(jì)算機(jī)符號(hào)的解釋。用戶對(duì)視頻內(nèi)容信息的檢索和利用往往是建立在對(duì)視頻語(yǔ)義的理解上,所以語(yǔ)義信息的描述在視頻建模中占有十分重要的地位。根據(jù)一般人對(duì)視頻含義的理解,可以根據(jù)用戶查詢角度的不同將視頻的語(yǔ)義信息大致分為3個(gè)層次(I)第一個(gè)層次是視覺(jué)特征語(yǔ)義信息,用來(lái)描述視頻的顏色、形狀或運(yùn)動(dòng)等視覺(jué)特征及其組合,亦即底層語(yǔ)義;(2)第二個(gè)層次是對(duì)象和對(duì)象間時(shí)空關(guān)系語(yǔ)義信息,通過(guò)識(shí)別和邏輯推理確定視頻內(nèi)容中的對(duì)象和類別及對(duì)象間的拓?fù)潢P(guān)系,亦即中層語(yǔ)義;(3)第三個(gè)層次是高層語(yǔ)義信息,如行為描述、事件描述、情感描述等高層語(yǔ)義。這是根據(jù)對(duì)象語(yǔ)義和對(duì)象時(shí)空關(guān)系的信息及其變化經(jīng)高層推理和判斷而來(lái)的,這些推理和判斷往往需要利用一定的映射模型和規(guī)則。5.現(xiàn)有視頻描述方案的不足(I)未定義用戶感興趣的靜止區(qū)域現(xiàn)有視頻描述系統(tǒng)在完成對(duì)象語(yǔ)義層的描述時(shí)并沒(méi)有根據(jù)對(duì)象的特征進(jìn)行區(qū)分,而只是很籠統(tǒng)地對(duì)視頻中的出現(xiàn)的主要目標(biāo)(包括運(yùn)動(dòng)目標(biāo)、靜止區(qū)域等)進(jìn)行統(tǒng)一描述。但在監(jiān)控視頻描述中,某些靜止區(qū)域的描述以及運(yùn)動(dòng)目標(biāo)和靜止區(qū)域之間的關(guān)系描述會(huì)對(duì)高層語(yǔ)義信息的理解產(chǎn)生較大影響,例如,交通系統(tǒng)是一個(gè)綜合性系統(tǒng),一段交通監(jiān)控視頻中出現(xiàn)的對(duì)象既有運(yùn)動(dòng)目標(biāo)(行人和車輛),也有靜止區(qū)域(道路和交通牌等),如果能夠在中層語(yǔ)義描述中將兩者進(jìn)行區(qū)分,那么根據(jù)它們之間的關(guān)系描述以及相應(yīng)的語(yǔ)義信息,就可以更簡(jiǎn)單地判斷高層語(yǔ)義信息,圓滿地完成簡(jiǎn)單的交通事件檢測(cè)。此外,在監(jiān)控視頻中,由于靜止區(qū)域在視頻中的位置一般固定不變,而且在整個(gè)7X24小時(shí)的視頻中用戶通常更關(guān)注出現(xiàn)在某些特定區(qū)域的運(yùn)動(dòng)目標(biāo),所以可以先找到那些感興趣區(qū)域,然后對(duì)與感興趣區(qū)域相關(guān)的運(yùn)動(dòng)目標(biāo)進(jìn)行詳細(xì)描述,可以提高對(duì)高層語(yǔ)義信息理解的效率。
根據(jù)上述分析,在監(jiān)控領(lǐng)域的視頻描述中,如果沒(méi)有在對(duì)象層信息中明確定義并區(qū)分用戶感興趣的靜止區(qū)域,會(huì)給之后高層語(yǔ)義信息的判斷帶來(lái)困難。(2)視頻對(duì)象間關(guān)系描述信息冗余由于運(yùn)動(dòng)目標(biāo)之間以及運(yùn)動(dòng)目標(biāo)和靜止區(qū)域之間的空間關(guān)系是隨時(shí)間變化的,所以如果對(duì)每一幀的空間關(guān)系都進(jìn)行描述,將會(huì)造成關(guān)系描述信息的冗余,不利于海量監(jiān)控視頻信息的存儲(chǔ)、傳輸和檢索。此外,有些對(duì)象之間不具有很強(qiáng)的相關(guān)性,例如時(shí)間或空間距離過(guò)大,這些關(guān)系信息的描述不會(huì)給高層語(yǔ)義信息的理解帶來(lái)幫助,同樣導(dǎo)致關(guān)系描述信息的冗余。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有視頻描述技術(shù)的不足之處,提出了一種針對(duì)監(jiān)控視頻語(yǔ)義描述和檢測(cè)建模的改進(jìn)方案,使之能夠更好地適應(yīng)對(duì)監(jiān)控視頻的有效描述,為后 期的海量監(jiān)控視頻信息的存儲(chǔ)和檢索提供支持。本發(fā)明的一個(gè)目的是提供一種面向檢索的監(jiān)控視頻語(yǔ)義描述方法,包括如下步驟步驟一針對(duì)現(xiàn)有的視頻描述方案未定義用戶感興趣的靜止區(qū)域的問(wèn)題,在一般視頻描述系統(tǒng)的基礎(chǔ)上,將對(duì)象語(yǔ)義層的信息進(jìn)行細(xì)分,大致可分為三類(I)運(yùn)動(dòng)目標(biāo)描述;(2)靜止區(qū)域描述;(3)運(yùn)動(dòng)目標(biāo)與靜止區(qū)域之間的關(guān)系描述。這樣一來(lái),通過(guò)解釋和描述特定靜止區(qū)域的內(nèi)容以及運(yùn)動(dòng)目標(biāo)與靜止區(qū)域間的時(shí)空關(guān)系,就可以更有效地完成高層語(yǔ)義信息的理解。所述的監(jiān)控視頻描述中的靜止區(qū)域,是指圖像中寬度大于一定像素的聯(lián)通的點(diǎn)組成的圖形,在本發(fā)明中,特指在一段監(jiān)控視頻中靜止的,并且具備特定含義的背景區(qū)域,可以考慮兩種方式進(jìn)行定義(I)由計(jì)算機(jī)自動(dòng)完成,在背景圖像中按照相似性分割得到的不規(guī)則區(qū)域先提取出視頻的背景,然后利用適當(dāng)?shù)膱D像分割(邊緣檢測(cè)算法等)技術(shù),使每一個(gè)區(qū)域具有“相似”的特性,即在一個(gè)區(qū)域內(nèi)部滿足某種特征(例如紋理、顏色等)的一致性,而相鄰的不同區(qū)域間具有不同的特性。(2)通過(guò)人工標(biāo)注,指定視頻中一個(gè)固定范圍為指定區(qū)域,一般該區(qū)域是用戶重點(diǎn)關(guān)注的感興趣區(qū)域,例如銀行的柜臺(tái)前、景區(qū)的出入口、超市的收銀臺(tái)和交通路口的斑馬線
坐寸ο由于第一種方法的分割技術(shù)要求較高,所以本發(fā)明可以采用第二種較為簡(jiǎn)單的區(qū)域定義方法,可以利用一個(gè)坐標(biāo)值確定且包含關(guān)注區(qū)域的最小矩形框進(jìn)行標(biāo)注。步驟二 針對(duì)現(xiàn)有視頻描述中對(duì)象間關(guān)系描述信息冗余的問(wèn)題,定義了時(shí)間維上的第一級(jí)空間關(guān)系,并在此基礎(chǔ)上導(dǎo)出了時(shí)間維上的第二級(jí)空間關(guān)系,只對(duì)空間關(guān)系的變化情況進(jìn)行描述,減少了監(jiān)控視頻描述流的信息。所述的時(shí)間維上的第一級(jí)空間關(guān)系,是指變化的空間關(guān)系在時(shí)間維上的分段描述,而不再針對(duì)每一幀的空間關(guān)系進(jìn)行描述。
所述的時(shí)間維上的第二級(jí)空間關(guān)系,是指直接對(duì)空間關(guān)系隨時(shí)間的變化情況進(jìn)行描述。步驟三根據(jù)步驟一和步驟二中對(duì)現(xiàn)有視頻描述方案的改進(jìn),參考MPEG-7標(biāo)準(zhǔn)中描述定義語(yǔ)言的規(guī)范表示,對(duì)輸入測(cè)試視頻序列進(jìn)行了固定格式的結(jié)構(gòu)化描述,并生成描述文檔,即相應(yīng)的視頻描述流信息。所述的測(cè)試視頻序列,是指不同應(yīng)用場(chǎng)景的監(jiān)控視頻(如銀行、交通路口等)以及PETS等國(guó)際上通用的測(cè)試序列。所述的描述文檔,是指包含視頻對(duì)象層語(yǔ)義信息的描述流,采用XML的文檔格式標(biāo)準(zhǔn),可以直觀的描述視頻中用戶關(guān)注的目標(biāo)信息。本發(fā)明另一目的是提供一種監(jiān)控視頻事件檢測(cè)建模方法,在上述面向檢索的監(jiān)控視頻語(yǔ)義描述方法基礎(chǔ)上,即在步驟三之后進(jìn)一步進(jìn)行步驟四的處理
步驟四,利用事件解析的相關(guān)知識(shí),基于描述流中的中層語(yǔ)義信息實(shí)現(xiàn)高層語(yǔ)義信息的檢測(cè)建模。所述的描述流中的中層語(yǔ)義信息,是指包括視頻中對(duì)象的語(yǔ)義特征、物理特征以及對(duì)象之間的關(guān)系等,也稱作對(duì)象層信息。所述的高層語(yǔ)義信息,是指在對(duì)中層語(yǔ)義信息進(jìn)行各種處理和分析的基礎(chǔ)上,通過(guò)建立一定的映射和推理規(guī)則,應(yīng)用自然語(yǔ)言的概念,選擇一組運(yùn)動(dòng)詞語(yǔ)或短句來(lái)描述視頻中對(duì)象的行為,即通常所說(shuō)的“事件”,因而也可以稱作事件層信息。所述的事件解析過(guò)程,是指首先根據(jù)事件解析復(fù)雜度的不同,將其分為元事件和復(fù)雜事件兩類。元事件是指視頻中一個(gè)運(yùn)動(dòng)目標(biāo)在某一時(shí)間段內(nèi)發(fā)生的單一行為,可以由一系列對(duì)象特征以及對(duì)象間關(guān)系的變化情況來(lái)描述,而復(fù)雜事件則需要分解為符合一定邏輯關(guān)系和時(shí)間關(guān)系的若干個(gè)元事件,而不能直接利用描述流中的對(duì)象層信息。任何一個(gè)復(fù)雜事件,只要找到合理有效的推理映射規(guī)則,就能夠用相應(yīng)的對(duì)象層信息和相關(guān)元事件來(lái)進(jìn)行解析表示。本發(fā)明根據(jù)當(dāng)前基于MPEG-7的視頻描述方案在監(jiān)控領(lǐng)域的優(yōu)點(diǎn)和不足,針對(duì)其中未定義用戶感興趣的靜止區(qū)域的問(wèn)題,將視頻對(duì)象細(xì)分為運(yùn)動(dòng)目標(biāo)和靜止區(qū)域進(jìn)行描述,同時(shí)為了解決描述流中對(duì)象間關(guān)系描述的信息冗余問(wèn)題,定義了時(shí)間維上的第二級(jí)空間關(guān)系來(lái)描述空間關(guān)系隨時(shí)間的變化情況。最后通過(guò)事件的檢測(cè)建模,證明了基于所改進(jìn)的監(jiān)控視頻語(yǔ)義描述方案得到監(jiān)控視頻的描述流,能夠很好地支持高層語(yǔ)義信息的理解。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果(I)針對(duì)現(xiàn)有視頻描述中沒(méi)有定義用戶感興趣的靜態(tài)區(qū)域的問(wèn)題,結(jié)合監(jiān)控視頻應(yīng)用場(chǎng)景的特殊需求,將視頻對(duì)象細(xì)分為運(yùn)動(dòng)目標(biāo)和靜止區(qū)域進(jìn)行描述,有利于高層語(yǔ)義信息的解析。(2)針對(duì)現(xiàn)有視頻描述中對(duì)象間關(guān)系描述信息冗余的問(wèn)題,定義了時(shí)間維上的第一級(jí)空間關(guān)系,并在此基礎(chǔ)上導(dǎo)出了時(shí)間維上的第二級(jí)空間關(guān)系,只對(duì)空間關(guān)系的變化情況進(jìn)行描述,大大減少了監(jiān)控視頻描述的信息。(3)利用監(jiān)控視頻對(duì)象層語(yǔ)義信息到高層語(yǔ)義信息的映射關(guān)系,完成了事件的檢測(cè)建模,為視頻中感興趣事件的檢索提供支持。
通過(guò)閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯圖I本發(fā)明對(duì)現(xiàn)有監(jiān)控視頻描述系統(tǒng)進(jìn)行改進(jìn)后的系統(tǒng)框架圖;圖2本發(fā)明改進(jìn)后的視頻對(duì)象描述方案;圖3本發(fā)明基于改進(jìn)后的監(jiān)控視頻描述方案得到的描述流文檔。
具體實(shí)施例方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明 的保護(hù)范圍。本實(shí)施例針對(duì)交通監(jiān)控視頻中的典型違章事件,采用本發(fā)明中所提出的改進(jìn)的監(jiān)控視頻語(yǔ)義描述方案生成視頻描述流信息,最終基于描述流中的對(duì)象層語(yǔ)義信息實(shí)現(xiàn)了視頻中感興趣事件的檢測(cè)建模。本實(shí)施例,以Visual Studio2010作為測(cè)試平臺(tái),并使用openCV、tinyxml等工具包,可用于各種交通監(jiān)控場(chǎng)景,如十字路口、高速公路等。本實(shí)施例涉及交通監(jiān)控視頻描述流信息的生成以及違章事件的檢測(cè)建模方法,如圖I所示,包括如下具體步驟步驟一,從采集到的監(jiān)控視頻中提取出用戶所需的關(guān)鍵信息,首先在監(jiān)控視頻采集器中分離出視頻的元數(shù)據(jù)信息,然后對(duì)余下的視頻數(shù)據(jù)進(jìn)行特征提取,得到視頻的底層特征信息。所述的視頻元數(shù)據(jù)信息,是指與監(jiān)控視頻內(nèi)容本身無(wú)關(guān)的信息,它不能通過(guò)分析視頻內(nèi)容獲得,往往通過(guò)人工的方式加以標(biāo)注。元數(shù)據(jù)信息在交通監(jiān)控視頻描述中十分重要,因此,可以對(duì)MPEG-7描述方案中的元數(shù)據(jù)信息進(jìn)行擴(kuò)展,將其分為視頻編號(hào)、視頻鏈接地址、監(jiān)控地點(diǎn)、監(jiān)控時(shí)間、視頻編碼格式和應(yīng)用場(chǎng)景等,同時(shí)結(jié)合元數(shù)據(jù)信息和高層語(yǔ)義信息之間的映射關(guān)系,可以快速完成高層語(yǔ)義信息的理解。所述的視頻底層特征信息,是指視頻的顏色、形狀、紋理以及運(yùn)動(dòng)等視覺(jué)特征及其組合。步驟二,利用視頻的底層特征信息,通過(guò)識(shí)別和邏輯推理確定視頻內(nèi)容中的對(duì)象和類別及對(duì)象間的拓?fù)潢P(guān)系,即中層語(yǔ)義信息,包括運(yùn)動(dòng)目標(biāo)的描述信息、靜止區(qū)域的描述信息以及運(yùn)動(dòng)目標(biāo)和靜止區(qū)域之間關(guān)系的描述信息。所述交通監(jiān)控視頻中的運(yùn)動(dòng)目標(biāo),是指在一段交通視頻中位置發(fā)生改變的目標(biāo),如行人、車輛等。所述運(yùn)動(dòng)目標(biāo)的描述信息,如圖2所示,是指運(yùn)動(dòng)目標(biāo)的物理特征描述和語(yǔ)義特征描述以及運(yùn)動(dòng)目標(biāo)之間的關(guān)系描述,運(yùn)動(dòng)目標(biāo)的物理特征包括顏色、紋理、形狀、位置、運(yùn)動(dòng)以及時(shí)間等,語(yǔ)義特征包括類別和文本注釋等,而運(yùn)動(dòng)目標(biāo)之間的關(guān)系描述包括空間關(guān)系、時(shí)間關(guān)系和語(yǔ)義關(guān)系。所述交通監(jiān)控視頻中的靜止區(qū)域,是指用戶關(guān)注的某些背景區(qū)域,如斑馬線、紅綠燈以及交通標(biāo)識(shí)等。
所述靜止區(qū)域的描述信息,如圖2所示,是指靜止區(qū)域的物理特征描述和語(yǔ)義特征描述以及靜止區(qū)域之間的關(guān)系描述,與運(yùn)動(dòng)目標(biāo)描述不同的是,靜止區(qū)域的物理特征不包括時(shí)間特征和運(yùn)動(dòng)特征,并且靜止區(qū)域之間的關(guān)系只定義了空間關(guān)系和語(yǔ)義關(guān)系。所述運(yùn)動(dòng)目標(biāo)和靜止區(qū)域之間的關(guān)系描述,是指一段交通視頻中運(yùn)動(dòng)目標(biāo)和靜止區(qū)域之間的空間位置關(guān)系。步驟三,根據(jù)本發(fā)明所提出的改進(jìn)的視頻對(duì)象描述方案,得到一段交通監(jiān)控視頻的XML描述文檔,即視頻描述流信息。所述的交通監(jiān)控視頻描述文檔,如圖3所示,是指視頻元數(shù)據(jù)描述信息和視頻內(nèi)容描述信息,其中視頻內(nèi)容的描述信息對(duì)該段視頻中出現(xiàn)的運(yùn)動(dòng)目標(biāo)和用戶感興趣的靜止區(qū)域進(jìn)行了描述,同時(shí)還包括視頻中對(duì)象間關(guān)系的描述信息。步驟四,針對(duì)交通視頻中典型違章事件的檢測(cè),利用事件解析的相關(guān)知識(shí),基于描述流中的中層語(yǔ)義信息實(shí)現(xiàn)高層語(yǔ)義信息的檢測(cè)建模。所述交通視頻中的典型違章事件,是指在一段交通監(jiān)控視頻中用戶關(guān)注的違章事件,如闖紅燈、非法左轉(zhuǎn)、非法停車等。所述的事件解析過(guò)程,是指首先根據(jù)事件解析復(fù)雜度的不同,將其分為元事件和復(fù)雜事件兩類。元事件是指視頻中一個(gè)運(yùn)動(dòng)目標(biāo)在某一時(shí)間段內(nèi)發(fā)生的單一行為,可以由一系列對(duì)象特征以及對(duì)象間關(guān)系的變化情況來(lái)描述,而復(fù)雜事件則需要分解為符合一定邏輯關(guān)系和時(shí)間關(guān)系的若干個(gè)元事件,而不能直接利用描述流中的對(duì)象層信息。任何一個(gè)復(fù)雜事件,只要找到合理有效的推理映射規(guī)則,就能夠用相應(yīng)的對(duì)象層信息和相關(guān)元事件來(lái)進(jìn)行解析表示。以常見的“車輛非法停車”事件檢測(cè)建模為例,該事件涉及到的對(duì)象包括車輛(運(yùn)動(dòng)目標(biāo))和道路(靜止區(qū)域),設(shè)定object I為車輛,region I為道路區(qū)域(注釋表明禁止停車),則“車輛非法停車”事件可以解析得到的對(duì)象層信息如下表所示。因此根據(jù)上述解析過(guò)程,如果從一段交通監(jiān)控視頻描述流信息中,檢索得到道路的語(yǔ)義特征為“不能停車”,并且車輛和道路之間的時(shí)空關(guān)系表示為“車輛停在道路中”,則可以判斷發(fā)生了“車輛非法停車”事件。
權(quán)利要求
1.一種面向檢索的監(jiān)控視頻語(yǔ)義描述方法,其特征在于,包括如下步驟 步驟一,針對(duì)現(xiàn)有視頻描述中沒(méi)有定義用戶感興趣的靜態(tài)區(qū)域的問(wèn)題,結(jié)合監(jiān)控視頻應(yīng)用場(chǎng)景的特殊需求,將視頻對(duì)象細(xì)分為運(yùn)動(dòng)目標(biāo)和靜止區(qū)域進(jìn)行描述; 步驟二,針對(duì)現(xiàn)有視頻描述中對(duì)象間關(guān)系描述信息冗余的問(wèn)題,定義了時(shí)間維上的第一級(jí)空間關(guān)系,并在此基礎(chǔ)上導(dǎo)出了時(shí)間維上的第二級(jí)空間關(guān)系,只對(duì)空間關(guān)系的變化情況進(jìn)行描述; 步驟三,根據(jù)上述步驟一和步驟二的監(jiān)控視頻語(yǔ)義描述方案,參考MPEG-7標(biāo)準(zhǔn)中描述定義語(yǔ)言的規(guī)范表示,對(duì)輸入測(cè)試視頻序列進(jìn)行了固定格式的結(jié)構(gòu)化描述,并生成描述文檔,即相應(yīng)的視頻描述流信息。
2.根據(jù)權(quán)利要求I所述的面向檢索的監(jiān)控視頻語(yǔ)義描述方法,其特征是,所述的用戶感興趣的靜止區(qū)域描述,是指圖像中寬度大于一定像素的聯(lián)通的點(diǎn)組成的圖形,特指在一段監(jiān)控視頻中靜止的,并且具備特定含義的背景區(qū)域,采用以下兩種方式進(jìn)行定義 (1)由計(jì)算機(jī)自動(dòng)完成,在背景圖像中按照相似性分割得到的不規(guī)則區(qū)域先提取出視頻的背景,然后利用圖像分割技術(shù),使每一個(gè)區(qū)域具有“相似”的特性,即在一個(gè)區(qū)域內(nèi)部滿足某種特征的一致性,而相鄰的不同區(qū)域間具有不同的特性; (2)通過(guò)人工標(biāo)注,指定視頻中一個(gè)固定范圍為指定區(qū)域,該區(qū)域是用戶重點(diǎn)關(guān)注的感興趣區(qū)域。
3.根據(jù)權(quán)利要求2所述的面向檢索的監(jiān)控視頻語(yǔ)義描述方法,其特征是,所述(2),是指利用一個(gè)坐標(biāo)值確定且包含關(guān)注區(qū)域的最小矩形框進(jìn)行標(biāo)注。
4.根據(jù)權(quán)利要求I所述的面向檢索的監(jiān)控視頻語(yǔ)義描述方法,其特征是,所述對(duì)象間關(guān)系描述信息冗余問(wèn)題,具體為運(yùn)動(dòng)目標(biāo)之間以及運(yùn)動(dòng)目標(biāo)和靜止區(qū)域之間的空間關(guān)系是隨時(shí)間變化的,如果對(duì)每一幀的空間關(guān)系都進(jìn)行描述,將會(huì)造成關(guān)系描述信息的冗余,不利于海量監(jiān)控視頻信息的存儲(chǔ)、傳輸和檢索;此外,有些對(duì)象之間不具有很強(qiáng)的相關(guān)性,這些關(guān)系信息的描述不會(huì)給高層語(yǔ)義信息的理解帶來(lái)幫助,同樣導(dǎo)致關(guān)系描述信息的冗余。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的面向檢索的監(jiān)控視頻語(yǔ)義描述方法,其特征是,所述時(shí)間維上的第一級(jí)空間關(guān)系,是指變化的空間關(guān)系在時(shí)間維上的分段描述,而不再針對(duì)每一幀的空間關(guān)系進(jìn)行描述。
6.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的面向檢索的監(jiān)控視頻語(yǔ)義描述方法,其特征是,所述時(shí)間維上的第二級(jí)空間關(guān)系,是指直接對(duì)空間關(guān)系隨時(shí)間的變化情況進(jìn)行描述。
7.一種采用權(quán)利要求1-4所述方法的監(jiān)控視頻事件檢測(cè)建模方法,其特征在于,包括如下步驟 步驟一,針對(duì)現(xiàn)有視頻描述中沒(méi)有定義用戶感興趣的靜態(tài)區(qū)域的問(wèn)題,結(jié)合監(jiān)控視頻應(yīng)用場(chǎng)景的特殊需求,將視頻對(duì)象細(xì)分為運(yùn)動(dòng)目標(biāo)和靜止區(qū)域進(jìn)行描述; 步驟二,針對(duì)現(xiàn)有視頻描述中對(duì)象間關(guān)系描述信息冗余的問(wèn)題,定義了時(shí)間維上的第一級(jí)空間關(guān)系,并在此基礎(chǔ)上導(dǎo)出了時(shí)間維上的第二級(jí)空間關(guān)系,只對(duì)空間關(guān)系的變化情況進(jìn)行描述; 步驟三,根據(jù)上述步驟一和步驟二的監(jiān)控視頻語(yǔ)義描述方案,參考MPEG-7標(biāo)準(zhǔn)中描述定義語(yǔ)言的規(guī)范表示,對(duì)輸入測(cè)試視頻序列進(jìn)行了固定格式的結(jié)構(gòu)化描述,并生成描述文檔,即相應(yīng)的視頻描述流信息;步驟四,利用事件解析的相關(guān)知識(shí),基于描述流中的中層語(yǔ)義信息實(shí)現(xiàn)高層語(yǔ)義信息的檢測(cè)建模。
8.根 據(jù)權(quán)利要求7所述的監(jiān)控視頻事件檢測(cè)建模方法,其特征是,所述事件解析的過(guò)程,是指首先根據(jù)事件解析復(fù)雜度的不同,將其分為元事件和復(fù)雜事件兩類,元事件是指視頻中一個(gè)運(yùn)動(dòng)目標(biāo)在某一時(shí)間段內(nèi)發(fā)生的單一行為,由一系列對(duì)象特征以及對(duì)象間關(guān)系的變化情況來(lái)描述;而復(fù)雜事件則需要分解為符合一定邏輯關(guān)系和時(shí)間關(guān)系的若干個(gè)元事件,不能直接利用描述流中的對(duì)象層信息,任何一個(gè)復(fù)雜事件,只要找到合理有效的推理映射規(guī)則,就能夠用相應(yīng)的對(duì)象層信息和相關(guān)元事件來(lái)進(jìn)行解析表示。
全文摘要
本發(fā)明公開一種面向檢索的監(jiān)控視頻語(yǔ)義描述和檢測(cè)建模方法,所述方法為首先分析了當(dāng)前基于MPEG-7的視頻描述方案在監(jiān)控領(lǐng)域的優(yōu)點(diǎn)和不足,針對(duì)其中未定義用戶感興趣的靜止區(qū)域的問(wèn)題,將視頻對(duì)象細(xì)分為運(yùn)動(dòng)目標(biāo)和靜止區(qū)域進(jìn)行描述,同時(shí)為了解決描述流中對(duì)象間關(guān)系描述的信息冗余問(wèn)題,定義了時(shí)間維上的第二級(jí)空間關(guān)系來(lái)描述空間關(guān)系隨時(shí)間的變化情況。最后通過(guò)對(duì)事件進(jìn)行檢測(cè)建模,證明了基于所改進(jìn)的監(jiān)控視頻語(yǔ)義描述方案得到監(jiān)控視頻的描述流,能夠很好地支持高層語(yǔ)義信息的理解。
文檔編號(hào)G06K9/00GK102880692SQ20121034962
公開日2013年1月16日 申請(qǐng)日期2012年9月19日 優(yōu)先權(quán)日2012年9月19日
發(fā)明者張重陽(yáng), 丁正彥, 鄭世寶 申請(qǐng)人:上海交通大學(xué)