專利名稱:一種視頻語義網(wǎng)關的制作方法
技術領域:
本發(fā)明涉及視頻和安防監(jiān)控領域,具體涉及視頻分析、存儲和檢索。
背景技術:
視頻監(jiān)控系統(tǒng)的主要功能是對各種現(xiàn)場實況進行監(jiān)視。它使管理人員在控制室中能觀察到所有重要地點的情況,如在出入口、主要通道、車庫等重要場所安裝攝像機,將監(jiān)測區(qū)的情況以圖像方式實時傳送到管理中心,值班人員通過電視墻可以隨時了解這些重要場所的情況。其中,視頻監(jiān)控系統(tǒng)需要實現(xiàn)如下要求實施監(jiān)控的部位包括站點內設備、電池、 門、站點外部的出入通道等;監(jiān)視及錄像系統(tǒng)要做到“看得清、記得住”,即監(jiān)控及錄像回放圖象清晰,所監(jiān)控部位特別是重點部位要做到M小時錄像;控制系統(tǒng)要能對前端云臺及鏡頭進行遙控,對圖象進行自動或手動切換;室外監(jiān)控點必須具備防拆、防破壞功能,并考慮防雷防風措施;具備報警聯(lián)動、夜間燈光聯(lián)動功能。報警時監(jiān)控系統(tǒng)能自動切換到相關攝像點并使錄像系統(tǒng)傳入實時錄像。隨著計算機網(wǎng)絡和多媒體技術的發(fā)展,人們希望能方便地檢索通過視頻監(jiān)控獲取的視頻內容,而不關心視頻信息的格式和視頻信息源。人們習慣使用高層語義概念判斷相似性,但是現(xiàn)有的視頻內容檢索大多是非語義層面的。由于低層特征和高層語義概念之間存在“語義鴻溝(Semantic Gap) ”,因此,目前還不能在同一個層面,通過視頻網(wǎng)關實現(xiàn)網(wǎng)絡上和視頻庫中的視頻監(jiān)控內容的有效檢索。
發(fā)明內容
本發(fā)明通過對視頻內容的低層信息分析、理解、獲取其三層語義信息(感覺語義、 結構語義、概念語義),分層研究,逐步完善,試圖構造一種基于三層語義的視頻檢索模型, 將這種檢索模型在視頻網(wǎng)關上實現(xiàn)。通過視頻語義網(wǎng)關,就能夠實現(xiàn)在網(wǎng)絡上和視頻庫中的基于內容的檢索,而不需要資源提供者提供基于內容語義的檢索接口。為了實現(xiàn)上述目的,提供了一種視頻語義網(wǎng)關,包括視頻語義分析單元,建立語義索引池,對視頻內容的低層信息進行分析理解,獲取感覺語義、結構語義、概念語義三層語義信息,并對這三層語義信息進行分層研究和完善, 構造基于這三層語義信息的視頻檢索模型,以建立合適的視頻或視頻片段的索引,并進行語義標注;用戶請求注冊單元,將用戶提交的內容數(shù)據(jù)檢索申請,注冊為語義請求;客戶請求包裝單元,將用戶請求注冊單元所注冊的語義請求進行包裝,以轉換為基于內容的語義信息;對象訪問適配單元,根據(jù)客戶請求包裝單元轉換獲得的語義信息,在語義索引池中進行檢索適配,尋找合適的視頻信息; 服務調用映射單元,基于語義請求信息,通過和對象訪問適配單元交互,來進行語義請求服務調用;SIP協(xié)議適配單元,基于SIP協(xié)議來進行用戶檢索請求消息發(fā)送。其中,視頻語義分析單元在對視頻內容的低層信息進行分析理解,獲取感覺語義、 結構語義、概念語義三層語義信息時,將相關語義信息定義為六元組,即vs = {C,A, R,I, H, Μ},其中C表示概念集合,A表示概念的屬性集合,R表示概念之間的非層次二元關系集合,I代表C中各概念的實例集,H為表示概念層次關系的二元偏序關系集合,M表示公理集合,用于約束概念、關系、函數(shù)的一階邏輯謂詞集合。在構造基于三層語義信息的視頻檢索模型時,采用正交不可分小波變換,取其逼近信息重建信息幀,用二值掩膜Mask圖像方法從重建幀中構建基本背景,用非均勻噪聲的多幀聯(lián)合方法對基本背景進行去噪,并采用互信息檢測相鄰變化的狀況。感覺語義的研究包括顏色語義、紋理語義、形狀語義、運動語義。顏色語義采用顏色空間變換,KNN聚類,直方圖,顏色距離度量獲取其語義;紋理語義采用頻域特征、灰度共生矩陣、紋理基元,基元排列、紋理粒度、紋理方向獲取基語義;形狀語義采用CANNY邊緣檢測方法,通過自適應調整其高閾值和低閾值,獲取最佳邊緣,然后根據(jù)形狀描述子的相似度比較獲取形狀語義;運動語義根據(jù)幀間相關性,作運動檢測,獲取目標運動的速度、軌跡和形跡,獲取其運動語義。結構語義的研究引入視覺知識,研究感覺語義之間的結構關系。概念語義的研究從概念名稱、特征屬性、語義鄰居三個方面對語義關系進行概念性描述。對于非MPEG4和非MPEG7編碼方案的視頻信息,采用基于時域及其變換域的信息處理,獲取視頻信息的三層語義。本發(fā)明實施例至少存在以下技術效果1)不需要資源提供者提供基于內容語義的檢索接口,而直接通過視頻語義網(wǎng)關進行網(wǎng)絡上視頻庫中的基于內容的檢索;2)提高視頻分析的可靠性和視頻檢索的速度和效率。
圖1為本發(fā)明的視頻語義網(wǎng)關體系結構。
具體實施例方式為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對具體實施例進行詳細描述。圖1為本發(fā)明實施例提供的視頻語義網(wǎng)關體系結構,該視頻語義網(wǎng)關包括視頻語義分析單元,建立語義索引池,對視頻內容的低層信息進行分析理解,獲取感覺語義、結構語義、概念語義三層語義信息,并對這三層語義信息進行分層研究和完善, 構造基于這三層語義信息的視頻檢索模型,以建立合適的視頻或視頻片段的索引,并進行語義標注;用戶請求注冊單元,將用戶提交的內容數(shù)據(jù)檢索申請,注冊為語義請求;
4
客戶請求包裝單元,將用戶請求注冊單元所注冊的語義請求進行包裝,以轉換為基于內容的語義信息;對象訪問適配單元,根據(jù)客戶請求包裝單元轉換獲得的語義信息,在語義索引池中進行檢索適配,尋找合適的視頻信息;服務調用映射單元,基于語義請求信息,通過和對象訪問適配單元交互,來進行語義請求服務調用;SIP協(xié)議適配單元,基于SIP協(xié)議來進行用戶檢索請求消息發(fā)送。其中,在視頻背景的動態(tài)建模時,采用正交不可分小波變換,取其逼近信息重建信息幀,重建幀中濾去了擾動、陰影和噪聲,用二值掩膜Mask圖像方法從重建幀中構建基本背景,用非均勻噪聲的多幀聯(lián)合方法對基本背景進行去噪,采用互信息檢測相鄰變化的狀況,如果背景是漸變,則可以采用多個背景建模圖像隨時間的加權疊加的方法更新背景。如果背景變化大或者突變,從此幀開始,背景重新建模。在進行視頻語義分析時,將相關語義信息定義為六元組VS,即VS = {C,A,R,I,H, Μ},其中C表示概念集合,A表示概念的屬性集合,R表示概念之間的非層次二元關系集合, I代表C中各概念的實例集,H為表示概念層次關系的二元偏序關系集合,M表示公理集合, 用于約束概念、關系、函數(shù)的一階邏輯謂詞集合。語義橋是源視頻內容與目標內容間實體的相似度,定義了消除對應兩實體間語義不匹配的轉化規(guī)則。建立語義橋的目標是維護和利用已經(jīng)存在映射。語義橋分為概念語義橋與屬性語義橋。語義CpC2的語義橋可定義為四元組B= {R,C1, C2,Sim(CpC2)I其中 R表示語義C1,C2之間的關系,如e,c,二, 。Sim(CnC2)為語義橋的信任度。如果語義C1, C2存在語義橋,那么他們的屬性間存在屬性語義橋,由四元組ICpCyAnA2I表示。以此,可建立屬性與語義之間的映射。將視頻語義分為三層感覺語義、結構語義、概念語義。感覺語義的研究①顏色語義采用顏色空間變換,KNN聚類,直方圖,顏色距離度量等獲取其語義。②紋理語義采用頻域特征、灰度共生矩陣、紋理基元,基元排列、紋理粒度、紋理方向等方法獲取基語義。③ 形狀語義采用CANNY邊緣檢測方法,通過自適應調整其高閾值和低閾值,獲取最佳邊緣,然后根據(jù)形狀描述子的相似度比較獲取形狀語義。④運動語義可以根據(jù)幀間相關性,作運動檢測,獲取目標運動的速度、軌跡和形跡,獲取其運動語義。結構語義的研究引入視覺知識, 研究感覺語義之間的結構關系,簡化復雜的算法,提高算法效率。概念語義的研究從概念名稱、特征屬性、語義鄰居三個方面對語義關系進行概念性描述。在進行視頻檢索時,當視頻語義網(wǎng)關接收到基于內容語義的檢索申請時,對于非MPEG4和非MPEG7編碼方案的視頻信息采用基于時域及其變換域的信息處理,獲取視頻信息的三層語義,在語義級進行相似度比較,符合要求的內容將該數(shù)據(jù)包的備份存放在 VG-buffer中,并向用戶發(fā)送該數(shù)據(jù)包,當用戶返回真實應答(RealAck),表示發(fā)送成功,否則,視頻語義網(wǎng)關將重傳丟失的數(shù)據(jù)包。若用戶請求池還有相同的請求,轉發(fā)該數(shù)據(jù)包,否則,刪除該數(shù)據(jù)包。在網(wǎng)關建立基于內容語義的視頻或視頻片斷索引,并能動態(tài)更新。根據(jù)語義請求, 網(wǎng)關在實現(xiàn)基于內容語義后,在索引池中建立視頻或視頻片斷的索引,并標注其語義,便于下次的快速檢索,因此,檢索的次數(shù)越多,索引池的索引越多,檢索的速度會越來越快,因為,到后來基于視頻內容的語義檢索變成了在索引池中的標注檢索。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。
權利要求
1.一種視頻語義網(wǎng)關,包括視頻語義分析單元,建立語義索引池,對視頻內容的低層信息進行分析理解,獲取感覺語義、結構語義、概念語義三層語義信息,并對這三層語義信息進行分層研究和完善,構造基于這三層語義信息的視頻檢索模型,以建立合適的視頻或視頻片段的索引,并進行語義標注;用戶請求注冊單元,將用戶提交的內容數(shù)據(jù)檢索申請,注冊為語義請求;客戶請求包裝單元,將用戶請求注冊單元所注冊的語義請求進行包裝,以轉換為基于內容的語義信息;對象訪問適配單元,根據(jù)客戶請求包裝單元轉換獲得的語義信息,在語義索引池中進行檢索適配,尋找合適的視頻信息;服務調用映射單元,基于語義請求信息,通過和對象訪問適配單元交互,來進行語義請求服務調用。
2.根據(jù)權利要求1所述的視頻語義網(wǎng)關,其特征在于,還包括SIP協(xié)議適配單元,基于 SIP協(xié)議來進行用戶檢索請求消息發(fā)送。
3.根據(jù)權利要求1所述的視頻語義網(wǎng)關,其特征在于,視頻語義分析單元在對視頻內容的低層信息進行分析理解,獲取感覺語義、結構語義、概念語義三層語義信息時,將相關語義信息定義為六元組,即VS = {C, A, R, I,H, M},其中C表示概念集合,A表示概念的屬性集合,R表示概念之間的非層次二元關系集合, I代表C中各概念的實例集,H為表示概念層次關系的二元偏序關系集合,M表示公理集合, 用于約束概念、關系、函數(shù)的一階邏輯謂詞集合。
4.根據(jù)權利要求1所述的視頻語義網(wǎng)關,其特征在于,在構造基于三層語義信息的視頻檢索模型時,采用正交不可分小波變換,取其逼近信息重建信息幀,用二值掩膜Mask圖像方法從重建幀中構建基本背景,用非均勻噪聲的多幀聯(lián)合方法對基本背景進行去噪,并采用互信息檢測相鄰變化的狀況。
5.根據(jù)權利要求1所述的視頻語義網(wǎng)關,其特征在于,感覺語義的研究包括顏色語義、 紋理語義、形狀語義、運動語義。
6.根據(jù)權利要求5所述的視頻語義網(wǎng)關,其特征在于,顏色語義采用顏色空間變換, KNN聚類,直方圖,顏色距離度量獲取其語義;紋理語義采用頻域特征、灰度共生矩陣、紋理基元,基元排列、紋理粒度、紋理方向獲取其語義;形狀語義采用CANNY邊緣檢測方法,通過自適應調整其高閾值和低閾值,獲取最佳邊緣,然后根據(jù)形狀描述子的相似度比較獲取形狀語義;運動語義根據(jù)幀間相關性,作運動檢測,獲取目標運動的速度、軌跡和形跡,獲取其運動語義。
7.根據(jù)權利要求1所述的視頻語義網(wǎng)關,其特征在于,結構語義的研究引入視覺知識, 研究感覺語義之間的結構關系。
8.根據(jù)權利要求1所述的視頻語義網(wǎng)關,其特征在于,概念語義的研究從概念名稱、特征屬性、語義鄰居三個方面對語義關系進行概念性描述。
9.根據(jù)權利要求1所述的視頻語義網(wǎng)關,其特征在于,對于非MPEG4和非MPEG7編碼方案的視頻信息采用基于時域及其變換域的信息處理,獲取視頻信息的三層語義。
全文摘要
本發(fā)明提供一種視頻語義網(wǎng)關,包括通過對視頻內容的低層信息分析、理解、獲取感覺語義、結構語義、概念語義這三層語義信息,分層研究,逐步完善,構造一種基于三層語義的視頻檢索模型,并將該檢索模型在視頻網(wǎng)關上實現(xiàn)。通過視頻語義網(wǎng)關,能夠實現(xiàn)在網(wǎng)絡上和視頻庫中的基于內容的檢索,而不需要資源提供者提供基于內容語義的檢索接口。本發(fā)明能夠提高視頻分析的可靠性和視頻檢索的速度和效率。
文檔編號G06F17/30GK102402612SQ201110428828
公開日2012年4月4日 申請日期2011年12月20日 優(yōu)先權日2011年12月20日
發(fā)明者江枚元 申請人:廣州中長康達信息技術有限公司