基于視覺(jué)屬性的社會(huì)事件識(shí)別方法
【專利摘要】本發(fā)明公開(kāi)了一種基于視覺(jué)屬性的社會(huì)事件識(shí)別方法,該方法包括:步驟101,從訓(xùn)練事件視頻集中的視頻中提取視覺(jué)屬性,所述視覺(jué)屬性用于描述與視頻對(duì)應(yīng)的事件相關(guān)的屬性;其中,所述訓(xùn)練事件視頻中的每個(gè)視頻對(duì)應(yīng)一個(gè)已知事件類別;步驟102,基于提升的迭代模型,訓(xùn)練得到視覺(jué)屬性分類器,并利用所述視覺(jué)屬性分類器訓(xùn)練得到多個(gè)事件弱分類器;步驟103,基于上述得到的視覺(jué)屬性分類器以及多個(gè)事件弱分類器對(duì)待分類事件視頻進(jìn)行分類。本發(fā)明針對(duì)傳統(tǒng)的基于屬性的視頻事件識(shí)別方法中需要大量人工給定的語(yǔ)義標(biāo)簽問(wèn)題,提出了自動(dòng)的視覺(jué)屬性挖掘方法;另外針對(duì)視頻事件識(shí)別中視覺(jué)屬性復(fù)雜多變的問(wèn)題,本發(fā)明對(duì)同一種視覺(jué)屬性建立了多種特征表示。
【專利說(shuō)明】基于視覺(jué)屬性的社會(huì)事件識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于社會(huì)媒體(social media)挖掘和視頻分析領(lǐng)域,具體涉及基于圖像分 享網(wǎng)站和視頻分享網(wǎng)站的視覺(jué)屬性的社會(huì)事件的識(shí)別方法。
【背景技術(shù)】
[0002] 隨著手機(jī)、數(shù)字?jǐn)z像頭以及Flickr、Youtube等社交媒體的不斷普及,人們變得更 容易從網(wǎng)絡(luò)上獲取和分享信息。這使得發(fā)生在人們周圍的社會(huì)事件以更快的速度傳播并隨 之產(chǎn)生了大量與事件相關(guān)的不同模態(tài)的媒體數(shù)據(jù),例如圖像、文本和視頻。根據(jù)大量多媒體 數(shù)據(jù)來(lái)理解特定社會(huì)事件可以更好地幫助人們?yōu)g覽、搜索和監(jiān)控社會(huì)事件。但由于社會(huì)事 件的復(fù)雜多變,如何有效地挖掘媒體數(shù)據(jù)來(lái)理解社會(huì)事件仍然是一個(gè)難題。
[0003] 近年來(lái),已有大量利用各種媒體數(shù)據(jù)的社會(huì)事件識(shí)別和檢測(cè)的方法被提出。針對(duì) MediaEval公布的多媒體事件檢測(cè)問(wèn)題,圖像的文本描述,標(biāo)簽、地理位置以及時(shí)間標(biāo)記等 數(shù)據(jù)被廣泛用于事件的理解與檢測(cè)。這些方法所關(guān)注的社會(huì)事件是發(fā)生在特定時(shí)間、地點(diǎn) 的一類事件,例如"發(fā)生在西班牙巴塞羅拉和意大利羅馬的所有足球事件"。還有一些方法 借助社交網(wǎng)站、博客、維基以及搜索引擎中的大量文本信息來(lái)挖掘更為抽象的社會(huì)事件,例 如"拉里?佩奇和謝爾蓋·布林在1998年創(chuàng)立了谷歌公司"。除此之外,還有大量的方法被 提出用于檢測(cè)和識(shí)別視頻中的事件。例如在多媒體事件檢測(cè)(MED)數(shù)據(jù)集中,視頻事件主 要是關(guān)于"生日聚會(huì)","做蛋糕"以及"攀巖"等。由于包含在圖像和視頻中的視覺(jué)語(yǔ)義信 息不易被提取和利用,目前的事件識(shí)別方法難以在視頻事件中獲得好的效果。為了改進(jìn)對(duì) 視頻的社會(huì)事件的理解和識(shí)別,目前有大量的方法依賴于屬性來(lái)描述視頻中的事件。
[0004] 目前基于屬性的視頻事件識(shí)別方法可以分為三個(gè)主要步驟。(1)人工標(biāo)定視覺(jué)樣 本(圖像或視頻)的屬性,這些屬性是人為選定的最能體現(xiàn)事件特征的語(yǔ)義信息。(2)利用 包含屬性標(biāo)記的視頻或圖像樣本訓(xùn)練屬性分類器。(3)利用屬性分類器進(jìn)一步得到視頻的 屬性描述特征向量。最終將根據(jù)視頻的屬性描述特征向量來(lái)進(jìn)行事件分類。盡管目前基于 屬性的方法可以得到好的效果,但仍然存在大量問(wèn)題。一方面是標(biāo)定屬性需要耗費(fèi)大量人 力成本。另一方面是給定屬性對(duì)應(yīng)的單個(gè)分類器不足以描述事件對(duì)應(yīng)的復(fù)雜多變的視覺(jué)外 觀。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是通過(guò)自動(dòng)挖掘視覺(jué)屬性,得到對(duì)視頻中的事件更有效的特征描述 方式,進(jìn)而可以得到更好的分類效果。針對(duì)事件復(fù)雜多變的視覺(jué)外觀,用多種特征來(lái)描述給 定的視覺(jué)屬性,可以更全面的表達(dá)事件的視覺(jué)外觀。
[0006] 為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于視覺(jué)屬性的社會(huì)事件識(shí)別方法,該方法包 括以下步驟:
[0007] 步驟101,從訓(xùn)練事件視頻集中的視頻中提取視覺(jué)屬性,所述視覺(jué)屬性用于描述與 視頻對(duì)應(yīng)的事件相關(guān)的屬性;其中,所述訓(xùn)練事件視頻中的每個(gè)視頻對(duì)應(yīng)一個(gè)已知事件類 別;
[0008] 步驟102,基于提升的迭代模型,訓(xùn)練得到視覺(jué)屬性分類器,并利用所述視覺(jué)屬性 分類器訓(xùn)練得到多個(gè)事件弱分類器;
[0009] 步驟103,基于上述得到的視覺(jué)屬性分類器以及多個(gè)事件弱分類器對(duì)待分類事件 視頻進(jìn)行分類。
[0010] 本發(fā)明的有益效果:本發(fā)明通過(guò)自動(dòng)挖掘視覺(jué)屬性,減少了傳統(tǒng)基于視覺(jué)屬性的 事件識(shí)別方法中需要人工標(biāo)定屬性的耗費(fèi)?;谔嵘亩嗵卣鲗傩员硎痉椒梢杂行У乇?示視頻事件中復(fù)雜多變的視覺(jué)外觀。
【專利附圖】
【附圖說(shuō)明】
[0011] 圖1是本發(fā)明基于視覺(jué)屬性的社會(huì)事件識(shí)別方法的流程圖;
【具體實(shí)施方式】
[0012] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
[0013] 圖1為本發(fā)明提出的基于視覺(jué)屬性的社會(huì)事件識(shí)別方法的流程圖,所述方法通過(guò) 自動(dòng)挖掘視覺(jué)屬性得到可以識(shí)別社會(huì)事件的關(guān)鍵視覺(jué)屬性,這些視覺(jué)屬性被進(jìn)一步提升來(lái) 更好地表示社會(huì)事件,最終視頻事件被表示為視覺(jué)屬性的特征向量。如圖1所示,所述方法 包括三個(gè)部分:1)視覺(jué)屬性提取,2)視覺(jué)屬性提升,3)基于視覺(jué)屬性的社會(huì)事件識(shí)別。具 體來(lái)說(shuō),所述方法包括以下步驟:
[0014] 步驟101,視覺(jué)語(yǔ)義屬性提取,所述視覺(jué)語(yǔ)義屬性表示描述特定事件相關(guān)的物體, 場(chǎng)景,行為等視覺(jué)語(yǔ)義;物體可以是人、車或者動(dòng)物等;場(chǎng)景可能是體育場(chǎng)、教堂等,行為主 要是人的行為活動(dòng),比如擁抱、握手等。
[0015] 所述步驟101進(jìn)一步包括以下步驟:
[0016] 步驟1011,從訓(xùn)練事件視頻集中的每一個(gè)事件視頻的文本描述中提取語(yǔ)義單詞和 詞組;其中,所述訓(xùn)練事件視頻集中的每一個(gè)事件視頻對(duì)應(yīng)一個(gè)特定的社會(huì)事件,即每個(gè)事 件視頻具有一個(gè)事件類別;所述訓(xùn)練事件視頻集中的所有事件視頻對(duì)應(yīng)預(yù)定數(shù)目個(gè)社會(huì)事 件,所述預(yù)定數(shù)目小于訓(xùn)練視頻集中的視頻個(gè)數(shù)。
[0017] 設(shè)
【權(quán)利要求】
1. 一種基于視覺(jué)屬性的社會(huì)事件識(shí)別方法,其特征在于,該方法包括以下步驟: 步驟101,從訓(xùn)練事件視頻集中的視頻中提取視覺(jué)屬性,所述視覺(jué)屬性用于描述與視頻 對(duì)應(yīng)的事件相關(guān)的屬性;其中,所述訓(xùn)練事件視頻中的每個(gè)視頻對(duì)應(yīng)一個(gè)已知事件類別; 步驟102,基于提升的迭代模型,訓(xùn)練得到視覺(jué)屬性分類器,并利用所述視覺(jué)屬性分類 器訓(xùn)練得到多個(gè)事件弱分類器; 步驟103,基于上述得到的視覺(jué)屬性分類器以及多個(gè)事件弱分類器對(duì)待分類事件視頻 進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟101進(jìn)一步包括以下步驟: 步驟1011,從所述訓(xùn)練事件視頻集中每個(gè)視頻的文本描述中提取語(yǔ)義單詞和詞組; 步驟1012,收集所述語(yǔ)義單詞和詞組對(duì)應(yīng)的圖像,根據(jù)視覺(jué)信息計(jì)算語(yǔ)義單詞和詞組 的視覺(jué)表示力,結(jié)合語(yǔ)義單詞或詞組的語(yǔ)義粘滯性,從語(yǔ)義單詞和詞組中選出多個(gè)視覺(jué)屬 性。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,設(shè)
為一個(gè)視頻的文本描述,1?被分割 為多個(gè)語(yǔ)義或者詞組單元
其中sei表示一個(gè)語(yǔ)義單元;視頻的 文本描述分割問(wèn)題可以進(jìn)一步表示為一個(gè)優(yōu)化問(wèn)題
這里
其中Stc表示衡量分割詞組粘滯性的函數(shù)。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,一個(gè)分割詞組se被選為視覺(jué)屬性的概率 是由se的語(yǔ)義粘滯性和視覺(jué)表示力共同決定的: Score (se) = Stc (se) Vflickr (se) 這里Vflidff是se的視覺(jué)表示力,是通過(guò)收集得到的與其對(duì)應(yīng)的圖像集的視覺(jué)相似性來(lái) 計(jì)算得到:
其中,1%是當(dāng)se作為檢索詞時(shí),從圖像共享網(wǎng)站搜索得到的圖像集;Cent (U表示1% 的重心;sim()表示圖像的相似度。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟102具體通過(guò)迭代執(zhí)行以下三個(gè)步 驟: 步驟1021 :學(xué)習(xí)領(lǐng)域適應(yīng)的共有特征表示,該步驟中利用權(quán)重分布采樣所有視頻對(duì)應(yīng) 的圖像幀集合和輔助圖像集中的圖像;并利用去噪自編碼器學(xué)習(xí)所采樣的樣本圖像的共有 特征表示;其中,所述輔助圖像集是利用所述訓(xùn)練事件視頻集中所有視頻對(duì)應(yīng)的已知事件 類別名稱作為關(guān)鍵詞從圖像共享網(wǎng)站檢索得到; 步驟1022 :利用所學(xué)習(xí)得到的領(lǐng)域適應(yīng)的共有特征表示,訓(xùn)練得到與所述視覺(jué)屬性對(duì) 應(yīng)的多個(gè)屬性分類器,并利用所述屬性分類器更新所述視頻集中所有視頻對(duì)應(yīng)的圖像幀以 及輔助圖像集中圖像的權(quán)重; 步驟1023 :利用所有視覺(jué)屬性分類器對(duì)訓(xùn)練視頻集中的每個(gè)視頻進(jìn)行描述以構(gòu)造每 個(gè)視頻的視覺(jué)屬性特征向量,然后利用視覺(jué)屬性特征向量訓(xùn)練得到事件視頻弱分類器;, 訓(xùn)練得到事件視頻弱分類器,并利用所述事件視頻弱分類器進(jìn)一步更新訓(xùn)練視頻集中所有 視頻對(duì)應(yīng)的圖像幀的權(quán)重。
6. 如權(quán)利要求5所述的方法,其特征在于,步驟1021中,去噪自編碼器利用加了噪聲后 的特征恢復(fù)得到原來(lái)的特征,其重構(gòu)誤差如下表示:
其中,
是指去噪自編碼器的重構(gòu)誤差,w表示將所述訓(xùn)練視頻集中所有視頻對(duì)應(yīng) 的圖像幀和輔助圖像集中的圖像幀映射成共有特征表示的映射矩陣;s表示采樣得到的樣 本個(gè)數(shù),r表示對(duì)每個(gè)樣本加噪聲的次數(shù);Xi是第i個(gè)樣本的原始特征,
是對(duì)第i個(gè)樣本 的原始特征第j次加噪聲以后的特征; 通過(guò)上述重構(gòu)誤差方程可以求得映射矩陣W的解析解,具體如下表示:
其中,X = [Xl,. . .,xs]表示采樣得到的樣本集合,
另外是由
加噪聲
后的特征向量組成;E表示期望。
7. 如權(quán)利要求6所述的方法,其特征在于,步驟1022中,屬性分類器的分類誤差如下表 示:
其中,
表示分類誤差,I表示符號(hào)函數(shù),如果括弧中的條件滿足,則函數(shù)值為1,否則函 數(shù)值為0 ;Xi表示第i個(gè)樣本的特征,即
中的第i個(gè)樣本的特征向量;g(Xi)表 示將Xi的特征映射為共有特征表示后的特征;flgUi))表示第c個(gè)屬性分類器; 利用訓(xùn)練得到的分類器如下更新視頻集和輔助圖像集中圖像的權(quán)重:
其中,屯表示第i個(gè)圖像的權(quán)重,image (c)表示第c個(gè)屬性分類器對(duì)應(yīng)的視頻包含的 所有幀圖像;α ^表示權(quán)重更新率。
8. 如權(quán)利要求7所述的方法,其特征在于,步驟1023中每個(gè)視頻的所述視覺(jué)屬性特征 向量如下構(gòu)建: 利用所有屬性分類器對(duì)所述訓(xùn)練視頻集中每個(gè)視頻對(duì)應(yīng)的圖像幀得到分類輸出值,這 些分類輸出值構(gòu)成圖像幀的視覺(jué)屬性特征向量,將一個(gè)視頻對(duì)應(yīng)的所有幀圖像對(duì)應(yīng)的視覺(jué) 屬性特征向量進(jìn)行池化得到該視頻的視覺(jué)屬性特征向量。
9. 如權(quán)利要求5所述的方法,其特征在于,步驟1023中,事件視頻弱分類器的分類誤差 和權(quán)重如下計(jì)算:
其中,e表示事件視頻弱分類器的分類誤差,'表示第j個(gè)視頻,h表示訓(xùn)練事件視頻集 中第j個(gè)視頻的事件類別;h(vP表示對(duì)視頻'訓(xùn)練得到的事件視頻弱分類器,α表示事 件視頻弱分類器h(\)的權(quán)重
表示第j個(gè)視頻的權(quán)重,K表示事件類別的個(gè)數(shù)。
10.如權(quán)利要求8所述的方法,其特征在于,步驟103具體包括: 對(duì)于待識(shí)別視頻,利用映射矩陣W計(jì)算其對(duì)應(yīng)的圖像幀的特征表示; 將所述特征表示作為所述屬性分類器的輸入,進(jìn)而得到待識(shí)別視頻的視覺(jué)屬性特征向 量; 將所述待識(shí)別視頻的視覺(jué)屬性特征向量作為所有事件視頻弱分類器的輸入,對(duì)所述待 識(shí)別視頻進(jìn)行分類。
【文檔編號(hào)】G06F17/30GK104142995SQ201410370304
【公開(kāi)日】2014年11月12日 申請(qǐng)日期:2014年7月30日 優(yōu)先權(quán)日:2014年7月30日
【發(fā)明者】徐常勝, 楊小汕, 張?zhí)熘? 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所