專利名稱:基于非監(jiān)督學(xué)習(xí)和語義匹配特征交互式體育視頻檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域,特別涉及多媒體檢索技術(shù)。
技術(shù)背景隨著多媒體技術(shù)和計算機網(wǎng)絡(luò)的飛速發(fā)展,全世界包括數(shù)字圖像、 音頻、視頻在內(nèi)的多媒體數(shù)據(jù)正在以驚人的速度增長。每天新生成的數(shù) 千兆字節(jié)的多媒體數(shù)據(jù),由于其分布的無序性,就如同泛濫的洪水般無 情的淹沒了其中所包含的大量有用信息。面對如此豐富且散布在世界范 圍內(nèi)的海量多媒體資源,用戶如何才能有效的利用信息及互聯(lián)網(wǎng)新技術(shù) 實現(xiàn)對所需多媒體資源的快捷定位,方便獲取和有效管理已成為一個十 分迫切問題,也使得多媒體檢索技術(shù)逐漸成為一個非?;钴S的研究領(lǐng)域。基于內(nèi)容的多媒體檢索是指對多媒體數(shù)據(jù)所蘊含的物理內(nèi)容和語義 內(nèi)容進行計算機分析和理解,以方便用戶查詢,其本質(zhì)就是對無序的多 媒體數(shù)據(jù)流結(jié)構(gòu)化,提取語義信息,保證多媒體內(nèi)容能夠被快速檢索。 基于內(nèi)容的視頻檢索和基于內(nèi)容的圖像檢索是多媒體檢索的兩個最重要 的分支。近年來,由于編碼、計算機多媒體處理和網(wǎng)絡(luò)傳輸技術(shù)飛速發(fā) 展,用戶可以通過高速互聯(lián)網(wǎng)實時查詢、欣賞和產(chǎn)生豐富多彩的視頻數(shù) 據(jù),如電影、動畫、新聞和體育節(jié)目等,并利用計算機自動處理視頻數(shù) 據(jù)流。視頻已經(jīng)成為人們傳輸和獲取信息的主要途徑之一。本質(zhì)上,視 頻是由連續(xù)的圖像幀序列組成的連續(xù)數(shù)據(jù)流,是二維數(shù)字圖象和時間維 度構(gòu)成的三維對象。主要特點如下(1)視頻數(shù)據(jù)較之于圖像包含更多 的視覺信息和語義信息;(2)視頻的數(shù)據(jù)量巨大;(3)視頻的抽象化、結(jié) 構(gòu)化程度低,對其進行有效的管理和方便的檢索存在著很大的困難。因 此,基于內(nèi)容的視頻檢索已成為計算機應(yīng)用技術(shù)和模式識別領(lǐng)域最熱門 的研究課題之一,具有十分廣闊的應(yīng)用前景。視頻數(shù)據(jù)本質(zhì)上就是圖像序列,視頻檢索中所用的視頻特征也是由圖像幀的底層特征組成,同時圖像檢索中所用到的檢索機制和思想也為 視頻檢索的發(fā)展奠定了堅實的基礎(chǔ)。因此圖像檢索的基本技術(shù)可以說是一個必修環(huán)節(jié)?;趦?nèi)容的圖像檢索(CBIR, Content-based Image Retrieval)是指直接采用圖像內(nèi)容進行圖像信息查詢的檢索技術(shù)。其主要 思想是根據(jù)圖像所包含的色彩、紋理、形狀以及對象的空間關(guān)系等低層 圖像特征來分析圖像信息,建立圖像的特征向量作為索引;用戶檢索時一 般是提供樣例圖像,系統(tǒng)抽取該樣例圖像的相應(yīng)特征向量,然后同數(shù)據(jù) 庫中所有被檢索對象的特征向量進行比較,并將與樣例特征相似的圖像 返回給用戶。基于內(nèi)容的視頻檢索主要是依賴于視頻的視覺特征和時空特征。常用 的檢索方式是基于視頻例子的檢索,用戶提交視頻例子,檢索系統(tǒng)從大型 視頻數(shù)據(jù)庫中返回用戶需要的相似視頻。視頻數(shù)據(jù)是由二維空間和時間構(gòu) 成的三維對象,如何定義視頻之間的相似性量度是一個難點,需要解決以 下關(guān)鍵問題G)視頻不是簡單的幀序列集合,而是由場景一組一鏡頭一關(guān)鍵幀組 成的層次結(jié)構(gòu),視頻間相似度衡量在哪個層次上進行是視頻比較的前提;(2) 關(guān)鍵幀的視覺特征是整部視頻視覺特征的基礎(chǔ),但每部視頻都有 相當(dāng)數(shù)量的關(guān)鍵幀;對于大型視頻數(shù)據(jù)庫而言,所有視頻的各個關(guān)鍵幀視 覺特征的存儲量和相互間比較次數(shù)都是很可觀的;(3) 兩部視頻是否相似是一個很復(fù)雜的問題,不同用戶有不同的理 解,摻雜著人為主觀因素,要設(shè)計合理的視頻比較算法必須盡量綜合考慮 各種因素。基于鏡頭質(zhì)心向量的視頻檢索系統(tǒng)引入鏡頭質(zhì)心向量這一新概念, 計算鏡頭層次的相似度進而又產(chǎn)生視頻層次的相似度;利用關(guān)鍵幀間的數(shù) 據(jù)冗余,通過犧牲一定的視頻時空信息,大大降低了關(guān)鍵幀特征的存儲量, 簡化了系統(tǒng)的復(fù)雜程度,實現(xiàn)了基于內(nèi)容的視頻檢索的基本方法。"iARM"系統(tǒng)使用基于模型的方法對視頻的時空序列信息進行準確 的建模并將對象內(nèi)容映射到事先生成的模型上去。該系統(tǒng)強調(diào)對視頻時空 信息建模的準確性,因此其相關(guān)反饋分析僅僅需要有限次反饋和較少的訓(xùn) 練樣本即可獲得較小的檢索時間和較好的檢索性能。除上述技術(shù)外,基于圖理論的非監(jiān)督學(xué)習(xí)算法、圖像檢索相關(guān)反饋 技術(shù)和基于用戶反饋的信息嵌入技術(shù)等都為本發(fā)明奠定了基礎(chǔ)。發(fā)明內(nèi)容本發(fā)明的目的是提出新的中層、高層視頻特征,以反映視頻的序列時空信息和語義主題;建立新的基于非監(jiān)督學(xué)習(xí)的檢索機制,以降低相 似度在線計算復(fù)雜度和減少檢索時間;構(gòu)建新的交互式檢索界面,以在 線優(yōu)化查詢向量、在線校正語義標(biāo)記、提高檢索性能和擴充數(shù)據(jù)庫,為此, 本發(fā)明提供一種基于非監(jiān)督學(xué)習(xí)和語義匹配特征的交互式體育視頻檢索 方法。為實現(xiàn)上述目的,本發(fā)明提供基于非監(jiān)督學(xué)習(xí)和語義匹配特征的交 互式體育視頻檢索方法,包括步驟如下步驟1:在視頻數(shù)據(jù)庫的視頻圖像幀層次提取圖像底層特征; 步驟2:在圖像底層特征的視頻序列層次提取模型匹配序列特征; 步驟3:在圖像底層特征的高級語義層次提取語義匹配特征; 步驟4:對提取模型匹配序列特征和語義匹配特征進行非監(jiān)督學(xué)習(xí),建立基于非監(jiān)督學(xué)習(xí)的檢索機制;步驟5:通過相關(guān)反饋技術(shù)形成交互檢索界面,優(yōu)化檢索性能。 根據(jù)本發(fā)明的實施例,模型匹配序列特征包括加權(quán)T-Bin直方圖和模型匹配相關(guān)圖,用于反映視頻對象的時空序列信息,加權(quán)T-Bin直方圖包括每一維表示視頻對象引用某一模型的頻率,權(quán)重反映不同模型匹配序列的重要程度。根據(jù)本發(fā)明的實施例,模型匹配序列特征的提取步驟包括如下 步驟21:將整個數(shù)據(jù)庫視為圖像幀集合,對整個圖像幀數(shù)據(jù)庫進行下采樣得到采樣幀,將采樣幀底層特征向量構(gòu)造成矩陣形式生成訓(xùn)練集; 步驟22:采用競爭學(xué)習(xí)算法學(xué)習(xí)得到模型集; 步驟23:對視頻對象中每一幀從模型集中找到N個最佳匹配模型,將視頻的圖像幀序列生成N條最佳匹配模型序列;步驟24:對N條最佳匹配模型序列提取加權(quán)T-Bin直方圖和模型匹 配相關(guān)圖。根據(jù)本發(fā)明的實施例,模型匹配相關(guān)圖包括給定視頻對象的最佳語義匹配序列為S,任意兩序列成員為m,和m2ES,模型集為MS,模 型集所含模型數(shù)目為Num一MS,像素跨度為D;則該視頻對象的模型匹 配相關(guān)圖為Num一MSxD維的向量;對于第i個模型ModeljeMS和某 像素跨度kED,模型匹配相關(guān)圖的第(i-l)xD+k維如下所述其物理意義為對于某視頻對象的模型匹配序列S,給定任一使用Model—i的序列成員,MMC(k)M。deU (S)給出了 k個像素跨度以外的序列成 員也使用Modd一i的概率,MMC同時描述視頻對象的模型引用頻率信 息和序信息。根據(jù)本發(fā)明的實施例,語義匹配特征提取,包括如下步驟步驟2a:選取具有代表性的帶標(biāo)注的視頻對象組成小規(guī)模訓(xùn)練集,該訓(xùn)練集表征在當(dāng)前底層特征描述能力的條件下數(shù)據(jù)庫所涵蓋運動主題;步驟2b:使用訓(xùn)練集,將N條最佳模型匹配序列進一步映射到語義 標(biāo)記層,得到了N條最佳標(biāo)記序匹配列;步驟2c:對N條最佳標(biāo)記匹配序列進行直方圖提取并加權(quán),得到視頻對象的高層語義特征即語義匹配直方圖。根據(jù)本發(fā)明的實施例,基于非監(jiān)督學(xué)習(xí)的檢索機制包括采用主導(dǎo) 集聚類算法對視頻數(shù)據(jù)庫進行非監(jiān)督學(xué)習(xí),將大部分相似度的計算轉(zhuǎn)化 為離線操作,用一致性函數(shù)來衡量每個生成的主導(dǎo)集的質(zhì)量和制約總的 主導(dǎo)集個數(shù),其具體步驟包括步驟31:將視頻數(shù)據(jù)庫作為無向邊權(quán)圖,其中每個視頻對象作為無 向邊權(quán)圖的結(jié)點,使用模型匹配相關(guān)圖或語義匹配直方圖,計算任意兩 段視頻的相似度作為此結(jié)點對的權(quán)值,并生成全相似度矩陣A;步驟32:利用主導(dǎo)集聚類算法,取局部最優(yōu)解中非零分量的標(biāo)號集 生成主導(dǎo)集;步驟33:將屬于現(xiàn)有主導(dǎo)集的結(jié)點從當(dāng)前圖中刪除,重復(fù)上述步驟直到結(jié)點圖為空。根據(jù)本發(fā)明的實施例,交互式檢索界面,用于對視頻序列層次和語 義層次實施相關(guān)反饋,包括如下采用最優(yōu)查詢相關(guān)反饋技術(shù)通過人機 交互方式,用于幫助計算機了解用戶需求,獲得優(yōu)化的査詢向量,適用 于直接檢索機制;采用關(guān)系矩陣相關(guān)反饋,用于調(diào)整各數(shù)據(jù)聚類間相互 關(guān)系來涵蓋數(shù)據(jù)聚類間的全局語義關(guān)系,適用于基于非監(jiān)督學(xué)習(xí)的檢索 機制;語義校正相關(guān)反饋技術(shù),用于對數(shù)據(jù)對象進行在線的語義校正、擴充數(shù)據(jù)庫,適用于使用語義匹配直方圖的檢索過程。根據(jù)本發(fā)明的實施例,最優(yōu)査詢相關(guān)反饋技術(shù),包括如下用戶對 系統(tǒng)初始輸出結(jié)果標(biāo)記相關(guān)和不相關(guān)視頻后,查詢向量優(yōu)化為式中fq為原查詢向量,fR、 ft、 NR、 N,為用戶標(biāo)記的相關(guān)視頻和不 相關(guān)視頻及其個數(shù),fq'為優(yōu)化的查詢向量,Wq、 WR、 W:為常系數(shù)。根據(jù)本發(fā)明的實施例,關(guān)系矩陣相關(guān)反饋為如下三個步驟 步驟a:初始關(guān)系矩陣,計算任意兩聚類中心間的相似度得到初始 關(guān)系矩陣為Co/re/a"'ow — M敏/;c[f ][_;']=* cfo加ce(Cew的/d — /, Cw,'d —力)式中Centroid—i,CentroidJ為兩聚類中心,distance()為某距離函數(shù); 步驟b:更新關(guān)系矩陣,關(guān)系向量F(x)表示給定對象和各聚類中心的相似度為—.. exp(-l * c/z\ tan ce(;c, Ce旨o/d — /)) 式中x為視頻對象特征向量,Centroid—i為某聚類中心,distance() 為某距離函數(shù);關(guān)系矩陣公式按下式進行更新式中q為查詢向量,fR、 fi、 NR、 Nf為用戶標(biāo)記的相關(guān)視頻和不相 關(guān)視頻及其個數(shù),k為更新次數(shù);步驟C:使用關(guān)系矩陣檢索,對于某一查詢請求,在關(guān)系矩陣中找到N個最相關(guān)聚類,再從中返回查詢結(jié)果;在每次反饋后,相關(guān)矩陣的更新將被保存,使得性能提升得以累積。根據(jù)本發(fā)明的實施例,語義校正相關(guān)反饋技術(shù)的具體步驟如下 步驟d:根據(jù)用戶反饋意見,得到相關(guān)視頻集RS和不相關(guān)視頻集IS;步驟e:對相關(guān)視頻集RS和不相關(guān)視頻集IS分別計算均值向量 RMV和均值向量IMV;步驟f:在均值向量RMV中找出最大數(shù)值的兩個分量RD和RD2, 表示對應(yīng)該視頻最相關(guān)的兩個主題;步驟g:在均值向量IMV中找到最大數(shù)值的分量ID,表示最不相關(guān) 的主題;步驟h:如果(ID = = RD1)RD = RD2,執(zhí)行步驟i;步驟i:優(yōu)化查詢的語義匹配直方圖Query一SMH[RD] = 1 , Query一SMH[ID] = 0;步驟j:將新的特征存入數(shù)據(jù)庫,重新檢索。本發(fā)明集成了視頻的中層特征、高層特征、非監(jiān)督學(xué)習(xí)檢索機制和 交互機制,構(gòu)成了一套新型完整的視頻檢索系統(tǒng),精確的衡量了視頻的 時空序列信息,發(fā)展了對體育視頻主題的語義理解,降低了系統(tǒng)的在線 計算復(fù)雜度和檢索時間,通過交互界面大幅度提高了系統(tǒng)的檢索性能, 具有廣闊的應(yīng)用前景。
圖1為本發(fā)明系統(tǒng)結(jié)構(gòu)框圖。圖2為模型匹配序列特征中視頻的模型匹配示意圖。圖3為語義匹配特征中視頻的標(biāo)記匹配示意圖。圖4為關(guān)系矩陣相關(guān)反饋技術(shù)中數(shù)據(jù)聚類全局語義關(guān)系示意圖。圖5為"CBVR一System"的程序界面示意圖。圖6為使用MMC的非監(jiān)督學(xué)習(xí)檢索模式對于排球查詢的返回結(jié)果。 圖7為使用SMH的直接檢索模式對于排球查詢的返回結(jié)果。 圖8為直接檢索結(jié)果和經(jīng)過一次反饋后的結(jié)果的比較。
具體實施方式
下面將結(jié)合附圖對本發(fā)明加以詳細說明,應(yīng)指出的是,所描述的實 施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。本發(fā)明的整體框架見圖1。程序"CBVR—System"是實現(xiàn)本發(fā)明方法 的一個具體實例,采用一臺計算機,用Visual 0++編程實現(xiàn)。本發(fā)明提 出的基于非監(jiān)督學(xué)習(xí)和語義匹配特征的交互式體育視頻檢索方法主要包 括如下四個關(guān)鍵問題 (O模型匹配序列特征;(2) 語義匹配特征;(3) 基于非監(jiān)督學(xué)習(xí)的檢索機制;(4) 交互式檢索界面。 本發(fā)明總體結(jié)構(gòu)可分為離線操作和在線操作兩個部分。離線操作部分由特征提取和非監(jiān)督學(xué)習(xí)組成。首先在視頻圖像幀層次對數(shù)據(jù)庫對象 提取圖像底層特征;隨后在視頻序列層次提取模型匹配序列特征;在高 級語義層次提取語義匹配特征;對所提取的視頻特征進行非監(jiān)督學(xué)習(xí), 建立基于非監(jiān)督學(xué)習(xí)的檢索機制;在線操作又分為檢索機制和交互反饋。 檢索機制提供五種檢索模式使用TBH的直接檢索、使用MMC的直接 檢索、使用SMH的直接檢索、使用MMC的非監(jiān)督學(xué)習(xí)檢索和使用SMH 的非監(jiān)督學(xué)習(xí)檢索;當(dāng)收到查詢請求時,系統(tǒng)按照用戶選擇模式進行檢 索并返回結(jié)果;最后通過相關(guān)反饋技術(shù)形成交互界面完善系統(tǒng)性能。下 面詳細給出該發(fā)明技術(shù)方案中所涉及的各個細節(jié)問題的說明。 (1)模型匹配序列特征本發(fā)明中的模型匹配序列特征是由圖像幀底層特征生成的視頻中層 特征,是在視頻層次衡量時空信息的序列特征,又是依賴學(xué)習(xí)的基于模 型的特征。其關(guān)鍵問題在于模型集的獲取及視頻中層序列特征的選擇。 模型集獲取是序列特征提取的第一個關(guān)鍵, 一個"好"模型表示了視頻數(shù) 據(jù)庫內(nèi)一幀極具代表性的廣義圖像,而"好"模型集就是由這樣一組代表 性強而彼此相關(guān)性弱的模型組成。獲得適當(dāng)模型集后,通過對各視頻幀 進行模型匹配,可將視頻片斷映射為一組最佳模型匹配序列。從最佳模型匹配序列中提取怎樣的中層序列特征成為第二個關(guān)鍵問題,不同的特 征提取方法對相似度計算的影響巨大,從而很大程度上決定了檢索的性 能。本發(fā)明中,對數(shù)據(jù)庫提取底層特征之后,即可進行模型匹配序列特 征的提取。模型匹配序列特征是通過模型匹配的方法由圖像幀底層特征 生成的視頻中層序列特征,用以精確的反映視頻對象的時空序列信息。 描述圖像視覺信息的底層特征是檢索系統(tǒng)的基礎(chǔ),但其并非本發(fā)明關(guān)注 的重點,采用何種底層特征不會影響本發(fā)明的結(jié)構(gòu)及原理,所以本系統(tǒng) 簡單的采用了顏色相關(guān)圖。具體提取過程主要由訓(xùn)練集生成、模型生成、 模型匹配和特征提取四個步驟組成。步驟一訓(xùn)練集生成,將整個數(shù)據(jù)庫視為圖像幀集合而不是視頻集 合;通過對整個圖像幀數(shù)據(jù)庫進行下采樣得到采樣幀,將采樣幀底層特 征向量構(gòu)造成矩陣形式作為訓(xùn)練集。步驟二模型生成,本發(fā)明采用競爭學(xué)習(xí)算法學(xué)習(xí)得到模型集。 首先,每次從訓(xùn)練集中隨機選取一個樣本^,按公式(1)為其在 現(xiàn)有模型集{附,=l…H中找到最佳匹配模型m,* ;k- |<lh-附」|, , = 1...[ (1),隨后,按公式(2)實施競爭學(xué)習(xí)算法,其中m為迭代次數(shù),/(w)為 隨m遞減的學(xué)習(xí)步長系數(shù)。當(dāng)?shù)螖?shù)m達到指定次數(shù)后,即得到模型 集。+ = m,*(m) + /(m)(xv —m"(m)); (2),步驟三模型映射,具體模型映射過程見圖2:給定某視頻幀序列 對象,為其每一幀從模型集中找到N個最佳匹配模型。從而給定視頻的 圖像幀序列就變?yōu)榱?N條最佳匹配模型序列。步驟四特征提取,在最佳匹配模型序列的基礎(chǔ)上,本發(fā)明定義了加權(quán)T-Bin直方圖(WTH)和模型匹配相關(guān)圖(MMC)。加權(quán)T-Bin直方圖每一維表示某一模型被引用的頻率,權(quán)重反映了 不同模型匹配序列的重要程度。WTH反映了相應(yīng)模型被引用的頻率信息 但忽略了序列的先后順序。定義l.模型匹配相關(guān)圖S為給定視頻對象的最佳語義匹配序列,m,和m2ES為任意兩序列成員,MS為模型集,模型集所含模型數(shù)目為 Num—MS, D為像素跨度;則該視頻對象的模型匹配相關(guān)圖定義為一個 Num一MSxD維的向量;對于第i個模型ModeljGMS和某像素跨度 kGD,模型匹配相關(guān)圖的第(i-l)xD+k維如下定義MMC^二 ,(《 )□ 尸[W2 = M。de/」||wi —胎卜A] (3),對于某視頻對象的模型匹配序列S,給定任一使用Model—i的序列 成員,MMC(k)M。deU (S)表示給出了 k距離以外的序列成員也使用Model—i 的概率。MMC同時描述出視頻對象的模型引用頻率信息和引用序信息。(2)語義匹配特征本發(fā)明定義了語義匹配特征即語義匹配直方圖(SMH)。體育視頻 可以簡單的通過它們的體育項目名稱對其主題進行索引,如籃球、橄欖 球和網(wǎng)球等。語義匹配直方圖是在圖像底層特征和視頻中層特征的基礎(chǔ) 之上,通過模型匹配和主動學(xué)習(xí)的方法生成的視頻高層語義特征,用以 對體育視頻對象進行主題標(biāo)注。SMH給出某視頻對象屬于各個語義主題 的概率,并用最相關(guān)主題標(biāo)記該視頻。與中層特征相比,SMH—定程度 上反映出視頻的語義內(nèi)容,降低了特征向量維度,提高了檢索性能。本 發(fā)明開發(fā)出模型匹配主動學(xué)習(xí)算法用以提取語義特征。該算法通過對標(biāo) 記訓(xùn)練集進行主動學(xué)習(xí)得到一組帶語義標(biāo)記的模型集,繼而應(yīng)用該模型 集對視頻對象進行模型匹配得到若干條最佳標(biāo)記匹配序列,再對匹配序 列迸行直方圖提取,最后得到語義匹配直方圖(SMH)。具體提取方法 可分為如下三個步驟。步驟一訓(xùn)練集,訓(xùn)練集作為主動學(xué)習(xí)機制的監(jiān)督信息來源,本系 統(tǒng)選取具有代表性的帶標(biāo)注的視頻對象組成小規(guī)模訓(xùn)練集。也就是說, 訓(xùn)練集中的視頻對象事先已人工標(biāo)記了運動項目主題;相對于數(shù)據(jù)庫來 說訓(xùn)練集規(guī)模較?。辉诋?dāng)前底層特征描述能力的條件下訓(xùn)練集可以涵蓋 盡可能多的運動主題。步驟二模型生成和映射,映射過程見圖3,模型生成與模型匹配 序列特征的對應(yīng)步驟相似,差別僅為使用了不同的訓(xùn)練集。(在圖2中加入語義標(biāo)記層形成圖3),將N條最佳模型匹配序列進一步映射到語義標(biāo)記層,得到了N條最佳標(biāo)記序匹配列。步驟三生成語義匹配直方圖(SMH),對N條最佳標(biāo)記匹配序列 進行直方圖提取并加權(quán),得到視頻對象的高層語義特征——SMH。 SMH 具有如下特點維度低,相當(dāng)于訓(xùn)練集中監(jiān)督信息的語義主題數(shù)目;物 理意義明確,其每一維表示視頻對象屬于某相應(yīng)主題的概率,并用最相 關(guān)主題標(biāo)記該對象;向量稀疏,大幅度減少存儲空間和簡化相似度計算。(3)基于非監(jiān)督學(xué)習(xí)的檢索傳統(tǒng)的檢索方法是相似度排序機制,該機制具有直接、靈活和易于 實現(xiàn)相關(guān)反饋等特點;但對于每一個查詢對象,該方法都要重新在線計 算所有的相似度,同時遍歷整個數(shù)據(jù)空間,因此需要承受很高的在線計 算復(fù)雜度;特別對于大型視頻數(shù)據(jù)庫而言,該機制幾乎無法正常工作。本發(fā)明建立了基于非監(jiān)督學(xué)習(xí)的檢索框架用以代替?zhèn)鹘y(tǒng)的直接排序 檢索機制。該機制通過對視頻數(shù)據(jù)庫進行非監(jiān)督學(xué)習(xí),使大部分相似度 的計算轉(zhuǎn)化為離線操作,大幅度降低了在線計算的復(fù)雜度,同時實現(xiàn)對 數(shù)據(jù)庫更加有效的管理。這樣,檢索過程可分為粗檢索和細檢索兩部分, 粗檢索實際就是一個將查詢分到已有聚類的分類過程,而細檢索則只需 要在線計算少量的相似度(査詢和某聚類樣本、查詢和少量自由樣本的 相似度)。本部分關(guān)鍵問題在于非監(jiān)督學(xué)習(xí)算法的選擇。聚類算法是基于 非監(jiān)督學(xué)習(xí)檢索機制的核心。聚類時間、聚類純度和聚類個數(shù)嚴重影響 著檢索系統(tǒng)的性能。本系統(tǒng)采用主導(dǎo)集聚類算法實現(xiàn)基于非監(jiān)督學(xué)習(xí)的檢索機制。主導(dǎo) 集聚類算法(Dominant Set Clustering)是圖理論聚類算法的一種,該算 法存在一致性函數(shù)來衡量每個生成的主導(dǎo)集的質(zhì)量和制約總的主導(dǎo)集個 數(shù)。與其他聚類算法相比,主導(dǎo)集聚類產(chǎn)生的聚類具有較高純度,聚類 個數(shù)通過一致性閾值的設(shè)定可以自動確定,同時計算復(fù)雜度相對較小, 具體聚類算法可分為三個步驟。步驟一全相似度矩陣,將視頻數(shù)據(jù)庫視為無向邊權(quán)圖,其中每個 視頻對象作為圖的結(jié)點,使用模型匹配相關(guān)圖或語義匹配直方圖,計算 任意兩段視頻的相似度作為此結(jié)點對的權(quán)值,并組成全相似度矩陣A。步驟二迭代方程,主導(dǎo)集聚類算法等價于如下二次優(yōu)化問題max /(u) = urAu s丄ueA, (4), 其中A^^uei^ :w,20a"t/2T=iM, = l} , A為全相似度矩陣(5),該問題的局部最優(yōu)解可以通過如下迭代方程得到",(f + l) = W,(0(Au(0),/u(0rAu(0, t為迭代次數(shù) (6),取局部最優(yōu)解中非零分量的標(biāo)號集生成主導(dǎo)集;步驟三將屬于現(xiàn)有主導(dǎo)集的結(jié)點從當(dāng)前圖中刪除,重復(fù)上述步驟直到結(jié)點圖為空。(4)交互式檢索界面相關(guān)反饋就是通過人機交互,讓用戶在線幫助計算機理解對象的語 義信息和人類的主觀需要。視頻的序列特性使用戶反饋意見需要相對較 長的時間,所以視頻檢索的相關(guān)反饋技術(shù)發(fā)展十分有限。減輕用戶使用 負擔(dān),如何通過最少的反饋獲得最好的檢索效果成為視頻相關(guān)反饋的發(fā) 展趨勢。在本系統(tǒng)中,使用模型匹配序列特征的檢索模式由于其本身并沒有 涉及視頻的任何語義內(nèi)容,所以其缺乏對檢索對象語義的理解,同時忽 視了人類感知的主觀性。類似地,使用語義匹配特征的檢索模式可從監(jiān) 督訓(xùn)練集中獲取一定語義信息,然而此信息有時極為有限以至于不能始 終保證對體育視頻主題的準確標(biāo)注。為反映用戶的個性需求、彌補語義 鴻溝以及在線補充有監(jiān)督信息,本發(fā)明建立了一套交互式檢索界面,分別于視頻序列層次和語義層次實施了三種相關(guān)反饋技術(shù)最優(yōu)查詢相關(guān) 反饋技術(shù)、關(guān)系矩陣相關(guān)反饋技術(shù)和語義校正相關(guān)反饋技術(shù),其中最優(yōu)查詢相關(guān)反饋技術(shù)通過TBH或MMC等特征表示的查詢向量常常不能準確地描述出用戶的真正需求,所以本發(fā)明應(yīng)用最優(yōu)査詢相關(guān) 反饋技術(shù)通過人機交互方式,幫助計算機了解用戶需求獲得優(yōu)化的查詢R用戶對于系統(tǒng)的初始檢索結(jié)果進行簡單的打分,標(biāo)記出相關(guān)視頻和非相關(guān)視頻。根據(jù)用戶反饋意見,最優(yōu)查詢向量可由公式(7)得到。這 樣,用戶可以幫助計算機更加準確理解査詢要求,提高了檢索的性能。<formula>formula see original document page 17</formula> (7)式中fq為原查詢向量,fR、 fl、 NR、 Nt為用戶標(biāo)記的相關(guān)視頻和不相關(guān)視頻及其個數(shù),fq'為優(yōu)化的查詢向量,Wq、 WR、 Wf為常系數(shù)。關(guān)系矩陣相關(guān)反饋技術(shù)最優(yōu)查詢機制僅僅優(yōu)化指定査詢而忽略了 整個數(shù)據(jù)庫,所以通過交互而得到的性能提升總是在下一次檢索時丟失, 而得不到持續(xù)積累。即對同一查詢要求再次檢索時,還要重復(fù)全部交互 過程。有鑒于此,本發(fā)明提出了關(guān)系矩陣相關(guān)反饋技術(shù),通過調(diào)整各數(shù)據(jù)聚類間相互關(guān)系來涵蓋數(shù)據(jù)聚類間的全局語義關(guān)系見圖4,圖4中,C,-Cn 表示數(shù)據(jù)庫中的N個聚類中心,權(quán)重W表示各聚類間的相似關(guān)系。具體過程分為如下三個步驟步驟一初始關(guān)系矩陣。計算任意兩聚類中心間的相似度得到初始 關(guān)系矩陣<formula>formula see original document page 17</formula> ( 8 )式中Centroid—i,CentroidJ為兩聚類中心,distance()為某距離函數(shù)。 Correlation—Matrix表示各聚類之間的相似關(guān)系。步驟二更新關(guān)系矩陣。關(guān)系向量F(x)表示給定對象和各聚類中心的相似度<formula>formula see original document page 17</formula> (9 )式中x為視頻對象特征向量,Centroid—i為某聚類中心,distance() 為某距離函數(shù)。關(guān)系矩陣按公式(10)進行更新.-Ccvre/aWow—Mzfr ix 4 = Con-e/a&oM 一 MzfrrJc i -1 + S= F(《)i70)—Z: F(《)F(/) (10)式中q為查詢向量,fR、 fi、 NR、 Nj為用戶標(biāo)記的相關(guān)視頻和不相 關(guān)視頻及其個數(shù),k為更新次數(shù)。矩陣2^^^W(A)"中的非零分量表示用戶認為較相關(guān)的聚類對;同^ IT,尸(《)尸(,')"巾白勺^,^i^^S^^人力^才目《^,^7寸;皿^加強相關(guān)聚類對的相似關(guān)系、減弱不相關(guān)聚類對的相似關(guān)系,關(guān)系矩陣 得以更新。步驟三使用關(guān)系矩陣檢索。對于某一查詢請求,在關(guān)系矩陣中找 到N個最相關(guān)聚類,再從中返回查詢結(jié)果。在每次反饋后,相關(guān)矩陣的 更新將被保存,使得性能提升得以累積。語義校正相關(guān)反饋技術(shù)用于對數(shù)據(jù)對象進行在線的語義校正、提 高檢索性能同時擴充數(shù)據(jù)庫,具體算法如下步驟一根據(jù)用戶反饋意見,得到相關(guān)視頻集RS和不相關(guān)視頻集IS;步驟二對相關(guān)視頻集RS和不相關(guān)視頻集IS分別計算均值向量RMV和均值向量IMV;步驟三在RMV中找出最大數(shù)值的兩個分量RD和分量RD2,表示對應(yīng)該視頻最相關(guān)的兩個主題;步驟四在IMV中找到最大數(shù)值的分量ID,表示最不相關(guān)的主題; 步驟五If(ID = = RDl)RD = RD2;步驟六優(yōu)化查詢的語義匹配直方圖Query一SMH[RD] = 1 , Query一SMH[ID] = 0;步驟七將新的特征存入數(shù)據(jù)庫,重新檢索。圖5 —圖8示出本發(fā)明的技術(shù)效果,其中-圖5為"CBVR一System"的程序界面示意圖。其中,右上顯示區(qū)顯示 數(shù)據(jù)庫中視頻的第一幀圖像,使用按鈕翻頁,圖片下方滑動條用于接收 反饋信息;左上播放區(qū)用于播放選中視頻;單選框用于選擇檢索模式; 按鈕區(qū)用于功能操作;狀態(tài)欄實時顯示程序運行信息。圖6為使用MMC的非監(jiān)督學(xué)習(xí)檢索模式對于排球查詢的返回結(jié)果。 使用單選框選擇"使用MMC的非監(jiān)督學(xué)習(xí)檢索模式",顯示區(qū)輸出檢索 結(jié)果的第一幀圖像,單擊圖像可在播放區(qū)播放整段視頻。狀態(tài)欄顯示檢索耗時。圖7為使用SMH的直接檢索模式對于排球查詢的返回結(jié)果。使用 單選框選擇"使用SMH的直接檢索模式",狀態(tài)欄顯示檢索耗時和查詢 對象的語義主題。圖8為直接檢索結(jié)果和經(jīng)過一次反饋后的結(jié)果的比較。上圖為"使用 THB的直接檢索模式"的原始輸出結(jié)果,用戶使用滑動條提供反饋意見 (向右表示相關(guān)視頻,向左表示不相關(guān)視頻);下圖為反饋后結(jié)果,性能 明顯提高。以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護范圍并 不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理 解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā) 明的保護范圍應(yīng)該以權(quán)利要求書的保護范圍為準。
權(quán)利要求
1. 一種基于非監(jiān)督學(xué)習(xí)和語義匹配特征的交互式體育視頻檢索方法,其特征在于,包括步驟如下步驟1在視頻數(shù)據(jù)庫的視頻圖像幀層次提取圖像底層特征;步驟2在圖像底層特征的視頻序列層次提取模型匹配序列特征;步驟3在圖像底層特征的高級語義層次提取語義匹配特征;步驟4對提取模型匹配序列特征和語義匹配特征進行非監(jiān)督學(xué)習(xí),建立基于非監(jiān)督學(xué)習(xí)的檢索機制;步驟5通過相關(guān)反饋技術(shù)形成交互檢索界面,優(yōu)化檢索性能。
2、 根據(jù)權(quán)利要求1所述的檢索方法,其特征在于,模型匹配序列 特征包括加權(quán)T-Bin直方圖和模型匹配相關(guān)圖,用于反映視頻對象的 時空序列信息加權(quán),T-Bin直方圖包括每一維表示視頻對象引用某一模型的頻率,權(quán)重反映不同模型匹配序列的重要程度。
3、 根據(jù)權(quán)利要求1所述的檢索方法,其特征在于,模型匹配序列特征的提取步驟包括如下步驟2h將整個數(shù)據(jù)庫視為圖像幀集合,對整個圖像幀數(shù)據(jù)庫進行 下采樣得到采樣幀,將采樣幀底層特征向量構(gòu)造成矩陣形式生成訓(xùn)練集;步驟22:采用競爭學(xué)習(xí)算法學(xué)習(xí)得到模型集;步驟23:對視頻對象中每一幀從模型集中找到N個最佳匹配模型,將視頻的圖像幀序列生成N條最佳匹配模型序列;步驟24:對N條最佳匹配模型序列提取加權(quán)T-Bin直方圖和模型匹 配相關(guān)圖。
4、 根據(jù)權(quán)利要求2所述的檢索方法,其特征在于,模型匹配相關(guān)圖 包括給定視頻對象的最佳語義匹配序列為S,任意兩序列成員為mi 和m2GS,模型集為MS,模型集所含模型數(shù)目為Num一MS,像素跨度 為D;則該視頻對象的模型匹配相關(guān)圖為Num一MS^D維的向量;對于 第i個模型Model—iGMS和某像素跨度kGD,模型匹配相關(guān)圖的第 (i-l)xD+k維如下所述其物理意義為對于某視頻對象的模型匹配序列S,給定任一使用 Model—i的序列成員,MMC(k)M。delJ (S餘出了 k個像素跨度以外的序列成 員也使用Modd_i的概率,MMC同時描述視頻對象的模型引用頻率信 息和序信息。
5、 根據(jù)權(quán)利要求1所述的檢索方法,其特征在于,語義匹配特征提 取,包括如下步驟步驟2a:選取具有代表性的帶標(biāo)注的視頻對象組成小規(guī)模訓(xùn)練集, 該訓(xùn)練集表征在當(dāng)前底層特征描述能力的條件下數(shù)據(jù)庫所涵蓋運動主 題;步驟2b:使用訓(xùn)練集,將N條最佳模型匹配序列進一步映射到語義標(biāo)記層,得到了N條最佳標(biāo)記序匹配列;步驟2c:對N條最佳標(biāo)記匹配序列進行直方圖提取并加權(quán),得到視頻對象的高層語義特征即語義匹配直方圖。
6、 根據(jù)權(quán)利要求1所述的檢索方法,其特征在于,基于非監(jiān)督學(xué)習(xí)的檢索機制包括采用主導(dǎo)集聚類算法對視頻數(shù)據(jù)庫進行非監(jiān)督學(xué)習(xí),將大部分相似度的計算轉(zhuǎn)化為離線操作,用一致性函數(shù)來衡量每個生成的主導(dǎo)集的質(zhì)量和制約總的主導(dǎo)集個數(shù),其具體步驟包括步驟31:將視頻數(shù)據(jù)庫作為無向邊權(quán)圖,其中每個視頻對象作為無向邊權(quán)圖的結(jié)點,使用模型匹配相關(guān)圖或語義匹配直方圖,計算任意兩段視頻的相似度作為此結(jié)點對的權(quán)值,并生成全相似度矩陣A;步驟32:利用主導(dǎo)集聚類算法,取局部最優(yōu)解中非零分量的標(biāo)號集生成主導(dǎo)集;步驟33:將屬于現(xiàn)有主導(dǎo)集的結(jié)點從當(dāng)前圖中刪除,重復(fù)上述步驟直到結(jié)點圖為空。
7、 根據(jù)權(quán)利要求1所述的檢索方法,其特征在于,交互式檢索界面,用于對視頻序列層次和語義層次實施相關(guān)反饋,包括如下采用最優(yōu)查詢相關(guān)反饋技術(shù)通過人機交互方式,用于幫助計算機了解用戶需求,獲得優(yōu)化的查詢向量,適用于直接檢索機制;采用關(guān)系矩陣相關(guān)反饋,用于調(diào)整各數(shù)據(jù)聚類間相互關(guān)系來涵蓋數(shù)據(jù)聚類間的全局語義關(guān)系,適用于基于非監(jiān)督學(xué)習(xí)的檢索機制;語義校正相關(guān)反饋技術(shù),用于對數(shù)據(jù)對象進行在線的語義校正、擴 充數(shù)據(jù)庫,適用于使用語義匹配直方圖的檢索過程。
8、 根據(jù)權(quán)利要求7所述的檢索方法,其特征在于最優(yōu)査詢相關(guān)反 饋技術(shù),包括如下用戶對系統(tǒng)初始輸出結(jié)果標(biāo)記相關(guān)和不相關(guān)視頻后, 查詢向量優(yōu)化為 j 〗式中fq為原査詢向量,fR、 f,、 NR、 N!為用戶標(biāo)記的相關(guān)視頻和不 相關(guān)視頻及其個數(shù),fq'為優(yōu)化的查詢向量,Wq、 WR、 W,為常系數(shù)。
9、 根據(jù)權(quán)利要求7所述的檢索方法,其特征在于,關(guān)系矩陣相關(guān)反饋為如下三個步驟步驟a:初始關(guān)系矩陣,計算任意兩聚類中心間的相似度得到初始 關(guān)系矩陣為式中Centroid—i,CentroidJ為兩聚類中心,distance()為某距離函數(shù); 步驟b:更新關(guān)系矩陣,關(guān)系向量F(x)表示給定對象和各聚類中心的相似度為= exp(-l * tan ce(x,Ce" ro/<i — 式中x為視頻對象特征向量,Centroid—i為某聚類中心,distance() 為某距離函數(shù); ' 關(guān)系矩陣公式按下式進行更新式中q為查詢向量,fR、 ft、 NR、 N,為用戶標(biāo)記的相關(guān)視頻和不相 關(guān)視頻及其個數(shù),k為更新次數(shù);步驟C:使用關(guān)系矩陣檢索,對于某一查詢請求,在關(guān)系矩陣中找 到N個最相關(guān)聚類,再從中返回查詢結(jié)果;在每次反饋后,相關(guān)矩陣的 更新將被保存,使得性能提升得以累積。
10、 根據(jù)權(quán)利要求7所述的檢索方法,其特征在于,語義校正相關(guān)反饋技術(shù)的具體步驟如下步驟d:根據(jù)用戶反饋意見,得到相關(guān)視頻集RS和不相關(guān)視頻集IS;步驟e:對相關(guān)視頻集RS和不相關(guān)視頻集IS分別計算均值向量 RMV和均值向量IMV;步驟f:在均值向量RMV中找出最大數(shù)值的兩個分量RD和RD2, 表示對應(yīng)該視頻最相關(guān)的兩個主題;步驟g:在均值向量IMV中找到最大數(shù)值的分量ID,表示最不相關(guān) 的主題;步驟h:如果(ID = = RD1)RD = RD2,執(zhí)行步驟i;步驟i:優(yōu)化查詢的語義匹配直方圖Query—SMH網(wǎng)=1 , Query一SMH[ID] = 0;步驟j:將新的特征存入數(shù)據(jù)庫,重新檢索。
全文摘要
本發(fā)明公開一種基于非監(jiān)督學(xué)習(xí)和語義匹配特征的交互式視頻檢索方法,步驟包括在視頻數(shù)據(jù)庫的視頻圖像幀層次提取圖像底層特征、提取模型匹配序列特征;在圖像底層特征的高級語義層次提取語義匹配特征;對提取模型匹配序列特征和語義匹配特征進行非監(jiān)督學(xué)習(xí),建立基于非監(jiān)督學(xué)習(xí)的檢索和直接檢索,通過相關(guān)反饋形成交互界面。本發(fā)明集成視頻的中層特征、高層特征、非監(jiān)督檢索機制和交互機制,構(gòu)成一套新型完整的視頻檢索系統(tǒng),精確的衡量了視頻對象的時空序列信息,達到良好的檢索效果,發(fā)展了對體育視頻主題的語義理解,降低了系統(tǒng)的在線計算復(fù)雜度和檢索時間,最后通過交互界面大幅度提高了系統(tǒng)的檢索性能。
文檔編號G06F17/30GK101281520SQ200710065180
公開日2008年10月8日 申請日期2007年4月5日 優(yōu)先權(quán)日2007年4月5日
發(fā)明者李華北, 胡衛(wèi)明 申請人:中國科學(xué)院自動化研究所