基于非監(jiān)督學(xué)習(xí)和語義匹配特征交互式體育視頻檢索方法

文檔序號：6573454閱讀：186來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于非監(jiān)督學(xué)習(xí)和語義匹配特征交互式體育視頻檢索方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域，特別涉及多媒體檢索技術(shù)。
技術(shù)背景隨著多媒體技術(shù)和計算機網(wǎng)絡(luò)的飛速發(fā)展，全世界包括數(shù)字圖像、音頻、視頻在內(nèi)的多媒體數(shù)據(jù)正在以驚人的速度增長。每天新生成的數(shù) 千兆字節(jié)的多媒體數(shù)據(jù)，由于其分布的無序性，就如同泛濫的洪水般無情的淹沒了其中所包含的大量有用信息。面對如此豐富且散布在世界范圍內(nèi)的海量多媒體資源，用戶如何才能有效的利用信息及互聯(lián)網(wǎng)新技術(shù) 實現(xiàn)對所需多媒體資源的快捷定位，方便獲取和有效管理已成為一個十分迫切問題，也使得多媒體檢索技術(shù)逐漸成為一個非?；钴S的研究領(lǐng)域。基于內(nèi)容的多媒體檢索是指對多媒體數(shù)據(jù)所蘊含的物理內(nèi)容和語義內(nèi)容進行計算機分析和理解，以方便用戶查詢，其本質(zhì)就是對無序的多媒體數(shù)據(jù)流結(jié)構(gòu)化，提取語義信息，保證多媒體內(nèi)容能夠被快速檢索。基于內(nèi)容的視頻檢索和基于內(nèi)容的圖像檢索是多媒體檢索的兩個最重要的分支。近年來，由于編碼、計算機多媒體處理和網(wǎng)絡(luò)傳輸技術(shù)飛速發(fā) 展，用戶可以通過高速互聯(lián)網(wǎng)實時查詢、欣賞和產(chǎn)生豐富多彩的視頻數(shù) 據(jù)，如電影、動畫、新聞和體育節(jié)目等，并利用計算機自動處理視頻數(shù) 據(jù)流。視頻已經(jīng)成為人們傳輸和獲取信息的主要途徑之一。本質(zhì)上，視頻是由連續(xù)的圖像幀序列組成的連續(xù)數(shù)據(jù)流，是二維數(shù)字圖象和時間維度構(gòu)成的三維對象。主要特點如下(1)視頻數(shù)據(jù)較之于圖像包含更多的視覺信息和語義信息；(2)視頻的數(shù)據(jù)量巨大；(3)視頻的抽象化、結(jié) 構(gòu)化程度低，對其進行有效的管理和方便的檢索存在著很大的困難。因此，基于內(nèi)容的視頻檢索已成為計算機應(yīng)用技術(shù)和模式識別領(lǐng)域最熱門的研究課題之一，具有十分廣闊的應(yīng)用前景。視頻數(shù)據(jù)本質(zhì)上就是圖像序列，視頻檢索中所用的視頻特征也是由圖像幀的底層特征組成，同時圖像檢索中所用到的檢索機制和思想也為視頻檢索的發(fā)展奠定了堅實的基礎(chǔ)。因此圖像檢索的基本技術(shù)可以說是一個必修環(huán)節(jié)?；趦?nèi)容的圖像檢索(CBIR， Content-based Image Retrieval)是指直接采用圖像內(nèi)容進行圖像信息查詢的檢索技術(shù)。其主要思想是根據(jù)圖像所包含的色彩、紋理、形狀以及對象的空間關(guān)系等低層圖像特征來分析圖像信息，建立圖像的特征向量作為索引；用戶檢索時一般是提供樣例圖像，系統(tǒng)抽取該樣例圖像的相應(yīng)特征向量，然后同數(shù)據(jù) 庫中所有被檢索對象的特征向量進行比較，并將與樣例特征相似的圖像返回給用戶。基于內(nèi)容的視頻檢索主要是依賴于視頻的視覺特征和時空特征。常用的檢索方式是基于視頻例子的檢索，用戶提交視頻例子，檢索系統(tǒng)從大型視頻數(shù)據(jù)庫中返回用戶需要的相似視頻。視頻數(shù)據(jù)是由二維空間和時間構(gòu) 成的三維對象，如何定義視頻之間的相似性量度是一個難點，需要解決以下關(guān)鍵問題G)視頻不是簡單的幀序列集合，而是由場景一組一鏡頭一關(guān)鍵幀組成的層次結(jié)構(gòu)，視頻間相似度衡量在哪個層次上進行是視頻比較的前提；(2) 關(guān)鍵幀的視覺特征是整部視頻視覺特征的基礎(chǔ)，但每部視頻都有相當(dāng)數(shù)量的關(guān)鍵幀；對于大型視頻數(shù)據(jù)庫而言，所有視頻的各個關(guān)鍵幀視覺特征的存儲量和相互間比較次數(shù)都是很可觀的；(3) 兩部視頻是否相似是一個很復(fù)雜的問題，不同用戶有不同的理解，摻雜著人為主觀因素，要設(shè)計合理的視頻比較算法必須盡量綜合考慮各種因素。基于鏡頭質(zhì)心向量的視頻檢索系統(tǒng)引入鏡頭質(zhì)心向量這一新概念，計算鏡頭層次的相似度進而又產(chǎn)生視頻層次的相似度；利用關(guān)鍵幀間的數(shù) 據(jù)冗余，通過犧牲一定的視頻時空信息，大大降低了關(guān)鍵幀特征的存儲量，簡化了系統(tǒng)的復(fù)雜程度，實現(xiàn)了基于內(nèi)容的視頻檢索的基本方法。"iARM"系統(tǒng)使用基于模型的方法對視頻的時空序列信息進行準確的建模并將對象內(nèi)容映射到事先生成的模型上去。該系統(tǒng)強調(diào)對視頻時空信息建模的準確性，因此其相關(guān)反饋分析僅僅需要有限次反饋和較少的訓(xùn) 練樣本即可獲得較小的檢索時間和較好的檢索性能。除上述技術(shù)外，基于圖理論的非監(jiān)督學(xué)習(xí)算法、圖像檢索相關(guān)反饋技術(shù)和基于用戶反饋的信息嵌入技術(shù)等都為本發(fā)明奠定了基礎(chǔ)。發(fā)明內(nèi)容本發(fā)明的目的是提出新的中層、高層視頻特征，以反映視頻的序列時空信息和語義主題；建立新的基于非監(jiān)督學(xué)習(xí)的檢索機制，以降低相似度在線計算復(fù)雜度和減少檢索時間；構(gòu)建新的交互式檢索界面，以在線優(yōu)化查詢向量、在線校正語義標(biāo)記、提高檢索性能和擴充數(shù)據(jù)庫，為此，本發(fā)明提供一種基于非監(jiān)督學(xué)習(xí)和語義匹配特征的交互式體育視頻檢索方法。為實現(xiàn)上述目的，本發(fā)明提供基于非監(jiān)督學(xué)習(xí)和語義匹配特征的交互式體育視頻檢索方法，包括步驟如下步驟1:在視頻數(shù)據(jù)庫的視頻圖像幀層次提取圖像底層特征；步驟2:在圖像底層特征的視頻序列層次提取模型匹配序列特征；步驟3:在圖像底層特征的高級語義層次提取語義匹配特征；步驟4:對提取模型匹配序列特征和語義匹配特征進行非監(jiān)督學(xué)習(xí)，建立基于非監(jiān)督學(xué)習(xí)的檢索機制；步驟5:通過相關(guān)反饋技術(shù)形成交互檢索界面，優(yōu)化檢索性能。根據(jù)本發(fā)明的實施例，模型匹配序列特征包括加權(quán)T-Bin直方圖和模型匹配相關(guān)圖，用于反映視頻對象的時空序列信息，加權(quán)T-Bin直方圖包括每一維表示視頻對象引用某一模型的頻率，權(quán)重反映不同模型匹配序列的重要程度。根據(jù)本發(fā)明的實施例，模型匹配序列特征的提取步驟包括如下步驟21:將整個數(shù)據(jù)庫視為圖像幀集合，對整個圖像幀數(shù)據(jù)庫進行下采樣得到采樣幀，將采樣幀底層特征向量構(gòu)造成矩陣形式生成訓(xùn)練集; 步驟22:采用競爭學(xué)習(xí)算法學(xué)習(xí)得到模型集；步驟23:對視頻對象中每一幀從模型集中找到N個最佳匹配模型，將視頻的圖像幀序列生成N條最佳匹配模型序列；步驟24:對N條最佳匹配模型序列提取加權(quán)T-Bin直方圖和模型匹配相關(guān)圖。根據(jù)本發(fā)明的實施例，模型匹配相關(guān)圖包括給定視頻對象的最佳語義匹配序列為S，任意兩序列成員為m,和m2ES，模型集為MS，模型集所含模型數(shù)目為Num一MS，像素跨度為D;則該視頻對象的模型匹配相關(guān)圖為Num一MSxD維的向量；對于第i個模型ModeljeMS和某像素跨度kED，模型匹配相關(guān)圖的第(i-l)xD+k維如下所述其物理意義為對于某視頻對象的模型匹配序列S，給定任一使用Model—i的序列成員，MMC(k)M。deU (S)給出了 k個像素跨度以外的序列成員也使用Modd一i的概率，MMC同時描述視頻對象的模型引用頻率信息和序信息。根據(jù)本發(fā)明的實施例，語義匹配特征提取，包括如下步驟步驟2a:選取具有代表性的帶標(biāo)注的視頻對象組成小規(guī)模訓(xùn)練集，該訓(xùn)練集表征在當(dāng)前底層特征描述能力的條件下數(shù)據(jù)庫所涵蓋運動主題；步驟2b:使用訓(xùn)練集，將N條最佳模型匹配序列進一步映射到語義標(biāo)記層，得到了N條最佳標(biāo)記序匹配列；步驟2c:對N條最佳標(biāo)記匹配序列進行直方圖提取并加權(quán)，得到視頻對象的高層語義特征即語義匹配直方圖。根據(jù)本發(fā)明的實施例，基于非監(jiān)督學(xué)習(xí)的檢索機制包括采用主導(dǎo) 集聚類算法對視頻數(shù)據(jù)庫進行非監(jiān)督學(xué)習(xí)，將大部分相似度的計算轉(zhuǎn)化為離線操作，用一致性函數(shù)來衡量每個生成的主導(dǎo)集的質(zhì)量和制約總的主導(dǎo)集個數(shù)，其具體步驟包括步驟31:將視頻數(shù)據(jù)庫作為無向邊權(quán)圖，其中每個視頻對象作為無向邊權(quán)圖的結(jié)點，使用模型匹配相關(guān)圖或語義匹配直方圖，計算任意兩段視頻的相似度作為此結(jié)點對的權(quán)值，并生成全相似度矩陣A;步驟32:利用主導(dǎo)集聚類算法，取局部最優(yōu)解中非零分量的標(biāo)號集生成主導(dǎo)集；步驟33:將屬于現(xiàn)有主導(dǎo)集的結(jié)點從當(dāng)前圖中刪除，重復(fù)上述步驟直到結(jié)點圖為空。根據(jù)本發(fā)明的實施例，交互式檢索界面，用于對視頻序列層次和語義層次實施相關(guān)反饋，包括如下采用最優(yōu)查詢相關(guān)反饋技術(shù)通過人機交互方式，用于幫助計算機了解用戶需求，獲得優(yōu)化的査詢向量，適用于直接檢索機制；采用關(guān)系矩陣相關(guān)反饋，用于調(diào)整各數(shù)據(jù)聚類間相互關(guān)系來涵蓋數(shù)據(jù)聚類間的全局語義關(guān)系，適用于基于非監(jiān)督學(xué)習(xí)的檢索機制；語義校正相關(guān)反饋技術(shù)，用于對數(shù)據(jù)對象進行在線的語義校正、擴充數(shù)據(jù)庫，適用于使用語義匹配直方圖的檢索過程。根據(jù)本發(fā)明的實施例，最優(yōu)査詢相關(guān)反饋技術(shù)，包括如下用戶對系統(tǒng)初始輸出結(jié)果標(biāo)記相關(guān)和不相關(guān)視頻后，查詢向量優(yōu)化為式中fq為原查詢向量，fR、 ft、 NR、 N,為用戶標(biāo)記的相關(guān)視頻和不相關(guān)視頻及其個數(shù)，fq'為優(yōu)化的查詢向量，Wq、 WR、 W:為常系數(shù)。根據(jù)本發(fā)明的實施例，關(guān)系矩陣相關(guān)反饋為如下三個步驟步驟a:初始關(guān)系矩陣，計算任意兩聚類中心間的相似度得到初始關(guān)系矩陣為Co/re/a"'ow — M敏/;c[f ][_;']=* cfo加ce(Cew的/d — /, Cw，'d —力)式中Centroid—i,CentroidJ為兩聚類中心，distance()為某距離函數(shù)；步驟b:更新關(guān)系矩陣，關(guān)系向量F(x)表示給定對象和各聚類中心的相似度為—.. exp(-l * c/z\ tan ce(;c， Ce旨o/d — /)) 式中x為視頻對象特征向量，Centroid—i為某聚類中心，distance() 為某距離函數(shù)；關(guān)系矩陣公式按下式進行更新式中q為查詢向量，fR、 fi、 NR、 Nf為用戶標(biāo)記的相關(guān)視頻和不相關(guān)視頻及其個數(shù)，k為更新次數(shù)；步驟C:使用關(guān)系矩陣檢索，對于某一查詢請求，在關(guān)系矩陣中找到N個最相關(guān)聚類，再從中返回查詢結(jié)果；在每次反饋后，相關(guān)矩陣的更新將被保存，使得性能提升得以累積。根據(jù)本發(fā)明的實施例，語義校正相關(guān)反饋技術(shù)的具體步驟如下步驟d:根據(jù)用戶反饋意見，得到相關(guān)視頻集RS和不相關(guān)視頻集IS;步驟e:對相關(guān)視頻集RS和不相關(guān)視頻集IS分別計算均值向量 RMV和均值向量IMV;步驟f:在均值向量RMV中找出最大數(shù)值的兩個分量RD和RD2，表示對應(yīng)該視頻最相關(guān)的兩個主題；步驟g:在均值向量IMV中找到最大數(shù)值的分量ID，表示最不相關(guān) 的主題；步驟h:如果(ID = = RD1)RD = RD2，執(zhí)行步驟i;步驟i:優(yōu)化查詢的語義匹配直方圖Query一SMH[RD] = 1 ， Query一SMH[ID] = 0;步驟j:將新的特征存入數(shù)據(jù)庫，重新檢索。本發(fā)明集成了視頻的中層特征、高層特征、非監(jiān)督學(xué)習(xí)檢索機制和交互機制，構(gòu)成了一套新型完整的視頻檢索系統(tǒng)，精確的衡量了視頻的時空序列信息，發(fā)展了對體育視頻主題的語義理解，降低了系統(tǒng)的在線計算復(fù)雜度和檢索時間，通過交互界面大幅度提高了系統(tǒng)的檢索性能，具有廣闊的應(yīng)用前景。

圖1為本發(fā)明系統(tǒng)結(jié)構(gòu)框圖。圖2為模型匹配序列特征中視頻的模型匹配示意圖。圖3為語義匹配特征中視頻的標(biāo)記匹配示意圖。圖4為關(guān)系矩陣相關(guān)反饋技術(shù)中數(shù)據(jù)聚類全局語義關(guān)系示意圖。圖5為"CBVR一System"的程序界面示意圖。圖6為使用MMC的非監(jiān)督學(xué)習(xí)檢索模式對于排球查詢的返回結(jié)果。圖7為使用SMH的直接檢索模式對于排球查詢的返回結(jié)果。圖8為直接檢索結(jié)果和經(jīng)過一次反饋后的結(jié)果的比較。
具體實施方式
下面將結(jié)合附圖對本發(fā)明加以詳細說明，應(yīng)指出的是，所描述的實施例僅旨在便于對本發(fā)明的理解，而對其不起任何限定作用。本發(fā)明的整體框架見圖1。程序"CBVR—System"是實現(xiàn)本發(fā)明方法的一個具體實例，采用一臺計算機，用Visual 0++編程實現(xiàn)。本發(fā)明提出的基于非監(jiān)督學(xué)習(xí)和語義匹配特征的交互式體育視頻檢索方法主要包括如下四個關(guān)鍵問題 (O模型匹配序列特征；(2) 語義匹配特征；(3) 基于非監(jiān)督學(xué)習(xí)的檢索機制；(4) 交互式檢索界面。本發(fā)明總體結(jié)構(gòu)可分為離線操作和在線操作兩個部分。離線操作部分由特征提取和非監(jiān)督學(xué)習(xí)組成。首先在視頻圖像幀層次對數(shù)據(jù)庫對象提取圖像底層特征；隨后在視頻序列層次提取模型匹配序列特征；在高級語義層次提取語義匹配特征；對所提取的視頻特征進行非監(jiān)督學(xué)習(xí)，建立基于非監(jiān)督學(xué)習(xí)的檢索機制;在線操作又分為檢索機制和交互反饋。檢索機制提供五種檢索模式使用TBH的直接檢索、使用MMC的直接檢索、使用SMH的直接檢索、使用MMC的非監(jiān)督學(xué)習(xí)檢索和使用SMH 的非監(jiān)督學(xué)習(xí)檢索；當(dāng)收到查詢請求時，系統(tǒng)按照用戶選擇模式進行檢索并返回結(jié)果；最后通過相關(guān)反饋技術(shù)形成交互界面完善系統(tǒng)性能。下面詳細給出該發(fā)明技術(shù)方案中所涉及的各個細節(jié)問題的說明。 (1)模型匹配序列特征本發(fā)明中的模型匹配序列特征是由圖像幀底層特征生成的視頻中層特征，是在視頻層次衡量時空信息的序列特征，又是依賴學(xué)習(xí)的基于模型的特征。其關(guān)鍵問題在于模型集的獲取及視頻中層序列特征的選擇。模型集獲取是序列特征提取的第一個關(guān)鍵，一個"好"模型表示了視頻數(shù) 據(jù)庫內(nèi)一幀極具代表性的廣義圖像，而"好"模型集就是由這樣一組代表性強而彼此相關(guān)性弱的模型組成。獲得適當(dāng)模型集后，通過對各視頻幀進行模型匹配，可將視頻片斷映射為一組最佳模型匹配序列。從最佳模型匹配序列中提取怎樣的中層序列特征成為第二個關(guān)鍵問題，不同的特征提取方法對相似度計算的影響巨大，從而很大程度上決定了檢索的性能。本發(fā)明中，對數(shù)據(jù)庫提取底層特征之后，即可進行模型匹配序列特征的提取。模型匹配序列特征是通過模型匹配的方法由圖像幀底層特征生成的視頻中層序列特征，用以精確的反映視頻對象的時空序列信息。描述圖像視覺信息的底層特征是檢索系統(tǒng)的基礎(chǔ)，但其并非本發(fā)明關(guān)注的重點，采用何種底層特征不會影響本發(fā)明的結(jié)構(gòu)及原理，所以本系統(tǒng) 簡單的采用了顏色相關(guān)圖。具體提取過程主要由訓(xùn)練集生成、模型生成、模型匹配和特征提取四個步驟組成。步驟一訓(xùn)練集生成，將整個數(shù)據(jù)庫視為圖像幀集合而不是視頻集合；通過對整個圖像幀數(shù)據(jù)庫進行下采樣得到采樣幀，將采樣幀底層特征向量構(gòu)造成矩陣形式作為訓(xùn)練集。步驟二模型生成，本發(fā)明采用競爭學(xué)習(xí)算法學(xué)習(xí)得到模型集。首先，每次從訓(xùn)練集中隨機選取一個樣本^，按公式(1)為其在現(xiàn)有模型集{附,=l…H中找到最佳匹配模型m,* ;k- |<lh-附」|, , = 1...[ (1)，隨后，按公式(2)實施競爭學(xué)習(xí)算法，其中m為迭代次數(shù)，/(w)為隨m遞減的學(xué)習(xí)步長系數(shù)。當(dāng)?shù)螖?shù)m達到指定次數(shù)后，即得到模型集。+ = m,*(m) + /(m)(xv —m"(m)); (2)，步驟三模型映射，具體模型映射過程見圖2:給定某視頻幀序列對象，為其每一幀從模型集中找到N個最佳匹配模型。從而給定視頻的圖像幀序列就變?yōu)榱?N條最佳匹配模型序列。步驟四特征提取，在最佳匹配模型序列的基礎(chǔ)上，本發(fā)明定義了加權(quán)T-Bin直方圖(WTH)和模型匹配相關(guān)圖(MMC)。加權(quán)T-Bin直方圖每一維表示某一模型被引用的頻率，權(quán)重反映了不同模型匹配序列的重要程度。WTH反映了相應(yīng)模型被引用的頻率信息但忽略了序列的先后順序。定義l.模型匹配相關(guān)圖S為給定視頻對象的最佳語義匹配序列，m,和m2ES為任意兩序列成員，MS為模型集，模型集所含模型數(shù)目為 Num—MS， D為像素跨度；則該視頻對象的模型匹配相關(guān)圖定義為一個 Num一MSxD維的向量；對于第i個模型ModeljGMS和某像素跨度 kGD，模型匹配相關(guān)圖的第(i-l)xD+k維如下定義MMC^二，(《 )□ 尸[W2 = M。de/」||wi —胎卜A] (3)，對于某視頻對象的模型匹配序列S，給定任一使用Model—i的序列成員，MMC(k)M。deU (S)表示給出了 k距離以外的序列成員也使用Model—i 的概率。MMC同時描述出視頻對象的模型引用頻率信息和引用序信息。(2)語義匹配特征本發(fā)明定義了語義匹配特征即語義匹配直方圖(SMH)。體育視頻可以簡單的通過它們的體育項目名稱對其主題進行索引，如籃球、橄欖球和網(wǎng)球等。語義匹配直方圖是在圖像底層特征和視頻中層特征的基礎(chǔ) 之上，通過模型匹配和主動學(xué)習(xí)的方法生成的視頻高層語義特征，用以對體育視頻對象進行主題標(biāo)注。SMH給出某視頻對象屬于各個語義主題的概率，并用最相關(guān)主題標(biāo)記該視頻。與中層特征相比，SMH—定程度上反映出視頻的語義內(nèi)容，降低了特征向量維度，提高了檢索性能。本發(fā)明開發(fā)出模型匹配主動學(xué)習(xí)算法用以提取語義特征。該算法通過對標(biāo) 記訓(xùn)練集進行主動學(xué)習(xí)得到一組帶語義標(biāo)記的模型集，繼而應(yīng)用該模型集對視頻對象進行模型匹配得到若干條最佳標(biāo)記匹配序列，再對匹配序列迸行直方圖提取，最后得到語義匹配直方圖(SMH)。具體提取方法可分為如下三個步驟。步驟一訓(xùn)練集，訓(xùn)練集作為主動學(xué)習(xí)機制的監(jiān)督信息來源，本系統(tǒng)選取具有代表性的帶標(biāo)注的視頻對象組成小規(guī)模訓(xùn)練集。也就是說，訓(xùn)練集中的視頻對象事先已人工標(biāo)記了運動項目主題；相對于數(shù)據(jù)庫來說訓(xùn)練集規(guī)模較?。辉诋?dāng)前底層特征描述能力的條件下訓(xùn)練集可以涵蓋盡可能多的運動主題。步驟二模型生成和映射，映射過程見圖3，模型生成與模型匹配序列特征的對應(yīng)步驟相似，差別僅為使用了不同的訓(xùn)練集。(在圖2中加入語義標(biāo)記層形成圖3)，將N條最佳模型匹配序列進一步映射到語義標(biāo)記層，得到了N條最佳標(biāo)記序匹配列。步驟三生成語義匹配直方圖(SMH)，對N條最佳標(biāo)記匹配序列進行直方圖提取并加權(quán)，得到視頻對象的高層語義特征——SMH。 SMH 具有如下特點維度低，相當(dāng)于訓(xùn)練集中監(jiān)督信息的語義主題數(shù)目；物理意義明確，其每一維表示視頻對象屬于某相應(yīng)主題的概率，并用最相關(guān)主題標(biāo)記該對象；向量稀疏，大幅度減少存儲空間和簡化相似度計算。(3)基于非監(jiān)督學(xué)習(xí)的檢索傳統(tǒng)的檢索方法是相似度排序機制，該機制具有直接、靈活和易于實現(xiàn)相關(guān)反饋等特點；但對于每一個查詢對象，該方法都要重新在線計算所有的相似度，同時遍歷整個數(shù)據(jù)空間，因此需要承受很高的在線計算復(fù)雜度；特別對于大型視頻數(shù)據(jù)庫而言，該機制幾乎無法正常工作。本發(fā)明建立了基于非監(jiān)督學(xué)習(xí)的檢索框架用以代替?zhèn)鹘y(tǒng)的直接排序檢索機制。該機制通過對視頻數(shù)據(jù)庫進行非監(jiān)督學(xué)習(xí)，使大部分相似度的計算轉(zhuǎn)化為離線操作，大幅度降低了在線計算的復(fù)雜度，同時實現(xiàn)對數(shù)據(jù)庫更加有效的管理。這樣，檢索過程可分為粗檢索和細檢索兩部分，粗檢索實際就是一個將查詢分到已有聚類的分類過程，而細檢索則只需要在線計算少量的相似度(査詢和某聚類樣本、查詢和少量自由樣本的相似度)。本部分關(guān)鍵問題在于非監(jiān)督學(xué)習(xí)算法的選擇。聚類算法是基于非監(jiān)督學(xué)習(xí)檢索機制的核心。聚類時間、聚類純度和聚類個數(shù)嚴重影響著檢索系統(tǒng)的性能。本系統(tǒng)采用主導(dǎo)集聚類算法實現(xiàn)基于非監(jiān)督學(xué)習(xí)的檢索機制。主導(dǎo) 集聚類算法(Dominant Set Clustering)是圖理論聚類算法的一種，該算法存在一致性函數(shù)來衡量每個生成的主導(dǎo)集的質(zhì)量和制約總的主導(dǎo)集個數(shù)。與其他聚類算法相比，主導(dǎo)集聚類產(chǎn)生的聚類具有較高純度，聚類個數(shù)通過一致性閾值的設(shè)定可以自動確定，同時計算復(fù)雜度相對較小，具體聚類算法可分為三個步驟。步驟一全相似度矩陣，將視頻數(shù)據(jù)庫視為無向邊權(quán)圖，其中每個視頻對象作為圖的結(jié)點，使用模型匹配相關(guān)圖或語義匹配直方圖，計算任意兩段視頻的相似度作為此結(jié)點對的權(quán)值，并組成全相似度矩陣A。步驟二迭代方程，主導(dǎo)集聚類算法等價于如下二次優(yōu)化問題max /(u) = urAu s丄ueA， (4)，其中A^^uei^ :w,20a"t/2T=iM, = l} ， A為全相似度矩陣(5)，該問題的局部最優(yōu)解可以通過如下迭代方程得到",(f + l) = W,(0(Au(0),/u(0rAu(0， t為迭代次數(shù) (6)，取局部最優(yōu)解中非零分量的標(biāo)號集生成主導(dǎo)集；步驟三將屬于現(xiàn)有主導(dǎo)集的結(jié)點從當(dāng)前圖中刪除，重復(fù)上述步驟直到結(jié)點圖為空。(4)交互式檢索界面相關(guān)反饋就是通過人機交互，讓用戶在線幫助計算機理解對象的語義信息和人類的主觀需要。視頻的序列特性使用戶反饋意見需要相對較長的時間，所以視頻檢索的相關(guān)反饋技術(shù)發(fā)展十分有限。減輕用戶使用負擔(dān)，如何通過最少的反饋獲得最好的檢索效果成為視頻相關(guān)反饋的發(fā) 展趨勢。在本系統(tǒng)中，使用模型匹配序列特征的檢索模式由于其本身并沒有涉及視頻的任何語義內(nèi)容，所以其缺乏對檢索對象語義的理解，同時忽視了人類感知的主觀性。類似地，使用語義匹配特征的檢索模式可從監(jiān) 督訓(xùn)練集中獲取一定語義信息，然而此信息有時極為有限以至于不能始終保證對體育視頻主題的準確標(biāo)注。為反映用戶的個性需求、彌補語義鴻溝以及在線補充有監(jiān)督信息，本發(fā)明建立了一套交互式檢索界面，分別于視頻序列層次和語義層次實施了三種相關(guān)反饋技術(shù)最優(yōu)查詢相關(guān) 反饋技術(shù)、關(guān)系矩陣相關(guān)反饋技術(shù)和語義校正相關(guān)反饋技術(shù)，其中最優(yōu)查詢相關(guān)反饋技術(shù)通過TBH或MMC等特征表示的查詢向量常常不能準確地描述出用戶的真正需求，所以本發(fā)明應(yīng)用最優(yōu)査詢相關(guān) 反饋技術(shù)通過人機交互方式，幫助計算機了解用戶需求獲得優(yōu)化的查詢R用戶對于系統(tǒng)的初始檢索結(jié)果進行簡單的打分，標(biāo)記出相關(guān)視頻和非相關(guān)視頻。根據(jù)用戶反饋意見，最優(yōu)查詢向量可由公式(7)得到。這樣，用戶可以幫助計算機更加準確理解査詢要求，提高了檢索的性能。<formula>formula see original document page 17</formula> (7)式中fq為原查詢向量，fR、 fl、 NR、 Nt為用戶標(biāo)記的相關(guān)視頻和不相關(guān)視頻及其個數(shù)，fq'為優(yōu)化的查詢向量，Wq、 WR、 Wf為常系數(shù)。關(guān)系矩陣相關(guān)反饋技術(shù)最優(yōu)查詢機制僅僅優(yōu)化指定査詢而忽略了整個數(shù)據(jù)庫，所以通過交互而得到的性能提升總是在下一次檢索時丟失，而得不到持續(xù)積累。即對同一查詢要求再次檢索時，還要重復(fù)全部交互過程。有鑒于此，本發(fā)明提出了關(guān)系矩陣相關(guān)反饋技術(shù)，通過調(diào)整各數(shù)據(jù)聚類間相互關(guān)系來涵蓋數(shù)據(jù)聚類間的全局語義關(guān)系見圖4，圖4中，C,-Cn 表示數(shù)據(jù)庫中的N個聚類中心，權(quán)重W表示各聚類間的相似關(guān)系。具體過程分為如下三個步驟步驟一初始關(guān)系矩陣。計算任意兩聚類中心間的相似度得到初始關(guān)系矩陣<formula>formula see original document page 17</formula> ( 8 )式中Centroid—i,CentroidJ為兩聚類中心，distance()為某距離函數(shù)。 Correlation—Matrix表示各聚類之間的相似關(guān)系。步驟二更新關(guān)系矩陣。關(guān)系向量F(x)表示給定對象和各聚類中心的相似度<formula>formula see original document page 17</formula> (9 )式中x為視頻對象特征向量，Centroid—i為某聚類中心，distance() 為某距離函數(shù)。關(guān)系矩陣按公式(10)進行更新.-Ccvre/aWow—Mzfr ix 4 = Con-e/a&oM 一 MzfrrJc i -1 + S= F(《)i70)—Z: F(《)F(/) (10)式中q為查詢向量，fR、 fi、 NR、 Nj為用戶標(biāo)記的相關(guān)視頻和不相關(guān)視頻及其個數(shù)，k為更新次數(shù)。矩陣2^^^W(A)"中的非零分量表示用戶認為較相關(guān)的聚類對；同^ IT,尸(《)尸(,')"巾白勺^，^i^^S^^人力^才目《^，^7寸;皿^加強相關(guān)聚類對的相似關(guān)系、減弱不相關(guān)聚類對的相似關(guān)系，關(guān)系矩陣得以更新。步驟三使用關(guān)系矩陣檢索。對于某一查詢請求，在關(guān)系矩陣中找到N個最相關(guān)聚類，再從中返回查詢結(jié)果。在每次反饋后，相關(guān)矩陣的更新將被保存，使得性能提升得以累積。語義校正相關(guān)反饋技術(shù)用于對數(shù)據(jù)對象進行在線的語義校正、提高檢索性能同時擴充數(shù)據(jù)庫，具體算法如下步驟一根據(jù)用戶反饋意見，得到相關(guān)視頻集RS和不相關(guān)視頻集IS;步驟二對相關(guān)視頻集RS和不相關(guān)視頻集IS分別計算均值向量RMV和均值向量IMV;步驟三在RMV中找出最大數(shù)值的兩個分量RD和分量RD2，表示對應(yīng)該視頻最相關(guān)的兩個主題；步驟四在IMV中找到最大數(shù)值的分量ID，表示最不相關(guān)的主題；步驟五If(ID = = RDl)RD = RD2;步驟六優(yōu)化查詢的語義匹配直方圖Query一SMH[RD] = 1 ， Query一SMH[ID] = 0;步驟七將新的特征存入數(shù)據(jù)庫，重新檢索。圖5 —圖8示出本發(fā)明的技術(shù)效果，其中-圖5為"CBVR一System"的程序界面示意圖。其中，右上顯示區(qū)顯示數(shù)據(jù)庫中視頻的第一幀圖像，使用按鈕翻頁，圖片下方滑動條用于接收反饋信息；左上播放區(qū)用于播放選中視頻；單選框用于選擇檢索模式；按鈕區(qū)用于功能操作；狀態(tài)欄實時顯示程序運行信息。圖6為使用MMC的非監(jiān)督學(xué)習(xí)檢索模式對于排球查詢的返回結(jié)果。使用單選框選擇"使用MMC的非監(jiān)督學(xué)習(xí)檢索模式"，顯示區(qū)輸出檢索結(jié)果的第一幀圖像，單擊圖像可在播放區(qū)播放整段視頻。狀態(tài)欄顯示檢索耗時。圖7為使用SMH的直接檢索模式對于排球查詢的返回結(jié)果。使用單選框選擇"使用SMH的直接檢索模式"，狀態(tài)欄顯示檢索耗時和查詢對象的語義主題。圖8為直接檢索結(jié)果和經(jīng)過一次反饋后的結(jié)果的比較。上圖為"使用 THB的直接檢索模式"的原始輸出結(jié)果，用戶使用滑動條提供反饋意見 (向右表示相關(guān)視頻，向左表示不相關(guān)視頻)；下圖為反饋后結(jié)果，性能明顯提高。以上所述，僅為本發(fā)明中的具體實施方式
，但本發(fā)明的保護范圍并不局限于此，任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi)，可理解想到的變換或替換，都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi)，因此，本發(fā) 明的保護范圍應(yīng)該以權(quán)利要求書的保護范圍為準。
權(quán)利要求
1. 一種基于非監(jiān)督學(xué)習(xí)和語義匹配特征的交互式體育視頻檢索方法，其特征在于，包括步驟如下步驟1在視頻數(shù)據(jù)庫的視頻圖像幀層次提取圖像底層特征；步驟2在圖像底層特征的視頻序列層次提取模型匹配序列特征；步驟3在圖像底層特征的高級語義層次提取語義匹配特征；步驟4對提取模型匹配序列特征和語義匹配特征進行非監(jiān)督學(xué)習(xí)，建立基于非監(jiān)督學(xué)習(xí)的檢索機制；步驟5通過相關(guān)反饋技術(shù)形成交互檢索界面，優(yōu)化檢索性能。
2、根據(jù)權(quán)利要求1所述的檢索方法，其特征在于，模型匹配序列特征包括加權(quán)T-Bin直方圖和模型匹配相關(guān)圖，用于反映視頻對象的時空序列信息加權(quán)，T-Bin直方圖包括每一維表示視頻對象引用某一模型的頻率，權(quán)重反映不同模型匹配序列的重要程度。
3、根據(jù)權(quán)利要求1所述的檢索方法，其特征在于，模型匹配序列特征的提取步驟包括如下步驟2h將整個數(shù)據(jù)庫視為圖像幀集合，對整個圖像幀數(shù)據(jù)庫進行下采樣得到采樣幀，將采樣幀底層特征向量構(gòu)造成矩陣形式生成訓(xùn)練集;步驟22:采用競爭學(xué)習(xí)算法學(xué)習(xí)得到模型集；步驟23:對視頻對象中每一幀從模型集中找到N個最佳匹配模型，將視頻的圖像幀序列生成N條最佳匹配模型序列；步驟24:對N條最佳匹配模型序列提取加權(quán)T-Bin直方圖和模型匹配相關(guān)圖。
4、根據(jù)權(quán)利要求2所述的檢索方法，其特征在于，模型匹配相關(guān)圖包括給定視頻對象的最佳語義匹配序列為S，任意兩序列成員為mi 和m2GS，模型集為MS，模型集所含模型數(shù)目為Num一MS，像素跨度為D;則該視頻對象的模型匹配相關(guān)圖為Num一MS^D維的向量；對于第i個模型Model—iGMS和某像素跨度kGD，模型匹配相關(guān)圖的第 (i-l)xD+k維如下所述其物理意義為對于某視頻對象的模型匹配序列S，給定任一使用 Model—i的序列成員，MMC(k)M。delJ (S餘出了 k個像素跨度以外的序列成員也使用Modd_i的概率，MMC同時描述視頻對象的模型引用頻率信息和序信息。
5、根據(jù)權(quán)利要求1所述的檢索方法，其特征在于，語義匹配特征提取，包括如下步驟步驟2a:選取具有代表性的帶標(biāo)注的視頻對象組成小規(guī)模訓(xùn)練集，該訓(xùn)練集表征在當(dāng)前底層特征描述能力的條件下數(shù)據(jù)庫所涵蓋運動主題；步驟2b:使用訓(xùn)練集，將N條最佳模型匹配序列進一步映射到語義標(biāo)記層，得到了N條最佳標(biāo)記序匹配列；步驟2c:對N條最佳標(biāo)記匹配序列進行直方圖提取并加權(quán)，得到視頻對象的高層語義特征即語義匹配直方圖。
6、根據(jù)權(quán)利要求1所述的檢索方法，其特征在于，基于非監(jiān)督學(xué)習(xí)的檢索機制包括采用主導(dǎo)集聚類算法對視頻數(shù)據(jù)庫進行非監(jiān)督學(xué)習(xí)，將大部分相似度的計算轉(zhuǎn)化為離線操作，用一致性函數(shù)來衡量每個生成的主導(dǎo)集的質(zhì)量和制約總的主導(dǎo)集個數(shù)，其具體步驟包括步驟31:將視頻數(shù)據(jù)庫作為無向邊權(quán)圖，其中每個視頻對象作為無向邊權(quán)圖的結(jié)點，使用模型匹配相關(guān)圖或語義匹配直方圖，計算任意兩段視頻的相似度作為此結(jié)點對的權(quán)值，并生成全相似度矩陣A;步驟32:利用主導(dǎo)集聚類算法，取局部最優(yōu)解中非零分量的標(biāo)號集生成主導(dǎo)集；步驟33:將屬于現(xiàn)有主導(dǎo)集的結(jié)點從當(dāng)前圖中刪除，重復(fù)上述步驟直到結(jié)點圖為空。
7、根據(jù)權(quán)利要求1所述的檢索方法，其特征在于，交互式檢索界面，用于對視頻序列層次和語義層次實施相關(guān)反饋，包括如下采用最優(yōu)查詢相關(guān)反饋技術(shù)通過人機交互方式，用于幫助計算機了解用戶需求，獲得優(yōu)化的查詢向量，適用于直接檢索機制；采用關(guān)系矩陣相關(guān)反饋，用于調(diào)整各數(shù)據(jù)聚類間相互關(guān)系來涵蓋數(shù)據(jù)聚類間的全局語義關(guān)系，適用于基于非監(jiān)督學(xué)習(xí)的檢索機制；語義校正相關(guān)反饋技術(shù)，用于對數(shù)據(jù)對象進行在線的語義校正、擴充數(shù)據(jù)庫，適用于使用語義匹配直方圖的檢索過程。
8、根據(jù)權(quán)利要求7所述的檢索方法，其特征在于最優(yōu)査詢相關(guān)反饋技術(shù)，包括如下用戶對系統(tǒng)初始輸出結(jié)果標(biāo)記相關(guān)和不相關(guān)視頻后，查詢向量優(yōu)化為 j 〗式中fq為原査詢向量，fR、 f,、 NR、 N!為用戶標(biāo)記的相關(guān)視頻和不相關(guān)視頻及其個數(shù)，fq'為優(yōu)化的查詢向量，Wq、 WR、 W,為常系數(shù)。
9、根據(jù)權(quán)利要求7所述的檢索方法，其特征在于，關(guān)系矩陣相關(guān)反饋為如下三個步驟步驟a:初始關(guān)系矩陣，計算任意兩聚類中心間的相似度得到初始關(guān)系矩陣為式中Centroid—i,CentroidJ為兩聚類中心，distance()為某距離函數(shù)；步驟b:更新關(guān)系矩陣，關(guān)系向量F(x)表示給定對象和各聚類中心的相似度為= exp(-l * tan ce(x,Ce" ro/<i — 式中x為視頻對象特征向量，Centroid—i為某聚類中心，distance() 為某距離函數(shù)； ' 關(guān)系矩陣公式按下式進行更新式中q為查詢向量，fR、 ft、 NR、 N,為用戶標(biāo)記的相關(guān)視頻和不相關(guān)視頻及其個數(shù)，k為更新次數(shù)；步驟C:使用關(guān)系矩陣檢索，對于某一查詢請求，在關(guān)系矩陣中找到N個最相關(guān)聚類，再從中返回查詢結(jié)果；在每次反饋后，相關(guān)矩陣的更新將被保存，使得性能提升得以累積。
10、根據(jù)權(quán)利要求7所述的檢索方法，其特征在于，語義校正相關(guān)反饋技術(shù)的具體步驟如下步驟d:根據(jù)用戶反饋意見，得到相關(guān)視頻集RS和不相關(guān)視頻集IS;步驟e:對相關(guān)視頻集RS和不相關(guān)視頻集IS分別計算均值向量 RMV和均值向量IMV;步驟f:在均值向量RMV中找出最大數(shù)值的兩個分量RD和RD2，表示對應(yīng)該視頻最相關(guān)的兩個主題；步驟g:在均值向量IMV中找到最大數(shù)值的分量ID，表示最不相關(guān) 的主題；步驟h:如果(ID = = RD1)RD = RD2，執(zhí)行步驟i;步驟i:優(yōu)化查詢的語義匹配直方圖Query—SMH網(wǎng)=1 ， Query一SMH[ID] = 0;步驟j:將新的特征存入數(shù)據(jù)庫，重新檢索。
全文摘要
本發(fā)明公開一種基于非監(jiān)督學(xué)習(xí)和語義匹配特征的交互式視頻檢索方法，步驟包括在視頻數(shù)據(jù)庫的視頻圖像幀層次提取圖像底層特征、提取模型匹配序列特征；在圖像底層特征的高級語義層次提取語義匹配特征；對提取模型匹配序列特征和語義匹配特征進行非監(jiān)督學(xué)習(xí)，建立基于非監(jiān)督學(xué)習(xí)的檢索和直接檢索，通過相關(guān)反饋形成交互界面。本發(fā)明集成視頻的中層特征、高層特征、非監(jiān)督檢索機制和交互機制，構(gòu)成一套新型完整的視頻檢索系統(tǒng)，精確的衡量了視頻對象的時空序列信息，達到良好的檢索效果，發(fā)展了對體育視頻主題的語義理解，降低了系統(tǒng)的在線計算復(fù)雜度和檢索時間，最后通過交互界面大幅度提高了系統(tǒng)的檢索性能。
文檔編號G06F17/30GK101281520SQ200710065180
公開日2008年10月8日申請日期2007年4月5日優(yōu)先權(quán)日2007年4月5日
發(fā)明者李華北, 胡衛(wèi)明申請人:中國科學(xué)院自動化研究所

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡衛(wèi)明;李華北
技術(shù)所有人：中國科學(xué)院自動化研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于非監(jiān)督學(xué)習(xí)和語義匹配特征交互式體育視頻檢索方法