專利名稱:一種基于草圖的超視頻構(gòu)建方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機應(yīng)用技術(shù)領(lǐng)域,具體涉及ー種基于草圖的超視頻構(gòu)建方法。
背景技術(shù):
隨著數(shù)碼設(shè)備的普及和互聯(lián)網(wǎng)技術(shù)的發(fā)展,視頻資源數(shù)量呈海量式增長。人們不再滿足于傳統(tǒng)單一的線性視頻的利用方式,此外對檢索視頻信息、快速獲得視頻主要內(nèi)容以及高效的瀏覽視頻也提出了更高的·要求。研究者們開始研究在傳統(tǒng)視頻中融入各種交互技術(shù)以滿足人們的這種需求。其中,超視頻就是ー種在視頻流中嵌入超鏈接的非線性結(jié)構(gòu)視頻,它使得用戶可以根據(jù)視頻內(nèi)容的語義相關(guān)性在多個視頻之間跳轉(zhuǎn),實現(xiàn)基于內(nèi)容的視頻瀏覽(參考文獻Hammoud RI. Introduction to Interactive Video [N]. BerlinHeidelberg Springer, 2006. 3-25)。與傳統(tǒng)視頻相比較,超視頻為瀏覽者提供了更豐富的交互方式,使視頻間的非線性瀏覽成為可能。
事實上,組織與構(gòu)造具有交互特性的超視頻難度很大。首先,由于視頻自身結(jié)構(gòu)的特點,當前視頻的操作方式主要采用基于時間軸、或基于幀的交互方式。然而,時間軸與視頻內(nèi)容的分離性造成用戶在交互時手腦不一致,無法基于視頻內(nèi)容快速定位;幀記錄了視頻某ー時刻的靜態(tài)圖像,不能描述一段時間內(nèi)的動態(tài)的信息,用戶在編輯時將注意力集中于視頻的某ー時刻的細節(jié)上,無法了解前后的相關(guān)內(nèi)容。其次,視頻是一種動態(tài)的信息流,是由一系列離散的幀圖像按時間順序線性組成。由于視頻信息結(jié)構(gòu)的這種特性,使得人們很難快速的獲得視頻的主要內(nèi)容,也就無法從大量的視頻資源中高效地搜索到目標視頻。這對用戶編輯與構(gòu)造媒體視頻帶來了一定的認知負擔。
此外,目前已有的超視頻構(gòu)建方式大部分仍然是基于時間軸或幀圖像的編輯方式,交互過程缺乏對視頻內(nèi)容及相關(guān)語義上下文的有效支持,視頻編輯過程中的交互方式仍很繁瑣。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于草圖的超視頻構(gòu)建方法,從而解決當前超視頻構(gòu)造過程中存在的依賴技術(shù)難度大、交互復雜等問題,實現(xiàn)超視頻的自然、高效的構(gòu)建與瀏覽。本發(fā)明提供了一種基于草圖的超視頻構(gòu)建方法,并據(jù)此實現(xiàn)了基于草圖的超視頻編輯器和基于草圖的超視頻瀏覽器兩個子系統(tǒng)。
為實現(xiàn)上述目的,本發(fā)明采用如下的技術(shù)方案 —種基于草圖的超視頻構(gòu)建方法,其步驟為 I)創(chuàng)建各目標視頻的情景草圖,建立草圖與目標視頻的隱性語義關(guān)聯(lián)關(guān)系; 2)根據(jù)創(chuàng)建的情景草圖搜索目標視頻資源,向各目標視頻資源中分別添加注釋草圖,建立不同視頻資源之間的顯性語義關(guān)聯(lián)關(guān)系; 3)設(shè)置注釋草圖的行為屬性,建立當前草圖所表征的目標視頻與其它目標視頻資源之間的關(guān)聯(lián)關(guān)系,得到目標視頻資源的超視頻; 其中,所述隱性語義關(guān)聯(lián)關(guān)系或所述顯性語義關(guān)聯(lián)關(guān)系采用關(guān)系映射圖SemanticMap =〈V, E>描述,其中V為頂點v的集合,頂點v代表一段視頻,其包括若干語義段SemanticClip,頂點v及語義段SemanticClip記錄對應(yīng)的視頻信息和該段視頻所對應(yīng)的草圖信息;E為邊e的集合,邊e記錄了從視頻Vi到vj、或同一視頻內(nèi)從語義段SemanticClipi到SemanticCl ip j、或視頻vi與其它視頻的語義段SemanticClipj之間的語義關(guān)聯(lián)關(guān)系;所述草圖包括情景草圖和注釋草圖。
進一步的,所述邊e =〈Vi, Vj, T> I〈SemanticClipi, SemanticCl ip j,T> I〈SemanticClipi, Vj, T> ;其中,T記錄了連接邊e的兩端點之間的遷移條件。
進ー步的,所述T =〈Sketch, Trigger, Action〉,即邊e的起始點所附屬的草圖Sketch接收觸發(fā)條件Trigger后,從當前狀態(tài)節(jié)點遷移至新狀態(tài)節(jié)點,Action為草圖所能響應(yīng)的行為類型。
進一步的,所述行為屬性定義為Behavior = (Trigger, Action, Appendedlnfo),其中Trigger為動作的觸發(fā)條件,Action為草圖所能響應(yīng)的行為類型,Appendedlnfo為行為的附屬信息。
進ー步的,所述草圖的數(shù)據(jù)格式為 <Sketch>:: = {<SemanticCluster>}[Constraints] <SemanticCluster>:: = {<StrokeGroup>}[Constraints]<Behavior> 〈Constraints〉 = [GeometryConstraints] [DomainConstraints][ContextConstraints] 〈Stroke〉 = <Points><DownTime><UpTimeXVe IocityX Inf IexionXDirection> 〈Points〉 = {〈Point〉}〈FramePosition〉 其中,草圖Sketch由若干草圖簇SemanticCluster及草圖簇間的約束Constraints構(gòu)成,SemanticCluster由若干嵌套的筆劃組StrokeGroup及筆劃間的約束Constraints 構(gòu)成,GeometryConstraints 為幾何約束、DomainConstraints 為領(lǐng)域知識約束、ContextConstraint為交互上下文約束,Stroke為草圖的基本組成元素筆跡,筆跡是指筆尖從落下到抬起的一段完整的筆劃,Points為采樣點的集合、DownTime為筆尖落下的時刻、UpTime為筆尖抬起的時刻、Velocity為筆尖的運動速度、Inflexion記錄了筆跡的彎曲程度、Direction記錄了筆尖的運動方向,Point為筆跡的基本組成元素采樣點、FramePosition為采樣點所對應(yīng)的視頻相關(guān)時間、空間信息。
進ー步的,所述創(chuàng)建各目標視頻的情景草圖,建立草圖與目標視頻的隱性語義關(guān)聯(lián)關(guān)系的方法為 I)對用戶實時繪制的草圖筆跡進行成組聚簇; 2)將經(jīng)過實時聚簇后得到的草圖簇與保存在視頻資源庫中的歷史草圖逐一比較,以檢索到包含該草圖簇的視頻資源; 3)將后續(xù)新輸入的草圖筆跡聚簇成草圖簇后對上一歩得到的檢索結(jié)果繼續(xù)進行匹配檢索,如此反復,最終完成情節(jié)草圖的構(gòu)建,實現(xiàn)草圖與視頻隱性語義關(guān)系的建立。
進ー步的,所述將經(jīng)過實時聚簇后得到的草圖簇與保存在視頻資源庫中的歷史草圖逐一比較的方法為 I)計算兩待比較草圖的顔色特征,所述顏色特征包括顔色平均值和顏色分布特征; 2)計算各顔色屬性的采樣點總數(shù)在草圖總采樣點數(shù)中所占比例,將小于預定義比例閾值的顏色項從該顏色分布特征向量中去除; 3)若待比較草圖的顔色分布特征的維度不相同,則先對齊兩個草圖的顔色分布特征的維度;顏色分布特征維度滿足條件后,進行顏色相似性度量,得到兩草圖的顔色相似度距離; 4)對顏色相似度距離進行歸ー化處理后,選取草圖的形狀特征和空間結(jié)構(gòu)特征; 5)將滿足形狀特征、空間結(jié)構(gòu)特征和顔色特征的相似度度量標準的草圖作為候選結(jié)果。
進ー步的,所述向各目標視頻資源中分別添加注釋草圖的方法為 I)從視頻流中抽取符合拼接條件的視頻幀圖像拼接成一全景圖,作為構(gòu)建注釋草圖的靜態(tài)背景和容器; 2)將注釋草圖筆跡的采樣點在全景圖中的空間坐標位置變換至視頻的幀圖像空間,得到采樣點在原始視頻中的時空坐標,建立草圖與視頻的映射關(guān)系; 3)跟蹤并提取注釋草圖所關(guān)聯(lián)的視頻前景對象的運動軌跡,并據(jù)此確定該注釋草圖運動路徑。
進ー步的,所述全景圖的構(gòu)建方法為 I)利用SIFT算法從視頻幀圖像中提取特征點; 2)根據(jù)視頻幀內(nèi)容動態(tài)確定抽取視頻幀的時間間隔,對視頻幀進行抽??;所述時間間隔0 = INT(N/Delt),N為連續(xù)幀個數(shù),Delt為幀圖像間的特征點平均偏移量; 3)通過對抽取的視頻幀間的特征點進行匹配,獲取鄰近幀之間的位置對應(yīng)關(guān)系,從而將多個幀圖像映射到同一圖像空間,完成視頻全景圖的拼接。
進ー步的,所述跟蹤并提取注釋草圖所關(guān)聯(lián)的視頻前景對象的運動軌跡,并據(jù)此確定該注釋草圖運動路徑的方法為 I)逐一計算注釋草圖覆蓋區(qū)域的SIFT特征點與鄰近幀圖像上的SIFT特征點的歐式距離,得到所有連續(xù)幀上的匹配特征點; 2)根據(jù)特征點的鄰域采樣點的梯度方向分布特征指定各特征點的方向,選擇特征點的鄰域采樣點的梯度的模值最大的梯度方向作為關(guān)鍵特征點的方向; 3)通過鄰近幀圖像上的特征點的時空坐標插值得到前景對象的運動軌跡,從而確定相應(yīng)注釋草圖的運動軌跡。
本發(fā)明的主要內(nèi)容如下 (I)本發(fā)明采用草圖作為信息的主要描述載體。草圖是ー種形象化信息,具有較高的抽象性和模糊性,能夠較好的表達和描述用戶的模糊意圖,特別適宜用于概念設(shè)計階段。本發(fā)明利用草圖描述用戶的設(shè)計意圖與交互命令,構(gòu)建基于草圖形式的場景圖及抽象的語義關(guān)系映射圖以描述視頻資源的主要內(nèi)容以及它們相互之間的語義關(guān)系,包括不同視頻之間以及同一視頻內(nèi)部不同場景之間的關(guān)聯(lián)關(guān)系。場景圖和語義關(guān)系映射圖從不同側(cè)面描述了超視頻的組織構(gòu)成,彼此對應(yīng)一致。用戶能夠通過與草圖的交互間接實現(xiàn)對視頻的操縱和控制,從而增強了視頻的交互性。
(2)本發(fā)明通過分析視頻基本語義及其相互關(guān)系,定義了語義關(guān)系映射圖SemanticGraph,并據(jù)此給出了用于描述不同層次的視頻語義及關(guān)系描述的草圖的定義。
(2. 1)視頻根據(jù)情節(jié)可分割為若干相對獨立的語義段。這些視頻片段在物理結(jié)構(gòu)上是線性排列的,但在語義上可能是相互交錯關(guān)聯(lián)的。此外,不同的視頻在物理上是分散、獨立的,但在語義上也可能存在關(guān)聯(lián)關(guān)系。視頻資源之間的關(guān)聯(lián)關(guān)系劃分為并列關(guān)系和遞進關(guān)系,其中,并列關(guān)系是指兩個或多個視頻資源在內(nèi)容上陳述相關(guān)的情節(jié),它們之間沒有明顯的先后次序之分;遞進關(guān)系指兩個或多個視頻資源在內(nèi)容上存在遞進關(guān)系,具有有較為明顯的先后之分。
視頻內(nèi)與視頻間的這種相互交錯的語義關(guān)聯(lián)關(guān)系可以用語義關(guān)系映射圖描述。定義視頻語義關(guān)系映射圖SemanticMap =〈V, E>,其中V為頂點集合。頂點v由視頻及相應(yīng)的草圖信息組成。其中,視頻段可進ー步分割為若干相對獨立的語義段SemanticClip,語義段SemanticClip除記錄了對應(yīng)的視頻信息外,還包括該段視頻所對應(yīng)的草圖信息,即 V = {Set〈SemanticClip>, Set〈Sketch>}; SemanticClip = {VideoClipi, Set〈Sketch>,0 < i < n}; Set<Sketch>是ー組草圖信息的集合;設(shè)頂點v所包含的視頻可劃分為n段視頻段VideoClip,姆一個SemanticClip包含其中某段視頻段VideoClipi及該VideoClip所對應(yīng)的草圖信息的集合。
E 為邊 e 的集合,e = <Vi, Vj, T> |〈SemanticClipi, SemanticCl ip j,T> I〈SemanticClipi, Vj, T>。邊e記錄了從視頻vi到vj、同ー視頻內(nèi)從語義段SemanticClipi到SemanticClipj或視頻vi與其它視頻的語義段SemanticClip j之間的語義關(guān)聯(lián)關(guān)系。T記錄了連接邊e的兩端點之間的遷移條件,T =〈Sketch, Trigger, Action〉,即邊e的起始點所附屬的草圖Sketch接收觸發(fā)條件Trigger后,產(chǎn)生相應(yīng)的動作響應(yīng)Action,從當前狀態(tài)節(jié)點遷移至新狀態(tài)節(jié)點。
(2. 2)與傳統(tǒng)草圖基本定義不同,本發(fā)明的草圖不僅具有表征視頻語義的描述能力,同時也具有一定的行為響應(yīng)能力,包括形狀屬性和行為屬性兩部分。行為屬性描述了草圖接收外界刺激后的反饋機制,包含命令觸發(fā)條件和響應(yīng)動作類型。草圖定義為 <Sketch>:: = {<SemanticCluster>}[Constraints] <SemanticCluster>:: = {<StrokeGroup>}[Constraints]<Behavior> 〈Constraints〉 = [GeometryConstraints] [DomainConstraints][ContextConstraints] くStroke〉 = くPointsXDownTimeXUpTimeXVelocityXInflexionXDirection> 〈Points〉 = {〈Point〉}〈FramePosition〉 Sketch由若干具有相對完整語義的草圖簇SemanticCluster及草圖簇間的約束Constraints構(gòu)成。其中,SemanticCluster由若干嵌套的筆劃組StrokeGroup及筆劃間的約束Constraints構(gòu)成。Constraints描述了與草圖相關(guān)的各種約束信息,包括幾何約束、領(lǐng)域知識約束以及交互上下文約束等。Stroke為草圖的基本組成元素筆跡,筆跡是指筆尖從落下到抬起的一段完整的筆劃,Points為采樣點的集合、DownTime為筆尖落下的時刻、UpTime為筆尖抬起的時刻、Velocity為筆尖的運動速度、Inflexion記錄了筆跡的彎曲程度、Direction記錄了筆尖的運動方向,Point為筆跡的基本組成元素采樣點、FramePosition為采樣點所對應(yīng)的視頻相關(guān)時間、空間信息。由于草圖與視頻具有對應(yīng)關(guān)系,因此筆跡的采樣點Point還可以記錄草圖與視頻流的映射關(guān)系。草圖的行為屬性定義為 Behavior = (Trigger, Action, Appendedlnfo)。Trigger 定義了動作的觸發(fā)條件,Action為草圖所能響應(yīng)的行為類型,Appendedlnfo記錄了行為的附屬信息,如運動的路徑等。
(2. 3)通過構(gòu)建情景草圖和注釋草圖兩類信息建立視頻語義間各種關(guān)系的描述。注釋草圖是添加在視頻內(nèi)部的補充性說明信息,用于補充或說明視頻對象附屬信息或用戶批注。注釋草圖在視頻瀏覽過程中作為顯性標注呈現(xiàn),并響應(yīng)用戶交互需求,通過其行為屬性能夠建立多個視頻資源之間的遞進關(guān)系。情景草圖能夠描述一段視頻完整情節(jié)語義,是構(gòu)建在視頻外部的草圖,它依據(jù)用戶對視頻內(nèi)容認知理解,通過草圖自身的場景描述能力將在物理上分散的不同視頻依據(jù)用戶意圖按照某種規(guī)則組織起來,建立了不同視頻資源之間的隱性的語義并列關(guān)系。
(3)基于草圖的超視頻構(gòu)造過程大致可分為三個階段捜索目標視頻、組織與編輯視頻資源以及預覽,如圖I所示。捜索目標視頻時,用戶手工繪制情景草圖,系統(tǒng)通過匹配手繪的情景草圖與歷史草圖的相似程度從視頻資源庫中檢索目標視頻,并實時向用戶動態(tài)推薦草圖結(jié)果,輔助情景草圖繪制。此過程建立了草圖與視頻之間隱含的關(guān)聯(lián)關(guān)系。編輯視頻時,用戶在視頻中添加注釋草圖,并利用注釋草圖建立不同視頻或不同語義段之間的顯性關(guān)聯(lián)關(guān)系。
(3. I)構(gòu)建情景草圖 用戶在構(gòu)建的過程中通過從資源庫中直接拖拽的方式選擇目標視頻資源,或利用手繪情景草圖的方式捜索目標視頻以構(gòu)建情景草圖。資源庫中記錄了視頻資源、各類歷史草圖及各自屬性和約束關(guān)系。其中,歷史草圖包括用戶先前在視頻中所標注的各類草圖標簽、草圖形式視頻摘要等。用戶憑借對視頻內(nèi)容的認知和記憶程度繪制草圖,系統(tǒng)通過比較當前手繪草圖與資源庫中的歷史草圖的相似程度,捜索目標視頻,從而建立視頻資源與當前手繪草圖的隱性關(guān)聯(lián)關(guān)系。本發(fā)明的通過手繪草圖的方式檢索目標視頻,實現(xiàn)情景草圖與目標視頻的映射關(guān)系的構(gòu)建的方法為 a)筆跡聚簇 匹配過程中首先要對用戶實時繪制的草圖筆跡進行成組聚簇。利用文獻(參考又獻Leung HWH. Representations, feature extraction, matching and relevancefeedback for sketchretrieval[D]. Pittsburgh Carnegie Mellon University,2003)所述算法,將輸入的筆跡經(jīng)過等距重采樣、分割與合并等預處理,所有筆跡被識別為三類基本圖元線段、圓和多邊形。用戶在繪制草圖時,經(jīng)常反復描繪用于強調(diào)或說明某種意圖,或在已有筆跡后補筆。這種重描、補筆等典型的草圖效果也將作為一個整體加以識別與處理。
為了盡可能不中斷用戶的連續(xù)輸入過程,系統(tǒng)在用戶繪制過程中主動利用筆跡的空間位置信息將連續(xù)輸入的草圖聚合成組。當輸入新筆劃后,系統(tǒng)計算新輸入筆跡S1與歷史筆跡組Oi的空間的鄰近關(guān)系。新輸入筆跡與歷史筆跡組的空間距離定義為S1與Oi中包含的所有筆跡的距離的最小值,即: Dist (S1, Oi) = Min {f (S1, Sj)}, Sj G Oi 其中f (S1, Sj) = dx+@ dy。依次計算S1與所有歷史筆跡組的空間距離,選出距離最小者,判斷該距離是否小于閾值。若是則認定S1與該筆跡組鄰近,將其歸入其中。同理,更新后的筆跡組進ー步通過距離測試判斷它所歸屬的草圖簇。
b)語義對象匹配 經(jīng)過實時聚簇后得到的草圖簇與保存在資源庫中的歷史草圖逐一比較,以檢索到包含該草圖簇所描述的相對獨立對象的視頻資源。由于基于草圖的視頻檢索的最終目標對象是草圖所描述的視頻,因此顏色作為對象的ー個重要屬性可有效的輔助結(jié)果篩選,提高視頻檢索效率。定義草圖的顏色特征描述符由草圖的顏色平均值F。。-和顔色分布特征C描述。
Descriptor_color = (Fcolor, C};
C= { a JF1, a 2F2,…a mFj ^i = Count(Fi)A ; 顔色分布特征C記錄了當前草圖幾種主要構(gòu)成顏色的分布情況。其中,F(xiàn)i是顏色值,a是具有該顏色屬性的采樣點總數(shù)在草圖總采樣點數(shù)中所占比例,T是當前草圖總采樣點數(shù)。對于a小于預定義閾值的顏色項,將其視為噪聲從該顏色分布特征向量中去除,保留的顔色特征能夠反應(yīng)該草圖主要構(gòu)成顏色。
若待比較草圖的顔色分布特征的維度不相同,則先要對齊兩個特征的維度。假設(shè)Ca = Cb =,k > m。將 Ca 和 Cb 按照顏色分布比例系數(shù)a進行降序排列。如果((ん-WHDUOaf-く |>72),即認為待比較草圖在顔色分布上不具有相似性,否則舍棄Cb后(k-m)項,更新Cb為包含前m項的顏色分布特征向量。顔色分布特征維度滿足條件后,進行顏色相似性度量。令AF和AC代表待比較草圖顔色特征差異程度。
則兩幅草圖之間的顏色特征距離可以通過如下公式計算 Scolor = S1 X AF + 52 X AC,其中,為對應(yīng)顔色特征距離的權(quán)重系數(shù),初始各自設(shè)置為0. 5,根據(jù)草圖樣本實際訓練中進行調(diào)整。
對顏色相似度距離進行歸ー化處理后,依據(jù)文獻(參考文獻Leung HWH.Representations, feature extraction, matching and relevance feedback for sketchretrieval [D]. Pittsburgh Carnegie Mellon University, 2003)所闡述方法,選取草圖的形狀特征和空間結(jié)構(gòu)特征。其中,草圖的形狀特征由組成各筆跡的基本圖元的基本幾何特征描述,包括起點到終點的距離、筆跡覆蓋面積與凸包面積之比、周長比等。空間關(guān)系特征由草圖構(gòu)成元素筆跡間的位移向量描述。利用待比較草圖各自構(gòu)成筆跡元素的形狀特征距離和空間關(guān)系特征距離的聯(lián)合Sshape+spatial來度量待比較草圖在形狀和空間關(guān)系特征方面的相似程度。
依據(jù)如下公式計算全局匹配程度 S ^shape+spatial X Sshape+spatial+Wcoior X Sco^or 其中,w為對應(yīng)距離的權(quán)重系數(shù),由于形狀及空間關(guān)系特征相比較于顏色特征對草圖對象具有更強的描述能力和區(qū)分度,因此在全局匹配中,形狀和空間關(guān)系特征占據(jù)較大的權(quán)重比例,初始分別設(shè)置為0. 8和0. 2,進而根據(jù)草圖實際樣本在訓練中進行調(diào)整。最終,滿足形狀、空間結(jié)構(gòu)和顔色特征的相似度度量標準的草圖對象作為候選結(jié)果,并按其相似程度按序排列至候選隊列中。
c)場景匹配 由于情景草圖描述了一幅相對完整場景,在對象匹配的基礎(chǔ)上,可進ー步將新輸入的草圖簇與已完成輸入的草圖簇共同作為新的匹配條件,依據(jù)它們所表征的語義對象的組成和空間關(guān)系特征進行更高ー級的場景匹配。鑒于手繪草圖具有較大的用戶差異性,不同用戶對相同視頻的理解程度和繪制習慣有所不同,為減輕用戶的交互負擔,系統(tǒng)實時根據(jù)當前輸入草圖特征為用戶提供智能推薦。在實際輸入過程中,從資源庫中經(jīng)過不同層次匹配后的歷史草圖按其與手繪草圖的相似程度排列,通過智能推薦的方式呈現(xiàn)予用戶。智能推薦一方面可快速向用戶提供候選結(jié)果,減少用戶的繪制過程;另ー方面,推薦的歷史草圖可作為ー種標準,供用戶繪制時參考,以減輕用戶構(gòu)建情景草圖時的認知負擔。
如此反復,最終完成情節(jié)草圖的構(gòu)建,實現(xiàn)草圖與視頻隱性語義關(guān)系的建立。
(3. 2)構(gòu)建注釋草圖 注釋草圖一般作為視頻內(nèi)容的增強或補充構(gòu)建于視頻中,它建立了不同視頻資源之間的顯性的語義關(guān)聯(lián)關(guān)系,同時通過在注釋草圖中設(shè)置注釋草圖的行為屬性信息,建立當前草圖所表征的視頻與其它視頻資源之間的關(guān)聯(lián)關(guān)系。添加在幀上的注釋草圖與視頻內(nèi)容的有機融合是構(gòu)建注釋草圖的關(guān)鍵問題之一。一般的在視頻里添加注釋多采用基于幀的直接編輯方式,通過操縱時間軸確定對象生存周期。這種基于時間軸間接控制對象的方式脫離了視頻內(nèi)容,不符合人對信息的感知習慣,且新添注釋通常是靜態(tài)的,難以隨視頻內(nèi)容動態(tài)變化。本文考慮基于文獻(參考文獻Szelisk R. Image alignment and stitching autorial[J]. Foundations and Trends in Computer Graphics and Vision,2006,2(I)1-104)中所述全景圖構(gòu)建方法,借助視頻流的連續(xù)特性,抽取符合拼接條件的視頻幀圖像拼接成一幅完整的全景圖,作為注釋草圖構(gòu)建的靜態(tài)背景和容器。這種基于視頻全景圖的方式能夠為用戶提供豐富的視頻語義上下文,輔助注釋草圖與視頻有機融合。相對于通常靜止的背景,我們將運動的對象視為前景対象。作用在靜態(tài)背景上的注釋草圖需要與鏡頭運動保持一致性;作用在動態(tài)的前景對象上的注釋草圖通常需要與前景對象保持一致的運動軌跡。因此,注釋草圖與視頻前景和背景的融合采用不同方法作用在靜態(tài)背景上的注釋草圖利用視頻信息的連續(xù)性特征,通過構(gòu)建視頻全景圖實現(xiàn)注釋草圖與各幀圖像之間的映射,達到融合的目的;添加在視頻前景對象上的注釋草圖通過預先提取前景對象的運動軌跡定義草圖對象的運動路徑,實現(xiàn)二者的融合。
a)全景圖構(gòu)建 同一鏡頭下的前后相鄰的幀的內(nèi)容變化通常比較微小,為減少圖像拼接的計算復雜度,采取抽幀方式選取待拼接的視頻幀。幀抽取的間隔不宜過小,否則會引起冗余的計算,但過稀疏的抽取也會導致草圖映射至原始視頻空間中位置坐標準確度損失。因此,在此根據(jù)視頻幀內(nèi)容動態(tài)確定抽取的時間間隔閾值。待拼接圖像的重疊區(qū)域需達到一定面積才能保證全景圖的拼接質(zhì)量,采用不同的全景圖拼接算法對重疊區(qū)域面積的要求有所不同。在此,我們以匹配的特征點數(shù)目占所有的特征點數(shù)目的比值(默認為1/3)作為度量圖像重疊程度的標準。
首先,利用SIFT(全稱 Scale Invariant Feature Transform)特征匹配算法(麥考又獻DavidG. Lowe, " Distinctive image features from scale-invariantkeypoints, " International Journal ofComputer Vision,60,2 (2004), pp. 91-110.)從視頻幀圖像中提取特征點。將不同尺度的高斯差分核與圖像卷積生成幀圖像的高斯差分尺度空間。對于每一個采樣點,比較其與相鄰8個點和上下相鄰兩個尺度的18個點,確定尺度空間極值,從而得到幀圖像的特征點。
其次,確定幀抽取時間間隔。對于N個連續(xù)幀,幀圖像間的特征點平均偏移量為·Delt,幀抽取時間間隔0與幀的總數(shù)成正比,與特征點平均偏移量成反比,記為 0 = INT (N/Delt) 最后,通過抽取的視頻幀間的特征點匹配,獲取鄰近幀之間的位置對應(yīng)關(guān)系,從而將多個幀圖像映射到同一圖像空間,完成視頻全景圖的拼接。
b)草圖與背景融合 以采樣點為基本計算單位。筆跡中的每ー個采樣點在全景圖空間中具有唯一確定的空間坐標,利用3X3的變換矩陣H將采樣點在全景圖中的空間坐標位置變換至視頻的幀圖像空間,即可得其在原始視頻中時空坐標,建立草圖與視頻的映射關(guān)系,如公式(I)所描述。其中,矩陣H為拼接視頻全景圖時所得到的變換矩陣的逆向矩陣,W為比例系數(shù),(x,y)是草圖在視頻全景圖中的坐標信息,(X' ,1')是對應(yīng)草圖在視頻的幀圖像上的位置。圖4說明了原始幀與注釋后的幀對比情況。
c)草圖與前景對象融合 草圖與視頻前景融合時,需要根據(jù)幀圖像的SIFT特征點跟蹤并提取注釋草圖所關(guān)聯(lián)的視頻前景對象的運動軌跡,并據(jù)此確定該注釋草圖運動路徑,使二者保持基本一致的運動軌跡,以達到草圖與前景對象融合的目的。首先逐一計算注釋草圖覆蓋區(qū)域的SIFT特征點與鄰近幀圖像上的SIFT特征點的歐式距離,即可得到所有連續(xù)幀上的匹配特征點。通過特征點的鄰域采樣點的梯度方向分布特征指定各特征點的方向,選擇特征點的領(lǐng)域采樣點的梯度的模值V/kW最大的梯度方向作為關(guān)鍵特征點的方向。
然后,通過鄰近幀圖像上的特征點的時空坐標插值得到前景對象的運動軌跡,從而確定相應(yīng)注釋草圖的運動軌跡,實現(xiàn)草圖與視頻對象的融合,如圖5所示。
(3. 3)編輯語義關(guān)系映射圖 a)同步編輯 場景圖和語義關(guān)系映射圖是從不同視角描述同一個超視頻的兩層視圖,二者在編輯過程中保持同步一致,對任意一方的編輯都會引起另ー個視圖的變化。ニ層視圖的同步編輯主要體現(xiàn)在兩個方面節(jié)點編輯、連接線編輯和子圖合井。
關(guān)于節(jié)點編輯,本發(fā)明采用筆手勢對任何ー種視圖的進行編輯,如刪除節(jié)點、移動節(jié)點等。筆手勢是指由數(shù)字筆的筆劃作為控制命令,與超視頻交互。不同的筆手勢對應(yīng)不同的交互含義。筆手勢的識別可以采用常用的Rubine手勢識別算法(參考文獻RubineD.Specifying gestures by example. ACM SIGGRAPH Computer Graphics,1991,25(4),329-337.)。
關(guān)于瀏覽路徑重定義,生成的情節(jié)草圖有默認的瀏覽次序,用戶通過在全局情節(jié)草圖中根據(jù)特定需求手繪草圖路徑實現(xiàn)重新定義新的瀏覽次序。草圖路徑為單向有向路徑,草圖節(jié)點按照草圖路徑經(jīng)過的順序重新排列瀏覽次序,未經(jīng)過的草圖節(jié)點則視為未包含節(jié)點,不在默認瀏覽次序中。
關(guān)于子圖合并,對于已構(gòu)建的兩個不同的超視頻,可以建立不同節(jié)點之間的語義關(guān)系(包括超鏈接、時序順序、用戶自定義語義關(guān)系等),從而將兩個不同的超視頻依據(jù)某個特定的語義關(guān)系連接起來,組成ー個新的超視頻。合并的超視頻重新調(diào)整各個節(jié)點的空間位置,生成對應(yīng)的新的ニ層視圖。
b)調(diào)整瀏覽速度 本發(fā)明提出一種基于連接線的視頻播放速率調(diào)整方法。傳統(tǒng)的對于質(zhì)量較低或用戶不關(guān)心的視頻內(nèi)容一般采用拖動時間條或點擊按鈕的方式快進或略過,這種操作方式難以根據(jù)用戶需求或視頻內(nèi)容自由控制調(diào)節(jié)?;谶B接線的視頻播放速率調(diào)整方法銅鍋拖拽連接不同草圖節(jié)點間的連接線的控制點,改變連接曲線形狀,從而達到對視頻片段播放速度的控制目的,且不同區(qū)域可以設(shè)定不同的播放速率。連接草圖節(jié)點的連接線被分割為若干段,每一段是獨立的貝塞爾曲線,代表ー個鏡頭。拖動前連接線初始狀態(tài)如圖7(a)所示,假設(shè)Ptl和P1是一段貝塞爾曲線的兩個端點,C1為曲線的控制點,直線PtlC1、C1P1與曲線相切,控制曲線的形狀。
B (t) = (l_t) 2P0+2t (l_t) C^t2P1 曲線初始為直線,控制點C1的初始位置為線段的中點位置。當拖動控制點時,對應(yīng)的曲線的形狀發(fā)生改變,該曲線所對應(yīng)的鏡頭的播放速度隨曲線形狀變化,拖動后連接線狀態(tài)如圖7(b)所示。播放速度與線段QtlQ1的長度呈反比例關(guān)系。
Q0 (t) = (l-t)P0+tC1 !Q1 (t) = (1-t) C^tP1 ratw=\mt)-Qmf 通過調(diào)整連接線的方式調(diào)節(jié)鏡頭播放速度的方式能夠向用戶提供ー種較為直觀的調(diào)節(jié)方式,且將連接線分割為若干獨立的二次貝塞爾曲線可以保證鏡頭調(diào)整之間的獨立性,調(diào)整某個鏡頭速度不會影響到相鄰鏡頭的速度。
綜上,和現(xiàn)有技術(shù)相比,本發(fā)明具有的優(yōu)點和積極效果如下 I、本發(fā)明支持用數(shù)字筆繪制草圖的方式編輯超視頻,采用筆手勢的交互方式操縱、瀏覽超視頻,符合概念設(shè)計初期人的認知習慣。
2、本發(fā)明將草圖用于超視頻的構(gòu)造過程中,將物理上分散的視頻資源按照一定的語義關(guān)系組織起來,能夠很好的表現(xiàn)視頻間的復雜語義關(guān)系,實現(xiàn)了面向高層語義的超視頻構(gòu)建。
3、本發(fā)明提供了多種視頻媒體的瀏覽方式,滿足了用戶的多種需求,打破了傳統(tǒng)的單ー線性被動瀏覽方式。
圖I基于早圖的超視頻構(gòu)造流程圖; 圖2草圖匹配流程; 圖3情景草圖構(gòu)建不例; (a)檢索穿紅色衣服的人的視頻;(b)檢索正在跑步的穿紅色衣服的人的視頻;(C)檢索在一座房子前跑步的、穿紅色衣服的人的視頻; 圖4視頻全景圖及原始幀與注釋后的幀對比; (a)視頻全景圖;(b)第80幀對比;(C)第90幀對比 圖5早圖與視頻運動對象; 圖6示例及編輯語義關(guān)系映射圖; (a)基于草圖表征語義的超視頻示例一 ;(b)基于草圖表征語義的超視頻示例ニ ; (C)合并兩個語義關(guān)系映射圖 圖7調(diào)整瀏覽速度; (a)拖動前連接線初始狀態(tài),(b)拖動后連接線狀態(tài)。
具體實施例方式為了使本技術(shù)領(lǐng)域的一般技術(shù)人員更好的理解本發(fā)明,以下結(jié)合附圖進ー步詳細描述本發(fā)明所提供的超視頻的構(gòu)建與編輯系統(tǒng),但不構(gòu)成對本發(fā)明的限制。
超視頻由一幅完整的情節(jié)草圖構(gòu)成,它又進一歩可分解為若干描述相對完整個體語義的草圖簇。用戶在繪制過程中,系統(tǒng)通過匹配手繪草圖與視頻庫中歷史草圖的相似程度,建立了草圖與視頻資源的匹配關(guān)系。用戶也可以通過直接拖拽的方式選擇視頻資源。如圖6(a)中虛線框所示草圖簇為例,它實質(zhì)上代表了其自身語義所描述的一段視頻或視頻片段。構(gòu)建的情景草圖作為描述全局內(nèi)容的導航圖將這些分散的視頻資源根據(jù)用戶對視頻內(nèi)容的理解按照一定的語義關(guān)系非線性組織在一起。
視頻之間的語義關(guān)系有顯式或隱式的兩種描述方式。隱性的關(guān)聯(lián)關(guān)系如圖6(a)中鏈接①所示,不同的視頻資源是根據(jù)用戶手繪草圖所表征的語義聯(lián)系在一起,視頻之間是無條件的順序關(guān)系。顯性的關(guān)聯(lián)關(guān)系如圖6(a)中語義鏈接②所示,用戶通過在當前視頻節(jié)點的視頻全景圖或幀圖像上創(chuàng)建注釋草圖,設(shè)置注釋草圖的行為屬性,建立當前草圖所表征的視頻與其它視頻資源之間的關(guān)聯(lián)關(guān)系。草圖所表征的視頻節(jié)點及它們之間的各種關(guān)系共同構(gòu)成了一幅完整的基于草圖表征視頻語義的非線性超視頻。此外,用戶可以通過編輯場景圖或語義關(guān)系映射圖的節(jié)點或連接線,改變超視頻各組成節(jié)點的瀏覽路徑或播放速度等,實現(xiàn)超視頻的同步編輯。瀏覽時,用戶在情景草圖的導航下根據(jù)個人的興趣有選擇性地瀏覽視頻。我們提供三種不同尺度的交互方式以滿足不同的交互需求操作情景草圖,它為用戶提供多個視頻資源的全局性導航,用戶通過情景草圖可以快速的獲得各視頻資源的主要內(nèi)容及其之間的關(guān)系,選擇不同的草圖簇可以定位不同的視頻;操作注釋草圖,視頻瀏覽過程中,對于出現(xiàn)在幀圖像上的具有行為響應(yīng)能力的草圖能夠根據(jù)用戶觸發(fā)不同的手勢命令生成不同的動作;操作注釋草圖縮略視圖,視頻中出現(xiàn)的草圖可以縮略標簽的可視方式圍繞在節(jié)點周圍,為用戶快速定位視頻內(nèi)容提供了另ー種途徑。
以上對本發(fā)明所述的生成多媒體概念圖的方法進行了詳細的說明,但顯然本發(fā)明的具體實現(xiàn)形式并不局限于此。對于本技術(shù)領(lǐng)域的一般技術(shù)人員來說,在不背離本發(fā)明所述方法的精神和權(quán)利要求范圍的情況下對它進行的各種顯而易見的改變都在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種基于草圖的超視頻構(gòu)建方法,其步驟為 1)創(chuàng)建各目標視頻的情景草圖,建立草圖與目標視頻的隱性語義關(guān)聯(lián)關(guān)系; 2)根據(jù)創(chuàng)建的情景草圖搜索目標視頻資源,向各目標視頻資源中分別添加注釋草圖,建立不同視頻資源之間的顯性語義關(guān)聯(lián)關(guān)系; 3)設(shè)置注釋草圖的行為屬性,建立當前草圖所表征的目標視頻與其它目標視頻資源之間的關(guān)聯(lián)關(guān)系,得到目標視頻資源的超視頻; 其中,所述隱性語義關(guān)聯(lián)關(guān)系或所述顯性語義關(guān)聯(lián)關(guān)系采用關(guān)系映射圖SemanticMap=〈V,E>描述,其中V為頂點V的集合,頂點V代表一段視頻,其包括若干語義段SemanticCl ip,頂點v及語義段SemanticCl ip記錄對應(yīng)的視頻信息和該段視頻所對應(yīng)的草圖信息;E為邊e的集合,邊e記錄了從視頻Vi到vj、或同一視頻內(nèi)從語義段SemanticClipi到SemanticClipj、或視頻vi與其它視頻的語義段SemanticClipj之間的語義關(guān)聯(lián)關(guān)系;所述草圖包括情景草圖和注釋草圖。
2.如權(quán)利要求I所述的方法,其特征在于所述邊e=〈Vi, Vj, T> I〈SemanticClipi,SemanticClipj, T> |〈SemanticClipi, Vj, T> ;其中,T記錄了連接邊e的兩端點之間的遷移條件。
3.如權(quán)利要求2所述的方法,其特征在于所述T=〈Sketch, Trigger,Action〉,即邊e的起始點所附屬的草圖Sketch接收觸發(fā)條件Trigger后,從當前狀態(tài)節(jié)點遷移至新狀態(tài)節(jié)點,Action為草圖所能響應(yīng)的行為類型。
4.如權(quán)利要求I所述的方法,其特征在于所述行為屬性定義為Behavior= (Trigger,Action, AppendedInfo),其中Trigger為動作的觸發(fā)條件,Action為草圖所能響應(yīng)的行為類型,AppendedInfo為行為的附屬信息。
5.如權(quán)利要求4所述的方法,其特征在于所述草圖的數(shù)據(jù)格式為<Sketch>:: = {<SemanticCluster>}[Constraints]<SemanticCluster>:: = {<StrokeGroup>}[Constraints]<Behavior> 〈Constraints〉 = [GeometryConstraints][DomainConstraints][ContextConstraints]〈Stroke〉: = <Points><DownTime><UpTime><VelocityXInflexion><Direction>〈Points〉 = {〈Point〉}〈FramePosition> 其中,草圖Sketch由若干草圖族SemanticCluster及草圖族間的約束Constraints構(gòu)成,SemanticCluster由若干嵌套的筆劃組StrokeGroup及筆劃間的約束Constraints構(gòu)成,GeometryConstraints為幾何約束、DomainConstraints為領(lǐng)域知識約束、ContextConstraint為交互上下文約束,Stroke為草圖的基本組成元素筆跡,筆跡是指筆尖從落下到抬起的一段完整的筆劃,Points為采樣點的集合、DownTime為筆尖落下的時刻、UpTime為筆尖抬起的時刻、Velocity為筆尖的運動速度、Inflexion記錄了筆跡的彎曲程度、Direction記錄了筆尖的運動方向,Point為筆跡的基本組成元素采樣點、FramePos i t ion為采樣點所對應(yīng)的視頻相關(guān)時間、空間信息。
6.如權(quán)利要求I或5所述的方法,其特征在于所述創(chuàng)建各目標視頻的情景草圖,建立草圖與目標視頻的隱性語義關(guān)聯(lián)關(guān)系的方法為 I)對用戶實時繪制的草圖筆跡進行成組聚簇;2)將經(jīng)過實時聚簇后得到的草圖簇與保存在視頻資源庫中的歷史草圖逐一比較,以檢索到包含該草圖簇的視頻資源; 3)將后續(xù)新輸入的草圖筆跡聚簇成草圖簇后對上一步得到的檢索結(jié)果繼續(xù)進行匹配檢索,如此反復,最終完成情節(jié)草圖的構(gòu)建,實現(xiàn)草圖與視頻隱性語義關(guān)系的建立。
7.如權(quán)利要求6所述的方法,其特征在于所述將經(jīng)過實時聚簇后得到的草圖簇與保存在視頻資源庫中的歷史草圖逐一比較的方法為 1)計算兩待比較草圖的顏色特征,所述顏色特征包括顏色平均值和顏色分布特征; 2)計算各顏色屬性的采樣點總數(shù)在草圖總采樣點數(shù)中所占比例,將小于預定義比例閾值的顏色項從該顏色分布特征向量中去除; 3)若待比較草圖的顏色分布特征的維度不相同,則先對齊兩個草圖的顏色分布特征的維度;顏色分布特征維度滿足條件后,進行顏色相似性度量,得到兩草圖的顏色相似度距離; 4)對顏色相似度距離進行歸一化處理后,選取草圖的形狀特征和空間結(jié)構(gòu)特征; 5)將滿足形狀特征、空間結(jié)構(gòu)特征和顏色特征的相似度度量標準的草圖作為候選結(jié)果O
8.如權(quán)利要求I或5所述的方法,其特征在于所述向各目標視頻資源中分別添加注釋草圖的方法為 1)從視頻流中抽取符合拼接條件的視頻幀圖像拼接成一全景圖,作為構(gòu)建注釋草圖的靜態(tài)背景和容器; 2)將注釋草圖筆跡的采樣點在全景圖中的空間坐標位置變換至視頻的幀圖像空間,得到采樣點在原始視頻中的時空坐標,建立草圖與視頻的映射關(guān)系; 3)跟蹤并提取注釋草圖所關(guān)聯(lián)的視頻前景對象的運動軌跡,并據(jù)此確定該注釋草圖運動路徑。
9.如權(quán)利要求8所述的方法,其特征在于所述全景圖的構(gòu)建方法為 1)利用SIFT算法從視頻幀圖像中提取特征點; 2)根據(jù)視頻幀內(nèi)容動態(tài)確定抽取視頻幀的時間間隔,對視頻幀進行抽??;所述時間間隔Θ = INT(N/Delt),N為連續(xù)幀個數(shù),Delt為幀圖像間的特征點平均偏移量; 3)通過對抽取的視頻幀間的特征點進行匹配,獲取鄰近幀之間的位置對應(yīng)關(guān)系,從而將多個幀圖像映射到同一圖像空間,完成視頻全景圖的拼接。
10.如權(quán)利要求9所述的方法,其特征在于所述跟蹤并提取注釋草圖所關(guān)聯(lián)的視頻前景對象的運動軌跡,并據(jù)此確定該注釋草圖運動路徑的方法為 1)逐一計算注釋草圖覆蓋區(qū)域的SIFT特征點與鄰近幀圖像上的SIFT特征點的歐式距離,得到所有連續(xù)幀上的匹配特征點; 2)根據(jù)特征點的鄰域采樣點的梯度方向分布特征指定各特征點的方向,選擇特征點的鄰域采樣點的梯度的模值最大的梯度方向作為關(guān)鍵特征點的方向; 3)通過鄰近幀圖像上的特征點的時空坐標插值得到前景對象的運動軌跡,從而確定相應(yīng)注釋草圖的運動軌跡。
全文摘要
本發(fā)明公開了一種基于草圖的超視頻構(gòu)建方法,屬于計算機應(yīng)用技術(shù)領(lǐng)域。本發(fā)明的方法為1)創(chuàng)建各目標視頻的情景草圖,建立草圖與目標視頻的隱性語義關(guān)聯(lián)關(guān)系;2)根據(jù)創(chuàng)建的情景草圖搜索目標視頻資源,向各目標視頻資源中分別添加注釋草圖,建立不同視頻資源之間的顯性語義關(guān)聯(lián)關(guān)系;3)設(shè)置注釋草圖的行為屬性,建立當前草圖所表征的目標視頻與其它目標視頻資源之間的關(guān)聯(lián)關(guān)系,得到目標視頻資源的超視頻。與現(xiàn)有技術(shù)相比,本發(fā)明所構(gòu)建的超視頻符合人的認知習慣,能夠很好的表現(xiàn)視頻間的復雜語義關(guān)系,同時打破了傳統(tǒng)的單一線性被動瀏覽方式。
文檔編號G06F17/30GK101763439SQ201010119438
公開日2010年6月30日 申請日期2010年3月5日 優(yōu)先權(quán)日2010年3月5日
發(fā)明者滕東興, 馬翠霞, 楊海燕, 陳佳, 王宏安, 戴國忠 申請人:中國科學院軟件研究所