專利名稱:場地運(yùn)動(dòng)精彩鏡頭集錦自動(dòng)生成方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)基于內(nèi)容的多媒體檢索領(lǐng)域,涉及到視頻中的圖像以及音頻流的底層 特征的提取和分析。本發(fā)明提出了一種場地運(yùn)動(dòng)比賽精彩鏡頭集錦自動(dòng)生成方法,應(yīng)用此方 法可以自動(dòng)提取場地運(yùn)動(dòng)中的精彩鏡頭,并且生成精彩鏡頭的集錦。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)、計(jì)算機(jī)技術(shù)的蓬勃發(fā)展,多媒體數(shù)據(jù)在互聯(lián)網(wǎng)上的快速增長,使得人 們對視頻等多媒體數(shù)據(jù)的人工編輯處理的工作量日益增加。這就迫切需要尋找一種自動(dòng)的基 于內(nèi)容的多媒體檢索方法,使得計(jì)算機(jī)能夠幫助人來整理和收集人們最感興趣以及對他們最 有用的內(nèi)容。
所謂基于內(nèi)容的多媒體檢索是對多媒體對象的內(nèi)容及上下文語義環(huán)境在大規(guī)模多媒體數(shù) 據(jù)庫中進(jìn)行檢索,如對圖像數(shù)據(jù)的顏色、紋理,或視頻中的場景、片斷進(jìn)行分析和特征提取, 并基于這些特征進(jìn)行相似性匹配。
對于多媒體數(shù)據(jù)來說,"內(nèi)容"可以理解為是表達(dá)對象的語義,利用典型的文本形式的描 述,通過分類和目錄來組織層次瀏覽,用鏈來組織上下文關(guān)聯(lián);在人的感知特性上來看,"內(nèi) 容"可以表示視覺特性中的顏色、紋理、形狀、運(yùn)動(dòng),聽覺特性中的音高、音色、音質(zhì)、響 度,亮度等等;在邏輯關(guān)系上,"內(nèi)容"描述的是音 、視頻對象的時(shí)間和空間關(guān)系,語義和上 下文關(guān)聯(lián)等。
基于內(nèi)容的多媒體撿索是一門新興的技術(shù),目前對其的研究正處于火熱階段。對于多媒 體數(shù)據(jù)來說,圖像的顏色、紋理,音頻的短時(shí)能量、短時(shí)自相關(guān)函數(shù)等被稱為底層信息;相 對于底層信息,把與人類認(rèn)知領(lǐng)域相關(guān)的內(nèi)容,即多媒體內(nèi)容的語義,稱為高層信息。對于 視頻數(shù)據(jù),還有視頻分割、關(guān)鍵幀的提取、場景變換探測以及故事情節(jié)重構(gòu)等問題。由此可 見,基于內(nèi)容的多媒體檢索是一門涉及面很廣的交叉學(xué)科,需要以圖像處理、模式識別、計(jì) 算機(jī)視覺、圖像理解等領(lǐng)域的知識為基礎(chǔ),還需從認(rèn)知科學(xué)、人工智能、數(shù)據(jù)庫管理系統(tǒng)、 人機(jī)交互、信息檢索等領(lǐng)域引入新的媒體數(shù)據(jù)表示和數(shù)據(jù)模型,從而設(shè)計(jì)出可靠、有效的檢 索算法、系統(tǒng)結(jié)構(gòu)以及友好的人機(jī)界面。
如今互聯(lián)網(wǎng)上場地運(yùn)動(dòng)比賽(例如足球,橄欖球,手球等)視頻H益增長,面對眾多的 比賽視頻,很多人不知從何看起。因此,自動(dòng)生成場地運(yùn)動(dòng)的精彩鏡頭集錦,可以大大節(jié)省 人們的時(shí)間,使得人們在最短的時(shí)間內(nèi)獲得最多的比賽信息,看到比賽最精彩的部分。同時(shí), 這也可應(yīng)用于電視臺對比賽錄像的自動(dòng)剪輯,大大節(jié)省人工編刺:視頻的所耗費(fèi)的勞動(dòng)及時(shí)間。本發(fā)明提出的場地運(yùn)動(dòng)精彩鏡頭集錦自動(dòng)生成系統(tǒng),適用于大型播客網(wǎng)站、電視臺對場 地運(yùn)動(dòng)比賽視頻的自動(dòng)剪輯,可以很大程度上節(jié)省人工編輯的工作時(shí)間,讓觀眾可以直接欣 賞到場地運(yùn)動(dòng)比賽中最精彩的部分。 發(fā)明的內(nèi)容
我們知道對于場地型運(yùn)動(dòng)的視頻,場地的特征(包括場地顏色、紋理等)在整個(gè)比賽過
程中基本不會有太大變化;比賽的鏡頭主要以遠(yuǎn)景為主,而且這種以遠(yuǎn)景為主的鏡頭的時(shí) 間長,這種類型的幀數(shù)占總幀數(shù)的比例最大。我們定義整段視頻中出現(xiàn)次數(shù)多而且占得比 例大的顏色是該視頻的主顏色,對于場地型運(yùn)動(dòng)來說,主顏色就是場地的顏色。根據(jù)主顏 色的定義,本發(fā)明創(chuàng)新性地提出了主紋理的概念,視頻中出現(xiàn)的主要紋理結(jié)構(gòu)就是場地的 紋理的描述,這就是所謂的主紋理。本發(fā)明結(jié)合場地的主紋理特征以及主顏色特征,對場地 運(yùn)動(dòng)比賽中的中近景進(jìn)行檢測定位。同時(shí)針對視頻中的音頻信息,提取短時(shí)能量特征,檢 測視頻中音頻流的能量的突變。然后聯(lián)合中近景檢測模塊以及音頻能量突變檢測模塊,提取 精彩鏡頭,最后合并所有的精彩鏡頭,并加入背景音樂,生成場地運(yùn)動(dòng)視頻精彩鏡頭集錦(見 附圖1)。
圖1為整個(gè)場地運(yùn)動(dòng)精彩鏡頭集錦自動(dòng)生成系統(tǒng)的框圖2為視頻圖像特征提取以及中近景檢測的流程圖3為音頻信息特征的提取以及能量突變點(diǎn)檢測的框圖。
具體實(shí)施例方式
下面詳細(xì)介紹本發(fā)明的具體實(shí)施方法。 一、中近景檢測方法 (一)視頻前期處理
對于一段體育節(jié)目視頻,中間可能包括廣告、采訪、比賽等不同內(nèi)容,但對于我們真正 關(guān)心的是體育比賽,所以我們要對視頻進(jìn)行一些前期處理,如宏分割。宏分割是將非比賽內(nèi) 容的鏡頭片段和我們關(guān)心的比賽片段分別標(biāo)識出來,我們根據(jù)宏分割的表示結(jié)果,只針對比 賽片段進(jìn)行處理。宏分割是視頻處理的一個(gè)關(guān)鍵部分,通過宏分割我們過濾掉廣告、采訪等 鏡頭的干擾,為后l則的提取主顏色和中近景的檢測做好基礎(chǔ)。
下面我們只對宏分割標(biāo)識出來的體育內(nèi)容的片段進(jìn)行處理。前面提到,對于體育視頻它
們都有重復(fù)出現(xiàn)的場地信息,為了能夠較準(zhǔn)確的提取場地信息,我們要找到遠(yuǎn)景圖片來進(jìn)行 處理。我們發(fā)現(xiàn)圖片內(nèi)容復(fù)雜的肯定不會含有大量的場地信息這樣我們可以根據(jù)顏色的熵 來判斷圖片內(nèi)容復(fù)雜度。對于等概率分布的情況下,熵值最大;概率單一的情況,熵值趨于零。所以,對于顏色內(nèi)容復(fù)雜的圖片熵值會很大,顏色單一的圖片的熵值很小。逐幀提取HSV 空間上的顏色特征,計(jì)算顏色直方圖,然后將直方圖歸一化,根據(jù)如下公式計(jì)算其顏色熵值
ff (cofo。 - J] - W) log 式1
計(jì)算整個(gè)體育片段的平均顏色熵值,我們稱小于該平均值的圖片為顏色一致(uniform)的圖片, 用做主顏色提??;大于該平均值的圖片不作處理。這樣提高了所提取的主顏色的置信度,防 止其它^色(膚色、黑幀)等干擾。 (二)主顏色和主紋理特征的提取
為了更好的闡明主紋理的概念,首先有必要介紹局部二值模式(LBP)。 LBP即通過計(jì)算圖 像中"一致"的局部二進(jìn)制模式,并對整幅圖像的各種模式數(shù)進(jìn)行直方圖統(tǒng)計(jì)后得到的一種 對圖像灰度級和旋轉(zhuǎn)都不變的紋理特征。LBP表示的是相鄰像素之間灰度值的差異性,描述 出圖像中局部紋理的結(jié)構(gòu),它對不強(qiáng)烈的光照和旋轉(zhuǎn)具有很好的不變性。
設(shè)C是位于坐標(biāo)(x,力處的一個(gè)像素點(diǎn),在以C為中心、R為半徑的環(huán)上等間隔分布著P
個(gè)像素點(diǎn),構(gòu)成了 C點(diǎn)的P鄰域。設(shè)&是某局部鄰域中的圓心像素的灰度值,& (i-O,l,...,P-l)
表示該像素P鄰域上的像素點(diǎn)的灰度值。用該鄰域內(nèi)像素點(diǎn)的灰度值的聯(lián)合分布來定義該局 部鄰域的紋理描述子T:
T =/(gc,go,gp…,gw) 式2
比較環(huán)形鄰域上像素點(diǎn)與圓心像素的灰度值差異,則可以把(式2)的描述子寫成下列 形式
我們假設(shè)在一個(gè)局部鄰域中,環(huán)形上像素點(diǎn)的灰度值g,.與圓心像素的灰度值g。的差值 gi-g,與圓心像素的灰度值^無關(guān),即g,.-^與^相互獨(dú)立,所以(式3)可以近似等價(jià)于
T /(gc)/(g。 U式4
在實(shí)際中,由于g,.-g,與ge是不可能絕對獨(dú)立的,所以(式4)的分布形式只是(式3)
的近似表達(dá)。但是為了得到有用信息可以允許少量信息的丟失,對于局部紋理來說,這種近 似所丟失的信息的意義不大。因此,可以利用差值g,,^的聯(lián)合分布來描述局部鄰域中的紋
理分布的屬性但是,差值g,-gc會受灰度尺度變化的影響,當(dāng)灰度值成比例變化時(shí),得到的差值是不 同的,影響了差值g,.-g。的整體分布。為了消除尺度變化所造成的影響,通過比較環(huán)形鄰域
上像素點(diǎn)與圓心處像素點(diǎn)的灰度值的大小,將環(huán)上灰度值大于圓心像素灰度值的像素重新賦 值為1,小于圓心像素灰度值的像素點(diǎn)賦值為0。這樣,我們可以得到具有尺度不變性的紋理 描述子
T /0(g。 - gc), - gc ),…,々f—i - gc)) 式6
其中,*)是符號函數(shù)。這樣,通過大小比較得到的分布中的所有元素都是O或1,則
稱之為局部二值模式(Local Binary Pattern, LBP),這個(gè)局部結(jié)構(gòu)可以看作為一個(gè)紋理單元。 根據(jù)2P個(gè)不同的局部二值模式,通過LBP算法可以產(chǎn)生2P個(gè)不同的紋理描述子,當(dāng)圖
像旋轉(zhuǎn)時(shí),對應(yīng)位置的灰度值g,.以&為圓心發(fā)生旋轉(zhuǎn)。盡管以&為圓心的像素點(diǎn)沒有變,
但是相對位置發(fā)生了變化,對應(yīng)位置的權(quán)值改變,這樣導(dǎo)致算得不同的LBP描述子的值。為 了消除圖像旋轉(zhuǎn)帶來的差異,引入旋轉(zhuǎn)不變的LBP,記作LBP、定義如下
= min(7 Oi (LS尸,i) | z' = 0,1,…,尸—1} 式7
其中,i Oi (x,i')表示一個(gè)均勻分布了 x像素點(diǎn)的環(huán),繞其圓心向右旋轉(zhuǎn)i次,每次只移
動(dòng)的步長為相鄰像素點(diǎn)的弧長。
一般性的具有旋轉(zhuǎn)不變并且一致性的LBP描述子定義如下
《',》")if "酔2 +1 otherwise
其中,"(丄S尸Hs("-廣—*。-&)|+,|々廣&)—々w-gc)卜相對于原始的LBP
算法,當(dāng)P增加時(shí),紋理描述子的模式是線性增加,所得的紋理向量的維數(shù)也是線性增大。 而且,基于一致性的LBP統(tǒng)計(jì)特性比較集中,能很好的表現(xiàn)出不同紋理的結(jié)構(gòu)特性。
RGB空間顯示的圖片是紅、綠、藍(lán)三色的組合(其中R代表紅色,G代表綠色,B代表 藍(lán)色),易受光照等因素的影響;HSV空間是色調(diào)、飽和度和亮度的組合(其屮H代表色調(diào), S代表飽和度,V代表亮度),H和S不受光照影響,能夠反映出顏色色度的木質(zhì)??紤]到攝 像機(jī)在不同角度和位置下引起的光照亮度等變化,我們針對那些圖像顏色熵值小于視頻片段 平均值的幀圖像,先做彩色空間變化,由RGB空間轉(zhuǎn)換到HSV空問,在Hue空問上統(tǒng)計(jì)色 度分布。將所有顏色一致的幀的Hue直方圖做累加,取最高峰所在的一段小區(qū)域(取峰值的 20%對應(yīng)的色調(diào)為上下界)為主顏色區(qū)域,該區(qū)域的期望即為主顏色。根據(jù)所提取到的主顏色我們只針對主顏色所在區(qū)域進(jìn)行LBPU^6,2紋理特征(上面己作詳細(xì)介紹)提取,統(tǒng)計(jì)LBP 直方圖并做累積再求平均,即可得到本文創(chuàng)新性提出的新概念——主紋理。 (三)基于規(guī)則的分類
對視頻做鏡頭邊界檢測(Shot Boundary Detection, SBD)和關(guān)鍵幀提取(Key Frame Extraction, KFE),針對KFE提取的關(guān)鍵幀,提取36維的HSV直方圖特征和LBP"^6,2特征。 結(jié)合上一步所提取的主顏色和主紋理的特征,我們采用基于規(guī)則的方碑進(jìn)行分類在每一幅 關(guān)鍵幀中-
遠(yuǎn)景主顏色和主紋理占的比例大等于0.7。對于遠(yuǎn)景,圖像的中下部或全部是場地,會 有少數(shù)的場地外部和球員,所以主顏色和主紋理應(yīng)該占據(jù)整個(gè)圖像的大比例部分。
中近景主顏色和主紋理的比例小于0.7;或顏色、紋理的直方圖統(tǒng)計(jì)值較單一。中景肯 定包含大量的場地信息,這是顯而易見;對于運(yùn)動(dòng)員的近景圖片來說,背景的下半部分會有
場地信息,或者整個(gè)背景是觀眾席,這樣顏色就比較復(fù)雜,而且主要的顏色集中在人膚色區(qū) 域,而且紋理模式較為簡單。
觀眾不符合上述條件的就是描述觀眾的圖片。這種圖片一般是不被人們關(guān)注的信息。 對觀眾的鏡頭有兩種,人群和觀眾特寫,他們的背景都有很復(fù)雜的顏色,而且紋理模式也較多。
考慮到不同視頻的場地信息不一樣,我們是在沒有任何先驗(yàn)知識的情況下自動(dòng)提取主顏 色特征和主紋理特征,通過大量數(shù)據(jù)統(tǒng)計(jì)出主顏色和主紋理分布,并據(jù)此設(shè)定閾值,因此,
針對不同的比賽,可以設(shè)定不同的閾值,而并不局限于0.7。對于場地運(yùn)動(dòng)比賽視頻來講,鏡 頭運(yùn)動(dòng)較為緩慢,運(yùn)動(dòng)不劇烈,.場地信息非常明顯,采用這種方法能夠簡單、快速的完成對 視頻中的中近景進(jìn)行檢測定位(見附圖2)。 二、音頻能量突變檢測方法
僅僅對中近景檢測就做出是精彩鏡頭的判斷是遠(yuǎn)遠(yuǎn)不夠的,這樣會造成虛警很高。日常 生活中觀看場地運(yùn)動(dòng)比賽的經(jīng)驗(yàn)告訴我們,精彩鏡頭發(fā)生時(shí), 一定會伴隨著解說員的激動(dòng)的 解說以及觀眾的大聲喝彩,因此,我們必須引入音頻的特征,來反映并利用這一特性,進(jìn)行 更精準(zhǔn)的檢測。
短時(shí)能量就能很好的反映這一特性。短時(shí)能量的i'義如下
』-,w/"('
= 2x(,.) 式8
其中,為第n幀的短時(shí)能量,F(xiàn)mrne為幀長,為第n幀中第i個(gè)采樣點(diǎn)的值。
本發(fā)明中對視頻中的音頻流用25ms的無重疊矩形窗進(jìn)行分幀,然后針對每幀提取短時(shí)能量特征,然后將一秒的語音段內(nèi)的400幀的短時(shí)能量進(jìn)行累加,然后求平均,得到一秒內(nèi) 的短時(shí)能量的平均值。然后求出每秒之間的差值,當(dāng)差值大于一定閾值(經(jīng)過實(shí)驗(yàn)來確定) 的時(shí)候,我們認(rèn)為這是短時(shí)能量的一個(gè)突變,這樣所有突變對應(yīng)的時(shí)間點(diǎn)就可以檢測出來了, 誤差在一秒以內(nèi),這對于觀眾來說,是可以忍受的(見附圖3)。 三、場地比賽視頻集錦的自動(dòng)生成方法
上面己經(jīng)介紹針對視頻圖像和音頻流的特征提取等處理,結(jié)合上述兩個(gè)模塊,我們首先 檢測出中近景,還原出中近景部分所在的時(shí)間點(diǎn)的起始,然后看這個(gè)時(shí)間段內(nèi),是否有音頻 能量突變點(diǎn)的存在,如果有,便將這個(gè)時(shí)間段內(nèi)的視頻提取出來,如果沒有,便舍棄這段檢 測到得中近景部分。最后,精彩鏡頭便篩選出來了。
最后是后處理階段,將鏡頭的銜接部分,加入一些視頻特效,使得鏡頭的轉(zhuǎn)換更為自然, 而不是生硬的直接轉(zhuǎn)換。然后將篩選出來的視頻中原有的音頻流除去,隨機(jī)加入我們備選音 樂庫中的背景音樂, 一段場地比賽視頻的精彩鏡頭集錦便自動(dòng)生成了 (見附圖l)。
本發(fā)明提出的場地運(yùn)動(dòng)精彩鏡頭集錦自動(dòng)生成方法,可以用于制作各種大型場地運(yùn)動(dòng)的 精彩鏡頭的集錦,該發(fā)明能夠大大減輕人工剪輯的勞動(dòng)量,適用于電視臺及互聯(lián)網(wǎng)對大量場 地運(yùn)動(dòng)視頻數(shù)據(jù)的自動(dòng)剪輯,讓觀眾們可以只花少量的時(shí)間,觀看到比賽中最精彩的部分。
對于本領(lǐng)域的技術(shù)人員來說,很明顯,本發(fā)明可以做出各種改進(jìn)和擴(kuò)展,因此,只要他 們落入所附權(quán)力要求書及其等同范圍內(nèi),本發(fā)明就涵蓋這些改進(jìn)及擴(kuò)展。
權(quán)利要求
1.本發(fā)明創(chuàng)新性的提出了主紋理特征的概念,并提出了提取主紋理特征的方法。
2. 結(jié)合場地的主紋理特征以及主顏色特征,對場地運(yùn)動(dòng)比賽中的中近景進(jìn)行檢測定 位的方法。
3. —種用于自動(dòng)生成場地運(yùn)動(dòng)精彩鏡頭集錦的方法,該方法結(jié)合了權(quán)利要求2的方法, 即中近景檢測的方法,和音頻能量突變檢測一起,對精彩鏡頭進(jìn)行檢測定位,并加入過渡特 效和背景音樂,生成集錦。
全文摘要
本發(fā)明提出了一種場地運(yùn)動(dòng)精彩鏡頭集錦自動(dòng)生成的方法。該方法結(jié)合了視頻中圖像特征和音頻特征,實(shí)現(xiàn)了對視頻中精彩鏡頭的提取和集錦的自動(dòng)生成。本發(fā)明創(chuàng)新性地提出了主紋理的概念,并結(jié)合場地的主紋理特征以及主顏色特征,對場地運(yùn)動(dòng)比賽中的中近景進(jìn)行檢測定位。同時(shí)針對視頻中的音頻信息,提取短時(shí)能量特征,檢測視頻中音頻流的能量的突變。然后聯(lián)合中近景檢測模塊以及音頻能量突變檢測模塊,提取精彩鏡頭,最后合并所有的精彩鏡頭,并加入背景音樂,生成場地運(yùn)動(dòng)視頻精彩鏡頭集錦。本發(fā)明可以用于制作各種大型場地運(yùn)動(dòng)的精彩鏡頭的集錦,能夠大大減輕人工剪輯的勞動(dòng)量,適用于電視臺及互聯(lián)網(wǎng)對大量場地運(yùn)動(dòng)視頻數(shù)據(jù)的自動(dòng)剪輯,讓觀眾們可以只花少量的時(shí)間,觀看到比賽中最精彩的部分。
文檔編號G06T7/40GK101599179SQ20091008935
公開日2009年12月9日 申請日期2009年7月17日 優(yōu)先權(quán)日2009年7月17日
發(fā)明者遠(yuǎn) 董, 珊 高, 珺 黃 申請人:北京郵電大學(xué)