專利名稱:采用運動描述符歸納視頻的方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及視頻,特別涉及壓縮視頻的歸納。
背景技術(shù):
希望自動地生成視頻的歸納,特別是生成壓縮數(shù)字視頻的歸納。
壓縮視頻格式MPEG(活動圖像專家組)采用了作為數(shù)字信號來壓縮視頻的標準的規(guī)格。MPEG規(guī)格通過僅偶然作成有關(guān)圖像的整幀信息,實現(xiàn)了高的數(shù)據(jù)壓縮率。完整的圖像幀、即幀內(nèi)編碼幀多稱為「I幀」或「固定幀」,它包含對一切其它幀獨立的整幀信息。圖像差幀、即幀間編碼幀多稱為「B幀」及「P幀」、或「預(yù)測幀」,在I幀間將其編碼、它只反映與基準幀的圖像差、即余額。
通常,把視頻序列的各幀分割成更小的圖像元素、即像素數(shù)據(jù)的塊。對各塊進行離散余弦變換(DCT)操作,把統(tǒng)計上依賴的空域像素變換成獨立頻域DCT系數(shù)。對于稱為「宏塊」的、每一個為8×8或16×16像素的塊進行DCT操作,提供編碼信號。
由于DCT系數(shù)通常是能量集中的,故在1個宏塊中只須少量的系數(shù)就包含了圖像信息的主要部分。例如,當宏塊包含目標的邊緣邊界時,該塊的能量在系數(shù)的矩陣范圍內(nèi)包含較大的DC系數(shù)及隨機分布的AC系數(shù)。
另一方面,非邊緣宏塊通常以同樣大的DC系數(shù)、及實質(zhì)上比與該塊有關(guān)聯(lián)的其它系數(shù)大的少量的相鄰AC系數(shù)為特征。通常,在對DCT系數(shù)進行了自適應(yīng)量化后,對其進行游長編碼及可變長編碼。因此,發(fā)送數(shù)據(jù)的宏塊通常包含不到8×8矩陣的碼字。
幀內(nèi)編碼幀數(shù)據(jù)、即編碼P或B幀數(shù)據(jù)的宏塊包含只表示預(yù)測像素與宏塊中的實際像素之間之差的DCT系數(shù)。幀內(nèi)編碼幀數(shù)據(jù)及幀間編碼幀數(shù)據(jù)的宏塊還包含采用了的量化級、宏塊的地址指示符或位置的指示符、及宏塊的類型等信息。后者的信息多稱為「標題」或「內(nèi)務(wù)操作」信息。
從上一個I幀或P幀來預(yù)測各P幀。從夾住各B幀的I幀或P幀來預(yù)測該B幀。預(yù)測編碼過程包含生成表示I幀的哪個宏塊的位移量與當前正在編碼的B幀或P幀的宏塊匹配得最密切的、常常稱為「運動矢量」的位移矢量。對于每一個像素,從正在編碼的P幀或B幀的塊中減掉I幀中匹配塊的像素數(shù)據(jù),就出現(xiàn)了余額。變換了的余額及矢量,形成P幀或B幀編碼數(shù)據(jù)的一部分。
視頻分析可以把視頻分析作為打算理解視頻內(nèi)容的視頻處理來定義。視頻的理解可以是從「低級」的語法理解(檢測視頻中的段邊界等)、到「高級」的語義理解(檢測視頻的種類等)各種各樣的。低級的理解通過分析彩色、運動、結(jié)構(gòu)、形狀等低級的特征而生成內(nèi)容描述來進行。其次,可采用該內(nèi)容描述來索引視頻。
視頻歸納視頻歸納作成傳送視頻語義的視頻緊湊的表示。在緊湊的表示中可包含「關(guān)鍵幀」、「關(guān)鍵段」、或關(guān)鍵幀與關(guān)鍵段的組合。作為一例,網(wǎng)球比賽的視頻歸納可包含兩幀,即取入了雙方選手的第1幀、及取入了拿著獎品的獲勝者的第2幀。在更詳細且更長的歸納中,還可包含取入了比賽中為得勝所需的最后一分的全部幀。確實能夠以手動來生成這樣的歸納,但對此要花時間及費用。因而,希望自動。
自動視頻歸納方法是周知的。希望參照S.Pfeifer等著「自動地概括數(shù)字電影」(可視通信圖像顯示雜志,Vol.7,no.4,pp345~353,1996年12月)及Hanjal;c等著「一種基于無人管理組的用于自動視頻概括的綜合方案-有效性分析」(IEEE有關(guān)視頻技術(shù)的電路及系統(tǒng)議事錄Vol.9,No.8,1999年12月)。
現(xiàn)有的視頻歸納方法幾乎專門集中于以彩色為基礎(chǔ)的歸納。Pfeiffer等人在視頻歸納的作成中,把運動與其它特征組合起來使用。但是,Pfeiffer等人的方法只不過是簡單地采用了忽略了的能夠考慮組合起來的特征間的相關(guān)性之加權(quán)組合而已。有時,也通過歸納方法,采用運動特征來抽出關(guān)鍵幀。
如
圖1所示,現(xiàn)有技術(shù)的視頻歸納方法幾乎都強調(diào)基于彩色特征的分組。這是因為在壓縮區(qū)域內(nèi)容易抽出彩色特征,且具有抗噪聲性。典型的方法是,以視頻序列A101作為輸入,應(yīng)用以彩色為基礎(chǔ)的歸納處理100,作成視頻歸納S(A)102。視頻歸納包含整個序列的歸納、或者序列中感興趣的段即關(guān)鍵幀的集之中的某一種。
方法100通常包含以下步驟。第1,按照彩色特征把視頻幀分組。第2,把組作成容易訪問的分層數(shù)據(jù)結(jié)構(gòu)。第3,從各組抽出關(guān)鍵幀或關(guān)鍵序列,生成歸納。
運動活性描述符視頻還可以直觀地作為具有各種級的活性、即作用強度來理解。較高級的活性之例,是在運動視頻中的得分機會。另一方面,新聞視頻具有較低級的活性。最近提出的MPEG-7圖像規(guī)格提供與視頻中的運動活性有關(guān)聯(lián)的描述符。
作為運動活性的一個尺度,有運動矢量之大小的平均及分散。希望參照Peker等著「運動活性強度的自動測量」(SPIE有關(guān)媒體數(shù)據(jù)庫的存儲及檢索會議論文集,2001年1月)。然而,根據(jù)用途可有很多種變形。
關(guān)鍵幀的集的逼真度找出單一的關(guān)鍵幀的最簡單方法是從序列中選擇任意的幀,但在視頻的內(nèi)容具有比用單一幀能夠傳送的多的信息的情況下,以單一關(guān)鍵幀為基礎(chǔ)的方法便不起作用了。可以把視頻段的第1幀指配為第1關(guān)鍵幀,其次,在特征空間中把距第1幀最遠的幀指配為第2關(guān)鍵幀。希望參照M.M.Yeung及B.Liu著「視頻鏡頭的有效匹配及分組」(IEEEICIP論文集,華盛頓D.C.,1995年)。H.S.Chang、S.Sull及S.U.Lee著「用于基于內(nèi)容檢索的有效視頻索引方案」(IEEE有關(guān)視頻技術(shù)的電路及系統(tǒng)議事錄,Vol.9,No.8,1999年)記述了其它多數(shù)關(guān)鍵幀生成技巧及基于關(guān)鍵幀集的逼真度尺度的關(guān)鍵幀生成技巧。把逼真度尺度作為在視頻序列中的關(guān)鍵幀集S與幀集R之間的半豪斯道夫(Semi-Hausdorff)距離(dhs)來定義。半豪斯道夫距離的實際定義如下。
假定集Si在i=1,...,m的情況下包含m個幀,幀集Ri在i=1,...,n的情況下包含n個幀。假定2個幀Si及Ri間的距離為d(Si,Ri)。把各幀Ri的di如下定義。
如果di=min(d(Sk,Ri)),K=0..m,則S與R之間的半豪斯道夫距離由下式給出,dsh=S,R)=ma×(di),i=1..n
換言之,首先,對于全部的i,測定在幀Ri與在幀集S中將其表示得最好的幀之間的距離di。其次,求出按照上述計算出來的距離di的最大值。該距離表示,關(guān)鍵幀集S何等良好地表示R。表示得越良好,S與R之間的半豪斯道夫距離就越小。例如,在明顯的情況下,在集S及R相同時,半豪斯道夫距離為零。另一方面,如果距離大則表明,R幀中至少有1幀由關(guān)鍵幀集S的任一幀都不能良好地將其表示出來。
幾乎現(xiàn)有不同點的尺度都滿足在上述定義中采用的距離空間中的距離方面所需要的特性。也可以采用M.J.Swain及D.H.Ballard著「彩色索引」(計算機圖像雜志,Vol.7,no.1,pp.11~32,1991年)記述的、如下定義的彩色直方圖交叉距離。
在M×N尺寸的2個圖像fi及fj的k箱彩色直方圖為Hi及Hj的情況下,該2個圖像間的不同點由下式給出。d(fi,fj)=1-1MxNΣk=1Kmin{Hi(k),Hj(k)}]]>希望注意,不同點在范圍
內(nèi)。
本發(fā)明的目的是提供單獨使用運動特征、特別是運動活性特征,或?qū)⑵渑c彩色及結(jié)構(gòu)的特征等其它低級的特征組合起來使用,進行自動視頻歸納的方法。
本發(fā)明以下述的考慮為基礎(chǔ)。視頻的運動活性是表示視頻歸納的相對難度的很好的標準。運動量越大,該視頻的歸納就越困難。視頻歸納可通過所包含的幀數(shù),例如關(guān)鍵幀數(shù)、或關(guān)鍵段的幀數(shù)等進行定量描述。
視頻運動活性的相對強度與彩色特征的變化密切相關(guān)。換言之,運動活性的強度大時,彩色特征的變化也大的可能性大。彩色特征的變化大時,在以彩色特征為基礎(chǔ)的歸納中包含較多的幀,由此彩色特征的變化小時,歸納中包含較少的幀。換句話說,這是考慮到由從視頻選擇的關(guān)鍵幀構(gòu)成的視覺歸納的逼真度的情況。如果通過保持關(guān)鍵幀數(shù)一定使歸納的長度一定,則鏡頭的運動活性的強度越大、其歸納的逼真度就越低。
例如,在「講話的頭像」視頻中,通常運動活性的級較低,此外,彩色變化同樣也極小。在歸納以關(guān)鍵幀為基礎(chǔ)時,為了視頻的歸納用1個關(guān)鍵幀就足夠了。在使用關(guān)鍵段時,為了視覺的視頻歸納用1秒鐘的幀序列就足夠了。另一方面,在運動比賽項目中的得分機會里運動活性強度及彩色變化非常大,因而為了歸納需要幾個關(guān)鍵幀、即幾秒鐘。
更詳細地說,本發(fā)明通過首先測定壓縮視頻中的運動活性的強度,來提供進行視頻歸納的方法。其次,使用該運動活性的強度,不進行長時間的彩色基礎(chǔ)的計算、從視頻中選擇關(guān)鍵幀。
本發(fā)明還在歸納容易的段中使用運動基礎(chǔ)的方法、在歸納困難的段中使用彩色基礎(chǔ)的方法,由此提供把運動基礎(chǔ)的關(guān)鍵幀抽出與彩色基礎(chǔ)的關(guān)鍵幀抽出組合起來的方法。歸納容易的段通過由1個或多個關(guān)鍵幀構(gòu)成的、迅速抽出的歸納來表示,另一方面,彩色基礎(chǔ)的歸納處理從歸納困難的各段抽出幀序列。以時間順序把單一幀及抽出的幀序列連結(jié)起來,形成視頻的歸納。
更詳細地說,本發(fā)明的方法測定壓縮視頻中的運動活性的強度。為了把視頻分割成累積運動活性相等的段,而使用運動活性的強度。其次,從各段選擇關(guān)鍵幀。以時間順序把選擇了的關(guān)鍵幀連結(jié)起來,形成視頻的歸納。在一實施形態(tài)中,選擇各段的第1幀及段的最后幀,形成歸納。在另一實施形態(tài)中,與運動活性有關(guān)、從各段選擇中央的幀,分割為基于累積運動活性強度的2分割。
附圖的簡單說明圖1為現(xiàn)有技術(shù)的視頻歸納方法的框圖。
圖2為表示MPEG測試視頻的,運動活性與對于該活性具有不能允許的逼真度的鏡頭之比例的曲線圖。
圖3為表示在規(guī)定閾值以下的鏡頭持續(xù)時間之比例與對于該比例具有不能允許的逼真度的鏡頭之比例的曲線圖。
圖4為示出本發(fā)明的視頻歸納方法的框圖。
圖5為比較按照本發(fā)明選擇了第1幀的情況與選擇了中央幀的情況之曲線圖。
圖6為視頻2分割的框圖。
發(fā)明的實施形態(tài)本發(fā)明采用運動特征、還可選地采用彩色特征,來歸納壓縮視頻。因而,本發(fā)明的歸納方法最初從壓縮視頻測定這些特征。
特征抽出彩色特征可以采用已知的技巧正確地抽出I幀的DC系數(shù)。在P幀及B幀的情況下,可以采用完全不進行解壓的運動矢量來近似DC系數(shù)。例如,希望參照Yeo等著「有關(guān)從MPEG視頻抽出DC序列」(IEEE ICIPVol.2,1995年)。為了抽出彩色特征,可以把DC圖像的YUV值變換到另一彩色空間中。
在最一般使用的技巧中,采用彩色直方圖。彩色直方圖已廣泛用于圖像及視頻的索引及檢索中。希望參照Smith等著「利用彩色和結(jié)構(gòu)的自動圖像檢索」(IEEE有關(guān)圖形分析及機械智能議事錄,1996年)。通常,在3信道RGB彩色空間中,各信道有4個箱,在彩色直方圖中總計需要64(4×4×4)個箱。
運動特征可以從P幀及B幀的運動矢量抽出及測定運動信息。由于運動矢量通常是對實際光學(xué)流的粗糙的、散布的近似,故在此只定性地使用運動矢量。記述了很多抽出運動矢量的不同方法。希望參照Tan等著「一種用于攝像機運動參數(shù)估計的新方法」(IEEE有關(guān)圖像處理的國際會議論文集,Vol.2,pp.722~726,1995年);Tan等著「帶有應(yīng)用于視頻的注釋的,從壓縮視頻迅速估計攝像機運動」(IEEE有關(guān)視頻技術(shù)的電路及系統(tǒng)議事錄,1999年);Kobla等著「用于識別運動視頻的,慢動重放序列的檢測」(IEEE有關(guān)多媒體信號處理的專題討論會論文集,1999年);Kobla等著「采用Video Trails的特技編輯檢測與現(xiàn)有技術(shù)的比較」(SPIE有關(guān)圖像及視頻數(shù)據(jù)庫的存儲及檢索等VII次會議論文集,1999);Kobla等著「在MPEG視頻中采用DCT及運動矢量信息的壓縮域視頻索引技術(shù)」(SPIE有關(guān)圖像及視頻數(shù)據(jù)庫的存儲及檢索第V次會議論文集,SPIE Vol.3022,pp.200~211,1997年);以及Meng等著「CVEPS-壓縮視頻編輯及分析系統(tǒng)」(ACM多媒體96年會議論文集,1996)。
如上所述,幾乎所有現(xiàn)有技術(shù)的歸納方法都以彩色特征的分組為基礎(chǔ),得到彩色描述符。彩色描述符在定義上具有較高的抗噪聲性,而不包含視頻的運動特征。但是,由于運動描述符具有抗噪聲性較低的傾向,故并未廣泛用于視頻的歸納中。
Divakaran等人申請的美國專利申請第09/406,444號「視頻序列的活性描述符」(2000年8月9日提出,通過參照在本說明書中引用)記述了,使用從壓縮視頻中的運動矢量導(dǎo)出的運動特征、確定視頻中的運動活性及視頻中的運動活性的空間分布之方法。如上述專利申請中所記述,這樣的描述符關(guān)于視頻閱覽用途是有用的。在本說明書中,把這樣的運動描述符應(yīng)用于新的視頻歸納中。
在本說明書中,認為運動是指示視頻場景發(fā)生了何等變化的有力的指示器。因而,要把運動作為「可歸納性」的尺度來使用。作為例子,在把汽車高速追趕與例如新聞廣播員的鏡頭進行比較的情況下,恐怕前者會包含更多的「變化」吧。因而,為了在視覺上歸納汽車高速追趕需要比新聞廣播員的鏡頭更多的資源。
不方便的情況在于,沒有簡單的、客觀的尺度來測試運動實際上是否與場景的變化有關(guān)聯(lián)。但是,由于場景的變化大多還伴有彩色特征的變化,故研究按上述定義了的彩色基礎(chǔ)的逼真度與運動活性強度之間的關(guān)系。
假定鏡頭A的關(guān)鍵幀的集為集SA、鏡頭B的關(guān)鍵幀的集為集SB。在集SA與集SB此二者包含同數(shù)的關(guān)鍵幀、鏡頭A的運動活性強度比鏡頭B的運動活性強度大的情況下,集SA的逼真度比集SB的逼真度低。換言之,鏡頭A因其運動活性強度較大,故其「可歸納性」比鏡頭B小。
運動活性強度獲得可歸納性的證明從MPEG-1格式的MPEG-7測試集抽出標準的新聞視頻節(jié)目的彩色特征及運動特征。最初,把節(jié)目區(qū)分成多個鏡頭。其次,對于各鏡頭,通過計算各P幀的運動矢量大小的標準偏差從全部P幀抽出運動活性特征,同時,從全部I幀抽出64箱RGB直方圖。這些都在壓縮區(qū)域中。
其次,把P幀組中的以前的P幀的運動活性描述符平均,由此對各I幀確定運動活性描述符。因而,直方圖及運動活性值全部與I幀有關(guān)聯(lián)。全部鏡頭的運動活性通過把按上述計算出來的每一個運動活性值平均而得到。以下,把鏡頭中的I幀的集作為按上述定義了那樣的幀集R來處理。運動活性能夠以運動矢量的平均大小為基礎(chǔ)。
簡單的歸納方法如上述那樣,采用鏡頭的第1幀來生成該鏡頭的單一關(guān)鍵幀。因而,把第1 I幀作為關(guān)鍵幀使用,如上述那樣來判定其逼真度。通過分析「講話的頭像」序列之例,根據(jù)經(jīng)驗判斷為即使具有逼真度高到0.2的關(guān)鍵幀其質(zhì)量也是足夠的。因而,可以把鏡頭分成兩類,即關(guān)鍵幀具有0.2以下dsh(關(guān)鍵幀具有可允許的逼真度)的第一類;以及關(guān)鍵幀具有比0.2大的dsh(關(guān)鍵幀具有不允許的逼真度)的第2類。
如表A所示那樣,還可以把鏡頭分成從活性非常小到非常大的5類。
表1
其次,如圖2所示,關(guān)于標準新聞節(jié)目的視頻(西班牙語新聞),在這些類202的每一類中把具有比0.2大的dsh的鏡頭的持續(xù)時間作為比例201來判定。隨著從運動活性非常小向非常大增加,dsh之值始終在增加。換言之,隨著鏡頭運動活性的增加,其可歸納性的容易程度在減小。
進而,單一關(guān)鍵幀的逼真度對于運動活性強度非常小的類的鏡頭之90%是可允許的。在取自其它新聞節(jié)目(來自MPEG7測試集的葡萄牙語新聞節(jié)目等)及NBC的新聞節(jié)目的新聞節(jié)目中,可觀察到相同的結(jié)構(gòu)。但是,實驗的證明表示在新聞節(jié)目中,鏡頭的運動活性強度是其可歸納性的直接標準。
由于新聞節(jié)目的內(nèi)容是各種各樣的,故想使其結(jié)果適合于寬范圍的內(nèi)容。由于在運動活性中使用MPEG7的閾值,故內(nèi)容并不左右其結(jié)果。
圖3表示具有閾值T以下的運動活性強度的鏡頭中的、具有不允許的逼真度的鏡頭持續(xù)時間之比例302;以及對于302具有T以下的運動活性的節(jié)目中的鏡頭持續(xù)時間之全比例301。該圖表示,關(guān)于西班牙語的新聞節(jié)目可以把鏡頭的第1幀作為對于鏡頭的30%具有可允許逼真度的關(guān)鍵幀來使用。對于其它新聞節(jié)目也得到同樣的結(jié)果。因而,在活性非常小的鏡頭中使用MPEG-7的運動活性閾值,可以發(fā)現(xiàn)利用第1幀能否良好地歸納鏡頭。
歸納的方法上述結(jié)果表示,每當運動活性增加時,信息就增加。因而,能夠以連續(xù)的關(guān)鍵幀間的累積運動活性之差是均勻的方式來取樣視頻的關(guān)鍵幀。于是,各關(guān)鍵幀提供與前一個關(guān)鍵幀相同的信息增加量。
因而,如圖4所示,首先測定輸入視頻序列401中的累積運動活性(410)。所謂累積強度意味著,(歸一化了的)累積在視頻開始時為0.0,在終了時為1.0,在某一中間位置上為0.5。按照運動活性把視頻在「中央」分割開來,在視頻的第1部分的運動級非常高的情況下,該第1部分具有比第2部分少得多的幀。與此相反,則成為活性的大部分位于視頻后一半的情況。例如,當活性之半出現(xiàn)在1小時視頻的最后6分鐘(10%)之內(nèi)時,在完整的視頻為每秒鐘30幀、1小時有108000個幀的情況下,累積運動為(0.5)的運動「中央」位于幀108000~10800。換言之,運動活性在本質(zhì)上是視頻幀上的時間扭曲。為了累積運動,在活性級高的期間內(nèi)所需要的幀數(shù),比在活性級低的期間內(nèi)少。此外,實際上,在視頻的不運動的部分(例如,「靜止」鏡頭)中,完全沒有運動的累積。
其次,把視頻序列分割成n-1段(420)。本發(fā)明分割開來的各段具有大致等量的累積運動活性強度。再有,第1段421的幀數(shù)多,但累積運動的量與幀數(shù)少的第2段相同。其次,選擇各段的第1幀及序列的最后一幀,而得到n個關(guān)鍵段。其次,把段按時間序順連結(jié)起來而形成歸納。例如,為了得到3個關(guān)鍵幀409,把序列分割成每一個具有相當于整個序列的累積運動活性之半的累積運動活性的2個段421、422。其次,選擇第1及第2段的第1幀及序列的最后一幀。
在只選擇單一關(guān)鍵幀的情況下,在累積運動活性刻度中間位置上的關(guān)鍵幀恐怕是最好的。因而,用于得到n個關(guān)鍵幀的最佳方法是,首先,把視頻分割成累積運動活性相等的n個段,其次,對于各段選擇在累積運動活性刻度中間位置上的幀作為關(guān)鍵幀。于是,最終的關(guān)鍵幀的集由上述那樣得到的每一段的關(guān)鍵幀構(gòu)成。顯然,該方法起到良好的作用。圖5把在選擇了第1幀的情況下(上曲線)及與此不同在選擇了中央幀的情況下(下曲線)得到的結(jié)果,對于非常低、低、中、及高級活性501~504加以比較。在全部情況下,在選擇中央幀時可得到稍好的結(jié)果。
換言之,基于運動活性的強度進行視頻的非均勻次取樣。例如,在視頻中的全作用出現(xiàn)在視頻的前一半的情況下,保證從全部視頻的前一半引出關(guān)鍵幀。這也可以作為活性基礎(chǔ)的時間軸扭曲、及其之后的在扭曲了的時間軸上的均勻取樣來解釋。希望注意,這由于完全不需要彩色的比較,故是非常高速的過程。
雖然該方法是最佳的,但是存在著沒有漸進性這樣的缺點。例如,最佳的單一關(guān)鍵幀是,其累積運動活性是整個序列的累積運動活性之半的幀。然而,所選擇的關(guān)鍵幀的對由累積運動活性為整個段的累積運動活性之1/4的幀、及為其3/4的幀構(gòu)成。因而,在最佳關(guān)鍵幀的對中,沒有與最佳單一關(guān)鍵幀共同的幀。這意味著,不能把對于較低的數(shù)(例如n-1)的關(guān)鍵得到的結(jié)果充分利用到每個數(shù)n的關(guān)鍵幀上。因而,如下述那樣來使用上述最佳技巧的逐步逼進。
從第1幀及最后一幀開始,把視頻序列的每一半反復(fù)分成累積運動活性相等的部分,得到1、3、5、9這樣個數(shù)的最佳關(guān)鍵幀。也可以使用任意其它數(shù)(例如3)的冪。然而,在數(shù)字計算機中,2的冪容易計算。
如果使用上述方法則希望注意,也可以選擇任意數(shù)的關(guān)鍵幀,直到選擇閾值數(shù)的幀為止。閾值可以這樣來確定通過手動,或者利用對話型應(yīng)用程序,或者通過對于表A中描述了的MPEG-7強度的每一類、設(shè)置關(guān)鍵幀數(shù)的固定表。例如,對于大多數(shù)新聞視頻,用5個關(guān)鍵幀就足夠了。在中、高及非常高的類別的視頻中,可需要比5幀多的關(guān)鍵幀。
在上述方法中,在具有存在著尺寸及活性大的運動的區(qū)域的段中把運動矢量的平均大小作為運動活性的尺度來使用,在具有大的全局運動的段中把最短的運動矢量的大小作為運動活性的尺度來使用,但是希望理解也可以使用其它統(tǒng)計學(xué)上的運動因素(偏差、中央值、分散、歪扭及陡度等)。如表A所示,在MPEG-7的運動活性描述符中,把運動矢量大小的標準偏差之量化了的標準偏差作為運動活性強度的尺度來使用。也可以把未量化的運動矢量大小的標準偏差作為運動活性的尺度來使用。
產(chǎn)業(yè)上利用的可能性最后,希望注意,本發(fā)明只在壓縮領(lǐng)域中使用計算。因而,即使把任意現(xiàn)有技術(shù)的彩色基礎(chǔ)的關(guān)鍵幀抽出應(yīng)用于壓縮區(qū)域中,本發(fā)明的方法也比現(xiàn)有那些方法高速得多。因而,為了幫助現(xiàn)有的彩色基礎(chǔ)的抽出可以這樣來使用本發(fā)明的方法,按照MPEG-7把本發(fā)明用于低的作用閾值以下的視頻之大部分中,只把彩色基礎(chǔ)的技巧用于作用較高的段中。此外,也可以完全不依賴于彩色基礎(chǔ)的計算,在整個視頻中只使用本發(fā)明的方法。這恐怕是在計算上最快的選擇了。
通過較為理想的實施形態(tài)之例描述了本發(fā)明,但是可以理解,在本發(fā)明的精神及范圍內(nèi)可進行各種其它應(yīng)用及變更。因而,同時記述權(quán)利要求范圍之目的是,色羅落入本發(fā)明精神及范圍內(nèi)的全部變形及變更。
權(quán)利要求
1.一種歸納壓縮視頻的方法,其特征在于包含測定上述壓縮視頻中的累積運動活性強度;按照上述累積運動活性強度,從上述壓縮視頻中選擇關(guān)鍵幀;以及以時間順序把上述關(guān)鍵幀連結(jié)起來,形成上述壓縮視頻的歸納。
2.根據(jù)權(quán)利要求1中所述的方法,其特征在于還包含把上述壓縮視頻分割成每一個具有大致等量的累積運動活性強度的多個段;以及從各段中選擇一個關(guān)鍵幀。
3.根據(jù)權(quán)利要求1中所述的方法,其特征在于,上述段的數(shù)目是比上述歸納中所希望的關(guān)鍵幀的數(shù)目小的數(shù)。
4.根據(jù)權(quán)利要求3中所述的方法,其特征在于還包含選擇各段的第1幀作為上述歸納的上述關(guān)鍵幀之一;以及選擇上述壓縮視頻的最后一幀作為上述歸納的最后關(guān)鍵幀。
5.根據(jù)權(quán)利要求2中所述的方法,其特征在于還包括,按照各段的累積運動活性強度,選擇中央的幀作為上述關(guān)鍵幀之一。
6.根據(jù)權(quán)利要求1中所述的方法,其特征在于,從運動矢量的平均大小測定上述運動活性強度。
7.根據(jù)權(quán)利要求1中所述的方法,其特征在于,從運動矢量的中央的大小測定上述運動活性強度。
8.根據(jù)權(quán)利要求1中所述的方法,其特征在于,從運動矢量大小的標準偏差測定上述運動活性強度。
9.根據(jù)權(quán)利要求1中所述的方法,其特征在于還包含按照鏡頭邊界,把上述壓縮視頻分割成多個段;測定各段中的累積運動活性強度;按照上述累積運動活性強度,從各段中選擇上述關(guān)鍵幀;以及以時間順序把上述關(guān)鍵幀連結(jié)起來,形成上述壓縮視頻的歸納。
10.根據(jù)權(quán)利要求1中所述的方法,其特征在于還包含基于上述累積運動活性強度利用2分割把上述壓縮視頻分割成多個段,第1分割生成包含整個視頻的1個段,第2分割生成每一個具有大致等量的累積運動活性強度的2個段,其后的各分割基于上述累積運動活性強度把以前分割的段2等分、直到生成規(guī)定數(shù)的段為止;按照上述累積運動活性強度,從各段中選擇中央的幀作為上述關(guān)鍵幀之一;以及以時間順序把上述關(guān)鍵幀連結(jié)起來,形成上述壓縮視頻的歸納。
11.一種生成壓縮視頻的漸進性的歸納的方法,其特征在于,包含以漸進的順序從上述壓縮視頻中選擇關(guān)鍵幀,直到到達終了條件為止;以及以時間順序把上述關(guān)鍵幀連結(jié)起來,形成上述壓縮視頻的上述漸進性的歸納,上述漸進性的順序包含選擇上述壓縮視頻的第1幀作為第1關(guān)鍵幀;選擇上述壓縮視頻的最后一幀作為第2幀;測定上述壓縮視頻中的累積運動活性強度,按照該累積運動活性強度從上述壓縮視頻中選擇中央的幀作為第3關(guān)鍵幀;按照上述運動活性強度把上述壓縮視頻分割為2個相等的段,按照各段的累積運動活性強度選擇中央的幀作為第4關(guān)鍵幀及第5關(guān)鍵幀;以及按照上述運動活性強度把以前分割了的各段反復(fù)分割成2個小的、大小相等的段,按照上述累積運動活性強度從大小小的各段中選擇又一個中央的幀作為其次的2個關(guān)鍵幀、一直到到達上述終了條件為止。
全文摘要
本發(fā)明的方法測定壓縮視頻中的運動活性的強度。使用運動活性的強度把視頻分割成累積運動活性相等的段。其次,從各段選擇關(guān)鍵幀。以時間順序把選擇了的關(guān)鍵幀連結(jié)起來,形成視頻的歸納。
文檔編號G06F17/30GK1465191SQ02802214
公開日2003年12月31日 申請日期2002年4月22日 優(yōu)先權(quán)日2001年4月27日
發(fā)明者A·迪瓦卡蘭, R·拉德哈里什南, K·A·佩克 申請人:三菱電機株式會社