專利名稱::傳送數(shù)據(jù)流中的視頻數(shù)據(jù)和相關(guān)聯(lián)的元數(shù)據(jù)的方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種傳送數(shù)據(jù)流中的視頻數(shù)據(jù)和相關(guān)聯(lián)的元數(shù)據(jù)的方法,所述元數(shù)據(jù)表示相關(guān)聯(lián)的視頻數(shù)據(jù)結(jié)構(gòu)。本發(fā)明還涉及一種傳送數(shù)據(jù)流中的視頻數(shù)據(jù)和相關(guān)聯(lián)的元數(shù)據(jù)的方法,所述元數(shù)據(jù)表示與所述視頻數(shù)據(jù)結(jié)構(gòu)相關(guān)聯(lián)的指紋信息。
背景技術(shù):
:嵌入視頻比特流中的視頻注釋信息潛在地有利于許多應(yīng)用-互聯(lián)網(wǎng)視頻搜索,-編輯素材搜索;-存儲媒體索引和檢索,-VOD、頻道選擇、PVR...中的視頻瀏覽,-視頻拷貝檢測,-搜索結(jié)果群集。這些應(yīng)用可以概括為三種類別-在視頻文檔中進(jìn)行文本注釋的需求-針對視覺相似性搜索的視覺特性的需求-針對視頻導(dǎo)航的視頻結(jié)構(gòu)信息的需求隨著對在壓縮視頻流中支持更多功能的需求越來越多,H.264/AVC(也稱為ITU-TH.264標(biāo)準(zhǔn))采用可以有助于主要與解碼有關(guān)的處理的SEI(補充增強(qiáng)信息)消息。現(xiàn)在,該標(biāo)準(zhǔn)已定義了大約20種SEI語法來支持不同的應(yīng)用。本發(fā)明提出了一種具有視頻結(jié)構(gòu)和指紋功能支持的視頻編碼的架構(gòu)
發(fā)明內(nèi)容根據(jù)第一方面,本發(fā)明涉及一種將與視頻數(shù)據(jù)相關(guān)聯(lián)的指紋信息傳送到視頻數(shù)據(jù)流中的方法。根據(jù)本發(fā)明的這一方面,所述方法包括以下步驟--確定與所述視頻數(shù)據(jù)的至少一個幀相關(guān)聯(lián)的指紋,-至少將包括所述指紋信息在內(nèi)的消息插入視頻流中。根據(jù)優(yōu)選實施例,所述視頻數(shù)據(jù)符合ITU-TH.264標(biāo)準(zhǔn),并且所述指紋信息被封裝入補充增強(qiáng)信息(SEI)消息中。根據(jù)優(yōu)選實施例,數(shù)據(jù)結(jié)構(gòu)包括多個節(jié)點,每個節(jié)點包括多個葉節(jié)點,每個塊包括多個節(jié)點和葉節(jié)點。根據(jù)優(yōu)選實施例,對所述視頻數(shù)據(jù)進(jìn)行編碼,并且將所述塊封裝為編碼的視頻數(shù)據(jù)中的消息,所述塊包括對塊中包括的節(jié)點的描述,或包括指示所述描述被包括在下一塊中的信息。根據(jù)優(yōu)選實施例,所述視頻數(shù)據(jù)是符合ITU-TH.264標(biāo)準(zhǔn)的編碼的元數(shù)據(jù),并且至少將所述元數(shù)據(jù)傳送到補充增強(qiáng)信息(SEI)消息中。根據(jù)優(yōu)選實施例,所述描述中包括的所述信息是在以下內(nèi)容之間選擇的-節(jié)點標(biāo)識符,-指示所述信息中是否描述了所述節(jié)點的指示符,-以及,在當(dāng)前信息中描述了所述節(jié)點的情況下-表示與所述節(jié)點相關(guān)聯(lián)的視頻信息的名稱,-給出與所述節(jié)點相關(guān)聯(lián)的視頻信息的持續(xù)時間的時間碼,-多個概要段,以及針對每個概要段-表示概要段的名稱,-表示與所述概要段相關(guān)聯(lián)的語義信息的類別,-鍵值描述,對在關(guān)鍵幀、片斷或文本描述中選擇的段類型進(jìn)行描述,或者在這些信息的任何組合之間進(jìn)行選擇。根據(jù)本發(fā)明涉及的第二方面,本發(fā)明提出了一種用于傳送數(shù)據(jù)流中的視頻數(shù)據(jù)和相關(guān)聯(lián)的元數(shù)據(jù)的方法,所述元數(shù)據(jù)表示相關(guān)聯(lián)的視6頻數(shù)據(jù)結(jié)構(gòu)。根據(jù)本發(fā)明的這一方面,所述方法包括以下步驟-確定視頻數(shù)據(jù)的結(jié)構(gòu),-以增量方式將所述結(jié)構(gòu)分為塊,-在與所述塊相關(guān)的視頻數(shù)據(jù)之前的時間間隔,在數(shù)據(jù)流中傳送所述塊。根據(jù)第三方面,本發(fā)明還涉及一種視頻編碼設(shè)備,包括-用于確定視頻數(shù)據(jù)的結(jié)構(gòu)的裝置,-用于以增量方式將所述結(jié)構(gòu)分為塊的裝置,-用于在與所述塊相關(guān)的視頻數(shù)據(jù)之前的時間間隔,將所述塊插入數(shù)據(jù)流中的裝置。根據(jù)第四方面,本發(fā)明還涉及一種視頻編碼設(shè)備,包括-用于確定與所述視頻數(shù)據(jù)的至少一個幀相關(guān)聯(lián)的指紋的裝置,-用于至少將包括所述指紋信息在內(nèi)的消息插入視頻流中的裝置。根據(jù)優(yōu)選實施例,本發(fā)明還涉及一種根據(jù)第四方面并符合ITU-TH.264標(biāo)準(zhǔn)的視頻編碼設(shè)備,并且所述結(jié)構(gòu)信息被封裝入補充增強(qiáng)信息(SEI)消息中。根據(jù)優(yōu)選實施例,所述視頻編碼設(shè)備符合ITU-TH.264標(biāo)準(zhǔn),并且所述指紋信息被封裝入補充增強(qiáng)信息(SEI)消息中。根據(jù)第五方面,本發(fā)明還涉及一種個人視頻錄像機(jī),其特征在于包括-用于對編碼的視頻信息進(jìn)行解碼的裝置,-用于對以增量方式插入編碼的視頻數(shù)據(jù)中的相關(guān)聯(lián)視頻數(shù)據(jù)結(jié)構(gòu)進(jìn)行解碼的裝置,-根據(jù)在運行時接收到的增量視頻數(shù)據(jù)結(jié)構(gòu)來對視頻數(shù)據(jù)結(jié)構(gòu)進(jìn)行重建的裝置。根據(jù)第六方面,本發(fā)明還涉及一種個人視頻錄像機(jī),其特征在于包括-用于對編碼的視頻信息進(jìn)行解碼的裝置,-用于對編碼的視頻數(shù)據(jù)中包括的指紋信息進(jìn)行解碼的裝置,-用于對接收到的編碼的視頻數(shù)據(jù)進(jìn)行存儲的裝置,-基于多個所記錄的視頻數(shù)據(jù)的指紋信息來對多個所記錄的視頻數(shù)據(jù)進(jìn)行比較的裝置。借助附圖,通過對將要示意的本發(fā)明的非限制實施例的描述,本發(fā)明的其他特性和優(yōu)點將變得顯而易見。圖l表示根據(jù)本發(fā)明優(yōu)選實施例的視頻的結(jié)構(gòu)信息;圖2表示根據(jù)本發(fā)明優(yōu)選實施例的視頻的增量分解。具體實施例方式視頻結(jié)構(gòu)描述在于任何視聽文檔的語義組織的描述。這種描述是提供了文檔的自頂向下分解的分級結(jié)構(gòu)。該信息可以用于顯示文檔的簡短概要,或用于對文檔進(jìn)行快速導(dǎo)航。視頻結(jié)構(gòu)描述了分級構(gòu)造。根據(jù)文檔的類型,用于獲得文檔結(jié)構(gòu)的方法可以不同。如果視頻表示網(wǎng)球比賽,則其結(jié)構(gòu)不同于足球比賽,如果視頻表示電影,則其結(jié)構(gòu)也不同。存在用于獲得視頻的結(jié)構(gòu)的若干方法。圖l示出了所獲得的視頻結(jié)構(gòu)。該結(jié)構(gòu)表示為由包括節(jié)點和葉節(jié)點在內(nèi)的樹來表示的視頻的分級分解。節(jié)點和葉節(jié)點的數(shù)目取決于視頻內(nèi)容及其長度。典型地,樹的深度取決于內(nèi)容。樹的最低級與結(jié)構(gòu)分解的最高粒度相對應(yīng)。例如,在網(wǎng)球比賽中,最低級可以與點相對應(yīng)。如圖1所示,樹的最低級可以與片斷(小段視頻)相對應(yīng),或者直接與關(guān)鍵幀相對應(yīng)。使用更低粒度,可以假設(shè)最低級可以與關(guān)于網(wǎng)球的比賽相對應(yīng)。在廣播域中,解碼器可以在流的任何點處開始接收流。為了使解碼器利用該結(jié)構(gòu)信息,必須沿著流重復(fù)整個樹描述。該方案的問題在于,這可能表現(xiàn)出一些冗余,并可能消耗太多帶寬。因此,本發(fā)明提出了如圖2所示將結(jié)構(gòu)信息分為塊。所提出的語法使得能夠隨著流的流動以增量方式來傳送圖形。這種思想是使用在時間連續(xù)的點處傳送的多個塊來分割樹描述。假定在視頻內(nèi)容的相應(yīng)部分之前傳送每個塊。在圖2中,將樹分為3塊。節(jié)點id使得能夠在解碼器存儲器中對整個樹進(jìn)行重構(gòu)。在tl時刻,將指示下一輸入視頻的結(jié)構(gòu)的消息插入流中。該結(jié)構(gòu)在塊1中表示。在t2時刻,將指示下一輸入視頻的結(jié)構(gòu)的消息插入到流中。該結(jié)構(gòu)在塊2中表示。在t3時刻,將指示了下個輸入視頻的結(jié)構(gòu)的消息插入到流中。該結(jié)構(gòu)在塊3中表示。當(dāng)根據(jù)1丁11-丁11264對數(shù)據(jù)進(jìn)行編碼時,將結(jié)構(gòu)信息封裝入補充增強(qiáng)信息(SEI)消息中。在以下表中給出SEI消息的結(jié)構(gòu)9<table>tableseeoriginaldocumentpage10</column></row><table>表l字段"reference"指示在當(dāng)前消息中還是在未來消息中描述給定節(jié)點。根據(jù)本發(fā)明的另一實施例,還可以在廣播的視頻的起始處傳送所有塊。這使得在解碼器中整個結(jié)構(gòu)能夠在廣播的視頻的起始處可用。在優(yōu)選實施例中,在包括應(yīng)用了所述SEI消息的視頻在內(nèi)的NAL之前,每個塊在SEI消息中傳送一次。每個SEI消息包括指示視頻信息的絕對值的時間碼(稱為起始信息和結(jié)束信息)。為了對用戶而言有意義,當(dāng)導(dǎo)航到文檔中時,每個段由名稱表示,并且此外每個段可以由特定標(biāo)識符(如,SHOT、SCENE、EVENT、NEWS—STORY)來標(biāo)識,這給出了段的粒度。還可以使用表示視頻內(nèi)容的語義信息來標(biāo)識每個段,例如,GOAL、MATCH、GAME、SET。這最后的元數(shù)據(jù)給出了視頻索引應(yīng)用的信息。鍵值描述字段也指示了段的粒度、是否是關(guān)鍵幀、視頻片斷、或段的文本描述,包括例如來自多年已知的重要人物的非常重要的宣言。由于樹結(jié)構(gòu)是遞歸的,因此SEI消息的語法是遞歸的。此外,給出了塊中嵌入的分量的數(shù)目N。從而,當(dāng)相繼接收嵌入在數(shù)據(jù)流中的塊時,根據(jù)在表l中描述的語法和節(jié)點標(biāo)識符,由于每個塊不互相獨立而是完全聯(lián)系,能夠重建視頻數(shù)據(jù)的整個結(jié)構(gòu)。現(xiàn)在,將描述本發(fā)明的第二方面,本發(fā)明的第二方面提出了一種將指紋信息與視頻一起傳送的方法。視頻指紋處理是一項能夠檢測2個視頻文檔可能包含相同內(nèi)容或內(nèi)容片段的技術(shù)。視頻指紋處理能夠處理已改變(有意或無意)的內(nèi)容。這些改變包括-裁剪,壓縮,旋轉(zhuǎn),某種圖像改變(模糊…)。視頻指紋處理的公知應(yīng)用是檢測文檔的盜版。但是由于視頻指紋處理提供了一種識別2個類似文檔的可靠方式,其還具有其他應(yīng)用,包括在視頻集合中檢測相似物,或在完整編輯的文檔中檢索片斷。這些應(yīng)用是基于不同形式的純視覺相似度的、典型地支持"內(nèi)容查詢"的應(yīng)用它們的目的是檢索幾乎精確匹配的2個拷貝。指紋處理技術(shù)依賴于從可由特定搜索應(yīng)用有效處理的內(nèi)容中提取描述信息。可以將該描述信息存儲在元數(shù)據(jù)中,使其立即可用于搜索,而無需對視頻內(nèi)容進(jìn)行解壓和分析。根據(jù)優(yōu)選實施例,根據(jù)ITU-TR264標(biāo)準(zhǔn)對視頻數(shù)據(jù)進(jìn)行編碼。如下表所定義的,將指紋信息封裝入SEI消息中。<table>tableseeoriginaldocumentpage12</column></row><table>表2指紋SEI消息可以在流中的任何位置處出現(xiàn)。存在任何數(shù)目的這種消息,每個幀中至多一個。典型地,每個鏡頭中存在一個指紋消息。指紋消息指定其所關(guān)聯(lián)的、在表2中稱為參考幀(從其中提取指紋消息)的確切的幀。這是需要考慮時間約束的指紋檢查機(jī)制所需的。時間碼以如下方式來描述小時、分鐘、秒、與嵌入文檔相應(yīng)的幀編號。由3個字節(jié)和1個四位字節(jié)表示b(8)、b(8)、b(8)、n(4)。如果對文檔進(jìn)行編輯,則必須重新產(chǎn)生該元數(shù)據(jù)。"FingerprintalgorithmIndex"是用于描述該幀的視頻指紋算法的索引。一些不同的視頻指紋算法可以用來描述幀、鏡頭。在通過兩個不同算法提取了兩個視頻指紋處理的情況下,直接的指紋比較是不可能的。在語法定義內(nèi),u(w)使用n個比特來表示無符號整數(shù),b(8)表示具有任何比特串模式(8比特)的字節(jié),p^/o6^SV^是整個video—annotation—SEI有效載荷的以字節(jié)為單位的大小。為了加速快速比特流解析,這里不使用可變長度編碼??梢詫⒅讣y和視頻結(jié)構(gòu)的信息都組合到還包括其他視頻注釋信息在內(nèi)的高級SEI消息中。例如,下表可以提出包括與視頻注釋相關(guān)的若干類型的元數(shù)據(jù)在內(nèi)的SEI消息結(jié)構(gòu)。video一annotation一SEI(payloadSize){C描述符metadataTypeu(8)if(metadataType&0x01==0x01)text—metadata(payloadSize)if(metadataType&0x02==0x02)motion_metadata()if(metadataType&0x04==0x04)colour—metadata0if(metadataType&0x08==0x08)texture—metadata()if(metadataType&0x10==0x10)fingerprint—metadata()if(metadataType&0x10==0x12)structure—metadata0在不背離本發(fā)明范圍的前提下,還涉及一種視頻編碼設(shè)備,包括-用于確定視頻數(shù)據(jù)的結(jié)構(gòu)的裝置,-用于以增量方式將所述結(jié)構(gòu)分為塊的裝置,-用于在與所述塊相關(guān)的視頻數(shù)據(jù)之前的時間間隔,將所述塊插入數(shù)據(jù)流中的裝置。優(yōu)選地,該編碼設(shè)備符合ITU-TH.264標(biāo)準(zhǔn),并且所述結(jié)構(gòu)信息被封裝入補充增強(qiáng)信息(SEI)消息中。本發(fā)明還涉及一種視頻編碼設(shè)備,包括-用于確定與所述視頻數(shù)據(jù)的至少一個幀相關(guān)聯(lián)的指紋的裝置,-用于至少將包括所述指紋信息在內(nèi)的消息插入視頻流中的裝置。優(yōu)選地,該編碼設(shè)備符合ITU-TH.264標(biāo)準(zhǔn),并且所述指紋信息被封裝入補充增強(qiáng)信息(SEI)消息中。本發(fā)明還涉及一種個人視頻錄像機(jī),包括-用于對編碼的視頻信息進(jìn)行解碼的裝置,-用于對以增量方式插入編碼的視頻數(shù)據(jù)中的相關(guān)聯(lián)視頻數(shù)據(jù)結(jié)構(gòu)進(jìn)行解碼的裝置,-根據(jù)在運行時接收到的增量視頻數(shù)據(jù)結(jié)構(gòu)來對視頻數(shù)據(jù)結(jié)構(gòu)進(jìn)行重建的裝置。本發(fā)明還涉及一種個人視頻錄像機(jī),包括-用于對編碼的視頻信息進(jìn)行解碼的裝置,-用于對編碼的視頻數(shù)據(jù)中包括的指紋信息進(jìn)行解碼的裝置,-用于對接收到的編碼的視頻數(shù)據(jù)進(jìn)行存儲的裝置,-基于多個所記錄的視頻數(shù)據(jù)的指紋信息來對多個所記錄的視頻數(shù)據(jù)進(jìn)行比較的裝置。權(quán)利要求1、一種將與視頻數(shù)據(jù)相關(guān)聯(lián)的指紋信息傳送到視頻數(shù)據(jù)流中的方法,其特征在于,所述方法包括以下步驟-確定與所述視頻數(shù)據(jù)的至少一個幀相關(guān)聯(lián)的指紋,-至少將包括所述指紋信息在內(nèi)的消息插入視頻流中。2、根據(jù)權(quán)利要求l所述的方法,其特征在于,所述視頻數(shù)據(jù)符合ITU-TH.264標(biāo)準(zhǔn),并且所述指紋信息被封裝入補充增強(qiáng)信息SEI消息中。3、一種用于傳送數(shù)據(jù)流中的視頻數(shù)據(jù)和相關(guān)聯(lián)的元數(shù)據(jù)的方法,所述元數(shù)據(jù)表示相關(guān)聯(lián)的視頻數(shù)據(jù)結(jié)構(gòu),其特征在于,所述方法包括以下步驟-確定視頻數(shù)據(jù)的結(jié)構(gòu),-以增量方式將所述結(jié)構(gòu)分為塊,-在與所述塊相關(guān)的視頻數(shù)據(jù)之前的時間間隔,在數(shù)據(jù)流中傳送所述塊。4、根據(jù)權(quán)利要求3所述的方法,其特征在于,所述數(shù)據(jù)結(jié)構(gòu)包括多個節(jié)點,每個節(jié)點包括多個葉節(jié)點,每個塊包括多個節(jié)點和葉節(jié)點。5、根據(jù)權(quán)利要求4所述的方法,其特征在于,對所述視頻數(shù)據(jù)進(jìn)行編碼,并且將所述塊封裝為編碼的視頻數(shù)據(jù)中的消息,所述塊包括對塊中包括的節(jié)點的描述,或包括指示所述描述被包括在下一塊中的"(曰息。6、根據(jù)權(quán)利要求3所述的方法,其特征在于,所述視頻數(shù)據(jù)是符合11!;-丁&264標(biāo)準(zhǔn)的編碼的元數(shù)據(jù),并且至少將所述元數(shù)據(jù)傳送到補充增強(qiáng)信息SEI消息中。7、根據(jù)權(quán)利要求5所述的方法,其特征在于,所述描述中包括的所述信息是在以下內(nèi)容之間選擇的-節(jié)點標(biāo)識符,-指示所述信息中是否描述了所述節(jié)點的指示符,-以及,在當(dāng)前信息中描述了所述節(jié)點的情況下-表示與所述節(jié)點相關(guān)聯(lián)的視頻信息的名稱,-給出與所述節(jié)點相關(guān)聯(lián)的視頻信息的持續(xù)時間的時間碼,-多個概要段,以及針對每個概要段-表示概要段的名稱,-表示與所述概要段相關(guān)聯(lián)的語義信息的類別,-鍵值描述,對在關(guān)鍵幀、片斷或文本描述中選擇的段類型進(jìn)行描述,或者在這些信息的任何組合之間進(jìn)行選擇。8、一種視頻編碼設(shè)備,包括-用于確定視頻數(shù)據(jù)的結(jié)構(gòu)的裝置,-用于以增量方式將所述結(jié)構(gòu)分為塊的裝置,-用于在與所述塊相關(guān)的視頻數(shù)據(jù)之前的時間間隔,將所述塊插入數(shù)據(jù)流中的裝置。9、一種視頻編碼設(shè)備,包括-用于確定與所述視頻數(shù)據(jù)的至少一個幀相關(guān)聯(lián)的指紋的裝置,-用于至少將包括所述指紋信息在內(nèi)的消息插入視頻流中的裝置。10、根據(jù)權(quán)利要求8所述的視頻編碼設(shè)備,其特征在于,所述視頻編碼設(shè)備符合ITU-TH,264標(biāo)準(zhǔn),并且所述結(jié)構(gòu)信息被封裝入補充增強(qiáng)信息SEI消息中。11、根據(jù)權(quán)利要求9所述的視頻編碼設(shè)備,其特征在于,所述視頻編碼設(shè)備符合11!;-丁11.264標(biāo)準(zhǔn),并且所述指紋信息被封裝入補充增強(qiáng)信息SEI消息中。12、一種個人視頻錄像機(jī),其特征在于,包括-用于對編碼的視頻信息進(jìn)行解碼的裝置,-用于對以增量方式插入到編碼的視頻數(shù)據(jù)中的相關(guān)聯(lián)視頻數(shù)據(jù)結(jié)構(gòu)進(jìn)行解碼的裝置,-根據(jù)在運行時接收到的增量視頻數(shù)據(jù)結(jié)構(gòu)來對視頻數(shù)據(jù)結(jié)構(gòu)進(jìn)行重建的裝置。13、一種個人視頻錄像機(jī),其特征在于,包括-用于對編碼的視頻信息進(jìn)行解碼的裝置,-用于對編碼的視頻數(shù)據(jù)中包括的指紋信息進(jìn)行解碼的裝置,-用于對接收到的編碼的視頻數(shù)據(jù)進(jìn)行存儲的裝置,-基于多個所記錄的視頻數(shù)據(jù)的指紋信息來對多個所記錄的視頻數(shù)據(jù)進(jìn)行比較的裝置。全文摘要本申請涉及一種用于傳送數(shù)據(jù)流中的視頻數(shù)據(jù)和相關(guān)聯(lián)的元數(shù)據(jù)的方法,所述元數(shù)據(jù)表示關(guān)聯(lián)的視頻數(shù)據(jù)結(jié)構(gòu)。所述方法包括以下步驟確定視頻數(shù)據(jù)的結(jié)構(gòu);以增量方式將所述結(jié)構(gòu)分為塊;在與所述塊相關(guān)的視頻數(shù)據(jù)之前的時間間隔,在數(shù)據(jù)流中傳送所述塊。本申請還涉及一種用于將與視頻數(shù)據(jù)相關(guān)聯(lián)的指紋信息傳送到視頻數(shù)據(jù)流中的方法。所述方法包括以下步驟確定與所述視頻數(shù)據(jù)的至少一個幀相關(guān)聯(lián)的指紋;至少將包括所述指紋信息在內(nèi)的消息插入視頻流中。文檔編號H04N7/24GK101658034SQ200880012026公開日2010年2月24日申請日期2008年4月10日優(yōu)先權(quán)日2007年4月17日發(fā)明者利昂內(nèi)爾·瓦瑟,弗朗西斯科·勒克萊爾,弗雷德里克·勒菲弗,路易斯·舍瓦利耶申請人:湯姆森許可貿(mào)易公司