利用基于模板的對(duì)象跟蹤和增強(qiáng)的視頻編碼的制作方法

文檔序號(hào)：6593293閱讀：291來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：利用基于模板的對(duì)象跟蹤和增強(qiáng)的視頻編碼的制作方法
技術(shù)領(lǐng)域：
本發(fā)明總地涉及數(shù)字圖片的傳送，具體而言涉及增強(qiáng)所關(guān)注對(duì)象在數(shù)字圖片尤其是以具有低分辨率、低比特率視頻編碼的單位顯示的數(shù)字圖片中的可見性。
背景技術(shù)：
對(duì)于將視頻內(nèi)容遞送到諸如蜂窩電話和PDA之類的手持設(shè)備的需求越來(lái)越大。因為屏幕尺寸較小、帶寬有限且解碼器端處理能力有限，視頻是以低比特率、按低分辨率來(lái)編碼的。低分辨率、低比特率視頻編碼的主要問題之一是對(duì)于感知到的視頻質(zhì)量至關(guān)重要的對(duì)象的劣化或丟失。例如，以下情況是很惱人的在觀看足球比賽或網(wǎng)球比賽的視頻剪輯時(shí)，球不是清楚可見的。

發(fā)明內(nèi)容
因此，希望突出所關(guān)注對(duì)象，以提高低分辨率、低比特率視頻的主觀視覺質(zhì)量。在本發(fā)明的各種實(shí)現(xiàn)方式中，在給定所關(guān)注對(duì)象在數(shù)字圖像中的大致位置和大小的情況下，增強(qiáng)對(duì)象在圖像中的可見性，或者在細(xì)化對(duì)象的大致位置和大小之后增強(qiáng)對(duì)象的可見性。對(duì)象增強(qiáng)提供了至少兩個(gè)益處。首先，對(duì)象增強(qiáng)使得對(duì)象更容易被看到和跟隨，從而改善了用戶體驗(yàn)。第二，對(duì)象增強(qiáng)幫助了對(duì)象在編碼(即，壓縮)階段期間保持較小的劣化。本發(fā) 明的一個(gè)主要應(yīng)用是將視頻遞送到諸如蜂窩電話和PDA之類的手持設(shè)備，但是本發(fā)明的特征、概念和實(shí)現(xiàn)方式對(duì)于例如包括基于互聯(lián)網(wǎng)協(xié)議的視頻(低比特率、標(biāo)準(zhǔn)清晰度內(nèi)容)在內(nèi)的多種其他應(yīng)用、情境和環(huán)境也可能是有幫助的。本發(fā)明提供了突出視頻中的所關(guān)注對(duì)象以提高低分辨率、低比特率視頻的主觀視覺質(zhì)量。本發(fā)明的系統(tǒng)和方法能夠處理具有不同特性的對(duì)象并且能夠在全自動(dòng)、半自動(dòng) (即，手工輔助)和全手工模式中操作。對(duì)象的增強(qiáng)可在預(yù)處理階段(即，在視頻編碼階段之前或之中)或者在后期處理階段(即，在視頻解碼階段之后)執(zhí)行。根據(jù)本發(fā)明，通過(guò)以下方式來(lái)增強(qiáng)對(duì)象在數(shù)字圖片中的可見性提供包含對(duì)象的數(shù)字圖片的輸入視頻，存儲(chǔ)表示對(duì)象的性質(zhì)和特性的信息，并且響應(yīng)于視頻輸入和表示對(duì) 象的性質(zhì)和特性的信息而形成標(biāo)識(shí)和定位對(duì)象的對(duì)象定域信息(object localization information)。對(duì)輸入視頻和對(duì)象定域信息編碼和解碼，并且響應(yīng)于經(jīng)解碼的對(duì)象定域信息，形成輸入視頻的包含對(duì)象和數(shù)字圖片中對(duì)象所位于的區(qū)域的那個(gè)部分的經(jīng)增強(qiáng)視頻。

圖1是根據(jù)本發(fā)明構(gòu)造的用于增強(qiáng)對(duì)象在數(shù)字視頻中的可見性的系統(tǒng)的優(yōu)選實(shí) 施例的框圖。圖2是圖1的系統(tǒng)提供的大致對(duì)象定域。圖3A至3D示出了根據(jù)本發(fā)明的對(duì)象增強(qiáng)中的工作流程。圖4是根據(jù)本發(fā)明可用于細(xì)化對(duì)象標(biāo)識(shí)信息和對(duì)象位置信息的對(duì)象邊界估計(jì)算法的流程圖。圖5A至5D示出了根據(jù)本發(fā)明的任意形狀的對(duì)象的邊界的位階集合(level set) 估計(jì)的概念的實(shí)現(xiàn)方式。圖6是根據(jù)本發(fā)明的對(duì)象增強(qiáng)算法的流程圖。圖7A至7C示出了可用于說(shuō)明編碼階段期間對(duì)象標(biāo)識(shí)信息和對(duì)象位置信息的細(xì)化的16 X 16宏塊的三種可能的細(xì)分。
具體實(shí)施例方式參考圖1，根據(jù)本發(fā)明構(gòu)造的對(duì)象增強(qiáng)系統(tǒng)可以跨越發(fā)送機(jī)10中的所有組件，或者對(duì)象增強(qiáng)組件可以在接收機(jī)20中。在過(guò)程鏈中有三個(gè)可以執(zhí)行對(duì)象突出的階段(1)預(yù) 處理，其中在編碼(即，壓縮)階段之前在發(fā)送機(jī)10中增強(qiáng)對(duì)象；(2)編碼，其中通過(guò)對(duì)關(guān) 于對(duì)象及其位置的信息的細(xì)化，在發(fā)送機(jī)10中向包含對(duì)象的所關(guān)注區(qū)域給予特殊對(duì)待；以及(3)后期處理，其中在利用從發(fā)送機(jī)10通過(guò)比特流作為元數(shù)據(jù)傳送來(lái)的關(guān)于對(duì)象及其位置的附加信息進(jìn)行解碼之后，在接收機(jī)20中增強(qiáng)對(duì)象。根據(jù)本發(fā)明構(gòu)造的對(duì)象增強(qiáng)系統(tǒng)可被布置為僅在上述階段之一中、在上述階段之中的兩個(gè)階段中或者在所有上述三個(gè)階段中提供對(duì)象突出。圖1的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的系統(tǒng)包括用于提供包含所關(guān)注對(duì) 象的輸入視頻的裝置。包含要被增強(qiáng)可見性的對(duì)象的數(shù)字圖片的來(lái)源可以是具有傳統(tǒng)構(gòu)造和操作的電視攝像機(jī)并且由箭頭12表示。圖1的系統(tǒng)還包括用于存儲(chǔ)表示所關(guān)注對(duì)象的性質(zhì)和特性的信息(例如，對(duì)象模板)并且響應(yīng)于視頻輸入和表示對(duì)象的性質(zhì)和特性的信息來(lái)形成標(biāo)識(shí)和定位對(duì)象的對(duì)象定域信息的裝置。這種裝置在圖1中被標(biāo)識(shí)為對(duì)象定域模塊14，其包括用于以幀為單位掃描輸入視頻以在圖片中識(shí)別具有與存儲(chǔ)的表示所關(guān)注對(duì)象的性質(zhì)和特性的信息類似的性質(zhì)和特性的對(duì)象(即，對(duì)象是什么)和定位該對(duì)象(即，對(duì)象在何處)的裝置。對(duì)象定域模塊14可以是具有傳統(tǒng)構(gòu)造和操作的單元，其以幀為單位掃描輸入視頻的數(shù)字圖片，并且將輸入視頻的數(shù)字圖片的被掃描的區(qū)段與存儲(chǔ)的表示所關(guān)注對(duì)象的性質(zhì)和特性的信息相比較，從而在由于掃描特定區(qū)段而形成的信息與存儲(chǔ)的表示對(duì)象的性質(zhì)和特性的信息類似時(shí) 識(shí)別并定位(按數(shù)字圖片的網(wǎng)格坐標(biāo))所關(guān)注對(duì)象。一般地，對(duì)象定域模塊14在識(shí)別和定位所關(guān)注對(duì)象時(shí)實(shí)現(xiàn)以下方法中的一種或多種對(duì)象跟蹤-對(duì)象跟蹤器的目標(biāo)是定位視頻中的運(yùn)動(dòng)對(duì)象。通常，在給定來(lái)自先前幀的運(yùn)動(dòng)對(duì)象的歷史的情況下，跟蹤器估計(jì)當(dāng)前幀中的對(duì)象參數(shù)(例如，位置、大小)。跟蹤方案可基于例如模板匹配、光流、卡爾曼濾波器、均值漂移分析、隱式馬爾可夫模型和粒子濾波器。 ·對(duì)象檢測(cè)-對(duì)象檢測(cè)的目標(biāo)是基于關(guān)于對(duì)象的先前知識(shí)來(lái)檢測(cè)圖像或視頻幀中的對(duì)象的存在和位置。對(duì)象檢測(cè)方法一般采用自上而下和自下而上方案的組合。在自上而下方案中，對(duì)象檢測(cè)方法是基于從人類關(guān)于所檢測(cè)的對(duì)象的知識(shí)得出的規(guī)則的。在自下而上方案中，對(duì)象檢測(cè)方法將對(duì)象與低級(jí)別結(jié)構(gòu)特征或圖案關(guān)聯(lián)起來(lái)，然后通過(guò)搜索這些特征或圖案來(lái)定位對(duì)象。
對(duì)象分割_在此方案中，圖像或視頻被分解成其構(gòu)成“對(duì)象”，這些構(gòu)成“對(duì)象’可包括語(yǔ)義實(shí)體或視覺結(jié)構(gòu)，比如色塊。此分解通常是基于對(duì)象的運(yùn)動(dòng)、顏色和紋理屬性的。對(duì)象分割具有若干的應(yīng)用，包括緊湊視頻編碼、自動(dòng)和半自動(dòng)的基于內(nèi)容的描述、影片后期制作、以及場(chǎng)景解釋。尤其，分割通過(guò)提供對(duì)場(chǎng)景的基于對(duì)象的描述而簡(jiǎn)化了對(duì)象定域問題。圖2示出了由對(duì)象定域模塊14提供的大致對(duì)象定域。用戶例如在對(duì)象所位于的區(qū)域周圍繪出一橢圓，以大致定位對(duì)象。最終，大致對(duì)象定域信息(即，橢圓的中心點(diǎn)、長(zhǎng)軸和短軸參數(shù))被細(xì)化。理想情況下，對(duì)象定域模塊14在全自動(dòng)模式中操作。然而，實(shí)際上，可能需要一些手工輔助來(lái)糾正系統(tǒng)所犯的差錯(cuò)或者至少限定供系統(tǒng)定域的重要對(duì)象。增強(qiáng)非對(duì)象區(qū)域可能導(dǎo)致觀看者分散注意力、錯(cuò)過(guò)真正的動(dòng)作。為了避免或最小化此問題，用戶如上所述可以在對(duì)象周圍繪出橢圓，而系統(tǒng)隨后可以從指定的位置跟蹤對(duì)象。如果在某一幀中成功定位到對(duì)象，則對(duì)象定域模塊14輸出相應(yīng)的橢圓參數(shù)(S卩，中心點(diǎn)、長(zhǎng)軸和短軸)。理想情況下，此定界橢圓的輪廓將與對(duì)象的輪廓一致。然而，當(dāng)參數(shù)可能只是大致的且所得到的橢圓沒有嚴(yán)密包含對(duì)象，并且對(duì)象增強(qiáng) 被應(yīng)用時(shí)，可能發(fā)生兩個(gè)問題。第一，對(duì)象可能沒有被完全增強(qiáng)，因?yàn)闄E圓沒有包括整個(gè)對(duì) 象。第二，非對(duì)象區(qū)域可能被增強(qiáng)。因?yàn)檫@兩個(gè)結(jié)果都可能是不合需要的，所以在這種情況下，在增強(qiáng)之前細(xì)化對(duì)象區(qū)域是有用的。在下文中更詳細(xì)地關(guān)注對(duì)象定域信息的細(xì)化。圖1的系統(tǒng)還包括以下裝置該裝置用于響應(yīng)于視頻輸入和從對(duì)象定域模塊14接收的對(duì)象定域信息，形成數(shù)字圖片的包含所關(guān)注對(duì)象和對(duì)象所位于的區(qū)域的那個(gè)部分的經(jīng) 增強(qiáng)視頻。這種裝置在圖1中被標(biāo)識(shí)為對(duì)象增強(qiáng)模塊16，其可以是具有傳統(tǒng)構(gòu)造和操作的單元，通過(guò)向數(shù)字圖片的包含所關(guān)注對(duì)象的區(qū)域應(yīng)用傳統(tǒng)的圖像處理操作來(lái)增強(qiáng)該區(qū)域的可見性。以幀為單位從對(duì)象定域模塊14接收的對(duì)象定域信息包括所關(guān)注對(duì)象所位于的、具有預(yù)定大小的區(qū)域的網(wǎng)格坐標(biāo)。此外，如上所述，對(duì)象增強(qiáng)幫助減輕增強(qiáng)階段之后的編碼階段期間對(duì)象的劣化，下文中將對(duì)其加以描述。截至此時(shí)圖1的系統(tǒng)的操作對(duì)應(yīng)于以上所述的操作的預(yù)處理模式。當(dāng)增強(qiáng)對(duì)象時(shí)，通過(guò)在所關(guān)注對(duì)象所位于的區(qū)域中應(yīng)用圖像處理操作來(lái)提高對(duì)象的可見性。這些操作可以沿著對(duì)象邊界來(lái)應(yīng)用(例如，邊緣銳化)，在對(duì)象內(nèi)部應(yīng)用(例如，紋理增強(qiáng))，甚至可能在對(duì)象外部應(yīng)用(例如，對(duì)比度增大、在對(duì)象區(qū)域之外模糊)。例如，吸引更多注意力到對(duì)象的一種方式是對(duì)對(duì)象內(nèi)部和沿著對(duì)象輪廓的邊緣進(jìn)行銳化。這使得對(duì)象中的細(xì)節(jié)更可見，并且還使得對(duì)象從背景中突顯出來(lái)。另外，更銳利的邊緣往往能更好地從編碼中幸存下來(lái)。另一種可能方式是放大對(duì)象，例如通過(guò)反復(fù)地應(yīng)用平滑、銳化和對(duì)象細(xì)化操作(不一定按此順序)。圖3A至3D示出了對(duì)象增強(qiáng)過(guò)程中的工作流程。圖3A是足球視頻中的單個(gè)幀，其中關(guān)注的對(duì)象是足球。圖3B示出了對(duì)象定域模塊14的輸出，即該幀中的足球的對(duì)象定域信息。圖3C示出了區(qū)域細(xì)化步驟(下文中更詳細(xì)關(guān)注)，其中圖3B的大致對(duì)象位置信息被細(xì)化以形成對(duì)對(duì)象邊界的更準(zhǔn)確估計(jì)，即圍繞著球的淺色線。圖3D示出了在應(yīng)用對(duì)象增強(qiáng) (在此示例中是邊緣銳化)之后的結(jié)果。注意，與圖3A的原始幀中相比，在圖3D中足球更銳利，因而更可見。對(duì)象還具有更高的對(duì)比度，這一般指的是使深色更深并使淺色更淺。在圖1的系統(tǒng)中包括對(duì)象增強(qiáng)提供了重大優(yōu)點(diǎn)。與有缺陷的跟蹤和失真的增強(qiáng)相關(guān)聯(lián)的問題得到了克服。有缺陷的跟蹤可能造成難以定位對(duì)象。在幀與幀之間，對(duì)象位置可能有輕微偏差，并且每個(gè)幀可能以不同的方式有輕微偏差。這可能導(dǎo)致閃爍，閃爍例如是由于在各個(gè)幀中背景的片段被增強(qiáng)和/或在各個(gè)幀中對(duì)象的不同部分被增強(qiáng)而引起的。此外，常見的增強(qiáng)技術(shù)在某些情況下可能引入失真。如上所述，當(dāng)對(duì)象定域信息只是近似了每個(gè)幀中對(duì)象的性質(zhì)和對(duì)象的位置時(shí)，可能需要在增強(qiáng)之前對(duì)對(duì)象定域信息進(jìn)行細(xì)化，以避免對(duì)對(duì)象所位于的區(qū)域的邊界之外的特征進(jìn)行增強(qiáng)。對(duì)象定域模塊14對(duì)對(duì)象定域信息的形成和將對(duì)象定域信息遞送到對(duì)象增強(qiáng)模塊 16如上所述可以是全自動(dòng)的。隨著輸入視頻的幀被對(duì)象定域模塊14接收到，對(duì)象定域信息被對(duì)象定域模塊所更新，并且經(jīng)更新的對(duì)象定域信息被遞送到對(duì)象增強(qiáng)模塊16。對(duì)象定域模塊14對(duì)對(duì)象定域信息的形成和將對(duì)象定域信息遞送到對(duì)象增強(qiáng)模塊 16也可以是半自動(dòng)的。不是將對(duì)象定域信息直接從對(duì)象定域模塊14遞送到對(duì)象增強(qiáng)模塊 16，而是用戶在得到了對(duì)象定域信息之后可以手工向輸入視頻的數(shù)字圖片添加標(biāo)記，例如邊界線，這些標(biāo)記限定了對(duì)象所位于的具有預(yù)定大小的區(qū)域。形成對(duì)象定域信息和將對(duì)象定域信息遞送到對(duì)象增強(qiáng)模塊16也可以是全手工的。在這種操作中，用戶查看輸入視頻的數(shù)字圖片并且手工向輸入視頻的數(shù)字圖片添加限定了對(duì)象所位于的具有預(yù)定大小的區(qū)域的標(biāo)記，例如邊界線。實(shí)際上，對(duì)于實(shí)況事件報(bào)導(dǎo)，不推薦全手工操作。在必要或希望時(shí)對(duì)對(duì)象定域信息的細(xì)化包括對(duì)象邊界估計(jì)，其中估計(jì)對(duì)象的確切邊界。對(duì)確切邊界的估計(jì)在沒有不自然的對(duì)象外觀和運(yùn)動(dòng)的副作用的情況下幫助增強(qiáng)對(duì)象可見性，并且是基于若干個(gè)標(biāo)準(zhǔn)的。公開了用于對(duì)象邊界估計(jì)的三種方案。第一種是基于橢圓的方案，其通過(guò)在某一范圍的橢圓參數(shù)上搜索，來(lái)確定或識(shí)別最嚴(yán)密地劃定對(duì)象邊界的橢圓。用于對(duì)象邊界估計(jì)的第二種方案是基于位階集合的搜索，其中獲得對(duì)象鄰域的位階集合，然后構(gòu)造對(duì)最有可能表示對(duì)象邊界的位階集合輪廓的搜索。用于對(duì)象邊界估計(jì)的第三種方案包括曲線演化方法(例如輪廓或蛇形線)，這些方法可用于以某些約束來(lái)收縮或擴(kuò)展曲線，以便其收斂到對(duì)象邊界。下文中僅更詳細(xì)關(guān)注用于對(duì) 象邊界估計(jì)第一和第二種方案。在基于橢圓的方案中，對(duì)象邊界估計(jì)相當(dāng)于確定最嚴(yán)密地劃定對(duì)象邊界的橢圓的參數(shù)。此方案在初始值(即，對(duì)象定域模塊14的輸出)周圍的某一范圍的橢圓參數(shù)上搜索，并且確定每個(gè)橢圓劃定對(duì)象邊界的嚴(yán)密度。圖4中示出的該算法的輸出是最嚴(yán)密定界的橢圓。橢圓的嚴(yán)密度度量被定義為沿著橢圓邊緣的圖像強(qiáng)度的平均梯度。此度量的原理在于，最嚴(yán)密的定界橢圓應(yīng)當(dāng)密切地跟隨對(duì)象輪廓，而圖像強(qiáng)度的梯度通常沿著對(duì)象輪廓(即，對(duì)象與背景之間的邊緣)較高。該對(duì)象邊界估計(jì)算法的流程圖在圖4中示出。用于細(xì) 化參數(shù)的搜索范圍(Δχ，Ay, Aa, Ab)是用戶指定的。圖4的流程圖開始于計(jì)算平均強(qiáng)度梯度。然后初始化變量并且進(jìn)入用于水平中心點(diǎn)位置、垂直中心點(diǎn)位置和兩個(gè)軸的四個(gè)嵌套循環(huán)。如果由此中心點(diǎn)和兩個(gè)軸描述的橢圓產(chǎn)生了更好(即，更大)的平均強(qiáng)度梯度，那么此梯度值和此橢圓被標(biāo)注為到目前為止最好的。接下來(lái)是在所有四個(gè)循環(huán)上循環(huán)，退出時(shí)得到最好的橢圓?；跈E圓的方案可被應(yīng)用到對(duì)象與背景之間的邊界具有一致的高梯度的環(huán)境。然而，此方案也可應(yīng)用到邊界不具有一致高梯度的環(huán)境。例如，即使對(duì)象和/或背景在沿著對(duì) 象/背景邊界的強(qiáng)度上有變動(dòng)，此方案也是有用的。基于橢圓的方案在典型實(shí)現(xiàn)方式中產(chǎn)生對(duì)最佳擬合橢圓的描述。該描述通常包括中心點(diǎn)以及長(zhǎng)軸和短軸?；跈E圓的表示可能不足以描述具有任意形狀的對(duì)象。即使是橢圓形的對(duì)象在因運(yùn)動(dòng)而模糊或者部分被遮擋時(shí)也可能看起來(lái)具有不規(guī)則形狀。位階集合表示幫助實(shí)現(xiàn)了對(duì) 任意形狀對(duì)象的邊界的估計(jì)。圖5Α至5D示出了用于對(duì)象邊界估計(jì)的位階集合方案的概念。假定強(qiáng)度圖像I (X， y)是例如圖5B所示的連續(xù)強(qiáng)度表面，而不是例如圖5A所示的離散強(qiáng)度的網(wǎng)格。強(qiáng)度值i 上的位階集合是由I1G) = {(x, y) IKx, y) = i}定義的閉合輪廓的集合。該閉合輪廓可被描述為連續(xù)曲線，或者由沿著該曲線的離散像素的串來(lái)描述。圖像I的位階集合表示是不同強(qiáng)度位階值上的位階集合的集合(即，L1(M) = U1(I)Ii eM})。例如，M= {0, 255}或M= {50. 5，100. 5，200. 5}?？梢酝ㄟ^(guò)若干方法從圖像中提取位階集合。這些方法之一是每次在四個(gè)像素的集合之間應(yīng)用雙線性插值，以便將離散強(qiáng)度網(wǎng)格轉(zhuǎn)換成在空間和強(qiáng)度值上都連續(xù)的強(qiáng)度表面。然后，通過(guò)計(jì)算該表面與例如圖5C所示的一個(gè)或多個(gè)位階平面(即，具有指定位階的水平平面)的交集，來(lái)提取出例如圖5D所示的位階集合。位階集合表示在許多方面類似于地形圖。地形圖通常包括各種高程值的閉合輪廓。實(shí)踐中，圖像I可以是包含其邊界要被估計(jì)的對(duì)象的子圖像。提取位階集合表示 L1(M),其中M= i2,...,iN}0可以基于對(duì)象像素的大概強(qiáng)度來(lái)構(gòu)造集合M，或者集合M 可以就簡(jiǎn)單地以固定的步長(zhǎng)跨越整個(gè)強(qiáng)度范圍(例如，M= {0. 5，1.5，...，254. 5，255. 5})。然后，考慮集合L1(M)中包含的所有位階集合曲線(即，閉合輪廓) .。對(duì)象邊界估計(jì)被安排成確定最滿足與對(duì)象有關(guān)的若干標(biāo)準(zhǔn)的位階集合曲線C*的問題。這些標(biāo)準(zhǔn)可包括以下變量等等·沿著Cj的平均強(qiáng)度梯度；· Cj內(nèi)的面積；· Cj 的長(zhǎng)度；· Cj的中心的位置；· Cj所包含的像素的強(qiáng)度的均值和/或方差。這些標(biāo)準(zhǔn)可基于先前的關(guān)于對(duì)象的知識(shí)來(lái)向這些變量施加約束。在下文中，描述了使用位階集合的對(duì)象邊界估計(jì)的一種具體實(shí)現(xiàn)方式。令HVef，sref> aref和Xref = (xref, yref)分別為對(duì)象的平均強(qiáng)度、強(qiáng)度標(biāo)準(zhǔn)偏差、面積
8和中心的基準(zhǔn)值?？梢曰谙惹暗年P(guān)于對(duì)象的知識(shí)(例如，來(lái)自對(duì)象定域模塊14的、例如從橢圓獲得的對(duì)象參數(shù))來(lái)初始化這些值。位階的集合M隨后被構(gòu)造為M= {imin, Imi^A1, Imi^A1, ...，imax}，其中 imin =Lmfe<-SrefJ-0·5|， ^nax =Lmref+SrefJ+0.δ| 并且 Δ/= L(/max - /min) / Nj[其中N是預(yù)設(shè)值(例如，10)。注意[_.」表示向下取整運(yùn)算。對(duì)于特定的位階集合曲線Cj，令％、~、和\ = (Xjjyj)分別為Cj所包含的圖像區(qū)域的平均強(qiáng)度、強(qiáng)度標(biāo)準(zhǔn)偏差、面積和中心的測(cè)量值。還計(jì)算了沿著G的平均強(qiáng)度梯度 Gavg(Cj)。換言之，Gavg(Cj)是Cj上的每個(gè)像素處的梯度大小的平均值。對(duì)于每個(gè)Cj,現(xiàn)在如下計(jì)算一個(gè)分?jǐn)?shù)S (Cj) = Gavg (Cj) Sa (aref, a」)Sx (xref, Xj),其中Sa和Sx是相似性函數(shù)，其輸出值位于范圍
中，值越高表明基準(zhǔn)值和測(cè) 量值之間的匹配越好。例如，Sa = exp (-Iaref-BjD并且Sx = exp (- Xref-Xj |2)。對(duì)象邊
界C*隨后被估計(jì)為使此得分達(dá)到最大的曲線(即，C-arg^iaxtsfd)。在估計(jì)對(duì)象邊界之后，可以利用學(xué)習(xí)因子α e
(例如，
rn^ = QWIy+(1 - a)mref I)來(lái)更新基準(zhǔn)值mMf，sMf、aref和xMf。在視頻序列的情況下，因
子α可以是時(shí)間(例如，幀索引)t的函數(shù)，其開始于高值，然后隨著每個(gè)幀而減小，最后飽和到固定的低值amin。在對(duì)象的增強(qiáng)中，通過(guò)在對(duì)象的鄰域中應(yīng)用圖像處理操作來(lái)提高對(duì)象的可見性。這些操作可以沿著對(duì)象邊界來(lái)應(yīng)用(例如，邊緣銳化)，在對(duì)象內(nèi)部應(yīng)用(例如，紋理增強(qiáng))，甚至可能在對(duì)象外部應(yīng)用(例如，對(duì)比度增大)。在這里描述的實(shí)現(xiàn)方式中，提出了若干種用于對(duì)象增強(qiáng)的方法。第一種是對(duì)對(duì)象內(nèi)部和沿著其輪廓的邊緣進(jìn)行銳化。第二種是通過(guò)反復(fù)地應(yīng)用平滑、銳化和邊界估計(jì)操作(不一定按此順序)來(lái)放大對(duì)象。其他可能的方法包括使用形態(tài)濾波器和對(duì)象替換。吸引更多注意力到對(duì)象的一種方式是對(duì)對(duì)象內(nèi)部和沿著對(duì)象的輪廓的邊緣進(jìn)行銳化。這使得對(duì)象中的細(xì)節(jié)更可見，并且還使得對(duì)象從背景中突顯出來(lái)。另外，更銳利的邊緣往往能更好地從壓縮中幸存下來(lái)。通過(guò)銳化來(lái)增強(qiáng)對(duì)象的算法每次一幀地在對(duì)象上操作，并且以強(qiáng)度圖像I (χ，y)和由對(duì)象定域模塊14提供的對(duì)象參數(shù)(即，位置、大小等等) 作為其輸入。該算法包括如下三個(gè)步驟估計(jì)對(duì)象0的邊界?！は?qū)ο筮吔鐑?nèi)和對(duì)象邊界上的圖像I中的所有像素應(yīng)用銳化濾波器Fa。這給出了 0所包含的所有像素的新銳化值Ishmp (X，y)，其中Ishmp (X，y) = (I*Fa) (x, y)，并且 (I*Fa)表示圖像I與銳化濾波器Fa的卷積?！?duì)于0內(nèi)部或0上的所有(x, y)，用Isharp (x, y)來(lái)替換像素I (x, y)。銳化濾波器Fa被定義為Kronecker (克羅內(nèi)克)delta函數(shù)與離散拉普拉斯算符 ▽二之差
9
權(quán)利要求
1.一種用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的系統(tǒng)，包括用于提供包含對(duì)象的數(shù)字圖片的輸入視頻的裝置；用于進(jìn)行以下操作的裝置(a)存儲(chǔ)表示對(duì)象的性質(zhì)和特性的信息，以及(b)響應(yīng)于輸入視頻和表示對(duì)象的性質(zhì)和特性的信息，形成標(biāo)識(shí)和定位對(duì)象的對(duì)象定域信息；用于對(duì)輸入視頻和對(duì)象定域信息編碼的裝置；用于發(fā)送經(jīng)編碼的輸入視頻和經(jīng)編碼的對(duì)象定域信息的裝置；用于接收經(jīng)編碼的輸入視頻和經(jīng)編碼的對(duì)象定域信息的裝置；用于對(duì)經(jīng)編碼的輸入視頻和經(jīng)編碼的對(duì)象定域信息解碼的裝置；用于響應(yīng)于經(jīng)解碼的輸入視頻和經(jīng)解碼的對(duì)象定域信息、形成輸入視頻的包含對(duì)象和數(shù)字圖片中對(duì)象所位于的區(qū)域的那個(gè)部分的經(jīng)增強(qiáng)視頻的裝置；以及用于顯示經(jīng)增強(qiáng)視頻的裝置。
2.根據(jù)權(quán)利要求1所述的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的系統(tǒng)，其中，所述用于形成對(duì)象定域信息的裝置包括(a)用于掃描輸入視頻的區(qū)段的裝置，以及(b)用于將輸入視頻的被掃描區(qū)段與存儲(chǔ)的表示對(duì)象的性質(zhì)和特性的信息相比較以識(shí) 別和定位圖片中具有與存儲(chǔ)的表示對(duì)象的性質(zhì)和特性的信息相類似的性質(zhì)和特性的那個(gè) 對(duì)象的裝置。
3.根據(jù)權(quán)利要求2所述的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的系統(tǒng)，其中(a)對(duì)象定域信息只近似了對(duì)象的身份和位置，并且(b)所述用于對(duì)經(jīng)編碼的輸入視頻和經(jīng)編碼的對(duì)象定域信息解碼的裝置包括用于細(xì)化對(duì)象定域信息的裝置。
4.根據(jù)權(quán)利要求3所述的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的系統(tǒng)，其中所述用于細(xì)化對(duì)象定域信息的裝置包括用于進(jìn)行以下操作的裝置(a)估計(jì)對(duì)象的邊界，以及(b)增強(qiáng)對(duì)象。
5.根據(jù)權(quán)利要求2所述的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的系統(tǒng)，其中(a)對(duì)象定域信息只近似了對(duì)象的身份和位置，并且(b)所述用于對(duì)輸入視頻和對(duì)象定域信息編碼的裝置包括用于細(xì)化對(duì)象定域信息的裝置。
6.根據(jù)權(quán)利要求5所述的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的系統(tǒng)，其中所述用于細(xì)化對(duì)象定域信息的裝置包括用于進(jìn)行以下操作的裝置(a)估計(jì)對(duì)象的邊界，以及(b)增強(qiáng)對(duì)象。
7.一種用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的方法，包括以下步驟提供包含對(duì)象的數(shù)字圖片的輸入視頻；存儲(chǔ)表示對(duì)象的性質(zhì)和特性的信息；響應(yīng)于輸入視頻和表示對(duì)象的性質(zhì)和特性的信息，形成標(biāo)識(shí)和定位對(duì)象的對(duì)象定域信息；對(duì)輸入視頻和對(duì)象定域信息編碼；發(fā)送經(jīng)編碼的輸入視頻和經(jīng)編碼的對(duì)象定域信息；接收經(jīng)編碼的輸入視頻和經(jīng)編碼的對(duì)象定域信息；對(duì)經(jīng)編碼的輸入視頻和對(duì)象定域信息解碼；響應(yīng)于經(jīng)解碼的輸入視頻和經(jīng)解碼的對(duì)象定域信息，形成輸入視頻的包含對(duì)象和數(shù)字圖片中對(duì)象所位于的區(qū)域的那個(gè)部分的經(jīng)增強(qiáng)視頻；以及顯示經(jīng)增強(qiáng)視頻。
8.根據(jù)權(quán)利要求7所述的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的方法，其中，所述形成對(duì)象定域信息的步驟包括以下步驟(a)掃描輸入視頻的區(qū)段，以及(b)將輸入視頻的被掃描區(qū)段與存儲(chǔ)的表示對(duì)象的性質(zhì)和特性的信息相比較，以識(shí)別和定位圖片中具有與存儲(chǔ)的表示對(duì)象的性質(zhì)和特性的信息相類似的性質(zhì)和特性的那個(gè)對(duì)象。
9.根據(jù)權(quán)利要求8所述的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的方法，其中(a)對(duì)象定域信息只近似了對(duì)象的身份和位置，并且(b)所述用于對(duì)輸入視頻和對(duì)象定域信息解碼的步驟包括細(xì)化對(duì)象定域信息的步驟。
10.根據(jù)權(quán)利要求9所述的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的方法，其中所述用于細(xì)化對(duì)象定域信息的步驟包括以下步驟(a)估計(jì)對(duì)象的邊界，以及(b)增強(qiáng)對(duì)象。
11.根據(jù)權(quán)利要求8所述的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的方法，其中(a)對(duì)象定域信息只近似了對(duì)象的身份和位置，并且(b)所述對(duì)輸入視頻和對(duì)象定域信息編碼的步驟包括細(xì)化對(duì)象定域信息的步驟。
12.根據(jù)權(quán)利要求9所述的用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的方法，其中所述細(xì) 化對(duì)象定域信息的步驟包括以下步驟(a)估計(jì)對(duì)象的邊界，以及(b)增強(qiáng)對(duì)象。
13.一種用于增強(qiáng)對(duì)象在數(shù)字圖片中的可見性的系統(tǒng)，包括用于提供包含對(duì)象的數(shù)字圖片的輸入視頻的裝置；用于進(jìn)行以下操作的裝置(a)存儲(chǔ)表示對(duì)象的性質(zhì)和特性的信息，以及(b)響應(yīng)于輸入視頻和表示對(duì)象的性質(zhì)和特性的信息，形成標(biāo)識(shí)和定位對(duì)象的對(duì)象定域信息；以及用于響應(yīng)于視頻輸入和對(duì)象定域信息對(duì)輸入視頻編碼的裝置。
全文摘要
通過(guò)將數(shù)字圖片的輸入視頻與存儲(chǔ)的表示對(duì)象的性質(zhì)和特性的信息相比較以形成標(biāo)識(shí)和定位對(duì)象的對(duì)象定域信息來(lái)增強(qiáng)對(duì)象在數(shù)字圖片中的可見性。輸入視頻和對(duì)象定域信息被編碼并發(fā)送到接收機(jī)，在接收機(jī)處對(duì)輸入視頻和對(duì)象定域信息解碼，并且通過(guò)經(jīng)解碼的對(duì)象定域信息來(lái)增強(qiáng)經(jīng)解碼的輸入視頻。
文檔編號(hào)G06T5/00GK101999231SQ200980112735
公開日2011年3月30日申請(qǐng)日期2009年4月7日優(yōu)先權(quán)日2008年4月11日
發(fā)明者俞璜, 斯塔拉姆·巴加瓦蒂, 瓊·利亞奇申請(qǐng)人:湯姆遜許可證公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：斯塔拉姆.巴加瓦蒂;瓊.利亞奇;俞璜
技術(shù)所有人：湯姆遜許可證公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

c4d對(duì)象跟蹤相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

利用基于模板的對(duì)象跟蹤和增強(qiáng)的視頻編碼的制作方法