欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于視位的視頻編碼的制作方法

文檔序號(hào):6427894閱讀:121來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):基于視位的視頻編碼的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及音頻編碼和解碼,更具體而言涉及基于視位(visemebased)的視頻幀編碼系統(tǒng)和方法。
隨著遠(yuǎn)程視頻處理應(yīng)用(例如,視頻會(huì)議,視頻電話(huà)等等)需求不斷的增長(zhǎng),對(duì)這種能有效地通過(guò)有限帶寬傳送視頻數(shù)據(jù)的系統(tǒng)的需求已經(jīng)十分緊迫。減少頻帶寬度消耗的一種解決方案是利用能編碼和解碼壓縮的視頻信號(hào)的視頻處理系統(tǒng)。
目前有兩類(lèi)用于獲得視頻壓縮的技術(shù)基于波形壓縮和基于模型壓縮?;诓ㄐ螇嚎s是一種相對(duì)成熟的技術(shù),它利用一些壓縮算法,例如由MPEG和ITU標(biāo)準(zhǔn)(如,MPEG-2,MPEG-4,H.263,等等)提供的一些算法。另一方面,基于模型壓縮是一種相對(duì)不成熟的技術(shù)。在基于模型壓縮中使用的典型方法包含產(chǎn)生人臉的三維模型,然后導(dǎo)出形成新一幀視頻數(shù)據(jù)幀之基底的兩維圖象。如果許多的被傳送視頻圖象數(shù)據(jù)是重復(fù)的,例如頭部和肩部圖象的視頻圖象數(shù)據(jù),則基于模型譯碼可以獲得更大程度的壓縮。
因此,盡管目前的基于模型壓縮技術(shù)可以在例如視頻會(huì)議和視頻電話(huà)中得到很好的應(yīng)用,但是在產(chǎn)生和處理三維圖象中所涉及到的計(jì)算復(fù)雜性往往使這種系統(tǒng)難于實(shí)施并且難以控制成本。因此,對(duì)于可以獲得基于模型系統(tǒng)的壓縮水平而又不需要處理三維圖象的計(jì)算開(kāi)銷(xiāo)的編碼系統(tǒng)存在著需求。
本發(fā)明通過(guò)一個(gè)新穎的基于模型編碼的系統(tǒng)解決了上述問(wèn)題和其他一些問(wèn)題。特別是,輸入的視頻幀被抽取(decimate),以便僅僅是全部幀的一個(gè)子集被實(shí)際編碼。這些被編碼的幀使用來(lái)自以前編碼的幀或視位庫(kù)動(dòng)態(tài)產(chǎn)生的幀的預(yù)測(cè)而被編碼。
在第一個(gè)方面,本發(fā)明提供一個(gè)用于處理視頻數(shù)據(jù)幀流的視頻處理系統(tǒng),該視頻處理系統(tǒng)包含一個(gè)打包系統(tǒng),這個(gè)系統(tǒng)包括如下部分視位識(shí)別系統(tǒng),用于確定輸入的視頻數(shù)據(jù)幀是否對(duì)應(yīng)于至少一個(gè)預(yù)定視位;視位庫(kù),用于存儲(chǔ)對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的幀;以及編碼器,用于編碼對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的每一幀,其中,該編碼器利用在視位庫(kù)中以前存儲(chǔ)的幀來(lái)編碼當(dāng)前幀。
在第二方面,本發(fā)明提供一種用于處理視頻數(shù)據(jù)幀流的方法,包含以下步驟確定輸入的視頻數(shù)據(jù)的每一幀是否對(duì)應(yīng)于至少一個(gè)預(yù)定視位;存儲(chǔ)對(duì)應(yīng)于視位庫(kù)中的該至少一個(gè)預(yù)定視位的幀;以及編碼對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的每一幀,其中,該編碼步驟利用在視位庫(kù)中以前存儲(chǔ)的幀來(lái)編碼當(dāng)前幀。
在第三方面,本發(fā)明提供一種存儲(chǔ)在可記錄介質(zhì)上的程序產(chǎn)品,當(dāng)運(yùn)行時(shí),它處理視頻數(shù)據(jù)幀流,該程序產(chǎn)品包含一個(gè)用于確定輸入的視頻數(shù)據(jù)幀是否對(duì)應(yīng)于至少一個(gè)預(yù)定視位的系統(tǒng);視位庫(kù),用于存儲(chǔ)對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的幀;以及用于編碼對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的每一幀的系統(tǒng),其中,該編碼系統(tǒng)利用在視位庫(kù)中以前存儲(chǔ)的幀來(lái)編碼當(dāng)前幀。
在第四方面,本發(fā)明提供了一種解碼器,用于解碼已被編碼的視頻數(shù)據(jù)幀,所述被編碼的視頻數(shù)據(jù)幀是使用與至少一個(gè)預(yù)定視位相關(guān)聯(lián)的幀來(lái)進(jìn)行編碼的,該解碼器包含幀參考庫(kù),用于存儲(chǔ)被解碼的幀,其中解碼器利用幀參考庫(kù)中原來(lái)存儲(chǔ)的幀來(lái)解碼當(dāng)前的編碼幀,并且其中,以前存儲(chǔ)的幀和當(dāng)前的編碼幀屬于同一視位;一個(gè)變換(morphing)系統(tǒng),它重建在編碼過(guò)程中已消除的視頻數(shù)據(jù)幀。
以下將參考附圖描述本發(fā)明的優(yōu)選實(shí)施方案,在附圖中類(lèi)似標(biāo)記指示類(lèi)似的元件,以及附

圖1描述了具有本發(fā)明優(yōu)選實(shí)施方案的編碼器的視頻打包系統(tǒng);附圖2描述了具有本發(fā)明優(yōu)選實(shí)施方案的解碼器的視頻接收機(jī)系統(tǒng)。
現(xiàn)在參看圖,圖1和圖2描述了一個(gè)用于編碼視頻圖象的視頻處理系統(tǒng)。盡管在這里所述的實(shí)施方案主要集中在涉及人臉圖象處理的應(yīng)用上,可以理解的是此發(fā)明并不局限于編碼人臉圖象。圖1描述了一個(gè)視頻打包系統(tǒng)10,該系統(tǒng)包含一個(gè)編碼器14,它將輸入的視頻數(shù)據(jù)幀32和音頻數(shù)據(jù)幀33編碼為視頻數(shù)據(jù)50。圖2描述了一個(gè)視頻接收機(jī)系統(tǒng)40,該系統(tǒng)包含一個(gè)解碼器42,用于解碼由圖1的視頻打包系統(tǒng)10編碼的視頻數(shù)據(jù)50,并產(chǎn)生被解碼過(guò)的視頻數(shù)據(jù)52。
在圖1中的視頻打包系統(tǒng)10使用視位識(shí)別系統(tǒng)12、編碼器14和視位庫(kù)16來(lái)處理輸入的視頻數(shù)據(jù)幀32。在示例的應(yīng)用中,輸入的視頻數(shù)據(jù)幀32可包含大量的人臉圖象,例如典型地由視頻會(huì)議系統(tǒng)處理過(guò)的人臉圖象。輸入幀32由視位識(shí)別系統(tǒng)12檢測(cè)以確定哪一幀對(duì)應(yīng)于一個(gè)或多個(gè)預(yù)定視位。視位可以被定義為一般的人臉圖象,能被用來(lái)描述一種特別的聲音(例如,形成當(dāng)發(fā)音“sh”時(shí)的口形)。視位是語(yǔ)音或發(fā)某一音位的視覺(jué)等價(jià)。
確定哪個(gè)圖象對(duì)應(yīng)于視位的過(guò)程是由語(yǔ)音分段器18來(lái)完成,它識(shí)別在音頻數(shù)據(jù)33中的音位。每次音位被識(shí)別時(shí),相應(yīng)的視頻圖象被標(biāo)記為屬于相應(yīng)的視位。例如。每次音位“sh”在音頻數(shù)據(jù)中被檢測(cè)到時(shí),相應(yīng)的視頻幀被識(shí)別為屬于一個(gè)“sh”視位。標(biāo)記視頻幀的過(guò)程由映射系統(tǒng)20處理,它將識(shí)別過(guò)的音位映射到視位。注意不需要給定姿勢(shì)或表情的明確識(shí)別。相反地是使用音位含蓄地識(shí)別和分類(lèi)屬于已知視位的視頻幀。可以理解的是可以產(chǎn)生任意數(shù)目或類(lèi)型的視位,包含無(wú)聲視位,該視位包含在一段固定時(shí)期(例如1秒)上沒(méi)有相應(yīng)發(fā)音的圖象。
當(dāng)幀被識(shí)別為屬于一視位時(shí),幀被存儲(chǔ)在視位庫(kù)16中。視位庫(kù)16按視位被物理或邏輯排列,以使得標(biāo)記為屬于同一視位的幀被一起存儲(chǔ)在多個(gè)模型集合之一中(例如V1,V2,V3,V4)。在開(kāi)始時(shí),每個(gè)模型集合包含幀的一個(gè)空集。當(dāng)更多的幀被處理時(shí),每個(gè)模型集合將增長(zhǎng)。對(duì)于給定的模型集合大小要設(shè)置一個(gè)閾值以避免出現(xiàn)過(guò)大的模型集合。在達(dá)到閾值后利用一個(gè)用于刪除幀的先入先出系統(tǒng)來(lái)消除超過(guò)閾值的幀。
如果輸入的幀沒(méi)有對(duì)應(yīng)的視位時(shí),于是幀抽取系統(tǒng)22抽取或刪除該幀,也就是將幀送到垃圾箱34中。在這種情況下幀既不被存儲(chǔ)在視位庫(kù)16中也不被編碼器14編碼。然而值得注意的是有關(guān)任意抽取幀位置的信息會(huì)被明確地或含蓄地包含到編碼的視頻數(shù)據(jù)50中。接收系統(tǒng)使用這些信息來(lái)確定在何處重建被抽取的幀,這一點(diǎn)將在下文描述。
假定輸入的幀對(duì)應(yīng)于某一視位,則編碼器14編碼幀,例如,使用逐塊預(yù)測(cè)的策略,然后將幀作為編碼視頻數(shù)據(jù)50輸出。編碼器14包含一個(gè)誤差預(yù)測(cè)系統(tǒng)24、詳細(xì)運(yùn)動(dòng)信息25和幀預(yù)測(cè)系統(tǒng)26。誤差預(yù)測(cè)系統(tǒng)24按照已知的方法例如由MPEG-2標(biāo)準(zhǔn)提供的方法對(duì)預(yù)測(cè)誤差進(jìn)行編碼。產(chǎn)生的詳細(xì)運(yùn)動(dòng)信息25作為附加信息,在接收系統(tǒng)40(圖2)中變換系統(tǒng)48使用此信息。幀預(yù)測(cè)系統(tǒng)預(yù)測(cè)來(lái)自?xún)蓚€(gè)圖象的幀;也就是,(1)編碼器14產(chǎn)生的運(yùn)動(dòng)補(bǔ)償?shù)囊郧暗囊丫幋a幀,(2)由檢索系統(tǒng)28自視位庫(kù)16檢索的圖象。特別地,從視位庫(kù)16中檢索的圖象是從含有與被編碼的幀相同的視位的模型集合中檢索的。例如,如果幀包含人發(fā)“sh”聲音時(shí)的面部表情圖象,那么來(lái)自同一視位的先前圖象將被選擇和檢索。檢索系統(tǒng)28檢索在最小均方的意義上最為接近的圖像。因此,本發(fā)明并非依賴(lài)于在時(shí)間上接近(也就是鄰近幀),而是選擇最接近匹配的先前幀,而不管其時(shí)間上的接近。依靠定位十分相似的先前幀,預(yù)測(cè)誤差將很小,并且可以很容易地獲得很高的壓縮程度。
現(xiàn)在參看圖2,顯示的是視頻接收系統(tǒng)40,該系統(tǒng)包含解碼器42、參考幀庫(kù)44、緩沖器46和變換系統(tǒng)48。解碼器42使用和視頻打包系統(tǒng)10一樣的并行策略來(lái)解碼輸入的編碼視頻數(shù)據(jù)幀50。特別地是,使用(1)緊挨的前一解碼幀以及(2)來(lái)自參考幀庫(kù)44的圖象來(lái)解碼被編碼的幀。來(lái)自參考幀庫(kù)的圖象同用于編碼該幀的圖像相同,并且可以利用存儲(chǔ)在編碼幀的參考數(shù)據(jù)被很容易地識(shí)別。幀被解碼后,幀被存在參考幀庫(kù)44(用于解碼以后的幀)并且被發(fā)送到緩沖器4 6中。
如果一個(gè)或者多個(gè)幀被初始抽取(例如,在緩沖器46中顯示的??),則可以利用變換系統(tǒng)48來(lái)重建被抽取的幀,例如通過(guò)在編碼幀53和55之間進(jìn)行內(nèi)插。例如在Ezzat和Poggio于1998年在費(fèi)城巴拿馬計(jì)算機(jī)動(dòng)畫(huà)制作會(huì)議學(xué)報(bào)第96-102頁(yè)發(fā)表的“Miketalk基于變換視位的講話(huà)面部顯示”中教導(dǎo)了這種內(nèi)插技術(shù)。變換系統(tǒng)48同樣可以使用由編碼器14(圖1)提供的詳細(xì)運(yùn)動(dòng)信息。在幀被重建之后,它們可以連同被解碼的幀一起輸出,作為被解碼視頻數(shù)據(jù)52的完整集合。
可以理解的是此處所述的系統(tǒng)、功能、方法和模型可以在硬件、軟件或軟件和硬件的組合中實(shí)現(xiàn)。它們可以由任意類(lèi)型的計(jì)算機(jī)系統(tǒng)或用于執(zhí)行此處所述的方法的其它設(shè)備來(lái)實(shí)現(xiàn)。典型的硬件和軟件組合應(yīng)該是帶有計(jì)算機(jī)程序的通用計(jì)算機(jī)系統(tǒng),當(dāng)計(jì)算機(jī)程序被加載和執(zhí)行時(shí),控制計(jì)算機(jī)系統(tǒng)以使它能執(zhí)行在這里所描述的方法。備選地,可以利用專(zhuān)用的計(jì)算機(jī),該計(jì)算機(jī)包含了用于執(zhí)行本發(fā)明的一個(gè)或更多功能任務(wù)的專(zhuān)門(mén)硬件。本發(fā)明同樣可以被嵌入到計(jì)算機(jī)程序產(chǎn)品中,該產(chǎn)品包含了能使在此所描述的方法和功能得以執(zhí)行的所有特性,并且當(dāng)被加載到計(jì)算機(jī)系統(tǒng)時(shí),該計(jì)算機(jī)程序產(chǎn)品能執(zhí)行這些方法和功能。在上下文中計(jì)算機(jī)程序、軟件程序、程序、程序產(chǎn)品或軟件意味著以任意語(yǔ)言、代碼或標(biāo)記表示的一組指令,該指令使得具有信息處理能力的系統(tǒng)能直接地或者在以下兩種處理之一或者兩者之后(即(a)轉(zhuǎn)換為另一種語(yǔ)言、代碼或標(biāo)記;和/或(b)以不同材料形式復(fù)制)執(zhí)行特定的功能。
為了示例和描述,已經(jīng)給出了對(duì)發(fā)明優(yōu)選實(shí)施方案的以上描述。它們并不意味很詳盡或者是將發(fā)明限制到所公開(kāi)的精確形式,而且很顯然,根據(jù)以上教導(dǎo),可能有許多更改和變化。對(duì)熟練技術(shù)人員來(lái)說(shuō)很明顯這種更改和變化被預(yù)定包括在有附加的權(quán)利要求所定義的發(fā)明范圍中。
權(quán)利要求
1.用于處理視頻數(shù)據(jù)幀流的視頻處理系統(tǒng),包含一個(gè)打包系統(tǒng)(10),該打包系統(tǒng)包括視位識(shí)別系統(tǒng)(12),用于確定輸入的視頻數(shù)據(jù)幀(32)是否對(duì)應(yīng)于至少一個(gè)預(yù)定視位;視位庫(kù)(16),用于存儲(chǔ)對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的幀;以及編碼器(14),用于編碼對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的每一幀,其中,該編碼器(14)利用在視位庫(kù)(16)中以前存儲(chǔ)的幀來(lái)編碼當(dāng)前幀。
2.權(quán)利要求1的視頻處理系統(tǒng),其中視位識(shí)別系統(tǒng)(12)包含一個(gè)語(yǔ)音分段器(18),該語(yǔ)音分段器識(shí)別在音頻數(shù)據(jù)流(33)中和視頻數(shù)據(jù)幀(32)相關(guān)的音位。
3.權(quán)利要求2的視頻處理系統(tǒng),其中視位識(shí)別系統(tǒng)(12)把被識(shí)別的音位映射到所述至少一個(gè)預(yù)定視位。
4.權(quán)利要求2的視頻處理系統(tǒng),其中視位識(shí)別系統(tǒng)(12)用相關(guān)的音位來(lái)標(biāo)記幀。
5.權(quán)利要求1的視頻處理系統(tǒng),還包含一個(gè)幀抽取系統(tǒng)(22)用于消除不與該至少一個(gè)視位相對(duì)應(yīng)的幀。
6.權(quán)利要求5的視頻處理系統(tǒng),還包含一個(gè)接收機(jī)系統(tǒng)(40),該接收系統(tǒng)含有解碼器(42),用于解碼被編碼過(guò)的視頻數(shù)據(jù)幀;幀參考庫(kù)(44),用于存儲(chǔ)被解碼的幀;而且其中解碼器(42)利用來(lái)自幀參考庫(kù)中的原來(lái)被解碼過(guò)的幀來(lái)解碼當(dāng)前的編碼幀,并且其中該以前被解碼過(guò)的幀和當(dāng)前的編碼幀屬于同一視位。
7.權(quán)利要求6的視頻處理系統(tǒng),其中接收系統(tǒng)(40)還包含一個(gè)變換系統(tǒng)(48)用來(lái)重建被抽取系統(tǒng)(22)消除的幀。
8.權(quán)利要求7的視頻處理系統(tǒng),其中編碼器(14)產(chǎn)生被變換系統(tǒng)(48)用來(lái)重建幀的詳細(xì)運(yùn)動(dòng)信息。
9.處理視頻數(shù)據(jù)幀流的方法,包含以下步驟確定輸入的視頻數(shù)據(jù)的每一幀是否對(duì)應(yīng)于至少一個(gè)預(yù)定視位;存儲(chǔ)對(duì)應(yīng)于視位庫(kù)(16)中該至少一個(gè)預(yù)定視位的幀;以及編碼對(duì)應(yīng)于該至少一個(gè)視位的每一幀,其中,該編碼步驟利用在視位庫(kù)(16)中以前存儲(chǔ)的幀來(lái)編碼當(dāng)前幀。
10.權(quán)利要求9的方法,還包含以下步驟解碼被編碼的視頻數(shù)據(jù)幀;提供一個(gè)用于存儲(chǔ)被解碼幀的幀參考庫(kù);并且其中,解碼步驟利用來(lái)自幀參考庫(kù)(44)中先前被解碼的幀來(lái)解碼當(dāng)前的編碼幀,而且其中先前被解碼的幀和當(dāng)前的編碼的幀屬于同一視位;
11.一種存儲(chǔ)在可記錄介質(zhì)上的程序產(chǎn)品,當(dāng)它被執(zhí)行時(shí)可以處理視頻數(shù)據(jù)幀流,該程序產(chǎn)品包含一個(gè)用于確定輸入的視頻數(shù)據(jù)幀是否對(duì)應(yīng)于至少一個(gè)預(yù)定視位的系統(tǒng)(12);視位庫(kù)(16),用于存儲(chǔ)對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的幀;以及用于編碼對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的每一幀的系統(tǒng)(14),其中,該編碼系統(tǒng)利用在視位庫(kù)中以前存儲(chǔ)的幀來(lái)編碼當(dāng)前幀。
12.權(quán)利要求11的程序產(chǎn)品,其中該確定系統(tǒng)(12)包含一個(gè)語(yǔ)言分段器(18),用來(lái)識(shí)別在音頻數(shù)據(jù)流中與視頻數(shù)據(jù)幀相關(guān)的音位。
13.權(quán)利要求11的程序產(chǎn)品,其中確定系統(tǒng)(12)把被識(shí)別的音位映射到至少一個(gè)預(yù)定的視位。
14.用于解碼被編碼的視頻數(shù)據(jù)幀的解碼器(42),所述被編碼的視頻數(shù)據(jù)幀是使用與至少與一個(gè)預(yù)定視位相關(guān)聯(lián)的幀來(lái)進(jìn)行編碼的,該解碼器包含幀參考庫(kù)(44),用于存儲(chǔ)被解碼的幀;其中解碼器(42)利用幀參考庫(kù)中的原來(lái)被存儲(chǔ)的幀來(lái)解碼當(dāng)前的編碼幀,并且以前被存儲(chǔ)的幀和當(dāng)前的編碼幀屬于同一視位,以及變換系統(tǒng)(48),用來(lái)重建在編碼處理中被消除的視頻數(shù)據(jù)幀。
全文摘要
用于處理視頻數(shù)據(jù)幀流的視頻處理系統(tǒng)和方法。該系統(tǒng)包含一個(gè)打包系統(tǒng),該打包系統(tǒng)包括視位識(shí)別系統(tǒng)(10),它確定輸入視頻數(shù)據(jù)幀是否對(duì)應(yīng)于至少一個(gè)預(yù)定視位;視位庫(kù)(16),用于存儲(chǔ)對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的幀;編碼器(14),用于編碼對(duì)應(yīng)于該至少一個(gè)預(yù)定視位的每一幀,其中,編碼器利用在視位庫(kù)中以前存儲(chǔ)的幀來(lái)編碼當(dāng)前的幀。同時(shí)也提供一個(gè)接收系統(tǒng),它包括解碼器,用于解碼被編碼的視頻數(shù)據(jù)幀;參考幀庫(kù),用于存儲(chǔ)被解碼的幀;其中解碼器利用來(lái)自幀參考庫(kù)中的先前解碼的幀來(lái)解碼當(dāng)前的編碼幀,并且先前解碼的幀和當(dāng)前的編碼幀屬于同一視位。
文檔編號(hào)G06T9/00GK1557100SQ02818636
公開(kāi)日2004年12月22日 申請(qǐng)日期2002年9月6日 優(yōu)先權(quán)日2001年9月24日
發(fā)明者K·S·查爾拉帕里, K S 查爾拉帕里 申請(qǐng)人:皇家飛利浦電子股份有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
颍上县| 海兴县| 临桂县| 姜堰市| 三门峡市| 开封县| 新田县| 剑阁县| 玉门市| 泾川县| 靖西县| 德保县| 彭水| 雅安市| 石首市| 卓资县| 贺州市| 怀化市| 东方市| 贵阳市| 隆德县| 上饶县| 茶陵县| 堆龙德庆县| 永宁县| 博爱县| 曲阜市| 岐山县| 芒康县| 邵阳县| 茌平县| 景德镇市| 济源市| 福泉市| 阳泉市| 梅州市| 梅州市| 巴林左旗| 登封市| 长治市| 寿光市|