專利名稱:雙向預(yù)測(b)圖像的時間空間預(yù)測和多圖像參照移動補償?shù)囊苿酉蛄款A(yù)測的制作方法
相關(guān)專利申請這個美國專利許可非臨時申請要求一起待批準(zhǔn)的于2002年6月3日提交的,標(biāo)題為“雙向預(yù)測(B)幀的時間空間預(yù)測和多幀參照移動補償?shù)囊苿酉蛄款A(yù)測”的美國專利許可臨時申請60/385,965的優(yōu)先利益,并在這里通過引用包括其整個揭示的內(nèi)容。
對可以支持最新的模型和模式并還可能引入新模型和模式來利用改進的編碼技巧的進一步改進的方法和裝置有持續(xù)的需要。
在某些進一步的示范性的應(yīng)用中,該方法進一步包括基于至少一個為視頻幀的至少另一個部分的參照圖像使用線性或非線性移動向量預(yù)測B圖像。作為例子,在特定應(yīng)用中,該方法使用中值移動向量來產(chǎn)生至少一個移動向量。
在其他示范性的應(yīng)用中,除了空間預(yù)測,該方法也處理至少一個其他視頻幀的至少一個其他部分來進一步選擇性地使用時間預(yù)測編碼至少一個和B圖像相關(guān)的基于時間的移動參數(shù)來編碼B圖像。在一些實例中,時間預(yù)測包括雙向時間預(yù)測,例如基于一個預(yù)測(P)幀的至少一個部分。
在某些其他應(yīng)用中,該方法還選擇性地確定適用的一個至少部分基于一個在預(yù)測視頻幀和包括B圖像的幀之間的時間距離的基于時間的移動參數(shù)的縮放比例。在某些應(yīng)用中,時間距離信息被編碼,例如,在一個頭或其他類似的和已編碼的B圖像相關(guān)的數(shù)據(jù)布置中。
圖1為方框圖,展示一個適合于使用本發(fā)明的某些應(yīng)用的示范性的計算環(huán)境。
圖2為方框圖,展示一個適合于使用本發(fā)明的某些應(yīng)用的示范性的有代表性的設(shè)備。
圖3為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,和一個圖片的各部分相關(guān)的空間預(yù)測。
圖4為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,在B圖像編碼中的直接預(yù)測。
圖5為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,當(dāng)一個場景改變發(fā)生時或甚至當(dāng)比較(collocated)塊被內(nèi)編碼時會發(fā)生什么。
圖6為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,所述移動假設(shè)為0時,在現(xiàn)有的編碼解碼器中處理比較的內(nèi)塊。
圖7為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,當(dāng)比較塊的參照圖像在后面的P圖像中不為0時,直接模式如何被處理。
圖8為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,一個示范性的方案其中MVFW和MVBW源于空間預(yù)測。
圖9為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,空間預(yù)測如何解決場景改變及類似的問題。
圖10為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,對在B圖像編碼中直接模式的聯(lián)合時空預(yù)測。
圖11為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,結(jié)合預(yù)測器(predictor)大塊的參照圖像信息對當(dāng)前塊的移動向量預(yù)測。
圖12為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,如何使用多個候選者來進行直接模式預(yù)測,尤其是如果雙向預(yù)測用在B圖像中時。
圖13為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,在使用未來和過去參照圖像中如何限制B圖像。
圖14為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,為了時間直接預(yù)測,投射比較移動向量到一個當(dāng)前參照。
圖15a-c為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,對一個MV在不同配置中的移動向量預(yù)測器。
圖16a-c為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,對一個有8×8分區(qū)的MV在不同配置中的移動向量預(yù)測器。
圖17a-c為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,對一個有8×8分區(qū)附加預(yù)測器的MV在不同配置中的移動向量預(yù)測器。
以上描述了一些方法和裝置作為示范,這里需要注意的是當(dāng)前發(fā)明的這些技術(shù)并不局限于描述到的例子和相關(guān)的圖,它們適用于其他類似的現(xiàn)存和未來視頻編碼系統(tǒng)。
在介紹這些示范性的方法和裝置之前,在接下來的部分先介紹一下適合的示范性的操作環(huán)境,例如,以計算機或是其他類型的裝置或程序的形式。
示范性的操作環(huán)境根據(jù)附圖,其中類似的引用編號指向類似的元素,本發(fā)明以應(yīng)用在一個適合的計算環(huán)境中來展示。雖然不是必須的,本發(fā)明將在計算機可執(zhí)行指令,如由個人計算機執(zhí)行的程序模塊的通用的語境中說明。
通常,程序模塊包括執(zhí)行特定的任務(wù)或應(yīng)用特定的抽象數(shù)據(jù)類型的子程序、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。熟悉相關(guān)技術(shù)的人應(yīng)理解本發(fā)明可以應(yīng)用在其他計算機系統(tǒng)配置中,包括手持設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程的消費者電子設(shè)備、網(wǎng)絡(luò)PC、小型機、大型機、移動通訊設(shè)備,以及類似的設(shè)備。
本發(fā)明還可以應(yīng)用在任務(wù)由通過一個通信網(wǎng)絡(luò)連接的遠程處理設(shè)備來執(zhí)行的分布式計算環(huán)境。在一個分布式計算環(huán)境中,程序模塊可以同時位于本地和遠程存儲設(shè)備。
圖1展示了一個下面所述系統(tǒng)、裝置和方法在其上應(yīng)用的適合的計算機環(huán)境120的例子。示范性計算環(huán)境120僅為適合的計算機環(huán)境的一個例子并不意味著任何對在此說明的改進的方法及系統(tǒng)的使用或功能范圍的限制。不應(yīng)解釋計算環(huán)境120為對在計算環(huán)境120中展示的組件的任何一種或組合有任何的關(guān)聯(lián)性或必需性。
這里的改進的方法和系統(tǒng)可以運行在大量其他的通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置中。適合的眾所周知的計算機系統(tǒng)、環(huán)境,和/或配置的例子包括,但不僅限于,個人計算機、服務(wù)器計算機、瘦客戶、胖客戶、手持或膝上設(shè)備、多處理器系統(tǒng)、基于多處理器的系統(tǒng)、機頂盒、可編程消費者電子設(shè)備、網(wǎng)絡(luò)PC、小型機、大型機、包含上述以及類似系統(tǒng)或設(shè)備的任意組合的分布式計算機環(huán)境。
如圖1所示,計算環(huán)境120包括形式為一個計算機130的一個通用計算設(shè)備。計算機130的組件可以包括一個或多個處理器或處理單元132、一個系統(tǒng)存儲器134,及一個連接包括系統(tǒng)存儲器134到處理器132的不同的系統(tǒng)組件的總線136。
總線136代表幾種總線結(jié)構(gòu)中的任何一種或多種,包括一個存儲器總線或存儲器控制器、一個外圍總線、一個加速圖形接口,及一個處理器或使用多種總線結(jié)構(gòu)中的任意結(jié)構(gòu)的本地總線。作為例子,而非限制,這樣的結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線,微通道結(jié)構(gòu)(MCA)總線、增強的工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)本地總線,及也稱為包廂總線的周邊元件擴展接口(PCI)總線。
計算機130通常包括不同的計算機可讀媒體。這樣的媒體可以為能由計算機130訪問的任何可用的媒體,并包括易失的和非易失的媒體、可移動的和不可移動的媒體。
在圖1中,系統(tǒng)存儲器134包括易失的存儲器形式的計算機可讀媒體,如隨機訪問存儲器(RAM)140,和/或非易失的存儲器,如只讀存儲器(ROM)138。一個包含幫助在計算機130中的元件之間傳輸信息如在啟動過程中的基本子程序的基本輸入/輸出系統(tǒng)(BIOS)142,被存儲在ROM 138中。RAM 140通常包含可以由處理器132立即訪問到和/或處理的數(shù)據(jù)和/或程序模塊。
計算機130可以進一步包括其他可移動的/不可移動的、易失的/非易失的計算機存儲器媒體。例如,圖1展示了一個用來讀寫一個不可移動的、非易失的磁媒體(未標(biāo)出并通常稱為一個“硬盤驅(qū)動器”)的硬盤驅(qū)動器144,一個用來讀寫一個可移動的、非易失的磁盤148(例如,一個“軟盤”)的磁盤驅(qū)動器146,及一個用來讀寫一個可移動、非易失的光盤152如一個CD-ROM/R/RW,DVD-ROM/R/RW/+R/RAM或其他的光媒體的光盤驅(qū)動器150。硬盤驅(qū)動器144、磁盤驅(qū)動器146和光盤驅(qū)動器150每個都通過一個或多個接口154連接到總線136。
驅(qū)動器和相關(guān)的計算機可讀媒體為計算機130提供計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、及其他數(shù)據(jù)的非易失存儲。雖然這里所述的示范性的環(huán)境使用一個硬盤、一個可移動磁盤148及一個可移動光盤152,熟悉相關(guān)技術(shù)的人應(yīng)理解其他類型的可以存儲可由一個計算機訪問的數(shù)據(jù)的計算機可讀媒體,如盒式磁帶、閃存卡、數(shù)字視頻盤、隨機訪問存儲器(RAM)、只讀存儲器(ROM)、及類似的媒體也可以用在示范性的操作環(huán)境中。
多個程序模塊可以存儲在硬盤、磁盤148、光盤152、ROM 138或RAM140,包括,例如,一個操作系統(tǒng)158,一個或多個應(yīng)用程序160,其他程序模塊162,及程序數(shù)據(jù)164。
這里所述的改進的方法和系統(tǒng)可以應(yīng)用在操作系統(tǒng)158、一個或多個應(yīng)用程序160,其他程序模塊162,和/或程序數(shù)據(jù)164中。
一個用戶可以通過輸入設(shè)備,如鍵盤166和定點設(shè)備168(如一個“鼠標(biāo)”)提供命令和信息到計算機130中。其他輸入設(shè)備(未標(biāo)出)可以包括一個麥克風(fēng)、操縱桿、游戲墊、圓盤式衛(wèi)星電視天線、串行口、掃描儀、相機等等。這些和其他輸入設(shè)備通過一個連接到總線136的用戶輸入接口170連接到處理單元132,但也可以通過其他接口和總線結(jié)構(gòu),如并行口、游戲口,或一個通用串行總線(USB)來連接。
一個顯示器172或其他顯示設(shè)備也通過一個接口,如視頻適配器174與系統(tǒng)總線連接。除顯示器之外,個人計算機通常包括通過輸出周邊接口175連接的其他周邊輸出設(shè)備(未標(biāo)出),如音箱和打印機。
計算機130可以使用到一個或多個遠程計算機,如遠程計算機182的邏輯連接在一個網(wǎng)絡(luò)環(huán)境中運行。遠程計算機182可以包括多個或所有上述相對于計算機130的組件,圖1中所示邏輯連接是一個局域網(wǎng)(LAN)177和一個通用廣域網(wǎng)(WAN)179。這樣的網(wǎng)絡(luò)環(huán)境在辦公室訪問或企業(yè)訪問的計算機網(wǎng)絡(luò)、企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)中是很常見的。
當(dāng)用在一個局域網(wǎng)聯(lián)網(wǎng)環(huán)境中,計算機130通過一個網(wǎng)絡(luò)接口或適配器196與局域網(wǎng)177相連。當(dāng)用在一個廣域網(wǎng)聯(lián)網(wǎng)環(huán)境中,計算機通常包括一個調(diào)制解調(diào)器178或其他在廣域網(wǎng)179上建立通訊的方法。調(diào)制解調(diào)器178,可以為內(nèi)置的或外置的,通過用戶輸入接口170或其他適合的機制連接到系統(tǒng)總線136。
如圖1所示,為一個WAN通過因特網(wǎng)的具體的應(yīng)用。在這里,計算機130使用調(diào)制解調(diào)器178通過因特網(wǎng)180和至少一個遠程計算機182建立通訊。
在一個網(wǎng)絡(luò)環(huán)境中,所述相對于計算機130的程序模塊,或其部分,可以存儲在遠程存儲器存儲設(shè)備中。因此,例如,如圖1所示,遠程應(yīng)用程序189可以駐留在遠程計算機182的一個存儲器設(shè)備中。應(yīng)理解所示網(wǎng)絡(luò)連接僅為示范性的,也可以使用其他在計算機之間建立通訊連接的方法。
下面請看圖2,一個方框圖,展示另一個也能夠從這里揭示的方法和裝置中受益的示范性的設(shè)備200。設(shè)備200代表任何一種或多種操作上根據(jù)這里所述及等價的的方法和裝置的所有或部分配置為處理視頻和/或任何相關(guān)類型的數(shù)據(jù)的設(shè)備或裝置。因此設(shè)備200可以采取如圖1種的計算設(shè)備的形式,或其他形式,例如,一個無線設(shè)備、一個可移動通訊設(shè)備、一個個人數(shù)字助理、一個視頻播放器、一個電視、一個DVD播放器、一個CD播放器、一個卡拉OK機、一個機頂盒、一個視頻游戲機等等。在這個例子中,設(shè)備200包括配置為處理視頻數(shù)據(jù)的邏輯電路202,一個配置為提供視頻數(shù)據(jù)給邏輯電路202的視頻數(shù)據(jù)源204,及至少能夠顯示視頻數(shù)據(jù)的至少一部分給用戶看的一個顯示模塊206。邏輯電路202代表硬件、固件、軟件和/或它們的任何組合。在某些應(yīng)用中,例如,邏輯電路202包括一個壓縮器/解壓縮器(codec)或類似的部分。視頻數(shù)據(jù)源204代表任何可以提供、傳輸、輸出,和/或至少暫時地存儲適合由邏輯電路202處理的視頻數(shù)據(jù)的機制。視頻再現(xiàn)源展示為在設(shè)備200之內(nèi)和/或在設(shè)備200之外。顯示模塊206代表用戶可以直接或間接地觀看這里所述的視頻數(shù)據(jù)的視覺結(jié)果的任何機制。另外,在某些應(yīng)用中,設(shè)備200還可以包括一些用來再現(xiàn)或處理和視頻數(shù)據(jù)關(guān)聯(lián)的音頻數(shù)據(jù)的形式或能力。因此一個音頻再現(xiàn)模塊208在圖中展示出。
有了圖1和圖2及其他類似它們的例子,下面的部分集中于某些可以至少部分使用這樣的環(huán)境和這樣的設(shè)備來應(yīng)用的示范性的方法和裝置。
編碼雙向預(yù)測(B)圖像和移動向量預(yù)測這個部分說明一些可以應(yīng)用來在一個視頻編碼類似的系統(tǒng)或編碼雙向預(yù)測(B)圖像和移動向量預(yù)測的示范性的改進。示范性的方法和裝置可以用于預(yù)測移動向量和B圖像直接模式設(shè)計的增強。這樣的方法和裝置特別適合于多圖像引用編碼解碼器,例如,JVT,并可以得到相當(dāng)大的編碼增益,特別是對全景序列或場景改變。
雙向預(yù)測(B)圖像是多數(shù)視頻編碼標(biāo)準(zhǔn)和系統(tǒng)一個重要部分,因為它們趨向于提高這樣的系統(tǒng)的編碼效率,例如當(dāng)和僅使用預(yù)測(P)圖像比較時。這個在編碼效率上的改進主要通過考慮可以有效地改進移動補償?shù)念A(yù)測并因此允許顯著地降低的殘余信息的編碼的雙向移動補償來應(yīng)用。進一步來說,對在這樣的圖像中的一個大塊/塊的直接預(yù)測模式的引入可以進一步顯著地(例如,超過10-20%)提高效率,因為沒有移動信息被編碼。這樣可以,例如,通過允許同時預(yù)測正向和反向移動信息從使用在對應(yīng)的一個隨后的參照圖像的大塊的移動向量中直接得到來應(yīng)用。
作為例子,圖4展示在時間t+1在B圖像中的直接預(yù)測,在時間t和t+2基于P幀編碼,及適用的移動向量(MV)。在這里,假設(shè)圖像中的一個對象正以一個恒定的速度移動。著使得可能預(yù)測在B圖像中的一個當(dāng)前位置而不用傳輸任何的移動向量。直接模式的移動向量 對在第一個隨后的P參照圖像中的比較MB的移動向量 基本上這樣計算M-V→fw=TRB·M-V→TRD]]>和M-V→bw=(TRB-TRD)·M-V→TRD]]>這里TRB為當(dāng)前B圖像和比較MB的正向MV指向的參照圖像之間的時間距離,及TRB為未來參照圖像和比較MB的正向MV指向的參照圖像之間的時間距離。
然而在一些情況下現(xiàn)有的直接模式不能提供足夠的解決方案,因此不能有效地利用這種模式的屬性。特別地,這種模式現(xiàn)有的設(shè)計通常強迫直接大塊的移動參數(shù),當(dāng)在隨后的P圖像中的比較大塊被內(nèi)編碼時,為0。例如,如圖6所示,在現(xiàn)有的編碼解碼器中處理比較內(nèi)(collated intra)時其中移動假設(shè)為0。這本質(zhì)上意味著,對這種情況,B圖像大塊將被編碼為在第一個隨后的及過去的P參照中的兩個比較大塊的平均。這立即產(chǎn)生了下面的問題;如果一個大塊為內(nèi)編碼的,那么一個人如何知道它和它的參照圖像的比較大塊有多大關(guān)系。在一些情況下,它們可能幾乎沒有任何實際的關(guān)系。因此,可能降低直接模式的編碼效率。一中極端的情況可以在圖5所示的場景改變情況中看到。圖5展示了當(dāng)場景改變發(fā)生在視頻序列中時將發(fā)生什么及/或當(dāng)比較塊為內(nèi)編碼時(intra)將發(fā)生什么。在這里,在這個例子中,明顯沒有關(guān)系存在于場景改變的兩個參照圖像中。在這樣的情況下,雙向預(yù)測幾乎不能提供好處。因此,直接模式可能完全被浪費了。然而,現(xiàn)有的直接模式的應(yīng)用限制它總要進行一個大塊的雙向預(yù)測。
圖7為示意圖,展示根據(jù)本發(fā)明某些示范性的應(yīng)用,當(dāng)比較塊的參照圖像在后面的P圖像中不為0時,直接模式如何被處理。
當(dāng)使用多圖像參照移動補償時,直接模式大塊存在一個另外的問題。直到最近,例如,JVT標(biāo)準(zhǔn)才提供了時間距離信息(TRB和TRD),因此允許正確地縮放參數(shù)。最近,這在編碼解碼器的新修訂(參閱,例如,聯(lián)合視頻小組(JVT)ISO/IEC MPEG和ITU-T VCEG,“聯(lián)合委員會草案(CD)聯(lián)合視頻規(guī)范(ITU-T Rec.H.265|ISO/IEC 14496-10 AVC)”,ITU-T JVT-C167,2002年5月,包括在這里引用)中有改變。在新修訂中,隨后的P圖像的移動向量參數(shù)為直接模式預(yù)測被等量地縮放,而不需要參照圖像信息。這會導(dǎo)致直接模式顯著的性能下降,因為恒定移動的假設(shè)不再被支持。
然而,即使有時間距離參數(shù),使用如先前定義的直接模式仍然不能確定為最適合的解決方案。特別是對更靠近第一個正向參照圖像的B圖像,與那個圖像的關(guān)聯(lián)可能會比隨后的參照圖像更強。一個可能包含這些情況的極端的例子可以是一個場景A改變到場景B,然后移回到場景A的序列(例如,向在一個新聞公告牌上發(fā)生的那樣,等等)。上述所有都可能顯著地降低B圖像編碼的性能,因為直接模式在編碼過程中不能被有效地利用。
考慮到這些和其他問題,不象前面其中只使用時間預(yù)測的直接模式的定義,根據(jù)本發(fā)明的某些方面,一種其中同時考慮到了時間預(yù)測和/或空間預(yù)測的新的直接大塊類型被引入。例如,所用的預(yù)測的類型可以取決于第一個隨后的P參照圖像的參照圖像信息的類型。
根據(jù)本發(fā)明的某些其他方面,一個人也可以進一步當(dāng)使用多圖像參照時,通過考慮時間距離,如果這個可用的話,相當(dāng)?shù)馗倪MP和B圖像的移動向量預(yù)測。
這些增強方式應(yīng)用在下述某些示范性的方法和裝置中。方法和裝置可以獲得顯著的比特率減少而獲得類似或更好的質(zhì)量。
直接模式增強在多數(shù)已有的視頻編碼系統(tǒng)中,直接模式被設(shè)計為一個雙向預(yù)測方案其中移動參數(shù)始終根據(jù)隨后的P圖像中的移動參數(shù)在時間上被預(yù)測。在這一部分,提供一種增強的直接模式技巧,其中在這樣的預(yù)測中,也可以/作為其他選擇考慮到空間信息。
一種或多種下面的示范性技巧可以根據(jù)需要應(yīng)用,例如,取決于系統(tǒng)的復(fù)雜度和/或規(guī)范。
一種技巧時應(yīng)用直接模式的移動向量參數(shù)的空間預(yù)測而不考慮時間預(yù)測。例如,空間預(yù)測可以使用現(xiàn)有的用來做移動向量編碼(如,中值預(yù)測)的移動向量預(yù)測技巧來應(yīng)用。如果使用了多圖像參照,那么相鄰塊的參照圖像也可以被考慮進來(即使沒有這樣的限制及通用的參照,如0,可以始終被使用)。
移動參數(shù)和參照圖像可以按如下方式預(yù)測并引用圖3來展示和假設(shè)為可用的并為一個圖像的一部分的部分A-E(例如,大塊,片段等)關(guān)聯(lián)的空間預(yù)測。在這里,E總的來說通過A、B、C作為其中值(A、B、C)來預(yù)測。如果C實際上是在圖像之外,那么用D來代替。如果B、C和D都在圖像之外,那么只有A被用到,這里如果A不存在,那么使用(0,0)來代替。熟悉相關(guān)技術(shù)的人應(yīng)承認空間預(yù)測還可以應(yīng)用在子塊級別。
總的來說,空間預(yù)測可以看作是所有在一個圖像或在同一圖像中的一組大塊/塊中計算的可用的移動信息的一個線性或非線性函數(shù)。
有不同的可用方法可以安排用來預(yù)測直接模式的參照圖像。例如,一種方法可以用來在預(yù)測中選擇一個最小的引用圖像。在另一種方法中,可以選擇一個中值參照圖像。在某些方法中,可以在一個最小參照圖像和中值參照圖像中選擇,例如,如果最小為0時。在其他應(yīng)用中,高優(yōu)先級也可以給予垂直的或水平的預(yù)測器(A和B)由于它們和E可能有更強的相關(guān)性。
如果一個預(yù)測不存在(例如,所有周圍的大塊都以同樣僅為FW或BW的方向來預(yù)測或為內(nèi)編碼的(intra)),那么僅使用存在的一個(單方向預(yù)測)或這樣可以從可用的那一個來預(yù)測。例如如果正向預(yù)測是可用的那么M-V→bw=(TRB-TRD)·M-V→fwTRB]]>如果隨后的P引用如在現(xiàn)有的編碼解碼器中那樣是非內(nèi)編碼的(intra),那么對大塊進行時間預(yù)測。請看圖8,在其中MVFW和MVBW從空間預(yù)測(周圍大塊的中值MV)得到。如果沒有一個可用(即,沒有預(yù)測器)那么使用單向預(yù)測。如果隨后的P引用是內(nèi)編碼的(intra),那么可以如上所述使用空間預(yù)測來代替。假設(shè)沒有限制存在,如果其中一種預(yù)測不可用那么直接模式成為一個單向預(yù)測模式。
這可以當(dāng)場景改變時,例如,如圖9所示,和/或即使當(dāng)漸變存在于一個視頻序列中時相當(dāng)?shù)赜欣谝曨l編碼。如圖9所示,空間預(yù)測可以用來解決場景改變的問題。
如果時間距離信息在一個編碼解碼器中不可用,那么當(dāng)比較P參照塊有一個非0參照圖像時,時間預(yù)測將不象在塊的直接模式中那么有效。在這樣的情況下,空間預(yù)測也可以如上述來使用。作為其他選擇,一個人可以估計縮放參數(shù),如果周圍的大塊的一個也使用和比較P參照塊相同的參照圖像。進一步來說,可以對有一個非0參照的0移動(或接近于0的移動)進行特殊的處理。在這里,不管時間距離,正向和反向移動向量可以始終取0。然而,最好的解決方案可以是始終檢查周圍大塊的參照圖像信息并基于其決定在這樣的情況下如何使用直接模式。
更特別地,例如,給定一個非0參照,下面的子情況可以被考慮情況A如果移動向量比較P塊為0,使用時間預(yù)測。
情況B如果所有周圍的大塊使用和比較P參照不同的參照圖像,那么空間預(yù)測看起來為一個更好的選擇而不使用時間預(yù)測。
情況C如果在B圖像中的移動流看起來和P參照圖像中的那一個很不一樣,那么使用空間預(yù)測。
情況D直接模式大塊的空間或時間預(yù)測可以在圖像頭中用信號表示。可以預(yù)先分析圖像來決定使用哪一種。
情況E基于空間信息來修正空間預(yù)測參數(shù)(反之亦然)。因此,例如,如果都看起來有同樣或近似相同的相位信息,那么空間信息可能是非常好的直接模式預(yù)測候選者。修正也可以對相位進行,因此修正預(yù)測的子象素準(zhǔn)確度。
圖10展示一個在B圖像編碼中對直接模式的聯(lián)合時間預(yù)測。在這里,在這個例子中,直接模式可以為一個取決于可用信息的1方向到4方向模式。代替使用直接模式大塊的雙向預(yù)測,可以應(yīng)用這種模式的一個多假設(shè)擴展并使用多個預(yù)測。
組合上面的討論,直接模式大塊可以基于可用的信息用從一個到四個可能的移動向量來預(yù)測。例如,這可以基于比較P參照圖像大塊和當(dāng)前B圖像的周圍大塊的模式來決定。在這樣一種情況下,如果空間預(yù)測和時間預(yù)測差別很大,它們中的一種可以被選中作為唯一的預(yù)測。因為上述空間預(yù)測可能使用一個和時間的那一個不同的參照圖像,同一個大塊可能用超過2個參照圖像來預(yù)測。
JVT標(biāo)準(zhǔn)并不限制第一個未來參照為一個P圖像。因此,在這樣的一個標(biāo)準(zhǔn)中,一個圖像可以如圖12所示為一個B圖像,甚至一個多重假設(shè)(MH)圖像。這意味著更多的移動向量被賦給每個大塊。這意味著一個人也可以使用這個屬性通過更有效地利用附加的移動信息來提高直接模式的有效性。
在圖12中,第一個隨后的參照圖像是一個B圖像(圖像B8和B9)。這使得一個人可以使用更多的直接模式預(yù)測候選者,尤其是在B圖像中使用雙向預(yù)測時。
特別地,一個可以執(zhí)行下面的操作
a.)如果在第一個未來參照中的比較參照塊正在使用雙向預(yù)測,對應(yīng)的移動向量(正向或反向)被用來計算當(dāng)前塊的移動向量。因為對應(yīng)于一個未來參照圖像的參照的反向移動向量,在估計當(dāng)前移動參數(shù)時需要特別注意。例如,請看圖12,其中第一個隨后的參照圖像是一個B圖像(圖像B8和B9)。這使得一個人可以使用更多的直接模式預(yù)測候選者,尤其是在B圖像中使用雙向預(yù)測時。因此,如圖所示,由于B8、和P6之間的時間距離,B8的反向移動向量 可以計算為 類似地對B9反向移動向量可以取 如果這些指B7。一個人也可以限制這些來引用第一個是的P圖像,在這種情況下這些移動向量可以相應(yīng)地被縮放。類似的結(jié)論可以對正向移動向量作出。多圖像參照或內(nèi)編碼的(intra)大塊可以類似于前面的討論來處理。
b.)如果使用對比較塊的雙向預(yù)測,那么,在這個例子種,一個人可以通過投影和反轉(zhuǎn)參照的反向和正向移動向量對一個大塊估計四個可能的對直接模式情況的預(yù)測。
c.)選擇性的投影和反轉(zhuǎn)可以根據(jù)時間距離來使用。根據(jù)這種解決方案,一個人從對預(yù)測更可靠的參照圖像中選擇移動向量。例如,考慮圖12中的示意圖,一個人將注意到B8比P6更接近P2。這意味著反向移動向量B7不可能為一個很可靠的預(yù)測。在這種情況下,直接模式移動向量因而只可以從B7的正向預(yù)測來計算。然而,對B9,兩個移動向量看起來對預(yù)測都是足夠的并因而都可以使用。這樣的決定/信息也可以在圖像頭中來決定/支持。其他情況和規(guī)則也可以應(yīng)用。例如,也可以考慮一個預(yù)測的附加的空間置信度和/或一個移動向量相位。注意,特別地,如果正向和反向移動向量沒有關(guān)系,那么反向移動向量對使用可能非常不可靠。
B圖像的單圖像參照存在一種特殊情況,僅對B圖像使用一個圖像參照(雖然,通常一個正向和一個反向參照是需要的)而不管有多少參照圖像在P圖像中使用。從在當(dāng)前JVT編碼解碼器中編碼向量的觀察來看,例如,注意,如果一個人比較使用B圖像的單圖像參照和多圖像參照情況,即使P圖像對多圖像情況的編碼性能幾乎總是優(yōu)于使用單圖像,而這對B圖像來說不一定總是這樣。
這個觀察的一個原因是為每個大塊使用的參照圖像的開銷。考慮B圖像比P圖像更加依賴于移動信息,參照圖像信息開銷降低了以一個給定的比特率為殘余信息傳輸?shù)谋忍財?shù),從而降低了效率。一個很簡單并有效的解決方案可以是為每個反向或正向移動補償僅選擇一個圖像參照,因此不需要傳輸任何參照圖像信息。
這通過引用圖13和14來說明。如圖13所示,B圖像可以通過僅使用一個未來和過去參照圖像來限制。因此,對直接模式移動向量計算,移動向量的投影是必要的。一個比較MV的到當(dāng)前參照用來做時間方向預(yù)測的投影在圖14中展示(注意可能TDD,0>TDD,1)。因此,在這個例子中,直接模式移動參數(shù)通過投影引用對兩個參照圖像的其他參照圖像的移動向量,或使用如圖13所示的空間預(yù)測來計算。注意這樣的選項不僅使得可能減少B圖像編碼復(fù)雜度,還趨向于減少內(nèi)存需求,因為如果B圖像允許引用B圖像時,更少的B圖像(例如,最大為兩)需要被存儲。
在某些情況下,第一個未來參照圖像的一個參照圖像可以不再出現(xiàn)在參照緩沖中。這會立即對直接模式大塊的估計產(chǎn)生一個問題并需要特殊處理這樣的情況。如果使用單個圖像參照,顯然沒有這樣的問題。然而,如果需要多圖像參照,那么可能的解決方案包括投影移動向量到任一個正向參照圖像,及/或到離不可用的圖像最近的參照圖像。任一個解決方案都是可行的,這里空間預(yù)測可以再次成為一個作為其他選擇的解決方案。
單圖像和多圖像參照移動補償移動向量預(yù)測的改進多圖像參照移動補償?shù)囊苿酉蛄款A(yù)測會顯著地影響B(tài)和P圖像編碼的性能?,F(xiàn)有的標(biāo)準(zhǔn),例如,JVT,并不總是考慮在預(yù)測中使用的大塊的參照圖像。這樣的標(biāo)準(zhǔn)唯一的考慮是當(dāng)僅有一個預(yù)測大塊使用同一個參照時。在這樣的情況下,僅有那個預(yù)測器被用在移動預(yù)測中。如果僅有一個或所有的預(yù)測器使用一個不同參照時,不考慮參照圖像。
在這樣的情況下,例如,并根據(jù)本發(fā)明某些進一步的方面,一個人可以根據(jù)它們對當(dāng)前參照的時間距離縮放預(yù)測器。請看圖11,展示了考慮預(yù)測器大塊(Pr)的參照圖像信息以及正確調(diào)整(例如,縮放預(yù)測器)的性能的一個當(dāng)前塊(C)的移動向量預(yù)測。
如果預(yù)測器A、B和C使用分別有時間距離TRA、TRB和TRC的參照圖像,并且當(dāng)前參照圖像有一個等于TR的時間距離,那么中值預(yù)測器按下面公式計算M-V→pred=TR×Median(M-V→ATRA,M-V→BTRB,M-V→CTRC)]]>如果使用整數(shù)計算,可能更簡單地把乘法放在中值中,因此提高準(zhǔn)確率。除法也可以用移位來代替,但那樣會降低性能,在其中處理帶符號的移位(-1>>N=-1)可能是需要的。因此在這樣的情況下有對進行適合的縮放可用的時間距離信息是很重要的。這也可以提供在頭中,如果否則不能預(yù)測的話。
如上所述的移動向量預(yù)測基本上是偏向于中值的(Median biased),即在一組預(yù)測器中的中值被選中用來預(yù)測。如果一個人對一個移動向量(MV)只使用一種類型的大塊(例如16×16),那么這些預(yù)測器可以按例如,如圖15所示來定義。在這里,MV預(yù)測器展示為對一個MV。在圖15a中,MB不在第一行或最后一列。在圖15b中,MB在最后一列。在圖15c中MB在第一行。
JVT標(biāo)準(zhǔn)在這上面進一步通過也考慮只有三個預(yù)測器中的一個存在(即,大塊是內(nèi)編碼的(intra)或在多圖像預(yù)測的情況下使用一個不同的參照圖像)的情況來改進。在這樣的情況下,只有現(xiàn)有的或同樣的參照預(yù)測器被用來預(yù)測并且所有其他的預(yù)測器沒有被檢查。
內(nèi)編碼并不總是意味著一個新的物體出現(xiàn)或者場景改變??赡芟喾吹?,例如,是移動估計和補償不足以代表當(dāng)前物體(例如,搜索區(qū)域、使用的移動估計算法,殘余(residue)的量子化,等等)這樣的情況,并且可以通過內(nèi)編碼來取得更好的結(jié)果。可用的移動預(yù)測器仍然可以足夠提供一個好的移動向量預(yù)測器解決方案。
令人感興趣的是考慮一個大塊中的每一個被賦予不同的移動信息的子塊。MPEG-4和H.263標(biāo)準(zhǔn),例如,最多可以有四個這樣的子塊(例如,大小為8×8),這里JVT標(biāo)準(zhǔn)允許最多有十六個子塊而也可以處理不同的塊大小(例如,4×4,4×8,8×4,8×8,16×8,及16×16)。另外JVT也允許8×8內(nèi)編碼子塊,因此使得情況更加復(fù)雜。
考慮JVT和MPEG-4/H.263的一般情況(8×8和16×16),一個16×16大塊的預(yù)測器集合在有相應(yīng)地類似于圖15a-c的安排的圖16a-c中展示。在這里展示的移動向量預(yù)測器是一個有8×8分區(qū)的MV。技術(shù)所述的預(yù)測器可以在一些情況下產(chǎn)生合理的結(jié)果,看起來它們并未足夠地包含所有可能的因此。
下面看圖17a-c,這也是有類似于圖15a-c的安排。在這里,在圖17a-c,有兩個也可以在預(yù)測相位(C1和A2)考慮的附加的預(yù)測器。如果也考慮4×4的塊,這增加4種可能的預(yù)測器。
代替使用三個預(yù)測器A、B和C(或A1、B,和C2)的一個中值,一個人可以有一些附加的,并顯然更可靠的選項。因此,例如,一個人可以看到預(yù)測器A1和C2本質(zhì)上互相非常接近并且很可能它們在預(yù)測相位上不是很有代表性。相反,選擇預(yù)測器A1、C1,和B由于它們的分離看起來是一個更可靠的解決方案。一個其他選擇也可以是選擇A2代替A1但那也過于接近預(yù)測器B。模擬表明第一種情況通常是一個更好的選擇。對最后一列A2可以用來代替A1。對第一行A1或A2甚至它們的平均值都可以使用。對這個應(yīng)用高至1%的增益在JVT中被注意到。
前面的情況對最后一列增加了一些檢驗。通過查看圖17b,例如,很明顯這趨向于提供可用的最好的分區(qū)。因此,一個可選的解決方案可以是選擇A2、C1,和B(從左上位置)。然而,這并不總是被推薦的,因為這樣的一個應(yīng)用會反過來一些右邊(right)的預(yù)測器的性能。
一個作為其他選擇的解決方案可以是使用一個大塊中的預(yù)測器的平均值。中值可以計算如下M-V→pred=Median(Ave(M-V→C1,M-V→C2,),Ave-(M-V→A1,M-V→A2),M-V→B)]]>對中值行/列計算,中值可以計算為M-V→pred=Median(Median(M-V→C1,M-V→C2,M-V→D),…Median(M-V→D,M-V→A1,M-→V→C2),Median(M-V→B,M-V→A1,M-V→A2))]]>另一個可能的解決方案是一個中值5解決方案。這可能是最復(fù)雜的解決方案由于計算(例如可以使用快速排序或冒泡排序),但可能產(chǎn)生最好的結(jié)果。如果考慮4×4的塊,例如,那么也可以使用中值9M-V→pred=Median(M-V→C1,M-V→C2,M-V→D,M-V→B,M-V→A1,M-V→A2)]]>考慮JVT允許內(nèi)編碼的子塊存在于一個間大塊(例如,樹狀大塊結(jié)構(gòu)),這也可以考慮在移動預(yù)測中。如果一個被用來做MV預(yù)測的子塊(例如,僅來自于上面或左邊的大塊)是內(nèi)編碼的,那么相鄰的子塊可以用來代替。因此,如果A1是內(nèi)編碼的而A2不是,那么A1可以被A2替代用在預(yù)測中。進一步的可能性是用來自左上位置的MV預(yù)測器替換一個缺少的內(nèi)編碼大塊。在圖17a中,例如,如果C1是缺少的那么可以使用D來代替。
在上面的部分,展示了B圖像直接模式和移動向量預(yù)測的幾個改進。展示了空間預(yù)測也可以用于直接模式大塊;其中為了更準(zhǔn)確的預(yù)測,移動向量預(yù)測應(yīng)考慮時間距離和子塊信息。這樣的考慮會顯著的改進任何適用的視頻編碼系統(tǒng)的性能。
結(jié)論雖然上面的說明使用了特定于結(jié)構(gòu)特性和/或方法論的動作的語言,應(yīng)理解在所附的權(quán)利要求中定義的發(fā)明并不局限于上述特定的特性或動作。更確切地,特定的特性和動作以應(yīng)用本發(fā)明的示范性的形式在這里揭示。
權(quán)利要求
1.一種用于編碼一個視頻幀序列中的視頻數(shù)據(jù)的方法,其特征在于,所述方法包括標(biāo)識至少一個視頻幀的至少一個部分為一個雙向預(yù)測(B)圖像;及至少使用空間預(yù)測來編碼至少一個和所述B圖像相關(guān)的移動參數(shù)對所述B圖像選擇性地編碼。
2.按照權(quán)利要求1的所述方法,其特征在于,所述B圖像包括一個大塊。
3.按照權(quán)利要求2的所述方法,其特征在于,所述至少使用空間預(yù)測來編碼至少一個移動參數(shù)對所述B圖像選擇性地編碼產(chǎn)生一個直接大塊。
4.按照權(quán)利要求1的所述方法,其特征在于,所述B圖像包括一個片段。
5.按照權(quán)利要求1的所述方法,其特征在于,所述B圖像包括一個大塊的至少一個部分。
6.按照權(quán)利要求1的所述方法,其特征在于,所述至少使用空間預(yù)測來編碼至少一個移動參數(shù)對所述B圖像選擇性地編碼進一步包括對所述B圖像基于至少一個為所述視頻幀的至少另一部分的參照圖像進行線性移動向量預(yù)測。
7.按照權(quán)利要求1的所述方法,其特征在于,所述至少使用空間預(yù)測來編碼至少一個移動參數(shù)對所述B圖像選擇性地編碼進一步包括對所述B圖像基于至少一個為所述視頻幀的至少另一部分的參照圖像進行非線性移動向量預(yù)測。
8.按照權(quán)利要求1的所述方法,其特征在于,所述至少使用空間預(yù)測來編碼至少一個移動參數(shù)對所述B圖像選擇性地編碼進一步包括對所述B圖像基于至少兩個都為所述視頻幀的部分的參照圖像進行中值移動向量預(yù)測。
9.按照權(quán)利要求1的所述方法,其特征在于,所述至少一個移動參數(shù)包括至少一個移動向量。
10.按照權(quán)利要求1的所述方法,其特征在于,所述至少一個其他視頻幀的至少一個其他部分被處理以進一步使用時間預(yù)測來編碼至少一個和所述B圖像關(guān)聯(lián)的基于時間的移動參數(shù)來選擇性地編碼所述B圖像。
11.按照權(quán)利要求10的所述方法,其特征在于,所述時間預(yù)測包括雙向時間預(yù)測。
12.按照權(quán)利要求10的所述方法,其特征在于,所述至少一個其他視頻幀是一個預(yù)測(P)幀。
13.按照權(quán)利要求10的所述方法,其特征在于,進一步包括至少部分基于一個在所述其他視頻幀和所述包含所述B圖像的幀之間的時間距離,選擇性地縮放所述至少一個基于時間的移動參數(shù)。
14.按照權(quán)利要求13的所述方法,其特征在于,所述時間距離信息被編碼在一個和所述已編碼的B圖像關(guān)聯(lián)的頭中。
15.按照權(quán)利要求10的所述方法,其特征在于,所述至少一個其他部分包括所述至少一個其他視頻幀中的一個大塊的至少一個部分。
16.一種包含配置至少一個處理單元來執(zhí)行動作的計算機可執(zhí)行指令的計算機可讀媒體,其特征在于,所述計算機可讀媒體包括訪問一個視頻幀序列的數(shù)據(jù);標(biāo)識至少一個視頻幀的至少一個部分為一個雙向預(yù)測(B)圖像;及至少使用空間預(yù)測來編碼至少一個和所述B圖像相關(guān)的移動參數(shù)對所述B圖像選擇性地編碼。
17.按照權(quán)利要求16的所述計算機可讀媒體,其特征在于,所述B圖像包括一個大塊。
18.按照權(quán)利要求17的所述計算機可讀媒體,其特征在于,所述至少使用空間預(yù)測來編碼至少一個移動參數(shù)對所述B圖像選擇性地編碼產(chǎn)生一個直接大塊。
19.按照權(quán)利要求16的所述計算機可讀媒體,其特征在于,所述B圖像包括一個片段。
20.按照權(quán)利要求16的所述計算機可讀媒體,其特征在于,所述B圖像包括一個大塊的至少一個部分。
21.按照權(quán)利要求16的所述計算機可讀媒體,其特征在于,所述至少使用空間預(yù)測來編碼至少一個移動參數(shù)對所述B圖像選擇性地編碼進一步包括對所述B圖像基于至少一個為所述視頻幀的至少另一部分的參照圖像進行線性移動向量預(yù)測。
22.按照權(quán)利要求16的所述計算機可讀媒體,其特征在于,所述至少使用空間預(yù)測來編碼至少一個移動參數(shù)對所述B圖像選擇性地編碼進一步包括對所述B圖像基于至少一個為所述視頻幀的至少另一部分的參照圖像進行非線性移動向量預(yù)測。
23.按照權(quán)利要求16的所述計算機可讀媒體,其特征在于,所述至少使用空間預(yù)測來編碼至少一個移動參數(shù)對所述B圖像選擇性地編碼進一步包括對所述B圖像基于至少兩個都為所述視頻幀的部分的參照圖像進行中值移動向量預(yù)測。
24.按照權(quán)利要求16的所述計算機可讀媒體,其特征在于,所述至少一個移動參數(shù)包括至少一個移動向量。
25.按照權(quán)利要求1的所述計算機可讀媒體,其特征在于,所述至少一個其他視頻幀的至少一個其他部分被處理以進一步使用時間預(yù)測來編碼至少一個和所述B圖像關(guān)聯(lián)的基于時間的移動參數(shù)來選擇性地編碼所述B圖像。
26.按照權(quán)利要求25的所述計算機可讀媒體,其特征在于,所述時間預(yù)測包括雙向時間預(yù)測。
27.按照權(quán)利要求25的所述計算機可讀媒體,其特征在于,所述至少一個其他視頻幀是一個預(yù)測(P)幀。
28.按照權(quán)利要求25的所述計算機可讀媒體,有著配置至少一個處理單元來執(zhí)行動作的計算機可執(zhí)行指令,其特征在于,包括至少部分基于一個在所述其他視頻幀和所述包含所述B圖像的幀之間的時間距離,選擇性地縮放所述至少一個基于時間的移動參數(shù)。
29.按照權(quán)利要求28的所述計算機可讀媒體,其特征在于,所述時間距離信息被編碼在一個和所述已編碼的B圖像關(guān)聯(lián)的頭中。
30.按照權(quán)利要求25的所述計算機可讀媒體,其特征在于,所述至少一個其他部分包括所述至少一個其他視頻幀中的一個大塊的至少一個部分。
31.一種用于編碼一個視頻幀序列中的視頻數(shù)據(jù)的裝置,其特征在于,所述裝置包括操作上配置為訪問一個視頻幀序列的視頻數(shù)據(jù),標(biāo)識至少一個視頻幀的至少一個部分為一個雙向預(yù)測(B)圖像,并至少使用空間預(yù)測來編碼至少一個和所述B圖像相關(guān)的移動參數(shù)對所述B圖像選擇性地編碼的邏輯電路。
32.按照權(quán)利要求31的所述裝置,其特征在于,所述B圖像包括一個大塊。
33.按照權(quán)利要求32的所述裝置,其特征在于,所述至少使用空間預(yù)測來編碼至少一個移動參數(shù)對所述B圖像選擇性地編碼產(chǎn)生一個直接大塊。
34.按照權(quán)利要求31的所述裝置,其特征在于,所述B圖像包括一個片段。
35.按照權(quán)利要求31的所述裝置,其特征在于,所述B圖像包括一個大塊的至少一個部分。
36.按照權(quán)利要求31的所述裝置,其特征在于,所述邏輯電路進一步配置為對所述B圖像基于至少一個為所述視頻幀的至少另一部分的參照圖像進行線性移動向量預(yù)測。
37.按照權(quán)利要求31的所述裝置,其特征在于,所述邏輯電路進一步配置為對所述B圖像基于至少一個為所述視頻幀的至少另一部分的參照圖像進行非線性移動向量預(yù)測。
38.按照權(quán)利要求31的所述裝置,其特征在于,所述邏輯電路進一步配置為對所述B圖像基于至少兩個都為所述視頻幀的部分的參照圖像進行中值移動向量預(yù)測。
39.按照權(quán)利要求31的所述裝置,其特征在于,所述至少一個移動參數(shù)包括至少一個移動向量。
40.按照權(quán)利要求31的所述裝置,其特征在于,所述邏輯電路進一步配置為處理至少一個其他視頻幀的至少一個其他部分并使用時間預(yù)測來編碼至少一個和所述B圖像關(guān)聯(lián)的基于時間的移動參數(shù)來選擇性地編碼所述B圖像。
41.按照權(quán)利要求40的所述裝置,其特征在于,所述時間預(yù)測包括雙向時間預(yù)測。
42.按照權(quán)利要求40的所述裝置,其特征在于,所述至少一個其他視頻幀是一個預(yù)測(P)幀。
43.按照權(quán)利要求40的所述裝置,其特征在于,所述邏輯電路進一步配置為至少部分基于一個在所述其他視頻幀和所述包含所述B圖像的幀之間的時間距離,選擇性地縮放所述至少一個基于時間的移動參數(shù)。
44.按照權(quán)利要求43的所述裝置,其特征在于,所述邏輯電路進一步配置為包括時間距離信息在一個和所述已編碼的B圖像關(guān)聯(lián)的頭中。
45.按照權(quán)利要求40的所述裝置,其特征在于,所述至少一個其他部分包括所述至少一個其他視頻幀中的一個大塊的至少一個部分。
46.一種編碼視頻數(shù)據(jù)的方法,其特征在于,所述方法包括標(biāo)識至少一個視頻幀的至少一個部分以一個增強的直接模式編碼;及至少使用和在所述至少一個視頻幀中的所述部分關(guān)聯(lián)的空間信息以所述增強的直接模式編碼所述部分。
47.按照權(quán)利要求46的所述方法,其特征在于,所述以所述增強的直接模式編碼所述部分進一步包括使用和所述部分相關(guān)的時間信息及至少一個其他視頻幀的至少一個其他部分。
48.按照權(quán)利要求46的所述方法,其特征在于,所述以所述增強的直接模式編碼所述部分進一步包括使用基于在所述至少一個視頻幀中的至少一個其他部分的移動向量預(yù)測。
49.按照權(quán)利要求48的所述方法,其特征在于,所述移動向量預(yù)測包括中值預(yù)測。
50.按照權(quán)利要求46的所述方法,其特征在于,所述增強直接模式包括基于至少一個考慮所述至少一個視頻幀的至少一個其他部分的移動信息的線性函數(shù),使用空間預(yù)測來計算所述空間信息。
51.按照權(quán)利要求46的所述方法,其特征在于,所述增強直接模式包括基于至少一個考慮所述至少一個視頻幀的至少一個其他部分的移動信息的非線性函數(shù),使用空間預(yù)測來計算所述空間信息。
52.一種包含配置至少一個處理單元來執(zhí)行動作的計算機可執(zhí)行指令的計算機可讀媒體,其特征在于,所述計算機可讀媒體包括通過標(biāo)識至少一個視頻幀的至少一個部分以一個增強的直接模式編碼視頻數(shù)據(jù),及至少使用和在所述至少一個視頻幀中的所述部分關(guān)聯(lián)的空間信息以在所述增強的直接模式編碼所述部分,來編碼視頻數(shù)據(jù)。
53.按照權(quán)利要求52的所述計算機可讀媒體,其特征在于,所述以所述增強的直接模式編碼所述部分進一步包括使用和所述部分相關(guān)的時間信息及至少一個其他視頻幀的至少一個其他部分。
54.按照權(quán)利要求52的所述計算機可讀媒體,其特征在于,所述以所述增強的直接模式編碼所述部分進一步包括使用基于在所述至少一個視頻幀中的至少一個其他部分的移動向量預(yù)測。
55.按照權(quán)利要求54的所述計算機可讀媒體,其特征在于,所述移動向量預(yù)測包括中值預(yù)測。
56.按照權(quán)利要求52的所述計算機可讀媒體,其特征在于,所述增強直接模式包括基于至少一個考慮所述至少一個視頻幀的至少一個其他部分的移動信息的線性函數(shù),使用空間預(yù)測來計算所述空間信息。
57.按照權(quán)利要求52的所述計算機可讀媒體,其特征在于,所述增強直接模式包括基于至少一個考慮所述至少一個視頻幀的至少一個其他部分的移動信息的非線性函數(shù),使用空間預(yù)測來計算所述空間信息。
58.一種裝置,其特征在于,所述裝置包括操作上配置為通過標(biāo)識至少一個視頻幀的至少一個部分以一個增強的直接模式編碼,及至少使用和在所述至少一個視頻幀中的所述部分關(guān)聯(lián)的空間信息以所述增強的直接模式編碼所述部分,來編碼視頻數(shù)據(jù)的邏輯電路。
59.按照權(quán)利要求58的所述裝置,其特征在于,所述邏輯電路進一步在操作上配置為使用和所述部分相關(guān)的時間信息及至少一個其他視頻幀的至少一個其他部分來以所述增強的直接模式編碼所述部分。
60.按照權(quán)利要求58的所述裝置,其特征在于,所述邏輯電路進一步在操作上配置為使用基于在所述至少一個視頻幀中的至少一個其他部分的移動向量預(yù)測信息來以所述增強的直接模式編碼所述部分。
61.按照權(quán)利要求60的所述裝置,其特征在于,所述移動向量預(yù)測包括中值預(yù)測。
62.按照權(quán)利要求56的所述裝置,其特征在于,所述邏輯電路進一步在操作上配置為基于至少一個考慮所述至少一個視頻幀的至少一個其他部分的移動信息的線性函數(shù),使用空間預(yù)測來計算所述空間信息。
63.按照權(quán)利要求56的所述裝置,其特征在于,所述邏輯電路進一步在操作上配置為基于至少一個考慮所述至少一個視頻幀的至少一個其他部分的移動信息的非線性函數(shù),使用空間預(yù)測來計算所述空間信息。
64.一種在直接模式視頻編碼中預(yù)測一個參照圖像的方法,其特征在于,所述方法包括從包括對要編碼的視頻幀的至少一個部分相關(guān)的多個預(yù)測的最小參照圖像,對所述多個預(yù)測的中值參照圖像,及基于單向預(yù)測的當(dāng)前參照圖像的一個組中選擇參照圖像;及基于選中的參照圖像,編碼所述視頻幀的所述至少一個部分。
65.按照權(quán)利要求64的所述方法,其特征在于,所述選擇所述參照圖像進一步包括選擇至少一個空間相關(guān)的預(yù)測。
66.按照權(quán)利要求64的所述方法,其特征在于,所述選擇所述參照圖像進一步包括選擇至少一個時間相關(guān)的預(yù)測。
67.一種包含配置至少一個處理單元來執(zhí)行動作的計算機可執(zhí)行指令的計算機可讀媒體,其特征在于,所述計算機可讀媒體包括從包括一個對一個要編碼的視頻幀的至少一個部分相關(guān)的多個預(yù)測的最小參照圖像,對所述多個預(yù)測的中值參照圖像,及基于單向預(yù)測的當(dāng)前參照圖像的一個組中選擇參照圖像;及基于選中的參照圖像,編碼所述視頻幀的所述至少一個部分。
68.按照權(quán)利要求67的所述計算機可讀媒體,其特征在于,所述選擇所述參照圖像進一步包括選擇至少一個空間相關(guān)的預(yù)測。
69.按照權(quán)利要求67的所述計算機可讀媒體,其特征在于,所述選擇所述參照圖像進一步包括選擇至少一個時間相關(guān)的預(yù)測。
70.一種裝置,其特征在于,所述裝置包括操作上配置為從包括對要編碼的視頻幀的至少一個部分相關(guān)的多個預(yù)測的最小參照圖像,對所述多個預(yù)測的中值參照圖像,及基于一個單向預(yù)測的當(dāng)前參照圖像的組中選擇參照圖像,及基于選中的參照圖像,編碼所述視頻幀的所述至少一個部分的邏輯電路。
71.按照權(quán)利要求70的所述裝置,其特征在于,所述邏輯電路操作上配置為選擇至少一個空間相關(guān)的預(yù)測。
72.按照權(quán)利要求70的所述裝置,其特征在于,所述選擇邏輯電路操作上配置為選擇至少一個時間相關(guān)的預(yù)測。
73.一種選擇時間預(yù)測、空間預(yù)測,或時間和空間預(yù)測兩者中之一來在一個增強的直接模式中編碼至少一個視頻幀的至少一部分的方法,其特征在于,所述方法包括如果至少一個所述視頻幀的一個比較部分的移動向量為0,那么選擇時間預(yù)測;如果在所述視頻幀中周圍的部分使用和一個比較參照圖像不同的參照圖像,那么只選擇空間預(yù)測;如果和所述視頻幀的所述部分相關(guān)的移動流本質(zhì)上不同于和參照圖像相關(guān)的移動流,那么選擇空間預(yù)測;如果直接模式的時間預(yù)測用信號表示在一個圖像頭中,那么選擇時間預(yù)測;及如果直接模式的空間預(yù)測用信號表示在一個圖像頭中,那么選擇空間預(yù)測。
74.按照權(quán)利要求73的所述方法,其特征在于,進一步包括基于空間信息修正至少一個時間預(yù)測參數(shù)。
75.按照權(quán)利要求73的所述方法,其特征在于,進一步包括基于時間信息修正至少一個空間預(yù)測參數(shù)。
76.一種包含配置至少一個處理單元來執(zhí)行動作的計算機可執(zhí)行指令的計算機可讀媒體,其特征在于,所述動作包括選擇時間預(yù)測、空間預(yù)測,或時間和空間預(yù)測兩者中之一來在增強的直接模式中編碼至少一個視頻幀的至少一部分,使得如果至少一個所述視頻幀的一個比較部分的移動向量為0,那么選擇時間預(yù)測;如果在所述視頻幀中周圍的部分使用和一個比較參照圖像不同的參照圖像,那么只選擇空間預(yù)測;如果和所述視頻幀的所述部分相關(guān)的移動流本質(zhì)上不同于和參照圖像相關(guān)的移動流,那么選擇空間預(yù)測;如果直接模式的時間預(yù)測用信號表示在一個圖像頭中,那么選擇時間預(yù)測;及如果直接模式的空間預(yù)測用信號表示在一個圖像頭中,那么選擇空間預(yù)測。
77.按照權(quán)利要求76的所述計算機可讀媒體,其特征在于,進一步包括基于空間信息修正至少一個時間預(yù)測參數(shù)。
78.按照權(quán)利要求76的所述計算機可讀媒體,其特征在于,進一步包括基于時間信息修正至少一個空間預(yù)測參數(shù)。
79.一種裝置,其特征在于,所述裝置包括配置為選擇時間預(yù)測、空間預(yù)測,或時間和空間預(yù)測兩者中之一來在一個增強的直接模式中編碼至少一個視頻幀的至少一部分的邏輯電路,其特征在于,所述邏輯電路如果至少一個所述視頻幀的一個比較部分的移動向量為0,那么選擇時間預(yù)測;如果在所述視頻幀中周圍的部分使用和一個比較參照圖像不同的參照圖像,那么只選擇空間預(yù)測;如果一個和所述視頻幀的所述部分相關(guān)的移動流本質(zhì)上不同于和參照圖像相關(guān)的移動流,那么選擇空間預(yù)測;如果直接模式的時間預(yù)測用信號表示在圖像頭中,那么選擇時間預(yù)測;及如果直接模式的空間預(yù)測用信號表示在所述圖像頭中,那么選擇空間預(yù)測。
80.按照權(quán)利要求79的所述裝置,其特征在于,所述邏輯電路進一步在操作上配置為基于空間信息修正至少一個時間預(yù)測參數(shù)。
81.按照權(quán)利要求79的所述裝置,其特征在于,所述邏輯電路進一步在操作上配置為基于時間信息修正至少一個空間預(yù)測參數(shù)。
82.一種編碼視頻數(shù)據(jù)的方法,其特征在于,所述方法包括在一個未來視頻幀中選擇對前面的視頻幀的至少一個部分的參照部分作為B圖像;使用和所述參照幀相關(guān)的移動向量來計算和所述至少一個部分相關(guān)的移動向量;及基于所述計算出的和所述至少一個部分相關(guān)的移動向量,編碼所述至少一個部分。
83.按照權(quán)利要求82的所述方法,其特征在于,所述使用和所述參照幀相關(guān)的移動向量來計算和所述至少一個部分相關(guān)的移動向量進一步包括通過投影和反轉(zhuǎn)參照部分的反向和正向移動向量,估計至少一個使用于直接模式編碼的可能的預(yù)測。
84.按照權(quán)利要求83的所述方法,其特征在于,基于所述與至少一個部分相關(guān)的計算出的移動向量編碼所述至少一個部分進一步包括基于至少一個和關(guān)于至少一個部分的所述參照部分相關(guān)的時間參數(shù),應(yīng)用選擇性的投影和反轉(zhuǎn)。
85.按照權(quán)利要求82的所述方法,其特征在于,所述唯一的參照部分當(dāng)在直接模式中編碼時,被用作B圖像。
86.按照權(quán)利要求82的所述方法,其特征在于,所述使用與所述至少一個部分相關(guān)的計算出的移動向量編碼至少一個部分進一步包括在直接模式中,基于至少一個在兩個不同的參照圖像中引用至少兩個參照部分的投影的移動向量,編碼所述至少一個所述計算出的移動向量。
87.按照權(quán)利要求82的所述方法,其特征在于,所述使用與所述至少一個部分相關(guān)的計算出的移動向量編碼所述至少一個部分進一步包括在直接模式中,基于和所述參照部分相關(guān)的空間預(yù)測,編碼所述至少一個所述計算出的移動向量。
88.一種包含配置至少一個處理單元來執(zhí)行動作的計算機可執(zhí)行指令的計算機可讀媒體,其特征在于,包括在一個未來視頻幀中選擇對一個前面的視頻幀的至少一個部分的一個參照部分作為B圖像;使用和所述參照幀相關(guān)的移動向量來計算和所述至少一個部分相關(guān)的移動向量;及基于所述計算出的和所述至少一個部分相關(guān)的移動向量,編碼所述至少一個部分。
89.按照權(quán)利要求88的所述計算機可讀媒體,其特征在于,所述使用和所述參照幀相關(guān)的移動向量來計算和所述至少一個部分相關(guān)的移動向量進一步包括通過投影和反轉(zhuǎn)參照部分的反向和正向移動向量,估計至少一個使用于直接模式編碼的可能的預(yù)測。
90.按照權(quán)利要求89的所述計算機可讀媒體,其特征在于,基于與所述至少一個部分相關(guān)的計算出的移動向量編碼所述至少一個部分進一步包括基于至少一個和關(guān)于至少一個部分的所述參照部分相關(guān)的時間參數(shù),應(yīng)用選擇性的投影和反轉(zhuǎn)。
91.按照權(quán)利要求88的所述計算機可讀媒體,其特征在于,所述唯一的參照部分當(dāng)在直接模式中編碼時,被用作B圖像。
92.按照權(quán)利要求88的所述計算機可讀媒體,其特征在于,基于與所述至少一個部分相關(guān)的計算出的移動向量編碼所述至少一個部分進一步包括在直接模式中,基于至少一個在兩個不同的參照圖像中引用至少兩個參照部分的投影的移動向量,編碼所述至少一個所述計算出的移動向量。
93.按照權(quán)利要求88的所述計算機可讀媒體,其特征在于,基于與所述至少一個部分相關(guān)的計算出的移動向量編碼所述至少一個部分進一步包括在直接模式中,基于和所述參照部分相關(guān)的空間預(yù)測,編碼所述至少一個所述計算出的移動向量。
94.一種裝置,其特征在于,所述裝置包括操作上配置為在一個未來視頻幀中選擇對一個前面的視頻幀的至少一個部分的一個參照部分作為一個B圖像,使用和所述參照幀相關(guān)的移動向量來計算和所述至少一個部分相關(guān)的移動向量,及基于所述計算出的和所述至少一個部分相關(guān)的移動向量,編碼所述至少一個部分的邏輯電路。
95.按照權(quán)利要求94的所述裝置,其特征在于,所述邏輯電路進一步在操作上配置為通過投影和反轉(zhuǎn)參照部分的反向和正向移動向量,估計至少一個使用于直接模式編碼的可能的預(yù)測。
96.按照權(quán)利要求95的所述裝置,其特征在于,所述邏輯電路進一步在操作上配置為基于至少一個和關(guān)于至少一個部分的所述參照部分相關(guān)的時間參數(shù),應(yīng)用選擇性的投影和反轉(zhuǎn)。
97.按照權(quán)利要求94的所述裝置,其特征在于,所述唯一的參照部分當(dāng)在直接模式中編碼時,被用作B圖像。
98.按照權(quán)利要求94的所述裝置,其特征在于,所述邏輯電路進一步在操作上配置為在直接模式中,基于至少一個在兩個不同的參照圖像中引用至少兩個參照部分的投影的移動向量,編碼所述至少一個所述計算出的移動向量。
99.按照權(quán)利要求94的所述裝置,其特征在于,所述邏輯電路進一步在操作上配置為在直接模式中,基于和所述參照部分相關(guān)的空間預(yù)測,編碼所述至少一個所述計算出的移動向量。
100.一種用來在視頻編碼中確定移動向量的方法,其特征在于,所述方法包括選擇至少三個每個使用一個不同的參照圖像,各自有著相關(guān)的時間距離TRA,TRB和TRC及一個移動向量MVA,MVB和MVC的預(yù)測器A、B和C;及預(yù)測和一個有著一個等于TR的時間距離的當(dāng)前參照圖像相關(guān)的一個中值移動向量MVpred。
101.按照權(quán)利要求100的所述方法,其特征在于,所述中值預(yù)測器MVpred計算為M-V→pred=TR×Median(M-V→ATRA,M-V→BTRB,M-V→CTRC)]]>
102.按照權(quán)利要求100的所述方法,其特征在于,所述中值預(yù)測器MVpred計算為M-V→pred=Median(Ave(M-V→C1,M-V→C2),Ave(M-V→A1,M-V→A2),M-V→B)]]>
103.按照權(quán)利要求100的所述方法,其特征在于,進一步包括選擇至少一個有著相關(guān)的時間距離TRD和一個移動向量MVD的第四個預(yù)測器,及所述中值預(yù)測器MVpred計算為M-V→pred=Median(Median(M-V→C1,M-V→C2,M-V→D),…Median(M-V→D,M-V→A1,M-V→C2),Median(M-V→B,M-V→A1,M-V→A2))]]>
104.按照權(quán)利要求100的所述方法,其特征在于,進一步包括選擇至少一個有著相關(guān)的時間距離TRD和一個移動向量MVD的第四個預(yù)測器,及所述中值預(yù)測器MVpred計算為M-V→pred=Median(M-V→C1,M-V→C2,M-V→D,M-V→B,M-V→A1,M-V→A2)]]>
105.按照權(quán)利要求100的所述方法,其特征在于,進一步包括選擇性地用一個參照幀相鄰的一個部分替換所述參照幀的一個選中的部分,以用于當(dāng)使用內(nèi)編碼時確定移動向量預(yù)測。
106.一種包含配置至少一個處理單元來執(zhí)行動作的計算機可執(zhí)行指令的計算機可讀媒體,其特征在于,包括選擇至少三個每個使用一個不同的參照圖像,各自有著相關(guān)的時間距離TRA,TRB和TRC及一個移動向量MVA,MVB和MVC的預(yù)測器A、B和C;及預(yù)測和一個有著一個等于TR的時間距離的當(dāng)前參照圖像相關(guān)的一個中值移動向量MVpred。
107.按照權(quán)利要求106的所述計算機可讀媒體,其特征在于,所述中值預(yù)測器MVpred計算為M-V→pred=TR×Median(M-V→ATRA,M-V→BTRB,M-V→CTRC)]]>
108.按照權(quán)利要求106的所述計算機可讀媒體,其特征在于,所述中值預(yù)測器MVpred計算為M-V→pred=Median(Ave(M-V→C1,M-V→C2),Ave(M-V→A1,M-V→A2,),M-V→B)]]>
109.按照權(quán)利要求106的所述計算機可讀媒體,其特征在于,進一步包括選擇至少一個有著相關(guān)的時間距離TRD和一個移動向量MVD的第四個預(yù)測器,及所述中值預(yù)測器MVpred計算為M-V→pred=Mredian(Median(M-V→C1,M-V→C2,M-V→D),…Median(M-V→D,M-V→A1,M-V→C2),Median(M-V→B,M-V→A1,M-V→A2))]]>
110.按照權(quán)利要求106的所述計算機可讀媒體,其特征在于,進一步包括選擇至少一個有著相關(guān)的時間距離TRD和一個移動向量MVD的第四個預(yù)測器,及所述中值預(yù)測器MVpred計算為M-V→pred=Median(M-V→C1,M-V→C2,M-V→D,M-V→B,M-V→A1,M-V→A2)]]>
111.按照權(quán)利要求106的所述計算機可讀媒體,其特征在于,進一步包括選擇性地用一個參照幀相鄰的一個部分替換所述參照幀的一個選中的部分,以用于當(dāng)使用內(nèi)編碼時確定移動向量預(yù)測。
112.一種裝置,其特征在于,所述裝置包括操作上配置為選擇至少三個每個使用一個不同的參照圖像,各自有著相關(guān)的時間距離TRA,TRB和TRC及一個移動向量MVA,MVB和MVC的預(yù)測器A、B和C,及預(yù)測和一個有著一個等于TR的時間距離的當(dāng)前參照圖像相關(guān)的一個中值移動向量MVpred的邏輯電路。
113.按照權(quán)利要求112的所述裝置,其特征在于,所述中值預(yù)測器MVpred計算為M-V→pred=TR×Median(M-V→ATRA,M-V→BTRB,M-V→CTRC)]]>
114.按照權(quán)利要求112的所述裝置,其特征在于,所述中值預(yù)測器MVpred計算為M-V→pred=Median(Ave(M-V→C1,M‾V→C2)Ave(M-V→A1,M-V→A2),M-V→B)]]>
115.按照權(quán)利要求112的所述裝置,其特征在于,所述邏輯電路進一步操作上配置為選擇至少一個有著相關(guān)的時間距離TRD和一個移動向量MVD的第四個預(yù)測器,及所述中值預(yù)測器MVpred計算為M-V→pred=Median(Median(M-V→C1,M-V→C2,M-V→D),…Median(M-V→B,M-V→A1,M-V→C2),Meedian(M-V→B,M-V→A1,M-V→A2))]]>
116.按照權(quán)利要求112的所述裝置,其特征在于,所述邏輯電路進一步操作上配置為選擇至少一個有著相關(guān)的時間距離TRD和一個移動向量MVD的第四個預(yù)測器,及所述中值預(yù)測器MVpred計算為M-V→pred=Median(M-V→C1,M-V→C2,M-V→D,M-V→B,M-V→A1,M-V→A2)]]>
117.按照權(quán)利要求112的所述裝置,其特征在于,所述邏輯電路進一步操作上配置為選擇性地用一個參照幀相鄰的一個部分替換所述參照幀的一個選中的部分,以用于當(dāng)使用內(nèi)編碼時確定移動向量預(yù)測。
全文摘要
提供了在一個視頻序列中使用雙向預(yù)測(B)圖像的幾個改進方案。在某些改進方案中通過使用空間預(yù)測技巧來增強直接模式編碼和/或移動向量預(yù)測。在其他改進方案中移動向量預(yù)測包括時間距離和子塊信息,例如,為了得到更準(zhǔn)確的預(yù)測。這樣的改進和其他這里展示的改進顯著地提高了任何適用的視頻編碼系統(tǒng)/邏輯的性能。
文檔編號H04N7/36GK1471320SQ0314127
公開日2004年1月28日 申請日期2003年6月3日 優(yōu)先權(quán)日2002年6月3日
發(fā)明者A·圖雷皮斯, A 圖雷皮斯, S·李, F·吳 申請人:微軟公司