基于場景的適應性比特率控制的制作方法

文檔序號：7989382閱讀：186來源：國知局

基于場景的適應性比特率控制的制作方法
【專利摘要】本發(fā)明在此描述用于編碼視頻流的編碼器。該編碼器接收輸入視頻流，顯示輸入視頻流中場景轉換發(fā)生的位置的場景邊界信息和每一場景的目標比特率?；趫鼍斑吔缧畔ⅲ幋a器將輸入視頻流分成多個節(jié)。每一節(jié)包含多個暫時相鄰圖像幀。編碼器根據目標比特率編碼多節(jié)中的每一節(jié)，提供基于場景的適應性比特率控制。如果視頻質量限制在低比特率被滿足，則無須以更高的比特率編碼相同的節(jié)，因為質量限制已被滿足。
【專利說明】基于場景的適應性比特率控制
[0001]對相關申請的交互引用
[0002]此申請要求2011年I月28日遞交的美國臨時申請案61/437，193，以及2011年I月28日遞交的美國臨時申請案61/437，223的優(yōu)先權。上述申請案的內容明示地以參考方式合并于此。
【技術領域】
[0003]本發(fā)明涉及視頻和圖像壓縮技術，尤其涉及使用基於場景自適應性比特率控制的視頻和圖像壓縮技術。
【背景技術】
[0004]隨著視頻流在日常用戶中的持續(xù)普及和使用，有幾個內在的局限需要被克服。例如，為獲得該視頻流，用戶往往希望在只在有限帶寬的因特網上觀看視頻。例如，用戶可能希望通過移動電話連接或家用無線連接獲得視頻流。在某些情況下，通常利用預先下載(spooling content)內容的方式來補償帶寬的不足(即，下載內容至本地儲存后再觀看)。這種方法具有一些缺點。首先，用戶不能有真正的“運行時間”體驗，也就是說用戶在打算觀看節(jié)目時不能夠實時觀看。相反的，在觀看節(jié)目之前，用戶不得不經歷內容預先下載的明顯延遲。另一個缺點是儲存空間的可用性一無論是提供商還是用戶都不得不提供儲存資源以保證預先下載內容可以被儲存，即使是很短的時間，仍導致了昂貴的儲存資源的不必要使用。
[0005]視頻流(典型地包括圖像部分和聲音部分)可能需要大量的帶寬，特別是高分辨率的視頻流(例如高清視頻)。音頻典型地需要少得多的帶寬，但是有時仍然需要考慮帶寬的問題。一個視頻流的方法是大量壓縮視頻流，以使得快速的視頻傳輸可允許用戶在運行時間(rune-time)或者實質上實時地觀看內容(即，無需經歷大量的預先下載延遲)。典型地，損失壓縮(即，壓縮并不是完全可逆的)提供了比無損壓縮更高的壓縮比例，但是大量的損失壓縮提供了不良的用戶體驗。
[0006]為了減少傳輸數字視頻信號的帶寬需求，使用高效的數字視頻編碼是眾所周知的，其中數字視頻信號的數據率可能會大幅減少(出于視頻數據壓縮的目的)。為了保證互操作性，視頻編碼標準在促進數字視頻在很多專業(yè)及消費應用程序中的被采用發(fā)揮了關鍵作用。最有影響力的標準傳統(tǒng)由國際電信聯(lián)盟(ITU-T)或是IS0/IEC (標準化/國際電工委員會的國際組織)的MPEG (運動圖像專家組)15委員會所開發(fā)。ITU-T標準，公認的優(yōu)點是通常針對實時通信(例如視頻會議)，而大多數MPEG標準是優(yōu)化儲存(例如，數字多功能激光視盤(DVD)和廣播(例如數字視頻廣播(DVB)標準))。
[0007]目前，大多數標準化的視頻編碼算法是基于混合視頻編碼。混合視頻編碼方法通常結合數個不同的無損和損失(lossless and lossy)壓縮方案以達到所需的壓縮增益?；旌弦曨l編碼也是ITV-T標準的基礎(H.26x標準例如H.261、H.263)和ISO/1EC標準(MPEG-X標準例如MPEG-l、MPEG-2和MPEG-4)。目前最新和最先進的視頻編碼標準是被稱為H.264/MPEG-4先進視頻編碼(AVC)，是聯(lián)合視頻小組(JVT)、ITV-T聯(lián)合小組和ISO/IEC MPEG組的共同努力的結果。
[0008]該H.264標準應用了被稱為既定標準(例如MPEG-2)之基于塊的運動之補償混合轉換編碼的相同原則。因此，H.264的語法可依照標頭的一般階層而被組織，例如圖像塊、片塊和宏塊標頭，以及數據，例如運動向量、塊變換系數和量化規(guī)模等。然而，H.264標準分離了視頻編碼層(VCL，其描述了視頻數據的內容)以及網絡應用層(NAL，其格式化數據并提供標題信息)。
[0009]此外，H.264標準可以大幅提高編碼參數的選擇。例如，它允許宏塊16x16的更詳細的劃分和操作，即如運動補償過程可以在大小為4x4尺寸的宏塊分割上執(zhí)行。并且，樣本塊的運動補償預測的選擇過程中可能涉及先前譯碼儲存圖片的數量，而不是僅僅相鄰的圖片。即使在單一的幀內進行幀內編碼，也有可能使用來自于同樣幀的先前編碼樣本以形成塊的預測。再者，伴隨運動補償所造成預測錯誤可能基于4x4塊尺寸被轉換和量化，而非傳統(tǒng)的8x8的塊尺寸。同樣，回路程序分塊濾波器現(xiàn)在是強制性的。
[0010]該H.264標準可被視為H.262/MPEG-2視頻編碼語法的超級集合，它使用相同的視頻數據的全局結構，同時延長了可能的編碼決策和參數的數量。具有多種編碼決策的后果是可能取得良好的比特率和圖像質量之間的權衡。然而，盡管H.264標準可能顯著降低基于塊編碼的典型產出而被普遍承認，它也可能突出其它產出。事實上，H.264允許各種編碼參數可能值的增加數量，因此導致改進編碼程序的潛力增加，但是也導致了選擇視頻編碼參數的敏感性的增加。
[0011]與其它標準相似，H.264不指定選擇視頻編碼參數的規(guī)范程序，但是通過參考實施例描述，各種標準可被用于選擇視頻編碼參數以達到編碼效率、視頻質量和實用性之間的適當平衡。然而，所述標準可能不會總是導致最佳或合適的適于所有類型內容和應用程序的編碼參數的選擇。例如，對于視頻信號的特征而言，該標準可能不會導致視頻編碼參數的最優(yōu)或可取選擇是，或者基于獲取編碼的信號特征的標準可能對于當前的應用程序并不適
口 ο
[0012]眾所周知，使用恒定比特率(CBR)編碼或可變比特率(VBR)編碼對視頻數據進行編碼。在這兩種情況下，單位時間內的位數被限制，即，比特率不能超過某個閾值。通常，t匕特率表示為位每秒。CBR編碼通常是具有額外填充恒定比特率的VBR編碼的一種類型(例如，用O填充比特流)。
[0013]TCP/IP網絡，例如因特網，不是“比特流”傳輸，而是傳輸容量隨時變化的盡力網絡。在盡力網絡中使用CBR或者VBR方式編碼和傳輸并不理想。有些協(xié)議以在因特網上傳送視頻。一個很好的例子就是HTTP自適應比特率視頻流，其中視頻流被分割成文件，并被作為文件經由HTTP連接進行傳送。每一文件都包含預定播放時間的視頻序列，并且比特率不同文件的大小不同。因此，某些文件可能小于其它文件。
[0014]因此，視頻編碼的改進系統(tǒng)將是有利的。
[0015]前述相關領域示例和相關的特征之目的系說明性質，而非排他性質。相關領域的其他特征將基于說明書的解讀和附圖的研究而清楚可見。

【發(fā)明內容】
[0016]本發(fā)明將描述編碼視頻流的編碼器。編碼器接收視頻流輸入，場景邊界信息顯示在輸入視頻流中的場景轉換發(fā)生的位置和每個場景的目標比特率。編碼器基于場景邊界信息將輸入視頻流分為多個節(jié)。每ー節(jié)包括多個暫時相鄰的圖像幀。編碼器根據目標比特率編碼多個場景中的每ー個場景，基于場景提供適應性比特率。
[0017]本
【發(fā)明內容】
以簡化的形式提供ー個概念的選擇，并將在下面的實施方式中進ー步描述。本
【發(fā)明內容】
并非_在確定所要保護的主題的關鍵特征或基本特征，亦非用于限制所要保護的主題的范圍。
【專利附圖】

【附圖說明】
[0018]本發(fā)明的一個或多個實施例通過舉例的方式說明并且不受限于附圖中的圖例，其中相似的參考編號表示相似的組件。
[0019]圖1闡述了編碼器的一個例子；
[0020]圖2闡述了編碼輸入視頻流的樣本方法的步驟；
[0021]圖3是處理系統(tǒng)區(qū)塊圖，該處理系統(tǒng)可以被用于實現(xiàn)編碼器實施的所述的某些技術。
【具體實施方式】
[0022]現(xiàn)在將描述本發(fā)明的各個方面。下面的說明提供具體的細節(jié)以透徹理解說明中的例子。然而，本領域技術人員將理解本發(fā)明的實現(xiàn)并不需要諸多細節(jié)。此外，ー些熟知的結構或功能可能不會被詳細顯示或描述，以避免對相關說明產生不必要的混淆。雖然附圖描述作為功能獨立的組件，但是這樣的描述僅僅為了說明的目的。對于本領域技術人員而言，附圖中描繪的組件可以被任意組合或分開成單獨的組件。
[0023]在下面的說明書中使用的術語g在以最合理的方式被解釋，即使它正被用干與本發(fā)明中某些具體例子的詳細說明配合使用。然而，在下文中某些術語可能需要被強調，任何試圖以限制方式進行解釋的術語將在實施方式部分被公開和明確界定。
[0024]本說明書中提及的“實施例”、“一個實施例”或類似的表示意味著所述的特定的功能、結構、特征被包括在本發(fā)明的至少ー個的實施例中。在說明書中這樣的表達的出現(xiàn)并不一定都是指代相同的實施例。
[0025]圖1根據本發(fā)明的一個實施例闡述了編碼器100的例子。編碼器100接收輸入視頻流110并輸出編碼視頻流120，編碼視頻流120可以在譯碼器被譯碼恢復。編碼器100包括輸入模塊102、視頻處理模塊104和視頻編碼模塊106。編碼器100可以包括其它組件例如視頻傳輸模塊、參數輸入模塊、儲存參數的內存等等。編碼器100可以執(zhí)行未在此特別說明的其它視頻處理功能。
[0026]輸入模塊102接收輸入視頻流110。輸入視頻流110可以采取任何適當的形式也可以源于任何適當的資源，如內存，或者源于現(xiàn)場節(jié)目。輸入模塊102進ー步接收每個場景的場景邊界信息和目標比特率。場景邊界信息顯示在輸入視頻流中場景轉換發(fā)生的位置。
[0027]視頻處理模塊104分析輸入視頻流110并將視頻流110基于場景邊界信息分為多個場景中的每ー個場景的多個節(jié)。每ー節(jié)包括多個暫時相鄰的圖像幀。在一個實施例中，視頻處理模塊進一步將輸入視頻流分割成多個文件。每ー個文件包括一或多個節(jié)。在另ー個實施例中，視頻文件的每一節(jié)的位置、分辨率、時間戳或者開始幀編號都被記入文件或數據庫中。視頻編碼模塊使用相關的目標比特率或者具有比特率限制的視頻質量編碼每一節(jié)。在一個實施例中，編碼器進一步包括視頻傳輸模塊用于經由網絡連接(如HTTP連接)傳輸文件。
[0028]在一些實施例中，視頻圖像幀的光學分辨率被檢測并利用，以決定真實的或最佳的場景視頻尺寸和場景分割。光學分辨率描述的分辨率上一個或多個視頻圖像幀可以不斷地分解細節(jié)。由于捕獲光學、記錄媒體、原始格式的限制，視頻圖像幀的光學分辨率可能遠小于視頻圖像幀的技術分辨率。視頻處理模塊可以檢測每節(jié)中的圖像幀的光學分辨率。基于每節(jié)中的圖像幀的光學分辨率可以確定場景形式。此外，一節(jié)的目標比特率可基于每一節(jié)中的圖像幀的光學分辨率被確定。對于一些光學分辨率較低的節(jié)，目標比特率可以較低，因為高比特率對于節(jié)的保真并無幫助。在某些情況下，電子高階裝置上轉換低分辨率圖像以適應更高分辨率的視頻幀也可能會產生不必要的產出(artifacts)。這在舊的縮放技術中更是如此。通過恢復原始分辨率，我們將允許現(xiàn)代視頻處理器以更有效的方式提高圖像并避免編碼產生不是原始圖像一部分的產出。
[0029]視頻編碼模塊可使用任何編碼標準(例如H.264/MPEG-4AVC標準)編碼每一節(jié)。
[0030]基于不同的場景，每一節(jié)可在傳輸不同比特率的視覺質量的不同水平被編碼(例如，500Kbps、1Mbps、2Mbps)。在一個實施例中，如果在一定的低比特率滿足光學或視頻質量限制，即500Kbps，那么編碼過程可能不會需要更高的比特率，避免了在更高的比特率編碼場景，即IMbps或2Mbps。參考表一。在單個文件中儲存那些場景的情況下，單個文件將只儲存需要在更高比特率進行編碼的場景。然而，在某些情況下，可能需要在高比特率(即IMbps)文件中儲存所有的場景(在一些舊的自適應比特率系統(tǒng)中的遺留)，在這種特殊的情況下，被儲存的節(jié)或者部分將是低比特率的，即500Kbps而不是高比特率的。因此，儲存空間被節(jié)約了。(但是不如不儲存場景重要)。參考表二。在系統(tǒng)不支持在單個視頻文件中有多種分辨率的其它情況下，儲存節(jié)將以確定的幀大小的文件中發(fā)生。為了減少在每一分辨率的文件的數量，有些系統(tǒng)會限制幀數大小，例如，SDTV，HD720p，HD1080p。參考表三。
[0031]表一
[0032]
【權利要求】
1.一種利用場景形式編碼視頻流的方法，該方法包括: 接收一輸入視頻流；接收場景邊界信息，該場景邊界信息顯示在輸入視頻流中場景轉換發(fā)生的位置和每一場景的目標比特率；基于該場景邊界信息將該輸入視頻流分為多節(jié)，每一節(jié)包括多個暫時相鄰的圖像幀；以及根據該目標位編碼多節(jié)中的每一節(jié)。
2.如權利要求1所述的編碼視頻流的方法，進一步包括:接收每一場景的最大容器尺寸。
3.如權利要求2所述的編碼視頻流的方法，其中編碼步驟包括:根據該目標比特率和該最大容器尺寸，編碼多節(jié)中的每一節(jié)。
4.如權利要求1所述的編碼視頻流的方法，進一步包括:將該輸入視頻流分割成多個視頻文件，每一視頻文件包含一或多個節(jié)。
5.如權利要求1所述的編碼視頻流的方法，進一步包括:將該輸入視頻流分割入一數據庫和單個視頻文件，每一視頻文件無包含或包含一或多個節(jié)。
6.如權利要求1所述的編碼視頻流的方法，進一步包括:經由一HTTP連接傳輸多個文件。
7.如權利要求1所述的編碼視頻流的方法，進一步包括:檢測每一節(jié)中的該圖像幀的最佳光學分辨率。
8.如權利要求1所述的編碼視頻流的方法，其中至少一個該場景形式系基于該節(jié)中的該圖像幀的一光學分辨率而被確定。
9.如權利要求1所述的編碼視頻流的方法，其中該節(jié)中的至少一目標比特率系基于該節(jié)中的該圖像幀的一光學分辨率而被確定。
10.如權利要求1所述的編碼視頻流的方法，其中該節(jié)中的至少一視頻影像的尺寸系基于該節(jié)中的該圖像幀之該最接近的光學分辨率而被確定。
11.如權利要求1所述的編碼視頻流的方法，其中該編碼步驟包括:根據該目標比特率基于一 H.264/MPEG-4AVC標準而對該多節(jié)中的每一節(jié)進行編碼。
12.如權利要求1所述的編碼視頻流的方法，其中一給定場景形式包括一或多個的: 一1決進場景形式；一靜止場景形式；一頭部特寫；一文件；一大多是黑色的圖像；一短場景；一低興趣場景形式；一火場景形式；一水場景形式；一煙場景形式；一演職員名單場景形式；一模糊場景形式；一離焦場景形式；一具有小于圖像容器尺寸場景形式的一低分辨率之一圖像；一雜項；或者一默認值。
13.一種利用場景形式對一視頻流進行編碼的編碼設備，該設備包括: 一輸入模塊，接收一輸入視頻流；該輸入模塊接收場景邊界信息，該場景邊界信息顯示在輸入視頻流中場景轉換發(fā)生的位置和每一場景的目標比特率；一視頻處理模塊，基于該場景邊界信息將該輸入視頻流分為多節(jié)，每一節(jié)包括多個暫時相鄰的圖像幀；以及一視頻編碼模塊，根據該目標比特率編碼多節(jié)中的每一節(jié)。
14.如權利要求13所述的編碼設備，其中該輸入模塊進一步接收每一場景的光學圖像尺寸。
15.如權利要求14所述的編碼設備，其中該視頻編碼模塊進一步根據該光學圖像尺寸編碼多節(jié)中的每一節(jié)。
16.如權利要求13所述的編碼設備，其中該視頻處理模塊進一步分割該輸入視頻流為多個文件，且每一文件包含一或多個節(jié)。
17.如權利要求13所述的編碼設備，其中該視頻流被編碼為單個文件并伴隨具有每一部分的位置、起始幀、時間戳和分辨率的一文件。
18.如權利要求13所述的編碼設備，進一步包括:一視頻傳輸模塊，經由一HTTP連接傳輸多個文件。
19.如權利要求13所述的編碼設備，其中該視頻處理模塊進一步檢測該節(jié)中的該圖像中貞的一光學分辨率。
20.如權利要求13所述的編碼設備，其中至少一個場景形式系基于該節(jié)中的該圖像幀的一光學分辨率而被確定。
21.如權利要求13所述的編碼設備，其中該節(jié)中的至少一個目標比特率系基于該節(jié)中的該圖像幀的一光學分辨率而被確定。
22.如權利要求13所述的編碼設備，其中該節(jié)中的至少一個視頻質量限制系基于該節(jié)中的該圖像幀的一光學分辨率而被確定。
23.如權利要求13所述的編碼設備，其中該視頻編碼模塊系根據基于H.264/MPEG-4AVC標準之該目標比特率而對多節(jié)中的每一節(jié)進行編碼。
24.如權利要求13所述的編碼設備，其中由該視頻處理模塊分配的一給定場景形式包括一或多個的: 一,決進場景形式；一靜止場景形式；一頭部特寫；一文件；一大多是黑色的圖像；一短場景；ー低興趣場景形式；一火場景形式；一水場景形式；一煙場景形式；一演職員名單場景形式；一模糊場景形式；ー離焦場景形式；一具有小于圖像容器尺寸場景形式的一低分辨率之ー圖像；ー雜項；或者一默認值。
【文檔編號】H04N7/24GK103493481SQ201280015700
【公開日】2014年1月1日申請日期:2012年1月26日優(yōu)先權日:2011年1月28日
【發(fā)明者】羅德佛·瓦格斯·古耶瑞歐申請人:艾艾歐有限公司

完整全部詳細技術資料下載