一種渲染合成方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種渲染合成方法及系統(tǒng),其中,本發(fā)明提供的方法包括以下步驟:加載視音頻文件,在選擇加載并打開字幕文件時,調用CPU對視音頻文件的幀畫面進行幀數據解碼,得到視音頻畫面數據。同時,調用GPU渲染引擎對字幕文件包含的信息進行渲染。然后,由GPU渲染引擎對視音頻畫面數據以及渲染得到的字幕數據進行合成疊加渲染,將字幕疊加到視音頻畫面上。此外,本發(fā)明根據提供的方法還相應的提出了一種渲染合成系統(tǒng)。采用本發(fā)明提供的方法及系統(tǒng),字幕畫面可隨著視頻播放器窗口的最大化最小化等變化而自適應調整,并且保證字幕畫面的清晰度,提升用戶瀏覽體驗。
【專利說明】一種渲染合成方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及廣播電視領域,更具體地說,涉及視音頻文件和字幕文件的渲染合成方法與系統(tǒng)。
【背景技術】
[0002]隨著信息技術的飛速發(fā)展,媒體傳播渠道和受眾也越來越廣泛和多樣化,作為媒體傳播的中堅力量,電視臺在節(jié)目生產過程中也要考慮所要傳播的渠道和受眾。比如,同樣的新聞節(jié)目在電視臺不同頻道播出時或者面向不同受眾播出時,需要顯示不同的字幕或者相同的字幕內容不同的語種等,比如字幕相同但為不同的地方語言。在節(jié)目播出前的生產制作和存儲管理過程中,如節(jié)目素材的存儲、查找與預覽、節(jié)目重新制作、送播等生產環(huán)節(jié)中,往往就需要對不同字幕不同語種進行相應處理。因此,電視臺在節(jié)目的制作時同一個視頻畫面往往就會有多個不同字幕,或者在電視節(jié)目重播時需要更換不同字幕。如此一來,如何高效管理這些視頻文件和字幕文件,就是電視臺在多媒體資產管理上需要面臨同時也是需要解決的一個問題。
[0003]目前在廣電行業(yè)的電視臺內,都通過媒體資產管理系統(tǒng)對媒體音視頻節(jié)目等文件進行管理。但是在管理多版本字幕和視頻的時候,往往都是單一化管理,如視音頻文件與字幕文件綁定,在節(jié)目制作的時候直接將字幕疊加到視頻畫面上進行打包轉碼,這樣合成后的文件保存到媒體資產管理系統(tǒng)的時候就只有一個節(jié)目文件,字幕文件并不是獨立的,這不利于后續(xù)再編輯。同時,由于媒資系統(tǒng)后續(xù)需要為使用者提供視音頻的檢索瀏覽等功能,考慮到降低數據傳輸量和減少帶寬,在將高標清的視音頻高碼率文件保存到媒資系統(tǒng)的同時需要進行低碼率的轉換,而由此轉換后的低碼率也是視頻畫面和字幕直接合成在一起的文件。
[0004]圖3為現(xiàn)有技術的視頻音頻字幕管理過程示意圖。如圖3所示,當在媒資系統(tǒng)中進行查找瀏覽時,只能瀏覽已經疊加字幕的低碼率視頻文件。并且,由于字幕文件已經合成到視頻上,只能通過CPU計算進行視頻的解碼和畫面渲染,無法充分利用GPU等計算資源。當該節(jié)目有多個字幕文件時,也無法進行字幕文件的選擇,只能從節(jié)目制作系統(tǒng)更換字幕文件重新制作合成,然后經過再次低碼率的轉換,保存到媒資系統(tǒng)。
[0005]但媒資系統(tǒng)的功能之一就是為了業(yè)務部門對保存的視音頻資料進行查找再利用。當媒資系統(tǒng)希望再次使用該節(jié)目進行重新制作或者重新播出時,則視頻畫面本身已經被疊加上了字幕,制作人員無法獲得純凈的原始無字幕的視頻畫面。這也就是我們經常在電視上看到某些節(jié)目下方會出現(xiàn)馬賽克等模糊區(qū)域,然后在這個模糊區(qū)域上又被重新覆蓋了其他字幕的原因。
[0006]當然,電視臺業(yè)務管理部門也采用了視頻素材與字幕分離的方式,即節(jié)目制作合成時只合成視頻和音頻文件,并且轉換低碼率的時候也不轉換字幕文件,這樣,保存到媒資系統(tǒng)的時候就分別有高標清視音頻文件、字幕文件和低碼率文件。但是當在媒資系統(tǒng)進行節(jié)目的查找和瀏覽的時候,無法對字幕文件進行同時瀏覽,字幕文件只能作為獨立的附件存儲,無法給使用者提供有效的參考信息,并且瀏覽時的視頻畫面同樣是由CPU進行解碼和渲染的,同樣無法充分利用GPU計算資源。
[0007]上述內容,為現(xiàn)有技術方案所遇到的問題。如果對每個字幕文件都進行一次節(jié)目的制作合成和低碼率轉換,則無疑是對生產效率和管理效率的降低,同時提升了生產過程中的用工成本。另外,也無法保留原始的視頻畫面,給以后的視音頻素材再次生產利用留下了遺憾。如果采用素材畫面與字幕分離的方式保存到媒資系統(tǒng),又無法對使用者提供實時、直觀的字幕參考信息,使用者只能通過第三方軟件打開字幕文件的方式查看字幕內容,但這樣又不能保證字幕信息和視音頻畫面同步的需求,也給用戶帶來了使用不便和困擾。
【發(fā)明內容】
[0008]本發(fā)明針對上述問題,提出了一種渲染合成方法及系統(tǒng),本發(fā)明充分利用CPU與GPU計算資源,為用戶在媒資系統(tǒng)中檢索瀏覽低碼率文件時,提供一種支持根據用戶瀏覽時播放器窗口的變化而實時渲染畫面內容的方法及系統(tǒng),同時保證字幕、畫面的嚴格同步以及渲染畫面的高保真。
[0009]在一個方面,本發(fā)明提供了一種渲染合成方法,包括以下步驟:加載視音頻文件,在選擇加載并打開字幕文件時,調用CPU對視音頻文件的幀畫面進行幀數據解碼,得到視音頻畫面數據。同時,調用GPU渲染引擎對字幕文件包含的信息進行渲染。然后,由GPU渲染引擎對視音頻畫面數據以及渲染得到的字幕數據進行合成疊加渲染,將字幕疊加到視音頻畫面上。
[0010]優(yōu)選地,本發(fā)明提供的渲染合成方法,在在選擇不加載字幕文件時,則直接調用CPU對其解碼后的視音頻畫面進行CPU渲染,從而完成視音頻畫面的處理。
[0011]在另一個方面,本發(fā)明還提供了一種渲染合成系統(tǒng),包括CPU視音頻解碼器和GPU渲染引擎,其中CPU視音頻解碼器用于對視音頻文件的幀畫面進行幀數據解碼;并且GPU渲染引擎用于對字幕文件包含的信息進行渲染,并對解碼得到的視音頻畫面數據以及渲染得到的字幕數據進行合成疊加渲染。
[0012]優(yōu)選地,本發(fā)明提供的渲染合成系統(tǒng)的CPU視音頻解碼器還用于,當不加載字幕文件時,對視音頻進行解碼以及CPU渲染,從而完成視音頻畫面的處理。
[0013]本發(fā)明提供的渲染合成方法及系統(tǒng)充分利用CPU與GPU計算資源,聯(lián)合計算并渲染的技術,對字幕文件進行單獨渲染,使得視頻文件保留了最原始的畫面,為后續(xù)業(yè)務系統(tǒng)對該節(jié)目再利用時提供了更完整的原始視頻信息,并簡化了節(jié)目制作過程中的操作。并且本發(fā)明提供的方法及系統(tǒng)可直接在原始視頻上疊加新字幕合成瀏覽。此外,由于本發(fā)明采用了渲染引擎,并充分利用了 GPU計算資源,使的字幕在渲染時可根據視頻畫面的大小、背景、對比度、亮度來實時調整字幕的大小、位置、顏色、字體、透明度等效果。使字幕畫面隨著視頻播放器窗口的最大化最小化等變化而自適應調整,并且保證字幕畫面的清晰度,提升了用戶瀏覽體驗。
【專利附圖】
【附圖說明】
[0014]下面將參照附圖描述本發(fā)明的具體實施例,其中:
[0015]圖1為本發(fā)明的音頻畫面與字幕分離管理過程示意圖。[0016]圖2為本發(fā)明提供的方法的步驟流程圖。
[0017]圖3為現(xiàn)有技術的視頻音頻字幕管理過程示意圖。
【具體實施方式】
[0018]為了使本發(fā)明的技術方案及優(yōu)點更加清楚明白,以下結合附圖對本發(fā)明的示例性實施例進行進一步詳細的說明,顯然,所描述的實施例僅是本發(fā)明的一部分實施例,而不是所有實施例的窮舉。
[0019]本發(fā)明提供的方法及系統(tǒng)主要用于媒體資產管理系統(tǒng)中,用戶瀏覽時使用。由于本發(fā)明采用了 CPU與GPU聯(lián)合計算并渲染的技術,對字幕文件進行單獨渲染,使得視頻文件保留了最原始的畫面,為后續(xù)業(yè)務系統(tǒng)對該節(jié)目再利用時提供了更完整的原始視頻信息,并簡化了節(jié)目制作過程中的操作。為了達到上述目的,本發(fā)明在前期節(jié)目制作合成過程中,采用素材的視音頻畫面與字幕分離管理,從而可直接在原始視頻上疊加新字幕并合成后瀏覽。下面結合圖1對音頻畫面與字幕分離管理的過程進行詳述。
[0020]圖1為本發(fā)明的音頻畫面與字幕分離管理過程示意圖,如圖1所示,步驟SlOlJf對應的視頻文件和音頻文件合成為視音頻文件。當然,在此情況下,此視音頻文件為帶有音頻的視頻文件。但,實際上,在本文中,視音頻文件也可以為不帶有音頻的視頻文件,比如在無音頻的情況下。然后,再經過步驟S102,將視音頻文件轉碼生成低碼率文件。
[0021]其中,在步驟S102中選擇生成低碼率文件,是由于媒資系統(tǒng)在瀏覽時采用的是640*360分辨率的低碼率,可避免字幕直接合成視頻在1920*1080等高清顯示器上全屏顯示時,字幕等信息將會顯得模糊失真,嚴重時可能會出現(xiàn)馬賽克等情況,影響用戶的觀看體驗。
[0022]最后,執(zhí)行步驟S103,即將視音頻文件生成的低碼率文件保存到媒體資產管理系統(tǒng)中,同時,字幕文件無需處理,直接保存到媒體資產系統(tǒng)中。其中,在字幕文件中需保留相應的時碼信息,而一般字幕的時碼信息多采用“入點、出點、文字”的組織方式。本發(fā)明支持多種不同格式的字幕文件,如SRT、XML、TXT、DLG字幕文件格式等。例如本發(fā)明中支持的xml字幕文件,即采用如下組織形式。
[0023]
【權利要求】
1.一種渲染合成方法,其特征在于,包括以下步驟: 加載視音頻文件; 在選擇加載并打開字幕文件時, 調用CPU對視音頻文件的幀畫面進行幀數據解碼,得到視音頻畫面數據; 同時,調用GPU渲染引擎對字幕文件包含的信息進行渲染; 然后,由所述GPU渲染引擎對所述視音頻畫面數據以及渲染得到的字幕數據進行合成疊加渲染,將字幕疊加到視音頻畫面上。
2.如權利要求1所述的渲染合成方法,其特征在于,所述視音頻文件為帶有音頻的視頻文件,或者不帶有音頻的視頻文件。
3.如權利要求1或2所述的渲染合成方法,其特征在于,所述字幕文件包含的信息包括幀視音頻畫面對應的字幕文字、字幕的字體、顏色、大小、位置、透明度以及時碼。
4.如權利要求1或2所述的渲染合成方法,其特征在于,所述CPU對視音頻文件的幀畫面進行幀數據解碼后,實時獲取到時碼信息; 渲染引擎在字幕文件中查找對應的時碼信息,根據時碼位置查詢是否在該時碼內含有字幕,如含有字幕,進行GPU字幕渲染。
5.如權利要求1或2所述的渲染合成方法,其特征在于,所述方法還包括: 在選擇不加載字幕文件時,則直接調用CPU對其解碼后的視音頻畫面進行CPU渲染,從而完成視音頻畫面的處理。
6.一種渲染合成系統(tǒng),其特征在于,包括CPU視音頻解碼器和GPU渲染引擎,其中 CPU視音頻解碼器用于對視音頻文件的幀畫面進行幀數據解碼;并且 GPU渲染引擎用于對字幕文件包含的信息進行渲染,并對解碼得到的視音頻畫面數據以及渲染得到的字幕數據進行合成疊加渲染。
7.如權利要求6所述的渲染合成系統(tǒng),其特征在于,所述視音頻文件為帶有音頻的視頻文件,或者不帶有音頻的視頻文件。
8.如權利要求6或7所述的渲染合成系統(tǒng),其特征在于,所述字幕文件包含的信息包括幀視音頻畫面對應的字幕文字、字幕的字體、顏色、大小、位置、透明度以及時碼。
9.如權利要求6或7所述的渲染合成系統(tǒng),其特征在于,所述CPU視音頻解碼器對視音頻文件的幀畫面進行幀數據解碼后,實時獲取到時碼信息; GTO渲染引擎在字幕文件中查找對應的時碼信息,根據時碼位置查詢是否在該時碼內含有字幕,如含有字幕,進行GPU字幕渲染。
10.如權利要求6或7所述的渲染合成系統(tǒng),其特征在于,所述CPU視音頻解碼器還用于,當不加載字幕文件時,對 其解碼的視音頻畫面進行CPU渲染,從而完成視音頻畫面的處理。
【文檔編號】H04N5/278GK103905744SQ201410145373
【公開日】2014年7月2日 申請日期:2014年4月10日 優(yōu)先權日:2014年4月10日
【發(fā)明者】丁文華, 顧軍, 楊磊, 雒勇, 王杰中, 郭志芳, 薛康 申請人:中央電視臺, 北京中科大洋科技發(fā)展股份有限公司