針對(duì)視頻自適應(yīng)和重定目標(biāo)進(jìn)行視頻字幕重新覆蓋的系統(tǒng)和方法
【專利摘要】根據(jù)一項(xiàng)實(shí)施例,一種處理具有字幕文本的電子圖像的方法包括:接收電子源圖像;檢測(cè)所述電子源圖像中的所述字幕文本;對(duì)所述電子源圖像進(jìn)行重定格式;對(duì)所述字幕文本進(jìn)行重定格式;以及將重定格式的字幕文本覆蓋在重定格式的電子圖像上,以便形成合成圖像。
【專利說明】針對(duì)視頻自適應(yīng)和重定目標(biāo)進(jìn)行視頻字幕重新覆蓋的系統(tǒng)和方法
[0001]本發(fā)明要求2011年8月4日遞交的發(fā)明名稱為“針對(duì)視頻自適應(yīng)和重定目標(biāo)進(jìn)行視頻字幕重新覆蓋的系統(tǒng)和方法(System and Method for Video Caption Re-Overlayingfor Video Adaptation and Retargeting)” 的第 13/198,024 號(hào)美國(guó)臨時(shí)申請(qǐng)案的在先申請(qǐng)優(yōu)先權(quán),該臨時(shí)申請(qǐng)案要求2011年5月2日遞交的發(fā)明名稱為“針對(duì)視頻自適應(yīng)和重定目標(biāo)進(jìn)行視頻字幕重新覆蓋的系統(tǒng)和方法”的第61/481,421號(hào)美國(guó)臨時(shí)申請(qǐng)案的在先申請(qǐng)優(yōu)先權(quán),該在先申請(qǐng)的內(nèi)容以引入的方式并入本文本中。
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及圖像處理,而且在具體實(shí)施例中,涉及一種針對(duì)視頻自適應(yīng)和重定目標(biāo)進(jìn)行視頻字幕重新覆蓋的系統(tǒng)和方法。
【背景技術(shù)】
[0003]移動(dòng)內(nèi)容是在移動(dòng)裝置上觀看或使用的任何類型的媒體,例如,鈴聲、圖形、折扣優(yōu)惠、游戲、電影,以及GPS導(dǎo)航。自二十世紀(jì)九十年代中期以來,移動(dòng)電話的使用就在增力口,因此,這些裝置在日常生活中的重要性也相應(yīng)增加。移動(dòng)電話的機(jī)主現(xiàn)在可以使用他們的裝置來制定日程表、發(fā)送和接收文本消息(SMS)、聽音樂、看視頻、拍短片、兌換購物優(yōu)惠券、查看辦公文檔、在地圖上得到駕駛指示等等。移動(dòng)內(nèi)容的使用也已相應(yīng)地增加。
[0004]由于出現(xiàn)了更快的移動(dòng)網(wǎng)絡(luò),因此,在小屏幕裝置上顯示視頻變得越來越實(shí)際。移動(dòng)視頻的形式有多種,包括3GPP、MPEG-4、實(shí)時(shí)流協(xié)議(RTSP),以及Flash Lite。移動(dòng)視頻還可以采用視頻流節(jié)目的形式通過移動(dòng)網(wǎng)絡(luò)進(jìn)行傳輸和接收。直播視頻也可以經(jīng)由手機(jī)進(jìn)行流動(dòng)和分享。
[0005]說明字幕是電影和電視節(jié)目中的對(duì)話的文字版本,通常顯示在屏幕的底部。這些說明字幕可以是外語對(duì)話的書面翻譯,也可以是同種語言對(duì)話的書面呈現(xiàn),其中添加或未添加信息來幫助耳聾或耳背的觀眾來理解對(duì)話,或者協(xié)助那些無法理解口語對(duì)話或有口音識(shí)別問題的人。隱藏字幕就是在電視機(jī)、電視屏幕或其他直觀顯示器上顯示文本的過程,以便為想要了解額外信息或解釋信息的人提供這些信息。隱藏字幕通常在節(jié)目的聲音部分出現(xiàn)時(shí)呈現(xiàn)該部分的抄本(一字不差或者經(jīng)過編輯),有時(shí)包括非言語成分。通常,說明字幕是出現(xiàn)在視頻畫面中的圖形,而隱藏字幕則作為數(shù)據(jù)與視頻信號(hào)一起傳輸,并且由接收裝置嵌入在視頻圖像中。
【發(fā)明內(nèi)容】
[0006]根據(jù)一項(xiàng)實(shí)施例,一種處理具有字幕文本的電子圖像的方法包括:接收電子源圖像;檢測(cè)所述電子源圖像中的所述字幕文本;對(duì)所述電子源圖像進(jìn)行重定格式;對(duì)所述字幕文本進(jìn)行重定格式;以及將重定格式的字幕文本覆蓋在重定格式的電子圖像上,以便形成合成圖像。[0007]根據(jù)另一實(shí)施例,一種用于對(duì)視頻字幕文本進(jìn)行重定格式的系統(tǒng)包括視頻重定格式塊,所述視頻重定格式塊具有耦接到輸入視頻源的輸入端,以及用于產(chǎn)生重定格式的視頻源的輸出端。所述系統(tǒng)還包括:字幕檢測(cè)塊,其用于提取視頻源中的字幕文本;以及字幕重新布局兼重新覆蓋塊,其耦接到所述視頻重定格式塊的所述輸出端和所述字幕檢測(cè)塊的輸出端。所述字幕重新布局兼重新覆蓋塊用于對(duì)所提取的字幕文本進(jìn)行重定格式,以及將重定格式的字幕文本覆蓋在重定格式的視頻源中。
[0008]根據(jù)又一實(shí)施例,一種非瞬時(shí)計(jì)算機(jī)可讀媒體上存儲(chǔ)有可執(zhí)行程序,其中所述程序指示微處理器執(zhí)行以下步驟:接收視頻源圖像;檢測(cè)所述視頻源圖像中的字幕文本;對(duì)所述視頻源圖像進(jìn)行重定格式;對(duì)所述字幕文本進(jìn)行重定格式;以及將重定格式的字幕文本覆蓋在重定格式的視頻源圖像上,以便形成合成圖像。
[0009]前述內(nèi)容已相當(dāng)寬泛地概述了本發(fā)明的實(shí)施例的特征,以便更好地理解下文對(duì)本發(fā)明的詳細(xì)描述。下文將描述本發(fā)明的實(shí)施例的額外特征和優(yōu)點(diǎn),這些特征和優(yōu)點(diǎn)形成本發(fā)明的權(quán)利要求書的標(biāo)的物。所屬領(lǐng)域的技術(shù)人員應(yīng)了解,所揭示的概念和具體實(shí)施例可以容易地用作修改或設(shè)計(jì)其他結(jié)構(gòu)或過程的基礎(chǔ),以便實(shí)現(xiàn)與本發(fā)明相同的目的。所屬領(lǐng)域的技術(shù)人員還應(yīng)意識(shí)到,此類等效構(gòu)造并不脫離所附權(quán)利要求書中所闡述的本發(fā)明的精神和范圍。
【專利附圖】
【附圖說明】
[0010]為了更完整地理解本發(fā)明及其優(yōu)點(diǎn),現(xiàn)在參考以下結(jié)合附圖進(jìn)行的描述,其中:
[0011]圖1提供視頻字幕重新覆蓋系統(tǒng)的框圖;
[0012]圖2a到圖2b示出字幕重新布局兼覆蓋實(shí)施例的實(shí)例;
[0013]圖3示出本發(fā)明的一項(xiàng)實(shí)施例的應(yīng)用場(chǎng)景;
[0014]圖4示出方法實(shí)施例的流程圖;
[0015]圖5示出可以用于實(shí)施本發(fā)明的方法的處理系統(tǒng);以及
[0016]圖6示出字幕已經(jīng)調(diào)整大小的視頻幀與字幕尚未調(diào)整大小的視頻幀之間的比較情況。
【具體實(shí)施方式】
[0017]下文將詳細(xì)論述當(dāng)前優(yōu)選實(shí)施例的制作和使用。然而,應(yīng)了解,本發(fā)明提供的許多適用發(fā)明性概念可以在多種具體環(huán)境中實(shí)施。所論述的具體實(shí)施例僅僅說明用以制作和使用本發(fā)明的具體方式,而并不限制本發(fā)明的范圍。
[0018]本發(fā)明的實(shí)施例揭示一種用于處理視頻圖像的系統(tǒng)和方法。一種示例性方法包括:檢測(cè)字幕文本,例如,使用基于計(jì)算機(jī)視覺的檢測(cè)算法進(jìn)行檢測(cè);從視頻幀中獲得檢測(cè)到的字幕文本;單獨(dú)對(duì)獲得的字幕文本以及所述視頻幀的剩余部分進(jìn)行重調(diào)大小;以及將重調(diào)大小的字幕文本覆蓋回到重調(diào)大小的視頻幀上。所述方法還包括后處理程序,以便將重新覆蓋的字幕文本與背景更加無縫地融合。
[0019]在本發(fā)明的實(shí)施例中,覆蓋字幕文本是在視頻后處理流水線過程中添加在視頻上的文本,以便顯示聲音抄本(例如,對(duì)于外國(guó)電影或隱藏字幕而言)或者傳達(dá)其他信息。在視頻自適應(yīng)和重定目標(biāo)至諸如移動(dòng)電話等小屏幕裝置的過程中,高分辨率視頻(例如,HD分辨率)經(jīng)過尺寸縮減而成為低分辨率視頻,從而適合于小型顯示器。覆蓋字幕也會(huì)與視頻內(nèi)容的其余部分一起縮減。因此,覆蓋字幕文本可能會(huì)變得過小而不可讀。
[0020]解決此問題的一個(gè)解決方案是通過圖像增強(qiáng)或改變編碼參數(shù)而在視覺上增強(qiáng)字幕文本,因而在編碼過程中分配更多位來覆蓋文本。但對(duì)于小屏幕裝置而言,存在的主要問題可能是文本大小較小,而非其他視覺特性。因此,本發(fā)明的一些實(shí)施例提供一種在顯示于較小屏幕(例如,移動(dòng)電話)上的視頻中顯示字幕(或其他信息)的技術(shù)。在本發(fā)明的實(shí)施例中,覆蓋字幕文本是在視頻后處理流水線過程中添加在視頻上的文本,以便顯示聲音抄本或者傳達(dá)其他信息。有利的是,這一過程可以用于視頻自適應(yīng)和重定目標(biāo)至小屏幕裝置。
[0021]本發(fā)明的實(shí)施例進(jìn)一步包括一種用于保證覆蓋字幕文本的視覺質(zhì)量的系統(tǒng)和方法,方式是將從輸入高分辨率視頻中獲得的高分辨率字幕文本重新覆蓋到尺寸縮減的視頻上。首先,使用基于計(jì)算機(jī)視覺的檢測(cè)算法來檢測(cè)字幕文本。隨后,從視頻幀中獲得檢測(cè)到的字幕文本,以進(jìn)行單獨(dú)處理,例如,進(jìn)行對(duì)比度調(diào)整。在視頻幀重調(diào)大小而變得較小之后,將經(jīng)過適當(dāng)重調(diào)大小和重新布局之后的字幕文本覆蓋回到重調(diào)尺寸的視頻幀上。在這個(gè)過程中,字幕文本的尺寸縮減比通常小于視頻幀的尺寸縮減比,因此,與常規(guī)統(tǒng)一減小的情況相比,這會(huì)在尺寸縮減的視頻上形成按比例更大且更加可見的字幕文本。進(jìn)一步實(shí)施后處理程序,以便將重新覆蓋的字幕文本與背景更加無縫地融合。
[0022]本發(fā)明的第一實(shí)施例在圖1中示出,該圖提供視頻字幕重新覆蓋系統(tǒng)100的框圖。源視頻102被提供作為輸入,以輸入到視頻尺寸縮減塊106和字幕檢測(cè)塊104。字幕圖像處理塊108對(duì)檢測(cè)到的字幕執(zhí)行圖像處理,而且字幕重新布局兼重新覆蓋塊110將尺寸縮減的視頻和檢測(cè)到的字幕組合起來。融合后處理塊112對(duì)組合圖像執(zhí)行進(jìn)一步處理,以便產(chǎn)生合成視頻114。
[0023]在一項(xiàng)實(shí)施例中,源視頻102是常規(guī)的高清晰度(HD)或標(biāo)準(zhǔn)清晰度(SD)視頻,但是包括,但不限于,DCIF、16CIF、4SIF、CIF以及SIF的其他圖像分辨率類型可以同樣受益于本文本所論述的技術(shù)。在此實(shí)例中,合成視頻是用于移動(dòng)裝置的視頻,分辨率為480x320等。在移動(dòng)視頻適配場(chǎng)景下,視頻經(jīng)過尺寸縮減,以便適應(yīng)小型顯示器。在替代實(shí)施例中,其他圖像類型和分辨率都可以用于源視頻和合成視頻。
[0024]在圖1中,字幕檢測(cè)塊104使用自動(dòng)字幕檢測(cè)算法來檢測(cè)表示成邊界框或其他形式的字幕區(qū)域。在檢測(cè)到字幕區(qū)域之后,獲得這些字幕區(qū)域并將它們饋送到字幕圖像處理塊108。字幕圖像處理塊108會(huì)執(zhí)行字幕圖像增強(qiáng)處理過程,例如,調(diào)整對(duì)比度、使檢測(cè)到的字幕的邊緣銳化,或者其他圖像處理操作,包括但不限于,去噪和直方圖均衡化。
[0025]在一項(xiàng)實(shí)施例中,字幕檢測(cè)塊104用于檢測(cè)字幕在視頻幀中的位置。在一些實(shí)施例中,使用以下公開案中描述的字幕檢測(cè)技術(shù):張(Zhang)等人的“使用時(shí)空3D方法在視頻中進(jìn)行的時(shí)間一致字幕檢測(cè)(Temporally Consistent Caption Detection in VideosUsing a Spatiotemporal 3D Method)”, IEEE 圖像處理國(guó)際會(huì)議(ICIP) 2009,第 1881 至Ij1884頁,以及張(Zhang)等人的“用于檢測(cè)和識(shí)別視頻中的疊加文本的一般技術(shù)和特定領(lǐng)域技術(shù)(General and Domain-Specific Techniques for Detecting and RecognizingSuperimposed Text in Video)”IEEE 圖像處理國(guó)際會(huì)議(ICIP) 2002,第 1-593-6 頁,這些公開案的全文以引入的方式并入本文本中。
[0026]一項(xiàng)字幕檢測(cè)工作流程的實(shí)施例包括三個(gè)步驟:特征提取、候選像素分組,以及后濾波處理。在特征提取步驟,提取視頻幀中每個(gè)像素周圍的特征,例如,結(jié)構(gòu)和運(yùn)動(dòng)特征。該像素被確定為字幕候選像素,或者并不基于這些特征。決定過程可以通過自動(dòng)分類來完成。隨后,候選像素分組步驟將彼此接近的候選像素分組在一起,以形成模糊點(diǎn)(blob)。每個(gè)模糊點(diǎn)都可以是潛在的文本區(qū)域。隨后執(zhí)行一些幾何規(guī)則來移除不合情理的模糊點(diǎn)。此類規(guī)則的一個(gè)實(shí)例是防止區(qū)域的縱橫比變得過大。最后,應(yīng)用后濾波過程,以便通過時(shí)域?yàn)V波來移除可能的錯(cuò)誤正區(qū)域。在一項(xiàng)實(shí)施例中,字幕檢測(cè)算法的輸出是字幕文本的邊界框。字幕圖像是使用邊界框輸從視頻幀中獲得的。在替代實(shí)施例中,將輸入視頻幀分成塊,并且針對(duì)每個(gè)塊直接執(zhí)行分類算法,以確定塊中是否含有字幕文本。在此類實(shí)施方案中,可以避開特征提取階段。
[0027]在一些實(shí)施例中,字幕圖像處理塊108對(duì)所提取的字幕圖像進(jìn)行預(yù)處理??梢詰?yīng)用多種預(yù)處理過程,包括但不限于,增加對(duì)比度,以及使字幕的邊緣銳化。在替代實(shí)施例中,可以應(yīng)用其他圖像處理操作。在進(jìn)一步實(shí)施例中,可以省略字幕圖像處理塊108。
[0028]視頻尺寸縮減塊執(zhí)行視頻尺寸縮減,以便使用所屬領(lǐng)域已知的技術(shù)將視頻重調(diào)大小成較小。在一些實(shí)施例中,視頻尺寸縮減塊進(jìn)一步將字幕圖像重調(diào)大小成更小。通過縮減視頻的尺寸,大尺寸視頻可以轉(zhuǎn)換成較小的視頻,以適應(yīng)小屏幕,例如,智能手機(jī)等便攜式電子裝置所用的那些屏幕。在一項(xiàng)實(shí)施例中,例如,尺寸縮減功能可以通過使用特定的開源軟件而由標(biāo)準(zhǔn)尺寸縮減算法來實(shí)現(xiàn),例如,OpenCV或其他算法。在一些實(shí)施例中,減小操作還同時(shí)應(yīng)用于視頻幀和所提取的字幕。為了讓字幕按比例更大并且更易于為人眼所見,就要使字幕圖像的減小比小于視頻幀的減小比,具體取決于減小定量和相應(yīng)的視頻格式。
[0029]在一些實(shí)施例中,視頻尺寸縮減塊106還可以影響視頻格式的改變,例如,縱橫t匕。在進(jìn)一步實(shí)施例中,可以在并未縮減視頻尺寸的情況下調(diào)整視頻的縱橫比。在其他實(shí)施例中,系統(tǒng)100可以具有取代或補(bǔ)充尺寸縮減塊106的尺寸增加塊(未示出),所述尺寸增加塊用于增加視頻的尺寸。
[0030]字幕重新布局兼重新覆蓋塊110得到增強(qiáng)字幕圖像,而且如果在一些實(shí)施例中,檢測(cè)到的字幕含有一個(gè)以上圖像片段,那么所述字幕重新布局兼重新覆蓋塊對(duì)字幕圖像進(jìn)行重新布局。重新布局之后,將產(chǎn)生的字幕圖像重新覆蓋在尺寸縮減的視頻上。字幕重新布局兼重新覆蓋塊110將經(jīng)過提取、處理和單獨(dú)重調(diào)大小的字幕框覆蓋在減小的輸入視頻上。由于字幕框的減小比可能比視頻幀要小,因此,一個(gè)潛在問題就是覆蓋的字幕框可能會(huì)延伸到視頻幀的邊界之外。因此,在一些實(shí)施例中,字幕框要首先重定格式,然后再進(jìn)行覆
至JHL ο
[0031]可以使用多種方法來對(duì)字幕框重定格式。例如,一種方法是將長(zhǎng)文本行截成兩行或多行。為了避免字符分段,可以使用字符分割算法,例如,“用于檢測(cè)和識(shí)別視頻中的疊加文本的一般技術(shù)和特定領(lǐng)域技術(shù)”中所述的那些使用字幕文本圖像的投影輪廓的算法,以便首先發(fā)現(xiàn)字符分割點(diǎn),并且只在分割點(diǎn)處截?cái)辔谋拘小D2a到圖2b示出此類算法的輸出的一個(gè)實(shí)例。圖2a示出比視頻幀122長(zhǎng)的文本行120,而圖2b示出視頻幀122重定格式以將文本行124—分為二之后,該視頻幀中的文本行。在其他實(shí)施例中,可以執(zhí)行其他重新布局操作。重新布局之后,字幕框覆蓋在視頻幀上,例如,方式為用單獨(dú)重調(diào)大小的字幕圖像中的內(nèi)容替換視頻幀中的替換矩形內(nèi)的圖像內(nèi)容。在一項(xiàng)實(shí)施例中,替換矩形的大小與單獨(dú)重調(diào)大小的字幕圖像相同,而且該矩形的左上角是在重新布局的過程中確定的。[0032]在一些實(shí)施例中,可選的融合后處理塊112采用無縫融合算法將處理過的字幕圖像融合在視頻幀上,因而處理過的幀看起來更自然而且似乎沒有人工痕跡。在一項(xiàng)實(shí)施例中,使用泊松圖像編輯(PIE ),如佩雷斯(Perez )等人在“泊松圖像編輯(Poi sson ImageEditing)”中所述,ACMSIGGRAPH公報(bào)2003,第22卷,第313到318頁,該文檔的全文以引入的方式并入本文本中。PIE這種方法使用基于偏微分方程(PDE)的方法來將覆蓋的小圖像組合在大圖像上,同時(shí)使對(duì)象與下方圖像之間平滑過渡。在替代實(shí)施例中,也可以將其他現(xiàn)有的圖像混合算法用于融合過程,例如,在替換矩形的周圍應(yīng)用平滑濾波器。圖2示出在典型CDN (內(nèi)容分布網(wǎng)絡(luò))應(yīng)用場(chǎng)景中使用發(fā)明方法的典型系統(tǒng)架構(gòu)。
[0033]圖3示出流視頻系統(tǒng)200的實(shí)施例,所述系統(tǒng)將源視頻220作為輸入并且發(fā)送適合于在移動(dòng)裝置210上觀看的合成視頻222。系統(tǒng)200可以在內(nèi)容分布網(wǎng)絡(luò)(⑶N)應(yīng)用場(chǎng)景中使用這些實(shí)施例系統(tǒng)和方法。在一項(xiàng)實(shí)施例中,原始或源服務(wù)器202吸入由內(nèi)容提供商等提供的源視頻220。隨后,自適應(yīng)服務(wù)器204執(zhí)行視頻適配或自適應(yīng)任務(wù),例如,視頻轉(zhuǎn)碼。本發(fā)明的系統(tǒng)的實(shí)施例可以結(jié)合轉(zhuǎn)碼過程一起執(zhí)行。隨后,適配視頻緩存在一個(gè)或多個(gè)邊緣服務(wù)器206處,所述邊緣服務(wù)器更接近客戶。邊緣服務(wù)器206借助互聯(lián)網(wǎng)208或其他網(wǎng)絡(luò)將適配視頻流到觀看裝置210。例如,觀看裝置210可以是移動(dòng)電話、計(jì)算機(jī)、智能手機(jī),或者其他消費(fèi)者或非消費(fèi)者裝置。
[0034]圖4示出方法實(shí)施例的流程圖300。在步驟302中,對(duì)輸入圖像中的字幕進(jìn)行檢測(cè)。在一項(xiàng)實(shí)施例中,所述圖像是視頻圖像,然而可以使用其他圖像類型,例如,靜態(tài)圖像。接著,在步驟304中,縮減輸入圖像的尺寸。在一些實(shí)施例中,步驟302和304可以同時(shí)執(zhí)行。在步驟306中,對(duì)字幕執(zhí)行圖像處理,并且在步驟308中,根據(jù)尺寸縮減的視頻的減小比來對(duì)字幕重定格式。在一些實(shí)施例中,應(yīng)用于字幕的減小比小于應(yīng)用于圖像的其余部分的減小比,這是為了讓觀看尺寸減小的畫面的人能看見并閱讀字幕
[0035]在步驟310中,通過將重定格式的字幕圖像放入尺寸縮減的視頻幀中,將字幕重新覆蓋在圖像上。最后,在步驟312中,將字幕和圖像融合,以形成融合圖像。在一些實(shí)施例中,應(yīng)用后處理,以便通過使縫合邊界平滑而使覆蓋在圖像上的字幕看起來更自然,如上文實(shí)施例所述。
[0036]圖5示出可以用于實(shí)施本發(fā)明的方法的處理系統(tǒng)400。在此情況下,主要處理過程在處理器402中執(zhí)行,所述處理器可以是微處理器、數(shù)字信號(hào)處理器或任何其他合適的處理裝置。在一些實(shí)施例中,可以使用多個(gè)處理器來實(shí)施處理器402。程序代碼(例如,實(shí)施上述算法的代碼)和數(shù)據(jù)可以存儲(chǔ)在存儲(chǔ)器404中。存儲(chǔ)器404可以是諸如DRAM等本地存儲(chǔ)器,或者大容量存儲(chǔ)器,例如,硬盤驅(qū)動(dòng)器、光盤驅(qū)動(dòng)器或其他存儲(chǔ)器(可以是本地或遠(yuǎn)程存儲(chǔ)器)。雖然使用單個(gè)塊在功能上說明了存儲(chǔ)器,但應(yīng)理解,可以使用一個(gè)或多個(gè)硬件塊來實(shí)施該功能。
[0037]在一項(xiàng)實(shí)施例中,處理器402可以用于實(shí)施圖1所示的各種(或所有)單元。例如,所述處理器可以在不同時(shí)間用作特定的功能單元,以實(shí)施執(zhí)行本發(fā)明的技術(shù)時(shí)所涉及的子任務(wù)?;蛘?,可以使用不同的硬件塊(例如,與處理器相同或不同)來執(zhí)行不同功能。在其他實(shí)施例中,某些子任務(wù)由處理器402執(zhí)行,而其他子任務(wù)則使用單獨(dú)的電路來執(zhí)行。
[0038]圖5還示出了 I/O端口 406,所述端口可以用于將視頻和/或圖像數(shù)據(jù)提供給處理器,并且從所述處理器中得到所述視頻和/或圖像數(shù)據(jù)。用虛線示出的視頻源408(目的地并未明確示出)表明它不是系統(tǒng)的必需部分。例如,所述視頻源可以通過諸如互聯(lián)網(wǎng)等網(wǎng)絡(luò)或通過本地接口(例如,USB或LAN接口)鏈接到系統(tǒng)。
[0039]在一項(xiàng)實(shí)施例中,一種處理具有字幕文本的電子圖像的方法包括:接收電子源圖像;檢測(cè)所述電子源圖像中的所述字幕文本;對(duì)所述電子源圖像進(jìn)行重定格式;對(duì)所述字幕文本進(jìn)行重定格式;以及將重定格式的字幕文本覆蓋在重定格式的電子圖像上,以便形成合成圖像。對(duì)所述電子源圖像進(jìn)行重定格式可以包括使用第一尺寸縮減比來縮減所述電子源圖像的尺寸,而對(duì)所述字幕文本進(jìn)行重定格式可以包括使用第二尺寸縮減比來縮減所述字幕文本的尺寸。在一項(xiàng)實(shí)施例中,所述第一尺寸縮減比大于所述第二尺寸縮減比。所述電子源圖像可以包括視頻圖像,例如,所述視頻圖像為高清晰度視頻圖像,而所述合成圖像可以包括用于移動(dòng)視頻的低清晰度圖像。或者,可以使用其他圖像類型。
[0040]在一項(xiàng)實(shí)施例中,所述方法還包括對(duì)所述重定格式的字幕文本和所述重定格式的電子圖像進(jìn)行后處理。后處理過程可以包括將圖像混合算法應(yīng)用于所述重定格式的字幕文本和所述重定格式的電子圖像。在一些實(shí)施例中,檢測(cè)所述字幕文本包括提取所述字幕文本的特征,以及基于所提取的特征而將所述字幕文本的候選像素分組。
[0041 ] 在一些實(shí)施例中,所述方法進(jìn)一步包括基于檢測(cè)所述字幕文本,從所述電子源圖像中獲得所述字幕文本,而且在一些實(shí)施例中,對(duì)所述字幕文本進(jìn)行重定格式可以包括將一行所述字幕文本分成多行。
[0042]在一項(xiàng)實(shí)施例中,一種用于對(duì)視頻字幕文本進(jìn)行重定格式的系統(tǒng)包括視頻重定格式塊、字幕檢測(cè)塊,以及字幕重新布局兼重新覆蓋塊。所述視頻重定格式塊具有耦接到輸入視頻源的輸入端,以及用于產(chǎn)生重定格式的視頻源的輸出端,而所述字幕檢測(cè)塊用于提取視頻源中的字幕文本。所述字幕重新布局兼重新覆蓋塊耦接到所述視頻重定格式塊的所述輸出端和所述字幕檢測(cè)塊的輸出端。在一項(xiàng)實(shí)施例中,所述字幕重新布局兼重新覆蓋塊用于對(duì)所提取的字幕文本進(jìn)行重定格式,以及將重定格式的字幕文本覆蓋在重定格式的視頻源中。
[0043]在一項(xiàng)實(shí)施例中,所述系統(tǒng)進(jìn)一步包括字幕圖像處理塊,所述字幕圖像處理塊耦接在所述字幕檢測(cè)塊與所述字幕重新布局兼重新覆蓋塊之間。所述字幕圖像處理塊可以用于對(duì)所提取的字幕進(jìn)行預(yù)處理。在一些實(shí)施例中,所述字幕圖像處理塊用于調(diào)整所提取的字幕的對(duì)比度,而且在一些實(shí)施例中,所述視頻重定格式塊用于降低視頻源的分辨率。
[0044]所述系統(tǒng)還可以包括耦接到所述字幕重新布局兼重新覆蓋塊的輸出端的融合后處理塊,其中所述融合后處理塊用于使重定格式的字幕文本與重定格式的視頻源在視覺上混合。在一些實(shí)施例中,所述字幕重新布局兼重新覆蓋塊用于將一行字幕文本分成多行。此夕卜,在一些實(shí)施例中,例如,所述視頻重定格式塊、所述字幕檢測(cè)塊以及所述字幕重新布局兼重新覆蓋塊可以由在計(jì)算機(jī)服務(wù)器上運(yùn)行的軟件實(shí)施。
[0045]在一項(xiàng)實(shí)施例,一種非瞬時(shí)計(jì)算機(jī)可讀媒體上存儲(chǔ)有可執(zhí)行程序。所述程序指示微處理器執(zhí)行以下步驟:接收視頻源圖像;檢測(cè)所述視頻源圖像中的字幕文本;對(duì)所述視頻源圖像進(jìn)行重定格式;對(duì)所述字幕文本進(jìn)行重定格式;以及將重定格式的字幕文本覆蓋在重定格式的視頻源圖像上,以便形成合成圖像。在一些實(shí)施例中,對(duì)所述視頻源圖像進(jìn)行重定格式包括使用第一尺寸縮減比來縮減電子源圖像的尺寸,而對(duì)所述字幕文本進(jìn)行重定格式包括使用第二尺寸縮減比來縮減所述字幕文本的尺寸。所述第一尺寸縮減比可以大于所述第二尺寸縮減比。
[0046]在一項(xiàng)實(shí)施例中,所述程序進(jìn)一步指示所述微處理器對(duì)所述重定格式的字幕文本和所述重定格式的視頻源圖像執(zhí)行后處理。在一項(xiàng)實(shí)施例中,檢測(cè)所述字幕文本的步驟可以包括提取所述字幕文本的特征,以及基于所提取的特征而將所述字幕文本的候選像素分組。此外,對(duì)所述字幕文本進(jìn)行重定格式的步驟可以包括將一行字幕文本分成多行。
[0047]各項(xiàng)實(shí)施例的優(yōu)點(diǎn)包括能夠使視頻字幕在諸如移動(dòng)電話等小屏幕裝置上更為可讀。例如,在一項(xiàng)實(shí)施例中,所述系統(tǒng)和方法檢測(cè)字幕區(qū)域、處理檢測(cè)到的字幕區(qū)域、重調(diào)字幕區(qū)域的尺寸并進(jìn)行重新布局,而且在視頻適配和重定目標(biāo)的過程中,將處理過的字幕覆蓋在尺寸縮減的視頻上,以便提高字幕可見度。
[0048]對(duì)檢測(cè)到的字幕進(jìn)行重新布局的過程也是有利的特征,因?yàn)闄z測(cè)到的字幕可以包括多個(gè)片段。在一些情況下,如果這些檢測(cè)到的字幕采用原始的空間布置覆蓋在視頻幀上,那么字幕可能無法適應(yīng)減小的視頻幀。實(shí)施例重新布局過程可以用于確保字幕可以重新覆蓋在幀邊界內(nèi)。在一些實(shí)施例中,使用預(yù)定義的一組布局規(guī)則來執(zhí)行重新布局過程。
[0049]重新覆蓋兼后處理過程是另一個(gè)有利特征,該過程將字幕覆蓋在減小的視頻幀中的合適位置。此實(shí)施例過程可以將字幕圖像與下方的視頻內(nèi)容融合,而不會(huì)出現(xiàn)明顯的人工編輯痕跡。這個(gè)字幕融合過程可以由某些現(xiàn)有的圖像處理算法實(shí)現(xiàn),例如,泊松圖像編輯。
[0050]此外,本發(fā)明的實(shí)施例可以在多種背景下使用。例如,多項(xiàng)實(shí)施例可以并入內(nèi)容遞送網(wǎng)絡(luò)(CDN)或媒體云產(chǎn)品中的部件或模塊。此部件可以保證小屏幕裝置中播放的視頻的字幕文本的視覺質(zhì)量。在視頻重定目標(biāo)至小屏幕裝置后,覆蓋文本的質(zhì)量得以保證。
[0051]一個(gè)益處在于,在觀看諸如移動(dòng)電話等小屏幕裝置上播放的視頻內(nèi)容時(shí),媒體用戶可以體驗(yàn)到更好的質(zhì)量。當(dāng)視頻傳輸?shù)街T如移動(dòng)電話等小屏幕裝置時(shí)和/或在低帶寬環(huán)境下,視頻上的覆蓋字幕質(zhì)量得到保證。
[0052]圖6不出本發(fā)明的一些實(shí)施例的又一優(yōu)點(diǎn)。視頻巾貞502代表輸入圖像,而視頻中貞504示出尺寸縮減版圖像502。如圖所示,尺寸縮減幀504中的文本字幕510明顯小于原始視頻幀502中的文本字幕508。另一方面,具有文本字幕512的幀506根據(jù)實(shí)施例系統(tǒng)和方法單獨(dú)重調(diào)大小。因此,幀506中的視頻字幕大小明顯大于尺寸縮減幀504中的字幕510。
[0053]雖然已參考說明性實(shí)施例描述了本發(fā)明,但此描述并不意圖限制本發(fā)明。所屬領(lǐng)域的技術(shù)人員在參考該描述后會(huì)了解說明性實(shí)施例的各種修改和組合,以及本發(fā)明的其他實(shí)施例。因此,所附權(quán)利要求書意圖涵蓋任何此類修改或?qū)嵤├?br>
【權(quán)利要求】
1.一種處理具有字幕文本的電子圖像的方法,所述方法包括: 接收電子源圖像; 檢測(cè)所述電子源圖像中的所述字幕文本; 對(duì)所述電子源圖像進(jìn)行重定格式; 對(duì)所述字幕文本進(jìn)行重定格式;以及 將重定格式的字幕文本覆蓋在重定格式的電子圖像上,以便形成合成圖像。
2.根據(jù)權(quán)利要求1所述的方法,其中對(duì)所述電子源圖像進(jìn)行重定格式包括使用第一尺寸縮減比來縮減所述電子源圖像的尺寸。
3.根據(jù)權(quán)利要求2所述的方法,其中對(duì)所述字幕文本進(jìn)行重定格式包括使用第二尺寸縮減比來縮減所述字幕文本的尺寸。
4.根據(jù)權(quán)利要求3所述的方法,其中所述第一尺寸縮減比大于所述第二尺寸縮減比。
5.根據(jù)權(quán)利要求1所述的方法,其中所述電子源圖像包括視頻圖像。
6.根據(jù)權(quán)利要求1所述的方法,其中所述電子源圖像包括高清晰度視頻圖像,而且所述合成圖像包括用于移動(dòng)視頻的低清晰度圖像。
7.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括對(duì)所述重定格式的字幕文本和所述重定格式的電子圖像進(jìn)行后處理。
8.根據(jù)權(quán)利要求7所述的方法,其中后處理過程包括將圖像混合算法應(yīng)用于所述重定格式的字幕文本和所述重定格式的電子圖像。
9.根據(jù)權(quán)利要求1所述的方法,其中檢測(cè)所述字幕文本包括: 提取所述字幕文本的特征;以及 基于所提取的特征,將所述字幕文本的候選像素分組。
10.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括基于檢測(cè)所述字幕文本,從所述電子源圖像中獲得所述字幕文本。
11.根據(jù)權(quán)利要求1所述的方法,其中對(duì)所述字幕文本進(jìn)行重定格式包括將一行所述字幕文本分成多行。
12.一種用于對(duì)視頻字幕文本進(jìn)行重定格式的系統(tǒng),所述系統(tǒng)包括: 視頻重定格式塊,其具有耦接到輸入視頻源的輸入端,以及用于產(chǎn)生重定格式的視頻源的輸出端; 字幕檢測(cè)塊,其用于提取所述視頻源中的字幕文本;以及 字幕重新布局兼重新覆蓋塊,其耦接到所述視頻重定格式塊的所述輸出端和所述字幕檢測(cè)塊的輸出端,所述字幕重新布局兼重新覆蓋塊用于對(duì)所提取的字幕文本進(jìn)行重定格式,以及將重定格式的字幕文本覆蓋在重定格式的視頻源中。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其進(jìn)一步包括字幕圖像處理塊,所述字幕圖像處理塊耦接在所述字幕檢測(cè)塊與所述字幕重新布局兼重新覆蓋塊之間,所述字幕圖像處理塊用于對(duì)所提取的字幕進(jìn)行預(yù)處理。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述字幕圖像處理塊用于調(diào)整所提取的字幕的對(duì)比度。
15.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述視頻重定格式塊用于降低所述視頻源的分辨率。
16.根據(jù)權(quán)利要求12所述的系統(tǒng),其進(jìn)一步可以包括融合后處理塊,所述融合后處理塊耦接到所述字幕重新布局兼重新覆蓋塊的輸出端,所述融合后處理塊用于使所述重定格式的字幕文本與所述重定格式的視頻源在視覺上混合。
17.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述字幕重新布局兼重新覆蓋塊用于將一行字幕文本分成多行。
18.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述視頻重定格式塊、所述字幕檢測(cè)塊以及所述字幕重新布局兼重新覆蓋塊由在計(jì)算機(jī)服務(wù)器上運(yùn)行的軟件實(shí)施。
19.一種非瞬時(shí)計(jì)算機(jī)可讀媒體,其上存儲(chǔ)有可執(zhí)行程序,其中所述程序指示微處理器執(zhí)行以下步驟: 接收視頻源圖像; 檢測(cè)所述視頻源圖像中的字幕文本; 對(duì)所述視頻源圖像進(jìn)行重定格式; 對(duì)所述字幕文本進(jìn)行重定格式;以及 將重定格式的字幕文本覆蓋在重定格式的視頻源圖像上,以便形成合成圖像。
20.根據(jù)權(quán)利要求19所述的非瞬時(shí)計(jì)算機(jī)可讀媒體,其中: 對(duì)所述視頻源圖像進(jìn)行重定格式包括使用第一尺寸縮減比來縮減所述視頻源圖像的尺寸;以及 對(duì)所述字幕文本進(jìn)行重定格式包`括使用第二尺寸縮減比來縮減所述字幕文本的尺寸。
21.根據(jù)權(quán)利要求20所述的非瞬時(shí)計(jì)算機(jī)可讀媒體,其中所述第一尺寸縮減比大于所述第二尺寸縮減比。
22.根據(jù)權(quán)利要求20所述的非瞬時(shí)計(jì)算機(jī)可讀媒體,其中所述程序進(jìn)一步指示所述微處理器對(duì)所述重定格式的字幕文本和所述重定格式的視頻源圖像執(zhí)行后處理。
23.根據(jù)權(quán)利要求19所述的非瞬時(shí)計(jì)算機(jī)可讀媒體,其中檢測(cè)所述字幕文本的步驟包括: 提取所述字幕文本的特征;以及 基于所提取的特征,將所述字幕文本的候選像素分組。
24.根據(jù)權(quán)利要求19所述的非瞬時(shí)計(jì)算機(jī)可讀媒體,其中對(duì)所述字幕文本進(jìn)行重定格式的步驟包括將一行所述字幕文本分成多行。
【文檔編號(hào)】H04N19/467GK103503455SQ201180070583
【公開日】2014年1月8日 申請(qǐng)日期:2011年11月21日 優(yōu)先權(quán)日:2011年5月2日
【發(fā)明者】張冬青, 虹·希瑟·郁 申請(qǐng)人:華為技術(shù)有限公司