欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

發(fā)送裝置、發(fā)送方法、接收裝置、接收方法、信息處理裝置和信息處理方法與流程

文檔序號:11336407閱讀:243來源:國知局
發(fā)送裝置、發(fā)送方法、接收裝置、接收方法、信息處理裝置和信息處理方法與流程

本技術(shù)涉及一種發(fā)送裝置、一種發(fā)送方法、一種接收裝置、一種接收方法、一種信息處理裝置和一種信息處理方法,并且具體地,涉及一種傳輸字幕文本信息以及圖像數(shù)據(jù)的發(fā)送裝置等。



背景技術(shù):

通常,例如,在遵從數(shù)字視頻廣播(dvb)的廣播等中,執(zhí)行使用位圖數(shù)據(jù)發(fā)送字幕信息的操作。近年來,已經(jīng)提出了使用文本字符代碼(即,基于文本)發(fā)送字幕信息的想法。在這種情況下,根據(jù)分辨率在接收側(cè)執(zhí)行字體擴展。

另外,提出了在基于文本發(fā)送字幕信息的情況下將定時信息附加到文本信息的想法。萬維網(wǎng)聯(lián)盟(w3c)已經(jīng)建議了定時文本標記語言(ttml)作為文本信息的示例(參考專利文獻1)。

引用列表

專利文獻

專利文獻1:日本專利申請公開第2002-169885號



技術(shù)實現(xiàn)要素:

本發(fā)明要解決的問題

本技術(shù)的目的是確??梢栽诮邮諅?cè)適當?shù)貓?zhí)行利用字幕文本信息的處理。

解決問題的方法

本技術(shù)的概念是一種發(fā)送裝置,包括:視頻編碼單元,被配置為生成具有編碼圖像數(shù)據(jù)的視頻流;字幕編碼單元,被配置為生成具有與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息的字幕流;以及發(fā)送單元,被配置為發(fā)送包括視頻流和字幕流的具有預定格式的容器。

在本技術(shù)中,由視頻編碼單元生成具有編碼圖像數(shù)據(jù)的視頻流。由字幕編碼單元生成字幕流。字幕流具有與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息。

例如,元信息可以包括用于識別每個話語的發(fā)話者的標識符。在這種情況下,例如,元信息可以進一步包括每個話語的發(fā)話者的屬性信息。例如,字幕流可以具有字幕文本信息和元信息,作為ttml數(shù)據(jù)或具有ttml派生格式的數(shù)據(jù)。

包括視頻流和字幕流的具有預定格式的容器由發(fā)送單元傳輸。例如,容器可以是數(shù)字廣播標準中采用的傳輸流(mpeg-2ts)??商鎿Q地,例如,容器可以是用于互聯(lián)網(wǎng)傳送等的mp4或具有不同格式的容器。

如上所述,在本技術(shù)中,除了與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息之外,字幕流還具有用于分析每個話語的元信息。因此,在接收側(cè),可以參照元信息更適當?shù)貓?zhí)行字幕文本信息的處理。

此外,本技術(shù)的另一概念是一種接收裝置,包括:接收單元,被配置為接收包括視頻流和字幕流的具有預定格式的容器,該視頻流具有編碼圖像數(shù)據(jù),該字幕流具有與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息;信息提取單元,被配置為從字幕流中提取字幕文本信息和元信息;以及信息處理單元,被配置為利用所提取的字幕文本信息和元信息執(zhí)行處理。

在本技術(shù)中,由接收單元接收具有預定格式的容器。該容器至少包括具有編碼圖像數(shù)據(jù)的視頻流和具有與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息及用于分析每個話語的元信息的字幕流。

由信息處理單元從字幕流中提取字幕文本信息和元信息。然后由信息處理單元利用所提取的字幕文本信息和元信息執(zhí)行處理。例如,元信息可以包括用于識別每個話語的發(fā)話者的標識符。在這種情況下,例如,元信息可以進一步包括每個話語的發(fā)話者的屬性信息。

例如,信息處理單元可以參考元信息并且對字幕文本信息執(zhí)行語義分析和語境化,以便為每個發(fā)話者創(chuàng)建個人概要或字幕概要,或?qū)⒚總€話語的字幕翻譯成另一種語言。

此外,例如,信息處理單元可以被配置為:將字幕文本信息和元信息發(fā)送到外部裝置;并且從外部裝置接收通過參考元信息對字幕文本信息執(zhí)行的語義分析和語境化而創(chuàng)建的每個發(fā)話者的個人概要或字幕概要,或者通過參考元信息對字幕文本信息執(zhí)行的語義分析和語境化而獲得的將每個話語的字幕翻譯成另一種語言的結(jié)果。

如上所述,在本技術(shù)中,使用用于分析每個話語的元信息以及與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息來執(zhí)行處理。因此,可以參照元信息更適當?shù)貓?zhí)行字幕文本信息的處理。

此外,本技術(shù)的另一概念是一種信息處理裝置,包括:接收單元,被配置為從外部裝置接收與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息;信息處理單元,被配置為利用字幕文本信息和元信息執(zhí)行處理;以及發(fā)送單元,被配置為將處理結(jié)果發(fā)送到外部裝置。

在本技術(shù)中,由接收單元從外部裝置接收與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息。由信息處理單元利用字幕文本信息和元信息執(zhí)行處理。例如,信息處理單元可以參考元信息,并對字幕文本信息執(zhí)行語義分析和語境化,以便為每個發(fā)話者創(chuàng)建個人概要或字幕概要,或?qū)⒚總€話語的字幕翻譯成另一種語言。由發(fā)送單元將處理的結(jié)果發(fā)送到外部裝置。

如上所述,在本技術(shù)中,使用從外部裝置接收的與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息來執(zhí)行處理,并且將結(jié)果發(fā)送到外部裝置。因此,可以減少外部裝置的處理負荷。

本發(fā)明的效果

根據(jù)本技術(shù),可以更適當?shù)卦诮邮諅?cè)執(zhí)行字幕文本信息的處理。注意,本說明書中描述的效果僅是示例,并且本發(fā)明的效果不限于這些效果。還可以獲得額外的效果。

附圖說明

[圖1]是示出作為實施方式的發(fā)送/接收系統(tǒng)的示例性配置的框圖。

[圖2]是示出廣播傳輸系統(tǒng)的流生成單元的示例性配置的框圖。

[圖3]是用于說明ttml結(jié)構(gòu)的示圖。

[圖4]是示出存在于ttml結(jié)構(gòu)的報頭(頭部)中的相應元素(即元數(shù)據(jù)、樣式和布局)的示例性結(jié)構(gòu)的示圖。

[圖5]是示出ttml結(jié)構(gòu)的主體的示例性結(jié)構(gòu)的示圖。

[圖6]是示出電視接收機的示例性配置的框圖。

[圖7]是用于說明字幕流分析單元的操作的示圖。

[圖8]是用于說明在信息處理單元中為每個發(fā)話者生成個人概要的處理的示例性過程的示圖。

[圖9]是示出對話的文本示例的示圖。

[圖10]是示出示例性字/劃分處理和示例性語境/語義分析處理的示圖。

[圖11]是示出示例性字/劃分處理和示例性語境/語義分析處理的示圖。

[圖12]是示出從電視接收機發(fā)送到外部裝置的ttml元數(shù)據(jù)和ttml主體的示例的示圖。

具體實施方式

在后文中,將描述用于實施本發(fā)明的模式(在后文中稱為“實施方式”)。請注意,描述將按以下順序提供:

1、實施方式

2、變化

<1、實施方式>

[發(fā)送/接收系統(tǒng)的示例性配置]

圖1是示出作為實施方式的發(fā)送/接收系統(tǒng)10的示例性配置的示圖。發(fā)送/接收系統(tǒng)10包括廣播傳輸系統(tǒng)100和電視接收機200。廣播傳輸系統(tǒng)100通過廣播波發(fā)送作為多路復用流的傳輸流ts。

傳輸流ts至少具有視頻流和字幕流。視頻流具有編碼圖像數(shù)據(jù)。字幕流具有與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息。在本實施方式中,元信息包括用于識別每個話語的發(fā)話者的標識符和每個話語的發(fā)話者的屬性信息。注意,可以僅包括標識符,作為元信息,或者可以包括諸如關(guān)于每個話語的環(huán)境的信息的其他類型的信息,作為元信息。

電視接收機200使用廣播波接收從廣播傳輸系統(tǒng)100發(fā)送的傳輸流ts。如上所述,傳輸流ts至少具有視頻流和字幕流。注意,在一些情況下,傳輸流ts可以包括音頻流。除了與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息之外,字幕流還包括用于分析每個話語的元信息。

電視接收機200對視頻流執(zhí)行解碼處理以獲得圖像數(shù)據(jù),并且對從字幕流中提取的字幕文本信息進行解碼處理以獲得字幕(標題)的位圖數(shù)據(jù)。然后,電視接收機200將字幕(標題)的位圖數(shù)據(jù)疊加在圖像數(shù)據(jù)上,并且顯示經(jīng)過字幕疊加的圖像。

此外,電視接收機200使用從字幕流中提取的字幕文本信息和元信息,獲取每個發(fā)話者的個人概要或字幕概要、或者將每個話語的字幕翻譯成另一種語言的結(jié)果。電視接收機200本身執(zhí)行為每個發(fā)話者生成個人概要或字幕概要的處理,或者將每個話語的字幕翻譯成另一種語言的處理??商鎿Q地,電視接收機200使云端上的外部裝置(即,經(jīng)由網(wǎng)絡連接的外部裝置)執(zhí)行這些處理。

例如,電視接收機200根據(jù)用戶的選擇操作,將所獲取的每個發(fā)話者的個人概要或字幕概要、或者所獲取的每個話語的字幕翻譯成另一種語言的結(jié)果疊加在圖像上,并且顯示經(jīng)過疊加的圖像。

[廣播傳輸系統(tǒng)的流生成單元的示例性配置]

圖2是示出廣播傳輸系統(tǒng)100的流生成單元110的示例性配置的示圖。流生成單元110具有控制單元111、視頻編碼器112、音頻編碼器113、麥克風114a和114b、音頻/文本轉(zhuǎn)換單元115a和115b、文本格式轉(zhuǎn)換單元116、字幕編碼器117以及ts格式器(多路復用器)118。

例如,控制單元111被配置為包括中央處理單元(cpu),并且控制流生成單元110的每個部件的操作。圖像數(shù)據(jù)dv被輸入到視頻編碼器112。視頻編碼器112編碼圖像數(shù)據(jù)dv以生成包括pes數(shù)據(jù)包的視頻流,在pes數(shù)據(jù)包中,編碼圖像數(shù)據(jù)設(shè)置在有效載荷中。音頻數(shù)據(jù)da被輸入到音頻編碼器113。音頻編碼器113編碼音頻數(shù)據(jù)da以生成包括pes數(shù)據(jù)包的音頻流,在pes數(shù)據(jù)包中,編碼音頻數(shù)據(jù)被設(shè)置在有效載荷中。

麥克風114a將發(fā)話者a的話語轉(zhuǎn)換為音頻數(shù)據(jù)sa。音頻/文本轉(zhuǎn)換單元115a將音頻數(shù)據(jù)sa轉(zhuǎn)換為文本數(shù)據(jù)(字符代碼)dta,作為字幕信息。麥克風114b將發(fā)話者b的話語轉(zhuǎn)換為音頻數(shù)據(jù)sb。音頻/文本轉(zhuǎn)換單元115b將音頻數(shù)據(jù)sb轉(zhuǎn)換為文本數(shù)據(jù)(字符代碼)dtb,作為字幕信息。音頻/文本轉(zhuǎn)換單元115b和115b中的轉(zhuǎn)換處理可以手動或自動執(zhí)行。此外,音頻數(shù)據(jù)sa和sb塊可以與音頻數(shù)據(jù)da并行地輸入到音頻編碼器113。

作為字幕信息的文本數(shù)據(jù)dta和dtb塊被輸入到文本格式轉(zhuǎn)換單元116,并且獲得具有預定格式的字幕文本信息。文本信息的示例包括ttml和ttml派生格式。本實施方式基于ttml的前提。

圖3是示出ttml結(jié)構(gòu)的示圖。ttml是基于xml描述的。相應的元素,即元數(shù)據(jù)、樣式和布局,存在于報頭(頭部)中。圖4(a)是示出元數(shù)據(jù)(ttm:ttml元數(shù)據(jù))的示例性結(jié)構(gòu)的示圖。元數(shù)據(jù)包括有關(guān)元數(shù)據(jù)的標題的信息和有關(guān)版權(quán)的信息。

此外,元數(shù)據(jù)包括與用于識別發(fā)話者a和發(fā)話者b的標識符相關(guān)聯(lián)的發(fā)話者的屬性信息項。項‘voice_id=“a”’表示發(fā)話者a的標識符,并且包括‘sex=“m”’、‘a(chǎn)ge=“30”’、‘char=“mild”’以及‘language_id=“english”’的屬性信息與該標識符相關(guān)聯(lián)地設(shè)置。項‘sex=“m”’表示性別是男性。項‘a(chǎn)ge=“30”’表示年齡是30。項‘char=“mild”’表示個性溫和。項‘language_id=“english”’表示語言是英語。

此外,項‘voice_id=“b”’表示發(fā)話者b的標識符,并且包括‘sex=“f”、‘a(chǎn)ge=“25”’、‘char=“smart”&“sharp”’以及‘language_id=“english”’的屬性信息與該標識符相關(guān)聯(lián)地設(shè)置。項‘性別=“f”’表示性別是女性。項‘a(chǎn)ge=“25”’表示年齡是25。項‘char=“smart”&“sharp”’表示個性聰明并且機靈。項‘language_id=“english”’表示該語言是英語。

注意,所示類型的屬性信息僅是示例。并非所有這些都需要設(shè)置,并且可以設(shè)置其他類型的屬性信息。另外,在示出的示例中,盡管包括發(fā)話者a和發(fā)話者b的屬性信息項,但是可以包括與發(fā)話者a和發(fā)話者b的話語有關(guān)的其他信息項,例如,諸如地點和時間的環(huán)境信息。

圖4(b)是示出樣式(tts:ttml樣式)的示例性結(jié)構(gòu)的示圖。樣式包括諸如顏色、字體(fontfamily)、大小(fontsize)和對齊(textalign)的信息項以及標識符(id)。圖4(c)是示出布局(區(qū)域:ttml布局)的示例性結(jié)構(gòu)的示圖。布局包括諸如范圍(extent)、偏移(padding)、背景顏色(backgroundcolor)和對齊(displayalign)的信息項以及設(shè)置字幕的區(qū)域的標識符(id)。

圖5是示出主體的示例性結(jié)構(gòu)的示圖。在所示的示例中,包括關(guān)于三個字幕的信息項,即,字幕1(subtitle1)、字幕2(subtitle2)和字幕3(subtitle3)。對于每個字幕,與顯示開始定時和顯示結(jié)束定時一起描述文本數(shù)據(jù),并且描述與文本數(shù)據(jù)相對應的發(fā)話者的標識符。例如,關(guān)于字幕1(subtitle1),顯示開始定時是“0.76s”,顯示結(jié)束定時是“3.45s”,文本數(shù)據(jù)是“看起來是悖論,不是嗎,”,并且標識符是“a”,表示發(fā)話者a。

此外,關(guān)于字幕2(subtitle2),顯示開始定時是“5.0s”,顯示結(jié)束定時是“10.0s”,文本數(shù)據(jù)是“形成在視網(wǎng)膜上<br/>的圖像應當是倒轉(zhuǎn)的?”,并且標識符是“b”,表示發(fā)話者b。此外,關(guān)于字幕3(subtitle3),顯示開始定時是“10.0s”,顯示結(jié)束定時是“16.0s”,文本數(shù)據(jù)是“這是令人困惑的,為什么<br/>我們看到的東西不是顛倒的?”,并且標識符是“a”,表示發(fā)話者a。

返回圖2,字幕編碼器117將由文本格式轉(zhuǎn)換單元116獲得的ttml轉(zhuǎn)換為各種段,并且生成包括pes數(shù)據(jù)包的字幕流,在pes數(shù)據(jù)包中這些段設(shè)置在有效載荷中。注意,代替將ttml放置在段上并將段設(shè)置在pes數(shù)據(jù)包的有效載荷中,也可以直接將ttml設(shè)置在pes數(shù)據(jù)包的有效載荷中。

ts格式器118通過將由視頻編碼器112生成的視頻流、由音頻編碼器113生成的音頻流和由字幕編碼器117生成的字幕流轉(zhuǎn)換為傳輸數(shù)據(jù)包來執(zhí)行多路復用,并獲得傳輸流ts作為多路復用流。

將簡要描述圖2所示的流生成單元110的操作。圖像數(shù)據(jù)dv提供至視頻編碼器112。在視頻編碼器112中,圖像數(shù)據(jù)dv被編碼,并且生成包括視頻pes數(shù)據(jù)包的視頻流(pes流),其中編碼圖像數(shù)據(jù)保存在有效載荷中。視頻流提供至ts格式器118。

此外,音頻數(shù)據(jù)da提供至音頻編碼器113。在音頻編碼器113中,對音頻數(shù)據(jù)da進行編碼,并且生成包括具有編碼音頻數(shù)據(jù)的音頻pes數(shù)據(jù)包的音頻流(pes流)。音頻流提供至ts格式器118。

此外,作為與發(fā)話者a的話語相對應并且由音頻/文本轉(zhuǎn)換單元115a獲得的字幕信息的文本數(shù)據(jù)(字符代碼)dta,以及作為與發(fā)話者b的話語相對應并且由音頻/文本轉(zhuǎn)換單元115b獲得的字幕信息的文本數(shù)據(jù)(字符代碼)dtb提供至文本格式轉(zhuǎn)換單元116。

在文本格式轉(zhuǎn)換單元116中,基于作為字幕信息的文本數(shù)據(jù)dta和dtb2塊,獲得作為字幕文本信息的ttml。在ttml中,用于識別發(fā)話者a和發(fā)話者b的標識符與相應字幕的文本數(shù)據(jù)塊相關(guān)聯(lián)地描述(參照圖5)。另外,在ttml中,發(fā)話者的屬性信息項等與用于識別發(fā)話者a和發(fā)話者b的標識符相關(guān)聯(lián)地描述(參考圖4(a))。ttml提供至字幕編碼器117。

在字幕編碼器117中,ttml被轉(zhuǎn)換為各種段,并且生成包括pes數(shù)據(jù)包的字幕流,其中這些段設(shè)置在pes數(shù)據(jù)包的有效載荷中,ttml直接設(shè)置在有效載荷中。字幕流提供至ts格式器118。

在ts格式器118中,由視頻編碼器112生成的視頻流、由音頻編碼器113生成的音頻流以及由字幕編碼器117生成的字幕流被轉(zhuǎn)換為傳輸數(shù)據(jù)包并被多路復用,并且生成傳輸流ts作為多路復用流。通過廣播波從發(fā)送單元(未示出)發(fā)送傳輸流ts。

[電視接收機的示例性配置]

圖6是示出電視接收機200的示例性配置的示圖。電視接收機200具有接收單元201、ts分析單元(多路解復用器)202、視頻解碼器203、視頻疊加單元204、面板驅(qū)動電路205、以及顯示面板206。電視接收機200還具有音頻解碼器207、音頻輸出電路208和揚聲器209。

電視接收機200還具有字幕流分析單元210、文本解碼顯示處理單元211和信息處理單元212。電視接收機200還具有cpu221、閃存rom222、dram223、內(nèi)部總線224、遙控接收單元225和遙控發(fā)送器226。

cpu221控制電視接收機200的每個部件的操作。閃存rom222容納控制軟件并存儲數(shù)據(jù)。dram223構(gòu)成cpu221的工作區(qū)域。cpu221擴展從dram223上的閃存rom222讀取的軟件和數(shù)據(jù),以啟動軟件,并且控制電視接收機200的每個部件。

遙控接收單元225接收從遙控發(fā)送器226發(fā)送的遙控信號(遙控代碼),并將遙控代碼提供至cpu221。cpu221基于遙控代碼控制電視接收機200的每個部件。cpu221、閃存rom222和dram223連接到內(nèi)部總線224。

接收單元201通過廣播波接收從廣播傳輸系統(tǒng)100發(fā)送的傳輸流ts。如上所述,傳輸流ts包括視頻流、音頻流和字幕流。ts分析單元202從傳輸流ts中提取相應流,即,視頻流、音頻流和字幕流。

音頻解碼器207對由ts分析單元202提取的音頻流執(zhí)行解碼處理,以獲得音頻數(shù)據(jù)。音頻輸出電路208對音頻數(shù)據(jù)進行諸如d/a轉(zhuǎn)換和放大的必要處理,并將經(jīng)處理的音頻數(shù)據(jù)提供至揚聲器209。視頻解碼器203對由ts分析單元202提取的視頻流執(zhí)行解碼處理,以獲得圖像數(shù)據(jù)。

字幕流分析單元210對由ts分析單元202提取的字幕流中包括的ttml進行分類,取出文本信息和顯示相關(guān)信息,并將這些信息項發(fā)送到文本解碼顯示處理單元211。字幕流分析單元210還取出文本信息和語義分析元信息,并將這些信息項發(fā)送到信息處理單元212。

將進一步描述字幕流分析單元210。如圖7(a)所示,ttml包括ttml報頭(ttml頭部)和ttml主體,并且相應元素(即,ttml元數(shù)據(jù)、ttml樣式和ttml布局)存在于ttml報頭中。

如圖7(b)所示,字幕流分析單元210從ttml取出ttml樣式、ttml布局和ttml主體,并將其發(fā)送到文本解碼顯示處理單元211。此外,如圖7(b)所示,字幕流分析單元210從ttml取出ttml元數(shù)據(jù)和ttml主體,并將其發(fā)送到信息處理單元212。

返回圖6,文本解碼顯示處理單元211對文本信息和顯示相關(guān)信息(ttml樣式、ttml布局和ttml主體)執(zhí)行解碼處理,以獲得要疊加在圖像數(shù)據(jù)上的每個區(qū)域的位圖數(shù)據(jù)。

視頻疊加單元204將從文本解碼顯示處理單元211獲得的每個區(qū)域的位圖數(shù)據(jù)疊加在由視頻解碼器203獲得的圖像數(shù)據(jù)上。面板驅(qū)動電路205基于視頻疊加單元204獲得的顯示圖像數(shù)據(jù),驅(qū)動顯示面板206。例如,顯示面板206包括液晶顯示器(lcd)、有機電致發(fā)光顯示器(有機el顯示器)等。

信息處理單元212執(zhí)行文本信息和語義分析元信息(ttml元數(shù)據(jù)和ttml主體)的處理,并輸出處理結(jié)果。該處理的示例包括為每個發(fā)話者生成個人概要和字幕概要的處理,以及將每個話語的字幕翻譯成另一種語言的處理。在這種情況下,信息處理單元212獲得用于顯示處理結(jié)果的位圖數(shù)據(jù)。

圖8是用于說明在信息處理單元212中為每個發(fā)話者生成個人概要的處理的示例性過程的示圖。下面的描述基于如圖9(a)和圖9(b)所示的場景1和場景2中的發(fā)話者a和b之間的對話的文本示例。

首先,作為步驟1,執(zhí)行字/劃分處理。圖10(a)是示出與場景1中的發(fā)話者a和b的字幕相關(guān)的示例性字/劃分處理的示圖。圖11(a)是示出與場景2中的發(fā)話者a和b的字幕相關(guān)的示例性字/劃分處理的示圖。

接下來,作為步驟2,執(zhí)行語境/語義分析處理。圖10(b)是示出與場景1中的發(fā)話者a和b的字幕相關(guān)的示例性語境/語義分析處理的示圖。圖11(b)是示出與場景2中的發(fā)話者a和b的字幕相關(guān)的示例性語境/語義分析處理的示圖。注意,語境/語義分析處理的結(jié)果構(gòu)成每個發(fā)話者的字幕概要。在執(zhí)行生成每個發(fā)話者的字幕概要的處理的情況下,信息處理單元212輸出例如語境/語義分析處理的結(jié)果。注意,信息處理單元212的輸出可以采取文本的形式。在這種情況下,文本輸出經(jīng)過文本解碼顯示處理單元211以進行位圖轉(zhuǎn)換,并且被提供至視頻疊加單元204。

接下來,作為步驟3,執(zhí)行使用發(fā)話者標識符創(chuàng)建字符的概要的處理。場景1中的標識符“a”和場景2中的標識符“a”表示同一個人。類似地,場景1中的標識符“b”和場景2中的標識符“b”表示同一個人。由于在場景1和場景2中提供了發(fā)話者的標識符,所以可以識別出個人的個性和本質(zhì)根據(jù)場景而變化。缺少標識符導致場景1中的發(fā)話者a和場景2中的發(fā)話者b是同一個人這一誤解。發(fā)話者的標識符的存在使能夠識別并且可以獲得準確的個人概要。

接下來,作為步驟4,添加發(fā)話者的屬性信息項,并且執(zhí)行在程序中創(chuàng)建字符的概要的處理。因此,添加使用ttml元數(shù)據(jù)(參照圖4(a))傳輸?shù)陌l(fā)話者a和b的屬性信息項,從而估計個人的最終概要。

在示出的示例中,如下生成發(fā)話者a的個人概要:“一個勤奮、富有成效的男人,講日語并且具有有條理的個性。他是習慣于諸如飛機的交通工具的那種人,并且處事冷靜”。此外,如下生成發(fā)話者b的個人概要:“一個講日語的中年男子,并且通常傾向于無牽掛的。但是,當他乘坐飛機時,他變成感到緊張的那種人”。

注意,雖然省略了詳細的描述,但是即使在信息處理單元212中執(zhí)行將每個話語的字幕翻譯成另一種語言的處理的情況下,也可以基于發(fā)話者的標識符,執(zhí)行基于發(fā)話者的翻譯。此外,參考每個發(fā)話者的屬性信息,可以根據(jù)諸如性別、年齡、個性、口語等的信息更適當?shù)貓?zhí)行翻譯成另一種語言。

返回圖6,視頻疊加單元204根據(jù)用戶的顯示選擇操作,將由文本解碼顯示處理單元211獲得的每個區(qū)域的位圖數(shù)據(jù)疊加在由視頻解碼器203獲得的圖像數(shù)據(jù)上。此外,視頻疊加單元204根據(jù)用戶的顯示選擇操作,將由信息處理單元212獲得的處理結(jié)果的位圖數(shù)據(jù)疊加在由視頻解碼器203獲得的圖像數(shù)據(jù)上。

面板驅(qū)動電路205基于由視頻疊加單元204獲得的顯示圖像數(shù)據(jù)來驅(qū)動顯示面板206。顯示面板206包括例如液晶顯示器(lcd)、有機電致發(fā)光顯示器(有機el顯示器)等。

將簡要描述圖6所示的電視接收機200的操作。在接收單元201中,接收從廣播傳輸系統(tǒng)100通過廣播波發(fā)送的傳輸流ts。傳輸流ts包括視頻流、音頻流和字幕流。

由ts分析單元202提取的視頻流提供至視頻解碼器203。在視頻解碼器203中,對視頻流執(zhí)行解碼處理,并獲得圖像數(shù)據(jù)。圖像數(shù)據(jù)提供至視頻疊加單元204。另外,由ts分析單元202提取的字幕流提供至字幕流分析單元210。在字幕流分析單元210中,將包括在字幕流中的ttml分類。

然后,在字幕流分析單元210中,將ttml樣式、ttml布局和ttml主體取出作為文本信息和顯示相關(guān)信息,并提供至文本解碼顯示處理單元211。另外,在字幕流分析單元210中,將ttml元數(shù)據(jù)和ttml主體取出作為文本信息和語義分析元信息,并提供至信息處理單元212。

在文本解碼顯示處理單元211中,對作為文本信息和顯示相關(guān)信息的ttml樣式、ttml布局和ttml主體進行解碼處理,并且獲得要疊加在圖像數(shù)據(jù)上的每個區(qū)域的位圖數(shù)據(jù)。位圖數(shù)據(jù)提供至視頻疊加單元204。在視頻疊加單元204中,由文本解碼顯示處理單元211獲得的每個區(qū)域的位圖數(shù)據(jù),根據(jù)用戶的顯示選擇操作疊加在由視頻解碼器203獲得的圖像數(shù)據(jù)上。

由視頻疊加單元204獲得的顯示圖像數(shù)據(jù)提供至面板驅(qū)動電路205。在面板驅(qū)動電路205中,基于顯示圖像數(shù)據(jù)驅(qū)動顯示面板206。因此,圖像顯示在顯示面板206上,并且字幕(標題)根據(jù)用戶的顯示選擇操作而疊加在該圖像上,以用于顯示。

此外,在信息處理單元212中,執(zhí)行作為文本信息和語義分析元信息的ttml元數(shù)據(jù)和ttml主體的處理,并且獲得用于顯示處理結(jié)果的位圖數(shù)據(jù)。該處理的示例包括為每個發(fā)話者生成個人概要和字幕概要的處理,以及將每個話語的字幕翻譯成另一種語言的處理。

位圖數(shù)據(jù)提供至視頻疊加單元204。在視頻疊加單元204中,由信息處理單元212獲得的處理結(jié)果的位圖數(shù)據(jù),根據(jù)用戶的顯示選擇操作疊加在由視頻解碼器203獲得的圖像數(shù)據(jù)上。因此,根據(jù)用戶的顯示選擇操作,將處理結(jié)果(例如,每個發(fā)話者的個人概要和字幕概要,或?qū)⒚總€話語的字幕翻譯成另一種語言的結(jié)果)疊加在顯示面板206上顯示的圖像上。

此外,由ts分析單元202提取的音頻流提供至音頻解碼器207。在音頻解碼器207中,對音頻流執(zhí)行解碼處理,并獲得音頻數(shù)據(jù)。

音頻數(shù)據(jù)提供至音頻輸出電路208。在音頻輸出電路208中,對音頻數(shù)據(jù)執(zhí)行諸如d/a轉(zhuǎn)換和放大的必要處理。然后,經(jīng)處理的音頻數(shù)據(jù)提供至揚聲器209。因此,從揚聲器209獲得與顯示面板206上顯示的圖像相對應的音頻輸出。

注意,在上述示例中,文本信息和語義分析元信息(ttml元數(shù)據(jù)和ttml主體)的處理由設(shè)置在電視接收機200中的信息處理單元執(zhí)行??商鎿Q地,該處理可以由云上的外部裝置(即,經(jīng)由網(wǎng)絡連接的外部裝置)執(zhí)行。

通信單元213經(jīng)由網(wǎng)絡向外部裝置300發(fā)送由字幕流分析單元210取出的文本信息和語義分析元信息(ttml元數(shù)據(jù)和ttml主體),并且從外部裝置300接收用于顯示處理結(jié)果的位圖數(shù)據(jù)(例如,每個發(fā)話者的個人概要和字幕概要、或?qū)⒚總€話語的字幕翻譯成另一種語言的結(jié)果)。

位圖數(shù)據(jù)提供至視頻疊加單元204。在視頻疊加單元204中,由通信單元213接收的處理結(jié)果的位圖數(shù)據(jù),根據(jù)用戶的顯示選擇操作疊加在由視頻解碼器203獲得的圖像數(shù)據(jù)上。因此,即使在如上所述由外部裝置300執(zhí)行處理的情況下,處理結(jié)果(例如,每個發(fā)話者的個人概要和字幕概要,或者將每個話語的字幕轉(zhuǎn)換為另一種語言的結(jié)果)根據(jù)用戶的顯示選擇操作而疊加在顯示面板206上顯示的圖像上。

外部裝置300具有通信單元301和信息處理單元302。通信單元301經(jīng)由網(wǎng)絡從電視接收機200接收文本信息和語義分析元信息(ttml元數(shù)據(jù)和ttml主體),并且將這些信息項提供至信息處理單元302。通信單元301還經(jīng)由網(wǎng)絡向電視接收機200發(fā)送指示從信息處理單元302提供的處理結(jié)果的位圖數(shù)據(jù)。

例如,通信單元213將ttml元數(shù)據(jù)和ttml主體放置在mp4容器中,并將mp4容器發(fā)送到外部裝置300。注意,在這種情況下,在字/短語劃分之后獲得的文本列表可以與發(fā)話者的標識符一起設(shè)置在ttml主體中。以這種方式,在外部裝置300中減少了字/短語劃分的處理時間。圖12(a)和圖12(b)是示出從通信單元213發(fā)送到外部裝置300的ttml元數(shù)據(jù)和ttml主體的示例的示圖。

圖12(b)是在電視接收機200中執(zhí)行字/短語劃分的情況下的ttml主體的示例??商鎿Q地,可以將接收的ttml主體如同沒有經(jīng)受字/短語劃分一樣從通信單元213發(fā)送到外部裝置300。

注意,在外部裝置300中的信息處理之后獲得的處理結(jié)果可以以文本格式輸入到電視接收機200的通信單元213。在這種情況下,通信單元213的輸出經(jīng)過文本解碼顯示處理單元211以進行位圖轉(zhuǎn)換,并提供至視頻疊加單元204。

信息處理單元302被配置為與電視接收機200中的上述信息處理單元212相似。信息處理單元302執(zhí)行從通信單元301提供的文本信息和語義分析元信息(ttml元數(shù)據(jù)和ttml主體)的處理,并將指示處理結(jié)果的位圖數(shù)據(jù)提供至通信單元301。

如上所述,在圖1所示的發(fā)送/接收系統(tǒng)10中,除了與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息之外,字幕流還具有用于分析每個話語的元信息。因此,在接收側(cè),可以參考元信息適當?shù)貓?zhí)行字幕文本信息的處理(例如,為每個發(fā)話者生成個人概要和字幕概要的處理以及將每個話語的字幕翻譯成另一種語言的處理)。

<2、變化>

注意,在以上實施方式中描述的示例中,ttml用作字幕文本信息。然而,本技術(shù)不限于該示例,并且可以使用具有與ttml中的信息等同的信息的其他類型的定時文本信息。例如,可以使用ttml派生的格式。

此外,在以上實施方式中描述的示例中,發(fā)送/接收系統(tǒng)10包括廣播傳輸系統(tǒng)100和電視接收機200。然而,可以應用本技術(shù)的發(fā)送/接收系統(tǒng)的配置不限于這個示例。例如,對應于電視接收機200的部分可以被配置為通過諸如高清晰度多媒體接口(hdmi)的數(shù)字接口耦接在一起的機頂盒和監(jiān)視器。請注意,“hdmi”是注冊商標。

此外,本技術(shù)也可以如下配置。

(1)一種發(fā)送裝置,包括:

視頻編碼單元,被配置為生成具有編碼圖像數(shù)據(jù)的視頻流;

字幕編碼單元,被配置為生成具有與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息的字幕流;以及

發(fā)送單元,被配置為發(fā)送包括視頻流和字幕流的具有預定格式的容器。

(2)根據(jù)(1)所述的發(fā)送裝置,其中,

元信息包括用于識別每個話語的發(fā)話者的標識符。

(3)根據(jù)(2)所述的發(fā)送裝置,其中,

元信息進一步包括每個話語的發(fā)話者的屬性信息。

(4)根據(jù)(1)至(3)中任一項所述的發(fā)送裝置,其中,

字幕流具有字幕文本信息和元信息,作為ttml數(shù)據(jù)或具有ttml派生格式的數(shù)據(jù)。

(5)一種發(fā)送方法,包括:

視頻編碼步驟,生成具有編碼圖像數(shù)據(jù)的視頻流;

字幕編碼步驟,生成具有與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息的字幕流;以及

發(fā)送步驟,由發(fā)送單元發(fā)送包括視頻流和字幕流的具有預定格式的容器。

(6)一種接收裝置,包括:

接收單元,被配置為接收包括視頻流和字幕流的具有預定格式的容器,該視頻流具有編碼圖像數(shù)據(jù),該字幕流具有與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息;

信息提取單元,被配置為從字幕流中提取字幕文本信息和元信息;以及

信息處理單元,被配置為利用所提取的字幕文本信息和元信息執(zhí)行處理。

(7)根據(jù)(6)所述的接收裝置,其中,

元信息包括用于識別每個話語的發(fā)話者的標識符。

(8)根據(jù)(7)所述的接收裝置,其中,

元信息進一步包括每個話語的發(fā)話者的屬性信息。

(9)根據(jù)(6)至(8)中任一項所述的接收裝置,其中,

信息處理單元參考元信息并且對字幕文本信息執(zhí)行語義分析和語境化,以便為每個發(fā)話者創(chuàng)建個人概要或字幕概要,或?qū)⒚總€話語的字幕翻譯成另一種語言。

(10)根據(jù)(6)至(8)中任一項所述的接收裝置,其中,

信息處理單元被配置為:

將字幕文本信息和元信息發(fā)送到外部裝置;并且

從外部裝置接收通過參考元信息對字幕文本信息執(zhí)行的語義分析和語境化而創(chuàng)建的每個發(fā)話者的個人概要或字幕概要,或者通過參考元信息對字幕文本信息執(zhí)行的語義分析和語境化而獲得的將每個話語的字幕翻譯成另一種語言的結(jié)果。

(11)一種接收方法,包括:

接收步驟,由接收單元接收包括視頻流和字幕流的具有預定格式的容器,該視頻流具有編碼圖像數(shù)據(jù),該字幕流具有與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息;

信息提取步驟,從字幕流中提取字幕文本信息和元信息;以及

信息處理步驟,利用所提取的字幕文本信息和元信息執(zhí)行處理。

(12)一種信息處理裝置,包括:

接收單元,被配置為從外部裝置接收與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息;

信息處理單元,被配置為利用字幕文本信息和元信息執(zhí)行處理;以及

發(fā)送單元,被配置為將處理的結(jié)果發(fā)送到外部裝置。

(13)根據(jù)(12)所述的信息處理裝置,其中,

信息處理單元參考元信息并且對字幕文本信息執(zhí)行語義分析和語境化,以便為每個發(fā)話者創(chuàng)建個人概要或字幕概要,或?qū)⒚總€話語的字幕翻譯成另一種語言。

(14)一種信息處理方法,包括:

接收步驟,由接收單元從外部裝置接收與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息和用于分析每個話語的元信息;

信息處理步驟,利用字幕文本信息和元信息執(zhí)行處理;以及

發(fā)送步驟,由發(fā)送單元將處理的結(jié)果發(fā)送到外部裝置。

本技術(shù)的主要特征在于,除了與預定數(shù)量的發(fā)話者的話語相對應的字幕文本信息之外,字幕流還具有用于分析每個話語的元信息,使得可以在接收側(cè)適當?shù)貓?zhí)行字幕文本信息的處理(參照圖2、圖4以及圖5)。

附圖標記列表

10發(fā)送/接收系統(tǒng)

100廣播傳輸系統(tǒng)

110流生成單元

111控制單元

112視頻編碼器

113音頻編碼器

114a、114b麥克風

115a、115b音頻/文本轉(zhuǎn)換單元

116文本格式轉(zhuǎn)換單元

117字幕編碼器

118ts格式器(多路復用器)

200電視接收機

201接收單元

202ts分析單元(多路解復用器)

203視頻解碼器

204視頻疊加單元

205面板驅(qū)動電路

206顯示面板

207音頻解碼器

208音頻輸出電路

209揚聲器

210字幕流分析單元

211文本解碼顯示處理單元

212信息處理單元

213通信單元

300外部裝置

301通信單元

302信息處理單元

221cpu。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
聂荣县| 甘孜县| 五寨县| 满城县| 托克托县| 柘城县| 通山县| 望江县| 南宫市| 阳高县| 南康市| 石景山区| 宁强县| 兴安县| 洪泽县| 开平市| 六枝特区| 库伦旗| 汨罗市| 周口市| 句容市| 涞水县| 唐河县| 兴隆县| 南华县| 利辛县| 板桥市| 宣恩县| 荥经县| 靖宇县| 阆中市| 德清县| 龙门县| 陆良县| 托克逊县| 黄山市| 九寨沟县| 武隆县| 股票| 大足县| 达拉特旗|