內(nèi)插視頻標(biāo)簽的制作方法
【專利說明】內(nèi)插視頻標(biāo)簽
【背景技術(shù)】
[0001] 諸如臺式機和膝上計算機、平板計算機、移動電話和電視機之類的各種設(shè)備都可 以能夠播放視頻數(shù)據(jù)。這樣的設(shè)備可以通過各種手段獲得視頻數(shù)據(jù),諸如經(jīng)由互聯(lián)網(wǎng)下載、 互聯(lián)網(wǎng)流送、或者通過可移動介質(zhì)。在示例中,顯示視頻數(shù)據(jù)的相同設(shè)備也可以能夠計算與 視頻相關(guān)的其它數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0002] 在一個示例中,一種方法包括由計算設(shè)備識別視頻的多個視頻幀中所包括的視頻 幀的序列,其中對象存在于該視頻幀的序列中的至少一個視頻幀中;由該計算設(shè)備確定與 該對象在該視頻幀的序列中的存在相關(guān)聯(lián)的內(nèi)插函數(shù),其中該內(nèi)插函數(shù)指定該內(nèi)插函數(shù)在 其中有效的視頻的時域,并且由該計算設(shè)備傳送該視頻、該對象的指示以及該內(nèi)插函數(shù)的 指示。
[0003] 在另一個示例中,一種設(shè)備包括存儲器、以及一個或多個可編程處理器,其被配置 為識別視頻的多個視頻幀中所包括的視頻幀的序列,其中對象存在于該視頻幀的序列中的 至少一個視頻幀中;確定與該對象在該視頻幀的序列中的存在相關(guān)聯(lián)的內(nèi)插函數(shù),其中該 內(nèi)插函數(shù)指定該內(nèi)插函數(shù)在其中有效的視頻的時域。該設(shè)備進(jìn)一步包括接口,其被配置為 傳送該視頻、該對象的指示以及該內(nèi)插函數(shù)的指示。
[0004] 在另一個示例中,一種計算機可讀存儲設(shè)備編碼有指令,該指令在被執(zhí)行時使得 計算設(shè)備的一個或多個可編程處理器識別視頻的多個視頻幀中所包括的視頻幀的序列,其 中對象存在于該視頻幀的序列中的至少一個視頻幀中,確定與該對象在該視頻幀的序列中 的存在相關(guān)聯(lián)的內(nèi)插函數(shù),其中該內(nèi)插函數(shù)指定該內(nèi)插函數(shù)在其中有效的視頻的時域,并 且傳送該視頻、該對象的指示以及該內(nèi)插函數(shù)的指示。
[0005] 在另一個示例中,一種方法包括由計算設(shè)備接收包括多個視頻幀的視頻、該視頻 中表示的至少一個對象的指示、與該對象相關(guān)聯(lián)的標(biāo)簽、用于該視頻中的視頻幀的至少一 個序列的與該對象相關(guān)聯(lián)的內(nèi)插函數(shù)、以及與該對象相關(guān)聯(lián)的知識數(shù)據(jù),其中該內(nèi)插函數(shù) 指定該內(nèi)插函數(shù)在其中有效的視頻的時域;由該計算設(shè)備并且對于該視頻的視頻幀基于所 接收的內(nèi)插函數(shù)確定該視頻幀中用于與該對象相關(guān)聯(lián)的標(biāo)簽的位置,其中該標(biāo)簽與關(guān)聯(lián)于 該對象的知識數(shù)據(jù)相關(guān)聯(lián);以及由該計算設(shè)備輸出視頻幀以及根據(jù)所確定的位置定位的標(biāo) 簽中的至少一個以顯示。
[0006] 在另一個示例中,一種設(shè)備包括存儲器和接口,該接口被配置為接收包括多個視 頻幀的視頻、該視頻中表示的至少一個對象的指示、用于該視頻的視頻幀的至少一個序列 的與該對象相關(guān)聯(lián)的內(nèi)插函數(shù)的指示、以及與該對象相關(guān)聯(lián)的知識數(shù)據(jù),其中該內(nèi)插函數(shù) 指定該內(nèi)插函數(shù)在其中有效的視頻時域。該設(shè)備進(jìn)一步包括一個或多個可編程處理器,其 被配置為對于該視頻的視頻幀基于所接收的內(nèi)插函數(shù)確定該視頻幀中用于顯示與該對象 相關(guān)聯(lián)的標(biāo)簽的位置,其中該標(biāo)簽與關(guān)聯(lián)于該對象的知識數(shù)據(jù)相關(guān)聯(lián);以及輸出視頻幀以 及根據(jù)所確定的位置定位的標(biāo)簽中的至少一個以顯示。
[0007] 在另一個示例中,一種計算機可讀設(shè)備編碼有指令,該指令在被執(zhí)行時使得計算 設(shè)備的一個或多個可編程處理器接收包括多個視頻幀的視頻、該視頻中表示的至少一個對 象的指示、用于該視頻中的視頻幀的至少一個序列的與該對象相關(guān)聯(lián)的內(nèi)插函數(shù)的指示、 以及與該對象相關(guān)聯(lián)的知識數(shù)據(jù),其中該內(nèi)插函數(shù)指定該內(nèi)插函數(shù)在其中有效的視頻的時 域;對于該視頻的視頻幀基于所接收的內(nèi)插函數(shù)確定該視頻幀中用于顯示與該對象相關(guān)聯(lián) 的標(biāo)簽的位置,其中該標(biāo)簽與關(guān)聯(lián)于該對象的知識數(shù)據(jù)相關(guān)聯(lián);以及輸出視頻幀以及根據(jù) 所確定的位置定位的標(biāo)簽中的至少一個以顯示。
[0008] 本公開的一個或多個示例的細(xì)節(jié)在附圖和以下描述中給出。其它的特征、目標(biāo)和 優(yōu)勢將由于該描述和附圖以及由于權(quán)利要求而是顯而易見的。
【附圖說明】
[0009] 圖1是圖示依據(jù)本公開的一個或多個方面的服務(wù)器設(shè)備、客戶端設(shè)備以及由該客 戶端設(shè)備所提供的用戶界面的概念圖。
[0010] 圖2是圖示被配置為執(zhí)行本公開的一種或多種服務(wù)器側(cè)內(nèi)插視頻標(biāo)簽技術(shù)的服 務(wù)器設(shè)備的細(xì)節(jié)的框圖。
[0011] 圖3是圖示被配置為執(zhí)行本公開的一種或多種客戶端側(cè)內(nèi)插視頻標(biāo)簽技術(shù)的客 戶端設(shè)備的細(xì)節(jié)的框圖。
[0012] 圖4A-4C是依據(jù)本公開的一個或多個方面的具有內(nèi)插視頻標(biāo)簽的用戶界面的概 念圖。
[0013] 圖5是圖示服務(wù)器設(shè)備可以通過其來實施本公開的一種或多種服務(wù)器側(cè)內(nèi)插視 頻標(biāo)簽技術(shù)的示例過程的流程圖。
[0014] 圖6是圖示客戶端設(shè)備可以通過其來實施本公開的一種或多種客戶端側(cè)內(nèi)插視 頻標(biāo)簽技術(shù)的示例過程的流程圖。
[0015] 圖7是圖示服務(wù)器設(shè)備可以通過其來實施本公開的一種或多種服務(wù)器側(cè)內(nèi)插視 頻標(biāo)簽技術(shù)的另一種示例過程的流程圖。
[0016] 圖8是圖示客戶端設(shè)備可以通過其來實施本公開的一種或多種客戶端側(cè)內(nèi)插視 頻標(biāo)簽技術(shù)的另一種示例過程的流程圖。
【具體實施方式】
[0017] 計算設(shè)備或者在計算設(shè)備上執(zhí)行的程序可以播放或者以其它方式輸出視頻數(shù)據(jù)。 更具體地,計算設(shè)備可以通過顯示圖像(或"視頻幀")序列來播放視頻。此外,計算設(shè)備可 以結(jié)合播放視頻而輸出音頻。在各種情形中,用戶可能希望觀看與所播放的視頻中表示的 對象相關(guān)聯(lián)的數(shù)據(jù)。例如,用戶可能希望觀看與出現(xiàn)在所播放的視頻中的畫面上的演員相 關(guān)聯(lián)的諸如影片目錄之類的數(shù)據(jù)。作為另一個示例,用戶可能希望觀看與視頻中所表示的 無生命實體相關(guān)聯(lián)的數(shù)據(jù),諸如特定建筑物的名稱或位置或者歌曲的名稱。
[0018] -般地,本公開的技術(shù)涉及對視頻的幀中所表示的對象添加標(biāo)簽。該標(biāo)簽可以使 得用戶能夠訪問與視頻的幀中所表示的各種對象相關(guān)聯(lián)的信息(例如"元數(shù)據(jù)")。例如, 描述了用于計算給定視頻幀中顯示與對象相關(guān)聯(lián)的標(biāo)簽的位置的技術(shù)。此外,描述了用于 計算所要顯示的標(biāo)簽的性質(zhì)和/或大小的技術(shù)。
[0019] 在一個示例方面中,諸如實施該技術(shù)的服務(wù)器之類的計算設(shè)備可以檢測并識別視 頻內(nèi)諸如人臉的一個或多個對象。此外,該服務(wù)器可以確定包括該對象的連續(xù)視頻幀的一 個或多個序列,其被稱之為分段。針對每個分段,該服務(wù)器可以確定該對象在相應(yīng)序列的起 始幀和結(jié)束幀內(nèi)的位置?;趯ο罂缫曨l幀的序列的起始和結(jié)束位置("端點"),該服務(wù) 器可以確定表達(dá)該對象跨該視頻幀的序列的移動的內(nèi)插函數(shù)。表達(dá)對象跨幀的移動的精確 內(nèi)插函數(shù)可以是非線性的,諸如與對象的二次運動相關(guān)聯(lián)的內(nèi)插函數(shù)。該服務(wù)器可以利用 產(chǎn)生在所允許的誤差公差內(nèi)的結(jié)果的線性內(nèi)插函數(shù)對非線性內(nèi)插函數(shù)進(jìn)行近似。例如,該 線性內(nèi)插函數(shù)可以簡單地指定該對象在視頻分段中的起始幀和結(jié)束幀中的位置,以及該內(nèi) 插函數(shù)在其中有效的時域。
[0020] 該服務(wù)器還可以基于所近似的函數(shù)將標(biāo)簽與每個序列相關(guān)聯(lián),使得該視頻幀內(nèi)的 標(biāo)簽的位置近似地跟蹤該對象跨序列的移動。更具體地,該服務(wù)器可以存儲該對象的表示 以及有關(guān)該對象的信息。在其中該對象是與演員相關(guān)聯(lián)的臉部圖像的示例中,該服務(wù)器可 以存儲與該演員相關(guān)的信息,諸如該演員迄今為止的影片目錄。作為另一個示例,如果該對 象是諸如城市天際線之類的位置的表示,該服務(wù)器可以存儲與該城市相關(guān)的信息,諸如旅 游相關(guān)的數(shù)據(jù)以及指向旅游網(wǎng)站的鏈接。此外,該服務(wù)器可以存儲標(biāo)簽函數(shù),其將特定對象 的標(biāo)簽映射至對象相關(guān)信息。此外,該服務(wù)器可以連同包括內(nèi)插函數(shù)的基于一個或多個對 象的存在而指示各種分段的數(shù)據(jù)一起將視頻傳送至一個或多個客戶端設(shè)備,諸如用于訪問 視頻的客戶端設(shè)備。
[0021] 進(jìn)而,從服務(wù)器接收該視頻的客戶端設(shè)備可以實施本公開的一種或多種技術(shù)以向 用戶提供針對有關(guān)該視頻中的對象的信息的輕量級的基于標(biāo)簽的訪問。例如,在從服務(wù)器 下載或以其它方式接收一些或全部視頻文件之后或同時,該客戶端設(shè)備可以為用戶準(zhǔn)備這 樣的文件的一個或多個部分供其觀看,其具有訪問對象有關(guān)信息的選項。更具體地,客戶端 設(shè)備可以識別該視頻的特定實例處的所有"活動"標(biāo)簽。如這里所使用的,術(shù)語"活動"可 以描述與當(dāng)前視頻幀中所顯示的對象相關(guān)聯(lián)的標(biāo)簽。給定視頻幀可以基于幀中所識別的對 象的數(shù)量而包括多個活動標(biāo)簽。例如,客戶端設(shè)備可以對于視頻文件的每個序列識別服務(wù) 器與該序列中所表示的對象相關(guān)聯(lián)的標(biāo)簽。此外,該客戶端設(shè)備可以基于對象的屬性選擇 或計算標(biāo)簽性質(zhì)。作為幾個示例,該客戶端設(shè)備可以對于臉選擇圓形或橢圓形,對于建筑物 或建筑物集群選擇定制多邊形,或者對于諸如歌曲之類的音頻對象選擇音符形狀。
[0022] 使用服務(wù)器對于特定對象所提供的內(nèi)插函數(shù),客戶端設(shè)備可以確定該對象跨序列 的近似運動(例如路徑)。更具體地,該客戶端設(shè)備可以應(yīng)用該內(nèi)插函數(shù)以近似該序列的每 個視頻幀內(nèi)的對象的位置?;趯ο笤趲瑑?nèi)的近似位置,客戶端設(shè)備可以與相對應(yīng)視頻幀 同時輸出適當(dāng)標(biāo)簽,由此使得用戶能夠基于當(dāng)前所顯示的視頻幀內(nèi)的對象位置來訪問對象 的標(biāo)簽。
[0023] 例如,該客戶端設(shè)備可以輸出視頻,并且可以響應(yīng)于接收到暫停請求而顯示視頻 幀,該視頻幀覆蓋有與該視頻幀內(nèi)的對象相關(guān)聯(lián)的標(biāo)簽,其中該標(biāo)簽的形狀和位置基于相 應(yīng)內(nèi)插函數(shù)來計算。此外,該客戶端設(shè)備可以對標(biāo)簽進(jìn)行配置以用作指向特定于相應(yīng)對象 的信息的鏈接。例如,該客戶端設(shè)備可以使得用戶能夠與標(biāo)簽進(jìn)行交互(例如通過觸摸輸 入),由此調(diào)用指向?qū)ο笙嚓P(guān)信息的鏈接。
[0024] 本公開的技術(shù)可以提供一種更為潛在的優(yōu)勢。例如,通過以所描述的方式輸出標(biāo) 簽,客戶端設(shè)備可以節(jié)約該設(shè)備本來要通過識別視頻的每個幀中的對象并且相應(yīng)地輸出標(biāo) 簽所耗費的資源。例如,該客戶端設(shè)備可以通過基于分段端點僅下載并存儲對象信息和標(biāo) 簽內(nèi)插功能而不是對于視頻的每個和全部幀下載并存儲標(biāo)簽位置數(shù)據(jù)而來節(jié)約大量資源。 客戶端設(shè)備可以通過實施本公開的技術(shù)而節(jié)約的資源的示例包括處理資源、數(shù)據(jù)存儲容量 和計算時間。例如,本公開的技術(shù)在視頻包括若干個計算設(shè)備對于其提供元數(shù)據(jù)的對象的 情形中可以是特別有用的。
[0025] 圖1是圖示依據(jù)本公開的一個或多個方面的服務(wù)器設(shè)備2、客戶端設(shè)備12以及由 客戶端設(shè)備12所提供的用于視頻顯示的用戶界面(UI)26的概念圖。服務(wù)器設(shè)備2可以與 客戶端設(shè)備12以及諸如各種其它客戶端設(shè)備的其它計算設(shè)備通信地耦合。作為一些示例, 服務(wù)器設(shè)備2可以使用一種或多種類型的通信連接與客戶端設(shè)備12通信,諸如經(jīng)由包括互 聯(lián)網(wǎng)、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、城域網(wǎng)(MAN)的系統(tǒng),諸如第三代(3G)和第四代(4G) 蜂窩網(wǎng)絡(luò)之類的無線協(xié)議,等等。
[0026] 依據(jù)本公開的一個或多個方面,服務(wù)器設(shè)備2和客戶端設(shè)備12可以不被要求保持 持續(xù)通信連接來執(zhí)行并利用這里所描述的內(nèi)插視頻標(biāo)簽技術(shù)。相反,例如,服務(wù)器設(shè)備2可 以執(zhí)行本公開的一種或多種服務(wù)器側(cè)技術(shù),并且通過通信連接向客戶端設(shè)備12傳送數(shù)據(jù) 24。當(dāng)接收到數(shù)據(jù)24時,客戶端設(shè)備12可以執(zhí)行本公開的一種或多種客戶端側(cè)技術(shù)以執(zhí) 行內(nèi)插視頻標(biāo)簽,而不要求與服務(wù)器設(shè)備進(jìn)一步交互。以這種方式,即使在客戶端設(shè)備未活 動地耦合至服務(wù)器設(shè)備2的情況下,諸如在客戶端設(shè)備12不訪問互聯(lián)網(wǎng)連接時,客戶端設(shè) 備12也可以顯示帶標(biāo)簽視頻和標(biāo)簽相關(guān)元數(shù)據(jù)。
[0027] 服務(wù)器設(shè)備2可以實施這里所描述的內(nèi)插視頻標(biāo)簽技術(shù)的一個或多個服務(wù)器側(cè) 的部分。雖然僅出于說明的目的被圖示為單個設(shè)備,但是服務(wù)器設(shè)備2在各種實施方式中 可以包括設(shè)備的組合,諸如各種主機設(shè)備和/或其它互連的計算設(shè)備。如圖1所示,服務(wù)器 設(shè)備2可以包括各種組件,包括對象識別模塊4、內(nèi)插函數(shù)模塊6、視頻分段模塊8和映射模 塊10。在各種實施方式中,這里關(guān)于兩個或更多模塊所描述的功能可以被組合為單個模塊。 相反地,關(guān)于任意一個模塊所描述的功能可以劃分在兩個或更多模塊之間。
[0028] 服務(wù)器設(shè)備2可以存儲或者以其它方式訪問各種數(shù)字?jǐn)?shù)據(jù),諸如視頻文件(或者 簡稱為"視頻")以及各種知識數(shù)據(jù)。作為一個示例,服務(wù)器設(shè)備2可以訪問與視頻中的各 種對象相關(guān)的知識數(shù)據(jù),諸如與出現(xiàn)在視頻中的演員相關(guān)的信息、諸如出現(xiàn)在視頻中的建 筑物和地理位置之類的無生命對象、以及要作為視頻的一部分輸出的音頻數(shù)據(jù),諸如歌曲、 敘述或者執(zhí)行畫外音的演員的身份。被服務(wù)器設(shè)備2所訪問的視頻可以包括視頻幀,其可 以包括圖像和/或圖片。該視頻可以根據(jù)視頻幀被安排以便進(jìn)行呈現(xiàn)的特定順序進(jìn)行配 置,諸如根據(jù)視頻幀要被輸出以供顯示的順序。
[0029] 對象識別模塊4可以被配置為或者能夠以其它方式進(jìn)行操作以識別視頻中所包 括的連續(xù)視頻幀的集合,每個視頻幀均包括對象的表示。例如,對象識別模塊4可以識別每 個均包括相同對象的表示的連續(xù)幀的集合,諸如整個視頻中的幀的子集。該對象可以是在 這些幀中以視覺方式表示的演員或無生命對象,或者可以與關(guān)聯(lián)于這些幀的音頻數(shù)據(jù)相關(guān) 聯(lián)。如這里所使用的,術(shù)語"序列"可以定義對象識別模塊4的輸出。序列可以與所識別的 對象相關(guān)聯(lián),并且可以包括被識別以表示對象在視頻或視頻的音頻數(shù)據(jù)中的連續(xù)出現(xiàn)的幀 的集合中的相關(guān)數(shù)據(jù),諸如這些幀的時間數(shù)據(jù)(例如,毫秒和/或幀計數(shù)),以及這些幀中所 識別的對象的形狀、大小、位置或者簡單地存在。
[0030] 基于一個或多個參數(shù),對象識別模塊4可以將序列識別為均表示對象的視頻幀 塊,即使該序列中的某些幀不包括該對象的表示。例如,在一個示例中,對象識別模塊4可 以將序列識別為表示屏幕上的演員,即使該序列包括一個或多個不表示該演員的幀,假設(shè) 該演員的表示并未顯現(xiàn)的情形未以大于在該序列中的閾值數(shù)量(例如兩個)的連續(xù)幀中發(fā) 生。在另一個示例中,對象識別模塊4可以識別與畫外音相關(guān)聯(lián)的序列,即使該畫外音在該 序列的某些幀的顯示期間是聽不到的,假設(shè)聽不到該畫外音的情形不超過該序列的閾值持 續(xù)時間(例如兩秒)。
[0031] 在一些實施方式中,對象識別模塊4可以為在端點幀之后的有限數(shù)量的幀(諸如 一個幀、兩個幀等)確定對象的存在,以使得客戶端設(shè)備能夠在對象停止存在于視頻中之 后的某個時間內(nèi)輸出該對象的標(biāo)簽。以這種方式,對象識別模塊4可以使得用戶能夠在對 象停止存在于視頻中之后的某個時間內(nèi)訪問標(biāo)簽和/或相關(guān)聯(lián)的知識數(shù)據(jù)。例如,對象識 別模塊4可以確定歌曲在該歌曲實際上結(jié)束之后的數(shù)秒鐘范圍內(nèi)的額外幀期間存在,以考 慮到諸如由于淡出或者被與歌曲同時存在的其它聲音所抑制而錯誤地認(rèn)為歌曲結(jié)束時、或 者在歌曲是視頻的音軌中的插入片段而用戶仍然期望該歌曲繼續(xù)播放時的情形,并且因此 其標(biāo)簽是可見的。通過允許對象從序列中短暫缺失,對象識別模塊4可以考慮到諸如視頻 中的燈光閃爍或者擋住幀中的視覺對象的前景對象之類的情形,或者考慮到在畫外音或歌 曲播放期間發(fā)生的暫停。這樣的對象缺失在這里也可以被稱作"間隙"或"孔"。以這種方 式,對象識別模塊4可以實施本公開的技術(shù)以考慮到由于視頻和相關(guān)聯(lián)的音頻中的常見狀 況所導(dǎo)致的對象缺失。
[0032] 在示例中,對象識別模塊4可以沿視頻時間將對象的連續(xù)表示分段或"切割"為覆 蓋該連續(xù)出現(xiàn)的持續(xù)時間的不同部分的多個序列。例如,對象識別模塊4可以確定對象表 示在某個幀出現(xiàn)"跳躍",從而實質(zhì)性和/或快速地與(多個)先前幀的表示相關(guān),這樣的 移動將不會在邏輯上被識別為是連續(xù)的,并且因此定義在該幀之前結(jié)束的序列并且在該幀 開始的新的序列。如這里所使用的,術(shù)語"移動"可以與對象的大小變化、位置變化、形狀變 化以及存在變化中的任意一個或多個相關(guān)聯(lián)。例如,實質(zhì)性移動可以與維度參數(shù)(寬度、高 度、x坐標(biāo)位置、y坐標(biāo)位置、直徑、半徑等)改變超過閾值數(shù)量(例如視頻幀的寬度或高度 的30% (0.3))相關(guān)聯(lián)。例如,跳躍可以與超過閾值誤差值的誤差值相關(guān)聯(lián),上述閾值誤差 值與對象的非連續(xù)移動相關(guān)