本申請總體上涉及視頻傳輸(videotransmission)。具體地,本申請涉及用于減輕視頻傳輸?shù)膸捪拗撇⒃诮邮掌魈幪岣咭曨l的質(zhì)量的裝置和方法。更具體地,提供了改進(jìn)的視頻傳輸系統(tǒng)和方法,用于基于獨(dú)立編碼的背景和背景更新在接收器處生成高分辨率視頻。
背景技術(shù):
實(shí)時視頻通信系統(tǒng)和新興的網(wǎng)真(telepresence)領(lǐng)域正在面臨著內(nèi)在的挑戰(zhàn),因?yàn)樗鼈冊噲D向遠(yuǎn)程用戶模擬存在于另一物理空間中的體驗(yàn)。這是因?yàn)榕c具有當(dāng)前技術(shù)水平的分辨率的市售單鏡頭攝像機(jī)相比,人眼利用將其高分辨率中心凹(fovea)固定在關(guān)注對象上的能力,在其視場(fieldofview)上保持了極高的優(yōu)勢。參見http://www.clarkvision.com/imagedetail/eye-resolution.html(在120度的范圍,將人眼的分辨率估計(jì)為576兆象素)。此外,網(wǎng)真系統(tǒng)還在實(shí)踐中受到對于大多數(shù)用戶可用的網(wǎng)絡(luò)帶寬的限制。因此,除了使用在大多數(shù)平板電腦、手機(jī)、和筆記本電腦中裝備的窄視場攝像機(jī)進(jìn)行的單一的人與人視頻聊天之外,網(wǎng)真僅具有有限的吸引力(uptake),這也就不足為奇了。
商業(yè)網(wǎng)真系統(tǒng)中的自動和手動云臺變焦(ptz,pan-tilt-zoom)攝像機(jī)試圖通過光學(xué)和機(jī)械地將視場固定在場景中所選的關(guān)注部分上來克服單鏡頭攝像機(jī)分辨率的限制。這樣做部分地減輕了分辨率的限制,但仍有一些缺點(diǎn)。例如,在一給定時間只能進(jìn)行一次機(jī)械固定;因此,可能無法令人滿意地服務(wù)具有不同關(guān)注點(diǎn)的多個遠(yuǎn)程用戶。此外,變焦鏡頭和機(jī)械云臺機(jī)構(gòu)提高了攝像機(jī)系統(tǒng)的成本,并對整個系統(tǒng)的可靠性提出了新的挑戰(zhàn)。也就是說,與通常在其使用壽命期間維持更少的移動圈數(shù)(movecycle)的手動系統(tǒng)相比,自動ptz系統(tǒng)對機(jī)械結(jié)構(gòu)(mechanics)產(chǎn)生了更高的要求。與固定攝像機(jī)相比,對于高質(zhì)量視頻編碼的帶寬需求也顯著增加。類似地,現(xiàn)有系統(tǒng)中的一些數(shù)字ptz也存在如上所述的許多缺點(diǎn),包括例如不能由遠(yuǎn)端的多個用戶控制和對于視頻編碼的比特率要求較高。
全景和超廣角視頻攝像機(jī)可以滿足網(wǎng)真系統(tǒng)的分辨率要求,以提供理想的用戶體驗(yàn)。這些攝像機(jī)在傳感器分辨率和像素速率方面的增長潛力遠(yuǎn)遠(yuǎn)超出現(xiàn)有的標(biāo)準(zhǔn)。這可以例如通過彎曲傳感器表面和單中心鏡頭設(shè)計(jì)來實(shí)現(xiàn)。參見http://www.jacobsschool.ucsd.edu/news/news_releases/release.sfe?id=1418(討論了分辨率可至少為85兆象素的120度fov成像器);http://image-sensors-world.blogspot.co.il/2014/04/vlsi-symposia-sony-presents-curved.html(傳感器制造商公布了彎曲圖像傳感器的原型)。然而,這樣的設(shè)計(jì)將對當(dāng)前網(wǎng)絡(luò)的容量和視頻編碼效率造成巨大壓力,從而使得它們對于廣泛的現(xiàn)實(shí)部署來說是不切實(shí)際的。例如,每秒30幀的85兆象素的攝像機(jī)將需要低至0.0002比特/像素的壓縮,以適應(yīng)10兆比特/秒(mbit/s)的鏈路??紤]到例如在良好的條件下以0.05比特/像素運(yùn)行的h.264等當(dāng)前的視頻壓縮標(biāo)準(zhǔn),這在現(xiàn)今通常是無法達(dá)到的。
因此,需要改進(jìn)的方法和系統(tǒng)來減輕視頻傳輸?shù)膸捪拗撇⑶一趥鹘y(tǒng)的攝像機(jī)硬件生成高分辨率的視頻。還需要利用這些改進(jìn)來使得現(xiàn)代實(shí)時通信系統(tǒng)和理想網(wǎng)真體驗(yàn)成為可能。
技術(shù)實(shí)現(xiàn)要素:
因此,本申請的目的是提供方法和系統(tǒng),用于減輕視頻傳輸上的帶寬限制,從而使用傳統(tǒng)的硬件設(shè)備來生成廣角、高分辨率的視頻。
特別地,根據(jù)本申請,在一個實(shí)施例中,提供了一種用于傳輸視頻的方法,所述方法包括:1)通過從所述視頻確定所述場景的靜態(tài)背景來初始化背景模型;以及2)通過與所述視頻獨(dú)立地對所述背景模型進(jìn)行編碼來將所述場景的背景作為所述背景模型進(jìn)行發(fā)送。所述背景模型被增量地更新,并且所述更新被進(jìn)一步與所述視頻獨(dú)立地編碼和發(fā)送。
在另一實(shí)施例中,所述方法還包括通過將所述背景與所述視頻合并來在接收器處產(chǎn)生增強(qiáng)的視頻。在又一實(shí)施例中,以比所述視頻的比特率更低的比特率對所述背景模型進(jìn)行更新和發(fā)送。在進(jìn)一步的實(shí)施例中,所述方法還包括針對每個幀發(fā)送所述背景和所述視頻之間的幾何映射。
在另一實(shí)施例中,所述方法還包括通過場景分析來確定所述視頻的視場。在又一實(shí)施例中,所述背景模型用于抑制所述視頻的所述背景中的噪聲變化。
根據(jù)一實(shí)施例,本申請的方法還包括通過標(biāo)準(zhǔn)視頻編解碼器(codec)來壓縮所述視頻。在另一實(shí)施例中,所述視頻編解碼器是h.264、h.265、vp8、和vp9之一。在又一實(shí)施例中,所述背景在由h.264、h.265、vp8、和vp9之一定義的輔助數(shù)據(jù)信道中發(fā)送。
根據(jù)另一實(shí)施例,所述背景模型是參數(shù)模型。在進(jìn)一步的實(shí)施例中,所述參數(shù)模型是高斯混合(mog)。
根據(jù)又一實(shí)施例,所述背景模型是非參數(shù)模型。在進(jìn)一步的實(shí)施例中,所述非參數(shù)模型是視覺背景提取器(vib)。
根據(jù)本申請的另一實(shí)施例,提供了一種用于在場景的視頻上模擬云臺變焦操作的方法,所述方法包括:1)通過從所述視頻確定所述場景的靜態(tài)背景來初始化背景模型;2)通過與所述視頻獨(dú)立地對所述背景模型進(jìn)行編碼來將所述場景的背景作為所述背景模型進(jìn)行發(fā)送,其中,所述背景模型被增量地更新,其中,所述更新被進(jìn)一步與所述視頻獨(dú)立地編碼和發(fā)送,并且其中,針對每個幀發(fā)送所述背景和所述視頻之間的幾何映射;以及3)通過場景分析來選擇所述視頻的一個或多個視場;以及通過將所述背景與所述視頻合并來在接收器處產(chǎn)生增強(qiáng)的視頻。
在另一實(shí)施例中,該方法還包括在所述接收器處控制所述模擬的云臺變焦操作。在又一實(shí)施例中,所述方法還包括在所述視頻的發(fā)送器處控制所述模擬的云臺變焦操作。
根據(jù)本申請的又一實(shí)施例,提供了一種用于傳輸場景的視頻的系統(tǒng),所述系統(tǒng)包括:1)發(fā)送器,所述發(fā)送器包括外部編碼器和核心編碼器,其中,所述外部編碼器適于接收所述視頻并分別地將顯著視頻以及背景和幾何比特流輸出到所述核心編碼器中,其中,所述核心編碼器適于輸出編碼比特流;以及2)接收器,所述接收器包括核心解碼器,其中,所述核心解碼器適于接收所述編碼比特流并且輸出所述顯著視頻。
根據(jù)本申請的進(jìn)一步的實(shí)施例,提供了一種用于傳輸場景的視頻的系統(tǒng),所述系統(tǒng)包括:1)發(fā)送器,所述發(fā)送器包括外部編碼器和核心編碼器,其中,所述外部編碼器適于接收所述視頻并分別地將顯著視頻以及背景和幾何比特流輸出到所述核心編碼器中,其中,所述核心編碼器適于輸出編碼比特流;以及2)接收器,所述接收器包括核心解碼器和外部解碼器,其中,所述核心解碼器適于接收所述編碼比特流并且分別地將所述顯著視頻以及所述背景和幾何比特流輸出到所述外部解碼器中,其中,所述外部解碼器適于合并所述顯著視頻以及所述背景和幾何比特流,從而輸出所述場景的增強(qiáng)的視頻。
在另一實(shí)施例中,所述外部編碼器還包括背景估計(jì)單元,所述背景估計(jì)單元適于通過從所述視頻確定所述場景的靜態(tài)背景來初始化背景模型,并且以比所述視頻的比特率更低的比特率增量地更新所述背景模型。在又一實(shí)施例中,所述外部編碼器還包括連接到所述背景估計(jì)單元的背景編碼器。所述背景編碼器適于與所述視頻獨(dú)立地對所述背景模型和所述更新進(jìn)行編碼。在進(jìn)一步的實(shí)施例中,所述背景編碼器包括熵編碼器、熵解碼器、更新預(yù)測單元、和更新存儲單元。
根據(jù)另一實(shí)施例,所述背景編碼器在下游方向連接到比特流復(fù)用器。在又一實(shí)施例中,所述外部編碼器還包括顯著性成幀(saliencyframing)單元,所述顯著性成幀單元適于將幾何比特流輸出到所述比特流復(fù)用器中。所述比特流復(fù)用器適于合并所述幾何比特流和所述背景比特流,從而輸出背景和幾何比特流。
在進(jìn)一步的實(shí)施例中,所述外部編碼器還包括能夠?qū)λ鲆曨l進(jìn)行縮放(scale)和裁剪(crop)的縮減(downscale)單元。所述縮減單元在下游方向連接到噪聲抑制單元。所述噪聲抑制單元適于基于所述背景模型來抑制所述顯著視頻中的噪聲。
根據(jù)另一實(shí)施例,所述外部解碼器還包括:i)比特流解復(fù)用器,適于從所述核心編碼器接收所述背景和幾何比特流并分別地輸出所述幾何比特流和所述背景比特流;ii)背景解碼器,連接到所述比特流解復(fù)用器并適于接收所述背景比特流;以及iii)背景合并單元,在下游方向連接到所述比特流解復(fù)用器和所述背景解碼器。所述背景合并單元適于從所述核心解碼器接收所述顯著視頻,并且將所述幾何比特流和所述背景比特流與所述顯著視頻合并,從而產(chǎn)生所述場景的增強(qiáng)的視頻。
在又一實(shí)施例中,所述背景解碼器包括熵解碼器、更新預(yù)測單元、和更新存儲單元。
在進(jìn)一步的實(shí)施例中,所述外部解碼器還包括能夠接收控制輸入從而產(chǎn)生增強(qiáng)的視頻的虛擬云臺變焦單元。
根據(jù)另一實(shí)施例,本申請的所述系統(tǒng)中的所述核心編碼器是h.264/h.265視頻編碼器,并且所述背景和幾何比特流通過所述h.264/h.265視頻編碼器的網(wǎng)絡(luò)抽象層承載。在又一實(shí)施例中,本申請的所述系統(tǒng)中的所述核心解碼器是h.264/h.265視頻解碼器,并且所述背景和幾何比特流通過所述h.264/h.265視頻解碼器的網(wǎng)絡(luò)抽象層承載。
在進(jìn)一步的實(shí)施例中,所述核心編碼器處于多媒體容器格式,并且所述背景和幾何比特流通過所述核心編碼器的輔助數(shù)據(jù)信道承載。在另一實(shí)施例中,所述核心解碼器處于多媒體容器格式,并且所述背景和幾何比特流通過所述核心解碼器的輔助數(shù)據(jù)信道承載。
根據(jù)又一實(shí)施例,本申請的所述系統(tǒng)中的所述核心編碼器是標(biāo)準(zhǔn)視頻編碼器,并且所述背景和幾何比特流通過所述核心編碼器的輔助數(shù)據(jù)信道承載。在進(jìn)一步的實(shí)施例中,所述核心解碼器是標(biāo)準(zhǔn)視頻解碼器,并且所述背景和幾何比特流通過所述核心解碼器的輔助數(shù)據(jù)信道承載。
根據(jù)本申請的另一實(shí)施例,提供了一種用于傳輸和呈現(xiàn)來自多個視場的場景的視頻的方法,所述方法包括:(1)通過從所述視頻確定所述場景的靜態(tài)背景來初始化三維背景模型;(2)通過與所述視頻獨(dú)立地對所述背景模型進(jìn)行編碼來將所述場景的背景作為所述背景模型進(jìn)行發(fā)送,其中,所述背景模型被增量地更新,并且其中,所述更新被進(jìn)一步與所述視頻獨(dú)立地編碼和發(fā)送;以及(3)通過將所述背景與所述視頻合并來在接收器處呈現(xiàn)增強(qiáng)的視頻。
在又一實(shí)施例中,所述接收器是vr/ar設(shè)備。在進(jìn)一步的實(shí)施例中,所述方法還包括:對來自所述vr/ar接收器的視線方向的關(guān)注區(qū)域進(jìn)行自學(xué)習(xí);以及發(fā)送所述關(guān)注區(qū)域的高分辨率視頻,其中,通過將所述關(guān)注區(qū)域的所述高分辨率視頻與所述背景合并來創(chuàng)建所述增強(qiáng)的視頻。
根據(jù)本申請的另一實(shí)施例,提供了一種用于傳輸和呈現(xiàn)來自多個視場的場景的視頻的系統(tǒng),所述系統(tǒng)包括:(1)發(fā)送器,所述發(fā)送器包括外部編碼器和核心編碼器,其中,所述外部編碼器適于接收所述視頻并分別地將顯著視頻以及三維背景和幾何比特流輸出到所述核心編碼器中,其中,所述核心編碼器適于輸出編碼比特流;以及(2)vr/ar接收器,所述vr/ar接收器包括核心解碼器和外部解碼器,其中,所述核心解碼器適于接收所述編碼比特流并且分別地將所述顯著視頻以及所述背景和幾何比特流輸出到所述外部解碼器中,其中,所述外部解碼器適于合并所述顯著視頻以及所述背景和幾何比特流,從而呈現(xiàn)所述場景的增強(qiáng)的視頻。在另一實(shí)施例中,所述三維背景模型被增量地更新。
在又一實(shí)施例中,所述外部編碼器包括背景估計(jì)單元,所述背景估計(jì)單元適于通過從所述視頻確定所述場景的靜態(tài)背景來初始化三維背景模型,并且以比所述視頻的比特率更低的比特率增量地更新所述背景模型。
在進(jìn)一步的實(shí)施例中,所述系統(tǒng)還包括用于捕獲所述場景的視頻源。在另一實(shí)施例中,所述視頻源包括具有部分重疊的視場的一個或多個攝像機(jī)。在又一實(shí)施例中,所述攝像機(jī)是移動攝像機(jī)。在進(jìn)一步的實(shí)施例中,所述系統(tǒng)適于估計(jì)所述場景的移動部分和靜止部分。在另一實(shí)施例中,所述外部編碼器包括背景估計(jì)單元,所述背景估計(jì)單元適于基于所述場景的所述靜止部分生成三維背景模型,并且以比所述視頻的比特率更低的比特率增量地更新所述背景模型。
在進(jìn)一步的實(shí)施例中,所述移動攝像機(jī)是ptz攝像機(jī)。在另一實(shí)施例中,所述vr/ar接收器適于對來自其視線方向的關(guān)注區(qū)域進(jìn)行自學(xué)習(xí),并且其中,所述一個或多個ptz攝像機(jī)適于捕獲所述關(guān)注區(qū)域的高分辨率視頻。
附圖說明
圖1示出根據(jù)本申請一個實(shí)施例的視頻傳輸系統(tǒng)。
圖2示出根據(jù)另一實(shí)施例的視頻傳輸系統(tǒng)的外部編碼器。
圖3示出根據(jù)另一實(shí)施例的視頻傳輸系統(tǒng)的外部解碼器。
圖4示出根據(jù)另一實(shí)施例的視頻傳輸系統(tǒng)的h.264/h.265核心編碼器。
圖5示出根據(jù)另一實(shí)施例的視頻傳輸系統(tǒng)的h.264/h.265核心解碼器。
圖6示出根據(jù)另一實(shí)施例的視頻傳輸系統(tǒng)的多媒體容器格式(multimediacontainerformat)核心編碼器。
圖7示出根據(jù)另一實(shí)施例的視頻傳輸系統(tǒng)的多媒體容器格式核心解碼器。
圖8示出根據(jù)另一實(shí)施例的作為視頻傳輸系統(tǒng)的核心編碼器的、具有輔助數(shù)據(jù)信道的標(biāo)準(zhǔn)視頻編碼器。
圖9示出根據(jù)另一實(shí)施例的作為視頻傳輸系統(tǒng)的核心解碼器的、具有輔助數(shù)據(jù)信道的標(biāo)準(zhǔn)視頻解碼器。
圖10示出根據(jù)另一實(shí)施例的視頻傳輸系統(tǒng)中的背景編碼器。
圖11示出根據(jù)另一實(shí)施例的視頻傳輸系統(tǒng)中的背景解碼器。
具體實(shí)施方式
根據(jù)本申請各種實(shí)施例的方法和系統(tǒng)采用背景模型,基于該背景模型,視頻中場景的背景被編碼和增量地更新。編碼后的背景和更新獨(dú)立于該視頻被發(fā)送。然后,在接收器處,背景可以與視頻合并,從而產(chǎn)生增強(qiáng)的高分辨率視頻。
方法概述
在一個實(shí)施例中,例如,包括前景和背景兩者的場景的視頻被發(fā)送。諸如h.264等標(biāo)準(zhǔn)視頻編解碼器對它進(jìn)行壓縮。場景的靜態(tài)背景被作為背景模型發(fā)送,該背景模型以比視頻更低的比特率被增量地更新?;谝呀⒌谋O(jiān)控系統(tǒng)技術(shù),從視頻的靜態(tài)背景來生成和初始化背景模型。
在替代實(shí)施例中,具有部分重疊視場的多個攝像機(jī)(camera)被部署為視頻源,其生成用于發(fā)送和呈現(xiàn)的一個或多個同步和協(xié)調(diào)(coordinate)的視頻流。在某些實(shí)施例中,這種視頻源包括移動攝像機(jī)。根據(jù)所述視頻流來估計(jì)場景的移動和靜止部分,并由此,基于圖像的靜止部分來生成三維背景模型。
在另一實(shí)施例中,通過場景分析——例如,將所發(fā)送視頻的視場限于人類對象——來自動限制該視場,以更好地利用視頻格式的分辨率。根據(jù)本實(shí)施例,針對每個幀,發(fā)送視頻和背景之間的確切空間關(guān)系。
在又一實(shí)施例中,背景模型用于抑制視頻的背景中的雜散噪聲(spuriousnoise)。背景模型數(shù)據(jù)和其他相關(guān)信息在由諸如h.264之類的視頻標(biāo)準(zhǔn)定義的輔助數(shù)據(jù)信道中發(fā)送。該背景和相關(guān)數(shù)據(jù)可以被以下解碼器忽略和旁路(bypass),該解碼器設(shè)置為不對通過輔助數(shù)據(jù)信道承載的數(shù)據(jù)進(jìn)行解釋。因此,根據(jù)該實(shí)施例的系統(tǒng)提供了與舊的和現(xiàn)有的既存系統(tǒng)集成的靈活性。
在某些實(shí)施例中,在接收器處,來自背景模型的輸出與視頻合并,從而產(chǎn)生增強(qiáng)的視頻。在特定實(shí)施例中,在接收器處,在增強(qiáng)的視頻上模擬ptz操作。根據(jù)一實(shí)施例,在發(fā)送器或接收器處對該模擬的ptz操作進(jìn)行控制。根據(jù)替代實(shí)施例,該控制由用戶實(shí)現(xiàn)或通過發(fā)送器或接收器處的自動處理實(shí)現(xiàn)。
背景處理
一些現(xiàn)有的視頻編碼器應(yīng)用前景背景分割,其中在編碼之前從視頻中減去背景,并且單獨(dú)地發(fā)送背景。根據(jù)本申請的一個實(shí)施例,使用諸如h.264或h.265之類的標(biāo)準(zhǔn)視頻編碼器對前景和背景兩者的視頻都進(jìn)行編碼。在本實(shí)施例中,通過將輸入的視頻像素與背景模型的預(yù)測像素狀態(tài)進(jìn)行比較來抑制背景中的雜散噪聲。因此,在本實(shí)施例中,向視頻編碼器提供了背景區(qū)域中近乎靜止的圖像。背景模型在標(biāo)準(zhǔn)編解碼器的輔助信道中被發(fā)送和增量地更新。因此,根據(jù)本實(shí)施例的背景發(fā)送方法放寬了對于視頻傳輸?shù)膸捯?,并且使得能夠通過將背景更新與視頻合并來在接收器處呈現(xiàn)高分辨率的視頻。
根據(jù)一個實(shí)施例,視頻由并不知道背景模型數(shù)據(jù)的標(biāo)準(zhǔn)解碼器進(jìn)行解碼。標(biāo)準(zhǔn)解碼器忽略未知的輔助字段,并旁路背景模型數(shù)據(jù)。該實(shí)施例的系統(tǒng)利用現(xiàn)有的核心視頻編解碼器,其提供較低的實(shí)現(xiàn)成本。因此,該實(shí)施例的系統(tǒng)提供了與舊的和現(xiàn)有系統(tǒng)的向后兼容性。
在另一實(shí)施例中,本申請的系統(tǒng)和方法以相對于前景的增強(qiáng)的表示級別來發(fā)送背景。在特定實(shí)施例中,以較高的分辨率和較高的動態(tài)范圍來發(fā)送背景數(shù)據(jù)。出于許多原因,這是有利的。例如,雖然可以修改傳統(tǒng)的混合視頻編解碼器來發(fā)送高分辨率幀內(nèi)幀(intraframe)并且以低分辨率發(fā)送預(yù)測幀,但是幀內(nèi)幀可能需要許多位來進(jìn)行編碼,因此不可能以低延遲實(shí)現(xiàn)來傳遞(transfer),而不中斷視頻流。利用根據(jù)本實(shí)施例的外層中的背景發(fā)送,核心視頻傳輸正常進(jìn)行,而不中斷,這是因?yàn)楸尘鞍l(fā)送正在完成。
與高分辨率的幀內(nèi)幀相比,根據(jù)本實(shí)施例,利用外層中的背景發(fā)送,核心編碼器可變得更簡單。這提供了成本節(jié)省和廣泛的系統(tǒng)兼容性。
模擬的云臺變焦
根據(jù)另一實(shí)施例,如上所述,本申請的系統(tǒng)模擬ptz操作。在本實(shí)施例中,視域(view)由接收側(cè)的模擬ptz處理確定,而不是在發(fā)送側(cè)固定。因此,所有的接收用戶都可以訪問另一側(cè)的不同視域。由于該模擬ptz不受機(jī)械結(jié)構(gòu)的限制,因此,在其他實(shí)施例中,它可以對許多額外的轉(zhuǎn)換和變換(transitionandtransformation)開放。特別地,在一個實(shí)施例中,提供了視域之間的瞬時切換和視域的滾動。
與現(xiàn)有的ptz網(wǎng)真解決方案相比,根據(jù)本申請的這些非機(jī)械的、模擬的ptz系統(tǒng)也提供了成本節(jié)省,并進(jìn)一步增強(qiáng)了網(wǎng)真的可靠性。
裝置和部件
參考圖1,在一實(shí)施例中,本申請的系統(tǒng)包括視頻源、發(fā)送器和接收器。在特定實(shí)施例中,視頻源、發(fā)送器和接收器中的每個都是全景的。
根據(jù)一個實(shí)施例的全景視頻源是提供廣角或全景數(shù)字視頻流的設(shè)備。在這個實(shí)施例中,它提供了適用于進(jìn)一步處理的高比特率的未壓縮視頻。一實(shí)施例中的視頻源是單個鏡頭和圖像傳感器組件;在另一實(shí)施例中,它包括多個鏡頭和傳感器以及可以模擬單個鏡頭和傳感器的操作的合適的圖像拼接軟件或硬件。在又一實(shí)施例中,視頻源包括圖形呈現(xiàn)設(shè)備,其將三維(3d)場景的幾何投影模擬到一表面。因此,本實(shí)施例的系統(tǒng)可以被有利地部署用于計(jì)算機(jī)視頻游戲。
在一個實(shí)施例中,全景視頻源的幾何投影可能與期望的呈現(xiàn)投影不同。因此,可以在視頻源設(shè)備的設(shè)計(jì)、制造或設(shè)置期間以適合于嵌入到視頻發(fā)送器中的形式對它進(jìn)行校準(zhǔn),或?qū)⑺鳛檩o信息(sideinformation)轉(zhuǎn)發(fā)到視頻發(fā)送器。發(fā)送器又將該信息提供給接收器,然后接收器可以被用于使用另一投影來呈現(xiàn)視頻。因此,該實(shí)施例的系統(tǒng)提供了在基于期望的控制在接收器處呈現(xiàn)視頻時的相當(dāng)大的靈活性,該期望的控制可以是通過設(shè)計(jì)內(nèi)置的或從用戶輸入的。在替代實(shí)施例中,可以從發(fā)送器或接收器實(shí)現(xiàn)這種控制。
根據(jù)一實(shí)施例的系統(tǒng)的發(fā)送器包括外部編碼器。參考圖2,在一實(shí)施例中,外部編碼器接收全景數(shù)字視頻流,并輸出顯著(salient)視頻流、編碼背景模型更新序列、和幾何投影數(shù)據(jù)。根據(jù)一實(shí)施例,來自外部編碼器的該數(shù)據(jù)然后被傳送到系統(tǒng)的核心編碼器。視頻流在某一實(shí)施例中為未壓縮的形式,并且適合于標(biāo)準(zhǔn)視頻編碼器的壓縮。根據(jù)另一實(shí)施例的編碼背景模型數(shù)據(jù)和幾何投影數(shù)據(jù)被復(fù)用并成幀為適合于在標(biāo)準(zhǔn)視頻編碼器的輔助數(shù)據(jù)幀中發(fā)送的格式。本實(shí)施例中的系統(tǒng)的核心編碼器輸出編碼后的比特流。
如圖4所示,一個實(shí)施例中的核心編碼器是h.264/h.265編碼器。h.264/h.265核心編碼器使用該標(biāo)準(zhǔn)的網(wǎng)絡(luò)抽象層,在標(biāo)記為用戶數(shù)據(jù)的sei報頭中發(fā)送輔助數(shù)據(jù)。在某個實(shí)施例中,該數(shù)據(jù)被未設(shè)置為接收這樣的sei報頭的接收器忽略。如上所述,該系統(tǒng)提供了向后兼容性,并有助于將其集成到現(xiàn)有的網(wǎng)真系統(tǒng)中。
根據(jù)一個實(shí)施例,在本申請的系統(tǒng)中采用的背景模型是參數(shù)模型。在這樣的參數(shù)背景模型中,基于來自過去視頻幀的樣本,對每個像素確定多個統(tǒng)計(jì)量(statistics)。根據(jù)另一實(shí)施例,背景模型是非參數(shù)模型。在這樣的非參數(shù)背景模型中,對每個像素存儲或聚合(aggregate)來自過去視頻幀的多個樣本——在有限維的空間中沒有確定統(tǒng)計(jì)量或參數(shù)。根據(jù)一實(shí)施例,非參數(shù)背景模型是視覺背景提取器(vibe)。在另一實(shí)施例中,參數(shù)背景模型是高斯混合(mog)。在本申請的某些實(shí)施例中,系統(tǒng)的背景模型是三維模型并且支持vr/ar應(yīng)用。為了本申請的各種實(shí)施例的目的,術(shù)語“三維”涵蓋以下場景,在該場景中模型為來自單視點(diǎn)的圖像,所述單視點(diǎn)的圖像具有用于圖像中每個點(diǎn)的深度,其有時被稱為“2.5維”。
根據(jù)一個實(shí)施例,通過控制場景或通過使用更簡單的背景模型進(jìn)行自舉(bootstrap),系統(tǒng)的背景模型根據(jù)已知為背景的視頻幀中的像素進(jìn)行初始化。在替代實(shí)施例中,系統(tǒng)假定在背景模型的初始化時所有的像素都是背景的一部分。
在初始化之后,在一個實(shí)施例中,基于根據(jù)模型被確定為是或可能是背景的新樣本中的背景上的改變來更新背景模型。
根據(jù)一個實(shí)施例,通過根據(jù)先前重建的更新來預(yù)測每個更新并僅發(fā)送預(yù)測的更新和實(shí)際的更新之間的差異,即殘差(residual),來對更新進(jìn)行編碼。在另一實(shí)施例中,通過量化和熵編碼進(jìn)一步減少殘差的比特率。
參考圖10和11,根據(jù)本申請的某些實(shí)施例,通過背景編碼器和背景解碼器兩者中的相同處理來重建更新。首先通過對熵編碼和量化進(jìn)行逆轉(zhuǎn)來解碼殘差,然后根據(jù)先前更新來預(yù)測每個更新或每組更新,并且通過添加殘差和預(yù)測更新來重建實(shí)際更新。
根據(jù)一個實(shí)施例,系統(tǒng)的發(fā)送器包括如圖1所示的外部編碼器和核心編碼器。在該實(shí)施例中,發(fā)送器及其部件實(shí)現(xiàn)在相同的物理設(shè)備中。例如,一個實(shí)施例中的發(fā)送器是移動片上系統(tǒng)(soc)。在某些實(shí)施例中,外部編碼器實(shí)現(xiàn)在用于gpu或cpu內(nèi)核的軟件中,并且使用在這樣的soc中裝備的用于視頻編碼的硬件加速器來實(shí)現(xiàn)核心編碼器。該soc發(fā)送器的實(shí)現(xiàn)有利于以下的網(wǎng)真系統(tǒng),在該網(wǎng)真系統(tǒng)中移動電話或平板設(shè)備提供發(fā)送器功能(utility)。
在另一實(shí)施例中,發(fā)送器實(shí)現(xiàn)在為攝像機(jī)定制的soc中。除了用于視頻編碼的加速器之外,還有其他功能被實(shí)現(xiàn)為在dsp內(nèi)核上運(yùn)行的軟件。該特定實(shí)施例的發(fā)送器有利于采用單機(jī)(stand-alone)攝像機(jī)的網(wǎng)真系統(tǒng)。
如上所述,本申請的視頻接收器包括核心解碼器。參考圖5、7、和9,在某些實(shí)施例中,核心解碼器接收編碼比特流并且,除了輔助數(shù)據(jù)之外,輸出未壓縮視頻。根據(jù)這些實(shí)施例,輔助數(shù)據(jù)包括背景模型數(shù)據(jù)和幾何映射數(shù)據(jù)。如圖3所示,該數(shù)據(jù)被傳送到外部解碼器,其根據(jù)一個實(shí)施例合并顯著視頻和背景模型輸出,從而產(chǎn)生增強(qiáng)的全景視頻流。在又一實(shí)施例中,外部解碼器改變視頻的幾何映射,從而模擬光學(xué)ptz攝像機(jī)的效果。
在發(fā)送器和接收器之間的輔助數(shù)據(jù)信道遇到分組丟失或其他可靠性問題的情況下,本申請另一實(shí)施例中的系統(tǒng)提供了向發(fā)送器發(fā)送請求以重發(fā)丟失的分組的功能。這些可包括其他發(fā)送的元數(shù)據(jù)和背景模型數(shù)據(jù)的部分。
根據(jù)一實(shí)施例,系統(tǒng)的視頻接收器實(shí)現(xiàn)在云服務(wù)中,該云服務(wù)在通用數(shù)據(jù)中心或媒體處理器上運(yùn)行。在另一實(shí)施例中,接收器被實(shí)現(xiàn)在諸如智能電話、平板電腦或個人計(jì)算機(jī)之類的終端用戶設(shè)備的網(wǎng)絡(luò)瀏覽器中。在網(wǎng)絡(luò)瀏覽器中,接收器功能在特定實(shí)施例中由瀏覽器擴(kuò)展、或使用諸如webrtc(用于核心解碼器)和webgl(用于外部解碼器)之類的標(biāo)準(zhǔn)化網(wǎng)絡(luò)部件來實(shí)現(xiàn)。在又一實(shí)施例中,接收器被實(shí)現(xiàn)為諸如智能電話、平板電腦或個人計(jì)算機(jī)之類的終端用戶設(shè)備的操作系統(tǒng)中的原生應(yīng)用(nativeapplication)。在又一實(shí)施例中,接收器被實(shí)現(xiàn)在專用于視頻通信的電器中。
在另一實(shí)施例中,接收器連同沉浸式(immersive)眼鏡顯示器、頭戴式跟蹤、或?qū)⑦x擇圖像投影到用戶的視網(wǎng)膜中的替代技術(shù)一起,被實(shí)現(xiàn)為虛擬現(xiàn)實(shí)(vr)或增強(qiáng)現(xiàn)實(shí)(ar)系統(tǒng)的一部分。根據(jù)本實(shí)施例,本發(fā)明的裝置和方法可以減輕啟用vr/ar的視頻會議系統(tǒng)的帶寬限制,其中遠(yuǎn)程實(shí)時圖像(distantliveimage)被投影到近端視域上。
在又一實(shí)施例中,關(guān)于vr/ar接收器的眼睛注視和視線方向(viewdirection)的信息被中繼傳回到本發(fā)明的攝像機(jī)系統(tǒng)。來自該特定視線方向的高分辨率視頻被相應(yīng)地發(fā)送,允許了圍繞該特定視線方向的某些額外邊緣區(qū)域(margin)。在又一實(shí)施例中,本發(fā)明的系統(tǒng)適應(yīng)自學(xué)習(xí)以繪出關(guān)注區(qū)域。具體地說,vr/ar接收器隨著時間分析眼睛注視方向,并且接收到最多視線或“命中(hit)”的區(qū)域被以更高的分辨率進(jìn)行編碼以進(jìn)行發(fā)送和呈現(xiàn)。
根據(jù)一個實(shí)施例,本申請的系統(tǒng)包括視頻源。在某些實(shí)施例中,視頻源包括一個或多個移動的ptz攝像機(jī)。這些移動ptz攝像機(jī)針對特定的關(guān)注區(qū)域(“roi”)捕獲高分辨率視頻,并且根據(jù)一實(shí)施例,將所述高分辨率視頻與背景合并。在本實(shí)施例中,背景是靜止圖像,并且以比roi視頻的分辨率更高的分辨率被呈現(xiàn),從而增強(qiáng)vr/ar體驗(yàn)。
根據(jù)一個實(shí)施例,移動攝像機(jī)在時間上同步并且在位置上協(xié)調(diào),從而允許在從多個攝像機(jī)收集的roi視頻之間進(jìn)行高效的混合。
在使用空間上移動的攝像機(jī)系統(tǒng)作為視頻源的另一實(shí)施例中,使用具有部分重疊的視場(fov)的多個固定的高分辨率攝像機(jī)預(yù)先生成背景的三維模型。在一個實(shí)施例中,這些攝像機(jī)還包括背景和前景分割濾波器,從而將場景的移動部分與非移動部分區(qū)分開。只有場景的背景(靜止)部分用于生成場景的3d模型。在替代實(shí)施例中,在生成3d模型之前,使用超分辨率成像技術(shù),以增加3d模型的分辨率。
在又一實(shí)施例中,用于空間和角度定位的陀螺儀和加速度計(jì)的組合連同用于微調(diào)的視覺信息一起,被應(yīng)用于移動攝像機(jī)視頻源。采用同步定位和地圖構(gòu)建(slam)技術(shù),允許本申請的系統(tǒng)估計(jì)場景的哪些部分正在移動以及哪些部分沒有移動,從而生成場景的3d模型。
作為示例,當(dāng)攝像機(jī)視頻源正在移動時,一個實(shí)施例中的系統(tǒng)根據(jù)以下步驟來確定場景的移動部分。首先,針對每個連續(xù)的視頻幀,估計(jì)哈里斯(harris)角特征點(diǎn)(或其他類型的特征點(diǎn));針對每對視頻幀(兩者在時間上相鄰,并且一些對之間具有較大的時間間隔),估計(jì)幀之間的攝像機(jī)的旋轉(zhuǎn)和平移(具有六個自由軸);并刪除異常值(outlier)。一些異常值是由于噪聲引起的,而其他異常值則反映了幀之間已移動的對象。其次,針對異常值的哈里斯角,為包含異常值的場景的部分引入3d運(yùn)動矢量;估計(jì)這些點(diǎn)的移動;并且,針對一直在一起移動的特征點(diǎn),估計(jì)3d運(yùn)動矢量。因此,考慮到攝像機(jī)的指向,生成基于場景的靜止部分的3d模型。
根據(jù)某些實(shí)施例,本申請的系統(tǒng)中的接收器和發(fā)送器實(shí)現(xiàn)在用于雙向視頻通信的同一設(shè)備中。
應(yīng)用領(lǐng)域
根據(jù)各種實(shí)施例,本申請的系統(tǒng)可以有利地部署在實(shí)時視頻通信(視頻會議和網(wǎng)真)、視頻直播(livestreaming)(體育運(yùn)動、音樂會、活動分享、和電腦游戲競技)、交通監(jiān)視(儀表板攝像機(jī)、道路監(jiān)視、停車場監(jiān)視和計(jì)費(fèi))、虛擬現(xiàn)實(shí)、監(jiān)控、家庭監(jiān)視、故事講述、電影、新聞、社交和傳統(tǒng)媒體、以及藝術(shù)設(shè)施、連同其他應(yīng)用和行業(yè)中。
在帶寬不足夠大以傳輸整個場景的高分辨率視頻的視頻直播和雙向通信vr/ar應(yīng)用中,根據(jù)一實(shí)施例,周期性地發(fā)送整個視場的高分辨率靜止圖像(stills),而以常規(guī)頻率發(fā)送所選擇的關(guān)注區(qū)域的高分辨率視頻。在又一實(shí)施例中,視頻和靜止圖像(stills)在vr/ar接收器處進(jìn)行本地混合,從而實(shí)現(xiàn)ar/vr的快速呈現(xiàn)和低延遲。在此上下文中,典型的延遲為20ms或更低。
包括各個附圖和示例的、在本申請中提供的各種實(shí)施例的描述是對本申請及其各種實(shí)施例進(jìn)行舉例說明,而不用于進(jìn)行限制。