本說明書中公開的技術涉及用于再現(xiàn)記錄的聲音和記錄的圖像的信息再現(xiàn)裝置和信息再現(xiàn)方法,以及用于記錄諸如聲音和圖像的信息的信息記錄裝置和信息記錄方法。
背景技術:
當再現(xiàn)電影或者實時內容時,能夠通過根據(jù)圖像定位在左側和右側的聲音,向觀看者提供逼真的感受。
例如,5.1聲道環(huán)繞聲系統(tǒng)是包括五個揚聲器和一個超低音揚聲器的立體聲再現(xiàn)系統(tǒng),通過根據(jù)ITU-R BS775(國際電信聯(lián)盟無線電通信部門)的約定設置揚聲器并且從對應于相應的聲道的揚聲器中輸出不同的聲波,5.1聲道環(huán)繞聲系統(tǒng)可以向聽者播放具有逼真的感受的聲音。
立體聲再現(xiàn)系統(tǒng)具有可以獲得的聲音圖像的目標定位的范圍窄的問題。與此相反,己知多聲道音頻系統(tǒng)記錄聲源在原始聲場建立的波前,并且基于記錄的波前使用波前合成技術在不同于當前聲場的空間中再現(xiàn)波前。例如,已提出波前合成信號轉換裝置,其根據(jù)再現(xiàn)裝置計算波前合成再現(xiàn)信號并且再現(xiàn)合成的聲場,實際上通過假設的揚聲器的數(shù)量或者揚聲器的間隔的規(guī)格來使用再現(xiàn)裝置(例如,參見專利文獻1)。
進一步,己知一種方法,從期望將聲音定位到聽者的兩個耳朵的聲源位置,分配頭部相關傳輸函數(shù)(HRTF)至聲源信號并且定位聲音圖像仿佛在期望的位置有聲源。例如,已提出聲再現(xiàn)裝置,當從設置在聽者周圍的兩個或更多個揚聲器中的多個再現(xiàn)的聲音被定位在虛擬位置時,通過計算多聲道輸入信號的重心并且在將根據(jù)重心位置確定的權重系數(shù)反射至虛擬聲音圖像生成處理的同時再現(xiàn)輸入信號,而強調虛擬聲音圖像的定位的效果并且提高聲場的聽者環(huán)繞感。
引用列表
專利文獻
專利文獻1:JP2013-128314A
專利文獻2:JP2011-211312A
技術實現(xiàn)要素:
本說明書中公開的技術的目的是提供可以再現(xiàn)記錄的聲音和記錄的圖像的優(yōu)良的信息再現(xiàn)裝置和信息再現(xiàn)方法。
技術問題
進一步,本說明書中公開的技術的目的是提供優(yōu)選地可以記錄諸如聲音和圖像的信息的優(yōu)良的信息記錄裝置和信息記錄方法。
解決問題的方案
考慮到上述問題提出本申請,并且根據(jù)在權利要求1中所描述的技術設置有信息再現(xiàn)裝置,包括:位置信息計算單元,被配置為計算在提供了圖像和聲音的空間中的觀看者的位置;圖像處理單元,被配置為基于記錄有攝像機的位置信息和姿勢信息的圖像信息在觀看者的位置處處理圖像;以及聲音處理單元,被配置為基于記錄有聲源的位置信息的聲音信息在觀看者的位置處定位聲音圖像。
根據(jù)在本申請的權利要求2中所描述的技術,根據(jù)權利要求1所述的信息再現(xiàn)裝置的位置信息計算單元被配置為基于用于拍攝的攝像機的位置信息和姿勢信息計算觀看者的位置。
根據(jù)在本申請的權利要求3中所描述的技術,根據(jù)權利要求1所述的信息再現(xiàn)裝置的位置信息計算單元被配置為基于觀看者的實際運動或者實際位置計算觀看者的位置。
根據(jù)在本申請的權利要求4中描述的技術,根據(jù)權利要求1所述的信息再現(xiàn)裝置的位置信息計算單元被配置為基于多個攝像機之間的重心位置計算觀看者的位置。
根據(jù)在本申請的權利要求5中所描述的技術,根據(jù)權利要求1所述的信息再現(xiàn)裝置的位置信息計算單元被配置為基于多個攝像機之間的重心位置計算觀看者的位置,其中基于對搖攝(panning)和切換的頻率進行加權而得到重心位置。
根據(jù)在本申請的權利要求6中所描述的技術,根據(jù)權利要求1所述的信息再現(xiàn)裝置的圖像處理單元被配置為基于由在觀看者的位置處的攝像機拍攝的攝像機的圖像在觀看者的位置處生成圖像。
根據(jù)在本申請的權利要求7中所描述的技術,根據(jù)權利要求1所述的信息再現(xiàn)裝置的圖像處理單元被配置為使用由多個攝像機拍攝的圖像在觀看者的位置處生成視點插入圖像。
根據(jù)在本申請的權利要求8中所描述的技術,根據(jù)權利要求7所述的信息再現(xiàn)裝置的聲音處理單元被配置為在插入視點的位置處定位聲音圖像。
根據(jù)在本申請的權利要求9中所描述的技術,根據(jù)權利要求7所述的信息再現(xiàn)裝置的聲音處理單元被配置為基于插入了從觀看者收集的語音信息的視點的位置定位聲音圖像。
根據(jù)在本申請的權利要求10中所描述的技術,根據(jù)權利要求7所述的信息再現(xiàn)裝置的圖像處理單元被配置為在視點插入圖像中對應于觀看者的位置處顯示觀看者的頭像或者位置信息。
根據(jù)在本申請的權利要求11中所描述的技術,根據(jù)權利要求1所述的信息再現(xiàn)裝置的聲音處理單元被配置為,將包含在來自觀看者的位置的視點圖像中的聲源的絕對位置信息轉換為相對于觀看者的位置的相對位置,以定位在視點圖像中的聲音圖像的聲音圖像。
進一步,根據(jù)在本申請的權利要求12中所描述的技術,設置有信息再現(xiàn)方法,包括:位置信息計算步驟,計算在提供了圖像和聲音的空間中的觀看者的位置;圖像處理步驟,基于記錄有攝像機的位置信息和姿勢信息的圖像信息在觀看者的位置處處理圖像;以及聲音處理步驟,基于記錄有聲源的位置信息的聲音信息在觀看者的位置處定位聲音圖像。
進一步,根據(jù)在本申請的權利要求13中所描述的技術,設置有信息記錄裝置,包括:圖像信息記錄單元,被配置為記錄由攝像機拍攝的圖像以及攝像機的位置信息和姿勢信息;以及聲音信息記錄單元,被配置為記錄聲源的位置信息。
根據(jù)在本申請的權利要求14中所描述的技術,根據(jù)權利要求13所述的信息記錄裝置的圖像信息記錄單元被配置為以用于圖像的數(shù)據(jù)包形式記錄由攝像機拍攝的圖像以及攝像機的位置信息和姿勢信息,并且聲音信息記錄單元被配置為以用于聲音的數(shù)據(jù)包形式記錄聲源的位置信息。
根據(jù)在本申請的權利要求15中所描述的技術,根據(jù)權利要求13所述的信息記錄裝置的圖像信息記錄單元被配置為在用于圖像的軌道中記錄由攝像機拍攝的圖像以及攝像機的位置信息和姿勢信息,并且聲音信息記錄單元被配置為在用于聲音的軌道中記錄聲源的位置信息。
根據(jù)在本申請的權利要求16中所描述的技術,根據(jù)權利要求13所述的信息記錄裝置的圖像信息記錄單元被配置為記錄從攝像機接收的所拍攝的圖像以及從攝像機位置傳感器接收的位置信息和姿勢信息。
根據(jù)在本申請的權利要求17中所描述的技術,根據(jù)權利要求13所述的信息記錄裝置的聲音信息記錄單元被配置為記錄從聲源檢測裝置接收的聲源的位置信息。
根據(jù)在本申請的權利要求18中所描述的技術,根據(jù)權利要求13所述的信息記錄裝置的聲音信息記錄單元被配置為將從聲源檢測裝置接收的聲音信息或者隨后記錄的聲音信息與聲源的位置信息一起記錄。
根據(jù)本申請的權利要求19中描述的技術,根據(jù)權利要求13所述的信息記錄裝置被配置為與用于圖像記錄的同步信號(時鐘)相同步地記錄或者基于頻率劃分或者頻率抽取的定時信號記錄攝像機的位置信息和姿勢信息以及聲源的位置信息。
進一步,根據(jù)本申請的權利要求20中描述的技術,設置有信息記錄方法,包括:接收由攝像機拍攝的圖像以及攝像機的位置信息和姿勢信息的步驟,記錄所接收的由攝像機拍攝的圖像以及所接收的攝像機的位置信息和姿勢信息的步驟,接收聲源的位置信息的步驟,以及被配置為記錄接收的聲源的位置信息的聲音信息記錄單元。
本發(fā)明的有益效果
根據(jù)在本說明書中所描述的技術,能夠提供可以記錄并且再現(xiàn)聲音和圖像的信息的優(yōu)良的信息記錄裝置和信息記錄方法以及信息再現(xiàn)裝置和信息再現(xiàn)方法,使得在提供逼真的感受的同時,提供使觀看者感興趣的且防止觀看者厭煩的內容。
應當注意的是,本說明書中參照實例描述了本發(fā)明的有益效果,并且本發(fā)明的有益效果不限于此。此外,在一些情況下,本發(fā)明也可以表現(xiàn)出除以上給出的有益效果以外的額外的有益效果。
通過基于在下文中論述的示例性實施方式和附圖的更加詳細的描述,本說明書中公開的另外的目的、特征以及優(yōu)點將變得清晰。
附圖說明
[圖1]圖1是示意性地示出記錄圖像和聲音的信息的記錄系統(tǒng)100的配置實例的示圖。
[圖2]圖2是示意性地示出布置在真實空間中的攝像機110-1、110-2、...以及麥克風120-1、120-2、...的方面的示圖。
[圖3]圖3是示意性地示出記錄圖像和聲音的信息的記錄系統(tǒng)300的另一個配置實例的示圖。
[圖4]圖4是示意性地示出布置在真實空間中的攝像機310-1、310-2、...以及聲音位置傳感器320-1、320-2、...的方面的示圖。
[圖5]圖5是示出用于記錄由攝像機拍攝的圖像(動態(tài)圖像或者靜態(tài)圖像)以及攝像機的位置信息和姿勢信息,同時記錄來自聲源(諸如發(fā)聲者)的聲音信息以及聲源的位置信息的記錄格式實例的示圖。
[圖6]圖6是示出用于記錄由攝像機拍攝的圖像(動態(tài)圖像或者靜態(tài)圖像)以及攝像機的位置信息和姿勢信息,同時記錄來自聲源(諸如發(fā)聲者)的聲音信息以及聲源的位置信息的記錄格式的另一個實例的示圖。
[圖7]圖7是示出用于在記錄系統(tǒng)300內傳送攝像機或者發(fā)聲者的位置信息的數(shù)據(jù)包500的配置實例的示圖。
[圖8]圖8是示出包括在攝像機或者聲源的位置信息中的數(shù)據(jù)的示圖。
[圖9]圖9是示出頭戴式顯示器900的外部配置的示圖(立體圖)。
[圖10]圖10是示出頭戴式顯示器900的外部配置的示圖(左側視圖)。
[圖11]圖11是示意性地示出再現(xiàn)利用位置信息記錄的圖像信息和聲音信息的圖像顯示系統(tǒng)1100的配置實例的示圖。
[圖12]圖12是示意性地示出圖像顯示系統(tǒng)1100的變形例的示圖。
[圖13]圖13是示出用于在圖11或者圖12中所示的圖像顯示系統(tǒng)1100中的顯示裝置1140上跟隨用戶的頭部的運動顯示圖像的結構的示圖。
[圖14]圖14是示意性地示出在繪圖裝置1130內的繪圖處理單元1132的配置的示圖。
[圖15]圖15是示出用于再現(xiàn)圖像和聲音的處理程序的流程圖。
[圖16]圖16是示出確定虛擬點并且虛擬點被布置在向用戶提供圖像和聲音的空間中的方面的示圖。
[圖17]圖17是示出當再現(xiàn)圖像和聲音時,聲音圖像被定位在虛擬點的方面的示圖。
[圖18]圖18是示出在頭戴式顯示器上再現(xiàn)圖像和聲音的方面的示圖。
[圖19]圖19是示出呈現(xiàn)布置在任意位置的視點的圖像的實例的示圖。
[圖20]圖20是示出在頭戴式顯示器上再現(xiàn)視點插入圖像的方面的示圖。
[圖21]圖21是示出再現(xiàn)圖像的頭戴式顯示器的佩戴者也作為發(fā)聲對象處理并且定位所說內容的聲音圖像的方面的示圖。
具體實施方式
以下將參考附圖詳細描述本說明書中公開的技術的實施方式。
當使用諸如波前合成技術和頭部傳輸函數(shù)(例如參見專利文獻1和專利文獻2)的方法定位聲音圖像時,通常可以認為在記錄圖像和聲音時記錄從攝像機至對象(發(fā)聲者、聲源)的相對位置,并且當再現(xiàn)時根據(jù)相對位置信息定位聲音圖像。
如果使用一個攝像機進行拍攝,使用這種聲音圖像定位方法能夠提供逼真的感受。然而,即使來自一個攝像機的圖像持續(xù)作為實時內容呈現(xiàn),觀看者對于這種圖像是不感興趣的。
通過使用多個攝像機拍攝整個圓周的圖像,并且當再現(xiàn)時通過示出角度視情況改變且焦距縮放或者移動的圖像,能夠提供使觀看者感興趣的且防止觀看者感到厭煩的內容。
然而,當切換相機角度時,由于從攝像機至聲源的相對位置同樣改變,定位的聲音圖像的位置急劇改變,這是異常的。
因此,在本說明書描述的技術中,在記錄圖像和聲音的信息時,由多個攝像機拍攝的圖像信息與每一個攝像機的位置信息和姿勢信息被一起記錄,同時來自多個聲源的聲音信息與每一個聲源的位置信息被一起記錄。然后,當再現(xiàn)時,通過將觀看者的位置設定于某一點,并且在觀看者的位置(視覺方向)處再現(xiàn)圖像同時在觀看者的位置處定位聲音圖像,能夠提供使觀看者感興趣的且防止觀看者感到厭煩的內容,并且提供具有逼真感受的自然的聲音。例如,僅需要將觀看者的位置設定在典型的位置(諸如提供圖像的空間的中心)處,并且觀看者的位置可以是用于拍攝的多個攝像機的重心位置。
圖1示意性地示出記錄圖像和聲音的信息的記錄系統(tǒng)100的配置實例。所示的記錄系統(tǒng)100包括:布置在真實空間中的多個攝像機110-1、110-2、...以及多個麥克風120-1、120-2、...,被配置為將同步信號供應至攝像機110-1、110-2、...和麥克風120-1、120-2、...的同步信號發(fā)生裝置130以及記錄裝置140。
圖2示意性地示出布置在真實空間中的攝像機110-1、110-2、...以及麥克風120-1、120-2、...的方面。在所示的實例中,為發(fā)聲者201、202、...中的每一個提供麥克風120-1、120-2、...(或者成為分別具有麥克風120-1、120-2、...的對象的發(fā)聲者201、202、...)。相應的攝像機110-1、110-2、...從相應的視點拍攝發(fā)聲者201、202、...。
將再次參考圖1描述記錄系統(tǒng)100。例如,同步信號發(fā)生裝置130將稱為GenLock的同步信號作為30fps的主時鐘供應至攝像機110-1、110-2、...中的每一個。接收同步信號GenLock的攝像機110-1、110-2、...拍攝發(fā)聲者201、202、...。然后記錄裝置140基于從同步信號發(fā)生裝置130接收的同步信號,彼此同步地記錄攝像機110-1、110-2、...的圖像信號。
進一步,同步信號發(fā)生裝置130將稱為WordClock的同步信號供應至麥克風120-1、120-2、...中的每一個。麥克風120-1、120-2、...中的每一個基于WordClock以48kHz或者96kHz的采樣速率收集發(fā)聲者201、202、...的聲音。然后記錄裝置140基于從同步信號發(fā)生裝置130接收的同步信號,彼此同步地記錄在麥克風120-1、120-2、...處收集的聲音信號。
同步信號發(fā)生裝置130將WordClock與GenLock同步用于圖像和聲音。因此,在記錄裝置140處記錄的圖像和聲音彼此匹配。進一步,除了WordClock和GenLock之外,可以嵌入在電影和電視工程師協(xié)會(SMPTE)中限定的時間代碼。
進一步,在圖1和圖2中所示的記錄系統(tǒng)100中,諸如攝像機110-1、110-2、...以及麥克風120-1、120-2、...的設備包括位置信息發(fā)送器。攝像機110-1、110-2、...將自身的位置信息和姿勢信息與所拍攝的圖像信號一起發(fā)送給記錄裝置140。進一步,麥克風120-1、120-2、...將自身(發(fā)聲者)的位置信息與所收集的聲音信號一起發(fā)送給記錄裝置140。
記錄裝置140使用與GenLock同步的時鐘記錄由攝像機110-1、110-2、...拍攝的圖像信號以及彼此關聯(lián)的相應的位置信息和姿勢信息。進一步,記錄裝置140使用與WordClock同步的時鐘記錄在麥克風120-1、120-2、...處收集的聲音信息以及彼此關聯(lián)的相應的位置信息。
當記錄圖像和聲音的信息時,在圖1中所示的記錄系統(tǒng)100記錄由多個攝像機拍攝的圖像信息以及相應的攝像機的位置信息和姿勢信息,同時記錄來自多個聲源的聲音信息以及相應的聲源的位置信息。
圖5示出用于記錄由攝像機拍攝的圖像(動態(tài)圖像或者靜態(tài)圖像)以及攝像機的位置信息和姿勢信息,同時記錄來自聲源(諸如發(fā)聲者)的聲音信息以及聲源的位置信息的記錄格式的實例。在所示的記錄格式500中,圖像信息和聲音信息對于數(shù)據(jù)包是多路復用的。
在存儲由攝像機拍攝的圖像的數(shù)據(jù)包的報頭部501中,描述了指示圖像是由第m個攝像機拍攝的圖像的信息以及呈現(xiàn)時間,并且由攝像機拍攝的動態(tài)圖像(或者靜態(tài)圖像)存儲在有效載荷部502中。在存儲攝像機的位置信息和姿勢信息的數(shù)據(jù)包的報頭部511中,描述了指示圖像是第m個攝像機的位置和姿勢的圖像的信息、以及采樣的開始時間和采樣速率,并且攝像機的位置信息存儲在有效載荷部512中。進一步,與攝像機工作有關的信息(諸如搖攝和切換的頻率)可以與位置信息和姿勢信息一起存儲在有效載荷部512中。還存在將諸如搖攝和切換的頻率的信息用于確定優(yōu)選地定位聲音圖像的坐標的情況(其將被稍后描述)。
進一步,在存儲了聲音信息(發(fā)聲者的聲音)的數(shù)據(jù)包的報頭部521中,描述了指示聲音是第n個發(fā)聲者的聲音的信息以及呈現(xiàn)時間,并且發(fā)聲者的聲音信息被存儲在有效載荷部522中。進一步,在存儲了作為聲源的發(fā)聲者的位置信息的數(shù)據(jù)包的報頭部531中,描述了指示圖像是第n個發(fā)聲者的位置圖像的信息以及采樣的開始時間和采樣速率,并且發(fā)聲者的位置信息被存儲在有效載荷部532中。
在圖5中所示的記錄格式中,可以與用于圖像記錄的同步信號(時鐘)同步記錄,或者基于頻率劃分或者頻率抽取的定時信號記錄攝像機的位置信息和姿勢信息以及聲源的位置信息。
進一步,圖6示出用于記錄由攝像機拍攝的圖像(動態(tài)圖像或者靜態(tài)圖像)以及攝像機的位置信息和姿勢信息,同時記錄來自聲源(諸如發(fā)聲者)的聲音信息以及聲源的位置信息的記錄格式的另一個實例。在所示的記錄格式600中,圖像信息和聲音信息記錄在不同的軌道或者不同的文件中。
在存儲了由攝像機拍攝的圖像的軌道的報頭部601中,描述了指示圖像是由第m個攝像機拍攝的圖像的信息以及呈現(xiàn)時間,并且由攝像機拍攝的動態(tài)圖像(或者靜態(tài)圖像)被存儲在有效載荷部602中。在存儲了攝像機的位置信息的軌道的報頭部611中,描述了指示圖像是第m個攝像機的位置的圖像的信息以及采樣的開始時間和采樣速率,并且攝像機的位置信息被存儲在有效載荷部612中。進一步,在存儲了聲音信息(發(fā)聲者的聲音)的軌道的報頭部621中,描述了指示聲音是第n個發(fā)聲者的聲音的信息以及呈現(xiàn)時間,并且發(fā)聲者的聲音信息被存儲在有效載荷部622中。進一步,在存儲了發(fā)聲者(其是聲源)的位置信息的軌道的報頭部631中,描述了指示圖像是第n個發(fā)聲者的位置的圖像的信息、采樣的開始時間以及采樣速率,并且發(fā)聲者的位置信息被存儲在有效載荷部632中。
在圖6中所示的記錄格式中,可以與用于圖像記錄的同步信號(時鐘)同步記錄,或者基于頻率劃分或者頻率抽取的定時信號記錄攝像機的位置信息和姿勢信息以及聲源的位置信息。
應當注意的是,還存在使用在記錄之后創(chuàng)建像電影、電視劇或者音樂宣傳片的方法的情況,即在執(zhí)行拍攝之后單獨記錄聲音的方法。在這種情況下,重要的是在相應的麥克風120-1、120-2、...處記錄發(fā)聲者(歌手、演講者以及發(fā)聲對象)的位置信息,而不是在拍攝位置處收集或者記錄聲音。在這種情況下,不需要圖5中的聲音信息(發(fā)聲者的聲音)的數(shù)據(jù)包,而僅需要提供存儲了發(fā)聲者(其是聲源)的位置信息的數(shù)據(jù)包。進一步,不需要存儲圖6中的聲音信息(發(fā)聲者的聲音)的軌道,而僅需要提供存儲發(fā)聲者(其是聲源)的位置信息的軌道。
進一步,圖3示意性地示出了記錄圖像和聲音的信息的記錄系統(tǒng)300的另一個配置實例。
所示的記錄系統(tǒng)300包括布置在真實空間中的多個攝像機310-1、310-2、...。攝像機310-1、310-2、...中的每一個包括用于檢測位置信息的位置傳感器。例如,通過組合加速度傳感器、全球定位系統(tǒng)(GPS)傳感器以及地磁傳感器中的一個或兩個或更多個來配置位置傳感器。可替換地,位置傳感器可以通過對從攝像機拍攝的圖像進行圖像識別來獲取位置信息。
進一步,記錄系統(tǒng)300包括聲音位置傳感器320-1、320-2、...,其代替在拍攝位置處收集聲音的麥克風來檢測成為諸如發(fā)聲者(歌手、演講者、發(fā)聲對象)的聲源的相應的對象的位置。在記錄系統(tǒng)300中,假設使用在記錄之后創(chuàng)建像電影、電視劇或者音樂宣傳片的方法,即在執(zhí)行拍攝之后單獨記錄聲音的方法。
進一步,記錄系統(tǒng)300包括:同步信號發(fā)生裝置330,被配置為將同步信號供應至攝像機310-1、310-2、...中的每一個;以及聲音位置傳感器320-1、320-2、...;位置信息接收裝置340,被配置為從攝像機310-1、310-2、...以及聲音位置傳感器320-1、320-2、...中的每一個接收位置信息;以及記錄裝置350。
圖4示意性地示出了布置在真實空間中的攝像機310-1、310-2、...以及聲音位置傳感器320-1、320-2、...的方面。在所示的實例中,為發(fā)聲者401、402、...中的每一個提供了聲音位置傳感器320-1、320-2、...(或者聲音位置傳感器320-1、320-2、...被分別附著于發(fā)聲者401、402、...)。攝像機310-1、310-2、...分別從相應的視點拍攝發(fā)聲者401、402、...。
將再次參考圖3描述記錄系統(tǒng)300。例如,同步信號發(fā)生裝置330將稱為GenLock的同步信號作為30fps的主時鐘供應至攝像機310-1、310-2、...中的每一個。接收該同步信號的攝像機310-1、310-2、...拍攝發(fā)聲者401、402、...。進一步,攝像機310-1、310-2、...的位置傳感器獲取與GenLock同步的位置信息。攝像機310-1、310-2、...將圖像信號發(fā)送至記錄裝置350。進一步,攝像機310-1、310-2、...的位置傳感器將位置信息發(fā)送至位置信息接收裝置340,并且位置信息接收裝置340將所收集的位置信息傳輸至記錄裝置350。
進一步,同步信號發(fā)生裝置330將稱為WordClock的同步信號供應至聲音位置傳感器320-1、320-2、...中的每一個。聲音位置傳感器320-1、320-2、...基于WordClock以諸如48kHz和96kHz的采樣速率獲取發(fā)聲者401、402、...的位置信息,并且將位置信息發(fā)送至位置信息接收裝置340。位置信息接收裝置340將所收集的位置信息發(fā)送至記錄裝置350。
在圖3中所示的記錄系統(tǒng)300中,用于記錄位置信息的同步信號WordClock和用于記錄姿勢信息的同步信號GenLock彼此同步。具體地,速率變成等于圖像或者音頻的速率,或者變成可以認為是接近人的聲音的移動的延遲界限的速率。
圖7示出用于發(fā)送在記錄系統(tǒng)300內的攝像機310-1、310-2、...以及發(fā)聲者(聲音位置傳感器320-1、320-2)的位置信息的數(shù)據(jù)包700的配置實例。所示的數(shù)據(jù)包700配置有報頭部701和位置信息部702。在報頭部701中,描述了采樣的開始時間Ts和采樣速率Fs。進一步,在位置信息部702中,存儲了用于從采樣的開始時間Ts起的采樣頻率1/Fs中的每一個的所檢測的位置信息POS(Ts)、POS(TS+1×1/Fs)、POS(TS+2×2/Fs)、...。然而,POS(t)是在時刻t的位置信息。如圖8所示,假設POS(t)包括利用xyz坐標(x,y,z)或者極坐標(r,θ,)表示的位置信息以及利用(Θ,Φ)表示的姿勢信息。姿勢信息可以利用四元數(shù)(以旋轉軸(矢量)和旋轉角(標量)形成的四元數(shù))表示。
當記錄圖像和聲音的信息時,圖3中所示的記錄系統(tǒng)300記錄由多個攝像機拍攝的圖像信息以及每一個攝像機的位置信息和姿勢信息,同時記錄來自多個聲源的聲音信息以及每一個聲源的位置信息。應當注意的是,當使用在記錄之后的方法,即在執(zhí)行拍攝之后單獨記錄聲音的方法時,如在用于相關領域內的宣傳片的拍攝方法中,記錄軌道被應用于與發(fā)聲者的位置一致的位置或者用具有位置信息的坐標代替。同樣在圖3中所示的記錄系統(tǒng)300中,利用圖5中所示的數(shù)據(jù)包配置或者圖6中所示的軌道配置,能夠與位置信息一起記錄圖像信息和聲音信息。
當再現(xiàn)由圖1中所示的記錄系統(tǒng)100或者由圖3中所示的記錄系統(tǒng)300記錄的圖像信息和聲音信息以及位置信息時,通過再現(xiàn)在觀看者的位置(視覺方向)處的圖像同時將聲音圖像定位在觀看者的位置處,能夠提供使觀看者感興趣的且防止觀看者厭煩的內容,并且提供具有逼真的感受的聲音。
例如,當在圖像顯示系統(tǒng)(諸如頭戴式顯示器)中再現(xiàn)所記錄的圖像信息和聲音信息,以及位置信息和姿勢信息時,能夠提供跟隨用戶頭部的運動的整個360度的空間的圖像。通過移動在廣角圖像中的顯示區(qū)域以便抵消通過附著至用戶頭部的頭部運動追蹤裝置檢測到的頭部的運動,能夠跟隨頭部的運動再現(xiàn)圖像并且給出仿佛他/她查看整個空間的用戶體驗。
圖9和圖10示出了通過固定在觀察圖像的用戶的頭部或者面部所使用的頭戴式顯示器900的外部配置。然而,圖9是頭戴式顯示器900的立體圖,而圖10是頭戴式顯示器900的左側視圖。
所示的頭戴式顯示器900具有覆蓋頭部的整個圓周的帽形或者類似帶子的結構,并且頭戴式顯示器900在佩戴同時通過將裝置的重量分布至整個頭部而減小用戶的負荷。
頭戴式顯示器900以包括大多數(shù)的部分的主體部901形成,該部分包括顯示系統(tǒng)、從主體部901的上面突出的前額保護部902、岔開為上帶904和下帶905的頭帶以及左耳機和右耳機。在主體部901內,裝有顯示單元和電路板。進一步,在主體部901下方設置了接著鼻背的鼻墊部903。
當用戶在頭上佩戴頭戴式顯示器900時,前額保護部902抵接用戶的前額,并且頭帶的上帶904和下帶905各自抵接頭的后部。即,通過在前額保護部902、上帶904以及下帶905的三個點處支撐,使頭戴式顯示器900佩戴在用戶頭部上。因此,頭戴式顯示器900的結構與重量主要在鼻墊部支撐的常規(guī)眼鏡的結構不同,并且頭戴式顯示器900可以在佩戴同時通過將重量分布至整個頭部而減小用戶的負荷。雖然所示的頭戴式顯示器900還包括鼻墊部903,但是該鼻墊部903僅有助于輔助支撐。進一步,通過利用頭帶緊固前額保護部902,能夠支撐在旋轉方向上的運動,使得頭戴式顯示器900不在佩戴頭戴式顯示器900的用戶的頭部上旋轉。
圖11示意性地示出了再現(xiàn)記錄的圖像信息和聲音信息以及位置信息的圖像顯示系統(tǒng)1100的配置實例。所述的圖像顯示系統(tǒng)1100包括頭部運動追蹤裝置1120、繪圖裝置1130以及顯示裝置1140。
例如,通過佩戴在觀察圖像的用戶頭上來使用被配置為圖9和圖10中所示的頭戴式顯示器900的顯示裝置1140。
對于每一個預定的傳輸周期,頭部運動追蹤裝置1120將觀察在顯示裝置1140上顯示的圖像的用戶的頭部的姿勢信息輸出至繪圖裝置1130。在所示的實例中,頭部運動追蹤裝置1120包括傳感器單元1121、姿勢角計算單元1122以及被配置為將所獲得的姿勢信息發(fā)送至繪圖裝置1130的發(fā)送單元1123。
頭部運動追蹤裝置1120可以被安裝在配置為頭戴式顯示器900的顯示裝置1140的主體部901內。然而,在這個實施方式中,為了使顯示裝置1140更小、更輕并且低廉,假設頭部運動追蹤裝置1120被設置為外部附接至顯示裝置1140的可選產品。例如,通過附接至包括頭戴式顯示器900的上帶904、下帶905以及前額保護部902的任意位置來作為配件使用頭部運動追蹤裝置1120。
例如,通過組合多個傳感器元件(諸如陀螺儀傳感器、加速度傳感器以及地磁傳感器)來配置傳感器單元1121。在此,傳感器單元1121被限定為可以檢測包括三維陀螺儀傳感器、三維加速度傳感器以及三維地磁傳感器的總共九個軸的傳感器。姿勢角計算單元1122基于傳感器單元1121的九個軸的檢測結果計算用戶的頭部的姿勢信息。發(fā)送單元1123將所獲得的姿勢信息發(fā)送至繪圖裝置1130。
在所示的圖像顯示系統(tǒng)1100中,假設頭部運動追蹤裝置1120通過諸如藍牙(注冊商標)通信的無線通信連接至繪圖裝置1130。當然,頭部運動追蹤裝置1120可以經由諸如通用串行總線(USB)的高速有線接口而不是通過無線通信連接至繪圖裝置1130。
繪圖裝置1130在顯示裝置1140上對待再現(xiàn)的圖像和待輸出的聲音執(zhí)行渲染處理。例如,雖然繪圖裝置1130被配置為采用安卓(注冊商標)的終端(諸如智能手機、個人計算機或者游戲機),但是繪圖裝置1130不限于這些裝置。進一步,繪圖裝置1130可以是互聯(lián)網上的服務器裝置。頭部運動追蹤裝置1120將用戶的頭部姿勢/位置信息發(fā)送至服務器(其是繪圖裝置1130),并且繪圖裝置1130生成對應于所接收的頭部姿勢/位置信息的動態(tài)圖像流,并且將動態(tài)圖像流發(fā)送至顯示裝置1140。
在所示的實例中,繪圖裝置1130包括:接收單元1131,被配置為從頭部運動追蹤裝置1120接收姿勢信息;繪圖處理單元1132,被配置為基于姿勢信息對圖像和聲音進行渲染處理;發(fā)送單元1133,被配置為將所渲染的圖像發(fā)送至顯示裝置1140;以及內容輸入單元1134,被配置為從供應源接受圖像聲音的數(shù)據(jù)流。
接收單元1131通過藍牙(注冊商標)通信等從頭部運動追蹤裝置1120接收用戶的位置信息和姿勢信息。如上所述,以旋轉矩陣表示姿勢信息。
例如,由以下裝置來形成內容輸入單元1134:利用圖1中所示的記錄裝置140和圖3中所示的記錄裝置340,讀取以圖6中所示的格式記錄在記錄裝置140、記錄裝置340中的圖像和聲音內容的再現(xiàn)裝置,經由網絡或者作為廣播信號等接收以圖5中所示的格式記錄在記錄裝置140、記錄裝置340中的圖像和聲音內容的接收裝置(廣播調諧器、通信接口)。
繪圖處理單元1132對從內容輸入單元1134供應的圖像數(shù)據(jù)和聲音數(shù)據(jù)進行渲染以生成待顯示在顯示裝置1140側上的圖像和聲音。在這個實施方式中,繪圖處理單元1132生成對應于佩戴頭戴式顯示器900作為顯示裝置1140的用戶的位置信息和姿勢信息(視覺方向)的圖像并且在用戶的位置處定位聲音圖像,從而提供使用戶感興趣的并防止用戶厭煩的內容,并且提供具有逼真的感受的聲音。稍后將詳細描述在繪圖處理單元1132處渲染圖像以及渲染聲音的處理。
例如,繪圖裝置1130使用諸如高清晰度多媒體接口(HDMI)(注冊商標)以及移動高清鏈接(MHL)的電纜連接至顯示裝置1140??商鎿Q地,繪圖裝置1130可以通過諸如無線HD以及Miracast的無線通信連接至顯示裝置1140。發(fā)送單元1133在不壓縮數(shù)據(jù)的情況下使用任意通信路徑發(fā)送在繪圖處理單元1132處渲染的圖像數(shù)據(jù)和聲音數(shù)據(jù)。
顯示裝置1140包括被配置為從繪圖裝置1130接收圖像的接收單元1141以及圖像聲音輸出單元1142。如上所述,顯示裝置1140被配置為固定在觀察圖像的用戶的頭部或者面部的頭戴式顯示器900??商鎿Q地,顯示裝置1140可以是常規(guī)顯示器、在劇院的屏幕上投影圖像的投影儀等。
例如,接收單元1141通過諸如HDMI(注冊商標)以及MHL的通信路徑從繪圖裝置300接收未壓縮的圖像數(shù)據(jù)和聲音數(shù)據(jù)。利用輸出圖像的顯示器和輸出聲音的麥克風而形成的圖像聲音輸出單元1142在屏幕上顯示所接收的圖像數(shù)據(jù)并且輸出聲音。
例如,當顯示裝置1140被配置為頭戴式顯示器900時,圖像聲音輸出單元1142包括分別固定在用戶的左眼和右眼的左屏幕和右屏幕,并且為左眼顯示圖像以及為右眼顯示圖像。例如,該屏幕配置有顯示面板,諸如微顯示器(諸如有機電致發(fā)光(EL)元件)以及液晶顯示器,或者激光掃描型顯示器(諸如視網膜直接繪圖顯示器)。進一步,顯示裝置1140包括虛擬圖像光學單元,虛擬圖像光學單元被配置為放大并投影顯示圖像并且形成利用在用戶的瞳孔上的預定視場角而形成的放大的虛擬圖像。
圖12示意性地示出了圖像顯示系統(tǒng)1100的變形例。雖然在圖11中所示的實例中,圖像顯示系統(tǒng)1100被配置有包括頭部運動追蹤裝置1120、繪圖裝置1130以及顯示裝置1140的三個獨立的裝置,但是在圖12中所示的實例中,在顯示裝置1140內安裝了繪圖裝置1130(即接收單元1131、繪圖處理單元1132以及內容輸入單元1134)的功能件。如在圖11中所示,通過將頭部運動追蹤裝置1120配置為外部附接至顯示裝置1140的可選產品,顯示裝置1140變得更小、更輕以及低廉。
圖13示出在圖11或者圖12中所示的圖像顯示系統(tǒng)1100中,在顯示裝置1140上顯示跟隨頭部的運動(即用戶的視線)的圖像的結構。
假設用戶的視線的深度方向是zw軸、水平方向是yw軸、垂直方向是xw軸并且用戶參考軸xw、yw、zw的原點的位置是用戶的視點的位置。因此,轉動θz對應于圍繞用戶的頭部的zw軸的運動,傾斜θy對應于圍繞用戶的頭部的yw軸的運動,以及平移θz對應于圍繞用戶的頭部的xw軸的運動。
頭部運動追蹤裝置1120檢測通過在用戶頭部的轉動、傾斜以及平移的每一個方向上的運動(θx、θy、θz)或者頭部的平行運動而形成的姿勢信息,并且將姿勢信息作為旋轉矩陣MR輸出至繪圖裝置1130。
例如,繪圖裝置1130移動待從具有寬視場角的原始圖像1301(諸如原始球體圖像和4K)剪切的區(qū)域1302的中心以便跟隨用戶的頭部的姿勢,并且渲染以預定的視場角在中心位置處剪切的區(qū)域502的圖像。繪圖裝置1130通過根據(jù)用戶頭部的運動的轉動分量旋轉區(qū)域1302-1、根據(jù)用戶頭部運動的傾斜分量移動區(qū)域1302-2或者根據(jù)用戶頭部的運動的平移分量移動區(qū)域1302-3移動顯示區(qū)域,以便抵消通過頭部運動追蹤裝置1120所檢測的頭部的運動。
顯示裝置1140側可以呈現(xiàn)顯示區(qū)域在原始圖像1301中移動的圖像,以便跟隨用戶的頭部(視線)的運動。進一步,本實施方式具有聲音圖像也隨著圖像定位,以便跟隨用戶的頭部(視線)的運動的特征。
應當注意的是,當不存在由對應于用戶的視點的攝像機拍攝的圖像時,使用具有相對接近的視線的兩個或更多個圖像插入視點。
圖14示意性地示出了在繪圖裝置1130內的繪圖處理單元1132的配置。
解多路復用器(DEMUX)1401將來自內容輸入單元1134的輸入流解多路復用為聲音信息、圖像信息、聲源的位置信息以及拍攝圖像的攝像機的位置信息和姿勢信息。聲音的位置信息利用對象(諸如用于收集聲音的麥克風以及發(fā)聲者)的位置信息形成。進一步,位置信息是用于拍攝的所有攝像機的坐標信息。
視頻解碼器1402對在解多路復用器1401處從輸入流解多路復用的圖像信息(諸如動態(tài)圖像)進行解碼處理。進一步,音頻解碼器1403對在解多路復用器1401處從輸入流解多路復用的聲音信息進行解碼處理。
位置信息計算單元1404輸入拍攝圖像的攝像機的位置信息和姿勢信息以及聲源的位置信息,確定查看圖像的用戶的位置(即在向用戶提供圖像和聲音的空間中的虛擬點),并且計算用戶坐標。虛擬點是待定位聲音圖像的位置。例如,虛擬點可以是典型的位置,諸如待提供圖像的空間的中心(認為聲音圖像優(yōu)選地定位到其中),并且可以是用于拍攝的多個攝像機的重心位置。進一步,位置信息計算單元1404進一步輸入從頭部運動追蹤裝置1120接收的用戶的真實的位置信息和姿勢信息,以移動虛擬點或者改變虛擬點上的視覺方向。當繪圖裝置1130是頭戴式顯示器900時,虛擬點對應于佩戴頭戴式顯示器900的用戶頭部的位置和姿勢。
圖像調整單元1405基于每一個攝像機的坐標位置和通過位置信息計算單元1404確定的虛擬點的坐標位置,對在視頻解碼器1402處經受解碼處理的圖像進行調整處理。當不存在由與在虛擬點的用戶具有相同視點的攝像機拍攝的圖像時,圖像調整單元1405使用與虛擬點相對接近的兩個或更多個攝像機拍攝的圖像,通過視點插入(viewpoint interpolation)從虛擬點生成視點圖像。
進一步,聲音調整單元1406在通過位置信息計算單元1404確定的虛擬點處,定位在音頻解碼器1403處經受解碼處理的每一個聲源的聲音的聲音圖像。具體地,聲音調整單元1406將包括在用戶的視點圖像中的發(fā)聲對象(或者收集發(fā)聲對象的聲音的麥克風)的絕對位置信息轉換為相對于用戶的視點攝像機的相對位置,以在視點圖像中定位發(fā)聲對象的聲音圖像。進一步,如上所述,當在圖像調整單元1405處使用由多個攝像機拍攝的圖像來插入視點時,聲音調整單元1406將發(fā)聲對象的絕對位置信息轉換為視點插入攝像機的相對位置信息,以在視點插入圖像中定位發(fā)聲對象的聲音圖像。通過這種方式,能夠解決當視點攝像機的角度切換時聲音圖像的位置快速改變的異常。使用利用揚聲器陣列(諸如波前合成)的方法可以定位聲音圖像。
圖像/聲音渲染單元1407對在圖像調整單元1405中處理的圖像和在聲音調整單元1406中處理的聲音圖像進行同步圖像的處理,并且例如,使用HDMI(注冊商標)接口將所同步的圖像和聲音圖像輸出至顯示裝置1140。
圖15以流程圖格式示出了再現(xiàn)圖像和聲音的處理步驟。
例如,使用頭部運動追蹤裝置1120檢測用戶的位置信息(步驟S1502)。進一步,解多路復用器1401將輸入流解多路復用為聲音信息、圖像信息以及聲音和圖像的位置信息(步驟S1503)。然后,直到輸入流完成(步驟S1501:否),同時執(zhí)行以下將描述的圖像信息的處理和聲音信息的處理。
圖像調整單元1405輸入在視頻解碼器1402處經受解碼處理的由每一個攝像機拍攝的圖像(步驟S1504),輸入每一個攝像機的坐標位置以及通過位置信息計算單元1404確定的在虛擬點的用戶坐標,以生成用戶的視點圖像(步驟S1505)。當不存在由設置在用戶坐標處的攝像機拍攝的圖像時,圖像調整單元1405使用與虛擬點相對接近的兩個或更多個攝像機拍攝的圖像,通過視點插入法從虛擬點生成視點圖像。然后,所生成的視點圖像被輸出至顯示裝置1140,同時與聲音圖像同步生成圖像并且呈現(xiàn)給用戶(步驟S1506)。
進一步,當聲音調整單元1406獲取所有聲源(或者收集發(fā)聲對象的聲音的麥克風)的絕對位置信息時(步驟S1507),聲音調整單元1406將絕對位置信息轉換為相對于虛擬點(或者用戶的視點攝像機)的位置坐標的相對位置(步驟S1508),并且在視點圖像中定位每一個聲源的聲音圖像(步驟S1509)。然后,所生成的聲音圖像被輸出至顯示裝置1140,同時與圖像同步生成聲音圖像并且呈現(xiàn)給用戶(步驟S1510)。
圖16示出了確定虛擬點1601并且虛擬點被布置在向用戶提供圖像和聲音的空間中的方面。虛擬點1601是待定位聲音圖像的位置。
當待呈現(xiàn)給用戶的圖像是宣傳片或者實時分發(fā)時,位置信息計算單元1404確定其中認為聲音圖像被優(yōu)選地定位在作為虛擬點1601的原始地點的位置(或者典型的位置)。在圖16所示的實例中,在拍攝位置處,設置兩個攝像機Cam 1和Cam 2來拍攝兩個發(fā)聲者Obj 1和Obj 2。例如,當使用由多個攝像機Cam 1和Cam 2拍攝的圖像來生成視點插入圖像時,可以確定攝像機Cam 1和攝像機Cam 2的重心作為虛擬點1601。進一步,也可以基于搖攝和切換的頻率對攝像機Cam 1和攝像機Cam 2中的每一個的位置信息進行加權來計算中心位置并且將中心位置設為虛擬點1601。
進一步,圖17示出了當再現(xiàn)圖像和聲音時,聲音圖像被定位在虛擬點1701的方面。當在劇院再現(xiàn)宣傳片或者實時分發(fā)圖像時,圖像通過投影到屏幕1702上而被呈現(xiàn),以便使劇院內的座位的中心與所確定的虛擬點一致(如圖16中所示)。進一步,在劇院中,三個揚聲器1711、1712以及1713設置在前部,并且兩個揚聲器1714和1715設置在后部,從而配置5.1聲道環(huán)繞型揚聲器。當根據(jù)在屏幕1702上呈現(xiàn)的圖像來渲染聲源時,使用諸如5.1聲道搖攝的揚聲器陣列1711至1715(聲音圖像定位沿著水平方向的改變)以及波前合成的聲音圖像定位方法被用于再現(xiàn)逼真的感受,這使得用戶感覺仿佛他/她處于場景中。
當對于一個攝像機確定聲音圖像的位置坐標時(例如,參見專利文獻1和專利文獻2),在搖攝或者切換屏幕時聲音圖像定位改變,并且出現(xiàn)用戶不知道他/她從哪里聽到聲音的現(xiàn)象。當相機角度切換時,由于從攝像機至聲源的相對位置也改變,因此定位聲音圖像的位置急劇改變,這是異常的。與此相反,在這個實施方式中,發(fā)聲對象的絕對位置信息被轉換為相對于設置在劇院內的用戶的位置(即虛擬點1701)的相對位置信息,并且相對于劇院內的座位位置來定位發(fā)聲對象的聲音圖像。通過這種方式,能夠避免用戶不知道他/她從哪里聽到聲音的現(xiàn)象。
進一步,圖18示出在頭戴式顯示器上再現(xiàn)每一個攝像機的視點圖像的方面。在所所示的實施例中,再現(xiàn)了每一個拍攝的圖像,同時頭戴式顯示器的佩戴者1801和1802分別映射在拍攝發(fā)聲對象1811和1812的任意攝像機Cam 1和Cam 2的位置處。在這種情況下,在所拍攝的圖像中的每一個發(fā)聲對象的絕對位置信息被轉換為相對于任意攝像機Cam 1和Cam 2的相對位置信息,并且相對于拍攝發(fā)聲對象的攝像機的位置來定位聲音圖像。因此,即使在切換多個攝像機的視點的同時呈現(xiàn)圖像,由于聲音圖像被呈現(xiàn)在所呈現(xiàn)的圖像中的發(fā)聲對象處,因此用戶1801和用戶1802中的每一個知道他/她從哪里聽見聲音,使得用戶可以享受聲音圖像定位。
還有可以針對拍攝發(fā)聲對象的攝像機Cam 1和Cam 2中的每一個,記錄每一個所拍攝的發(fā)聲對象的相對位置信息的方法。在這種情況下,存在發(fā)聲對象的相對位置信息隨著所設置的攝像機的數(shù)量(即視點的數(shù)量)的增加而增加的問題。與此相反,在這個實施方式中,由于記錄裝置140和340記錄每一個發(fā)聲對象的絕對位置信息,并且當再現(xiàn)圖像和聲音時,每次切換視點時,絕對位置信息都被轉換為相對于攝像機的相對位置信息以定位聲音圖像,因此不存在發(fā)聲對象的位置信息隨著視點的數(shù)量的增加而增加的問題。
進一步,除了使用頭戴式顯示器的情況,還可以使用用戶通過任意切換視點來使他/她自己滿足的情況,來自所切換的視點的攝像機的位置的聲音圖像的定位對應于來自在圖16中的劇院中所確定的虛擬點1601的位置的聲音圖像的定位。
進一步,圖19示出在向用戶提供圖像和聲音的空間中呈現(xiàn)布置在任意位置的視點的圖像的實例。在所示的實例中,用戶的視點被布置在與拍攝發(fā)聲對象Obj 1和Obj 2的攝像機Cam 1和Cam 2中的任一個不同的位置處。當用戶的視點被布置在攝像機Cam 1和攝像機Cam 2之間的位置時,設置視點插入攝像機Cam P1,合成通過攝像機Cam 1和攝像機Cam 2拍攝的圖像以生成在視點插入攝像機Cam P1處拍攝的視點插入圖像。進一步,發(fā)聲對象Obj 1和Obj 2的絕對位置信息被轉換為相對于視點插入攝像機Cam P1的相對位置信息,以相對于視點插入攝像機Cam P1定位聲音圖像。按類似方式呈現(xiàn)在視點插入攝像機Cam P2處的視點插入圖像。因此,由于在沒有設置執(zhí)行拍攝的實際攝像機的視點處也呈現(xiàn)視點插入圖像,并且聲音圖像被呈現(xiàn)給視點插入圖像中的發(fā)聲對象,因此用戶可以知道他/她從哪里聽到聲音,并且因此可以享受聲音圖像的定位。
還存在可以對于拍攝發(fā)聲對象的攝像機Cam 1和Cam 2中的每一個,記錄每一個所拍攝的發(fā)聲對象的相對位置信息的方法。在這種情況下,由于主要基于在攝像機之間異步記錄的發(fā)聲對象的聲源位置信息來計算攝像機之間的相對位置,所以處理是沒有效率的。與此相反,在這個實施方式中,由于記錄每一個發(fā)聲對象的絕對位置信息,并且在生成視點插入圖像時,圖像中的每一個發(fā)聲對象的絕對位置信息都被轉換為相對于視點插入圖像攝像機的相對位置信息,因此處理是高效率的。
進一步,圖20示出了在頭戴式顯示器上再現(xiàn)視點插入圖像的方面。在所示的實例中,在頭戴式顯示器H1被映射至視點插入攝像機Cam P1的位置的同時再現(xiàn)視點插入圖像。進一步,在視點插入圖像中的發(fā)聲對象Obj 1和Obj 2中的每一個的絕對位置信息被轉換為相對于視點插入攝像機Cam P1的相對位置信息,以相對于視點插入攝像機Cam P1定位聲音圖像。按類似方式在頭戴式顯示器H2上呈現(xiàn)在視點插入攝像機Cam P2處的視點插入圖像。因此,還能夠在沒有設置執(zhí)行拍攝的實際攝像機的任意視點處呈現(xiàn)視點插入圖像,并且從視點插入圖像中的發(fā)聲對象的位置實現(xiàn)正確的聲音圖像的定位。
當用戶使用渲染裝置(諸如常規(guī)顯示器和屏幕以及頭戴式顯示器),來享受所記錄的位置(攝像機位置)的圖像或者任意視點的圖像時,通過在渲染裝置處設置麥克風也能夠實現(xiàn)仿佛發(fā)聲對象就在那里的交談。
圖21示出再現(xiàn)圖像的頭戴式顯示器的佩戴者也作為發(fā)聲對象處理并且定位話語內容的聲音圖像的方面。當麥克風安裝在頭戴式顯示器H1上時,佩戴頭戴式顯示器H1的用戶也作為發(fā)聲對象處理,并且定位在視點插入圖像中的發(fā)聲對象Obj 1和Obj 2中的每一個的聲音圖像,同時從H1的方向定位在頭戴式顯示器H1的麥克風處所收集的聲音2101的聲音圖像并且再現(xiàn)該聲音圖像。進一步,按類似方式,當麥克風被安裝在頭戴式顯示器H2上時,佩戴頭戴式顯示器H2的用戶也作為發(fā)聲對象處理,并且定位在視點插入圖像中的發(fā)聲對象Obj 1和Obj 2中的每一個的聲音圖像,同時從H2的方向定位在頭戴式顯示器H2的麥克風處所收集的聲音2102的聲音圖像并且再現(xiàn)該聲音圖像。通過這種方式,佩戴頭戴式顯示器H1和H2的用戶中的每一個可以進行交談,仿佛他們在那一樣。
進一步,頭戴式顯示器H1和H2可以在每一個用戶的視點插入圖像中對應于其他用戶的位置處顯示頭像或者位置信息,以指明他們的存在。進一步,當在現(xiàn)場事件位置中存在再現(xiàn)裝置(諸如揚聲器陣列1201)等時,能夠向發(fā)聲對象Obj 1和Obj 2再現(xiàn)佩戴頭戴式顯示器H1的觀眾的歡呼聲2101和2102,其中從觀眾的位置來看發(fā)聲對象Obj 1和Obj 2是表演者。
按這種方式,在現(xiàn)場演唱會時,通過實時地反映表演者和觀眾的動作,他們可以具有進一步互動的體驗并且具有逼真的感受。
工業(yè)實用性
因此,上述詳細地并且參考具體實施方式描述了本說明書中公開的技術。然而,對于本領域內的技術人員顯而易見的是,可以對這些實施方式作出變形和替代而不偏離本說明書中公開的技術的精神。
本說明書中公開的技術可以應用于使用各種渲染裝置諸如常規(guī)顯示器和屏幕以及頭戴式顯示器,伴隨圖像呈現(xiàn)聲音的情況,以實現(xiàn)正確的聲音圖像的定位。
實質上,已通過舉例的方式,描述本說明書中公開的技術,并且本說明書中陳述的內容不應該作為限制來解釋。本說明書中公開的技術的精神應該考慮權利要求來確定。
此外,本技術也可按如下配置。
(1)一種信息再現(xiàn)裝置,包括:
位置信息計算單元,被配置為計算在提供了圖像和聲音的空間中的觀看者的位置;
圖像處理單元,被配置為基于記錄有攝像機的位置信息和姿勢信息的圖像信息在觀看者的位置處處理圖像;以及
聲音處理單元,被配置為基于記錄有聲源的位置信息的聲音信息在觀看者的位置處定位聲音圖像。
(2)根據(jù)(1)所述的信息再現(xiàn)裝置,
其中,位置信息計算單元基于用于拍攝的攝像機的位置信息和姿勢信息計算觀看者的位置。
(3)根據(jù)(1)或(2)所述的信息再現(xiàn)裝置,
其中,位置信息計算單元基于觀看者的實際運動或者實際位置計算觀看者的位置。
(4)根據(jù)(1)或(2)所述的信息再現(xiàn)裝置,
其中,位置信息計算單元基于多個攝像機之間的重心位置計算觀看者的位置。
(5)根據(jù)(1)或(2)所述的信息再現(xiàn)裝置,
其中,位置信息計算單元基于多個攝像機之間的重心位置計算觀看者的位置,基于對搖攝和切換的頻率進行加權而得到該重心位置。
(6)根據(jù)(1)至(5)中任一項所述的信息再現(xiàn)裝置,
其中,圖像處理單元基于在觀看者的位置處的攝像機拍攝的攝像機的圖像在觀看者的位置處生成圖像。
(7)根據(jù)(1)至(5)中任一項所述的信息再現(xiàn)裝置,
其中,圖像處理單元利用多個攝像機拍攝的圖像在觀看者的位置處生成視點插入圖像。
(8)根據(jù)(7)所述的信息再現(xiàn)裝置,
其中,聲音處理單元在插入視點的位置處定位聲音圖像。
(9)根據(jù)(7)或(8)所述的信息再現(xiàn)裝置,
其中,聲音處理單元基于插入了從觀看者收集的話語信息的視點的位置定位聲音圖像。
(10)根據(jù)(7)或(8)所述的信息再現(xiàn)裝置,
其中,圖像處理單元在視點插入圖像中對應于觀看者的位置處顯示觀看者的頭像或者位置信息。
(11)根據(jù)(1)至(10)中任一項所述的信息再現(xiàn)裝置,
其中,聲音處理單元將包含在來自觀看者的位置的視點圖像中的聲源的絕對位置信息轉換為相對于觀看者的位置的相對位置,以定位在視點圖像中聲音圖像的聲音圖像。
(12)一種信息再現(xiàn)方法,包括:
位置信息計算步驟,計算在提供了圖像和聲音的空間中的觀看者的位置;
圖像處理步驟,基于記錄有攝像機的位置信息和姿勢信息的圖像信息在觀看者的位置處處理圖像;以及
聲音處理步驟,基于記錄有聲源的位置信息的聲音信息在觀看者的位置處定位聲音圖像。
(13)一種信息記錄裝置,包括:
圖像信息記錄單元,被配置為記錄由攝像機拍攝的圖像以及攝像機的位置信息和姿勢信息;以及
聲音信息記錄單元,被配置為記錄聲源的位置信息。
(14)根據(jù)(13)所述的信息記錄裝置,
其中,圖像信息記錄單元以用于圖像的數(shù)據(jù)包形式記錄由攝像機拍攝的圖像以及攝像機的位置信息和姿勢信息,并且
聲音信息記錄單元以用于聲音的數(shù)據(jù)包形式記錄聲源的位置信息。
(15)根據(jù)(13)所述的信息記錄裝置,
其中,圖像信息記錄單元在用于圖像的軌道中記錄由攝像機拍攝的圖像以及攝像機的位置信息和姿勢信息,并且
聲音信息記錄單元在用于聲音的軌道中記錄聲源的位置信息。
(16)根據(jù)(13)至(15)中任一項所述的信息記錄裝置,
其中,圖像信息記錄單元記錄從攝像機接收的拍攝的圖像以及從攝像機位置傳感器接收的位置信息和姿勢信息。
(17)根據(jù)(13)至(15)中任一項所述的信息記錄裝置,
其中,聲音信息記錄單元記錄從聲源檢測裝置接收的聲源的位置信息。
(18)根據(jù)(13)至(17)中任一項所述的信息記錄裝置,
其中,聲音信息記錄單元將從聲源檢測裝置接收的聲音信息或者隨后記錄的聲音信息與聲源的位置信息一起記錄。
(19)根據(jù)(13)至(18)中任一項所述的信息記錄裝置,
其中,與用于圖像記錄的同步信號(時鐘)相同步地記錄或者基于頻率劃分或者頻率抽取的定時信號記錄攝像機的位置信息和姿勢信息以及聲源的位置信息。
(20)一種信息記錄方法,包括:
接收由攝像機拍攝的圖像以及攝像機的位置信息和姿勢信息的步驟;
記錄所接收的由攝像機拍攝的圖像以及所接收的攝像機的位置信息和姿勢信息的步驟;
接收聲源的位置信息的步驟;以及
聲音信息記錄單元被配置為記錄所接收的聲源的位置信息。
(21)一種信息記錄和再現(xiàn)系統(tǒng),包括:
記錄裝置,被配置為記錄具有聲源的位置信息的聲音信息,同時記錄具有攝像機的位置信息和姿勢信息的拍攝圖像;以及
再現(xiàn)裝置,被配置為在將觀看者的位置置于某一點的同時,使用記錄有位置信息和姿勢信息的圖像從觀看者的視點呈現(xiàn)圖像,并且基于所記錄的聲音信息和位置信息在觀看者的位置處定位聲音圖像。
符號說明
100 記錄系統(tǒng)
110-1,110-2 攝像機
120-1,120-2 麥克風
130 同步信號發(fā)生裝置
140 記錄裝置
300 記錄系統(tǒng)
310-1,310-2 攝像機
320-1,320-2 聲音位置傳感器
330 同步信號發(fā)生裝置
340 位置信息接收裝置
350 記錄裝置
900 頭戴式顯示器
901 主體部
902 前額保護部
903 鼻墊部
904 上帶
905 下帶
1100 圖像顯示系統(tǒng)
1120 頭部運動追蹤裝置
1121 傳感器單元
1122 姿勢角計算單元
1123 發(fā)送單元
1130 繪圖裝置
1131 接收單元
1132 繪圖處理單元
1133 發(fā)送單元
1134 內容輸入單元
1140 顯示裝置
1141 接收單元
1142 圖像聲音輸出單元
1401 解多路復用器
1402 視頻解碼器
1403 音頻解碼器
1404 位置信息計算單元
1405 圖像調整單元
1406 聲音調整單元
1407 圖像/聲音渲染單元