專利名稱:3d人機接口的混合現(xiàn)實的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體上涉及多媒體數(shù)據(jù)的處理和呈現(xiàn),且更特定來說,涉及處理和呈現(xiàn)具有虛擬對象和真實對象兩者的三維(3D)圖片和視頻數(shù)據(jù)。
背景技術(shù):
立體視頻處理的計算復(fù)雜性是三維(3D)圖形的呈現(xiàn)過程,尤其是低功率裝置中或?qū)崟r環(huán)境中3D場景的視覺化過程中的重要考慮因素。一般來說,在具有立體功能的顯示器(例如,自動立體或立體顯示器)上呈現(xiàn)3D圖形的困難可歸因于立體視頻處理的計算復(fù)雜性而產(chǎn)生。計算復(fù)雜性對于產(chǎn)生具有真實對象和虛擬對象兩者的混合現(xiàn)實場景的實時混合-現(xiàn)實視頻裝置可能是特別重要的考慮因素。混合現(xiàn)實3D場景的視覺化可用于例如視頻游戲、用戶接口和其它3D圖形應(yīng)用等許多應(yīng)用中。低功率裝置的有限計算資源可致使3D圖形的呈現(xiàn)成為過分耗時的例程,且耗時的例程通常與實時應(yīng)用不兼容。
發(fā)明內(nèi)容
三維(3D)混合現(xiàn)實組合例如由3D相機俘獲的真實3D圖像或視頻與由計算機或其它機器呈現(xiàn)的虛擬3D圖像。3D相機可獲取共同場景的兩個單獨圖像(例如,左和右),且將所述兩個單獨圖像疊加以形成具有3D深度效果的真實圖像。虛擬3D圖像通常不從相機獲取的圖像產(chǎn)生,而是通過例如OpenGL等計算機圖形程序繪制。利用組合真實和虛擬3D圖像兩者的混合現(xiàn)實系 統(tǒng),用戶可感到置身于由通過計算機繪制的虛擬對象和由3D相機俘獲的真實對象兩者組成的空間中。本發(fā)明描述可用于以計算高效方式產(chǎn)生混合場景的技術(shù)。在一個實例中,一種方法包含:確定到真實三維(3D)圖像的零視差平面的距離;至少部分基于到所述零視差平面的所述距離確定投影矩陣的一個或一個以上參數(shù);至少部分基于投影矩陣呈現(xiàn)虛擬3D對象;以及組合所述真實圖像與所述虛擬對象以產(chǎn)生混合現(xiàn)實3D圖像。在另一實例中,一種用于處理三維(3D)視頻數(shù)據(jù)的系統(tǒng)包含:真實3D圖像源,其中所述真實圖像源經(jīng)配置以確定到所俘獲的3D圖像的零視差平面的距離;虛擬圖像源,其經(jīng)配置以至少基于到所述零視差平面的所述距離確定投影矩陣的一個或一個以上參數(shù),且至少部分基于投影矩陣呈現(xiàn)虛擬3D對象;以及混合場景合成單元,其經(jīng)配置以組合所述真實圖像與所述虛擬對象以產(chǎn)生混合現(xiàn)實3D圖像。在另一實例中,一種設(shè)備包含:用于確定到真實三維(3D)圖像的零視差平面的距離的裝置;用于至少部分基于到所述零視差平面的所述距離確定投影矩陣的一個或一個以上參數(shù)的裝置;用于至少部分基于投影矩陣呈現(xiàn)虛擬3D對象的裝置;以及用于組合所述真實圖像與所述虛擬對象以產(chǎn)生混合現(xiàn)實3D圖像的裝置。本發(fā)明中所描述的技術(shù)可以硬件、軟件、固件或其任一組合來實施。如果以硬件實施,那么設(shè)備可作為集成電路、處理器、離散邏輯或其任何組合而實現(xiàn)。如果以軟件來實施,則可在例如微處理器、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或數(shù)字信號處理器(DSP)等一個或一個以上處理器中執(zhí)行軟件??勺畛鯇?zhí)行所述技術(shù)的軟件存儲于計算機可讀媒體中且在處理器中加載并執(zhí)行。因此,在另一實例中,一種非暫時性計算機可讀存儲媒體有形地存儲一個或一個以上指令,所述指令當由一個或一個以上處理器執(zhí)行時致使所述一個或一個以上處理器確定到真實三維(3D)圖像的零視差平面的距離;至少部分基于到所述零視差平面的所述距離確定投影矩陣的一個或一個以上參數(shù);至少部分基于投影矩陣呈現(xiàn)虛擬3D對象;且組合所述真實圖像與所述虛擬對象以產(chǎn)生混合現(xiàn)實3D圖像。本發(fā)明的一個或一個以上方面的細節(jié)在附圖及以下描述中陳述。從描述和圖式并從權(quán)利要求書將明白本發(fā)明中所描述的技術(shù)的其它特征、目的和優(yōu)點。
圖1是說明經(jīng)配置以執(zhí)行本發(fā)明的技術(shù)的實例系統(tǒng)的框圖。圖2是說明根據(jù)本發(fā)明的技術(shù)其中源裝置將三維(3D)圖像數(shù)據(jù)發(fā)送到目的地裝置的實例系統(tǒng)的框圖。圖3A-3C分別是說明基于像素的深度的正、零和負視差值的實例的概念圖。圖4A是用于獲取真實場景的立體圖和所得3D圖像所涵蓋的視場的兩個相機系統(tǒng)的概念俯視圖。圖4B是如圖4A所示的相同兩個相機系統(tǒng)的概念側(cè)視圖。圖5A是虛擬顯示場景的概念俯視圖。圖5B是如圖5A所示的相同虛擬顯示場景的概念側(cè)視圖。圖6是用于呈現(xiàn)混合現(xiàn)實場景的3D視見平截頭體的3D說明。圖7是圖6的視見平截頭體的概念俯視圖。圖8是說明本發(fā)明的技術(shù)的流程圖。
具體實施例方式三維(3D)混合現(xiàn)實組合例如由3D相機俘獲的真實3D圖像或視頻與由計算機或其它機器呈現(xiàn)的虛擬3D圖像。3D相機可獲取共同場景的兩個單獨圖像(例如,左和右),且將所述兩個單獨圖像疊加以形成具有3D深度效果的真實圖像。虛擬3D圖像通常不從相機獲取的圖像產(chǎn)生,而是通過例如OpenGL等計算機圖形程序繪制。利用組合真實和虛擬3D圖像兩者的混合現(xiàn)實系統(tǒng),用戶可感到置身于由通過計算機繪制的虛擬對象和由3D相機俘獲的真實對象兩者組成的空間中。在單向混合現(xiàn)實場景的實例中,觀看者可能夠觀看展示廳中的推銷員(真實對象),其中推銷員與例如計算機產(chǎn)生的虛擬3D汽車(虛擬對象)等虛擬對象交互。在雙向混合現(xiàn)實場景的實例中,在例如虛擬國際象棋游戲等虛擬游戲中,第一計算機處的第一用戶可與第二計算機處的第二用戶交互。兩個計算機可相對于彼此位于遠程物理位置處,且可經(jīng)由例如因特網(wǎng)等網(wǎng)絡(luò)連接。在3D顯示器上,第一用戶可能夠看到第二用戶(真實對象)以及計算機產(chǎn)生的棋盤和棋子(虛擬對象)的3D視頻。在不同3D顯示器上,第二用戶可能能夠看到第一用戶(真實對象)與相同的計算機產(chǎn)生的棋盤(虛擬對象)的3D視頻。在混合現(xiàn)實系統(tǒng)中,如上文描述,由虛擬對象組成的虛擬場景的立體顯示視差需要與由真實對象組成的真實場景的立體顯示視差匹配。術(shù)語“視差”通常描述一個圖像(例如,左真實圖像)中的像素相對于其它圖像(例如,右真實圖像)中的對應(yīng)像素的水平偏移以產(chǎn)生3D效果(例如,深度)。真實場景與虛擬場景之間的視差失配可在真實場景與虛擬場景組合為混合現(xiàn)實場景時導(dǎo)致不合意的效果。舉例來說,在虛擬國際象棋游戲中,視差失配可致使混合場景中的棋盤(虛擬對象)部分出現(xiàn)在用戶(真實對象)后方,或可顯得突出到用戶身體中,而不是出現(xiàn)在用戶前方。作為虛擬國際象棋游戲中的另一實例,視差失配可致使棋子(虛擬對象)具有不正確的縱橫比且在與人(真實對象)的混合現(xiàn)實場景中顯得失真。除了虛擬場景和真實場景的匹配視差外,還需要使真實場景與虛擬場景的投影尺度匹配。如下文將更詳細論述,投影尺度通常指代當投影到顯示平面上時圖像的大小和縱橫比。真實場景與虛擬場景之間的投影尺度失配可致使虛擬對象相對于真實對象來說太大或太小,或可致使虛擬對象具有相對于真實對象失真的形狀。本發(fā)明的技術(shù)包含用于實現(xiàn)真實場景的真實圖像與虛擬場景的虛擬圖像之間的投影尺度匹配的方法,以及用于實現(xiàn)真實場景的真實圖像與虛擬場景的虛擬圖像之間的視差尺度匹配的方法。所述技術(shù)可以計算高效方式例如由3D圖像內(nèi)容的發(fā)送者或3D圖像內(nèi)容的接收者應(yīng)用于通信網(wǎng) 絡(luò)的上游或下游方向上。不同于現(xiàn)有解決方案,本發(fā)明的技術(shù)還可應(yīng)用于顯示鏈中以實現(xiàn)實時應(yīng)用中的真實場景與虛擬場景之間的正確深度感知。如本發(fā)明中使用的術(shù)語“視差”通常描述一個圖像中的像素相對于其它圖像中的對應(yīng)像素的水平偏移以便產(chǎn)生3D效果。如本發(fā)明中使用的對應(yīng)像素通常指代當左圖像與右圖像合成以呈現(xiàn)3D圖像時與3D對象中的相同點相關(guān)聯(lián)的像素(一個在左圖像中,且一個在右圖像中)?!獙αⅢw圖像的多個視差值可存儲在被稱為視差圖的數(shù)據(jù)結(jié)構(gòu)中。與所述對立體圖像相關(guān)聯(lián)的視差圖表示二維(2D)函數(shù)d(x,y),其將第一圖像中的像素坐標(X,y)映射到視差值(d),使得第一圖像中的任何給定(X,y)坐標處的d的值對應(yīng)于需要施加到第二圖像中的(x,y)坐標處的像素以找到第二圖像中的對應(yīng)像素的X坐標上的移位。舉例來說,作為特定說明,視差圖可存儲第一圖像中的坐標(250,150)處的像素的d值6。在此說明中,給定d值6,描述第一圖像中的像素(250,150)的數(shù)據(jù)(例如,色度和量度值)出現(xiàn)在第二圖像中的像素(256,150)處。圖1是說明用于實施本發(fā)明的各方面的實例系統(tǒng)(系統(tǒng)110)的框圖。如圖1所示,系統(tǒng)110包含真實圖像源122、虛擬圖像源123、混合場景合成單元(MSSU) 145和圖像顯示器142。MSSU145接收來自真實圖像源122的真實圖像,且接收來自虛擬圖像源123的虛擬圖像。真實圖像可例如為3D相機俘獲的3D圖像,且虛擬圖像可例如為計算機產(chǎn)生的3D圖像。MSSU145產(chǎn)生包含真實對象和虛擬對象兩者的混合現(xiàn)實場景,且將混合現(xiàn)實場景輸出到圖像顯示器142。根據(jù)本發(fā)明的技術(shù),MSSU145確定真實圖像的多個參數(shù),且基于那些參數(shù)產(chǎn)生虛擬圖像,使得虛擬圖像的投影尺度和視差與真實圖像的投影尺度和視差匹配。圖2是說明用于實施本發(fā)明的各方面的實例系統(tǒng)(系統(tǒng)210)的框圖。如圖2所示,系統(tǒng)210可包含源裝置220,源裝置220具有真實圖像源222、虛擬圖像源223、視差處理單元224、編碼器226和發(fā)射器228 ;且可進一步包含目的地裝置240,目的地裝置240具有圖像顯示器242、真實視圖合成單元244、混合場景合成單元(MSSU) 245、解碼器246和接收器248。圖1和圖2的系統(tǒng)僅是其中可實施本發(fā)明的各方面的系統(tǒng)的類型的兩個實例,且將用于闡釋的目的。如下文將更詳細論述,在實施本發(fā)明的各方面的替代系統(tǒng)中,系統(tǒng)210的各個元件可以不同方式布置,由替代元件代替,或在一些情況下一起省略。在圖2的實例中,目的地裝置240接收來自源裝置220的經(jīng)編碼圖像數(shù)據(jù)254。源裝置220和/或目的地裝置240可包括個人計算機(PC)、桌上型計算機、膝上型計算機、平板計算機、專用計算機、例如智能電話等無線通信裝置,或可經(jīng)由通信信道傳送圖片和/或視頻信息的任何裝置。在一些例子中,單一裝置可為支持雙向通信的源裝置和目的地裝置兩者,且因此可包含源裝置220和目的地裝置240兩者的功能性。源裝置220與目的地裝置240之間的通信信道可包括有線或無線通信信道,且可為例如因特網(wǎng)等網(wǎng)絡(luò)連接,或可為直接通信鏈路。目的地裝置240可被稱為三維(3D)顯示器裝置或3D呈現(xiàn)裝置。真實圖像源222將包含第一視圖250和第二視圖256的一對立體圖像提供到視差處理單元224。視差處理單元224使用第一視圖250和第二視圖256來產(chǎn)生3D處理信息252。視差處理單元224將3D處理信息252以及兩個視圖中的一者(圖2的實例中,第一視圖250)傳遞到編碼器226,編碼器226將第一視圖250和3D處理信息252編碼以形成經(jīng)編碼圖像數(shù)據(jù)254。編碼器226還在經(jīng)編碼圖像數(shù)據(jù)254中包含來自虛擬圖像源223的虛擬圖像數(shù)據(jù)253。發(fā)射器228將經(jīng)編碼圖像數(shù)據(jù)254發(fā)射到目的地裝置240。接收器248接收來自發(fā)射器228的經(jīng)編碼圖像數(shù)據(jù)254。解碼器246將經(jīng)編碼圖像數(shù)據(jù)254解碼以提取第一視圖250且提取3D處理信息252以及來自經(jīng)編碼圖像數(shù)據(jù)254的虛擬圖像數(shù)據(jù)253?;诘谝灰晥D250和3D處理信息252,視圖合成單元244可重建第二視圖256。基于第一視圖250和 第二視圖256,真實視圖合成單元244可呈現(xiàn)真實3D圖像。盡管圖1未展示,但第一視圖250和第二視圖256可經(jīng)歷源裝置220或目的地裝置240處的額外處理。因此,在一些實例中,由視圖合成單元244接收的第一視圖250或由圖像顯示器242接收的第一視圖250及第二視圖256可實際上為從圖像源256接收的第一視圖250和第二視圖256的經(jīng)修改版本。3D處理信息252可例如包含視差圖,或可含有基于視差圖的深度信息。存在用于基于視差信息確定深度信息的各種技術(shù),且反之亦然。因此,每當本發(fā)明論述編碼、解碼或發(fā)射視差信息時,也預(yù)期可編碼、解碼或發(fā)射基于視差信息的深度信息。真實圖像源222可包含圖像傳感器陣列(例如,數(shù)字靜態(tài)圖片相機或數(shù)字錄像機)、包括一個或一個以上所存儲圖像的計算機可讀存儲媒體,或用于接收來自外部源的數(shù)字圖像的接口。在一些實例中,真實圖像源222可對應(yīng)于例如桌上型計算機、膝上型計算機或平板計算機等個人計算裝置的3D相機。虛擬圖像源223可包含例如通過執(zhí)行視頻游戲或其它交互式多媒體源或其它圖像數(shù)據(jù)源而產(chǎn)生數(shù)字圖像的處理單元。真實圖像源222可對應(yīng)于任一類型的所俘獲或預(yù)先俘獲的圖像的源。一般來說,本發(fā)明中對圖像的參考包含靜態(tài)圖片以及視頻數(shù)據(jù)幀兩者。因此,本發(fā)明的各方面可應(yīng)用于靜態(tài)數(shù)字圖片以及所俘獲數(shù)字視頻數(shù)據(jù)或計算機產(chǎn)生的數(shù)字視頻數(shù)據(jù)的幀兩者。真實圖像源222將一對立體圖像250和256的圖像數(shù)據(jù)提供到視差處理單元224以計算圖像之間的視差值。所述對立體圖像250和256包括第一視圖250和第二視圖256。視差處理單元224可經(jīng)配置以自動計算所述對立體圖像250和256的視差值,其又可用于計算3D圖像中的對象的深度值。舉例來說,真實圖像源222可以不同視角俘獲場景的兩個視圖,且接著基于所確定的視差圖計算場景中的對象的深度信息。在各個實例中,真實圖像源222可包括標準二維相機、提供場景的立體視圖的雙相機系統(tǒng)、俘獲場景的多個視圖的相機陣列,或俘獲一個視圖加深度信息的相機。真實圖像源222可提供多個視圖(即,第一視圖250和第二視圖256),且視差處理單元224可基于這些多個視圖計算視差值。然而,源裝置220可僅發(fā)射第一視圖250加3D處理信息252(即,視差圖,或依據(jù)視差圖確定的場景的每一對視圖的深度信息)。舉例來說,真實圖像源222可包括八個相機陣列,其希望產(chǎn)生待從不同角度觀看的場景的四對視圖。源裝置220可計算每一對視圖的視差信息或深度信息,且僅將每一對的一個圖像加上所述對的視差信息或深度信息發(fā)射到目的地裝置240。因此,不是發(fā)射八個視圖,源裝置220可在此實例中以包含經(jīng)編碼圖像數(shù)據(jù)254的位流的形式發(fā)射四個視圖加上四個視圖中的每一者的深度/視差信息(即,3D處理信息252)。在一些實例中,視差處理單元224可接收來自用戶或來自另一外部裝置的圖像的視差信息。視差處理單元224將第一視圖250和3D處理信息252傳遞到編碼器226。3D處理信息252可包括一對立 體圖像250和256的視差圖。編碼器226形成經(jīng)編碼圖像數(shù)據(jù)254,經(jīng)編碼圖像數(shù)據(jù)254包含第一視圖250的經(jīng)編碼圖像數(shù)據(jù)、3D處理信息252和虛擬圖像數(shù)據(jù)253。在一些實例中,編碼器226可應(yīng)用各種無損耗或有損耗譯碼技術(shù)來減少將經(jīng)編碼圖像數(shù)據(jù)254從源裝置220發(fā)射到目的地裝置240所需的位數(shù)目。編碼器226將經(jīng)編碼圖像數(shù)據(jù)254傳遞到發(fā)射器228。當?shù)谝灰晥D250為數(shù)字靜態(tài)圖片時,編碼器226可經(jīng)配置以將第一視圖250編碼為例如聯(lián)合圖像專家組(JPEG)圖像。當?shù)谝灰晥D250是視頻數(shù)據(jù)幀時,編碼器226可經(jīng)配置以根據(jù)視頻譯碼標準編碼第一視圖250,所述視頻譯碼標準例如為運動圖片專家組(MPEG)、MPEG-2,國際電信聯(lián)盟(ITU) H.263、ITU-T H.264/MPEG-4、H.264 高級視頻譯碼(AVC)、新興的HEVC標準(有時稱為ITU-T H.265),或其它視頻編碼標準。ITU-TH.264/MPEG-4(AVC)標準例如由ITU-T視頻譯碼專家組(VCEG)連同IS0/IEC移動圖片專家組(MPEG) 一起被制定為稱為聯(lián)合視頻小組(JVT)的集體合作伙伴的產(chǎn)品。在一些方面中,本發(fā)明中所描述的技術(shù)可應(yīng)用于一般符合H.264標準的裝置。ITU-T研究組在2005年3月在ITU-T推薦H.264 “用于通用視聽服務(wù)的高級視頻譯碼(Advanced Video Coding forgeneric audiovisual services) ”中描述了 Η.264標準,其在本文中可被稱作Η.264標準或H.264規(guī)范或H.264/AVC標準或規(guī)范。聯(lián)合視頻小組(JVT)繼續(xù)致力于對H.264/MPEG-4AVC的擴展。例如新興的HEVC標準等新的視頻譯碼標準持續(xù)發(fā)展且涌現(xiàn)。本發(fā)明中描述的技術(shù)可與例如H.264等當前代標準以及例如新興的HEVC標準等將來代標準兩者兼容。視差處理單元224可產(chǎn)生呈視差圖的形式的3D處理信息252。編碼器226可經(jīng)配置以將作為位流中發(fā)射的3D內(nèi)容的一部分的視差圖編碼為經(jīng)編碼圖像數(shù)據(jù)254。此過程可產(chǎn)生針對一個所俘獲視圖的一個視差圖或針對若干所發(fā)射視圖的多個視差圖。編碼器226可接收一個或一個以上視圖以及視差圖,且利用比如可對多個視圖聯(lián)合譯碼的H.264或HEVC或可對深度和紋理聯(lián)合譯碼的可縮放視頻譯碼(SVC)等視頻譯碼標準對其譯碼。如上所述,圖像源222可將同一場景的兩個視圖提供到視差處理單元224,以用于產(chǎn)生3D處理信息252的目的。在此類實例中,編碼器226可編碼視圖的僅一者連同3D處理信息256。一般來說,源裝置220可經(jīng)配置以將第一圖像250連同3D處理信息252 —起發(fā)送到目的地裝置(例如,目的地裝置240)。連同視差圖或深度圖一起發(fā)送僅一個圖像可減少原本可由于發(fā)送場景的兩個經(jīng)編碼視圖以產(chǎn)生3D圖像而產(chǎn)生的帶寬消耗和/或存儲空間使用。
發(fā)射器228可將包含經(jīng)編碼圖像數(shù)據(jù)254的位流發(fā)送到目的地裝置240的接收器248。舉例來說,發(fā)射器228可使用例如MPEG-2系統(tǒng)技術(shù)等輸送層級囊封技術(shù)將經(jīng)編碼圖像數(shù)據(jù)254囊封在位流中。發(fā)射器228可包括(例如)網(wǎng)絡(luò)接口、無線網(wǎng)絡(luò)接口、射頻發(fā)射器、發(fā)射器/接收器(收發(fā)器)或其它發(fā)射單元。在其它實例中,源裝置220可經(jīng)配置以將包含經(jīng)編碼圖像數(shù)據(jù)254的位流存儲到物理媒體,例如光學(xué)存儲媒體(例如,壓縮光盤、數(shù)字視頻光盤、藍光光盤)、快閃存儲器、磁性媒體或其它存儲媒體。在此類實例中,存儲媒體可被物理上輸送到目的地裝置240的位置且由適當接口單元讀取以用于檢索數(shù)據(jù)。在一些實例中,包含經(jīng)編碼圖像數(shù)據(jù)254的位流可在由發(fā)射器228發(fā)射之前由調(diào)制器/解調(diào)器(MODEM)調(diào)制。在接收到具有經(jīng)編碼圖像數(shù)據(jù)254的位流且將數(shù)據(jù)解囊封之后,在一些實例中,接收器248可將經(jīng)編碼圖像數(shù)據(jù)254提供到解碼器246(或在一些實例中,提供到對位流進行解調(diào)的MODEM)。解碼器246將來自經(jīng)編碼圖像數(shù)據(jù)254的第一視圖250、3D處理信息252和虛擬圖像數(shù)據(jù)253解碼。舉例來說,解碼器246可從3D處理信息252重新創(chuàng)建第一視圖250以及第一視圖250的視差圖。在解碼視差圖之后,可實施視圖合成算法以產(chǎn)生尚未發(fā)射的其它視圖的紋理。解碼器246還可將第一視圖250和3D處理信息252發(fā)送到真實視圖合成單元244。真實視圖合成單元244基于第一視圖250和3D處理信息252重新創(chuàng)建第二視圖256。一般來說,人類視覺系統(tǒng)(HVS)基于到對象的收斂角而感知深度。相對靠近觀看者的對象被感知為較接近觀看者,因為觀看者的眼睛以比相對遠離觀看者的對象大的角在對象上收斂。為模擬例如圖片和視頻等多媒體中的三維,向觀看者顯示兩個圖像,針對觀看者的眼睛中的每一者顯示一個圖像(左和右)。位于圖像內(nèi)的同一空間位置處的對象通常將被感知為在與正在上面顯示圖像的屏幕相同的深度處。為產(chǎn)生深度的幻象,可沿著水平軸在圖像中的每一者中的略微不同位置處展示對象。兩個圖像中對象的位置之間的差異被稱為視差。一般來說,為使對象顯得相對于屏幕更靠近觀看者,可使用負視差值,而為使對象顯得相對于屏幕更遠離用戶,可使用正視差值。在一些實例中,具有正或負視差的像素可以更多或更少分辨率顯示以增加或減小銳度或模糊度,從而進一步產(chǎn)生距焦點的正或負深度的效果。視圖合成可被視為使用密集取樣的視圖以任意視角產(chǎn)生視圖的取樣問題。然而,在實際應(yīng)用中,密集取樣的視圖所需的存儲或發(fā)射帶寬可相對較大。因此,已相對于視圖合成基于稀疏取樣的視圖及其深度圖執(zhí)行研究。盡管詳細區(qū)分,但基于稀疏取樣的視圖的算法可很大程度上基于3D翹曲。在3D翹曲中,給定深度和相機型號,參考視圖的像素可首先從2D相機坐標返回投影到世界坐標中的點P。點P可接著投影到目的地視圖(待產(chǎn)生的虛擬視圖)對應(yīng)于世界坐標中的同一對象的不同投影的兩個像素可具有相同顏色強度。真實視圖合成單元244可經(jīng)配置以基于對象(例如,像素、塊、像素群組或塊群組)的深度值計算對象的視差值,或可接收在具有經(jīng)編碼圖像數(shù)據(jù)254的位流中編碼的視差值。真實視圖合成單元244可使用所述視差值從第一視圖250產(chǎn)生第二視圖256,這在觀看者用一只眼觀看第一視圖250且用另一只眼觀看第二視圖256時產(chǎn)生三維效果。真實視圖合成單元244可將第一視圖250和第二視圖256傳遞到待包含在將在圖像顯示器242上顯示的混合現(xiàn)實場景中的MSSU245。圖像顯示器242可包括立體顯示器或自動立體顯示器。一般來說,立體顯示器通過顯示兩個圖像而模擬三維。觀看者可佩戴頭戴式單元(例如,護目鏡或眼鏡)以便將一個圖像引導(dǎo)到一只眼中且將第二圖像引導(dǎo)到另一只眼中。在一些實例中,例如通過使用偏光眼鏡或彩色濾光鏡同時顯示每一圖像。在一些實例中,圖像快速交替,且眼鏡或護目鏡與顯示器同步地快速交替快門,以致使僅向?qū)?yīng)的眼睛展示正確圖像。自動立體顯示器不使用眼鏡而是可將正確圖像引導(dǎo)到觀看者的對應(yīng)眼睛中。舉例來說,自動立體顯示器可裝備有相機以確定觀看者的眼睛位于何處,以及用于將圖像引導(dǎo)到觀看者的眼睛的機械和/或電子裝置。還可使用彩色濾光技術(shù)、偏振濾光技術(shù)或其它技術(shù)將圖像分離和/或引導(dǎo)到用戶的不同眼睛。真實視圖合成單元244可用相對于觀看者在屏幕后方、屏幕處和屏幕前方的深度值來配置。真實視圖合成單元244可用將經(jīng)編碼圖像數(shù)據(jù)254中表示的對象的深度映射到視差值的函數(shù)來配置。因此,真實視圖合成單元244可執(zhí)行函數(shù)中的一者以計算對象的視差值。在基于3D處理信息252計算第一視圖250的對象的視差值之后,真實視圖合成單元244可從第一視圖250和視差值產(chǎn)生第二視圖256。真實視圖合成 單元244可用用于在屏幕前方或后方以最大深度顯示對象的最大視差值來配置。以此方式,真實視圖合成單元244可用零與最大正和負視差值之間的視差范圍來配置。觀看者可調(diào)整所述配置以修改由目的地裝置240顯示對象的屏幕前方或后方的最大深度。舉例來說,目的地裝置240可與觀看者可操縱的遠程控制或其它控制單元通信。遠程控制可包括用戶接口,其允許觀看者控制顯示對象的屏幕前方的最大深度和顯示對象的屏幕后方的最大深度。以此方式,觀看者可能夠調(diào)整圖像顯示器242的配置參數(shù)以便改進觀看體驗。通過配置將在屏幕前方和屏幕后方顯示的對象的最大視差值,視圖合成單元244可能夠使用相對簡單的計算基于3D處理信息252計算視差值。舉例來說,視圖合成單元244可經(jīng)配置以應(yīng)用將深度值映射到視差值的函數(shù)。所述函數(shù)可包括深度與對應(yīng)視差范圍內(nèi)的一個視差值之間的線性關(guān)系,使得具有在收斂深度區(qū)間內(nèi)的深度值的像素被映射到零視差值,而屏幕前方的最大深度處的對象被映射到最小(負)視差值,因此展示為在屏幕前方,且處于最大深度因此展示為在屏幕后方的對象被映射到針對屏幕后方的最大(正)視差值。在真實世界坐標的一個實例中,深度范圍可為例如[200,1000],且收斂深度距離可為例如約400。于是,屏幕前方的最大深度對應(yīng)于200,且屏幕后方的最大深度為1000,且收斂深度區(qū)間可為例如[395,405]。然而,真實世界坐標系中的深度值可能不可用或可量化到較小動態(tài)范圍,所述較小動態(tài)范圍可例如為八位值(從O到255的范圍)。在一些實例中,具有從O到255的值的此類經(jīng)量化深度值可在將存儲或發(fā)射深度圖時或在估計深度圖時的情境中使用。典型的基于深度-圖像的呈現(xiàn)(DIBR)過程可包含將低動態(tài)范圍經(jīng)量化深度圖轉(zhuǎn)換為真實世界深度圖中的圖,隨后計算視差。注意,常規(guī)上,較小經(jīng)量化深度值對應(yīng)于真實世界坐標中的較大深度值。然而,在本發(fā)明的技術(shù)中,可能不必執(zhí)行此轉(zhuǎn)換,且因此可能不必知道真實世界坐標中的深度范圍,或從經(jīng)量化深度值到真實世界坐標中的深度值的轉(zhuǎn)換函數(shù)??紤]實例性視差范圍[_disn, disp],當經(jīng)量化深度范圍包含從dmin(其可為
O)到dmax (其可為255)的值時,深度值dmin被映射到disp,且深度值dmax (其可為255)被映射到_disn。注意,在此實例中,disn為正。如果假定收斂深度圖區(qū)間為[Cltl-δ,屯+δ],那么此區(qū)間中的深度值被映射到視差O。一般來說,在本發(fā)明中,短語“深度值”指代較低動態(tài)范圍[dmin,dmax]內(nèi)的值。δ值可被稱作容限值,且無需在每一方向上相同。S卩,Cltl可通過第一容限值S:和第二潛在不同容限值S 2來修改,使得[Cltl- δ 2,d0+ δ J可表示可全部映射到視差值零的深度值的范圍。以此方式,目的地裝置240可在不使用考慮例如焦距、所采取的相機參數(shù)和真實世界深度范圍值等額外值的更復(fù)雜程序的情況下計算視差值。系統(tǒng)210僅是與本發(fā)明一致的一個實例性配置。如上文論述,本發(fā)明的技術(shù)可由源裝置220或目的地裝置240執(zhí)行。在一些替代配置中,舉例來說,MSSU245的一些功能性可在源裝置220處而不是目的地裝置240處。在此配置中,虛擬圖像源223可實施本發(fā)明的技術(shù)以產(chǎn)生對應(yīng)于實際虛擬3D圖像的虛擬圖像數(shù)據(jù)223。在其它配置中,虛擬圖像源223可產(chǎn)生描述3D圖像的數(shù)據(jù),使得目的地裝置240的MSSU245可呈現(xiàn)虛擬3D圖像。另外,在其它配置中,源裝置220可將真實圖像250和256直接發(fā)射到目的地裝置240,而不是發(fā)射一個圖像和視差圖。在又其它配置中,源裝置220可產(chǎn)生混合現(xiàn)實場景且將混合現(xiàn)實場景發(fā)射到目的地裝置。圖3A-3C是說明基于像素的深度的正、零和負視差值的實例的概念圖。一般來說,為產(chǎn)生三維效果,例如在屏幕上展示兩個圖像。待在屏幕前方或后方顯示的對象的像素分別具有正或負視差值,·而待在屏幕的深度處顯示的對象具有零視差值。在一些實例中,例如,當用戶佩戴頭戴式護目鏡時,“屏幕”的深度可對應(yīng)于共同深度屯。圖3A-3C說明其中屏幕382同時或快速連續(xù)地顯示左圖像384和右圖像386的實例。圖3Α描繪像素380Α在屏幕382后方(或內(nèi)部)出現(xiàn)。在圖3Α的實例中,屏幕382顯示左圖像像素388Α和右圖像像素390Α,其中左圖像像素388Α和右圖像像素390Α通常對應(yīng)于同一對象且因此可具有類似或相同像素值。在一些實例中,左圖像像素388Α和右圖像像素390Α的亮度和色度值可略微不同以進一步增強三維觀看體驗,(例如)以考慮到可能當從略微不同角度觀看對象時出現(xiàn)的亮度或顏色差異的略微變化。在此實例中,當由屏幕382顯示時,左圖像像素388Α的位置出現(xiàn)在右圖像像素90Α的左側(cè)。S卩,左圖像像素388Α與右圖像像素390Α之間存在正視差。假定視差值為d,且左圖像像素392A出現(xiàn)在左圖像384中的水平位置x處,其中左圖像像素392A對應(yīng)于左圖像像素388A,那么右圖像像素394A出現(xiàn)在右圖像386中的水平位置x+d處,其中右圖像像素394A對應(yīng)于右圖像像素390A。此正視差可致使當用戶的左眼聚焦在左圖像像素88A上且用戶的右眼聚焦在右圖像像素390A上時觀看者的眼睛在相對在屏幕后方的點處收斂,從而產(chǎn)生像素80A出現(xiàn)在屏幕382后方的幻象。左圖像384可對應(yīng)于如圖2中說明的第一圖像250。在其它實例中,右圖像386可對應(yīng)于第一圖像250。為了計算圖3A的實例中的正視差值,真實視圖合成單元244可接收左圖像384和左圖像像素392A的深度值,所述深度值指示左圖像像素392A在屏幕382后方的深度位置。真實視圖合成單元244可復(fù)制左圖像384以形成右圖像386并改變右圖像像素394A的值以與左圖像像素392A的值匹配或相似。即,右圖像像素394A可具有與左圖像像素392A相同或類似的亮度和/或色度值。因此,屏幕382 (其可對應(yīng)于圖像顯示器242)可大體同時或快速連續(xù)地顯示左圖像像素388A和右圖像像素390A,以產(chǎn)生像素380A在屏.382后方出現(xiàn)的效果。圖3B說明其中在屏幕382的深度處描繪像素380B的實例。在圖3B的實例中,屏幕382在同一位置中顯示左圖像像素388B和右圖像像素390B。即,在此實例中,左圖像像素388B與右圖像像素390B之間存在零視差。假定左圖像384中的左圖像像素392B(其對應(yīng)于如屏幕382顯示的左圖像像素388B)出現(xiàn)在水平位置x處,右圖像像素394B(其對應(yīng)于如屏幕382顯示的右圖像像素390B)出現(xiàn)在右圖像386中的水平位置x處。真實視圖合成單元244可確定左圖像像素392B的深度值在等效于屏幕382的深度或距屏幕382的深度較小距離δ內(nèi)的深度dQ處。因此,真實視圖合成單元244可向左圖像像素392B指派零視差值。當由左圖像384和視差值構(gòu)建右圖像386時,真實視圖合成單元244可讓右圖像像素394B的值與左圖像像素392B相同。
圖3C描繪屏幕382前方的像素380C。在圖3C的實例中,屏幕382在右圖像像素390C的右側(cè)顯示左圖像像素388C。即,在此實例中,左圖像像素388C與右圖像像素390C之間存在負視差。因此,用戶的眼睛可在屏幕382前方的位置處收斂,這可產(chǎn)生像素380C出現(xiàn)在屏幕382前方的幻象。真實視圖合成單元244可確定左圖像像素392C的深度值處于屏幕382前方的深度。因此,真實視圖合成單元244可執(zhí)行將左圖像像素392C的深度映射到負視差值-d的函數(shù)。真實視圖合成單元244可接著基于左圖像384和負視差值構(gòu)建右圖像386。舉例來說,當構(gòu)建右圖像386時,假定左圖像像素392C具有水平位置X,真實視圖合成單元244可將右圖像386中的水平位置x-d處的像素(即,左圖像像素394C)的值改變?yōu)樽髨D像像素392C的值。真實視圖合成單元244可將第一視圖250和第二視圖256發(fā)射到MSSU245。MSSU245組合第一視圖250和第二視圖256以產(chǎn)生真實3D圖像。MSSU245還基于虛擬圖像數(shù)據(jù)253將虛擬3D對象添加到真實3D圖像以產(chǎn)生混合現(xiàn)實3D圖像以供圖像顯示器242顯示。根據(jù)本發(fā)明的技術(shù),MSSU245基于從真實3D圖像提取的一組參數(shù)呈現(xiàn)虛擬3D對象。圖4A展示用于獲取真實場景的立體視圖和由所得3D圖像涵蓋的視場的兩個相機系統(tǒng)的圖的俯視圖,且圖4B展示如圖4A所示的相同兩個相機系統(tǒng)的側(cè)視圖。兩個相機系統(tǒng)可例如對應(yīng)于圖1中的真實圖像源122或圖2中的真實圖像源222。L’表示兩個相機系統(tǒng)的左相機位置,且R’表示兩個相機系統(tǒng)的右相機位置。位于L’和R’處的相機可獲取上文論述的第一視圖和第二視圖。M’表示顯微鏡相機位置,且A表示M’與L’之間以及M’與R’之間的距離。因此,L’與R’之間的距離為2*A。Z’表示距零視差平面(ZDP)的距離。當在顯示器上呈現(xiàn)時,ZDP處的點將顯得在顯示器平面上。當在顯示器上呈現(xiàn)時,ZDP后方的點將顯得在顯示器平面后方,且當在顯示器上呈現(xiàn)時,ZDP后前方的點將顯得在顯示器平面前方。從M’到ZDP的距離可由相機使用激光測距儀、紅外測距儀或其它此類測距工具來測量。在一些操作環(huán)境中,Z’的值可為無需測量的已知值。在照相術(shù)中,術(shù)語視角(AOV)通常用于描述由相機成像的給定場景的角范圍。AVO通??膳c更一般術(shù)語視場(FOV)互換地使用。相機的水平視角(e’h)是基于特定相機的設(shè)置的已知值?;趀’h的已知值和z’的所確定的值,表示相機設(shè)置俘獲的ZDP的寬度的一半的w’的值可計算如下:
權(quán)利要求
1.一種方法,其包括 確定到真實三維3D圖像的零視差平面的距離; 至少部分基于到所述零視差平面的所述距離確定投影矩陣的一個或一個以上參數(shù); 至少部分基于所述投影矩陣呈現(xiàn)虛擬3D對象; 組合所述真實圖像與所述虛擬對象以產(chǎn)生混合現(xiàn)實3D圖像。
2.根據(jù)權(quán)利要求I所述的方法,其進一步包括 至少部分基于到所述零視差平面的所述距離確定眼睛間隔值; 至少部分基于所述眼睛間隔值呈現(xiàn)所述虛擬3D對象。
3.根據(jù)權(quán)利要求I所述的方法,其中通過立體相機俘獲所述真實3D圖像。
4.根據(jù)權(quán)利要求3所述的方法,其中所述方法進一步包括 確定所述立體相機的縱橫比;以及, 使用所述縱橫比確定所述投影矩陣的所述一個或一個以上參數(shù)中的至少一者。
5.根據(jù)權(quán)利要求I所述的方法,其中所述參數(shù)包括左邊界參數(shù)、右邊界參數(shù)、頂部邊界參數(shù)、底部邊界參數(shù)、近裁剪平面參數(shù)和遠裁剪平面參數(shù)。
6.根據(jù)權(quán)利要求I所述的方法,其進一步包括 確定所述真實3D圖像的近平面視差值; 以所述近平面視差值呈現(xiàn)所述虛擬3D對象。
7.根據(jù)權(quán)利要求I所述的方法,其進一步包括 確定所述真實3D圖像的遠平面視差值; 以所述遠平面視差值呈現(xiàn)所述虛擬3D對象。
8.根據(jù)權(quán)利要求I所述的方法,其進一步包括 移位所述混合現(xiàn)實3D圖像的視口。
9.一種用于處理三維3D視頻數(shù)據(jù)的系統(tǒng),所述系統(tǒng)包括 真實3D圖像源,其中所述真實3D圖像源經(jīng)配置以確定到所俘獲的3D圖像的零視差平面的距離; 虛擬圖像源,其經(jīng)配置以 至少基于到所述零視差平面的所述距離確定投影矩陣的一個或一個以上參數(shù); 至少部分基于所述投影矩陣呈現(xiàn)虛擬3D對象; 混合場景合成單元,其經(jīng)配置以組合所述真實圖像與所述虛擬對象以產(chǎn)生混合現(xiàn)實3D圖像。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述虛擬圖像源進一步經(jīng)配置以, 至少部分基于到所述零視差平面的所述距離確定眼睛間隔值,且至少部分基于所述眼睛間隔值呈現(xiàn)所述虛擬3D對象。
11.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述真實3D圖像源是立體相機。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述虛擬圖像源進一步經(jīng)配置以確定所述立體相機的縱橫比,且使用所述縱橫比確定所述投影矩陣的所述一個或一個以上參數(shù)中的至少一者O
13.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述參數(shù)包括左邊界參數(shù)、右邊界參數(shù)、頂部邊界參數(shù)、底部邊界參數(shù)、近裁剪平面參數(shù)和遠裁剪平面參數(shù)。
14.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述虛擬圖像源進一步經(jīng)配置以確定所述真實3D圖像的近平面視差值,且以所述同一近平面視差值呈現(xiàn)所述虛擬3D對象。
15.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述虛擬圖像源進一步經(jīng)配置以確定所述真實3D圖像的遠平面視差值,且以所述同一遠平面視差值呈現(xiàn)所述虛擬3D對象。
16.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述混合場景合成單元進一步經(jīng)配置以移位所述混合現(xiàn)實3d圖像的視口。
17.—種設(shè)備,其包括 用于確定到真實三維3D圖像的零視差平面的距離的裝置; 用于至少部分基于到所述零視差平面的所述距離確定投影矩陣的一個或一個以上參數(shù)的裝置; 用于至少部分基于所述投影矩陣呈現(xiàn)虛擬3D對象的裝置; 用于組合所述真實圖像與所述虛擬對象以產(chǎn)生混合現(xiàn)實3D圖像的裝置。
18.根據(jù)權(quán)利要求17所述的設(shè)備,其進一步包括 用于至少部分基于到所述零視差平面的所述距離確定眼睛間隔值的裝置; 用于至少部分基于所述眼睛間隔值呈現(xiàn)所述虛擬3D對象的裝置。
19.根據(jù)權(quán)利要求17所述的設(shè)備,其中所述真實3D圖像是由立體相機俘獲。
20.根據(jù)權(quán)利要求19所述的設(shè)備,其中所述設(shè)備進一步包括 用于確定所述立體相機的縱橫比的裝置;以及, 用于使用所述縱橫比確定所述投影矩陣的所述一個或一個以上參數(shù)中的至少一者的裝置。
21.根據(jù)權(quán)利要求17所述的設(shè)備,其中所述參數(shù)包括左邊界參數(shù)、右邊界參數(shù)、頂部邊界參數(shù)、底部邊界參數(shù)、近裁剪平面參數(shù)和遠裁剪平面參數(shù)。
22.根據(jù)權(quán)利要求17所述的設(shè)備,其進一步包括 用于確定所述真實3D圖像的近平面視差值的裝置; 用于以所述近平面視差值呈現(xiàn)所述虛擬3D對象的裝置。
23.根據(jù)權(quán)利要求17所述的設(shè)備,其進一步包括 用于確定所述真實3D圖像的遠平面視差值的裝置; 用于以所述遠平面視差值呈現(xiàn)所述虛擬3D對象的裝置。
24.根據(jù)權(quán)利要求17所述的設(shè)備,其進一步包括 用于移位所述混合現(xiàn)實3D圖像的視口的裝置。
25.一種有形地存儲一個或一個以上指令的非暫時性計算機可讀存儲媒體,所述指令當由一個或一個以上處理器執(zhí)行時致使所述一個或一個以上處理器 確定到真實三維3D圖像的零視差平面的距離; 至少部分基于到所述零視差平面的所述距離確定投影矩陣的一個或一個以上參數(shù); 至少部分基于所述投影矩陣呈現(xiàn)虛擬3D對象; 組合所述真實圖像與所述虛擬對象以產(chǎn)生混合現(xiàn)實3D圖像。
26.根據(jù)權(quán)利要求25所述的計算機可讀存儲媒體,其存儲進一步的指令,所述指令當由所述一個或一個以上處理器執(zhí)行時致使所述一個或一個以上處理器 至少部分基于到所述零視差平面的所述距離確定眼睛間隔值;至少部分基于所述眼睛間隔值呈現(xiàn)所述虛擬3D對象。
27.根據(jù)權(quán)利要求25所述的計算機可讀存儲媒體,其中所述真實3D圖像是由立體相機俘獲。
28.根據(jù)權(quán)利要求27所述的計算機可讀存儲媒體,其存儲進一步的指令,所述指令當由所述一個或一個以上處理器執(zhí)行時致使所述一個或一個以上處理器 確定所述立體相機的縱橫比;以及, 使用所述縱橫比確定所述投影矩陣的所述一個或一個以上參數(shù)中的至少一者。
29.根據(jù)權(quán)利要求27所述的計算機可讀存儲媒體,其中所述參數(shù)包括左邊界參數(shù)、右邊界參數(shù)、頂部邊界參數(shù)、底部邊界參數(shù)、近裁剪平面參數(shù)和遠裁剪平面參數(shù)。
30.根據(jù)權(quán)利要求25所述的計算機可讀存儲媒體,其存儲進一步的指令,所述指令當由所述一個或一個以上處理器執(zhí)行時致使所述一個或一個以上處理器 確定所述真實3D圖像的近平面視差值; 以所述近平面視差值呈現(xiàn)所述虛擬3D對象。
31.根據(jù)權(quán)利要求25所述的計算機可讀存儲媒體,其存儲進一步的指令,所述指令當由所述一個或一個以上處理器執(zhí)行時致使所述一個或一個以上處理器 確定所述真實3D圖像的遠平面視差值; 以所述遠平面視差值呈現(xiàn)所述虛擬3D對象。
32.根據(jù)權(quán)利要求25所述的計算機可讀存儲媒體,其存儲進一步的指令,所述指令當由所述一個或一個以上處理器執(zhí)行時致使所述一個或一個以上處理器 移位所述混合現(xiàn)實3D圖像的視口。
全文摘要
一種三維3D混合現(xiàn)實系統(tǒng)組合例如由3D相機俘獲的真實3D圖像或視頻與由計算機或其它機器呈現(xiàn)的虛擬3D圖像,以呈現(xiàn)3D混合現(xiàn)實圖像或視頻。3D相機可獲取共同場景的兩個單獨圖像(左和右),且將所述兩個單獨圖像疊加以形成具有3D深度效果的真實圖像。所述3D混合現(xiàn)實系統(tǒng)可確定到所述真實3D圖像的零視差平面的距離,基于到所述零視差平面的所述距離確定投影矩陣的一個或一個以上參數(shù),基于所述投影矩陣呈現(xiàn)虛擬3D對象,組合所述真實圖像與所述虛擬3D對象以產(chǎn)生混合現(xiàn)實3D圖像。
文檔編號H04N13/00GK103238338SQ201180057284
公開日2013年8月7日 申請日期2011年11月28日 優(yōu)先權(quán)日2010年12月3日
發(fā)明者張雪瑞, 畢寧, 齊英勇 申請人:高通股份有限公司