下列公開涉及視頻通信,并且更特定地涉及使用交互化身的視頻通信。
背景技術(shù):
在移動(dòng)設(shè)備中可用的種類日益增加的功能性已經(jīng)對(duì)用戶造成除簡(jiǎn)單電話外還經(jīng)由視頻來通信的期望。例如,用戶可發(fā)起“視頻通話”、“視頻會(huì)議”等,其中設(shè)備中的拍攝裝置和麥克風(fēng)捕捉用戶的音頻和視頻,其實(shí)時(shí)被傳送到一個(gè)或多個(gè)其他接收者,例如其他移動(dòng)設(shè)備、臺(tái)式計(jì)算機(jī)、視頻會(huì)議系統(tǒng)等。視頻的通信可牽涉?zhèn)魉痛罅繑?shù)據(jù)(例如,根據(jù)拍攝裝置的技術(shù)、處理捕捉的圖像數(shù)據(jù)所采用的特定視頻編解碼器,等)。考慮到現(xiàn)有2g/3g無線技術(shù)的帶寬限制,和新興4g無線技術(shù)的仍然有限的帶寬,實(shí)施并發(fā)視頻通話的許多設(shè)備用戶可超出現(xiàn)有無線通信基礎(chǔ)設(shè)施中的可用帶寬,這可能負(fù)面影響視頻通話的質(zhì)量。
附圖說明
要求保護(hù)的主旨的各種實(shí)施例的特征和優(yōu)勢(shì)將隨著下列詳細(xì)說明進(jìn)行以及在參考圖(其中類似的數(shù)字指示類似的部件)時(shí)變得明顯,并且其中:
圖1a圖示根據(jù)本公開的各種實(shí)施例的示例的設(shè)備到設(shè)備系統(tǒng);
圖1b圖示根據(jù)本公開的各種實(shí)施例的示例虛擬空間系統(tǒng);
圖2圖示根據(jù)本公開的各種實(shí)施例的示例設(shè)備;
圖3圖示根據(jù)本公開的至少一個(gè)實(shí)施例的示例系統(tǒng)實(shí)現(xiàn);以及
圖4是根據(jù)本公開的至少一個(gè)實(shí)施例的示例操作的流程圖。
盡管下列詳細(xì)說明將參考說明性實(shí)施例而進(jìn)行,其許多備選、修改和變化對(duì)于本領(lǐng)域內(nèi)技術(shù)人員將是明顯的。
具體實(shí)施方式
一般,該公開描述用于使用交互化身的視頻通信的系統(tǒng)和方法。使用化身(如與實(shí)況圖像不同)使要傳送的數(shù)據(jù)的量大大減少,并且從而,化身通信需要較少的帶寬。交互化身配置成通過基于用戶輸入修改選擇的化身的顯示來增強(qiáng)用戶體驗(yàn)。此外,可捕捉用戶語音并且將其變換來產(chǎn)生化身語音?;碚Z音然后可與用戶語音相關(guān),但可掩飾用戶的身份。音頻變換可包括,例如移調(diào)(pitchshifting)和/或時(shí)間延展。
在一個(gè)實(shí)施例中,在耦合于拍攝裝置、麥克風(fēng)和揚(yáng)聲器的設(shè)備中激活應(yīng)用。該應(yīng)用可配置成允許用戶選擇化身用于在遠(yuǎn)程設(shè)備上、虛擬空間中等顯示。設(shè)備然后可配置成發(fā)起與至少一個(gè)其他設(shè)備、虛擬空間等的通信。例如,通信可通過2g、3g、4g蜂窩連接而建立。備選地或另外,通信可經(jīng)由wifi連接通過因特網(wǎng)建立。在建立通信后,拍攝裝置可配置成開始捕捉圖像和/或到物體的距離并且麥克風(fēng)可配置成開始捕捉聲音(例如,用戶語音),并且將用戶語音轉(zhuǎn)換成用戶語音信號(hào)。
然后可確定是否檢測(cè)到用戶輸入。該用戶輸入可被用戶輸入設(shè)備捕捉。用戶輸入包括由觸敏顯示器捕捉的觸摸事件和由拍攝裝置(例如,配置成捕捉到物體的距離的深度拍攝裝置和/或web拍攝裝置)捕捉的手勢(shì)。從而,用戶輸入設(shè)備包括觸敏顯示器和/或拍攝裝置。如果檢測(cè)到用戶輸入,可識(shí)別該用戶輸入。對(duì)于觸摸事件,用戶輸入標(biāo)識(shí)符可與觸摸類型以及一個(gè)或多個(gè)觸摸位點(diǎn)有關(guān)。對(duì)于手勢(shì)(例如,張開的手),用戶輸入標(biāo)識(shí)符可與手勢(shì)標(biāo)識(shí)符有關(guān)。然后可基于用戶輸入識(shí)別動(dòng)畫命令。動(dòng)畫命令對(duì)應(yīng)于與用戶輸入關(guān)聯(lián)的期望響應(yīng),例如響應(yīng)于顯示的化身的面部上的單擊而改變顯示的化身的面部的顏色。
然后可生成化身參數(shù)?;韰?shù)可基于面部檢測(cè)、頭部移動(dòng)和/或動(dòng)畫命令而生成?;韰?shù)從而可包括基于例如面部檢測(cè)和頭部移動(dòng)的被動(dòng)組成,和基于動(dòng)畫命令的交互組成?;韰?shù)可能用于使化身在至少一個(gè)其他設(shè)備上、在虛擬空間內(nèi)等動(dòng)畫地呈現(xiàn)。在一個(gè)實(shí)施例中,化身參數(shù)可基于面部檢測(cè)、頭部移動(dòng)和動(dòng)畫命令而生成。在該實(shí)施例中,所得的動(dòng)畫包括基于面部檢測(cè)的被動(dòng)動(dòng)畫和基于動(dòng)畫命令由交互動(dòng)畫修改的頭部移動(dòng)。從而,化身動(dòng)畫可包括基于例如面部檢測(cè)和頭部移動(dòng)的被動(dòng)動(dòng)畫,和基于用戶輸入的交互動(dòng)畫。
然后可傳送動(dòng)畫命令和化身參數(shù)中的至少一個(gè)。在一個(gè)實(shí)施例中,接收遠(yuǎn)程動(dòng)畫命令和遠(yuǎn)程化身參數(shù)中的至少一個(gè)。該遠(yuǎn)程動(dòng)畫命令可促使設(shè)備基于遠(yuǎn)程動(dòng)畫命令確定化身參數(shù)以便使顯示的化身動(dòng)畫地呈現(xiàn)。遠(yuǎn)程化身參數(shù)可促使設(shè)備基于接收的遠(yuǎn)程化身參數(shù)使顯示的化身動(dòng)畫地呈現(xiàn)。
音頻通信可伴隨著化身動(dòng)畫。在建立通信后,麥克風(fēng)可配置成捕捉音頻輸入(聲音)(例如用戶語音),并且將捕捉的聲音轉(zhuǎn)換成對(duì)應(yīng)的音頻信號(hào)(例如,用戶語音信號(hào))。在實(shí)施例中,用戶語音信號(hào)可變換成化身語音信號(hào),其然后可被編碼和傳送。接收的化身語音信號(hào)然后可由揚(yáng)聲器轉(zhuǎn)換回聲音(例如,化身語音)?;碚Z音從而可基于用戶語音并且可保存內(nèi)容但可更改與捕捉的語音關(guān)聯(lián)的光譜數(shù)據(jù)。例如,變換包括但不限于,移調(diào)、時(shí)間延展和/或轉(zhuǎn)換重放速率。
用戶輸入設(shè)備(例如,觸敏顯示器和/或拍攝裝置)可配置成捕捉用戶輸入,其配置成基于至少一個(gè)其他設(shè)備上的用戶輸入使化身動(dòng)畫地呈現(xiàn)。用戶驅(qū)動(dòng)的動(dòng)畫(基于動(dòng)畫命令)可以是基于面部表情和/或頭部移動(dòng)的動(dòng)畫的補(bǔ)充。動(dòng)畫命令可包括但不限于,化身的顯示取向中的改變、面部特征失真、改變特征來表達(dá)情感,等。與基于面部檢測(cè)/跟蹤的動(dòng)畫相似或作為對(duì)其的補(bǔ)充,動(dòng)畫命令從而可修改化身動(dòng)畫。動(dòng)畫命令可導(dǎo)致有時(shí)間限制的動(dòng)畫并且可基于來自遠(yuǎn)程用戶的輸入,其中所得的動(dòng)畫在本地用戶的顯示化身上圖示。
從而,有限帶寬視頻通信系統(tǒng)可使用化身來實(shí)現(xiàn)。音頻可被變換并且視頻可基于檢測(cè)的用戶輸入和識(shí)別的動(dòng)畫命令而動(dòng)畫地呈現(xiàn)來增強(qiáng)用戶對(duì)化身通信的體驗(yàn)。此外,匿名可使用化身而得到保持,其包括如本文描述的音頻變換。
圖1a圖示與本公開的各種實(shí)施例一致的設(shè)備到設(shè)備系統(tǒng)100。系統(tǒng)100一般可包括經(jīng)由網(wǎng)絡(luò)122而通信的設(shè)備102和112。設(shè)備102包括至少拍攝裝置104、麥克風(fēng)106、揚(yáng)聲器107和觸敏顯示器108。設(shè)備112包括至少拍攝裝置114、麥克風(fēng)116、揚(yáng)聲器117和觸摸顯示器118。網(wǎng)絡(luò)122包括至少服務(wù)器124。
設(shè)備102和112可包括能夠有線和/或無線通信的各種硬件平臺(tái)。例如,設(shè)備102和112可包括但不限于,視頻會(huì)議系統(tǒng)、臺(tái)式計(jì)算機(jī)、便攜式計(jì)算機(jī)、平板計(jì)算機(jī)、智能電話(例如,
設(shè)備102和112可進(jìn)一步包括麥克風(fēng)106和116以及揚(yáng)聲器107和117。麥克風(fēng)106和116包括配置成感測(cè)(即,捕捉)聲音并且將感測(cè)的聲音轉(zhuǎn)換成對(duì)應(yīng)音頻信號(hào)的任何設(shè)備。麥克風(fēng)106和116可分別在設(shè)備102和112內(nèi)集成,或可經(jīng)由有線或無線通信(例如在上文關(guān)于拍攝裝置104和114的示例中描述的)而與設(shè)備交互。揚(yáng)聲器107和117包括配置成將音頻信號(hào)轉(zhuǎn)換成對(duì)應(yīng)聲音的任何設(shè)備。揚(yáng)聲器107和117可分別在設(shè)備102和112內(nèi)集成,或可經(jīng)由有線或無線通信(例如在上文關(guān)于拍攝裝置104和114的示例中描述的)而與設(shè)備交互。觸敏顯示器108和118包括配置成顯示文本、靜態(tài)圖像、移動(dòng)圖像(例如,視頻)、用戶界面、圖形等并且配置成感測(cè)例如點(diǎn)擊、滑動(dòng)等觸摸事件的任何設(shè)備。觸摸事件可包括觸摸類型和觸摸位點(diǎn)。觸敏顯示器108和118可分別在設(shè)備102和112內(nèi)集成,或可經(jīng)由有線或無線通信(例如在上文關(guān)于拍攝裝置104和114的示例中描述的)而與設(shè)備交互。在一個(gè)實(shí)施例中,顯示器108和118配置成分別顯示化身110和120。如本文引用的,化身限定為采用二維(2d)或三維(3d)的用戶的圖形表示?;聿槐嘏c用戶的相貌相像,并且從而,盡管化身可以是逼真表示,它們還可以采取圖、卡通、草圖等的形式。在系統(tǒng)100中,設(shè)備102可顯示代表設(shè)備112的用戶(例如,遠(yuǎn)程用戶)的化身110,并且同樣,設(shè)備112可顯示代表設(shè)備102的用戶的化身120。這樣,用戶可看到其他用戶的表示而不必交換對(duì)于采用實(shí)時(shí)圖像的設(shè)備到設(shè)備通信所牽涉的大量信息。此外,化身可基于用戶輸入而動(dòng)畫地呈現(xiàn)。采用該方式,用戶可與本地和/或遠(yuǎn)程化身的顯示交互,由此增強(qiáng)用戶體驗(yàn)。所得的動(dòng)畫可比可能僅使用面部檢測(cè)和跟蹤提供更廣泛的動(dòng)畫。此外,用戶可主動(dòng)選擇動(dòng)畫。
如本文提及的,化身音頻(即,聲音)限定為變換的用戶音頻(聲音)。例如,聲音輸入可包括用戶的話音(即,用戶語音),并且對(duì)應(yīng)的化身音頻可包括變換的用戶語音?;硪纛l可與用戶音頻有關(guān)。例如,化身語音可對(duì)應(yīng)于用戶語音的移調(diào)、時(shí)間延展和/或其他變換?;碚Z音可與人語音相像或可對(duì)應(yīng)于卡通人物,等。在系統(tǒng)100中,設(shè)備102可發(fā)出代表設(shè)備112的遠(yuǎn)程用戶的化身音頻并且相似地,設(shè)備112可發(fā)出代表由設(shè)備102捕捉的音頻(例如,設(shè)備102的本地用戶的語音)的化身音頻。這樣,用戶可聽見可被變換的其他用戶話音的表示。
網(wǎng)絡(luò)122可包括各種第二代(2g)、第三代(3g)、第四代(4g)基于蜂窩的數(shù)據(jù)通信技術(shù)、wi-fi無線數(shù)據(jù)通信技術(shù),等。網(wǎng)絡(luò)122包括至少一個(gè)服務(wù)器124,其配置成在使用這些技術(shù)時(shí)建立并且維持通信連接。例如,服務(wù)器124可配置成支持因特網(wǎng)相關(guān)通信協(xié)議,像用于創(chuàng)建、修改和終止雙方(單播)和多方(多播)會(huì)話的會(huì)話發(fā)起協(xié)議(sip)、用于呈現(xiàn)允許在字節(jié)流連接頂部建立協(xié)議的框架的交互連接性建立協(xié)議(ice)、用于允許應(yīng)用通過網(wǎng)絡(luò)接入翻譯器(nat)操作來發(fā)現(xiàn)其他nat、ip地址和端口(被分配給連接到遠(yuǎn)程主機(jī)的應(yīng)用用戶數(shù)據(jù)報(bào)協(xié)議(udp)連接)的存在的網(wǎng)絡(luò)接入翻譯器或nat的會(huì)話穿越實(shí)用性協(xié)議(stun)、用于允許nat或防火墻后面的元件通過傳輸控制協(xié)議(tcp)或udp連接來接收數(shù)據(jù)的在nat周圍使用中繼器的穿越(turn),等。
圖1b圖示與本公開的各種實(shí)施例一致的虛擬空間系統(tǒng)126。系統(tǒng)126可采用設(shè)備102、設(shè)備112和服務(wù)器124。設(shè)備102、設(shè)備112和服務(wù)器124可繼續(xù)采用與在圖1a中圖示的相似的方式通信,但用戶交互可在虛擬空間128中而不是采用設(shè)備到設(shè)備格式發(fā)生。如本文提及的,虛擬空間可限定為物理位點(diǎn)的數(shù)字模擬。例如,虛擬空間128可與戶外位點(diǎn)(像城市、道路、人行道、田地、森林、島等)或內(nèi)部位點(diǎn)(像辦公室、住宅、學(xué)校、購(gòu)物中心、商店,等)相像。由化身表示的用戶可表現(xiàn)為如現(xiàn)實(shí)世界中那樣在虛擬空間128中交互。虛擬空間128可在耦合于因特網(wǎng)的一個(gè)或多個(gè)服務(wù)器上存在,并且可由第三方維持。虛擬空間的示例包括虛擬辦公室、虛擬會(huì)議室、虛擬世界(像second
圖2圖示根據(jù)本公開的各種實(shí)施例的示例設(shè)備102。盡管僅描述一個(gè)設(shè)備102,設(shè)備112(例如,遠(yuǎn)程設(shè)備)可包括配置成提供相同或相似功能的資源。如之前論述的,示出設(shè)備102包括拍攝裝置104、麥克風(fēng)106、揚(yáng)聲器107和觸敏顯示器108。拍攝裝置104、麥克風(fēng)106和觸敏顯示器108可對(duì)拍攝裝置、音頻和觸屏框架模塊200提供輸入,并且拍攝裝置、音頻和觸屏框架模塊200可對(duì)揚(yáng)聲器107提供輸出(例如,音頻信號(hào))。拍攝裝置、音頻和觸屏框架模塊200可包括定制、專用、已知和/或之后開發(fā)的音頻和視頻處理代碼(或指令集),其一般被明確定義并且能操作成控制至少拍攝裝置104、麥克風(fēng)106、揚(yáng)聲器107和觸敏顯示器108。例如,拍攝裝置、音頻和觸屏框架模塊200可促使拍攝裝置104、麥克風(fēng)106、揚(yáng)聲器107和觸敏顯示器108記錄圖像、到物體的距離、聲音和/或觸摸,可處理圖像、聲音、音頻信號(hào)和/或觸摸,可促使圖像和/或聲音再現(xiàn),可向揚(yáng)聲器107提供音頻信號(hào),等。拍攝裝置、音頻和觸屏框架模塊200可根據(jù)設(shè)備102并且更特定地根據(jù)在設(shè)備102中運(yùn)行的操作系統(tǒng)(os)而改變。示例操作系統(tǒng)包括
面部檢測(cè)和跟蹤模塊202可配置成識(shí)別并且跟蹤由拍攝裝置104提供的圖像內(nèi)的頭部、面部和/或面部區(qū)域。例如,面部檢測(cè)模塊204可包括定制、專用、已知和/或之后開發(fā)的面部檢測(cè)代碼(或指令集)、硬件和/或固件,其一般被明確定義并且能操作成接收標(biāo)準(zhǔn)格式圖像(例如,但不限于,rgb彩色圖像)并且至少在一定程度上識(shí)別圖像中的面部。面部檢測(cè)和跟蹤模塊202還可配置成通過一系列圖像(例如,以每秒24個(gè)幀的視頻幀)來跟蹤檢測(cè)的面部并且基于檢測(cè)的面部確定頭部位置??捎擅娌繖z測(cè)/跟蹤模塊202采用的已知跟蹤系統(tǒng)可包括粒子濾波、均值偏移、卡爾曼濾波等,其中的每個(gè)可利用邊緣分析、平方和差值分析、特征點(diǎn)分析、直方圖分析、膚色分析等。
特征提取模塊204可配置成識(shí)別由面部檢測(cè)模塊202檢測(cè)的面部中的特征(例如,例如眼睛、眉毛、鼻子、嘴等面部標(biāo)志的位點(diǎn)和/或形狀)。在一個(gè)實(shí)施例中,化身動(dòng)畫可直接基于感測(cè)的面部動(dòng)作(例如,面部特征中的改變)而沒有面部表情識(shí)別。化身面部上的對(duì)應(yīng)特征點(diǎn)可遵循或模仿真實(shí)人的面部的移動(dòng),其稱為“表達(dá)克隆”或“表現(xiàn)驅(qū)動(dòng)的面部動(dòng)畫”。特征提取模塊204可包括定制、專用、已知和/或之后開發(fā)的面部特性識(shí)別代碼(或指令集),其一般被明確定義并且能操作成從拍攝裝置104接收標(biāo)準(zhǔn)格式圖像(例如,但不限于,rgb彩色圖像)并且至少在一定程度上提取圖像中的一個(gè)或多個(gè)面部特性。這樣的已知面部特性系統(tǒng)可包括但不限于,科羅拉多州立大學(xué)的csu面部識(shí)別評(píng)估系統(tǒng)。
特征提取模塊204還可配置成識(shí)別與檢測(cè)的特征關(guān)聯(lián)的表情(例如,識(shí)別之前檢測(cè)的面部是否愉快、悲傷、微笑、皺眉、驚訝、激動(dòng)等)。從而,特征提取模塊204可進(jìn)一步包括定制、專用、已知和/或之后開發(fā)的面部表情檢測(cè)和/或識(shí)別代碼(或指令集),其一般被明確定義并且能操作成檢測(cè)和/或識(shí)別面部中的表情。例如,特征提取模塊204可確定面部特征(例如,眼睛、嘴、臉頰、牙齒等)的大小和/或位置并且可將這些面部特征與面部特征數(shù)據(jù)庫(kù)比較,該面部特征數(shù)據(jù)庫(kù)包括具有對(duì)應(yīng)面部特征分類(例如,微笑、皺眉、激動(dòng)、悲傷等)的多個(gè)樣本面部特征。
音頻變換模塊206配置成將用戶的話音變換成化身話音,即變換的用戶話音。變換包括調(diào)整節(jié)奏(例如,時(shí)間延展)、音調(diào)(例如,移調(diào))和重放速率。例如,音頻變換模塊206可包括定制、專用、已知和/或之后開發(fā)的音頻變換代碼(或指令集),其一般被明確定義并且能操作成接收代表用戶話音的話音數(shù)據(jù)并且將該話音數(shù)據(jù)轉(zhuǎn)換成變換的話音數(shù)據(jù)。話音數(shù)據(jù)可與基于由麥克風(fēng)106捕捉并且被拍攝裝置、音頻和觸屏框架模塊200處理的聲音的音頻信號(hào)有關(guān)。這樣的已知話音變換系統(tǒng)包括但不限于soundtouch開源音頻處理庫(kù),配置成調(diào)整音頻流或音頻文件的節(jié)湊、音調(diào)(pitch)和重放速率。
音頻變換模塊206可包括多個(gè)預(yù)定義話音風(fēng)格,其對(duì)應(yīng)于與變換用戶的話音關(guān)聯(lián)的變換參數(shù)。例如,變換參數(shù)可配置成維持具有不同音調(diào)和/或節(jié)湊的人類發(fā)聲變換話音輸出。音調(diào)可移到女人或像孩子的話音的較高頻率,音調(diào)可移到男人話音的較低頻率,節(jié)湊可向上或向下調(diào)整來增加或減小語音的速度,等。在另一個(gè)示例中,變換參數(shù)可配置成產(chǎn)生變換的話音輸出,其對(duì)應(yīng)于像動(dòng)物的話音(例如,貓)和/或卡通人物型話音。這可通過調(diào)整用戶語音的音調(diào)、其他頻率分量和/或采樣參數(shù)而實(shí)現(xiàn)。
用戶可在發(fā)起通信之前選擇期望的音頻變換輸出和/或可在通信期間選擇期望的音頻變換。音頻變換模塊206可配置成響應(yīng)于來自用戶的請(qǐng)求提供樣本音頻變換輸出。在實(shí)施例中,音頻變換模塊206可包括這樣的實(shí)用程序(utility),其允許用戶選擇音頻變換參數(shù)來產(chǎn)生定制音頻變換輸出。該實(shí)用程序可配置成基于用戶的話音輸入來提供樣本變換音頻輸出。用戶然后可調(diào)整音頻變換參數(shù)(例如,通過試錯(cuò)法)直到實(shí)現(xiàn)合適的變換輸出。與對(duì)于用戶合適的輸出關(guān)聯(lián)的音頻變換參數(shù)然后可被存儲(chǔ)和/或利用以用于化身通信,如本文描述的。
觸摸檢測(cè)模塊208配置成從拍攝裝置、音頻和觸屏框架模塊200接收觸摸數(shù)據(jù)并且基于接收的觸摸數(shù)據(jù)識(shí)別觸摸事件。觸摸事件標(biāo)識(shí)符可包括觸摸類型和/或觸摸位點(diǎn)。觸摸類型可包括單擊、雙擊、點(diǎn)擊并按住、點(diǎn)擊并移動(dòng)、收縮和延展、滑動(dòng)等。觸摸位點(diǎn)可包括觸摸起始位點(diǎn)、觸摸結(jié)束位點(diǎn)和/或中間移動(dòng)觸摸位點(diǎn)等。觸摸位點(diǎn)可對(duì)應(yīng)于觸敏顯示器108的坐標(biāo)。觸摸檢測(cè)模塊208可包括定制、專用、已知和/或之后開發(fā)的觸摸檢測(cè)代碼(或指令集),其一般被明確定義并且能操作成接收觸摸數(shù)據(jù)并且識(shí)別觸摸事件。
手勢(shì)檢測(cè)模塊210配置成從拍攝裝置、音頻和觸屏框架模塊200接收深度和/或圖像數(shù)據(jù)、基于接收的深度和/或圖像數(shù)據(jù)識(shí)別對(duì)應(yīng)的手勢(shì)以及基于識(shí)別的手勢(shì)確定手勢(shì)標(biāo)識(shí)符。深度對(duì)應(yīng)于從拍攝裝置到物體的距離。手勢(shì)標(biāo)識(shí)符與識(shí)別的手勢(shì)有關(guān)。手勢(shì)檢測(cè)模塊210可包括定制、專用、已知和/或之后開發(fā)的手勢(shì)檢測(cè)代碼(或指令集),其一般被明確定義并且能操作成基于接收的深度和/或圖像數(shù)據(jù)識(shí)別手勢(shì)。
例如,手勢(shì)檢測(cè)模塊210可包括預(yù)定義手勢(shì)的數(shù)據(jù)庫(kù)。這些預(yù)定義手勢(shì)可包括至少一些相對(duì)普通、相對(duì)簡(jiǎn)單的手勢(shì),其包括張開的手、緊握的手(即,拳頭)、揮手、用手做圓周運(yùn)動(dòng)、使手從右到左地移動(dòng)、使手從左到右地移動(dòng)等。從而,手勢(shì)可包括靜止、非移動(dòng)的手部手勢(shì)、主動(dòng)移動(dòng)手部手勢(shì)和/或其組合。在實(shí)施例中,手勢(shì)檢測(cè)模塊210可包括訓(xùn)練實(shí)用程序,其配置成允許用戶定制預(yù)定義手勢(shì)和/或訓(xùn)練新的手勢(shì)。定制手勢(shì)和/或新的手勢(shì)然后可與手勢(shì)標(biāo)識(shí)符關(guān)聯(lián)并且該手勢(shì)標(biāo)識(shí)符可與動(dòng)畫命令關(guān)聯(lián),如本文描述的。例如,用戶可從動(dòng)畫命令的預(yù)定義列表中選擇動(dòng)畫命令以與手勢(shì)關(guān)聯(lián)。
從而,動(dòng)畫命令與對(duì)用戶輸入的期望響應(yīng)有關(guān)。動(dòng)畫命令可與識(shí)別的用戶輸入(例如,觸摸事件標(biāo)識(shí)符和/或手勢(shì)標(biāo)識(shí)符)關(guān)聯(lián)。采用該方式,用戶可與顯示的化身交互和/或可做手勢(shì)以便修改顯示的化身的動(dòng)畫。
化身選擇模塊212配置成允許設(shè)備102的用戶選擇化身用于在遠(yuǎn)程設(shè)備上顯示。化身選擇模塊212可包括定制、專用、已知和/或之后開發(fā)的用戶界面構(gòu)造代碼(或指令集),其一般被明確定義并且能操作成向用戶呈現(xiàn)不同的化身使得用戶可選擇這些化身中的一個(gè)。在一個(gè)實(shí)施例中,一個(gè)或多個(gè)化身可在設(shè)備102中預(yù)定義。預(yù)定義化身允許所有設(shè)備具有相同的化身,并且在交互期間僅化身的選擇(例如,預(yù)定義化身的識(shí)別)需要傳達(dá)到遠(yuǎn)程設(shè)備或虛擬空間,這使需要交換的信息的量減少。在建立通信之前選擇化身,但也可在有效通信過程中改變化身。從而,在通信期間的任何點(diǎn)發(fā)送或接收化身選擇,并且接收設(shè)備根據(jù)接收的化身選擇改變顯示的化身,這可以是可能的。
化身控制模塊214配置成基于到設(shè)備102的用戶輸入來接收用戶輸入標(biāo)識(shí)符。該用戶輸入標(biāo)識(shí)符可包括由觸摸檢測(cè)模塊208基于觸摸事件數(shù)據(jù)確定的觸摸事件標(biāo)識(shí)符或由手勢(shì)檢測(cè)模塊210確定的手勢(shì)標(biāo)識(shí)符。觸摸事件數(shù)據(jù)包括觸摸類型和觸摸位點(diǎn)。觸摸位點(diǎn)可對(duì)應(yīng)于與觸敏顯示器108關(guān)聯(lián)的坐標(biāo)。觸摸位點(diǎn)可映射到顯示的化身上的一個(gè)或多個(gè)點(diǎn),例如映射到特征(例如,鼻端、嘴、嘴唇、耳朵、眼睛,等)。顯示的化身上的點(diǎn)可與化身動(dòng)畫的期望響應(yīng)(即,化身命令)有關(guān)。
化身控制模塊214配置成基于用戶輸入標(biāo)識(shí)符(即,識(shí)別的用戶輸入)確定動(dòng)畫命令。動(dòng)畫命令配置成識(shí)別期望的化身動(dòng)畫。例如,期望的動(dòng)畫包括改變顯示的化身面部的顏色、改變顯示的化身的特征的大小(例如,使鼻子更大)、遞眼色(winking)、眨眼、微笑、去除特征(例如,耳朵)等。從而,化身控制模塊214配置成接收用戶輸入標(biāo)識(shí)符并且基于該用戶輸入標(biāo)識(shí)符確定動(dòng)畫命令。
化身控制模塊214配置成基于動(dòng)畫命令實(shí)現(xiàn)化身動(dòng)畫。在實(shí)施例中,對(duì)于在遠(yuǎn)程設(shè)備(例如,設(shè)備112)上顯示的交互動(dòng)畫,動(dòng)畫命令可被傳送并且遠(yuǎn)程化身控制模塊然后可實(shí)現(xiàn)動(dòng)畫。在另一個(gè)實(shí)施例中,可傳送化身參數(shù),其配置成用于化身動(dòng)畫的立即實(shí)現(xiàn)。
實(shí)現(xiàn)的基于動(dòng)畫命令的交互動(dòng)畫可具有有限持續(xù)時(shí)間,在其之后化身動(dòng)畫可回到如本文描述的基于例如面部檢測(cè)和跟蹤的被動(dòng)動(dòng)畫。實(shí)現(xiàn)的影響特征大小的交互動(dòng)畫可配置成逐漸改變大小并且逐漸回到初始大小。另外或備選地,影響特征大小的動(dòng)畫可配置成具有效應(yīng)梯度。也就是說,大小改變的相對(duì)幅度可取決于相對(duì)于例如關(guān)鍵頂點(diǎn)的位點(diǎn)。顯示的化身上更接近關(guān)鍵頂點(diǎn)的點(diǎn)可比顯示的化身上相對(duì)更遠(yuǎn)的點(diǎn)經(jīng)歷更大的改變。
從而,化身控制模塊214可基于用戶輸入來接收用戶輸入標(biāo)識(shí)符,并且可基于該用戶輸入標(biāo)識(shí)符確定動(dòng)畫命令并且可基于該動(dòng)畫命令實(shí)現(xiàn)動(dòng)畫。基于動(dòng)畫命令的交互動(dòng)畫在時(shí)間上可局限于一段時(shí)間(持續(xù)時(shí)間)和/或可包括效應(yīng)梯度。動(dòng)畫在該時(shí)段后可回到基于面部檢測(cè)和跟蹤的被動(dòng)化身動(dòng)畫。
化身控制模塊214配置成生成用于使化身動(dòng)畫地呈現(xiàn)的參數(shù)。本文所稱的動(dòng)畫可限定為更改圖像/模型的外觀。動(dòng)畫包括基于例如面部表情和/或頭部移動(dòng)的被動(dòng)動(dòng)畫和基于用戶輸入的交互動(dòng)畫。單個(gè)動(dòng)畫(其可包括被動(dòng)和交互動(dòng)畫)可更改2d靜態(tài)圖像的外觀,或多個(gè)動(dòng)畫可依次出現(xiàn)來模擬圖像中的運(yùn)動(dòng)(例如,頭部轉(zhuǎn)動(dòng)、點(diǎn)頭、眨眼、講話、皺眉、微笑、發(fā)笑、遞眼色、眨眼,等)。對(duì)于3d模型的動(dòng)畫示例包括使3d線框模型變形、應(yīng)用紋理映射以及重新計(jì)算正常用于渲染的模型頂點(diǎn)。檢測(cè)的面部和/或提取的面部特征的位置中的改變可轉(zhuǎn)換成這樣的參數(shù),其促使化身的特征與用戶面部的特征相像。在一個(gè)實(shí)施例中,檢測(cè)的面部的一般表情可轉(zhuǎn)換成促使化身展現(xiàn)相同表情的一個(gè)或多個(gè)參數(shù)?;淼谋砬檫€可夸大來突出表情。對(duì)選擇的化身的知悉在化身參數(shù)一般可應(yīng)用于預(yù)定義化身中的全部時(shí)可不是必需的。然而,在一個(gè)實(shí)施例中,化身參數(shù)對(duì)于選擇的化身可以是特定的,并且從而,如果選擇另一個(gè)化身則可更改化身參數(shù)。例如,人像化身可需要與動(dòng)物化身、卡通化身等不同的參數(shù)設(shè)置(例如,可更改不同的化身特征)來證明像快樂、悲傷、生氣、驚訝等情感。
化身控制模塊214可包括定制、專用、已知和/或之后開發(fā)的圖形處理代碼(或指令集),其一般被明確定義并且能操作成生成用于使化身動(dòng)畫地呈現(xiàn)的參數(shù),該化身由化身選擇模塊212基于由面部檢測(cè)和跟蹤模塊202檢測(cè)的面部/頭部位置、特征提取模塊204檢測(cè)的面部特征和/或由觸摸檢測(cè)模塊208和/或手勢(shì)檢測(cè)模塊210確定的用戶輸入標(biāo)識(shí)符來選擇。對(duì)于基于面部特征的動(dòng)畫方法,2d化身動(dòng)畫可利用例如圖像扭曲或圖像變形來進(jìn)行,而3d化身動(dòng)畫可利用自由變形(ffd)或通過利用在頭部的3d模型中限定的動(dòng)畫結(jié)構(gòu)來進(jìn)行。oddcast是可用于2d化身動(dòng)畫的軟件資源的示例,而facegen是可用于3d化身動(dòng)畫的軟件資源的示例。
例如,對(duì)于包括延長(zhǎng)3d化身顯示的鼻子的交互動(dòng)畫,關(guān)鍵頂點(diǎn)vk可與鼻子的尖端有關(guān)地限定(例如,選擇)。對(duì)于關(guān)鍵頂點(diǎn)vk可限定關(guān)聯(lián)的3d運(yùn)動(dòng)矢量dk(dx,dy,dz)和作用半徑r。作用半徑r內(nèi)的其他頂點(diǎn)可在交互動(dòng)畫中改變(即,移動(dòng)),而作用半徑r外部的頂點(diǎn)可根據(jù)交互動(dòng)畫而保持不變。交互動(dòng)畫可具有關(guān)聯(lián)的持續(xù)時(shí)間,即動(dòng)畫時(shí)間t,其可延續(xù)多個(gè)幀。時(shí)間效應(yīng)參數(shù)ηt可基于時(shí)間t和動(dòng)畫時(shí)間t而限定為:
相對(duì)更接近vk的作用半徑r內(nèi)的頂點(diǎn)可比相對(duì)更遠(yuǎn)離關(guān)鍵頂點(diǎn)vk的頂點(diǎn)改變得相對(duì)更大。對(duì)于頂點(diǎn)vi的空間效應(yīng)參數(shù)ηi可限定為:
并且頂點(diǎn)vi在時(shí)間t的運(yùn)動(dòng)矢量
從而,可對(duì)于顯示的化身(其包括修改被動(dòng)動(dòng)畫的交互動(dòng)畫)實(shí)現(xiàn)動(dòng)畫。交互動(dòng)畫可在總持續(xù)時(shí)間方面受限制并且動(dòng)畫效應(yīng)的幅度可在該持續(xù)時(shí)間內(nèi)改變。交互動(dòng)畫可配置成僅影響化身的一部分并且效應(yīng)對(duì)于更靠近關(guān)鍵頂點(diǎn)的點(diǎn)更大。在已經(jīng)完成交互動(dòng)畫后,動(dòng)畫可基于如本文描述的面部檢測(cè)和跟蹤而持續(xù)。
另外,在系統(tǒng)100中,動(dòng)畫控制模塊214可接收遠(yuǎn)程化身選擇和遠(yuǎn)程化身參數(shù),其可用于在遠(yuǎn)程設(shè)備處顯示對(duì)應(yīng)于用戶的化身并且使其動(dòng)畫地呈現(xiàn)。動(dòng)畫可包括被動(dòng)動(dòng)畫以及交互動(dòng)畫?;砜刂颇K可促使顯示模塊216在顯示器108上顯示化身110。顯示模塊216可包括定制、專用、已知和/或之后開發(fā)的圖形處理代碼(或指令集),其一般被明確定義并且能操作成根據(jù)示例設(shè)備到設(shè)備實(shí)施例在顯示器108上顯示化身并且使其動(dòng)畫地呈現(xiàn)。例如,化身控制模塊214可接收遠(yuǎn)程化身選擇并且可解釋該遠(yuǎn)程化身選擇以對(duì)應(yīng)于預(yù)定化身。顯示模塊216然后可在顯示器108上顯示化身110。此外,可解釋在化身控制模塊214中接收的遠(yuǎn)程化身參數(shù),并且命令可提供給顯示模塊216來使化身110動(dòng)畫地呈現(xiàn)。在一個(gè)實(shí)施例中,超過兩個(gè)用戶可參加視頻通話。當(dāng)超過兩個(gè)用戶在視頻通話中交互時(shí),顯示器108可劃分或分割以允許對(duì)應(yīng)于遠(yuǎn)程用戶的超過一個(gè)化身同時(shí)顯示。備選地,在系統(tǒng)126中,化身控制模塊214可接收信息,該信息促使顯示模塊216顯示對(duì)應(yīng)于設(shè)備102的用戶的化身在虛擬空間128中所“看到”的事物(例如,從化身的視角)。例如,顯示器108可顯示在虛擬空間128中表示的建筑、對(duì)象、動(dòng)物、其他化身等。
在一個(gè)實(shí)施例中,化身控制模塊214可配置成促使顯示模塊216顯示“反饋”化身218。反饋化身218代表選擇的化身如何在遠(yuǎn)程設(shè)備上、'在虛擬空間中等出現(xiàn)。特別地,反饋化身218表現(xiàn)為由用戶選擇的化身并且可使用由化身控制模塊214生成的相同參數(shù)而動(dòng)畫地呈現(xiàn)。這樣,用戶可確認(rèn)遠(yuǎn)程用戶在他們的交互期間所看到的。反饋化身218還可用于顯示由到設(shè)備112的遠(yuǎn)程用戶輸入引起的交互動(dòng)畫。從而,本地用戶可與他或她的反饋化身(例如,化身218和設(shè)備102的用戶)交互來促使向設(shè)備112上的遠(yuǎn)程用戶所顯示的他或她關(guān)聯(lián)的化身的交互動(dòng)畫。本地用戶可相似地與遠(yuǎn)程用戶的顯示化身(例如,化身110)交互來促使在設(shè)備112上顯示的遠(yuǎn)程用戶的反饋化身的交互動(dòng)畫。
通信模塊220配置成傳送并且接收用于選擇化身、顯示化身、使化身動(dòng)畫地呈現(xiàn)、顯示虛擬地方角度等的信息。通信模塊220可包括定制、專用、已知和/或之后開發(fā)的通信處理代碼(或指令集),其一般被明確定義并且能操作成傳送化身選擇、化身參數(shù)、動(dòng)畫命令、交互化身參數(shù)并且接收遠(yuǎn)程化身選擇、遠(yuǎn)程化身參數(shù)、遠(yuǎn)程動(dòng)畫命令和遠(yuǎn)程交互化身參數(shù)。通信模塊220還可傳送并且接收對(duì)應(yīng)于基于化身的交互的音頻信息。通信模塊220可經(jīng)由如之前描述的網(wǎng)絡(luò)122傳送并且接收上文的信息。
處理器222配置成執(zhí)行與設(shè)備102以及其中包括的模塊中的一個(gè)或多個(gè)關(guān)聯(lián)的操作。
圖3圖示根據(jù)至少一個(gè)實(shí)施例的示例系統(tǒng)實(shí)現(xiàn)。設(shè)備102'配置成經(jīng)由wifi連接300而無線通信(例如,在工作中),服務(wù)器124'配置成經(jīng)由因特網(wǎng)302協(xié)商設(shè)備102'與112'之間的連接,并且裝置112'配置成經(jīng)由另一個(gè)wifi連接304而無線通信(例如,在家)。在一個(gè)實(shí)施例中,基于設(shè)備到設(shè)備化身的視頻通話應(yīng)用在裝置102'中激活。在化身選擇之后,應(yīng)用可允許選擇至少一個(gè)遠(yuǎn)程設(shè)備(例如,設(shè)備112')。應(yīng)用然后可促使設(shè)備102'發(fā)起與設(shè)備112'的通信。通信可隨著設(shè)備102'經(jīng)由企業(yè)接入點(diǎn)(ap)306向設(shè)備112'傳送連接建立請(qǐng)求而發(fā)起。企業(yè)ap306可以是可在商業(yè)環(huán)境中使用的ap,并且從而可支持比家庭ap314更高的數(shù)據(jù)吞吐量和更多的并發(fā)無線客戶端。企業(yè)ap306可從設(shè)備102'接收無線信號(hào)并且可經(jīng)由網(wǎng)關(guān)308通過各種商業(yè)網(wǎng)絡(luò)進(jìn)行傳送連接建立請(qǐng)求。連接建立請(qǐng)求然后可穿過防火墻310,其可配置成控制流入和流出wifi網(wǎng)絡(luò)300的信息。
設(shè)備102'的連接建立請(qǐng)求然后可由服務(wù)器124'處理。服務(wù)器124'可配置成用于ip地址的注冊(cè)、目的地地址的驗(yàn)證和nat穿越使得連接建立請(qǐng)求可被指引到因特網(wǎng)302上的正確目的地。例如,服務(wù)器124'可從設(shè)備102'接收的連接建立請(qǐng)求中的信息解析計(jì)劃的目的地(例如,遠(yuǎn)程設(shè)備112'),并且可因此將信號(hào)路由通過正確的nat、端口并且到目的地ip地址。根據(jù)網(wǎng)絡(luò)配置,這些操作可僅必須在連接建立期間執(zhí)行。在一些實(shí)例中,操作可在視頻通話期間重復(fù)以便向nat提供使連接保持活動(dòng)的通知。在已經(jīng)建立連接后,媒體和信號(hào)路徑312可直接將視頻(例如,化身選擇和/或化身參數(shù))和音頻信息運(yùn)送到家庭ap314。設(shè)備112'然后可接收連接建立請(qǐng)求并且可配置成確定是否接受該請(qǐng)求。確定是否接受請(qǐng)求可包括例如向設(shè)備112'的用戶呈現(xiàn)視覺敘述,詢問是否接受來自設(shè)備102'的連接請(qǐng)求。如果設(shè)備112'的用戶接受連接(例如,接受視頻通話),可建立連接。拍攝裝置104'和114'可分別配置成然后開始捕捉設(shè)備102'和112'的相應(yīng)用戶的圖像,以供在使由每個(gè)用戶選擇的化身動(dòng)畫呈現(xiàn)中使用。麥克風(fēng)106'和116'可配置成然后開始捕捉來自每個(gè)用戶的音頻。在設(shè)備102'與112'之間開始信息交換時(shí),顯示器108'和118'可顯示對(duì)應(yīng)于設(shè)備102'和112'的用戶的化身并且使其動(dòng)畫地呈現(xiàn)。
圖4圖示與本公開的實(shí)施例一致的示范性操作的流程圖400。這些操作可例如由設(shè)備102和/或112執(zhí)行。特別地,流程圖400描繪配置成實(shí)現(xiàn)化身動(dòng)畫(其包括被動(dòng)動(dòng)畫和/或交互動(dòng)畫)和/或音頻變換以用于通過網(wǎng)絡(luò)的設(shè)備之間的通信的示范性操作。假設(shè)面部檢測(cè)和跟蹤、特征提取和被動(dòng)化身動(dòng)畫如本文描述的那樣實(shí)現(xiàn)和操作。
可在操作402選擇化身模型。該化身模型可包括視頻化身選擇和音頻變換選擇??娠@示多個(gè)視頻化身模型,用戶可從其中選擇期望的化身。在實(shí)施例中,選擇視頻化身模型可包括關(guān)聯(lián)的音頻變換。例如,像貓的化身可與像貓的音頻變換關(guān)聯(lián)。在另一個(gè)實(shí)施例中,音頻變換可獨(dú)立于視頻化身選擇而選擇。
化身模型(其包括音頻變換)可在激活通信之前選擇,但也可在有效通信的過程期間改變。從而,在通信期間的任何點(diǎn)發(fā)送或接收化身選擇和/或改變音頻變換選擇,并且接收設(shè)備根據(jù)接收的化身選擇改變顯示的化身,這可以是可能的。
可在操作404激活化身通信。例如,用戶可啟動(dòng)這樣的應(yīng)用,其配置成使用如本文描述的化身來傳達(dá)音頻和視頻。操作404可包括配置通信并且建立連接。通信配置包括識(shí)別參與視頻通話的至少一個(gè)遠(yuǎn)程設(shè)備或虛擬空間。例如,用戶可從存儲(chǔ)在應(yīng)用內(nèi)、與設(shè)備中的另一個(gè)系統(tǒng)關(guān)聯(lián)地存儲(chǔ)(例如,智能電話、手機(jī)等中的聯(lián)系人列表)、遠(yuǎn)程存儲(chǔ)(例如在因特網(wǎng)上(例如,在像facebook、linkedin、yahoo、google+、msn等的社交媒體網(wǎng)站中))的遠(yuǎn)程用戶/設(shè)備列表選擇。備選地,用戶可選擇在像secondlife的虛擬空間中上線。
在操作406,設(shè)備中的拍攝裝置然后可開始捕捉圖像和/或深度并且設(shè)備中的麥克風(fēng)可開始捕捉聲音。圖像可以是靜態(tài)圖像或?qū)崨r視頻(例如,依次捕捉的多個(gè)圖像)。深度可與圖像一起捕捉或可獨(dú)立捕捉。深度對(duì)應(yīng)于在拍攝裝置的視場(chǎng)中從拍攝裝置到物體(和物體上的點(diǎn))的距離。是否檢測(cè)到用戶輸入可在操作408確定。用戶輸入包括由圖像和/或深度拍攝裝置捕捉的手勢(shì)和在觸敏顯示器上檢測(cè)的觸摸輸入。如果檢測(cè)到用戶輸入,可在操作410識(shí)別該用戶輸入。用戶輸入標(biāo)識(shí)符包括觸摸標(biāo)識(shí)符或手勢(shì)標(biāo)識(shí)符。該觸摸標(biāo)識(shí)符可基于觸敏顯示器上的觸摸而確定并且可包括觸摸類型和觸摸位點(diǎn)。手勢(shì)標(biāo)識(shí)符可基于捕捉的圖像和/或深度數(shù)據(jù)而確定并且可包括識(shí)別手勢(shì)。
動(dòng)畫命令可在操作412識(shí)別。該動(dòng)畫命令可配置成使在遠(yuǎn)程設(shè)備上顯示的用戶選擇的化身動(dòng)畫地呈現(xiàn)或使也在遠(yuǎn)程用戶的設(shè)備上顯示的用戶的反饋化身動(dòng)畫呈現(xiàn)。動(dòng)畫命令對(duì)應(yīng)于與用戶輸入關(guān)聯(lián)的期望響應(yīng)。例如,觸摸顯示的化身的面部(用戶輸入)可導(dǎo)致顯示的化身的面部的顏色改變(由動(dòng)畫命令識(shí)別的期望響應(yīng))。動(dòng)畫命令可基于識(shí)別的用戶輸入而識(shí)別。例如,每個(gè)用戶輸入可與用戶輸入標(biāo)識(shí)符和動(dòng)畫命令的數(shù)據(jù)庫(kù)中的動(dòng)畫命令有關(guān)(例如,關(guān)聯(lián))。
操作414包括生成化身參數(shù)。這些化身參數(shù)包括被動(dòng)組成并且可包括交互組成。如果未檢測(cè)到用戶輸入,化身參數(shù)可包括被動(dòng)組成。如果檢測(cè)到用戶輸入,化身參數(shù)是否可包括交互組成取決于動(dòng)畫命令并且因此取決于用戶輸入。對(duì)于對(duì)應(yīng)于動(dòng)畫命令(其配置成使用戶的選擇化身動(dòng)畫地呈現(xiàn))的用戶輸入,動(dòng)畫命令可與僅包括被動(dòng)組成的化身參數(shù)一起傳送或可在傳送之間應(yīng)用于化身參數(shù)使得傳送的化身參數(shù)包括被動(dòng)和交互組成兩者。對(duì)于對(duì)應(yīng)于動(dòng)畫命令(其配置成使在遠(yuǎn)程用戶的設(shè)備上顯示的遠(yuǎn)程用戶的反饋化身動(dòng)畫地呈現(xiàn))的輸入,可僅傳送動(dòng)畫命令。
操作416包括變換并且編碼捕捉的音頻。捕捉的音頻可轉(zhuǎn)換成音頻信號(hào)(例如,用戶語音信號(hào))。用戶語音信號(hào)可根據(jù)操作402的化身選擇的音頻變換部分來變換。變換的用戶語音信號(hào)對(duì)應(yīng)于化身語音信號(hào)?;碚Z音信號(hào)可使用已知技術(shù)來編碼以用于通過網(wǎng)絡(luò)傳送到遠(yuǎn)程設(shè)備和/或虛擬空間??稍诓僮?18傳送變換且編碼的音頻。操作418可進(jìn)一步包括傳送動(dòng)畫命令和化身參數(shù)中的至少一個(gè)。傳送動(dòng)畫命令配置成允許遠(yuǎn)程設(shè)備通過根據(jù)動(dòng)畫命令修改化身參數(shù)來使本地顯示的化身動(dòng)畫地呈現(xiàn)。在傳送之前已經(jīng)根據(jù)動(dòng)畫命令修改的傳送的化身參數(shù)可直接用于使在遠(yuǎn)程設(shè)備上顯示的化身動(dòng)畫地呈現(xiàn)。也就是說,對(duì)由動(dòng)畫命令表示的化身參數(shù)的修改可本地或遠(yuǎn)程執(zhí)行。
操作420包括接收遠(yuǎn)程編碼音頻,其可以是變換的音頻。操作420進(jìn)一步包括接收遠(yuǎn)程動(dòng)畫命令和遠(yuǎn)程化身參數(shù)中的至少一個(gè)。該遠(yuǎn)程動(dòng)畫命令可用于修改化身參數(shù),其對(duì)應(yīng)于遠(yuǎn)程用戶的顯示化身或本地用戶的顯示的反饋化身。動(dòng)畫命令和化身參數(shù)配置成導(dǎo)致化身動(dòng)畫,其基于用戶輸入而被修改。接收的音頻可在操作422解碼和播放并且化身可在操作424顯示和動(dòng)畫地呈現(xiàn)。
顯示的化身的動(dòng)畫可基于如本文描述的檢測(cè)且識(shí)別的用戶輸入。在設(shè)備到設(shè)備通信(例如,系統(tǒng)100)實(shí)例中,遠(yuǎn)程化身選擇或遠(yuǎn)程化身參數(shù)中的至少一個(gè)可從遠(yuǎn)程設(shè)備接收。對(duì)應(yīng)于遠(yuǎn)程用戶的化身然后可基于接收的遠(yuǎn)程化身選擇而顯示,并且可基于接收的遠(yuǎn)程化身參數(shù)而動(dòng)畫地呈現(xiàn)。在虛擬地方交互(例如,系統(tǒng)126)的實(shí)例中,可接收這樣的信息,其允許設(shè)備顯示對(duì)應(yīng)于設(shè)備用戶的化身所看到的事物。
通信是否完成可在操作426確定。如果完成通信,程序流可在操作428結(jié)束。如果通信未完成,程序流可進(jìn)行到操作406:捕捉圖像、深度和/或音頻。
盡管圖4圖示根據(jù)實(shí)施例的各種操作,要理解不是圖4中描述的操作中的全部對(duì)于其他實(shí)施例都是必需的。確實(shí),在本文充分預(yù)想在本公開的其他實(shí)施例中,在圖4中描繪的操作和/或本文描述的其他操作可采用未專門在圖中的任一個(gè)中示出但仍完全與本公開一致這一方式組合。從而,針對(duì)未確切在一個(gè)圖中示出的特征和/或操作的權(quán)利要求認(rèn)為在本公開的范圍和內(nèi)容內(nèi)。
如在本文的任何實(shí)施例中使用的,術(shù)語“應(yīng)用”可在代碼或指令中體現(xiàn),這些代碼或指令可在例如主機(jī)處理器等可編程電路或其他可編程電路上執(zhí)行。
如在本文的任何實(shí)施例中使用的,術(shù)語“模塊”可指應(yīng)用、軟件、固件和/或電路,其配置成執(zhí)行前面提到的操作中的任一個(gè)。軟件可體現(xiàn)為在至少一個(gè)非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上記錄的軟件封裝、代碼、指令、指令集和/或數(shù)據(jù)。固件可體現(xiàn)為在存儲(chǔ)器設(shè)備中硬編碼(例如,非易失性)的代碼、指令或指令集和/或數(shù)據(jù)。
如在本文的任何實(shí)施例中使用的“電路”可單獨(dú)或采用任何組合地包括例如硬接線電路、可編程電路(例如計(jì)算機(jī)處理器,其包括一個(gè)或多個(gè)個(gè)體指令處理核)、狀態(tài)機(jī)電路和/或存儲(chǔ)由可編程電路執(zhí)行的指令的固件。模塊可以共同或單獨(dú)體現(xiàn)為電路,其形成較大系統(tǒng)(例如,集成電路(ic)、片上系統(tǒng)(soc)、臺(tái)式計(jì)算機(jī)、便攜式計(jì)算機(jī)、平板計(jì)算機(jī)、服務(wù)器、智能電話等)的一部分。
本文描述的操作中的任一個(gè)可在包括一個(gè)或多個(gè)存儲(chǔ)介質(zhì)的系統(tǒng)中實(shí)現(xiàn),該一個(gè)或多個(gè)存儲(chǔ)介質(zhì)其上可以獨(dú)立地或組合地存儲(chǔ)有指令,這些指令在被一個(gè)或多個(gè)處理器執(zhí)行時(shí)執(zhí)行方法。在這里,處理器可包括,例如服務(wù)器cpu、移動(dòng)設(shè)備cpu和/或其他可編程電路。而且,規(guī)定本文描述的操作可跨多個(gè)物理設(shè)備(例如在超過一個(gè)不同的物理位點(diǎn)處的處理結(jié)構(gòu))分布。存儲(chǔ)介質(zhì)可包括任何類型的有形介質(zhì):例如任何類型的盤,其包括硬盤、軟盤、光盤、壓縮盤只讀存儲(chǔ)器(cd-rom)、壓縮盤可重寫(cd-rw)和磁光盤;例如只讀存儲(chǔ)器(rom)、隨機(jī)存取存儲(chǔ)器(ram)(例如動(dòng)態(tài)和靜態(tài)ram)、可擦除可編程只讀存儲(chǔ)器(eprom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、閃速存儲(chǔ)器、固態(tài)盤(ssd)等半導(dǎo)體器件;磁或光卡;或適合于存儲(chǔ)電子指令的任何類型的介質(zhì)。其他實(shí)施例可實(shí)現(xiàn)為由可編程控制設(shè)備執(zhí)行的軟件模塊。存儲(chǔ)介質(zhì)可以是非暫時(shí)性的。
從而,本公開提供用于交互地使得用于實(shí)施視頻通信的化身動(dòng)畫地呈現(xiàn)而不是實(shí)況圖像的方法和系統(tǒng)。與發(fā)送實(shí)況圖像相比,化身的使用使交換的信息的量減少。系統(tǒng)和方法進(jìn)一步配置成通過例如移調(diào)和/或時(shí)間延展捕捉的音頻信號(hào)來將用戶語音變換成化身語音?;淼慕换?dòng)畫可基于檢測(cè)的用戶輸入,其包括觸摸和手勢(shì)。交互動(dòng)畫配置成修改基于面部檢測(cè)和跟蹤而確定的動(dòng)畫。
根據(jù)一個(gè)方面,提供一種系統(tǒng)。該系統(tǒng)可包括:用戶輸入設(shè)備,其配置成捕捉用戶輸入;通信模塊,其配置成傳送并且接收信息;和一個(gè)或多個(gè)存儲(chǔ)介質(zhì)。另外,該一個(gè)或多個(gè)存儲(chǔ)介質(zhì)其上獨(dú)立地或組合地存儲(chǔ)有指令,這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成下列操作,其包括:選擇化身;發(fā)起通信;檢測(cè)用戶輸入;識(shí)別用戶輸入;基于用戶輸入識(shí)別動(dòng)畫命令;生成化身參數(shù);以及傳送動(dòng)畫命令和化身參數(shù)中的至少一個(gè)。
另一個(gè)示例系統(tǒng)包括前面的部件并且進(jìn)一步包括麥克風(fēng),其配置成捕捉聲音并且將捕捉的聲音轉(zhuǎn)換成對(duì)應(yīng)的音頻信號(hào),并且指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成下列額外操作:捕捉用戶語音并且將用戶語音轉(zhuǎn)換成對(duì)應(yīng)的用戶語音信號(hào);將該用戶語音信號(hào)變換成化身語音信號(hào);以及傳送該化身語音信號(hào)。
另一個(gè)示例系統(tǒng)包括前面的部件并且進(jìn)一步包括拍攝裝置,其配置成捕捉圖像,并且指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成下列額外操作:捕捉圖像;檢測(cè)該圖像中的面部;從面部提取特征;以及將特征轉(zhuǎn)換成化身參數(shù)。
另一個(gè)示例系統(tǒng)包括前面的部件并且進(jìn)一步包括顯示器,并且指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成下列額外操作:顯示至少一個(gè)化身;接收遠(yuǎn)程動(dòng)畫命令和遠(yuǎn)程化身參數(shù)中的至少一個(gè);以及基于該遠(yuǎn)程動(dòng)畫命令和遠(yuǎn)程化身參數(shù)中的至少一個(gè)使一個(gè)顯示的化身動(dòng)畫地呈現(xiàn)。
另一個(gè)示例系統(tǒng)包括前面的部件并且進(jìn)一步包括揚(yáng)聲器,其配置成將音頻信號(hào)轉(zhuǎn)換成聲音,并且指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成下列額外操作:接收遠(yuǎn)程化身語音信號(hào);以及將該遠(yuǎn)程化身語音信號(hào)轉(zhuǎn)換成化身語音。
另一個(gè)示例系統(tǒng)包括前面的部件并且用戶輸入設(shè)備是拍攝裝置,其配置成捕捉距離,并且用戶輸入是手勢(shì)。
另一個(gè)示例系統(tǒng)包括前面的部件并且用戶輸入設(shè)備是觸敏顯示器并且用戶輸入是觸摸事件。
另一個(gè)示例系統(tǒng)包括前面的部件并且變換包括移調(diào)和時(shí)間延展中的至少一個(gè)。
根據(jù)另一個(gè)方面,提供一種方法。該方法可包括:選擇化身;發(fā)起通信;檢測(cè)用戶輸入;識(shí)別用戶輸入;基于用戶輸入識(shí)別動(dòng)畫命令;基于動(dòng)畫命令生成化身參數(shù);以及傳送動(dòng)畫命令和化身參數(shù)中的至少一個(gè)。
另一個(gè)示例方法包括前面的操作并且進(jìn)一步包括:捕捉用戶語音并且將該用戶語音轉(zhuǎn)換成對(duì)應(yīng)的用戶語音信號(hào);將該用戶語音信號(hào)變換成化身語音信號(hào);以及傳送該化身語音信號(hào)。
另一個(gè)示例方法包括前面的操作并且進(jìn)一步包括:捕捉圖像;檢測(cè)該圖像中的面部;從面部提取特征;以及將特征轉(zhuǎn)換成化身參數(shù)。
另一個(gè)示例方法包括前面的操作并且進(jìn)一步包括:顯示至少一個(gè)化身;接收遠(yuǎn)程動(dòng)畫命令和遠(yuǎn)程化身參數(shù)中的至少一個(gè);以及基于該遠(yuǎn)程動(dòng)畫命令和遠(yuǎn)程化身參數(shù)中的至少一個(gè)使一個(gè)顯示的化身動(dòng)畫地呈現(xiàn)。
另一個(gè)示例方法包括前面的操作并且進(jìn)一步包括:接收遠(yuǎn)程化身語音信號(hào);以及將該遠(yuǎn)程化身語音信號(hào)轉(zhuǎn)換成化身語音。
另一個(gè)示例方法包括前面的操作并且用戶輸入是手勢(shì)。
另一個(gè)示例方法包括前面的操作并且用戶輸入是觸摸事件。
另一個(gè)示例方法包括前面的操作并且變換包括移調(diào)和時(shí)間延展中的至少一個(gè)。
根據(jù)另一個(gè)方面,提供一種系統(tǒng)。該系統(tǒng)可包括一個(gè)或多個(gè)存儲(chǔ)介質(zhì),其上獨(dú)立地或組合地存儲(chǔ)有指令,這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成下列操作,其包括:選擇化身;發(fā)起通信;檢測(cè)用戶輸入;識(shí)別用戶輸入;基于用戶輸入識(shí)別動(dòng)畫命令;生成化身參數(shù);以及傳送動(dòng)畫命令和化身參數(shù)中的至少一個(gè)。
另一個(gè)示例系統(tǒng)包括指令,其在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成前面的操作并且還包括:捕捉用戶語音并且將該用戶語音轉(zhuǎn)換成對(duì)應(yīng)的用戶語音信號(hào);將該用戶語音信號(hào)變換成化身語音信號(hào);以及傳送該化身語音信號(hào)。
另一個(gè)示例系統(tǒng)包括指令,其在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成前面的操作并且還包括:捕捉圖像;檢測(cè)該圖像中的面部;從面部提取特征;以及將特征轉(zhuǎn)換成化身參數(shù)。
另一個(gè)示例系統(tǒng)包括指令,其在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成前面的操作并且還包括:顯示至少一個(gè)化身;接收遠(yuǎn)程動(dòng)畫命令和遠(yuǎn)程化身參數(shù)中的至少一個(gè);以及基于該遠(yuǎn)程動(dòng)畫命令和遠(yuǎn)程化身參數(shù)中的至少一個(gè)使一個(gè)顯示的化身動(dòng)畫地呈現(xiàn)。
另一個(gè)示例系統(tǒng)包括指令,其在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成前面的操作并且還包括:接收遠(yuǎn)程化身語音信號(hào);以及將該遠(yuǎn)程化身語音信號(hào)轉(zhuǎn)換成化身語音。
另一個(gè)示例系統(tǒng)包括指令,其在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成前面的操作并且用戶輸入是手勢(shì)。
另一個(gè)示例系統(tǒng)包括指令,其在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成前面的操作并且用戶輸入是觸摸事件。
另一個(gè)示例系統(tǒng)包括指令,其在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)促成前面的操作并且變換包括移調(diào)和時(shí)間延展中的至少一個(gè)。
本文已經(jīng)采用的術(shù)語和表達(dá)用作說明的術(shù)語并且無限制,并且在這樣的術(shù)語和表達(dá)的使用中沒有意圖要排除示出和描述的特征(或其部分)的任何等同,并且認(rèn)識(shí)到各種修改在權(quán)利要求的范圍內(nèi)是可能的。因此,權(quán)利要求意在涵蓋所有這樣的等同。