專利名稱:電子設(shè)備定向音頻視頻采集的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種電子設(shè)備,并且更具體地涉及用于電子設(shè)備的定向音頻視頻采集。
背景技術(shù):
具有免提電話或者免提應(yīng)用的電子設(shè)備在本領(lǐng)域中是已知的。在免提語音通話期間,可將除用戶的語音之外的任何聲音視為背景噪聲,這些背景噪聲應(yīng)當(dāng)被衰減(或者消除)以提高電話交談的質(zhì)量。噪聲可能涉及與發(fā)送和接收信號(hào)相對應(yīng)的環(huán)境、網(wǎng)絡(luò)和音頻鏈。環(huán)境噪聲(或者干擾的聲音/背景噪聲)在免提語音通話期間可能很容易造成干擾, 并且有時(shí)可能會(huì)超過用戶的語音(信號(hào))水平,使得分離二者變得非常困難。這可能導(dǎo)致較差的信噪比(SNI )。在本領(lǐng)域中存在若干種用于語音通信的僅針對音頻源的跟蹤技術(shù)。通過使用能夠?qū)υ?用戶)方向之外的敏感度進(jìn)行衰減的定向性圖案而提供音頻發(fā)送的常規(guī)配置,可以改善SNR并在傳輸源信號(hào)之前從該信號(hào)中消除不需要的信號(hào)。然而,這假設(shè)了已經(jīng)知曉或者可以估計(jì)信號(hào)的到達(dá)方向(DOA)。此外,使用常規(guī)技術(shù)的基于音頻的跟蹤一般不適合于靜默的移動(dòng)源。在手持移動(dòng)通信設(shè)備的情況中,聲源的相對位置由于設(shè)備的移動(dòng)可能也會(huì)發(fā)生移動(dòng)。相比于在其中可以假設(shè)設(shè)備相比于聲源的移動(dòng)是處于相對靜止中的傳統(tǒng)會(huì)議室設(shè)置而言,設(shè)備的連續(xù)把持(例如,由于自然的手勢和手部動(dòng)作)使得源跟蹤任務(wù)的挑戰(zhàn)性大為增加。設(shè)備移動(dòng)可以引起DOA中非常快的改變,而聲源的移動(dòng)則不大可能造成這種情況。在典型的移動(dòng)通信語音通話中,用戶與設(shè)備的相對位置可以改變。由于僅針對音頻的跟蹤系統(tǒng)為了計(jì)算一個(gè)或多個(gè)DOA角而需要音頻數(shù)據(jù),因此這對跟蹤信息造成處理延遲(從而妨礙了實(shí)時(shí)源位置信息更新)。遺憾的是,在實(shí)時(shí)語音通信中為了流暢運(yùn)行而需要最小化端對端延遲。這可能引起若干問題。例如,當(dāng)用戶在講話停頓期間移動(dòng)時(shí),源跟蹤器在該靜默期中可能失去正確的源位置。當(dāng)通話者開始講話時(shí),語句的開頭可能因錯(cuò)誤的位置信息而失真。從多麥克風(fēng)降噪的角度來看,這意味著用戶的語音被作為背景噪聲源處理, 直至考慮到正確的位置信息。另一類定向音頻采集算法通過利用信號(hào)的統(tǒng)計(jì)屬性來形成麥克風(fēng)陣列的定向性圖案。這些算法并不利用專用的聲源位置信息,而是試圖自適應(yīng)于所需的源。通常這些算法不僅需要適應(yīng)于源位置中的變化,而且還需要適應(yīng)于室內(nèi)沖擊響應(yīng)中的變化。這使得這些算法對環(huán)境中瞬時(shí)變化的反應(yīng)相對較慢。在沒有外部控制的可能性的情況下,對關(guān)于源方向做出自主判斷的算法進(jìn)行控制也是有意義的。例如,在大聲的干擾源(又稱為干擾機(jī)) 的情況中,控制麥克風(fēng)陣列以將源歸類為噪聲源變得更加困難,特別是當(dāng)干擾源的信號(hào)統(tǒng)計(jì)與所需源相似時(shí),例如在通話者爭相發(fā)言的情況下尤為如此。此外,人臉檢測和人臉的視頻跟蹤在本領(lǐng)域中是已知的。臉部檢測對輸入圖像中的一張臉(或者多張臉)的定位進(jìn)行處理。該過程包括在沒有關(guān)于臉部位置的先前知識(shí)可用時(shí)對整個(gè)圖像進(jìn)行掃描。臉部跟蹤還可以擴(kuò)展至通過使用時(shí)間相關(guān)性在視頻序列中定位人臉而進(jìn)行的臉部檢測。使用關(guān)于上一幀中的臉部位置的知識(shí)來縮小當(dāng)前幀中的搜索范圍,而不是單獨(dú)地在每個(gè)幀中對臉部進(jìn)行檢測。例如,特此通過引用整體并入的“FaceDetection In Color Images” (R. L. Hsu, Μ. AbdeI-Mottaleb,and Α. K. Jain,IEEE Transactions on Pattern Analysis and Machine Intelligence, 24 :696-706,2002)描述了一種基于膚色檢測的臉部檢測途徑。用于基于膚色檢測的臉部檢測(或跟蹤)的途徑一般對在圖像中所發(fā)現(xiàn)的膚色像素進(jìn)行確定和分組。 接下來,針對每個(gè)這樣的像素組計(jì)算邊界框(或者最佳擬合橢圓)。選擇核實(shí)特定形狀和尺寸限制的皮膚部分作為候選臉部。最后,基于對候選臉部內(nèi)的孔洞是由于特征(諸如眼睛和嘴)與膚色不同而造成的這一觀察,在每個(gè)候選臉部內(nèi)搜索這些特征。另外,特此通過引用整體并入的“DetectingFaces In Images :A Survey”(Μ. Yang, D.J. Kriegman, and N. Ahuj a, IEEE Transactions on Pattern Analysis and Machine Intelligence, 24 =34-58,2002)描述了一種基于臉部紋理信息的臉部檢測途徑。此外,特此通過引用整體并入的"AHybrid Approach To Face Detection Under Unconstrained Environments" (A. Hadid,M. Pietikainen, International Conference of Pattern Recognition(ICPR 2006))描述了一種基于顏色和紋理信息的臉部檢測途徑。特此通過引用整體并入的美國專利No. 6,826,284公開了一種系統(tǒng),其中源跟蹤信息實(shí)現(xiàn)了舉例而言諸如相機(jī)調(diào)向的設(shè)備控制。此外,特此通過引用整體并入的“Knowing Who To Listen To In Speech Recognition :Visually Guided Beamforming" (U.Bub, M. Hunke, and A.Waibel, Interactive System Laboratories,IEEE 1995)禾口"Listen :A System For Locating And Tracking Individual Speakers" (M. Collobert, R.Ferraud, G. Le Tourneur, 0.Bernier, J. E. Viallet,Y. Mahieux,D. Collobert, France Telecom, IEEE Transactions (1999))公開了使用一種機(jī)械設(shè)備來移動(dòng)相機(jī)朝向用戶臉部,用于在固定的電話會(huì)議條件下使用的視覺和音頻跟蹤。“Joint Audio-Video Object Localization and Tracking"(N. Strobel,S. Spors and R. Rabenstein, IEEE Signal Processing Magazine (2001))公開了一種物體β艮蹤方法。另外,美國專利No. 5,335,011公開了使用一種聲音定位技術(shù),該技術(shù)基于每個(gè)用戶位置的先驗(yàn)知識(shí)。然而,盡管有上述進(jìn)展,但仍然存在對于提供改進(jìn)的音頻采集系統(tǒng)的強(qiáng)烈需求。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面,公開了一種裝置。該裝置包括殼體、電子電路以及音頻-視覺源跟蹤系統(tǒng)。電子電路位于殼體之中。音頻-視覺源跟蹤系統(tǒng)包括第一視頻相機(jī)和麥克風(fēng)陣列。第一視頻相機(jī)和麥克風(fēng)陣列附接至殼體。音頻-視覺源跟蹤系統(tǒng)被配置成從第一視頻相機(jī)接收視頻信息。音頻-視覺源跟蹤系統(tǒng)被配置成至少部分地響應(yīng)于所述視頻信息而從麥克風(fēng)陣列采集音頻信息。根據(jù)本發(fā)明的另一方面,公開了一種方法。提供了一種殼體。在該殼體中安裝電子電路。在該殼體附近提供跟蹤系統(tǒng)。其中跟蹤系統(tǒng)包括第一視頻相機(jī)和麥克風(fēng)。第一視頻相機(jī)附接至殼體。麥克風(fēng)靠近第一視頻相機(jī)。跟蹤系統(tǒng)被配置成從第一視頻相機(jī)接收視頻信號(hào)。跟蹤系統(tǒng)被配置成至少部分地響應(yīng)于所述視頻信號(hào)而從麥克風(fēng)采集音頻信號(hào)。根據(jù)本發(fā)明的又一方面,公開了一種方法。使用一種裝置的相機(jī)采集第一圖像。確定該第一圖像的一部分相對于所述裝置的麥克風(fēng)陣列的方向。至少部分地基于該第一圖像的所述部分的方向來控制麥克風(fēng)陣列的預(yù)定特性。根據(jù)本發(fā)明的另一方面,公開了一種機(jī)器可讀的程序存儲(chǔ)設(shè)備,其有形地體現(xiàn)指令程序,該指令程序可由機(jī)器執(zhí)行用于進(jìn)行操作,以感測音頻信號(hào)。分析圖像的一部分。計(jì)算出與該圖像的所述部分相對應(yīng)的方向。該方向是相對于一種裝置的。至少部分地基于計(jì)算出的方向而從該裝置導(dǎo)引麥克風(fēng)陣列。根據(jù)本發(fā)明的又一方面,公開了一種裝置。該裝置包括殼體、電子電路以及音頻-視覺優(yōu)化系統(tǒng)。電子電路位于殼體之中。音頻-視覺優(yōu)化系統(tǒng)包括第一視頻相機(jī)和麥克風(fēng)陣列。第一視頻相機(jī)和麥克風(fēng)陣列附接至殼體。第一視頻相機(jī)包括至少一個(gè)可調(diào)參數(shù)。 音頻-視覺優(yōu)化系統(tǒng)被配置成從麥克風(fēng)陣列接收音頻信息。音頻-視覺優(yōu)化系統(tǒng)被配置成至少部分地響應(yīng)于所述音頻信息而對第一視頻相機(jī)的所述至少一個(gè)可調(diào)參數(shù)進(jìn)行調(diào)節(jié)。根據(jù)本發(fā)明的另一方面,公開了一種方法。使用一種裝置的相機(jī)來采集圖像。確定該圖像的一部分的第一位置。采集對應(yīng)于該第一位置的音頻信息。至少部分地響應(yīng)于采集到的音頻信息而控制所述相機(jī)的參數(shù)。根據(jù)本發(fā)明的又一方面,公開了一種機(jī)器可讀的程序存儲(chǔ)設(shè)備,其有形地體現(xiàn)指令程序,該指令程序可由機(jī)器執(zhí)行用于進(jìn)行操作,以采集音頻-視覺信息。調(diào)整一種設(shè)備的麥克風(fēng)陣列。評(píng)估由該麥克風(fēng)陣列所接收到的音頻信息。至少部分地基于經(jīng)評(píng)估的音頻信息而調(diào)節(jié)所述設(shè)備的相機(jī)參數(shù)。
在聯(lián)系附圖進(jìn)行的以下描述中,對本發(fā)明的前述方面和其他特征進(jìn)行解釋,在附圖中圖1是包含有本發(fā)明的特征的一種電子設(shè)備的正面的透視圖;圖2是圖1中所示電子設(shè)備的背面的透視圖;圖3是用在圖1中所示電子設(shè)備中的一種示例性算法的框圖;圖4是用在圖1中所示電子設(shè)備中的一種跟蹤系統(tǒng)的一部分相對于用戶和坐標(biāo)系的視圖;圖5是用在圖1中所示電子設(shè)備的跟蹤系統(tǒng)中的臉部檢測元素的視圖;圖6是包含有本發(fā)明的特征的另一電子設(shè)備的透視圖;圖7是用在圖6中所示電子設(shè)備中的一種跟蹤系統(tǒng)的一部分相對于用戶的視圖;圖8是圖1和圖6中所示電子設(shè)備的一種示例性方法的框圖;圖9是圖1和圖6中所示電子設(shè)備的另一示例性方法的框圖;圖10是圖示了圖1和圖6中所示電子設(shè)備的組件的示意圖;圖11是圖1和圖6中所示電子設(shè)備的一種示例性方法的框圖;圖12是用在圖1和圖6中所示電子設(shè)備中的一個(gè)示例性臉部位置表的框圖;圖13是用在圖12中所示表中的另一示例性算法的框圖14是用在圖12中所示表中的另一示例性算法的框圖;以及圖15是圖1和圖6中所示電子設(shè)備的另一示例性方法的框圖。
具體實(shí)施例方式參考圖1,示出了包含有本發(fā)明的特征的電子設(shè)備10的透視圖。盡管將參考附圖中所示的示例性實(shí)施方式描述本發(fā)明,但是應(yīng)當(dāng)理解,本發(fā)明可以在許多替代形式的實(shí)施方式之中實(shí)施。此外,可以使用任何合適的尺寸、形狀或者類型的元件或材料。根據(jù)圖1和圖2中所示的本發(fā)明的一個(gè)示例,設(shè)備10為多功能便攜式電子設(shè)備。 然而,在替代實(shí)施方式中,本發(fā)明的該示例性實(shí)施方式的特征例如可以用于諸如移動(dòng)電話、 游戲設(shè)備、音樂播放器或者PDA之類的任何合適類型的手持便攜式電子設(shè)備。此外,如本領(lǐng)域中已知,設(shè)備10可以包括多個(gè)特征或者應(yīng)用,舉例而言,比如相機(jī)、音樂播放器、游戲機(jī)或者因特網(wǎng)瀏覽器。還參考圖2,設(shè)備10總體上包括具有正面14和背面16的殼體12、與天線20相連的收發(fā)器18、殼體12內(nèi)的電子電路22 (舉例而言,比如控制器和存儲(chǔ)器)、用戶輸入?yún)^(qū)域M 以及顯示器沈。顯示器沈也可以構(gòu)成用戶輸入部分,比如觸摸屏。應(yīng)當(dāng)注意的是,在替代實(shí)施方式中,設(shè)備10可以具有本領(lǐng)域中已知的任何合適類型的特征。電子設(shè)備10還包括主相機(jī)28,以及音頻-視覺源跟蹤系統(tǒng)30。主相機(jī)28安裝在殼體12內(nèi)靠近設(shè)備10的背面16處。相機(jī)觀可以包括靜止圖像數(shù)碼相機(jī)和/或視頻相機(jī), 或者任何其他合適類型的圖像拍攝設(shè)備。音頻-視覺源跟蹤系統(tǒng)30包括副相機(jī)32和麥克風(fēng)陣列34。副相機(jī)32安裝在殼體12內(nèi)靠近設(shè)備10的正面14處。相機(jī)32例如可以包括視頻相機(jī)。該視頻相機(jī)可被定向或者配置成采集設(shè)備的用戶臉部的圖像。在使用所述設(shè)備進(jìn)行視頻通話時(shí),該視頻相機(jī)可以用于視頻采集。然而,也可以提供任何合適類型的圖像拍攝設(shè)備。例如,在替代實(shí)施方式中,該視頻相機(jī)也可以是安裝至計(jì)算機(jī)的、用于視頻通話的web 攝像頭。還應(yīng)當(dāng)注意的是,根據(jù)本發(fā)明的一個(gè)實(shí)施方式,相機(jī)還可以是在下述移動(dòng)電話中用于視頻通話的相機(jī),在這樣的移動(dòng)電話中已集成雙相機(jī)一個(gè)面向背面,而另一個(gè)面向用戶專門用于視頻免提通話。麥克風(fēng)陣列34安裝在殼體12內(nèi)靠近副相機(jī)32處。麥克風(fēng)陣列34可以圍繞相機(jī) 32(與之非常接近)。然而,在替代實(shí)施方式中,可以提供針對相機(jī)34的任何合適的位置或定向。麥克風(fēng)陣列34被配置用以采集設(shè)備用戶的語音。麥克風(fēng)34可被配置用于二維QD) 或三維(3D)麥克風(fēng)陣列聲束調(diào)向。在圖1中所示的示例中,麥克風(fēng)陣列34包括四個(gè)麥克風(fēng)。然而,在替代實(shí)施方式中,可以提供更多或者更少的麥克風(fēng)。例如,在一個(gè)實(shí)施方式中, 麥克風(fēng)陣列34可以包括三個(gè)麥克風(fēng)。相機(jī)32和麥克風(fēng)陣列34的相對位置和定向可以是事先已知的(固定的),或者基于視覺與聲音源跟蹤信息的時(shí)間平均而估計(jì)。然而,應(yīng)當(dāng)注意的是,可以使用本領(lǐng)域中已知的任何適當(dāng)?shù)亩ㄎ皇侄蝸硖峁┫鄼C(jī)和麥克風(fēng)陣列的相對位置和定向。麥克風(fēng)陣列或者相機(jī),或者二者,可以提供關(guān)于源距離的信息。應(yīng)當(dāng)注意,盡管附圖示出了主相機(jī)觀位于電子設(shè)備10的背面16而音頻-視覺源
8跟蹤系統(tǒng)30位于該設(shè)備的正面14,但替代實(shí)施方式可包括在任何適當(dāng)位置上的相機(jī)觀和音頻-視覺源跟蹤系統(tǒng)30。例如,可將主相機(jī)觀提供在電子設(shè)備10的正面14,并且可以將音頻-視覺源跟蹤系統(tǒng)30提供在設(shè)備10的背面16。在另一示例中,可將主相機(jī)觀和音頻-視覺源跟蹤系統(tǒng)30 二者都提供在電子設(shè)備10的正面14或者背面16。此外,可將相機(jī)觀和音頻-視覺源跟蹤系統(tǒng)30 二者或其中之一提供在殼體12的側(cè)面。還可以利用相機(jī)信息來跟蹤設(shè)備的移動(dòng)。還應(yīng)當(dāng)理解,可以提供兩個(gè)以上的相機(jī)或者單獨(dú)一個(gè)相機(jī)(其中所述單獨(dú)一個(gè)相機(jī)充當(dāng)主相機(jī)和副相機(jī))。根據(jù)本發(fā)明的各種示例性實(shí)施方式,音頻-視覺源跟蹤系統(tǒng)30為電話交談和視頻電話交談提供臉部跟蹤輔助定向音頻采集。音頻-視覺源跟蹤系統(tǒng)30提高了嘈雜環(huán)境中免提語音/視頻通話的上行音頻性能(或音頻質(zhì)量),而這可被最終用戶在移動(dòng)語音通話期間察覺到。音頻-視覺源跟蹤系統(tǒng)30可以提供人臉的視頻跟蹤以及對麥克風(fēng)陣列的定向敏感度的控制,以用于定向音頻采集,從而提高嘈雜環(huán)境中語音和/或視頻通話的質(zhì)量。本發(fā)明的示例可以包括用于魯棒并高效的臉部檢測和跟蹤的先進(jìn)技術(shù)。這樣的技術(shù)和算法已由若干研究團(tuán)隊(duì)開發(fā)出來,并且它們目前正用于若干應(yīng)用之中(例如臉部識(shí)別、臉部跟蹤等)。臉部跟蹤算法可以實(shí)現(xiàn)高的性能并且即使在例如計(jì)算能力相對較低的機(jī)器上(比如移動(dòng)電話上)也可以實(shí)時(shí)運(yùn)行。 音頻-視覺源跟蹤系統(tǒng)30被配置成使用與用戶的臉部位置相對應(yīng)的視頻信息,用以協(xié)助音頻采集過程。這可以通過確定對設(shè)備講話的用戶的嘴部參考點(diǎn)并且將麥克風(fēng)陣列的聲束形成為朝向用戶的嘴部(或者參考點(diǎn))而進(jìn)行。音頻-視覺源跟蹤系統(tǒng)30檢測和跟蹤由副相機(jī)所采集的視頻幀中用戶的臉部 (因?yàn)楦毕鄼C(jī)被定向?yàn)槌O(shè)備用戶)。相機(jī)和麥克風(fēng)在設(shè)備內(nèi)的固定位置允許相機(jī)相對于麥克風(fēng)陣列的定向(或者聲束定向)的已知定向。應(yīng)當(dāng)注意的是,對于麥克風(fēng)聲束定向或者聲束定向的參考還可以指用戶相對于麥克風(fēng)陣列的面部方向。音頻-視覺源跟蹤系統(tǒng) 30可被配置用于選擇性地加強(qiáng)沿著朝向用戶嘴部的特定空間方向的音頻采集敏感度。例如,可將麥克風(fēng)陣列34的敏感度調(diào)節(jié)為朝向用戶的方向(舉例而言,比如在用戶正在講話時(shí))。因此有可能剔除不需要的聲音,而這提高了傳輸至遠(yuǎn)端用戶的音頻的質(zhì)量。不需要的聲音可能來自設(shè)備的側(cè)面或者任何其他方向(舉例而言,比如朝向用戶嘴部的方向之外的任何其他方向),并且可被視為能被消除或者顯著降低的背景噪聲。在可能有明顯的反射以及直接聲音路徑的封閉環(huán)境中,本發(fā)明的示例通過降低并 /或消除來自周圍物體的反射而改善直接聲音路徑(因?yàn)槠谕脑吹穆晫W(xué)房間反射未與直接聲音路徑的DOA對準(zhǔn))。房間反射的衰減可能也是有益的,因?yàn)榛祉懯沟谜Z音更加難以理解。本發(fā)明的實(shí)施方式通過憑借相應(yīng)地導(dǎo)引麥克風(fēng)陣列的聲束朝向用戶來跟蹤用戶臉部的位置,而在講話分音的靜默部分期間提供音頻增強(qiáng)。本發(fā)明的各種示例性實(shí)施方式通過憑借使用關(guān)于所需信號(hào)的方向的額外信息來允許對移動(dòng)中的源在講話停頓期間的分離、降低和估計(jì)(在非常低的SNR水平上),而克服了常規(guī)純音頻技術(shù)的限制?,F(xiàn)在還參考圖3,其示出了音頻-視覺源跟蹤系統(tǒng)30的示例性算法100。該算法可被提供用于實(shí)現(xiàn)用戶的視頻跟蹤并且控制麥克風(fēng)陣列(對于要被傳輸?shù)乃枰纛l信號(hào))的定向麥克風(fēng)聲束的敏感度。該算法可以包括以下步驟。使用副相機(jī)采集圖像幀(步驟 102)。在當(dāng)前圖像幀中檢測用戶的臉部??梢岳缡褂媚w色途徑來檢測臉部位置(步驟 104)。確定臉部邊界矩形的中心并且計(jì)算嘴部的大致位置(如圖5中所示)。還可以基于嘴部的顏色與膚色不同這一事實(shí)(眼睛和嘴在像素的膚色組中表現(xiàn)為孔洞)來檢測嘴部 (步驟106)?;谝曨l幀中的嘴部位置并且基于關(guān)于相機(jī)焦距的知識(shí)來確定相對于麥克風(fēng)陣列的臉部方向(舉例而言,比如嘴部的3D方向)。如果麥克風(fēng)陣列靠近相機(jī),則可將定義該3D方向的(沿水平和垂直方向的)兩個(gè)角確定如下θ χ = atan (x/f), θ y = atan (y/f)其中f表示相機(jī)焦距,而x、y是嘴部相對于幀圖像坐標(biāo)的位置(見圖4、圖5)(步驟108)。增加麥克風(fēng)陣列沿著確定于步驟108中的方向的定向性(相對敏感度)(步驟 110)。使用副相機(jī)采集新的幀(步驟11 。通過在鄰近先前幀中的先前臉部位置處進(jìn)行搜索而跟蹤新的幀中新的臉部位置(步驟114)。返回步驟106。應(yīng)當(dāng)注意,可將所述算法提供為無限循環(huán)。然而,在替代實(shí)施方式中,該算法可以例如通過特定的用戶界面(UI)命令而成為開始/停止算法。然而,可以提供任何適當(dāng)?shù)乃惴ā,F(xiàn)在還參考圖4,示出了示例說明如何可以確定朝向所述(跟蹤臉部/嘴部)位置的方向(如以上算法100中所示)的一個(gè)示例的視圖。用戶40的嘴部38的(相對于相機(jī)32的光心36的)方向由兩個(gè)角θχ、ey定義。在所示實(shí)施方式中,麥克風(fēng)陣列34緊緊圍繞相機(jī)32的光心36。此外,在42處示出了圖像所投射到的圖像傳感器平面,在44處示出了原點(diǎn)處于相機(jī)光心的3D坐標(biāo)系,并且在46處示出了 2D圖像坐標(biāo)系。現(xiàn)在還參考圖5,示出了示例說明各種臉部檢測元素(如在以上算法100中所示) 的視圖。在200處示出了由副相機(jī)所采集的示例圖像幀。在圖像幀200中示出了檢測到的用戶40的臉部。在202處示出了臉部區(qū)域的邊界矩形。在204處示出了該邊界矩形的中心。在206處示出了假設(shè)為嘴部38的位置的、在所述中心之下的位移。在208處示出了近似于嘴部位置的感興趣點(diǎn)。本發(fā)明的各種示例性實(shí)施方式提供了改進(jìn)的配置,該配置允許高質(zhì)量的免提語音和/或視頻通話(即使是在嘈雜環(huán)境中)。此外,還可以提供在講話停頓期間(比如在講話分音之間的停頓期間發(fā)送音頻)的通話者跟蹤的優(yōu)點(diǎn)。另外,本發(fā)明的示例可以利用具有兩個(gè)相機(jī)(一個(gè)相機(jī)面向用戶)的移動(dòng)設(shè)備中的已有相機(jī)硬件。再另外,只要麥克風(fēng)陣列位于靠近相機(jī)模塊處,那么本發(fā)明的實(shí)施方式便可以適配于單相機(jī)產(chǎn)品?,F(xiàn)在還參考圖6和圖7,示出了具有包括兩個(gè)相機(jī)332和三個(gè)麥克風(fēng)334在內(nèi)的音頻-視覺源跟蹤系統(tǒng)330的電子設(shè)備300。音頻-視覺源跟蹤系統(tǒng)330通過使用兩個(gè)相機(jī) 332估計(jì)相對于用戶40的嘴部38的聲束定向370而提供上行音頻中的音頻質(zhì)量改善。如果麥克風(fēng)陣列334如圖6中所示位于遠(yuǎn)離相機(jī)視角(實(shí)際上相機(jī)模塊本身)處,則用戶40 的臉部位置與麥克風(fēng)陣列的中心之間的距離可能難以計(jì)算。例如,對于較大的距離380,可以提供深度390信息來估計(jì)聲束定向370。另一方面,當(dāng)相機(jī)32與麥克風(fēng)34之間的距離相對較小時(shí),只有一個(gè)相機(jī)可以具備設(shè)備10的音頻-視覺源跟蹤系統(tǒng)30的配置??梢酝ㄟ^使用兩個(gè)相機(jī)332估計(jì)深度390來提供對相關(guān)于用戶40臉部的麥克風(fēng)聲束方向370的估計(jì)。本發(fā)明的實(shí)施方式因此在移動(dòng)電話設(shè)計(jì)中提供靈活性,其中可以通過具有更好的麥克風(fēng)位置靈活性而設(shè)計(jì)麥克風(fēng)陣列。此外,應(yīng)當(dāng)注意的是,可以使用一個(gè)或多個(gè)相機(jī)來估計(jì)用戶40的嘴部38的仰角(方位角)396。還可以使用提供針對圖像的深度圖的單個(gè)3D相機(jī)技術(shù)來獲取距離信息。圖8示出了制造電子設(shè)備10、300的方法400。該方法包括以下步驟。提供殼體 (步驟40幻。在殼體內(nèi)安裝電子電路(步驟404)。在殼體附近提供跟蹤系統(tǒng),其中所述跟蹤系統(tǒng)包括第一視頻相機(jī)和麥克風(fēng),其中第一視頻相機(jī)附接至殼體,其中麥克風(fēng)靠近第一視頻相機(jī),其中跟蹤系統(tǒng)被配置成從第一視頻相機(jī)接收視頻信號(hào),并且其中跟蹤系統(tǒng)被配置成至少部分地響應(yīng)于所述視頻信號(hào)而從麥克風(fēng)采集音頻信號(hào)(步驟406)。應(yīng)當(dāng)注意,任何上述步驟都可以單獨(dú)執(zhí)行,或者結(jié)合一個(gè)或多個(gè)所述步驟執(zhí)行。圖9示出了方法500。該方法包括以下步驟。使用一種裝置的相機(jī)采集第一圖像 (步驟50幻。確定該第一圖像的一部分相對于所述裝置的麥克風(fēng)陣列的方向(步驟504)。 至少部分地基于第一圖像的所述部分的方向來控制麥克風(fēng)陣列的預(yù)定特性(步驟506)?,F(xiàn)在還參考圖10,設(shè)備10、300 —般包括控制器600,舉例而言,比如微處理器。電子電路包括耦合至控制器600的存儲(chǔ)器602,舉例而言,比如位于印刷電路板上。該存儲(chǔ)器可包括多個(gè)存儲(chǔ)器,舉例而言,包括可移動(dòng)存儲(chǔ)模塊。所述設(shè)備具有用戶可以使用的應(yīng)用 604,比如軟件。該應(yīng)用例如可以包括電話應(yīng)用、因特網(wǎng)瀏覽應(yīng)用、游戲娛樂應(yīng)用、數(shù)碼相機(jī)應(yīng)用等等。這些只是一些示例,而不應(yīng)被視為限制。一個(gè)或多個(gè)用戶輸入M、3M耦合至控制器600,并且一個(gè)或多個(gè)顯示器沈、3沈耦合至控制器600。音頻-視覺跟蹤系統(tǒng)30、330 也耦合至控制器600。設(shè)備10、300可被編程為自動(dòng)地改變采集或者感測音頻信號(hào)。然而, 在一個(gè)替代實(shí)施方式中,這可能并不是自動(dòng)的。用戶可能需要主動(dòng)地在跟蹤系統(tǒng)30、330中選擇變化。本發(fā)明的各種示例性實(shí)施方式提供了相比于僅針對音頻的常規(guī)配置的優(yōu)勢。在雙向通信系統(tǒng)中,由于用戶的(以及相應(yīng)的嘴部參考點(diǎn)的)相對位置和/或手持機(jī)的位置可能改變,因而會(huì)出現(xiàn)挑戰(zhàn)。僅針對音頻的跟蹤系統(tǒng)需要音頻數(shù)據(jù)來計(jì)算到達(dá)方向(DOA),并因此對于跟蹤信息引入處理延遲。在實(shí)時(shí)語音通信中,為了流暢的操作而希望最小化點(diǎn)對點(diǎn)延遲。比如,當(dāng)用戶在講話的靜默部分期間移動(dòng)時(shí),源跟蹤器將失去嘴部參考點(diǎn)。錯(cuò)誤的嘴部參考點(diǎn)(這相應(yīng)地意味著錯(cuò)誤的麥克風(fēng)聲束定向)可能很容易在初始講話分音開始時(shí)造成失真。這種情況下音頻-視覺源跟蹤系統(tǒng)可能是有益的,因?yàn)樗梢詫?shí)時(shí)地更新源位置信息。具有空間方向性的一個(gè)或多個(gè)麥克風(fēng)通過憑借衰減對于除期望源的方向之外的方向的敏感度來突出來自所述期望源的方向的聲音,而改善音頻信號(hào)的采集。通過音頻-視覺源跟蹤,可以將麥克風(fēng)陣列的最高敏感度調(diào)向成朝向期望的源(一般是用戶的臉部(或者嘴部))。仍參考圖10,設(shè)備10可以包括根據(jù)本發(fā)明的另一示例的音頻-視覺源跟蹤系統(tǒng) 730。與跟蹤系統(tǒng)30類似,跟蹤系統(tǒng)(或者音頻-視覺優(yōu)化系統(tǒng))730(也示于圖1中)包括副相機(jī)32和麥克風(fēng)陣列34。類似地,系統(tǒng)730被配置成通過將音頻敏感度調(diào)整為朝向人臉方向而優(yōu)化設(shè)備10的音頻采集。如上所述,可以通過調(diào)整麥克風(fēng)陣列34的敏感度聲束而朝期望的空間方向最大化音頻敏感度。然而,系統(tǒng)730在存在多個(gè)通話者的情況下(舉例而言,比如在電話會(huì)議期間)提供優(yōu)化通信的音頻視覺質(zhì)量的技術(shù)效果。音頻-視覺優(yōu)化系統(tǒng)730提供一種方法,以在具有多個(gè)參與者的一般通信方案中(舉例而言,比如電話會(huì)議,或者當(dāng)在一個(gè)位置上存在多個(gè)參與者時(shí)的專屬視頻電話交談, 或者視頻錄制)同時(shí)優(yōu)化針對活躍通話者的音頻和視頻質(zhì)量采集。根據(jù)本發(fā)明的一個(gè)示例,在圖11中示出了一種方法900。所公開的方法可以包括以下處理部分或者步驟。檢測并跟蹤存在于由一個(gè)或多個(gè)相機(jī)所采集到的視頻幀中的所有臉的位置(步驟90幻。這可以在視頻通話期間在單獨(dú)線程中連續(xù)運(yùn)行的單獨(dú)進(jìn)程中實(shí)現(xiàn)。 該進(jìn)程例如可以監(jiān)控視頻流中所有檢測到的臉的位置,并且在可被其它進(jìn)程訪問的表中更新這些位置。通過以很短的時(shí)間間隔連續(xù)地將麥克風(fēng)陣列的敏感度調(diào)整為朝向各個(gè)臉方向來檢測通話者(步驟904)。如果在這樣的方向上檢測到的音頻水平超過閾值,則將對應(yīng)的臉視為活躍通話者的臉。當(dāng)關(guān)于當(dāng)前方向的音頻水平下降至閾值以下時(shí),繼續(xù)進(jìn)行臉方向的連續(xù)掃描。每當(dāng)麥克風(fēng)陣列檢測到一個(gè)活躍通話者時(shí),就針對該活躍通話者的臉部的最佳檢測而優(yōu)化相機(jī)參數(shù)(步驟906)。舉例而言,這可以包括比如自動(dòng)對焦至所述臉上,并且根據(jù)該臉部的照明而自動(dòng)曝光之類的操作。然而,在替代實(shí)施方式中,可以調(diào)節(jié)和/或優(yōu)化任何相機(jī)參數(shù)或操作。以這種方式,系統(tǒng)可以處理在其中通話者的臉并不全都處于相同照明條件下并且處于離一個(gè)或多個(gè)相機(jī)的相同距離處的情況。此外,一些臉可能處于現(xiàn)場的非常亮或者非常暗的區(qū)域之中,并因此需要調(diào)節(jié)曝光參數(shù)以正確地采集它們的圖像。另一方面,一些臉可能位于距相機(jī)更近或更遠(yuǎn)處,使得它們無法同時(shí)被全部對焦。在這種情況下,系統(tǒng)可以提供在每一時(shí)刻對活躍通話者臉部進(jìn)行正確對焦的保證。此外,本發(fā)明的各種實(shí)施方式還可以處理其中麥克風(fēng)陣列未被置于在空間上接近相機(jī)之處的情況。例如,參考圖6和圖10,設(shè)備300可以包括根據(jù)本發(fā)明的另一示例的音頻-視覺源跟蹤系統(tǒng)830。與跟蹤系統(tǒng)330類似,跟蹤系統(tǒng)830 (或者音頻-視覺優(yōu)化系統(tǒng)) 包括兩個(gè)相機(jī)332和三個(gè)麥克風(fēng)334。類似地,系統(tǒng)830被配置成通過將音頻敏感度調(diào)整為朝向人臉的方向而優(yōu)化設(shè)備的音頻采集。如上所述,音頻-視覺優(yōu)化系統(tǒng)830允許對相對于用戶嘴部的聲束定向進(jìn)行估計(jì)。系統(tǒng)830在無需將麥克風(fēng)陣列位置限制在一個(gè)或多個(gè)相機(jī)附近的情況下,在有多個(gè)通話者的情況中提供經(jīng)優(yōu)化的通信音頻視覺質(zhì)量。當(dāng)麥克風(fēng)陣列不接近相機(jī)時(shí),檢測到的臉部相對于麥克風(fēng)陣列的方向可能不再與該臉部相對于相機(jī)光心的方向相同(或者接近)。如圖7中所示(以及上文所討論),示出了在其中麥克風(fēng)陣列334被置于距相機(jī)的距離380處并且通過立體視覺使用兩個(gè)相機(jī)332 估計(jì)深度信息的情況。在這樣的情況中,在沒有深度信息的知識(shí)的情況下,或者換言之在沒有3D空間中的臉部位置的知識(shí)的情況下,可能無法確定用戶40的臉部(或者嘴部38)相對于麥克風(fēng)陣列334的方向。音頻-視覺優(yōu)化系統(tǒng)830的兩個(gè)相機(jī)332允許基于由每個(gè)相機(jī)所采集的圖像中的臉部相對位置來進(jìn)行對深度(或者深度信息)的估計(jì)(見圖7)。距離 380越大,確定關(guān)于臉部的深度信息就越重要,以便估計(jì)相對于麥克風(fēng)陣列的臉部定向。應(yīng)當(dāng)注意的是,在替代實(shí)施方式中,可以提供兩個(gè)以上的相機(jī)332。此外,在其它實(shí)施方式中, 在假設(shè)已知典型的臉部尺寸的知識(shí)的情況下,可以通過分析采集到的圖像中的臉部尺寸而提供使用單個(gè)相機(jī)的深度估計(jì)。本發(fā)明的各種實(shí)施方式可以提供可移動(dòng)相機(jī)鏡頭/光學(xué)器件,所述鏡頭/光學(xué)器件由麥克風(fēng)陣列在一定靈活度內(nèi)控制和調(diào)向,這提供了改善的視角靈活性。此外,可以伴隨語音/視頻通話、視頻錄制或者其它相關(guān)使用情況而利用本發(fā)明的實(shí)施方式。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,系統(tǒng)730、830包括兩個(gè)可運(yùn)行在不同線程中的進(jìn)程。這兩個(gè)進(jìn)程可通過“臉部位置表(FPT)”1000進(jìn)行通信(見圖12)。FPT 1000可由一個(gè)進(jìn)程更新,并由另一進(jìn)程讀取。FPT中的每個(gè)行1002對應(yīng)于一張檢測到的臉,并且包括該臉部在3D空間中的位置。第一進(jìn)程可以是“臉部跟蹤器(FT)”進(jìn)程1100,而第二進(jìn)程可以是 “音頻-視覺優(yōu)化器(AVO) ”進(jìn)程1200。圖12示出了本發(fā)明的使用所述兩個(gè)進(jìn)程(“臉部跟蹤器” 1100和“音頻-視覺優(yōu)化器” 1200)的一個(gè)實(shí)施方式的示意圖,所述兩個(gè)進(jìn)程運(yùn)行在不同線程中,并且通過包含該場景中所檢測到的每張臉的位置的表(“臉部位置表”)1000 進(jìn)行通信。FT進(jìn)程1100可被配置成連續(xù)檢測視頻流中的臉并且在FPT 1000中更新它們的位置。AVO進(jìn)程1200可被配置成掃描FPT 1000中的臉部位置,檢測活躍通話者的臉部,并優(yōu)化(來自FT進(jìn)程1100的)對應(yīng)的方向/位置中的音頻視覺檢測。現(xiàn)在還參考圖13,可以提供一種運(yùn)行在FT進(jìn)程1100中的算法1102來針對每個(gè)相機(jī)執(zhí)行以下步驟。采集圖像幀(步驟1104)?;诶缒w色方法來檢測該圖像幀中所有臉的位置(步驟1106)。以檢測到的臉在所述圖像中從左至右并且自上而下的位置順序來標(biāo)記所述檢測到的臉(步驟1108)。一般而言,每張真實(shí)的臉在所有相機(jī)中都將具有相同的標(biāo)記。此外,可以為每個(gè)相機(jī)提供步驟1104-步驟1108中的各個(gè)步驟?;谄湓诓煌鄼C(jī)幀中的相對位置來估計(jì)深度(步驟1110)。用新的臉部位置來更新FPT表1000(步驟1112)。 移至步驟1104??梢詾槊總€(gè)臉部標(biāo)記提供步驟1108、步驟1110中的各個(gè)步驟?,F(xiàn)在還參考圖14,可以提供一種運(yùn)行在AVO進(jìn)程1200中(并且假設(shè)在FPT表1000 中存在K張臉)的算法1202來執(zhí)行以下步驟。將麥克風(fēng)陣列敏感度聲束調(diào)整為朝向來自 FPT表1000的第一張臉(步驟1204)。如果音頻水平高于閾值(步驟1206),則調(diào)節(jié)針對當(dāng)前臉部區(qū)域的相機(jī)自動(dòng)曝光(步驟1208)、調(diào)節(jié)針對當(dāng)前臉部區(qū)域的相機(jī)自動(dòng)對焦(步驟 1210),并返回步驟1206。否則(如果音頻水平不高于閾值),則將麥克風(fēng)陣列敏感度聲束調(diào)整為朝向來自FPT表的下一張臉(步驟1212),并且返回步驟1206。圖15示出了一種方法1300。該方法1300包括以下步驟。使用一種裝置的相機(jī)采集圖像(步驟130 。確定該圖像的一部分的第一位置(步驟1304)。采集對應(yīng)于該第一位置的音頻信息(步驟1306)。至少部分地響應(yīng)于采集到的音頻信息來控制所述相機(jī)的參數(shù)(步驟1308)。根據(jù)本發(fā)明的各種示例性實(shí)施方式,公開了一種用于改善的音頻-視覺通信的方法。本發(fā)明的實(shí)施方式涉及在存在多個(gè)參與者時(shí)的一般通信方案(舉例而言,比如視頻通話、視頻錄制)中同時(shí)優(yōu)化關(guān)于活躍通話者的音頻和視頻(采集)質(zhì)量。本發(fā)明的實(shí)施方式提供這樣一種方法該方法標(biāo)識(shí)多個(gè)通話者群組內(nèi)的活躍通話者,并且相應(yīng)地更新視覺參數(shù)。具有麥克風(fēng)(音頻)和相機(jī)(視頻)的常規(guī)設(shè)備配置一般被獨(dú)立地考慮,并且該情境限于兩個(gè)領(lǐng)域(音頻和視頻)相互聯(lián)系的情況。單獨(dú)地(獨(dú)立地)考慮麥克風(fēng)和相機(jī), 可能會(huì)限制分別在音頻和視頻質(zhì)量中可能實(shí)現(xiàn)的技術(shù)效果。本發(fā)明的各種實(shí)施方式提供了對兩種類型的傳感器(麥克風(fēng)和相機(jī))所采集到的信息的結(jié)合,以提高彼此的質(zhì)量。例如, 常規(guī)配置一般利用改進(jìn)的相機(jī)、鏡頭和軟件支持來僅僅改善成像和視頻錄制。然而,這些改善一般被采用在較窄的范圍或應(yīng)用類別內(nèi)。本發(fā)明的實(shí)施方式因此提高質(zhì)量,并且創(chuàng)造了將改進(jìn)的技術(shù)適配于移動(dòng)電話設(shè)備中的機(jī)會(huì)。在一般音頻視覺通信方案(比如視頻會(huì)議或者其他視頻電話設(shè)置)中,處于一個(gè)
13位置的一個(gè)或多個(gè)通話者通過音頻和視頻信號(hào)與處于另一位置的一個(gè)或多個(gè)通話者通信。 在一種簡單的常規(guī)設(shè)置中,在每個(gè)位置的一個(gè)相機(jī)和一個(gè)麥克風(fēng)似乎就足以實(shí)現(xiàn)這一通信方案。然而,由于視頻質(zhì)量一般取決于對所有通話者而言可能并不一定都是最佳的相機(jī)設(shè)置(例如,活躍通話者可能不在焦點(diǎn),或者處于現(xiàn)場的非常暗/亮的區(qū)域之中,使得相機(jī)無法正確采集圖像),因而可能出現(xiàn)各種技術(shù)問題。此外,存在于一個(gè)位置的背景噪聲可能會(huì)干擾來自活躍通話者方向的音頻信號(hào)。另外,相機(jī)和麥克風(fēng)可能未被放置在空間上靠近的位置處,使得活躍通話者相對于麥克風(fēng)陣列的方向在沒有3D空間中臉部位置的知識(shí)的情況下可能無法確定出來。相應(yīng)地,本發(fā)明的實(shí)施方式可以減輕由常規(guī)配置所造成的上述各種技術(shù)問題。根據(jù)本發(fā)明的各種實(shí)施方式,音頻和視覺組件可以提供視頻檢測和人臉跟蹤;控制麥克風(fēng)陣列的定向敏感度,用于定向音頻采集(自適應(yīng)聲束成形);以及立體成像,用以采集針對 (圖像中的)物體的(相對于相機(jī)的)深度信息。如上所述,音頻和視覺組件可以包括至少一個(gè)視頻相機(jī),其采集用戶臉部的圖像;以及麥克風(fēng)陣列,其被配置成采集用戶的語音(其中麥克風(fēng)陣列無需被置于一個(gè)或多個(gè)相機(jī)附近)。麥克風(fēng)陣列可以包括至少3個(gè)被配置用于對麥克風(fēng)陣列進(jìn)行二維OD)聲束調(diào)向的麥克風(fēng)(例如,其可以是全向麥克風(fēng))。當(dāng)麥克風(fēng)陣列與相機(jī)之間的距離增大時(shí),所述至少一個(gè)視頻相機(jī)可以包括多個(gè)相機(jī)。然而,可以提供任何適當(dāng)?shù)囊纛l/視覺組件配置。本發(fā)明的實(shí)施方式在具有一個(gè)或多個(gè)參與者并且/或者在嘈雜環(huán)境中的免提語音和/或視頻通話期間提供改進(jìn)的音頻和視頻采集質(zhì)量。本發(fā)明的實(shí)施方式提供了分別針對音頻數(shù)據(jù)和視覺數(shù)據(jù)的優(yōu)化,并因此提高了許多用例(舉例而言,比如視頻通話、視頻錄制情況)的質(zhì)量。本發(fā)明的實(shí)施方式提供了一種用于標(biāo)識(shí)多通話者群組內(nèi)的通話者并且更新視覺參數(shù)的方法。系統(tǒng)通過一個(gè)或多個(gè)相機(jī)來檢測/跟蹤臉的位置,通過麥克風(fēng)陣列的幫助來檢測活躍通話者,并且使用最佳檢測來優(yōu)化視覺信息。本發(fā)明的各種實(shí)施方式可適用于靜默情況,并且還可以適用于多通話者群組。本發(fā)明的實(shí)施方式還可以包括由麥克風(fēng)陣列控制的可移動(dòng)相機(jī)鏡頭/光學(xué)器件,這樣可以產(chǎn)生針對視角的提高的靈活性。本發(fā)明的示例提供了改善的配置,其通過優(yōu)化針對每個(gè)時(shí)刻的活躍通話者的視頻參數(shù)(曝光、對焦)而允許在不同的位置和照明條件的情況下的增強(qiáng)的音頻/視頻采集。此外,本發(fā)明的一些實(shí)施方式可在講話停頓期間實(shí)現(xiàn)通話者跟蹤,因?yàn)樗揽繉梢姮F(xiàn)場中出現(xiàn)的所有臉部的連續(xù)視頻跟蹤。另外,本發(fā)明的實(shí)施方式可以增強(qiáng)視頻錄制和電視電話會(huì)議語音通話,以及與音頻數(shù)據(jù)和視覺數(shù)據(jù)二者相關(guān)的質(zhì)量。根據(jù)本發(fā)明的一個(gè)示例,公開了一種裝置。該裝置包括以下元件。殼體。處于該殼體中的電子電路。包括第一視頻相機(jī)和麥克風(fēng)陣列的音頻-視覺源跟蹤系統(tǒng),其中第一視頻相機(jī)和麥克風(fēng)陣列附接至殼體,其中音頻-視覺源跟蹤系統(tǒng)被配置成從第一視頻相機(jī)接收視頻信息,并且其中音頻-視覺源跟蹤系統(tǒng)被配置成至少部分地響應(yīng)于所述視頻信息而從麥克風(fēng)陣列采集音頻信息。根據(jù)本發(fā)明的另一示例,公開了一種機(jī)器可讀的程序存儲(chǔ)設(shè)備。該程序存儲(chǔ)設(shè)備有形地體現(xiàn)指令程序,該指令程序可由機(jī)器執(zhí)行用于進(jìn)行操作,以感測音頻信號(hào)。該程序存儲(chǔ)設(shè)備可以進(jìn)行以下操作。分析圖像的一部分。計(jì)算與所述圖像的所述部分相對應(yīng)的方向,其中該方向是相對于一種裝置的。至少部分地基于計(jì)算的方向而導(dǎo)引所述裝置的麥克風(fēng)陣列。根據(jù)本發(fā)明的又一示例,公開了一種裝置。該裝置包括殼體、電子電路和音頻-視覺優(yōu)化系統(tǒng)。電子電路位于殼體中。音頻-視覺優(yōu)化系統(tǒng)包括第一視頻相機(jī)和麥克風(fēng)陣列。所述第一視頻相機(jī)和麥克風(fēng)陣列附接至殼體。第一視頻相機(jī)包括至少一個(gè)可調(diào)參數(shù)。 音頻-視覺優(yōu)化系統(tǒng)被配置成從麥克風(fēng)陣列接收音頻信息。音頻-視覺優(yōu)化系統(tǒng)被配置成至少部分地響應(yīng)于所述音頻信息而調(diào)節(jié)第一視頻相機(jī)的所述至少一個(gè)可調(diào)參數(shù)。根據(jù)本發(fā)明的另一示例,公開了一種機(jī)器可讀的程序存儲(chǔ)設(shè)備。公開了有形地實(shí)現(xiàn)可由機(jī)器為了進(jìn)行采集音頻-視覺信息的操作而執(zhí)行的指令程序的程序存儲(chǔ)設(shè)備。調(diào)整一種設(shè)備的麥克風(fēng)陣列。評(píng)估由該麥克風(fēng)陣列所接收到的音頻信息。至少部分地基于經(jīng)評(píng)估的音頻信息來調(diào)節(jié)所述設(shè)備的相機(jī)參數(shù)。應(yīng)當(dāng)理解,本發(fā)明的組件可以可操作地耦合或連接,并且可以存在任何數(shù)量的介于中間的元件及其任何組合(包括無介于中間的元件)。連接可以是直接的或間接的,并且此外組件之間可以僅具有功能上的關(guān)系。應(yīng)當(dāng)理解,前文的描述僅僅是對本發(fā)明的示例說明。本領(lǐng)域中技術(shù)人員可在不背離本發(fā)明的情況下設(shè)計(jì)出各種替代和修改。因此,本發(fā)明旨在囊括處于隨附權(quán)利要求書范圍內(nèi)的所有這樣的替代、修改和變動(dòng)。
權(quán)利要求
1.一種裝置,其包括殼體;位于所述殼體中的電子電路;以及包括第一視頻相機(jī)和麥克風(fēng)陣列的音頻-視覺源跟蹤系統(tǒng),其中所述第一視頻相機(jī)和所述麥克風(fēng)陣列附接至所述殼體,其中所述音頻-視覺源跟蹤系統(tǒng)被配置成從所述第一視頻相機(jī)接收視頻信息,并且其中所述音頻-視覺源跟蹤系統(tǒng)被配置成至少部分地響應(yīng)于所述視頻信息而從所述麥克風(fēng)陣列采集音頻信息。
2.根據(jù)權(quán)利要求1所述的裝置,其中所述麥克風(fēng)陣列靠近所述第一視頻相機(jī)。
3.根據(jù)權(quán)利要求1或者2所述的裝置,其中所述麥克風(fēng)陣列包括至少三個(gè)麥克風(fēng)。
4.根據(jù)權(quán)利要求1-3中的任意項(xiàng)所述的裝置,其中所述音頻-視覺源跟蹤系統(tǒng)被配置成至少部分地響應(yīng)于所述視頻信息來調(diào)節(jié)和導(dǎo)引所述麥克風(fēng)陣列的敏感度。
5.根據(jù)權(quán)利要求1-4中的任意項(xiàng)所述的裝置,其中所述音頻-視覺源跟蹤系統(tǒng)被配置成從所述第一視頻相機(jī)接收與所述裝置的用戶相對應(yīng)的視頻信息。
6.根據(jù)權(quán)利要求1-5中的任意項(xiàng)所述的裝置,其中所述裝置包括移動(dòng)手持機(jī)。
7.根據(jù)權(quán)利要求1-6中的任意項(xiàng)所述的裝置,其中所述音頻-視覺源跟蹤系統(tǒng)被配置成至少部分地響應(yīng)于所述裝置的用戶的定向來采集所述用戶的語音。
8.根據(jù)權(quán)利要求1-7中的任意項(xiàng)所述的裝置,其中所述第一視頻相機(jī)被配置成朝所述裝置的用戶定向。
9.根據(jù)權(quán)利要求1-8中的任意項(xiàng)所述的裝置,其中所述麥克風(fēng)陣列圍繞所述第一視頻相機(jī)。
10.根據(jù)權(quán)利要求1-9中的任意項(xiàng)所述的裝置,其還包括第二視頻相機(jī),其中所述第一視頻相機(jī)和第二視頻相機(jī)被配置用以估計(jì)所述麥克風(fēng)陣列的聲束定向。
11.一種方法,其包括提供殼體;在所述殼體中安裝電子電路;并且在所述殼體附近提供跟蹤系統(tǒng),其中所述跟蹤系統(tǒng)包括第一視頻相機(jī)和麥克風(fēng)陣列, 其中所述第一視頻相機(jī)附接至所述殼體,其中所述麥克風(fēng)陣列在所述第一視頻相機(jī)附近, 其中所述跟蹤系統(tǒng)被配置成從所述第一視頻相機(jī)接收視頻信號(hào),并且其中所述跟蹤系統(tǒng)被配置成至少部分地響應(yīng)于所述視頻信號(hào)而從所述麥克風(fēng)采集音頻信號(hào)。
12.根據(jù)權(quán)利要求11所述的方法,其中所述麥克風(fēng)陣列包括至少三個(gè)麥克風(fēng)。
13.根據(jù)權(quán)利要求11或者12所述的方法,其中所述提供所述跟蹤系統(tǒng)還包括提供臉部檢測系統(tǒng),該臉部檢測系統(tǒng)被配置成至少部分地基于檢測到的用戶臉部來調(diào)節(jié)和導(dǎo)引所述麥克風(fēng)陣列的敏感度。
14.根據(jù)權(quán)利要求11-13中的任意項(xiàng)所述的方法,其中所述提供所述跟蹤系統(tǒng)還包括在所述第一視頻相機(jī)周圍附接所述麥克風(fēng)陣列。
15.根據(jù)權(quán)利要求11-14中的任意項(xiàng)所述的方法,其中所述殼體構(gòu)成一種裝置的一部分,并且其中所述提供所述跟蹤系統(tǒng)還包括將所述第一視頻相機(jī)定向?yàn)槌蛩鲅b置的用戶。
16.根據(jù)權(quán)利要求11-15中的任意項(xiàng)所述的方法,其中所述提供所述跟蹤系統(tǒng)還包括提供第二視頻相機(jī),其中所述第一視頻相機(jī)和所述第二視頻相機(jī)被配置用于估計(jì)針對所述麥克風(fēng)的聲束定向。
17.一種方法,其包括使用一種裝置的相機(jī)采集第一圖像;確定所述第一圖像的一部分相對于所述裝置的麥克風(fēng)陣列的方向;以及至少部分地基于所述第一圖像的所述部分的所述方向來控制所述麥克風(fēng)陣列的預(yù)定特性。
18.根據(jù)權(quán)利要求17所述的方法,其中所述控制所述麥克風(fēng)陣列的所述預(yù)定特性還包括控制所述麥克風(fēng)的敏感度。
19.根據(jù)權(quán)利要求17或者18所述的方法,其中所述確定所述第一圖像的所述部分的所述方向還包括在所述第一圖像中檢測所述裝置的用戶的臉部。
20.根據(jù)權(quán)利要求17-19中的任意項(xiàng)所述的方法,其中所述采集所述第一圖像還包括采集所述裝置的用戶的圖像,并且其中所述確定所述圖像的所述部分的所述方向還包括確定所述用戶的頭部方向。
21.根據(jù)權(quán)利要求20所述的方法,其中所述控制所述麥克風(fēng)陣列的所述預(yù)定特性還包括至少部分地基于所述確定的頭部方向來控制麥克風(fēng)陣列的預(yù)定特性。
22.根據(jù)權(quán)利要求21所述的方法,其中所述控制所述麥克風(fēng)陣列的所述預(yù)定特性還包括至少部分地基于所述確定的頭部方向來調(diào)節(jié)和導(dǎo)引所述麥克風(fēng)陣列的敏感度。
23.根據(jù)權(quán)利要求17-19中的任意項(xiàng)所述的方法,其還包括使用所述裝置的所述相機(jī)采集第二圖像;以及至少部分地基于所述第一圖像的所述部分的所述確定的方向來確定另一圖像的一部分的方向。
24.一種機(jī)器可讀的程序存儲(chǔ)設(shè)備,其有形地體現(xiàn)指令程序,該指令程序可由所述機(jī)器運(yùn)行用于進(jìn)行操作,以感測音頻信號(hào),所述操作包括分析圖像的一部分;計(jì)算與所述圖像的所述部分相對應(yīng)的方向,其中所述方向是相對于一種裝置的;以及至少部分地基于計(jì)算的方向從所述裝置導(dǎo)引麥克風(fēng)陣列。
25.根據(jù)權(quán)利要求M所述的程序存儲(chǔ)設(shè)備,其中所述導(dǎo)引所述麥克風(fēng)陣列還包括導(dǎo)引所述麥克風(fēng)陣列的聲束。
26.根據(jù)權(quán)利要求M或者25所述的程序存儲(chǔ)設(shè)備,其中所述計(jì)算與所述圖像的所述部分相對應(yīng)的所述方向還包括計(jì)算被采集于所述圖像中的所述裝置的用戶的嘴部的位置。
27.一種裝置,其包括殼體;位于所述殼體之中的電子電路;以及包括第一視頻相機(jī)和麥克風(fēng)陣列的音頻-視覺優(yōu)化系統(tǒng),其中所述第一視頻相機(jī)和所述麥克風(fēng)陣列附接至所述殼體,其中所述第一視頻相機(jī)包括至少一個(gè)可調(diào)參數(shù),其中所述音頻-視覺優(yōu)化系統(tǒng)被配置成從所述麥克風(fēng)陣列接收音頻信息,并且其中所述音頻-視覺優(yōu)化系統(tǒng)被配置成至少部分地響應(yīng)于所述音頻信息來調(diào)節(jié)所述第一視頻相機(jī)的所述至少一個(gè)可調(diào)參數(shù)。
28.根據(jù)權(quán)利要求27所述的裝置,其中所述至少一個(gè)可調(diào)參數(shù)包括自動(dòng)對焦參數(shù)。
29.根據(jù)權(quán)利要求27或者觀所述的裝置,其中所述至少一個(gè)可調(diào)參數(shù)包括自動(dòng)曝光參數(shù)。
30.根據(jù)權(quán)利要求27-29中的任意項(xiàng)所述的裝置,其中所述麥克風(fēng)陣列被配置用于麥克風(fēng)陣列聲束調(diào)向。
31.根據(jù)權(quán)利要求27-30中的任意項(xiàng)所述的裝置,其中所述麥克風(fēng)陣列包括至少三個(gè)麥克風(fēng)。
32.根據(jù)權(quán)利要求27-31中的任意項(xiàng)所述的裝置,其中所述音頻-視覺優(yōu)化系統(tǒng)還包括第二視頻相機(jī)。
33.根據(jù)權(quán)利要求32所述的裝置,其中所述第一視頻相機(jī)和所述第二視頻相機(jī)與所述麥克風(fēng)陣列間隔開來。
34.根據(jù)權(quán)利要求32或者33所述的裝置,其中所述第一視頻相機(jī)和所述第二視頻相機(jī)被配置用于估計(jì)深度信息。
35.一種方法,其包括使用一種裝置的相機(jī)采集圖像;確定所述圖像的一部分的第一位置;采集與所述第一位置相對應(yīng)的音頻信息;以及至少部分地響應(yīng)于采集到的音頻信息來控制所述相機(jī)的參數(shù)。
36.根據(jù)權(quán)利要求35所述的方法,其中所述控制所述參數(shù)還包括控制所述相機(jī)的曝光和/或?qū)箙?shù)。
37.根據(jù)權(quán)利要求35或者36所述的方法,其中所述采集所述音頻信息還包括調(diào)節(jié)麥克風(fēng)陣列的敏感度。
38.根據(jù)權(quán)利要求37所述的方法,其還包括從第一用戶到第二用戶連續(xù)調(diào)節(jié)所述麥克風(fēng)陣列的敏感度。
39.一種機(jī)器可讀的程序存儲(chǔ)設(shè)備,其有形地體現(xiàn)指令程序,該指令程序可由所述機(jī)器執(zhí)行用于進(jìn)行操作,以采集音頻-視覺信息,所述操作包括調(diào)整一種設(shè)備的麥克風(fēng)陣列;評(píng)估由所述麥克風(fēng)陣列所接收到的音頻信息;以及至少部分地基于經(jīng)評(píng)估的音頻信息來調(diào)節(jié)所述設(shè)備的相機(jī)參數(shù)。
40.根據(jù)權(quán)利要求39所述的程序存儲(chǔ)設(shè)備,其還包括 使用所述相機(jī)采集圖像幀;以及估計(jì)所述圖像的一部分相對于所述相機(jī)的深度。
41.根據(jù)權(quán)利要求39或者40所述的程序存儲(chǔ)設(shè)備,其還包括至少部分地基于第二不同的經(jīng)評(píng)估的音頻信息來調(diào)節(jié)所述設(shè)備的所述相機(jī)參數(shù)。
全文摘要
本文公開了一種裝置。該裝置包括殼體、電子電路以及音頻-視覺源跟蹤系統(tǒng)。電子電路位于殼體中。音頻-視覺源跟蹤系統(tǒng)包括第一視頻相機(jī)和麥克風(fēng)陣列。第一視頻相機(jī)和麥克風(fēng)陣列附接至殼體。音頻-視覺源跟蹤系統(tǒng)被配置成從第一視頻相機(jī)接收視頻信息。音頻-視覺源跟蹤系統(tǒng)被配置成至少部分地響應(yīng)于所述視頻信息而從麥克風(fēng)陣列采集音頻信息。音頻-視覺源跟蹤系統(tǒng)可以包括附接至殼體的第二視頻相機(jī),其中第一視頻相機(jī)和第二視頻相機(jī)一起估計(jì)麥克風(fēng)陣列的聲束定向。
文檔編號(hào)H04R29/00GK102160398SQ200880131153
公開日2011年8月17日 申請日期2008年11月26日 優(yōu)先權(quán)日2008年7月31日
發(fā)明者K·奧茨坎, M·K·韋維萊南, M·S·阿馬萊南, M·蒂科 申請人:諾基亞公司