具有多個語音跟蹤攝像機的視頻會議端點的制作方法

文檔序號：6424301閱讀：193來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：具有多個語音跟蹤攝像機的視頻會議端點的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及視頻會議。更具體地，本發(fā)明涉及視頻會議方法和設(shè)備。
背景技術(shù)：
一般來說，視頻會議中的攝像機拍攝裝進所有與會者的畫面。不幸的是，遠端與會者會失去視頻中的許多有價值的內(nèi)容，因為顯示在遠端的近端與會者的大小會很小。在一些情況下，遠端與會者不能看清近端與會者的面部表情，難以確定誰正在發(fā)言。這些問題使視頻會議具有難以使用的感覺，從而使與會者難以進行富有成效的會議。為了處理取景較差的問題，與會者不得不進行干預(yù)，執(zhí)行搖移、俯仰和推拉攝像機的一系列操作，以拍攝較好的畫面。正如所料，用遙控器人工指揮攝像機會不方便。有時，與會者實在不愿麻煩去調(diào)整攝像機的畫面，而只是使用默認的全景。當(dāng)然，當(dāng)與會者的確人工調(diào)整攝像機的畫面時，如果與會者在視頻會議期間改變位置，或者在后來的視頻會議中使用不同的座位安排，那么必須重復(fù)該過程。具有麥克風(fēng)陣列的語音跟蹤攝像機能夠在視頻會議期間，幫助把攝像機對著正在發(fā)言的與會者。盡管這些種類的攝像機非常有用，不過它們會遇到一些問題。例如，當(dāng)發(fā)言人轉(zhuǎn)身不再面對麥克風(fēng)時，語音跟蹤攝像機會失去發(fā)言人的蹤跡。在回音大的環(huán)境中，語音跟蹤攝像機可能對著反射點，而不是對著實際的聲源。當(dāng)發(fā)言人轉(zhuǎn)身不再面對攝像機時，或者當(dāng)發(fā)言人坐在會議桌的一端時，會產(chǎn)生典型的反射。如果反射足夠討厭，那么語音跟蹤攝像機會被引導(dǎo)成指向墻壁、會議桌或者其它表面，而不是指向?qū)嶋H的發(fā)言人。由于這些原因，在視頻會議期間，理想的是能夠根據(jù)會議環(huán)境，與會者的排列，和正在發(fā)言的人物，動態(tài)調(diào)整與會者的畫面。本發(fā)明的主題目的在于克服上述一個或多個問題，或者至少降低上述一個或多個問題的影響。

發(fā)明內(nèi)容
公開了實現(xiàn)自動視頻會議技術(shù)的方法，可編程存儲裝置和視頻會議設(shè)備。在一種技術(shù)中，端點的至少兩部攝像機按照適應(yīng)發(fā)言人的動態(tài)性質(zhì)的受控方式，拍攝環(huán)境中的與會者的視頻。例如，在端點的第一部攝像機用視頻會議環(huán)境的寬畫面拍攝第一視頻。當(dāng)與會者發(fā)言，從而在端點確定他們的位置時，在端點的第二部攝像機對著發(fā)言人位置，端點把視頻會議用輸出從用第一部攝像機拍攝的環(huán)境的寬畫面切換成用第二部攝像機拍攝的發(fā)言人的緊湊畫面。如果隨后另一位與會者開始發(fā)言，那么端點確定所述新發(fā)言人的位置。不過在把
5第二部攝像機對著新發(fā)言人的位置之前，端點把視頻會議用輸出從第二部攝像機的緊湊畫面切換成第一部攝像機的寬畫面。在輸出所述寬畫面的時候，把第二部攝像機對著新發(fā)言人的位置。一旦完成，端點就把視頻會議用輸出從第一部攝像機的寬畫面切換成用第二部攝像機拍攝的新發(fā)言人的緊湊畫面。各種技術(shù)，包括運動檢測，膚色(skin tone)檢測和面部識別被用于利用攝像機，使發(fā)言人進入緊湊畫面中。同樣地，端點能夠利用各種規(guī)則控制何時和是否切換視頻輸出，和是否進行了使第二部攝像機對著音源。在另一種技術(shù)中，用在端點的一部或多部攝像機拍攝的視頻被用于在視頻會議期間，自動用所述一部或多個攝像機的寬畫面和緊湊畫面對環(huán)境取景。例如，視頻會議環(huán)境的寬畫面可被分割成多個緊湊畫面。端點指揮第一部攝像機對拍攝的視頻和這些緊湊畫面中的每個畫面取景。隨后，端點通過分析每個緊湊畫面中用第一部攝像機拍攝的視頻，確定每個緊湊畫面的關(guān)聯(lián)性。每個緊湊畫面的關(guān)聯(lián)性可根據(jù)運動檢測，膚色檢測和面部識別來確定。一旦在該過程中確定了關(guān)聯(lián)的緊湊畫面，端點就確定由相關(guān)緊湊畫面定義的總的取景畫面。例如，取景畫面可由相關(guān)的最上面，最左邊和最右邊的緊湊畫面限制。這樣，能夠指揮相同的攝像機或者不同的攝像機對該取景畫面取景，從而能夠為視頻會議輸出取景合適的視頻。在又一種技術(shù)中，在視頻會議期間，端點利用話音識別來控制一部或多部攝像機。在這種技術(shù)中，視頻會議中的與會者的初始話音特性和視頻會議環(huán)境中的與會者的相關(guān)位置被保存一起。隨著視頻會議的進行，端點檢測表示話音的音頻，并確定所述檢測音頻的當(dāng)前話音特性。隨后使所述當(dāng)前話音特性與保存的話音特性之一匹配。通過獲得匹配的與會者的相關(guān)位置，端點使攝像機對著匹配的與會者的相關(guān)位置。這樣，端點不必僅僅依賴于端點及其麥克風(fēng)陣列的語音跟蹤能力。相反，與會者的話音特性可和通過所述語音跟蹤能力得到的來源位置保存在一起。從而，如果語音跟蹤失敗，或者不能定位來源，那么可以利用話音識別技術(shù)使攝像機對著發(fā)言人的位置。上面的概述并不意圖概括本發(fā)明的每個可能的實施例或者每個方面。

圖IA圖解說明按照本發(fā)明的一些教導(dǎo)的視頻會議端點。圖IB圖解說明圖IA的視頻會議端點的組件。圖1C-1E表示視頻會議端點的平面圖。圖2A表示按照本發(fā)明的端點用視頻會議裝置。圖2B-2D表示視頻會議裝置的備選結(jié)構(gòu)。圖3圖解說明圖2A-2D的視頻會議裝置的組件。圖4A圖解說明所公開端點的利用音頻和視頻處理的控制方案。圖4B圖解說明視頻會議期間，根據(jù)音頻線索處理視頻的判定過程。圖5圖解說明操作公開的具有至少兩部攝像機的端點的過程。圖6A-6B圖解說明利用公開的端點的麥克風(fēng)陣列，定位發(fā)言人的平面圖和側(cè)視圖。圖7A-7B是定位發(fā)言人時的聲能量與方位角的曲線圖。圖8A表示處理在麥克風(fēng)陣列捕捉的音頻中檢測到的話音和噪聲的過程。
圖8B表示按照本發(fā)明的處理話音和噪聲的瞬態(tài)信號檢測器的方框圖。圖8C表示用于處理話音和噪聲的搖移-俯仰坐標(biāo)的聚類。圖9A-9B圖解說明當(dāng)利用公開的端點定位發(fā)言人時的取景畫面。圖10圖解說明利用公開的端點，自動取景與會者的畫面的過程。圖11A-11C圖解說明確定用于自動取景的相關(guān)塊的各種過程。圖12A-12C圖解說明在用公開的端點的自動取景期間的各個畫面。圖13圖解說明為運動檢測而分析的各個塊。圖14圖解說明按照本發(fā)明的某些教導(dǎo)的另一個視頻會議端點。圖15表示用于發(fā)言人識別的數(shù)據(jù)庫表。圖16圖解說明利用公開的端點，在視頻會議期間識別發(fā)言人的過程。
具體實施例方式A.視頻會議端點圖IA中的視頻會議設(shè)備或端點10通過網(wǎng)絡(luò)12與一個或多個遠程端點14通信。在一些常見的組件之中，端點10具有帶有音頻編解碼器22的音頻模塊20，和帶有視頻編解碼器32的視頻模塊30。這些模塊20/30在操作上與控制模塊40和網(wǎng)絡(luò)模塊60耦接。在視頻會議期間，兩部或多部攝像機50A-B拍攝視頻，并把拍攝的視頻提供給視頻模塊30和編解碼器32，以便處理。另外，一個或多個麥克風(fēng)觀捕捉音頻，并把音頻提供給音頻模塊20和編解碼器22，以便處理。這些麥克風(fēng)觀可以是桌式麥克風(fēng)或吸頂式麥克風(fēng)，或者可以是麥克風(fēng)箱(microphone pod)等的一部分。端點10把利用這些麥克風(fēng)觀捕捉的音頻主要用于會議音頻。獨立地，具有正交排列的麥克風(fēng)62的麥克風(fēng)陣列60A-B也捕捉音頻，并把音頻提供給音頻模塊22，以便處理。最好，麥克風(fēng)陣列60A-B包括垂直排列和水平排列的麥克風(fēng) 62，以便在視頻會議期間確定音源的位置。于是，端點10把來自這些陣列60A-B的音頻主要用于攝像機跟蹤用途，而不是用于會議音頻，盡管它們的音頻可用于會議。在捕捉音頻和視頻之后，端點10利用任何普通的編碼標(biāo)準(zhǔn)，比如MPEG-I，MPEG_2， MPEG-4，H. 261, H. 263和H. 264對音頻和視頻編碼。隨后，網(wǎng)絡(luò)模塊70利用任何適當(dāng)?shù)膮f(xié)議，經(jīng)網(wǎng)絡(luò)12，把編碼的音頻和視頻輸出給遠程端點14。類似地，網(wǎng)絡(luò)模塊70通過網(wǎng)絡(luò) 12，從遠程端點14接收會議音頻和視頻，并把接收的會議音頻和視頻發(fā)給相應(yīng)的編解碼器 22/32，以便處理。最終，揚聲器沈輸出會議音頻，顯示器34輸出會議視頻。這些模塊和其它組件中的許多模塊和組件可按照本領(lǐng)域中公知的常規(guī)方式工作，從而這里不再提供更多的細節(jié)。與常規(guī)的安排相反，端點10按照自動和協(xié)調(diào)的方式使用兩部以上的攝像機 50A-B，動態(tài)地處理視頻會議環(huán)境的視頻和畫面。第一部攝像機50A可以是固定的或者房間畫面攝像機，第二部攝像機50B可以是受控的或者人物畫面攝像機。例如，通過利用房間畫面攝像機50A，端點10拍攝房間的視頻，或者至少拍攝房間的一般應(yīng)包括所有的視頻會議與會者以及一些周圍環(huán)境的寬畫面或拉遠的畫面。盡管被描述成固定的，不過實際上可通過搖移、俯仰和推拉，調(diào)整房間畫面攝像機50A，以控制其畫面和對環(huán)境取景。相反，端點10利用人物畫面攝像機50B，以緊湊的或者拉近的畫面拍攝一位或多位特定與會者，最好一位或多位當(dāng)前發(fā)言人的視頻。于是，人物畫面攝像機50B尤其能夠?qū)崿F(xiàn)搖移、俯仰和推拉。在一個實施例中，人物畫面攝像機50B是可操縱的云臺(PTZ)攝像機，而房間畫面攝像機50A是電子云臺(PTZ)攝像機。因而，人物畫面攝像機50B能夠被操縱，而房間畫面攝像機50A能夠用電子方式操作，以改變其取景方向，而不是可操縱的。不過，端點10 可以利用攝像機的其它安排和種類。事實上，攝像機50A-B都可以是可操縱的PTZ攝像機。此外，可在所述兩部可操縱的攝像機50A-B之間共享和更迭在寬畫面和推拉畫面之間的切換，以致當(dāng)合適時，一部攝像機拍攝寬畫面，而另一部攝像機拍攝拉近的畫面，反之亦然。對本發(fā)明來說，一部攝像機50A被稱為房間畫面攝像機50A，而另一部攝像機50B 被稱為人物畫面攝像機50B。盡管理想的是在發(fā)言人的緊湊畫面和房間的寬畫面之間交替，不過，可存在端點10能夠在相同或者不同發(fā)言人的兩個不同緊湊畫面之間交替的情形。為此，如前所述，最好具有都是可操縱的PTZ攝像機的兩部攝像機50A-B。于是，在另一種安排中，第一和第二攝像機50A-B可以都是受控的或者人物畫面攝像機，比如可操縱的PTZ攝像機。端點10能夠利用這些攝像機50A-B中的每部攝像機，以緊湊畫面或者拉近的畫面拍攝一位或多位特定與會者，最好一位或多位當(dāng)前發(fā)言人的視頻，以及在需要時提供房間的寬畫面或者拉遠的畫面。在一種實現(xiàn)中，在特意特定的時間端點10只輸出來自兩部攝像機50A-B之一的視頻。隨著視頻會議的進行，來自端點10的輸出視頻隨后能夠不時在房間畫面和人物畫面攝像機50A-B之間切換。通常，當(dāng)沒有與會者發(fā)言(或者操作質(zhì)量降低)時，系統(tǒng)10輸出來自房間畫面攝像機50A的視頻，當(dāng)一位或多位與會者在發(fā)言時，端點10輸出來自人物畫面攝像機50B的視頻。一種好處是這些攝像機畫面之間的切換使視頻會議的遠端可以注意到當(dāng)前發(fā)言人的拉近的畫面，同時仍然不時獲得會議室的寬畫面。作為備選方案，端點10能夠同時傳送來自兩部攝像機的視頻，端點10能夠使遠程端點76決定顯示哪個畫面，尤其是如果端點10發(fā)送選擇一個或另一個攝像機畫面的某些指令的話。在另一種備選方案中，端點10能夠同時傳送來自兩部攝像機的視頻，從而視頻圖像之一能夠被合成為另一個視頻圖像的畫中畫。例如，來自攝像機50B的人物畫面視頻能夠與來自攝像機50A的房間畫面合成，從而以畫中畫(PIP)格式被發(fā)給遠端。為了控制用這兩部攝像機50A-B拍攝的畫面，端點10利用基于音頻的定位器42 和基于視頻的定位器44來確定與會者的位置，及環(huán)境和與會者的取景畫面(frame view) 0 隨后，操作上與音頻和視頻模塊20/30耦接的控制模塊40利用來自這些定位器42/44的音頻和/或視頻信息，把攝像機命令發(fā)給攝像機50A和/或50B，以改變它們的定向和它們拍攝的畫面。對人物畫面攝像機50B來說，這些攝像機命令可由具有機械操縱攝像機50B的電動機、伺服系統(tǒng)等的致動器或本地控制單元52實現(xiàn)。對房間畫面攝像機50A來說，這些攝像機命令可被實現(xiàn)成將由攝像機50A處理的電子信號。為了確定使用哪部攝像機50A-B，以及如何構(gòu)成其畫面，控制模塊40利用從基于音頻的定位器42獲得的音頻信息，和/或從基于視頻的定位器44獲得的視頻信息。例如，并且如下更詳細所述，控制模塊40利用來自水平和垂直排列的麥克風(fēng)陣列M的，由基于音頻的定位器42處理的音頻信息?；谝纛l的定位器42利用話音檢測器43檢測來自陣列 24的捕捉音頻中的話音，隨后確定當(dāng)前發(fā)言人的位置?？刂颇K40隨后利用確定的位置操縱人物畫面攝像機50B對著該位置。同樣如下面更詳細所述，控制模塊40利用來自攝像機 50A-B的，由基于視頻的定位器44處理的視頻信息確定與會者的位置，以確定畫面的取景，和操縱人物畫面攝像機50B對著與會者。來自房間畫面攝像機50A的寬畫面可向人物畫面攝像機50B提供背景，并且可被這樣使用，以致當(dāng)人物畫面攝像機50B移向某位與會者時，遠端的與會者看不見來自人物畫面攝像機50B的畫面。另外，當(dāng)近端的多位與會者在發(fā)言時，或者當(dāng)人物畫面攝像機50B 正在移動，以對著多位發(fā)言人時，在遠端可以顯示寬畫面。當(dāng)需要時，可淡變和融合來自攝像機50A-B的兩個畫面之間的過渡，以避免當(dāng)切換攝像機畫面時的急劇切換。例如，當(dāng)使人物畫面攝像機50B移向發(fā)言人時，來自人物畫面攝像機50B的移動視頻最好不被傳給視頻會議的遠端。改為傳送來自房間畫面攝像機50A的視頻。不過，一旦人物畫面攝像機50B已恰當(dāng)?shù)貙Ξ?dāng)前發(fā)言人取景，端點10就切換來自攝像機50A-B的視頻。即使如此，端點10最好不是簡單地自動切換，以拍攝發(fā)言人的畫面。相反，攝像機變化最好被計時。一段時間內(nèi)過多的攝像機切換會使與會者分心。因此，端點10最好利用發(fā)言人的位置，發(fā)言人的語音特性，發(fā)言人的說話頻率等，跟蹤這些發(fā)言人。隨后，當(dāng)一位發(fā)言人開始發(fā)言人時，端點10能夠快速把人物畫面攝像機50B對著頻繁發(fā)言的發(fā)言人，不過端點10能夠避免或者延遲跳轉(zhuǎn)到僅僅答復(fù)以簡短的回答或評論的另一位發(fā)言人。盡管端點10最好在無用戶干預(yù)的情況下工作，不過端點10允許用戶干預(yù)和控制。于是，來自遠端和/或近端的攝像機命令可被用于控制攝像機50A-B。例如，與會者可確定當(dāng)無人發(fā)言時，顯示最佳的寬畫面。同時，當(dāng)視頻會議繼續(xù)進行時，動態(tài)攝像機命令可控制人物畫面攝像機50B。按照這種方式，端點10能夠自動控制由人物畫面攝像機50B提供的畫面。圖IB表示圖IA的視頻會議端點10的一些例證組合。如上面所示和所述，端點10 具有兩部以上的攝像機50A-B，和幾個麥克風(fēng)^/62A-B。除此之外，端點10具有都借助總線101耦接的處理單元100，網(wǎng)絡(luò)接口 102，存儲器104和通用輸入/輸出(I/O)接口 108。存儲器104可以是諸如SDRAM之類的常規(guī)存儲器，能夠保存用于控制端點10的成軟件和固件形式的模塊106。除了前面討論的視頻和音頻編解碼器及其它模塊之外，模塊 106可包括操作系統(tǒng)，使用戶能夠控制端點10的圖形用戶界面(GUI)，和如后所述，處理音頻/視頻信號和控制攝像機50A-B的算法。網(wǎng)絡(luò)接口 102提供端點10和遠程端點(未示出)之間的通信。相反，通用I/O接口 108向諸如鍵盤、鼠標(biāo)、打印機、高射投影機、顯示器、外部揚聲器、另外的攝像機、麥克風(fēng)箱之類的本地裝置提供數(shù)據(jù)傳輸。端點10還可包含內(nèi)部揚聲器沈。攝像機50A-B和麥克風(fēng)陣列60A-B分別在視頻會議環(huán)境中捕捉視頻和音頻，產(chǎn)生經(jīng)總線101傳給處理單元100的視頻信號和音頻信號。這里，處理單元100利用模塊106 中的算法，處理視頻和音頻。例如，端點10處理由麥克風(fēng)^/62A-B捕捉的音頻，以及由攝像機50A-B拍攝的視頻，以確定與會者的位置，和指引攝像機50A-B的畫面。最后，處理后的音頻和視頻可被發(fā)給與接口 102/108耦接的本地和遠程裝置。在圖IC的平面圖中，端點10的一種布置利用視頻會議裝置80，視頻會議裝置80 具有與之集成的麥克風(fēng)陣列60A-B和兩部攝像機50A-B。麥克風(fēng)箱觀可被放置在會議桌上，不過可以使用其它種類的麥克風(fēng)，比如吸頂式麥克風(fēng)，個人桌式麥克風(fēng)等等。麥克風(fēng)箱28與視頻會議裝置80通信連接，捕捉視頻會議的音頻。對裝置80來說，裝置80可被合并到顯示器和/或視頻會議單元(未示出)中，或者安裝在之上。圖ID表示端點10的另一種布置的平面圖。這里，端點10具有安裝在房間四周的幾個裝置80/81，并且具有在會議桌上的麥克風(fēng)箱觀。和前面一樣，一個主裝置80具有麥克風(fēng)陣列60A-B和兩部攝像機50A-B，并且可被合并到顯示器和/或視頻會議單元(未示出)中，或者安裝在之上。其它裝置81與主裝置81耦接，并可被布置在視頻會議環(huán)境的側(cè)輔助裝置81至少具有人物畫面攝像機50B，不過它們可以具有房間畫面攝像機 50A,麥克風(fēng)陣列60A-B，或者這兩者，從而能夠與主裝置80相同。不管怎樣，這里說明的音頻和視頻處理都能夠識別在該環(huán)境中，哪部人物畫面攝像機50B具有發(fā)言人的最佳畫面。隨后，可從在房間四周的人物畫面攝像機50B中，選擇對發(fā)言人來說最佳的人物畫面攝像機50B，以致正面畫面(或者最接近正面畫面的畫面)可被用于會議視頻。在圖IE中，端點10的另一種布置包括視頻會議裝置80和遠程發(fā)射器64。這種布置可用于跟蹤在演講期間移動的發(fā)言人。同樣地，裝置80具有攝像機50A-B和麥克風(fēng)陣列60A-B。不過在這種布置中，麥克風(fēng)陣列60A-B響應(yīng)從發(fā)射器64發(fā)出的超聲波，以跟蹤主持人。按照這種方式，當(dāng)主持人移動時，并且當(dāng)發(fā)射器64繼續(xù)發(fā)射超聲波時，裝置80能夠跟蹤主持人。除了超聲波之外，麥克風(fēng)陣列60A-B還能夠響應(yīng)語音，以致除了超聲波跟蹤之外，裝置80還能夠利用語音跟蹤。當(dāng)裝置80自動檢測到超聲波時，或者當(dāng)裝置80被人工配置，以便進行超聲波跟蹤時，裝置80能夠按照超聲波跟蹤模式工作。如圖所示，發(fā)射器64可以是由主持人佩戴的組件。發(fā)射器64可具有產(chǎn)生超聲波音調(diào)的一個或多個超聲換能器66，并且可具有集成的麥克風(fēng)68和射頻(RF)發(fā)射器67。使用時，當(dāng)集成的麥克風(fēng)68獲得主持人發(fā)言時，發(fā)射器單元64被啟動。另一方面，主持人可人工啟動發(fā)射器單元64，以致向RF單元97傳送RF信號，指示該特定主持人要被跟蹤。在美國專利公報No. 2008/0095401中公開了與基于超聲波的攝像機跟蹤有關(guān)的細節(jié)，該專利在此整體引為參考。B.視頻會議裝置在轉(zhuǎn)向視頻會議期間，端點10的操作之前，首先討論按照本發(fā)明的視頻會議裝置的細節(jié)。如圖2A中所示，視頻會議裝置80具有上面布置麥克風(fēng)62A的水平陣列60A的機架。從所述機架伸出的垂直陣列60B也具有幾個麥克風(fēng)62B。如圖所示，陣列60A-B都可具有三個麥克風(fēng)62A-B，不過任何一個陣列60A-B可具有數(shù)目與描述的數(shù)目不同的麥克風(fēng)。第一部攝像機50A是用來獲得視頻會議環(huán)境的寬畫面或拉遠的畫面的房間畫面攝像機。第二部攝像機50B是用來獲得視頻會議與會者的緊湊畫面或者拉近的畫面的人物畫面攝像機。這兩部攝像機50A-B被安裝在裝置80的機架上，可以與機架集成在一起。如果不是EPTZ攝像機的話，那么房間畫面攝像機50A具有可包括致動器的圖像處理組件52A。人物畫面攝像機50B也具有包括控制攝像機的搖移-俯仰-推拉操作的致動器的圖像處理組件52B。這些組件52A-B可在操作上與置于裝置80中的本地控制單元90耦接。對控制單元90來說，控制單元90可包括進行視頻會議的所有或部分必需組件，包括音頻和視頻模塊，網(wǎng)絡(luò)模塊，攝像機控制模塊等等。另一方面，所有或一些必需的視頻會議組件可被置于與裝置80耦接的獨立視頻會議單元95中。因而，裝置80可以是具有攝像機50A-B，麥克風(fēng)陣列60A-B和其它有關(guān)組件的獨立單元，而視頻會議單元95負責(zé)所有的視頻會議功能。當(dāng)然需要時，裝置80和單元95可被結(jié)合成一個單元。公開的如圖2B中所示的裝置80可具有一個集成的攝像機53，而不是具有如圖2A 的兩個以上的集成的攝像機50A-B。另一方面，如圖2C-2D中所示，裝置80可包括具有麥克風(fēng)陣列60A-B，通信端口(未示出)，和其它處理組件(未示出)的底座單元85。兩個以上的獨立的攝像機單元55A-B可連接到底座單元85，從而構(gòu)成裝置80 (圖2C)，或者一個獨立的攝像機單元陽可連接到底座單元85 (圖2D)。因此，底座單元85可擁有麥克風(fēng)陣列 60A-B和所有其它需要的電子和信號處理組件，并且通過利用適當(dāng)形式的附件，能夠支持一個或多個攝像機單元55。盡管裝置80被表示成具有被設(shè)置成彼此相鄰的兩部攝像機50A-B，不過攝像機 50A和/或50B可以完全與裝置80分離，并連接到機架的輸入端。另外，裝置80可被配置成支持另外的攝像機，而不僅僅是兩部攝像機。這樣，用戶能夠安裝能夠與裝置80無線連接并被布置在房間四周的其它攝像機，以致裝置80總是能夠選擇發(fā)言人的最佳畫面。圖3簡要表示可為圖2A-2D的裝置80的一部分的一些例證組件。如圖所示，裝置 80包括麥克風(fēng)陣列60A-B，控制處理器110，現(xiàn)場可編程門陣列(FPGA) 120，音頻處理器130 和視頻處理器140。如前所述，裝置80可以是具有與之集成的兩部以上的攝像機50A-B的集成單元(參見圖2A)，或者這些攝像機50A-B可以是具有它們自己的組件并且連接到裝置的底座單元的獨立單元(參見圖2C)。另外，裝置80可具有一個集成的攝像機(53 ；圖2B)，或者一個獨立的攝像機(55 ；圖2D)。工作期間，F(xiàn)PGA 120捕捉來自攝像機50A-B的視頻輸入，產(chǎn)生給視頻會議單元95 的輸出視頻，并把輸入視頻發(fā)給視頻處理器140。FPGA120還可比例縮放和合成視頻和圖形覆蓋圖?？梢允菙?shù)字信號處理器的音頻處理器130捕捉來自麥克風(fēng)陣列60A-B的音頻，并進行音頻處理，包括回聲消除，音頻濾波，和來源跟蹤。音頻處理器130還負責(zé)切換攝像機畫面，檢測會話模式，和這里公開的其它用途的規(guī)則。也可以是數(shù)字信號處理器(DSP)的視頻處理器140捕捉來自FPGA120的視頻，并負責(zé)運動檢測，面部檢測和其它視頻處理，以幫助跟蹤發(fā)言人。如下更詳細所述，例如，視頻處理器140可對從人物畫面攝像機50B捕捉的視頻執(zhí)行運動檢測算法，以檢查由發(fā)言人跟蹤算法找到的候選發(fā)言人位置的當(dāng)前畫面中的運動。這可避免使攝像機50B對著源自墻壁、會議桌等的反射。另外，視頻處理器140可利用面部尋找算法，通過確認確實構(gòu)成具有人臉的畫面的候選發(fā)言人位置，進一步提高跟蹤準(zhǔn)確性。可以是通用處理器(GPP)的控制處理器110負責(zé)與視頻會議單元95的通信，并負責(zé)裝置80的攝像機控制和全部系統(tǒng)控制。例如，控制處理器110控制照相機的組件的搖移-俯仰-推拉通信，并且控制FPGA 120進行的攝像機切換。C.控制方案在了解上面說明的視頻會議端點和組件的情況下，下面討論公開的端點10的操作。首先，圖4A表示公開的端點10用于進行視頻會議的控制方案150。如前所述，在視頻會議期間，控制方案150利用視頻處理160和音頻處理170控制攝像機50A-B的操作。處理160和170可以單獨進行，或者結(jié)合在一起進行，以增強端點10的操作。盡管在下面進行了簡要說明，不過各種音頻和視頻處理技術(shù)中的幾種技術(shù)將在后面更詳細地討論。
簡要地，視頻處理160可利用離攝像機50A-B的焦距來確定到與會者的距離，并且可以利用以顏色，運動和面部識別為基礎(chǔ)的基于視頻的技術(shù)來跟蹤與會者。于是如圖所示，視頻處理160可以利用運動檢測，膚色檢測，面部檢測和其它算法來處理攝像機50A-B的視頻和控制操作。在視頻處理160中，還能夠利用在視頻會議期間獲得的記錄信息的歷史數(shù)據(jù)。對音頻處理170來說，音頻處理170利用借助麥克風(fēng)陣列60A-B的話音跟蹤。為了提高跟蹤準(zhǔn)確性，音頻處理170能夠利用本領(lǐng)域中已知的許多濾波操作。例如，當(dāng)進行話音跟蹤時，音頻處理170最好進行回聲消除，以致不會因端點的揚聲器仿佛是主發(fā)言人似地拾取來自所述揚聲器的耦合聲音。音頻處理170還利用濾波從語音跟蹤中消除非語音音頻，和忽略源于反射的較大聲音頻。音頻處理170可以利用來自另外的音頻線索的處理，比如利用桌面麥克風(fēng)元件或麥克風(fēng)箱08 ；圖1)。例如，音頻處理170能夠進行語音識別，以識別發(fā)言人的語音，并且能夠確定視頻會議期間話音中的會話模式。在另一個例子中，音頻處理170能夠從獨立的麥克風(fēng)箱08)獲得音源的方向(即，搖移)，并將其與借助麥克風(fēng)陣列60A-B獲得的位置信息結(jié)合。由于麥克風(fēng)箱08)可具有沿著不同方向布置的幾個麥克風(fēng)，因此能夠確定音源相對于這些方向的位置。當(dāng)某位與會者最初發(fā)言時，麥克風(fēng)箱08)能夠獲得該與會者相對于麥克風(fēng)箱 (28)的方向。在映射表等中，所述方向可被映射到利用陣列(60A-B)獲得的與會者的位置。在稍后某一時候，只有麥克風(fēng)箱08)可檢測到當(dāng)前發(fā)言人，以致只能獲得其方向信息。不過，根據(jù)映射表，端點10能夠利用映射信息定位當(dāng)前發(fā)言人的位置(搖移，俯仰，推拉坐標(biāo))，以便利用攝像機對該發(fā)言人取景。D.操作概述在給出該概括的控制方案的情況下，下面討論圖4B中的，所公開端點在視頻會議期間的操作的更詳細過程180。當(dāng)開始視頻會議時，端點10捕捉視頻(方框182)，并輸出視頻會議中的包含物的當(dāng)前畫面(方框184)。一般來說，在視頻會議開始時，房間畫面攝像機50A對房間取景，最好調(diào)整房間畫面攝像機50A的搖移，俯仰和推拉，以包括所有與會者 (如果可能的話)。隨著視頻會議的進行，端點10監(jiān)控關(guān)于幾個發(fā)生的事情之一的捕捉音頻(方框 186)。當(dāng)這樣做時，端點10利用各種判定和規(guī)則來管理端點10的行為，和確定哪部攝像機 50A-B為會議視頻進行輸出。對于給定的實現(xiàn)，可按照任意特定的方式安排和構(gòu)成所述各種判定和規(guī)則。由于一種判定會影響另一種判定，一種規(guī)則會影響另一種規(guī)則，因此可不同于圖4B中所述地安排所述判定和規(guī)則。1. 一位發(fā)言人在視頻會議中的某一時刻，房間中的近端與會者之一開始發(fā)言，端點10確定有一位明確的發(fā)言人(判定190)。如果有一位發(fā)言人，那么端點10應(yīng)用各種規(guī)則191，確定是否把端點10輸出的當(dāng)前畫面切換成另一個畫面(判定188)，從而輸出當(dāng)前畫面(方框184)，或者改變畫面(方框189)。例如，在一位與會者發(fā)言的情況下，端點10指令人物畫面攝像機50B對該發(fā)言人取景(最好用“頭部和肩部”特寫鏡頭)。當(dāng)端點10移動攝像機50B時，端點10最好輸出來自房間畫面攝像機50A的寬畫面，一旦端點10已移動和對當(dāng)前發(fā)言人取景，就只輸出來自人物畫面攝像機50B的視頻。另外，端點10最好要求在發(fā)言人最初開始發(fā)言之后，和在端點10實際移動人物畫面攝像機50B之前，過去等待時期。這能夠避免頻繁地移動攝像機，尤其是在當(dāng)前發(fā)言人只簡要發(fā)言時。考慮了準(zhǔn)確性，端點10可利用多種算法定位和取景發(fā)言人，這里更詳細地說明其中的一些算法。一般來說，通過分析用麥克風(fēng)陣列60A-B捕捉的音頻，端點10能夠估計當(dāng)前發(fā)言人的方位角(bearing angle)和目標(biāo)距離。利用面部識別技術(shù)，能夠調(diào)整攝像機50B 的縮放系數(shù)，以致來自人物畫面攝像機50B的頭部鏡頭始終如一?？梢允褂眠@些技術(shù)和其它技術(shù)。2.無發(fā)言人在視頻會議中的某些時候，房間中的與會者都未發(fā)言，端點10確定沒有明確的發(fā)言人(判定19 。這種判定可以在視頻會議環(huán)境中，檢測到最后的話音音頻之后過去一定量的時間為基礎(chǔ)。如果沒有當(dāng)前發(fā)言人，那么端點10應(yīng)用各種規(guī)則193，確定是否把端點 10輸出的當(dāng)前畫面切換成另一個畫面(判定188)，從而輸出當(dāng)前畫面(184)或改變畫面 (189)。例如，輸出的當(dāng)前畫面可以是來自人物畫面攝像機50B的、最近發(fā)言的與會者的拉近畫面。盡管該與會者已停止發(fā)言，不過端點10可決定保持該畫面，或者切換到來自房間畫面攝像機50A的拉遠的畫面。決定是否切換畫面可取決于在一定時間內(nèi)，其它與會者是否開始發(fā)言，或者在一定時間內(nèi)，某位近端或遠端與會者開始發(fā)言。換句話說，一旦在拉近的畫面中被取景的近端與會者停止發(fā)言，在遠端的與會者可能開始持續(xù)較長時間地發(fā)言。在這種情況下，端點10可從拉近的畫面切換到包括所有與會者的房間鏡頭。3.新的或者先前的發(fā)言人在視頻會議中的某些時候，新的或者先前的發(fā)言人開始發(fā)言，端點10判定是否有新的發(fā)言人或者先前的發(fā)言人(判定194)。新的或者先前的發(fā)言人的判定可以來自確定視頻會議環(huán)境中的不同音源的位置的麥克風(fēng)陣列60A-B的話音跟蹤為基礎(chǔ)。當(dāng)通過跟蹤定位某個音源時，端點10能夠把其確定為新的或者先前的發(fā)言人。另一方面，新的或者先前的發(fā)言人的判定可以檢測發(fā)言人的語音特性的語音識別為基礎(chǔ)。隨著時間的過去，端點10能夠記錄在視頻會議環(huán)境中發(fā)言的與會者的位置?？梢允惯@些記錄的位置與攝像機坐標(biāo)(例如，搖移，俯仰和推拉)相關(guān)聯(lián)。端點10還可記錄來自被定位與會者的話音的特性，與會者發(fā)言的次數(shù)和時間，和其它歷史數(shù)據(jù)。端點10又可根據(jù)規(guī)則和判定，利用該歷史數(shù)據(jù)判定是否，何時，何處和如何把攝像機50A-B對著與會者。無論如何，端點10應(yīng)用各種規(guī)則195，判定是否把端點10輸出的當(dāng)前畫面切換成另一個畫面(判定188)，從而輸出當(dāng)前畫面(184)或者改變畫面(189)。例如，即使有新的或者先前的發(fā)言人，在該發(fā)言人已講話一定時間之前，端點10可不切換到該發(fā)言人的拉近畫面。這可避免在與會者和寬鏡頭之間不必要地跳轉(zhuǎn)攝像機畫面。4.近端對話在視頻會議中的某些時候，兩位以上的發(fā)言人可能在近端大約同時地相互談話。此時，端點10能夠判定是否正在發(fā)生近端對話或者音頻交換(判定196)。例如，近端的多位與會者可能同時相互交談或者發(fā)言。如果所述與會者進行對話，那么端點10最好同時拍攝對話雙方的視頻。如果與會者未進行對話，一位與會者只是在另一位與會者之后簡短地插嘴，那么端點10最好保持主要發(fā)言人的當(dāng)前畫面。響應(yīng)近端對話，人物畫面攝像機50B可對兩位發(fā)言人取景，拍攝視頻。另一方面，人物畫面攝像機50B可拍攝一位發(fā)言人的拉近畫面，同時房間畫面攝像機50A被指令拍攝另一位發(fā)言人的拉近畫面。端點10的合成軟件隨后能夠把這兩個視頻饋送放入合成布局中，以便輸出給遠端，或者端點10能夠根據(jù)當(dāng)前發(fā)言人，在要輸出哪個攝像機的視頻之間切換。在當(dāng)不止兩位與會者在近端談話的其它情形下，端點10可改為切換到包括所有與會者的房間畫面。不管怎樣，端點10能夠利用多種規(guī)則來確定何時發(fā)生近端對話，和近端對話何時結(jié)束。例如，隨著視頻會議的進行，端點10可確定在相同的兩位與會者(攝像機位置)之間，指定的當(dāng)前發(fā)言人已更替，以致在第一時間范圍(例如，最后的10秒左右)內(nèi)，每位與會者至少兩次是當(dāng)前發(fā)言人。當(dāng)確定了這種情況時，在第三位發(fā)言人變成當(dāng)前發(fā)言人，或者所述兩位發(fā)言人之一持續(xù)第二時間范圍(例如，15秒左右)以上，一直是唯一的發(fā)言人之前，端點10最好指令人物畫面攝像機50B至少對這兩位與會者取景。為了幫助進行判定，端點10最好保存頻繁發(fā)言的發(fā)言人，他們的位置，和他們是否傾向于相互交談的指示。如果在剛剛結(jié)束一個對話后的一定時間(例如，5分鐘)內(nèi)，頻繁發(fā)言的發(fā)言人開始后一個對話，那么一旦第二位發(fā)言人開始在對話中說話，端點10就可直接返回過去使用的先前的對話取景。作為另一種考慮，端點10能夠確定對話中的發(fā)言人之間的視角。如果他們被大于 45°左右的視角隔開，那么完成人物畫面攝像機50B的對準(zhǔn)和拉遠所用的時間會大于期望的時間。在這種情況下，端點10可改為切換到房間畫面攝像機50A，以拍攝房間的寬畫面，或者對話中的與會者的取景畫面。5.遠端對話在視頻會議中的某些時候，近端與會者之一可能正在和一位遠端與會者對話，端點10確定正在進行遠端對話或者音頻交換(判定198)，并應(yīng)用某些規(guī)則(199)。例如，當(dāng)近端發(fā)言人參加與遠端發(fā)言人的會話時，近端發(fā)言人通常停止講話，以傾聽遠端發(fā)言人。端點10會把這種情況識別成與遠端的對話，并保持近端與會者的當(dāng)前人物畫面，而不是把這種情況識別成等同于沒有近端發(fā)言人并切換到房間畫面。為此，端點10可利用借助視頻會議單元95，從遠端獲得的音頻信息。所述音頻信息可指示在會議期間，從遠端檢測到的話音音頻的持續(xù)時間和頻率。在近端，端點10可獲得話音的類似持續(xù)時間和頻率，并把其與遠端音頻信息相關(guān)。根據(jù)所述相關(guān)，端點10判定近端與會者在與遠端對話，從而當(dāng)近端發(fā)言人停止講話時，端點10不切換到房間畫面，而不管在近端房間中有多少其他與會者。E.切換畫面和對發(fā)言人取景在視頻會議中可預(yù)料的是，當(dāng)與會者相互交互和與遠端交互時，在與會者之中，當(dāng)前發(fā)言人會動態(tài)更替。于是，管理輸出什么視頻的各種決策和規(guī)則最好按照避免過多切換攝像機畫面和避免顯示不太重要的或者題外的畫面的方式，應(yīng)付視頻會議環(huán)境的動態(tài)性質(zhì)?，F(xiàn)在參見圖5，過程200提供端點10如何切換畫面，和對當(dāng)前發(fā)言人取景的更多細節(jié)。操作從端點10利用攝像機50A和/或50B拍攝視頻開始(方框20 。當(dāng)沒有與會者發(fā)言時，端點10可利用來自房間畫面攝像機50A的寬畫面，并可輸出該視頻，尤其是在視頻會議開始時(方框204)。隨著視頻會議的進行，端點10分析用麥克風(fēng)觀和/或陣列60A-B捕捉的音頻(方框206)，確定與會者之一何時在發(fā)言(判定208)。所述判定可利用本領(lǐng)域中已知的處理技術(shù)，根據(jù)話音的可識別特性檢測話音，和通過追蹤確定來源的位置。一旦與會者開始發(fā)言 (判定208)，端點10確定該與會者是否是新的發(fā)言人(判定210)。如果視頻會議剛剛開始，那么情況會是這樣。不過，在稍后的處理中，端點10可根據(jù)下面概述的發(fā)言人識別，或者根據(jù)分析方框中的最后發(fā)言人的定位是否不同于現(xiàn)在發(fā)言人的當(dāng)前估計的比較，確定正在發(fā)言的人物是新的發(fā)言人。如果確定了新的發(fā)言人(或者由于任何其它原因而需要處理)，那么端點10確定發(fā)言人的位置(方框212)，并操縱人物畫面攝像機50B對著確定的位置(方框214)?？梢岳迷S多技術(shù)來確定發(fā)言人相對于人物畫面攝像機50B的位置。下面說明這些技術(shù)中的一些技術(shù)。在一個例子中，端點10處理來自各個麥克風(fēng)陣列60A-B的音頻信號，利用定位音源的技術(shù)，確定當(dāng)前發(fā)言人的位置。在美國專利No. 5778082 ；6922206和6980485中公開了這些技術(shù)的細節(jié)，這些專利均在此引為參考。在另一個例子中，可以利用發(fā)言人識別技術(shù)和歷史信息，根據(jù)發(fā)言人的話音特性識別發(fā)言人。隨后，端點10能夠使攝像機50B轉(zhuǎn)向與識別的發(fā)言人相關(guān)的最后位置，只要所述最后位置至少與該發(fā)言人的當(dāng)前位置相符。一旦發(fā)言人被定位，端點10就把發(fā)言人的候選位置轉(zhuǎn)換成攝像機命令(搖移-俯仰-推拉坐標(biāo))，以操縱人物畫面攝像機50B拍攝正在發(fā)言的與會者(方框214)。一旦人物畫面攝像機50B被移動，就使當(dāng)前發(fā)言人進入該攝像機的畫面中(方框216)。由于使發(fā)言人進入畫面存在許多挑戰(zhàn)，因此端點10確定是否適當(dāng)?shù)厥巩?dāng)前發(fā)言人進入當(dāng)前畫面(判定218)。如果否，那么端點10搜索當(dāng)前畫面和/或攝像機的畫面的相鄰部分，以調(diào)整畫面，使發(fā)言人的實際物理位置進入畫面，所述實際物理位置可能不同于通過話音跟蹤而確定的位置(方框220)?？砂葱枰啻沃貜?fù)調(diào)整畫面。最后，如果不能確定發(fā)言人的位置，或者如果不能恰當(dāng)?shù)厥拱l(fā)言人進入畫面，那么端點10可繼續(xù)顯示來自房間畫面攝像機50A的寬畫面(方框204)，而不是切換到人物畫面攝像機50B。這里公開用于確定人物畫面攝像機50B的當(dāng)前畫面是否恰當(dāng)?shù)厥巩?dāng)前發(fā)言人進入畫面中的幾種技術(shù)。例如，一旦人物畫面攝像機50B完成了轉(zhuǎn)向，端點10就能夠利用下面討論的基于運動的視頻處理算法，使發(fā)言人進入畫面。如果所述算法報告取景良好(判定 218)，那么端點10從寬畫面(由房間畫面攝像機50A提供)切換到定向畫面(由人物畫面攝像機50B提供)，并選擇來自攝像機50B的當(dāng)前畫面，以便輸出給遠程端點(方框220)。如果未報告取景良好，那么微調(diào)人物畫面攝像機50B的位置，以繼續(xù)搜索良好的取景(方框 222)。如果仍然不能得到良好的取景，那么端點10保持房間畫面攝像機50A的寬畫面(方框 204)。1.音頻跟蹤細節(jié)如上所述，定位發(fā)言人和指揮人物畫面攝像機50B利用的是正交排列的陣列 60A-B的麥克風(fēng)62A-B。例如，圖6A表示視頻會議環(huán)境中的水平陣列60A的平面圖，而圖6B表示垂直陣列60B的正視圖。端點10利用水平陣列60A確定發(fā)言人的水平方位角，利用垂直陣列60B確定垂直方位角。由于位置差異的緣故，每個麥克風(fēng)62A-B捕捉相位和幅度稍微與由其它麥克風(fēng)62A-B捕捉的音頻信號不同的音頻信號。通過利用如在引入的美國專利 No. 5778082,6922206和6980485中公開的波束形成技術(shù)，這些差異的音頻處理隨后確定發(fā)言人的水平方位角和垂直方位角。簡要地，對多個位置來說，音頻處理把與每個點相關(guān)的波束形成參數(shù)應(yīng)用于麥克風(fēng)陣列60A-B發(fā)送的音頻信號。隨后，音頻處理確定哪組波束形成參數(shù)使麥克風(fēng)陣列60A-B 接收的音頻信號的和振幅達到最大。隨后，音頻處理識別與使麥克風(fēng)陣列的信號的和振幅達到最大的一組波束形成參數(shù)相關(guān)的水平方位角和垂直方位角。通過利用這些水平方位角和垂直方位角，音頻處理最終確定人物畫面攝像機50B的對應(yīng)搖移-俯仰-推拉坐標(biāo)。取決于環(huán)境的動態(tài)特性，根據(jù)利用陣列60A-B的音源跟蹤，用人物畫面攝像機50B 對當(dāng)前發(fā)言人取景存在一些挑戰(zhàn)。如前所述，在周圍物體上的反射會使攝像機50不正確地對著音源的反射，以致不會使發(fā)言人恰當(dāng)?shù)剡M入攝像機的畫面中。例如，如圖6B中所示，由于音頻可能在反射點(例如，桌面)反射，因此反射使搖移坐標(biāo)的正確確定變復(fù)雜。對麥克風(fēng)陣列60B來說，反射點看來似乎是從音源指向它的。如果與從發(fā)言的與會者的方向相比，從該反射點的方向收到更多的聲能量，那么端點10會錯誤地把該反射點確定為要跟蹤的音源。為了克服這個問題，端點10可利用識別這種反射的技術(shù)。例如，如圖7A-7B中所示，相對于方位角，用圖表示由陣列60A-B之一檢測的能量。從圖7A中可看出，音源的聲音和音源的反射產(chǎn)生兩個能量峰，一個是音頻的能量峰，一個是反射的能量峰(通常稍后)。這和圖7B中的曲線圖形成對照，在圖7B的曲線圖中沒有任何反射。相對于方位角分析所述能量，端點10能夠確定來自音源的反射，并忽略所述反射。最后，這能夠幫助避免把人物畫面攝像機50B對著反射點。就與反射類似的問題來說，在視頻會議環(huán)境中出現(xiàn)的其它噪聲會使定位發(fā)言人，和用攝像機50A-B對發(fā)言人取景變得復(fù)雜。源于鍵盤打字，輕敲鉛筆，轉(zhuǎn)動椅子等的噪聲會與來自與會者的話音混合。例如，與會者可能把膝上型計算機帶到視頻會議中，并回答電子郵件，做記錄等等。由于在給定時間捕捉的音頻可能包含散布有這種噪聲(比如打字)的話音，因此基于音頻的定位器42的話音檢測器42需要處理這種外來噪聲。如前所述，端點10利用話音檢測器43 (圖1A)確定麥克風(fēng)陣列M捕捉的信號是話音還是非話音。一般來說，當(dāng)信號是話音或者鍵盤噪聲時，話音檢測器43能夠有效地工作，當(dāng)話音檢測器43把音頻檢測為非話音時，端點10只是忽略捕捉的音頻。不過，當(dāng)話音和噪聲混合時，話音檢測器43會不那么有效。如果出現(xiàn)誤差，那么端點10會錯誤地把人物畫面攝像機50B對著噪聲源(例如，鍵盤)。公開的端點10的幾個優(yōu)點有助于處理與外來噪聲混合的話音。如前所述，端點10 最好不太頻繁地移動攝像機50A-B，以消除過度的畫面切換。為此，在把音源的位置發(fā)給攝像機50A-B之前，端點10最好利用等待期(例如，2秒)。因此，在向人物畫面攝像機50B 宣告音源的位置之前，端點10能夠積累來自麥克風(fēng)陣列60A-B的2秒鐘的捕捉音頻。鍵盤噪聲和話音不會在整個等待期0秒)內(nèi)都重疊，對多數(shù)人來說，連續(xù)兩次鍵盤擊鍵之間的時間間隔一般至少為100毫秒。因此，2秒的等待期足夠了，不過可以使用其它時限。
16
圖8A表示在話音檢測中，處理話音和非話音音頻的過程300。在一種實現(xiàn)中，端點 10通過每20毫秒采樣捕捉的音頻(方框304)，開始積累用麥克風(fēng)陣列60A-B捕捉的等待期中的音頻(方框30 。端點10利用這些20毫秒的樣本，根據(jù)話音跟蹤技術(shù)計算音源的搖移-俯仰坐標(biāo)(方框306)。但是，這些搖移-俯仰坐標(biāo)并不作為音頻的位置被傳給人物畫面攝像機50B。端點10改為分多步處理所述20毫秒的樣本，以區(qū)分由話音和/或噪聲造成的來源位置。除了計算20毫秒樣本中的假設(shè)音源的搖移-俯仰坐標(biāo)之外，端點10利用瞬態(tài)信號檢測器(TSD)計算每個20毫秒樣本的瞬態(tài)信號值(方框308)。圖8B表示瞬態(tài)信號檢測器340的方框圖。如圖所示，檢測器340具有濾出低于4000Hz的頻率的4000Hz高通濾波器。在高通濾波器之后，檢測器340具有匹配濾波器(匹配濾波器的形狀表示在該方框之下)，用于使匹配濾波器的模板信號與20毫秒樣本的未知信號相關(guān)。對每個20毫秒樣本來說，檢測器；340的輸出是標(biāo)量數(shù)(scalar number)，S卩，匹配濾波輸出中的最大值。根據(jù)該瞬態(tài)信號處理，來自檢測器340的結(jié)果值可指示20毫秒樣本是表示話音還是非話音。例如，如果檢測器340產(chǎn)生較大的瞬態(tài)信號值，那么20毫秒樣本可能對應(yīng)于鍵盤噪聲。如果檢測器340產(chǎn)生較小的瞬態(tài)信號值，那么20毫秒樣本可能對應(yīng)于話音。一旦產(chǎn)生了瞬態(tài)信號值，就使它們與20毫秒樣本的搖移-俯仰坐標(biāo)相聯(lián)系。到2秒等待期結(jié)束時(圖8A中的判定310)，可能存在多達100個具有搖移-俯仰坐標(biāo)和瞬態(tài)信號值的20毫秒樣本(只具有背景噪聲的那些樣本不產(chǎn)生有效坐標(biāo))。利用聚類技術(shù)，比如高斯混合模型(GMM)算法，端點10使20毫秒樣本的搖移-俯仰坐標(biāo)聚類(方框312)，得出群集的數(shù)目，求每個群集的值的平均值(方框314)。也可以使用其它聚類技術(shù)，比如 Linde-Buzo-Gray(LBG)算法。例如，圖8C表示在使等待期中的20毫秒樣本的搖移-俯仰坐標(biāo)聚類之后的結(jié)果。每個搖移-俯仰坐標(biāo)用“X”表示，每個群集的平均值(即，音源的位置)用表示。在這個例子中，聚類表明集合在兩個群集中的兩個音源。這些群集具有不同的搖移和俯仰坐標(biāo)，大概因為兩個音源在視頻會議環(huán)境的分離部分中。然而，即使發(fā)言人一邊發(fā)言一邊還在打字，聚類也能夠依據(jù)群集的不同俯仰坐標(biāo)區(qū)分群集，縱使所述群集具有相同的搖移坐標(biāo)。這樣，即使與會者同時打字和發(fā)言，端點10能夠定位話音來源，以對準(zhǔn)人物畫面攝像機50B。一旦如上所述完成了聚類，圖8A的過程300中的端點10計算每個確定的群集的瞬態(tài)信號值的平均值(方框316)。如果群集的平均瞬態(tài)信號值小于定義的閾值(判定 318)，那么端點10宣告該群集可能對應(yīng)于話音(方框320)。否則，端點10宣告該群集為瞬態(tài)聲音，比如源于鍵盤擊鍵噪聲。閾值和其它變量的值取決于要檢查的噪聲的種類(例如，鍵盤擊鍵)，以及來自瞬態(tài)信號檢測器340的匹配濾波的輸出。因此，可關(guān)于給定的實現(xiàn)，配置這些變量的特定值。一旦所有群集的平均值已和閾值相比較，端點10就確定是否所有群集都不指示話音(判定324)，如果是，那么結(jié)束。如果只有一個群集指示話音，那么端點10能夠容易地確定具有其平均搖移-俯仰坐標(biāo)的該群集對應(yīng)于話音源的位置(方框328)。如果不止一個群集指示話音(判定326)，那么端點10把具有最多搖移-俯仰坐標(biāo)的群集宣告為話音源的位置(方框330)。
從而，圖8C中所示的聚類可具有如下的四種可能結(jié)果(1)群集A是話音，而群集 B是噪聲，(2)群集A是噪聲，而群集B是話音，(3)群集A是話音，而群集B也是話音，(4) 群集A是噪聲，而群集B也是噪聲。盡管圖8C表示這個例子中的兩個群集，不過端點10可被擴展，以處理任意數(shù)目的話音和噪聲源。在圖8C的例子中，在第一種和第二種組合中，端點10能夠容易地確定群集A和B 中的哪個對應(yīng)于話音源。在這些情況下，在2秒等待期結(jié)束時，端點10能夠把音源位置(話音群集的平均搖移-俯仰坐標(biāo))傳給人物畫面攝像機50B，從而如果需要的話，能夠使攝像機50B對著該音源。如果出現(xiàn)其中兩個群集A和B都指示話音的第三種組合，那么端點10利用群集中的搖移-俯仰坐標(biāo)“X”的數(shù)目來確定哪個群集代表主要的發(fā)言人。從而，具有關(guān)于等待期內(nèi)的20毫秒樣本計算的最多搖移-俯仰坐標(biāo)的群集可被宣告為音源的位置。就其中群集都不指示話音的第四種組合來說，端點10的話音檢測器43已指出檢測到的聲音全部(或者大部分)是噪聲。如上所述，端點10利用等待期來檢測麥克風(fēng)陣列60A-B是否在捕捉話音和/或噪聲。最后，通過對瞬態(tài)信號值的濾波，和坐標(biāo)的聚類，端點10能夠確定哪個搖移-俯仰坐標(biāo)可能對應(yīng)于話音源。這樣，端點10更可能提供在操作期間，指揮人物畫面攝像機50B的更可靠的音源位置信息。2.取景細節(jié)為了克服方位判定不正確的問題，端點10還可把這里公開的基于運動的技術(shù)和其它技術(shù)用于會議期間發(fā)言人的自動取景。此外，端點10可具有攝像機畫面中的可配置的不拍攝區(qū)域。按照這種方式，用戶能夠定義攝像機視場中的不使攝像機50A-B對著以拍攝視頻的區(qū)域。一般來說，這些不拍攝區(qū)域應(yīng)是視場中，主要會拍攝到會議桌、墻壁等的區(qū)域。參見圖9A-9B，表示了來自房間畫面攝像機(50A)的寬畫面230A。另外，表示了在以不正確的方位判定為基礎(chǔ)的第一次取景之后，以一位視頻會議與會者為中心取景的來自人物畫面攝像機(50B)的緊湊畫面230B。在寬畫面230A中定義了不拍攝區(qū)232，以供參考。可在關(guān)于特定房間校準(zhǔn)端點(10)的過程中實現(xiàn)這些不拍攝區(qū)232，并且這些不拍攝區(qū)232 不會因會議而異。在圖9A中，在視頻會議與會者開始發(fā)言之后，人物畫面攝像機(50B)已對著緊湊畫面230B中的該視頻會議與會者。由于一些誤差(即，反射，發(fā)言人把臉躲開等)，緊湊畫面230B未恰當(dāng)?shù)貙υ撆c會者取景。為了核實正確的取景，端點(10)搜索緊湊畫面230B的拍攝視頻中的特性，比如運動，膚色或面部特征。為了檢測運動，端點(10)順序比較出自用人物畫面攝像機(50B)拍攝的緊湊畫面 230B的視頻的采樣幀，并識別由移動引起的差異。例如，如下更詳細所述，端點(10)能夠通過計算幀或幀的一部分中的像素的亮度值的總和，確定移動，并在順序各幀之間相互比較所述總和。如果兩個總和之間的差異大于預(yù)定閾值，那么該幀或幀的一部分可被標(biāo)記為具有運動的區(qū)域。最后，可迭代地調(diào)整緊湊畫面230B，或者使其以該檢測到的運動為中心。例如，人物畫面攝像機50B可能使發(fā)言人進入過高或過低，或者過右或過左的緊湊畫面230B中。首先根據(jù)運動像素調(diào)整攝像機50B的對準(zhǔn)。如果攝像機50B過高地指向發(fā)言人(即，發(fā)言人的頭部被顯示在畫面230B的下半部)，那么根據(jù)運動像素(即，通過處理找到的最上面的運動塊)，降低攝像機的對準(zhǔn)。如果根本不存在與攝像機50B取景的當(dāng)前緊湊畫面230B相關(guān)的運動塊，那么端點 (10)能夠采取對著用陣列60A-B捕捉的音頻中的第二個聲音峰。如果當(dāng)前攝像機(即，人物畫面攝像機50B)具有自動特征(即，自動聚焦，自動增益，自動光圈等)，那么在進行上面說明的運動檢測的時候，端點10可禁用這些特征。這有助于運動檢測更可靠地工作。作為運動檢測的備選方案，端點(10)利用本領(lǐng)域中已知的各種技術(shù)，檢測緊湊畫面230B的視頻中的膚色。簡要地說，端點(10)能夠計算幀或幀的一部分內(nèi)的色度值的平均值。如果所述平均值在與膚色相關(guān)的范圍內(nèi)，那么該幀或其一部分被認為具有膚色特性。另外，端點(10)可利用面部識別技術(shù)來檢測和定位攝像機的畫面230B中的面部。例如，端點(10)可通過找出可能包含人類皮膚的區(qū)域，隨后從這些區(qū)域中找出指示畫面中的面部位置的區(qū)域，來找出面部。在美國專利No. 6593956，“Locating an Audio Source”中公開了與膚色和面部檢測(以及音頻定位)有關(guān)的細節(jié)，該專利在此引為參考。隨后可迭代地調(diào)整緊湊畫面230B，或者使其以檢測到的膚色和/或面部識別為中心。在核實取景時，端點(10)能夠利用來自攝像機(50A-B)的兩個畫面230A-B分析諸如運動，膚色或面部之類的特性。可關(guān)于運動，膚色或面部分析來自人物畫面攝像機 (50B)的寬畫面230B，以確定它目前是否對著與會者。如果人物畫面攝像機(50B)最后指向墻壁或者天花板，那么關(guān)于緊湊畫面230B中的運動，膚色或面部的視頻處理能夠確定情況是這樣，從而端點(10)能夠避免輸出這種不合需要的畫面。隨后，可使人物畫面攝像機 (50B)轉(zhuǎn)向周圍區(qū)域，以確定是否由于來自這些周圍區(qū)域的后續(xù)運動，膚色或面部識別的值更大，能夠?qū)崿F(xiàn)更好的取景。另一方面，圍繞通過話音跟蹤而獲得的當(dāng)前取景畫面230B，可關(guān)于運動，膚色或面部確定，分析來自房間畫面攝像機50A的寬畫面230A。如果在寬畫面230A中找到源于這些周圍區(qū)域的運動，膚色或面部確定的更大值，那么端點(10)能夠使人物畫面攝像機(50B) 轉(zhuǎn)向該周圍區(qū)域。在已知兩部攝像機(50A-B)之間的設(shè)定距離，和它們的兩個畫面的相對取向的情況下，端點(10)能夠把畫面230A-B之間的區(qū)域轉(zhuǎn)換成用于移動人物畫面攝像機 (50B)，以對適當(dāng)區(qū)域取景的坐標(biāo)。如何分析周圍區(qū)域可涉及縮放人物畫面攝像機(50B)，以改變被取景環(huán)境的大小。隨后，視頻處理能夠確定兩個不同的縮放畫面之間在運動，膚色或面部確定方面的差異。另一方面，人物畫面攝像機(50B)的搖移和/或俯仰能夠被自動從初始的取景畫面230B調(diào)整到調(diào)整后的取景畫面。這種情況下，視頻處理能夠確定不同調(diào)整的畫面之間在運動，膚色或面部確定方面的差異，以找出哪個畫面更好地對與會者取景。另外，運動，膚色或面部確定都可被組合在一起，也可利用調(diào)整人物畫面攝像機(50B)的當(dāng)前取景和利用房間畫面攝像機(50A)的組合。最后，取景技術(shù)可以利用在人物畫面攝像機(50B)和房間畫面攝像機(50A)之間交換的信息來幫助對發(fā)言人取景。兩部攝像機(50A-B)的物理位置是已知和固定的，以致可使一部攝像機的操作(搖移、俯仰、推拉)與另一部攝像機的操作(搖移、俯仰、推拉)相關(guān)。例如，人物畫面攝像機(50B)可被用于對發(fā)言人取景。其信息隨后可以與房間畫面攝像機(50A)共享，以幫助房間畫面攝像機(50A)對房間的取景。另外，來自房間畫面攝像機 (50A)的信息可以與人物畫面攝像機(50B)共享，以幫助更好地對發(fā)言人取景。
通過利用這些取景技術(shù)，視頻會議端點10減小了端點10產(chǎn)生不是發(fā)言人、或者未被很好取景的某物的拉近畫面的可能性。換句話說，端點10減小了在常規(guī)系統(tǒng)中會發(fā)生的不恰當(dāng)取景(例如，對會議桌、空白墻壁的拉近，或者由于麥克風(fēng)陣列產(chǎn)生的不完美的音頻結(jié)果，對發(fā)言人的膝上型計算機的拉近)的可能性。事實上，一些常規(guī)系統(tǒng)可能從不定位某些發(fā)言人。例如，常規(guī)系統(tǒng)可能不定位位于會議桌端部的、其到麥克風(fēng)陣列60A-B的直接聲通路因會議桌反射而變得模糊的發(fā)言人。通過利用這里公開的視頻和音頻處理技術(shù)，公開的端點10能夠成功地拉近這樣的發(fā)言人。F.自動取景過程如上簡要所述，當(dāng)動態(tài)地使人物畫面攝像機50B對著當(dāng)前發(fā)言人時，公開的端點 10能夠利用運動，膚色和面部識別恰當(dāng)?shù)貙εc會者取景。作為取景技術(shù)的一部分，公開的端點10可首先通過在視頻會議開始時，或者相隔不同的時間間隔檢測房間的拍攝視頻中的相關(guān)塊，估計與會者的位置。通過查看拍攝的視頻中的運動，膚色，面部識別，或者它們的組合，能夠確定這些相關(guān)塊。該自動取景過程可由視頻會議與會者在會議開始時，或者在任何其它適當(dāng)?shù)臅r候啟動。另一方面，自動取景過程可在開始視頻會議呼叫時，或者在某一其它觸發(fā)時間自動發(fā)生。通過了解拍攝的視頻中，和與會者的位置對應(yīng)的相關(guān)塊，當(dāng)用攝像機 50A-B自動對在房間內(nèi)各處的與會者取景時，端點10就能夠利用這些已知的相關(guān)塊。圖10表示按照本發(fā)明的利用自動取景的過程400。下面關(guān)于如在圖IA和2A中公開的雙攝像機系統(tǒng)討論過程400。不過，自動取景技術(shù)同樣可用于如在圖2B和2D中公開的具有一部攝像機的視頻會議系統(tǒng)。在視頻會議開始之前的發(fā)起期間(即，當(dāng)連接呼叫和與會者作好準(zhǔn)備時)，端點10 啟動時限(方框40 ，并對由攝像機之一拍攝的視頻采樣(方框404)。為此，端點10通過一直變焦拉遠攝像機，獲得整個房間的視頻，或者端點10可關(guān)于環(huán)境的最寬畫面，直接了解攝像機的整個搖移-俯仰-推拉范圍。在獲得房間的寬畫面之后，端點10隨后把寬畫面分成多個塊，以便單獨分析(方框406)。換句話說，關(guān)心的房間空間的默認寬畫面被分成多個部分或塊(N = 2，3等)。這些塊都代表攝像機的特定緊湊畫面。這樣，各個塊可被識別成攝像機的特定搖移、俯仰和推拉坐標(biāo)。在具有兩部攝像機50A-B的情況下，端點10能夠變焦拉遠攝像機50A和/或50B，以獲得總的寬畫面。最好，使用可操縱的人物畫面攝像機50B，從而人物畫面攝像機50B能夠獲得環(huán)境的可能的最寬畫面。如前所述，攝像機50B的搖移、俯仰和推拉的整個范圍可能已為端點10所知。因此，端點10能夠自動把可能的最寬畫面分成多個塊或緊湊畫面，每個塊或緊湊畫面由攝像機50B的特定搖移、俯仰和推拉坐標(biāo)代表。另一方面，人物畫面攝像機50B能夠分別在不同的方向獲得幾個視頻圖像，并把它們接合在一起，從而創(chuàng)建房間的寬畫面。例如，圖12A表示利用人物畫面攝像機50B獲得的視頻會議環(huán)境的四個象限的拍攝圖像460。為了獲得圖像460，人物畫面攝像機50B可被變焦拉遠和搖移到各個象限，從而獲得房間的可能的最寬畫面。這能夠增大搜索區(qū)域。盡管圖中表示圖像460間沒有重疊，不過實際上它們會重疊，不過通過處理能夠恰當(dāng)?shù)靥幚硭鲋丿B。每個圖像460被表示成分成幾個塊462 (本例中，15個，不過可以使用其它值)。塊 462至少和一個像素一樣大，可以是視頻壓縮算法通常使用的宏塊的大小。同樣地，這些塊462都與可依據(jù)給定的幾何形狀確定的攝像機50B的特定搖移、俯仰和推拉坐標(biāo)相關(guān)。在圖10中，把房間的寬畫面分成多個塊的情況下，端點10選擇每個塊(方框 408)，并檢查每個塊，以確定該塊對自動取景來說的關(guān)聯(lián)性。為了檢查每個塊462，人物畫面攝像機50B被拉近成包含該塊的緊湊畫面，以確定在房間的整個畫面中，該塊具有什么關(guān)聯(lián)性(即，運動，膚色，面部識別等)(方框410)。通過拉近，利用人物畫面攝像機50B獲得的視頻圖像能夠更好地檢測運動，膚色和其它細節(jié)。從而，端點10確定所選塊的拉近圖像是否相關(guān)(判定412)。如果塊被確定為相關(guān)的，那么端點10把該塊標(biāo)記為相關(guān)(方框414)，并把它的關(guān)聯(lián)位置信息(攝像機搖移、俯仰和推拉坐標(biāo))保存在存儲器中，供以后使用。相關(guān)塊是重要的是，因為它們定義用于當(dāng)在視頻會議期間動態(tài)需要時，利用攝像機50A-B恰當(dāng)?shù)貥?gòu)成畫面的關(guān)心區(qū)域。換句話說，相關(guān)塊包含具有指示它至少是視頻會議與會者的關(guān)心對象的一部分的特性的畫面的一部分。通常在視頻會議中，與會者是關(guān)心的對象。在這種情況下，表示視頻會議與會者的可搜索特性可包括如前所述的運動，膚色和面部特征。在檢查所有塊(判定416)和確定所述時限是否結(jié)束(判定418)之后，視頻處理確定最外面的相關(guān)塊(方框420)。這些最外面的相關(guān)塊可包括最左邊，最右邊和最上面的相關(guān)塊。如果需要的話，可忽略最下面的相關(guān)塊。根據(jù)這樣的最外面的塊，端點10計算用于構(gòu)成環(huán)境中的與會者的最適配畫面(方框422)。例如，利用三角形計算和保存在存儲器中的塊-攝像機位置數(shù)據(jù)，最左邊，最右邊和最上面的相關(guān)塊的位置能夠被轉(zhuǎn)換成用于自動取景的搖移-俯仰-推拉坐標(biāo)。最后，端點10根據(jù)從分析塊獲得的合成結(jié)果，對房間取景。為了圖解說明，圖12B 表示了廣角畫面460中的相關(guān)塊462的取景區(qū)域470。在考慮區(qū)域470中的最左邊，最右邊和最上面的相關(guān)塊462之后，圖12C隨后表示廣角畫面460中的最后得到的取景畫面472。通過了解最佳畫面472，端點(10)能夠調(diào)整房間畫面攝像機(50A)的搖移-俯仰-推拉坐標(biāo)，以構(gòu)成畫面472，從而視頻會議室的多余部分不被拍攝。同樣地，端點(10)關(guān)于人物畫面攝像機(50B)進行的與會者的話音跟蹤和自動取景通?？杀幌拗朴谠撊【爱嬅?72。這樣，當(dāng)試圖對發(fā)言的與會者恰當(dāng)取景時，端點(10)能夠避免對著在取景畫面472之外的音源反射，并且能夠避免搜索在取景畫面472之外的，圍繞該與會者的相鄰區(qū)域。1.利用運動的自動取景可利用如上所述的幾種技術(shù)，確定塊為相關(guān)塊。在圖IlA中所示的一個實施例中，視頻處理通過確定哪些塊指示與會者移動，識別相關(guān)塊。如圖所示，視頻處理選擇一個塊 (方框408)，并如前所述，用緊湊畫面拉近該塊(方框410)。隨后，視頻處理對所選塊的由拉近的攝像機50B捕捉的視頻幀速率進行抽選(decimate)，以降低計算復(fù)雜性。例如，在一種實現(xiàn)中，幀速率可被抽選到約6幀/秒。在此時或者任意其它時刻，可以應(yīng)用時間和空間濾波以改善檢測，和消除噪聲或干擾。通過利用連續(xù)各幀，視頻處理計算塊的各幀之一內(nèi)的各個像素的亮度值之和，并把該值與在塊的另一幀內(nèi)的亮度值之和相比較(方框434)。如果這兩個和數(shù)之間的差異大于預(yù)定閾值(判定436)，那么視頻處理把該對象塊標(biāo)記為相關(guān)塊，并且可能包含運動(方框 414)。
最后，逐塊地計算連續(xù)各幀之間在亮度值方面的差異，直到分析了所有塊為止 (判定416)。一旦分析了所有塊，端點10根據(jù)運動確定了哪些塊是相關(guān)塊。此時，端點10 繼續(xù)圖10中的過程步驟，以根據(jù)相關(guān)塊，對房間的寬畫面自動取景。為了圖解說明，圖13表示了塊的與會者在第一位置的第一幀464，并且表示了該塊的與會者已移動的后續(xù)幀465。上面討論的基于運動的技術(shù)計算這兩幀464/465的亮度的平均值，并比較這些平均值。如果亮度方面的差異大于閾值，那么與這些幀464/465相關(guān)的塊被確定為能夠被指定成取景畫面的一部分的相關(guān)運動塊。相反，幀466/467表示視頻會議室的保持靜止的一部分。當(dāng)在這些幀466/467之間比較亮度平均值時，所述差異低于所述閾值，以致與這些幀466/467關(guān)聯(lián)的塊不被確定為相關(guān)塊。關(guān)于亮度差的閾值可取決于使用的攝像機，白平衡，光量和其它因素。于是，所述閾值是可自動或人工配置的。例如，端點10可采用低閾值，以根據(jù)視頻會議與會者的有意識和無意識運動，檢測相關(guān)塊。當(dāng)視頻處理利用這樣的低閾值時，它對運動的靈敏度較高。相反，隨著閾值的增大，端點對運動的靈敏度降低。從而，定位參加發(fā)言的視頻會議與會者所必需的最小閾值高于定位僅僅表現(xiàn)出被動運動的視頻會議與會者所必需的最小閾值。于是，通過調(diào)整閾值，在視頻會議與會者發(fā)言時，視頻處理能夠檢測到該與會者，當(dāng)該與會者只是被動地坐著時，視頻處理能夠避免檢測到該與會者。由于這些原因，運動檢測中涉及的任何閾值都是可配置的，并且可在操作中自動調(diào)整。2.利用膚色的自動取景在圖IlB中所示的另一個實施例中，視頻處理根據(jù)塊的像素是否包含膚色，確定相關(guān)塊。本領(lǐng)域中已知在圖像內(nèi)尋找膚色的多種方法。在這個例子中，和前面一樣，視頻處理選擇一個塊(方框408)，并用緊湊畫面拉近該塊(方框410)。隨后，視頻處理對塊或其各個部分的拍攝視頻的一幀或多幀采樣(方框440)，需要的話，對其濾波(方框44 ，并計算對象塊內(nèi)的色度值的平均值(方框444)。如果所述平均值在與人類膚色相關(guān)的范圍之內(nèi) (判定446)，那么該塊被標(biāo)記為相關(guān)塊(方框414)。在引用的美國專利No. 6593956中公開了與膚色檢測相關(guān)的細節(jié)。膚色檢測可取決于許多因素，也可以是人工配置和自動配置的。在任何情況下，逐塊地計算平均色度值，直到對所有塊分析了相關(guān)性為止(判定416)。此時，端點10繼續(xù)圖10中的過程處理，以根據(jù)相關(guān)塊，自動構(gòu)成房間的寬畫面。G.利用面部識別的自動取景在圖IlC中表示的另一個實施例中，視頻處理可利用面部識別來確定相關(guān)塊。本領(lǐng)域中已知識別面部特征的許多方法。在引用的美國專利No. 6593956中公開了與面部檢測相關(guān)的細節(jié)。在這個例子中，視頻處理選擇已被分析和標(biāo)記為具有膚色的各個鄰接塊 (方框450)。面部識別算法隨后關(guān)于面部特征，對一組鄰接的塊進行分析(方框45 。如果檢測到面部特征(判定454)，那么該組鄰接的塊被標(biāo)記為可用于稍后的自動取景的相關(guān)面部塊(方框456)。最后，逐組地關(guān)于面部識別分析所有鄰接塊，直到分析了所有各個塊為止(判定 416)。此時，端點10繼續(xù)圖10中的過程處理，以根據(jù)相關(guān)塊自動構(gòu)成房間的寬畫面。H.另外的自動取景細節(jié)
操作中，如果畫面內(nèi)的條件發(fā)生變化，那么端點10需要對由攝影機50A和/或50B 獲得的當(dāng)前畫面重新取景。例如，在視頻會議期間，視頻會議與會者可能離開畫面，或者新的與會者可能進入房間中。端點10可定期重新掃描寬畫面，以發(fā)現(xiàn)任何變化(即，任何新的或舊的相關(guān)塊)。當(dāng)重新掃描時，視頻處理能夠定位包含與會者或者沒有與會者的那些塊，從而在重新計算攝像機畫面的搖移-俯仰-推拉坐標(biāo)時，可以考慮這些塊。另一方面，視頻會議與會者可利用用戶界面或者遙控器，開始重新取景序列。對重新掃描來說，特別有利的是利用具有至少兩部攝像機50A-B的端點10。例如，在雙攝像機端點10中，人物畫面攝像機50B能夠依據(jù)圖10的過程，定期重新掃描房間的總的寬畫面，而房間畫面攝像機50A拍攝和輸出會議視頻。另一方面，當(dāng)人物畫面攝像機50B 跟蹤和拉近當(dāng)前發(fā)言人時，房間畫面攝像機50A可開始重新掃描程序，以確定寬畫面中的相關(guān)塊。盡管這些取景技術(shù)有益于前面公開的雙攝像機端點10，不過，這些技術(shù)也可用在如在圖2B和2D中公開的單攝像機裝置中。此外，這些取景技術(shù)可以和具有如前公開的麥克風(fēng)陣列，或者具有麥克風(fēng)的任何其它排列的系統(tǒng)一起使用。I.發(fā)言人識別除了話音跟蹤，運動，膚色和面部識別之外，或者作為它們的備選方案，端點10可利用發(fā)言人識別來識別哪個特定與會者正在視頻會議環(huán)境中發(fā)言。發(fā)言人識別技術(shù)可以和前面說明的雙攝像機端點10 —起使用，不過它也可和具有更多或更少攝像機的其它視頻會議系統(tǒng)一起使用。對雙攝像機端點10來說，可為拉遠的房間畫面，設(shè)定房間畫面攝像機 50A，而人物畫面攝像機50B可跟蹤和拉近當(dāng)前的發(fā)言人，如前所述。端點10隨后能夠部分根據(jù)發(fā)言人識別，確定輸出哪個攝像機畫面。圖14表示具有雙攝像機50A-B，麥克風(fēng)陣列60A-B，外部麥克風(fēng)28和前面討論的其它組件的視頻會議端點10，以供參考。端點10還具有發(fā)言人識別特征，包括發(fā)言人識別模塊M和數(shù)據(jù)庫25。這些可以與音頻模塊20相聯(lián)系，音頻模塊20用于處理來自外部麥克風(fēng)28和陣列60A-B的音頻。發(fā)言人識別模塊M分析主要采樣自外部麥克風(fēng)28的音頻。利用該音頻，發(fā)言人識別模塊M能夠確定或識別在視頻會議期間，哪位與會者正在發(fā)言。對數(shù)據(jù)庫25來說，數(shù)據(jù)庫25保存用于進行所述確定或識別的信息。如圖15中所示，圖中表示了包含可被圖14的發(fā)言人識別模塊M使用的一些信息的數(shù)據(jù)庫表480。提供數(shù)據(jù)庫表480只是出于舉例說明的目的，因為本領(lǐng)域的技術(shù)人員會認識到可按照本領(lǐng)域中已知的任何可用方式，保存供發(fā)言人識別模塊M之用的各種信息。如圖所示，數(shù)據(jù)庫表480能夠保存視頻會議中的每位近端與會者的多條記錄。對每位與會者來說，數(shù)據(jù)庫表480能夠包含該與會者的標(biāo)識信息(姓名，頭銜等)，確定的該與會者的位置(搖移、俯仰、推拉坐標(biāo))和該與會者的話音的特性。除此之外，數(shù)據(jù)庫表480可包含該與會者在視頻會議期間發(fā)言的平均持續(xù)時間，該與會者在視頻會議期間發(fā)言的次數(shù)，和可用于跟蹤和識別發(fā)言與會者的其它細節(jié)。該信息也可用于收集和報告會議的統(tǒng)計資料。例如，該信息可指出會議中的發(fā)言人的數(shù)目，每位發(fā)言人發(fā)言的時間有多長，該發(fā)言人在什么時候參加該會議，等等。最后，當(dāng)檢查會議的記錄時，該信息可用于快速定位視頻會議的特定部分。
通過利用比如包含在數(shù)據(jù)庫表480中的信息，當(dāng)檢測到話音時，圖14中的端點10 的發(fā)言人識別模塊M能夠從視頻會議的各位與會者中，識別出特定的發(fā)言人。例如，圖16 表示可在視頻會議期間實現(xiàn)的發(fā)言人識別過程500。首先，端點100發(fā)起視頻會議(方框 502)。作為會議的建立的一部分，與會者可在發(fā)言人識別界面中進行登記(方框504)，不過這不是這里公開的發(fā)言人識別嚴(yán)格必需的。當(dāng)使用登記程序時，與會者利用用戶界面，輸入標(biāo)識信息，比如姓名、頭銜等。隨后，與會者向發(fā)言人識別模塊M提供一個或多個話音樣本。為了獲得所述樣本，模塊M可以要求，或者可不要求與會者說出某些文稿、短語、單詞等等。不管怎樣，模塊M分析與會者的話音樣本，確定該與會者的話音的特性。一旦完成登記，模塊M隨后把每位與會者的話音特性和標(biāo)識信息保存在數(shù)據(jù)庫25中，供以后使用(方框506)。在一種實現(xiàn)中，模塊對提供的發(fā)言人識別可以梅爾頻率倒譜(MFC)為基礎(chǔ)，以致保存在數(shù)據(jù)庫25中的話音特性可包括梅爾頻率倒譜系數(shù)(MFCC)。在本領(lǐng)域中，得到這些系數(shù)的技術(shù)是已知的，從而這里不再詳述。然而，模塊M可以利用本領(lǐng)域中已知的任何其它技術(shù)來識別話音特性，從而根據(jù)話音特性識別發(fā)言人。在與會者已登記的情況下，端點10開始進行視頻會議(方框508)。在人物畫面攝像機50B對著發(fā)言人之前，端點10拍攝視頻，并且最初輸出來自房間畫面攝像機50A的寬畫面(方框510)。同時，端點10分析用外部麥克風(fēng)觀和/或麥克風(fēng)陣列60A-B捕捉的本地音頻(方框512)。在某一時刻，端點10利用本領(lǐng)域中已知的話音檢測技術(shù)，確定是否檢測到話音 (判定514)。為此，端點10的話音檢測器43能夠?qū)Σ蹲降囊纛l采樣，用濾波器組把音頻濾波成多個頻帶?？梢苑治雠c話音相關(guān)的這些頻帶的脈沖或振幅，以確定目前采樣的音頻是否表示話音。最好，分析的捕捉音頻是利用外部麥克風(fēng)觀獲得的會議音頻，而不是利用陣列60A-B獲得的會議音頻，不過也可使用利用陣列60A-B獲得的會議音頻。如果檢測到話音，那么發(fā)言人識別模塊M對檢測到的話音采樣，以確定其特性，隨后，模塊M搜索數(shù)據(jù)庫25，尋找具有這些特性的與會者(方框514)。同樣地，模塊M能夠利用本領(lǐng)域中已知的技術(shù)，確定梅爾頻率倒譜系數(shù)(MFCC)。一旦完成，端點10就通過比較目前得到的特性和保存在數(shù)據(jù)庫25中的各個與會者的特性，識別當(dāng)前發(fā)言人。從而可根據(jù)這些特性的最佳匹配，獲得當(dāng)前發(fā)言人的身份。如果與會者已登記，那么模塊M在數(shù)據(jù)庫中查找該發(fā)言人(判定518)，端點10隨后把人物畫面攝像機50B對著發(fā)言人的坐標(biāo)或方向(方框520)。這樣，端點10檢測話音，利用借助陣列60A-B的波束形成確定發(fā)言人的位置，確定當(dāng)前發(fā)言人的身份，并指令人物畫面攝像機50B拉近當(dāng)前發(fā)言人的畫面。此時，發(fā)言人的姓名能夠被自動顯示在輸出給遠端的視頻上。正如所料，能夠在遠端顯示當(dāng)前發(fā)言人的姓名是有益的，尤其是當(dāng)近端和遠端的與會者互相不認識時更有益。作為一種附加措施，通過借助麥克風(fēng)陣列60A-B的波束形成而獲得的當(dāng)前發(fā)言人的確定位置(人物畫面攝像機50B的搖移、俯仰和推拉)可以和發(fā)言人的標(biāo)識和話音特性一起被保存在數(shù)據(jù)庫25中。這樣，一旦該發(fā)言人稍后在會議中發(fā)言，模塊M能夠根據(jù)話音特性識別該發(fā)言人，從而端點10能夠直接把人物畫面攝像機50B對著從數(shù)據(jù)庫25獲得的保存的位置(搖移、俯仰和推拉)。從而，端點10可放棄必須利用陣列60A-B進行發(fā)言人的音頻跟蹤，不過發(fā)言人識別可被用于提高在困難情況下，定位發(fā)言人的可靠性。在當(dāng)前發(fā)言人的位置已知，并與話音特性相聯(lián)系時，端點10能夠?qū)φ毡４嬖跀?shù)據(jù)庫25中的發(fā)言人的位置，核實當(dāng)前音源的位置(方框522)?？赡艽嬖诎l(fā)言人識別和與數(shù)據(jù)庫條目的匹配錯誤地把與會者之一識別為當(dāng)前發(fā)言人的情況。為了避免把人物畫面攝像機50B對著所述錯誤的人物或者反射點，端點10進行檢查，判定確定的位置是否匹配預(yù)先保存在數(shù)據(jù)庫25中的位置(判定524)。當(dāng)存在許多與會者時，和在當(dāng)前話音與保存的特性之間的匹配在識別當(dāng)前發(fā)言人方面不那么權(quán)威時，這是有益的。另外，如果預(yù)期與會者在視頻會議期間會移動，以致保存在數(shù)據(jù)庫25中的位置可能不正確或者過時，那么這種檢查是有益的。當(dāng)試圖在已登記的發(fā)言人的數(shù)據(jù)庫25中找出當(dāng)前發(fā)言人時(判定518)，模塊M 可能判定發(fā)言人未包括在數(shù)據(jù)庫M中。例如，某人可能遲到參加視頻會議，從而未在發(fā)言人識別過程中進行登記。另一方面，端點10可不利用登記過程，而只是隨著會議的進行，識別新的發(fā)言人。無論如何，模塊M判定從當(dāng)前發(fā)言人得到的話音特性并不與保存在數(shù)據(jù)庫25中的任意話音特性和身份最佳匹配。這種情況下，模塊M把該話音特性保存在數(shù)據(jù)庫25中 (方框526)。這種情況下，該發(fā)言人的姓名未被附加到該數(shù)據(jù)庫條目上，除非在會議期間，端點10提示輸入。此時，端點10可利用麥克風(fēng)陣列60A-B和前面說明的波束形成技術(shù)，確定該發(fā)言人的位置，并把所述位置保存在數(shù)據(jù)庫25中(方框528)。如果端點10未能匹配定位的發(fā)言人和保存的候選者，那么也進行這個步驟。即使如此，該發(fā)言人的當(dāng)前位置可能已在先前的處理中知道了，以致端點10不需要重新確定該發(fā)言人的位置。通常，端點10可利用它能夠利用的每種方式定位當(dāng)前發(fā)言人，并正確地對該發(fā)言人取景。這樣，當(dāng)一種方式失敗時，來自麥克風(fēng)陣列(60A-B)的信息，用攝像機(50A-B)拍攝的視頻，來自麥克風(fēng)箱08)的音頻，和發(fā)言人識別能夠相互補充，它們可被用于確認彼此的結(jié)果。例如，利用麥克風(fēng)箱08)獲得的測向可用于檢查發(fā)言人識別。一旦直接地或者根據(jù)存儲內(nèi)容確定了位置(方框528)，端點10就使人物畫面攝像機50B轉(zhuǎn)向確定的位置(方框530)，并繼續(xù)進行使發(fā)言人進入攝像機的畫面中的過程(方框53幻。和前面一樣，端點10根據(jù)運動，膚色，面部識別等，判定發(fā)言人是否被恰當(dāng)?shù)厝【?(判定534)，如果需要的話，搜索攝像機的畫面和相鄰部分(方框536)，并視需要重復(fù)這些步驟，直到對發(fā)言人取景的選擇畫面能夠被輸出給遠端為止(方框538)。如果在數(shù)據(jù)庫中沒有找到當(dāng)前發(fā)言人，和不能通過波束形成確定位置，那么端點 10可以簡單恢復(fù)輸出來自房間畫面攝像機50A的視頻。最后，即使當(dāng)其所有定位和識別技術(shù)都失敗時，端點10也能夠避免輸出會議室的不合需要的畫面，或者人物畫面攝像機50B 的運動。發(fā)言人識別不僅有助于顯示發(fā)言的與會者的姓名，或者幫助核實波束形成已確定正確的位置，而且在不能容易地通過波束形成等定義發(fā)言人的情況下，發(fā)言人識別也是有用的。例如，在當(dāng)前發(fā)言人轉(zhuǎn)動頭部，從而避開麥克風(fēng)陣列60A-B時，端點10可能不能利用波束形成等定位當(dāng)前發(fā)言人。不過，發(fā)言人識別模塊M仍然能夠根據(jù)話音特性，識別哪位與會者與保存的發(fā)言人匹配。根據(jù)所述匹配，端點10得到已保存的位置(搖移、俯仰和推拉)，以便使人物畫面攝像機50B對著當(dāng)前的發(fā)言人。
另外，發(fā)言人識別模塊M能夠防止端點10在視頻會議期間過早切換畫面。例如，在某些時候，當(dāng)前發(fā)言人轉(zhuǎn)動頭部，從而避開麥克風(fēng)陣列60A-B，環(huán)境中的一些變化可能產(chǎn)生新的反射點，或者可能發(fā)生其它一些變化，以致端點10不再能夠定位當(dāng)前發(fā)言人，或者得到當(dāng)前發(fā)言人的不同位置。盡管利用陣列60A-B的端點10能夠知道某人在發(fā)言，但是端點10可能不能判定是同一人在繼續(xù)發(fā)言，還是新的發(fā)言人開始發(fā)言。在這種情況下，發(fā)言人識別模塊M能夠向端點10指出是否是相同的發(fā)言人在發(fā)言。于是，端點10能夠借助人物畫面攝像機50B，繼續(xù)當(dāng)前發(fā)言人的拉近畫面，而不是切換到另一個畫面。舉例說明的操作方法的細節(jié)方面的各種變化都是可能的，而不脫離下述權(quán)利要求的范圍。例如，圖解說明的流程圖步驟或過程步驟可按照與這里公開的順序不同的順序執(zhí)行識別的步驟。另一方面，一些實施例可以結(jié)合這里被描述成獨立步驟的活動。類似地，取決于實現(xiàn)所述方法的具體操作環(huán)境，一個或多個說明的步驟可被省略。另外，與流程圖或過程步驟相應(yīng)的動作可用可編程控制裝置實現(xiàn)，所述可編程控制裝置執(zhí)行組織成在非暫時性可編程存儲裝置上的一個或多個程序模塊的指令。可編程控制裝置可以是單個計算機處理器，專用處理器(例如，數(shù)字信號處理器，“DSP”)，用通信鏈路耦接的多個處理器，或者定制設(shè)計的狀態(tài)機。定制設(shè)計的狀態(tài)機可被嵌入諸如集成電路之類的硬件裝置中，所述集成電路包括(但不限于)專用集成電路(“ASIC”)或者現(xiàn)場可編程門陣列(“FPGA”)。適合于有形地包含程序指令的非暫時性可編程存儲裝置(有時稱為計算機可讀介質(zhì))包括(但不限于)磁盤(硬盤，軟盤和可拆卸磁盤)和磁帶；光學(xué)介質(zhì)，比如⑶-ROM和數(shù)字視頻光盤(“DVDs”)；和半導(dǎo)體存儲器裝置，比如電可編程只讀存儲器(“EPR0M”)，電可擦可編程只讀存儲器(“EEPR0M”)，可編程門陣列和閃速裝置。優(yōu)選實施例和其它實施例的上述說明并不意圖限制或約束申請人設(shè)想的發(fā)明原理的范圍或適用性。通過公開這里包含的發(fā)明原理，申請人要求換取附加權(quán)利要求給予的所有專利。于是，附加權(quán)利要求最大程度地包括在下述權(quán)利要求或其等同物的范圍內(nèi)的所有修改和變化。
權(quán)利要求
1.一種自動視頻會議方法，包括輸出視頻會議的第一視頻，所述第一視頻利用端點的第一攝像機拍攝，并且以環(huán)境的第一寬畫面進行拍攝；利用端點的麥克風(fēng)，確定表示環(huán)境中的話音的第一音頻的第一位置；使端點的第二攝像機對著所述第一位置；和把視頻會議的輸出從第一視頻切換成第二視頻，第二視頻利用第二攝像機、以第一位置的第一緊湊畫面進行拍攝。
2.按照權(quán)利要求1所述的方法，其中使第二攝像機對著所述第一位置包括用第一緊湊畫面，對第一音頻的第一來源取景。
3.按照權(quán)利要求2所述的方法，其中對第一來源取景包括通過調(diào)整第二攝像機的搖移、俯仰和推拉中的一個或多個，調(diào)整第一緊湊畫面。
4.按照權(quán)利要求2所述的方法，其中對第一來源取景包括在利用第二攝像機拍攝的第二視頻中檢測運動。
5.按照權(quán)利要求4所述的方法，其中檢測運動包括確定第二視頻的第一幀的第一亮度值；確定第二視頻的第二幀的第二亮度值；確定第一亮度值和第二亮度值之間的差值是否表示幀間的運動。
6.按照權(quán)利要求2所述的方法，其中對第一來源取景包括在利用第二攝像機拍攝的第二視頻中檢測表示人類皮膚的色調(diào)。
7.按照權(quán)利要求6所述的方法，其中檢測表示人類皮膚的色調(diào)包括確定在第二視頻的一幀的至少一部分內(nèi)的色度值；和確定所述色度值是否在人類皮膚色調(diào)的范圍之內(nèi)。
8.按照權(quán)利要求2所述的方法，其中對第一來源取景包括在利用第二攝像機拍攝的第二視頻中檢測人臉。
9.按照權(quán)利要求1所述的方法，其中在使第二攝像機對著第一位置時，輸出利用第一攝像機拍攝的第一視頻，其中在使第二攝像機對著第一位置之后，把輸出從第一視頻切換成第二視頻。
10.按照權(quán)利要求1所述的方法，其中確定第一位置包括通過分析利用麥克風(fēng)捕捉的第一音頻，確定至少兩個正交的方位角。
11.按照權(quán)利要求1所述的方法，其中確定第一位置包括獲得第一音頻的樣本；計算每個樣本的坐標(biāo)；和計算每個樣本的瞬態(tài)性值，所述瞬態(tài)性值表示樣本中的第一音頻的瞬態(tài)性。
12.按照權(quán)利要求11所述的方法，其中確定第一位置包括聚類計算的樣本的坐標(biāo)；和根據(jù)瞬態(tài)性值和樣本的聚類，確定第一位置的坐標(biāo)。
13.按照權(quán)利要求11所述的方法，其中計算每個樣本的瞬態(tài)性值包括利用高通濾波器對每個樣本濾波；使每個濾波后的樣本與匹配濾波器相關(guān)；和根據(jù)所述相關(guān)，得到標(biāo)量值。
14.按照權(quán)利要求1所述的方法，還包括檢測表示環(huán)境中的話音的音頻的不存在；和響應(yīng)檢測到所述音頻的不存在，把視頻會議的輸出從第二視頻切換成第一視頻。
15.按照權(quán)利要求1所述的方法，還包括檢測表示環(huán)境中的話音的第二音頻；和響應(yīng)檢測到所述第二音頻，確定第二音頻的第二位置。
16.按照權(quán)利要求15所述的方法，還包括把視頻會議的輸出從第二視頻切換成第一視頻；使第二攝像機對著第二位置；和把視頻會議的輸出從第一視頻切換成第三視頻，所述第三視頻利用第二攝像機、以第二位置的第二緊湊畫面進行拍攝。
17.按照權(quán)利要求15所述的方法，還包括檢測第一位置和第二位置之間的音頻交換；和響應(yīng)檢測到所述音頻交換，把視頻會議的輸出從第二視頻切換成第一視頻。
18.按照權(quán)利要求17所述的方法，還包括使第二攝像機對著第一位置和第二位置；和把視頻會議的輸出從第一視頻切換成第三視頻，所述第三視頻利用第二攝像機、以第一位置和第二位置的第三緊湊畫面進行拍攝。
19.按照權(quán)利要求1所述的方法，還包括檢測第一位置和遠端端點之間的音頻交換；和即使當(dāng)確定不存在表示視頻會議環(huán)境中的話音的音頻時，仍然維持第二視頻的輸出。
20.一種保存有程序指令的程序存儲裝置，所述程序指令使可編程控制裝置執(zhí)行按照權(quán)利要求1所述的方法。
21.一種視頻會議設(shè)備，包括拍攝第一視頻的第一攝像機；拍攝第二視頻的第二攝像機；捕捉音頻的多個麥克風(fēng)；與網(wǎng)絡(luò)通信耦接的網(wǎng)絡(luò)接口；和操作上與網(wǎng)絡(luò)接口、第一和第二攝像機以及麥克風(fēng)耦接的處理單元，所述處理單元被編程，以便輸出利用第一攝像機、以視頻會議環(huán)境的寬畫面進行拍攝的第一視頻；確定利用麥克風(fēng)捕捉的表示話音的第一音頻的第一位置；使第二攝像機以第一緊湊畫面對著第一位置；和把輸出從第一視頻切換成第二視頻。
22.按照權(quán)利要求21所述的設(shè)備，其中第一攝像機包括電子云臺攝像機，其中第二攝像機包括可操縱的云臺攝像機。
23.按照權(quán)利要求21所述的設(shè)備，還包括上面集成地放置第一和第二攝像機并且上面集成地放置麥克風(fēng)的機架。
24.按照權(quán)利要求21所述的設(shè)備，還包括上面可拆卸地放置第一和/或第二攝像機并且上面集成地放置麥克風(fēng)的底座。
全文摘要
本公開涉及具有多個語音跟蹤攝像機的視頻會議端點。視頻會議設(shè)備自動跟蹤房間中的發(fā)言人，并在受控的人物畫面攝像機和固定的房間畫面攝像機之間動態(tài)切換。當(dāng)無人發(fā)言時，設(shè)備向遠端顯示房間畫面。當(dāng)在房間中存在一位主發(fā)言人時，設(shè)備使人物畫面攝像機對著所述主發(fā)言人，并從房間畫面攝像機切換到人物畫面攝像機。當(dāng)在房間中存在新的發(fā)言人時，設(shè)備首先切換到房間畫面攝像機，使人物畫面攝像機對著新的發(fā)言人，隨后切換到對準(zhǔn)新的發(fā)言人的人物畫面攝像機。當(dāng)存在進行會話的兩位近端發(fā)言人時，設(shè)備跟蹤和拉近人物畫面攝像機，以致兩位發(fā)言人都在畫面中。
文檔編號G06K9/00GK102256098SQ20111012730
公開日2011年11月23日申請日期2011年5月17日優(yōu)先權(quán)日2010年5月18日
發(fā)明者J·加梅爾, P·舒, W·鄧?yán)? 馮津偉申請人:寶利通公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮津偉;P·舒;W·鄧?yán)?J·加梅爾
技術(shù)所有人：寶利通公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

視頻會議攝像機相關(guān)技術(shù)

索尼視頻會議攝像機相關(guān)技術(shù)

高清視頻會議攝像機相關(guān)技術(shù)

華為視頻會議攝像機相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

具有多個語音跟蹤攝像機的視頻會議端點的制作方法