欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

自動(dòng)多攝像機(jī)視頻合成的制作方法

文檔序號(hào):7669515閱讀:623來(lái)源:國(guó)知局
專利名稱:自動(dòng)多攝像機(jī)視頻合成的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及多攝像機(jī)視頻系統(tǒng),特別涉及一種自動(dòng)多攝像機(jī)視頻合成系統(tǒng)及其操作方法。
背景技術(shù)
在通常的視頻傳輸和紀(jì)錄領(lǐng)域中,經(jīng)常從多個(gè)視點(diǎn)或位置同時(shí)捕捉視頻。一個(gè)普通的例子就是體育廣播例如棒球比賽可能使用五個(gè)或更多個(gè)攝像機(jī)來(lái)從多個(gè)視角捕捉動(dòng)作。一個(gè)或多個(gè)技術(shù)員在這些攝像機(jī)之間進(jìn)行切換,以提供包括比賽中此刻發(fā)生事件的最佳視角的電視信號(hào)。另一個(gè)例子是電影。然而電影編輯要在記錄事件很長(zhǎng)時(shí)間后,利用多個(gè)攝像機(jī)拍攝的大多數(shù)場(chǎng)景以特定的合成順序而進(jìn)行。
雖然可能比體育競(jìng)賽或電影少一些刺激,但多攝像機(jī)視頻數(shù)據(jù)還有很多其它應(yīng)用。例如,攝像機(jī)角度的選擇可以對(duì)幾乎任何錄像或廣播事件提供更豐富的紀(jì)錄,而不論該事件是會(huì)議、演講、視頻會(huì)議或電子教室,下面說(shuō)明一些例子。
兩個(gè)研究者根據(jù)講話者的動(dòng)作模式提出了一種應(yīng)用于視頻會(huì)議的自動(dòng)攝像機(jī)切換策略。參見1984年11月26-29日IEEE全球電話討論會(huì)議記錄第313-318頁(yè)中F.Canavesio&G.Castagneri所作的“根據(jù)視頻會(huì)議中的動(dòng)作模式進(jìn)行自動(dòng)攝像機(jī)切換的策略”。該論文中所述的系統(tǒng)對(duì)六個(gè)視頻會(huì)議參加者中的每一個(gè)都配有一個(gè)麥克風(fēng)和一個(gè)攝像機(jī)。提供另外兩個(gè)攝像機(jī)用于示出所有參加者的分屏全景的輸入。一微處理器周期性的執(zhí)行“有效講話人識(shí)別處理”,用于檢測(cè)所有的參加者中的哪個(gè)人正在講話,并創(chuàng)建一個(gè)包括六個(gè)“講話/不講話”值的二進(jìn)制有效圖案。
在系統(tǒng)中輸入多個(gè)時(shí)基閾值。該微處理器執(zhí)行聲音切換運(yùn)算,確定七個(gè)攝像機(jī)視圖(六個(gè)個(gè)人的加一個(gè)全景)中的每一個(gè)對(duì)應(yīng)用于哪個(gè)二進(jìn)制有效圖案。實(shí)際上,該算法根據(jù)誰(shuí)正在講話、哪個(gè)攝像機(jī)當(dāng)前被選擇、以及當(dāng)前被選擇的攝像機(jī)視圖是否已經(jīng)被保持最小的時(shí)間量來(lái)決定在新的估算間隔中使用哪個(gè)攝像機(jī)視圖。如果檢測(cè)到同時(shí)有一個(gè)以上的講話人或沒(méi)有一個(gè)人講話,則系統(tǒng)將在預(yù)定量的時(shí)間后切換到會(huì)議的全景圖。通常,當(dāng)檢測(cè)到一個(gè)人講話時(shí),如果他們持續(xù)的講話或中間只是稍有停頓,系統(tǒng)都將持續(xù)的選擇最靠近該講話人的視圖。


通過(guò)閱讀參照下面附圖的說(shuō)明可以更好的理解本發(fā)明,其中圖1示出本發(fā)明一個(gè)實(shí)施例的典型的攝像機(jī)/麥克風(fēng)結(jié)構(gòu);圖2示出根據(jù)本發(fā)明一個(gè)實(shí)施例的自動(dòng)多攝像機(jī)視頻合成系統(tǒng)的談話圖;圖3包括根據(jù)本發(fā)明一個(gè)實(shí)施例的視頻自動(dòng)選擇器的方塊圖;圖4包括用于本發(fā)明一個(gè)實(shí)施例的音頻配樂(lè)加權(quán)級(jí)別函數(shù)的圖表;圖5包括根據(jù)本發(fā)明一個(gè)實(shí)施例的視頻源自動(dòng)選擇流程圖;圖6示出用于本發(fā)明一個(gè)實(shí)施例的攝像機(jī)/麥克風(fēng)結(jié)構(gòu);圖7示出使用根據(jù)本發(fā)明實(shí)施例的一個(gè)視頻音頻選擇器的網(wǎng)絡(luò)視頻會(huì)議結(jié)構(gòu)。
實(shí)施例的詳細(xì)描述本發(fā)明包括用于選擇多個(gè)并行視頻輸入中的一個(gè)作為視頻輸出的系統(tǒng)和方法。通常,進(jìn)行切換決定時(shí)并不需要關(guān)于攝像機(jī)定位的特別知識(shí)或視頻流自身的信息。相反,所述的實(shí)施例可以利用音頻輸入和視頻輸入選擇歷史來(lái)選擇一個(gè)視頻輸出。這樣可極大的緩減系統(tǒng)校準(zhǔn)和處理功率的需要,同時(shí)還可使視頻輸入選擇的變化看起來(lái)自然。
這里研究的是在很多視頻場(chǎng)景(特別是對(duì)話式場(chǎng)景)中,多個(gè)可用的攝像機(jī)角度中最好的是與有效講話人(或其他聲音源)的位置最直接相關(guān)的角度。所述實(shí)施例可很好的利用該研究,根據(jù)音頻有效的位置來(lái)選擇一個(gè)視頻源。所述實(shí)施例使用一個(gè)相關(guān)矩陣,該矩陣將多個(gè)音頻輸入中的每一個(gè)與至少一個(gè)視頻輸入相關(guān)聯(lián)。當(dāng)一個(gè)特定音頻輸入表現(xiàn)出音頻有效性增加時(shí),與該音頻輸入相關(guān)的視頻輸入將更可能被選為當(dāng)前視頻輸出。
在所述實(shí)施例部分的基于音頻有效性而進(jìn)行視頻輸出選擇的同時(shí),最好將其它因素也考慮到選擇過(guò)程中。這些其他因素中最顯著的是視頻源選擇的時(shí)間歷史。例如一個(gè)人可在合成視頻中的講話中占用較長(zhǎng)的時(shí)間。雖然在該延長(zhǎng)的間隔期間,通常有一個(gè)攝像機(jī)角度為“最佳”,但“最佳”的合成視頻流有時(shí)也應(yīng)當(dāng)示出,例如更寬角度的視圖、從另一個(gè)比最佳視點(diǎn)稍差的視點(diǎn)看到的講話人或沉默的參加者的視圖。通過(guò)使用時(shí)間歷史,所述的實(shí)施例可以在使一個(gè)“最佳”音頻信道占主導(dǎo)的同時(shí),選擇一個(gè)混合的攝像機(jī)角度?;蛘咦鳛榱硪焕?,可以使用時(shí)間歷史來(lái)提高平滑度標(biāo)準(zhǔn),例如通過(guò)提供它,每當(dāng)選擇一個(gè)新的攝像角度時(shí),該角度將在某初始時(shí)間接收到更大的保持被選擇的可能性。
所述實(shí)施例提出了在Canavesio和Castagneri的系統(tǒng)中沒(méi)有出現(xiàn)的幾個(gè)特征。例如,利用本系統(tǒng),音頻計(jì)數(shù)將不局限于二進(jìn)制處理,攝像機(jī)/麥克風(fēng)的聯(lián)系變的靈活,允許多個(gè)麥克風(fēng)與一個(gè)攝像機(jī)聯(lián)系,反之亦然。這將不確定性的方面引入了視頻切換的計(jì)時(shí),并引入了背景技術(shù)中沒(méi)有提到的多個(gè)可能的切換條件(根據(jù)所給出的講話模式)。在至少一個(gè)實(shí)施例中,可在不同的遠(yuǎn)距離位置產(chǎn)生視頻輸入,各個(gè)位置可能接收到與其它位置不同的視頻會(huì)議的視圖。
更為重要的是,所述實(shí)施例可防止在一個(gè)很長(zhǎng)的時(shí)間段中對(duì)一個(gè)攝像機(jī)的連續(xù)選擇,即使該攝像機(jī)示出一個(gè)長(zhǎng)篇大論的講話人的特寫鏡頭也不例外。當(dāng)一個(gè)人獨(dú)占整個(gè)會(huì)議時(shí),通過(guò)插播其他參加者的簡(jiǎn)短鏡頭和或全景鏡頭,可以增加視頻輸出的視覺(jué)效果。
為了進(jìn)一步說(shuō)明這些原則,參照?qǐng)D1的會(huì)議室結(jié)構(gòu)20來(lái)說(shuō)明第一實(shí)施例。在結(jié)構(gòu)20中,在會(huì)議桌周圍放置三個(gè)麥克風(fēng)A1、A2、A3。會(huì)議桌周圍同樣安裝了三個(gè)視頻攝像機(jī)C1、C2、C3。攝像機(jī)C1的視野包括麥克風(fēng)A1,攝像機(jī)C2的視野包括麥克風(fēng)A2,攝像機(jī)C3的視野包括麥克風(fēng)A3。
圖2示出一種視頻切換系統(tǒng)30的結(jié)構(gòu),它用于例如圖1所示的結(jié)構(gòu)20的麥克風(fēng)/攝像機(jī)結(jié)構(gòu)。一視頻自動(dòng)選擇器40接收到各麥克風(fēng)A1、A2和A3的音頻輸入。視頻切換器50接收到各攝像機(jī)C1、C2、C3的視頻輸入。視頻自動(dòng)選擇器40產(chǎn)生一個(gè)音頻輸出和一個(gè)切換命令。視頻切換器50利用該切換命令將視頻源C1、C2、C3中的一個(gè)輸出的視頻切換為視頻輸出。
圖3包含視頻自動(dòng)選擇器40的更詳細(xì)的方塊圖。下面將順序說(shuō)明圖3種的各方塊。
參數(shù)接口42向切換邏輯電路44提供操作參數(shù)。最佳的,這些參數(shù)中至少一部分可以根據(jù)預(yù)先設(shè)定的模式單獨(dú)或成組的由用戶調(diào)節(jié)。下面結(jié)合各參數(shù)應(yīng)用來(lái)說(shuō)明它們的含義。
一音頻計(jì)數(shù)器45接收音頻輸入A1、A2和A3。檢測(cè)間隔長(zhǎng)度輸入?yún)?shù)(參數(shù)接口42輸入)確定計(jì)算音頻計(jì)數(shù)的時(shí)間長(zhǎng)度。當(dāng)新的檢測(cè)間隔將要開始時(shí),切換邏輯電路44向計(jì)數(shù)器45提供一復(fù)位信號(hào)。該音頻計(jì)數(shù)器為各音頻輸入A1、A2、A3形成音頻計(jì)數(shù),表現(xiàn)為在檢測(cè)間隔期間音頻輸入的音頻有效性的級(jí)別。在該間隔結(jié)束時(shí),向切換邏輯電路44發(fā)送該音頻計(jì)數(shù)。
切換邏輯電路44進(jìn)行實(shí)際判斷,決定在給定的檢測(cè)間隔期間,選擇哪個(gè)視頻源作為當(dāng)前視頻源。該決定部分地基于在該檢測(cè)間隔期間的音頻計(jì)數(shù)。該決定也基于存儲(chǔ)在狀態(tài)存儲(chǔ)器46中的變量,下面利用參數(shù)接口42提供的參數(shù)進(jìn)行說(shuō)明。
狀態(tài)存儲(chǔ)器46存儲(chǔ)至少一部分視頻源選擇的時(shí)間歷史。在一個(gè)簡(jiǎn)單的情況中,該歷史包括上次選擇的視頻源和相關(guān)的視頻片段長(zhǎng)度(表示上次選擇的視頻源保持被選擇狀態(tài)的時(shí)間長(zhǎng)度)。該歷史也可根據(jù)類型對(duì)視頻片段分類。該歷史中還有其他有用的項(xiàng)目,例如各沒(méi)有被選擇的視頻源從上次被選擇直到現(xiàn)在的時(shí)間長(zhǎng)度和/或以前n個(gè)視頻片段的歷史。
可選擇的,視頻自動(dòng)選擇器40可包括一音頻混頻器48。切換邏輯電路44可以根據(jù)當(dāng)前的視頻選擇向混頻器48提供一個(gè)音頻控制?;蛘撸梢怨潭ɑ祛l器48,例如使其平均的混合所有的音頻輸入以形成一個(gè)音頻輸出。
視頻自動(dòng)選擇器40的一個(gè)操作方法如下。該系統(tǒng)考慮在視頻信道/音頻傳感器相關(guān)參數(shù)中指定的視頻信道和音頻傳感器。這種相關(guān)可以是手動(dòng)的(由用戶設(shè)定),固定的(例如,各視頻攝像機(jī)連接一個(gè)定向的麥克風(fēng)),或者根據(jù)物理結(jié)構(gòu)信息(例如已知的麥克風(fēng)位置和攝像機(jī)視野)自動(dòng)設(shè)定。這種相關(guān)可為1∶1,即一個(gè)音頻輸入對(duì)應(yīng)一個(gè)視頻輸入;在其他實(shí)施例中,一個(gè)音頻輸入可以對(duì)應(yīng)多個(gè)視頻輸入,反之亦然。在圖1、2和3的第一實(shí)施例中,A1對(duì)應(yīng)C1,A2對(duì)應(yīng)C2,A3對(duì)應(yīng)C3。這種對(duì)應(yīng)可以表示為一個(gè)N×M矩陣,其中N為音頻輸入的數(shù)目,M為視頻輸入的數(shù)目。當(dāng)對(duì)應(yīng)關(guān)系為1∶1(即N=M)時(shí),可以使用兩個(gè)長(zhǎng)度為N的陣列A[i]表示音頻輸入,V[i]表示對(duì)應(yīng)視頻輸入。
圖5包括一個(gè)流程圖60,它包括一個(gè)視頻源選擇處理的循環(huán)步驟。該系統(tǒng)以多種方式實(shí)現(xiàn)視頻源選擇時(shí)間歷史。首先是在判斷方塊62的每個(gè)源選擇循環(huán)開始時(shí)發(fā)生。每當(dāng)系統(tǒng)切換到一個(gè)不同的視頻源時(shí),該系統(tǒng)可以被控制為在至少最小視頻片段長(zhǎng)度(例如,在示意性例子中為4秒)內(nèi)鎖定該視頻源。在該初始間隔期間,該系統(tǒng)只進(jìn)行計(jì)時(shí),直到達(dá)到該最小視頻片段長(zhǎng)度為止,系統(tǒng)不做任何處理,只是循環(huán)執(zhí)行方塊62和64。
當(dāng)片段長(zhǎng)度最后達(dá)到了該最小片段長(zhǎng)度時(shí),從塊62轉(zhuǎn)到執(zhí)行塊66。在塊66,音頻檢測(cè)間隔開始。該檢測(cè)間隔可根據(jù)系統(tǒng)模式,以多種方式中的一種與視頻切換點(diǎn)相關(guān)。至少有兩種模式,即實(shí)時(shí)合成模式和后期(例如檔案式)合成模式。在實(shí)時(shí)合成模式中,視頻切換利用一個(gè)包括前面音頻采樣的音頻檢測(cè)間隔。例如,如果ts為可能的切換點(diǎn),且檢測(cè)間隔的長(zhǎng)度為TE,則用于切換點(diǎn)ts的檢測(cè)間隔從ts-TE開始。后期合成模式由于不具有實(shí)時(shí)限制,因此可以對(duì)音頻采樣進(jìn)行“預(yù)測(cè)”,看看下面誰(shuí)將講話,從而可能切換視頻源并實(shí)現(xiàn)在新的講話人開始講話的同時(shí)播出他的畫面。例如,在后期合成模式中,對(duì)視頻切換點(diǎn)ts的檢測(cè)間隔可以在ts-TE/5處開始,并持續(xù)到ts+4TE/5結(jié)束,從而對(duì)切換點(diǎn)之前的講話人給出一些加權(quán),并對(duì)切換點(diǎn)之后將要講話的人給出加權(quán)值。
音頻計(jì)數(shù)器(scorer)45在檢測(cè)間隔開始時(shí)復(fù)位各音頻輸入??紤]到數(shù)字實(shí)施,其中每個(gè)音頻輸入都是一個(gè)脈沖編碼調(diào)制的采樣流,采樣被認(rèn)為成組。例如,利用以8kHz采樣的音頻流,可以認(rèn)為采樣為具有50個(gè)連續(xù)采樣的組(例如,6.25毫秒的時(shí)間子窗)。
對(duì)于每個(gè)時(shí)間子窗和音頻輸入,可以確定最大和最小采樣值。計(jì)算這兩個(gè)采樣值之間的差值,表示出(近似的)該子窗的音頻輸入的最大峰-峰幅度。
在該子窗的末端,將對(duì)該音頻輸入計(jì)算出的差值與對(duì)該子窗的其他音頻輸入計(jì)算出的差值進(jìn)行比較。計(jì)算所得的差值最大的輸入“贏得”該子窗,且它的音頻計(jì)數(shù)加一?;蛘撸镁哂凶畲笥?jì)算差值的計(jì)數(shù)對(duì)所有的計(jì)算差值進(jìn)行歸一化,然后使每個(gè)計(jì)數(shù)加上該歸一化后的差值。
在檢測(cè)間隔中對(duì)每個(gè)子窗連續(xù)進(jìn)行該處理。在檢測(cè)間隔的末端,各音頻計(jì)數(shù)表示對(duì)應(yīng)的音頻輸入具有最大的計(jì)算差值的子窗的數(shù)目。
在本實(shí)施例中,當(dāng)前的視頻片段可歸類為常規(guī)視頻片段和臨時(shí)視頻片段這兩種類型中的一個(gè)。常規(guī)的視頻片段是被選擇作為音頻計(jì)數(shù)加權(quán)比較的結(jié)果(馬上將要說(shuō)明)。臨時(shí)視頻片段是當(dāng)由于前面的常規(guī)片段已經(jīng)達(dá)到一定長(zhǎng)度,需要采取其他措施來(lái)增加進(jìn)行切換的可能性時(shí)被選擇的片段。
塊68根據(jù)當(dāng)前片段類型進(jìn)行切換。當(dāng)片段類型為臨時(shí)類型時(shí),計(jì)數(shù)越過(guò)加權(quán)函數(shù)而執(zhí)行塊72。但如果片段連續(xù)經(jīng)過(guò)該循環(huán),則意味著該片段的選擇是在頭對(duì)頭非加權(quán)比較的計(jì)數(shù)情況下進(jìn)行的,因此塊72將片段類型從臨時(shí)片段設(shè)為常規(guī)片段。
在當(dāng)前視頻片段已經(jīng)是常規(guī)片段時(shí),對(duì)該片段的音頻計(jì)數(shù)在塊70加權(quán)。對(duì)應(yīng)該音頻計(jì)數(shù)的加權(quán)是該片段長(zhǎng)度的一個(gè)函數(shù)。
圖4示出一個(gè)可能的加權(quán)函數(shù)。在新片段的開始處,該源的加權(quán)與所有其他源的加權(quán)相同。但是,隨著片段長(zhǎng)度不斷增加,當(dāng)前源加權(quán)逐步降低,從而增加了選擇其他源的可能性。
雖然可以使用平滑的加權(quán)函數(shù),但圖4的階梯式函數(shù)可根據(jù)基于片段長(zhǎng)度的查詢操作來(lái)確定加權(quán)。計(jì)算一個(gè)整數(shù)索引n,其中TL為當(dāng)前片段長(zhǎng)度,TP為最佳視頻片段長(zhǎng)度,C為調(diào)節(jié)圖4中的x比例的常數(shù)(這樣衰減函數(shù)處理很快) 該索引n用于從陣列W中選擇一個(gè)加權(quán),該陣列W從0到8索引,其中W={1.0,1.0,0.9,0.85,0.8,0.5,0.375,0.2,0.1}。
在包括上述W值的一個(gè)示例結(jié)構(gòu)中,TP=9且C=5。對(duì)應(yīng)當(dāng)前片段的加權(quán)緩慢減小,直到該片段達(dá)到最佳片段長(zhǎng)度(九秒),從陣列元素0到達(dá)4時(shí)為止。當(dāng)片段達(dá)到九秒的長(zhǎng)度時(shí),其相關(guān)的音頻計(jì)數(shù)將接收到一個(gè)加權(quán)W[5]=0.5,這極大的增加了當(dāng)在第一個(gè)九秒中沒(méi)有選擇其他源時(shí),選擇其他源的可能性。
在當(dāng)前源已持續(xù)了延長(zhǎng)的時(shí)間周期時(shí),塊74可進(jìn)一步增加另一個(gè)源被選擇的可能性。在塊74,當(dāng)前片段長(zhǎng)度與多個(gè)優(yōu)選的片段長(zhǎng)度(這里設(shè)為3.0)進(jìn)行比較。在此例中,一旦該片段長(zhǎng)度超過(guò)了因數(shù)為3的優(yōu)選長(zhǎng)度,則分支進(jìn)行到塊76。在塊76,當(dāng)前源的計(jì)數(shù)被乘以另一個(gè)加權(quán)0.5。同樣,其“將成為類型”(WBT)被設(shè)為臨時(shí)類型。將成為類型是一個(gè)新的片段在此循環(huán)期間被選擇時(shí)將被指定的片段類型。因此WBT=臨時(shí)表示在當(dāng)前片段達(dá)到一個(gè)延長(zhǎng)的長(zhǎng)度后選擇一個(gè)新的源,這個(gè)增加的長(zhǎng)度是為了加入其他插入的源。注意若分支不進(jìn)行到塊76,則到塊78的分支設(shè)定WBT=常規(guī),表示不需塊76的相乘就可選擇任何新的源。
塊80在當(dāng)前檢測(cè)間隔比較加權(quán)的音頻計(jì)數(shù)。例如,通過(guò)將加權(quán)計(jì)數(shù)存儲(chǔ)在索引的陣列v[i]中,塊80可確定最大計(jì)數(shù)的索引i。然后塊82將最大計(jì)數(shù)的索引與當(dāng)前視頻源的索引進(jìn)行比較。若兩個(gè)索引相同,最后被選擇的源已被再次選擇,則當(dāng)前片段繼續(xù)。這樣,塊84增加當(dāng)前片段的長(zhǎng)度。
當(dāng)最大計(jì)數(shù)的索引與當(dāng)前視頻源的索引不匹配時(shí),開始一個(gè)新的源的新片段。塊86將當(dāng)前索引設(shè)定為最大計(jì)數(shù)的索引,將片段長(zhǎng)度復(fù)位為0,并將片段類型設(shè)為等于將成為類型。塊84和86都返回到塊62開始下一個(gè)循環(huán)。
根據(jù)本發(fā)明的實(shí)施例,還可實(shí)施音頻和視頻源的多種其他結(jié)構(gòu)。例如,圖6示出了使用三個(gè)基本攝像機(jī)(C1,C2,C3)和四個(gè)麥克風(fēng)的結(jié)構(gòu)90。攝像機(jī)C1與兩個(gè)麥克風(fēng)A1-L和A1-R相聯(lián),這兩個(gè)麥克風(fēng)都在攝像機(jī)C1的視野中。這種相聯(lián)可以采用多種方式。
一種將多個(gè)音頻輸入與一個(gè)視頻源相聯(lián)接的方法是單獨(dú)地考慮將每個(gè)音頻源并將最高的源(計(jì)數(shù))作為相應(yīng)視頻源的原始計(jì)數(shù)。這就是對(duì)相應(yīng)于一個(gè)視頻源的音頻源的矢量取無(wú)窮模方。也可使用其它的模方,例如1-模方(兩個(gè)源的平均)或是2-模方(兩個(gè)源的均方根)。
將多個(gè)攝像機(jī)與多個(gè)音頻輸入連接的另一種方法是規(guī)定一個(gè)相關(guān)矩陣。這樣不僅可實(shí)現(xiàn)多個(gè)音頻傳感器與一個(gè)視頻源相連,還可實(shí)現(xiàn)多個(gè)視頻源與一個(gè)音頻源相連。例如,在圖6中示出了第四攝像機(jī)C4。攝像機(jī)C4示出了整個(gè)會(huì)議桌的一個(gè)寬視角視圖。下面是一個(gè)可能的相關(guān)矩陣
視頻 音頻傳感器源 A1-L A1-RA2 A3C1 1.0 1.0 0.00.0C2 0.0 0.0 1.00.1C3 0.0 0.0 0.01.0C4 0.2 0.2 0.10.1通過(guò)這個(gè)矩陣,攝像機(jī)C4的寬視角場(chǎng)景可接收每個(gè)音頻輸入的計(jì)數(shù)的一部分,從而有可能在一個(gè)人講話時(shí)間過(guò)長(zhǎng)時(shí)該系統(tǒng)偶爾的選擇寬視角場(chǎng)景。同樣示出的是音頻傳感器A3和攝像機(jī)C2的較小加權(quán)。攝像機(jī)C2示出了環(huán)繞音頻傳感器A3區(qū)域的近距離視圖,從而在A3附近的講話者講話時(shí)間過(guò)長(zhǎng)時(shí)偶爾選擇該視圖作為一個(gè)變換的視圖。
雖然之前的例子示出了一個(gè)單會(huì)議房間多攝像機(jī)的結(jié)構(gòu),但根據(jù)本發(fā)明的視頻自動(dòng)選擇并不局限于這種應(yīng)用。例如,圖7示出了通過(guò)一個(gè)通信網(wǎng)絡(luò)96(即,一個(gè)電路交換網(wǎng)絡(luò),一個(gè)分組交換網(wǎng)絡(luò),或兩者的結(jié)合)進(jìn)行操作的實(shí)施例92。
圖7示出了三個(gè)“會(huì)議點(diǎn)”100,200,300。這些點(diǎn)可表示一個(gè)三維的視頻會(huì)議,但也可適用于其他應(yīng)用,例如保衛(wèi),賭博,電子教室等。每個(gè)會(huì)議點(diǎn)包含至少一個(gè)攝像機(jī)(即C1),音頻傳感器(即A1)和顯示器(即D1),它們都與編解碼器(coder)(即102)相連。每個(gè)編解碼器102,202,302通過(guò)網(wǎng)絡(luò)96與視頻自動(dòng)選擇器94進(jìn)行通信。
一種操作的方法是,編解碼器100將來(lái)自C1的視頻和來(lái)自A1的音頻編碼,將編碼的視頻和音頻流傳送至視頻自動(dòng)選擇器94。編解碼器202和302對(duì)他們的視頻和音頻流也進(jìn)行相應(yīng)的操作。每個(gè)編解碼器可根據(jù)已知的視頻和/或音頻編碼/壓縮/打包算法進(jìn)行操作。視頻自動(dòng)選擇器94然后可使用音頻流(和選擇時(shí)間歷史)來(lái)選擇對(duì)每個(gè)會(huì)議點(diǎn)將提供哪個(gè)視頻流。這種功能操作與上述的單個(gè)房間的例子類似,除了每個(gè)會(huì)議點(diǎn)可在任一給定時(shí)間接收與其他會(huì)議點(diǎn)不同的視頻源。在自動(dòng)選擇器94中,切換邏輯電路的一個(gè)單獨(dú)部分可與每個(gè)端點(diǎn)相匹配,每個(gè)部分都保持對(duì)該端點(diǎn)的選擇時(shí)間歷史。切換的視頻流到達(dá)它們的目的端點(diǎn),其中各個(gè)編解碼器對(duì)它們解碼并將它們顯示在附加的顯示器上。音頻流可以被自動(dòng)選擇器94所混合或切換,或者每個(gè)端點(diǎn)都可以從其它的端點(diǎn)接收到音頻流。
操作可以在幾個(gè)方面被改善。當(dāng)自動(dòng)選擇器不進(jìn)行視頻流的實(shí)際處理時(shí),他們可能不需要視頻流通過(guò)自動(dòng)選擇器。相反,自動(dòng)選擇器94可以通知該端點(diǎn)何時(shí)(以及到其他哪個(gè)端點(diǎn))提供輸出視頻流,并且該視頻流可以通過(guò)網(wǎng)絡(luò)96直接在端點(diǎn)之間傳送。這種改進(jìn)的一個(gè)優(yōu)點(diǎn)是可以減少未被選擇的視頻源所占用的帶寬。自動(dòng)選擇器94還可提供所需的橋接和轉(zhuǎn)換功能,并可作為該會(huì)議的通用連接點(diǎn)。
圖7的通用示例可以有多種方式的變形。該自動(dòng)選擇器可以以物理方式安置在其中一個(gè)端點(diǎn)處。某些端點(diǎn)可以只接音頻,或者只是接收。一個(gè)端點(diǎn)還可以具有多個(gè)音頻和/或視頻傳感器,這樣,該端點(diǎn)的編碼器可以編碼多個(gè)碼流,或者可以使用一個(gè)另外的自動(dòng)選擇器(例如上述單房間的例子)為該端點(diǎn)選擇一個(gè)輸出碼流。
上述的實(shí)施例特別適用于可編程數(shù)字處理系統(tǒng)的實(shí)施,例如用于自動(dòng)選擇任務(wù)的專用數(shù)字信號(hào)處理器,或是編程執(zhí)行自動(dòng)選擇任務(wù)的通用計(jì)算機(jī)。例如,在通用計(jì)算機(jī)中,音頻輸入可被提供至一個(gè)或多個(gè)與計(jì)算機(jī)相連的聲卡。該聲卡對(duì)音頻信號(hào)進(jìn)行數(shù)字化處理,并將數(shù)字化后的音頻信號(hào)提供至計(jì)算機(jī)的中央處理單元和附加存儲(chǔ)器。該計(jì)算機(jī)用于運(yùn)行一個(gè)軟件處理以恢復(fù)該數(shù)字音頻信號(hào),計(jì)算音頻計(jì)數(shù),并根據(jù)在先的描述進(jìn)行周期性地視頻切換決定(可選擇的,音頻計(jì)數(shù)或音頻計(jì)數(shù)的一部分可在聲卡上進(jìn)行)。該軟件處理產(chǎn)生視頻切換信號(hào)送至,例如,執(zhí)行視頻切換的單獨(dú)處理或裝置,視頻卡,或是作為網(wǎng)絡(luò)信號(hào)送至另一個(gè)計(jì)算機(jī)。
根據(jù)可編程計(jì)算機(jī)的例子,本發(fā)明的一個(gè)方面包括一個(gè)裝置,該裝置包括一個(gè)包含計(jì)算機(jī)指令的計(jì)算機(jī)可讀介質(zhì),當(dāng)執(zhí)行該指令時(shí),可使一個(gè)或多個(gè)處理器根據(jù)自動(dòng)選擇一個(gè)視頻源的方法而進(jìn)行操作。例如,在上述的計(jì)算機(jī)例子中,軟件處理可被存儲(chǔ)在磁性或光學(xué)媒體上,半導(dǎo)體存儲(chǔ)器中,或是可通過(guò)網(wǎng)絡(luò)訪問(wèn)的遠(yuǎn)程位置。
雖然音頻計(jì)數(shù)和視頻源選擇中包含有特定的計(jì)算方法,這些都只是舉例。本領(lǐng)域的普通技術(shù)人員在閱讀了本說(shuō)明后可以實(shí)現(xiàn)能達(dá)到與本公開實(shí)施例類似功能的許多種變形。例如除了對(duì)當(dāng)前視頻源進(jìn)行下降加權(quán)計(jì)算外,未被選擇的源對(duì)于它們保持未選擇的狀態(tài)也可進(jìn)行上升加權(quán)計(jì)算。臨時(shí)片段與常規(guī)片段的最小片段長(zhǎng)度可以是不同的,和/或使用不同的加權(quán)函數(shù)。也可以混合應(yīng)用其他原理,例如每T秒某個(gè)源必須被選擇至少一次。也可以使用不同的原理應(yīng)用于更復(fù)雜的場(chǎng)景,例如對(duì)于包含一個(gè)主要講話人的交替切換和包含多個(gè)主講話人,每人短時(shí)講話的交替切換,使用不同的加權(quán)函數(shù)或檢測(cè)間隔。
音頻計(jì)數(shù)在系統(tǒng)和系統(tǒng)之間可能非常不同。所公開的計(jì)數(shù)方法,在抑制喧嘩,和例如物體落地或咳嗽這樣的瞬時(shí)噪音時(shí)可正常執(zhí)行,但更復(fù)雜的計(jì)數(shù)方法也可被使用,包括語(yǔ)音識(shí)別和講話者識(shí)別。音頻計(jì)數(shù)的輸入也可被簡(jiǎn)化——除了接收模擬或脈沖編碼調(diào)制音頻流的自動(dòng)選擇器,其也可接收其他信號(hào)。該其他信號(hào)可以是來(lái)自一個(gè)端點(diǎn)的周期性聲音有效檢測(cè)(VAD)信號(hào),以執(zhí)行自身的聲音有效性檢測(cè)。該其他信號(hào)還可以是,例如子帶編碼的音頻信號(hào)。在后一種情況下,音頻計(jì)數(shù)器還可檢測(cè)子帶中的能量分配以進(jìn)行計(jì)數(shù),而不需要重新創(chuàng)建PCM碼流以對(duì)音頻計(jì)數(shù)。
本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到這里所述的概念可以被實(shí)施為特定的例子應(yīng)用于許多其它的有利方面。特別的,本領(lǐng)域的普通技術(shù)人員在閱讀了本說(shuō)明后應(yīng)當(dāng)認(rèn)識(shí)到所描述的例子僅僅是大量變形實(shí)施例中的一個(gè)。音頻流可以被嵌入在視頻流中。音頻計(jì)數(shù)器,和實(shí)施例的其他元件不需要進(jìn)行數(shù)字化處理。視頻流不需要與傳統(tǒng)的模擬攝像機(jī)相關(guān)聯(lián),例如該碼流可以是視頻攝像機(jī)數(shù)字輸入信號(hào),數(shù)字化壓縮的視頻信號(hào),記錄的視頻信號(hào),計(jì)算機(jī)產(chǎn)生的視頻信號(hào)等。這種微小的改變被包含在本發(fā)明中,并落在權(quán)利要求的保護(hù)范圍之內(nèi)。
前述例子都是示例性的。雖然說(shuō)明書中多處使用“一”,“一個(gè)”,“另一個(gè)”,或“一些”實(shí)施例,這并不意味著每個(gè)這種引用都是指相同的實(shí)施例,或者該特征只用于單個(gè)實(shí)施例。
權(quán)利要求
1.一種自動(dòng)視頻切換系統(tǒng),包括多個(gè)音頻輸入,每一個(gè)都與至少一個(gè)對(duì)應(yīng)的視頻源相關(guān)聯(lián);一個(gè)音頻計(jì)數(shù)器,能夠?yàn)槊總€(gè)音頻輸入計(jì)算音頻計(jì)數(shù),給定音頻輸入的該音頻計(jì)數(shù)對(duì)應(yīng)于在一個(gè)檢測(cè)間隔該輸入所接收的音頻信號(hào);狀態(tài)存儲(chǔ)器,用于存儲(chǔ)視頻源選擇的至少一部分時(shí)間歷史;和切換邏輯電路,用于根據(jù)檢測(cè)間隔內(nèi)與每個(gè)視頻源相關(guān)聯(lián)的音頻計(jì)數(shù)的加權(quán)比較,為給定的該檢測(cè)間隔選擇一個(gè)當(dāng)前視頻源,該比較加權(quán)是基于視頻源選擇的部分時(shí)間歷史。
2.如權(quán)利要求1的系統(tǒng),其中該系統(tǒng)能夠在實(shí)時(shí)模式下進(jìn)行操作,其中該切換邏輯電路在視頻流中大約對(duì)應(yīng)于該給定檢測(cè)間隔結(jié)束的一點(diǎn)選擇一個(gè)當(dāng)前視頻源。
3.如權(quán)利要求1的系統(tǒng),其中該系統(tǒng)能夠在后期合成模式下進(jìn)行操作,其中該切換邏輯電路根據(jù)包含對(duì)應(yīng)于視頻流中出現(xiàn)在視頻切換點(diǎn)之后的一個(gè)點(diǎn)的音頻輸入的檢測(cè)間隔,在一個(gè)給定的臨時(shí)視頻切換點(diǎn)選擇一個(gè)當(dāng)前視頻源。
4.如權(quán)利要求1的系統(tǒng),進(jìn)一步包括一個(gè)視頻切換器,用于接收來(lái)自對(duì)應(yīng)于該音頻輸入的視頻源的視頻信號(hào),和將這些視頻源中的一個(gè)切換到響應(yīng)于切換邏輯電路的當(dāng)前視頻源選擇的一個(gè)視頻輸出。
5.如權(quán)利要求1的系統(tǒng),其中每個(gè)視頻源是從以下源構(gòu)成的組中選擇出來(lái)的,包括模擬視頻攝像機(jī)輸出信號(hào),視頻攝像機(jī)數(shù)字輸出信號(hào),數(shù)字化壓縮視頻信號(hào),記錄視頻信號(hào),和計(jì)算機(jī)產(chǎn)生的視頻信號(hào)。
6.如權(quán)利要求1的系統(tǒng),其中該系統(tǒng)包括至少一個(gè)網(wǎng)絡(luò)連接機(jī)構(gòu)以接收其中一個(gè)來(lái)自遠(yuǎn)程端的音頻輸入。
7.如權(quán)利要求1的系統(tǒng),其中該切換邏輯電路能夠?yàn)槎鄠€(gè)遠(yuǎn)程端中的每一個(gè)選擇一個(gè)不同的當(dāng)前視頻源。
8.一種從多個(gè)提供的視頻源中自動(dòng)選擇一個(gè)視頻源的方法,該方法包括將至少一個(gè)音頻源與每個(gè)視頻源相連接;在一個(gè)檢測(cè)間隔內(nèi)估計(jì)從每個(gè)音頻源接收的音頻信號(hào),從而為每個(gè)音頻源形成音頻計(jì)數(shù),該計(jì)數(shù)表示在該檢測(cè)間隔內(nèi)該音頻源的音頻有效性級(jí)別;保持視頻源選擇的至少一部分時(shí)間歷史;為該檢測(cè)間隔對(duì)與每個(gè)視頻源相關(guān)聯(lián)的音頻計(jì)數(shù)執(zhí)行加權(quán)比較,其中該加權(quán)是基于視頻源選擇的部分時(shí)間歷史;和根據(jù)該加權(quán)比較選擇一個(gè)當(dāng)前視頻源。
9.如權(quán)利要求8的方法,其中當(dāng)多于一個(gè)音頻計(jì)數(shù)與一個(gè)給定的視頻源相關(guān)聯(lián)時(shí),選擇與該視頻源相關(guān)聯(lián)的最大音頻計(jì)數(shù)作為該估計(jì)間隔的加權(quán)比較的計(jì)數(shù)。
10.如權(quán)利要求8的方法,其中當(dāng)多于一個(gè)音頻計(jì)數(shù)與一個(gè)給定的視頻源相關(guān)聯(lián)時(shí),通過(guò)計(jì)算這些音頻計(jì)數(shù)的模方將與該視頻源相關(guān)聯(lián)的音頻計(jì)數(shù)結(jié)合起來(lái)。
11.如權(quán)利要求8的方法,其中將至少一個(gè)音頻源與每個(gè)視頻源的連接包括將該連接表示為一個(gè)矩陣,該矩陣指示音頻源和視頻源的每個(gè)連接的權(quán)重,其中加權(quán)比較的執(zhí)行包括,通過(guò)將音頻計(jì)數(shù)以矩陣中的對(duì)應(yīng)權(quán)重進(jìn)行加權(quán),為每個(gè)視頻源產(chǎn)生一個(gè)結(jié)合計(jì)數(shù)。
12.如權(quán)利要求8的方法,其中加權(quán)比較的執(zhí)行包括,根據(jù)一個(gè)加權(quán)函數(shù)將與最后選擇的當(dāng)前視頻源相關(guān)聯(lián)的音頻計(jì)數(shù)進(jìn)行加權(quán),該加權(quán)函數(shù)隨著最后選擇的當(dāng)前視頻源保持被選擇的時(shí)間長(zhǎng)度而改變。
13.如權(quán)利要求12的方法,其中當(dāng)最后選擇的視頻源保持被選擇延長(zhǎng)的時(shí)間周期時(shí),進(jìn)一步對(duì)與該源相關(guān)聯(lián)的音頻計(jì)數(shù)以部分權(quán)重進(jìn)行加權(quán),以減少該源保持被選擇的可能性。
14.如權(quán)利要求8的方法,其中音頻計(jì)數(shù)的形成包括,將檢測(cè)間隔分為多個(gè)時(shí)域子窗,對(duì)于每個(gè)子窗;確定該子窗期間每個(gè)音頻信號(hào)的變化;和對(duì)該子窗內(nèi)具有最大變化的音頻源增加音頻計(jì)數(shù)。
15.如權(quán)利要求8的方法,該方法還包括,當(dāng)其中一個(gè)音頻源和對(duì)應(yīng)的視頻源位于當(dāng)前被選擇的視頻源位置的遠(yuǎn)程端時(shí),通過(guò)一個(gè)通信網(wǎng)絡(luò)接收音頻信號(hào),并通知遠(yuǎn)程端傳送視頻當(dāng)其視頻源被選擇為當(dāng)前視頻源時(shí)。
16.如權(quán)利要求8的方法,其中當(dāng)前視頻源的選擇大約在檢測(cè)間隔結(jié)束時(shí)實(shí)時(shí)的進(jìn)行。
17.如權(quán)利要求8的方法,包括將當(dāng)前視頻源的選擇對(duì)應(yīng)到視頻流中相應(yīng)于該檢測(cè)間隔結(jié)束之前的一個(gè)時(shí)間的一個(gè)點(diǎn)。
18.一種裝置,包括一個(gè)計(jì)算機(jī)可讀介質(zhì),該介質(zhì)包含的計(jì)算機(jī)指令在執(zhí)行時(shí)可使處理器或多個(gè)通信處理器執(zhí)行從多個(gè)提供的視頻源中自動(dòng)選擇一個(gè)視頻源的方法,該方法包括將至少一個(gè)音頻源與每個(gè)視頻源相連接;在一個(gè)檢測(cè)間隔內(nèi)估計(jì)從每個(gè)音頻源接收的音頻信號(hào),從而為每個(gè)音頻源形成音頻計(jì)數(shù),該計(jì)數(shù)表示在該檢測(cè)間隔內(nèi)該音頻源的音頻有效性級(jí)別;保持視頻源選擇的至少一部分時(shí)間歷史;為該檢測(cè)間隔對(duì)與每個(gè)視頻源相關(guān)聯(lián)的音頻計(jì)數(shù)執(zhí)行加權(quán)比較,其中該加權(quán)是基于視頻源選擇的部分時(shí)間歷史;和根據(jù)該加權(quán)比較選擇一個(gè)當(dāng)前視頻源。
19.如權(quán)利要求18的裝置,其中將至少一個(gè)音頻源與每個(gè)視頻源的連接包括將該連接表示為一個(gè)矩陣,該矩陣指示音頻源和視頻源的每個(gè)連接的權(quán)重,其中加權(quán)比較的執(zhí)行包括,通過(guò)將音頻計(jì)數(shù)以矩陣中的對(duì)應(yīng)權(quán)重進(jìn)行加權(quán),為每個(gè)視頻源產(chǎn)生一個(gè)結(jié)合計(jì)數(shù)。
20.如權(quán)利要求18的裝置,其中加權(quán)比較的執(zhí)行包括,根據(jù)一個(gè)加權(quán)函數(shù)將與最后選擇的當(dāng)前視頻源相關(guān)聯(lián)的音頻計(jì)數(shù)進(jìn)行加權(quán),該加權(quán)函數(shù)隨著最后選擇的當(dāng)前視頻源保持被選擇的時(shí)間長(zhǎng)度而改變。
21.如權(quán)利要求18的裝置,其中音頻計(jì)數(shù)的形成包括,將檢測(cè)間隔分為多個(gè)時(shí)域子窗,對(duì)于每個(gè)子窗;確定該子窗期間每個(gè)音頻信號(hào)的變化;和對(duì)該子窗內(nèi)具有最大變化的音頻源增加音頻計(jì)數(shù)。
22.如權(quán)利要求18的裝置,該方法還包括,當(dāng)其中一個(gè)音頻源和對(duì)應(yīng)的視頻源位于當(dāng)前被選擇的視頻源位置的遠(yuǎn)程端時(shí),通過(guò)一個(gè)通信網(wǎng)絡(luò)接收音頻信號(hào),并當(dāng)其視頻源被選擇為當(dāng)前視頻源時(shí)通知遠(yuǎn)程端傳送視頻。
全文摘要
公開了一種方法和裝置,用于從多個(gè)視頻輸入源(C1-C3)中自動(dòng)選擇一個(gè)視頻輸出(50)。一種方法是,每個(gè)視頻輸入源都與一個(gè)或多個(gè)音頻傳感器(A1-A3)相連接。最好,設(shè)置一個(gè)音頻傳感器以接收來(lái)自相關(guān)視頻源的視場(chǎng)的有效覆蓋接收方向的音頻信號(hào)。自動(dòng)選擇器(40)在很短(例如0.5秒)的檢測(cè)間隔內(nèi)為每個(gè)音頻傳感器計(jì)算音頻計(jì)數(shù)。在每個(gè)檢測(cè)間隔,不同的視頻源都有可能被選擇為視頻輸出。自動(dòng)選擇器根據(jù)一個(gè)檢測(cè)間隔的音頻計(jì)數(shù)和視頻源選擇的最近時(shí)間歷史而選擇一個(gè)視頻源。例如,若一個(gè)新的視頻源剛剛被選擇,則一個(gè)不同的源在幾秒之內(nèi)就不能被選擇。時(shí)間歷史的使用還可以增加使源的選擇變換方式看起來(lái)自然的可能性。
文檔編號(hào)H04N7/15GK1479998SQ01820446
公開日2004年3月3日 申請(qǐng)日期2001年11月9日 優(yōu)先權(quán)日2000年12月12日
發(fā)明者M·楊, B·L·耶奧, L·C·泰, M 楊, 泰, 耶奧 申請(qǐng)人:英特爾公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
铅山县| 合山市| 田林县| 基隆市| 五华县| 青河县| 乌兰浩特市| 彩票| 韶山市| 松潘县| 洪雅县| 巫溪县| 嘉黎县| 白水县| 隆回县| 泽普县| 新安县| 修文县| 芦溪县| 东乌| 平乡县| 台湾省| 甘南县| 信宜市| 鄂托克前旗| 新和县| 玉门市| 志丹县| 三台县| 蓝田县| 台安县| 湟中县| 隆安县| 昭平县| 台南县| 资源县| 城固县| 闸北区| 甘德县| 林芝县| 龙江县|