欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

優(yōu)化的視頻快照的制作方法

文檔序號(hào):7802687閱讀:360來源:國(guó)知局
優(yōu)化的視頻快照的制作方法
【專利摘要】本申請(qǐng)涉及優(yōu)化的視頻快照。提供了用于從所捕獲的參加會(huì)議人員的序列中產(chǎn)生優(yōu)化的圖像快照的方法、介質(zhì)和設(shè)備。在有些實(shí)施例中,所述方法、介質(zhì)和設(shè)備用于利用捕獲的圖像作為人的代表性圖像從而作為視頻流的代替、在離線歸檔系統(tǒng)中作為人的表示、或者在系統(tǒng)參與者名單中作為人的表示。
【專利說明】?jī)?yōu)化的視頻快照

【技術(shù)領(lǐng)域】
[0001]本發(fā)明的領(lǐng)域一般涉及用于提供視頻會(huì)議參與者的可視資源的方法、介質(zhì)和設(shè)備。

【背景技術(shù)】
[0002]視頻會(huì)議系統(tǒng)在廣泛使用,并且使得在完全不同地理位置的參與者能夠進(jìn)行面對(duì)面的會(huì)議而不必旅行很遠(yuǎn)的距離。當(dāng)參加這種會(huì)議時(shí),貫穿會(huì)議始終看見參與者的視頻并且在會(huì)議期間任何時(shí)間能夠確定誰在會(huì)議中會(huì)是有用的。


【發(fā)明內(nèi)容】

[0003]因此,本發(fā)明的實(shí)施例可以包括一種用于呈現(xiàn)美感圖像的方法,該方法包括:分析會(huì)議中用戶的音軌以確定何時(shí)該用戶是正在講話者,當(dāng)該用戶是正在講話者時(shí),分析音軌的語音信號(hào)以識(shí)別用于該用戶是正在講話者時(shí)的美感音素,以及確定對(duì)應(yīng)于該美感音素的用戶的至少一個(gè)圖像。
[0004]本發(fā)明的實(shí)施例還可以包括一種用于呈現(xiàn)美感圖像的系統(tǒng),該系統(tǒng)包括:音頻分析工具,該音頻分析工具被啟用以分析會(huì)議的音軌來確定會(huì)議的參與者何時(shí)是正在講話者,分析音軌的語音信號(hào)以識(shí)別正在講話者的美感音素,以及確定對(duì)應(yīng)于美感音素的正在講話者的至少一個(gè)圖像。

【專利附圖】

【附圖說明】
[0005]圖1示出了用于提供視頻會(huì)議參與者的可視資源的系統(tǒng)。
[0006]圖2示出了用于提供視頻會(huì)議參與者的可視資源的方法的流程圖。

【具體實(shí)施方式】
[0007]提供了用于提供視頻會(huì)議參與者的可視資源的方法、介質(zhì)和設(shè)備??梢詮乃东@的參加會(huì)議人員的序列中產(chǎn)生優(yōu)化的圖像快照。應(yīng)當(dāng)理解,優(yōu)化的圖像可以是視頻幀,其中捕獲的對(duì)象一諸如某個(gè)人或某些人的一在幀中是完全可見的。完全可見的捕獲可以是其中沒有裁減的捕獲,或者沒有被遮住的捕獲。對(duì)本文感興趣的人員應(yīng)當(dāng)理解,也許不能得到完美的捕獲,但是可以獲得較優(yōu)選的捕獲。
[0008]可以利用高效率、低復(fù)雜度音頻分析工具來捕獲音軌?;谝阎橙撕螘r(shí)在講話,可以把從此人的視頻序列中提取圖像作為目標(biāo)。本發(fā)明利用了正在講話者的偏好,其中正在講話者在進(jìn)行會(huì)議并且意識(shí)到注意力集中在他們身上,也許想要通過看照相機(jī)并使他們位于照相機(jī)前面以便不被遮住來優(yōu)化他們的外表。
[0009]也可以分析音素來獲得優(yōu)選的捕獲。為了識(shí)別美感的面部表情,可以利用音軌。本發(fā)明的系統(tǒng)可以識(shí)別其中正在講話的人的嘴唇和面部處于美觀方式的音素。應(yīng)當(dāng)理解,音素分析會(huì)比圖像分析方法學(xué)有較小的計(jì)算復(fù)雜度。
[0010]捕獲的圖像可以與特定的參與者相關(guān)聯(lián),該圖像是為該特定的參與者拍攝的。存在許多可以利用所捕獲的圖像的用途。捕獲的圖像可以作為會(huì)議參與者的代表性圖像替換視頻流。在參與者已經(jīng)靜音他的視頻或者在特定時(shí)間網(wǎng)絡(luò)條件不提供最佳視頻質(zhì)量時(shí),會(huì)是這樣。捕獲的圖像可以作為離線歸檔系統(tǒng)中會(huì)議參與者的代表性圖像。捕獲的圖像可以在用于那些歸檔的其中參與者過去正在講話時(shí)的會(huì)議片段中識(shí)別講話者。捕獲的圖像可以作為系統(tǒng)參與者名單中會(huì)議參與者的表示。捕獲的圖像可以作為用于會(huì)在會(huì)議期間發(fā)生的不同事件的可視隊(duì)列。這些事件的例子是:當(dāng)參與者開始介紹時(shí),或者當(dāng)參與者發(fā)送聊天消息時(shí),或“把他們的手舉起”等。應(yīng)當(dāng)理解,以上是捕獲圖像的用途的例子,本領(lǐng)域技術(shù)人員可以在許多其它的情形下使用這種捕獲的圖像。
[0011]啟用本發(fā)明的系統(tǒng)來接收一組同步的音頻流和視頻流。該系統(tǒng)將提取會(huì)議參與者的美感視頻快照或圖像。特定用戶的音頻流和視頻流可以通過系統(tǒng)一諸如通過一組同步捕獲時(shí)鐘一進(jìn)行時(shí)間標(biāo)記。
[0012]該系統(tǒng)分析會(huì)議參與者的音軌。當(dāng)參與者是正在講話者時(shí),系統(tǒng)將分析語音信號(hào)并且通過音素把音頻分段。應(yīng)當(dāng)理解,這種分析可以通過VAD (語音活動(dòng)檢測(cè))算法執(zhí)行。
[0013]在本發(fā)明的實(shí)施例中,系統(tǒng)可以把音素分類成多個(gè)不同的集合。第一集合可以是與美感上愉快的面部表情相關(guān)聯(lián)的音素。這些音素通常被稱為“美感音素”。可以把其它音素歸類成一個(gè)或多個(gè)其它集合。當(dāng)分析音素時(shí),系統(tǒng)會(huì)選擇正好在該音素之前或之后的時(shí)間段,比如靜寂時(shí)間段。當(dāng)分析音素時(shí),系統(tǒng)可以通過特定音素的子元素進(jìn)行分類。其可以是諸如輔音或者元音。系統(tǒng)可以通過音素集合或序列進(jìn)行分類。系統(tǒng)還可以通過備選的音頻參數(shù)細(xì)化圖像選擇。這些備選的音頻參數(shù)可以是例如可通過使用多個(gè)麥克風(fēng)指示的音頻方向估計(jì)。音頻水平、背景噪聲估計(jì)、串?dāng)_檢測(cè)、或其它音頻參數(shù)可以用于細(xì)化。
[0014]圖1示出了用于提供視頻會(huì)議參與者的可視資源的系統(tǒng)。系統(tǒng)100可以包括多會(huì)議單元(MCU) 102、端點(diǎn)104、數(shù)據(jù)庫(kù)106、內(nèi)部服務(wù)器108、外部服務(wù)器110、以及連接112,114,116和118。MCU102可以包括語音分析工具120。語音分析工具可以是所討論的VAD,或者是被本領(lǐng)域技術(shù)人員理解的其它語音分析工具。盡管語音分析工具120在MCU102中示出,但是應(yīng)當(dāng)理解,語音分析工具可以在系統(tǒng)100中的其它地方。例如,語音分析工具及本發(fā)明的算法會(huì)尤其適合在端點(diǎn)或者用戶的通信客戶端執(zhí)行其功能。語音分析工具120在圖1的MCU中示出是為了方便起見,它并不是要限制算法可以執(zhí)行的地方。而且,應(yīng)當(dāng)理解,算法或語音分析工具可以分析所記錄的序列以提取講話者的代表性圖像,其中所記錄的序列是會(huì)議的一部分。
[0015]圖2是提供視頻會(huì)議參與者的可視資源的方法的流程圖。在過程200中,在步驟210,系統(tǒng)將監(jiān)視會(huì)議。下一步220,確定特定的講話者是否正在講話。如果特定的參與者沒有正在講話,那么方法200將循環(huán)回到步驟210。如果特定的講話者正在講話,那么在步驟230對(duì)用于該講話者的音頻進(jìn)行分析。如上所述,應(yīng)當(dāng)理解,音頻部分和視頻部分是同步的。如上所述,音頻分析230包括把參與講話者的音素進(jìn)行分類。在步驟240,捕獲正在講話者的圖像。利用分類的音素來捕獲美感圖像的同步視頻圖像。在步驟250,對(duì)于識(shí)別為“美感音素”的每個(gè)音頻片段,系統(tǒng)會(huì)分析與經(jīng)過同步的視頻幀對(duì)應(yīng)的時(shí)間,并且識(shí)別最佳的圖像幀。可以通過以下參數(shù)中的一個(gè)或多個(gè)來確定最佳的圖像。
[0016]1.捕獲的面部是完整的嗎?這可以通過面部檢測(cè)和分析算法確定。
[0017]2.面部圖像是正面的嗎?這可以通過面部檢測(cè)和分析算法確定。
[0018]3.面部是遮住的嗎?
[0019]4.面部是正確地組成的嗎?
[0020]5.幀是以高質(zhì)量曝光的嗎?換句話說,面部是在足夠曝光條件下聚焦的嗎或者場(chǎng)景和面部的光照水平合適嗎?
[0021]6.在背景場(chǎng)景中有太多運(yùn)動(dòng)嗎?
[0022]應(yīng)當(dāng)理解,只要視頻和音頻是同步的,那么選擇最佳快照的過程就獨(dú)立于視頻圖像的捕獲。
[0023]在步驟250,確定最佳圖像的過程可以通過高計(jì)算密集型算法來執(zhí)行。盡管使用音頻和音素減少了實(shí)時(shí)分析的計(jì)算強(qiáng)度,但是這些可以用于步驟250的高計(jì)算強(qiáng)度型算法并不需要實(shí)時(shí)運(yùn)行。
[0024]在圖2的步驟260,系統(tǒng)將輸出美感上最佳的圖像。該美感上最佳的快照可以用于任何意圖,包括那些在本說明書中所描述的。
[0025]給出本發(fā)明的以上描述是為了說明和描述。它不是要詳盡的或者要把本發(fā)明限制到所公開的精確形式,而是在以上技術(shù)教導(dǎo)的啟發(fā)下,其它修改和變化也是可能的。所述實(shí)施方式的選擇和描述是為了最好地解釋本發(fā)明的原理及其實(shí)踐應(yīng)用,從而使本領(lǐng)域其他技術(shù)人員在各種實(shí)施例中能夠最好地利用本發(fā)明并且進(jìn)行適合預(yù)期特定使用的各種修改。所附權(quán)利要求應(yīng)當(dāng)被認(rèn)為是包括除由現(xiàn)有技術(shù)所限制的范圍之外本發(fā)明的其它備選實(shí)施例。
【權(quán)利要求】
1.一種用于呈現(xiàn)美感圖像的方法,所述方法包括: 分析會(huì)議中用戶的音軌以確定所述用戶何時(shí)是正在講話者; 當(dāng)所述用戶是正在講話者時(shí),分析音軌的語音信號(hào)以識(shí)別用于用戶是正在講話者時(shí)的美感音素;以及 確定對(duì)應(yīng)于所述美感音素的用戶的至少一個(gè)圖像。
2.如權(quán)利要求1所述的方法,所述方法還包括在音頻分析工具處接收一組同步的音頻流和視頻流。
3.如權(quán)利要求2所述的方法,其中所述分析音軌的語音信號(hào)的步驟包括把語音信號(hào)的音素分類成至少兩個(gè)音素集合。
4.如權(quán)利要求3所述的方法,其中所述至少兩個(gè)音素集合中的一個(gè)是美感音素。
5.如權(quán)利要求2所述的方法,所述方法還包括利用音軌的音頻參數(shù)細(xì)化所述確定的美感圖像。
6.一種用于呈現(xiàn)美感圖像的系統(tǒng),所述系統(tǒng)包括: 音頻分析工具,所述音頻分析工具被啟用以分析會(huì)議的音軌來確定會(huì)議的參與者何時(shí)是正在講話者,分析音軌的語音信號(hào)以識(shí)別所述正在講話者的美感音素,以及確定對(duì)應(yīng)于所述美感音素的所述正在講話者的至少一個(gè)圖像。
7.如權(quán)利要求6所述的系統(tǒng),其中所述工具還被啟用以接收一組同步的音頻流和視頻流。
8.如權(quán)利要求7所述的系統(tǒng),其中所述語音信號(hào)的分析包括把語音信號(hào)的音素分類成至少兩個(gè)音素集合。
9.如權(quán)利要求8所述的系統(tǒng),其中所述至少兩個(gè)音素集合中的一個(gè)是美感音素。
10.如權(quán)利要求7所述的系統(tǒng),其中所述工具還被啟用以利用音軌的音頻參數(shù)來細(xì)化所述美感圖像的確定。
【文檔編號(hào)】H04N7/15GK104135638SQ201410178226
【公開日】2014年11月5日 申請(qǐng)日期:2014年4月30日 優(yōu)先權(quán)日:2013年5月2日
【發(fā)明者】Y·威納, O·莫戴 申請(qǐng)人:阿瓦亞公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
龙里县| 临沭县| 甘孜县| 静乐县| 临安市| 武强县| 郸城县| 石林| 汶上县| 普兰县| 敦煌市| 敖汉旗| 乌兰县| 汉沽区| 西宁市| 库伦旗| 平原县| 商洛市| 新昌县| 凤冈县| 鹤岗市| 鹤山市| 鲁甸县| 昌江| 镇赉县| 新绛县| 铜山县| 保德县| 门源| 浦江县| 凤翔县| 顺昌县| 清流县| 会东县| 阿尔山市| 大悟县| 河源市| 贵州省| 潮安县| 乐清市| 会同县|