本技術(shù)涉及智能會(huì)議,尤其涉及一種智能視頻會(huì)議的場(chǎng)景感知和交互方法、智能會(huì)議系統(tǒng)、存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著智能會(huì)議技術(shù)的不斷發(fā)展,智能會(huì)議已經(jīng)成為了商務(wù)洽談、學(xué)術(shù)交流等活動(dòng)中不可或缺的高效工具。
2、在相關(guān)技術(shù)中,智能會(huì)議系統(tǒng)通常會(huì)調(diào)用預(yù)先設(shè)置在會(huì)議現(xiàn)場(chǎng)的攝像裝置對(duì)各參會(huì)人員的面部進(jìn)行識(shí)別,從而捕捉各參會(huì)人員各自的面部特征,并根據(jù)各面部特征判斷當(dāng)前發(fā)言人員以動(dòng)態(tài)生成會(huì)議畫面,進(jìn)而確保各參會(huì)人員能夠通過會(huì)議畫面了解當(dāng)前發(fā)言人員的發(fā)言信息。
3、然而,當(dāng)會(huì)議現(xiàn)場(chǎng)的光線條件發(fā)生顯著變化時(shí),攝像裝置獲取的面部圖像通常會(huì)存在面部模糊、細(xì)節(jié)丟失等缺陷,從而導(dǎo)致智能會(huì)議系統(tǒng)對(duì)當(dāng)前發(fā)言人的判斷結(jié)果的準(zhǔn)確性降低,進(jìn)而大大降低了會(huì)議的效率。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的主要目的在于提供一種智能視頻會(huì)議的場(chǎng)景感知和交互方法、智能會(huì)議系統(tǒng)、存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品,旨在解決相關(guān)技術(shù)中智能會(huì)議系統(tǒng)對(duì)當(dāng)前發(fā)言人的判斷結(jié)果的準(zhǔn)確性較低的技術(shù)問題。
2、為實(shí)現(xiàn)上述目的,本技術(shù)提出一種智能視頻會(huì)議的場(chǎng)景感知和交互方法,所述智能視頻會(huì)議的場(chǎng)景感知和交互方法應(yīng)用于智能會(huì)議系統(tǒng),所述智能會(huì)議系統(tǒng)包含圖像檢測(cè)模塊和音頻檢測(cè)模塊,所述智能視頻會(huì)議的場(chǎng)景感知和交互方法包括:
3、通過所述圖像檢測(cè)模塊對(duì)會(huì)議現(xiàn)場(chǎng)進(jìn)行拍攝,以攝取包含多個(gè)參會(huì)人員的第一圖像數(shù)據(jù),并根據(jù)所述第一圖像數(shù)據(jù)對(duì)多個(gè)所述參會(huì)人員進(jìn)行篩選以確定目標(biāo)發(fā)言人員;
4、通過所述音頻檢測(cè)模塊獲取所述會(huì)議現(xiàn)場(chǎng)包含的各目標(biāo)聲音信號(hào),并根據(jù)各所述目標(biāo)聲音信號(hào)確定所述目標(biāo)發(fā)言人員對(duì)應(yīng)的發(fā)言人驗(yàn)證結(jié)果;
5、在檢測(cè)到所述發(fā)言人驗(yàn)證結(jié)果為驗(yàn)證通過的情況下,通過所述圖像檢測(cè)模塊攝取包含所述目標(biāo)發(fā)言人員的第二圖像數(shù)據(jù),其中,所述目標(biāo)發(fā)言人員處于所述第二圖像數(shù)據(jù)的中心位置;
6、基于所述第二圖像數(shù)據(jù)和各所述目標(biāo)聲音信號(hào)生成第一會(huì)議視頻,并將所述第一會(huì)議視頻發(fā)送至預(yù)設(shè)的目標(biāo)會(huì)議界面,以通過所述目標(biāo)會(huì)議界面向其他線上參會(huì)人員展示所述第一會(huì)議視頻。
7、在一實(shí)施例中,所述根據(jù)所述第一圖像數(shù)據(jù)對(duì)多個(gè)所述參會(huì)人員進(jìn)行篩選以確定目標(biāo)發(fā)言人員的步驟,包括:
8、提取所述第一圖像數(shù)據(jù)包含的圖像特征;
9、基于所述圖像特征確定多個(gè)所述參會(huì)人員各自匹配的人員面部特征,并確定各所述人員面部特征中包含的面部移動(dòng)特征;
10、將所述面部移動(dòng)特征對(duì)應(yīng)的參會(huì)人員,確定為目標(biāo)發(fā)言人員。
11、在一實(shí)施例中,所述音頻檢測(cè)模塊包含第一檢測(cè)單元和第二檢測(cè)單元,所述通過所述音頻檢測(cè)模塊獲取所述會(huì)議現(xiàn)場(chǎng)包含的各目標(biāo)聲音信號(hào)的步驟,包括:
12、通過所述第一檢測(cè)單元采集所述會(huì)議現(xiàn)場(chǎng)包含的第一初始聲音信號(hào),和通過所述第二檢測(cè)單元采集所述會(huì)議現(xiàn)場(chǎng)包含的第二初始聲音信號(hào);
13、對(duì)所述第一初始聲音信號(hào)和所述第二初始聲音信號(hào)進(jìn)行降噪處理以得到第一目標(biāo)聲音信號(hào)和第二目標(biāo)聲音信號(hào)。
14、在一實(shí)施例中,所述根據(jù)各所述目標(biāo)聲音信號(hào)確定所述目標(biāo)發(fā)言人員對(duì)應(yīng)的發(fā)言人驗(yàn)證結(jié)果的步驟,包括:
15、確定所述第一目標(biāo)聲音信號(hào)對(duì)應(yīng)的第一信號(hào)接收時(shí)間,和所述第二目標(biāo)聲音信號(hào)對(duì)應(yīng)的第二信號(hào)接收時(shí)間;
16、根據(jù)所述第一信號(hào)接收時(shí)間和所述第二信號(hào)接收時(shí)間確定聲源位置信息;
17、基于所述第一圖像數(shù)據(jù)確定所述目標(biāo)發(fā)言人員的發(fā)言人位置信息,并將所述聲源位置信息和所述發(fā)言人位置信息進(jìn)行比對(duì)得到比對(duì)結(jié)果;
18、在檢測(cè)到所述比對(duì)結(jié)果為所述聲源位置信息和所述發(fā)言人位置信息匹配的情況下,確定發(fā)言人驗(yàn)證結(jié)果為驗(yàn)證通過;
19、在檢測(cè)到所述比對(duì)結(jié)果為所述聲源位置信息和所述發(fā)言人位置信息不匹配的情況下,確定發(fā)言人驗(yàn)證結(jié)果為驗(yàn)證失敗。
20、在一實(shí)施例中,在所述將所述第一會(huì)議視頻發(fā)送至預(yù)設(shè)的目標(biāo)會(huì)議界面的步驟之后,所述方法還包括:
21、通過所述圖像檢測(cè)模塊攝取多個(gè)包含所述目標(biāo)發(fā)言人員的第三圖像數(shù)據(jù);
22、基于多個(gè)所述第三圖像數(shù)據(jù)確定所述目標(biāo)發(fā)言人員的移動(dòng)軌跡,并確定所述圖像檢測(cè)模塊的初始拍攝角度;
23、基于所述移動(dòng)軌跡和所述初始拍攝角度生成角度調(diào)節(jié)參數(shù),并按照所述角度調(diào)節(jié)參數(shù)將所述初始拍攝角度調(diào)節(jié)至目標(biāo)拍攝角度;
24、控制所述圖像檢測(cè)模塊按照所述目標(biāo)拍攝角度,攝取包含所述目標(biāo)發(fā)言人員的第四圖像數(shù)據(jù);
25、基于所述第四圖像數(shù)據(jù)和各所述目標(biāo)聲音信號(hào)生成第二會(huì)議視頻,并將所述第二會(huì)議視頻發(fā)送至所述目標(biāo)會(huì)議界面,以通過所述目標(biāo)會(huì)議界面向所述其他線上參會(huì)人員展示所述第二會(huì)議視頻。
26、在一實(shí)施例中,在所述將所述第一會(huì)議視頻發(fā)送至預(yù)設(shè)的目標(biāo)會(huì)議界面的步驟之后,所述方法還包括:
27、確定所述目標(biāo)發(fā)言人員的身份標(biāo)識(shí)信息;
28、基于所述身份標(biāo)識(shí)信息對(duì)所述第一會(huì)議視頻進(jìn)行更新得到第三會(huì)議視頻;
29、將所述第三會(huì)議視頻發(fā)送至所述目標(biāo)會(huì)議界面,以通過所述目標(biāo)會(huì)議界面向所述其他線上參會(huì)人員展示所述第三會(huì)議視頻。
30、在一實(shí)施例中,在所述將所述第一會(huì)議視頻發(fā)送至預(yù)設(shè)的目標(biāo)會(huì)議界面的步驟之后,所述方法還包括:
31、接收所述目標(biāo)發(fā)言人員觸發(fā)的交互語音信號(hào),并根據(jù)所述交互語音信號(hào)確定目標(biāo)交互指令;
32、在檢測(cè)到所述目標(biāo)交互指令的指令類型為環(huán)境控制指令的情況下,基于所述環(huán)境控制指令確定所述會(huì)議現(xiàn)場(chǎng)對(duì)應(yīng)的目標(biāo)環(huán)境調(diào)節(jié)裝置;
33、按照所述環(huán)境控制指令對(duì)所述目標(biāo)環(huán)境調(diào)節(jié)裝置進(jìn)行控制,以通過所述目標(biāo)環(huán)境調(diào)節(jié)裝置調(diào)節(jié)所述會(huì)議現(xiàn)場(chǎng)的環(huán)境參數(shù)。
34、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提出一種智能會(huì)議系統(tǒng),所述系統(tǒng)包括:圖像檢測(cè)模塊、音頻檢測(cè)模塊、存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序配置為實(shí)現(xiàn)如上文所述的智能視頻會(huì)議的場(chǎng)景感知和交互方法的步驟。
35、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提出一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的智能視頻會(huì)議的場(chǎng)景感知和交互方法的步驟。
36、此外,為實(shí)現(xiàn)上述目的,本技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的智能視頻會(huì)議的場(chǎng)景感知和交互方法的步驟。
37、本技術(shù)實(shí)施例提供了一種智能視頻會(huì)議的場(chǎng)景感知和交互方法,應(yīng)用于智能會(huì)議系統(tǒng),所述智能會(huì)議系統(tǒng)包含圖像檢測(cè)模塊和音頻檢測(cè)模塊,通過所述圖像檢測(cè)模塊對(duì)會(huì)議現(xiàn)場(chǎng)進(jìn)行拍攝,以攝取包含多個(gè)參會(huì)人員的第一圖像數(shù)據(jù),并根據(jù)所述第一圖像數(shù)據(jù)對(duì)多個(gè)所述參會(huì)人員進(jìn)行篩選以確定目標(biāo)發(fā)言人員;通過所述音頻檢測(cè)模塊獲取所述會(huì)議現(xiàn)場(chǎng)包含的各目標(biāo)聲音信號(hào),并根據(jù)各所述目標(biāo)聲音信號(hào)確定所述目標(biāo)發(fā)言人員對(duì)應(yīng)的發(fā)言人驗(yàn)證結(jié)果;在檢測(cè)到所述發(fā)言人驗(yàn)證結(jié)果為驗(yàn)證通過的情況下,通過所述圖像檢測(cè)模塊攝取包含所述目標(biāo)發(fā)言人員的第二圖像數(shù)據(jù),其中,所述目標(biāo)發(fā)言人員處于所述第二圖像數(shù)據(jù)的中心位置;基于所述第二圖像數(shù)據(jù)和各所述目標(biāo)聲音信號(hào)生成第一會(huì)議視頻,并將所述第一會(huì)議視頻發(fā)送至預(yù)設(shè)的目標(biāo)會(huì)議界面,以通過所述目標(biāo)會(huì)議界面向其他線上參會(huì)人員展示所述第一會(huì)議視頻。
38、在本實(shí)施例中,智能會(huì)議系統(tǒng)在運(yùn)行過程中,首先調(diào)用配置在會(huì)議現(xiàn)場(chǎng)的圖像檢測(cè)模塊對(duì)參與會(huì)議的多名參會(huì)人員進(jìn)行拍攝,以攝取包含多個(gè)參會(huì)人員的第一圖像數(shù)據(jù),智能會(huì)議系統(tǒng)進(jìn)而對(duì)第一圖像數(shù)據(jù)進(jìn)行識(shí)別,以在多個(gè)參會(huì)人員中確定正在進(jìn)行發(fā)言的目標(biāo)發(fā)言人員,之后,智能會(huì)議系統(tǒng)調(diào)用配置在會(huì)議現(xiàn)場(chǎng)的音頻檢測(cè)模塊采集目標(biāo)發(fā)言人員在會(huì)議現(xiàn)場(chǎng)發(fā)出的各目標(biāo)聲音信號(hào),智能會(huì)議系統(tǒng)進(jìn)而對(duì)目標(biāo)聲音信號(hào)進(jìn)行處理,從而基于目標(biāo)聲音信號(hào)確定發(fā)言人驗(yàn)證結(jié)果,再之后,智能會(huì)議系統(tǒng)在檢測(cè)到該發(fā)言人驗(yàn)證結(jié)果為驗(yàn)證通過的情況下,調(diào)用圖像檢測(cè)模塊對(duì)目標(biāo)發(fā)言人員進(jìn)行拍攝,以攝取包含目標(biāo)發(fā)言人員,且目標(biāo)發(fā)言人員處于圖像中心位置的第二圖像數(shù)據(jù),最后,智能會(huì)議系統(tǒng)將第二圖像數(shù)據(jù)和各目標(biāo)聲音信號(hào)進(jìn)行融合以生成第一會(huì)議視頻,并將第一會(huì)議視頻發(fā)送至預(yù)設(shè)的目標(biāo)會(huì)議界面,以令其他線上參會(huì)人員通過目標(biāo)會(huì)議界面查看第一會(huì)議視頻。
39、如此,本技術(shù)解決了相關(guān)技術(shù)中智能會(huì)議系統(tǒng)對(duì)當(dāng)前發(fā)言人的判斷結(jié)果的準(zhǔn)確性較低的技術(shù)問題,即,本技術(shù)通過調(diào)用圖像檢測(cè)模塊對(duì)多個(gè)參會(huì)人員進(jìn)行識(shí)別以確定正在發(fā)言的目標(biāo)發(fā)言人員,并通過音頻檢測(cè)模塊判斷檢測(cè)到的目標(biāo)發(fā)言人員是否準(zhǔn)確,從而在確定檢測(cè)到的目標(biāo)發(fā)言人員準(zhǔn)確的情況下,將包含目標(biāo)發(fā)言人員的圖像數(shù)據(jù)和采集到的目標(biāo)聲音信號(hào)進(jìn)行融合以生成會(huì)議視頻,并將會(huì)議視頻發(fā)送至?xí)h界面,以令智能會(huì)議系統(tǒng)在運(yùn)行過程中能夠根據(jù)聲音信號(hào)識(shí)別正在發(fā)言的目標(biāo)發(fā)言人員的位置信息,從而根據(jù)位置信息判斷識(shí)別到的發(fā)言人員是否準(zhǔn)確,進(jìn)而使得智能會(huì)議系統(tǒng)在現(xiàn)場(chǎng)環(huán)境發(fā)生較大變化的情況下,也能準(zhǔn)確識(shí)別會(huì)議現(xiàn)場(chǎng)的目標(biāo)發(fā)言人員,達(dá)到了提升智能會(huì)議系統(tǒng)對(duì)當(dāng)前發(fā)言人的判斷結(jié)果的準(zhǔn)確性的技術(shù)效果,大大提升了會(huì)議的效率。