本發(fā)明涉及可穿戴設(shè)備,尤其涉及一種基于ar系統(tǒng)的會議交互方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在現(xiàn)代社會中,會議或演講是一種能夠促進信息交流和知識傳遞的有效的形式,然而現(xiàn)實情況下,由于場地的大小以及人群密集程度的不同,有時用戶會離演講者較遠,導(dǎo)致看不清演講的屏幕,且聽不清演講者的聲音,這給用戶的學(xué)習(xí)和交流帶來了不便,極大地削弱了會議或演講的效果,減少了用戶的學(xué)習(xí)效率。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種基于ar系統(tǒng)的會議交互方法、裝置、設(shè)備及存儲介質(zhì),旨在解決在參加會議時,如何提高用戶獲取內(nèi)容時的清晰度,提升用戶的參會體驗感受的技術(shù)問題。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種基于ar系統(tǒng)的會議交互方法,所述基于ar系統(tǒng)的會議交互方法包括:
3、在檢測到當(dāng)前運行模式為參會傾聽模式時,獲取多張會議演講圖像;
4、根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本,并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu);
5、根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位,確定拾音波束區(qū)域;
6、根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集,確定演講音頻;
7、根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互。
8、可選地,所述根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本,并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu),包括:
9、根據(jù)目標(biāo)對象檢測模型對各會議演講圖像進行對象檢測,確定目標(biāo)演講者和各會議演講圖像下所述目標(biāo)演講者的目標(biāo)特征值;
10、根據(jù)所述目標(biāo)特征值進行對象構(gòu)造,確定所述目標(biāo)演講者的點云結(jié)構(gòu);
11、對各會議演講圖像進行文本檢測,確定目標(biāo)演講者的屏幕顯示文本。
12、可選地,所述根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位,確定拾音波束區(qū)域,包括:
13、根據(jù)所述點云結(jié)構(gòu)確定所述目標(biāo)演講者的三維坐標(biāo);
14、根據(jù)所述三維坐標(biāo)確定演講聲源的水平方位和垂直方位;
15、根據(jù)所述垂直方位和所述水平方位確定拾音波束區(qū)域。
16、可選地,所述根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集,確定演講音頻,包括:
17、根據(jù)所述拾音波束區(qū)域進行定向音頻拾取,確定初始拾取音頻;
18、對所述初始拾取音頻進行音頻去噪,得到去噪拾取音頻;
19、播放所述去噪拾取音頻,以使目標(biāo)交互用戶根據(jù)所述去噪拾取音頻反饋聲紋確定結(jié)果;
20、在所述聲紋確定結(jié)果為所述去噪拾取音頻中的演講聲紋為所述目標(biāo)演講者的演講聲紋時,對所述目標(biāo)演講者的演講音頻進行采集,確定演講音頻。
21、可選地,所述根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互,包括:
22、對所述演講音頻進行信號處理,識別所述目標(biāo)演講者的演講聲紋對應(yīng)的目標(biāo)音頻數(shù)據(jù);
23、對所述目標(biāo)音頻數(shù)據(jù)進行信號增強,得到增強音頻數(shù)據(jù);
24、播放所述增強音頻數(shù)據(jù),并顯示所述屏幕顯示文本,以實現(xiàn)會議交互。
25、可選地,所述顯示所述屏幕顯示文本,包括:
26、開啟焦距調(diào)整模式,并發(fā)送模式開啟指令至目標(biāo)交互用戶,以使所述目標(biāo)交互用戶根據(jù)所述模式開啟指令進行焦距調(diào)整,并反饋目標(biāo)調(diào)整焦距;
27、在接收到所述目標(biāo)交互用戶反饋的目標(biāo)調(diào)整焦距時,將當(dāng)前焦距調(diào)整至所述目標(biāo)調(diào)整焦距;
28、根據(jù)所述目標(biāo)調(diào)整焦距對所述屏幕顯示文本進行顯示。
29、可選地,所述在檢測到當(dāng)前運行模式為參會傾聽模式時,獲取多張會議演講圖像之前,還包括:
30、在采集到環(huán)境音頻和環(huán)境圖像時,根據(jù)所述環(huán)境音頻進行文本轉(zhuǎn)換,確定環(huán)境文本;
31、對所述環(huán)境圖像進行場景分類,確定初始圖像場景;
32、根據(jù)所述環(huán)境文本和所述初始圖像場景確定當(dāng)前所處場景;
33、在所述當(dāng)前所處場景為預(yù)設(shè)參會場景時,發(fā)送模式更改提醒至目標(biāo)交互用戶;
34、在接收到所述目標(biāo)交互用戶反饋的模式更改指令時,將當(dāng)前運行模式調(diào)整至參會傾聽模式。
35、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種基于ar系統(tǒng)的會議交互裝置,所述基于ar系統(tǒng)的會議交互裝置包括:
36、獲取模塊,用于在檢測到當(dāng)前運行模式為參會傾聽模式時,獲取多張會議演講圖像;
37、構(gòu)建模塊,用于根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本,并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu);
38、定位模塊,用于根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位,確定拾音波束區(qū)域;
39、采集模塊,用于根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集,確定演講音頻;
40、交互模塊,用于根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互。
41、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種基于ar系統(tǒng)的會議交互設(shè)備,所述基于ar系統(tǒng)的會議交互設(shè)備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的基于ar系統(tǒng)的會議交互程序,所述基于ar系統(tǒng)的會議交互程序配置為實現(xiàn)如上文所述的基于ar系統(tǒng)的會議交互方法。
42、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種存儲介質(zhì),所述存儲介質(zhì)上存儲有基于ar系統(tǒng)的會議交互程序,所述基于ar系統(tǒng)的會議交互程序被處理器執(zhí)行時實現(xiàn)如上文所述的基于ar系統(tǒng)的會議交互方法。
43、本發(fā)明通過在檢測到當(dāng)前運行模式為參會傾聽模式時,獲取多張會議演講圖像;根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本,并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu);根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位,確定拾音波束區(qū)域;根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集,確定演講音頻;根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互。通過上述方式,基于多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本,并進一步構(gòu)建目標(biāo)演講者的點云結(jié)構(gòu),從而基于點云結(jié)構(gòu)確定準(zhǔn)確的拾音波束區(qū)域,利用拾音波束區(qū)域?qū)ρ葜v音頻進行采集,最終根據(jù)演講音頻和屏幕顯示文本實現(xiàn)會議交互,利用ar系統(tǒng)通過對聲源的準(zhǔn)確定位,保證了拾音的準(zhǔn)確性,讓用戶可直觀且清晰的獲知目標(biāo)演講者的屏幕顯示文本和演講語音內(nèi)容,從而使用戶能沉浸式參會,提高學(xué)習(xí)和交流效率。
1.一種基于ar系統(tǒng)的會議交互方法,其特征在于,所述基于ar系統(tǒng)的會議交互方法,包括:
2.如權(quán)利要求1所述的基于ar系統(tǒng)的會議交互方法,其特征在于,所述根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本,并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu),包括:
3.如權(quán)利要求1所述的基于ar系統(tǒng)的會議交互方法,其特征在于,所述根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位,確定拾音波束區(qū)域,包括:
4.如權(quán)利要求1所述的基于ar系統(tǒng)的會議交互方法,其特征在于,所述根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集,確定演講音頻,包括:
5.如權(quán)利要求1所述的基于ar系統(tǒng)的會議交互方法,其特征在于,所述根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互,包括:
6.如權(quán)利要求5所述的基于ar系統(tǒng)的會議交互方法,其特征在于,所述顯示所述屏幕顯示文本,包括:
7.如權(quán)利要求1至6中任一項所述的基于ar系統(tǒng)的會議交互方法,其特征在于,所述在檢測到當(dāng)前運行模式為參會傾聽模式時,獲取多張會議演講圖像之前,還包括:
8.一種基于ar系統(tǒng)的會議交互裝置,其特征在于,所述基于ar系統(tǒng)的會議交互裝置包括:
9.一種基于ar系統(tǒng)的會議交互設(shè)備,其特征在于,所述設(shè)備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的基于ar系統(tǒng)的會議交互程序,所述基于ar系統(tǒng)的會議交互程序配置為實現(xiàn)如權(quán)利要求1至7中任一項所述的基于ar系統(tǒng)的會議交互方法。
10.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)上存儲有基于ar系統(tǒng)的會議交互程序,所述基于ar系統(tǒng)的會議交互程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述的基于ar系統(tǒng)的會議交互方法。