基于AR系統(tǒng)的會議交互方法、裝置、設(shè)備及存儲介質(zhì)與流程

文檔序號：40553844發(fā)布日期：2025-01-03 11:13閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于AR系統(tǒng)的會議交互方法、裝置、設(shè)備及存儲介質(zhì)與流程

本發(fā)明涉及可穿戴設(shè)備，尤其涉及一種基于ar系統(tǒng)的會議交互方法、裝置、設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、在現(xiàn)代社會中，會議或演講是一種能夠促進信息交流和知識傳遞的有效的形式，然而現(xiàn)實情況下，由于場地的大小以及人群密集程度的不同，有時用戶會離演講者較遠，導(dǎo)致看不清演講的屏幕，且聽不清演講者的聲音，這給用戶的學(xué)習(xí)和交流帶來了不便，極大地削弱了會議或演講的效果，減少了用戶的學(xué)習(xí)效率。

技術(shù)實現(xiàn)思路

1、本發(fā)明的主要目的在于提供一種基于ar系統(tǒng)的會議交互方法、裝置、設(shè)備及存儲介質(zhì)，旨在解決在參加會議時，如何提高用戶獲取內(nèi)容時的清晰度，提升用戶的參會體驗感受的技術(shù)問題。

2、為實現(xiàn)上述目的，本發(fā)明提供了一種基于ar系統(tǒng)的會議交互方法，所述基于ar系統(tǒng)的會議交互方法包括：

3、在檢測到當(dāng)前運行模式為參會傾聽模式時，獲取多張會議演講圖像；

4、根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本，并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu)；

5、根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位，確定拾音波束區(qū)域；

6、根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集，確定演講音頻；

7、根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互。

8、可選地，所述根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本，并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu)，包括：

9、根據(jù)目標(biāo)對象檢測模型對各會議演講圖像進行對象檢測，確定目標(biāo)演講者和各會議演講圖像下所述目標(biāo)演講者的目標(biāo)特征值；

10、根據(jù)所述目標(biāo)特征值進行對象構(gòu)造，確定所述目標(biāo)演講者的點云結(jié)構(gòu)；

11、對各會議演講圖像進行文本檢測，確定目標(biāo)演講者的屏幕顯示文本。

12、可選地，所述根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位，確定拾音波束區(qū)域，包括：

13、根據(jù)所述點云結(jié)構(gòu)確定所述目標(biāo)演講者的三維坐標(biāo)；

14、根據(jù)所述三維坐標(biāo)確定演講聲源的水平方位和垂直方位；

15、根據(jù)所述垂直方位和所述水平方位確定拾音波束區(qū)域。

16、可選地，所述根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集，確定演講音頻，包括：

17、根據(jù)所述拾音波束區(qū)域進行定向音頻拾取，確定初始拾取音頻；

18、對所述初始拾取音頻進行音頻去噪，得到去噪拾取音頻；

19、播放所述去噪拾取音頻，以使目標(biāo)交互用戶根據(jù)所述去噪拾取音頻反饋聲紋確定結(jié)果；

20、在所述聲紋確定結(jié)果為所述去噪拾取音頻中的演講聲紋為所述目標(biāo)演講者的演講聲紋時，對所述目標(biāo)演講者的演講音頻進行采集，確定演講音頻。

21、可選地，所述根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互，包括：

22、對所述演講音頻進行信號處理，識別所述目標(biāo)演講者的演講聲紋對應(yīng)的目標(biāo)音頻數(shù)據(jù)；

23、對所述目標(biāo)音頻數(shù)據(jù)進行信號增強，得到增強音頻數(shù)據(jù)；

24、播放所述增強音頻數(shù)據(jù)，并顯示所述屏幕顯示文本，以實現(xiàn)會議交互。

25、可選地，所述顯示所述屏幕顯示文本，包括：

26、開啟焦距調(diào)整模式，并發(fā)送模式開啟指令至目標(biāo)交互用戶，以使所述目標(biāo)交互用戶根據(jù)所述模式開啟指令進行焦距調(diào)整，并反饋目標(biāo)調(diào)整焦距；

27、在接收到所述目標(biāo)交互用戶反饋的目標(biāo)調(diào)整焦距時，將當(dāng)前焦距調(diào)整至所述目標(biāo)調(diào)整焦距；

28、根據(jù)所述目標(biāo)調(diào)整焦距對所述屏幕顯示文本進行顯示。

29、可選地，所述在檢測到當(dāng)前運行模式為參會傾聽模式時，獲取多張會議演講圖像之前，還包括：

30、在采集到環(huán)境音頻和環(huán)境圖像時，根據(jù)所述環(huán)境音頻進行文本轉(zhuǎn)換，確定環(huán)境文本；

31、對所述環(huán)境圖像進行場景分類，確定初始圖像場景；

32、根據(jù)所述環(huán)境文本和所述初始圖像場景確定當(dāng)前所處場景；

33、在所述當(dāng)前所處場景為預(yù)設(shè)參會場景時，發(fā)送模式更改提醒至目標(biāo)交互用戶；

34、在接收到所述目標(biāo)交互用戶反饋的模式更改指令時，將當(dāng)前運行模式調(diào)整至參會傾聽模式。

35、此外，為實現(xiàn)上述目的，本發(fā)明還提出一種基于ar系統(tǒng)的會議交互裝置，所述基于ar系統(tǒng)的會議交互裝置包括：

36、獲取模塊，用于在檢測到當(dāng)前運行模式為參會傾聽模式時，獲取多張會議演講圖像；

37、構(gòu)建模塊，用于根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本，并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu)；

38、定位模塊，用于根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位，確定拾音波束區(qū)域；

39、采集模塊，用于根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集，確定演講音頻；

40、交互模塊，用于根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互。

41、此外，為實現(xiàn)上述目的，本發(fā)明還提出一種基于ar系統(tǒng)的會議交互設(shè)備，所述基于ar系統(tǒng)的會議交互設(shè)備包括：存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的基于ar系統(tǒng)的會議交互程序，所述基于ar系統(tǒng)的會議交互程序配置為實現(xiàn)如上文所述的基于ar系統(tǒng)的會議交互方法。

42、此外，為實現(xiàn)上述目的，本發(fā)明還提出一種存儲介質(zhì)，所述存儲介質(zhì)上存儲有基于ar系統(tǒng)的會議交互程序，所述基于ar系統(tǒng)的會議交互程序被處理器執(zhí)行時實現(xiàn)如上文所述的基于ar系統(tǒng)的會議交互方法。

43、本發(fā)明通過在檢測到當(dāng)前運行模式為參會傾聽模式時，獲取多張會議演講圖像；根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本，并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu)；根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位，確定拾音波束區(qū)域；根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集，確定演講音頻；根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互。通過上述方式，基于多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本，并進一步構(gòu)建目標(biāo)演講者的點云結(jié)構(gòu)，從而基于點云結(jié)構(gòu)確定準(zhǔn)確的拾音波束區(qū)域，利用拾音波束區(qū)域?qū)ρ葜v音頻進行采集，最終根據(jù)演講音頻和屏幕顯示文本實現(xiàn)會議交互，利用ar系統(tǒng)通過對聲源的準(zhǔn)確定位，保證了拾音的準(zhǔn)確性，讓用戶可直觀且清晰的獲知目標(biāo)演講者的屏幕顯示文本和演講語音內(nèi)容，從而使用戶能沉浸式參會，提高學(xué)習(xí)和交流效率。

技術(shù)特征：

1.一種基于ar系統(tǒng)的會議交互方法，其特征在于，所述基于ar系統(tǒng)的會議交互方法，包括：

2.如權(quán)利要求1所述的基于ar系統(tǒng)的會議交互方法，其特征在于，所述根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本，并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu)，包括：

3.如權(quán)利要求1所述的基于ar系統(tǒng)的會議交互方法，其特征在于，所述根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位，確定拾音波束區(qū)域，包括：

4.如權(quán)利要求1所述的基于ar系統(tǒng)的會議交互方法，其特征在于，所述根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集，確定演講音頻，包括：

5.如權(quán)利要求1所述的基于ar系統(tǒng)的會議交互方法，其特征在于，所述根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互，包括：

6.如權(quán)利要求5所述的基于ar系統(tǒng)的會議交互方法，其特征在于，所述顯示所述屏幕顯示文本，包括：

7.如權(quán)利要求1至6中任一項所述的基于ar系統(tǒng)的會議交互方法，其特征在于，所述在檢測到當(dāng)前運行模式為參會傾聽模式時，獲取多張會議演講圖像之前，還包括：

8.一種基于ar系統(tǒng)的會議交互裝置，其特征在于，所述基于ar系統(tǒng)的會議交互裝置包括：

9.一種基于ar系統(tǒng)的會議交互設(shè)備，其特征在于，所述設(shè)備包括：存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的基于ar系統(tǒng)的會議交互程序，所述基于ar系統(tǒng)的會議交互程序配置為實現(xiàn)如權(quán)利要求1至7中任一項所述的基于ar系統(tǒng)的會議交互方法。

10.一種存儲介質(zhì)，其特征在于，所述存儲介質(zhì)上存儲有基于ar系統(tǒng)的會議交互程序，所述基于ar系統(tǒng)的會議交互程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述的基于ar系統(tǒng)的會議交互方法。

技術(shù)總結(jié)
本發(fā)明屬于可穿戴設(shè)備技術(shù)領(lǐng)域，公開了一種基于AR系統(tǒng)的會議交互方法、裝置、設(shè)備及存儲介質(zhì)。該方法包括：在檢測到當(dāng)前運行模式為參會傾聽模式時，獲取多張會議演講圖像；根據(jù)多張會議演講圖像確定目標(biāo)演講者和屏幕顯示文本，并構(gòu)建所述目標(biāo)演講者的點云結(jié)構(gòu)；根據(jù)所述點云結(jié)構(gòu)對所述目標(biāo)演講者的演講聲源進行定位，確定拾音波束區(qū)域；根據(jù)所述拾音波束區(qū)域?qū)λ瞿繕?biāo)演講者的演講音頻進行采集，確定演講音頻；根據(jù)所述演講音頻和所述屏幕顯示文本實現(xiàn)會議交互。通過上述方式，利用AR系統(tǒng)通過對聲源的準(zhǔn)確定位，保證了拾音的準(zhǔn)確性，讓用戶可直觀且清晰的獲知目標(biāo)演講者的屏幕顯示文本和演講語音內(nèi)容，從而使用戶能沉浸式參會，提高學(xué)習(xí)和交流效率。

技術(shù)研發(fā)人員：周佳怡
受保護的技術(shù)使用者：歌爾科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周佳怡
技術(shù)所有人：歌爾科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于AR系統(tǒng)的會議交互方法、裝置、設(shè)備及存儲介質(zhì)與流程

基于AR系統(tǒng)的會議交互方法、裝置、設(shè)備及存儲介質(zhì)與流程