欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于視覺上下文的遠程會議實時語音識別優(yōu)化方法和系統(tǒng)

文檔序號:40531288發(fā)布日期:2024-12-31 13:45閱讀:25來源:國知局
基于視覺上下文的遠程會議實時語音識別優(yōu)化方法和系統(tǒng)

本發(fā)明涉及人工智能,具體地,涉及一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法、系統(tǒng)、終端及介質。


背景技術:

1、在當前的遠程會議系統(tǒng)中(例如teams、騰訊會議、zoom等),已經(jīng)集成了實時語音翻譯功能。該功能依賴于語音識別模型,能夠實時地將會議參與者的聲音轉換為文本信息,如圖1所示。目前,技術發(fā)展主要依賴于各種語音識別算法模型,以提高識別的準確性。

2、然而,在遠程會議的特定環(huán)境中,專業(yè)術語的使用以及說話者的口音差異等問題,往往會導致現(xiàn)有的語音識別模型準確度降低,從而影響識別效果?,F(xiàn)有的實時語音翻譯系統(tǒng)主要依賴于會議參與者的語音信號,而未能充分利用更多的上下文信息來輔助語音識別。相比之下,人類在進行語音翻譯理解時,會結合豐富的環(huán)境信息和知識背景,以更好地輔助對說話者語音的理解。

3、目前,解決這一問題的主要策略是通過改進語音識別模型本身。特別是,通過使用大量數(shù)據(jù)(包括專業(yè)領域數(shù)據(jù)、不同口音和方言的數(shù)據(jù)等)來訓練大型模型,以期解決上述問題。但是,數(shù)據(jù)的采集、模型的訓練和推理過程成本高昂。


技術實現(xiàn)思路

1、針對現(xiàn)有技術中的缺陷,本發(fā)明的目的是提供一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法、系統(tǒng)、終端及介質。

2、根據(jù)本發(fā)明的一個方面,提供一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,包括:

3、根據(jù)投屏畫面,采集視覺上下文信息;

4、獲取語音音頻并輸入到語音識別模型中,獲得語音識別結果;

5、利用所述上下文信息,對所述語音識別結果進行調整。

6、優(yōu)選的,所述根據(jù)所述投屏畫面,采集視覺上下文信息,包括:

7、實時采集當前投屏畫面;

8、對所述投屏畫面進行圖像識別,獲得投屏畫面中的文字以及圖片的語義信息;

9、將所述文字以及所述語義信息添加到上下文信息庫中;

10、判斷投屏畫面是否發(fā)生變化,若發(fā)生變化,則重復上述圖像識別和添加過程。

11、優(yōu)選的,所述上下文信息庫存儲固定幀數(shù)的投屏畫面的所有文字和語義信息。

12、優(yōu)選的,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:

13、從所述語音識別結果中,獲得所有位置的單詞以及相應的概率值;

14、對于識別出的概率值低于閾值的單詞,獲取該位置的單詞在語音識別模型中對應的有可能的概率值前k個的候選單詞,所述候選單詞的概率值表示為:p_origin(j),j=1:k;

15、獲取所述候選單詞與所述上下文信息庫中所有文本、語義信息的相關性概率p_context_corr(j),j=1:k;

16、將兩個概率進行加權計算得到最終的概率p(j)=p_origin(j)*p_context_corr(j),j=1:k;

17、根據(jù)最終的概率進行重新排序選擇概率最大的單詞作為該單詞位置優(yōu)化后的單詞。

18、優(yōu)選的,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:

19、從所述語音識別結果中,獲得先驗概率低于閾值的單詞;

20、查找所述上下文信息庫的所有文本、語義信息中是否存在同音詞;若有,則使用同音詞進行替換;若無,則不作處理。

21、優(yōu)選的,所述語音識別模型是基于大模型的語音識別模型。

22、優(yōu)選的,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:

23、將所述上下文信息與原有語音信號,作為大模型的輸入提示詞;

24、大模型根據(jù)所述輸入提示詞,優(yōu)化調整語音識別結果。

25、根據(jù)本發(fā)明的第二個方面,提供一種基于視覺上下文的遠程會議實時語音識別優(yōu)化系統(tǒng),包括:

26、上下文信息采集模塊:根據(jù)投屏畫面,采集視覺上下文信息;

27、語音識別模塊:獲取語音音頻并輸入到語音識別模型中,獲得語音識別結果;

28、調整優(yōu)化模塊:利用所述上下文信息,對所述語音識別結果進行調整。

29、根據(jù)本發(fā)明的第三個方面,一種終端,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時可用于執(zhí)行任一項所述的方法,或,運行所述的系統(tǒng)。

30、根據(jù)本發(fā)明的第四個方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時可用于執(zhí)行任一項所述的方法,或,運行所述的系統(tǒng)。

31、與現(xiàn)有技術相比,本發(fā)明實施例至少具有如下的一種有益效果:

32、本發(fā)明實施例所涉及的基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,在傳統(tǒng)遠程會議語音實時識別功能的基礎上,通過分析當前投屏畫面的文字與圖像內容信息,并將這些信息融入語音識別模型中,以實現(xiàn)對識別概率較低或存在歧義的單詞進行優(yōu)化。該方法能有效降低錯誤識別率,解決專業(yè)領域詞匯識別難題,進而提高實時語音翻譯功能的整體性能。



技術特征:

1.一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,包括:

2.根據(jù)權利要求1所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述根據(jù)所述投屏畫面,采集視覺上下文信息,包括:

3.根據(jù)權利要求2所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述上下文信息庫存儲固定幀數(shù)的投屏畫面的所有文字和語義信息。

4.根據(jù)權利要求2所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:

5.根據(jù)權利要求2所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:

6.根據(jù)權利要求1所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述語音識別模型是基于大模型的語音識別模型。

7.根據(jù)權利要求6所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:

8.一種基于視覺上下文的遠程會議實時語音識別優(yōu)化系統(tǒng),其特征在于,包括:

9.一種終端,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時可用于執(zhí)行權利要求1-7中任一項所述的方法,或,運行權利要求8中所述的系統(tǒng)。

10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時可用于執(zhí)行權利要求1-7中任一項所述的方法,或,運行權利要求8中所述的系統(tǒng)。


技術總結
本發(fā)明提供一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法和系統(tǒng),包括:根據(jù)所述投屏畫面,采集視覺上下文信息;獲取語音音頻并輸入到語音識別模型中,獲得語音識別結果;利用所述上下文信息,對所述語音識別結果進行調整。本發(fā)明在傳統(tǒng)遠程會議語音實時識別功能的基礎上,通過分析當前投屏畫面的文字與圖像內容信息,并將這些信息融入語音識別模型中,以實現(xiàn)對識別概率較低或存在歧義的單詞進行優(yōu)化。該方法能有效降低錯誤識別率,解決專業(yè)領域詞匯識別難題,進而提高實時語音翻譯功能的整體性能。

技術研發(fā)人員:盛興東,晏軼超,楊小康
受保護的技術使用者:上海交通大學
技術研發(fā)日:
技術公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
海阳市| 宜都市| 青铜峡市| 沧州市| 秭归县| 宝山区| 南丰县| 拉萨市| 常熟市| 松江区| 瑞丽市| 祥云县| 平遥县| 济南市| 若尔盖县| 玉林市| 辽宁省| 沂水县| 甘孜县| 宝丰县| 元江| 建湖县| 大冶市| 凤庆县| 新竹市| 抚顺县| 清苑县| 类乌齐县| 涿州市| 阿克陶县| 鹿泉市| 安宁市| 临沂市| 凤山县| 南京市| 双鸭山市| 灌南县| 和田市| 平阴县| 毕节市| 永兴县|