本發(fā)明涉及人工智能,具體地,涉及一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法、系統(tǒng)、終端及介質。
背景技術:
1、在當前的遠程會議系統(tǒng)中(例如teams、騰訊會議、zoom等),已經(jīng)集成了實時語音翻譯功能。該功能依賴于語音識別模型,能夠實時地將會議參與者的聲音轉換為文本信息,如圖1所示。目前,技術發(fā)展主要依賴于各種語音識別算法模型,以提高識別的準確性。
2、然而,在遠程會議的特定環(huán)境中,專業(yè)術語的使用以及說話者的口音差異等問題,往往會導致現(xiàn)有的語音識別模型準確度降低,從而影響識別效果?,F(xiàn)有的實時語音翻譯系統(tǒng)主要依賴于會議參與者的語音信號,而未能充分利用更多的上下文信息來輔助語音識別。相比之下,人類在進行語音翻譯理解時,會結合豐富的環(huán)境信息和知識背景,以更好地輔助對說話者語音的理解。
3、目前,解決這一問題的主要策略是通過改進語音識別模型本身。特別是,通過使用大量數(shù)據(jù)(包括專業(yè)領域數(shù)據(jù)、不同口音和方言的數(shù)據(jù)等)來訓練大型模型,以期解決上述問題。但是,數(shù)據(jù)的采集、模型的訓練和推理過程成本高昂。
技術實現(xiàn)思路
1、針對現(xiàn)有技術中的缺陷,本發(fā)明的目的是提供一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法、系統(tǒng)、終端及介質。
2、根據(jù)本發(fā)明的一個方面,提供一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,包括:
3、根據(jù)投屏畫面,采集視覺上下文信息;
4、獲取語音音頻并輸入到語音識別模型中,獲得語音識別結果;
5、利用所述上下文信息,對所述語音識別結果進行調整。
6、優(yōu)選的,所述根據(jù)所述投屏畫面,采集視覺上下文信息,包括:
7、實時采集當前投屏畫面;
8、對所述投屏畫面進行圖像識別,獲得投屏畫面中的文字以及圖片的語義信息;
9、將所述文字以及所述語義信息添加到上下文信息庫中;
10、判斷投屏畫面是否發(fā)生變化,若發(fā)生變化,則重復上述圖像識別和添加過程。
11、優(yōu)選的,所述上下文信息庫存儲固定幀數(shù)的投屏畫面的所有文字和語義信息。
12、優(yōu)選的,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:
13、從所述語音識別結果中,獲得所有位置的單詞以及相應的概率值;
14、對于識別出的概率值低于閾值的單詞,獲取該位置的單詞在語音識別模型中對應的有可能的概率值前k個的候選單詞,所述候選單詞的概率值表示為:p_origin(j),j=1:k;
15、獲取所述候選單詞與所述上下文信息庫中所有文本、語義信息的相關性概率p_context_corr(j),j=1:k;
16、將兩個概率進行加權計算得到最終的概率p(j)=p_origin(j)*p_context_corr(j),j=1:k;
17、根據(jù)最終的概率進行重新排序選擇概率最大的單詞作為該單詞位置優(yōu)化后的單詞。
18、優(yōu)選的,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:
19、從所述語音識別結果中,獲得先驗概率低于閾值的單詞;
20、查找所述上下文信息庫的所有文本、語義信息中是否存在同音詞;若有,則使用同音詞進行替換;若無,則不作處理。
21、優(yōu)選的,所述語音識別模型是基于大模型的語音識別模型。
22、優(yōu)選的,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:
23、將所述上下文信息與原有語音信號,作為大模型的輸入提示詞;
24、大模型根據(jù)所述輸入提示詞,優(yōu)化調整語音識別結果。
25、根據(jù)本發(fā)明的第二個方面,提供一種基于視覺上下文的遠程會議實時語音識別優(yōu)化系統(tǒng),包括:
26、上下文信息采集模塊:根據(jù)投屏畫面,采集視覺上下文信息;
27、語音識別模塊:獲取語音音頻并輸入到語音識別模型中,獲得語音識別結果;
28、調整優(yōu)化模塊:利用所述上下文信息,對所述語音識別結果進行調整。
29、根據(jù)本發(fā)明的第三個方面,一種終端,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時可用于執(zhí)行任一項所述的方法,或,運行所述的系統(tǒng)。
30、根據(jù)本發(fā)明的第四個方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時可用于執(zhí)行任一項所述的方法,或,運行所述的系統(tǒng)。
31、與現(xiàn)有技術相比,本發(fā)明實施例至少具有如下的一種有益效果:
32、本發(fā)明實施例所涉及的基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,在傳統(tǒng)遠程會議語音實時識別功能的基礎上,通過分析當前投屏畫面的文字與圖像內容信息,并將這些信息融入語音識別模型中,以實現(xiàn)對識別概率較低或存在歧義的單詞進行優(yōu)化。該方法能有效降低錯誤識別率,解決專業(yè)領域詞匯識別難題,進而提高實時語音翻譯功能的整體性能。
1.一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,包括:
2.根據(jù)權利要求1所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述根據(jù)所述投屏畫面,采集視覺上下文信息,包括:
3.根據(jù)權利要求2所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述上下文信息庫存儲固定幀數(shù)的投屏畫面的所有文字和語義信息。
4.根據(jù)權利要求2所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:
5.根據(jù)權利要求2所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:
6.根據(jù)權利要求1所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述語音識別模型是基于大模型的語音識別模型。
7.根據(jù)權利要求6所述的一種基于視覺上下文的遠程會議實時語音識別優(yōu)化方法,其特征在于,所述利用所述上下文信息,對所述語音識別結果進行調整,包括:
8.一種基于視覺上下文的遠程會議實時語音識別優(yōu)化系統(tǒng),其特征在于,包括:
9.一種終端,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時可用于執(zhí)行權利要求1-7中任一項所述的方法,或,運行權利要求8中所述的系統(tǒng)。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時可用于執(zhí)行權利要求1-7中任一項所述的方法,或,運行權利要求8中所述的系統(tǒng)。