本發(fā)明涉及語音識別,尤其涉及一種基于回音消除的自動語音識別方法和裝置。
背景技術(shù):
1、自動語音識別(asr)技術(shù)是現(xiàn)代人機交互領(lǐng)域的核心技術(shù)之一,它允許計算機和智能設(shè)備通過識別和理解人類的語音來接收指令和提供響應(yīng)。隨著人工智能生成內(nèi)容(aigc)技術(shù)的快速發(fā)展,自動自然語言處理算法的應(yīng)用范圍不斷擴大,尤其是在智能機器人和數(shù)字人的交互中,asr技術(shù)成為實現(xiàn)流暢對話的關(guān)鍵。
2、但在實際應(yīng)用中,智能機器人和數(shù)字人在與人類進行語音交互時,其語音輸出往往與人類的語音輸入相互干擾,形成回音。這種回音不僅影響語音的清晰度,還會干擾asr系統(tǒng)的準確識別,導(dǎo)致識別結(jié)果的誤差增大。傳統(tǒng)的解決方法包括使用濾波技術(shù)和訓(xùn)練大型模型來處理帶有回音的音頻。
3、數(shù)字濾波技術(shù)通過特定的算法處理音頻信號,嘗試剔除回音部分,而保留原始語音內(nèi)容。然而,雖然數(shù)字濾波可以在一定程度上減少回音,但它很難完全消除回音而不損失原始語音的質(zhì)量。特別是在復(fù)雜的聲音環(huán)境中,濾波器可能難以區(qū)分回音和原始語音,導(dǎo)致語音信息的損失。據(jù)此生成的回音路徑函數(shù)往往可能不太準確。再次基礎(chǔ)上,一些研究使用深度學(xué)習(xí)模型處理回音問題,深度學(xué)習(xí)模型通過學(xué)習(xí)大量帶有回音和無回音的語音樣本,訓(xùn)練出能夠識別并消除回音的模型?;谏疃葘W(xué)習(xí)的模型雖然能夠有效處理回音問題,但訓(xùn)練這些模型需要大量的數(shù)據(jù)和計算資源。而在實際應(yīng)用中,尤其是在與智能機器人和數(shù)字人進行實時交互時,快速準確地處理回音至關(guān)重要,現(xiàn)有的解決方案往往難以滿足高效實時處理的需求。同時,為了維持模型的準確性,需要定期更新和重新訓(xùn)練模型,這進一步增加了成本和維護工作,同時,傳統(tǒng)方案在面對不同的語音環(huán)境和交互場景時可能需要重新調(diào)整濾波器設(shè)置或重新訓(xùn)練模型,這會導(dǎo)致模型對于多變的交互環(huán)境的適應(yīng)性較差。
4、綜上,現(xiàn)有技術(shù)存在處理回音效率低、適應(yīng)性差的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種基于回音消除的自動語音識別方法和裝置,用以解決現(xiàn)有技術(shù)中處理回音效率低、適應(yīng)性差的缺陷,實現(xiàn)效率高、適應(yīng)性好的回音消除,從而提高自動語音識別的準確性和效率。
2、本發(fā)明提供一種基于回音消除的自動語音識別方法,包括如下步驟:
3、提取待識別語音信息的音頻部分,并利用預(yù)設(shè)語音識別技術(shù)進行語音識別,得到語音識別結(jié)果;
4、利用預(yù)設(shè)向量化算法將所述語音識別結(jié)果進行向量化,得到目標向量;
5、利用預(yù)先構(gòu)建的向量數(shù)據(jù)庫與所述目標向量進行語義相似性比較,根據(jù)比較結(jié)果進行回音消除,得到回音消除結(jié)果;
6、根據(jù)所述回音消除結(jié)果進行自動語音識別;
7、其中,所述向量數(shù)據(jù)庫包括海量語音交互向量;所述語音交互向量是根據(jù)智能機器人或數(shù)字人輸出的語音交互信息,利用預(yù)設(shè)語音識別技術(shù)進行語音識別后繼續(xù)利用所述預(yù)設(shè)向量化算法進行向量化得到的。
8、根據(jù)本發(fā)明提供的一種基于回音消除的自動語音識別方法,利用預(yù)設(shè)向量化算法將所述語音識別結(jié)果進行向量化,得到目標向量,具體包括:
9、利用預(yù)設(shè)向量化算法將所述語音識別結(jié)果中的句子分別進行向量化,得到句子子向量;
10、匯總所述句子子向量得到目標向量。
11、根據(jù)本發(fā)明提供的一種基于回音消除的自動語音識別方法,利用預(yù)先構(gòu)建的向量數(shù)據(jù)庫與所述目標向量進行語義相似性比較,具體包括:
12、分別將所述句子子向量與所述向量數(shù)據(jù)庫中的所有語音交互向量進行語義相似性比較,得到比較結(jié)果。
13、根據(jù)本發(fā)明提供的一種基于回音消除的自動語音識別方法,根據(jù)比較結(jié)果進行回音消除,得到回音消除結(jié)果,具體包括:
14、在所述比較結(jié)果為向量數(shù)據(jù)庫中存在與所述句子子向量語義相似的向量數(shù)據(jù)的情況下,從所述句子子向量中剔除所述語義相似的向量數(shù)據(jù),得到剔除結(jié)果;
15、拼接所有所述句子子向量對應(yīng)的剔除結(jié)果,得到回音消除結(jié)果。
16、根據(jù)本發(fā)明提供的一種基于回音消除的自動語音識別方法,所述語義相似性的計算方式包括向量的余弦函數(shù)和aigc的大模型。
17、根據(jù)本發(fā)明提供的一種基于回音消除的自動語音識別方法,所述預(yù)設(shè)向量化算法包括embedding算法。
18、本發(fā)明還提供一種基于回音消除的自動語音識別裝置,包括如下模塊:
19、提取單元,用于提取待識別語音信息的音頻部分,并利用預(yù)設(shè)語音識別技術(shù)進行語音識別,得到語音識別結(jié)果;
20、向量單元,用于利用預(yù)設(shè)向量化算法將所述語音識別結(jié)果進行向量化,得到目標向量;
21、比較單元,用于利用預(yù)先構(gòu)建的向量數(shù)據(jù)庫與所述目標向量進行語義相似性比較,根據(jù)比較結(jié)果進行回音消除,得到回音消除結(jié)果;
22、識別單元,用于根據(jù)所述回音消除結(jié)果進行自動語音識別;
23、其中,所述向量數(shù)據(jù)庫包括海量語音交互向量;所述語音交互向量是根據(jù)智能機器人或數(shù)字人輸出的語音交互信息,利用預(yù)設(shè)語音識別技術(shù)進行語音識別后繼續(xù)利用所述預(yù)設(shè)向量化算法進行向量化得到的。
24、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述基于回音消除的自動語音識別方法。
25、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述基于回音消除的自動語音識別方法。
26、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述基于回音消除的自動語音識別方法。
27、本發(fā)明提供的基于回音消除的自動語音識別方法和裝置,通過提取待識別語音信息的音頻部分,并利用預(yù)設(shè)語音識別技術(shù)進行語音識別,得到語音識別結(jié)果;利用預(yù)設(shè)向量化算法將所述語音識別結(jié)果進行向量化,得到目標向量;利用預(yù)先構(gòu)建的向量數(shù)據(jù)庫與所述目標向量進行語義相似性比較,根據(jù)比較結(jié)果進行回音消除,得到回音消除結(jié)果;根據(jù)所述回音消除結(jié)果進行自動語音識別;其中,所述向量數(shù)據(jù)庫包括海量語音交互向量;所述語音交互向量是根據(jù)智能機器人或數(shù)字人輸出的語音交互信息,利用預(yù)設(shè)語音識別技術(shù)進行語音識別后繼續(xù)利用所述預(yù)設(shè)向量化算法進行向量化得到的。本發(fā)明通過語音識別技術(shù)智能分析和處理語音信號中的語義信息,并將語義信息轉(zhuǎn)化為向量與經(jīng)過類似處理的智能機器人或數(shù)字人輸出的信息進行比較,根據(jù)比較的結(jié)果識別和剔除回音,實現(xiàn)了效率高、適應(yīng)性好的回音消除,從而能夠在不犧牲語音信號質(zhì)量和語義完整性的前提下,提升語音識別的準確性。
1.一種基于回音消除的自動語音識別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于回音消除的自動語音識別方法,其特征在于,利用預(yù)設(shè)向量化算法將所述語音識別結(jié)果進行向量化,得到目標向量,具體包括:
3.根據(jù)權(quán)利要求2所述的基于回音消除的自動語音識別方法,其特征在于,利用預(yù)先構(gòu)建的向量數(shù)據(jù)庫與所述目標向量進行語義相似性比較,具體包括:
4.根據(jù)權(quán)利要求3所述的基于回音消除的自動語音識別方法,其特征在于,根據(jù)比較結(jié)果進行回音消除,得到回音消除結(jié)果,具體包括:
5.根據(jù)權(quán)利要求1所述的基于回音消除的自動語音識別方法,其特征在于,所述語義相似性的計算方式包括向量的余弦函數(shù)和aigc的大模型。
6.根據(jù)權(quán)利要求1所述的基于回音消除的自動語音識別方法,其特征在于,所述預(yù)設(shè)向量化算法包括embedding算法。
7.一種基于回音消除的自動語音識別裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至6任一項所述基于回音消除的自動語音識別方法。
9.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述基于回音消除的自動語音識別方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述基于回音消除的自動語音識別方法。