本發(fā)明涉及語音識別,尤其涉及一種語音轉(zhuǎn)文字方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、自動語音識別技術(shù)廣泛應(yīng)用于不同實(shí)時交互服務(wù)和自動化服務(wù)中。自動語音識別的實(shí)現(xiàn)需要依賴大量的語音和文本數(shù)據(jù)進(jìn)行訓(xùn)練,以學(xué)習(xí)特定場景下的語言特征和語言模式。
2、然而,在低資源語言的場景,即沒有足夠語音和文本數(shù)據(jù)支持的場景或數(shù)據(jù)較少的方言語言場景,自動語音識別的準(zhǔn)確率會明顯下降。同時,現(xiàn)有技術(shù)中自動語音識別,由于進(jìn)行訓(xùn)練實(shí)用的語音和文本數(shù)據(jù)通常是使用頻繁的語音和文本數(shù)據(jù),不能覆蓋到罕見詞匯或?qū)I(yè)術(shù)語詞匯,對于罕見詞匯或?qū)I(yè)術(shù)語詞匯的識別準(zhǔn)確率較低。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種語音轉(zhuǎn)文字方法、裝置、設(shè)備及存儲介質(zhì),用以解決現(xiàn)有技術(shù)中語音識別在低資源語言或者專業(yè)術(shù)語場景下,識別準(zhǔn)確率較低的缺陷。
2、本發(fā)明提供一種語音轉(zhuǎn)文字方法,包括:
3、獲取語音數(shù)據(jù)以及熱詞列表信息;
4、將所述語音數(shù)據(jù)以及所述熱詞列表信息輸入至處理模型,獲取文本轉(zhuǎn)換結(jié)果信息;
5、其中,所述處理模型執(zhí)行的處理包括:
6、根據(jù)所述語音數(shù)據(jù),獲取聲學(xué)特征信息;
7、根據(jù)所述語音數(shù)據(jù)以及所述熱詞列表信息,基于注意力機(jī)制處理,獲取熱詞索引信息以及注意力特征信息,所述熱詞索引信息表征熱詞與語音的相關(guān)性,所述注意力特征信息表征上下文的語音與熱詞的相關(guān)性;
8、根據(jù)所述熱詞索引信息,獲取熱詞特征信息;
9、根據(jù)所述聲學(xué)特征信息、所述注意力特征信息以及所述熱詞特征信息,生成所述文本轉(zhuǎn)換結(jié)果信息。
10、根據(jù)本發(fā)明提供的一種語音轉(zhuǎn)文字方法,所述處理模型包括預(yù)處理模塊、語音編碼模塊以及聲學(xué)解碼模塊;所述根據(jù)所述語音數(shù)據(jù),獲取聲學(xué)特征信息,包括:
11、將所述語音數(shù)據(jù)輸入至所述預(yù)處理模塊進(jìn)行預(yù)處理,獲取語音特征信息;
12、將所述語音特征信息輸入至所述語音編碼模塊進(jìn)行編碼處理,獲取聲學(xué)特征序列;
13、將所述聲學(xué)特征序列輸入至所述聲學(xué)解碼模塊進(jìn)行解碼處理,獲取所述聲學(xué)特征信息。
14、根據(jù)本發(fā)明提供的一種語音轉(zhuǎn)文字方法,所述處理模型包括熱詞編碼模塊以及注意力解碼模塊;所述根據(jù)所述語音數(shù)據(jù)以及所述熱詞列表信息,基于注意力機(jī)制處理,獲取熱詞索引信息以及注意力特征信息,包括:
15、獲取歷史標(biāo)記序列信息;
16、將所述熱詞列表信息輸入至所述熱詞編碼模塊進(jìn)行編碼處理,獲取熱詞特征序列;
17、將所述聲學(xué)特征序列、所述熱詞特征序列以及所述歷史標(biāo)記序列信息輸入至所述注意力解碼模塊,基于交叉注意力處理,獲取所述熱詞索引信息以及所述注意力特征信息。
18、根據(jù)本發(fā)明提供的一種語音轉(zhuǎn)文字方法,所述將所述聲學(xué)特征序列、所述熱詞特征序列以及所述歷史標(biāo)記序列信息輸入至所述注意力解碼模塊,基于交叉注意力處理,獲取所述熱詞索引信息以及所述注意力特征信息,包括:
19、對所述歷史標(biāo)記序列信息進(jìn)行轉(zhuǎn)換處理,獲取歷史標(biāo)記特征序列;
20、根據(jù)所述歷史標(biāo)記特征序列以及所述聲學(xué)特征序列進(jìn)行第一交叉注意力處理,獲取第一交叉注意力特征序列;
21、根據(jù)所述第一交叉注意力特征序列以及所述熱詞特征序列進(jìn)行第二交叉注意力處理,獲取第二交叉注意力特征序列;
22、根據(jù)所述第二交叉注意力特征序列,生成所述熱詞索引信息;
23、對所述第二交叉注意力特征序列進(jìn)行線性轉(zhuǎn)換處理,獲取所述注意力特征信息。
24、根據(jù)本發(fā)明提供的一種語音轉(zhuǎn)文字方法,所述將所述熱詞列表信息輸入至所述熱詞編碼模塊進(jìn)行編碼處理,獲取熱詞特征序列,包括:
25、對所述熱詞列表信息進(jìn)行編碼處理,獲取各個熱詞對應(yīng)的熱詞嵌入向量;
26、根據(jù)所述熱詞嵌入向量,基于轉(zhuǎn)換處理捕獲熱詞的依賴關(guān)系,獲取熱詞隱藏特征信息;
27、根據(jù)所述熱詞隱藏特征信息,提取熱詞特征序列。
28、根據(jù)本發(fā)明提供的一種語音轉(zhuǎn)文字方法,所述處理模型包括熱詞解碼模塊;所述根據(jù)所述熱詞索引信息,獲取熱詞特征信息,包括:
29、將所述熱詞索引信息輸入至所述熱詞解碼模塊中,以確定熱詞的概率分布,根據(jù)所述熱詞概率分布計(jì)算各個熱詞的概率得分,根據(jù)所述概率得分選取熱詞索引,形成所述熱詞特征信息。
30、根據(jù)本發(fā)明提供的一種語音轉(zhuǎn)文字方法,所述處理模型包括波束搜索解碼模塊;所述根據(jù)所述聲學(xué)特征信息、所述注意力特征信息以及所述熱詞特征信息,生成所述文本轉(zhuǎn)換結(jié)果信息,包括:
31、將所述聲學(xué)特征信息、所述注意力特征信息以及所述熱詞特征信息輸入至所述波束搜索解碼模塊,以確定概率最大的標(biāo)記序列,獲取所述文本轉(zhuǎn)換結(jié)果信息。
32、本發(fā)明還提供一種語音轉(zhuǎn)文字裝置,包括:
33、預(yù)處理模塊,用于對語音數(shù)據(jù)進(jìn)行預(yù)處理,獲取語音特征信息;
34、語音編碼模塊,用于對所述語音特征信息進(jìn)行編碼處理,獲取聲學(xué)特征序列;
35、聲學(xué)解碼模塊,用于對所述聲學(xué)特征序列進(jìn)行解碼處理,獲取聲學(xué)特征信息;
36、熱詞編碼模塊,用于對熱詞列表信息進(jìn)行編碼處理,獲取熱詞特征序列;
37、注意力解碼模塊,用于根據(jù)所述聲學(xué)特征序列以及所述熱詞特征序列,獲取熱詞索引信息以及注意力特征信息;
38、熱詞解碼模塊,用于根據(jù)所述熱詞索引信息,獲取熱詞特征信息;
39、波束搜索解碼模塊,用于根據(jù)所述聲學(xué)特征信息、所述注意力特征信息以及所述熱詞特征信息,生成所述文本轉(zhuǎn)換結(jié)果信息;
40、所述預(yù)處理模塊、所述語音編碼模塊、所述聲學(xué)解碼模塊、所述注意力解碼模塊、所述熱詞編碼模塊、所述熱詞解碼模塊以及所述波束搜索解碼模塊相互配合實(shí)現(xiàn)上述一種語音轉(zhuǎn)文字方法。
41、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)如上述任一種所述一種語音轉(zhuǎn)文字方法。
42、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如上述任一種所述一種語音轉(zhuǎn)文字方法。
43、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如上述任一種所述一種語音轉(zhuǎn)文字方法。
44、本發(fā)明提供的一種語音轉(zhuǎn)文字方法、裝置、設(shè)備及存儲介質(zhì),至少具有以下有益效果:在語音識別時,除了基于語音數(shù)據(jù)進(jìn)行處理,同時還結(jié)合熱詞列表信息進(jìn)行處理,熱詞列表信息可以包括低頻詞匯、方言詞匯以及專業(yè)詞匯等。處理模型基于輸入的語音數(shù)據(jù)以及熱詞列表信息,根據(jù)語音數(shù)據(jù)獲取聲學(xué)特征信息;根據(jù)語音數(shù)據(jù)和熱詞列表信息,基于注意力機(jī)制處理以獲取熱詞索引信息和注意力特征信息,熱詞索引信息反映與語音相關(guān)的熱詞信息,注意力特征信息反映結(jié)合語音上下文以及語音和熱詞之間相關(guān)性的信息;根據(jù)熱詞索引信息進(jìn)一步獲取熱詞特征信息;最終根據(jù)聲學(xué)特征信息、注意力特征信息以及熱詞特征信息,獲取語音轉(zhuǎn)文字的標(biāo)記序列,生成文本轉(zhuǎn)換結(jié)果信息,實(shí)現(xiàn)語音識別的功能。以此,結(jié)合熱詞列表信息以及注意力機(jī)制,利用熱詞列表信息彌補(bǔ)低資源語言或?qū)I(yè)術(shù)語場景下的詞匯基礎(chǔ),同時利用注意力對熱詞的優(yōu)先級進(jìn)行調(diào)整,使得語音識別過程中更加準(zhǔn)確地識別和轉(zhuǎn)寫關(guān)鍵詞匯,令文本轉(zhuǎn)換結(jié)果信息在低資源語言或?qū)I(yè)術(shù)語場景下更加準(zhǔn)確,有利于提高語音轉(zhuǎn)文字的準(zhǔn)確率和可靠性。