欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種語音交互識(shí)別增強(qiáng)方法、裝置和存儲(chǔ)介質(zhì)

文檔序號(hào):40528912發(fā)布日期:2024-12-31 13:40閱讀:14來源:國知局
一種語音交互識(shí)別增強(qiáng)方法、裝置和存儲(chǔ)介質(zhì)

本發(fā)明屬于語音交互識(shí)別,特別涉及一種語音交互識(shí)別增強(qiáng)方法、裝置和存儲(chǔ)介質(zhì)。


背景技術(shù):

1、在機(jī)場(chǎng)和火車站等公共嘈雜環(huán)境中,語音識(shí)別的準(zhǔn)確性和魯棒性至關(guān)重要。傳統(tǒng)單模態(tài)語音識(shí)別技術(shù)在噪音環(huán)境下難以有效工作,影響人機(jī)交互效率。提升嘈雜環(huán)境下的語音識(shí)別能力,可以顯著改善公共服務(wù)機(jī)器人和移動(dòng)終端的用戶體驗(yàn)和應(yīng)用效果。

2、當(dāng)前,神經(jīng)科學(xué)研究表明生物腦中視覺和聽覺信息的交互對(duì)語音識(shí)別有重要作用。然而,現(xiàn)有研究大多停留在現(xiàn)象觀察層面,對(duì)于具體的融合機(jī)制了解不足。如果能在神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)這種交互機(jī)制,將有助于提高語音識(shí)別性能。

3、視、聽覺雙模態(tài)語音識(shí)別增加了唇語這一視覺信息。語音模態(tài)在安靜環(huán)境下非常準(zhǔn)確,但隨著噪聲增加,識(shí)別準(zhǔn)確率顯著下降;唇語模態(tài)的識(shí)別準(zhǔn)確率雖不受信噪比影響,但由于唇語到文本是一對(duì)多的映射,唇語特征提取研究不足,唇語模態(tài)在安靜或高信噪比環(huán)境下識(shí)別準(zhǔn)確率不及語音模態(tài)。因此,在信噪比多變環(huán)境下,如何結(jié)合語音模態(tài)的準(zhǔn)確性和唇語模態(tài)的魯棒性,實(shí)現(xiàn)準(zhǔn)確而魯棒的語音識(shí)別,是一項(xiàng)挑戰(zhàn)性研究。

4、現(xiàn)有語音識(shí)別模型多基于transformer架構(gòu),如openai的whisper模型,其參數(shù)量龐大,對(duì)移動(dòng)終端的內(nèi)存和算力需求極高。這種模型在移動(dòng)設(shè)備上運(yùn)行速度慢,內(nèi)存占用大,無法滿足低延遲需求。基于生物腦的研究,生物腦結(jié)構(gòu)類似于并行的循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)。rnn架構(gòu)更接近實(shí)際腦結(jié)構(gòu),適合在資源有限的移動(dòng)終端上實(shí)現(xiàn)高效的語音識(shí)別。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是為了克服已有技術(shù)的不足之處,提出一種嘈雜環(huán)境下語音交互識(shí)別增強(qiáng)方法、裝置和存儲(chǔ)介質(zhì)。本發(fā)明基于生物腦視、聽覺信息交互的研究,構(gòu)建一個(gè)基于rnn的小型語音識(shí)別模型,以實(shí)現(xiàn)低延遲、實(shí)時(shí)的語音識(shí)別,適用于移動(dòng)終端在公共嘈雜環(huán)境下的應(yīng)用,特別是在機(jī)場(chǎng)和火車站中,增強(qiáng)機(jī)器人與行人之間的語音交互識(shí)別。在進(jìn)行視、聽覺信息的交互之前,首先需要對(duì)這兩個(gè)模態(tài)進(jìn)行特征提取。參考了以往研究中單模態(tài)特征提取的進(jìn)展,設(shè)計(jì)了唇語識(shí)別網(wǎng)絡(luò)和語音識(shí)別網(wǎng)絡(luò)。接著,設(shè)計(jì)了時(shí)間特征提取網(wǎng)絡(luò),并隨后設(shè)計(jì)了一個(gè)激活網(wǎng)絡(luò)來實(shí)現(xiàn)兩個(gè)模態(tài)的交互。最終,將結(jié)果輸入分類器,得到最終的識(shí)別結(jié)果。以實(shí)現(xiàn)在嘈雜環(huán)境下增強(qiáng)語音交互識(shí)別準(zhǔn)確率。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

3、本發(fā)明第一方面提供的一種語音交互識(shí)別增強(qiáng)方法,包括:

4、采集待識(shí)別視頻,所述待識(shí)別視頻中說話者面向攝像頭進(jìn)行語音交互,將所述待識(shí)別視頻拆分為n段待識(shí)別語音和n幀待識(shí)別圖像,并構(gòu)成待識(shí)別數(shù)據(jù);

5、將所述待識(shí)別數(shù)據(jù)輸入預(yù)設(shè)的語音交互識(shí)別增強(qiáng)模型,所述語音交互識(shí)別增強(qiáng)模型包括唇語特征提取網(wǎng)絡(luò)、語音特征提取網(wǎng)絡(luò)、時(shí)間特征提取網(wǎng)絡(luò)和激活網(wǎng)絡(luò),所述唇語特征提取網(wǎng)絡(luò)用于提取n幀待識(shí)別圖像的唇語特征矩陣,語音特征提取網(wǎng)絡(luò)用于提取n段待識(shí)別語音的語音特征矩陣,時(shí)間特征提取網(wǎng)絡(luò)用于根據(jù)所述唇語特征矩陣和所述語音特征矩陣得到包含時(shí)序信息的唇語特征矩陣和包含時(shí)序信息的語音特征矩陣,激活網(wǎng)絡(luò)用于模擬生物腦中視覺信息對(duì)聽覺神經(jīng)回路的激活-抑制機(jī)制,實(shí)現(xiàn)所述包含時(shí)序信息的唇語特征矩陣和所述包含時(shí)序信息的語音特征矩陣兩種模態(tài)的交互,從而得到語音識(shí)別結(jié)果。

6、在一些實(shí)施例中,所述n段待識(shí)別語音和n幀待識(shí)別圖像均隨機(jī)排序。

7、在一些實(shí)施例中,所述唇語特征提取網(wǎng)絡(luò)采用3d卷積神經(jīng)網(wǎng)絡(luò),包括依次連接的三維卷積層、最大池化層、批量歸一化層和激活函數(shù)層。

8、在一些實(shí)施例中,所述語音特征提取網(wǎng)絡(luò)采用2d卷積神經(jīng)網(wǎng)絡(luò),包括依次連接的梅爾頻率倒譜系數(shù)模塊、二維卷積層、最大池化層、批量歸一化層和激活函數(shù)層。

9、在一些實(shí)施例中,所述時(shí)間特征提取網(wǎng)絡(luò)采用兩個(gè)雙向門控循環(huán)單元,雙向門控循環(huán)單元中的一個(gè)門控循環(huán)單元用于處理對(duì)輸入的不同時(shí)刻的特征矩陣進(jìn)行正向拼接時(shí)的正向時(shí)序信息,另一個(gè)門控循環(huán)單元用于處理對(duì)輸入的不同時(shí)刻的特征矩陣進(jìn)行反向拼接時(shí)的反向時(shí)序信息,從而實(shí)現(xiàn)對(duì)動(dòng)態(tài)變化的雙向上下文信息的捕捉和利用,增強(qiáng)特征的表征能力。

10、在一些實(shí)施例中,所述激活網(wǎng)絡(luò)包括依次連接的激活模塊、融合層,第二全連接層和分類器,所述激活模塊由注意力層和第一全連接層組成;所述包含時(shí)序信息的唇語特征矩陣的維度為n×28,所述激活模塊首先利用注意力機(jī)制計(jì)算在28個(gè)唇語類別上的注意力權(quán)重,所述28個(gè)唇語類別由26個(gè)英文字母對(duì)應(yīng)的唇形、1個(gè)空格和1個(gè)占位符組成,然后利用所述第一全連接層將所述注意力層得到的注意力權(quán)重轉(zhuǎn)換為各類別的概率分布,從而得到激活矩陣;所述融合層用于將所述包含時(shí)序信息的語音特征矩陣與所述激活矩陣中對(duì)應(yīng)位置的元素相乘,得到融合特征;所述融合特征經(jīng)過所述第二全連接層的線性變換和所述分類器的分類后得到所述語音識(shí)別結(jié)果。

11、在一些實(shí)施例中,所述預(yù)設(shè)的語音交互識(shí)別增強(qiáng)模型,是通過以下步驟得到:

12、1)構(gòu)建訓(xùn)練集:

13、獲取m條說話者的視頻,將每條視頻拆分為時(shí)長相等的n段音頻和大小相等的n幀圖像,將所述n段音頻作為一組音頻數(shù)據(jù),將所述n幀圖像分別進(jìn)行roi提取處理,提取圖像中唇部附近的區(qū)域,得到n幀roi圖像數(shù)據(jù),將所述n幀roi圖像數(shù)據(jù)作為一組圖像數(shù)據(jù);將每條視頻拆分得到的一組音頻數(shù)據(jù)和一組圖像數(shù)據(jù)相對(duì)應(yīng),分別作為一個(gè)語音識(shí)別訓(xùn)練樣本和一個(gè)唇語識(shí)別訓(xùn)練樣本,以此構(gòu)建訓(xùn)練集;

14、2)構(gòu)建語音交互識(shí)別增強(qiáng)模型:

15、構(gòu)建的所述語音交互識(shí)別增強(qiáng)模型包括唇語特征提取網(wǎng)絡(luò)、語音特征提取網(wǎng)絡(luò)、時(shí)間特征提取網(wǎng)絡(luò)和激活網(wǎng)絡(luò):

16、所述唇語特征提取網(wǎng)絡(luò)采用3d卷積神經(jīng)網(wǎng)絡(luò),以所述唇語識(shí)別訓(xùn)練樣本作為輸入,提取圖像特征,輸出唇語特征矩陣v;

17、所述語音特征提取網(wǎng)絡(luò)采用2d卷積神經(jīng)網(wǎng)絡(luò),以所述語音識(shí)別訓(xùn)練樣本作為輸入,提取語音特征,輸出語音特征矩陣a;

18、所述時(shí)間特征提取網(wǎng)絡(luò)采用雙向門控循環(huán)單元,以所述唇語特征矩陣v和所述語音特征矩陣a作為輸入,輸出為包含時(shí)序信息的唇語特征矩tv和包含時(shí)序信息的語音特征矩陣ta;

19、所述激活網(wǎng)絡(luò)包括依次連接的激活模塊、融合層,第二全連接層和分類器,所述激活網(wǎng)絡(luò)以所述包含時(shí)序信息的唇語特征矩陣tv和所述包含時(shí)序信息的語音特征矩陣ta作為輸入,所述包含時(shí)序信息的唇語特征矩陣tv通過所述激活模塊的注意力機(jī)制和第一全聯(lián)接層,得到激活矩陣tm,通過所述融合層將所述包含時(shí)序信息的語音特征矩陣矩陣ta與所述激活矩陣ta對(duì)應(yīng)位置的元素相乘,得到融合矩陣,所述融合矩陣依次通過所述第二全連接層和所述分類器后得到語音識(shí)別結(jié)果p。

20、3)訓(xùn)練語音交互識(shí)別增強(qiáng)模型:

21、設(shè)置損失函數(shù),并利用步驟1)構(gòu)建的所述訓(xùn)練集對(duì)步驟2)構(gòu)建的所述語音交互識(shí)別增強(qiáng)模型進(jìn)行訓(xùn)練,直至損失函數(shù)收斂,得到訓(xùn)練完畢的語音交互識(shí)別增強(qiáng)模型。

22、在一些實(shí)施例中,步驟1)中,所述一組音頻數(shù)據(jù)中的各段音頻和所述一組圖像數(shù)據(jù)中的n幀roi圖像數(shù)據(jù)均采用隨機(jī)排序;

23、步驟3)中,所述損失函數(shù)采用ctc損失函數(shù)。

24、本發(fā)明第二方面提供的一種基于本發(fā)明第一方面任一實(shí)施例所述方法的語音交互識(shí)別增強(qiáng)裝置,包括:

25、數(shù)據(jù)獲取模塊,用于采集待識(shí)別視頻,所述待識(shí)別視頻中說話者面向攝像頭進(jìn)行語音交互,將所述待識(shí)別視頻拆分為n段待識(shí)別語音和n幀待識(shí)別圖像,并構(gòu)成待識(shí)別數(shù)據(jù);

26、識(shí)別模塊,其內(nèi)含有預(yù)設(shè)的語音交互識(shí)別增強(qiáng)模型,所述語音交互識(shí)別增強(qiáng)模型包括唇語特征提取網(wǎng)絡(luò)、語音特征提取網(wǎng)絡(luò)、時(shí)間特征提取網(wǎng)絡(luò)和激活網(wǎng)絡(luò),所述唇語特征提取網(wǎng)絡(luò)用于提取n幀待識(shí)別圖像的唇語特征矩陣,語音特征提取網(wǎng)絡(luò)用于提取n段待識(shí)別語音的語音特征矩陣,時(shí)間特征提取網(wǎng)絡(luò)用于根據(jù)所述唇語特征矩陣和所述語音特征矩陣得到包含時(shí)序信息的唇語特征矩陣和包含時(shí)序信息的語音特征矩陣,激活網(wǎng)絡(luò)用于模擬生物腦中視覺信息對(duì)聽覺神經(jīng)回路的激活-抑制機(jī)制,實(shí)現(xiàn)所述包含唇時(shí)序信息的語特征矩陣和所述包含唇時(shí)序信息的語音特征矩陣兩種模態(tài)的交互,從而得到語音識(shí)別結(jié)果。

27、本發(fā)明第三方面提供的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行本發(fā)明第一方面任一實(shí)施例所述的方法。

28、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下特點(diǎn)及有益效果:

29、(1)本發(fā)明提出了提出了一種新模態(tài)交互策略,在模態(tài)間信息交互階段,采用激活網(wǎng)絡(luò),將語音特征矩陣與激活矩陣對(duì)應(yīng)位置的元素相乘,通過這種方式,模型可以在不依賴復(fù)雜檢測(cè)器的情況下,準(zhǔn)確預(yù)測(cè)和識(shí)別嘈雜環(huán)境中的語音命令,顯著提高了語音識(shí)別的魯棒性和準(zhǔn)確性;

30、(2)本發(fā)明采用卷積神經(jīng)網(wǎng)絡(luò)與雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合,在特征提取階段使用了卷積神經(jīng)網(wǎng)絡(luò)(cnn)和雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(bi-gru)的組合結(jié)構(gòu)。這種設(shè)計(jì)不僅控制了網(wǎng)絡(luò)的規(guī)模,還有效提高了模型的特征提取能力,使其能夠在低算力設(shè)備上運(yùn)行,并保持高識(shí)別率;

31、(3)本發(fā)明實(shí)現(xiàn)了高效的單幀圖像處理,與多幀圖像處理方法不同,本發(fā)明的模型針對(duì)單幀圖像進(jìn)行處理,避免了在數(shù)據(jù)采集過程中由于動(dòng)力學(xué)問題在時(shí)間序列中引入的偏差,從而提升了識(shí)別結(jié)果的準(zhǔn)確性和穩(wěn)定性;

32、(4)本發(fā)明具有顯著的性能提升,與現(xiàn)有的優(yōu)秀模型相比,本發(fā)明在詞錯(cuò)率(wer)與基準(zhǔn)模型相比和魯棒性方面均有大幅度提升。

33、綜上所述,本發(fā)明提出了一種語音識(shí)別增強(qiáng)方法,采用自下而上的模態(tài)交互策略和cnn+bi-gru的特征提取結(jié)構(gòu),能夠高效處理單幀圖像,在嘈雜環(huán)境下實(shí)現(xiàn)高魯棒性和高準(zhǔn)確率的語音識(shí)別。本發(fā)明在多個(gè)數(shù)據(jù)集上驗(yàn)證了其優(yōu)越性能,特別適用于在嘈雜公共環(huán)境如機(jī)場(chǎng)和火車站中增強(qiáng)機(jī)器人與行人之間的語音交互識(shí)別,滿足自動(dòng)化設(shè)備對(duì)語音識(shí)別技術(shù)的精度與效率要求,便于集成于各種移動(dòng)終端。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
怀宁县| 沁源县| 开鲁县| 金湖县| 沧州市| 南郑县| 荣成市| 白银市| 勃利县| 鱼台县| 岗巴县| 汉中市| 准格尔旗| 竹溪县| 伊金霍洛旗| 福贡县| 四川省| 南丰县| 金湖县| 黎川县| 元阳县| 贡嘎县| 敦化市| 高尔夫| 贵溪市| 泾源县| 宁南县| 红桥区| 积石山| 英超| 新平| 彭水| 理塘县| 青岛市| 高尔夫| 闽清县| 平利县| 五大连池市| 芜湖市| 习水县| 贵定县|