語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：40562657發(fā)布日期：2025-01-03 11:22閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及語音活動(dòng)處理，特別是涉及一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來，人們對(duì)智能化的需求促進(jìn)智能語音技術(shù)獲得了很大的發(fā)展，越來越多的智能設(shè)備開始使用智能語音技術(shù)來完成交互，比如智能汽車，智能手機(jī)以及智能音箱等。語音活動(dòng)檢測技術(shù)是語音交互的關(guān)鍵步驟之一。語音活動(dòng)檢測技術(shù)是語音處理系統(tǒng)、消費(fèi)電子產(chǎn)品、多媒體系統(tǒng)等領(lǐng)域的核心技術(shù)之一。語音活動(dòng)檢測不僅涉及到數(shù)字信號(hào)處理的問題，還涉及到聽覺感知特性和人類的語音特征。同時(shí)，噪聲的多樣性增加了語音活動(dòng)檢測的困難。從帶有噪聲的語音信號(hào)中判斷出語音信號(hào)的起點(diǎn)和終點(diǎn)是非常困難的。

2、目前，語音活動(dòng)檢測技術(shù)包括基于能量的方法、基于過零率的方法、基于統(tǒng)計(jì)模型的方法以及基于深度學(xué)習(xí)的方法等。其中，基于能量的方法和基于過零率的方法都需要確定啟發(fā)式的閾值，再將特征值與閾值比較，得到估計(jì)的結(jié)果，從而實(shí)現(xiàn)語音活動(dòng)檢測。雖然這種方法容易實(shí)現(xiàn)，但這種方法在噪聲環(huán)境下處理效果不明顯。基于統(tǒng)計(jì)模型的方法不僅需要假設(shè)語音及非語音的分布特性，并且需要確定滿足馬爾可夫假設(shè)。這種方法不利于處理未見的數(shù)據(jù)?；谏疃葘W(xué)習(xí)的方法通常是采用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來建模音頻時(shí)序信息，它對(duì)非平穩(wěn)的噪聲信號(hào)達(dá)到了很好的檢測效果，但是它對(duì)于語音活動(dòng)的檢測仍然不夠準(zhǔn)確。

技術(shù)實(shí)現(xiàn)思路

1、基于此，有必要針對(duì)上述技術(shù)問題，提供一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)，能夠有效提高語音活動(dòng)檢測的能力，從而更有效地在平穩(wěn)的或非平穩(wěn)的噪聲干擾下判斷出語音信號(hào)的起點(diǎn)和終點(diǎn)。

2、一種語音活動(dòng)檢測方法，包括：獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征；將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型，得到語音活動(dòng)檢測模型中長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量；將第一中間特征張量輸入到第一多頭自注意力模塊，得到第一輸出特征，權(quán)重化第一輸出特征，得到第一增強(qiáng)特征；將第二中間特征張量輸入到第二多頭自注意力模塊，得到第二輸出特征，權(quán)重化第二輸出特征，得到第二增強(qiáng)特征；基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合，得到聚合特征；根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。

3、在一些實(shí)施例中，將第一中間特征張量輸入到第一多頭自注意力模塊，得到第一輸出特征，包括：獲取第一位置嵌入向量；根據(jù)第一位置嵌入向量并采用向量累加的方式，將第一中間特征張量轉(zhuǎn)換為第一嵌入向量；將第一嵌入向量輸入第一多頭自注意力模塊，得到第一輸出特征。

4、在一些實(shí)施例中，將第二中間特征張量輸入到第二多頭自注意力模塊，得到第二輸出特征，包括：獲取第二位置嵌入向量；根據(jù)第二位置嵌入向量并采用向量累加的方式，將第二中間特征張量轉(zhuǎn)換為第二嵌入向量；將第二嵌入向量輸入第二多頭自注意力模塊，得到第二輸出特征。

5、在一些實(shí)施例中，基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合，得到聚合特征，包括：獲取注意力權(quán)重的權(quán)重向量；根據(jù)權(quán)重向量確定第一增強(qiáng)特征的第一權(quán)重以及第二增強(qiáng)特征的第二權(quán)重；根據(jù)第一權(quán)重、第一增強(qiáng)特征、第二權(quán)重和第二增強(qiáng)特征，并采用特征累加的方式進(jìn)行特征聚合，得到聚合特征。

6、在一些實(shí)施例中，權(quán)重向量基于設(shè)定的維度向量以及修正線性單元激活函數(shù)和歸一化指數(shù)函數(shù)確定。

7、在一些實(shí)施例中，根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測，包括：將聚合特征進(jìn)行全連接層映射處理和歸一化處理，得到各音頻幀的概率；根據(jù)各音頻幀的概率確定語音活動(dòng)檢測的結(jié)果。

8、在一些實(shí)施例中，語音活動(dòng)檢測模型的訓(xùn)練方法包括：獲取語音數(shù)據(jù)和車載噪聲數(shù)據(jù)；根據(jù)語音數(shù)據(jù)和車載噪聲數(shù)據(jù)以不同的信噪比合成帶噪的音頻數(shù)據(jù)；利用語音數(shù)據(jù)和帶噪的音頻數(shù)據(jù)并按照交叉熵?fù)p失函數(shù)最小化對(duì)語音活動(dòng)檢測模型進(jìn)行參數(shù)優(yōu)化；利用語音數(shù)據(jù)和帶噪的音頻數(shù)據(jù)以及自適應(yīng)力矩估計(jì)優(yōu)化算法對(duì)語音活動(dòng)檢測模型進(jìn)行模型訓(xùn)練。

9、一種語音活動(dòng)檢測裝置，包括：獲取模塊，用于獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征；第一輸入模塊，用于將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型，得到語音活動(dòng)檢測模型中長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量；第二輸入模塊，用于將第一中間特征張量輸入到第一多頭自注意力模塊，得到第一輸出特征，權(quán)重化第一輸出特征，得到第一增強(qiáng)特征；第三輸入模塊，用于將第二中間特征張量輸入到第二多頭自注意力模塊，得到第二輸出特征，權(quán)重化第二輸出特征，得到第二增強(qiáng)特征；聚合模塊，用于基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合，得到聚合特征；檢測模塊，用于根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。

10、一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)語音活動(dòng)檢測方法的步驟。

11、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)語音活動(dòng)檢測方法的步驟。

12、上述語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)，獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征；將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型，得到語音活動(dòng)檢測模型中長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量；將第一中間特征張量輸入到第一多頭自注意力模塊，得到第一輸出特征，權(quán)重化第一輸出特征，得到第一增強(qiáng)特征；將第二中間特征張量輸入到第二多頭自注意力模塊，得到第二輸出特征，權(quán)重化第二輸出特征，得到第二增強(qiáng)特征；基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合，得到聚合特征；根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。

13、因此，能夠充分利用多頭自注意力機(jī)制強(qiáng)調(diào)輸入不同部位依賴的優(yōu)勢，建立上下文的依賴關(guān)系，權(quán)重化不同部位的重要性，以及建模不同子空間的信息，最后基于向量化注意力權(quán)重的方式將來自不同網(wǎng)絡(luò)結(jié)構(gòu)的特征聚合在了一起。這種方式能夠提高語音活動(dòng)檢測的效果，實(shí)用性更強(qiáng)，可以應(yīng)用于各種與語音交互相關(guān)的實(shí)際應(yīng)用中。

技術(shù)特征：

1.一種語音活動(dòng)檢測方法，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述第一中間特征張量輸入到第一多頭自注意力模塊，得到第一輸出特征，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述第二中間特征張量輸入到第二多頭自注意力模塊，得到第二輸出特征，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于向量化注意力權(quán)重將所述第一增強(qiáng)特征和所述第二增強(qiáng)特征進(jìn)行特征聚合，得到聚合特征，包括：

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述權(quán)重向量基于設(shè)定的維度向量以及修正線性單元激活函數(shù)和歸一化指數(shù)函數(shù)確定。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述聚合特征進(jìn)行語音活動(dòng)檢測，包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語音活動(dòng)檢測模型的訓(xùn)練方法包括：

8.一種語音活動(dòng)檢測裝置，所述裝置包括：

9.一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。

技術(shù)總結(jié)
本申請(qǐng)涉及一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。該方法包括：獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征；將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型，得到長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量；將第一中間特征張量輸入到第一多頭自注意力模塊，得到第一輸出特征，權(quán)重化第一輸出特征，得到第一增強(qiáng)特征；將第二中間特征張量輸入到第二多頭自注意力模塊，得到第二輸出特征，權(quán)重化第二輸出特征，得到第二增強(qiáng)特征；基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合，得到聚合特征；根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。采用本方法能夠有效提高語音活動(dòng)檢測的能力。

技術(shù)研發(fā)人員：譚應(yīng)偉,張人杰,丁雪楓
受保護(hù)的技術(shù)使用者：大眾問問（北京）信息科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：譚應(yīng)偉,張人杰,丁雪楓
技術(shù)所有人：大眾問問（北京）信息科技有限公司
我是此專利的發(fā)明人

上一篇：一種PCR密封檢測盒的制作方法
上一篇：一種錨頭抗火隔熱減震裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程