欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40562657發(fā)布日期:2025-01-03 11:22閱讀:12來源:國知局
語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及語音活動(dòng)處理,特別是涉及一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。


背景技術(shù):

1、隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來,人們對(duì)智能化的需求促進(jìn)智能語音技術(shù)獲得了很大的發(fā)展,越來越多的智能設(shè)備開始使用智能語音技術(shù)來完成交互,比如智能汽車,智能手機(jī)以及智能音箱等。語音活動(dòng)檢測技術(shù)是語音交互的關(guān)鍵步驟之一。語音活動(dòng)檢測技術(shù)是語音處理系統(tǒng)、消費(fèi)電子產(chǎn)品、多媒體系統(tǒng)等領(lǐng)域的核心技術(shù)之一。語音活動(dòng)檢測不僅涉及到數(shù)字信號(hào)處理的問題,還涉及到聽覺感知特性和人類的語音特征。同時(shí),噪聲的多樣性增加了語音活動(dòng)檢測的困難。從帶有噪聲的語音信號(hào)中判斷出語音信號(hào)的起點(diǎn)和終點(diǎn)是非常困難的。

2、目前,語音活動(dòng)檢測技術(shù)包括基于能量的方法、基于過零率的方法、基于統(tǒng)計(jì)模型的方法以及基于深度學(xué)習(xí)的方法等。其中,基于能量的方法和基于過零率的方法都需要確定啟發(fā)式的閾值,再將特征值與閾值比較,得到估計(jì)的結(jié)果,從而實(shí)現(xiàn)語音活動(dòng)檢測。雖然這種方法容易實(shí)現(xiàn),但這種方法在噪聲環(huán)境下處理效果不明顯。基于統(tǒng)計(jì)模型的方法不僅需要假設(shè)語音及非語音的分布特性,并且需要確定滿足馬爾可夫假設(shè)。這種方法不利于處理未見的數(shù)據(jù)?;谏疃葘W(xué)習(xí)的方法通常是采用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來建模音頻時(shí)序信息,它對(duì)非平穩(wěn)的噪聲信號(hào)達(dá)到了很好的檢測效果,但是它對(duì)于語音活動(dòng)的檢測仍然不夠準(zhǔn)確。


技術(shù)實(shí)現(xiàn)思路

1、基于此,有必要針對(duì)上述技術(shù)問題,提供一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),能夠有效提高語音活動(dòng)檢測的能力,從而更有效地在平穩(wěn)的或非平穩(wěn)的噪聲干擾下判斷出語音信號(hào)的起點(diǎn)和終點(diǎn)。

2、一種語音活動(dòng)檢測方法,包括:獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型中長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量;將第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,權(quán)重化第一輸出特征,得到第一增強(qiáng)特征;將第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,權(quán)重化第二輸出特征,得到第二增強(qiáng)特征;基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征;根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。

3、在一些實(shí)施例中,將第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,包括:獲取第一位置嵌入向量;根據(jù)第一位置嵌入向量并采用向量累加的方式,將第一中間特征張量轉(zhuǎn)換為第一嵌入向量;將第一嵌入向量輸入第一多頭自注意力模塊,得到第一輸出特征。

4、在一些實(shí)施例中,將第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,包括:獲取第二位置嵌入向量;根據(jù)第二位置嵌入向量并采用向量累加的方式,將第二中間特征張量轉(zhuǎn)換為第二嵌入向量;將第二嵌入向量輸入第二多頭自注意力模塊,得到第二輸出特征。

5、在一些實(shí)施例中,基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征,包括:獲取注意力權(quán)重的權(quán)重向量;根據(jù)權(quán)重向量確定第一增強(qiáng)特征的第一權(quán)重以及第二增強(qiáng)特征的第二權(quán)重;根據(jù)第一權(quán)重、第一增強(qiáng)特征、第二權(quán)重和第二增強(qiáng)特征,并采用特征累加的方式進(jìn)行特征聚合,得到聚合特征。

6、在一些實(shí)施例中,權(quán)重向量基于設(shè)定的維度向量以及修正線性單元激活函數(shù)和歸一化指數(shù)函數(shù)確定。

7、在一些實(shí)施例中,根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測,包括:將聚合特征進(jìn)行全連接層映射處理和歸一化處理,得到各音頻幀的概率;根據(jù)各音頻幀的概率確定語音活動(dòng)檢測的結(jié)果。

8、在一些實(shí)施例中,語音活動(dòng)檢測模型的訓(xùn)練方法包括:獲取語音數(shù)據(jù)和車載噪聲數(shù)據(jù);根據(jù)語音數(shù)據(jù)和車載噪聲數(shù)據(jù)以不同的信噪比合成帶噪的音頻數(shù)據(jù);利用語音數(shù)據(jù)和帶噪的音頻數(shù)據(jù)并按照交叉熵?fù)p失函數(shù)最小化對(duì)語音活動(dòng)檢測模型進(jìn)行參數(shù)優(yōu)化;利用語音數(shù)據(jù)和帶噪的音頻數(shù)據(jù)以及自適應(yīng)力矩估計(jì)優(yōu)化算法對(duì)語音活動(dòng)檢測模型進(jìn)行模型訓(xùn)練。

9、一種語音活動(dòng)檢測裝置,包括:獲取模塊,用于獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;第一輸入模塊,用于將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型中長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量;第二輸入模塊,用于將第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,權(quán)重化第一輸出特征,得到第一增強(qiáng)特征;第三輸入模塊,用于將第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,權(quán)重化第二輸出特征,得到第二增強(qiáng)特征;聚合模塊,用于基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征;檢測模塊,用于根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。

10、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)語音活動(dòng)檢測方法的步驟。

11、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)語音活動(dòng)檢測方法的步驟。

12、上述語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型中長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量;將第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,權(quán)重化第一輸出特征,得到第一增強(qiáng)特征;將第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,權(quán)重化第二輸出特征,得到第二增強(qiáng)特征;基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征;根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。

13、因此,能夠充分利用多頭自注意力機(jī)制強(qiáng)調(diào)輸入不同部位依賴的優(yōu)勢,建立上下文的依賴關(guān)系,權(quán)重化不同部位的重要性,以及建模不同子空間的信息,最后基于向量化注意力權(quán)重的方式將來自不同網(wǎng)絡(luò)結(jié)構(gòu)的特征聚合在了一起。這種方式能夠提高語音活動(dòng)檢測的效果,實(shí)用性更強(qiáng),可以應(yīng)用于各種與語音交互相關(guān)的實(shí)際應(yīng)用中。



技術(shù)特征:

1.一種語音活動(dòng)檢測方法,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于向量化注意力權(quán)重將所述第一增強(qiáng)特征和所述第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征,包括:

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述權(quán)重向量基于設(shè)定的維度向量以及修正線性單元激活函數(shù)和歸一化指數(shù)函數(shù)確定。

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聚合特征進(jìn)行語音活動(dòng)檢測,包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音活動(dòng)檢測模型的訓(xùn)練方法包括:

8.一種語音活動(dòng)檢測裝置,所述裝置包括:

9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。


技術(shù)總結(jié)
本申請(qǐng)涉及一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。該方法包括:獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型,得到長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量;將第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,權(quán)重化第一輸出特征,得到第一增強(qiáng)特征;將第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,權(quán)重化第二輸出特征,得到第二增強(qiáng)特征;基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征;根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。采用本方法能夠有效提高語音活動(dòng)檢測的能力。

技術(shù)研發(fā)人員:譚應(yīng)偉,張人杰,丁雪楓
受保護(hù)的技術(shù)使用者:大眾問問(北京)信息科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
诏安县| 靖州| 阜新| 揭西县| 泸西县| 滨海县| 乌鲁木齐县| 灵丘县| 正镶白旗| 昌吉市| 抚宁县| 溧水县| 固阳县| 凤阳县| 登封市| 夏河县| 新巴尔虎左旗| 桐柏县| 建平县| 综艺| 丹东市| 临武县| 沙田区| 彭水| 桂平市| 和平县| 康乐县| 阿巴嘎旗| 永年县| 峨眉山市| 三亚市| 桦南县| 古田县| 乾安县| 德钦县| 叙永县| 西安市| 石台县| 阳谷县| 河东区| 武宁县|