本申請(qǐng)涉及語音活動(dòng)處理,特別是涉及一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來,人們對(duì)智能化的需求促進(jìn)智能語音技術(shù)獲得了很大的發(fā)展,越來越多的智能設(shè)備開始使用智能語音技術(shù)來完成交互,比如智能汽車,智能手機(jī)以及智能音箱等。語音活動(dòng)檢測技術(shù)是語音交互的關(guān)鍵步驟之一。語音活動(dòng)檢測技術(shù)是語音處理系統(tǒng)、消費(fèi)電子產(chǎn)品、多媒體系統(tǒng)等領(lǐng)域的核心技術(shù)之一。語音活動(dòng)檢測不僅涉及到數(shù)字信號(hào)處理的問題,還涉及到聽覺感知特性和人類的語音特征。同時(shí),噪聲的多樣性增加了語音活動(dòng)檢測的困難。從帶有噪聲的語音信號(hào)中判斷出語音信號(hào)的起點(diǎn)和終點(diǎn)是非常困難的。
2、目前,語音活動(dòng)檢測技術(shù)包括基于能量的方法、基于過零率的方法、基于統(tǒng)計(jì)模型的方法以及基于深度學(xué)習(xí)的方法等。其中,基于能量的方法和基于過零率的方法都需要確定啟發(fā)式的閾值,再將特征值與閾值比較,得到估計(jì)的結(jié)果,從而實(shí)現(xiàn)語音活動(dòng)檢測。雖然這種方法容易實(shí)現(xiàn),但這種方法在噪聲環(huán)境下處理效果不明顯。基于統(tǒng)計(jì)模型的方法不僅需要假設(shè)語音及非語音的分布特性,并且需要確定滿足馬爾可夫假設(shè)。這種方法不利于處理未見的數(shù)據(jù)?;谏疃葘W(xué)習(xí)的方法通常是采用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來建模音頻時(shí)序信息,它對(duì)非平穩(wěn)的噪聲信號(hào)達(dá)到了很好的檢測效果,但是它對(duì)于語音活動(dòng)的檢測仍然不夠準(zhǔn)確。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述技術(shù)問題,提供一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),能夠有效提高語音活動(dòng)檢測的能力,從而更有效地在平穩(wěn)的或非平穩(wěn)的噪聲干擾下判斷出語音信號(hào)的起點(diǎn)和終點(diǎn)。
2、一種語音活動(dòng)檢測方法,包括:獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型中長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量;將第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,權(quán)重化第一輸出特征,得到第一增強(qiáng)特征;將第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,權(quán)重化第二輸出特征,得到第二增強(qiáng)特征;基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征;根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。
3、在一些實(shí)施例中,將第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,包括:獲取第一位置嵌入向量;根據(jù)第一位置嵌入向量并采用向量累加的方式,將第一中間特征張量轉(zhuǎn)換為第一嵌入向量;將第一嵌入向量輸入第一多頭自注意力模塊,得到第一輸出特征。
4、在一些實(shí)施例中,將第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,包括:獲取第二位置嵌入向量;根據(jù)第二位置嵌入向量并采用向量累加的方式,將第二中間特征張量轉(zhuǎn)換為第二嵌入向量;將第二嵌入向量輸入第二多頭自注意力模塊,得到第二輸出特征。
5、在一些實(shí)施例中,基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征,包括:獲取注意力權(quán)重的權(quán)重向量;根據(jù)權(quán)重向量確定第一增強(qiáng)特征的第一權(quán)重以及第二增強(qiáng)特征的第二權(quán)重;根據(jù)第一權(quán)重、第一增強(qiáng)特征、第二權(quán)重和第二增強(qiáng)特征,并采用特征累加的方式進(jìn)行特征聚合,得到聚合特征。
6、在一些實(shí)施例中,權(quán)重向量基于設(shè)定的維度向量以及修正線性單元激活函數(shù)和歸一化指數(shù)函數(shù)確定。
7、在一些實(shí)施例中,根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測,包括:將聚合特征進(jìn)行全連接層映射處理和歸一化處理,得到各音頻幀的概率;根據(jù)各音頻幀的概率確定語音活動(dòng)檢測的結(jié)果。
8、在一些實(shí)施例中,語音活動(dòng)檢測模型的訓(xùn)練方法包括:獲取語音數(shù)據(jù)和車載噪聲數(shù)據(jù);根據(jù)語音數(shù)據(jù)和車載噪聲數(shù)據(jù)以不同的信噪比合成帶噪的音頻數(shù)據(jù);利用語音數(shù)據(jù)和帶噪的音頻數(shù)據(jù)并按照交叉熵?fù)p失函數(shù)最小化對(duì)語音活動(dòng)檢測模型進(jìn)行參數(shù)優(yōu)化;利用語音數(shù)據(jù)和帶噪的音頻數(shù)據(jù)以及自適應(yīng)力矩估計(jì)優(yōu)化算法對(duì)語音活動(dòng)檢測模型進(jìn)行模型訓(xùn)練。
9、一種語音活動(dòng)檢測裝置,包括:獲取模塊,用于獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;第一輸入模塊,用于將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型中長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量;第二輸入模塊,用于將第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,權(quán)重化第一輸出特征,得到第一增強(qiáng)特征;第三輸入模塊,用于將第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,權(quán)重化第二輸出特征,得到第二增強(qiáng)特征;聚合模塊,用于基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征;檢測模塊,用于根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。
10、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)語音活動(dòng)檢測方法的步驟。
11、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)語音活動(dòng)檢測方法的步驟。
12、上述語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;將各音頻幀的聲學(xué)特征輸入到預(yù)訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型中長短期記憶網(wǎng)絡(luò)輸出的第一中間特征張量以及門控循環(huán)單元輸出的第二中間特征張量;將第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,權(quán)重化第一輸出特征,得到第一增強(qiáng)特征;將第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,權(quán)重化第二輸出特征,得到第二增強(qiáng)特征;基于向量化注意力權(quán)重將第一增強(qiáng)特征和第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征;根據(jù)聚合特征進(jìn)行語音活動(dòng)檢測。
13、因此,能夠充分利用多頭自注意力機(jī)制強(qiáng)調(diào)輸入不同部位依賴的優(yōu)勢,建立上下文的依賴關(guān)系,權(quán)重化不同部位的重要性,以及建模不同子空間的信息,最后基于向量化注意力權(quán)重的方式將來自不同網(wǎng)絡(luò)結(jié)構(gòu)的特征聚合在了一起。這種方式能夠提高語音活動(dòng)檢測的效果,實(shí)用性更強(qiáng),可以應(yīng)用于各種與語音交互相關(guān)的實(shí)際應(yīng)用中。
1.一種語音活動(dòng)檢測方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述第一中間特征張量輸入到第一多頭自注意力模塊,得到第一輸出特征,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述第二中間特征張量輸入到第二多頭自注意力模塊,得到第二輸出特征,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于向量化注意力權(quán)重將所述第一增強(qiáng)特征和所述第二增強(qiáng)特征進(jìn)行特征聚合,得到聚合特征,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述權(quán)重向量基于設(shè)定的維度向量以及修正線性單元激活函數(shù)和歸一化指數(shù)函數(shù)確定。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聚合特征進(jìn)行語音活動(dòng)檢測,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音活動(dòng)檢測模型的訓(xùn)練方法包括:
8.一種語音活動(dòng)檢測裝置,所述裝置包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。