欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

寬頻帶背景噪聲與語音分離檢測系統(tǒng)及方法與流程

文檔序號:12128618閱讀:470來源:國知局
寬頻帶背景噪聲與語音分離檢測系統(tǒng)及方法與流程

本發(fā)明涉及信息處理技術(shù)及傳感信號處理領(lǐng)域,特別是涉及到一種寬頻帶背景噪聲與語音分離檢測系統(tǒng)及方法。



背景技術(shù):

人工智能應(yīng)用領(lǐng)域的一個熱點就是語音識別,目前語音識別已經(jīng)開始在各個領(lǐng)域開始廣泛應(yīng)用。語音檢測實現(xiàn)是語音識別系統(tǒng)實時實現(xiàn)的重要部分,其目的是在復(fù)雜的實際環(huán)境中區(qū)分語音段與非語音段,有文獻表明,實際應(yīng)用中識別率較低部分很大程度是由于未對語音進行正確處理,大量的非語音噪聲嚴(yán)重影響語音識別系統(tǒng)的準(zhǔn)確率,特別是應(yīng)用環(huán)境帶有大量噪聲的語音識別,正確的語音檢測技術(shù)可有效地降低系統(tǒng)運算量,縮短系統(tǒng)處理時間,減少移動端發(fā)射功率并節(jié)省信道資源,提高語音識別準(zhǔn)確率,尤其是在復(fù)雜背景噪聲下,語音識別系統(tǒng)性能的優(yōu)劣在很大程度上取決于語音檢測技術(shù)的優(yōu)劣,因此穩(wěn)健、精確、實時、自適應(yīng)性強及魯棒性好的語音檢測技術(shù)是每個語音識別系統(tǒng)所必需的。

當(dāng)前自動語音端點檢測的主流方法是依靠時域中短時能量大小,過零率大小,以及頻域中頻帶能量均方差三種方法來檢測,具體方法是求出短時能量、過零率或者頻帶能量均方差,然后與一個經(jīng)驗閾值進行比較,實驗證明,這種單獨比較短時能量大小或過零率大小的方法對于有噪聲的環(huán)境適應(yīng)性不好, 尤其是應(yīng)用環(huán)境會發(fā)生變化,同一環(huán)境的背景噪聲也會發(fā)生變化的時候,而頻帶能量均方差方法對于安靜環(huán)境適應(yīng)性不好。

也可以根據(jù)時域和頻域聲音平均能量的變化分別進行語音的檢測,最后根據(jù)動態(tài)估計出的背景噪聲大小,選擇最優(yōu)的結(jié)果,從而大幅提高語音識別的準(zhǔn)確率以及對環(huán)境變化的適應(yīng)性,由于大多數(shù)穩(wěn)態(tài)背景噪聲的能量集中于低頻段,因此這種方法對于多數(shù)低頻分布的噪聲非常有效,而對于物體或動物發(fā)出的聲音如鳥鳴,汽車?yán)?,鋼琴及其他樂器彈奏的聲音,由于其頻帶分布較寬,處于同人的語音頻帶分布范圍內(nèi), 對于這種類型的噪聲采用上述方法則很容易將該類型噪聲誤判為語音, 區(qū)分該類型噪聲對于語音檢測,語音降噪,語音識別而言都非常重要,也是難點之一。

為解決上述問題,需要發(fā)明一種通過對寬頻帶非語音噪聲的頻域和時域特性進行大量實驗分析及理論研究后提出的寬頻帶背景噪聲與語音分離檢測系統(tǒng)及方法。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供一種能大幅提高各類背景噪聲的適應(yīng)性及自動語音檢測的準(zhǔn)確性的寬頻帶背景噪聲與語音分離檢測系統(tǒng)及方法。

為了達(dá)到上述目的,本發(fā)明提供了如下技術(shù)方案。

寬頻帶背景噪聲與語音分離檢測系統(tǒng),其包括:當(dāng)前幀時頻域能量計算電路,與所述當(dāng)前幀時頻域能量計算電路連接的背景噪聲計算電路、時域語音檢測長短時平均能量比較電路和頻域語音檢測長短時頻域能量比較電路,與所述背景噪聲計算電路、時域語音檢測長短時平均能量比較電路和頻域語音檢測長短時頻域能量比較電路連接的背景噪聲比較電路,與所述時域語音檢測長短時平均能量比較電路和頻域語音檢測長短時頻域能量比較電路分別連接的子帶能量分布均勻性語音檢測電路,與所述子帶能量分布均勻性語音檢測電路連接的語音幀數(shù)統(tǒng)計電路,所述背景噪聲計算電路還分別與所述子帶能量分布均勻性語音檢測電路、語音幀數(shù)統(tǒng)計電路、時域語音檢測長短時平均能量比較電路和頻域語音檢測長短時頻域能量比較電路連接。

作為本發(fā)明的優(yōu)選方案,所述語音幀數(shù)統(tǒng)計電路由時寬濾波器構(gòu)成,所述時寬濾波器用來統(tǒng)計語音的幀數(shù),所述時寬濾波器的數(shù)量大于等于1。

本發(fā)明還公開了一種寬頻帶背景噪聲與語音分離檢測方法,其包括以下步驟:

步驟一 載入聲音數(shù)據(jù),所述聲音數(shù)據(jù)按幀處理,所述聲音數(shù)據(jù)是時域內(nèi)語音數(shù)據(jù),所述幀的時間大小可以配置,通常在10毫秒到50毫秒之間;

步驟二 計算時域短時能量和時域長時平均能量,所述時域短時能量是所述時域內(nèi)語音數(shù)據(jù)當(dāng)前幀的能量總和,將多幀所述時域短時能量累加并除以所述時域短時能量的幀數(shù)得到所述時域長時平均能量;

步驟三將所述時域內(nèi)語音數(shù)據(jù)當(dāng)前幀進行FFT(快速傅立葉)變換,將所述時域內(nèi)語音數(shù)據(jù)當(dāng)前幀變換成頻域內(nèi)子帶語音數(shù)據(jù);

步驟四 計算頻域短時能量和頻域長時平均能量,將所述頻域內(nèi)子帶語音數(shù)據(jù)當(dāng)前幀人聲主要能量分布頻率范圍子帶能量累加得到所述頻域短時能量,將多幀所述頻域短時能量累加并除以所述頻域短時能量的幀數(shù)得到所述頻域長時平均能量;

步驟五 背景噪聲累加計算,將非語音幀的所述時域短時能量送入背景噪聲估計單元進行累加,每累加到一定的幀數(shù)則輸出一個新的所述背景噪聲;

步驟六 將所述背景噪聲與設(shè)定的閾值一進行比較,若大于所述閾值一則進行步驟七,若小于所述閾值一則進行步驟八;

步驟七 進行頻域語音檢測,是語音則進入步驟九,不是語音則進行步驟五和步驟十一;

步驟八 進行時域語音檢測,是語音則進入所述步驟九,不是語音則進行所述步驟五和步驟十一;

步驟九 進行頻域子帶能量分布均勻性檢測,是語音則進入步驟十,不是語音則進行步所述驟五和步驟十一;

步驟十 時寬濾波器統(tǒng)計所述步驟九產(chǎn)生的語音幀數(shù),并與設(shè)定的閾值二進行比較,若所述幀數(shù)大于所述閾值二則直接進入所述步驟十一,若所述幀數(shù)小于所述閾值二則進入所述步驟五和步驟十一;

步驟十一 檢測結(jié)果輸出,檢測結(jié)束。

作為本發(fā)明的優(yōu)選方案,所述頻域語音檢測是將所述頻域短時能量和頻域長時平均能量進行比較,所述頻域短時能量超過所述頻域長時平均能量一定程度,則為語音,否則為非語音,當(dāng)判斷為非語音時輸出結(jié)果,檢測結(jié)束。

作為本發(fā)明的優(yōu)選方案,所述時域語音檢測是將所述時域短時能量和時域長時平均能量進行比較,所述時域短時能量超過所述時域長時平均能量一定程度,則為語音,否則為非語音,判斷為非語音時輸出結(jié)果,檢測結(jié)束。

作為本發(fā)明的優(yōu)選方案,在進行步驟八時,如果檢測結(jié)果均勻性較高則為語音,如果檢測結(jié)果均勻性較低則為非語音,判斷為非語音時輸出結(jié)果,檢測結(jié)束。

作為本發(fā)明的優(yōu)選方案,所述時寬濾波器統(tǒng)計所述聲音數(shù)據(jù)連續(xù)為語音的幀數(shù),如果所述幀數(shù)大于所述閾值二則為語音,如果所述幀數(shù)小于所述閾值二則判斷為非語音,判斷為非語音時輸出結(jié)果,檢測結(jié)束。

作為本發(fā)明的優(yōu)選方案,在運行步驟七至步驟十時,當(dāng)運行結(jié)果判定為非語音時,將所述非語音數(shù)據(jù)運行步驟五產(chǎn)生新的所述背景噪聲。

本發(fā)明在檢測所述時域內(nèi)語音數(shù)據(jù)過程中,使用了三級語音檢測,首先使用所述時域語音檢測或頻域語音檢測,其次使用所述頻域子帶能量分布均勻性檢測,最后使用時寬濾波器統(tǒng)計所述步驟八產(chǎn)生的語音幀數(shù),并與設(shè)定的閾值二進行比較,逐層進行過濾,最終將真實有效的語音數(shù)據(jù)篩選出來。

與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:

本發(fā)明使用三級語音檢測手段,對于高低頻的背景噪聲都有很好的檢測效果,同時對于偶然斷續(xù)行的噪聲也有非常好的檢測效果,大幅度提高了復(fù)雜噪聲環(huán)境下語音檢測的準(zhǔn)確性。

附圖說明

圖1為本發(fā)明電路框架圖;

圖2為本發(fā)明流程圖。

具體實施方式

下面結(jié)合實施例及具體實施方式對本發(fā)明作進一步的詳細(xì)描述,但不應(yīng)將此理解為本發(fā)明上述主體的范圍僅限于以下的實施例,凡基于本發(fā)明內(nèi)容所實現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。

如圖1所示,一種寬頻帶背景噪聲與語音分離檢測系統(tǒng),該系統(tǒng)當(dāng)前幀時頻域能量計算電路,與所述當(dāng)前幀時頻域能量計算電路連接的背景噪聲計算電路、時域語音檢測長短時平均能量比較電路和頻域語音檢測長短時頻域能量比較電路,與所述背景噪聲計算電路、時域語音檢測長短時平均能量比較電路和頻域語音檢測長短時頻域能量比較電路連接的背景噪聲比較電路,與所述時域語音檢測長短時平均能量比較電路和頻域語音檢測長短時頻域能量比較電路分別連接的子帶能量分布均勻性語音檢測電路,與所述子帶能量分布均勻性語音檢測電路連接的語音幀數(shù)統(tǒng)計電路,所述背景噪聲計算電路還分別與所述子帶能量分布均勻性語音檢測電路、語音幀數(shù)統(tǒng)計電路、時域語音檢測長短時平均能量比較電路和頻域語音檢測長短時頻域能量比較電路連接,語音幀數(shù)統(tǒng)計電路由時寬濾波器構(gòu)成,時寬濾波器用來統(tǒng)計語音的幀數(shù),在本實施例中時寬濾波器的數(shù)量為1個,在本實施例中時寬濾波器是一個語音幀計數(shù)器。

如圖2所示,一種寬頻帶背景噪聲與語音分離檢測方法,其包括以下十一個步驟:

步驟一 載入聲音數(shù)據(jù),所述聲音數(shù)據(jù)按幀處理,所述聲音數(shù)據(jù)是時域內(nèi)語音數(shù)據(jù),所述幀的時間大小可以配置,通常在10毫秒到50毫秒之間;

步驟二 計算時域短時能量和時域長時平均能量,所述時域短時能量是所述時域內(nèi)語音數(shù)據(jù)當(dāng)前幀的能量總和,將多幀所述時域短時能量累加并除以所述時域短時能量的幀數(shù)得到所述時域長時平均能量;

步驟三將所述時域內(nèi)語音數(shù)據(jù)當(dāng)前幀進行FFT(快速傅立葉)變換,將所述時域內(nèi)語音數(shù)據(jù)當(dāng)前幀變換成頻域內(nèi)子帶語音數(shù)據(jù);

步驟四 計算頻域短時能量和頻域長時平均能量,將所述頻域內(nèi)子帶語音數(shù)據(jù)當(dāng)前幀人聲主要能量分布頻率范圍子帶能量累加得到所述頻域短時能量,將多幀所述頻域短時能量累加并除以所述頻域短時能量的幀數(shù)得到所述頻域長時平均能量;

步驟五 背景噪聲累加計算,將非語音幀的所述時域短時能量送入背景噪聲估計單元進行累加,每累加到一定的幀數(shù)則輸出一個新的所述背景噪聲;

步驟六 將所述背景噪聲與設(shè)定的閾值一進行比較,若大于所述閾值一則進行步驟七,若小于所述閾值一則進行步驟八;

步驟七 進行頻域語音檢測,所述頻域語音檢測是將所述頻域短時能量和頻域長時平均能量進行比較,所述頻域短時能量超過所述頻域長時平均能量一定程度,則為語音,否則為非語音,是語音則進入步驟九,不是語音則進行步驟五和步驟十一;

步驟八 進行時域語音檢測,所述時域語音檢測是將所述時域短時能量和時域長時平均能量進行比較,所述時域短時能量超過所述時域長時平均能量一定程度,則為語音,否則為非語音,是語音則進入所述步驟九,不是語音則進行所述步驟五和步驟十一;

步驟九 進行頻域子帶能量分布均勻性檢測,如果檢測結(jié)果均勻性較高則為語音,如果檢測結(jié)果均勻性較低則為非語音,是語音則進入步驟十,不是語音則進行步所述驟五和步驟十一;

步驟十 時寬濾波器統(tǒng)計所述步驟九產(chǎn)生的語音幀數(shù),所述時寬濾波器統(tǒng)計所述聲音數(shù)據(jù)連續(xù)為語音的幀數(shù),并與設(shè)定的閾值二進行比較,若所述幀數(shù)大于所述閾值二則則為語音直接進入所述步驟十一,若所述幀數(shù)小于所述閾值二則為非語音進入所述步驟五和步驟十一;

步驟十一 檢測結(jié)果輸出,檢測結(jié)束。

在運行步驟七至步驟十時,當(dāng)運行結(jié)果判定為非語音時,將所述非語音數(shù)據(jù)運行步驟五產(chǎn)生新的所述背景噪聲。

本實施例中,步驟三的計算過程如下:

假設(shè)頻域子帶數(shù)目為N,則平均子帶能量為 ,其中Eavg為平均子帶能量, Etotal為所有子帶能量總和,Ei 為第i子帶能量, i = 1,2......N。在頻域中,子帶能量等于其實部的平方與虛部的平方求和得到。

在本實施例中,步驟九的計算過程如下:

采用均方差方法求非均勻性,設(shè)每個子帶能量為Ei,則用均方差求非均勻性,公式為 ,其中nU為非均勻性,設(shè)閾值Th_nu為非均勻性的閾值,則當(dāng)nU < Th_nu時,可暫時判為語音,否則為非語音。

在其他實施例中可以用以下兩種方式進行計算:

一、采用求差的絕對值和求平均,公式為 ,其中nU為非均勻性, 設(shè)閾值Th_nu為非均勻性的閾值,則當(dāng)nU < Th_nu時,可暫時判為語音,否則為非語音;

二、對子帶能量離平均子帶能量近的子帶進行計數(shù),若較多的子帶能量分布在平均能量附近,則為語音,否則為非語音。具體公式如下,若:|Ei-Eavg|<k*Eavg時, U = U + 1,這兒k為一個介于0和1之間的配置參數(shù),典型值可以配置為0.5,U表征為均勻性,設(shè)Th_u為閾值,若 U>Th_u, 則判為語音,否則為非語音。

在本實施例中步驟十的詳細(xì)計算過程如下:

設(shè)一個語音幀計數(shù)器,該計數(shù)器一開始初始為0,遇到非語音幀時清零,遇到語音幀時加1,并將從非語音幀變到語音幀時,將第一個語音幀的序號更新為語音幀起始地址,當(dāng)該語音幀計數(shù)器數(shù)值大于一個閾值二時,則從第一個語音幀開始,連續(xù)的語音幀都為語音幀,直到非語音幀出現(xiàn),若從語音幀變到非語音幀時,該語音幀計數(shù)器值小于閾值,則此前的語音幀也判為非語音幀。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
烟台市| 北安市| 枣阳市| 秭归县| 天祝| 盐津县| 车致| 筠连县| 方山县| 浮梁县| 青冈县| 鞍山市| 偃师市| 乐昌市| 胶州市| 商水县| 遵化市| 陆河县| 湟中县| 辽源市| 牡丹江市| 惠东县| 宁远县| 克拉玛依市| 星座| 沿河| 定襄县| 兰考县| 磐安县| 兰西县| 琼结县| 宜良县| 呼图壁县| 利川市| 仪征市| 汾阳市| 南丰县| 德江县| 米泉市| 远安县| 运城市|