基于基頻的端點檢測系統(tǒng)及其計算方法
【專利摘要】本發(fā)明涉及一種基于基頻的端點檢測系統(tǒng)及其計算方法,通過基頻提取算法得到基頻出現(xiàn)的所有可能位置然后由代價確定基頻,但由于基頻可能被低頻噪聲所干擾,所以利用基頻出現(xiàn)的位置應(yīng)該有諧波結(jié)構(gòu)的特點來輔助判斷該點是否為語音。同時,根據(jù)背景能量的自適應(yīng)以加快端點檢測的速度及提高檢測的準確度。本發(fā)明的基于基頻的端點檢測系統(tǒng)及其計算方法在信噪比不好的情況下,能夠使端點檢測系統(tǒng)具有較高的魯棒性。在時域難于區(qū)分噪聲的情況下,此方法利用噪聲信號和語音信號在頻譜分布有區(qū)別于時域分布的明顯不同特征,可以使噪聲在頻域能夠正確的被區(qū)分。此方法可以廣泛的應(yīng)用于語音信號處理領(lǐng)域。
【專利說明】基于基頻的端點檢測系統(tǒng)及其計算方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音信號的端點檢測技術(shù),尤其涉及一種基于基頻的語音信號的端點 檢測技術(shù)。
【背景技術(shù)】
[0002] 端點檢測技術(shù)(Voice Activity Detection)的主要目的是從給定輸入的語音信 號中,檢測出包含有語音信號的片段,并給出其開始和結(jié)束點。近年來,隨著計算機的發(fā)展, 語音慢慢成為人機交互的主要方式,端點檢測技術(shù)在語音識別、語音分析以及語義理解中 都扮演著一個重要的角色。一個較好的語音端點檢測結(jié)果對提高語音識別的準確率以及處 理速度都有非常重要的作用。
[0003] 目前,端點檢測技術(shù)包括時域能量、語音相關(guān)性、頻域熵、模型匹配等方法,這些方 法在信噪比較好或者模型與應(yīng)用環(huán)境比較匹配時,能取得不錯的結(jié)果。在這些方法中,基于 時域的短時能量端點檢測技術(shù)因為其優(yōu)點:1)計算速度快;2)信噪比高時(例如大于40 時),正確率高(可達到94%以上);被廣泛使用。但一旦信噪比低,這種方法就面臨檢測 效果急劇下降的問題。其它的方法都存在類似的問題:一旦模型與環(huán)境失配或者信噪比不 好的情況下,都面臨檢測會失效的問題。這也是端點檢測的一個難點。
【發(fā)明內(nèi)容】
[0004] (一)要解決的技術(shù)問題
[0005] 本發(fā)明要解決的技術(shù)問題就是如何提供一種端點檢測計算方法,使端點檢測系統(tǒng) 具有較高的魯棒性,即使在信噪比不好的情況下,也能保持較高的檢測準確性。
[0006] (二)技術(shù)方案
[0007] 為了解決上述技術(shù)問題,本發(fā)明提供了一種基于基頻的端點檢測系統(tǒng),其特征在 于,包括分幀模塊,該模塊對輸入信號進行分幀;
[0008] 語音增強模塊,該模塊在計算共振峰之前對語音數(shù)據(jù)進行增強處理,以避免在快 速傅氏變換計算之后,基音頻率之外的頻段的頻譜泄漏對低頻的影響;并且把時域能量信 息和頻域信息進行結(jié)合,利用時域低能量作為背景能量閾值,對靜音的部分進行過濾;
[0009] 共振峰計算模塊,該模塊根據(jù)輸入的需檢測的基音范圍確定自相關(guān)序列中對應(yīng)的 數(shù)據(jù)段,之后按順序輸出該數(shù)據(jù)段中的最大值;
[0010] 代價確定模塊,該模塊根據(jù)共振峰的點位置和能量,計算該幀為語音輸入幀的幀 內(nèi)代價和幀間連接代價;
[0011] 動態(tài)規(guī)劃模塊,該模塊在給定的幀內(nèi)和幀間計算方法下,確定從規(guī)劃起始幀至當(dāng) 前幀的一條代價最小路徑;如果該路徑的代價超過閾值,則認為當(dāng)前幀為非語音輸入,否則 認定為語音輸入;如果是語音信號,再轉(zhuǎn)由時域能量判定,以保證能量不能過低,以此最后 確定當(dāng)前幀是否為語音信號輸入;
[0012] 信息融合模塊,該模塊利用動態(tài)規(guī)劃的結(jié)果、能量適應(yīng)結(jié)果、各幀音基音位置相關(guān) 性、語音段定義參數(shù)、輕音補償作為輸入,對各信息進行非線性融合,以判定語音或者非語 音信號開始;在信息融合判定之后,應(yīng)用可以根據(jù)語音開始以及非語音開始來輸出當(dāng)前語 音信號中語音和非語音的開始結(jié)束點,完成語音檢測。
[0013] 本發(fā)明還提供一種基于基頻的端點檢測系統(tǒng)的端點檢測計算方法,其特征在于, 包括以下步驟:
[0014] 步驟一:對輸入信號進行分幀;
[0015] 步驟二:對語音數(shù)據(jù)進行增強處理;把時域能量信息和頻域信息進行結(jié)合,利用 時域低能量作為背景能量閾值,對靜音的部分進行過濾;這里的背景能量閾值需要根據(jù)背 景能量的變化進行相應(yīng)的能量自適應(yīng);
[0016] 步驟三:根據(jù)輸入的需檢測的基音范圍確定自相關(guān)序列中對應(yīng)的數(shù)據(jù)段,之后按 順序輸出該數(shù)據(jù)段中的最大值,也即計算出共振峰;
[0017] 步驟四:根據(jù)共振峰的點位置和能量,計算該幀為語音輸入幀的代價;其中所述 幀的代價包括幀內(nèi)代價和幀間連接代價;
[0018] 步驟五:在給定的幀內(nèi)和幀間計算方法下,確定從規(guī)劃起始幀至當(dāng)前幀的一條代 價最小路徑,如果該路徑的代價超過背景能量閾值,則認為當(dāng)前幀為非語音輸入,否則認定 為語音輸入;如果是語音信號,再轉(zhuǎn)由時域能量判定,以保證能量不能過低,以此最后確定 當(dāng)前幀是否為語音信號輸入;
[0019] 步驟六:信息融合模塊利用動態(tài)規(guī)劃的結(jié)果、能量適應(yīng)結(jié)果、各幀音基音位置相關(guān) 性、語音段定義參數(shù)、輕音補償作為輸入,對各信息進行非線性融合,以判定語音或者非語 音信號開始;在信息融合判定之后,應(yīng)用可以根據(jù)語音開始以及非語音開始來輸出當(dāng)前語 音信號中語音和非語音的開始結(jié)束點,完成語音檢測。
[0020] (三)有益效果
[0021] 本發(fā)明的基于基頻的端點檢測系統(tǒng)及其計算方法,通過基頻提取算法得到基頻以 及基頻出現(xiàn)的所有可能位置,但由于基頻可能被低頻噪聲所干擾,所以采用基頻出現(xiàn)的位 置應(yīng)該有的諧波結(jié)構(gòu)的特點來輔助判斷該點是否為語音。同時,根據(jù)背景能量的自適應(yīng)以 加快端點檢測的速度。本發(fā)明的基于基頻的端點檢測系統(tǒng)及其計算方法在信噪比不好的情 況下,能夠使端點檢測系統(tǒng)具有較高的魯棒性。在時域難于區(qū)分噪聲的情況下,此方法利用 噪聲信號和語音信號在頻譜分布有區(qū)別于時域分布的明顯不同特征,可以使噪聲在頻域能 夠正確的被區(qū)分。
【專利附圖】
【附圖說明】
[0022] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0023] 圖1 :本發(fā)明提供的基于基頻的端點檢測系統(tǒng)的端點檢測計算方法流程方框示意 圖;
[0024] 圖2 :本發(fā)明的基于基頻的端點檢測系統(tǒng)的分幀示例的示意圖;
[0025] 圖3 :本發(fā)明的基于基頻的端點檢測系統(tǒng)的共振峰計算流程示意圖;
[0026] 圖4 :本發(fā)明的基于基頻的端點檢測系統(tǒng)的動態(tài)規(guī)劃流程示意圖;
[0027] 圖5 :本發(fā)明的基于基頻的端點檢測系統(tǒng)的信息融合判定語音端點檢測流程示意 圖;
【具體實施方式】
[0028] 下面結(jié)合附圖和實施例對本發(fā)明的實施方式作進一步詳細描述。以下實施例用于 說明本發(fā)明,但不能用來限制本發(fā)明的范圍。
[0029] 本實施例提供一種基于基頻的端點檢測系統(tǒng),包括分幀模塊,該模塊對輸入信號 進行分巾貞;
[0030] 語音增強模塊在計算共振峰之前對語音數(shù)據(jù)進行增強處理,以避免在FFT計算之 后,基音頻率之外的頻段的頻譜泄漏對低頻的影響;并且把時域能量信息和頻域信息進行 結(jié)合,利用時域低能量作為背景能量閾值,對靜音的部分進行過濾;
[0031] 共振峰計算模塊根據(jù)輸入的需檢測的基音范圍確定自相關(guān)序列中對應(yīng)的數(shù)據(jù)段, 之后按順序輸出該數(shù)據(jù)段中的最大值;
[0032] 代價確定模塊根據(jù)共振峰的點位置和能量,計算該幀為語音輸入幀的幀內(nèi)代價和 幀間連接代價;
[0033] 動態(tài)規(guī)劃模塊在給定的幀內(nèi)和幀間計算方法下,確定從規(guī)劃起始幀至當(dāng)前幀的一 條代價最小路徑;如果該路徑的代價超過閾值,則認為當(dāng)前幀為非語音輸入,否則認定為語 音輸入;如果是語音信號,再轉(zhuǎn)由時域能量判定,以保證能量不能過低,以此最后確定當(dāng)前 中貞是否為語音信號輸入;
[0034] 信息融合模塊利用動態(tài)規(guī)劃的結(jié)果、能量適應(yīng)結(jié)果、各幀音基音位置相關(guān)性、語音 段定義參數(shù)、輕音補償作為輸入,對各信息進行非線性融合,以判定語音或者非語音信號開 始;在信息融合判定之后,應(yīng)用可以根據(jù)語音開始以及非語音開始來輸出當(dāng)前語音信號中 語音和非語音的開始結(jié)束點,完成語音檢測。
[0035] 本實施例還提供一種基于基頻的端點檢測系統(tǒng)的端點檢測計算方法:
[0036] 步驟一:分幀模塊對輸入信號進行分幀操作,由于后續(xù)需要對數(shù)據(jù)計算共振峰,本 算法所采用分幀結(jié)構(gòu)如圖2所示,一個幀可以由一定長度(例如10ms)的語音數(shù)據(jù)組成,若 干幀(例如4個幀)可組成一個計算窗口,計算窗口之間有一定的重疊,例如可以設(shè)置為 3/4。在分幀操作之后,后面每個模塊都是針對某個特定的計算窗口進行計算操作。
[0037] 在對信號進行分幀操作之后,可以得到&幀的自相關(guān)序列結(jié)果數(shù)值序列Si。從 Si 中計算共振峰所在的數(shù)值序列Pn,Pi2. . . Pin,定義Cik為第i巾貞、第i_l巾貞、第i_k巾貞連續(xù)中 k+Ι幀的共振峰連續(xù)位置個數(shù),定義如下:
【權(quán)利要求】
1. 基于基頻的端點檢測系統(tǒng),其特征在于,包括分幀模塊,該模塊對輸入信號進行分 幀; 語音增強模塊,該模塊在計算共振峰之前對語音數(shù)據(jù)進行增強處理,以避免在FFT計 算之后,基音頻率之外的頻段的頻譜泄漏對低頻的影響;并且把時域能量信息和頻域信息 進行結(jié)合,利用時域低能量作為背景能量閾值,對靜音的部分進行過濾; 共振峰計算模塊,該模塊根據(jù)輸入的需檢測的基音范圍確定自相關(guān)序列中對應(yīng)的數(shù)據(jù) 段,之后按順序輸出該數(shù)據(jù)段中的最大值; 代價確定模塊,該模塊根據(jù)共振峰的點位置和能量,計算該幀為語音輸入幀的幀內(nèi)代 價和幀間連接代價; 動態(tài)規(guī)劃模塊,該模塊在給定的幀內(nèi)和幀間計算方法下,確定從規(guī)劃起始幀至當(dāng)前幀 的一條代價最小路徑;如果該路徑的代價超過閾值,則認為當(dāng)前幀為非語音輸入,否則認定 為語音輸入;如果是語音信號,再轉(zhuǎn)由時域能量判定,以保證能量不能過低,以此最后確定 當(dāng)前幀是否為語音信號輸入; 信息融合模塊,該模塊利用動態(tài)規(guī)劃的結(jié)果、能量適應(yīng)結(jié)果、各幀音基音位置相關(guān)性、 語音段定義參數(shù)、輕音補償作為輸入,對各信息進行非線性融合,以判定語音或者非語音信 號開始;在信息融合判定之后,應(yīng)用可以根據(jù)語音開始以及非語音開始來輸出當(dāng)前語音信 號中語音和非語音的開始結(jié)束點,完成語音檢測。
2. -種根據(jù)權(quán)利要求1所述的基于基頻的端點檢測系統(tǒng)的端點檢測計算方法,其特征 在于,包括以下步驟: 步驟一:對輸入信號進行分幀; 步驟二:對語音數(shù)據(jù)進行增強處理;把時域能量信息和頻域信息進行結(jié)合,利用時域 低能量作為背景能量閾值,對靜音的部分進行過濾;這里的背景能量閾值需要根據(jù)背景能 量的變化進行相應(yīng)的能量自適應(yīng); 步驟三:根據(jù)輸入的需檢測的基音范圍確定自相關(guān)序列中對應(yīng)的數(shù)據(jù)段,之后按順序 輸出該數(shù)據(jù)段中的最大值,也即計算出共振峰; 步驟四:根據(jù)共振峰的點位置和能量,計算該幀為語音輸入幀的代價;其中所述幀的 代價包括幀內(nèi)代價和幀間連接代價; 步驟五:在給定的巾貞內(nèi)和巾貞間計算方法下,確定從規(guī)劃起始巾貞至當(dāng)前巾貞的一條代價最 小路徑,如果該路徑的代價超過背景能量閾值,則認為當(dāng)前幀為非語音輸入,否則認定為語 音輸入;如果是語音信號,再轉(zhuǎn)由時域能量判定,以保證能量不能過低,以此最后確定當(dāng)前 中貞是否為語音信號輸入; 步驟六:信息融合模塊利用動態(tài)規(guī)劃的結(jié)果、能量適應(yīng)結(jié)果、各幀音基音位置相關(guān)性、 語音段定義參數(shù)、輕音補償作為輸入,對各信息進行非線性融合,以判定語音或者非語音信 號開始;在信息融合判定之后,應(yīng)用可以根據(jù)語音開始以及非語音開始來輸出當(dāng)前語音信 號中語音和非語音的開始結(jié)束點,完成語音檢測。
【文檔編號】G10L25/87GK104091603SQ201410221983
【公開日】2014年10月8日 申請日期:2014年5月23日 優(yōu)先權(quán)日:2014年5月23日
【發(fā)明者】趙茂祥, 賈昌輝, 李全忠, 蒲瑤, 何國濤 申請人:普強信息技術(shù)(北京)有限公司