激活音檢測方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種激活音檢測方法和裝置。解決了現(xiàn)有VAD檢測不準確的問題。該方法包括:根據(jù)連續(xù)激活音幀個數(shù)、平均全帶信噪比、調(diào)性信號標志和至少兩種已有VAD判決結(jié)果得到最終聯(lián)合VAD判決結(jié)果。本發(fā)明提供的技術(shù)方案適用于語音業(yè)務,實現(xiàn)了高準確性的VAD判決。
【專利說明】激活音檢測方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信領(lǐng)域,尤其涉及一種激活音檢測方法和裝置。
【背景技術(shù)】
[0002] 正常的語音通話中,用戶有時在說話,有時在聽,這個時候就會在通話過程出現(xiàn)非 激活音階段,正常情況下通話雙方總的非語音激活階段要超過通話雙方總的語音編碼時長 的50%。在非激活音階段,只有背景噪聲,背景噪聲通常沒有任何有用信息。利用這一事實, 在語音頻信號處理過程中,通過激活音檢測(VAD)算法檢測出于激活音和非激活音,并采用 不同的方法分別進行處理?,F(xiàn)代的很多語音編碼標準,如AMR、AMR-WB,都支持VAD功能。在 效率方面,這些編碼器的VAD并不能在所有的典型背景噪聲下都達到很好的性能。特別是 在非穩(wěn)定噪聲下,這些編碼器的VAD效率都較低。而對于音樂信號,這些VAD有時候會出現(xiàn) 錯誤檢測,導致相應的處理算法出現(xiàn)明顯的質(zhì)量下降。另外,現(xiàn)有的VAD技術(shù)會存在判決不 準確的情況,例如有的VAD技術(shù)在語音段之前幾幀檢測不準,有的VAD在語音段之后幾幀檢 測不準確。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明提供了一種激活音檢測方法和裝置,解決了現(xiàn)有VAD檢測不準確的問題。
[0004] 一種激活音檢測方法,包括:
[0005] 根據(jù)連續(xù)激活音幀個數(shù)、平均全帶信噪比、調(diào)性信號標志和至少兩種已有VAD判 決結(jié)果得到最終的聯(lián)合VAD判決結(jié)果。
[0006] 優(yōu)選的,該方法還包括:
[0007] 獲得當前幀的子帶信號及頻譜幅值;
[0008] 根據(jù)子帶信號計算得到當前幀的幀能量參數(shù)、譜重心特征參數(shù)和時域穩(wěn)定度特征 參數(shù)的值;
[0009] 根據(jù)頻譜幅值計算得到譜平坦度特征參數(shù)和調(diào)性特征參數(shù)的值;
[0010] 根據(jù)調(diào)性特征參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度特征參數(shù)、譜平坦度特征參數(shù)計 算所述調(diào)性信號標志。
[0011] 優(yōu)選的,該方法還包括:
[0012] 獲取前一幀估計得到的背景噪聲能量;
[0013] 根據(jù)所述前一幀估計得到的背景噪聲能量、當前幀的幀能量參數(shù)計算得到所述平 均全帶信噪比。
[0014] 優(yōu)選的,所述獲取前一幀估計得到的背景噪聲能量包括:
[0015] 獲得前一幀的子帶信號及頻譜幅值;
[0016] 根據(jù)前一幀子帶信號計算得到前一幀幀能量參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度 特征參數(shù)的值;
[0017] 根據(jù)前一幀頻譜幅值計算得到前一幀譜平坦度特征參數(shù)和調(diào)性特征參數(shù);
[0018] 根據(jù)前一幀的幀能量參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度特征參數(shù)、譜平坦度特征 參數(shù)、調(diào)性特征參數(shù)計算得到前一幀的背景噪聲標識;
[0019] 根據(jù)前一幀調(diào)性特征參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度特征參數(shù)、譜平坦度特征 參數(shù)計算前一幀調(diào)性信號標志;
[0020] 根據(jù)前一幀的背景噪聲標識、幀能量參數(shù)、調(diào)性信號標志、前第二幀的全帶背景噪 聲能量,得到前一幀全帶背景噪聲能量。
[0021] 優(yōu)選的,所述幀能量參數(shù)是各個子帶信號能量的加權(quán)疊加值或直接疊加值;
[0022] 所述譜重心特征參數(shù)是所有或部分子帶信號能量的加權(quán)累加值和未加權(quán)累加值 的比值,或該比值進行平滑濾波得到的值;
[0023] 所述時域穩(wěn)定度特征參數(shù)是若干個相鄰兩幀能量幅值疊加值的方差和若干個相 鄰兩幀能量幅值疊加值平方的期望的比值,或該比值乘上一個系數(shù);
[0024] 所述譜平坦度特征參數(shù)是某些頻譜幅值的幾何平均數(shù)和算術(shù)平均數(shù)的比值,或該 比值乘上一個系數(shù);
[0025] 調(diào)性特征參數(shù)是通過計算前后兩幀信號的幀內(nèi)頻譜差分系數(shù)的相關(guān)系數(shù)得到的, 或繼續(xù)對該相關(guān)系數(shù)進行平滑濾波得到的。
[0026] 優(yōu)選的,根據(jù)調(diào)性特征參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度特征參數(shù)、譜平坦度特 征參數(shù)計算所述調(diào)性信號標志包括:
[0027] A)在當前幀信號為非調(diào)性信號,用一個調(diào)性幀標志tonality_frame來指示當前 幀是否為調(diào)性幀;
[0028] B)在下述條件之一被滿足時執(zhí)行步驟C),在下述兩個條件均不滿足時執(zhí)行步驟 D):
[0029] 調(diào)性特征參數(shù)tonality_ratel的值或其平滑濾波后的值大于對應的設(shè)定的第一 調(diào)性特征參數(shù)判定門限值,
[0030] 調(diào)性特征參數(shù)tonality_ratel的值或其平滑濾波后的值大于對應的設(shè)定的第二 調(diào)性特征參數(shù)門限值;
[0031] C)判斷當前幀是否為調(diào)性幀,并根據(jù)判斷結(jié)果設(shè)置所述調(diào)性幀標志的值,具體 的:
[0032] 在滿足全部以下條件時判斷所述當前幀為調(diào)性幀,在任一或任意多個以下條件不 滿足時判斷所述當前幀為非調(diào)性幀并執(zhí)行步驟D :
[0033] 所述時域穩(wěn)定度特征參數(shù)值小于一個設(shè)定的第一時域穩(wěn)定度判定門限值,
[0034] 譜重心特征參數(shù)值大于一個設(shè)定的第一譜重心判定門限值,
[0035] 各子帶的譜平坦度特征參數(shù)均小于各自對應的預設(shè)的譜平坦度判定門限值時, 判斷當前幀為調(diào)性幀,設(shè)置所述調(diào)性幀標志的值;
[0036] D)根據(jù)所述調(diào)性幀標志對調(diào)性程度特征參數(shù)t〇nality_degree進行更新,其中調(diào) 性程度參數(shù)tonality_degree初始值在激活音檢測開始工作時進行設(shè)置;
[0037] E)根據(jù)更新后的所述調(diào)性程度特征參數(shù)t〇nality_degree判斷所述當前幀是否 為調(diào)性信號,并設(shè)置調(diào)性標志t〇nality_flag的值。
[0038] 優(yōu)選的,在當前的調(diào)性幀標志指示所述當前幀為調(diào)性幀時,采用以下表達式對調(diào) 性程度特征參數(shù)tonality_degree進行更新:
[0039] tonal ity_degree = tonal ity_degree_1 · td_scale_A+td_scale_B?
[0040] 其中,tonality+degreh為前一幀的調(diào)性程度特征參數(shù),其初始值取值范圍為 [0,1],td_scale_A為衰減系數(shù),td_scale_B為累加系數(shù)。
[0041] 優(yōu)選的,在調(diào)性程度特征參數(shù)tonality_degree大于設(shè)定的調(diào)性程度門限值時, 判斷當前幀為調(diào)性信號;
[0042] 在調(diào)性程度特征參數(shù)tonality_degree小于或等于設(shè)定的調(diào)性程度門限值時,判 斷當前幀為非調(diào)性信號。
[0043] 優(yōu)選的,該方法還包括:
[0044] 在當前幀為第二幀及第二幀以后的語音幀時,通過前一聯(lián)合VAD判決結(jié)果計算當 前的連續(xù)激活音巾貞個數(shù)continuous_speech_num2,具體的:
[0045] 當聯(lián)合 VAD 標志 vad_f lag 標志為 1 時 continuous_speech_num2 力口 1 ;
[0046] 當 vad_flag 判為 0 時,continuous_speech_num2 置 0。
[0047] 優(yōu)選的,在當前幀為第一幀時,所述連續(xù)激活音幀個數(shù)為0。
[0048] 優(yōu)選的,所述已有VAD判決結(jié)果或聯(lián)合VAD判決結(jié)果為1時表示為激活音幀,所述 已有VAD判決結(jié)果或聯(lián)合VAD判決結(jié)果為0時表示為非激活音幀,所述根據(jù)連續(xù)激活音幀 個數(shù)、平均全帶信噪比、調(diào)性信號標志和至少兩種已有VAD判決結(jié)果得到最終聯(lián)合VAD判決 結(jié)果包括:
[0049] 當滿足以下任意一個條件時選擇至少兩種已有VAD的判決結(jié)果的邏輯運算作為 聯(lián)合VAD判決結(jié)果,當不滿足下列至少一個條件時選擇所述至少兩種已有VAD判決結(jié)果中 的一個已有VAD判決結(jié)果作為聯(lián)合VAD判決結(jié)果,其中,所述邏輯運算是指"或"運算或者 "和"運算:
[0050] 條件1 :平均全帶信噪比大于信噪比閾值,
[0051] 條件2 :continuous_speech_num2大于連續(xù)激活音巾貞個數(shù)閾值且平均全帶信噪比 大于信噪比閾值,
[0052] 條件3 :調(diào)性信號標志設(shè)置為1。
[0053] 優(yōu)選的,所述已有VAD判決結(jié)果或聯(lián)合VAD判決結(jié)果為1時表示為激活音幀,所述 已有VAD判決結(jié)果或聯(lián)合VAD判決結(jié)果為0時表示為非激活音幀,,所述根據(jù)連續(xù)激活音幀 個數(shù)、平均全帶信噪比、調(diào)性信號標志和至少兩種已有VAD判決結(jié)果得到最終聯(lián)合VAD判決 結(jié)果包括:
[0054] 當滿足以下任一條件時所述聯(lián)合VAD判決結(jié)果為1,當不滿足下列至少一個條件 時選擇所述至少兩個已有VAD判決結(jié)果的邏輯運算作為輸出,其中,邏輯運算是指"或"運 算或者"和"運算:
[0055] 條件1 :至少兩個已有VAD判決結(jié)果全部為1,
[0056] 條件2 :至少兩個已有VAD判決結(jié)果之和大于聯(lián)合判決閾值,并且調(diào)性信號標志設(shè) 置為1,
[0057] 條件3 :continuous_speech_num2大于連續(xù)激活音巾貞個數(shù)閾值且平均全帶信噪比 大于信噪比閾值,調(diào)性信號標志設(shè)置為1。
[0058] 本發(fā)明還提供了一種激活音檢測裝置,包括:
[0059] 聯(lián)合判決模塊,用于根據(jù)連續(xù)激活音幀個數(shù)、平均全帶信噪比、調(diào)性信號標志和至 少兩種已有VAD判決結(jié)果得到最終的聯(lián)合VAD判決結(jié)果。
[0060] 優(yōu)選的,該裝置還包括參數(shù)獲取模塊,所述參數(shù)獲取模塊包括:
[0061] 第一參數(shù)獲取單元,用于獲得當前幀的子帶信號及頻譜幅值;
[0062] 第二參數(shù)獲取單元,用于根據(jù)子帶信號計算得到當前幀的幀能量參數(shù)、譜重心特 征參數(shù)和時域穩(wěn)定度特征參數(shù)的值;
[0063] 第三參數(shù)獲取單元,用于根據(jù)頻譜幅值計算得到譜平坦度特征參數(shù)和調(diào)性特征參 數(shù)的值;
[0064] 第四參數(shù)獲取單元,用于根據(jù)調(diào)性特征參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度特征參 數(shù)、譜平坦度特征參數(shù)計算所述調(diào)性信號標志。
[0065] 優(yōu)選的,所述參數(shù)獲取模塊還包括:
[0066] 第五參數(shù)獲取單元,用于獲取前一幀估計得到的背景噪聲能量;
[0067] 第六參數(shù)獲取單元,用于根據(jù)所述前一幀估計得到的背景噪聲能量、當前幀的幀 能量參數(shù)計算得到所述平均全帶信噪比。
[0068] 優(yōu)選的,所述參數(shù)獲取模塊還包括:
[0069] 第七參數(shù)獲取單元,用于在當前幀為第一幀時,確定所述連續(xù)激活音幀個數(shù)為0,
[0070] 在當前幀為第二幀及第二幀以后的語音幀時,通過前一聯(lián)合VAD判決結(jié)果計算當 前的連續(xù)激活音巾貞個數(shù)continuous_speech_num2,具體的:
[0071] 當聯(lián)合 VAD 標志 vad_flag 標志為 1 時 continuous_speech_num2 力口 1 ;
[0072] 當 vad_flag 判為 0 時,continuous_speech_num2 置 0。
[0073] 本發(fā)明提供了一種激活音檢測方法和裝置,根據(jù)連續(xù)激活音幀個數(shù)、平均全帶信 噪比、調(diào)性信號標志和至少兩種已有VAD判決結(jié)果得到最終聯(lián)合VAD判決結(jié)果,實現(xiàn)了根據(jù) 多種參數(shù)綜合進行VAD判決,提高了 VAD判決的準確性,解決了 VAD檢測不準確的問題。
【專利附圖】
【附圖說明】
[0074] 圖1為本發(fā)明的實施例一提供的一種激活音檢測方法的流程圖;
[0075] 圖2為本發(fā)明的實施例二提供的一種激活音檢測方法的流程圖;
[0076] 圖3為本發(fā)明的實施例四提供的一種激活音檢測裝置的結(jié)構(gòu)示意圖;
[0077] 圖4為圖3中參數(shù)獲取模塊302的結(jié)構(gòu)示意圖。
【具體實施方式】
[0078] 為了解決VAD檢測不準確的問題,本發(fā)明的實施例提供了一種激活音檢測方法。 下文中將結(jié)合附圖對本發(fā)明的實施例進行詳細說明。需要說明的是,在不沖突的情況下,本 申請中的實施例及實施例中的特征可以相互任意組合。
[0079] 下面結(jié)合附圖,對本發(fā)明的實施例一進行說明。
[0080] 本發(fā)明實施例提供了一種激活音檢測方法,使用該方法完成VAD的流程如圖1所 示,包括:
[0081] 步驟101 :獲取至少兩種已有的VAD的判決結(jié)果;
[0082] 步驟102 :獲得當前幀的子帶信號及頻譜幅值;
[0083] 本發(fā)明實施例中以幀長為20ms,采樣率為32kHz的音頻流為例具體說明。在其它 幀長和采樣率條件下,本發(fā)明實施例提供的激活音檢測方法同樣適用。
[0084] 將當前幀時域信號輸入濾波器組單元,進行子帶濾波計算,得到濾波器組子帶信 號。
[0085] 本發(fā)明實施例中采用一個40通道的濾波器組,本發(fā)明實施例提供的技術(shù)方案對 于采用其他通道數(shù)的濾波器組同樣適用。
[0086] 將當前幀時域信號輸入40通道的濾波器組,進行子帶濾波計算,得到16個時間樣 點上40個子帶的濾波器組子帶信號X[k,1],0 < k < 40,0 < 1 < 16,其中k為濾波器組子 帶的索引,其值表示系數(shù)對應的子帶,1為各個子帶的時間樣點索引,其實現(xiàn)步驟如下: [0087] 1 :將最近的640個音頻信號樣值存儲在數(shù)據(jù)緩存中。
[0088] 2 :將數(shù)據(jù)緩存中的數(shù)據(jù)移40個位置,把最早的40個采樣值移出數(shù)據(jù)緩存,并把 40個新的樣點存入到0到39的位置上。
[0089] 將緩存中的數(shù)據(jù)X乘上窗系數(shù),得到數(shù)組z,計算表達式如下:
[0090] z [η] =χ [η] · Wqmf [η] ; 0 ^ η < 640;
[0091] 其中Wqmf為濾波器組窗系數(shù)。
[0092] 采用以下的偽代碼計算得到一個80點的數(shù)據(jù)u,
[0093]
【權(quán)利要求】
1. 一種激活音檢測方法,其特征在于,包括: 根據(jù)連續(xù)激活音幀個數(shù)、平均全帶信噪比、調(diào)性信號標志和至少兩種已有激活音檢測 (VAD)判決結(jié)果得到最終的聯(lián)合VAD判決結(jié)果。
2. 根據(jù)權(quán)利要求1所述的激活音檢測方法,其特征在于,該方法還包括: 獲得當前幀的子帶信號及頻譜幅值; 根據(jù)子帶信號計算得到當前幀的幀能量參數(shù)、譜重心特征參數(shù)和時域穩(wěn)定度特征參數(shù) 的值; 根據(jù)頻譜幅值計算得到譜平坦度特征參數(shù)和調(diào)性特征參數(shù)的值; 根據(jù)調(diào)性特征參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度特征參數(shù)、譜平坦度特征參數(shù)計算所 述調(diào)性信號標志。
3. 根據(jù)權(quán)利要求1所述的激活音檢測方法,其特征在于,該方法還包括: 獲取前一幀估計得到的背景噪聲能量; 根據(jù)所述前一幀估計得到的背景噪聲能量、當前幀的幀能量參數(shù)計算得到所述平均全 帶信噪比。
4. 根據(jù)權(quán)利要求3所述的激活音檢測方法,其特征在于,所述獲取前一幀估計得到的 背景噪聲能量包括: 獲得前一幀的子帶信號及頻譜幅值; 根據(jù)前一幀子帶信號計算得到前一幀幀能量參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度特征 參數(shù)的值; 根據(jù)前一幀頻譜幅值計算得到前一幀譜平坦度特征參數(shù)和調(diào)性特征參數(shù); 根據(jù)前一巾貞的巾貞能量參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度特征參數(shù)、譜平坦度特征參 數(shù)、調(diào)性特征參數(shù)計算得到前一幀的背景噪聲標識; 根據(jù)前一幀調(diào)性特征參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度特征參數(shù)、譜平坦度特征參數(shù) 計算前一幀調(diào)性信號標志; 根據(jù)前一幀的背景噪聲標識、幀能量參數(shù)、調(diào)性信號標志、前第二幀的全帶背景噪聲能 量,得到前一幀全帶背景噪聲能量。
5. 根據(jù)權(quán)利要求4所述的激活音檢測方法,其特征在于, 所述幀能量參數(shù)是各個子帶信號能量的加權(quán)疊加值或直接疊加值; 所述譜重心特征參數(shù)是所有或部分子帶信號能量的加權(quán)累加值和未加權(quán)累加值的比 值,或該比值進行平滑濾波得到的值; 所述時域穩(wěn)定度特征參數(shù)是若干個相鄰兩幀能量幅值疊加值的方差和若干個相鄰兩 幀能量幅值疊加值平方的期望的比值,或該比值乘上一個系數(shù); 所述譜平坦度特征參數(shù)是某些頻譜幅值的幾何平均數(shù)和算術(shù)平均數(shù)的比值,或該比值 乘上一個系數(shù); 調(diào)性特征參數(shù)是通過計算前后兩幀信號的幀內(nèi)頻譜差分系數(shù)的相關(guān)系數(shù)得到的,或繼 續(xù)對該相關(guān)系數(shù)進行平滑濾波得到的。
6. 根據(jù)權(quán)利要求2所述的激活音檢測方法,其特征在于,根據(jù)調(diào)性特征參數(shù)、譜重心特 征參數(shù)、時域穩(wěn)定度特征參數(shù)、譜平坦度特征參數(shù)計算所述調(diào)性信號標志包括: A)在當前巾貞信號為非調(diào)性信號,用一個調(diào)性巾貞標志tonality_frame來指示當前巾貞是 否為調(diào)性幀; B) 在下述條件之一被滿足時執(zhí)行步驟C),在下述兩個條件均不滿足時執(zhí)行步驟D): 調(diào)性特征參數(shù)tonality_ratel的值或其平滑濾波后的值大于對應的設(shè)定的第一調(diào)性 特征參數(shù)判定門限值, 調(diào)性特征參數(shù)tonality_ratel的值或其平滑濾波后的值大于對應的設(shè)定的第二調(diào)性 特征參數(shù)門限值; C) 判斷當前幀是否為調(diào)性幀,并根據(jù)判斷結(jié)果設(shè)置所述調(diào)性幀標志的值,具體的: 在滿足全部以下條件時判斷所述當前幀為調(diào)性幀,在任一或任意多個以下條件不滿足 時判斷所述當前幀為非調(diào)性幀并執(zhí)行步驟D : 所述時域穩(wěn)定度特征參數(shù)值小于一個設(shè)定的第一時域穩(wěn)定度判定門限值, 譜重心特征參數(shù)值大于一個設(shè)定的第一譜重心判定門限值, 各子帶的譜平坦度特征參數(shù)均小于各自對應的預設(shè)的譜平坦度判定門限值時,判斷當 前幀為調(diào)性幀,設(shè)置所述調(diào)性幀標志的值; D) 根據(jù)所述調(diào)性幀標志對調(diào)性程度特征參數(shù)t〇nality_degree進行更新,其中調(diào)性程 度參數(shù)tonality_degree初始值在激活音檢測開始工作時進行設(shè)置; E) 根據(jù)更新后的所述調(diào)性程度特征參數(shù)t〇nality_degree判斷所述當前幀是否為調(diào) 性信號,并設(shè)置調(diào)性標志tonality_flag的值。
7. 根據(jù)權(quán)利要求6所述的激活音檢測方法,其特征在于,在當前的調(diào)性幀標志指示所 述當前巾貞為調(diào)性巾貞時,采用以下表達式對調(diào)性程度特征參數(shù)tonality_degree進行更新: tonality-degree = tonality-degree^ ? td-scale-A+td-scale-B, 其中,tonality+degreeq為前一幀的調(diào)性程度特征參數(shù),其初始值取值范圍為[0,1], td_scale_A為衰減系數(shù),td_scale_B為累加系數(shù)。
8. 根據(jù)權(quán)利要求6所述的激活音檢測方法,其特征在于, 在調(diào)性程度特征參數(shù)t〇nality_degree大于設(shè)定的調(diào)性程度門限值時,判斷當前幀為 調(diào)性信號; 在調(diào)性程度特征參數(shù)tonality_degree小于或等于設(shè)定的調(diào)性程度門限值時,判斷當 前幀為非調(diào)性信號。
9. 根據(jù)權(quán)利要求1所述的激活音檢測方法,其特征在于,該方法還包括: 在當前幀為第二幀及第二幀以后的語音幀時,通過前一聯(lián)合VAD判決結(jié)果計算當前的 連續(xù)激活音巾貞個數(shù)continuous_speech_num2,具體的: 當聯(lián)合 VAD 標志 vad_flag 標志為 1 時 continuous_speech_num2 力口 1 ; 當 vad_flag 判為 0 時,continuous_speech_num2 置 0。
10. 根據(jù)權(quán)利要求9所述的激活音檢測方法,其特征在于, 在當前幀為第一幀時,所述連續(xù)激活音幀個數(shù)為〇。
11. 根據(jù)權(quán)利要求1所述的激活音檢測方法,其特征在于,所述已有VAD判決結(jié)果或聯(lián) 合VAD判決結(jié)果為1時表示為激活音幀,所述已有VAD判決結(jié)果或聯(lián)合VAD判決結(jié)果為0 時表示為非激活音幀,所述根據(jù)連續(xù)激活音幀個數(shù)、平均全帶信噪比、調(diào)性信號標志和至少 兩種已有VAD判決結(jié)果得到最終聯(lián)合VAD判決結(jié)果包括: 當滿足以下任意一個條件時選擇至少兩種已有VAD的判決結(jié)果的邏輯運算作為聯(lián)合 VAD判決結(jié)果,當不滿足下列至少一個條件時選擇所述至少兩種已有VAD判決結(jié)果中的一 個已有VAD判決結(jié)果作為聯(lián)合VAD判決結(jié)果,其中,所述邏輯運算是指"或"運算或者"和" 運算: 條件1 :平均全帶信噪比大于信噪比閾值, 條件2 :continuous_speech_num2大于連續(xù)激活音巾貞個數(shù)閾值且平均全帶信噪比大于 信噪比閾值, 條件3 :調(diào)性信號標志設(shè)置為1。
12. 根據(jù)權(quán)利要求1所述的激活音檢測方法,其特征在于,所述已有VAD判決結(jié)果或聯(lián) 合VAD判決結(jié)果為1時表示為激活音幀,所述已有VAD判決結(jié)果或聯(lián)合VAD判決結(jié)果為0 時表示為非激活音幀,,所述根據(jù)連續(xù)激活音幀個數(shù)、平均全帶信噪比、調(diào)性信號標志和至 少兩種已有VAD判決結(jié)果得到最終聯(lián)合VAD判決結(jié)果包括: 當滿足以下任一條件時所述聯(lián)合VAD判決結(jié)果為1,當不滿足下列至少一個條件時選 擇所述至少兩個已有VAD判決結(jié)果的邏輯運算作為輸出,其中,邏輯運算是指"或"運算或 者"和"運算: 條件1 :至少兩個已有VAD判決結(jié)果全部為1, 條件2 :至少兩個已有VAD判決結(jié)果之和大于聯(lián)合判決閾值,并且調(diào)性信號標志設(shè)置為 1, 條件3 :continuous_speech_num2大于連續(xù)激活音巾貞個數(shù)閾值且平均全帶信噪比大于 信噪比閾值,調(diào)性信號標志設(shè)置為1。
13. -種激活音檢測裝置,其特征在于,包括: 聯(lián)合判決模塊,用于根據(jù)連續(xù)激活音幀個數(shù)、平均全帶信噪比、調(diào)性信號標志和至少兩 種已有VAD判決結(jié)果得到最終的聯(lián)合VAD判決結(jié)果。
14. 根據(jù)權(quán)利要求13所述的激活音檢測裝置,其特征在于,該裝置還包括參數(shù)獲取模 塊,所述參數(shù)獲取模塊包括: 第一參數(shù)獲取單元,用于獲得當前幀的子帶信號及頻譜幅值; 第二參數(shù)獲取單元,用于根據(jù)子帶信號計算得到當前幀的幀能量參數(shù)、譜重心特征參 數(shù)和時域穩(wěn)定度特征參數(shù)的值; 第三參數(shù)獲取單元,用于根據(jù)頻譜幅值計算得到譜平坦度特征參數(shù)和調(diào)性特征參數(shù)的 值; 第四參數(shù)獲取單元,用于根據(jù)調(diào)性特征參數(shù)、譜重心特征參數(shù)、時域穩(wěn)定度特征參數(shù)、 譜平坦度特征參數(shù)計算所述調(diào)性信號標志。
15. 根據(jù)權(quán)利要求14所述的激活音檢測裝置,其特征在于,所述參數(shù)獲取模塊還包括: 第五參數(shù)獲取單元,用于獲取前一幀估計得到的背景噪聲能量; 第六參數(shù)獲取單元,用于根據(jù)所述前一幀估計得到的背景噪聲能量、當前幀的幀能量 參數(shù)計算得到所述平均全帶信噪比。
16. 根據(jù)權(quán)利要求14所述的激活音檢測裝置,其特征在于,所述參數(shù)獲取模塊還包括: 第七參數(shù)獲取單元,用于在當前幀為第一幀時,確定所述連續(xù)激活音幀個數(shù)為〇, 在當前幀為第二幀及第二幀以后的語音幀時,通過前一聯(lián)合VAD判決結(jié)果計算當前的 連續(xù)激活音巾貞個數(shù)continuous_speech_num2,具體的: 當聯(lián)合 VAD 標志 vad-flag 標志為 1 時 continuous-speech-num2 力口 1 ; 當 vad_flag 判為 0 時,continuous_speech_num2 置 0。
【文檔編號】G10L25/78GK104424956SQ201310390795
【公開日】2015年3月18日 申請日期:2013年8月30日 優(yōu)先權(quán)日:2013年8月30日
【發(fā)明者】朱長寶, 袁浩 申請人:中興通訊股份有限公司