聲音信號(hào)的時(shí)延估計(jì)方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,特別涉及一種聲音信號(hào)的時(shí)延估計(jì)方法和裝置。
【背景技術(shù)】
[0002] 聲音信號(hào)的時(shí)延估計(jì)算法在聲音匹配、編解碼對(duì)齊、聲音測(cè)距等諸多領(lǐng)域都得到 了廣泛應(yīng)用。
[0003] 現(xiàn)有技術(shù)也提供了多種不同的時(shí)延估計(jì)方法,其中一種應(yīng)用較為廣泛的時(shí)延估計(jì) 算法為基于相關(guān)分析的時(shí)延估計(jì)方法。該方法的基本思想為:利用兩個(gè)聲音信號(hào)在頻域上 的相似程度估算出這兩個(gè)聲音信號(hào)間的時(shí)延。
[0004] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)上述技術(shù)至少存在以下問(wèn)題:上述基于相關(guān) 分析的時(shí)延估計(jì)方法僅考慮了兩個(gè)聲音信號(hào)在頻域上的相似程度,使得兩個(gè)聲音信號(hào)的匹 配精度較低,導(dǎo)致最終計(jì)算得到的時(shí)延準(zhǔn)確度較低。
【發(fā)明內(nèi)容】
[0005] 為了解決上述技術(shù)涉及的時(shí)延估計(jì)方法存在的準(zhǔn)確度低的問(wèn)題,本發(fā)明實(shí)施例提 供了一種聲音信號(hào)的時(shí)延估計(jì)方法和裝置。所述技術(shù)方案如下:
[0006] 第一方面,提供了一種聲音信號(hào)的時(shí)延估計(jì)方法,所述方法包括:
[0007] 獲取兩路聲音信號(hào);
[0008] 根據(jù)所述兩路聲音信號(hào)的短時(shí)傅里葉變換對(duì)所述兩路聲音信號(hào)進(jìn)行相干性匹配 得到第一匹配結(jié)果,所述第一匹配結(jié)果包括所述兩路聲音信號(hào)的第一匹配位置和第一匹配 度;
[0009] 根據(jù)所述兩路聲音信號(hào)的功率譜的譜間相關(guān)性對(duì)所述兩路聲音信號(hào)進(jìn)行相干性 匹配得到第二匹配結(jié)果,所述第二匹配結(jié)果包括所述兩路聲音信號(hào)的第二匹配位置和第二 匹配度;
[0010] 根據(jù)所述第一匹配結(jié)果和所述第二匹配結(jié)果計(jì)算所述兩路聲音信號(hào)間的時(shí)延。
[0011] 可選的,所述根據(jù)所述第一匹配結(jié)果和所述第二匹配結(jié)果計(jì)算所述兩路聲音信號(hào) 間的時(shí)延,包括:
[0012] 對(duì)于每一路聲音信號(hào),對(duì)所述第一匹配位置和所述第二匹配位置采用加權(quán)平均算 法計(jì)算最終匹配位置,所述加權(quán)平均算法的權(quán)重是根據(jù)所述第一匹配度和所述第二匹配度 確定的;
[0013] 根據(jù)所述兩路聲音信號(hào)的所述最終匹配位置計(jì)算所述兩路聲音信號(hào)間的時(shí)延。
[0014] 可選的,所述根據(jù)所述兩路聲音信號(hào)的短時(shí)傅里葉變換對(duì)所述兩路聲音信號(hào)進(jìn)行 相干性匹配得到第一匹配結(jié)果,包括:
[0015] 對(duì)于每一路聲音信號(hào),按照下述公式對(duì)所述聲音信號(hào)中的每一幀聲音信號(hào)進(jìn)行噪 聲跟蹤,獲取每一幀聲音信號(hào)的噪聲譜N(W,n):
【主權(quán)項(xiàng)】
1. 一種聲音信號(hào)的時(shí)延估計(jì)方法,其特征在于,所述方法包括: 獲取兩路聲音信號(hào); 根據(jù)所述兩路聲音信號(hào)的短時(shí)傅里葉變換對(duì)所述兩路聲音信號(hào)進(jìn)行相干性匹配得到 第一匹配結(jié)果,所述第一匹配結(jié)果包括所述兩路聲音信號(hào)的第一匹配位置和第一匹配度; 根據(jù)所述兩路聲音信號(hào)的功率譜的譜間相關(guān)性對(duì)所述兩路聲音信號(hào)進(jìn)行相干性匹配 得到第二匹配結(jié)果,所述第二匹配結(jié)果包括所述兩路聲音信號(hào)的第二匹配位置和第二匹配 度; 根據(jù)所述第一匹配結(jié)果和所述第二匹配結(jié)果計(jì)算所述兩路聲音信號(hào)間的時(shí)延。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一匹配結(jié)果和所述第二 匹配結(jié)果計(jì)算所述兩路聲音信號(hào)間的時(shí)延,包括: 對(duì)于每一路聲音信號(hào),對(duì)所述第一匹配位置和所述第二匹配位置采用加權(quán)平均算法計(jì) 算最終匹配位置,所述加權(quán)平均算法的權(quán)重是根據(jù)所述第一匹配度和所述第二匹配度確定 的; 根據(jù)所述兩路聲音信號(hào)的所述最終匹配位置計(jì)算所述兩路聲音信號(hào)間的時(shí)延。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述兩路聲音信號(hào)的短時(shí)傅里 葉變換對(duì)所述兩路聲音信號(hào)進(jìn)行相干性匹配得到第一匹配結(jié)果,包括: 對(duì)于每一路聲音信號(hào),按照下述公式對(duì)所述聲音信號(hào)中的每一幀聲音信號(hào)進(jìn)行噪聲跟 蹤,獲取每一幀聲音信號(hào)的噪聲譜N(w,n):
其中,X(w,n)表示所述聲音信號(hào)的短時(shí)傅里葉變換;au、ad為預(yù)設(shè)系數(shù)且0<ad <au< 1 ;w表不頻域上的頻點(diǎn)序號(hào);n表不時(shí)域上的幀序號(hào); 按照下述公式對(duì)每一幀聲音信號(hào)的短時(shí)傅里葉變換進(jìn)行二值化處理得到二值譜Xb(w,n):
將其中一路聲音信號(hào)對(duì)應(yīng)的Ka個(gè)二值譜與另一路聲音信號(hào)對(duì)應(yīng)的Kb個(gè)二值譜進(jìn)行兩 兩間的相干性匹配得到所述第一匹配結(jié)果,所述第一匹配結(jié)果包括匹配度最高的一組二值 譜對(duì)應(yīng)的匹配位置和匹配度,Ka、Kb均為正整數(shù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述兩路聲音信號(hào)的功率譜的 譜間相關(guān)性對(duì)所述兩路聲音信號(hào)進(jìn)行相干性匹配得到第二匹配結(jié)果,包括: 對(duì)于每一路聲音信號(hào),按照下述公式計(jì)算所述聲音信號(hào)中的每一幀聲音信號(hào)的功率譜P(w,n): P(w,n) =apP(w,n-l) + (l-ap) |X(w,n) |2; 其中,X(w,n)表示所述聲音信號(hào)的短時(shí)傅里葉變換;ap為預(yù)設(shè)系數(shù)且0 <ap< 1 表示頻域上的頻點(diǎn)序號(hào);n表示時(shí)域上的幀序號(hào); 按照下述公式計(jì)算每一幀聲音信號(hào)的功率譜的譜間相關(guān)性DP(w,n): DP(w,n) = |P(w+1,n)-P(w,n) | ; 按照下述公式對(duì)所述譜間相關(guān)性DP(w,n)進(jìn)行噪聲跟蹤,獲取每一幀聲音信號(hào)的噪聲 功率譜的譜間相關(guān)性NDP(w,n):
其中,0U、0d為預(yù)設(shè)系數(shù)且0 < 0 d< 0 u< 1 ; 按照下述公式對(duì)每一幀聲音信號(hào)的所述譜間相關(guān)性DP(w,n)進(jìn)行二值化處理得到相 關(guān)性二值譜XDb(w,n):
將其中一路聲音信號(hào)對(duì)應(yīng)的KDa個(gè)相關(guān)性二值譜與另一路聲音信號(hào)對(duì)應(yīng)的KDb個(gè)相關(guān) 性二值譜進(jìn)行兩兩間的相干性匹配得到所述第二匹配結(jié)果,所述第二匹配結(jié)果包括匹配度 最高的一組相干性二值譜對(duì)應(yīng)的匹配位置和匹配度,KDa、KDb均為正整數(shù)。
5. 根據(jù)權(quán)利要求1至4任一所述的方法,其特征在于,所述根據(jù)所述兩路聲音信號(hào)的短 時(shí)傅里葉變換對(duì)所述兩路聲音信號(hào)進(jìn)行相干性匹配得到第一匹配結(jié)果之前,還包括: 對(duì)于每一路聲音信號(hào),對(duì)所述聲音信號(hào)進(jìn)行預(yù)處理得到預(yù)處理后的聲音信號(hào),所述預(yù) 處理包括降噪處理、放大處理、高通濾波處理、升降采樣處理中的至少一種; 對(duì)所述預(yù)處理后的聲音信號(hào)進(jìn)行短時(shí)傅里葉變換。
6. -種聲音信號(hào)的時(shí)延估計(jì)裝置,其特征在于,所述裝置包括: 信號(hào)獲取模塊,用于獲取兩路聲音信號(hào); 第一匹配模塊,用于根據(jù)所述兩路聲音信號(hào)的短時(shí)傅里葉變換對(duì)所述兩路聲音信號(hào)進(jìn) 行相干性匹配得到第一匹配結(jié)果,所述第一匹配結(jié)果包括所述兩路聲音信號(hào)的第一匹配位 置和第一匹配度; 第二匹配模塊,用于根據(jù)所述兩路聲音信號(hào)的功率譜的譜間相關(guān)性對(duì)所述兩路聲音信 號(hào)進(jìn)行相干性匹配得到第二匹配結(jié)果,所述第二匹配結(jié)果包括所述兩路聲音信號(hào)的第二匹 配位置和第二匹配度; 時(shí)延計(jì)算模塊,用于根據(jù)所述第一匹配結(jié)果和所述第二匹配結(jié)果計(jì)算所述兩路聲音信 號(hào)間的時(shí)延。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述時(shí)延計(jì)算模塊,包括:位置計(jì)算單元 和時(shí)延計(jì)算單元; 所述位置計(jì)算單元,用于對(duì)于每一路聲音信號(hào),對(duì)所述第一匹配位置和所述第二匹配 位置采用加權(quán)平均算法計(jì)算最終匹配位置,所述加權(quán)平均算法的權(quán)重是根據(jù)所述第一匹配 度和所述第二匹配度確定的; 所述時(shí)延計(jì)算單元,用于根據(jù)所述兩路聲音信號(hào)的所述最終匹配位置計(jì)算所述兩路聲 音信號(hào)間的時(shí)延。
8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一匹配模塊,包括:第一跟蹤單元、 第一二值化單元和第一匹配單元; 所述第一跟蹤單元,用于對(duì)于每一路聲音信號(hào),按照下述公式對(duì)所述聲音信號(hào)中的每 一幀聲音信號(hào)進(jìn)行噪聲跟蹤,獲取每一幀聲音信號(hào)的噪聲譜Nb (w,n):
其中,X(w,n)表示所述聲音信號(hào)的短時(shí)傅里葉變換;au、ad為預(yù)設(shè)系數(shù)且0<ad <au< 1 ;w表不頻域上的頻點(diǎn)序號(hào);n表不時(shí)域上的幀序號(hào); 所述第一二值化單元,用于按照下述公式對(duì)每一幀聲音信號(hào)的短時(shí)傅里葉變換進(jìn)行二 值化處理得到二值譜Xb(w,n):
所述第一匹配單元,用于將其中一路聲音信號(hào)對(duì)應(yīng)的&個(gè)二值譜與另一路聲音信號(hào)對(duì) 應(yīng)的Kb個(gè)二值譜進(jìn)行兩兩間的相干性匹配得到所述第一匹配結(jié)果,所述第一匹配結(jié)果包括 匹配度最高的一組二值譜對(duì)應(yīng)的匹配位置和匹配度,Ka、Kb均為正整數(shù)。
9. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第二匹配模塊,包括:功率譜計(jì)算單 元、相關(guān)性計(jì)算單元、第二跟蹤單元、第二二值化單元和第二匹配單元; 所述功率譜計(jì)算單元,用于對(duì)于每一路聲音信號(hào),按照下述公式計(jì)算所述聲音信號(hào)中 的每一幀聲音信號(hào)的功率譜P(w,n): P(w,n) =apP(w,n-l) + (l-ap) |X(w,n) |2; 其中,X(w,n)表示所述聲音信號(hào)的短時(shí)傅里葉變換;ap為預(yù)設(shè)系數(shù)且0 <ap< 1 表示頻域上的頻點(diǎn)序號(hào);n表示時(shí)域上的幀序號(hào); 所述相關(guān)性計(jì)算單元,用于按照下述公式計(jì)算每一幀聲音信號(hào)的功率譜的譜間相關(guān)性DP(w,n): DP(w,n) = |P(w+1,n)-P(w,n) | ; 所述第二跟蹤單元,用于按照下述公式對(duì)所述譜間相關(guān)性DP(w,n)進(jìn)行噪聲跟蹤,獲 取每一幀聲音信號(hào)的噪聲功率譜的譜間相關(guān)性NDP(w,n):
其中,0U、0d為預(yù)設(shè)系數(shù)且0 < 0 d< 0 u< 1 ; 所述第二二值化單元,用于按照下述公式對(duì)每一幀聲音信號(hào)的所述譜間相關(guān)性DP(w,n)進(jìn)行二值化處理得到相關(guān)性二值譜XDb(w,n):
所述第二匹配單元,用于將其中一路聲音信號(hào)對(duì)應(yīng)的KDa個(gè)相關(guān)性二值譜與另一路聲 音信號(hào)對(duì)應(yīng)的KDb個(gè)相關(guān)性二值譜進(jìn)行兩兩間的相干性匹配得到所述第二匹配結(jié)果,所述 第二匹配結(jié)果包括匹配度最高的一組相干性二值譜對(duì)應(yīng)的匹配位置和匹配度,KDa、KDb均為 正整數(shù)。
10. 根據(jù)權(quán)利要求6至9任一所述的裝置,其特征在于,所述裝置還包括: 信號(hào)預(yù)處理模塊,用于對(duì)于每一路聲音信號(hào),對(duì)所述聲音信號(hào)進(jìn)行預(yù)處理得到預(yù)處理 后的聲音信號(hào),所述預(yù)處理包括降噪處理、放大處理、高通濾波處理、升降采樣處理中的至 少一種; 傅里葉變換模塊,用于對(duì)所述預(yù)處理后的聲音信號(hào)進(jìn)行短時(shí)傅里葉變換。
【專利摘要】本發(fā)明公開(kāi)了一種聲音信號(hào)的時(shí)延估計(jì)方法和裝置,屬于音頻處理技術(shù)領(lǐng)域。所述方法包括:獲取兩路聲音信號(hào);根據(jù)兩路聲音信號(hào)的短時(shí)傅里葉變換對(duì)兩路聲音信號(hào)進(jìn)行相干性匹配得到第一匹配結(jié)果,第一匹配結(jié)果包括兩路聲音信號(hào)的第一匹配位置和第一匹配度;根據(jù)兩路聲音信號(hào)的功率譜的譜間相關(guān)性對(duì)兩路聲音信號(hào)進(jìn)行相干性匹配得到第二匹配結(jié)果,第二匹配結(jié)果包括兩路聲音信號(hào)的第二匹配位置和第二匹配度;根據(jù)第一匹配結(jié)果和第二匹配結(jié)果計(jì)算兩路聲音信號(hào)間的時(shí)延。解決了相關(guān)時(shí)延估計(jì)方法存在的準(zhǔn)確度低的問(wèn)題;從頻域分布和功率譜的譜間相關(guān)性兩個(gè)角度對(duì)聲音信號(hào)進(jìn)行匹配,綜合兩個(gè)匹配結(jié)果確定最終匹配結(jié)果,提高了匹配精度和時(shí)延估計(jì)準(zhǔn)確度。
【IPC分類】G10L25-48, G10L25-18
【公開(kāi)號(hào)】CN104700842
【申請(qǐng)?zhí)枴緾N201510083890
【發(fā)明人】陳超
【申請(qǐng)人】廣州市百果園網(wǎng)絡(luò)科技有限公司
【公開(kāi)日】2015年6月10日
【申請(qǐng)日】2015年2月13日