本發(fā)明涉及音頻信號(hào)處理技術(shù)領(lǐng)域,尤其是涉及一種用于遠(yuǎn)距離語(yǔ)音識(shí)別的麥克風(fēng)陣列拾音方法、處理器及其存儲(chǔ)介質(zhì)。
背景技術(shù):
隨著語(yǔ)音識(shí)別技術(shù)日益成熟,其應(yīng)用越來(lái)越廣泛,現(xiàn)有語(yǔ)音識(shí)別技術(shù)在近距離時(shí)表現(xiàn)優(yōu)異,然而當(dāng)語(yǔ)音距離變遠(yuǎn)時(shí),語(yǔ)音識(shí)別率急劇下降,使得語(yǔ)音識(shí)別難以達(dá)到實(shí)用效果。
為了解決遠(yuǎn)距離語(yǔ)音識(shí)別率下降的問題,在現(xiàn)有技術(shù)中經(jīng)常使用麥克風(fēng)陣列,即采用一定的波束形成和自適應(yīng)濾波方法來(lái)消除噪聲,但是一般的波束成形方法進(jìn)行噪聲消除的效果并不理想,并且在實(shí)際使用的過程中,由于不同麥克風(fēng)的特性的差異、麥克風(fēng)擺放位置的偏差以及目標(biāo)語(yǔ)音方向不準(zhǔn)確等問題導(dǎo)致處理噪聲效果的效果進(jìn)一步的降低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要第一目的是提供一種有效增強(qiáng)噪聲消除能力的用于遠(yuǎn)距離語(yǔ)音識(shí)別的麥克風(fēng)陣列拾音方法
本發(fā)明的主要第二目的是提供一種有效增強(qiáng)噪聲消除能力的用于遠(yuǎn)距離語(yǔ)音識(shí)別的處理器
本發(fā)明的主要第三目的是提供一種有效增強(qiáng)噪聲消除能力的用于遠(yuǎn)距離語(yǔ)音識(shí)別的處理器中的存儲(chǔ)介質(zhì)。
為實(shí)現(xiàn)上述的主要目的,本發(fā)明提供的用于遠(yuǎn)距離語(yǔ)音識(shí)別的麥克風(fēng)陣列拾音方法,包括:
通過至少兩個(gè)麥克風(fēng)分別接收兩個(gè)目標(biāo)語(yǔ)音信號(hào);
對(duì)兩個(gè)目標(biāo)語(yǔ)音信號(hào)進(jìn)行時(shí)延補(bǔ)償處理;
對(duì)時(shí)延補(bǔ)償處理后的兩個(gè)目標(biāo)語(yǔ)音信號(hào)進(jìn)行增益補(bǔ)償處理;
對(duì)增益補(bǔ)償處理后的兩個(gè)目標(biāo)語(yǔ)音信號(hào)進(jìn)行波束成形處理,得到第一語(yǔ)音成分信號(hào)和噪聲成分信號(hào);
根據(jù)噪聲成分信號(hào)對(duì)第一語(yǔ)音成分信號(hào)進(jìn)行后置濾波處理,得到第二語(yǔ)音成分信號(hào);
對(duì)第二語(yǔ)音成分信號(hào)進(jìn)行增益控制處理,得到第三語(yǔ)音信號(hào),
波束成形處理包括:
根據(jù)兩個(gè)目標(biāo)語(yǔ)音信號(hào)求平均并得到增強(qiáng)目標(biāo)語(yǔ)音信號(hào);
根據(jù)兩個(gè)目標(biāo)語(yǔ)音信號(hào)求差并得到減弱目標(biāo)語(yǔ)音信號(hào);
根據(jù)增強(qiáng)目標(biāo)語(yǔ)音信號(hào)對(duì)減弱目標(biāo)語(yǔ)音信號(hào)進(jìn)行自適應(yīng)阻塞矩陣處理,并得到噪聲成分信號(hào);
根據(jù)減弱目標(biāo)語(yǔ)音信號(hào)對(duì)增強(qiáng)目標(biāo)語(yǔ)音信號(hào)進(jìn)行串換自適應(yīng)噪聲消除處理,并得到第一語(yǔ)音成分信號(hào)。
由此可見,對(duì)麥克風(fēng)陣列中接收到的目標(biāo)語(yǔ)音依次進(jìn)行時(shí)延補(bǔ)償、增益補(bǔ)償、波束成形、后置濾波以及增益控制處理,將麥克風(fēng)接收的語(yǔ)音信號(hào)進(jìn)行規(guī)整并且去除語(yǔ)音信號(hào)中的噪聲,通過增強(qiáng)波束成形處理的中的自適應(yīng)阻塞處理進(jìn)行目標(biāo)語(yǔ)音中的噪聲語(yǔ)音成分的提取以及串換自適應(yīng)噪聲消除處理中提取目標(biāo)語(yǔ)音中的語(yǔ)音成分信號(hào),同時(shí)利用后置濾波將語(yǔ)音成分信號(hào)中的噪聲語(yǔ)音成分消除,增強(qiáng)噪聲消除能力,顯著提高語(yǔ)音識(shí)別裝置的識(shí)別率,從而實(shí)現(xiàn)對(duì)遠(yuǎn)距離的語(yǔ)音信號(hào)的準(zhǔn)確識(shí)別。
進(jìn)一步的方案是,自適應(yīng)阻塞矩陣處理包括:
取連續(xù)兩幀的增強(qiáng)目標(biāo)語(yǔ)音信號(hào)以對(duì)角矩陣的形式進(jìn)行短時(shí)傅里葉變換,得到增強(qiáng)目標(biāo)語(yǔ)音頻域信號(hào);
將增強(qiáng)目標(biāo)語(yǔ)音頻域信號(hào)與頻域?yàn)V波系數(shù)相乘并得到濾波后的增強(qiáng)目標(biāo)語(yǔ)音頻域信號(hào);
將與增強(qiáng)目標(biāo)語(yǔ)音信號(hào)相同幀的減弱目標(biāo)語(yǔ)音信號(hào)減去反傅里葉變換后的濾波后的增強(qiáng)目標(biāo)語(yǔ)音頻域信號(hào),得出噪聲成分信號(hào);
根據(jù)濾波后的增強(qiáng)目標(biāo)語(yǔ)音頻域信號(hào)和噪聲成分信號(hào)更新頻域?yàn)V波系數(shù)。
進(jìn)一步的方案是,串?dāng)_自適應(yīng)噪聲消除處理包括:
根據(jù)第一語(yǔ)音成分信號(hào),分別設(shè)定第一濾波系數(shù)與第二濾波系數(shù)的初始值;
取連續(xù)兩幀的第一語(yǔ)音成分信號(hào)以對(duì)角矩陣的形式進(jìn)行傅里葉變換,得到第一語(yǔ)音成分頻域信號(hào);
將與第一語(yǔ)音成分信號(hào)相同幀的噪聲成分信號(hào)減去反傅里葉變換后的與第二濾波系數(shù)相乘后的第一語(yǔ)音成分頻域信號(hào),得出噪聲成分減弱信號(hào);
根據(jù)與第二濾波系數(shù)相乘后的第一語(yǔ)音成分頻域信號(hào)和噪聲成分減弱信號(hào)更新第二濾波系數(shù);
取連續(xù)兩幀的噪聲成分減弱信號(hào)以對(duì)角矩陣的形式進(jìn)行傅里葉變換,得到噪聲成分減弱頻域信號(hào);
將與噪聲成分減弱信號(hào)相同幀的增強(qiáng)目標(biāo)語(yǔ)音信號(hào)減去反傅里葉變換后的與第一濾波系數(shù)相乘后的噪聲成分減弱頻域信號(hào),得出第一語(yǔ)音成分信號(hào);
根據(jù)第一語(yǔ)音成分頻域信號(hào)和噪聲成分減弱信號(hào)更新第一濾波系數(shù)。
進(jìn)一步的方案是,后置濾波處理包括:
平滑處理經(jīng)傅里葉變換后的某一幀的第一語(yǔ)音成分信號(hào)與噪聲成分信號(hào),得到第一語(yǔ)音成分頻域信號(hào)與噪聲成分頻域信號(hào);
通過imcra方法分別估計(jì)第一語(yǔ)音成分頻域信號(hào)與噪聲成分頻域信號(hào)的擬平穩(wěn)噪聲能量的大?。?/p>
根據(jù)第一語(yǔ)音成分頻域信號(hào)、噪聲成分頻域信號(hào)以及擬平穩(wěn)噪聲能量的大小,計(jì)算語(yǔ)音信號(hào)不存在概率變量;
比較語(yǔ)音信號(hào)不存在概率變量的值與預(yù)設(shè)值的大小,得到語(yǔ)音信號(hào)不存在概率;
根據(jù)第一語(yǔ)音成分頻域信號(hào)的絕對(duì)值的平方除以噪聲估計(jì)值得到后驗(yàn)信噪比;
根據(jù)后驗(yàn)信噪比與增益系數(shù)計(jì)算得到先驗(yàn)信噪比,其中增益系數(shù)根據(jù)后驗(yàn)信噪比與先驗(yàn)信噪比得到;
根據(jù)先驗(yàn)信噪比的與后驗(yàn)信噪比的乘積得到噪聲衰減因子;
根據(jù)噪聲衰減因子、后驗(yàn)信噪比與語(yǔ)音信號(hào)不存在概率計(jì)算得到語(yǔ)音信號(hào)存在概率;
根據(jù)語(yǔ)音信號(hào)存在概率與第一語(yǔ)音成分頻域信號(hào)更新噪聲估計(jì)值;
根據(jù)第一語(yǔ)音成分頻域信號(hào)與增益系數(shù)相乘并傅里葉后得到第二語(yǔ)音成分信號(hào)。
進(jìn)一步的方案是,時(shí)延補(bǔ)償處理包括:
選擇其一目標(biāo)語(yǔ)音信號(hào)作為參考目標(biāo)語(yǔ)音信號(hào);
根據(jù)參考語(yǔ)音信號(hào)與其他目標(biāo)語(yǔ)音信號(hào)的間距、目標(biāo)語(yǔ)音信號(hào)相對(duì)參考語(yǔ)音信號(hào)的方向以及聲音傳播速度計(jì)算其一目標(biāo)語(yǔ)音信號(hào)相對(duì)于參考目標(biāo)語(yǔ)音信號(hào)的延時(shí);
根據(jù)延時(shí)與采樣率,對(duì)其他目標(biāo)語(yǔ)音信號(hào)進(jìn)行樣條插值處理得到時(shí)延補(bǔ)償后的目標(biāo)語(yǔ)音信號(hào)。
進(jìn)一步的方案是,增益補(bǔ)償處理包括:
根據(jù)bark頻率尺度進(jìn)行重分組短時(shí)傅里葉變換后的時(shí)延補(bǔ)償后的目標(biāo)語(yǔ)音信號(hào)得到目標(biāo)語(yǔ)音信號(hào)的頻域數(shù)據(jù);
計(jì)算重分組后的頻域數(shù)據(jù)的每一組的平均能量以其對(duì)應(yīng)組的平均能量;
平方每一組頻域數(shù)據(jù)的平均能量與其對(duì)應(yīng)組的平均能量的比值得到增益補(bǔ)償因子;
反傅里葉增益補(bǔ)償因子與對(duì)應(yīng)組的頻域數(shù)據(jù)的乘積得到增益補(bǔ)償后的目標(biāo)語(yǔ)音信號(hào)。
進(jìn)一步的方案是,增益控制處理包括:
將第二語(yǔ)音成分信號(hào)線性放大;
將經(jīng)線性放大后的第二語(yǔ)音成分信號(hào)進(jìn)行動(dòng)態(tài)范圍控制處理,得到第三語(yǔ)音成分信號(hào)。
本發(fā)明提供的處理器,用于終端,包括處理器和存儲(chǔ)介質(zhì),處理器用于執(zhí)行存儲(chǔ)介質(zhì)內(nèi)的程序時(shí)實(shí)現(xiàn)上述方法的步驟。
本發(fā)明提供的存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有程序,程序被執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
附圖說(shuō)明
圖1是本發(fā)明麥克風(fēng)陣列拾音方法實(shí)施例的簡(jiǎn)易流程圖。
圖2是本發(fā)明麥克風(fēng)陣列拾音方法實(shí)施例的流程圖。
圖3是本發(fā)明麥克風(fēng)陣列拾音方法實(shí)施例中的時(shí)延補(bǔ)償?shù)牧鞒虉D。
圖4是本發(fā)明麥克風(fēng)陣列拾音方法實(shí)施例中的增益補(bǔ)償?shù)牧鞒虉D。
圖5是本發(fā)明麥克風(fēng)陣列拾音方法實(shí)施例中的波束成形處理的流程圖。
圖6是本發(fā)明麥克風(fēng)陣列拾音方法實(shí)施例中的波束成形處理中的自適應(yīng)阻塞矩陣處理的流程圖。
圖7是本發(fā)明麥克風(fēng)陣列拾音方法實(shí)施例中的波束成形處理中的串換自適應(yīng)噪聲消除的流程圖。
圖8是本發(fā)明麥克風(fēng)陣列拾音方法實(shí)施例中的波束成形處理的流程示意圖。
圖9是本發(fā)明麥克風(fēng)陣列拾音方法實(shí)施例中的后置濾波處理的流程圖。
圖10是本發(fā)明麥克風(fēng)陣列拾音方法實(shí)施例中的增益控制處理的流程圖。
以下結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
具體實(shí)施方式
本發(fā)明的用于遠(yuǎn)距離語(yǔ)音識(shí)別的麥克風(fēng)陣列拾音方法對(duì)麥克風(fēng)陣列中接收到的目標(biāo)語(yǔ)音依次進(jìn)行時(shí)延補(bǔ)償、增益補(bǔ)償、波束成形、后置濾波以及增益控制處理,通過增強(qiáng)波束成形處理的使用穩(wěn)定性,同時(shí)增強(qiáng)噪聲消除能力,顯著提高語(yǔ)音識(shí)別裝置的識(shí)別率,從而實(shí)現(xiàn)對(duì)遠(yuǎn)距離的語(yǔ)音信號(hào)的準(zhǔn)確識(shí)別。
本發(fā)明的用于遠(yuǎn)距離語(yǔ)音識(shí)別的麥克風(fēng)陣列拾音方法在本實(shí)施例中以兩個(gè)麥克風(fēng)組成的陣列進(jìn)行說(shuō)明,對(duì)于多個(gè)麥克風(fēng)組成的麥克風(fēng)陣列和其他采樣率信號(hào),同時(shí)適合本發(fā)明提供的拾音方法。
參見圖1、圖2,本發(fā)明提供的用于遠(yuǎn)距離語(yǔ)音識(shí)別的麥克風(fēng)陣列拾音方法包括以下步驟:
s1、通過兩個(gè)麥克風(fēng)分別接收兩個(gè)目標(biāo)語(yǔ)音信號(hào);
s2、對(duì)兩個(gè)目標(biāo)語(yǔ)音信號(hào)進(jìn)行時(shí)延補(bǔ)償處理;
s3、時(shí)延補(bǔ)償處理后的兩個(gè)目標(biāo)語(yǔ)音信號(hào)進(jìn)行增益補(bǔ)償處理;
s4、對(duì)增益補(bǔ)償處理后的兩個(gè)目標(biāo)語(yǔ)音信號(hào)進(jìn)行波束成形處理,得到第一語(yǔ)音成分信號(hào)和噪聲成分信號(hào),其中波束成形處理包括:
s41、根據(jù)兩個(gè)目標(biāo)語(yǔ)音信號(hào)求平均并得到增強(qiáng)目標(biāo)語(yǔ)音信號(hào),
s42、根據(jù)兩個(gè)目標(biāo)語(yǔ)音信號(hào)求差并得到減弱目標(biāo)語(yǔ)音信號(hào),
s43、根據(jù)增強(qiáng)目標(biāo)語(yǔ)音信號(hào)對(duì)減弱目標(biāo)語(yǔ)音信號(hào)進(jìn)行自適應(yīng)阻塞矩陣處理,并得到噪聲成分信號(hào),
s44、根據(jù)減弱目標(biāo)語(yǔ)音信號(hào)對(duì)增強(qiáng)目標(biāo)語(yǔ)音信號(hào)進(jìn)行串換自適應(yīng)噪聲消除處理,并得到第一語(yǔ)音成分信號(hào);
s5、根據(jù)噪聲成分信號(hào)對(duì)第一語(yǔ)音成分信號(hào)進(jìn)行后置濾波處理,得到第二語(yǔ)音成分信號(hào);
s6、對(duì)第二語(yǔ)音成分信號(hào)進(jìn)行增益控制處理,得到第三語(yǔ)音信號(hào);
利用以上步驟,對(duì)麥克風(fēng)陣列中接收到的目標(biāo)語(yǔ)音依次進(jìn)行時(shí)延補(bǔ)償、增益補(bǔ)償、波束成形、后置濾波以及增益控制處理,增強(qiáng)波束成形處理的使用穩(wěn)定性,同時(shí)增強(qiáng)噪聲消除能力,從而顯著提高語(yǔ)音識(shí)別裝置的識(shí)別率。
參見圖3,時(shí)延補(bǔ)償處理包括以下步驟:
s21、選擇其一目標(biāo)語(yǔ)音信號(hào)作為參考目標(biāo)語(yǔ)音信號(hào);
s22、根據(jù)參考語(yǔ)音信號(hào)與其他目標(biāo)語(yǔ)音信號(hào)的間距、目標(biāo)語(yǔ)音信號(hào)相對(duì)參考語(yǔ)音信號(hào)的方向以及聲音傳播速度計(jì)算其一目標(biāo)語(yǔ)音信號(hào)相對(duì)于參考目標(biāo)語(yǔ)音信號(hào)的延時(shí);
s23、根據(jù)延時(shí)與采樣率,對(duì)其他目標(biāo)語(yǔ)音信號(hào)進(jìn)行樣條插值處理得到時(shí)延補(bǔ)償后的目標(biāo)語(yǔ)音信號(hào)。
選定其中一個(gè)麥克風(fēng)為參考,根據(jù)兩個(gè)麥克風(fēng)之間的間距、目標(biāo)語(yǔ)音的方向以及聲音傳播的速度,計(jì)算另一個(gè)麥克風(fēng)相對(duì)與參考麥克風(fēng)的延遲時(shí)間,根據(jù)延時(shí)時(shí)間對(duì)另一麥克風(fēng)進(jìn)行時(shí)延補(bǔ)償。根據(jù)延時(shí)大小和采樣率,利用三次樣條插值方法處理另一麥克風(fēng)的信號(hào),使得兩個(gè)麥克風(fēng)在同一時(shí)刻拾取到一致的目標(biāo)語(yǔ)音。
參見圖4,對(duì)時(shí)延補(bǔ)償處理后的目標(biāo)語(yǔ)音信號(hào)進(jìn)行增益補(bǔ)償處理,可減少兩個(gè)麥克風(fēng)對(duì)目標(biāo)語(yǔ)音幅度相應(yīng)的差異,得到幅度相應(yīng)較為一致的雙通道信號(hào),其中增益補(bǔ)償處理包括以下步驟:
s31、根據(jù)bark頻率尺度進(jìn)行重分組短時(shí)傅里葉變換后的時(shí)延補(bǔ)償后的目標(biāo)語(yǔ)音信號(hào)得到目標(biāo)語(yǔ)音信號(hào)的頻域數(shù)據(jù);
s32、計(jì)算重分組后的頻域數(shù)據(jù)的每一組的平均能量以其對(duì)應(yīng)組的平均能量;
s33、平方每一組頻域數(shù)據(jù)的平均能量與其對(duì)應(yīng)組的平均能量的比值得到增益補(bǔ)償因子;
s34、反傅里葉增益補(bǔ)償因子與對(duì)應(yīng)組的頻域數(shù)據(jù)的乘積得到增益補(bǔ)償后的目標(biāo)語(yǔ)音信號(hào)。
其中在s31中,將經(jīng)過時(shí)延補(bǔ)償后的目標(biāo)語(yǔ)音信號(hào)分別按照幀長(zhǎng)256,利用50%重疊保留的方法進(jìn)行512點(diǎn)短時(shí)傅里葉變換到頻域,得到目標(biāo)語(yǔ)音的頻域數(shù)據(jù),其中按照bark頻率尺度重分組民目標(biāo)語(yǔ)音信號(hào)的頻域數(shù)據(jù),可減少在處理過程中用于語(yǔ)音識(shí)別的頻譜特性的損失。對(duì)應(yīng)組為目標(biāo)語(yǔ)音信號(hào)中的一個(gè)通道信號(hào)的一組頻域數(shù)據(jù)序號(hào)相同的另一通道信號(hào)的一組頻域數(shù)據(jù)。
參見圖5、圖8,波束成形處理包括以下步驟:
s41、根據(jù)兩個(gè)目標(biāo)語(yǔ)音信號(hào)求平均并得到增強(qiáng)目標(biāo)語(yǔ)音信號(hào)y=(s1+s2)/2;
s42、根據(jù)兩個(gè)目標(biāo)語(yǔ)音信號(hào)求差并得到減弱目標(biāo)語(yǔ)音信號(hào)x=(s2-s1);
s43、根據(jù)增強(qiáng)目標(biāo)語(yǔ)音信號(hào)y對(duì)減弱目標(biāo)語(yǔ)音信號(hào)x進(jìn)行自適應(yīng)阻塞矩陣處理,并得到噪聲成分信號(hào)u;
s44、根據(jù)減弱目標(biāo)語(yǔ)音信號(hào)x對(duì)增強(qiáng)目標(biāo)語(yǔ)音信號(hào)y進(jìn)行串換自適應(yīng)噪聲消除處理,并得到第一語(yǔ)音成分信號(hào)e1。
通過穩(wěn)健的波束成形處理將增益補(bǔ)償處理后的目標(biāo)語(yǔ)音信號(hào)降低其中的噪聲,使得在麥克風(fēng)陣列中存在的麥克風(fēng)位置、目標(biāo)語(yǔ)音方向的偏差的情況下,可以得到一致的第一語(yǔ)音成分信號(hào)e1。
參見圖6,其中s43中的自適應(yīng)阻塞矩陣處理具體實(shí)現(xiàn)以下步驟:
s431、假定每次處理的增強(qiáng)目標(biāo)語(yǔ)音信號(hào)y的幀長(zhǎng)為l(對(duì)16000采樣率的信號(hào)可取l為256),取連續(xù)兩幀的增強(qiáng)目標(biāo)語(yǔ)音信號(hào)以對(duì)角矩陣的形式進(jìn)行短時(shí)傅里葉變換,得到增強(qiáng)目標(biāo)語(yǔ)音頻域信號(hào):
yf(k)=diag{fft(yf(kl-l),...,yf(kl),...,yf(kl+l-1))t}
s432、將增強(qiáng)目標(biāo)語(yǔ)音頻域信號(hào)與頻域?yàn)V波系數(shù)相乘并得到濾波后的增強(qiáng)目標(biāo)語(yǔ)音頻域信號(hào):
yb(k)=y(tǒng)f(k)h(k)
其中頻域?yàn)V波系數(shù)初始值h(0)設(shè)為0。
s433、假定第k幀目標(biāo)語(yǔ)音的減弱目標(biāo)語(yǔ)音信號(hào)為x(kl),…,x(kl+l-1),取x(k)=(01×l,x(kl),...,x(kl+l-1))t。對(duì)上述濾波后的增強(qiáng)目標(biāo)語(yǔ)音頻域信號(hào)yb(k)做反傅里葉變換后取其中l(wèi)個(gè)點(diǎn),且將前l(fā)個(gè)點(diǎn)設(shè)為0,將所得的增強(qiáng)目標(biāo)語(yǔ)音信號(hào)y與增強(qiáng)目標(biāo)語(yǔ)音信號(hào)y相同幀的x(k)相減得到時(shí)域信號(hào)eb(k):
eb(k)=x(k)-diag{(01×l,11×l)}·ifft(yb(k))
其中eb(k)向量的后l個(gè)點(diǎn)為噪聲成分信號(hào)u。
s434、根據(jù)濾波后的增強(qiáng)目標(biāo)語(yǔ)音頻域信號(hào)yb和噪聲成分信號(hào)u更新頻域?yàn)V波系數(shù),方法如下:
eb(k)=fft(eb(k))
pl(k)=λpl(k)+(1-λ)|yf,l(k)|2,l=0,...,2l-1
其中λ可取0.9,μ可取0.008。
參見圖7,s44中的串換自適應(yīng)噪聲消除處理的具體實(shí)現(xiàn)步驟如下:
s441、根據(jù)第一語(yǔ)音成分信號(hào),分別設(shè)定第一濾波系數(shù)w1與第二濾波系數(shù)w2的初始值:
w1(0)=[0,...,0]t,grade1old(0)=[0,...,0]t,e1(0)=[0l]
w2(0)=[0,...,0]t,grade2old(0)=[0,...,0]t
g(0)=[0,...,0]t,p1(0)=p2(0)=delta,
其中delta是一個(gè)較小的正常數(shù)值,delta可取0.0001。
s442、取連續(xù)兩幀的第一語(yǔ)音成分信號(hào)以對(duì)角矩陣的形式進(jìn)行傅里葉變換,得到第一語(yǔ)音成分頻域信號(hào):
x2(k)=diag{fft(e1(kl-l),...,e1(kl),...,e1(kl+l-1))t}
s443、將與第一語(yǔ)音成分信號(hào)相同幀的噪聲成分信號(hào)eb(k)減去反傅里葉變換后的與第二濾波系數(shù)w2(k)相乘后的第一語(yǔ)音成分頻域信號(hào)x2(k),在反傅里葉變換中取其中后l個(gè)點(diǎn)作為有效點(diǎn),將前l(fā)個(gè)點(diǎn)設(shè)為0,得出噪聲成分減弱信號(hào)e2:
e2(k)=eb(k)-k·ifft(x2(k)w2(k))
s444、根據(jù)與第二濾波系數(shù)相乘后的第一語(yǔ)音成分頻域信號(hào)和噪聲成分減弱信號(hào)更新第二濾波系數(shù),方法如下:
e2(k)=fft(kte2(k))
p2(k)=λp2(k-1)+(1-λ)|xr(k)|2
g(k)=w1(k)w2(k)
w2(k+1)=w2(k)+2μ1grade2old(k)
s445、取連續(xù)兩幀的噪聲成分減弱信號(hào)以對(duì)角矩陣的形式進(jìn)行傅里葉變換,得到噪聲成分減弱頻域信號(hào):
x1(k)=diag{fft(e2(kl-l),...,e2(kl),...,e2(kl+l-1))t}
s446、將與噪聲成分減弱信號(hào)相同幀的增強(qiáng)目標(biāo)語(yǔ)音信號(hào)減去反傅里葉變換后的與第一濾波系數(shù)w1相乘后的噪聲成分減弱頻域信號(hào),反傅里葉變換中取其中后l個(gè)點(diǎn)作為有效點(diǎn),得出第一語(yǔ)音成分信號(hào)e1:
e1(k)=y(tǒng)f(k)-前l(fā)個(gè)點(diǎn){k·ifft(x1(k)w1(k))}
s447、根據(jù)噪聲成分減弱頻域信號(hào)和第一語(yǔ)音成分信號(hào)更新第一濾波系數(shù),方法如下:
e1(k)=fft(kt[0le1(k)])
p1(k)=λ1p1(k-1)+(1-λ1)|x1(k)|2
w1(k+1)=w1(k)+2μ1grade1old(k)
其中步驟s444與步驟s447中的λ1可取0.77,μ1可取0.001。
參見圖9,s5中的后置濾波處理包括以下步驟:
s51、平滑處理經(jīng)傅里葉變換后的某一幀的第一語(yǔ)音成分信號(hào)與噪聲成分信號(hào),得到第一語(yǔ)音成分頻域信號(hào)與噪聲成分頻域信號(hào),其中以幀長(zhǎng)256和50%重疊進(jìn)行傅里葉變換;
s52、通過imcra方法分別估計(jì)第一語(yǔ)音成分頻域信號(hào)與噪聲成分頻域信號(hào)的擬平穩(wěn)噪聲能量的大小,分別為me(k,l)和mu(k,l);
s53、根據(jù)第一語(yǔ)音成分頻域信號(hào)、噪聲成分頻域信號(hào)以及擬平穩(wěn)噪聲能量的大小,計(jì)算語(yǔ)音信號(hào)不存在概率變量:
s54、比較語(yǔ)音信號(hào)不存在概率變量的值與預(yù)設(shè)值的大小,得到語(yǔ)音信號(hào)不存在概率q(k,l),方法如下:
其中∧0=1.67,∧1=1.81,γlow=1,γhigh=4.6,ωlow=1,ωhigh=3。
s55、根據(jù)第一語(yǔ)音成分頻域信號(hào)的絕對(duì)值的平方除以噪聲估計(jì)值得到后驗(yàn)信噪比ω;
s56、根據(jù)后驗(yàn)信噪比與增益系數(shù)計(jì)算得到先驗(yàn)信噪比,其中增益系數(shù)根據(jù)后驗(yàn)信噪比與先驗(yàn)信噪比得到ζ;
s57、根據(jù)先驗(yàn)信噪比的與后驗(yàn)信噪比的乘積得到噪聲衰減因子ν;
s58、根據(jù)噪聲衰減因子、后驗(yàn)信噪比與語(yǔ)音信號(hào)不存在概率計(jì)算得到語(yǔ)音信號(hào)存在概率p(k,l):
其中g(shù)h1(0,l)=1,λd(0,l)=|e(0,l)|2,ω(0,l)=1
s59、根據(jù)語(yǔ)音信號(hào)存在概率與第一語(yǔ)音成分頻域信號(hào)更新噪聲估計(jì)值λ:
αd=αd0+(1-αd0)p(k,l)
λd(k+1,l)=αdλd(k,l)+β(1-αd)|e(k,l)|2
其中αd0=0.85,β=1.47
s510、根據(jù)第一語(yǔ)音成分頻域信號(hào)與增益系數(shù)g相乘并傅里葉后得到第二語(yǔ)音成分信號(hào)e3。
參見圖10,s6中的增益控制處理包括以下步驟:
s61、將所述第二語(yǔ)音成分信號(hào)線性放大;
s62、將經(jīng)線性放大后的第二語(yǔ)音成分信號(hào)進(jìn)行動(dòng)態(tài)范圍控制處理(即drc處理),得到第三語(yǔ)音成分信號(hào)e4。
在步驟s62中drc處理種設(shè)定噪聲門限為-50db,拉伸門限設(shè)為-42db,壓縮門限設(shè)為-32db,限制門限-15db,最大增益設(shè)為9db,最小增益設(shè)為-2db。
通過自動(dòng)增益控制將遠(yuǎn)距離接收的語(yǔ)音信號(hào)中的音量較小的部分放大便于識(shí)別引擎進(jìn)行識(shí)別。
本發(fā)明的處理器,用于終端,處理器內(nèi)包括處理器和存儲(chǔ)介質(zhì),處理器用于執(zhí)行存儲(chǔ)介質(zhì)內(nèi)的程序時(shí)實(shí)現(xiàn)上述拾音方法的步驟。
本發(fā)明的存儲(chǔ)介質(zhì),存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有程序,程序被執(zhí)行時(shí)實(shí)現(xiàn)上述拾音方法的步驟。
最后需要強(qiáng)調(diào)的是,本發(fā)明不限于上述實(shí)施方式,以上所述僅為發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神與原則之內(nèi)所做的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。