本申請涉及通信技術(shù)領(lǐng)域,特別涉及一種嘯叫場景識別方法及設(shè)備。
背景技術(shù):
行業(yè)終端的語音業(yè)務形式主要為集群模式、直通模式(DMO)等業(yè)務,并且這類業(yè)務主要使用外放模式。由于行業(yè)終端大部分工作在背景噪聲較大的戶外或廠房,要求音量大,因此終端的上下行音量增益通常調(diào)得較大,聲音通過環(huán)路增益放大后,能量不斷累積將形成嘯叫,而嘯叫嚴重影響語音業(yè)務的正常使用,對客戶感知引起極大的不適,因此對嘯叫場景進行識別具有很重要的意義。
然而,目前行業(yè)終端對嘯叫場景識別的解決方案并不成熟,尚處于摸索階段,大量識別方案普遍存在效率低、識別不準確的問題,嚴重影響了嘯叫抑制的整體性能。
技術(shù)實現(xiàn)要素:
本申請?zhí)峁┝艘环N嘯叫場景識別方法和設(shè)備,以提高嘯叫檢測的準確率。
本申請?zhí)峁┑囊环N嘯叫場景識別方法,包括:
對檢測窗內(nèi)的每個語音幀,在頻域上提取能量譜信息,并根據(jù)能量譜信息判斷是否存在嘯叫特征,如果存在,確定該幀為嘯叫幀;
判斷當前檢測窗是否滿足嘯叫場景條件,如果滿足,則判決當前為嘯叫場景,否則,判決當前為非嘯叫場景。
較佳的,所述根據(jù)能量譜信息判斷是否存在嘯叫特征包括:判斷所述幀的高頻區(qū)域的平均能量與低頻區(qū)域的平均能量之比是否大于設(shè)置的高低頻比值門限,如果大于,判定存在嘯叫特征,否則,判定不存在嘯叫特征。
較佳的,以1KHZ作為高頻區(qū)域和低頻區(qū)域的劃分標準。
較佳的,所述嘯叫場景條件為:檢測窗內(nèi)嘯叫幀的數(shù)量大于或者等于設(shè)置的數(shù)量門限。
較佳的,所述數(shù)量門限與檢測窗內(nèi)包含的語音幀的數(shù)量成正比,并滿足數(shù)量 門限小于或者等于檢測窗內(nèi)包含的語音幀的數(shù)量。
本申請還提供了一種嘯叫場景識別設(shè)備,包括:嘯叫幀判決模塊和嘯叫場景判決模塊,其中:
嘯叫幀判決模塊,用于對檢測窗內(nèi)的每個語音幀,在頻域上提取能量譜信息,并根據(jù)能量譜信息判斷是否存在嘯叫特征,如果存在,確定該幀為嘯叫幀;
嘯叫場景判決模塊,用于判斷當前檢測窗是否滿足嘯叫場景條件,如果滿足,則判決當前為嘯叫場景,否則,判決當前為非嘯叫場景。
由上述技術(shù)方案可見,本申請?zhí)峁┑膰[叫場景識別方法和設(shè)備,首先根據(jù)頻域上提取的能量譜信息分別判斷檢測窗內(nèi)的每個語音幀中是否存在嘯叫特征,如果存在,確定該幀為嘯叫幀;然后判斷當前檢測窗是否滿足嘯叫場景條件,如果滿足,則判決當前為嘯叫場景,否則,判決當前為非嘯叫場景,通過本申請技術(shù)方案能夠有效的識別嘯叫語音特征,提高嘯叫檢測的準確率,從而適配后續(xù)的嘯叫抑制處理。
附圖說明
圖1為本發(fā)明一較佳嘯叫場景識別方法的流程示意圖;
圖2為沒有嘯叫現(xiàn)象的頻域波形示意圖;
圖3為存在嘯叫現(xiàn)象的頻域波形示意圖;
圖4為本發(fā)明一較佳設(shè)備的組成結(jié)構(gòu)示意圖。
具體實施方式
為使本申請的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下參照附圖并舉實施例,對本申請作進一步詳細說明。
圖1為本發(fā)明一較佳嘯叫場景識別方法的流程示意圖,該方法包括:
首先,對檢測窗內(nèi)的每個語音幀,在頻域上提取能量譜信息,并根據(jù)能量譜信息判斷是否存在嘯叫特征,如果存在,確定該幀為嘯叫幀;
然后,通過滑窗機制判斷當前檢測窗是否滿足嘯叫場景條件,如果滿足,判決當前為嘯叫場景,否則,判決當前為非嘯叫場景。
一般來說,嘯叫聲在時域上能量比較集中,存在飽和現(xiàn)象,而且主要在高頻比較集中的區(qū)域,而語音主要存在低頻區(qū)域。圖2為沒有嘯叫現(xiàn)象的頻域波形示意圖;圖3為存在嘯叫現(xiàn)象的頻域波形示意圖。圖2和圖3中,橫軸表示頻率,單位為HZ,縱軸表示功率,單位為dB。如圖3,在高頻區(qū)域存在一個比較明顯的 寬頻嘯叫,而低頻區(qū)域的語音分量相對較低。本申請根據(jù)高低頻能量差異這一特征識別嘯叫幀,因此提出嘯叫幀需要滿足以下條件:
其中,Phigh_freq表示當前幀的高頻區(qū)域的平均能量;
Plow_freq表示當前幀的低頻區(qū)域的平均能量;
表示當前幀的高頻區(qū)域的平均能量與低頻區(qū)域的平均能量之比(簡稱高低頻能量比);
high_low_ratio_thd為高低頻比值門限,取值可以根據(jù)不同平臺的特點具體進行設(shè)置,推薦值為0.25,高低頻能量比大于高低頻比值門限則認為當前幀為嘯叫幀,并進行標記。
高頻區(qū)域和低頻區(qū)域的劃分根據(jù)不同平臺具體設(shè)置,考慮到語音主要集中在1KHZ以下,較佳地,可以將小于1KHZ的區(qū)域設(shè)置為低頻區(qū)域,大于1KHZ的區(qū)域設(shè)置為高頻區(qū)域。
對于嘯叫聲場景,嘯叫現(xiàn)象會持續(xù)產(chǎn)生,并在連續(xù)多個語音幀存在嘯叫特征,即時域特征,本申請基于對這一特點的分析,提出如前所述的基于滑窗的嘯叫場景判決方法。例如:假設(shè)滑窗大小為HORING_DURATION,該滑窗包含最近HORING_DURATION個語音幀,本申請分別判斷這HORING_DURATION個語音幀是否為嘯叫幀,然后判斷HORING_DURATION個語音幀中嘯叫幀的數(shù)量是否滿足以下條件:
嘯叫幀有效的語音幀數(shù)>=PEAK_NUM_THD
若滿足則判斷進入嘯叫場景,反之不能進入嘯叫場景。其中,數(shù)量門限PEAK_NUM_THD與HORING_DURATION成正比,需要滿足PEAK_NUM_THD<=HORING_DURATION。
對應于上述方法,本申請還提供了一種嘯叫場景識別設(shè)備,其組成結(jié)構(gòu)如圖4所示,包括:嘯叫幀判決模塊和嘯叫場景判決模塊,其中:
嘯叫幀判決模塊,用于對檢測窗內(nèi)的每個語音幀,在頻域上提取能量譜信息,并根據(jù)能量譜信息判斷是否存在嘯叫特征,如果存在,確定該幀為嘯叫幀;
嘯叫場景判決模塊,用于判斷當前檢測窗是否滿足嘯叫場景條件,如果滿足, 則判決當前為嘯叫場景,否則,判決當前為非嘯叫場景。
以上所述僅為本申請的較佳實施例而已,并不用以限制本申請,凡在本申請的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本申請保護的范圍之內(nèi)。