專利名稱:一種自動嗓音諧噪比分析方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音信號處理技術(shù)領(lǐng)域,具體地說,,本發(fā)明涉及一種自 動嗓音評估中的諧噪比分析方法。
背景技術(shù):
諧噪比(Harmonic to Noise Ration, HNR)是對長元音進(jìn)行分析評估的主 要指標(biāo)。傳統(tǒng)的諧噪比計(jì)算方法是先在時(shí)域上利用周期信號的自相關(guān)性, 估計(jì)出信號基頻的周期。然后根據(jù)基頻周期的位置,將基頻周期附近相關(guān) 性強(qiáng)的部分作為諧波成份,而將相關(guān)性弱或不相關(guān)的部份作為噪聲來計(jì)算 諧噪比。這種方法存在著一些缺陷1.對于一些病變程度較為嚴(yán)重的嗓音 樣本或者較為沙p亞的嗓音樣本來說,基頻周期的估計(jì)很容易出現(xiàn)偏差,有
時(shí)甚至很難估計(jì)出樣本的周期,這樣就無法計(jì)算出有效的諧噪比數(shù)值;2. 這些諧波計(jì)算是在普通時(shí)頻域上進(jìn)行的,這與真實(shí)的人耳感知存在著極大 的差別,因此在實(shí)際應(yīng)用中,最后的計(jì)算結(jié)果與嗓音專家進(jìn)行的主觀評測 打分匹配并不合理。
在人類聽覺的研究方面,聽覺場景分析(CASA)—直以來是科研工作者 所關(guān)注的方面。聽覺場景分析可以利用聲音的各種特性(時(shí)域,頻域,空間 位置等)對現(xiàn)實(shí)世界的混合聲音進(jìn)行分解,使其成份歸屬于各自的物理聲 源。聽覺場景分析系統(tǒng)一般通過時(shí)頻分析模擬人耳對各頻率的不同反應(yīng), 產(chǎn)生一個二維時(shí)頻分布圖,將輸入信號分解為系列感官元素。然后根據(jù)這 些感官元素的分析,按照不同聲源進(jìn)行分組,得到對某個聲源信號進(jìn)行感 知的"聽覺流"(Auditory Stream),最后經(jīng)過重新組合后以達(dá)到聲源分離的 效果。
另外在樣本的選擇上,為了提高樣本參數(shù)的穩(wěn)定性,普通系統(tǒng)一般需 要人工手動切除錄音樣本頭部和尾部不穩(wěn)定的部分,然后多次反復(fù)測試求 平均。這種方法加入了人工的干預(yù),不僅費(fèi)時(shí)費(fèi)力,而且會對結(jié)果造成主 觀影響而使計(jì)算過程很難復(fù)現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明的目的是利用聽覺場景(CASA)分析中的聽覺流的概念,將不同 語音樣本中的諧波成份看成是不同的聽覺流成份加以分離提取從而計(jì)算 出諧噪比,從而提供一種更準(zhǔn)確魯棒的自動嗓音諧噪比分析方法。
為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供的自動嗓音諧噪比分析方法包括如 下步驟(參考圖2):
1) 從錄音中切分出進(jìn)行諧噪比分析的有效語音段;
2) 基于聽覺模型,對所述語音段進(jìn)行濾波處理,然后計(jì)算聽覺模型 中各濾波器通道中的在時(shí)域和頻域(在本發(fā)明的一個實(shí)施例中頻域是指耳蝸 頻譜域)二維的能量相關(guān)系數(shù);
3 )設(shè)定所述相關(guān)系數(shù)的閾值,當(dāng)步驟2 )得出的相關(guān)系數(shù)大于該閾值時(shí), 則該相關(guān)系數(shù)所對應(yīng)的時(shí)域和頻域坐標(biāo)點(diǎn)為諧波成份,否則,該相關(guān)系數(shù)所 對應(yīng)的時(shí)域和頻域坐標(biāo)點(diǎn)為噪音成份,最后計(jì)算諧波成^f分與噪音成份的比值 得出諧噪比。
上述技術(shù)方案中,所述步驟2)中,所述聽覺模型包括中耳、外耳模 型和耳蝸模型。
上述技術(shù)方案中,所述耳蝸模型是由一組Ga隱atone濾波器構(gòu)成。 上述技術(shù)方案中,所述步驟l)中,切分所述有效語音段的方法如下 步驟11 )利用基于能量語音活動檢測技術(shù)找出多段語音的起始點(diǎn)和終止 點(diǎn)位置;
步驟12)對每段語音分別進(jìn)行分幀,對于每一幀,計(jì)算該幀能量大小與 整個能量的平均值;計(jì)算該幀的能量變化率;
步驟13)計(jì)算出能量值和能量值變化率的平均值;
步驟14)分別找出能量大小和能量變化率同時(shí)在平均值周圍一定閾值 范圍內(nèi)的幀,這些幀中的第 一幀和最后一幀分別為所述有效語音段的啟示幀 和終止幀。
上述4支術(shù)方案中,所述步驟2)中,所述能量相關(guān)系數(shù)需進(jìn)行歸一化處 理,所述步驟3)中,所述閾值設(shè)定為0.9915。
上述技術(shù)方案中,所述步驟3)中,還包括對多個樣本的諧噪比進(jìn)行加 權(quán)平均,得到最終的諧噪比值。上述^t術(shù)方案中,還包括利用步驟3)所得的諧噪比進(jìn)行病變嗓音評估。
本發(fā)明相對于現(xiàn)有的諧噪比分析方法,具有如下技術(shù)效果
1、 傳統(tǒng)方法使用基頻檢測來判斷諧波成份,因此計(jì)算結(jié)果的準(zhǔn)確程 度依賴于基頻位置,對于一些基頻檢測不準(zhǔn)甚至難以檢測的病變程度嚴(yán)重 或者比較沙啞的嗓音樣本,傳統(tǒng)方法無能為力。本發(fā)明使用自相關(guān)圖表征 的時(shí)域和耳蝸?zhàn)V域通道之間相關(guān)性來判斷諧波成份,則不受基頻檢測位置 的影響,能夠更準(zhǔn)確更魯棒的檢測出諧波成份。
2、 諧波成份是在耳蝸i普上進(jìn)行的計(jì)算,與人耳的真實(shí)聽覺更加匹 配,與嗓音醫(yī)學(xué)專家的經(jīng)驗(yàn)打分更加吻合。
3、 相對于傳統(tǒng)的計(jì)算方法用手工選擇樣本中較為穩(wěn)定部分的方法, 本發(fā)明可以自動選擇出樣本穩(wěn)定部分,排除了人工干預(yù),省時(shí)省力,而且 提高了評估結(jié)果的客觀度。
4、 相對于傳統(tǒng)的人工選擇穩(wěn)定樣本的方法,本發(fā)明采用了根據(jù)樣本 長度求加權(quán)平均的方法,排除了人為的干擾因素,提高了樣本利用率,從 而更符合實(shí)際特性。
以下,結(jié)合附圖來詳細(xì)說明本發(fā)明的實(shí)施例,其中
圖1是25通道Gammatone濾波器組響應(yīng)圖2是本發(fā)明的自動嗓音諧噪比分析方法的總體框圖3是本發(fā)明一個實(shí)施例中自動嗓音諧噪比分析方法的流程圖。
具體實(shí)施例方式
本發(fā)明的總體構(gòu)思如下在具體的錄音過程中,一4殳出于穩(wěn)定性的考 慮,傳統(tǒng)的方法會讓患者反復(fù)發(fā)音3-5遍,然后由嗓音專家選取其中一個 較為穩(wěn)定的作為樣本分析,而拋棄了其它的樣本。這樣不僅引入了人為因 素影響結(jié)果,同時(shí)也丟棄了其它反應(yīng)嗓音特征的樣本。本發(fā)明將所有樣本 都利用起來。 一般的嗓音評測錄音都在很安靜的環(huán)境下完成,為此本發(fā)明 選擇了基于能量的語音活動檢測器(VAD)來找出語音的起始點(diǎn)和終止點(diǎn), 然后將它們切分出來作為此人的幾個嗓音樣本備用。對于每個樣本來說,由于患者發(fā)音會從開始從小變大,穩(wěn)定一段時(shí)間 后再由大變小,最后終止發(fā)音。傳統(tǒng)方法一般會由嗓音專家選取此樣本中 間的穩(wěn)定部分進(jìn)行分析,這樣增加了人為的干擾并且費(fèi)時(shí)費(fèi)力。我們利用 能量大小和變化率與他們的平均值作為依據(jù),來判斷出出樣本頭部和尾部 的穩(wěn)定位置,自動選擇樣本中間的穩(wěn)定部分進(jìn)行分析。
對于樣本的諧波分析來說,普通做法是利用信號的自相關(guān)性算出樣本 的基頻位置,然后找出相應(yīng)的諧波位置的成份作為諧噪比計(jì)算的諧波部 份,其余的部分作為噪聲部分,最后求得諧噪比。但由對諧噪比計(jì)算結(jié)果 的評判 一般是采取與嗓音醫(yī)學(xué)專家對此的打分進(jìn)行匹配度分析來進(jìn)行的, 而人耳的聽覺譜與普通等間隔的傅立葉變換頻譜有很大差別,所以常常造 成評估結(jié)果的偏差。因此本發(fā)明將信號在聽覺譜域進(jìn)行分解,依據(jù)聽覺場
景分析(CASA)中聽覺流的概念得出信號的相關(guān)圖,在設(shè)定閾值后判斷出哪 些時(shí)頻塊屬于諧波成份哪些屬于噪聲成份,最后計(jì)算出諧噪比。
重復(fù)上述過程,得出此人若干樣本的每個諧噪比值,然后根據(jù)若干樣 本不同的長度做加權(quán)平均以求得最后的數(shù)值。
實(shí)施例1
本實(shí)施例的整體流程可參考圖3,下面分別描述本實(shí)施例涉及的各個 技術(shù)細(xì)節(jié)。
1. 切分?jǐn)?shù)據(jù),自動找出每段發(fā)音的穩(wěn)定部分,包括
1) 利用基于能量語音活動檢測技術(shù)(VAD)找出多段語音的起始點(diǎn)和終止 點(diǎn)位置,對每段語音進(jìn)行分別分析;
2) 分幀,對于每一幀,計(jì)算該幀能量大小與整個能量的平均值,設(shè)信號 為S,共分N幀,每幀有m個樣點(diǎn),則第n幀的能量E(n)為
£O) = t0S((>7_l)xm + /))2
3) 計(jì)算所述幀的能量變化率,即差分值,設(shè)第n幀的能量變換率為"("), 則
= —1)
4) 計(jì)算出能量值和能量值變化率的平均值
",5)分別找出能量大小和能量變化率同時(shí)在平均值周圍一定閾值范圍內(nèi)
的幀。找出符合要求的第一幀和最后一幀即為穩(wěn)定部分的啟示幀和終止
幀。閾值的設(shè)定經(jīng)過反復(fù)試驗(yàn)選為10%。
2. 利用人耳聽覺模型分解每段信號,獲得信號在耳蝸?zhàn)V上的時(shí)頻分布
1) 中耳和外耳模型中耳和外耳對聲音信號在1.5 ~ 5.0kHz范圍內(nèi)有
10 2(MB的提升,可以利用預(yù)加重方式來大致^^莫擬其壓力增益,設(shè)原始
信號乂O,經(jīng)過預(yù)加重后的信號即為
x(^XO — 0.95少(卜Af)
式中,r為時(shí)間,Ar為采樣間隔。
2) 耳蝸模型采用了由Patterson提出的一組Gammatone濾波器組來模 扣乂耳蟲咼的凈寺斗生。在jt匕Gammatone濾》皮器纟且中,每個通道的Gammatone濾 波器由4個半正交的二階濾波器級4關(guān)構(gòu)成。下圖為100-16000Hz頻率范 圍內(nèi)由25個Gammatone濾波器所構(gòu)成的耳蝸濾波器組的濾波器響應(yīng)圖。 由圖可以看出,濾波器在對數(shù)軸上的峰值點(diǎn)的分布基本為等間隔分布, 這與耳蝸模型的特點(diǎn)相符。我們對50-16000Hz的頻帶范圍內(nèi)劃分了 128 個通道的Gamraatone濾波器組,這樣能夠較好的反映此頻帶內(nèi)語音的基 頻和諧波特征。
Gamma tone濾波器組中每個頻帶的濾波器沖擊響應(yīng)為
g(,力=Zj。廣V^ cos(2tt//) 式中,義為中心頻率,f為時(shí)間,&=4為濾波器階數(shù)。 b為濾波器衰減因子,它決定了脈沖的衰減速度,與濾波器的帶寬有 關(guān)。耳蝸基底膜對聲音信號的不同頻率具有非線性選擇性,所以濾波器 的帶寬隨著中心頻率的升高而增大,可以根據(jù)人耳臨界頻帶的等效矩形 帶寬(ERB)確定,計(jì)算公式為
層(/) = 24.7 x log10 (y +1) w乂 feiov 1000
令6-1.019x五i^(/),設(shè)x(r)為輸入信號,對于每一個時(shí)刻每一個濾波
器通道c,設(shè)y;為中心頻率。則相應(yīng)的時(shí)頻單元x(c,o為
x(c,,) = x(/)*g(/c,,)式中,x(O為輸入信號,g(X力為相應(yīng)的Gamma tone濾波器,"*"代 表巻積,在本步驟中,每個通道的輸出向后延時(shí)(。-l)/(2;r6),可以補(bǔ)償 濾波器的延時(shí)。
3. 諧波分析
經(jīng)過才莫擬耳蝸it型的Gammatone濾波器處理后的即為在時(shí)間f和 通道/的時(shí)頻能量分布,這種分布是符合人耳特性的。下面再利用這種 時(shí)頻分布計(jì)算符合耳蝸模型的諧波成分。
為了防止不同的能量相關(guān)系數(shù)標(biāo)準(zhǔn)不同,先將系數(shù)進(jìn)行歸一化處理, 歸一化后的自相關(guān)系數(shù)為
式中,c為相應(yīng)的濾波器通道,t為時(shí)刻,r是時(shí)延,。
厶
式中,L為所計(jì)算的最大時(shí)延,人發(fā)聲的基頻一般在50Hz以上,因 此i = 1000ffw / = 20/^ 。 &(c,f, t)為。(c, f, t)歸一4匕后的結(jié)果,CH (c,f)即為 所得出的考慮到時(shí)間和頻帶上連續(xù)性的相關(guān)系數(shù)。
由于諧波成分之間的時(shí)域和頻帶相關(guān)性會大于諧波與噪聲的相關(guān)性 或噪聲與噪聲的相關(guān)性,所以通過Q(c力的值范圍就可以判斷在f時(shí)刻c
通道的成份是否為諧波成份。為此必須先設(shè)定出一個閾值,然后比較 CH(c,0與閾值的大小關(guān)系來判斷是否為諧波成份。
4. 閾值設(shè)定
為了選定諧噪比的閾值,本實(shí)施例選取了經(jīng)過嗓音醫(yī)學(xué)專家按照 GRBAS評級標(biāo)準(zhǔn)評級過的典型嗓音樣本40例,其中G0-G3各10例,每例 發(fā)的長元音數(shù)目為3個,共120個長元音樣本。手工取其中較為平穩(wěn)的 部分,每部分的長度都在3秒鐘以上。
閾值測試區(qū)間為0. 100-0. 999,計(jì)算出諧噪比與嗓音專家評級之間的 相關(guān)度。經(jīng)測試,閾值在0. 9915時(shí)相關(guān)度達(dá)到了最大值,因此最終選擇 了閾<直" =0.9915。5. 諧噪比計(jì)算
在對設(shè)定一個閣值后,就可以根據(jù)這個閾值分離出諧波和噪聲成分。 設(shè)^(c力=X(C,O2為相應(yīng)時(shí)頻塊的能量,&和&分別為諧波能量和噪聲能
量,則
最后得出的信噪比為
扁=10一10(,)
五w
6. 多個樣本加權(quán)平均
由于人在發(fā)持續(xù)時(shí)間較長的元音時(shí)往往穩(wěn)定性較好,因此有必要對 發(fā)音時(shí)間長的樣本采取更大的權(quán)重。因此按照切分出的每段的長度比率 計(jì)算出加權(quán)系數(shù),根據(jù)加權(quán)系數(shù)和分段數(shù)可以算出最終的諧噪比數(shù)值。 設(shè)切分出的樣本總數(shù)為M個,第n段樣本的穩(wěn)定部分長度為^ ,相應(yīng)段 的i皆p桑比為/ZA^ ,貝寸
》"
"=1
iBVi '為最終計(jì)算出的諧噪比。
本發(fā)明特別適合用于病變嗓音客觀評估中。諧噪比的計(jì)算是病變嗓音 客觀評估技術(shù)的關(guān)^t之一。病變嗓音客觀評估技術(shù)是利用信號處理技術(shù)對 嗓音信號進(jìn)行分析,從而對病人聲門病變程度以及病變情況進(jìn)行評估判斷 的技術(shù)。 一般選擇長元音作為病變嗓音的評估樣本。諧噪比能否計(jì)算準(zhǔn)確 直接影響到了對患者的嗓音評估準(zhǔn)確度。在中國人民解放軍總醫(yī)院(301醫(yī) 院)病變嗓音醫(yī)學(xué)樣本247個人共計(jì)817例長元音樣本中,采用普通諧噪比 計(jì)算方法計(jì)算出的諧噪比與嗓音專家打分的匹配度為-0.62(其中包含24例 樣本無法計(jì)算),而采用本發(fā)明中所使用的計(jì)算方法對全部的樣本都可以有 效計(jì)算,匹配度為-0.79。
本發(fā)明還可以用語音質(zhì)量評估、信道特征分析等領(lǐng)域。最后,最后所應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案 而非限制。盡管參照實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)
人員應(yīng)當(dāng)理解,對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本 發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1. 一種自動嗓音諧噪比分析方法,包括如下步驟1)從錄音中切分出進(jìn)行諧噪比分析的有效語音段;2)基于聽覺模型,對所述語音段進(jìn)行濾波處理,然后計(jì)算聽覺模型中各濾波器通道中的在時(shí)域和頻域二維的能量相關(guān)系數(shù);3)設(shè)定所述相關(guān)系數(shù)的閾值,當(dāng)步驟2)得出的相關(guān)系數(shù)大于該閾值時(shí),則該相關(guān)系數(shù)所對應(yīng)的時(shí)域和頻域坐標(biāo)點(diǎn)為諧波成份,否則,該相關(guān)系數(shù)所對應(yīng)的時(shí)域和頻域坐標(biāo)點(diǎn)為噪音成份。
2. 根據(jù)權(quán)利要求1所述的自動嗓音諧噪比分析方法,其特征在于, 所述步驟2)中,所述聽覺模型包括中耳、外耳模型和耳蝸模型。
3. 根據(jù)權(quán)利要求2所述的自動嗓音諧噪比分析方法,其特征在于, 所述耳蝸才莫型是由一組Ga咖atone濾波器構(gòu)成。
4. 根據(jù)權(quán)利要求1所述的自動嗓音諧噪比分析方法,其特征在于, 所述步驟l)中,切分所述有效語音段的方法如下步驟11 )利用基于能量語音活動檢測技術(shù)找出多段語音的起始點(diǎn)和終止 點(diǎn)位置;步驟12)對每賴:語音分別進(jìn)行分幀,對于每一幀,計(jì)算該幀能量大小與 整個能量的平均值;計(jì)算該幀的能量變化率;步驟13)計(jì)算出能量值和能量值變化率的平均值;步驟14)分別找出能量大小和能量變化率同時(shí)在平均值周圍一定閾值 范圍內(nèi)的幀,這些幀中的第一幀和最后一幀分別為所述有效語音^:的啟示幀 和終止幀。
5. 根據(jù)權(quán)利要求1所述的自動嗓音諧噪比分析方法,其特征在于, 所述步驟2)中,所述能量相關(guān)系數(shù)需進(jìn)行歸一化處理,所述步驟3)中, 所述閾值設(shè)定為0.9915。
6. 根據(jù)權(quán)利要求1所述的自動嗓音諧噪比分析方法,其特征在于, 所述步驟3)中,還包括計(jì)算諧波成份與噪音成份的比值得出諧噪比,然后 對多個樣本的諧噪比進(jìn)行加權(quán)平均,得到最終的諧噪比值。
7. 根據(jù)權(quán)利要求6所述的自動嗓音諧噪比分析方法,其特征在于, 所述諧噪比分析方法還包括利用步驟3)所得的諧噪比進(jìn)行病變嗓音評估。
全文摘要
本發(fā)明提供一種自動嗓音諧噪比分析方法,包括1)從錄音中切分出進(jìn)行諧噪比分析的有效語音段;2)基于聽覺模型,對所述語音段進(jìn)行濾波處理,然后計(jì)算聽覺模型中各濾波器通道中的在時(shí)域和頻域二維的能量相關(guān)系數(shù);3)設(shè)定所述相關(guān)系數(shù)的閾值,當(dāng)步驟2)得出的相關(guān)系數(shù)大于該閾值時(shí),則該相關(guān)系數(shù)所對應(yīng)的時(shí)域和頻域坐標(biāo)點(diǎn)為諧波成份,否則,該相關(guān)系數(shù)所對應(yīng)的時(shí)域和頻域坐標(biāo)點(diǎn)為噪音成份,最后計(jì)算諧波成份與噪音成份的比值得出諧噪比。本發(fā)明使用自相關(guān)圖表征的時(shí)域和耳蝸?zhàn)V域通道之間相關(guān)性來判斷諧波成份,不受基頻檢測位置的影響,能夠更準(zhǔn)確更魯棒的檢測出諧波成份。由于使用耳蝸?zhàn)V,本發(fā)明與人耳的真實(shí)聽覺更加匹配。
文檔編號G10L11/00GK101452698SQ20071017836
公開日2009年6月10日 申請日期2007年11月29日 優(yōu)先權(quán)日2007年11月29日
發(fā)明者張建平, 迪 王, 顏永紅 申請人:中國科學(xué)院聲學(xué)研究所;中國科學(xué)院物理研究所