一種腭裂語音喉塞音自動(dòng)識(shí)別算法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音分析、識(shí)別技術(shù)領(lǐng)域,尤其是一種腭裂語音喉塞音自動(dòng)識(shí)別算法 及裝置。
【背景技術(shù)】
[0002] 唇腭裂是最常見的先天性顱頒面畸形,我國擁有世界上最多的唇腭裂人群。與唇 裂不同的是,腭裂最大的影響不僅是面部形態(tài)上的缺陷,而且由于不同程度的上腭部骨組 織和軟組織的缺損和畸形,造成患者語音語言、吮吸、進(jìn)食等功能障礙,嚴(yán)重影響人口生存 質(zhì)量。通常,在一期腭裂修復(fù)手術(shù)后,仍有大量患者存在不同程度的語音障礙。對(duì)腭裂語音 障礙的治療是腭裂序列治療模式中的重要環(huán)節(jié)。
[0003] 目前,對(duì)腭裂語音的評(píng)估由專業(yè)語音師的主觀判聽實(shí)現(xiàn),這種方法易受語音師的 臨床經(jīng)驗(yàn)及主觀狀態(tài)等因素影響。
[0004] 腭裂語音的臨床表現(xiàn)主要包括共鳴障礙與構(gòu)音障礙。其中,共鳴障礙的主要臨床 表現(xiàn)為高鼻音、鼻漏氣等;構(gòu)音障礙的主要臨床表現(xiàn)為輔音省略、代償、弱化,替代等。其中, 代償性構(gòu)音異常是腭裂患者最常見的錯(cuò)誤構(gòu)音方法之一,其發(fā)音原理是腭裂患者發(fā)輔音 時(shí),由于口腔氣流經(jīng)閉合不全的腭咽口分流至鼻腔,出現(xiàn)鼻漏氣和口內(nèi)壓力不足,導(dǎo)致他們 為了在氣流之前利用咽腔里的氣流發(fā)音,從而學(xué)會(huì)以一種方式代償性發(fā)音。喉塞音是臨床 最常見的代償性構(gòu)音形式,對(duì)語音清晰度影響最大,可以發(fā)生在全部的壓力性輔音,聽覺感 知上,患者音質(zhì)"硬、短",模糊不清。而長(zhǎng)期的影響會(huì)造成聲帶增厚、小結(jié),聲撕、沙啞。由于 代償性構(gòu)音與腭咽功能緊密相關(guān),其直接映射腭咽功能的程度,因此對(duì)其準(zhǔn)確評(píng)估具有重 要臨床意義。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題是:針對(duì)上述存在的問題,提供一種喉塞音自動(dòng)識(shí)別 方法及裝置,采用計(jì)算機(jī)自動(dòng)識(shí)別腭裂語音喉塞音,為患者和語音師提供有效的客觀輔助 診斷,有助于腭裂語音評(píng)估與語音治療的廣泛普及。
[0006] 本發(fā)明提供的腭裂語音喉塞音自動(dòng)識(shí)別算法,包括:
[0007] 步驟1 :采集待測(cè)音節(jié)語音信號(hào);
[0008] 步驟2 :對(duì)所述音節(jié)語音信號(hào)進(jìn)行聲韻母切分,保留聲母語音信號(hào);
[0009] 步驟3 :提取所述聲母語音信號(hào)的特征值;
[0010] 步驟4 :將所述特征值送入訓(xùn)練過的識(shí)別模型中,識(shí)別模型根據(jù)所述特征值判斷 所述音節(jié)語音信號(hào)中是否存在喉塞音。
[0011] 所述步驟2進(jìn)一步包括:
[0012]步驟21 :對(duì)音節(jié)語音信號(hào)進(jìn)行加窗分幀得到若干語音幀Xi[n],i取1、2、3…M ;
[0013] 步驟22 :計(jì)算每個(gè)語音幀的短時(shí)能量Ei及短時(shí)過零率Z i;
[0014] 步驟23 :計(jì)算相鄰兩幀的能量差e(i)和過零率差z(i) :e(i) = Ei+1-Ei,i = 1,2, z(i) = Zi+i-Z" i = 1,2, ;
[0015] 步驟24:將每個(gè)能量差e(i)與閾值T1進(jìn)行比較,將每個(gè)過零率差z(i)與閾值T2 比較;當(dāng)滿足e(i)彡T1,同時(shí)z(i)彡T2時(shí),設(shè)此時(shí)i = I ;則取語音幀Xi[n],i取1、2、3… I為音節(jié)語音信號(hào)的聲母語音信號(hào)。
[0016] 所述步驟3提取的聲母語音信號(hào)特征值包括以下特征值中的一種或多種:頻譜能 量加強(qiáng)段特征值、MFCC聲學(xué)特征值、臨界頻段短時(shí)功率譜特征值、小波變換與信息熵特征 值、小波包變換與信息熵特征值;其中,
[0017] 提取聲母語音信號(hào)的頻譜能量加強(qiáng)段特征值:計(jì)算每幀聲母語音幀的第一到第五 頻譜能量加強(qiáng)段特征值;計(jì)算全部聲母語音幀的第一頻譜能量加強(qiáng)段特征值均值作為聲母 語音信號(hào)的第一頻譜能量加強(qiáng)段特征值,以此類推,計(jì)算得到聲母語音信號(hào)的第二到第五 頻譜能量加強(qiáng)段特征值;
[0018] 提取聲母語音信號(hào)的MFCC聲學(xué)特征值:計(jì)算每幀聲母語音幀的MFCC聲學(xué)特征值, 其中MFCC系數(shù)值取12,得到每幀聲母語音幀的12個(gè)MFCC特征值;將全部聲母語音信號(hào)幀 的第一 MFCC特征值的平均值作為聲母語音信號(hào)的第一 MFCC特征值,以此類推,計(jì)算得到聲 母語音信號(hào)的第二到第十二MFCC特征值;
[0019] 提取聲母語音信號(hào)的臨界頻段短時(shí)功率譜特征值:對(duì)每幀聲母語音幀進(jìn)行短時(shí)傅 里葉變換,得到每幀聲母語音幀的短時(shí)功率譜;按照臨界頻段劃分規(guī)則將每幀聲母語音幀 的短時(shí)功率譜劃分為20個(gè)臨界頻段;將全部聲母語音幀的第一臨界頻段的功率疊加在一 起得到聲母語音信號(hào)的第一臨界頻段短時(shí)功率譜特征值,以此類推得到第二到第二十臨界 頻段短時(shí)功率譜特征值;
[0020] 提取聲母語音信號(hào)的小波變換與信息熵特征值:對(duì)每幀聲母語音幀進(jìn)行三層小波 變換,對(duì)三層小波分解后的信號(hào)進(jìn)行重構(gòu)得到4個(gè)重構(gòu)后的信號(hào),計(jì)算每個(gè)重構(gòu)后的信號(hào) 的信息熵;將全部聲母語音信號(hào)幀的第一個(gè)重構(gòu)后的信號(hào)的信息熵的平均值作為聲母語音 信號(hào)的第一小波變換與信息熵特征值,以此類推,計(jì)算得到聲母語音信號(hào)的第二到第四小 波變換與信息熵特征值;
[0021] 提取聲母語音信號(hào)的小波包變換與信息熵特征值:對(duì)每幀聲母語音幀進(jìn)行三層小 波包變換,對(duì)三層小波包分解后的信號(hào)進(jìn)行重構(gòu)得到8個(gè)重構(gòu)后的信號(hào),計(jì)算每個(gè)重構(gòu)后 的信號(hào)的信息熵;將全部聲母語音信號(hào)幀的第一個(gè)重構(gòu)后的信號(hào)的信息熵的平均值作為聲 母語音信號(hào)的第一小波包變換與信息熵特征值,以此類推,計(jì)算得到聲母語音信號(hào)的第二 到第六小波變換與信息熵特征值。
[0022] 步驟4進(jìn)一步包括:
[0023] 選取已知包含喉塞音的音節(jié)語音信號(hào)若干組成真訓(xùn)練樣本集,選取已知不包含喉 塞音的音節(jié)語音信號(hào)若干組成假訓(xùn)練樣本集;
[0024] 提取兩個(gè)訓(xùn)練樣本集的每個(gè)樣本的頻譜能量加強(qiáng)段特征值、MFCC聲學(xué)特征值、臨 界頻段短時(shí)功率譜特征值、小波變換與信息熵特征值及小波包變換與信息熵特征值;
[0025] 獲取步驟3得到的待測(cè)音節(jié)語音信號(hào)的聲母語音信號(hào)特征值;
[0026] 計(jì)算該待測(cè)音節(jié)語音信號(hào)的聲母語音信號(hào)特征值與各個(gè)訓(xùn)練樣本的距離:;
[0027]
[0028] 選取離待測(cè)音節(jié)語音信號(hào)的聲母語音信號(hào)特征值距離最短的若干訓(xùn)練樣本,其中 屬于真訓(xùn)練樣本集的訓(xùn)練樣本最多時(shí)則認(rèn)為所述待測(cè)音節(jié)語音信號(hào)中含有喉塞音;
[0029]其中:Xl,1取1~5,為待測(cè)音節(jié)語音信號(hào)的第一到第五頻譜能量加強(qiáng)段特征值;
[0030]Xl,1取6~17,為待測(cè)音節(jié)語音信號(hào)的第一到第十二MFCC聲學(xué)特征值;
[0031]Xl,1取18~37,為待測(cè)音節(jié)語音信號(hào)的第一到第二十臨界頻段短時(shí)功率譜特征 值;
[0032]Xl,1取38~41,為待測(cè)音節(jié)語音信號(hào)的第一到第四小波變換與信息熵特征值;
[0033]Xl,1取42~49,為待測(cè)音節(jié)語音信號(hào)的第一到第八小波包變換與信息熵特征值;
[0034]yi,1取1~5,為訓(xùn)練樣本的第一到第五頻譜能量加強(qiáng)段特征值;
[0035]yi,1取6~17,為訓(xùn)練樣本的第一到第十二MFCC聲學(xué)特征值;
[0036]yi,1取18~37,為訓(xùn)練樣本的第一到第二十臨界頻段短時(shí)功率譜特征值;
[0037]yi,1取38~41,為訓(xùn)練樣本的第一到第四小波變換與信息熵特征值;
[0038]yi,1取42~49,為訓(xùn)練樣本的第一到第八小波包變換與信息熵特征值;
[0039] a、b、c、d、e 為權(quán)值。
[0040] 優(yōu)選地,所述權(quán)值的取值獲取方法包括:
[0041] 選取已知包含喉塞音的音節(jié)語音信號(hào)若干組成真樣本空間,選取已知不包含喉塞 音的音節(jié)語音信號(hào)若干組成假樣本空間;
[0042] 提取兩個(gè)樣本空間的每個(gè)樣本的頻譜能量加強(qiáng)段特征值、MFCC聲學(xué)特征值、臨界 頻段短時(shí)功率譜特征值、小波變換與信息熵特征值及小波包變換與信息熵特征值;
[0043] 以兩個(gè)樣本空間的樣本的頻譜能量加強(qiáng)段特征值為KNN識(shí)別模型的樣本;此時(shí)的 KNN識(shí)別模型的識(shí)別正確率為a ;
[0044] 以兩個(gè)樣本空間的樣本的MFCC聲學(xué)特征值為KNN識(shí)別模型的樣本;此時(shí)的KNN識(shí) 別模型的識(shí)別正確率為b ;
[0045] 以兩個(gè)樣本空間的樣本的臨界頻段短時(shí)功率譜特征值為KNN識(shí)別模型的樣本;此 時(shí)的KNN識(shí)別模型的識(shí)別正確率為c ;
[0046] 以兩個(gè)樣本空間的樣本的小波變換與信息熵特征值為KNN識(shí)別模型的樣本;此時(shí) 的KNN識(shí)別模型的識(shí)別正確率為d ;
[0047] 以兩個(gè)樣本空間的樣本的小波包變換與信息熵特征值為KNN識(shí)別模型的樣本;此 時(shí)的KNN識(shí)別模型的識(shí)別正確率為e。
[0048] 綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的有益效果是:
[0049] 1.本發(fā)明實(shí)現(xiàn)了腭裂語音喉塞音的計(jì)算機(jī)自動(dòng)識(shí)別。
[0050] 2.提出了改進(jìn)的KNN分類模型,識(shí)別準(zhǔn)確率高達(dá)93. 1 %。
【附圖說明】
[0051] 本發(fā)明將通過例子并參照附圖的方式說明,其中:
[0052] 圖1為本發(fā)明算法流程圖。
[0053] 圖2為本發(fā)明中臨界頻段短時(shí)功率譜特征值提取流程圖。
[0054]圖3為本發(fā)明中小波/小波包變換與信息熵特征值提取流程圖。
[0055] 圖4為本發(fā)明中三層小波變換的樹形結(jié)構(gòu)示意圖。
[0056]圖5為本發(fā)明中對(duì)每幀語音信號(hào)計(jì)算小波變換與信息熵特征值的流程圖。
[0057] 圖6為本發(fā)明中三層小波包變換的樹形結(jié)構(gòu)示意圖。
[0058]圖7為本發(fā)明中對(duì)每幀語音信號(hào)計(jì)算小波包變換與信息熵特征值的流程圖。
【具體實(shí)施方式】
[0059] 本說明書中公開的所有特征,或公開的所有方法或過程中的步驟,除了互相排斥 的特征和/或步驟以外,均可以以任何方式組合。
[0060] 本說