專利名稱:基于組合特征的漢語聲韻母可視化方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種漢語音聲母和韻母的可視化方法,特別涉及ー種基于組合特征的漢語聲韻母可視化方法。
背景技術(shù):
語音是語言的聲學(xué)表現(xiàn),是人類交流信息最自然、最有效、最方便的手段,也是人類思維的ー種依托。而對(duì)聾啞人來說,語言交流變成一件很難實(shí)現(xiàn)的事情,一部分聾啞人不能說話是因?yàn)樗麄兊穆犛X器官遭到破壞,不能將語音信息采集到大腦。研究表明,人類聽覺系統(tǒng)和視覺系統(tǒng)是兩個(gè)性質(zhì)不同的并具有互補(bǔ)性的信息系統(tǒng),視覺系統(tǒng)是ー個(gè)高度并行的信息接收和處理系統(tǒng),人類眼球中視網(wǎng)膜上的數(shù)百萬個(gè)錐狀細(xì)胞通過纖維狀神經(jīng)組織與大腦相連,形成ー個(gè)高度并行的信道,視覺信道接受信息的速率是很高的,據(jù)測(cè)量和估算,看電視時(shí)的信息接收速率大致可達(dá)到
2x IO4み/S,這比聽覺系統(tǒng)聽語音時(shí)的信息接收速度高出上千倍,因此人們相信人類
所獲得的信息有70%是通過視覺獲得的說法。所以對(duì)于聾啞人人來說,這無疑就是ー個(gè)很大的助手,聽覺的缺陷由視覺來補(bǔ)償,語音不僅能聽見,還可以通過多種其他形式使聾啞人“看,,見。1947年R. K. Potter和G. A. Kopp等人就提出了一種可視化方法一語譜圖,隨后有不同的語音研究專家開始研究改進(jìn)這種語音可視化方法,比如在1976年L. C. Stewart等人提出了有色譜圖和1984年G. M. Kuhn等人提出了對(duì)聾人進(jìn)行訓(xùn)練的實(shí)時(shí)的語譜圖系統(tǒng),以及1986年P(guān). E. Stern、1998年F. Plante和2008年R. Steinberg等人也提出了許多語譜圖的改進(jìn)方法,但是顯示的語譜圖的專業(yè)性很強(qiáng),而且很難辨別記憶。尤其是對(duì)于同一個(gè)語音不同的人來說,甚至是同一個(gè)語音同一個(gè)人來說都有可能造成語譜圖的變化,對(duì)于不同環(huán)境下錄制的語音信號(hào)其魯棒性能更為不好。此外,還有ー些學(xué)者對(duì)人的發(fā)音器官的運(yùn)動(dòng)變化以及面部表情的變化來實(shí)現(xiàn)語音可視化,有效地剖析了人的發(fā)音過程,但就其語音可懂度而言,還難以達(dá)到理想效果,除極少數(shù)專家以外,人們很難直接通過觀察發(fā)音器官的運(yùn)動(dòng)和面部表情的變化而準(zhǔn)確地感知語
曰
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種簡單便于記憶且高魯棒性的基于組合特征的語音可視化方法,通過該方法可幫助聾啞人進(jìn)行語言訓(xùn)練,建立、完善聽覺認(rèn)知、形成正確的言語反射,重建聽覺言語鏈,可以最大可能的恢復(fù)自身的語音功能。本發(fā)明的技術(shù)解決方案是
一種基于組合特征的漢語聲韻母可視化方法,包括以下步驟
I、語音信號(hào)預(yù)處理通過麥克風(fēng)輸入語音信號(hào),由處理單元采樣量化后獲得相應(yīng)語音數(shù)據(jù),然后進(jìn)行預(yù)加重、分幀加窗和端點(diǎn)檢測(cè);
2、特征提取
(2. I)計(jì)算出預(yù)處理后的語音信號(hào)的幀數(shù)作為其音長特征;
(2. 2)采用頻域峰值幅度大小和平均幅度大小的ー種對(duì)比關(guān)系表示諧振強(qiáng)度特征,對(duì)于分巾貞后的語音信號(hào),姆巾貞語音信號(hào)的諧振強(qiáng)度為
權(quán)利要求
1. 一種基于組合特征的漢語聲韻母可視化方法,其特征是 1.1、語音信號(hào)預(yù)處理 通過麥克風(fēng)輸入語音信號(hào),由處理單元采樣量化后獲得相應(yīng)語音數(shù)據(jù),然后進(jìn)行預(yù)加重、分幀加窗和端點(diǎn)檢測(cè); I. 2、特征提取 (a)計(jì)算出預(yù)處理后的語音信號(hào)的幀數(shù)作為其音長特征; (b)采用頻域峰值幅度大小和平均幅度大小的一種對(duì)比關(guān)系表示諧振強(qiáng)度特征,對(duì)于分幀后的語音信號(hào),每幀語音信號(hào)的諧振強(qiáng)度為
2.根據(jù)權(quán)利要求I所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述圖像合成時(shí),先獲得寬度信息和長度信息確定圖像大小,然后在圖像位置添加主顏色信息,最后用圖案信息置換相應(yīng)位置的主顏色信息,獲得相應(yīng)的語音圖像。
3.根據(jù)權(quán)利要求I所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述語音信號(hào)預(yù)處理時(shí),采樣量化由處理單元以11.025kHz的采樣頻率、16bit的量化精度進(jìn)行;預(yù)加重是通過一階數(shù)字預(yù)加重濾波器實(shí)現(xiàn),其預(yù)加重濾波器的系數(shù)取值為O. 93-0. 97 ;分幀加窗是以幀長256點(diǎn)的標(biāo)準(zhǔn)進(jìn)行,并對(duì)分幀后的數(shù)據(jù)加漢明窗處理,端點(diǎn)檢測(cè)是利用短時(shí)能零積法進(jìn)行。
4.根據(jù)權(quán)利要求I或2所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述圖像寬度信息=音長特征乂 k, k的取值以使顯示的圖像最利于觀察者觀察識(shí)別為原則。
5.根據(jù)權(quán)利要求I或2所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述圖像長度信息=各幀諧振強(qiáng)度特征平均值X r,r的取值以使顯示的圖像最利于觀察者觀察識(shí)別為原則。
6.根據(jù)權(quán)利要求I所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述聲母圖像的圖案為白色質(zhì)地,所述韻母圖像的圖案為黑色質(zhì)地。
7.根據(jù)權(quán)利要求I所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述采用頻域峰值幅度大小和平均幅度大小的對(duì)比關(guān)系表示諧振強(qiáng)度特征時(shí),以256個(gè)點(diǎn)為一幀。
全文摘要
一種基于組合特征的漢語聲韻母可視化方法,步驟為語音信號(hào)預(yù)處理;計(jì)算出預(yù)處理后語音信號(hào)的幀數(shù)作為其音長特征,采用頻域峰值幅度大小和平均幅度大小的對(duì)比關(guān)系表示諧振強(qiáng)度特征,得到每幀信號(hào)的共振峰特征值,計(jì)算出魯棒特征參數(shù)WPTC1~WPTC20和PMUSIC-MFCC1~PMUSIC-MFCC12;采用音長特征和諧振強(qiáng)度特征分別對(duì)圖像寬度信息和圖像長度信息進(jìn)行編碼;采用共振峰特征對(duì)主顏色信息進(jìn)行編碼;所述32個(gè)特征參數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸出即為相應(yīng)的圖案信息,依次對(duì)應(yīng)著23個(gè)聲母和24個(gè)韻母;把寬度、長度、主顏色與圖案信息融合在一幅圖像中在顯示屏上顯示。優(yōu)點(diǎn)是可幫助聾啞人進(jìn)行語言訓(xùn)練,建立、完善聽覺認(rèn)知,形成正確的言語反射,恢復(fù)自身的語音功能。
文檔編號(hào)G10L21/06GK102820037SQ201210252989
公開日2012年12月12日 申請(qǐng)日期2012年7月21日 優(yōu)先權(quán)日2012年7月21日
發(fā)明者韓志艷, 倫淑嫻, 王健, 于忠黨, 郭艷東, 尹作友, 郭兆正, 王巍, 韓建群, 蘇憲利 申請(qǐng)人:渤海大學(xué)