欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于音素的語音識別方法與系統(tǒng)的制作方法

文檔序號:2823565閱讀:502來源:國知局
專利名稱:基于音素的語音識別方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)語音識別技術(shù)領(lǐng)域,具體涉及基于音素的語音識別方法與系統(tǒng)。
背景技術(shù)
序列的快速傅里葉變換-FFT是離散時(shí)間信號分析與處理的最重要的工具之一。若信號是有限長的序列,直接對序列進(jìn)行FFT運(yùn)算即可求得序列的頻譜。對于模擬信號,用FFT進(jìn)行頻譜分析時(shí),首先必須對信號進(jìn)行采樣,使之變成離散信號。按采樣定理,采樣頻率fs應(yīng)大于二倍信號的最高頻率。根據(jù)數(shù)字頻率與模擬頻率的關(guān)系,可以求得用N點(diǎn)FFT進(jìn)行頻譜分析時(shí),其模擬頻率分辨率為ΔF=fs/N --------------------------------------(1)因此,為了保證指定的頻率分辨率ΔF,要求用于FFT的點(diǎn)數(shù)N≥fs/ΔF --------------------------------------(2)當(dāng)采用基-2FFT算法時(shí),還要求N為2的整數(shù)冪。每條譜線代表的頻率刻度值為fk=fs×k/N k=0,1,2,3......N/2------------(3)由公式(2)可知,在采樣頻率固定時(shí),要得到高頻率分辨率,用于FFT計(jì)算的點(diǎn)數(shù)N必須足夠大,但在連續(xù)語音中,有的音素、如漢語中的多元音,其中的過渡音的持續(xù)時(shí)間是很短的,僅幾毫秒,直接對幾毫秒的信號作頻譜變換,頻率分辨率是很低的,由此得到的頻譜數(shù)據(jù)所構(gòu)成的語音識別特征不精確,將導(dǎo)致語音識別結(jié)果不確定。
語音信號是非穩(wěn)定信號,簡單的FFT變換不能反映語音信號的變化特征,現(xiàn)在廣泛使用短時(shí)傅里葉變換算法(STFT),對滑動窗下的波形逐幀地做傅里葉變換,由此而得到語譜圖。按滑動窗的長度不同又分為窄帶語譜圖和寬帶語譜圖。對于窄帶語譜圖,滑動窗長度通常大于兩個(gè)基音周期,窄帶語譜圖具有較好的頻率分辨率,體現(xiàn)在它能區(qū)分各次諧波譜線,然而,包含了數(shù)個(gè)周期的長窗使得語譜圖無法顯示頻率在時(shí)域上的變化,當(dāng)所包含的信號頻譜變化較大時(shí),語譜圖變得雜亂無章,無法判別。而對于寬帶語譜圖,滑動窗長度通常小于一個(gè)基音周期,而縮短窗長會展寬短時(shí)傅里葉變換的頻譜分辨率,從而淹沒了諧波譜線的結(jié)構(gòu),只能大致描繪出頻譜的包絡(luò)。而且,由于滑動窗長度小于一個(gè)基音周期,所描繪的頻譜存在泄露現(xiàn)象,從而導(dǎo)致所繪制的頻譜圖不真實(shí)。
由于語音信號頻率、相位和幅度在時(shí)域中都是不穩(wěn)定的,而傅里葉變換本身的時(shí)間分辨率為零,它掩蓋了信號頻譜的變化,而頻譜變化是語音變化的必然結(jié)果。短時(shí)傅里葉變換雖然具有一定的時(shí)間分辨率,但在語音信號頻譜的分析中作用并不顯著,這是因?yàn)樗念l率和時(shí)間分辨率還不夠高,語譜圖的作用非常有限,甚至傳遞的信息給人以錯(cuò)誤認(rèn)識,以至于時(shí)至今日還無法統(tǒng)一人們對語音的產(chǎn)生和知覺的認(rèn)識。語譜圖雖有看得見的聲音之稱,但只有經(jīng)過長期訓(xùn)練的專業(yè)人士才能從語譜圖中分析出語音的含義,且準(zhǔn)確度也并非100%。雖然語音識別過程中無需使用語譜圖,但在語音識別系統(tǒng)的開發(fā)過程中,語譜圖直觀的效果對于正確構(gòu)建識別特征的標(biāo)準(zhǔn)模板是很有幫助的。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,信號處理技術(shù)的日益進(jìn)步,語音輸入、語音識別產(chǎn)品的性能越來越好,使用范圍越來越廣泛,但由于一些關(guān)鍵性的技術(shù)問題沒有解決,現(xiàn)有語音識別產(chǎn)品還存在這樣或那樣的缺點(diǎn)。
申請?zhí)枮?7111623.7的中國發(fā)明專利公開了一種語音識別計(jì)算機(jī)模塊及基于音素的數(shù)字語音信號變換方法,所述音素特征提取方法為將數(shù)字語音信號劃分為任意數(shù)量的數(shù)字語音信號節(jié),將音素劃分為任意數(shù)量的片段,并給音素各分配一個(gè)描述各個(gè)音素或音素片段特性的音素特征向量,比較語音信號節(jié)與數(shù)字化單詞語音特征向量二者的相似性,從而識別語音。該方案對清音和濁音采用相同的處理方法,對語音信號節(jié)和音素片段的劃分依據(jù)不明確,不可能獲得理想的識別率。此外,國際商業(yè)機(jī)器公司在申請?zhí)枮?00410058687.0的中國發(fā)明專利申請中介紹了一種語音識別系統(tǒng)。該系統(tǒng)中用對數(shù)-線性模型對與語音識別有關(guān)的語音單元的后驗(yàn)概率進(jìn)行建模。該后驗(yàn)?zāi)P驮诮o定了觀測到的語音特征和后驗(yàn)?zāi)P偷膮?shù)的前提下獲取語音單元的概率。可以在給定了多個(gè)語音特征的前提下用單詞序列假設(shè)的概率確定所述后驗(yàn)?zāi)P汀6源思夹g(shù)為基礎(chǔ)的連續(xù)語音識別系統(tǒng)具有如下缺點(diǎn)1、要求說話人發(fā)音非常標(biāo)準(zhǔn);2、要求識別環(huán)境非常安靜,環(huán)境噪聲?。?、音素、孤立字、詞識別率不高或無法識別;4、識別率與話題相關(guān),即與模板庫的內(nèi)容相關(guān),對模板中沒有的字詞無法識別;5、要求識別系統(tǒng)建立大容量的識別模板庫,6、重復(fù)性很差,同樣的一句話,若不能正確識別時(shí),多次的識別結(jié)果不一樣。以上缺陷的存在,說明所建模板適應(yīng)性差,所提取的語音識別特征不穩(wěn)定。產(chǎn)品雖上市多年,但一直沒能推廣,當(dāng)然更談不上普及。
現(xiàn)有的連續(xù)語音識別系統(tǒng)采用清音與濁音混合識別,以固定的時(shí)長對語音信號采樣,提取語音識別特征,因?yàn)闊o法保證每次采樣針對的是單一音素,所提取的識別特征穩(wěn)定性差,識別效果很不理想。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于提供一種可以克服上述現(xiàn)有技術(shù)缺點(diǎn)的語音識別方法和系統(tǒng),對識別環(huán)境要求低,對發(fā)音人要求低,具有識別率高、既可識別孤立字、詞,又能識別連續(xù)語音,識別結(jié)果可再現(xiàn)等優(yōu)點(diǎn)。
本發(fā)明上述技術(shù)問題這樣解決,構(gòu)造一種基于音素的語音識別方法,其特征在于,包括以下步驟A)將模擬語音信號轉(zhuǎn)換為數(shù)字語音信號;B)檢測數(shù)字語音信號短時(shí)過零率,如果短時(shí)過零率小于設(shè)定值則判定為濁音,進(jìn)行濁音預(yù)處理,如果短時(shí)過零率高于設(shè)定值,則進(jìn)行清音預(yù)處理;C)對經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行頻譜變換,提取特征;D)對提取出的特征數(shù)據(jù)進(jìn)行分析;E)根據(jù)分析結(jié)果輸出音素序列。
在上述按照本發(fā)明基于音素的語音識別方法中,所述濁音預(yù)處理包括以下步驟F1)測定基音信號的頻率和幅度;F2)通過分段裝置將濁音信號按先后順序分解成大小等于基音周期的互不相干的段,信號基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零;F3)由時(shí)域延拓裝置對段數(shù)據(jù)進(jìn)行時(shí)域周期性復(fù)制,將單周期信號變成多周期信號。
在上述按照本發(fā)明基于音素的語音識別方法中,所述清音預(yù)處理包括以下步驟G1)設(shè)定清音起始、結(jié)束幅度;G2)檢測爆破音的起點(diǎn)、終點(diǎn);G3)檢測清音持續(xù)時(shí)間。
在上述按照本發(fā)明基于音素的語音識別方法中,所述步驟C)包括以下步驟至少提取以下語音識別特征中的1種或2種頻譜特征、頻譜變化特征、倒譜、線性預(yù)測系數(shù)、共振峰、音素持續(xù)時(shí)間。
在上述按照本發(fā)明基于音素的語音識別方法中,所述步驟D)包括以下步驟D1)總結(jié)各頻率成份的幅度在時(shí)間上的分布、變化規(guī)律及其在語音中的意義;D2)將具有相同或相近特征的頻譜歸類,形成個(gè)性模板;D3)根據(jù)系統(tǒng)要求設(shè)定模板比對的相似值,高的相似值適用于說話人的識別、指令輸入,而低的相似值用于語音與文本的轉(zhuǎn)換;在上述按照本發(fā)明基于音素的語音識別方法中,所述步驟E)包括以下步驟將識別特征與語音數(shù)據(jù)庫中指定語種或方言的音素模板進(jìn)行對比,確定音素名稱。
在上述按照本發(fā)明基于音素的語音識別方法中,所述步驟F1)測定基音信號的頻率和幅度,是采用以下基頻提取方法之一實(shí)現(xiàn)的自相關(guān)函數(shù)法、線性預(yù)測法、倒頻譜法、基于“梳狀濾波裝置”的基音估計(jì)方法、基于諧波正弦波模型的基音估計(jì)方法。
在上述按照本發(fā)明基于音素的語音識別方法中,所述根據(jù)分析結(jié)果輸出音素序列的步驟E)后,還包括將音素序列轉(zhuǎn)換成文本或指令的步驟。
本發(fā)明另一技術(shù)問題這樣解決,構(gòu)造一種基于音素的語音識別系統(tǒng),包括用于將模擬語音信號轉(zhuǎn)換為數(shù)字語音信號的語音輸入裝置;用于檢測語音輸入裝置提供的數(shù)字語音信號短時(shí)過零率的清濁音識別裝置,檢測到短時(shí)過零率小于設(shè)定值則將數(shù)字語音信號輸出到濁音預(yù)處理裝置,檢測到短時(shí)過零率高于設(shè)定值則將數(shù)字語音信號輸出到清音預(yù)處理裝置;對由清音預(yù)處理裝置和濁音預(yù)處理裝置提供的數(shù)據(jù)進(jìn)行頻譜變換并對變換結(jié)果進(jìn)行分析、提取特征的特征提取裝置;對特征提取裝置提取出的特征數(shù)據(jù)進(jìn)行分析的特征分析裝置;語音存儲裝置以及根據(jù)特征分析裝置輸出的分析結(jié)果檢索語音存儲裝置輸出音素序列的音素序列輸出裝置。將音素轉(zhuǎn)換為文本或指令的裝置。
在上述按照本發(fā)明提供的基于音素的語音識別的系統(tǒng)中,所述濁音預(yù)處理裝置包括以下模塊測定基音信號的頻率和幅度的模塊;通過分段裝置將濁音信號按先后順序分解成大小等于基音周期的互不相干的段,信號基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零的模塊,以及由時(shí)域延拓裝置對段數(shù)據(jù)進(jìn)行時(shí)域周期性復(fù)制,將單周期信號變成多周期信號的模塊;所述清音預(yù)處理裝置包括以下模塊設(shè)定清音起始和結(jié)束幅度的模塊、檢測爆破音的起點(diǎn)、終點(diǎn)的模塊;以及檢測清音持續(xù)時(shí)間的模塊。
實(shí)施本發(fā)明提供的語音識別方法和系統(tǒng),可以針對語音信號的特點(diǎn),對清音和濁音采用不同的處理方法,特別是對濁音音素以單基音周期頻譜特征建模,解決了現(xiàn)有語音輸入識別系統(tǒng)的不足。具有識別效率高、精度高和穩(wěn)定性高等優(yōu)點(diǎn)


圖1為按照本發(fā)明的基于音素的語音識別系統(tǒng)實(shí)施例的邏輯方框圖;圖2為本發(fā)明的濁音預(yù)處理裝置的邏輯框圖;圖3為實(shí)現(xiàn)本發(fā)明的基于音素的語音識別方法的流程示意圖;圖4A為信號分段示意中標(biāo)示為S1-語音信號 S2-基音信號ST1_ST4-段信號T1_T4-基音周期圖4B為ST1時(shí)域延拓信號波形4C為ST2時(shí)域延拓信號波形4D為ST3時(shí)域延拓信號波形4E為ST4時(shí)域延拓信號波形5為ST1時(shí)域延拓信號頻譜6為ST2時(shí)域延拓信號頻譜7為ST3時(shí)域延拓信號頻譜8為ST4時(shí)域延拓信號頻譜9為一中年男性漢語元音[a]去聲波形10為一中年男性漢語元音[a]去聲時(shí)域延拓語譜11為一中年男性漢語元音[a]去聲窄帶語譜圖具體實(shí)施方式
按照本發(fā)明,在語音信號中,音素(phoneme)是人的聽覺可區(qū)分的基本單元。依據(jù)發(fā)音時(shí)聲帶是否振動,可把音素分為濁音和清音。發(fā)清音時(shí)聲帶不振動,清音的頻譜中在400Hz以下的低頻區(qū)沒有能量集中的頻點(diǎn),可以說清音沒有基頻,其波形類似于噪波,穩(wěn)定性很差,周期性很差,其短時(shí)過零率高。與清音不同,發(fā)濁音時(shí)聲帶會振動,音量較清音大,傳播距離遠(yuǎn),日常會話時(shí),濁音的頻譜中在60-400Hz的低頻區(qū)有能量集中的頻點(diǎn),,最低的頻率稱為基頻,也叫基音。唱歌時(shí),基頻有可能超過400Hz。濁音短時(shí)過零率普遍低于清音。
由于清音與濁音短時(shí)過零率不同,二者較易區(qū)分,清音幅度一般較濁音低,大多數(shù)清音的持續(xù)時(shí)間長短影響清音的音義。所以,為了有效地識別語音信號,減少模板比對的次數(shù),有必要先對清音和濁音加以識別,依據(jù)清音、濁音的特點(diǎn),采取相應(yīng)的技術(shù)處理。
圖1給出了本發(fā)明基于音素的語音識別系統(tǒng)的一個(gè)實(shí)施例,圖中各部分功能可由軟件和(或)硬件實(shí)現(xiàn)。其中語音輸入裝置107,用于將聲波轉(zhuǎn)換為電模擬信號,并將電模擬信號轉(zhuǎn)換為數(shù)字信號。清音濁音識別裝置101,用于檢測語音信號短時(shí)過零率,短時(shí)過零率小于設(shè)定值判定為濁音,為濁音時(shí)將信號輸出到濁音處理裝置102作濁音預(yù)處理,反之則判為清音,為清音時(shí)將信號輸出到清音處理裝置103作清音預(yù)處理。特征提取裝置104,用于提取多個(gè)語音識別特征,包括頻譜、倒譜、線性預(yù)測系數(shù)、共振峰、持續(xù)時(shí)間等,其中以頻譜特征和音素持續(xù)時(shí)間最為重要。而特征分析裝置105,用于總結(jié)各頻率成份的幅度在時(shí)間上的分布、變化規(guī)律及其在語音中的意義,將具有相同或相近特征的頻譜歸類,形成個(gè)性模板;根據(jù)系統(tǒng)要求設(shè)定模板比對的相似值,高的相似值適用于說話人的識別、指令輸入,而低的相似值用于語音與文本的轉(zhuǎn)換;最后,將識別特征與指定語種或方言的音素模板對比確定音素名稱。語音存儲裝置106用于以數(shù)據(jù)庫形式存儲多語種、多種方言的不同性別、不同年齡組音素模板及相關(guān)數(shù)據(jù),同時(shí)提供用戶個(gè)性模板存儲空間。音素序列輸出裝置108,用于將識別結(jié)果發(fā)送到音素序列與文本、指令的轉(zhuǎn)換系統(tǒng)。如漢語全拼輸入法,雙拼輸入法等可將音素轉(zhuǎn)換成文本,其它語言,如日語,韓語也有相似的輸入法可將音素變換為文本。事實(shí)上,只要建立了音素與文字、字母、單詞的對應(yīng)關(guān)系,任何語言都可實(shí)現(xiàn)音素與文本的轉(zhuǎn)換。
如圖2所示,圖1中的濁音處理裝置102在圖2中由一個(gè)用于測定基音信號頻率與幅度的基頻分析裝置201,將濁音信號分段的信號分段裝置202,一個(gè)時(shí)域延拓即對段數(shù)據(jù)進(jìn)行時(shí)域周期復(fù)制的裝置203以及暫存模塊204組成。工作中,濁音信號經(jīng)過基頻分析裝置201,測定出基音信號的頻率和幅度?;纛l率是采用以下基頻提取方法之一實(shí)現(xiàn)的,自相關(guān)函數(shù)法、線性預(yù)測(LPC)法、倒頻譜法、及基于“梳狀濾波裝置”的基音估計(jì)、基于諧波正弦波模型的基音估計(jì)方法。濁音信號在分段裝置202中被按先后順序分解成大小等于基音周期的互不相干的段,信號基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零。經(jīng)分段的信號由時(shí)域延拓裝置203以段為單位在時(shí)域周期性復(fù)制,將單周期信號變成多周期信號。
圖1中的清音預(yù)處理裝置103,其作用包括設(shè)定清音起始、結(jié)束幅度參數(shù),檢測爆破音的起點(diǎn)、終點(diǎn),檢測清音持續(xù)時(shí)間。
圖3給出了實(shí)現(xiàn)本發(fā)明基于音素的語音識別方法的流程圖。如圖所示,流程始于步驟301,控制過程前進(jìn)到302,其中輸入未知的數(shù)字化離散語音信號。下一步,在步驟303,檢測語音信號短時(shí)過零率,短時(shí)過零率小于設(shè)定值時(shí)判斷為濁音,反之為清音。如判斷為濁音進(jìn)入步驟304進(jìn)行濁音預(yù)處理,在步驟304,通過采用下述基頻提取方法之一,包括自相關(guān)函數(shù)法、線性預(yù)測(LPC)法、倒頻譜法、及基于“梳狀濾波裝置”的基音估計(jì)、基于諧波正弦波模型的基音估計(jì)方法,測定濁音信號基頻。在步驟304,已知基頻的濁音信號被按先后順序分解成大小等于基音周期的互不相干的段,信號基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零,劃分成段的信號最后被以段為單位時(shí)域延拓為周期信號;清音被送到步驟305,在步驟305,清音信號經(jīng)起始、結(jié)束幅度,爆破音起點(diǎn)、終點(diǎn),清音持續(xù)時(shí)間檢測后,進(jìn)入步驟306,在步驟306多種語音識別特征被提取,其中主要是頻譜特征、頻譜變化特征、音素持續(xù)時(shí)間等。在步驟307,所提取的多個(gè)識別特征,包括在步驟304、305所檢測的識別特征數(shù)據(jù),被用于與模板比對,語音信號的音素序列得以確定。然后過程前進(jìn)到308,在這里輸出音素序列。
最后,過程前進(jìn)到步驟309,過程結(jié)束。
上面對本發(fā)明的描述是用于說明的目的,而不是要將本發(fā)明限制在上述具體形式。實(shí)施時(shí),上述內(nèi)容的修改和變動是難免的,因此,這里所公開的實(shí)施例只是為了更好地解釋本發(fā)明的原理,以便本領(lǐng)域的普通技術(shù)人員能針對各自具體的工程需要作出各種修改,使本發(fā)明得到最佳的利用和實(shí)施。
效果分析如圖4A所示的信號S1是原始信號波形,信號S2是信號S1經(jīng)窄帶低頻濾波放大獲得的信號基波波形,根據(jù)信號S1和信號S2的對應(yīng)關(guān)系,以信號過零處作為信號的截取點(diǎn),一個(gè)基波周期截成一段,將信號S1按基音周期T1、T2、T3、T4......劃分為ST1、ST2、ST3、ST4......段,4段相加總采樣點(diǎn)數(shù)N為100。信號的采樣頻率為8000Hz,根據(jù)公式(1)可算出100個(gè)樣點(diǎn)的頻率分辨率為80Hz,但100個(gè)樣點(diǎn)包含了4個(gè)基音周期的信號,而且每個(gè)周期的信號都各不相同,為了全面準(zhǔn)確了解信號頻譜變化,應(yīng)按基頻周期計(jì)算信號頻譜。ST2為25個(gè)樣點(diǎn),如直接用這25個(gè)樣點(diǎn)做FFT,頻率分辨率將高達(dá)320Hz,這顯然不能滿足頻譜分析的需要。將段信號ST1、ST2、ST3、ST4在時(shí)域延拓,分別得到波形如圖4B、4C、4D、4E所示的周期信號。分別對延拓后的信號作1024點(diǎn)FFT變換,所得頻譜圖如圖5、6、7、8示,此時(shí)頻譜分辨率為7.8Hz,比原來提高了40倍,對比各圖中頻譜參數(shù),可發(fā)現(xiàn)各周期信號的頻譜異同點(diǎn)。由此可見,通過將一個(gè)基頻周期的信號在時(shí)域延拓,可以獲得信號的短時(shí)高精度頻譜,采用此方法制作的頻譜圖具有極高的頻率分辨率。
在語音中,濁音頻譜的變化是非常大的,即使是兩個(gè)相鄰的基音周期,頻譜也有差別,特別是高次諧波有差別,采用常規(guī)的FFT無法獲得濁音的準(zhǔn)確頻譜,采用時(shí)域基頻周期延拓的方法計(jì)算濁音頻譜,具有很多優(yōu)點(diǎn)。1、由于計(jì)算頻譜的樣本很小,僅一個(gè)基音周期,可提高頻譜變換的時(shí)間分辨力;2、時(shí)域延拓增大了FFT點(diǎn)數(shù),大大提高了頻譜變換的頻率分辨率;3、可排除濁音幅度變化、持續(xù)時(shí)間變化對音素識別的干擾;4、可排除相鄰音素、相鄰周期對頻譜的干擾,保障了頻譜的純度,也就提高了頻譜的可信度;5、只需一個(gè)基頻周期的信號即可計(jì)算出濁音的精確頻譜,依據(jù)頻譜特征和信號持續(xù)時(shí)間即可確定音素名稱,而無需參照相鄰的音素,從而做到快速識別,識別結(jié)果與上下文無關(guān)。如果一個(gè)濁音持續(xù)時(shí)間有數(shù)個(gè)基音周期,對每個(gè)基音周期都作頻譜分析,作音素判別,這樣,一個(gè)濁音素的識別是經(jīng)多次判斷完成,也就提高了識別的可靠性。
不同音素的信號會對相鄰、甚至相隔的音素信號的頻譜產(chǎn)生干擾,所以有必要對音素進(jìn)行隔離,防止音素的相互干擾,以保證每次頻譜變換的樣點(diǎn)為單一音素,由于采取了清音與濁音的隔離措施,排除了高能量的濁音信號對清音信號頻譜的干擾,增加了清音持續(xù)時(shí)間作為識別特征之一,清音音素的識別特征明顯,識別結(jié)果可靠。
如圖9示為一中年男性漢語拼音元音[a]的去聲信號波形圖,圖10為采用基頻時(shí)域延拓得到的語譜圖。由圖10可以看出該語音信號是由基音和諧音構(gòu)成的;基音頻率的變化引起諧音頻率變化,諧波次數(shù)越高頻率變化越大;頻率在1350Hz以下的諧波幅度較高;基音強(qiáng)度變化較小。圖11為該信號的窄帶語譜圖。兩圖對比,可明顯看出時(shí)域延拓語譜圖的優(yōu)越性。
在連續(xù)語音中,由于單個(gè)音素的持續(xù)時(shí)間太短,拆開試聽時(shí)人耳無法識別,只有連續(xù)傾聽才能識別,所以,人的語音識別是以上下文綜合為基礎(chǔ)的。但計(jì)算機(jī)擁有人腦無可比擬的運(yùn)算速度,利用傅里葉頻譜變換,通過時(shí)域延拓的辦法計(jì)算濁音精確頻譜,通過清音、濁音分離,計(jì)算清音頻譜和持續(xù)時(shí)間,對于連續(xù)語音中的單個(gè)音素,是完全可以準(zhǔn)確識別的,無需參考音素出現(xiàn)的概率。因?yàn)橐羲氐臄?shù)量少,清音和濁音不會混淆,有的音素之間存在非常顯著的頻譜差別,模板比對時(shí)不可能出錯(cuò),只有少數(shù)的幾個(gè)濁音素頻譜相近,但求得信號的精確頻譜后也是很容易識別的,所以,基于音素的語音識別系統(tǒng)可靠性高,所需模板庫的容量小,可大大降低語音識別系統(tǒng)成本,大大提高識別準(zhǔn)確性。
權(quán)利要求
1.一種基于音素的語音識別方法,其特征在于,包括以下步驟A)將模擬語音信號轉(zhuǎn)換為數(shù)字語音信號;B)檢測數(shù)字語音信號短時(shí)過零率,如果短時(shí)過零率小于設(shè)定值則判定為濁音,進(jìn)行濁音預(yù)處理,如果短時(shí)過零率高于設(shè)定值,則進(jìn)行清音預(yù)處理;C)對經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行頻譜變換,提取特征;D)對提取出的特征數(shù)據(jù)進(jìn)行分析;E)根據(jù)分析結(jié)果輸出音素序列。
2.根據(jù)權(quán)利要求1所述方法,其特征在于,所述濁音預(yù)處理包括以下步驟F1)測定基音信號的頻率和幅度;F2)通過分段裝置將濁音信號按先后順序分解成大小等于基音周期的互不相干的段,信號基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零;F3)由時(shí)域延拓裝置對段數(shù)據(jù)進(jìn)行時(shí)域周期性復(fù)制,將單周期信號變成多周期信號。
3.根據(jù)權(quán)利要求1所述方法,其特征在于,所述清音預(yù)處理包括以下步驟G1)設(shè)定清音起始、結(jié)束幅度;G2)檢測爆破音的起點(diǎn)、終點(diǎn);G3)檢測清音持續(xù)時(shí)間。
4.根據(jù)權(quán)利要求1所述方法,其特征在于,所述步驟C)包括以下步驟至少提取以下語音識別特征中的1種或2種頻譜特征、頻譜變化特征、倒譜、線性預(yù)測系數(shù)、共振峰、音素持續(xù)時(shí)間。
5.根據(jù)權(quán)利要求1所述方法,其特征在于,所述步驟D)包括以下步驟D1)總結(jié)各頻率成份的幅度在時(shí)間上的分布、變化規(guī)律及其在語音中的意義;D2)將具有相同或相近特征的頻譜歸類,形成個(gè)性模板;D3)根據(jù)系統(tǒng)要求設(shè)定模板比對的相似值,高的相似值適用于說話人的識別、指令輸入,而低的相似值用于語音與文本的轉(zhuǎn)換。
6.根據(jù)權(quán)利要求1所述方法,其特征在于,所述步驟E)包括以下步驟將識別特征與語音數(shù)據(jù)庫中指定語種或方言的音素模板進(jìn)行對比,確定音素名稱。
7.根據(jù)權(quán)利要求1所述方法,其特征在于,所述步驟F1)測定基音信號的頻率和幅度,是采用以下基頻提取方法之一實(shí)現(xiàn)的自相關(guān)函數(shù)法、線性預(yù)測法、倒頻譜法、基于“梳狀濾波裝置”的基音估計(jì)方法、基于諧波正弦波模型的基音估計(jì)方法。
8.根據(jù)權(quán)利要求1所述方法,其特征在于,所述根據(jù)分析結(jié)果輸出音素序列的步驟E)后,還包括將音素序列轉(zhuǎn)換成文本或指令的步驟。
9.一種基于音素的語音識別系統(tǒng),其特征在于,包括用于將模擬語音信號轉(zhuǎn)換為數(shù)字語音信號的語音輸入裝置;用于檢測語音輸入裝置提供的數(shù)字語音信號短時(shí)過零率的清濁音識別裝置,檢測到短時(shí)過零率小于設(shè)定值則將數(shù)字語音信號輸出到濁音預(yù)處理裝置,檢測到短時(shí)過零率高于設(shè)定值則將數(shù)字語音信號輸出到清音預(yù)處理裝置;對由清音預(yù)處理裝置和濁音預(yù)處理裝置提供的數(shù)據(jù)進(jìn)行頻譜變換,提取特征的特征提取裝置;對特征提取裝置提取出的特征數(shù)據(jù)進(jìn)行分析的特征分析裝置;語音存儲裝置以及根據(jù)特征分析裝置輸出的分析結(jié)果檢索語音存儲裝置輸出音素序列的音素序列輸出裝置。將音素序列轉(zhuǎn)換為文本或指令的裝置。
10.根據(jù)權(quán)利要求9所述系統(tǒng),其特征在于,所述濁音預(yù)處理裝置包括以下模塊測定基音信號的頻率和幅度的模塊;將濁音信號按先后順序分解成大小等于基音周期的互不相干的段,信號基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零的數(shù)據(jù)分段模塊,以及對段數(shù)據(jù)進(jìn)行時(shí)域周期性復(fù)制,將單周期信號變成多周期信號的時(shí)域延拓模塊;所述清音預(yù)處理裝置包括以下模塊設(shè)定清音起始和結(jié)束幅度的模塊、檢測爆破音的起點(diǎn)、終點(diǎn)的模塊;以及檢測清音持續(xù)時(shí)間的模塊。
全文摘要
一種基于音素的語音識別方法及系統(tǒng),包括以下環(huán)節(jié)A)將模擬語音信號轉(zhuǎn)換為數(shù)字語音信號;B)檢測數(shù)字語音信號短時(shí)過零率,如果短時(shí)過零率小于設(shè)定值則判定為濁音,進(jìn)行濁音預(yù)處理,如果短時(shí)過零率高于設(shè)定值,則進(jìn)行清音預(yù)處理;C)對經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行頻譜變換,提取特征;D)對提取出的特征數(shù)據(jù)進(jìn)行分析;E)根據(jù)分析結(jié)果輸出音素序列。實(shí)施本發(fā)明提供的語音識別方法和系統(tǒng),可以針對語音信號的特點(diǎn),對清音和濁音采用不同的處理方法,特別是對濁音音素以單基音周期頻譜特征建模,解決了現(xiàn)有語音輸入識別系統(tǒng)的不足。具有識別效率高、精度高和穩(wěn)定性高等優(yōu)點(diǎn)。
文檔編號G10L15/00GK1991976SQ200510121499
公開日2007年7月4日 申請日期2005年12月31日 優(yōu)先權(quán)日2005年12月31日
發(fā)明者潘建強(qiáng) 申請人:潘建強(qiáng)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
胶南市| 农安县| 唐山市| 丰台区| 宜良县| 许昌市| 德惠市| 利津县| 施秉县| 顺义区| 固原市| 崇文区| 疏勒县| 鄯善县| 文登市| 郑州市| 磐石市| 嘉峪关市| 互助| 孝感市| 晋中市| 常德市| 托里县| 开封县| 方正县| 孝昌县| 巧家县| 凤凰县| 平南县| 海晏县| 潜江市| 抚顺市| 耿马| 白山市| 安龙县| 牡丹江市| 隆尧县| 尤溪县| 莱芜市| 那曲县| 平阳县|