語音識別的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語音識別技術(shù)領(lǐng)域,特別是涉及一種嵌入式語音識別的方法及系統(tǒng)。
【背景技術(shù)】
[0002] 語音識別是通過用機器識別用戶聲音命令來實現(xiàn)人機交互的關(guān)鍵技術(shù),其可以顯 著改進人機交互的方式以使得用戶可以在說出命令的同時完成更多任務(wù)。語音識別是通過 在線或離線訓(xùn)練得到的語音識別引擎來實現(xiàn)的。語音識別過程通常可以分為訓(xùn)練階段和識 別階段。在訓(xùn)練階段中,根據(jù)語音識別引擎所基于的數(shù)學(xué)模型,從訓(xùn)練數(shù)據(jù)中統(tǒng)計地得到聲 學(xué)模型(acoustic model,AM)和詞匯表(lexicon)。在識別階段中,語音識別引擎使用聲 學(xué)模型和詞匯表對輸入的語音進行處理,得到語音識別結(jié)果。例如,從輸入聲音的聲波圖進 行特征提取以獲得特征向量,然后根據(jù)聲學(xué)模型得到音素(如[i],[0]等)序列,最后從詞 匯表中定位與音素序列匹配度較高的單詞,甚至是句子。
[0003] 然而,現(xiàn)有的語音識別技術(shù)在識別過程中,由于語音識別系統(tǒng)的適應(yīng)性差,且對環(huán) 境依賴性強,要求測試條件和訓(xùn)練條件必須保持一直,否則系統(tǒng)性能會會大大下降;或者, 高噪聲環(huán)境下識別困難,特別是車載條件下,人的發(fā)音變化大,像發(fā)音失真、發(fā)音速度和音 調(diào)的改變因,導(dǎo)致語音識別的效率低下;或者,端點檢測不確定性,即使在安靜環(huán)境下,語音 識別系統(tǒng)一般以上的識別錯誤來自錯誤的端點檢測,造成轉(zhuǎn)化存在大量的問題。
【發(fā)明內(nèi)容】
[0004] 鑒于以上所述現(xiàn)有技術(shù)的缺點,本發(fā)明的目的在于提供一種語音識別的方法及系 統(tǒng),用于解決現(xiàn)有語音識別的方法適應(yīng)性差、對環(huán)境依賴性強和端點檢測不確定性,導(dǎo)致解 碼效率低的問題。
[0005] 為實現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明提供一種語音識別的方法,包括:
[0006] 獲取語音信號;
[0007] 將所述語音信號進行模數(shù)轉(zhuǎn)換,生成相應(yīng)的語音數(shù)字信號;
[0008] 對所述語音數(shù)字信號進行預(yù)處理,根據(jù)預(yù)處理后相應(yīng)的結(jié)果提取語音特征參數(shù), 以提取所述語音特征參數(shù)的時間順序構(gòu)建相應(yīng)的特征序列;
[0009] 將所述語音特征參數(shù)與模板庫中語音模型進行匹配,根據(jù)搜索算法對所述特征序 列進行解碼,以生成相應(yīng)的識別結(jié)果。
[0010] 發(fā)明的另一目的還在于提供一種語音識別的系統(tǒng),所述系統(tǒng)包括:
[0011] 獲取單元,適用于獲取語音信號;
[0012] 轉(zhuǎn)換單元,適用于將所述語音信號進行模數(shù)轉(zhuǎn)換,生成相應(yīng)的語音數(shù)字信號;
[0013] 處理單元,適用于對所述語音數(shù)字信號進行預(yù)處理,根據(jù)預(yù)處理后相應(yīng)的結(jié)果提 取語音特征參數(shù),以提取所述語音特征參數(shù)的時間順序構(gòu)建相應(yīng)的特征序列;
[0014] 識別單元,適用于將所述語音特征參數(shù)與模板庫中語音模型進行匹配,根據(jù)搜索 算法對所述特征序列進行解碼,以生成相應(yīng)的識別結(jié)果。
[0015] 如上所述,本發(fā)明為一種語音識別的方法及系統(tǒng),具有以下有益效果:
[0016] 首先,該語音系統(tǒng)從信號層、特征層和模型層方面,根據(jù)實際情況選擇合適的處理 方法,提高了語音識別的噪聲魯棒性和語音增加的技術(shù);
[0017] 其次,將時域GFCC特征替代頻域上MFCC特征,且采用離散余弦變換替換傳統(tǒng)的快 速傅立葉變換,大大減少了計算量,當(dāng)嵌入至設(shè)備上,根據(jù)GFCC特征的識別實時性更高,也 變相的提尚了識別效率;
[0018] 最后,構(gòu)建了基于加權(quán)有限狀態(tài)轉(zhuǎn)換的解碼圖來完成對識別的解碼操作,將加權(quán) 有限狀態(tài)機理論引入語音識別,用加權(quán)有限狀態(tài)轉(zhuǎn)換器構(gòu)建詞圖,通過對模型的平滑和壓 縮處理,以及對詞圖的剪枝操作,更夠壓縮整個系統(tǒng)的大小,并保證識別性能維持在一個較 高的水平,解碼速度也能相應(yīng)的提高。
【附圖說明】
[0019] 圖1顯示本發(fā)明的實施例中提供的語音識別的方法流程圖;
[0020] 圖2顯示本發(fā)明的實施例圖1中提供的語音識別的方法步驟S103的流程圖;
[0021] 圖3顯示本發(fā)明的實施例圖1中提供的語音識別的方法步驟S104的流程圖;
[0022] 圖4顯示本發(fā)明的實施例圖3中提供的語音識別的方法步驟S303的流程圖;
[0023] 圖5顯示本發(fā)明的實施例中提供的語音識別系統(tǒng)框架原理圖;
[0024] 圖6顯示本發(fā)明的實施例中提供的語音識別系統(tǒng)框架完整結(jié)構(gòu)圖;
[0025] 圖7顯示本發(fā)明的實施例中提供的語音識別系統(tǒng)的識別單元Viterbi解析流程 圖;
[0026] 圖8顯示本發(fā)明的實施例中提供的語音識別系統(tǒng)的識別單元Viterbi-beam解析 流程圖。
[0027] 附圖標(biāo)號說明:
[0028] 1、語音信號,2、獲取單元,3、轉(zhuǎn)換單元,4、處理單元,5、識別單元,6、識別結(jié)果,41、 處理子單元,42、第一處理子單元,43、第二處理子單元,44、第三處理子單元,51、組合子單 元,52、確定子單元,53、優(yōu)化子單元,54、解碼子單元。
【具體實施方式】
[0029] 以下通過特定的具體實施例說明本發(fā)明的實施方式,本領(lǐng)域技術(shù)人員可由本說明 書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的具體 實施方式加以實施或應(yīng)用,本說明書中的各項細(xì)節(jié)也可以基于不同觀點與應(yīng)用,在沒有背 離本發(fā)明的精神下進行各種修飾或改變。需說明的是,在不沖突的情況下,以下實施例及實 施例中的特征可以相互組合。
[0030] 需要說明的是,以下實施例中所提供的圖示僅以示意方式說明本發(fā)明的基本構(gòu) 想,遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實際實施時的組件數(shù)目、形狀及尺寸 繪制,其實際實施時各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也 可能更為復(fù)雜。
[0031] 如圖1所示,為本發(fā)明提供一種語音識別的方法流程圖;具體包括:
[0032] 步驟S101,獲取語音信號;
[0033] 在本實例中,獲取語音信號的方式優(yōu)選采取麥克風(fēng)進行采樣,麥克風(fēng)將聲音從物 理狀態(tài)轉(zhuǎn)換為模擬的電信號,人的聽力所能聽到的聲音頻率范圍約為20HZ-20KHZ,通常在 PC(perS〇nal computer)機的采樣頻率為16KHZ,嵌入式設(shè)備為8HZ,采樣頻率越高、數(shù)字化 的聲波的保真度就越高。
[0034] 步驟S102,將所述語音信號進行模數(shù)轉(zhuǎn)換,生成相應(yīng)的語音數(shù)字信號;
[0035] 在本實施例中,將采集的語音信號通過AD轉(zhuǎn)換(模數(shù)轉(zhuǎn)換器),由模擬信號轉(zhuǎn)為數(shù) 字信號,為了確保系統(tǒng)處理結(jié)果的精確度,必須保證AD轉(zhuǎn)換具有足夠的轉(zhuǎn)換精度,通常采 用的方法是均勻量化和脈沖編碼調(diào)制,且當(dāng)前語音識別中常用16bit量化。
[0036] 步驟S103,對所述語音數(shù)字信號進行預(yù)處理,根據(jù)預(yù)處理后相應(yīng)的結(jié)果提取語音 特征參數(shù),以提取所述語音特征參數(shù)的時間順序構(gòu)建相應(yīng)的特征序列;
[0037] 在本實施例中,訓(xùn)練過程中,獲得的特征參數(shù)通過不同的訓(xùn)練方法獲得,而后存 入至模板庫,在解碼過程中,新采集的語音信號經(jīng)處理后為語音特征參數(shù),在模板庫中進 行模式匹配;提取的語音特征參數(shù)為倒譜系數(shù)(GFCC,Gammatone Frequency Cepstrum Coefficient)特征,使用特征空間的去噪技術(shù),如倒譜均值歸一,提升GFCC特征的噪聲魯 棒性和語音增加的技術(shù)。
[0038] 步驟S104,將所述語音特征參數(shù)與模板庫中語音模型進行匹配,根據(jù)搜索算法對 所述特征序列進行解碼,以生成相應(yīng)的識別結(jié)果。
[0039] 在本實施例中,通過語音識別中噪聲魯棒性技術(shù)的研究基礎(chǔ)上,以語音特征角度 出發(fā),選用基于Gammatone濾波的GFCC特征作為語音識別中的特征,與傳統(tǒng)的MFCC特 征相比,模擬人類聽覺感知系統(tǒng)設(shè)計的GFCC特征對噪聲有更強的區(qū)分性,在靜音和多種 帶噪語音的環(huán)境中,GFCC均有高于MFCC(梅爾頻率倒譜系數(shù),Mel Frequency Cepstrum Coefficient)的識別性能;而在時域上的GFCC特征提取與頻域上的MFCC提取方式相比, 計算量更小,能夠節(jié)省設(shè)備資源,更適合于嵌入式語音識別的任務(wù)要求。
[0040] 在Mohri等研究者對加權(quán)有限狀態(tài)轉(zhuǎn)換器(WFST,Weighted Finite State Transducer)的先期研究工作的鋪墊下,目前主流的大詞匯量非特定人連續(xù)語音識別系統(tǒng) 均采用WFST框架。在該理論框架下,語音識別中各層次的模型和知識被轉(zhuǎn)換成WFST的形 式,并通過加權(quán)有限狀態(tài)機理論中的組合操作,將模型和知識源整合成