專利名稱:智能漢語語音識別卡的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種智能漢語語音識別卡。
背景技術(shù):
由于不同人的聲道存在很大差別,再加上各種個人和方言發(fā)音習慣的影響,語音信號具有多變性、復雜性和易混性的特點,這給正確處理和區(qū)分語音信息帶來很大的困難。語音信號識別過程中,需要對大量的數(shù)字信號進行處理,使用普通的識別方法需要巨大的存儲空間和計算能力的支持,所以目前市場上常見的分辨率較高的聲音識別系統(tǒng)大多是基于計算機的,還未發(fā)現(xiàn)能識別中等字庫的低價位聲音識別裝置。
實用新型內(nèi)容本實用新型的目的是提供一種低價位的智能漢語語音識別卡。
實現(xiàn)本實用新型目的的技術(shù)方案是本智能漢語語音識別卡具有語音提取、訓練和識別的功能模塊,其結(jié)構(gòu)特點是功能模塊設置在單一的單片機中;本智能漢語語音識別卡還具有晶振電路、外圍接口電路和音頻采集電路;晶振電路的晶振輸出端接單片機的晶振輸入端,外圍接口電路的信號端與單片機的信號端雙向電連接,音頻采集電路的音頻信號輸出端接單片機的音頻信號輸入端。
上述技術(shù)方案中,單片機中的功能模塊中設有采用小波分析算法、線性預測譜倒譜和動態(tài)時間規(guī)整算法的程序。單片機的型號為SPCE061A。單片機的電源端具有抗干擾電路。音頻采集電路具有音頻采集傳感器,音頻采集傳感器的音頻信號輸出端即為音頻采集電路的音頻信號輸出。
本實用新型具有積極的效果(1)本實用新型的智能漢語語音識別卡采用單一的單片機來實現(xiàn)語音提取、訓練和識別的功能,實現(xiàn)這些功能時可以同時采用小波分析算法、線性預測譜倒譜和動態(tài)時間規(guī)整算法來實現(xiàn),因此本實用新型的智能漢語語音識別卡結(jié)構(gòu)簡單,成本低廉。(2)當本實用新型單片機的電源端設置抗干擾電路后,則可確保本實用新型的智能漢語語音識別卡工作穩(wěn)定性。(3)本實用新型的智能漢語語音識別卡能對數(shù)百個漢語的常見語音進行有效快速的區(qū)分,而且可以通過對發(fā)音的判斷作出相應的數(shù)字信號輸出。(4)本實用新型的智能漢語語音識別卡具有開放的訓練功能,可由使用者自由選擇訓練內(nèi)容,因而減小發(fā)音習慣不同造成的影響,本智能漢語語音識別卡可以用于如家電、玩具、公共設施中,既可逐個控制,也可以進行群體控制,大大加強了各種產(chǎn)品人機對話的能力。
圖1為本實用新型的智能漢語語音識別卡的電路框圖。
圖2為本實用新型的智能漢語語音識別卡的電路原理圖。
圖3-7為本實用新型的智能漢語語音識別卡的單片機所采用的核心識別算法的圖型。
圖8-10為本實用新型的智能漢語語音識別卡的單片機所采用核心識別算法的程序流程圖。
具體實施方式
(實施例1)見圖1和圖2,本實施例的智能漢語語音識別卡具有單片機1、晶振電路2、外圍接口電路4和音頻采集電路5。
單片機1的型號為SPCE061A。單片機1中設有語音提取、訓練和識別的功能模塊,這些功能模塊中設有采用小波分析算法、線性預測譜倒譜和動態(tài)時間規(guī)整算法所編制的程序。晶振電路2由晶振Y1和電容C24、C25組成。外圍接口電路4由接口J1串接J2,J3串接J4組成;外圍接口電路4用于向外輸出經(jīng)過單片機1處理的語音信號而給其它電子設備使用。音頻采集電路5音頻傳感器MIC、電阻R4、R5、R6和電容C30、C31、C32組成。
晶振電路2的晶振輸出端即晶振Y1的輸出端OSC0和OSC1接單片機1的晶振輸入端即12腳和13腳。外圍接口電路4的信號端即J1的IOA0-IOA7端接單片機的IOA0-IOA7端,J3的IOB0-IOB7端接單片機的IOB0-IOB7端。音頻采集電路5的音頻信號輸出端即音頻傳感器MIC的MICP端和MICN端接單片機1的音頻信號輸入端即MICP端和MICN端。
單片機1的36腳VDDA端具有由電容C7和C27組成的抗干擾電路,單片機1的51腳和52腳具有由電容C11和C12組成的抗干擾電路。單片機1的15腳和75腳分別串接電容C5和C10后接VSS端。單片機1的7腳和9腳串接電容C9。電容C2和電阻R3并聯(lián)后串接在單片機的AGC端和VSS端。電容C8和C28并聯(lián)后的一端接單片機的VRT端。
本實施例的智能漢語語音識別卡的電路提供給外圍設備16位的輸出輸入管腳,可以實現(xiàn)多種控制信號輸出和外部指令的輸入。
見圖8至圖10,本實用新型的智能漢語語音識別卡使用時,還需在單片機1的IOA0端至IOA2端設置功能控制電路。單片機1默認的語音信號為語音識別信號。若通過按下功能控制電路的相應的按鈕record,則認為語音信號為語音訓練信號。按下按鈕stop,則認為語音訓練結(jié)束。按下按鈕play,則認為開始漢語語音識別。
本識別卡上電后,單片機1的工作步驟為①單片機1對來自智能漢語語音識別卡本身的麥克風或外部信號采集設備輸入的語音信號進行有效的切分定位(圖8)。所述切分定位的過程是首先將音頻幀1寫入單片機1的寄存器中,單片機1中的音頻處理器對所述音頻幀1進行能量計算,當該幀1能量大于設定值時,單片機1開始計算線性預測倒譜系數(shù)并存入單片機1的閃存中,同時音頻起始位和命令字長加1。當?shù)谝粠纛l處理結(jié)束后,開始將第二音頻幀寫入單片機1的寄存器,并同樣進行上述處理;第二幀音頻處理結(jié)束后,則判斷狀態(tài)控制電路是否有結(jié)束命令,若無結(jié)束命令,則進行新的音頻幀1的寫入寄存器的操作,若有則判斷該結(jié)束命令是否為練習命令,若是則運行特定人語音識別的程序,若否,則單片機1進行排序并等待新的音頻幀1寫入單片機1。
②單片機1在進行特定人語音識別程序時,單片機1通過由小波分析技術(shù)編制的程序?qū)υ夹盘栠M行多分辨率分割,將聲音分解為高頻區(qū)和低頻區(qū),對所述低頻區(qū)信號采集的數(shù)據(jù)量是對所述高頻區(qū)信號采集的數(shù)據(jù)量的1/8或更低。執(zhí)行完畢后,單片機1進入8kHz中斷(圖8)。
上述步驟①②也可以省去單片機1中的音頻處理器對所述音頻幀1進行能量計算的過程(圖10)。
③進入所述8kHz中斷后,開始對上述特定人的語音進行采樣,并將采樣信號進行高通濾波,并進行過零率分析。也即系統(tǒng)對通過多分辨率分解語音成高、低頻部分,通過對高頻數(shù)據(jù)進行過零率分析,從而實現(xiàn)對漢語頻率較高的部分輔音的區(qū)分。后進行低通濾波和音頻能量計算,當所述的音頻取樣幀1處理結(jié)束后,單片機1存儲該取樣幀1,同時計數(shù)變量加1,若幀長度不等于變量長度,則清除中斷后跳出中斷。若幀長度等于變量長度,則待排除后,清除中斷并跳出中斷(圖9)。
④對低頻數(shù)據(jù)進行基頻計算得出信號的語調(diào)特征(包括第一聲到第四聲和輕聲)。
⑤對低頻數(shù)據(jù)進行線性預測譜倒譜(LPCC)計算,得出LPCC數(shù)組。
⑥如果是語音訓練信號,將信號歸類,然后存入系統(tǒng)內(nèi)部儲存區(qū),進入第⑧步,如果是語音識別信號,進入第⑦步。
⑦如果是聲音識別對象,先按照前面的輔音、基頻和語調(diào)特征縮小對數(shù)據(jù)庫里面可能匹配對象的范圍,然后在該范圍內(nèi)用動態(tài)時間規(guī)整的算法進行識別而找出信號類型,匹配總誤差最小的庫里面的信號就是輸入信號。再依照這一信號和命令類型規(guī)則輸出數(shù)字信號。
⑧進行下一次語音采樣。
圖3至7顯示了本系統(tǒng)的核心匹配過程。
對于從聲音信號通過計算得到的線性預測譜倒譜模板數(shù)組(圖3至7的左上子圖)和測試數(shù)據(jù)(圖3至7的右下子圖)上的各個點都尋找其相應的匹配性最好的點(即幾何學中高維歐氏距離最小的點)。重復至信號末尾,產(chǎn)生匹配路徑(如3的右上子圖),如果路徑與矩形對角線匹配良好且歸一化的總誤差最小,則說明模板與測試信號是同類,也就是識別出聲音信號。
見圖4,匹配路徑與矩形對角線匹配不理想且歸一化的總誤差較大為9.9343,則說明模板與測試信號不是同類,也就是未能識別出聲音信號。
見圖5,匹配路徑與矩形對角線匹配比圖4稍好,歸一化的總誤差較大為6.5223,則說明模板與測試信號仍不是同類,也就是未能識別出聲音信號。
見圖6,匹配路徑與矩形對角線匹配比圖5稍好,歸一化的總誤差較大為7.198,則說明模板與測試信號仍不是同類,也就是未能識別出聲音信號。
見圖7,匹配路徑與矩形對角線匹配比圖6稍好,歸一化的總誤差較大為5.6307,則說明模板與測試信號是同類,也就是能識別出聲音信號。
權(quán)利要求1.一種智能漢語語音識別卡,具有語音提取、訓練和識別的功能模塊,其特征在于功能模塊設置在單一的單片機(1)中;本智能漢語語音識別卡還具有晶振電路(2)、外圍接口電路(4)和音頻采集電路(5);晶振電路(2)的晶振輸出端接單片機(1)的晶振輸入端,外圍接口電路(4)的信號端與單片機(1)的信號端雙向電連接,音頻采集電路(5)的音頻信號輸出端接單片機(1)的音頻信號輸入端。
2.根據(jù)權(quán)利要求1所述的智能漢語語音識別卡,其特征在于單片機(1)型號為SPCE061A。
3.根據(jù)權(quán)利要求1所述的智能漢語語音識別卡,其特征在于單片機(1)的電源端具有抗干擾電路。
4.根據(jù)權(quán)利要求1所述的智能漢語語音識別卡,其特征在于音頻采集電路(5)具有音頻采集傳感器,音頻采集傳感器的音頻信號輸出端即為音頻采集電路(5)的音頻信號輸出。
專利摘要本實用新型涉及一種智能漢語語音識別卡。該識別卡具有語音提取、訓練和識別的功能模塊,功能模塊設置在單一的單片機中;本識別卡還具有晶振電路、外圍接口電路和音頻采集電路;晶振電路的晶振輸出端接單片機的晶振輸入端,外圍接口電路的信號端與功能模塊的信號端雙向電連接,音頻采集電路的音頻信號輸出端接單片機的音頻信號輸入端。所述的單片機可以是型號為SPCE061A的單片機。本實用新型的智能漢語語音識別卡具有開放的訓練功能,可由使用者自由選擇訓練內(nèi)容,因而減小發(fā)音習慣不同造成的影響,該識別卡可以用于如家電、玩具、公共設施中,既可逐個控制,也可以進行群體控制,大大加強了各種產(chǎn)品人機對話的能力。
文檔編號G10L15/28GK2798242SQ20052001873
公開日2006年7月19日 申請日期2005年5月20日 優(yōu)先權(quán)日2004年10月29日
發(fā)明者陳銳鋒 申請人:陳銳鋒