專利名稱:基于專用語音芯片的非特定人語音識別與語音合成裝置的制作方法
技術(shù)領(lǐng)域:
本實用新型涉及一種基于專用語音芯片的非特定人語音識別與語音合成裝置,屬 于語音交互領(lǐng)域。
背景技術(shù):
基于聽覺的人機(jī)交互是當(dāng)今科學(xué)技術(shù)領(lǐng)域的一個重要發(fā)展方向。目前主流的語音 識別技術(shù)是基于統(tǒng)計模式。然而,由于統(tǒng)計模型訓(xùn)練算法復(fù)雜,運算量大,一般由工控機(jī)、PC 機(jī)或筆記本來完成,成本較高,這無疑限制了它的運用。嵌入式語音識別系統(tǒng)和PC機(jī)的語 音識別系統(tǒng)相比,雖然其運算速度和內(nèi)存容量有一定限制,但它具有體積小、功耗低、可靠 性高、投入小、安裝靈活等優(yōu)點。目前嵌入式語音交互系統(tǒng)的開發(fā)主要采用在嵌入式處理器 中直接調(diào)用語音開發(fā)包的方式,而這種方法程序量大,計算復(fù)雜,需要占用大量的處理器資 源,開發(fā)周期長。
實用新型內(nèi)容本實用新型針對嵌入式語音交互系統(tǒng)的開發(fā)中存在的不足,提供了一種基于專用 語音芯片的非特定人語音識別與語音合成裝置,它采用嵌入式處理器外圍擴(kuò)展專用語音芯 片的方式,實現(xiàn)了語音識別與語音合成。為實現(xiàn)上述目的,本實用新型采用如下技術(shù)方案一種基于專用語音芯片的非特定人語音識別與語音合成裝置,它包括對話管理模 塊,該模塊與語音輸入模塊、外部設(shè)備接口模塊、顯示模塊、語音合成模塊和語音輸出模塊 連接;電源模塊為整個裝置供電。所述對話管理模塊包括主控制器和存儲模塊。所述主控制器與存儲模塊間采用1 總線通信,主控制器還分別通過SPI總線與 語音輸入模塊,通過SPI接口與顯示模塊連接;通過USB或UART總線與外部設(shè)備通信;通過 UART總線與語音合成模塊通信。所述語音輸入模塊包括語音識別芯片,它與外圍電路連接,語音識別芯片與對話 管理模塊通信。所述語音合成模塊包括語音合成芯片,它與外圍電路連接,語音合成芯片與對話 管理模塊通信。所述語音輸出模塊包括音頻放大電路,它與外圍電路連接。本實用新型的系統(tǒng)包括以下幾個部分對話管理模塊、語音輸入模塊、語音合成模 塊以及外部設(shè)備接口模塊。本實用新型的有益效果是無需預(yù)先訓(xùn)練,識別率高,語音交互流暢自然,性能穩(wěn) 健等特點??梢詰?yīng)用于智能家居的語音控制,智能機(jī)器人的語音交互,以及智能玩具控制等 語音交互和語音控制領(lǐng)域。
圖1為本實用新型的系統(tǒng)結(jié)構(gòu)圖。圖2為主控制器原理圖。圖3為電源模塊原理圖。圖4為語音輸入模塊原理圖。圖5為語音合成模塊原理圖。圖6為音頻放大電路原理圖。圖7為外部設(shè)備接口原理圖。其中,1.對話管理模塊,2.語音輸入模塊,3.外部設(shè)備接口模塊,4.顯示模塊, 5.語音合成模塊,6.語音輸出模塊,7.主控制器,8.存儲模塊,9.語音識別芯片,10.語音 合成芯片,11.音頻放大電路。
具體實施方式
以下結(jié)合附圖與實例對本實用新型做進(jìn)一步說明。圖1中,它包括對話管理模塊1,該模塊與語音輸入模塊2、外部設(shè)備接口模塊3、顯 示模塊4、語音合成模塊5和語音輸出模塊6連接。1.對話管理模塊對話管理模塊1包括主控制器7和存儲模塊8。主控制器7選用的是ST公司的STM32F103C8T6芯片。該芯片基于ARM Cortex_M3 32位的RISC內(nèi)核,工作頻率最高可達(dá)72MHz,內(nèi)置高速存儲器(64K字節(jié)的閃存和20K字節(jié) 的SRAM),豐富的增強(qiáng)I/O端口和聯(lián)接到兩條APB總線的外設(shè)。STM32系列提供了全新的 32位產(chǎn)品選項,結(jié)合了高性能、實時、低功耗、低電壓等特性,同時保持了高集成度和易于開 發(fā)的優(yōu)勢,將32位MCU世界的性能和功效引向一個新的級別。擴(kuò)展存儲器選用24C256,容 量為256KB,1 通信,用于存儲大量的對話信息和指令信息。在裝置使用之前,可通過USB 或RS232對存儲器的數(shù)據(jù)進(jìn)行初始化,以實現(xiàn)該裝置的通用性。同時預(yù)留LCD接口,可連接 SPI接口的設(shè)備,如液晶屏,本裝置調(diào)試實現(xiàn)了 NOKIA 3510 液晶屏的顯示。圖2為STM32主控制器的設(shè)計原理圖,參考了 STMicroelectronics發(fā)布的 STMFlOxxx硬件開發(fā)入門文檔。為了保證可靠復(fù)位,選用了 MAXIM公司的DS1233A作為復(fù)位 芯片;STM32的模擬電源輸入采用了 LC濾波電路;采用3路LED指示狀態(tài),三個操作按鍵實 現(xiàn)特定操作。圖3為電源模塊原理圖2.電源供電部分,可以采用外部電源供電(USB供電或適配器供電),也可采用可 充電電池。該裝置以REG1117-3. 3V和)(C6209B182MR兩種電壓轉(zhuǎn)換芯片為核心配合必要的 外圍電路,為裝置提供穩(wěn)定的3. 3V和1. 8V電源,供電電壓范圍為4. 75V 12V ;為了減少 干擾,數(shù)字電路與模擬電路部分采用不同的電源分開供電,數(shù)字地與模擬地分開布線,最后 在電源供電處采用0歐姆電阻共地,如圖3所示。3.語音輸入模塊語音輸入模塊2包括語音識別芯片9,它與外圍電路連接,語音識別芯片9與對 話管理模塊通信,它為LD3320芯片,其內(nèi)部集成了快速穩(wěn)定的優(yōu)化算法,不需外接Flash、RAM,不需要用戶事先訓(xùn)練和錄音而完成非特定人語音識別,識別準(zhǔn)確率高。以LD3320為核 心,配合必要的外圍電路和模擬信號采集電路,實現(xiàn)語音識別。圖4中,LD3320采用SPI串行行方式直接與STM32相接,片選信號LD_SCS,復(fù)位信 號LD_RSTB以及中斷返回信號LD_INTB與STM32直接相連,采用IkQ電阻上拉,輔助系統(tǒng) 穩(wěn)定工作;閑置的LD3320的數(shù)字端口采用IkQ電阻上拉,給以穩(wěn)定電平,保證CMOS工藝芯 片可靠工作;LD3320和STM32共用一個外部8MHz時鐘;LD3320的模擬電源輸入采用了 LC 濾波電路;發(fā)光二極管Dl用于復(fù)位后芯片工作狀態(tài)指示;MBS (管腳12)作為麥克風(fēng)偏置, 接了一個RC電路,保證能輸出一個浮動電壓給麥克風(fēng)。4.語音合成模塊語音合成模塊5包括語音合成芯片10,它與外圍電路連接。語音合成芯片10與對 話管理模塊通過串口通信。語音合成芯片10以科大訊飛的XFS4041cn為核心芯片,實現(xiàn)語音合成。XFS4041 是合肥訊飛數(shù)碼科技有限公司推出的一款高性能的中文語音合成芯片,芯片可以通過UART 或SPI兩種通信方式接收待合成的文本,把文本合成為語音輸出。芯片接口簡單、功能豐 富,主要面向中高端應(yīng)用領(lǐng)域。XFS4041CN語音合成芯片的產(chǎn)品形式是由雙芯片構(gòu)成的套 片,兩個芯片分別命名為XFS4041A和XFS4041B。該語音合成裝置具有如下特點具有智能的文本分析處理算法,可正確的識別和 處理數(shù)值、號碼、時間日期及一些常用的度量衡符號;具備較強(qiáng)的多音字處理和中文姓氏處 理能力;提供兩男、兩女、一個效果器和一個女童聲6個中文發(fā)音人,可指令修改;內(nèi)部集成 20種常見的提示音效;支持多種控制命令,包括合成、停止、暫停、繼續(xù);可通過發(fā)送控制 標(biāo)記調(diào)節(jié)語速,支持11級語速調(diào)整;可通過發(fā)送控制標(biāo)記調(diào)節(jié)語調(diào),支持11級語調(diào)調(diào)整; 可通過發(fā)送控制標(biāo)記調(diào)節(jié)音量,支持11級音量調(diào)整;支持多種文本控制標(biāo)記,提升文本處 理的正確率;支持多種方式查詢模塊工作狀態(tài);支持GB2312、GBK、BIG5、UNICODE四種內(nèi)碼 格式文本的合成;每次合成的文本量最多可達(dá)4k字節(jié);支持UART、SPI兩種數(shù)據(jù)通訊接口 ; 支持正常工作模式、Power Down模式、IDLE模式3種芯片模式;可合成任意的中文文本,支 持英文字母的合成;清晰、自然、準(zhǔn)確的語音合成效果。如圖5所示,BAUDl和BAUD2置高,即語音合成單元與STM32控制器單元之間采 用固化的串口波特率115200bps,以實現(xiàn)較高的傳輸速率,提高語音合成的效率。為了提供 XFS4041CN復(fù)位所需的2ms以上的低電平,并檢測電路電壓,裝置選用復(fù)位芯片CAT811R,對 XFS4041CN進(jìn)行復(fù)位,CAT811R的MR連接STM32的I/O 口以實現(xiàn)軟件復(fù)位。CAT811R在上電 后或MR腳低電平后會持續(xù)保持大概140ms的低電平,可保障XFS4041CN可靠復(fù)位。另夕卜, RDY連接STM32的1/0,可以檢測XFS4041CN的工作狀態(tài),并執(zhí)行相應(yīng)的操作命令。為了給 XFS4041CN提供穩(wěn)定可靠的模擬電源,對電路中3. 3V和1. 8V電源LC濾波處理。6.語音輸出模塊語音輸出模塊6包括音頻放大電路11,它與帶自動開關(guān)的耳機(jī)座連接。音頻放大 電路11通過帶自動開關(guān)的耳機(jī)座連接到XFS4041CN的差動音頻輸出,這樣使裝置既可以外 接有源音箱,也可以通過板上的功放電路輸出,電路原理圖如圖6所示。LM4861是美國半導(dǎo) 體公司推出的一款1. IW橋鏈音頻功率放大器。當(dāng)負(fù)載為8Ω,供電電壓為5V時,穩(wěn)定輸出 功率為1. 1W。圖中F_SWB端子連接STM32的I/O 口,開關(guān)控制功放電路的工作狀態(tài),以降低功耗。7.外部設(shè)備接口模塊如圖7所示,它以CH340TDS1為核心,實現(xiàn)串口到USB的轉(zhuǎn)換,同時預(yù)留USART2的 端口,可以連接串口設(shè)備。CH340TDS1的T)(D和RXD管腳與一個雙路開關(guān)連接,以實現(xiàn)USB 接口與串行接口之間的切換。USB接口主要用以連接PC機(jī),實現(xiàn)與上位機(jī)的通信,便于裝置 的對話集的初始化;串行接口主要連接被控設(shè)備或是RF無線傳輸模塊,如ZigBee節(jié)點、無 線數(shù)傳設(shè)備,以實現(xiàn)語音命令的傳輸。
權(quán)利要求1.一種基于專用語音芯片的非特定人語音識別與語音合成裝置,其特征是,它包括對 話管理模塊,該模塊與語音輸入模塊、外部設(shè)備接口模塊、顯示模塊、語音合成模塊和語音 輸出模塊連接;電源模塊為整個裝置供電。
2.如權(quán)利要求1所述的基于專用語音芯片的非特定人語音識別與語音合成裝置,其特 征是,所述對話管理包括主控制器和存儲模塊。
3.如權(quán)利要求2所述的基于專用語音芯片的非特定人語音識別與語音合成裝置,其特 征是,所述主控制器與存儲模塊間采用Ic總線通信,主控制器還分別通過SPI總線接口與 語音輸入模塊,通過SPI總線接口與顯示模塊連接;通過USB或UART總線與外部設(shè)備通信; 通過UART總線與語音合成模塊通信。
4.如權(quán)利要求1所述的基于專用語音芯片的非特定人語音識別與語音合成裝置,其特 征是,所述語音輸入模塊包括語音識別芯片,它與外圍電路連接,語音識別芯片與對話管理 模塊通信。
5.如權(quán)利要求1所述的基于專用語音芯片的非特定人語音識別與語音合成裝置,其特 征是,所述語音合成模塊包括語音合成芯片,它與外圍電路連接,語音合成芯片與對話管理 模塊通信。
6.如權(quán)利要求1所述的基于專用語音芯片的非特定人語音識別與語音合成裝置,其特 征是,所述語音輸出模塊包括音頻放大電路,它與外圍電路連接。
專利摘要本實用新型涉及一種基于專用語音芯片的非特定人語音識別與語音合成裝置,它采用嵌入式處理器外圍擴(kuò)展專用語音芯片的方式,實現(xiàn)了語音識別與語音合成。它包括對話管理模塊,該模塊與語音輸入模塊、外部設(shè)備接口模塊、顯示模塊、語音合成模塊和語音輸出模塊連接;電源模塊為整個裝置供電。對話管理模塊由以STM32為核心的主控制電路和以24C256為核心的擴(kuò)展存儲器電路組成;電源模塊進(jìn)行了模擬電源與數(shù)字電源的隔離;語音輸入模塊以LD3320專用非特定人語音識別芯片為核心,實現(xiàn)語音識別,并將識別結(jié)果反饋給主控制器;語音合成模塊以XFS4041CN專用語音合成芯片為核心,實現(xiàn)語音合成;另外,設(shè)計了外部串行設(shè)備接口單元和LCD液晶屏接口,便于裝置的初始化和外部設(shè)備的連接。
文檔編號G10L13/00GK201936600SQ201120048679
公開日2011年8月17日 申請日期2011年2月28日 優(yōu)先權(quán)日2011年2月28日
發(fā)明者臺述鵬, 周祥章, 周風(fēng)余, 王小龍, 王然, 田國會, 蘇鵬, 陳磊 申請人:山東大學(xué)