欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于FPGA的藏語語音合成裝置的制作方法

文檔序號(hào):11377185閱讀:1019來源:國知局
一種基于FPGA的藏語語音合成裝置的制造方法

本實(shí)用新型涉及到藏語文本到藏語語音轉(zhuǎn)換的語音合成技術(shù)領(lǐng)域,具體涉及一種基于FPGA的藏語語音合成裝置。



背景技術(shù):

隨著現(xiàn)代社會(huì)信息技術(shù)的高速發(fā)展,高度智能的人機(jī)交互、人機(jī)互動(dòng)技術(shù),逐漸受到研究人員的日益重視。人們迫切希望同機(jī)器的交流方式,不僅僅停留在依靠于傳統(tǒng)的鍵盤、鼠標(biāo)以及顯示器,完成指令的下發(fā)及思想的表達(dá)。而是有一種類似于人與人之間交流的方式進(jìn)行交互,以達(dá)到“察言觀色”的效果,進(jìn)而表達(dá)出真實(shí)的意圖。

隨著語音合成技術(shù)的成熟,其各種應(yīng)用層出不窮,嵌入式語音合成的開發(fā)也成為爭(zhēng)相發(fā)展的熱門,TTS(Text To Speech)系統(tǒng)可以應(yīng)用于計(jì)算機(jī)交互輸出、呼叫中心、雙語手機(jī)、PDA等各種設(shè)備上。現(xiàn)在比較流行的語音合成技術(shù)主要有基于大語料庫的語音拼接合成技術(shù),此方法因?yàn)槭侵苯訌恼Z料庫中挑選出語音片段進(jìn)行拼接,所以合成的語音音質(zhì)較好。但是此方法需要一個(gè)大的語料庫,制作語料庫不僅費(fèi)時(shí)費(fèi)力,而且占用大量的存儲(chǔ)空間。由于嵌入式設(shè)備,對(duì)存儲(chǔ)空間有一定的限制,所以此方法就不利于應(yīng)用在嵌入式設(shè)備中。

另一種現(xiàn)在流行的語音合成方法,是基于HMM(Hidden Markov Models)的統(tǒng)計(jì)參數(shù)語音合成技術(shù)。此方法建立的語音合成系統(tǒng)特點(diǎn):系統(tǒng)構(gòu)建需要的數(shù)據(jù)量少,存儲(chǔ)尺寸小,合成時(shí)計(jì)算量少;并且合成的語音平滑流暢,魯棒性高,具有較好的音質(zhì)和可懂度。

藏族作為我們中國的少數(shù)民族,有其悠久的歷史,它也有自己獨(dú)特的語言體系-藏語。藏族作為中國的少數(shù)民族之一,主要是分布在西藏自治區(qū)和青海、甘肅、四川、云南等省區(qū),人口約640萬余人。而現(xiàn)在的研究主要集中在漢語的語音合成和應(yīng)用中,對(duì)于藏語的語音合成裝置目前還沒有實(shí)現(xiàn)。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)上述存在的技術(shù)問題,本實(shí)用新型提供了一種基于FPGA的藏語語音合成裝置,在FPGA上實(shí)現(xiàn)藏語語音嵌入式的裝置,此裝置不僅可以合成流暢的藏語,同時(shí)方便攜帶。

一種基于FPGA的藏語語音合成裝置,包括FPGA芯片,文本輸入設(shè)備,F(xiàn)LASH存儲(chǔ)器,SDRAM存儲(chǔ)器,音頻輸出設(shè)備;所述FPGA芯片包括NiosⅡ軟核處理器、Avalon總線、輸入設(shè)備控制器、FLASH存儲(chǔ)器接口、SDRAM控制器、音頻控制器、PLL鎖相環(huán)、UART控制器以及用于語音合成的協(xié)處理器;所述NiosⅡ軟核處理器通過所述Avalon總線分別與輸入設(shè)備控制器、FLASH存儲(chǔ)器接口、SDRAM控制器、音頻控制器、PLL鎖相環(huán)、UART控制器和協(xié)處理器相連;所述文本輸入裝置與文本輸入控制器相連,所述FLASH存儲(chǔ)器與FLASH存儲(chǔ)器接口相連,SDRAM存儲(chǔ)器與SDRAM控制器相連,音頻輸出設(shè)備與音頻控制器相連;所述協(xié)處理器包括浮點(diǎn)單元、語音參數(shù)生成器、語音合成生成器和內(nèi)部存儲(chǔ)器;所述浮點(diǎn)單元通過設(shè)置浮點(diǎn)單元總線與語音參數(shù)生成器和語音合成生成器相連,所述內(nèi)部存儲(chǔ)器通過設(shè)置內(nèi)部存儲(chǔ)器總線與語音參數(shù)生成器和語音合成生成器相連;所述內(nèi)部存儲(chǔ)器、語音參數(shù)生成器和語音合成生成器分別與Avalon總線相連。

進(jìn)一步的,所述音頻輸出設(shè)備連接有外置的音箱。

本實(shí)用新型以FPGA為開發(fā)平臺(tái),利用NiosII進(jìn)行軟核處理器的設(shè)計(jì),建立各個(gè)功能算法的硬件平臺(tái),最終將語音合成算法移植到FPGA硬件平臺(tái)中,從而達(dá)到實(shí)現(xiàn)藏語語音合成的功能;FPGA平臺(tái)內(nèi)部處理結(jié)構(gòu),其中協(xié)處理器集成到系統(tǒng)中以便加速系統(tǒng)的性能,Nios II處理器是系統(tǒng)的主要處理器,SDRAM存儲(chǔ)器用于存儲(chǔ)系統(tǒng)的指令和數(shù)據(jù),PLL鎖相環(huán)用于設(shè)置系統(tǒng)的時(shí)鐘頻率。UART端口用于調(diào)試系統(tǒng)?;贖MM的統(tǒng)計(jì)參數(shù)語音合成技術(shù)下,利用Nios軟核作為處理器,在嵌入式設(shè)備FPGA開發(fā)平臺(tái)上實(shí)現(xiàn)藏語語音的合成。此裝置突破了嵌入式設(shè)備存儲(chǔ)空間的限制,不僅可以合成流暢的藏語語音,同時(shí)實(shí)現(xiàn)了藏語語 音合成的便攜化和儀器化。尤其用Nios軟核的形式作為處理器,其靈活的設(shè)計(jì)方式,使系統(tǒng)的可裁剪,可擴(kuò)充,可升級(jí)的效果更易實(shí)現(xiàn)。

附圖說明

為了更清楚地說明本實(shí)用新型實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本實(shí)用新型的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為一種基于FPGA的藏語語音合成裝置的模塊示意圖;

圖2為基于HMM藏語語音合成系統(tǒng)的流程圖;

圖3為藏語文本分析流程圖;

圖4為語音合成生成器流程圖。

具體實(shí)施方式

本實(shí)用新型提供了一種基于FPGA的藏語語音合成裝置,在FPGA上實(shí)現(xiàn)藏語語音嵌入式的裝置,此裝置不僅可以合成流暢的藏語,同時(shí)方便攜帶。

下面將結(jié)合本實(shí)用新型中的附圖,對(duì)本實(shí)用新型中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的僅僅是本實(shí)用新型一部分實(shí)施例,而不是全部的實(shí)施例?;诒緦?shí)用新型中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本實(shí)用新型保護(hù)的范圍。

參見圖1所示,本實(shí)用新型公開了一種基于FPGA的藏語語音合成裝置,包括FPGA芯片,文本輸入設(shè)備,F(xiàn)LASH存儲(chǔ)器,SDRAM存儲(chǔ)器,音頻輸出設(shè)備;所述FPGA芯片包括NiosⅡ軟核處理器、Avalon總線、輸入設(shè)備控制器、FLASH存儲(chǔ)器接口、SDRAM控制器、音頻控制器、PLL鎖相環(huán)、UART控制器以及用于語音合成的協(xié)處理器;所述NiosⅡ軟核處理器通過所述Avalon總線分別與輸入設(shè)備控制器、FLASH存儲(chǔ)器接口、SDRAM控制器、音頻控制器、PLL鎖相環(huán)、UART 控制器和協(xié)處理器相連;所述文本輸入裝置與文本輸入控制器相連,所述FLASH存儲(chǔ)器與FLASH存儲(chǔ)器接口相連,SDRAM存儲(chǔ)器與SDRAM控制器相連,音頻輸出設(shè)備與音頻控制器相連;所述協(xié)處理器包括浮點(diǎn)單元、語音參數(shù)生成器、語音合成生成器和內(nèi)部存儲(chǔ)器;所述浮點(diǎn)單元通過設(shè)置浮點(diǎn)單元總線與語音參數(shù)生成器和語音合成生成器相連,所述內(nèi)部存儲(chǔ)器通過設(shè)置內(nèi)部存儲(chǔ)器總線與語音參數(shù)生成器和語音合成生成器相連;所述內(nèi)部存儲(chǔ)器、語音參數(shù)生成器和語音合成生成器分別與Avalon總線相連。

在本實(shí)施例中,所述音頻輸出設(shè)備連接有外置的音箱。

在本實(shí)施例中,所述音頻輸出設(shè)備采用音頻芯片WM8731。

為了進(jìn)一步說明本藏語合成裝置的工作原理,以下將對(duì)基于本藏語合成裝置的藏語文本到藏語語音轉(zhuǎn)換流程進(jìn)行描述,需要說明的是,以下描述中涉及軟件部分是本領(lǐng)域技術(shù)人員根據(jù)需要進(jìn)行設(shè)計(jì),并不用于限制本實(shí)用新型。

根據(jù)以上提出的藏語合成裝置設(shè)計(jì)一個(gè)訓(xùn)練良好的上下文相關(guān)的隱馬爾可夫模型數(shù)據(jù)庫。由于HMM數(shù)據(jù)庫保存在文件中,使用閃存存儲(chǔ)隱馬爾可夫模型的數(shù)據(jù)庫,以便我們可以使用只讀的壓縮文件系統(tǒng)(支持Altera)從HMM數(shù)據(jù)庫中加載數(shù)據(jù)。

參見圖2所示,存儲(chǔ)于FLASH中的文本分析模塊和HMM模型庫,內(nèi)部存儲(chǔ)器中的語音參數(shù)生成器和MLSA語音合成器。

具體的流程如下:首先文本通過文本輸入設(shè)備送入到FPGA開發(fā)平臺(tái),然后在NiosII軟核處理器控制下經(jīng)過存儲(chǔ)于FLASH中的文本分析程序,得到上下文相關(guān)文本標(biāo)注,再通過決策樹從HMM模型庫中得到上下文相關(guān)的HMM數(shù)據(jù)序列。然后把得到的上下文相關(guān)的HMM數(shù)據(jù)序列通過Avalon總線送入到內(nèi)部存儲(chǔ)器中。在內(nèi)部存儲(chǔ)器中HMM數(shù)據(jù)序列通過浮點(diǎn)單元運(yùn)算依次經(jīng)過語音參數(shù)生成器和語音合成生成器,生成語音的數(shù)字信號(hào)數(shù)據(jù)。最后讓語音的數(shù)字信號(hào)數(shù)據(jù)通過Avalon總線,傳送給音頻芯片WM8731,在音頻控制器的控制下將語音的數(shù)字信號(hào)轉(zhuǎn)換成語音的模擬信號(hào),并通過音箱放出聲音。

參見圖3所示,在藏語文本分析的輸入模塊,首先要提供一段藏語文本, 該藏語文本可以是有標(biāo)記的文本,也可以是無標(biāo)記的普通文本。本設(shè)計(jì)選用的是藏語的語料庫作為訓(xùn)練庫,因此輸入的文本選擇藏語。本文以藏語的聲韻母為合成基元,借助于語法詞典、語法規(guī)則庫的指導(dǎo),通過文本規(guī)范化、語法分析、韻律預(yù)測(cè)分析、字音轉(zhuǎn)換,依次獲得輸入文本的語句信息、詞信息、韻律信息和藏語拼音,生成輸入藏語文本的單音素信息、上下文相關(guān)信息,并最終得到語音合成后端所需的單音素標(biāo)注文件和上下文相關(guān)的標(biāo)注文件。

藏文通過文本輸入設(shè)備送入到FPGA內(nèi)部,通過文本分析得到文本的標(biāo)注序列文件,標(biāo)注序列文件是以可讀的文件存放于FLASH存儲(chǔ)器中。然后通過存儲(chǔ)于FLASH存儲(chǔ)器中訓(xùn)練好的HMM數(shù)據(jù)庫,從標(biāo)注序列文件中生成上下文相關(guān)的HMM數(shù)據(jù)序列。最后生成的HMM數(shù)據(jù)序列送入到語音參數(shù)生成器中,進(jìn)行后續(xù)處理。

語音參數(shù)生成器參數(shù)生成過程:

對(duì)于給定的HMM集合λ,通常使用最大似然準(zhǔn)則來進(jìn)行聲學(xué)特征的生成,即求出使

P(o|qopt,λ)最大的特征序列最優(yōu)狀態(tài)序列qopt由時(shí)長(zhǎng)模型依據(jù)待合成句的上下文信息進(jìn)行預(yù)測(cè)。其中,特征序列包含了靜態(tài)特征和其一階、二階差分的動(dòng)態(tài)特征,如下所示:

動(dòng)態(tài)特征和靜態(tài)特征之間的約束關(guān)系由o=Wc決定,其中 而W是計(jì)算動(dòng)態(tài)特征的系數(shù)矩陣,有

在這種情況下,參數(shù)生成就是求出使P(o|q,λ)最大的特征序列

則有

其中

而和分別是與狀態(tài)序列qopt相關(guān)的均值矢量和協(xié)方差矩陣。就是生成的特征。

語音合成生成器(MLSA,Mel Log Spectral Approximation):

語音合成生成器主要是利用輸入的Mel倒譜系數(shù),按照給定公式構(gòu)造出的一組級(jí)聯(lián)的指數(shù)函數(shù)形式的濾波器。其中給定的公式:

cm是Mel倒譜系數(shù),α是全通常數(shù)。

參見圖4所示,語音參數(shù)生成器產(chǎn)生出語音的Mel倒譜系數(shù)(MCC,Mel-cepstral coefficients)輸入語音合成生成器,通過改變語音合成生成器的系數(shù),達(dá)到校正語音合成生成器的功能,從而可以模仿當(dāng)前語音幀口腔 和聲道的形狀特征?;l參數(shù)f0送入激勵(lì)信號(hào)發(fā)生器產(chǎn)生出激勵(lì),最后通過當(dāng)前語音幀校正過的語音合成生成器,合成出語音。

以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本實(shí)用新型所作的進(jìn)一步詳細(xì)說明,不能認(rèn)定本實(shí)用新型的具體實(shí)施只局限于這些說明。對(duì)于本實(shí)用新型所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本實(shí)用新型構(gòu)思的前提下,還可以做出若干簡(jiǎn)單推演或替換,都應(yīng)當(dāng)視為屬于本實(shí)用新型的保護(hù)范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
漠河县| 乡城县| 尤溪县| 文水县| 水富县| 杭锦后旗| 奉新县| 万盛区| 玛多县| 高邮市| 佛山市| 高淳县| 上高县| 梓潼县| 恩施市| 县级市| 宿州市| 启东市| 香港| 仪陇县| 南充市| 唐海县| 南木林县| 浪卡子县| 漠河县| 永嘉县| 建平县| 文水县| 彩票| 克山县| 调兵山市| 元氏县| 北碚区| 柳州市| 东安县| 泰顺县| 龙泉市| 丹棱县| 铜梁县| 南涧| 穆棱市|