一種基于FPGA的藏語語音合成裝置的制作方法

文檔序號(hào)：11377185閱讀：1019來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本實(shí)用新型涉及到藏語文本到藏語語音轉(zhuǎn)換的語音合成技術(shù)領(lǐng)域，具體涉及一種基于FPGA的藏語語音合成裝置。

背景技術(shù)：

隨著現(xiàn)代社會(huì)信息技術(shù)的高速發(fā)展，高度智能的人機(jī)交互、人機(jī)互動(dòng)技術(shù)，逐漸受到研究人員的日益重視。人們迫切希望同機(jī)器的交流方式，不僅僅停留在依靠于傳統(tǒng)的鍵盤、鼠標(biāo)以及顯示器，完成指令的下發(fā)及思想的表達(dá)。而是有一種類似于人與人之間交流的方式進(jìn)行交互，以達(dá)到“察言觀色”的效果，進(jìn)而表達(dá)出真實(shí)的意圖。

隨著語音合成技術(shù)的成熟，其各種應(yīng)用層出不窮，嵌入式語音合成的開發(fā)也成為爭(zhēng)相發(fā)展的熱門，TTS(Text To Speech)系統(tǒng)可以應(yīng)用于計(jì)算機(jī)交互輸出、呼叫中心、雙語手機(jī)、PDA等各種設(shè)備上。現(xiàn)在比較流行的語音合成技術(shù)主要有基于大語料庫的語音拼接合成技術(shù)，此方法因?yàn)槭侵苯訌恼Z料庫中挑選出語音片段進(jìn)行拼接，所以合成的語音音質(zhì)較好。但是此方法需要一個(gè)大的語料庫，制作語料庫不僅費(fèi)時(shí)費(fèi)力，而且占用大量的存儲(chǔ)空間。由于嵌入式設(shè)備，對(duì)存儲(chǔ)空間有一定的限制，所以此方法就不利于應(yīng)用在嵌入式設(shè)備中。

另一種現(xiàn)在流行的語音合成方法，是基于HMM(Hidden Markov Models)的統(tǒng)計(jì)參數(shù)語音合成技術(shù)。此方法建立的語音合成系統(tǒng)特點(diǎn)：系統(tǒng)構(gòu)建需要的數(shù)據(jù)量少，存儲(chǔ)尺寸小，合成時(shí)計(jì)算量少；并且合成的語音平滑流暢，魯棒性高，具有較好的音質(zhì)和可懂度。

藏族作為我們中國的少數(shù)民族，有其悠久的歷史，它也有自己獨(dú)特的語言體系-藏語。藏族作為中國的少數(shù)民族之一，主要是分布在西藏自治區(qū)和青海、甘肅、四川、云南等省區(qū)，人口約640萬余人。而現(xiàn)在的研究主要集中在漢語的語音合成和應(yīng)用中，對(duì)于藏語的語音合成裝置目前還沒有實(shí)現(xiàn)。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)上述存在的技術(shù)問題，本實(shí)用新型提供了一種基于FPGA的藏語語音合成裝置，在FPGA上實(shí)現(xiàn)藏語語音嵌入式的裝置，此裝置不僅可以合成流暢的藏語，同時(shí)方便攜帶。

一種基于FPGA的藏語語音合成裝置，包括FPGA芯片，文本輸入設(shè)備，F(xiàn)LASH存儲(chǔ)器，SDRAM存儲(chǔ)器，音頻輸出設(shè)備；所述FPGA芯片包括NiosⅡ軟核處理器、Avalon總線、輸入設(shè)備控制器、FLASH存儲(chǔ)器接口、SDRAM控制器、音頻控制器、PLL鎖相環(huán)、UART控制器以及用于語音合成的協(xié)處理器；所述NiosⅡ軟核處理器通過所述Avalon總線分別與輸入設(shè)備控制器、FLASH存儲(chǔ)器接口、SDRAM控制器、音頻控制器、PLL鎖相環(huán)、UART控制器和協(xié)處理器相連；所述文本輸入裝置與文本輸入控制器相連，所述FLASH存儲(chǔ)器與FLASH存儲(chǔ)器接口相連，SDRAM存儲(chǔ)器與SDRAM控制器相連，音頻輸出設(shè)備與音頻控制器相連；所述協(xié)處理器包括浮點(diǎn)單元、語音參數(shù)生成器、語音合成生成器和內(nèi)部存儲(chǔ)器；所述浮點(diǎn)單元通過設(shè)置浮點(diǎn)單元總線與語音參數(shù)生成器和語音合成生成器相連，所述內(nèi)部存儲(chǔ)器通過設(shè)置內(nèi)部存儲(chǔ)器總線與語音參數(shù)生成器和語音合成生成器相連；所述內(nèi)部存儲(chǔ)器、語音參數(shù)生成器和語音合成生成器分別與Avalon總線相連。

進(jìn)一步的，所述音頻輸出設(shè)備連接有外置的音箱。

本實(shí)用新型以FPGA為開發(fā)平臺(tái)，利用NiosII進(jìn)行軟核處理器的設(shè)計(jì)，建立各個(gè)功能算法的硬件平臺(tái)，最終將語音合成算法移植到FPGA硬件平臺(tái)中，從而達(dá)到實(shí)現(xiàn)藏語語音合成的功能；FPGA平臺(tái)內(nèi)部處理結(jié)構(gòu)，其中協(xié)處理器集成到系統(tǒng)中以便加速系統(tǒng)的性能，Nios II處理器是系統(tǒng)的主要處理器，SDRAM存儲(chǔ)器用于存儲(chǔ)系統(tǒng)的指令和數(shù)據(jù)，PLL鎖相環(huán)用于設(shè)置系統(tǒng)的時(shí)鐘頻率。UART端口用于調(diào)試系統(tǒng)?；贖MM的統(tǒng)計(jì)參數(shù)語音合成技術(shù)下，利用Nios軟核作為處理器，在嵌入式設(shè)備FPGA開發(fā)平臺(tái)上實(shí)現(xiàn)藏語語音的合成。此裝置突破了嵌入式設(shè)備存儲(chǔ)空間的限制，不僅可以合成流暢的藏語語音，同時(shí)實(shí)現(xiàn)了藏語語音合成的便攜化和儀器化。尤其用Nios軟核的形式作為處理器，其靈活的設(shè)計(jì)方式，使系統(tǒng)的可裁剪，可擴(kuò)充，可升級(jí)的效果更易實(shí)現(xiàn)。

附圖說明

為了更清楚地說明本實(shí)用新型實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本實(shí)用新型的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1為一種基于FPGA的藏語語音合成裝置的模塊示意圖；

圖2為基于HMM藏語語音合成系統(tǒng)的流程圖；

圖3為藏語文本分析流程圖；

圖4為語音合成生成器流程圖。

具體實(shí)施方式

本實(shí)用新型提供了一種基于FPGA的藏語語音合成裝置，在FPGA上實(shí)現(xiàn)藏語語音嵌入式的裝置，此裝置不僅可以合成流暢的藏語，同時(shí)方便攜帶。

下面將結(jié)合本實(shí)用新型中的附圖，對(duì)本實(shí)用新型中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的僅僅是本實(shí)用新型一部分實(shí)施例，而不是全部的實(shí)施例?；诒緦?shí)用新型中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例，都屬于本實(shí)用新型保護(hù)的范圍。

參見圖1所示，本實(shí)用新型公開了一種基于FPGA的藏語語音合成裝置，包括FPGA芯片，文本輸入設(shè)備，F(xiàn)LASH存儲(chǔ)器，SDRAM存儲(chǔ)器，音頻輸出設(shè)備；所述FPGA芯片包括NiosⅡ軟核處理器、Avalon總線、輸入設(shè)備控制器、FLASH存儲(chǔ)器接口、SDRAM控制器、音頻控制器、PLL鎖相環(huán)、UART控制器以及用于語音合成的協(xié)處理器；所述NiosⅡ軟核處理器通過所述Avalon總線分別與輸入設(shè)備控制器、FLASH存儲(chǔ)器接口、SDRAM控制器、音頻控制器、PLL鎖相環(huán)、UART 控制器和協(xié)處理器相連；所述文本輸入裝置與文本輸入控制器相連，所述FLASH存儲(chǔ)器與FLASH存儲(chǔ)器接口相連，SDRAM存儲(chǔ)器與SDRAM控制器相連，音頻輸出設(shè)備與音頻控制器相連；所述協(xié)處理器包括浮點(diǎn)單元、語音參數(shù)生成器、語音合成生成器和內(nèi)部存儲(chǔ)器；所述浮點(diǎn)單元通過設(shè)置浮點(diǎn)單元總線與語音參數(shù)生成器和語音合成生成器相連，所述內(nèi)部存儲(chǔ)器通過設(shè)置內(nèi)部存儲(chǔ)器總線與語音參數(shù)生成器和語音合成生成器相連；所述內(nèi)部存儲(chǔ)器、語音參數(shù)生成器和語音合成生成器分別與Avalon總線相連。

在本實(shí)施例中，所述音頻輸出設(shè)備連接有外置的音箱。

在本實(shí)施例中，所述音頻輸出設(shè)備采用音頻芯片WM8731。

為了進(jìn)一步說明本藏語合成裝置的工作原理，以下將對(duì)基于本藏語合成裝置的藏語文本到藏語語音轉(zhuǎn)換流程進(jìn)行描述，需要說明的是，以下描述中涉及軟件部分是本領(lǐng)域技術(shù)人員根據(jù)需要進(jìn)行設(shè)計(jì)，并不用于限制本實(shí)用新型。

根據(jù)以上提出的藏語合成裝置設(shè)計(jì)一個(gè)訓(xùn)練良好的上下文相關(guān)的隱馬爾可夫模型數(shù)據(jù)庫。由于HMM數(shù)據(jù)庫保存在文件中，使用閃存存儲(chǔ)隱馬爾可夫模型的數(shù)據(jù)庫，以便我們可以使用只讀的壓縮文件系統(tǒng)(支持Altera)從HMM數(shù)據(jù)庫中加載數(shù)據(jù)。

參見圖2所示，存儲(chǔ)于FLASH中的文本分析模塊和HMM模型庫，內(nèi)部存儲(chǔ)器中的語音參數(shù)生成器和MLSA語音合成器。

具體的流程如下：首先文本通過文本輸入設(shè)備送入到FPGA開發(fā)平臺(tái)，然后在NiosII軟核處理器控制下經(jīng)過存儲(chǔ)于FLASH中的文本分析程序，得到上下文相關(guān)文本標(biāo)注，再通過決策樹從HMM模型庫中得到上下文相關(guān)的HMM數(shù)據(jù)序列。然后把得到的上下文相關(guān)的HMM數(shù)據(jù)序列通過Avalon總線送入到內(nèi)部存儲(chǔ)器中。在內(nèi)部存儲(chǔ)器中HMM數(shù)據(jù)序列通過浮點(diǎn)單元運(yùn)算依次經(jīng)過語音參數(shù)生成器和語音合成生成器，生成語音的數(shù)字信號(hào)數(shù)據(jù)。最后讓語音的數(shù)字信號(hào)數(shù)據(jù)通過Avalon總線，傳送給音頻芯片WM8731，在音頻控制器的控制下將語音的數(shù)字信號(hào)轉(zhuǎn)換成語音的模擬信號(hào)，并通過音箱放出聲音。

參見圖3所示，在藏語文本分析的輸入模塊，首先要提供一段藏語文本，該藏語文本可以是有標(biāo)記的文本，也可以是無標(biāo)記的普通文本。本設(shè)計(jì)選用的是藏語的語料庫作為訓(xùn)練庫，因此輸入的文本選擇藏語。本文以藏語的聲韻母為合成基元，借助于語法詞典、語法規(guī)則庫的指導(dǎo)，通過文本規(guī)范化、語法分析、韻律預(yù)測(cè)分析、字音轉(zhuǎn)換，依次獲得輸入文本的語句信息、詞信息、韻律信息和藏語拼音，生成輸入藏語文本的單音素信息、上下文相關(guān)信息，并最終得到語音合成后端所需的單音素標(biāo)注文件和上下文相關(guān)的標(biāo)注文件。

藏文通過文本輸入設(shè)備送入到FPGA內(nèi)部，通過文本分析得到文本的標(biāo)注序列文件，標(biāo)注序列文件是以可讀的文件存放于FLASH存儲(chǔ)器中。然后通過存儲(chǔ)于FLASH存儲(chǔ)器中訓(xùn)練好的HMM數(shù)據(jù)庫，從標(biāo)注序列文件中生成上下文相關(guān)的HMM數(shù)據(jù)序列。最后生成的HMM數(shù)據(jù)序列送入到語音參數(shù)生成器中，進(jìn)行后續(xù)處理。

語音參數(shù)生成器參數(shù)生成過程：

對(duì)于給定的HMM集合λ，通常使用最大似然準(zhǔn)則來進(jìn)行聲學(xué)特征的生成，即求出使

P(o|q_opt,λ)最大的特征序列最優(yōu)狀態(tài)序列q_opt由時(shí)長(zhǎng)模型依據(jù)待合成句的上下文信息進(jìn)行預(yù)測(cè)。其中，特征序列包含了靜態(tài)特征和其一階、二階差分的動(dòng)態(tài)特征，如下所示：

動(dòng)態(tài)特征和靜態(tài)特征之間的約束關(guān)系由o＝Wc決定，其中而W是計(jì)算動(dòng)態(tài)特征的系數(shù)矩陣，有

在這種情況下，參數(shù)生成就是求出使P(o|q,λ)最大的特征序列

令

則有

其中

而和分別是與狀態(tài)序列q_opt相關(guān)的均值矢量和協(xié)方差矩陣。就是生成的特征。

語音合成生成器(MLSA,Mel Log Spectral Approximation)：

語音合成生成器主要是利用輸入的Mel倒譜系數(shù)，按照給定公式構(gòu)造出的一組級(jí)聯(lián)的指數(shù)函數(shù)形式的濾波器。其中給定的公式：

c_m是Mel倒譜系數(shù)，α是全通常數(shù)。

參見圖4所示，語音參數(shù)生成器產(chǎn)生出語音的Mel倒譜系數(shù)(MCC,Mel-cepstral coefficients)輸入語音合成生成器，通過改變語音合成生成器的系數(shù)，達(dá)到校正語音合成生成器的功能，從而可以模仿當(dāng)前語音幀口腔和聲道的形狀特征?；l參數(shù)f0送入激勵(lì)信號(hào)發(fā)生器產(chǎn)生出激勵(lì)，最后通過當(dāng)前語音幀校正過的語音合成生成器，合成出語音。

以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本實(shí)用新型所作的進(jìn)一步詳細(xì)說明，不能認(rèn)定本實(shí)用新型的具體實(shí)施只局限于這些說明。對(duì)于本實(shí)用新型所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本實(shí)用新型構(gòu)思的前提下，還可以做出若干簡(jiǎn)單推演或替換，都應(yīng)當(dāng)視為屬于本實(shí)用新型的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊鴻武;張帥;甘振業(yè)
技術(shù)所有人：西北師范大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音合成相關(guān)技術(shù)

語音合成軟件相關(guān)技術(shù)

語音合成助手相關(guān)技術(shù)

科大訊飛語音合成相關(guān)技術(shù)

真人發(fā)聲語音合成軟件相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于FPGA的藏語語音合成裝置的制作方法