分布式語音合成方法

文檔序號：2824784閱讀：484來源：國知局

專利名稱：分布式語音合成方法
技術(shù)領(lǐng)域：
本發(fā)明涉及在計算機和其它計算設(shè)備上將任意文本轉(zhuǎn)換為自然的口語語音輸出的技術(shù)。
傳統(tǒng)TTS系統(tǒng)的一般處理流程如附

圖1所示，它主要包括文本預處理、語言分析、韻律生成、語音單元挑選、語音合成等關(guān)鍵處理環(huán)節(jié)。
傳統(tǒng)TTS系統(tǒng)處理環(huán)節(jié)眾多，計算復雜度高，系統(tǒng)所需的詞典、音庫容量大。隨著研究的不斷深入，TTS已經(jīng)由桌面級系統(tǒng)向服務(wù)器級系統(tǒng)發(fā)展，由低自然度、低性能系統(tǒng)向高自然度、高性能系統(tǒng)發(fā)展，因而對計算機的處理能力和存儲容量提出了更大的需求。
特別是近一兩年以來，移動終端設(shè)備(如個人數(shù)字助理PDA、嵌入式系統(tǒng))迅速普及，無線互聯(lián)網(wǎng)方興未艾，終端應用掀起了對語音合成的迫切需求。由于移動終端設(shè)備處理能力相對低下，存儲容量相對不足，它們的這些天然特性加上其賴以通信的無線互聯(lián)網(wǎng)現(xiàn)狀(連接距離短、帶寬窄、穩(wěn)定性較差)，PC上傳統(tǒng)TTS系統(tǒng)在該領(lǐng)域不再適用。這對TTS研究提出了新的課題。
為解決這個問題，已有研究者通過減少TTS系統(tǒng)的處理環(huán)節(jié)，簡化文本分析規(guī)則和韻律模型，減少音庫中的語言單元數(shù)量，壓縮音庫等辦法，研制出基于PDA和嵌入式系統(tǒng)的獨立TTS系統(tǒng)。但這種系統(tǒng)從本質(zhì)上而言是PC上大型TTS系統(tǒng)的極端簡化版本，無論是合成語音的自然度、清晰度、可懂度，還是系統(tǒng)效率均與大型TTS系統(tǒng)差距甚遠。
本發(fā)明的目的在于提供一種分布式語音合成方法，旨在將傳統(tǒng)TTS系統(tǒng)一般處理流程中的各個處理環(huán)節(jié)按先后順序劃分為前后兩個部分，每個部分均由連續(xù)的處理環(huán)節(jié)組成，為在資源敏感的移動終端設(shè)備上合成出與PC上大型TTS系統(tǒng)相同自然度的自然語音。
為實現(xiàn)上述目的，本發(fā)明采用一種分布式語音合成方法，它包括語音合成前端處理環(huán)節(jié)和語音合成后端處理環(huán)節(jié)，所述的前端處理環(huán)節(jié)和語音合成后端處理環(huán)節(jié)之間通過數(shù)據(jù)交換標準和協(xié)議標準進行通信，共同完成整個TTS處理過程。
上述方法中，采用DSS服務(wù)器完成前端環(huán)節(jié)任務(wù)，它接收文本，經(jīng)過一系列的處理過程，將其轉(zhuǎn)換為某種中間數(shù)據(jù)輸出，所輸出的中間數(shù)據(jù)傳輸給用于完成后端環(huán)節(jié)任務(wù)的DSS客戶機繼續(xù)處理。
上述方法中，語音合成前端處理環(huán)節(jié)至少包括文本預處理、語言分析、韻律生成、語音單元挑選、語音合成五個處理模塊中的一個或多個，其余的處理模塊由語音合成后端處理環(huán)節(jié)完成。
上述方法中，所述的DSS服務(wù)器選擇完成標記文本層任務(wù)，進行文本預處理，所述的DSS客戶機進行語言分析、韻律生成、語音單元挑選、語音合成處理，中間交換數(shù)據(jù)為文本預處理結(jié)果。
上述方法中，所述的DSS服務(wù)器選擇完成語言分析層任務(wù)，進行文本預處理、語言分析處理，所述的DSS客戶機進行韻律生成、語音單元挑選、語音合成處理，中間交換數(shù)據(jù)為語言分析結(jié)果。
上述方法中，所述的DSS服務(wù)器選擇完成韻律分析層任務(wù)，進行文本預處理、語言分析、韻律生成處理，所述的DSS客戶機進行語音單元挑選、語音合成處理，中間交換數(shù)據(jù)為韻律分析結(jié)果。
上述方法中，所述的DSS服務(wù)器選擇完成音元屬性層任務(wù)，進行文本預處理、語言分析、韻律生成、語音單元挑選處理，所述的DSS客戶機進行語音合成處理，中間交換數(shù)據(jù)為音元屬性序列。
為在資源敏感的移動終端設(shè)備上合成出與PC上大型TTS系統(tǒng)相同自然度的自然語音，我們提出分布式語音合成(Distributed SpeechSynthesis、DSS)的思想將傳統(tǒng)TTS系統(tǒng)一般處理流程中的各個處理環(huán)節(jié)按先后順序劃分為前后兩個部分，每個部分均由連續(xù)的處理環(huán)節(jié)組成。我們把前面部分的處理環(huán)節(jié)總和稱為語音合成前端，把后面部分的處理環(huán)節(jié)總和稱為語音合成后端。分布式語音合成就是指采用客戶/服務(wù)器(C/S)計算模式，語音合成前端運行在服務(wù)器上，語音合成后端運行在客戶機上，服務(wù)器和客戶機之間通過一定的數(shù)據(jù)交換標準和協(xié)議標準進行通信，共同完成整個TTS處理過程。通過服務(wù)器和客戶機之間的協(xié)同工作，將部分工作壓力放在服務(wù)器上，減輕了客戶機的負荷，使得設(shè)計人員可以把注意力集中放在語音合成提升效果上，因而可以獲得高自然度的合成語音。我們把完成語音合成前端任務(wù)的服務(wù)器稱為DSS服務(wù)器，把完成語音合成后端任務(wù)的客戶機稱為DSS客戶機。
同現(xiàn)有技術(shù)相比，本發(fā)明具有突出的實質(zhì)性特點和顯著的技術(shù)進步，主要表現(xiàn)在以下方面1)提出語言分布式合成的方案在無線移動場合的應用，由于終端的移動狀態(tài)和操作屏幕的天然不兼容，使得語音合成成為必須。目前的移動終端設(shè)備由于計算能力低下，存儲容量小，無法進行十分復雜的計算和大量數(shù)據(jù)的存儲，但在終端(特別是通信終端)場合下，內(nèi)容往往是服務(wù)端(內(nèi)容提供端)集中生成的，因此在綜合帶寬等因素情況下，分布式合成語言的方法成為有效且唯一解決方案；2)提出語音合成效果最佳化，終端空閑資源利用最大化，服務(wù)器和網(wǎng)絡(luò)負載最小化思想在大規(guī)模移動終端語音應用的場合中，每一個終端設(shè)備均在某一原則的指導下，獲取最佳效果的語音合成服務(wù)。這個原則是盡可能地利用自身的空閑資源，以最大化的釋放網(wǎng)絡(luò)和服務(wù)器的負載，使得其它用戶可以方便地接入。
參見圖2，圖2給出了發(fā)明的基本工作原理，C/S計算模式要求參與者有服務(wù)器、客戶機、數(shù)據(jù)交換標準和網(wǎng)絡(luò)協(xié)議四個組成部分。下面我們就這四個組成部分分別進行闡述。
1.DSS服務(wù)器DSS服務(wù)器指在DSS方法中，完成語音合成前端任務(wù)的執(zhí)行實體。一臺獨立的計算機是DSS服務(wù)器最常見的形式，但不限于此。DSS服務(wù)器接收文本(來自DSS客戶機或網(wǎng)絡(luò)上的Web服務(wù)器)，經(jīng)過一系列的處理過程(語音合成前端)，將其轉(zhuǎn)換為某種中間數(shù)據(jù)(相對于TTS系統(tǒng)的最終輸出——語音)輸出，這種輸出將被傳輸給DSS客戶機繼續(xù)處理。
由于需要與DSS客戶機和Web服務(wù)器交互，網(wǎng)絡(luò)連接成為必須，并且DSS服務(wù)器所接入的網(wǎng)絡(luò)必須支持HTTP傳輸協(xié)議。
DSS服務(wù)器的基本結(jié)構(gòu)如圖3所示DSS服務(wù)器包括以下幾個組成部件1)服務(wù)器核心引擎(Server Engine)指DSS服務(wù)器中，完成文本到某種中間數(shù)據(jù)轉(zhuǎn)換的功能部件，即實現(xiàn)語音合成前端的功能部件。
2)轉(zhuǎn)碼器(Transcoder)指DSS服務(wù)器中，將待合成的內(nèi)容轉(zhuǎn)換為文本的功能部件，待合成的內(nèi)容是文本，也可以是HTML、XML，URL指向內(nèi)容，最常見的形式是將HTML、XML等轉(zhuǎn)為文本。
3)服務(wù)器瀏覽器(Server Browser)指DSS服務(wù)器中，負責獲取指定URL內(nèi)容的功能部件。
4)分布式語音合成網(wǎng)絡(luò)應用協(xié)議(DSSNAP)指DSS服務(wù)器中，負責與DSS客戶機進行通信的功能部件。
5)服務(wù)器瀏覽器(Server Browser)指DSS服務(wù)器中，負責獲取指定URL內(nèi)服務(wù)器應用程序開發(fā)接口(Server API)提供給第三方開發(fā)DSS服務(wù)器的應用程序開發(fā)接口。
DSS服務(wù)器接受兩種來自DSS客戶機的請求，一是內(nèi)容請求(Content Request)，表示DSS客戶機直接將帶合成內(nèi)容(文本或其它)發(fā)送給DSS服務(wù)器；二是URL請求(URL Request)，表示DSS客戶機將URL發(fā)送給DSS服務(wù)器，由DSS服務(wù)器負責從網(wǎng)絡(luò)上獲取合成內(nèi)容。
DSS服務(wù)器獲取到合成內(nèi)容后，將非文本內(nèi)容送入轉(zhuǎn)碼器，得到文本。然后將文本送入核心引擎，得到中間數(shù)據(jù)。這種中間數(shù)據(jù)以CSSML(中文語音合成標記語言)的形式存在。有關(guān)CSSML的內(nèi)容，我們將在“中間數(shù)據(jù)交換標準”一節(jié)中進行闡述。
在URL請求模式中，如果URL指向一CSSML文檔，這個文檔將直接被送給DSS客戶機，因為它已不需要DSS服務(wù)器的處理。
2.DSS客戶機DSS客戶機指在DSS方法中，完成語音合成后端任務(wù)的執(zhí)行實體。一臺獨立的計算機是DSS客戶機最常見的形式，但不限于此。DSS客戶機接收某種中間數(shù)據(jù)(來自DSS服務(wù)器或網(wǎng)絡(luò)上的Web服務(wù)器)，經(jīng)過一系列的處理過程(語音合成后端)，將其轉(zhuǎn)換為最終語音輸出，完成TTS系統(tǒng)的完整處理過程。
由于需要與DSS服務(wù)器和Web服務(wù)器交互，網(wǎng)絡(luò)連接成為必須，并且DSS客戶機所接入的網(wǎng)絡(luò)必須支持HTTP傳輸協(xié)議。
DSS客戶機的基本結(jié)構(gòu)如圖2.3所示DSS客戶機包括以下幾個組成部件1)客戶機核心引擎(Server Engine)指DSS客戶機中，完成某種中間數(shù)據(jù)到語音轉(zhuǎn)換的功能部件，即實現(xiàn)語音合成后端的功能部件。
2)分布式語音合成網(wǎng)絡(luò)應用協(xié)議(DSSNAP)指DSS客戶機中，負責與DSS服務(wù)器進行通信的功能部件。
3)客戶機應用程序開發(fā)接口(Client API)提供給第三方開發(fā)DSS客戶機的應用程序開發(fā)接口。
DSS客戶機可以向DSS服務(wù)器發(fā)出兩種請求，即內(nèi)容請求和URL請求，作用與DSS服務(wù)器完全對應。DSS客戶機從DSS服務(wù)器或Web服務(wù)器接收某種中間數(shù)據(jù)(以CSSML形式存在)，將其轉(zhuǎn)換為語音輸出。
3.中間數(shù)據(jù)交換標準在分布式計算方案中，特別是在C/S模式下，服務(wù)器和客戶機協(xié)同工作，共同完成某件任務(wù)。因此，服務(wù)器和客戶機之間必然需要交換具有一定格式和意義的數(shù)據(jù)。我們來考察圖1傳統(tǒng)TTS系統(tǒng)的一般處理流程。該圖指出，傳統(tǒng)TTS系統(tǒng)，按照處理環(huán)節(jié)相對獨立、邊界清晰度大的原則，可以分為文本預處理、語言分析、韻律生成、語音單元挑選、語音合成五個模塊。劃分語音合成前后端，就是哪些模塊放在服務(wù)器處理，哪些模塊放在客戶機處理的問題。由于前后端劃分必須遵循處理環(huán)節(jié)連續(xù)的原則，因此，針對TTS系統(tǒng)，有如下六種劃分方法名前端(服務(wù)器執(zhí)行)處后端(客戶機執(zhí)行)處理中間交換數(shù)據(jù)稱理環(huán)節(jié) 環(huán)節(jié)純文本預處理純文本文語言分析本韻律生成層語音單元挑選語音合成標文本預處理語言分析文本預處理結(jié)記韻律生成果文語音單元挑選本語音合成層語文本預處理韻律生成語言分析結(jié)果言語言分析語音單元挑選分語音合成析層韻文本預處理語音單元挑選韻律分析結(jié)果律語言分析語音合成分韻律生成析層音文本預處理語音合成音元屬性序列元語言分析屬韻律生成性語音單元挑選層語文本預處理語音音語言分析層韻律生成語音單元挑選語音合成上表中第一層純文本層和第六層語音層，其合成方式屬于現(xiàn)有技術(shù)，分別對應現(xiàn)有的Client-Only和Server-Only兩種架構(gòu)。本發(fā)明涉及的技術(shù)解決方案提出了第二層至第五層所列的具體分步式合成方式。
上述語音合成前后端的不同劃分方法，對服務(wù)器負載、客戶機負載、網(wǎng)絡(luò)帶寬等的要求不同。因為服務(wù)器負載、客戶機負載、網(wǎng)絡(luò)帶寬是隨時變動的，因此，DSS采取這樣的策略，在任何時刻，語音合成前后端的劃分，取決于該時刻服務(wù)器負載、客戶機負載、網(wǎng)絡(luò)帶寬的綜合評估。
針對上表中的6種劃分方法，決定了DSS服務(wù)器和DSS客戶機之間共有6種中間數(shù)據(jù)交換內(nèi)容。我們基于XML結(jié)構(gòu)化文檔基礎(chǔ)上，提出層次化中文語音合成標注語言(ML-CSSML)，對這6種中間數(shù)據(jù)交換內(nèi)容進行了全面的描述，作為DSS方法中間數(shù)據(jù)交換標準。本發(fā)明則要求前端與后端選擇完成上述第2層～第5層中的各項對應任務(wù)。
4.網(wǎng)絡(luò)與協(xié)議DSS服務(wù)器和DSS客戶機之間的通信除了遵循一定的數(shù)據(jù)交換標準之外，還必須遵循一定的協(xié)議標準，以定義DSS服務(wù)器和DSS客戶機的交互行為。根據(jù)語音合成固有的請求/響應機制，我們基于HTTP協(xié)議基礎(chǔ)之上，制定分布式語音合成網(wǎng)絡(luò)應用協(xié)議(DSSNAP)。它具有如下主要特性1)動態(tài)仲裁根據(jù)服務(wù)器負載、客戶機負載、網(wǎng)絡(luò)帶寬綜合因素，動態(tài)仲裁使用何種數(shù)據(jù)交換標準。仲裁的原則是終端空閑資源利用最大化，服務(wù)器和網(wǎng)絡(luò)負載最小化。
在合成語音效果保證的前提下，盡可能最大化地使用終端的資源，以釋放服務(wù)器和網(wǎng)絡(luò)負載，從而允許更多的終端訪問，使大應用環(huán)境的建立成為可能。
2)負載平衡根據(jù)服務(wù)器負載情況，自動將客戶機的請求導向負載較小的服務(wù)器，以實現(xiàn)負載平衡。
3)數(shù)據(jù)壓縮
DSS方法中的中間交換數(shù)據(jù)以CSSML為載體。基于XML的CSSML文檔，由于以文本的形式描述結(jié)構(gòu)化數(shù)據(jù)，而這種結(jié)構(gòu)化數(shù)據(jù)要求具有良好的自描述能力，因此必須足夠大以容納所有必需的標記和屬性。通常，CSSML文檔的尺寸都比較大，不利于在網(wǎng)絡(luò)上傳輸。必須在協(xié)議層提供數(shù)據(jù)壓縮功能，以完成CSSML文檔的透明壓縮和解壓。
4)數(shù)據(jù)安全指數(shù)據(jù)在傳輸過程中不丟失、不泄漏、不被非法使用。
DSS有三種應用模式離線、在線和定制。
離線式DSS指DSS服務(wù)器完成文本到CSSML文檔的轉(zhuǎn)換，DSS客戶機完成CSSML文檔到語音的轉(zhuǎn)換，DSS服務(wù)器和DSS客戶機之間不需要實時通信，CSSML文檔可以通過某種數(shù)據(jù)傳輸服務(wù)(如網(wǎng)絡(luò)、電話信道或光盤、磁帶等靜態(tài)媒體等)非實時地由服務(wù)端送往客戶端。
在線式DSS指除了DSS服務(wù)器和DSS客戶機的功能與離線式DSS相同之外，DSS服務(wù)器和DSS客戶機之間需要實時通信并且遵循分布式語音合成網(wǎng)絡(luò)應用協(xié)議(DSSNAP)。
結(jié)合離線式DSS和在線式DSS的各自的特點，定制DSS指除了DSS服務(wù)器和DSS客戶機的功能與離線式DSS或在線式DSS相同之外，DSS服務(wù)器和DSS客戶機之間需要實時通信，但通信功能模塊與具體應用相關(guān)，由應用定制。
以下是本發(fā)明中有關(guān)術(shù)語和名詞的具體解釋C/S(Client/Server)客戶/服務(wù)器模式。指網(wǎng)絡(luò)應用中一種非對稱(或者叫主從式)的協(xié)同計算模式。在該模式中，服務(wù)器往往完成工作量較大的任務(wù)，客戶往往完成工作量較少的任務(wù)，客戶和服務(wù)器之間通過一定的協(xié)議交換數(shù)據(jù)。
HTTP(Hyper Text transfer protocol)超文本傳輸協(xié)議。WWW(萬維網(wǎng))上的一種標準的超文本傳輸協(xié)議。
URL(Uniform Resource Locator)一致性資源定位法。用于指明資料在互聯(lián)網(wǎng)絡(luò)上的取得方式與位置。其格式為通訊協(xié)議//服務(wù)器地址通訊端口/路徑/文件名。例如http//www.hljucm.net.cnHTML(Hyper Text Markup Language)超文本標識語言。是用于創(chuàng)建網(wǎng)頁的編程語言。
XML(Extensible Markup Language)可擴展標記語言。使用它就可以以容易而一致的方式格式格式化和傳送數(shù)據(jù)。
Server API(Server Application Programming Interface)服務(wù)器應用程序開發(fā)接口。指提供給第三方開發(fā)DSS服務(wù)器的開發(fā)接口。
CSSML(Chinese Speech Synthesis Markup language)中文語音合成標注語言。DSS服務(wù)器與客戶機之間進行通信必須遵循的中間數(shù)據(jù)交換標準，是一種基于可擴展標注語言XML的語音合成前后端之間數(shù)據(jù)交換的載體。
DSSNAP(DSS Net Application Protocol)分布式語音合成網(wǎng)絡(luò)應用協(xié)議。DSS服務(wù)器與客戶機之間進行通信必須遵循的協(xié)議標準。
Client API客戶機應用程序開發(fā)接口。指提供給第三方開發(fā)DSS客戶機的開發(fā)接口。
ML-CSSML(Multi-layer CSSML)層次化中文語音合成標注語言。由于DSS系統(tǒng)中存在不同層次的中間交換數(shù)據(jù)，因此，作為數(shù)據(jù)交換的載體的CSSML也必須是相應層次化的，以描述各個層次的中間交換數(shù)據(jù)。
DSS定制應用模式介于離線和在線兩種模式之中的DSS應用模式。它指DSS服務(wù)器和客戶機需要實時通信，但通信的手段、方法、內(nèi)容可以根據(jù)具體應用定制，不受DSSNAP的制約。
權(quán)利要求
1.一種分布式語音合成方法，它包括語音合成前端處理環(huán)節(jié)和語音合成后端處理環(huán)節(jié)，所述的前端處理環(huán)節(jié)和語音合成后端處理環(huán)節(jié)之間通過數(shù)據(jù)交換標準和協(xié)議標準進行通信，共同完成整個TTS處理過程。
2.根據(jù)權(quán)利要求1所述的分布式語音合成方法，其特征在于采用DSS服務(wù)器完成前端環(huán)節(jié)任務(wù)，它接收文本，經(jīng)過一系列的處理過程，將其轉(zhuǎn)換為某種中間數(shù)據(jù)輸出，所輸出的中間數(shù)據(jù)傳輸給用于完成后端環(huán)節(jié)任務(wù)的DSS客戶機繼續(xù)處理。
3.根據(jù)權(quán)利要求1或2所述的分布式語音合成方法，其特征在于語音合成前端處理環(huán)節(jié)至少包括文本預處理、語言分析、韻律生成、語音單元挑選、語音合成五個處理模塊中的一個或多個，其余的處理模塊由語音合成后端處理環(huán)節(jié)完成。
4.根據(jù)權(quán)利要求3所述的分布式語音合成方法，其特征在于所述的DSS服務(wù)器完成標記文本層任務(wù)，進行文本預處理，所述的DSS客戶機進行語言分析、韻律生成、語音單元挑選、語音合成處理，中間交換數(shù)據(jù)為文本預處理結(jié)果。
5.根據(jù)權(quán)利要求3所述的分布式語音合成方法，其特征在于所述的DSS服務(wù)器完成語言分析層任務(wù)，進行文本預處理、語言分析處理，所述的DSS客戶機進行韻律生成、語音單元挑選、語音合成處理，中間交換數(shù)據(jù)為語言分析結(jié)果。
6.根據(jù)權(quán)利要求3所述的分布式語音合成方法，其特征在于所述的DSS服務(wù)器完成韻律分析層任務(wù)，進行文本預處理、語言分析、韻律生成處理，所述的DSS客戶機進行語音單元挑選、語音合成處理，中間交換數(shù)據(jù)為韻律分析結(jié)果。
7.根據(jù)權(quán)利要求3所述的分布式語音合成方法，其特征在于所述的DSS服務(wù)器完成音元屬性層任務(wù)，進行文本預處理、語言分析、韻律生成、語音單元挑選處理，所述的DSS客戶機進行語音合成處理，中間交換數(shù)據(jù)為音元屬性序列。
8.根據(jù)權(quán)利要求2所述的分布式語音合成方法，其特征在于所述的DSS服務(wù)器包括以下幾個組成部件1)服務(wù)器核心引擎(Server Engine)，它用于完成文本到某種中間數(shù)據(jù)轉(zhuǎn)換；2)轉(zhuǎn)碼器(Transcoder)，待合成的內(nèi)容轉(zhuǎn)換為文本；3)服務(wù)器瀏覽器(Server Browser)，負責獲取指定URL內(nèi)容；4)分布式語音合成網(wǎng)絡(luò)應用協(xié)議(DSSNAP)，負責與DSS客戶機進行通信的功能部件；5)服務(wù)器應用程序開發(fā)接口(Server API)，提供給第三方開發(fā)DSS服務(wù)器的應用程序開發(fā)接口。
9.根據(jù)權(quán)利要求2所述的分布式語音合成方法，其特征在于DSS客戶機包括以下幾個組成部件1)客戶機核心引擎(Server Engine)，完成某種中間數(shù)據(jù)到語音的轉(zhuǎn)換；2)分布式語音合成網(wǎng)絡(luò)應用協(xié)議(DSSNAP)，負責與DSS服務(wù)器進行通信；3)客戶機應用程序開發(fā)接口(Client API)提供給第三方開發(fā)DSS客戶機的應用程序開發(fā)接口。
10.根據(jù)權(quán)利要求8或9所述的分布式語音合成方法，其特征在于DSS服務(wù)器接受兩種來自DSS客戶機的請求，一是內(nèi)容請求(ContentRequest)，表示DSS客戶機直接將帶合成內(nèi)容(文本或其它)發(fā)送給DSS服務(wù)器，二是URL請求(URL Request)，表示DSS客戶機將URL發(fā)送給DSS服務(wù)器，由DSS服務(wù)器負責從網(wǎng)絡(luò)上獲取合成內(nèi)容；DSS客戶機可以向DSS服務(wù)器發(fā)出兩種請求，即內(nèi)容請求和URL請求，作用與DSS服務(wù)器相互對應，DSS客戶機從DSS服務(wù)器或Web服務(wù)器接收某種中間數(shù)據(jù)(以CSSML形式存在)，將其轉(zhuǎn)換為語音輸出DSS客戶機和Web服務(wù)器通過網(wǎng)絡(luò)連接，并且DSS服務(wù)器所接入的網(wǎng)絡(luò)支持HTTP傳輸協(xié)議。
全文摘要
本發(fā)明的目的在于提供一種分布式語音合成方法,旨在將傳統(tǒng)TTS系統(tǒng)一般處理流程中的各個處理環(huán)節(jié)按先后順序劃分為前后兩個部分,所述的前端處理環(huán)節(jié)和語音合成后端處理環(huán)節(jié)之間通過數(shù)據(jù)交換標準和協(xié)議標準進行通信,共同完成整個TTS處理過程,為在資源敏感的移動終端設(shè)備上合成出與PC上大型TTS系統(tǒng)相同自然度的自然語音,盡可能地利用自身的空閑資源,以最大化的釋放網(wǎng)絡(luò)和服務(wù)器的負載,使得其它用戶可以方便地接入。
文檔編號G10L13/00GK1384490SQ0211601
公開日2002年12月11日申請日期2002年4月23日優(yōu)先權(quán)日2002年4月23日
發(fā)明者唐浩, 尹波申請人:安徽中科大訊飛信息科技有限公司

完整全部詳細技術(shù)資料下載