專(zhuān)利名稱(chēng):分布式語(yǔ)音合成系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在計(jì)算機(jī)和其它計(jì)算設(shè)備上將任意文本轉(zhuǎn)換為自然的口語(yǔ)語(yǔ)音輸出技術(shù)。
背景技術(shù):
語(yǔ)音合成,又稱(chēng)文語(yǔ)轉(zhuǎn)換(Text-To-Speech、TTS),旨在研究如何在計(jì)算機(jī)和其它計(jì)算設(shè)備上將任意文本轉(zhuǎn)換為自然的口語(yǔ)語(yǔ)音輸出的問(wèn)題。它涉及語(yǔ)言學(xué)、語(yǔ)音學(xué)、聲學(xué)、信號(hào)處理、人工智能和多媒體等領(lǐng)域的知識(shí)。國(guó)內(nèi)外很多公司、大學(xué)和研究機(jī)構(gòu)對(duì)TTS做了大量的研究,并且取得了令人矚目的成就。
傳統(tǒng)TTS系統(tǒng)的一般處理流程如附
圖1所示,它主要包括文本預(yù)處理、語(yǔ)言分析、韻律生成、語(yǔ)音單元挑選、語(yǔ)音合成等關(guān)鍵處理環(huán)節(jié)。
傳統(tǒng)TTS系統(tǒng)處理環(huán)節(jié)眾多,計(jì)算復(fù)雜度高,系統(tǒng)所需的詞典、音庫(kù)容量大,隨著研究的不斷深入,TTS已經(jīng)由桌面級(jí)系統(tǒng)向服務(wù)器級(jí)系統(tǒng)發(fā)展,由低自然度、低性能系統(tǒng)向高自然度、高性能系統(tǒng)發(fā)展,因而對(duì)計(jì)算機(jī)的處理能力和存儲(chǔ)容量提出了更大的需求。
特別是近一兩年以來(lái),移動(dòng)終端設(shè)備(如個(gè)人數(shù)字助理PDA、嵌入式系統(tǒng))迅速普及,無(wú)線互聯(lián)網(wǎng)方興未艾,終端應(yīng)用掀起了對(duì)語(yǔ)音合成的迫切需求。由于移動(dòng)終端設(shè)備處理能力相對(duì)低下,存儲(chǔ)容量相對(duì)不足,它們的這些天然特性加上其賴(lài)以通信的無(wú)線互聯(lián)網(wǎng)現(xiàn)狀(連接距離短、帶寬窄、穩(wěn)定性較差),PC上傳統(tǒng)TTS系統(tǒng)在該領(lǐng)域不再適用。這對(duì)TTS研究提出了新的課題。
為解決這個(gè)問(wèn)題,已有研究者通過(guò)減少TTS系統(tǒng)的處理環(huán)節(jié),簡(jiǎn)化文本分析規(guī)則和韻律模型,減少音庫(kù)中的語(yǔ)言單元數(shù)量,壓縮音庫(kù)等辦法,研制出基于PDA和嵌入式系統(tǒng)的獨(dú)立TTS系統(tǒng)。但這種系統(tǒng)從本質(zhì)上而言是PC上大型TTS系統(tǒng)的極端簡(jiǎn)化版本,無(wú)論是合成語(yǔ)音的自然度、清晰度、可懂度,還是系統(tǒng)效率均與大型TTS系統(tǒng)差距甚遠(yuǎn)。
技術(shù)內(nèi)容本發(fā)明的目的在于提供一種分布式語(yǔ)音合成系統(tǒng),旨在將傳統(tǒng)TTS系統(tǒng)一般處理流程中的各個(gè)處理環(huán)節(jié)按先后順序劃分為前后兩個(gè)部分,每個(gè)部分均由連續(xù)的處理環(huán)節(jié)組成,為在資源敏感的移動(dòng)終端設(shè)備上合成出與PC上大型TTS系統(tǒng)相同自然度的自然語(yǔ)音。
為實(shí)現(xiàn)上述目的,本發(fā)明所公開(kāi)的分布式語(yǔ)音合成系統(tǒng),其特征在于系統(tǒng)包括語(yǔ)音合成前端處理環(huán)節(jié)和語(yǔ)音合成后端處理環(huán)節(jié),所述的語(yǔ)音合成前端環(huán)節(jié)運(yùn)行在服務(wù)器上,語(yǔ)音合成后端環(huán)節(jié)運(yùn)行在客戶(hù)機(jī)上,采用客戶(hù)/服務(wù)器(C/S)計(jì)算模式,服務(wù)器和客戶(hù)機(jī)之間通過(guò)數(shù)據(jù)交換標(biāo)準(zhǔn)和協(xié)議標(biāo)準(zhǔn)進(jìn)行通信,共同完成整個(gè)TTS處理過(guò)程。
為在資源敏感的移動(dòng)終端設(shè)備上合成出與PC上大型TTS系統(tǒng)相同自然度的自然語(yǔ)音,我們提出分布式語(yǔ)音合成(Distributed SpeechSynthesis、DSS)的思想將傳統(tǒng)TTS系統(tǒng)一般處理流程中的各個(gè)處理環(huán)節(jié)按先后順序劃分為前后兩個(gè)部分,每個(gè)部分均由連續(xù)的處理環(huán)節(jié)組成。我們把前面部分的處理環(huán)節(jié)總和稱(chēng)為語(yǔ)音合成前端,把后面部分的處理環(huán)節(jié)總和稱(chēng)為語(yǔ)音合成后端。分布式語(yǔ)音合成就是指采用客戶(hù)/服務(wù)器(C/S)計(jì)算模式,語(yǔ)音合成前端運(yùn)行在服務(wù)器上,語(yǔ)音合成后端運(yùn)行在客戶(hù)機(jī)上,服務(wù)器和客戶(hù)機(jī)之間通過(guò)一定的數(shù)據(jù)交換標(biāo)準(zhǔn)和協(xié)議標(biāo)準(zhǔn)進(jìn)行通信,共同完成整個(gè)TTS處理過(guò)程。通過(guò)服務(wù)器和客戶(hù)機(jī)之間的協(xié)同工作,將部分工作壓力放在服務(wù)器上,減輕了客戶(hù)機(jī)的負(fù)荷,使得設(shè)計(jì)人員可以把注意力集中放在語(yǔ)音合成提升效果上,因而可以獲得高自然度的合成語(yǔ)音。我們把完成語(yǔ)音合成前端任務(wù)的服務(wù)器稱(chēng)為DSS服務(wù)器,把完成語(yǔ)音合成后端任務(wù)的客戶(hù)機(jī)稱(chēng)為DSS客戶(hù)機(jī)。
同現(xiàn)有技術(shù)相比,本發(fā)明具有突出的實(shí)質(zhì)性特點(diǎn)和顯著的技術(shù)進(jìn)步,主要表現(xiàn)在以下方面1)提出分布式計(jì)算方案在無(wú)線移動(dòng)場(chǎng)合的應(yīng)用,由于終端的移動(dòng)狀態(tài)和操作屏幕的天然不兼容,使得語(yǔ)音合成成為必須。目前的移動(dòng)終端設(shè)備由于計(jì)算能力低下,存儲(chǔ)容量小,無(wú)法進(jìn)行十分復(fù)雜的計(jì)算和大量數(shù)據(jù)的存儲(chǔ),但在終端(特別是通信終端)場(chǎng)合下,內(nèi)容往往是服務(wù)端(內(nèi)容提供端)集中生成的,因此在綜合帶寬等因素情況下,分布式計(jì)算成為有效且唯一解決方案;2)提出語(yǔ)音合成效果最佳化,終端空閑資源利用最大化,服務(wù)器和網(wǎng)絡(luò)負(fù)載最小化思想在大規(guī)模移動(dòng)終端語(yǔ)音應(yīng)用的場(chǎng)合中,每一個(gè)終端設(shè)備均在某一原則的指導(dǎo)下,獲取最佳效果的語(yǔ)音合成服務(wù)。這個(gè)原則是盡可能地利用自身的空閑資源,以最大化的釋放網(wǎng)絡(luò)和服務(wù)器的負(fù)載,使得其它用戶(hù)可以方便地接入。
附圖概述圖1是傳統(tǒng)TTS系統(tǒng)的一般處理流程原理框圖;圖2本發(fā)明DSS系統(tǒng)的基本原理架構(gòu)圖;圖3是發(fā)明DSS系統(tǒng)中DSS服務(wù)器的基本結(jié)構(gòu)示意圖;圖4是發(fā)明DSS系統(tǒng)中DSS客戶(hù)機(jī)的基本結(jié)構(gòu)示意圖。
實(shí)施方式參見(jiàn)圖2,圖2給出了發(fā)明DSS系統(tǒng)的基本工作原理,C/S計(jì)算模式要求參與者有服務(wù)器、客戶(hù)機(jī)、數(shù)據(jù)交換標(biāo)準(zhǔn)和網(wǎng)絡(luò)協(xié)議四個(gè)組成部分。下面我們就這四個(gè)組成部分分別進(jìn)行闡述。
1.DSS服務(wù)器DSS服務(wù)器指在DSS系統(tǒng)中,完成語(yǔ)音合成前端任務(wù)的執(zhí)行實(shí)體。一臺(tái)獨(dú)立的計(jì)算機(jī)是DSS服務(wù)器最常見(jiàn)的形式,但不限于此。DSS服務(wù)器接收文本(來(lái)自DSS客戶(hù)機(jī)或網(wǎng)絡(luò)上的Web服務(wù)器),經(jīng)過(guò)一系列的處理過(guò)程(語(yǔ)音合成前端),將其轉(zhuǎn)換為某種中間數(shù)據(jù)(相對(duì)于TTS系統(tǒng)的最終輸出——語(yǔ)音)輸出,這種輸出將被傳輸給DSS客戶(hù)機(jī)繼續(xù)處理。
由于需要與DSS客戶(hù)機(jī)和Web服務(wù)器交互,網(wǎng)絡(luò)連接成為必須,并且DSS服務(wù)器所接入的網(wǎng)絡(luò)必須支持HTTP傳輸協(xié)議。
DSS服務(wù)器的基本結(jié)構(gòu)如圖3所示DSS服務(wù)器包括以下幾個(gè)組成部件1)服務(wù)器核心引擎(Server Engine)指DSS服務(wù)器中,完成文本到某種中間數(shù)據(jù)轉(zhuǎn)換的功能部件,即實(shí)現(xiàn)語(yǔ)音合成前端的功能部件。
2)轉(zhuǎn)碼器(Transcoder)指DSS服務(wù)器中,將待合成的內(nèi)容轉(zhuǎn)換為文本的功能部件,待合成的內(nèi)容最常見(jiàn)的形式是將HTML、XML等轉(zhuǎn)為文本。
3)服務(wù)器瀏覽器(Server Browser)指DSS服務(wù)器中,負(fù)責(zé)獲取指定URL內(nèi)容的功能部件。
4)分布式語(yǔ)音合成網(wǎng)絡(luò)應(yīng)用協(xié)議(DSSNAP)指DSS服務(wù)器中,負(fù)責(zé)與DSS客戶(hù)機(jī)進(jìn)行通信的功能部件。
5)服務(wù)器瀏覽器(Server Browser)指DSS服務(wù)器中,負(fù)責(zé)獲取指定URL內(nèi)服務(wù)器應(yīng)用程序開(kāi)發(fā)接口(Server API)提供給第三方開(kāi)發(fā)DSS服務(wù)器的應(yīng)用程序開(kāi)發(fā)接口。
DSS服務(wù)器接受兩種來(lái)自DSS客戶(hù)機(jī)的請(qǐng)求,一是內(nèi)容請(qǐng)求(Content Request),表示DSS客戶(hù)機(jī)直接將帶合成內(nèi)容(文本或其它)發(fā)送給DSS服務(wù)器;二是URL請(qǐng)求(URL Request),表示DSS客戶(hù)機(jī)將URL發(fā)送給DSS服務(wù)器,由DSS服務(wù)器負(fù)責(zé)從網(wǎng)絡(luò)上獲取合成內(nèi)容。
DSS服務(wù)器獲取到合成內(nèi)容后,將非文本內(nèi)容送入轉(zhuǎn)碼器,得到文本。然后將文本送入核心引擎,得到中間數(shù)據(jù)。這種中間數(shù)據(jù)以CSSML(中文語(yǔ)音合成標(biāo)記語(yǔ)言)的形式存在。有關(guān)CSSML的內(nèi)容,我們將在“中間數(shù)據(jù)交換標(biāo)準(zhǔn)”一節(jié)中進(jìn)行闡述。
在URL請(qǐng)求模式中,如果URL指向一CSSML文檔,這個(gè)文檔將直接被送給DSS客戶(hù)機(jī),因?yàn)樗巡恍枰狣SS服務(wù)器的處理。
2.DSS客戶(hù)機(jī)DSS客戶(hù)機(jī)指在DSS系統(tǒng)中,完成語(yǔ)音合成后端任務(wù)的執(zhí)行實(shí)體。一臺(tái)獨(dú)立的計(jì)算機(jī)是DSS客戶(hù)機(jī)最常見(jiàn)的形式,但不限于此。DSS客戶(hù)機(jī)接收某種中間數(shù)據(jù)(來(lái)自DSS服務(wù)器或網(wǎng)絡(luò)上的Web服務(wù)器),經(jīng)過(guò)一系列的處理過(guò)程(語(yǔ)音合成后端),將其轉(zhuǎn)換為最終語(yǔ)音輸出,完成TTS系統(tǒng)的完整處理過(guò)程。
由于需要與DSS服務(wù)器和Web服務(wù)器交互,網(wǎng)絡(luò)連接成為必須,并且DSS客戶(hù)機(jī)所接入的網(wǎng)絡(luò)必須支持HTTP傳輸協(xié)議。
DSS客戶(hù)機(jī)的基本結(jié)構(gòu)如圖2.3所示DSS客戶(hù)機(jī)包括以下幾個(gè)組成部件1)客戶(hù)機(jī)核心引擎(Server Engine)指DSS客戶(hù)機(jī)中,完成某種中間數(shù)據(jù)到語(yǔ)音轉(zhuǎn)換的功能部件,即實(shí)現(xiàn)語(yǔ)音合成后端的功能部件。
2)分布式語(yǔ)音合成網(wǎng)絡(luò)應(yīng)用協(xié)議(DSSNAP)指DSS客戶(hù)機(jī)中,負(fù)責(zé)與DSS服務(wù)器進(jìn)行通信的功能部件。
3)客戶(hù)機(jī)應(yīng)用程序開(kāi)發(fā)接口(Client API)提供給第三方開(kāi)發(fā)DSS客戶(hù)機(jī)的應(yīng)用程序開(kāi)發(fā)接口。
DSS客戶(hù)機(jī)可以向DSS服務(wù)器發(fā)出兩種請(qǐng)求,即內(nèi)容請(qǐng)求和URL請(qǐng)求,作用與DSS服務(wù)器完全對(duì)應(yīng)。DSS客戶(hù)機(jī)從DSS服務(wù)器或Web服務(wù)器接收某種中間數(shù)據(jù)(以CSSML形式存在),將其轉(zhuǎn)換為語(yǔ)音輸出。
3.中間數(shù)據(jù)交換標(biāo)準(zhǔn)在分布式計(jì)算系統(tǒng)中,特別是在C/S模式下,服務(wù)器和客戶(hù)機(jī)協(xié)同工作,共同完成某件任務(wù)。因此,服務(wù)器和客戶(hù)機(jī)之間必然需要交換具有一定格式和意義的數(shù)據(jù)。我們來(lái)考察圖1.1傳統(tǒng)TTS系統(tǒng)的一般處理流程。該圖指出,傳統(tǒng)TTS系統(tǒng),按照處理環(huán)節(jié)相對(duì)獨(dú)立、邊界清晰度大的原則,可以分為文本預(yù)處理、語(yǔ)言分析、韻律生成、語(yǔ)音單元挑選、語(yǔ)音合成五個(gè)模塊。劃分語(yǔ)音合成前后端,就是哪些模塊放在服務(wù)器處理,哪些模塊放在客戶(hù)機(jī)處理的問(wèn)題。由于前后端劃分必須遵循處理環(huán)節(jié)連續(xù)的原則,因此,針對(duì)TTS系統(tǒng),有如下表所列的六種劃分方法名 前端(服務(wù)器執(zhí)行)處 后端(客戶(hù)機(jī)執(zhí)行)處 中間交換數(shù)據(jù)稱(chēng) 理環(huán)節(jié) 理環(huán)節(jié)純 文本預(yù)處理 純文本文 語(yǔ)言分析本 韻律生成層 語(yǔ)音單元挑選語(yǔ)音合成標(biāo) 文本預(yù)處理 語(yǔ)言分析文本預(yù)處理結(jié)記 韻律生成果文 語(yǔ)音單元挑選本 語(yǔ)音合成層語(yǔ) 文本預(yù)處理 韻律生成語(yǔ)言分析結(jié)果言 語(yǔ)言分析語(yǔ)音單元挑選分 語(yǔ)音合成析層韻 文本預(yù)處理 語(yǔ)音單元挑選 韻律分析結(jié)果律 語(yǔ)言分析語(yǔ)音合成分 韻律生成析層音 文本預(yù)處理 語(yǔ)音合成 音元屬性序列元 語(yǔ)言分析屬 韻律生成性 語(yǔ)音單元挑選層語(yǔ) 文本預(yù)處理 語(yǔ)音音 語(yǔ)言分析層 韻律生成語(yǔ)音單元挑選語(yǔ)音合成上表中第一層純文本層和第六層語(yǔ)音層,其合成方式屬于現(xiàn)有技術(shù),分別對(duì)應(yīng)現(xiàn)有的Client-Only和Server-Only兩種架構(gòu)。本發(fā)明涉及的技術(shù)解決方案提出了第二層至第五層所列的具體合成方式。
上述語(yǔ)音合成前后端的不同劃分方法,對(duì)服務(wù)器負(fù)載、客戶(hù)機(jī)負(fù)載、網(wǎng)絡(luò)帶寬等的要求不同。因?yàn)榉?wù)器負(fù)載、客戶(hù)機(jī)負(fù)載、網(wǎng)絡(luò)帶寬是隨時(shí)變動(dòng)的,因此,DSS采取這樣的策略,在任何時(shí)刻,語(yǔ)音合成前后端的劃分,取決于該時(shí)刻服務(wù)器負(fù)載、客戶(hù)機(jī)負(fù)載、網(wǎng)絡(luò)帶寬的綜合評(píng)估。
針對(duì)上表中的6種劃分方法中的第2~4種,決定了DSS服務(wù)器和DSS客戶(hù)機(jī)之間共有4種中間數(shù)據(jù)交換內(nèi)容。我們基于XML結(jié)構(gòu)化文檔基礎(chǔ)上,提出層次化中文語(yǔ)音合成標(biāo)注語(yǔ)言(ML-CSSML),對(duì)這4種中間數(shù)據(jù)交換內(nèi)容進(jìn)行了全面的描述,作為DSS系統(tǒng)中間數(shù)據(jù)交換標(biāo)準(zhǔn)。
4.網(wǎng)絡(luò)與協(xié)議DSS服務(wù)器和DSS客戶(hù)機(jī)之間的通信除了遵循一定的數(shù)據(jù)交換標(biāo)準(zhǔn)之外,還必須遵循一定的協(xié)議標(biāo)準(zhǔn),以定義DSS服務(wù)器和DSS客戶(hù)機(jī)的交互行為。根據(jù)語(yǔ)音合成固有的請(qǐng)求/響應(yīng)機(jī)制,我們基于HTTP協(xié)議基礎(chǔ)之上,制定分布式語(yǔ)音合成網(wǎng)絡(luò)應(yīng)用協(xié)議(DSSNAP)。它具有如下主要特性1)動(dòng)態(tài)仲裁根據(jù)服務(wù)器負(fù)載、客戶(hù)機(jī)負(fù)載、網(wǎng)絡(luò)帶寬綜合因素,動(dòng)態(tài)仲裁使用何種數(shù)據(jù)交換標(biāo)準(zhǔn)。仲裁的原則是終端空閑資源利用最大化,服務(wù)器和網(wǎng)絡(luò)負(fù)載最小化。
在合成語(yǔ)音效果保證的前提下,盡可能最大化地使用終端的資源,以釋放服務(wù)器和網(wǎng)絡(luò)負(fù)載,從而允許更多的終端訪問(wèn),使大應(yīng)用環(huán)境的建立成為可能。
2)負(fù)載平衡根據(jù)服務(wù)器負(fù)載情況,自動(dòng)將客戶(hù)機(jī)的請(qǐng)求導(dǎo)向負(fù)載較小的服務(wù)器,以實(shí)現(xiàn)負(fù)載平衡。
3)數(shù)據(jù)壓縮DSS系統(tǒng)的中間交換數(shù)據(jù)以CSSML為載體?;赬ML的CSSML文檔,由于以文本的形式描述結(jié)構(gòu)化數(shù)據(jù),而這種結(jié)構(gòu)化數(shù)據(jù)要求具一致性資源定位法。用于指明資料在互聯(lián)網(wǎng)絡(luò)上的取得方式與位置。其格式為通訊協(xié)議//服務(wù)器地址通訊端口/路徑/文件名。例如http//www.hljucm.net.cnHTML(Hyper Text Markup Language)超文本標(biāo)識(shí)語(yǔ)言。是用于創(chuàng)建網(wǎng)頁(yè)的編程語(yǔ)言。XML(Extensible Markup Language)可擴(kuò)展標(biāo)記語(yǔ)言。使用它就可以以容易而一致的方式格式格式化和傳送數(shù)據(jù)。Server API(Server Application Programming Interface)服務(wù)器應(yīng)用程序開(kāi)發(fā)接口。指提供給第三方開(kāi)發(fā)DSS服務(wù)器的開(kāi)發(fā)接口。CSSML(Chinese Speech Synthesis Markup language)中文語(yǔ)音合成標(biāo)注語(yǔ)言。DSS服務(wù)器與客戶(hù)機(jī)之間進(jìn)行通信必須遵循的中間數(shù)據(jù)交換標(biāo)準(zhǔn),是一種基于可擴(kuò)展標(biāo)注語(yǔ)言XML的語(yǔ)音合成前后端之間數(shù)據(jù)交換的載體。DSSNAP(DSS Net Application Protocol)分布式語(yǔ)音合成網(wǎng)絡(luò)應(yīng)用協(xié)議。DSS服務(wù)器與客戶(hù)機(jī)之間進(jìn)行通信必須遵循的協(xié)議標(biāo)準(zhǔn)。Client API客戶(hù)機(jī)應(yīng)用程序開(kāi)發(fā)接口。指提供給第三方開(kāi)發(fā)DSS客戶(hù)機(jī)的開(kāi)發(fā)接口。ML-CSSML(Multi-layer CSSML)層次化中文語(yǔ)音合成標(biāo)注語(yǔ)言。由于DSS系統(tǒng)中存在不同層次的中間交換數(shù)據(jù),因此,作為數(shù)據(jù)交換的載體的CSSML也必須是相應(yīng)層次化的,以描述各個(gè)層次的中間交換數(shù)據(jù)。DSS定制應(yīng)用模式介于離線和在線兩種模式之中的DSS應(yīng)用模式。它指DSS服務(wù)器和客戶(hù)機(jī)需要實(shí)時(shí)通信,但通信的手段、方法、內(nèi)容可以根據(jù)具體應(yīng)用定制,不受DSSNAP的制約。
權(quán)利要求
1.一種分布式語(yǔ)音合成系統(tǒng),其特征在于系統(tǒng)包括語(yǔ)音合成前端處理環(huán)節(jié)和語(yǔ)音合成后端處理環(huán)節(jié),所述的語(yǔ)音合成前端環(huán)節(jié)運(yùn)行在服務(wù)器上,語(yǔ)音合成后端環(huán)節(jié)運(yùn)行在客戶(hù)機(jī)上,采用客戶(hù)/服務(wù)器(C/S)計(jì)算模式,服務(wù)器和客戶(hù)機(jī)之間通過(guò)數(shù)據(jù)交換標(biāo)準(zhǔn)和協(xié)議標(biāo)準(zhǔn)進(jìn)行通信,共同完成整個(gè)TTS處理過(guò)程。
2.根據(jù)權(quán)利要求1所述的分布式語(yǔ)音合成系統(tǒng),其特征在于客戶(hù)/服務(wù)器(C/S)計(jì)算模式包括服務(wù)器、客戶(hù)機(jī)、數(shù)據(jù)交換標(biāo)準(zhǔn)及網(wǎng)絡(luò)協(xié)議標(biāo)準(zhǔn)四部分。
3.根據(jù)權(quán)利要求1或2所述的分布式語(yǔ)音合成系統(tǒng),其特征在于用于完成前端環(huán)節(jié)任務(wù)的DSS服務(wù)器,它接收文本,經(jīng)過(guò)一系列的處理過(guò)程,將其轉(zhuǎn)換為某種中間數(shù)據(jù)輸出,所輸出的中間數(shù)據(jù)傳輸給用于完成后端環(huán)節(jié)任務(wù)的DSS客戶(hù)機(jī)繼續(xù)處理。
4.根據(jù)權(quán)利要求3所述的分布式語(yǔ)音合成系統(tǒng),其特征在于所述的DSS客戶(hù)機(jī)繼續(xù)處理的環(huán)節(jié)至少包括文本預(yù)處理、語(yǔ)言分析、韻律生成、語(yǔ)音單元挑選、語(yǔ)音合成五個(gè)處理模塊中的一個(gè)或多個(gè)。
5.根據(jù)權(quán)利要求3所述的分布式語(yǔ)音合成系統(tǒng),其特征在于所述的DSS服務(wù)器包括以下幾個(gè)組成部件1)服務(wù)器核心引擎(Server Engine),它用于完成文本到某種中間數(shù)據(jù)轉(zhuǎn)換;2)轉(zhuǎn)碼器(Transcoder),待合成的內(nèi)容轉(zhuǎn)換為文本;3)服務(wù)器瀏覽器(Server Browser),負(fù)責(zé)獲取指定URL內(nèi)容;4)分布式語(yǔ)音合成網(wǎng)絡(luò)應(yīng)用協(xié)議(DSSNAP),負(fù)責(zé)與DSS客戶(hù)機(jī)進(jìn)行通信的功能部件;5)服務(wù)器應(yīng)用程序開(kāi)發(fā)接口(Server API),提供給第三方開(kāi)發(fā)DSS服務(wù)器的應(yīng)用程序開(kāi)發(fā)接口。
6.根據(jù)權(quán)利要求3所述的分布式語(yǔ)音合成系統(tǒng),其特征在于DSS客戶(hù)機(jī)包括以下幾個(gè)組成部件1)客戶(hù)機(jī)核心引擎(Server Engine),完成某種中間數(shù)據(jù)到語(yǔ)音的轉(zhuǎn)換;2)分布式語(yǔ)音合成網(wǎng)絡(luò)應(yīng)用協(xié)議(DSSNAP),負(fù)責(zé)與DSS服務(wù)器進(jìn)行通信;3)客戶(hù)機(jī)應(yīng)用程序開(kāi)發(fā)接口(Client API)提供給第三方開(kāi)發(fā)DSS客戶(hù)機(jī)的應(yīng)用程序開(kāi)發(fā)接口。
7.根據(jù)權(quán)利要求5或6所述的分布式語(yǔ)音合成系統(tǒng),其特征在于DSS服務(wù)器接受兩種來(lái)自DSS客戶(hù)機(jī)的請(qǐng)求,一是內(nèi)容請(qǐng)求(Content Request),表示DSS客戶(hù)機(jī)直接將待合成內(nèi)容(文本或其它)發(fā)送給DSS服務(wù)器,二是URL請(qǐng)求(URL Request),表示DSS客戶(hù)機(jī)將URL發(fā)送給DSS服務(wù)器,由DSS服務(wù)器負(fù)責(zé)從網(wǎng)絡(luò)上獲取合成內(nèi)容;DSS客戶(hù)機(jī)可以向DSS服務(wù)器發(fā)出兩種請(qǐng)求,即內(nèi)容請(qǐng)求和URL請(qǐng)求,作用與DSS服務(wù)器相互對(duì)應(yīng),DSS客戶(hù)機(jī)從DSS服務(wù)器或Web服務(wù)器接收某種中間數(shù)據(jù)(以CSSML形式存在),將其轉(zhuǎn)換為語(yǔ)音輸出;DSS客戶(hù)機(jī)和Web服務(wù)器通過(guò)網(wǎng)絡(luò)連接,并且DSS服務(wù)器所接入的網(wǎng)絡(luò)支持HTTP傳輸協(xié)議。
全文摘要
本發(fā)明公開(kāi)一種分布式語(yǔ)音合成系統(tǒng),其特征在于:系統(tǒng)包括語(yǔ)音合成前端處理環(huán)節(jié)和語(yǔ)音合成后端處理環(huán)節(jié),所述的語(yǔ)音合成前端環(huán)節(jié)運(yùn)行在服務(wù)器上,語(yǔ)音合成后端環(huán)節(jié)運(yùn)行在客戶(hù)機(jī)上,采用客戶(hù)/服務(wù)器(C/S)計(jì)算模式,服務(wù)器和客戶(hù)機(jī)之間通過(guò)數(shù)據(jù)交換標(biāo)準(zhǔn)和協(xié)議標(biāo)準(zhǔn)進(jìn)行通信,共同完成整個(gè)TTS處理過(guò)程。這個(gè)原則是:盡可能地利用自身的空閑資源,以最大化的釋放網(wǎng)絡(luò)和服務(wù)器的負(fù)載,使得其它用戶(hù)可以方便地接入。
文檔編號(hào)G10L13/00GK1384489SQ02108890
公開(kāi)日2002年12月11日 申請(qǐng)日期2002年4月22日 優(yōu)先權(quán)日2002年4月22日
發(fā)明者唐浩, 尹波 申請(qǐng)人:安徽中科大訊飛信息科技有限公司