欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音合成系統(tǒng)中的數(shù)據(jù)交換方法

文檔序號:2836107閱讀:556來源:國知局
專利名稱:語音合成系統(tǒng)中的數(shù)據(jù)交換方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音合成系統(tǒng)數(shù)據(jù)交換方法,具體講是關(guān)于分布式語音合成系統(tǒng)數(shù)據(jù)交換方法。
背景技術(shù)
傳統(tǒng)的語音合成系統(tǒng)的一般處理過程如

圖1所示。由語言處理、韻律處理和最終語音合成等主要模塊構(gòu)成,其中,語言處理模塊和韻律處理模塊一般統(tǒng)稱為語音合成前端,最終語音合成模塊一般統(tǒng)稱為語音合成后端。語音合成前端經(jīng)過一系列復(fù)雜的計算,將輸入的文本轉(zhuǎn)化為語言和韻律信息。語音合成后端在語言和韻律信息的基礎(chǔ)上,經(jīng)過一定的計算,將其轉(zhuǎn)化成自然語音輸出。
語音合成前端和語音合成后端之間進(jìn)行模塊之間的數(shù)據(jù)交換,即語音合成前端將其計算結(jié)果(語言和韻律信息)以一定的方式傳遞語音合成后端。傳統(tǒng)的語音合成系統(tǒng)是一類封閉的系統(tǒng),其數(shù)據(jù)的交換基本上是與具體系統(tǒng)相關(guān)的,也就是說,不同的語音合成系統(tǒng)對語言和韻律信息的描述是不相同的,這樣,只有建立在語言和韻律信息的描述完全一致的基礎(chǔ)上的語音合成前、后端才能組成完整的語音合成系統(tǒng)。
由此可見,傳統(tǒng)的語音合成系統(tǒng)中語言和韻律信息的描述必須滿足語音合成前、后端的共同要求,這樣就使得缺乏廣泛的適應(yīng)性,而且數(shù)據(jù)交換以難以按能夠為機(jī)器和人理解的方式進(jìn)行,這種數(shù)據(jù)交換方式直接導(dǎo)致其語音合成系統(tǒng)的效率低,適用性和兼容性差。
分布式語音合成系統(tǒng)是指這樣的一種語音合成系統(tǒng)基于客戶服務(wù)器模式,語音合成過程中工作量大的部分(語言處理和韻律處理)在服務(wù)器端執(zhí)行,工作量小的部分(最終語音合成器)在客戶端執(zhí)行,服務(wù)器和客戶機(jī)之間通過一定的數(shù)據(jù)交換方法和一定的網(wǎng)絡(luò)協(xié)議進(jìn)行通信,共同完成完整的語音合成任務(wù)。
分布式語音合成是一個新興的研究和工程化領(lǐng)域。相對于傳統(tǒng)的孤立語音合成系統(tǒng)而言,分布式語音合成系統(tǒng)對客戶端資源(計算和存儲能力)的要求較低,可以實現(xiàn)在各種資源敏感的移動或嵌入式終端設(shè)備上,而語音合成最重要的性能指標(biāo)——自然度,卻達(dá)到與服務(wù)器級大型孤立語音合成系統(tǒng)的自然度媲美的水平。在后PC時代,隨著各式各樣個人終端設(shè)備的層出不窮和無線數(shù)據(jù)業(yè)務(wù)的飛速發(fā)展,終端用戶對語音合成的需求日益迫切。因此,分布式語音合成系統(tǒng)具有巨大的研究和工程化價值。
有關(guān)分布式語音合成系統(tǒng)的詳細(xì)技術(shù)內(nèi)容可參見本申請人的兩份在先申請(#02108890.X和#02116017.1)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種語音合成系統(tǒng)數(shù)據(jù)交換方法,本方法采用人類/機(jī)器便于解讀的方式對服務(wù)器的計算結(jié)果進(jìn)行描述,即對語言和韻律信息進(jìn)行結(jié)構(gòu)化描述,使得不同技術(shù)構(gòu)建的語音合成服務(wù)器或語音合成客戶機(jī)均可以組成完整的語音合成系統(tǒng)。
本發(fā)明的更進(jìn)一步目的是使不同技術(shù)構(gòu)建的分布式語音合成服務(wù)器或分布式語音合成客戶機(jī)均可以組成完整的分布式語音合成系統(tǒng)。
上述發(fā)明目的是通過采用以下技術(shù)方案實現(xiàn)的一種語音合成系統(tǒng)數(shù)據(jù)交換方法,其特征在于語音合成系統(tǒng)中數(shù)據(jù)交換采用基于XML的結(jié)構(gòu)化文檔進(jìn)行。
所述的語音合成系統(tǒng)為分布式語音合成系統(tǒng),系統(tǒng)中的服務(wù)器由語言處理模塊、韻律處理模塊和一個XML文檔生成器組成。
待處理的文本經(jīng)過語言處理模塊和韻律處理模塊的處理,轉(zhuǎn)變成語言和韻律信息,所述的語言和韻律信息經(jīng)過XML生成器處理,轉(zhuǎn)變成XML文檔,經(jīng)過通信網(wǎng)絡(luò)傳輸?shù)娇蛻魴C(jī)。
所述的客戶機(jī)為分布式語音合成客戶機(jī),該客戶機(jī)由一個被稱為XML文檔解析器的模塊和最終語音合成模塊構(gòu)成。
所述的由XML生成器處理得到的XML文檔經(jīng)過客戶機(jī)的XML文檔解析器的處理,轉(zhuǎn)變成的語言和韻律信息再經(jīng)過最終語音合成模塊的處理,轉(zhuǎn)變成語音輸出。
數(shù)據(jù)交換方法及意義數(shù)據(jù)交換在分布式語音合成系統(tǒng)中擔(dān)當(dāng)著至關(guān)重要的角色。分布式語音合成系統(tǒng)的數(shù)據(jù)交換方法是指在分布式語音合成系統(tǒng)中,服務(wù)器完成其所負(fù)責(zé)的語言處理和韻律處理之后,將計算結(jié)果傳遞給客戶機(jī)進(jìn)行最終語音合成的方式和途徑。其中涉及兩個層面的內(nèi)容一、服務(wù)器對計算結(jié)果進(jìn)行描述,以人/機(jī)可讀的方式進(jìn)行數(shù)據(jù)交換;二、服務(wù)器使用某種網(wǎng)絡(luò)協(xié)議將計算結(jié)果傳遞給客戶機(jī)。
由于服務(wù)器和客戶機(jī)之間可以采用各種標(biāo)準(zhǔn)網(wǎng)絡(luò)協(xié)議諸如TCP/IP和HTTP進(jìn)行通信,本發(fā)明所述的分布式語音合成系統(tǒng)數(shù)據(jù)交換方法,不包括上述第二個層面的內(nèi)容,而僅限于第一個層面的內(nèi)容,即如何對服務(wù)器的計算結(jié)果——語言和韻律信息進(jìn)行結(jié)構(gòu)化描述,以達(dá)到人/機(jī)可讀的目的。
數(shù)據(jù)交換方法的質(zhì)量,涉及到分布式語音合成系統(tǒng)的效率、適用性和兼容性。本發(fā)明所提供的分布式語音合成系統(tǒng)數(shù)據(jù)交換方法,充分考慮了這些問題,在分布式語音合成系統(tǒng)的工程化推廣中起了重大的作用。
分布式語音合成將客戶—服務(wù)器構(gòu)架應(yīng)用到語音合成系統(tǒng)中語音合成前端運(yùn)行在所謂的分布式語音合成服務(wù)器上,語音合成后端運(yùn)行在所謂的分布式語音合客戶機(jī)上。服務(wù)器和客戶機(jī)之前傳遞的是語言和韻律信息。與傳統(tǒng)的語音合成系統(tǒng)不同的是分布式語音合成系統(tǒng)是一類開放的系統(tǒng)。分布式語音合成服務(wù)器和分布式語音合成客戶機(jī)之間的數(shù)據(jù)交換是開放的,不僅要求數(shù)據(jù)交換具有廣泛的適應(yīng)性,而且要求數(shù)據(jù)交換易于人類和機(jī)器理解。這樣,由本發(fā)明提供統(tǒng)一的數(shù)據(jù)交換模式,使得無論以何種技術(shù)構(gòu)建的分布式語音合成服務(wù)器和/或分布語音合成戶均可以組成完整的分布式語音合成系統(tǒng)。
附圖概述圖1是傳統(tǒng)語音合成系統(tǒng)的數(shù)據(jù)交換處理過程示意框圖;圖2是本發(fā)明語音合成系統(tǒng)的數(shù)據(jù)交換處理過程示意框圖。
如圖2所示,待處理的文本經(jīng)過語言處理模塊和韻律處理模塊的處理,轉(zhuǎn)變成語言和韻律信息,這些系統(tǒng)相關(guān)的語言和韻律信息經(jīng)過XML文檔生成器的處理,轉(zhuǎn)變成XML文檔。系統(tǒng)無關(guān)的XML文檔在通訊鏈路上,如互聯(lián)網(wǎng)等上傳遞,最終到達(dá)分布式語音合成客戶機(jī)。
分布式語音合成系統(tǒng)數(shù)據(jù)交換方法,即我們對語言和韻律信息進(jìn)行結(jié)構(gòu)化描述的方法,通常必須具備以下功能支持多種格式文檔的輸入,即能指明當(dāng)前文檔格式;具有可讀性,即易于被人類和機(jī)器理解;易于直接由人手工書寫,并且同時也易于機(jī)器自動生成;與現(xiàn)有各標(biāo)記體系保持一致,盡量兼容或易于被自動轉(zhuǎn)化。具體來講應(yīng)當(dāng)滿足以下基本要求1、對單模態(tài)輸出和多模態(tài)輸出都能加以控制;2、能對合成文本的結(jié)構(gòu)加以描述;3、支持不同語言和方言的定義;4、支持特殊發(fā)音指定(宏發(fā)音),包括強(qiáng)制改變發(fā)音以及引用外部聲音元素;5支持對諸如速度、音高、音強(qiáng)等參數(shù)的控制;6、支持對音色的指定,如發(fā)音人姓名、性別、年齡等;7、對特定格式文字發(fā)音的支持,如地址、電話、網(wǎng)址等;8、支持重讀/強(qiáng)調(diào)控制;9、支持某段文字語調(diào)控制;10、支持其他模態(tài)控制數(shù)據(jù)嵌入;11、支持音場環(huán)境/聲源位置定義。
本發(fā)明所述的數(shù)據(jù)交換方法的具體內(nèi)容說明如下XML(可擴(kuò)展標(biāo)記語言eXtensible Markup Language)是互聯(lián)網(wǎng)上進(jìn)行結(jié)構(gòu)化數(shù)據(jù)交換十分有效的手段。它具有語言無關(guān)、平臺無關(guān)、人類可讀性強(qiáng)、易于機(jī)器理解、可以直接使用在互聯(lián)網(wǎng)上、支持大量應(yīng)用等優(yōu)良特性。XML描述了一類稱為“XML”文件的數(shù)據(jù)對象,同時也部分地描述了處理這些數(shù)據(jù)對象的計算機(jī)程序的動作。XML文件具有良好的自描述特性,可以獨立于各類平臺進(jìn)行數(shù)據(jù)存儲與交換。
XML并不是一種“標(biāo)記語言”。確切地說,它是一種元標(biāo)記語言,是一種用于定義其它標(biāo)記語言的標(biāo)記語言。因此,它不能直接對特定領(lǐng)域的數(shù)據(jù)進(jìn)行描述,因而不能被使用作為數(shù)據(jù)交換的載體。相反,必須使用它來定義針對某一特定領(lǐng)域的數(shù)據(jù)描述的標(biāo)記語言,然后將被定義的標(biāo)記語言作為該特定領(lǐng)域里數(shù)據(jù)交換的載體。
例如HTML超文本標(biāo)記語言是一種真正的標(biāo)記語言,它對WWW上多媒體信息進(jìn)行描述,可以用來在WWW服務(wù)器和客戶瀏覽器之間進(jìn)行多媒體信息的交換。它由SGML標(biāo)準(zhǔn)通用標(biāo)記語言定義,將來可能變成由XML定義。由此看出,XML與SGML屬于同一層次的概念,均為定義其它語言的元語言。我們定義的標(biāo)記語言,與HMTL屬于同一層次的概念,均為真正的標(biāo)記語言。HTML對WWW上多媒體信息進(jìn)行描述,我們定義的標(biāo)記語言對分布式語言合成服務(wù)器的計算結(jié)果——語言和韻律信息進(jìn)行描述,在分布式語言合成服務(wù)器和客戶機(jī)之間進(jìn)行語言和韻律信息的交換。
我們定義了中文語音合成標(biāo)記語言(CSSML)規(guī)范。此規(guī)范建立在XML結(jié)構(gòu)化文檔基礎(chǔ)之上,借鑒和融合了JSML、SABLE、STML、SAPI以及VXML等體系中關(guān)于語音合成方面的內(nèi)容,并增加了對于中文特定內(nèi)容的支持,定義了一套完整的標(biāo)記語言CSSML(Chinese Speech Synthesis Markup Language),給出了其DTD描述,使得此規(guī)范的內(nèi)容具有足夠的覆蓋范圍。
CSSML針對語言和韻律信息建立了一個完整的描述體系。它既可以作為分布式語音合成系統(tǒng)中服務(wù)器和客戶機(jī)之間數(shù)據(jù)交換的標(biāo)準(zhǔn);也可以作為獨立語音合成系統(tǒng)的輸入,通過在待合成文本中加入若干標(biāo)記從而對語音合成的各項屬性參數(shù)加以控制。
數(shù)據(jù)交換方法在分布式語音合成系統(tǒng)中的應(yīng)用本發(fā)明提供的數(shù)據(jù)交換方法,即CSSML,主要應(yīng)用于分布式語音合成系統(tǒng)中,作為分布式語音合成系統(tǒng)的數(shù)據(jù)交換標(biāo)準(zhǔn)。分布式語音合成服務(wù)器完成語言處理和韻律處理,將文本轉(zhuǎn)換成語言和韻律信息。這些語言和韻律信息經(jīng)由一個被稱為CSSML Generator(生成器)的處理模塊,轉(zhuǎn)換成CSSML文檔。然后CSSML文檔被從網(wǎng)絡(luò)上傳遞給分布式語音合成客戶機(jī)。分布式語音合成客戶機(jī)將接收到的CSSML文檔送入一個被稱為CSSML Parser(解析器)的處理模塊,將其轉(zhuǎn)換為相應(yīng)的語言和韻律信息。然后分布式語音合成客戶機(jī)在這些語言和韻律信息的基礎(chǔ)上繼續(xù)進(jìn)行處理,完成最終的語音合成。
CSSML是基于XML的結(jié)構(gòu)化文檔,具有良好的自描述特性。以CSSML作為數(shù)據(jù)交換標(biāo)準(zhǔn)的分布式語音合成系統(tǒng),具有很好的魯棒性、兼容性和易擴(kuò)展性。在一個分布式語音合成系統(tǒng)中,服務(wù)器和客戶機(jī)既可以由同一開發(fā)商同時開發(fā),也可以由不同的開發(fā)商在不同的時間、采用不同的技術(shù)開發(fā)。只要服務(wù)器和客戶機(jī)完全遵循CSSML規(guī)范,它們就可以進(jìn)行集成,形成分布式語音合成應(yīng)用。終端用戶亦可以開發(fā)符合自身需求的客戶機(jī),通過接入應(yīng)用網(wǎng)絡(luò),享受分布式語音合成服務(wù)。
數(shù)據(jù)交換方法在其它方面的應(yīng)用本發(fā)明提供的數(shù)據(jù)交換方法,即CSSML,除了在分布式語音合成系統(tǒng)中擔(dān)任核心角色之外,還可以應(yīng)用在其它方面。如作為獨立語音合成系統(tǒng)的輸入,通過在待合成文本中加入若干標(biāo)記從而對語音合成的各項屬性參數(shù)加以控制。
在信息內(nèi)容服務(wù)領(lǐng)域(如Web服務(wù)),內(nèi)容提供商可以將以文本形式存在的信息內(nèi)容,通過語言和韻律處理工具(作用類似于分布式語音合成服務(wù)器)轉(zhuǎn)換成以CSSML文檔形式存在的信息內(nèi)容。CSSML文檔可以提供給使用語音瀏覽器(作用類似于分布式語音合成客戶機(jī))的用戶下載,以聽代看的方式瀏覽信息。
在模塊共享方面,CSSML也有著重要的作用。語音合成的前端(主要是指語言和韻律處理)和后端(主要是指最終語音合成)是組成一個完成語音合成系統(tǒng)的兩大部分。其中,語音合成前后端都可以使用不同的技術(shù)實現(xiàn)。如果定義這樣的一個規(guī)范語音合成前端的輸入為純文本,輸出為CSSML文檔;語音合成后端的輸入為CSSML文檔,輸出為合成語音。這樣,我們可以選取任意滿足此規(guī)范的前端和任意滿足此規(guī)范的后端進(jìn)行集成,構(gòu)建語音合成系統(tǒng),達(dá)到模塊共享的目的。
以下通過元素與屬性、輸出輸入的定義以及有關(guān)重要程序的實例對本發(fā)明作進(jìn)一步的詳細(xì)說明。
1.元素與屬性1.1 speak由于此標(biāo)注體系采用XML文檔格式給出,因此根元素即為“speak”。

1.2 xml:lang指定當(dāng)前語種,包括子類(方言)的指定,可用值請參照Internet公文RFC1766,中文方言部分請參照附錄。

1.3 paragraph、sentence、phrase、word指定語音層次結(jié)構(gòu),以使合成語音更加符合使用要求,允許嵌套。

1.4 sayas指明文本的性質(zhì),即如何決定其發(fā)音方式,“type”屬性將被用來指明具體的文本性質(zhì),包括“acronym”縮寫形式“number”指明數(shù)字,還可附帶“ordinal”或“digits”指明讀法。
“date”指明日期,可附帶“ymd”“mdy”“dmy”“ym”“my”“md”“y”指明順序。
“time”指明時刻,可附帶“hm”“hms”指明包含內(nèi)容。
“duration”指明時間段,可附帶“hm”“hms”“ms”指明內(nèi)容。
“currency”指明貨幣金額。
“measure”指明度量值。
“name”指明是人的姓名、公司名稱或是地名。
“net”指明是與Internet相關(guān)的固定說法,包括“email”“url”等附加值。
“address”指明是表述郵政地址。

1.5 phoneme指明發(fā)音音標(biāo)序列,屬性包括“ph”和“py”,ph指由符合International Phonetic Alphabet(IPA)的音標(biāo)序列構(gòu)成;“py”指由符合中國國家拼音方案的音標(biāo)序列構(gòu)成。

1.6 voice指明發(fā)音人特征,屬性包括“gender”指明發(fā)音人性別,可取值“male”(男聲)“female”(女聲)“neutral”(中性)。
“age”指明發(fā)音人年齡,可取值整數(shù)或“child”“teenager”“adult”“elder”。
“variant”指明發(fā)音人代號,可取值整數(shù)或“different”。
“name”指明發(fā)音人姓名,通常是系統(tǒng)相關(guān)的,可取值為具體姓名串或“default”。

1.7 emphasis指明輕重讀/強(qiáng)調(diào)程度,屬性有“l(fā)evel”,可指明強(qiáng)調(diào)等級,可取值“strong”“moderate”“none”以及“reduced”。

1.8 break指明插入一個停頓,屬性包括“size”指明停頓長短,可取值“none”“small”“medium”“l(fā)arge”“time”指明具體停頓時長,以秒或毫秒為單位,如“3s”“300ms”1.9 prosody指明韻律上的一些參數(shù),屬性包括“pitch”指明基頻的高低,可取值絕對頻率數(shù)值、相對改變值或“high”“medium”“l(fā)ow”“default”。
“contour”指明調(diào)型曲線,取值為一系列關(guān)鍵點的值,每個關(guān)鍵點值由(位置,音高)來描述,位置為一百分比,音高與pitch的取值形式相同。
“range”指明基頻范圍,可取值絕對頻率數(shù)值、相對改變值或“high”“medium”“l(fā)ow”“default”。
“duration”指明發(fā)音持續(xù)時長,可取值毫秒或秒、相對改變值或”fast”“medium”“slow”“default”。
“volume”指明音量,取值范圍為0.0~100.0或相對變化值或“silent”“soft”“medium”“l(fā)oud”“default”。

1.10 lexicon指明作用域內(nèi)附加使用的用戶詞典,屬性”src”指明用戶詞典,可以是以URI指定的某個文件或是已約定的對象名稱(包括以MIME格式編碼在文檔中的內(nèi)嵌對象)。

1.11 audio指明插入一段已有聲音樣本,屬性“src”指明聲音樣本,可以是以URI指定的某個文件或是已約定的對象名稱。(包括以MIME格式編碼在文檔中的內(nèi)嵌對象)

1.12 mark指明插入一個標(biāo)記,此標(biāo)記可被用來快速檢索文檔,并在合成到此位置時觸發(fā)mark事件。

1.13 value指明插入一個系統(tǒng)變量的值,屬性包括“name”變量的名稱。
“type”與<sayas>中“type”屬性相同。

2.輸入定義系統(tǒng)應(yīng)能接受符合上述標(biāo)記規(guī)范的文檔輸入,并且可以接受沒有任何標(biāo)記的純文本信息,并能自動作出分析。
3.輸出定義系統(tǒng)應(yīng)能產(chǎn)生指定格式的音頻數(shù)據(jù),并且在擴(kuò)展系統(tǒng)中還應(yīng)能產(chǎn)生其他模態(tài)的輸出數(shù)據(jù)以及同步信息。
4.一致性4.1不同實現(xiàn)的可互操作性應(yīng)能保證在不同目標(biāo)平臺和實現(xiàn)目標(biāo)集中,可被兼容和互操作。
4.2對已有規(guī)范的兼容性由于在定義此規(guī)范時已充分考慮到現(xiàn)有各種標(biāo)記語言,并將其定義在XML結(jié)構(gòu)化文檔基礎(chǔ)之上,使得內(nèi)容的傳輸與解析具有優(yōu)良的可擴(kuò)展性和兼容性。
5.附錄5.1中文區(qū)域性語言代碼

5.2 CSSML 0.9 DTD描述<?xml version=″1.0″encoding=″UTF-8″?>
<!--Chinese Speech Synthesis Markup Language v0.9 20010315-->
<!ENTITY%allowed-within-sentence″#PCDATA|sayas|phoneme|voice|emphasis|break|prosody|audio|value|mark″>
<!ENTITY%structure″paragraph|sentence″>
<!ENTITY%duration″CDATA″>
<!ENTITY%integer″CDATA″>
<!ENTITY%uri″CDATA″>
<!ENTITY%phoneme-string″CDATA″>
<!ENTITY%phoneme-string-py″CDATA″>
<!ENTITY%phoneme-alphabet″CDATA″>
<!--Definitions of the structural elements.-->
<!--Currently,these elements support only the xml:lang attribute-->
<!ELEMENT speak(%allowed-within-sentence;|%structure;)*>
<!ELEMENT paragraph(%allowed-within-sentence;|sentence)*>
<!ELEMENT sentence(%allowed-within-sentence;)*>
<!--The flexible container elements can occur within paragraph-->
<!--and sentence but may also contain these structural elements.-->
<!ENTITY%voice-name″CDATA″>
<!ELEMENT voice(%allowed-within-sentence;|%structure;)*>
<!ATTLIST voicegender(male|female|neutral)#IMPLIEDage(%integer;|child|teenager|adult|elder)#IMPLIEDvariant(%integer;|different)#IMPLIEDname(%voice--name;|default)#IMPLIED>
<!ELEMENT prosody(%allowed-within-sentence;|%structure;)*>
<!ATTLIST prosodypitch CDATA#IMPLIED
contour CDATA#IMPLIEDrange CDATA#IMPLIEDrate CDATA#IMPLIEDduration CDATA#IMPLIEDvolume CDATA#IMPLIED>
<!ELEMENT lexicon(%allowed-within-sentence;|%structure;)*>
<!ATTLIST lexiconsrc%uri;#IMPLIED>
<!ELEMENT audio(%allowed-within-sentence;|%structure;)*>
<!ATTLIST audiosrc%uri;#IMPLIED>
<!--These basic container elements can contain any of the-->
<!--within-sentence elements,but neither sentence or paragraph.-->
<!ELEMENT emphasis(%allowed-within-sentence;)*>
<!ATTLIST emphasislevel(strong|moderate|none|reduced)″moderate″>
<!--These basic container elements can contain only data-->
<!ENTITY%sayas-types″(acronym|number|ordinal|digits|telephone|date|time|duration|currency|measure|name|net|address)″>
<!ELEMENT sayas(#PCDATA)>
<!ATTLIST sayastype%sayas-types;#REQUIRED>
<!ELEMENT phoneme(#PCDATA)>
<!ATTLIST phoneme
ph%phoneme-string;#REQUIREDpy%phoneme-string-py;#REQUIREDalphabet%phoneme-alphabet;#IMPLIED>
<!--Definitions of the basic empty elements-->
<!ELEMENT break EMPTY>
<!ATTLIST breaksize(large|medium|small|none)″medium″time%duration;#IMPLIED>
<!ELEMENT mark EMPTY>
<!ATTLIST markname CDATA#REQUIRED>
<!ELEMENT value EMPTY>
<!ATTLIST valuename CDATA#REQUIREDtype%sayas-types;#REQUIRED>
src%uri;#IMPLIED>
<!--These basic container elements can contain any of the-->
<!--within-sentence elements,but neither sentence or paragraph.-->
<!ELEMENT emphasis(%allowed-within-sentence;)*>
<!ATTLIST emphasislevel(strong|moderate|none|reduced)″moderate″>
<!--These basic container elements can contain only data-->
<!ENTITY%sayas-types″(acronym|number|ordinal|digits|telephone|date|time|
duration|currency|measure|name|net|address)″>
<!ELEMENT sayas(#PCDATA)>
<!ATTLIST sayastype%sayas-types;#REQUIRED>
<!ELEMENT phoneme(#PCDATA)>
<!ATTLIST phonemeph%phoneme-string;#REQUIREDpy%phoneme-string-py;#REQUIREDalphabet%phoneme-alphabet;#IMPLIED>
<!--Definitions of the basic empty elements-->
<!ELEMENT break EMPTY>
<!ATTLIST breaksize(large|medium|small|none)″medium″time%duration;#IMPLIED>
<!ELEMENT mark EMPTY>
<!ATTLIST markname CDATA#REQUIRED>
<!ELEMENT value EMPTY>
<!ATTLIST valuename CDATA#REQUIREDtype%sayas-types;#REQUIRED>
權(quán)利要求
1.一種語音合成系統(tǒng)中的數(shù)據(jù)交換方法,其特征在于語音合成系統(tǒng)中數(shù)據(jù)交換采用基于XML的結(jié)構(gòu)化文檔進(jìn)行。
2.根據(jù)權(quán)利要求1所述的語音合成系統(tǒng)中的數(shù)據(jù)交換方法,其特征在于語音合成系統(tǒng)為分布式語音合成系統(tǒng),系統(tǒng)中的服務(wù)器由語言處理模塊、韻律處理模塊和一個XML文檔生成器組成。
3.根據(jù)權(quán)利要求2所述的語音合成系統(tǒng)中的數(shù)據(jù)交換方法,其特征在于文本經(jīng)過語言處理模塊和韻律處理模塊的處理,轉(zhuǎn)變成語言和韻律信息,所述的語言和韻律信息經(jīng)過XML生成器處理,轉(zhuǎn)變成XML文檔,經(jīng)過通信網(wǎng)絡(luò)傳輸?shù)娇蛻魴C(jī)。
4.根據(jù)權(quán)利要求3所述的語音合成系統(tǒng)中的數(shù)據(jù)交換方法,其特征在于所述的客戶機(jī)為分布式語音合成客戶機(jī),該客戶機(jī)由一個被稱為XML文檔解析器的模塊和最終語音合成模塊構(gòu)成。
5.根據(jù)權(quán)利要求3或4所述的語音合成系統(tǒng)中的數(shù)據(jù)交換方法,其特征在于所述的由XML生成器處理得到的XML文檔經(jīng)過客戶機(jī)的XML文檔解析器的處理,轉(zhuǎn)變成的語言和韻律信息再經(jīng)過最終語音合成模塊的處理,轉(zhuǎn)變成語音輸出。
全文摘要
本發(fā)明提供一種語音合成系統(tǒng),尤其是分布式語音合成服務(wù)器或分布式語音合成客戶機(jī)均可以組成完整的分布式語音合成系統(tǒng)數(shù)據(jù)交換方法,本發(fā)明的核心是采用基于XML的結(jié)構(gòu)化文檔進(jìn)行,系統(tǒng)中的服務(wù)器由語言處理模塊、韻律處理模塊和一個XML文檔生成器組成,待處理的文本經(jīng)過語言處理模塊和韻律處理模塊的處理,轉(zhuǎn)變成語言和韻律信息,所述的語言和韻律信息經(jīng)過XML生成器處理,轉(zhuǎn)變成XML文檔,經(jīng)過通信網(wǎng)絡(luò)傳輸?shù)娇蛻魴C(jī),使得不同技術(shù)構(gòu)建的語音合成服務(wù)器或語音合成客戶機(jī)均可以組成完整的語音合成系統(tǒng)。
文檔編號G10L13/00GK1501349SQ0214866
公開日2004年6月2日 申請日期2002年11月19日 優(yōu)先權(quán)日2002年11月19日
發(fā)明者唐浩, 尹波, 唐 浩 申請人:安徽中科大訊飛信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宁德市| 利津县| 灵川县| 宁明县| 满洲里市| 扎囊县| 永丰县| 定日县| 大荔县| 天镇县| 菏泽市| 广安市| 喀什市| 罗定市| 自贡市| 襄城县| 赣榆县| 民乐县| 淮北市| 彭山县| 呼伦贝尔市| 武夷山市| 芜湖县| 中方县| 永登县| 苗栗县| 尖扎县| 察隅县| 沐川县| 汤阴县| 西丰县| 莎车县| 集安市| 赤壁市| 密山市| 那坡县| 新野县| 秭归县| 万年县| 永泰县| 阳新县|