專利名稱:韻律語(yǔ)音文本代碼以及它們?cè)谟?jì)算機(jī)化語(yǔ)音系統(tǒng)中的使用的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于使用新穎的韻律語(yǔ)音文本代碼,通常從文本輸入提供合成的或人工語(yǔ)音的方法和計(jì)算機(jī)化系統(tǒng)。
合成的、人工或機(jī)器語(yǔ)音具有許多有用的應(yīng)用,例如,在語(yǔ)音郵件系統(tǒng)、以電子方式啟用的設(shè)備、汽車、計(jì)算機(jī)、機(jī)器人助理、游戲等等中,在會(huì)說話的書和雜志、戲劇及其他娛樂中。本發(fā)明延伸到在任何這樣的系統(tǒng)中的實(shí)現(xiàn),這從下面的說明中是顯而易見。
用于生成人工語(yǔ)音的有用的已知系統(tǒng)一般被描述為級(jí)聯(lián)的系統(tǒng)或共振峰系統(tǒng)。級(jí)聯(lián)的人工語(yǔ)音系統(tǒng)例如可用于交互語(yǔ)音郵件系統(tǒng)中并使用預(yù)先錄制的完整的短語(yǔ)或句子來產(chǎn)生可容忍的人類語(yǔ)音。然而,這樣的系統(tǒng)不適用于將諸如雜志文章或書之類的大量的未知文本轉(zhuǎn)換為語(yǔ)音。共振峰系統(tǒng)在由機(jī)器讀取文本或以別的方式由計(jì)算機(jī)化系統(tǒng)處理文本時(shí)“實(shí)時(shí)地(on the fly)”合成小片的類似于元音或濁音的聲音,比較適用于這樣的較大塊的文本。然而,直到目前,這樣的共振峰語(yǔ)音系統(tǒng)的輸出仍是非常機(jī)械、單調(diào)或過分像機(jī)器讀的。
授予Sensimetrics Corporation(Cambridge,MA)的Stevens的美國(guó)專利5,748,838公開了一種語(yǔ)音合成方法,該方法使用聲門模型來確定十個(gè)或更少的高級(jí)別參數(shù)并使用映射關(guān)系將它們轉(zhuǎn)換成三十九個(gè)低級(jí)別的參數(shù)。這些參數(shù)輸入到語(yǔ)音合成器,使得合成語(yǔ)音比采用要求輸入50到60個(gè)參數(shù)來代表任何特定語(yǔ)音的現(xiàn)有技術(shù)的系統(tǒng)更簡(jiǎn)單些。盡管Stevens專利的公開可能對(duì)于其計(jì)劃的用途是有用的,但是,Stevens專利所使用的元音解剖學(xué)的有些機(jī)械的模型,不會(huì)產(chǎn)生具有有吸引力的人性化質(zhì)量的語(yǔ)音輸出。Stevens專利也沒有提供或建議一種用于添加所希望的韻律或控制和修改以合成方式或以人工方式生成的語(yǔ)音的韻律的裝置。
如Addison等人共同擁有的美國(guó)專利No.6,847,931,共同待審的美國(guó)專利申請(qǐng)No.10/334,658(“Addison′658”)和國(guó)際專利申請(qǐng)公開WO/2003/065349所描述的,可以用語(yǔ)音訓(xùn)練記號(hào)來對(duì)要合成的文本進(jìn)行標(biāo)記作為發(fā)音指南,以確??衫斫庑?。Addison′658在語(yǔ)音合成時(shí)可以進(jìn)行可表達(dá)的解析,并通過經(jīng)過訓(xùn)練的說話者來生成語(yǔ)音元素?cái)?shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)可以被用來實(shí)現(xiàn)從文本進(jìn)行可表達(dá)的合成。無(wú)論是Lessac系統(tǒng)還是其他已知的系統(tǒng)都沒有提供以允許對(duì)輸出語(yǔ)音的韻律進(jìn)行控制的方式來向語(yǔ)音合成器傳遞所希望的韻律的簡(jiǎn)單方法。
Margaret Prendergast McLean E.P.Dutton & Co.,Inc.(1952)(下文簡(jiǎn)稱為“McLean”)所著的“Good American Speech”描述了對(duì)文本進(jìn)行標(biāo)記的記號(hào)系統(tǒng),以便就所希望的語(yǔ)調(diào)模式、或連續(xù)語(yǔ)音中的音高的變化指示閱讀者,從而避免諸如單調(diào)或奇特的或方言的語(yǔ)調(diào)之類的瑕疵。此著作先于使語(yǔ)音計(jì)算機(jī)化的現(xiàn)代的嘗試,現(xiàn)有技術(shù)中沒有建議McLean語(yǔ)調(diào)模式對(duì)于解決合成語(yǔ)音時(shí)所遇到的現(xiàn)代的問題的任何有用性。此外,McLean的語(yǔ)調(diào)模式也缺乏參照音高的任何裝置,使得不同說話者難以以一致的方式利用語(yǔ)調(diào)模式。
前面的對(duì)背景技術(shù)的描述可以包括在本發(fā)明之前的相關(guān)技術(shù)不知道的但由本發(fā)明提供的見識(shí)、發(fā)現(xiàn)、理解或發(fā)明。這里可能已經(jīng)具體指出了發(fā)明的某些這樣的貢獻(xiàn),而它們的上下文中,本發(fā)明的其他這樣的貢獻(xiàn)將變得顯而易見。不能僅僅因?yàn)橐粋€(gè)文獻(xiàn)在這里可能已經(jīng)被引用,就認(rèn)為其技術(shù)領(lǐng)域可能相當(dāng)不同于本發(fā)明的技術(shù)領(lǐng)域的該文獻(xiàn)的領(lǐng)域類似于本發(fā)明的領(lǐng)域。
發(fā)明內(nèi)容
相應(yīng)地,需要一種簡(jiǎn)單的方法,用于以允許對(duì)輸出語(yǔ)音的韻律進(jìn)行控制的方式向語(yǔ)音合成器傳遞所希望的韻律。
為實(shí)現(xiàn)此目的或其他目的,本發(fā)明提供了一種在聲學(xué)上對(duì)文本進(jìn)行編碼,以便用于從文本合成語(yǔ)音的方法,該方法包括以一個(gè)或更多個(gè)圖形符號(hào)標(biāo)記要說出的文本,以向說話者指出要賦予說出的文本的所希望的韻律。本發(fā)明還提供了用于語(yǔ)音合成的方法和系統(tǒng),該語(yǔ)音合成包括韻律代碼,或記號(hào),對(duì)于用可表達(dá)的含義來標(biāo)記文本,以規(guī)定適當(dāng)?shù)捻嵚?。?biāo)記可以包括字形-音素對(duì),其每一對(duì)都包括指出可與書面文本一起使用的字形的可見的韻律,和在數(shù)字域中起作用的對(duì)應(yīng)的數(shù)字音素。
所要賦予的韻律可以包括從包括速度、語(yǔ)調(diào)模式、節(jié)奏、音感、振幅、重音和氣息音的停頓、以及單詞和短語(yǔ)短語(yǔ)的正式和非正式的發(fā)音的組中選擇的一個(gè)或更多個(gè)韻律元素。
該方法可以包括以圖形韻律符號(hào)來標(biāo)記可見的文本或用圖形符號(hào)的電子形式來以電子方式標(biāo)記電子文本,以電子方式標(biāo)記的文本可以作為人類可讀的用圖形方式標(biāo)記的文本來顯示或打印。
在另一個(gè)方面,本發(fā)明提供了通過輸入到語(yǔ)音合成器的聲音編碼變量來控制的語(yǔ)音合成器,聲音編碼變量對(duì)應(yīng)于被用于生成具有所希望的韻律發(fā)音的記錄的人類語(yǔ)音的韻律規(guī)范,以提供實(shí)現(xiàn)了所希望的韻律發(fā)音的合成的語(yǔ)音輸出。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,下文描述了用于語(yǔ)音學(xué)、結(jié)構(gòu)的新穎的記號(hào)系統(tǒng)以及可播放的和非可播放的輔音的指定,以及所謂的四個(gè)“Lessac”中性字母,它們的使用產(chǎn)生要合成的新穎的用圖形方式標(biāo)記的文本。
此外,本發(fā)明提供了新穎的過程和系統(tǒng),用于文本到語(yǔ)音轉(zhuǎn)換(在此有時(shí)稱為“TTS”)或聲音識(shí)別應(yīng)用中,該過程包括下列步驟中一個(gè)或多個(gè)或其所有生成韻律語(yǔ)音規(guī)則和它們?cè)谡Z(yǔ)音合成中的應(yīng)用;韻律語(yǔ)音規(guī)則的聲音演示;
韻律語(yǔ)音元素的聲音數(shù)據(jù)庫(kù);TTS的示范性軟件;以及TTS收聽者測(cè)試。
下面將通過示例,參考附圖詳細(xì)描述本發(fā)明的某些實(shí)施例、實(shí)施和使用本發(fā)明的實(shí)施例、以及實(shí)施本發(fā)明的最佳方式,在附圖中,類似的附圖標(biāo)記在幾個(gè)視圖中表示類似的部件,其中圖1是用結(jié)構(gòu)性NRG元音的Lessac發(fā)音記號(hào)標(biāo)記的許多單詞和短語(yǔ)的視圖;圖2顯示了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于指出文本中的音高變化的韻律圖形符號(hào)的示例,例如,與文本相關(guān)的韻律語(yǔ)調(diào)模式內(nèi)的連續(xù)的音調(diào)音高變化模式;圖3顯示了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于指出輔音混合中的輔音的所希望發(fā)音的韻律圖形符號(hào)的示例;圖4顯示了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于指出包括跟隨著“敲擊”輔音混合的“雙簧管聲”的輔音的所希望發(fā)音的韻律圖形符號(hào)的示例;圖5顯示了用于指出包括“鐃鈸聲”的敲擊輔音組合的所希望發(fā)音的韻律圖形符號(hào)的示例;圖6顯示了用于指出包括“木制管樂器敲擊聲”的輔音組合的所希望發(fā)音的韻律圖形符號(hào)的示例;圖7顯示了用于指出在輔音之間包括中性元音的輔音組合的所希望發(fā)音的韻律圖形符號(hào)的示例;圖8顯示了用于指出包括Y和W連接詞的輔音組合的所希望發(fā)音的韻律圖形符號(hào)的示例;圖9顯示了用于基于按順序鏈接單詞(在此情況下為短語(yǔ))的發(fā)音考慮而指出所希望發(fā)音的韻律圖形符號(hào)的示例;圖10說明了根據(jù)本發(fā)明的具有用于規(guī)定的韻律(在此情況下為“報(bào)告”韻律)的單詞重讀和語(yǔ)調(diào)模式的韻律圖形表示法的兩個(gè)示例的使用;圖11以報(bào)告樣式說明了使用圖2-10所說明的Lessac發(fā)音記號(hào)和韻律圖形記號(hào)兩者的標(biāo)記的一個(gè)示例;以及圖12說明了使用圖2-10所說明的Lessac發(fā)音記號(hào)和韻律圖形記號(hào)兩者的標(biāo)記的另一個(gè)示例,此示例是人類感興趣的樣式。
具體實(shí)施例方式
在本發(fā)明之前,沒有用于規(guī)定聲音的已知的合成器“代碼”,也沒有代碼應(yīng)該創(chuàng)建的聲音記號(hào)的任何測(cè)量的集合。相應(yīng)地,本發(fā)明使得熟練的語(yǔ)音實(shí)踐者好比是“合成器”,并使其讀出用韻律方式標(biāo)記的文本的樣本,以便獲得所希望發(fā)音的聲音值。根據(jù)本發(fā)明,這些聲音值用于準(zhǔn)備新穎的韻律聲音數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)可被用于語(yǔ)音合成。將這里所描述的新穎的圖形標(biāo)記符號(hào)與這里所描述的受控制的數(shù)據(jù)庫(kù)記錄方法、有用的韻律元素(如語(yǔ)調(diào)模式;節(jié)奏;重音和氣息音的停頓、以及單詞和短語(yǔ)的正式和非正式的發(fā)音)一起使用,優(yōu)選情況下,這可以集成到合成或人工語(yǔ)音中。
為改進(jìn)許多已知的合成語(yǔ)音輸出的典型的乏味的機(jī)械式的質(zhì)量,本發(fā)明提供了這樣的系統(tǒng)、方法和新穎的文本編碼技術(shù),它們提供了受控的或標(biāo)準(zhǔn)化的人類語(yǔ)音輸入,這些語(yǔ)音輸入用于生成聲音元素的數(shù)據(jù)庫(kù),這些聲音元素可以使用適用于應(yīng)用適當(dāng)?shù)穆晫W(xué)元素的規(guī)則集、通過機(jī)器結(jié)合到語(yǔ)音中,以提供人性化的語(yǔ)音輸出。
理想情況下,人類語(yǔ)音輸入和規(guī)則集體現(xiàn)了一個(gè)或更多個(gè)專業(yè)語(yǔ)音實(shí)踐者的教導(dǎo)。在本發(fā)明的一個(gè)實(shí)施例中,使用了語(yǔ)音訓(xùn)練教練的識(shí)別的教導(dǎo)。
作為示例,這里將引用Arthur Lessae的關(guān)于戲劇藝術(shù)和演說的原理,應(yīng)理解,也可以使用其他語(yǔ)音培訓(xùn)教練的教導(dǎo)或其他語(yǔ)音培訓(xùn)的體系,具體來說,英語(yǔ)之外的其他語(yǔ)言在很多情況下使用相當(dāng)不同的語(yǔ)音訓(xùn)練教導(dǎo)。理想情況下,這樣的其他語(yǔ)音訓(xùn)練技術(shù)可以具有規(guī)則集,該規(guī)則集以有吸引力韻律字符(例如音樂字符)提供了一致的、可輕松地理解的語(yǔ)音輸出,如將從這里的教導(dǎo)可以顯而易見地看出的那樣。語(yǔ)音實(shí)踐者可以被理解為是在相關(guān)的語(yǔ)音培訓(xùn)或訓(xùn)練學(xué)科方面經(jīng)過很好的訓(xùn)練的個(gè)人,他們通常在說話能力方面專業(yè)地使用他們的語(yǔ)音技巧和知識(shí),例如,作為語(yǔ)音教師、公共講演者或演員。
以Lessac方法訓(xùn)練過的語(yǔ)音實(shí)踐者認(rèn)為語(yǔ)音為像管弦樂般的聲音,即,語(yǔ)音是音樂。文本標(biāo)識(shí)了語(yǔ)音的語(yǔ)音參數(shù)作為三個(gè)元素的相互作用,如Arthur的名為“The Use And Training Of The HumanVoice”,Mayfield Publishing Company,3rd ed.(1997)的書(第二部分,第61頁(yè)開始)所描述的(下文簡(jiǎn)稱為“Arthur Lessac的書”)。由Lessac標(biāo)識(shí)的三個(gè)語(yǔ)音參數(shù)是輔音、音調(diào)和結(jié)構(gòu)性能量。輔音可以比作“orchestra”,音調(diào)比作聲音的音樂本身,而結(jié)構(gòu)性能量比作結(jié)構(gòu)性元素對(duì)輔音和元音的相互作用。Arthur Lessac將三個(gè)語(yǔ)音的語(yǔ)音參數(shù)稱為元音eNeRGy。Lessac指出,它們都是從要讀出的文本派生而來的,這意味著,文本要傳遞諸如被視為整體的文本的內(nèi)容、單詞的含義和聲音、它們的語(yǔ)法上的關(guān)系、所使用的語(yǔ)法和消息這些要素。
盡管人類語(yǔ)音是模擬式的聲音,說話者可以“作為連續(xù)的樂器來播放聲音”,有用的是,在連續(xù)體中取幾個(gè)離散點(diǎn),以講述無(wú)窮可變的可表達(dá)的語(yǔ)音的概念,關(guān)于這一點(diǎn),在Arthur Lessac的書的149,以及170到173頁(yè)進(jìn)行了具體的描述,該文說明了連續(xù)結(jié)構(gòu)性的和音調(diào)范圍中的“點(diǎn)”值。
Lessac系統(tǒng)提供或多或少的字母數(shù)字記號(hào)以進(jìn)行編碼,用以達(dá)到所希望的發(fā)音,以使得單個(gè)語(yǔ)音元素,特別是音素、雙音素和所謂的“M-ary音素”是可理解的。這些語(yǔ)音元素主要是單個(gè)元音和輔音、雙元音和輔音混合。
現(xiàn)在請(qǐng)參看圖1,被標(biāo)記的文本包括被標(biāo)記用于根據(jù)Lessac記號(hào)進(jìn)行發(fā)音的單詞的文本行10,字母數(shù)字符號(hào)的記號(hào)行12位于文本行10的正上方。熟悉如Arthur Lessac的書中所描述的Lessac系統(tǒng)的個(gè)人將能夠理解行12中的記號(hào)所表示的發(fā)音指令,并將能夠應(yīng)用它們,以便能夠以一致的方式逐一讀出行10。下面的表A-E顯示了在實(shí)施本發(fā)明時(shí)可以使用的這樣的記號(hào)的樣本。如果文本被很好地標(biāo)記并且說話者正確地實(shí)現(xiàn)標(biāo)記指令,則結(jié)果能產(chǎn)生清楚而可理解的語(yǔ)音。然而,盡管清楚而可理解,根據(jù)說話者或語(yǔ)音源的不同,語(yǔ)音可能有點(diǎn)單調(diào)或像機(jī)器讀的。
在2002年12月31日申請(qǐng)的標(biāo)題為“TEXT TO SPEECH”的Addison等人的美國(guó)專利申請(qǐng)No.10/334,658中描述了用于表示可理解的發(fā)音的Lessac圖形記號(hào)的有用性,但沒有給出示例,并且沒有描述如圖1所示的標(biāo)記的特定實(shí)施例。
現(xiàn)在請(qǐng)參看圖2,根據(jù)本發(fā)明,所顯示的圖形符號(hào)用于指出讀出字母、雙元音、音節(jié)或其他語(yǔ)音元素時(shí)所要求的音高控制,以獲取所說出的段落的希望韻律。
本發(fā)明中使用的韻律代碼是發(fā)音代碼,它們涉及文本的序列、一個(gè)單詞內(nèi)的字母的序列;一個(gè)句子內(nèi)的單詞的序列;一個(gè)句子的固有序列;一個(gè)段落中的句子的連續(xù)的位置;以及作為段落的序列的一部分的段落的位置。這些考慮中的任何一個(gè)或更多個(gè)可以確定什么是、或什么不是適當(dāng)?shù)捻嵚桑蛘咧刈x、音高或時(shí)間中的什么韻律元素適合于是應(yīng)用于文本。有時(shí),適當(dāng)?shù)捻嵚墒遣幻黠@的,直到某一個(gè)序列完成之前。本發(fā)明在考慮到這些因素的情況下能使適當(dāng)?shù)捻嵚蓱?yīng)用于文本。本發(fā)明中使用的代碼由發(fā)音發(fā)聲原理和上下文確定,在該上下文中,通過規(guī)定適當(dāng)?shù)捻嵚?,?duì)代碼進(jìn)行修改以用于可表達(dá)的含義。
顯示了上滑符號(hào)(upglide)20、下滑符號(hào)(downglide)22、兩個(gè)抑揚(yáng)符號(hào)24A和24B以及水平維持26。每一個(gè)圖形記號(hào)20-26都包括左側(cè)點(diǎn),如點(diǎn)28,其指出開始音高,以及尾巴,如延伸到點(diǎn)28的右邊的向上的尾巴30。
尾巴30的輪廓指出音高如何隨著發(fā)出語(yǔ)音元素而變化。上滑符號(hào)20的向上的尾巴30表示上升的音高。下滑符號(hào)22具有下轉(zhuǎn)的尾巴32,以表示下降的音高,水平維持26保持某一個(gè)水平,以表示持續(xù)的不變的音高。抑揚(yáng)符號(hào)24A表示上升到峰值然后下降的音高,而抑揚(yáng)符號(hào)24B表示相反的情況。韻律圖形符號(hào)20-26可以放置在要說出的文本附近的任何方便的位置,例如在文本正上方的行中被協(xié)調(diào),或有選擇地被放置于文本下面。盡管可以用文本或連字號(hào)作為這里所描述的圖形發(fā)音符號(hào)的附件把文本斷開,但是,優(yōu)選情況下,應(yīng)保持文本的正常打字的、鍵入的或書寫的外觀。
在下文將描述的隨后的圖形(圖5往前)中,使用了貫穿字母的正斜杠(forward slash)36來表示字母只部分地發(fā)聲,“準(zhǔn)備”,因?yàn)橄旅娴妮o音具有緊密相關(guān)或相同的聲音。此外,具有掛在這里被鏈接的字母和參考40下面和之間的吊床的形狀的淺的U形鏈接符號(hào),被用來表示通過其他字母彼此分離的并且通常位于相鄰的單詞中的字母,應(yīng)該以連接的發(fā)音的連續(xù)的方式讀出。下面將結(jié)合圖9比較詳細(xì)地描述對(duì)直接鏈接進(jìn)行標(biāo)記的鏈接符號(hào)40的用法。
一般而言,根據(jù)本發(fā)明的一個(gè)實(shí)施例,當(dāng)對(duì)輔音進(jìn)行標(biāo)記時(shí),元音之前的輔音被說出但不是“可播放的”,因?yàn)樗鼈冎辉谡Z(yǔ)音直接流進(jìn)元音時(shí)短暫地形成。在此上下文中,“可播放的”是指,說話者在讀可播放的輔音時(shí)可以創(chuàng)建所希望的韻律效果,在讀可播放的輔音時(shí)使用拖長(zhǎng)發(fā)音、停頓或音高變化。
在此實(shí)施例中,沒有用圖形方式標(biāo)記不發(fā)音的輔音,而是留給計(jì)算機(jī)軟件。在用于喘息或解釋的停頓之前的最后的輔音被標(biāo)記為“可播放的”。R長(zhǎng)號(hào)不是可播放的,其在任何其他輔音之前或當(dāng)其在最后的時(shí)候則在用于喘息或解釋的停頓之前,沒有被標(biāo)記。也可以對(duì)計(jì)算機(jī)進(jìn)行編程,使其理解此特征。
現(xiàn)在請(qǐng)參看圖3,韻律圖形符號(hào)的所顯示的實(shí)施例包括輔音的下列標(biāo)記單下劃線用以分別標(biāo)記為可播放的敲擊聲,例如,定音鼓鼓聲D、B和G以及響弦鼓,低音鼓和手鼓鼓聲T、P和K;雙下劃線用以標(biāo)記為可播放的弦樂器聲N、M、V和Z;木管樂器聲L、NG、TH和ZH;和(無(wú)聲)聲響效果F、S、SH和th。
未標(biāo)記的輔音不可播放,也就是說,它們不是在讀出它們時(shí)利用拖長(zhǎng)發(fā)音、停頓或音高變化來創(chuàng)建具有所希望的韻律韻律效果的注意焦點(diǎn)。
可以用于輔音混合的根據(jù)本發(fā)明的韻律圖形記號(hào)的附加規(guī)則包括,不標(biāo)記以單詞開始的輔音混合的第一個(gè)字母。幾個(gè)單詞內(nèi)的輔音混合可以被標(biāo)記為如下bl,brnobly,probably;abrasion,upbraid;/cl,cr,chr unclean,include;increase;unchristian;drsundry,hundredfl,fr,phr inflame,infraction,rephrasegl,grdeglaze,English;degrade,aggressive;pl,prapply,replace;comprise,surpise;quinquest,unquiet,sequel;trrestroom,distress,entrance;thr bathroom,enthrall;在圖2-10中所顯示的在實(shí)施本發(fā)明的過程有用的圖形記號(hào)的示范性實(shí)施例中,上文被描述為弦樂器聲(N、M、V和Z)、木管樂器聲(L、NG、TH和ZH)和(無(wú)聲的)聲響效果(F、S、th和ZH)的字母或字母組合以及雙元音,當(dāng)它們?cè)谒衅渌o音之前出現(xiàn)時(shí)通過雙下劃線被標(biāo)記為“可播放的”,除非后面的輔音是相同的輔音或同詞源。當(dāng)相同的輔音或同詞源跟在后面時(shí),第一個(gè)輔音用貫穿輔音的正斜杠標(biāo)記為“準(zhǔn)備”。
理想情況下,當(dāng)G不代表跟隨著鼓聲的雙簧管聲時(shí),則字母NG可以加兩道下劃線。當(dāng)以字母NG結(jié)尾的單詞的一部分與整個(gè)單詞具有共同的含義時(shí),認(rèn)為在雙簧管聲字母之后沒有鼓聲,如下面的示例所示long,singsong,longhand圖3顯示了在各種單詞中出現(xiàn)的輔音的s-混合中的哪些輔音是可播放的,也就是說,可以被給予擴(kuò)展的或強(qiáng)調(diào)的發(fā)音,或音樂聲,以增強(qiáng)韻律。例如,在“whiskey”和“husky”中,S將被播放,而K不被播放。K不是不發(fā)音的它只是很快地發(fā)音,而不在其上停頓或拖長(zhǎng)其發(fā)音。在“ensnare”中,第一個(gè)N和S被播放,而第二個(gè)N和R不播放。distinct的N下面的雙下劃線并帶有“尾巴”34,接下來是C和T的單下劃線,表示可播放的N可以作為雙簧管聲播放,但接下來是必須播放的鼓聲輔音,在此情況下為雙鼓聲輔音對(duì)?!癲ismantle”的貫穿T標(biāo)記的、上端帶有“球”38的正斜杠36表示TL不能作為木制管樂器“木制管樂器敲擊聲”播放,而作為輔音T,接下來是可播放的輔音L,如用于L的雙下劃線所指出的。
如圖4所示,當(dāng)NG代表雙簧管聲加鼓聲或其他敲擊聲時(shí),N下面帶有雙下劃線,具有尾巴42,表示N是可作為雙簧管聲播放的,但G只有單下劃線,顯示需要作為G定音鼓鼓聲敲擊聲播放,以便保證正確地讀出單詞。也是在圖4中,用雙下劃線標(biāo)記單詞longevity,N有尾巴,接下來是沒有下劃線的G,表示N可作為雙簧管聲播放,但G必須作為“其他敲擊”鐃鈸聲DG發(fā)音,以便單詞正確地讀出。
在與鼓聲不相關(guān)的輔音之前,可以用單下劃線將鼓聲標(biāo)記為是可播放的,從口腔解剖學(xué)的方面來看,鼓聲是在舌頭的不同接觸位置產(chǎn)生并感覺到的輔音。在相同的、同詞源的或半相關(guān)的輔音之前,作為像是在幾乎相同的位置產(chǎn)生的輔音,用貫穿輔音的正斜杠將鼓聲有用地標(biāo)記為“準(zhǔn)備”。
現(xiàn)在請(qǐng)參看圖5,在所有其他輔音之前,在鐃鈸聲的每一個(gè)字母下面,用單下劃線將鐃鈸聲標(biāo)記為“可播放的”,除了相同的和同源的以外。如此,例如,在“heads back”而不是在“heads south”中的“heads”中的DS是可播放的。在圖5中,如上文所描述的,直接鏈接用鏈接符號(hào)40進(jìn)行標(biāo)記。如此,“heads back”中的DS顯示為由鏈接符號(hào)40鏈接到B,“beats fast”中的TS顯示為由鏈接符號(hào)40鏈接到F。
現(xiàn)在請(qǐng)參看圖6,在所有其他輔音之前,木制管樂器敲擊聲DL和TL用雙下劃線被標(biāo)記為“可播放的”,跟隨的初始L是例外,因?yàn)槟局乒軜菲髑脫袈曋械腖。如此,例如在“middle school”而不是在“middle life”中,“middle”中的DL是可播放的。如上文所描述的,標(biāo)記了吊床形符號(hào)40,以表示直接鏈接。在正斜杠36的頂部標(biāo)記的“o”表示“準(zhǔn)備”標(biāo)記的特別版本,只用于木制管樂器敲擊聲,表示輔音將被準(zhǔn)備并被鏈接到L。在跟隨的L的情況下,L直接鏈接到跟隨的L,因此,木制管樂器敲擊聲的末尾不得作為持續(xù)的輔音L來播放。
請(qǐng)參看圖7,請(qǐng)注意,理想情況下,輔音組合GL、KL、BL和PL不被當(dāng)做代表木制管樂器敲擊聲來對(duì)待,因?yàn)樵谒鼈冎g說出中性的(非書寫的)元音。如此,如圖所示,L是可播放的,但前面的輔音是不可播放的。
理想情況下,當(dāng)W、H和Y出現(xiàn)在對(duì)于其他輔音樂器是可播放的位置時(shí),W、H和Y不被標(biāo)記為是可播放的,因?yàn)樗鼈兪窃艋螂p元音的一部分,如下面的示例所顯示的
new,newly,bow;bowline;cow,cowlick.
W和H一起在共同的組合WH中的有用的記號(hào),根據(jù)本發(fā)明,是在WH上方標(biāo)記字母“hw”,以表示H應(yīng)該首先發(fā)聲,接下來是W,并且兩者都不應(yīng)該被播放。
請(qǐng)參看圖8,當(dāng)在單詞的內(nèi)部和單詞之間[Y]或[W]在另一個(gè)元音之前出現(xiàn)時(shí),創(chuàng)建Y和W連接詞50和52,以表示應(yīng)該從一個(gè)單詞到下一個(gè)單詞或從一個(gè)音節(jié)到下一個(gè)音節(jié)保持語(yǔ)音連續(xù)性。在本發(fā)明的此實(shí)施例中,用于Y和W連接詞50和52的示范性符號(hào)各自都包括分別從Y或W下面到跟隨的元音的像吊床的淺的U形,連同分別標(biāo)記在U的中間、靠近U或貫穿U的小的Y或W字母。U表示要保持連續(xù)性,字母Y或W表示要使用的聲音,不管字母是否存在于書寫的文本輸入中。例如,在“create”的E和A之間發(fā)Y的聲音,在“cruel”的U和E之間發(fā)W的聲音。
現(xiàn)在請(qǐng)參看圖9,如Addison等人的共同待審專利申請(qǐng)No.10/334,658描述的和在Arthur Lessac的書中更詳細(xì)地描述的,Lessac系統(tǒng)標(biāo)識(shí)了一個(gè)單詞或短語(yǔ)中的輔音和一個(gè)或更多個(gè)附加的字母或音素在它們被說出時(shí)被鏈接起來的多種方式。圖9顯示了根據(jù)本發(fā)明的如何用圖形方式表示這樣的被鏈接的單詞的所希望發(fā)音的某些示例。
圖9中顯示了在Lessac語(yǔ)音系統(tǒng)中所使用的說出的單詞鏈接的三個(gè)示例,即,所謂的“直接鏈接”、“播放-和-鏈接”和“準(zhǔn)備-和-鏈接”。
在直接鏈接中,一個(gè)單詞的最后一個(gè)輔音被直接鏈接到下一個(gè)單詞的開始處的元音,例如,“far above”被讀作一個(gè)單詞“farabove”。
在“播放-和-鏈接”中,在口中的不同位置有兩個(gè)相鄰的輔音的情況下,如“k”,接下來是“t”,在移到第二個(gè)輔音(在此情況下,“t”)之前,第一個(gè)輔音(在此情況下,“k”)被完全(意指是完成的)播放(讀出或發(fā)出聲)。
當(dāng)在口中同一個(gè)位置有兩個(gè)相鄰的輔音或兩個(gè)輔音彼此接近時(shí),如在“grab boxes”或“keep back”的情況下,“b”后面是另一個(gè)“b”或“p”,使用“準(zhǔn)備-和-鏈接”。在此情況下,在移到第二個(gè)鼓聲之前,準(zhǔn)備第一個(gè)輔音或“鼓聲”,意指是未完成的,這通過輕微的暫停來執(zhí)行。
用于表示直接鏈接的示范性韻律圖形記號(hào),如圖9的上一行所示,包括掛在被鏈接的字母下面和之間的鏈接符號(hào)40,通常將一個(gè)單詞的末尾處或末尾附近的一個(gè)字母或多個(gè)字母與下一個(gè)單詞的開始處或開始附近的字母鏈接,如從所顯示的示例中可以清楚地看到的。直接鏈接表示說出的動(dòng)量(momentum)應(yīng)該從一個(gè)鏈接的字母?jìng)鞯较乱粋€(gè)字母,單詞之間沒有中斷、停頓或暫停。
在圖9的中間行中所顯示的“播放-和-鏈接”示例中,播放第一個(gè)輔音,第二個(gè)輔音不播放。如此,鏈接符號(hào)40與第一個(gè)輔音的單或雙下劃線結(jié)合。
圖9的最底部的行中所顯示的“準(zhǔn)備-和-鏈接”示例使用了貫穿將要準(zhǔn)備的第一個(gè)輔音的正斜杠,與到第二個(gè)輔音的鏈接符號(hào)40相結(jié)合,以顯示鏈接。此外,如上文所描述的,可播放的輔音用下劃線表示。
現(xiàn)在請(qǐng)參看圖10,在所顯示的兩個(gè)韻律圖形符號(hào)中,示例1是實(shí)現(xiàn)起來相對(duì)來說比較簡(jiǎn)單和經(jīng)濟(jì)的,而示例2則比較復(fù)雜,用于促進(jìn)產(chǎn)生高質(zhì)量合成語(yǔ)音輸出,這種高質(zhì)量合成語(yǔ)音輸出適用于(但不僅限于)諸如會(huì)說話的書和雜志、戲劇及其他娛樂之類的應(yīng)用中。此外,示例2的比較詳細(xì)的記號(hào)減少了說話者之間的甚至在經(jīng)過訓(xùn)練的說話者的情況下也可能發(fā)生的變化,從而有助于輸出的一致性。
示例1的記號(hào)可以(但不僅限于)適用于工業(yè)應(yīng)用中,如與設(shè)備、車輛、生產(chǎn)機(jī)器、低端游戲和娛樂設(shè)備等等進(jìn)行的發(fā)聲通信。當(dāng)然,如果需要的話,任何一個(gè)記號(hào)都可以用于其他用途。
在圖10中,示例1和2應(yīng)用于相同的文本,在交替的行上,進(jìn)行并排的比較。如通過相互比較圖10的頭兩行可看到的,在“heads”與另一個(gè)鏈接單詞的幾個(gè)組合中,被貫穿DS組合的D的正斜杠36標(biāo)記的附加的準(zhǔn)備提供了更細(xì)微、更有吸引力的聲音。在每一種情況下,保持了從“heads”到下面一個(gè)單詞的連續(xù)性,但在示例2中,由于被準(zhǔn)備了,根據(jù)附加的標(biāo)記,D聽起來更清楚。在遵循示例1的發(fā)音中,D可能會(huì)丟失。
現(xiàn)在請(qǐng)參看圖11和12,可以理解,本發(fā)明提供并使用了圖示符號(hào)集,該圖示符號(hào)集可以被用于指出或提供吸引人的、韻律語(yǔ)音輸出的模板,其具有一個(gè)或另一種相當(dāng)不同的風(fēng)格。圖11顯示了以被稱為“報(bào)告”的“韻律”風(fēng)格呈現(xiàn)Gettysburg Address的一部分的標(biāo)記,而如圖12所示的風(fēng)格是更富有情緒的人類興趣風(fēng)格。
Address的文本在諸如文本行10之類的文本行中呈現(xiàn),用Lessac結(jié)構(gòu)性的和音調(diào)能量元音發(fā)音記號(hào)以及用輔音能量發(fā)音記號(hào)在文本行10上方進(jìn)行標(biāo)記,包括在諸如記號(hào)行12之類的記號(hào)行中的敲擊和持續(xù)的音調(diào)輔音的標(biāo)記、木制管樂器敲擊聲的標(biāo)記,以及鏈接符號(hào)的標(biāo)記,如上文所描述的。在該文本之下文本也被用諸如上文所描述的韻律圖形符號(hào)記號(hào),以便不與發(fā)音表示法發(fā)生干擾,包括單個(gè)字母下劃線、上滑符號(hào)、下滑符號(hào)、吊床形符號(hào)等等。此外,所謂的“Y蜂音行(Y-buzz)”60被添加到記號(hào)行12的上方,在Y蜂音行60的上方,標(biāo)記了進(jìn)一步的韻律符號(hào)。如Arthur Lessac的書所描述的,例如,在第122頁(yè),Y蜂音是講演者的或歌手的語(yǔ)音中的骨頭-傳導(dǎo)音調(diào)的振動(dòng)基礎(chǔ)。
在Y蜂音行60上方,使用處于Y蜂音行60上方的某一水平的小點(diǎn)62和大點(diǎn)64,在可被稱為“韻律音高圖表”中標(biāo)記出所希望的語(yǔ)調(diào)模式,該語(yǔ)調(diào)模式表示相對(duì)于講演者的Y蜂音行音高的所希望音高。點(diǎn)的大小可以用于表示所希望的重讀,或指定的相對(duì)音高的相對(duì)振幅,小點(diǎn)62表示沒有特別的重讀,大點(diǎn)64表示希望有增加的重讀??蛇x地,點(diǎn)大小還可以以成比例的方式表示重讀的所希望程度。盡管可以以低于Y蜂音行60的頻率發(fā)聲,但是,聲音的音調(diào)和發(fā)音控制可能變得不足以使聲音作為可控制的樂器來執(zhí)行。
在圖11和12中以圓圈標(biāo)記出了字母B,指出了當(dāng)讀出根據(jù)標(biāo)記的文本時(shí)由語(yǔ)音實(shí)踐者所犯的錯(cuò)誤。錯(cuò)誤是由聽發(fā)音的錄音并記下發(fā)音偏離了應(yīng)該遵循的標(biāo)記的地方的其他語(yǔ)音實(shí)踐者確定的。例如,在圖12中,實(shí)踐者B作出了不同于標(biāo)記中所要求的兩個(gè)發(fā)音。第一個(gè)是沒有讀出單詞“engaged”(文本行4,單詞4)的末尾處的鼓聲輔音。第二個(gè)是未能執(zhí)行單詞“dedicated”(文本行5,單詞5)末尾處的E的上滑以及輔音D的鼓聲。
通過仔細(xì)地將韻律音高圖表標(biāo)記與圖11的報(bào)告標(biāo)記進(jìn)行比較,由如圖12所示的人類興趣標(biāo)記傳達(dá)的添加的情感和能量將變得顯而易見。例如,圖12中的許多重讀點(diǎn)是較大的點(diǎn)64,要求更強(qiáng)的重讀或重音。此外,行1中的“ago”上方的上滑符號(hào)20被提高到Y(jié)蜂音行60的上方,以指出所希望的較高的音高。在最下面的行中,“conceived”的V被賦予了特別的重讀點(diǎn)64,并且沒有使用抑揚(yáng)符號(hào)24B。通過查看圖形,可以看出其他差異。
從圖2-10,特別是從圖11和12可以看出,本發(fā)明提供了綜合的文本標(biāo)記系統(tǒng),該系統(tǒng)可以利用普通文本體現(xiàn)復(fù)雜的發(fā)音和韻律符號(hào),作為不分散或中斷普通文本的覆蓋,以產(chǎn)生新穎的指令或控制文檔,作為人聲音或機(jī)器發(fā)出的語(yǔ)音,提供了文本的準(zhǔn)確的、能理解的、有吸引力的甚至有旋律的呈現(xiàn)的藍(lán)圖。根據(jù)這里的公開,用于實(shí)現(xiàn)本發(fā)明的目的的語(yǔ)音的、用來標(biāo)記文本的其他適當(dāng)?shù)膱D形符號(hào)對(duì)于那些精通本技術(shù)的人員來說是顯而易見的,并預(yù)期可以適用于實(shí)施本發(fā)明。例如,可以使用各種幾何符號(hào)或幾何符號(hào)或動(dòng)畫字形的方案。然而,可以相信,諸如這里所描述的簡(jiǎn)單符號(hào)將被直觀地理解,易于在對(duì)腳本或其他文本進(jìn)行標(biāo)記時(shí)應(yīng)用,重要的是,在經(jīng)過訓(xùn)練的說話者閱讀被標(biāo)記的文本時(shí)可以被他們輕松地理解。
如圖2-4及其他圖形所示的以及這里所描述的韻律圖形符號(hào)可以以各種方式使用,以便在合成的語(yǔ)音輸出中,特別是在共振峰語(yǔ)音輸出中產(chǎn)生人性化的聲音。例如,這些可以被一個(gè)或多個(gè),優(yōu)選情況下是多個(gè)經(jīng)過訓(xùn)練的人使用,以根據(jù)這里所闡述的標(biāo)記語(yǔ)音代碼,準(zhǔn)確地讀出文本,以產(chǎn)生讀出的語(yǔ)音的數(shù)據(jù)庫(kù)。所述數(shù)據(jù)庫(kù)將包含讀出的語(yǔ)音,這種語(yǔ)音被證明準(zhǔn)確地遵循了用這里所產(chǎn)生的語(yǔ)音代碼而標(biāo)記出的文本?;蛘?,或此外,本發(fā)明的韻律圖形符號(hào)可以以數(shù)字方式呈現(xiàn),并且在合成器軟件中使用,以便對(duì)將要由機(jī)器閱讀的文本進(jìn)行電子標(biāo)記,以促進(jìn)或引導(dǎo)將韻律元素的數(shù)字域引入到輸出語(yǔ)音中。對(duì)應(yīng)于字母、單詞、短語(yǔ)、句子、段落和較長(zhǎng)的文本的圖形記號(hào)的記錄的語(yǔ)音的數(shù)據(jù)庫(kù),可以被數(shù)字化和分析,以到達(dá)算法及其他韻律學(xué),用于規(guī)定對(duì)應(yīng)于特定文本的特定語(yǔ)音數(shù)據(jù)與其相關(guān)的圖形記號(hào)的唯一關(guān)系。然后,此數(shù)據(jù)庫(kù)可以用于向合成器提供輸入?yún)?shù),以重新創(chuàng)建針對(duì)要合成的特定文本模擬人類語(yǔ)音的聲音,作為具有指定的韻律的語(yǔ)音。
為簡(jiǎn)單起見,每一個(gè)文本單元以及其關(guān)聯(lián)的語(yǔ)音代碼圖形表示法都可以視為“字形”。類似地,對(duì)應(yīng)于“字形”的每一個(gè)聲學(xué)單位都被標(biāo)識(shí)為“音素”。幾百或幾千個(gè)(其中,“幾”表示“至少兩個(gè)”)或更多的本發(fā)明的音高、振幅和韻律圖形記號(hào)的發(fā)音關(guān)聯(lián)的字形-音素對(duì)的擴(kuò)展集合,可以以數(shù)字方式呈現(xiàn)并且在合成器軟件中使用,以便對(duì)將要由機(jī)器閱讀的文本進(jìn)行電子標(biāo)記,以便促進(jìn)或引導(dǎo)將韻律元素的數(shù)字域引入到輸出語(yǔ)音中。
那些精通本技術(shù)的人將理解,如圖2-4所示的特定韻律圖形符號(hào)僅僅是示范性的,根據(jù)這里的教導(dǎo),在實(shí)施本發(fā)明的過程中有用的韻律圖形符號(hào)可以具有許多其他形式。此外,所顯示的符號(hào)的特定示例也適用于Lessac語(yǔ)音系統(tǒng)。如果需要,根據(jù)本發(fā)明,可以使用其他韻律圖形符號(hào)來實(shí)現(xiàn)其他語(yǔ)音訓(xùn)練或培訓(xùn)方法,或用于實(shí)現(xiàn)Lessac系統(tǒng),以促進(jìn)機(jī)器語(yǔ)音的人性化,正如那些精通本技術(shù)的人根據(jù)這里的教導(dǎo)所理解的那樣。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,在準(zhǔn)備諸如圖11和12中所顯示的那些韻律標(biāo)記時(shí),可以遵循如下面的段落中所描述的原則。
準(zhǔn)備被標(biāo)記的腳本。根據(jù)本發(fā)明,在準(zhǔn)備要說出的被標(biāo)記的腳本時(shí),如圖11-12中所顯示的那些,良好的頁(yè)面布局對(duì)于說話者是有幫助的,有助于他們不僅理解文本,而且還有助于他們同時(shí)理解添加的符號(hào)以便引導(dǎo)說話者產(chǎn)生一致的吸引人的語(yǔ)音輸出,該語(yǔ)音輸出可以在創(chuàng)建數(shù)據(jù)庫(kù)時(shí)有用,另外還在計(jì)算機(jī)化語(yǔ)音合成中有用。
理想情況下,文本應(yīng)該在每一行的上方有充足的間隔,例如3厘米或更多,以容納將要添加的發(fā)音記號(hào)和韻律圖形符號(hào)。相對(duì)來說比較大的字體對(duì)于以有助于準(zhǔn)確地閱讀和解釋標(biāo)記,同時(shí)大聲地朗讀的方式來容納各種記號(hào)和符號(hào)是有用的。諸如14磅Lucida BrightSemi粗體之類的字體是合適的字體的示例。
在本發(fā)明的一個(gè)實(shí)施例中,在標(biāo)記腳本時(shí),每一行腳本,包括頁(yè)面上的最后一行,以垂直標(biāo)記結(jié)束,以表示抑揚(yáng)頓挫或氣息音。數(shù)字被寫出。如果首字母縮寫詞將被作為單詞而不是作為字母說出,則首字母縮寫詞被全部寫出。有用地,指定用于保證一致發(fā)音的參考詞典,例如,Merriam Webster′s Collegiate Dictionary,Tenth Edition。
在參考詞典提供了發(fā)音的選擇的情況下,使用給出的第一個(gè)發(fā)音,除非錄音是正式的或“嚴(yán)肅的”語(yǔ)音,在這種情況下,如果列出了“約定的”發(fā)音,則使用該“約定的”發(fā)音。
語(yǔ)調(diào)模式是在連續(xù)的語(yǔ)音中的分步驟的從音高到音高的一般移動(dòng)。音調(diào)變化是元音或輔音上的滑動(dòng)的音高變化,要么叫做上滑、水平維持、下滑,或者叫做抑揚(yáng)滑動(dòng)。
有用地,在進(jìn)行腳本準(zhǔn)備的實(shí)施例中,說話者大聲地探索腳本,以體驗(yàn)傳達(dá)每一個(gè)句子的含義的語(yǔ)調(diào)和音調(diào)變化。
在腳本上標(biāo)記出了雙垂直線,以指出氣息音停頓,標(biāo)記出單垂直線,以指出沒有停頓的并且將影響這些部分的最后的輔音的抑揚(yáng)頓挫。
在本發(fā)明的一個(gè)有用實(shí)施例中,在這些準(zhǔn)備之后,首先標(biāo)記輔音,然后標(biāo)記元音,以便實(shí)現(xiàn)上文所描述的發(fā)音和韻律。
下一個(gè)步驟是在元音的緊靠上方(但不遮蔽)繪制Y蜂音音高線60,以提供音高標(biāo)記的參考。被標(biāo)志的音高范圍將是從低Y蜂音范圍(低于Y蜂音行60)到中間呼叫(mid-call)范圍,其中,非變形元音可以在中間呼叫中發(fā)聲,例如,#3,R,以及+Y,以及任選的#4和N。
如果需要,可以在Y蜂音行60上方繪制附加的音高線(未顯示),例如,中-低寄存器行(mid-low register line)和中-中(mid-mid)寄存器行??梢栽谝舾呔€上和它們之間放置語(yǔ)調(diào)點(diǎn)62、64或其他適當(dāng)?shù)臉?biāo)記。如果需要,可以使用其他方法來提供音高范圍,例如,如Daniel Jones的書Outline of English Phonetics所描述的,其中,使用了三線譜來定義音高范圍。
于是,語(yǔ)音系統(tǒng)實(shí)踐者(為了實(shí)踐這里所描述的實(shí)施例,應(yīng)該是Lessac實(shí)踐者),根據(jù)相應(yīng)的語(yǔ)音系統(tǒng)和所希望的韻律來記錄他們感覺到是所希望的語(yǔ)調(diào)和音調(diào)變化,其中使用Y蜂音行60作為他們自己的音高范圍的參考。如上面所引用的,對(duì)于每一音節(jié),可以標(biāo)記出點(diǎn),對(duì)于無(wú)重讀的音節(jié),使用小的不同的點(diǎn),如62,對(duì)于重讀的音節(jié),用引人注目的較大的點(diǎn)64。
對(duì)于“人類興趣”錄音,例如,如圖12所顯示的,可以使用較大的點(diǎn)(它們周圍用圓圈圍住)或其他適當(dāng)?shù)膱D形指示,標(biāo)記出語(yǔ)音特點(diǎn)的比較豐富的用途,如所謂的“結(jié)構(gòu)性的NRG”和Lessac系統(tǒng)中的“濃縮音調(diào)”,以指出對(duì)包含Lessac基本呼叫(basic call)單詞的單詞所希望的呼叫焦點(diǎn)(call focus),沒有元音的失真。此段落中所使用的術(shù)語(yǔ)涉及Lessac語(yǔ)音或話音系統(tǒng),可以通過閱讀ArthurLessac的書來進(jìn)行理解。
例如,如該書所描述的,結(jié)構(gòu)性的NRG是動(dòng)覺元音能量(根據(jù)Lessac的“NRG”)狀態(tài),該狀態(tài)與面部姿勢(shì)相關(guān),是指元音聲音箱子的模子、形狀和大小。結(jié)構(gòu)性的NRG被視為與元音音調(diào)的顏色、體溫和美學(xué)相關(guān)。
在主要的重讀音節(jié)之前可以用雙重音符號(hào)(例如,“)標(biāo)記出有效的單詞,而次要的重讀音節(jié)可以帶單重音符號(hào)(例如,‘)。
在此上下文中,有效的單詞是每一個(gè)連續(xù)的短語(yǔ)中的單詞,或文本的其他意義組部分,其引入了隨著句子的進(jìn)行攜帶變?cè)D(zhuǎn)發(fā)(argument forward)的新的思想。
理想情況下,根據(jù)本發(fā)明的此方面,可以進(jìn)行小心的和一致的聲音記錄,以便用于文本到語(yǔ)音轉(zhuǎn)換合成數(shù)據(jù)庫(kù),文本的短語(yǔ)和氣息音停頓部分內(nèi)的單詞的每一“意義組”具有識(shí)別的有效的單詞。不經(jīng)常地,可能有兩個(gè)具有可比較的重要性的有效的單詞。
使用Lessac訓(xùn)練的元音動(dòng)態(tài),可以以各種方式識(shí)別有效的單詞,例如,通過將它標(biāo)記出來以較高的音高說出,或通過大大地延長(zhǎng)其元音和輔音,或通過添加濃縮音調(diào),呼叫共振,或通過這些動(dòng)態(tài)的組合。
在本發(fā)明的一個(gè)示范性實(shí)施例中,變?cè)囊胍哉f明性的句子開始,其中,標(biāo)記出或不標(biāo)記出所有的單詞,連接單詞除外,以便大約具有相同的重讀或重音量。第一個(gè)重讀的單詞可以在音高方面提高,其他的可以逐步下降到Y(jié)蜂音范圍,最后一個(gè)重讀音節(jié)上有下滑符號(hào)。
作為示例,在根據(jù)本發(fā)明的語(yǔ)音的被標(biāo)記的腳本中,可以在標(biāo)點(diǎn)符號(hào)中使用各種音調(diào)變化,如現(xiàn)在將描述的那樣。句號(hào)和分號(hào)在最后一個(gè)重讀的單詞中呈現(xiàn)下滑符號(hào)22。逗號(hào)和冒號(hào)可以呈現(xiàn)上滑符號(hào)20或水平維持26。以疑問詞(例如,誰(shuí)、什么、在哪里、何時(shí)、如何或?yàn)槭裁?開始的問題在最后一個(gè)重讀的單詞上呈現(xiàn)下滑符號(hào)22,其他問題,通常是預(yù)期以“是”或“否”回答的那些問題,在最后一個(gè)重讀的單詞上呈現(xiàn)上滑符號(hào)。
其他語(yǔ)音培訓(xùn)系統(tǒng)。如那些精通本技術(shù)的人員所理解的,所聲明的發(fā)明可以在使用了Lessac方法之外的規(guī)則或語(yǔ)音訓(xùn)練原理或?qū)嵺`的實(shí)施例中實(shí)現(xiàn)。一個(gè)這樣的示例是哥倫比亞大學(xué)戲劇分校的Kristin Linklater的方法。有關(guān)Kristin Linklater的技術(shù)的信息以及其規(guī)則可以在實(shí)施本發(fā)明中使用的其他語(yǔ)音實(shí)踐者的信息,如果需要,可以在www.columbia.edu/cu/news/media/00/kLinklater/和在www.kristinlinklater.com中找到。
韻律語(yǔ)音規(guī)則和它們的應(yīng)用??稍诒景l(fā)明中使用的韻律語(yǔ)音規(guī)則旨在負(fù)責(zé)語(yǔ)言以及其各個(gè)方言的發(fā)音和共同發(fā)音。這里將引用的示范性程序語(yǔ)言是美國(guó)英語(yǔ),“普通教育”方言??梢岳斫猓梢允褂闷渌Z(yǔ)言。韻律語(yǔ)音規(guī)則(其中至少有某些可以從Lessac文本中推導(dǎo)出或知道),應(yīng)用于要使用這里所描述的新穎的聲音代碼讀出或合成的文本,使得熟悉Lessac系統(tǒng)的說話者可以適當(dāng)?shù)?、Lessac確定的、受控的發(fā)音方式大聲地閱讀文本。
規(guī)則的示例包括如在一個(gè)或多個(gè)共同擁有的應(yīng)用中所描述的,使用隨機(jī)停頓,以及通過氣息音停頓修改;包括節(jié)奏、語(yǔ)調(diào)模式、單詞重噸、單詞選擇、以及輔音“混合”的韻律的定義;所有直接從要讀出的文本中導(dǎo)出的規(guī)則。這些韻律語(yǔ)音規(guī)則可以用于其他方言和語(yǔ)言。
在本發(fā)明中使用的聲音標(biāo)記代碼可以指出如何產(chǎn)生特定語(yǔ)音聲音,以及可以使用什么語(yǔ)音變量來產(chǎn)生那些聲音。要讀出的文本,以及每一個(gè)代碼的變量的可選的規(guī)定的值,可以充當(dāng)已經(jīng)經(jīng)過訓(xùn)練以在讀出文本時(shí)遵循代碼的人類說話者的韻律指令。根據(jù)本發(fā)明,相同的或類似的這樣的代碼變量,或它們的機(jī)器等同物,可以用來指示計(jì)算機(jī)化合成器根據(jù)韻律指令讀出文本。代碼控制聲音的產(chǎn)生,變量指出與所希望的聲音特征有關(guān)的可以計(jì)量的身份。
可以根據(jù)本發(fā)明的方法進(jìn)行編碼的語(yǔ)音變量的示例包括將要合成以表達(dá)特定音素或其他語(yǔ)音元素的聲音元素的聲頻、振幅、音高和持續(xù)時(shí)間。可以量化到期望值的特定變量的某些示例有基本聲頻;可控制的音高范圍的上下值;表達(dá)為每時(shí)間單位的頻率變化的音高變化;每時(shí)間單位的振幅變化;以及每時(shí)間單位的組合的振幅和音高變化。
現(xiàn)在將描述語(yǔ)音規(guī)則、聲音標(biāo)記代碼和一個(gè)或多個(gè)變量值之間的一個(gè)有用關(guān)系的示例。其他可能性對(duì)于那些精通本技術(shù)的人是顯而易見的。單詞之間的中斷和句子中出現(xiàn)逗號(hào)都代表在創(chuàng)建語(yǔ)音聲音時(shí)的停頓。盡管如此,每一種停頓都具有不同的字符,根據(jù)本發(fā)明的一個(gè)實(shí)施例,該字符可以由不同的聲音代碼來表示。停頓對(duì)于聽者是有幫助的,促進(jìn)了單個(gè)單詞的識(shí)別,并提供了幫助識(shí)別短語(yǔ)的間隔。類似地,盡管每一個(gè)停頓都涉及時(shí)間作為變量,但是,通常構(gòu)成了停頓的聲音之間的以毫秒為單位的相對(duì)無(wú)聲的時(shí)間值或持續(xù)時(shí)間在不同的上下文中可能是不同的。在其中書寫的文本沒有逗號(hào)的單詞之間,停頓是說話的速度的一部分,并可以由總體速度和語(yǔ)音的節(jié)律變化來確定,如包圍每一個(gè)停頓的清晰發(fā)音的單詞的有節(jié)奏的聲音要求的,并包含在完整的短語(yǔ)內(nèi)。
如此,停頓可以在上下文中由語(yǔ)音的韻律確定,例如,激勵(lì)、嚴(yán)重、報(bào)告、詩(shī)歌、勸說或其他韻律,其中,對(duì)應(yīng)的文本中的逗號(hào)表示短語(yǔ)的間隔,沒有發(fā)聲的對(duì)應(yīng)的停頓持續(xù)時(shí)間,當(dāng)讀出文本時(shí),可以隨著韻律及其他因素不同以及隨著說話者不同而不同。在天然的人類語(yǔ)音中,此停頓不是單一值,而具有稍大一些或稍小的時(shí)間長(zhǎng)度的變化,有時(shí)吸一口氣,有時(shí)更加強(qiáng)調(diào)一些,或充當(dāng)包含句子以及其短語(yǔ)的總體段落的節(jié)奏的點(diǎn)/對(duì)點(diǎn)。如果在該段落的機(jī)器產(chǎn)生的語(yǔ)音中,人類說話者的不同的停頓持續(xù)時(shí)間被呈現(xiàn)為恒定的毫秒值,則所產(chǎn)生的語(yǔ)音很可能給人的感覺是機(jī)械式的,而不是人類的,因?yàn)槿祟悆A向于在短語(yǔ)之間產(chǎn)生不同的停頓長(zhǎng)度。
示范性腳本標(biāo)記過程。
為創(chuàng)建圖形符號(hào)集,并提供遵循了規(guī)則的準(zhǔn)確的發(fā)音的聲音數(shù)據(jù),以準(zhǔn)備示范性韻律聲音庫(kù),由四名經(jīng)過認(rèn)證的Lessac實(shí)踐者組成的團(tuán)隊(duì)來處理在美國(guó)英語(yǔ)中最常使用的1,000個(gè)單詞和500個(gè)短語(yǔ)和句子。
實(shí)踐者檢查并細(xì)化所使用的韻律語(yǔ)音規(guī)則。理想情況下,他們可以為每一個(gè)規(guī)則開發(fā)標(biāo)記指令和記號(hào)。他們還可以開發(fā)韻律的記號(hào)。然后,將規(guī)則應(yīng)用于單詞和句子樣本。
在根據(jù)本發(fā)明的腳本標(biāo)記過程的一個(gè)示范性實(shí)施例中,每一個(gè)語(yǔ)音實(shí)踐者都在腳本中以這里所描述的格式標(biāo)記單詞和句子,以便根據(jù)韻律語(yǔ)音規(guī)則發(fā)音。有用地,腳本可以包括至少大約1,000個(gè)單詞和500短語(yǔ),廣泛地代表要轉(zhuǎn)換為語(yǔ)音的文本的語(yǔ)言。如果需要,腳本中的單詞和短語(yǔ)可以限于語(yǔ)言的專業(yè)子集,例如,醫(yī)學(xué)、科學(xué)或區(qū)域性方言專業(yè)子集。然后,由另一組成員檢查每一個(gè)實(shí)踐者的標(biāo)記,以識(shí)別應(yīng)用韻律語(yǔ)音規(guī)則時(shí)出現(xiàn)的錯(cuò)誤。準(zhǔn)備沒有錯(cuò)誤的1,000個(gè)單詞和500個(gè)短語(yǔ)和句子的調(diào)和的最終標(biāo)記。
理想情況下,使用調(diào)和的最終標(biāo)記,每一個(gè)實(shí)踐者都從被標(biāo)記的腳本中朗誦單詞和句子的采樣。一個(gè)或多個(gè)其他實(shí)踐者傾聽發(fā)音,并記下在遵循被標(biāo)記了韻律的文本中的錯(cuò)誤。在記錄過程或其他演示之前,可以使用此技術(shù)來對(duì)一個(gè)或多個(gè)說話者進(jìn)行排練。
要準(zhǔn)備對(duì)于準(zhǔn)備用于根據(jù)本發(fā)明的語(yǔ)音合成的聲音數(shù)據(jù)庫(kù)的有用的錄音,用基線報(bào)告韻律標(biāo)記出要在錄音室錄制過程中讀出的單詞和句子的腳本,例如如圖11所示。每一個(gè)實(shí)踐者都接收?qǐng)?bào)告腳本的最后的調(diào)和標(biāo)記的副本,以及具有第二種韻律的標(biāo)記的相同的句子的子集的標(biāo)記。
為了進(jìn)行錄音,實(shí)踐者使用具有“干燥空間”錄音環(huán)境的錄音室,理想情況下,是精確地滿足模擬-數(shù)字采樣率和音質(zhì)的制定標(biāo)準(zhǔn)的錄音室。在錄音過程中,準(zhǔn)備了每一個(gè)實(shí)踐者的發(fā)音的聲音CD或其他模擬式錄音,以及作為WAV或其他數(shù)據(jù)文件而捕獲了錄制的發(fā)音的數(shù)據(jù)CD或DVD。
為確保數(shù)據(jù)的質(zhì)量,可以將每一個(gè)實(shí)踐者的聲音CD提供給另一個(gè)實(shí)踐者,該另一個(gè)實(shí)踐者傾聽發(fā)音,并在完整的正確的標(biāo)記的副本上記下未能遵循標(biāo)記的任何發(fā)音錯(cuò)誤。理想情況下,當(dāng)發(fā)現(xiàn)錯(cuò)誤時(shí),發(fā)音應(yīng)該從WAV數(shù)據(jù)庫(kù)中排除,以便只有正確的發(fā)音、語(yǔ)調(diào)和韻律元素保留在數(shù)據(jù)庫(kù)中。
通過遵循這樣的標(biāo)記、說出和記錄過程,可以提供相對(duì)來說無(wú)差錯(cuò)的數(shù)字化的語(yǔ)音元素的數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包括符合輸入發(fā)音和韻律規(guī)則的語(yǔ)言或語(yǔ)言子集的音素、單詞、短語(yǔ)和句子??梢园l(fā)現(xiàn)某些一致性,由此,一組實(shí)踐者準(zhǔn)備的語(yǔ)音元素庫(kù)與另一組受過類似的訓(xùn)練的實(shí)踐者準(zhǔn)備的類似的庫(kù)是可相比的。
韻律聲音庫(kù)。為使韻律語(yǔ)音規(guī)則有效地應(yīng)用于計(jì)算機(jī)化語(yǔ)音,本發(fā)明提供了一個(gè)圖形符號(hào)集,它唯一地將每一個(gè)韻律語(yǔ)音規(guī)則連接到要讀出的特定文本以及當(dāng)正確地讀出時(shí)的對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)。為每一種語(yǔ)言和最廣泛使用的方言準(zhǔn)備了特定的韻律聲音庫(kù)。每一個(gè)特定韻律聲音庫(kù)都包含綜合詞典;韻律語(yǔ)音規(guī)則;代表規(guī)則的圖形標(biāo)記符號(hào);正確地遵循了規(guī)則的那些發(fā)音的示范性語(yǔ)音數(shù)據(jù),以及那些示范性發(fā)音的文本。特定語(yǔ)言和方言的綜合的韻律聲音庫(kù)是推導(dǎo)、因此也是規(guī)定唯一地與應(yīng)用的韻律語(yǔ)音規(guī)則關(guān)聯(lián)的發(fā)音的共振峰參數(shù)值的基礎(chǔ)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例的示范性韻律聲音庫(kù)數(shù)據(jù)庫(kù)包括a)代表要合成為語(yǔ)音的文本的文本單詞和句子選項(xiàng)。
b)為實(shí)現(xiàn)可理解的發(fā)音而對(duì)文本進(jìn)行計(jì)算機(jī)化標(biāo)記的一套規(guī)則。這些規(guī)則可以包括輔音、元音、共同發(fā)音,以及停頓規(guī)則。
c)如這里所描述的兩個(gè)韻律-“報(bào)告”和“人類興趣”的韻律規(guī)則。這些韻律被標(biāo)記并被讀出,并被包括進(jìn)來。這些規(guī)則規(guī)定了隨著時(shí)間而變化的值,如音高、音量、節(jié)奏、說話速度、以及單詞重讀的變化。
d)應(yīng)用于文本的韻律語(yǔ)音規(guī)則的調(diào)和人工標(biāo)記的副本。
e)被標(biāo)記的文本的發(fā)音。代表以“報(bào)告”韻律讀出的所有單詞和句子的四個(gè)實(shí)踐者的WAV數(shù)據(jù)文件,加上“人類興趣”韻律讀出的某些句子的示例。
理想情況下,示范性韻律聲音庫(kù)數(shù)據(jù)庫(kù)結(jié)構(gòu)包括WAV數(shù)據(jù)、文本、圖形,以及數(shù)值數(shù)據(jù)。還可以添加示范性軟件語(yǔ)句、源代碼修改,以及合成器規(guī)范值。一個(gè)示范性韻律聲音庫(kù)數(shù)據(jù)庫(kù)可以包含大約8到12GB數(shù)據(jù)。市場(chǎng)上銷售的現(xiàn)成的關(guān)系數(shù)據(jù)庫(kù)目前不允許WAV數(shù)據(jù)與文本、圖形、音頻CD,以及數(shù)值數(shù)據(jù)組合在一起。相應(yīng)地,本發(fā)明可以使用臨時(shí)數(shù)據(jù)庫(kù)結(jié)構(gòu)來驗(yàn)證產(chǎn)品設(shè)計(jì),以將WAV數(shù)據(jù)與文本、圖形,以及數(shù)值數(shù)據(jù)組合在一起。還可以添加示范性軟件語(yǔ)句、源代碼修改,以及合成器規(guī)范值。一個(gè)示范性LAL數(shù)據(jù)庫(kù)可以包含大約8到12GB數(shù)據(jù)。如果需要,可以根據(jù)使用臨時(shí)性結(jié)構(gòu)的結(jié)果,細(xì)化用于結(jié)合、存儲(chǔ)和處理數(shù)據(jù)庫(kù)組件的體系結(jié)構(gòu);該體系結(jié)構(gòu)對(duì)于結(jié)合包含文本、圖形、聲音和數(shù)值數(shù)據(jù)的綜合數(shù)據(jù)庫(kù)很有用。
示范性軟件。已知的語(yǔ)音合成器或合成器引擎可以包括文本輸入裝置,例如,一個(gè)或多個(gè)數(shù)據(jù)文件,掃描儀以及使文本數(shù)據(jù)以適當(dāng)?shù)男问綄?duì)系統(tǒng)是可用的關(guān)聯(lián)的軟件和硬件;數(shù)據(jù)處理單元,以及關(guān)聯(lián)的數(shù)據(jù)存儲(chǔ)器,用于實(shí)現(xiàn)軟件并執(zhí)行語(yǔ)音合成操作;可由數(shù)據(jù)處理單元實(shí)現(xiàn)的語(yǔ)音合成軟件,該軟件也可以被描述為軟件引擎,用于將文本數(shù)據(jù)轉(zhuǎn)換為語(yǔ)音數(shù)據(jù),以及音頻輸出裝置,例如,能夠向揚(yáng)聲器或耳機(jī)提供音頻信號(hào)的音頻端口,以及最終以音頻形式輸出從語(yǔ)音合成軟件接收到的語(yǔ)音數(shù)據(jù)的關(guān)聯(lián)的硬件和軟件。
可以理解,語(yǔ)音可以作為語(yǔ)音文件(例如,.wav文件)來存儲(chǔ)、傳遞或分發(fā),如果需要,用于在合成之后的某個(gè)時(shí)間播放。
常規(guī)地,已經(jīng)開發(fā)出了這樣的已知的語(yǔ)音合成器來實(shí)現(xiàn)特定的、有限的語(yǔ)言和合成規(guī)則集,當(dāng)從諸如音素、單詞或短語(yǔ)之類的小的語(yǔ)音組件結(jié)合時(shí),它們的輸出過分像機(jī)器讀的,沒有人性化。本發(fā)明提供了新穎的語(yǔ)音合成器和語(yǔ)音合成軟件,使用源代碼實(shí)現(xiàn)附加的和/或可替換的語(yǔ)言規(guī)則來實(shí)現(xiàn)這里的教導(dǎo),使用本發(fā)明的新穎的文本-標(biāo)記符號(hào)和韻律標(biāo)記來提供有吸引力的人性化的語(yǔ)音輸出。根據(jù)本發(fā)明,語(yǔ)音合成軟件可以指定適當(dāng)?shù)恼Z(yǔ)音合成器的聲音輸出值,該語(yǔ)音合成器產(chǎn)生對(duì)應(yīng)于如圖所示通過發(fā)音表示法和圖形符號(hào)應(yīng)用于文本的發(fā)音規(guī)則的聲音,利用發(fā)音表示法和圖形符號(hào)標(biāo)記文本,以確定輸出語(yǔ)音的發(fā)音和韻律。
示范性軟件??梢杂梢粋€(gè)或多個(gè)精通本技術(shù)的人員,例如,熟悉共振峰文本到語(yǔ)音轉(zhuǎn)換(“TTS”)引擎軟件的工程師和/或計(jì)算機(jī)語(yǔ)言學(xué)家,提供適合這里所描述的本發(fā)明的用途的實(shí)現(xiàn)本發(fā)明的適當(dāng)?shù)能浖?。可以向已知語(yǔ)音軟件引擎中添加適當(dāng)?shù)母郊拥恼Z(yǔ)言規(guī)則和合成器信號(hào)規(guī)范,以構(gòu)建和測(cè)試體現(xiàn)了或用于實(shí)施本發(fā)明的軟件。例如,可以對(duì)這里所描述的樣本韻律聲音庫(kù)數(shù)據(jù)庫(kù)進(jìn)行分析,以隔離本發(fā)明的發(fā)音標(biāo)記符號(hào)和已知的共振峰TTS合成器中目前沒有規(guī)定的共同發(fā)音的對(duì)應(yīng)的WAV數(shù)據(jù),并可以向已知合成器中添加必需的元素。
除了用于從文本通過機(jī)器生成有吸引力的甚至優(yōu)雅的語(yǔ)音之外,所產(chǎn)生的語(yǔ)音合成軟件程序還可以幫助教育軟件工程師或其他人在實(shí)踐中理解在軟件中實(shí)現(xiàn)的Lessac或其他語(yǔ)音訓(xùn)練系統(tǒng),并理解所使用的新穎的韻律語(yǔ)音規(guī)則。它還可以識(shí)別要編程的項(xiàng)目以適應(yīng)這里所描述的所需要的附加的語(yǔ)言學(xué)、語(yǔ)音學(xué),以及韻律規(guī)則和新穎的聲頻信號(hào)參數(shù)。
示范性軟件可以手工編寫,將標(biāo)記編程到文本中,并為合成器的發(fā)聲指定關(guān)聯(lián)的語(yǔ)音值。一旦這樣的樣本完成,可以自動(dòng)地使用計(jì)算機(jī)化系統(tǒng)對(duì)較大的詞典進(jìn)行編程,該計(jì)算機(jī)化系統(tǒng)直接使用要合成的文本作為輸入,并在特定單詞、句子和短語(yǔ)的上下文中應(yīng)用該特定文本所需的規(guī)則,以指定混合型共振峰和級(jí)聯(lián)的參數(shù)以及值。共振峰參數(shù)值是那些產(chǎn)生在文本標(biāo)記中規(guī)定的發(fā)音和韻律所需的值,根據(jù)特定發(fā)音和/或標(biāo)記的韻律規(guī)則操作,并根據(jù)將要輸出的語(yǔ)音身份特征、基波頻率、諧波等等進(jìn)行操作。
收聽者測(cè)試。本發(fā)明預(yù)期使用根據(jù)本發(fā)明的合成的語(yǔ)音輸出的收聽者測(cè)試來提供用于改進(jìn)產(chǎn)品的反饋。可以查詢聽眾有關(guān)對(duì)清晰度改善的感覺以及消息理解以及有關(guān)樣本發(fā)聲是否好于常規(guī)的比較產(chǎn)品(例如,Sensimetrics的HLSYN(商標(biāo))或SENSYN(商標(biāo))共振峰合成器)的判斷。理想情況下,對(duì)感覺、理解和偏愛的測(cè)量,使用了驗(yàn)證過的試驗(yàn)設(shè)計(jì)和數(shù)據(jù)采集技術(shù),如相應(yīng)的技術(shù)中已知的那樣。
從前面的描述中可以看出,要讀出的文本可以用從包括下列各項(xiàng)的組中選擇的一個(gè)、一個(gè)以上或所有韻律圖形符號(hào)來標(biāo)記出,該組包括根據(jù)所希望的韻律,指出發(fā)出字母、雙元音、音節(jié)或其他語(yǔ)音元素所需的音高控制的圖形符號(hào);指出上升的音高的上滑符號(hào);指出下降的音高的下滑符號(hào);指出上升然后下降的音高或下降然后上升的音高的抑揚(yáng)符號(hào);指出不變的音高的水平維持;貫穿后面跟隨緊密相關(guān)的或相同的發(fā)音的輔音的第一個(gè)字母的正斜杠,以指出準(zhǔn)備了第一個(gè)字母;淺的U形的連音吊床形符號(hào),以指出通過其他字母彼此分離的字母以連續(xù)的方式讀出,它們之間沒有停頓;單下劃線,以分別標(biāo)記為可播放的敲擊聲,包括定音鼓鼓聲D、B和G和響弦,低音和手鼓鼓聲T、P和K,未標(biāo)記的輔音不可播放;雙下劃線,以標(biāo)記為可播放的弦樂器聲N、M、V和Z,木管樂器聲L、NG、TH和ZH,以及(無(wú)聲)音響效果F、S、SH和th,未標(biāo)記的輔音不可播放;要讀出的文本中的字母組合WH上方或附近標(biāo)記出的字母組合“hw”,以指出H應(yīng)該首先發(fā)音,接下來是W,兩者都不應(yīng)該播放;Y和W連接詞,以指出當(dāng)[Y]或[W]在另一個(gè)元音之前出現(xiàn)時(shí),應(yīng)該從一個(gè)單詞到下一個(gè)單詞或從一個(gè)音節(jié)到下一個(gè)音節(jié)保持語(yǔ)音連續(xù)性,Y和W連接詞各自都包括分別從Y或W下面環(huán)行到跟隨的元音的像吊床的淺的U形,連同分別標(biāo)記在U之中、靠近U或貫穿U的小的Y或W字母;其中,元音之前的輔音被規(guī)定為說出但不標(biāo)記為可播放。
作為可替換方案或除此以外,要說出的文本可用從包括下列各項(xiàng)的組中選擇的一個(gè)、一個(gè)以上或所有韻律圖形符號(hào)來標(biāo)記出,該組包括直接鏈接,包括掛在被鏈接的字母下面和之間的連音吊床形符號(hào),以指出說出的動(dòng)量應(yīng)該從一個(gè)鏈接的字母?jìng)鞯较乱粋€(gè)字母,單詞之間沒有中斷或停頓或暫停;播放-和-鏈接,包括與第一輔音的單或雙下劃線相結(jié)合的連音吊床形符號(hào),以指出播放第一輔音,不播放第二輔音;準(zhǔn)備-和-鏈接,包括貫穿作為要準(zhǔn)備的輔音的第一輔音的正斜杠,與到第二輔音的連音吊床形符號(hào)相結(jié)合,以顯示第一和第二輔音之間的鏈接,可播放的輔音用下劃線表示。
這里描述了可以在本發(fā)明中使用的標(biāo)記指令的多個(gè)可能的實(shí)施例,如果需要,可以包括在韻律聲音庫(kù)數(shù)據(jù)庫(kù)中,如在這里所描述的。根據(jù)本發(fā)明,可以理解,這里所描述的新穎的聲音值代碼,或圖示符號(hào)集和表示法僅是可從這里的說明中看出的、可以用于本發(fā)明的用途的代碼的說明性的例子此外,盡管是在英語(yǔ)的上下文中描述示范性聲音值代碼的,可以理解,本發(fā)明也包括為其他語(yǔ)言的特定需要而發(fā)明的其他編碼系統(tǒng),它們體現(xiàn)了這里的有關(guān)發(fā)音標(biāo)記的一般原理,以便與根據(jù)另一個(gè)語(yǔ)言的需要而制定的,適當(dāng)?shù)匦薷牡恼Z(yǔ)音規(guī)則一致。如此,本發(fā)明的方法可以以從下面的組中選擇的語(yǔ)言實(shí)現(xiàn),該組包括英語(yǔ);美國(guó)英語(yǔ);法語(yǔ);西班牙語(yǔ);德語(yǔ);日語(yǔ);俄語(yǔ);中文;阿拉伯語(yǔ);印地語(yǔ);具有圖形符號(hào)集和基于規(guī)則的語(yǔ)法的書面語(yǔ)言和口語(yǔ);前述的語(yǔ)言或其他語(yǔ)言中的任何一種語(yǔ)言的方言和專業(yè)子集,根據(jù)在此的教導(dǎo),子集或方言對(duì)于那些精通本技術(shù)的人員是顯而易見的。
可以理解,Lessac或其他語(yǔ)音訓(xùn)練規(guī)則對(duì)于相對(duì)來說較小語(yǔ)音元素(包括單個(gè)字母和兩個(gè)或三個(gè)字母的組合)的可理解性的發(fā)音特別有效,而這里所描述的韻律規(guī)則對(duì)于將播放、停頓、重讀及其他韻律技術(shù)應(yīng)用到通常在較大的語(yǔ)音元素(包括整個(gè)單詞、短語(yǔ)、句子或段落)的上下文中的這種字母或字母組合很有用。
概括地說,本發(fā)明提供了用圖形方式代表的全局規(guī)則集,包括對(duì)于可理解性的發(fā)音規(guī)則以及對(duì)于節(jié)奏和旋律的韻律規(guī)則,當(dāng)由熟練的語(yǔ)音實(shí)踐者應(yīng)用到要說出的文本時(shí),無(wú)論是通過人類還是由機(jī)器,都可以為清晰的、有吸引力甚至旋律美妙的語(yǔ)音輸出提供明確的模板。
引用的公開。在此說明書中或在此專利申請(qǐng)中的別處引用的每個(gè)美國(guó)專利和專利申請(qǐng),每一個(gè)外國(guó)和國(guó)際專利出版物,每一個(gè)其他出版物和每一個(gè)未出版的專利申請(qǐng)的全部的內(nèi)容,都通過對(duì)其相應(yīng)的特定引用而被全文引入在此。
盡管上文描述了本發(fā)明的說明性實(shí)施例,當(dāng)然,應(yīng)該理解,各種修改對(duì)于本領(lǐng)域技術(shù)人員是顯然的,或隨著技術(shù)的發(fā)展是顯然的。這樣的修改預(yù)期在本發(fā)明或在此說明書中公開的發(fā)明的精神和范圍之內(nèi)。
權(quán)利要求(按照條約第19條的修改)1.一種對(duì)文本進(jìn)行標(biāo)記以便用于從文本合成語(yǔ)音的方法,該方法包括以一個(gè)或更多個(gè)圖形符號(hào)標(biāo)記要說出的文本,以向說話者指出在說出文本時(shí)要使用的所希望的語(yǔ)音特征,其特征在于,使用表示要賦予由說話者說出的文本的所希望的韻律的聲音代碼作為圖形符號(hào)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所賦予的韻律包括從包括速度、語(yǔ)調(diào)模式、節(jié)奏、音感、振幅、重音和氣息音的停頓、以及單詞和短語(yǔ)的正式和非正式的發(fā)音的組中選擇的一個(gè)或更多個(gè)韻律元素。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,包括用圖形韻律符號(hào)來標(biāo)記可見的文本或用圖形符號(hào)的電子形式來以電子方式標(biāo)記電子文本,以電子方式標(biāo)記的文本可作為人類可讀的用圖形方式標(biāo)記的文本來顯示或打印,并可用于以允許對(duì)輸出語(yǔ)音的韻律進(jìn)行控制的方式向語(yǔ)音合成器傳遞所希望的韻律。
4.根據(jù)權(quán)利要求1、2或3所述的方法,其特征在于,要說出的文本用從包括下列各項(xiàng)的組中選擇的一個(gè)、一個(gè)以上或所有韻律圖形符號(hào)來標(biāo)記出,該組包括根據(jù)所希望的韻律,指出發(fā)出字母、雙元音、音節(jié)或其他語(yǔ)音元素所需的音高控制的圖形符號(hào);指出上升的音高的上滑符號(hào);指出下降的音高的下滑符號(hào);指出上升然后下降的音高或下降然后上升的音高的抑揚(yáng)符號(hào);指出不變的音高的水平維持;貫穿后面跟隨緊密相關(guān)的或相同的發(fā)音的輔音的第一個(gè)字母的正斜杠,以指出準(zhǔn)備了第一個(gè)字母;淺的U形的連音吊床形符號(hào),以指出被其他字母彼此分離的字母要以連續(xù)的方式讀出,它們之間沒有停頓;單下劃線,以分別標(biāo)記為可播放的敲擊聲,包括定音鼓鼓聲D、B和G以及響弦鼓,低音附和手鼓鼓聲T、P和K,未標(biāo)記的輔音不可播放;雙下劃線,以標(biāo)記為可播放的弦樂器聲N、M、V和Z木管樂器聲、L、NG、TH和ZH和(無(wú)聲)音響效果F、S、SH和th,未標(biāo)記的輔音不可播放;要讀出的文本中的字母組合WH上方或附近標(biāo)記出的字母組合“hw”,以指出H應(yīng)該首先聲音,接下來是W,兩者都不應(yīng)該被播放;Y和W連接詞,以指出當(dāng)[Y]或[W]在另一個(gè)元音之前出現(xiàn)時(shí),應(yīng)該從一個(gè)單詞到下一個(gè)單詞或從一個(gè)音節(jié)到下一個(gè)音節(jié)保持語(yǔ)音連續(xù)性,Y和W連接詞各自都包括分別從Y或W下面環(huán)行到隨后元音的像吊床的淺的U形,連同小的Y或W字母分別標(biāo)記在U之中、靠近U或貫穿U;其中,元音之前的輔音被規(guī)定為讀出但不標(biāo)記為是可播放的。
5.根據(jù)權(quán)利要求1、2、3或4所述的方法,其特征在于,要說出的文本用從包括下列各項(xiàng)的組中選擇的一個(gè)、一個(gè)以上或所有韻律圖形符號(hào)來標(biāo)記出直接鏈接,包括掛在被鏈接的字母下面和之間的連音吊床形符號(hào),以指出說出的動(dòng)量應(yīng)該從一個(gè)鏈接的字母?jìng)鞯较乱粋€(gè)字母,單詞之間沒有中斷或停頓或暫停;播放-和-鏈接,包括與第一輔音的單或雙下劃線相結(jié)合的連音吊床形符號(hào),以指出播放第一輔音,不播放第二輔音;包括貫穿作為要準(zhǔn)備的輔音的第一輔音的正斜杠的準(zhǔn)備-和-鏈接,其與到第二輔音的連音吊床形符號(hào)相結(jié)合,以顯示第一和第二輔音之間的鏈接,可播放的輔音用下劃線表示。
6.根據(jù)權(quán)利要求1、2、3、4、或5所述的方法,其特征在于,將韻律圖形符號(hào)放置于要說出的文本附近,在文本緊上方的行中協(xié)調(diào)韻律圖形符號(hào),或有選擇地將韻律圖形符號(hào)放置于文本下面或?qū)㈨嵚蓤D形符號(hào)放置于文本上面和文本下面。
7.根據(jù)權(quán)利要求1、2、3、4或5所述的方法,其特征在于,通過在行中呈現(xiàn)文本來標(biāo)記要說出的文本,在文本上方標(biāo)記出可理解性發(fā)音記號(hào),在文本之下標(biāo)記出韻律圖形符號(hào),在可理解性發(fā)音記號(hào)行上方標(biāo)記出音高基準(zhǔn)線,并在音高基準(zhǔn)線上方標(biāo)記出其他韻律符號(hào),以指出所希望的音高變化和重音。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,音高基準(zhǔn)線包括Y蜂音音高線,使用較小的點(diǎn)在Y蜂音音高線的上方標(biāo)記出所希望的語(yǔ)調(diào)模式,以指出較輕的重讀,用較大的點(diǎn)指出較強(qiáng)的重讀,點(diǎn)位于Y蜂音音高線的上方的水平,表示相對(duì)于說話者的Y蜂音音高線的所希望的音高。
9.根據(jù)權(quán)利要求1、2、3、4或5所述的將韻律標(biāo)記自動(dòng)應(yīng)用于文本的方法,其特征在于,包括至少使用一種計(jì)算語(yǔ)言學(xué)算法來標(biāo)識(shí)和標(biāo)記要讀出的文本,以指出所希望的韻律發(fā)音。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,包括使用對(duì)應(yīng)于所希望的發(fā)音聲音的代碼變量,生成可用來指定至語(yǔ)音合成器的輸入的聲音變量的值,以便作為合成的語(yǔ)音輸出被標(biāo)記的文本。
11.根據(jù)權(quán)利要求1、2、3、4或5所述的方法,其特征在于,包括使用包括以數(shù)字方式記錄的語(yǔ)音元素的聲音庫(kù),語(yǔ)音元素是以由圖形符號(hào)標(biāo)記指出的韻律說出的。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,其是以從下面的組中選擇的語(yǔ)言實(shí)現(xiàn),該組包括英語(yǔ);美國(guó)英語(yǔ);法語(yǔ);西班牙語(yǔ);德語(yǔ);日語(yǔ);俄語(yǔ);中文;阿拉伯語(yǔ);印地語(yǔ);具有圖形符號(hào)集和基于規(guī)則的語(yǔ)法的書面語(yǔ)言和口語(yǔ);前述的語(yǔ)言中的任何一種語(yǔ)言的方言和專業(yè)子集。
13.根據(jù)權(quán)利要求1、2、3、4或5所述的方法,其特征在于,包括由一個(gè)或多個(gè)經(jīng)過訓(xùn)練的人利用韻律圖形符號(hào)來促進(jìn)合成的語(yǔ)音輸出中的人性化的聲音,該合成的語(yǔ)音輸出可選地是共振峰語(yǔ)音輸出,該經(jīng)過訓(xùn)練的人根據(jù)具有韻律圖形符號(hào)的文本的標(biāo)記,準(zhǔn)確地讀出文本,以產(chǎn)生讀出的語(yǔ)音的數(shù)據(jù)庫(kù),其中包含了準(zhǔn)確地遵循語(yǔ)音-代碼-標(biāo)記的文本的讀出的語(yǔ)音。
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,以數(shù)字方式呈現(xiàn)韻律圖形符號(hào)和在合成器軟件中使用圖形符號(hào),以便對(duì)要由機(jī)器說出的文本進(jìn)行電子標(biāo)記,從而促進(jìn)或引導(dǎo)將韻律元素的數(shù)字域引入到輸出語(yǔ)音中。
15.根據(jù)權(quán)利要求14所述的方法,其特征在于,對(duì)應(yīng)于文本的圖形記號(hào)的記錄的語(yǔ)音包括一個(gè)或多個(gè)字母、單詞、短語(yǔ)、句子、段落和比較長(zhǎng)的文本,它們被數(shù)字化到數(shù)據(jù)庫(kù)中,并被分析,以提供算法或韻律學(xué),以規(guī)定對(duì)應(yīng)于特定文本的特定語(yǔ)音數(shù)據(jù)和與文本相關(guān)的圖形記號(hào)的關(guān)系。
16.根據(jù)權(quán)利要求15所述的方法,其特征在于,利用一個(gè)或多個(gè)所提供的算法或韻律學(xué)來向語(yǔ)音合成器提供輸入?yún)?shù),以對(duì)于要合成的特定文本重新創(chuàng)建模擬人類語(yǔ)音的聲音,作為具有規(guī)定的韻律的語(yǔ)音。
17.一種由輸入到語(yǔ)音合成器的聲音編碼變量控制的語(yǔ)音合成器,其特征在于,聲音編碼變量對(duì)應(yīng)于被用于生成具有所希望的韻律發(fā)音的記錄的人類語(yǔ)音的韻律規(guī)范,以及其特征在于,所述記錄的人類語(yǔ)音被用于提供實(shí)現(xiàn)所希望的韻律發(fā)音的合成的語(yǔ)音輸出。
權(quán)利要求
1.一種在聲學(xué)上對(duì)文本進(jìn)行編碼,以便用于從文本合成語(yǔ)音的方法,該方法包括以一個(gè)或更多個(gè)圖形符號(hào)標(biāo)記要讀出的文本,以向說話者指出賦予要說出的文本的所希望的韻律。
2.根據(jù)權(quán)利要求1所述的方法,其中所要賦予的韻律包括從包括速度、語(yǔ)調(diào)模式、節(jié)奏、音感、振幅、重音和氣音的停頓、以及單詞和短語(yǔ)的正式和非正式的發(fā)音的組中選擇的一個(gè)或更多個(gè)韻律元素。
3.根據(jù)權(quán)利要求2所述的方法,包括用圖形韻律符號(hào)來標(biāo)記可見的文本或用圖形符號(hào)的電子形式來以電子方式標(biāo)記電子文本,以電子方式標(biāo)記的文本可作為人類可讀的用圖形方式標(biāo)記的文本來顯示或打印。
4.根據(jù)權(quán)利要求1所述的方法,其中,要讀出的文本用從包括下列各項(xiàng)的組中選擇的一個(gè)、一個(gè)以上或所有韻律圖形符號(hào)來標(biāo)記,該組包括根據(jù)所希望的韻律,指出發(fā)出字母、雙元音、音節(jié)或其他語(yǔ)音元素所需的音高控制的圖形符號(hào);指出上升的音高的上滑符號(hào);指出下降的音高的下滑符號(hào);指出上升然后下降的音高或下降然后上升的音高的抑揚(yáng)符號(hào);指出不變的音高的水平維持;貫穿后面跟隨緊密相關(guān)的或相同的發(fā)音的輔音的第一個(gè)字母的正斜杠,以指出準(zhǔn)備了第一個(gè)字母;淺的U形的連音吊床形符號(hào),以指出被其他字母彼此分離的字母要以連續(xù)的方式讀出,它們之間沒有停頓;單下劃線,以分別標(biāo)記為可播放的敲擊聲,包括定音鼓鼓聲D、B和G以及響弦鼓,低音鼓和手鼓鼓聲T、P和K,未標(biāo)記的輔音不可播放;雙下劃線,以標(biāo)記為可播放的弦樂器聲N、M、V和Z木管樂器聲L、NG、TH和ZH和(無(wú)聲)聲響效果F、S、SH和th,未標(biāo)記的輔音不可播放;要讀出的文本中的字母組合WH上方或附近標(biāo)記出的字母組合“hw”,以指出H應(yīng)該首先聲音,接下來是W,兩者都不應(yīng)該被播放;Y和W連接詞,以指出當(dāng)[Y]或[W]在另一個(gè)元音之前出現(xiàn)時(shí),應(yīng)該從一個(gè)單詞到下一個(gè)單詞或從一個(gè)音節(jié)到下一個(gè)音節(jié)保持語(yǔ)音連續(xù)性,Y和W連接詞各自都包括分別從Y或W下面環(huán)行到隨后元音的像吊床的淺的U形,連同小的Y或W字母分別標(biāo)記在U之中、靠近U或貫穿U;其中,元音之前的輔音被規(guī)定為要讀出但不標(biāo)記為是可播放的。
5.根據(jù)權(quán)利要求1所述的方法,其中要說出的文本用從包括下列各項(xiàng)的組中選擇的一個(gè)、一個(gè)以上或所有韻律圖形符號(hào)來標(biāo)記,該組包括直接鏈接,包括掛在被鏈接的字母下面和之間的連音吊床形符號(hào),以指出說出的動(dòng)量應(yīng)該從一個(gè)鏈接的字母?jìng)鞯较乱粋€(gè)字母,單詞之間沒有中斷或停頓或暫停;播放-和-鏈接,包括與第一輔音的單或雙下劃線相結(jié)合的連音吊床形符號(hào),以指出播放第一輔音,不播放第二輔音;包括貫穿作為要準(zhǔn)備的輔音的第一輔音的正斜杠的準(zhǔn)備-和-鏈接,其與到第二輔音的連音吊床形符號(hào)相結(jié)合,以顯示第一和第二輔音之間的鏈接,可播放的輔音用下劃線表示。
6.根據(jù)權(quán)利要求1所述的方法,其中,韻律圖形符號(hào)被放置于要說出的文本附近,在文本緊上方的行中被協(xié)調(diào),或有選擇地被放置于文本下面或被放置于文本上面和文本下面。
7.根據(jù)權(quán)利要求1所述的方法,其中,被標(biāo)記的要讀出的文本在文本行中呈現(xiàn),可理解性發(fā)音記號(hào)在文本上方標(biāo)記出,韻律圖形符號(hào)在文本之下標(biāo)記出,其中,音高基準(zhǔn)線在可理解性發(fā)音記號(hào)行上方標(biāo)記出,以及其中,其他韻律符號(hào)在音高基準(zhǔn)線上方標(biāo)記出,以指出所希望的音高變化和重音。
8.根據(jù)權(quán)利要求7所述的方法,其中,音高基準(zhǔn)線包括Y蜂音音高線,其中,所希望的語(yǔ)調(diào)模式被使用較小的點(diǎn)在Y蜂音音高線的上方標(biāo)記出,以指出較輕的重讀,用較大的點(diǎn)指出較強(qiáng)的重讀,點(diǎn)位于Y蜂音音高線的上方,表示相對(duì)于說話者的Y蜂音音高線的所希望的音高。
9.根據(jù)權(quán)利要求1所述的將韻律標(biāo)記自動(dòng)應(yīng)用于文本的方法,包括至少使用一種計(jì)算語(yǔ)言學(xué)算法來標(biāo)識(shí)和標(biāo)記要發(fā)音的文本,以指出所希望的韻律發(fā)音。
10.根據(jù)權(quán)利要求9所述的方法,包括使用對(duì)應(yīng)于所希望的發(fā)音聲音的代碼變量,生成可用來指定至語(yǔ)音合成器的輸入的聲音變量的值,以便作為合成的語(yǔ)音輸出被標(biāo)記的文本。
11.根據(jù)權(quán)利要求1所述的方法,包括使用包括以數(shù)字方式記錄的語(yǔ)音元素的聲音庫(kù),語(yǔ)音元素是以由圖形符號(hào)標(biāo)記指出的韻律說出的。
12.根據(jù)權(quán)利要求11所述的方法,其是以從下面的組中選擇的語(yǔ)言實(shí)現(xiàn),該組包括英語(yǔ);美國(guó)英語(yǔ);法語(yǔ);西班牙語(yǔ);德語(yǔ);日語(yǔ);俄語(yǔ);中文;阿拉伯語(yǔ);印地語(yǔ);具有圖形符號(hào)集和基于規(guī)則的語(yǔ)法的書面語(yǔ)言和口語(yǔ);前述的語(yǔ)言中的任何一種語(yǔ)言的方言和專業(yè)子集。
13.一種由輸入到語(yǔ)音合成器的聲音編碼變量控制的語(yǔ)音合成器,該聲音編碼變量對(duì)應(yīng)于用于生成具有所希望的韻律發(fā)音的記錄的人類語(yǔ)音的韻律規(guī)范,以提供實(shí)現(xiàn)了所希望的韻律發(fā)音的合成的語(yǔ)音輸出。
全文摘要
公開了一種在聲學(xué)上對(duì)文本進(jìn)行編碼以便用于從文本合成語(yǔ)音的方法和系統(tǒng),該方法包括以一個(gè)或多個(gè)圖形符號(hào)標(biāo)記要讀出的文本,以向說話者指出賦予說出的文本的所希望韻律,以傳遞可表達(dá)的含義。標(biāo)記可以包括字形-音素對(duì),每一對(duì)都包括指出可與書寫文本一起使用的字形的可見的韻律和在數(shù)字域中起作用的對(duì)應(yīng)的數(shù)字音素。本發(fā)明可用于為各種各樣的應(yīng)用生成有吸引力、人性化的機(jī)器語(yǔ)音,這些應(yīng)用包括語(yǔ)音郵件系統(tǒng)、以電子方式啟用的設(shè)備、汽車、計(jì)算機(jī)、機(jī)器人助理、游戲等等,在會(huì)說話的書和雜志中、戲劇及其他娛樂中。
文檔編號(hào)G10H1/40GK1938756SQ200580007209
公開日2007年3月28日 申請(qǐng)日期2005年3月7日 優(yōu)先權(quán)日2004年3月5日
發(fā)明者加里·馬普, 休·A·帕克, H·D·維爾森, 南?!た氯鸩妓? 戴安娜·加里, 百利·柯爾 申請(qǐng)人:萊塞克技術(shù)公司