專(zhuān)利名稱(chēng):使用神經(jīng)網(wǎng)絡(luò)變換文本為聲頻信號(hào)的設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明為一件分案申請(qǐng),原申請(qǐng)的申請(qǐng)?zhí)枮?5190349.7,申請(qǐng)日為1995年3月21日,發(fā)明名稱(chēng)為“使用神經(jīng)網(wǎng)絡(luò)變換文本為聲頻信號(hào)的方法和設(shè)備”。
本發(fā)明涉及變換文本為聲頻信號(hào)的領(lǐng)域,特別涉及使用神經(jīng)網(wǎng)絡(luò)變換文本信號(hào)為聲頻信號(hào)。
文本/話音變換涉及變換文本信息流為話音波形。這個(gè)變換過(guò)程通常包括文本的話音表示物變換為多個(gè)話音參數(shù),然后話音參數(shù)由話音合成器變換為話音波形。使用級(jí)聯(lián)系統(tǒng)(Concatenative sys-tem)變換話音表示物為話音參數(shù)。級(jí)聯(lián)系統(tǒng)存儲(chǔ)由話音分析產(chǎn)生的可能是二重單音或半音節(jié)的參數(shù),和響應(yīng)話音表示物,使用以調(diào)節(jié)它們的持續(xù)期間和平滑諸多跳變(transition)以產(chǎn)生話音參數(shù)的存儲(chǔ)圖型串接起來(lái)。級(jí)聯(lián)系統(tǒng)的一個(gè)問(wèn)題是必須存儲(chǔ)大量的圖型。一般地,在級(jí)聯(lián)系統(tǒng)中必須存儲(chǔ)1000個(gè)以上的圖型。另外,在存儲(chǔ)圖型之間的跳變不是平滑的。還使用按規(guī)則合成(synthesis-by-rule)系統(tǒng)變換話音表示物為語(yǔ)音參數(shù)。按規(guī)則合成系統(tǒng)存儲(chǔ)每個(gè)可能的語(yǔ)音表示物的目標(biāo)話音參數(shù)。按照一組規(guī)則在語(yǔ)音表示物之間跳變的基礎(chǔ)上修改目標(biāo)話音參數(shù)。按規(guī)則合成系統(tǒng)的問(wèn)題是語(yǔ)音表示物之間的跳變是不自然的,因?yàn)樘円?guī)則僅僅要產(chǎn)生跳變的幾個(gè)類(lèi)型(style)。另外,必須存儲(chǔ)一個(gè)大的規(guī)則集。
還使用神經(jīng)網(wǎng)絡(luò)變換語(yǔ)音表示物為話音參數(shù)。神經(jīng)網(wǎng)絡(luò)被訓(xùn)練用于將話音參數(shù)與記錄消息的文本的語(yǔ)音表示物相關(guān)聯(lián)。該訓(xùn)練導(dǎo)致神經(jīng)網(wǎng)絡(luò)具有加權(quán),這代表從語(yǔ)音表示物產(chǎn)生話音波形所要求的轉(zhuǎn)移函數(shù)。神經(jīng)網(wǎng)絡(luò)克服了級(jí)聯(lián)系統(tǒng)和按規(guī)則合成系統(tǒng)的大量存儲(chǔ)的要求,因?yàn)橹R(shí)庫(kù)存儲(chǔ)在加權(quán)中,而不存儲(chǔ)在存儲(chǔ)器中。
用于變換包括音素的語(yǔ)音表示物為話音參數(shù)的一個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)施例使用一組或窗口的音素為其輸入。該窗口的音素?cái)?shù)量是固定的并且是預(yù)定的。神經(jīng)網(wǎng)絡(luò)產(chǎn)生該窗口的中間音素的幾個(gè)話音參數(shù)幀,而在中間音素周?chē)拇翱谥械钠渌羲亟o該神經(jīng)網(wǎng)絡(luò)提供一個(gè)前后關(guān)系(context)用于確定話音參數(shù)。這個(gè)實(shí)施例的問(wèn)題是所產(chǎn)生的話音參數(shù)不產(chǎn)生語(yǔ)音表示物之間平滑的跳變,因此產(chǎn)生的話音不自然而且可能是不可理解的。
據(jù)此,現(xiàn)在需要一種減少存儲(chǔ)要求、提供語(yǔ)音表示物之間的平滑跳變以產(chǎn)生自然的和可理解的語(yǔ)音的文本/話音變換系統(tǒng)。
圖1示出根據(jù)本發(fā)明使用文本/聲頻變換的一個(gè)車(chē)輛導(dǎo)航系統(tǒng)。
圖2-1和2-2示出根據(jù)本發(fā)明的為用于文本/聲頻變換的神經(jīng)網(wǎng)絡(luò)而產(chǎn)生的訓(xùn)練數(shù)據(jù)的方法。
圖3示出根據(jù)本發(fā)明的用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法。
圖4示出根據(jù)本發(fā)明的用于從文本流產(chǎn)生聲頻的方法。
圖5示出根據(jù)本發(fā)明的可用作聲頻幀的語(yǔ)音表示物的二進(jìn)制字。
本發(fā)明提供一種變換文本為聲頻信號(hào)(如話音)的方法。這是通過(guò)首先訓(xùn)練神經(jīng)網(wǎng)絡(luò)使記錄的話音消息的文本與那些消息的話音相關(guān)而實(shí)現(xiàn)的。為了開(kāi)始訓(xùn)練,記錄的話音消息被變換為具有固定持續(xù)時(shí)間的一系列聲頻幀。然后,每個(gè)聲頻被指定一個(gè)語(yǔ)音表示物和一個(gè)目標(biāo)聲頻表示物,語(yǔ)音表示物是代表聲頻的音素和清晰度特性的二進(jìn)制字,而目標(biāo)聲頻表示物是聲頻信息如節(jié)奏和能量的一個(gè)矢量。利用這個(gè)信息,訓(xùn)練神經(jīng)網(wǎng)絡(luò)從文本流產(chǎn)生聲頻表示物,以使文本可變換為話音。
參照?qǐng)D1-5對(duì)本發(fā)明進(jìn)行更詳細(xì)地?cái)⑹?。圖1示出一個(gè)車(chē)輛導(dǎo)航系統(tǒng)100,它包括一個(gè)定向數(shù)據(jù)庫(kù)102、文本/音素處理器103、持續(xù)期間處理器104、預(yù)處理器105、神經(jīng)網(wǎng)絡(luò)106和合成器107。定向數(shù)據(jù)庫(kù)102內(nèi)含一組文本消息,用以代表街名、公路、陸標(biāo)和引導(dǎo)車(chē)輛操作者需要的其它數(shù)據(jù)。定向數(shù)據(jù)庫(kù)或某些其它信源把文本流101提供給文本/音素處理器103。文本/音素處理器103產(chǎn)生提供給預(yù)處理器105的文本流的音素和清晰度特性。預(yù)處理器105也從持續(xù)處理器104接收文本流101的持續(xù)期間數(shù)據(jù)。響應(yīng)持續(xù)期間數(shù)據(jù)和音素及清晰度特性,預(yù)處理器105產(chǎn)生一系列固定持續(xù)期間的音素幀。神經(jīng)網(wǎng)絡(luò)106接收每個(gè)音素幀并基于其內(nèi)部加權(quán)產(chǎn)生音素幀的聲頻表示。合成器107響應(yīng)由神經(jīng)網(wǎng)絡(luò)106產(chǎn)生的聲頻表示物產(chǎn)生一個(gè)聲頻108。車(chē)輛導(dǎo)航系統(tǒng)100使用通用或數(shù)字信號(hào)處理器以軟件實(shí)現(xiàn)。
定向數(shù)據(jù)庫(kù)102產(chǎn)生被表達(dá)的文本。在車(chē)輛導(dǎo)航系統(tǒng)的上下文本中,這可能是該系統(tǒng)提供的方向和信息,用于引導(dǎo)用戶到他或她的目的地。這個(gè)輸入文本可以是任何語(yǔ)言,而且不需要是該語(yǔ)言的書(shū)寫(xiě)形式表示物。該輸入文本可以是該語(yǔ)言的音素形式。
文本/音素處理器103一般變換文本為一系列音素表示物和句法邊界的描述及句法成分的起伏度。變換為音素表示物和確定起伏度可用各種方法實(shí)現(xiàn),包括字母/聲音規(guī)則和文本的形態(tài)分析。類(lèi)似地,確定句法邊界的技術(shù)包括根據(jù)標(biāo)點(diǎn)符號(hào)的位置和公共功能字,諸如前置詞、代詞、冠詞和連接詞分析該文本和簡(jiǎn)單的邊界插入。在優(yōu)選的實(shí)施例中,定向數(shù)據(jù)庫(kù)102提供一個(gè)音素和文本的句法表示物,包括一系列音素,每字的字類(lèi)別,句法邊界和句法成分的起伏度和重音。所用的音素系列是來(lái)自Garafolo,John S.的文章“The Struc-ture And Format of The DARPA TIMIT CD-ROMPrototype”,1988年國(guó)家標(biāo)準(zhǔn)與技術(shù)學(xué)院出版。字類(lèi)別一般指示文本流中該字的作用。作為結(jié)構(gòu)的字,諸如冠詞、前置詞和代詞按功能分類(lèi)。加上含義對(duì)結(jié)構(gòu)的字按內(nèi)容分類(lèi)。第三個(gè)字類(lèi)別存在用于不是字的一部分的聲音,即無(wú)聲和一些聲門(mén)的停止。在文本流中識(shí)別的句法邊界是句子邊界,從句邊界,詞組邊界和字邊界。字的起伏度分為1至13的值,代表最小的起伏度和最大的起伏度,而音節(jié)重音分類(lèi)為主要、輔助、無(wú)重音和強(qiáng)調(diào)。在優(yōu)選的實(shí)施例中,由于定向數(shù)據(jù)庫(kù)存儲(chǔ)文本的音素和句法表示,所以文本/音素處理器103簡(jiǎn)單地傳送那個(gè)信息到持續(xù)期間處理器104和預(yù)處理器105。
持續(xù)期間處理器104指定一個(gè)持續(xù)期間給定從文本/音素處理器103輸出的每個(gè)音素。該持續(xù)期間是正在發(fā)出該音素的時(shí)間。該持續(xù)期間可由各種方式產(chǎn)生,包括神經(jīng)網(wǎng)絡(luò)和基于規(guī)則的部件。在優(yōu)選的實(shí)施例中,對(duì)于給定音素的持續(xù)期間(D)利用基于規(guī)則的部件產(chǎn)生如下該持續(xù)期間由下式(1)確定D=dmin+t+(λ(dinherent-dmin)) (1)式中dmin是最小持續(xù)期間、dinherent是固有持續(xù)期間,二者從下表1中選擇。λ值由以下規(guī)則確定表 1音素 dmin(msec) dinherent(msec)aa 185110ae 19085ah 13065ao 180105aw 185110ax 80 35axh 80 35axr 95 60ay 17595eh 12065er 115100ey 16085ih 10550ix 80 45iy 12065ow 15575oy 205105uh 12045uw 13055ux 13055el 160140hh 95 70hv 60 30l 75 40r 70 50w 75 45y 50 35em 205 125en 205 115eng 205 115m 85 50n 75 45ng 95 45dh 55 5f 125 75s 145 85sh 150 80th 140 10v 90 15z 150 15zh 155 45bcl 75 25dcl 75 25gcl 75 15kcl 75 55pcl 85 50tcl 80 35b 10 5d 20 10dx 20 20g 30 20k 40 25p 10 5t 30 15ch 120 80jh 115 80q 55 35nx 75 45sil 200 200
如果音素是核心,即音節(jié)中的元音或音節(jié)的輔音,或者在從句的最后音節(jié)中的核心之后,且音素是一個(gè)翻轉(zhuǎn)的、橫向的或鼻音的,則λ1=λinitial×m1和m1=1.4,否則λ1=λinitial如果音素是該核心或者在從句的最后音節(jié)中核心之后并且不是翻轉(zhuǎn)的(retroflex)、橫向(lateral)的、或鼻音的,則λ2=λ1m2和m2=1.4,否則λ2=λ1如果音素是一個(gè)音節(jié)的核心,且核心并示結(jié)束一個(gè)詞組,則λ3=λ2m3和m3=0.6,否則λ3=λ2如果該音素是一個(gè)字音節(jié)的核心,該音節(jié)結(jié)束一個(gè)詞組,而且不是一個(gè)元音,則λ4=λ3m4和m4=1.2,否則λ4=λ3如果該音素跟著該音節(jié)中的一個(gè)元音,該音節(jié)結(jié)束一個(gè)詞組,則λ5=λ4m5和m5=1.4,否則λ5=λ4
如果該音素是一音節(jié)的核心,該音節(jié)不結(jié)束一字,則λ6=λ5m6和m6=0.85,否則λ6=λ5如果該音素是二音節(jié)以上的字,而且是不結(jié)束該字的音節(jié)的核心,則λ7=λ6m7和m7=0.8,否則λ7=λ6如果該音素是一個(gè)輔音,該輔音不在一個(gè)字的第一音節(jié)核心的前面,則λ8=λ7m8和m8=0.75,否則λ8=λ7如果該音素是在非重讀的字節(jié)中而且不是該字節(jié)的核心,或者它是在該字節(jié)的核心之后,則λ9=λ8m9和m9=0.7,除非該音素是后接一個(gè)元音的半元音,在這種情況,則λ9=λ8m11和m10=0.25,否則λ9=λ8如果音素是字中間字節(jié)的核心,該字節(jié)為非重讀或者具有次重音,則λ10=λ9m11和m11=0.75,否則λ10=λ9如果音素是非字中間字節(jié)的核心,該字節(jié)為非重讀或者具有次重音,則λ11=λ10m12和m12=0.7,否則λ11=λ10如果音素是結(jié)束一個(gè)字的一個(gè)元音,而且是在詞組的最后字節(jié)中,則λ12=λ11m13和m13=1.2,否則λ12=λ11如果音素是結(jié)束一個(gè)字的一個(gè)元音,而且不在詞組的最后字節(jié)中,則λ13=λ12(1-(m14(1-m13)))和m14=0.3,否則,λ13=λ12如果音素是后接相同字中的一個(gè)摩擦音的一個(gè)元音,且該音素不是在詞組的最后字節(jié)中,則λ15=λ14(1-(m14(1-m15)))否則λ15=λ14如果音素是在相同字中后接一個(gè)閉合音的元音,且該音素是在詞組的最后字節(jié)中,則
λ16=λ15m16和m16=1.6,否則λ16=λ15如果音素是在相同字中后接一個(gè)閉合音的元音,且該音素不在詞組中的最后字節(jié)中,則λ17=λ16(1-(m14(1-m16)))否則λ17=λ16如果音素是后接一個(gè)鼻音的元音,且該音素是在詞組的最后字節(jié)中,則λ17=λ16m17和m17=1.2,否則λ17=λ16如果音素是后接一個(gè)鼻音的一個(gè)元音,且該音素不在詞組的最后字節(jié)中,則λ18=λ17(1-(m14(1-m17)))否則λ18=λ17如果音素是一個(gè)后接一個(gè)元音的元音,則λ19=λ18m18和m18=1.4,否則λ19=λ18如果音素是一個(gè)元音,其前面為一個(gè)元音,則λ20=λ19m19和m19=0.7,否則λ20=λ19如果音素是一個(gè)“n”,在同一字中其前面為一個(gè)元音且在同一字中后接一個(gè)非重讀的元音,則λ21=λ20m20和m20=0.1,否則λ21=λ20如果音素是一個(gè)輔音,在同一詞組中其前面是一個(gè)輔音而在同一詞組中其后面不接輔音,則λ22=λ21m21和m21=0.8,除非這兩個(gè)輔音具有相同的發(fā)音位置,在這種情況下,則λ22=λ21m21m22和m22=0.7,否則λ22=λ21如果音素是一個(gè)輔音,在同一詞組中其前面沒(méi)有輔音在同一詞組中其后接一輔音,則λ23=λ22m23和m23=0.7,除非這兩個(gè)輔音具有相同的發(fā)音位置,在這種情況下,則λ23=λ22m22m23否則λ23=λ22如果音素是一個(gè)輔音,在同一詞組中其前面為一個(gè)輔音和在同一詞組中其后接一個(gè)輔音,則,λ=λ23m24和m24=0.5。除非這些輔音具有相同的發(fā)音位置,在這種情況下,則λ=λ23m22m24否則λ=λ23值t確定如下如果音素是一個(gè)重音的元音,前面為一個(gè)不發(fā)音的釋放或塞擦音,則t=25毫秒,否則t=20。
另外,如果音素在非重讀的音節(jié)中,或者音素放在它所在的字節(jié)的核心之后,則在它用于等式(1)之前,最小持續(xù)期間dmin被減去一半。
dmin、dinherent、t和m1至m24的最佳值使用標(biāo)準(zhǔn)的數(shù)字技術(shù)確定以使使用等式(1)計(jì)算的持續(xù)期間和從記錄話音的數(shù)據(jù)庫(kù)來(lái)的實(shí)際持續(xù)期間的均方差最小。在確定dmin、dinherent、t和m1至m24期間選擇λinital的值為1。但是,在實(shí)際文本/話音的變換期間,對(duì)于較慢的更可懂的話音的最佳值是λinital=1.4。
預(yù)處理器105變換持續(xù)期間處理器104和文本/音素處理器103的輸出為神經(jīng)網(wǎng)絡(luò)106的適當(dāng)輸入。預(yù)處理器105將時(shí)間劃分為一系列的固定持續(xù)期間的幀,并給每幀指定一個(gè)音素,在那個(gè)幀期間該音素通常是發(fā)聲的。這是從每個(gè)音素的表示法及其由持續(xù)期間處理器104提供的持續(xù)期間的直接變換。指定給一幀的周期將落入指定給一個(gè)音素的周期中。那個(gè)音素是在該幀期間通常發(fā)聲的音素。對(duì)于這些幀的每一幀,音素的表示是根據(jù)通常發(fā)聲的該音素產(chǎn)生的。該音素表示識(shí)別該音素和與該音素相關(guān)的發(fā)音特征。下面的表2-a至2-f列出在優(yōu)選實(shí)施例中使用的60個(gè)音素和36個(gè)發(fā)音特征。也產(chǎn)生每幀的前后關(guān)系的描述,包括該幀的音素表示,在相鄰幀中其它幀的音素表示和附加的前后關(guān)系數(shù)據(jù),該數(shù)據(jù)指明句法邊界,字的起伏度,字節(jié)重音和字類(lèi)別。與現(xiàn)有技術(shù)相比,前后關(guān)系的描述不由分離音素的數(shù)量確定,而是由主要是時(shí)間測(cè)量量的幀數(shù)確定。在優(yōu)選的實(shí)施例中,中心在所考慮的幀附近的51幀的音素表示包括在該前后關(guān)系描述中。另外,從文本/音素處理器103和持續(xù)期間處理器104的輸出得到的前后關(guān)系數(shù)據(jù)包括六個(gè)距離值,這些值指示到三個(gè)前面的和三個(gè)后面的音素的中間的時(shí)間距離,兩個(gè)距離值指示到目前音素的開(kāi)始和結(jié)束的時(shí)間距離,八個(gè)邊界值指示到前面和后面字、詞組、從句和句子的時(shí)間距離;兩個(gè)距離值指示到前面和后面音素的時(shí)間距離;六個(gè)持續(xù)期間值指示三個(gè)前面和三個(gè)后面音素的持續(xù)期間;目前音素的持續(xù)時(shí)間;51個(gè)值指示51個(gè)音素表示物的每個(gè)表示物的字起伏度;51個(gè)值指示51個(gè)音素的表示物的每個(gè)表示物的字類(lèi)別;和51個(gè)值指示51幀的每幀的音節(jié)重音。
表2a
表2b
表2c
表2d
表2e
表2f
<p>神經(jīng)網(wǎng)絡(luò)106接收由預(yù)處理器105提供的前后關(guān)系描述和基于其內(nèi)部加權(quán)產(chǎn)生合成器107需要的以產(chǎn)生聲頻幀的聲頻表示。在優(yōu)選實(shí)施例中使用的神經(jīng)網(wǎng)絡(luò)106是四層重復(fù)前向饋送網(wǎng)絡(luò)。在輸入層它有6100個(gè)處理單元(PE),在第一隱藏層有50個(gè)PE,在第二隱藏層有50個(gè)PE和在輸出層有14個(gè)PE。兩個(gè)隱藏層使用反曲傳輸函數(shù),而輸入和輸出層使用線性傳輸函數(shù)。對(duì)于51個(gè)音素表示該輸入層再分為4896個(gè)PE,每個(gè)音素表示使用96個(gè)PE;140個(gè)PE用于重復(fù)輸入,即在輸出層14個(gè)PE的十個(gè)過(guò)去的輸出狀態(tài);和1064個(gè)PE用于前后關(guān)系數(shù)據(jù)。用于前后關(guān)系數(shù)據(jù)的1064個(gè)PE再劃分,900個(gè)PE用于接收指示到三個(gè)前面和三個(gè)后面音素的中間的時(shí)間距離的六個(gè)距離值,兩個(gè)距離值指示到當(dāng)前音素的開(kāi)始和結(jié)束的時(shí)間距離,六個(gè)持續(xù)期間值指示三個(gè)前面和三個(gè)后面音素的持續(xù)時(shí)間,和本音素的持續(xù)時(shí)間;8個(gè)PE用于接收指示到前面與后面字、詞組、從句和句子的時(shí)間距離的八個(gè)邊界值;2個(gè)PE用于指示到前面和后面音素的時(shí)間距離的兩個(gè)距離值;1個(gè)PE用于本音素的持續(xù)期間;51個(gè)PE用于指示51個(gè)音素表示的每個(gè)表示的字起伏度的51個(gè)值;51個(gè)PE用于指示51個(gè)音素表示的每個(gè)表示的字類(lèi)別的51個(gè)值;和51個(gè)PE用于指示51幀的每幀的字節(jié)重讀的51個(gè)值。用于接收指示到三個(gè)前面和三個(gè)后面音素的中間的時(shí)間距離的六個(gè)距離值,指示到本音素的開(kāi)始和結(jié)束的時(shí)間距離的兩個(gè)距離值,六個(gè)持續(xù)期間值和本音素的持續(xù)期間的900個(gè)PE是這樣安排的,即在每個(gè)音素的基礎(chǔ)上一個(gè)PE專(zhuān)用于每個(gè)值。由于有60個(gè)可能的音素和15個(gè)值,那6個(gè)距離值指示到前三個(gè)和后三個(gè)音素的中間的時(shí)間距離,2個(gè)距離值指示到目前音素的開(kāi)始和結(jié)束的時(shí)間距離,6個(gè)持續(xù)期間值和本音素的持續(xù)期間,需要900個(gè)PE。神經(jīng)網(wǎng)絡(luò)106產(chǎn)生話音參數(shù)的聲頻表示,由合成器107用于產(chǎn)生聲頻幀。在優(yōu)選實(shí)施例中產(chǎn)生的聲頻表示包括14個(gè)參數(shù),即音高;能量;由于說(shuō)話估計(jì)的能量;基于能量值的歷史的參數(shù),它影響有聲和無(wú)聲頻帶間劃分的安排;和從該幀的線性預(yù)測(cè)編碼(LPC)分析導(dǎo)出的前十個(gè)記錄區(qū)(log area)比率。
合成器107變換由神經(jīng)網(wǎng)絡(luò)106提供的聲頻表示為聲頻信號(hào)。可用于這里的技術(shù)包括格式合成,多帶激勵(lì)合成和線性預(yù)測(cè)編碼。在優(yōu)選實(shí)施例中使用的方法是LPC,利用從神經(jīng)網(wǎng)絡(luò)提供的記錄區(qū)比率產(chǎn)生的在自回歸濾波器激勵(lì)中的一個(gè)變量。自回歸濾波器使用由神經(jīng)網(wǎng)絡(luò)提供的音高上具有話音激勵(lì)的低頻和具有非話音激勵(lì)的高頻的雙頻激勵(lì)方案進(jìn)行激勵(lì)。激勵(lì)的能量由神經(jīng)網(wǎng)絡(luò)提供。截止頻率由以下等式確定,在該頻率以下用于話音激勵(lì)。fcutoff=8000(1-1-VEE(0.35+3.5P8000)K)+2P----(2)]]>式中fcutoff為截止頻率,以Hz為單位,VE是話音能量,E是能量,P是音高,K是閾值參數(shù)。VE,E,P和K的值由神經(jīng)網(wǎng)絡(luò)106提供。VE是由于話音激勵(lì)在該信號(hào)中能量的傾向性估計(jì),而K是從能量值的歷史中導(dǎo)出的閾值調(diào)整。音高和這兩個(gè)能量在神經(jīng)網(wǎng)絡(luò)的輸出中以對(duì)數(shù)刻度。截止頻率調(diào)整到最接近的頻率,對(duì)于某個(gè)整數(shù)n可表示為(3n+1/2)P,因?yàn)樵捯艉蜔o(wú)聲判定是對(duì)音高的三個(gè)諧波頻帶進(jìn)行的。另外,如果截止頻率大于35倍的音高頻率,則激勵(lì)完全是話音的。
圖2-1和2-2以圖表示用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目標(biāo)聲頻表示208是如何從訓(xùn)練文本200產(chǎn)生的。訓(xùn)練文本200是口說(shuō)的和記錄的,產(chǎn)生訓(xùn)練文本的記錄聲頻消息204。然后訓(xùn)練文本200轉(zhuǎn)換為音素形式,該音素形式與訓(xùn)練文本的記錄聲頻消息204時(shí)間對(duì)準(zhǔn)以產(chǎn)生多個(gè)音素,多個(gè)音素的每個(gè)音素的持續(xù)期間變化并且由該記錄聲頻消息204確定。然后記錄聲頻消息劃分為一系列聲頻幀205,每個(gè)聲頻幀具有固定的持續(xù)期間213。固定持續(xù)期間最好為5毫秒。類(lèi)似地,多個(gè)音素201被變換為具有相同固定持續(xù)期間213的一系列音素表示物202,每個(gè)聲頻幀有相應(yīng)的音素表示物。特別地,聲頻幀206相應(yīng)于指定的音素代表214。對(duì)于聲頻幀206,還產(chǎn)生前后關(guān)系描述207,包括指定的音素表示214和在該聲頻幀206每側(cè)的多個(gè)聲頻幀的音素表示。前后關(guān)系表述207最好包括指示句法邊界,字起伏度,字節(jié)重讀和字類(lèi)別的前后關(guān)系數(shù)據(jù)216。聲頻幀系列206使用聲頻或語(yǔ)音編碼器,最好是線性預(yù)測(cè)編碼器進(jìn)行編碼,產(chǎn)生一系列目標(biāo)聲頻表示208,以便每個(gè)聲頻幀有相應(yīng)的指定目標(biāo)聲頻表示。特別地,聲頻幀206相應(yīng)指定的目標(biāo)聲頻表示212。目標(biāo)聲頻表示208代表話音編碼器的輸出,而且可包括一系列數(shù)字矢量,這些矢量描述幀的特征,諸如音高209,信號(hào)能量210和記錄區(qū)比率211。
圖3示出在正常操作之前建立神經(jīng)網(wǎng)絡(luò)106必須出現(xiàn)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程。神經(jīng)網(wǎng)絡(luò)基于其輸入矢量和由PE使用的內(nèi)部傳遞函數(shù)產(chǎn)生輸出矢量。在訓(xùn)練過(guò)程期間用于該傳遞函數(shù)的系數(shù)是變化的,以便變化該輸出矢量。傳遞函數(shù)和系數(shù)一起稱(chēng)為神經(jīng)網(wǎng)絡(luò)106的加權(quán),在訓(xùn)練過(guò)程中加權(quán)是變化的,以便變化由給定的輸入矢量產(chǎn)生的輸出矢量。加權(quán)初始地設(shè)定為小的隨機(jī)值。前后關(guān)系描述207用作輸入矢量并且加到神經(jīng)網(wǎng)絡(luò)106的輸入。前后關(guān)系描述207根據(jù)神經(jīng)網(wǎng)絡(luò)加權(quán)值進(jìn)行處理產(chǎn)生一個(gè)輸出矢量,即相關(guān)的聲頻表示300。在訓(xùn)練期間的開(kāi)始,該相關(guān)的聲頻表示300無(wú)意義,因此神經(jīng)網(wǎng)絡(luò)加權(quán)是隨機(jī)值。產(chǎn)生差錯(cuò)信號(hào)矢量正比于相關(guān)聲頻表示300和指定的目標(biāo)聲頻表示211之間的距離。然后加權(quán)值以減少這個(gè)差錯(cuò)信號(hào)的方向進(jìn)行調(diào)整。對(duì)于相關(guān)對(duì)的前后關(guān)系描述207和指定目標(biāo)聲頻表示211,這個(gè)過(guò)程重復(fù)很多次。使相關(guān)聲頻表示300接近指定目標(biāo)聲頻表示211的這個(gè)調(diào)整加權(quán)的過(guò)程是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。這種訓(xùn)練使用標(biāo)準(zhǔn)差錯(cuò)后傳播方法。一旦訓(xùn)練神經(jīng)網(wǎng)絡(luò)106,加權(quán)值具有變換前后關(guān)系描述207為數(shù)值類(lèi)似于指定目標(biāo)聲頻表示211的一個(gè)輸出矢量需要的信息。上面對(duì)照?qǐng)D1敘述的優(yōu)選神經(jīng)網(wǎng)絡(luò)的實(shí)施例在認(rèn)為完全訓(xùn)練之前要求多達(dá)一千萬(wàn)的前后關(guān)系描述的表示207給其輸入和下面的加權(quán)調(diào)整。
圖4表示如何在正常操作期間使用訓(xùn)練的神經(jīng)網(wǎng)絡(luò)106變換文本流400為聲頻的。文本流400變換為具有固定持續(xù)期間213的一系列音素幀401,每幀的表示與音素表示203的類(lèi)型相同。對(duì)于每個(gè)指定音素幀402,產(chǎn)生前后關(guān)系描述403與前后關(guān)系描述207的類(lèi)型相同。這被提供作為神經(jīng)網(wǎng)絡(luò)106的輸入,為指定的音素幀402產(chǎn)生一個(gè)產(chǎn)生的聲頻表示物405。對(duì)于系列的音素幀401中的每個(gè)指定的音素幀402執(zhí)行變換產(chǎn)生多個(gè)聲頻表示物404。多個(gè)聲頻表示物404提供作為合成器107的輸入,產(chǎn)生聲頻108。
圖5示出音素表示物203的優(yōu)選實(shí)施例。一幀的音素表示203包括二進(jìn)制字500,它被分為音素ID501和發(fā)音特征502。音素ID501只是在該幀期間通常為發(fā)聲的音素的N個(gè)碼表示之一。音素ID501包括N比特,每比特代表一個(gè)音素,它在給定幀中可發(fā)聲。這些比特之一被置位,指示正發(fā)聲的音素,而其它的比特被清除。在圖5中,正發(fā)聲的音素是B的釋放音,所以比特B506被置位,而比特AA503、AE504、AH505、D507、JJ508和音素ID501中的所有其它比特都被清除。發(fā)音特征502是敘述正在發(fā)聲音素的發(fā)聲方法。例如,上述B是發(fā)聲的唇音釋放,因此清除比特元音509,半元音510,鼻音511,人工音514和代表B釋放不具有的特征的其它比特,同時(shí)設(shè)定代表B釋放具有的特征如鼻音512和發(fā)聲513的比特。在優(yōu)選的實(shí)施例中,有60個(gè)可能的音素和36個(gè)發(fā)音特征,二進(jìn)制字500是96比特。
本發(fā)明提供變換文本為聲頻信號(hào)如話音的一種方法。利用這樣的方法,話音合成系統(tǒng)被訓(xùn)練自動(dòng)地產(chǎn)生講話者的話音,而無(wú)需按規(guī)則合成系統(tǒng)要求的冗長(zhǎng)乏味的規(guī)則產(chǎn)生或者串聯(lián)系統(tǒng)要求的邊界相符與平滑。這個(gè)方法提供對(duì)以前試圖將神經(jīng)網(wǎng)絡(luò)應(yīng)用到該問(wèn)題的改進(jìn),因?yàn)樗玫那昂箨P(guān)系描述在音素的表示邊界上不產(chǎn)生大的改變。
權(quán)利要求
1.一種變換文本為聲頻信號(hào)的設(shè)備,其特征在于,包括一個(gè)文本/音素處理器,其中該文本/音素處理器翻譯文本流為一系列音素表示物;一個(gè)持續(xù)期間處理器,可操作地接到該文本/音素處理器,其中該持續(xù)期間處理器為該文本流產(chǎn)生持續(xù)期間數(shù)據(jù);一個(gè)預(yù)處理器,其中該預(yù)處理器變換該系列音素表示和該持續(xù)期間數(shù)據(jù)為一系列音素幀,其中該系列音素幀的每個(gè)音素幀具有固定持續(xù)期間并具有一個(gè)前后關(guān)系描述,和其中該前后關(guān)系表述是基于該系列音素幀的每個(gè)音素幀和該系列音素幀的至少一些其它音素幀;一個(gè)神經(jīng)網(wǎng)絡(luò),其中該神經(jīng)網(wǎng)絡(luò)基于該前后關(guān)系描述為該系列音素幀的一個(gè)音素幀產(chǎn)生一個(gè)聲頻表示物。
2.根據(jù)權(quán)利要求1的設(shè)備,其特征在于,進(jìn)一步包括一個(gè)合成器,可操作的接到該神經(jīng)網(wǎng)絡(luò),響應(yīng)該聲頻表示物產(chǎn)生一個(gè)可聞信號(hào)。
3.一種車(chē)輛導(dǎo)航系統(tǒng),其特征在于,包括由多個(gè)文本流組成的定向數(shù)據(jù)庫(kù);一個(gè)文本/音素處理器,可操作地接到該定向數(shù)據(jù)庫(kù),其中該文本/音素處理器翻譯該多個(gè)文本本流的一個(gè)文本流為一系列音素表示物;一個(gè)持續(xù)期間處理器,可操作地接到該文本/音素處理器,其中該持續(xù)期間處理器對(duì)該文本流產(chǎn)生持續(xù)期間數(shù)據(jù);一個(gè)預(yù)處理器,其中該預(yù)處理器變換該系列音素表示和該持續(xù)期間數(shù)據(jù)為一系列音素幀,其中該系列音素幀的每個(gè)音素幀具有固定持續(xù)期間并且具有一個(gè)前后關(guān)系描述,和其中該前后關(guān)系描述是基于該系列音素幀的每音素幀和該系列音素幀的至少一些其它音素幀;一個(gè)神經(jīng)網(wǎng)絡(luò),其中該神經(jīng)網(wǎng)絡(luò)基于該前后關(guān)系描述為該系列音素幀的一個(gè)音素幀產(chǎn)生一個(gè)聲頻表示物。
4.根據(jù)權(quán)利要求3的車(chē)輛導(dǎo)航系統(tǒng),其特征在于,進(jìn)一步包括一個(gè)合成器,可操作地接到該神經(jīng)網(wǎng)絡(luò),響應(yīng)該聲頻表示物產(chǎn)生一個(gè)可聞信號(hào)。
全文摘要
首先訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)106使用記錄的聲頻消息204,文本可變換為可聞信號(hào),如話音。為了開(kāi)始訓(xùn)練,記錄的聲頻消息被變換為具有固定持續(xù)期間213的一系列聲頻幀205。然后,每個(gè)聲頻幀被指定一個(gè)音素表示物203和一個(gè)目標(biāo)聲頻表示物208,該音素表示物203是一個(gè)二進(jìn)制字,代表該聲頻幀的音素和發(fā)音特征,而該目標(biāo)聲頻表示物208是一個(gè)聲頻信息如音高和能量的矢量。在訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)106用于將文本變換為話音。首先,被變換的文本被翻釋為與該音素表示物208相同形式的并且具有固定持續(xù)期間213的一系列音素幀401。然后響應(yīng)包括一些音素幀401的前后關(guān)系描述207,該神經(jīng)網(wǎng)絡(luò)產(chǎn)生聲頻表示物。然后該聲頻表示物由合成器107變換為話音波形。
文檔編號(hào)G06N3/00GK1275746SQ99127510
公開(kāi)日2000年12月6日 申請(qǐng)日期1999年12月29日 優(yōu)先權(quán)日1994年4月28日
發(fā)明者奧爾漢·卡拉里, 杰拉爾德·愛(ài)德華·科里恩, 艾拉·艾倫·拉爾森 申請(qǐng)人:摩托羅拉公司