語音合成方法、語音合成設(shè)備和計算機可讀記錄介質(zhì)的制作方法
【專利摘要】本公開提供了語音合成設(shè)備及方法。該語音合成設(shè)備包括:操縱確定器,其被構(gòu)造為確定根據(jù)用戶的操縱而移動的操縱位置;以及語音合成器,其被構(gòu)造為響應(yīng)于用以生成其中第二音素跟隨第一音素的語音的指令而生成語音信號,使得在所述操縱位置到達基準位置之前開始所述第一音素的發(fā)聲,并且在所述操縱位置到達所述基準位置時進行從所述第一音素至所述第二音素的發(fā)聲。
【專利說明】語音合成方法、語音合成設(shè)備和計算機可讀記錄介質(zhì)
【技術(shù)領(lǐng)域】
[0001 ] 本公開涉及語音合成技術(shù)。
【背景技術(shù)】
[0002]已提出了用于合成要被制作為與期望的字符串對應(yīng)的語音的語音合成技術(shù)。例如,JP-A-2002-202790公開了一種通過以下步驟來將歌曲的歌聲進行合成的合成單位連接類型語音合成技術(shù):準備歌曲信息,在該歌曲信息中針對歌曲的各個音符指定發(fā)聲時間點和發(fā)聲字符(例如,歌詞、語音碼或語音字符);在時間軸上的各個發(fā)聲時間點處布置與各音符對應(yīng)的發(fā)聲字符的合成單位;以及將各合成單位彼此連接。
[0003]然而,在JP-A-2002-202790的技術(shù)中,生成具有發(fā)聲時間點和發(fā)聲字符的歌聲,其中已針對各個音符預(yù)先設(shè)定了該發(fā)聲時間點和發(fā)聲字符。在語音合成階段不能實時地改變各個發(fā)聲字符的發(fā)聲時間點??紤]到以上情況,本公開的目的是容許用戶實時地改變合成語音的發(fā)聲時間點。
【發(fā)明內(nèi)容】
[0004]為了實現(xiàn)以上目的,根據(jù)本公開,提供了一種語音合成方法,包括:
[0005]確定步驟,用于確定根據(jù)用戶的操縱而移動的操縱位置,以及
[0006]生成步驟,用于響應(yīng)于用以生成其中第二音素跟隨第一音素的語音的指令而生成語音信號,使得在所述操縱位置到達基準位置之前開始所述第一音素的發(fā)聲,并且在所述操縱位置到達所述基準位置時進行從所述第一音素至所述第二音素的發(fā)聲。
[0007]根據(jù)本公開,提供了一種語音合成設(shè)備,包括:
[0008]操縱確定器,其被構(gòu)造為確定根據(jù)用戶的操縱而移動的操縱位置;以及
[0009]語音合成器,其被構(gòu)造為響應(yīng)于用以生成其中第二音素跟隨第一音素的語音的指令而生成語音信號,使得在所述操縱位置到達基準位置之前開始所述第一音素的發(fā)聲,并且在所述操縱位置到達所述基準位置時進行從所述第一音素至所述第二音素的發(fā)聲。
[0010]該構(gòu)造或方法使得可以根據(jù)用戶操縱來實時地控制在進行從第一音素至第二音素的發(fā)聲時的時間點。
【專利附圖】
【附圖說明】
[0011]圖1是根據(jù)第一實施例的語音合成設(shè)備的框圖。
[0012]圖2示出了操縱位置。
[0013]圖3示出了操縱預(yù)測單元如何操作。
[0014]圖4示出了發(fā)聲碼(音素)與合成單位之間的關(guān)系。
[0015]圖5示出了語音合成單位的操作。
[0016]圖6更加詳細地示出了語音合成單位的操作。
[0017]圖7是合成處理的流程圖。[0018]圖8是第二實施例中使用的操縱畫面的示意圖。
[0019]圖9是第三實施例中使用的操縱畫面的示意圖。
[0020]圖10示出了第四實施例中使用的語音合成單位如何操作。
[0021]圖11示出了第五實施例中使用的操縱畫面。
【具體實施方式】
[0022]<實施例1>
[0023]圖1是根據(jù)本公開的第一實施例的語音合成設(shè)備100的框圖。如圖1所示,語音合成設(shè)備100作為用于生成表示歌曲的歌聲的波形的語音信號Z的信號處理設(shè)備,被實現(xiàn)為計算機系統(tǒng),其包括:計算裝置10、存儲裝置12、顯示裝置14、操縱裝置16、和放音裝置18。計算裝置10是用于管理語音合成設(shè)備100的各組件的控制裝置。
[0024]顯示裝置14 (例如,液晶面板)顯示由計算裝置10命令的圖像。操縱裝置16作為用于接收針對語音合成設(shè)備100的用戶指令的輸入裝置,生成與用戶操縱對應(yīng)的操縱信號M。第一實施例采用與顯示裝置14集成的觸摸面板作為操縱裝置16。也就是說,操縱裝置16檢測用戶的手指對顯示裝置14的顯示屏的接觸并且輸出與接觸位置對應(yīng)的操縱信號M。放音裝置18 (例如,揚聲器或耳機)再現(xiàn)與計算裝置10生成的語音信號Z對應(yīng)的聲波。為了方便起見,圖1中省略了用于將計算裝置10生成的數(shù)字語音信號Z轉(zhuǎn)換為模擬信號的D/A轉(zhuǎn)換器。
[0025]存儲裝置12存儲將要由計算裝置10運行的程序PGM以及將要由計算裝置10使用的各種數(shù)據(jù)。可以任意地將諸如半導(dǎo)體存儲介質(zhì)或磁存儲介質(zhì)之類的已知存儲介質(zhì)、或者多種存儲介質(zhì)的組合用作存儲裝置12。在第一實施例中,存儲裝置12存儲合成單位組L和合成信息S。合成單位組L是要用作用于合成語音信號Z的素材的多個合成單位V的集合(語音合成庫)。每個合成單位V是作為音位區(qū)分或者多個音素的音素鏈(例如,雙音素或三音素)的最小單位的單個音素(例如,元音或輔音)。
[0026]預(yù)先針對各個歌曲來生成作為指定各歌曲的細節(jié)(旋律和歌詞)的時間序列數(shù)據(jù)的多條合成信息S,并將其存儲在存儲裝置12中。如圖1所示,合成信息S包括針對構(gòu)成歌曲的演唱部分的旋律的各個音符的音高Sa和發(fā)聲碼SB。音高Sa是表示音符的音高的數(shù)值(例如,音符編號)。發(fā)聲碼Sb是指定與音符的發(fā)音對應(yīng)的要發(fā)聲的發(fā)聲內(nèi)容的代碼。在第一實施例中,發(fā)聲碼Sb與構(gòu)成歌曲的歌詞的音節(jié)(發(fā)音單位)之一相對應(yīng)。通過利用合成信息S進行的語音合成來生成歌曲的歌聲的語音信號Z。在第一實施例中,根據(jù)對操縱裝置16做出的用戶指令來控制歌曲的各個音符的發(fā)聲時間點。因此,盡管合成信息S指定了構(gòu)成歌曲的多個音符的順序,但是合成信息S中的各個音符的發(fā)聲時間點和持續(xù)時間未被指定。
[0027]計算裝置10通過運行存儲在存儲裝置12中的程序PGM來實現(xiàn)用于生成語音信號Z的多個功能(操縱確定單元22、顯示控制單元24、操縱預(yù)測單元26、以及語音合成單元28)。其中將計算裝置10的各功能分配給多個集成電路的構(gòu)造以及其中專用電子電路(例如,DSP)管理計算裝置10的部分功能的構(gòu)造也是可以的。
[0028]顯示控制單元24在顯示單元14上顯示要由操縱操縱裝置16的用戶查看的如圖2所示的操縱畫面50A。圖2所示的操縱畫面50A是滑動式圖像,該滑動式圖像包括介于左端^和右端Ek之間在X方向上延伸的線段(在下文中稱為“操縱路徑”)G和放置于操縱路徑G上的操縱標志(指針)52。圖1所示的操縱確定單元22基于從操縱裝置16提供的操縱信號M來確定用戶在操縱路徑G上指定的位置(在下文中稱為“操縱位置”)P。用戶利用手指在任何位置處觸摸顯示裝置14的顯示屏的操縱路徑G,從而指定該位置為操縱位置P。此外用戶可以在保持手指與顯示屏相接觸的同時通過沿著操縱路徑G移動手指來在左端El和右端Ek之間在X方向上移動操縱位置P (拖動操縱)。也就是說,操縱確定單元22根據(jù)對操縱裝置16做出的用戶操縱來確定在X方向上移動的操縱位置P。顯示控制單元24將操縱標志52放置在操縱路徑G上的由操縱確定單元22確定的操縱位置P處。也就是說,操縱標志52是表示操縱位置P的圖形(圖2的示例中的圓),并且根據(jù)對操縱裝置16做出的用戶指令而在左端和右端Ek之間在X方向上移動。
[0029]當再現(xiàn)語音信號Z時,用戶可以通過操縱操縱裝置16來移動操縱位置P,從而隨意地指定由合成信息S表示的每個音符的發(fā)聲時間點。更具體地,用戶將操縱位置P從操縱路徑G上不同于特定位置(下文中稱為“基準位置”)PB的位置處移向基準位置Pb,使得操縱位置P在時間點(在下文中稱為“指令時間點”)Tb到達基準位置PB,該時間點Tb被用戶期望為歌曲的一個音符的發(fā)聲應(yīng)該開始的時間點。在第一實施例中,如圖2所示,操縱路徑G的右端Ek用作基準位置PB。也就是說,例如,用戶在歌曲的一個音符的期望指令時間點Tb到來之前通過利用手指在顯示屏上觸摸左端^從而將操縱位置P設(shè)定在左端^處,然后在保持手指與顯示屏相接觸的同時在X方向上移動手指,使得操縱位置P在期望的指令時間點Tb到達基準位置Pb (右端Ek)。在本示例中,操縱位置P設(shè)定在左端Ep然而,操縱位置P可以設(shè)定在操縱路徑G上除左端El以外的位置處。
[0030]當再現(xiàn)語音信號Z時,用戶接連地針對各個音符(歌詞的各音節(jié))執(zhí)行將操縱位置P移至基準位置Pb的上述操縱(下文中稱為“發(fā)聲命令操縱”)。結(jié)果,由各個發(fā)聲命令操縱設(shè)定的指令時間點Tb被指定為歌曲的各個音符的發(fā)聲時間點。
[0031]圖1所示的操縱預(yù)測單元26基于操縱位置P在到達基準位置Pb之前移動的移動速度V,在操縱位置P實際到達基準位置Pb (右端Ek)之前預(yù)測(估計)指令時間點Tb。更具體地,操縱預(yù)測單元26基于操縱位置P移動距離δ (B卩,從操縱路徑G上設(shè)定的預(yù)測起始位置Cs到預(yù)測執(zhí)行位置Ce)所花費的時間長度τ來預(yù)測指令時間點ΤΒ。在第一實施例中,如圖2所示,例如,左端EL被采用為預(yù)測起始位置Cs。另一方面,預(yù)測執(zhí)行位置Ce是操縱路徑G上位于預(yù)測起始位置Cs (左端匕)與基準位置Pb (右端Ek)之間的位置。
[0032]圖3示出了操縱預(yù)測單元26是如何操作的,并且示出了操縱位置P (橫軸)隨時間的變化。如圖3所示,操縱預(yù)測單元26通過測量時間長度τ、并且將預(yù)測起始位置Cs與預(yù)測執(zhí)行位置Ce之間的距離δ除以時間長度τ來計算出移動速度V,時間長度τ是從操縱位置P自預(yù)測起始位置Cs起始的時間點Ts到操縱位置P經(jīng)過預(yù)測執(zhí)行位置Ce時的時間點Te的發(fā)聲命令操縱所經(jīng)歷的時間。然后在假設(shè)操縱位置P移動并且將要以等于移動速度V的恒定速度在X方向上從預(yù)測起始位置Cs開始移動的情況下,操縱預(yù)測單元26計算操縱位置P將要到達基準位置Pb的時間點作為指令時間點ΤΒ。盡管在以上示例中假設(shè)操縱位置P的移動速度V是恒定的,但也可以在考慮移動速度V的增加或減少的情況下來預(yù)測指令時間點ΤΒ。
[0033]圖1中的語音合成單元28生成由合成信息S定義的歌曲的歌聲的語音信號Ζ。在第一實施例中,語音合成單元28利用其中合成單位組L的合成單位V存儲在存儲裝置12中的合成單位連接類型語音合成來生成語音信號Z。更加具體地,語音合成單元28通過以下步驟來生成語音信號Z:針對各個音符連續(xù)地從合成單位組L中選擇與合成信息S的各個發(fā)聲碼Sb對應(yīng)的合成單位V ;調(diào)整各合成單位V從而給予它們針對各個音符而指定的音高Sa ;以及使得到的各合成單位V彼此連接。在語音信號Z中,基于在做出與音符對應(yīng)的發(fā)聲命令操縱時由操縱預(yù)測單元26預(yù)測的指令時間點Tb來控制在產(chǎn)生每個音符的語音的時間點(即,每個合成單位在時間軸上所在的位置)。
[0034]如圖4所示,通過參考其中由合成信息S分配了發(fā)聲碼Sb的音符來說明了操縱預(yù)測單元26和語音合成單元28的操作。發(fā)聲碼Sb由音素Q1和音素Q1之后的音素Q2構(gòu)成。假設(shè)日語歌詞的情況,典型的情形是音素Q1是輔音而音素92是元音。例如,在音節(jié)[s-a]”的發(fā)聲碼SB的情況下,元音音素/a/ (Q2)跟隨輔音音素/s/ (Q1)0如圖4所示,語音合成單元28從合成單位組L中選擇與發(fā)聲碼Sb對應(yīng)的合成單位Va和VB。如圖4所示,合成單位Va和Vb中的每一個是音素鏈(雙音素),該音素鏈是合成單位的起始端音素(下文中稱為“前音素”)和末端音素(下文中稱為“后音素”)的連接。
[0035]合成單位Va的后音素對應(yīng)于發(fā)聲碼Sb的音素Q1。合成單位Vb的前音素和后音素分別對應(yīng)于發(fā)聲碼Sb的音素Q1和Q2。例如,在其中音素/a/(Q2)跟隨音素/V(Q1)的以上示例發(fā)聲碼Sb(音節(jié)? [s-a])中,其后音素是音素/s/的音素鏈/*_s/被選為合成單位VA,并且其前音素是音素/s/且后音素是音素/a/的音素鏈/s-a/被選為合成單位VB。賦予合成單位\的前音素的符號表示與緊接在前的發(fā)聲碼Sb對應(yīng)的特定音素Q2或無聲
[0036]順便提一句,假設(shè)歌唱其中元音跟隨輔音的音節(jié)的情況。在歌曲的實際演唱過程中,有這樣一種傾向:在音符的起始點處開始音節(jié)中的元音(即,音節(jié)的后音素)的發(fā)聲而不是輔音的發(fā)聲。在第一 實施例中,為了再現(xiàn)該傾向,語音合成單元28生成語音信號Z,使得在指令時間點Tb到來之前開始音素Q1的發(fā)聲并且在指令時間點Tb處開始音素Q2的發(fā)聲。以下將進行具體描述。
[0037]用戶適當?shù)厥褂貌倏v裝置16來在操縱路徑G上從左端El (預(yù)測起始位置Cs)沿著X方向移動操縱位置P。如圖5所示,語音合成單元28生成語音信號Z使得在操縱位置P經(jīng)過操縱路徑G上設(shè)定的特定位置(下文中稱為“發(fā)聲起始位置”)Pa時的時間點Ta處開始合成單位\ (前音素/*/)的發(fā)聲。也就是說,合成單位\的起始點大致與操縱位置P經(jīng)過發(fā)聲起始位置Pa時的時間點Ta —致。
[0038]語音合成單元28根據(jù)音素Q1的類型來可變地設(shè)定操縱路徑G上的發(fā)聲起始位置PA。例如,存儲裝置12存儲有這樣的表:其中針對各個類型的音素Q1登記了發(fā)聲起始位置Pa,并且語音合成單元28利用存儲裝置12中存儲的表來確定與合成信息S的發(fā)聲碼Sb的音素Q1對應(yīng)的發(fā)聲起始位置PA。可以任意地設(shè)定音素Q1的類型與發(fā)聲起始位置Pa之間的關(guān)系。例如,將諸如其聲學(xué)特征在短時間內(nèi)不穩(wěn)定變化并且僅持續(xù)短時間的爆破音和塞擦音之類的音素的發(fā)聲起始位置Pa設(shè)定為晚于諸如可以穩(wěn)定持續(xù)的擦音和鼻音之類的音素的發(fā)聲起始位置PA。例如,可以將爆破音音素/t/的發(fā)聲起始位置Pa設(shè)定在操縱路徑G的與左端^相距50%長度的位置處??梢詫⒉烈粢羲?s/的發(fā)聲起始位置Pa設(shè)定在操縱路徑G的與左端El相距20%長度的位置處。然而,這些音素的發(fā)聲起始位置Pa不限制于以上示例值(50%和20%)。[0039]當操縱位置P已在X方向上移動并且已經(jīng)過預(yù)測起始位置Cs時,操縱預(yù)測單元26基于操縱位置P離開預(yù)測起始位置Cs時的時間點Ts與操縱位置P已經(jīng)過預(yù)測執(zhí)行位置Ce時的時間點1之間的時間長度τ來計算出操縱位置P將到達基準位置Pb時的指令時間點ΤΒ。
[0040]操縱預(yù)測單元26根據(jù)音素Q1的類型來可變地在操縱路徑G上設(shè)定預(yù)測執(zhí)行位置Ce(距離δ )。例如,存儲裝置12存儲有這樣的表:其中針對各個類型的音素Q1登記了預(yù)測執(zhí)行位置CE,并且操縱預(yù)測單元26利用存儲在存儲裝置12中的表來確定與合成信息S的發(fā)聲碼Sb的音素Q1對應(yīng)的預(yù)測執(zhí)行位置CE??梢匀我獾卦O(shè)置音素Q1的類型與預(yù)測執(zhí)行位置Ce之間的關(guān)系。例如,將諸如其聲學(xué)特征在短時間內(nèi)不穩(wěn)定地變化并且僅持續(xù)短時間的爆破音和塞擦音之類的音素的預(yù)測執(zhí)行位置Ce設(shè)定為比諸如可以穩(wěn)定持續(xù)的擦音和鼻音之類的音素的預(yù)測執(zhí)行位置Ce更靠近左端Ep
[0041]如圖5所示,語音合成單元28生成語音信號Z使得在已由操縱預(yù)測單元26確定的指令時間點Tb處開始合成單位Vb的音素Q2的發(fā)聲。更具體地,在指令時間點Tb到來之前,接著在發(fā)聲起始位置Pa處開始的合成單位\的音素Q1而開始合成單位Vb的音素(前音素)Q1的發(fā)聲,并且在指令時間點Tb處進行從合成單位Vb的音素Q1到合成單位Vb的音素(后音素)Q2的發(fā)聲。也就是說,合成單位Vb的音素Q2的起始點(即,音素Q1和Q2之間的分界線)與已由操縱預(yù)測單元26確定的時間點Tb大致一致。
[0042]語音合成單元28在時間軸上適當?shù)財U展或壓縮合成單位Va的音素Q1和合成單位Vb的音素Q1使得音素Q1持續(xù)到指令時間點TB。例如,通過在時間軸上重復(fù)其中合成單位Va的音素Q1和Vb的音素Q1中的一者或兩者的聲學(xué)特征保持穩(wěn)定的區(qū)間(例如,合成單位Vb的音素Q1的起始點側(cè)的區(qū)間)來延長音素%。通過適當?shù)厥乖搮^(qū)間內(nèi)的語音數(shù)據(jù)變疏來縮短音素Qi。從以上描述可以理解到,語音合成單元28生成語音信號Z,其中在預(yù)計操縱位置P到達基準位置Pb時的指令時間點Tb到來之前利用該語音信號開始音素Q1的發(fā)聲,并且在指令時間點Tb到來時進行從音素Q1向音素Q2的發(fā)聲。
[0043]連續(xù)地重復(fù)上述根據(jù)針對由合成信息S指定的每個音符的發(fā)聲命令操縱來執(zhí)行的處理。圖6示出了在由合成信息S指定的單詞“ ? 々[s-a] [k-a] [n-a] ”情況下的各音素(合成單位V)的示例發(fā)聲時間點。更具體地,音節(jié)[s-a]”被指定為歌曲的音符N1的發(fā)聲碼Sbi,“力、[k-a] ”被指定為音符N2的發(fā)聲碼SB2,并且“々[n-a] ”被指定為音符N3的發(fā)聲碼sB3。
[0044]如圖6所示,當用戶針對為其指定了音節(jié)“ ? [s-a] ”的音符N1而執(zhí)行發(fā)聲命令操縱OP1時,在操縱位置P經(jīng)過與音素/V(Q1)對應(yīng)的發(fā)聲起始位置PA[s]時開始合成單位/#-8/ (合成單位Va)的發(fā)聲。然后緊接在合成單位/#-S/的發(fā)聲之后,開始作為音素/s/和音素/a/(Q2)的連接的合成單位/S-a/(合成單位Vb)的音素/s/的發(fā)聲。然后在由操縱預(yù)測單元26在操縱位置P經(jīng)過與音素/s/對應(yīng)的預(yù)測執(zhí)行位置CE[s]時的時間點Te處確定的指令時間點Tbi處開始合成單位/s-a/的音素/a/的發(fā)聲。
[0045]同樣,當針對為其指定了音節(jié)“如[k-a] ”的音符N2而執(zhí)行發(fā)聲命令操縱OP2時,在操縱位置P經(jīng)過與音素/V(Q1)對應(yīng)的發(fā)聲起始位置Pa[k]時的時間點TA2處開始合成單位/a-k/ (合成單位VA)的發(fā)聲,隨后開始合成單位/k-a/ (合成單位VB)的發(fā)聲。然后在操縱位置P經(jīng)過與音素/k/對應(yīng)的預(yù)測執(zhí)行位置CE[k]時的時間點Te處確定的指令時間點Tb2處開始合成單位/k-a/的音素/a/ (Q2)的發(fā)聲。
[0046]當針對為其指定了音節(jié)“々[n-a]”的音符N3而執(zhí)行發(fā)聲命令操縱OP3時,在操縱位置P經(jīng)過與音素/n/(Q1)對應(yīng)的發(fā)聲起始位置PA[n]時的時間點TA3處開始合成單位/a-n/ (合成單位VA)的發(fā)聲,隨后開始合成單位/n-a/ (合成單位VB)的發(fā)聲。然后在操縱位置P經(jīng)過與音素/n/對應(yīng)的預(yù)測執(zhí)行位置CE[n]時的時間點Te處確定的指令時間點Tb3處開始合成單位/n-a/的音素/a/ (Q2)的發(fā)聲。
[0047]圖7是由操縱預(yù)測單元26和語音合成單元28執(zhí)行的處理(下文中稱為“合成處理”)的流程圖。按時間順序針對合成信息S所指定的每個音符來執(zhí)行圖7的合成處理。一旦開始合成處理,在步驟SI處,語音合成單元28從合成單位組L中選擇與要處理的音符的發(fā)聲碼Sb對應(yīng)的合成單位V (Va和VB)。
[0048]在由操縱確定單元22確定的操縱位置P離開預(yù)測起始位置Cs之前(S2:否),語音合成單元28待機。如果操縱位置P離開預(yù)測起始位置Cs (S2:是),則語音合成單元28在操縱位置P到達發(fā)聲起始位置Pa之前(S3:否)待機。如果操縱位置P到達發(fā)聲起始位置Pa(S3:是),則在步驟S4處,語音合成單元28生成語音信號Z的一部分使得開始合成單位Va的發(fā)聲。
[0049]在經(jīng)過了發(fā)聲起始位置Pa的操縱位置P到達預(yù)測執(zhí)行位置Ce之前(S5:否),操縱預(yù)測單元26待機 。如果操縱位置P到達預(yù)測執(zhí)行位置Ce(S5:是),則在步驟S6處,操縱預(yù)測單元26預(yù)測指令時間點TB。在步驟S7處,語音合成單元28生成語音信號Z的一部分,使得在指令時間點Tb到來之前開始合成單位Vb的音素Q1的發(fā)聲,并且在指令時間點Tb處開始合成單位Vb的音素Q2的發(fā)聲。
[0050]如上所述,在第一實施例中,根據(jù)發(fā)聲命令操縱來控制發(fā)聲碼Sb的每個音素的發(fā)聲時間點(時間點Ta或指令時間點TB),這提供了可以實時地改變語音信號中的每個音符的發(fā)聲時間點的優(yōu)勢。而且,在第一實施例中,當已命令對其中音素Q2跟隨音素Q1的發(fā)聲碼Sb的語音進行合成時,生成語音信號Z,使得在指令時間點Tb到來之前開始音素Q1的發(fā)聲,并且在指令時間點Tb處進行從合成單位Vb的音素Q1向音素Q2的過渡。這提供了可以生成聽起來自然的語音信號Z優(yōu)勢,這是由于如下傾向進行了再現(xiàn):在演唱例如其中元音跟隨輔音的音節(jié)時,在音符的起始點之前開始輔音的發(fā)聲,并且在音符的起始點處開始元音的
友尸?
[0051]其中音素Q1緊接在音素Q2之前而存在的合成單位Vb (雙音素)用于生成語音信號Z。在其中當操縱位置P實際到達基準位置Pb時的時間點(下文中稱為“實際指令時間點”)處開始合成單位Vb的發(fā)聲的一般構(gòu)造中,在比實際指令時間點晚了合成單位Vb的音素(前音素)Q1的持續(xù)時間的時間點處開始音素(后音素)Q2的發(fā)聲。即,音素Q2的發(fā)聲的開始滯后于實際指令時間點。
[0052]相反,在第一實施例中,由于在操縱位置P實際到達基準位置Pb之前預(yù)測了指令時間點TB,因此可以進行這樣的操作:在指令時間點Tb到來之前開始合成單位Vb的音素Q1的發(fā)聲,并且在指令時間點Tb處開始合成單位Vb的音素Q2的發(fā)聲。這提供了可以減小音素Q2相對用戶預(yù)期的時間點(即,當操縱位置P到達基準位置Pb時的時間點)的滯后的優(yōu)勢。
[0053]而且,在第一實施例中,根據(jù)音素Q1的類型來可變地控制操縱路徑G上的發(fā)聲起始位置PA。這提供了可以在適合于音素Q1的類型的時間點處開始音素Q1的發(fā)聲的優(yōu)勢。而且,在第一實施例中,根據(jù)音素Q1的類型來可變地控制操縱路徑G上的預(yù)測執(zhí)行位置CE。因此,指令時間點Tb的預(yù)測可以反映操縱路徑G的適合于音素Q1的類型的區(qū)間。
[0054]<實施例2>
[0055]以下將描述本公開的第二實施例。在以下描述的每個實施例中,將對操作或功能與第一實施例中相同(或等同)的元件給予與第一實施例中對應(yīng)元件相同的參考符號,并且將適當省略對其的詳細描述。
[0056]圖8是第二實施例中使用的操縱畫面50B的示意圖。如圖8所示,在第二實施例中使用的操縱畫面50B中布置了與不同音高Sa (C、D、E、…)對應(yīng)的多個操縱路徑G。用戶從操縱畫面50B中的該多個操縱路徑G中選擇與期望音高Sa對應(yīng)的一個操縱路徑(下文中稱為“目標操縱路徑”)G,并且按照與第一實施例中相同的方式來執(zhí)行發(fā)聲命令操縱。操縱確定單元22確定已從操縱畫面50B中的多個操縱路徑G中選出的目標操縱路徑G上的操縱位置P,并且顯示控制單元24將操縱標志52放置在目標操縱路徑G上的操縱位置P處。也就是說,目標操縱路徑G是被用戶選為用于移動操縱位置P的發(fā)聲命令操縱的目標的操縱路徑G。連續(xù)地重復(fù)針對歌曲的每個音符所做的目標操縱路徑G的選擇(音高Sb的選擇)以及對目標操縱路徑G的發(fā)聲命令操縱。
[0057]第二實施例中使用的語音合成單元28生成語音信號Z的具有這樣音高Sa的部分:該音高Sa對應(yīng)于用戶從多個操縱路徑G中選擇的目標操縱路徑G。也就是說,語音信號Z的每個音符的音高被設(shè)定為已被用戶從多個操縱路徑G中選為該音符的發(fā)聲命令操縱的目標的目標操縱路徑G的音高SA。與每個音符的發(fā)聲碼Sb和發(fā)聲時間點相關(guān)的多個處理與第一實施例中的相同。從以上描述可以理解,盡管在第一實施例中預(yù)先將歌曲的每個音符的音高指定為合成信息S的一部分,但在第二實施例中,通過用戶對目標操縱路徑G的選擇來實時地指定歌曲的每個音符的音高Sa (即,在生成語音信號Z時連續(xù)地指定各個音符的音高SA)。因此,在第二實施例中,可以省略合成信息S中的各個音符的音高SA。
[0058]第二實施例提供了與第一實施例中相同的優(yōu)勢。而且,在第二實施例中,生成了語音信號Z的針對具有這樣音高Sa的語音的部分:該音高Sa對應(yīng)于用戶從多個操縱路徑G中選出的目標操縱路徑G。這提供了用戶可以方便且實時地指定歌曲的每個音符的音高Sa以及每個音符的發(fā)聲時間點。
[0059]<實施例3>
[0060]圖9是第三實施例中使用的操縱畫面50C的示意圖。如圖9所示,在第三實施例中使用的操縱畫面50C中布置了與不同發(fā)聲碼Sb (音節(jié))對應(yīng)的多個操縱路徑G。用戶從操縱畫面50C中的多個操縱路徑G中選擇與期望的發(fā)聲碼Sb對應(yīng)的一個操縱路徑G作為目標操縱路徑,并且按照與第一實施例中相同的方式來執(zhí)行發(fā)聲命令操縱。操縱確定單元22確定已從操縱畫面50C的多個操縱路徑G中選出的目標操縱路徑G上的操縱位置P,并且顯示控制單元24將操縱標志52放置在目標操縱路徑G上的操縱位置P處。連續(xù)地重復(fù)針對歌曲的每個音符所做的目標操縱路徑G的選擇(發(fā)聲碼Sb的選擇)以及對目標操縱路徑G的發(fā)聲命令操縱。
[0061]第三實施例中使用的語音合成單元28生成用于這樣的發(fā)聲碼Sb的一部分語音信號Z,該發(fā)聲碼Sb對應(yīng)于用戶從多個操縱路徑G中選擇的目標操縱路徑G。也就是說,語音信號Z的每個音符的發(fā)聲碼被設(shè)定為已被用戶從多個操縱路徑G中選為該音符的發(fā)聲命令操縱的目標的目標操縱路徑G的發(fā)聲碼SB。與每個音符的音高Sa和發(fā)聲時間點相關(guān)的多個處理與第一實施例中的相同。從以上描述可知,盡管在第一實施例中預(yù)先將歌曲的每個音符的發(fā)聲碼Sb指定為合成信息S的部分,但在第三實施例中,通過用戶對目標操縱路徑G的選擇來實時地指定歌曲的每個音符的發(fā)聲碼Sb (即,在生成語音信號Z時連續(xù)地指定各個音符的發(fā)聲碼Sb)。因此,在第三實施例中,可以省略合成信息S中的各個音符的發(fā)聲碼SB。
[0062]第三實施例提供了與第一實施例中相同的優(yōu)勢。而且,在第三實施例中,生成了用于這樣的發(fā)聲碼Sb的一部分語音信號Z,該發(fā)聲碼Sb對應(yīng)于用戶從多個操縱路徑G中選出的目標操縱路徑G。這提供了用戶可以方便且實時地指定歌曲的每個音符的發(fā)聲碼Sb以及每個音符的發(fā)聲時間點的優(yōu)勢。
[0063]<實施例4>
[0064]在第一實施例中,根據(jù)這樣的發(fā)聲命令操縱來控制每個音符的發(fā)聲時間點:在從操縱路徑G的左端El至右端Ek的方向(下文中稱為“Χκ方向”)上移動操縱位置P。然而,該可以根據(jù)這樣的發(fā)聲命令操縱來控制每個音符的發(fā)聲時間點:在從右端^至左端El的方向(下文中稱為方向”)上移動操縱位置P。在第四實施例中,根據(jù)發(fā)聲命令操縱的方向(Xk方向或\方向)來控制每個音符的發(fā)聲時間點。更具體地,用戶逐個音符地顛倒發(fā)聲命令操縱的操縱位置P移動方向。例如,對歌曲的奇數(shù)編號的音符在Xk方向上執(zhí)行發(fā)聲命令操縱,而對偶數(shù)編號的音符在\方向上執(zhí)行發(fā)聲命令操縱。也就是說,操縱位置P (操縱標志52)在左端和右端Ek之間往復(fù)移動。
[0065]如圖10所示,關(guān)注歌曲的使音符N1和N2毗連。音符N2緊接在音符N1的后面。假設(shè)音符N1被分配了其中音素Q2跟隨音素Q1的發(fā)聲碼Sbi,音符N2被分配了其中音素Q4跟隨音素Q3的發(fā)聲碼SB2。在單詞“ ^如[s-a] [k-a] ”的情況下,與發(fā)聲碼Sbi對應(yīng)的音節(jié)“ ^[s_a] ”由音素/s/ (Q1)和音素/a/ (Q2)組成,與發(fā)聲碼Sb2對應(yīng)的音節(jié)“力、[k_a] ”由音素/V(Q3)和音素/a/(Q4)組成。針對音符N1,用戶執(zhí)行在從左端El至右端Xk方向上移動操縱位置P的發(fā)聲命令操縱。針對緊接著音符N1的音符N2,用戶執(zhí)行在從右端Ek至左端El的方向\上移動操縱位置P的發(fā)聲命令操縱。
[0066]一旦用戶針對音符N1開始Xk方向上的發(fā)聲命令操縱,操縱預(yù)測單元26就采用在Xk方向中位于下游的右端Ek作為基準位置Pbi (第一基準位置),并且預(yù)測操縱位置P將到達基準位置Pbi時的時間點作為指令時間點TB1。語音合成單元28生成語音信號Z,使得在指令時間點Tbi到來之前開始音符N1的發(fā)聲碼Sbi的音素Q1的發(fā)聲,并且在指令時間點Tbi處進行從音素Q1向音素Q2的過渡。
[0067]另一方面,一旦用戶通過顛倒操縱位置P的移動方向來針對音符N2開始\方向上的發(fā)聲命令操縱,操縱預(yù)測單元26就采用在\方向中位于下游的左端El作為基準位置Pb2(第二基準位置),并且預(yù)測操縱位置P將到達基準位置Pb2時的時間點作為指令時間點TB2。語音合成單元28生成語音信號Z,使得在指令時間點Tb2到來之前開始音符N2的發(fā)聲碼Sb2的音素Q3的發(fā)聲,并且在指令時間點Tb2處進行從音素Q3向音素Q4的發(fā)聲的過渡。
[0068] 針對歌曲的每個毗連音符對(N1和N2)來執(zhí)行上述處理,從而根據(jù)Xk方向上的和方向上的發(fā)聲命令操縱中的一個(即,使操縱位置P往復(fù)移動的操縱)來控制歌曲的每個音符的發(fā)聲時間點。[0069]第四實施例提供了與第一實施例中相同的優(yōu)勢。而且,由于通過使操縱位置P往復(fù)移動來指定歌曲的各音符的發(fā)聲時間點,因此第四實施例還提供了這樣的優(yōu)勢:相比于其中不管歌曲的音符如何操縱位置P都在單方向上移動的構(gòu)造,可以使用戶進行發(fā)聲命令操縱(即,針對各音符移動手指的操縱)所承受的負荷降低。
[0070]<實施例5>
[0071]在上述第二實施例中,生成具有這樣音高Sa的一部分語音信號Z,該音高Sa與用戶從多個操縱路徑G中選出的目標操縱路徑G對應(yīng)。在第五實施例中,在顯示裝置14上顯示一個操縱路徑G,并且根據(jù)操縱位置P在垂直于操縱路徑G的方向上所處的位置來控制語音信號Z的音高SA。
[0072]在第五實施例中,顯示控制單元24在顯示裝置14上顯示圖11所示的操縱畫面50D。操縱畫面50D是其中一個操縱路徑G置于操縱區(qū)域54中的圖像,在操縱區(qū)域54中設(shè)定了相交(通常,正交)的X軸和Y軸。操縱路徑G平行于X軸延伸。因此,Y軸在與操縱路徑G相交的方向上,其中操縱路徑G在一端處具有基準位置PB。用戶可以指定操縱區(qū)域54中的任何位置作為操縱位置P。操縱確定單元22確定與操縱位置P對應(yīng)的X軸上的位置Px和Y軸上的位置Ρy。顯示控制度單元24將操縱標志52置于操縱區(qū)域54中的操縱位置P (Ρχ, Ρy)處。
[0073]操縱預(yù)測單元26通過與第一實施例中使用的方法相同的方法,基于與各個操縱位置P對應(yīng)的X軸上的位置Px來預(yù)測指令時間點Tb。在第五實施例中,語音合成單元28生成語音信號Z的具有這 樣的音高Pa的一部分:該音高Pa與操縱位置P的Y軸上的位置Py相對應(yīng)。由以上描述可知,操縱區(qū)域54中的X軸和Y軸分別對應(yīng)于時間軸和音高軸。
[0074]更具體地,如圖11所示,操縱區(qū)域54被劃分為與多個不同音高對應(yīng)的多個區(qū)域56。這些區(qū)域56是在X方向上延伸并在Y方向上排列的帶狀區(qū)域。語音合成單元28生成語音信號Z的具有這樣的音高Sa的一部分:該音高Sa與操縱區(qū)域54的多個區(qū)域56當中的操縱位置P所在的區(qū)域56相對應(yīng)(即,與位置Py對應(yīng)的音高Sa)。更具體地,例如,在位置Px到達操縱路徑G上的規(guī)定位置(例如,基準位置Pb或發(fā)聲起始位置Pa)時的時間點處生成語音信號Z的具有這樣的音高Sa的一部分:該音高Sa與操縱位置P所在的區(qū)域56相對應(yīng)。也就是說,在操縱位置(位置Px)到達規(guī)定位置時的時間點處確定音高Sa的使用。如上所述,在第五實施例中,與第二實施例類似,可以省略合成信息S中的各個音符的音高SA,這是因為音高Sa是根據(jù)操縱位置P來控制的。
[0075]由以上描述可知,與在第一實施例中類似,通過操縱操縱裝置16將操縱位置P移動至操縱區(qū)域54中的任何點,可以根據(jù)操縱位置P在X軸上的位置Px來實時地指定每個音符(或音素)的發(fā)聲時間點。而且,根據(jù)操縱位置P在Y軸上的位置Py來控制歌曲的每個音符的音高SA。這樣,第五實施例提供了與第二實施例相同的優(yōu)勢。
[0076]<變型例>
[0077]可以以各種方式來修改以上的每個實施例。以下將描述具體的示例變型例。可以適當?shù)亟M合以下示例變型例中的任選的兩個或多個。
[0078]( I)在以上每個實施例中,針對音素Q1的各個類型來設(shè)定發(fā)聲起始位置Pa和預(yù)測執(zhí)行位置CE。然而,可以針對構(gòu)成發(fā)聲碼Sb的音素Q1和Q2的類型的各種組合來設(shè)定不同的發(fā)聲起始位置Pa和不同的預(yù)測執(zhí)行位置CE。[0079](2)可以根據(jù)對操縱畫面50 (50A、50B、50C、或50D)的操縱來控制語音信號Z的
聲學(xué)特性。例如,可以是這樣的配置:其中,當用戶在發(fā)聲命令操縱期間或之后使操縱位置P在與X方向垂直的Y方向上往復(fù)移動時,語音合成單元28對語音信號Z賦予顫音。更加具體地,對語音信號Z賦予這樣的顫音:其深度(音高變化范圍)與操縱位置P在Y方向上的往復(fù)幅度相對應(yīng),并且其速度(音高變化周期)與操縱位置P的往復(fù)周期相對應(yīng)。例如,可以是這樣的配置:其中,在發(fā)聲命令操縱期間或之后,當用戶在Y方向上移動操縱位置P時,語音合成單元28對語音信號Z賦予在某種程度上與操縱位置P在Y方向上的移動長度對應(yīng)的聲學(xué)效果(例如,混響效果)。
[0080](3)以上實施例中的每個均針對操縱裝置16是觸摸面板并且用戶對顯示在顯示裝置14上的操縱畫面50進行發(fā)聲命令操縱的情況。然而,可以采用裝備有將要由用戶操縱的真實的操縱部件的操縱裝置16。例如,在其操縱部件(按鈕)被直線移動的滑動式操縱裝置16的情況下,在每個實施例中,操縱部件的位置與操縱位置P相對應(yīng)。也可以是另一種構(gòu)造:其中,用戶利用諸如鼠標之類的定位裝置作為操縱裝置16來指示操縱位置P。
[0081](4)在以上的每個實施例中,在操縱位置P實際到達基準位置Pb之前預(yù)測指令時間點Tb。然而,可以通過將操縱位置P實際到達基準位置Pb時的時間點(實際指令時間點)采用為指令時間點Tb來生成語音信號Z的一部分。然而,在使用具有音素Q1和音素Q2 (前者在后者之前)的音素鏈(雙音素)的合成單位Vb并且在操縱位置P實際到達基準位置Pb時的時間點處開始合成單位Vb的發(fā)聲的情況下,如上所述,可以在比用戶期望的時間點(實際指令時間點)滯后的時間點處開始音素Q2的發(fā)聲。因此,從使得每個音符準確地在用戶期望的時間點處發(fā)聲的角度來看,優(yōu)選的是在操縱位置P實際到達基準位置Pb之前預(yù)測指令時間點TB,如在以上的每個實施例中那樣。
[0082](5)在以上的每個實施例中,根據(jù)音素Q1的類型來可變地控制發(fā)聲起始位置Pa和預(yù)測執(zhí)行位置CE。然而,可以將發(fā)聲起始位置Pa或預(yù)測執(zhí)行位置Ce固定在規(guī)定的位置處。而且,盡管在以上的每個實施例中分別采用左端^和右端Ek作為預(yù)測起始時間點Cs和基準位置Pb,但還可以采用操縱路徑G的不同于端位置El和Ek的位置作為預(yù)測起始位置Cs和基準位置PB。例如,可以是這樣的構(gòu)造:其中,可以采用在向右端Ek —側(cè)方向與左端EJ旬隔規(guī)定距離的位置作為預(yù)測起始位置Cs。此外還可以是這樣的構(gòu)造:其中,可以采用在向左端El 一側(cè)方向與右端Ek間隔規(guī)定距離的位置作為預(yù)測起始位置。
[0083](6)盡管在以上的每個實施例中操縱路徑G均是直線,但還可以采用曲線操縱路徑G。例如,可以在圓形操縱路徑G上設(shè)定位置PA、PB、CS、和CE。在該情況下,用戶針對每個音符而在顯示屏上沿著操縱路徑G執(zhí)行畫圓圈的操縱(發(fā)聲命令操縱),使得操縱位置P在期望的時間點處到達操縱路徑G上的基準位置PB。
[0084]以上的每個實施例均針對日本語音的合成,要合成的語音的語言不限制于日語并且可以是任何語言。例如,可以將以上的每個實施例應(yīng)用于諸如英語、西班牙語、漢語、或韓語之類的任何語言的語音的生成。在其中發(fā)聲碼Sb可以由兩個輔音音素構(gòu)成的語言中,音素Q1和音素Q2 二者均可以是輔音音素。而且,在某些語言系統(tǒng)(例如,英語)中,第一音素Q1和第二音素Q2中的一者或兩者可以由多個音素(音素鏈)組成。例如,在單詞“S印tember”的第一音節(jié)“s印”中,可以是這樣的構(gòu)造:其中,可以使音素(音素鏈)“se”作為第一音素Q1,使音素“P”作為第二音素Q2,并且控制它們之間的過渡。還可以是另一構(gòu)造:其中,使音素“S”作為第一音素Q1,使音素(音素鏈)“印”作為第二音素Q2,并且控制它們之間的過渡。例如,根據(jù)預(yù)定的規(guī)則或用戶指令來確定在哪里設(shè)定一個音節(jié)的第一音素Q1和第二音素Q2之間的分界線(在以上示例中,音節(jié)“s印”應(yīng)該被劃分為音素“se”和“p”還是音素“s”和
“印,,)。
[0085]這里,將以上實施例總結(jié)如下。
[0086]根據(jù)本公開提供了一種語音合成設(shè)備,其包括:操縱確定器,其用于確定根據(jù)用戶的操縱而移動的操縱位置;以及語音合成器,其響應(yīng)于用以生成其中第二音素(例如,音素Q2)跟隨第一音素(例如,音素Q1)的語音的指令而生成語音信號,使得在所述操縱位置將到達基準位置之前開始所述第一音素的發(fā)聲,并且在所述操縱位置到達所述基準位置時進行從所述第一音素至所述第二音素的發(fā)聲。該構(gòu)造使得可以根據(jù)用戶操縱來實時地控制在進行從第一音素至第二音素的發(fā)聲時的時間點
[0087]根據(jù)本公開的優(yōu)選模式的語音合成設(shè)備還包括:操縱預(yù)測器,其用于基于所述操縱位置的移動速度來預(yù)測所述操縱位置到達所述基準位置的指令時間點。該模式使得可以減小從用戶期望的時間點到第二音素實際開始發(fā)聲的時間點的延遲,這是因為在操縱位置實際到達基準位置之前預(yù)測了指令時間點。盡管第一音素和第二音素中的每一個通常是單音素,但多音素(音素鏈)也可以采用為第一音素或第二音素。
[0088]在根據(jù)本公開的另一優(yōu)選模式的語音合成設(shè)備中,所述操縱預(yù)測器基于所述操縱位置從預(yù)測起始位置移動到預(yù)測執(zhí)行位置所花費的時間長度來預(yù)測所述指令時間點。在根據(jù)本公開的又一優(yōu)選模式的語音合成設(shè)備中,所述操縱預(yù)測器根據(jù)所述第一音素的類型來可變地設(shè)定所述預(yù)測執(zhí)行位置。這些模式使得能夠進行這樣的預(yù)測:該預(yù)測反映了操縱位置在操縱路徑的適合于第一音素的類型的區(qū)間中的移動。短語“根據(jù)音素的類型來可變地設(shè)定預(yù)測執(zhí)行位置”意味著當?shù)谝灰羲厥翘囟ㄒ羲谹以及第一音素是與音素A不同的音素B時預(yù)測執(zhí)行位置不同,并且不需要針對所有類型的音素來設(shè)定不同的預(yù)測執(zhí)行位置。
[0089]在根據(jù)本公開的另一優(yōu)選模式的語音合成設(shè)備中,所述語音合成器生成用于對這樣的合成單位(例如,合成單位Va)進行發(fā)聲的語音信號:在正朝向所述基準位置移動的所述操縱位置經(jīng)過發(fā)聲起始位置時的時間點處,所述合成單位在端部側(cè)具有所述第一音素。在根據(jù)本公開的又一優(yōu)選模式的語音合成設(shè)備中,所述語音合成器根據(jù)所述第一音素的類型來可變地設(shè)定所述發(fā)聲起始位置。這些模式使得可以在適合于第一音素類型的時間點處開始第一音素的發(fā)聲。短語“根據(jù)音素的類型來可變地設(shè)定發(fā)聲起始位置”意味著當?shù)谝灰羲厥翘囟ㄒ羲谹以及第一音素是與音素A不同的音素B時發(fā)聲起始位置不同,并且不需要針對所有類型的音素來設(shè)定不同的發(fā)聲起始位置。
[0090]在根據(jù)本公開的另一優(yōu)選模式的語音合成設(shè)備中,所述語音合成器生成具有這樣音高的語音信號:所述音高與對應(yīng)于不同音高的多個操縱路徑當中的用戶移動所述操縱位置所沿的目標操縱路徑相對應(yīng)。該模式提供了用戶不僅可以實時地控制發(fā)聲時間點還可以實時地控制語音音高的優(yōu)勢,這是因為生成了具有與用戶移動操縱位置所沿的目標操縱路徑對應(yīng)的音高的語音。例如,該模式的具體示例作為第二實施例進行了描述。
[0091]在根據(jù)本公開的又一優(yōu)選模式的語音合成設(shè)備中,所述語音合成器生成這樣的發(fā)聲碼的語音信號:所述發(fā)聲碼與對應(yīng)于不同發(fā)聲碼的多個操縱路徑當中的用戶移動所述操縱位置所沿的目標操縱路徑相對應(yīng)。該模式提供了用戶不僅可以實時地控制發(fā)聲時間點還可以實時地控制發(fā)聲碼的優(yōu)勢,這是因為生成了與用戶移動操縱位置所沿的目標操縱路徑對應(yīng)的發(fā)聲碼的語音信號。例如,該模式的具體示例作為第三實施例進行了描述。
[0092]在根據(jù)本公開的又一優(yōu)選模式的語音合成設(shè)備中,所述語音合成器生成具有與這樣的操縱位置相對應(yīng)的音高的語音信號:所述操縱位置位于與在一端處具有所述基準位置的操縱路徑交叉的方向上的位置處。此外,所述語音合成器生成具有與這樣的操縱位置相對應(yīng)的音響效果的語音信號:所述操縱位置位于延伸向所述基準位置的所述操縱路徑交叉的方向上的位置處。這些模式提供了用戶不僅可以實時地控制發(fā)聲時間點還可以實時地控制語音音高或音響效果的優(yōu)勢,這是因為生成了具有與這樣的操縱位置相對應(yīng)的音高或音響效果的語音:所述操縱位于與操縱路徑交叉的方向(例如,Y軸方向)上的位置處。例如,該模式的具體示例作為第五實施例進行了描述。
[0093]在根據(jù)本公開的進一步優(yōu)選模式的語音合成設(shè)備中,當做出用以生成其中第二音素跟隨第一音素的語音和其中第四音素跟隨第三音素的語音的指令時,所述語音合成器生成:語音信號,其中使得在作為在第一方向上沿著所述操縱路徑移動的結(jié)果而使所述操縱位置到達第一基準位置之前開始所述第一音素的發(fā)聲,并且在所述操縱位置到達所述第一基準位置時進行從所述第一音素至所述第二音素的發(fā)聲;以及生成語音信號,其中使得在作為在與所述第一方向相反的第二方向上沿著所述操縱路徑移動的結(jié)果而使所述操縱位置到達第二基準位置之前開始所述第三音素的發(fā)聲,并且在所述操縱位置到達所述第二基準位置時進行從所述第三音素至所述第四音素的發(fā)聲。在該模式中,通過在第一方向上移動操縱位置的操縱來控制從第一音素至第二音素的發(fā)聲時的時間點,并且通過在第二方向上移動操縱位置的操縱來控制從第三音素至第四音素的發(fā)聲時的時間點。這使得可以減小用戶在進行用于命令每個語音的發(fā)聲時間點的操縱時所承受的負擔。
[0094]根據(jù)以上每一個模式的語音合成設(shè)備通過諸如DSP (數(shù)字信號處理器)之類的專用于生成語音信號的硬件(電子電路)或者通過程序和諸如CPU (中央處理單元)之類的通用計算裝置的合作來實現(xiàn)。具體來說,根據(jù)本公開的程序使計算機執(zhí)行:確定步驟,用于確定根據(jù)用戶的操縱而移動的操縱位置;以及生成步驟,用于響應(yīng)于用以生成其中第二音素跟隨第一音素的語音的指令而生成語音信號,使得在所述操縱位置將到達基準位置之前開始所述第一音素的發(fā)聲,并且在所述操縱位置到達所述基準位置時進行從所述第一音素至所述第二音素的發(fā)聲。根據(jù)該模式的程序可以以存儲在計算機可讀記錄介質(zhì)中并安裝在計算機中的形式來提供。例如,記錄介質(zhì)是非臨時性記錄介質(zhì),其典型的示例為諸如CD-ROM之類的光學(xué)記錄介質(zhì)。然而,記錄介質(zhì)可以是諸如半導(dǎo)體記錄介質(zhì)和磁記錄介質(zhì)之類的其它已知形式的任何記錄介質(zhì)。而且,例如,根據(jù)本公開的程序可以以在通信網(wǎng)絡(luò)上傳送并且安裝在計算機中的形式來提供。
[0095]盡管已針對特定的優(yōu)選實施例示出并描述了本公開,但對本領(lǐng)域技術(shù)人員而言顯而易見的是,可以基于本公開的教導(dǎo)進行各種改變和修改。顯而易見的是,這些改變和修改在所附權(quán)利要求限定的本公開的精神、范圍和意圖內(nèi)。
[0096]本申請基于2013年2月22日提交的日本專利申請N0.2013-033327和2014年I月17日提交的日本專利申請N0.2014-006983,其內(nèi)容通過引用并入于此。
【權(quán)利要求】
1.一種語音合成方法,包括: 確定步驟,用于確定根據(jù)用戶的操縱而移動的操縱位置,以及 生成步驟,用于響應(yīng)于用以生成其中第二音素跟隨第一音素的語音的指令而生成語音信號,使得在所述操縱位置到達基準位置之前開始所述第一音素的發(fā)聲,并且在所述操縱位置到達所述基準位置時進行從所述第一音素至所述第二音素的發(fā)聲。
2.根據(jù)權(quán)利要求1所述的語音合成方法,還包括: 預(yù)測步驟,用于基于所述操縱位置的移動速度來預(yù)測所述操縱位置到達所述基準位置的指令時間點。
3.根據(jù)權(quán)利要求2所述的語音合成方法,其中,在所述預(yù)測步驟中,基于所述操縱位置從預(yù)測起始位置移動到預(yù)測執(zhí)行位置所花費的時間長度來預(yù)測所述指令時間點。
4.根據(jù)權(quán)利要求3所述的語音合成方法,其中,在所述預(yù)測步驟中,根據(jù)所述第一音素的類型來可變地設(shè)定所述預(yù)測執(zhí)行位置。
5.根據(jù)權(quán)利要求1所述的語音合成方法,其中,在所述生成步驟中,生成用于對這樣的合成單位進行發(fā)聲的語音信號:在正朝向所述基準位置移動的所述操縱位置經(jīng)過發(fā)聲起始位置時的時間點處,所述合成單位在端部側(cè)具有所述第一音素。
6.根據(jù)權(quán)利要求5所述的語音合成方法,其中,在所述生成步驟中,根據(jù)所述第一音素的類型來可變地設(shè)定所述發(fā)聲起始位置。
7.根據(jù)權(quán)利要求1所述的語音合成方法,其中,在所述生成步驟中,生成具有這樣音高的語音信號:所述音高與對應(yīng)于不同音高的多個操縱路徑當中的用戶移動所述操縱位置所沿的操縱路徑相對應(yīng)。
8.根據(jù)權(quán)利要求1所述的語音合成方法,其中,在所述生成步驟中,生成這樣的發(fā)聲碼的語音信號:所述發(fā)聲碼與對應(yīng)于不同發(fā)聲碼的多個操縱路徑當中的用戶移動所述操縱位置所沿的操縱路徑相對應(yīng)。
9.根據(jù)權(quán)利要求1所述的語音合成方法,其中,在所述生成步驟中,生成具有與這樣的操縱位置相對應(yīng)的音高的語音信號:所述操縱位置位于與延伸向所述基準位置的所述操縱路徑交叉的方向上的位置處。
10.根據(jù)權(quán)利要求1所述的語音合成方法,其中,在所述生成步驟中,生成具有與這樣的操縱位置相對應(yīng)的音響效果的語音信號:所述操縱位置位于與延伸向所述基準位置的所述操縱路徑交叉的方向上的位置處。
11.根據(jù)權(quán)利要求1所述的語音合成方法,其中,在所述生成步驟中,響應(yīng)于用以生成其中第二音素跟隨第一音素的語音和其中第四音素跟隨第三音素的語音的指令,而生成語音信號,其中使得在作為在第一方向上沿著所述操縱路徑移動的結(jié)果而使所述操縱位置到達第一基準位置之前開始所述第一音素的發(fā)聲,并且在所述操縱位置到達所述第一基準位置時進行從所述第一音素至所述第二音素的發(fā)聲;以及生成語音信號,其中使得在作為在與所述第一方向相反的第二方向上沿著所述操縱路徑移動的結(jié)果而使所述操縱位置到達第二基準位置之前開始所述第三音素的發(fā)聲,并且在所述操縱位置到達所述第二基準位置時進行從所述第三音素至所述第四音素的發(fā)聲。
12.—種語音合成設(shè)備,包括: 操縱確定器,其被構(gòu)造為確定根據(jù)用戶的操縱而移動的操縱位置;以及語音合成器,其被構(gòu)造為響應(yīng)于用以生成其中第二音素跟隨第一音素的語音的指令而生成語音信號,使得在所述操縱位置到達基準位置之前開始所述第一音素的發(fā)聲,并且在所述操縱位置到達所述基準位置時進行從所述第一音素至所述第二音素的發(fā)聲。
13.根據(jù)權(quán)利要求12所述的語音合成設(shè)備,還包括: 操縱預(yù)測器,其被構(gòu)造為基于所述操縱位置的移動速度來預(yù)測所述操縱位置到達所述基準位置的指令時間點。
14.根據(jù)權(quán)利要求13所述的語音合成設(shè)備,其中所述操縱預(yù)測器被構(gòu)造為基于所述操縱位置從預(yù)測起始位置移動到預(yù)測執(zhí)行位置所花費的時間長度來預(yù)測所述指令時間點。
15.根據(jù)權(quán)利要求14所述的語音合成設(shè)備,其中所述操縱預(yù)測器被構(gòu)造為根據(jù)所述第一音素的類型來可變地設(shè)定所述預(yù)測執(zhí)行位置。
16.根據(jù)權(quán)利要求12所述的語音合成設(shè)備,其中所述語音合成器被構(gòu)造為生成用于發(fā)出這樣的合成單位的聲音的語音信號:在正朝向所述基準位置移動的所述操縱位置經(jīng)過發(fā)聲起始位置時的時間點處,所述合成單位在端部側(cè)具有所述第一音素。
17.根據(jù)權(quán)利要求16所述的語音合成設(shè)備,其中所述語音合成器被構(gòu)造為根據(jù)所述第一音素的類型來可變地設(shè)定所述發(fā)聲起始位置。
18.根據(jù)權(quán)利要求12所述的語音合成設(shè)備,其中所述語音合成器被構(gòu)造為生成具有這樣音高的語音信號:所述音高與對應(yīng)于不同音高的多個操縱路徑當中的用戶移動所述操縱位置所沿的操縱路徑相對應(yīng)。
19.根據(jù)權(quán)利要求12所述的語音合成設(shè)備,其中所述語音合成器被構(gòu)造為生成這樣的發(fā)聲碼的語音信號:所述發(fā)聲碼與對應(yīng)于不同發(fā)聲碼的多個操縱路徑當中的用戶移動所述操縱位置所沿的操縱路徑相對應(yīng)。
20.根據(jù)權(quán)利要求12所述的語音合成設(shè)備,其中所述語音合成器被構(gòu)造為生成具有與這樣的操縱位置相對應(yīng)的音高的語音信號:所述操縱位置位于與延伸向所述基準位置的所述操縱路徑交叉的方向上的位置處。
21.根據(jù)權(quán)利要求12所述的語音合成設(shè)備,其中所述語音合成器被構(gòu)造為生成具有與這樣的操縱位置相對應(yīng)的音響效果的語音信號:所述操縱位置位于與延伸向所述基準位置的所述操縱路徑交叉的方向上的位置處。
22.根據(jù)權(quán)利要求12所述的語音合成設(shè)備,其中,響應(yīng)于用以生成其中第二音素跟隨第一音素的語音和其中第四音素跟隨第三音素的語音的指令,所述語音合成器被構(gòu)造為生成: 語音信號,其中使得在作為在第一方向上沿著所述操縱路徑移動的結(jié)果而使所述操縱位置到達第一基準位置之前開始所述第一音素的發(fā)聲,并且在所述操縱位置到達所述第一基準位置時進行從所述第一音素至所述第二音素的發(fā)聲;以及 語音信號,其中使得在作為在與所述第一方向相反的第二方向上沿著所述操縱路徑移動的結(jié)果而使所述操縱位置到達第二基準位置之前開始所述第三音素的聲音的發(fā)聲,并且在所述操縱位置到達所述第二基準位置時進行從所述第三音素至所述第四音素的發(fā)聲。
23.一種計算機可讀記錄介質(zhì),其記錄用于使計算機執(zhí)行權(quán)利要求1所述的語音合成方法的程序。
【文檔編號】G10L13/02GK104021783SQ201410061929
【公開日】2014年9月3日 申請日期:2014年2月24日 優(yōu)先權(quán)日:2013年2月22日
【發(fā)明者】久湊裕司 申請人:雅馬哈株式會社