專利名稱:聲音合成裝置、聲音合成方法以及程序的制作方法
技術(shù)領(lǐng)域:
(關(guān)聯(lián)申請)本申請要求在先日本專利申請2007_039622號(2007 年2月20日提交)的優(yōu)先權(quán),上述在先申請的所有記載內(nèi)容通過引用而 被編入記載在本申請中。
本發(fā)明涉及聲音合成技術(shù),特別是涉及用于從文本合成聲音的聲音合 成裝置、聲音合成方法以及程序。
背景技術(shù):
以往,開發(fā)了各種解析文本句子(亍年7卜文)并通過規(guī)則合成從該 句子所表示的聲音信息生成合成聲音的聲音合成裝置。
圖9是表示一般的規(guī)則合成型聲音合成裝置的一個例子的結(jié)構(gòu)的圖。 具有該結(jié)構(gòu)的聲音合成裝置的結(jié)構(gòu)和動作的詳細(xì)情況例如可以參照非專利 文獻1 3和專利文獻1、 2的記載。
參照圖9可知,該聲音合成裝置具有語言處理部10、韻律生成部 11、片段(素片)選擇部16、聲音片段信息存儲部15、韻律控制部18、 以及波形連接部19。
聲音片段信息存儲部15具有存儲被分割成聲音合成單位的原聲音波 形(以下稱為"聲音片段")的聲音片段存儲部152、以及存儲各聲音片 段的屬性信息的附屬信息存儲部151。
這里,原聲音波形是為了生成合成聲音而預(yù)先收集的自然聲音波形。
聲音片段的屬性信息是指各聲音片段被發(fā)聲的音素環(huán)境、基音頻率、 振幅、持續(xù)時間信息等音韻信息和韻律信息。
在圖9的聲音合成裝置中,聲音合成單位多使用音素、CV、 CVC、 VCV (V為元音,C為輔音)等。聲音片段的長度、合成單位的詳細(xì)情況 記載在非專利文獻1和3中。語言處理部10對輸入的文本句子進行語素解析、句法結(jié)構(gòu)解析、讀 音等分析,將音素符號等表示"讀法"的符號串、語素的詞性、變形、重 音類型等作為語言處理結(jié)果輸出給韻律生成部11和片段選擇部16。
韻律生成部ll根據(jù)從語言處理部IO輸出的語言處理結(jié)果來生成合成 聲音的韻律信息(與基音、時間長度、能量等相關(guān)的信息),并將生成的
韻律信息輸出給片段選擇部16和韻律控制部18。
片段選擇部16從聲音片段信息存儲部15所存儲的聲音片段中選擇出 與語言處理結(jié)果和所生成的韻律信息相關(guān)的適合度高的聲音片段,并與所 選擇的聲音片段的附屬信息一起輸出給韻律控制部18。
韻律控制部18從所選擇的聲音片段生成具有由韻律生成部11生成的 韻律的波形并輸出給波形連接部19。
波形連接部19連接從韻律控制部18輸出的聲音片段并作為合成聲音 輸出。
片段選擇部16基于輸入的語言處理結(jié)果和韻律信息,對每一預(yù)定的 合成單位求出表示目標(biāo)合成聲音的特征的信息(稱為"目標(biāo)片段環(huán) 境")。
作為目標(biāo)片段環(huán)境所包含的信息,可以列舉出該*先前*后續(xù)的各 音素名稱、有無重讀(stress)、到重音中心(accent nuclear)的距離、合 成單位的代表點 起始點 終點處的基音頻率和能量、單位的持續(xù)時間長 度。
然后,當(dāng)給出了目標(biāo)片段環(huán)境后,片段選擇部16從聲音片段信息存 儲部15中選擇出與根據(jù)目標(biāo)片段環(huán)境指定的特定的信息(主要是該音 素)相符的多個聲音片段。被選擇的聲音片段成為合成所使用的聲音片段 的候選。
片段選擇部16對被選擇的候選片段計算"成本",該"成本"是表 示作為合成所使用的聲音片段的適合度的指標(biāo)。由于以生成高音質(zhì)的合成 聲音為目標(biāo),因此如果成本小、即適合度高,則合成聲音的音質(zhì)變高。因 此,成本可以說是用于推定合成聲音的音質(zhì)的劣化度的指標(biāo)。
由片段選擇部16計算的成本包括單位成本和連接成本。單位成本表示通過在目標(biāo)片段環(huán)境下使用候選片段而產(chǎn)生的推定音質(zhì) 劣化度,根據(jù)候選片段的片段環(huán)境與目標(biāo)片段環(huán)境的類似度來計算。
另一方面,連接成本表示由于連接的聲音片段之間的片段環(huán)境不連續(xù) 而產(chǎn)生的推定音質(zhì)劣化度,根據(jù)相鄰候選片段之間的片段環(huán)境的親和度來 計算。
到現(xiàn)在為止提出了各種單位成本和連接成本的計算方法。 一般來說,單位成本的計算使用目標(biāo)片段環(huán)境所包含的信息。 連接成本使用片段的連接邊界處的基音頻率、倒譜、能量、以及它們 的A量(每單位時間的變化量)。
片段選擇部16在針對每一片段計算出連接成本和單位成本后,對各 合成單位唯一地求出連接成本和單位成本這兩者為最小的聲音片段。
通過成本最小化求出的片段作為最適合聲音合成的片段而被從候選片 段中選出,因此稱為"最適合片段"。
片段選擇部16在將所有合成單位作為對象而求出了各自的最適合片 段后,最終將最適合片段的系列(最適合片段系列)作為片段選擇結(jié)果輸
出給韻律控制部18。
在片段選擇部16中如上所述那樣選擇單位成本小的聲音片段、即具 有接近目標(biāo)韻律(目標(biāo)片段環(huán)境所包含的韻律信息)的韻律的聲音片段, 但是選擇具有與目標(biāo)韻律相同的韻律的聲音片段的情況非常少。
因此, 一般來說,在選擇了片段后,在韻律控制部18中對聲音片段 波形進行處理,修正成使聲音片段的韻律與目標(biāo)韻律相一致。
作為修正聲音片段的韻律的代表性的方法,例如有非專利文獻4所記 載的PSOLA (pitch-synchronous-overlap-add,基音同步疊加)方式。
但是,韻律的修正處理是導(dǎo)致合成聲音音質(zhì)下降的主要因素。特別是 基音頻率的變化對音質(zhì)下降的影響大,因此如果變化量大的話,則音質(zhì)下 降程度變大。
針對這樣的問題,正在開發(fā)通過盡可能小的韻律變化量來合成的方 式。例如,如非專利文獻5和6那樣提出了準(zhǔn)備數(shù)量龐大的聲音片段、并 且完全不對聲音片段的韻律進行修正的方式。在這樣的方式中,由于片段的數(shù)量龐大,因此對于某輸入文本,會選
擇與目標(biāo)韻律的類似度非常高的聲音片段,即使不對韻律進行修正,也會 生成具有自然的韻律的合成聲音。
但是,難以始終生成具有自然的韻律的合成聲音,另外還存在著要求 龐大的存儲容量等問題。
另外,在非專利文獻7中,采用了對基音頻率的變化量設(shè)定上限值或 者收錄具有各種基音頻率的片段等方法。
專利文獻1:日本專利文獻特開2005—91551號公報; 專利文獻2:日本專利文獻特開2006_84854號公報; 非專禾U文獻 1 : Huang , Acero , Hon :" Spoken Language
Processing" , Prentice Hall, pp. 689 —836, 2001;
非專利文獻2:石川"音聲合成(Dt^O韻律制御CD基礎(chǔ)",電子
信息通信學(xué)會技術(shù)研究報告,Vol.lOO, No.392, pp.27—34, 2000;
非專利文獻3:阿部"音聲合成Ot^O合成単位(D基礎(chǔ)",電子
信息通信學(xué)會技術(shù)研究報告,Vol.lOO, No.392, pp.35—42, 2000;
非專禾U文獻 4 : Moulines , Charapentier : " Pitch — Synchronous Waveform Processing Techniques For Text — To — Speech Synthesis Using Diphones" , Speech Communication 9 , pp.453—467, 1990;
非專利文獻5: Segi, Takagi, Ito: "A CONCATENATIVE SPEECH SYNTHESIS METHOD USING CONTEXT DEPENDENT PHONEME SEQUENCES WITH VARIABLE LENGTH AS SEARCH UMTS ", Proceedings of 5th ISCA Speech Synthesis Work Shop, pp. 115 — 120, 2004;
非專利文獻6: Kawai, Toda, Ni, Tsuzaki, Tokuda: "A NEW TTS FROM ATR BASED ON CORPUS _ BASED TECHNOLOGIES ", Proceedings of 5th ISCA Speech Synthesis Work Shop, pp. 179 — 184, 2004;
非專利文獻7:小山、吉岡、高橋、中村"t。、;/于変更幅全抑免t
VCV波形素片生成機構(gòu)全to高品質(zhì)波形規(guī)則合成方式",電子信息通信學(xué)會論文志,D—II, Vol.J83—D—II, No.ll, pp.2264—2275, 2000。
發(fā)明內(nèi)容
發(fā)明所要解決的問題
上述專利文獻1、 2和非專利文獻1至7的所有公開內(nèi)容通過引用而被 編入記載在本申請文件中。以下,對本發(fā)明的相關(guān)技術(shù)進行分析。 上述非專利文獻7等所記載的聲音合成裝置具有以下問題。 合成聲音的音質(zhì)容易變得不均勻。
在如非專利文獻7那樣通過進行韻律控制來提高合成聲音的韻律的自 然性的方式中,為了減小伴隨著韻律控制而產(chǎn)生的音質(zhì)劣化, 一直采取選 擇具有與目標(biāo)韻律的類似度高的韻律的聲音片段、即選擇要求的韻律變化 量小的聲音片段的方針。因此,在同一句子內(nèi)(最適合片段系列內(nèi))產(chǎn)生 了某些聲音片段的韻律與目標(biāo)韻律的類似度高、其他聲音片段的韻律與目 標(biāo)韻律的類似度低等狀態(tài),即產(chǎn)生了韻律類似度不同的聲音片段混雜在一 起的狀態(tài)。
關(guān)于該狀況,將韻律信息限定于基本頻率并使用圖IO來進行說明。 圖IO是為了說明以上問題而由本發(fā)明的發(fā)明人等制作的。
圖10的(a)是表示目標(biāo)片段環(huán)境和候選片段的基音圖案(pitch pattern)(基本頻率的大致形狀)的例子的圖。在圖10的(a)中,粗的 實線表示目標(biāo)基音圖案,ul到u7的細(xì)的實線表示各候選片段的基音圖 案,Tl到T5表示合成單位的邊界時刻。
在相關(guān)技術(shù)中,在各合成單位區(qū)間中最接近目標(biāo)基音圖案的候選片段 被選擇作為最適合片段系列,在圖10的(a)的例子中,ul、 u2、 u3、 u4、 u5被選擇為最適合片段系列。
在圖10的(b)中,針對各個合成單位區(qū)域的每一個表示了選擇了 ul 到u5時的韻律變化量(這里即基本頻率的變化量)。
由于目標(biāo)基音圖案和候選片段基音圖案的差為韻律變化量,因此變?yōu)?如圖10的(b)所示那樣。如圖10的(b)所示,可知從T0到T5,韻律 變化量不一致。如果像這樣在同一句子內(nèi)韻律變化量不一致,則會導(dǎo)致合成聲音的音 質(zhì)的不均勻感(某些部分為高音質(zhì),某些部分為低音質(zhì))。
該音質(zhì)的不均勻性是損害對合成聲音的綜合印象的原因。特別是如果 音質(zhì)的不均勻性大,則對于合成聲音的印象比始終為同等的低音質(zhì)時更差。
因此,本發(fā)明是鑒于上述問題而完成的,其主要目的在于提供一種消 除了合成聲音的音質(zhì)的不均勻感的裝置、方法以及程序。 用于解決問題的手段
本發(fā)明的第一方面的聲音合成裝置具有從候選片段中選擇適合目標(biāo)片 段環(huán)境的片段的片段選擇部,所述片段選擇部將具有以下韻律變化量的片 段從所述選擇的對象中排除,所述韻律變化量與根據(jù)所述候選片段的韻律 變化量確定的選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。在本發(fā)明 中,所述片段選擇部具有韻律變化量計算部,根據(jù)所述目標(biāo)片段環(huán)境和 所述候選片段的韻律信息來計算各候選片段的韻律變化量;選擇基準(zhǔn)計算 部,根據(jù)所述韻律變化量來計算選擇基準(zhǔn);候選選擇部,根據(jù)所述韻律變 化量和所述選擇基準(zhǔn)來進行選擇候選的縮選;以及最適合片段檢索部,從 所述被縮選出的候選片段中檢索最適合片段。
根據(jù)上述第一發(fā)明,計算候選片段的韻律變化量,并根據(jù)從該韻律變 化量求出的選擇基準(zhǔn)將選擇基準(zhǔn)與韻律變化量之間的大小關(guān)系為預(yù)先確定 的預(yù)定關(guān)系(例如相對地韻律變化量特別地小)的聲音片段從候選中排 除,由此來減小被選擇的可能性高的聲音片段的韻律變化量的離散程度。 結(jié)果,韻律變化量被均勻化,因此使得由于韻律控制而產(chǎn)生的音質(zhì)下降的 程度均勻化,從而能夠消除音質(zhì)的不均勻感。
本發(fā)明的第二方面的聲音合成裝置具有從候選片段中選擇適合目標(biāo)片 段環(huán)境的片段的片段選擇部,所述片段選擇部具有最適合片段檢索部, 根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來檢索最適合片段;韻 律變化量計算部,根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計 算各候選片段的韻律變化量;選擇基準(zhǔn)計算部,根據(jù)所述韻律變化量來計 算選擇基準(zhǔn);以及判斷部,當(dāng)所述最適合片段中存在具有以下韻律變化量的片段時判斷為需要再執(zhí)行最適合片段的檢索,所述韻律變化量與所述選
擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系;在所述判斷部判斷為需要 再執(zhí)行最適合片段的檢索的情況下,所述最適合片段檢索部執(zhí)行最適合片 段的再檢索。
在本發(fā)明中,所述韻律變化量計算部僅將所述最適合片段作為對象來 計算韻律變化量。
在本發(fā)明中,所述最適合片段檢索部將不滿足所述選擇基準(zhǔn)的片段從 候選中排除并執(zhí)行最適合片段的再檢索。
本發(fā)明的第三方面的聲音合成裝置具有從候選片段中選擇適合目標(biāo)片 段環(huán)境的片段的片段選擇部,所述片段選擇部具有韻律變化量計算部, 根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各候選片段的韻 律變化量;選擇基準(zhǔn)計算部,根據(jù)所述韻律變化量來計算選擇基準(zhǔn);單位 成本計算部,根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來計算各
候選片段的單位成本;以及最適合片段檢索部,根據(jù)所述單位成本來從所 述候選片段中檢索最適合片段;所述單位成本計算部對具有以下韻律變化 量的片段的單位成本賦予罰分,所述韻律變化量與所述選擇基準(zhǔn)之間的大 小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
在本發(fā)明中,所述單位成本計算部根據(jù)所述韻律變化量與所述選擇基 準(zhǔn)之間的相對關(guān)系來決定所述罰分。
在本發(fā)明中,所述選擇基準(zhǔn)計算部根據(jù)所述韻律變化量的平均值來確 定選擇基準(zhǔn)。
在本發(fā)明中,所述選擇基準(zhǔn)計算部根據(jù)將所述韻律變化量在時間方向 上平滑化而得到的值來確定選擇基準(zhǔn)。
本發(fā)明的聲音合成方法具有從候選片段中選擇適合目標(biāo)片段環(huán)境的片 段的步驟,在所述選擇片段的步驟中,將具有以下韻律變化量的片段從選 擇對象中排除,所述韻律變化量與根據(jù)候選片段的韻律變化量確定的選擇 基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
本發(fā)明的其他方面的方法具有從候選片段中選擇適合目標(biāo)片段環(huán)境的 片段的步驟,所述選擇片段的步驟包括以下步驟根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各候選片段的韻律變化量;根據(jù)所述韻
律變化量來計算選擇基準(zhǔn);根據(jù)所述韻律變化量和所述選擇基準(zhǔn)來進行選 擇候選的縮選;以及從所述被縮選出的候選片段中檢索最適合片段;在所 述進行候選選擇的縮選的步驟中,將具有以下韻律變化量的片段從最適合 片段的檢索對象中排除,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系 為預(yù)先確定的預(yù)定關(guān)系。
在本發(fā)明中,所述計算選擇基準(zhǔn)的步驟包括以下步驟根據(jù)所述目標(biāo) 片段環(huán)境和所述候選片段的片段環(huán)境來計算各候選片段的成本,在所述計 算選擇基準(zhǔn)的步驟中,根據(jù)所述成本來計算所述選擇基準(zhǔn)。
本發(fā)明的其他方面的方法具有從候選片段中選擇適合目標(biāo)片段環(huán)境的 片段的片段選擇部,所述選擇片段的步驟包括以下步驟根據(jù)所述目標(biāo)片
段環(huán)境和所述候選片段的片段環(huán)境來檢索最適合片段;根據(jù)所述目標(biāo)片段 環(huán)境和所述候選片段的韻律信息來計算各候選片段的韻律變化量;根據(jù)所 述韻律變化量來計算選擇基準(zhǔn);以及當(dāng)所述最適合片段中存在具有以下韻 律變化量的片段時判斷為需要再執(zhí)行最適合片段檢索,所述韻律變化量與 所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系;當(dāng)在所述進行判斷 的步驟中判斷為需要再執(zhí)行最適合片段檢索時,在所述檢索最適合片段的 步驟中執(zhí)行最適合片段的再檢索。
在本發(fā)明中,在所述計算韻律變化量的步驟中,僅將所述最適合片段 作為對象來計算韻律變化量。
在本發(fā)明中,在所述檢索最適合片段的步驟中,將不滿足所述選擇基 準(zhǔn)的片段從候選中排除并執(zhí)行最適合片段的再檢索。
本發(fā)明的其他方面的方法具有從候選片段中選擇適合目標(biāo)片段環(huán)境的 片段的步驟,所述選擇片段的步驟包括根據(jù)所述目標(biāo)片段環(huán)境和所述候 選片段的韻律信息來計算各候選片段的韻律變化量;根據(jù)所述韻律變化量 來計算選擇基準(zhǔn);根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來計 算各候選片段的單位成本;以及根據(jù)所述單位成本來從所述候選片段中檢 索最適合片段;在所述計算單位成本的步驟中,對具有以下韻律變化量的 片段的單位成本賦予罰分,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
在本發(fā)明中,在所述計算單位成本的步驟中,根據(jù)所述韻律變化量與 所述選擇基準(zhǔn)之間的相對關(guān)系來決定所述罰分。
在本發(fā)明中,在所述計算選擇基準(zhǔn)的步驟中,根據(jù)所述韻律變化量的 平均值來確定選擇基準(zhǔn)。
在本發(fā)明中,在所述計算選擇基準(zhǔn)的步驟中,根據(jù)將所述韻律變化量 在時間方向上平滑化而得到的值來確定選擇基準(zhǔn)。
本發(fā)明的其他方面的計算機程序使構(gòu)成聲音合成裝置的計算機執(zhí)行從 候選片段中選擇適合目標(biāo)片段環(huán)境的片段的處理,所述選擇片段的處理包 括以下處理將具有以下韻律變化量的片段從選擇對象中排除,所述韻律 變化量與根據(jù)候選片段的韻律變化量確定的選擇基準(zhǔn)之間的大小關(guān)系為預(yù) 先確定的預(yù)定關(guān)系。
本發(fā)明的其他方面的計算機程序使構(gòu)成聲音合成裝置的計算機執(zhí)行從 候選片段中選擇適合目標(biāo)片段環(huán)境的片段的處理,所述選擇片段的處理包 括以下處理根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各 候選片段的韻律變化量;根據(jù)所述韻律變化量來計算選擇基準(zhǔn);根據(jù)所述 韻律變化量和所述選擇基準(zhǔn)來進行選擇候選的縮選;以及從所述被縮選出 的候選片段中檢索最適合片段;所述進行選擇候選的縮選的處理包括以下 處理將具有以下韻律變化量的片段從最適合片段的檢索對象中排除,所
述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
在本發(fā)明的計算機程序中,所述計算選擇基準(zhǔn)的處理包括以下處理 根據(jù)目標(biāo)片段環(huán)境和候選片段的片段環(huán)境來計算各候選片段的成本,并且 包括根據(jù)所述成本來計算所述選擇基準(zhǔn)的處理。
本發(fā)明的其他方面的計算機程序使構(gòu)成聲音合成裝置的計算機執(zhí)行從 候選片段中選擇適合目標(biāo)片段環(huán)境的片段的處理,所述選擇片段的處理包 括以下處理根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來檢索最 適合片段;根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各候 選片段的韻律變化量;根據(jù)所述韻律變化量來計算選擇基準(zhǔn);以及當(dāng)所述 最適合片段中存在具有以下韻律變化量的片段時判斷為需要再執(zhí)行最適合片段檢索,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的
預(yù)定關(guān)系;當(dāng)在所述進行判斷的處理中判斷為需要再執(zhí)行最適合片段檢索
時,所述檢索最適合片段的處理包括執(zhí)行最適合片段的再檢索的處理。 在本發(fā)明的計算機程序中,所述計算韻律變化量的處理包括以下處
理僅將所述最適合片段作為對象來計算韻律變化量。
在本發(fā)明的計算機程序中,所述檢索最適合片段的處理包括以下處 理將不滿足所述選擇基準(zhǔn)的片段從候選中排除并執(zhí)行最適合片段的再檢 索。
本發(fā)明的其他方面的計算機程序使構(gòu)成聲音合成裝置的計算機執(zhí)行從 候選片段中選擇適合目標(biāo)片段環(huán)境的片段的處理,所述選擇片段的處理包 括以下處理根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各
候選片段的韻律變化量;根據(jù)所述韻律變化量來計算選擇基準(zhǔn);根據(jù)所述 目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來計算各候選片段的單位成本; 以及根據(jù)所述單位成本來從候選片段中檢索最適合片段;所述計算單位成
本的處理包括以下處理對具有以下韻律變化量的片段的單位成本賦予罰
分,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān) 系。
在本發(fā)明的計算機程序中,所述計算單位成本的處理包括以下處理 根據(jù)所述韻律變化量與所述選擇基準(zhǔn)之間的相對關(guān)系來決定所述罰分。
在本發(fā)明的計算機程序中,所述計算選擇基準(zhǔn)的處理包括以下處理 根據(jù)所述韻律變化量的平均值來確定選擇基準(zhǔn)。
在本發(fā)明的計算機程序中,所述計算選擇基準(zhǔn)的處理包括以下處理 根據(jù)將所述韻律變化量在時間方向上平滑化而得到的值來確定選擇基準(zhǔn)。
發(fā)明的效果
根據(jù)本發(fā)明,由于在片段選擇部中按照使韻律變化量變得均勻的方式 來選擇聲音片段,因此由于韻律控制而產(chǎn)生的音質(zhì)下降的程度被均勻化, 消除了音質(zhì)的不均勻感。
圖1是表示本發(fā)明的實施例一的結(jié)構(gòu)的圖2是用于說明本發(fā)明的實施例一的動作的流程圖3是表示本發(fā)明的第二實施例的結(jié)構(gòu)的圖4是用于說明本發(fā)明的第二實施例的動作的流程圖5是表示本發(fā)明的第三實施例的結(jié)構(gòu)的圖6是用于說明本發(fā)明的第三實施例的動作的流程圖7是圖5所示的單位成本修正部所使用的非線性函數(shù)的圖;
圖8是圖5所示的單位成本修正部所使用的非線性函數(shù)的圖;
圖9是表示一般的聲音合成裝置的一個構(gòu)成例子的框圖IO是用于說明相關(guān)技術(shù)的問題和解決方案的圖。
標(biāo)號說明
10語言處理部
11韻律生成部
12單位成本計算部
13連接成本計算部
14最適合片段檢索部
15聲音片段信息存儲部
151附屬信息存儲部
152聲音片段存儲部
16、 161、 162、 163片段選擇部
17波形生成部
18韻律控制部
19波形連接部
20、 31韻律變化量計算部
21、 32選擇基準(zhǔn)計算部
22、 30候選選擇部 33判斷部
40單位成本修正部
具體實施例方式
說明本發(fā)明的原理。在本發(fā)明中,按照使韻律變化量變得均勻的方式 來選擇聲音片段。即,計算候選片段的韻律變化量,根據(jù)從該韻律變化量 求出的選擇基準(zhǔn)將相對地韻律變化量特別小的聲音片段從候選中排除,由 此使被選擇的可能性高的聲音片段的韻律變化量的離散程度小。由此,實 現(xiàn)了韻律變化量的均勻化,能夠使由于韻律控制而產(chǎn)生的音質(zhì)下降的程度
均勻化,消除了音質(zhì)的不均勻感。例如,在將本發(fā)明應(yīng)用于圖10的(a) 所示的例子的情況下,在T1 T2的區(qū)間內(nèi),u6代替u2被選擇,在T3 T4的區(qū)間內(nèi),u7代替u4被選擇,因此如圖10的(c)所示那樣韻律變化 量被均勻化。以下,基于實施例來進行說明。 <實施例一〉
圖1是表示本發(fā)明的第一實施例的結(jié)構(gòu)的圖。圖2是用于說明本發(fā)明 的第一實施例的動作的流程圖。
參照圖1可知,本發(fā)明的第一實施例中的片段選擇部與表示相關(guān)技術(shù) 的結(jié)構(gòu)的圖9不同。即,圖9中的片段選擇部16被置換為圖l中的片段選 擇部161。在本發(fā)明的第一實施例中,除此以外的結(jié)構(gòu)與圖9相同。以 下,以不同點為中心來進行說明,為了避免重復(fù),適當(dāng)?shù)厥÷詫ν徊糠?的說明。
參照圖l可知,在本實施例中,片段選擇部161具有單位成本計算部 12、連接成本計算部13、最適合片段檢索部14、韻律變化量計算部20、 選擇基準(zhǔn)計算部21、以及候選選擇部22。
單位成本計算部12根據(jù)從語言處理部10提供的語言處理結(jié)果和從韻 律生成部11提供的韻律信息,針對每一合成單位來生成目標(biāo)片段環(huán)境 (圖2的步驟A1)。
在本實施例中,假定目標(biāo)片段環(huán)境包括該,先前"后續(xù)的各音素名 稱、到重音中心的距離、合成單位的代表點處的基音頻率和能量、單位的 持續(xù)時間長度。
然后,單位成本計算部12從聲音片段信息存儲部15中將與通過目標(biāo) 片段環(huán)境指定的特定信息相符的多個聲音片段選擇作為候選片段(圖2的步驟A2)。作為選擇候選片段時使用的信息,相符片段的信息是代表性 的,但是使用與先前音素和后續(xù)音素相關(guān)的信息來縮選候選的方法也是有 效的。
然后,單位成本計算部12根據(jù)從聲音片段信息存儲部15提供的候選
片段的片段環(huán)境和目標(biāo)片段環(huán)境來計算各個候選片段的單位成本并輸出給
韻律變化量計算部20和候選選擇部22 (步驟A3)。
韻律變化量計算部20根據(jù)從韻律生成部11提供的韻律信息、從單位 成本計算部12提供的各候選片段的單位成本、從聲音片段信息存儲部15 提供的各候選片段的屬性信息來計算各個候選片段的韻律變化量并傳送給 選擇基準(zhǔn)計算部21和候選選擇部22 (步驟A4)。
韻律變化量被定義為韻律控制部18中的聲音片段的韻律的變化量, 實際上根據(jù)基音頻率、持續(xù)時間長度、以及能量的變化量來計算。
由于能量的變化對音質(zhì)的影響小,因此在本實施例中不處理能量的變 化量,可以與基音頻率、持續(xù)時間長度同樣地來進行處理。
當(dāng)基音頻率的變化量為Af、持續(xù)時間長度的變化量為At時,韻律變 化量Ap通過下式(1)的加權(quán)和來定義。Ap=a Af+P At …(1)
其中,a和P為加權(quán)系數(shù)。
由于基音頻率對音質(zhì)的影響更大,因此多采用a〉P。 式(1)在基音頻率、持續(xù)時間長度等的變化量通過差來定義的情況 下有效。
此外,通過對Af和At的對數(shù)進行加權(quán)相加的下式(2)來求出Ap的 方法也是有效的。
Ap=al0g (Af) +Plog (At)…(2)
式(2)特別是在通過比率而不是通過差來定義基音頻率等的變化量 時有效。
在對持續(xù)時間長度的變化量的計算中,根據(jù)變化前和變化后的時間長 度的比和差來進行計算。
當(dāng)變化前和變化后的持續(xù)時間長度分別為t和T時,持續(xù)時間長度的變化量在根據(jù)比來進行計算時通過下式(3)或(4)來定義。 △ t=^ …(3)
log
、7乂
(4)
在使用了 t和T的差的情況下,At例如被定義為下式(5)或(6)的
距離空間。
△ t= (t一T) 2 …(5)
At叫卜" ...(6)
基音頻率的變化量也與持續(xù)時間長度同樣地根據(jù)變化前和變化后的基 音頻率的比率或差來計算。
但是,與持續(xù)時間長度的情況不同,由于基音頻率在各單位的例如起
始點 中點 終點這三點的值不同的情況較多,因此在使用多處的值來進
行計算的情況下能夠以更高的精度計算出基音頻率的變化量。
在使用N點的基音頻率來計算基音頻率的變化量的情況下,基音頻率
的變化量Af通過下式(7)或(8)給出。
△ f=flA …(7)
△f=IX(/「... (8)
其中,fk和Fk分別表示變化前的基音頻率和變化后的基音頻率,Wk 表示權(quán)重系數(shù)。
式(7)是變化量使用比率時的定義,式(8)是變化量使用差時的定義。
在式(7)中,將k=0 N—l時的各個比(fk/Fk)相乘而得到的值作 為Af。在根據(jù)比來計算的情況下,也可以使用對數(shù)。S口,在式(7)中, 將fk/Fk置換為log (fk/Fk)。
在使用起始點 中點 終點的情況下,N=3。N越大,越能高精度地計算出基音頻率的變化量,但是計算變化量所 需要的計算量增多。
如果利用各點的基音頻率的梯度,則與單純地增大N的值的情況相 比,能夠通過少的計算量來進行高精度的計算。
有時也可以通過計算單位成本時獲得的中間值來近似通過以上定義給 出的韻律變化量。即使在希望犧牲近似精度來減少計算量的情況下,不計 算韻律變化量而是代之以使用單位成本或者在其計算中途獲得的值的方法 也是有效的。
在選擇基準(zhǔn)計算部21中,使用最終被選擇作為最適合片段的可能性
高、即單位成本低的候選片段的韻律變化量來計算選擇基準(zhǔn)。
因此,在韻律變化量計算部20中,如果僅將單位成本低的候選片段 作為對象來計算韻律變化量的話,則與將所有候選片段作為對象的情況相 比,也能夠減少韻律變化量的計算量。
選擇基準(zhǔn)計算部21根據(jù)從韻律變化量計算部20提供的各候選片段的 韻律變化量來計算為了縮選候選片段而需要的候選選擇基準(zhǔn)并提供給候選 選擇部22 (步驟A5)。
候選選擇部22的主要的目的在于最終從被選擇作為最適合片段 (也稱為"最適合聲音片段")的可能性高的候選片段中,將韻律變化量 顯著地比其他片段小的片段從候選中排除。
因此,基本上來說將各合成單位的優(yōu)良候選片段(單位成本低的片 段)的韻律變化量作為主要的分析對象來進行分析并計算出選擇基準(zhǔn)。
考慮選擇基準(zhǔn)值采用所有合成單位所通用的值的情況和采用針對每一 合成單位逐次計算出的值的情況。另外,有時也采用重音句或換氣單位這 樣的某特定的范圍所通用的值的情況。
選擇基準(zhǔn)的基本的計算步驟如下。首先,針對每一合成單位挑選分析對象,求出代表值。 然后,使用各合成單位的代表值來計算基準(zhǔn)值。
不挑選分析對象而求出代表值的方法、不求出代表值而計算基準(zhǔn)值的 方法也是有效的。
分別更加詳細(xì)地說明在本實施例中使用的分析對象的挑選、代表值的 計算、以及選擇基準(zhǔn)值的計算。 <分析對象的挑選〉
有多種挑選在計算選擇基準(zhǔn)值時使用的韻律變化量的對象的方法、即 挑選分析對象的方法。
最簡單并有效的方法是將各合成單位的最佳候選片段(單位成本最低 的片段)的韻律變化量作為分析對象的方法。
在該情況下,由于分析對象對于各合成單位為一個,因此該方法同時 也是求出代表值的方法。
在對各合成單位準(zhǔn)備多個分析對象的情況下, 以單位成本為基準(zhǔn)來挑選分析對象的方法、即將單位成本小于預(yù)定 值的候選片段的韻律變化量作為分析對象的方法、
在各合成單位中將按照單位成本從低到高的順序取的N個(最優(yōu)良 的N個)作為分析對象的方法也是有效的。
當(dāng)然,也可以將所有的候選片段的韻律變化量作為分析對象。
<代表值的計算〉
在計算選擇基準(zhǔn)時求出必要的各合成單位的代表值的方法也同樣有多個。
作為最常用的代表值,有分析對象的平 值、中央值、最佳值等統(tǒng)計 不是從分析對象直接計算代表值、而是通過以根據(jù)單位成本確定的權(quán)重被加權(quán)的分析對象來計算代表值的方法也是有效的。即,通過對單位成 本低的片段的韻律變化量賦予大的權(quán)重,在計算選擇基準(zhǔn)時增大了單位成 本低的片段的影響。與該單位成本相對應(yīng)的權(quán)重不僅對于計算代表值是有 效的,而且對于從多個分析對象計算選擇基準(zhǔn)也是有效的。 <選擇基準(zhǔn)值的計算>
作為選擇基準(zhǔn)值的代表性的計算方法,可以列舉出 ,計算平均值的方法、以及
在時間方向上平滑化的方法。
在使用平均值的情況下,基本上來說將各合成單位的代表值的平均值 作為選擇基準(zhǔn)而計算出來。
在求所有合成單位的共同的選擇基準(zhǔn)的情況下,使用所有的合成單位 的代表值來計算,在針對每一重音句來求選擇基準(zhǔn)的情況下,使用構(gòu)成各 重音句的合成單位的代表值來計算。
另外,也有不計算代表值、而是計算所有的分析對象的平均值的方法。
在使用平滑化的情況下,基本上針對每一合成單位來計算選擇基準(zhǔn)。 由于計算出在時間方向上被平滑化了的值,因此在對于各合成單位來說存 在多個分析對象的情況下,使用首先求出各合成單位的代表值、然后使該 代表值在時間方向上平滑化的方法。
作為代表性的平滑化方法,可以列舉出 移動平均、以及
'一次泄漏積分(leakintegration)等。
這里,在合成單位由K個構(gòu)成的區(qū)間(重音句、換氣單位等)中,當(dāng) 假定第i個合成單位的代表值(例如最佳候選片段的韻律變化量)為Aq (0 、并通過一次泄漏積分進行平滑化來獲得選擇基準(zhǔn)的情況下,第i個合成單位的選擇基準(zhǔn)L (i)通過下式(9)給出。
<formula>formula see original document page 33</formula>
^是滿足0< Y<1的時間常數(shù),并設(shè)定為L(一1) =0。 候選選擇部22根據(jù)從選擇基準(zhǔn)計算部21提供的選擇基準(zhǔn)值、從韻律 變化量計算部20提供的候選片段的韻律變化量、從單位成本計算部12提 供的各候選片段信息及其單位成本來縮選候選片段,并將被再選擇了的候 選片段的信息及其單位成本傳送給連接成本計算部13 (步驟A6)。
基本上來說,在候選選擇部22中,從單位成本低的候選片段中,根 據(jù)選擇基準(zhǔn)將韻律變化量比其他片段小的片段從最適合片段的候選中排 除。
作為最簡單的方法,有將韻律變化量遠(yuǎn)遠(yuǎn)小于選擇基準(zhǔn)的片段作為排 除對象的方法。
艮口,在第i個合成單位中,當(dāng)選擇基準(zhǔn)為L (i)、第j個候選片段的 韻律變化量為Ap (i, j)時,在通過下式(10)或(11)得到的值il小于 閾值0的情況下,該片段被從選擇候選中排除。
<formula>formula see original document page 33</formula>
其中,Wi、 W2為常數(shù)(正的實數(shù))。
在韻律變化量Ap (i, j)根據(jù)差來定義的情況下,式(10)是有效 的,在根據(jù)比率來定義的情況下,式(11)是有效的。
除此之外,根據(jù)選擇基準(zhǔn)和韻律變化量的比率來計算ri的方法等也是
有效的。連接成本計算部13根據(jù)從候選選擇部22提供的候選片段信息和從聲
音片段信息存儲部15提供的各聲音片段的屬性信息來計算各候選片段的
連接成本,并將各候選片段的單位成本和連接成本傳送給最適合片段檢索
部14 (步驟A7)。
各片段的單位成本與候選片段信息一起由候選選擇部22提供,但是 不利用于連接成本的計算。
最適合片段檢索部14根據(jù)從連接成本計算部13提供的候選片段信 息、單位成本以及連接成本,求出單位成本和連接成本的加權(quán)和為最小的 聲音片段系列(最適合片段系列),并傳送給韻律控制部18 (步驟 A8)。
最適合片段系列既可以通過對所有的聲音片段的組合來計算單位成本 和連接成本的加權(quán)和來搜索,也可以通過使用動態(tài)規(guī)劃法來有效地搜索。
在本實施例中,在候選選擇部22中的選擇基準(zhǔn)被預(yù)先決定了的情況 下,或者在從聲音合成裝置的外部輸入的情況下、即在不需要基于韻律變 化量來計算的情況下,不需要選擇基準(zhǔn)計算部21。在該情況下,可以削減 計算選擇基準(zhǔn)所需要的計算量。
根據(jù)本實施例的聲音合成裝置,計算出候選片段的韻律變化量,并根 據(jù)從該韻律變化量求出的選擇基準(zhǔn)將相對地韻律變化量特別小的聲音片段 從候選中排除,由此被選擇的可能性高的聲音片段的韻律變化量的離散程 度變小。
結(jié)果,由于韻律變化量被均勻化,因此使得由于韻律控制而產(chǎn)生音質(zhì) 下降的程度均勻化,從而能夠消除音質(zhì)的不均勻感。 <實施例2〉
圖3是表示本發(fā)明的第二實施例的結(jié)構(gòu)的圖。圖4是用于說明本發(fā)明 的第二實施例的動作的流程圖。比較表示上述實施例1的結(jié)構(gòu)的圖l和圖3可知,本實施例與圖l具有以下不同點。
(A) 候選選擇部22被置換為候選選擇部30。
(B) 韻律變化量計算部20被置換為韻律變化量計算部31 。
(C) 新設(shè)置了判斷部33。
(D) 代替選擇基準(zhǔn)計算部21而設(shè)置了選擇基準(zhǔn)計算部32。
(E) 在圖1中,連接成本計算部13配置在候選選擇部22與最適合 片段檢索部14之間,但是在圖3中,連接成本計算部13配置在單位成本 計算部12與候選選擇部30之間,根據(jù)來自單位成本計算部12的信息(候 選片段的信息和來自聲音片段信息存儲部的各聲音片段的屬性信息)來計 算連接成本。候選選擇部30根據(jù)來自連接成本計算部13的輸出和判斷部 33的判斷結(jié)果來縮選候選。
(F) 另外,在圖1中,最適合片段檢索部14與連接成本計算部13 連接,其輸出與波形生成部17的韻律控制部18連接,但是在圖3中,最 適合片段檢索部14與候選選擇部30連接,其輸出與判斷部33和韻律變化 量計算部31連接。
除此之外,與圖1的上述實施例l相同。以下,以這些不同點為中心 來說明詳細(xì)的動作。
韻律變化量計算部31根據(jù)從最適合片段檢索部14輸出的最適合片 段、從韻律生成部ll提供的韻律信息、以及從聲音片段信息存儲部15提 供的各最適合片段的屬性信息來計算各候選片段的韻律變化量并傳送給選 擇基準(zhǔn)計算部32和判斷部33 (步驟B1)。
在本實施例中,韻律變化量計算部31不是將候選片段、而是僅將最 適合片段作為韻律變化量計算的對象,這一點與上述實施例1的韻律變化 量計算部20不同。
韻律變化量的計算方法使用與上述實施例1的韻律變化量計算部20
35所使用的方法完全相同的方法。
選擇基準(zhǔn)計算部32根據(jù)從韻律變化量計算部31提供的各片段的韻律 變化量來計算為了判斷韻律變化量顯著地小的片段的存在而需要的選擇基 準(zhǔn)值并提供給判斷部33 (步驟B2)。
判斷部33判斷在最適合片段中是否存在韻律變化量比其他片段顯著 地小的片段。
與上述實施例1的選擇基準(zhǔn)計算部21的不同點在于計算選擇基準(zhǔn) 值時所使用的韻律變化量的對象被唯一地決定為最適合片段這一點。
其他的選擇基準(zhǔn)的計算方法等與上述實施例1的選擇基準(zhǔn)計算部21 所使用的方法完全相同。
另外,在本實施例中,在選擇基準(zhǔn)的計算中使用從候選片段中選擇出 的最適合片段的韻律變化量,但是也可以與上述實施例1同樣地使用候選 片段的韻律變化量。在該情況下,選擇基準(zhǔn)計算部32計算出候選片段的 韻律變化量而不是最適合片段的韻律變化量。
判斷部33根據(jù)從最適合片段檢索部14提供的最適合片段、從韻律變 化量計算部31提供的各片段的韻律變化量、以及從選擇基準(zhǔn)計算部32提 供的選擇基準(zhǔn)來判斷是否存在韻律變化量比其他片段顯著地小的片段(步 驟B3)。
并且,判斷部在判斷為存在韻律變化量比其他片段顯著地小的片段的 情況下將韻律變化量顯著地小的片段傳送給候選選擇部30。判斷部33在 判斷為不存在韻律變化量比其他片段顯著地小的片段的情況下將最適合片 段傳送給韻律控制部18。
但是,由于沒有從最適合片段檢索部14提供清除(clear)選擇基準(zhǔn) (判斷為不存在)的最適合片段的保證,因此需要對再檢索次數(shù)設(shè)定上 限。因此,記錄再檢索次數(shù),在再檢索次數(shù)超過了預(yù)定的上限值的情況下 將最適合片段傳送給韻律控制部18 (步驟B4)。
判斷方法與在上述實施例1的候選選擇部22中將片段從選擇候選中
排除的方法相同。即,如果存在韻律變化量遠(yuǎn)遠(yuǎn)小于判斷基準(zhǔn)的片段,則 判斷存在韻律變化量顯著地小的片段。
候選選擇部30從由連接成本計算部13提供的候選片段中,將從判斷 部33提供的片段從候選中排除,并將未被排除的候選片段和它們的單位 成本以及連接成本傳送給最適合片段檢索部14 (步驟B5)。
在未從判斷部33提供的情況下、即在判斷部33動作之前不存在應(yīng)排 除的片段,因此直接將連接成本計算部13的輸出傳送給最適合片段檢索 部14。
根據(jù)本實施例,在選擇了最適合片段后,檢測韻律變化量比其他片段 顯著地小的片段,將檢測出的片段從候選中排除并進行再檢索。
因此,如果以少的再檢索次數(shù)結(jié)束了,則作為韻律變化量計算對象的 片段的數(shù)量比實施例1少。即,能夠通過比實施例1少的計算量來排除韻 律變化量比其他片段小的片段。
<實施例3〉
圖5是表示本發(fā)明的第三實施例的結(jié)構(gòu)的圖。圖6是用于說明本發(fā)明 的第三實施例的動作的流程圖。比較表示上述實施例1的結(jié)構(gòu)的圖l和圖 5可知,圖l的候選選擇部22被置換為單位成本修正部40。除此以外的結(jié)
構(gòu)與圖l相同。
單位成本修正部40根據(jù)從選擇基準(zhǔn)計算部21提供的選擇基準(zhǔn)、從韻 律變化量計算部20提供的候選片段的韻律變化量、從單位成本計算部12 提供的各候選片段信息及其單位成本來修正韻律變化量比其他片段小的候 選片段的單位成本,并將候選片段及其單位成本傳送給連接成本計算部13(步驟C1)。
與實施例1的候選選擇部22的主要的不同點在于由于不是完全從 候選片段中排除,因此在作為候選片段保留的情況下將單位成本與被稱為
"罰分(penalty)"的值相加,使之在最適合片段檢索部14中難以被選擇 作為最適合片段。
在上述實施例1中,如果難以恰當(dāng)?shù)卦O(shè)定候選選擇部22中的閾值9 的值、n的計算式,則無法恰當(dāng)?shù)嘏懦蜻x片段。
特別是如果存在具有雖然與閾值e非常接近、但是不滿足排除基準(zhǔn)的 韻律變化量的候選片段,則可能會被選擇作為最適合片段并對韻律變化量 的均勻化造成不良影響。
如果根據(jù)各片段的韻律變化量和選擇基準(zhǔn)值的差或比率的大小來追加
罰分,則可以期待在實施例l中具有雖然與閾值e非常接近、但是不滿足
排除基準(zhǔn)的韻律變化量的候選片段在本實施例中不被選擇作為最適合片 段。
作為罰分的計算方法,計算各片段的韻律變化量與選擇基準(zhǔn)值的差、
使用圖7所示的非線性函數(shù)并使得該差越大則罰分越大的方法是有效的。 艮P,當(dāng)某片段的修正前單位成本為C (i, j)、韻律變化量為Ap (i, j)、選擇基準(zhǔn)為L (i)時,修正后的單位成本5 (i, j)通過下式(12) 給出。
5 (i, j) =C (i, j) +g (L (i) _Ap (i, j)) …(12) 其中,g ( )是圖7所示的非線性函數(shù),在輸入了 x的情況下,函 數(shù)值g (x)通過下式(13)給出。
<formula>formula see original document page 38</formula>其中,ai、 a2、 b,為正的實數(shù),并且滿足式(14)。 (Xa-a2、 (Xb! …(14)
如果x變大、g (x)不變小(非減小)是上式(12)的非線性函數(shù)g (x)所要求的條件。除了式(13)以外,也可以使用滿足該條件的線性 函數(shù)、高次多項式、含有加權(quán)相加計算的任意的函數(shù)。
使用式(12)的方法在韻律變化量根據(jù)差來定義的情況下有效,在韻 律變化量根據(jù)比率來定義的情況下,根據(jù)各片段的韻律變化量和選擇基準(zhǔn) 值的比率來計算的方法有效。
在使用比率的情況下,當(dāng)某片段的修正前單位成本為C (i, j)、韻 律變化量為Ap (i, j)、選擇基準(zhǔn)為L (i)時,修正后的單位成本5 (i, j)通過下式(15)給出。
5 (i, j)=
C(/,;),A^J)>1.0 .C(U),A^,/^1.0
(15)
其中,h ( )是圖8所示的非線性函數(shù),在輸入了 x的情況下,函 數(shù)值h (x)通過下式(16)給出。
h (x)=
0, x < a3 62(x-"3)
(a4-"3)
Z 2, X ^ fl4
,o3 S x < a4
(16)
其中,a3、 a4、 b2為正的實數(shù),并且滿足式(17)。 0<a3《a4、 1.0<b2 …(17)
h (x)要求與g (x)相同的條件。
在式(12)中,罰分通過和給出,但是在式(15)中罰分通過積給 出。因此,函數(shù)h (x)的下限值為l.O。
根據(jù)本實施例,通過使根據(jù)各片段的韻律變化量與選擇基準(zhǔn)值的差計
39算出的罰分和單位成本相加,使得在最適合片段檢索部14中難以被選擇 作為最適合片段。
因此,即使是實施例l中的具有雖然與閾值e非常接近但是不滿足排
除基準(zhǔn)的韻律變化量、因此被選擇作為最適合片段系列的候選片段,在本 實施例中也不會被選擇作為最適合片段。
結(jié)果,促進了韻律變化量的均勻化,改善了音質(zhì)的不均勻感。
另外,由于不是被從最適合片段的選擇候選中完全排除,因此在實施 例1中成為排除對象的片段根據(jù)其他的選擇基準(zhǔn)而被選擇。
結(jié)果,與被完全排除的情況相比,能夠改善音質(zhì)。
可以在本發(fā)明的所有公開內(nèi)容(包括權(quán)利要求書)的框架內(nèi)根據(jù)其基 本的技術(shù)思想對實施方式或?qū)嵤├M行變更、調(diào)整。另外,可以在本發(fā)明 的權(quán)利要求書的框架內(nèi)對各種公開要素進行多種組合或選擇。即,不言而 喻本發(fā)明包括本領(lǐng)域技術(shù)人員能夠根據(jù)包括權(quán)利要求書在內(nèi)的所有公開內(nèi) 容、技術(shù)思想而實施的各種變形、修正。
權(quán)利要求
1.一種聲音合成裝置,具有從候選片段中選擇適合目標(biāo)片段環(huán)境的片段的片段選擇部,所述聲音合成裝置的特征在于,所述片段選擇部執(zhí)行以下控制將具有以下韻律變化量的片段從所述選擇的對象中排除,所述韻律變化量與根據(jù)所述候選片段的韻律變化量確定的選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
2. 如權(quán)利要求1所述的聲音合成裝置,其特征在于, 所述片段選擇部具有韻律變化量計算部,根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信 息來計算各候選片段的韻律變化量;選擇基準(zhǔn)計算部,根據(jù)所述韻律變化量來計算選擇基準(zhǔn);候選選擇部,根據(jù)所述韻律變化量和所述選擇基準(zhǔn)來進行選擇候選的縮選;以及最適合片段檢索部,從所述被縮選出的候選片段中檢索最適合片段; 所述候選選擇部將具有以下韻律變化量的片段從選擇候選中排除,并 從所述最適合片段檢索部的最適合片段的檢索對象中排除,所述韻律變化 量與所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
3. 如權(quán)利要求2所述的聲音合成裝置,其特征在于, 所述選擇基準(zhǔn)計算部具有成本計算部,所述成本計算部根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來計算各候選片段的成本, 所述選擇基準(zhǔn)計算部根據(jù)所述成本來計算所述選擇基準(zhǔn)。
4. 如權(quán)利要求1所述的聲音合成裝置,其特征在于, 所述片段選擇部具有最適合片段檢索部,根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán) 境來檢索最適合片段;韻律變化量計算部,根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信 息來計算各候選片段的韻律變化量;選擇基準(zhǔn)計算部,根據(jù)所述韻律變化量來計算選擇基準(zhǔn);以及判斷部,當(dāng)所述最適合片段中存在具有以下韻律變化量的片段時判斷 為需要再執(zhí)行最適合片段的檢索,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系;在所述判斷部判斷為需要再執(zhí)行最適合片段的檢索的情況下,所述最 適合片段檢索部執(zhí)行最適合片段的再檢索。
5. 如權(quán)利要求4所述的聲音合成裝置,其特征在于, 所述韻律變化量計算部僅將所述最適合片段作為對象來計算韻律變化
6. 如權(quán)利要求4或5所述的聲音合成裝置,其特征在于, 所述最適合片段檢索部將不滿足所述選擇基準(zhǔn)的片段從候選中排除并執(zhí)行最適合片段的再檢索。
7. 如權(quán)利要求1所述的聲音合成裝置,其特征在于, 所述片段選擇部具有韻律變化量計算部,根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信 息來計算各候選片段的韻律變化量;選擇基準(zhǔn)計算部,根據(jù)所述韻律變化量來計算選擇基準(zhǔn);單位成本計算部,根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境 來計算各候選片段的單位成本;以及最適合片段檢索部,根據(jù)所述單位成本來從所述候選片段中檢索最適 合片段;所述單位成本計算部對具有以下韻律變化量的片段的單位成本賦予罰 分,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān) 系。
8. 如權(quán)利要求7所述的聲音合成裝置,其特征在于, 所述單位成本計算部根據(jù)所述韻律變化量與所述選擇基準(zhǔn)之間的相對關(guān)系來決定所述罰分。
9. 如權(quán)利要求2至8中的任一項所述的聲音合成裝置,其特征在于, 所述選擇基準(zhǔn)計算部根據(jù)所述韻律變化量的平均值來確定所述選擇基準(zhǔn)。
10. 如權(quán)利要求2至8中的任一項所述的聲音合成裝置,其特征在于,所述選擇基準(zhǔn)計算部根據(jù)將所述韻律變化量在時間方向上平滑化而得 到的值來確定所述選擇基準(zhǔn)。
11. 一種聲音合成方法,具有從候選片段中選擇適合目標(biāo)片段環(huán)境的 片段的步驟,所述聲音合成方法的特征在于,在所述選擇片段的步驟中執(zhí)行以下控制將具有以下韻律變化量的片 段從所述選擇的對象中排除,所述韻律變化量與根據(jù)候選片段的韻律變化 量確定的選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
12. 如權(quán)利要求11所述的聲音合成方法,其特征在于,所述選擇片段的步驟包括以下步驟根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各候選片段 的韻律變化量;根據(jù)所述韻律變化量來計算選擇基準(zhǔn);根據(jù)所述韻律變化量和所述選擇基準(zhǔn)來進行選擇候選的縮選;以及 從所述被縮選出的候選片段中檢索最適合片段;在所述進行候選選擇的縮選的步驟中,將具有以下韻律變化量的片段 從選擇候選中排除,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù) 先確定的預(yù)定關(guān)系。
13. 如權(quán)利要求12所述的聲音合成方法,其特征在于, 所述計算選擇基準(zhǔn)的步驟包括以下步驟根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來計算各候選片段的成本,在所述計算選擇基準(zhǔn)的步驟中,根據(jù)所述成本來計算所述選擇基準(zhǔn)。
14. 如權(quán)利要求11所述的聲音合成方法,其特征在于,所述選擇片段的步驟包括以下步驟根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來檢索最適合片段;根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各候選片段 的韻律變化量;根據(jù)所述韻律變化量來計算選擇基準(zhǔn);以及當(dāng)所述最適合片段中存在具有以下韻律變化量的片段時判斷為需要再 執(zhí)行最適合片段檢索,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為 預(yù)先確定的預(yù)定關(guān)系;當(dāng)在所述進行判斷的步驟中判斷為需要再執(zhí)行最適合片段檢索時,在 所述檢索最適合片段的步驟中執(zhí)行最適合片段的再檢索。
15. 如權(quán)利要求14所述的聲音合成方法,其特征在于, 在所述計算韻律變化量的步驟中,僅將所述最適合片段作為對象來計算韻律變化量。
16. 如權(quán)利要求14或15所述的聲音合成方法,其特征在于, 在所述檢索最適合片段的步驟中,將不滿足所述選擇基準(zhǔn)的片段從候選中排除并執(zhí)行最適合片段的再檢索。
17. 如權(quán)利要求11所述的聲音合成方法,其特征在于, 所述選擇片段的步驟包括根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各候選片段 的韻律變化量;根據(jù)所述韻律變化量來計算選擇基準(zhǔn);根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來計算各候選片段的單位成本;以及根據(jù)所述單位成本來從所述候選片段中檢索最適合片段; 在所述計算單位成本的步驟中,對具有以下韻律變化量的片段的單位成本賦予罰分,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
18. 如權(quán)利要求17所述的聲音合成方法,其特征在于, 在所述計算單位成本的步驟中,根據(jù)所述韻律變化量與所述選擇基準(zhǔn)之間的相對關(guān)系來決定所述罰分。
19. 如權(quán)利要求12至18中的任一項所述的聲音合成方法,其特征在于,在所述計算選擇基準(zhǔn)的步驟中,根據(jù)所述韻律變化量的平均值來確定所述選擇基準(zhǔn)。
20. 如權(quán)利要求12至18中的任一項所述的聲音合成方法,其特征在于,在所述計算選擇基準(zhǔn)的步驟中,根據(jù)將所述韻律變化量在時間方向上 平滑化而得到的值來確定所述選擇基準(zhǔn)。
21. —種程序,使構(gòu)成聲音合成裝置的計算機執(zhí)行從候選片段中選擇 適合目標(biāo)片段環(huán)境的片段的處理,所述程序的特征在于,所述選擇片段的處理包括執(zhí)行以下控制的處理將具有以下韻律變化 量的片段從所述選擇的對象中排除,所述韻律變化量與根據(jù)候選片段的韻 律變化量確定的選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
22. 如權(quán)利要求21所述的程序,其特征在于,所述選擇片段的處理包括以下處理根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各候選片段 的韻律變化量;根據(jù)所述韻律變化量來計算選擇基準(zhǔn);根據(jù)所述韻律變化量和所述選擇基準(zhǔn)來進行選擇候選的縮選;以及 從所述被縮選出的候選片段中檢索最適合片段;所述進行選擇候選的縮選的處理包括以下處理將具有以下韻律變化 量的片段從選擇候選中排除,所述韻律變化量與所述選擇基準(zhǔn)之間的大小 關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
23. 如權(quán)利要求22所述的程序,其特征在于,所述計算選擇基準(zhǔn)的處理包括以下處理根據(jù)目標(biāo)片段環(huán)境和候選片 段的片段環(huán)境來計算各候選片段的成本,并且包括根據(jù)所述成本來計算所述選擇基準(zhǔn)的處理。
24. 如權(quán)利要求21所述的程序,其特征在于, 所述選擇片段的處理包括以下處理根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來檢索最適合片段;根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各候選片段的韻律變化量;根據(jù)所述韻律變化量來計算選擇基準(zhǔn);以及當(dāng)所述最適合片段中存在具有以下韻律變化量的片段時判斷為需要再 執(zhí)行最適合片段檢索,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為 預(yù)先確定的預(yù)定關(guān)系;當(dāng)在所述進行判斷的處理中判斷為需要再執(zhí)行最適合片段檢索時,所 述檢索最適合片段的處理包括執(zhí)行最適合片段的再檢索的處理。
25. 如權(quán)利要求24所述的程序,其特征在于,所述計算韻律變化量的處理包括以下處理僅將所述最適合片段作為 對象來計算韻律變化量。
26. 如權(quán)利要求24或25所述的程序,其特征在于,所述檢索最適合片段的處理包括以下處理將不滿足所述選擇基準(zhǔn)的 片段從候選中排除并執(zhí)行最適合片段的再檢索。
27. 如權(quán)利要求21所述的程序,其特征在于,所述選擇片段的處理包括以下處理根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的韻律信息來計算各候選片段 的韻律變化量;根據(jù)所述韻律變化量來計算選擇基準(zhǔn);根據(jù)所述目標(biāo)片段環(huán)境和所述候選片段的片段環(huán)境來計算各候選片段的單位成本;以及根據(jù)所述單位成本來從候選片段中檢索最適合片段; 所述計算單位成本的處理包括以下處理對具有以下韻律變化量的片段的單位成本賦予罰分,所述韻律變化量與所述選擇基準(zhǔn)之間的大小關(guān)系為預(yù)先確定的預(yù)定關(guān)系。
28. 如權(quán)利要求27所述的程序,其特征在于,所述計算單位成本的處理包括以下處理根據(jù)所述韻律變化量與所述 選擇基準(zhǔn)之間的相對關(guān)系來決定所述罰分。
29. 如權(quán)利要求22至28中的任一項所述的程序,其特征在于, 所述計算選擇基準(zhǔn)的處理包括以下處理根據(jù)所述韻律變化量的平均值來確定所述選擇基準(zhǔn)。
30. 如權(quán)利要求22至28中的任一項所述的程序,其特征在于, 所述計算選擇基準(zhǔn)的處理包括以下處理根據(jù)將所述韻律變化量在時間方向上平滑化而得到的值來確定所述選擇基準(zhǔn)。
31. —種記錄介質(zhì),記錄有權(quán)利要求21至30中的任一項所述的程序。
32. 如權(quán)利要求2所述的聲音合成裝置,其特征在于, 被構(gòu)成為預(yù)先決定了所述候選選擇部所使用的選擇基準(zhǔn)或者從所述聲音合成裝置的外部輸入所述候選選擇部所使用的選擇基準(zhǔn),而不需要由所 述選擇基準(zhǔn)計算部根據(jù)所述韻律變化量來計算選擇基準(zhǔn)。
33. 如權(quán)利要求1、 2、 4、 7中的任一項所述的聲音合成裝置,其特征 在于,與所述選擇基準(zhǔn)和所述韻律變化量之間的大小關(guān)系相關(guān)的所述預(yù)先確 定的預(yù)定關(guān)系是指所述韻律變化量比所述選擇基準(zhǔn)小。
34. 如權(quán)利要求11、 12、 14、 17中的任一項所述的聲音合成方法,其 特征在于,與所述選擇基準(zhǔn)和所述韻律變化量之間的大小關(guān)系相關(guān)的所述預(yù)先確 定的預(yù)定關(guān)系是指所述韻律變化量比所述選擇基準(zhǔn)小。
35. 如權(quán)利要求21、 22、 24、 27中的任一項所述的程序,其特征在于,與所述選擇基準(zhǔn)和所述韻律變化量之間的大小關(guān)系相關(guān)的所述預(yù)先確 定的預(yù)定關(guān)系是指所述韻律變化量比所述選擇基準(zhǔn)小。
36. 如權(quán)利要求1所述的聲音合成裝置,其特征在于, 除了所述片段選擇部以外還包括語言處理部,從文本句子生成語言處理結(jié)果,所述語言處理結(jié)果包括 表示文本句子的讀法的符號串、語素的詞性、變形、重音信息;韻律生成部,根據(jù)所述語言處理結(jié)果來生成所生成的合成聲音的韻律fe息;韻律控制部,從由所述片段選擇部選擇出的聲音片段生成具有由所述韻律生成部生成了的韻律的波形;波形連接部,連接從所述韻律控制部輸出的聲音片段并作為合成聲音輸出;以及聲音片段信息存儲部,存儲被分割成合成單位的聲音片段和各聲音片 段的屬性信息;所述片段選擇部包括單位成本計算部,接收由所述語言處理部生成的所述語言處理結(jié)果和 由所述韻律生成部生成的韻律信息,針對每一合成單位生成所述目標(biāo)片段 環(huán)境,從所述聲音片段信息存儲部選擇與通過所述目標(biāo)片段環(huán)境指定的信 息相符的多個聲音片段來作為候選片段,并根據(jù)所述候選片段的片段環(huán)境 和所述目標(biāo)片段環(huán)境來計算各候選片段的單位成本;韻律變化量計算部,根據(jù)所述韻律信息、多個候選片段的所述單位成 本、以及來自所述聲音片段信息存儲部的各聲音片段的屬性信息來計算所 述候選片段的韻律變化量;選擇基準(zhǔn)計算部,根據(jù)所述各候選片段的韻律變化量來計算為了進行 候選片段的縮選而需要的候選的選擇基準(zhǔn);候選選擇部,根據(jù)來自所述選擇基準(zhǔn)計算部的所述選擇基準(zhǔn)、來自所 述韻律變化量計算部的所述韻律變化量、以及來自所述單位成本計算部的 各候選片段的信息和所述單位成本來進行候選片段的縮選,此時從所述單 位成本相對低的候選片段中,根據(jù)所述選擇基準(zhǔn)將所述韻律變化量比其他 片段小的片段從候選中排除,并且輸出通過所述縮選而選擇出的候選片段 的信息及其單位成本;連接成本計算部,根據(jù)所述各候選片段的信息、以及來自所述聲音片 段信息存儲部的各聲音片段的屬性信息來計算所述各候選片段的連接成 本;以及最適合片段檢索部,根據(jù)所述候選片段的信息、所述單位成本和所述 連接成本求出最適合片段系列并提供給所述韻律控制部,所述最適合片段 系列是最優(yōu)化與所述單位成本和所述連接成本相關(guān)的目標(biāo)函數(shù)的聲音片段 系列。
37.如權(quán)利要求1所述的聲音合成裝置,其特征在于,除了所述片段選擇部以外還包括語言處理部,從文本句子生成語言處理結(jié)果,所述語言處理結(jié)果包括 表示文本句子的讀法的符號串、語素的詞性、變形、重音信息;韻律生成部,根據(jù)所述語言處理結(jié)果來生成所生成的合成聲音的韻律信息;韻律控制部,從由所述片段選擇部選擇出的聲音片段生成具有由所述 韻律生成部生成了的韻律的波形;波形連接部,連接從所述韻律控制部輸出的聲音片段并作為合成聲音 輸出;以及聲音片段信息存儲部,存儲被分割成合成單位的聲音片段和各聲音片 段的屬性信息;所述片段選擇部包括單位成本計算部,接收由所述語言處理部生成的所述語言處理結(jié)果和 由所述韻律生成部生成的所述韻律信息,針對每一合成單位生成所述目標(biāo) 片段環(huán)境,從所述聲音片段信息存儲部選擇與通過所述目標(biāo)片段環(huán)境指定 的信息相符的多個聲音片段來作為候選片段,并根據(jù)所述候選片段的片段 環(huán)境和所述目標(biāo)片段環(huán)境來計算各候選片段的單位成本;連接成本計算部,根據(jù)所述各候選片段的信息、以及來自所述聲音片 段信息存儲部的各聲音片段的屬性信息來計算所述各候選片段的連接成 本;候選選擇部,根據(jù)所述各候選片段的信息、所述單位成本和所述連接成本來進行候選片段的縮選并輸出通過所述縮選而選擇出的候選片段的信 息及其單位成本;最適合片段檢索部,根據(jù)所述候選片段的信息、所述單位成本和所述 連接成本求出最適合片段系列并提供給所述韻律控制部,所述最適合片段 系列是最優(yōu)化與所述單位成本和所述連接成本相關(guān)的目標(biāo)函數(shù)的聲音片段 系列;韻律變化量計算部,根據(jù)從所述最適合片段檢索部輸出的最適合片段系列的各片段、來自所述韻律生成部的韻律信息、以及來自所述聲音片段 信息存儲部的所述最適合片段的屬性信息來計算所述最適合片段的韻律變選擇基準(zhǔn)計算部,根據(jù)來自所述韻律變化量計算部的各最適合片段的 韻律變化量來計算為了判斷是否存在韻律變化量比其他片段顯著地小的片段而需要的選擇基準(zhǔn);以及判斷部,根據(jù)來自所述最適合片段檢索部的最適合片段、來自所述韻 律變化量計算部的各片段的韻律變化量、以及從所述選擇基準(zhǔn)計算部提供 的選擇基準(zhǔn)來判斷是否存在韻律變化量比其他片段顯著地小的片段,并且 所述判斷部執(zhí)行以下控制在判斷為存在韻律變化量比其他片段顯著地小 的片段的情況下,將韻律變化量顯著地小的片段提供給所述候選選擇部, 執(zhí)行來自所述候選選擇部的候選片段的再檢索,在判斷為不存在韻律變化 量比其他片段顯著地小的片段的情況下或者在所述再檢索次數(shù)超過了上限 的情況下,將最適合片段提供給所述韻律控制部;所述候選選擇部從由所述連接成本計算部提供的所述候選片段中,將 從所述判斷部提供的片段從候選中排除,并將未被排除的候選片段、以及 該候選片段的單位成本和連接成本提供給所述最適合片段檢索部。
38.如權(quán)利要求1所述的聲音合成裝置,其特征在于,除了所述片段選擇部以外還包括語言處理部,從文本句子生成語言處理結(jié)果,所述語言處理結(jié)果包括表示文本句子的讀法的符號串、語素的詞性、變形、重音信息;韻律生成部,根據(jù)所述語言處理結(jié)果來生成所生成的合成聲音的韻律 f曰息;韻律控制部,從由所述片段選擇部選擇出的聲音片段生成具有由所述韻律生成部生成了的韻律的波形;波形連接部,連接從所述韻律控制部輸出的聲音片段并作為合成聲音 輸出;以及聲音片段信息存儲部,存儲被分割成合成單位的聲音片段和各聲音片 段的屬性信息;所述片段選擇部包括單位成本計算部,接收由所述語言處理部生成的所述語言處理結(jié)果和 由所述韻律生成部生成的所述韻律信息,針對每一合成單位生成所述目標(biāo) 片段環(huán)境,從所述聲音片段信息存儲部選擇與通過所述目標(biāo)片段環(huán)境指定 的信息相符的多個聲音片段來作為候選片段,并根據(jù)所述候選片段的片段 環(huán)境和所述目標(biāo)片段環(huán)境來計算各候選片段的單位成本;韻律變化量計算部,根據(jù)所述韻律信息、多個所述候選片段的每一個 的所述單位成本、以及來自所述聲音片段信息存儲部的各聲音片段的屬性信息來計算所述候選片段的韻律變化量;選擇基準(zhǔn)計算部,根據(jù)所述各候選片段的韻律變化量來計算為了進行候選片段的縮選而需要的候選的選擇基準(zhǔn);單位成本修正部,根據(jù)來自所述選擇基準(zhǔn)計算部的所述選擇基準(zhǔn)、從 所述韻律變化量計算部提供的候選片段的所述韻律變化量、以及從所述單 位成本計算部提供的各候選片段的信息和所述單位成本來修正所述韻律變 化量比其他片段顯著地小的候選片段的單位成本,并輸出候選片段和單位 成本;連接成本計算部,根據(jù)所述各候選片段的信息、以及來自所述聲音片 段信息存儲部的各聲音片段的所述屬性信息來計算各候選片段的連接成 本;以及最適合片段檢索部,根據(jù)所述候選片段的信息、所述單位成本和所述 連接成本求出最適合片段系列并提供給所述韻律控制部,所述最適合片段 系列是最優(yōu)化與所述單位成本和所述連接成本相關(guān)的目標(biāo)函數(shù)的聲音片段 系列。
39.如權(quán)利要求11所述的聲音合成方法,其特征在于, 所述選擇片段的步驟包括以下各步驟(A) 從語言處理結(jié)果和根據(jù)所述語言處理結(jié)果生成的合成聲音的韻 律信息,針對每一合成單位來生成目標(biāo)片段環(huán)境,所述語言處理結(jié)果從文 本句子生成并包括表示讀法的符號串、語素的詞性、變形、重音信息;(B) 從存儲有被分割成合成單位的聲音片段和各聲音片段的屬性信息的聲音片段信息存儲部選擇出與通過所述目標(biāo)片段環(huán)境指定的信息相符的多個聲音片段來作為候選片段;(c)根據(jù)所述候選片段的片段環(huán)境和所述目標(biāo)片段環(huán)境來計算各候 選片段的單位成本;(D) 根據(jù)所述韻律信息、多個候選片段的每一個的所述單位成本、 以及來自所述聲音片段信息存儲部的各聲音片段的屬性信息來計算所述候 選片段的韻律變化量;(E) 根據(jù)所述各候選片段的韻律變化量來計算為了進行候選片段的 縮選而需要的候選的選擇基準(zhǔn);(F) 根據(jù)所述選擇基準(zhǔn)、候選片段的所述韻律變化量、以及各候選 片段的信息和所述單位成本來進行候選片段的縮選,此時從所述單位成本 相對低的候選片段中,根據(jù)所述選擇基準(zhǔn)將韻律變化量比其他片段小的片 段從候選中排除,并且輸出通過所述縮選而選擇出的候選片段的信息及其 單位成本;(G) 根據(jù)候選片段的信息、以及來自所述聲音片段信息存儲部的所 述各聲音片段的屬性信息來計算各候選片段的連接成本;以及(H) 根據(jù)所述候選片段的信息、所述單位成本和所述連接成本求出 最適合片段系列并提供給所述韻律控制使用,所述最適合片段系列是最優(yōu) 化與所述單位成本和所述連接成本相關(guān)的目標(biāo)函數(shù)的聲音片段系列。
40.如權(quán)利要求11所述的聲音合成方法,其特征在于, 所述選擇片段的步驟包括以下各步驟(A) 從語言處理結(jié)果和根據(jù)所述語言處理結(jié)果生成的合成聲音的韻 律信息,針對每一合成單位來生成目標(biāo)片段環(huán)境,所述語言處理結(jié)果從文 本句子生成并包括表示讀法的符號串、語素的詞性、變形、重音信息;(B) 從存儲有被分割成合成單位的聲音片段和各聲音片段的屬性信 息的聲音片段信息存儲部選擇出與通過所述目標(biāo)片段環(huán)境指定的信息相符 的多個聲音片段來作為候選片段;(C) 根據(jù)所述候選片段的片段環(huán)境和所述目標(biāo)片段環(huán)境來計算各候 選片段的單位成本;(D) 根據(jù)所述候選片段的信息和來自所述聲音片段信息存儲部的各聲音片段的屬性信息來計算各候選片段的連接成本;(E) 作為候選選擇步驟,根據(jù)各候選片段的信息、單位成本和連接 成本來進行候選片段的縮選并輸出通過所述縮選而選擇出的候選片段的信 息及其單位成本;(F) 作為最適合片段檢索步驟,根據(jù)所述候選片段的信息、單位成 本和連接成本求出最適合片段系列并提供給所述韻律控制使用,所述最適 合片段系列是最優(yōu)化與所述單位成本和所述連接成本相關(guān)的目標(biāo)函數(shù)的聲 音片段系列;(H)根據(jù)所述最適合片段系列的各片段、所述韻律信息、以及來自 所述聲音片段信息存儲部的所述最適合片段的屬性信息來計算所述最適合 片段的韻律變化量;(0根據(jù)各最適合片段的韻律變化量來計算為了判斷是否存在韻律變 化量比其他片段顯著地小的片段而需要的選擇基準(zhǔn);以及(J)作為判斷步驟,根據(jù)所述最適合片段、各最適合片段的所述韻律 變化量、以及所述選擇基準(zhǔn)來判斷是否存在韻律變化量比其他片段顯著地 小的片段,在判斷為存在韻律變化量比其他片段顯著地小的片段的情況 下,將韻律變化量顯著地小的片段提供給所述(E)的候選選擇步驟使 用,并執(zhí)行候選片段的再檢索,在判斷為不存在韻律變化量比其他片段顯 著地小的片段的情況下或者在所述再檢索次數(shù)超過了上限的情況下,將最 適合片段提供給所述韻律控制使用;在所述(E)的候選選擇步驟中,從候選片段中,將通過所述判斷步 驟提供的片段從候選中排除,并將未被排除的候選片段、以及該候選片段 的單位成本和連接成本提供給所述(F)的最適合片段檢索步驟使用。
41.如權(quán)利要求11所述的聲音合成方法,其特征在于, 所述選擇片段的步驟包括以下各步驟(A)從語言處理結(jié)果和根據(jù)所述語言處理結(jié)果生成的合成聲音的韻 律信息,針對每一合成單位來生成目標(biāo)片段環(huán)境,所述語言處理結(jié)果從文 本句子生成并包括表示讀法的符號串、語素的詞性、變形、重音信息;(B) 從存儲有被分割成合成單位的聲音片段和各聲音片段的屬性信 息的聲音片段信息存儲部選擇出與通過所述目標(biāo)片段環(huán)境指定的信息相符的多個聲音片段來作為候選片段;(C) 根據(jù)所述候選片段的片段環(huán)境和所述目標(biāo)片段環(huán)境來計算各候 選片段的單位成本;(D) 根據(jù)所述韻律信息、多個候選片段的每一個的所述單位成本、 以及來自所述聲音片段信息存儲部的各聲音片段的屬性信息來計算所述候 選片段的韻律變化量;(E) 根據(jù)各候選片段的韻律變化量來計算為了進行候選片段的縮選 而需要的候選的選擇基準(zhǔn);(F) 根據(jù)所述選擇基準(zhǔn)、各候選片段的所述韻律變化量、以及候選 片段的信息和所述單位成本來修正韻律變化量比其他片段顯著地小的候選 片段的單位成本,并輸出候選片段和單位成本;(G) 根據(jù)候選片段的信息、以及來自所述聲音片段信息存儲部的各 聲音片段的屬性信息來計算各候選片段的連接成本;以及(H) 根據(jù)所述候選片段的信息、所述單位成本和所述連接成本求出 最適合片段系列并提供給韻律控制使用,所述最適合片段系列是最優(yōu)化與 所述單位成本和所述連接成本相關(guān)的目標(biāo)函數(shù)的聲音片段系列。
全文摘要
提供一種能夠生成由于韻律變化量的不均勻而導(dǎo)致的音質(zhì)劣化程度小的合成聲音的裝置、方法以及程序。聲音合成裝置具有從候選片段中選擇適合目標(biāo)片段環(huán)境的片段的片段選擇部(161),該聲音合成裝置還包括韻律變化量計算部(20),根據(jù)目標(biāo)片段環(huán)境和候選片段的韻律信息來計算各候選片段的韻律變化量;選擇基準(zhǔn)計算部(21),根據(jù)韻律變化量來計算選擇基準(zhǔn);候選選擇部(22),根據(jù)韻律變化量和選擇基準(zhǔn)來進行選擇候選的縮選;以及最適合片段檢索部(14),從被縮選出的候選片段中檢索最適合片段。
文檔編號G10L13/08GK101617359SQ20088000560
公開日2009年12月30日 申請日期2008年2月15日 優(yōu)先權(quán)日2007年2月20日
發(fā)明者三井康行, 加藤正德, 近藤玲史 申請人:日本電氣株式會社