話音合成器、話音合成方法和話音合成程序的制作方法

文檔序號：2832731閱讀：164來源：國知局

專利名稱：話音合成器、話音合成方法和話音合成程序的制作方法
技術領域：
本發(fā)明涉及用于生成輸入文本的合成話音的話音合成器、話音合成方法和話音合成程序。
背景技術：
存在通過基于由文本分析的結果表示的語音信息的規(guī)則、借助于話音合成而分析文本以及生成合成話音的話音合成器。這種通過規(guī)則、借助于話音合成而生成合成話音的話音合成器首先基于文本的分析的結果而生成關于合成話音的韻律信息(通過聲音的音高(音高頻率)、聲音的長度(音位持續(xù)時間)、聲音的量級(功率)等來指示韻律的信息)。隨后，話音合成器從分段詞典中選擇與文本分析的結果和韻律信息相對應的分段(合成単元)，該分段詞典已經預存儲了多種分段(波形生成參數)。隨后，話音合成器基于從分段詞典中選擇的分段(波形生成參數)來生成話音波形。最后，話音合成器通過連接所生成的話音波形來生成合成話音。當此類話音合成器基于所選擇的分段來生成話音波形時，話音合成器生成具有與由所生成的韻律信息所指示的韻律接近的韻律的話音波形，以便生成高聲音質量的合成話
曰非專利文獻I描述了ー種用于生成話音波形的方法。在非專利文獻I的方法中，將振幅譜(作為通過對音頻信號進行傅里葉變換而獲得的譜的振幅分量)在時間頻率方向進行平滑，并且將其用作波形生成參數。非專利文獻I還描述了一種用于將歸ー化譜計算為通過振幅譜進行歸ー化的譜的方法。在該方法中，基于隨機數來計算群延遲，并且通過使用所計算的群延遲來計算歸一化譜。專利文獻I描述了ー種話音處理設備，包括存儲單元，該存儲単元預存儲待用于生成合成話音的過程的話音分段波形的周期分量和非周期分量。引用列表專利文獻專利文檔I JP-A-2009-163121 (0025-0289 段，圖 I)非專利文獻非專利文獻I :Hideki Kawahara, " Speech Representation andiransiormation Using Adaptive Interpolation oi Weighted Spectrum VocoderRevisited"，(USA)，IEEE ICASSP-97，第 2 卷，1997，第 1303-1306 頁

發(fā)明內容
技術問題在由前述話音合成器采用的波形生成方法中，連續(xù)地計算歸一化譜。歸ー化譜用于生成音高波形，其必須以接近音高周期的間隔生成。因此，采用該波形生成方法的話音合成器必須頻繁地計算歸ー化譜，從而引起極大量的計算。另外，歸ー化譜的計算需要如非專利文獻I中所描述的基于隨機數的群延遲的計算。在通過使用群延遲來計算歸一化譜的過程中，必須執(zhí)行包括大量計算的積分計算。由此，采用上述波形生成方法的話音合成器必須頻繁地執(zhí)行一系列計算(基于隨機數的群延遲的計算以及通過進行包括大量計算的積分計算而通過所計算的群延遲的對歸ー化譜的計算)。隨著計算數量的增多，話音合成器生成合成話音所需要的呑吐量(每單位時間的工作負載)増加。因此，每單位時間應當輸出的合成話音的生成變得不可能，尤其是在低處理功率的話音合成器與合成話音的生成同步地輸出合成話音時。平滑輸出合成話音的不可能性嚴重地影響了由話音合成器輸出的合成話音的聲音質量。同時，專利文獻I中描述的話音處理設備通過使用存儲單元中預存儲的話音分段波形的周期分量和非周期分量來生成合成話音。需要此類話音處理設備來生成更高聲音質量的合成話音。因此，本發(fā)明的主要目的是提供一種話音合成器、話音合成方法和話音合成程序，其能夠利用較少數目的計算來生成更高聲音質量的合成話音。問題的解決方案為了實現上述目的，本發(fā)明提供了一種話音合成器，該話音合成器生成輸入文本的合成話音，包括濁音生成単元，其包括預存儲基于隨機數序列而計算的一個或多個歸ー化譜的歸一化譜存儲単元，并且基干與文本相對應的濁音的多個分段和存儲在歸ー化譜存儲單元中的歸ー化譜來生成濁音波形；清音生成単元，其基干與文本相對應的清音的多個分段來生成清音波形；以及合成話音生成単元，其基于由濁音生成単元生成的濁音波形和由清音生成單元生成的清音波形來生成合成話音。本發(fā)明還提供了一種話音合成方法，用于生成輸入文本的合成話音，包括基干與文本相對應的濁音的多個分段和存儲在用于預存儲基于隨機數序列而計算的歸ー化譜的歸ー化譜存儲単元中的一個或多個歸ー化譜來生成濁音波形；基干與文本相對應的清音的多個分段來生成清音波形；以及，基于所生成的濁音波形和所生成的清音波形來生成合成話音。本發(fā)明還提供了一種待安裝在話音合成器中的話音合成程序，該話音合成器生成輸入文本的合成話音，其中該話音合成程序使得計算機執(zhí)行濁音波形生成過程，該濁音波形生成過程基干與文本相對應的濁音的多個分段以及存儲在用于預存儲基于隨機數序列而計算的歸ー化譜的歸一化譜存儲単元中的一個或多個歸ー化譜來生成濁音波形；清音波形生成過程，該清音波形生成過程基干與文本相對應的清音的多個分段來生成清音波形；以及，合成話音生成過程，該合成話音生成過程基于在濁音波形生成過程中生成的濁音波形以及在清音波形生成過程中生成的清音波形來生成合成話音。本發(fā)明的有益效果根據本發(fā)明，通過使用預存儲在歸ー化譜存儲単元中的歸ー化譜來生成合成話音的波形。因此，在生成合成話音時可以省略歸ー化譜的計算。從而，可以減少在話音合成時必需的計算的數目。另外，由于歸ー化譜用于生成合成話音波形，所以與話音分段波形的周期分量和非周期分量用于生成合成話音的情況相比，可以生成更高聲音質量的合成話音。

[圖I]其繪出了示出根據本發(fā)明的第一示例性實施方式的話音合成器的配置的示例的框圖。[圖2]其繪出了示出由目標分段環(huán)境指示的每條信息和由關于候選分段Al和A2的屬性信息指示的每條信息的表。[圖3]其繪出了示出由關于候選分段Al、A2、BI和B2的屬性信息指示的每條信息的表。[圖4]其繪出了示出用于計算待存儲在歸ー化譜存儲単元中的歸ー化譜的過程的流程圖。
[圖5]其繪出了示出第一示例性實施方式中的話音合成器的波形生成単元的操作的流程圖。[圖6]其繪出了示出根據本發(fā)明的第二示例性實施方式的話音合成器的配置的示例的框圖。[圖7]其繪出了示出第二示例性實施方式中的話音合成器的波形生成単元的操作的流程圖。[圖8]其繪出了示出根據本發(fā)明的話音合成器的主體部分的框圖。
具體實施例方式<第一示例性實施方式>以下將參考附圖描述根據本發(fā)明的話音合成器的第一示例性實施方式。圖I是示出根據本發(fā)明的第一示例性實施方式的話音合成器的配置的示例的框圖。如圖I中所示，根據本發(fā)明的第一示例性實施方式的話音合成器包括波形生成單元4。波形生成單元4包括池音生成單元5、清音生成單元6和波形連接單元7。如圖I中所示，波形生成単元4經由分段選擇單元3和韻律生成単元2連接至語言處理單元I。分段信息存儲單元12連接至分段選擇單元3。如圖I中所示，池音生成單元5包括歸ー化譜存儲單元101、歸ー化譜加載單元102、傅里葉逆變換單元55和音高波形疊加單元56。分段信息存儲單元12已經存儲了分別針對各話音合成單元而生成的分段(話音分段)以及關于每個分段的屬性信息。分段例如是針對每個話音合成單元而分段(剪切、提取)的話音波形、從分段的話音波形中提取的波形生成參數(線性預測分析參數、倒譜系數等)的時間序列等。將采用濁音的分段是幅度譜而清音的分段是分段(剪切、提取)的話音波形的情況的示例來給出以下說明。關于分段的屬性信息包括音韻信息(指示聲音(話音)的音素環(huán)境、音高頻率、幅度、持續(xù)時間等作為每個分段的基礎)和韻律信息。在很多情況下，從由人發(fā)出的語音(自然話音波形)中提取或者生成分段。例如，有時從由廣播員或者配音演員發(fā)出的語音的所記錄的聲音數據中提取或者生成分段。發(fā)出作為分段的基礎的語音的人(說話者)稱為分段的“原始說話者”。音素、音節(jié)、半音節(jié)(demisyllable)(例如，CV(C:輔音，V:元音))、CVC、VCV等通常被用作話音合成單元。以下參考文獻I和參考文獻2包括對合成単元和分段的長度的說明。參考又獻 I Huang, Acero, Hon, " Spoken Language Processing, '' PrenticeHall，2001，第 689-836 頁參考文獻2 :Masanobu Abe 等人，"An Introduction to Speech SynthesisUnits, " IEICE (電子、信息和通信工程師協(xié)會(日本))技術報告，第100卷，No. 392，2000，第 35-42 頁語言處理單元I分析輸入文本的文字。具體地，語言處理單元I執(zhí)行諸如形態(tài)分析、解析或者閱讀分析之類的分析?；诜治龅慕Y果，語言處理單元I向韻律生成単元2和分段選擇單元3輸出指示表示“閱讀”的符號串(例如，音素符號)的信息和指示每個詞素的話音、詞形變化、ロ音類型等的部分的信息，作為語言分析結果。韻律生成単元2基于由語言處理單元I輸出的語言分析結果來生成合成話音的韻律。韻律生成単元2向分段選擇單元3和波形生成単元4輸出指示所生成的韻律的韻律信息，作為目標韻律信息(目標韻律學信息)。通過在以下參考文獻3中描述的方法生成韻律，例如參考文獻3 Yasushi Ishikawa, " Prosodic Control for JapaneseText-to-Speech Synthesis, " IEICE (電子、信息和通信工程師協(xié)會(日本))技術報告，第 100 卷，No. 392，2000，第 27-34 頁分段選擇單元3基于語言分析結果和目標韻律信息從存儲在分段信息存儲單元12中的分段中選擇滿足規(guī)定條件的分段。分段選擇單元3向波形生成単元4輸出所選擇的分段和關于分段的屬性信息。以下將說明用于從存儲在分段信息存儲單元12中的分段中選擇滿足規(guī)定條件的分段的分段選擇單元3的操作?；谳斎氲恼Z言分析結果和目標韻律信息，分段選擇單元3生成針對每個話音合成単元的指示合成話音的特性的信息(在下文中稱為“目標分段環(huán)境，，)。目標分段環(huán)境是包括以下內容的信息有關音素(構成作為目標分段環(huán)境的生成的目標的合成話音)、在前音素(作為有關音素之前的音素)、在后音素(作為有關音素之后的音素)、重音存在/不存在、與ロ音調核(accent nucleus)的距離、每個話音合成單元的音高頻率、功率、每個話音合成単元的持續(xù)時間、倒譜、MFCC(美爾頻率倒譜系數)、這些值的△量(每單位時間的變化)等。隨后，針對每個話音合成単元，分段選擇單元3基于包括在所生成的目標分段環(huán)境中的信息而從分段信息存儲單元12獲取與連續(xù)音素相對應的多個分段。具體地，分段選擇單元3基于包括在目標分段環(huán)境中的信息而從分段信息存儲單元12中獲取與有關音素相對應的多個分段、與在前音素相對應的多個分段以及與在后音素相對應的多個分段。所獲取的分段是用于生成合成話音的分段的候選(在下文中，稱為“候選分段”)。繼而，針對相鄰候選分段(例如，與有關音素相對應的候選分段和與在前音素相對應的候選分段)的每個組合，分段選擇單元3計算“成本”作為表示組合作為用于生成語音(話音)的分段的適用性程度的指數。成本是目標分段環(huán)境和關于每個候選分段的屬性信息之間的差異以及相鄰候選分段之間的屬性信息的差異的計算的結果。成本(計算結果的值)隨著合成話音的特性(由目標分段環(huán)境表示)與候選分段之間的相似度的增大而降低，也即，隨著用于生成語音(話音)的組合的適用性程度的増大而降低。隨著被使用的分段的成本的降低，指示與由人發(fā)出的話音的相似性程度的合成話音的自然度増加。分段選擇單元3選擇所計算的成本最低的分段。具體地，由分段選擇單元3計算的成本包括單位成本和連接成本。單位成本指示當候選分段在由目標分段環(huán)境表示的環(huán)境中使用時，推測發(fā)生的聲音質量惡化的程度?；陉P于候選分段的屬性信息和目標分段環(huán)境之間的相似性程度來計算單位成本。連接成本指示推測由于連接的話音分段之間的分段環(huán)境的不連續(xù)性而發(fā)生的聲音質量惡化的程度?；谙噜徍蜻x分段之間的分段環(huán)境的親和度來計算連接成本。已經提出了用于計算単位成本和連接成本的各種方法。通常，通過使用包括在目標分段環(huán)境中的信息來計算單位成本。通過使用以下項來計算連接成本相鄰分段的連接邊界處的音高頻率、倒譜、MFCC、短期自相關、功率、這些值的Λ量等。具體地，通過使用從關于分段的多種信息(音高頻率、倒譜、功率等)中選擇的多條信息來計算單位成本和連接成本。以下將說明計算單位成本的ー個示例。圖2是示出由目標分段環(huán)境指示的每條信息以及由關于候選分段Al和Α2的屬性信息指示的每條信息的表。在圖2中所示的示例中，由目標分段環(huán)境指示的音高頻率是pitchO[Hz]。由目標分段環(huán)境指示的持續(xù)時間是durO [sec]。由目標分段環(huán)境指示的功率是powO [dB]。由目標分段環(huán)境指示的與ロ音調核的距離是posO。由與候選分段Al有關的屬性信息指示的音高頻率是Pitchl [Hz]。由關于候選分段Al的屬性信息指示的持續(xù)時間是durl [sec]。由關于候選分段Al的屬性信息指示的功率是powl [dB]。由關于候選分段Al的屬性信息指示的與ロ音調核的距離是pos I。類似地，由關于候選分段A2的屬性信息指示的音高頻率、持續(xù)時間、功率和與ロ音調核的距離是pitch2 [Hz]、dur2 [sec]、pow2 [dB]和pos2。附帯地，“與ロ音調核的距離”意味著話音合成単元中與作為ロ音調核的音素的距離。例如，當在包括5個音素的話音合成単元中，第三個音素是ロ音調核時，與第一音素相對應的分段的“與ロ音調核的距離”是“_2”。與第二音素相對應的分段的“與ロ音調核的距離”是“-I”。與第三因素相對應的分段的“與ロ音調核的距離”是“O”。與第四音素相對應的分段的“與ロ音調核的距離”是“+I”。與第五音素相對應的分段的“與ロ音調核的距離”是 “+2”。用于計算候選分段Al的單位成本(unit score (Al))的公式是unit_score (Al) = (wlX (pitchO-pitchl)'2)+(w2X (durO-durl) '2)+(w3X (powO-powl) '2)+(w4X (posO-posl) '2)用于計算候選分段A2的單位成本(unit_score(A2))的公式是unit_score (A2) = (wlX (pitch0-pitch2)'2)+(w2X (dur0~dur2) '2)+(w3X (pow0-pow2) '2)
+(w4X (pos0-pos2) '2)在以上公式中，wl_w4表示預置加權因子。符號“·'”表示冪。例如，“2~2”表示2
的二次冪。以下將說明計算連接成本的示例。圖3是示出了由關于候選分段A1、A2、B1和B2的屬性信息指示的每條信息的表。附帯地，候選分段BI和B2是針對在具有候選分段Al和A2作為其候選分段的分段之后的分段的候選分段。在圖3中所示的示例中，候選分段Al的開始邊音高頻率是pitch_begl[Hz]，候選分段Al的結束邊音高頻率是pitch_endl [Hz],候選分段Al的開始邊功率是pow_begl [dB],并且候選分段Al的結束邊功率是pow_endl [dB]。候選分段A2的開始邊音高頻率是pitch_beg2 [Hz]，候選分段A2的結束邊音高頻率是pitch_end2 [Hz]，候選分段A2的開始邊功率是pow_beg2 [dB],并且候選分段A2的結束邊功率是pow_end2 [dB]。類似地，候選分段B I的開始邊音高頻率、結束邊音高頻率、開始邊功率和結束邊功率是 pitch_beg3 [Hz]、pitch_end3 [Hz]、pow_beg3 [dB]和 pow_end3 [dB],并且候選分段B2 的是 pitch_beg4 [Hz]、pitch_end4 [Hz]、pow_beg4 [dB]和 pow_end4 [dB]。用于計算候選分段Al和BI的連接成本(concat_score (Al, BI))的公式是concat_score (Al, BI)=(cl X (pitch_endl_pitch_beg3)~2)+(c2 X (pow_endl_pow_beg3)~2)用于計算候選分段Al和B2的連接成本(concat_score (Al, B2))的公式是concat_score (Al, B2)=(cl X (pitch_endl_pitch_beg4)~2)+(c2 X (pow_endl_pow_beg4)~2)用于計算候選分段A2和BI的連接成本(concat_score(A2, BI))的公式是concat_score (A2, BI)=(cl X (pitch_end2_pitch_beg3)~2)+ (c2 X (pow_end2_pow_beg3)~2)用于計算候選分段A2和B2的連接成本(concat_score (A2, B2))的公式是concat_score (A2, B2)=(cl X (pitch_end2_pitch_beg4)~2)+ (c2 X (pow_end2_pow_beg4)~2)在以上公式中，Cl和c2表示預置加權因子?；谒嬎愕膯挝怀杀竞瓦B接成本，分段選擇單元3計算候選分段Al和BI的組合的成本。具體地，將候選分段Al和BI的組合的成本計算為unit (Al) +unit (BI) +concat_score (Al, BI)。同時,將候選分段A2和BI的組合的成本計算為 unit(A2)+unit(BI)+concat_score (A2, BI)。類似地，將候選分段Al和B2的組合的成本計算為unit (Al)+unit (B2)+concat_score (Al, B2),并且將候選分段A2和B2的組合的成本計算為unit (A2) +unit (B2) +concat_score(A2, B2)。分段選擇單元3從候選分段中選擇最小化所計算的成本的分段的組合，作為最適于語音(話音)的合成的分段。由分段選擇單元3選擇的分段在下文中將被稱為“選擇的分段”。波形生成単元4基于由韻律生成単元2輸出的目標韻律信息、由分段選擇單元3輸出的分段以及關于分段的屬性信息，生成具有與目標韻律信息相一致或者類似的韻律的話音波形。波形生成単元4通過連接所生成的話音波形來生成合成話音。由波形生成単元4根據分段而生成的話音波形在下文中將被稱為“分段波形”，以便使其區(qū)別于普通的話音波形?？梢詫⒂煞侄芜x擇單元3輸出的分段分類為由濁音構成的和由清音構成的。針對濁音的韻律控制所采用的方法與針對清音的韻律控制所采用的方法彼此不同。波形生成單元4包括池音生成單元5、清音生成單元6和波形連接單元7,該波形連接單元7用于連接濁音和清音。分段選擇單元3向濁音生成単元5輸出濁音的分段(濁音分段)，同時向清音生成単元6輸出清音的分段(清音分段)。將由韻律生成単元2輸出的韻律信息輸入到濁音生成單元5和清音生成單元6 二者中。基于由分段選擇單元3輸出的清音的分段，清音生成単元6生成具有與由韻律生成單元2輸出的韻律信息相一致或者類似的韻律的清音波形。在該示例中，由分段選擇單元3輸出的清音的分段是分段(剪切、提取)的話音波形。因此，清音生成単元6能夠通過使用在以下參考文獻4中描述的方法來生成清音波形備選地，清音生成単元6還可以通過使用在以下參考文獻5中描述的方法來生成清音波形參考文獻4:Ryuji Suzuki, Masayuki Misaki, " Time-scale Modification ofSpeech Signals Using Cross-correlation, " (USA), IEEE 消費電子學報,第 38 卷，1992,第 357-363 頁參考文獻5 Nobumasa Seiyama 等人，"Development of a High-qualityReal-time Speech Rate Conversion System,"電子、信息和通信工程師協(xié)會學報(Japan)，第 J84-D-2 卷，No. 6，2001，第 918-926 頁池音生成單元5包括歸ー化譜存儲單元101、歸ー化譜加載單元102、傅里葉逆變換單元55和音高波形疊加單元56。此處，將給出對譜、幅度譜和歸一化譜的說明。譜由特定信號的傅里葉變換定義。在以下參考文獻6中給出了譜和傅里葉變換的詳細說明參考文獻6:Shuzo Saito,Kazuo Nakata, " Basics of Phonetical InformationProcessing" ，Ohmsha, Ltd.，1981,第 15-31,73-76 頁如參考文獻6中所述，每個譜由復數表示，并且譜的幅度分量稱為“幅度譜”。在該示例中，通過使用其幅度譜對譜進行歸一化的結果稱為“歸一化譜”。當譜由X(W)表示吋，幅度譜和歸一化譜可以在數學上分別表示為Ix(W) I和x(w)/|x(w) I。歸ー化譜存儲単元101存儲先前已經計算的歸一化譜。圖4是示出用于計算待存儲在歸一化譜存儲単元101中的歸ー化譜的過程的流程圖。如圖4中所示，首先生成隨機數序列(步驟S1-1)?；谏傻碾S機數序列，通過在非專利文獻I中描述的方法來計算譜的相位分量的群延遲(步驟S1-2)。在以下參考文獻7中描述了譜的相位分量和相位分量的群延遲的定義參考文獻7 Hideki Banno 等，"Speech Manipulation Method Using PhaseManipulation Based on Time-Domain Smoothed Group Delay,"電子、信息和通信工程師協(xié)會學報(Japan)，第 J83-D-2 卷，No. 11，2000，第 2276-2282 頁隨后，通過使用所計算的群延遲來計算歸ー化譜(步驟S1-3)。用于通過使用群延遲來計算歸ー化譜的方法在參考文獻7中進行了描述。最后，檢查所計算的歸ー化譜的數目是否已經達到預置數目(設置值)(步驟S1-4)。如果所計算的歸一化譜的數目已經達到預置數目，則該過程結束，否則該過程返回至步驟Sl-I。在步驟S1-4中用于檢查的預置數目(設置值)等于存儲在歸ー化譜存儲単元101中的歸ー化譜的數目。可期望的是，基于隨機數序列生成待存儲在歸ー化譜存儲単元101中的歸ー化譜，并且生成和存儲大量的歸ー化譜以便保證高隨機性。然而，歸ー化譜存儲單元101需要具有與歸ー化譜的數目相對應的高存儲量。由此，可期望將在步驟S1-4中用于檢查的設置值(預置數目)設置為與話音合成器中可允許的最大存儲量相對應的最大值。具體地，從聲音質量的角度看，如果最多接近一百萬的歸ー化譜存儲在歸ー化譜存儲単元101中，那么是足夠的。
另外，存儲在歸ー化譜存儲単元101中的歸ー化譜的數目應當是兩個或者更多。如果數目是1，也即，如果僅有一個歸ー化譜已存儲在歸一化譜存儲単元101中，則歸ー化譜加載單元102僅加載一種類型的歸ー化譜，也即，每次加載相同的歸ー化譜。在這種情況下，所生成的合成話音的譜的相位分量變?yōu)榭偸遣蛔兊模⑶也蛔兊南辔环至吭斐陕曇糍|量的退化。為此，歸ー化譜存儲單元101應當存儲兩個或者更多個歸ー化譜。如以上所說明的，在歸ー化譜存儲単元101中存儲的歸ー化譜的數目應當設置在2至一百萬的范圍內。由于以下原因，期望存儲在歸ー化譜存儲単元101中的歸ー化譜盡可能彼此不同在歸ー化譜加載単元102以隨機順序從歸ー化譜存儲単元101加載歸ー化譜的情況下，由歸ー化譜加載単元102連續(xù)加載相同歸ー化譜的概率隨著存儲在歸一化譜存儲單元101中的相同歸ー化譜的數目的增加而增加。期望存儲在歸ー化譜存儲単元101中的所有歸ー化譜之中的相同歸ー化譜的比率(百分比)低于10%。如果由歸一化譜加載単元102連續(xù)加載相同的歸ー化譜，則會如上所述發(fā)生由于不變的相位分量而造成的聲音質量退化。在歸ー化譜存儲単元101中，已經按照隨機順序存儲了如下歸ー化譜，這些歸ー化譜中的每ー個基于隨機數序列而生成。為了防止歸ー化譜加載単元102在歸ー化譜的加載中連續(xù)加載相同的歸ー化譜，期望將歸ー化譜存儲単元101內的數據排列為避免在連續(xù)的位置處存儲相同的歸ー化譜。利用這樣的配置，當由歸ー化譜加載単元102進行歸一化譜的連續(xù)加載(順序讀取)時，可以防止連續(xù)加載兩個或者更多個相同歸ー化譜。另外，為了在由歸ー化譜加載単元102進行歸一化譜的隨機加載(隨機讀取)時防止連續(xù)使用兩個或者更多個相同歸ー化譜，期望將話音合成器按照如下配置。歸ー化譜加載單元102包括存儲裝置，該存儲裝置用于存儲已經加載的歸一化譜。歸ー化譜加載單元102判斷當前過程中加載的歸一化譜是否與在先前過程中已經加載并且存儲在存儲裝置中的歸ー化譜相同。當在當前過程中加載的歸一化譜與在先前過程中加載并且存儲在存儲裝置中的歸ー化譜不同時，歸ー化譜加載単元102利用在當前過程中加載的歸一化譜來更新存儲在存儲裝置中的歸ー化譜。相反，當在當前過程中加載的歸一化譜與在先前過程中加載并且存儲在存儲裝置中的歸ー化譜相同時，歸ー化譜加載単元102重復加載歸ー化譜的過程，直到加載了與在先前過程中加載并且存儲在存儲裝置中的歸ー化譜不同的歸ー化譜。以下將參考

根據第一示例性實施方式的話音合成器的波形生成単元4的操作。圖5是示出第一示例性實施方式中的話音合成器的波形生成単元4的操作的流程圖。歸ー化譜加載單元102加載存儲在歸ー化譜存儲單元101中的歸ー化譜(步驟
S2-1)。隨后，歸ー化譜加載單元102向傅里葉逆變換單元55輸出加載的歸ー化譜(步驟
S2-2)。在步驟S2-1中，如果歸ー化譜加載単元102按照隨機順序加載歸ー化譜而不是從歸ー化譜存儲単元101的前端(第一地址)依次地進行加載(例如，以存儲區(qū)域中的地址的順序)，則隨機性增カロ。由此,通過使得歸ー化譜加載單元102以隨機順序加載歸ー化譜，可以改善聲音質量。當存儲在歸ー化譜存儲単元101中的歸ー化譜的數目較小時，這尤其有效。傅里葉逆變換單元55基于從分段選擇單元3供應的分段以及從歸ー化譜加載單元102供應的歸一化譜，生成音高波形，作為具有接近于音高周期的長度的話音波形(步驟
S2-3)。傅里葉逆變換單元55向音高波形疊加單元56輸出所生成的音高波形。附帯地，在該示例中，假設由分段選擇單元3輸出的濁音的分段(濁音分段)是幅度譜。因此，傅里葉逆變換單元55首先通過獲取幅度譜和歸一化譜的乘積來計算譜。隨后，傅里葉逆變換單元55通過計算所計算的譜的傅里葉逆變換來生成音高波形(作為時域信號和話音波形)。音高波形疊加單元56通過在疊加由傅里葉逆變換單元55輸出的多個音高波形時將其連接，而生成具有與由韻律生成単元2輸出的韻律信息相一致或者相似的韻律的濁音波形(步驟S2-4)。例如，音高波形疊加單元56通過采用以下參考文獻8中描述的方法將音高波形疊加并且生成波形參考又獻 8 :Eric Moulines, Francis Charpentier, Pitch-synchronousWaveform Processing i'echniques for Text-to-speech synthesis UsingDiphones, " (Netherlands)，Elsevier Science Publishers B. V. , SpeechCommunication,第 9 卷，1990，第 453-467 頁波形連接單元7通過連接由音高波形疊加單元56生成的濁音波形和由清音生成単元6生成的清音波形輸出合成話音的波形(步驟S2-5)。具體地，假設V (t) (t = 1，2，3，…，t_v)表示由音高波形疊加單元56生成的濁音波形，而u(t)(t= 1,2,3, ···, t_u)表示由清音生成單元6生成的清音波形,波形連接單元7可以例如通過將濁音波形V (t)和清音波形u (t)連接來生成和輸出以下合成話音波形x(t)X (t) = V (t)當 t = 1，...，t_v 時X (t) = u (t~t_v)當 t = (t_v+l) , ...，(t_v+t_u)時在該示例性實施方式中，通過使用先前已經計算并且存儲在歸ー化譜存儲単元101中的歸ー化譜來生成并且輸出合成話音的波形。因此，在生成合成話音時可以省略歸ー化譜的計算。從而，可以減少話音合成時必需的計算的數目。
另外，由于歸ー化譜用于生成合成話音波形，所以與如在專利文獻I中描述的設備中話音分段波形的周期分量和非周期分量用于生成合成話音的情況相比，可以生成更高聲音質量的合成話音。<第二示例性實施方式>以下將參考附圖描述根據本發(fā)明的話音合成器的第二示例性實施方式。該示例性實施方式的話音合成器通過與在第一示例性實施方式中采用的方法不同的方法來生成合成話音。圖6是示出根據本發(fā)明的第二示例性實施方式的話音合成器的配置的示例的框圖。如圖6中所示，根據本發(fā)明的第二示例性實施方式的話音合成器包括傅里葉逆變換單元91,代替圖I中所示的第一示例性實施方式中的傅里葉逆變換單元55。該示例性實施方式的話音合成器包括激勵信號生成単元92和聲道發(fā)音均衡濾波器93，代替音高波形疊加單元56。波形生成単元4不連接至分段選擇單元3而是連接至分段選擇單元32。連接至分段選擇單元32的是分段信息存儲單元122。其他組件與圖I中所示的第一示例性實施方式中的話音合成器是等同的，并且由此為了簡潔而省略了對其的重復說明，并且為其分配了與圖I中相同的參考標記。分段信息存儲單元122已經存儲了線性預測分析參數(一種類型的聲道發(fā)音均衡濾波器系數)作為分段信息。傅里葉逆變換單元91通過計算由歸ー化譜加載単元102輸出的歸ー化譜的傅里葉逆變換來生成時域波形。傅里葉逆變換單元91向激勵信號生成単元92輸出所生成的時域波形。與圖I中所示的第一示例性實施方式中的傅里葉逆變換單元55不同，傅里葉逆變換單元91的傅里葉逆變換計算的計算目標是歸ー化譜。由傅里葉逆變換單元91所采用的計算方法以及由傅里葉逆變換單元91輸出的波形的長度與傅里葉逆變換單元55的等同。激勵信號生成單元92通過在疊加由傅里葉逆變換單元91輸出的多個時域波形時將其連接，而生成具有與由韻律生成単元2輸出的韻律信息相一致或者相似的韻律的激勵信號。激勵信號生成単元92向聲道發(fā)音均衡濾波器93輸出所生成的激勵信號。附帯地，激勵信號生成単元92通過在參考文獻8中描述的方法(例如，類似于圖I中所示的音高波形疊加單元56)來將時域波形疊加并且生成波形。聲道發(fā)音均衡濾波器93通過使用所選擇的分段(由分段選擇單元32輸出)的聲道發(fā)音均衡濾波器系數作為其濾波器系數，并且使用激勵信號(由激勵信號生成単元92輸出)作為其濾波器輸入信號，來向波形連接單元7輸出濁音波形。在線性預測分析參數用作濾波器系數的情況下，聲道發(fā)音均衡濾波器充當線性預測濾波器的反向濾波器，如以下參考文獻9中所述參考文獻9 Takashi Yahagi, " Digital Signal Processing and BasicTheories, " Corona Publishing Co. , Ltd. ,1996,第 85-100 頁波形連接單元7通過執(zhí)行與第一示例性實施方式中的過程等同的過程來生成并且輸出合成話音波形。以下將參考

根據第二示例性實施方式的話音合成器的波形生成単元4的操作。圖7是示出第二示例性實施方式中的話音合成器的波形生成単元4的操作的流程圖。
歸ー化譜加載單元102加載存儲在歸ー化譜存儲單元101中的歸ー化譜(步驟S3-1)。隨后，歸ー化譜加載單元102向傅里葉逆變換單元91輸出加載的歸ー化譜(步驟S3-2)。傅里葉逆變換單元91通過計算由歸ー化譜加載単元102輸出的歸ー化譜的傅里葉逆變換來生成時域波形(步驟S3-3)。傅里葉逆變換單元91向激勵信號生成単元92輸出所生成的時域波形。激勵信號生成単元92基于由傅里葉逆變換單元91輸出的多個時域波形來生成激勵イ■號(步驟S3-4)。聲道發(fā)音均衡濾波器93通過使用來自分段選擇單元32的所選擇的分段的聲道發(fā)音均衡濾波器系數作為其濾波器系數，并且使用來自激勵信號生成単元92的激勵信號作為其濾波器輸入信號，來向波形連接單元7輸出濁音波形(步驟S3-5)。
并且輸出合成話音波形(步驟S3-6)。該示例性實施方式的話音合成器基于歸ー化譜來生成激勵信號，并且繼而基于由激勵信號通過聲道發(fā)音均衡濾波器93的通過(濾波)而獲得的濁音波形來生成合成話音波形。簡言之，話音合成器通過與第一示例性實施方式的話音合成器采用的方法不同的方法來生成合成話音。根據該示例性實施方式，可以類似于第一示例性實施方式減少話音合成時必需的計算的數目。由此，即使在通過與由第一示例性實施方式中的話音合成器采用的方法不同的方法生成合成話音時，也有可能類似于第一示例性實施方式減少話音合成時必需的計算的數目。另外，由于類似于第一示例性實施方式，歸ー化譜用于生成合成話音波形，所以與如在專利文獻I中描述的設備中話音分段波形的周期分量和非周期分量用于生成合成話音的情況相比，可以生成更高聲音質量的合成話音。圖8是示出根據本發(fā)明的話音合成器的主體部分的框圖。如圖8中所示，話音合成器200包括池音生成單元201 (與圖I或者圖6中所示的池音生成單元5相對應)、清音生成單元202 (與圖I或者圖6中所示的清音生成單元6相對應)以及合成話音生成單元203 (與圖I或者圖6中所示的波形連接單元7相對應)。池音生成單元201包括歸ー化譜存儲單元204(與圖I或者圖6中所示的歸ー化譜存儲單元101相對應)。歸ー化譜存儲単元204預存儲基于隨機數序列計算的一個或多個歸ー化譜。濁音生成単元201基于與輸入文本相對應的濁音的多個分段以及存儲在歸一化譜存儲単元204中的歸ー化譜來生成濁音波形。清音生成単元202基干與文本相對應的清音的多個分段來生成清音波形。合成話音生成単元203基于由濁音生成単元201生成的濁音波形和由清音生成単元202生成的清音波形來生成合成話音。利用這樣的配置，通過使用預存儲在歸ー化譜存儲単元204中的歸ー化譜生成合成話音的波形。由此，在生成合成話音時可以省略歸ー化譜的計算。從而，可以減少話音合成時必需的計算的數目。另外，由于話音合成器使用歸ー化譜來生成合成話音波形，所以與話音分段波形的周期分量和非周期分量用于生成合成話音的情況相比，可以生成更高聲音質量的合成話
曰以上示例性實施方式中還公開了以下話音合成器(1)-(5)(I)話音合成器，其中，濁音生成単元201基于存儲在歸ー化譜存儲単元204中的歸ー化譜以及幅度譜來生成多個音高波形作為與文本相對應的濁音的分段，并且基于所生成的音高波形來生成濁音波形。(2)話音合成器，其中，濁音生成単元201基于存儲在歸ー化譜存儲単元204中的歸ー化譜來生成時域波形，基于所生成的時域波形和與輸入文本相對應的韻律來生成激勵信號，并且基于所生成的激勵信號來生成濁音波形。(3)話音合成器，其中，通過使用基于隨機數序列的群延遲來計算的ー個或多個歸一化譜預存儲在歸一化譜存儲単元204中。 (4)話音合成器，其中，歸ー化譜存儲単元204預存儲兩個或者更多個歸ー化譜。濁音生成単元201通過使用與用于生成先前的濁音波形的歸ー化譜不同的歸ー化譜來生成每個濁音波形。利用這樣的配置，可以防止由于歸ー化譜的不變相位分量而造成的合成話音的聲音質量的退化。(5)話音合成器，其中，在歸ー化譜存儲単元204中存儲的歸ー化譜的數目在2至一百萬的范圍內。雖然以上已經參考示例性實施方式和示例描述了本發(fā)明，但是本發(fā)明不限于特定示出的示例性實施方式和示例。在本發(fā)明的范圍內，可以對本發(fā)明的配置和細節(jié)做出本領域技術人員可理解的多種修改。本申請要求于2010年3月25日提交的日本專利申請?zhí)?010-070378的優(yōu)先權，在此通過引用并入其全部公開內容。エ業(yè)可應用性本發(fā)明可應用于多種生成合成話音的設備中。參考標記列表I語言處理單元2韻律生成単元3、32分段選擇單元4波形生成單元5濁音生成單元6清音生成單元7波形連接單元12,122分段信息存儲單元55,91傅里葉逆變換單元56音高波形疊加單元92激勵信號生成単元93聲道發(fā)音均衡濾波器101歸ー化譜存儲單元102歸ー化譜加載單元
權利要求
1.一種話音合成器，其生成輸入文本的合成話音，包括濁音生成単元，其包括預存儲基于隨機數序列而計算的一個或多個歸ー化譜的歸一化譜存儲単元，并且基干與所述文本相對應的濁音的多個分段和存儲在所述歸ー化譜存儲單元中的所述歸ー化譜，生成濁音波形；清音生成単元，其基干與所述文本相對應的清音的多個分段，生成清音波形；以及合成話音生成単元，其基于由所述濁音生成単元生成的所述濁音波形和由所述清音生成単元生成的所述清音波形，生成所述合成話音。
2.根據權利要求I所述的話音合成器，其中所述濁音生成単元基于存儲在所述歸ー化譜存儲単元中的所述歸ー化譜以及幅度譜，生成多個音高波形作為與所述文本相對應的濁音的分段，并且基于所述生成的音高波形，生成所述濁音波形。
3.根據權利要求I所述的話音合成器，其中所述濁音生成単元基于存儲在所述歸ー化譜存儲単元中的所述歸ー化譜，生成時域波形，基于所述生成的時域波形和與所述輸入文本相對應的韻律，生成激勵信號，并且基于所述生成的激勵信號，生成所述濁音波形。
4.根據權利要求I至3中任一項所述的話音合成器，其中通過使用基于隨機數序列的群延遲來計算的一個或多個歸ー化譜被預存儲在所述歸ー化譜存儲單元中。
5.根據權利要求I至4中任一項所述的話音合成器，其中所述歸ー化譜存儲単元預存儲兩個或者更多個歸ー化譜，并且所述濁音生成単元通過使用與用于生成先前的濁音波形的歸ー化譜不同的歸ー化譜，生成每個濁音波形。
6.根據權利要求I至5中任一項所述的話音合成器，其中存儲在所述歸ー化譜存儲單元中的歸ー化譜的數目在2至一百萬的范圍內。
7.一種用于生成輸入文本的合成話音的話音合成方法，包括基干與所述文本相對應的濁音的多個分段和存儲在用于預存儲基于隨機數序列而計算的歸一化譜的歸一化譜存儲單元中的一個或多個歸ー化譜，生成濁音波形；基干與所述文本相對應的清音的多個分段，生成清音波形；以及基于所述生成的濁音波形和所生成的清音波形，生成所述合成話音。
8.根據權利要求7所述的話音合成方法，其中基于存儲在所述歸ー化譜存儲単元中的所述歸ー化譜和幅度譜，生成多個音高波形作為與所述文本相對應的濁音的分段，并且基于所述生成的音高波形來生成所述濁音波形。
9.一種待安裝在話音合成器中的話音合成程序,所述話音合成器生成輸入文本的合成話音，其中所述話音合成程序使得計算機執(zhí)行濁音波形生成過程，所述濁音波形生成過程基干與所述文本相對應的濁音的多個分段以及存儲在用于預存儲基于隨機數序列而計算的歸ー化譜的歸一化譜存儲単元中的ー個或多個歸ー化譜，生成濁音波形；清音波形生成過程，所述清音波形生成過程基干與所述文本相對應的清音的多個分段，生成清音波形；并且合成話音生成過程，所述合成話音生成過程基于在所述濁音波形生成過程中生成的所述濁音波形以及在所述清音波形生成過程中生成的所述清音波形，生成所述合成話音。
10.根據權利要求9所述的話音合成程序，其中所述濁音波形生成過程基于存儲在所述歸ー化譜存儲単元中的所述歸ー化譜以及幅度譜，生成多個音高波形作為與所述文本相對應的濁音的分段，并且基于所述生成的音高波形，生成所述濁音波形。
全文摘要
歸一化譜存儲單元(204)預存儲基于隨機數序列計算的歸一化譜。濁音生成單元(201)基于與輸入文本相對應的濁音的多個分段以及存儲在歸一化譜存儲單元(204)中的歸一化譜來生成濁音波形。清音生成單元(202)基于與輸入文本相對應的清音的多個分段來生成清音波形。合成話音生成單元(203)基于由濁音生成單元(201)生成的濁音波形和由清音生成單元(202)生成的清音波形來生成合成話音。
文檔編號G10L13/08GK102822888SQ201180016109
公開日2012年12月12日申請日期2011年3月23日優(yōu)先權日2010年3月25日
發(fā)明者加藤正德申請人:日本電氣株式會社

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：加藤正德
技術所有人：日本電氣株式會社
我是此專利的發(fā)明人

上一篇：音響裝置的制作方法
上一篇：調節(jié)弦樂器的弦張力的調節(jié)驅動的制作方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

音樂合成器在線制作相關技術

音樂合成器相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

話音合成器、話音合成方法和話音合成程序的制作方法

話音合成器、話音合成方法和話音合成程序的制作方法