專利名稱:語音翻譯裝置和方法
技術領域:
本發(fā)明涉及語音翻譯裝置和方法,其執(zhí)行語音識別、機器翻譯和語音合成,從而將第一語言的輸入語音翻譯成第二語言的輸出語音。
背景技術:
至今已開發(fā)的任何語音翻譯裝置都執(zhí)行三個步驟,即語音識別、機器翻譯和語音合成,從而將第一語言的輸入語音翻譯成第二語言的輸出語音。也就是說,其執(zhí)行:步驟(a),識別第一語言的輸入語音,生成第一語言的文本;步驟(b),對第一語言的文本進行機器翻譯,生成第二語言的文本;以及步驟(c),對第二語言的文本執(zhí)行語音合成,生成第二語言的輸出語音。
輸入語音不僅包含由文本表示的語言信息,而且包括所謂的副語言(paralinguistic)信息。副語言信息是顯示說話人的重點、強度和態(tài)度的韻律信息。副語言信息不能由文本表示,并將在識別輸入語音的過程中丟失。不可避免地,傳統(tǒng)的語音翻譯裝置很難生成反映副語言信息的輸出語音。
JP-A H6-332494(公開號)公開了一種語音翻譯裝置,其分析輸入語音,從輸入語音中提取帶有重音的詞,并將重音添加到輸出語音中與從輸入語音中提取的詞等同的那些詞上。JP-A 2001-117922(公開號)公開了一種語音翻譯裝置,其生成翻譯后的語音,在該語音中,詞順序被改變,并且使用了合適的格助詞,從而反映韻律信息。
JP-A H6-332494(公開號)公開的語音翻譯裝置僅僅基于輸入語音中包含的語言信息分析了帶有重音的詞,然后將重音添加到翻譯后的語音所包括的等同的詞上。其在輸出語音中沒有反映副語言信息。
JP-A 2001-117922(公開號)公開的語音翻譯裝置的缺點在于:輸入語音被限制為韻律信息可通過改變詞順序和使用合適的格助詞來表示的語言。因此,如果輸入語音采用例如一種詞序變化很小的西方語言或者沒有格助詞的中文,則該語音翻譯裝置不能生成充分反映韻律信息的翻譯后的語音。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提供了一種語音翻譯裝置,其包括:用于識別第一語言的輸入語音以生成所述第一語言的第一文本的語音識別單元;用于分析所述輸入語音的韻律以獲得原始韻律信息的韻律分析單元;用于將第一文本分割成第一組詞以獲得第一語言信息的第一語言-分析單元;用于基于所述第一語言信息生成第一合成韻律信息的第一生成單元;用于比較所述原始韻律信息和所述第一合成韻律信息以提取關于所述第一組詞的每一個的副語言信息的提取單元;用于將所述第一文本翻譯成第二語言的第二文本的機器翻譯單元;用于將所述第二文本分割成第二組詞以獲得第二語言信息的第二語言-分析單元;用于根據(jù)同義性將關于所述第一組詞的每一個的副語言信息分配給所述第二組詞的每一個的映射單元;用于基于所述第二語言信息和分配給所述第二組詞的每一個的副語言信息生成第二合成韻律信息的第二生成單元;以及用于基于所述第二語言信息和所述第二合成韻律信息合成輸出語音的語音合成單元。
圖1是示出根據(jù)一個實施例的語音翻譯裝置的方框圖; 圖2是說明圖1的語音翻譯裝置如何工作的流程圖; 圖3是表示通過利用圖1中所示的韻律分析單元分析原始韻律信息而獲得的示例性對數(shù)基頻輪廓線的曲線圖; 圖4是表示由圖1中所示的第一生成單元生成的第一合成韻律信息的示例性的對數(shù)基頻輪廓線的曲線圖; 圖5是表示由圖1中所示的第二生成單元僅根據(jù)第二語言信息生成的合成韻律信息的示例性的對數(shù)基頻輪廓線的曲線圖; 圖6是表示通過使用副語言信息校正圖5的對數(shù)基頻輪廓線而獲得的合成韻律信息的示例性的對數(shù)基頻輪廓線的曲線圖。
具體實施例方式 本發(fā)明的實施例將參照附圖進行描述。
(第一實施例) 如圖1所示,根據(jù)本發(fā)明的實施例的語音翻譯裝置具有語音識別單元101、韻律分析單元102、第一語言-分析單元103、第一生成單元104、提取單元105、機器翻譯單元106、第二語言-分析單元107、映射單元108、第二生成單元109以及語音合成單元110。
語音識別單元101識別第一語言的輸入語音120,并生成最忠實地描述輸入語音120的識別文本121。盡管語音識別單元101沒有在操作方面被詳細定義,但其具有接收輸入語音120并根據(jù)輸入語音120生成語音信號的麥克風。語音識別單元101對語音信號執(zhí)行模數(shù)轉換以生成數(shù)字語音信號,然后從數(shù)字語音信號中提取一系列特征量,諸如線性預測系數(shù)或頻率倒譜系數(shù),并通過使用聲學模型來識別輸入語音120。該聲學模型例如是隱馬爾可夫模型(HMM)。
韻律分析單元102接收輸入語音120并逐個分析構成輸入語音120的詞。更具體地,單元102分析每一個詞的韻律信息,例如,基頻和平均功率的變化。這個分析的結果作為原始韻律信息122輸入到提取單元105。
第一語言-分析單元103接收識別文本121,并分析關于文本121的語言信息,例如詞邊界、詞性和句子結構,從而生成第一語言信息123。第一語言信息123被輸入到第一生成單元104。第一生成單元104根據(jù)第一語言信息123生成第一合成韻律信息124。第一合成韻律信息124被輸入到提取單元105。
提取單元105比較原始韻律信息122和第一合成韻律信息124,并提取副語言信息125。原始韻律信息122已經(jīng)通過直接分析輸入語音120而獲得。因此,原始韻律信息122不僅包括語言信息,而且包括副語言信息,例如,說話人的重點、強度和態(tài)度。另一方面,第一合成韻律信息124已經(jīng)根據(jù)通過分析識別文本121而獲得的第一語言信息123生成。然而,第一合成韻律信息124不包含副語言信息,該副語言信息包含在輸入語音120中,并且在輸入語音120在語音識別單元101中被轉換為識別文本121時丟失。因此,原始韻律信息122和第一合成韻律信息124之間的差異對應于副語言信息125。基于這個差異,提取單元105逐詞地提取副語言信息125。這樣提取的副語言信息125被輸入到映射單元108。
由非特定的人講的輸入語音具有特殊的非語言特征。因此,提取單元105對原始韻律信息122和第一合成韻律信息124都進行歸一化。例如,提取單元105對原始韻律信息122中的每個詞的峰值與原始韻律信息122的線性回歸值的比率(例如,基頻和平均功率隨時間的變化)進行歸一化,作為原始韻律信息122的特征量。提取單元105也以相似的方式對第一合成韻律信息124進行歸一化。然后,提取單元105按照特征量將這些詞進行相互比較,并提取副語言信息125。更準確地,單元105提取通過從利用對原始韻律信息122進行歸一化來對每個詞計算的特征量中減去利用對第一合成韻律信息124進行歸一化來對該詞計算的特征量而獲得的值,作為副語言信息125。
機器翻譯單元106執(zhí)行機器翻譯,將識別文本121翻譯成第二語言的文本,即翻譯文本126,翻譯文本126被輸入到第二語言-分析單元107。也就是說,機器翻譯單元106使用例如詞典數(shù)據(jù)庫、分析語法數(shù)據(jù)庫、語言轉換數(shù)據(jù)庫等等(未示出),對識別文本121執(zhí)行語素分析和結構分析。這樣,單元106將識別文本121轉換成翻譯文本126。進一步地,機器翻譯單元106將表示識別文本121的每個詞與翻譯文本126的等同詞之間的關系的信息和翻譯文本126一起輸入到第二語言-分析單元107。
正如第一語言-分析單元103那樣,第二語言-分析單元107分析關于翻譯文本126的語言信息,例如詞邊界、詞性和句子結構,從而生成第二語言信息127。第二語言信息127被輸入到映射單元108、第二生成單元109和語音合成單元110。
映射單元108將提取單元105已提取的關于每個詞的副語言信息125應用于第二語言的等同詞(翻譯詞)。也就是說,映射單元108根據(jù)同義性將副語言信息125分配給每一個翻譯詞。更具體地,映射單元108參考從第二語言-分析單元107提供的第二語言信息127,獲取表示識別文本121中的每個第一語言的詞和翻譯文本126中的等同第二語言的詞之間的對應關系的信息。根據(jù)該對應關系,映射單元108將副語言信息125分配給翻譯文本126中的等同詞(翻譯詞),從而映射副語言信息125。映射單元108可根據(jù)預先設置的轉換規(guī)則分配副語言信息125,該轉換規(guī)則在第一語言的詞不能簡單地只對應第二語言的一個詞,或者對應于第二語言的兩個不同的詞的情況下應用。這樣,被映射單元108映射的副語言信息125或者被映射的副語言信息128被輸入到第二生成單元109。
第二生成單元109根據(jù)第二語言信息127和被映射的副語言信息128生成第二合成韻律信息129。更具體地,第二生成單元109只根據(jù)第二語言信息127生成合成韻律信息,并然后將副語言信息128應用于合成韻律信息,從而生成第二合成韻律信息129。副語言信息128可以是例如在前述的峰值與線性回歸值的比率方面的差異。在這種情況下,第二生成單元109將副語言信息128添加到只根據(jù)第二語言信息生成的合成韻律信息的比率上,從而校正該比率,并基于這樣被校正的比率生成第二合成韻律信息129。第二合成韻律信息129被輸入到語音合成單元110。
語音合成單元110使用第二語言信息127和第二合成韻律信息129來合成輸出語音130。
參照圖2的流程圖解釋圖1所示的語音翻譯裝置如何工作。
首先,語音120被輸入到語音識別單元101(步驟S301)。假設語音120輸入例如是口語英語文本“Today’s game is wonderful”,其中,說話人將重點落在單詞“Today’s”上。語音識別單元101識別在步驟S301輸入的語音120,并輸出識別文本121“Today’s game is wonderful”(步驟S302)。
接著,圖1的語音翻譯裝置進行并行處理。換句話說,圖1的語音翻譯裝置并行地執(zhí)行步驟S303到S305的處理和步驟S306的處理。隨后,語音翻譯裝置執(zhí)行步驟307。
在步驟S303,韻律分析單元102分析關于輸入語音120的韻律信息。單元102在基頻隨時間變化方面逐個地分析構成輸入語音120的詞,生成原始韻律信息122。原始韻律信息122被輸入到提取單元105。
第一語言-分析單元103分析關于識別文本121的語言信息,生成第一語言信息123。第一語言信息123被輸入到第一生成單元104。第一生成單元104根據(jù)第一語言信息123生成第一合成韻律信息124。第一合成韻律信息124被輸入到提取單元105(步驟S304)。注意,步驟S303和S304可以按倒序執(zhí)行。
然后,提取單元105比較原始韻律信息122和第一合成韻律信息124,并提取副語言信息125(步驟S305)。更準確地,提取單元105通過使用下面將描述的方法來提取副語言信息125。
圖3是表示在成年男子產(chǎn)生重點在“Today’s”上的口語文本“Today’sgame is wonderful”的情況下分析基頻的結果的圖。在圖3中,時間(ms)被標示在橫坐標上,底數(shù)是2的對數(shù)基頻被標示在縱坐標上。在圖3中,點表示分析的結果,并且繪制了線性回歸線。圖3中所示的基頻的峰值與線性回歸值的比率(以下稱為第一特征量)在下面的表1中給出。
表1 圖4是表示對根據(jù)通過分析文本“Today’s game is wonderful”而獲得的語言信息合成的成年女子聲音進行的基頻分析的結果的圖。在圖4中,時間(ms)被標示在橫坐標上,底數(shù)是2的對數(shù)基頻被標示在縱坐標上,點表示分析的結果,并且繪制了線性回歸線。圖4中所示的基頻的峰值與線性回歸值的比率(以下稱為第二特征量)在下面的表2中給出。
表2 提取單元105比較源自原始韻律信息122的第一特征量和源自第一合成韻律信息124的第二特征量,從而提取副語言信息125。例如,提取單元105從第一特征量中減去第二特征量,如表3所示,生成副語言信息125。副語言信息125被輸入到映射單元108。
表3 在步驟S306中,機器翻譯單元106對識別文本121執(zhí)行機器翻譯。在本例中,單元106將識別文本121翻譯成第二語言的翻譯文本126“Kyou noshiai ha subarashikatta”。在生成翻譯文本126的過程中,機器翻譯單元106保持識別文本121中的每個詞與翻譯文本126中的等同詞之間的對應關系,并將如表4所示的這種詞到詞的對應關系與翻譯文本126一起輸入到第二語言-分析單元107。
表4 在步驟S307,映射單元108將在步驟S305中對每個詞提取的副語言信息125分配給翻譯文本126中的等同翻譯詞。為了以這種方式分配副語言信息125,映射單元108使用從第二語言-分析單元107輸入的第二語言信息127和如表4所示的詞到詞的對應關系。首先,映射單元108使用第二語言信息127,從而檢測構成翻譯文本126的詞。然后,映射單元108參考表4,將表3中所示的副語言信息125分配給第二語言的詞,其分別地等同于構成識別文本121的詞“Today’s”、“game”、“is”和“wonderful”。已在步驟S305中提取的副語言信息125的所有項目當然可被分配給翻譯文本126。另一方面,只有正值的項目可以分配給翻譯文本126,這種方式將在下面說明。在表3的情況下,例如,詞“is”和“wonderful”的副語言信息項具有負值。因此,映射單元108不向翻譯詞“subarashikatta”分配副語言信息125,并執(zhí)行如表5所示的分配。接下來的說明是基于映射單元108執(zhí)行表5所示的分配的假設。
表5 接下來,第二生成單元109根據(jù)已在步驟S307中分配的副語言信息128生成第二合成韻律信息129(步驟S308)。更具體地,第二生成單元109首先僅根據(jù)第二語言信息127生成合成韻律信息。圖5示出了對根據(jù)通過分析文本“Kyou no shiai ha subarashikatta”而獲得的語言信息合成的成年女子的聲音進行的基頻分析的結果。在圖5中,時間(ms)被標示在橫坐標上,底數(shù)是2的對數(shù)基頻被標示在縱坐標上,點表示分析的結果,并且繪制了線性回歸線。圖5所示的基頻的峰值與線性回歸值的比率(以下稱為第三特征量)在下面的表6中給出。
表6 第二生成單元109通過使用第四特征量來生成第二合成韻律信息129,其中,第四特征量通過在根據(jù)合成韻律信息獲得的第三特征量中反映副語言信息128而獲得,而該合成韻律信息已經(jīng)只根據(jù)第二語言信息127生成。例如,第二生成單元109將副語言信息128添加到第三特征量,從而生成第四特征量。如果通過將表5所示的副語言信息128添加到表6所示的第三特征量來產(chǎn)生,則第四特征量將具有表7中所示的值。
表7 使用第四特征量,第二生成單元109按照下面的公式(1)計算對于第i個詞wi(i是正整數(shù))的第二合成韻律信息129的對數(shù)基頻的峰值fpeak(wi)。
fpeak(wi)=flinear(wi)×Pparalingual(wi)(1) 其中,flinear(wi)是詞wi所在的對數(shù)基頻的線性回歸值,合成韻律信息在詞wi的峰值處具有峰值,Pparalingual(wi)是詞wi具有的第四特征量。
使用前述的值fpeak(wi),第二生成單元109按照下面的公式(2)計算第二合成韻律信息的對數(shù)基頻的目標輪廓線fparalingual(t,wi)。
其中,fnormal(t,wi)是只根據(jù)第二語言信息127生成的合成韻律信息中詞wi處的對數(shù)基頻的輪廓線,fmin(wi)和fmax(wi)分別是輪廓線fnormal(t,wi)的最小值和最大值。
如果目標輪廓線fparalingual(t,wi)上升超過規(guī)定的對數(shù)基頻的上限或者下降低于規(guī)定的對數(shù)基頻的下限,則第二生成單元109按照下面給出的公式(3)調(diào)整該輪廓線。上限和下限取決于輸出語音的類型而改變。也就是說,其具有根據(jù)假設為產(chǎn)生輸出語音的人的性別和年齡而預先設置的合適的值。
其中,F(xiàn)top和Fbottom分別是輸出語音的對數(shù)基頻的上限和下限,fparalingual(t)是通過添加前述的目標輪廓線fparalingual(t,wi)而獲得的翻譯文本的對數(shù)基頻的目標輪廓線,fMAX是目標輪廓線fparalingual(t)的最大值,ffinal(t)是最終用作第二合成韻律信息129的對數(shù)基頻的輪廓線。圖6示出按照公式(1)-(3)根據(jù)圖5所示的對數(shù)基頻輪廓線和表7所示的第四特征量計算的對數(shù)基頻輪廓線。在圖6中,圓點表示圖5所示的對數(shù)基頻輪廓線,方點表示通過在圖5的對數(shù)基頻輪廓線中反映第四特征量而獲得的輪廓線。
接下來,語音合成單元110通過合成在步驟S308中獲得的第二合成韻律信息129和從第二語言-分析單元107輸入的第二語言信息127來生成輸出語音130(步驟S309)。在步驟S309中生成的輸出語音130從揚聲器(未示出)輸出(步驟S310)。
如上所述,根據(jù)本實施例的語音翻譯裝置對于每一個詞比較原始韻律信息和基于識別文本合成的韻律信息,從而提取副語言信息,并在等同于該詞的翻譯詞中反映副語言信息。因此,該裝置可以生成反映諸如說話人的重點、強度和態(tài)度的副語言信息的輸出語音。因此,語音翻譯裝置可以幫助其用戶促進順暢的交流。此外,該裝置能夠在輸出語音中反映副語言信息,即使第一語言是詞序變化很小的西方語言或者沒有格助詞的中文。在上述說明的方案中,韻律信息從表示基頻隨時間的變化的原始韻律信息中提取,作為副語言信息。替代地,副語言信息可從表示平均功率隨時間的變化的原始韻律信息中提取。
(第二實施例) 在前面描述的第一實施例中,副語言信息從基頻隨時間的變化和平均功率隨時間的變化中提取,作為韻律信息,然后反映在輸出語音中。將描述根據(jù)本發(fā)明的第二實施例的語音翻譯裝置,其中,副語言信息從輸入語音的每一個詞的時長中提取,并反映在輸出語音中。下面的說明主要集中于與第一實施例不同的部分。
每一個詞的時長不能用任何隨時間的變化表示。因此,在本實施例中,副語言信息是向量,其中一個分量是根據(jù)每一個詞的時長計算的特征量。更具體地,韻律分析單元102分析輸入語音120中的每個詞,以測量構成該詞的語音單元的時長。語音單元可以根據(jù)第一語言的類型,即輸入語音120的語言,而不同。如果第一語言是英語或中文,則音節(jié)適合作為語音單元。如果第一語言是日語,則音拍適合作為語音單元。
表8示出了構成口語文本“Today’s game is wonderful”的音節(jié)(即語音單元)的時長,其中該口語文本由成年男子產(chǎn)生,并且他將重點放在詞“Today’s”上。
表8
在本實施例中,每個音節(jié)的時長被歸一化成時長與平均音節(jié)時長的比率(以下稱為歸一化時長)。表9示出了通過對表8中列出的音節(jié)時長進行歸一化而獲得的歸一化時長。
表9
在這個實施例中,提取單元105基于上面所定義的歸一化時長確定各個詞的特征量。特征量對不同的語言可不同。例如,英語單詞的特征量可以是具有內(nèi)容詞的主重音的音節(jié)的歸一化時長。如果輸入語音是口語日語文本,則構成任意內(nèi)容詞的音拍的歸一化時長的平均值是該詞的特征量。表10示出了各個內(nèi)容詞的特征量(以下稱為第一特征量),其已從原始韻律信息122中獲得,即表9中所示的歸一化時長。
表10 因此,根據(jù)本實施例的語音翻譯裝置的提取單元105確定各個詞的特征量。提取單元105也以相似的方式確定第一合成韻律信息124中的各個詞的特征量(以下稱為第二特征量)。表11示出了在關于文本“Today’sgame is wonderful”的第一合成韻律信息124中的各個音節(jié)的時長和這些音節(jié)的平均時長。
表11 表12示出各個音節(jié)的歸一化時長,其中每一個都是時長與平均音節(jié)時長的比率。
表12
表13示出這些詞的第二特征量,其中每一個都從具有主重音的每個內(nèi)容詞的音節(jié)中獲得。
表13 提取單元105提取在源自原始韻律信息122的第一特征量和源自第一合成韻律信息124的第二特征量之間的差異,作為副語言信息125。表14示出了從表10所示的第一特征量和表13所示的第二特征量中提取的副語言信息125。
表14 映射單元108在映射副語言信息125的過程中,將翻譯文本中的每個詞乘以用于校正語言之間在特征上的不同的系數(shù)。更準確地,映射單元108在從英語到日語的翻譯中將副語言信息125乘以0.5,在從日語到英語的翻譯中將副語言信息乘以2.0(即0.5的倒數(shù))。如果副語言信息125的絕對值變得小于預先設置的閾值,則任何詞都可以不進行映射。也就是說,0.0可以應用于這個詞。映射單元108只對正值或者對正值和負值兩者進行映射。下面的說明涉及映射單元108對正值和負值兩者進行映射的情況。表15示出了副語言信息映射的結果,其中校正系數(shù)0.5被應用于表14所示的副語言信息,并且適用前面提到的閾值。
表15 假設第二生成單元109僅根據(jù)通過分析口語日語文本“Kyou no shiaiha subarashikatta”而獲得的第二語言信息127生成關于采用女聲的合成日語語音的合成韻律信息。表16示出了由該合成韻律信息表示的各個音拍的時長,以及這些時長的平均值。在此,在表16和后面提到的表17、20和21中,“Q”表示雙輔音或長輔音。
表16
表17示出通過用平均時長對各個音拍的時長(即表16中示出的時長)進行歸一化而獲得的值。
表17
正如已經(jīng)指出的,任何日語文本中的每個內(nèi)容詞的特征量是構成該內(nèi)容詞的音拍的歸一化時長的平均值。表18示出了從關于第二生成單元109僅根據(jù)第二語言信息127生成的合成韻律的信息中獲得的特征量。這些特征量(以下稱為第三特征量)從表17所示的各個音拍的時長中獲得。
表18 第二生成單元109將副語言信息128反映在如前面所描述而獲得的只基于第二語言信息127的第三特征量中。表19示出特征量(以下稱為第四特征量),其中,每一個特征量都是反映表15所示的副語言信息的第三特征量。
表19 第二生成單元109基于反映了副語言信息128的第四特征量校正每個音拍的歸一化的時長。更準確地,第二生成單元109將每個詞的歸一化的音拍時長(表17所示)和第四特征量與第三特征量的比率相乘,從而增加或者減少歸一化的音拍時長。表20示出了這樣被校正的歸一化時長。
表20
然后,第二生成單元109根據(jù)這樣被校正的歸一化時長計算每個音拍的時長。更具體地,第二生成單元109將這樣被校正的歸一化時長乘以音拍的平均時長(=0.13秒),得到第二合成韻律信息129中每個音拍的時長。表21示出了第二合成韻律信息129中各個音拍的時長。
表21
語音合成單元110通過使用從第二語言-分析單元107輸出的第二語言信息127和從第二生成單元109輸出的第二合成韻律信息129中音拍的時長來合成輸出語音的波形。取決于用于生成輸出語音的波形的方案,音拍的時長必須被分割成諸如輔音和元音的音素的時長。在第二生成單元109開始時的每個音拍的時長與在第二生成單元109結束時的對應的每個音拍的時長之間的差異可根據(jù)預先設置的輔音與元音之間的分配比率,進一步分配給每個輔音或元音。如何將音拍的時長差異分配成輔音或元音的時長差異將不進行詳細描述。
正如已經(jīng)描述的,在根據(jù)本實施例的語音翻譯裝置中,副語言信息通過使用每個語音單元的時長與語音單元的平均時長的比率來提取。因此,該裝置可以生成反映諸如說話人的重點、強度和態(tài)度的副語言信息的輸出語音,如根據(jù)第一實施例的語音翻譯裝置一樣。因此,該裝置可以幫助用戶促進順暢的交流。另外,該裝置可以在輸出語音中反映副語言信息,即使輸入語音是采用詞序改化很小的西方語言或者沒有格助詞的中文產(chǎn)生的。
語音翻譯裝置可以使用例如通用計算機作為其主要硬件。換句話說,該語音翻譯裝置的許多部件可以被實現(xiàn)為包含在執(zhí)行各種程序的計算機中的微處理器。程序可以存儲在計算機可讀存儲器中,安裝在計算機上,并從諸如CD-ROM的記錄介質(zhì)中讀入計算機,或者經(jīng)由網(wǎng)絡分發(fā)后讀入計算機。
其它優(yōu)點和修改對于本領域技術人員來說是易于想到的。因此,本發(fā)明在更寬的方面并不限制于在這里所示出和描述的特定的細節(jié)和典型實施例。因此,在不脫離由附加權利要求及其等同物所限定的總的發(fā)明構思的精神或者范圍下,可以進行各種修改。
權利要求
1.一種語音翻譯裝置,包括
語音識別單元,用于識別第一語言的輸入語音以生成所述第一語言的第一文本;
韻律分析單元,用于分析所述輸入語音的韻律以獲得原始韻律信息;
第一語言-分析單元,用于將所述第一文本分割成第一組詞以獲得第一語言信息;
第一生成單元,用于基于所述第一語言信息生成第一合成韻律信息;
提取單元,用于比較所述原始韻律信息和所述第一合成韻律信息以提取關于所述第一組詞的每一個的副語言信息;
機器翻譯單元,用于將所述第一文本翻譯成第二語言的第二文本;
第二語言-分析單元,用于將所述第二文本分割成第二組詞以獲得第二語言信息;
映射單元,用于根據(jù)同義性將關于所述第一組詞的每一個的副語言信息分配給所述第二組詞的每一個;
第二生成單元,用于基于所述第二語言信息和分配給所述第二組詞的每一個的副語言信息生成第二合成韻律信息;以及
語音合成單元,用于基于所述第二語言信息和所述第二合成韻律信息合成輸出語音。
2.如權利要求1所述的裝置,其中,所述提取單元對所述原始韻律信息進行歸一化以對所述第一組詞的每一個計算第一特征量,對所述第一合成韻律信息進行歸一化以對所述第一組詞的每一個計算第二特征量,并比較所述第一特征量和所述第二特征量,以提取關于所述第一組詞的每一個的副語言信息。
3.如權利要求1所述的裝置,其中,所述提取單元對所述原始韻律信息進行歸一化以對所述第一組詞的每一個計算第一特征量,對所述第一合成韻律信息進行歸一化以對所述第一組詞的每一個計算第二特征量,并比較所述第一特征量和所述第二特征量,以提取關于所述第一組詞的每一個的副語言信息;所述第二生成單元基于所述第二語言信息生成第三合成韻律信息,對所述第三合成韻律信息進行歸一化以對所述第二組詞的每一個計算第三特征量,基于所述副語言信息校正所述第三特征量以計算第四特征量,并使用所述第四特征量以生成所述第二合成韻律信息。
4.如權利要求3所述的裝置,其中,所述副語言信息是通過從所述第一特征量中減去所述第二特征量而獲得的值,所述第四特征量是通過將所述副語言信息加到所述第三特征量而獲得的值。
5.如權利要求4所述的裝置,其中,所述映射單元只在所述副語言信息是正值時將所述副語言信息分配給所述第二組詞的每一個。
6.如權利要求3所述的裝置,其中,所述第一特征量是所述第一組詞的每一個的原始韻律信息的基頻的峰值與線性回歸值的比率;所述第二特征量是所述第一組詞的每一個的第一合成韻律信息的基頻的峰值與線性回歸值的比率;所述第三特征量是所述第二組詞的每一個的第三合成韻律信息的基頻的峰值與線性回歸值的比率。
7.如權利要求3所述的裝置,其中,所述第一特征量是所述第一組詞的每一個的原始韻律信息的平均功率的峰值與線性回歸值的比率;所述第二特征量是所述第一組詞的每一個的第一合成韻律信息的平均功率的峰值與線性回歸值的比率;所述第三特征量是所述第二組詞的每一個的第三合成韻律信息的平均功率的峰值與線性回歸值的比率。
8.如權利要求3所述的裝置,其中,所述第一特征量由通過分割所述第一組詞的每一個而獲得的第一組語音單元的每一個的時長與有關所述原始韻律信息的第一組語音單元的平均時長的比率確定;所述第二特征量由所述第一組語音單元的每一個的時長與關于所述第一合成韻律信息的第一組語音單元的平均時長的比率確定;所述第三特征量由通過分割所述第二組詞的每一個而獲得的第二組語音單元的每一個的時長與有關所述第三合成韻律信息的第二組語音單元的平均時長的比率確定。
9.一種語音翻譯方法,包括
識別第一語言的輸入語音以生成所述第一語言的第一文本;
分析所述輸入語音的韻律以獲得原始韻律信息;
將所述第一文本分割成第一組詞以獲得第一語言信息;
基于所述第一語言信息生成第一合成韻律信息;
比較所述原始韻律信息和所述第一合成韻律信息,以提取關于所述第一組詞的每一個的副語言信息;
將所述第一文本翻譯成第二語言的第二文本;
將所述第二文本分割成第二組詞以獲得第二語言信息;
根據(jù)同義性將關于所述第一組詞的每一個的副語言信息分配給所述第二組詞的每一個;
基于所述第二語言信息和分配給所述第二組詞的每一個的副語言信息,生成第二合成韻律信息;以及
基于所述第二語言信息和所述第二合成韻律信息,合成輸出語音。
10.一種計算機可讀存儲介質(zhì),其存儲計算機程序的指令,該程序在由計算機執(zhí)行時導致以下步驟的執(zhí)行,所述步驟包括
識別第一語言的輸入語音以生成所述第一語言的第一文本;
分析所述輸入語音的韻律以獲得原始韻律信息;
將所述第一文本分割成第一組詞以獲得第一語言信息;
基于所述第一語言信息生成第一合成韻律信息;
比較所述原始韻律信息與所述第一合成韻律信息,以提取關于所述第一組詞的每一個的副語言信息;
將所述第一文本翻譯成第二語言的第二文本;
將所述第二文本分割成第二組詞以獲得第二語言信息;
根據(jù)同義性將關于所述第一組詞的每一個的副語言信息分配給所述第二組詞的每一個;
基于所述第二語言信息和分配給所述第二組詞的每一個的副語言信息,生成第二合成韻律信息;以及
基于所述第二語言信息和所述第二合成韻律信息合成輸出語音。
全文摘要
一種語音翻譯裝置,包括用于識別第一語言的輸入語音以生成第一語言的第一文本的語音識別單元,用于比較輸入語音的原始韻律信息和基于第一文本的第一合成韻律信息以提取關于第一文本的第一組詞的每一個的副語言信息的提取單元,用于將第一文本翻譯成第二語言的第二文本的機器翻譯單元,用于根據(jù)同義性將關于第一組詞的每一個的副語言信息分配給第二文本的第二組詞的每一個的映射單元,用于基于分配給第二組詞的每一個的副語言信息生成第二合成韻律信息的生成單元,以及用于基于第二合成韻律信息合成輸出語音的語音合成單元。
文檔編號G10L15/00GK101373592SQ20081016113
公開日2009年2月25日 申請日期2008年8月21日 優(yōu)先權日2007年8月21日
發(fā)明者徐大威, 籠島岳彥 申請人:株式會社東芝