專利名稱:語音合成方法、系統(tǒng)及具有語音合成功能的移動終端設備的制作方法
技術領域:
本發(fā)明涉及信號處理技術領域,特別是涉及一種語音合成方法、系統(tǒng),以及一種具 有語音合成功能的移動終端設備。
背景技術:
由人工通過一定的機器設備產生出語音稱為語音合成(Speech Synthesis)。語音 合成從技術方式講可分為波形拼接合成、參數(shù)分析合成等。其中,參數(shù)分析合成這種合成方式多以音節(jié)、半音節(jié)或音素為合成單元。首先,按 照語音理論,對所有合成單元的語音提取有關語音參數(shù),然后進行統(tǒng)計分析,生成一個參數(shù) 模型庫;合成時,根據待合成的文本信息,從參數(shù)模型庫中規(guī)劃出相應的合成參數(shù),然后送 入語音合成器合成,最終將語音波形生成出來。具體的,在基于參數(shù)的語音合成中,由于規(guī)劃語音參數(shù)是基于統(tǒng)計模型,所以最后 規(guī)劃出來的參數(shù)往往趨于平均水平,從而合成的聲音聽起來發(fā)悶。為了解決這個問題,普遍 的做法是在規(guī)劃出語音參數(shù)后,對規(guī)劃出的參數(shù)進行調整,使參數(shù)的變化更加明顯,從而達 到使聲音清晰的目的。但是,由于在語音合成過程中加入了參數(shù)調整的過程,因此增加了計算量,這對于 一些需要實時合成語音的系統(tǒng),占用了寶貴的系統(tǒng)資源,影響了合成的實時性。
發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種語音合成方法及系統(tǒng),以解決現(xiàn)有的實時 合成計算量大的問題。相應的,本發(fā)明還提供了一種具有語音合成功能的移動終端設備,能夠降低實時 合成的計算量。為了解決上述問題,本發(fā)明公開了一種語音合成方法,包括在模型訓練階段進行樣本的語音參數(shù)調整,然后對調整后的參數(shù)進行統(tǒng)計訓練, 得到參數(shù)模型;在語音合成階段,利用所述參數(shù)模型對待合成信息進行語音參數(shù)規(guī)劃,然后將規(guī) 劃出的參數(shù)合成聲音。其中,所述在模型訓練階段進行樣本的語音參數(shù)調整包括在模型訓練階段,對樣 本語音參數(shù)中的LSP譜進行增強處理。其中,對待合成信息進行語音參數(shù)規(guī)劃之前,還包括對所述待合成信息進行文本 分析,得到包含音節(jié)信息和音節(jié)位置信息的分析結果;則利用所述參數(shù)模型對待合成信息 進行語音參數(shù)規(guī)劃包括利用所述分析結果從參數(shù)模型中規(guī)劃出包含時長、基頻和譜的語
音參數(shù)。其中,所述文本分析包括分詞處理、詞性標注、數(shù)字公式符號處理、多音字處理、韻 律預測和音節(jié)位置標注處理。
其中,在模型訓練階段進行樣本的語音參數(shù)調整之前,還包括選擇用作樣本的錄 音語料,并進行錄音,得到錄音數(shù)據;從所述錄音數(shù)據中提取出包含時長、基頻和譜的語音 參數(shù)。本發(fā)明還提供了一種語音合成系統(tǒng),包括模型訓練模塊,包括參數(shù)調整子模塊和統(tǒng)計訓練子模塊,所述參數(shù)調整子模塊用 于在模型訓練階段進行樣本的語音參數(shù)調整,所述統(tǒng)計訓練子模塊用于對調整后的參數(shù)進 行統(tǒng)計訓練,得到參數(shù)模型;語音合成模塊,包括參數(shù)規(guī)劃子模塊和語音合成子模塊,所述參數(shù)規(guī)劃子模塊用 于在語音合成階段,利用所述參數(shù)模型對待合成信息進行語音參數(shù)規(guī)劃,所述語音合成子 模塊用于將規(guī)劃出的參數(shù)合成聲音。其中,所述參數(shù)調整子模塊是通過對樣本語音參數(shù)中的LSP譜進行增強處理來調 整參數(shù)。其中,所述語音合成模塊還包括文本分析子模塊,用于對所述待合成信息進行文 本分析,得到包含音節(jié)信息和音節(jié)位置信息的分析結果;則所述參數(shù)規(guī)劃子模塊是利用所 述分析結果從參數(shù)模型中規(guī)劃出包含時長、基頻和譜的語音參數(shù)。其中,所述模型訓練模塊還包括錄音語料設計子模塊,用于選擇用作樣本的錄音 語料;錄音子模塊,用于利用所述錄音語料進行錄音,得到錄音數(shù)據;參數(shù)提取子模塊,用 于從所述錄音數(shù)據中提取出包含時長、基頻和譜的語音參數(shù)。本發(fā)明還提供了一種移動終端設備,包括模型訓練模塊,包括參數(shù)調整子模塊和統(tǒng)計訓練子模塊,所述參數(shù)調整子模塊用 于在模型訓練階段進行樣本的語音參數(shù)調整,所述統(tǒng)計訓練子模塊用于對調整后的參數(shù)進 行統(tǒng)計訓練,得到參數(shù)模型;語音合成模塊,包括參數(shù)規(guī)劃子模塊和語音合成子模塊,所述參數(shù)規(guī)劃子模塊用 于在語音合成階段,利用所述參數(shù)模型對待合成信息進行語音參數(shù)規(guī)劃,所述語音合成子 模塊用于將規(guī)劃出的參數(shù)合成聲音。其中,所述移動終端設備包括手機、導航儀、學習機、PDA和電子書。與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點首先,本發(fā)明在現(xiàn)有語音合成技術的基礎上,將語音參數(shù)的調整過程移到模型訓 練階段完成,在實時合成時就不再進行此操作,從而降低了實時合成的計算量。而實時合成 階段的計算量多少是一個比較重要的指標,因為在一些嵌入式應用中,若計算量太大,是不 能實時合成的。因此,與現(xiàn)有技術相比,本發(fā)明保證了語音合成的實時性。其次,本發(fā)明是創(chuàng)造性地提出將語音參數(shù)的調整過程移到模型訓練階段。目前本 領域技術人員普遍認為在語音合成階段進行參數(shù)調整是理所當然的,很少有人想到將語音 參數(shù)的調整移到模型訓練階段,這是因為按照慣常理解,合成的聲音發(fā)悶的主要原因是基 于統(tǒng)計模型規(guī)劃出來的參數(shù)趨于平均水平,基于這種思路推斷如果對模型統(tǒng)計前的語音 參數(shù)進行調整,這些調整后的參數(shù)經過統(tǒng)計分析后仍會變得比較“平均”,因此合成的聲音 仍會發(fā)悶。但是,本發(fā)明恰恰打破這種定向思維,嘗試對模型訓練階段的語音參數(shù)進行調 整,而且經過試驗證明,利用本發(fā)明得到的參數(shù)模型進行語音合成,其合成效果與現(xiàn)有技術 的合成效果差別不明顯,而且還可以降低實時合成的計算量。因此,可以證明本發(fā)明具有獨創(chuàng)性。
圖1是本發(fā)明實施例所述一種語音合成前的模型訓練流程圖;圖2是本發(fā)明實施例所述一種語音合成流程圖;圖3是本發(fā)明實施例所述一種語音合成系統(tǒng)的結構圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實 施方式對本發(fā)明作進一步詳細的說明。語音合成的過程分為模型訓練階段和語音合成階段,為了滿足語音合成的實時性 要求,本發(fā)明創(chuàng)造性地提出將語音參數(shù)的調整過程移到模型訓練階段完成,在實時合成時 就不再進行此操作,從而降低了實時合成的計算量。下面通過圖1和圖2所示的實施例分別詳細說明模型訓練階段和語音合成階段。參照圖1,是本發(fā)明實施例所述一種語音合成前的模型訓練流程圖。步驟101,錄音語料設計;選擇用作樣本的錄音語料,錄音語料要盡可能的覆蓋所有音節(jié)、調聯(lián)等情況,以及 每個音節(jié)的各種發(fā)音情況,如在句首、句中、句末、韻首、韻中、韻末、詞首、詞中、詞末等等情 況。步驟102,錄音;根據錄音語料,專業(yè)錄音員進行錄音,得到錄音數(shù)據。步驟103,參數(shù)提??;從錄音數(shù)據中提取出聲音的參數(shù)信息,如基頻(即音高)、譜、時長等參數(shù)。這些參 數(shù)信息的提取通常是分幀處理,常見的是Ims或者5ms —幀。具體的,可采用本領域技術人 員熟知的參數(shù)提取方法進行提取,在此不再詳述。步驟104,參數(shù)調整;根據應用需要,可以對提取出的基頻(即音高)、譜、時長等參數(shù)都進行調整。本 實施例主要對影響語音合成效果較大的譜參數(shù)進行了調整,即將譜參數(shù)的變化調的更大一 些。經過試驗證明,譜增強后再進行參數(shù)的統(tǒng)計,得到的譜參數(shù)反而比較接近真實的聲音譜 參數(shù)。而現(xiàn)有技術統(tǒng)計得到的譜參數(shù)比較平均,得到的譜參數(shù)與真實聲音的譜參數(shù)偏差較 大。譜可以用多種方法來描述,本實施例是通過LSP (Line Spectrum Pair,線譜對)來 描述譜。LSP參數(shù)是LPC(linear predictive coding,線性預測編碼)參數(shù)的另一種表征 形式,實驗證明,其量化特征和內插特性都明顯優(yōu)于其他參數(shù),使得其在編碼中得到廣泛的 應用。譜增強的主要思想是將譜參數(shù)中相鄰兩維參數(shù)的差變得更大一些,即大的更大, 小的更小。本實施例采用的LSP譜增強方法如下
其中,Ii為調整前的譜參數(shù),Γ i為調整后的譜參數(shù),D為普參數(shù)的維數(shù),α為系 數(shù),d為相鄰兩維參數(shù)的差值。步驟105,模型訓練。對調整后的語音參數(shù)進行統(tǒng)計分析,得到參數(shù)模型。例如,錄音數(shù)據中有100個音 節(jié)“de”,則統(tǒng)計出這100個“de”的譜參數(shù)的均值、方差等。此外,在實際的模型訓練中,還 需考慮是否根據音節(jié)位置將這100個“de”分為“句首”、“句末”兩類,等等處理。經過上述處理,就得到了用于語音實時合成的參數(shù)模型,而且,該參數(shù)模型是先經 過語音參數(shù)調整后統(tǒng)計分析得到的模型。下面將利用該模型進行實時的語音合成。參照圖2,是本發(fā)明實施例所述一種語音合成流程圖。步驟201,輸入文本;即輸入待合成的信息,通常是文本信息。例如,輸入“北京在2008-8-8舉行了盛大 的奧運會開幕式”。步驟202,文本分析;即對輸入的文本進行分析,得到包含音節(jié)信息和音節(jié)位置等信息的分析結果。所 述分析可以包括分詞處理如將上述的文本分割為“北京/在/2008-8-8/舉行/ 了 /盛大/的/
奧運會/開幕式”;詞性標注對分詞中的每個語法詞進行詞性標注,如對“北京”標注為“名詞”;數(shù)字、公式、符號處理如將“ 2008-8-8 ”將轉化為“二零零八年八月八日”;多音字處理如“的”字是讀“de”還是“di”;韻律預測如將上述文本的韻律預測為“北京在二零零八年八月八日/舉行了盛 大的奧運會開幕式”;等等處理。經過上述一系列分析處理之后,最終輸出結果為音節(jié)拼音bei3 jinglzai4 er4 ling2 ling2 bal nian2 bal yue 4 bal ri4 Ju3 xing2 le5s heng4 da4 de5ao4 yun4 hui4 kail mu4 shi4,以及上述其他處理的全部結果。此外,還輸出一些音節(jié)的位置等信 息,因為同一音節(jié)在不同位置的讀法不同,例如“算”字在“計算”中需要讀的較長一些,而 在“計算機”中需要讀的較短一些。其中,12345代表聲調,分別為一聲、二聲、三聲、四聲、輕聲。漢語中共有無調音節(jié) 417個,有調音節(jié)2085(417乘以5)個。本文的音節(jié)拼音指的是有調音節(jié)。步驟203,規(guī)劃語音參數(shù);即根據文本分析得到的音節(jié)信息、音節(jié)位置等信息,從參數(shù)模型中規(guī)劃出語音參 數(shù),所述語音參數(shù)包括時長、基頻、譜等參數(shù)。參數(shù)模型中存儲了各種情況下的參數(shù)信息,以及對各種情況進行分類。例如,用戶 輸入“北京”,以“bei3”字為例,模型首先要對這個“bei3”進行分類,比如句首的為一類,句末的為一類,又比如根據后面是不是“jingl”來分為兩類。這種分類是多層的,比如所有句 首為“bei3”的類中,又有可能被分為兩類。當最后“bei3”的類別確定后,直接將此類對應 的參數(shù)讀出來即可。步驟204,語音合成。將時長、基頻、譜等語音參數(shù)通過合成器重新“組合”,從而生成最終的聲音。上述圖1和圖2說明了語音合成的一個完整過程,與現(xiàn)有技術相比,最大的區(qū)別在 于將語音參數(shù)的調整過程移到模型訓練階段完成,在實時合成時就不再進行此操作,從而 降低了實時合成的計算量。而實時合成階段的計算量多少是一個比較重要的指標,因為在 一些嵌入式應用中,若計算量太大,是不能實時合成的。因此,與現(xiàn)有技術相比,本發(fā)明保證 了語音合成的實時性。需要說明的是,本發(fā)明是創(chuàng)造性地提出將語音參數(shù)的調整過程移到模型訓練階 段。目前本領域技術人員普遍認為在語音合成階段進行參數(shù)調整是理所當然的,沒有人會 想到將語音參數(shù)的調整移到模型訓練階段,這是因為按照慣常理解,合成的聲音發(fā)悶的主 要原因是基于統(tǒng)計模型規(guī)劃出來的參數(shù)趨于平均水平,基于這種思路推斷如果對模型統(tǒng) 計前的語音參數(shù)進行調整,這些調整后的參數(shù)經過統(tǒng)計分析后仍會變得比較“平均”,因此 合成的聲音仍會發(fā)悶。但是,本發(fā)明恰恰打破這種定向思維,嘗試對模型訓練階段的語音參 數(shù)進行調整,而且經過試驗證明,利用本發(fā)明得到的參數(shù)模型進行語音合成,其合成效果與 現(xiàn)有技術的合成效果差別不明顯,而且還可以降低實時合成的計算量。因此,可以證明本發(fā) 明具有獨創(chuàng)性?;谏鲜龇椒▽嵤├景l(fā)明還提供了相應的系統(tǒng)實施例。參照圖3,是本發(fā)明實施例所述一種語音合成系統(tǒng)的結構圖。所述語音合成系統(tǒng)主要包括模型訓練模塊1和語音合成模塊2,其中,模型訓練模塊1主要包括參數(shù)調整子模塊11,用于在模型訓練階段進行樣本的語音參數(shù)調整;統(tǒng)計訓練子模塊12,用于對調整后的參數(shù)進行統(tǒng)計訓練,得到參數(shù)模型;語音合成模塊2主要包括參數(shù)規(guī)劃子模塊21,用于在語音合成階段,利用所述參數(shù)模型對待合成信息進行 語音參數(shù)規(guī)劃;語音合成子模塊22,用于將規(guī)劃出的參數(shù)合成聲音。本發(fā)明在現(xiàn)有語音合成系統(tǒng)的基礎上,將參數(shù)調整子模塊11移到模型訓練模塊1 中,在語音合成模塊2中就不再包含該模塊,因此在實時合成語音時就不再進行參數(shù)調整 的操作,從而降低了實時合成的計算量。 優(yōu)選的,所述參數(shù)調整子模塊11是通過對樣本語音參數(shù)中的LSP譜進行增強處理 來調整參數(shù)。優(yōu)選的,所述語音合成模塊2還可以包括文本分析子模塊23,用于對所述待合成信息進行文本分析,得到包含音節(jié)信息和 音節(jié)位置信息的分析結果;則所述參數(shù)規(guī)劃子模塊21是利用所述分析結果從參數(shù)模型中規(guī)劃出包含時長、 基頻和譜的語音參數(shù)。
8
優(yōu)選的,所述模型訓練模塊1還可以包括錄音語料設計子模塊13,用于選擇用作樣本的錄音語料;錄音子模塊14,用于利用所述錄音語料進行錄音,得到錄音數(shù)據;參數(shù)提取子模塊15,用于從所述錄音數(shù)據中提取出包含時長、基頻和譜的語音參 數(shù)。綜上所述,所述語音合成系統(tǒng)降低了實時合成的計算量,在一些對實時性要求較 高的嵌入式應用中,保證了語音合成的實時性。此外,本發(fā)明所述語音合成系統(tǒng)主要應用在一些移動終端設備上,如手機、導航 儀、學習機、PDA和電子書等等。例如在導航儀應用中,可以將導航信息直接讀出來,而不必 再用眼睛去看?;谶@些應用,本發(fā)明實施例還提供了一種移動終端設備,主要包括模型訓練模塊,包括參數(shù)調整子模塊和統(tǒng)計訓練子模塊,所述參數(shù)調整子模塊用 于在模型訓練階段進行樣本的語音參數(shù)調整,所述統(tǒng)計訓練子模塊用于對調整后的參數(shù)進 行統(tǒng)計訓練,得到參數(shù)模型;語音合成模塊,包括參數(shù)規(guī)劃子模塊和語音合成子模塊,所述參數(shù)規(guī)劃子模塊用 于在語音合成階段,利用所述參數(shù)模型對待合成信息進行語音參數(shù)規(guī)劃,所述語音合成子 模塊用于將規(guī)劃出的參數(shù)合成聲音。其中,所述移動終端設備包括手機、導航儀、學習機、PDA和電子書等。優(yōu)選的,所述參數(shù)調整子模塊是通過對樣本語音參數(shù)中的LSP譜進行增強處理來 調整參數(shù)。優(yōu)選的,所述語音合成模塊還可以包括文本分析子模塊,用于對所述待合成信息進行文本分析,得到包含音節(jié)信息和音 節(jié)位置信息的分析結果;則所述參數(shù)規(guī)劃子模塊是利用所述分析結果從參數(shù)模型中規(guī)劃出包含時長、基頻 和譜的語音參數(shù)。優(yōu)選的,所述模型訓練模塊還可以包括錄音預料設計子模塊,用于選擇用作樣本的錄音語料;錄音子模塊,用于利用所述錄音語料進行錄音,得到錄音數(shù)據;參數(shù)提取子模塊,用于從所述錄音數(shù)據中提取出包含時長、基頻和譜的語音參數(shù)。本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與 其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于系統(tǒng)實施例 而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部 分說明即可。以上對本發(fā)明所提供的一種語音合成方法、系統(tǒng),以及一種具有語音合成功能的 移動終端設備,進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行 了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領 域的一般技術人員,依據本發(fā)明的思想,在具體實施方式
及應用范圍上均會有改變之處,綜 上所述,本說明書內容不應理解為對本發(fā)明的限制。
權利要求
一種語音合成方法,其特征在于,包括在模型訓練階段進行樣本的語音參數(shù)調整,然后對調整后的參數(shù)進行統(tǒng)計訓練,得到參數(shù)模型;在語音合成階段,利用所述參數(shù)模型對待合成信息進行語音參數(shù)規(guī)劃,然后將規(guī)劃出的參數(shù)合成聲音。
2.根據權利要求1所述的方法,其特征在于,所述在模型訓練階段進行樣本的語音參 數(shù)調整包括在模型訓練階段,對樣本語音參數(shù)中的LSP譜進行增強處理。
3.根據權利要求1所述的方法,其特征在于,對待合成信息進行語音參數(shù)規(guī)劃之前,還 包括對所述待合成信息進行文本分析,得到包含音節(jié)信息和音節(jié)位置信息的分析結果;則利用所述參數(shù)模型對待合成信息進行語音參數(shù)規(guī)劃包括利用所述分析結果從參數(shù) 模型中規(guī)劃出包含時長、基頻和譜的語音參數(shù)。
4.根據權利要求3所述的方法,其特征在于所述文本分析包括分詞處理、詞性標注、數(shù)字公式符號處理、多音字處理、韻律預測和 音節(jié)位置標注處理。
5.根據權利要求1或3所述的方法,其特征在于,在模型訓練階段進行樣本的語音參數(shù) 調整之前,還包括選擇用作樣本的錄音語料,并進行錄音,得到錄音數(shù)據;從所述錄音數(shù)據中提取出包含時長、基頻和譜的語音參數(shù)。
6.一種語音合成系統(tǒng),其特征在于,包括模型訓練模塊,包括參數(shù)調整子模塊和統(tǒng)計訓練子模塊,所述參數(shù)調整子模塊用于在 模型訓練階段進行樣本的語音參數(shù)調整,所述統(tǒng)計訓練子模塊用于對調整后的參數(shù)進行統(tǒng) 計訓練,得到參數(shù)模型;語音合成模塊,包括參數(shù)規(guī)劃子模塊和語音合成子模塊,所述參數(shù)規(guī)劃子模塊用于在 語音合成階段,利用所述參數(shù)模型對待合成信息進行語音參數(shù)規(guī)劃,所述語音合成子模塊 用于將規(guī)劃出的參數(shù)合成聲音。
7.根據權利要求6所述的系統(tǒng),其特征在于所述參數(shù)調整子模塊是通過對樣本語音參數(shù)中的LSP譜進行增強處理來調整參數(shù)。
8.根據權利要求6所述的系統(tǒng),其特征在于,所述語音合成模塊還包括文本分析子模塊,用于對所述待合成信息進行文本分析,得到包含音節(jié)信息和音節(jié)位 置信息的分析結果;則所述參數(shù)規(guī)劃子模塊是利用所述分析結果從參數(shù)模型中規(guī)劃出包含時長、基頻和譜 的語音參數(shù)。
9.根據權利要求6所述的系統(tǒng),其特征在于,所述模型訓練模塊還包括錄音語料設計子模塊,用于選擇用作樣本的錄音語料;錄音子模塊,用于利用所述錄音語料進行錄音,得到錄音數(shù)據;參數(shù)提取子模塊,用于從所述錄音數(shù)據中提取出包含時長、基頻和譜的語音參數(shù)。
10.一種移動終端設備,其特征在于,包括模型訓練模塊,包括參數(shù)調整子模塊和統(tǒng)計訓練子模塊,所述參數(shù)調整子模塊用于在 模型訓練階段進行樣本的語音參數(shù)調整,所述統(tǒng)計訓練子模塊用于對調整后的參數(shù)進行統(tǒng) 計訓練,得到參數(shù)模型;語音合成 模塊,包括參數(shù)規(guī)劃子模塊和語音合成子模塊,所述參數(shù)規(guī)劃子模塊用于在 語音合成階段,利用所述參數(shù)模型對待合成信息進行語音參數(shù)規(guī)劃,所述語音合成子模塊 用于將規(guī)劃出的參數(shù)合成聲音。
全文摘要
本發(fā)明提供了一種語音合成方法、系統(tǒng)及具有語音合成功能的移動終端設備,以解決現(xiàn)有的實時合成計算量大的問題。所述方法包括在模型訓練階段進行樣本的語音參數(shù)調整,然后對調整后的參數(shù)進行統(tǒng)計訓練,得到參數(shù)模型;在語音合成階段,利用所述參數(shù)模型對待合成信息進行語音參數(shù)規(guī)劃,然后將規(guī)劃出的參數(shù)合成聲音。本發(fā)明將語音參數(shù)的調整過程移到模型訓練階段完成,在實時合成時就不再進行此操作,從而降低了實時合成的計算量,保證了語音合成的實時性。此外,本發(fā)明還提供了一種具有語音合成功能的移動終端設備,能夠降低實時合成的計算量。
文檔編號G10L13/02GK101887719SQ20101022351
公開日2010年11月17日 申請日期2010年6月30日 優(yōu)先權日2010年6月30日
發(fā)明者張連毅, 李健, 武衛(wèi)東 申請人:北京捷通華聲語音技術有限公司