欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

字音轉(zhuǎn)換預(yù)測以及語音合成的方法和裝置的制作方法

文檔序號:2837222閱讀:329來源:國知局
專利名稱:字音轉(zhuǎn)換預(yù)測以及語音合成的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù),具體地,涉及利用計算機(jī)進(jìn)行數(shù)據(jù)驅(qū)動的 字音轉(zhuǎn)換概率預(yù)測模型的訓(xùn)練、字音轉(zhuǎn)換概率預(yù)測模型的構(gòu)建和字音轉(zhuǎn)換 預(yù)測的4支術(shù),以及語音合成4支術(shù)。
背景技術(shù)
在進(jìn)行中文語音合成時,會經(jīng)常遇到對多音字進(jìn)行字音轉(zhuǎn)換的情況, 此時需要根據(jù)語境確定多音字在文本中的正確讀音。
一般地,利用字音轉(zhuǎn) 換模型,通過文本中多音字對應(yīng)的語言和語音屬性,以預(yù)測多音字的合理 讀音。在現(xiàn)有技術(shù)中,提出了多種字音轉(zhuǎn)換方法,包括決策樹(Decision Tree, DT)、轉(zhuǎn)換規(guī)則學(xué)習(xí)(Transformation-Based Learning, TBL)和擴(kuò)展隨 機(jī)決策(Extended Stochastic Complexity, ESC )等,這些方法都是詞相關(guān) 的方法,其中決策樹和擴(kuò)展隨機(jī)決策模型是生成模型,轉(zhuǎn)換規(guī)則學(xué)習(xí)模型 是判決模型。關(guān)于決策樹(DT),例如,在Chen Guilin和Han Ke-song著的文章 "Letter-to-sound for small-footprint multilingual TTS engine"(發(fā)表于 INTERSPEECH-2004, pp. 1881-1884)中進(jìn)行了詳細(xì)的描述。關(guān)于轉(zhuǎn)換規(guī)則學(xué)習(xí)(TBL),例如,在Zheng Min、 Shi Qin、 Zhang Wei 和Cai Lianhong著的文章"Grapheme-to-phoneme conversion based on TBL algorithm in Mandarin TTS system"(發(fā)表于INTERSPEECH-2005, pp. 1897-1900 )中進(jìn)行了詳細(xì)的描述。關(guān)于擴(kuò)展隨機(jī)決策(ESC ),例如,在Zi-Rong Zhang和Min Chu著的文章 "An efficient way to learn rules for grapheme-to-phoneme conversion in Chinese"(發(fā)表于ISCSLP 2002, pp. 59-63)中進(jìn)行了詳細(xì) 的描述。以上文獻(xiàn)的全部內(nèi)容以引用的方式包含于此,以供參考。 然而,現(xiàn)有技術(shù)的這些方法存在以下缺點1) 對于中文輕聲多音字缺少單獨的、統(tǒng)一的預(yù)測模型。由于中文輕聲多音字與其它類型的多音字存在很大的不同,因此釆用詞相關(guān)的方法預(yù) 測中文輕聲多音字的讀音的準(zhǔn)確性較低。2) 現(xiàn)有的字音轉(zhuǎn)換方法或者采用生成模型,或者采用判決模型,這 兩種模型都有一些缺陷生成模型假定屬性之間互相獨立而輸出的觀測之 間有關(guān)聯(lián)性;而判決模型則相反,假定屬性之間有關(guān)聯(lián)性而輸出的觀測之 間互相獨立。3) 由于模型復(fù)雜度和訓(xùn)練數(shù)據(jù)規(guī)才莫之間的不平衡,導(dǎo)致了數(shù)據(jù)稀疏 和屬性協(xié)同作用兩個主要的問題。實際上,多音字的訓(xùn)練數(shù)據(jù)十分有限。 傳統(tǒng)模型的系數(shù)能通過數(shù)據(jù)驅(qū)動方法計算得到,但是模型的屬性和屬性組 合卻是用手工的方法i殳置的。那么,這種"部分的"數(shù)據(jù)驅(qū)動的方法在一 定程度上依賴于人的經(jīng)驗。發(fā)明內(nèi)容本發(fā)明正是基于上述現(xiàn)有技術(shù)中存在的技術(shù)問題而提出的,其提供了 一種數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方法和裝置、構(gòu)建字音轉(zhuǎn)換概 率預(yù)測才莫型的方法和裝置、字音轉(zhuǎn)換預(yù)測方法和裝置以及語音合成方法和 裝置。根據(jù)本發(fā)明的一個方面,提供了一種數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測 -漠型的方法,包括利用與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性和至少一部分上 述屬性的組合生成初始字音轉(zhuǎn)換概率預(yù)測模型,其中每個上述屬性或上述 屬性的組合被作為一項;計算上述字音轉(zhuǎn)換概率預(yù)測模型中每一上述項的 重要性;刪除上述計算出的重要性最低的項;利用剩余的項重新生成字音 轉(zhuǎn)換概率預(yù)測模型;判斷上述重新生成的字音轉(zhuǎn)換概率預(yù)測模型是否最優(yōu);以及如果上述字音轉(zhuǎn)換概率預(yù)測才莫型^皮判斷為不是最優(yōu),則重復(fù)上述計算 每一項的重要性的步驟及其之后的步驟。根據(jù)本發(fā)明的另 一個方面,提供了 一種構(gòu)建字音轉(zhuǎn)換概率預(yù)測4莫型的方法,包括形成輕聲多音字的訓(xùn)練樣本集合與非輕聲多音字的訓(xùn)練樣本 集合,以及分別基于上述輕聲多音字的訓(xùn)練樣本集合與上述非輕聲多音字 的訓(xùn)練樣本集合,利用上述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方法, 構(gòu)建詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模型。根據(jù)本發(fā)明的另一個方面,提供了一種字音轉(zhuǎn)換預(yù)測方法,包括分 析輸入的文本,以獲得該文本的語法詞序列和每個語法詞的與字音轉(zhuǎn)換預(yù) 測相關(guān)的多個屬性的值;確定上述每個語法詞是否包含高頻多音字;如果 上述語法詞包含高頻多音字,則根據(jù)詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和該 語法詞的與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值,計算該語法詞的非輕聲字 音轉(zhuǎn)換概率;根據(jù)詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和該語法詞的與字音轉(zhuǎn) 換預(yù)測相關(guān)的多個屬性的值,計算該語法詞的輕聲字音轉(zhuǎn)換概率;比較上 述計算出的上述語法詞的各個字音轉(zhuǎn)換概率,將字音轉(zhuǎn)換概率最高的讀音 作為該語法詞的預(yù)測讀音;如果上述語法詞不包含高頻多音字,則根據(jù)上 述詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和該語法詞的相應(yīng)的與字音轉(zhuǎn)換預(yù)測相 關(guān)的多個屬性的值,計算該語法詞的字音轉(zhuǎn)換概率;以及比較上述計算出 的上述語法詞的各個字音轉(zhuǎn)換概率,將字音轉(zhuǎn)換概率最高的讀音作為該語 法詞的預(yù)測讀音。根據(jù)本發(fā)明的另一個方面,提供了一種語音合成方法,包括對輸入 的文本利用上述的字音轉(zhuǎn)換預(yù)測方法,預(yù)測上述文本中的語法詞的讀音; 以及根據(jù)上述預(yù)測的語法詞的讀音,進(jìn)行語音合成。根據(jù)本發(fā)明的另一個方面,提供了一種數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù) 測模型的裝置,包括初始才莫型生成單元,其利用與字音轉(zhuǎn)換預(yù)測相關(guān)的 多個屬性和至少一部分上述屬性的組合生成初始字音轉(zhuǎn)換概率預(yù)測模型, 其中每個上述屬性或上述屬性的組合^皮作為一項;重要性計算單元,其計 算上述字音轉(zhuǎn)換概率預(yù)測模型中每一上述項的重要性;項刪除單元,用于刪除上述計算出的重要性最低的項;模型再生成單元,其利用由上述項刪 除單元刪除后剩余的項重新生成字音轉(zhuǎn)換概率預(yù)測模型;以及優(yōu)化判斷單 元,其判斷由上述模型再生成單元重新生成的字音轉(zhuǎn)換概率預(yù)測才莫型是否 最優(yōu)。根據(jù)本發(fā)明的另一個方面,提供了一種構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的 裝置,包括輕聲多音字的訓(xùn)練樣本集合;非輕聲多音字的訓(xùn)練樣本集合; 以及上述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置,其分別基于上述 輕聲多音字的訓(xùn)練樣本集合與上述非輕聲多音字的訓(xùn)練樣本集合訓(xùn)練詞無 關(guān)的字音轉(zhuǎn)換概率預(yù)測才莫型和詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測才莫型。才艮據(jù)本發(fā)明的另一個方面,提供了一種字音轉(zhuǎn)換預(yù)測裝置,包括由 上述的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的裝置所構(gòu)建的詞無關(guān)的字音轉(zhuǎn)換概率 預(yù)測模型和詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模型;文本分析器,用于分析輸入 的文本,以獲得該文本的語法詞序列和每個語法詞的相應(yīng)的與字音轉(zhuǎn)換預(yù) 測相關(guān)的多個屬性的值;確定單元,用于確定由上述文本分析器得到的每 個語法詞是否包含高頻多音字;第一字音轉(zhuǎn)換概率計算單元,其根據(jù)上述 詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和語法詞的相應(yīng)的與字音轉(zhuǎn)換預(yù)測相關(guān)的 多個屬性的值,計算包含高頻多音字的語法詞的非輕聲字音轉(zhuǎn)換概率;第 二字音轉(zhuǎn)換概率計算單元,其根據(jù)上述詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和 語法詞的相應(yīng)的與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值,計算包含高頻多音 字的語法詞的輕聲字音轉(zhuǎn)換概率和不包含高頻多音字的語法詞的字音轉(zhuǎn)換 概率;以及字音轉(zhuǎn)換概率比較單元,其比較上述計算出的語法詞的各個字 音轉(zhuǎn)換概率,輸出字音轉(zhuǎn)換概率最高的讀音作為該語法詞的預(yù)測讀音。根據(jù)本發(fā)明的另一個方面,提供了一種語音合成裝置,包括上述的 字音轉(zhuǎn)換預(yù)測裝置;并且根據(jù)上述預(yù)測的語法詞的讀音,進(jìn)行語音合成。


圖1是根據(jù)本發(fā)明的一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模 型的方法的流程圖;圖2是根據(jù)本發(fā)明的另一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測才莫型的方法的流程圖;圖3是根據(jù)本發(fā)明的一個實施例的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的方法 的流禾呈圖;圖4是根據(jù)本發(fā)明的一個實施例的字音轉(zhuǎn)換預(yù)測方法的流程圖;圖5是根據(jù)本發(fā)明的一個實施例的語音合成方法的流程圖;圖6是根據(jù)本發(fā)明的一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置的示意性方框圖;圖7是根據(jù)本發(fā)明的另一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置的示意性方框圖;圖8是根據(jù)本發(fā)明的一個實施例的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的裝置的示意性方^f匡圖;圖9是根據(jù)本發(fā)明的一個實施例的字音轉(zhuǎn)換預(yù)測裝置的示意性方框圖;圖10是根據(jù)本發(fā)明的 一個實施例的語音合成裝置的示意性方框圖。
具體實施方式
相信通過以下結(jié)合附圖對本發(fā)明的具體實施方式
的詳細(xì)描述,本發(fā)明 的上述和其它目的、特征和優(yōu)點會變得更加明顯。為了便于后面實施例的理解,首先簡要介紹一下廣義線性模型 (Generalized Linear Model, GLM)、貝葉斯信息準(zhǔn)則(Bayes Information Criterion, BIC )和條件隨機(jī)場(Conditional Random Field, CRF)的原理。GLM是對多元線性回歸模型的 一種擴(kuò)展,SOP (Sum of Products,積 和模型)則是GLM的一個特例。GLM參數(shù)預(yù)測模型通過語音單元s的屬 性A,預(yù)測出^iu,相應(yīng)的定義如乂>式(1)。<formula>formula see original document page 13</formula>
其中,h表示鏈接函數(shù)。二般地,可以假定d滿足指數(shù)族分布。為了使d 滿足不同的指數(shù)族分布,只需要設(shè)定相應(yīng)的鏈接函數(shù)。當(dāng)鏈接函數(shù)是logit函數(shù)時,GLM就是邏輯GLM模型。GLM既能進(jìn)行線性建模,也能進(jìn)行 非線性建模。比較模型的性能需要有判別標(biāo)準(zhǔn)。越簡單的模型對集外數(shù)據(jù)預(yù)測的穩(wěn) 定性越高,而越復(fù)雜的模型對集內(nèi)數(shù)據(jù)的擬合程度越高。BIC是一種常見 的評價標(biāo)準(zhǔn),它綜合了以上對擬^#度和模型可靠性的度量,定義如公式 (2)。BIC = Nlog(SSE/N) + plogN (2)其中,SSE表示預(yù)測誤差e的平方和。公式(2)的第一項表示模型的擬合 精度,第二項表示對模型復(fù)雜度的懲罰。當(dāng)訓(xùn)練樣本的數(shù)量N—定時,越 復(fù)雜的模型的參數(shù)個數(shù)p越大,對訓(xùn)練數(shù)據(jù)就擬合得越好,相應(yīng)的SSE就 越小,第一項就越小,而第二項就增大。反之亦然。公式中一項的減小總 是導(dǎo)致另一項的增大,當(dāng)兩項和最小時,表示模型"最優(yōu)"。BIC能在模 型復(fù)雜度和數(shù)據(jù)規(guī)模之間取得一個不錯的平衡,這有助于解決數(shù)據(jù)稀疏和 屬性協(xié)同作用的問題。CRF是邏輯GLM模型的擴(kuò)展,也是隱馬爾可夫模型(Hidden Markov Model, HMM )和最大熵馬爾可夫才莫型(Maximum Entropy Markov Model, MEMM)的擴(kuò)展。CRT —般被用于建立概率模型以對序列數(shù)據(jù)進(jìn)行分段 和標(biāo)記,其計算給定觀測序列時可能的標(biāo)記序列的概率。與隱馬爾可夫才莫 型相比,CRF的優(yōu)點在于其條件特性,ilit寬了隱馬爾可夫模型中的無關(guān) 假定。而與最大熵馬爾可夫模型和其它基于有向圖的*馬爾可夫才莫型相 比,CRF可以避免標(biāo)記偏差(labelbias)的問題。關(guān)于條件隨機(jī)場(CRT),例如,在John Lafferty, Andrew McCallum 和Fernando Pereira著的文章"Conditional random fields: Probabilistic models for segmenting and labeling sequence data"(發(fā)表于Proceedings of ICML-01, pp. 282-289, 2001)中進(jìn)行了詳細(xì)的描述。下面結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進(jìn)行詳細(xì)的說明。圖1是根據(jù)本發(fā)明的一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模 型的方法的流程圖。利用本實施例的方法訓(xùn)練的字音轉(zhuǎn)換概率預(yù)測才莫型將被用于后面結(jié)合其它實施例描述的字音轉(zhuǎn)換預(yù)測方法及裝置和語音合成方 法及裝置。如圖l所示,首先在步驟101,生成初始字音轉(zhuǎn)換概率預(yù)測模型。中文多音字通常具有兩個或兩個以上的讀音候選,因此,多音字的讀音可以 被認(rèn)為是概率,并滿足伯努利分布。在本實施例中,字音轉(zhuǎn)換概率預(yù)測模型是廣義線性模型(GLM)。根 據(jù)上述的GLM的原理,當(dāng)鏈接函數(shù)h是logit函數(shù)時,得到的字音轉(zhuǎn)換概 率預(yù)測模型是邏輯GLM模型,如公式(3) 、 (4)所示<formula>formula see original document page 15</formula>3)<formula>formula see original document page 15</formula> (4)其中,假定一個多音字有K個讀音候選,則Pr(G-k I A-a)是在給定 屬性a條件下的第k個讀音候選G的后驗概率,并且凡。是回歸系數(shù)標(biāo)量, 《是回歸系數(shù)矢量。邏輯GLM模型已被廣泛應(yīng)用于各種分類和回歸的統(tǒng)計領(lǐng)域。它的參 數(shù)通過最大似然估計法獲得,更多細(xì)節(jié)請參考文獻(xiàn)(McCullagh P.和Nelder JA著的"Generalized Linear Models" , Chapman & Hal, London, 1989)。具體地,利用與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性和這些屬性的組合生成 初始字音轉(zhuǎn)換概率預(yù)測模型。如前所述,與字音轉(zhuǎn)換預(yù)測相關(guān)的屬性大致 可分為語音類型的屬性和語音類型的屬性,具體可包括詞性(part of speech, POS)、上下文中的詞(contextual words)和詞長(word length)等。在本實施例中,采用邏輯GLM模型來表示這些屬性和屬性組合。為 了便于說明,假定與字音轉(zhuǎn)換預(yù)測相關(guān)的屬性只有詞性(POS)和上下文 中的詞(contextual words )。那么,初始字音轉(zhuǎn)換概率預(yù)測;漠型的形式如 下Grapheme-to-Phoneme conversion probability ~ POS + contextual words + POS * contextual words,其中POS * contextual words表示POS和contextual words的組合,是一個2階項。可以理解,當(dāng)屬性的數(shù)量增加時,作為屬性組合可以出現(xiàn)多個2階項、 3階項等等。另外,在本實施例中,在生成初始字音轉(zhuǎn)概率預(yù)測模型時,可以只取 其中一部分的屬性組合,例如只取全部的2階項;當(dāng)然,也可以取到3階 項或?qū)⑷康膶傩越M合加入初始字音轉(zhuǎn)換概率預(yù)測模型??傊?,在初始字音轉(zhuǎn)換概率預(yù)測模型中包括全部的單獨屬性(1階項) 和至少一部分的屬性組合(2階項或多階項),其中每個屬性或?qū)傩缘慕M 合被作為一項。這樣,初始字音轉(zhuǎn)換概率預(yù)測模型可以利用很簡單的規(guī)則 自動生成,而不是如現(xiàn)有技術(shù)的那樣,根據(jù)經(jīng)驗手工設(shè)定。接著,在步驟105,利用F檢驗(F-test)計算每一項的重要性(得分)。 關(guān)于F檢驗,作為一種已知的標(biāo)準(zhǔn)統(tǒng)計方法,在盛驟、謝式千、潘乘毅編 的《概率論與數(shù)理統(tǒng)計》(2002年第二版,高等教育出版社)中已經(jīng)有詳 細(xì)的說明,在此不再重復(fù)。應(yīng)當(dāng)指出,雖然在本實施例中使用的是F檢驗,但是,其它的統(tǒng)計方 法也可以使用,例如,Chisq-test等。接著,在步驟110,從初始字音轉(zhuǎn)換概率預(yù)測模型中刪除F檢^^得分 最低的項。然后,在步驟115,利用剩余的項,重新生成字音轉(zhuǎn)換概率預(yù) 測模型。接著,在步驟120,計算重新生成的字音轉(zhuǎn)換概率預(yù)測模型的BIC值, 利用前面所述的方法判斷該模型是否為最優(yōu)。如果步驟120的判斷結(jié)果為 "是",則將該新生成的字音轉(zhuǎn)換概率預(yù)測模型作為最佳模型,并在步驟 125結(jié)束。如果步驟120的判斷結(jié)果為"否",則返回到步驟105,再次計 算該重新生成的字音轉(zhuǎn)換概率預(yù)測模型的每一項的重要性,刪除重要性最 低的項(步驟110),并利用剩余的項重新生成模型(步驟115),直到獲 得最佳字音轉(zhuǎn)換概率預(yù)測模型。通過以上說明可以看出,在較小語料庫的條件下,本實施例構(gòu)建了可 靠的字音轉(zhuǎn)換概率預(yù)測模型。并且,基于字音轉(zhuǎn)換概率的伯努利分布,提出了一種新穎的邏輯GLM字音轉(zhuǎn)換概率預(yù)測模型。本實施例利用了基于 廣義線性模型(GLM)的建模方法和基于F檢驗(F-test)和貝葉斯信息 準(zhǔn)則(BIC)的逐步回歸(stepwise regression)的屬性選擇方法構(gòu)建和訓(xùn) 練字音轉(zhuǎn)換概率預(yù)測模型。由于本實施例的GLM模型結(jié)構(gòu)靈活,容易實 現(xiàn)對訓(xùn)練數(shù)據(jù)的自適應(yīng),從而解決了數(shù)據(jù)稀疏問題。進(jìn)而,通過逐步回歸 的方法能夠自動地選出重要屬性協(xié)同作用項。圖2是根據(jù)本發(fā)明的另一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測 模型的方法的流程圖,其中與上述實施例相同的部分采用相同的符號,并 適當(dāng)省略其說明。利用本實施例的方法訓(xùn)練的字音轉(zhuǎn)換概率預(yù)測模型將#皮 用于后面結(jié)合其它實施例描述的字音轉(zhuǎn)換預(yù)測方法及裝置和語音合成方法 及裝置。在本實施例中,字音轉(zhuǎn)換概率預(yù)測模型將采用條件隨機(jī)場(CRT)才莫 型。因此,本實施例除了包括圖1所示的實施例的所有步驟之外,還包括 以下步驟。如前所述,可以將GLM模型進(jìn)行擴(kuò)展以得到CRF模型(步驟 201), CRF模型計算在給定屬性A條件下的特定輸出讀音G的條件概率, 其定義如公式(5)。P, A)4exp(i^Xf"g",gt,a,t)) ( 5 )其中,屬性函數(shù)fk(g^gt,a,t)用于度量從某個時間狀態(tài)gt—,到下一個時間狀態(tài)gt的過渡以及在時間t時刻的觀測的屬性序列a。然后,在步驟205,使用利用圖1所示的實施例的方法判斷為最優(yōu)的 GLM模型的每一項的屬性或?qū)傩缘慕M合對該CRF模型進(jìn)行訓(xùn)練,并將訓(xùn) 練得到的CRF模型作為最終的字音轉(zhuǎn)換概率預(yù)測模型。然后,在步驟125 結(jié)束此次訓(xùn)練過程?,F(xiàn)有技術(shù)中存在多種CRF模型的訓(xùn)練方法,本領(lǐng)域的技術(shù)人員可以采 用任意一種訓(xùn)練方法。通過以上描述可以看出,本實施例引入了 M隨機(jī)場模型作為字音轉(zhuǎn) 換概率預(yù)測模型,可以克服生成模型和判決模型的局限性,相應(yīng)地提高預(yù)測性能。在同一發(fā)明構(gòu)思下,圖3;i才艮據(jù)本發(fā)明的一個實施例的構(gòu)建字音轉(zhuǎn)換 概率預(yù)測模型的方法的流程圖。下面結(jié)合該圖對本實施例進(jìn)行描述,對于 那些與前面實施例相同的部分,適當(dāng)省略其說明。如圖3所示,首先在步驟301,形成輕聲多音字的訓(xùn)練樣本集合與非 輕聲多音字的訓(xùn)練樣本集合。多音字的訓(xùn)練樣本集合是用于訓(xùn)練字音轉(zhuǎn)換 概率預(yù)測模型的訓(xùn)練數(shù)據(jù)。在本實施例中,為了提高對中文輕聲多音字的 字音轉(zhuǎn)換的準(zhǔn)確性,需要對中文輕聲多音字構(gòu)建單獨的字音轉(zhuǎn)換概率預(yù)測 模型,相應(yīng)地,需要單獨形成輕聲多音字的訓(xùn)練樣本集合。也就是說,將 中文多音字分成兩類, 一類是音調(diào)為1到4聲的,即非輕聲,另一類是音 調(diào)為5聲的,即輕聲,其中非輕聲多音字對應(yīng)于詞相關(guān)的字音轉(zhuǎn)換概率預(yù) 測才莫型,輕聲多音字對應(yīng)于詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測模型。具體地,在步驟3011,統(tǒng)計一個文本語料庫中的多音字的每個讀音的 發(fā)生概率,該文本語料庫應(yīng)包含盡可能多的多音字。然后,在步驟3015,根據(jù)所統(tǒng)計的發(fā)生概率,將該文本語料庫中的多 音字分類為輕聲多音字和非輕聲多音字,從而形成輕聲多音字的訓(xùn)練樣本 集合與非輕聲多音字的訓(xùn)練樣本集合。具體地,如果某個多音字的1到4 聲的讀音的發(fā)生概率大于5聲的讀音的發(fā)生概率,則該多音字是非輕聲多 音字,反之,該多音字是輕聲多音字。然后在步驟305,基于由步驟301得到的輕聲多音字的訓(xùn)練樣本集合 與非輕聲多音字的訓(xùn)練樣本集合,利用前面實施例描述的數(shù)據(jù)驅(qū)動訓(xùn)練字 音轉(zhuǎn)換概率預(yù)測模型的方法,分別構(gòu)建相應(yīng)的字音轉(zhuǎn)換概率預(yù)測模型。在 本實施例中,這兩個字音轉(zhuǎn)換概率模型既可以是GLM模型,也可以是CRT 模型。此外,在本實施例中,還包括用于獲得高頻多音字的步驟。具體地, 在形成了輕聲多音字的訓(xùn)練樣本集合與非輕聲多音字的訓(xùn)練樣本集合(步 驟301)之后,在步驟310,計算上述文本語料庫中的多音字的出現(xiàn)頻率。 然后在步驟315,將計算出的出現(xiàn)頻率與閾值進(jìn)行比較,該閾值可由用戶自行確定。在步驟320,根據(jù)比較的結(jié)果和非輕聲多音字的訓(xùn)練樣本集合, 選擇出現(xiàn)頻率大于閾值并且包含在非輕聲多音字的訓(xùn)練樣本集合中的多音 字作為高頻多音字。通過以上描述可以看出,本實施例的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的方 法利用前面實施例的訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方法,構(gòu)建了詞相關(guān)的 字音轉(zhuǎn)換概率預(yù)測模型和詞無關(guān)的字音轉(zhuǎn)換概率才莫型,以用于非輕聲和輕聲中文多音字;利用本實施例,可以構(gòu)建簡單而可靠的字音轉(zhuǎn)換概率預(yù)測 模型,容易實現(xiàn)對訓(xùn)練數(shù)據(jù)的自適應(yīng),解決數(shù)據(jù)稀疏的問題,能夠自動的選出重要屬性協(xié)同作用項。在同一發(fā)明構(gòu)思下,圖4是根據(jù)本發(fā)明的一個實施例的字音轉(zhuǎn)換預(yù)測方法的流程圖。下面結(jié)合該圖對本實施例進(jìn)行描述,對于那些與前面實施 例相同的部分,適當(dāng)省略其說明。如圖4所示,在步驟401,分析輸入的文本,從而獲得該輸入文本的 語法詞序列和其中每個語法詞的與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值。所 謂語法詞,是指根據(jù)語法意義或功能意義對文本進(jìn)行劃分而得到的詞。具 體的分析文本以獲得語法詞序列和語法詞的屬性的方法可以采用任何一種 已知的和未來的方法,而并不限于某種特定的方式,并且獲得屬性的方式 還與屬性的選^^有關(guān)。然后,在步驟405,確定所得到的語法詞序列中的語法詞是否包含高 頻多音字。在本實施例中,高頻多音字采用在圖3所示的實施例中獲得的 高頻多音字。如果語法詞包含高頻多音字,則在步驟410,根據(jù)詞相關(guān)的字音轉(zhuǎn)換 概率預(yù)測模型和獲得的該語法詞的屬性的值,計算該語法詞的非輕聲字音 轉(zhuǎn)換概率,其中,該詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模型是利用圖3所示的實 施例描述的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的方法構(gòu)建的。然后在步驟415, 4艮據(jù)詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和獲得的該語 法詞的屬性的值,計算該語法詞的輕聲字音轉(zhuǎn)換概率,其中該詞無關(guān)的字 音轉(zhuǎn)換概率預(yù)測4莫型是利用圖3所示的實施例描述的構(gòu)建字音轉(zhuǎn)換概率預(yù)測才莫型的方法構(gòu)建的。通過上述步驟410和415,可以獲得包含高頻多音字的語法詞的各個 讀音的字音轉(zhuǎn)換概率,然后在步驟420,比較該語法詞的各個字音轉(zhuǎn)換概 率,并將字音轉(zhuǎn)換概率最高的讀音作為該語法詞的預(yù)測讀音。如果該語法詞不包含高頻多音字,則直接執(zhí)行步驟415,根據(jù)詞無關(guān) 的字音轉(zhuǎn)換概率預(yù)測模型和獲得的該語法詞的屬性的值,計算該語法詞的 字音轉(zhuǎn)換概率。然后,在步驟420,比較該語法詞的各個字音轉(zhuǎn)換概率,并將字音轉(zhuǎn) 換概率最高的讀音作為該語法詞的預(yù)測讀音。然后,判斷該語法詞是否是由步驟401得到的語法詞序列中的最后一 個語法詞,如果是,則結(jié)束此次字音預(yù)測過程,如果不是,則返回步驟405, 對語法詞序列中的下一個語法詞執(zhí)行確定步驟以及后續(xù)的步驟。此外,如果由步驟410和/或415計算出的語法詞的各個字音轉(zhuǎn)換概率 相同,則將其中任意一個字音轉(zhuǎn)換概率的讀音作為該語法詞的預(yù)測讀音。通過以上描述可以看出,本實施例的字音轉(zhuǎn)換預(yù)測方法采用了詞相關(guān) 的字音轉(zhuǎn)換概率預(yù)測模型和針對非輕聲多音字的詞無關(guān)的字音轉(zhuǎn)換概率預(yù) 測才莫型兩個模型,分別處理不同類型的多音字,即輕聲多音字和非輕聲多 音字,可以更準(zhǔn)確地預(yù)測多音字的讀音。在同一發(fā)明構(gòu)思下,圖5是根據(jù)本發(fā)明的一個實施例的語音合成方法 的流程圖。下面結(jié)合該圖,對本發(fā)明的實施例進(jìn)行描述。對于那些與前面 實施例相同的部分,適當(dāng)省略其說明。如圖5所示,首先在步驟501,利用前面實施例描迷的字音轉(zhuǎn)換預(yù)測 方法,預(yù)測輸入的文本的各個語法詞的讀音。然后,在步驟505,根據(jù)所預(yù)測的語法詞的讀音,進(jìn)行語音合成。通過以上描述可以看出,本實施例的語音合成方法采用上述實施例的 字音轉(zhuǎn)換預(yù)測方法預(yù)測輸入文本中的語法詞的讀音,進(jìn)而根據(jù)預(yù)測的語法 詞的讀音進(jìn)行語音合成,容易實現(xiàn)對訓(xùn)練數(shù)據(jù)的自適應(yīng),解決了lt據(jù)稀疏 的問題,并且能夠自動地選出重要屬性協(xié)同作用項,因此,本實施例的語音合成方法可以更準(zhǔn)確并且自動地進(jìn)行語音合成,所合成的語音更加合理、 易懂。在同一發(fā)明構(gòu)思下,圖6是根據(jù)本發(fā)明的一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練 字音轉(zhuǎn)換概率預(yù)測模型的裝置的示意性方框圖。下面結(jié)合該圖對本實施例 進(jìn)行詳細(xì)描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。如圖6所示,本實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置 600包括初始模型生成單元601,其利用與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性 和至少一部分上述屬性的組合生成初始字音轉(zhuǎn)換概率預(yù)測模型,其中每個 上述屬性或上述屬性的組合被作為一項;重要性計算單元602,其計算上 述字音轉(zhuǎn)換概率預(yù)測模型中每一上述項的重要性;項刪除單元603,其刪 除上述計算出的重要性最低的項;模型再生成單元604,其利用由項刪除 單元603刪除后剩余的項重新生成字音轉(zhuǎn)換概率預(yù)測模型;以及優(yōu)化判斷 單元605,其判斷由模型再生成單元604重新生成的字音轉(zhuǎn)換概率預(yù)測模 型是否最優(yōu)。在本實施例,字音轉(zhuǎn)換概率預(yù)測模型是廣義線性模型(GLM)。與前 面的實施例相同,與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性包括語言類型和語音 類型的屬性,例如,包括從詞性、上下文中的詞和詞長中選擇的任意多 個屬性。進(jìn)一步地,重要性計算單元602利用F檢驗(F-test)計算每一項的重 要性。進(jìn)一步地,優(yōu)化判斷單元605利用貝葉斯信息準(zhǔn)則(BIC)判斷上述 重新生成的字音轉(zhuǎn)換概率預(yù)測;漠型是否最優(yōu)。另外,根據(jù)本發(fā)明的一個優(yōu)選實施例,上述至少一部分上述屬性的組 合包括上述多個與字音轉(zhuǎn)換預(yù)測相關(guān)的屬性的全部2階的屬性組合。應(yīng)當(dāng)指出,本實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置 600及其組件可以由諸如超大規(guī)模集成電路或門陣列、諸如邏輯芯片、晶 體管等的半導(dǎo)體、或者諸如現(xiàn)場可編程門陣列、可編程邏輯設(shè)備等的可編 程硬件設(shè)備的硬件電路實現(xiàn),也可以用由各種類型的處理器執(zhí)行的軟件實現(xiàn),也可以由上述硬件電路和軟件的結(jié)合實現(xiàn)。并且,本實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測才莫型的裝置600在操作上可以實現(xiàn)如圖1所示的 實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方法。圖7是根據(jù)本發(fā)明的另一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測 模型的裝置700的示意性方框圖。下面結(jié)合該圖對本實施例進(jìn)行詳細(xì)描述, 其中與前面實施例相同的部分采用相同的符號,并適當(dāng)省略其說明。本實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置700除了包括 如圖6所示的實施例之外,還包括擴(kuò)展單元701,其對GLM模型進(jìn)行 擴(kuò)展,從而得到^隨機(jī)場(CRT)模型;以及訓(xùn)練單元702,其使用由 優(yōu)化判斷單元605判斷為最優(yōu)的GLM模型的每一項的屬性或?qū)傩越M合, 對該CRF模型進(jìn)行訓(xùn)練,并將訓(xùn)練得到的CRF模型作為最終的字音轉(zhuǎn)換 概率預(yù)測模型。應(yīng)當(dāng)指出,本實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置 700及其組件可以由諸如超大M^莫集成電路或門陣列、諸如邏輯芯片、晶 體管等的半導(dǎo)體、或者諸如現(xiàn)場可編程門陣列、可編程邏輯i殳備等的可編 程硬件設(shè)備的硬件電路實現(xiàn),也可以用由各種類型的處理器執(zhí)行的軟件實 現(xiàn),也可以由上述硬件電路和軟件的結(jié)合實現(xiàn)。并且,本實施例的數(shù)據(jù)驅(qū) 動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置700在操作上可以實現(xiàn)如圖2所示的 實施例的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方法。在同一發(fā)明構(gòu)思下,圖8是才艮據(jù)本發(fā)明的一個實施例的構(gòu)建字音轉(zhuǎn)換 概率預(yù)測模型的裝置的示意性方框圖。下面結(jié)合該圖對本實施例進(jìn)4亍詳細(xì) 描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。如圖8所示,本實施例的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的裝置800包括 輕聲多音字的訓(xùn)練樣本集合801;非輕聲多音字的訓(xùn)練樣本集合802;以及 訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置,其可以是前面的實施例描述的數(shù)據(jù)驅(qū) 動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置700,該裝置700分別基于輕聲多音 字的訓(xùn)練樣本集合801與非輕聲多音字的訓(xùn)練樣本集合802進(jìn)行訓(xùn)練,以 構(gòu)建詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模型。進(jìn)一步地,本實施例的構(gòu)建字音轉(zhuǎn)換概率預(yù)測才莫型的裝置800還包括 文本語料庫803,其保存有盡可能多的多音字;統(tǒng)計單元804,其統(tǒng)計文本 語料庫803中的多音字的每個讀音的發(fā)生概率;以及分類單元805,其根 據(jù)由統(tǒng)計單元804得到的發(fā)生概率,將文本語料庫803中的多音字分類為 輕聲多音字和非輕聲多音字,并分別提供給輕聲多音字的訓(xùn)練樣本集合 801與非輕聲多音字的訓(xùn)練樣本集合802。進(jìn)一步地,本實施例的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的裝置800還包括 頻率計算單元806,其計算文本語料庫803中的多音字的出現(xiàn)頻率;頻率 比較單元807,其比較由頻率計算單元806計算出的出現(xiàn)頻率和閾值,該 閾值可由用戶自行確定;以及選擇單元808,其選擇出現(xiàn)頻率大于該閾值 并且包含在非輕聲多音字的訓(xùn)練樣本集合802中的多音字作為高頻多音 字。應(yīng)當(dāng)指出,本實施例的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的裝置800及其組 件可以由諸如超大M^莫集成電路或門陣列、諸如邏輯芯片、晶體管等的半 導(dǎo)體、或者諸如現(xiàn)場可編程門陣列、可編程邏輯設(shè)備等的可編程硬件設(shè)備 的硬件電路實現(xiàn),也可以用由各種類型的處理器執(zhí)行的軟件實現(xiàn),也可以 由上述硬件電路和軟件的結(jié)合實現(xiàn)。并且,本實施例的構(gòu)建字音轉(zhuǎn)換概率 預(yù)測模型的裝置800在操作上可以實現(xiàn)前面實施例的構(gòu)建字音轉(zhuǎn)換概率預(yù) 測^^莫型的方法。在同一發(fā)明構(gòu)思下,圖9是根據(jù)本發(fā)明的一個實施例的字音轉(zhuǎn)換預(yù)測 裝置900的示意性方框圖。下面結(jié)合該圖對本實施例進(jìn)行詳細(xì)描述。對于 那些與前面實施例相同的部分,適當(dāng)省略其說明。如圖9所示,本實施例的字音轉(zhuǎn)換預(yù)測裝置900包括詞無關(guān)的字音 轉(zhuǎn)換概率預(yù)測模型901和詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模型902,其由前面 的實施例所描述的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的裝置所構(gòu)建;文本分析器 903,其分析輸入的文本,以獲得該文本的語法詞序列和每個語法詞的相應(yīng) 的與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值;確定單元904,其確定由文本分 析器卯3得到的語法詞序列中的每個語法詞是否包含高頻多音字;第一字音轉(zhuǎn)換概率計算單元905,其根據(jù)詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模型902和 語法詞的相應(yīng)的與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值,計算包含高頻多音 字的語法詞的非輕聲字音轉(zhuǎn)換概率;第二字音轉(zhuǎn)換概率計算單元906,其 根據(jù)詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測才莫型901和語法詞的相應(yīng)的與字音轉(zhuǎn)換預(yù) 測相關(guān)的多個屬性的值,計算包含高頻多音字的語法詞的輕聲字音轉(zhuǎn)換概 率和不包含高頻多音字的語法詞的字音轉(zhuǎn)換概率;以及字音轉(zhuǎn)換概率比較 單元907,其比較由第一字音轉(zhuǎn)換概率計算單元卯5和/或第二字音轉(zhuǎn)換概 率計算單元卯6計算出的語法詞的各個字音轉(zhuǎn)換概率,并輸出字音轉(zhuǎn)換概 率最高的讀音作為該語法詞的預(yù)測讀音。在此,關(guān)于分析文本以獲得語法詞序列和其中每個語法詞的屬性的方 式,如前面實施例中所述的,可以采用任何已知的和未來的方法,而并不 限于某種特定的方式,并且獲得屬性的方式還與屬性的選"^有關(guān)。進(jìn)一步地,在由第一字音轉(zhuǎn)換概率計算單元卯5和/或第二字音轉(zhuǎn)換概 率計算單元906計算出的語法詞的各個字音轉(zhuǎn)換概率相同的情況下,滋陰 轉(zhuǎn)換概率比較單元907輸出其中任意一個字音轉(zhuǎn)換概率的讀音作為該語法 詞的預(yù)測讀音。應(yīng)當(dāng)指出,本實施例的字音轉(zhuǎn)換預(yù)測裝置卯0及其組件可以由諸如超 大自集成電路或門陣列、諸如邏輯芯片、晶體管等的半導(dǎo)體、或者諸如 現(xiàn)場可編程門陣列、可編程邏輯設(shè)備等的可編程硬件設(shè)備的硬件電路實現(xiàn), 也可以用由各種類型的處理器執(zhí)行的軟件實現(xiàn),也可以由上述硬件電路和 軟件的結(jié)合實現(xiàn)。并且,本實施例的字音轉(zhuǎn)換預(yù)測裝置卯O在操作上可以 實現(xiàn)前面實施例的字音轉(zhuǎn)換預(yù)測方法。圖10是根據(jù)本發(fā)明的一個實施例的語音合成裝置1000的示意性方框 圖。下面結(jié)合該圖對本實施例進(jìn)行詳細(xì)描述。對于那些與前面實施例相同 的部分,適當(dāng)省略其說明。如圖10所示,本實施例的語音合成裝置1000包括字音轉(zhuǎn)換預(yù)測裝 置900,其可以是前面實施例中描述的字音轉(zhuǎn)換預(yù)測裝置;以及語音合成 器IOOI,其可以使用現(xiàn)有技術(shù)中的語音合成器,并根據(jù)由字音轉(zhuǎn)換預(yù)測裝置卯o預(yù)測的語法詞的讀音,進(jìn)行語音合成。應(yīng)當(dāng)指出,本實施例的語音合成裝置1000及其組件可以由諸如超大規(guī)模集成電路或門陣列、諸如邏輯芯片、晶體管等的半導(dǎo)體、或者諸如現(xiàn)場 可編程門陣列、可編程邏輯設(shè)備等的可編程硬件i殳備的硬件電路實現(xiàn),也 可以用由各種類型的處理器執(zhí)行的軟件實現(xiàn),也可以由上述硬件電路和軟件的結(jié)合實現(xiàn)。并且,本實施例的語音合成裝置IOOO在操作上可以實現(xiàn)前面實施例的語音合成方法。以上雖然通過一些示例性的實施例詳細(xì)描述了本發(fā)明的數(shù)據(jù)驅(qū)動訓(xùn)練 字音轉(zhuǎn)換概率預(yù)測模型的方法和裝置、構(gòu)建字音轉(zhuǎn)換概率預(yù)測^t型的方法 和裝置、字音轉(zhuǎn)換預(yù)測的方法和裝置以及語音合成的方法和裝置,但是以 上這些實施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍 內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實施例,本發(fā)明的范 圍僅由所附的權(quán)利要求限定。
權(quán)利要求
1. 一種數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方法,包括利用與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始字音轉(zhuǎn)換概率預(yù)測模型,其中每個上述屬性或上述屬性的組合被作為一項;計算上述字音轉(zhuǎn)換概率預(yù)測模型中每一上述項的重要性;刪除上述計算出的重要性最低的項;利用剩余的項重新生成字音轉(zhuǎn)換概率預(yù)測模型;判斷上述重新生成的字音轉(zhuǎn)換概率預(yù)測模型是否最優(yōu);以及如果上述字音轉(zhuǎn)換概率預(yù)測模型被判斷為不是最優(yōu),則重復(fù)上述計算每一項的重要性的步驟及其之后的步驟。
2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方 法,其中,上述與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性包括語言類型和語音類 型的屬性。
3. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方 法,其中,上述與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性包括從詞性、上下文中 的詞和詞長中選擇的任意多個屬性。
4. 根據(jù)權(quán)利要求1至3任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率 預(yù)測模型的方法,其中,上述字音轉(zhuǎn)換概率預(yù)測模型是廣義線性模型(GLM)。
5. 根據(jù)權(quán)利要求4所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方 法,還包括擴(kuò)展上述廣義線性模型,得到條件隨機(jī)場(CRF)模型;使 用判斷為最優(yōu)的廣義線性才莫型的每一項的屬性或?qū)傩缘慕M合對上述條件隨 機(jī)場模型進(jìn)行訓(xùn)練,并將訓(xùn)練得到的M隨機(jī)場模型作為上述字音轉(zhuǎn)換概 率預(yù)測模型。
6. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方 法,其中,上述至少一部分上述屬性的組合包括上述多個與字音轉(zhuǎn)換預(yù)測相關(guān)的屬性的全部2階的屬性組合。
7. 根據(jù)權(quán)利要求1至6任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率 預(yù)測模型的方法,其中,上述計算上述字音轉(zhuǎn)換概率預(yù)測模型中每一上述 項的重要性的步驟包括利用F檢驗(F-test)計算每一項的重要性。
8. 根據(jù)權(quán)利要求1至7任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率 預(yù)測模型的方法,其中,上述判斷上述重新生成的字音轉(zhuǎn)換概率預(yù)測才莫型 是否最優(yōu)的步驟包括利用貝葉斯信息準(zhǔn)則(BIC)判斷上述重新生成的 字音轉(zhuǎn)換概率預(yù)測;漠型是否最優(yōu)。
9. 根據(jù)權(quán)利要求8所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方 法,其中,上述判斷上述重新生成的字音轉(zhuǎn)換概率預(yù)測模型是否最優(yōu)的步 驟包括計算下式<formula>formula see original document page 3</formula> 其中,SSE表示預(yù)測誤差e的平方和,N表示訓(xùn)練樣本的數(shù)量; 當(dāng)上式中的mc最小時,判斷字音轉(zhuǎn)換概率預(yù)測模型為最優(yōu)。
10. 根據(jù)權(quán)利要求1至9任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率 預(yù)測模型的方法,其中,上述字音轉(zhuǎn)換概率滿足伯努利分布。
11. 一種構(gòu)建字音轉(zhuǎn)換概率預(yù)測才莫型的方法,包括 形成輕聲多音字的訓(xùn)練樣本集合與非輕聲多音字的訓(xùn)練樣本集合;以及分別基于上述輕聲多音字的訓(xùn)練樣本集合與上述非輕聲多音字的訓(xùn)練 樣本集合,利用上述權(quán)利要求1至10的任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音 轉(zhuǎn)換概率預(yù)測模型的方法,構(gòu)建詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和詞相關(guān) 的字音轉(zhuǎn)換概率預(yù)測才莫型。
12. 根據(jù)權(quán)利要求11所述的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的方法,其中, 所述形成輕聲多音字的訓(xùn)練樣本集合與非輕聲多音字的訓(xùn)練樣本集合的步 驟包括統(tǒng)計一個文本語料庫中的多音字的每個讀音的發(fā)生概率;以及根據(jù)上述發(fā)生概率,將上述文本語料庫中的多音字分類為輕聲多音字 和非輕聲多音字,以形成輕聲多音字的訓(xùn)練樣本集合與非輕聲多音字的訓(xùn) 練樣本集合。
13. 根據(jù)權(quán)利要求12所述的構(gòu)建字音轉(zhuǎn)換概率預(yù)測才莫型的方法,還包括計算上述文本語料庫中的多音字的出現(xiàn)頻率; 比較上述計算出的出現(xiàn)頻率和閾值;以及選擇上述出現(xiàn)頻率大于閾值并且在上述非輕聲多音字的訓(xùn)練樣本集合中的多音字作為高頻多音字。
14. 一種字音轉(zhuǎn)換預(yù)測方法,包括分析輸入的文本,以獲得該文本的語法詞序列和每個語法詞的與字音 轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值;確定上述每個語法詞是否包含高頻多音字;如果上述語法詞包含上述高頻多音字,則根據(jù)詞相關(guān)的字音轉(zhuǎn)換概率 預(yù)測模型和該語法詞的相應(yīng)的與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值,計算 該語法詞的非輕聲字音轉(zhuǎn)換概率;根據(jù)詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測才莫型和該語法詞的與字音轉(zhuǎn)換預(yù)測相 關(guān)的多個屬性的值,計算該語法詞的輕聲字音轉(zhuǎn)換概率;比較上述計算出的上述語法詞的各個字音轉(zhuǎn)換概率,將字音轉(zhuǎn)換概率最高的讀音作為該語法詞的預(yù)測讀音;如果上述語法詞不包含上述高頻多音字,則根據(jù)上述詞無關(guān)的字音轉(zhuǎn) 換概率預(yù)測模型和該語法詞的與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值,計算 該語法詞的字音轉(zhuǎn)換概率;以及比較上述計算出的上述語法詞的各個字音轉(zhuǎn)換概率,將字音轉(zhuǎn)換概率最高的讀音作為該語法詞的預(yù)測讀音;其中,上述詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和上述詞無關(guān)的字音轉(zhuǎn)換 概率預(yù)測模型是利用上述權(quán)利要求11至13的任意一項所述的構(gòu)建字音轉(zhuǎn) 換概率預(yù)測模型的方法構(gòu)建的。
15. 根據(jù)權(quán)利要求14所述的字音轉(zhuǎn)換預(yù)測方法,其中,如果上述計算 出的上述語法詞的各個字音轉(zhuǎn)換概率相同,則將其中任意一個字音轉(zhuǎn)換概 率的讀音作為該語法詞的預(yù)測讀音。
16. —種語音合成方法,包括對輸入的文本利用上i^利要求14或15所述的字音轉(zhuǎn)換預(yù)測方法, 預(yù)測上述文本中的語法詞的讀音;以及根據(jù)上述預(yù)測的語法詞的讀音,進(jìn)行語音合成。
17. —種數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置,包括 初始模型生成單元,其利用與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始字音轉(zhuǎn)換概率預(yù)測模型,其中每個上述屬性或上述屬性的組合被作為 一項;重要性計算單元,其計算上述字音轉(zhuǎn)換概率預(yù)測模型中每一上述項的重要性;項刪除單元,用于刪除上述計算出的重要性最低的項; 模型再生成單元,其利用由上述項刪除單元刪除后剩余的項重新生成字音轉(zhuǎn)換概率預(yù)測模型;以及優(yōu)化判斷單元,其判斷由上述模型再生成單元重新生成的字音轉(zhuǎn)換概率預(yù)測模型是否最優(yōu)。
18. 根據(jù)權(quán)利要求17所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝 置,其中,上述與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性包括語言類型和i吾音類 型的屬性。
19. 根據(jù)權(quán)利要求17所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝 置,其中,上述與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性包括從詞性、上下文中 的詞和詞長中選擇的任意多個屬性。
20. 根據(jù)權(quán)利要求17至19任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率 預(yù)測模型的裝置,其中,上述字音轉(zhuǎn)換概率預(yù)測模型是廣義線性模型(GLM)。
21,根據(jù)權(quán)利要求20所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝置,還包括擴(kuò)展單元,其對上述廣義線性模型(GLM)進(jìn)行擴(kuò)展而得到M隨機(jī) 場(CRF)模型;以及訓(xùn)練單元,其使用由上述優(yōu)化判斷單元判斷為最優(yōu)的廣義線性才莫型的 每一項的屬性或?qū)傩越M合,對上述M隨機(jī)場模型進(jìn)行訓(xùn)練,并將訓(xùn)練得 到的條件隨機(jī)場模型作為上述字音轉(zhuǎn)換概率預(yù)測模型。
22. 根據(jù)權(quán)利要求17所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的裝 置,其中,上述至少一部分上述屬性的組合包括上述多個與字音轉(zhuǎn)換預(yù)測 相關(guān)的屬性的全部2階的屬性組合。
23. 根據(jù)權(quán)利要求17至22任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率 預(yù)測模型的裝置,其中,上述重要性計算單元利用F檢驗(F-test)計算每 一項的重要性。
24. 根據(jù)權(quán)利要求17至23任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率 預(yù)測模型的裝置,其中,上述優(yōu)化判斷單元利用貝葉斯信息準(zhǔn)則(BIC) 判斷上述重新生成的字音轉(zhuǎn)換概率預(yù)測模型是否最優(yōu)。
25. 根據(jù)權(quán)利要求17至24任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率 預(yù)測模型的裝置,其中,上述字音轉(zhuǎn)換概率滿足伯努利分布。
26. —種構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的裝置,包括 輕聲多音字的訓(xùn)練樣本集合; 非輕聲多音字的訓(xùn)練樣本集合;以及根據(jù)權(quán)利要求17至25任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù) 測模型的裝置,其分別基于上述輕聲多音字的訓(xùn)練樣本集合與上述非輕聲 多音字的訓(xùn)練樣本集合訓(xùn)練詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測才莫型和詞相關(guān)的字 音轉(zhuǎn)換概率預(yù)測模型。
27. 根據(jù)權(quán)利要求26所述的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的裝置,還包括文本語料庫;統(tǒng)計單元,其統(tǒng)計上迷文本語料庫中的多音字的每個讀音的發(fā)生概率;以及分類單元,根據(jù)由上述統(tǒng)計單元得到的上i^生概率,將上述文本語 料庫中的多音字分類為輕聲多音字和非輕聲多音字,并分別提供給輕聲多音字的訓(xùn)練樣本集合與非輕聲多音字的訓(xùn)練樣本集合。
28. 根據(jù)權(quán)利要求27所述的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的裝置,還包括頻率計算單元,其計算上述文本語料庫中的多音字的出現(xiàn)頻率; 頻率比較單元,其比較上述計算出的出現(xiàn)頻率和閾值;以及 選擇單元,其選擇上述出現(xiàn)頻率大于閾值并且在上述非輕聲多音字的訓(xùn)練樣本集合中的多音字作為高頻多音字。
29. —種字音轉(zhuǎn)換預(yù)測裝置,包括由根據(jù)上述權(quán)利要求28所述的構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型的裝置所 構(gòu)建的詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模 型;文本分析器,用于分析輸入的文本,以獲得該文本的語法詞序列和每 個語法詞的相應(yīng)的與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值;確定單元,用于確定由上述文本分析器得到的語法詞序列中的每個語 法詞是否包含上述高頻多音字;第一字音轉(zhuǎn)換概率計算單元,其根據(jù)上述詞相關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和語法詞的相應(yīng)的與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值,計算包含上述高頻多音字的語法詞的非輕聲字音轉(zhuǎn)換概率;第二字音轉(zhuǎn)換概率計算單元,其根據(jù)上述詞無關(guān)的字音轉(zhuǎn)換概率預(yù)測模型和語法詞的相應(yīng)的與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性的值,計算包含上 述高頻多音字的語法詞的輕聲字音轉(zhuǎn)換概率和不包含上述高頻多音字的語 法詞的字音轉(zhuǎn)換概率;以及字音轉(zhuǎn)換概率比較單元,其比較上述計算出的語法詞的各個字音轉(zhuǎn)換 概率,輸出字音轉(zhuǎn)換概率最高的讀音作為該語法詞的預(yù)測讀音,
30. 根據(jù)權(quán)利要求29所述的字音轉(zhuǎn)換預(yù)測裝置,其中,上述字音轉(zhuǎn)換概率比較單元還適用于在上述計算出的語法詞的各個字音轉(zhuǎn)換概率相同 的情況下,輸出其中任意一個字音轉(zhuǎn)換概率的讀音作為該語法詞的預(yù)測讀 音。
31.—種語音合成裝置,包括上述4又利要求29或30所述的字音轉(zhuǎn)換預(yù)測裝置;并且 根據(jù)上述預(yù)測的語法詞的讀音,進(jìn)行語音合成。
全文摘要
本發(fā)明提供了數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型、構(gòu)建字音轉(zhuǎn)換概率預(yù)測模型、字音轉(zhuǎn)換預(yù)測以及語音合成的方法和裝置。本發(fā)明的數(shù)據(jù)驅(qū)動訓(xùn)練字音轉(zhuǎn)換概率預(yù)測模型的方法包括利用與字音轉(zhuǎn)換預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始字音轉(zhuǎn)換概率預(yù)測模型,其中每個上述屬性或上述屬性的組合被作為一項;計算上述字音轉(zhuǎn)換概率預(yù)測模型中每一上述項的重要性;刪除上述計算出的重要性最低的項;利用剩余的項重新生成字音轉(zhuǎn)換概率預(yù)測模型;判斷上述重新生成的字音轉(zhuǎn)換概率預(yù)測模型是否最優(yōu);以及如果上述字音轉(zhuǎn)換概率預(yù)測模型被判斷為不是最優(yōu),則重復(fù)上述計算每一項的重要性的步驟及其之后的步驟。
文檔編號G10L13/02GK101271687SQ20071008917
公開日2008年9月24日 申請日期2007年3月20日 優(yōu)先權(quán)日2007年3月20日
發(fā)明者易立夫, 杰 郝 申請人:株式會社東芝
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
乌鲁木齐县| 黎平县| 庐江县| 晋城| 漯河市| 开阳县| 湄潭县| 青冈县| 乃东县| 昌邑市| 柯坪县| 利津县| 都兰县| 资溪县| 义乌市| 万载县| 东安县| 井冈山市| 江阴市| 大姚县| 方正县| 浠水县| 温宿县| 太原市| 资溪县| 文登市| 贞丰县| 台东县| 湟源县| 临夏县| 巴塘县| 密山市| 自贡市| 闽侯县| 湘西| 东辽县| 抚松县| 西乌珠穆沁旗| 岳西县| 卢氏县| 镇康县|