語音合成發(fā)音人自適應(yīng)方法及系統(tǒng)的制作方法

文檔序號：2828138閱讀：404來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音合成發(fā)音人自適應(yīng)方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種語音合成發(fā)音人自適應(yīng)方法及系統(tǒng)，該方法包括：在接收到需要進行語音合成的待處理文本后，獲取用戶信息；從原始發(fā)音人模型集合中篩選出滿足用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合；在有效發(fā)音人模型集合中指定一發(fā)音人模型播報所述待處理文本。本發(fā)明方法及系統(tǒng)可以根據(jù)用戶信息自適應(yīng)地調(diào)整發(fā)音人模型，因此，可使基于本發(fā)明方法及系統(tǒng)的語音合成技術(shù)激起用戶對播報內(nèi)容的興趣，并增強用戶對播報內(nèi)容的理解和記憶。
【專利說明】語音合成發(fā)音人自適應(yīng)方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音合成技術(shù)，尤其涉及一種語音合成發(fā)音人自適應(yīng)方法及系統(tǒng)。

【背景技術(shù)】
[0002]語音合成技術(shù)主要是指將文本轉(zhuǎn)化為語音118)輸出的技術(shù)，該技術(shù)解決如何將文字信息轉(zhuǎn)化為聲音信息的問題，從而變看為聽，使得人們獲取信息的方式更加豐富和自然。1了3的實現(xiàn)主要包括語言學(xué)處理、韻律處理和聲學(xué)處理，語言學(xué)處理在文本轉(zhuǎn)化為語音的過程中起著重要的作用，主要模擬人對自然語言的理解過程，進行文本規(guī)整、詞的切分、語法分析和語義分析，使計算機對輸入的文本能完全理解，并給出韻律處理和聲學(xué)處理所需要的各種發(fā)音提示；韻律處理主要是為合成語音規(guī)劃出音段特征，如音高、音長和音強等，使合成語音能正確表達(dá)語意，聽起來更加自然；聲學(xué)處理則是按照語言學(xué)處理結(jié)果和韻律處理結(jié)果的要求輸出語音，即合成語音。1^3與一些用預(yù)先錄制的聲音文件實現(xiàn)發(fā)聲的應(yīng)用相比，1X8的發(fā)聲引擎只有幾兆大小，不需要大量的聲音文件支持，因此可以節(jié)省很大的儲存空間，并且可以朗讀預(yù)先未知的任何語句?，F(xiàn)在已經(jīng)有許多應(yīng)用利用！'13技術(shù)實現(xiàn)語音功能，例如一些播音應(yīng)用可以用來讀小說或者作校對工作，還可以朗讀電子郵件。
[0003]由于113技術(shù)最終是將文本轉(zhuǎn)化為語音輸出，因此在聲學(xué)處理過程中就需要指定發(fā)音人模型，當(dāng)前使用113技術(shù)的應(yīng)用，其發(fā)音人模型的指定主要有以下兩種策略:
[0004]默認(rèn)策略:即應(yīng)用只提供一種發(fā)音人模型，大部分應(yīng)用均是采用該種設(shè)定默認(rèn)發(fā)音人模型的策略，例如百度地圖，用戶在使用百度地圖時，一般聽到的只有一種發(fā)音人聲音，不可以通過設(shè)置項來改變。該種默認(rèn)策略存在的缺陷是發(fā)音人模型單一，適應(yīng)性差，用戶只能被迫接受系統(tǒng)提供的1^3發(fā)音人模型選項。
[0005]手動設(shè)置策略:即應(yīng)用支持用戶手動切換發(fā)音人模型，這類應(yīng)用比較少，例如靈犀語音助手，該種應(yīng)用是在設(shè)置項中列出可供選擇的語言選項，用戶可以通過選擇具體的語言選項完成113發(fā)音人模型的修改，目前靈犀語音助手支持中文、粵語的語言選項。該種手動設(shè)置策略雖然提高了適應(yīng)性，但是需要手動設(shè)置，增加了用戶操作步驟，影響用戶體驗效果。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的實施例針對現(xiàn)有173發(fā)音人模型指定策略存在的適應(yīng)性差、操作繁瑣的技術(shù)問題，提供一種113發(fā)音人自適應(yīng)方法及系統(tǒng)。
[0007]為實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案為:一種語音合成發(fā)音人自適應(yīng)方法，包括:
[0008]在接收到需要進行語音合成的待處理文本后，獲取用戶信息；
[0009]從原始發(fā)音人模型集合中篩選出滿足所述用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合；
[0010]在所述有效發(fā)音人模型集合中指定一發(fā)音人模型播報所述待處理文本。
[0011]優(yōu)選的是，所述從原始發(fā)音人模型集合中篩選出滿足所述用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合包括:
[0012]根據(jù)所述用戶信息中各信息類型的優(yōu)先級，在原始發(fā)音人模型集合中逐層篩選出滿足對應(yīng)信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型集合。
[0013]優(yōu)選的是，所述用戶信息包括用戶地理位置坐標(biāo)、用戶性別和用戶年齡段中的至少一種。
[0014]優(yōu)選的是，所述用戶信息包括用戶地理位置坐標(biāo)；所述方法還包括:
[0015]根據(jù)所述用戶地理位置坐標(biāo)，確定用戶所在地域；
[0016]獲取對應(yīng)所述用戶所在地域的地方性語言；
[0017]將對應(yīng)所述地方性語言的發(fā)音人模型作為滿足所述用戶地理位置坐標(biāo)要求的發(fā)音人模型。
[0018]優(yōu)選的是，所述用戶信息包括用戶性別及/或用戶年齡段；所述獲取用戶信息還包括:
[0019]獲取用戶錄制的音頻數(shù)據(jù)；
[0020]根據(jù)所述音頻數(shù)據(jù)獲取所述用戶性別及/或所述用戶年齡段；
[0021]所述方法還包括:
[0022]將異性發(fā)音人模型作為滿足所述性別信息要求的發(fā)音人模型；及/或，
[0023]將同年齡段發(fā)音人模型作為滿足所述年齡段信息要求的發(fā)音人模型。
[0024]為了實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案包括:一種語音合成發(fā)音人自適應(yīng)系統(tǒng)，包括:
[0025]信息獲取模塊，用于在接收到需要進行語音合成的待處理文本后，獲取用戶信息；
[0026]發(fā)音人篩選模塊，用于從原始發(fā)音人模型集合中篩選出滿足所述用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合；以及，
[0027]發(fā)音人指定模塊，用于在所述有效發(fā)音人模型集合中指定一發(fā)音人模型播報所述待處理文本。
[0028]優(yōu)選的是，所述發(fā)音人篩選模塊還用于根據(jù)所述用戶信息中各信息類型的優(yōu)先級，從原始發(fā)音人模型集合中逐層篩選出滿足對應(yīng)信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型集合。
[0029]優(yōu)選的是，所述用戶信息包括用戶地理位置坐標(biāo)、用戶性別和用戶年齡段中的至少一種。
[0030]優(yōu)選的是，所述用戶信息包括用戶地理位置坐標(biāo)；所述系統(tǒng)還包括:
[0031]地域劃分模塊，用于根據(jù)所述用戶地理位置坐標(biāo)，確定用戶所在地域；
[0032]語言獲取模塊，用于獲取對應(yīng)所述用戶所在地域的地方性語言；以及，
[0033]篩選條件指定模塊，用于將對應(yīng)所述地方性語言的發(fā)音人模型作為滿足所述用戶地理位置坐標(biāo)要求的發(fā)音人模型。
[0034]優(yōu)選的是，所述用戶信息包括用戶性別及/或用戶年齡段；所述信息獲取模塊還包括:
[0035]音頻獲取單元，用于獲取用戶錄制的音頻數(shù)據(jù)；以及，
[0036]信息獲取單元，用于根據(jù)所述音頻數(shù)據(jù)獲取所述用戶性別及/或所述用戶年齡段；
[0037]所述系統(tǒng)還包括:
[0038]篩選條件指定模塊，將異性發(fā)音人模型作為滿足所述性別信息要求的發(fā)音人模型；及/或，將同年齡段發(fā)音人模型作為滿足所述年齡段信息要求的發(fā)音人模型。
[0039]本發(fā)明的有益效果在于，本發(fā)明的語音合成發(fā)音人自適應(yīng)方法及系統(tǒng)可以在接收到用戶指定的需要進行語音合成的待處理文本后，自動獲取例如是用戶地理位置坐標(biāo)、用戶性別、用戶年齡段等的用戶信息，并篩選出滿足用戶信息要求的發(fā)音人模型進行待處理文本的播報，因此可以實現(xiàn)根據(jù)用戶信息自適應(yīng)地調(diào)整發(fā)音人模型的目的。在此，由于可以根據(jù)人們?nèi)粘＝涣鞯南埠迷O(shè)定用戶信息中不同信息類型的篩選要求，因此，基于本發(fā)明的語音合成發(fā)音人自適應(yīng)方法及系統(tǒng)的113技術(shù)可以激起用戶對播報內(nèi)容的興趣，并增強用戶對播報內(nèi)容的理解和記憶。

【專利附圖】

【附圖說明】
[0040]圖1示出了根據(jù)本發(fā)明語音合成發(fā)音人自適應(yīng)方法的一種實施方式的流程圖；
[0041]圖2示出了逐層篩選出滿足對應(yīng)信息類型要求的發(fā)音人模型的一種實施方式的流程圖；
[0042]圖3示出了根據(jù)本發(fā)明語音合成發(fā)音人自適應(yīng)系統(tǒng)的一種實施結(jié)構(gòu)的方框原理圖。

【具體實施方式】
[0043]下面詳細(xì)描述本發(fā)明的實施例，所述實施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的，僅用于解釋本發(fā)明，而不能解釋為對本發(fā)明的限制。
[0044]本發(fā)明為了解決現(xiàn)有發(fā)音人指定策略存在的適應(yīng)性差、操作繁瑣的問題，提供一種語音合成發(fā)音人自適應(yīng)方法，如圖1所示，該方法包括如下步驟:
[0045]步驟51:在接收到需要進行語音合成的待處理文本后，獲取用戶信息，該用戶信息可包括反映用戶屬性的各種信息類型，例如用戶性別、用戶年齡段、用戶地理位置等。
[0046]步驟52:從原始發(fā)音人模型集合中篩選出滿足該用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合。該原始發(fā)音人模型集合由語音合成(113)系統(tǒng)支持的所有發(fā)音人模型構(gòu)成。
[0047]步驟33:在有效發(fā)音人模型集合中指定一發(fā)音人模型播報待處理文本。
[0048]從有效發(fā)音人模型集合中選擇用于播報待處理文本的發(fā)音人模型的條件可以根據(jù)需要預(yù)先設(shè)定，也可以由用戶設(shè)置，該條件例如是在有效發(fā)音人模型集合中隨機指定一發(fā)音人模型播報待處理文本；對于播報過的待處理文本，在有效發(fā)音人模型集合中優(yōu)先指定最近播報過該待處理文本的發(fā)音人模型；或者對于未播報過的待處理文本，在有效發(fā)音人模型集合中優(yōu)先指定從未播報過的發(fā)音人模型，次之選擇播報次數(shù)最少的發(fā)音人模型等。
[0049]由此可見，本發(fā)明的語音合成發(fā)音人自適應(yīng)方法可以在接收到用戶指定的需要進行語音合成的待處理文本后，自動獲取用戶信息，并可以篩選出滿足用戶信息要求的發(fā)音人模型進行待處理文本的播報，因此可以實現(xiàn)根據(jù)用戶信息自適應(yīng)地調(diào)整發(fā)音人模型的目的；在此，由于可以根據(jù)人們?nèi)粘＝涣鞯南埠迷O(shè)定對應(yīng)各信息類型的篩選要求，因此，基于本發(fā)明的語音合成發(fā)音人自適應(yīng)方法的113技術(shù)可以激起用戶對播報內(nèi)容的興趣，并增強用戶對播報內(nèi)容的理解和記憶。
[0050]由于人們在進行日常交流時，通常會通過多個標(biāo)準(zhǔn)來選擇交流對象，而不同標(biāo)準(zhǔn)之間會有不同的重要性，例如人們會優(yōu)先選擇會相同地方性語言的對象進行交流，因此，為了使本發(fā)明方法更貼近人們?nèi)粘＝涣髁?xí)慣，上述步驟32中從原始發(fā)音人模型集合中篩選出滿足該用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合可進一步包括:根據(jù)用戶信息中各信息類型的優(yōu)先級，在原始發(fā)音人模型集合中逐層篩選出滿足對應(yīng)信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型集合，如圖2所示，具體可包括如下步驟:
[0051]步驟521:根據(jù)各信息類型的優(yōu)先級，確定當(dāng)前篩選信息類型；對于首次篩選，該當(dāng)前篩選信息類型應(yīng)該為最高優(yōu)先級。
[0052]步驟322:獲取對應(yīng)當(dāng)前篩選信息類型的篩選前發(fā)音人模型集合；如果該當(dāng)前篩選信息類型為最高優(yōu)先級，則該篩選前發(fā)音人模型集合為上述原始發(fā)音人模型集合；如果該當(dāng)前篩選信息類型為其他優(yōu)先級，則該篩選前發(fā)音人模型集合為對應(yīng)上一篩選信息類型的篩選后發(fā)音人模型集合。
[0053]步驟323:判斷篩選前發(fā)音人模型集合中是否存在滿足當(dāng)前篩選信息類型的發(fā)音人模型，如是，則篩選出滿足當(dāng)前篩選信息類型要求的發(fā)音人模型，形成對應(yīng)當(dāng)前篩選信息類型的篩選后發(fā)音人模型集合；如否，則將篩選前發(fā)音人模型集合作為所述篩選后發(fā)音人豐吳型集合。
[0054]步驟324:判斷當(dāng)前篩選信息類型是否為最低優(yōu)先級，如是，則將篩選后發(fā)音人模型集合作為上述有效發(fā)音人模型集合，并結(jié)束篩選；如否，則將篩選后發(fā)音人模型集合作為對應(yīng)下一篩選信息類型的篩選前發(fā)音人模型集合，之后繼續(xù)執(zhí)行步驟321。
[0055]在此，各信息類型的優(yōu)先級可預(yù)先設(shè)定，也可以根據(jù)用戶的選擇設(shè)定。
[0056]另外，上述步驟32中從原始發(fā)音人模型集合中篩選出滿足該用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合還可進一步包括:從原始發(fā)音人模型集合中篩選出滿足用戶信息中最多信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型集合。例如，在用戶信息包括三種信息類型時，優(yōu)先篩選出滿足三種信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型；如果不存在滿足三種信息類型要求的發(fā)音人模型，則篩選出滿足二種信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型；如果不存在滿足三種信息類型要求和二種信息類型要求的發(fā)音人模型，則篩選出滿足一種信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型。
[0057]而且，按照滿足信息類型要求最多篩選的實施例還可以與按照各信息類型優(yōu)先級篩選的實施例相結(jié)合，例如，在用戶信息包括三種信息類型時，如果只能篩選出滿足二種信息類型要求的發(fā)音人模型，則還可在滿足二種信息類型要求的發(fā)音人模型中，再次篩選能夠滿足最高優(yōu)先級信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型。
[0058]根據(jù)人們?nèi)粘＝涣髦杏糜谶x擇交流對象的主要信息類型，該用戶信息可包括用戶地理位置坐標(biāo)、用戶性別和用戶年齡段中的至少一種。對于用戶地理位置坐標(biāo)的信息類型，可將對應(yīng)地方性語言的發(fā)音人模型作為滿足用戶地理位置坐標(biāo)要求的發(fā)音人模型。對于用戶性別的信息類型，可將異性發(fā)音人模型作為滿足所述性別信息要求的發(fā)音人模型。而對于用戶年齡段的信息類型，則可將同年齡段發(fā)音人模型作為滿足所述年齡段信息要求的發(fā)音人模型。
[0059]對于用戶信息包括用戶地理位置坐標(biāo)的實施例，本發(fā)明的方法還可以包括如下步驟:
[0060]步驟313:根據(jù)用戶地理位置坐標(biāo)，確定用戶所在地域。
[0061]該用戶地理位置坐標(biāo)可利用全球定位系統(tǒng)(⑶幻獲取。該用戶所在地域可以為對應(yīng)用戶地理位置坐標(biāo)的地區(qū)、省份等，也可以為根據(jù)113能夠提供的語言類型預(yù)先劃分區(qū)域。
[0062]步驟316:獲取對應(yīng)該用戶所在地域的地方性語言。
[0063]在此可預(yù)先儲存反映用戶所在地域與地方性語言之間對應(yīng)關(guān)系的對照表，因此，該步驟可通過查找該對照表獲取對應(yīng)該用戶所在地域的地方性語言；或者可以直接為各地域綁定對應(yīng)的地方性語言。
[0064]步驟3化:將對應(yīng)地方性語言的發(fā)音人模型作為滿足用戶地理位置坐標(biāo)要求的發(fā)音人模型。
[0065]對于用戶信息包括用戶性別及/或用戶年齡段的實施例，上述步驟51中獲取用戶信息還可包括:
[0066]步驟3101:獲取用戶錄制的音頻數(shù)據(jù)。
[0067]該音頻數(shù)據(jù)可以是之前與用戶進行語音交互時錄制并儲存的音頻數(shù)據(jù)；也可以在接收到待處理文本后，直接提示用戶錄制音頻數(shù)據(jù)，或者在沒有查找到已儲存的音頻數(shù)據(jù)后，再提示用戶錄制音頻數(shù)據(jù)。
[0068]步驟3102:根據(jù)音頻數(shù)據(jù)獲取用戶性別及/或所述用戶年齡段。
[0069]根據(jù)音頻數(shù)據(jù)識別用戶性別可采用的特征參數(shù)例如是基音、線性預(yù)測倒譜系數(shù)(1111681- ^1-6(1101:1011 06^81:1~11111 006打1:，⑶⑶)和梅爾頻率倒譜系數(shù)
061)81:1-11111 006^1016111:,1^00。例如，采用基音識別的方法可為:將音頻數(shù)據(jù)還原為波形數(shù)據(jù)；從波形數(shù)據(jù)中提取基音，并分析基音頻率，最后，將得出的基音頻率與性別語音基頻特性值比對，判斷用戶的性別；人類聲道發(fā)聲的基音頻率普遍在50取?500取，而根據(jù)男女聲道結(jié)構(gòu)的不同，男女發(fā)生的基音頻率以200取分界，男性聲音低沉，低于200取，而女性聲音高尤，高于20002。
[0070]根據(jù)音頻數(shù)據(jù)識別用戶年齡段的方法可包括:先建立存儲多個不同年齡段說話者的語音信號的語音庫；提取不同語音庫中語音信號的語音特征參數(shù)及音頻數(shù)據(jù)的語音特征參數(shù)；將音頻數(shù)據(jù)的語音特征參數(shù)分別與不同語音庫中語音信號的語音特征參數(shù)相匹配；將匹配度得分最高的語音特征參數(shù)對應(yīng)的語音庫所屬的年齡段作為用戶年齡段。例如可以根據(jù)該方法基于向量機(311卯01*1: ^601:01-識別說話者年齡段。
[0071]在此，本領(lǐng)域技術(shù)人員應(yīng)當(dāng)清楚的是，本發(fā)明方法中同樣適于采用其他已知手段根據(jù)音頻數(shù)據(jù)獲取用戶性別及用戶年齡段。
[0072]對于用戶信息包括用戶性別及/或用戶年齡段的實施例，上述步驟51中獲取用戶信息還可包括:
[0073]步驟3101:通過攝像頭獲取用戶臉部圖像。
[0074]步驟3102,:根據(jù)臉部圖像獲取用戶性別及/或所述用戶年齡段。
[0075]根據(jù)臉部圖像獲取用戶性別的方法例如可先對臉部圖像進行預(yù)處理；再從預(yù)處理后的臉部圖像上提取局部二值模式(匕⑶丨811181-7 ？社1:61~11，⑶?)特征；最后利用03？特征，通過3穩(wěn)模型進行性別識別。在此，本領(lǐng)域技術(shù)人員應(yīng)當(dāng)清楚的是，本發(fā)明方法中同樣適于采用例如是局部環(huán)形模式011-0111&1- ？社1:6111，IX？〉編碼等其他已知手段根據(jù)臉部圖像獲取用戶性別。
[0076]根據(jù)臉部圖像獲取用戶年齡段的方法可包括:建立不同年齡組的人臉特征庫；提取臉部圖像中的紋理和形狀特征；將臉部圖像中的紋理和形狀特征與不同年齡組的人臉特征庫相匹配；將匹配度得分最高的人臉特征庫對應(yīng)的年齡組作為用戶所屬年齡段。在此，本領(lǐng)域技術(shù)人員應(yīng)當(dāng)清楚的是，本發(fā)明方法中同樣適于采用其他已知手段根據(jù)臉部圖像獲取用戶年齡段。
[0077]與上述語音合成發(fā)音人自適應(yīng)方法相對應(yīng)，如圖3所示，本發(fā)明的語音合成發(fā)音人自適應(yīng)系統(tǒng)包括信息獲取模塊1、發(fā)音人篩選模塊2和發(fā)音人指定模塊3，該信息獲取模塊用于在接收到需要進行語音合成的待處理文本后，獲取用戶信息；該發(fā)音人篩選模塊2用于從原始發(fā)音人模型集合中篩選出滿足所述用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合；該發(fā)音人指定模塊3用于在所述有效發(fā)音人模型集合中指定一發(fā)音人模型播報所述待處理文本。
[0078]進一步地，上述發(fā)音人篩選模塊2還可用于根據(jù)所述用戶信息中各信息類型的優(yōu)先級，從原始發(fā)音人模型集合中逐層篩選出滿足對應(yīng)信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型集合。
[0079]進一步地，上述用戶信息可包括用戶地理位置坐標(biāo)、用戶性別和用戶年齡段中的至少一種。
[0080]在用戶信息包括用戶地理位置坐標(biāo)的實施例中，本發(fā)明的系統(tǒng)還可進一步包括地域劃分模塊、語言獲取模塊和篩選條件指定模塊(圖中未示出)，該地域劃分模塊用于根據(jù)所述用戶地理位置坐標(biāo)，確定用戶所在地域；該語言獲取模塊用于獲取對應(yīng)所述用戶所在地域的地方性語言；該篩選條件指定模塊用于將對應(yīng)所述地方性語言的發(fā)音人模型作為滿足所述用戶地理位置坐標(biāo)要求的發(fā)音人模型。
[0081]在用戶信息包括用戶性別及/或用戶年齡段的實施例中；上述信息獲取模塊1還可進一步包括音頻獲取單元和信息獲取單元(圖中未示出)，該音頻獲取單元用于獲取用戶錄制的音頻數(shù)據(jù)；該信息獲取單元用于根據(jù)所述音頻數(shù)據(jù)獲取用戶性別及/或所述用戶年齡段；在此基礎(chǔ)上，本發(fā)明的系統(tǒng)還進一步包括篩選條件指定模塊(圖中未示出)，該篩選條件指定模塊用于將異性發(fā)音人模型作為滿足所述性別信息要求的發(fā)音人模型；及/或，將同年齡段發(fā)音人模型作為滿足所述年齡段信息要求的發(fā)音人模型。
[0082]本說明書中的各個實施例均采用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對于系統(tǒng)實施例而言，由于其基本相似于方法實施例，所以描述得比較簡單，相關(guān)之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的，其中所述作為分離部件說明的模塊或單元可以是或者也可以不是物理上分開的，作為模塊或單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下，即可以理解并實施。
[0083]以上依據(jù)圖式所示的實施例詳細(xì)說明了本發(fā)明的構(gòu)造、特征及作用效果，以上所述僅為本發(fā)明的較佳實施例，但本發(fā)明不以圖面所示限定實施范圍，凡是依照本發(fā)明的構(gòu)想所作的改變，或修改為等同變化的等效實施例，仍未超出說明書與圖示所涵蓋的精神時，均應(yīng)在本發(fā)明的保護范圍內(nèi)。
【權(quán)利要求】
1.一種語音合成發(fā)音人自適應(yīng)方法，其特征在于，包括: 在接收到需要進行語音合成的待處理文本后，獲取用戶信息；從原始發(fā)音人模型集合中篩選出滿足所述用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合；在所述有效發(fā)音人模型集合中指定一發(fā)音人模型播報所述待處理文本。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述從原始發(fā)音人模型集合中篩選出滿足所述用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合包括: 根據(jù)所述用戶信息中各信息類型的優(yōu)先級，從原始發(fā)音人模型集合中逐層篩選出滿足對應(yīng)信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型集合。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述用戶信息包括用戶地理位置坐標(biāo)、用戶性別和用戶年齡段中的至少一種。
4.根據(jù)權(quán)利要求3所述方法，其特征在于，所述用戶信息包括用戶地理位置坐標(biāo)；所述方法還包括: 根據(jù)所述用戶地理位置坐標(biāo)，確定用戶所在地域；獲取對應(yīng)所述用戶所在地域的地方性語言；將對應(yīng)所述地方性語言的發(fā)音人模型作為滿足所述用戶地理位置坐標(biāo)要求的發(fā)音人模型。
5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述用戶信息包括用戶性別及/或用戶年齡段；所述獲取用戶信息還包括: 獲取用戶錄制的音頻數(shù)據(jù)；根據(jù)所述音頻數(shù)據(jù)獲取所述用戶性別及/或所述用戶年齡段；所述方法還包括: 將異性發(fā)音人模型作為滿足所述性別信息要求的發(fā)音人模型；及/或，將同年齡段發(fā)音人模型作為滿足所述年齡段信息要求的發(fā)音人模型。
6.一種語音合成發(fā)音人自適應(yīng)系統(tǒng)，其特征在于，包括: 信息獲取模塊，用于在接收到需要進行語音合成的待處理文本后，獲取用戶信息；發(fā)音人篩選模塊，用于從原始發(fā)音人模型集合中篩選出滿足所述用戶信息要求的發(fā)音人模型，形成有效發(fā)音人模型集合；以及，發(fā)音人指定模塊，用于在所述有效發(fā)音人模型集合中指定一發(fā)音人模型播報所述待處理文本。
7.根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述發(fā)音人篩選模塊還用于根據(jù)所述用戶信息中各信息類型的優(yōu)先級，從原始發(fā)音人模型集合中逐層篩選出滿足對應(yīng)信息類型要求的發(fā)音人模型，形成有效發(fā)音人模型集合。
8.根據(jù)權(quán)利要求6或7所述的系統(tǒng)，其特征在于，所述用戶信息包括用戶地理位置坐標(biāo)、用戶性別和用戶年齡段中的至少一種。
9.根據(jù)權(quán)利要求8所述系統(tǒng)，其特征在于，所述用戶信息包括用戶地理位置坐標(biāo)；所述系統(tǒng)還包括: 地域劃分模塊，用于根據(jù)所述用戶地理位置坐標(biāo)，確定用戶所在地域；語言獲取模塊，用于獲取對應(yīng)所述用戶所在地域的地方性語言；以及，篩選條件指定模塊，用于將對應(yīng)所述地方性語言的發(fā)音人模型作為滿足所述用戶地理位置坐標(biāo)要求的發(fā)音人模型。
10.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，所述用戶信息包括用戶性別及/或用戶年齡段；所述信息獲取模塊還包括: 音頻獲取單元，用于獲取用戶錄制的音頻數(shù)據(jù)；以及，信息獲取單元，用于根據(jù)所述音頻數(shù)據(jù)獲取所述用戶性別及/或所述用戶年齡段；所述系統(tǒng)還包括: 篩選條件指定模塊，將異性發(fā)音人模型作為滿足所述性別信息要求的發(fā)音人模型；及/或，將同年齡段發(fā)音人模型作為滿足所述年齡段信息要求的發(fā)音人模型。
【文檔編號】G10L13/027GK104485100SQ201410797377
【公開日】2015年4月1日申請日期:2014年12月18日優(yōu)先權(quán)日:2014年12月18日
【發(fā)明者】張偉, 頓雙保, 于淼, 郭正歐申請人:天津訊飛信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載