語音合成方法及系統(tǒng)與流程

文檔序號：12368717閱讀：291來源：國知局

本發(fā)明涉及語音合成
技術(shù)領(lǐng)域：
，具體涉及一種語音合成方法及系統(tǒng)。
背景技術(shù)：
：實現(xiàn)人機之間人性化、智能化的有效交互，構(gòu)建高效自然的人機交流環(huán)境，已經(jīng)成為當前信息技術(shù)應(yīng)用和發(fā)展的迫切需求。語音合成技術(shù)作為人機交流的重要環(huán)節(jié)，可以將文字信息轉(zhuǎn)化為自然的語音信號，賦予計算機像人一樣自如說話的能力，改變了傳統(tǒng)通過錄音回放實現(xiàn)機器開口說話的繁瑣操作。為了使合成語音更加自然，更符合人的主觀聽感，出現(xiàn)了融合人主觀聽感的語音合成方法，具體融合方法一般是分析人工主觀測聽結(jié)果來提升合成語音的自然度?，F(xiàn)有的融合人主觀聽感的語音合成方法一般是通過預先收集大量合成語音及相應(yīng)人工測聽的反饋結(jié)果，訓練分類模型，分類標簽一般為合成正確數(shù)據(jù)與合成錯誤數(shù)據(jù)，利用所述分類模型找到待合成文本多組備選合成語音中最符合人聽感的一組合成語音，作為待合成文本的最優(yōu)合成結(jié)果?？梢姡龇椒ㄖ饕蕾嚪诸惸Ｐ蛯⑷斯y聽的反饋結(jié)果融合到合成語音中。然而，由于現(xiàn)有合成系統(tǒng)合成語音時，合成錯誤的語音單元數(shù)遠遠少于合成正確的語音單元數(shù)，即訓練分類模型的兩類訓練數(shù)據(jù)分布不均衡，從而導致訓練得到的分類模型具有傾向性，將錯誤合成單元傾向正確合成單元，影響待合成文本最優(yōu)合成結(jié)果的挑選。因此，如何準確的將人工主觀聽感融合到待合成文本的合成結(jié)果中，是提升語音合成效果亟待解決的問題。技術(shù)實現(xiàn)要素：本發(fā)明實施例提供一種語音合成方法及系統(tǒng)，以準確地將人工主觀聽感融合到待合成文本的合成結(jié)果中，提升語音合成效果。為此，本發(fā)明實施例提供如下技術(shù)方案：一種語音合成方法，包括以下步驟：(1)接收待合成文本；(2)對所述待合成文本進行預處理，得到所述待合成文本的待合成單元序列及待合成單元的上下文相關(guān)信息；(3)根據(jù)所述待合成單元的上下文相關(guān)信息從音庫中獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)；(4)獲取測聽人員對所述最優(yōu)備選語音數(shù)據(jù)的測聽結(jié)果；(5)根據(jù)所述測聽結(jié)果對所述音庫進行擴充；(6)利用擴充后的音庫重新獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)，并將重新獲取的最優(yōu)備選語音數(shù)據(jù)作為優(yōu)化后的語音數(shù)據(jù)；(7)將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出。優(yōu)選地，所述對所述待合成文本進行預處理包括：對所述待合成文本進行分詞、詞性標注、以及韻律分析。優(yōu)選地，所述根據(jù)所述待合成單元的上下文相關(guān)信息從音庫中獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)包括：從音庫中獲取所述待合成單元序列中各待合成單元的備選語音單元序列；提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；計算在所述上下文相關(guān)信息表征的環(huán)境下，備選語音單元的各聲學特征與對應(yīng)的目標模型的似然值的和，得到第一計算值；選取對應(yīng)最大第一計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元；依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)。優(yōu)選地，所述測聽結(jié)果包括：正確語音數(shù)據(jù)和錯誤語音數(shù)據(jù)，所述錯誤語音數(shù)據(jù)包括一個或多個錯誤合成語音單元，所述正確語音數(shù)據(jù)包括一個或多個正確合成語音單元、以及一個或多個對應(yīng)所述錯誤合成語音單元的主觀標注正確語音單元；所述根據(jù)所述測聽結(jié)果對所述音庫進行擴充包括：將各主觀標注正確語音單元及各正確合成語音單元均各自作為一個虛擬語音單元，由所述虛擬語音單元、以及在主觀標注時或合成時在所述音庫中挑選的所述虛擬語音單元對應(yīng)的待合成單元的備選語音單元組成對應(yīng)所述備選語音單元的語音單元池，一個語音單元池包括：一個備選語音單元、或者一個備選語音單元及一個或多個虛擬語音單元。優(yōu)選地，所述利用擴充后的音庫重新獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)包括：從擴充后的音庫中獲取所述待合成單元序列中各待合成單元的備選語音單元序列；提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；計算所述待合成單元的上下文相關(guān)模型與各備選語音單元所在語音單元池中的每個語音單元的上下文相關(guān)模型的相似度；計算在所述上下文相關(guān)信息表征的環(huán)境下，以所述相似度作為權(quán)值參數(shù)時，備選語音單元的各聲學特征與對應(yīng)的目標模型的似然值的和，得到第二計算值；選取對應(yīng)最大第二計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元；依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)。優(yōu)選地，在步驟(6)和步驟(7)之間還包括：獲取測聽人員對所述優(yōu)化后的語音數(shù)據(jù)的測聽結(jié)果；判斷所述測聽結(jié)果是否達到要求；如果達到，則執(zhí)行步驟(7)；否則，返回步驟(5)。一種語音合成系統(tǒng)，包括：接收模塊，用于接收待合成文本；預處理模塊，用于對所述待合成文本進行預處理，得到所述待合成文本的待合成單元序列及待合成單元的上下文相關(guān)信息；第一挑選模塊，用于根據(jù)所述待合成單元的上下文相關(guān)信息從音庫中獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)；測聽結(jié)果獲取模塊，用于獲取測聽人員對所述備選語音數(shù)據(jù)的測聽結(jié)果；音庫擴充模塊，用于根據(jù)所述測聽結(jié)果對所述音庫進行擴充；第二挑選模塊，用于利用擴充后的音庫重新獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)，并將重新獲取的最優(yōu)備選語音數(shù)據(jù)作為優(yōu)化后的語音數(shù)據(jù)；輸出模塊，用于將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出。優(yōu)選地，所述預處理模塊，具體對所述待合成文本進行分詞、詞性標注、以及韻律分析。優(yōu)選地，所述第一挑選模塊包括：備選語音單元獲取單元，用于從音庫中獲取所述待合成單元序列中各待合成單元的備選語音單元序列；特征提取單元，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；第一計算單元，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，備選語音單元的各聲學特征與對應(yīng)的目標模型的似然值的和，得到第一計算值；選取單元，用于選取對應(yīng)最大第一計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元；拼接單元，用于依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)。優(yōu)選地，所述測聽結(jié)果包括：正確語音數(shù)據(jù)和錯誤語音數(shù)據(jù)，所述錯誤語音數(shù)據(jù)包括一個或多個錯誤合成語音單元，所述正確語音數(shù)據(jù)包括一個或多個正確合成語音單元、以及一個或多個對應(yīng)所述錯誤合成語音單元的主觀標注正確語音單元；所述音庫擴充模塊包括：修正單元，用于獲得對應(yīng)所述錯誤合成語音單元的主觀標注正確語音單元；語音單元池生成單元，用于將各主觀標注正確語音單元及各正確合成語音單元均各自作為一個虛擬語音單元，由所述虛擬語音單元、以及在主觀標注時或合成時在所述音庫中挑選的所述虛擬語音單元對應(yīng)的待合成單元的備選語音單元組成對應(yīng)所述備選語音單元的語音單元池，一個語音單元池包括：一個備選語音單元、或者一個備選語音單元及一個或多個虛擬語音單元。優(yōu)選地，所述第二挑選模塊包括：備選語音單元獲取單元，用于從擴充后的音庫中獲取所述待合成單元序列中各待合成單元的備選語音單元序列；特征提取單元，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；相似度計算單元，用于計算所述待合成單元的上下文相關(guān)模型與各備選語音單元所在語音單元池中的每個語音單元的上下文相關(guān)模型的相似度；第二計算單元，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，以所述相似度作為權(quán)值參數(shù)時，備選語音單元的各聲學特征與對應(yīng)的目標模型的似然值的和，得到第二計算值；選取單元，用于選取對應(yīng)最大第二計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元；拼接單元，用于依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)。優(yōu)選地，所述測聽結(jié)果獲取模塊，還用于獲取測聽人員對所述優(yōu)化后的語音數(shù)據(jù)的測聽結(jié)果；所述系統(tǒng)還包括：判斷模塊，用于判斷所述測聽結(jié)果是否達到要求；如果達到，則觸發(fā)所述輸出模塊將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出；如果未達到，則觸發(fā)所述音庫擴充模塊繼續(xù)根據(jù)測聽人員對所述優(yōu)化后的語音數(shù)據(jù)的測聽結(jié)果對所述音庫進行擴充。本發(fā)明實施例提供的語音合成方法及系統(tǒng)，對于待合成文本，首先從音庫中挑選出待合成文本對應(yīng)的待合成單元序列中的最優(yōu)備選語音數(shù)據(jù)，然后由測聽人員進行測聽，并根據(jù)測聽結(jié)果對音庫進行擴充，以增加音庫覆蓋的韻律特征，然后利用擴充后的音庫重新獲取待合成單元序列的最優(yōu)備選語音數(shù)據(jù)，并將重新獲取的最優(yōu)備選語音數(shù)據(jù)作為待合成文本的合成語音數(shù)據(jù)輸出。由于將反映人主觀聽感的主觀標注數(shù)據(jù)融合到了語音合成中，因而使最終得到的合成語音數(shù)據(jù)更符合人的主觀聽感，有效地提升了語音合成效果。附圖說明為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實施例語音合成方法的流程圖；圖2是本發(fā)明實施例中語音單元池的示意圖；圖3是本發(fā)明實施例中利用擴充后的音庫重新獲取待合成單元的最優(yōu)備選語音單元的流程圖；圖4是本發(fā)明實施例語音合成系統(tǒng)的一種結(jié)構(gòu)示意圖；圖5是本發(fā)明實施例語音合成系統(tǒng)中第一挑選模塊的一種結(jié)構(gòu)示意圖；圖6是本發(fā)明實施例語音合成系統(tǒng)中第二挑選模塊的一種結(jié)構(gòu)示意圖；圖7是本發(fā)明實施例語音合成系統(tǒng)的另一種結(jié)構(gòu)示意圖。具體實施方式為了使本
技術(shù)領(lǐng)域：
的人員更好地理解本發(fā)明實施例的方案，下面結(jié)合附圖和實施方式對本發(fā)明實施例作進一步的詳細說明。如圖1所示，是本發(fā)明實施例語音合成方法的流程圖，包括以下步驟：步驟101，接收待合成文本。步驟102，對所述待合成文本進行預處理，得到所述待合成文本的待合成單元序列及待合成單元的上下文相關(guān)信息。所述預處理主要包括：分詞、詞性標注及韻律分析。以中文為例，待合成文本“發(fā)生在我們身邊的愛情故事”的韻律分析結(jié)果如下：發(fā)生在*我們*身邊的#愛情*故事；fa1sheng1zai4*wo3men0*shen1bian1de0#ai4qing2gu4shi1；其中，第一行為韻律行，“*”表示韻律詞邊界，“#”表示韻律短語邊界，當然實際應(yīng)用中不限定該表示方法；第二行為拼音行，數(shù)字表示聲調(diào)信息，當然實際應(yīng)用中不限定該表示方法，拼音行中的聲母和韻母組成的序列即為待合成單元序列。利用所述預處理結(jié)果即可獲得待合成單元的上下文相關(guān)信息，如待合成單元在句子中的位置、待合成單元的詞性信息等。步驟103，根據(jù)所述待合成單元的上下文相關(guān)信息從音庫中獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)。在本發(fā)明實施例中，需要首先從音庫中獲取所述待合成單元序列中各待合成單元的備選語音單元序列，一個備選語音單元序列中可以有一個或多個備選語音單元，然后從這些備選語音單元中挑選出一個最優(yōu)備選語音單元，最后依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)。在挑選最優(yōu)備選語音單元時，可以依照每個待合成單元的備選語音單元的各聲學特征在所述上下文相關(guān)信息表征的環(huán)境下相對目標模型的似然值(在本發(fā)明實施例中，將備選語音單元的各聲學特征在所述上下文相關(guān)信息表征的環(huán)境下相對目標模型的似然值的和作為該備選語音單元與目標模型的似然值)進行挑選，挑選出似然值最大的備選語音單元作為最優(yōu)備選語音單元。為了描述方便，將挑選出的待合成單元序列中待合成單元的最優(yōu)備選語音單元序列表示為U*={U1*,U2*,...,UN*}.]]>假設(shè)C＝{c1,c2,...,cn,...,cN}表示待合成文本的N個待合成單元的上下文環(huán)境信息，其中，cn為第n個待合成單元的上下文環(huán)境信息。U=u11u21...uN1u12u22...uN2............u1Ku2K...uNK]]>表示待合成文本中N個待合成單元的K個備選語音單元序列，如u12表示第1個待合成單元的第2個備選語音單元，則挑選最優(yōu)備選語音單元的計算如下所示：U*=argmaxUΣm=1Mwmlogp(X(U,m)|C(U),λm)]]>其中，U*表示備選語音單元的各聲學特征與對應(yīng)的目標模型的似然值的和，為了描述方便，將其稱為第一計算值；X(U,m)表示根據(jù)備選語音單元序列U提取的備選語音單元聲學特征，M為待合成單元聲學特征的類型數(shù)，所述聲學特征的類型包括：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化中的一種或多種；logP(X(U,m)|C(U),λm)是給定上下文環(huán)境C時，備選語音單元聲學特征相對目標模型λm的似然值；λm為音庫中當前待合成單元聲學特征m對應(yīng)的目標模型，所述目標模型一般可以通過預先收集數(shù)據(jù)訓練得到，用來指導備選語音單元的挑選，一般挑選語音單元的聲學參數(shù)分布越符合目標模型的分布越好，wm表示第m類特征聲學模型的權(quán)值，具體取值可以根據(jù)經(jīng)驗或?qū)嶒灲Y(jié)果而定。根據(jù)上述公式，可以得到待合成單元的每個備選語音單元對應(yīng)的第一計算值，然后，選取對應(yīng)最大第一計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。挑選出每個待合成單元的最優(yōu)備選語音單元后，即可將挑選到的最優(yōu)備選單元依序進行拼接，得到待合成單元序列的最優(yōu)備選語音數(shù)據(jù)；具體拼接方法與現(xiàn)有技術(shù)相同，在此不再詳細描述。步驟104，獲取測聽人員對所述最優(yōu)備選語音數(shù)據(jù)的測聽結(jié)果。為了使最終得到的合成語音更加自然，更符合人的主觀聽感，在本發(fā)明實施例中，對得到的合成語音，即前面所述的最優(yōu)備選語音數(shù)據(jù)，進行人工測聽，并利用測聽結(jié)果對原有音庫進行擴充，以豐富音庫中語音單元的上下文韻律特征，然后利用擴充后的音庫重新獲取待合成文本的最優(yōu)備選語音數(shù)據(jù)，從而可以使重新挑選出的最優(yōu)備選語音數(shù)據(jù)更加自然。在本發(fā)明實施例中，所述測聽結(jié)果可以包括：正確語音數(shù)據(jù)和錯誤語音數(shù)據(jù)，所述錯誤語音數(shù)據(jù)包括一個或多個錯誤合成語音單元，所述正確語音數(shù)據(jù)包括一個或多個正確合成語音單元、以及一個或多個對應(yīng)所述錯誤合成語音單元的主觀標注正確語音單元。所述測聽人員可以是語音合成方向的專家，可以直接給出適合人聽感的備選單元，可以從測聽人員的反饋結(jié)果中得到錯誤合成單元的平行數(shù)據(jù)，即錯誤的合成單元和與之對應(yīng)的更符合人聽感的主觀標注合成單元，比如，可以針對每個待合成單元給出一定數(shù)量的備選替代語音單元及其在音庫中的索引，方便測聽人員修正錯誤合成語音單元，對于錯誤合成語音單元，測聽人員可以從給出的備選替代語音單元中選出對應(yīng)該錯誤合成語音單元的一個最優(yōu)的語音單元作為對應(yīng)該錯誤合成語音單元的主觀標注正確語音單元。例如，測聽人員測聽結(jié)果的收集形式可以如下：“本句合成語音是否有錯誤？”，A：有錯誤，B：無錯誤；如果有錯誤請給出錯誤位置、錯誤類型；錯誤位置可以定位到錯誤合成單元所在位置，如音素、音節(jié)；錯誤類型可以包括：發(fā)音錯誤、音高錯誤、語速錯誤、發(fā)音平滑性錯誤、音高平滑性錯誤。根據(jù)測聽人員的反饋，即可得到測聽結(jié)果。需要說明的是，在實際應(yīng)用中，可以根據(jù)需要選擇是否要給出錯誤類型，而且，可以根據(jù)測聽結(jié)果重新訓練目標模型。如果給出錯誤類型，在后續(xù)訓練目標模型時可以按照錯誤類型分類訓練。步驟105，根據(jù)所述測聽結(jié)果對所述音庫進行擴充。前面提到，測聽人員對所述備選語音數(shù)據(jù)的測聽結(jié)果可以包括：正確合成語音單元和錯誤合成語音單元。在本發(fā)明實施例中，將各主觀標注正確語音單元及各正確合成語音單元均各自作為一個虛擬語音單元形成語音單元池。具體地，由所述虛擬語音單元、以及主觀標注時或合成時在所述音庫中挑選的所述虛擬語音單元對應(yīng)的待合成單元的備選語音單元組成對應(yīng)所述備選語音單元的語音單元池。需要說明的是，一個語音單元池包括：一個備選語音單元、或者一個備選語音單元及一個或多個虛擬語音單元。當音庫中語音單元在主觀標注或合成時未被選中，則該語音單元對應(yīng)的語音單元池中不包含虛似語音單元。需要說明的是，所述語音單元池中的語音單元具有相同的聲學特征，但具有不同的上下文韻律特征，從而可以擴充音庫覆蓋的韻律特征，有利于合成更多符合人聽感的語音。比如，合成多個不同上下文環(huán)境的待合成單元R時，經(jīng)過測聽人員測聽修正后，得到多個經(jīng)過人工修正后符合人聽感的語音單元，假設(shè)其中有n個不同上下文環(huán)境的待合成單元R在修正時，主觀標注的音庫中的備選單元為Rorg。得到主觀標注適合人聽感的不同上下文環(huán)境的語音單元為R1,...,Rn，將這些語音單元作為虛擬語音單元加入到音庫后，待合成單元R對應(yīng)的語音單元增加了n個虛擬語音單元，這些虛擬語音單元與音庫備選語音單元Rorg形成語音單元池，如圖2所示。當然，在實際應(yīng)用中，音庫的擴充形式還可以有其它表示方式，并不僅限于前面所述的語音單元池的形式，只要能夠體現(xiàn)出語音單元的多種不同上下文韻律特征即可。步驟106，利用擴充后的音庫重新獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)，并將重新獲取的最優(yōu)備選語音數(shù)據(jù)作為優(yōu)化后的語音數(shù)據(jù)。在利用擴充后的音庫重新獲取待合成單元序列的最優(yōu)備選語音數(shù)據(jù)時，同樣需要首先從擴充后的音庫中獲取所述待合成單元序列中各待合成單元的備選語音單元序列，然后對于其中的每一個待合成單元，從其備選語音單元中挑選出一個最優(yōu)備選語音單元，最后依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)。與前面步驟103中從音庫中挑選最優(yōu)備選語音單元不同的是，在步驟106中，需要考慮待合成單元的上下文相關(guān)模型與備選語音單元所在的語音單元池中的每個語音單元的上下文相關(guān)模型的相似度，并以該相似度作為權(quán)值，計算在待合成單元的上下文相關(guān)信息表征的環(huán)境下，備選語音單元的各聲學特征與對應(yīng)的目標模型的似然值的和，為了描述方便，可以將其稱為第二計算值。在得到對應(yīng)各備選語音單元的第二計算值后，即可選取對應(yīng)最大第二計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。利用擴充后的音庫重新獲取待合成單元的最優(yōu)備選語音單元的具體過程將在后面詳細描述。步驟107，將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出。如圖3所示，是本發(fā)明實施例中利用擴充后的音庫重新獲取待合成單元的最優(yōu)備選語音單元的流程圖，包括以下步驟：步驟301，從擴充后的音庫中獲取待合成單元的備選語音單元序列。步驟302，提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化。步驟303，計算所述待合成單元的上下文相關(guān)模型與各備選語音單元所在語音單元池中的每個語音單元的上下文相關(guān)模型的相似度。所述上下文相關(guān)模型描述的是每個語音單元或待合成單元的上下文相關(guān)韻律信息，具體可以通過構(gòu)建決策樹的方法獲取到。步驟304，計算在所述上下文相關(guān)信息表征的環(huán)境下，以所述相似度作為權(quán)值參數(shù)時，備選語音單元的各聲學特征與對應(yīng)的目標模型的似然值的和，得到第二計算值。以圖2所示的語音單元池為例，圖中MS2,...MS6表示語音單元池中每個語音單元的每個狀態(tài)的上下文相關(guān)模型，上述第二計算值計算如下式所示：U*=argmaxUΣm=1Mwm[logP(X(U,m)|C(U),λm)*(1+SimNode(R;T))]]]>其中，SimNode(R；T)為待合成單元R的上下文相關(guān)模型與語音單元池T中的每個語音單元的上下文相關(guān)模型相似度，具體計算方式如下式所示：SimNode(R；T)＝Rcoef*SNum其中，SNum為待合成單元每個狀態(tài)的上下文相關(guān)模型與語音單元池中每個備選單元每個狀態(tài)的上下文相關(guān)模型相同的數(shù)目，Rcoef是挑選單元的獎勵系數(shù)，具體取值可以根據(jù)經(jīng)驗設(shè)定，如0.2。如圖2中，陰影部分為待合成單元R每個狀態(tài)的上下文相關(guān)模型與語音單元池中每個備選單元每個狀態(tài)的上下文相關(guān)模型相同的示意圖，圖中共有3個上下文相關(guān)模型相同。步驟305，選取對應(yīng)最大第二計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。另外，需要說明的是，在實際應(yīng)用中，還可以通過迭代方式進行多次優(yōu)化處理，以使最終得到的合成語音數(shù)據(jù)更符合人的聽感。具體地，在輸出最終的合成語音數(shù)據(jù)之前，先獲取測聽人員對優(yōu)化后的語音數(shù)據(jù)的測聽結(jié)果，判斷該測聽結(jié)果是否達到要求(如待合成文本為教育相關(guān)文本，對合成結(jié)果的要求較高，如測聽結(jié)果的MOS(MeanOpinionScore，MOS)分需要達到4.0以上)；如果達到，則執(zhí)行上述步驟107；否則，返回步驟105，繼續(xù)進行優(yōu)化處理，直至測聽結(jié)果達到要求。本發(fā)明實施例提供的語音合成方法，對于待合成文本，首先從音庫中挑選出待合成文本對應(yīng)的待合成單元序列中的最優(yōu)備選語音數(shù)據(jù)，然后由測聽人員進行測聽，并根據(jù)測聽結(jié)果對音庫進行擴充，以增加音庫覆蓋的韻律特征，然后利用擴充后的音庫重新獲取待合成單元序列的最優(yōu)備選語音數(shù)據(jù)，并將重新獲取的最優(yōu)備選語音數(shù)據(jù)作為待合成文本的合成語音數(shù)據(jù)輸出。由于將反映人主觀聽感的主觀標注數(shù)據(jù)融合到了語音合成中，因而使最終得到的合成語音數(shù)據(jù)更符合人的主觀聽感，有效地提升了語音合成效果。相應(yīng)地，本發(fā)明實施例還提供一種語音合成系統(tǒng)，如圖4所示，是該系統(tǒng)的一種結(jié)構(gòu)示意圖。在該實施例中，所述系統(tǒng)包括：接收模塊401，用于接收待合成文本；預處理模塊402，用于對所述待合成文本進行預處理，得到所述待合成文本的待合成單元序列及待合成單元的上下文相關(guān)信息；第一挑選模塊403，用于根據(jù)所述待合成單元的上下文相關(guān)信息從音庫中獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)；測聽結(jié)果獲取模塊404，用于獲取測聽人員對所述備選語音數(shù)據(jù)的測聽結(jié)果；音庫擴充模塊405，用于根據(jù)所述測聽結(jié)果對所述音庫進行擴充；第二挑選模塊406，用于利用擴充后的音庫重新獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)，并將重新獲取的最優(yōu)備選語音數(shù)據(jù)作為優(yōu)化后的語音數(shù)據(jù)；輸出模塊407，用于將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出。所述預處理主要包括：分詞、詞性標注及韻律分析，利用所述預處理結(jié)果即可獲得待合成單元的上下文相關(guān)信息，如待合成單元在句子中的位置、待合成單元的詞性信息等。需要說明的是，在本發(fā)明實施例中，根據(jù)所述測聽結(jié)果對所述音庫進行擴充的結(jié)果不是在原音庫中增加了新的語音單元，而是根據(jù)測聽結(jié)果增加了與音庫中的語音單元具有相同聲學特征但不同上下文韻律特征的虛擬語音單元，考慮到存儲空間的問題，這些虛擬語音單元可以有不同的存儲方式，比如，可以將音庫中的語音單元及與該語音單元具有相同聲學特征但不同上下文韻律特征的語音單元存放到一個語音單元池中。這樣，擴充后的音庫可以看作是所述語音單元池的組合。具體地，所述測聽結(jié)果可以包括：正確語音數(shù)據(jù)和錯誤語音數(shù)據(jù)，所述錯誤語音數(shù)據(jù)包括一個或多個錯誤合成語音單元，所述正確語音數(shù)據(jù)包括一個或多個正確合成語音單元、以及一個或多個對應(yīng)所述錯誤合成語音單元的主觀標注正確語音單元。相應(yīng)地，音庫擴充模塊405的一種具體結(jié)構(gòu)可以包括：修正單元和語音單元池生成單元。其中：所述修正單元用于獲得對應(yīng)所述錯誤合成語音單元的主觀標注正確語音單元；所述語音單元池生成單元用于將各主觀標注正確語音單元及各正確合成語音單元均各自作為一個虛擬語音單元，由所述虛擬語音單元、以及主觀標注時或合成時在所述音庫中挑選的所述虛擬語音單元對應(yīng)的待合成單元的備選語音單元組成對應(yīng)所述備選語音單元的語音單元池，一個語音單元池包括：一個備選語音單元、或者一個備選語音單元及一個或多個虛擬語音單元。上述第一挑選模塊403可以采用現(xiàn)有的方式從音庫中獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)，而第二挑選模塊406采用與第一挑選模塊403不同的挑選準則，利用擴充后的音庫獲取所述待合成單元序列的最優(yōu)備選語音數(shù)據(jù)。這兩個模塊的具體結(jié)構(gòu)將在后面詳細描述。如圖5所示，是本發(fā)明實施例語音合成系統(tǒng)中第一挑選模塊的一種結(jié)構(gòu)示意圖。該第一挑選模塊包括：備選語音單元獲取單元501，用于從音庫中獲取待合成單元序列中各待合成單元的備選語音單元序列；特征提取單元502，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；第一計算單元503，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，備選語音單元的各聲學特征與對應(yīng)的目標模型的似然值的和，得到第一計算值；選取單元504，用于選取對應(yīng)最大第一計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元；拼接單元505，用于依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)。如圖6所示，是本發(fā)明實施例語音合成系統(tǒng)中第二挑選模塊的一種結(jié)構(gòu)示意圖。第二挑選模塊的具體結(jié)構(gòu)與第一挑選模塊有相同之處，如其中的備選語音單元獲取單元601、特征提取單元602、選取單元604、以及拼接單元605，這些單元的功能與第一挑選模塊中的相應(yīng)單元的功能相同，在此不再贅述。不同的是，在第二挑選模塊中，還包括：相似度計算單元607，用于計算所述待合成單元的上下文相關(guān)模型與各備選語音單元所在語音單元池中的每個語音單元的上下文相關(guān)模型的相似度。相應(yīng)地，第二挑選模塊中的第二計算單元603用于計算在所述上下文相關(guān)信息表征的環(huán)境下，以所述相似度作為權(quán)值參數(shù)時，備選語音單元的各聲學特征與對應(yīng)的目標模型的似然值的和，得到第二計算值，具體計算過程可參見前面本發(fā)明方法實施例中的描述。如圖7所示，是本發(fā)明實施例語音合成系統(tǒng)的另一種結(jié)構(gòu)示意圖。與圖4所示實施例的區(qū)別在于，在該實施例中，所述系統(tǒng)還包括判斷模塊701。測聽結(jié)果獲取模塊404還用于獲取測聽人員對所述優(yōu)化后的語音數(shù)據(jù)的測聽結(jié)果。相應(yīng)地，判斷模塊701判斷所述測聽結(jié)果是否達到要求；如果達到，則觸發(fā)所述輸出模塊407將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出；如果未達到，則觸發(fā)所述音庫擴充模塊405繼續(xù)根據(jù)測聽人員對所述優(yōu)化后的語音數(shù)據(jù)的測聽結(jié)果對所述音庫進行擴充。本發(fā)明實施例提供的語音合成系統(tǒng)，對于待合成文本，首先從音庫中挑選出待合成文本對應(yīng)的待合成單元序列中的最優(yōu)備選語音數(shù)據(jù)，然后由測聽人員進行測聽，并根據(jù)測聽結(jié)果對音庫進行擴充，以增加音庫覆蓋的韻律特征，然后利用擴充后的音庫重新獲取待合成單元序列的最優(yōu)備選語音數(shù)據(jù)，并將重新獲取的最優(yōu)備選語音數(shù)據(jù)作為待合成文本的合成語音數(shù)據(jù)輸出。由于將反映人主觀聽感的主觀標注數(shù)據(jù)融合到了語音合成中，因而使最終得到的合成語音數(shù)據(jù)更符合人的主觀聽感，有效地提升了語音合成效果。本說明書中的各個實施例均采用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對于系統(tǒng)實施例而言，由于其基本相似于方法實施例，所以描述得比較簡單，相關(guān)之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下，即可以理解并實施。以上對本發(fā)明實施例進行了詳細介紹，本文中應(yīng)用了具體實施方式對本發(fā)明進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及系統(tǒng)；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實施方式及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。當前第1頁1 2 3

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3