專利名稱:漢語教學(xué)語音合成方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音信號處理領(lǐng)域,具體地,涉及一種漢語教學(xué)語音合成方法及裝置。
背景技術(shù):
外國人學(xué)習(xí)漢語,面臨的一個很大的困難就是漢語聲調(diào)的學(xué)習(xí),因為漢語聲調(diào)的變化要比重音復(fù)雜的多。為了解決漢語聲調(diào)學(xué)習(xí)的問題,有學(xué)者提出了各種針對性的聲調(diào)教學(xué)方法,但往往只有經(jīng)過訓(xùn)練的對外漢語教師才能掌握這種教學(xué)方法,學(xué)生自學(xué)手段有限。上世紀(jì)九十年代以來,計算機輔助語言學(xué)習(xí)(CALL)的研究取得了較大進展,語音 處理技術(shù)被廣泛的用到了計算機輔助語言學(xué)習(xí)(CALL)系統(tǒng)中,其中語音識別被廣泛用于學(xué)習(xí)者的發(fā)音水平檢測和評估,語音合成以及語音的感知和理解技術(shù)被用于學(xué)習(xí)系統(tǒng)的反饋和指導(dǎo),以及一些特定語音和韻律的學(xué)習(xí)。目前,國內(nèi)外對于CALL的研究更集中在發(fā)音質(zhì)量評價和發(fā)音錯誤檢測,一般是基于語音識別的技術(shù),結(jié)合語音學(xué)知識,針對不同語言設(shè)計特定的測評和檢測算法。檢測算法大都是基于隱馬爾可夫模型(HMM)框架的,取得了很好的評測效果。但對于漢語聲調(diào)的學(xué)習(xí),仍存在一個亟待解決的問題,即反饋學(xué)習(xí)問題。目前大多數(shù)系統(tǒng)的反饋指導(dǎo)還是基于事先錄制好的標(biāo)準(zhǔn)語音或標(biāo)準(zhǔn)合成語音的簡單指導(dǎo),并沒有考慮到學(xué)生的語言背景和所學(xué)語言的特點,做到因材施教。例如,在CALL系統(tǒng)中,一般是直接給出一個正確的標(biāo)準(zhǔn)發(fā)音,學(xué)習(xí)者通過比對自身發(fā)音和標(biāo)準(zhǔn)發(fā)音之間的區(qū)別,訓(xùn)練自己的聲調(diào)發(fā)音;或者是提供給發(fā)音者基頻曲線的對t匕,讓其根據(jù)曲線糾正發(fā)音問題;或者是在決策樹中給出一些簡單反饋。也就是說,目前的漢語學(xué)習(xí)方案并未針對不同的聲調(diào)偏誤進行因材施教,從而也無法給漢語學(xué)習(xí)者提供較好的幫助。
發(fā)明內(nèi)容
本發(fā)明實施例的主要目的在于提供一種漢語教學(xué)語音合成方法及裝置,以解決現(xiàn)有技術(shù)中的漢語學(xué)習(xí)方案并未針對不同的聲調(diào)偏誤進行因材施教、從而無法給漢語學(xué)習(xí)者提供較好幫助的問題。為了實現(xiàn)上述目的,本發(fā)明實施例提供一種漢語教學(xué)語音合成方法,該方法包括獲取語言學(xué)習(xí)者語音以及多個標(biāo)準(zhǔn)教師語音;根據(jù)語音參數(shù)從所述多個標(biāo)準(zhǔn)教師語音中選擇與所述語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音,其中,所述的語音參數(shù)包括聲學(xué)參數(shù)、音高、節(jié)奏信息;根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語
曰 根據(jù)語音參數(shù)從所述多個標(biāo)準(zhǔn)教師語音中選擇與所述語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音包括根據(jù)語音參數(shù)分別對每個標(biāo)準(zhǔn)教師語音、以及所述語言學(xué)習(xí)者語音訓(xùn)練高斯混合模型;根據(jù)得到的高斯混合模型選擇與所述語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音。根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音包括分別對所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音進行音素分段;根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音的每個對應(yīng)音素段調(diào)整所述語言學(xué)習(xí)者語音的時長和基音周期;根據(jù)調(diào)整后的所述語言學(xué)習(xí)者語音的時長和基音周期、應(yīng)用TD-PSOLA算法合成所述聲調(diào)教學(xué)語音。根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音的每個對應(yīng)音素段調(diào)整所述語言學(xué)習(xí)者語音的時長和基音周期包括將所述最接近的標(biāo)準(zhǔn)教師語音的時長與所述語言學(xué)習(xí)者語音的時長的平均值確定為調(diào)整后的所述語言學(xué)習(xí)者語音的時長;將所述最接近的標(biāo)準(zhǔn)教師語音的基音周期確定為調(diào)整后的所述語言學(xué)習(xí)者語音的基音周期。所述的節(jié)奏信息包括一句語音中所有元音的時長加占總時長的比例;一句語音、中元音時長的標(biāo)準(zhǔn)差;相鄰兩元音段或輔音段之間的時長差的平均值;相鄰兩元音段或輔音段之間的時長差占單個片段時長的比例的平均值。本發(fā)明實施例還提供一種漢語教學(xué)語音合成裝置,所述裝置包括語音獲取單元,用于獲取語言學(xué)習(xí)者語音以及多個標(biāo)準(zhǔn)教師語音;最接近標(biāo)準(zhǔn)教師語音選擇單元,用于根據(jù)語音參數(shù)從所述多個標(biāo)準(zhǔn)教師語音中選擇與所述語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音,其中,所述的語音參數(shù)包括聲學(xué)參數(shù)、音高、節(jié)奏信息;聲調(diào)教學(xué)語音合成單元,用于根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音。所述最接近標(biāo)準(zhǔn)教師語音選擇單元包括高斯混合模型訓(xùn)練模塊,用于根據(jù)語音參數(shù)分別對每個標(biāo)準(zhǔn)教師語音、以及所述語言學(xué)習(xí)者語音訓(xùn)練高斯混合模型;最接近標(biāo)準(zhǔn)教師語音選擇模塊,用于根據(jù)得到的高斯混合模型選擇與所述語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音。所述聲調(diào)教學(xué)語音合成單元包括音素分段模塊,用于分別對所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音進行音素分段;語言學(xué)習(xí)者語音調(diào)整模塊,用于根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音的每個對應(yīng)音素段調(diào)整所述語言學(xué)習(xí)者語音的時長和基音周期;聲調(diào)教學(xué)語音合成模塊,用于根據(jù)調(diào)整后的所述語言學(xué)習(xí)者語音的時長和基音周期、應(yīng)用TD-PSOLA算法合成所述聲調(diào)教學(xué)語音。所述語言學(xué)習(xí)者語音調(diào)整模塊包括時長調(diào)整子模塊,用于將所述最接近的標(biāo)準(zhǔn)教師語音的時長與所述語言學(xué)習(xí)者語音的時長的平均值確定為調(diào)整后的所述語言學(xué)習(xí)者語音的時長;基音周期調(diào)整子模塊,用于將所述最接近的標(biāo)準(zhǔn)教師語音的基音周期確定為調(diào)整后的所述語言學(xué)習(xí)者語音的基音周期。所述最接近標(biāo)準(zhǔn)教師語音選擇單元中的節(jié)奏信息包括一句語音中所有元音的時長加占總時長的比例;一句語音中元音時長的標(biāo)準(zhǔn)差;相鄰兩元音段或輔音段之間的時長差的平均值;相鄰兩元音段或輔音段之間的時長差占單個片段時長的比例的平均值。借助于上述技術(shù)方案至少之一,通過將選擇的最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音,可以使得語言學(xué)習(xí)者更容易學(xué)習(xí)發(fā)音,從而可以給漢語學(xué)習(xí)者提供較好的幫助。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I是根據(jù)本發(fā)明實施例的漢語教學(xué)語音合成方法的流程圖;圖2是根據(jù)本發(fā)明實施例的漢語教學(xué)語音合成方法的流程示意框圖;圖3是語音質(zhì)量的感知結(jié)果示意圖;圖4是聲調(diào)質(zhì)量的感知結(jié)果示意圖;圖5是根據(jù)本發(fā)明實施例的漢語教學(xué)語音合成裝置的結(jié)構(gòu)框圖; 圖6是根據(jù)本發(fā)明實施例的最接近標(biāo)準(zhǔn)教師語音選擇單元的結(jié)構(gòu)框圖;圖7是根據(jù)本發(fā)明實施例的聲調(diào)教學(xué)語音合成單元的結(jié)構(gòu)框圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。由于現(xiàn)有的漢語學(xué)習(xí)方案并未針對不同的聲調(diào)偏誤進行因材施教、從而無法給漢語學(xué)習(xí)者提供較好幫助的問題,基于此,本發(fā)明實施例提供一種漢語教學(xué)語音合成方法及裝置,以解決上述問題。以下結(jié)合附圖對本發(fā)明進行詳細說明。實施例一本發(fā)明實施例提供一種漢語教學(xué)語音合成方法,圖I是該方法的流程圖,如圖I所示,該方法包括步驟101,獲取語言學(xué)習(xí)者語音以及多個標(biāo)準(zhǔn)教師語音;步驟102,根據(jù)語音參數(shù)從多個標(biāo)準(zhǔn)教師語音中選擇與語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音,其中,語音參數(shù)包括聲學(xué)參數(shù)、音高、節(jié)奏信息;步驟103,根據(jù)最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音。由以上描述可以看出,通過將選擇的最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音,由于該合成聲調(diào)教學(xué)語音類似于語言學(xué)習(xí)者自己的聲音,因此,語言學(xué)習(xí)者將更容易學(xué)習(xí)發(fā)音,通過本發(fā)明實施例,可以給漢語學(xué)習(xí)者提供較好的幫助。具體地,根據(jù)語音參數(shù)從多個標(biāo)準(zhǔn)教師語音中選擇與語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音包括根據(jù)語音參數(shù)分別對每個標(biāo)準(zhǔn)教師語音、以及語言學(xué)習(xí)者語音訓(xùn)練高斯混合模型;根據(jù)得到的高斯混合模型選擇與語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音。這里的語音參數(shù)是可以用于衡量語音相似性的參數(shù),其中聲學(xué)參數(shù)通常用在說話人識別中,在本發(fā)明實施例中,聲學(xué)參數(shù)是比較母語發(fā)音(即標(biāo)準(zhǔn)教師語音)和語言學(xué)習(xí)者發(fā)音之間的相似性,采用MFCC參數(shù)。音高(pitch):說話人的聲調(diào)主要由其音高的變化決定。如果將音高用來衡量母語和學(xué)生之間的相似性,應(yīng)能更好的比較其聲調(diào)的相似性。在本發(fā)明實施例中,為了反映音調(diào)的情況,可以使用音高一階動態(tài)和二階動態(tài)參數(shù)。
節(jié)奏信息漢語普通話一般被認(rèn)為是一種節(jié)奏語言,節(jié)奏一般和說話的時長有關(guān),用節(jié)奏信息可以區(qū)分不同語言背景人所說的普通話,在本發(fā)明實施例中,選用節(jié)奏信息用以選擇和語言學(xué)習(xí)者最接近的標(biāo)準(zhǔn)教師語音,具體地節(jié)奏信息包括:%V,Δ V, rPVI, nPVI。%V是指在一句話(或一句語音)中,所有元音的時長加占總時長的比例;Δ V是指在一句話中,元音時長的標(biāo)準(zhǔn)差;rPVI是指相鄰兩元音段或輔音段之間的時長差的平均值。nPVI是指相鄰兩元音段或輔音段之間的時長差占單個片段時長的比例的平均值。rPVI> nPVI的計算公式如下
m—I rPVI = ^l\dh -dk_,/(m-Y)
_ k=\ _
- fj /HPVI = IOOt' Σ/ Km-1)
_ /2 / _在上述公式中,m是一句話中元音的間隔數(shù),d是第k個間隔持續(xù)的時長。在本發(fā)明實施例中,需要將上述四種參數(shù)合并成一個矢量,作為一個共同的參數(shù)進行識別。在合并前,需要對參數(shù)進行均值和方差的規(guī)整。在本發(fā)明實施例中,選用比較語音參數(shù)模型為高斯混合模型,具體操作為先使用標(biāo)準(zhǔn)語音庫的語音,對每個教師語音分別訓(xùn)練高斯混合模型,所使用的參數(shù)分別為上述的三種語音參數(shù),故每個教師有三個高斯混合模型。測試時,對語言學(xué)習(xí)者的語音也分別提取三種語音參數(shù),對應(yīng)的參數(shù)分別和不同的教師模型匹配,選擇似然評分最高的教師語音。在三種不同參數(shù)的評價準(zhǔn)則下,會選取出3個最接近的教師語音。具體地,在某一種參數(shù)條件下會從教師語音庫中選擇出一種最接近的教師語音,在此有三種參數(shù),因此可能會選擇出三個教師語音,三個教師語音在對應(yīng)的參數(shù)上都是最接近的。若某兩種參數(shù)選擇出相同的教師語音,最后得到的教師語音也有可能小于三個。這三個里面哪個最優(yōu),是通過后續(xù)的合成聽辨實驗得到的。在實驗中,以MFCC參數(shù)選取的教師語音,合成出的結(jié)果最好。在選擇了最接近的標(biāo)準(zhǔn)教師語音之后,根據(jù)最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音包括分別對最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音進行音素分段;根據(jù)最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音的每個對應(yīng)音素段調(diào)整語言學(xué)習(xí)者語音的時長和基音周期;根據(jù)調(diào)整后的語言學(xué)習(xí)者語音的時長和基音周期、應(yīng)用TD-PSOLA算法合成聲調(diào)教學(xué)語音。其中,根據(jù)最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音的每個對應(yīng)音素段調(diào)整語言學(xué)習(xí)者語音的時長和基音周期包括將最接近的標(biāo)準(zhǔn)教師語音的時長與語言學(xué)習(xí)者語音的時長的平均值確定為調(diào)整后的語言學(xué)習(xí)者語音的時長;將最接近的標(biāo)準(zhǔn)教師語音的基音周期確定為調(diào)整后的語言學(xué)習(xí)者語音的基音周期。在實際操作中,可以使用自動語音識別中的強制對齊(force align)方法對輸入的語音按照音素進行分段。語言學(xué)習(xí)者的語音和最接近的標(biāo)準(zhǔn)教師語音具有相同的文本內(nèi)容,對比二者的分段結(jié)果,對兩條語音的每個對應(yīng)音素段調(diào)整語言學(xué)習(xí)者的語音的時長和基音周期。優(yōu)選地,時長選擇為二者之間的均值,基音周期選擇為最接近的標(biāo)準(zhǔn)教師語音的基音周期。在時長、基音周期確定后,使用TD-PSOLA算法合成教學(xué)語音。TD-PSOLA是一個較成熟的技術(shù),TD-PSOLA技術(shù)改變原始語音波形的基頻和音長的情況,如何根據(jù)TD-PSOLA算法合成教學(xué)語音可以參見現(xiàn)有技術(shù)中的相關(guān)描述,此處不再贅述。圖2是漢語教學(xué)語音合成方法的流程示意框圖,如圖2所示,對于一個新的聲調(diào)學(xué)習(xí)者,首先將其發(fā)音進行參數(shù)提取,同時從標(biāo)準(zhǔn)發(fā)音人語音庫中進行參數(shù)提取,再進行語音參數(shù)模型比較,并選擇最接近的標(biāo)準(zhǔn)教師語音進行教學(xué)語音合成。最接近的標(biāo)準(zhǔn)教師語音的選擇即從本地語音庫中選擇最佳的教師語音。首先對標(biāo)準(zhǔn)發(fā)音人語音庫中的語音進行三種語音參數(shù)的提取,訓(xùn)練標(biāo)準(zhǔn)發(fā)音人的高斯混合模型GMM。由于不同語音參數(shù)所提取到的數(shù)據(jù)量是不同的,GMM的混合度 數(shù)量也不同。其中,MFCC參數(shù)的GMM的混合度數(shù)量最大,pitch參數(shù)和節(jié)奏參數(shù)的GMM的混合度數(shù)量較小,因此,GMM可以預(yù)先離線訓(xùn)練得到。對于一個新的語言學(xué)習(xí)者,也同樣提取其三種語音參數(shù),分別和相應(yīng)參數(shù)的標(biāo)準(zhǔn)發(fā)音人的高斯混合模型比較,選擇最接近的標(biāo)準(zhǔn)教師語音。具體地,對于所提取的語音參數(shù),以MFCC為例(其余兩個參數(shù)選擇過程也類似)。標(biāo)準(zhǔn)發(fā)音人事先已提取了 MFCC參數(shù),并根據(jù)該參數(shù)訓(xùn)練出高斯混合模型(GMM),有多少個標(biāo)準(zhǔn)發(fā)音人就可以得到多少個高斯混合模型。對于新的語言學(xué)習(xí)者,相應(yīng)的提取同樣階次的MFCC參數(shù),再將此參數(shù)和每個標(biāo)準(zhǔn)發(fā)音人的GMM相匹配,計算出MFCC參數(shù)在該模型上的似然評分。將和所有模型匹配得到的似然評分進行比較,找出最大值,所對應(yīng)的GMM即為和新的語言學(xué)習(xí)者最接近的模型,也就找出了最接近的標(biāo)準(zhǔn)教師語音。之后,進行語音合成使用自動語音識別中的強制對齊對輸入的語音按照音素進行分段。由于語言學(xué)習(xí)者的語音和所選取的標(biāo)準(zhǔn)教師語音是相同的文本內(nèi)容,因此,對比二者的分段結(jié)果,對兩條語音的每個對應(yīng)音素段調(diào)整語言學(xué)習(xí)者的語音的時長和基音周期。時長選擇為二者之間的均值,基音周期選擇為標(biāo)準(zhǔn)教師語音的基音周期。在時長、基音周期確定后,使用TD-PSOLA算法合成教學(xué)語音。為了驗證本發(fā)明實施例的有效性,可以選擇漢語學(xué)習(xí)教材《漢語會話301句》的語音,驗證合成語音的語音質(zhì)量和聲調(diào)質(zhì)量。標(biāo)準(zhǔn)語料庫共有12個中國人(6男6女)朗讀《漢語會話301句》的語音,語音學(xué)習(xí)者共3人(2男I女,母語為日語),語音學(xué)習(xí)者也錄制了其朗讀《漢語會話301句》的語音。按照本發(fā)明實施例的方法對三個語音學(xué)習(xí)者分別選擇最接近的中國人語音,再根據(jù)中國人語音和學(xué)習(xí)者語音合成教學(xué)語音。五位語言學(xué)研究生通過感知實驗對合成語音進行了測評,五個學(xué)生的母語都是漢語普通話。五位學(xué)生以MOS評分,I (差)到5 (優(yōu)秀),對合成語音的音質(zhì)和聲調(diào)質(zhì)量進行了評測。圖3是語音質(zhì)量的感知結(jié)果示意圖,圖4是聲調(diào)質(zhì)量的感知結(jié)果示意圖,圖中M1,M2,F(xiàn)l是指不同的2男I女語言學(xué)習(xí)者的實驗結(jié)果。如圖3、4所示,每組數(shù)據(jù)的第一列CHN是指原標(biāo)準(zhǔn)發(fā)音人的MOS得分,第二列JPN是指語言學(xué)習(xí)者原始語音的MOS得分,最后三列MFCC、PITCH和RYHTHM,都是合成語音的MOS得分,其區(qū)別在于以不同參數(shù)選擇標(biāo)準(zhǔn)發(fā)音人進行語音合成,參數(shù)不同,所選取到的最接近的標(biāo)準(zhǔn)發(fā)音人也有可能不同,所合成的語音質(zhì)量也是不同的。Fl比較特殊,在MFCC、PITCH上選出了同樣的標(biāo)準(zhǔn)發(fā)音人,合成的語音結(jié)果也相同。從兩個圖中,可以發(fā)現(xiàn)合成語音的語音質(zhì)量和聲調(diào)質(zhì)量都得到了提高,綜合五個學(xué)生的結(jié)果,對于Ml語言學(xué)習(xí)者而言,MFCC方法合成語音質(zhì)量的MOS評分相對改善約5.4%,聲調(diào)質(zhì)量相對改善12.6%。原語言學(xué)習(xí)者的聲調(diào)質(zhì)量越差,則通過本方法合成語音質(zhì)量越好,在圖3中,原始的三個學(xué)習(xí)者聲調(diào)MOS評分分別為3. 7,4. O和3. 1,就MFCC方法而言,相對改善為12. 6%, 9.0%和 20. 7%以不同的參數(shù)標(biāo)準(zhǔn)選擇不同的標(biāo)準(zhǔn)發(fā)音人進行語音合成,在語音質(zhì)量和聲調(diào)質(zhì)量上,都是MFCC方法最優(yōu)。這可能因為,MFCC的反映了大部分的聲學(xué)特性和部分的聲調(diào)特性。平均聲調(diào)質(zhì)量相對改善了 20. 7%。實施例二本發(fā)明實施例還提供一種漢語教學(xué)語音合成裝置,該裝置優(yōu)選地用于實現(xiàn)上述實施例一中的方法。圖5是該裝置的結(jié)構(gòu)框圖,如圖5所示,該裝置包括語音獲取單元1,用于獲取語言學(xué)習(xí)者語音以及多個標(biāo)準(zhǔn)教師語音;最接近標(biāo)準(zhǔn)教師語音選擇單元2,用于根據(jù)語音參數(shù)從多個標(biāo)準(zhǔn)教師語音中選擇與語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音,其中,語音參數(shù)包括聲學(xué)參數(shù)、音高、節(jié)奏信息;聲調(diào)教學(xué)語音合成單元3,用于根據(jù)最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音。由以上描述可知,通過聲調(diào)教學(xué)語音合成單元將最接近標(biāo)準(zhǔn)教師語音選擇單元選擇的最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音,由于該合成聲調(diào)教學(xué)語音類似于語言學(xué)習(xí)者自己的聲音,因此,語言學(xué)習(xí)者將更容易學(xué)習(xí)發(fā)音,通過本發(fā)明實施例,可以給漢語學(xué)習(xí)者提供較好的幫助。上述最接近標(biāo)準(zhǔn)教師語音選擇單元中的節(jié)奏信息包括一句語音中所有元音的時長加占總時長的比例;一句語音中元音時長的標(biāo)準(zhǔn)差;相鄰兩元音段或輔音段之間的時長差的平均值;相鄰兩元音段或輔音段之間的時長差占單個片段時長的比例的平均值。如圖6所示,上述最接近標(biāo)準(zhǔn)教師語音選擇單元2包括高斯混合模型訓(xùn)練模塊21,用于根據(jù)語音參數(shù)分別對每個標(biāo)準(zhǔn)教師語音、以及語言學(xué)習(xí)者語音訓(xùn)練高斯混合模型;最接近標(biāo)準(zhǔn)教師語音選擇模塊22,用于根據(jù)得到的高斯混合模型選擇與語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音。如圖7所示,聲調(diào)教學(xué)語音合成單元3包括音素分段模塊31,用于分別對最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音進行音素分段;語言學(xué)習(xí)者語音調(diào)整模塊32,用于根據(jù)最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音的每個對應(yīng)音素段調(diào)整語言學(xué)習(xí)者語音的時長和基音周期;聲調(diào)教學(xué)語音合成模塊33,用于根據(jù)調(diào)整后的語言學(xué)習(xí)者語音的時長和基音周期、應(yīng)用TD-PSOLA算法合成聲調(diào)教學(xué)語音。其中,語言學(xué)習(xí)者語音調(diào)整模塊32包括時長調(diào)整子模塊321,用于將最接近的標(biāo)準(zhǔn)教師語音的時長與語言學(xué)習(xí)者語音的時長的平均值確定為調(diào)整后的語言學(xué)習(xí)者語音的時長;基音周期調(diào)整子模塊322,用于將最接近的標(biāo)準(zhǔn)教師語音的基音周期確定為調(diào)整后的語言學(xué)習(xí)者語音的基音周期。上述各單元、各模塊、各子模塊的具體的執(zhí)行過程,可以參見上述實施例一中的描述,此處不再贅述。本發(fā)明實施例能夠合成出音段、個性信息和語言學(xué)習(xí)者語音一致,而聲調(diào)為標(biāo)準(zhǔn)聲調(diào)的教學(xué)語音,通過感知實驗結(jié)果表明,以MFCC參數(shù)選取的教師語音為基準(zhǔn),所得到的合成教學(xué)語音在音質(zhì)和聲調(diào)上都得到了最優(yōu)的效果。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分步驟可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀取存儲介質(zhì)中,比如R0M/RAM、磁碟、光盤等。以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。權(quán)利要求
1.一種漢語教學(xué)語音合成方法,其特征在于,所述的方法包括 獲取語言學(xué)習(xí)者語音以及多個標(biāo)準(zhǔn)教師語音; 根據(jù)語音參數(shù)從所述多個標(biāo)準(zhǔn)教師語音中選擇與所述語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音,其中,所述的語音參數(shù)包括聲學(xué)參數(shù)、音高、節(jié)奏信息; 根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,根據(jù)語音參數(shù)從所述多個標(biāo)準(zhǔn)教師語音中選擇與所述語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音包括 根據(jù)語音參數(shù)分別對每個標(biāo)準(zhǔn)教師語音、以及所述語言學(xué)習(xí)者語音訓(xùn)練高斯混合模型; 根據(jù)得到的高斯混合模型選擇與所述語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音包括 分別對所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音進行音素分段; 根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音的每個對應(yīng)音素段調(diào)整所述語言學(xué)習(xí)者語音的時長和基音周期; 根據(jù)調(diào)整后的所述語言學(xué)習(xí)者語音的時長和基音周期、應(yīng)用TD-PSOLA算法合成所述聲調(diào)教學(xué)語音。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音的每個對應(yīng)音素段調(diào)整所述語言學(xué)習(xí)者語音的時長和基音周期包括 將所述最接近的標(biāo)準(zhǔn)教師語音的時長與所述語言學(xué)習(xí)者語音的時長的平均值確定為調(diào)整后的所述語言學(xué)習(xí)者語音的時長; 將所述最接近的標(biāo)準(zhǔn)教師語音的基音周期確定為調(diào)整后的所述語言學(xué)習(xí)者語音的基音周期。
5.根據(jù)權(quán)利要求I至4中任一項所述的方法,其特征在于,所述的節(jié)奏信息包括 一句語音中所有元音的時長加占總時長的比例; 一句語音中元音時長的標(biāo)準(zhǔn)差; 相鄰兩元音段或輔音段之間的時長差的平均值; 相鄰兩元音段或輔音段之間的時長差占單個片段時長的比例的平均值。
6.一種漢語教學(xué)語音合成裝置,其特征在于,所述的裝置包括 語音獲取單元,用于獲取語言學(xué)習(xí)者語音以及多個標(biāo)準(zhǔn)教師語音; 最接近標(biāo)準(zhǔn)教師語音選擇單元,用于根據(jù)語音參數(shù)從所述多個標(biāo)準(zhǔn)教師語音中選擇與所述語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音,其中,所述的語音參數(shù)包括聲學(xué)參數(shù)、音高、節(jié)奏信息; 聲調(diào)教學(xué)語音合成單元,用于根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述最接近標(biāo)準(zhǔn)教師語音選擇單元包括 高斯混合模型訓(xùn)練模塊,用于根據(jù)語音參數(shù)分別對每個標(biāo)準(zhǔn)教師語音、以及所述語言學(xué)習(xí)者語音訓(xùn)練高斯混合模型;最接近標(biāo)準(zhǔn)教師語音選擇模塊,用于根據(jù)得到的高斯混合模型選擇與所述語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述聲調(diào)教學(xué)語音合成單元包括 音素分段模塊,用于分別對所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音進行音素分段; 語言學(xué)習(xí)者語音調(diào)整模塊,用于根據(jù)所述最接近的標(biāo)準(zhǔn)教師語音與所述語言學(xué)習(xí)者語音的每個對應(yīng)音素段調(diào)整所述語言學(xué)習(xí)者語音的時長和基音周期; 聲調(diào)教學(xué)語音合成模塊,用于根據(jù)調(diào)整后的所述語言學(xué)習(xí)者語音的時長和基音周期、應(yīng)用TD-PSOLA算法合成所述聲調(diào)教學(xué)語音。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述語言學(xué)習(xí)者語音調(diào)整模塊包括 時長調(diào)整子模塊,用于將所述最接近的標(biāo)準(zhǔn)教師語音的時長與所述語言學(xué)習(xí)者語音的時長的平均值確定為調(diào)整后的所述語言學(xué)習(xí)者語音的時長; 基音周期調(diào)整子模塊,用于將所述最接近的標(biāo)準(zhǔn)教師語音的基音周期確定為調(diào)整后的所述語言學(xué)習(xí)者語音的基音周期。
10.根據(jù)權(quán)利要求6至9中任一項所述的裝置,其特征在于,所述最接近標(biāo)準(zhǔn)教師語音選擇單元中的節(jié)奏信息包括 一句語音中所有元音的時長加占總時長的比例; 一句語音中元音時長的標(biāo)準(zhǔn)差; 相鄰兩元音段或輔音段之間的時長差的平均值; 相鄰兩元音段或輔音段之間的時長差占單個片段時長的比例的平均值。
全文摘要
本發(fā)明提供一種漢語教學(xué)語音合成方法及裝置,其中,該方法包括獲取語言學(xué)習(xí)者語音以及多個標(biāo)準(zhǔn)教師語音;根據(jù)語音參數(shù)從多個標(biāo)準(zhǔn)教師語音中選擇與語言學(xué)習(xí)者語音最接近的標(biāo)準(zhǔn)教師語音,其中,語音參數(shù)包括聲學(xué)參數(shù)、音高、節(jié)奏信息;根據(jù)最接近的標(biāo)準(zhǔn)教師語音與語言學(xué)習(xí)者語音合成聲調(diào)教學(xué)語音。通過本發(fā)明,可以使得語言學(xué)習(xí)者更容易學(xué)習(xí)發(fā)音,從而可以給漢語學(xué)習(xí)者提供較好的幫助。
文檔編號G09B5/04GK102723077SQ20121020769
公開日2012年10月10日 申請日期2012年6月18日 優(yōu)先權(quán)日2012年6月18日
發(fā)明者張勁松, 解焱陸 申請人:北京語言大學(xué)