專利名稱::基于特征轉(zhuǎn)換規(guī)則的漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及語(yǔ)音轉(zhuǎn)換
技術(shù)領(lǐng)域:
和通信
技術(shù)領(lǐng)域:
,特別地,涉及一種基于特征轉(zhuǎn)換規(guī)則的漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換方法。
背景技術(shù):
:取的一種通訊方式。在日常生活中耳語(yǔ)是常見的,例如在辦公室用手機(jī)通話,國(guó)家安全部門工作的需要等。關(guān)于耳語(yǔ)音的特征分析、識(shí)別、重建長(zhǎng)期以來(lái)受到部分學(xué)者的關(guān)注,而此類各項(xiàng)研究的主要目標(biāo)則是根據(jù)耳語(yǔ)音恢復(fù)相應(yīng)的自然語(yǔ)音。從相關(guān)的研究報(bào)道來(lái)看,依據(jù)耳語(yǔ)音的信息用人工智能方法產(chǎn)生相應(yīng)自然語(yǔ)音的方案主要有兩種,一種是識(shí)別,另一種是重建。識(shí)別法需要建立耳語(yǔ)音和自然語(yǔ)音兩個(gè)語(yǔ)料庫(kù),通過(guò)選取能夠反映各個(gè)耳語(yǔ)音差異的特征,選用合適的識(shí)別模型進(jìn)行訓(xùn)練和識(shí)別,根據(jù)識(shí)別結(jié)果從相應(yīng)的自然語(yǔ)音的數(shù)據(jù)庫(kù)中提出該耳語(yǔ)音所對(duì)應(yīng)的自然音。識(shí)別法在針對(duì)特定人的語(yǔ)料庫(kù)中,可得到與說(shuō)話人完全吻合的自然語(yǔ)音,可懂度和聽覺(jué)舒適度勿庸質(zhì)疑,但是在非特定人的場(chǎng)合下,往往在能保證語(yǔ)義的條件下說(shuō)話人的信息得不到保證。該方法需要較大數(shù)據(jù)量的訓(xùn)練,對(duì)未參加識(shí)別的語(yǔ)音樣本其識(shí)別率會(huì)明顯降低。南京大學(xué)的栗學(xué)麗采用MELP模型將漢語(yǔ)耳語(yǔ)音轉(zhuǎn)換為自然音,側(cè)重于討論耳語(yǔ)音與自然語(yǔ)音的特征之間的差別。其存在的問(wèn)題主要在于其一方面忽略了聲調(diào)才莫型對(duì)于合成語(yǔ)音的重要性,另一方面采用線性方法將耳語(yǔ)音的聲道參數(shù)向正常語(yǔ)音參數(shù)的轉(zhuǎn)換,而影響了合成語(yǔ)音的質(zhì)量。美國(guó)的Morris討論了英語(yǔ)耳語(yǔ)音的重建和識(shí)別。由于英語(yǔ)為非聲調(diào)語(yǔ)言Morris對(duì)于激勵(lì)信息則相對(duì)忽略,而著重強(qiáng)調(diào)聲道信息對(duì)于合成語(yǔ)音的重要性,建立共振峰頻率和帶寬與線譜頻率之間的函數(shù)關(guān)系,根據(jù)耳語(yǔ)音與自然語(yǔ)音的共振峰頻率和帶寬的變化量來(lái)調(diào)整線譜頻率參數(shù)。該方案計(jì)算量大,不易實(shí)現(xiàn)實(shí)時(shí)轉(zhuǎn)換。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換方法,通過(guò)對(duì)漢語(yǔ)耳語(yǔ)音和相應(yīng)自然音的分析比較,總結(jié)出兩種語(yǔ)音的各個(gè)特征參數(shù)之間的區(qū)別和聯(lián)系,通過(guò)對(duì)特征參數(shù)之間的轉(zhuǎn)換機(jī)理的研究,采取經(jīng)驗(yàn)?zāi)B(tài)方案取得相應(yīng)的自然音的特征值,采用基于共振峰的語(yǔ)音合成器,并對(duì)重建后的語(yǔ)音進(jìn)行主客觀評(píng)價(jià),從而彌補(bǔ)現(xiàn)有技術(shù)的不足。本發(fā)明提供一種漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換的方法,該方法包括以下階段,耳語(yǔ)音信號(hào)的預(yù)處理階段,該階段對(duì)耳語(yǔ)音信號(hào)先后進(jìn)行端點(diǎn)檢測(cè)處理和聲韻分割處理;耳語(yǔ)音信號(hào)的特征分析及提取階段,其中所述階段對(duì)耳語(yǔ)音信號(hào)的預(yù)處理階段得到的結(jié)果分別進(jìn)行激勵(lì)特征提取操作和聲道特征提取操作,并采取聲調(diào)模型與基頻估計(jì)方法將激勵(lì)特征提取操作提取的激勵(lì)信息轉(zhuǎn)換產(chǎn)生基頻信息,以及釆取聲道參數(shù)轉(zhuǎn)換規(guī)則將聲道特征提取操作提取的聲道信息轉(zhuǎn)換產(chǎn)生自然語(yǔ)音聲道信息;語(yǔ)音合成階段,耳語(yǔ)音信號(hào)的特征分析及提取階段最終獲取的基頻信息和自然語(yǔ)音聲道信息在該階段進(jìn)行語(yǔ)音合成而產(chǎn)生相應(yīng)的自然語(yǔ)音信號(hào),從而實(shí)現(xiàn)耳語(yǔ)音向自然語(yǔ)音的實(shí)時(shí)轉(zhuǎn)換。圖1為本發(fā)明的基于規(guī)則的語(yǔ)音重建的模型示意圖2為本發(fā)明的歸一化的四種聲調(diào)曲線;圖3為本發(fā)明的不同參數(shù)下第三聲調(diào)歸一化曲線;圖4a為本發(fā)明的漢語(yǔ)元音/a/正常音和耳語(yǔ)音的聲道頻率特性曲線圖4b為本發(fā)明的漢語(yǔ)元音/a/正常音和耳語(yǔ)音的LSP參數(shù)曲線圖4c為本發(fā)明的漢語(yǔ)元音/a/正常音與調(diào)整后的耳語(yǔ)音的LSP參數(shù)曲線圖;圖4d為本發(fā)明漢語(yǔ)元音/a/正常音與調(diào)整后的耳語(yǔ)音的聲道頻率特性曲線圖5a為本發(fā)明的耳語(yǔ)音/aoyunhui/的時(shí)域波形圖;圖5b為本發(fā)明的重建語(yǔ)音/aoyunhui/的時(shí)域波形圖;圖5c為本發(fā)明的耳語(yǔ)音/aoyunhui/的語(yǔ)^潛圖;圖5d為本發(fā)明的重建語(yǔ)音/aoyunhui/的語(yǔ)謙圖;圖5e為本發(fā)明的耳語(yǔ)音/hui/—幀細(xì)節(jié)波形;圖5f為本發(fā)明的重建語(yǔ)音/hui/—幀細(xì)節(jié)波形;具體實(shí)施例方式以下將參照附圖并結(jié)合具體實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。1重建模型耳語(yǔ)音的發(fā)音機(jī)理與正常音不同,它在聲學(xué)特征上與正常音有較大差異,如聲帶無(wú)振動(dòng)、音量小、無(wú)基頻等。漢語(yǔ)由聲母與韻母組成,而聲母主要為輔音充當(dāng),從發(fā)音機(jī)理上講,輔音是由氣體在舌面和唇上摩擦產(chǎn)生的湍流形成的。耳語(yǔ)音的聲母部分與正常音的發(fā)音方式?jīng)]有大的區(qū)別,而韻母部分發(fā)音時(shí)聲門保持半開狀態(tài),聲門前部完全靠攏,后部分聲門有一個(gè)三角裂隙,聲帶不振動(dòng),從肺部出來(lái)的氣流通過(guò)開放區(qū)產(chǎn)生摩擦噪聲,此時(shí)呼出的氣體通過(guò)聲門開口的收縮產(chǎn)生湍氣流。根據(jù)耳語(yǔ)音的發(fā)音特點(diǎn),將耳語(yǔ)音向自然語(yǔ)音轉(zhuǎn)換時(shí),韻母部分為主要的分析轉(zhuǎn)換對(duì)象,因此端點(diǎn)檢測(cè)和聲韻母分割作為語(yǔ)音重建模型的預(yù)處理部分非常必要。在此基礎(chǔ)上,以耳語(yǔ)音和對(duì)應(yīng)的自然語(yǔ)音為分析對(duì)象,從耳語(yǔ)音的特征載體中挖掘聲調(diào)及基頻的信息,通過(guò)比較耳語(yǔ)音與自然語(yǔ)音的聲道特征載體,建立將聲道特征從耳語(yǔ)音向自然語(yǔ)音轉(zhuǎn)換的規(guī)則函數(shù)。語(yǔ)音重建的模型如圖1所示。2特征分析及提取提供正確的激勵(lì)和聲道信息是將耳語(yǔ)音轉(zhuǎn)換為正常語(yǔ)音的關(guān)鍵點(diǎn)。由于耳語(yǔ)音的特殊發(fā)音機(jī)理,它與正常音的激勵(lì)信息差異明顯,尤為突出的是耳語(yǔ)音為噪聲激勵(lì)信號(hào),它的濁音部分沒(méi)有周期性,因而耳語(yǔ)音信號(hào)中不存在明顯的基頻和聲調(diào)信息,而這恰恰是合成自然語(yǔ)音必不可少的激勵(lì)源信息。人們?cè)诎l(fā)耳語(yǔ)音時(shí),聲門處于半開狀態(tài),聲道由聲門到嘴唇部分以及氣管和肺部共同組成,這與人們發(fā)自然語(yǔ)音時(shí)的聲道有所區(qū)別,因此兩者的聲道特征信息也是不同的。2.1激勵(lì)特征分析2.1.1聲調(diào)及性別特征在缺失聲調(diào)最直接的載體一一基頻的條件下,耳語(yǔ)音的其他特征在聲調(diào)感知方面由配角轉(zhuǎn)為主角。根據(jù)其對(duì)耳語(yǔ)音聲調(diào)識(shí)別的貢獻(xiàn)大小可排序如下聽神經(jīng)發(fā)放率、幅值包絡(luò)、聲道長(zhǎng)度、音長(zhǎng)、聲門面積、共振峰。橫向比較,其中聽神經(jīng)發(fā)放率作為聲調(diào)特征時(shí),耳語(yǔ)音的聲調(diào)識(shí)別率最高。其原因在于聽神經(jīng)纖維將耳蝸內(nèi)毛細(xì)胞與聽覺(jué)中樞神經(jīng)系統(tǒng)聯(lián)接起來(lái),它是聽覺(jué)中樞的唯一信息來(lái)源。每條聽覺(jué)神經(jīng)纖維與基底膜的一個(gè)特定部位相對(duì)應(yīng),并在一個(gè)特定頻率上發(fā)放。神經(jīng)的激發(fā)頻率與有多少神經(jīng)元參與有關(guān),聲強(qiáng)愈高,神經(jīng)元愈多,而神經(jīng)元的激發(fā)頻率亦愈快。正常狀態(tài)下,放電率與聲刺激強(qiáng)度關(guān)系呈J"形。同時(shí)已有的研究表明,聽神經(jīng)纖維具有與刺激同步發(fā)放的能力,聽覺(jué)神經(jīng)纖維能夠?qū)舱穹宓拇碳ぶC波鎖相或同步。因此,聽神經(jīng)發(fā)放與聲刺激的強(qiáng)度、頻譜、共振峰等信息密切相關(guān)。盡管如此,由于識(shí)別率的原因,聽神經(jīng)發(fā)放率依然不是最為理想的特征量,目前尚未發(fā)現(xiàn)一個(gè)如自然語(yǔ)音中的基頻那樣占絕對(duì)主導(dǎo)地位的特征參數(shù)。耳語(yǔ)音的聲調(diào)載體可表示為由上述多個(gè)特征量組合成的一個(gè)矢量,并且耳語(yǔ)在發(fā)音時(shí)往往傾向于拉長(zhǎng)音長(zhǎng)以強(qiáng)調(diào)聲調(diào),因此在進(jìn)行聲調(diào)識(shí)別時(shí)運(yùn)算量是一個(gè)棘手的問(wèn)題。為解決這一問(wèn)題,可采取先對(duì)各音節(jié)所有幀的特征矢量進(jìn)行聚類,然后送入局部有監(jiān)督特征映射神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。這一識(shí)別模型很大程度上降低了神經(jīng)網(wǎng)絡(luò)的不收斂率,且有效地提高了識(shí)別速度。在缺少基頻信息的條件下,說(shuō)話人的音高依然可以被粗線條感知,尤其是性別特征可較為準(zhǔn)確地被辨聽。其主要線索在于共振峰頻率中攜帶了與說(shuō)話人有關(guān)的信息,研究表明男性的共振峰頻率普遍較女性低。以此作為說(shuō)話人性別的判決依據(jù)。2.1.2基頻軌跡在判斷出說(shuō)話人性別及語(yǔ)音的聲調(diào)以后,建立一個(gè)合適的基頻軌跡對(duì)于語(yǔ)音合成至關(guān)重要。本發(fā)明提出了多項(xiàng)式曲線混合模型(PMM—Polynomia卜CurveMixtureModel)實(shí)現(xiàn)聲調(diào)建才莫,不僅給出一組逼近實(shí)際聲調(diào)曲線的多項(xiàng)式模型,并且可以通過(guò)參數(shù)的選擇靈活控制聲調(diào)曲線的形狀,為語(yǔ)音合成提供更為豐富的韻律特征。四聲聲調(diào)的多項(xiàng)式表達(dá)式/,(0,r二i,2,3,4分另'J為/;0)-勿+W4+o.oix("2"62)2+63(1)/2,-8x(a,"6,)6+(a2f+62)2+63(2).,3(/)=3x(-10x(",+W6+02/化)2)+^(3)/4(0=-5x(fl,"夂)4-0.5x(a2"62)+63(4)式中^表示歸一化的時(shí)間,該模型以多階多項(xiàng)式的組合來(lái)擬合聲調(diào)曲線,以一個(gè)高階多項(xiàng)式(4階或6階)為主,輔以低階(1階或二階)多項(xiàng)式來(lái)確定調(diào)型,并用一常數(shù)項(xiàng)調(diào)整曲線的中心點(diǎn)位置。該^t型的表達(dá)式與聲調(diào)形狀的關(guān)系很直觀,借助于模型中各個(gè)多項(xiàng)式本身的曲線特性,該聲調(diào)模型的結(jié)構(gòu)更加易于理解和調(diào)整。通過(guò)對(duì)多項(xiàng)式中參數(shù)的設(shè)定可以選擇聲調(diào)曲線的形狀,表1給出了一組建議的多項(xiàng)式曲線混合模型參數(shù)值,這組參數(shù)可以產(chǎn)生較為標(biāo)準(zhǔn)的聲調(diào)調(diào)型曲線,如圖2所示。表1.多項(xiàng)式曲線混合模型參數(shù)選擇示例<table>tableseeoriginaldocumentpage9</column></row><table>同一聲調(diào)的曲線由于說(shuō)話人和語(yǔ)音內(nèi)容的不同而存在差異。由于基準(zhǔn)音高的不同,聲調(diào)曲線尺度大小可能相差很大,本模型采用歸一化頻率,如圖2所示。實(shí)際的基頻軌跡應(yīng)根據(jù)所知的基準(zhǔn)音高對(duì)該歸一化曲線進(jìn)行相應(yīng)的尺度放大和頻率提升以滿足不同性別說(shuō)話人和不同語(yǔ)氣語(yǔ)調(diào)情況下的聲調(diào)特點(diǎn)。上述聲調(diào)模型還需要通過(guò)插值的方式達(dá)成約定的幀數(shù)以滿足實(shí)際語(yǔ)音的時(shí)長(zhǎng)變化。實(shí)際的語(yǔ)音由于語(yǔ)氣語(yǔ)調(diào)以及聲母的不同使得相同聲調(diào)可能出現(xiàn)不同調(diào)形,以往的聲調(diào)模型很難適應(yīng)這種變化。本發(fā)明所提出的模型由于具有清晰的幾何性質(zhì),因此便于參數(shù)的設(shè)定,可以根據(jù)實(shí)際語(yǔ)音的聲調(diào)特點(diǎn)可以擬合出最接近的聲調(diào)曲線,有助于語(yǔ)音合成時(shí)韻律特征的表現(xiàn)。圖3以第三聲調(diào)為例,給出了在三種參數(shù)值條件下該聲調(diào)曲線的調(diào)型變化,這很好的呈現(xiàn)了實(shí)際語(yǔ)音中第三聲調(diào)的前谷、中谷及后谷的特點(diǎn),參數(shù)的設(shè)置意義明確且簡(jiǎn)單,只需要改變b2參數(shù)即可。其他聲調(diào)亦具備可調(diào)性。聲道特征分析及轉(zhuǎn)換由于耳語(yǔ)發(fā)音時(shí),假聲帶區(qū)域變窄、聲門保持半開的狀態(tài)使得聲道增加了氣管和肺的部分,因此使得聲道傳輸函數(shù)發(fā)生改變,耳語(yǔ)音共振峰的位置和帶寬隨之發(fā)生變化。對(duì)漢語(yǔ)耳語(yǔ)音共振峰以及與其他語(yǔ)言的共振峰情況進(jìn)行對(duì)比,發(fā)現(xiàn)漢語(yǔ)耳語(yǔ)音共振峰的偏移規(guī)律和其他語(yǔ)言的規(guī)律相似,都是頻率向高處偏移,帶寬變大。面對(duì)耳語(yǔ)音的共振峰參數(shù)與正常音的參數(shù)間存在的差異,需要對(duì)耳語(yǔ)音的共振峰參數(shù)進(jìn)行修正并與正常音的參數(shù)相匹配。修正方案應(yīng)根據(jù)語(yǔ)音生成模型的參數(shù)需求來(lái)設(shè)定,本發(fā)明根據(jù)所選擇的語(yǔ)音合成模型將這一特征在生成自然語(yǔ)音時(shí)體現(xiàn)在聲道模型參數(shù)的調(diào)整中。線譜頻率(LSF—linearspectrumfrequency)參數(shù)是目前表達(dá)聲道模型最為有效參數(shù),由于是頻域參數(shù),所以它與語(yǔ)音信號(hào)的譜包絡(luò)的峰有更為緊密的關(guān)系。圖4a為漢語(yǔ)元音/a/的正常音和耳語(yǔ)音某點(diǎn)處的聲道頻率響應(yīng)曲線,可以看出漢語(yǔ)耳語(yǔ)音的共振峰向高頻偏移。圖4b為漢語(yǔ)元音/a/正常音和耳語(yǔ)音的LSP參數(shù)曲線,前8幀為自然語(yǔ)音的LSP參數(shù)曲線,后12幀為耳語(yǔ)音的LSP參數(shù)曲線。圖形顯示耳語(yǔ)音的LSP參數(shù)值大于自然語(yǔ)音的LSP參數(shù)值,尤其是低階的LSP參數(shù)值這一表現(xiàn)尤為明顯,而LSP參數(shù)的高階處,兩者之間的差距逐步減小。為了對(duì)耳語(yǔ)音與正常音的LSF參數(shù)相匹配。一個(gè)行之有效的方法是采用非線性的反正切經(jīng)驗(yàn)映射^f奮正法(AEMMA—Anti-tangentEmpiricalMappingModifyingApproach)。反正切曲線可以有效的調(diào)整耳語(yǔ)音與正常音的LSF參數(shù)之間的變化量,在建立耳語(yǔ)音與自然語(yǔ)音LSF之間的映射關(guān)系后,根據(jù)經(jīng)驗(yàn)修正,產(chǎn)生一組新的LSF參數(shù)。設(shè)聲道模型的系統(tǒng)函數(shù)為//(z)=^~,其中戶為線性預(yù)測(cè)階數(shù)。系統(tǒng)的LSF參數(shù)用w,表示為1-!>-1則耳語(yǔ)音與正常音的LSF參數(shù)的映射關(guān)系可以如下反正切關(guān)系表示〃=/l.tan—、[l:尸])(5)〃_w=max(〃)(6)"丄(7)則LSF參數(shù)調(diào)整為仍、w《(8)其中,參數(shù)義為非線性放大加權(quán)系數(shù),近似反映耳語(yǔ)音與自然語(yǔ)音的聲道特征變化率,用于確定系統(tǒng)的線諳頻率參數(shù)w,的非線性調(diào)整幅度,建議取值范圍由0.85至0.95,調(diào)整后的LSF參數(shù)依然遵循由小到大的規(guī)則,0<^<"2<冗是系統(tǒng)穩(wěn)定的必要條件之一。圖4c為漢語(yǔ)元音/a/正常音和調(diào)整后的耳語(yǔ)音的LSP參數(shù)曲線,前8幀與后12幀LSP參數(shù)曲線差異得到了很好的修正。同時(shí)調(diào)整后的LSF參數(shù)對(duì)于共振峰的控制也非常明顯,由圖4d可以看出耳語(yǔ)音共振峰的高頻偏移現(xiàn)象得到了有效的抑制。3語(yǔ)音合成及性能分析由于MELP模型的編碼方式,具有音質(zhì)好、傳輸碼率低、抗干擾強(qiáng)、易于參數(shù)修改等優(yōu)勢(shì),在通信領(lǐng)域被廣泛使用。但由于其處理對(duì)象是自然語(yǔ)音,因此直接使用于耳語(yǔ)音時(shí),在參數(shù)序列的提取時(shí)存在矛盾。本發(fā)明根據(jù)MELP語(yǔ)音合成模型的參數(shù)要求,結(jié)合耳語(yǔ)音的特點(diǎn),采用修正的MELP模型重建自然語(yǔ)音。對(duì)輸入耳語(yǔ)音,經(jīng)過(guò)端點(diǎn)檢測(cè)及其聲韻分割以后,檢測(cè)韻母段語(yǔ)音的聲調(diào),然后帶入P醒聲調(diào)模型得出基頻軌跡。重建語(yǔ)音的共振峰及其帶寬的調(diào)整輸入量分別為^=[18。,150,12。]他,As=[HS3]x。.3/fe,根據(jù)AE匪A修正方法得到一組新的LSF參數(shù)。由于耳語(yǔ)音與自然語(yǔ)音之間的明顯差異,重建語(yǔ)音的效果可首先客觀地根據(jù)語(yǔ)音的波形或語(yǔ)譜圖反映。圖5a-圖5f顯示了漢語(yǔ)普通話耳語(yǔ)音"奧運(yùn)會(huì)"與對(duì)應(yīng)的重建語(yǔ)音的時(shí)域和窄帶譜圖。從時(shí)域波形尤其是細(xì)節(jié)波形圖上看,耳語(yǔ)音沒(méi)有周期特性,而重建后的語(yǔ)音具有了周期結(jié)構(gòu),并且從幅度上也有了明顯的提高。重建語(yǔ)音的譜圖中可以很直觀地看出重建語(yǔ)音具有的基頻和各次諧波分量。語(yǔ)音的主觀聽覺(jué)效果是評(píng)價(jià)重建語(yǔ)音的主要指標(biāo),本發(fā)明采用平均意見分(MOS:MeanOpinionScore)作為評(píng)價(jià)標(biāo)準(zhǔn)。通過(guò)5位測(cè)試者對(duì)20句重建語(yǔ)音進(jìn)行評(píng)價(jià),參加測(cè)試者在聽完受測(cè)語(yǔ)音后進(jìn)行打分,所有語(yǔ)音的平均M0S分為3.45,達(dá)到了一般語(yǔ)音的合成質(zhì)量。本發(fā)明所采用的重建法由于是以音素為分析單位,建立在尋找規(guī)律的基礎(chǔ)上,不需要進(jìn)行樣本的訓(xùn)練,因此對(duì)語(yǔ)音具有普適性。本發(fā)明提出方法的立足點(diǎn)在于其一是耳語(yǔ)音的聲調(diào)和音高可以感知,并且能夠從某些特征載體中提取出聲調(diào)與音高信息,其二是耳語(yǔ)音的聲道信息與自然語(yǔ)音的聲道信息存在相對(duì)穩(wěn)定的關(guān)系,并且可以用數(shù)學(xué)方法描述該關(guān)系。該方法的相比于非參數(shù)的方法復(fù)雜度低,速度快,并且不受語(yǔ)料庫(kù)和說(shuō)話人限制。權(quán)利要求1.一種漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換的方法,其特征在于該方法包括以下階段,耳語(yǔ)音信號(hào)的預(yù)處理階段,該階段對(duì)耳語(yǔ)音信號(hào)先后進(jìn)行端點(diǎn)檢測(cè)處理和聲韻分割處理;耳語(yǔ)音信號(hào)的特征分析及提取階段,其中所述特征分析及提取包括激勵(lì)特征的分析及提取和聲道特征的分析及提取,該階段對(duì)耳語(yǔ)音信號(hào)的預(yù)處理階段得到的結(jié)果分別進(jìn)行激勵(lì)特征提取操作和聲道特征提取操作,并采取聲調(diào)與基頻估計(jì)方法將激勵(lì)特征提取操作提取的激勵(lì)信息轉(zhuǎn)換產(chǎn)生基頻信息,以及采取聲道參數(shù)轉(zhuǎn)換規(guī)則將聲道特征提取操作提取的聲道信息轉(zhuǎn)換產(chǎn)生自然語(yǔ)音聲道信息;語(yǔ)音合成階段,耳語(yǔ)音信號(hào)的特征分析及提取階段最終獲取的基頻信息和自然語(yǔ)音聲道信息在該階段進(jìn)行語(yǔ)音合成而產(chǎn)生相應(yīng)的自然語(yǔ)音信號(hào),從而實(shí)現(xiàn)耳語(yǔ)音向自然語(yǔ)音的實(shí)時(shí)轉(zhuǎn)換。2.根據(jù)權(quán)利要求1所述的漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換的方法,其特征在于在上述耳語(yǔ)音信號(hào)的特征分析及提取階段所采取的聲調(diào)與基頻估計(jì)方法包括以下步驟,步驟(l),分析激勵(lì)信息的聲調(diào)及性別特征;步驟(2),在判斷出說(shuō)話人聲調(diào)之后,采用用于擬合漢語(yǔ)四聲聲調(diào)曲線的多項(xiàng)式曲線混合^^莫型建立一個(gè)合適的聲調(diào)調(diào)型,所述多項(xiàng)式曲線混合模型表示為=_("11"6)4+0.01x(a12"612)2+613/2(0=_8X(fl2/+621)6+(fl^/1+622)2+623=3X(-10x(a31"/73|)6十("32"632)2)+Z733/4(/)=—5x(a41,+)4—0.5x+642)+643其中,t表示歸一化的時(shí)間,可通過(guò)對(duì)參數(shù)all、a12、a21、a22、a31、a32、a41、a42、bll、b12、b21、b22、b31、b32、b41、b42、b13、b23、b33、b43進(jìn)行適當(dāng)設(shè)定以選擇聲調(diào)曲線形狀,進(jìn)一步根據(jù)所知的基準(zhǔn)音高對(duì)該歸一化曲線進(jìn)行相應(yīng)的尺度放大和頻率提升以滿足不同性別說(shuō)話人和不同語(yǔ)氣語(yǔ)調(diào)情況下的聲調(diào)特點(diǎn),從而將激勵(lì)特征提取操作提取的激勵(lì)信息轉(zhuǎn)換產(chǎn)生聲調(diào)基頻信息。3.根據(jù)權(quán)利要求2所述的漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換的方法,其特征在于b13=0.5,b23=0.3,b33=0.2,b43=1.2aii=a12=l,bu二-O.a2i=a22=l,b21=-0.a31=a32=l,b31=-0.a4i=a42=l,b4i=-0.b12=-0.5,b22=-0.25,b32=-0.5,b42=0.5,4.根據(jù)權(quán)利要求3所述的漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換的方法,其特征在于上述聲調(diào)模型還需要通過(guò)插值的方式達(dá)成約定的幀數(shù)以滿足實(shí)際語(yǔ)音的時(shí)長(zhǎng)變化。5.根據(jù)權(quán)利要求l所述的漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換的方法,其特征在于在上述聲道特征分析和及提取過(guò)程中,采用非線性的反正切經(jīng)驗(yàn)映射修正法,使耳語(yǔ)音與正常音的線譜頻率參數(shù)相匹配。6.根據(jù)權(quán)利要求5所述的漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換的方法,其特征在于譜頻率參數(shù)與正常語(yǔ)音的線譜頻率參數(shù)之間的變化量進(jìn)行調(diào)整,在建立耳語(yǔ)音的線譜頻率參數(shù)與自然語(yǔ)音線譜頻率參數(shù)之間的映射關(guān)系之后,根據(jù)經(jīng)驗(yàn)修正產(chǎn)生一組新的線譜頻率參數(shù)。7.特征在于:法,其聲道模型的系統(tǒng)函數(shù)為//(2)=~~^,其中P為線性預(yù)測(cè)階數(shù),",,"卜P是P階LPC系數(shù);系統(tǒng)的線鐠頻率參數(shù)用《,表示為耳語(yǔ)音與正常音的線譜頻率參數(shù)的映射關(guān)系用如下反正切關(guān)系表示—=max(/')《=丄—w從而將線譜頻率參數(shù)調(diào)整為其中,參數(shù)2為非線性放大加權(quán)系數(shù),近似反映耳語(yǔ)音與自然語(yǔ)音的聲道特征變化率,用于確定系統(tǒng)的線譜頻率參數(shù)w,的非線性調(diào)整幅度,建議取值范圍由0,85至0.95,調(diào)整后的線譜頻率參數(shù)遵循由小到大的規(guī)則,并且0<0|<w2<...<<;r,以使系統(tǒng)穩(wěn)定。全文摘要本發(fā)明提供一種漢語(yǔ)耳語(yǔ)音向自然語(yǔ)音實(shí)時(shí)轉(zhuǎn)換方法,該轉(zhuǎn)換方法通過(guò)對(duì)激勵(lì)信息的特征分析和提取,對(duì)各聲調(diào)采用多項(xiàng)式曲線混合模型確定語(yǔ)音韻母段的聲調(diào)調(diào)型,進(jìn)一步產(chǎn)生基頻軌跡。根據(jù)耳語(yǔ)音與自然語(yǔ)音的線譜頻率之間的關(guān)系,采用經(jīng)驗(yàn)映射修正法將耳語(yǔ)音線譜頻率向自然語(yǔ)音線譜頻率轉(zhuǎn)換。在得到激勵(lì)和聲道參數(shù)的基礎(chǔ)上,采用修正的MELP模型重建自然語(yǔ)音,對(duì)重建語(yǔ)音的主客觀評(píng)價(jià)顯示,本發(fā)明所提供的方法可使重建語(yǔ)音得到較高的滿意度。文檔編號(hào)G10L15/28GK101441868SQ20081018148公開日2009年5月27日申請(qǐng)日期2008年11月11日優(yōu)先權(quán)日2008年11月11日發(fā)明者趙鶴鳴,陳雪勤申請(qǐng)人:蘇州大學(xué)