欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語(yǔ)音速率轉(zhuǎn)換的制作方法

文檔序號(hào):2823203閱讀:280來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):語(yǔ)音速率轉(zhuǎn)換的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種轉(zhuǎn)換語(yǔ)音信號(hào)的語(yǔ)音速率的方法,該語(yǔ)音信號(hào)的音調(diào)周期低于最大預(yù)期音調(diào)周期。該方法包括以下步驟將語(yǔ)音信號(hào)分為若干段;估計(jì)某段中語(yǔ)音信號(hào)的語(yǔ)音周期;復(fù)制該段中的部分語(yǔ)音信號(hào),所述部分的時(shí)長(zhǎng)等于所述估計(jì)音調(diào)周期;根據(jù)所述部分提供具有相同時(shí)長(zhǎng)的中間信號(hào);以及通過(guò)將所述中間信號(hào)音調(diào)同步地插入該段的語(yǔ)音信號(hào)中來(lái)對(duì)該段進(jìn)行擴(kuò)展。本發(fā)明還涉及該方法在移動(dòng)電話(huà)中的使用。此外,本發(fā)明還涉及適合轉(zhuǎn)換語(yǔ)音信號(hào)的語(yǔ)音速率的裝置。
在很多情況下都希望提高語(yǔ)音的可懂度。尤其是上了年紀(jì)的人們常常受到某種聽(tīng)力障礙的困擾,因而降低了他們對(duì)速度較快的語(yǔ)音的理解力。另外,有語(yǔ)言學(xué)習(xí)障礙的兒童也能夠從改善的可懂度中獲益。此外,當(dāng)移動(dòng)電話(huà)用于嘈雜環(huán)境時(shí),就很難完全聽(tīng)懂說(shuō)的內(nèi)容。不僅聽(tīng)力障礙的人會(huì)遇到這種情況,其它人也不例外。因此,愈來(lái)愈多地需要在移動(dòng)電話(huà)方面獲得提高的可懂度。
提高語(yǔ)音可懂度的一種方法是減緩語(yǔ)音的速度。該方法的主要目的是為聽(tīng)眾提供一些額外的時(shí)間來(lái)識(shí)別所說(shuō)的內(nèi)容。這可以通過(guò)使用時(shí)間標(biāo)度技術(shù)來(lái)實(shí)現(xiàn),也就是改變信號(hào)的時(shí)間演變。通過(guò)根據(jù)所選算法將額外的時(shí)間數(shù)據(jù)加入到信號(hào)中來(lái)調(diào)整語(yǔ)音速率。
存在幾種語(yǔ)音增強(qiáng)算法,它們都基于放慢輸入語(yǔ)音的技術(shù)。這些算法的基本思想是執(zhí)行一種語(yǔ)音擴(kuò)展,在提升可懂度的同時(shí)仍保持語(yǔ)音的自然屬性。因此,大部分?jǐn)U展算法均取決于語(yǔ)音的音調(diào)周期性。然而,這類(lèi)算法不適合在移動(dòng)電話(huà)中實(shí)現(xiàn)。
從Y.Nejime、T.Aritsuka、T.Imamura、T.Ifukube以及J.Matsushima的文章“用于聽(tīng)力障礙的便攜式數(shù)字語(yǔ)音速率轉(zhuǎn)換器”(IEEETransactions on Rehabilitatin Engineering,vol.4,no.2,pp.73-83,June1996)中可以了解到采用這樣一種算法的裝置。該裝置是一種手掌大小的便攜式裝置,它在不改變音調(diào)的情況下轉(zhuǎn)換語(yǔ)音。當(dāng)語(yǔ)音速度降低時(shí),在輸入和輸出語(yǔ)音之間產(chǎn)生延時(shí)。將語(yǔ)音信號(hào)記錄在固態(tài)存儲(chǔ)器中,同時(shí)放慢并生成前面記錄的信號(hào)。用戶(hù)通過(guò)按下裝置上的某個(gè)按鈕來(lái)激活該裝置。用戶(hù)按下按鈕放慢語(yǔ)音速度的時(shí)間越長(zhǎng),延遲也越長(zhǎng)。盡管可以通過(guò)去掉大于1秒的靜寂時(shí)間來(lái)減少延遲,但并不足以消除延遲。用戶(hù)可以通過(guò)釋放該按鈕來(lái)返回到非延遲狀態(tài)。
存儲(chǔ)器中的語(yǔ)音數(shù)據(jù)被分為若干幀。時(shí)間標(biāo)度過(guò)程逐幀擴(kuò)展語(yǔ)音數(shù)據(jù)的時(shí)間標(biāo)度。通過(guò)插入從三個(gè)連續(xù)音調(diào)周期的信號(hào)中創(chuàng)建的合成音調(diào)模式獲得時(shí)間擴(kuò)展。使用合成模式以避免擴(kuò)展信號(hào)的混響。由于所用時(shí)間標(biāo)度過(guò)程需要四音調(diào)長(zhǎng)度的數(shù)據(jù)元素,因此各幀的長(zhǎng)度為48ms,對(duì)應(yīng)于本文中設(shè)置為12ms的假設(shè)最大音程的四倍。提及的其它文件假定16ms甚至接近20ms的最大音調(diào)周期,這將需要更長(zhǎng)的幀長(zhǎng)度,進(jìn)而各幀所處理的數(shù)據(jù)量更大。
要處理的這種數(shù)據(jù)量尤其影響了上述算法在移動(dòng)電話(huà)中的使用,因?yàn)橐苿?dòng)電話(huà)中計(jì)算資源相當(dāng)有限。這種算法的另一缺陷在于用戶(hù)按住裝置的按鈕時(shí)會(huì)積累延時(shí)。移動(dòng)電話(huà)的使用幾乎都是兩個(gè)人之間的雙向通信,因此希望盡可能使擴(kuò)展語(yǔ)音接近實(shí)時(shí)狀態(tài)。
本發(fā)明的一個(gè)目的是提供一種上述類(lèi)型的方法,其中,一幀所必須處理的數(shù)據(jù)量大大減少,使這種方法能夠在例如移動(dòng)電話(huà)的有限計(jì)算資源中得以實(shí)現(xiàn)。
根據(jù)本發(fā)明,通過(guò)采用比所述最大預(yù)期音調(diào)周期要長(zhǎng)但比最大預(yù)期音調(diào)周期的兩倍要短的段長(zhǎng)度來(lái)實(shí)現(xiàn)這個(gè)目的。
測(cè)試證明,與短音調(diào)周期相比,具有相對(duì)長(zhǎng)的音調(diào)周期的語(yǔ)音信號(hào)出現(xiàn)混響的危險(xiǎn)性較小,因?yàn)樗鼈儗?shí)際上的改變較慢。因此,這些信號(hào)不需要合成音調(diào)模式,并且足夠有一個(gè)幀或段長(zhǎng)度正好允許處理一個(gè)全音調(diào)長(zhǎng)度的模式。因此,段長(zhǎng)度可以減少為僅略長(zhǎng)于最大預(yù)期音調(diào)周期的一個(gè)值,也就是說(shuō),處于最大預(yù)期音調(diào)周期和最大預(yù)期音調(diào)周期的兩倍之間。顯然,較短的段或幀長(zhǎng)減少了每幀要處理的數(shù)據(jù)量,并且由于至少可以避免對(duì)具有長(zhǎng)音調(diào)周期的語(yǔ)音信號(hào)進(jìn)行的合成信號(hào)計(jì)算,所以它還會(huì)進(jìn)一步減少。對(duì)于具有較短音調(diào)周期的語(yǔ)音信號(hào),仍然可以從例如兩個(gè)連續(xù)音調(diào)周期中形成合成音調(diào)模式。
在一個(gè)有利實(shí)施例中,該方法還包括以下步驟如果段的實(shí)際估計(jì)音調(diào)周期大于段長(zhǎng)度的一半,則通過(guò)將復(fù)制部分直接用作中間信號(hào)來(lái)提供中間信號(hào)。這避免了額外計(jì)算合成信號(hào)。
如果段的實(shí)際估計(jì)音調(diào)周期小于該段長(zhǎng)度的一半,該方法則還可包括以下步驟復(fù)制兩個(gè)連續(xù)部分,其中每個(gè)部分的時(shí)長(zhǎng)等于估計(jì)音調(diào)周期;以及提供兩個(gè)連續(xù)部分的平均作為中間信號(hào)。通過(guò)這種方法,可以最大程度地減少具有較短音調(diào)周期的語(yǔ)音的混響,這種較短音調(diào)周期的語(yǔ)音實(shí)際上具有更高的混響危險(xiǎn)性。
如果某段語(yǔ)音信息的內(nèi)容低于預(yù)設(shè)閾值,則該方法還包括將該語(yǔ)音信號(hào)段分類(lèi)為靜寂段;如果某段和若干緊挨在前面的段已被分類(lèi)為靜寂段,則該方法還包括縮短該段,以補(bǔ)償前面數(shù)段的擴(kuò)展,有可能將輸入信號(hào)和所述(擴(kuò)展)輸出信號(hào)之間的延遲保持在極低水平,從而提供基本實(shí)時(shí)的語(yǔ)音對(duì)話(huà)。這就使該算法更適合用于希望將擴(kuò)展語(yǔ)音盡量保持接近實(shí)時(shí)狀態(tài)的移動(dòng)電話(huà)中。
當(dāng)采用20ms的段長(zhǎng)度時(shí),實(shí)現(xiàn)了特別適用于移動(dòng)電話(huà)的有利實(shí)施例,因?yàn)樵S多移動(dòng)電話(huà)中現(xiàn)有語(yǔ)音信號(hào)處理也使用這種段長(zhǎng)度,從而通過(guò)使用與語(yǔ)音擴(kuò)展算法相同的段,可以節(jié)省大量計(jì)算資源。
當(dāng)通過(guò)將中間信號(hào)音調(diào)多次同步插入某段語(yǔ)音信號(hào)來(lái)擴(kuò)展該段時(shí),可以獲得更高的擴(kuò)展率,而不會(huì)大量增加計(jì)算資源的使用。
如果在復(fù)制所述部分和插入所述中間信號(hào)時(shí)采用重疊窗口,則可以得到更好結(jié)果,而不會(huì)在插入中引進(jìn)尖峰信號(hào)或類(lèi)似的不連續(xù)性。
該方法的典型使用是在便攜式通信裝置中,在一個(gè)有利實(shí)施例中,該方法用于移動(dòng)電話(huà)。
如上所述,本發(fā)明還涉及一種裝置,這種裝置適于轉(zhuǎn)換語(yǔ)音信號(hào)的語(yǔ)音速率,該語(yǔ)音信號(hào)的音調(diào)周期小于最大預(yù)期音調(diào)周期。該裝置包括用于將語(yǔ)音信號(hào)分為若干段的裝置;用于估計(jì)某段中語(yǔ)音信號(hào)的語(yǔ)音周期的裝置;用于復(fù)制該段中部分語(yǔ)音的裝置,所述部分的時(shí)長(zhǎng)等于所述估計(jì)音調(diào)周期;用于根據(jù)所述部分提供具有相同時(shí)長(zhǎng)的中間信號(hào)的裝置;以及通過(guò)將所述中間信號(hào)音調(diào)同步地插入到該段的語(yǔ)音信號(hào)中來(lái)對(duì)該段進(jìn)行擴(kuò)展的裝置。當(dāng)該裝置適于采用比所述最大預(yù)期音調(diào)周期更長(zhǎng)但比最大預(yù)期音調(diào)周期的兩倍要短的段長(zhǎng)度時(shí),則一幀所必須處理的數(shù)據(jù)量較少,使這種方法能夠在例如移動(dòng)電話(huà)的有限計(jì)算資源中得以實(shí)現(xiàn)。
在一個(gè)有利實(shí)施例中,如果段的實(shí)際估計(jì)音調(diào)周期大于該段長(zhǎng)度的一半,則該裝置還適合于通過(guò)將復(fù)制部分直接用作中間信號(hào)來(lái)提供中間信號(hào)。這避免了額外計(jì)算合成信號(hào)。
如果某段的實(shí)際估計(jì)音調(diào)周期小于該段長(zhǎng)度的一半,則該裝置還適合于復(fù)制兩個(gè)連續(xù)部分,其中每個(gè)部分的時(shí)長(zhǎng)等于估計(jì)音調(diào)周期;以及提供兩個(gè)連續(xù)部分的平均作為中間信號(hào)。通過(guò)這種方法,可以最大程度地減少具有較短音調(diào)周期的語(yǔ)音的混響,這種較短音調(diào)周期的語(yǔ)音實(shí)際上具有更高的混響危險(xiǎn)性。
如果某段語(yǔ)音信息的內(nèi)容低于預(yù)設(shè)閾值,則該裝置還適合于將該語(yǔ)音信號(hào)段分類(lèi)為靜寂段;如果某個(gè)段和若干緊挨在前面的段已被分類(lèi)為靜寂段,則該方法還包括縮短該段,以補(bǔ)償前面數(shù)段的擴(kuò)展,有可能將輸入信號(hào)和所述(擴(kuò)展)輸出信號(hào)之間的延遲保持在極低水平,從而提供基本實(shí)時(shí)的語(yǔ)音對(duì)話(huà)。這就使該算法更適合用于希望將擴(kuò)展語(yǔ)音盡量保持接近實(shí)時(shí)狀態(tài)的移動(dòng)電話(huà)中。
當(dāng)裝置適合采用20ms的段長(zhǎng)度時(shí),實(shí)現(xiàn)了特別適合于移動(dòng)電話(huà)的有利實(shí)施例,因?yàn)樵S多移動(dòng)電話(huà)中現(xiàn)有語(yǔ)音信號(hào)處理也使用這種段長(zhǎng)度,從而通過(guò)使用與語(yǔ)音擴(kuò)展算法相同的段,可節(jié)省大量計(jì)算資源。
當(dāng)裝置適合于通過(guò)將中間信號(hào)音調(diào)多次同步地插入到某段語(yǔ)音信號(hào)中來(lái)擴(kuò)展該段時(shí),可以獲得更高的擴(kuò)展率,而不會(huì)大量增加計(jì)算資源的使用。
如果裝置適合于在復(fù)制所述部分以及插入所述中間信號(hào)時(shí)采用重疊窗口,則可以得到更好的結(jié)果,而不會(huì)在插入中引進(jìn)尖峰信號(hào)或類(lèi)似的不連續(xù)性。
在本發(fā)明的一個(gè)有利實(shí)施例中,該裝置是移動(dòng)電話(huà),不過(guò),它也可以是其它類(lèi)型的便攜式通信裝置。
在另一實(shí)施例中,該裝置是可以用于各種設(shè)備的集成電路。
下面將參照附圖更全面地描述本發(fā)明,其中

圖1給出了根據(jù)本發(fā)明的語(yǔ)音速率轉(zhuǎn)換系統(tǒng)的方框圖,圖2說(shuō)明了一種模型,用于有聲語(yǔ)音生成以及從有聲語(yǔ)音提取激勵(lì)傳號(hào),圖3說(shuō)明有聲語(yǔ)音信號(hào)以及相應(yīng)的殘留信號(hào)的自相關(guān)的實(shí)例,圖4給出了用于具有較短音調(diào)周期的語(yǔ)音信號(hào)的第一擴(kuò)展算法的簡(jiǎn)圖,圖5說(shuō)明了圖4所示算法的另一實(shí)施例,圖6給出了用于具有較長(zhǎng)音調(diào)周期的語(yǔ)音信號(hào)的第二擴(kuò)展算法的簡(jiǎn)圖,以及圖7說(shuō)明了圖6所示算法的另一實(shí)施例。
圖1給出了語(yǔ)音速率轉(zhuǎn)換系統(tǒng)1的實(shí)例的方框圖,其中可以實(shí)現(xiàn)本發(fā)明的方法及裝置。所示語(yǔ)音速率轉(zhuǎn)換系統(tǒng)可被用于移動(dòng)電話(huà)或類(lèi)似通信裝置中。
在采樣電路3中以8kHz的采樣速率對(duì)語(yǔ)音信號(hào)2進(jìn)行采樣,并將這些采樣分為160個(gè)連續(xù)采樣的段或幀。這樣,各段對(duì)應(yīng)于20ms的語(yǔ)音信號(hào)。這是通常用于標(biāo)準(zhǔn)移動(dòng)電話(huà)的語(yǔ)音處理中的采樣和分段,因此,采樣電路3是這種電話(huà)的正常組成部分。
然后,將160個(gè)采樣的各段或幀發(fā)送給噪聲閾單元4,在該單元中執(zhí)行將靜寂與語(yǔ)音分離的分類(lèi)步驟。將對(duì)分類(lèi)為語(yǔ)音的幀作進(jìn)一步處理,而將其余的幀發(fā)送給靜寂縮短單元5,稍后將會(huì)對(duì)此進(jìn)行說(shuō)明。在要實(shí)時(shí)進(jìn)行語(yǔ)音擴(kuò)展時(shí),語(yǔ)音與靜寂的分離是必需操作,因?yàn)閿U(kuò)展語(yǔ)音所引起的額外時(shí)間是通過(guò)減少信號(hào)的靜寂或噪聲部分的時(shí)間進(jìn)行補(bǔ)償?shù)摹?br> 分類(lèi)基于能量測(cè)量與前面各幀能量歷史記錄形式的存儲(chǔ)的配合。假定背景噪聲變化較慢,而語(yǔ)音包絡(luò)變化更快。首先計(jì)算閾值。計(jì)算各幀的短時(shí)能量,并且連續(xù)保存最后150幀的短時(shí)能量值。選取分類(lèi)為靜寂的那些幀的能量值,并計(jì)算這些所選能量值的平均能量。還儲(chǔ)存所選能量值的最小能量值。通過(guò)將平均值和最小值之差與預(yù)選因數(shù)的乘積加入平均能量計(jì)算閾值。要確定給定幀是語(yǔ)音還是靜寂,只要簡(jiǎn)單地將當(dāng)前幀的能量與閾值進(jìn)行比較。如果幀的能量超過(guò)該值,則該幀被分類(lèi)為語(yǔ)音,否則將該幀分類(lèi)為靜寂。
然后,將分類(lèi)為語(yǔ)音的幀發(fā)送到有聲/無(wú)聲分類(lèi)單元6,因?yàn)樵谶M(jìn)行擴(kuò)展之前需要將語(yǔ)音分離為有聲和無(wú)聲部分。這種分離可以通過(guò)若干方法進(jìn)行,下面將詳細(xì)說(shuō)明其中一個(gè)方法。
但是,先簡(jiǎn)單地說(shuō)明語(yǔ)音信號(hào)的特性。在傳統(tǒng)方法中,將語(yǔ)音信號(hào)模型化為慢速時(shí)變線性濾波器的輸出。用準(zhǔn)周期序列脈沖或者隨機(jī)噪聲激勵(lì)濾波器,具體取決于要?jiǎng)?chuàng)建的是濁音還是清音??繉⒖諝鈮撼龇尾客ㄟ^(guò)振動(dòng)聲帶產(chǎn)生形成濁音的脈沖串。脈沖之間的時(shí)段稱(chēng)作音調(diào)周期,該時(shí)段對(duì)語(yǔ)音的特異性極為重要。另一方面,通過(guò)在聲道中形成收縮并通過(guò)迫使空氣高速通過(guò)該壓縮產(chǎn)生紊流來(lái)生成清音。
由于語(yǔ)音是一種變化信號(hào),所以濾波器也必需是時(shí)變的。然而,語(yǔ)音信號(hào)的屬性隨時(shí)間的變化相對(duì)較慢。有理由相信,語(yǔ)音的一般屬性在10-20ms的周期內(nèi)保持不變。這樣就得出一個(gè)基本原則如果考慮語(yǔ)音信號(hào)若干短的段,則各段可以有效地被模型化為已通過(guò)在該時(shí)段期間激勵(lì)線性非時(shí)變系統(tǒng)所產(chǎn)生的那樣。濾波器的作用可以被看作是由聲道、舌、嘴以及唇所產(chǎn)生的。
如上所述,有聲語(yǔ)音可以解釋為來(lái)自激勵(lì)信號(hào)所驅(qū)動(dòng)的線性濾波器的輸出信號(hào)。圖2的上半部分說(shuō)明了這一點(diǎn),其中,濾波器22對(duì)脈沖串21進(jìn)行處理以便產(chǎn)生有聲語(yǔ)音信號(hào)23。如果可以從語(yǔ)音中提取激勵(lì)信號(hào),則獲得有聲/無(wú)聲分類(lèi)的好信號(hào)。通過(guò)在框24中估計(jì)濾波器參數(shù)A,然后根據(jù)估計(jì)的濾波器參數(shù)通過(guò)反向?yàn)V波器25對(duì)語(yǔ)音進(jìn)行濾波,就可以獲得類(lèi)似于激勵(lì)信號(hào)的信號(hào)26。這個(gè)信號(hào)被稱(chēng)作殘留信號(hào)。在圖2的下半部分說(shuō)明了這個(gè)過(guò)程???4和25包含在圖1的有聲/無(wú)聲分類(lèi)單元6中。
濾波器參數(shù)估計(jì)基于通過(guò)稱(chēng)作線性預(yù)測(cè)分析(LPA)的方法所執(zhí)行的全極點(diǎn)模型。這個(gè)名稱(chēng)源于以下事實(shí)該方法等同于線性預(yù)測(cè)。這種方法在本領(lǐng)域是眾所周知的,所以這里不再進(jìn)行更詳細(xì)地說(shuō)明。
然后,通過(guò)計(jì)算殘留信號(hào)的自相關(guān)函數(shù)并將該結(jié)果縮放到±1之間來(lái)產(chǎn)生分類(lèi)信號(hào)。由于反向?yàn)V波已消除了濾波器引進(jìn)的許多拖尾效應(yīng),所以更清晰波峰的概率高于直接計(jì)算語(yǔ)音幀的自相關(guān)的概率。然后,通過(guò)將分類(lèi)信號(hào)中最高峰值與閾值進(jìn)行比較來(lái)作出有聲/無(wú)聲決定,因?yàn)榉诸?lèi)信號(hào)中的足夠高的波峰表示脈沖串實(shí)際出現(xiàn)在殘留信號(hào)中,從而也出現(xiàn)在幀的原始語(yǔ)音信號(hào)中。
或者,可以簡(jiǎn)單地通過(guò)將幀的功率電平或能級(jí)與類(lèi)似用于噪聲閾單元4中的閾值進(jìn)行比較來(lái)確定有聲/無(wú)聲,僅與較高閾值比較,因?yàn)榈陀谔囟üβ孰娖降男盘?hào)主要包括輔音或半元音,它們通常是無(wú)聲的。不過(guò),這種方法的結(jié)果沒(méi)有通過(guò)上述分類(lèi)所獲得的結(jié)果準(zhǔn)確。
如果確定幀是無(wú)聲的,則直接將該幀發(fā)送給組合或連接單元7。否則,即如果確定該幀為有聲的,則將該幀轉(zhuǎn)發(fā)給音調(diào)估計(jì)單元8,下面將進(jìn)行說(shuō)明。
估計(jì)音調(diào),作為擴(kuò)展過(guò)程的準(zhǔn)備,必需是音調(diào)同步的。估計(jì)的一般思想源于上述語(yǔ)音模型,其中,音調(diào)表示聲門(mén)激勵(lì)周期。由于音調(diào)表示語(yǔ)音的自然屬性和特異性,所以對(duì)音調(diào)進(jìn)行良好估計(jì)是重要的。
音調(diào)的估計(jì)基于殘留信號(hào)的自相關(guān),所述殘留信號(hào)通過(guò)前面在有聲/無(wú)聲分類(lèi)中所述的LPA獲得??梢赃@樣做是因?yàn)闅埩粜盘?hào)的自相關(guān)中的最高峰表示音調(diào)周期,并且因此可用作音調(diào)估計(jì)。通過(guò)重復(fù)利用數(shù)據(jù),降低了該方法的復(fù)雜度。圖3a說(shuō)明有聲語(yǔ)音信號(hào)的某個(gè)20ms段的實(shí)例,而圖3b說(shuō)明相應(yīng)的殘留信號(hào)的自相關(guān)函數(shù)的實(shí)例。從圖3a可以看到,實(shí)際的音調(diào)周期約為5.25ms,對(duì)應(yīng)于42個(gè)采樣,因此音調(diào)估計(jì)必需以該值結(jié)束。
音調(diào)估計(jì)中的第一步是將波峰選擇算法應(yīng)用于單元6提供的自相關(guān)函數(shù)。這時(shí)通過(guò)識(shí)別自相關(guān)函數(shù)中的最高波峰(即最大值)的峰值檢測(cè)器進(jìn)行的。最大峰值的指標(biāo)值,即最大峰值的采樣數(shù)量或滯后,則用作音調(diào)周期的估計(jì)。在圖3b所示的情況中,可以看到,最大峰值實(shí)際上出現(xiàn)在42個(gè)采樣之后。最大峰值的搜索僅在音調(diào)周期可能出現(xiàn)的范圍內(nèi)進(jìn)行。在這種情況下,該范圍被設(shè)置為60-333Hz。
估計(jì)結(jié)果與語(yǔ)音幀一起發(fā)送給擴(kuò)展單元9。擴(kuò)展算法是基于時(shí)域的方法,它在整個(gè)音調(diào)周期塊上進(jìn)行。這種技術(shù)的使用意味著可以避免不必要的音調(diào)變化,從而可以保持語(yǔ)音的特異性。
下面將說(shuō)明的擴(kuò)展算法是音調(diào)同步重疊相加(PSOLA)方法的變型。簡(jiǎn)單地說(shuō),該算法復(fù)制一個(gè)或兩個(gè)音調(diào)周期,并將其加入原始語(yǔ)音數(shù)據(jù),其中可能用相同的重疊。變型是由于以下事實(shí)使用了20ms的較短幀或段長(zhǎng)度。
根據(jù)估計(jì)的音調(diào)周期,在語(yǔ)音擴(kuò)展中采用兩種不同方法。第一種方法用于較短的音調(diào)周期。它可以是低于8.75ms的音調(diào)周期,對(duì)應(yīng)于采用8kHz采樣速率的70個(gè)采樣。它還對(duì)應(yīng)于高于114Hz的音調(diào)頻率。第二種方法則用于高于8.75ms的音調(diào)周期,即較長(zhǎng)的音調(diào)周期。采用兩種不同方法的原因在于由于20ms的短幀或段長(zhǎng)度,對(duì)于具有長(zhǎng)音調(diào)周期的信號(hào)的擴(kuò)展目的,僅可以提取信號(hào)的一個(gè)全音調(diào)長(zhǎng)度,包括特定重疊,而對(duì)于具有較短音調(diào)周期的信號(hào),則可以提取兩個(gè)連續(xù)的音調(diào)周期(以及重疊)。
第一種方法利用音調(diào)周期較短的情況。圖4說(shuō)明了這種方法中執(zhí)行的不同步驟。從輸入幀中復(fù)制兩個(gè)連續(xù)音調(diào)周期TP以及對(duì)應(yīng)于重疊部分的附加段L。重疊部分可以設(shè)置為T(mén)P的10%。將某窗口應(yīng)用于兩個(gè)段I和II,從而形成將稱(chēng)作段IWin和段II Win的段。所用窗口可以是升余弦窗或梯形窗。計(jì)算窗口內(nèi)段的平均值,表示為MWin。通過(guò)形成平均段,可以避免現(xiàn)有段不必要的重復(fù)。從而可以減少例如混響等不希望的假信號(hào)的風(fēng)險(xiǎn)。
現(xiàn)在,將L個(gè)采樣與原始幀的重疊插入段Mwin以執(zhí)行語(yǔ)音擴(kuò)展。從表示輸出數(shù)據(jù)的圖4的下半部分可以看到,擴(kuò)展幀具有160+TP個(gè)采樣的長(zhǎng)度,而不是原始的160個(gè)采樣。必要時(shí),還可以通過(guò)將同樣包含重疊的Mwin相加所需次數(shù),將幀擴(kuò)展所選數(shù)量的段。圖5類(lèi)似于圖4,只不過(guò)加了兩次MWin,使擴(kuò)展幀的長(zhǎng)度為160+2TP個(gè)采樣。
在第二種方法中,音調(diào)周期更長(zhǎng)。不能使用第一種方法,因?yàn)閹L(zhǎng)度不夠長(zhǎng),無(wú)法包括兩個(gè)音調(diào)周期。從圖6中可以看到第二種方法中各級(jí)的示范。只從輸入幀中復(fù)制長(zhǎng)度為T(mén)P+L的一個(gè)段I,并采用所選窗口開(kāi)窗。同樣在這種情況下,長(zhǎng)度L對(duì)應(yīng)于TP的10%。然后,再將L個(gè)采樣與原始采樣的重疊插入窗口段IWin。在顯示輸出數(shù)據(jù)的圖6的下半部分可以看到IWin的插入,其中可以看到,由于在插入IWin之前以及之后使用了原始音調(diào)長(zhǎng)度段,因而擴(kuò)展幀現(xiàn)在具有160+2TP個(gè)采樣長(zhǎng)度,而不是原始的160個(gè)采樣。
同樣在這種方法中,通過(guò)再次加上包括重疊的IWin,可以進(jìn)一步對(duì)幀進(jìn)行擴(kuò)展。然而,如圖7所示,原始音調(diào)長(zhǎng)度段還可以使用僅兩次,從而使擴(kuò)展幀長(zhǎng)度為160+TP個(gè)采樣。
應(yīng)當(dāng)注意,可以使用不同的重疊百分比。較短的重疊長(zhǎng)度表示可以用第一種方法對(duì)較長(zhǎng)音調(diào)周期進(jìn)行擴(kuò)展。不過(guò),如果重疊變得太小,重疊過(guò)程則會(huì)失去作用。以上所采用的10%的重疊看來(lái)是較佳的折衷方案。
現(xiàn)在,將擴(kuò)展幀發(fā)送給連接單元7,在這里,它將與其它幀混合。
從上面可以看到,語(yǔ)音擴(kuò)展在語(yǔ)音中產(chǎn)生了不希望的延遲,尤其是在移動(dòng)電話(huà)環(huán)境下。要避免這種延遲,必需去掉輸入信號(hào)的某些部分。一種自然選擇是采用僅包含靜寂的語(yǔ)音間歇。在縮短單元5中執(zhí)行實(shí)現(xiàn)實(shí)時(shí)需求的縮短算法,在下面進(jìn)行說(shuō)明。
在可以開(kāi)始縮短靜寂部分之前,必須滿(mǎn)足一個(gè)條件。當(dāng)前幀和之前三幀必須是靜寂幀。如果滿(mǎn)足了這個(gè)條件,則去掉對(duì)應(yīng)于擴(kuò)展部分的采樣數(shù)量。還可以去掉幀的若干部分,以便保持實(shí)時(shí)狀態(tài)。
上述條件的原因有兩個(gè)。
第一個(gè)原因是,如果環(huán)境相當(dāng)嘈雜,無(wú)聲聲音可以被錯(cuò)誤分類(lèi)為靜寂,不能去掉這些錯(cuò)誤分類(lèi)的幀。已使用的假設(shè)是無(wú)聲語(yǔ)音常常跟在有聲語(yǔ)音后面。如果某個(gè)無(wú)聲語(yǔ)音幀被錯(cuò)誤分類(lèi)為靜寂,就有理由相信,不久將會(huì)出現(xiàn)濁音或者該語(yǔ)音部分已結(jié)束。無(wú)論在哪種情況下,上述條件的使用防止了無(wú)聲幀被去掉。
該條件的第二個(gè)原因是,語(yǔ)音中存在間歇,這是語(yǔ)音的自然流動(dòng)所必需的。如果去掉這些間歇,語(yǔ)音則更難以理解,這是和所需結(jié)果相背的。
當(dāng)分類(lèi)為靜寂的幀被縮短以補(bǔ)償有聲幀的擴(kuò)展時(shí),它們被發(fā)送給組合單元7。
從上面可以看到,輸入幀能夠在系統(tǒng)中以三種途經(jīng)發(fā)送給連接或組合單元7,取決于該幀是分類(lèi)為靜寂、無(wú)聲語(yǔ)音還是有聲語(yǔ)音。與這些幀采用的途經(jīng)無(wú)關(guān),輸入幀必須以其到達(dá)時(shí)的相同順序發(fā)出,而不管它們是否已經(jīng)改變。因此,組合單元7可以看作是先進(jìn)先出(FIFO)緩沖器。
雖然已經(jīng)給出并說(shuō)明了本發(fā)明的最佳實(shí)施例,然而,本發(fā)明并不限于此,而是還可以按照以下權(quán)利要求書(shū)所定義的主題范圍之內(nèi)的其它方式來(lái)實(shí)現(xiàn)。
因此,可以直接從語(yǔ)音信號(hào)而不是殘留信號(hào)計(jì)算自相關(guān)函數(shù),或者其它相似函數(shù)可以用來(lái)代替自相關(guān)函數(shù)。例如,可以計(jì)算語(yǔ)音信號(hào)和殘留信號(hào)之間的互相關(guān)。此外,可以采用不同的采樣速率。
權(quán)利要求
1.一種轉(zhuǎn)換語(yǔ)音信號(hào)(2)的語(yǔ)音速率的方法,所述語(yǔ)音信號(hào)(2)的音調(diào)周期低于最大預(yù)期音調(diào)周期,所述方法包括以下步驟·將所述語(yǔ)音信號(hào)分為若干段,·估計(jì)某段中所述語(yǔ)音信號(hào)的所述音調(diào)周期,·復(fù)制所述段中的部分所述語(yǔ)音信號(hào),其中所述部分的時(shí)長(zhǎng)等于所述估計(jì)音調(diào)周期,·根據(jù)所述部分提供相同時(shí)長(zhǎng)的中間信號(hào),以及·通過(guò)將所述中間信號(hào)音調(diào)同步地插入到所述段的所述語(yǔ)音信號(hào)中來(lái)擴(kuò)展所述段,其特征在于使用比所述最大預(yù)期音調(diào)周期要長(zhǎng)但比所述最大預(yù)期音調(diào)周期的兩倍要短的段長(zhǎng)度。
2.如權(quán)利要求1所述的方法,其特征在于所述方法還包括以下步驟·如果所述段的所述實(shí)際估計(jì)音調(diào)周期大于所述段長(zhǎng)度的一半,則通過(guò)將所述復(fù)制部分直接用作所述中間信號(hào)來(lái)提供所述中間信號(hào)。
3.如權(quán)利要求1或2所述的方法,其特征在于所述方法還包括以下步驟·如果所述段的所述實(shí)際估計(jì)音調(diào)周期小于所述段長(zhǎng)度的一半,則復(fù)制兩個(gè)連續(xù)部分,其中所述各個(gè)部分的時(shí)長(zhǎng)等于所述估計(jì)音調(diào)周期的時(shí)長(zhǎng),以及·提供所述兩個(gè)連續(xù)部分的平均作為所述中間信號(hào)。
4.如權(quán)利要求1至3中任何一項(xiàng)所述的方法,其特征在于所述方法還包括以下步驟·如果某段語(yǔ)音信息的內(nèi)容低于預(yù)設(shè)閾值,則將所述語(yǔ)音信號(hào)的所述段分類(lèi)為靜寂段,·如果已經(jīng)將某段以及緊挨在前面的若干段分類(lèi)為靜寂段,則縮短所述段以補(bǔ)償前面若干段的擴(kuò)展。
5.如權(quán)利要求1至4中任何一項(xiàng)所述的方法,其特征在于采用20ms的段長(zhǎng)度。
6.如權(quán)利要求1至5中任何一項(xiàng)所述的方法,其特征在于通過(guò)將所述中間信號(hào)音調(diào)多次同步地插入到所述段的所述語(yǔ)音信號(hào)中來(lái)擴(kuò)展所述段。
7.如權(quán)利要求1至6中任何一項(xiàng)所述的方法,其特征在于在復(fù)制所述部分以及插入所述中間信號(hào)時(shí)采用了重疊窗口。
8.在移動(dòng)電話(huà)中應(yīng)用權(quán)利要求1至7中任何一項(xiàng)所述的方法。
9.一種適合轉(zhuǎn)換語(yǔ)音信號(hào)(2)的語(yǔ)音速率的裝置,所述語(yǔ)音信號(hào)(2)的音調(diào)周期低于最大預(yù)期音調(diào)周期,所述裝置包括·用于將所述語(yǔ)音信號(hào)分為若干段的單元(3),·用于估計(jì)某段中所述語(yǔ)音信號(hào)的所述音調(diào)周期的單元(8),·用于復(fù)制所述段中的部分所述語(yǔ)音信號(hào)的單元,其中所述部分的時(shí)長(zhǎng)等于所述估計(jì)音調(diào)周期,·用于根據(jù)所述部分提供相同時(shí)長(zhǎng)的中間信號(hào)的單元,以及·通過(guò)將所述中間信號(hào)音調(diào)同步地插入到所述段的所述語(yǔ)音信號(hào)中來(lái)擴(kuò)展所述段的單元(9),其特征在于所述裝置適合于使用比所述最大預(yù)期音調(diào)周期要長(zhǎng)但比所述最大預(yù)期音調(diào)周期的兩倍要短的段長(zhǎng)度。
10.如權(quán)利要求9所述的裝置,其特征在于所述裝置還適合于在所述段的所述實(shí)際估計(jì)音調(diào)周期大于所述段長(zhǎng)度的一半時(shí),通過(guò)將所述復(fù)制部分直接用作所述中間信號(hào)來(lái)提供所述中間信號(hào)。
11.如權(quán)利要求9或10所述的裝置,其特征在于所述裝置還適合于在所述段的所述實(shí)際估計(jì)音調(diào)周期小于所述段長(zhǎng)度的一半時(shí),復(fù)制兩個(gè)連續(xù)部分,其中,所述各個(gè)部分的時(shí)長(zhǎng)等于所述估計(jì)音調(diào)周期,以及適合于提供所述兩個(gè)連續(xù)部分的平均作為所述中間信號(hào)。
12.如權(quán)利要求9至11中任何一項(xiàng)所述的裝置,其特征在于所述裝置還適合于·如果某個(gè)段語(yǔ)音信息的內(nèi)容低于預(yù)設(shè)閾值,則將所述語(yǔ)音信號(hào)的所述段分類(lèi)為靜寂段,·如果已將某個(gè)段以及緊挨在前面的若干段分類(lèi)為靜寂段,則縮短所述段以補(bǔ)償前面若干段的擴(kuò)展。
13.如權(quán)利要求9至12中任何一項(xiàng)所述的裝置,其特征在于所述裝置適合采用20ms的段長(zhǎng)度。
14.如權(quán)利要求9至13中任何一項(xiàng)所述的裝置,其特征在于所述裝置適合于通過(guò)將所述中間信號(hào)音調(diào)多次同步地插入到所述段的所述語(yǔ)音信號(hào)中來(lái)擴(kuò)展所述段。
15.如權(quán)利要求9至14中任何一項(xiàng)所述的裝置,其特征在于所述裝置適合于在復(fù)制所述部分以及插入所述中間信號(hào)時(shí)采用重疊窗口。
16.如權(quán)利要求9至15中任何一項(xiàng)所述的裝置,其特征在于所述裝置是移動(dòng)電話(huà)。
17.如權(quán)利要求9至15中任何一項(xiàng)所述的裝置,其特征在于所述裝置是集成電路。
全文摘要
一種轉(zhuǎn)換語(yǔ)音信號(hào)(2)的語(yǔ)音速率的方法,其中語(yǔ)音信號(hào)(2)的音調(diào)周期低于最大預(yù)期音調(diào)周期,所述方法包括以下步驟將語(yǔ)音信號(hào)分為若干段;估計(jì)某段中的語(yǔ)音周期;復(fù)制該段中的部分語(yǔ)音信號(hào),所述部分的時(shí)長(zhǎng)等于估計(jì)音調(diào)周期;根據(jù)所述部分提供具有相同時(shí)長(zhǎng)的中間信號(hào);以及通過(guò)將所述中間信號(hào)音調(diào)同步地插入到該段的語(yǔ)音信號(hào)中來(lái)對(duì)該段進(jìn)行擴(kuò)展。使用了比最大預(yù)期音調(diào)周期要長(zhǎng)但比最大預(yù)期音調(diào)周期的兩倍要短的段長(zhǎng)度。各段要處理的數(shù)據(jù)量小得多,使該方法能夠在例如移動(dòng)電話(huà)的有限計(jì)算資源中得以實(shí)現(xiàn)。還提供了一種類(lèi)似的裝置。
文檔編號(hào)G10L21/04GK1432177SQ01810565
公開(kāi)日2003年7月23日 申請(qǐng)日期2001年3月27日 優(yōu)先權(quán)日2000年4月6日
發(fā)明者C·安德倫, H·約翰尼松 申請(qǐng)人:艾利森電話(huà)股份有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
江达县| 阿拉善左旗| 博湖县| 竹溪县| 曲沃县| 丹巴县| 新沂市| 南昌县| 治县。| 奉新县| 华蓥市| 邵武市| 调兵山市| 青阳县| 余江县| 阳新县| 达拉特旗| 桐柏县| 白朗县| 太原市| 南京市| 晋江市| 甘谷县| 麻阳| 正镶白旗| 沂南县| 湖北省| 灵石县| 屏东市| 达孜县| 望江县| 宜阳县| 田东县| 南阳市| 临夏县| 赤水市| 澎湖县| 永仁县| 余干县| 济阳县| 洱源县|