專利名稱:用于提供數(shù)字音頻信號(hào)的高質(zhì)量擴(kuò)展和壓縮的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號(hào)的自動(dòng)時(shí)標(biāo)更改,尤其涉及用于提供包括語(yǔ)音或其他音頻的音頻信號(hào)段的自動(dòng)高質(zhì)量擴(kuò)展和壓縮的系統(tǒng)和方法。
相關(guān)技術(shù)音頻段,諸如基于語(yǔ)音的音頻信號(hào)中的幀的伸長(zhǎng)或縮短一般分別稱作語(yǔ)音擴(kuò)展和語(yǔ)音壓縮。在許多應(yīng)用中,有必要在信號(hào)內(nèi)擴(kuò)展或壓縮特定語(yǔ)音段,或進(jìn)行抑制,以便增強(qiáng)信號(hào)中語(yǔ)音的感知質(zhì)量,或減小延遲。例如,因?yàn)閿U(kuò)展可用于一些自適應(yīng)去抖動(dòng)的算法,所以擴(kuò)展經(jīng)常用于增強(qiáng)語(yǔ)音的可識(shí)度,以代替語(yǔ)音信號(hào)中的丟失或噪音幀,或在等候延遲的語(yǔ)音數(shù)據(jù)時(shí)提供附加時(shí)間。同樣,語(yǔ)音的縮短或壓縮用于多個(gè)目的,包括加速記錄的信號(hào)以減小收聽(tīng)時(shí)間,減小信號(hào)的傳輸比特率,加速信號(hào)段以減小整體傳輸時(shí)間,和減小傳輸延遲,以便在進(jìn)行信號(hào)幀一些處理類型之后近似實(shí)時(shí)地發(fā)送信號(hào)。
例如,傳統(tǒng)的數(shù)據(jù)包通信系統(tǒng),諸如因特網(wǎng)或其他廣播網(wǎng)絡(luò),一般具有損耗。換言之,無(wú)法保證每個(gè)傳輸?shù)臄?shù)據(jù)包都能被零誤差、按時(shí)或以正確的序列傳輸。如果接收者可以等候數(shù)據(jù)包被重傳、正確排序、或利用一些誤差校正方案來(lái)校正,那么這種網(wǎng)絡(luò)固有的損耗就不是問(wèn)題。然而,對(duì)于幾乎實(shí)時(shí)的應(yīng)用,比如通過(guò)這種數(shù)據(jù)包網(wǎng)絡(luò)的基于語(yǔ)音的通信系統(tǒng),例如在通信中沒(méi)有引起過(guò)分的、顯著的、滯后或延遲的情況下,接收者不能等候數(shù)據(jù)包被重傳、正確排序、或被校正。
一些傳統(tǒng)的方案僅通過(guò)引起接收者替代用于損失或破壞的數(shù)據(jù)包的寂靜來(lái)提出通過(guò)數(shù)據(jù)包網(wǎng)絡(luò)的語(yǔ)音通信的問(wèn)題。有關(guān)的方案只是回放接收的幀視為它們被接受,不考慮在數(shù)據(jù)包接收時(shí)間之間經(jīng)常變化的延遲。不幸的是,盡管這種方法實(shí)施起來(lái)很簡(jiǎn)單,但效果一般是具有容易感知人工產(chǎn)物的信號(hào),其導(dǎo)致感知低信號(hào)質(zhì)量。
比較詳細(xì)的方案試圖通過(guò)將損失的語(yǔ)音數(shù)據(jù)包替換為來(lái)自預(yù)先校正的接收數(shù)據(jù)包的波形段,以增加最大可容忍的損失數(shù)據(jù)包率,來(lái)提供更好的感知信號(hào)質(zhì)量。波形替換失敗的概率預(yù)測(cè)作為數(shù)據(jù)包持續(xù)時(shí)間與數(shù)據(jù)包損耗率的函數(shù),該方案根據(jù)波形替換失敗的概率預(yù)測(cè)來(lái)選擇用于替換損失的數(shù)據(jù)包的代替波形。而且,該方案還使用信號(hào)模式匹配或聲音和音調(diào)的顯式估計(jì)來(lái)選擇代替波形。另外,在數(shù)據(jù)包邊界上替換波形用于代替丟失的或破壞的數(shù)據(jù)包,隨著波形替換,通過(guò)平滑在數(shù)據(jù)包邊界上的突變點(diǎn)之間的邊界來(lái)進(jìn)一步減小感知到的失真。不幸的是,盡管該方案只通過(guò)將損失的幀替換為寂靜而表現(xiàn)出重大改進(jìn),但在重構(gòu)的信號(hào)中仍舊存在容易感知到的音頻人工產(chǎn)物。
另一傳統(tǒng)的方案通過(guò)根據(jù)單獨(dú)的聲音數(shù)據(jù)包的可變瞬時(shí)定標(biāo)(經(jīng)擴(kuò)展或壓縮)來(lái)提供丟失或破壞幀的基于數(shù)據(jù)包的替換,以響應(yīng)數(shù)據(jù)包接收延遲或丟失,試圖處理感知到的音頻人工產(chǎn)物,以及由此的感知信號(hào)質(zhì)量的問(wèn)題。具體地,該方案使用稱作“波形相似性重疊相加”(WSOLA)的傳統(tǒng)方法變型來(lái)完成一個(gè)或多個(gè)數(shù)據(jù)包的瞬時(shí)定標(biāo),同時(shí)最小化在標(biāo)準(zhǔn)化數(shù)據(jù)包中的感知人工產(chǎn)物。
WSOLA的基本思想和有關(guān)方法包括將輸入的數(shù)據(jù)包輸入分解為相同長(zhǎng)度的重疊段。通過(guò)傳統(tǒng)的相關(guān)處理沿著重疊區(qū)域的平滑處將這些重疊段重新排列和疊加,以形成輸出段,該輸出段具有導(dǎo)致理想輸出長(zhǎng)度的疊加度。該結(jié)果造成復(fù)合段利于隱藏或隱蔽感知到的數(shù)據(jù)包的延遲或丟失。不幸的是,盡管該方法對(duì)以前的語(yǔ)音擴(kuò)展和壓縮方法提出重大改進(jìn),但它仍舊為改善擴(kuò)展和壓縮的音頻信號(hào)的感知質(zhì)量留下相當(dāng)大的空間。
因此,需要一種系統(tǒng)和方法,提供音頻信號(hào)的高質(zhì)量時(shí)標(biāo)更正,該信號(hào)包括語(yǔ)音和其他音頻。具體地,該系統(tǒng)和方法應(yīng)當(dāng)提供語(yǔ)音擴(kuò)展和壓縮,同時(shí)在重構(gòu)的信號(hào)中最小化可感知的人工產(chǎn)物。另外,該系統(tǒng)和方法還提供可變的壓縮和擴(kuò)展以解決變化的網(wǎng)絡(luò)數(shù)據(jù)包延遲和丟失。
發(fā)明內(nèi)容
包含語(yǔ)音的音頻信號(hào)的時(shí)標(biāo)修改多年來(lái)已經(jīng)被用于改善可識(shí)度,減小收聽(tīng)時(shí)間,或增強(qiáng)信號(hào)的質(zhì)量,該信號(hào)通過(guò)益于發(fā)生損耗和延遲的數(shù)據(jù)包網(wǎng)絡(luò)如因特網(wǎng)傳輸,并且在客戶計(jì)算機(jī)或接收機(jī)上重構(gòu)該信號(hào)。例如,在許多應(yīng)用中,希望擴(kuò)展或壓縮包含語(yǔ)音的音頻信號(hào)的一個(gè)或多個(gè)幀。一般地,擴(kuò)展用于增強(qiáng)快速講話者的可識(shí)度,擴(kuò)展信號(hào)中語(yǔ)音段的持續(xù)時(shí)間以便替換丟失的、過(guò)度延遲的、或噪音幀,或當(dāng)?shù)群蜓舆t的語(yǔ)音數(shù)據(jù)包時(shí),以去抖動(dòng)算法來(lái)提供附加時(shí)間。類似地,音頻信號(hào)的縮短或壓縮一般用于減小收聽(tīng)時(shí)間、用于減小信號(hào)的傳輸比特率、用于加速信號(hào)幀以減小整個(gè)傳輸時(shí)間、和用于減小傳輸延遲,以便在信號(hào)幀經(jīng)過(guò)一些類型的處理之后,信號(hào)被近似實(shí)時(shí)地傳輸。由于這些用途,顯然需要一種系統(tǒng)和方法,用于擴(kuò)展和壓縮語(yǔ)音,以提供高質(zhì)量輸出,同時(shí)在重構(gòu)的信號(hào)中最小化任何可感知的人工產(chǎn)物。
為了提出需要高質(zhì)量音頻擴(kuò)展和壓縮,提供一種自適應(yīng)“瞬時(shí)音頻定標(biāo)器”,用于自動(dòng)擴(kuò)展和壓縮音頻信號(hào)幀(或段)。在此描述的瞬時(shí)音頻定標(biāo)器提供用于音頻信號(hào)的時(shí)間定標(biāo)的系統(tǒng)和方法,包括擴(kuò)展和壓縮。在下面的段落中描述該瞬時(shí)音頻定標(biāo)器。
通常,該瞬時(shí)音頻定標(biāo)器提供擴(kuò)展和壓縮信號(hào)幀或段。而且,該瞬時(shí)音頻定標(biāo)器能夠提供特定幀或段的可變擴(kuò)展和壓縮,而不需要參考相鄰幀。另外,瞬時(shí)音頻定標(biāo)器提供的擴(kuò)展和壓縮的可變性允許來(lái)自將被補(bǔ)償?shù)睦硐氡嚷实膲嚎s比在下一幀上有較小變化,同時(shí)通過(guò)使用“接續(xù)”技術(shù)來(lái)保持整體平均理想壓縮(或擴(kuò)展)比。
例如,如果用于特定信號(hào)的目標(biāo)壓縮比是2∶1,并且每個(gè)輸入語(yǔ)音幀具有300個(gè)采樣,則每個(gè)目標(biāo)輸出幀名義上具有150個(gè)采樣。然而,如果例如特定幀被壓縮到180個(gè)采樣而不是150個(gè)采樣,通過(guò)設(shè)置它的目標(biāo)壓縮到120個(gè)采樣而將額外的30采樣補(bǔ)償在下一幀。因此,根據(jù)180和120的塊大小,平均塊大小仍是150,并具有2∶1的平均壓縮比。注意基于下一幀的內(nèi)容,壓縮到120個(gè)采樣不會(huì)提供最佳結(jié)果。因此,120個(gè)采樣樣本只是目標(biāo),通過(guò)實(shí)際壓縮、或擴(kuò)展,其用于設(shè)置后續(xù)幀的目標(biāo)壓縮或擴(kuò)展,來(lái)確保理想的平均值。
因此,可擴(kuò)展或壓縮一個(gè)以上的后續(xù)幀以保持理想的平均值。例如,使用上述實(shí)例,如果在壓縮到180個(gè)采樣的幀后面的幀被壓縮到130個(gè)采樣,那么用于下一幀的目標(biāo)壓縮具有140個(gè)采樣的目標(biāo)壓縮,以提供在三個(gè)幀上的150個(gè)采樣的平均值。通過(guò)使用該接續(xù)技術(shù)可保持任何理想的壓縮(或擴(kuò)展)比,同時(shí)只在任何特定輸出幀的長(zhǎng)度上保持寬松的要求。
該接續(xù)技術(shù)的結(jié)果是,對(duì)經(jīng)過(guò)壓縮或擴(kuò)展而丟失或延遲的數(shù)據(jù)包的補(bǔ)償非常靈活,因?yàn)槿缢枰?,每個(gè)單獨(dú)的幀被最優(yōu)地壓縮或擴(kuò)展,用于最小化重構(gòu)信號(hào)中的任何可感知的人工產(chǎn)物。該瞬時(shí)音頻定標(biāo)器能夠補(bǔ)充諸如去抖動(dòng)的多個(gè)應(yīng)用,例如,其通常為最小化人工產(chǎn)物而需要減小延遲。
根據(jù)前述段落,應(yīng)當(dāng)清楚,通過(guò)首先接收信號(hào)幀,通過(guò)擴(kuò)展或壓縮幀的片段來(lái)修改幀的時(shí)間特性,確定當(dāng)前幀的擴(kuò)展或壓縮是否等于目標(biāo)擴(kuò)展或壓縮比,然后可能的話,將實(shí)際和目標(biāo)擴(kuò)展或壓縮比之間的差值添加到用于下一幀的擴(kuò)展或壓縮,瞬時(shí)音頻定標(biāo)器提供特定幀的擴(kuò)展和壓縮。
而且,在擴(kuò)展或壓縮當(dāng)前幀的片段之前,瞬時(shí)音頻定標(biāo)器首先確定片段的類型。例如,在包括語(yǔ)音的音頻信號(hào)中,幀的每個(gè)片段將是包括語(yǔ)音或一些其他有聲言語(yǔ)的“有聲”片段、不包括任何語(yǔ)音或其他言語(yǔ)的“無(wú)聲”片段、或包括有聲和無(wú)聲成分的“混合”片段。為了達(dá)到最佳結(jié)果,該瞬時(shí)音頻定標(biāo)器提供可變的擴(kuò)展和壓縮,其明確用于正被擴(kuò)展和壓縮的特定片段。因此,個(gè)性化擴(kuò)展和壓縮方法用于每個(gè)片段類型,即聲音、無(wú)聲或混合。注意,為每個(gè)片段類型使用每個(gè)個(gè)性化方法,盡可能小地、或者一點(diǎn)也不修改靠近幀邊界的音頻采樣,以便確保更好傳輸仍然未知的后續(xù)語(yǔ)音幀。
在產(chǎn)生片段類型的確定時(shí),人類話音的自然周期性是有用的指導(dǎo)。通常,作為接近信號(hào)匹配的潛在周期部分的程度的函數(shù),作出關(guān)于片段類型的確定。例如,在擴(kuò)展或壓縮還沒(méi)有被播放的音頻信號(hào)的特定采樣或幀中,第一步是從擴(kuò)展或壓縮的幀中選擇較小的片段或子幀。因?yàn)橄乱徊绞前l(fā)現(xiàn)信號(hào)中類似的或近似匹配的片段,所以該子幀稱作“模板”。注意,該匹配片段可以處于被擴(kuò)展或壓縮的幀中,或—如果可行—可以處于以前播放的幀中。因此,在一個(gè)實(shí)施例中,在臨時(shí)緩沖器中保存保存一個(gè)或多個(gè)最近播放的幀用于定位匹配的片段。通過(guò)使用傳統(tǒng)信號(hào)匹配技術(shù),例如標(biāo)準(zhǔn)的互相關(guān)方法或類似技術(shù),來(lái)查詢與模板匹配的片段。而且,在一個(gè)實(shí)施例中,查詢范圍限于與信號(hào)的“音調(diào)”兼容的范圍。
如本領(lǐng)域技術(shù)人員公知的,通過(guò)振動(dòng)聲帶將氣流調(diào)節(jié)為擬周期脈沖來(lái)產(chǎn)生話音聲音比如語(yǔ)音,該脈沖激發(fā)聲道中的共振。該脈沖率通常稱為基頻或“音調(diào)”。通常,有聲音頻信號(hào)的周期性、或“音調(diào)周期”表示在有聲音頻信號(hào)的時(shí)間域表示中的最大正峰值幅度和最大負(fù)峰值幅度之間的時(shí)間。盡管實(shí)際上語(yǔ)音信號(hào)不具有完美周期,估計(jì)的音調(diào)頻率和它的倒數(shù)即音調(diào)周期對(duì)模擬語(yǔ)音信號(hào)非常有用。注意該討論均參考音調(diào)和音調(diào)周期。存在更詳細(xì)的方法用于確定音調(diào);然而,這些原理對(duì)領(lǐng)域技術(shù)人員來(lái)說(shuō)是公知的,在此描述的音調(diào)和音調(diào)周期的確定只是發(fā)現(xiàn)互相關(guān)峰值的一個(gè)基礎(chǔ)。然而,應(yīng)當(dāng)清楚,根據(jù)在此提供的討論,任何用于確定音調(diào)和音調(diào)周期的方法可用于瞬時(shí)音頻定標(biāo)器。
例如,由于人類話音或發(fā)言的音調(diào)或周期性,信號(hào)的有聲部分將自然具有較高的周期性。因此,標(biāo)準(zhǔn)化的互相關(guān)的峰值強(qiáng)度提供了對(duì)幀的特定片段是否是有聲的、無(wú)聲的或混合的了解。例如,由于片段包含更多的語(yǔ)音,標(biāo)準(zhǔn)化的互相關(guān)峰值將增加,并且由于片段包含少量語(yǔ)音,一般在信號(hào)中存在更少的周期性,導(dǎo)致較小的標(biāo)準(zhǔn)化互相關(guān)峰值。該標(biāo)準(zhǔn)化互相關(guān)峰值與預(yù)定閾值進(jìn)行比較用于確定特定片段是否是有聲片段、無(wú)聲片段或有聲和無(wú)聲成分的混合物,即混合片段。在測(cè)試的實(shí)施例中,在.4和.95之間的峰值被用于識(shí)別混合的片段,大于.95的峰值被用于識(shí)別有聲片段,和小于.4的峰值被用于識(shí)別無(wú)聲片段。
一旦識(shí)別片段的具體類型,片段類型的專用擴(kuò)展或壓縮處理被施加給該片段,用于擴(kuò)展或壓縮希望的當(dāng)前幀。例如,當(dāng)擴(kuò)展有聲幀時(shí),開(kāi)窗重疊相加(SOLA)方法被用于校準(zhǔn)和合并幀的匹配段。然而,不同于用于擴(kuò)展有聲片段的傳統(tǒng)系統(tǒng),該瞬時(shí)音頻定標(biāo)器還通過(guò)交替片段的位置用作參考或模板,來(lái)減小在重構(gòu)信號(hào)中可感知周期的人工產(chǎn)物,以便該模板不總是取自片段的末端。具體地,該模板可取自幀的末端、幀的開(kāi)頭,或幀的內(nèi)部。
而且,在一個(gè)實(shí)施例中,為了進(jìn)一步減小在重構(gòu)信號(hào)中可感知的人工產(chǎn)物,在實(shí)施標(biāo)準(zhǔn)的互相關(guān)中,瞬時(shí)音頻定標(biāo)器也使用可變的窗口尺寸,其尺寸類似于為當(dāng)前幀計(jì)算的平均音調(diào)尺寸。最后,定位該模板,以便過(guò)渡窗口的中點(diǎn)位于波形的低能點(diǎn)。該模板的定位用來(lái)進(jìn)一步減小重構(gòu)信號(hào)中可感知的人工產(chǎn)物。注意有必要將該擴(kuò)展處理重復(fù)多次以獲得用于當(dāng)前幀的理想的擴(kuò)展等級(jí)。
無(wú)聲幀,即寂靜、非周期性噪音等的擴(kuò)展以基本上不同的方式來(lái)處理。具體地,不同于用于擴(kuò)展有聲幀的處理,其中重復(fù)與模板匹配的一個(gè)或多個(gè)片段被用于增加幀的長(zhǎng)度,這對(duì)避免引入周期性是重要的。原因是聽(tīng)者可以容易地區(qū)分在這種幀中的音頻周期性。因此,這種周期性將表現(xiàn)為重構(gòu)信號(hào)中的信號(hào)人工產(chǎn)物。因此,修改當(dāng)前幀不是添加與模板匹配的片段,而是通過(guò)自動(dòng)產(chǎn)生理想長(zhǎng)度的不同信號(hào)并具有類似于當(dāng)前幀的功率譜。然后利用開(kāi)窗函數(shù)將產(chǎn)生的信號(hào)插入到當(dāng)前幀的中部,以平滑原始幀與生成的片段之間的過(guò)渡點(diǎn)。而且,在有關(guān)的實(shí)施例中,為了進(jìn)一步減小在重構(gòu)信號(hào)中的任何音頻人工產(chǎn)物,進(jìn)一步減小預(yù)定百分比大約為30%左右的生成的片段的能量。
如上所述,混合片段表示有聲和無(wú)聲成分的組合。因此,既不擴(kuò)展有聲片段,也不擴(kuò)展無(wú)聲片段的方法單獨(dú)適用于擴(kuò)展混合片段。例如,使用用于處理有聲片段的方法將顯著的人工產(chǎn)物引入無(wú)聲幀部分中,同時(shí)使用用于處理無(wú)聲片段的方法將破壞幀中任何存在的周期性。因此,在一個(gè)實(shí)施例中,兩種方法都被使用。具體地,利用有聲和無(wú)聲方法,從自當(dāng)前混合片段中產(chǎn)生信號(hào)。然后組合這些信號(hào)以產(chǎn)生理想長(zhǎng)度的合成信號(hào)段,其包括利用有聲和無(wú)聲方法產(chǎn)生信號(hào)。
而且,在有關(guān)的實(shí)施例中,作為標(biāo)準(zhǔn)化互相關(guān)峰值的函數(shù),如上述產(chǎn)生的有聲和無(wú)聲信號(hào)被加權(quán)。例如,如上所述,由于片段變得更加周期性,即在片段中存在更多的話音,標(biāo)準(zhǔn)化互相關(guān)峰值增加。因此,在標(biāo)準(zhǔn)化互相關(guān)峰值較高的情況下,較多加權(quán)該有聲信號(hào)將以一些周期性為代價(jià)改善在擴(kuò)展片段中語(yǔ)音的感知質(zhì)量,并因此潛在改善在擴(kuò)展片段的無(wú)聲部分中的一些可感知的人工產(chǎn)物。相反,由于標(biāo)準(zhǔn)化互相關(guān)峰值減小,在片段中存在較小的周期性。因此,較多加權(quán)無(wú)聲信號(hào),以減小周期性為代價(jià),從而改善幀的無(wú)聲部分的感知質(zhì)量,并潛在改善幀的任何有聲部分的可識(shí)度。
在測(cè)試的實(shí)施例中,通過(guò)利用上述有聲片段方法產(chǎn)生理想長(zhǎng)度的信號(hào),對(duì)應(yīng)于.45到.95的標(biāo)準(zhǔn)化互相關(guān)峰值的從0到1的線性加權(quán),被分別用于產(chǎn)生用于合成信號(hào)的有聲部分。同樣,通過(guò)利用上述無(wú)聲片段方法產(chǎn)生相同的理想長(zhǎng)度的信號(hào),對(duì)應(yīng)于.45到.95的標(biāo)準(zhǔn)化互相關(guān)峰值的從0到1的線性加權(quán),被分別用于產(chǎn)生用于合成信號(hào)的無(wú)聲部分。這兩個(gè)加權(quán)信號(hào)部分簡(jiǎn)單相加以產(chǎn)生合成信號(hào)。
給出各種幀類型和上述擴(kuò)展方法,仍舊存在在當(dāng)前幀中的哪個(gè)點(diǎn)是擴(kuò)展該幀的最佳點(diǎn)的問(wèn)題。例如,甚至在一個(gè)相對(duì)短的幀中,諸如信號(hào)的20毫秒部分,經(jīng)常存在一個(gè)或多個(gè)過(guò)渡點(diǎn)或者甚至是幾毫秒的寂靜。在該情況下,選擇幀被擴(kuò)展的特殊點(diǎn)是有利的。因此,在一個(gè)實(shí)施例中,采用擴(kuò)展“質(zhì)量”的方法,其中基于幀中片段能量的組合(低能量更好)來(lái)確定幀中擴(kuò)展的位置,并且發(fā)現(xiàn)標(biāo)準(zhǔn)化相關(guān)系數(shù)用于與其匹配的片段(越高越好)。
例如,在一般情況下,20毫秒幀可以分為4個(gè)子幀或每個(gè)5毫秒片段,或可測(cè)試地,潛在地分為重疊子幀或片段,該片段近似具有估計(jì)的音調(diào)周期。如果特定片段的計(jì)算能量足夠低,那么就認(rèn)為過(guò)度存在于該片段中。然后選擇最低能量片段用于擴(kuò)展。然而,如果能量不是足夠低,那么過(guò)渡未必存在于幀中,并且每個(gè)片段匹配的標(biāo)準(zhǔn)化自相關(guān)被用來(lái)選擇最佳匹配以便擴(kuò)展。
通常,以與上述擴(kuò)展幀類似的方法處理幀的壓縮。例如,當(dāng)壓縮幀時(shí),從幀中選擇模板,并且執(zhí)行搜索匹配,如上所述。一旦識(shí)別該匹配,片段被開(kāi)窗、重疊和相加。然而,如果標(biāo)準(zhǔn)化互相關(guān)太小,如上所述,該片段可能時(shí)無(wú)聲片段。在該情況下,使用隨機(jī)或預(yù)定移動(dòng)與諸如恒定平方和窗口的開(kāi)窗函數(shù)一起,將幀壓縮到理想數(shù)量。
而且,要重點(diǎn)考慮在每個(gè)幀中選擇要壓縮的特定片段。例如,不是均等地壓縮幀的所有片段,而是一般通過(guò)首先確定片段的類型,如上所述,然后有選擇地壓縮幀的特定片段,來(lái)完成更好的結(jié)果。例如,壓縮表示語(yǔ)音、寂靜或簡(jiǎn)單噪音的片段,同時(shí)避免無(wú)聲片段或瞬態(tài)壓縮,將產(chǎn)生具有較少可感知的人工產(chǎn)物的重構(gòu)信號(hào)。如果通過(guò)壓縮表示語(yǔ)音、寂靜或簡(jiǎn)單噪音的片段不能實(shí)現(xiàn)充分壓縮,則以上述方式壓縮非過(guò)渡無(wú)聲片段。最后,如果通過(guò)有聲片段和非過(guò)渡無(wú)聲片段的壓縮不能實(shí)現(xiàn)充分壓縮,則壓縮包括過(guò)渡的片段。對(duì)壓縮的分級(jí)方法用來(lái)限制在重構(gòu)信號(hào)中可感知的人工產(chǎn)物。而且,如上所述,該“接續(xù)”處理也大量用于壓縮后續(xù)幀,在此由于當(dāng)前幀的內(nèi)容類型,當(dāng)前幀不被壓縮到目標(biāo)壓縮比。
根據(jù)上面的概述,很清楚瞬時(shí)音頻定標(biāo)器提供一種唯一的系統(tǒng)和方法,用于擴(kuò)展和壓縮接收的音頻信號(hào)的幀,同時(shí)最小化在重構(gòu)信號(hào)中可感知的人工產(chǎn)物。除了剛才描述的益處,用于擴(kuò)展和壓縮音頻信號(hào)段的系統(tǒng)和方法的其他優(yōu)點(diǎn)將在下面結(jié)合附圖的細(xì)節(jié)描述中變得更加清楚。
通過(guò)參照下面的說(shuō)明、附屬的權(quán)利要求和附圖,將更好理解本發(fā)明的具體特征、方面和優(yōu)點(diǎn)。
圖1是描繪通用計(jì)算設(shè)備的概括系統(tǒng)框圖,該計(jì)算設(shè)備包括用于擴(kuò)展和壓縮音頻信號(hào)片段的示例性系統(tǒng)。
圖2描述了示例性結(jié)構(gòu)框圖,該框圖顯示了用于擴(kuò)展和壓縮音頻信號(hào)片段的程序模塊。
圖3描述了用于擴(kuò)展音頻信號(hào)的有聲片段的示例性系統(tǒng)流程圖。
圖4描述了用于擴(kuò)展音頻信號(hào)的無(wú)聲片段的示例性系統(tǒng)流程圖。
圖5描述了用于擴(kuò)展音頻信號(hào)的無(wú)聲片段的替換實(shí)施例的示例性系統(tǒng)流程圖。
圖6描述了用于擴(kuò)展音頻信號(hào)的無(wú)聲片段的替換實(shí)施例的示例性系統(tǒng)流程圖。
圖7描述了用于選擇片段起點(diǎn)的示例性系統(tǒng)流程圖,該起點(diǎn)用于最小化可聽(tīng)變化,該變化導(dǎo)致音頻信號(hào)的擴(kuò)展。
具體實(shí)施例方式
在本發(fā)明優(yōu)選實(shí)施例的下列描述中,附圖具有參考標(biāo)記,該參考標(biāo)記形成了附圖的一部分,其中通過(guò)描述實(shí)施本發(fā)明的特定實(shí)施例來(lái)顯示該參考標(biāo)記。應(yīng)當(dāng)理解,可以使用其他實(shí)施例,并且在不脫離本發(fā)明范圍的情況下,結(jié)構(gòu)可以變化。
1.0示例性操作環(huán)境圖1描述了合適的計(jì)算系統(tǒng)環(huán)境100的范例,本發(fā)明可以在該環(huán)境中實(shí)施。該計(jì)算系統(tǒng)環(huán)境100只是一個(gè)合適的計(jì)算環(huán)境,并且不意圖限制本發(fā)明的功能或使用范圍。計(jì)算環(huán)境100不應(yīng)當(dāng)解釋為依賴或需要任何一個(gè)在示例性操作系統(tǒng)100中描述的部件或部件組合。
本發(fā)明通過(guò)大量的其他通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置來(lái)運(yùn)行。適用于本發(fā)明使用的公知的計(jì)算系統(tǒng)、環(huán)境、和/或配置的范例包括,但不限于個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式、膝上型電腦或便攜計(jì)算機(jī)或諸如蜂窩電話和PDA的通信設(shè)備、數(shù)字電話、多處理器系統(tǒng)、微處理器系統(tǒng)、機(jī)頂盒、可編程消費(fèi)類電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括任何上述系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境,等等。
可以在計(jì)算機(jī)可執(zhí)行指令的普通背景下,諸如計(jì)算機(jī)執(zhí)行的程序模塊中描述該發(fā)明。通常,程序模塊包括例程、程序、目標(biāo)、部件、數(shù)據(jù)結(jié)構(gòu)等,其執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型。本發(fā)明也可在分布式計(jì)算環(huán)境中實(shí)施,在該分布式計(jì)算環(huán)境中,任務(wù)被通過(guò)通信網(wǎng)絡(luò)連接的遠(yuǎn)程處理設(shè)備執(zhí)行。在分布式計(jì)算環(huán)境中,程序模塊可位于包括記憶存儲(chǔ)器設(shè)備的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。通過(guò)參考圖1,用于實(shí)施本發(fā)明的示例性系統(tǒng)包括計(jì)算機(jī)110形式的通用計(jì)算設(shè)備。
計(jì)算機(jī)110的部件可包括,但不限于,處理單元120、系統(tǒng)存儲(chǔ)器130、和將各種系統(tǒng)部件與處理單元120相連的系統(tǒng)總線121,這些部件包括系統(tǒng)存儲(chǔ)器。系統(tǒng)總線121可以是多個(gè)類型的總線結(jié)構(gòu)中的任何一個(gè),這些結(jié)構(gòu)包括存儲(chǔ)器總線或存儲(chǔ)控制器、外圍總線、和使用各種總線結(jié)構(gòu)的本地總線。通過(guò)范例,并不限定,該結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線,擴(kuò)展ISA(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)本地總線、和公知的作為中層(Mezzanine)總線的外設(shè)部件互連(PCI)總線。
計(jì)算機(jī)110一般包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是任何能被計(jì)算機(jī)110訪問(wèn)的有效介質(zhì),包括易失和非易失介質(zhì),移動(dòng)或非移動(dòng)介質(zhì)。通過(guò)范例,并不限定,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以任何方法和技術(shù)實(shí)現(xiàn)的用于存儲(chǔ)信息,比如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、或其他數(shù)據(jù)的易失和非易失移動(dòng)和非移動(dòng)介質(zhì)。
計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于,RAM、ROM、EEPROM、閃存、或其他存儲(chǔ)技術(shù);CD-ROM、數(shù)字萬(wàn)能磁盤(DVD)、或其他光盤存儲(chǔ)器;磁帶盒、磁帶、磁盤存儲(chǔ)器、或其他磁存儲(chǔ)設(shè)備;或任何其他可用于存儲(chǔ)期望信息并能被計(jì)算機(jī)110訪問(wèn)的媒質(zhì)。通信介質(zhì)一般體現(xiàn)為計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或在已調(diào)制的數(shù)據(jù)信號(hào)中的其他數(shù)據(jù),該信號(hào)比如是載波、或其他傳送機(jī)構(gòu)并包括任何信息傳輸介質(zhì)。術(shù)語(yǔ)“已調(diào)制數(shù)據(jù)信號(hào)”意味著具有一個(gè)或多個(gè)特征集或以信號(hào)中的信息進(jìn)行編碼的方式變化的信號(hào)。通過(guò)范例,并不限定,通信介質(zhì)包括有線介質(zhì),如有線網(wǎng)絡(luò)或直達(dá)線連接,和無(wú)線介質(zhì),如聲、射頻、紅外線、和其他無(wú)線介質(zhì)。上述任何組合也應(yīng)當(dāng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
該系統(tǒng)存儲(chǔ)器130包括易失和/或非易失存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì),比如只讀存儲(chǔ)器(ROM)131和隨機(jī)存取存儲(chǔ)器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)一般存儲(chǔ)在ROM131中,包含在計(jì)算機(jī)110內(nèi)的部件之間幫助傳輸信息的基本例程,比如在啟動(dòng)期間。RAM132典型包含數(shù)據(jù)和/或程序模塊,該程序模塊被處理單元120直接訪問(wèn)和/或操作。通過(guò)范例,并不限定,圖1描述了操作系統(tǒng)134、應(yīng)用程序135、其他程序模塊136、和程序數(shù)據(jù)137。
計(jì)算機(jī)110可包括其他移動(dòng)/非移動(dòng)、易失/非易失計(jì)算機(jī)存儲(chǔ)介質(zhì)。只通過(guò)范例,圖1描述了讀取寫入非移動(dòng)、非易失磁介質(zhì)的硬盤驅(qū)動(dòng)器141,讀取或?qū)懭胍苿?dòng)、非易失磁盤152的磁盤驅(qū)動(dòng)器151,和光盤驅(qū)動(dòng)器155,光盤驅(qū)動(dòng)器155讀取或?qū)懭胍苿?dòng)、非易失光盤156,如CDROM或其他光介質(zhì)。其他可用于典型操作環(huán)境的移動(dòng)/非移動(dòng)、易失/非易失計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于,盒式磁帶、閃存卡、數(shù)字萬(wàn)能磁盤、固態(tài)RAM、固態(tài)ROM等。該硬盤驅(qū)動(dòng)器141一般通過(guò)諸如接口140的非移動(dòng)存儲(chǔ)器接口連接系統(tǒng)總線121,并且磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器155通過(guò)諸如接口150的移動(dòng)存儲(chǔ)器接口連接系統(tǒng)總線121。
上述討論的并在圖1中描述的驅(qū)動(dòng)器以及與他們相關(guān)的計(jì)算機(jī)存儲(chǔ)介質(zhì),提供存儲(chǔ)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和用于計(jì)算機(jī)110的其他數(shù)據(jù)。在圖1中,例如,硬盤驅(qū)動(dòng)器141被描述為存儲(chǔ)操作系統(tǒng)144、應(yīng)用程序145、其他程序模塊146、和程序數(shù)據(jù)147。注意,這些部件可以相同于或不同于操作系統(tǒng)134、應(yīng)用程序135、其他程序模塊136、和程序數(shù)據(jù)137。給予操作系統(tǒng)144、應(yīng)用程序145、其他程序模塊146、和程序數(shù)據(jù)147不同的編號(hào),以最低限度說(shuō)明他們是不同的副本。用戶可以通過(guò)輸入設(shè)備,比如鍵盤162和通常稱為鼠標(biāo)、軌跡球、或觸摸板的指示設(shè)備161,將命令和信息輸入到計(jì)算機(jī)110中。
另外,計(jì)算機(jī)110還可以包括語(yǔ)音輸入設(shè)備,比如麥克風(fēng)198或麥克風(fēng)組、以及揚(yáng)聲器197或通過(guò)音頻接口199連接的其他聲音輸入設(shè)備。其他輸入設(shè)備(未示出)可以包括游戲桿、游戲板、衛(wèi)星反射器、掃描器、無(wú)線接收機(jī)、和電視或廣播視頻接收機(jī)等。這些和其他輸入設(shè)備通常通過(guò)連接系統(tǒng)總線121的用戶輸入接口160連接到處理單元120,不過(guò)可以通過(guò)其他接口和總線結(jié)構(gòu),例如并行端口、游戲端口、或通用串行總線架構(gòu)(USB)進(jìn)行連接。監(jiān)視器191或其他類型的顯示設(shè)備也通過(guò)諸如視頻接口190的接口連接到系統(tǒng)總線121。除了監(jiān)視器,計(jì)算機(jī)也可以包括其他外圍輸出設(shè)備,如打印機(jī)196,其可以通過(guò)輸出外圍接口195進(jìn)連接。
計(jì)算機(jī)110可利用邏輯連接到一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),比如遠(yuǎn)程計(jì)算機(jī)180而工作在網(wǎng)絡(luò)環(huán)境中。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、同等設(shè)備、或其他公共網(wǎng)絡(luò)節(jié)點(diǎn),并一般包括許多或所有上述與計(jì)算機(jī)110有關(guān)的部件,盡管在圖1只描述了記憶存儲(chǔ)設(shè)備181。在圖1中描繪的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也可以包括其他網(wǎng)絡(luò)。這種網(wǎng)絡(luò)環(huán)境通常存在于辦公室、企業(yè)廣域計(jì)算機(jī)網(wǎng)絡(luò)、企業(yè)內(nèi)部互聯(lián)網(wǎng)、和因特網(wǎng)。
當(dāng)用在LAN網(wǎng)絡(luò)環(huán)境中時(shí),計(jì)算機(jī)110通過(guò)網(wǎng)絡(luò)接口或適配器170連接到LAN171。當(dāng)用在WAN網(wǎng)絡(luò)環(huán)境中時(shí),計(jì)算機(jī)110一般包括調(diào)制解調(diào)器172或其他用于通過(guò)諸如因特網(wǎng)的WAN173建立通信的裝置。調(diào)制解調(diào)器172,可以在內(nèi)部或外部,可以通過(guò)用戶輸入接口160,或其他合適的機(jī)構(gòu)連接到系統(tǒng)總線121。在網(wǎng)絡(luò)環(huán)境中,所述與計(jì)算機(jī)110或部分有關(guān)的程序模塊,可以存儲(chǔ)在遠(yuǎn)程記憶存儲(chǔ)設(shè)備中。通過(guò)范例,并不限定,圖1描述了駐留在存儲(chǔ)設(shè)備181中的遠(yuǎn)程應(yīng)用程序185。應(yīng)當(dāng)清楚,所示的網(wǎng)絡(luò)連接是示例性的,并且可以使用在計(jì)算機(jī)之間建立通信鏈路的其他裝置。
目前已經(jīng)討論了示例性操作環(huán)境,說(shuō)明書(shū)的剩余部分將致力于討論體現(xiàn)“瞬時(shí)音頻定標(biāo)器”的程序模塊和過(guò)程,該“瞬時(shí)音頻定標(biāo)器”用于自動(dòng)擴(kuò)展和壓縮在數(shù)字音頻信號(hào)中的信號(hào)幀。
2.0介紹音頻信號(hào)的時(shí)標(biāo)更改的更多傳統(tǒng)應(yīng)用是多次減速或加速信號(hào)的整體時(shí)標(biāo),以便減小收聽(tīng)時(shí)間,或改善可識(shí)度。除了該應(yīng)用,在最近幾年,包含語(yǔ)音的音頻信號(hào)的時(shí)標(biāo)更改已用于改善信號(hào)質(zhì)量,該信號(hào)通過(guò)易于發(fā)生損耗和延遲的數(shù)據(jù)包網(wǎng)絡(luò)如因特網(wǎng)傳輸,并在客戶計(jì)算機(jī)或接收機(jī)上重構(gòu)該信號(hào)。例如,在許多應(yīng)用中,理想的是擴(kuò)展或壓縮一個(gè)或多個(gè)包含語(yǔ)音的音頻信號(hào)幀。
一般地,擴(kuò)展用于增強(qiáng)信號(hào)中語(yǔ)音的可識(shí)度,替換丟失、過(guò)渡延遲、或噪音幀、或當(dāng)?shù)群蜓舆t的語(yǔ)音數(shù)據(jù)包時(shí),在去抖動(dòng)算法中提供附加時(shí)間。同樣,音頻信號(hào)的縮短或壓縮一般用于減小收聽(tīng)時(shí)間,減小信號(hào)傳輸比特率,加速信號(hào)幀以減小整體傳輸時(shí)間,并減小傳輸延遲,以便在進(jìn)行一些類型的信號(hào)幀處理后可近似實(shí)時(shí)地傳輸信號(hào)。根據(jù)這些用途,顯然需要一種系統(tǒng)和方法,用于擴(kuò)展和壓縮語(yǔ)音,以提供高質(zhì)量輸出,同時(shí)最小化在重構(gòu)信號(hào)中的任何可感知的人工產(chǎn)物。
為了說(shuō)明需要高質(zhì)量音頻擴(kuò)展和壓縮,提供自適應(yīng)“瞬時(shí)音頻定標(biāo)器”用于自動(dòng)擴(kuò)展和壓縮通過(guò)數(shù)據(jù)包網(wǎng)絡(luò)接收的音頻信號(hào)。在此描述的瞬時(shí)音頻定標(biāo)器提供用于音頻信號(hào)瞬時(shí)標(biāo)定的系統(tǒng)和方法,全都包括擴(kuò)展和壓縮。該瞬時(shí)音頻定標(biāo)器在下面的段落進(jìn)行描述。
通常,瞬時(shí)音頻定標(biāo)器提供音頻幀的局部時(shí)標(biāo)更改,例如在音頻信號(hào)中的部分語(yǔ)音。在此描述的方法用于擴(kuò)展和壓縮信號(hào)幀。而且,瞬時(shí)音頻定標(biāo)器能夠?yàn)樘囟◣峁┛勺兊臄U(kuò)展和壓縮,而不需要參考相鄰幀,這在相鄰段無(wú)效(或丟失)時(shí)很重要。而且,如在章節(jié)3.1描述的,由瞬時(shí)音頻定標(biāo)器提供的擴(kuò)展和壓縮的可變性允許來(lái)自將被補(bǔ)償?shù)睦硐氡嚷实膲嚎s比在下一幀上有較小變化,同時(shí)通過(guò)使用“接續(xù)”技術(shù)保持整個(gè)平均理想壓縮(或擴(kuò)展)比,其可變地?cái)U(kuò)展或壓縮一個(gè)或多個(gè)后續(xù)幀,以補(bǔ)償當(dāng)前幀的平均擴(kuò)展或壓縮的任何偏離。
2.1系統(tǒng)概述如上所述,通過(guò)首先從音頻信號(hào)中接收或提取該幀,通過(guò)擴(kuò)展或壓縮該幀來(lái)修改幀的時(shí)間特性,確定當(dāng)前幀的擴(kuò)展或壓縮是否等于目標(biāo)擴(kuò)展或壓縮比,然后可能的話將實(shí)際和目標(biāo)擴(kuò)展或壓縮比之間的差值添加到應(yīng)用于下一幀的擴(kuò)展或壓縮中,瞬時(shí)音頻定標(biāo)器來(lái)提供特定幀(或片段)的擴(kuò)展和壓縮。
而且,在擴(kuò)展或壓縮每個(gè)幀之前,瞬時(shí)音頻定標(biāo)器首先確定當(dāng)前片段的類型,然后對(duì)識(shí)別的片段類型施加專用的擴(kuò)展或壓縮處理。例如,在包括語(yǔ)音的音頻信號(hào)中,任何特定幀的每個(gè)片段將是包括語(yǔ)音或一些其他有聲言語(yǔ)的“有聲”片段、不包括任何語(yǔ)音或其他言語(yǔ)的“無(wú)聲”片段、或包括有聲和無(wú)聲成分的“混合“片段。
為了達(dá)到最佳結(jié)果,瞬時(shí)音頻定標(biāo)器提供可變的擴(kuò)展和壓縮,其專門用于正被擴(kuò)展和壓縮的特定片段類型。因此,一旦識(shí)別片段的具體類型,即,有聲的、無(wú)聲的、或混合的,專門用于特定片段類型的擴(kuò)展或壓縮過(guò)程被施加給片段幀,用于擴(kuò)展或壓縮當(dāng)前幀。注意,為每個(gè)幀類型使用每個(gè)個(gè)性化方法,盡可能小地更改每個(gè)幀的末端,或者一點(diǎn)也不改動(dòng),以便確保更好地過(guò)渡到仍然未知的語(yǔ)音片段。
另外,指定各種片段類型和上述擴(kuò)展方法,仍然存在在當(dāng)前幀中的哪個(gè)點(diǎn)是擴(kuò)展該幀的最好點(diǎn)。例如,甚至在相對(duì)短的幀中,比如信號(hào)的20毫秒部分,經(jīng)常存在一個(gè)或多個(gè)過(guò)渡點(diǎn)或甚至幾毫秒的寂靜。在該情況下,選擇幀被擴(kuò)展的特定點(diǎn)是有利的。因此,在一個(gè)實(shí)施例中,采用擴(kuò)展“質(zhì)量”的方法,其中基于每個(gè)片段能量(低能量更好)的組合來(lái)確定擴(kuò)展的位置,并且發(fā)現(xiàn)標(biāo)準(zhǔn)化相關(guān)系數(shù)用于與其相匹配的片段(越高越好)。
例如,在一般情況下,20毫秒幀可分為4個(gè)子幀或每個(gè)5毫秒片段,或可測(cè)試地,潛在地分為重疊子幀,該子幀近似具有估計(jì)的音調(diào)周期。如果特定子幀的計(jì)算能量足夠低,那么就認(rèn)為過(guò)渡存在于該幀中。然后選擇最低能量子幀用于擴(kuò)展。然而,如果能量不是足夠低,那么過(guò)渡未必存在于該幀中,并且每個(gè)子幀的匹配的標(biāo)準(zhǔn)化自相關(guān)被用來(lái)選擇最佳匹配以便擴(kuò)展。
通常,以與上述擴(kuò)展片段類似的方式處理幀中片段的壓縮于上述。例如,當(dāng)壓縮該片段時(shí),從片段中選擇模板,并且執(zhí)行匹配搜尋。一旦識(shí)別該匹配,片段被開(kāi)窗、重疊和增加。然而,如果標(biāo)準(zhǔn)化互相關(guān)太小,如上所述,該片段很可能是無(wú)聲片段。在該情況中,使用隨機(jī)或預(yù)定的移動(dòng)與諸如恒定平方和窗口的開(kāi)窗函數(shù)一起,將片段壓縮到理想數(shù)量。
而且,也要重點(diǎn)考慮選擇要壓縮的特定片段。例如,不是在幀中等同壓縮所有的片段,而是一般通過(guò)首先確定片段的類型,如上所述,然后基于它們的類型有選擇地壓縮特定片段可,來(lái)獲得更好的結(jié)果。例如,壓縮表示語(yǔ)音、寂靜或簡(jiǎn)單噪音的片段,同時(shí)避免無(wú)聲片段或瞬態(tài)壓縮,將產(chǎn)生具有較少可感知的人工產(chǎn)物的重構(gòu)信號(hào)。接著,如果通過(guò)壓縮表示語(yǔ)音、寂靜或簡(jiǎn)單噪音的片段不能實(shí)現(xiàn)充分壓縮,則以上述的方式壓縮無(wú)過(guò)渡無(wú)聲片段。最后,如果通過(guò)壓縮有聲片段或無(wú)過(guò)渡無(wú)聲片段不能達(dá)到充分壓縮,壓縮包括過(guò)渡的片段。當(dāng)然,如果不能提前計(jì)算在每個(gè)類型中的壓縮機(jī)會(huì),則在每步中可以計(jì)算壓縮的最佳片段。對(duì)于壓縮的分級(jí)方法用來(lái)限制在重構(gòu)信號(hào)中可感知的人工產(chǎn)物。
2.2系統(tǒng)結(jié)構(gòu)通過(guò)圖2的普通系統(tǒng)框圖來(lái)描述上面概述的過(guò)程。具體地,圖2的系統(tǒng)框圖描述了用于實(shí)現(xiàn)瞬時(shí)音頻定標(biāo)器的程序模塊之間的相互關(guān)系,該瞬時(shí)音頻定標(biāo)器用于擴(kuò)展和壓縮音頻信號(hào)的幀。應(yīng)當(dāng)注意,通過(guò)圖2中折線或虛線表示的方框和方框之間的相互連接表示在此描述的瞬時(shí)音頻定標(biāo)器的替換實(shí)施例,并且任何或所有這些替換實(shí)施例,如下所述,可用于結(jié)合整個(gè)文獻(xiàn)中描述的其他替換實(shí)施例。
如圖2所示,用于實(shí)時(shí)擴(kuò)展和壓縮音頻信號(hào)幀的系統(tǒng)和方法開(kāi)始通過(guò)信號(hào)輸入模塊200接收輸入信號(hào)。該信號(hào)輸入模塊200接收音頻信號(hào),該信號(hào)剛好已經(jīng)被產(chǎn)生、或被存儲(chǔ)在計(jì)算機(jī)中,或者從通過(guò)數(shù)據(jù)包網(wǎng)絡(luò)傳送的打包的音頻信號(hào)中被解碼,該數(shù)據(jù)包網(wǎng)絡(luò)如因特網(wǎng)、或其他包括傳統(tǒng)話音通信網(wǎng)絡(luò)的數(shù)據(jù)包網(wǎng)絡(luò)。由于信號(hào)輸入模塊200接收或解碼該數(shù)據(jù)包,他們被提供給幀提取模塊205。幀提取模塊205從輸入信號(hào)中提取當(dāng)前幀。
在一個(gè)實(shí)施例中,幀提取模塊205給音調(diào)估計(jì)模塊210提供當(dāng)前幀,音調(diào)估計(jì)模塊210估計(jì)幀中的片段或整個(gè)幀的音調(diào)周期。在該實(shí)施例中,選擇的片段近似于幀的平均音調(diào)周期的長(zhǎng)度。然而,也可以為計(jì)算效率選擇實(shí)際片段長(zhǎng)度,例如,使用較小片段較容易產(chǎn)生FFT計(jì)算。而且,如章節(jié)3.2中進(jìn)一步詳細(xì)描述的,這些基于音調(diào)周期的片段可以重疊。包括當(dāng)前幀的片段被提供給片段類型檢測(cè)模塊215。
可替換地,幀提取模塊205直接將當(dāng)前幀提供給片段類型檢測(cè)模塊215,其簡(jiǎn)單地將幀分為多個(gè)相等長(zhǎng)度的片段。
在其他情況下,片段類型檢測(cè)模塊215通后確定在當(dāng)前幀中的片段的類型,并將當(dāng)前幀分別提供給合適的擴(kuò)展模塊220、225,230或壓縮模塊240。具體地,該片段類型檢測(cè)模塊215首先確定當(dāng)前幀是否包括有聲片段,無(wú)聲片段,或混合片段。在幀即將被擴(kuò)展的情況下,該片段類型檢測(cè)模塊然后將當(dāng)前幀提供給有聲片段擴(kuò)展模塊220、無(wú)聲片段擴(kuò)展模塊225、或混合片段擴(kuò)展模塊230。在當(dāng)前幀即將被壓縮的情況下,該片段類型檢測(cè)模塊將當(dāng)前幀提供給片段壓縮模塊240。
有聲片段擴(kuò)展模塊220如章節(jié)3.2.1中詳細(xì)描述的那樣,通過(guò)使用開(kāi)窗重疊相加(SOLA)方法用于校準(zhǔn)和合并與具有幀的模板相匹配的信號(hào)部分。然而,與用于擴(kuò)展有聲片段的傳統(tǒng)系統(tǒng)不同,該瞬時(shí)音頻定標(biāo)器的有聲片段擴(kuò)展模塊220還通過(guò)交替片段的位置用作參考或模板的,來(lái)減小重構(gòu)信號(hào)中可感知周期的人工產(chǎn)物,以便該模板不總是根據(jù)傳統(tǒng)語(yǔ)音擴(kuò)展算法而取自片段的末端。具體地,該模板可取自幀的末端、幀的開(kāi)頭、或取自幀中的各種位置。
相反,無(wú)聲片段擴(kuò)展模塊225如章節(jié)3.2.2詳細(xì)描述的那樣工作,用于通過(guò)產(chǎn)生一個(gè)或多個(gè)合成信號(hào)片段來(lái)擴(kuò)展幀的當(dāng)前片段,該合成信號(hào)片段然后插入到幀的當(dāng)前片段??傊?,通過(guò)合成非周期性信號(hào)以任意理想長(zhǎng)度產(chǎn)生合成片段,該非周期性信號(hào)具有與當(dāng)前幀類似的頻譜。而且,理想的是合成的信號(hào)與原始幀無(wú)關(guān),以避免將周期性引入到合成信號(hào)中。
例如,在一個(gè)實(shí)施例中,通過(guò)計(jì)算所有或部分當(dāng)前幀的傅立葉變化,依靠是否插入單個(gè)或多個(gè)片段,將相位的隨機(jī)旋轉(zhuǎn)引入到FFT系數(shù)中,然后為每個(gè)片段簡(jiǎn)單地計(jì)算反向FFT可實(shí)現(xiàn)上述內(nèi)容。由此產(chǎn)生的信號(hào)片段具有類似的頻譜,但與原始片段無(wú)關(guān)。另外,在計(jì)算FFT之前通過(guò)零填充該信號(hào)可獲得較長(zhǎng)的信號(hào)。使用開(kāi)窗函數(shù)來(lái)平滑在原始片段和產(chǎn)生的片段之間的過(guò)渡點(diǎn),使得這些合成信號(hào)被插入到幀的當(dāng)前片段的中部。
混合片段擴(kuò)展模塊230通過(guò)使用上述的有聲和無(wú)聲方法,如章節(jié)3.3詳細(xì)描述那樣工作。具體地,使用有聲和無(wú)聲方法從當(dāng)前混合幀中產(chǎn)生信號(hào)。這些信號(hào)然后被組合以產(chǎn)生包括有聲和無(wú)聲信號(hào)的合成信號(hào)。在一個(gè)實(shí)施例中,相對(duì)于有聲或無(wú)聲數(shù)據(jù)的成比例內(nèi)容,通過(guò)加權(quán)模塊235,形成合成信號(hào)的部分被加權(quán),該內(nèi)容通過(guò)上述標(biāo)準(zhǔn)化互相關(guān)峰值確定。
片段壓縮模塊240,如章節(jié)3.4所述那樣工作。通常,以類似于上述用于擴(kuò)展片段的方式來(lái)處理片段壓縮。具體地,在幀或片段類型的基礎(chǔ)上處理片段壓縮,類似于上述幀或片段的擴(kuò)展。注意在圖2種為了清楚起見(jiàn),片段壓縮被顯示為稱為“片段壓縮模塊240”的單個(gè)程序模塊,而不是利用三個(gè)程序模塊以表示各種片段類型的壓縮。然而,應(yīng)當(dāng)理解,基本片段類型,即有聲片段、無(wú)聲片段和混合片段的擴(kuò)展,這些相同片段類型的壓縮仍將利用對(duì)于每個(gè)片段類型是專用的不同方法來(lái)處理。
具體地,當(dāng)壓縮有聲片段時(shí),從片段中選擇模板,并且執(zhí)行用于匹配的搜索。一旦識(shí)別匹配,該片段被開(kāi)窗、重疊和相加,截?cái)嘣谀0搴推ヅ渲g的信號(hào)。結(jié)果,該片段被縮短、或壓縮。相反,當(dāng)壓縮無(wú)聲片段時(shí),使用隨機(jī)或預(yù)定轉(zhuǎn)移與諸如恒定平方和窗口的開(kāi)窗函數(shù)一起,將片段壓縮到理想數(shù)量。最后,利用有聲和無(wú)聲方法加權(quán)組合壓縮混合信號(hào)。然而,如在章節(jié)3.4中進(jìn)一步詳細(xì)討論的,存在清楚的優(yōu)先順序(有聲第一、無(wú)聲次之、混合片段最后)用于壓縮各種片段類型,在一個(gè)或多個(gè)幀上達(dá)到理想或目標(biāo)壓縮比。注意經(jīng)過(guò)幀的擴(kuò)展,在片段壓縮期間要小心避免片段端點(diǎn)的修改,以免在幀或片段之間引入瞬態(tài)或音頻人工產(chǎn)物。
在所有情況下,有聲的、無(wú)聲的、或混合的,分別對(duì)應(yīng)擴(kuò)展模塊220、225、230或壓縮模塊240,然后將擴(kuò)展或壓縮的幀提供給擴(kuò)展和壓縮幀的緩沖器245。注意,在一個(gè)實(shí)施例中使用瞬時(shí)幀緩沖器250,以允許最近的過(guò)去的信號(hào)中搜尋用于匹配當(dāng)前模板的片段。一旦擴(kuò)展或壓縮的片段已經(jīng)提供給擴(kuò)展和壓縮幀的緩沖器245,確定255是否已經(jīng)達(dá)到理想或目標(biāo)擴(kuò)展或壓縮。如果沒(méi)有,通過(guò)將實(shí)際和目標(biāo)值之間的差值簡(jiǎn)單地添加到下一幀260,將目標(biāo)擴(kuò)展或壓縮之間的差值化為用于下一幀的目標(biāo)壓縮的因子。在其他情況下,就這一點(diǎn),從輸入信號(hào)中提取205下一幀,并且重復(fù)如上所述的過(guò)程,直到輸入信號(hào)的末端到達(dá),或該過(guò)程終止。在一些應(yīng)用中,如果在輸入上沒(méi)有信號(hào)可容易地獲得,從信號(hào)中選擇的幀仍舊存在于緩沖器245中。
注意,理想的,擴(kuò)展或壓縮幀的緩沖器245對(duì)于重放或進(jìn)一步處理是有用的。因此,在一個(gè)實(shí)施例中,信號(hào)輸出模塊270提供應(yīng)用接口,用于輸出擴(kuò)展和壓縮的幀。例如,這種幀可以為作為基于語(yǔ)音的通信系統(tǒng)一部分的收聽(tīng)者播放。
3.0操作概述上述程序模塊用于瞬時(shí)音頻定標(biāo)器,該定標(biāo)器用于提供音頻文件片段的自動(dòng)瞬時(shí)定標(biāo)。通常,如上總結(jié)的,該瞬時(shí)定標(biāo)提供在片段上可執(zhí)行的擴(kuò)展和壓縮,該片段如同單個(gè)信號(hào)幀那樣小。由瞬時(shí)音頻定標(biāo)器提供的擴(kuò)展和壓縮的可變性允許來(lái)自將被補(bǔ)償?shù)睦硐氡嚷实膲嚎s比在下一幀上有較小變化,同時(shí)使用“接續(xù)”技術(shù)保持整體平均理想壓縮(或擴(kuò)展)比。下面的章節(jié)提供示例性方法的詳細(xì)操作討論,該方法用于實(shí)現(xiàn)在章節(jié)2中描述的程序模塊。
3.1用于保持目標(biāo)壓縮/擴(kuò)展比的接續(xù)如上所述,該瞬時(shí)音頻定標(biāo)器使用“接續(xù)”過(guò)程用于幀的可變壓縮或擴(kuò)展,同時(shí)為整個(gè)信號(hào)保持理想壓縮/擴(kuò)展比。例如,如果用于特定信號(hào)的目標(biāo)壓縮比是2∶1,并且每個(gè)輸入幀具有300個(gè)采樣,則每個(gè)目標(biāo)輸出幀將名義上具有150個(gè)采樣。然而,例如,如果特定幀被壓縮到180個(gè)采樣而不是150個(gè)采樣,通過(guò)設(shè)置它的目標(biāo)壓縮比為120個(gè)采樣,在下一幀中補(bǔ)償額外的30個(gè)采樣。因此,根據(jù)180和120的塊大小,平均塊大小仍然是150,具有2∶1的平均壓縮比。注意,基于下一幀的該內(nèi)容(即,片段類型),壓縮到120個(gè)采樣不會(huì)提供最佳結(jié)果。因此,120個(gè)采樣范例只是目標(biāo),根據(jù)實(shí)際壓縮、或擴(kuò)展,用于設(shè)置后續(xù)幀的目標(biāo)壓縮或擴(kuò)展,以便確保理想的平均值。
因此,一個(gè)以上的后續(xù)幀可以被擴(kuò)展或壓縮,以保持理想的平均值。例如,使用上述范例,如果在被壓縮到180個(gè)采樣的幀后面的幀被壓縮到130個(gè)采樣,那么用于下一幀的目標(biāo)壓縮是140個(gè)采樣的目標(biāo)壓縮,以便在三個(gè)幀上提供150個(gè)采樣的平均值。通過(guò)使用該接續(xù)技術(shù),可保持任何理想的壓縮(或擴(kuò)展)比,同時(shí)對(duì)任何特定輸出幀的長(zhǎng)度保持寬松的要求。
該接續(xù)技術(shù)的結(jié)果是對(duì)通過(guò)擴(kuò)展或壓縮而丟失或延遲的數(shù)據(jù)包的補(bǔ)償非常靈活,因?yàn)槿缢枰?,每個(gè)單獨(dú)的幀被最優(yōu)地?cái)U(kuò)展或壓縮,用于最小化在重構(gòu)信號(hào)中任何可感知的人工產(chǎn)物。瞬時(shí)音頻定標(biāo)器能實(shí)現(xiàn)許多諸如去抖動(dòng)的應(yīng)用,在實(shí)時(shí)通信系統(tǒng)中數(shù)據(jù)包丟失隱藏。
3.2基于內(nèi)容的片段擴(kuò)展如上所述,在擴(kuò)展或壓縮每個(gè)幀之前,瞬時(shí)音頻定標(biāo)器首先確定當(dāng)前幀的類型,然后對(duì)當(dāng)前幀施加幀類型專用的擴(kuò)展或壓縮處理。例如,在包括語(yǔ)音的音頻信號(hào)中,每個(gè)幀將是包括語(yǔ)音或一些其他言語(yǔ)的“有聲”幀、不包括任何語(yǔ)音或其他言語(yǔ)的“無(wú)聲”幀、或包括有聲和無(wú)聲成分的“混合”幀。為了達(dá)到最佳結(jié)果,該瞬時(shí)音頻定標(biāo)器提供專用于被擴(kuò)展和壓縮的特定幀類型的變化的擴(kuò)展和壓縮。因此,獨(dú)一無(wú)二的擴(kuò)展和壓縮方法被施加給每個(gè)類型的幀,即有聲的、無(wú)聲的、或混合的。
因此,在擴(kuò)展或壓縮當(dāng)前幀之前應(yīng)確定該幀是否是有聲的、無(wú)聲的或混合的。在進(jìn)行確定時(shí),人類語(yǔ)音的自然周期性時(shí)有用的指導(dǎo)。通常,作為與信號(hào)匹配的潛在周期部分近似程度的函數(shù),做出關(guān)于片段類型的確定。例如,在擴(kuò)展或壓縮仍沒(méi)有被播放的音頻信號(hào)的特定采樣中,第一步是從被擴(kuò)展或壓縮的采樣中選擇較小片段或子幀。因?yàn)橄乱徊绞前l(fā)現(xiàn)信號(hào)中類似或近似匹配的片段,所以該子幀被稱作“模板”。注意,該匹配片段可以處于被壓縮的采樣中,或者處于以前播放的片段中。因此,只要有效,最近播放的片段被保存在臨時(shí)緩沖中用于定位匹配片段。通過(guò)使用傳統(tǒng)信號(hào)匹配技術(shù),如標(biāo)準(zhǔn)化互相關(guān)方法或類似技術(shù),來(lái)搜尋與模板匹配的片段。而且,該搜尋范圍最好限制在與信號(hào)的“音調(diào)”兼容的范圍內(nèi)。
如本領(lǐng)域技術(shù)人員所公知的,通過(guò)聲帶的振動(dòng)產(chǎn)生有聲聲音,如語(yǔ)音,該聲帶將氣流調(diào)制到擬周期脈沖,激勵(lì)聲道中的共鳴。這些脈沖的重復(fù)率通常稱為基本頻率或“音調(diào)”。通常,該有聲音頻片段的周期性,或“音調(diào)周期”表示在表示有聲聲音片段的時(shí)域中最大幅度正峰值或負(fù)峰值之間的時(shí)間。盡管實(shí)際上語(yǔ)音信號(hào)不具有完美的周期性,估計(jì)的音調(diào)頻率和它的倒數(shù)即音調(diào)周期在模擬語(yǔ)音信號(hào)中仍非常有用。注意該討論均參考音調(diào)和音調(diào)周期。存在非常詳細(xì)的方法用于確定音調(diào)。然而,由于這些概念對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)是公知的,在此描述的音調(diào)和音調(diào)周期的確定將是簡(jiǎn)單基于發(fā)現(xiàn)互相關(guān)峰值的一個(gè)基礎(chǔ)。
因此,由于音調(diào)或人類語(yǔ)音的周期性或言語(yǔ),具有有聲片段的部分信號(hào)將自然具有高的周期性。因此,標(biāo)準(zhǔn)化互相關(guān)的峰值強(qiáng)度提供認(rèn)識(shí)特定片段是否是有聲的、無(wú)聲的,或混合的,而峰值的位置提供音調(diào)周期實(shí)際值的估計(jì)。例如,由于包含較多語(yǔ)音的片段,標(biāo)準(zhǔn)化互相關(guān)峰值將增加,并且由于包含較少語(yǔ)音的片段,在信號(hào)中一般將存在較小的周期性,導(dǎo)致較小的標(biāo)準(zhǔn)互相關(guān)峰值。
標(biāo)準(zhǔn)化互相關(guān)的峰值與預(yù)定閾值進(jìn)行比較,用于確定特定片段是否是有聲片段、無(wú)聲片段、或有聲和無(wú)聲片段的混合,即混合片段。在測(cè)試的實(shí)施例中,在約.4到約.95之間的峰值被用于識(shí)別混合片段,大于約.95的峰值被用于識(shí)別有聲片段,并且小于約.4的峰值被用于識(shí)別無(wú)聲片段。一旦識(shí)別片段的具體類型,片段類型專用擴(kuò)展或壓縮處理被施加給當(dāng)前幀,用于理想地?cái)U(kuò)展或壓縮該幀。在其他測(cè)試的實(shí)施例中,沒(méi)有幀被歸類為混合幀,并且在有聲和無(wú)聲幀之間的閾值被設(shè)置在.65。
3.2.1擴(kuò)展有聲片段當(dāng)擴(kuò)展幀中的有聲片段時(shí),開(kāi)窗重疊相加(SOLA)方法用于校準(zhǔn)和合并幀的匹配部分。通常,窗口被分割為上升部分即wa[n],和衰減部分即wb[n]。該重疊信號(hào)然后乘以這些窗口以平滑該過(guò)渡。具體地,延伸到過(guò)去的信號(hào)乘以衰減窗口,而延伸到將來(lái)的信號(hào)將乘以上升窗口。而且,因?yàn)樾?zhǔn)的信號(hào)是相關(guān)的,傳統(tǒng)窗口,如Hanning窗口開(kāi)始是零并當(dāng)相加時(shí)總和為1,即wa[n]+wb[n]=1,該窗口被用于消除或減小在幀的擴(kuò)展部分的邊界上的人工產(chǎn)物。這種窗口對(duì)本領(lǐng)域技術(shù)人員是公知的。
然而,不像用于擴(kuò)展有聲片段的傳統(tǒng)系統(tǒng),該瞬時(shí)音頻定標(biāo)器還通過(guò)交替片段的位置用作參考或模板,來(lái)減小在重構(gòu)信號(hào)中可感知周期的人工產(chǎn)物,以便不像傳統(tǒng)語(yǔ)音算法那樣,該模板不總是取自片段的末端。具體地,該模板可以取自幀的末端、幀的開(kāi)頭、或幀中的各種位置。例如,在一個(gè)實(shí)施例中,定位該模板以便將過(guò)渡窗口的中點(diǎn)定位在波形的低能量點(diǎn)上。該模板的定位還用于減小在重構(gòu)信號(hào)中可感知的人工產(chǎn)物。注意,根據(jù)需要多次重復(fù)該擴(kuò)展過(guò)程,以實(shí)現(xiàn)對(duì)當(dāng)前幀擴(kuò)展的理想級(jí)別。
在測(cè)試的實(shí)施例中,如圖3所示,音調(diào)的初步估計(jì)被用于估計(jì)片段需要被擴(kuò)展(或壓縮)的次數(shù),以實(shí)現(xiàn)理想長(zhǎng)度。具體地,每個(gè)迭代將壓縮或擴(kuò)展信號(hào)大約一個(gè)音調(diào)周期,因此迭代數(shù)量即K的較好估計(jì),將由公式1提供,如下K=|M-N|/p0公式1其中p0是當(dāng)前片段的初步音調(diào)估計(jì)。在被擴(kuò)展的片段上均勻的分布該模板。而且,如果信號(hào)的過(guò)去歷史是有效的,在模板之前的區(qū)域中搜尋匹配??商鎿Q地,如果過(guò)去歷史無(wú)效,基于更多有效數(shù)據(jù)的位置,在當(dāng)前片段之前或之后將搜尋匹配。
具體地,如圖3所示,從正在輸入的音頻信號(hào)中得到下一當(dāng)前幀x[n]300開(kāi)始該過(guò)程。然后,為使用的傳統(tǒng)方法計(jì)算310初步音調(diào)估計(jì)p0。在一個(gè)實(shí)施例中,用于當(dāng)前幀的初步音調(diào)估計(jì)僅僅是接收幀的平均音調(diào)。
下面,作為初步音調(diào)估計(jì)p0、當(dāng)前片段大小、和理想幀大小的函數(shù),估計(jì)320用于擴(kuò)展信號(hào)所需的迭代數(shù)量。例如,因?yàn)槊總€(gè)迭代將擴(kuò)展或壓縮該信號(hào)將近一個(gè)音調(diào)周期,使用諸如公式1提供的方法可容易地估計(jì)迭代的數(shù)量。顯然,通過(guò)在當(dāng)前片段大小和理想大小之間分配差值,并且除以估計(jì)的音調(diào)大小,該結(jié)果是迭代數(shù)量的較好估計(jì),該迭代數(shù)量是擴(kuò)展或壓縮該片段到理想大小所需的。
一旦迭代的數(shù)量已經(jīng)被估計(jì)320,迭代計(jì)數(shù)器即i被初始化為零330。然后再次使用傳統(tǒng)技術(shù),在但前片段中、在用于當(dāng)前片段的小部分即子片段或子幀的當(dāng)前采樣位置即s[i],估計(jì)音調(diào)p340。然后使用傳統(tǒng)的開(kāi)窗重疊相加(SOLA)方法350,用于用該音調(diào)周期滑動(dòng)該模板,重疊該模板,并增加該片段,以通過(guò)在位置s[i]的片段的音調(diào)周期長(zhǎng)度擴(kuò)展該片段。
然后確定是否已經(jīng)達(dá)到理想的片段大小360。如果沒(méi)有到達(dá)理想的大小360,那么作為迭代數(shù)量K的函數(shù),當(dāng)前采樣定位的位置即s[i]被調(diào)整,并且用于估計(jì)音調(diào)p340和開(kāi)窗350以擴(kuò)展該片段的上述步驟被重復(fù),直到達(dá)到理想的片段大小360。最后,一旦到達(dá)理想大小360,將擴(kuò)展的幀輸出380給擴(kuò)展幀的緩沖器390用于重放或使用。而且,在此時(shí)也確定是否存在更多將要處理的幀395。如果不存在更多要處理的幀395,過(guò)程終止。然而,如果存在更多要處理的幀395,得到下一當(dāng)前幀300,并且從310到395重復(fù)上述步驟。
而且,當(dāng)從幀的末端選擇模板時(shí),為了匹配片段,通過(guò)最傳統(tǒng)的語(yǔ)音擴(kuò)展系統(tǒng),在過(guò)去中搜尋,即通過(guò)信號(hào)中的早期搜尋來(lái)實(shí)現(xiàn)模板的匹配。因此,在該情況下,基于幀和模板的長(zhǎng)度,有必要保持一個(gè)或多個(gè)已播放的幀的緩沖。利用傳統(tǒng)技術(shù)校準(zhǔn)和合并該匹配片段,如關(guān)于步驟350的描述,因此擴(kuò)展當(dāng)前幀的長(zhǎng)度。
可替換地,與傳統(tǒng)的語(yǔ)音擴(kuò)展系統(tǒng)不同,瞬時(shí)音頻定標(biāo)器也能從幀的開(kāi)頭提取模板。在該情況下,為了匹配片段,有必要在將來(lái),即在信號(hào)的后期進(jìn)行搜尋,尤其是當(dāng)過(guò)去的幀無(wú)效時(shí)。因此,在該情況下,有必要延遲緩沖的幀,以便通過(guò)到信號(hào)的本地將來(lái)中搜尋匹配當(dāng)前模板的片段,允許在播放該幀之前擴(kuò)展當(dāng)前幀。這可以實(shí)現(xiàn),通過(guò)要求幀大小足夠的常以包含多個(gè)音調(diào)周期。
而且,還與傳統(tǒng)語(yǔ)音擴(kuò)展系統(tǒng)不同,除了從幀的末尾或開(kāi)頭選擇模板外,也可以在幀內(nèi)從當(dāng)前幀的開(kāi)頭和末尾之間某個(gè)位置上選擇模板。在該情況下,如上所述,基于在當(dāng)前幀中選擇的模板的位置,通過(guò)到過(guò)去或未來(lái)中進(jìn)行搜尋,識(shí)別對(duì)模板的匹配。
在一個(gè)實(shí)施例中,交替選擇模板的位置以將可感知的人工產(chǎn)物的引入最小化,該可感知的人工產(chǎn)物源于在當(dāng)前幀中的任何點(diǎn)上過(guò)于一致的周期。由于施加給任何指定的幀的擴(kuò)展量增加超過(guò)幾個(gè)音調(diào)周期,所以該能力變得尤其重要。實(shí)際上,因?yàn)榭梢砸笠粋€(gè)以上的擴(kuò)展操作以實(shí)現(xiàn)用于任何指定幀的理想的幀長(zhǎng)度,所以以上述方式,可為在當(dāng)前幀中的每個(gè)操作選擇不同的模板用于重復(fù)的擴(kuò)展操作,以便在任何指定點(diǎn)的周期性不會(huì)導(dǎo)致顯著的人工產(chǎn)物。
而且,在一個(gè)實(shí)施例中,順是音頻定標(biāo)器也使用可變的片段大小,其類似于為當(dāng)前幀計(jì)算的平均音調(diào)周期的大小。而且,在有關(guān)的實(shí)施例中,然后通過(guò)將用于當(dāng)前幀的擴(kuò)展的理想或目標(biāo)長(zhǎng)度除以用于當(dāng)前幀的平均估計(jì)音調(diào)周期來(lái)估計(jì)擴(kuò)展迭代的數(shù)量,并且接著舍入到下面的整數(shù)。在該實(shí)施例中,當(dāng)前幀被分為與估計(jì)的擴(kuò)展迭代數(shù)量相等的多個(gè)模板,每個(gè)模板具有與平均估計(jì)的音調(diào)周期相等的大小。在整個(gè)當(dāng)前幀中均等地分隔這些模板。因此,基于模板的長(zhǎng)度、模板的數(shù)量、和幀的長(zhǎng)度,模板可以重疊。
在有關(guān)的實(shí)施例中,為了確保在擴(kuò)展操作最小化人工產(chǎn)物,通過(guò)確保模板被定位在幀中,來(lái)最小化每個(gè)模板中的能量,以便每個(gè)模板只包括一個(gè)本地信號(hào)峰值。具體地,在幀中幾乎統(tǒng)一定位該模板,以便在任何的定樣本中的任何本地信號(hào)峰值近似為模板長(zhǎng)度的1/3到1/2左右,模板長(zhǎng)度來(lái)自于模板的每一個(gè)邊緣。這種在幀中的模板位置用來(lái)確保每個(gè)模板將只包含一個(gè)本地信號(hào)峰值。因此,每個(gè)模板包含的信號(hào)能量被最小化,因而允許在擴(kuò)展信號(hào)中有較少人工產(chǎn)物的情況下進(jìn)行擴(kuò)展。
3.2.2擴(kuò)展無(wú)聲片段無(wú)聲片段即寂靜、噪音、其他非周期聲音等的擴(kuò)展將以較大不同的方式進(jìn)行處理。具體地,與擴(kuò)展有聲片段的過(guò)程不同,其中重復(fù)一個(gè)或多個(gè)與模板匹配的片段用于增加片段的長(zhǎng)度,這對(duì)于避免引入周期性是重要的。原因是,聽(tīng)眾可以容易地識(shí)別出這種片段中人工引入的周期性,并且這種周期性將表現(xiàn)為在重構(gòu)的擴(kuò)展信號(hào)中的信號(hào)人工產(chǎn)物。因此,不是增加匹配該模板的片段,而取而代之的是,通過(guò)產(chǎn)生理想長(zhǎng)度的并具有類似于當(dāng)前片段的功率頻譜的不同信號(hào)片段來(lái)修改當(dāng)前片段。然后使用開(kāi)窗函數(shù)將產(chǎn)生的信號(hào)插入到當(dāng)前片段的中部,以平滑在原始片段和產(chǎn)生的片段之間的過(guò)渡點(diǎn)。而且,在相關(guān)的實(shí)施例中,產(chǎn)生的片段的能量被進(jìn)一步減小了大約30%左右的預(yù)定百分比,以便進(jìn)一步減小在重構(gòu)信號(hào)中的任何顯著的人工產(chǎn)物。
在其他有關(guān)的實(shí)施例中,不是利用單個(gè)合成片段來(lái)擴(kuò)展無(wú)聲幀,而是產(chǎn)生多個(gè)合成片段,并插入到原始無(wú)聲幀中的不同點(diǎn)中,以達(dá)到總的理想的幀長(zhǎng)度。該實(shí)施例也提供利用較小FFT計(jì)算較小合成片段的優(yōu)點(diǎn),并因此可以要求減小計(jì)算開(kāi)銷。注意,同使用單個(gè)較長(zhǎng)合成信號(hào)片段相比,該實(shí)施例的出現(xiàn)將產(chǎn)生感知優(yōu)良的擴(kuò)展幀。在該實(shí)施例中,幀的各種片段被等同地?cái)U(kuò)展、或壓縮。例如,在測(cè)試的實(shí)施例中,F(xiàn)FT的大小被設(shè)置為預(yù)定長(zhǎng)度,例如128個(gè)采樣。
然后計(jì)算重疊需要獲得理想的最終大小的片段的數(shù)量。注意,計(jì)算應(yīng)當(dāng)考慮不需要修改幀的開(kāi)頭或末尾。這可實(shí)現(xiàn),通過(guò)不改變第一和最后的片段,僅僅在其中或在其外混合(重疊/相加)相鄰的(可能合成的)片段。因此,在計(jì)算要被計(jì)算的合成片段的數(shù)量中,從幀長(zhǎng)度中減去幀的第一和最后半個(gè)片段。因而,容易的通過(guò)如下所示的公式2計(jì)算相等大小的合成片段的數(shù)量n(并因此計(jì)算在當(dāng)前幀中的原始片段的數(shù)量)n=final_size*2FFT_Size-1]]>公式2通過(guò)將片段插入到幀的n個(gè)片段的每個(gè)片段的中心,計(jì)算的n個(gè)合成片段于是被均勻地分布在幀中。
在其他情況下,產(chǎn)生該合成的信號(hào)片段使之具有與當(dāng)前幀類似的功率頻譜。這可以實(shí)現(xiàn),通過(guò)計(jì)算所有或部分當(dāng)前幀的傅立葉變換,依靠是否插入單個(gè)或多個(gè)片段,將相位的隨機(jī)旋轉(zhuǎn)引入到FFT系數(shù)中,并且對(duì)每個(gè)片段簡(jiǎn)單的計(jì)算反向FFT。產(chǎn)生的信號(hào)片段具有類似頻譜,但與原始片段無(wú)關(guān)。另外,通過(guò)在計(jì)算FFT之前進(jìn)行零填充該信號(hào)可獲得較長(zhǎng)的信號(hào)。
注意,對(duì)于有關(guān)產(chǎn)生合成片段而描述的特定實(shí)施例,上述提供的范例不意味著限制瞬時(shí)音頻定標(biāo)器的范圍。具體地,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)清楚存在多個(gè)用于產(chǎn)生信號(hào)的傳統(tǒng)技術(shù),該信號(hào)具有類似頻譜,并與原始信號(hào)無(wú)關(guān)。例如包括,隨機(jī)信號(hào)的LPC濾波的任何這種技術(shù)和其他傳統(tǒng)技術(shù)可用于產(chǎn)生該合成信號(hào)片段。
如上所述,當(dāng)前幀被分為兩個(gè)或多個(gè)部分,并且只將合成的片段插入到幀的分開(kāi)部分中,通過(guò)開(kāi)窗和重疊來(lái)平滑在合成片段和原始幀之間的過(guò)渡。注意,在上述任何一個(gè)實(shí)施例中,幀或片段的開(kāi)頭和末尾完全沒(méi)有改變。因此,該過(guò)程可避免人工產(chǎn)物的產(chǎn)生或來(lái)自非匹配幀或片段邊界的人工產(chǎn)物。
而且,與用于有聲片段的開(kāi)窗不同,在此使用的優(yōu)選的重疊平滑窗口是不同的。例如,盡管用于擴(kuò)展有聲片段的信號(hào)的重疊部分是相關(guān)的,但在無(wú)聲情況下的信號(hào)的重疊部分理論上是無(wú)關(guān)的。因此,通過(guò)使用窗口,如傳統(tǒng)的正弦窗口可在邊界點(diǎn)上達(dá)到更好的結(jié)果,即減小人工產(chǎn)物,該正弦窗口保持能量恒定并當(dāng)平方和相加時(shí)總和為一,即(wa[n])2+(wb[n])2=1。這種窗口對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)是公知的。該過(guò)程通常由圖4的步驟400到480表示。
具體地,如圖4所示,用于從當(dāng)前信號(hào)幀中產(chǎn)生合成信號(hào)片段的一個(gè)實(shí)施例,通過(guò)從輸入的音頻信號(hào)中獲得下一個(gè)當(dāng)前幀x[n]400而開(kāi)始。下面,在一個(gè)實(shí)施例中,該當(dāng)前幀、或片段x[n]被零填充410,從而產(chǎn)生具有足夠長(zhǎng)度的合成片段,以達(dá)到理想的幀長(zhǎng)度。具體地,在該實(shí)施例中通過(guò)用多個(gè)零簡(jiǎn)單填充x[n]來(lái)確定零填充410的數(shù)量,該多個(gè)零等于在當(dāng)前幀或片段長(zhǎng)度,和理想幀或片段長(zhǎng)度之間的采樣的差值。
下面,指定x[n],不論是否已經(jīng)被零填充410,計(jì)算420該FFT。該FFT的相位被隨機(jī)化430。下面,根據(jù)具有隨機(jī)化相位的FFT計(jì)算440該反向FFT即y[n]。該過(guò)程即步驟420到440的結(jié)果是合成幀或片段即y[n],其具有類以頻譜,但與原始片段即x[n]無(wú)關(guān)。原始(非被零填充的)幀或片段x[n]被分為兩部分,并且在這兩部分之間插入y[n],并且利用上述傳統(tǒng)的重疊/添加過(guò)程450,例如傳統(tǒng)正弦窗口進(jìn)行無(wú)縫添加以產(chǎn)生擴(kuò)展的幀。
之后,將擴(kuò)展的幀輸出460到擴(kuò)展幀470的緩沖器,用于如所期望的重放或使用。而且,此時(shí)也確定是否存在更多的幀需要處理480。如果沒(méi)有更多的幀需要處理480,則過(guò)程結(jié)束。然而,如果存在更多的幀需要處理480,那么得到400下一個(gè)當(dāng)前幀,并且重復(fù)如上所屬的步驟410至480。
在上述的使用多個(gè)合成片段用于擴(kuò)展該幀的實(shí)施例中,該合成片段都具有相等的長(zhǎng)度并均勻分布。然而,在有關(guān)的實(shí)施例中,顯示低能量幀的這些部分比顯示高能量幀的這些部分進(jìn)行更大的擴(kuò)展,而不是僅僅使用均勻分布。該實(shí)施例用作進(jìn)一步減小人工產(chǎn)物。然而,甚至在該實(shí)施例中,盡管優(yōu)于以前的實(shí)施例,但信號(hào)的變化可超過(guò)預(yù)計(jì)想象,因此導(dǎo)致音頻差值可以被聽(tīng)眾感知。
因此,在其他有關(guān)的實(shí)施例中,相對(duì)于原始內(nèi)容被修改的數(shù)據(jù)量被減小。因此,產(chǎn)生的部分合成的信號(hào)幀或片段對(duì)于聽(tīng)眾感知來(lái)說(shuō)更接近原始信號(hào)。具體地,在該實(shí)施例中,不是僅產(chǎn)生多個(gè)合成片段,而是使用合成的和復(fù)制的原始信號(hào)的混合物,在某種程度上盡可能多的保持原始信號(hào),而最小化在擴(kuò)展的片段或幀中的可感知的人工產(chǎn)物。
例如,在其他實(shí)施例中,如圖5所示,不是直接處理整個(gè)當(dāng)前幀x[n],而是修改參照?qǐng)D4描述的過(guò)程以產(chǎn)生較小的FFT,其具有更多的本地化頻譜信息,以避免可導(dǎo)致顯著的人工產(chǎn)物的潛在的擴(kuò)展瞬態(tài)。具體地,在該實(shí)施例中,再次通過(guò)從輸入的音頻信號(hào)中獲取下一個(gè)當(dāng)前幀x[n]500開(kāi)始,從當(dāng)前信號(hào)幀中產(chǎn)生合成信號(hào)片段。然而,不是產(chǎn)生單個(gè)合成片段,而是產(chǎn)生多個(gè)較小的合成片段,并通過(guò)上述重疊/添加過(guò)程插入。具體地,為了確保在前述幀和將要產(chǎn)生的部分合成幀之間的平滑過(guò)渡,該過(guò)程一開(kāi)始,就首先對(duì)當(dāng)前幀x[n]進(jìn)行開(kāi)窗,用于將原始數(shù)據(jù)混合到將變成部分合成幀y[n]505的開(kāi)始處。用于實(shí)現(xiàn)開(kāi)窗和混合的方法如公式3所述y[1:M]=0;y[1:K]=x[1:K]·w[K+1:2K]公式3其中M是理想的片段大小,N是當(dāng)前的片段大小,F(xiàn)FT大小為2K,并且w[n]是采用的混合窗口。注意公式3的第一部分只是初始化y[n],用于將來(lái)使用(例如,在公式7中)。
下面,計(jì)算510重疊片段的總數(shù)即T,其長(zhǎng)度在2K以內(nèi),且第一和最后的半個(gè)片段未計(jì)算在內(nèi),需要T來(lái)獲得理想的最終片段大小。通常,按照公式4所描述的來(lái)完成計(jì)算510 或者簡(jiǎn)化的,T=(MK)-1]]>公式4下面,重疊片段計(jì)數(shù)器即i被初始化為零515。然后,在原始數(shù)據(jù)即x[n]中的起點(diǎn)s和在起點(diǎn)s開(kāi)始的x[n]的對(duì)應(yīng)子片段即z[n],按照公式5A和5B進(jìn)行計(jì)算s=round(K+i·(N-2K)/(T-1)) 公式5Az[1:2K]=x[(s+1):(s+2K)] 公式5B下面,z[n]乘以平滑窗口即v[n],并且平滑的子片段的FFT按照公式6進(jìn)行計(jì)算z[w]=FFT{v[n]·z[n]} 公式6在這一點(diǎn),產(chǎn)生的FFT的相位即Z[w]被隨機(jī)化530、標(biāo)量化,以補(bǔ)償平滑窗口增益(例如,2用于正弦窗口),并且根據(jù)Z[w]計(jì)算535反向FFT即u[n],以產(chǎn)生具有類似頻譜的合成子片段,但與原始片段z[n]無(wú)關(guān)。最新的合成信號(hào)子片段u[n]在點(diǎn)s被插入到原始信號(hào)中,并且使用上述傳統(tǒng)的重疊/相加過(guò)程540,例如,傳統(tǒng)的正弦窗口進(jìn)行無(wú)縫添加,以產(chǎn)生部分?jǐn)U展幀,如公式7所述y[(i·k+1):(i·k+2k)]=y(tǒng)[(i·k+1):(i·k+2K)]+w[1:2K]·u[1:2K] 公式7在這一點(diǎn),重疊片段計(jì)數(shù)器i被遞增545,確定為獲得理想最終片段大小的總數(shù)T的重疊片段是否已經(jīng)被插入550。如果更多的重疊片段需要被計(jì)算550,那么重復(fù)如上所述的步驟520到550,直到所有重疊片段已經(jīng)被計(jì)算,并被插入到x[n]以產(chǎn)生部分合成擴(kuò)展片段即y[n]。最后,一旦所有重疊片段都被計(jì)算并被插入以產(chǎn)生y[n],為了確保在y[n]和下一幀之間的光滑過(guò)渡,通過(guò)到幀y[n]555的末尾中對(duì)部分具有來(lái)自x[n]的原始數(shù)據(jù)的合成幀y[n]進(jìn)行開(kāi)窗,結(jié)束該過(guò)程。用于實(shí)現(xiàn)開(kāi)窗和合并的一種方法如公式8所述y[(i·k+1):(i·k+k)]=y(tǒng)[(i·k+1):(i·k+K)]+w[1:K]·x[(M-K+1):M] 公式8上述實(shí)施例計(jì)算子片段,用于插入和對(duì)原始信號(hào)幀或片段開(kāi)窗。然而,計(jì)算的子片段被均勻分布在原始信號(hào)幀上,而不考慮在原始信號(hào)幀中的內(nèi)容或?qū)嶋H采樣。因此,在有關(guān)的實(shí)施例中,如圖6所示,通過(guò)首先在被擴(kuò)展的幀或片段中選擇特定點(diǎn),而不僅僅是均勻地?cái)U(kuò)展整個(gè)原始片段,上述參照?qǐng)D5描述的過(guò)程進(jìn)一步得到改善。而且,該實(shí)施例也確定對(duì)計(jì)算的FFT的相位的隨機(jī)化是否合適于每個(gè)子片段,或在用于擴(kuò)展該原始信號(hào)片段或幀的重疊/添加操作中,是否可以更改每個(gè)子片段。
因此,在圖6描述的實(shí)施例中,該過(guò)程再次通過(guò)從輸入的音頻信號(hào)中獲得下一當(dāng)前幀x[n]600來(lái)開(kāi)始。然而,與上述的實(shí)施例不同,當(dāng)前幀然后被分析以選擇605擴(kuò)展當(dāng)前幀的最佳T起點(diǎn)即s[1:T]。注意在章節(jié)3.2.3參照?qǐng)D7詳細(xì)描述了選擇最佳T起點(diǎn)。指定幀被擴(kuò)展的這些點(diǎn),圖6的過(guò)程以近似于參照?qǐng)D5所描述的過(guò)程的方式繼續(xù),下面將會(huì)突出描述一些更進(jìn)一步的差別。
具體地,在選擇起點(diǎn)s[1:T]605之后,為了確保在先前幀和將被產(chǎn)生的部分合成幀之間的平滑過(guò)渡,該過(guò)程開(kāi)始首先開(kāi)窗并合并當(dāng)前幀x[n],用于將原始數(shù)據(jù)合并到將變成部分合成幀y[n]的開(kāi)始處610。用于實(shí)現(xiàn)開(kāi)窗和合并的一種方法如上面所述的公式3所示。下面,計(jì)算615重疊片段的總數(shù)T,其長(zhǎng)度在2K以內(nèi),且第一和最后的半個(gè)片段未計(jì)算在內(nèi),需要T來(lái)獲得理想的最終片段大小。通常,通過(guò)上面所述的公式4來(lái)實(shí)現(xiàn)計(jì)算615。
下面,重疊片段計(jì)數(shù)器i被初始化為零620。指定預(yù)選擇的起點(diǎn)s[i],對(duì)應(yīng)于當(dāng)前起點(diǎn)的子片段z[n]從當(dāng)前信號(hào)幀中獲取,如公式9所示s=s[i];z[1:2K]=x[(s+1):(s+2K)] 公式9然后,確定630當(dāng)前子片段是否將被合成。換言之,確定630子片段的FFT是否具有它的如上所述的隨機(jī)化相位。確定630作為當(dāng)前和相鄰片段起點(diǎn)的函數(shù),在下面的章節(jié)3.2.3中根據(jù)圖7進(jìn)行詳細(xì)描述。更具體地,如果在當(dāng)前幀的起點(diǎn)s[i]和前一幀的起點(diǎn)s[i-1]之間的距離是K,則沒(méi)有必要隨機(jī)化s[i+1]。這是因?yàn)樾聨团f幀在原始和擴(kuò)展的幀中具有相同的間隔,并因此可以保存該信號(hào)。而且,如果最后未更改的幀是j,并且s[i]-s[j]>2K,則沒(méi)有必要在起點(diǎn)s[i]上隨機(jī)化該幀,因?yàn)樾盘?hào)將不會(huì)重復(fù)。也可使用小于2K的閾值(例如,在一個(gè)實(shí)施例中使用K)。如果確定630即將隨機(jī)化該相位,那么當(dāng)前子片段z[n]乘以平滑窗口v[n],并且根據(jù)所示的公式6計(jì)算635平滑子片段的FFT,如上所述。
在這一點(diǎn)上,與上述類似,產(chǎn)生的FFT的相位Z[w]被隨機(jī)化640,并且根據(jù)Z[w]計(jì)算645反向FFT即u[n],以產(chǎn)生具有類似頻譜的合成子片段,但與原始片段z[n]無(wú)關(guān)。在點(diǎn)s上將最新的合成信號(hào)子片段u[n]插入到原始信號(hào)中,并且使用上述傳統(tǒng)的重疊/添加過(guò)程650,如傳統(tǒng)正弦窗口進(jìn)行無(wú)縫添加,以產(chǎn)生部分?jǐn)U展幀,如上所述的公式7所示。
可替換地,如上所述,在確定630當(dāng)前子片段的FFT將不具有它的如上所述的隨機(jī)化相位的情況下,那么為了在點(diǎn)s使用上述傳統(tǒng)的重疊/添加過(guò)程650插入到原始信號(hào)中,z[n]僅僅作為沒(méi)有更改的z[n]而被通過(guò),如上所述。而且,應(yīng)當(dāng)指出,在特定片段沒(méi)有被修改的位置,在步驟650中的不同合并窗口是合適的,具體地,如果當(dāng)前或以前的子片段沒(méi)有被修改,那么使用不同的合并窗口(例如,Hamming窗口而不是正弦窗口)。原因是在該情況下,信號(hào)的未修改的子片段實(shí)際上是相關(guān)的。因此,使用的窗口應(yīng)當(dāng)是wa[n]+wb[n]=1,而不是如上所述的(wa[n])2+(wb[n])2=1。窗口的選擇將保存信號(hào)的能量。
而且,應(yīng)當(dāng)指出,合并未修改的子片段和原始信號(hào)與合并信號(hào)本身是一樣的。因此,產(chǎn)生的子片段將等同于原始信號(hào)的對(duì)應(yīng)部分。因此,在一個(gè)實(shí)施例中,不是執(zhí)行合并操作,對(duì)于未修改的片段,而是從原始信號(hào)中簡(jiǎn)單復(fù)制對(duì)應(yīng)的片段。
在這點(diǎn)上,根據(jù)圖5描述的范例,重疊片段計(jì)數(shù)器i被遞增660,確定為獲得理想最終片段大小的總數(shù)T的重疊片段是否已經(jīng)被插入665。如果更多的重疊片段需要被計(jì)算665,那么重復(fù)如上所述的步驟625到650,直到所有重疊片段已被計(jì)算出,并被插入到x[n]以產(chǎn)生部分合成擴(kuò)展片段即y[n]。最后,一旦所有重疊片段都被計(jì)算出并被插入以產(chǎn)生y[n],為了確保在y[n]和下一幀之間的光滑過(guò)渡,通過(guò)到幀y[n]670的末尾中對(duì)部分具有來(lái)自x[n]的原始數(shù)據(jù)的合成幀y[n]進(jìn)行開(kāi)窗合并,結(jié)束該過(guò)程。用于實(shí)現(xiàn)開(kāi)窗和合并的一種方法如上述公式8所示。
3.2.3選擇擴(kuò)展的片段指定各種片段類型和上述的擴(kuò)展方法,仍舊存在當(dāng)前幀的哪個(gè)點(diǎn)是擴(kuò)展該幀的最佳點(diǎn)的問(wèn)題。例如,甚至在一個(gè)相對(duì)短的幀中,諸如信號(hào)的20毫秒片段,經(jīng)常存在一個(gè)或多個(gè)過(guò)渡點(diǎn)或者甚至是幾毫秒的寂靜。在該情況下,選擇幀被擴(kuò)展的特殊點(diǎn)是有利的。因此,在一個(gè)實(shí)施例中,采用擴(kuò)展“質(zhì)量”的方法,其中基于片段能量的組合(低能量更好)來(lái)確定幀中擴(kuò)展的位置,并且發(fā)現(xiàn)標(biāo)準(zhǔn)化相關(guān)系數(shù)用于與其匹配的片段(越高越好)。
例如,在一般情況下,20毫秒幀可以分為4個(gè)子幀或每個(gè)5毫秒片段,或可替換地,潛在地分為重疊片段,該片段近似的具有估計(jì)的音調(diào)周期。如果特定片段的計(jì)算的能量足夠低,那么就認(rèn)為過(guò)渡存在于該幀中。然后選擇最低能量片段用于擴(kuò)展。然而,如果能量不是足夠低,過(guò)渡未必存在于幀中,并且每個(gè)子幀的匹配的標(biāo)準(zhǔn)化自相關(guān)被用來(lái)選擇最佳匹配以便擴(kuò)展。
例如,圖7描述了用于選擇將要擴(kuò)展的片段的一個(gè)實(shí)施例。通常,為了保存更多的原始信號(hào),具有采樣間隔盡可能是K(即,F(xiàn)FT/2)的多個(gè)起點(diǎn)是最好的。通過(guò)觀察,圖7描述了用于確定起點(diǎn)的一個(gè)示例性過(guò)程。第一步是在FFT/2采樣間隔的點(diǎn)上選擇初始起點(diǎn)。需要一次一個(gè)的,將許多新的點(diǎn)插入在存在的點(diǎn)之間。新的點(diǎn)被插入在最低能量片段中。而且,在一個(gè)實(shí)施例中,為了說(shuō)明不同長(zhǎng)度的片段,每個(gè)片段的平均能量被加權(quán)以拆分較長(zhǎng)的片段。在一個(gè)實(shí)施例中,通過(guò)片段大小的平方根來(lái)加權(quán)該片段。然而,可使用任何傳統(tǒng)加權(quán)方法。在最后分布中,許多點(diǎn)仍舊是FFT/2間隔。這些片段(很可能是高能量片段),不需要修改。
具體地,如圖7所示,在選擇用于擴(kuò)展當(dāng)前信號(hào)幀的最佳點(diǎn)中,該過(guò)程一開(kāi)始,就確定在理想幀大小即M中的內(nèi)部片段T(T=(M/K)-1)的總數(shù),和在原始幀大小即N中的內(nèi)部片段P(P=(M/K)-1))的總數(shù)。同時(shí),點(diǎn)計(jì)數(shù)器Pt被設(shè)置為P+1 720。接著計(jì)算730每個(gè)子片段的平均能量E(i),如公式10所述E(i)=avg(x(s[i]:s[i+1])2) 公式10下面,在一個(gè)實(shí)施例中,與每個(gè)子片段長(zhǎng)度成比例地,對(duì)每個(gè)子片段的平均能量E(i)加權(quán)740。如上所述,在測(cè)試的實(shí)施例中,通過(guò)片段大小的平方根來(lái)加權(quán)該片段740,如公式11所述E(i)=E(i)(s[i+1]-s[i])]]>公式11然而,如上所述,任何傳統(tǒng)的加權(quán)方法可用于加權(quán)該能量值。
一旦加權(quán)740,檢查平均能量值E(i)以選擇具有最低能量值的片段s[j]750。如上所述,利用用于擴(kuò)展被定位在拆分點(diǎn)上的當(dāng)前幀的新起點(diǎn)s[Pt],這些最低能量片段然后被分為兩個(gè),如公式12所示s[Pt]=(s[j]+s[j+1])/2 公式12在一個(gè)實(shí)施例中,為了簡(jiǎn)化符號(hào),根據(jù)能量值對(duì)s[i]進(jìn)行排序770。例如,假設(shè)存在四個(gè)當(dāng)前點(diǎn),即s[1:4]={64、128、192、256},并且在s[3]和s[4]之間即在224上引入新點(diǎn),該新點(diǎn)應(yīng)是s[5]。因此,現(xiàn)在的順序是s[1:5]={64、128、192、256、224}。排序s[:]將恢復(fù)點(diǎn)的正確順序,使得s[1:5]={64、128、192、224、256}。
最后,確定是否已經(jīng)選擇用于擴(kuò)展的最佳T最佳點(diǎn)780。如果沒(méi)有,重復(fù)如上所述的步驟720到780,直到選定用于擴(kuò)展的最佳T最佳點(diǎn)。
3.3擴(kuò)展混合片段如上所述,混合片段表示周期和非周期成分的組合。因此,用于擴(kuò)展有聲片段或用于無(wú)聲片段的方法都不能單獨(dú)用于擴(kuò)展混合片段。例如,使用處理有聲片段的方法將把顯著的人工產(chǎn)物引入到無(wú)聲的頻譜部分。同樣,使用處理無(wú)聲片段的方將破壞在片段的任何有聲部分中的周期性。因此,在一個(gè)實(shí)施例中,兩個(gè)方法都使用。具體地,使用有聲和無(wú)聲方法從當(dāng)前混合片段中產(chǎn)生信號(hào)。這些信號(hào)然后被組合以產(chǎn)生包括有聲信號(hào)和無(wú)聲信號(hào)的混合信號(hào)。
而且,在有關(guān)實(shí)施例中,產(chǎn)生的有聲和無(wú)聲信號(hào)再次被加權(quán),作為標(biāo)準(zhǔn)化互相關(guān)峰值的函數(shù)。例如,如上所述,由于片段變得更加周期性,即由于在片段中存在更多語(yǔ)音,標(biāo)準(zhǔn)化互相關(guān)峰值增加。因此,在標(biāo)準(zhǔn)化互相關(guān)峰值較高的情況下,較多地加權(quán)該有聲信號(hào)將以一些周期性為代價(jià)來(lái)改善在擴(kuò)展的片段中的語(yǔ)音質(zhì)量,并因此潛在地改善在擴(kuò)展的片段的無(wú)聲部分中的一些可感知的人工產(chǎn)物。相反,由于標(biāo)準(zhǔn)化互相關(guān)峰值減小,片段中存在較小的周期性。因此,較多地加權(quán)無(wú)聲信號(hào),由此以減小周期性為代價(jià)來(lái)改善片段的無(wú)聲部分的感知質(zhì)量,并潛在地改善片段的任何有聲部分的可識(shí)度。
例如,在測(cè)試的實(shí)施例中,通過(guò)使用上述有聲片段方法來(lái)產(chǎn)生理想長(zhǎng)度的信號(hào),分別對(duì)應(yīng)于.45到.95的標(biāo)準(zhǔn)化互相關(guān)峰值的從0到1的線性加權(quán),被用于產(chǎn)生用于復(fù)合信號(hào)的有聲成分。同樣,通過(guò)使用上述無(wú)聲片段方法來(lái)產(chǎn)生相同理想長(zhǎng)度的信號(hào),分別對(duì)應(yīng)于.45到.95的標(biāo)準(zhǔn)化互相關(guān)峰值的從0到1的線性加權(quán),被用于產(chǎn)生用于復(fù)合信號(hào)的無(wú)聲成分。然后簡(jiǎn)單相加這兩個(gè)加權(quán)的信號(hào)部分以產(chǎn)生復(fù)合信號(hào)。然而,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)清楚,不需要使用上述的線性加權(quán),并且該加權(quán)可以是期望的線性或非線性加權(quán)。而且,上述被識(shí)別的用于有聲和無(wú)聲片段的閾值用在該測(cè)試的實(shí)施例中,并只用于說(shuō)明。顯然,根據(jù)在此描述的方法可使用用于識(shí)別有聲、無(wú)聲和混合片段的其他閾值。
3.4用于壓縮片段的分層方法在有充分自由的選擇的應(yīng)用中,在任何指定幀中確定選擇哪個(gè)片段用于實(shí)際壓縮也是重點(diǎn)考慮的,由于它一般影響用于聽(tīng)眾的重構(gòu)信號(hào)的感知質(zhì)量。例如,不是均等地壓縮指定信號(hào)的所有片段,而是一般通過(guò)使用分級(jí)或分層方法進(jìn)行壓縮來(lái)達(dá)到更好的結(jié)果。具體地,如上所述,在對(duì)幀即將進(jìn)行壓縮的時(shí)候已經(jīng)知道每個(gè)片段的類型。指定該信息,通過(guò)首先以優(yōu)先分級(jí)順序壓縮特定片段類型,在任何指定幀中可達(dá)到理想的壓縮。
具體地,首先壓縮表示有聲片段或寂靜片段(即,包括相對(duì)低能量非周期信號(hào))的幀或片段。下面,壓縮無(wú)聲片段。最后,壓縮混合片段,或包括瞬態(tài)片段。對(duì)于該優(yōu)先順序的原因是,有聲或寂靜片段的壓縮是各種片段類型中,在不產(chǎn)生顯著的人工產(chǎn)物的情況下最容易完成的。無(wú)聲片段的壓縮是在不具有顯著的人工產(chǎn)物的情況下次容易壓縮類型。最后,壓縮混合片段和包含瞬態(tài)片段,由于在不具有顯著的人工產(chǎn)物的情況下,該片段最難壓縮。
因此,不是均等地壓縮信號(hào)的所有片段,而是一般通過(guò)有選擇地壓縮特定幀來(lái)達(dá)到更好的結(jié)果。例如,壓縮表示語(yǔ)音、寂靜或簡(jiǎn)單噪音的幀,同時(shí)避免無(wú)聲片段或瞬態(tài)壓縮,可產(chǎn)生具有減小了的可感知的人工產(chǎn)物的重構(gòu)信號(hào)。如果通過(guò)壓縮有聲或寂靜片段不能實(shí)現(xiàn)充分壓縮,則以上述方式壓縮非過(guò)渡無(wú)聲片段。最后,如果通過(guò)有聲片段或非過(guò)渡無(wú)聲片段的壓縮不能實(shí)現(xiàn)充分壓縮,則壓縮包括過(guò)渡即混合片段的片段。對(duì)分級(jí)的壓縮的方法用來(lái)限制在重構(gòu)信號(hào)中可感知的人工產(chǎn)物。
而且,在離線應(yīng)用中,或者如果根本無(wú)法播放的幀是有效的,那么必要的話,通過(guò)只壓縮將導(dǎo)致最小量信號(hào)破壞或人工產(chǎn)物的那些片段,在完全有效信號(hào)的一個(gè)或多個(gè)幀上可開(kāi)展期望的壓縮。例如,實(shí)現(xiàn)該壓縮的一個(gè)特定方法是向每個(gè)不同的幀類型預(yù)分配任何理想的壓縮比。例如,5X的壓縮比可分配給寂靜幀,2X分配給有聲幀,1.5X分配給無(wú)聲幀,并且1X(無(wú)壓縮)分配給混合或過(guò)渡片段。顯然,本例中的壓縮比只是用于說(shuō)明,并且任何理想的壓縮比可分配給各種幀類型。
通常,一旦被壓縮的特定片段已經(jīng)被選擇或識(shí)別,就以與上述用于擴(kuò)展片段相同的方式來(lái)處理片段的壓縮。例如,當(dāng)壓縮有聲幀時(shí),從片段中選擇模板,并且執(zhí)行匹配的搜尋。一旦識(shí)別該匹配,片段就被開(kāi)窗、重疊和相加,因此截?cái)嘣谀0搴推ヅ渲g的信號(hào)。由此,該片段被縮短,或壓縮。換言之,當(dāng)壓縮無(wú)聲片段時(shí),隨機(jī)或預(yù)定移動(dòng)用于截?cái)嗥位驇囊徊糠?,與諸如恒定平方和窗口的窗函數(shù)一起,將片段壓縮到理想數(shù)量。最后,與上述有關(guān)擴(kuò)展混合片段類似,使用有聲和無(wú)聲方法的加權(quán)組合來(lái)壓縮混合片段。
為了示意和說(shuō)明,已經(jīng)介紹了用于提供自動(dòng)可變擴(kuò)展和壓縮音頻信號(hào)幀的瞬時(shí)音頻定標(biāo)器的上述說(shuō)明。并不意味著窮舉,或?qū)⒈景l(fā)明限制在精確形式的公開(kāi)內(nèi)容。根據(jù)上述教導(dǎo),任何修改或變化是可能的。而且,應(yīng)當(dāng)指出,任何或所有上述替換的實(shí)施例可用在期待的任何組合中,以形成在此所述的瞬時(shí)音頻定標(biāo)器的額外的混合實(shí)施例。本發(fā)明的范圍不由詳細(xì)的描述所限制,而由在此附加的權(quán)利要求限制。
權(quán)利要求
1.一種用于音頻信號(hào)片段的瞬時(shí)修改的系統(tǒng),其特征在于,它包括從音頻信號(hào)中提取數(shù)據(jù)幀;檢查每一數(shù)據(jù)幀的內(nèi)容,并根據(jù)預(yù)建立的標(biāo)準(zhǔn)對(duì)每一數(shù)據(jù)幀的類型進(jìn)行歸類;利用專用于每一數(shù)據(jù)幀的歸類類型的瞬時(shí)修改過(guò)程瞬時(shí)修改所述數(shù)據(jù)幀的至少一個(gè)的至少一部分。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述幀類型的歸類完全基于被歸類的幀。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述幀類型的歸類至少部分基于從一個(gè)或多個(gè)相鄰幀中得到的信息。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述幀被順序地處理。
5.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述歸類至少部分基于每一數(shù)據(jù)幀的周期性。
6.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述幀類型包括有聲幀和無(wú)聲幀。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述幀類型還包括混合幀,所述混合幀包括有聲和無(wú)聲片段。
8.一種用于包括語(yǔ)音的音頻信號(hào)片段的瞬時(shí)修改的方法,其特征在于,它包括從接收的音頻信號(hào)中順序地提取數(shù)據(jù)幀;確定所述順序提取的數(shù)據(jù)幀中當(dāng)前幀的每一片段的內(nèi)容類型,所述內(nèi)容類型包括有聲片段、無(wú)聲片段和混合片段;通過(guò)從有聲片段瞬時(shí)修改過(guò)程、無(wú)聲片段瞬時(shí)修改過(guò)程和混合片段瞬時(shí)修改過(guò)程中為所述當(dāng)前幀的至少一個(gè)片段自動(dòng)選擇并應(yīng)用一相應(yīng)的瞬時(shí)修改過(guò)程,來(lái)瞬時(shí)修改所述當(dāng)前幀的至少一個(gè)片段。
9.如權(quán)利要求8所述的方法,其特征在于,它還包括為每一幀估算平均音調(diào)周期,所述幀的每一個(gè)包括在長(zhǎng)度上近似一個(gè)音調(diào)周期的至少一個(gè)片段;
10.如權(quán)利要求8所述的方法,其特征在于,確定所述當(dāng)前幀的每一片段的內(nèi)容類型包括為每一幀計(jì)算標(biāo)準(zhǔn)化互相關(guān),并將每一標(biāo)準(zhǔn)化互相關(guān)的最大峰值與預(yù)定閾值進(jìn)行比較,用于確定每一片段的內(nèi)容類型。
11.如權(quán)利要求8所述的方法,其特征在于,所述至少一個(gè)片段的內(nèi)容類型是有聲片段,并且其中,瞬時(shí)修改所述至少一個(gè)片段包括擴(kuò)展所述有聲片段以增加所述當(dāng)前幀的長(zhǎng)度。
12.如權(quán)利要求11所述的方法,其特征在于,擴(kuò)展所述有聲片段包括將所述片段的至少一個(gè)標(biāo)識(shí)為模板;搜尋其互相關(guān)峰值超過(guò)預(yù)定閾值的匹配片段;以及對(duì)準(zhǔn)和合并所述幀的匹配片段。
13.如權(quán)利要求12所述的方法,其特征在于,將所述片段的至少一個(gè)標(biāo)識(shí)為模板包括從所述幀的末尾選擇模板,并且其中,搜尋所述匹配片段包括檢查所述音頻信號(hào)的最近的過(guò)去情況以標(biāo)識(shí)匹配。
14.如權(quán)利要求12所述的方法,其特征在于,將所述片段的至少一個(gè)標(biāo)識(shí)為模板包括從所述幀的開(kāi)頭選擇模板,并且其中,搜尋所述匹配片段包括檢查所述音頻信號(hào)的接近的未來(lái)情況以標(biāo)識(shí)匹配。
15.如權(quán)利要求12所述的方法,其特征在于,將所述片段的至少一個(gè)標(biāo)識(shí)為模板包括從所述幀的開(kāi)頭和末尾之間選擇模板,并且其中,搜尋所述匹配片段包括檢查所述音頻信號(hào)的接近的未來(lái)情況和最近的過(guò)去情況以標(biāo)識(shí)匹配。
16.如權(quán)利要求12所述的方法,其特征在于,它還包括交替選擇用于模板的點(diǎn),以便在所述當(dāng)前幀中的不同位置上標(biāo)識(shí)連續(xù)模板。
17.如權(quán)利要求8所述的方法,其特征在于,它還包括確定瞬時(shí)修改的片段的平均壓縮比是否對(duì)應(yīng)于總體目標(biāo)壓縮比,并且其中,在需要時(shí),自動(dòng)調(diào)節(jié)至少一個(gè)下一當(dāng)前幀的下一目標(biāo)壓縮比,以確??傮w目標(biāo)壓縮比被近似地保持。
18.如權(quán)利要求8所述的方法,其特征在于,所述至少一個(gè)片段的內(nèi)容類型是無(wú)聲片段,并且其中,瞬時(shí)修改所述至少一個(gè)片段包括自動(dòng)生成至少一個(gè)合成片段并將其插入到所述當(dāng)前幀中,以增加所述當(dāng)前幀的長(zhǎng)度。
19,如權(quán)利要求18所述的方法,其特征在于,自動(dòng)生成至少一個(gè)合成片段包括自動(dòng)計(jì)算所述當(dāng)前幀的傅立葉變換、將相位的隨機(jī)旋轉(zhuǎn)引入到所述FFT系數(shù)中、并且為每一片段計(jì)算反向FFT,由此創(chuàng)建所述至少一個(gè)合成片段。
20.如權(quán)利要求8所述的方法,其特征在于,所述至少一個(gè)片段的內(nèi)容類型是混合片段,并且其中,所述混合片段包括有聲和無(wú)聲成分。
21.如權(quán)利要求20所述的方法,其特征在于,瞬時(shí)修改所述混合片段包括將所述片段的至少一個(gè)片段標(biāo)識(shí)為模板;搜尋其互相關(guān)峰值超過(guò)預(yù)定閾值的匹配片段;對(duì)準(zhǔn)和合并所述幀的匹配片段以創(chuàng)建一臨時(shí)有聲片段;自動(dòng)生成至少一個(gè)合成片段并將其插入到所述當(dāng)前幀中以創(chuàng)建一臨時(shí)無(wú)聲片段;相對(duì)于為所述當(dāng)前片段計(jì)算的標(biāo)準(zhǔn)化互相關(guān)峰值,加權(quán)所述臨時(shí)有聲片段和所述臨時(shí)無(wú)聲片段的每一個(gè);以及對(duì)所述臨時(shí)有聲片段和所述臨時(shí)無(wú)聲片段進(jìn)行相加并加窗,以創(chuàng)建一部分合成的擴(kuò)展片段。
22.如權(quán)利要求8所述的方法,其特征在于,所述至少一個(gè)片段的內(nèi)容類型是有聲片段,并且其中,瞬時(shí)修改所述至少一個(gè)片段包括壓縮所述有聲片段以減小所述當(dāng)前幀的長(zhǎng)度。
23.如權(quán)利要求22所述的方法,其特征在于,壓縮所述有聲片段包括將所述片段的至少一個(gè)標(biāo)識(shí)為模板;搜尋其互相關(guān)峰值超過(guò)預(yù)定閾值的匹配片段;截?cái)嗨瞿0搴退銎ヅ渲g的信號(hào);以及對(duì)準(zhǔn)和合并所述幀的匹配片段。
24.如權(quán)利要求8的方法,其特征在于,所述至少一個(gè)片段的內(nèi)容類型是無(wú)聲片段,并且其中,暫時(shí)修改所述至少一個(gè)片段包括壓縮所述無(wú)聲片段以減小所述當(dāng)前幀的長(zhǎng)度。
25.如權(quán)利要求24的方法,其特征在于,壓縮所述有聲片段包括將所述幀的片段從幀中第一位置移位到幀中的第二位置;刪除所述第一位置和所述第二位置之間的所述幀的部分;通過(guò)使用用于將所述片段的邊緣和表示所述幀的剩余部分的信號(hào)相混合的正弦加窗函數(shù),將所述幀的移位的片段添加到表示所述幀的剩余部分的信號(hào)中。
26.一種用于提供數(shù)字音頻信號(hào)片段的動(dòng)態(tài)瞬時(shí)修改的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,它包括使用計(jì)算裝置來(lái)接收數(shù)字音頻信號(hào)的一個(gè)或多個(gè)順序幀;在接收時(shí)解碼所述數(shù)字音頻信號(hào)的每一幀;從一組預(yù)定義片段內(nèi)容類型中確定所解碼的音頻信號(hào)片段的內(nèi)容類型,每一片段內(nèi)容類型具有相關(guān)聯(lián)的類型專用瞬時(shí)修改過(guò)程;以及使用所述關(guān)聯(lián)的專用于每一片段內(nèi)容類型的類型專用瞬時(shí)修改過(guò)程,來(lái)修改所解碼的音頻信號(hào)的一個(gè)或多個(gè)片段的時(shí)標(biāo)。
27.如權(quán)利要求26所述的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,所述預(yù)定的片段內(nèi)容類型組包括有聲類型片段和無(wú)聲類型片段。
28.如權(quán)利要求27所述的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,所述預(yù)定的片段內(nèi)容類型組還包括混合類型片段,所述混合類型片段表示有聲內(nèi)容和無(wú)聲內(nèi)容的混合物。
29.如權(quán)利要求27所述的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,修改一個(gè)或多個(gè)片段的時(shí)標(biāo)包括瞬時(shí)擴(kuò)展或瞬時(shí)壓縮所述一個(gè)或多個(gè)片段的任一種,以近似達(dá)到目標(biāo)瞬時(shí)修改比。
30.如權(quán)利要求29所述的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,后續(xù)片段的目標(biāo)瞬時(shí)修改比被自動(dòng)調(diào)整,以達(dá)到相對(duì)于至少一個(gè)先前片段的實(shí)際時(shí)標(biāo)修改的平均目標(biāo)瞬時(shí)修改比。
31.如權(quán)利要求27所述的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,確定所述片段的內(nèi)容類型包括為每一片段的子片段計(jì)算標(biāo)準(zhǔn)化互相關(guān),并且將每一標(biāo)準(zhǔn)化互相關(guān)的最大峰值與預(yù)定的閾值進(jìn)行比較,用于確定每一片段的內(nèi)容類型。
32.如權(quán)利要求27所述的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,至少一個(gè)片段是有聲類型片段,并且其中,修改所述有聲類型片段的時(shí)標(biāo)包括將至少一個(gè)有聲類型片段擴(kuò)展大約一個(gè)或多個(gè)音調(diào)周期,以增加所述至少一個(gè)有聲類型片段的長(zhǎng)度。
33.如權(quán)利要求27所述的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,擴(kuò)展所述至少一個(gè)有聲類型片段包括將長(zhǎng)度上大約是一個(gè)音調(diào)周期的至少一個(gè)子片段標(biāo)識(shí)為模板;搜尋其互相關(guān)峰值超過(guò)預(yù)定閾值的匹配子片段;以及對(duì)準(zhǔn)和合并所述幀的匹配片段。
34.如權(quán)利要求27所述的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,至少一個(gè)片段是無(wú)聲類型片段,并且其中,修改所述無(wú)聲類型片段的時(shí)標(biāo)包括從所述至少一個(gè)無(wú)聲類型片段的一個(gè)或多個(gè)子片段中自動(dòng)生成至少一個(gè)合成片段;以及將所述至少一個(gè)合成片段插入到所述至少一個(gè)無(wú)聲類型片段中,以增加所述至少一個(gè)無(wú)聲類型片段的長(zhǎng)度。
35.如權(quán)利要求34所述的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,自動(dòng)生成所述至少一個(gè)合成片段包括自動(dòng)計(jì)算所述至少一個(gè)無(wú)聲類型片段的至少一個(gè)子片段的傅立葉變換;隨機(jī)化所計(jì)算的FFT系數(shù)的至少一些的相位;以及為所計(jì)算的FFT系數(shù)計(jì)算反向FFT,以生成所述至少一個(gè)合成片段。
36.如權(quán)利要求34所述的計(jì)算機(jī)可實(shí)現(xiàn)過(guò)程,其特征在于,它還包括自動(dòng)確定一個(gè)或多個(gè)插入點(diǎn),用于將所述至少一個(gè)合成片段插入到所述至少一個(gè)無(wú)聲類型片段中。
全文摘要
提供一種自適應(yīng)“瞬時(shí)音頻定標(biāo)器”,用于自動(dòng)擴(kuò)展和壓縮通過(guò)數(shù)據(jù)包網(wǎng)絡(luò)接收的音頻信號(hào)幀。在擴(kuò)展或壓縮當(dāng)前幀的片段之前,瞬時(shí)音頻定標(biāo)器首先為每個(gè)幀計(jì)算音調(diào)周期,用于確定信號(hào)模板的大小,該模板用于在擴(kuò)展和壓縮片段中的匹配操作。而且,該瞬時(shí)音頻定標(biāo)器也確定包括每個(gè)幀的片段的一個(gè)或多個(gè)類型。這些片段類型包括“有聲”片段、“無(wú)聲”片段和包括有聲和無(wú)聲成分的“混合”片段。應(yīng)用于每個(gè)幀的片段的擴(kuò)展或壓縮方法取決于包括每個(gè)幀的片段的類型。而且,應(yīng)用于特定片段的擴(kuò)展和壓縮的量自動(dòng)變化,用于最小化信號(hào)人工產(chǎn)物,同時(shí)仍然確保為每個(gè)幀保持總體目標(biāo)擴(kuò)展或壓縮比。
文檔編號(hào)G10L21/00GK1601912SQ20041009019
公開(kāi)日2005年3月30日 申請(qǐng)日期2004年9月10日 優(yōu)先權(quán)日2003年9月10日
發(fā)明者D·A·弗羅倫西奧, P·A·仇, 賀立為 申請(qǐng)人:微軟公司