專利名稱:對輸入信號值序列進行時間縮放的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)字信號處理技術(shù),該技術(shù)改變音頻信號的長度 并從而有效改變其播放速度。在專業(yè)市場中,該技術(shù)用于電影工業(yè)中 的幀率轉(zhuǎn)換或音樂制作中的聲音效果。此外,消費電子設(shè)備,例如mp3播放器、錄音機或應(yīng)答機利用時間縮放來進行快進或慢動作音頻 播放。
背景技術(shù):
在 Dorran 等人的"A Comparison of Time-Domain Time-Scale Modification Algorithms," AES 2006中,可以找到用于對音頻信號進行 時間縮放的以下應(yīng)用列表-用于數(shù)字圖書館和遠程學(xué)習(xí)的語音材料的快速瀏覽-音樂和外語學(xué)習(xí)/教學(xué)-電話應(yīng)答機和錄音電話機的快/慢回放-視頻-電影標準轉(zhuǎn)換-對音頻加水印-針對盲人的加速聽覺閱讀-音樂合成-音頻4見頻同步-音頻數(shù)據(jù)壓縮-心臟紊亂診斷-針對無線電/電視產(chǎn)業(yè)中分配的時隙來編輯音頻/視覺記錄-聲音性別轉(zhuǎn)換-文本至語音的合成-唇形同步和配音-韻律移植和卡拉OK實現(xiàn)這種用于音頻信號長度改變的數(shù)字信號處理技術(shù)的一種方式是所謂的波形相似度疊加(WSOLA)方法。WSOLA能夠產(chǎn)生高質(zhì)量 的時間縮放的輸出信號。由固定長度(典型地約為20ms)的塊來構(gòu)造 WSOLA輸出信號。這些塊重疊50%,以保證固定的交叉漸變長度。 追加至輸出信號的下一塊是如下的塊首先該塊與將正常跟隨當前塊 的塊最相似,其次該塊位于理想位置(由縮放因子確定)周圍的搜索 窗內(nèi)。因此,與理想位置的偏差典型地限制在小于5ms,從而產(chǎn)生10ms 大小的搜索窗。Demol等人在"Efficient Non-Uniform Time-Scaling of Speech with WSOLA," Speech and Computers (SPECOM), 2005中描述也可以通過 改變縮放因子來將WSOLA擴展為將處理后的信號的變化特性列入考 慮之中。發(fā)明內(nèi)容本發(fā)明的目的是通過提出一種根據(jù)權(quán)利要求1所述的使用修改的 波形相似度疊加方法來對輸入信號值序列進行時間縮放的方法,以及 一種根據(jù)權(quán)利要求9所述的使用修改的波形相似度疊加方法來對輸入 信號值序列進行時間縮放的設(shè)備,來增強WSOLA方法。根據(jù)所述方法,對波形相似度疊加方法進行修改,以確定子序列 對的相似度度量中的最大化相似度,每個所述子序列對包括來自輸入 窗的待匹配子序列和來自搜索窗的匹配子序列,其中,所述子序列對 包括至少兩個子序列對,所述至少兩個子序列對中的第一對包括第一 待匹配子序列而第二對包括不同的第二待匹配子序列。所述輸入窗允許找到具有比使用基于單一待匹配子序列的 WSOLA方法所找到的相似度更高的子序列對。這產(chǎn)生了較少的可感 知偽像。在實施例中,所述第一對包括第一匹配子序列,所述第二對包括 不同的第二匹配子序列。在另一實施例中,所述第一對和所述第二對包括相同的匹配子序列。有利地,對所述波形相似度疊加方法的修改包括拷貝子序列, 直到所述拷貝所產(chǎn)生的累計時間偏差等于或大于預(yù)定最小時間偏差, 所述累計時間偏差依賴于所拷貝的子序列的累計持續(xù)時間和期望的時 間縮放因子。這減小了接合點(splice point)的數(shù)目,從而減小了時間縮放的可聽性。每個子序列對的相似度度量可以包括加權(quán),所述加權(quán)考慮所述對 中的子序列之間的時間距離??紤]時間距離能夠使WSOLA方法偏向優(yōu)選的時間距離。例如,在實施例中,對相似度進行加權(quán),使其偏向較大的時間距 離。這允許追加更長的子序列,繼而使得所需接合點更少。在所述方法的又一實施例中,對相似度進行加權(quán),使其偏向與期 望的時間縮放因子相對應(yīng)的時間距離。然后,即使時間縮放后的序列的一部分也很好地反映了時間縮放 因子。在又一實施例中,確定所述輸入窗,使其包括至少一個暫停信號段。已知對于信號暫停而言接合在計算上較為簡單。 在另一實施例中,確定所述輸入窗,使其不包括任何瞬變信號段。 已知對于瞬變信號段而言接合在計算上較為困難。
在附圖中示意并在以下描述中更詳細說明了本發(fā)明的示例實施例。在附圖中圖1示出了示例性原始采樣序列和示例性的時間縮放的采樣序 列,以及圖2示出了示例性加權(quán)函數(shù)。
具體實施方式
現(xiàn)根據(jù)時間縮放因子a的時間縮放。在這兩個階段之一中,簡單地將原始采樣序列ORIG 中的采樣拷貝至?xí)r間縮放的釆樣序列SCLD 。令時間縮放差等于l-ct的絕對值。然后,每個拷貝的采樣的持續(xù)時 間與理想的時間縮放的采樣的持續(xù)時間的偏差為一個原始采樣D^的 持續(xù)時間乘以時間縮放差。因此,對L個采樣進行拷貝產(chǎn)生的累計時 間偏差為其中A。是初始時間偏差,該偏差可以為0,或者在確定累計時間偏差時 可以忽略該偏差。所拷貝的最小采樣數(shù)目應(yīng)使累計時間偏差超過偏差下閾值A(chǔ)min。 所拷貝的最大采樣數(shù)目應(yīng)使累計時間偏差不超過偏差上閾值A(chǔ)max。偏差下閾值A(chǔ)min確保了時間縮放的采樣序列中的接合點之間的最 小距離。隨著音頻信號的能量趨向于集中在低頻范圍內(nèi)使得自相似度 函數(shù)在0附近具有寬峰,接合點之間的最小跳距離將成為問題。如果 An^遠小于該峰值,則模板匹配可能判定搜索窗的邊界在行中多次最 接近理想點(直到Amin的和超過自相似度函數(shù)的上述峰值的寬度)。在 這種情況下,輸出信號將包含許多小信號段的拼接。該最小距離與兩 個拷貝的塊之間的交叉漸變長度相對應(yīng),即在時間縮放的信號中為N 個采樣。理想地,使用N/(X個采樣來形成時間縮放的信號中的這N個采樣。這產(chǎn)生了原始信號中的偏差下閾值A(chǔ)min: = iV . t^Z)"。此外,可以確定偏差下閾值A(chǔ)min,使其至少達到下界LB:A—; = max、丄^——^ 、 《 乂使用LB:2ms可以實現(xiàn)很好的結(jié)果。尤其是如果cc較小,則下界LB 有助于防止引入偽像。偏差上閾值A(chǔ)majA保了時間縮放的采樣序列中的接合點之間的最 大距離。該最大距離限制了累計時間偏差A(yù)i^并從而限制了輸入信號中 省略或重復(fù)的連續(xù)子序列的長度。繼而也限制了由于重復(fù)或省略而導(dǎo)致的偽像的可聽性。在拷貝操作導(dǎo)致滿足或剛剛超過偏差上閾值A(chǔ)m^時,處理進入第二階段。在第二階段中,執(zhí)行修改的WSOLA。對于原始采樣序列SCLD 中接下來將要拷貝的N個采樣組成的模板子序列,在原始采樣序列 ORIG中執(zhí)行模板匹配來在搜索窗MW內(nèi)找到候選子序列<:1,...,(:*,...,0^中最適合用于進行接合的候選子序列(:*。模板匹配是 基于相似度度量(如相關(guān)、均方差或平均絕對差),使用權(quán)值w來對該 相似度度量進行加權(quán),權(quán)值w依賴于候選子序列的時間位置與原始采樣序列中模板的位置之間的時間差A(yù)t 。權(quán)值W還可以依賴于候選子序列Cl,...,CV..,Ck的理想時間偏移 ITS,所述理想時間偏移ITS是由原始釆樣序列ORIG中的候選子序列的 時間位置以及時間縮放因子來確定的。圖2中示意性示出了示例加權(quán)函數(shù)WF1、 WF2、 WF3。加權(quán)函數(shù)可以是線性函數(shù)WF1、 WF2,使得最佳匹配偏向?qū)a(chǎn)生 較大初始時間偏差(延遲或預(yù)先呈現(xiàn))并從而產(chǎn)生被追加在后時較大 的信號段的那些候選。加權(quán)函數(shù)可以是鐘形函數(shù)WF3,使得最佳匹配偏向?qū)a(chǎn)生被追加 在后時與理想時間偏移ITS最佳對應(yīng)的初始時間偏差的那些候選。如果對包括同步的音頻和視頻信號在內(nèi)的電影進行時間縮放,則 可以使用另一加權(quán)函數(shù)。人類感知系統(tǒng)適應(yīng)于對事件的視覺印象的感 知早于所述事件的相應(yīng)可聽印象的情形。例如,如果某人從遠方呼喊, 則該事件的視覺印象以光速傳播至觀察者,而喊聲僅以音速傳播。因 此,觀察者可能忽略音頻信號相對于視頻信號的小延遲。但是,大到 使音頻信號不再與視頻信號相匹配的音頻信號延遲是一種惱人的偽 像。同樣惱人的是視頻信號相對于音頻信號的任何延遲。因此,依賴于針對視頻信號而實現(xiàn)的時間縮放、使得確保時間縮 放的音頻信號不超前于時間縮放的視頻信號同時又不延遲過多的加權(quán) 函數(shù)是有益的。例如,鐘形函數(shù)WF3的中心可以位于確保時間縮放的 音頻信號相對于時間縮放的視頻信號具有小而不過大的延遲的偏移位 置。還可以針對包括最后拷貝至?xí)r間縮放的序列SCLD的采樣緊接之 前的N個最后拷貝的采樣在內(nèi)的子序列來執(zhí)行模板匹配。將倒數(shù)第二 個子序列與其最佳匹配模板之間的相似度與最后子序列與最后子序列 的最佳匹配模板之間的相似度進行比較,其中可以對這些相似度進行 加權(quán)也可以不進行加權(quán)。將與較大的加權(quán)相似度相關(guān)聯(lián)的子序列與時 間縮放的采樣序列中其最佳匹配模板進行接合或交叉漸變。類似地, 可以考慮包括從倒數(shù)第n個子序列至最后子序列的所有子序列Bl,..., B*, ...,Bn在內(nèi)的子序列集合以最大化加權(quán)的相似度。因此,不僅針對單一潛在接合點,而是針對優(yōu)選地密集位于輸入 窗SW中的潛在接合點的整個集合來最大化相似度度量。結(jié)果是二維相 似度函數(shù)。但是,用于計算所述二維相似度函數(shù)的額外計算工作仍然有限。 對于N個采樣的模板長度和K個采樣的搜索窗寬度, 一維相似度函數(shù)需要進行I^K次乘法或絕對/平方差值等計算。然后,通過將N個產(chǎn)生的值求和來確定K個相似度值。如果a接近于l,則可以對輸入窗中的所有模板使用共同的搜索窗。然而,具有寬度L的輸入窗的二維相似度函數(shù)需要f v+丄"/:個值的計算,并將這些值求和以得到I^K個相似度值。因此,二維搜索的額外計算工作隨搜索窗的大小呈線性增長。在一維框架內(nèi),必須確定K個不同相似度,而二維框架需要計算 1^K個不同相似度。但是在二維框架中,可以以迭代方式來確定一些 相似度。這就是說,確定第一模板與第一候選的第一相似度值的第一和值 與確定第二模板與第二候選的第二相似度值的第二和值的差別僅在于 一個被加數(shù)。其中,第二模板和第二候選分別相對于第一模板和第一 候選偏移一個采樣。根據(jù)所述"K個不同相似度,必須從頭開始確定的僅有K+L個相似度,其余(尺-1)*(£-1)個相似度可以迭代方式確定。如果a遠大于或遠小于l,則使用一組交叉搜索窗,對來自輸入窗的每個模板使用一個搜索窗。這些搜索窗中的每一個的中心位于與使 用對應(yīng)模板的理想時間偏移相對應(yīng)的時間點??梢源_定輸入窗sw,使其包括至少一個暫停信號段和/或至少一個準周期性信號段。己知這種信號段提供很好的接合點,而瞬變信號 段不那么適于接合或交叉漸變。此外或可選地,對相似度度量的加權(quán)可以被適配為使其進一步或完全依賴于子序列B1, ..., B*, ..., Bn中的信號特性,其中待接合的段中的暫停和/或準周期性導(dǎo)致權(quán)值增大,而瞬變信號特性導(dǎo)致權(quán)值減小。使用包括來自輸入窗SW的被最佳匹配的子序列Bf和來自搜索窗MW的最佳匹配候選子序列C^ (其相似度最大)在內(nèi)的子序列用來產(chǎn) 生時間縮放的信號SCLD的交叉漸變區(qū)CF的采樣。交叉漸變區(qū)中的采樣數(shù)可以與這些子序列之一中的采樣數(shù)相對 應(yīng),使得這些子序列中的所有采樣都用于交叉漸變?;蛘?,交叉漸變 區(qū)中的采樣數(shù)較少,即僅使用這些子序列中的一些采樣。例如,子序 列長度與塊長度或2*1^個采樣相對應(yīng),而交叉漸變區(qū)長度與半塊的長 度或N個采樣相對應(yīng)。使用比交叉漸變區(qū)更長的子序列可能有利于通 過將接合點偏向音素(phoneme)的中心來進一步減小接合點的可聽 性。提供了根據(jù)時間縮放因子來對信號值序列進行時間縮放的方法 的示例實施例,其中,所述方法包括以下步驟使用WSOLA方法對 在前的子序列進行時間縮放;以及使用內(nèi)插方法來對連續(xù)子序列進行 時間縮放。在另一示例實施例中,所述方法包括以下步驟(a)形成包括待 匹配子序列B1、 B*、 Bn和匹配子序列Cl、 C*、 Ck在內(nèi)的子序列對;(b)對于每一對,確定對中包括的子序列之間的相似度;(c)確定優(yōu) 選對B、 C*,所述優(yōu)選對具有最大相似度;(d)在時間縮放的序列 SCLD中,對優(yōu)選匹配子序列與所述優(yōu)選被匹配子序列進行交叉漸變;(e)借助于優(yōu)選匹配子序列來確定待拷貝的子序列的長度;(f)將該 子序列拷貝至?xí)r間縮放的序列SCLD并返回步驟(a),其中,待拷貝的子序列的長度依賴于閾值。優(yōu)選地,步驟(b)包括根據(jù)所述閾值依賴于對中的待匹配子 序列與匹配子序列之間的時間距離來確定閾值。在又一實施例中,步驟(e)包括使用時間因子以及優(yōu)選匹配 子序列與優(yōu)選被匹配子序列之間的時間距離來確定待拷貝的子序列的 長度。
權(quán)利要求
1.一種使用修改的波形相似度疊加方法來對輸入信號值序列進行時間縮放的方法,其中-對波形相似度疊加方法進行修改,以確定子序列對的相似度度量中的最大化相似度,每個所述子序列對包括來自輸入窗(SW)的待匹配子序列(B1,..,B*,..Bn)和來自搜索窗(MW)的匹配子序列(C1,..C*,..Ck),其中-所述子序列對包括至少兩個子序列對,所述至少兩個子序列對中的第一對包括第一待匹配子序列而第二對包括不同的第二待匹配子序列。
2. 如權(quán)利要求l所述的方法,其中-所述第一對包括第一匹配子序列,所述第二對包括不同的第二 匹配子序列。
3. 如權(quán)利要求l所述的方法,其中-所述第一對和所述第二對包括相同的匹配子序列。
4. 如前述權(quán)利要求之一所述的方法,其中-對所述波形相似度疊加方法的修改包括拷貝子序列,直到所 述拷貝所產(chǎn)生的累計時間偏差等于或大于預(yù)定最小時間偏差,所述累 計時間偏差依賴于所拷貝的子序列的累計持續(xù)時間和期望的時間縮放 因子。
5. 如前述權(quán)利要求之一所述的方法,其中-每個子序列對的相似度度量包括加權(quán),所述加權(quán)考慮對中的子 序列之間的時間距離。
6.如權(quán)利要求5所述的方法,其中 -將所述加權(quán)偏向較大的時間距離。
7. 如前述權(quán)利要求之一所述的方法,其中-確定所述輸入窗,使其包括至少一個暫停信號段。
8. 如前述權(quán)利要求之一所述的方法,其中-確定所述輸入窗,使其不包括任何瞬變信號段。
9. 一種設(shè)備,包括使用修改的波形相似度疊加方法來對輸入信號值序列進行時間縮放的裝置,所述裝置適于確定子序列對的相似度度量中的最大化相似度,每個所述子序列對包括來自輸入窗(SW)的待 匹配子序列(Bl, .., B*, .. Bn)和來自搜索窗(MW)的匹配子序列(C1,.. C*,..Ck),其中,所述子序列對包括至少兩個子序列對,所述至少兩 個子序列對中的第一對包括第一待匹配子序列而第二對包括不同的第 二待匹配子序列。
10. 如權(quán)利要求9所述的設(shè)備,其中-所述第一對包括第一匹配子序列,所述第二對包括不同的第二 匹配子序列。
11. 如權(quán)利要求9所述的設(shè)備,其中-所述第一對和所述第二對包括相同的匹配子序列。
12. 如權(quán)利要求9至11之一所述的設(shè)備,其中-所述裝置還適于拷貝子序列,直到所述拷貝所產(chǎn)生的累計時 間偏差等于或大于最小跳距離,所述累計時間偏差依賴于所拷貝的子 序列的累計持續(xù)時間和期望的時間縮放因子。
13. 如權(quán)利要求9至12之一所述的設(shè)備,其中-每個子序列對的相似度度量包括加權(quán),.所述加權(quán)考慮對中的子 序列之間的時間距離。
14. 如權(quán)利要求13所述的設(shè)備,其中 -將所述加權(quán)偏向較大的時間距離。
15. 如權(quán)利要求9至14之一所述的設(shè)備,其中-所述裝置還適于確定所述輸入窗,使其包括至少一個暫停信 號段和/或使其不包括任何瞬變信號段。
全文摘要
本發(fā)明涉及一種數(shù)字信號處理技術(shù),用于改變音頻信號的長度并從而有效改變其播放速度。該技術(shù)用于幀率轉(zhuǎn)換、聲音效果、快進或慢動作。根據(jù)所述方法,對波形相似度疊加方法進行修改,以確定子序列對的相似度度量中的最大化相似度,每個所述子序列對包括來自輸入窗(SW)的待匹配子序列(B1,..,B<sup>*</sup>,..Bn)和來自搜索窗(MW)的匹配子序列(C1,..C<sup>*</sup>,..Ck),其中,所述子序列對包括至少兩個子序列對,所述至少兩個子序列對中的第一對包括第一待匹配子序列而第二對包括不同的第二待匹配子序列。所述輸入窗允許找到具有比使用基于單一待匹配子序列的WSOLA方法所找到的相似度更高的子序列對。這產(chǎn)生了較少的可感知偽像。
文檔編號G10L21/04GK101620856SQ20091014253
公開日2010年1月6日 申請日期2009年6月29日 優(yōu)先權(quán)日2008年7月3日
發(fā)明者馬庫斯·施洛瑟 申請人:湯姆森許可貿(mào)易公司