專利名稱:聲信號處理裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及處理聲信號的裝置和方法,通過該裝置和方法,進行對多聲道聲信號的時間壓縮和時間擴展。
背景技術(shù):
當改變聲信號的時間長度時(例如在語速變換中),人們通常通過從輸入信號中提取諸如基頻的特征數(shù)據(jù)、并插入和刪除具有基于獲得的特征數(shù)據(jù)確定的適應時間寬度的信號,來實現(xiàn)希望的壓擴比。例如,MORITANaotaka和ITAKURA Fumitada在“Time companding of voices,using anauto-correlation function”(Proc.of the Autumn Meeting of the AcousticalSociety of Japan,3-1-2,p.149-150,1986年10月)中所述的“指針間隔控制的交迭和累加”(PICOLA)方法便是一種典型的時間壓擴方法。在這種PICOLA中,通過從輸入信號中提取基頻、并插入和刪除具有所獲取基頻的波形來進行時間壓擴。在日本專利3430968中,將位于在平滑轉(zhuǎn)換間隔(crossfade interval)中的波形彼此最相似的位置上的波形切出,并將所切出波形的兩端連接以進行時間壓擴處理。在這兩種技術(shù)中,基于特征數(shù)據(jù)進行壓擴處理,該特征數(shù)據(jù)表示在原始信號的時基方向上分離的兩個間隔之間的相似度,且能在不改變音程(musical intervals)的情況下自然實現(xiàn)時基壓縮處理和時基擴展處理。
但是,在待處理的聲信號為諸如立體信號和5.1聲道信號的多聲道類型聲信號的情況下,當對各聲道單獨進行時基壓擴時,從各聲道提取的特征數(shù)據(jù),例如基頻,不一定彼此相同,這導致了插入和刪除波形的時序彼此不同的狀態(tài)。因此,存在這樣的問題,導致處理后的信號之間出現(xiàn)了原始信號中并不存在的相差,使聽眾感到不適。
從而,在多聲道聲信號的語速變換中,為保持音源定位,要求在提取全部聲道共有的特征(共有音調(diào))之后,通過基于該共有特征(共有音調(diào))插入和刪除波形來實現(xiàn)聲道之間的同步。例如日本專利2905191和日本專利3430974所述的常規(guī)技術(shù),通過其提取全部聲道共有的特征(共有音調(diào)),并如上述確保聲道間的同步。根據(jù)這些技術(shù),從復合(累加)了全部或部分多聲道聲信號的信號中提取特征(共有音調(diào))。例如,當輸入信號是立體信號時,從通過復合(累加)L聲道和R聲道所得的(L+R)信號中提取所有聲道共有的特征。
然而,如上述從復合(累加)了多聲道聲信號的信號中提取所有聲道共有的特征的方法存在這樣的問題,即在復合(累加)多個聲道信號中,當包含具有與右聲道分量異相的左聲道分量的聲音時,不能準確提取出特征(共有音調(diào))。更具體地是,當立體信號中的L聲道和R聲道具有彼此異相的信號、且兩信號以(L+R)形式復合(累加)時,存在兩信號互相抵消(幅度相同的情況下兩者均變?yōu)榱?、不能準確提取特征(共有音調(diào))的問題。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一方面,聲信號處理裝置包括特征提取單元和時基壓擴單元,所述特征提取單元基于通過復合從形成多聲道聲信號的每個聲道信號計算的相似度而獲得的復合相似度,提取所述每個聲道信號共有的特征數(shù)據(jù);所述時基壓擴單元基于所述提取的特征數(shù)據(jù),進行對所述多聲道聲信號的時間壓縮和時間擴展。
根據(jù)本發(fā)明的另一方面,聲信號處理方法包括基于通過復合從形成多聲道聲信號的每個聲道信號計算的相似度而獲得的復合相似度,提取所述每個聲道信號共有的特征數(shù)據(jù);以及在提取的特征數(shù)據(jù)的基礎(chǔ)上進行對多聲道聲信號的時間壓縮和時間擴展。
圖1為示出根據(jù)本發(fā)明第一實施例的聲信號處理裝置的配置的框圖;圖2示意示出了經(jīng)過根據(jù)PICOLA法的時基壓縮的語音信號的波形;圖3示意示出了經(jīng)過根據(jù)PICOLA法的時基擴展的語音信號的波形;圖4為示出根據(jù)本發(fā)明第二實施例的聲信號處理裝置中的硬件資源的框圖;圖5為示出特征提取處理流程的流程圖,通過該處理從左信號和右信號提取兩聲道共有的特征數(shù)據(jù);圖6為示出根據(jù)本發(fā)明第三實施例的聲信號處理裝置的配置的框圖;以及圖7為示出根據(jù)本發(fā)明第四實施例的聲信號處理裝置中的特征提取處理的流程的流程圖。
具體實施例方式
下面,將參照附圖詳細說明根據(jù)本發(fā)明尤其優(yōu)選的實施例的聲信號處理裝置和聲信號處理方法。
根據(jù)本發(fā)明的第一實施例將參照圖1至圖3進行說明。本實施例為將多聲道聲信號處理裝置用作聲信號處理裝置的實例,其中,待處理的聲信號為立體類型,且在改變音樂的速度或在改變語速時應用該多聲道聲信號處理裝置。
圖1為示出根據(jù)本發(fā)明第一實施例的聲信號處理裝置1的結(jié)構(gòu)的框圖。如圖1所示,聲信號處理裝置1包括模擬至數(shù)字轉(zhuǎn)換器2,其用于以預定采樣頻率進行對左輸入信號和右輸入信號的模擬至數(shù)字轉(zhuǎn)換;特征提取單元3,其用于對從模擬至數(shù)字轉(zhuǎn)換器2輸出的左信號和右信號提取兩聲道共有的特征;時間壓擴單元4,其基于在特征提取單元3中提取的左右聲道共有的特征數(shù)據(jù),按照指定的壓擴比,對輸入的原始數(shù)字信號進行時基壓擴處理;以及數(shù)字至模擬轉(zhuǎn)換器5,其輸出通過對經(jīng)由時基壓擴單元4的處理后的各聲道數(shù)字信號進行數(shù)字至模擬轉(zhuǎn)換所獲得的左輸出信號和右輸出信號。
特征提取單元3包括復合相似度計算器6,其用于利用左右信號來計算復合相似度;以及最大值搜索器7,其用于確定這樣的搜索位置,在所述位置上,復合相似度計算器6所獲取的復合相似度為最大。
在時基壓擴單元4中,將指針間隔控制的交迭和累加方法(PICOLA)用于時基壓擴。在PICOLA方法中,如MORITA Naotaka和ITAKURAFumitada在“Time companding of voices,using an auto-correlationfunction”(the Proc.of the Autumn Meeting of the Acoustical Associationof Japanese,3-1-2,p.149-150,1986年10月)中所述,通過從輸入信號中提取基頻并重復插入和刪除所獲得的基頻的波形,來實現(xiàn)希望的壓擴比。這里,當將R定義為由(處理后的時間長度/處理前的時間長度)表示的時基壓擴比時,R落在以下范圍內(nèi)在壓縮處理的情況下,0<R<1;在擴展處理的情況下,R>1。盡管在根據(jù)本實施例的時基壓擴單元4中將PICOLA法用作時基壓擴方法,但時基壓擴方法并不限于PICOLA法。例如,可以應用這樣的配置,在該配置中,切出位于在平滑轉(zhuǎn)換間隔中的波形彼此最相似的位置上的波形,并將切出的波形的兩端連接以進行時間壓擴處理。
接下來將說明聲信號處理裝置1中的過程。
首先,在模擬至數(shù)字轉(zhuǎn)換器2中,將左輸入信號和右輸入信號——即待進行時基壓擴處理的立體信號——的各信號由模擬信號轉(zhuǎn)換成數(shù)字信號。
然后,在特征提取單元3中,從在模擬至數(shù)字轉(zhuǎn)換器2轉(zhuǎn)換的左數(shù)字信號和右數(shù)字信號提取出左聲道和右聲道共有的基頻。
在特征提取單元3的復合相似度計算器6中,對來自模擬至數(shù)字轉(zhuǎn)換器2的左數(shù)字信號和右數(shù)字信號,計算出在時間方向上分離的兩個間隔之間的復合相似度。復合相似度可基于公式(1)計算S(τ)=Σn=0,n+=ΔnN-1(X1(n)·X1(n+τ)+Xr(n+Δd)·Xr(n+Δd+τ))---(1)]]>其中,X1(n)表示時刻n上的左信號,Xr(n)表示時刻n上的右信號,N表示用于計算復合相似度的波形窗口的寬度,τ表示相似波形的搜索位置,Δn表示用于計算復合相似度的稀疏化(thinning-out)寬度,Δd表示左聲道和右聲道之間稀疏化寬度的偏移。
在公式(1)中,采用自相關(guān)函數(shù)計算在時間方向上分離的兩個波形之間的復合相似度。S(τ)表示在搜索位置τ上左信號和右信號的自相關(guān)函數(shù)值之和,即表示通過復合(累加)各聲道的相似度所得的復合相似度。復合相似度S(τ)越大,導致對于左聲道和右聲道,以時刻n為起點、長度為N的波形與以時刻n+τ為起點、長度為N的波形之間的平均相似度越高。要求用于復合相似度計算的波形窗口寬度N至少為待提取的基頻中最低頻率的寬度。例如,假定模擬至數(shù)字轉(zhuǎn)換的采樣頻率為48000赫茲,且待提取的基頻的下限為50赫茲,則波形的窗口寬度N為960次采樣。如公式(1)所示,當使用通過復合從各聲道獲得的相似度所獲得的復合相似度時,即使左聲道和右聲道的聲音中包含彼此反相的聲音,也能精確表達出相似度。
此外,為了減少計算量,在公式(1)中以間隔Δn對各聲道計算相似度。Δn表示用于相似性計算的稀疏化寬度,且當將該值設(shè)置為較大的值時,可減少計算量。例如,當壓擴比為1或更小(壓縮)時,用于轉(zhuǎn)換處理所需的短時間內(nèi)的計算量增大。因此,當壓擴比為1或更小時,隨著壓擴比接近于1,將Δn設(shè)置為5次采樣到10次采樣,且可應用Δn接近1次采樣的配置。在復合相似度計算中,即使對采樣進行稀疏化以用于上述計算,足以獲知幅度上的較大差異,且經(jīng)時基壓擴后的聲音質(zhì)量并沒有明顯降低。另外,可依據(jù)聲道的數(shù)量來決定Δn。因為當聲道數(shù)量增加時,如同5.1聲道,提取特征所需的計算量增加。例如,即使在處理5.1聲道信號時,通過使Δn的采樣數(shù)等于聲道數(shù)能減少計算量。
公式(1)中的Δd表示稀疏化處理在左聲道和右聲道之間的位置偏移寬度。對左聲道和右聲道在不同位置進行稀疏化處理能減少時間分辨率的降低。將偏移寬度Δd設(shè)置為例如Δn/2,這相當于在公式(1)中用稀疏化寬度Δn/2交替對左聲道和右聲道進行的相似度計算。如上所述,通過對每個多聲道在不同的位置進行稀疏化處理可以對全部聲道減少時間分辨率的降低??梢耘cΔn相同的方式,根據(jù)聲道數(shù)改變聲道之間的位移寬度。當處理5.1聲道信號時,對每聲道設(shè)置Δd為例如0、Δn×1/6、Δn×2/6、Δn×3/6、Δn×4/6、Δn×5/6,這相當于用稀疏化寬度Δn/6交替對全部六個聲道進行的相似度計算。因此,可以對全部聲道減少時間分辨率的降低。
在特征提取單元3中的最大值搜索器7中,在搜索相似波形的范圍中搜索搜索位置τmax,在所述位置上復合相似度為最大值。當通過公式(1)計算復合相似度時,只需在預定搜索起始位置Pst和預定搜索結(jié)束位置Ped之間搜索最大值s(τ)。例如,當假設(shè)模擬至數(shù)字轉(zhuǎn)換的采樣頻率為48000赫茲時,且待提取基頻的上限為200赫茲、待提取頻率的下限為50赫茲,則對相似波形的搜索位置τ介于240次采樣至960次采樣之間,且獲得在此范圍內(nèi)使s(τ)最大的τmax。如上所述所獲取的τmax是兩聲道共有的基頻。即使在如上所述搜索到最大值時,仍可應用稀疏化處理。也就是說,在時基方向上對相似波形的搜索位置τ由搜索起始位置Pst以Δτ變至搜索結(jié)束位置Ped。Δτ表示在時基方向上的相似波形搜索的稀疏化寬度,并且,當將該值設(shè)置得較大時,可以減少計算量。以與上述Δn相同的方式,通過改變壓擴比的數(shù)量和聲道的數(shù)量可有效減小Δτ的大小。例如,當壓擴比為1或更小時,將Δτ設(shè)置為5次采樣到10次采樣,并且,當壓擴比接近1時,可應用其中Δτ接近1次采樣的配置。
這里,盡管在上述說明中特別提到了計算量的減少,在對計算量有足夠能力時,假設(shè)稀疏化寬度Δn以及Δτ為1次采樣,自然可以進行詳細的復合相似度計算和最大值搜索。
在時基壓擴單元4中,基于在特征提取單元3中獲得的基頻τmax,進行對左右信號的時基壓擴。圖2示出了依照PICOLA法進行時基壓縮(R<1)的語音信號的波形。首先,如圖2所示,在時基壓縮的起始位置設(shè)置指針(在圖2中用方形標記表示),在特征提取單元3中,對語音信號從指針向前提取基頻τmax。接著,生成信號C,其中,通過以這樣一種方式加權(quán)的交迭且累加操作來獲取信號C,即將距上述指針位置的距離為基頻τmax的兩波形A和B進行平滑轉(zhuǎn)換。這里,通過以權(quán)重由1到0線性變化的方式指定波形A的權(quán)重,并以權(quán)重由0到1線性變化的方式指定波形B的權(quán)重,而生成長度為τmax的波形C。為了保證波形C前端和后端連接點的連續(xù)性而提供這種平滑轉(zhuǎn)換處理。接著,將指針在波形C上移動Lc=R·τmax/(1-R),并將其假設(shè)為后續(xù)處理的起始點(如圖2中倒三角所示)??梢岳斫?,基于長度為Lc+τmax=τmax/(1-R)的輸入信號,通過上述處理產(chǎn)生長度為Lc的輸出波形以滿足壓擴比R。
另一方面,圖3示出了依照PICOLA法進行時基擴展(R>1)的語音信號的波形。在擴展處理中,以與壓縮處理相同的方式,如圖3所示,在時基壓縮的起始位置設(shè)置指針(在圖3中用方形標記表示),且在特征提取單元3中,對語音信號從指針向前提取基頻τmax。設(shè)距上述指針位置的距離為基頻τmax的兩波形為A、B。在第一處,將波形A原樣輸出。接著,通過以權(quán)重由1到0線性變化的方式指定波形A的權(quán)重進行疊加-累加操作,并以權(quán)重由0到1線性變化的方式指定波形B的權(quán)重進行疊加-累加操作,生成長度為τmax的波形C。接著,將指針在波形C上移動LS=τmax/(R-1),并將其假設(shè)為后續(xù)處理的起始點(如圖3中倒三角所示)?;陂L度為Ls的輸入信號,通過上述處理產(chǎn)生長度為Ls+τmax=R·τmax/(R-1)的輸出波形以滿足壓擴比R。
在時基壓擴單元4中,通過PICOLA法,如上所述進行時基壓擴處理。
在上述時基壓擴單元4中,根據(jù)PICOLA法,對左信號和右信號的各信號進行時基壓擴處理。此時,由于使用在特征提取單元3中提取的共有基頻τmax用于對左右聲道的時基壓擴來保持聲道的互相同步,從而在不會導致轉(zhuǎn)換后的語音令人不適的情況下完成了時基壓擴。
最后,在數(shù)字至模擬轉(zhuǎn)換器5中,通過對在時基壓擴單元4中處理的左信號和右信號數(shù)字-模擬轉(zhuǎn)換,將數(shù)字信號轉(zhuǎn)換為模擬信號。
以上介紹了根據(jù)第一實施例的對立體聲信號的時基壓擴。
根據(jù)第一實施例,由于基于復合相似度提取了各聲道信號共有的特征數(shù)據(jù),其中所述復合相似度通過復合從組成多聲道聲信號的各聲道信號計算得出的相似度來獲得;且基于所提取到的特征數(shù)據(jù),可通過對多聲道聲信號的時間壓縮和時間擴展來精確提取所有聲道共有的特征數(shù)據(jù);且基于獲得的共有特征數(shù)據(jù),可在使所有聲道彼此保持同步的狀態(tài)下進行時間壓擴,因此,可以實現(xiàn)高品質(zhì)的時基壓擴。
另外,當計算復合相似度和搜索最大相似度時,通過在對采樣進行稀疏化的狀態(tài)下進行計算,可以大大減小提取特征數(shù)據(jù)所需的計算量。
此外,在計算復合相似度中,通過在不同位置對各聲道進行稀疏化處理,可以對全部聲道防止時間分辨率的降低。
這里,當聲道數(shù)量增加時,例如,在5.1聲道聲信號的情況下,通過使用從全部聲道或部分聲道信號計算的復合相似度來提取特征可準確提取出特征,而不依賴于各聲道信號之間的相位關(guān)系。
下面將參照圖4和圖5說明根據(jù)本發(fā)明的第二實施例。這里,將與前述關(guān)于第一實施例的部分相同的部分用與第一實施例中相同的符號表示,并省略對該部分的說明。
第一實施例所示的聲信號處理裝置1示出了這樣的實例其中通過具有數(shù)字電路配置的硬件資源進行對左信號和右信號的兩聲道共有的特征數(shù)據(jù)的提取處理,另一方面,第二實施例將說明這樣的實例其中通過聲信號處理裝置中的硬件資源(例如HDD和NVRAM)內(nèi)所安裝的計算機程序進行左信號和右信號的兩聲道共有的特征數(shù)據(jù)的提取處理。
圖4為示出根據(jù)本發(fā)明第二實施例的聲信號處理裝置10中的硬件資源的框圖。根據(jù)本實施例的聲信號處理裝置10具有系統(tǒng)控制器11,其代替特征提取單元3。系統(tǒng)控制器11為微型計算機,其包含CPU(中央處理單元)12,其控制整個系統(tǒng)控制器11;ROM(只讀存儲器13),其為系統(tǒng)控制器11存儲控制程序;以及RAM(隨機存取存儲器)14,其作為CPU12的工作存儲器。且具有這樣一種配置,在該配置中,將用于提取左信號和右信號兩聲道的共有的特征數(shù)據(jù)的特征提取處理計算機程序安裝在HDD(硬盤驅(qū)動器)15上,HDD15預先通過總線連接到系統(tǒng)控制器11,且在啟動聲信號處理裝置10時將這樣的計算機程序?qū)懭隦AM14并執(zhí)行,其中,通過特征提取處理計算機程序,從左信號和右信號提取兩聲道共有的特征數(shù)據(jù)。也就是說,計算機程序使計算機的系統(tǒng)控制器11進行特征提取處理,以從左信號和右信號提取兩聲道共有的特征數(shù)據(jù)。在這里,HDD15起到了存儲介質(zhì)的作用,其存儲聲信號處理程序的計算機程序。
下面將參照圖5所示的流程圖說明根據(jù)計算機程序進行的特征提取處理,該處理從左信號和右信號中提取兩聲道共有的特征數(shù)據(jù)。如圖5所示,假定壓擴處理的起始位置為T0,CPU12設(shè)置參數(shù)τ,τ表示首先在TST進行對類似波形的搜索的位置,同時,將Smax=-∞作為最大復合相似度的初始值(步驟S1)。
接著,設(shè)時刻n為T0,且搜索位置τ上的復合相似度S(τ)為0(步驟S2),計算復合相似度S(τ)(步驟S3)。在復合相似度S(τ)的計算中,時刻n以Δn增加(步驟S4),并重復步驟S4的操作直到時刻n大于T0+N(步驟S5中的“是”)。
當時刻n大于T0+N(步驟S5中的“是”)時,處理進至步驟S6,在S6中將計算得到的復合相似度S(τ)與Smax進行比較。當計算得到的復合相似度S(τ)大于Smax(步驟S6中的“是”)時,用計算得到的復合相似度S(τ)替代Smax,并同時將在該情況下獲得的τ設(shè)定為進到步驟S8時的τmax(步驟S7)。另一方面,當計算得到的復合相似度S(τ)小于Smax(步驟S6中的“否”)時,處理照原樣進至步驟S8。
執(zhí)行上述步驟S2至步驟S7的處理,直至τ在增大Δτ(步驟S8)后超過TED(步驟S9中的“是”),并將在最終獲得的最大復合相似度Smax處的τmax設(shè)為左信號和右信號共有的基頻(特征數(shù)據(jù))(步驟S10)。
如上所述,由于基于復合相似度提取出各聲道信號共有的特征數(shù)據(jù),其中所述復合相似度通過復合從組成多聲道聲信號的各聲道的信號計算得出的相似度來獲得;且基于所提取到的特征數(shù)據(jù),通過對多聲道聲信號的時間壓縮和時間擴展,可準確提取出所有聲道共有的特征數(shù)據(jù);且基于所獲得的共有特征數(shù)據(jù),可在使所有聲道保持彼此同步的狀態(tài)下進行時間壓擴處理,因此,根據(jù)本發(fā)明可實現(xiàn)高品質(zhì)的時基壓擴。
這里,將安裝在HDD15中的聲信號處理程序的計算機程序記錄在存儲介質(zhì)上,例如,諸如只讀光盤(CD-ROM)和數(shù)字通用盤只讀存儲器(DVD-ROM)的光學信息記錄介質(zhì)或諸如軟盤(FD)的磁介質(zhì)。將上述存儲介質(zhì)中記錄的計算機程序安裝在HDD15上。因此,其中存儲了聲信號處理程序的計算機程序的存儲介質(zhì)可以為便攜存儲介質(zhì),例如,諸如CD-ROM的光學信息記錄介質(zhì)和諸如FD的磁介質(zhì)。此外,聲信號處理程序的計算機程序可以從外部通過例如網(wǎng)絡獲取,并被安裝在HDD15上。
接下來將參照圖6說明根據(jù)本發(fā)明的第三實施例。這里,將與前述關(guān)于第一實施例的部分相同的部分用與第一實施例中相同的符號表示,并省略對該部分的說明。
作為第一實施例示出的聲信號處理裝置1具有這樣的配置,其中,計算各聲道波形的自相關(guān)函數(shù)值的和,即通過復合(累加)各聲道的相似度所獲得的復合相似度S(τ);將復合相似度s(τ)的最大值處的基頻τmax設(shè)為左信號和右信號共有的基頻(特征數(shù)據(jù));將共有的基頻τmax用于左右聲道的時基壓擴。本實施例具有這樣的配置,其中,計算各聲道波形幅度之差的值的絕對值之和,即通過復合(累加)各聲道的相似度所獲得的復合相似度S(τ);將復合相似度s(τ)最小值處的基頻τmin設(shè)為左信號和右信號共有的基頻(特征數(shù)據(jù));將共有的基頻τmin用于左右聲道的時基壓擴。
圖6為示出根據(jù)本發(fā)明第三實施例的聲信號處理裝置20的配置的框圖。如圖6所示,聲信號處理裝置20包括模擬至數(shù)字轉(zhuǎn)換器2,其用于以預定采樣頻率進行對左信號和右信號的模擬至數(shù)字轉(zhuǎn)換;特征提取單元3,其用于從由模擬至數(shù)字轉(zhuǎn)換器2輸出的左信號和右信號提取兩聲道的共有特征數(shù)據(jù);時間壓擴單元4,其用于基于在特征提取單元3中提取的、左聲道和右聲道共有的特征數(shù)據(jù),根據(jù)指定的壓擴比,對輸入原始數(shù)字信號進行時間壓擴處理;數(shù)字至模擬轉(zhuǎn)換器5,其輸出通過對經(jīng)由時基壓擴單元4的處理后的各聲道數(shù)字信號進行數(shù)字至模擬轉(zhuǎn)換獲取的左輸出信號和右輸出信號。
特征提取單元3包括復合相似度計算器21,其用于利用左右信號來計算復合相似度;以及最小值搜索器22,其用于確定這樣的搜索位置,在所述位置上,在復合相似度計算器21獲得的復合相似度最小。
在特征提取單元3的復合相似度計算器21中,對來自模擬至數(shù)字轉(zhuǎn)換器2的左數(shù)字信號和右數(shù)字信號,計算出在時基方向上分離的兩個間隔之間的復合相似度。復合相似度可基于公式(2)計算S(τ)=Σn=0,n+=ΔnN-1(|X1(n)-X1(n+τ)|+|Xr(n+Δd)-Xr(n+Δd+τ)|)---(2)]]>其中,X1(n)表示時刻n上的左信號,Xr(n)表示時刻n上的右信號,N表示用于復合相似度計算的波形窗口的寬度,τ表示相似波形的搜索位置,Δn表示用于復合相似度計算的稀疏化寬度,Δd表示左聲道和右聲道之間稀疏化寬度的偏移。
在公式(2)中,通過幅度之差的值的絕對值之和來計算在時間方向上分離的兩個波形之間的復合相似度,且通過復合(累加)左信號和右信號在搜索位置τ上的幅度之差的值的絕對值之和來計算復合相似度s(τ)。復合相似度s(τ)越小,導致對于左聲道和右聲道,以時刻n為起點、長度為N的波形與以時刻n+τ為起點、長度為N的波形之間的平均相似度越高。
在特征提取單元3的最小值搜索器22中,在搜索相似波形的范圍中搜索出搜索位置τmin,在所述位置上復合相似度為最小值。當通過公式(2)計算復合相似度時,只需在預定搜索起始位置Pst和預定搜索結(jié)束位置Ped之間搜索最小值s(τ)。
如上所述,由于基于復合相似度提取了各聲道信號共有的特征數(shù)據(jù),其中所述復合相似度通過復合從組成多聲道聲信號的各聲道信號計算得出的相似度來獲得;且基于所提取到的特征數(shù)據(jù),可通過對多聲道聲信號的時間壓縮和時間擴展來精確提取所有聲道共有的特征數(shù)據(jù);且基于所獲得的共有特征數(shù)據(jù),可在使所有聲道彼此保持同步的狀態(tài)下進行時間壓擴,因此,根據(jù)第三實施例可以實現(xiàn)高品質(zhì)的時基壓擴。
接著將參照圖7說明根據(jù)本發(fā)明的第四實施例。這里,將與前述關(guān)于第一實施例到第三實施例所述的部分相同的部分用與第一實施例到第三實施例中相同的符號表示,并省略對該部分的說明。
第三實施例所示的聲信號處理裝置1示出這樣的實例其中通過具有數(shù)字電路配置的硬件資源,進行從左信號和右信號提取兩聲道共有的特征數(shù)據(jù)的處理,另一方面,本實施例將說明這樣一個實例其中通過在信息處理器中的硬件資源(例如HDD)內(nèi)安裝的計算機程序,進行從左信號和右信號提取兩聲道的共有特征數(shù)據(jù)的處理。
由于本實施例的聲信號處理裝置的硬件配置與第二實施例所說明的聲信號處理裝置10的硬件配置并無不同,因此省略對其的說明。本實施例中的聲信號處理裝置與第二實施例所說明的聲信號處理裝置10的不同之處在于安裝在HDD15中的計算機程序,其中,提供計算機程序以進行特征提取處理,通過該處理,從左信號和右信號提取出兩聲道共有的特征數(shù)據(jù)。
下面,將參照圖7所示的流程圖,說明根據(jù)計算機程序進行的特征提取處理,所述處理用于從左信號和右信號提取兩聲道共有的特征數(shù)據(jù)。如圖7所示,假定壓擴處理的起始位置為T0,CPU12設(shè)置參數(shù)τ,τ表示首先在TST進行相似波形搜索的位置,同時,將Smin=∞作為最小復合相似度的初始值(步驟S11)。
接著,設(shè)時刻n為T0,且搜索位置τ上的復合相似度S(τ)為0(步驟S12),計算復合相似度S(τ)(步驟S13)。在復合相似度S(τ)的計算中,時刻n以Δn增加(步驟S14),并重復步驟S14的操作直到時刻n大于T0+N(步驟S15中的“是”)。
當時刻n大于T0+N(步驟S15中的“是”)時,處理進至步驟S16,在S16中將計算得到的復合相似度S(τ)與Smin進行比較。當計算得到的復合相似度S(τ)小于Smin(步驟S16中的“是”)時,則用計算得到的復合相似度S(τ)替代Smin,并同時將在該情況下獲得的τ設(shè)為進至步驟S18時的τmin(步驟S17)。另一方面,當計算得到的復合相似度S(τ)大于Smin(步驟S16中的“否”)時,處理原樣進至步驟S18。
執(zhí)行上述步驟S12至步驟S17的處理,直至τ在增加Δτ(步驟S18)時超過TED(步驟S19中的“是”),并將最終獲得的最小復合相似度Smin處的τmin設(shè)為左信號和右信號共有的基頻(特征數(shù)據(jù))(步驟S20)。
根據(jù)上述實施例,由于基于復合相似度提取各聲道信號共有的特征數(shù)據(jù),其中所述復合相似度通過復合從組成多聲道聲信號的各聲道的信號計算得出的相似度來獲得;且基于所提取到的特征數(shù)據(jù),通過對多聲道聲信號的時間壓縮和時間擴展,可準確提取所有聲道共有的特征數(shù)據(jù);且基于所獲得的共有特征數(shù)據(jù),可在使所有聲道保持彼此同步的狀態(tài)下進行時間壓擴處理,因此,可實現(xiàn)高品質(zhì)的時基壓擴。
本領(lǐng)域技術(shù)人員可以容易地想到其它優(yōu)點和修改。因此,本發(fā)明的更寬的范圍并不局限于文中示出和描述的具體細節(jié)和代表性實施例。因此,在不脫離所附權(quán)利要求書及其等同物所限定的總體發(fā)明構(gòu)思的精神和范圍的條件下可進行多種修改。
權(quán)利要求
1.一種聲信號處理裝置,包括特征提取單元,其基于通過復合包括多聲道聲信號的多個聲道信號的相似度而獲得的復合相似度,提取所述聲道信號共有的特征數(shù)據(jù);以及時基壓擴單元,其基于所述提取的特征數(shù)據(jù),進行對所述多聲道聲信號的時間壓縮和時間擴展。
2.如權(quán)利要求1所述的聲信號處理裝置,其中,所述特征提取單元包括復合相似度計算器,其計算作為各聲道信號波形的自相關(guān)函數(shù)值之和的復合相似度;以及最大值搜索器,其搜索所述計算得到的復合相似度的最大值,以提取所述最大值作為所述特征數(shù)據(jù)。
3.如權(quán)利要求1所述的聲信號處理裝置,其中,所述特征提取單元包括復合相似度計算器,其計算作為各聲道信號波形幅度之差的值的絕對值之和、并通過復合相似度獲得的復合相似度;以及最小值搜索器,其通過搜索所述計算得到的復合相似度的最小值,而提取各聲道信號共有的特征數(shù)據(jù)。
4.如權(quán)利要求1所述的聲信號處理裝置,其中,復合相似度通過稀疏化各聲道信號相似度計算的采樣數(shù)而被計算。
5.如權(quán)利要求4所述的聲信號處理裝置,其中,當稀疏化各聲道信號相似度計算的所述采樣數(shù)時,各聲道信號的稀疏化位置互不相同。
6.如權(quán)利要求2所述的聲信號處理裝置,其中,希望的復合相似度通過在時基方向上稀疏化對相似波形的搜索位置而被搜索。
7.如權(quán)利要求3所述的聲信號處理裝置,其中,希望的復合相似度通過在時基方向上稀疏化對相似波形的搜索位置而被搜索。
8.如權(quán)利要求4所述的聲信號處理裝置,其中,稀疏化寬度由所述多聲道聲信號的聲道數(shù)確定。
9.如權(quán)利要求4所述的聲信號處理裝置,其中,稀疏化寬度根據(jù)特定的壓擴比而被確定。
10.一種聲信號處理方法,包括基于通過復合包括多聲道聲信號的多個聲道信號的相似度而獲得的復合相似度,提取所述聲道信號共有的特征數(shù)據(jù);以及基于所述提取到的特征數(shù)據(jù),進行對所述多聲道聲信號的時間壓縮和時間擴展。
11.如權(quán)利要求10所述的聲信號處理方法,還包括計算復合相似度,所述復合相似度為各聲道信號波形的自相關(guān)函數(shù)值之和;以及搜索所述計算得到的復合相似度的最大值,以提取所述最大值作為所述特征數(shù)據(jù)。
12.如權(quán)利要求10所述的聲信號處理方法,還包括計算復合相似度,所述復合相似度為各聲道信號波形幅度之差的值的絕對值之和、并通過復合相似度獲得;以及通過搜索所述計算得到的復合相似度的最小值,而提取各聲道信號共有的特征數(shù)據(jù)。
全文摘要
一種聲信號處理裝置,其包括特征提取單元和時基壓擴單元,所述特征提取單元基于通過復合從形成多聲道聲信號的每個聲道信號計算的相似度而獲得的復合相似度,提取所述每個聲道信號共有的特征數(shù)據(jù);所述時基壓擴單元基于所述提取的特征數(shù)據(jù),進行對所述多聲道聲信號的時間壓縮和時間擴展。
文檔編號G10L19/00GK1848691SQ200610066620
公開日2006年10月18日 申請日期2006年4月13日 優(yōu)先權(quán)日2005年4月14日
發(fā)明者山本幸一, 河村聰?shù)?申請人:株式會社東芝