專利名稱:用于將聲音幀分離成為正弦分量和殘余噪聲的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種從所提供的第一聲音幀來(lái)確定表示正弦分量的第二聲音幀以及表示殘余的可選的第三聲音幀的方法。
本發(fā)明也涉及一種用于執(zhí)行該方法的計(jì)算機(jī)系統(tǒng)。
本發(fā)明進(jìn)一步涉及一種用于執(zhí)行該方法的計(jì)算機(jī)程序產(chǎn)品。
另外,本發(fā)明涉及一種設(shè)備,其包括用于執(zhí)行所述方法的步驟的裝置。
背景技術(shù):
US6298322公開(kāi)了一種使用主要音調(diào)信號(hào)和矢量量化的殘余音調(diào)信號(hào)對(duì)音調(diào)音頻信號(hào)進(jìn)行編碼和合成的方法。該編碼器為所限制數(shù)目的音調(diào)音頻信號(hào)的主要正弦分量確定時(shí)變頻率、幅度和相位,以形成主要正弦參數(shù)序列。從音調(diào)音頻信號(hào)中除去這些(主要)分量,以形成殘余音調(diào)信號(hào)。使用所謂的殘余音調(diào)信號(hào)編碼器(RTSE)編碼所述殘余音調(diào)信號(hào)。
在對(duì)音頻信號(hào)進(jìn)行正弦加殘余編碼中,音頻信號(hào)被分割,并且通過(guò)正弦部分加殘余部分模擬每一幀,這是公知常識(shí)并且是上面所提到現(xiàn)有技術(shù)的常識(shí)。該正弦部分典型地是正弦分量之和。在大多數(shù)正弦編碼器中,將該殘余假定為隨機(jī)信號(hào),并可以通過(guò)噪聲模擬。當(dāng)是這種情況時(shí),該信號(hào)的正弦部分應(yīng)該構(gòu)成原始幀的所有確定性(即音調(diào))分量。
如果該正弦部分并不構(gòu)成所有的音調(diào)分量,某些音調(diào)分量會(huì)通過(guò)噪聲模擬。因?yàn)樵肼暡⒉贿m合模擬音調(diào),這樣就會(huì)引入假象。如果正弦部分不僅僅構(gòu)成該確定性部分,正弦分量就對(duì)噪聲進(jìn)行模擬。由于兩個(gè)原因,這并非所想要的。一方面,正弦并不適合于模擬噪聲信號(hào),并且會(huì)出現(xiàn)假象。另一方面,如果不通過(guò)噪聲模擬這些分量,將會(huì)得到更多的壓縮。
現(xiàn)有技術(shù)的現(xiàn)狀給出某些解決這一問(wèn)題的方法,即如何較好地劃分成為正弦部分和殘余部分。
S.N.Levine.Audio Representation for Data Compression andCompressed Domain Processing.Ph.D.Dissertation,StanfordUniversity,1998。
S.N.Levine,J.O.Smith,“Improvements to the switchedparametric&transform audio coder”,in Proc.1999 IEEE onApplications of Signal Processing to Audio and Acoustics,1999,pp.43-46。
S.N.Levine,and J.O.Smith III,“Improvements to theswitched parametric&transform audio coder”in Proc.1999 IEEEWorkshop on Applications of Signal Processing to Audio andAcoustics,New Paltz,New York,Oct.17-20,1999,pp.43-46。
G.Peeters,and X.Rodet,“Signal Characterisation in termsof Sinusoidal and Non-Sinusoidal Components”in Proc.DigitalAudio Effects,Barcelona,Spain,19-21 November 1998。
X.Rodet,“Musical Sound Signal Analysis/SynthesisSinusoidal+Residual and Elementary Waveform Models”in Proc.IEEE Time-Frequency and Time-Scale Workshop (TFTS′97),University of Warwick,Coventry,UK,27th-29th August 1997。
某些方法完全是根據(jù)信號(hào)的特性。
G.Peeters,and X.Rodet,“Signal Characterisation in termsof Sinusoidal and Non-Sinusoidal Components”in Proc.DigitalAudio Effects,Barcelona,Spain,November 1998。
X.Rodet,“Muscial Sound Signal Analysis/SynthesisSinusoidal+Residual and Elementary Waveform Models”in Proc.IEEE Time-Frequency and Time-Scale Workshop(TFTS′97),University of Warwick,Coventry,UK,27th-29th August 1997。
其它的則更多的是基于心理聲學(xué)的考慮。
S.N.Levine.Audio Representation for Data Compression andCompressed Domain Processing.Ph.D.Dissertation,StanfordUniversity,1998。
S.N.Levine,J.O.Smith,“Improvements to the switchedparametric&transform audio coder”in Proc.1999 IEEE onApplications of Signal Processing to Audio and Acoustics,1999,pp.43-46。
S.N.Levine,and J.O.Smith III,“Improvements to theswitched parametric&transform audio coder”in Proc.1999 IEEEWorkshop on Applications of Signal Processing to Audio andAcoustics,New Paltz,New York,Oct.17-20,1999,pp.43-46。
不幸的是,要分離成正弦部分和殘余部分并不容易,并且這些方法沒(méi)有一個(gè)能夠給出完全滿意的結(jié)果(例如參見(jiàn)G.Peeters,and x.Rodet,“Signal Characterisation in terms of Sinusoidal andNon-Sinusoidal Components”in Proc.Digital Audio Effects,Barcelona,Spain,November 1998)。因此當(dāng)前發(fā)明的目的是在輸入信號(hào)的確定性部分和隨機(jī)部分之間具有較好的分離,以避免出現(xiàn)假象并為了在接下來(lái)對(duì)所分離的信號(hào)進(jìn)行壓縮中得到最優(yōu)并高效的壓縮或編碼。
發(fā)明內(nèi)容
所述目的的實(shí)現(xiàn)需要在開(kāi)始段落中所提到的方法包括下面的步驟·在未提取的分量中確定第一聲音幀中的正弦分量;·為該第一聲音幀確定重要性測(cè)量;·從該第一聲音幀提取正弦分量;并且將該正弦分量包括在第二聲音幀中;和·重復(fù)所述步驟,直到該重要性測(cè)量滿足停止標(biāo)準(zhǔn)。
該所述方法具有多個(gè)高于上述現(xiàn)存方法的優(yōu)點(diǎn)。引入到該編碼階段中的額外復(fù)雜度幾乎為零。而且,該復(fù)雜度還可以降低,因?yàn)樵谧詈蟛襟E中該方法表明何時(shí)停止提取正弦分量。結(jié)果,在第三步驟中不提取多于所需的正弦。另外,容易包括對(duì)心理聲學(xué)的考慮。最重要的是,該方法考慮輸入幀的性質(zhì),即所述第一聲音幀的性質(zhì),給出較好的隨機(jī)與確定性之間的平衡。
在本發(fā)明優(yōu)選的實(shí)施例中,可以在第三步驟之前執(zhí)行,或者可以在第三與第四步驟之間執(zhí)行第二步驟(確定重要性測(cè)量)。
在本發(fā)明優(yōu)選的實(shí)施例中,該方法進(jìn)一步包括步驟
·當(dāng)該重要性測(cè)量滿足所述停止標(biāo)準(zhǔn)時(shí),將第三聲音幀設(shè)置為第一聲音幀。
從而,也可以實(shí)現(xiàn)的是,將該殘余(即第三聲音幀)作為輸入提供給隨后對(duì)所分離信號(hào)進(jìn)行(即第二和第三聲音幀)的壓縮。
在本發(fā)明優(yōu)選的實(shí)施例中,從第一聲音幀中提取正弦分量,并將該正弦分量包括在第二聲音幀中的所述步驟進(jìn)一步包括步驟·從該第一聲音幀中除去該正弦分量。
從而其優(yōu)點(diǎn)是,隨后可以更準(zhǔn)確地確定正弦分量和/或重要性測(cè)量。
在權(quán)利要求4至10中反映了本發(fā)明進(jìn)一步的替換實(shí)施例。
下面將結(jié)合優(yōu)選實(shí)施例并參照附圖更全面的描述本發(fā)明,其中圖1所示為本發(fā)明的實(shí)施例,其中停止標(biāo)準(zhǔn)表明在正弦分析階段中何時(shí)停止提取正弦分量,引入到正弦模型中的所提取分量以及殘余信號(hào);圖2所示為將該方法用于一段音樂(lè)的結(jié)果(上半部),在下半部中表示每一幀中所經(jīng)歷的正弦數(shù)目;圖3所示的方法為從所提供的第一聲音幀中確定表示正弦分量的第二聲音幀以及可選的表示殘余的第三聲音幀;和圖4所示為用于聲音處理的設(shè)備。
在全部的附圖中,相同的附圖標(biāo)記表示相同或?qū)?yīng)的特征、功能、聲音幀等。
具體實(shí)施例方式
圖1所示為在正弦提取中引入停止標(biāo)準(zhǔn),以及如何將輸入幀分離成為兩個(gè)不同的信號(hào)所提取的引入到正弦模型中的正弦分量,以及殘余信號(hào)。
該圖所示為本發(fā)明的實(shí)施例,其中在所述分離中應(yīng)用了低復(fù)雜度的基于心理聲學(xué)能量的停止標(biāo)準(zhǔn)。該圖所示為該系統(tǒng)的方框圖。輸入幀的附圖標(biāo)記為10,將其輸入到提取方法。該提取方法在每一迭代中提取一個(gè)正弦分量。在每次提取之后,獲得兩個(gè)不同的信號(hào)所提取的分量,將其引入、即添加或附加到附圖標(biāo)記為20的該正弦模型中,以及殘余信號(hào),其附圖標(biāo)記為30。然后從該殘余信號(hào)計(jì)算心理聲學(xué)測(cè)量或能量測(cè)量——其通常并一般稱為重要性測(cè)量,附圖標(biāo)記為40。從由所述測(cè)量提供的信息,根據(jù)在附圖標(biāo)記5 0中表示的停止標(biāo)準(zhǔn)作出判決,即其之中是否還可能有某些重要音調(diào)分量。在后一種情況下,該提取方法必須停止并且反之亦然。
給出該信息的測(cè)量稱為殘余信號(hào)的可檢測(cè)性和可檢測(cè)性減少。該可檢測(cè)性測(cè)量是基于在S.vande Par,A.Kohlrausch,M.Charestan,R.Heusdens,“A new psychoacoustical masking model for audiocoding applications”in Proc.IEEE Int.Conf.Acoust.,Speechand Signal Process.,Orlando,USA,May 13-17,2002中所提出的心理聲學(xué)模型的可檢測(cè)性。
殘余的可檢測(cè)性的值表示在該殘余中還剩下多少心理聲學(xué)相關(guān)的功率。如果其在迭代m時(shí)達(dá)到一或更低的值,表明剩下的能量聽(tīng)不見(jiàn)??蓹z測(cè)性減少表示在對(duì)提取之前的功率剩余進(jìn)行一次提取之后減少了多少相關(guān)功率。方框“重要性測(cè)量計(jì)算”的附圖標(biāo)記為40,其可以根據(jù)下面的等式計(jì)算殘余的可檢測(cè)性以及其減少Dm=ΣfRm(f)a(f)=ΣfRm(f)msk(f)---(1)]]>reductionDm(m)=100-100*DmDm-1(%)=100(1-DmDm-1)=100(ΔDDm-1)]]>其中Rm(f)表示殘余信號(hào)的功率譜,a(f)為輸入信號(hào)(以功率計(jì)算)的掩蔽閾值ms k(f)的反函數(shù),f為頻率組,m為迭代次數(shù),并且ΔD為可檢測(cè)性的遞減量。
該可檢測(cè)性表示剩下的能量是否可聽(tīng)見(jiàn),并且其減少值給出在輸入幀的確定性部分與隨機(jī)部分之間如何區(qū)分。原因就是當(dāng)所提取的峰值是音調(diào)分量時(shí)可檢測(cè)性的減少通常多于其是噪聲分量時(shí)。然后,當(dāng)該可檢測(cè)性的值等于或低于一,或者當(dāng)其減少達(dá)到某一值(假設(shè)對(duì)應(yīng)于當(dāng)提取噪聲分量時(shí)的減少值)時(shí),該提取算法應(yīng)該停止提取分量。
可以注意到,所引入的測(cè)量應(yīng)該只與心理聲學(xué)提取方法結(jié)合,例如在R.Heusdens and S.van de Par(2001),“Rate-distortionoptimal sinusoidal modelling of audio and speech usingpsychoacoustical matching pursuits”in Proc.IEEE Int.Conf.Acoust.,Speech and Signal Process.,Orlando,USA,May 13-17,2002中提供的心理聲學(xué)匹配研究。其原因就是,如果該提取方法不使用心理聲學(xué),該測(cè)量可以給出較差的表示。例如,如果該提取方法是基于能量的提取方法而不考慮心理聲學(xué)(諸如普通的匹配研究),在每次迭代將減去減少能量最多的峰值。如果是這種情況,如果該峰值在心理聲學(xué)上并不重要,則能量減少將很高,而可檢測(cè)性減少可以很低。結(jié)果,該提取方法將被停止,而在該信號(hào)中仍然還留有感知相關(guān)的音調(diào)分量。然后,如果所使用的提取方法并不包括心理聲學(xué),則推薦使用停止標(biāo)準(zhǔn)的變形。在這種情況下,推薦使用能量減少作為確定性隨機(jī)平衡的指示符,而代替可檢測(cè)性減少。
不同于前面所提到的方案,該方案在提取期間進(jìn)行判決。因此,唯一向系統(tǒng)引入復(fù)雜度的就是在每次迭代m時(shí)測(cè)量的計(jì)算。然而,如果該方法與心理聲學(xué)提取方法結(jié)合,所引入的復(fù)雜度可以忽略,由于已經(jīng)通過(guò)該提取方法計(jì)算了掩蔽閾值。
作為所述測(cè)量的替換形式,即到目前所討論的作為重要性測(cè)量的心理聲學(xué)測(cè)量和能量測(cè)量為止,可以考慮使用其它替換測(cè)量作為重要性測(cè)量。
所述心理聲學(xué)是聽(tīng)覺(jué)感知(=人類聽(tīng)覺(jué)系統(tǒng)對(duì)聲音的響應(yīng))的另一個(gè)詞語(yǔ)。在該心理聲學(xué)測(cè)量中要考慮人類響應(yīng)。于是,該心理聲學(xué)測(cè)量是包括人類對(duì)聲音響應(yīng)的重要性測(cè)量的范例。然而這是一個(gè)具體的實(shí)施例。當(dāng)然,也有可能進(jìn)行聽(tīng)覺(jué)感知的更加高級(jí)的實(shí)現(xiàn)方式。另外,沒(méi)有考慮人類對(duì)聲音響應(yīng)的重要性測(cè)量也是有用的。這種重要性測(cè)量的范例是所提到的能量測(cè)量。圖2所示為應(yīng)用到一段音樂(lè)的停止標(biāo)準(zhǔn)的結(jié)果(上半部)。每一幀中所經(jīng)歷的正弦數(shù)表示在下半部中。
為了檢查該測(cè)量的可使用性,以在(輸入)信號(hào)的隨機(jī)與確定性部分之間進(jìn)行區(qū)分,在正弦編碼器中實(shí)施并測(cè)試附圖標(biāo)記為50的該停止標(biāo)準(zhǔn)。該編碼器選擇為SiCAS編碼器(音頻和語(yǔ)音的正弦編碼)。在其默認(rèn)情況下,在每一幀提取固定數(shù)目的峰值。
所使用的提取方法為在R.Heusdens and S.van de Par(2001),“Rate-distortion optimal sinusoidal modelling of audio andspeech using psychoacoustical matching pursuits”in Proc.IEEEInt.Conf.Acoust.,Speech and Signal Process.,Orlando,USA,May 13-17,2002中提供的心理聲學(xué)匹配研究。
在每次迭代時(shí),其根據(jù)輸入信號(hào)的掩蔽閾值提取心理聲學(xué)最相關(guān)的峰值。因此并不需要計(jì)算表達(dá)式(1)中的掩蔽閾值,因?yàn)槠湟呀?jīng)通過(guò)該提取方法計(jì)算了。
減少的閾值并不設(shè)置為一個(gè)唯一值。相反,選擇值的范圍(在0.25的步驟中從3.5至5.5)。然后,使用每一個(gè)這些值編碼一組語(yǔ)音和一個(gè)音頻信號(hào)。相同的信號(hào)也以每幀固定數(shù)目的正弦(從12至20)進(jìn)行編碼,以比較這些情況。
非正式收聽(tīng)試驗(yàn)所得出的結(jié)果在下面的部分中進(jìn)行解釋。
為了比較兩種不同的情況(具有根據(jù)本發(fā)明的停止標(biāo)準(zhǔn)和具有固定數(shù)目正弦的),選擇一對(duì)編碼-解碼信號(hào),使它們的質(zhì)量相同。然后得到兩個(gè)結(jié)果。首先,當(dāng)使用停止標(biāo)準(zhǔn)時(shí),正弦的分配優(yōu)于提取每幀固定(正弦)數(shù)目的情況。換言之,該正弦的分配給出更好的確定性-隨機(jī)平衡。該圖所示為如何在一段編碼的范例歌曲中分配正弦,隨機(jī)地選擇。在附圖中可以看到的趨勢(shì)是,在(輸入)信號(hào)更加諧波的地方,則經(jīng)歷更高數(shù)目的正弦,即當(dāng)其噪音更多時(shí)在中間部分的濁音部分,即在開(kāi)始和結(jié)束處的清音部分。
收聽(tīng)該編碼信號(hào)的正弦部分可以很容易地就注意到正弦的這種更好的分配。然后濁音部分可以很清楚地聽(tīng)見(jiàn)(于是被模型化),而清音部分聽(tīng)不見(jiàn)(因?yàn)樗鼈儧](méi)有通過(guò)正弦模型來(lái)模型化)。
其次,在整段音樂(lè)中所使用的正弦的總數(shù)目通常會(huì)減少,并且作為結(jié)果比特率也減少。
在全部該申請(qǐng)中提到了詞語(yǔ)“聲音”,當(dāng)其想要表示人類語(yǔ)音、音頻、音樂(lè)、音調(diào)和非音調(diào)分量、或者任何組合中的有色或無(wú)色噪聲時(shí),并且其可以作為輸入應(yīng)用到所述提取方法,并且其也可以應(yīng)用到下面所討論的方法中。
圖3所示的方法為從所提供的第一聲音幀中確定表示正弦分量的第二聲音幀以及可選的表示殘余的第三聲音幀。
該第一聲音幀對(duì)應(yīng)于前面所提到的輸入信號(hào)并且表示正弦和殘余,第二聲音幀表示正弦,并且第三聲音幀表示殘余。第二和第三聲音幀開(kāi)始可以為空,或者包含對(duì)前一(第一)聲音幀應(yīng)用該方法得到的內(nèi)容。
在步驟90中,根據(jù)本發(fā)明所示的實(shí)施例啟動(dòng)該方法。變量、標(biāo)志、緩沖器等記住輸入(第一)和輸出(第二和第三)聲音幀、分量、重要性測(cè)量等,其對(duì)應(yīng)于正被處理的聲音信號(hào),將它們初始化或設(shè)置為默認(rèn)值。當(dāng)該方法第二次迭代時(shí),只是將破壞的變量、標(biāo)志、緩沖器等復(fù)位到默認(rèn)值。
在步驟100中,可以確定第一聲音幀中的正弦分量。所述分量典型地會(huì)表示某些重要的聲音信號(hào),即其主要包括音調(diào)、非噪聲信息。
最簡(jiǎn)單的確定技術(shù)(用于所述分量確定)包括拾取輸入信號(hào),即第一聲音幀的頻譜中最主要的峰值。將該原始音頻信號(hào)乘以分析窗,并為每一幀計(jì)算快速傅立葉變化Xl(k)=Σn=0N-1w(n)x(n+lH)e-jwkn,]]>1=0,1,2…其中x(n)是原始音頻信號(hào)(的幀),w(n)是分析窗,wk是單位為弧度的第k組2πk/N的頻率,N是樣本中幀的長(zhǎng)度,1是幀的編號(hào),并且H窗的提前時(shí)間。
在下面的文獻(xiàn)中描述了峰值拾取方法X.Serra,“A system forsound analysis/transformation/synthesis based on adeterministic plus stochastic decomposition”,Ph.D.Dissertation,Stanford University,1990。
X.Serra,J.O.Smith,“A system for SoundAnalysis/Transformation/Synthesis based on a Deterministicplus Stochastic Decomposition”,SIGNAL PROCESSING VTheoriesand Applications,1990。
M.Goodwin,“ADAPTIVE SIGNAL MODELS.Theory,Algorithmsand Audio Applications”,Kluwer Academic Publishers,1998。
M.Goodwin,“Residual modelling in music analysis-synthesis”,in Proc..IEEE Int.Conf.on Acoustics,Speech,and signal Processing,1996,pp.1005-1008。
X.Rodet,“Musical Sound Signal Analysis/Synt hesisSinusoidal+Residual and Elementary Waveform Models”,Proc.of2nd IEEE symp.on applications of time-frequency and time-scale methods,1997.pp.111-120。
X.Rodet,“Musical Sound Signal Analysis/SynthesisSinusoidal+Residual and Elementary Waveform Models”,Proc.of2nd IEEE symp.on applications of time-frequency and time-scale methods,1997.pp.111-120以及G.Peeters,X.Rodet,“Signal Characterization in terms of Sinusoidal and Non-Sinusoidal Components”,Digital Audio Effects,1998。B.Doval,X.Rodet,“Fundamental frequency estimation and tracking usingmaximum likelihood”,in Proc.Of ICASSP′93,1993,pp.221-224。
在R.Heusdens and S.van de Par(2001),“Rate-distortionoptimal sinusoidal modelling of audio and speech usingpsychoacoustical matching pursuits”in Proc.IEEE Int.Conf.Acoust.,Speech and Signal Process.,Orlando,USA,May13-17,2002中所提供的心理聲學(xué)匹配研究是另一種有用的確定技術(shù)。該方法迭代地確定最感知相關(guān)的正弦分量。
在步驟200中,可以為第一聲音幀確定重要性測(cè)量。該第一聲音幀是該方法的輸入,并且如在該方法的末尾將要討論的,該方法可以應(yīng)用于包括歌曲或另一邏輯相連在一起的聲音內(nèi)容的聲音幀。重要性測(cè)量通常用于判決接下來(lái)所確定的剩余信號(hào)或殘余、即沒(méi)有最終確定正弦分量的第一聲音幀,以及在下面的步驟中所提取的正弦分量,是否不包含重要性音調(diào)分量,或者確定(在所述第一聲音幀中)是否可能還存在某些重要性音調(diào)(正弦)分量。在第一種情況下,該方法必須停止,或者在第二種情況下,該方法可以繼續(xù)。
重要的需要注意到,在步驟100和300的迭代期間,當(dāng)前的第一聲音幀可以包括更少的正弦分量,由于每次在步驟100中確定正弦分量,并且接著在步驟300將其(從第一聲音幀中)去除。
所述重要性測(cè)量可以基于聽(tīng)覺(jué)感知,即人類對(duì)聲音的響應(yīng)。這種測(cè)量的一種可能實(shí)施方式是心理聲學(xué)能量級(jí)測(cè)量,其至少包括如下之一
detectability,Dm=ΣfRm(f)a(f)=ΣfRm(f)msk(f)]]>reductionDm(m)=100-100*DmDm-1(%)=100(1-DmDm-1)=100(ΔDDm-1)]]>Rm(f)是具有可能去除分量的第一聲音幀的功率譜,a(f)是msk(f)的反函數(shù),其是第一聲音幀的掩蔽閾值,但是不具有從其自身去除的分量,以功率計(jì)算,f是頻率組,m是當(dāng)前迭代號(hào),表示該步驟以及接下來(lái)的步驟300和400當(dāng)前執(zhí)行了多少次,m在迭代的開(kāi)始設(shè)置為0,并且ΔD是所述可檢測(cè)性的增量??梢栽谠摲椒ㄩ_(kāi)始之前計(jì)算第一聲音幀的掩蔽閾值即所述msk(f),由于其認(rèn)為所述第一聲音幀位于起始點(diǎn),即位于其中沒(méi)有去除分量的點(diǎn)。相反,第一聲音幀的功率譜Rm(f)可以缺少分量,由于它們可以在接下來(lái)的步驟300被去除;并且在該方法執(zhí)行期間當(dāng)時(shí)計(jì)算,其從而反映了前面提到的殘余中的當(dāng)前心理聲學(xué)能量級(jí)。
作為所述感知測(cè)量的替換形式,可替換地可以考慮其它更高級(jí)的感知測(cè)量。這些高級(jí)感知測(cè)量例如可以考慮聲音的時(shí)間特征。另外,沒(méi)有考慮聽(tīng)覺(jué)感知的重要性測(cè)量也是有用的。
在步驟300中,可以從第一聲音幀中提取該正弦分量,并且將其包括在第二聲音幀中。這里可以有多個(gè)實(shí)施方式。在一個(gè)實(shí)施例中,簡(jiǎn)單地只通過(guò)其參數(shù)(即幅度、相位等)從第一聲音幀中提取所述正弦分量,即其并沒(méi)有物理地去除,然而該方法在這種情況下需要(通過(guò)標(biāo)志、提示等)記住它(正弦分量)實(shí)際上已經(jīng)被提取,以避免在隨后的迭代中提取相同的正弦分量。
可替換地或相反地,在可選步驟600中如所申明的“從第一聲音幀中去除(600)正弦分量”;將所述正弦分量從該第一聲音幀中去除,即實(shí)際上是物理的去除,然而這樣需要更多的處理能力。
在任何這些情況下,所述第二聲音幀當(dāng)時(shí)會(huì)包括所提取的正弦分量。由于這種原因,其只包括正弦分量。
當(dāng)所述可檢測(cè)性等于或低于1時(shí),所述重要性測(cè)量可以滿足所述停止標(biāo)準(zhǔn)??商鎿Q地,當(dāng)所述減少低于預(yù)定值時(shí),所述重要性測(cè)量可以滿足所述停止標(biāo)準(zhǔn)。
在該方法的執(zhí)行期間可以考慮在從可檢測(cè)性到減少標(biāo)準(zhǔn)之間切換,或者相反。
在步驟400中,可以判決重復(fù)所述步驟(100-300)以及可選的重復(fù)所述步驟600(從所述第一聲音幀中實(shí)際地去除該正弦分量),直至該重要性測(cè)量滿足所述停止標(biāo)準(zhǔn)。其可能的情況是,該第一聲音幀還是包括多個(gè)正弦分量,通過(guò)迭代步驟(100-300),(使用m作為當(dāng)前迭代號(hào),表示該步驟以及隨后步驟200和300當(dāng)前被執(zhí)行了多少次),可以在每次遍歷中發(fā)現(xiàn)新的未提取的正弦分量。結(jié)果,剩下的第一聲音幀每次具有的提取分量更少??蛇x地作為步驟600,該第一聲音幀每次物理剩下來(lái)具有的正弦分量就更少。進(jìn)一步,其會(huì)相應(yīng)地影響所述重要性測(cè)量,尤其是當(dāng)在可選的所述步驟600中從所述第一聲音幀中去除該正弦分量時(shí)。
并不重要的是,為第一聲音幀確定重要性測(cè)量的步驟200可以在步驟300之前執(zhí)行,或者可以在步驟300與400之間執(zhí)行??梢赃@樣是因?yàn)椴襟E200可以獨(dú)立地計(jì)算。
在步驟500中,作為可選步驟,當(dāng)該重要性測(cè)量滿足前述停止標(biāo)準(zhǔn)其中之一時(shí)可以將第三聲音幀設(shè)置為第一聲音幀。由于在步驟100-400中已經(jīng)去除了重要的正弦分量,在這一點(diǎn)的第一聲音幀只包括不重要的分量。換言之,在這一點(diǎn)的第一聲音幀包括主要表示非音調(diào)分量或假定為不重要的音調(diào)分量的殘余。換言之,作為剩余第一聲音幀的拷貝,所述第三聲音幀這里可以被理解為前面提到的殘余或剩余部分或信號(hào),其中如步驟300中所討論的所有重要分量、即例如峰值等都被物理地提取,或者至少具有提示或標(biāo)記,表明它們(重要分量)不再屬于所述第三聲音幀。
到目前為止所討論的步驟可以歸納如下在第一迭代步驟中,即在步驟100中,將該(原始)輸入幀、即第一聲音幀輸入到該方法。然后,(根據(jù)某個(gè)標(biāo)準(zhǔn),例如能量最大)確定正弦分量,并將其從該幀中提取出來(lái),即在這一點(diǎn)還是只考慮第一聲音幀。這樣就得到殘余信號(hào)(原始輸入幀減去該分量)。然后,確定(沒(méi)有最終提取的正弦分量的)所述第一聲音幀的重要性,即重要性測(cè)量。如果該重要性足夠高,即通過(guò)所述重要性測(cè)量表示,現(xiàn)在就不是停止的時(shí)間,并且將進(jìn)行另一個(gè)迭代。在步驟300中將該正弦分量(即被提取并被去除的)加到所述第二聲音幀。如果該重要性并不夠高,就停止該方法。在下一迭代步驟中,將殘余(還是第一聲音幀,但是其中已經(jīng)提取了某些正弦分量)放入該方法。再次在未提取的分量中確定并提取正弦分量。通過(guò)所述重要性測(cè)量(根據(jù)第一聲音幀(沒(méi)有最終提取正弦分量的))確定其重要性。如果其重要性、即所述重要性測(cè)量其中之一足夠高,就重復(fù)該方法,等等,對(duì)應(yīng)于步驟400中所述。
因此,該第一聲音幀等于第一迭代步驟中的輸入幀,并且等于其它迭代步驟中的輸入幀減去作為殘余的已提取分量。在每一迭代步驟中,提取新的正弦分量。結(jié)果就是新的殘余。該新殘余是對(duì)應(yīng)于在步驟500可選執(zhí)行的第三聲音幀。該新殘余或該第三聲音幀是當(dāng)該方法結(jié)束其任務(wù)時(shí),所述第一聲音幀與新提取的正弦分量之間的差。
第二聲音幀是目前所提取的分量之和。因此其表示正弦。
在步驟200確定重要性測(cè)量等,其可以在步驟300之前執(zhí)行,或者在步驟300與400之間執(zhí)行。
可以進(jìn)一步為一個(gè)或多個(gè)聲音幀、即為一組新的所述第一、第二和第三聲音幀執(zhí)行步驟100-400,對(duì)應(yīng)地為每一所述聲音幀應(yīng)用新的迭代號(hào)等。相應(yīng)地,進(jìn)一步可以應(yīng)用可選步驟500和600。例如,歌曲可以繼續(xù)劃分成多個(gè)幀,并且通過(guò)應(yīng)用步驟100-500等,這些幀的每一幀開(kāi)始作為第一聲音幀,都會(huì)被分離成為對(duì)應(yīng)的表示正弦或音調(diào)分量的第二聲音幀以及可選的表示殘余的第三聲音幀。
結(jié)果,該歌曲被分離分量別為正弦或音調(diào)分量和殘余的幀。它們?nèi)缓箅S后將準(zhǔn)備用于壓縮所分離的幀。由此,就可以對(duì)所述歌曲進(jìn)行優(yōu)化和高效的壓縮或編碼。
通常,只要該設(shè)備上電,該方法會(huì)全部重復(fù)啟動(dòng)。否則,該方法會(huì)終止于步驟400(或可選地終止于步驟500或600),然而當(dāng)該設(shè)備再次上電等時(shí),該方法可以從步驟100處理。
圖4所示為用于聲音處理的設(shè)備。該設(shè)備可以用于執(zhí)行在前面的附圖中所討論的方法。
該設(shè)備通過(guò)附圖標(biāo)記410表示,并且可以包括聲音信號(hào)的輸入,其附圖標(biāo)記為10,例如作為第一聲音幀。相應(yīng)地,其可以進(jìn)一步包括輸出,其附圖標(biāo)記為20和30,用于將所述第一聲音幀分離成為所述第二和第三聲音幀。所有這些所述聲音幀可以與處理器連接,其附圖標(biāo)記為401。在典型的應(yīng)用中,該處理器可以如前面的附圖中所討論的分離(成為聲音信號(hào))。
所述聲音信號(hào)可以表示人類語(yǔ)音、音頻、音樂(lè)、音調(diào)和非音調(diào)分量、或者在對(duì)它們進(jìn)行處理期間的任何組合中的有色或無(wú)色噪聲。
該設(shè)備可以是級(jí)聯(lián),其與相似或相同的用于串行耦合聲音信號(hào)的設(shè)備耦合。另外或可替換地,可以并行耦合設(shè)備以并行處理聲音信號(hào)。
計(jì)算機(jī)可讀介質(zhì)可以是磁帶、光盤(pán)、數(shù)字視頻盤(pán)(DVD)、壓縮盤(pán)(可記錄CD或可寫(xiě)入CD)、微型盤(pán)、硬盤(pán)、軟盤(pán)、智能盤(pán)、PCMCIA卡等。
權(quán)利要求中,圓括號(hào)之間的任何附圖標(biāo)記不限制該權(quán)利要求。詞語(yǔ)“包括”并不排除存在未列入權(quán)利要求中的元件或步驟。元件前面的詞語(yǔ)“一”或“一個(gè)”并不排除存在多個(gè)這種元件。
可以通過(guò)包括幾個(gè)分離元件的硬件和通過(guò)適當(dāng)編程的計(jì)算機(jī)實(shí)施本發(fā)明。在列舉了幾個(gè)裝置的器件權(quán)利要求中,可以通過(guò)一個(gè)以及相同項(xiàng)的硬件實(shí)施多個(gè)這些裝置。某些測(cè)量在不同的獨(dú)立權(quán)利要求中相互引用,這一事實(shí)并不表示不能有利地使用這些測(cè)量的組合。
權(quán)利要求
1.一種從所提供的第一聲音幀中確定表示正弦分量的第二聲音幀以及可選的表示殘余的第三聲音幀的方法,該方法包括步驟·在未提取的分量中確定第一聲音幀中的正弦分量;·為該第一聲音幀確定重要性測(cè)量;·從該第一聲音幀提取正弦分量,并且將該正弦分量結(jié)合在第二聲音幀中;和·重復(fù)所述步驟,直到該重要性測(cè)量滿足停止標(biāo)準(zhǔn);其中在步驟300之前、或者在步驟300與400之間執(zhí)行為第一聲音幀確定重要性測(cè)量的步驟。
2.根據(jù)權(quán)利要求1的方法,其特征在于該方法進(jìn)一步包括步驟·當(dāng)該重要性測(cè)量滿足所述停止標(biāo)準(zhǔn)時(shí),將第三聲音幀設(shè)置為第一聲音幀。
3.根據(jù)權(quán)利要求1或2的方法,其特征在于從該第一聲音幀提取正弦分量、并將該正弦分量結(jié)合在第二聲音幀中的步驟進(jìn)一步包括步驟·從該第一聲音幀中除去該正弦分量。
4.根據(jù)權(quán)利要求1至3中任一的方法,其特征在于該重要性測(cè)量是能量測(cè)量。
5.根據(jù)權(quán)利要求1至4中任一的方法,其特征在于該重要性測(cè)量考慮了心理聲學(xué)信息,諸如人類對(duì)聲音的響應(yīng)。
6.根據(jù)權(quán)利要求1至5中任一的方法,其特征在于當(dāng)感知測(cè)量認(rèn)為第一聲音幀不重要時(shí),該重要性測(cè)量滿足所述停止標(biāo)準(zhǔn),并且其中所述感知測(cè)量表示耳朵對(duì)聲音的感知。
7.根據(jù)權(quán)利要求1至6中任一的方法,其特征在于該重要性測(cè)量是心理聲學(xué)能量級(jí)測(cè)量,其至少包括如下其中之一detectability,Dm=ΣfRm(f)a(f)=ΣfRm(f)msk(f),]]>reductionDm(m)=100-100*DmDm-1(%)=100(1-DmDm-1)=100(ΔDDm-1)]]>其中Rm(f)是具有可能去除的分量的第一聲音幀的功率譜,a(f)是msk(f)的反函數(shù),其是以功率計(jì)算的第一聲音幀的掩蔽閾值,f是頻率組,m是當(dāng)前迭代次數(shù),表示當(dāng)前執(zhí)行了多少次步驟100-300,m在迭代的開(kāi)始設(shè)置為0,并且ΔD是所述可檢測(cè)性的增量。
8.根據(jù)權(quán)利要求1至7中任一的方法,其特征在于當(dāng)所述可檢測(cè)性等于或低于一時(shí),該重要性測(cè)量滿足所述停止標(biāo)準(zhǔn)。
9.根據(jù)權(quán)利要求1至8中任一的方法,其特征在于當(dāng)所述減少低于預(yù)定值時(shí),該重要性測(cè)量滿足所述停止標(biāo)準(zhǔn)。
10.根據(jù)權(quán)利要求1至7中任一的方法,其特征在于對(duì)于至少再一個(gè)聲音幀進(jìn)一步執(zhí)行具有可選步驟500和600的所述步驟,其中相應(yīng)地應(yīng)用并產(chǎn)生一組新的所述第一、第二和第三聲音幀。
11.一種用于執(zhí)行根據(jù)權(quán)利要求1-10中任一的方法的計(jì)算機(jī)系統(tǒng)。
12.一種計(jì)算機(jī)程序產(chǎn)品,包括存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上的程序代碼裝置,用于當(dāng)該計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行權(quán)利要求1-10中任一的方法。
13.一種設(shè)備,包括用于執(zhí)行所述方法的步驟的裝置。
全文摘要
本發(fā)明涉及一種從所提供的第一聲音幀中確定(10)表示正弦分量的第二聲音幀(20)以及可選的表示殘余的第三聲音幀(30)的方法,該方法包括步驟在未提取的分量中確定第一聲音幀中的正弦分量;為該第一聲音幀確定重要性測(cè)量(40);從該第一聲音幀提取正弦分量,并且將該正弦分量包括在第二聲音幀中;和重復(fù)所述步驟,直到該重要性測(cè)量滿足停止標(biāo)準(zhǔn)(50)。在該方法中,為第一聲音幀確定重要性測(cè)量的步驟可以在所述第三步驟之前執(zhí)行,或者其可以在所述第三與第四步驟之間執(zhí)行。所述方法進(jìn)一步包括步驟當(dāng)該重要性測(cè)量滿足所述停止標(biāo)準(zhǔn)時(shí),將第三聲音幀設(shè)置為第一聲音幀。這樣就使得只提取在隨后的壓縮中所需要使用的正弦分量。
文檔編號(hào)G10L19/093GK1717576SQ200380104153
公開(kāi)日2006年1月4日 申請(qǐng)日期2003年10月29日 優(yōu)先權(quán)日2002年11月27日
發(fā)明者N·H·范施恩德, M·格梅滋富恩特斯, R·霍伊斯登斯 申請(qǐng)人:皇家飛利浦電子股份有限公司