聲音幀長度適配的制作方法

文檔序號：2830497閱讀：316來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音幀長度適配的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及聲音幀的長度適配。更具體地，本發(fā)明涉及一種從聲音參數(shù)中產(chǎn)生時域聲音數(shù)據(jù)的設(shè)備和方法，所述設(shè)備和方法包括幀長度適配以允許高效的變換。
背景技術(shù)：
從表示聲音樣本的聲音參數(shù)合成或重構(gòu)聲音是公知的。變換域 (如頻域，即傅立葉變換域)內(nèi)的聲音合成提供了優(yōu)于時域內(nèi)的聲音合成的計算上的優(yōu)點。出于這個原因，通常將聲音編碼并存儲為聲音參數(shù)(如頻譜分量或表示頻譜或時間屬性的參數(shù))。對于不同的聲音分量(如瞬變分量、正弦分量以及噪聲分量)可以提供分離的參數(shù)。例
如，在國際專利申請WO 01/69593 (飛利浦)中公開了一種使用這樣不同聲音分量的編碼器和解碼器。
合成器或解碼器可以使用所存儲或傳送的聲音參數(shù)來裝配隨后要被(反)變換到時域的變換域聲音幀。所產(chǎn)生的時域聲音幀的持續(xù) 時間典型地由心理聲學(xué)考慮而確定并可以被選擇為最小化人工效應(yīng)。例如，一些合成器使用具有(時域)持續(xù)時間為8.7ms的聲音幀。在 44.1kHz的采樣頻率下，這樣的幀的長度將為384個樣本。
盡管從心理聲學(xué)的觀點來看，384個數(shù)據(jù)項的幀長度是最優(yōu)的，但是對這樣的幀進行變換的效率是非常低的。當(dāng)幀中的數(shù)據(jù)項的數(shù)目是2的冪(例如128、 256或512)時，快速傅立葉變換(FFT)及其反變換(IFFT)和如離散余弦變換(DCT)的類似變換是最有效率的。在每幀384個數(shù)據(jù)項的本示例中，可以選擇512的變換長度。當(dāng)完成變換時，丟棄128個數(shù)據(jù)項以獲得期望的384個數(shù)據(jù)項。然而，由于25% (=128/512)的數(shù)據(jù)項是冗余的，這意味著該變換僅具有75。％的效率。
在其他采樣頻率下的變換效率可能更低。如上示例中提及的8.7ms的持續(xù)時間在16kHz的采樣頻率下產(chǎn)生139個樣本。使用256的變換長度將導(dǎo)致僅54%的效率。
盡管己知適用于除了2的冪的其他幀長度的FFT的實施例，但是這些可選實施例典型地效率較低并需要更多的處理時間和/或更多的存儲器。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的這些和其他問題，并提供一種從如聲音參數(shù)之類的輸入聲音數(shù)據(jù)中產(chǎn)生時域輸出聲音數(shù)據(jù)的方法和設(shè) 備，所述設(shè)備和方法更有效率。
因此，本發(fā)明提供了用于從聲音參數(shù)中產(chǎn)生時域聲音數(shù)據(jù)的設(shè)
備，所述設(shè)備包括
一第一幀形成單元，用于形成第一幀，每一個第一幀包含表示聲音的聲音參數(shù)，
一第二幀形成單元，用于從第一幀形成第二幀，每一個第二幀包
含從單個第一幀的聲音參數(shù)中導(dǎo)出的變換域聲音數(shù)據(jù)，每一個第二幀
的變換域聲音數(shù)據(jù)表示具有特定時域長度的聲音，并且每一個第二幀
具有與高效反變換相對應(yīng)的長度，
一反變換單元，用于將第二幀反變換為第三幀，每一個第三幀包含與單個第二幀的變換域聲音數(shù)據(jù)相對應(yīng)的時域聲音數(shù)據(jù)，并且每一
個第三幀具有與第二幀相等的長度，
一輸出單元，用于實質(zhì)上輸出每一個第三幀的所有時域聲音數(shù) 據(jù)，以及
一幀選擇器單元，用于根據(jù)需要丟棄或重復(fù)第一幀，以補償所述特定時域長度與第三幀長度之間的任何差值。
通過使用第三幀中包含的所有或幾乎所有反變換的聲音數(shù)據(jù)，而不是僅使用在數(shù)量上與由第二幀所表示的原始特定時域長度相對應(yīng)的聲音數(shù)據(jù)，顯著地提高了設(shè)備的效率。
注意，在本發(fā)明中，輸出單元可以輸出每一個第三幀的所有聲音數(shù)據(jù)或幾乎所有時域聲音數(shù)據(jù)，即至少90%的所述時域聲音數(shù)據(jù)，優(yōu)選地至少95%，更優(yōu)選地至少98%。
通過丟棄或根據(jù)具體情況重復(fù)第一幀來補償?shù)谌龓拈L度與由第二幀的變換域數(shù)據(jù)所表示的特定時域長度之間的任何差值。例如，如果使用512的變換長度用于具有384個樣本長度的(第一)幀，并且如果根據(jù)本發(fā)明使用所有512個反變換的樣本，貝f」512/384=1.33，產(chǎn)生
與現(xiàn)有技術(shù)一樣多的樣本。相應(yīng)地，要使用的第一幀的數(shù)目必須減少 384/512=1/1.33=25%。在本示例中，因此將必須每4幀中丟棄1幀來獲得具有相同的總持續(xù)時間的聲音。
己經(jīng)發(fā)現(xiàn)，丟棄幀幾乎不可察覺，特別是當(dāng)間歇地執(zhí)行丟棄時更不可察覺。因此，優(yōu)選地，均勻地分隔開丟棄的幀，特別是避免丟棄兩個直接相鄰的幀(例如，當(dāng)幀的原始幀序列為ABCDEFG時，丟棄后為ABDEG)。然而，當(dāng)重復(fù)幀時，優(yōu)選地，重復(fù)其次相鄰的幀(例如，ABCCDEEFG)。
上述特定時域長度可以由與期望持續(xù)時間相對應(yīng)的時間窗來定義，例如參照上述與8.7ms的持續(xù)時間相對應(yīng)的384個樣本。在實際實施例中，第二幀形成單元可以通過將由聲音參數(shù)表示的變換域聲音數(shù) 據(jù)與期望時間窗的(一段)變換域表示(例如，復(fù)頻譜)進行巻積來從聲音參數(shù)導(dǎo)出變換域聲音數(shù)據(jù)。可以對該期望時間窗的頻譜表示應(yīng) 用過采樣，以改進所產(chǎn)生的信號的頻域分辨率。
上述特定時域長度典型地與形成第一幀的速率相關(guān)，并可以等于連續(xù)的第一幀之間的時間間隔。然而，這并不是必需的，可以設(shè)想以
變化的間隔來形成第一幀的實施例，在將第一幀轉(zhuǎn)換成第二幀之前將其緩存。
在本發(fā)明中，聲音參數(shù)可以包括表示聲音特性的參數(shù)，變換域聲音數(shù)據(jù)可以包括從所述聲音參數(shù)中導(dǎo)出的變換域系數(shù)，而時域聲音數(shù) 據(jù)可以包括從所述系數(shù)獲得的聲音樣本。
通過選擇更適合的變換長度，可以進一步提高變換效率。因此，根據(jù)本發(fā)明的另一方面，第一幀形成單元可以被設(shè)置用于減小或增大特定持續(xù)時間，使得所述特定時域長度等于或近似等于第三幀的長度。
通過減小或增大由第二幀的數(shù)據(jù)所表示的特定持續(xù)時間，能夠獲
6得可以與有效率的變換長度緊密匹配的縮短或加長的幀。例如，上述
8.7ms的持續(xù)時間在16kHz的采樣頻率下產(chǎn)生139個樣本，當(dāng)使用256的變換長度時，僅導(dǎo)致54% (=139/256)的效率。然而，如果將該持續(xù) 時間減小至8.0ms，則在16kHz下僅需要128個樣本，并可以使用僅128 的變換長度。顯然，這種措施顯著地提高了效率。
應(yīng)當(dāng)注意的是，在實際實施例中，出于技術(shù)原因，特定持續(xù)時間的長度還可能被進一步略微減小至例如7.9ms和126個樣本。
由于可以減小幀的持續(xù)時間，聲音的總持續(xù)時間也被縮短，而這通常是不期望的。出于這種原因，幀選擇器單元包括用于根據(jù)需要重復(fù)(或根據(jù)具體情況，丟棄)第一幀以補償?shù)谝粠偷诙g的任何長度差值的裝置。通過重復(fù)幀，輸出的聲音的總持續(xù)時間可以實質(zhì) 上保持不變。在上述示例中，第一幀長度從8.7ms減小至8.0ms需要 8.7/8.0=1.0875的調(diào)整長度(即添加8.75%)，例如這可以通過每12幀中重復(fù)一幀(1/12=8.33%)來實現(xiàn)。
已經(jīng)發(fā)現(xiàn)，只要遵守特定的限制，長度減小和相關(guān)的幀重復(fù)幾乎不可聽見。為了避免任何清晰可聽見的人工效應(yīng)，優(yōu)選地，第一幀形成單元包括用于將特定持續(xù)時間減小至多40%，優(yōu)選地至多25。％，更優(yōu)選地至多15%的裝置。
盡管還可以使用其他適合的變換，例如反離散余弦變換(IDCT)、或(前向)快速傅立葉變換(FFT)，但優(yōu)選地，反變換是反快速傅立葉變換(IFFT)。
本發(fā)明還提供了一種聲音合成器、聲音解碼器、用戶設(shè)備、和包括上述設(shè)備的音頻系統(tǒng)。例如，聲音合成器可以被設(shè)置為從存儲的變換域數(shù)據(jù)中重現(xiàn)聲音，并且可以分離地合成瞬變、正弦和噪聲分量。本發(fā)明的設(shè)備特別適合于合成正弦分量。聲音解碼器可以被設(shè)置為從已編碼的變換域數(shù)據(jù)中重現(xiàn)聲音，并且還可以被設(shè)置為分離地合成瞬變、正弦和噪聲分量。
例如，本發(fā)明的用戶設(shè)備可以是一種手持設(shè)備，如便攜式音頻播放器(例如MP3播放器)或移動(蜂窩)電話裝置，或電子樂器。音頻系統(tǒng)可以是家庭娛樂系統(tǒng)或?qū)I(yè)音響系統(tǒng)?？蛇x地，音頻系統(tǒng)可以包括語音合成器。
本發(fā)明還提供一種從聲音參數(shù)中產(chǎn)生時域聲音數(shù)據(jù)的方法，所述
方法包括以下步驟-
一形成第一幀，每一個第一幀包含表示聲音的聲音參數(shù)，
—從第一幀形成第二幀，每一個第二幀包含從單個第一幀的聲音
參數(shù)導(dǎo)出的變換域聲音數(shù)據(jù)，每一個第二幀的變換域聲音數(shù)據(jù)表示具
有特定時域長度的聲音，并且每一個第二幀具有與高效反變換相對應(yīng)
的長度，
一將第二幀反變換為第三幀，每一個第三幀包含與第二幀的變換域聲音數(shù)據(jù)相對應(yīng)的時域聲音數(shù)據(jù)，并且每一個第三幀具有與第二幀相等的長度，
—實質(zhì)上輸出每一個第三幀的所有時域聲音數(shù)據(jù)，以及一根據(jù)需要丟棄或重復(fù)第一幀，以補償所述特定時域長度和第三幀的長度之間的任何差值。
不必要以所列的順序來執(zhí)行這些方法步驟。例如，可以在形成第二幀的步驟之前執(zhí)行丟棄第一幀的步驟?？蛇x地，可以完全不用形成一些第一幀，因此可以在形成第一幀之前丟棄變換域聲音數(shù)據(jù)。應(yīng)當(dāng) 注意的是，僅丟棄一些第一幀，因此，對于一些幀將不執(zhí)行丟棄的步驟。
本發(fā)明的方法根本上解決了與上述本發(fā)明的設(shè)備相同的問題并實現(xiàn)了相同的優(yōu)點。
形成第一幀的步驟可以包括減小特定持續(xù)時間，使得第一幀的長度至多與第二幀的長度相等。優(yōu)選地，形成第一幀的步驟包括將特定
持續(xù)時間減小至多40。％，優(yōu)選地至多25%，更優(yōu)選地至多15%，但是如果能夠接受特定的聲音失真，則大于40%的百分比也是可能的。
根據(jù)本發(fā)明的方法還可以包括，根據(jù)需要丟棄或重復(fù)第一幀，以補償特定時域長度和第二幀的長度之間的任何長度差值的步驟。
本發(fā)明的方法特別適合于合成周期性的聲音分量，例如，在合成器中分離地產(chǎn)生瞬變、正弦和噪聲分量。
本發(fā)明還提供了一種用于執(zhí)行上述方法的計算機程序產(chǎn)品。計算
8機程序產(chǎn)品可以包括存儲在如CD或DVD的數(shù)據(jù)載體上的計算機可讀指令集合。允許可編程計算機執(zhí)行如上所述方法的計算機可讀指令集合還可以例如經(jīng)由因特網(wǎng)從遠(yuǎn)程服務(wù)器下載來得到。

參照附圖中示出的示例性實施例，進一步解釋本發(fā)明，附圖中
圖l示意性地示出了根據(jù)現(xiàn)有技術(shù)的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備。
圖2示意性地示出了根據(jù)本發(fā)明的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備。
圖3示意性地示出了圖1和2的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備中幀的處理。圖4示意性地示出了根據(jù)本發(fā)明的幀的丟棄。圖5示意性地示出了根據(jù)本發(fā)明的幀的重復(fù)。圖6示意性地示出了包括根據(jù)本發(fā)明的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備的聲音合成器。
圖7示意性地示出了包括根據(jù)本發(fā)明的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備的用戶設(shè)備。
具體實施例方式
圖i中示出的根據(jù)現(xiàn)有技術(shù)的示例性聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備r包括
比特流解析單元(BP)11、頻譜構(gòu)建單元12、反快速傅立葉變換(IFFT) 單元13、重疊相加(OLA)單元14和幀計數(shù)器(FC) 15。
比特流解析單元11接收聲音參數(shù)A的輸入比特流，并形成包含這些聲音數(shù)據(jù)的第一幀。聲音參數(shù)可以包括描述和/或表示時間或頻譜包絡(luò)、頻譜系數(shù)和/或其他參數(shù)的參數(shù)。每一個第一幀中的聲音參數(shù)的數(shù) 目可以取決于所使用的特定編碼類型，并且可以在從單一數(shù)據(jù)項至幾百個數(shù)據(jù)項中變化。第一幀可以具有可變長度。
第一幀的聲音數(shù)據(jù)提供了在特定時間間隔期間的聲音表示。該時間間隔的持續(xù)時間可以被選擇為滿足心理聲學(xué)和/或技術(shù)約束，并且可以例如是8.7ms，但是可以使用其他值來代替。盡管不是必需的，但該時間間隔可以與第一幀之間的時間間隔相一致。
頻譜構(gòu)建單元12使用第一幀的樣本來形成第二幀，所述第二幀具有適合于變換單元13中的后續(xù)變換的長度。典型地，最有效率的FFT 長度為128、 256、 512和1024 (2的冪)，在現(xiàn)有技術(shù)中使用了下一個更大的FFT長度，在本示例中長度為512。因此，頻譜構(gòu)建單元12將包含可變數(shù)量聲音數(shù)據(jù)的第一幀轉(zhuǎn)換成第二幀，在本示例中，每一個第二幀包含512個頻譜分量。
為此，頻譜構(gòu)建單元12可以將每一個第一幀的聲音數(shù)據(jù)與時間窗的(復(fù))頻譜表示進行巻積?？梢詫⒃摃r間窗的長度選擇為使其與由單個幀表示的聲音的持續(xù)時間相匹配。在上述示例中，使用8.7ms的持續(xù)時間，該持續(xù)時間在44.1kHz的采樣頻率下產(chǎn)生384個時域聲音數(shù)據(jù) 項(樣本)的長度?？梢詫r間窗的形狀選擇為避免聲音的失真，典型地使用漢寧窗(Harming window)。為了提高準(zhǔn)確度，可以對時間窗的(復(fù))頻譜表示進行過采樣。
相應(yīng)地，頻譜構(gòu)建單元12執(zhí)行(漢寧)時間窗的(復(fù))頻譜和第一幀的聲音數(shù)據(jù)的巻積，產(chǎn)生包含頻譜分量的第二幀。頻譜分量的數(shù) 目(例如512)是2的冪，從而實現(xiàn)有效率的(反)變換。本領(lǐng)域的技術(shù)人員可以認(rèn)識到，可以使用時域內(nèi)的乘法來代替變換域內(nèi)的巻積。
隨后，IFFT單元13將變換域的第二幀轉(zhuǎn)換成時域的第三幀，第三幀具有與第二幀相同的長度，并且在本示例中也包含512個數(shù)據(jù)項(即樣本)。
重疊相加單元14，將第三幀轉(zhuǎn)換成比特流、一系列幀、或包含時域輸出聲音數(shù)據(jù)B的任何其他適合的輸出信號。本領(lǐng)域的技術(shù)人員知道，重疊相加(OLA)單元通過將部分重疊的幀的樣本相加來產(chǎn)生信號。
幀計數(shù)器15對所產(chǎn)生的幀的數(shù)目進行計數(shù)，并相應(yīng)地控制比特流解析單元ll。例如可以從外部控制幀計數(shù)器來執(zhí)行搜索操作或調(diào)整回放速度。
現(xiàn)有技術(shù)的重疊相加單元14，僅使用每一個第三幀中與原始的更
少數(shù)目的樣本相對應(yīng)的部分。在本示例中，現(xiàn)有技術(shù)的重疊相加單元 14'僅使用512個樣本中的384個樣本并丟棄剩余的128個樣本。顯然，這不是高效的。
僅作為非限制性示例，在圖2中示出了根據(jù)本發(fā)明的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備l，設(shè)備l也包括比特流解析單元(BP) 11、頻譜構(gòu)建單元12、
反快速傅立葉變換(IFFT)單元13、重疊相加(OLA)單元14和幀計數(shù)器(FC) 15。此外，所示的實施例包括幀選擇器單元(FS) 16。
與圖l的現(xiàn)有技術(shù)設(shè)備l，不同，根據(jù)本發(fā)明的設(shè)備l使用第三幀中的所有可用數(shù)據(jù)項(樣本)來產(chǎn)生輸出信號。雖然單元ll、 12、 13和 15實質(zhì)上參照如上所述的現(xiàn)有技術(shù)來操作，但圖2的單元14相對于相應(yīng) 的圖1的單元14'進行了修改。
使用上述示例，如現(xiàn)有技術(shù)一樣，比特流解析單元ll形成第一幀，第一幀包含變換域數(shù)據(jù)項(例如參數(shù))。頻譜構(gòu)建單元12通過將由第一幀的數(shù)據(jù)所表示的系數(shù)與適合的時間窗(例如具有512個樣本長度的漢寧窗)的(優(yōu)選地，復(fù))頻譜進行巻積來將這些第一幀轉(zhuǎn)換為第二幀，與現(xiàn)有技術(shù)的384個樣本相比，第二幀具有512個數(shù)據(jù)項。然后，IFFT 單元13對第二幀進行(反)變換，產(chǎn)生第三幀，每一個第三幀包含512
個時域聲音數(shù)據(jù)項。被設(shè)計為輸出時域輸出聲音數(shù)據(jù)A的本發(fā)明的重疊相加(OLA) 單元14使用每一個第三幀的所有(或幾乎所有)數(shù)據(jù)項來產(chǎn)生輸出比特流。即在上述所給出的示例中，重疊相加單元14使用每一個第三幀的所有512個樣本來產(chǎn)生輸出比特流。
使用第三幀的所有數(shù)據(jù)項增加了每幀的輸出樣本的數(shù)目，并因此增加了聲音的持續(xù)時間。為了獲得具有其預(yù)期持續(xù)時間的聲音，本發(fā) 明還提出跳過特定的第一幀。這具有附加的有點減小了要處理的幀的數(shù)目，從而節(jié)約了處理時間。
本發(fā)明的設(shè)備1配備有由幀計數(shù)器15控制的幀選擇器單元16。幀選擇器單元16根據(jù)每個第一幀的變換域數(shù)據(jù)項數(shù)目與每個第二幀的變
換域數(shù)據(jù)項數(shù)目的比值來選擇要處理的第一幀，丟棄不需要由比特流解析單元ll來形成的那些幀。參照圖3和4將更詳細(xì)地對這一點進行解釋。
注意，取代頻譜構(gòu)建單元所使用的巻積，或在頻譜構(gòu)建單元所使用的巻積之外，可以執(zhí)行補零或類似技術(shù)來調(diào)整幀的大小。
在圖3中示出了幀的處理，其中，在左邊示出了根據(jù)現(xiàn)有技術(shù)的處理，在右邊示出了根據(jù)本發(fā)明的處理。
根據(jù)現(xiàn)有技術(shù)，將輸入比特流A裝配入第一 (I)幀101，盡管也可以使用如包絡(luò)之類的其他參數(shù)，但在本示例中第一 (I)幀101包含
傅立葉域數(shù)據(jù)(FDD)，如表示聲音的(頻譜)參數(shù)。數(shù)據(jù)項的數(shù)目可
以變化，從而第一幀的長度可以變化，典型地，第一幀的長度小于相應(yīng)的第二和第三幀的長度。
例如，通過與時間窗的復(fù)頻譜進行巻積，將第一 (I)幀101轉(zhuǎn)換為第二 (II)幀102。在現(xiàn)有技術(shù)中，可以將該時間窗選擇為匹配由每
一個第一幀的變換域數(shù)據(jù)或參數(shù)所表示的數(shù)據(jù)的持續(xù)時間。
第二幀具有與有效率的變換格式相對應(yīng)的長度，并可以包含例如
512個數(shù)據(jù)項。在本示例中，對第二幀進行反變換以產(chǎn)生包含512個時
域數(shù)據(jù)項(TDD)的第三(III)幀103。然后，現(xiàn)有技術(shù)方法僅使用
原始數(shù)目的樣本(即在本示例中為384個)來形成輸出信號B，而丟棄
剩余的樣本(X)。
根據(jù)本發(fā)明，如現(xiàn)有技術(shù)中一樣，形成第一幀lll并對其進行巻積來形成第二幀112，并進行反變換來產(chǎn)生第三幀113。然而，與現(xiàn)有技術(shù)不同的是，使用第三幀113的所有數(shù)據(jù)項(即樣本)來產(chǎn)生輸出信號B，沒有樣本被丟棄。在上述示例中，這意味著輸出比特流包含每幀512個樣本，而不是原來的每幀384個樣本。顯然，每幀所增加的輸出使變換的使用更高效。
然而，由于增加了每幀輸出的樣本數(shù)目，因此，速度降低并增大了由輸出樣本所表示的聲音的持續(xù)時間。典型地這是不期望的，因此本發(fā)明提出通過丟棄(或在其他情況下，重復(fù))幀來調(diào)整音軌的長度。在圖4中對這點進行了說明。
所示第一幀塊201包含8個第一幀F(xiàn)1， F2， ...， F8，其中每一個表示原始時域長度P(例如384個樣本或8.7ms)。根據(jù)本發(fā)明，將這些第一幀轉(zhuǎn)換成具有增大的時域長度Q(例如512個樣本或11.6ms)的第三幀。因此，塊202僅包含6個幀Gl， G2， ...， G6。由于塊202的長度(6X512=3072)與塊201的長度(8X384-3072)相同，從而表示相同的聲音持續(xù)時間，因此必須丟棄第一塊的兩個幀。在所示的示例中，丟棄幀F(xiàn)3和F7。優(yōu)選地，丟棄的幀不相鄰，以避免聲音中任何可察覺的人
工效應(yīng)。通過丟棄第一幀或與第一幀相對應(yīng)的數(shù)據(jù)，在本示例中處理
量降低了25%。
應(yīng)當(dāng)理解的是，上述所使用的示例并非意在以任何方式限制本發(fā)
明，取而代之地，可以使用具有與512和384個數(shù)據(jù)項不同長度的幀，例如具有256和139個數(shù)據(jù)項長度的幀。還應(yīng)理解，可以將數(shù)據(jù)項作為幀而不是比特流來輸入和/或輸出。
在圖3和4的示例中，由于增加數(shù)據(jù)項的數(shù)目來匹配適合的變換格式，因此第三幀的長度大于第一幀的長度。根據(jù)本發(fā)明的另一方面，第三幀的長度也可以小于第一幀的長度。當(dāng)減少數(shù)據(jù)項的數(shù)目來匹配適合的變換格式時就是這種情況。
例如，與8.7ms的持續(xù)時間相對應(yīng)的時間窗在16kHz的采樣頻率下包含139個數(shù)據(jù)項。當(dāng)使用256的變換長度時，變換效率僅為54。Z (=139/256)。然而，如果將8.7ms的持續(xù)時間降低至8.0ms，在16kHz 僅需要128個數(shù)據(jù)項，并且可以僅使用128的變換長度。顯然，縮短幀長度顯著地提高了變換效率。
應(yīng)當(dāng)注意，在實際的實施例中，出于技術(shù)原因，由于數(shù)據(jù)項的數(shù) 目必須可被3除盡，因此時間窗的長度還可能進一步略微減小至例如 7.9ms和126個數(shù)據(jù)項。在這種情況下，根據(jù)本發(fā)明，可以輸出第三幀的所有128個樣本。仍舊可以實現(xiàn)變換效率的顯著提高。
由于可以減小幀的持續(xù)時間，聲音的總持續(xù)時間也被縮短，而這通常是不期望的。出于這種原因，幀選擇器單元包括用于根據(jù)需要重復(fù)第一幀以補償?shù)谝粠c第二幀之間的任何長度差值的裝置。通過對幀進行重復(fù)，輸出的聲音的總持續(xù)時間可以實質(zhì)上保持不變。在上述示例中，時間窗長度從8.7ms減小至lj8.0ms需要8.7/8.0-1.0875的調(diào)整長度(即添加8.75%)，例如，這可以通過每12幀重復(fù)1幀(1/12=8.33)來實現(xiàn)。
在圖5中對這一點進行了說明，其中，第一塊203包含12個(第一) 幀，而實質(zhì)上具有相同長度的第二塊204包含13個(第三)幀。在本示例中，每一個(第一)幀F(xiàn)1， F2， ...， F12包含139個數(shù)據(jù)項，而每一
13個(第三)幀G1， G2，…，Gl， GP包含128個數(shù)據(jù)項。相應(yīng)地，塊 203和204基本上包含相同數(shù)目的數(shù)據(jù)項(139 X 12=1668 ， 138*13=1664)。如果需要，可以通過偶爾重復(fù)一個或更多個幀來補償該長度差值。
從圖5可以看出，對幀F(xiàn)7進行了重復(fù)幀F(xiàn)7用于產(chǎn)生幀G7和幀G8。在圖5的示例中，兩個幀G7和G8是相鄰的，以最小化任何可聽見的人工效應(yīng)。
在圖6中示出了根據(jù)本發(fā)明的合成器或解碼器8。合成器或解碼器 8包含根據(jù)本發(fā)明的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備(SSCD) l和用于存儲聲音參數(shù) 的數(shù)據(jù)庫(DB) 2。數(shù)據(jù)庫2產(chǎn)生輸入比特流A，聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備l 將輸入比特流A轉(zhuǎn)換成輸出比特流B。合成器或解碼器8可以包含另外的組件，為了說明清楚起見而未示出這些組件，例如，獨立控制聲音的音高和速度的組件。本發(fā)明可以特別有利地應(yīng)用在參數(shù)解碼器中。
圖7中示意性地示出了用戶設(shè)備9。用戶設(shè)備7可以是如固態(tài)音頻播放器的便攜式用戶設(shè)備(例如MP3播放器)。用戶設(shè)備7包含如圖6 所示的聲音合成器8。用戶設(shè)備7還可以是移動電話裝置、游戲設(shè)備、便攜式音樂設(shè)備或產(chǎn)生聲音的任何其他設(shè)備。聲音不限于音樂，還可以是語音或鈴音或其組合。
應(yīng)當(dāng)注意的是，在圖2中示出了本發(fā)明的方法，其中以下單元可以表示以下方法步驟-
一單元ll (BP):形成包含聲音參數(shù)的第一幀的步驟，
一單元12 (SB):從第一幀形成第二幀的步驟，所述第二幀具有與高效反變換相對應(yīng)的長度，
—單元13 (IFFT):將第二幀反變換為第三幀的步驟，
一單元14 (OLA):輸出每一個第三幀的時域輸出聲音數(shù)據(jù)的步
驟，
一單元16 (FS)與單元ll (BP)結(jié)合丟棄或重復(fù)第一幀。本發(fā)明基于的認(rèn)識是，通過使用全部(反)變換的幀代替僅使用與原始較短的幀相對應(yīng)的部分，然后丟棄幀以補償增加的聲音總持續(xù) 時間，可以顯著地改進變換聲音幀的效率。本發(fā)明得益于另一認(rèn)識，通過減小和增大幀長度以匹配適合的變換長度，然后重復(fù)或丟棄幀以補償減小的聲音總持續(xù)時間，可以進一步改進效率。
注意，本文中使用的任何術(shù)語將不能被解釋為對本發(fā)明的范圍的限制。特別地，"包括"一詞并不意味著排除沒有特別陳述的任何元件。可以使用多個(電路)元件或使用其等效物來替代單個(電路)元件。術(shù)語幀不意味著將聲音數(shù)據(jù)的集合限制為任何特定的布置?？梢允褂?其他變換來代替上述傅立葉變換。
因此，本領(lǐng)域的技術(shù)人員將理解的是，本發(fā)明不限于如上所述的實施例，并且在不背離由所附權(quán)利要求所限定的本發(fā)明的范圍的前提下，可以進行許多修改和添加。例如，如果本發(fā)明的設(shè)備接收包含表示聲音的聲音參數(shù)的第一幀，因此不需要在設(shè)備內(nèi)形成第一幀，則可以省略第一幀形成單元。
權(quán)利要求
1. 一種用于從聲音參數(shù)(A)中產(chǎn)生時域聲音數(shù)據(jù)(B)的設(shè)備(1)，所述設(shè)備包括—第一幀形成單元(11)，用于形成第一幀，每一個第一幀包含表示聲音的聲音參數(shù)，—第二幀形成單元(12)，用于從第一幀形成第二幀，每一個第二幀包含從單個第一幀的聲音參數(shù)中導(dǎo)出的變換域聲音數(shù)據(jù)，每一個第二幀的變換域聲音數(shù)據(jù)表示具有特定時域長度的聲音，并且每一個第二幀具有與高效反變換相對應(yīng)的長度，—反變換單元(13)，用于將第二幀反變換為第三幀，每一個第三幀包含與單個第二幀的變換域聲音數(shù)據(jù)相對應(yīng)的時域聲音數(shù)據(jù)，并且每一個第三幀具有與第二幀相等的長度，—輸出單元(14)，用于實質(zhì)上輸出每一個第三幀的所有時域聲音數(shù)據(jù)(A)，以及—幀選擇器單元(16)，用于根據(jù)需要丟棄或重復(fù)第一幀以補償所述特定時域長度與第三幀長度之間的任何差值。
2. 根據(jù)權(quán)利要求l所述的設(shè)備，其中，所述第二幀形成單元(12) 包括用于將由聲音參數(shù)所表示的變換域聲音數(shù)據(jù)與具有所述特定時域長度的時間窗的變換域表示進行巻積的裝置。
3. 根據(jù)權(quán)利要求l所述的設(shè)備，其中，所述第一幀形成單元(12) 包括用于減小或增大特定持續(xù)時間以使得特定持續(xù)時間的長度實質(zhì)上等于第三幀長度的裝置。
4. 根據(jù)權(quán)利要求3所述的設(shè)備，其中，所述第一幀形成單元(12) 包括用于將特定持續(xù)時間降低至多40。％，優(yōu)選地至多25。Z，更優(yōu)選地至多15%的裝置。
5. 根據(jù)權(quán)利要求l所述的設(shè)備，其中，反變換是反快速傅立葉變換(IFFT)。
6. 根據(jù)權(quán)利要求l所述的設(shè)備，還包括幀計數(shù)器(15)。
7. —種聲音合成器(8)，包括根據(jù)權(quán)利要求l所述的設(shè)備(1)。
8. —種聲音解碼器(8)，包括根據(jù)權(quán)利要求l所述的設(shè)備(1)。
9. 一種用戶設(shè)備(9)，包括根據(jù)權(quán)利要求l所述的設(shè)備(1)。
10. —種音頻系統(tǒng)，包括根據(jù)權(quán)利要求l所述的設(shè)備(1)。
11. 一種從聲音參數(shù)(A)中產(chǎn)生時域聲音數(shù)據(jù)(B)的方法，所述方法包括以下步驟一形成第一幀，每一個第一幀包含表示聲音的聲音參數(shù)，一從第一幀形成第二幀，每一個第二幀包含從單個第一幀的聲音參數(shù)中導(dǎo)出的變換域聲音數(shù)據(jù)，每一個第二幀的變換域聲音數(shù)據(jù)表示具有特定時域長度的聲音，并且每一個第二幀具有與高效反變換相對應(yīng)的長度，一將第二幀反變換為第三幀，每一個第三幀包含與單個第二幀的變換域聲音數(shù)據(jù)相對應(yīng)的時域聲音數(shù)據(jù)，并且每一個第三幀具有與第二幀相等的長度，一實質(zhì)上輸出每一個第三幀的所有時域聲音數(shù)據(jù)(B)，以及一根據(jù)需要丟棄或重復(fù)第一幀以補償所述特定時域長度和第三幀長度之間的任何差值。
12. 根據(jù)權(quán)利要求ll所述的方法，其中，形成第一幀的步驟包括減小特定持續(xù)時間，使得特定持續(xù)時間至多等于第二幀的長度。
13. 根據(jù)權(quán)利要求ll所述的方法，其中，形成第一幀的步驟包括將特定持續(xù)時間降低至多40%，優(yōu)選地至多25%，更優(yōu)選地至多15%。
14. 根據(jù)權(quán)利要求ll所述的方法，其中，反變換是反快速傅立葉變換(IFFT)。
15. —種計算機程序產(chǎn)品，用于執(zhí)行根據(jù)權(quán)利要求ll所述的方法。
全文摘要
本發(fā)明提供了一種從聲音參數(shù)(A)中產(chǎn)生時域聲音數(shù)據(jù)(B)的方法，所述方法包括以下步驟形成第一幀，每一個第一幀包含表示聲音的聲音參數(shù)；從第一幀形成第二幀，每一個第二幀包含從聲音參數(shù)中導(dǎo)出的變換域聲音數(shù)據(jù)，每一個第二幀的變換域聲音數(shù)據(jù)表示具有特定時域長度的聲音，并且每一個第二幀具有與高效反變換相對應(yīng)的長度；將第二幀反變換為第三幀(G1，G2，…)，每一個第三幀包含與第二幀的變換域聲音數(shù)據(jù)相對應(yīng)的時域聲音數(shù)據(jù)，并且每一個第三幀具有與第二幀相等的長度；實質(zhì)上輸出每一個第三幀的所有時域聲音數(shù)據(jù)(B)；以及根據(jù)需要丟棄或重復(fù)第一幀(F3、F7)，以補償所述特定時域長度(P)和第三幀長度(Q)之間的任何差值。
文檔編號G10L19/022GK101479788SQ200780024091
公開日2009年7月8日申請日期2007年6月27日優(yōu)先權(quán)日2006年6月29日
發(fā)明者安德烈亞斯·格里茨, 馬克·克萊因·米德林克, 馬雷克·斯?jié)砂?申請人:Nxp股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：安德烈亞斯.格里茨;馬克.克萊因.米德林克;馬雷克.斯?jié)砂?/span>
技術(shù)所有人：NXP股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

電源適配器有吱吱聲音相關(guān)技術(shù)

幀長度相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

聲音幀長度適配的制作方法