欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

聲音幀長度適配的制作方法

文檔序號:2830497閱讀:316來源:國知局
專利名稱:聲音幀長度適配的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及聲音幀的長度適配。更具體地,本發(fā)明涉及一種從聲 音參數(shù)中產(chǎn)生時域聲音數(shù)據(jù)的設(shè)備和方法,所述設(shè)備和方法包括幀長 度適配以允許高效的變換。
背景技術(shù)
從表示聲音樣本的聲音參數(shù)合成或重構(gòu)聲音是公知的。變換域 (如頻域,即傅立葉變換域)內(nèi)的聲音合成提供了優(yōu)于時域內(nèi)的聲音 合成的計算上的優(yōu)點。出于這個原因,通常將聲音編碼并存儲為聲音 參數(shù)(如頻譜分量或表示頻譜或時間屬性的參數(shù))。對于不同的聲音分 量(如瞬變分量、正弦分量以及噪聲分量)可以提供分離的參數(shù)。例
如,在國際專利申請WO 01/69593 (飛利浦)中公開了一種使用這樣 不同聲音分量的編碼器和解碼器。
合成器或解碼器可以使用所存儲或傳送的聲音參數(shù)來裝配隨后 要被(反)變換到時域的變換域聲音幀。所產(chǎn)生的時域聲音幀的持續(xù) 時間典型地由心理聲學(xué)考慮而確定并可以被選擇為最小化人工效應(yīng)。 例如, 一些合成器使用具有(時域)持續(xù)時間為8.7ms的聲音幀。在 44.1kHz的采樣頻率下,這樣的幀的長度將為384個樣本。
盡管從心理聲學(xué)的觀點來看,384個數(shù)據(jù)項的幀長度是最優(yōu)的, 但是對這樣的幀進行變換的效率是非常低的。當(dāng)幀中的數(shù)據(jù)項的數(shù)目 是2的冪(例如128、 256或512)時,快速傅立葉變換(FFT)及其反 變換(IFFT)和如離散余弦變換(DCT)的類似變換是最有效率的。 在每幀384個數(shù)據(jù)項的本示例中,可以選擇512的變換長度。當(dāng)完成變 換時,丟棄128個數(shù)據(jù)項以獲得期望的384個數(shù)據(jù)項。然而,由于25% (=128/512)的數(shù)據(jù)項是冗余的,這意味著該變換僅具有75。%的效率。
在其他采樣頻率下的變換效率可能更低。如上示例中提及的8.7ms的持續(xù)時間在16kHz的采樣頻率下產(chǎn)生139個樣本。使用256的變換長 度將導(dǎo)致僅54%的效率。
盡管己知適用于除了2的冪的其他幀長度的FFT的實施例,但是這 些可選實施例典型地效率較低并需要更多的處理時間和/或更多的存 儲器。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的這些和其他問題,并提供一種從 如聲音參數(shù)之類的輸入聲音數(shù)據(jù)中產(chǎn)生時域輸出聲音數(shù)據(jù)的方法和設(shè) 備,所述設(shè)備和方法更有效率。
因此,本發(fā)明提供了用于從聲音參數(shù)中產(chǎn)生時域聲音數(shù)據(jù)的設(shè)
備,所述設(shè)備包括
一第一幀形成單元,用于形成第一幀,每一個第一幀包含表示聲 音的聲音參數(shù),
一第二幀形成單元,用于從第一幀形成第二幀,每一個第二幀包
含從單個第一幀的聲音參數(shù)中導(dǎo)出的變換域聲音數(shù)據(jù),每一個第二幀
的變換域聲音數(shù)據(jù)表示具有特定時域長度的聲音,并且每一個第二幀
具有與高效反變換相對應(yīng)的長度,
一反變換單元,用于將第二幀反變換為第三幀,每一個第三幀包 含與單個第二幀的變換域聲音數(shù)據(jù)相對應(yīng)的時域聲音數(shù)據(jù),并且每一
個第三幀具有與第二幀相等的長度,
一輸出單元,用于實質(zhì)上輸出每一個第三幀的所有時域聲音數(shù) 據(jù),以及
一幀選擇器單元,用于根據(jù)需要丟棄或重復(fù)第一幀,以補償所述 特定時域長度與第三幀長度之間的任何差值。
通過使用第三幀中包含的所有或幾乎所有反變換的聲音數(shù)據(jù),而 不是僅使用在數(shù)量上與由第二幀所表示的原始特定時域長度相對應(yīng)的 聲音數(shù)據(jù),顯著地提高了設(shè)備的效率。
注意,在本發(fā)明中,輸出單元可以輸出每一個第三幀的所有聲音 數(shù)據(jù)或幾乎所有時域聲音數(shù)據(jù),即至少90%的所述時域聲音數(shù)據(jù),優(yōu)選地至少95%,更優(yōu)選地至少98%。
通過丟棄或根據(jù)具體情況重復(fù)第一幀來補償?shù)谌龓拈L度與由 第二幀的變換域數(shù)據(jù)所表示的特定時域長度之間的任何差值。例如, 如果使用512的變換長度用于具有384個樣本長度的(第一)幀,并且 如果根據(jù)本發(fā)明使用所有512個反變換的樣本,貝f」512/384=1.33,產(chǎn)生
與現(xiàn)有技術(shù)一樣多的樣本。相應(yīng)地,要使用的第一幀的數(shù)目必須減少 384/512=1/1.33=25%。在本示例中,因此將必須每4幀中丟棄1幀來獲 得具有相同的總持續(xù)時間的聲音。
己經(jīng)發(fā)現(xiàn),丟棄幀幾乎不可察覺,特別是當(dāng)間歇地執(zhí)行丟棄時更 不可察覺。因此,優(yōu)選地,均勻地分隔開丟棄的幀,特別是避免丟棄 兩個直接相鄰的幀(例如,當(dāng)幀的原始幀序列為ABCDEFG時,丟棄 后為ABDEG)。然而,當(dāng)重復(fù)幀時,優(yōu)選地,重復(fù)其次相鄰的幀(例 如,ABCCDEEFG)。
上述特定時域長度可以由與期望持續(xù)時間相對應(yīng)的時間窗來定 義,例如參照上述與8.7ms的持續(xù)時間相對應(yīng)的384個樣本。在實際實 施例中,第二幀形成單元可以通過將由聲音參數(shù)表示的變換域聲音數(shù) 據(jù)與期望時間窗的(一段)變換域表示(例如,復(fù)頻譜)進行巻積來 從聲音參數(shù)導(dǎo)出變換域聲音數(shù)據(jù)。可以對該期望時間窗的頻譜表示應(yīng) 用過采樣,以改進所產(chǎn)生的信號的頻域分辨率。
上述特定時域長度典型地與形成第一幀的速率相關(guān),并可以等于 連續(xù)的第一幀之間的時間間隔。然而,這并不是必需的,可以設(shè)想以
變化的間隔來形成第一幀的實施例,在將第一幀轉(zhuǎn)換成第二幀之前將 其緩存。
在本發(fā)明中,聲音參數(shù)可以包括表示聲音特性的參數(shù),變換域聲 音數(shù)據(jù)可以包括從所述聲音參數(shù)中導(dǎo)出的變換域系數(shù),而時域聲音數(shù) 據(jù)可以包括從所述系數(shù)獲得的聲音樣本。
通過選擇更適合的變換長度,可以進一步提高變換效率。因此, 根據(jù)本發(fā)明的另一方面,第一幀形成單元可以被設(shè)置用于減小或增大 特定持續(xù)時間,使得所述特定時域長度等于或近似等于第三幀的長度。
通過減小或增大由第二幀的數(shù)據(jù)所表示的特定持續(xù)時間,能夠獲
6得可以與有效率的變換長度緊密匹配的縮短或加長的幀。例如,上述
8.7ms的持續(xù)時間在16kHz的采樣頻率下產(chǎn)生139個樣本,當(dāng)使用256的 變換長度時,僅導(dǎo)致54% (=139/256)的效率。然而,如果將該持續(xù) 時間減小至8.0ms,則在16kHz下僅需要128個樣本,并可以使用僅128 的變換長度。顯然,這種措施顯著地提高了效率。
應(yīng)當(dāng)注意的是,在實際實施例中,出于技術(shù)原因,特定持續(xù)時間 的長度還可能被進一步略微減小至例如7.9ms和126個樣本。
由于可以減小幀的持續(xù)時間,聲音的總持續(xù)時間也被縮短,而這 通常是不期望的。出于這種原因,幀選擇器單元包括用于根據(jù)需要重 復(fù)(或根據(jù)具體情況,丟棄)第一幀以補償?shù)谝粠偷诙g的任 何長度差值的裝置。通過重復(fù)幀,輸出的聲音的總持續(xù)時間可以實質(zhì) 上保持不變。在上述示例中,第一幀長度從8.7ms減小至8.0ms需要 8.7/8.0=1.0875的調(diào)整長度(即添加8.75%),例如這可以通過每12幀中 重復(fù)一幀(1/12=8.33%)來實現(xiàn)。
已經(jīng)發(fā)現(xiàn),只要遵守特定的限制,長度減小和相關(guān)的幀重復(fù)幾乎 不可聽見。為了避免任何清晰可聽見的人工效應(yīng),優(yōu)選地,第一幀形 成單元包括用于將特定持續(xù)時間減小至多40%,優(yōu)選地至多25。%,更 優(yōu)選地至多15%的裝置。
盡管還可以使用其他適合的變換,例如反離散余弦變換(IDCT)、 或(前向)快速傅立葉變換(FFT),但優(yōu)選地,反變換是反快速傅立 葉變換(IFFT)。
本發(fā)明還提供了一種聲音合成器、聲音解碼器、用戶設(shè)備、和包 括上述設(shè)備的音頻系統(tǒng)。例如,聲音合成器可以被設(shè)置為從存儲的變 換域數(shù)據(jù)中重現(xiàn)聲音,并且可以分離地合成瞬變、正弦和噪聲分量。 本發(fā)明的設(shè)備特別適合于合成正弦分量。聲音解碼器可以被設(shè)置為從 已編碼的變換域數(shù)據(jù)中重現(xiàn)聲音,并且還可以被設(shè)置為分離地合成瞬 變、正弦和噪聲分量。
例如,本發(fā)明的用戶設(shè)備可以是一種手持設(shè)備,如便攜式音頻播 放器(例如MP3播放器)或移動(蜂窩)電話裝置,或電子樂器。音 頻系統(tǒng)可以是家庭娛樂系統(tǒng)或?qū)I(yè)音響系統(tǒng)??蛇x地,音頻系統(tǒng)可以包括語音合成器。
本發(fā)明還提供一種從聲音參數(shù)中產(chǎn)生時域聲音數(shù)據(jù)的方法,所述
方法包括以下步驟-
一形成第一幀,每一個第一幀包含表示聲音的聲音參數(shù),
—從第一幀形成第二幀,每一個第二幀包含從單個第一幀的聲音
參數(shù)導(dǎo)出的變換域聲音數(shù)據(jù),每一個第二幀的變換域聲音數(shù)據(jù)表示具
有特定時域長度的聲音,并且每一個第二幀具有與高效反變換相對應(yīng)
的長度,
一將第二幀反變換為第三幀,每一個第三幀包含與第二幀的變換 域聲音數(shù)據(jù)相對應(yīng)的時域聲音數(shù)據(jù),并且每一個第三幀具有與第二幀 相等的長度,
—實質(zhì)上輸出每一個第三幀的所有時域聲音數(shù)據(jù),以及 一根據(jù)需要丟棄或重復(fù)第一幀,以補償所述特定時域長度和第三 幀的長度之間的任何差值。
不必要以所列的順序來執(zhí)行這些方法步驟。例如,可以在形成第 二幀的步驟之前執(zhí)行丟棄第一幀的步驟??蛇x地,可以完全不用形成 一些第一幀,因此可以在形成第一幀之前丟棄變換域聲音數(shù)據(jù)。應(yīng)當(dāng) 注意的是,僅丟棄一些第一幀,因此,對于一些幀將不執(zhí)行丟棄的步 驟。
本發(fā)明的方法根本上解決了與上述本發(fā)明的設(shè)備相同的問題并 實現(xiàn)了相同的優(yōu)點。
形成第一幀的步驟可以包括減小特定持續(xù)時間,使得第一幀的長 度至多與第二幀的長度相等。優(yōu)選地,形成第一幀的步驟包括將特定
持續(xù)時間減小至多40。%,優(yōu)選地至多25%,更優(yōu)選地至多15%,但是 如果能夠接受特定的聲音失真,則大于40%的百分比也是可能的。
根據(jù)本發(fā)明的方法還可以包括,根據(jù)需要丟棄或重復(fù)第一幀,以 補償特定時域長度和第二幀的長度之間的任何長度差值的步驟。
本發(fā)明的方法特別適合于合成周期性的聲音分量,例如,在合成 器中分離地產(chǎn)生瞬變、正弦和噪聲分量。
本發(fā)明還提供了一種用于執(zhí)行上述方法的計算機程序產(chǎn)品。計算
8機程序產(chǎn)品可以包括存儲在如CD或DVD的數(shù)據(jù)載體上的計算機可讀 指令集合。允許可編程計算機執(zhí)行如上所述方法的計算機可讀指令集 合還可以例如經(jīng)由因特網(wǎng)從遠(yuǎn)程服務(wù)器下載來得到。


參照附圖中示出的示例性實施例,進一步解釋本發(fā)明,附圖中
圖l示意性地示出了根據(jù)現(xiàn)有技術(shù)的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備。
圖2示意性地示出了根據(jù)本發(fā)明的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備。
圖3示意性地示出了圖1和2的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備中幀的處理。 圖4示意性地示出了根據(jù)本發(fā)明的幀的丟棄。 圖5示意性地示出了根據(jù)本發(fā)明的幀的重復(fù)。 圖6示意性地示出了包括根據(jù)本發(fā)明的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備的聲音 合成器。
圖7示意性地示出了包括根據(jù)本發(fā)明的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備的用戶 設(shè)備。
具體實施例方式
圖i中示出的根據(jù)現(xiàn)有技術(shù)的示例性聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備r包括
比特流解析單元(BP)11、頻譜構(gòu)建單元12、反快速傅立葉變換(IFFT) 單元13、重疊相加(OLA)單元14和幀計數(shù)器(FC) 15。
比特流解析單元11接收聲音參數(shù)A的輸入比特流,并形成包含這 些聲音數(shù)據(jù)的第一幀。聲音參數(shù)可以包括描述和/或表示時間或頻譜包 絡(luò)、頻譜系數(shù)和/或其他參數(shù)的參數(shù)。每一個第一幀中的聲音參數(shù)的數(shù) 目可以取決于所使用的特定編碼類型,并且可以在從單一數(shù)據(jù)項至幾 百個數(shù)據(jù)項中變化。第一幀可以具有可變長度。
第一幀的聲音數(shù)據(jù)提供了在特定時間間隔期間的聲音表示。該時 間間隔的持續(xù)時間可以被選擇為滿足心理聲學(xué)和/或技術(shù)約束,并且可 以例如是8.7ms,但是可以使用其他值來代替。盡管不是必需的,但該 時間間隔可以與第 一 幀之間的時間間隔相 一 致。
頻譜構(gòu)建單元12使用第一幀的樣本來形成第二幀,所述第二幀具有適合于變換單元13中的后續(xù)變換的長度。典型地,最有效率的FFT 長度為128、 256、 512和1024 (2的冪),在現(xiàn)有技術(shù)中使用了下一個更 大的FFT長度,在本示例中長度為512。因此,頻譜構(gòu)建單元12將包含 可變數(shù)量聲音數(shù)據(jù)的第一幀轉(zhuǎn)換成第二幀,在本示例中,每一個第二 幀包含512個頻譜分量。
為此,頻譜構(gòu)建單元12可以將每一個第一幀的聲音數(shù)據(jù)與時間窗 的(復(fù))頻譜表示進行巻積??梢詫⒃摃r間窗的長度選擇為使其與由 單個幀表示的聲音的持續(xù)時間相匹配。在上述示例中,使用8.7ms的持 續(xù)時間,該持續(xù)時間在44.1kHz的采樣頻率下產(chǎn)生384個時域聲音數(shù)據(jù) 項(樣本)的長度??梢詫r間窗的形狀選擇為避免聲音的失真,典 型地使用漢寧窗(Harming window)。為了提高準(zhǔn)確度,可以對時間窗 的(復(fù))頻譜表示進行過采樣。
相應(yīng)地,頻譜構(gòu)建單元12執(zhí)行(漢寧)時間窗的(復(fù))頻譜和第 一幀的聲音數(shù)據(jù)的巻積,產(chǎn)生包含頻譜分量的第二幀。頻譜分量的數(shù) 目(例如512)是2的冪,從而實現(xiàn)有效率的(反)變換。本領(lǐng)域的技 術(shù)人員可以認(rèn)識到,可以使用時域內(nèi)的乘法來代替變換域內(nèi)的巻積。
隨后,IFFT單元13將變換域的第二幀轉(zhuǎn)換成時域的第三幀,第三 幀具有與第二幀相同的長度,并且在本示例中也包含512個數(shù)據(jù)項(即 樣本)。
重疊相加單元14,將第三幀轉(zhuǎn)換成比特流、 一系列幀、或包含時域 輸出聲音數(shù)據(jù)B的任何其他適合的輸出信號。本領(lǐng)域的技術(shù)人員知道, 重疊相加(OLA)單元通過將部分重疊的幀的樣本相加來產(chǎn)生信號。
幀計數(shù)器15對所產(chǎn)生的幀的數(shù)目進行計數(shù),并相應(yīng)地控制比特流 解析單元ll。例如可以從外部控制幀計數(shù)器來執(zhí)行搜索操作或調(diào)整回 放速度。
現(xiàn)有技術(shù)的重疊相加單元14,僅使用每一個第三幀中與原始的更
少數(shù)目的樣本相對應(yīng)的部分。在本示例中,現(xiàn)有技術(shù)的重疊相加單元 14'僅使用512個樣本中的384個樣本并丟棄剩余的128個樣本。顯然, 這不是高效的。
僅作為非限制性示例,在圖2中示出了根據(jù)本發(fā)明的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備l,設(shè)備l也包括比特流解析單元(BP) 11、頻譜構(gòu)建單元12、
反快速傅立葉變換(IFFT)單元13、重疊相加(OLA)單元14和幀計 數(shù)器(FC) 15。此外,所示的實施例包括幀選擇器單元(FS) 16。
與圖l的現(xiàn)有技術(shù)設(shè)備l,不同,根據(jù)本發(fā)明的設(shè)備l使用第三幀中 的所有可用數(shù)據(jù)項(樣本)來產(chǎn)生輸出信號。雖然單元ll、 12、 13和 15實質(zhì)上參照如上所述的現(xiàn)有技術(shù)來操作,但圖2的單元14相對于相應(yīng) 的圖1的單元14'進行了修改。
使用上述示例,如現(xiàn)有技術(shù)一樣,比特流解析單元ll形成第一幀, 第一幀包含變換域數(shù)據(jù)項(例如參數(shù))。頻譜構(gòu)建單元12通過將由第一 幀的數(shù)據(jù)所表示的系數(shù)與適合的時間窗(例如具有512個樣本長度的漢 寧窗)的(優(yōu)選地,復(fù))頻譜進行巻積來將這些第一幀轉(zhuǎn)換為第二幀, 與現(xiàn)有技術(shù)的384個樣本相比,第二幀具有512個數(shù)據(jù)項。然后,IFFT 單元13對第二幀進行(反)變換,產(chǎn)生第三幀,每一個第三幀包含512
個時域聲音數(shù)據(jù)項。被設(shè)計為輸出時域輸出聲音數(shù)據(jù)A的本發(fā)明的重疊相加(OLA) 單元14使用每一個第三幀的所有(或幾乎所有)數(shù)據(jù)項來產(chǎn)生輸出比 特流。即在上述所給出的示例中,重疊相加單元14使用每一個第三幀 的所有512個樣本來產(chǎn)生輸出比特流。
使用第三幀的所有數(shù)據(jù)項增加了每幀的輸出樣本的數(shù)目,并因此 增加了聲音的持續(xù)時間。為了獲得具有其預(yù)期持續(xù)時間的聲音,本發(fā) 明還提出跳過特定的第一幀。這具有附加的有點減小了要處理的幀 的數(shù)目,從而節(jié)約了處理時間。
本發(fā)明的設(shè)備1配備有由幀計數(shù)器15控制的幀選擇器單元16。幀 選擇器單元16根據(jù)每個第一幀的變換域數(shù)據(jù)項數(shù)目與每個第二幀的變
換域數(shù)據(jù)項數(shù)目的比值來選擇要處理的第一幀,丟棄不需要由比特流 解析單元ll來形成的那些幀。參照圖3和4將更詳細(xì)地對這一點進行解釋。
注意,取代頻譜構(gòu)建單元所使用的巻積,或在頻譜構(gòu)建單元所使 用的巻積之外,可以執(zhí)行補零或類似技術(shù)來調(diào)整幀的大小。
在圖3中示出了幀的處理,其中,在左邊示出了根據(jù)現(xiàn)有技術(shù)的處理,在右邊示出了根據(jù)本發(fā)明的處理。
根據(jù)現(xiàn)有技術(shù),將輸入比特流A裝配入第一 (I)幀101,盡管也可以使用如包絡(luò)之類的其他參數(shù),但在本示例中第一 (I)幀101包含
傅立葉域數(shù)據(jù)(FDD),如表示聲音的(頻譜)參數(shù)。數(shù)據(jù)項的數(shù)目可
以變化,從而第一幀的長度可以變化,典型地,第一幀的長度小于相應(yīng)的第二和第三幀的長度。
例如,通過與時間窗的復(fù)頻譜進行巻積,將第一 (I)幀101轉(zhuǎn)換為第二 (II)幀102。在現(xiàn)有技術(shù)中,可以將該時間窗選擇為匹配由每
一個第一幀的變換域數(shù)據(jù)或參數(shù)所表示的數(shù)據(jù)的持續(xù)時間。
第二幀具有與有效率的變換格式相對應(yīng)的長度,并可以包含例如
512個數(shù)據(jù)項。在本示例中,對第二幀進行反變換以產(chǎn)生包含512個時
域數(shù)據(jù)項(TDD)的第三(III)幀103。然后,現(xiàn)有技術(shù)方法僅使用
原始數(shù)目的樣本(即在本示例中為384個)來形成輸出信號B,而丟棄
剩余的樣本(X)。
根據(jù)本發(fā)明,如現(xiàn)有技術(shù)中一樣,形成第一幀lll并對其進行巻積來形成第二幀112,并進行反變換來產(chǎn)生第三幀113。然而,與現(xiàn)有技術(shù)不同的是,使用第三幀113的所有數(shù)據(jù)項(即樣本)來產(chǎn)生輸出信號B,沒有樣本被丟棄。在上述示例中,這意味著輸出比特流包含每幀512個樣本,而不是原來的每幀384個樣本。顯然,每幀所增加的輸出使變換的使用更高效。
然而,由于增加了每幀輸出的樣本數(shù)目,因此,速度降低并增大了由輸出樣本所表示的聲音的持續(xù)時間。典型地這是不期望的,因此本發(fā)明提出通過丟棄(或在其他情況下,重復(fù))幀來調(diào)整音軌的長度。在圖4中對這點進行了說明。
所示第一幀塊201包含8個第一幀F(xiàn)1, F2, ..., F8,其中每一個表示原始時域長度P(例如384個樣本或8.7ms)。根據(jù)本發(fā)明,將這些第一幀轉(zhuǎn)換成具有增大的時域長度Q(例如512個樣本或11.6ms)的第三幀。因此,塊202僅包含6個幀Gl, G2, ..., G6。由于塊202的長度(6X512=3072)與塊201的長度(8X384-3072)相同,從而表示相同的聲音持續(xù)時間,因此必須丟棄第一塊的兩個幀。在所示的示例中,丟棄幀F(xiàn)3和F7。優(yōu)選地,丟棄的幀不相鄰,以避免聲音中任何可察覺的人
工效應(yīng)。通過丟棄第一幀或與第一幀相對應(yīng)的數(shù)據(jù),在本示例中處理
量降低了25%。
應(yīng)當(dāng)理解的是,上述所使用的示例并非意在以任何方式限制本發(fā)
明,取而代之地,可以使用具有與512和384個數(shù)據(jù)項不同長度的幀, 例如具有256和139個數(shù)據(jù)項長度的幀。還應(yīng)理解,可以將數(shù)據(jù)項作為 幀而不是比特流來輸入和/或輸出。
在圖3和4的示例中,由于增加數(shù)據(jù)項的數(shù)目來匹配適合的變換格 式,因此第三幀的長度大于第一幀的長度。根據(jù)本發(fā)明的另一方面, 第三幀的長度也可以小于第一幀的長度。當(dāng)減少數(shù)據(jù)項的數(shù)目來匹配 適合的變換格式時就是這種情況。
例如,與8.7ms的持續(xù)時間相對應(yīng)的時間窗在16kHz的采樣頻率下 包含139個數(shù)據(jù)項。當(dāng)使用256的變換長度時,變換效率僅為54。Z (=139/256)。然而,如果將8.7ms的持續(xù)時間降低至8.0ms,在16kHz 僅需要128個數(shù)據(jù)項,并且可以僅使用128的變換長度。顯然,縮短幀 長度顯著地提高了變換效率。
應(yīng)當(dāng)注意,在實際的實施例中,出于技術(shù)原因,由于數(shù)據(jù)項的數(shù) 目必須可被3除盡,因此時間窗的長度還可能進一步略微減小至例如 7.9ms和126個數(shù)據(jù)項。在這種情況下,根據(jù)本發(fā)明,可以輸出第三幀 的所有128個樣本。仍舊可以實現(xiàn)變換效率的顯著提高。
由于可以減小幀的持續(xù)時間,聲音的總持續(xù)時間也被縮短,而這 通常是不期望的。出于這種原因,幀選擇器單元包括用于根據(jù)需要重 復(fù)第一幀以補償?shù)谝粠c第二幀之間的任何長度差值的裝置。通過對 幀進行重復(fù),輸出的聲音的總持續(xù)時間可以實質(zhì)上保持不變。在上述 示例中,時間窗長度從8.7ms減小至lj8.0ms需要8.7/8.0-1.0875的調(diào)整長 度(即添加8.75%),例如,這可以通過每12幀重復(fù)1幀(1/12=8.33)來 實現(xiàn)。
在圖5中對這一點進行了說明,其中,第一塊203包含12個(第一) 幀,而實質(zhì)上具有相同長度的第二塊204包含13個(第三)幀。在本示 例中,每一個(第一)幀F(xiàn)1, F2, ..., F12包含139個數(shù)據(jù)項,而每一
13個(第三)幀G1, G2,…,Gl, GP包含128個數(shù)據(jù)項。相應(yīng)地,塊 203和204基本上包含相同數(shù)目的數(shù)據(jù)項(139 X 12=1668 , 138*13=1664)。如果需要,可以通過偶爾重復(fù)一個或更多個幀來補償 該長度差值。
從圖5可以看出,對幀F(xiàn)7進行了重復(fù)幀F(xiàn)7用于產(chǎn)生幀G7和幀G8。 在圖5的示例中,兩個幀G7和G8是相鄰的,以最小化任何可聽見的人 工效應(yīng)。
在圖6中示出了根據(jù)本發(fā)明的合成器或解碼器8。合成器或解碼器 8包含根據(jù)本發(fā)明的聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備(SSCD) l和用于存儲聲音參數(shù) 的數(shù)據(jù)庫(DB) 2。數(shù)據(jù)庫2產(chǎn)生輸入比特流A,聲音數(shù)據(jù)轉(zhuǎn)換設(shè)備l 將輸入比特流A轉(zhuǎn)換成輸出比特流B。合成器或解碼器8可以包含另外 的組件,為了說明清楚起見而未示出這些組件,例如,獨立控制聲音 的音高和速度的組件。本發(fā)明可以特別有利地應(yīng)用在參數(shù)解碼器中。
圖7中示意性地示出了用戶設(shè)備9。用戶設(shè)備7可以是如固態(tài)音頻 播放器的便攜式用戶設(shè)備(例如MP3播放器)。用戶設(shè)備7包含如圖6 所示的聲音合成器8。用戶設(shè)備7還可以是移動電話裝置、游戲設(shè)備、 便攜式音樂設(shè)備或產(chǎn)生聲音的任何其他設(shè)備。聲音不限于音樂,還可 以是語音或鈴音或其組合。
應(yīng)當(dāng)注意的是,在圖2中示出了本發(fā)明的方法,其中以下單元可 以表示以下方法步驟-
一單元ll (BP):形成包含聲音參數(shù)的第一幀的步驟,
一單元12 (SB):從第一幀形成第二幀的步驟,所述第二幀具有 與高效反變換相對應(yīng)的長度,
—單元13 (IFFT):將第二幀反變換為第三幀的步驟,
一單元14 (OLA):輸出每一個第三幀的時域輸出聲音數(shù)據(jù)的步
驟,
一單元16 (FS)與單元ll (BP)結(jié)合丟棄或重復(fù)第一幀。 本發(fā)明基于的認(rèn)識是,通過使用全部(反)變換的幀代替僅使用 與原始較短的幀相對應(yīng)的部分,然后丟棄幀以補償增加的聲音總持續(xù) 時間,可以顯著地改進變換聲音幀的效率。本發(fā)明得益于另一認(rèn)識,通過減小和增大幀長度以匹配適合的變換長度,然后重復(fù)或丟棄幀以 補償減小的聲音總持續(xù)時間,可以進一步改進效率。
注意,本文中使用的任何術(shù)語將不能被解釋為對本發(fā)明的范圍的 限制。特別地,"包括"一詞并不意味著排除沒有特別陳述的任何元件。 可以使用多個(電路)元件或使用其等效物來替代單個(電路)元件。 術(shù)語幀不意味著將聲音數(shù)據(jù)的集合限制為任何特定的布置??梢允褂?其他變換來代替上述傅立葉變換。
因此,本領(lǐng)域的技術(shù)人員將理解的是,本發(fā)明不限于如上所述的 實施例,并且在不背離由所附權(quán)利要求所限定的本發(fā)明的范圍的前提 下,可以進行許多修改和添加。例如,如果本發(fā)明的設(shè)備接收包含表 示聲音的聲音參數(shù)的第一幀,因此不需要在設(shè)備內(nèi)形成第一幀,則可 以省略第一幀形成單元。
權(quán)利要求
1. 一種用于從聲音參數(shù)(A)中產(chǎn)生時域聲音數(shù)據(jù)(B)的設(shè)備(1),所述設(shè)備包括—第一幀形成單元(11),用于形成第一幀,每一個第一幀包含表示聲音的聲音參數(shù),—第二幀形成單元(12),用于從第一幀形成第二幀,每一個第二幀包含從單個第一幀的聲音參數(shù)中導(dǎo)出的變換域聲音數(shù)據(jù),每一個第二幀的變換域聲音數(shù)據(jù)表示具有特定時域長度的聲音,并且每一個第二幀具有與高效反變換相對應(yīng)的長度,—反變換單元(13),用于將第二幀反變換為第三幀,每一個第三幀包含與單個第二幀的變換域聲音數(shù)據(jù)相對應(yīng)的時域聲音數(shù)據(jù),并且每一個第三幀具有與第二幀相等的長度,—輸出單元(14),用于實質(zhì)上輸出每一個第三幀的所有時域聲音數(shù)據(jù)(A),以及—幀選擇器單元(16),用于根據(jù)需要丟棄或重復(fù)第一幀以補償所述特定時域長度與第三幀長度之間的任何差值。
2. 根據(jù)權(quán)利要求l所述的設(shè)備,其中,所述第二幀形成單元(12) 包括用于將由聲音參數(shù)所表示的變換域聲音數(shù)據(jù)與具有所述特定時域 長度的時間窗的變換域表示進行巻積的裝置。
3. 根據(jù)權(quán)利要求l所述的設(shè)備,其中,所述第一幀形成單元(12) 包括用于減小或增大特定持續(xù)時間以使得特定持續(xù)時間的長度實質(zhì)上 等于第三幀長度的裝置。
4. 根據(jù)權(quán)利要求3所述的設(shè)備,其中,所述第一幀形成單元(12) 包括用于將特定持續(xù)時間降低至多40。%,優(yōu)選地至多25。Z,更優(yōu)選地 至多15%的裝置。
5. 根據(jù)權(quán)利要求l所述的設(shè)備,其中,反變換是反快速傅立葉變 換(IFFT)。
6. 根據(jù)權(quán)利要求l所述的設(shè)備,還包括幀計數(shù)器(15)。
7. —種聲音合成器(8),包括根據(jù)權(quán)利要求l所述的設(shè)備(1)。
8. —種聲音解碼器(8),包括根據(jù)權(quán)利要求l所述的設(shè)備(1)。
9. 一種用戶設(shè)備(9),包括根據(jù)權(quán)利要求l所述的設(shè)備(1)。
10. —種音頻系統(tǒng),包括根據(jù)權(quán)利要求l所述的設(shè)備(1)。
11. 一種從聲音參數(shù)(A)中產(chǎn)生時域聲音數(shù)據(jù)(B)的方法,所述方法包括以下步驟一形成第一幀,每一個第一幀包含表示聲音的聲音參數(shù), 一從第一幀形成第二幀,每一個第二幀包含從單個第一幀的聲音 參數(shù)中導(dǎo)出的變換域聲音數(shù)據(jù),每一個第二幀的變換域聲音數(shù)據(jù)表示 具有特定時域長度的聲音,并且每一個第二幀具有與高效反變換相對 應(yīng)的長度,一將第二幀反變換為第三幀,每一個第三幀包含與單個第二幀的 變換域聲音數(shù)據(jù)相對應(yīng)的時域聲音數(shù)據(jù),并且每一個第三幀具有與第 二幀相等的長度,一實質(zhì)上輸出每一個第三幀的所有時域聲音數(shù)據(jù)(B),以及 一根據(jù)需要丟棄或重復(fù)第一幀以補償所述特定時域長度和第三 幀長度之間的任何差值。
12. 根據(jù)權(quán)利要求ll所述的方法,其中,形成第一幀的步驟包括 減小特定持續(xù)時間,使得特定持續(xù)時間至多等于第二幀的長度。
13. 根據(jù)權(quán)利要求ll所述的方法,其中,形成第一幀的步驟包括 將特定持續(xù)時間降低至多40%,優(yōu)選地至多25%,更優(yōu)選地至多15%。
14. 根據(jù)權(quán)利要求ll所述的方法,其中,反變換是反快速傅立葉 變換(IFFT)。
15. —種計算機程序產(chǎn)品,用于執(zhí)行根據(jù)權(quán)利要求ll所述的方法。
全文摘要
本發(fā)明提供了一種從聲音參數(shù)(A)中產(chǎn)生時域聲音數(shù)據(jù)(B)的方法,所述方法包括以下步驟形成第一幀,每一個第一幀包含表示聲音的聲音參數(shù);從第一幀形成第二幀,每一個第二幀包含從聲音參數(shù)中導(dǎo)出的變換域聲音數(shù)據(jù),每一個第二幀的變換域聲音數(shù)據(jù)表示具有特定時域長度的聲音,并且每一個第二幀具有與高效反變換相對應(yīng)的長度;將第二幀反變換為第三幀(G1,G2,…),每一個第三幀包含與第二幀的變換域聲音數(shù)據(jù)相對應(yīng)的時域聲音數(shù)據(jù),并且每一個第三幀具有與第二幀相等的長度;實質(zhì)上輸出每一個第三幀的所有時域聲音數(shù)據(jù)(B);以及根據(jù)需要丟棄或重復(fù)第一幀(F3、F7),以補償所述特定時域長度(P)和第三幀長度(Q)之間的任何差值。
文檔編號G10L19/022GK101479788SQ200780024091
公開日2009年7月8日 申請日期2007年6月27日 優(yōu)先權(quán)日2006年6月29日
發(fā)明者安德烈亞斯·格里茨, 馬克·克萊因·米德林克, 馬雷克·斯?jié)砂?申請人:Nxp股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
崇义县| 镇平县| 油尖旺区| 林西县| 高州市| 高雄市| 梁山县| 鄯善县| 神池县| 昌邑市| 泸州市| 凤城市| 清丰县| 开阳县| 新源县| 乐清市| 临夏市| 英山县| 南江县| 宝山区| 格尔木市| 前郭尔| 蕲春县| 达尔| 宝清县| 商河县| 甘孜县| 康马县| 环江| 南澳县| 田阳县| 西乌珠穆沁旗| 石棉县| 乐昌市| 许昌县| 库伦旗| 阿鲁科尔沁旗| 泉州市| 左云县| 周口市| 夏河县|