移動電信網(wǎng)絡中的方法和裝置的制作方法

文檔序號：2829290閱讀：286來源：國知局

專利名稱：移動電信網(wǎng)絡中的方法和裝置的制作方法
技術領域：
本發(fā)明一般涉及適用于聲音信號傳輸?shù)幕跀?shù)據(jù)包的通信系統(tǒng)，特別是涉及用在這樣的通信系統(tǒng)中的緩沖技術。
背景技術：
IP語音技術是在電信和數(shù)據(jù)通信世界之間的融合，其中通過數(shù)據(jù) 包(例如，網(wǎng)際協(xié)議(IP)數(shù)據(jù)包)來攜帶語音信號。已記錄的語音通過語音解碼器逐幀解碼。對各個語音幀產(chǎn)生數(shù)據(jù)幀。一個或多個數(shù)據(jù)幀^皮
打包成RTP數(shù)據(jù)包。RTP數(shù)據(jù)包纟皮進一步打包成UDP數(shù)據(jù)包，并且 UDP數(shù)據(jù)包纟皮打包成IP數(shù)據(jù)包。然后使用IP網(wǎng)絡將IP數(shù)據(jù)包從發(fā) 送客戶機傳輸?shù)浇邮湛蛻魴C。
與基于數(shù)據(jù)包的網(wǎng)絡相關聯(lián)的問題是延遲抖動。延遲抖動意味著即使以規(guī)則間隔來傳輸數(shù)據(jù)包，例如，每20ms—幀，數(shù)據(jù)包仍會不規(guī)則地到達接收器。數(shù)據(jù)包甚至會亂順地到達。亂順序地接收數(shù)據(jù)包最常見的原因是因為數(shù)據(jù)包在不同的路徑上行進，至少對于固定的網(wǎng) 絡來所是這樣。對于無線網(wǎng)絡，另一個原因可能是使用重傳。例如當在上行鏈路上(即，從移動終端到基站)發(fā)送數(shù)據(jù)包N時，可能有不能一皮修正的位錯誤而不得不執(zhí)行重傳。然而，用于重傳的信令可能很慢以至于在重傳數(shù)據(jù)包N之前，隊列中的下一個數(shù)據(jù)包(數(shù)據(jù)包N+l) 坤皮發(fā)送。如果在正確接收重傳的數(shù)據(jù)包N之前正確地接收到數(shù)據(jù)包 N+l，則這可能導致亂序地接收數(shù)據(jù)包。
在VoIP客戶機中，抖動緩沖器部件用于補償在傳輸中的延遲抖動，使得可按恒定的采樣速率來播放語音樣本，例如，每20 ms —幀(本說明書中的"播放"用于表示語音到聲卡的傳輸)。抖動緩沖器部件的豐滿度水平是與數(shù)據(jù)包流中的延遲抖動的量成比例的，目的是將最新損失的量保持在可接受的水平同時保持延遲盡可能地低。以下的例子解釋了保持延遲盡可能地低的重要性抖動緩沖器部件中的長緩沖時間增加了端到端的延遲。這降低了感知的對話質(zhì)量，因為系統(tǒng)將^皮感知為"慢，，。長延遲增加了用戶在同一時間講話的風險并且還可能產(chǎn) 生其他的用戶"慢"(緩慢地思考)這樣的印象。另外，最新的損失是適當?shù)亟邮盏堑竭_太晚而不能對解碼器有用的數(shù)據(jù)包。
抖動緩沖器部件存儲某個時間的數(shù)據(jù)包或幀。對這種情況進行定義的通常方式是抖動緩沖器部件被填充到一定的"水平"，表示為豐滿度水平。這個水平通常以毫秒測量，而不是以幀的數(shù)量來測量，因為幀的大小可能變化。因此，抖動緩沖器部件水平以時間來測量。抖動緩沖器部件的水平可按許多不同的方式來設置。
固定大小固定大小意味著抖動緩沖器豐滿度水平是固定且預定。在DTX階段之后，在語音播放恢復前，抖動緩沖器部件最初以固定時間、如固定數(shù)量的幀(如5幀)來填充。這個初始儲備用于提供保護以避免延遲抖動和最新?lián)p失。
自適應抖動緩沖器部件大小抖動緩沖器的豐滿度水平隨延遲抖動而變化。與固定大小的抖動緩沖器充滿水平的情況類似，初始數(shù)量的幀在DTX階段后語音播放恢復之前被緩沖。然而，在主動語音(非 -DTX)階段中，基于對入局數(shù)據(jù)包的分析，抖動緩沖器部件的豐滿度水平可能變化。有可能收集對若干話音突峰的統(tǒng)計數(shù)據(jù)。然而，通常在每個語音開始時，將抖動緩沖器的豐滿度水平重新設置為"缺省水平，，。
具有改進的交互性的自適應抖動緩沖器部件的大小為了降低感
知到的延遲，有可能以比自適應抖動緩沖器部件的大小的情況更短的時間來初始化抖動緩沖器部件，并且在DTX后一接收到第一個語音數(shù)據(jù)包就開始語音播放。為了達到抖動緩沖器豐滿度水平，使用時間縮放來伸展初始解碼的幀，使得以降低的速度從抖動緩沖器部件提取數(shù)據(jù)包。時間縮放意味著自適應地播放語音幀，即，通常包含20兆秒語音的語音幀可以^皮伸展并生成30兆秒的語音。第一個4矣收的數(shù) 據(jù)包后開始播放的備選方式的是等候一個或兩個額外的數(shù)據(jù)包。
WO-200118790 Al和US2004/0156397 Al描述了時間縮》丈。
DTX是不連續(xù)的傳輸并且意味著當沒有出現(xiàn)語音且輸入信號僅包含(背景)噪聲時，在信道上傳輸特殊類型的信息。編碼器評估背景噪聲并確定描述該噪聲的一組參數(shù)—寂靜描述，SID,參數(shù))。SID參數(shù) 被傳輸給接收端使得可以生成類似的噪聲，舒適的噪聲。SID參數(shù)以比常規(guī)的語音幀更低的頻率傳輸以便節(jié)省功率和傳輸資源。
現(xiàn)在來看圖1，圖1示出了根據(jù)具有改進的交互性的自適應抖動緩沖器部件大小方法的初始抖動緩沖器部件操作的示例。上部的標繪圖示出了抖動緩沖器的豐滿度水平，而下部的標繪圖示出了幀的大小。一旦在大約0.5秒接收到第一個數(shù)據(jù)包，就開始播放。執(zhí)行時間縮放以增加生成幀的大小并由此以比常規(guī)的速度更慢的速度消耗來自抖動緩沖器部件的幀。播放提早開始產(chǎn)生改進的交互性的感覺，這可以增加感知到的對話質(zhì)量。在話音突峰的結(jié)尾，在大約3秒，最后一個語音幀被縮短并且以比常規(guī)的速度更快的速度播放。這提供了進一步改進的交互性。
注意，在非-DTX階段中，目標抖動緩沖器部件水平(60ms)的自適應沒有顯示在圖1中，然而這個功能性將存在于具有改進的交互性的自適應抖動緩沖器部件大小的典型實現(xiàn)中。
然而上述的三個方法存在若干缺點。由于許多數(shù)據(jù)包在播放開始之前總是被緩沖，因此固定的抖動緩沖器部件大小產(chǎn)生相當長的延遲。這降低了感知到的交互性。
自適應抖動緩沖器部件可以調(diào)節(jié)豐滿度水平以便至少在信道正緩慢地變化的情況下引入較小的平均延遲。由于長的初始ll沖時間，交互性差的問題仍然存在，因為自適應的目的是在DTX階段后當流發(fā)動時，在主動語音期間于正在進行的數(shù)據(jù)包流內(nèi)進行適應。應當注
意，如果在每個語音開始時(即，在從DTX轉(zhuǎn)換到語音時)抖動緩沖
器豐滿度水平被重新設置到缺省水平，會出現(xiàn)這個問題。
當使用具有改進的交互性自適應抖動緩沖器部件大小時，因為感知到的初始延遲會更低，所以抖動緩沖器部件初始化會改進交互性。然而一個問題是，在語音突發(fā)開始時抖動緩沖器部件水平非常低，因此存在語音突發(fā)開始的延遲抖動導致最新?lián)p失這樣的風險。與幀丟失類似，由于錯誤隱藏對于丟失的或晚接收的幀而激活，因此最新?lián)p失將降低語音質(zhì)量。
另外，具有改進的交互性的自適應抖動緩沖器部件大小的方法還意味著時間縮放(用以將緩沖器水平上調(diào)到常規(guī)的豐滿度水平)必須非 ?？斓剡M行，因為自適應階段必須短到足以避免^t多個延遲尖峰擊中。延遲尖峰是當延遲從第一個數(shù)椐包直接增加到后續(xù)數(shù)據(jù)包時的情
況。這意味著時間縮放必須非常迅速(aggressive)。迅速的時間縮放增加了時間縮放本身引起失真的風險。失真可以是不同種類的，滴答，樸通，噪聲突發(fā)，但還也可以是"滑稽的響亮聲音"，例如"不自然的談話量，，。
對于大部分使用幀間預測以便能夠在較低比特速率上但以被維持的質(zhì)量對信號進行編碼的現(xiàn)代語音編解碼器(GSM-EFR , GSM-AMR， ITU-T G.729, EVRC，等等)，還存在另外的問題。幀丟失和最新?lián)p失都將對當前幀以及還對后續(xù)幀產(chǎn)生失真，因為由于交互 -幀預測的一段時間的錯誤傳播。錯誤傳播時間取決于聲音和編解碼器，但是可能有5-6幀(100-120ms)那么長。在語音突發(fā)開始時最新?lián)p 失尤其關鍵，因為這些部分通常包含有聲的開始，有聲的開始稍后由自適應密本用來構(gòu)建有聲的波形。因此在語音突發(fā)開始時最新?lián)p失的結(jié)果通常能聽得到并且能夠相當大地降低可識度。
有幾個方法補償如果在構(gòu)建時間中發(fā)生最新?lián)p失則會發(fā)生的錯誤傳播，但是這些方法都有明顯的缺點。一個可能性是降低初始緩沖時間，但達不到在最優(yōu)情況下可能達到的降低量。這當然會意味著不可能在交互性方面受益那么多，正如所預期的那樣。
另一個可能性是降低用在編解碼器中的交互-幀預報的量。然而，這會導致降低的固有語音質(zhì)量，因為沒有將交互-幀相關性開發(fā)到其全部潛力，或要求在更高比特速率上編碼信號，或兩者。
由于具有改進的交互性的自適應抖動緩沖器部件大小的方法的缺點，該方法很難用在真實的系統(tǒng)中。對于包含非常少的抖動以及優(yōu) 選還包含少的數(shù)據(jù)包丟失的信道，該方法可以很好地工作；但是對于包含大量抖動以及還可能產(chǎn)生數(shù)據(jù)包丟失的信道，很難得到在改進的交互性方面的全部增益。對于大部分的實際情況，優(yōu)選地，在播放開始之前具有少量幀的初始化的時間。

發(fā)明內(nèi)容
本發(fā)明的目的是獲得改進交互性和/或語音(收聽)質(zhì)量的控制邏輯部件。
上述目的是通過根據(jù)獨立權(quán)利要求的控制邏輯部件和方法實現(xiàn) 的。優(yōu)選實施例通過附屬權(quán)利要求來定義。
本發(fā)明基于自適應地控制初始緩沖時間和時間縮放量這兩者中的至少一個來改進交互性和/或語音和收聽質(zhì)量的可能性。
這通過引入控制邏輯部件來實現(xiàn)，該控制邏輯部件適合于從抖動緩沖器部件、解碼器、時間縮放部件以及狀態(tài)恢復部件這些部件中的至少一個檢索信息，該控制邏輯部件還適合于基于檢索的信息來自適應地控制初始緩沖時間和時間縮》丈量這兩者中的至少一個。
由于控制邏輯部件的引入，有可能結(jié)合初始緩沖時間來提高狀態(tài) 恢復部件的優(yōu)勢。狀態(tài)恢復使得在初始抖動緩沖器部件的構(gòu)建階段中接收器對最新?lián)p失的靈敏度更小。因此有可能具有非常短的初始化時間，通過具有迅速的時間縮放。這甚至比采用具有改進的交互性的自適應抖動緩沖器部件大小的方法所可能產(chǎn)生的更多地改進交互性。因為通過狀態(tài)恢復來增加對最新?lián)p失的魯棒性，所以還可以允許較長的抖動緩沖器部件構(gòu)建階段。因此可能進行較不迅速的時間縮放。這可能是有利的，因為在合成的語音中，時間縮放可引入失真，這是由于對于不同聲音，時間縮放的性能是不同的。
因為控制邏輯部件能夠以不同的方式對初始緩沖時間、狀態(tài)恢復和時間縮放進行結(jié)合，所以這些變量之間的自適應可以改進性能。自適應可基于當前信道條件或聲音信號這兩者之一或兩者。
時間縮放和狀態(tài)恢復的使用導致增加的復雜度，并且因此導致更
高的中央處理器(CPU)負栽。本發(fā)明的另一優(yōu)勢在于能夠通過控制參數(shù)設置和狀態(tài)恢復的啟用/禁用來控制復雜度。這通過;f全索關于CPU
負載的信息并控制參數(shù)設置或狀態(tài)恢復部件的啟用/禁用的控制邏輯
部件來實現(xiàn)。針對CPU負載的檢索信息可與時間縮放操作和/或狀態(tài) 恢復操作相關聯(lián)。
由于改進的交互性提供了較低的感知延遲，因此改進了收聽質(zhì) 量，以及由于修補了因時間縮放的迅速使用而造成的可能的最新?lián)p 失，因此狀態(tài)回復改進了所述質(zhì)量。
另一個優(yōu)勢是控制邏輯部件考慮到適應不同的才乘作條件，例如在僅具有偶然的延遲尖峰和短延遲的辦公室LAN中的好的信道條件，或在具有大的抖動以及還可能具有數(shù)據(jù)包丟失和長延遲的重負載的蜂窩網(wǎng)絡中的差的信道條件。

本發(fā)明的目的和優(yōu)點將通過閱讀該結(jié)合附圖的描述而變得顯而易見，其中
圖1是示出時間縮放功能性操作的曲線圖。
圖2示出根據(jù)本發(fā)明的在接收器中的控制邏輯部件。
圖3是說明利用狀態(tài)恢復的改進的性能的曲線圖。
圖4-6示出根據(jù)本發(fā)明的改進的抖動緩沖器部件構(gòu)建的功能性。
具體實施例方式
將參考附圖在下文中對本發(fā)明進行更加充分地描述，附圖中示出了本發(fā)明的優(yōu)選實施例。然而，本發(fā)明可以以許多不同的形式來體現(xiàn)
并且不應當解釋為限于本文闡述的實施例；而是，提供這些具體實施例以使本^Hf更加充分和完整，并且將本發(fā)明的范圍充分地傳達給本領域的技術人員。
圖2示出IP語音客戶機的接收器的概況。應當注意到本發(fā)明同樣可以適用于通過ATM而不是IP和其它發(fā)生延遲抖動的系統(tǒng)的語音。接收器包括連接到解碼器的抖動緩沖器部件，并且解碼器還連接到時間縮^:部件。與錯誤隱藏(ECU)部件有關的狀態(tài)恢復部件可連接到抖動緩沖器部件和解碼器。接收器經(jīng)由抖動緩沖器部件接收數(shù)據(jù)包。數(shù) 據(jù)包纟皮解包，因為數(shù)據(jù)包可以包含幾個語音數(shù)據(jù)幀的數(shù)據(jù)，如果是這樣的話，這在數(shù)據(jù)包的有效負載報頭中表明。因此抖動緩沖器部件適合于從數(shù)據(jù)包中提取數(shù)據(jù)幀。由于數(shù)據(jù)幀可以因為延遲抖動而重新排序，抖動緩沖器部件將幀按次序放置?？赡軓亩秳泳彌_器部件獲得關于最新?lián)p失、幀丟失和當前抖動緩沖器部件水平的信息。應當注意到數(shù)據(jù)幀的提取也可以在另一部件中執(zhí)行以及抖動緩沖器部件然后接收數(shù)據(jù)幀。
解碼器將數(shù)據(jù)幀解碼成語音幀，即，解碼成聲音信號。對于在 AMR 12.2 kbps模式的情況，其中數(shù)據(jù)幀是244比特，它們被解碼成 160個16-比特字樣本(語音幀)中。
時間縮放部件具有壓縮或擴大來自解碼器的經(jīng)解碼的語音幀的大小的能力，例如來自語音解碼器的160個樣本可以纟皮擴大到240個樣本或壓縮到80個樣本或,皮擴大/壓縮到其它某個幀大小。時間縮放部件提供關于完成的壓縮或擴大的信息。對不同的聲音信號有差別地執(zhí)行時間縮放。一些聲音信號很容易及時縮放并且然后時間縮放不會引入失真或引入很少失真。這樣的聲音例子是固定的語音片段、非語音片段以及背景噪聲。其它的聲音信號很難及時縮;故并且然后時間縮放可能會引入完全可聽見的失真。難以測量的聲音的例子是瞬變音(從非語音過渡到語音)，爆破音("t", "p"， "b",等等)，語音開始(從背景
噪聲(DTX)過渡到語音)。因此，需要從語音解碼器或時間縮放功能部件檢索信息，以便能夠判定時間縮放應當多迅速。描述聲音性質(zhì)或信道特征，并且需要單獨或結(jié)合檢索以適應初始緩沖時間或時間縮放量的不同的參數(shù)或測量值的其它例子是自適應密本(ACB)增益、固定的密本(FCB)增益、LTP/ACB滯后測量值和特征、LSP系數(shù)特征、頻譜平坦度測量值(spectral flatness measure)、頻譜變4b、能量測量值和變化。
在專利申請WO 01/93516和專利US 6873954中描述了可以用在本發(fā)明中的執(zhí)行時間縮》大的不同方法的例子。應當注意上述的時間縮放部件同樣可以位于發(fā)射機中，并且可以因此在編碼操作前執(zhí)行時間縮放。如果在發(fā)射機中執(zhí)行了時間縮放，則必須在編碼器和解碼器之間交換一些信息。
解碼部件和時間縮放部件還可以集成到一個單元中。在這樣的集成單元中，在綜合型濾波器之前通過激勵來執(zhí)行時間縮放，并且然后將綜合型濾波器應用到比常規(guī)情況更多的或更少的樣本上。
時間縮放部件還連接到樣本緩沖器。時間縮放的幀被轉(zhuǎn)移到樣本緩沖器中。只要樣本緩沖被填充到預定的閾值水平，一個或多個樣本 (其中幀是多個連續(xù)樣本)就從樣本緩沖器發(fā)送到揚聲器的聲卡。如果樣本緩沖器沒有填滿，則還請求進一步的解碼操作。因此，時間縮放的引入是可行的。
根據(jù)本發(fā)明，引入控制邏輯部件來檢索信息，例如關于現(xiàn)有狀態(tài) 恢復功能、信道特征、聲音性質(zhì)、所引發(fā)的失真(在時間縮放之前和之后的失真對比)以及所實現(xiàn)的時間縮放的知識。有關現(xiàn)有狀態(tài)恢復功能的信息可以在控制邏輯部件中預先設定，或者有關狀態(tài)恢復部件的啟用/禁用的信息可以從狀態(tài)恢復部件獲取。信道特征可以從抖動緩沖器部件獲取，聲音性質(zhì)和失真信息可以從解碼器獲取，失真信息和所實現(xiàn)的時間縮放可以從時間縮放部件獲取。因此，要求控制邏輯部件具有關于狀態(tài)恢復功能是否可用的知識，以及控制邏輯部件適合于從抖動緩沖器部件、狀態(tài)恢復部件、解碼器和時間縮放部件這四者中的至少一個檢索信息?？刂七壿嫴考€可以用于控制抖動緩沖器豐滿度水平。
控制邏輯部件然后適合于執(zhí)行以下操作的至少一個基于從抖動緩沖器部件檢索的信息、狀態(tài)恢復功能的可用性的知識來自適應地控制抖動緩沖器部件的初始緩沖時間；以及基于來自時間縮放部件或解
碼器的檢索信息結(jié)合狀態(tài)恢復功能的可用性的知識來自適應地控制時間縮放部件的時間縮放設置?？刂七壿嫴考?yōu)選地適于執(zhí)行按每個幀的該控制。
狀態(tài)恢復部件提供了狀態(tài)恢復功能。狀態(tài)恢復功能修補最新?lián)p失
并改進純錯誤隱藏。在6721327B1號美國專利中描述了該功能。
當幀沒有被接收時，不管是因為幀丟失或是幀沒有被及時接收 C即，接收的太晚)，錯誤隱藏部件都將^皮激活以試圖隱藏該錯誤。然而，通過使用錯誤隱藏，提供了后續(xù)幀的錯誤的啟動狀態(tài)。已接收的但是沒有及時用于合成的幀在后續(xù)幀被解碼和合成前，仍然可用于修正幀邊界狀態(tài)。這根據(jù)狀態(tài)恢復方法通過使用回復到最新?lián)p失之前的解碼器狀態(tài)來執(zhí)行附加的解碼而完成。使用正確接收的參數(shù)來完成解
碼，從而產(chǎn)生修正的解碼器狀態(tài)。來自附加解碼的音頻樣本由于太晚不能被播放而^皮丟棄。錯誤隱藏的幀之后的狀態(tài)由來自附加解碼的狀態(tài)替代或與來自附加解碼的狀態(tài)結(jié)合以產(chǎn)生更適合于后續(xù)幀的改進的狀態(tài)。這導致錯誤傳播時間的降低。
即使發(fā)生多個連續(xù)的最新?lián)p失，狀態(tài)恢復仍然改進性能。然而，由于解碼復雜度約束，在實現(xiàn)中優(yōu)選使用狀態(tài)恢復來只處理單個或非常少的沒有導致解碼器復雜度過載(轉(zhuǎn)而導致CPU過載)的最新?lián)p失。圖3示出了狀態(tài)恢復提供的優(yōu)點。圖3的上部曲線圖公開了未失真的波形，中間的波形由于最新?lián)p失而失真，以及下部的波形由于最新?lián)p 失而失真但是由狀態(tài)恢復進行了修補。應當注意到由于包含時間縮放，波形和定時略有不同。從而可以看到中間曲線圖中的語音在經(jīng)過較長的時段之后被削弱且是失真的，這導致差的語音質(zhì)量。因此，通過使系統(tǒng)對于最新?lián)p失更穩(wěn)健，狀態(tài)恢復改進了性能，但是由于所需的附加解碼而增加了解碼復雜度。
本發(fā)明的方法和裝置改進了在抖動緩沖器部件構(gòu)建階段中所感知的語音質(zhì)量。在圖4至6中描述了改進的抖動緩沖器部件構(gòu)建階段。
在圖4至6中的圖顯示了縱軸上的抖動緩沖器部件水平和橫軸上
的時間。指出了初始緩沖時間，構(gòu)建時間和豐滿度水平。初始緩沖時間是幀被進一步轉(zhuǎn)移到解碼器之前的時間(或在緩沖中接收幀的大小)，以及構(gòu)建時間是達到抖動緩沖器豐滿度水平的所需的時間。在圖
4中，虛線顯示了使用改進的交互性的緩沖方法的抖動緩沖器豐滿度水平。實線顯示了使用根據(jù)本發(fā)明的方法的抖動緩沖器豐滿度水平，其中控制邏輯部件控制初始緩沖時間和影響構(gòu)建時間的時間縮放量。這個控制基于在構(gòu)建時間期間以及狀態(tài)恢復的存在下的最新?lián)p失概率。
因為狀態(tài)恢復使得接收器對于最新?lián)p失更穩(wěn)健，所以狀態(tài)恢復實現(xiàn)了進一步降低初始緩沖時間。根據(jù)本發(fā)明的控制邏輯部件基于狀態(tài) 恢復的存在/不存在，實現(xiàn)降低初始緩沖時間的自適應。由于有可能更進一步降低初始緩沖時間，因此所感知的交互性相比于現(xiàn)有技術中實現(xiàn)的，得到了進一步改進。
時間縮放工作得如何，取決于上文描述的經(jīng)解碼的語音幀的聲音
性質(zhì)。對于一些聲音，時間縮放引入失真而對于另一些聲音，時間縮放工作得非常好。聲音性質(zhì)的分析可以由根據(jù)本發(fā)明的控制邏輯部件
使用來判定時間縮》欠應當多迅速，即，使時間縮力丈適應當前的情況。非常迅速的時間縮放使得有可能具有非常短的抖動緩沖器部件構(gòu)建階段，這降低了被延遲尖峰擊中的風險。圖5說明了迅速的時間縮放。由于狀態(tài)恢復是錯誤隱藏方法并且提供更好的(但并不是最好的)狀態(tài)，這意味著最新?lián)p失仍然可能影響性能，因此短的構(gòu)建時間是有益的。如果信道具有嚴重的延遲抖動特征并且如果狀態(tài)恢復不可用，那么要求使用非常大的時間縮放量來非常迅速地增加在抖動緩沖器部件中的內(nèi)容。如果狀態(tài)恢復是可用的，那么迅速性可根據(jù)對于當前的語音段時間縮放執(zhí)行的好的程度來控制。對于聲音，當時間縮放工作的不是那么好時，控制邏輯部件將觸發(fā)較不迅速的時間縮放，它提供了較長的構(gòu)建時間。描述時間縮放執(zhí)行好壞并且控制邏輯部件可以單獨使用或與其它參數(shù)/測量值結(jié)合使用來控制時間縮放迅速度的不同
的參數(shù)或測量的例子是在時間縮放操作之前和之后的信號之間的頻譜誤差、能量差和間距匹配錯誤(pitch matching error)。這在圖6中做了說明。在這種情況下，控制邏輯部件優(yōu)選地可使狀態(tài)恢復功能能夠降低最新?lián)p失的影響。
由于信道特征和語音信號都隨時間而改變，因此具有適應于圖4-6 中說明的上述抖動緩沖器部件構(gòu)建策略之間的控制邏輯部件是有益的。此外，如果信道迅速地變化，那么具有短的構(gòu)建階段是有益的，因為這降低了被一個或幾個延遲尖峰擊中的風險。這意味著，必須例如從如抖動緩沖器部件收集信道行為的統(tǒng)計數(shù)據(jù)，使得統(tǒng)計數(shù)據(jù)可以由控制邏輯部件使用來適應其中的時間縮放量。
由于執(zhí)行附加的解碼操作，狀態(tài)恢復引入額外的解碼復雜度，這導致更高的CPU負載。額外的解碼操作是需要的，因為解碼器狀態(tài)在最新?lián)p失之前返回到假定的狀態(tài)，并且使用正確接收的但延遲的參數(shù) 來完成解碼。額外的解碼操作的次數(shù)是與遲到幀的遲到程度成比例的。如果該幀晚了一個幀，則需要一個額外的狀態(tài)解碼。為了降低復雜度，沒有必要運行綜合型濾波器和后置濾波器。綜合型濾波器和后置濾波器狀態(tài)因此沒有恢復。這是可能的，因為狀態(tài)恢復的目的僅僅是恢復一些狀態(tài)，這些狀態(tài)在不采用狀態(tài)恢復的條件下原本會花費長時間來修補。這覆蓋了包含在自適應密本(間距增益，間距滯后，固定密本增益，固定密本)的更新中的部分。這意味著所增加的復雜度被粗略地二等分。
需要額外的ECU解碼來避免先前的錯誤隱藏的幀和使用恢復的
解碼器狀態(tài)解碼的新解碼的好的幀之間不連續(xù)性。需要大約5至20ms 的重疊階段以提供在兩個解碼的信號(重疊-和-增加(overlap-and-add)) 之間的平滑轉(zhuǎn)換。因此狀態(tài)恢復增加了解碼復雜度和CPU負載。因此，可能出現(xiàn)總的復雜度可以達到超過CPU能夠處理的程度這樣的情況。因此有必要相應的控制解碼復雜度和CPU負載。根據(jù)本發(fā)明的一個實施例的控制邏輯部件適合于檢索關于CPU負載的信息以便知道由于 CPU負載而何時應當啟用/禁用狀態(tài)恢復部件。
此外，時間縮力丈的使用同樣引入了增加的復雜度以及因此增加的 CPU負載?？刂七壿嫴考梢员O(jiān)控時間縮放部件使用的總復雜度，并且調(diào)節(jié)狀態(tài)恢復部件使用的復雜度。例如，如果發(fā)現(xiàn)時間縮放部件利用許多的資源，則狀態(tài)恢復可以被限制到較少數(shù)量的參數(shù)，或以較低的分辨率來執(zhí)行。作為備選的方案，可以降低合成混合操作中的重疊長度?？刂七壿嫴考踔量梢哉{(diào)節(jié)在常規(guī)的解碼中使用的語音參數(shù)來簡化合成步驟。(例如，強制整數(shù)間隔滯后的使用，或甚至是完全地關閉ACB-激勵提取)。
通過對于不同的接收器部分的復雜度使用進行嚴格控制，接收器部分可以使用它的循環(huán)，其中最需要這些接收器部分來提供在給定的最低語音質(zhì)量以及給定的最大允許復雜度之內(nèi)可能的最高交互性。這個控制對于(例如在^^窩平臺內(nèi)的)嚴格的循環(huán)有限的嵌入系統(tǒng)是有用的。應當注意，復雜度限制可以平等地限制在系統(tǒng)中，例如在々某體網(wǎng) 關(MGW)中。因此，檢索的CPU負載相關的信息還可涉及MGWCPU 負載，或另一個系統(tǒng)CPU負載。
因此，本發(fā)明涉及可連接到抖動緩沖器部件的控制邏輯部件，所述抖動緩沖器部件適合于接收并緩沖入局幀或數(shù)據(jù)包并且從接收的數(shù)據(jù)包提取數(shù)據(jù)幀；涉及連接到抖動緩沖器部件解碼部件，適合于對提取的數(shù)據(jù)幀進行解碼；以及涉及時間縮放部件，適合于自適應地播放解碼的語音幀?？刂七壿嫴考€包括關于狀態(tài)恢復功能是否可用的知識，以及控制邏輯部件適合于從抖動緩沖器部件、時間縮放部件和解碼部件這三者中的至少一個檢索至少一個參數(shù)，以便執(zhí)行以下操作
中的至少一個基于來自抖動緩沖器部件的至少一個參數(shù)和狀態(tài)恢復
功能的可用性的知識來自適應地控制所述抖動緩沖器部件的初始緩沖時間，以及基于來自時間縮放部件或解碼器的至少一個檢索參數(shù)和狀態(tài)恢復功能的可用性的知識來自適應地控制所述時間縮放部件的
時間縮放量?？刂七壿嫴考?yōu)選地在VoIP客戶機的接收器中實現(xiàn)。本發(fā)明還涉及一種方法。所述方法包括以下步驟
1. 獲得關于狀態(tài)恢復功能是否可用的知識。
2. 從抖動緩沖器部件、時間縮放部件和解碼器這三者中的至少一個檢索至少一個參數(shù)，以便執(zhí)行以下操作中的至少一個基于來自抖動緩沖器部件的至少一個參數(shù)和狀態(tài)恢復功能的可用性的知識來自適應地控制所述抖動緩沖器部件的初始緩沖時間；以及基于來自時間縮放部件或解碼器的至少一個檢索的參數(shù)和狀態(tài)恢復功能的可用性的知識來自適應地控制所述時間縮放部件的時間縮放量。
所述方法可以通過計算機程序產(chǎn)品來實現(xiàn)。這樣的計算機程序產(chǎn) 品可以直接加載到計算機中的處理部件，所述計算機程序產(chǎn)品包括用于執(zhí)行該方法的步驟的軟件代碼部件。
所述計算機程序產(chǎn)品可以存儲到計算機可用介質(zhì)上，所述計算機程序產(chǎn)品包括用于引發(fā)計算機中的處理部件控制本方法的步驟的執(zhí) 行的可讀程序。
在附圖和說明書中，公開了本發(fā)明典型的優(yōu)選實施例，雖然使用了具體的術語，但是這些術語僅以一般性和描述性的意義來使用，而不是為了限制的目的，本發(fā)明的范圍在以下的權(quán)利要求中闡明。
權(quán)利要求
1. 一種控制邏輯部件，可連接到適合于接收并緩沖入局幀或數(shù)據(jù)包并且從所接收的數(shù)據(jù)包中提取數(shù)據(jù)幀的抖動緩沖器部件，連接到所述抖動緩沖器部件適合于對所提取的數(shù)據(jù)幀進行解碼的解碼部件，以及適合于自適應地播放經(jīng)解碼的語音幀的時間縮放部件；所述控制邏輯部件其特征在于，它包括關于狀態(tài)恢復功能是否可用的知識，以及所述控制邏輯部件適合于從所述抖動緩沖器部件、時間縮放部件、和解碼部件這三者中的至少一個檢索至少一個參數(shù)，以便執(zhí)行以下操作中的至少一個基于來自所述抖動緩沖器部件的至少一個參數(shù)和所述狀態(tài)恢復功能的可用性的知識而自適應地控制所述抖動緩沖器部件的初始緩沖時間，以及基于來自所述時間縮放部件或解碼器的至少一個所檢索的參數(shù)和所述狀態(tài)恢復功能的可用性的知識而自適應地控制所述時間縮放部件時間縮放量。
2. 如權(quán)利要求1所述的控制邏輯部件，其特征在于，來自所述抖動緩沖器部件的所檢索的參數(shù)涉及信道特征。
3. 如權(quán)利要求1-2中任一項所述的控制邏輯部件，其特征在于，來自所述解碼部件的所檢索的參數(shù)涉及聲音特征。
4. 如權(quán)利要求1-3中任一項所述的控制邏輯部件，其特征在于，來自所述時間縮放部件的所檢索的參數(shù)涉及聲音特征、失真信息和完成的時間縮放這三者中的至少一個。
5. 如前述權(quán)利要求中任一項所述的控制邏輯部件，其特征在于，所述控制邏輯部件適合于檢索與CPU負載有關的另一參數(shù)以及還適合于基于所檢索的參數(shù)來自適應地控制所述抖動緩沖器部件的初始緩沖時間和所述時間縮;改部件的時間縮;故量這兩者中的至少一個。
6. 如前述權(quán)利要求中任一項所述的控制邏輯部件，其特征在于，所述控制邏輯部件適合于檢索與CPU負載有關的信息，并適合于基于所述與CPU負載有關的信息來自適應地控制狀態(tài)恢復部件。
7. 如前述權(quán)利要求中任一項所述的控制邏輯部件，其特征在于，所檢索的與CPU負載有關的信息與時間縮放操作相關聯(lián)。
8. 如權(quán)利要求6或7所述的控制邏輯部件，其特征在于，所檢索的與CPU負載有關的信息與時間恢復操作相關聯(lián)。
9. 如權(quán)利要求6-8中任一項所述的控制邏輯部件，其特征在于，基于所述與CPU負載有關的信息來自適應地啟用/禁用所述狀態(tài)恢復部件。
10. 如權(quán)利要求6-8中任一項所述的控制邏輯部件，其特征在于，所述狀態(tài)恢復基于所述與CPU負載有關的信息而自適應地限制到較少數(shù)量的參數(shù)，或以較低的分辨率執(zhí)行。
11. 如前述權(quán)利要求中任一項所述的控制邏輯部件，其特征在于，所述控制邏輯部件適合于按每個幀來自適應地控制所述抖動緩沖器部件的初始緩沖時間、所述時間縮放部件的時間縮放量和所述狀態(tài)恢復部件這三者中的至少一個。
12. —種用于控制抖動緩沖器部件以及用于控制連接到解碼器的時間縮放部件的方法，所述抖動緩沖器部件適合于接收并緩沖入局幀或數(shù)據(jù)包并且從所接收的數(shù)據(jù)包中提取數(shù)據(jù)幀，其中解碼器連接到所述抖動緩沖器部件，所述解碼器適合于對所提取的數(shù)據(jù)幀進行解碼；所述時間縮放部件適合于自適應地播放經(jīng)解碼的語音幀；所述方法其特征在于包括以下步驟-獲得關于狀態(tài)恢復功能是否可用的知識；-從所述抖動緩沖器部件、時間縮放部件和解碼器這三者中的至少一個檢索至少一個參數(shù)；-執(zhí)行以下操作中至少一個基于來自所述抖動緩沖器部件的至少一個參數(shù)和狀態(tài)恢復功能的可用性的知識而自適應地控制所述抖動緩沖器部件的初始緩沖時間，以及基于來自所述時間縮放部件或解碼器的至少一個所檢索的參數(shù)和狀態(tài)恢復功能的可用性的知識而自適應地控制所述時間縮放部件的時間縮放量。
13. 如權(quán)利要求12所述的方法，其特征在于，來自所述抖動緩沖器部件的所檢索的參數(shù)涉及信道特征。
14. 如權(quán)利要求12-13中任一項所述的方法，其特征在于，來自所述解碼器的所檢索的參數(shù)涉及聲音特征。
15. 如權(quán)利要求12-14中任一項所述的方法，其特征在于，來自所述時間縮放部件的所片全索的參數(shù)涉及聲音特征、失真信息和完成的時間縮;故這三者中的至少一個。
16. 如權(quán)利要求12-15中任一項所述的方法，其特征在于，所述方法還包括以下步驟-檢索與CPU負載有關的另一參數(shù)；以及-基于所檢索的參數(shù)來自適應地控制所述抖動緩沖器部件的初始緩沖時間和所述時間縮》丈部件的時間縮;改量這兩者中的至少一個。
17. 如權(quán)利要求12-16中任一項所述的方法，其特征在于，所述方法還包括以下步驟-檢索與CPU負載有關的信息；以及-基于所述與CPU負載有關的信息來自適應地控制所述狀態(tài)恢復部件。
18. 如前述權(quán)利要求中任一項所述的方法，其特征在于，所檢索的與CPU負載有關的信息與時間縮放操作相關聯(lián)。
19. 如權(quán)利要求17或18所述的方法，其特征在于，所檢索的與 CPU負載有關的信息與時間恢復操作相關聯(lián)。
20. 如權(quán)利要求17-19中任一項所述的方法，其特征在于，基于所述與CPU負載有關的信息來自適應地啟用/禁用所述狀態(tài)恢復部件。
21. 如權(quán)利要求17-19中任一項所述的方法，其特征在于，所述狀態(tài)恢復基于所述與CPU負載有關的信息而自適應地限制到較少數(shù) 量的參數(shù)，或以較低的分辨率執(zhí)行。
22. 如前面權(quán)利要求12-21中任一項所述的方法，其特征在于，包括以下步驟-按每個幀來自適應地控制所述抖動緩沖器部件的初始緩沖時間、所述時間縮放部件的時間縮放量和所述狀態(tài)恢復部件這三者中的至少一個。
23. —種可直接加載到基于數(shù)據(jù)包的通信系統(tǒng)的接收器內(nèi)的計算機的內(nèi)部存儲器中的計算機程序產(chǎn)品，包括用于執(zhí)行如權(quán)利要求12-22 中任一項所述的步驟的軟件代碼部分。
24. —種存儲在計算機可用介質(zhì)上的計算機程序產(chǎn)品，包括用于使在基于數(shù)據(jù)包的通信系統(tǒng)的接收器內(nèi)的計算機來控制如權(quán)利要求 12-22中任一項所述的步驟的執(zhí)行的可讀程序。
全文摘要
本發(fā)明涉及對于接收器優(yōu)選的控制邏輯部件。所述接收器包括抖動緩沖器部件，適合于接收并緩沖入局幀或數(shù)據(jù)包并且從所接收的數(shù)據(jù)包中提取數(shù)據(jù)幀；連接到抖動緩沖器部件的解碼器，適合于對所提取的數(shù)據(jù)幀進行解碼；連接到解碼器的時間縮放部件，適合于自適應地播放經(jīng)解碼的語音幀。根據(jù)本發(fā)明的控制邏輯部件包括關于狀態(tài)恢復功能是否可用的知識，以及所述控制邏輯部件適合于從抖動緩沖器部件、時間縮放部件和解碼器這三者中的至少一個檢索至少一個參數(shù)，來執(zhí)行以下操作中的至少一個基于來自抖動緩沖器部件的至少一個參數(shù)和狀態(tài)恢復功能的可用性的知識而自適應地控制所述抖動緩沖器部件的初始緩沖時間，以及基于來自時間縮放部件或解碼器的至少一個所檢索的參數(shù)和狀態(tài)恢復功能的可用性的知識而自適應地控制所述時間縮放部件時間縮放量。
文檔編號G10L19/00GK101305417SQ200580051998
公開日2008年11月12日申請日期2005年11月7日優(yōu)先權(quán)日2005年11月7日
發(fā)明者I·約翰遜, T·弗蘭基拉申請人:艾利森電話股份有限公司

完整全部詳細技術資料下載