欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于對有效幀進行寬帶編碼和解碼的系統(tǒng)、方法和設備的制作方法

文檔序號:2835855閱讀:164來源:國知局
專利名稱:用于對有效幀進行寬帶編碼和解碼的系統(tǒng)、方法和設備的制作方法
技術領域
本發(fā)明涉及對語音信號的處理。
背景技術
通過數(shù)字技術進行的話音傳輸已變得較為普遍,尤其是在長距離電話、例如IP話音(還稱為VoIP,其中IP表示因特網協(xié)議)等包交換電話和例如蜂窩式電話等數(shù)字無線電電話中。此迅速擴散已使得產生了對減少用以經由傳輸信道傳送話音通信的信息量且同時維持重構語音的感知質量的關注。經配置以通過提取與人類語音產生模型相關的參數(shù)而壓縮語音的裝置被稱為“語音編碼裝置”。語音編碼裝置(還稱為語音編解碼器或聲碼器)通常包括語音編碼器和語音解碼器。語音編碼器通常將傳入的語音信號(表示音頻信息的數(shù)字信號)劃分為稱為“幀” 的時間片段,分析每一幀以提取某些相關參數(shù)且將所述參數(shù)量化為經編碼幀。經由傳輸信道(即,有線或無線網絡連接)將經編碼幀傳輸?shù)桨ㄕZ音解碼器的接收器。語音解碼器接收并處理經編碼幀,對其進行解量化以產生參數(shù),且使用經解量化的參數(shù)來重建語音幀。語音編碼器通常經配置以區(qū)分語音信號的含有語音的幀(“有效幀”)與語音信號的僅含有靜默或背景噪聲的幀(“無效幀”)。語音編碼器可經配置以使用不同編碼模式和 /或速率來對有效和無效幀進行編碼。舉例來說,語音編碼器通常經配置以使用比對有效幀進行編碼所使用的位少的位來對無效幀進行編碼。語音編碼裝置可對于無效幀使用較低位速率且/或對于不同類型的有效幀使用不同位速率,以支持以較低平均位速率進行語音信號傳送,其中存在極少或毫無質量的感知損失。傳統(tǒng)上已在帶寬方面將經由公眾交換電話網絡(PSTN)的話音通信限于300到 3400千赫(kHz)的頻率范圍。較新近的用于話音通信的網絡(例如使用蜂窩式電話和/或 VoIP的網絡)可能并無相同的帶寬限制,且可能需要使用此類網絡的設備具有傳輸和接收包括寬帶頻率范圍的話音通信的能力。舉例來說,可能需要此類設備支持向下延伸到50Hz 且/或向上延伸到7或8kHz的音頻頻率范圍。還可能需要此類設備支持其它應用,例如高質量音頻或音頻/視頻會議、對例如音樂和/或電視等多媒體服務的傳遞等等,所述應用可能具有在傳統(tǒng)PSTN界限以外的范圍內的音頻語音內容。語音編碼裝置所支持的范圍向較高頻率中的延伸可改進清晰度。舉例來說,語音信號中區(qū)別例如“S”和“f”等摩擦音的信息主要處于較高頻率中。高帶延伸還可改進經解碼語音信號的其它質量,例如真實感。舉例來說,甚至有聲元音也可能具有遠高于PSTN頻率范圍的頻譜能量。

發(fā)明內容
根據(jù)一種配置的處理語音信號的方法包括基于所述語音信號的第一有效幀而產生第一語音包,所述第一語音包包括對語音信號的包括第一有效幀的部分在(A)第一頻帶和(B)在第一頻帶上方延伸的第二頻帶上的頻譜包絡的描述。此方法還包括基于所述語音信號的第二有效幀而產生第二語音包,所述第二語音包包括對語音信號的包括第二有效幀的部分在第一頻帶上的頻譜包絡的描述。在此方法中,第二語音包不包括對在第二頻帶上的頻譜包絡的描述。根據(jù)另一配置的語音編碼器包括包編碼器和幀格式化器。所述包編碼器經配置以基于語音信號的第一有效幀且響應于速率控制信號的第一狀態(tài)而產生第一語音包,所述第一語音包包括對在(1)第一頻帶和( 在第一頻帶上方延伸的第二頻帶上的頻譜包絡的描述。所述包編碼器還經配置以基于語音信號的第二有效幀且響應于速率控制信號的不同于第一狀態(tài)的第二狀態(tài)而產生第二語音包,所述第二語音包包括對在第一頻帶上的頻譜包絡的描述。所述幀格式化器經布置以接收第一和第二語音包。幀格式化器經配置以響應于模糊化控制信號的第一狀態(tài)而產生第一經編碼幀,所述第一經編碼幀含有第一語音包。幀格式化器還經配置以響應于模糊化控制信號的不同于第一狀態(tài)的第二狀態(tài)而產生第二經編碼幀,所述第二經編碼幀含有第二語音包和與語音信號分離的信息信號的突發(fā)。在此編碼器中,第一和第二經編碼幀具有相同長度,第一語音包占據(jù)所述第一經編碼幀的至少百分之八十,第二語音包占據(jù)第二經編碼幀的不超過一半,且第二有效幀在語音信號中緊隨第一有效幀之后出現(xiàn)。根據(jù)另一配置的處理語音包的方法包括基于來自一來自經編碼語音信號的第一語音包的信息而獲得對語音信號的第一幀在(A)第一頻帶和(B)不同于第一頻帶的第二頻帶上的頻譜包絡的描述。此方法還包括基于來自一來自經編碼語音信號的第二語音包的信息而獲得對語音信號的第二幀在第一頻帶上的頻譜包絡的描述。此方法還包括基于來自第一語音包的信息而獲得對第二幀在第二頻帶上的頻譜包絡的描述。此方法還包括基于來自第二語音包的信息而獲得與第二幀的針對第一頻帶的音調分量相關的信息。根據(jù)另一配置的語音解碼器經配置以基于經編碼的語音信號而計算經解碼的語音信號。此語音解碼器包括控制邏輯和包解碼器。所述控制邏輯經配置以產生包含值序列的控制信號,所述序列基于來自經編碼語音信號的語音包的編碼索引,所述序列中的每一值對應于經解碼語音信號的幀周期。所述包解碼器經配置以響應于所述控制信號的具有第一狀態(tài)的值而基于對經解碼幀在(1)第一頻帶和( 在第一頻帶上方延伸的第二頻帶上的頻譜包絡的描述來計算對應的經解碼幀,所述描述基于來自一來自經編碼語音信號的語音包的信息。包解碼器還經配置以響應于所述控制信號的具有不同于所述第一狀態(tài)的第二狀態(tài)的值而基于以下描述來計算對應的經解碼幀(1)對經解碼幀在第一頻帶上的頻譜包絡的描述,所述描述基于來自一來自所述經編碼語音信號的語音包的信息,以及( 對經解碼幀在第二頻帶上的頻譜包絡的描述,所述描述基于來自在所述經編碼的語音信號中出現(xiàn)于所述語音包之前的至少一個語音包的信息。


圖1展示與PSTN介接的無線電話系統(tǒng)的圖。圖2展示與因特網介接的無線電話系統(tǒng)的圖。圖3展示兩個語音編碼器/解碼器對的框圖。圖4展示語音編碼器或語音編碼方法可用來選擇位速率的決策樹的一個實例。圖5A展示可用以計算增益形狀值的梯形開窗函數(shù)的曲線圖。圖5B展示將圖6A的開窗函數(shù)應用于一幀的五個子幀中的每一者。圖6A展示分帶編碼器可用來對寬帶語音內容進行編碼的非重疊頻帶方案的一個實例。圖6B展示分帶編碼器可用來對寬帶語音內容進行編碼的重疊頻帶方案的一個實例。圖7A到7C展示192位經編碼幀的三種不同格式。圖8A是根據(jù)通用配置的方法MlOO的流程圖。圖8B是方法MlOO的實施方案MllO的流程圖。圖9說明使用方法MlOO的實施方案而對語音信號的兩個連續(xù)有效幀進行編碼的操作。圖10說明方法MlOO的任務TllO和T120的操作。圖11說明方法MllO的任務T112和任務T120的實施方案的操作。圖12是展示經配置以執(zhí)行方法MlOO的實施方案的語音編碼器可使用的一組四個不同編碼方案的表。圖13是描述171位寬帶FCELP包的位分配的表。圖14是描述80位窄帶HCELP包的位分配的表。圖15A展示根據(jù)通用配置的語音編碼器100的框圖。圖15B展示包編碼器120的實施方案122的框圖。圖15C展示頻譜包絡描述計算器140的實施方案142的框圖。圖16A展示包編碼器122的實施方案124的框圖。圖16B展示時間信息描述計算器152的實施方案154的框圖。圖17A展示語音編碼器100的實施方案102的框圖,所述實施方案102經配置以根據(jù)分帶編碼方案而對寬帶語音信號進行編碼。圖17B展示包編碼器126的實施方案128的框圖。圖18A展示包編碼器126的實施方案129的框圖。圖18B展示時間描述計算器156的實施方案158的框圖。圖19A展示根據(jù)通用配置的方法M200的流程圖。圖19B展示方法M200的實施方案M220的流程圖。
圖19C展示方法M200的實施方案M230的流程圖。圖20展示方法M200的應用。圖21說明方法MlOO與M200之間的關系。圖22展示方法M200的實施方案M210的應用。圖23展示方法M220的應用。圖M展示方法M230的應用。圖25展示方法M200的實施方案M240的應用。圖26A展示根據(jù)通用配置的語音解碼器200的框圖。圖26B展示語音解碼器200的實施方案202的框圖。圖26C展示語音解碼器200的實施方案204的框圖。圖27A展示第一模塊230的實施方案232的框圖。圖27B展示頻譜包絡描述解碼器270的實施方案272的框圖。圖28A展示第二模塊MO的實施方案M2的框圖。圖28B展示第二模塊MO的實施方案M4的框圖。圖28C展示第二模塊M2的實施方案M6的框圖。在所述圖式和隨附描述中,相同參考標記指代相同或類似的元件或信號。
具體實施例方式下文所描述的配置駐存于經配置以采用CDMA空中接口的無線電話通信系統(tǒng)中。 然而,所屬領域的技術人員將了解,具有如本文所描述的特征的方法和設備可駐存于采用所屬領域的技術人員已知的廣泛技術的各種通信系統(tǒng)中的任一者中,例如在有線和/或無線(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)傳輸信道上采用IP話音(VoIP)的系統(tǒng)。明確地預期且由此揭示,此類配置可適用于包交換的網絡(例如,經布置以根據(jù)例如VoIP等協(xié)議而載運話音傳輸?shù)挠芯€和/或無線網絡)和/或電路交換的網絡中。本文所描述的配置可應用于寬帶語音編碼系統(tǒng)以支持對有效幀的模糊化。舉例來說,此類配置可應用以支持將模糊和突發(fā)技術用于在寬帶語音編碼系統(tǒng)中傳送信令和/或次要業(yè)務信息。除非明確地受上下文限制,否則術語“計算”在本文中用以指示其通常意義中的任一者,例如運算、評估、產生和/或從一組值中選擇。除非明確地受上下文限制,否則術語 “獲得”用以指示其通常意義中的任一者,例如計算、導出、接收(例如,從外部裝置)和/或檢索(例如,從存儲元件陣列)。在當前描述和權利要求書中使用術語“包含”的情況下,其并不排除其它元件或操作。術語“A基于B”用以指示其通常意義中的任一者,其中包括以下情況(i) “Α至少基于B”和(ii) “A等于B”(如果在特定上下文中適合的話)。除非另有指示,否則對具有特定特征的語音編碼器的任何揭示內容還明確地意欲揭示具有類似特征的語音編碼方法(反之亦然),且對根據(jù)特定配置的語音編碼器的任何揭示內容還明確地意欲揭示根據(jù)類似配置的語音編碼方法(反之亦然)。除非另有指示,否則對具有特定特征的語音解碼器的任何揭示內容還明確地意欲揭示具有類似特征的語音解碼方法(反之亦然),且對根據(jù)特定配置的語音解碼器的任何揭示內容還明確地意欲揭示根據(jù)類似配置的語音解碼方法(反之亦然)。
如圖1中所說明,CDMA無線電話系統(tǒng)通常包括多個移動訂戶單元10,其經配置以與無線電接入網絡以無線方式進行通信,所述無線電接入網絡包括多個基站12和一個或一個以上基站控制器(BSC) 14。此系統(tǒng)通常還包括耦合到BSC 14的移動交換中心(MSC) 16, 其經配置以使無線電接入網絡與常規(guī)的公眾交換電話網絡(PSTN) 18介接(可能經由媒體網關)。BSC 14經由回程線路而耦合到基站12。所述回程線路可經配置以支持包括(例如)E1/T1、ATM、IP、PPP、幀中繼、HDSL、ADSL或xDSL的若干已知接口中的任一者。每一基站12有利地包括至少一個扇區(qū)(未圖示),每一扇區(qū)包含全向天線或指向徑向遠離基站12的特定方向的天線?;蛘撸恳簧葏^(qū)可包含兩個天線以進行分集接收。每一基站12可有利地經設計以支持多個頻率指派。扇區(qū)與頻率指派的交集可稱為CDMA信道?;?2還可稱為基站收發(fā)器子系統(tǒng)(BTS) 12?;蛘撸瑯I(yè)界可使用“基站”來統(tǒng)稱BSC 14和一個或一個以上BTS 12。BTS 12還可表示為“小區(qū)站點” 12?;蛘?,給定BTS 12的各個扇區(qū)可稱為小區(qū)站點。移動訂戶單元10通常是蜂窩式或PCS電話10。此系統(tǒng)可經配置以根據(jù)IS-95標準的一個或一個以上版本(例如,如由弗吉尼亞州阿靈頓電信工業(yè)聯(lián)盟 (Telecommunications Industry Alliance, Arlington, VA)發(fā)布的 IS-95、IS-95A、IS-95B、 cdma2000)而使用。在蜂窩式電話系統(tǒng)的典型操作期間,基站12從數(shù)組移動訂戶單元10接收數(shù)組反向鏈路信號。移動訂戶單元10正進行電話呼叫或其它通信。由給定基站12接收到的每一反向鏈路信號在所述基站12中進行處理。將所得數(shù)據(jù)轉發(fā)到BSC 14。BSC 14提供呼叫資源分配和移動性管理功能性,包括對基站12之間的軟越區(qū)切換的控制。BSC 14還將所接收的數(shù)據(jù)路由到MSC 16,所述MSC 16提供額外的路由服務以用于與PSTN 18介接。類似地, PSTN 18與MSC 16介接,且MSC 16與BSC 14介接,BSC 14又控制基站12以將數(shù)組前向鏈路信號傳輸?shù)綌?shù)組移動訂戶單元10。如圖1所示的蜂窩式電話系統(tǒng)的元件還可經配置以支持包交換數(shù)據(jù)通信。如圖2 所示,通常使用耦合到連接到包數(shù)據(jù)網絡的網關路由器的包數(shù)據(jù)服務節(jié)點(PDSN)而在移動訂戶單元10與外部包數(shù)據(jù)網絡(例如,例如因特網等公眾網絡)之間路由包數(shù)據(jù)業(yè)務。 PDSN又將數(shù)據(jù)路由到一個或一個以上包控制功能(PCF),所述PCF每一者服務一個或一個以上BSC且充當包數(shù)據(jù)網絡與無線電接入網絡之間的鏈路。此系統(tǒng)可經配置以在永遠不進入PSTN的情況下在不同無線電接入網絡上的移動訂戶單元之間將電話呼叫或其它通信作為包數(shù)據(jù)業(yè)務來進行載運(例如,經由例如VoIP等一個或一個以上協(xié)議)。圖3A展示第一語音編碼器30a,其經布置以接收經數(shù)字化的語音信號S1(Ii)且對所述信號進行編碼以在通信信道50上(例如,經由傳輸媒體)傳輸?shù)降谝徽Z音解碼器 40a。第一語音解碼器40a經布置以對經編碼的語音信號進行解碼且合成輸出語音信號s纟
(η) 0圖:3B展示第二語音編碼器30b,其經布置以對經數(shù)字化的語音信號進行編碼以在通信信道60上(例如,經由相同或不同的傳輸媒體)在相反方向上傳輸?shù)降诙Z音解碼器40b。語音解碼器40b經布置以對此經編碼的語音信號進行解碼,從而產生合成的輸出語音信號s ^2 (η)。第一語音編碼器30a和第二語音解碼器40b (類似地,第二語音編碼器 30b和第一語音解碼器40a)可一起在任何用于傳輸和接收語音信號的通信裝置中使用,所述通信裝置包括(例如)上文參看圖1和2而描述的訂戶單元、BTS或BSC。語音信號S1 (η)和S2 (η)表示已根據(jù)此項技術中已知的各種方法(例如脈沖代碼調制(PCM)、壓縮擴展μ法則或A法則)中的任一者而經數(shù)字化和量化的模擬信號。如此項技術中已知的,語音編碼器接收語音信號的數(shù)字樣本作為輸入數(shù)據(jù)的幀,其中每一幀包含預定數(shù)目的樣本。語音信號的幀通常足夠短以使得可預期所述信號的頻譜包絡在整個幀上保持相對靜止。一個典型幀長度為二十毫秒,但可使用被視為適合特定應用的任何幀長度。 二十毫秒的幀長度對于7千赫(kHz)的取樣速率來說對應于140個樣本,對于8kHz的取樣速率來說對應于160個樣本,且對于16kHz的取樣速率來說對應于320個樣本,但可使用被視為適合特定應用的任何取樣速率。可用于語音編碼的取樣速率的另一實例為12. 8kHz,且其它實例包括在12. 8kHz到38. 4kHz的范圍內的其它速率。通常,語音信號的所有幀均具有相同長度,且在本文描述的特定實例中假設一致的幀長度。然而,還明確地預期且由此揭示,可使用不一致的幀長度。在一些應用中,幀為非重疊的,而在其它應用中,使用重疊幀方案。舉例來說,語音編碼裝置通常在編碼器處使用重疊幀方案且在解碼器處使用非重疊幀方案。編碼器也有可能對不同任務使用不同幀方案。舉例來說,語音編碼器或語音編碼方法可使用一個重疊幀方案來編碼對幀的頻譜包絡的描述且使用不同的重疊幀方案來編碼對幀的時間信息的描述。可能需要將語音編碼器配置成使用不同位速率來對有效幀和無效幀進行編碼。還可能需要語音編碼器使用不同位速率來對不同類型的有效幀進行編碼。在此情況下,可選擇性地對含有相對較少的語音信息的幀采用較低位速率。通常用以對有效幀進行編碼的位速率的實例包括每幀171個位、每幀80個位和每幀40個位;且通常用以對無效幀進行編碼的位速率的實例包括每幀16個位。在蜂窩式電話系統(tǒng)(尤其是順從如由弗吉尼亞州阿靈頓電信工業(yè)協(xié)會(Telecommunications Industry Association, Arlington, VA)公布的暫用標準(IS)-95或類似工業(yè)標準的系統(tǒng))的情形中,這四個位速率還分別稱為“全速率”、“半速率”、“四分之一速率”和“八分之一速率”??赡苄枰獙⒄Z音信號的有效幀中的每一者分類為若干不同類型中的一者。這些不同類型可包括有聲語音(例如,表示元音聲的語音)的幀、過渡幀(例如,表示詞的開始或結束的幀)和無聲語音(例如,表示摩擦聲的語音)的幀??赡苄枰獙⒄Z音編碼器配置成使用不同編碼模式來對不同類型的語音幀進行編碼。舉例來說,有聲語音的幀傾向于具有長期(即,持續(xù)一個以上幀周期)且與音調相關的周期性結構,且通過使用編碼對此長期頻譜特征的描述的編碼模式來對有聲幀(或有聲幀序列)進行編碼通常較為有效。此類編碼模式的實例包括代碼激勵線性預測(CELP)和原型音調周期(PPP)。另一方面,無聲幀和無效幀通常沒有任何顯著的長期頻譜特征,且語音編碼器可經配置以通過使用不嘗試描述此特征的編碼模式來對這些幀進行編碼。噪聲激勵線性預測(NELP)是此編碼模式的一個實例。語音編碼器或語音編碼方法可經配置以在位速率與編碼模式(還稱為“編碼方案”)的不同組合中進行選擇。舉例來說,語音編碼器可經配置以對含有有聲語音的幀和過渡幀使用全速率CELP方案,對含有無聲語音的幀使用半速率NELP方案,且對無效幀使用八分之一速率NELP方案?;蛘?,此語音編碼器可經配置以對含有有聲語音的幀使用全速率 PPP方案。語音編碼器還可經配置以支持用于一個或一個以上編碼方案的多個編碼速率,例如全速率與半速率CELP方案和/或全速率與四分之一速率PPP方案。舉例來說,在包括穩(wěn)定有聲語音的時期的系列中的幀傾向于在很大程度上冗余,使得可以小于全速率的速率對其中至少一些進行編碼而不會有知覺質量的顯著損失。多方案語音編碼裝置(包括支持多個編碼速率和/或編碼模式的語音編碼裝置) 通常提供以較低位速率進行的有效語音編碼。熟練技工將認識到,增加編碼方案的數(shù)目將允許在選擇編碼方案時具有較大靈活性,這可導致較低的平均位速率。然而,編碼方案數(shù)目的增加將對應地增加整個系統(tǒng)中的復雜性。任何給定系統(tǒng)中所使用的可用方案的特定組合將由可用系統(tǒng)資源和具體信號環(huán)境指定。多方案編碼技術的實例在(例如)題為“可變速率語音編碼(VARIABLE RATE SPEECH CODING) ”的第6,691,084號美國專利和題為“用于可變速率編碼裝置的任意平均數(shù)據(jù)速率(ARBITRARY AVERAGE DATA RATES FOR VARIABLE RATE CODERS)”的第11/625,788號美國專利申請案(曼朱納特(Manjunath)等人)中描述。多方案語音編碼器通常包括檢查輸入語音幀且作出關于對所述幀應用哪個編碼方案的決策的開路決策模塊。此模塊通常經配置以將幀分類為有效或無效,且還可經配置以將有效幀分類為兩種或兩種以上不同類型(例如有聲、無聲或過渡)中的一者。幀分類可基于當前幀和/或一個或一個以上先前幀的一個或一個以上特征,例如總幀能量、兩個或兩個以上不同頻帶中的每一者中的幀能量、信噪比(SNR)、周期性和越零率。此分類可包括將此因數(shù)的值或量值與閾值進行比較和/或將此因數(shù)的改變的量值與閾值進行比較。圖4展示開路決策模塊可用來根據(jù)特定幀所含有的語音類型而選擇對所述幀進行編碼的位速率的決策樹的一個實例。在其它情況下,對特定幀所選擇的位速率還可取決于例如所需平均位速率、位速率在一系列幀上的所需圖案(其可用以支持所需的平均位速率)和/或對先前幀所選擇的位速率等準則。多方案語音編碼器還可執(zhí)行閉路編碼決策,其中在通過使用開路選定的位速率進行完全或部分編碼之后獲得對編碼性能的一個或一個以上測量??稍陂]路測試中考慮的性能測量包括(例如)SNR、例如PPP語音編碼裝置等編碼方案中的SNR預測、預測誤差量化SNR、相位量化SNR、振幅量化SNR、知覺SNR和作為對穩(wěn)定性的測量的在當前與過去幀之間的標準化交叉相關。如果性能測量低于閾值,則可將編碼速率和/或模式改變?yōu)轭A期會給出較佳質量的一者??捎靡跃S持可變速率語音編碼裝置的質量的閉路分類方案的實例在 1998年11月13日申請的題為“閉路可變速率多模式預測性語音編碼裝置(CLOSED-LOOP VARIABLE-RATE MULTIMODE PREDICTIVE SPEECH CODER) ”的第09/191,643號美國申請案和第6,330,532號美國專利中描述。語音編碼器通常經配置以將語音信號的幀編碼為語音包,其中語音包的大小和格式對應于對所述幀所選擇的特定編碼方案。語音包通常含有語音參數(shù)集合,可從所述參數(shù)重構語音信號的對應幀。此語音參數(shù)集合通常包括頻譜信息,例如對所述幀內的在一頻譜上的能量分布的描述。此能量分布還稱為幀的“頻率包絡”或“頻譜包絡”。對幀的頻譜包絡的描述可依據(jù)用以對對應幀進行編碼的特定編碼方案而具有不同形式和/或長度。語音編碼器通常經配置以將對幀的頻譜包絡的描述計算為值的有序序列。在一些情況下,語音編碼器經配置以計算有序序列,使得每一值指示信號在對應頻率處或在對應頻譜區(qū)域上的振幅或量值。此描述的一個實例是傅立葉變換系數(shù)的有序序列。在其它情況下,語音編碼器經配置以將對頻譜包絡的描述計算為編碼模型的參數(shù)值的有序序列(例如線性預測編碼(LPC)分析的系數(shù)值的集合)。通常將LPC系數(shù)值的有序序列布置成一個或一個以上向量,且語音編碼器可經實施以將這些值計算為濾波系數(shù)或反射系數(shù)。所述集合中的系數(shù)值的數(shù)目還稱為LPC分析的“階”,且如由通信裝置(例如蜂窩式電話)的語音編碼器執(zhí)行的LPC分析的典型階的實例包括4、6、8、10、12、16、20、24、觀和32。語音編碼器通常經配置為以量化形式在傳輸信道上傳輸對頻譜包絡的描述(例如,作為進入對應查找表或“代碼簿”中的一個或一個以上索引)。因此,可能需要語音編碼器計算采用可進行有效量化的形式的LPC系數(shù)值的集合,例如線譜對(LSP)、線譜頻率 (LSF)、導抗譜對(ISP)、導抗譜頻率(ISF)、倒譜系數(shù)或對數(shù)面積比的值的集合。語音編碼器還可經配置以在轉換和/或量化之前對值的有序序列執(zhí)行其它操作,例如知覺加權。在一些情況下,對幀的頻譜包絡的描述還包括對幀的時間信息的描述(例如,采用傅立葉變換系數(shù)的有序序列的形式)。在其它情況下,語音包的語音參數(shù)集合還可包括對幀的時間信息的描述。對時間信息的描述的形式可取決于用以對幀進行編碼的特定編碼模式。對于一些編碼模式來說(例如,對于CELP編碼模式來說),對時間信息的描述可包括對待由語音解碼器用來激勵LPC模型(例如,如由對頻譜包絡的描述所界定)的激勵信號的描述。對激勵信號的描述通常以量化形式出現(xiàn)于語音包中(例如,作為進入對應代碼簿中的一個或一個以上索引)。對時間信息的描述還可包括與激勵信號的至少一個音調分量相關的信息。對于PPP編碼模式來說,舉例來說,經編碼的時間信息可包括對待由語音解碼器用來再現(xiàn)激勵信號的音調分量的原型的描述。對與音調分量相關的信息的描述通常以量化形式出現(xiàn)于語音包中(例如,作為進入對應代碼簿中的一個或一個以上索引)。對于其它編碼模式來說(例如,對于NELP編碼模式來說),對時間信息的描述可包括對幀的時間包絡(還稱為幀的“能量包絡”或“增益包絡”)的描述。對時間包絡的描述可包括基于幀的平均能量的值。此值通常經呈現(xiàn)作為待在解碼期間應用于所述幀的增益值,且還稱為“增益框架”。在一些情況下,增益框架是基于以下兩者之間的比率的標準化因數(shù)㈧原始幀的能量Eii^ ;以及⑶從語音包的其它參數(shù)(例如,包括對頻譜包絡的描述)合成的幀的能量E^atl舉例來說,增益框架可表達為Eg^/E^^K表達為Ei^/E^gW 平方根。增益框架和時間包絡的其它方面在(例如)2006年12月14日公開的題為“用于增益因數(shù)衰減的系統(tǒng)、方法和設備(SYSTEMS,METHODS, AND APPARATUS FOR GAIN FACTOR ATTENUATION)”的第2006/(^82262號美國專利申請公開案(沃斯(Vos)等人)中更詳細地描述。替代地或額外地,對時間包絡的描述可包括所述幀的許多子幀中的每一者的相對能量值。此類值通常經呈現(xiàn)作為待在解碼期間應用于相應子幀的增益值,且統(tǒng)稱為“增益輪廓”或“增益形狀”。在一些情況下,增益形狀值是每一者基于以下兩者之間的比率的標準化因數(shù)㈧原始子幀i的能量Eg.i ;以及⑶從經編碼幀的其它參數(shù)(例如,包括對頻譜包絡的描述)合成的幀的對應子幀i的能量E^a.it)在此情況下,可使用能量Egti來使能量E原始.i標準化。舉例來說,增益形狀值可表達為E原始.i/E合成.i或表達為E原始.i/E合成.i 的平方根。對時間包絡的描述的一個實例包括增益框架和增益形狀,其中增益形狀包括20 毫秒幀的五個4毫秒子幀中的每一者的值??稍诰€性標度或對數(shù)(例如,分貝)標度上表達增益值。此類特征在(例如)上文引用的第2006/(^82262號美國專利申請公開案中更詳細地描述。
在計算增益框架的值(或增益形狀的值)中,可能需要應用與鄰近幀(或子幀)重疊的開窗函數(shù)。以此方式產生的增益值通常以重疊相加的方式應用于語音解碼器處,這可有助于減少或避免幀或子幀之間的不連續(xù)性。圖5A展示可用以計算增益形狀值中的每一者的梯形開窗函數(shù)的曲線圖。在此實例中,窗與兩個鄰近子幀中的每一者重疊1毫秒。圖 5B展示將此開窗函數(shù)應用于20毫秒幀的五個子幀中的每一者。開窗函數(shù)的其它實例包括具有不同重疊時期和/或可為對稱或不對稱的不同窗形狀(例如,矩形或漢明)的函數(shù)。還有可能通過對不同子幀應用不同開窗函數(shù)和/或通過計算增益形狀在具有不同長度的子幀上的不同值來計算增益形狀的值。包括對時間包絡的描述的語音包通常包括采用量化形式的描述,例如進入對應代碼簿中的一個或一個以上索引,但在一些情況下,可使用一算法來在不使用代碼簿的情況下對增益框架和/或增益形狀進行量化和/或解量化。對時間包絡的描述的一個實例包括具有八到十二個位的量化索引,其對幀指定五個增益形狀值(例如,對五個連續(xù)子幀中的每一者指定一個增益形狀值)。此描述還可包括對幀指定增益框架值的另一量化索引。如上文所提到的,可能需要傳輸和接收具有超過300到3400kHz的PSTN頻率范圍的頻率范圍的語音信號。一種用以對此信號進行編碼的方法是將整個延伸的頻率范圍作為單個頻帶來進行編碼。此方法可通過按比例縮放窄帶語音編碼技術(例如,經配置以對例如0到4kHz或300到3400Hz的PSTN質量頻率范圍進行編碼的技術)以覆蓋例如0到 SkHz的寬帶頻率范圍來實施。舉例來說,此方法可包括(A)以較高速率對語音信號進行取樣以包括高頻率的分量,以及(B)對窄帶編碼技術進行重新配置以在所需的準確性程度上表示此寬帶信號。重新配置窄帶編碼技術的一種此類方法是使用較高階的LPC分析(即, 產生具有較多值的系數(shù)向量)。將寬帶信號作為單個頻帶進行編碼的寬帶語音編碼裝置還稱為“全帶”編碼裝置??赡苄枰獙嵤拵дZ音編碼裝置以使得可通過窄帶信道(例如PSTN信道)發(fā)送經編碼信號的至少一窄帶部分而無需對經編碼信號進行譯碼或以另外方式對其進行顯著修改。此特征可促進與僅認可窄帶信號的網絡和/或設備的向后相容性。還可能需要實施對于語音信號的不同頻帶使用不同編碼模式和/或速率的寬帶語音編碼裝置。此特征可用以支持提高的編碼效率和/或知覺質量。經配置以產生具有表示寬帶語音信號的不同頻帶的部分(例如,單獨的語音參數(shù)集合,每一集合表示寬帶語音信號的不同頻帶)的語音包的寬帶語音編碼裝置還稱為“分帶”編碼裝置。圖6A展示非重疊頻帶方案的一個實例,其可由分帶語音編碼器用來對跨越OHz到 SkHz的范圍的寬帶語音內容進行編碼。此方案包括從OHz延伸到4kHz的第一頻帶(還稱為窄帶范圍)和從4kHz延伸到SkHz的第二頻帶(還稱為延伸、上部或高帶范圍)。圖6B展示重疊頻帶方案的一個實例,其可由分帶語音編碼器用來對跨越OHz到7kHz的范圍的寬帶語音內容進行編碼。此方案包括從OHz延伸到4kHz的第一頻帶(窄帶范圍)和從3. 5kHz 延伸到7kHz的第二頻帶(延伸、上部或高帶范圍)。頻帶方案的其它實例包括窄帶范圍僅向下延伸到約300Hz的實例。此方案還可包括覆蓋從約OHz或50Hz直到約300Hz或350Hz的低帶范圍的另一頻帶。分帶語音編碼器的一個特定實例經配置以對窄帶范圍執(zhí)行十階LPC分析且對高帶范圍執(zhí)行六階LPC分析。使用全帶編碼方案進行編碼的語音包含有對在整個寬帶頻率范圍上延伸的單個頻譜包絡的描述,而使用分帶編碼方案進行編碼的語音包具有表示寬帶語音信號的不同頻帶(例如,窄帶范圍和高帶范圍)中的信息的兩個或兩個以上單獨部分。舉例來說,通常, 經分帶編碼的語音包的這些單獨部分中的每一者含有對語音信號的在對應頻帶上的頻譜包絡的描述。經分帶編碼的語音包可含有對幀的針對整個寬帶頻率范圍的時間信息的一個描述,或者經分帶編碼的語音包的單獨部分中的每一者可含有對語音信號的針對對應頻帶的時間信息的描述。語音編碼器通常經配置以產生一系列經編碼幀,每一經編碼幀包括語音包以及 (可能地)一個或一個以上相關聯(lián)的位。圖7A說明具有192位長度的經編碼幀的格式的一個實例。在此實例中,經編碼幀包括表示語音信號(即,主要業(yè)務)的幀的171位全速率語音包。經編碼幀還可包括一個或一個以上校驗位。在此實例中,經編碼幀包括12位幀質量指示符F,其可包括奇偶校驗位或循環(huán)冗余校驗(CRC)位;以及尾位T的8位集合,其可用以終止和初始化產生CRC位的卷積代碼。經編碼幀還可包括指示除語音包以外的數(shù)據(jù)(例如,信息突發(fā))的存在的一個或一個以上位。在此實例中,經編碼幀包括混合模式位MM,其在此情況下經清零(即,具有零值)??赡苄枰紶柣蛑芷谛缘卦诮浘幋a幀內包括不為語音信號的部分的信息。舉例來說,可能需要經編碼幀載運在移動臺與網絡中另一實體(例如BTS、BSC、MSC、PCF或PDSN) 之間的信令信息的突發(fā)。信令信息突發(fā)可載運對執(zhí)行一動作(例如提高傳輸功率或測量參數(shù)(例如,導頻強度))的請求或對此請求的響應(例如,測量得的參數(shù)值)的至少一部分。 與無線電接入網絡內的越區(qū)切換或從一個無線電接入網絡到另一者的越區(qū)切換相關的信令信息突發(fā)可包括經更新的網絡信息,例如網絡識別符(NID)、系統(tǒng)識別符(SID)和/或包區(qū)域識別符(PZID)的值。在一些情況下,信令信息突發(fā)包括含有這些越區(qū)切換參數(shù)值中的一者或一者以上的系統(tǒng)內業(yè)務參數(shù)消息的至少一部分。或者,可能需要經編碼幀載運次要業(yè)務的突發(fā)。次要業(yè)務突發(fā)可包括偶爾更新的信息,例如地理位置信息(例如,全球定位系統(tǒng)或GPS信息)更新的至少一部分。在另一情況下,次要業(yè)務突發(fā)可包括低位速率數(shù)據(jù)傳輸(例如傳呼消息、短消息傳輸服務(SMS)消息或電子郵件消息)的至少一部分。在此些情況下,可能需要語音編碼器對經編碼幀進行配置以使得一些位可用于載運其它信息。舉例來說,可能需要語音編碼器通過使用比由速率選擇機構所指示的位速率低的位速率來將所述幀編碼為較小語音包。此操作稱為“模糊化”或“源級模糊化”。在源級模糊化的一個典型實例中,迫使語音編碼器使用半速率方案來對幀(原本已針對所述幀選擇了全速率方案)進行編碼,但源級模糊化通??砂ㄈ魏嗡俾式档???勺兯俾收Z音編碼器可經配置以執(zhí)行模糊和突發(fā)技術來產生包括經模糊的語音包和其它信息的突發(fā)的經編碼幀。對此類技術的描述可在(例如)第5,504,773號美國專利(帕多瓦尼(Padovani) 等人)中找到。使用模糊和突發(fā)技術而產生的經編碼幀可包括指示其是否包括信令信息或次要業(yè)務的一個或一個以上位。圖7B展示模糊和突發(fā)技術可用來包括主要業(yè)務的半速率語音包(80個位)和86位的信令信息突發(fā)的經編碼幀的格式。此幀包括指示是否使用模糊和突發(fā)或空白和突發(fā)格式的突發(fā)格式位BF、指示突發(fā)是否含有信令業(yè)務或次要業(yè)務的業(yè)務類型位TT和可用以指示用于主要業(yè)務和/或用于信令或次要業(yè)務的不同數(shù)目的位的兩個業(yè)務模式位TM,所有所述位在此情況下均經清零。幀還包括消息開始位S0M,其指示隨后位是否為信令消息的第一位。圖7C展示模糊和突發(fā)技術可用來包括語音信號的半速率包和87 位的次要業(yè)務突發(fā)的經編碼幀的格式。在此情況下,幀格式不包括消息開始位,且業(yè)務類型位TT經設定。模糊化的過度使用可能會引起經編碼語音信號的質量的降級。一般來說,模糊化的使用限于不超過全速率幀的百分之五,但更通常地對不超過此類幀的百分之一或(可能地)百分之二進行模糊化。在一些情況下,語音編碼器經配置以根據(jù)二進制掩碼文件來選擇待經模糊的幀,其中掩碼文件的每一位對應于一幀且所述位的狀態(tài)指示所述幀是否待經模糊。在其它情況下,語音編碼器經配置以在可能的情況下通過等到半速率幀經調度為止來避免模糊化。可能需要實施寬帶編碼系統(tǒng)作為對現(xiàn)有窄帶編碼系統(tǒng)的升級。舉例來說,可能需要通過使用相同的位速率和包大小來最小化對網絡的改變,其中通過額外包格式來支持額外寬帶編碼方案。使用如圖7A到圖7C所示的順從IS-95的幀格式的一種現(xiàn)有類型的窄帶語音編解碼器是增強型可變速率編解碼器版本B (EVRC-B),如可在3gpp2. org處在線獲得的第三代合作伙伴計劃2(3GPP2)文獻C.S0014-B vl. 0 (2006年5月)中所描述的。可能需要將支持EVRC-B的系統(tǒng)升級為還支持增強型可變速率編解碼器版本C (EVRC-C,還稱為 EVRC-WB),如也可在3gpp2. org處在線獲得的3GPP2文獻C. S0014_Cvl. 0 (2007年1月)中所描述的。如上文所提到的,現(xiàn)有窄帶編碼系統(tǒng)支持模糊和突發(fā)技術的使用??赡苄枰趯拵Ь幋a系統(tǒng)中支持模糊和突發(fā)技術。一種用以對寬帶幀進行模糊化的方法涉及設計并實施較低位速率(例如,半速率)寬帶編碼方案來與經模糊幀一起使用。寬帶語音編碼器可經配置以根據(jù)此方案而對經模糊幀進行編碼,或替代地通過使用用較高位速率寬帶編碼方案編碼的語音包的選定位來創(chuàng)建具有此方案的格式的語音包。然而,在任一情況下,設計較低位速率寬帶編碼方案來具有可接受的知覺質量均將為昂貴的。實施此編碼方案還將可能消耗語音編碼器的較多資源,例如處理循環(huán)和存儲空間。實施額外編碼方案還將增加系統(tǒng)復雜性。另一種用以對寬帶幀進行模糊化的方法是使用較低位速率窄帶編碼方案來對經模糊的寬帶幀進行編碼。雖然此方法涉及高帶信息的損失,但在對現(xiàn)有窄帶設施的寬帶升級中實施可能較為容易,因為其可經配置以使用現(xiàn)有窄帶編碼方案(例如,半速率CELP)。 對應語音解碼器可經配置以從一個或一個以上先前幀的高帶信息重構丟失的高帶信息。圖8A展示根據(jù)通用配置的方法MlOO的流程圖,所述方法包括任務T110、T120、 T130和T140。任務TllO經配置以基于語音信號的第一有效幀而產生第一語音包。所述第一語音包包括對在(A)第一頻帶和(B)在第一頻帶上方延伸的第二頻帶上的頻譜包絡的描述。此描述可以是在所述兩個頻帶上延伸的單個描述,或者其可包括每一者在所述頻帶中的相應一者上延伸的單獨描述。任務TllO還可經配置以將第一語音包產生為含有對在第一和第二頻帶上的時間包絡的描述。此描述可以是在所述兩個頻帶上延伸的單個描述,或者其可包括每一者在所述頻帶中的相應一者上延伸的單獨描述。清楚地注意到,方法MlOO 的實施方案的范圍還包括任務TllO經配置以基于語音信號的無效幀而產生第一語音包的實施方案。
任務T120經配置以基于在語音信號中出現(xiàn)于第一有效幀之后的語音信號的第二有效幀(例如,緊隨第一有效幀之后的有效幀,或與第一有效幀隔開一個或一個以上其它有效幀的有效幀)而產生第二語音包。所述第二語音包包括對在第一頻帶上的頻譜包絡的描述。任務T120還可經配置以將第二語音包產生為含有對針對第一頻帶的時間信息的描述。任務T130經配置以產生含有第一語音包的第一經編碼幀,且任務T140經配置以產生含有第二語音包和與語音信號分離的信息信號的突發(fā)的第二經編碼幀。第一和第二語音包還可包括基于相應幀的對時間信息的描述。圖9說明方法MlOO的應用。任務T130和T140經配置以將第一和第二經編碼幀產生為具有相同大小(例如, 192個位)。任務TllO可經配置以將第一語音包產生為具有大于第一經編碼幀的長度的一半的長度。舉例來說,任務TllO可經配置以將第一語音包產生為具有為第一經編碼幀的長度的至少百分之六十、七十、七十五、八十或八十五的長度。在一個特定此類實例中,任務TllO經配置以將第一語音包產生為具有171個位的長度?;蛘?,任務TllO可經配置以將第一語音包產生為具有不超過第一經編碼幀的長度的百分之五十、四十五或四十二的長度。在一個特定此類實例中,任務TllO經配置以將第一語音包產生為具有80個位的長度。任務T120經配置以將第二語音包產生為具有不大于第二經編碼幀的長度的百分之六十的長度。舉例來說,任務T120可經配置以將第二語音包產生為具有不超過第二經編碼幀的長度的百分之五十、四十五或四十二的長度。在一個特定實例中,任務T120經配置以將第二語音包產生為具有80個位的長度。任務T120還可經配置以使得第二語音包不包括對在第二頻帶上的頻譜包絡的描述和/或對針對第二頻帶的時間信息的描述。方法MlOO通常經執(zhí)行為較大語音編碼方法的部分,且明確地預期并由此揭示經配置以執(zhí)行方法MlOO的語音編碼器和語音編碼方法。此編碼器或方法可經配置以使用與第一經編碼幀相同的格式或使用與第二經編碼幀相同的格式對語音信號中跟隨第二幀之后的有效幀(例如,緊隨第二幀之后的有效幀,或與第二幀隔開一個或一個以上其它有效幀的有效幀)進行編碼?;蛘?,此編碼器或方法可經配置以使用不同的編碼方案對跟隨第二幀之后的無聲或無效幀進行編碼。對應的語音解碼器可經配置以使用已從第一經編碼幀解碼的信息來補充對來自在經編碼的語音信號中出現(xiàn)于第一經編碼幀之后的另一經編碼幀的有效幀的解碼。在此描述中的其它地方,揭示語音解碼器和對語音信號的幀進行解碼的方法,其在對一個或一個以上后續(xù)有效幀進行解碼中使用已從第一經編碼幀解碼的信肩、ο任務TllO和T120中的一者或兩者可經配置以計算對頻譜包絡的相應描述。圖10 展示任務TllO的此實施方案的子任務T112的應用,所述子任務T112經配置以基于第一幀而計算對在第一和第二頻帶上的頻譜包絡的描述。圖10還展示任務T120的此實施方案的子任務T122的應用,所述子任務T122經配置以基于第二幀而計算對在第一頻帶上的頻譜包絡的描述。任務TllO和T120還可經配置以基于相應幀而計算對時間信息的描述,所述描述可包括在相應語音包中。任務TllO和T120可經配置以使得第二語音包包括對在第一頻帶上的頻譜包絡的描述,其中所述描述的長度不小于第一語音包中所包括的對在第一和第二頻帶上的頻譜包絡的描述的長度的一半。舉例來說,任務TllO和T120可經配置以使得第二語音包中的對在第一頻帶上的頻譜包絡的描述的長度至少為第一語音包中所包括的對在第一和第二頻帶上的頻譜包絡的描述的長度的百分之五十五或六十。在一個特定實例中,第二語音包中的對在第一頻帶上的頻譜包絡的描述的長度為22個位,且第一語音包中所包括的對在第一和第二頻帶上的頻譜包絡的描述的長度為36個位。第二頻帶不同于第一頻帶,但方法MllO可經配置以使得所述兩個頻帶重疊。第一頻帶的下限的實例包括0、50、100、300和500Hz,且第一頻帶的上限的實例包括3、3. 5、4、 4. 5和5kHz。第二頻帶的下限的實例包括2. 5、3、3· 5、4和4. 5kHz,且第二頻帶的上限的實例包括7、7. 5、8和8. 5kHz。明確地預期且由此揭示上述界限的所有五百個可能組合,且還明確地預期且由此揭示任一此類組合對方法MllO的任一實施方案的應用。在一個特定實例中,第一頻帶包括約50Hz到約4kHz的范圍,且第二頻帶包括約4Hz到約7kHz的范圍。在另一特定實例中,第一頻帶包括約IOOHz到約4kHz的范圍,且第二頻帶包括約3. 5Hz到約 7kHz的范圍。在又一特定實例中,第一頻帶包括約300Hz到約4kHz的范圍,且第二頻帶包括約3. 5Hz到約7kHz的范圍。在這些實例中,術語“約”指示正負百分之五,其中各個頻帶的界限由相應3dB點指示。如上文所提到的,對于寬帶應用,分帶編碼方案可具有優(yōu)于全帶編碼方案的優(yōu)勢, 例如提高的編碼效率和對向后相容性的支持。可能需要將方法MlOO實施為通過使用分帶編碼方案而非全帶編碼方案來產生第一經編碼幀。圖8B展示方法MlOO的實施方案MllO的流程圖,所述實施方案MllO包括任務TllO的實施方案T114。作為任務TllO的實施方案, 任務T114經配置以產生包括對在第一和第二頻帶上的頻譜包絡的描述的第一語音包。在此情況下,任務T114經配置以將第一語音包產生為包括對在第一頻帶上的頻譜包絡的描述和對在第二頻帶上的頻譜包絡的描述,使得所述兩個描述彼此分離(雖然可能地在語音包中彼此鄰近)。任務T114可經配置以使用分帶編碼方案來計算對頻譜包絡的描述。圖11展示任務T114的此實施方案的子任務T116的應用,其中子任務T116是子任務T112的分帶實施方案。子任務T116包括子任務T118a,其經配置以基于第一幀而計算對在第一頻帶上的頻譜包絡的描述。子任務T116還包括子任務T118b,其經配置以基于第一幀而計算對在第二頻帶上的頻譜包絡的描述。任務TllSa和TllSb還可經配置以計算對在所述兩個頻帶上的時間信息的單獨描述。對幀的頻譜和/或時間信息的描述的計算可基于來自一個或一個以上先前幀的信息。在此情況下,使用窄帶編碼方案來對第二幀進行編碼可降低一個或一個以上后續(xù)幀的編碼性能。任務T120可包括子任務T124(未圖示),其經配置以基于第二幀而計算對在第二頻帶上的頻譜包絡的描述和/或對針對第二頻帶的時間信息的描述。舉例來說,任務 Τ120可經配置以使用寬帶編碼方案來對第二幀進行編碼。如上文所提到的,任務Τ120可經配置以使得第二語音包不包括對在第二頻帶上的頻譜包絡的描述或對針對第二頻帶的時間信息的描述。然而,甚至在此情況下,計算針對第二頻帶的此信息以使得其在編碼器處可用于在此歷史信息的基礎上對一個或一個以上后續(xù)幀進行編碼仍可在那些幀上提供比在沒有此信息的情況下對其進行編碼要好的知覺質量?;蛘撸蝿咋?20可經配置以使用窄帶編碼方案來對第二幀的第一頻帶進行編碼且初始化下一幀的第二頻帶的歷史(例如,通過復位存儲過去的頻譜和/或時間信息的存儲器)。在另一替代方案中,任務Τ120經配置以使用窄帶編碼方案來對第二幀的第一頻帶進行編碼且使用擦除處理例行程序來針對第二幀估計對在第二頻帶上的頻譜包絡的描述(和/或對針對第二頻帶的時間信息的描述)。 舉例來說,任務T120的此實施方案可經配置以基于來自第一幀和(可能地)來自一個或一個以上先前幀的信息而針對第二幀估計對在第二頻帶上的頻譜包絡的描述(和/或對針對第二頻帶的時間信息的描述)。任務Tl 18a和Tl 18b可經配置以計算具有相同長度的對在所述兩個頻帶上的頻譜包絡的描述,或者任務TllSa和TllSb中的一者可經配置以計算比由另一任務所計算的描述長的描述。舉例來說,任務TIiSa和Tiirn3可經配置以使得如由任務Tiirn3計算的在第一語音包中的對在第二頻帶上的頻譜包絡的描述的長度不超過如由任務TllSa計算的在第一語音包中的對在第一頻帶上的頻譜包絡的描述的長度的百分之五十、四十或三十。在一個特定實例中,第一語音包中的對在第一頻帶上的頻譜包絡的描述的長度為觀個位,且第一語音包中的對在第二頻帶上的頻譜包絡的描述的長度為8個位。任務TllSa和TllSb 還可經配置以計算對針對所述兩個頻帶的時間信息的單獨描述。任務TllSa和T122可經配置以計算具有相同長度的對在第一頻帶上的頻譜包絡的描述,或者任務Tl 18a和T122中的一者可經配置以計算比由另一任務所計算的描述長的描述。舉例來說,任務TllSa和T122可經配置以使得如由任務T122計算的在第二語音包中的對在第一頻帶上的頻譜包絡的描述的長度至少為如由任務TllSa計算的在第一語音包中的對在第一頻帶上的頻譜包絡的描述的長度的百分之五十、六十、七十或七十五。在一個特定實例中,第一語音包中的對在第一頻帶上的頻譜包絡的描述的長度為觀個位,且第二語音包中的對在第一頻帶上的頻譜包絡的描述的長度為22個位。圖13的表展示語音編碼器可用來執(zhí)行包括方法MlOO的實施方案的語音編碼方法的一組四個不同編碼方案。在此實例中,使用全速率寬帶CELP編碼方案(“編碼方案1”) 來對有聲幀進行編碼。此編碼方案使用153個位來對幀的窄帶部分進行編碼且使用16個位來對高帶部分進行編碼。對于窄帶,編碼方案1使用觀個位來編碼對頻譜包絡的描述(例如,編碼為一個或一個以上量化LSP向量)且使用125個位來編碼對激勵信號的描述。對于高帶,編碼方案1使用8個位來編碼頻譜包絡(例如,編碼為一個或一個以上量化LSP向量)且使用8個位來編碼對時間包絡的描述??赡苄枰獙⒕幋a方案1配置成從窄帶激勵信號導出高帶激勵信號,使得不需要經編碼幀的任何位來載運高帶激勵信號。還可能需要將編碼方案1配置成計算與如從經編碼幀的其它參數(shù)(例如,包括對在第二頻帶上的頻譜包絡的描述)合成的高帶信號的時間包絡有關的高帶時間包絡。此類特征在(例如)上文引用的第2006/(^82262號美國專利申請公開案中更詳細地描述。在根據(jù)圖12的表的實例中,使用半速率窄帶CELP編碼方案(“編碼方案2”)來對經模糊幀進行編碼。此編碼方案使用80個位來對幀的窄帶部分進行編碼(且不使用任何位來對高帶部分進行編碼)。編碼方案2使用22個位來編碼對頻譜包絡的描述(例如, 編碼為一個或一個以上量化LSP向量)且使用58個位來編碼對激勵信號的描述。與有聲語音信號相比,無聲語音信號通常在高帶中含有較多對于語音理解為重要的信息。因此,與對有聲幀的高帶部分進行編碼相比,可能需要使用較多位來對無聲幀的高帶部分進行編碼,甚至對于使用較高總體位速率對有聲幀進行編碼的情況也是如此。在根據(jù)圖12的表的實例中,使用半速率寬帶NELP編碼方案(“編碼方案3”)來對無聲幀進行編碼。代替如編碼方案1用來對有聲幀的高帶部分進行編碼的16個位,此編碼方案使用27 個位來對所述幀的高帶部分進行編碼12個位用以編碼對頻譜包絡的描述(例如,編碼為一個或一個以上量化LSP向量)且15個位用以編碼對時間包絡的描述(例如,編碼為量化的增益框架和/或增益形狀)。為了對窄帶部分進行編碼,編碼方案3使用47個位 個位用以編碼對頻譜包絡的描述(例如,編碼為一個或一個以上量化LSP向量)且19個位用以編碼對時間包絡的描述(例如,編碼為量化的增益框架和/或增益形狀)。在根據(jù)圖12的表的實例中,使用八分之一速率窄帶NELP編碼方案(“編碼方案 4”)來以每幀16位的速率對無效幀進行編碼,其中10個位用以編碼對頻譜包絡的描述(例如,編碼為一個或一個以上量化LSP向量)且5個位用以編碼對時間包絡的描述(例如,編碼為量化的增益框架和/或增益形狀)。編碼方案4的另一實例使用8個位來編碼對頻譜包絡的描述且使用6個位來編碼對時間包絡的描述。在根據(jù)圖12的實例中,編碼方案2和/或編碼方案4可為來自基礎窄帶設施的遺留編碼方案。此語音編碼器或語音編碼方法還可經配置以支持其它遺留編碼方案和/或新的編碼方案。圖13的表展示如由寬帶CELP編碼方案1的實例所產生的針對全速率包(171 個位)的位分配集合。圖14的表展示如由窄帶CELP編碼方案2的實例所產生的針對半速率包(80個位)的位分配集合。任務Tl 10的一個特定實例使用全速率CELP編碼方案(例如,根據(jù)圖12的表中的編碼方案1)來基于語音信號的有聲或過渡幀而產生第一語音包。 任務TllO的另一特定實例使用半速率NELP編碼方案(例如,根據(jù)圖12的表中的編碼方案 3)來基于語音信號的無聲幀而產生第一語音包。任務TllO的又一特定實例使用八分之一速率NELP編碼方案(例如,根據(jù)圖12的表中的編碼方案4)來基于語音信號的無效幀而產生第一語音包。在方法MlOO的實施方案的典型應用中,邏輯元件(例如,邏輯門)的陣列經配置以執(zhí)行所述方法的各種任務中的一者、一者以上或甚至全部。所述任務中的一者或一者以上(可能全部)還可經實施為代碼(例如,一個或一個以上指令集合),其在可由包括邏輯元件(例如,處理器、微處理器、微控制器或其它有限狀態(tài)機)的陣列的機器(例如,計算機)讀取和/或執(zhí)行的計算機程序產品(例如,例如盤、快閃或其它非易失性存儲卡、半導體存儲器芯片等一個或一個以上數(shù)據(jù)存儲媒體)中體現(xiàn)。方法MlOO的實施方案的任務還可由一個以上此類陣列或機器來執(zhí)行。在這些或其它實施方案中,所述任務可在用于無線通信的裝置(例如蜂窩式電話)或具有此通信能力的其它裝置內執(zhí)行。此裝置可經配置以與電路交換和/或包交換的網絡進行通信(例如,使用例如VoIP的一個或一個以上協(xié)議)。 舉例來說,此裝置可包括經配置以傳輸經編碼幀的RF電路。在寬帶情形中使用模糊和突發(fā)技術的又一方法是使用經模糊包的高帶部分來載運信息突發(fā)。在此情況下,可修改較高位速率(例如,全速率)寬帶編碼方案以使得其所產生的每一語音包均包括經保留用作混合模式指示符的位,且語音編碼器可經配置以設定混合模式位來指示語音包的高帶部分含有信令信息或次要業(yè)務而非通常的高帶語音信息。圖15A展示根據(jù)通用配置的語音編碼器100的框圖。語音編碼器100包括經布置以接收語音信號和速率控制信號的幀的包編碼器120。包編碼器120經配置以根據(jù)由速率控制信號指示的速率而產生語音包。語音編碼器100還包括幀格式化器130,其經布置以接收語音包、信息突發(fā)和模糊化控制信號。幀格式化器130經配置以根據(jù)模糊化控制信號的
19狀態(tài)而產生經編碼幀。包括語音編碼器100的通信裝置(例如蜂窩式電話)可經配置以在將經編碼幀傳輸?shù)接芯€、無線或光傳輸信道中之前對其執(zhí)行進一步處理操作,例如誤差校正和/或冗余編碼。在此實例中,語音編碼器100從另一模塊接收速率控制信號。還可將語音編碼器 100實施為包括經配置以產生速率控制信號(例如,根據(jù)如上文所述的開路或開閉路速率選擇算法)的速率選擇模塊。在此情況下,速率選擇模塊可經配置以控制模糊化操作(例如,根據(jù)如上文所述的二進制掩碼文件)且產生模糊化控制信號。或者,速率選擇模塊可經配置以從在語音編碼器內部或外部的另一模塊接收與模糊化控制信號相關的越過信號。語音編碼器100還可經配置以對所接收的幀執(zhí)行一個或一個以上預處理操作,例如知覺加權或其它濾波操作。包編碼器120經配置以基于語音信號的第一有效幀且響應于速率控制信號的第一狀態(tài)而產生如上文所述包括對在第一和第二頻帶上的頻譜包絡的描述的第一語音包。舉例來說,速率控制信號的第一狀態(tài)可指示根據(jù)圖12的實例的寬帶編碼方案1。包編碼器120 還經配置以基于語音信號的第二有效幀且響應于速率控制信號的不同于第一狀態(tài)的第二狀態(tài)而產生如上文所述包括對在第一頻帶上的頻譜包絡的描述的第二語音包。舉例來說, 速率控制信號的第二狀態(tài)可指示根據(jù)圖12的實例的窄帶編碼方案2。圖15B展示包編碼器120的實施方案122的框圖,所述實施方案122包括頻譜包絡描述計算器140、時間信息描述計算器150和包格式化器160。頻譜包絡描述計算器140 經配置以計算對待編碼的每一幀的頻譜包絡的描述。時間信息描述計算器150經配置以計算對待編碼的每一幀的時間信息的描述。包格式化器160經配置以產生包括計算所得的對頻譜包絡的描述和計算所得的對時間信息的描述的語音包。包格式化器160可經配置以根據(jù)所需的包格式(例如,如由速率控制信號的狀態(tài)所指示)而產生語音包,其可能對不同編碼方案使用不同格式。包格式化器160可經配置以將語音包產生為包括對幀進行編碼所根據(jù)的額外信息(還稱為“編碼索引”),例如識別編碼方案或者編碼速率或模式的一個或一個以上位的集合。頻譜包絡描述計算器140經配置以根據(jù)速率控制信號的狀態(tài)而計算對待編碼的每一幀的頻譜包絡的描述。所述描述基于當前幀且還可基于一個或一個以上其它幀的至少一部分。舉例來說,計算器140可經配置以應用延伸到一個或一個以上鄰近幀中的窗且/ 或計算對兩個或兩個以上幀的描述的平均值(例如,LSP向量的平均值)。計算器140可經配置以通過執(zhí)行例如LPC分析等頻譜分析而計算對幀的頻譜包絡的描述。圖15C展示頻譜包絡描述計算器140的實施方案142的框圖,所述實施方案142包括LPC分析模塊170、變換區(qū)塊180和量化器190。分析模塊170經配置以執(zhí)行對幀的LPC 分析且產生對應的模型參數(shù)集合。舉例來說,分析模塊170可經配置以產生例如濾波系數(shù)或反射系數(shù)等LPC系數(shù)的向量。分析模塊170可經配置以在窗上執(zhí)行分析,所述窗包括一個或一個以上相鄰幀的部分。在一些情況下,分析模塊170經配置以使得根據(jù)由編碼方案選擇器120指示的編碼方案而選擇分析的階(例如,系數(shù)向量中的元素的數(shù)目)。變換區(qū)塊180經配置以將模型參數(shù)集合轉換為對于量化較為有效的形式。舉例來說,變換區(qū)塊180可經配置以將LPC系數(shù)向量轉換為LSP集合。在一些情況下,變換區(qū)塊 180經配置以根據(jù)由編碼方案選擇器120指示的編碼方案而將LPC系數(shù)集合轉換為特定形式。量化器190經配置以通過量化經轉換的模型參數(shù)集合而產生對頻譜包絡的量化形式的描述。量化器190可經配置以通過對經轉換的集合的元素進行截斷和/或通過選擇一個或一個以上量化表索引來表示經轉換的集合而量化經轉換的集合??赡苄枰獙⒘炕?190配置為根據(jù)速率控制信號的狀態(tài)而將經轉換的集合量化為特定形式和/或長度。舉例來說,量化器190可經實施以響應于速率控制信號的第一狀態(tài)而產生如圖13所述的量化描述,且響應于速率控制信號的第二狀態(tài)而產生如圖14所述的量化描述。時間信息描述計算器150經配置以計算對幀的時間信息的描述。所述描述同樣可基于一個或一個以上其它幀的至少一部分的時間信息。舉例來說,計算器150可經配置以計算在延伸到一個或一個以上鄰近幀中的窗上的描述且/或計算對兩個或兩個以上幀的描述的平均值。時間信息描述計算器150可經配置以根據(jù)速率控制信號的狀態(tài)計算具有特定形式和/或長度的對時間信息的描述。舉例來說,計算器150可經配置以根據(jù)速率控制信號的狀態(tài)計算對包括(A)幀的時間包絡和(B)幀的激勵信號中的一者或兩者的時間信息的描述,其可包括對至少一個音調分量的描述(例如,音調延遲或滯后、音調增益和/或對原型的描述)。在LPC編碼器中,通常將音調滯后計算為使幀的LPC殘差的自相關函數(shù)最大化的滯后值。激勵信號還可基于其它信息,例如來自適應性代碼簿(還稱為音調代碼簿)的值和/或來自固定代碼簿(還稱為創(chuàng)新代碼簿且可能指示脈沖的位置)的值。計算器150可經配置以計算對包括幀的時間包絡的時間信息的描述(例如,增益框架值和/或增益形狀值)。舉例來說,計算器150可經配置以響應于NELP編碼方案的指示輸出此描述。如本文所描述,計算此描述可包括將幀或子幀上的信號能量計算為信號樣本的平方和,計算包括其它幀和/或子幀的部分的窗上的信號能量,且/或量化計算所得的時間包絡。計算器150可經配置以計算對幀的時間信息的描述,所述時間信息包括與幀的音調或周期性相關的信息。舉例來說,計算器150可經配置以響應于CELP編碼方案的指示而輸出包括幀的音調信息(例如音調滯后或延遲和/或音調增益)的描述。在一些情況下, 與幀的音調分量相關的信息(例如激勵信號或例如音調滯后等參數(shù))可從對應的語音包且也可從先前語音包獲得。替代地或額外地,計算器150可經配置以響應于PPP編碼方案的指示而輸出對周期性波形(還稱為“原型”)的描述。計算音調和/或原型信息通常包括從 LPC殘差提取此信息且還可包括將來自當前幀的音調和/或原型信息與來自一個或一個以上過去幀的此信息進行組合。計算器150還可經配置以量化此對時間信息的描述(例如, 量化為一個或一個以上表索引)。計算器150可經配置以計算包括激勵信號的對幀的時間信息的描述。舉例來說, 計算器150可經配置以響應于CELP編碼方案的指示而輸出包括激勵信號的描述。激勵信號還可包括對音調分量的描述(例如,音調延遲或滯后、音調增益和/或對原型的描述)。計算激勵信號通常包括從LPC殘差導出此信號且還可包括將來自當前幀的激勵信息與來自一個或一個以上過去幀的此信息進行組合。計算器150還可經配置以量化此對時間信息的描述(例如,量化為一個或一個以上表索引)。對于語音編碼器132支持松弛CELP (RCELP) 編碼方案的情況,計算器150可經配置以使激勵信號規(guī)律化。
圖16A展示包編碼器122的實施方案124的框圖,所述實施方案IM包括時間信息描述計算器150的實施方案152。計算器152經配置以計算對幀的時間信息(例如,激勵信號、音調和/或原型信息)的描述,所述描述基于如由頻譜包絡描述計算器140所計算的對幀的頻譜包絡的描述。圖16B展示時間信息描述計算器152的實施方案154的框圖,所述實施方案154經配置以基于幀的LPC殘差而計算對時間信息的描述。在此實例中,計算器IM經布置以接收如由頻譜包絡描述計算器142所計算的對幀的頻譜包絡的描述。解量化器AlO經配置以對描述進行解量化,且逆變換區(qū)塊A20經配置以對經解量化的描述應用逆變換以獲得LPC 系數(shù)集合。白化濾波器A30根據(jù)LPC系數(shù)集合而進行配置且經布置以對語音信號進行濾波來產生LPC殘差。量化器A40經配置以量化對幀的時間信息的描述(例如,量化為一個或一個以上表索引),所述描述基于LPC殘差且可能還基于所述幀的音調信息和/或來自一個或一個以上過去幀的時間信息。可能需要使用包編碼器122的實施方案來根據(jù)分帶編碼方案而對寬帶語音信號的幀進行編碼。在此情況下,頻譜包絡描述計算器140可經配置以連續(xù)和/或并行地且(可能地)根據(jù)不同編碼模式和/或速率而計算對幀在相應頻帶上的頻譜包絡的各種描述。時間信息描述計算器150還可經配置以連續(xù)和/或并行地且(可能地)根據(jù)不同編碼模式和 /或速率而計算對幀在各個頻帶上的時間信息的描述。圖17A展示語音編碼器100的實施方案102的框圖,所述實施方案102經配置以根據(jù)分帶編碼方案而對寬帶語音信號進行編碼。語音編碼器102包括濾波器組A50,其經配置以對語音信號進行濾波來產生含有語音信號的在第一頻帶上的內容的子帶信號(例如,窄帶信號)和含有語音信號的在第二頻帶上的內容的子帶信號(例如,高帶信號)。此類濾波器組的特定實例在(例如)2007年4月19日公開的題為“用于語音信號濾波的系統(tǒng)、方法和設備(SYSTEMS,METHODS, AND APPARATUS FOR SPEECH SIGNAL FILTERING) ” 的第2007/088558號美國專利申請公開案(沃斯(Vos)等人)中描述。舉例來說,濾波器組 A50可包括經配置以對語音信號進行濾波來產生窄帶信號的低通濾波器和經配置以對語音信號進行濾波來產生高帶信號的高通濾波器。濾波器組A50還可包括經配置以根據(jù)所需的相應抽取因數(shù)而降低窄帶信號和/或高帶信號的取樣速率的下變頻取樣器,如(例如)第 2007/088558號美國專利申請公開案(沃斯(Vos)等人)中所描述。語音編碼器102還可經配置以對至少高帶信號執(zhí)行例如高帶突發(fā)抑制操作等噪聲抑制操作,如2007年4月19 日公開的題為“用于高帶突發(fā)抑制的系統(tǒng)、方法和設備(SYSTEMS,METHODS, AND APPARATUS FOR HIGHBAND BURST SUPPRESSION) ”的第2007/088M1號美國專利申請公開案(沃斯 (Vos)等人)中所描述。語音編碼器102還包括包編碼器120的實施方案126,其經配置以根據(jù)速率控制信號的狀態(tài)而對單獨的子帶信號進行編碼。圖17B展示包編碼器126的實施方案128的框圖。包編碼器1 包括頻譜包絡計算器140a(例如,計算器142的實例)和時間信息計算器150a (例如,計算器152或154的實例),所述計算器140a和150a經配置以基于由濾波器組A50產生的窄帶信號且根據(jù)如由速率控制信號的狀態(tài)所指示的編碼方案而分別計算對頻譜包絡和時間信息的描述。包編碼器1 還包括頻譜包絡計算器140b (例如,計算器 142的實例)和時間信息計算器150b (例如,計算器152或154的實例),所述計算機140b和150b經配置以基于由濾波器組A50產生的高帶信號且根據(jù)如由速率控制信號的狀態(tài)所指示的編碼方案而分別產生計算所得的對頻譜包絡和時間信息的描述。包編碼器1 還包括包格式化器160的實施方案162,其經配置以產生語音包,所述語音包包括計算所得的對如由速率控制信號的狀態(tài)所指示的窄帶和高帶信號中的一者或兩者的頻譜包絡和時間信息的描述。如上文所提到的,對寬帶語音信號的高帶部分的時間信息的描述可基于對所述信號的窄帶部分的時間信息的描述。圖18A展示包編碼器126的對應實施方案129的框圖。 如同上文所述的包編碼器128,包編碼器1 包括經布置以計算對頻譜包絡的相應描述的頻譜包絡描述計算器140a和140b。包編碼器1 還包括時間信息描述計算器152的實例 152a(例如,計算器154),其經布置以基于計算所得的對窄帶信號的頻譜包絡的描述而計算對時間信息的描述。包編碼器1 還包括時間信息描述計算器150的實施方案156。計算器156經配置以計算對高帶信號的時間信息的描述,所述描述基于對窄帶信號的時間信息的描述。圖18B展示時間描述計算器156的實施方案158的框圖。計算器158包括高帶激勵信號產生器A60,其經配置以基于如由計算器15 所產生的窄帶激勵信號而產生高帶激勵信號。舉例來說,產生器A60可經配置以對窄帶激勵信號(或其一個或一個以上分量) 執(zhí)行例如頻譜延伸、諧波延伸、非線性延伸、頻譜折疊和/或頻譜轉譯等操作以產生高帶激勵信號。額外地或替代地,產生器A60可經配置以執(zhí)行對隨機噪聲(例如,偽隨機高斯噪聲信號)的頻譜和/或振幅整形以產生高帶激勵信號。對于產生器A60使用偽隨機噪聲信號的情況,可能需要使編碼器和解碼器對此信號的產生同步。此類用于高帶激勵信號產生的方法和設備在(例如)2007年4月19日公開的題為“用于寬帶語音編碼的系統(tǒng)、方法和設備(SYSTEMS,METHODS,AND APPARATUS FOR WIDEBAND SPEECH CODING) ”的第 2007/0088542 號美國專利申請公開案(沃斯(Vos)等人)中更詳細地描述。在圖18B的實例中,產生器 A60經布置以接收經量化的窄帶激勵信號。在另一實例中,產生器A60經布置以接收采用另一形式(例如,采用預量化或經解量化的形式)的窄帶激勵信號。計算器158還包括合成濾波器A70,其經配置以產生基于高帶激勵信號和對高帶信號的頻譜包絡的描述(例如,如由計算器140b所產生)的合成高帶信號。通常根據(jù)對高帶信號的頻譜包絡的描述內的一組值(例如,一個或一個以上LSP或LPC系數(shù)向量)而對濾波器A70進行配置以響應于高帶激勵信號產生合成高帶信號。在圖18B的實例中,合成濾波器A70經布置以接收對高帶信號的頻譜包絡的量化描述且可對應地經配置以包括解量化器和(可能地)逆變換區(qū)塊。在另一實例中,濾波器A70經布置以接收采用另一形式 (例如,采用預量化或經解量化的形式)的對高帶信號的頻譜包絡的描述。計算器158還包括高帶增益因數(shù)計算器A80,其經配置以基于合成高帶信號的時間包絡而計算對高帶信號的時間包絡的描述。計算器A80可經配置以將此描述計算為包括高帶信號的時間包絡與合成高帶信號的時間包絡之間的一個或一個以上距離。舉例來說, 計算器A80可經配置以將此距離計算為增益框架值(例如,計算為所述兩個信號的對應幀的能量測量之間的比率,或計算為此比率的平方根)。額外地或替代地,計算器A80可經配置以將許多此類距離計算為增益形狀值(例如,計算為所述兩個信號的對應子幀的能量測量之間的比率,或計算為此些比率的平方根)。在圖18B的實例中,計算器158還包括經配置以量化計算所得的對時間包絡的描述(例如,量化為一個或一個以上代碼簿索引)的量化器A90。計算器158的元件的各種特征和實施方案在(例如)如上文引用的第2007/0088542 號美國專利申請公開案(沃斯(Vos)等人)中描述。語音編碼器100的實施方案的各種元件可體現(xiàn)于被視為適合于所希望應用的硬件、軟件和/或固件的任一組合中。舉例來說,可將此類元件制造為駐存于(例如)同一芯片上或者芯片集中的兩個或兩個以上芯片間的電子和/或光學裝置。此裝置的一個實例是例如晶體管或邏輯門等邏輯元件的固定或可編程陣列,且可將這些元件中的任一者實施為一個或一個以上此類陣列。可將這些元件中的任何兩者或兩者以上或甚至全部實施于相同的一個或多個陣列內。可將此(些)陣列實施于一個或一個以上芯片內(例如,包括兩個或兩個以上芯片的芯片集內)。還可將如本文所述的語音編碼器100的各種實施方案的一個或一個以上元件全部或部分地實施為一個或一個以上指令集合,所述指令集合經布置以在邏輯元件(例如微處理器、嵌入式處理器、IP核心、數(shù)字信號處理器、FPGA(現(xiàn)場可編程門陣列)、ASSP(專用標準產品)和ASIC(專用集成電路))的一個或一個以上固定或可編程陣列上執(zhí)行。還可將語音編碼器100的實施方案的各種元件中的任一者體現(xiàn)為一個或一個以上計算機(例如, 包括經編程以執(zhí)行一個或一個以上指令集合或序列的一個或一個以上陣列的機器,還稱為 “處理器”),且可將這些元件中的任何兩者或兩者以上或甚至全部實施于相同的此(些)計算機內。語音編碼器100的實施方案的各種元件可包括于例如蜂窩式電話等用于無線通信的裝置或具有此通信能力的其它裝置內。此裝置可經配置以與電路交換和/或包交換的網絡進行通信(例如,使用例如VoIP等一個或一個以上協(xié)議)。此裝置可經配置以對載運經編碼幀的信號執(zhí)行操作,例如交錯、穿孔、卷積編碼、誤差校正編碼、對一個或一個以上網絡協(xié)議(例如,以太網、TCP/IP、cdma2000)層的編碼、射頻(RF)調制和/或RF傳輸。有可能使語音編碼器100的實施方案的一個或一個以上元件用于執(zhí)行不與設備的操作直接相關的任務或其它指令集合,例如與設備所嵌入其中的裝置或系統(tǒng)的另一操作相關的任務。還有可能使語音編碼器100的實施方案的一個或一個以上元件具有共同結構 (例如,用以在不同時間執(zhí)行代碼的對應于不同元件的部分的處理器、經執(zhí)行以在不同時間執(zhí)行對應于不同元件的任務的指令集合或在不同時間執(zhí)行不同元件的操作的電子和/或光學裝置的布置)。在一個此類實例中,將包編碼器120和幀格式化器130實施為經布置以在同一處理器上執(zhí)行的指令集合。在另一此類實例中,將頻譜包絡描述計算器140a和140b 實施為在不同時間執(zhí)行的同一指令集合。圖19A展示根據(jù)通用配置的處理來自經編碼語音信號的語音包的方法M200的流程圖。方法M200經配置以接收來自兩個語音包(例如,來自經編碼語音信號的連續(xù)的經編碼幀)的信息且產生對語音信號的兩個對應幀的頻譜包絡的描述?;趤碜缘谝徽Z音包 (還稱為“參考”語音包)的信息,任務T210獲得對語音信號的第一幀的在第一和第二頻帶上的頻譜包絡的描述。此描述可為在所述兩個頻帶上延伸的單個描述,或者其可包括每一者在所述頻帶中的相應一者上延伸的單獨描述?;趤碜缘诙Z音包的信息,任務T220獲得對語音信號的第二幀(還稱為“目標”幀)的在第一頻帶上的頻譜包絡的描述。基于來自參考語音包的信息,任務T230獲得對目標幀的在第二頻帶上的頻譜包絡的描述?;趤碜缘诙Z音包的信息,任務T240獲得對目標幀的針對第一頻帶的音調信息的描述。圖20展示方法M200的應用。在此實例中,對頻譜包絡的描述具有LPC階,且對目標幀的在第二頻帶上的頻譜包絡的描述的LPC階小于對目標幀的在第一頻帶上的頻譜包絡的描述的LPC階。在特定實例中,對目標幀的在第一和第二頻帶上的頻譜包絡的描述的LPC階分別為10和6。其它實例包括對目標幀的在第二頻帶上的頻譜包絡的描述的LPC 階為對目標幀的在第一頻帶上的頻譜包絡的描述的LPC階的至少百分之五十、至少百分之六十、不超過百分之七十五、不超過百分之八十、與其相等和大于其的情況。圖20還展示對第一幀的在第一和第二頻帶上的頻譜包絡的描述的LPC階等于對目標幀的在第一和第二頻帶上的頻譜包絡的描述的LPC階的總和的實例。在另一實例中, 對第一幀的在第一和第二頻帶上的頻譜包絡的描述的LPC階可能大于或小于對目標幀的在第一和第二頻帶上的頻譜包絡的描述的LPC階的總和。參考語音包可包括對在第一和第二頻帶上的頻譜包絡的量化描述,且第二語音包可包括對在第一頻帶上的頻譜包絡的量化描述。在一個特定實例中,參考語音包中所包括的對在第一和第二頻帶上的頻譜包絡的量化描述具有36個位的長度,且第二語音包中所包括的對在第一頻帶上的頻譜包絡的量化描述具有22個位的長度。在其它實例中,第二語音包中所包括的對在第一頻帶上的頻譜包絡的量化描述的長度不大于參考語音包中所包括的對在第一和第二頻帶上的頻譜包絡的量化描述的長度的百分之六十五、七十、七十五或八十。任務T210和T220中的每一者可經配置以包括以下兩個操作中的一者或兩者剖析語音包以提取對頻譜包絡的量化描述;以及解量化對頻譜包絡的量化描述以獲得所述幀的編碼模型的參數(shù)集合。任務T210和T220的典型實施方案包括這兩個操作,使得每一任務處理相應語音包以產生采用模型參數(shù)集合的形式的對頻譜包絡的描述(例如,一個或一個以上1^ 、1^ 、15 、15 和/或1^(系數(shù)向量)。在一個特定實例中,參考語音包具有171 個位的長度,且第二語音包具有80個位的長度。在其它實例中,第二語音包的長度不超過參考語音包的長度的百分之五十、六十、七十或七十五。參考語音包可包括對針對第一和第二頻帶的時間信息的量化描述,且第二語音包可包括對針對第一頻帶的時間信息的量化描述。在一個特定實例中,參考語音包中所包括的對針對第一和第二頻帶的時間信息的量化描述具有133個位的長度,且第二語音包中所包括的對針對第一頻帶的時間信息的量化描述具有58個位的長度。在其它實例中,第二語音包中所包括的對針對第一頻帶的時間信息的量化描述的長度不大于參考語音包中所包括的對針對第一和第二頻帶的時間信息的量化描述的長度的百分之四十五、五十或六十, 或者不小于其百分之四十。任務T210和T220還可經實施以從相應語音包產生對時間信息的描述。舉例來說,這些任務中的一者或兩者可經配置以基于來自相應語音包的信息而獲得對時間包絡的描述、對激勵信號的描述、對音調信息的描述或對原型的描述。如在獲得對頻譜包絡的描述中,此任務可包括從語音包剖析對時間信息的量化描述和/或解量化對時間信息的量化描述。方法M200的實施方案還可經配置以使得任務T210和/或任務T220同樣基于來自一個或一個以上其它語音包的信息(例如來自數(shù)個來自一個或一個以上先前經編碼幀的語音包的信息)而獲得對頻譜包絡的描述和/或對時間信息的描述。舉例來說,對激勵信號
25的描述、對音調信息的描述和對原型的描述通?;趤碜韵惹皫男畔?。任務 T240經配置以基于來自第二語音包的信息而獲得對目標幀的針對第一頻帶的音調信息的描述。對音調信息的描述可包括對以下各項中的一者或一者以上的描述音調滯后、音調增益、原型和激勵信號。任務T240可包括從第二語音包剖析對音調信息的量化描述和/或解量化對音調信息的量化描述。舉例來說,第二語音包可包括對針對第一頻帶的音調信息的量化描述,其長度為第二語音包的長度的至少百分之五和/或至多百分之十。在一個特定實例中,第二語音包具有80個位的長度,且第二語音包中所包括的對針對第一頻帶的音調信息(例如,音調滯后索引)的量化描述具有7個位的長度。任務T240還可經配置以基于來自第二語音包的音調信息而計算目標幀的針對第一頻帶的激勵信號。還可能需要將任務T240配置成如本文所述(例如,參考高帶激勵產生器A60和330)基于目標幀的針對第一頻帶的激勵信號而計算目標幀的針對第二頻帶的激勵信號。方法M200的實施方案還可經配置以使得任務T240同樣基于來自一個或一個以上其它語音包的信息(例如來自數(shù)個來自一個或一個以上先前經編碼幀的語音包的信息)而獲得對音調信息的描述。圖22展示方法M200的此實施方案M210的應用。方法M210包括任務T240的實施方案T242,其經配置以基于來自參考和第二語音包中的每一者的信息而獲得對目標幀的針對第一頻帶的音調信息的描述。舉例來說,任務T242可經配置以基于一基于來自第二語音包的信息的第一音調滯后值和一基于來自參考語音包的信息的第二音調滯后值而內插目標幀的針對第一頻帶的延遲輪廓。任務T242還可經配置以基于來自參考和第二語音包中的每一者的音調信息而計算目標幀的針對第一頻帶的激勵信號。方法M200通常經執(zhí)行為較大語音解碼方法的部分,且明確地預期并由此揭示經配置以執(zhí)行方法M200的語音解碼器和語音解碼方法。語音編碼裝置可經配置以在編碼器處執(zhí)行方法MlOO的實施方案且在解碼器處執(zhí)行方法M200的實施方案。在此情況下,如由任務TllO編碼的“第一語音包”對應于向任務T210和T230供應信息的參考語音包,且如由任務T120編碼的“第二語音包”對應于向任務T220和T240供應信息的語音包。圖21使用通過使用方法MlOO編碼且通過使用方法M200解碼的一對連續(xù)幀的實例來說明方法MlOO 與M200之間的此關系。方法M200還可經實施為包括從相應的經編碼幀(例如,如由任務 T130和T140產生的)剖析或以另外方式獲得參考語音包和第二語音包的操作。不管圖21的特定實例如何,清楚地注意到,一般來說,方法MlOO的應用和方法 M200的應用不限于處理數(shù)對連續(xù)幀。舉例來說,在方法M200的一個此類其它應用中,供應由任務T210和T230處理的語音包的經編碼幀可與供應由任務T220和T240處理的語音包的經編碼幀隔開已在傳輸中丟失的一個或一個以上介入幀(即,經擦除幀)。任務T220經配置以至少主要地基于來自第二語音包的信息而獲得對目標幀的在第一頻帶上的頻譜包絡的描述。舉例來說,任務T220可經配置以完全基于來自第二語音包的信息而獲得對目標幀的在第一頻帶上的頻譜包絡的描述。或者,任務T220可經配置以同樣基于其它信息(例如來自數(shù)個來自一個或一個以上先前經編碼幀的語音包的信息)而獲得對目標幀的在第一頻帶上的頻譜包絡的描述。在此情況下,任務T220經配置以使對來自第二語音包的信息所加的權數(shù)大于對其它信息所加的權數(shù)。舉例來說,任務T220的此實施方案可經配置以將對目標幀的在第一頻帶上的頻譜包絡的描述計算為來自第二語音包的信息與來自一來自先前經編碼幀(例如,參考經編碼幀)的語音包的信息的平均值,其中對來自第二語音包的信息所加的權數(shù)大于對來自其它語音包的信息所加的權數(shù)。同樣地,任務T220可經配置以至少主要地基于來自第二語音包的信息而獲得對目標幀的針對第一頻帶的時間信息的描述?;趤碜詤⒖颊Z音包的信息(在本文中還稱為“參考頻譜信息”),任務T230獲得對目標幀的在第二頻帶上的頻譜包絡的描述。圖19B展示方法M200的實施方案M220的流程圖,所述實施方案M220包括任務T230的實施方案T232。作為任務T230的實施方案,任務T232基于參考頻譜信息而獲得對目標幀的在第二頻帶上的頻譜包絡的描述。在此情況下,參考頻譜信息包括于對語音信號的第一幀的頻譜包絡的描述內。圖23展示方法M220 的應用的實例。任務T230經配置以至少主要地基于參考頻譜信息而獲得對目標幀的在第二頻帶上的頻譜包絡的描述。舉例來說,任務T230可經配置以完全基于參考頻譜信息而獲得對目標幀的在第二頻帶上的頻譜包絡的描述?;蛘撸蝿誘230可經配置以基于(A)基于參考頻譜信息的對在第二頻帶上的頻譜包絡的描述和(B)基于來自第二語音包的信息的對在第二頻帶上的頻譜包絡的描述而獲得對目標幀的在第二頻帶上的頻譜包絡的描述。在此情況下,任務T230可經配置以使對基于參考頻譜信息的描述所加的權數(shù)大于對基于來自第二語音包的信息的描述所加的權數(shù)。舉例來說,任務T230的此實施方案可經配置以將對目標幀的在第二頻帶上的頻譜包絡的描述計算為基于參考頻譜信息與來自第二語音包的信息的描述的平均值,其中對基于參考頻譜信息的描述所加的權數(shù)大于對基于來自第二語音包的信息的描述所加的權數(shù)。在另一情況下,基于參考頻譜信息的描述的 LPC階可大于基于來自第二語音包的信息的描述的LPC階。舉例來說,基于來自第二語音包的信息的描述的LPC階可為1 (例如,所述描述可為頻譜傾斜值,例如第一反射系數(shù)的值)。 同樣地,任務T230可經配置以至少主要地基于參考時間信息(例如,完全基于參考時間信息,或還較小部分地基于來自第二語音包的信息)而獲得對目標幀的針對第二頻帶的時間信息的描述。任務T210可經實施以從參考語音包獲得對頻譜包絡的描述,所述描述是在第一和第二頻帶兩者上的單個全帶表示。然而,更為典型的是將任務T210實施成將此描述獲得為對在第一頻帶上與在第二頻帶上的頻譜包絡的單獨描述。舉例來說,任務T210可經配置以從參考語音包獲得單獨描述,所述參考語音包已使用如本文所述的分帶編碼方案(例如,在圖12的實例中為編碼方案1)進行編碼。圖19C展示方法M220的實施方案M230的流程圖,其中將任務T210實施為兩個子任務T212a和T212b?;趤碜詤⒖颊Z音包的信息,任務T212a獲得對第一幀的在第一頻帶上的頻譜包絡的描述?;趤碜詤⒖颊Z音包的信息,任務T212b獲得對第一幀的在第二頻帶上的頻譜包絡的描述。任務T212a和/或T212b可包括從相應語音包剖析對頻譜包絡的量化描述和/或解量化對頻譜包絡的量化描述。任務T212a和/或T212b還可經實施以基于來自相應語音包的 信息而產生對時間信息的描述。舉例來說,這些任務中的一者或兩者可經配置以基于來自相應語音包的信息而獲得對時間包絡的描述、對激勵信號的描述和/或對音調信息的描述。如在獲得對頻譜包絡的描述中,此任務可包括從語音包剖析對時間信息的量化描述和/或解量化對時間信息的量化描述。
方法M230還包括任務T232的實施方案T234。作為任務T230的實施方案,任務 T234獲得對目標幀的在第二頻帶上的頻譜包絡的描述,所述描述基于參考頻譜信息。如在任務T232中,參考頻譜信息被包括于對語音信號的第一幀的頻譜包絡的描述內。在任務 T234的特定情況中,參考頻譜信息被包括于對第一幀的在第二頻帶上的頻譜包絡的描述內 (且可能與所述描述相同)。任務T234還可經配置以獲得對目標幀的針對第二頻帶的時間信息的描述,所述描述基于包括于對第一幀的針對第二頻帶的時間信息的描述內(且可能與所述描述相同)的信息。
圖24展示方法M230的應用,其接收來自兩個語音包的信息且產生對語音信號的兩個對應幀的頻譜包絡的描述。在此實例中,對頻譜包絡的描述具有LPC階,且對第一幀的在第一和第二頻帶上的頻譜包絡的描述的LPC階等于對目標幀的在相應頻帶上的頻譜包絡的描述的LPC階。其它實例包括其中對第一幀的在第一和第二頻帶上的頻譜包絡的描述中的一者或兩者大于對目標幀的在相應頻帶上的頻譜包絡的對應描述的情況。參考語音包可包括對在第一頻帶上的頻譜包絡的量化描述和對在第二頻帶上的頻譜包絡的量化描述。在一個特定實例中,參考語音包中所包括的對在第一頻帶上的頻譜包絡的量化描述具有28個位的長度,且參考語音包中所包括的對在第二頻帶上的頻譜包絡的量化描述具有8個位的長度。在其它實例中,參考語音包中所包括的對在第二頻帶上的頻譜包絡的量化描述的長度不大于參考語音包中所包括的對在第一頻帶上的頻譜包絡的量化描述的長度的百分之三十、四十、五十或六十。參考語音包可包括對針對第一頻帶的時間信息的量化描述和對針對第二頻帶的時間信息的量化描述。在一個特定實例中,參考語音包中所包括的對針對第一頻帶的時間信息的量化描述具有125個位的長度,且參考語音包中所包括的對針對第二頻帶的時間信息的量化描述具有8個位的長度。在其它實例中,參考語音包中所包括的對針對第二頻帶的時間信息的量化描述的長度不大于參考語音包中所包括的對針對第一頻帶的時間信息的量化描述的長度的百分之十、二十、二十五或三十。第二語音包可包括對在第一頻帶上的頻譜包絡的量化描述和/或對針對第一頻帶的時間信息的量化描述。在一個特定實例中,第二經編碼幀中所包括的對在第一頻帶上的頻譜包絡的量化描述具有22個位的長度。在其它實例中,第二語音包中所包括的對在第一頻帶上的頻譜包絡的量化描述的長度不小于參考語音包中所包括的對在第一頻帶上的頻譜包絡的量化描述的長度的百分之四十、五十、六十、七十或七十五。在一個特定實例中,第二語音包中所包括的對針對第一頻帶的時間信息的量化描述具有58個位的長度。在其它實例中,第二語音包中所包括的對針對第一頻帶的時間信息的量化描述的長度為參考語音包中所包括的對在第一頻帶上的頻譜包絡的量化描述的長度的至少百分之二十五、 三十、四十或四十五和/或至多百分之五十、六十或七十。在方法M200的典型實施方案中,參考頻譜信息是對在第二頻帶上的頻譜包絡的描述。此描述可包括模型參數(shù)集合,例如一個或一個以上LSP、LSF、ISP、ISF或LPC系數(shù)向量。一般來說,此描述是如通過任務T210從參考語音包獲得的對第一幀的在第二頻帶上的頻譜包絡的描述。還有可能使參考頻譜信息包括對(例如,第一幀的)在第一頻帶上和/ 或在另一頻帶上的頻譜包絡的描述。圖25展示方法M200的實施方案M240的應用,所述實施方案包括任務T260。任務T260經配置以基于來自包括第二語音包的經編碼幀的信息而產生與語音信號分離的信息信號的突發(fā)。舉例來說,任務T260可經配置以輸出經編碼幀的特定部分作為如上文所述的信令或次要業(yè)務信號的突發(fā)。此突發(fā)可具有為經編碼幀的長度的至少百分之四十、四十五或五十的以位計的長度。替代地或額外地,此突發(fā)可具有為第二 語音包的長度的至少百分之九十的以位計的長度,或者此突發(fā)可具有等于或長于第二語音包的長度的長度。在一個特定實例中,所述突發(fā)具有86個位(在另一實例中,87個位)的長度,第二語音包具有80 個位的長度,且經編碼幀具有171個位的長度。方法M210、M220和M230還可經實施為包括任務T260。任務T230通常包括從例如半導體存儲器(在本文中還稱為“緩沖器”)等存儲元件的陣列中檢索參考頻譜信息的操作。對于參考頻譜信息包括對在第二頻帶上的頻譜包絡的描述的情況,檢索參考頻譜信息的動作可足以完成任務T230?;蛘?,可能需要將任務 T230配置為計算對目標幀的在第二頻帶上的頻譜包絡的描述(在本文中還稱為“目標頻譜描述”)而非簡單地對其加以檢索。舉例來說,任務T230可經配置以通過向參考頻譜信息添加隨機噪聲而計算目標頻譜描述和/或基于來自至少一個額外語音包的頻譜信息(例如, 基于來自一個以上參考語音包的信息)而計算目標頻譜描述。舉例來說,任務T230可經配置以將目標頻譜描述計算為來自兩個或兩個以上參考語音包的對在第二頻帶上的頻譜包絡的描述的平均值,且此計算可包括向計算所得的平均值添加隨機噪聲。任務T230可經配置以通過在時間上從參考頻譜信息外推或通過在時間上在來自兩個或兩個以上參考語音包的對在第二頻帶上的頻譜包絡的描述之間內插而計算目標頻譜描述。替代地或額外地,任務T230可經配置以通過在頻率上從對目標幀的在另一頻帶上 (例如,在第一頻帶上)的頻譜包絡的描述外推和/或通過在頻率上在對在其它頻帶上的頻譜包絡的描述之間內插而計算目標頻譜描述。通常,參考頻譜信息和目標頻譜描述是頻譜參數(shù)值的向量(或“頻譜向量”)。在一個此類實例中,目標和參考頻譜向量兩者均為LSP向量。在另一實例中,目標和參考頻譜向量兩者均為LPC系數(shù)向量。在又一實例中,目標和參考頻譜向量兩者均為反射系數(shù)向量。任務T230可經配置以根據(jù)例如Sti = sri Vie {1,2, ...,η}的表達式而從參考頻譜信息復制目標頻譜描述,其中st為目標頻譜向量,^為參考頻譜向量(其值通常在-1到+1的范圍內),i為向量元素索弓丨,且η為向量St的長度。在此操作的變化型式中,任務Τ230經配置以向參考頻譜向量應用加權因數(shù)(或加權因數(shù)的向量)。在此操作的另一變化型式中,任務Τ230經配置以通過根據(jù)例如Sti = sri+Zi Vi€{l,2, ...,η}的表達式向參考頻譜向量添加隨機噪聲而計算目標頻譜向量,其中ζ為隨機值的向量。在此情況下,ζ的每一元素可為隨機變量,其值分布于(例如,均勻地)所需范圍上??赡苄枰_保目標頻譜描述的值受到約束(例如,在-1到+1的范圍內)。在此情況下,任務Τ230可經配置以根據(jù)例如Sti = wsri+Zi Vie {1,2,...,η}的表達式而計算目標頻譜描述,其中w具有在0與1之間的值(例如,在0. 3到0. 9的范圍內)且ζ的每一元素的值分布于(例如,均勻地)從-(1-w)到+(1-w)的范圍上。在另一實例中,任務Τ230經配置以基于來自一個以上參考語音包中的每一者的對在第二頻帶上的頻譜包絡的描述而計算目標頻譜描述(例如,作為來自兩個最新近的參考語音包中的每一者的對在第二頻帶上的頻譜包絡的描述的平均值)。在此情況下,可能需要對參考向量進行彼此不同的加權(例如,可對來自較新近的參考語音包的向量加以較重的權數(shù))??赡苄枰獙⑷蝿誘230執(zhí)行為用于處理對經分帶編碼的語音包的高帶部分的擦除的較為一般的操作的實例。舉例來說,語音解碼器或語音解碼方法可經配置以在接收到至少高帶部分被擦除(即,缺少或被發(fā)現(xiàn)具有過多誤差而無法被可靠地恢復)的語音包后執(zhí)行此操作。在典型實 例中,任務T230經配置以基于參考頻譜信息的加權版本而計算目標頻譜描述。權數(shù)W可為如在以下表達式中的標量sti = WSri Vie {1,2,...,η}?;蛘撸瑱鄶?shù)w可為可能具有不同值的元素的向量,如以下表達式sti =WiSH Vie{l,2,...,n}。對于任務T230為用于擦除處理的較為一般的操作的實例的情況,可能需要將權數(shù)實施為衰減因數(shù)α。還可能需要實施此操作以使得衰減因數(shù)α的值隨高帶擦除的連續(xù)系列中的每一者而減小。舉例來說,衰減因數(shù)α對于所述系列中的第一包可具有值0.9,對于所述系列中的第二包可具有值0. 7,且對于所述系列中的后續(xù)包可具有值0. 5。(在此情況下,可能需要對擦除系列中的每一包使用相同的參考頻譜向量。)在另一此類實例中,任務Τ230經配置以基于相加性常數(shù)ν而計算目標頻譜描述,所述相加性常數(shù)ν可為如表達式 sti = α sriv Vie {1,2, ·.·., η}中的標量或如表達式 sti = α sri+Vi Vie {1,2, ...,n}中的向量。 可將此常數(shù)ν實施為初始頻譜向量Stl,如在表達式Sti= α SrJStliVie {1,2, ··.,η}中。在此情況下,初始頻譜向量Stl的元素的值可為i的函數(shù)(例如,Stli = bi,其中b為常數(shù))。在一個特定實例中,s0i = 0. 048i Vie{l,2,…,η}。任務Τ230還可經實施以除參考頻譜信息以外還基于一個或一個以上幀的在另一頻帶上的頻譜包絡而計算目標頻譜描述。舉例來說,任務Τ230的此實施方案可經配置以通過在頻率上從當前幀和/或一個或一個以上先前幀的在另一頻帶(例如,第一頻帶)上的頻譜包絡外推而計算目標頻譜描述。任務Τ230可經配置以基于來自參考語音包的信息(在本文中還稱為“參考時間信息”)而獲得對目標幀的在第二頻帶上的時間信息的描述。參考時間信息通常為對在第二頻帶上的時間信息的描述。此描述可包括一個或一個以上增益框架值、增益輪廓值、音調參數(shù)值和/或代碼簿索引。一般來說,此描述是如通過任務Τ210從參考語音包獲得的對第一幀的在第二頻帶上的時間信息的描述。還有可能使參考時間信息包括對(例如,第一幀的) 在第一頻帶上和/或在另一頻帶上的時間信息的描述。任務Τ230可經配置以通過復制參考時間信息而獲得對目標幀的在第二頻帶上的時間信息的描述(在本文中還稱為“目標時間描述”)。或者,可能需要將任務Τ230配置為通過基于參考時間信息計算目標時間描述而獲得所述目標時間描述。舉例來說,任務Τ230 可經配置以通過向參考時間信息添加隨機噪聲而計算目標時間描述。任務Τ230還可經配置以基于來自一個以上參考語音包的信息而計算目標時間描述。舉例來說,任務Τ230可經配置以將目標時間描述計算為來自兩個或兩個以上參考語音包的對在第二頻帶上的時間信息的描述的平均值,且此計算可包括向計算所得的平均值添加隨機噪聲。如上文所述,可能需要任務Τ230獲得對目標幀的在第二頻帶上的時間信息的描述作為用于處理經分帶編碼的語音包的高帶部分的擦除的較為一般操作的實例的部分。目標時間描述和參考時間信息每一者可包括對時間包絡的描述。如上文所提到的,對時間包絡的描述可包括增益框架值和/或一組增益形狀值。替代地或額外地,目標時間描述和參考時間信息每一者可包括對激勵信號的描述。對激勵信號的描述可包括對音調分量的描述(例如,音調滯后或延遲、音調增益和/或對原型的描述)。任務T230通常經配置以將目標時間描述的增益形狀設定為平坦的。舉例來說,任務T230可經配置以將目標時間描述的增益形狀值設定為彼此相等。任務T230的一個此類實施方案經配置以將所有增益形狀值設定為因數(shù)1(例如,OdB)。任務T230的另一此類實施方案經配置以將所有增益形狀值設定為因數(shù)1/n,其中η為目標時間描述中的增益形狀 值的數(shù)目。任務Τ230可經配置以根據(jù)例如gt = 或gt = Wgr+(1-w) ζ的表達式而計算目標時間描述的增益框架值gt,其中ι為來自參考時間信息的增益框架值,Z為隨機值,且W為加權因數(shù)。Z的值的典型范圍包括0到1和-1到+1。W的值的典型范圍包括0.5(或0.6) 到 0. 9(或 1. 0)。在典型實例中,任務T230經配置以基于參考時間信息的增益框架值的加權版本而計算目標時間描述的增益框架值,如在表達式gt = 中。對于任務T230為用于擦除處理的較為一般的操作的實例的情況,可能需要將權數(shù)實施為衰減因數(shù)β。還可能需要實施此操作以使得衰減因數(shù)β的值隨高帶擦除的連續(xù)系列中的每一者而減小。舉例來說,衰減因數(shù)β對于所述系列中的第一包可具有值0.9,對于所述系列中的第二包可具有值0.7, 且對于所述系列中的后續(xù)包可具有值0.5。(在此情況下,可能需要對擦除系列中的每一包使用相同的參考增益框架值。)在另一此類實例中,任務Τ230經配置以基于來自參考時間信息的一個或一個以上增益形狀值而計算目標時間描述的增益框架值,如在表達式
gt = Pgr χI^hri
權利要求
1.一種語音編碼器,所述語音編碼器包含包編碼器,其經配置以(A)基于語音信號的第一有效幀且響應于速率控制信號的第一狀態(tài)而產生第一語音包,所述第一語音包包括對在(1)第一頻帶和( 在所述第一頻帶上方延伸的第二頻帶上的頻譜包絡的描述,且(B)基于所述語音信號的第二有效幀且響應于所述速率控制信號的不同于所述第一狀態(tài)的第二狀態(tài)產生第二語音包,所述第二語音包包括對在所述第一頻帶上的頻譜包絡的描述;和幀格式化器,其經布置以接收所述第一和第二語音包,且經配置以(A)響應于模糊化控制信號的第一狀態(tài)而產生含有所述第一語音包的第一經編碼幀且(B)響應于所述模糊化控制信號的不同于所述第一狀態(tài)的第二狀態(tài)產生含有所述第二語音包和與所述語音信號分離的信息信號的突發(fā)的第二經編碼幀,其中所述第一和第二經編碼幀具有相同長度,所述第一語音包占據(jù)所述第一經編碼幀的至少百分之八十,且所述第二語音包占據(jù)所述第二經編碼幀的不超過一半,且其中所述第二有效幀在所述語音信號中緊隨所述第一有效幀之后出現(xiàn)。
2.—種處理語音包的方法,所述方法包含基于來自一來自經編碼語音信號的第一語音包的信息,獲得對語音信號的第一幀的在 (A)第一頻帶和(B)不同于所述第一頻帶的第二頻帶上的頻譜包絡的描述;基于來自一來自所述經編碼語音信號的第二語音包的信息,獲得對所述語音信號的第二幀的在所述第一頻帶上的頻譜包絡的描述;基于來自所述第一語音包的信息,獲得對所述第二幀的在所述第二頻帶上的頻譜包絡的描述;和基于來自所述第二語音包的信息,獲得與所述第二幀的針對所述第一頻帶的音調分量相關的信息,其中所述對語音信號的第一幀的頻譜包絡的描述包含單獨的第一和第二描述,其中所述第一描述是對所述第一幀的在所述第一頻帶上的頻譜包絡的描述,且其中所述第二描述是對所述第一幀的在所述第二頻帶上的頻譜包絡的描述,以及其中所述第二頻帶具有不少于三千赫茲的下限。
3.根據(jù)權利要求2所述的處理語音包的方法,其中所述與所述第二幀的針對所述第一頻帶的音調分量相關的信息包括音調滯后值。
4.根據(jù)權利要求2或3所述的處理語音包的方法,其中所述方法包含基于所述與所述第二幀的針對所述第一頻帶的音調分量相關的信息計算所述第二幀的針對所述第一頻帶的激勵信號。
5.根據(jù)權利要求4所述的處理語音包的方法,其中所述計算激勵信號基于與針對所述第一頻帶的第二音調分量相關的信息,且其中所述與第二音調分量相關的信息基于來自所述第一語音包的信息。
6.根據(jù)權利要求4或5所述的處理語音包的方法,其中所述方法包含基于所述第二幀的針對所述第一頻帶的所述激勵信號計算所述第二幀的針對所述第二頻帶的激勵信號。
7.根據(jù)權利要求2至6中任一權利要求所述的處理語音包的方法,其中所述方法包含從所述經編碼語音信號的經編碼幀獲得與所述語音信號分離的信息信號的突發(fā),其中所述經編碼幀包括所述第二語音包。
8.根據(jù)權利要求2至7中任一權利要求所述的處理語音包的方法,其中所述第二頻帶在所述第一頻帶上方延伸。
9.根據(jù)權利要求2至7中任一權利要求所述的處理語音包的方法,其中所述方法包括基于來自所述第一語音包的信息,獲得對所述第二幀的在所述第二頻帶上的時間包絡的描述。
10.根據(jù)權利要求2至7和9中任一權利要求所述的處理語音包的方法,其中所述第二幀的在所述第一頻帶上的頻譜包絡的描述是具有一階的線性預測編碼(LPC)系數(shù)的向量, 以及其中所述第二幀的在所述第二頻帶上的頻譜包絡的描述是小于一階的具有二階的線性預測編碼(LPC)系數(shù)的向量。
11.根據(jù)權利要求2至7,9和10中任一權利要求所述的處理語音包的方法,其中所述第二幀的在所述第二頻帶上的頻譜包絡的描述是基于(A)來自所述第一語音包的信息與 (B) 一個衰減因數(shù)的乘積。
12.根據(jù)權利要求2至7和9至10中任一權利要求所述的處理語音包的方法,其中所述第二幀的在所述第二頻帶上的頻譜包絡的描述是基于(A)來自所述第一語音包的信息與⑶隨機噪聲的和。
13.一種用于處理語音包的設備,所述設備包含用于基于來自一來自經編碼語音信號的第一語音包的信息獲得對語音信號的第一幀的在(A)第一頻帶和(B)不同于所述第一頻帶的第二頻帶上的頻譜包絡的描述的裝置;用于基于來自一來自所述經編碼語音信號的第二語音包的信息獲得對所述語音信號的第二幀的在所述第一頻帶上的頻譜包絡的描述的裝置;用于基于來自所述第一語音包的信息獲得對所述第二幀的在所述第二頻帶上的頻譜包絡的描述的裝置;和用于基于來自所述第二語音包的信息獲得與所述第二幀的針對所述第一頻帶的音調分量相關的信息的裝置,其中所述對語音信號的第一幀的頻譜包絡的描述包含單獨的第一和第二描述,其中所述第一描述是對所述第一幀的在所述第一頻帶上的頻譜包絡的描述,且其中所述第二描述是對所述第一幀的在所述第二頻帶上的頻譜包絡的描述,以及其中所述第二頻帶具有不少于三千赫茲的下限。
14.根據(jù)權利要求13所述的用于處理語音包的設備,其中所述與所述第二幀的針對所述第一頻帶的音調分量相關的信息包括音調滯后值。
15.根據(jù)權利要求13或14所述的用于處理語音包的設備,其中所述設備包含用于基于所述與所述第二幀的針對所述第一頻帶的音調分量相關的信息計算所述第二幀的針對所述第一頻帶的激勵信號的裝置,且其中所述設備包含用于基于所述第二幀的針對所述第一頻帶的所述激勵信號計算所述第二幀的針對所述第二頻帶的激勵信號的裝置。
16.根據(jù)權利要求13至15中任一權利要求所述的用于處理語音包的設備,其中所述設備包含用于基于來自所述經編碼語音信號的經編碼幀的信息獲得與所述語音信號分離的信息信號的突發(fā)的裝置,其中所述經編碼幀包括所述第二語音包。
17.一種語音解碼器,其經配置以基于經編碼語音信號而計算經解碼語音信號,所述語音解碼器包含控制邏輯,其經配置以產生包含值序列的控制信號,所述值序列基于來自所述經編碼語音信號的語音包的編碼索引,所述序列中的每一值對應于所述經解碼語音信號的幀周期;和包解碼器,其經配置以(A)響應于所述控制信號的具有第一狀態(tài)的值而基于以下描述計算對應的經解碼幀 對所述經解碼幀的在(1)第一頻帶和( 在所述第一頻帶上方延伸的第二頻帶上的頻譜包絡的描述,所述描述基于來自一來自所述經編碼語音信號的語音包的信息,且(B)響應于所述控制信號的具有不同于所述第一狀態(tài)的第二狀態(tài)的值而基于以下描述計算對應的經解碼幀(1)對所述經解碼幀的在所述第一頻帶上的頻譜包絡的描述,所述描述基于來自一來自所述經編碼語音信號的語音包的信息,和( 對所述經解碼幀的在所述第二頻帶上的頻譜包絡的描述,所述描述基于來自在所述經編碼語音信號中出現(xiàn)于所述語音包之前的至少一個語音包的信息,其中所述對所述經解碼幀的在(1)第一頻帶和( 在所述第一頻帶上方延伸的第二頻帶上的頻譜包絡的描述包含單獨的第一和第二描述,其中所述第一描述是對所述經解碼幀的在所述第一頻帶上的頻譜包絡的描述,且其中所述第二描述是對所述經解碼幀的在所述第二頻帶上的頻譜包絡的描述,且其中所述第二頻帶具有不少于三千赫茲的下限。
18.根據(jù)權利要求17所述的語音解碼器,其中所述與所述第二幀的針對所述第一頻帶的音調分量相關的信息包括音調滯后值。
19.根據(jù)權利要求17或18所述的語音解碼器,其中所述包解碼器經配置以響應于所述控制信號的具有第二狀態(tài)的值且基于所述與所述第二幀的針對所述第一頻帶的音調分量相關的信息計算所述第二幀的針對所述第一頻帶的激勵信號,且其中所述設備包含用于基于所述第二幀的針對所述第一頻帶的所述激勵信號計算所述第二幀的針對所述第二頻帶的激勵信號的裝置。
20.根據(jù)權利要求17至19中任一權利要求所述的語音解碼器,其中所述設備包含用于基于來自所述經編碼語音信號的經編碼幀的信息而獲得與所述語音信號分離的信息信號的突發(fā)的裝置,其中所述經編碼幀包括第二語音包。
全文摘要
本發(fā)明涉及用于對有效幀進行寬帶編碼和解碼的系統(tǒng)、方法和設備。本發(fā)明描述將模糊和突發(fā)技術應用于寬帶語音信號的編碼。本發(fā)明還描述使用來自先前幀的信息重構寬帶語音信號的幀的高帶部分。
文檔編號G10L19/06GK102324236SQ201110243169
公開日2012年1月18日 申請日期2007年7月31日 優(yōu)先權日2006年7月31日
發(fā)明者維韋克·拉金德朗, 阿南塔帕德馬那伯罕·A·坎達哈達伊 申請人:高通股份有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
和龙市| 乌拉特中旗| 玉环县| 勃利县| 沙田区| 北碚区| 孙吴县| 疏勒县| 崇左市| 曲阜市| 通海县| 东丰县| 正安县| 襄垣县| 杂多县| 东山县| 山东省| 哈巴河县| 彰化市| 富民县| 新竹县| 肥东县| 宁国市| 武川县| 崇义县| 滁州市| 平武县| 金昌市| 陇西县| 六安市| 泰宁县| 宁陕县| 涿州市| 峡江县| 广汉市| 乡宁县| 正镶白旗| 神池县| 海宁市| 六枝特区| 铜陵市|