自適應編碼濁音語音的基音周期的制作方法

文檔序號：2825835閱讀：274來源：國知局

自適應編碼濁音語音的基音周期的制作方法
【專利摘要】本發(fā)明提供了用于雙重模式基音周期編碼的系統(tǒng)和方法實施例。所述系統(tǒng)和方法實施例用于根據(jù)基音周期長度、穩(wěn)定性或兩者使用一個或兩個基音周期編碼模式對濁音語音信號的基音周期進行自適應編碼。所述兩種基音周期編碼模式包括具有相對較高的精確度和較小的動態(tài)范圍的第一基音周期編碼模式以及具有相對較大的基音周期動態(tài)范圍和較低的精確度的第二基音周期編碼模式。在確定所述濁音語音信號具有相對較短或相當穩(wěn)定的基音周期之后，使用所述第一基音周期編碼模式。在確定所述濁音語音信號具有相對較長或穩(wěn)定性較差的基音周期或是相當嘈雜的信號之后，使用所述第二基音周期編碼模式。
【專利說明】自適應編碼濁音語音的基音周期
[0001] 本發(fā)明要求2012年12月21日遞交的發(fā)明名稱為"自適應編碼濁音語音的基音周期（Adaptively Encoding Pitch Lag For Voiced Speech)" 的第 13/724700 號美國非臨時專利申請案的在先申請優(yōu)先權，該在先申請案要求2011年12月21日遞交的發(fā)明名稱為"自適應編碼池音語音的基音周期（Adaptively Encoding Pitch Lag For Voiced Speech) "的第61/578391號美國臨時專利申請案的在先申請優(yōu)先權，以上在先申請的內容以引入的方式并入本文本中

【技術領域】
[0002] 本發(fā)明大體涉及信號編碼領域，且在特定實施例中，涉及一種用于對濁音語音的基音周期進行編碼的系統(tǒng)和方法。

【背景技術】
[0003] 傳統(tǒng)來講，參數(shù)化語音編碼方法都是利用語音信號本身的冗余，來減少待發(fā)送的信息量，并估算一個信號的語音樣本在短時段內的參數(shù)。這種冗余起因于語音波形周期性的重復和語音信號的頻譜包絡慢變過程。不同形式的語音波形的冗余對應于不同類型的語音信號，例如濁音和清音。就濁音語音而言，語音信號基本上是周期性的。然而，這種周期性在語音段中是變化的，而且周期波形在語音段之間緩慢變化。低比特率的語音編碼可以很大地受益于這種周期性。濁音語音周期還稱為基音周期，這種基音周期預測通常被命名為長期預測（LTP)。至于清音，其信號更像是一個隨機噪聲，可預測性也較小。

【發(fā)明內容】

[0004] 根據(jù)實施例，一種由語音/音頻編碼裝置實施的雙重模式基音周期編碼方法包括，根據(jù)基音周期長度、穩(wěn)定性或兩者，使用兩種基音周期編碼模式中的一種對一個濁音語音信號中一幀的多個子幀的基音周期進行編碼。所述兩種基音周期編碼模式包括第一種基音周期編碼模式和第二種基音周期編碼模式，其中第一種基音周期編碼模式具有相對較高的基音周期編碼精確度和較小的動態(tài)范圍，而第二種基音周期編碼模式具有相對較大的基音周期動態(tài)范圍和較低的編碼精確度。
[0005] 根據(jù)另一實施例，一種由語音/音頻編碼裝置實施的雙重模式基音周期編碼的方法包括，確定一個濁音語音信號是否具有相對較短的基音周期和相當穩(wěn)定的基音周期中的一個或者具有相對較長的基音周期和相對穩(wěn)定性較差的基音周期中的一個或者是一個相當嘈雜的信號。所述方法進一步包括，在確定所述濁音語音信號具有相對較短的或相當穩(wěn) 定的基音周期之后，對所述具有相對較高的基音周期精確度和較小的動態(tài)范圍的濁音語音信號的基音周期進行編碼，或者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個相當嘈雜的信號之后，對所述具有相對較大的基音周期動態(tài)范圍和較低的精確度的濁音語音信號的基音周期進行編碼。
[0006] 在又一實施例中，一種支持雙重模式基音周期編碼的裝置，包括一個處理器和一個存儲由所述處理器執(zhí)行的程序的計算機可讀存儲介質。所述程序包括多個指令，以確定濁音語音信號是否具有相對較短的基音周期和相當穩(wěn)定的基音周期中的一個或者具有相對較長的基音周期和相對穩(wěn)定性較差的基音周期中的一個或者是否是一個相對嘈雜的信號；以及在確定所述濁音語音信號具有相對較短的或相當穩(wěn)定的基音周期之后，對具有相對較高的精確度和較小的動態(tài)范圍的濁音語音信號的基音周期進行編碼；或在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是相對嘈雜的信號之后，對具有相對較大的動態(tài)范圍和較低的精確度的濁音語音信號的基音周期進行編碼。

【專利附圖】

【附圖說明】
[0007] 為了更完整地理解本發(fā)明及其優(yōu)點，現(xiàn)在參考以下結合附圖進行的描述，其中：
[0008] 圖1是碼激勵線性預測技術（CELP)編碼器的方框圖。
[0009] 圖2是對應于圖1中的CELP編碼器的解碼器的方框圖。
[0010] 圖3是另一具有自適應分量的CELP編碼器的方框圖。
[0011] 圖4是另一對應于圖3中的CELP編碼器的解碼器的方框圖。
[0012] 圖5是基音周期小于子幀大小和半幀大小的濁音語音信號的示例。
[0013] 圖6是基音周期大于子幀大小而小于半幀大小的濁音語音信號的示例。
[0014] 圖7示出了濁音語音信號的頻譜的示例。
[0015] 圖8示出了圖7中的經(jīng)過雙倍基音周期編碼的相同信號的頻譜的示例。
[0016] 圖9示出了用于對濁音語音的基音周期進行雙重模式的自適應編碼的實施例方法。
[0017] 圖10是可用于實施各種實施例的處理系統(tǒng)的方框圖。

【具體實施方式】
[0018] 下文將詳細論述當前優(yōu)選實施例的制作和使用。然而，應了解，本發(fā)明提供可在各種具體上下文中體現(xiàn)的許多適用的發(fā)明性概念。所論述的具體實施例僅僅說明用以實施和使用本發(fā)明的具體方式，而不限制本發(fā)明的范圍。
[0019] 針對濁音或清音，參數(shù)編碼通過分割頻譜包絡分量和語音信號的激勵分量來減少語音段的冗余。頻譜包絡慢變過程可以被描述成線性預測編碼（LPC)，也稱為短期預測 (STP)。低比特率的語音編碼也同樣受益于短期預測。這種編碼的優(yōu)點就來自于參數(shù)的慢速變化。進一步地，語音信號參數(shù)值可能不會在幾毫秒內有很大不同。在8千赫茲（kHz)、 12. 8kHz或16kHz采樣率時，語音編碼算法將10毫秒至30毫秒范圍內的語音段作為常用的幀長。而20毫秒是最常用的幀長。在G. 723. 1、G. 729、G. 718、EFR、SMV、AMR、VMR-WB或 AMR-WB等較近期的知名國際標準中已經(jīng)采用了碼激勵線性預測技術（CELP)。CELP是一種編碼激勵、長期預測和短期預測技術的結合。盡管不同編解碼器的CELP細節(jié)可能顯著不同，但利用CELP的語音編碼算法在語音壓縮領域已經(jīng)相當流行。
[0020] 圖1示出了 CELP編碼器100的示例，其中利用綜合分析方法可以最小化合成語音信號102和原始語音信號101之間的加權誤差109。CELP編碼器100執(zhí)行不同的操作或功能。對應的函數(shù)W(z)通過誤差加權濾波器110實現(xiàn)。函數(shù)1/B(z)通過長期線性預測濾波器105實現(xiàn)。函數(shù)1/A(z)通過短期線性預測濾波器103實現(xiàn)。來自編碼激勵塊108的編碼激勵107,也稱為固化碼本激勵，在通過隨后濾波器之前乘以增益GJ06調節(jié)。短期線性預測濾波器103通過分析原始信號101實施并由一組系數(shù)表示：
[0021]

【權利要求】
1. 一種由語音或音頻編碼裝置實施的雙重模式基音周期編碼的方法，其特征在于，所述方法包括：根據(jù)基音周期長度、穩(wěn)定性或兩者，使用兩種基音周期編碼模式中的一種對一個濁音語音信號中一幀的多個子幀的基音周期進行編碼，其中所述兩種基音周期編碼模式包括第一種基音周期編碼模式和第二種基音周期編碼模式，所述第一種基音周期編碼模式具有相對較高的基音周期編碼精確度和較小的動態(tài)范圍，所述第二種基音周期編碼模式具有相對較大的基音周期動態(tài)范圍和較低的精確度。
2. 根據(jù)權利要求1所述的方法，其特征在于，所述第一基音周期編碼模式用于對具有相對較短或相當穩(wěn)定的基音周期進行編碼，以及所述第二基音周期編碼模式用于對具有相對較長或穩(wěn)定性相對較差的或者是相當嘈雜的信號的基音周期進行編碼。
3. 根據(jù)權利要求1所述的方法，其特征在于，相比于傳統(tǒng)的碼激勵線性預測技術CELP 算法，以具有相對較高的精確度和較小的動態(tài)范圍或具有相對較大的動態(tài)范圍和較低的精確度對基音周期進行編碼。
4. 根據(jù)權利要求1所述的方法，其特征在于，進一步包括，相比于傳統(tǒng)的碼激勵線性預測技術CELP算法，使用較少的比特對基音周期進行編碼。
5. 根據(jù)權利要求1所述的方法，其特征在于，所述濁音語音信號的編碼具有相對較低的比特率，其小于或等于16千比特每秒kbps。
6. -種由語音或音頻編碼裝置實施的雙重模式基音周期編碼的方法，其特征在于，所述方法包括：確定濁音語音信號是否具有相對較短的基音周期和相當穩(wěn)定的基音周期中的一個或相對較長的基音周期和穩(wěn)定性相對較差的基音周期中的一個或是相當嘈雜的信號；以及在確定所述濁音語音信號具有相對較短的或相當穩(wěn)定的基音周期之后，對所述具有相對較高的基音周期精確度和較小的動態(tài)范圍的濁音語音信號的基音周期進行編碼，或者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個相當嘈雜的信號之后，對所述具有相對較大的基音周期動態(tài)范圍和較低的精確度的濁音語音信號的基音周期進行編碼。
7. 根據(jù)權利要求6所述的方法，其特征在于，進一步包括：在確定所述濁音語音信號具有相對較短的或相當穩(wěn)定的基音周期之后，在對所述基音周期進行編碼中指示第一基音周期編碼模式具有相對較高的精確度和較小的動態(tài)范圍，或者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個相當嘈雜的信號之后，指示第二基音周期編碼模式具有相對較大的動態(tài)范圍和較低的精確度。
8. 根據(jù)權利要求7所述的方法，其特征在于，所述第一基音周期編碼模式或所述第二基音周期編碼模式由在對所述基音周期進行編碼中的一個比特指示。
9. 根據(jù)權利要求7所述的方法，其特征在于，所述濁音語音信號在12. 8千赫茲kHz取樣頻率下使用6800比特每秒進行編碼并包括四個子幀，其包括使用9個比特進行編碼的第一子幀，除此之外，一個指示所述第一基音周期編碼模式或所述第二基音周期編碼模式的比特，使用4個比特進行編碼的第二子幀和第三子幀，以及使用5個比特進行編碼的第四子幀。
10. 根據(jù)權利要求9所述的方法，其特征在于，所述具有相對較短或相當穩(wěn)定的基音周期的濁音語音信號具有16到143之間的基音周期，濁音語音信號的幀的每個子幀使用四分之一的基音周期精確度進行編碼，以及所述第一子幀和所述第四子幀使用±4的基音周期動態(tài)范圍進行編碼，所述第二子幀和所述第三子幀使用±2的基音周期動態(tài)范圍進行編碼。
11. 根據(jù)權利要求9所述的方法，其特征在于，所述具有相對較長或穩(wěn)定性較差的基音周期的濁音語音信號具有34到128之間的基音周期，所述第一子幀和所述第四子幀使用四分之一的基音周期精確度進行編碼，所述第二子幀和所述第三子幀使用二分之一的基音周期精確度進行編碼，以及所述子幀中的每個子幀使用±4的基音周期動態(tài)范圍進行編碼。
12. 根據(jù)權利要求9所述的方法，其特征在于，所述具有相對較長或穩(wěn)定性較差的基音周期的濁音語音信號具有128到160之間的基音周期，所述第一子幀、所述第二子幀和所述第三子幀使用二分之一的基音周期精確度進行編碼，所述第四子幀使用四分之一的基音周期精確度進行編碼，以及所述子幀中的每個子幀使用±4的基音周期動態(tài)范圍進行編碼。
13. 根據(jù)權利要求9所述的方法，其特征在于，所述具有相對較長或穩(wěn)定性較差的基音周期的濁音語音信號具有160到231之間的基音周期，所述第一子幀使用1的基音周期精確度進行編碼，所述第四子幀使用四分之一的基音周期精確度進行編碼，以及所述子幀中的每個子幀使用±4的基音周期動態(tài)范圍進行編碼。
14. 根據(jù)權利要求7所述的方法，其特征在于，所述濁音語音信號在12. 8千赫茲kHz取樣頻率下使用7600比特每秒進行編碼并包括四個子幀，其包括使用9個比特進行編碼的第一子幀，除此之外，一個指示所述第一基音周期編碼模式或所述第二基音周期編碼模式的比特，使用3個比特進行編碼的第二子幀和第三子幀，以及使用4個比特進行編碼的第四子幀。
15. 根據(jù)權利要求14所述的方法，其特征在于，所述具有相對較短或相當穩(wěn)定的基音周期的濁音語音信號具有16到143之間的基音周期，每個子幀使用四分之一的基音周期精確度進行編碼，以及所述第一子幀使用四分之一的基音周期精確度進行編碼，所述第二子幀和所述第三子幀使用±1的基音周期動態(tài)范圍進行編碼，以及所述第四子幀使用±2的基音周期動態(tài)范圍進行編碼。
16. 根據(jù)權利要求14所述的方法，其特征在于，所述具有相對較長或穩(wěn)定性較差的基音周期的濁音語音信號具有34到128之間的基音周期，所述第一子幀使用四分之一的基音周期精確度進行編碼，所述第二子幀、所述第三子幀和所述第四子幀使用二分之一的基音周期精確度進行編碼，以及所述第一子幀和所述第四子幀使用±4的基音周期動態(tài)范圍進行編碼，第二子幀和第三子幀使用±2的基音周期動態(tài)范圍進行編碼。
17. 根據(jù)權利要求14所述的方法，其特征在于，所述具有相對較長或穩(wěn)定性較差的基音周期的濁音語音信號具有128到160之間的基音周期，所述第一子幀和所述第四子幀使用二分之一的基音周期精確度進行編碼，所述第二子幀和所述第三子幀使用1的基音周期精確度進行編碼，以及每個所述子幀使用±4的基音周期動態(tài)范圍進行編碼。
18. 根據(jù)權利要求14所述的方法，其特征在于，所述具有相對較長或穩(wěn)定性較差的基音周期的濁音語音信號具有160到231之間的基音周期，所述第一子幀、所述第二子幀和所述第三子幀使用1的基音周期精確度進行編碼，所述第四子幀使用二分之一的基音周期精確度進行編碼，以及每個所述子幀使用±4的基音周期動態(tài)范圍進行編碼。
19. 根據(jù)權利要求7所述的方法，其特征在于，所述濁音語音信號在12. 8千赫茲kHz取樣頻率下使用9200比特每秒或更大速率進行編碼并包括四個子幀，其包括使用9個比特進行編碼的第一子幀，除此之外，一個指示所述第一基音周期編碼模式或所述第二基音周期編碼模式的比特，使用4個比特進行編碼的第二子幀，以及使用5個比特進行編碼的第三子幀和第四子幀。
20. 根據(jù)權利要求19所述的方法，其特征在于，所述具有相對較短或相當穩(wěn)定的基音周期的濁音語音信號具有16到143之間的基音周期，濁每個子幀使用四分之一的基音周期精確度進行編碼，以及所述第一子幀、所述第三子幀和所述第四子幀使用±4的基音周期動態(tài)范圍進行編碼，所述第二子幀使用±2的基音周期動態(tài)范圍進行編碼。
21. 根據(jù)權利要求19所述的方法，其特征在于，所述具有相對較長或穩(wěn)定性較差的基音周期的濁音語音信號具有34到128之間的基音周期，所述第一子幀、所述第二子幀和所述第三子幀使用四分之一的基音周期精確度進行編碼，所述第四子幀使用二分之一的基音周期精確度進行編碼，以及每個所述子幀使用±4的基音周期動態(tài)范圍進行編碼。
22. 根據(jù)權利要求19所述的方法，其特征在于，所述具有相對較長或穩(wěn)定性較差的基音周期的濁音語音信號具有128到160之間的基音周期，所述第一子幀和所述第二子幀使用二分之一的基音周期精確度進行編碼，所述第二子幀和所述第三子幀使用四分之一的基音周期精確度進行編碼，以及每個所述子幀使用±4的基音周期動態(tài)范圍進行編碼。
23. 根據(jù)權利要求19所述的方法，其特征在于，所述具有相對較長或穩(wěn)定性較差的基音周期的濁音語音信號具有160到231之間的基音周期，所述第一子幀使用1的基音周期精確度進行編碼，所述第二子幀使用二分之一的基音周期精確度進行編碼，所述第三子幀和所述第四子幀使用四分之一的基音周期精確度進行編碼，以及每個所述子幀使用±4的基音周期動態(tài)范圍進行編碼。
24. -種支持雙重模式基音周期編碼的裝置，其特征在于，包括：一種處理器；以及一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲由所述處理器執(zhí)行的程序，所述程序包括可進行如下操作的指令：確定濁音語音信號是否具有相對較短的基音周期和相當穩(wěn)定的基音周期中的一個或相對較長的基音周期和穩(wěn)定性相對較差的基音周期中的一個或是相當嘈雜的信號；以及在確定所述濁音語音信號具有相對較短的或相當穩(wěn)定的基音周期之后，對所述具有相對較高的精確度和較小的動態(tài)范圍的濁音語音信號的基音周期進行編碼，或者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個相當嘈雜的信號之后，對所述具有相對較大的動態(tài)范圍和較低的精確度的濁音語音信號的基音周期進行編碼。
25. 根據(jù)權利要求24所述的裝置，其特征在于，所述程序進一步包括進行如下操作的指令：在確定所述濁音語音信號具有相對較短的或相當穩(wěn)定的基音周期之后，在對所述基音周期進行編碼中指示第一基音周期編碼模式具有相對較高的精確度和較小的動態(tài)范圍，或者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個相當嘈雜的信號之后，指示第二基音周期編碼模式具有相對較大的動態(tài)范圍和較低的精確度，其中所述第一基音周期編碼模式或所述第二基音周期編碼模式由一個在對所述基音周期進行編碼中的比特指示。
【文檔編號】G10L19/18GK104254886SQ201280055505
【公開日】2014年12月31日申請日期:2012年12月21日優(yōu)先權日:2011年12月21日
【發(fā)明者】高陽申請人:華為技術有限公司

完整全部詳細技術資料下載