自適應編碼濁音語音的基音周期的制作方法
【專利摘要】本發(fā)明提供了用于雙重模式基音周期編碼的系統(tǒng)和方法實施例。所述系統(tǒng)和方法實施例用于根據(jù)基音周期長度、穩(wěn)定性或兩者使用一個或兩個基音周期編碼模式對濁音語音信號的基音周期進行自適應編碼。所述兩種基音周期編碼模式包括具有相對較高的精確度和較小的動態(tài)范圍的第一基音周期編碼模式以及具有相對較大的基音周期動態(tài)范圍和較低的精確度的第二基音周期編碼模式。在確定所述濁音語音信號具有相對較短或相當穩(wěn)定的基音周期之后,使用所述第一基音周期編碼模式。在確定所述濁音語音信號具有相對較長或穩(wěn)定性較差的基音周期或是相當嘈雜的信號之后,使用所述第二基音周期編碼模式。
【專利說明】自適應編碼濁音語音的基音周期
[0001] 本發(fā)明要求2012年12月21日遞交的發(fā)明名稱為"自適應編碼濁音語音的基音 周期(Adaptively Encoding Pitch Lag For Voiced Speech)" 的第 13/724700 號美國 非臨時專利申請案的在先申請優(yōu)先權,該在先申請案要求2011年12月21日遞交的發(fā)明 名稱為"自適應編碼池音語音的基音周期(Adaptively Encoding Pitch Lag For Voiced Speech) "的第61/578391號美國臨時專利申請案的在先申請優(yōu)先權,以上在先申請的內容 以引入的方式并入本文本中
【技術領域】
[0002] 本發(fā)明大體涉及信號編碼領域,且在特定實施例中,涉及一種用于對濁音語音的 基音周期進行編碼的系統(tǒng)和方法。
【背景技術】
[0003] 傳統(tǒng)來講,參數(shù)化語音編碼方法都是利用語音信號本身的冗余,來減少待發(fā)送的 信息量,并估算一個信號的語音樣本在短時段內的參數(shù)。這種冗余起因于語音波形周期性 的重復和語音信號的頻譜包絡慢變過程。不同形式的語音波形的冗余對應于不同類型的語 音信號,例如濁音和清音。就濁音語音而言,語音信號基本上是周期性的。然而,這種周期 性在語音段中是變化的,而且周期波形在語音段之間緩慢變化。低比特率的語音編碼可以 很大地受益于這種周期性。濁音語音周期還稱為基音周期,這種基音周期預測通常被命名 為長期預測(LTP)。至于清音,其信號更像是一個隨機噪聲,可預測性也較小。
【發(fā)明內容】
[0004] 根據(jù)實施例,一種由語音/音頻編碼裝置實施的雙重模式基音周期編碼方法包 括,根據(jù)基音周期長度、穩(wěn)定性或兩者,使用兩種基音周期編碼模式中的一種對一個濁音語 音信號中一幀的多個子幀的基音周期進行編碼。所述兩種基音周期編碼模式包括第一種基 音周期編碼模式和第二種基音周期編碼模式,其中第一種基音周期編碼模式具有相對較高 的基音周期編碼精確度和較小的動態(tài)范圍,而第二種基音周期編碼模式具有相對較大的基 音周期動態(tài)范圍和較低的編碼精確度。
[0005] 根據(jù)另一實施例,一種由語音/音頻編碼裝置實施的雙重模式基音周期編碼的方 法包括,確定一個濁音語音信號是否具有相對較短的基音周期和相當穩(wěn)定的基音周期中的 一個或者具有相對較長的基音周期和相對穩(wěn)定性較差的基音周期中的一個或者是一個相 當嘈雜的信號。所述方法進一步包括,在確定所述濁音語音信號具有相對較短的或相當穩(wěn) 定的基音周期之后,對所述具有相對較高的基音周期精確度和較小的動態(tài)范圍的濁音語音 信號的基音周期進行編碼,或者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的 基音周期或者是一個相當嘈雜的信號之后,對所述具有相對較大的基音周期動態(tài)范圍和較 低的精確度的濁音語音信號的基音周期進行編碼。
[0006] 在又一實施例中,一種支持雙重模式基音周期編碼的裝置,包括一個處理器和一 個存儲由所述處理器執(zhí)行的程序的計算機可讀存儲介質。所述程序包括多個指令,以確定 濁音語音信號是否具有相對較短的基音周期和相當穩(wěn)定的基音周期中的一個或者具有相 對較長的基音周期和相對穩(wěn)定性較差的基音周期中的一個或者是否是一個相對嘈雜的信 號;以及在確定所述濁音語音信號具有相對較短的或相當穩(wěn)定的基音周期之后,對具有相 對較高的精確度和較小的動態(tài)范圍的濁音語音信號的基音周期進行編碼;或在確定所述濁 音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是相對嘈雜的信號之后,對具有 相對較大的動態(tài)范圍和較低的精確度的濁音語音信號的基音周期進行編碼。
【專利附圖】
【附圖說明】
[0007] 為了更完整地理解本發(fā)明及其優(yōu)點,現(xiàn)在參考以下結合附圖進行的描述,其中:
[0008] 圖1是碼激勵線性預測技術(CELP)編碼器的方框圖。
[0009] 圖2是對應于圖1中的CELP編碼器的解碼器的方框圖。
[0010] 圖3是另一具有自適應分量的CELP編碼器的方框圖。
[0011] 圖4是另一對應于圖3中的CELP編碼器的解碼器的方框圖。
[0012] 圖5是基音周期小于子幀大小和半幀大小的濁音語音信號的示例。
[0013] 圖6是基音周期大于子幀大小而小于半幀大小的濁音語音信號的示例。
[0014] 圖7示出了濁音語音信號的頻譜的示例。
[0015] 圖8示出了圖7中的經(jīng)過雙倍基音周期編碼的相同信號的頻譜的示例。
[0016] 圖9示出了用于對濁音語音的基音周期進行雙重模式的自適應編碼的實施例方 法。
[0017] 圖10是可用于實施各種實施例的處理系統(tǒng)的方框圖。
【具體實施方式】
[0018] 下文將詳細論述當前優(yōu)選實施例的制作和使用。然而,應了解,本發(fā)明提供可在各 種具體上下文中體現(xiàn)的許多適用的發(fā)明性概念。所論述的具體實施例僅僅說明用以實施和 使用本發(fā)明的具體方式,而不限制本發(fā)明的范圍。
[0019] 針對濁音或清音,參數(shù)編碼通過分割頻譜包絡分量和語音信號的激勵分量來減 少語音段的冗余。頻譜包絡慢變過程可以被描述成線性預測編碼(LPC),也稱為短期預測 (STP)。低比特率的語音編碼也同樣受益于短期預測。這種編碼的優(yōu)點就來自于參數(shù)的慢 速變化。進一步地,語音信號參數(shù)值可能不會在幾毫秒內有很大不同。在8千赫茲(kHz)、 12. 8kHz或16kHz采樣率時,語音編碼算法將10毫秒至30毫秒范圍內的語音段作為常用 的幀長。而20毫秒是最常用的幀長。在G. 723. 1、G. 729、G. 718、EFR、SMV、AMR、VMR-WB或 AMR-WB等較近期的知名國際標準中已經(jīng)采用了碼激勵線性預測技術(CELP)。CELP是一種 編碼激勵、長期預測和短期預測技術的結合。盡管不同編解碼器的CELP細節(jié)可能顯著不 同,但利用CELP的語音編碼算法在語音壓縮領域已經(jīng)相當流行。
[0020] 圖1示出了 CELP編碼器100的示例,其中利用綜合分析方法可以最小化合成語音 信號102和原始語音信號101之間的加權誤差109。CELP編碼器100執(zhí)行不同的操作或功 能。對應的函數(shù)W(z)通過誤差加權濾波器110實現(xiàn)。函數(shù)1/B(z)通過長期線性預測濾波 器105實現(xiàn)。函數(shù)1/A(z)通過短期線性預測濾波器103實現(xiàn)。來自編碼激勵塊108的編 碼激勵107,也稱為固化碼本激勵,在通過隨后濾波器之前乘以增益GJ06調節(jié)。短期線性 預測濾波器103通過分析原始信號101實施并由一組系數(shù)表示:
[0021]
【權利要求】
1. 一種由語音或音頻編碼裝置實施的雙重模式基音周期編碼的方法,其特征在于,所 述方法包括: 根據(jù)基音周期長度、穩(wěn)定性或兩者,使用兩種基音周期編碼模式中的一種對一個濁音 語音信號中一幀的多個子幀的基音周期進行編碼,其中所述兩種基音周期編碼模式包括第 一種基音周期編碼模式和第二種基音周期編碼模式,所述第一種基音周期編碼模式具有相 對較高的基音周期編碼精確度和較小的動態(tài)范圍,所述第二種基音周期編碼模式具有相對 較大的基音周期動態(tài)范圍和較低的精確度。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述第一基音周期編碼模式用于對具有 相對較短或相當穩(wěn)定的基音周期進行編碼,以及所述第二基音周期編碼模式用于對具有相 對較長或穩(wěn)定性相對較差的或者是相當嘈雜的信號的基音周期進行編碼。
3. 根據(jù)權利要求1所述的方法,其特征在于,相比于傳統(tǒng)的碼激勵線性預測技術CELP 算法,以具有相對較高的精確度和較小的動態(tài)范圍或具有相對較大的動態(tài)范圍和較低的精 確度對基音周期進行編碼。
4. 根據(jù)權利要求1所述的方法,其特征在于,進一步包括,相比于傳統(tǒng)的碼激勵線性預 測技術CELP算法,使用較少的比特對基音周期進行編碼。
5. 根據(jù)權利要求1所述的方法,其特征在于,所述濁音語音信號的編碼具有相對較低 的比特率,其小于或等于16千比特每秒kbps。
6. -種由語音或音頻編碼裝置實施的雙重模式基音周期編碼的方法,其特征在于,所 述方法包括: 確定濁音語音信號是否具有相對較短的基音周期和相當穩(wěn)定的基音周期中的一個或 相對較長的基音周期和穩(wěn)定性相對較差的基音周期中的一個或是相當嘈雜的信號;以及 在確定所述濁音語音信號具有相對較短的或相當穩(wěn)定的基音周期之后,對所述具有相 對較高的基音周期精確度和較小的動態(tài)范圍的濁音語音信號的基音周期進行編碼,或者在 確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個相當嘈雜的 信號之后,對所述具有相對較大的基音周期動態(tài)范圍和較低的精確度的濁音語音信號的基 音周期進行編碼。
7. 根據(jù)權利要求6所述的方法,其特征在于,進一步包括: 在確定所述濁音語音信號具有相對較短的或相當穩(wěn)定的基音周期之后,在對所述基音 周期進行編碼中指示第一基音周期編碼模式具有相對較高的精確度和較小的動態(tài)范圍,或 者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個相當嘈 雜的信號之后,指示第二基音周期編碼模式具有相對較大的動態(tài)范圍和較低的精確度。
8. 根據(jù)權利要求7所述的方法,其特征在于,所述第一基音周期編碼模式或所述第二 基音周期編碼模式由在對所述基音周期進行編碼中的一個比特指示。
9. 根據(jù)權利要求7所述的方法,其特征在于,所述濁音語音信號在12. 8千赫茲kHz取 樣頻率下使用6800比特每秒進行編碼并包括四個子幀,其包括使用9個比特進行編碼的第 一子幀,除此之外,一個指示所述第一基音周期編碼模式或所述第二基音周期編碼模式的 比特,使用4個比特進行編碼的第二子幀和第三子幀,以及使用5個比特進行編碼的第四子 幀。
10. 根據(jù)權利要求9所述的方法,其特征在于,所述具有相對較短或相當穩(wěn)定的基音周 期的濁音語音信號具有16到143之間的基音周期,濁音語音信號的幀的每個子幀使用四 分之一的基音周期精確度進行編碼,以及所述第一子幀和所述第四子幀使用±4的基音周 期動態(tài)范圍進行編碼,所述第二子幀和所述第三子幀使用±2的基音周期動態(tài)范圍進行編 碼。
11. 根據(jù)權利要求9所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基音 周期的濁音語音信號具有34到128之間的基音周期,所述第一子幀和所述第四子幀使用四 分之一的基音周期精確度進行編碼,所述第二子幀和所述第三子幀使用二分之一的基音周 期精確度進行編碼,以及所述子幀中的每個子幀使用±4的基音周期動態(tài)范圍進行編碼。
12. 根據(jù)權利要求9所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基音 周期的濁音語音信號具有128到160之間的基音周期,所述第一子幀、所述第二子幀和所述 第三子幀使用二分之一的基音周期精確度進行編碼,所述第四子幀使用四分之一的基音周 期精確度進行編碼,以及所述子幀中的每個子幀使用±4的基音周期動態(tài)范圍進行編碼。
13. 根據(jù)權利要求9所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基音 周期的濁音語音信號具有160到231之間的基音周期,所述第一子幀使用1的基音周期精 確度進行編碼,所述第四子幀使用四分之一的基音周期精確度進行編碼,以及所述子幀中 的每個子幀使用±4的基音周期動態(tài)范圍進行編碼。
14. 根據(jù)權利要求7所述的方法,其特征在于,所述濁音語音信號在12. 8千赫茲kHz取 樣頻率下使用7600比特每秒進行編碼并包括四個子幀,其包括使用9個比特進行編碼的第 一子幀,除此之外,一個指示所述第一基音周期編碼模式或所述第二基音周期編碼模式的 比特,使用3個比特進行編碼的第二子幀和第三子幀,以及使用4個比特進行編碼的第四子 幀。
15. 根據(jù)權利要求14所述的方法,其特征在于,所述具有相對較短或相當穩(wěn)定的基音 周期的濁音語音信號具有16到143之間的基音周期,每個子幀使用四分之一的基音周期精 確度進行編碼,以及所述第一子幀使用四分之一的基音周期精確度進行編碼,所述第二子 幀和所述第三子幀使用±1的基音周期動態(tài)范圍進行編碼,以及所述第四子幀使用±2的 基音周期動態(tài)范圍進行編碼。
16. 根據(jù)權利要求14所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有34到128之間的基音周期,所述第一子幀使用四分之一的基音 周期精確度進行編碼,所述第二子幀、所述第三子幀和所述第四子幀使用二分之一的基音 周期精確度進行編碼,以及所述第一子幀和所述第四子幀使用±4的基音周期動態(tài)范圍進 行編碼,第二子幀和第三子幀使用±2的基音周期動態(tài)范圍進行編碼。
17. 根據(jù)權利要求14所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有128到160之間的基音周期,所述第一子幀和所述第四子幀使 用二分之一的基音周期精確度進行編碼,所述第二子幀和所述第三子幀使用1的基音周期 精確度進行編碼,以及每個所述子幀使用±4的基音周期動態(tài)范圍進行編碼。
18. 根據(jù)權利要求14所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有160到231之間的基音周期,所述第一子幀、所述第二子幀和所 述第三子幀使用1的基音周期精確度進行編碼,所述第四子幀使用二分之一的基音周期精 確度進行編碼,以及每個所述子幀使用±4的基音周期動態(tài)范圍進行編碼。
19. 根據(jù)權利要求7所述的方法,其特征在于,所述濁音語音信號在12. 8千赫茲kHz取 樣頻率下使用9200比特每秒或更大速率進行編碼并包括四個子幀,其包括使用9個比特進 行編碼的第一子幀,除此之外,一個指示所述第一基音周期編碼模式或所述第二基音周期 編碼模式的比特,使用4個比特進行編碼的第二子幀,以及使用5個比特進行編碼的第三子 幀和第四子幀。
20. 根據(jù)權利要求19所述的方法,其特征在于,所述具有相對較短或相當穩(wěn)定的基音 周期的濁音語音信號具有16到143之間的基音周期,濁每個子幀使用四分之一的基音周期 精確度進行編碼,以及所述第一子幀、所述第三子幀和所述第四子幀使用±4的基音周期 動態(tài)范圍進行編碼,所述第二子幀使用±2的基音周期動態(tài)范圍進行編碼。
21. 根據(jù)權利要求19所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有34到128之間的基音周期,所述第一子幀、所述第二子幀和所 述第三子幀使用四分之一的基音周期精確度進行編碼,所述第四子幀使用二分之一的基音 周期精確度進行編碼,以及每個所述子幀使用±4的基音周期動態(tài)范圍進行編碼。
22. 根據(jù)權利要求19所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有128到160之間的基音周期,所述第一子幀和所述第二子幀使 用二分之一的基音周期精確度進行編碼,所述第二子幀和所述第三子幀使用四分之一的基 音周期精確度進行編碼,以及每個所述子幀使用±4的基音周期動態(tài)范圍進行編碼。
23. 根據(jù)權利要求19所述的方法,其特征在于,所述具有相對較長或穩(wěn)定性較差的基 音周期的濁音語音信號具有160到231之間的基音周期,所述第一子幀使用1的基音周期 精確度進行編碼,所述第二子幀使用二分之一的基音周期精確度進行編碼,所述第三子幀 和所述第四子幀使用四分之一的基音周期精確度進行編碼,以及每個所述子幀使用±4的 基音周期動態(tài)范圍進行編碼。
24. -種支持雙重模式基音周期編碼的裝置,其特征在于,包括: 一種處理器;以及 一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲由所述處理器執(zhí)行的程序, 所述程序包括可進行如下操作的指令: 確定濁音語音信號是否具有相對較短的基音周期和相當穩(wěn)定的基音周期中的一個或 相對較長的基音周期和穩(wěn)定性相對較差的基音周期中的一個或是相當嘈雜的信號;以及 在確定所述濁音語音信號具有相對較短的或相當穩(wěn)定的基音周期之后,對所述具有相 對較高的精確度和較小的動態(tài)范圍的濁音語音信號的基音周期進行編碼,或者在確定所述 濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個相當嘈雜的信號之后, 對所述具有相對較大的動態(tài)范圍和較低的精確度的濁音語音信號的基音周期進行編碼。
25. 根據(jù)權利要求24所述的裝置,其特征在于,所述程序進一步包括進行如下操作的 指令: 在確定所述濁音語音信號具有相對較短的或相當穩(wěn)定的基音周期之后,在對所述基音 周期進行編碼中指示第一基音周期編碼模式具有相對較高的精確度和較小的動態(tài)范圍,或 者在確定所述濁音語音信號具有相對較長的或穩(wěn)定性較差的基音周期或者是一個相當嘈 雜的信號之后,指示第二基音周期編碼模式具有相對較大的動態(tài)范圍和較低的精確度,其 中所述第一基音周期編碼模式或所述第二基音周期編碼模式由一個在對所述基音周期進 行編碼中的比特指示。
【文檔編號】G10L19/18GK104254886SQ201280055505
【公開日】2014年12月31日 申請日期:2012年12月21日 優(yōu)先權日:2011年12月21日
【發(fā)明者】高陽 申請人:華為技術有限公司