一種多聲道語音信號的時標調制方法和裝置制造方法

文檔序號：2825546閱讀：158來源：國知局

一種多聲道語音信號的時標調制方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種多聲道語音信號的時標調制方法，所述方法包括：獲取多聲道語音的輸入信號以及相關的初始化信息；根據所述時標調制模式更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制后的信號累計長度；根據所述每個聲道時標調制后的信號累計長度得到時標調制后信號累計長度最長的信號累計長度和最短的信號累計長度；若所述時標調制后最長的信號累計長度和所述最短的信號累計長度的差值不大于預設長度閾值，則輸出所述每個聲道時標調制后的信號。該方法能夠使得多聲道語音信號在時標調制后信號質量在感知聽覺上仍能保持較高水準。本發(fā)明還公開了一種多聲道語音信號的時標調制裝置。
【專利說明】一種多聲道語音信號的時標調制方法和裝置
【技術領域】
[0001]本發(fā)明涉及通信【技術領域】，特別涉及一種多聲道語音信號的時標調制方法和裝置。
【背景技術】
[0002]在基于IP的語音通信系統(tǒng)中，會話雙方所發(fā)出的話音被封裝成IP數據包，并通過IP網絡進行傳輸，然后，在接收端對該IP數據包進行解包并還原成語音，從而實現發(fā)送端、接收端雙方的實時會話。
[0003]在基于IP的語音通信系統(tǒng)中，為了保證會話盡量以實時的方式進行，通常使用RTP (實時傳輸協(xié)議)傳輸協(xié)議，而不使用TCP (傳送控制協(xié)議)協(xié)議。在基于IP的語音通信系統(tǒng)中，語音通常按ITU-T (國際電信聯(lián)盟-電信標準部)建議的G.711、G.723或G.729標準進行編碼，然后再進行傳輸。
[0004]目前基于IP的語音通信多是單聲道的，自適應抖動緩沖管理(AJBM，adaptiVejitter buffer management)中的時標調制time scaling也是對單個聲道進行擴展extend或者壓縮compress,但是基于立體聲或者多聲道的新IP語音通信也在開始研究。
[0005]現有技術解決多聲道time scaling聲場改變的方法,就是通過尋找相同的語音信號擴展或者壓縮的長度維持多聲道聲場的穩(wěn)定。但是這種方式的主要問題是不能保證每個聲道的相似段信號Similar Segment與各自聲道的模板段信號Template Segment最相似的。因此，現有技術針對多聲道語音信號的時標調制計算時不能保證各聲道質量最優(yōu)，容易產生失真的問題。

【發(fā)明內容】

[0006]有鑒與此，本發(fā)明的實施例提供了一種多聲道語音信號的時標調制time scaling方法和裝置，以實現在解決多聲道語音信號聲場穩(wěn)定的同時，提供更好的聲道質量。
[0007]本發(fā)明第一方面的實施例公開了一種多聲道語音信號的時標調制time scaling方法，其特征在于，包括:獲取多聲道語音的輸入信號以及相關的初始化信息，相關的初始化信息包括幀信號長度、每個聲道初始的信號累計長度、時標調制time scaling模式，其中所述每個聲道初始的信號累計長度為每個聲道的全部幀的幀信號長度的和；
[0008]根據所述時標調制模式對所述多聲道語音的輸入信號做時標調制計算，得到每個聲道時標調制后的信號，根據所述每個聲道時標調制后的信號更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制后的信號累計長度；
[0009]根據所述每個聲道時標調制time scaling后的信號累計長度選擇時標調制timescaling后最長的信號累計長度和最短的信號累計長度；
[0010]若所述時標調制time scaling后最長的信號累計長度和所述最短的信號累計長度的差值不大于預設長度閾值，則輸出所述每個聲道時標調制time scaling后的信號。[0011]根據本發(fā)明實施例的多聲道語音信號的時標調制time scaling的方法，能夠在有效的解決多聲道語音信號時標調制time scaling后聲場改變問題的同時，保證各個聲道時標調制time scaling后的信號質量仍然十分優(yōu)良，從而使得多聲道語音信號在時標調制time scaling后的信號質量在感知聽覺上仍能保持較高水準。
[0012]在本發(fā)明第一方面實施例第一種可能實現的方式中，在所述在根據所述每個聲道時標調制后的信號累計長度選擇時標調制后最長的信號累計長度和最短的信號累計長度之后還包括:
[0013]若所述時標調制time scaling后最長的信號累計長度和所述最短的信號累計長度的差值大于預設長度閾值，則初始化時標調制time scaling次數值；
[0014]對所述時標調制time scaling后信號累計長度最長的或最短的聲道做時標調制time scaling,更新所述每個聲道時標調制time scaling后的信號，并更新所述每個聲道時標調制time scaling后的信號累計長度,根據所述每個聲道時標調制timescaling后的信號累計長度更新所述時標調制time scaling后信號累計長度最長的聲道索引以及最長的信號累計長度和信號累計長度最短的聲道索引以及最短的信號累計長度，所述時標調制time scaling次數值增加1，
[0015]重復本步驟直至所述時標調制time scaling后最長的信號累計長度和所述最短的信號累計長度的差值不大于預設長度閾值。
[0016]結合上述任意之一實施例的本發(fā)明第一方面實施例第二種可能的實現方式中，在所述時標調制time scaling次數值增加I之后，若所述時標調制time scaling次數值大于預設次數閾值，則輸出所述每個聲道時標調制time scaling后的信號。
[0017]結合上述任意之一實施例的在第一方面實施例第三種可能的實現方式中，所述時標調制time scaling模式分為擴展和壓縮；根據所述時標調制模式對所述多聲道語音的輸入信號做時標調制計算，得到每個聲道時標調制后的信號，根據所述每個聲道時標調制后的信號更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制后的信號累計長度包括:
[0018]根據所述時標調制time scaling模式對所述多聲道語音的輸入信號的每個聲道單獨做擴展或者壓縮，得到每個聲道時標調制time scaling后的信號，根據所述每個聲道時標調制time scaling后的信號得到每個聲道時標調制time scaling后的全部巾貞的巾貞信號長度；
[0019]根據所述每個聲道時標調制time scaling后的全部幀的幀信號長度更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制time scaling后的信號累計長度。
[0020]結合上述任意之一實施例的本發(fā)明第一方面實施例第四種可能的實現方式中，所述預設長度閾值為所述多聲道語音信號中任一聲道的的任一幀的基音周期的長度。
[0021]結合上述任意之一實施例的本發(fā)明第一方面實施例第五種可能的實現方式中，在擴展的時候，對所述時標調制time seal ing后的信號累計長度最短的聲道做時標調制timescaling 計算；
[0022]在壓縮的時候，對所述時標調制time scaling后的信號累計長度最長的聲道做時標調制time scaling計算。
[0023]結合上述任意之一實施例的本發(fā)明第一方面實施例第六種可能的實現方式中，根據當前巾貞基音周期的長度和預設的時標調制time scaling比對所述時標調制timescaling后的信號累計長度最短的聲道或所述時標調制time scaling后的信號累計長度最長的聲道做時標調制time scaling計算。
[0024]結合上述任意之一實施例的本發(fā)明第一方面實施例第七種可能的實現方式中，還包括:在所述根據時標調制time scaling模式對所述多聲道語音的輸入信號的每個聲道單獨做擴展或者壓縮之后，判斷每個聲道的信號類型是語音voice或者噪音noise ;若所述聲道的信號類型為語音Voice，則繼續(xù)按照后續(xù)步驟處理；若所述聲道的信號類型為噪音noise，則在所有所述聲道信號類型為語音voice的聲道處理完成后，隨機選擇一個所述聲道信號類型為語音voice的聲道的信號累計長度，根據所述信號累計長度對所有所述聲道的信號類型為噪音noise的聲道做時標調制time scaling計算。
[0025]本發(fā)明第二方面的實施例公開了一種多聲道語音信號的時標調制timescaling裝置，包括:獲取模塊，用于獲取多聲道語音的輸入信號以及相關的初始化信息，相關的初始化信息包括:幀信號長度、每個聲道初始的信號累計長度、時標調制time scaling模式，其中所述每個聲道初始的信號累計長度為每個聲道的全部幀的幀信號長度的和；
[0026]單個聲道時標調制處理模塊，用于根據所述獲取模塊獲取的所述時標調制模式對所述多聲道語音的輸入信號做時標調制計算，得到每個聲道時標調制后的信號；還用于根據所述每個聲道時標調制后的信號更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制后的信號累計長度；
[0027]多聲道時標調制time scaling控制模塊,用于根據所述單個聲道時標調制timescaling處理模塊得到的所述每個聲道時標調制time scaling后的信號累計長度選擇時標調制time scaling后最長的信號累計長度和最短的信號累計長度；輸出模塊，若所述多聲道時標調制time scaling控制模塊選擇的所述時標調制timescaling后最長的信號累計長度和最短的信號累計長度的差值不大于預設長度閾值，則輸出所述每個聲道時標調制time scaling后的信號。
[0028]根據本發(fā)明實施例的多聲道語音信號的時標調制time scaling的裝置，能夠在有效的解決多聲道語音信號時標調制time scaling后聲場改變問題的同時，保證各個聲道時標調制time scaling后的信號質量仍然十分優(yōu)良，從而使得多聲道語音信號在時標調制time scaling后信號質量在感知聽覺上仍能保持較高水準。
[0029]在第二方面實施例第一種可能的實現方式中，
[0030]若所述時標調制后最長的信號累計長度和最短的信號累計長度差值大于預設長度閾值，則多聲道時標調制控制模塊還用于初始化時標調制次數值；
[0031]所述單個聲道時標調制處理模塊繼續(xù)對所述時標調制后信號累計長度最長的或最短的聲道做時標調制，更新所述每個聲道時標調制后的信號，并更新所述每個聲道時標調制后的信號累計長度，所述多聲道時標調制控制模塊根據所述每個聲道時標調制后的信號累計長度更新所述時標調制后最長的信號累計長度和最短的信號累計長度，所述timescaling次數值增加1，
[0032]所述單個聲道時標調制處理模塊和所述多聲道時標調制控制模塊用于重復本步驟直至所述時標調制后最長的信號累計長度和所述最短的信號累計長度的差值不大于預設長度閾值。[0033]結合上述實施例的本發(fā)明第二方面實施例第二種可能的實現方式中，所述輸出模塊還用于:若所述時標調制次數值大于預設次數閾值，則所述輸出模塊輸出所述每個聲道時標調制后的信號。
[0034]結合上述任意之一實施例的本發(fā)明第二方面實施例第三種可能的實現方式中，所述時標調制模式包括擴展和壓縮；所述單個聲道時標調制time scaling處理模塊還包括:幀長生成單元，用于根據所述時標調制time scaling模式對所述多聲道語音的輸入信號的每個聲道單獨做擴展或者壓縮，得到每個聲道時標調制time scaling后的信號，根據所述每個聲道時標調制time scaling后的信號得到每個聲道時標調制time scaling后的全部幀的幀信號長度；信號累計長度生成單元，用于根據所述幀長生成單元獲得的所述每個聲道時標調制time scaling后的全部幀的幀信號長度更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制time scaling后的信號累計長度。
[0035]結合上述任意之一實施例的本發(fā)明第二方面實施例第四種可能的實現方式中，所述預設長度閾值為所述多聲道語音信號中任一聲道的任一幀的基音周期的長度。
[0036]結合上述任意之一實施例的本發(fā)明第二方面實施例第五種可能的實現方式中，所述單個聲道時標調制處理模塊繼續(xù)對所述時標調制后信號累計長度最長的或最短的聲道做時標調制包括:在擴展的時候，對所述時標調制后的信號累計長度最短的聲道做時標調制計算；在壓縮的時候，對所述時標調制后的信號累計長度最長的聲道做時標調制計算。
[0037]結合上述任意之一實施例的本發(fā)明第二方面實施例第六種可能的實現方式中，所述單個聲道時標調制處理模塊還用于:根據當前正在處理的幀的基音周期的長度和預設的時標調制比對所述時標調制后的信號累計長度最短的聲道或所述時標調制后的信號累計長度最長的聲道做時標調制計算。
[0038]根據本發(fā)明實施例的多聲道語音信號的時標調制time scaling的方法和裝置，能夠在有效的解決多聲道語音信號時標調制time scaling后聲場改變問題的同時，保證各個聲道時標調制time scaling后的信號質量仍然十分優(yōu)良，從而使得多聲道語音信號在時標調制time scaling后信號質量在感知聽覺上仍能保持較高水準。
【專利附圖】

【附圖說明】
[0039]為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。
[0040]圖1為單聲道語音信號時標調制time scaling方法的示意圖。
[0041]圖2為網絡傳輸中數據抖動的示意圖。
[0042]圖3為自適應的處理圖2中網絡數據抖動的示意圖。
[0043]圖4為多聲道語音信號中每一個聲道單獨編碼的示意圖。
[0044]圖5為多聲道語音信號中各個聲道混合編碼的示意圖。
[0045]圖6為根據本發(fā)明實施例的一種多聲道語音信號的時標調制time scaling方法的流程圖。
[0046]圖7為本發(fā)明實施例的多聲道語音信號時標調制time scaling的流程示意圖。[0047]圖8為根據本發(fā)明實施例的一種多聲道語音信號的時標調制time scaling裝置的結構圖。
【具體實施方式】
[0048]下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
[0049]時標調制Time scaling算法能夠改變語音信號的播放速率，同時在感知聽覺上不改變信號的基音周期。Time scaling通過對一定信號長度的語音信號進行extend (擴展)或者compress (壓縮)來實現播放速率的控制,time scaling模式即包括了擴展和壓縮這兩種模式。單個數據包的Time scaling實現原理及步驟如圖1所示:
[0050]對于某模板段信號(Template Segment),在一個搜索區(qū)域(Search Region)里面，找到一段與Template Segment的相比最相似的相似段信號(SimilarSegment)。然后，將 Similar Segment 信號移到 Template Segment 信號的位置，并對 Template Segment 和Similar Segment 信號分別進行加窗,將加窗后的 Template Segment 和 Similar Segment信號重疊相加，將Similar Segment后面的信號移到重疊相加的信號后面，將這兩部分信號一起輸出作為 time scaling后的信號。如圖1 所不，Similar Segment 與Template Segment之間的距離Al即信號擴展或者壓縮了的長度，而Search Region的選擇可以影響Al的長度。
[0051]Time scaling能控制語音信號的播放速率,這一特性可以用在自適應抖動緩沖管理(AJBM, adaptive jitter buffer management)中。在基于IP的語音通信中，發(fā)送端將錄制的信號分為一幀一幀的語音段，每幀長度為Ltl個樣點，持續(xù)時間為T ms,錄制的速率為r樣點/秒。發(fā)送端每隔T ms將一幀的信號編碼然后發(fā)送到網絡端。
[0052]而基于IP的語音通信中，每個數據包到達的時間可能不一樣，如圖2的接收端Receiver,這種由于數據包到達時間不一致引起的抖動叫jitter。在播放的時候,如果同樣以r樣點/秒的速率播放每幀的話，就可能會由于網絡上數據包的晚到而產生丟包，如圖2的第i+2個包。
[0053]為了解決這種jitter產生的丟包，我們可以改變接收端的播放速率，使得接收端有足夠的時間等待晚到的包，如圖3的第i+Ι個包和第i+2個包。當我們將第i+Ι個包擴展extend到一定的長度時，第i+Ι個包播放完時第i+2個包也到達了接收端，這樣就避免了 jitter引起的丟包。
[0054]AJBM中的time scaling是對單個聲道進行擴展(extend)或者壓縮(compress)。而在多聲道語音信號處理方面，立體聲或者多聲道的編解碼方式有兩種，如圖4和圖5。其中圖4的方式，是對多聲道的各聲道進行單獨編解碼；而圖5的方式，是先從多聲道中提取出參數信息，然后將多聲道下混為較少聲道的信號或者是單聲道信號，解碼端先對下混后的信號進行解碼，然后結合參數信息，恢復出多聲道的信號。
[0055]由圖1可以看出，time scaling最關鍵的就是Similar Segment的搜索，SimilarSegment與Template Segment的距離Δ I即為擴展或者壓縮了的長度。也就是說，如果原來一幀的長度為Ltl的話，擴展之后的長度就是U+ΛΙ，壓縮之后的長度為Ltl-Al,
time scaling比為一} 可以看出，time scaling比小于I時即為壓縮，實現快播，大于

I時即為擴展，實現慢播。對于圖4和圖5所示的不同的多聲道編解碼方式，有不同的timescaling 方式。
[0056]對于圖4所示的多聲道編碼方式而言，如果單獨對每個聲道單獨進行timescaling的話,就需要對每個聲道單獨進行Similar Segment的搜索。由于每個聲道信號的不同特性，對同一位置的Template Segment,搜索到的Similar Segment與TemplateSegment的距離可能不一樣。以立體聲為例，擴展之后，可能左右聲道的長度分別變?yōu)長Q+A 1L、L+Δ 1K。當Al1^P Δ Ik不相等的時候，就可能引起感知聽覺上立體聲聲場的改變。
[0057]對圖5所示的多聲道編碼方式，如果對輸出的多聲道信號0utput_l~0utput_N信號單獨做time scaling的話，出現的問題跟圖4中單獨對每個聲道做time scaling是一樣的；如果對解碼后的下混信號D_0信號做time scaling，然后再結合參數信息恢復出多聲道的話，的確可以確保每個聲道的長度是一樣的，但是多聲道參數信息是從沒有做timescaling的原始信號中提取的,用這個參數信息和time scaling后的信號恢復多聲道信號，也不能保證多聲道的聲場不改變。
[0058]對比基音周期的搜索方法可以發(fā)現，當Template Segment控制在一定范圍內的時候，Similar Segment與Template Segment之間的距離Δ I等于基音周期的整數倍。
[0059]如圖6所不,根據本發(fā)明實施例的一種多聲道語音信號的time scaling方法,包括:
[0060]Sll:獲取多聲道語音的輸入信號以及相關的初始化信息,相關的初始化信息包括:幀信號長度、每個聲道初始的信號累計長度、time scaling模式，其中所述每個聲道初始的信號累計長度為每個聲道的全部幀的幀信號長度的和。
[0061]S12:根據所述time scaling模式對所述多聲道語音的輸入信號做time scaling計算，得到每個聲道時標調制后的信號，根據所述每個聲道time scaling后的信號更新所述每個聲道初始的信號累計長度，得到每個聲道time scaling后的信號累計長度。
[0062]S13:根據所述每個聲道time scaling后的信號累計長度選擇time scaling后最長的信號累計長度和最短的信號累計長度；
[0063]S14:若所述time scaling后最長的信號累計長度和所述最短的信號累計長度的差值不大于預設長度閾值，則輸出所述每個聲道time scaling后的信號。
[0064]根據本發(fā)明實施例的多聲道語音信號的time scaling的方法,能夠在有效的解決多聲道語音信號time seal ing后聲場改變問題的同時,保證各個聲道timescaling后的信號質量仍然十分優(yōu)良，從而使得多聲道語音信號在time scaling后信號質量在感知聽覺上仍能保持較高水準。
[0065]如圖7所不,根據本發(fā)明實施例的一種多聲道語音信號的time scaling方法,包括:
[0066]S21:獲取多聲道語音的輸入信號以及相關的初始化信息。
[0067]相關的初始化信息包括:幀信號長度、每個聲道初始的信號累計長度、timescaling模式，其中每個聲道初始的信號累計長度為每個聲道全部幀的幀信號長度的和，time scaling模式分為擴展和壓縮。在獲得這些信息后轉入步驟S22進行后續(xù)處理。
[0068]S22:對各聲道信號單獨進行time scaling,得到time scaling后的信號累計長度。
[0069]根據步驟S21獲得的所述time scaling模式對所述多聲道語音的輸入信號的每個聲道單獨做擴展或者壓縮，得到每個聲道time scaling后的信號，根據所述每個聲道time scaling后的信號得到每個聲道time scaling后的全部幀的幀信號長度；根據所述每個聲道time scaling后的幀信號長度更新所述每個聲道初始的信號累計長度，得到每個聲道time scaling后的信號累計長度。
[0070]在本發(fā)明的一個實施例中，為了使得每次做完time scaling后各聲道的信號累計長度差不至于太大，可以規(guī)定每次time scaling時擴展或者壓縮的長度為任意一個聲道中任一幀的一個基音周期長度，即Similar Segment與TemplateSegment的距離Δ1為一個基音周期長度。然后，計算time scaling后各聲道的信號累計長度，例如分別為L<T、L*f、...^:"?？梢岳斫獾氖?，對time scaling時擴展或者壓縮的長度的劃分不限于本實施例的舉例，time scaling時擴展或者壓縮的長度可以為多個基音周期長度或者其它本領域普通技術人員無需創(chuàng)造性勞動即可實現的長度。
[0071]S23:得到time scaling后最長的信號累計長度和最短的信號累計長度。 [0072]根據步驟S22得到的每個聲道time sealing后的信號累計長度可以得到timescaling后信號累計長度最長的聲道索引以及最長的信號累計長度和信號累計長度最短的聲道索引以及最短的信號累計長度。
[0073]在本發(fā)明的一個實施例中，最長的信號累計長度可表示為最短的信號累計長度可表示為為對應的聲道分別為i_^Pimin。擴展的時候，對第imin個聲道的信號繼續(xù)搜索Similar segment ;壓縮的時候,對第imax個聲道的信號繼續(xù)搜索Similar Segment,得到Similar Segment與Template Segment的距離為Δ I,同樣的，Δ I可以為一個基音周期的長度。
[0074]在本發(fā)明的一個實施例中，還包括，判斷time scaling后的聲道信號類型是語音(voice)還是噪音(noise)。如果聲道信號類型屬于voice,則繼續(xù)進行步驟S24的處理。
[0075]如果聲道信號類型屬于noise,則對所有的聲道信號進行time scaling時都擴展或壓縮到與voice聲道中任一聲道的信號累計長度相等的信號累計長度。然后輸出voice聲道信號和noise聲道信號。
[0076]S24:判斷time scaling后的聲道累計長度差值是否大于預設長度閾值。
[0077]當time scaling后最長的信號累計長度和最短的信號累計長度的差值不大于預設長度閾值時，轉到步驟S27進行處理；
[0078]當time scaling后最長的信號累計長度和最短的信號累計長度的差值大于預設長度閾值時，轉入步驟S25繼續(xù)對聲道信號做處理。
[0079]在本發(fā)明的一個實施例中，設置預設長度閾值的值為任一聲道基音周期的長度值或基音周期長度值的正整數倍。
[0080]S25:繼續(xù)對每個聲道進行time scaling。[0081]初始化time scaling次數值；
[0082]在本發(fā)明的一個實施例中，初始化time scaling次數值為O或I。
[0083]繼續(xù)對time scaling后信號累計長度最長的或最短的聲道做time scaling,更新每個聲道time scaling后的信號,更新每個聲道time scaling后的信號累計長度,根據每個聲道time scaling后的信號累計長度更新time scaling后信號累計長度最長的聲道索引以及最長的信號累計長度和信號累計長度最短的聲道索引以及最短的信號累計長度，time scaling次數值增加1，
[0084]重復本步驟直至time scaling后最長的信號累計長度和所述最短的信號累計長度的差值不大于預設長度閾值；
[0085]在本發(fā)明的一個實施例中，還包括:
[0086]S26:判斷time scaling計數值是否大于預設次數閾值。
[0087]當time scaling計數值大于預設次數閾值時,轉到步驟S27處理；
[0088]當time scaling計數值不大于預設次數閾值時,轉到步驟S24進行處理。
[0089]在本發(fā)明的一個實施例中，預設次數閾值是自由設定的，例如可以設置預設次數閾值的值為2?？梢岳斫獾氖?，預設次數閾值不限于本發(fā)明實施例的舉例，還包括3，4，10等其它本領域普通技術人員無需創(chuàng)造性勞動即可實現的方式。
[0090]S27:輸出time scaling后的語音信號。
[0091]輸出經過上述步驟處理后的每個聲道time scaling后的信號。
[0092]根據本發(fā)明實施例的多聲道語音信號的time scaling的方法，能夠在有效的解決多聲道語音信號time seal ing后聲場改變問題的同時,保證各個聲道timescaling后的信號質量仍然十分優(yōu)良，從而使得多聲道語音信號在time scaling后信號質量在感知聽覺上仍能保持較聞水準。
[0093]下面具體描述根據本發(fā)明實施例的一種多聲道語音信號的time scaling方法的一種實現場景。
[0094]對于幀長為
【權利要求】
1.一種多聲道語音信號的時標調制方法,其特征在于,所述方法包括: 獲取多聲道語音的輸入信號以及相關的初始化信息，所述相關的初始化信息包括幀信號長度、每個聲道初始的信號累計長度和時標調制模式，其中所述每個聲道初始的信號累計長度為每個聲道的全部幀的幀信號長度的和；根據所述時標調制模式對所述多聲道語音的輸入信號做時標調制計算，得到每個聲道時標調制后的信號，根據所述每個聲道時標調制后的信號更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制后的信號累計長度；根據所述每個聲道時標調制后的信號累計長度選擇時標調制后最長的信號累計長度和最短的信號累計長度；若所述時標調制后最長的信號累計長度和所述最短的信號累計長度的差值不大于預設長度閾值，則輸出所述每個聲道時標調制后的信號。
2.如權利要求1所述的時標調制方法，其特征在于，在所述在根據所述每個聲道時標調制后的信號累計長度選擇時標調制后最長的信號累計長度和最短的信號累計長度之后，所述方法還包括: 若所述時標調制后最長的信號累計長度和所述最短的信號累計長度的差值大于預設長度閾值，則初始化時標調制次數值；對所述時標調制后信號累計長度最長的或最短的聲道做時標調制，更新所述每個聲道時標調制后的信號，更新所述每個聲道時標調制后的信號累計長度，根據所述每個聲道時標調制后的信號累計長度更新所述時標調制后最長的信號累計長度和最短的信號累計長度，所述時標調制次數值增加1，重復本步驟直至所述時標調制后最長的信號累計長度和所述最短的信號累計長度的差值不大于預設長度閾值`。
3.如權利要求2所述的時標調制方法，其特征在于，在所述時標調制次數值增加I之后，所述方法還包括: 若所述時標調制次數值大于預設次數閾值，則輸出所述每個聲道時標調制后的信號。
4.如權利要求1至3任意一項所述的時標調制方法，其特征在于，所述時標調制模式包括擴展和壓縮；根據所述時標調制模式對所述多聲道語音的輸入信號做時標調制計算，得到每個聲道時標調制后的信號，根據所述每個聲道時標調制后的信號更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制后的信號累計長度包括: 根據所述時標調制模式對所述多聲道語音的輸入信號的每個聲道單獨做擴展或者壓縮，得到每個聲道時標調制后的信號，得到每個聲道時標調制后的全部幀的幀信號長度；根據所述每個聲道時標調制后的全部幀的幀信號長度更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制后的信號累計長度。
5.如權利要求1至4任意一項所述的時標調制方法，其特征在于，所述預設長度閾值為所述多聲道語音信號中任一聲道的任一幀的基音周期的長度。
6.如權利要求4或5所述的時標調制方法，其特征在于，所述對所述時標調制后信號累計長度最長的或最短的聲道做時標調制包括: 在擴展的時候，對所述時標調制后的信號累計長度最短的聲道做時標調制計算；在壓縮的時候，對所述時標調制后的信號累計長度最長的聲道做時標調制計算。
7.如權利要求4至6任意一項所述的時標調制方法，其特征在于，所述對所述時標調制后信號累計長度最長的或最短的聲道做時標調制還包括: 根據當前正在處理的幀的基音周期的長度和預設的時標調制比對所述時標調制后的信號累計長度最短的聲道或所述時標調制后的信號累計長度最長的聲道做時標調制計算。
8.如權利要求4至7任意一項所述的時標調制方法，其特征在于，在所述根據時標調制模式對所述多聲道語音的輸入信號的每個聲道單獨做擴展或者壓縮之后，所述方法還包括:判斷每個聲道的信號類型是語音或者噪音；若所述聲道的信號類型為語音，則繼續(xù)按照后續(xù)步驟處理；若所述聲道的信號類型為噪音，在所有所述聲道信號類型為語音的聲道處理完成后，隨機選擇一個所述聲道信號類型為語音的聲道的信號累計長度，根據所述信號累計長度對所有所述聲道的信號類型為噪音的聲道做時標調制計算。
9.一種多聲道語音信號的時標調制裝置，其特征在于，包括: 獲取模塊，用于獲取多聲道語音的輸入信號以及相關的初始化信息，相關的初始化信息包括:幀信號長度、每個聲道初始的信號累計長度、時標調制模式，其中所述每個聲道初始的信號累計長度為每個聲道的全部幀的信號長度的和；單個聲道時標調制處理模塊，用于根據所述獲取模塊獲取的所述時標調制模式對所述多聲道語音的輸入信號做時標調制計算，得到每個聲道時標調制后的信號；還用于根據所述每個聲道時標調制后的信號更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制后的信號累計長度；多聲道時標調制控制模塊，用于根據所述單個聲道時標調制處理模塊得到的所述每個聲道時標調制后的信號累計長度選擇時標調制后最長的信號累計長度和最短的信號累計長度；輸出模塊，若所述多聲道時標`調制控制模塊選擇的所述時標調制后最長的信號累計長度和最短的信號累計長度的差值不大于預設長度閾值，則輸出所述每個聲道時標調制后的信號。
10.如權利要求9所述的時標調制裝置，其特征在于，若所述時標調制后最長的信號累計長度和最短的信號累計長度差值大于預設長度閾值，則多聲道時標調制控制模塊還用于初始化時標調制次數值；所述單個聲道時標調制處理模塊繼續(xù)對所述時標調制后信號累計長度最長的或最短的聲道做時標調制，更新所述每個聲道時標調制后的信號，并更新所述每個聲道時標調制后的信號累計長度，所述多聲道時標調制控制模塊根據所述每個聲道時標調制后的信號累計長度更新所述時標調制后最長的信號累計長度和最短的信號累計長度，所述時標調制次數值增加1，所述單個聲道時標調制處理模塊和所述多聲道時標調制控制模塊用于重復本步驟直至所述時標調制后最長的信號累計長度和所述最短的信號累計長度的差值不大于預設長度閾值。
11.如權利要求10所述的時標調制裝置，其特征在于，所述輸出模塊還用于: 若所述時標調制次數值大于預設次數閾值，則所述輸出模塊輸出所述每個聲道時標調制后的信號。
12.如權利要求9至11任意一項所述的時標調制裝置，其特征在于，所述時標調制模式包括擴展和壓縮；所述單個聲道時標調制處理模塊還包括: 幀長生成單元，用于根據所述時標調制模式對所述多聲道語音的輸入信號的每個聲道單獨做擴展或者壓縮，得到每個聲道時標調制后的信號，根據所述每個聲道時標調制后的信號得到每個聲道時標調制后的全部幀的幀信號長度；信號累計長度生成單元，用于根據所述幀長生成單元獲得的所述每個聲道時標調制后的全部幀的幀信號長度更新所述每個聲道初始的信號累計長度，得到每個聲道時標調制后的信號累計長度。
13.如權利要求9至12任意一項所述的裝置，其特征在于，所述預設長度閾值為所述多聲道語音信號中任一聲道的任一幀的基音周期的長度。
14.如權利要求12或13所述的時標調制裝置，其特征在于，所述單個聲道時標調制處理模塊繼續(xù)對所述時標調制后信號累計長度最長的或最短的聲道做時標調制包括: 在擴展的時候，對所述時標調制后的信號累計長度最短的聲道做時標調制計算；在壓縮的時候，對所述時標調制后的信號累計長度最長的聲道做時標調制計算。
15.如權利要求12至14任意一項所述的時標調制裝置，其特征在于，所述單個聲道時標調制處理模塊還用于: 根據當前正在處理的幀的基音周期的長度和預設的時標調制比對所述時標調制后的信號累計長度最短的聲道或所述時標調制后的信號累計長度最長的聲道做時標調制計算。
【文檔編號】G10L19/008GK103871414SQ201210532027
【公開日】2014年6月18日申請日期:2012年12月11日優(yōu)先權日:2012年12月11日
【發(fā)明者】王鳳玲, 王田, 吳文海, 張德軍申請人:華為技術有限公司

完整全部詳細技術資料下載

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多聲道語音信號的時標調制方法和裝置制造方法