專利名稱:語音速率變換裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于改變語音信號的語音速率的語音速率變換裝置。
背景技術(shù):
作為對輸入的語音進(jìn)行速率變換的通用技術(shù),已知有一種通過PICOLA(Pointer Interval Control OverLap and Add,指針間隔控制重疊與添加)在語音時(shí)間軸上進(jìn)行壓縮和擴(kuò)展的波形處理方法(參見例如Naotaka Morita和Fumitada Itakura的“Compression andExpansion on Time Axis of Speech Using Pointer Interval ControlOverLap and Add(PICOLA)Method and its Evaluation”,DiscourseCollected Papers of Acoustical Society of Japan,October,1986,1-4-14,p.149-150)。
在這種語音速率變換中,輸入的語音數(shù)據(jù)按一定幀長切分,用自相關(guān)函數(shù)等得到幀內(nèi)音調(diào)周期(pitch period),再執(zhí)行壓縮和擴(kuò)展處理。
然而,采用這種方法,當(dāng)在擴(kuò)展處理中除了語音之外還有諸如人群的嘈雜聲或波聲的接近隨機(jī)的聲音作為背景聲時(shí),會額外產(chǎn)生與波形插入周期相應(yīng)的令人討厭的寄生聲(可能是一種音樂噪聲)。
另一方面,作為一種不發(fā)出上述討厭的寄生聲的方法,已知有一種對相位進(jìn)行隨機(jī)化和疊加的方法(例如見JP 5-108095A,(段落0015,圖1))。
然而,在這種方法中,需要復(fù)雜的處理,其中將相位隨機(jī)化再將一些所產(chǎn)生的相位隨機(jī)化的語音段波形在移動時(shí)相加或疊加,并且很難將這種方法封裝在一個(gè)要求實(shí)時(shí)處理的處理系統(tǒng)內(nèi),因?yàn)橥掏侣守?fù)荷太大。
發(fā)明內(nèi)容
如上所述,在語音速率變換的傳統(tǒng)技術(shù)中,存在著在有接近隨機(jī)的聲音作為背景聲時(shí)會額外產(chǎn)生與波形插入周期相應(yīng)的令人討厭的聲音的問題。
此外,作為這個(gè)問題的解決方案,已知有一種方法,其中將相位隨機(jī)化再將一些所產(chǎn)生的相位隨機(jī)化的語音段波形在移動時(shí)相加或疊加,但是也存在問題,即需要復(fù)雜處理,而且很難將這種方法封裝在一個(gè)要求實(shí)時(shí)處理的處理系統(tǒng)內(nèi),因?yàn)橥掏侣守?fù)荷相當(dāng)大。
本發(fā)明是針對上述問題提出的,其目的是通過比較簡單的處理實(shí)現(xiàn)具有良好音質(zhì)的語音速率變換裝置,而且即使在有接近隨機(jī)的聲音作為背景聲的情況下進(jìn)行語音速率變換也不會產(chǎn)生令人討厭的寄生聲。
為了達(dá)到這個(gè)目的,本發(fā)明提出的語音速率變換裝置的特征是它包括一個(gè)音調(diào)周期計(jì)算單元,用來根據(jù)一個(gè)輸入的語音信號計(jì)算音調(diào)周期;以及一個(gè)擴(kuò)展處理單元,用來通過從語音信號中按音調(diào)周期切出一段語音波形和將對所切出的語音波形執(zhí)行時(shí)間軸反轉(zhuǎn)所得到的一段反轉(zhuǎn)波形插入語音信號來執(zhí)行擴(kuò)展處理。
結(jié)果,可以比較簡單地實(shí)現(xiàn)具有良好音質(zhì)的語音速率變換而不會產(chǎn)生令人討厭的寄生聲。
從以下結(jié)合附圖所作的說明中可以更為容易地理解本發(fā)明,在這些附圖中圖1為示出在本發(fā)明的一個(gè)實(shí)施例中的語音速率變換裝置的配置的方框圖;圖2為說明按音調(diào)周期從一個(gè)語音信號中切出波形的情況的示意圖;圖3為說明對所切出的一段語音波形執(zhí)行時(shí)間軸反轉(zhuǎn)的情況的示意圖;
圖4為說明將一段語音波形乘以加權(quán)系數(shù)的情況的示意圖;圖5為說明將經(jīng)加權(quán)的波形相加的情況的示意圖;圖6為說明組合插入的語音波形的情況的示意圖;圖7為說明通過插入所組合的語音波形執(zhí)行擴(kuò)展處理的示意圖;以及圖8為示出本發(fā)明的實(shí)施例的擴(kuò)展處理過程的流程圖。
具體實(shí)施例方式
下面將結(jié)合附圖對本發(fā)明的實(shí)施例進(jìn)行說明。圖1為示出本實(shí)施例中語音速率變換裝置的配置的方框圖。
語音速率變換裝置100包括語音波形幀提取部分1、音調(diào)周期計(jì)算部分2和時(shí)間軸擴(kuò)展部分3。語音波形幀提取部分1從輸入的語音信號中切出具有預(yù)定幀長的語音波形,以便得到音調(diào)周期。音調(diào)周期計(jì)算部分2根據(jù)語音波形幀提取部分1切出的語音信號計(jì)算音調(diào)周期Tp,將音調(diào)周期Tp輸入時(shí)間軸擴(kuò)展部分3。
在這里,作為音調(diào)周期的計(jì)算方法,將對一種用自相關(guān)函數(shù)計(jì)算音調(diào)周期的方法進(jìn)行說明。在用自相關(guān)函數(shù)計(jì)算音調(diào)周期的方法中,在假設(shè)輸入的語音信號具有有限時(shí)間長度且只在幀長Tc的時(shí)間間隔(與上述幀長相應(yīng))內(nèi)存在而在幀長Tc的時(shí)間間隔外始終為零的情況下得出自相關(guān)。這樣的短時(shí)間自相關(guān)值Rn(k)按數(shù)學(xué)式1得出Rn(k)=Σm=0Tc-1-kx(n+m)·x(n+m+k)]]>[式1]其中,m=0,1,2,...,Tc-1-kTc為假設(shè)存在輸入語音信號的時(shí)間間隔,而k為計(jì)算短時(shí)間自相關(guān)值Rn(k)時(shí)對語音波形進(jìn)行延遲的延遲時(shí)間,有關(guān)系Tc>>k。然后,在用式1得到一個(gè)使短時(shí)間自相關(guān)值Rn(k)最大的k值時(shí),這個(gè)值就為音調(diào)周期Tp。所得出的音調(diào)周期Tp發(fā)送給時(shí)間軸擴(kuò)展部分3。在時(shí)間軸擴(kuò)展部分3內(nèi)執(zhí)行如下所述的擴(kuò)展處理。
在擴(kuò)展處理中,如圖2所示,在假設(shè)音調(diào)周期計(jì)算部分2計(jì)算出的音調(diào)周期為Tp、擴(kuò)展系數(shù)為R(例如,1<R≤2)而幀長提取部分所切出的語音波形為Tc=Tp/(R-1)時(shí),按音調(diào)周期首先切出多段語音波形。在這里,示出了簡單切出的相繼兩段語音波形,即波形A和波形B。此后,如圖3所示,通過時(shí)間軸反轉(zhuǎn)將所切出的波形A的語音波形變換為波形A′。
如圖4所示,波形A的止于與波形B接點(diǎn)(波形A的末端)的長為Lp的部分乘以從0到1的權(quán)重,從而產(chǎn)生一段為波形D1的語音波形。Lp為預(yù)定的時(shí)間長度,比音調(diào)周期Tp短,近似為Lp=Tp/5~Tp/6。類似地,波形B的始于與波形A接點(diǎn)(波形B的始端)的長為Lp的部分、波形A′的始于始端的長為Lp的部分和波形A′的止于末端的長為Lp的部分分別乘以從1到0、從0到1和從1到0線性改變的加權(quán)系數(shù),從而產(chǎn)生相應(yīng)為波形C1、波形C2和波形D2的語音波形。
將所產(chǎn)生的波形C1和波形C2的語音波形以及波形D1和波形D2的語音波形分別相加,產(chǎn)生波形C和波形D的語音波形(圖5)。此外,如圖6所示,從波形A′的語音波形的始端和終端各切去長為Lp的部分,將波形C和波形D的語音波形分別插入所切去的部分,組合成波形A″的語音波形。
最后,將波形A″插入波形A和波形B之間,得到由長度為Tc=Tp/(R-1)的波形產(chǎn)生的滿足擴(kuò)展系數(shù)R的長度為Tc+Tp=RTp/(R-1)的波形(圖7)。
采用上述配置,不會產(chǎn)生額外產(chǎn)生的與切分輸入語音信號的每幀周期相應(yīng)的令人討厭的寄生聲,因?yàn)樗迦氲恼Z音波形是通過時(shí)間軸反轉(zhuǎn)變換得到的波形。而且,由于將一段波形乘以從0到1或者從1到0線性改變的加權(quán)系數(shù)作為所插入的語音波形的始端和末端部分的波形,使得連接成的波形在所插入的波形A″與波形A和波形B之間具有平滑的連接點(diǎn),因此甚至在執(zhí)行擴(kuò)展處理的情況下也可以得到畸變很小的語音波形。此外,所插入的語音波形可以通過比較簡單的時(shí)間軸反轉(zhuǎn)處理實(shí)現(xiàn)。
上面對用插入通過對波形A的語音波形變換得到的波形A″執(zhí)行擴(kuò)展處理的實(shí)施例作了說明,但這同樣可用于對波形B的語音波形進(jìn)行變換的情況。
下面將結(jié)合圖8的流程圖說明本發(fā)明的這個(gè)實(shí)施例中的擴(kuò)展處理的過程。首先,在輸入的語音信號中切出預(yù)定幀長Tc的語音波形(S1),根據(jù)所切出的幀長為Tc的語音波形,利用自相關(guān)函數(shù)等得到音調(diào)周期Tp(S2)。根據(jù)所得到的音調(diào)周期Tp,按音調(diào)周期Tp從輸入語音信號中切出作為處理對象的兩段語音波形(波形A,B)(S3),再通過時(shí)間軸反轉(zhuǎn)將波形A的語音波形變換成波形A′(S4)。
將波形A的與波形B連接的長為Lp的端部乘以從0到1線性改變的加權(quán)系數(shù),從而產(chǎn)生波形D1。類似地,將波形B的與波形A連接的長為Lp的端部乘以從1到0線性改變的加權(quán)系數(shù),從而產(chǎn)生波形C1。此外,將波形A′的始端和末端的長各為Lp的部分分別乘以從0到1和從1到0線性改變的加權(quán)系數(shù),從而產(chǎn)生相應(yīng)的波形C2和波形D2的語音波形(S5)。
將波形C1和波形C2的語音波形相加,產(chǎn)生波形C的語音波形(S6A)。類似地,將波形D1和波形D2的語音波形相加,產(chǎn)生波形D的語音波形(S6B)。
然后,將波形A′的語音波形從其起點(diǎn)和終點(diǎn)各切去長為Lp的部分,再將波形C和波形D的語音波形分別插入被切去的部分,從而組合成波形A″(S7)。再將波形A″的語音波形插入波形A和波形B之間(S8),使語音波形得到擴(kuò)展。對于下一個(gè)幀重復(fù)執(zhí)行步驟S1至S8,如果沒有下一個(gè)需擴(kuò)展的語音信號輸入,此擴(kuò)展處理結(jié)束(S9)。
以上對如圖1配置的語音速率變換裝置中實(shí)現(xiàn)的擴(kuò)展處理作了說明,但是除了如圖1所示的擴(kuò)展處理部分3之外,包括上述步驟S1至S8的擴(kuò)展處理也可以通過一個(gè)裝有諸如CPU之類的處理器的計(jì)算機(jī)執(zhí)行的軟件來實(shí)現(xiàn)。乘以所切出的波形的加權(quán)系數(shù)不局限于線性改變型。許多改型及其他實(shí)施方式都在該技術(shù)領(lǐng)域的普通技術(shù)人員能及的范圍內(nèi),諸如將聲音輸出單元納入電視機(jī)、DVD播放機(jī)之類。
如上所述,按照本發(fā)明,可以用比較簡單的處理實(shí)現(xiàn)音質(zhì)好的語音速率變換,而不會產(chǎn)生令人討厭的寄生聲。
權(quán)利要求
1.一種語音速率變換裝置,包括一個(gè)音調(diào)周期計(jì)算單元,用來根據(jù)一個(gè)輸入的語音信號計(jì)算音調(diào)周期;以及一個(gè)擴(kuò)展處理單元,用來通過按該音調(diào)周期從所述語音信號中切出一段語音波形和將一段反轉(zhuǎn)波形插入所述語音信號來執(zhí)行擴(kuò)展處理,其中,所述反轉(zhuǎn)波形是通過將所切出的語音波形時(shí)間反轉(zhuǎn)而得到的。
2.一種語音速率變換裝置,包括一個(gè)語音幀提取單元,用來從一個(gè)輸入的語音信號中提取具有預(yù)定幀長的語音幀;一個(gè)音調(diào)周期計(jì)算單元,用來根據(jù)該語音幀計(jì)算音調(diào)周期;以及一個(gè)擴(kuò)展處理單元,用來通過按該音調(diào)周期從該語音幀中切出一段語音波形和將一段反轉(zhuǎn)波形插入所述語音幀來執(zhí)行擴(kuò)展處理,其中,所述反轉(zhuǎn)波形是通過將所切出的語音波形時(shí)間反轉(zhuǎn)而得到的。
3.如在權(quán)利要求1中所述的語音速率變換裝置,其中,所述擴(kuò)展處理單元通過連續(xù)地按音調(diào)周期切出多段語音波形和插入至少一段或多段反轉(zhuǎn)波形來執(zhí)行擴(kuò)展處理。
4.如在權(quán)利要求2中所述的語音速率變換裝置,其中,所述擴(kuò)展處理單元通過連續(xù)地按音調(diào)周期切出多段語音波形和插入至少一段或多段反轉(zhuǎn)波形來執(zhí)行擴(kuò)展處理。
5.如在權(quán)利要求1中所述的語音速率變換裝置,其中,所述擴(kuò)展處理單元通過將反轉(zhuǎn)波形插在切出加以反轉(zhuǎn)的原語音波形和下一段切出的語音波形之間來執(zhí)行擴(kuò)展處理。
6.如在權(quán)利要求2中所述的語音速率變換裝置,其中,所述擴(kuò)展處理單元通過將反轉(zhuǎn)波形插在切出加以反轉(zhuǎn)的原語音波形和下一段切出的語音波形之間來執(zhí)行擴(kuò)展處理。
7.如在權(quán)利要求5中所述的語音速率變換裝置,其中,所述反轉(zhuǎn)波形是通過將一段切出再時(shí)間反轉(zhuǎn)的波形的始端部分加權(quán)后與切出加以反轉(zhuǎn)的原語音波形的末端部分相加和組合得到的。
8.如在權(quán)利要求6中所述的語音速率變換裝置,其中,所述反轉(zhuǎn)波形是通過將一段切出再時(shí)間反轉(zhuǎn)的波形的始端部分加權(quán)后與切出加以反轉(zhuǎn)的原語音波形的末端部分相加和組合得到的。
9.如在權(quán)利要求5中所述的語音速率變換裝置,其中,所述反轉(zhuǎn)波形是通過將一段切出再時(shí)間反轉(zhuǎn)的波形的末端部分加權(quán)后與下一段切出的語音波形的始端部分相加和組合得到的。
10.如在權(quán)利要求6中所述的語音速率變換裝置,其中,所述反轉(zhuǎn)波形是通過將一段切出再時(shí)間反轉(zhuǎn)的波形的末端部分加權(quán)后與下一段切出的語音波形的始端部分相加和組合得到的。
11.一種語音速率變換方法,包括根據(jù)一個(gè)輸入的語音信號計(jì)算音調(diào)周期;以及通過按該音調(diào)周期從該語音信號中切出一段語音波形和將一段反轉(zhuǎn)波形插入所述語音信號來執(zhí)行擴(kuò)展處理,其中,所述反轉(zhuǎn)波形是通過將所切出的語音波形時(shí)間反轉(zhuǎn)而得到的。
12.如在權(quán)利要求11中所述的語音速率變換方法,其中,所述擴(kuò)展處理是通過連續(xù)地按音調(diào)周期切出多段語音波形和插入至少一段或多段反轉(zhuǎn)波形來執(zhí)行的。
13.如在權(quán)利要求11中所述的語音速率變換方法,其中,所述擴(kuò)展處理是通過將反轉(zhuǎn)波形插在切出加以反轉(zhuǎn)的原語音波形和下一段切出的語音波形之間來執(zhí)行的。
14.如在權(quán)利要求13中所述的語音速率變換方法,其中,所述反轉(zhuǎn)波形是通過將一段切出再時(shí)間反轉(zhuǎn)的波形的始端部分加權(quán)后與切出加以反轉(zhuǎn)的原語音波形的末端部分相加和組合得到的。
15.如在權(quán)利要求13中所述的語音速率變換方法,其中,所述反轉(zhuǎn)波形是通過將一段切出再時(shí)間反轉(zhuǎn)的波形的末端部分加權(quán)后與下一段切出的語音波形的始端部分相加和組合得到的。
全文摘要
一種語音速率變換裝置包括一個(gè)音調(diào)周期計(jì)算單元,用來根據(jù)一個(gè)輸入的語音信號計(jì)算出音調(diào)周期;以及一個(gè)擴(kuò)展處理單元,用來通過按音調(diào)周期從語音信號中切出一段語音波形和將一段反轉(zhuǎn)波形插入語音信號來執(zhí)行擴(kuò)展處理。優(yōu)選地,所述反轉(zhuǎn)波形是通過將所切出的語音波形時(shí)間反轉(zhuǎn)得到的。
文檔編號G10L11/00GK1573931SQ20041004758
公開日2005年2月2日 申請日期2004年5月27日 優(yōu)先權(quán)日2003年5月27日
發(fā)明者長安克芳, 山本幸一 申請人:株式會社東芝