專利名稱:一種語音變調(diào)方法及裝置的制作方法
技術領域:
本發(fā)明涉及語音處理技術領域,尤其涉及一種語音變調(diào)方法及裝置。
背景技術:
目前,語音通信涉及的范圍越來越廣,包括電話,手機,網(wǎng)絡視頻聊天, 語音郵件等。出于軍事安全、保護隱私或者是個人娛樂等方面的需要,人們在 語音通信中除了希望通過改變自己的聲音特征掩蓋自己的身份外,同時也有在 本地通話端改變對方通話端聲音特征的需要。
現(xiàn)有的語音變調(diào)特效, 一般應用在語音信號的發(fā)送端,通過指定升調(diào)或者 降調(diào)的范圍,來固定地改變音調(diào),起到男聲變女聲,或者女聲變男聲的作用。 一般情況下,女聲的音調(diào)要高于男聲,因此,當用戶是位女性時,該用戶通過 在語音信號的發(fā)送端設定降調(diào)的幅度,即可實現(xiàn)將自己的音調(diào)調(diào)低,從而達到 將自己的聲音變成男聲后發(fā)送給接收端的目的。同理,當用戶是位男性時,該 用戶通過在語音信號的發(fā)送端設定升調(diào)的幅度,即可實現(xiàn)將自己的音調(diào)調(diào)高, 從而達到將自己的聲音變成女聲后發(fā)送給接收端的目的。
綜上所述,現(xiàn)有語音變調(diào)技術是通過用戶手工設定升調(diào)或者降調(diào)的幅度, 來固定地改變音調(diào),即現(xiàn)有技術無法實現(xiàn)語音的自適應變調(diào)。
發(fā)明內(nèi)容
本發(fā)明實施例提供了 一種語音變調(diào)方法及裝置,用以實現(xiàn)語音的自適應變調(diào)。
本發(fā)明實施例提供的一種語音變調(diào)方法包括 對接收到的語音進行基音檢測,確定所述語音的基音周期;
確定所述語音的基音周期所屬的基音周期范圍,并根據(jù)預先設置的基音周 期范圍與變調(diào)參數(shù)的對應關系,獲取所述語音的基音周期所屬的基音周期范圍
所對應的變調(diào)參數(shù);
采用所述變調(diào)參數(shù)對所述語音進行變調(diào)處理。 本發(fā)明實施例提供的另 一種語音變調(diào)方法包括 對接收到的語音進行基音檢測,確定所述語音的基音頻率; 確定所述語音的基音頻率所屬的基音頻率范圍,并根據(jù)預先設置的基音頻
率范圍與變調(diào)參數(shù)的對應關系,獲取所述語音的基音頻率所屬的基音頻率范圍
所對應的變調(diào)參數(shù);
采用所述變調(diào)參數(shù)對所述語音進行變調(diào)處理。 本發(fā)明實施例提供的一種語音變調(diào)裝置包括
設置單元,用于預先設置并存儲基音周期范圍與變調(diào)參數(shù)的對應關系; 基音周期單元,用于對接收到的語音進行基音檢測,確定所述語音的基音 周期;
變調(diào)參數(shù)單元,用于確定所述語音的基音周期所屬的基音周期范圍,并根 據(jù)所述對應關系,獲取所述語音的基音周期所屬的基音周期范圍所對應的變調(diào) 參數(shù);
變調(diào)單元,用于采用所述變調(diào)參數(shù)單元獲取的變調(diào)參數(shù)對所述語音進行變 調(diào)處理。
本發(fā)明實施例提供的另 一種語音變調(diào)裝置包括 設置單元,用于預先設置并存儲基音頻率范圍與變調(diào)參數(shù)的對應關系; 基音頻率單元,用于對接收到的語音進行基音檢測,確定所述語音的基音 頻率;
變調(diào)參數(shù)單元,用于確定所述語音的基音頻率所屬的基音頻率范圍,并根 據(jù)所述對應關系,獲取所述語音的基音頻率所屬的基音頻率范圍所對應的變調(diào) 參數(shù);
變調(diào)單元,用于采用所述變調(diào)參數(shù)單元獲取的變調(diào)參數(shù)對所述語音進行變 調(diào)處理。
本發(fā)明實施例,通過對接收到的語音進行基音檢測,確定所述語音的基音
周期;通過確定所述語音的基音周期所屬的基音周期范圍,并根據(jù)預先設置的 基音周期范圍與變調(diào)參數(shù)的對應關系,獲取所述語音的基音周期所屬的基音周 期范圍所對應的變調(diào)參數(shù);采用該變調(diào)參數(shù)對所述語音進行變調(diào)處理,從而實 現(xiàn)了對語音的自適應變調(diào),避免了現(xiàn)有技術需要用戶通過手工設置升調(diào)或者降 調(diào)的幅度來固定地改變音調(diào),從而方便了用戶操作,并且才是高了變調(diào)準確性。
圖1為本發(fā)明實施例提供的一種自適應的語音變調(diào)方法的總體流程示意
圖2為本發(fā)明實施例提供的中心削波函數(shù)示意圖3為本發(fā)明實施例提供的AMDF算法中函數(shù)^。的波形示意圖4為本發(fā)明實施例提供的變調(diào)算法原理示意圖5為本發(fā)明實施例提供的音色調(diào)整原理示意圖6為本發(fā)明實施例提供的一種語音變調(diào)裝置的具體結(jié)構(gòu)示意圖。
具體實施例方式
本發(fā)明實施例提供了 一種自適應的語音變調(diào)方法及裝置,用以實現(xiàn)自動將 接收到的語音進行變調(diào),將男聲變成女聲,或者將女聲變成男生,或者無論男 女,都變成男聲或者都變成女聲,從而方便了用戶操作,并且提高了變調(diào)準確 性。
下面結(jié)合附圖對本發(fā)明實施例進行詳細說明。
參見圖l,本發(fā)明實施例提供了一種自適應的語音變調(diào)方法總體包括步驟 S101、對接收到的語音進行基音檢測,確定語音的基音周期。
S102、確定語音的基音周期所屬的基音周期范圍,并根據(jù)預先設置的基音 周期范圍與變調(diào)參數(shù)的對應關系,獲取語音的基音周期所屬的基音周期范圍所 對應的變調(diào)參數(shù)。
S103 、采用語音的基音周期所屬的基音周期范圍所對應的變調(diào)參數(shù)對該語 音進行變調(diào)處理。
下面關于步驟S101給出具體說明。
基音周期是語音信號處理中最重要的參數(shù)之一,在語音編解碼器、語音識 別等方面具有關鍵性的應用?;糁芷谑歉鶕?jù)加窗的短時語音幀估計得到的, 基音周期的估計方案有很多,本發(fā)明實施例基于短時平均幅度差函數(shù)(AMDF, Average magnitude difference function)算法,提出了 一種改進的基音周期檢測 方案,用以在較短的時間內(nèi),更加準確地檢測出語音的基音周期。
基音周期是一種典型的語音短時特征,因此首先需要對語音進行加窗分幀 處理,研究表明窗長至少應大于兩個基音周期,才可能得到較好的基音周期檢 測效果,而語音中最大的基音周期約為20毫秒(ms),因此,本發(fā)明實施例為 了提高檢測基音周期的準確性,將窗長選為64ms,即每幀語音信號的長度是 64ms。并且,較佳地,本發(fā)明實施例中將每幀語音信號分為四個子幀。
為了對基音周期進行準確判斷,需要選擇元音信號幀作為目標檢測幀;并 且,為了保持音調(diào)的一致性,在說話人剛開口說話時就需要對基音周期進行檢 測。為了同時滿足這兩個條件,本發(fā)明實施例通過實-瞼證明較佳地,當某一 幀語音信號的短時平均幅度為噪聲短時平均幅度的5倍時,選取該幀語音信號 為目標檢測幀的語音信號,檢測目標檢測幀的語音信號的基音周期能夠得到較 準確的基音周期。
首先,噪聲短時平均幅度(T)的具體計算方法包括如下三個步驟
a、將接收到的第一個子幀的短時平均幅度作為T的參考值(或者稱為初 始值)。其中,在窗長選為64ms的情況下,每個子幀具有128個樣本點,采樣 頻率為8千赫茲(即8KHz)。
b、 分別計算第一個子幀后的連續(xù)3個子幀(即第二個子幀、第三個子幀 和第四個子幀)的短時平均幅度,并且,如果這3個子幀中出現(xiàn)某個子幀的短 時平均幅度過大,例如大于兩倍的第一個子幀的短時平均幅度,則舍去不用, 將其余的短時平均幅度取算數(shù)平均,將得到的平均值作為噪聲短時平均幅度T。
c、 判斷步驟b中計算得到的噪聲短時平均幅度T是否小于預先設定的噪 聲短時平均幅度闊值,如果是,則利用該閾值更新噪聲短時平均幅度T的值, 否則,保持噪聲短時平均幅度T的值不變。
較佳地,所述的噪聲短時平均幅度閾值可以設為300。
在確定了噪聲短時平均幅度以后,本發(fā)明實施例將滿足以下兩個條件的語
音幀作為檢測基音周期的目標檢測幀
條件一該幀語音信號的短時平均幅度是噪聲短時平均幅度的5倍。 一般情況下目標;險測幀語音信號的短時平均幅度大約為3分貝(db )。 條件二該幀信號進行中心削波后,至少有三個子幀中保留有信號,也就
是說,至少要有一半以上個數(shù)的子幀中留有信號,而不會大部分子幀的信號都
被削掉。
中心削波的目的是為了進一步提高準確性,因為,本發(fā)明實施例要選擇元 音信號幀作為目標檢測幀,而元音信號的強度是比較高的,所以通過中心削波 來選取元音信號幀作為目標;險測幀。
為了排除共振峰對檢測基音周期造成的干擾,本發(fā)明實施例進一步采用了 一個帶寬為60赫茲(Hz)至800Hz的帶通濾波器對語音信號進行濾波。帶通 濾波器的低端截頻置為60Hz是為了抑制50Hz的電源干擾,帶通濾波器的高 端截頻置為800Hz是為了消除大部分共振峰的影響,同時又可以保留基音周期 為最高值(400Hz)時的一、二次諧波。
為了減小聲道特性的影響,進一步提高基音檢測的準確率,本發(fā)明實施例 進一 步對目標檢測幀的語音信號進行中心削波處理。若輸入的某 一 目標檢測幀
語音信號用4")表示,中心削波后輸出的語音信號用K")表示,則有 K") = C[x(")],中心削波函數(shù)CW的波形示意圖如圖2所示,較佳地,削波電平
G的值取為該目標檢測幀語音的最大采樣值的68%。
AMDF算法是一種提取周期的算法,本發(fā)明實施例利用該算法計算經(jīng)過中 心削波處理后的目標檢測幀語音的基音周期。設^(")是某一 目標檢測幀語音信 號,它的非零區(qū)間為"G (W-1),其中N表示窗長,即一個目標檢測幀的長 度。利用AMDF算法對 (")進行計算的公式為
如圖3所示,為函數(shù)^。的波形示意圖,由于^(")是周期性的,所以L。 也具有周期性,因此可以用、。來確定基音周期,最小的^(0所對應的/即為 基音周期。
一般男性的基音頻率在100 Hz至200Hz的范圍內(nèi),女性的基音頻率大致 在150Hz至300Hz的范圍內(nèi),在8K采樣頻率下,男性基音周期大致包括50 至95個樣本點;而女性基音周期大致包括15至50個樣本點。
對于女性,基音周期和兩倍基音周期處,^。都為局部最小值,受聲道特
性和其它不確定因素的影響,兩倍基音周期處對應的^。有可能小于基音周期
處的L。,而女性基音周期的兩倍恰好落入男性基音周期的范圍,所以,極易 造成誤判。為了進一步提高基音周期檢測的準確度,避免誤檢,在利用AMDF 算法確定目標檢測幀語音的基音周期時,本發(fā)明實施例引入"清晰度"作為判決 條件。具體如下
預先根據(jù)女性基音周期范圍設置短時平均幅度差函數(shù)的第 一 變量值范圍 [15, 50],以及根據(jù)男性基音周期范圍設置短時平均幅度差函數(shù)的第二變量值 范圍[51, 90]。
分別選取第一變量值范圍[15, 50]內(nèi)短時平均幅度差函數(shù)值^。最小的第 一變量值^和第二變量值范圍[51, 90]內(nèi)短時平均幅度差函數(shù)值^(/)最小的第 二變量值、下面對々和^進行"清晰度,,檢查。
將小于和大于所述第一變量值^的4個變量值所對應的短時平均幅度差函
數(shù)值取平均,并將得到的平均值減去第 一 變量值^所對應的短時平均幅度差函
數(shù)值乙(U,將得到的差值"作為所述第一變量值(的清晰度,具體公式如下
<formula>formula see original document page 13</formula>
同理,將小于和大于所述第二變量值^的4個變量值所對應的短時平均幅 度差函數(shù)值取平均,并將得到的平均值減去第二變量值Zs所對應的短時平均幅 度差函數(shù)值L(&),將得到的差值Gg作為所述第二變量值的清晰度,具體公式
<formula>formula see original document page 13</formula>通過比較第一變量值^所對應的短時平均幅度差函數(shù)值乙(/》與第二變量 值Zg所對應的短時平均幅度差函數(shù)值^仏)的大小,以及所述第一變量值^的清
晰度"和所述第二變量值^的清晰度Gg,確定目標檢測幀語音的基音周期。 較佳地,該方法具體包括
當L(U <時,確定目標檢測幀語音的基音周期為第一變量值^;
當^(/》<^仏),且^>"時,確定目標檢測幀語音的基音周期為第二變
當L(/g)〈;^U,且c"A時,如果"s乂 (即誤差在兩個樣本點以內(nèi)), 且^。與^仏)的值差別不大,即LK)與L(U的差值小于一定閾值時,確定目 標檢測幀語音的基音周期為第一變量值^;否則,確定目標;險測幀語音的基音 周期為第二變量值、
對若干連續(xù)目標檢測幀的語音信號進行基音檢測所得到的多個基音周期 構(gòu)成一個基音周期軌跡。無論采用什么算法求得的基音周期軌跡與真實的基音 周期軌跡不可能完全吻合,實際上大部分段落是吻合的,而在一些局部段落中 有一個或幾個基音周期的估計值偏離了真實的基音周期軌跡,將這些偏離了真 實的基音周期軌的基音周期檢測值稱為基音周期軌跡的"野點"。為了去除野 點,使得檢測得到的基音周期更加準確,本發(fā)明實施例釆用連續(xù)四個目標檢測 幀的語音信號進行計算所得到的基音周期進行中值平滑處理,即去掉這四個目 標檢測幀的語音信號中基音周期最大的點和基音周期最小的點,將剩下的兩個 基音周期的值取算術平均,將得到的平均值作為這四個目標;險測幀的語音信號 的基音周期。
下面關于步驟S102給出具體說明。
本發(fā)明實施例可以預先設置基音周期范圍與變調(diào)參數(shù)的對應關系,而基音 周期的倒數(shù)即是基音頻率,所以同理也可以預先設置基音頻率范圍與變調(diào)參數(shù) 的對應關系。下面以預先設置基音頻率范圍與變調(diào)參數(shù)的對應關系為例進行說 明。
由于一般男性的基音頻率在100Hz至200Hz的范圍內(nèi),女性的基音頻率 大致在150Hz至300Hz的范圍內(nèi),所以男性的基音頻率和女性的基音頻率有 一定的重疊,即150Hz至200Hz的頻率范圍為重疊的頻率范圍,所以,對于 該頻率范圍內(nèi)的基音頻率本發(fā)明實施例給出了特殊處理。
本發(fā)明實施例預先將基音頻率劃分為四個范圍100Hz至150Hz、 150Hz 至175Hz、 175Hz至200Hz、 200Hz至300Hz。其中,100Hz至150Hz為男性 特性語音的基音頻率范圍,150Hz至175Hz為弱男性特性語音的基音頻率范圍, 175Hz至200Hz為弱女性特性語音的基音頻率范圍,200Hz至300Hz為女性特 性語音的基音頻率范圍。
針對上述四種基音頻率范圍,本發(fā)明實施例分別設置不同的變調(diào)參數(shù),在 確定了目標檢測幀語音的基音周期后,對該基音周期取倒數(shù),得到相應的基音 頻率,確定該基音頻率所屬的基音頻率范圍,從而確定需要對該目標檢測幀的 語音進行變調(diào)處理時所采用的變調(diào)參數(shù)。
下面關于步驟S103給出具體說明。
如上所述,本發(fā)明實施例對于男性特性語音,變調(diào)時可以將其變?yōu)榕蕴?性語音;反之對于女性特性語音,變調(diào)時可以將其變?yōu)槟行蕴匦哉Z音。對于弱 男性特性語音和弱女性特性語音,由于性別辨識上可能存在錯誤,所以本發(fā)明 實施例釆用減小變調(diào)程度的策略,將弱男性特性語音變調(diào)為弱女性特性語音, 而將弱女性特性語音變調(diào)為弱男性特性語音,從而盡量減小誤判帶來的影響。
要使得變調(diào)后的聲音更加自然,就需要考慮音色的特點。 一般來說,音調(diào) 反映的是語音鐠結(jié)構(gòu)的微觀特點,而音色反映的是語音譜包絡的宏觀特點。因 此,要取得較好的變聲效果,就必須綜合考慮變調(diào)和改變音色兩個方面。
因此,本發(fā)明實施例在對語音進行變調(diào)處理的基礎上,進一步增加了音色 調(diào)整和頻語均衡。變調(diào)采用變速和變采樣率的方法實現(xiàn),音色調(diào)整采用調(diào)整鐠 包絡實現(xiàn),另外再加上頻譜均衡,使得改變后的語音更加自然。
變調(diào)(即Pitch Scaling)的主要的目的是在不改變聲音的總長度下,改變 聲音的音調(diào),將音調(diào)升高或者降低。 一般來說男聲的音調(diào)較低,女生的音調(diào)較 高。將男聲的音調(diào)調(diào)高可以起到男聲變女聲的作用;反之,將女聲的音調(diào)降低 可以起到女聲變男聲的作用,具體是采用變速加變采樣率的方法實現(xiàn)變調(diào)的。
如圖4所示,x(n)為輸入的原聲信號,v(n)為輸出的變調(diào)后的語音信號, 對語音信號的變調(diào)處理是逐幀進行的,即x(n)和v(n)都表示一段長度為N的序 列。
音色也是語音中重要的特點之一, 一般來說,年齡大的人音色較低沉,年 紀輕的人音色較高亢。音色由譜包絡的形狀決定,更確切地講是由共振峰的位 置決定的。共振峰的位置對于特定人來說是較為穩(wěn)定的參數(shù), 一般由聲道、口 腔的尺寸等決定,不易改變。因而也就形成了每個人的特有音色。
音色的調(diào)整采用調(diào)整傳包絡來實現(xiàn),其原理如圖5所示,具體算法包括如
下步驟
1.將變調(diào)后的結(jié)果v(n)做分析加窗處理,窗函數(shù)選擇正弦窗。 首先,將v(n)與上一幀輸入v—old(n)合并成一個長度為2N的大幀:
用正弦窗加權得到z(n):
<formula>formula see original document page 16</formula>2. 將w(n)變換到頻域
= FFr[z(")]
3. 從W(k)中提取出鐠包絡,提取語包絡的方法很多,可以釆取加窗平滑 法或中值平滑法。
加窗平滑法相當于低通濾波,采用一個窗長為2L+1的窗函數(shù),對窗內(nèi)的 譜線平均,得到平滑后的輸出
較佳地,所述的窗函數(shù)為矩形窗,L取2。
中值平滑法同樣采用一個窗長為2L+1的窗,對W(K)進行中值濾波
曙=M豐(it + /)|} i=_L~L
4. 調(diào)整譜包絡,得到
其中,
/ >1,壓縮譜包絡,音色降低 p〈l,擴展譜包絡,音色升高 / = 1,音色不變
所謂調(diào)整譖包絡,就是將譜包絡擴展或者壓縮,從而改變共振峰的位置, 5.傳包絡整形
通過調(diào)整前后的譜包絡系數(shù),可以得到最終的譜包絡加權系數(shù)<formula>formula see original document page 16</formula>
曙
然后,用這個鐠包絡加權系數(shù),對信號進行i普包絡整形
Z'(A:)-Z(A:)t/o(A:)
6. 將Z'(k)變換到時域
z'(")-靜r[z'(io]
7. 將z,(n)做綜合加窗處理,窗函數(shù)選擇正弦窗,如下所示
zw (w) = zsin(;rw / 2jV), w = 0 ~ 2iV -1
將加窗后的前一半結(jié)果與上一幀保存的結(jié)果疊加作為最終的輸出信號
:K") = ;(")+、'("), w = o ~ iv -1 將加窗后的后一半結(jié)果保存。
不同性別、年齡的人的譜包絡的集間存在一定差異,集內(nèi)又比較相似。因 此可以利用這個特點,對頻譜進行進一步均衡,使得音色更加的自然。
由于頻i普均衡也需要對信號進行正反傅立葉變換(FFT)的操作,因此可 以與音色調(diào)整共用FFT變換,直接對圖4中的Z,(k)作均衡處理。均衡的方法 可以是將Z,(k)的2N條譜線分成M個區(qū)間(band) (M可以取10 ),將落在 某個band內(nèi)的語線用設置好的加權系數(shù)進行加權,加權系數(shù)可以根據(jù)實驗獲 得。
下面給出本發(fā)明實施例提供的裝置。
參見圖6,本發(fā)明實施例提供的一種語音變調(diào)裝置包括
設置單元11,用于預先設置并存儲基音周期范圍與變調(diào)參數(shù)的對應關系。
基音周期單元12,用于對接收到的語音進行基音檢測,確定語音的基音周期。
變調(diào)參數(shù)單元13,用于確定語音的基音周期所屬的基音周期范圍,并根據(jù) 所述設置單元11存儲的對應關系,獲取該語音的基音周期所屬的基音周期范 圍所對應的變調(diào)參數(shù);
變調(diào)單元14,用于變調(diào)參數(shù)單元13確定的變調(diào)參數(shù)對接收到的語音進行 變調(diào)處理。
較佳地,所述基音周期單元12包括
目標檢測幀單元121,用于確定噪聲短時平均幅度,并且當判定某幀語音 的短時平均幅度大于該噪聲短時平均幅度一定倍數(shù)時,將該幀作為目標檢測 幀。
較佳地,所述目標檢測幀單元121,當判定某幀語音的短時平均幅度大于 噪聲短時平均幅度一定倍數(shù)時,進一步對該幀語音進行中心削波,當該幀語音 經(jīng)過中心削波后至少有半數(shù)以上的子幀中保留有信號時,將該幀作為目標檢測 幀。
帶通濾波單元122,用于對目標檢測幀語音進行帶通濾波處理,消除電源 以及共振峰的干擾。
中心削波單元123,用于對經(jīng)過所述帶通濾波處理后的目標檢測幀語音進 行中心削波處理。
確定單元124,用于采用短時平均幅度差函數(shù)確定目標檢測幀語音的基音 周期。
后處理單元125,用于釆用連續(xù)的一定個數(shù)的目標;險測幀語音的基音周期 進行中值平滑處理,將中值平滑處理后得到的基音周期作為該連續(xù)的一定個數(shù) 的目標檢測幀語音的基音周期。
較佳地,所述確定單元124包括
存儲單元1241,用于存儲預先根據(jù)女性基音周期范圍設置的短時平均幅度 差函數(shù)的第 一 變量值范圍,以及根據(jù)男性基音周期范圍設置的短時平均幅度差 函數(shù)的第二變量值范圍。
選取單元1242,用于分別選取第一變量值范圍內(nèi)短時平均幅度差函數(shù)值最 小的第一變量值和第二變量值范圍內(nèi)短時平均幅度差函數(shù)值最小的第二變量 值。
清晰度單元1243,用于將小于和大于所述第一變量值的一定個數(shù)的變量值 所對應的短時平均幅度差函數(shù)值取平均,并將得到的平均值減去第 一變量值所對應的短時平均幅度差函數(shù)值,將得到的差值作為第一變量值的清晰度;并且, 將小于和大于所述第二變量值的一定個數(shù)的變量值所對應的短時平均幅度差 函數(shù)值取平均,并將得到的平均值減去第二變量值所對應的短時平均幅度差函 數(shù)值,將得到的差值作為第二變量值的清晰度。
比較單元1244,用于通過比較第一變量值所對應的短時平均幅度差函數(shù)值 與第二變量值所對應的短時平均幅度差函數(shù)值,以及第一變量值的清晰度和第 二變量值的清晰度,確定目標檢測幀語音的基音周期。
同理,本發(fā)明實施例提供的另一種語音變調(diào)裝置包括 設置單元,用于預先設置并存儲基音頻率范圍與變調(diào)參數(shù)的對應關系。 基音頻率單元,用于對接收到的語音進行基音檢測,確定語音的基音頻率。 變調(diào)參數(shù)單元,用于確定所述語音的基音頻率所屬的基音頻率范圍,并根 據(jù)預先設置的基音頻率范圍與變調(diào)參數(shù)的對應關系,獲取該語音的基音頻率所 屬的基音頻率范圍所對應的變調(diào)參數(shù)。
變調(diào)單元,用于釆用語音的基音頻率所屬的基音頻率范圍所對應的變調(diào)參 數(shù)對語音進行變調(diào)處理。
綜上所述,基音周期決定了語音音調(diào),基音周期越小,音調(diào)越高。因此在 變調(diào)時,可以根據(jù)檢測到的基音周期,決定變調(diào)算法的參數(shù)。如果是要將女聲 變?yōu)槟新?,檢測到的基音周期越小,則選擇的變調(diào)參數(shù)使降調(diào)程度越大;反之, 將男聲變成女聲,檢測到的基音周期越大,則選擇的變調(diào)參數(shù)使升調(diào)程度越大。 這樣,使變調(diào)后的聲音效果更加的自然,性別的特征也更明顯。
需要說明的是,本發(fā)明實施例中給出的各種參數(shù)的具體值都是較佳的值, 而不是唯一的值,各種參數(shù)的值可以根據(jù)實際需要進行設置。本發(fā)明實施例提 供的技術方案可以應用在語音的發(fā)送端,也可以應用在語音的接收端。在語音 的接收端用戶可以預先設定想要接聽到的語音的性別,接收端就可以自動將接 收到的語音信號轉(zhuǎn)化成具有該性別特征的語音。例如,事先在接收端設定對方 通話人為男性,則通話時無論對方是男是女,聽者都會聽到一位男性在講話。
明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及 其等同技術的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權利要求
1、一種語音變調(diào)方法,其特征在于,所述方法包括對接收到的語音進行基音檢測,確定所述語音的基音周期;確定所述語音的基音周期所屬的基音周期范圍,并根據(jù)預先設置的基音周期范圍與變調(diào)參數(shù)的對應關系,獲取所述語音的基音周期所屬的基音周期范圍所對應的變調(diào)參數(shù);采用所述變調(diào)參數(shù)對所述語音進行變調(diào)處理。
2、 根據(jù)權利要求1所述的方法,其特征在于,對所述接收到的語音進行 基音檢測,確定所述語音的基音周期的步驟包括確定噪聲短時平均幅度;當一幀語音的短時平均幅度大于所述噪聲短時平均幅度一定倍數(shù)時,將該 幀作為目標;險測幀;采用短時平均幅度差函數(shù)確定目標檢測幀語音的基音周期。
3、 根據(jù)權利要求2所述的方法,其特征在于,所述當一幀語音的短時平 均幅度大于所述噪聲短時平均幅度一定倍數(shù)時,進一步對該幀語音進行中心削 波,當該幀語音經(jīng)過中心削波后至少有半數(shù)以上的子幀中保留有信號時,將該 幀作為目標^r測幀。
4、 根據(jù)權利要求2或3所述的方法,其特征在于,確定所述噪聲短時平 均幅度的步驟包括:計算接收到的第一幀信號中的各個子幀信號的平均幅度,并丟棄其中大于 第一個子幀信號的平均幅度預先設定的倍數(shù)的平均幅度,將剩余的平均幅度取 平均,并將得到的平均值與預先設置的闊值進行比較,將較大的值作為噪聲短 時平均幅度的值。
5、 根據(jù)權利要求2所述的方法,其特征在于,確定了所述目標檢測幀之 后,采用短時平均幅度差函數(shù)確定目標檢測幀語音的基音周期之前還包括對所述目標檢測幀語音進行帶通濾波處理,消除電源以及共振峰的干擾。
6、 根據(jù)權利要求5所述的方法,其特征在于,對所述目標檢測幀語音進 行帶通濾波處理之后,釆用短時平均幅度差函數(shù)確定目標;險測幀語音的基音周 期之前還包括對所述目標檢測幀語音進行中心削波處理。
7、 根據(jù)權利要求2所述的方法,其特征在于,預先根據(jù)女性基音周期范 圍設置短時平均幅度差函數(shù)的第 一變量值范圍,以及根據(jù)男性基音周期范圍設 置短時平均幅度差函數(shù)的第二變量值范圍;所述采用短時平均幅度差函數(shù)確定目標檢測幀語音的基音周期的步驟包括分別選取第一變量值范圍內(nèi)短時平均幅度差函數(shù)值最小的第一變量值和 第二變量值范圍內(nèi)短時平均幅度差函數(shù)值最小的第二變量值;將小于和大于所述第一變量值的一定個數(shù)的變量值所對應的短時平均幅 度差函數(shù)值取平均,并將得到的平均值減去所述第一變量值所對應的短時平均 幅度差函數(shù)值,將得到的差值作為所述第一變量值的清晰度;并且,將小于和大于所述第二變量值的一定個數(shù)的變量值所對應的短時平均幅 度差函數(shù)值取平均,并將得到的平均值減去所述第二變量值所對應的短時平均 幅度差函數(shù)值,將得到的差值作為所述第二變量值的清晰度;通過比較所述第一變量值所對應的短時平均幅度差函數(shù)值與所述第二變 量值所對應的短時平均幅度差函數(shù)值,以及所述第一變量值的清晰度和所述第 二變量值的清晰度,確定所述目標檢測幀語音的基音周期。
8、 根據(jù)權利要求7所述的方法,其特征在于,通過比較所述第一變量值 所對應的短時平均幅度差函數(shù)值與所述第二變量值所對應的短時平均幅度差 函數(shù)值,以及所述第一變量值的清晰度和所述第二變量值的清晰度,確定所述 目標檢測幀語音的基音周期的步驟包括當所述第一變量值所對應的短時平均幅度差函數(shù)值小于所述第二變量值 所對應的短時平均幅度差函數(shù)值時,確定所述目標檢測幀語音的基音周期為所 述第一變量值;當所述第一變量值所對應的短時平均幅度差函數(shù)值大于所述第二變量值 所對應的短時平均幅度差函數(shù)值,且所述第一變量值的清晰度小于所述第二變 量值的清晰度時,確定所述目標檢測幀語音的基音周期為所述第二變量值;當所述第一變量值所對應的短時平均幅度差函數(shù)值大于所述第二變量值 所對應的短時平均幅度差函數(shù)值,且所述第一變量值的清晰度大于所述第二變 量值的清晰度時,如果所述第二變量值約等于兩倍的所述第一變量值,且所述 第一變量值所對應的短時平均幅度差函數(shù)值與所述第二變量值所對應的短時 平均幅度差函數(shù)值的差值小于一定值時,確定所述目標檢測幀語音的基音周期 為所述第一變量值;否則,確定所述目標檢測幀語音的基音周期為所述第二變 量值。
9、 根據(jù)權利要求7或8所述的方法,其特征在于,確定了所述目標檢測 幀語音的基音周期之后還包括采用連續(xù)的一定個數(shù)的目標檢測幀語音的基音周期進行中值平滑處理,將 中值平滑處理后得到的基音周期作為該連續(xù)的一定個數(shù)的目標檢測幀語音的 基音周期。
10、 一種語音變調(diào)方法,其特征在于,所述方法包括 對接收到的語音進行基音檢測,確定所述語音的基音頻率; 確定所述語音的基音頻率所屬的基音頻率范圍,并根據(jù)預先設置的基音頻率范圍與變調(diào)參數(shù)的對應關系,獲取所述語音的基音頻率所屬的基音頻率范圍 所對應的變調(diào)參數(shù);采用所述變調(diào)參^t對所述語音進行變調(diào)處理。
11、 一種語音變調(diào)裝置,其特征在于,該裝置包括設置單元,用于預先設置并存儲基音周期范圍與變調(diào)參數(shù)的對應關系; 基音周期單元,用于對接收到的語音進行基音檢測,確定所述語音的基音 周期; 變調(diào)參數(shù)單元,用于確定所述語音的基音周期所屬的基音周期范圍,并根 據(jù)所述對應關系,獲取所述語音的基音周期所屬的基音周期范圍所對應的變調(diào)參數(shù);變調(diào)單元,用于釆用所述變調(diào)參數(shù)單元獲取的變調(diào)參數(shù)對所述語音進行變 調(diào)處理。
12、 根據(jù)權利要求11所述的裝置,其特征在于,所述基音周期單元包括 目標檢測幀單元,用于確定噪聲短時平均幅度,并且當判定一幀語音的短時平均幅度大于所述噪聲短時平均幅度一定倍數(shù)時,將該幀作為目標;險測幀; 確定單元,用于采用短時平均幅度差函數(shù)確定目標檢測幀語音的基音周期。
13、 根據(jù)權利要求12所述的裝置,其特征在于,所述目標檢測幀單元, 當判定一幀語音的短時平均幅度大于所述噪聲短時平均幅度一定倍數(shù)時,進一 步對該幀語音進行中心削波,當該幀語音經(jīng)過中心削波后至少有半數(shù)以上的子 幀中保留有信號時,將該幀作為目標檢測幀。
14、 根據(jù)權利要求12或13所述的裝置,其特征在于,所述基音周期單元 還包括帶通濾波單元,用于對所述目標;險測幀語音進行帶通濾波處理,消除電源 以及共振峰的干擾。
15、 根據(jù)權利要求14所述的裝置,其特征在于,所述基音周期單元還包括中心削波單元,用于對經(jīng)過所述帶通濾波處理后的目標檢測幀語音進行中 心削波處理。
16、 根據(jù)權利要求12所述的裝置,其特征在于,所述確定單元包括 存儲單元,用于存儲預先根據(jù)女性基音周期范圍設置的短時平均幅度差函數(shù)的第一變量值范圍,以及根據(jù)男性基音周期范圍設置的短時平均幅度差函數(shù) 的第二變量值范圍;選取單元,用于分別選取第一變量值范圍內(nèi)短時平均幅度差函數(shù)值最小的第一變量值和第二變量值范圍內(nèi)短時平均幅度差函數(shù)值最小的第二變量值;清晰度單元,用于將小于和大于所述第一變量值的一定個數(shù)的變量值所對 應的短時平均幅度差函數(shù)值取平均,并將得到的平均值減去所述第 一變量值所 對應的短時平均幅度差函數(shù)值,將得到的差值作為所述第一變量值的清晰度; 并且,將小于和大于所述第二變量值的一定個數(shù)的變量值所對應的短時平均幅 度差函數(shù)值取平均,并將得到的平均值減去所述第二變量值所對應的短時平均 幅度差函數(shù)值,將得到的差值作為所述第二變量值的清晰度;比較單元,用于通過比較所述第一變量值所對應的短時平均幅度差函數(shù)值 與所述第二變量值所對應的短時平均幅度差函數(shù)值,以及所述第一變量值的清 晰度和所述第二變量值的清晰度,確定所述目標檢測幀語音的基音周期。
17、 根據(jù)權利要求12所述的裝置,其特征在于,所述基音周期單元還包括后處理單元,用于采用連續(xù)的一定個數(shù)的目標檢測幀語音的基音周期進行 中值平滑處理,將中值平滑處理后得到的基音周期作為該連續(xù)的一定個數(shù)的目 標檢測幀語音的基音周期。
18、 一種語音變調(diào)裝置,其特征在于,該裝置包括設置單元,用于預先設置并存儲基音頻率范圍與變調(diào)參數(shù)的對應關系; 基音頻率單元,用于對接收到的語音進行基音檢測,確定所述語音的基音 頻率;變調(diào)參數(shù)單元,用于確定所述語音的基音頻率所屬的基音頻率范圍,并根 據(jù)所述對應關系,獲取所述語音的基音頻率所屬的基音頻率范圍所對應的變調(diào) 參數(shù);變調(diào)單元,用于采用所述變調(diào)參數(shù)單元獲取的變調(diào)參數(shù)對所述語音進行變 調(diào)處理。
全文摘要
本發(fā)明公開了一種語音變調(diào)方法及裝置,用以實現(xiàn)語音的自適應變調(diào)。本發(fā)明提供的一種語音變調(diào)方法包括對接收到的語音進行基音檢測,確定所述語音的基音周期;確定所述語音的基音周期所屬的基音周期范圍,并根據(jù)預先設置的基音周期范圍與變調(diào)參數(shù)的對應關系,獲取所述語音的基音周期所屬的基音周期范圍所對應的變調(diào)參數(shù);采用所述變調(diào)參數(shù)對所述語音進行變調(diào)處理。本發(fā)明用于實現(xiàn)語音的自適應變調(diào),避免現(xiàn)有技術需要用戶通過手工設置升調(diào)或者降調(diào)的幅度來固定地改變音調(diào),從而方便用戶操作,并且提高變調(diào)準確性。
文檔編號G10L21/00GK101354889SQ200810222508
公開日2009年1月28日 申請日期2008年9月18日 優(yōu)先權日2008年9月18日
發(fā)明者晨 張, 磊 徐 申請人:北京中星微電子有限公司