專利名稱:自動分割單字語音信號的裝置與方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種分割單字語音信號的裝置與方法,尤其是一種自動分割單 字語音信號的裝置與方法。
背景技術(shù):
在語言學(xué)習(xí)過程中,常會借助許多語言學(xué)習(xí)工具,如電子辭典等,用來增 加學(xué)習(xí)效果與加快學(xué)習(xí)速度。目前一般的電子辭典都具有發(fā)音的功能,也就是 說當(dāng)使用者通過電子辭典查詢單字或例句后,可通過發(fā)音的功能,而聽取正確 的單字或例句的發(fā)音。如此,將可大幅提升使用者在語言學(xué)習(xí)上,在聽與說方 面的能力。因此,有越來越多的廠商日益重視電子辭典的發(fā)音功能。
近來電子辭典標(biāo)榜具有真人發(fā)音的功能,已成為各廠商所訴求的特色。而 真人發(fā)音可通過真人來錄制各個單字的聲波,而達(dá)到真人發(fā)音的功能。然而, 利用真人來錄制所有單字的聲波,將耗費(fèi)掉電子辭典內(nèi)存非常多的儲存空間, 進(jìn)而提升成本的支出。
因此,發(fā)展出通過發(fā)音合成的方式,而達(dá)到接近真人發(fā)音的功能,如此可 節(jié)省內(nèi)存的空間,也同時提高發(fā)音的質(zhì)量。發(fā)音合成的方式一般可分為兩種, 以英文單字為例說明如下。
第一種方式,依照英文辭典單字表中的音標(biāo)來決定音節(jié)。在合成一個英文 單字的語音數(shù)據(jù)前,必須先將此英文單字分割為單個或多個音節(jié),再由原始錄 音的數(shù)據(jù)中獲取出與音節(jié)相對應(yīng)的聲波,并加以結(jié)合即可。
第二種方式,錄制所有各種聲母、韻母及音調(diào)組合的各個音節(jié)聲波,并儲 存在內(nèi)存中。在合成----個英文單字的語音數(shù)據(jù)前,必須先將此英文單字分割為 單個或多個音節(jié),再由錄制的數(shù)據(jù)中獲取出與分割后的各個音節(jié)相對應(yīng)的聲波, 并加以結(jié)合即可。
由上述說明可知,不論是哪種發(fā)音合成的方式,都必須先將英文單字分割 為單個或多個音節(jié),才能進(jìn)行后續(xù)的處理。而傳統(tǒng)的作法上,是通過人耳聽音而利用手工切分。如此,需投入大量的人力與工時才能完成。另外,手工切分 音節(jié)的工作枯燥、數(shù)量龐大,且采用人耳聽音而作音節(jié)的切分,極易產(chǎn)生誤差。 因此,如何解決傳統(tǒng)上人工切分單字語音所衍生的問題,為亟待解決的議題。
發(fā)明內(nèi)容
本發(fā)明為解決背景技術(shù)中存在的上述技術(shù)問題,而提出一種自動分割單字 語音信號的裝置與方法。
本發(fā)明的技術(shù)解決方案是本發(fā)明為一種自動分割單字語音信號的裝置, 其特殊之處在于該裝置包括接收模塊,用來接收單字語音信號,并將單字 語音信號劃分為多個音框;分析模塊,分析音框,產(chǎn)生對應(yīng)于每一個音框的語 音特征;分割模塊,根據(jù)語音特征,分割單字語音信號為音節(jié),接收模塊接入 分析模塊,分析模塊接入分割模塊。
上述語音特征包含音框的平均振幅值。
上述語音特征包含音框的平均過零率。
上述語音特征包含音框的倒頻譜參數(shù)。
上述分析模塊根據(jù)語音特征產(chǎn)生門坎值,通過分割模塊對比語音特征與門 坎值。
一種實現(xiàn)上述自動分割單字語音信號裝置的方法,其特殊之處在于該方 法包含下列步驟
1) 接收單字語音信號;
2) 劃分單字語音信號為多個音框;
3) 分析音框,產(chǎn)生對應(yīng)于每一個音框的語音特征;
4) 根據(jù)語音特征,分割單字語音信號為音節(jié)。 上述語音特征包含音框的平均振幅值。 上述語音特征包含音框的平均過零率。 上述語音特征包含音框的倒頻譜參數(shù)。 上述步驟4)的具體步驟如下
4.1)根據(jù)語音特征產(chǎn)生門坎值,4.2)通過對比語音特征與門坎值,找出語音信號中的每一個音節(jié)的分割點; 4.3根據(jù)分割點,將單字語音信號分割為音節(jié)。
本發(fā)明提供的自動分割單字語音信號的裝置與方法,通過語音特征來自動 分割單字語音信號為音節(jié),完全替代了傳統(tǒng)的人工切分單字語音的方式,整個 過程不需要人工介入,省時省力,效率高,且大大降低了人為帶來的失誤率。
圖1為自動分割單字語音信號的裝置示意圖; 圖2為多音節(jié)單字語音信號的示意圖; 圖3為多音節(jié)單字語音信號的分割示意圖; 圖4為自動分割單字語音信號的方法流程圖。
其中,10-接收模塊,20-分析模塊,30-分割模塊;
具體實施例方式
參見圖l,自動分割單字語音信號的裝置包含接收模塊IO、分析模塊20 及分割模塊30。
接收模塊10接收單字語音信號,并將單字語音信號劃分為多個音框。分析 模塊20分析多個音框,并產(chǎn)生對應(yīng)于每一個音框的語音特征。分割模塊30根 據(jù)分析模塊20所分析出的語音特征,進(jìn)而分割單字語音信號為音節(jié)。
每個單字的語音信號不會完全相同,但具有一些共同的特性,例如多音 節(jié)單字的發(fā)音是由各個音節(jié)所組成;音節(jié)組成在語音信號上有特定的規(guī)律可循; 利用語音特征可進(jìn)行音節(jié)切分等。因此,本發(fā)明提出先將單字語音信號劃分為 多個音框,然后以每--個音框為單位,利用分析模塊20分析出每一個音框的語 音特征。
其中,上述所提及的語音特征包含平均振幅值、平均過零率、倒頻譜參 數(shù)等。下面將針對每個語音特征做簡單說明。
語音信號的振幅所指的即為語音信號的大小,如同人類說話一般會有高低 起伏,所以語音信號的波形所呈現(xiàn)出來的也會有高低或強(qiáng)弱之分。而振幅便是 代表語音信號的大小,而平均振幅值,便是將所有音框的振幅值加總后再做平 均,如此可看出單位時間內(nèi),某段語音信號與整段語音信號相比的信號強(qiáng)弱分布。
語音信號的平均過零率是指單位時間內(nèi)信號波形穿過橫軸(零軸)的次數(shù)。 也就是說,語音信號的振幅值在單位時間內(nèi),正值和負(fù)值之間的跳變次數(shù)稱為 過零率。而將信號按音框進(jìn)行劃分,把所有音框的過零率作統(tǒng)計平均,即稱為 平均過零率。
因此過零率簡單的說,便是語音信號在單位時間過零的次數(shù)。而過零率應(yīng) 用廣泛,尤其在語音辨識方面。過零率高的區(qū)段對應(yīng)于清音或無聲區(qū)。相對的, 噪聲較高,過零率較低的區(qū)段對應(yīng)于濁音。由此可知,通過判斷過零率即可區(qū) 別語音信號中的清音與濁音、有聲與無聲等。
接著介紹倒頻譜參數(shù)。在信號的辨識中,最常用的特征參數(shù)是信號在頻譜
(spectrum)上的能量值,例如高頻信號只在高頻部分有較大的能量值,相對
的低頻信號在低頻部份的能量較大,而這些在頻譜上的能量值便可稱為一種特
征值。利用傅立葉轉(zhuǎn)換(Fourier Transform)的方法可以把時間軸上的信號轉(zhuǎn)換 到頻譜上來作處理。然而,針對語音信號而言,另一種稱為倒頻譜的參數(shù)更能 代表語音信號的特性,而使辨識率提高。因此,采用倒頻譜參數(shù)可提升單字語 音信號的辨識率。
因此,本發(fā)明通過分析語音特征,再通過分割模塊30根據(jù)語音特征而達(dá)到 自動分割單字語音信號為單個或多個音節(jié)。其中,分析模塊20可根據(jù)語音特征 產(chǎn)生門坎值,利用門坎值可判斷是否為音節(jié)的分割點。當(dāng)單字語音信號的音框 語音特征低于門坎值時,即表示該音框為音節(jié)的分割點。因此,當(dāng)分析模塊20 產(chǎn)生門坎值后,分割模塊30對比語音特征與門坎值,進(jìn)而將單字語音信號分割 為單個多個音節(jié)。
舉例說明,參見圖2,其中以單字dagoba (舍利子塔)為例作說明。Dagoba 具有三個音節(jié),由圖2中可清楚看出各個音節(jié)之間有明顯的語音特征可區(qū)分。
參見圖3,在此實施例中采用語音特征中的平均振幅值與平均過零率相結(jié) 合,但不限于此。利用分割模塊30將平均振幅值、平均過零率與門坎值作比較, 當(dāng)發(fā)現(xiàn)平均振幅值、平均過零率低于門坎值時,即表示為音節(jié)的分割點。因此, 由圖3中可清楚看出Dagoba的單字語音信號,根據(jù)其語音特征而被切分為三個音節(jié)。
此外,當(dāng)分割模塊30根據(jù)語音特征,將單字語音信號分割為單個或多個音 節(jié)后,可利用儲存模塊(圖中未示)將每一個音節(jié)儲存起來,以提供后續(xù)利用, 例如電子辭典中,發(fā)音的合成等。
參見圖4,自動分割單字語音信號的方法,包含下列步驟
步驟S10:接收單字語音信號。
步驟S20:劃分單字語音信號為多個音框。
步驟S30:分析音框,產(chǎn)生對應(yīng)于每一個音框的語音特征。其中,語音特征 包含音框的平均振幅值、音框的平均過零率或音框的倒頻譜參數(shù)等。
步驟S40:根據(jù)語音特征,分割單字語音信號為音節(jié)。在此步驟中,還可包 含儲存每一個音節(jié)。
此外,可根據(jù)語音特征產(chǎn)生門坎值,再通過對比語音特征與門坎值,找出 語音信號中的每一個音節(jié)的分割點,而進(jìn)一步將單字語音信號分割為音節(jié)。
權(quán)利要求
1、一種自動分割單字語音信號的裝置,其特征在于該裝置包括接收模塊,用來接收單字語音信號,并將單字語音信號劃分為多個音框;分析模塊,分析音框,產(chǎn)生對應(yīng)于每一個音框的語音特征;分割模塊,根據(jù)語音特征,分割單字語音信號為音節(jié),所述接收模塊接入分析模塊,所述分析模塊接入分割模塊。
2、 根據(jù)權(quán)利要求l所述的自動分割單字語音信號的裝置,其特征在于所 述語音特征包含音框的平均振幅值。
3、 根據(jù)權(quán)利要求l所述的自動分割單字語音信號的裝置,其特征在于所 述語音特征包含音框的平均過零率。
4、 根據(jù)權(quán)利要求1所述的自動分割單字語音信號的裝置,其特征在于所 述語音特征包含音框的倒頻譜參數(shù)。
5、 根據(jù)權(quán)利要求l所述的自動分割單字語音信號的裝置,其特征在于所 述分析模塊根據(jù)語音特征產(chǎn)生門坎值,通過分割模塊對比語音特征與門坎值。
6、 一種實現(xiàn)權(quán)利要求l所述的自動分割單字語音信號裝置的方法,其特征 在于該方法包含下列步驟1) 接收單字語音信號;2) 劃分單字語音信號為多個音框;3) 分析音框,產(chǎn)生對應(yīng)于每一個音框的語音特征;4) 根據(jù)語音特征,分割單字語音信號為音節(jié)。
7、 根據(jù)權(quán)利要求6所述的自動分割單字語音信號的方法,其特征在于所述語音特征包含音框的平均振幅值。
8、 根據(jù)權(quán)利要求6所述的自動分割單字語音信號的方法,其特征在于所述語音特征包含音框的平均過零率。
9、 根據(jù)權(quán)利要求6所述的自動分割單字語音信號的方法,其特征在于所述語音特征包含音框的倒頻譜參數(shù)。
10、 根據(jù)權(quán)利要求6或7或8或9所述的自動分割單字語音信號的方法,其特征在于所述步驟4)的具體步驟如下 1) 根據(jù)語音特征產(chǎn)生門坎值; 2) 通過對比語音特征與門坎值,找出語音信號中的每一個音節(jié)的分割點; 3) 根據(jù)分割點,將單字語音信號分割為音節(jié)。
全文摘要
本發(fā)明涉及一種自動分割單字語音信號的裝置與方法,該裝置包含接收模塊,用來接收單字語音信號,并將單字語音信號劃分為多個音框;分析模塊,分析音框,產(chǎn)生對應(yīng)于每一個音框的語音特征;分割模塊,根據(jù)語音特征,分割單字語音信號為音節(jié),接收模塊接入分析模塊,分析模塊接入分割模塊,本發(fā)明完全替代了傳統(tǒng)的人工切分單字語音的方式,整個過程不需要人工介入,省時省力,效率高,且大大降低了人為帶來的失誤率。
文檔編號G10L13/04GK101419796SQ20081023254
公開日2009年4月29日 申請日期2008年12月2日 優(yōu)先權(quán)日2008年12月2日
發(fā)明者楊亞冬, 陳淮琰, 韓召寧 申請人:無敵科技(西安)有限公司