分段和識別語音信號的系統(tǒng)和方法

文檔序號：2822013閱讀：220來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：分段和識別語音信號的系統(tǒng)和方法
技術(shù)領(lǐng)域：
本發(fā)明通常涉及語音識別。本發(fā)明特別涉及用于語音識別目的的語音信號分段系統(tǒng)和方法。
背景技術(shù)：
模式識別技術(shù)已經(jīng)被廣泛用于語音識別。這種技術(shù)中的基本思想是將輸入語音模式與一組模板比較，每個模板代表詞匯表中預(yù)先錄制的語音模式。識別結(jié)果為詞匯表中的單詞，該單詞與最為類似于輸入語音模式的語音模式的模板相關(guān)。
要聽懂話音，通常無需聽出話音(例如單詞)中的所有細節(jié)。這表明語音內(nèi)存在一些固有的冗余。已經(jīng)研發(fā)出許多利用這種冗余的語音識別技術(shù)。例如授予Yu等人的美國專利No.5,056,150揭示了一種實時語音識別系統(tǒng)，其中采用非線性時間歸一化方法，通過只保存具有明顯時間動態(tài)屬性的頻譜將語音模式歸一化為預(yù)先確定的長度。利用該方法，雖然可能偶爾會重復(fù)保存相同的頻譜，但是明顯壓縮了語音模式。
另一種語音識別技術(shù)采用代表頻譜幀序列的聲學(xué)段序列。段是語音識別依賴的基本語音單位。一種生成聲學(xué)段或完成分段的程序是利用動態(tài)規(guī)劃方法搜索頻譜序列中最可能發(fā)生的斷點。這些選定點被用作段邊界。參見J.Cohen的“利用動態(tài)規(guī)劃對語音進行分段”，J.Acoustic Soc.of Americ，May 1981，Vol.69(5)，pp.1430-1437。該技術(shù)與上述美國專利No.5,056,150一樣，基于在語音模式中對明顯的時間動態(tài)屬性的搜索。
另一種用來對語音進行分段的技術(shù)基于分段K平均訓(xùn)練過程。參見L.R.Rabiner等人的“連接單詞識別的分段K平均訓(xùn)練過程”，AT&T TechnicalJournal，May/June 1986 Vol.65(3)，pp.21-31。利用迭代訓(xùn)練過程，話音被分段為單詞或亞單詞單元。每個單元隨后被用作語音識別系統(tǒng)內(nèi)的語音模板。迭代訓(xùn)練過程需要多個計算步驟，因此無法實時實現(xiàn)。
這些問題和缺陷由本發(fā)明以下述方式識別和解決。

發(fā)明內(nèi)容
本發(fā)明針對一種從具有多個幀的輸入語音信號形成得到語音信號的系統(tǒng)和方法。分段語音信號提供了語音識別所基于的模板。首先，輸入語音信號被轉(zhuǎn)換為具有多個語音幀的頻域信號，其中頻域信號的每個語音幀至少用一個但是通常用多個與語音幀相關(guān)的頻譜值表示。頻譜值通常選定為封裝語音幀的聲音內(nèi)容。隨后確定頻域信號每對相鄰幀的頻譜差值。頻譜差值表示相鄰幀對頻譜值之間的差值。頻譜差值表示幀之間的時間動態(tài)屬性。在頻域信號內(nèi)的每對相鄰幀之間設(shè)定初始簇(cluster)邊界，并且為頻域信號內(nèi)的每個單幀簇指定方差值，其中每個單幀簇的方差值等于相應(yīng)的頻譜差值。接著計算每對相鄰簇的簇合并參數(shù)。簇合并參數(shù)根據(jù)相鄰簇的頻譜差值計算。最小的簇合并參數(shù)選自多個簇合并參數(shù)。最小合并參數(shù)表示最無意義的時間動態(tài)屬性。隨后的合并簇形成方式為取消與最小合并參數(shù)相關(guān)的簇之間的簇邊界并且為合并簇指定一個合并方差值，其中合并方差值表示指定給與最小合并參數(shù)相關(guān)的簇的方差值。為了形成多個合并簇，重復(fù)該過程，并且根據(jù)多個合并簇形成分段語音信號。
附圖簡述通過以下結(jié)合附圖對本發(fā)明的描述將進一步理解本發(fā)明的特征、目標和優(yōu)點，附圖中相同的標號表示相同的部分，其中

圖1A和1B為流程圖，示出了將時域輸入語音信號轉(zhuǎn)換為輸出分段語音信號的操作方法。
圖2為流程圖，示出了保存多個語音模板的操作方法，其中每個保存的語音模板表示已知的語音話音。
圖3為流程圖，示出了從輸入語音信號中識別話音的操作方法。
圖4為曲線圖，示出了頻域信號和與示意性話音相關(guān)的最終的簇邊界，該示意性的話音按照本發(fā)明作了處理。
圖5為曲線圖，示出了與圖4中最后的合并簇相關(guān)的方差值。
圖6為硬件框圖，示出了實施圖1-3所示語音信號分段和識別系統(tǒng)的系統(tǒng)。
實施發(fā)明的較佳方式參見圖1A和1B，示出了將時域輸入語音信號轉(zhuǎn)換為輸出分段語音信號的操作方法100的流程圖。如下所述，方法包括為了減少存儲器容量和便于語音識別而對語音進行非線性分段的“時間簇化”算法。
首先在步驟102中，“話音”形式的輸入時域語音信號利用已知的變換算法(例如離散傅利葉變換(DFT)、帶通濾波器組、線性預(yù)測編碼(LPC)系數(shù)、線性譜對(LSP)或以幀為基礎(chǔ)的倒頻譜系數(shù))被轉(zhuǎn)換為頻域頻譜形式。在較佳實施例中，利用20毫秒時間窗口，每10毫秒從輸入的語音波形中生成分立的頻域頻譜。因此窗口具有10毫秒的重迭。每個頻域譜(Si)對應(yīng)一個語音幀(n)并且比較好的是包括至少6個離散譜值，在更佳實施例中，每個頻譜包含13個譜值(即i＝1-13)。步驟102的頻域語音信號輸出將包含L個語音幀并可以用下列表達式(1)表達Sn，i對于i＝1-13，n＝1-L(1)圖4示出了包含58個幀(L＝58)的頻域語音信號圖形形式。如圖4所示，58幀中的每一個可以在頻域內(nèi)用13個譜值矢量表示。在步驟102中被轉(zhuǎn)換為頻域的輸入語音信號比較好的是局限于只包含“話音”(“話音”例如是一個單詞或詞組)的時域語音信號部分。圖4中曲線表示的話音對應(yīng)單詞“Catherine”。
在步驟104中，計算步驟102輸出的頻域信號中每對相鄰幀(n-1，n)的頻譜差值。每對相鄰幀(n-1，n)的頻譜差值表示與相鄰幀對內(nèi)每幀相關(guān)的頻譜值之差。在較佳實施例中，采用帶通濾波器組將輸入的時域波形轉(zhuǎn)換為頻域(在步驟102中)，每對相鄰幀(n-1，n)的頻譜差值可以用表達式(2)表示如下Dn-1,n=Σi=1I|Sn-1,i-Sn,i|----(2)]]>另外，如果LPC系數(shù)被用于步驟102中的時域至頻域的轉(zhuǎn)換，則每對相鄰幀(Dn-1，n)的頻譜差值對應(yīng)頻譜對之間的Itakura失真，并且如果倒頻譜系數(shù)或離散傅利葉變換被用于步驟102中的時域至頻域的轉(zhuǎn)換，則每對相鄰幀的頻譜差值對應(yīng)頻譜對之間的歐幾里得距離。
接著，在步驟106內(nèi)，在步驟102輸出的頻域信號中的每對相鄰幀之間指定初始簇邊界(Bk)。圖4示出了這些初始簇邊界。首先，步驟102輸出的頻域信號將被劃分為L個簇，每個對應(yīng)步驟102中頻域信號輸出的其中一幀。在步驟108中，指示頻域信號內(nèi)當前簇編號的計數(shù)器“c”被初始化為L(即“c”被初始化為步驟102輸出的頻域信號內(nèi)的幀數(shù))。而且在步驟110中，將初始方差值(Vn)指定給頻域信號內(nèi)的每個簇。在較佳實施例中，指定給每個簇的初始方差值將對應(yīng)與簇相關(guān)的頻譜差值(由步驟104計算)。每簇(n)的方差值可以用表達式(3)表示如下Vn＝Dn-1，nn＝2，…，L(3)在步驟112中，計算了頻域信號內(nèi)每對相鄰簇的簇合并參數(shù)(CMP)。對應(yīng)每對相鄰簇的簇合并參數(shù)表示如果相鄰簇對合并在一起時形成的組合方差。在較佳實施例中，簇合并參數(shù){CMPi}ci＝2根據(jù)方程(4)計算如下CMPi＝w1*Vi+w2*(Vi+Vi-1)，i＝2，3，…，c(4)這里w1和w2為介于0-1之間的權(quán)重因子。在較佳實施例中，w1和w2都被設(shè)定為0.5。在步驟114中，對步驟112中計算的CMP組進行評價，并且根據(jù)下列方程(5)選擇具有相關(guān)的最小CMP的簇kk=argmini=2,_,cCMPi----(5)]]>接著，在步驟116和118中，通過將第(k-1)簇邊界改變?yōu)榈趉簇邊界并根據(jù)下列方程(6)和(7)為合并的簇Vmerge指定新的方差，將具有最小CMP的簇(即第k簇)“并入”前面的相鄰簇(即第(k-1_簇)B’k-1＝Bk(6)Vmerge＝V’k-1＝Vk-1+Vk(7)在步驟120中，計數(shù)器的值“c”遞增1，并且在步驟122中，計數(shù)器的值“c”與所需的簇數(shù)量進行比較。所需的簇數(shù)量比較好的是設(shè)定為實現(xiàn)特定水平的信號壓縮。因此，如果步驟102輸出的原始頻域語音信號包含58幀，并且方法100的目標是達到6∶1的壓縮比，則步驟122中所用所需的簇數(shù)量被設(shè)定為等于10(58的1/6)。重復(fù)步驟112、114、116和118直到獲得所需數(shù)量的簇。例如，參見圖4，所需的簇數(shù)量被設(shè)定為10，并且圖4示出了這10個簇的最終簇邊界(B’k)。圖5示出了相關(guān)的方差值。有意義的是，在步驟112、114、116、118和120表示的過程環(huán)路期間，可以通過求和步驟110和前面過程環(huán)路迭代中確定的方差值計算方差值，從而簡化過程環(huán)路執(zhí)行期間對系統(tǒng)計算能力的需求。
最后，在步驟124中，通過根據(jù)下列方程(8)計算每個最終簇(由最終簇邊界(B’k)定義)內(nèi)的頻譜均值(Sn，i)來確定每個最終簇的典型頻譜(S-REPi)Sirep=1N(i)Σn=1N(i)Sn,i-----(8)]]>這里N(i)表示簇i中的幀數(shù)。
另外，Sirep可以用歐幾里得距離最接近Sirep的成員頻譜Sn，i逼近。在較佳實施例中，對應(yīng)最終簇的典型頻譜{Sirep}ci＝1被串接以形成輸出的分段語音形式，它比步驟102輸出的原始頻域信號更緊湊。
參見圖2，它示出了表示保存多個語音模板的操作方法200的流程圖，其中每個保存的語音模板表示處理前已知的語音話音。在步驟210中，利用已知的方法處理輸入的時域語音信號以檢測語音話音的結(jié)束點。接著，在步驟220中，將代表話音的輸入語音信號部分(即步驟210檢測的結(jié)束點之間的語音信號部分)轉(zhuǎn)換為頻域形式。在步驟220中用于將輸入語音信號轉(zhuǎn)換為頻域形式的方法與上述步驟102中的基本一致。接著，在步驟230中，來自步驟220的頻域信號被轉(zhuǎn)換為分段的語音信號。步驟230基本上按照上述步驟106-124完成。最后，在步驟240中，將對應(yīng)已知話音的分段語音信號保存在存儲器內(nèi)。
本發(fā)明的一個用途是調(diào)用先前存儲在移動電話內(nèi)的電話號碼。對應(yīng)人名的已知話音的語音模板可以由語音識別系統(tǒng)用來調(diào)用所需的電話號碼。如結(jié)合圖3詳細描述的那樣，存儲的語音模板可以用作語音識別系統(tǒng)的一部分以使移動電話的用戶可以通過向話筒復(fù)述人名來調(diào)用存儲的與特定人相關(guān)的電話號碼。
參見圖3，示出了從輸入語音信號中識別話音的操作方法300的流程圖。在步驟310中，利用已知的方法處理輸入的時域語音信號以檢測包含在信號中的語音話音的結(jié)束點。接著，在步驟320中，將代表話音的輸入語音信號部分(即步驟310中檢測的結(jié)束點之間的語音信號部分)轉(zhuǎn)換為頻域。在步驟320中用于將輸入語音信號轉(zhuǎn)換為頻域形式的方法與上述步驟102中的基本一致。接著，在步驟330中，來自步驟320的頻域信號被轉(zhuǎn)換為分段的語音信號。步驟330基本上按照上述步驟106-124完成。在步驟340中，分段的語音信號與先前保存在存儲器內(nèi)的語音模板(如步驟240中所示)比較。最后，在步驟350中，選定在歐幾里得空間內(nèi)最接近分段語音信號的語音模板，并且輸出與選定模板相關(guān)的信號。
如圖6所示，方法300可以應(yīng)用于移動電話中以使用戶能夠自動調(diào)用保存在電話存儲器內(nèi)的電話號碼。在該實例中，用戶將向電話話筒610說出需要撥打的人名(也可以經(jīng)天線612提供代表用戶的語音信號)。隨后利用時間簇化系統(tǒng)和以微處理器630實現(xiàn)的本發(fā)明方法將話音轉(zhuǎn)換為分段語音信號。步驟320-350比較好的是利用微處理器630以軟件方式實現(xiàn)。隨后微處理器630將分段語音信號與存儲在電話存儲器640內(nèi)的語音模板進行比較(其中每個存儲的模板對應(yīng)與存儲在電話存儲器640內(nèi)的電話號碼相關(guān)的人名)。隨后將選定存儲的最接近分段語音信號的模板，并且隨后從存儲器640中調(diào)用與選定模板相關(guān)的電話號碼(也存儲在電話存儲器640內(nèi))并提供給電話顯示器650。
以上借助實施例描述了本發(fā)明。本領(lǐng)域內(nèi)的技術(shù)人員無需創(chuàng)造性的勞動即可以對本發(fā)明作出各種修改和改動，因此本發(fā)明的精神和范圍由所附限定。
權(quán)利要求
1.一種語音識別系統(tǒng)內(nèi)用于從包含多個幀的輸入語音信號形成分段語音信號的方法，其特征在于包含以下步驟將所述輸入的語音信號從時域信號轉(zhuǎn)換為包含多個語音幀的頻域信號，其中所述頻域信號中的每個語音幀用至少一個與所述語音幀相關(guān)的頻譜值表示；在所述頻域信號內(nèi)的每對相鄰幀之間指定初始簇邊界以定義每個所述語音幀的簇；根據(jù)所述至少一個與每個簇內(nèi)幀相關(guān)的頻譜值為每個所述簇指定一個方差值；通過根據(jù)所述方差值取消相鄰簇對之間的簇邊界形成合并的簇；重復(fù)指定方差值和形成合并簇的步驟以形成多個合并的簇；以及根據(jù)所述多個合并簇形成所述分段語音信號。
2.如權(quán)利要求1所述的方法，其特征在于所述為每個簇指定方差值的步驟首先指定頻譜差值的方差值，所述頻譜差值表示所述至少一個與所述初始簇定義的每個簇的所述幀相關(guān)的頻譜值之間的差值，并且隨后指定方差值，它代表形成所述合并簇的相鄰簇的方差值。
3.如權(quán)利要求2所述的方法，其特征在于通過對所述形成所述合并簇的相鄰簇的所述方差值進行求和來確定所述隨后指定的方差值。
4.如權(quán)利要求1所述的方法，其特征在于所述形成合并簇的步驟包含以下步驟計算多個簇合并參數(shù)，其中每個所述簇合并參數(shù)與一對相鄰簇相關(guān)；從所述多個簇合并參數(shù)選擇最小簇合并參數(shù)；以及通過取消與所述最小合并參數(shù)相關(guān)的所述相鄰簇對之間的簇邊界形成所述合并簇。
5.如權(quán)利要求1所述的方法，其特征在于所述重復(fù)步驟延續(xù)至已經(jīng)形成預(yù)先確定數(shù)量的合并簇。
6.如權(quán)利要求1所述的方法，其特征在于所述頻域信號內(nèi)的每個語音幀(Fn)由多個值(Sn，j)表示并且每對相鄰幀(Dn-1，n)的所述頻譜差值確定如下Dn-1,n=Σi=1I|Sn-1,i-Sn,i|]]>
7.如權(quán)利要求4所述的方法，其特征在于所述簇合并參數(shù)(CMP)的每一個根據(jù)所述方差值(Vi)和第一與第二權(quán)重因子(w1，w2)確定如下CMPi＝w1*Vi+w2*(Vi+Vi-1)，i＝2，3，…，c
8.如權(quán)利要求1所述的方法，其特征在于所述形成所述分段語音信號的步驟進一步包括形成與所述多個合并簇的每一個相關(guān)的數(shù)值代表矢量Sirep。
9.如權(quán)利要求8所述的方法，其特征在于每個代表矢量中的每個所述數(shù)值Sirep在步驟(i)中確定如下Sirep=1N(i)Σn=1N(i)Sn,i]]>這里N(i)表示簇i內(nèi)幀的數(shù)量。
10.如權(quán)利要求1所述的方法，其特征在于步驟(i)進一步包含通過確定與所述多個合并簇的每一個相關(guān)的數(shù)值的平均矢量并隨后在所述簇內(nèi)選擇在歐幾里得空間上與所述平均矢量最近的幀相關(guān)的矢量來選擇與所述多個合并簇的每一個相關(guān)的數(shù)值的代表矢量(Sn，j)。
11.如權(quán)利要求1所述的方法，其特征在于利用下列變換組中選定的變換將所述輸入語音信號在步驟(a)中從時域信號轉(zhuǎn)換為頻域信號傅利葉變換、帶通濾波器組、線性預(yù)測編碼系數(shù)、線性譜對(LSP)和倒頻譜系數(shù)。
12.如權(quán)利要求1所述的方法，其特征在于所述輸入語音信號具有第一和第二結(jié)束點，其中所述第一和第二結(jié)束點分別對應(yīng)語音話音的開始和結(jié)束。
13.如權(quán)利要求12所述的方法，其特征在于所述語音話音為已知的語音話音，進一步包含將分段語音信號作為模板保存的步驟。
14.如權(quán)利要求1所述的方法，其特征在于進一步包含通過將所述分段語音信號與多個語音模板的每一個進行比較以選擇與所述分段語音信號相關(guān)的語音話音的步驟，其中所述多個語音模板的每一個對應(yīng)已知的語音話音。
15.如權(quán)利要求1所述的方法，其特征在于進一步包含在存儲器內(nèi)存儲所述分段語音信號的步驟。
16.一種形成分段語音信號的步驟，其特征在于包含(a)將聲學(xué)信號轉(zhuǎn)換為電學(xué)信號的聲電換能器；(b)用于處理電學(xué)信號的微處理器，微處理器包括將所述輸入的語音信號從時域信號轉(zhuǎn)換為包含多個語音幀的頻域信號的裝置，其中所述頻域信號中的每個語音幀用至少一個與所述語音幀相關(guān)的頻譜值表示；在所述頻域信號內(nèi)的每對相鄰幀之間指定初始簇邊界以定義每個所述語音幀的簇的裝置；根據(jù)所述至少一個與每個簇內(nèi)幀相關(guān)的頻譜值為每個所述簇指定一個方差值的裝置；通過根據(jù)所述方差值取消相鄰簇對之間的簇邊界形成合并的簇的裝置；重復(fù)指定方差值和形成合并簇的步驟以形成多個合并的簇的裝置；以及根據(jù)所述多個合并簇形成所述分段語音信號的裝置。
全文摘要
一種從具有多個幀的輸入語音信號形成分段語音信號的系統(tǒng)和方法。輸入語音信號從時域信號被轉(zhuǎn)換為具有多個語音幀的頻域信號,其中頻域信號的每個語音幀至少用一個與語音幀相關(guān)的頻譜值表示。確定頻域信號每對相鄰幀的頻譜差值,其中每對相鄰幀的頻譜差值表示與相鄰幀對的每幀相關(guān)的至少一個頻譜值之間的差值。在頻域信號內(nèi)的每對相鄰幀之間設(shè)定初始簇(cluster)邊界,并且為頻域信號內(nèi)的每個單幀簇指定方差值,其中每個單幀簇的方差值等于相應(yīng)的頻譜差值。接著計算多個簇合并參數(shù),其中每個簇合并參數(shù)與頻域信號內(nèi)相鄰簇對相關(guān)。最小的簇合并參數(shù)選自多個簇合并參數(shù)。隨后的合并簇形成方式為取消與最小合并參數(shù)相關(guān)的簇之間的簇邊界并且為合并簇指定一個合并方差值,其中合并方差值表示指定給與最小合并參數(shù)相關(guān)的簇的方差值。為了形成多個合并簇,重復(fù)該過程,并且根據(jù)多個合并簇形成分段語音信號。
文檔編號G10L15/00GK1348580SQ9981532
公開日2002年5月8日申請日期1999年12月29日優(yōu)先權(quán)日1999年1月4日
發(fā)明者畢寧, 張承純申請人:高通股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：畢寧;張承純
技術(shù)所有人：高通股份有限公司
我是此專利的發(fā)明人

上一篇：音調(diào)原型波形借助于時間同步波形內(nèi)插的語音合成的制作方法
上一篇：周期性語音編碼法的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音信號識別相關(guān)技術(shù)

語音信號處理系統(tǒng)相關(guān)技術(shù)

語音識別系統(tǒng)相關(guān)技術(shù)

ibm語音識別輸入系統(tǒng)相關(guān)技術(shù)

智能語音識別系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分段和識別語音信號的系統(tǒng)和方法