專利名稱:語(yǔ)音識(shí)別計(jì)算機(jī)模塊及基于音素的數(shù)字語(yǔ)音信號(hào)變換方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別領(lǐng)域。迄今為止,在語(yǔ)音識(shí)別領(lǐng)域中,有兩種原理上不同的識(shí)別講話語(yǔ)音的解決方案是公知的。第一個(gè)原理以講話者非相關(guān)型語(yǔ)音識(shí)別為基礎(chǔ)。在這種語(yǔ)音識(shí)別方案中使用的詞匯完全由是設(shè)計(jì)者確定的單詞組成的。文獻(xiàn)[1]中公開了一種基于這一原理的語(yǔ)音識(shí)別計(jì)算機(jī)模塊以及相應(yīng)的講話者非相關(guān)型語(yǔ)音識(shí)別方法。這種解決方案的基礎(chǔ)例如是音素識(shí)別,并結(jié)合使用Hidden-Markov模擬計(jì)算法。根據(jù)該方案,首先從用戶錄入的數(shù)字語(yǔ)音信號(hào)中得出特征向量,它應(yīng)包含對(duì)語(yǔ)音識(shí)別而言是重要的語(yǔ)音信號(hào)信息。然后將所求得的特征向量與該音素片段所對(duì)應(yīng)的典型原型特征向量進(jìn)行比較,所述原型特征向量例如可存儲(chǔ)在一個(gè)為此而設(shè)置的ROM存儲(chǔ)器(只讀存儲(chǔ)器)中。由于對(duì)所識(shí)別詞匯中的每個(gè)單詞都必須設(shè)置這個(gè)單詞的音素表達(dá)的存儲(chǔ)位置,因而這種講話者非相關(guān)型語(yǔ)音識(shí)別方案所需的存儲(chǔ)器總?cè)萘恐饕蒖OM存儲(chǔ)器的容量決定。然后,將前面提到的比較運(yùn)算的結(jié)果在檢索中相互組合,以便從預(yù)存的詞匯中確定出以最高概率被講到的單詞。在這種解決方案中,詞匯必須以各自的語(yǔ)音音素原型特征向量形式存儲(chǔ)。因?yàn)橹v話者非相關(guān)型語(yǔ)音識(shí)別方案具有基于音素識(shí)別的特性,對(duì)用戶自定義的那部分詞匯的識(shí)別只能在下述前提條件才能實(shí)現(xiàn),即對(duì)詞匯內(nèi)收入的每一個(gè)單詞均能實(shí)現(xiàn)用戶輸入音素的寫入方法。
由于這個(gè)原因,以上解決方案有一個(gè)缺點(diǎn),即每一個(gè)用戶自定義的那部分詞匯的語(yǔ)音表示法,對(duì)于用戶而言,都要支出一筆額外的開銷,另外這還導(dǎo)致該解決方案產(chǎn)生人機(jī)工程學(xué)上的缺點(diǎn)。
此外,這種解決方案的一個(gè)重大缺點(diǎn)是,作為鍵盤形式的必要附加入機(jī)接口是可觀的系統(tǒng)開銷。再者用戶必須自己以音素來(lái)劃分各個(gè)新單詞,致使這種解決方案很容易出錯(cuò)。
第二種解決方案是基于講話者相關(guān)型的語(yǔ)音識(shí)別法。這種解決方案的原理是,在錄入的數(shù)字語(yǔ)音信號(hào)與訓(xùn)練階段錄入并為了進(jìn)行講話者相關(guān)型語(yǔ)音識(shí)別而存儲(chǔ)的語(yǔ)音試樣(模板)之間進(jìn)行全字比較。文獻(xiàn)[2]公開了一種實(shí)現(xiàn)講話者相關(guān)型語(yǔ)音識(shí)別的方法以及這種解決方案的例子。
這種解決方案的一個(gè)重大缺點(diǎn)是,必須采用靜態(tài)存儲(chǔ)方式存儲(chǔ)語(yǔ)音試樣(模板)。這是必要的,因?yàn)樵诿總€(gè)″語(yǔ)音識(shí)別會(huì)議″開始時(shí),一個(gè)總是重復(fù)的訓(xùn)練階段對(duì)每個(gè)用戶來(lái)說(shuō)是不合理的。由此產(chǎn)生的靜態(tài)RAM存儲(chǔ)器容量的需求是與每個(gè)單詞暫時(shí)存儲(chǔ)的模板數(shù)量、用戶定義的單詞數(shù)量以及用戶數(shù)目成正比的,而所述的用戶必須能同時(shí)使用講話者相關(guān)型語(yǔ)音識(shí)別法。因此,從上述參數(shù)的某個(gè)特定數(shù)值的組合起,不僅靜態(tài)存儲(chǔ)器的存儲(chǔ)總量會(huì)大于講話者非相關(guān)型語(yǔ)音識(shí)別裝置中的存儲(chǔ)總量,而且還由于使用了靜態(tài)存儲(chǔ)方式,造成損耗功率升高,阻礙了低耗電運(yùn)行方式的實(shí)現(xiàn)。
此外這種解決方案的另一個(gè)缺點(diǎn)是制造成本很高,特別是由于靜態(tài)RAM存儲(chǔ)器相對(duì)于ROM存儲(chǔ)器存在不利的面積比例關(guān)系。
此外,由文獻(xiàn)[3]可知,為進(jìn)行講話者非相關(guān)型和講話者相關(guān)型語(yǔ)音識(shí)別,可將其算法固化在數(shù)個(gè)芯片中。這個(gè)公知的計(jì)算機(jī)模塊包括一個(gè)型號(hào)為DVC306的專用處理器、一個(gè)微控制器以及容量總計(jì)為16MB的若干S-RAM存儲(chǔ)芯片。
這個(gè)公知的語(yǔ)音識(shí)別計(jì)算機(jī)模塊有多個(gè)嚴(yán)重缺點(diǎn)。由于既使用講話者非相關(guān)型語(yǔ)音識(shí)別算法,又使用講話者相關(guān)型語(yǔ)音識(shí)別算法,所以必須將數(shù)種算法固化在一個(gè)ROM存儲(chǔ)器中。
此外,講話者相關(guān)型算法的缺點(diǎn)例如是對(duì)靜態(tài)RAM存儲(chǔ)器的需要量很高,以及與此相關(guān)的很高的算法固化費(fèi)用。
另外,文獻(xiàn)[1]公開了一種稱為Viterbi的算法。
同樣出自文獻(xiàn)[1]的稱為動(dòng)態(tài)程序設(shè)計(jì)的方法(DP-算法)也是公知的。
因此本發(fā)明的任務(wù)是,提供一種語(yǔ)音識(shí)別計(jì)算機(jī)模塊,它可避免上面提到的缺點(diǎn)。此外本發(fā)明的另一個(gè)任務(wù)是,提供一種語(yǔ)音識(shí)別方法,用此種方法可避免上面提到的公知方法的缺點(diǎn)。
以上任務(wù)的解決方案是,提供一種語(yǔ)音識(shí)別計(jì)算機(jī)模塊,它包括一種講話者非相關(guān)型語(yǔ)音識(shí)別方法;一個(gè)音素存儲(chǔ)器,用以存儲(chǔ)音素的音素特征向量和/或包括任意數(shù)量音節(jié)的音素,其中的音素特征向量表述相應(yīng)音素的特性;一個(gè)用戶存儲(chǔ)器,用以存儲(chǔ)數(shù)字化單詞的音素序列和/或由用戶錄入計(jì)算機(jī)模塊中的數(shù)字化單詞。其中用所述方法對(duì)用戶特征向量與已存儲(chǔ)的音素特征向量比較求得音素序列;并且使用所述方法將一部分描述了數(shù)字語(yǔ)音信號(hào)部分特征的數(shù)字語(yǔ)音信號(hào)用戶特征向量與已存儲(chǔ)的音素特征向量進(jìn)行比較。該解決方案還包括一種計(jì)算機(jī)支持的基于音素的數(shù)字語(yǔ)音信號(hào)的變換方法,其特征是,所述音素劃分成任意數(shù)量的片段,并給音素各分配一個(gè)描述各個(gè)音素或音素片段特性的音素特征向量,其中的數(shù)字語(yǔ)音信號(hào)劃分成任意數(shù)量的數(shù)字語(yǔ)音信號(hào)節(jié);為對(duì)每一個(gè)語(yǔ)音信號(hào)節(jié)預(yù)先給定語(yǔ)音信號(hào)節(jié)數(shù)量,進(jìn)行以下步驟為語(yǔ)音信號(hào)節(jié)求得一個(gè)表述語(yǔ)音信號(hào)節(jié)特性的用戶特征向量,從用戶特征向量與至少是任意數(shù)量的音素特征向量之間的比較中,各求得一個(gè)用戶特征向量同各個(gè)音素特征向量的相似值,將這個(gè)相似值存儲(chǔ)起來(lái),并且借助于這個(gè)相似值求得描述數(shù)字語(yǔ)音信號(hào)的數(shù)字語(yǔ)音信號(hào)音素序列。
在這個(gè)語(yǔ)音識(shí)別計(jì)算機(jī)模塊中,除了包括與講話者非相關(guān)型語(yǔ)音識(shí)別方法以及具有至少一個(gè)存儲(chǔ)音素特征向量的存儲(chǔ)器之外,還包括一種比較方法,這種方法是將表述數(shù)字語(yǔ)音信號(hào)部分特性的數(shù)字語(yǔ)音信號(hào)的一部分的用戶特征向量同所存儲(chǔ)的音素特征向量進(jìn)行比較。通過(guò)從用戶錄入的數(shù)字語(yǔ)音信號(hào)變換到已存儲(chǔ)的音素特征向量,使以下方案成為可能,即完全使用講話者非相關(guān)型語(yǔ)音識(shí)別的解決原理。
講話者相關(guān)型語(yǔ)音識(shí)別的算法在這個(gè)計(jì)算機(jī)模塊中已不在ROM存儲(chǔ)器中存儲(chǔ),由此大大節(jié)省了所需的ROM存儲(chǔ)器容量。
此外還避免了一個(gè)極大的缺點(diǎn),即避免了講話者相關(guān)型解決方案中很高的RAM存儲(chǔ)器需要量,因?yàn)樵谝汛鎯?chǔ)音素的基礎(chǔ)上變換用戶新錄入的單詞,并以已知的音素形式存儲(chǔ)新單詞的表達(dá)。這就極大減少了對(duì)RAM存儲(chǔ)器的需求,并在計(jì)算機(jī)模塊的生產(chǎn)制造中極大地降低了成本。使用本發(fā)明所述計(jì)算機(jī)模塊,可大大減小實(shí)現(xiàn)語(yǔ)音識(shí)別的過(guò)程中所必需的損耗功率。
按照本發(fā)明所述方法的一個(gè)方案,用戶新錄入的數(shù)字語(yǔ)音信號(hào)以任意節(jié)數(shù)的語(yǔ)音信號(hào)來(lái)劃分。然后對(duì)預(yù)先設(shè)定的語(yǔ)音信號(hào)節(jié)數(shù)每次求得一個(gè)特征向量,再同已存儲(chǔ)的音素特征向量進(jìn)行比較。從這種比較中每次確定一個(gè)相似值,這個(gè)值說(shuō)明了語(yǔ)音信號(hào)節(jié)與每次比較的音素特征向量的相似性。這個(gè)相似值被存儲(chǔ)起來(lái),并且借助這個(gè)相似值,在最后一步求得一個(gè)數(shù)字語(yǔ)音信號(hào)的音素序列。通過(guò)這個(gè)序列描述的數(shù)字語(yǔ)音信號(hào)可以以音素表示法存儲(chǔ)。
通過(guò)前述方式使以下方案成為可能,即在減少存儲(chǔ)單元需求量情況下,把講話者非相關(guān)型算法應(yīng)用到新的原來(lái)講話者相關(guān)型的單詞中去。必須看到,本發(fā)明所述方法的優(yōu)點(diǎn)在于,在計(jì)算機(jī)模塊的制造中能實(shí)現(xiàn)有利的成本開銷。此外本發(fā)明所述方法還可做到,對(duì)外語(yǔ)單詞,盡管其音素尚未存儲(chǔ)在音素存儲(chǔ)器中,然而仍會(huì)以良好的識(shí)別率進(jìn)行處理。
本發(fā)明其他有利構(gòu)成見以下所述。
可將所述計(jì)算機(jī)模塊的至少兩部分或者所有部分制在同一個(gè)芯片上,這就極大降低了計(jì)算機(jī)模塊生產(chǎn)費(fèi)用。
在本發(fā)明所述方法中,還同已存儲(chǔ)的、由用戶預(yù)先給定的、數(shù)字化單詞語(yǔ)音特征向量進(jìn)行比較,所述語(yǔ)音特征向量各表述部分?jǐn)?shù)字化單詞的特征;從而進(jìn)一步改進(jìn)了本發(fā)明所述方法的語(yǔ)音識(shí)別效果,因?yàn)樵谔卣飨蛄康谋容^中,不僅考慮到被存儲(chǔ)的音素特征向量,而且也考慮到已經(jīng)由用戶事先錄入的語(yǔ)音特征向量。
求取加權(quán)值時(shí),在相似值序列中考慮每次音素的相關(guān)序列各個(gè)長(zhǎng)度,從而對(duì)數(shù)字語(yǔ)音信號(hào)可以獲得一個(gè)簡(jiǎn)單而精確的音素序列的解算。因而在計(jì)算機(jī)模塊上實(shí)施本發(fā)明所述方法的速度很快。
對(duì)音素相似值,只有其序列長(zhǎng)度大于一個(gè)預(yù)先給定的界限時(shí)才予以考慮。因此由于考慮到在相似值序列中音素相關(guān)序列長(zhǎng)度,從而能實(shí)現(xiàn)由相似值的短序列引起的語(yǔ)音識(shí)別中的隨機(jī)命中,也就是說(shuō)避免了基于長(zhǎng)序列相似值而不能識(shí)別的爆破音。
作為描述一個(gè)單詞的開始的第一個(gè)語(yǔ)音信號(hào)節(jié)是帶有最大相似值的語(yǔ)音信號(hào)節(jié)。從而能進(jìn)一步減少所需的計(jì)算時(shí)間,因?yàn)橥ㄟ^(guò)檢測(cè)詞匯的開始或者詞匯的結(jié)束,實(shí)施本方法過(guò)程中不必要的噪聲并不以語(yǔ)音信號(hào)節(jié)的形式考慮,由此就減少了必需的語(yǔ)音信號(hào)節(jié)數(shù)以及因此而必需的比較數(shù)目。此外本發(fā)明所述方法還顯著降低了出錯(cuò)率。
按照本發(fā)明所述方法,繼續(xù)減少出錯(cuò)率是通過(guò)數(shù)字語(yǔ)音信號(hào)節(jié)相互重疊實(shí)現(xiàn)的。在這種方法中,數(shù)字語(yǔ)音信號(hào)節(jié)每次能相互重疊。通過(guò)由此而形成的語(yǔ)音信號(hào)的冗余信息使本發(fā)明所述方法的結(jié)果更加“可靠”。
此外,本發(fā)明所述方法的一個(gè)有利特性是,通過(guò)獲得相似值,可以由一個(gè)在已經(jīng)存儲(chǔ)在特征區(qū)域內(nèi)的單詞確定一個(gè)特征區(qū)域內(nèi)的數(shù)字語(yǔ)音信號(hào)的間隔的關(guān)系加權(quán),因此可拒絕存儲(chǔ)某些在特征區(qū)域內(nèi)的音素表達(dá)和已經(jīng)存儲(chǔ)的單詞非常近似的單詞,這樣可避免語(yǔ)音識(shí)別中由于特征區(qū)域內(nèi)存在過(guò)于相似的單詞而造成的出錯(cuò)率的升高。
通過(guò)不但對(duì)于已經(jīng)存儲(chǔ)的特征向量而且對(duì)用戶定義的特征向量?jī)H使用一種加權(quán)值類型,可實(shí)現(xiàn)對(duì)講話者相關(guān)型和講話者非相關(guān)型方法產(chǎn)生的結(jié)果進(jìn)行相互比較。
本發(fā)明所述方法的另外一個(gè)有利的特性是講話者非相關(guān)型語(yǔ)音識(shí)別所用的詞匯能與用戶錄入的新單詞混合起來(lái)。
下面對(duì)照附圖,對(duì)本發(fā)明所述的一個(gè)實(shí)施例作如下詳細(xì)說(shuō)明
圖1以示意圖形式表示一種系統(tǒng)配置,描述了以這種系統(tǒng)配置通過(guò)計(jì)算機(jī)接收用戶語(yǔ)音信號(hào)。
圖2a和圖2b表示在時(shí)間范圍內(nèi)的語(yǔ)音信號(hào)具有單個(gè)語(yǔ)音信號(hào)節(jié)(圖2a)以及具有重疊語(yǔ)音信號(hào)節(jié)(圖2b)。
圖3表示本發(fā)明所述語(yǔ)音識(shí)別計(jì)算機(jī)模塊的程序框圖。
圖4表示本發(fā)明所述方法的各個(gè)步驟的程序框圖。
圖5表示在用戶特征向量與暫時(shí)存儲(chǔ)的音素特征向量的比較中形成相似值的若干可供選擇的程序框圖。
圖6表示一個(gè)示意圖,是以表格的形式借助于相似值確定一個(gè)音素序列的簡(jiǎn)單例子。
圖1中的B表示一個(gè)用戶,他用麥克風(fēng)MIK錄入一個(gè)語(yǔ)音信號(hào)。這個(gè)麥克風(fēng)MIK是同語(yǔ)音識(shí)別計(jì)算機(jī)模塊RE相連接的。在計(jì)算機(jī)模塊RE中錄入的語(yǔ)音信號(hào)S被數(shù)字化,并且按照本發(fā)明所述方法繼續(xù)處理加工。此外還在計(jì)算機(jī)模塊RE中實(shí)施語(yǔ)音識(shí)別方法,其結(jié)構(gòu)將在下面加以說(shuō)明。
這個(gè)計(jì)算機(jī)模塊RE同熒光屏BSC和/或打印機(jī)DR和/或者其他的輸出設(shè)備相連接。借助于這些外設(shè),用戶B可以得到這種方法的顯示結(jié)果。此外,在這個(gè)系統(tǒng)中還配置了鍵盤TA和/或鼠標(biāo)MA,以輸入數(shù)據(jù)。
圖2a和圖2b分別描述的是在時(shí)間T內(nèi)出現(xiàn)的數(shù)字語(yǔ)音信號(hào)S。為了簡(jiǎn)化下面的說(shuō)明,但不影響理解,假定語(yǔ)音信號(hào)S是以一個(gè)單詞的形式存在,包括單詞的開始WA和單詞的結(jié)束WE,這個(gè)語(yǔ)音信號(hào)S如圖2a描述的那樣,被劃分成單個(gè)語(yǔ)音信號(hào)節(jié),其中的第一個(gè)下標(biāo)j單義地表示出各個(gè)語(yǔ)音信號(hào)節(jié)STj,并且它是1和1之間的自然數(shù),其中的1確定了語(yǔ)音信號(hào)節(jié)STj的數(shù)量。
圖2b描述的是本發(fā)明所述方法的進(jìn)一步改進(jìn),其中各語(yǔ)音信號(hào)節(jié)STj如下所述可相互重疊。
圖3表示的是本發(fā)明所述計(jì)算機(jī)模塊RE。
這個(gè)計(jì)算機(jī)模塊RE至少具有以下部分-一種講話者非相關(guān)型語(yǔ)音識(shí)別方法MUS,-一個(gè)音素存儲(chǔ)器PS,-一個(gè)用戶存儲(chǔ)器BS,-一種將語(yǔ)音信號(hào)節(jié)STj的用戶特征向量與在音素存儲(chǔ)器PS中存儲(chǔ)的音素特征向量進(jìn)行比較的方法MV。
借助于講話者非相關(guān)型語(yǔ)音識(shí)別方法MUS可以實(shí)施文獻(xiàn)[1]所公開的講話者非相關(guān)型語(yǔ)音識(shí)別方法。對(duì)其他的講話者非相關(guān)型語(yǔ)音識(shí)別方法,專業(yè)人員非常熟悉的。這樣可以輕而易舉地采用MUS方法進(jìn)行講話者非相關(guān)型語(yǔ)音識(shí)別。
制造商在音素存儲(chǔ)器PS中以音素表達(dá)的形式固定存儲(chǔ)了每個(gè)詞匯。此外,在音素存儲(chǔ)器PS中還借助于音素所對(duì)應(yīng)的音素特征向量存儲(chǔ)的單個(gè)音素。
在用戶存儲(chǔ)器BS中,由用戶B錄入并且已經(jīng)按本發(fā)明所述方法處理過(guò)的數(shù)字語(yǔ)音信號(hào)S以單個(gè)詞匯方式存儲(chǔ),該詞匯以音素表示法存在。此外在用戶存儲(chǔ)器BS中,單個(gè)的由用戶錄入的以及已經(jīng)″處理″過(guò)的語(yǔ)音信號(hào)S的音素序列也能被存儲(chǔ)。
單個(gè)的特征向量、音素特征向量或者用戶特征向量中含有各自語(yǔ)音信號(hào)S的信息,它對(duì)于語(yǔ)音識(shí)別是重要的按照本發(fā)明所述方法,采用方法MV能將數(shù)字語(yǔ)音信號(hào)S的各自的語(yǔ)音信號(hào)節(jié)STj的用戶特征向量同音素特征向量和/或同已″處理″過(guò)的并且在用戶存儲(chǔ)器BS中已被暫時(shí)存儲(chǔ)的數(shù)字化單詞的語(yǔ)音特征向量進(jìn)行比較(參見圖3)。該方法的進(jìn)一步說(shuō)明如下。
圖4以流程圖的形式描述了本發(fā)明所述方法的各個(gè)步驟。
在第一步401中,由用戶B錄入的被計(jì)算機(jī)模塊RE數(shù)字化的語(yǔ)音信號(hào)S,被劃分成任意數(shù)目的語(yǔ)音信號(hào)節(jié)STj。步驟401對(duì)于預(yù)先給定的語(yǔ)音信號(hào)節(jié)STj數(shù)目,每次進(jìn)行以下步驟借助被存儲(chǔ)的音素特征向量求得一個(gè)對(duì)于各個(gè)的語(yǔ)音信號(hào)節(jié)STj的相似值。步驟402對(duì)于每一個(gè)預(yù)先能給定的語(yǔ)音信號(hào)節(jié)STj數(shù)目的語(yǔ)音信號(hào)節(jié)STj求得一個(gè)用戶特征向量,它對(duì)于語(yǔ)音識(shí)別顯示出重要信息。步驟403然后,將這個(gè)用戶特征向量同所存儲(chǔ)的表示各個(gè)存儲(chǔ)音素特征的音素特征向量的任意數(shù)比較。這種比較能以各種方式進(jìn)行,后面將對(duì)一個(gè)簡(jiǎn)單例子作詳細(xì)解釋。通過(guò)比較,每次能對(duì)每對(duì)用戶特征向量和音素特征向量求得一個(gè)相似值A(chǔ)k。步驟404這個(gè)相似值A(chǔ)k每次都被存儲(chǔ)起來(lái)。步驟405這種方法的結(jié)果是,對(duì)于預(yù)先能給出的語(yǔ)音信號(hào)節(jié)STj數(shù)目,對(duì)于同相應(yīng)的音素特征向量比較的用戶特征向量,每次可支配一個(gè)相似值A(chǔ)k,它說(shuō)明了用戶特征向量與音素特征向量的相似性以及語(yǔ)音信號(hào)節(jié)STj與所考慮到的音素的相似性。
在最后一步406,借助于這個(gè)相似值A(chǔ)k確定對(duì)應(yīng)于數(shù)字語(yǔ)音信號(hào)S的音素序列。以這個(gè)音素序列描述錄入的數(shù)字語(yǔ)音信號(hào)S。
這時(shí),在這個(gè)音素表示法中,數(shù)字語(yǔ)音信號(hào)S被作為詞匯的新單詞存儲(chǔ)在用戶存儲(chǔ)器中。在本發(fā)明所述方法的另一個(gè)方案中,除了數(shù)字語(yǔ)音信號(hào)S的音素表示法,另外還有所屬的語(yǔ)音特征向量被存儲(chǔ)。
數(shù)字語(yǔ)音信號(hào)按語(yǔ)音信號(hào)節(jié)STj的分配,步驟401,或者例如可將語(yǔ)音信號(hào)S劃分成任意數(shù)目的不相重疊的語(yǔ)音信號(hào)節(jié)STj,或者按照本發(fā)明所述方法的另一個(gè)方案,使各個(gè)語(yǔ)音信號(hào)節(jié)STj相互重疊。通過(guò)各個(gè)語(yǔ)音信號(hào)節(jié)STj的重疊,能更好地將語(yǔ)音信號(hào)S的時(shí)間分布納入識(shí)別過(guò)程。
相似值A(chǔ)k能夠以不同的方式求得,如圖5所示。
相似值A(chǔ)k每次例如能夠通過(guò)步驟501形成-所謂動(dòng)態(tài)程序設(shè)計(jì)算法,步驟502,文獻(xiàn)[1],
-通過(guò)Viterbi算法,步驟503,文獻(xiàn)[1],-其他專業(yè)人員所熟悉的方法,步驟504。
由相似值A(chǔ)k形成的一個(gè)間隔大小AG能夠按下面兩個(gè)步驟之一求得AG=Σi=1n(ai-bi)m]]>這里i單義表示特征向量分量的第一下標(biāo)。
n表示特征向量分量的數(shù)目。
ai各表示一個(gè)用戶特征向量分量。
bi各表示一個(gè)音素特征向量分量和/或語(yǔ)音特征向量分量。AG=Σi=1n|ai-bi|m]]>這里i單義表示特征向量分量的第一下標(biāo)。
n表示特征向量分量的數(shù)目。
ai各表示一個(gè)用戶特征向量分量。
bi各表示一個(gè)音素特征向量分量和/或語(yǔ)音特征向量分量。
對(duì)于形成間隔大小AG的其他方法是專業(yè)人員所熟知的,并可不受限制地用于本發(fā)明所述方法。
相似值A(chǔ)k的形成可使用一種專業(yè)人員熟悉的方法。通過(guò)相似值A(chǔ)k確定一個(gè)對(duì)應(yīng)于音素的發(fā)生概率。
相似值的形成僅用于在特征區(qū)域確定用戶特征向量與音素特征向量或與語(yǔ)音特征向量之間間隔的大小。
下面就一個(gè)簡(jiǎn)單的例子加以簡(jiǎn)要說(shuō)明,如何借助于相似值A(chǔ)k形成數(shù)字語(yǔ)音信號(hào)S的音素序列。這個(gè)簡(jiǎn)單的方法對(duì)本發(fā)明并不構(gòu)成限制性理解。原則上可達(dá)到同一個(gè)目標(biāo)的方案或者方法,即借助于相似值A(chǔ)k求得音素序列,由此盡可能的正確接近數(shù)字語(yǔ)音信號(hào)的方法,可按專業(yè)人員熟知的方式用于本發(fā)明。
此外需著重指出的是,音素特征向量不必直接涉及到整個(gè)音素,而是規(guī)定音素可以劃分成任意數(shù)目的片段。例如分成一個(gè)開始片段,一個(gè)所謂的穩(wěn)態(tài)片段,以及各個(gè)音素的結(jié)束片段。然而原則上各自的音素的片段數(shù)量以及對(duì)于相應(yīng)的音素的音素特征向量數(shù)量是任意的,并且一方面僅取決于所提供的計(jì)算機(jī)能力,另一方面取決于所希望的語(yǔ)音識(shí)別精度。在所述方法的另一種構(gòu)成中規(guī)定,對(duì)每一個(gè)音素或音素片段能存儲(chǔ)及處理數(shù)個(gè)音素特征向量。從而可以建立一個(gè)單詞的各種不同的發(fā)音變化的模型。
在下面的說(shuō)明中,為簡(jiǎn)化起見,從一個(gè)第一方案出發(fā)加以說(shuō)明,其中將整個(gè)音素特性作為各個(gè)音素特征向量。圖6以表格形式按表格的各行描述了語(yǔ)音信號(hào)節(jié)STj,從語(yǔ)音信號(hào)單詞S的詞開始WA直到語(yǔ)音信號(hào)單詞S的詞結(jié)束WE。表中的各欄表示的是對(duì)各個(gè)語(yǔ)音信號(hào)節(jié)STj求得的各種不同的相似值A(chǔ)k,相似值的下標(biāo)表示1到P之間一個(gè)任意的數(shù),并且單義地標(biāo)出每一個(gè)相似值A(chǔ)k。因此各個(gè)相似值A(chǔ)k說(shuō)明了語(yǔ)音信號(hào)節(jié)STj同每次所比較的音素特征向量之間的相似性。
為說(shuō)明此方法,這個(gè)表格的相似值A(chǔ)k的各欄中直接表示出與各個(gè)語(yǔ)音信號(hào)節(jié)STj進(jìn)行比較的音素。為進(jìn)一步說(shuō)明此實(shí)例,假定對(duì)于每一個(gè)語(yǔ)音信號(hào)片段所描述的音素序列按照遞減相似值A(chǔ)k排列。位于表格左欄的音素是參照所應(yīng)用的相似值A(chǔ)k的構(gòu)成規(guī)則,其音素特征向量同相應(yīng)語(yǔ)音信號(hào)節(jié)STj能最佳吻合的音素。
此時(shí),按照音素的″命中概率″,該各個(gè)被“識(shí)別”出來(lái)的音素分配一個(gè)任意的加權(quán),各個(gè)音素的排列順序相當(dāng)于相似值A(chǔ)k在表中從左到右的順序。其方式例如可以是,給具有第一相似值A(chǔ)1的“最相似的”音素分配一個(gè)很高的加權(quán)值,例如一個(gè)自然數(shù)p,這個(gè)數(shù)與所考慮的相似值A(chǔ)k的數(shù)目一致。相應(yīng)地例如將加權(quán)值p-1分配給第二相似值。這種原則可繼續(xù)進(jìn)行到p-ten的相似值A(chǔ)p,將0值分配給它。例如在這個(gè)表中,第一個(gè)語(yǔ)音信號(hào)節(jié)STj的加權(quán)P分配給所識(shí)別的帶有第一相似值A(chǔ)1的音素b。
此時(shí)在這個(gè)表格里求得了相等音素的Fb,F(xiàn)p,F(xiàn)t的相關(guān)序列。這是一個(gè)對(duì)音素b從第一個(gè)語(yǔ)音信號(hào)節(jié)STj出發(fā)查找到j(luò)-ten語(yǔ)音信號(hào)節(jié)STj的例子。這個(gè)序列以Fb為標(biāo)志。對(duì)于音素t例如可求得相等音素Ft的另一個(gè)序列。在這個(gè)簡(jiǎn)單的實(shí)例中還可產(chǎn)生其他序列,例如對(duì)于音素p產(chǎn)生一個(gè)以Fp為標(biāo)記的另一個(gè)相等音素序列。
對(duì)于各個(gè)序列每次求得一個(gè)序列加權(quán)值,例如通過(guò)對(duì)各個(gè)語(yǔ)音信號(hào)節(jié)STj中的音素的各個(gè)加權(quán)值求和。例如,對(duì)于音素b的序列Fb有下式例如Fb=p+p-1+p-1+p-1=4p-3對(duì)于音素t的序列Ft有下式Ft=3p-8這個(gè)對(duì)應(yīng)于相似值A(chǔ)k的音素序列的組成方式例如是,每次求得最大加權(quán)值,并在考慮相應(yīng)語(yǔ)音信號(hào)節(jié)STj的情況下,以一個(gè)合適的選擇方法從中求得各個(gè)音素的排列順序。這個(gè)排列順序以音素表示法給出相應(yīng)的語(yǔ)音信號(hào)S。
為對(duì)這種方式進(jìn)一步細(xì)化,根據(jù)本方法所述的另一種構(gòu)成,在求得數(shù)字語(yǔ)音信號(hào)S音素序列的全部過(guò)程中,還必須考慮各個(gè)音素序列的長(zhǎng)度??紤]每個(gè)音素的相應(yīng)序列長(zhǎng)度的優(yōu)點(diǎn)在于,如果一個(gè)序列過(guò)短,會(huì)造成對(duì)不必要的隨機(jī)命中分類,而序列過(guò)長(zhǎng)則例如將導(dǎo)致不能可靠地發(fā)現(xiàn)某些種類的子音。
對(duì)以上這兩種極限情況,理想的方式應(yīng)該是結(jié)合起來(lái)綜合考慮。這種折衷例如在于使音素各個(gè)序列長(zhǎng)度上單個(gè)加權(quán)值的總和標(biāo)準(zhǔn)化,因此這使得每個(gè)語(yǔ)音信號(hào)節(jié)STj產(chǎn)生一個(gè)加權(quán)。
對(duì)于音素b的序列Fb,長(zhǎng)度為4的序列Fb是4P-3/4。
在這個(gè)例子里,每個(gè)語(yǔ)音信號(hào)節(jié)STj的加權(quán)作為加權(quán)值使用。如果某個(gè)音素特征向量描述的不是整個(gè)的音素,而僅僅是一個(gè)音素的單個(gè)片段,并且與此相應(yīng)的語(yǔ)音信號(hào)節(jié)STj每次也僅以它的用戶特征向量與表述了音素的部分特性的音素特征向量進(jìn)行比較,則對(duì)這種情況原則上采用同樣的處理方式。
此外,按照本發(fā)明所述方法的變化可提供各種不同的可能,以音素或者音素片段占用單詞開始WA與單詞結(jié)束WE之間的時(shí)間段。例如單詞開始WA能通過(guò)某種單詞檢測(cè)方法確定。此外還規(guī)定,在本方法的一個(gè)方案中使用其每個(gè)窗口的加權(quán)值或者其加權(quán)值是最大的語(yǔ)音信號(hào)節(jié)STj作為單詞開始WA。
此外,在所述求取音素序列方法的另一個(gè)方案中規(guī)定,音素序列也可通過(guò)預(yù)定數(shù)量的、可能存在于語(yǔ)音信號(hào)節(jié)STj中的間隔生成。通過(guò)這種方案提高了本方法的可靠性,并因此而降低了出錯(cuò)率。
本說(shuō)明書中引用的已有技術(shù)文獻(xiàn)是[1]G.Ruske,《自動(dòng)化語(yǔ)音識(shí)別(Automatische Spracherkennung)》,Oldenbourg出版社,第2版,ISBN3-48622794-7,172-195頁(yè),1992年。K.Zünkler,《(使用不同相關(guān)特征的Hidden-Markov模式語(yǔ)音識(shí)別(Spracherkennung mit Hidden-Markov Modellen unter Nutzung vonunterscheidungsrelevanten Merkmalen))》,幕尼黑工業(yè)大學(xué)博士論文集,22-25頁(yè),1991年。《產(chǎn)品概要-進(jìn)展信息,DVC先進(jìn)語(yǔ)音命令處理器(ProductOverview-Advance Information,DVC Advanced Voice CommandProcessor)》,DSP Communications,Inc.,Cupertino,CA,USA,1995年。
權(quán)利要求
1.語(yǔ)音識(shí)別計(jì)算機(jī)模塊,其特征是,包括-一種講話者非相關(guān)型語(yǔ)音識(shí)別方法(MUS),-一個(gè)音素存儲(chǔ)器(PS),用以存儲(chǔ)音素的音素特征向量和/或包括任意數(shù)量音節(jié)的音素,其中的音素特征向量表述相應(yīng)音素的特性,-一個(gè)用戶存儲(chǔ)器(BS),用以存儲(chǔ)數(shù)字化單詞的音素序列和/或由用戶錄入計(jì)算機(jī)模塊中的數(shù)字化單詞。其中由方法(MV)對(duì)用戶特征向量與已存儲(chǔ)的音素特征向量比較求得音素序列,-并且使用方法(MV)將一部分描述了數(shù)字語(yǔ)音信號(hào)部分特征的數(shù)字語(yǔ)音信號(hào)用戶特征向量與已存儲(chǔ)的音素特征向量進(jìn)行比較。
2.按照權(quán)利要求1所述的計(jì)算機(jī)模塊,其特征是,在一塊芯片上實(shí)現(xiàn)以下組成部分中的至少兩個(gè)-講話者非相關(guān)型語(yǔ)音識(shí)別方法(MUS),-音素存儲(chǔ)器(PS),-用戶存儲(chǔ)器(BS),-用戶特征向量比較方法(MV)。
3.計(jì)算機(jī)支持的基于音素的數(shù)字語(yǔ)音信號(hào)(S)的變換方法,其特征是,所述音素劃分成任意數(shù)量的片段,并給音素各分配一個(gè)描述各個(gè)音素或音素片段特性的音素特征向量,-所述的數(shù)字語(yǔ)音信號(hào)(S)劃分成任意數(shù)量的數(shù)字語(yǔ)音信號(hào)節(jié)(STj,j=1...1)(401),-為對(duì)每一個(gè)語(yǔ)音信號(hào)節(jié)(Stj)預(yù)先給定語(yǔ)音信號(hào)節(jié)STj數(shù)量,進(jìn)行以下步驟(402)1為語(yǔ)音信號(hào)節(jié)(STj)求得一個(gè)表述語(yǔ)音信號(hào)節(jié)(STj)特性的用戶特征向量(403),1從用戶特征向量與至少是任意數(shù)量的音素特征向量之間的比較中,各求得一個(gè)用戶特征向量同各個(gè)音素特征向量的相似值(Ak)(404),1將這個(gè)相似值(Ak)存儲(chǔ)起來(lái)(405),并且-借助于這個(gè)相似值(Ak)求得描述數(shù)字語(yǔ)音信號(hào)的數(shù)字語(yǔ)音信號(hào)音素序列(406)。
4.按照權(quán)利要求3所述的方法,其特征是,還同已存儲(chǔ)的、由用戶(B)預(yù)先給定的、數(shù)字化單詞語(yǔ)音特征向量進(jìn)行比較,所述語(yǔ)音特征向量各表述部分?jǐn)?shù)字化單詞的特征。
5.按照權(quán)利要求3或4所述的方法,其特征是,使用動(dòng)態(tài)程序設(shè)計(jì)方法產(chǎn)生相似值(Ak)(502)。
6.按照權(quán)利要求3或4所述方法,其特征是,使用Viterbi方法產(chǎn)生相似值(Ak)(503)。
7.按照權(quán)利要求3至6之中任何一項(xiàng)所述的方法,其特征是,求取數(shù)字語(yǔ)音信號(hào)(S)的音素序列(Fb,F(xiàn)t,F(xiàn)p)按以下步驟進(jìn)行-對(duì)每個(gè)數(shù)字語(yǔ)音信號(hào)節(jié)(STj)至少存儲(chǔ)2個(gè)相似值(Ak),-對(duì)至少2個(gè)語(yǔ)音信號(hào)節(jié)(STj)求得一個(gè)與相同音素有關(guān)的相似值(Ak)序列,以及求得一個(gè)加權(quán)值,-從語(yǔ)音信號(hào)節(jié)(STj)內(nèi)選擇出其加權(quán)值呈一個(gè)最大值的音素。
8.按照權(quán)利要求7所述的方法,其特征是,在求取加權(quán)值時(shí),在相似值序列(Ak)中考慮每次音素的相關(guān)序列(Fb,F(xiàn)t,F(xiàn)p)各個(gè)長(zhǎng)度。
9.按照權(quán)利要求8所述的方法,其特征是,對(duì)音素相似值(Ak)只有其序列長(zhǎng)度大于一個(gè)預(yù)先給定的界限時(shí)才予以考慮。
10.按照權(quán)利要求3到9之中任何一項(xiàng)所述的方法,其特征是,對(duì)數(shù)字語(yǔ)音信號(hào)(S)檢測(cè)單詞開始(WA)和/或者單詞結(jié)束(WE)。
11.按照權(quán)利要求8到10之中任何一項(xiàng)所述的方法,其特征是,作為描述一個(gè)單詞的開始(WA)的第一個(gè)語(yǔ)音信號(hào)節(jié)(STj)是帶有最大相似值(Ak)語(yǔ)音信號(hào)節(jié)(STj)。
12.按照權(quán)利要求3到11之中任何一項(xiàng)所述的方法,其特征是,數(shù)字語(yǔ)音信號(hào)節(jié)(STj)相互重疊。
全文摘要
語(yǔ)音識(shí)別計(jì)算機(jī)模塊以及計(jì)算機(jī)支持的基于音素的數(shù)字語(yǔ)音信號(hào)變換方法。本發(fā)明所述的計(jì)算機(jī)模塊(RE)借助于講話者非相關(guān)型語(yǔ)音識(shí)別方法,使用戶新補(bǔ)充的語(yǔ)音信號(hào)(SS)的語(yǔ)音識(shí)別成為可能。其方案是,通過(guò)對(duì)每一個(gè)新接收的語(yǔ)音信號(hào)(SS)在已存儲(chǔ)的音素特征向量基礎(chǔ)上完成語(yǔ)音信號(hào)的變換。有多種相互比較變換的可能性,并且對(duì)新單詞使用“最佳”的變換音素表述作為音素的表示。所述語(yǔ)音信號(hào)(SS)以音素表示方式存儲(chǔ)在用戶存儲(chǔ)器(BS)中。
文檔編號(hào)G10L15/06GK1167950SQ9711162
公開日1997年12月17日 申請(qǐng)日期1997年3月19日 優(yōu)先權(quán)日1996年3月19日
發(fā)明者L·迪沃斯 申請(qǐng)人:西門子公司