專利名稱:分布式語(yǔ)音識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及通信領(lǐng)域,特別涉及語(yǔ)音識(shí)別系統(tǒng)。
背景技術(shù):
語(yǔ)音識(shí)別(VR)代表賦予機(jī)器模擬智能以識(shí)別用戶或用戶發(fā)聲的命令并促進(jìn)人機(jī)接口的最重要技術(shù)之一。VR還代表人們?cè)捯衾斫獾年P(guān)鍵技術(shù)。采用從聲學(xué)語(yǔ)音信號(hào)中恢復(fù)語(yǔ)言消息的技術(shù)的系統(tǒng)被稱為語(yǔ)音識(shí)別器。語(yǔ)音識(shí)別器一般包括聲處理器,它提取獲得入局原始話音的VR所需的一系列帶信息特征或矢量;字解碼器,它解碼特征或矢量系列以提供有意義和所需的輸出格式,諸如與輸入說(shuō)話(utterance)相對(duì)應(yīng)的一系列語(yǔ)言字。為了增加給定系統(tǒng)的性能,需要進(jìn)行訓(xùn)練來(lái)將系統(tǒng)設(shè)置有效參數(shù)。換句話說(shuō),系統(tǒng)在它能夠起到最佳作用之前需要學(xué)習(xí)。
聲處理器代表在語(yǔ)音識(shí)別器中的前端話音分析子系統(tǒng)。響應(yīng)于輸入話音信號(hào),聲處理器提供一種表示時(shí)間變化話音信號(hào)的特征的適當(dāng)表示法。聲處理器應(yīng)丟棄無(wú)關(guān)信息,諸如背景噪聲、信道失真、揚(yáng)聲器特征和說(shuō)話方式。有效的聲處理為語(yǔ)音識(shí)別器提供增強(qiáng)的聲區(qū)別(acoustic discrimination)能力。為此,要分析的有用特征是短時(shí)間譜包絡(luò)。表示短時(shí)間譜包絡(luò)的兩種常用頻譜分析技術(shù)是線性預(yù)測(cè)編碼(LPC)和基于濾波器組的頻譜建模(filter-bank-basedspectral modeling)。在美國(guó)專利號(hào)5,414,796(已轉(zhuǎn)讓給本發(fā)明的受讓人并作為參考資料在此引入)和L.B.Rabiner與R.W.Schafer所著的“話音信號(hào)的數(shù)字處理”(Digital Processing of Speech Signals 396-453(1978),作為參考資料在此引入)中描述了示例LPC技術(shù)。
處于安全原因,VR(一般稱為話音識(shí)別)的使用變得越來(lái)越重要。例如,VR可用來(lái)代替在無(wú)線電話鍵盤上人工按鍵的工作。這在用戶在開車時(shí)要打電話時(shí)特別有用。當(dāng)使用沒(méi)有VR的電話時(shí),司機(jī)必需從方向盤上騰出一只手并在按鍵撥號(hào)的同時(shí)要看著鍵盤。這種動(dòng)作增加了交通事故的可能性。話音使能的電話(即,為話音識(shí)別設(shè)計(jì)的電話)允許司機(jī)打電話,同時(shí)繼續(xù)看路。此外,車輛上的免提配套系統(tǒng)允許司機(jī)在呼叫啟動(dòng)期間將兩只手放在方向盤上。
話音識(shí)別裝置分為依賴揚(yáng)聲器或不依賴揚(yáng)聲器裝置。不依賴揚(yáng)聲器裝置能夠接受來(lái)自任何用戶的語(yǔ)音命令。訓(xùn)練更加普遍的依賴揚(yáng)聲器的裝置來(lái)識(shí)別來(lái)自特定用戶的命令。依賴揚(yáng)聲器的VR裝置一般在兩個(gè)階段操作,即,訓(xùn)練階段和識(shí)別階段。在訓(xùn)練階段,VR系統(tǒng)提醒用戶說(shuō)在系統(tǒng)詞匯表中的每個(gè)字一遍或兩遍,從而系統(tǒng)能夠?qū)τ谶@些特定字或短語(yǔ)學(xué)習(xí)用戶的話音特征。另一方面,對(duì)于表示語(yǔ)音的(phonetic)VR裝置,通過(guò)閱讀覆蓋語(yǔ)言中的所有音素的一篇或多篇短文可以完成訓(xùn)練。對(duì)于免提汽車配套設(shè)備的示例詞匯表可包括鍵盤上的數(shù)字;關(guān)鍵字“呼叫”、“發(fā)送”、“撥號(hào)”、“刪除”、“清除”、“添加”、“刪除”、“歷史”、“程序”、“是”和“否”;和預(yù)定數(shù)量的一般稱為共同工作者、朋友或家庭成員的名字。一旦完成訓(xùn)練,用戶就能夠通過(guò)說(shuō)出訓(xùn)練的關(guān)鍵字在識(shí)別階段啟動(dòng)呼叫。例如,如果名字“John”是一個(gè)經(jīng)訓(xùn)練的名字,那么用戶能夠通過(guò)說(shuō)出短語(yǔ)“呼叫John”來(lái)啟動(dòng)對(duì)John的呼叫。VR系統(tǒng)識(shí)別字“呼叫(Call)”和“John”,而且能夠撥出用戶此前作為John的電話號(hào)碼輸入的號(hào)碼。
傳統(tǒng)的VR裝置一般用數(shù)字信號(hào)處理器(DSP)或微處理器來(lái)分析入局語(yǔ)音采樣、提取相關(guān)參數(shù)、解碼參數(shù)并將解碼的參數(shù)與存儲(chǔ)的一組字或VR模板(template)相比較,所述模板包括VR裝置的詞匯表。把詞匯表存儲(chǔ)在非易失存儲(chǔ)器中,諸如,快閃存儲(chǔ)器。在具有DSP和微處理器(諸如,數(shù)字蜂窩電話)的傳統(tǒng)VR系統(tǒng)中,非易失存儲(chǔ)器一般可被微處理器訪問(wèn),但是DSP不能訪問(wèn)。在這樣的系統(tǒng)中,如果完全在微處理器中執(zhí)行VR,那么微處理器通常缺乏計(jì)算能力,從而以合理的等待時(shí)間傳遞識(shí)別結(jié)果。另一方面,如果完全在DSP中執(zhí)行VR,那么微處理器需要讀取快閃存儲(chǔ)器并將讀取的內(nèi)容傳給DSP,因?yàn)镈SP的單片存儲(chǔ)器(on-chip memory)的尺寸相對(duì)較小不足以保持大VR模板。由于在DSP和微處理器之間的接口的典型低帶寬限制了可在給定時(shí)間內(nèi)在兩個(gè)裝置之間傳遞的數(shù)據(jù)量,因此這是冗長(zhǎng)的過(guò)程。于是,需要VR裝置有效地將DSP的計(jì)算能力與微處理器的存儲(chǔ)器容量相結(jié)合。
發(fā)明內(nèi)容
本發(fā)明提供一種將DSP的計(jì)算能力與微處理器的存儲(chǔ)器容量有效地結(jié)合的VR裝置。因此,在本發(fā)明的一個(gè)方面,分布式語(yǔ)音識(shí)別系統(tǒng)最好包括數(shù)字信號(hào)處理器,配置成接收數(shù)字化語(yǔ)音采樣并從中提取多個(gè)參數(shù);存儲(chǔ)媒體,包括多個(gè)語(yǔ)音模板;和耦合到存儲(chǔ)媒體和數(shù)字信號(hào)處理器的處理器,所述處理器被配置成接收來(lái)自數(shù)字信號(hào)處理器的多個(gè)參數(shù)并將多個(gè)參數(shù)與多個(gè)語(yǔ)音模板相比較。
在本發(fā)明的另一個(gè)方面,分布式語(yǔ)音識(shí)別處理的方法最好包括步驟在數(shù)字信號(hào)處理器中,從多個(gè)數(shù)字化話音采樣中提取多個(gè)參數(shù);將該多個(gè)參數(shù)提供給微處理器;以及在微處理器中,將該多個(gè)參數(shù)與多個(gè)話音模板進(jìn)行比較。
在本發(fā)明的另一個(gè)方面,分布式語(yǔ)音識(shí)別系統(tǒng)最好包括從多個(gè)數(shù)字化話音采樣中提取多個(gè)參數(shù)的裝置;永久存儲(chǔ)多個(gè)話音模板的裝置;和接收來(lái)自所述提取裝置的多個(gè)參數(shù)并將所述多個(gè)參數(shù)與所述多個(gè)話音模板相比較的裝置。
附圖簡(jiǎn)述
圖1是傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的方框圖;圖2是分布式語(yǔ)音識(shí)別系統(tǒng)的方框圖;圖3是將聲碼器用于前端處理的分布式語(yǔ)音識(shí)別系統(tǒng)的方框圖。
較佳實(shí)施例的詳細(xì)描述如圖1所示,傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)10包括模擬-數(shù)字變換器(A/D)12、聲處理器14、VR模板數(shù)據(jù)庫(kù)16、模式比較邏輯18和判定邏輯20。例如,VR系統(tǒng)10可位于無(wú)線電話或免提汽車配置設(shè)備中。
當(dāng)VR系統(tǒng)10處于話音識(shí)別階段,人(未圖示)說(shuō)出一個(gè)字或短語(yǔ),產(chǎn)生話音信號(hào)。用傳統(tǒng)的變換器(未圖示)將話音信號(hào)轉(zhuǎn)換成電信號(hào)s(t)。向A/D12提供話音信號(hào)s(t),其中根據(jù)已知采樣方法(例如,脈沖編碼調(diào)制(PCM))將話音信號(hào)s(t)轉(zhuǎn)換成數(shù)字化話音采樣s(n)。
向聲處理器14提供話音采樣s(n)用于參數(shù)判定。聲處理器14產(chǎn)生一組參數(shù),對(duì)輸入話音信號(hào)s(t)的特征建模。根據(jù)多種已知的話音參數(shù)判定技術(shù)(例如,包括話音編碼器編碼)并運(yùn)用基于快速傅利葉變換(FFT)的倒譜系數(shù)(如上述美國(guó)專利5,414,796所述),可以判定這些參數(shù)??蓪⒙曁幚砥?4作為數(shù)字信號(hào)處理器實(shí)施。DSP可包括話音編碼器。另一方面,可將聲處理器14作為話音編碼器來(lái)實(shí)施。
在訓(xùn)練VR系統(tǒng)10期間,還執(zhí)行參數(shù)判定,其中將一組用于VR系統(tǒng)10的所有詞匯表字的模板路由到VR模板數(shù)據(jù)庫(kù)16以永久地存儲(chǔ)在其中。VR模板數(shù)據(jù)庫(kù)16最好以任一種傳統(tǒng)的非易失存儲(chǔ)媒體形式來(lái)實(shí)施,諸如,快閃存儲(chǔ)器。這允許當(dāng)關(guān)斷到VR系統(tǒng)10的電源時(shí),模板保留在VR模板數(shù)據(jù)庫(kù)16中。
向模式比較邏輯18提供這組參數(shù)。模式比較邏輯18最好檢測(cè)說(shuō)話的起點(diǎn)和終點(diǎn)、計(jì)算動(dòng)態(tài)聲特征(acoustic feature)(諸如,時(shí)間導(dǎo)數(shù)、第二時(shí)間導(dǎo)數(shù),等等)、通過(guò)選擇相關(guān)幀壓縮聲特征并量化靜態(tài)和動(dòng)態(tài)聲特征。例如,在Lawrence Rabiner & Biing-Hwang Juang所著的話音識(shí)別基礎(chǔ)(Fundamentalsof Speech Recognition(1993),作為參考資料在此引入)中描述了各種已知的端點(diǎn)判定方法、動(dòng)態(tài)聲特征推導(dǎo)、模式壓縮和模式量化。模式比較邏輯18將所得參數(shù)組與存儲(chǔ)在VR模板數(shù)據(jù)庫(kù)16中的所有模板相比較。向判定邏輯20提供在參數(shù)組和存儲(chǔ)在VR模板數(shù)據(jù)庫(kù)16中的所有模板之間的比較結(jié)果或者距離。判定邏輯20從VR模板數(shù)據(jù)庫(kù)16中選擇最接近匹配參數(shù)組的模板。另一方面,判定邏輯20可用傳統(tǒng)的“N-最佳(N-best)”選擇算法,它選擇在預(yù)定匹配門限內(nèi)的N個(gè)最接近匹配。于是,詢問(wèn)人趨于選擇哪個(gè)。判定邏輯20的輸出是關(guān)于說(shuō)出詞匯表中的哪個(gè)字的判定。
模式比較邏輯18和判定邏輯20最好作為微處理器來(lái)實(shí)施。例如,VR系統(tǒng)10可以是特定用途集成電路(ASIC)。VR系統(tǒng)10的識(shí)別精度是對(duì)VR系統(tǒng)10能夠多正確地識(shí)別所說(shuō)的詞匯表中的字或短語(yǔ)的測(cè)量標(biāo)準(zhǔn)。例如,識(shí)別精度95%表示VR系統(tǒng)10在100次中能夠正確地識(shí)別詞匯表中的字95次。
在如圖2所示的一個(gè)實(shí)施例中,分布式VR系統(tǒng)位于ASCI 100中。例如,ASCI 100可位于無(wú)線電話內(nèi)。ASIC 100包括A/D102、DSP104、處理器106、非易失存儲(chǔ)媒體108和數(shù)字-模擬變換器(D/A)110。處理器106最好是微處理器106,但是另一方面,處理器106可以是任何傳統(tǒng)的處理器、控制器或狀態(tài)機(jī)。非易失存儲(chǔ)器媒體108最好是快閃存儲(chǔ)器108,但是另一方面,非易失存儲(chǔ)器媒體108可以是任何形式的傳統(tǒng)非易失、可寫存儲(chǔ)器。DSP104包括話音編碼器(未圖示)和話音解碼器(也未圖示)。DSP 104可以執(zhí)行幾種功能,包括,聲編碼、VR前端處理(即,話音分析)背景噪聲抑制、和聲回波消除。另一方面,DSP104可以是傳統(tǒng)聲碼器,諸如,8千比特/秒(kbps)碼激勵(lì)線性預(yù)測(cè)(CELP)編碼器、13kbps CELP編碼器(如上述美國(guó)專利第5414796號(hào)中所述)、或碼分多址(CDMA)加強(qiáng)可變速率編碼(EVRC)編碼器。
麥克風(fēng)112耦合到ASIC100作為到A/D102的輸入。說(shuō)話者(未圖示)對(duì)著麥克風(fēng)112說(shuō)話,它向A/D102提供模擬話音信號(hào)s(t)。A/D102根據(jù)已知的方法(諸如,PCM)將模擬話音信號(hào)s(t)轉(zhuǎn)換成數(shù)字模板s(n)。將A/D102耦合到DSP104。向DSP104提供數(shù)字化話音采樣s(n)用于前端處理。
在DSP104中,對(duì)數(shù)字化話音采樣s(n)執(zhí)行傅利葉變換,將時(shí)域采樣s(n)轉(zhuǎn)換成頻域值。通過(guò)使信號(hào)經(jīng)過(guò)多個(gè)帶通濾波器(未圖示)將頻域分成幾個(gè)相鄰頻帶寬。帶通濾波器最好是有限脈沖響應(yīng)(FIR)濾波器。將濾波器抽頭設(shè)為以每個(gè)連續(xù)濾波器通過(guò)更寬頻帶寬,其中在連續(xù)濾波器之間的寬度變化以對(duì)數(shù)增加。所有濾波器通過(guò)的頻率范圍覆蓋了人語(yǔ)音范圍。在較低端,通過(guò)的帶寬相對(duì)窄,同時(shí)在較高端,通過(guò)帶寬相對(duì)寬。這有助于人們耳朵更加精確地察覺(jué)聲音,因?yàn)槿说亩湓谳^低頻率下能夠更好地區(qū)分。對(duì)數(shù)頻率標(biāo)度可以是Bark標(biāo)度,或者另一方面,該標(biāo)度可以是Mel標(biāo)度。已知這些標(biāo)度,而且在上述Lawrence Rabiner & Biing-Hwang Juang所著的話音識(shí)別基礎(chǔ)(Fundamentalsof Speech Recognition78-79(1993))中描述。
在一個(gè)實(shí)施例中,采用13個(gè)帶通濾波器。下列等式描述濾波器組b1=C,bi=bi-1,2≤i≤13,和f1=f1+Σj=i-1j=1bj+(bi-bl)/2]]>其中,C和f1分布是任意設(shè)定帶寬和第一濾波器的中心頻率,而α是對(duì)數(shù)生長(zhǎng)矢量(logarithmic growth factor)。
對(duì)于每幀,DSP104都根據(jù)傳統(tǒng)的特征提取方法來(lái)提取頻帶功率值因子(avector of band power values),這在上述美國(guó)專利號(hào)5,414,796(Rabiner& Schafer)和Rabiner & Juang 69-140)的文中所述。在一個(gè)實(shí)施例中,每幀提取13個(gè)頻帶功率值矢量,其中幀為24毫秒長(zhǎng)并50%重疊。對(duì)頻帶功率值分組并作為數(shù)據(jù)組向微處理器106提供。
微處理器106訪問(wèn)快閃存儲(chǔ)器108以讀取快閃存儲(chǔ)器108中所存的模板詞匯表內(nèi)容。如果在VR解碼器(未圖示)中要求端點(diǎn),那么微處理器106根據(jù)接收到的數(shù)據(jù)分組檢測(cè)說(shuō)話的起點(diǎn)和終點(diǎn)。于是,微處理器106計(jì)算動(dòng)態(tài)聲特征(諸如,時(shí)間導(dǎo)數(shù),第二時(shí)間導(dǎo)數(shù),等等),通過(guò)選擇相關(guān)幀壓縮聲特征并量化靜態(tài)和動(dòng)態(tài)聲特征。例如,在上述Lawrence Rabiner & Biing-Hwang Juang所著的話音識(shí)別基礎(chǔ)(Fundamentals of Speech Recognition(1993))中描述了各種已知的端點(diǎn)檢測(cè)、動(dòng)態(tài)聲特征導(dǎo)數(shù)、模式壓縮和模式量化方法。
微處理器106將說(shuō)話與快閃存儲(chǔ)器108的內(nèi)容相比較。微處理器106選擇最接近相似數(shù)據(jù)組的所存字。在上述Rabiner & Juang(141-241)的文中描述了多個(gè)模式識(shí)別技術(shù)。于是,微處理器106執(zhí)行與所存字相關(guān)的命令,諸如,通過(guò)耦合到微處理器106的天線與基站(未圖示)進(jìn)行通信來(lái)啟動(dòng)到特定人的電話呼叫。
當(dāng)開始對(duì)話,由DSP104編碼話務(wù)信道話音分組,路由到微處理器106并由調(diào)制電路(未圖示)調(diào)制以在空中傳輸。在用微處理器106中的編碼邏輯(未圖示)調(diào)制之前可以編碼執(zhí)行分組。于是,通過(guò)天線114在空中發(fā)送分組。將從對(duì)話的另一側(cè)接收到的話音分組從天線114路由到解調(diào)電路(未圖示)。用微處理器106中的解碼邏輯解碼解調(diào)分組。于是,將分組從微處理器106路由到DSP104,該矢量不量化分組。于是,向D/A110提供分組以轉(zhuǎn)換成模擬話音信號(hào)。向擴(kuò)音器116提供模擬話音信號(hào),所述擴(kuò)音器產(chǎn)生說(shuō)話者可聽到的字。
在一個(gè)實(shí)施例中,ASIC200包括聲碼器202以對(duì)VR執(zhí)行前端處理。聲碼器202耦合到分組緩沖器204。分組緩沖器204耦合到處理器206。處理器206耦合到非易失存儲(chǔ)媒體208。例如,ASIC200可位于無(wú)線電話聽筒中。聲碼器202是可變速13kbps CELP聲碼器,如在上述美國(guó)專利號(hào)5,414,796中所述,但是同樣可以是8kbps CELP聲碼器或CDMA EVRC聲碼器。處理器206最好是微處理器,但是也可以是任何傳統(tǒng)形式的處理器、控制器或狀態(tài)機(jī)。非易失存儲(chǔ)媒體208最好與快閃存儲(chǔ)器一起實(shí)施,但是另一方面,可以與任何傳統(tǒng)形式的可寫、非易失存儲(chǔ)器一起實(shí)施。分組緩沖器204是傳統(tǒng)緩沖器元件。
向聲碼器202提供數(shù)字化話音采樣s(n)。聲碼器202用在上述美國(guó)專利5,414,796中所述的已知聲編碼技術(shù)編碼話音采樣s(n)。在所述的特定實(shí)施例中,聲碼器202每幀產(chǎn)生128個(gè)字節(jié),其中每幀有20毫秒長(zhǎng)。向分組緩沖器204提供每幀,128個(gè)字節(jié)。微處理器206每幀從分組緩沖器204讀取128個(gè)字節(jié)(一個(gè)分組)。如果在VR解碼器(未圖示)中需要端點(diǎn),那么微處理器206根據(jù)接收到的數(shù)據(jù)分組檢測(cè)說(shuō)話的起點(diǎn)和終點(diǎn)。于是,處理器206計(jì)算動(dòng)態(tài)聲特征(諸如,時(shí)間導(dǎo)數(shù)、第二時(shí)間導(dǎo)數(shù),等等)、通過(guò)選擇相關(guān)幀壓縮聲特征和量化靜止和動(dòng)態(tài)聲特征。在上述Lawrence Rabiner & Biing-Hwang Juang所著的話音識(shí)別基礎(chǔ)(Fundamentals of Speech Recognition(1993))中描述了端點(diǎn)檢測(cè)、動(dòng)態(tài)聲特征導(dǎo)數(shù)、模式壓縮和模式量化的多種已知方法。微處理器206接入快閃存儲(chǔ)器208、將存儲(chǔ)器的內(nèi)容與從分組緩沖器204中讀取的每個(gè)分組相比較并根據(jù)已知的(在Rabiner & Juang 141-241的文中所述)模式識(shí)別技術(shù)進(jìn)行字判定。
在所述的特定實(shí)施例中,如果聲碼器202以全速編碼,那么產(chǎn)生每幀35個(gè)字節(jié),其中對(duì)于聲碼器診斷數(shù)據(jù)(diagnostic data)可獲得128字節(jié)的剩余部分。如果聲碼器202以半速編碼,那么產(chǎn)生每幀17個(gè)字節(jié),其中對(duì)于聲碼器診斷數(shù)據(jù)可獲得128個(gè)字節(jié)的剩余部分。如果聲碼器202以四分之一速率編碼,那么產(chǎn)生每幀7個(gè)字節(jié),其中對(duì)于聲碼器診斷數(shù)據(jù)可獲得128個(gè)字節(jié)的剩余部分。如果聲碼器202以八分之一速率編碼,那么產(chǎn)生每幀3個(gè)字節(jié),其中對(duì)于聲碼器診斷數(shù)據(jù)可獲得128個(gè)字節(jié)的剩余部分。有利的是,在話音識(shí)別期間,聲碼器202以半速編碼。因此,對(duì)于聲碼器診斷數(shù)據(jù)可獲得111個(gè)字節(jié)。
在所述的特定實(shí)施例中,診斷數(shù)據(jù)需要51個(gè)字節(jié),而與聲碼器202的編碼速率無(wú)關(guān)。如果聲碼器202以全速編碼,那么對(duì)于聲碼器診斷數(shù)據(jù)需要40個(gè)附加字節(jié)。如果編碼速率是半速,那么對(duì)于聲碼器診斷數(shù)據(jù)只需要16個(gè)附加字節(jié)。如果編碼速率是四分之一速率,那么對(duì)于聲碼器診斷數(shù)據(jù)只需要5個(gè)附加字節(jié)。而且,如果編碼是八分之一速率,那么對(duì)于聲碼器診斷數(shù)據(jù),只需要一個(gè)附加字節(jié)。
雖然聲碼器分組包括量化參數(shù)(例如,以半速,量化17個(gè)聲碼器字節(jié)),但是聲碼器診斷數(shù)據(jù)字節(jié)包括解量化的(unquantized)參數(shù)(例如,在半速下,高至聲碼器診斷數(shù)據(jù)的128-17=111字節(jié)解量化)。此外,雖然聲碼器診斷數(shù)據(jù)不包括所有聲碼器數(shù)據(jù),但是聲碼器診斷數(shù)據(jù)包括與VR相關(guān)的所有聲碼器數(shù)據(jù)。因此,聲碼器診斷數(shù)據(jù)可用于VR目的。這提供了顯著的好處,如下所述。
從聲碼器分組獲得相關(guān)的VR參數(shù)需要首先分組解量化。例如,在聲碼器202中,線性預(yù)測(cè)編碼(LPC)系數(shù)被轉(zhuǎn)換成線狀譜對(duì)(LSP)頻率。每幀10個(gè)LSP頻率是被量化分組成規(guī)則聲碼器分組的矢量。在微處理器206中,通過(guò)以幀為基礎(chǔ)分開接收到的聲碼器分組并解量化它們,獲得解量化LSP頻率。于是,將解量化LSP頻率轉(zhuǎn)換成LPC系數(shù)。于是,將LPC系數(shù)轉(zhuǎn)換成倒譜系數(shù),它們是對(duì)數(shù)幅度頻譜(magnitude spectrum)的傅利葉變化表示的系數(shù)。通過(guò)對(duì)數(shù)字化話音采樣s(n)的傅利葉變化系數(shù)的對(duì)數(shù)求反傅利葉變換,獲得倒譜系數(shù)。在上述美國(guó)專利5,414,796中詳細(xì)描述將LSP頻率轉(zhuǎn)換成LPC系數(shù)再轉(zhuǎn)換成倒譜系數(shù)的技術(shù)以及將LPC系數(shù)轉(zhuǎn)換成LSP系數(shù)再轉(zhuǎn)換成聲碼器分組的技術(shù)。
以上述方法矢量解量化或“解壓縮”來(lái)自聲碼器分組的數(shù)據(jù)計(jì)算量很大,需要大量處理容量。此外,需要大LSP矢量量化(VQ)電碼本(codebook),而微處理器206必需將它永久存儲(chǔ)在快閃存儲(chǔ)器208中。在上述實(shí)施例中,由于將聲碼器診斷數(shù)據(jù)用于VR而不是解量化聲碼器分組用于VR,所以超出了必需的計(jì)算能力和存儲(chǔ)容量。
于是,已經(jīng)描述了一種新穎的經(jīng)改進(jìn)的分布式語(yǔ)音識(shí)別系統(tǒng)。熟悉本技術(shù)領(lǐng)域的人員應(yīng)理解可以通過(guò)數(shù)字信號(hào)處理器(DSP)、特定用途集成電路(ASIC)、分立門電路或晶體管邏輯、分立硬件元件(諸如,寄存器和FIFO)、執(zhí)行一組固件指令的處理器或任何傳統(tǒng)可編程軟件模塊和處理器,來(lái)實(shí)施或執(zhí)行結(jié)合這里所述的實(shí)施例描述的各種說(shuō)明性邏輯塊和算法步驟。處理器最好是微處理器,但是另一方面,處理器可以是任何傳統(tǒng)的處理器、控制器、微處理器或狀態(tài)機(jī)。軟件模塊可以位于RAM存儲(chǔ)器、快閃存儲(chǔ)器、寄存器或在現(xiàn)有技術(shù)中已知的任何形式的可寫存儲(chǔ)媒體。熟悉本技術(shù)領(lǐng)域的人員應(yīng)理解,最好用電壓、電流、電磁波、磁場(chǎng)或微粒、光場(chǎng)或微?;蛩鼈兊娜我饨M合來(lái)表示在上述說(shuō)明中提到的數(shù)據(jù)、指令、命令、信息、信號(hào)、位、碼元和碼片。
已經(jīng)示出和描述了本發(fā)明的較佳實(shí)施例。對(duì)于熟悉本技術(shù)領(lǐng)域的人員而言,可對(duì)這里所述的實(shí)施例進(jìn)行各種變換而不偏離本發(fā)明的構(gòu)思和范圍是顯而易見的。因此,應(yīng)由所附權(quán)利要求來(lái)限定本發(fā)明。
權(quán)利要求
1.一種分布式語(yǔ)音識(shí)別系統(tǒng),其特征在于,包括數(shù)字信號(hào)處理器,配置成接收數(shù)字化話音采樣并從中提取多個(gè)參數(shù);存儲(chǔ)媒體,包括多個(gè)話音模板;和耦合到所述存儲(chǔ)媒體和數(shù)字信號(hào)處理器的處理器,所述處理器被配置以接收來(lái)自數(shù)字信號(hào)處理器的多個(gè)參數(shù)并將多個(gè)參數(shù)與多個(gè)話音模板相比較。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述處理器還配置成以將所述多個(gè)參數(shù)和所述多個(gè)話音模板相比較為基礎(chǔ),接收多個(gè)話音模板中的一個(gè)模板。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述數(shù)字信號(hào)處理器、所述存儲(chǔ)媒體和所述處理器位于用途特定集成電路(ASIC)上。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述數(shù)字信號(hào)處理器包括配置成產(chǎn)生聲碼器分組和診斷數(shù)據(jù)的聲碼器,而且多個(gè)參數(shù)至少包括由聲碼器產(chǎn)生的一部分診斷數(shù)據(jù)。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述聲碼器、存儲(chǔ)媒體和處理器位于用途特定集成電路(ASIC)上。
6.一種分布語(yǔ)音識(shí)別處理的方法,其特征在于,包括下列步驟;在數(shù)字信號(hào)處理器中,從多個(gè)數(shù)字化話音采樣中提取多個(gè)參數(shù);向微處理器提供多個(gè)參數(shù);和在微處理器中,將多個(gè)參數(shù)與多個(gè)話音模板相比較。
7.如權(quán)利要求6所述的方法,其特征在于,還包括在微處理器中,根據(jù)所述比較步驟的結(jié)果,選擇一個(gè)話音模板的步驟。
8.如權(quán)利要求6所述的方法,其特征在于,用配置成產(chǎn)生聲碼器分組和診斷數(shù)據(jù)的聲碼器執(zhí)行所述提取步驟,而且所述多個(gè)參數(shù)至少包括由聲碼器產(chǎn)生的一部分診斷數(shù)據(jù)。
9.一種分布式語(yǔ)音識(shí)別系統(tǒng),其特征在于,包括從多個(gè)數(shù)字化話音采樣中提取多個(gè)參數(shù)的裝置;存儲(chǔ)多個(gè)話音模板的裝置;和接收來(lái)自所述提取裝置的多個(gè)參數(shù)并將所述多個(gè)參數(shù)與所述多個(gè)話音模板相比較的裝置。
10.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收和比較裝置包括用于以將所述多個(gè)參數(shù)與所述多個(gè)話音模板相比較為基礎(chǔ),從所述多個(gè)話音模板中選擇一個(gè)模板的裝置。
11.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述提取裝置、存儲(chǔ)裝置和接收與比較裝置位于用途特定集成電路(ASIC)上。
12.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述提取裝置包括配置成產(chǎn)生聲碼器分組和診斷數(shù)據(jù)的聲碼器,而且所述多個(gè)參數(shù)至少包括由聲碼器產(chǎn)生的一部分診斷數(shù)據(jù)。
13.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述存儲(chǔ)裝置包括快閃存儲(chǔ)器。
14.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述聲碼器、所述存儲(chǔ)裝置和所述接收與比較裝置位于用途特定集成電路(ASIC)上。
全文摘要
一種分布式語(yǔ)音識(shí)別系統(tǒng),包括數(shù)字信號(hào)處理器(DSP)(104)、非易失存儲(chǔ)媒體(108)和微處理器(106)。DSP(104)配置成從數(shù)字化輸入話音采樣中提取參數(shù)并向微處理器(106)提供所提取的參數(shù)。非易失存儲(chǔ)媒體包括話音模板的數(shù)據(jù)庫(kù)。將微處理器配置成讀取非易失媒體(108)的內(nèi)容、將參數(shù)與內(nèi)容相比較并根據(jù)比較結(jié)果選擇話音模板。非易失存儲(chǔ)媒體可以是快閃存儲(chǔ)器。DSP(104)可以是聲碼器。如果DSP(104)是聲碼器,那么參數(shù)可以是由聲碼器產(chǎn)生的診斷數(shù)據(jù)。分布式語(yǔ)音識(shí)別系統(tǒng)可位于用途特定集成電路(ASIC)上。
文檔編號(hào)G10L15/00GK1352787SQ00803548
公開日2002年6月5日 申請(qǐng)日期2000年2月4日 優(yōu)先權(quán)日1999年2月8日
發(fā)明者張承純 申請(qǐng)人:高通股份有限公司