專利名稱:客戶一服務器語音識別的制作方法
技術領域:
本發(fā)明涉及一種用于識別語音輸入信號的分布式語音識別系統(tǒng);該系統(tǒng)包括至少一個客戶站和服務器站;客戶站包括接收來自用戶的語音輸入信號的裝置和通過公共因特網將表示所接收的語音的信號傳輸給服務器站的裝置;以及服務器站包括用于從公共因特網接收語音等效信號的裝置和用于識別所接收的語音等效信號的大/巨大詞匯量語音識別器。
本發(fā)明還涉及一種識別分布式系統(tǒng)中語音輸入信號的方法,所述系統(tǒng)包括至少一個客戶站和服務器站。
US5819220公開了一種客戶-服務器語音識別系統(tǒng)。其中客戶站對于用戶是本地的,而服務器位于通過公共因特網可到達的遠處。該系統(tǒng)用于提供涉及萬維網頁的語音輸入。用戶向客戶站提供語音輸入,其利用傳統(tǒng)瀏覽器顯示網頁。例如,語音可用于確定查詢或用于填寫頁的信息單詞段(例如名字、地址)。通常,客戶站通過話筒和聲卡的A/D轉換器接收語音。將語音表示發(fā)送給公共因特網上的語音服務器。該服務器可設置在提供網頁的萬維網服務器中或可通過該萬維網服務器進行訪問。服務器也可以通過位置與萬維網服務器無關的公共因特網進行訪問。服務器識別語音??蓪⒆R別輸出(例如所識別的單詞序列)發(fā)回客戶站或直接發(fā)送到萬維網服務器。在公知系統(tǒng)中,在服務器中可使用大功率語音識別器,其能識別因特網環(huán)境中的語音,且對于這種語音識別也是最佳的。對于某種應用來說,在每種程度上需要識別器支持因特網環(huán)境中可能出現的巨大詞匯量,其中實際上用戶能訪問任何主題的任何文件。在已知的客戶-服務器系統(tǒng)中客戶站沒有任何語音識別器。
由于在所述的系統(tǒng)中所有語音輸入都導入服務器,因此服務器上的負載會變得很高。特別在如果系統(tǒng)支持許多同時運行的客戶站的情況下更是如此。
本發(fā)明的一個目的是通過減少服務器上的負載來改善陳述的系統(tǒng)及其方法。
為實現依照本發(fā)明的目的,所述系統(tǒng)的特征在于客戶站包括本地語音識別器和語音控制器;語音控制器將至少部分語音輸入信號導入本地語音識別器中,并根據識別結果選擇性地將一部分語音輸入信號通過公共因特網導入服務器站。也可以通過在客戶站中設置識別器,從而從服務器中去掉負荷。服務器的目標在于可為許多用戶同時提供高質量的巨大詞匯量語音識別的艱難任務,從服務器中減掉了本地識別器能容易完成的簡單任務。盡管任務可能簡單,但簡單地通過不必向服務器發(fā)送全部語音輸入,它們能消除服務器和公共因特網的高負荷。另外,由于客戶能比較容易地訪問與識別相關的本地信息,因此在客戶處比在服務器中能更有效地執(zhí)行某些識別任務。
正如從屬權利要求2的方案所限定的,在客戶站使用簡單識別器。通過這種方式能將附加費用和客戶站上的處理負載保持在低水平。
正如從屬權利要求3的方案所限定的,利用本地識別器檢測語音起動命令。即使用戶沒有說話或如果用戶正在說話了但不想識別他/她的語音,也能解除中央識別器必需連續(xù)掃描來自客戶站的語音輸入信號。這也減輕了公共因特網不必要的負荷。
正如從屬權利要求4的方案所限定的,利用本地識別器執(zhí)行控制本地客戶站的指令識別??蛻粽咀钸m于確定哪一個本地操作可行(例如通過聲音控制哪一個菜單項)。另外,這可以免除通過公共因特網發(fā)送語音再將識別結果發(fā)送回來,而本地站同樣能很好地執(zhí)行這些識別任務,甚至它更適合執(zhí)行這些任務。
正如從屬權利要求5的方案所限定的,客戶站利用其本地識別器確定需要將語音信號發(fā)送給哪一個語音服務器。在存在若干個語音識別服務器的情況下可有效地利用該方式。它的一個例子是具有包含不同公司幾個廣告標語的網頁。例如為允許用戶進行短語語音詢問,某些或所有這些公司都有它們自己的語音識別服務器。本地識別器/控制器可根據諸如“選擇Philips”或“對Philips講話”等語音確定路由命令選擇服務器和語音路由??蓮臉苏Z本身提取識別路由命令的信息。這些信息以標簽的形式存在于標語中,并包括諸如文本和路由命令語音表示的數據項。本地識別器/控制器也可以根據與相應語音服務器關聯的信息確定路由。例如,標語文本的單詞可用作路由的基本成分。例如,如果用戶說出了一個標語中出現的單詞,則語音被導入到與該標語關聯的語音服務器中。如果單詞出現在多于一個的標語中,則語音發(fā)送到幾個語音服務器中,或發(fā)送到最可能的一個服務器中(例如其相關標語具有相對最高的單詞出現率)。代替利用標語中明確出現的單詞,標語也可以例如通過鏈接與文本信息相關聯起來。如果用戶說出了該信息中的一個或多個單詞,就選定該標語的語音服務器。
正如從屬權利要求6的方案所限定的,可將服務器中的語音識別器用作在本地識別器不能完全識別用戶輸入情況下的一種“備份”??筛鶕愃朴谟浄只蛑眯帕慷鹊男阅苤笜藳Q定將語音輸入傳送到哪個服務器。通過該方式可在客戶站使用傳統(tǒng)的大詞匯量識別器,而在服務器中使用強大的識別器。例如,服務器中的識別器可支持較大的詞匯量或更專業(yè)的語音模型。本地識別器仍然可以運行并識別輸入,即使并行輸入服務器也能識別。通過這種方式仍然能“實時”地識別用戶輸入??捎梅掌鞯目赡茌^高質量結果代替本地識別器的可能較低精度的初步識別。選擇器作出本地識別器與遠程識別器識別結果之間的最終選擇。該選擇可基于性能指標進行。
為滿足根據本發(fā)明的目的,在分布式系統(tǒng)中識別語音輸入信號的方法包括在客戶站中從用戶處接收語音輸入信號;在客戶站至少識別部分語音輸入信號;根據識別結果選擇性地將表示一部分語音輸入信號的信號通過公共因特網從客戶站導入到服務器站中;在服務器站中從公共因特網接收語音等效信號;以及利用大/巨大詞匯量的語音識別器識別服務器站中接收到的語音等效信號。
參照附圖中所示的實施例進行的闡明將使本發(fā)明的這些和其它方面更加清楚。
圖1表示典型語音識別器的元件;圖2表示基于HMM的單詞模型;圖3是依照本發(fā)明的分布式語音識別系統(tǒng)的方框圖;圖4更詳細地表示利用公共因特網訪問服務器站;圖5表示具有服務器站選擇權的系統(tǒng)的方框圖6表示識別分布式系統(tǒng)中的語音輸入信號的方法。
諸如大詞匯量連續(xù)語音識別系統(tǒng)的語音識別系統(tǒng)通常利用識別模型集合來識別輸入模式。例如,可利用聲音模型和詞匯表識別單詞,并利用語言模型改善基礎識別結果。圖1表示大詞匯量連續(xù)語言識別系統(tǒng)100的典型結構〔參見L.Rabiner,B-H.Juang,“Fundamentals of speech recognition”,Prentice Hall 1933,434到454頁〕。系統(tǒng)100包括頻譜分析子系統(tǒng)110和單元匹配子系統(tǒng)120。在頻譜分析子系統(tǒng)110中,對語音輸入信號(SIS)進行頻譜和/或時間分析,以計算特征表示向量(觀測向量OV)。通常,對語音信號進行數字化處理(例如以6.67kHz的速度采樣),并例如通過預強調對其進行預處理。將連續(xù)樣值歸集(塊處理)成幀,例如該幀對應于32微秒的語音信號。例如,幀相繼局部重疊16微秒。通常利用線性預測編碼(LPC)頻譜分析方法針對每個幀計算特征表示向量(觀測向量)。例如,特征向量可具有24、32或63個分量。大詞匯量連續(xù)語音識別的標準方法是假定語音生成的概率模型,借此被確定的單詞序列W=w1w2w3…wq產生聲音觀測向量序列Y=y(tǒng)1y2y3…yT。通過確定最可能產生被觀察的觀察向量序列y1y2y3…yT(隨著時間t=1,…,T)的單詞序列w1w2w3…wq,可在統(tǒng)計學上將識別誤差降到最小,其中觀測向量為頻譜分析子程序110的輸出。該結果導致最大后驗概率的確定maxP(W|Y),適合所有可能的單詞序列W。
通過對條件概率施用Baye定理,將P(W|Y)給出如下P(W|Y)=P(Y|W).P(W)/P(Y)由于P(Y)與W無關,因此最可能的單詞序列給出如下arg max P(Y|W).P(W) 給所有可能的單詞序列W(1)在單元匹配子程序120中,聲音模型構成等式(1)的第一項。聲音模型用于為給定單詞串W估算觀測矢量Y的序列概率P(Y|W)。對于大詞匯量系統(tǒng),這通常通過將觀測向量與語音識別單元的目錄進行匹配來執(zhí)行。語音識別單元由聲音參考序列表示。可以使用各種形式的語音識別單元。舉例來說,可用一個語音識別單元表示整個單詞或甚至一組單詞。單詞模型(WM)為給定詞匯表的每個單詞提供聲音參考序列的錄音。在大多數小詞匯量的語音識別系統(tǒng)中,用語音識別單元表示整個單詞,在該情況下單詞模型與語音識別單元之間存在直接關系。在其它例如用于識別較大數量的單詞(例如幾百個單詞)的小詞匯量系統(tǒng)中或在大詞匯量的系統(tǒng)中,可使用基于語言的諸如音素、雙音素或音節(jié)的子單詞單元以及諸如fenenes和fenones的派生單元。對于這種系統(tǒng),由字典134和子單詞模型132給出單詞模型,所述字典134描述了與詞匯表中的單詞相關的子單詞單元,子單詞模型132描述了有關語音識別單元的聲音參考序列。單詞模型合成器136根據子單詞模型132和字典134合成單詞模型。
圖2A表示基于全單詞語音識別單元的系統(tǒng)單詞模型200,其中利用十個聲音參考(201到210)的序列為所示單詞建立模型。圖2B表示基于子單詞單元的系統(tǒng)單詞模型220,其中通過三個子單詞模型(250、260和270)的序列為所示單詞建立模型,其中每個子單詞模型具有四個聲音參考(251,252,253,254;261到264;271到274)的序列。圖2所示的單詞模型是基于Hidden Markov Model(HMM),該模型廣泛用于隨機模型語音信號。利用這種模型,每個識別單元(單詞模型或子單詞模型)通常以HMM為特征,其參數由數據訓練組估算出來。對于大詞匯量的語音識別系統(tǒng),由于需要大量訓練數據為較大單元充分訓練HMM,因此通常使用有限組的子單詞單元,該組數例如為40。HMM狀態(tài)與聲音參考對應。已知有多種建立參考模型的技術,其包括不連續(xù)的或連續(xù)的概率密度。與一特定話語相關的每個聲音參考序列也稱為話語的聲音錄音??梢岳斫獾氖?,如果使用除HMM外的其它識別技術,聲音錄音的細節(jié)將會不同。
圖1的單詞級別匹配系統(tǒng)130將觀測向量與所有語音識別單元序列匹配,并提供向量與序列間的匹配可能性。如果利用子單詞單元,則可通過利用字典134對匹配進行約束,以便將可能的子單詞單元序列限定為字典134中的序列。這減少了可能的單詞序列輸出。
另外可利用句子等級匹配系統(tǒng)140,該系統(tǒng)可基于語言模型(LM)進一步對匹配進行約束,以便使被研究的路徑是那些與單詞序列對應的路徑,其中所述單詞序列是由語言模型確定的正確序列。照此語言模型構成了等式(1)的第二項P(W)。聲音模型結果與語言模型結果的結合產生單元匹配子系統(tǒng)120的輸出,該輸出就是被識別的句子(RS)152。模式識別中使用的語言模型可包括語言和識別任務的句法和/或語義約束142。基于句法約束的語言模型通常是指語法144。語言模型利用的語法144提供了單詞序列W=w1w2w3…wq的概率,原則上其由下式給出P(W)=P(w1)P(w2|w1).P(w3|w1w2)…P(wq|w1w2w3…wq)由于實際上不能可靠地為給定語言中的所有單詞和所有序列長度估算條件單詞概率,因此廣泛使用N個字母組的單詞模型。在N個字母組的模型中,項P(wj|w1w2w3…wj-1)與P(wj|wj-N+1…wj-1)近似。實際上使用雙字母組或三字母組。在三字母組中,項P(wj|w1w2w3…wj-1)與P(wj|wj-2wj-1)近似。
圖3表示依照本發(fā)明的分布式語音識別系統(tǒng)300的方框圖。為了將所識別的語音轉換成文本或類似表示的應用而具體描述系統(tǒng)工作的例子。該文本表示可用于口授目的,其中將文本表示輸入到例如單詞處理器或例如用于確定數據庫中字段的文本字段的文件中。對于口授而言,當前大詞匯量的識別器支持高達60000個單詞的有效詞匯量和字典。很難獲得足夠相關的數據建立足夠精確地識別更大量單詞的模型。通常,用戶可將一定數量的單詞加到有效詞匯表/字典中??梢詮?00000到500000個單詞的后臺詞匯(其也包括單詞的聲音錄音)中檢索到這些單詞。為了口授或類似目的,例如巨大詞匯表可由至少100000個有效單詞或甚至超過300000個有效單詞組成??梢岳斫獾氖牵貏e是對通過單擊鏈接就可以產生完全不同上下文的互聯網環(huán)境來說,優(yōu)選的是能有效地識別許多后臺詞匯的單詞。對于其它諸如識別名稱的識別任務,通常其模型建立成具有附屬于它的、某種優(yōu)先命名概率形式的平面目錄,而對于它不存在高質量的語言模型,此時已把超過50000個單詞的詞匯表歸為巨大詞匯表。
可以理解的是,識別結果不需要用于口授目的。其同樣也可用作諸如對話系統(tǒng)的其它系統(tǒng)的輸入,其中根據被識別的語音從數據庫檢索信息,或象訂購一本書或預定旅行那樣進行操作。
分布式識別系統(tǒng)300包括服務器站310和至少一個客戶站。圖中所示為三個客戶站320、330和340,其中僅示出了客戶站330的進一步細節(jié)。可利用傳統(tǒng)計算機技術實現這些站。例如,客戶站330可由臺式個人計算機或工作站構成,而服務器站310可由PC服務器或工作站服務器構成。計算機可在計算機處理器中裝載的適當程序的控制下運行。服務器站310和客戶站320、330和340通過公共因特網350連接。
圖4更詳細地表示公共因特網400的使用。服務器站310可以看作是服務提供者,它通過公共因特網向用戶(客戶站)提供服務。由服務提供者提供的服務可對語音-到-文本的轉化(通過公共因特網接收語音并將文本或類似形式的識別結果返回)產生約束。服務提供者還能提供增強功能,例如可作為對公共因特網中得到的各類信息的入口。這些增強功能可依賴于服務器站識別的語音,在該情況下所識別的語音不需要回到客戶站??蛻粽就ㄟ^訪問提供者訪問公共因特網410。圖中所示為兩個訪問提供者410和420。在該例子中,訪問提供者410向客戶站320提供訪問,而訪問提供者420向客戶站340提供訪問。訪問提供者與其客戶站之間的連接通常通過寬域網產生,其類似于撥號電話或有線TV連接。
正如圖3所示的,站分別包括用于分別通過公共因特網350進行通信的通信裝置312和332??梢允褂萌魏芜m于結合公共因特網350一起使用的通信裝置。通常,通信裝置由諸如通信接口或調制解調器等硬件和支持包括因特網協議TCP/IP的特定通信協議的軟件驅動器形式的軟件構成??蛻粽?30包括用于例如通過接口331從客戶處接收語音的裝置??蛻粽?30進一步包括對語音信號進行預處理以便使其適合于傳送到服務器站310的裝置。例如,客戶站可包括類似于圖1的頻譜分析子系統(tǒng)110的頻譜分析子系統(tǒng)333。服務器站310能夠執(zhí)行如為圖1的系統(tǒng)100描述的任何其它任務。優(yōu)選地,服務器站能夠進行大或巨大詞匯量的連續(xù)語音識別。實際上大詞匯量的語音識別是公知的。對于巨大詞匯量的語音識別,優(yōu)選利用歐洲申請EP99200949.8中描述的技術。服務器站310包括利用單詞模型和語言模型的識別器312,該識別器與圖1的單元匹配子系統(tǒng)類似。可將諸如被識別的單詞序列RS的識別輸出傳回客戶站330。為了進一步進行處理(例如在對話系統(tǒng)中),識別輸出也可以在服務器站310中使用,或被傳送到類似于因特網上的服務提供者的下一個站中。根據本發(fā)明,客戶站330包括語音識別器334。在一個優(yōu)選實施例中,客戶站330的語音識別器334是有限的語音識別器,例如小詞匯量或關鍵單詞識別器。這些識別器是公知的,其能在有效成本下實施。客戶站330進一步包括語音控制器335。語音控制器335分析本地識別器334的識別結果并根據識別結果選擇性地將一部分語音輸入信號通過公共因特網350導入服務器站310中。為此,客戶站330包括可控制的開關336,該開關能確定通過接口331接收的(并由分析器333分析的)語音輸入是否通過通信接口332發(fā)送到服務器站310中。根據本地識別器334的任務和可裝到客戶站330上的負荷,語音控制器335利用另一個開關僅將部分語音輸入信號傳送到本地語音識別器334中。例如,客戶站330可包括語音有效性檢測器,例如它能根據所接收的輸入信號能級確定用戶是否可能在說話。如果用戶沒在說話(能級低于閾值),則不需要將信號導入本地識別器334中。該有效性檢測器是公知的。如果負荷不是限制因素,則優(yōu)選的是總是將語音導入本地識別器中,至少在當用戶已起動有關程序并且因此已經表示了某時起動識別對話的愿望時應這樣做。通過始終使本地識別器有效,可避免以能量的有效性為基礎的檢測器的不足。例如,很難實現該檢測器閾值的精確設定,特別是在嘈雜環(huán)境中、例如在背景中有背景音樂或人說話的環(huán)境中更是如此。
在一個優(yōu)選實施例中,語音識別器334是有限語音識別器,它能識別用于起動服務器站識別的語音命令。如果已經識別了這些預定命令(或許多預定起動命令中的一個),語音控制器335就控制開關336將語音輸入信號導入到服務器站310中。語音控制器335還通過通信裝置332向服務器站310發(fā)送起動指令。該起動指令可以是隱含形式的。例如,每逢通過通信接口312接到語音時,就自動起動服務器310中的識別。
在一個可選擇的實施例中,識別器334可用于識別至少一個與本地客戶站330的操作有關的語音命令/控制指令。對于該任務,利用小詞匯量或關鍵詞識別器就足夠了。應識別本地命令/控制指令的要求,語音控制器335將相應的機器控制指令發(fā)送給本地客戶站330的站控制器337。例如,該機器指令可以是為Windows操作系統(tǒng)限定的操作系統(tǒng)或用戶接口指令。語音控制器335以及站控制器337可以執(zhí)行Windows下的任務。
在一個可選擇的實施例中,如圖5所示,系統(tǒng)500包括多個示為510、520和530的服務器站。服務器站的結構與圖3所示服務器站310的結構類似。服務器站通過公共因特網540與至少一個客戶站連接,圖中示出的是客戶站550??蛻粽?50的結構與圖3所述站330的結構相同。客戶站550的語音識別器優(yōu)選為有限語音識別器。該語音識別器用于識別語音路由命令??蛻粽镜恼Z音控制器選擇性地將語音輸入信號導入到與所識別的路由命令相關聯的至少一個服務器中。該導入以將語音路由命令轉化成服務器站網絡地址的表格為基礎。該表格可以預先確定,例如,可一次裝入客戶站或由客戶站的用戶輸入。可選擇的是這些表格是動態(tài)的。例如,表格可以嵌入通過因特網下載的諸如HTML文件的文件或與之相關。在這種文件中,不同區(qū)域與不同的各服務器相關聯。例如,文件可包括幾個廣告標語,每個標語與其自身的識別服務器關聯。
在一個可選擇的實施例中,圖3中客戶站330的語音識別器334為大詞匯量的語音識別器(或任選為巨大詞匯量的語音識別器)。如果本地客戶站330中的語音識別器334的識別結果性能指標低于預定閾值,語音控制器335就將部分(或全部)語音輸入信號導入服務器站310中。該導入是通過變換開關336而完成的。原則上僅將最后部分的語音信號發(fā)送到服務器站310中、例如僅發(fā)送與識別較差的句子有關的部分就足夠了。優(yōu)選的是也將較早的語音內容發(fā)送給服務器站310,以便使服務器站能較好地與語音信號同步,并任選地根據較早部分的信號選擇諸如聲音或語音模型的適當識別模型。服務器站310將所識別的單詞序列傳送回客戶站330??蛻粽?30包括選擇器,該選擇器用于從由客戶站識別器和服務器站識別器分別識別的單詞序列中選擇所識別的單詞序列。因為反正總是要分析本地識別結果,因此實際上選擇器的任務可與語音控制器335的任務合并。
圖6表示在分布式系統(tǒng)中識別語音輸入信號的方法,所述系統(tǒng)至少包括一個客戶站600和服務器站620,它們能通過公共因特網610相連。該方法包括以下步驟在步驟640中,客戶站600接收來自用戶的語音輸入信號;在步驟650中,客戶站600至少識別部分語音識別信號;在步驟660中,選擇性地將表示一部分語音輸入信號的信號從客戶站600通過公共因特網610導入到服務器站620中;該導入取決于客戶站600的輸出。在步驟670中,服務器站620從公共因特網610接收到語音等效信號;在步驟680中,利用大/巨大詞匯量的語音識別器識別服務器站620中接收的語音等效信號;任選的是,在步驟685中,服務器站通過公共因特網610將表示語音表示信號識別的識別結果信息(例如所識別語音的文本轉錄)發(fā)回客戶站600;在步驟690中,客戶站接收該信息。
權利要求
1.一種識別語音輸入信號的分布式語音識別系統(tǒng),該系統(tǒng)包括至少一個服務器站和客戶站;客戶站包括用于接收來自用戶的語音輸入信號的裝置;和用于將表示所接收的語音的信號通過公共因特網傳送到服務器站的裝置;以及服務器站包括用于接收來自公共因特網的語音等效信號的裝置;和用于識別所接收的語音等效信號的大/巨大詞匯量語音識別器;其特征在于客戶站包括本地語音識別器和語音控制器;語音控制器能將至少部分語音輸入信號導入本地語音識別器中,并根據識別結果選擇性地將一部分語音輸入信號通過公共因特網導入服務器站中。
2.根據權利要求1所述的系統(tǒng),其中客戶站的本地語音識別器是諸如小詞匯量或關鍵詞識別器的有限語音識別器。
3.根據權利要求1所述的系統(tǒng),其中本地語音識別器可用于識別起動服務器站識別的語音命令;以及其中語音控制器響應識別起動命令將起動指令發(fā)送給服務器,并將語音輸入信號導入服務器站。
4.根據權利要求1所述的系統(tǒng),其中識別器用于至少識別與本地客戶站操作有關的一條語音命令/控制指令,語音控制器用于將與被識別的命令/控制指令對應的機器控制指令發(fā)送給本地客戶站的站控制器。
5.根據權利要求1所述的系統(tǒng),特征在于,所述系統(tǒng)包括多個服務器站;語音識別器可用于識別語音路由命令;語音控制器用于選擇性地將語音輸入信號導入到至少一個關聯的服務器中。
6.根據權利要求1所述的系統(tǒng),其中客戶站的語音識別器為大詞匯量的語音識別器;如果本地客戶站中語音識別器的語音識別結果性能指標低于預定閾值,則語音控制器就至少將一部分語音輸入信號導入到服務器站中;服務器站可將所識別的單詞序列發(fā)回客戶站;客戶站包括選擇器,該選擇器用于從由客戶站識別器和服務器站識別器分別識別的單詞序列中選擇被識別的單詞序列。
7.一種在分布式系統(tǒng)中識別語音輸入信號的方法,所述系統(tǒng)包括至少一個服務器站和客戶站;該方法包括在客戶站中接收來自用戶的語音輸入信號;在客戶站中至少識別部分語音輸入信號;選擇性地將表示一部分語音輸入信號的信號從客戶站通過公共因特網導入到服務器站中;該導入是根據客戶站中的識別結果進行的;在服務器站中接收來自公共因特網的語音等效信號;以及利用大/巨大詞匯量語音識別器識別服務器站中接收的語音等效信號。
全文摘要
一種分布式語音識別系統(tǒng)(300)包括通過公共因特網(350)相連的至少一個服務器站(310)和客戶站(330)??蛻粽?330)包括用于接收來自用戶的語音輸入信號的裝置(331)。語音控制器(335)至少將部分語音輸入信號導入到本地語音識別器(334)中。優(yōu)選為有限的語音識別器(334)至少能識別部分語音輸入,所述語音輸入是例如用于起動全部識別的語音命令。根據識別結果,語音控制器(335)選擇性地將一部分語音輸入信號通過公共因特網(350)導入到服務器站(310)中。服務器站(310)包括:用于接收來自公共因特網的語音等效信號的裝置(312)和用于識別所接收的語音等效信號的大/巨大詞匯量的語音識別器(314)。
文檔編號G10L15/28GK1351745SQ00807941
公開日2002年5月29日 申請日期2000年3月7日 優(yōu)先權日1999年3月26日
發(fā)明者E·特倫, S·貝斯林 申請人:皇家菲利浦電子有限公司