基于語音輸入激活多種功能的系統(tǒng)和方法

文檔序號：2823804閱讀：289來源：國知局

專利名稱：基于語音輸入激活多種功能的系統(tǒng)和方法
基于語音輸入激活多種功能的系統(tǒng)和方法技術(shù)領域
本發(fā)明總體上涉及自動語音識別，更具體地，涉及具有多個上下文(context)的自動語音識別。
背景技術(shù)：
自動語音識別(ASR)
自動語音識別的目標是獲得代表語音的聲學信號(即，語音信號)，并通過模式匹配來確定所說的話語。語音識別器通常具有一組存儲在計算機數(shù)據(jù)庫中的表現(xiàn)為模式的聲學和語言模型。將這些模型與所得到的信號進行比較。計算機數(shù)據(jù)庫的內(nèi)容、怎樣調(diào)校數(shù)據(jù)庫以及用于確定最佳匹配的技術(shù)是不同類型的語音識別系統(tǒng)的區(qū)別性特征。
已知多種語音識別方法。分段模型方法假定在口語中存在著明顯的語音單位 (例如，音素)，可以用一段時間內(nèi)語音信號中的一組特性來表示這些語音單位。將輸入的語音信號分段為分立的部分，在分立的部分中，聲學特性代表一個或者更多個語音單位，并且根據(jù)這些特性向這些部分添加標簽。然后，根據(jù)所賦予的一系列語音標簽來確定符合語音識別任務的限制條件的有效的詞典單詞。
基于模版的方法直接利用語音模式而不需要進行明確的特征確定和分段。最初利用已知的語音模式對基于模版的語音識別系統(tǒng)進行調(diào)校。在識別期間，將未知的語音信號與在調(diào)校期間獲得的每個可能的模式進行比較，并且根據(jù)未知模式與已知模式的匹配程度來對其進行分類。
混合方法結(jié)合了上述的分段模型方法和基于模版的方法的某些特征。在某些系統(tǒng)中，在識別過程中不僅僅使用聲學信息。并且，神經(jīng)網(wǎng)絡已經(jīng)被用于語音識別。例如，在一個這樣的網(wǎng)絡中，模式分類器檢測聲學特征向量，并且將向量與和聲學特征相匹配的濾波器進行卷積，然后在時間上對結(jié)果加總。
ASR使能系統(tǒng)
ASR使能系統(tǒng)包括主要的兩類，S卩，信息檢索(IR: :informationretrieval)系統(tǒng)以及命令與控制(CC command and control)系統(tǒng)。
信息檢索(IR)
總體上，信息檢索(IR)系統(tǒng)基于口述查詢(query)來搜索數(shù)據(jù)庫中存儲的內(nèi) 容。所述內(nèi)容可以包括任意類型的多媒體內(nèi)容，如文本、圖像、音頻和視頻，但不限于這些。查詢包括關(guān)鍵詞或者短語。很多IR系統(tǒng)允許用戶指定將在查詢期間應用的附加的限制條件。例如，限制條件可以指定所有返回的內(nèi)容具有一系列屬性。通常，將查詢和限制條件規(guī)定為文本。
對于一些應用而言，即使可能，進行文本輸入和輸出也是困難的。這些應用例如包括在操作機器或車輛的同時搜索數(shù)據(jù)庫，或者具有功能有限的鍵盤或顯示器的應用 (如電話)。對于這樣的應用而言，首選ASR使能的IR系統(tǒng)。
美國專禾1J 7,542,966 ( "Method and system for retrieving documents withspokenqueries"，2009年6月2日授予Wolf等)中描述了 ASR使能的IR系統(tǒng)的一個示例。
命令與控制(CC)
ASR使能的CC系統(tǒng)將口述命令識別并解釋為機器可以理解的命令?？谑雒?的非限制性示例是“呼叫”指定的電話號碼，或者“播放”指定的歌曲。由于近來語音識別軟件的進步，已經(jīng)開發(fā)出一些ASR使能的CC系統(tǒng)。通常，這些系統(tǒng)利用口述命令的特定上下文而在特定的環(huán)境中工作。
上下文ASR使能系統(tǒng)
大詞典和復雜的語言模型使ASR使能系統(tǒng)變慢，并要求諸如存儲器和處理的更多的資源。大詞典還降低了系統(tǒng)的準確性。因此，大多數(shù)ASR使能系統(tǒng)都具有通常與相關(guān)的上下文相關(guān)聯(lián)的小詞典和簡單的語言模型。例如，美國專利No.4,989,253公開了一種使顯微鏡移動并聚焦的ASR使能系統(tǒng)。該系統(tǒng)使用與顯微鏡相關(guān)聯(lián)的上下文。另外，美國專利No.5,970,457公開了一種根據(jù)與適當?shù)纳舷挛南嚓P(guān)聯(lián)的口述命令來操作諸如手術(shù)工具的醫(yī)療設備的ASR使能系統(tǒng)。
然而，一些ASR使能系統(tǒng)需要包括用于不同上下文的多個詞典和語言模型。這樣的系統(tǒng)通常被配置為基于由用戶選擇的特定的感興趣的上下文來激活適當?shù)脑~典和語言模型。
如這里所定義的，ASR使能系統(tǒng)的上下文是詞典、語言模型、語法、領域、數(shù) 據(jù)庫和/或與上下文功能相關(guān)的子系統(tǒng)，但不限于此。例如，與音樂、聯(lián)系人、飯店或者名勝古跡相關(guān)的功能各自具有單獨且可區(qū)分的上下文。使用多個上下文的ASR使能系統(tǒng)是上下文ASR使能系統(tǒng)。
因此，對于上下文ASR使能系統(tǒng)而言，需要指定口述查詢或口述命令的上下文。
使用PTT功能的ASR使能系統(tǒng)
存在不同類型的根據(jù)背景噪聲或背景語音來區(qū)分預計的語音輸入的ASR系統(tǒng)。始終收聽(always-listening)型系統(tǒng)對已識別的音頻信號進行詞法分析以檢測用來激活 ASR使能系統(tǒng)以進行進一步輸入的關(guān)鍵詞(例如，“計算機”)。
另一種類型的ASR使能系統(tǒng)使用在人與人對話之后建模的諸如注視方向的其它輸入線索。
另一種類型的ASR系統(tǒng)使用一按通話(PTT push-to-talk)功能。PTT控件(例如，按紐)用于將音頻信號流的開始標記為預計的語音輸入。在一些實施中，通過分析例如所得到的信號的幅度或信噪比(SNR)來自動地確定語音輸入的結(jié)束。在其它實施中，用戶被要求將按鈕一直按下直到用戶結(jié)束講話為止，通過放開按鈕來明確標記輸入信號的結(jié)束。
嵌入式ASR系統(tǒng)
有時，需要直接在實體設備中嵌入ASR使能系統(tǒng)，而不是在基于網(wǎng)絡的計算資源上實現(xiàn)ASR使能系統(tǒng)。必需進行這樣的嵌入的場景包括那些不能采用持續(xù)網(wǎng)絡連接的場景。在那些場景中，即使ASR使能系統(tǒng)涉及更新網(wǎng)絡計算機上的數(shù)據(jù)庫，也需要通過在設備上獨立進行的人機交互來得到信息。然后，在網(wǎng)絡通信信道恢復之后，可以使在設備上收集的已更新信息與基于網(wǎng)絡的數(shù)據(jù)庫同步。5
如這里所定義的，嵌入式ASR系統(tǒng)是這樣一種系統(tǒng)，即，在該系統(tǒng)中，執(zhí)行CC 或IR所需要的全部語音信號處理均發(fā)生在通常具有連接的有線麥克風或者無線麥克風的設備上。生成、修改或者激活嵌入式ASR系統(tǒng)所需的一些數(shù)據(jù)可以經(jīng)由有線或無線的數(shù) 據(jù)信道從不同的設備下載。然而，在進行ASR處理時，所有數(shù)據(jù)均駐留在與設備相關(guān)聯(lián) 的存儲器中。
如上所述，結(jié)合特定的上下文或多個上下文來使用諸如IR和CC系統(tǒng)的不同類型的ASR系統(tǒng)是具有優(yōu)勢的。并且，由于它們的有限的存儲器和CPU資源，一些嵌入式 ASR系統(tǒng)具有對于臺式機或者基于服務器的ASR系統(tǒng)而言不一定存在的限制。例如，臺式機或基于服務器的系統(tǒng)可能能夠從系統(tǒng)的任意狀態(tài)中處理音樂檢索指令，如搜索特定的藝術(shù)家。然而，嵌入式ASR系統(tǒng)(例如，車輛中的ASR系統(tǒng))可能需要用戶首先切換到適當?shù)纳舷挛臓顟B(tài)，并且將允許用戶提供僅與特定的上下文狀態(tài)相關(guān)的語音輸入。
通常，嵌入式ASR系統(tǒng)與多種不同的上下文相關(guān)聯(lián)。例如，音樂可以是一種上下文。當嵌入式ASR系統(tǒng)在音樂上下文狀態(tài)中時，系統(tǒng)預期用戶的語音輸入與音樂相關(guān)，并且系統(tǒng)被配置為僅執(zhí)行與檢索音樂相關(guān)的功能。導航和聯(lián)系人是ASR系統(tǒng)的上下文的其它非限制性示例。
例如，在具有使用PTT按鈕的用戶接口的嵌入式ASR系統(tǒng)中，為了搜索音樂表演者，用戶必須按下PTT按鈕，念出上下文指令(例如，諸如“音樂”的代碼詞)，從而將ASR系統(tǒng)切換到音樂上下文狀態(tài)。在說出代碼詞后，用戶可以輸入口述指令以進行音樂檢索。如果用戶在一些其它上下文狀態(tài)中輸入音樂相關(guān)的口述指令，則ASR系統(tǒng)出現(xiàn)故障。
圖1示出了常規(guī)的嵌入式ASR系統(tǒng)。在按下PTT按鈕105后，系統(tǒng)預期包含上下文指令110-112的語音輸入。在識別到120上下文指令后，系統(tǒng)轉(zhuǎn)換為適當?shù)纳舷挛臓顟B(tài) 130-132。因此，在識別了隨后的語音輸入133-135后，系統(tǒng)激活適當?shù)墓δ?36-138。
然而，尤其當任務持續(xù)時間增長時，諸如音樂檢索和目的地輸入的復雜任務與例如駕駛車輛的其它用戶操作相互干擾。因此，常常期望減少嵌入式ASR系統(tǒng)中以語音輸入來激活功能的步驟數(shù)。發(fā)明內(nèi)容
本發(fā)明的實施方式公開了一種基于語音輸入來激活多種功能的方法和系統(tǒng)，其中，在諸如電話、導航系統(tǒng)、車輛的儀表盤等裝置中嵌入所述系統(tǒng)。
所述系統(tǒng)包括存儲多種狀態(tài)的存儲器，其中每種狀態(tài)均與所述多種功能中的至少一種功能相關(guān)聯(lián)；自動語音識別(ASR)引擎，所述自動語音識別引擎可操作地連接到一組數(shù)據(jù)模型，其中，針對每種狀態(tài)均存在一個數(shù)據(jù)模型，其中，所述ASR引擎被配置為當系統(tǒng)處于一種狀態(tài)中時利用與該狀態(tài)相關(guān)聯(lián)的數(shù)據(jù)模型將語音輸入解釋為功能輸入，使得根據(jù)所述功能輸入激活所述功能；多個控件，其中，針對每種狀態(tài)均存在一個控件，并且其中，每個控件均被配置為生成與所述狀態(tài)相關(guān)聯(lián)的信號；以及狀態(tài)轉(zhuǎn)換模塊，所述狀態(tài)轉(zhuǎn)換模塊被配置為基于所述信號將所述系統(tǒng)轉(zhuǎn)換到所述狀態(tài)，其中，所述功能被配置，使得僅當所述系統(tǒng)處于與所述功能相關(guān)聯(lián)的所述狀態(tài)時才被激活。
在一個實施方式中，所述多個控件包括被配置為利用至少兩種激活方式激活的多功能控件，使得所述多功能控件生成指示特定激活方式的信號。本實施方式還包括被配置為基于所述特定激活方式來激活第一功能或者第二功能的控制器，其中，所述第一功能被配置為僅基于所述激活方式來執(zhí)行，并且其中，所述第二功能還被配置為基于所述語音輸入來執(zhí)行。
所述方法包括如下步驟在存儲器中存儲多個狀態(tài)，其中，每個狀態(tài)均與多種功能中的至少一種功能相關(guān)聯(lián)；提供多個控件，其中，針對每個狀態(tài)均存在一個控件，并且其中，每個控件均被配置為生成與所述狀態(tài)相關(guān)聯(lián)的信號；以及在接收到所述信號時，將所述系統(tǒng)轉(zhuǎn)換為與所述信號相關(guān)聯(lián)的狀態(tài)，以便根據(jù)所述語音輸入來激活所述功能，其中，所述功能被配置為僅當所述系統(tǒng)轉(zhuǎn)換到與所述功能相關(guān)聯(lián)的狀態(tài)時才被激活。

圖1是常規(guī)的自動語音識別系統(tǒng)的框圖2是根據(jù)本發(fā)明不同實施方式中的一個的嵌入式自動語音識別方法和系統(tǒng)的框圖3是根據(jù)本發(fā)明不同實施方式中的一個的嵌入式自動語音識別方法和系統(tǒng)的框圖；以及
圖4是包含根據(jù)本發(fā)明一些實施方式的系統(tǒng)的車輛儀表盤的部分前視圖。
具體實施方式
上下文PTT控制
本發(fā)明的實施方式基于對使得在嵌入式自動語音識別(ASR)系統(tǒng)中激活適當功能更加方便的多種專用的上下文一按通話(PTT)控件的實現(xiàn)。
圖2示出了根據(jù)本發(fā)明一個實施方式的嵌入式ASR系統(tǒng)。該系統(tǒng)包括處理器 201，該處理器201包括存儲器202的、輸入/輸出接口以及本領域中公知的信號處理ο
系統(tǒng)200包括存儲器202中存儲的多種狀態(tài)231-233。通常，每種狀態(tài)均與特定上下文相關(guān)聯(lián)。例如，一種狀態(tài)與音樂上下文相關(guān)聯(lián)，而另一種狀態(tài)與聯(lián)系人上下文相關(guān)聯(lián)。每種狀態(tài)還與功能237-239中的至少一種功能相關(guān)聯(lián)。功能237-239被配置為基于語音輸入233-235而激活。通常，這些功能與狀態(tài)相關(guān)聯(lián)，其方式類似于上下文與狀態(tài)之間的關(guān)聯(lián)。例如，被配置為選擇并播放音樂的功能與和音樂上下文關(guān)聯(lián)起來的狀態(tài) 相關(guān)聯(lián)。但是，被配置為選擇并呼叫特定電話號碼的功能則與和聯(lián)系人上下文關(guān)聯(lián)起來的狀態(tài)相關(guān)聯(lián)。
通常，語音輸入包括將要執(zhí)行的功能的功能標識符和功能參數(shù)。例如，語音輸入是“呼叫Joe”。功能標識符是該輸入的“呼叫”部分。基于該標識符，從與“電話”狀態(tài)相關(guān)聯(lián)的多種功能中選出用于執(zhí)行電話呼叫的功能。語音輸入的“Joe”部分是基于標識符選出的功能的參數(shù)。因此，所述系統(tǒng)利用該參數(shù)來執(zhí)行所選擇的功能，艮口，呼叫基于人名“Joe”從電話簿中選出的電話號碼。
系統(tǒng)200被配置為僅在系統(tǒng)轉(zhuǎn)換到一種狀態(tài)時才激活與該狀態(tài)相關(guān)聯(lián)的功能。例如，為了激活音樂功能，系統(tǒng)必須首先轉(zhuǎn)換到與音樂功能相關(guān)聯(lián)的狀態(tài)，并因而與音樂上下文關(guān)聯(lián)起來。
系統(tǒng)200不具有一個常規(guī)的PTT按鈕，而是提供了包括多個控件221-223(例如，上下文PTT控件)的控制板210。每個上下文PTT控件均可以是被配置為可觸知地激活的任意輸入控件，諸如按鈕、控制桿或者觸敏表面。
每個上下文PTT控件221-223均與狀態(tài)231-233——對應。在激活時，上下文 PTT控件生成信號M2-M4。所述信號可以是攜帶關(guān)于被激活的上下文PTT控件的信息的任意類型的信號(例如，二進制信號)。
在接收到上述信號時，狀態(tài)轉(zhuǎn)換模塊220將系統(tǒng)200轉(zhuǎn)換為與該信號相關(guān)聯(lián)的狀態(tài)，以便激活功能。例如，在一個實施方式中，通過將來自一組數(shù)據(jù)模型255的數(shù)據(jù)模型256與ASR引擎關(guān)聯(lián)起來以實現(xiàn)轉(zhuǎn)換狀態(tài)。數(shù)據(jù)模型包括詞典、和/或一組預先確定的命令或者搜索項，這使得ASR引擎能夠解釋語音輸入。ASR引擎將語音輸入233-235 解釋為功能237-239所預期的輸入沈1力63。因此，如果數(shù)據(jù)模型256包括例如音樂上下文的詞典，則ASR引擎僅能夠解釋與音樂相關(guān)的語音輸入234。另選地或者另外地，狀態(tài)轉(zhuǎn)換模塊預先選擇(例如，上載到處理器201的存儲器中)對應狀態(tài)中包含的功能。
與單個PTT按鈕的常規(guī)系統(tǒng)相比，本發(fā)明的實施方式提供了明顯優(yōu)勢。常規(guī)系統(tǒng)要求額外的語音輸入以轉(zhuǎn)換到特定狀態(tài)。然而，本發(fā)明的實施方式基于控件的激活直接將系統(tǒng)轉(zhuǎn)換到與該控件相關(guān)聯(lián)的狀態(tài)。
因此，與常規(guī)系統(tǒng)相比，系統(tǒng)200利用了通過重復的相似運動(類似于盲打 (touch typing)和變速調(diào)檔)來得到增強的肌肉記憶。因此，所述控件被設置為，使得用戶僅從主要任務(例如，駕駛車輛)轉(zhuǎn)移很少的注意力就能夠激活該控件。
在一個實施方式中，每個控件均傳送與狀態(tài)相關(guān)聯(lián)的上下文的標識符225-227。例如，標識符可以在控件上顯示諸如“呼叫”或“音樂”的上下文名稱的標題。另外或者另選地，標識符可以是控件的顏色、控件的形狀、控件在設備上的位置以及它們的組合。本實施方式縮短了操作者為學習如何操作嵌入式ASR系統(tǒng)通常需要的訓練時間。
如圖4所示，系統(tǒng)200可以嵌入在車輛400的儀表盤410中。上下文PTT控件 432-433可以布置在方向盤430上。另選地或者另外地，上下文PTT控件425可以布置在控制模塊420上。多個上下文PTT控件簡化了搜索，并要求更少的用戶交互，從而用戶可以將精力集中在車輛駕駛上。
多功能控件
圖3示出了根據(jù)本發(fā)明另一個實施方式的系統(tǒng)和方法300的框圖。在此實施方式中，控件310是多功能PTT控件，其通過控制器320至少連接到功能330和340?？?件310被配置為生成指示從多個激活方式317中選出的特定激活方式315的信號。激活方式包括例如單擊、雙擊以及按下并保持的激活方式。
控制器320基于特定激活方式315來激活325第一功能340或者第二功能330。功能340和330之間的主要差異在于可以僅基于激活方式315來激活第一功能340。然而，第二功能330需要語音使能啟動，S卩，第二功能330還被配置為期待語音輸入333。
此實施方式使得能夠?qū)⒊Ｒ?guī)的控件使用為多功能PTT控件。如果用戶以“正常的”激活方式(例如，單擊)來激活控件，則系統(tǒng)激活342并執(zhí)行344第一功能?；蛘撸脩粢浴疤厥獾摹奔せ罘绞?例如，雙擊)來激活所述控件，調(diào)用期待語音輸入333 的功能337。
例如，單擊電話上的綠色呼叫按鈕顯示出最近的呼叫。然而，雙擊同一個綠色呼叫按鈕將導致系統(tǒng)檢測語音輸入(例如，類似“JohnDoe”的電話簿搜索)，并根據(jù)所述語音輸入來執(zhí)行“呼叫”功能。在此示例中，功能340是顯示最近的呼叫的功能。很容易理解，當以單擊激活方式激活時，功能340不需要任何額外的輸入。另一方面，呼叫特定的電話號碼的功能是功能330，該功能需要額外的輸入(例如，來自電話簿的聯(lián)系人姓名)。在此實施方式中，由嵌入式ASR系統(tǒng)基于語音輸入來解釋額外的輸入。
類似地，收音機上的“播放/暫?！焙汀半S機播放”按鈕能夠接受語音輸入。如果正常啟動是簡單的轉(zhuǎn)換操作(即，播放或暫停、隨機播放開啟或關(guān)閉)，則語音使能啟動檢測針對操作的語音輸入，即，播放什么或者隨機播放什么。
在一個實施方式中，功能330的語音使能激活的實現(xiàn)與系統(tǒng)200的狀態(tài)的實現(xiàn)相似。當用戶指示系統(tǒng)300激活第二功能330時，系統(tǒng)300轉(zhuǎn)換為與第二功能330相關(guān)的狀態(tài)(與狀態(tài)231-233相似)。
在另一個實施方式中，將系統(tǒng)200和300結(jié)合起來以提供多功能的上下文PTT控件。在此實施方式中，控制板210包括多個多功能PTT控件。此實施方式允許在具有常規(guī)按鈕的設備中嵌入ASR系統(tǒng)，從而將該設備轉(zhuǎn)換為多功能的上下文嵌入式ASR系統(tǒng)。
盡管已經(jīng)利用優(yōu)選實施方式的示例說明了本發(fā)明，但是應當理解，在本發(fā)明的精神和范圍之內(nèi)可以得到各種其它改變和修改。因此，所附權(quán)利要求的目的是涵蓋落入本發(fā)明的真實精神和保護范圍內(nèi)的所有這些的變化和修改。
權(quán)利要求
1.一種基于語音輸入來激活多種功能的系統(tǒng)，其中，所述系統(tǒng)嵌入裝置中，該系統(tǒng) 包括存儲多種狀態(tài)的存儲器，其中，每種狀態(tài)均與所述多種功能中的至少一種功能相關(guān)聯(lián)；能夠操作地連接到一組數(shù)據(jù)模型的自動語音識別引擎，其中，針對每種狀態(tài)均存在一個數(shù)據(jù)模型，其中，所述自動語音識別引擎被配置為當所述系統(tǒng)處于一種狀態(tài)中時利用與所述狀態(tài)相關(guān)聯(lián)的數(shù)據(jù)模型將所述語音輸入解釋為功能輸入，使得根據(jù)所述功能輸入來激活所述功能；多個控件，其中，針對每種狀態(tài)均存在一個控件，并且其中，每個控件均被配置為生成與所述狀態(tài)相關(guān)聯(lián)的信號；以及狀態(tài)轉(zhuǎn)換模塊，所述狀態(tài)轉(zhuǎn)換模塊被配置為基于所述信號將系統(tǒng)轉(zhuǎn)換到所述狀態(tài)，其中，所述功能被配置為僅當所述系統(tǒng)處于與所述功能相關(guān)聯(lián)的狀態(tài)中時才被激活。
2.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中，每種狀態(tài)均與上下文相關(guān)聯(lián)，其中，針對每種狀態(tài)均存在一種上下文。
3.根據(jù)權(quán)利要求2所述的系統(tǒng)，其中，所述上下文是從音樂上下文、聯(lián)系人上下文和導航上下文中選出的。
4.根據(jù)權(quán)利要求2所述的系統(tǒng)，其中，與狀態(tài)相關(guān)聯(lián)的控件傳送與所述狀態(tài)相關(guān)聯(lián)的所述上下文的標識符。
5.根據(jù)權(quán)利要求4所述的系統(tǒng)，其中，所述標識符是從在所述控件上表現(xiàn)的標題、所述控件的顏色、所述控件的形狀、所述控件的位置以及它們的組合中選出的。
6.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中，所述語音輸入包括所述功能的標識符和所述功能的參數(shù)，使得基于所述標識符來選擇所述功能并基于所述參數(shù)來執(zhí)行所述功能。
7.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中，所述狀態(tài)僅與一種功能相關(guān)聯(lián)，所述語音輸入包括所述功能的參數(shù)，使得基于所述參數(shù)來執(zhí)行所述功能。
8.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中，所述控件是一按通話按鈕。
9.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中，所述系統(tǒng)被配置為僅基于接觸式激活來轉(zhuǎn)換到所述狀態(tài)。
10.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中，所述多個控件包括多功能控件。
11.根據(jù)權(quán)利要求1所述的系統(tǒng)，該系統(tǒng)還包括包含所述多個控件的控制板。
12.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中，所述裝置是車輛的儀表盤。
13.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中，所述裝置是從電話、音樂播放器、導航設備以及它們的組合中選出的。
14.根據(jù)權(quán)利要求1所述的系統(tǒng)，其中，所述多個控件包括多功能控件，所述多功能控件被配置為利用至少兩種激活方式激活，使得所述多功能控件生成指示特定激活方式的信號，該系統(tǒng)還包括控制器，所述控制器被配置為基于所述特定激活方式來激活第一功能或者第二功能，其中，所述第一功能被配置為僅基于所述激活方式來執(zhí)行，并且其中，所述第二功能還被配置為基于所述語音輸入來執(zhí)行。
15.根據(jù)權(quán)利要求14所述的系統(tǒng)，其中，所述多個控件僅包括所述多功能控件。
16.—種激活多種功能的方法，其中，每種功能均被配置為基于語音輸入來激活，該方法包括如下步驟在存儲器中存儲多種狀態(tài)，其中，每種狀態(tài)均與所述多種功能中的至少一種功能相關(guān)聯(lián)；提供多個控件，其中，針對每種狀態(tài)均存在一個控件，并且其中，每個控件均被配置為生成與所述狀態(tài)相關(guān)聯(lián)的信號；以及響應于接收到所述信號，將所述系統(tǒng)轉(zhuǎn)換為與所述信號相關(guān)聯(lián)的狀態(tài)，以便根據(jù)所述語音輸入來激活所述功能，其中，所述功能被配置為僅在系統(tǒng)轉(zhuǎn)換到與所述功能相關(guān) 聯(lián)的狀態(tài)時才被激活。
17.根據(jù)權(quán)利要求16所述的方法，其中，所述功能被配置為基于輸入而執(zhí)行，該方法還包括如下步驟提供自動語音識別引擎，所述自動語音識別引擎能夠操作地連接到一組數(shù)據(jù)模型，其中，針對每種狀態(tài)均存在一個數(shù)據(jù)模型，其中，所述自動語音識別引擎被配置為在所述系統(tǒng)轉(zhuǎn)換到一個狀態(tài)時，利用與所述狀態(tài)相關(guān)聯(lián)的數(shù)據(jù)模型將所述語音輸入解釋為輸入。
18.根據(jù)權(quán)利要求16所述的方法，其中，所述多個控件中的至少一個控件是多功能控件。
19.根據(jù)權(quán)利要求16所述的方法，該方法還包括如下步驟將控件與上下文相關(guān)聯(lián)；和在所述控件上提供所述上下文的標識。
20.根據(jù)權(quán)利要求16所述的方法，該方法還包括如下步驟將所述多個控件設置在車輛內(nèi)部。
全文摘要
本發(fā)明公開了一種基于語音輸入來激活多種功能的方法和系統(tǒng)。該系統(tǒng)包括存儲多種狀態(tài)的存儲器，其中，每種狀態(tài)均與多種功能中的至少一種功能相關(guān)聯(lián)；可操作地連接到一組數(shù)據(jù)模型的自動語音識別ASR引擎，其中，針對每種狀態(tài)均存在一個數(shù)據(jù)模型，其中，ASR引擎被配置為在系統(tǒng)處于一種狀態(tài)中時利用與該狀態(tài)相關(guān)聯(lián)的數(shù)據(jù)模型將語音輸入解釋為功能的輸入，使得根據(jù)該功能輸入來激活功能；多個控件，其中，針對每種狀態(tài)均存在一個控件，并且其中，每個控件均被配置為生成與狀態(tài)相關(guān)聯(lián)的信號；以及狀態(tài)轉(zhuǎn)換模塊，其被配置為基于所述信號將系統(tǒng)轉(zhuǎn)換到所述狀態(tài)。
文檔編號G10L15/28GK102024454SQ20101027798
公開日2011年4月20日申請日期2010年9月8日優(yōu)先權(quán)日2009年9月10日
發(fā)明者加勒特·L·魏因貝格申請人:三菱電機株式會社

完整全部詳細技術(shù)資料下載