專利名稱:一種人機交互導航系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及計算機領域,特別涉及人機交互語音系統(tǒng),具體的講是一種人機交互導航系統(tǒng)。
背景技術:
隨著我國國民經(jīng)濟的快速發(fā)展,人民生活水平的大幅提高,作為我國重要經(jīng)濟命脈之一的交通運輸業(yè)的發(fā)展也是突飛猛進,現(xiàn)今我國車輛的保有量呈現(xiàn)大幅增長之勢,并且隨著道路的四通八達,行車難越來越多的體現(xiàn)在對交通線路的選擇上,對于駕駛員來說選擇一條最佳的交通路線,避免走冤枉路已成了當今駕駛員的必然選擇。目前國內(nèi)外普遍采用GPS自主導航方法來實現(xiàn)對車輛的導航。一般的GPS導航系統(tǒng)主要由處理器,顯示屏,觸摸屏和音頻處理裝置構(gòu)成,但是原有觸摸屏在使用中需要粘貼于顯示屏上,在其兩者調(diào)試到統(tǒng)一坐標的前提下,用戶的手指的觸摸屏的移動就類似鼠標移動的選擇功能,但是由于觸摸屏本身的構(gòu)造和材料限制,經(jīng)常會出現(xiàn)定位的漂移等現(xiàn)象,并且由于經(jīng)常用手指觸摸屏幕,以至于觸摸區(qū)域被弄臟和自然老化,這種單一使用手指的GPS觸摸屏在可靠性上很不穩(wěn)定,經(jīng)常需要定期維護。
最近的導航設備不但具有僅僅顯示地圖信息的功能,而且也具有作為信息終端裝置用來給用戶提供諸如到目的地的路由引導信息和在當前位置附近的交通信息的許多種類的信息功能,中國專利02151633于2002年12月30號申請的一種基于GPS和GPRS(General PacketRadio Service)實現(xiàn)車輛網(wǎng)絡導航的方法,公開了一種能夠?qū)Ш叫畔⑼ㄟ^語音輸出的技術方案,該系統(tǒng)能夠?qū)⒌貓D信息,當前位置的交通信息和到達目的地方向指令通過語音消息形式傳遞給駕駛員。但是,駕駛員在使用該種系統(tǒng)時還是需要聚精會神的用手操作,如果駕駛員需要知道當前路況信息或者目的地的信息,他必須一邊駕駛著汽車一邊用手操作該種導航系統(tǒng),這樣在現(xiàn)實路況和屏幕之間轉(zhuǎn)換視線,這樣操作的結(jié)果是他將不能把注意力集中在駕駛汽車上,這對駕駛員和其他人的生命安全造成了很大的威脅。
目前市場上出現(xiàn)的所謂語音導航系統(tǒng),只體現(xiàn)在輸出部分,即語音提示只是提示信息回放給用戶的一種方式,并不能提供語音輸入功能。另外,這種單向的信息傳遞方式對于駕駛員來說也是很不方便的,駕駛員無法得知自己想知道的信息,系統(tǒng)只能夠簡單的做出基本語音提示,駕駛員如果想知道別的信息,比如天氣等信息,必須通過對導航系統(tǒng)的物理操控才能獲得自己希望的信息。
發(fā)明內(nèi)容
本發(fā)明的目的在于,提供一種人機交互導航系統(tǒng),解決現(xiàn)有導航系統(tǒng)觸摸屏的不足,使用者必須使用手工操作才能從導航系統(tǒng)中獲得希望的信息,實現(xiàn)使用者與導航系統(tǒng)真正的交互。
本發(fā)明的目的還在于提供一種人機交互導航方法,解決現(xiàn)有導航系統(tǒng)單向語音提示,不能與使用者在語音上進行交互的不足。
一種人機交互導航系統(tǒng),包括音頻輸出單元、全球定位單元,還包括音頻輸入單元、自動語音識別單元、數(shù)據(jù)庫、語音合成單元;其中,所述音頻輸入單元與所述自動語音識別單元相連接;所述自動語音識別單元與所述全球定位單元相連接;所述全球定位單元與所述數(shù)據(jù)庫相連接;所述全球定位單元與所述語音合成單元相連接;所述語音合成單元與所述音頻輸出單元相連接;由音頻輸入單元采集用戶的音頻輸入數(shù)據(jù),自動語音識別單元將該音頻輸入數(shù)據(jù)轉(zhuǎn)換成相應的指令,全球定位單元執(zhí)行該指令并返回處理結(jié)果數(shù)據(jù),根據(jù)該處理結(jié)果數(shù)據(jù)搜索數(shù)據(jù)庫并輸出人機交互信息,語音合成單元將該人機交互信息轉(zhuǎn)換成語音通過音頻輸出單元進行輸出。
還包括自然語音理解單元,所述自然語音理解單元連接于自動語音識別單元與全球定位單元之間,用于進一步提取自動語音識別單元轉(zhuǎn)換的指令,將用戶不準確的指令識別為特定的控制指令。
還包括人機交互管理單元,所述人機交互管理單元連接于全球定位單元與語音合成單元之間,根據(jù)語法學,語義學和句法知識,結(jié)合全球定位單元提供的信息,生成符合語法邏輯的人機交互信息。
還包括前置語音預處理單元,所述前置語音預處理單元連接于音頻輸入單元與自動語音識別單元之間,濾除用戶音頻輸入數(shù)據(jù)的干擾噪音并將其轉(zhuǎn)換為數(shù)字信號。
所述的音頻輸入單元為麥克陣列。
一種人機交互導航方法,包括如下步驟通過音頻輸入單元接收用戶的音頻輸入數(shù)據(jù);通過自動語音識別步驟對用戶的音頻輸入數(shù)據(jù)進行處理,將其轉(zhuǎn)換成相應的指令;根據(jù)全球定位單元執(zhí)行指令結(jié)果,搜索數(shù)據(jù)庫并生成與用戶的人機交互信息;將所述人機交互信息通過語音合成單元輸出。
在所述自動語音識別步驟后,還包括一自然語音理解步驟進一步提取自動語音識別單元轉(zhuǎn)換的指令,將用戶不準確的指令識別為特定的控制指令。
所述根據(jù)全球定位單元執(zhí)行指令結(jié)果,搜索數(shù)據(jù)庫并生成與用戶的人機交互信息的步驟中,還包括一人機交互管理步驟根據(jù)根據(jù)語法學,語義學和句法知識,結(jié)合全球定位單元提供的信息,生成符合語法邏輯的人機交互信息。
在所述自動語音識別步驟前,還包括一前置語音預處理步驟,濾除用戶音頻輸入數(shù)據(jù)的干擾噪音并將其轉(zhuǎn)換為數(shù)字信號。
所述的人機交互信息為文本格式的數(shù)據(jù)。
本發(fā)明的有益效果在于,能夠使駕駛員在駕駛車輛的同時查詢需要的信息,并且不需要動手或者轉(zhuǎn)移視線對導航系統(tǒng)進行控制,提高了駕駛的安全性和便利性,并且降低了對使用者的要求,使用者不需要進行相關培訓和專業(yè)知識,只需要說出所需信息提示,就可以通過本發(fā)明獲得相應信息。
圖1為本發(fā)明系統(tǒng)結(jié)構(gòu)示意圖;圖2為本發(fā)明自動語音識別過程示意圖;圖3為本發(fā)明人機交互導航系統(tǒng)的一個實施例示意圖;圖4為本發(fā)明人機交互導航系統(tǒng)的另一實施例示意圖。
具體實施例方式
下面,結(jié)合附圖對于本發(fā)明進行如下詳細說明。
圖1為本發(fā)明系統(tǒng)結(jié)構(gòu)示意圖。如圖所示,使用麥克陣列為一音頻輸入裝置,同時,觸摸屏或者按鍵同樣可以在本發(fā)明中起到同現(xiàn)有技術中一樣的基本控制功能;在現(xiàn)有移動工具中,例如汽車,手機等,在本發(fā)明人機交互導航系統(tǒng)的具體實現(xiàn)過程中,使用麥克陣列作為音頻輸入單元是因為其對采集音頻信號源的效果比較好,當然也可以使用類似的采集音頻信號的裝置。在經(jīng)過麥克陣列采集音頻輸入信號后,本發(fā)明的前置語音預處理單元對用戶的輸入進行增強,濾除外界噪音干擾,傳送給自動語音識別單元(ASRAutomatic Speech Recognition),該自動語音識別單元將這些語音特征與語音訓練模板中的特征值相比較,將用戶輸入的語音數(shù)據(jù)轉(zhuǎn)換成標準格式的數(shù)據(jù)進行輸出。自然語音理解單元(NLUNatural Language Understanding)接收從ASR傳送出的標準格式的數(shù)據(jù),并且繼續(xù)分析該命令數(shù)據(jù)的正確性,分析用戶語音所代表的意圖,將用戶不準確的語音命令轉(zhuǎn)換為準確命令信息。全球定位單元(GPSGlobalPosition System),執(zhí)行從NLU中傳送出的準確命令信息,數(shù)據(jù)庫中存儲了相應的地圖信息,包括地名、學校名、醫(yī)院名等信息,同時系統(tǒng)可以通過互聯(lián)網(wǎng)連接到服務中心及時更新相關路況信息等文本數(shù)據(jù),根據(jù)用戶的語音輸入命令在數(shù)據(jù)庫中查找目的地名等數(shù)據(jù)控制GPS單元進行處理,通過查找數(shù)據(jù)庫確定現(xiàn)在位置和目標地點等操作。人機交互管理單元(DMDialogue Management),在取得GPS執(zhí)行結(jié)果后生成與用戶語音命令相對應的交互信息(本實施例中交互信息為交通指示信息和人機對話等文本類型數(shù)據(jù),也可以為其他類型的數(shù)據(jù)),處理結(jié)束后將交互信息和相關的交通指示信息傳送給語音轉(zhuǎn)換單元(TTSText To Speech),由TTS根據(jù)交互信息生成相應的語音信息,通過揚聲器進行輸出。
如圖2所示為本發(fā)明自動語音識別單元示意圖,通過前置語音預處理單元對用戶輸入的語音進行預處理,提取相應的聲波參數(shù),形成用戶語音輸入部分Y,通過聲學模型模塊(AMAcoustic model)對語音進行處理,其中聲學模型是語音識別系統(tǒng)的底層模型,是影響識別系統(tǒng)性能最關鍵的一部分,聲學模型模塊的目標是提供一種有效的描述方法,計算語音的特征矢量序列(即圖中經(jīng)過前置語音預處理單元生成的特征矢量序列)和每個發(fā)音樣本(即圖中發(fā)音字典中存儲的發(fā)音樣本)之間的距離,故聲學模型模塊的設計跟語言發(fā)音特點密切相關。在語音識別中,首先是模擬的語音信號在聲學前端的前置語音預處理單元被處理為特征矢量序列并過濾相伴語音數(shù)據(jù)一同傳入的噪音,這些特征矢量序列描述了語音信號的短時及普遍變化信息,經(jīng)過與發(fā)音字典中的發(fā)音樣本比較后,輸出用戶聲學模型模塊識別的運算結(jié)果P(Y|W)。語言模型模塊(LMLanguage model)用于為所識別的詞序列提供語法和句法上的約束,尤其重要的是它提供了一種可以根據(jù)所給出詞序列W中的上下文而估計出某個詞在此詞序列中出現(xiàn)的概率的機制。理想的語言模型模塊應該包括有關語言學上的、在識別系統(tǒng)中該語言所適用范圍的以及相關的一些信息,比如用戶輸入“開啟”,語言模型模塊就會聯(lián)想到以“開啟”為開始的詞組或者句子都有哪些組合的可能,“開啟系統(tǒng)”,“開啟音響”等,這些信息可以被LM利用來縮減所需要的搜索空間。利用語言模型模塊的運算結(jié)果P(W)和聲學模型模塊的運算結(jié)果P(Y|W)計算出用戶的輸入語音對應的漢字串。
圖3為本發(fā)明人機交互語音導航的一個實施例,首先,語音波形文件作為輸入,例如,用戶可以對著話筒說“打開導航系統(tǒng)”,語音時域信號通過A/D轉(zhuǎn)換器(前置語音預處理單元)從模擬信號轉(zhuǎn)換為數(shù)字信號,在此基礎上,進行特征提取,一般采用Mel頻率倒譜系數(shù)(MFCCMel-Frequency Cepstral Coefficients)為特征的26維或者39維特征參數(shù)來描述不同音節(jié)或者音素的屬性。將提取的特征與系統(tǒng)訓練好的聲學模型進行比較,找到最大(概率最大)可能的狀態(tài)序列。通過解碼器(Decoder)對該可能的序列進行識別,語音識別的解碼算法為Viterbi搜索算法,用戶輸入的語音數(shù)據(jù)在經(jīng)過語言模型模塊處理后,由解碼器挑選出與用戶語音輸入最佳匹配的“打開導航系統(tǒng)”詞語序列。所有可能詞序列的數(shù)量隨系統(tǒng)所采用模型的數(shù)量、詞匯表大小、所用的語義約束成指數(shù)關系增加,使得大詞表語音識別算法對所需的運算速度以及存儲空間提出了近乎苛刻的要求。語言模型(LM)用來為所識別的詞序列提供語法和句法上的約束。它提供了一種可以根據(jù)所給出詞序列W中的上下文而估計出某個詞在此詞序列中出現(xiàn)的概率的機制。通過語言學模型在包括有關語言學上的、在識別系統(tǒng)中該語言所適用范圍的以及相關的一些信息的約束,系統(tǒng)最后的輸出為對應的漢字,例如“打開導航系統(tǒng)”,經(jīng)用戶輸入的波形轉(zhuǎn)換為對應的漢字串。自然語言理解單元的作用在于提供一種人機對話的自由語法。例如,用戶可以說“打開導航系統(tǒng)”或者“我要去清華大學怎么走”或者其他方式。通過自然語言理解單元的處理,將用戶不準確的語音輸入信息進一步合理解釋,例如“啟動”,可以引導用戶方便、快捷的使用本系統(tǒng),而不需要用戶機械的記憶多條關鍵的控制命令。在系統(tǒng)正確分析出用戶的意圖之后,通過訪問系統(tǒng)預先設定的地圖數(shù)據(jù)庫,通過查詢關鍵字找到用戶所需的詳細信息,并通過語音合成出自然的語音信號播放給用戶,其中也可以加入人機交互管理單元,根據(jù)用戶輸入的語音信息和GPS產(chǎn)生的處理結(jié)果,生成相應的應答文本數(shù)據(jù)和交通數(shù)據(jù)通過TTS單元和用戶實現(xiàn)實時交流。
如圖4所示,為應用本發(fā)明人機交互語音導航系統(tǒng)的另一實施例。在無線網(wǎng)絡和全球定位系統(tǒng)(GPS)之間建立了一種相互協(xié)作的關系。通過語音或者按鍵方式觸發(fā)導航系統(tǒng),將城市區(qū)域地圖從某一個遠程服務器在線傳送至手機上。通過GPRS技術,確定收集持有者當前的位置。利用本發(fā)明人機交互語音技術或者按鍵技術,說出要去的具體方位進行查詢。目前系統(tǒng)的設計是考慮了手機內(nèi)存和計算能力的限制,每次使用時需要從遠程服務器上動態(tài)加載電子地圖,如果手機的內(nèi)存量擴大到一定程度,則無須使用前動態(tài)加載,電子地圖可以駐留在內(nèi)存中,每隔一定時間刷新一次即可。
本發(fā)明的有益效果在于,語音作為一種替代的輸入方式取代了傳統(tǒng)的按鍵或者觸摸屏,增強了駕駛員在駕駛過程中的安全性,并且增加了自然語言理解技術,使人機對話更具有人性化。用戶無需記憶復雜的命令,所想即所說。
以上具體實施方式
僅用于說明本發(fā)明,而非用于限定本發(fā)明。
權利要求
1.一種人機交互導航系統(tǒng),包括音頻輸出單元、全球定位單元,其特征在于還包括音頻輸入單元、自動語音識別單元、數(shù)據(jù)庫、語音合成單元;其中,所述音頻輸入單元與所述自動語音識別單元相連按;所述自動語音識別單元與所述全球定位單元相連接;所述全球定位單元與所述數(shù)據(jù)庫相連接;所述全球定位單元與所述語音合成單元相連接;所述語音合成單元與所述音頻輸出單元相連接;由音頻輸入單元采集用戶的音頻輸入數(shù)據(jù),自動語音識別單元將該音頻輸入數(shù)據(jù)轉(zhuǎn)換成相應的指令,全球定位單元執(zhí)行該指令并返回處理結(jié)果數(shù)據(jù),根據(jù)該處理結(jié)果數(shù)據(jù)搜索數(shù)據(jù)庫并輸出入機交互信息,語音合成單元將該人機交互信息轉(zhuǎn)換成語音通過音頻輸出單元進行輸出。
2.根據(jù)權利要求1所述的一種人機交互導航系統(tǒng),其特征在于還包括自然語音理解單元,所述自然語音理解單元連接于自動語音識別單元與全球定位單元之間,用于進一步提取自動語音識別單元轉(zhuǎn)換的指令,將用戶不準確的指令識別為特定的控制指令。
3.根據(jù)權利要求1所述的一種人機交互導航系統(tǒng),其特征在于還包括人機交互管理單元,所述人機交互管理單元連接于全球定位單元與語音合成單元之間,根據(jù)語法學,語義學和句法知識,結(jié)合全球定位單元提供的信息,生成符合語法邏輯的人機交互信息。
4.根據(jù)權利要求1所述的一種人機交互導航系統(tǒng),其特征在于還包括前置語音預處理單元,所述前置語音預處理單元連接于音頻輸入單元與自動語音識別單元之間,濾除用戶音頻輸入數(shù)據(jù)的干擾噪音并將其轉(zhuǎn)換為數(shù)字信號。
5.根據(jù)權利要求1或4所述的一種人機交互導航系統(tǒng),其特征在于,所述的音頻輸入單元為麥克陣列。
6.一種人機交互導航方法,其特征在于包括如下步驟通過音頻輸入單元接收用戶的音頻輸入數(shù)據(jù);通過自動語音識別步驟對用戶的音頻輸入數(shù)據(jù)進行處理,將其轉(zhuǎn)換成相應的指令;根據(jù)全球定位單元執(zhí)行指令結(jié)果,搜索數(shù)據(jù)庫并生成與用戶的人機交互信息;將所述人機交互信息通過語音合成單元合成語音并通過音頻輸出單元輸出。
7.根據(jù)權利要求6所述的一種人機交互導航方法,其特征在于,在所述自動語音識別步驟后,還包括一自然語音理解步驟進一步提取自動語音識別單元轉(zhuǎn)換的指令,將用戶不準確的指令識別為特定的控制指令。
8.根據(jù)權利要求6所述的一種人機交互導航方法,其特征在于,所述根據(jù)全球定位單元執(zhí)行指令結(jié)果,搜索數(shù)據(jù)庫并生成與用戶的人機交互信息的步驟中,還包括一人機交互管理步驟根據(jù)根據(jù)語法學,語義學和句法知識,結(jié)合全球定位單元提供的信息,生成符合語法邏輯的人機交互信息。
9.根據(jù)權利要求6所述的一種人機交互導航方法,其特征在于,在所述自動語音識別步驟前,還包括一前置語音預處理步驟,濾除用戶音頻輸入數(shù)據(jù)的干擾噪音并將其轉(zhuǎn)換為數(shù)字信號。
10.根據(jù)權利要求6所述的一種人機交互導航方法,其特征在于,所述的人機交互信息為文本格式的數(shù)據(jù)。
全文摘要
本發(fā)明涉及人機交互語音系統(tǒng),具體的講是一種人機交互導航系統(tǒng)。為了解決現(xiàn)有導航系統(tǒng)只能通過手工輸入的缺點,提出了一種人機交互導航系統(tǒng)及方法,其方法包括如下步驟通過音頻輸入單元接收用戶的音頻輸入數(shù)據(jù);通過自動語音識別步驟對用戶的音頻輸入數(shù)據(jù)進行處理,將其轉(zhuǎn)換成相應的指令;根據(jù)全球定位單元執(zhí)行指令結(jié)果搜索數(shù)據(jù)庫并生成與用戶的人機交互信息;將所述人機交互信息通過語音合成單元輸出。本發(fā)明的有益效果在于,增強了駕駛員在駕駛過程中的安全性,并且增加了自然語言理解技術,使人機對話更具有人性化,用戶無需記憶復雜的命令,所想即所說。
文檔編號G10L15/00GK1959628SQ20051011447
公開日2007年5月9日 申請日期2005年10月31日 優(yōu)先權日2005年10月31日
發(fā)明者王珩 申請人:西門子(中國)有限公司