專利名稱:車載語音控制方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及汽車電子技術(shù)領(lǐng)域,特別是涉及一種車載語音控制方法及系統(tǒng)。
背景技術(shù):
隨著人們對健康、卓越生活品質(zhì)的追求,功能強大的計算機逐漸融入汽車行業(yè)之中,汽車電子產(chǎn)品計算機集成化代表著未來汽車電子技術(shù)和產(chǎn)品發(fā)展的主流方向。簡而言之,車載計算機就是在車上加裝人車共用計算機?;谲囕d計算機平臺,每輛汽車可構(gòu)建成一個完美的車載信息與娛樂系統(tǒng)終端,可全面整合在線監(jiān)測系統(tǒng)、車載通訊系統(tǒng)、導航監(jiān)控系統(tǒng)、數(shù)字娛樂系統(tǒng)、輔助駕駛系統(tǒng)、駕駛員狀態(tài)分析系統(tǒng)、車輛駕駛環(huán)境檢測系統(tǒng)等多個車載系統(tǒng),車內(nèi)駕乘人員可輕松實現(xiàn)在線故障檢測、文件處理、無線上網(wǎng)、GPS導航、影音播放、數(shù)字移動電視接收、行車信息瀏覽、遠程監(jiān)控、倒車成像、駕駛員狀態(tài)監(jiān)視和駕駛環(huán)境監(jiān)視等功能。 同時隨著社會文明的不斷發(fā)展,人類已漸漸步入智能時代,對工具的智能化要求程度也越來越高,便捷時尚,智能化成為當代人們的追求目標,智能控制,信息電子的概念由此應運而生。語音識別技術(shù)能夠為駕駛者提供友好的交互界面,避免駕駛員在駕車時由于手動操作導致的潛在危險。但是現(xiàn)有的帶有語音控制的車載系統(tǒng)都將麥克風安置在駕駛員附近,便于更好得接收駕駛員的語音信息,但在實際使用中,副駕駛乘客或后排乘客也需要通過語音對車機進行控制,而現(xiàn)有的麥克風安置方法無法滿足以上需求。因為副駕駛乘客或后排乘客的聲音無法清晰地傳輸?shù)今{駛員的麥克風,造成識別困難。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種車載語音控制方法及系統(tǒng),使得車輛內(nèi)的乘客都可以通過語音控制車輛的各種應用。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是提供一種車載語音控制方法,包括以下步驟(I)在汽車的各個座位上安裝麥克風,并對麥克風設(shè)置權(quán)限;(2)通過麥克風獲取語音命令,并進行識別;(3)確認收到語首命令的麥克風;(4)根據(jù)收到語音命令麥克風的權(quán)限執(zhí)行相應的語音命令。所述步驟(I)中安裝在駕駛座上的麥克風的權(quán)限為各種車載應用權(quán)限。所述步驟(I)中安裝在副駕駛座和后排座位上的麥克風的權(quán)限為音樂和廣播應用權(quán)限。所述步驟(2)中采用模板匹配的方法對語音命令進行識別。所述步驟(2)中如果無法識別語音命令,則報告錯誤,麥克風重新獲取用戶的語音命令。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是還提供一種車載語音控制系統(tǒng),包括安裝在汽車各個座位上并設(shè)有權(quán)限的麥克風、語音識別子系統(tǒng)、確認模塊和執(zhí)行模塊;所述麥克風擁有獲取語音命令;所述語音識別子系統(tǒng)用于對麥克風獲取的語音命令進行識別;所述確認模塊用于確認收到語音命令的麥克風;所述執(zhí)行模塊用于根據(jù)所述麥克風的權(quán)限執(zhí)行相應的語音命令。所述安裝在駕駛座上的麥克風的權(quán)限為各種車載應用權(quán)限。所述在副駕駛座和后排座位上的麥克風的權(quán)限為音樂和廣播應用權(quán)限。所述語音識別子系統(tǒng)包括語音信號預處理與特征提取模塊、聲學模型及模式匹配模塊和語言模型與語言處理模塊;所述語音信號預處理與特征提取模塊用于對語音命令進行預處理和特征提??;所述聲學模型及模式匹配模塊用于將提取的特征同聲學模型進行匹配與比較得到匹配結(jié)果;所述語言模型與語言處理模塊以根據(jù)語言模型對匹配結(jié)果進行處理完成識別。
所述車載語音控制系統(tǒng)還包括錯誤報告模塊,所述錯誤報告模塊在所述語音識別子系統(tǒng)識別失敗時進行錯誤報告。有益效果由于采用了上述的技術(shù)方案,本發(fā)明與現(xiàn)有技術(shù)相比,具有以下的優(yōu)點和積極效果本發(fā)明在每個乘客位置處都加裝一個麥克風用于接收語音信號并傳輸至語音識別系統(tǒng)。為了避免出現(xiàn)控制混亂現(xiàn)象,對每個不同的麥克風設(shè)置不同的識別權(quán)限,當收到語音命令時,在識別后可根據(jù)不同識別權(quán)限完成相應的功能,因此可以使得車輛內(nèi)的乘客都可以通過語音控制車輛的各種應用,通過權(quán)限的設(shè)置,使得語音控制不會出現(xiàn)混亂的現(xiàn)象。
圖I是本發(fā)明第一實施方式的流程圖;圖2是本發(fā)明第二實施方式的方框圖;圖3是本發(fā)明第二實施方式中帶有錯誤報告功能的方框圖。
具體實施例方式下面結(jié)合具體實施例,進一步闡述本發(fā)明。應理解,這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。此外應理解,在閱讀了本發(fā)明講授的內(nèi)容之后,本領(lǐng)域技術(shù)人員可以對本發(fā)明作各種改動或修改,這些等價形式同樣落于本申請所附權(quán)利要求書所限定的范圍。本發(fā)明的第一實施方式涉及一種車載語音控制方法,包括以下步驟(1)在汽車的各個座位上安裝麥克風,并對麥克風設(shè)置權(quán)限;(2)通過麥克風獲取語音命令,并進行識別;(3)確認收到的語音命令的麥克風;(4)根據(jù)收到語音命令的麥克風的權(quán)限執(zhí)行相應的語音命令。該實施方式的具體步驟如圖I所示。步驟110,在汽車的各個座位上安裝麥克風,并對麥克風設(shè)置權(quán)限。以四座位汽車為例,在汽車的駕駛座、副駕駛座以及后排的兩個座位上均安裝一個麥克風,使得座位上的用戶在發(fā)出語音命令時,麥克風能夠成功獲取到為準。安裝完麥克風后可以對各個位置上的麥克風設(shè)置權(quán)限,比如,安裝在駕駛座上的麥克風的權(quán)限為各種車載應用權(quán)限,也就是說,安裝在駕駛座上的麥克風收到駕駛員的任何語音命令車載系統(tǒng)都能夠執(zhí)行,比如啟動車載導航等命令;副駕駛座和后排座位上的麥克風的權(quán)限為音樂和廣播應用權(quán)限,也就是說,副駕駛座和后排座位上的用戶只有在發(fā)出與音樂或廣播相關(guān)的語音命令時車載系統(tǒng)才能執(zhí)行,比如打開廣播的命令等等。接著進入步驟120,通過麥克風獲取語音命令,并進行識別。也就是說,當座位上的乘客發(fā)出語音命令后,麥克風獲取得到該語音命令,并開始對語音命令進行識別。在本步驟中對語音命令可以使用模板匹配的方法進行識別。在模板匹配方法中,要經(jīng)過四個步驟特征提取、模板訓練、模板分類、判決。常用的技術(shù)有三種動態(tài)時間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。動態(tài)時間規(guī)整(DTW):語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特征訓練和識別的基礎(chǔ)。所謂端點檢測就是在語音信號中的各種段落(如音素、音節(jié)、詞素)的始點和終點的位置,從語音信號中排除無聲段。該算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模型特征對正。 隱馬爾可夫法(HMM) :HMM方法是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型,將之看作一個數(shù)學上的雙重隨機過程一個是用具有有限狀態(tài)數(shù)的馬爾科夫鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與馬爾科夫鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流??梢奌MM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。矢量量化(VQ):這種方法是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是將語音信號波形的k個樣點的每一中貞,或有k個參數(shù)的每一參數(shù)巾貞,構(gòu)成k維空間中的一個矢量,然后對矢量進行量化。量化時,將k維無限空間劃分為M個區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。在步驟130中,判斷語音命令是否識別成功,若成功則進入步驟150,否則進入步驟 140。步驟140,報告錯誤,麥克風重新獲取用戶的語音命令。具體地說,當語音命令沒有被識別出時,車載系統(tǒng)報告錯誤,并且提示用戶重新輸入語音命令,用戶重新發(fā)出語音命令后,麥克風再次獲取用戶的語音命令。步驟150,確認收到語音命令的麥克風。具體地說,當語音命令成功被識別出時,確認收到語音命令的麥克風,即判斷是哪個麥克風收到了語音命令。最后,進入步驟160,根據(jù)收到語音命令麥克風的權(quán)限執(zhí)行相應的語音命令,也就是說,車載系統(tǒng)判斷出哪個麥克風收到了語音命令后,根據(jù)該麥克風的權(quán)限判斷是否應該執(zhí)行相應的語音命令,如果應該則執(zhí)行,否則就報告錯誤。比如說,當車載系統(tǒng)判斷出是駕駛座上的麥克風收到了語音命令,由于駕駛座上的麥克風是享有最高權(quán)限的,即可以響應各種車載應用權(quán)限,車載系統(tǒng)則根據(jù)語音命令執(zhí)行相應的應用。再比如說,當車載系統(tǒng)判斷出是后排座位上的麥克風收到了語音命令,由于后排座位的麥克風的權(quán)限僅僅為音樂和廣播應用權(quán)限,如果收到的語音命令是啟動車載導航命令,則報告錯誤,如果收到的語音命令是打開廣播,則按照該語音命令打開廣播。由此可見,本發(fā)明在每個乘客位置處都加裝一個麥克風用于接收語音信號,并將收到的語音信號進行語音識別,從而使車輛內(nèi)的乘客都可以通過語音控制車輛的各種應用。為了避免出現(xiàn)控制混亂現(xiàn)象,對每個不同的麥克風設(shè)置不同的識別權(quán)限,當收到語音命令時,在識別后可根據(jù)不同識別權(quán)限完成相應的功能,因此可以使得車輛內(nèi)的乘客都可以通過語音控制車輛的各種應用,通過權(quán)限的設(shè)置,使得語音控制不會出現(xiàn)混亂的現(xiàn)象。本發(fā)明的第二實施方式涉及一種車載語音控制系統(tǒng),如圖2所示,包括安裝在汽車各個座位上并設(shè)有權(quán)限的麥克風210、語音識別子系統(tǒng)220、確認模塊230和執(zhí)行模塊240 ;所述麥克風210擁有獲取語音命令;所述語音識別子系統(tǒng)220用于對麥克風獲取的語音命令進行識別;所述確認模塊230用于確認收到的語音命令的麥克風;所述執(zhí)行模塊240用于根據(jù)所述麥克風的權(quán)限執(zhí)行相應的語音命令。其中,所述安裝在駕駛座上的麥克風的權(quán)限為各種車載應用權(quán)限,也就是說,安裝 在駕駛座上的麥克風收到駕駛員的任何語音命令車載系統(tǒng)都能夠執(zhí)行,比如啟動車載導航等命令;所述在副駕駛座和后排座位上的麥克風的權(quán)限為音樂和廣播應用權(quán)限,也就是說,副駕駛座和后排座位上的用戶只有在發(fā)出與音樂或廣播相關(guān)的語音命令時車載系統(tǒng)才能執(zhí)行,比如打開廣播的命令等等。所述語音識別子系統(tǒng)包括語音信號預處理與特征提取模塊、聲學模型及模式匹配模塊和語言模型與語言處理模塊;所述語音信號預處理與特征提取模塊用于對語音命令進行預處理和特征提??;所述聲學模型及模式匹配模塊用于將提取的特征同聲學模型進行匹配與比較得到匹配結(jié)果;所述語言模型與語言處理模塊以根據(jù)語言模型對匹配結(jié)果進行處理完成識別。語音信號預處理與特征提取模塊,該模塊是語音識別的第一步。語音識別有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的任務(wù)決定。單詞(句)單元廣泛應用于中 小詞匯語音識別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓練模型任務(wù)繁重,模型匹配算法復雜,難以滿足實時性要求。音節(jié)單元多見于漢語語音識別,主要因為漢語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有大約1300個音節(jié),但若不考慮聲調(diào),約有408個無調(diào)音節(jié),數(shù)量相對較少。因此,對于中、大詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個)和韻母(共有28個)構(gòu)成,且聲韻母聲學特性相差很大。實際應用中常把聲母依后續(xù)韻母的不同而構(gòu)成細化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。語音識別一個根本的問題是合理的選用特征。特征參數(shù)提取的目的是對語音信號進行分析處理,去掉與語音識別無關(guān)的冗余信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。在實際應用中,語音信號的壓縮率介于10-100之間。語音信號包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,響應時間,計算量等。非特定人語音識別系統(tǒng)一般側(cè)重提取反映語義的特征參數(shù),盡量去除說話人的個人信息;而特定人語音識別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時,盡量也包含說話人的個人信息。線性預測(LP)分析技術(shù)是目前應用廣泛的特征參數(shù)提取技術(shù),許多成功的應用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。Mel參數(shù)和基于感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點。實驗證明,采用這種技術(shù),語音識別系統(tǒng)的性能有一定提高。梅爾刻度式倒頻譜參數(shù)已逐漸取代原本常用的線性預測編碼導出的倒頻譜參數(shù),原因是它考慮了人類發(fā)聲與接收聲音的特性,具有更好的魯棒性(Robustness)。聲學模型與模式匹配模塊是將獲取的語音特征使用訓練算法進行訓練后產(chǎn)生。在識別時將輸入的語音特征同聲學模型(模式)進行匹配與比較,得到最佳的結(jié)果。聲學模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學模型的設(shè)計和語言發(fā)音特點密切相關(guān)。聲學模型單元大小(字發(fā)音模型、半音節(jié)模型或音素模型)對語音訓練數(shù)據(jù)量大小、系統(tǒng)識別率,以及靈活性有較大的影響。必須根據(jù)不同語言的特點、識別系統(tǒng)詞匯量的大小決定識別單元的大小。以漢語為例漢語按音素的發(fā)音特征分類分為輔音、單元音、復元音、復鼻尾音四種,按音節(jié)結(jié)構(gòu)分類為聲母和韻母,并且由音素構(gòu)成聲母或韻母。有時,將含有聲調(diào)的韻母稱為調(diào)母。由單個調(diào)母或由聲母與調(diào)母拼音成為音節(jié)。漢語的一個音節(jié)就是漢語一個字的音,即音節(jié)字。由音節(jié)字構(gòu)成詞,最后再由詞構(gòu)成句子。如此 漢語聲母共有22個,其中包括零聲母,韻母共有38個。按音素分類,漢語輔音共有22個,單元音13個,復元音13個,復鼻尾音16個。目前常用的聲學模型基元為聲韻母、音節(jié)或詞,根據(jù)實現(xiàn)目的不同來選取不同的基元。漢語加上語氣詞共有412個音節(jié),包括輕音字,共有1282個有調(diào)音節(jié)字,所以當在小詞匯表孤立詞語音識別時常選用詞作為基元,在大詞匯表語音識別時常采用音節(jié)或聲韻母建模,而在連續(xù)語音識別時,由于協(xié)同發(fā)音的影響,常采用聲韻母建模。基于統(tǒng)計的語音識別模型常用的就是HMM模型。語言模型與語言處理模塊包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計方法構(gòu)成的語言模型,語言處理可以進行語法、語義分析。語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當分類發(fā)生錯誤時可以根據(jù)語言學模型、語法結(jié)構(gòu)、語義學進行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學理論包括語義結(jié)構(gòu)、語法規(guī)貝U、語言的數(shù)學描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識別系統(tǒng)的搜索空間,這有利于提聞系統(tǒng)的識別。值得一提的是,如圖3所示,所述車載語音控制系統(tǒng)還包括錯誤報告模塊250,所述錯誤報告模塊250在所述語音識別子系統(tǒng)識別220失敗時進行錯誤報告。不難發(fā)現(xiàn),本發(fā)明在每個乘客位置處都加裝一個麥克風用于接收語音信號并傳輸至語音識別系統(tǒng)。為了避免出現(xiàn)控制混亂現(xiàn)象,對每個不同的麥克風設(shè)置不同的識別權(quán)限,當收到語音命令時,在識別后可根據(jù)不同識別權(quán)限完成相應的功能,因此可以使得車輛內(nèi)的乘客都可以通過語音控制車輛的各種應用,通過權(quán)限的設(shè)置,使得語音控制不會出現(xiàn)混亂的現(xiàn)象。
權(quán)利要求
1.一種車載語音控制方法,其特征在于,包括以下步驟 (1)在汽車的各個座位上安裝麥克風,并對麥克風設(shè)置權(quán)限; (2)通過麥克風獲取語音命令,并進行識別; (3)確認收到語音命令的麥克風; (4)根據(jù)收到語音命令麥克風的權(quán)限執(zhí)行相應的語音命令。
2.根據(jù)權(quán)利要求I所述的車載語音控制方法,其特征在于,所述步驟(I)中安裝在駕駛座上的麥克風的權(quán)限為各種車載應用權(quán)限。
3.根據(jù)權(quán)利要求I所述的車載語音控制方法,其特征在于,所述步驟(I)中安裝在副駕駛座和后排座位上的麥克風的權(quán)限為音樂和廣播應用權(quán)限。
4.根據(jù)權(quán)利要求I所述的車載語音控制方法,其特征在于,所述步驟(2)中采用模板匹配的方法對語音命令進行識別。
5.根據(jù)權(quán)利要求4所述的車載語音控制方法,其特征在于,所述步驟(2)中如果無法識別語音命令,則報告錯誤,麥克風重新獲取用戶的語音命令。
6.一種車載語音控制系統(tǒng),其特征在于,包括安裝在汽車各個座位上并設(shè)有權(quán)限的麥克風、語音識別子系統(tǒng)、確認模塊和執(zhí)行模塊;所述麥克風擁有獲取語音命令;所述語音識別子系統(tǒng)用于對麥克風獲取的語音命令進行識別;所述確認模塊用于確認收到語音命令的麥克風;所述執(zhí)行模塊用于根據(jù)所述麥克風的權(quán)限執(zhí)行相應的語音命令。
7.根據(jù)權(quán)利要求6所述的車載語音控制系統(tǒng),其特征在于,所述安裝在駕駛座上的麥克風的權(quán)限為各種車載應用權(quán)限。
8.根據(jù)權(quán)利要求6所述的車載語音控制系統(tǒng),其特征在于,所述在副駕駛座和后排座位上的麥克風的權(quán)限為音樂和廣播應用權(quán)限。
9.根據(jù)權(quán)利要求6所述的車載語音控制系統(tǒng),其特征在于,所述語音識別子系統(tǒng)包括語音信號預處理與特征提取模塊、聲學模型及模式匹配模塊和語言模型與語言處理模塊;所述語音信號預處理與特征提取模塊用于對語音命令進行預處理和特征提?。凰雎晫W模型及模式匹配模塊用于將提取的特征同聲學模型進行匹配與比較得到匹配結(jié)果;所述語言模型與語言處理模塊以根據(jù)語言模型對匹配結(jié)果進行處理完成識別。
10.根據(jù)權(quán)利要求9所述的車載語音控制系統(tǒng),其特征在于,所述車載語音控制系統(tǒng)還包括錯誤報告模塊,所述錯誤報告模塊在所述語音識別子系統(tǒng)識別失敗時進行錯誤報告。
全文摘要
本發(fā)明涉及一種車載語音控制方法及系統(tǒng),方法包括在汽車的各個座位上安裝麥克風,并對麥克風設(shè)置權(quán)限;通過麥克風獲取語音命令,并進行識別;確認收到語音命令的麥克風;根據(jù)收到語音命令的麥克風的權(quán)限執(zhí)行相應的語音命令。系統(tǒng)包括安裝在汽車各個座位上并設(shè)有權(quán)限的麥克風、語音識別子系統(tǒng)、確認模塊和執(zhí)行模塊。本發(fā)明使得車輛內(nèi)的乘客都可以通過語音控制車輛的各種應用。
文檔編號G10L15/06GK102800315SQ20121024422
公開日2012年11月28日 申請日期2012年7月13日 優(yōu)先權(quán)日2012年7月13日
發(fā)明者應宜倫, 杜平, 謝小毛 申請人:上海博泰悅臻電子設(shè)備制造有限公司