專利名稱:一種車載語音交互系統(tǒng)的制作方法
一種車載語音交互系統(tǒng)技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種車載語音交互系統(tǒng)。背景技術(shù):
隨著汽車電子技術(shù)的飛速發(fā)展,車載信息娛樂和信息通訊系統(tǒng)正逐漸成為 汽車廠商追捧的熱點。車載信息娛樂和信息通訊系統(tǒng)是為了給汽車提供更多的娛樂、通信及移動辦公功能,它和汽車本身的安全、動力性能并無直接關(guān)系,包括車載通訊系統(tǒng)、電子導(dǎo)航系統(tǒng)(GPS, Global Positioning System)、智能交通系統(tǒng)、車載網(wǎng)絡(luò)、汽車音響系統(tǒng)(車載MP3)、車載電視娛樂系統(tǒng)(車載DVD) 等等。語音交互技術(shù)在這些系統(tǒng)扮演著十分重要的角色,語音交互技術(shù)就是讓機 器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令,實現(xiàn)人與機器的 交流。在車載信息娛樂和信息通訊系統(tǒng)中,采用語音交互技術(shù)利用語音代替手 操作具有安全、方便等優(yōu)點。1、 車載信息娛樂和信息通訊系統(tǒng)的語音控制和交互對于汽車環(huán)境中的移 動終端用戶,基于開車時安全性和便捷性的要求,語音控制取代手操作無疑最 佳的解決方案。語音控制發(fā)出各種質(zhì)量開啟、修改或關(guān)閉信息娛樂和信息通訊 系統(tǒng),語音控制檢索信息娛樂和信息通訊系統(tǒng)的多媒體內(nèi)容,如歌曲、視頻、 電視節(jié)目、導(dǎo)航指令、導(dǎo)航地名等等。2、 車載信息娛樂和信息通訊系統(tǒng)中的語音"免提"通訊通過語音命令接 通手機或其他車載通信設(shè)備,建立通信鏈接后,采用免提通話方式,整個過程 避免手的復(fù)雜操作,同時不需要眼睛離開路面,無疑是最為安全、快捷、方便 的車載通信方式。3、 GPS導(dǎo)航系統(tǒng)的自然語音輸入地名查詢、人機交互等功能隨著城市道 路地方和人員流動性不斷增加,GPS導(dǎo)航技術(shù)成為駕車人士的必備之物。特別 是駕車到陌生的大中城市,GPS導(dǎo)航更成為到達(dá)目的地的必備依賴設(shè)備。采用 語音輸入地名,并且分層人機交互,最終確定目的地將極大的方便GPS的使用,同時可以達(dá)到在開車過程中隨時確定和修改目的地。但是,由于每個用戶的口音各不相同,并且實際車載環(huán)境較為復(fù)雜,要提 高車載語音交互的識別率和識別內(nèi)容,提高其在實際車載環(huán)境下工作的性能, 需要提高車載系統(tǒng)的運算能力。另一方面,基于汽車電子中微處理芯片的硬件資源是有限的,其芯片的運算能力非常有限, 一般只有100MIPS,且不支持浮 點運算;另外芯片的存儲空間也很小, 一般為128K Byte的ROM和32KByte 的RAM。這就導(dǎo)致目前的車載聲控產(chǎn)品的功能單一,語音識別率低,識別內(nèi)容 少而簡單,在實際車載環(huán)境工作的性能差。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種車載語音交互系統(tǒng),以達(dá)到在復(fù)雜真實的車載環(huán) 境下,在硬件資源有限的嵌入式平臺上實現(xiàn)高性能語音交互引擎,以智能人機 交互為核心,實現(xiàn)用自然語音方便地控制與汽車安全行駛無關(guān)的車載信息系統(tǒng) 模塊。為達(dá)到上述目的,本發(fā)明提出以下的技術(shù)方案一種車載語音交互系統(tǒng),包括語音采集模塊,用于采集模擬語音信號,并 轉(zhuǎn)換成數(shù)字語音信號;語音識別核心模塊,用于對輸入的數(shù)字語音信號進(jìn)行概 率計算和搜索匹配,得到語音識別結(jié)果;語音反饋模塊,用于將所述語音識別 結(jié)果以文本或語音的方式與用戶交互;所述語音識別核心模塊包括聲學(xué)模型和發(fā)音字典模塊、上下文不相關(guān)文法 CFG模塊,以及路徑搜索模塊,所述聲學(xué)模型和發(fā)音字典模塊用于根據(jù)統(tǒng)計算 法建立一套對應(yīng)于口音等變化特點的映射對應(yīng)表;所述上下文不相關(guān)文法CFG 模塊,用于構(gòu)建待識別的自然連續(xù)語音的文法和規(guī)則結(jié)構(gòu);所述路徑搜索模塊 用于對計算量最大的觀察概率計算部分進(jìn)行近似簡化。其中,在所述聲學(xué)模型和發(fā)音字典模塊中根據(jù)統(tǒng)計算法建立一套對應(yīng)于 口音等變化特點的映射對應(yīng)表;上下文相關(guān)和上下文不相關(guān)的單元混合使用, 并采用有效的自適應(yīng)和平滑算法;對聲學(xué)模型建立和發(fā)音字典生成采用離線生 成的方式,對傳統(tǒng)的聲學(xué)單元進(jìn)行分類處理;上下文不相關(guān)文法CFG模塊,用于構(gòu)建待識別的自然連續(xù)語音的文法和規(guī) 則結(jié)構(gòu);所述CFG模塊包括規(guī)則單元和子規(guī)則單元,通過使用正則表達(dá)式語言 來描述自然語言;在所述路徑搜索模塊中采用概率動態(tài)剪枝的方法進(jìn)行路徑搜索識別,對 設(shè)計路徑動態(tài)擴展算法和/或多高斯分布近似簡化成單高斯計算進(jìn)行近似簡化; 根據(jù)芯片硬件條件和計算能力,在搜索識別過程中采用改進(jìn)的動態(tài)丟幀以及高 斯分布有選擇計算的算法。優(yōu)選地,所述語音核心模塊還包括-噪聲模型模塊,通過相關(guān)的錄音設(shè)備,在實際的車載環(huán)境下采集數(shù)據(jù)樣本, 對所述數(shù)據(jù)樣本進(jìn)行處理和參數(shù)提取,采用概率統(tǒng)計模型的方法構(gòu)建車載環(huán)境 噪聲模型。優(yōu)選地,所述語音核心模塊還包括口音處理模塊,從訓(xùn)練數(shù)據(jù)和樣本中, 利用統(tǒng)計方法得出適應(yīng)口音處理的模型,并結(jié)合聲學(xué)模型進(jìn)行重建基于口音和發(fā)音特點的變化,建立輔助決策樹聲學(xué)聚類模型,通過輔助樹 中參數(shù)信息描述實際語音中各種變化的特征,再通過聲學(xué)模型重建,將該特征 通過高斯分布和聲學(xué)參數(shù)弓I入;基于統(tǒng)計的數(shù)據(jù)驅(qū)動方法找出訓(xùn)練數(shù)據(jù)中的發(fā)音變異映射,并利用置信度測量對其過濾;對語音層發(fā)音變異混淆度度量,用非對稱距離度量準(zhǔn)則對聲學(xué)層發(fā)音變異 混淆度度量,根據(jù)聲學(xué)層和語音層混淆度高低的分類信息,在語音識別系統(tǒng)中 建立選擇性多發(fā)音字典和采用聲學(xué)模型重建的發(fā)法處理多口音和混合口音中的 發(fā)音變異。優(yōu)選地,還包括語音激活檢測模塊,用于判斷是否為有效的語音或音頻輸入信號,并判斷 是否啟動語音識別引擎。 優(yōu)選地,還包括語音信號定點處理模塊,用于對語音信號進(jìn)行定點處理,大幅度降低計算 消耗;語音參數(shù)提取及降維處理模塊,用于對語音參數(shù)在保證充分的語音信息的情況下,采用LDA方法對多維參數(shù)進(jìn)行壓縮,同時結(jié)合漢語的特點,維持聲調(diào) 維的信息。優(yōu)選地,還包括實時語音端點檢測模塊,用于對語音、噪聲、非正常語 音等輸入響應(yīng)的動態(tài)判斷;對語音信號的進(jìn)行非平均分幀處理和分幀計算;動 態(tài)閾值設(shè)定和調(diào)整。優(yōu)選地,還包括抗噪聲模塊,與所述噪聲模型模塊結(jié)合,采用語音增強 算法,在時域和頻域?qū)φZ音信號進(jìn)行預(yù)處理,利用自適應(yīng)算法和歸一化算法對 語音識別的聲學(xué)模型進(jìn)行噪聲處理,同時采用區(qū)分性訓(xùn)練和混合訓(xùn)練相結(jié)合的 方法進(jìn)行抗噪聲處理。優(yōu)選地,還包括拒識別模塊,用于對相關(guān)的語音控制命令或定義的詞匯/短語進(jìn)行識別,對無關(guān)的語音進(jìn)行拒識別,所述無關(guān)語音包括音樂聲、人群談話聲和環(huán)境噪聲;聲學(xué)模型和垃圾模型的建立、訓(xùn)練、區(qū)分以及在識別過程中 概率比較;語音輸入分幀處理技術(shù),對每一幀語音輸入進(jìn)行識別/拒識別判斷, 并累積概率。優(yōu)選地,還包括識別結(jié)果處理模塊,用于按照需要對識別結(jié)果進(jìn)行處理, 結(jié)合自然語言理解技術(shù),對不同用戶不同的語音輸入方法進(jìn)行自動理解,自然 歸類及模糊匹配技術(shù)。從以上技術(shù)方案可以看出,在本發(fā)明技術(shù)方案中,面對芯片有限的計算能 力和存儲空間,在嵌入式語音識別系統(tǒng)中,簡化語音參數(shù)的維數(shù)并做壓縮處理, 采用動態(tài)幀間重疊方式對語音輸入進(jìn)行分幀處理;對聲學(xué)模型建立和發(fā)音字典 生成采用離線生成的方式,同時,對傳統(tǒng)的聲學(xué)單元進(jìn)行分類處理,達(dá)到識別 率和識別速度以及存儲單元大小的一個平衡;對最關(guān)鍵的路徑搜索識別方法采 用概率動態(tài)剪枝的方法,同時對計算量最大的觀察概率計算部分進(jìn)行近似簡化, 包括設(shè)計路徑動態(tài)擴展算法,多高斯分布近似簡化成單高斯計算等。同時,根 據(jù)芯片硬件條件和計算能力,在搜索識別過程中采用改進(jìn)的動態(tài)丟幀以及高斯 分布有選擇計算的算法,達(dá)到算法和芯片硬件條件相結(jié)合的平衡。同時,高性能語音交互系統(tǒng)包括了獨特的抗噪聲模塊和抗口音變化模塊,可以在實際車載環(huán)境下,不同說話人特點和口音的情況下,仍能進(jìn)行自然語音 交互。語音交互系統(tǒng)采用CFG文法結(jié)構(gòu)的語音識別器,可以接受短語、命令、連 接詞、具有一定文法結(jié)構(gòu)的連續(xù)語音,真正實現(xiàn)自然人機交互過程。在本發(fā)明 的使用中,用戶可以很方面的只使用語音交互系統(tǒng)模塊完成對車載信息系統(tǒng)相 關(guān)模塊的控制和操作,不需要眼和手的參與。在汽車電子附加功能上,讓用戶 充分感覺到以語音交互系統(tǒng)為核心構(gòu)建的車載信息系統(tǒng)具有高智能、方便、安 全、簡單的現(xiàn)代高科技產(chǎn)品。用戶可以在駕車的任何時間,在任何路況和環(huán)境 的情況下,在無需眼和手操作的安全模式下,實現(xiàn)對車載信息系統(tǒng)和與安全駕 駛無關(guān)的模塊的高智能控制。通過本發(fā)明擺脫了以往車載聲控產(chǎn)品的功能單一,識別率低,識別內(nèi)容少 而簡單,在實際車載環(huán)境工作性能差等致命缺點,實現(xiàn)了短語命令、連接詞和 自然語音輸入的人機交互并具有初步的自然語言理解的能力,具有很好的抗各 種車載噪聲和不同用戶口音的能力,可實時分層識別達(dá)到10000詞字典大小的 能力等。通過本發(fā)明完全擺脫了駕車時候操作控制汽車電子附件的危險性和避 免了駕車時分心造成的事故危險性,降低交通事故。
圖1為本發(fā)明系統(tǒng)的基本結(jié)構(gòu)框圖;圖2為本發(fā)明系統(tǒng)優(yōu)選實施例的結(jié)構(gòu)框圖。具體實施方式
下面結(jié)合具體的實施例對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)描述。 本發(fā)明系統(tǒng)主要包括離線部分和在線部分兩部分,離線部分各個模塊的主要功 能是提供語音交互系統(tǒng)工作所必需的資源,保證語音交互系統(tǒng)在實際車載環(huán)境 情況和不同的用戶使用過程中能夠正常工作。在線模塊主要完成語音處理和識 別。語音識別的結(jié)果根據(jù)不同的需要可以反饋用戶或作為輸出的標(biāo)志控制相關(guān) 的車載信息系統(tǒng)模塊。本發(fā)明提供一種車載語音交互系統(tǒng),如圖1所示, 一種車載語音交互系統(tǒng), 包括語音采集模塊,用于采集模擬語音信號,并轉(zhuǎn)換成數(shù)字語音信號;語音識 別核心模塊,用于對輸入的數(shù)字語音信號進(jìn)行概率計算和搜索匹配,得到語音 識別結(jié)果;語音反饋模塊,用于將所述語音識別結(jié)果以文本或語音的方式與用 戶交互;所述語音識別核心模塊包括聲學(xué)模型和發(fā)音字典模塊、上下文不相關(guān)文法 (Context-Free-Grammar, CFG)模塊,以及路徑搜索模塊,所述聲學(xué)模型和發(fā)音字典模塊用于根據(jù)統(tǒng)計算法建立一套對應(yīng)于口音等變化特點的映射對應(yīng) 表;所述上下文不相關(guān)文法CFG模塊,用于構(gòu)建待識別的自然連續(xù)語音的文法 和規(guī)則結(jié)構(gòu);所述路徑搜索模塊用于對計算量最大的觀察概率計算部分進(jìn)行近 似簡化。在所述聲學(xué)模型和發(fā)音字典模塊中根據(jù)統(tǒng)計算法建立一套對應(yīng)于口音等 變化特點的映射對應(yīng)表;上下文相關(guān)和上下文不相關(guān)的單元混合使用,并采用 有效的自適應(yīng)和平滑算法以降低數(shù)據(jù)稀疏的問題;對聲學(xué)模型建立和發(fā)音字典 生成采用離線生成的方式,對傳統(tǒng)的聲學(xué)單元進(jìn)行分類處理;所述上下文不相關(guān)文法模塊用于構(gòu)建待識別的自然連續(xù)語音的文法和規(guī)則 結(jié)構(gòu);所述CFG模塊包括規(guī)則單元和子規(guī)則單元,通過使用正則表達(dá)式語言來 描述自然語言;在所述路徑搜索模塊中采用概率動態(tài)剪枝的方法進(jìn)行路徑搜索識別,對 設(shè)計路徑動態(tài)擴展算法和/或多高斯分布近似簡化成單高斯計算進(jìn)行近似簡化; 根據(jù)芯片硬件條件和計算能力,在搜索識別過程中采用改進(jìn)的動態(tài)丟幀以及高 斯分布有選擇計算的算法。對于聲學(xué)模型模塊,聲學(xué)模型是具有魯棒性的聲學(xué)模型。多高斯分布的 Triphone語音聲學(xué)模型的調(diào)整和重建。目前最先進(jìn)的基于Triphone模型和連續(xù) 隱馬爾可夫模型的語音識別方法,不能全部覆蓋實際用戶不同發(fā)音特點和口音 等造成的復(fù)雜發(fā)音變化。特別是在進(jìn)行數(shù)據(jù)聚類時, 一方面造成Triphone模型 中大量的高斯分布的效率低下甚至成為冗余參數(shù),另外一方面,相當(dāng)多的混合 發(fā)音模式無法用相關(guān)的參數(shù)進(jìn)行表示,聲學(xué)模型的分辨率大幅度下降,從而引起識別器無法給出正確的概率分,造成識別錯誤。為解決此問題,建立魯棒性 的聲學(xué)模型采用的方法是1、 通過統(tǒng)計算法和計算語言學(xué)知識,建立一套對應(yīng)于口音等變化特點的判2、 上下文相關(guān)和上下文不相關(guān)的單元混合使用,并采用有效的自適應(yīng)和平 滑算法以降低數(shù)據(jù)稀疏的問題。對于發(fā)音字典模塊,發(fā)音字典采用基于決策樹結(jié)構(gòu)的多發(fā)音概率字典。基 于嵌入硬件條件,采用離線生成的方式,同時,對傳統(tǒng)的聲學(xué)單元進(jìn)行分類處 理,達(dá)到識別率和識別速度以及存儲單元大小的一個平衡。對于所述語音核心模塊上下文不相關(guān)文法(CFG)模塊,用于構(gòu)建待識別的自然連續(xù)語音的文法和規(guī)則結(jié)構(gòu);所述CFG模塊包括規(guī)則單元和子規(guī)則單元, 通過使用正則表達(dá)式語言來描述自然語言。對于CFG模塊構(gòu)建待識別的自然連續(xù)語音的文法和規(guī)則結(jié)構(gòu)。典型的CFG 文法由兩部分組成規(guī)則和子規(guī)則, 一個CFG文法中可以沒有子規(guī)則,但是必 須存在規(guī)則的定義。規(guī)則可以引用子規(guī)劃, 一個子規(guī)則也可以被另外的子規(guī)則 引用,但是不能出現(xiàn)遞歸引用的情況。這規(guī)則和子規(guī)則體中,通過使用類似"正 則表達(dá)式"語言,描述自然語言。在實際應(yīng)用中經(jīng)常涉及語言的語義描述,例如"香格里拉飯店"和"香格里拉大酒店"是一個概念, 一個語音描述"一百二十六",在計算機中,這個字符串本身不能進(jìn)行數(shù)據(jù)的運算,包括大小比較等操作。通過語義操作可以把它轉(zhuǎn)變?yōu)閿?shù)字"126",就可以進(jìn)行相應(yīng)的操作。為 了方便這方面的處理,在CFG文法中包含了語義操作的功能。CFG文法構(gòu)建的 詳細(xì)樣例如下所示例一-.Rule(_SilName:$Vl 一Sil {"$Vl":person}) Name([總經(jīng)理{王經(jīng)文}王經(jīng)文王總{王經(jīng)文}劉閃張前])) 子規(guī)則變量化處理也可以出現(xiàn)在子規(guī)則中,通過層次性的轉(zhuǎn)遞,最后返回 到規(guī)則中。另外,在規(guī)則中,也可以采用下面的方法處理同一語義不同語言描述的問題,例如,在上面的例子中,"總經(jīng)理"和"王總"都表示一個人"王經(jīng) 文",可以在變化說法的后面直接給出代表的人名"{王經(jīng)文}"。 例二.Price (一Sil Front—filler HotelName:$V RoomType Price End—filler 一Sil {$V:HotelPrice}).PIace( —Sil Front一f川er HotelName:$V Place End—filler—Sil {$V:HotelPlace})Front一filler( [( 請問)想知道])EncLf川er([可以嗎行嗎])HotelName([瑞和飯店牡丹賓館])RoomType([標(biāo)準(zhǔn)間雙人剛)Price([多少錢貴不貴])Place(在[哪里什么地方])_語音交互系統(tǒng)支持以CFG(context-free-grammar)文法為原型語音識別器, 根據(jù)設(shè)定的CFG文法和模板,支持自然語音輸入能力,包括連接詞和具有一定 文法結(jié)構(gòu)的連續(xù)語音。同時采用自然語言理解技術(shù),具有初步理解功能。如理 解"南山科技園附近的湘菜館"的真實用戶命令要求(即"附近"的含義)。語音交互系統(tǒng)還支持單一命令中中英文雙語混合的短語和GPS地名識別及 人名語音識別功能(如打開CD, Sigma大廈)。中文命令,英文命令和中英文 雙語混合命令可以同時存在于同一命令集合。核心算法采用協(xié)同設(shè)計并與芯片硬件條件相結(jié)合的方法嵌入式語音識別系統(tǒng)核心主要由四大部分組成,參數(shù)提取,聲學(xué)模型建立, 發(fā)音字典生成和路徑搜索識別。在本項目中,語音識別核心算法采用目前世界上最流行最常用的基于隱馬爾可夫模型統(tǒng)計算法,基于汽車電子中微處理芯片的有限硬件資源,如CPU運算速度,RAM和ROM的存儲單元大小,釆用協(xié)同設(shè)計 的方法,對核心組件的四大模塊進(jìn)行移植和優(yōu)化。由于芯片的運算能力非常有 限(如只有100MIPS, PC的CPU為3G Hz),芯片的運算能力不到PC的1/30, 并且不支持浮點運算等;芯片的存儲空間很小(如為128K Byte的ROM和32KByte 的RAM, PC—般為512M/1G RAM,硬盤空間相當(dāng)于芯片的ROM,可高達(dá)500G)。面對芯片有限的計算能力和存儲空間,在嵌入式語音識別系統(tǒng)中,簡化語 音參數(shù)的維數(shù)并做壓縮處理,采用動態(tài)幀間重疊方式對語音輸入進(jìn)行分幀處理;對聲學(xué)模型建立和發(fā)音字典生成采用離線生成的方式,同時,對傳統(tǒng)的聲 學(xué)單元進(jìn)行分類處理,達(dá)到識別率和識別速度以及存儲單元大小的一個平衡;對最關(guān)鍵的路徑搜索識別方法采用概率動態(tài)剪枝的方法,同時對計算量最 大的觀察概率計算部分進(jìn)行近似簡化,包括設(shè)計路徑動態(tài)擴展算法,多高斯分 布近似簡化成單高斯計算等。同時,根據(jù)芯片硬件條件和計算能力,在搜索識別過程中采用改進(jìn)的動態(tài) 丟幀(Frame Dropping)以及高斯分布有選擇計算(Gaussian Selection)的 算法,達(dá)到算法和芯片硬件條件相結(jié)合的平衡。 系統(tǒng)軟件工程實現(xiàn)堅持效率優(yōu)先,核心模塊通用化的原則為提高語音識別系統(tǒng)的效率,程序采用模塊化設(shè)計,并以標(biāo)準(zhǔn)C語言書寫 為主,匯編語言為輔的原則。對于運算量大并會反復(fù)調(diào)用的部分,例如語音識 別的參數(shù)提取模塊中的頻域特征計算和抽取,路徑搜索識別模塊中的觀察概率 的計算,結(jié)合芯片硬件的特點,用匯編完成,并給出通用的調(diào)用函數(shù)接口,集 成到標(biāo)準(zhǔn)C程序中。在工程實現(xiàn)中,基于效率優(yōu)先的準(zhǔn)則,對系統(tǒng)的計算進(jìn)行 優(yōu)化,同時采用存儲單元復(fù)用技術(shù)實現(xiàn)在芯片有限存儲空間上保存足夠的聲學(xué) 信息,發(fā)音信息及其他資源信息。本著效率優(yōu)先的原則,嵌入式語音識別系統(tǒng) 采用先進(jìn)的實時處理技術(shù)(基于硬件條件限制,目前很多嵌入式識別系統(tǒng)只能 做到語音輸入完后才能開始進(jìn)行識別)。本系統(tǒng)采用語音信號分幀計算,以及 采用動態(tài)丟幀(Frame Dropping)以及動態(tài)閾值調(diào)整進(jìn)行端點檢測的方法,對 輸入語音進(jìn)行實時計算,大大提高了識別效率和識別速度。另外,嵌入式語音識別的核心采用模塊化的設(shè)計思想和通用接口調(diào)用技術(shù),實現(xiàn)通用化,以及靈 活和可擴展的體系結(jié)構(gòu)。語音識別核心模塊。綜合以上不同流程和模塊,包括離線生成的各種資源模型,如噪聲模型,聲學(xué)模型,CFG文法,發(fā)音字典和口音處理模型等,聯(lián)合 拒識別模塊和輸入的語音參數(shù),對其進(jìn)行概率計算,得到語音識別結(jié)果。對最 關(guān)鍵的路徑搜索識別方法采用概率動態(tài)剪枝的方法,同時對計算量最大的觀察 概率計算部分進(jìn)行近似簡化,包括設(shè)計路徑動態(tài)擴展算法,多高斯分布近似簡 化成單高斯計算等。同時,根據(jù)芯片硬件條件和計算能力,在搜索識別過程中 采用改進(jìn)的動態(tài)丟幀(Frame Dropping)以及高斯分布有選擇計算(Gaussian Selection)的算法,達(dá)到算法和芯片硬件條件相結(jié)合的平衡。如圖2所示,在較優(yōu)的實施例中,本發(fā)明系統(tǒng)的語音識別核心模塊還包括 噪聲模型模塊,通過相關(guān)的錄音設(shè)備,在實際的車載環(huán)境下采集數(shù)據(jù)樣本,對 所述數(shù)據(jù)樣本進(jìn)行處理和參數(shù)提取,采用概率統(tǒng)計模型的方法構(gòu)建車載環(huán)境噪 聲模型。對于噪聲模型模塊,其是適用于車載環(huán)境的噪聲模型。噪聲模型采用統(tǒng)計 的方法構(gòu)建。通過相關(guān)的錄音設(shè)備,在實際的車載環(huán)境下采集大量的數(shù)據(jù)樣本, 包括各種真實的車載環(huán)境和車載信息系統(tǒng)使用環(huán)境,如高速公路/市區(qū)等不同時 速,100公里,80公里,60公里,40公里及以下;不同路況,高速公路路況, 市區(qū)路況等;車內(nèi)不同情況,不同背景聲音,車內(nèi)只有發(fā)動機及汽車駕駛聲音, 音樂背景聲音,不同人員等;汽車窗戶不同狀態(tài)等,完全封閉, 一般及大部分 搖下等情況。通過對數(shù)據(jù)的處理和參數(shù)提取,并采用概率統(tǒng)計模型的方法構(gòu)建 車載環(huán)境噪聲模型,應(yīng)用于語音識別時的抗噪聲處理。在較優(yōu)的實施例中,本發(fā)明系統(tǒng)的語音識別核心模塊還包括口音處理模塊, 從訓(xùn)練數(shù)據(jù)和樣本中,利用統(tǒng)計方法得出適應(yīng)口音處理的模型,并結(jié)合聲學(xué)模 型進(jìn)行重建基于口音和發(fā)音特點的變化,建立輔助決策樹聲學(xué)聚類模型,通過輔助樹 中參數(shù)信息描述實際語音中各種變化的特征,再通過聲學(xué)模型重建,將該特征通過高斯分布和聲學(xué)參數(shù)引入;基于統(tǒng)計的數(shù)據(jù)驅(qū)動方法找出訓(xùn)練數(shù)據(jù)中的發(fā)音變異映射,并利用置信度測量對其過濾;對語音層發(fā)音變異混淆度度量,用非對稱距離度量準(zhǔn)則對聲學(xué)層發(fā)音變異 混淆度度量,根據(jù)聲學(xué)層和語音層混淆度高低的分類信息,在語音識別系統(tǒng)中 建立選擇性多發(fā)音字典和采用聲學(xué)模型重建的發(fā)法處理多口音和混合口音中的 發(fā)音變異。對于口音處理模塊口音處理采用概率統(tǒng)計方法,即從訓(xùn)練數(shù)據(jù)和樣本中, 利用統(tǒng)計方法得出適應(yīng)口音處理的模型,并結(jié)合聲學(xué)模型進(jìn)行重建。如基于口 音和發(fā)音特點的變化,建立輔助決策樹聲學(xué)聚類模型,通過輔助樹中參數(shù)信息 描述實際語音中各種變化的特征,再通過聲學(xué)模型重建,將該特征通過高斯分 布和聲學(xué)參數(shù)引入。基于統(tǒng)計的數(shù)據(jù)驅(qū)動方法找出訓(xùn)練數(shù)據(jù)中的發(fā)音變異映射,并利用置信度測量對其過濾。采用log likelihood ratio test準(zhǔn)則對語音層發(fā)音變 異混淆度度量,用非對稱距離度量準(zhǔn)則對聲學(xué)層發(fā)音變異混淆度度量。根據(jù)聲 學(xué)層和語音層混淆度高低的分類信息,在語音識別系統(tǒng)中建立選擇性多發(fā)音字 典和采用聲學(xué)模型重建的發(fā)法處理多口音和混合口音中的發(fā)音變異。語音交互系統(tǒng)具有特制的口音處理模塊。采用單一識別引擎能同時接受帶 多種口音和普通話輸入對帶有口音的語音輸入自動進(jìn)行口音自適應(yīng),對于混合 口音等,識別率無顯著降低,不超過5%離線處理部分的工作流程為A、 訓(xùn)練聲學(xué)模型對收集到的大量語音先進(jìn)性內(nèi)容標(biāo)注,然后提取隱馬可夫模型(HMM)參數(shù), 為語音和噪聲分別建立一個HMM數(shù)學(xué)統(tǒng)計模型。B、 編譯CFG文法根據(jù)CFG文法規(guī)則編寫好的文法文件,可以經(jīng)由的CFG文法編譯器,生成一個二進(jìn)制的CFG文法文件,供在線處理模塊進(jìn)行語音識別之用。__工作環(huán)境 用戶人數(shù)無限;識別技術(shù)基于隱馬爾可夫模型的嵌入式非特定人語音識別; 識別芯片處理能力要求200MIPS或以上 ROM: 2M字節(jié)或以上 RAM: 1M字節(jié)或以上使用電壓外置電源直流5伏,內(nèi)置電源3.7伏功率不超過600毫瓦識別速度l秒內(nèi);識別效果識別準(zhǔn)確率95%以上使用距離0.5米到1米使用環(huán)境安靜或帶有車內(nèi)關(guān)窗時的噪聲環(huán)境以上是離線部分的模塊,下面介紹在線部分的模塊。一、 語音輸入和輸出模塊錄音模塊用于采集人聲和外界環(huán)境聲音的模擬語音信號,并且通過AD轉(zhuǎn)換器轉(zhuǎn)換成數(shù)字語音信號,供語音識別引擎進(jìn)行處理。放音模塊用于將各種數(shù)字語音信號轉(zhuǎn)換成模擬語音信號,經(jīng)過放大后輸出到喇 叭,反饋給用戶。實現(xiàn)駕車時,無需用手,通過自然語音控制汽車電子產(chǎn)品, 以及通過語音播報,給出電子產(chǎn)品的反饋(如包括短信等)。二、 語音激活檢測模塊,用于判斷是否為有效的語音或音頻輸入信號,并 判斷是否啟動語音識別引擎。三、 語音信號定點處理模塊和語音參數(shù)提取及降維處理模塊。語音信號定點處理模塊用于對語音信號進(jìn)行定點處理,大幅度降低計算消耗基于嵌入式 平臺有限的計算和處理能力,必須對語音信號進(jìn)行定點處理,大幅度降低計算 消耗以達(dá)到識別率和識別速度的平衡。語音參數(shù)提取及降維處理模塊,用于對語音參數(shù)在保證充分的語音信息的情況下,采用LDA方法對多維參數(shù)進(jìn)行壓縮,同時結(jié)合漢語的特點,維持聲調(diào)維的信息語音參數(shù)提取及嵌入式資源環(huán)境下降維處理?;谇度胲囕d硬件條件的限制,對語音參數(shù)在保證充分的語音信息的情況下,采用LDA方法對多維 參數(shù)進(jìn)行壓縮,同時結(jié)合漢語的特點,保留聲調(diào)維的信息不壓縮。四、 實時語音端點檢測模塊,用于對語音、噪聲、非正常語音等輸入響應(yīng) 的動態(tài)判斷;對語音信號的進(jìn)行非平均分幀處理和分幀計算;動態(tài)閾值設(shè)定和 調(diào)整。實時語音端點檢測和處理技術(shù)。動態(tài)語音端點檢測技術(shù),包括對語音、 噪聲、非正常語音等輸入響應(yīng)的動態(tài)判斷;語音信號的非平均分幀處理和分幀 計算技術(shù),包括幀間重疊及實時計算技術(shù);動態(tài)閾值設(shè)定和調(diào)整,避免沖擊信 號的誤觸發(fā)以及無關(guān)信號的干擾,提高系統(tǒng)的抗噪性能。五、 抗噪聲模塊,與所述噪聲模型模塊結(jié)合,針對實際車載噪聲的特點, 采用語音增強算法,在時域和頻域?qū)φZ音信號進(jìn)行預(yù)處理,利用自適應(yīng)算法和 歸一化算法對語音識別的聲學(xué)模型進(jìn)行噪聲處理,同時采用區(qū)分性訓(xùn)練和混合 訓(xùn)練相結(jié)合的方法進(jìn)行抗噪聲處理??乖肼曁幚?。結(jié)合離線處理部分完成的車載環(huán)境噪聲模型,針對實際車載 噪聲的特點,采用語音增強算法,在時域和頻域?qū)φZ音信號進(jìn)行預(yù)處理,去除 噪聲利用自適應(yīng)算法和歸一化算法對語音識別的聲學(xué)模型進(jìn)行處理,增加聲學(xué) 模型的魯棒性和抗噪聲能力,同時采用區(qū)分性訓(xùn)練和混合訓(xùn)練相結(jié)合的方法進(jìn) 行抗噪聲處理。實際車載環(huán)境下(如高速公路/市區(qū)等不同時速,100公里,80 公里,60公里,40公里及以下;不同路況,高速公路路況,市區(qū)路況等;車內(nèi) 不同情況,不同背景聲音,車內(nèi)只有發(fā)動機及汽車駕駛聲音,音樂背景聲音, 不同人員等;汽車窗戶不同狀態(tài)等,完全封閉, 一般及大部分搖下;),車載環(huán)境下高性能的自適應(yīng)麥克風(fēng)陣列、自適應(yīng)回聲消除、混響抑制算法以及整合以上算法和語音識別交互系統(tǒng);車載環(huán)境下的自適應(yīng)回聲消除回聲抑制增益達(dá)到20dB。六、 拒識別模塊,用于對相關(guān)的語音控制命令或定義的詞匯/短語進(jìn)行識別, 對無關(guān)的語音進(jìn)行拒識別,所述無關(guān)語音包括音樂聲、人群談話聲和環(huán)境噪聲;聲學(xué)模型和垃圾模型的建立、訓(xùn)練、區(qū)分以及在識別過程中概率比較;語音輸 入分幀處理技術(shù),對每一幀語音輸入進(jìn)行識別/拒識別判斷,并累積概率。語音交互系統(tǒng)具有智能拒絕功能。對不相關(guān)的語音輸入,噪聲輸入,無關(guān) 的命令等能夠拒絕,不進(jìn)行識別或提示用戶輸入正確語音。正確拒絕率超過90%; 拒識別模塊。只對相關(guān)的語音控制命令或定義的詞匯/短語進(jìn)行識別,對無關(guān)的 語音進(jìn)行拒識別。無關(guān)語音包括各種垃圾聲音(如音樂聲,人群談話聲,環(huán)境 噪聲)等;聲學(xué)模型和垃圾模型的建立、訓(xùn)練、區(qū)分以及在識別過程中概率比 較;語音輸入分幀處理技術(shù),對每一幀語音輸入進(jìn)行識別/拒識別判斷,并累積 概率。七、 識別結(jié)果處理模塊,用于按照需要對識別結(jié)果進(jìn)行處理,結(jié)合自然語 言理解技術(shù),對不同用戶不同的語音輸入方法進(jìn)行自動理解,自然歸類及模糊 匹配技術(shù)。識別結(jié)果處理模塊。按照需要,對識別結(jié)果進(jìn)行不同的處理。同時 結(jié)合自然語言理解技術(shù),對不同用戶不同的語音輸入方法(即對每一個目標(biāo)命 令或連續(xù)語音),進(jìn)行自動理解,并自然歸類。如"南山醫(yī)院","南山區(qū)人民醫(yī) 院","南山區(qū)醫(yī)院""深圳市南山區(qū)人民醫(yī)院","南山的醫(yī)院"等是具有同一概 念的地名。八、 接口模塊嵌入式語音交互系統(tǒng)的模塊化設(shè)計以及與其他模塊的有機 結(jié)合。系統(tǒng)的模塊化設(shè)計。不同模塊間的通訊和互相調(diào)用方法;接口連接,中斷控制,多外圍接口設(shè)計和集成,控制單元和存儲單元的協(xié)同工作。在線處理部分的工作流程為每接收到一幀語音數(shù)據(jù)之后,就啟動語音處理模塊,先進(jìn)行抗噪聲處理, 利用反相波抵消原理進(jìn)行降噪處理,然后將降噪后的語音送入?yún)?shù)提取模塊, 計算得到39維語音參數(shù),再通過LDA降維處理,將維數(shù)降低至16-20維。 根據(jù)離線訓(xùn)練的聲學(xué)模型和噪聲模型的參數(shù)以及指定的CFG文法,語音識別的 核心模塊對16-20維的語音參數(shù)進(jìn)行概率運算,得到一個候選結(jié)果列表。拒識 別模塊對這個候選結(jié)果列表進(jìn)行評分,最后得到一個按分?jǐn)?shù)從高到低排序的候 選結(jié)果列表,如果拒識別模塊判定該條語音為噪音或者非法命令,則返回語音被拒絕的結(jié)果,否則,語音識別引擎從其中選出分?jǐn)?shù)最高的若干個結(jié)果,反饋 給系統(tǒng)接口模塊,系統(tǒng)接口模塊使用文字或語音提示的方式將結(jié)果呈現(xiàn)給用戶 進(jìn)行確認(rèn)。系統(tǒng)對用戶確認(rèn)的結(jié)果,通過硬件接口控制各種GPS、藍(lán)牙、音視頻播放模 塊、移動電話、移動電視等外部設(shè)備。模塊化設(shè)計與實現(xiàn)軟硬件部分全部采用模塊化設(shè)計,硬件部分包括CPU控制和存儲模塊CPU處理器是嵌入式系統(tǒng)的核心器件,用于運行控制 程序和語音識別引擎。系統(tǒng)上電后,CPU處理器就從存儲模塊中讀取程序指令, 根據(jù)特定的流程進(jìn)行運行。錄音放音模塊錄音模塊用于采集人聲和外界環(huán)境聲音的模擬語音信號, 并且通過AD轉(zhuǎn)換器轉(zhuǎn)換成數(shù)字語音信號,供語音識別引擎進(jìn)行處理。放音模塊 用于將各種數(shù)字語音信號轉(zhuǎn)換成模擬語音信號,經(jīng)過放大后輸出到喇叭,反饋 給用戶。實現(xiàn)駕車時,無需用手,通過自然語音控制汽車電子產(chǎn)品,以及通過 語音播報,給出電子產(chǎn)品的反饋(如包括短信等)。通訊模塊通訊模塊用于嵌入式系統(tǒng)和其他外部電子設(shè)備進(jìn)行通訊,使多 個電子設(shè)備連接成一個網(wǎng)絡(luò),以藍(lán)牙模塊微核心,協(xié)同工作。外設(shè)接口模塊外設(shè)接口模塊,用于控制各種外部設(shè)備,比如馬達(dá),LED發(fā) 光管等,使嵌入式系統(tǒng)具備靈活的控制功能。嵌入式語音識別引擎嵌入式語音識別引擎是軟件部分的核心模塊,它對 錄音模塊提供的數(shù)字語音信號進(jìn)行聲學(xué)特征提取,通過語音識別算法與聲學(xué)模 型進(jìn)行比較運算,選取最優(yōu)的識別結(jié)果。嵌入式語音識別引擎針對不同的CPU 處理器進(jìn)行算法優(yōu)化,能夠?qū)崟r運行在各種低端低成本的芯片上。控制程序控制程序用于控制嵌入式系統(tǒng)的任務(wù)調(diào)度和命令控制。硬件設(shè)備驅(qū)動程序硬件設(shè)備驅(qū)動程序為各個硬件模塊提供統(tǒng)一的驅(qū)動支 持,降低開發(fā)維護(hù)成本。以上所述實施例僅表達(dá)了本發(fā)明的幾種實施方式,其描述較為具體和詳細(xì), 但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域 的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和 改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附 權(quán)利要求為準(zhǔn)。
權(quán)利要求
1. 一種車載語音交互系統(tǒng),包括語音采集模塊,用于采集模擬語音信號,并轉(zhuǎn)換成數(shù)字語音信號;語音識別核心模塊,用于對輸入的數(shù)字語音信號進(jìn)行概率計算和搜索匹配,得到語音識別結(jié)果;語音反饋模塊,用于將所述語音識別結(jié)果以文本或語音的方式與用戶交互,其特征在于所述語音識別核心模塊包括聲學(xué)模型和發(fā)音字典模塊、上下文不相關(guān)文法CFG模塊,以及路徑搜索模塊,所述聲學(xué)模型和發(fā)音字典模塊用于根據(jù)統(tǒng)計算法建立一套對應(yīng)于口音等變化特點的映射對應(yīng)表;所述CFG模塊用于構(gòu)建待識別的自然連續(xù)語音的文法和規(guī)則結(jié)構(gòu);所述路徑搜索模塊用于對計算量最大的觀察概率計算部分進(jìn)行近似簡化。
2、 根據(jù)權(quán)利要求1所述的一種車載語音交互系統(tǒng),其特征在于 在所述聲學(xué)模型和發(fā)音字典模塊中根據(jù)統(tǒng)計算法建立一套對應(yīng)于口音等變化特點的映射對應(yīng)表;上下文相關(guān)和上下文不相關(guān)的單元混合使用,并采用 有效的自適應(yīng)和平滑算法;對聲學(xué)模型建立和發(fā)音字典生成采用離線生成的方 式,對傳統(tǒng)的聲學(xué)單元進(jìn)行分類處理;上下文不相關(guān)文法CFG模塊,用于構(gòu)建待識別的自然連續(xù)語音的文法和規(guī) 則結(jié)構(gòu);所述CFG模塊包括規(guī)則單元和子規(guī)則單元,通過使用正則表達(dá)式語言 來描述自然語言;在所述路徑搜索模塊中采用概率動態(tài)剪枝的方法進(jìn)行路徑搜索識別,對 設(shè)計路徑動態(tài)擴展算法和/或多高斯分布近似簡化成單高斯計算進(jìn)行近似簡化; 根據(jù)芯片硬件條件和計算能力,在搜索識別過程中采用改進(jìn)的動態(tài)丟幀以及高 斯分布有選擇計算的算法。
3、 根據(jù)權(quán)利要求2所述的一種車載語音交互系統(tǒng),其特征在于,所述語音 核心模塊還包括噪聲模型模塊,通過相關(guān)的錄音設(shè)備,在實際的車載環(huán)境下采集數(shù)據(jù)樣本, 對所述數(shù)據(jù)樣本進(jìn)行處理和參數(shù)提取,采用概率統(tǒng)計模型的方法構(gòu)建車載環(huán)境 噪聲模型。
4、 根據(jù)權(quán)利要求2所述的一種車載語音交互系統(tǒng),其特征在于,所述語音 核心模塊還包括口音處理模塊,從訓(xùn)練數(shù)據(jù)和樣本中,利用統(tǒng)計方法得出適應(yīng) 口音處理的模型,并結(jié)合聲學(xué)模型進(jìn)行重建基于口音和發(fā)音特點的變化,建立輔助決策樹聲學(xué)聚類模型,通過輔助樹 中參數(shù)信息描述實際語音中各種變化的特征,再通過聲學(xué)模型重建,將該特征 通過高斯分布和聲學(xué)參數(shù)引入;基于統(tǒng)計的數(shù)據(jù)驅(qū)動方法找出訓(xùn)練數(shù)據(jù)中的發(fā)音變異映射,并利用置信度測量對其過濾;對語音層發(fā)音變異混淆度度量,用非對稱距離度量準(zhǔn)則對聲學(xué)層發(fā)音變異 混淆度度量,根據(jù)聲學(xué)層和語音層混淆度高低的分類信息,在語音識別系統(tǒng)中 建立選擇性多發(fā)音字典和采用聲學(xué)模.型重建的發(fā)法處理多口音和混合口音中的 發(fā)音變異。
5、 根據(jù)權(quán)利要求1~4中任一項所述的一種車載語音交互系統(tǒng),其特征在于, 還包括語音激活檢測模塊,用于判斷是否為有效的語音或音頻輸入信號,并判斷 是否啟動語音識別引擎。
6、 根據(jù)權(quán)利要求1 4中任一項所述的一種車載語音交互系統(tǒng),其特征在于, 還包括語音信號定點處理模塊,用于對語音信號進(jìn)行定點處理,大幅度降低計算 消耗;語音參數(shù)提取及降維處理模塊,用于對語音參數(shù)在保證充分的語音信息的 情況下,采用LDA方法對多維參數(shù)進(jìn)行壓縮,同時結(jié)合漢語的特點,維持聲調(diào) 維的信息。
7、 根據(jù)權(quán)利要求1~4中任一項所述的一種車載語音交互系統(tǒng),其特征在于, 還包括實時語音端點檢測模塊,用于對語音、噪聲、非正常語音等輸入響應(yīng)的動 態(tài)判斷;對語音信號的進(jìn)行非平均分幀處理和分幀計算;動態(tài)閾值設(shè)定和調(diào)整。
8、 根據(jù)權(quán)利要求7中任一項所述的一種車載語音交互系統(tǒng),其特征在于,還包括抗噪聲模塊,與所述噪聲模型模塊結(jié)合,采用語音增強算法,在時域和頻 域?qū)φZ音信號進(jìn)行預(yù)處理,利用自適應(yīng)算法和歸一化算法對語音識別的聲學(xué)模 型進(jìn)行噪聲處理,同時采用區(qū)分性訓(xùn)練和混合訓(xùn)練相結(jié)合的方法進(jìn)行抗噪聲處理。
9、 根據(jù)權(quán)利要求8中任一項所述的一種車載語音交互系統(tǒng),其特征在于, 還包括拒識別模塊,用于對相關(guān)的語音控制命令或定義的詞匯/短語進(jìn)行識別,對 無關(guān)的語音進(jìn)行拒識別,所述無關(guān)語音包括音樂聲、人群談話聲和環(huán)境噪聲; 聲學(xué)模型和垃圾模型的建立、訓(xùn)練、區(qū)分以及在識別過程中概率比較;語音輸 入分幀處理技術(shù),對每一幀語音輸入進(jìn)行識別/拒識別判斷,并累積概率。
10、 根據(jù)權(quán)利要求9中任一項所述的一種車載語音交互系統(tǒng),其特征在于, 還包括識別結(jié)果處理模塊,用于按照需要對識別結(jié)果進(jìn)行處理,結(jié)合自然語言理 解技術(shù),對不同用戶不同的語音輸入方法進(jìn)行自動理解,自然歸類及模糊匹配 技術(shù)。
全文摘要
本發(fā)明公開了一種車載語音交互系統(tǒng),包括語音采集模塊、語音識別核心模塊和語音反饋模塊,所述語音識別核心模塊包括聲學(xué)模型和發(fā)音字典模塊、上下文不相關(guān)文法模塊,以及路徑搜索模塊,所述聲學(xué)模型和發(fā)音字典模塊用于根據(jù)統(tǒng)計算法建立一套對應(yīng)于口音等變化特點的映射對應(yīng)表;所述上下文不相關(guān)文法模塊,用于構(gòu)建待識別的自然連續(xù)語音的文法和規(guī)則結(jié)構(gòu);所述路徑搜索模塊用于對計算量最大的觀察概率計算部分進(jìn)行近似簡化。本發(fā)明實現(xiàn)用自然語音(包括命令短語、連接詞和具有一定規(guī)則的連續(xù)語音)對車載信息系統(tǒng)的控制和操作,提高了駕車的安全性能并實現(xiàn)了車載信息系統(tǒng)中與汽車安全行駛和動力性能無關(guān)的智能人機交互。
文檔編號G10L15/193GK101281745SQ20081006735
公開日2008年10月8日 申請日期2008年5月23日 優(yōu)先權(quán)日2008年5月23日
發(fā)明者軼 劉, 楊永勝 申請人:深圳市北科瑞聲科技有限公司;深港產(chǎn)學(xué)研基地產(chǎn)業(yè)發(fā)展中心