欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于語音識別的方法

文檔序號:2831794閱讀:312來源:國知局
專利名稱:用于語音識別的方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于對具有多個表達部分的表達進行語音識別的方法。本發(fā)明此 外涉及一種適于執(zhí)行相應(yīng)方法的語音識別設(shè)備;以及一種計算機程序產(chǎn)品,該計算機程序 產(chǎn)品促使在受程序控制的語音識別設(shè)備上執(zhí)行語音識別方法。
背景技術(shù)
作為對人機接口的補充的用于語音識別的方法有越來越廣泛的應(yīng)用領(lǐng)域。在移動 終端設(shè)備(例如移動電話)的情況下命令識別或者從地址薄中選擇項現(xiàn)在是標準功能范 圍。尤其是也在機動車中使用語音識別系統(tǒng),以便例如得到用于導(dǎo)航裝置的開始和目標設(shè)定。 常用的語音識別方法例如基于所謂的隱馬爾可夫模型 (Hidden-Markov-Modellen),該隱馬爾可夫模型雖然使得能夠進行不依賴于講話者的語音 識別,然而造成了高的計算花費。因為尤其是在機動車中經(jīng)常使用只具有有限計算和存儲 資源的所謂的嵌入式系統(tǒng)作為計算機,所以必須經(jīng)常執(zhí)行簡化了的語音識別。尤其是對用 于待辨識的搜索項的搜索空間的限制一般導(dǎo)致對計算性能和存儲容量的較低要求。但是, 相應(yīng)的搜索空間限制以及因此對資源的節(jié)約經(jīng)常伴隨有不太可靠的語音識別和/或用戶 的不太舒適的操作。 在DE 10207895A1中例如說明了一種用于語音識別的方法,其中對于多部分表達 或命令的輸入提出逐級的語音識別。在那里規(guī)定,例如在輸入城市名稱并且隨后輸入街道 名稱的情況下,首先對具有所說出的街道名稱的單個表達進行語音識別,該語音識別作為 命中列表(Trefferliste)在顯示器上被顯示給用戶。然后,在用戶確認之后,可以為另一 語音識別確定適合于該城市名稱的第二詞匯表,該第二詞匯表比城市名稱和街道名稱的組 合造成更小的存儲器需求。然而,不利的是,用戶必須首先記錄對于城市名稱的識別結(jié)果, 并且必須手動地從命中列表中進行選擇。 此外,特別期望的是,在唯一的對于用戶來說可感覺到的步驟中借助于語音識別 來識別完整的地址輸入并且向用戶直接顯示全部目標地址的選擇,其中該地址輸入例如包 括城市名稱、街道名稱以及名牌號碼。通常,待識別的表達的相應(yīng)延長由于有許多表達部分 (城市名稱、街道名稱、門牌號碼)而伴隨有對相應(yīng)語音識別設(shè)備的存儲性能和計算性能明 顯更高的要求。所以,在過去,盡可能只通過語音識別來識別短的命令或者命令序列并且示 出給用戶。

發(fā)明內(nèi)容
因此,本發(fā)明的任務(wù)是,提供一種改進的用于語音識別的方法。
該任務(wù)通過根據(jù)權(quán)利要求1的用于語音識別的方法來解決。 相應(yīng)地提供一種用于對具有多個待識別的表達部分的待識別的表達進行語音識 別的方法。在此,首先對所選擇的第一表達部分執(zhí)行部分語音識別,并且根據(jù)通過部分語音
4識別所識別出的針對第一表達部分的命中詞選擇來執(zhí)行對表達的第一和其它表達部分的語音識別。 雖然待識別的表達包括多個不同的表達部分,例如由城市名稱加街道名稱加門牌號碼所組成的目標地址的說出,但是不必要的是,用戶對確定的表達部分或者所識別出的表達部分進行確認。因為首先從總體表達中選擇一個表達部分,所以可以根據(jù)上下文使用針對部分語音識別的、例如主要涉及城市名稱的較小的詞匯表。從第一部分語音識別的對于用戶來說感覺不到的中間結(jié)果中得出相應(yīng)的上下文。通過部分語音識別所識別出的命中詞選擇使得能夠例如使總體表達重新經(jīng)受語音識別,所述語音識別由于通過部分語音識別的預(yù)先選擇而相對于由城市名稱、街道名稱和門牌號碼所組成的所有可能組合需要明顯減小了的詞匯表。也隨之出現(xiàn)對存儲容量和計算容量的較低要求。 在該方法的變型方案中,借助于隱馬爾可夫模型來使第一表達部分經(jīng)受部分語音識別。在此,利用填充數(shù)據(jù)來覆蓋其余的表達部分以用于部分語音識別。也被稱為垃圾數(shù)據(jù)的所述填充數(shù)據(jù)只造成用于創(chuàng)建根據(jù)隱馬爾可夫模型的相應(yīng)的詞匯表的小的存儲需求和計算需求。如果例如待識別的部分表達位于表達的開始,如在通過城市名稱來輸入地址的情況下那樣,則在隱馬爾可夫模型的范圍內(nèi)利用數(shù)據(jù)庫的已知城市名稱來訓(xùn)練一定數(shù)目的在時間上首先得到的音素,而利用垃圾或者填充音素來訓(xùn)練其它的所得到的表達部分。在第二語音識別步驟中,可以通過由搜索詞匯、例如街道名稱所構(gòu)成的搜索詞來代替在第一部分語音識別步驟中利用填充數(shù)據(jù)所占用的表達部分。因此,在總體表達經(jīng)受語音識別的第二語音識別步驟中,已經(jīng)可以明顯限制詞匯表,因為只需通過隱馬爾可夫模型與針對借助于部分語音識別所識別出的第一表達部分的命中詞選擇一致的可能的搜索項進行建模。原則上,第一語音識別級所基于的第一表達部分位于什么時間位置在此不起任何作用。即使待識別的第一表達部分由其它表達部分包圍的表達也可以通過根據(jù)本發(fā)明的語音識別方法來處理。 此外可以使第一表達部分通過確定總體表達在時間上的能量變化被識別出并且經(jīng)受部分語音識別。 一般,表達部分可以通過可檢測到的講話暫停來相互分開,從而表達的在某些時刻特別低的能量可以用作表達部分之間的間隙的指示器。還可以使用公知的語音活動識別方法以用于確定表達中的第一表達部分。 優(yōu)選地,用于語音識別的方法包括下列方法步驟中的一個或者多個
-記錄(Aufnehmen)表達,所述表達包括多個表達部分; _提供第一詞匯表,所述第一詞匯表包括由搜索詞、音素組合和/或轉(zhuǎn)移概率組成的第一列表;-借助于所提供的第一詞匯表來執(zhí)行對所記錄的表達的所選擇的第一表達部分的部分語音識別以用于從搜索詞列表中確定命中詞選擇;-根據(jù)命中詞選擇提供第二詞匯表,其中所述第二詞匯表包括由多個搜索詞的搜索詞組合、音素組合和/或轉(zhuǎn)移概率所組成的列表;-借助于所述第二詞匯表來執(zhí)行對所記錄的表達的語音識別以用于從搜索詞組合列表中確定命中詞選擇。 對表達的記錄例如可以通過麥克風和連接在后面的模擬/數(shù)字轉(zhuǎn)換器來進行,所述模擬/數(shù)字轉(zhuǎn)換器為其它的計算單元、例如嵌入式系統(tǒng)中的CPU提供數(shù)字表達。第一詞匯表例如通過控制裝置或者計算裝置來創(chuàng)建,所述控制裝置或者計算裝置對具有搜索詞和該搜索詞的相應(yīng)音素標注(Phonemtranskription)的數(shù)據(jù)庫進行訪問。語音識別詞匯表的提供通常要求高的計算性能和/或用于中間存儲對于語音識別來說可讀取并可處理的詞匯表的大量的存儲空間,其中所述語音識別例如是以軟件實施的形式存在的。
在與現(xiàn)有技術(shù)不同不通過由用戶進行的驗證或者確認來發(fā)起的第二語音識別步驟中,向第二詞匯表添加關(guān)于來自部分語音識別的命中詞的其它信息。這例如可以包括創(chuàng)建詞匯表,所述詞匯表向來自部分識別步驟的所識別出的最佳城市名稱附加相應(yīng)的符合的街道名稱。 例如可設(shè)想,存在包括一個國家的所有城市名稱以及所有街道名稱和所屬門牌號碼的數(shù)據(jù)庫。除了填充數(shù)據(jù)之外,對于部分語音識別來說必要的第一詞匯表只須訪問作為上位概念的城市或者地點名稱。然后,作為第二語音識別步驟中的其它概念,附加街道名稱和門牌號碼作為下位概念。但是,并不是所有可從數(shù)據(jù)庫中提取出的街道名稱都對于語音識別來說是相關(guān)的,而是只有那些被分配給作為上位概念的城市名稱的并且被部分語音識別辨識為命中詞的街道名稱才是相關(guān)的。 有利地,在根據(jù)本發(fā)明的用于語音識別的方法的變型方案中,在讀入第二詞匯表之前,從存儲器中刪除第一詞匯表。因此,尤其是在嵌入式系統(tǒng)的情況下保證了高效的存儲器利用。 為了更高效地利用相應(yīng)語音識別系統(tǒng)的資源,規(guī)定該語音識別方法的另一種變型方案,即在首先執(zhí)行的部分語音識別的情況下所確定的表達和/或表達部分的特征在對其它表達部分和/或總體表達進行語音識別的情況下被再次使用。 尤其是考慮在部分語音識別或者詞匯表創(chuàng)建的情況下所計算的MFCC特征和/發(fā)射概率。MFCC( = Mel Frequency C印stral Coefficients,Mel頻率倒譜系數(shù))被理解為所得到的音頻表達的可計算的特征。根據(jù)普遍公知的方法進行對MFCC的確定,所述方法可以由語音識別系統(tǒng)的相應(yīng)的經(jīng)過編程的CPU來執(zhí)行。因此,在對總體表達的第二語音識別步驟中的再次使用例如減少了語音識別的計算花費。同樣可以使用MFCC的變型或者衍生。
本發(fā)明還提供一種具有權(quán)利要求18的特征的語音識別設(shè)備。 所述語音識別設(shè)備優(yōu)選地具有耦合到數(shù)據(jù)庫裝置上的控制裝置和存儲器裝置。在此,數(shù)據(jù)庫裝置提供詞匯表的搜索詞和/或該搜索詞的音素標注。數(shù)據(jù)庫裝置例如可以被設(shè)計為移動存儲器,例如DVD、SD存儲卡、USB棒、CD-ROM或者其它公知的存儲裝置。用于導(dǎo)航系統(tǒng)或者其它語音識別應(yīng)用的相應(yīng)的數(shù)據(jù)庫例如以SAMPA格式來運行。在此,SAMPA代表SpeechAssessment Method Phonetic Alphabet (語音評價方法音標字母)。這對應(yīng)于音標字母,其將機器可讀編碼表示為語音學(xué)字母的ASCII符號。 此外,本發(fā)明提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品促使在受程序控制的語音識別設(shè)備上執(zhí)行用于語音識別的前述方法。在此,可設(shè)想例如以在計算機可讀的數(shù)據(jù)載體上存儲的計算機程序的形式來實現(xiàn)該計算機程序產(chǎn)品。例如可以考慮CD-ROM、軟盤、DVD、USB棒、存儲卡或者其它存儲裝置以及由服務(wù)器提供可下載的文件。


本發(fā)明的其它有利的擴展方案和改進方案是從屬權(quán)利要求以及下述實施例的主題。此外,參照附圖借助于實施例進一步闡述本發(fā)明。在此
圖1示出語音識別設(shè)備的示意性框圖; 圖2示出用于語音識別的方法的第一變型方案的流程 圖3示出用于語音識別的方法的第二變型方案的流程 圖4示出多部分表達的示意性表示;
圖5示意性示出搜索詞數(shù)據(jù)庫的分層結(jié)構(gòu); 圖6a,6b示出在執(zhí)行用于語音識別的方法時語音識別設(shè)備中的時序圖的實例。
具體實施例方式
在實施例中,相同或功能相同的元件配備有同樣的附圖標記,除非另有說明。
圖1示出語音識別設(shè)備1的示意性框圖。語音識別設(shè)備1例如可以被實施為用于汽車應(yīng)用(例如用于導(dǎo)航系統(tǒng))的嵌入式系統(tǒng)。設(shè)置有控制裝置2、例如微處理器或者CPU,該控制裝置2優(yōu)選地是可編程的并且具有內(nèi)部存儲器、例如緩沖存儲器13。此外設(shè)置有存儲器裝置5,該存儲器裝置5例如具有RAM存儲器6和ROM存儲器7。 ROM存儲器例如可以具有用于CPU 2的操作系統(tǒng)或者控制程序。存儲器5和CPU 2相互耦合,這在圖1中作為通信和數(shù)據(jù)總線3示出。在此可設(shè)想,將數(shù)據(jù)庫4例如安放在車輛的行李箱中并且在CPU2與數(shù)據(jù)庫4之間經(jīng)由車輛總線系統(tǒng)(例如I2C總線)來進行數(shù)據(jù)通信。還可設(shè)想,傳輸數(shù)據(jù)庫4中的某些數(shù)據(jù)記錄以用于暫時在存儲器裝置5的RAM存儲器中形成語音識別詞匯表。 此外,在通信和數(shù)據(jù)總線3上耦合有模擬/數(shù)字轉(zhuǎn)換器9,在該模擬/數(shù)字轉(zhuǎn)換器9上連接有麥克風8。因此,表達A由麥克風8記錄并由模擬/數(shù)字轉(zhuǎn)換器9以數(shù)字化形式提供??刂蒲b置或CPU 2協(xié)調(diào)在存儲器5中的存放。此外,語音識別設(shè)備l可以具有輸入裝置10和輸出裝置11。這例如在實施GUI (Graphic User Interface,圖形用戶界面)時被實現(xiàn)。作為輸入裝置,可以考慮例如鍵盤、旋鈕或者其它觸覺輸入裝置。作為輸出裝置ll,例如顯示器或者語音輸出是可能的。 尤其是CPU 2、存儲器5和模擬/數(shù)字轉(zhuǎn)換器9連同合適的數(shù)據(jù)通信總線3經(jīng)常被實施為嵌入式系統(tǒng)。在此希望盡可能少的制造和空間花費,以便相應(yīng)的CPU或者微處理器通常以從300至600MHz的時鐘頻率來運行。然而,還可設(shè)想其它值。作為RAM存儲器,經(jīng)常是64至128MB存儲元件就足夠了 。這些鑒于CPU 2的計算容量和存儲資源5的有限資源決定了一種特別節(jié)省資源的用于語音識別的方法。 然而,各個表達部分的順序輸入和確認(例如,首先是城市,并且在進一步的輸入請求之后是街道名稱和門牌號碼形式的地址)是麻煩的,雖然由此可以限制在語音識別時要使用的詞匯表的大小。 在圖2中示出了用于對多部分表達進行語音識別的改進方法的示意性流程圖。在此圖解說明兩級方法,其中首先在步驟S1中或者在識別級S1中進行部分語音識別,然后在隨后級S2中進行總體語音識別。 在第一步驟SI中,識別被限制于總體表達的一個表達部分,并且其余的表達部分例如通過垃圾模型(Milllmodell)或者填充數(shù)據(jù)來覆蓋。以為導(dǎo)航系統(tǒng)輸入目標地址為例,在第一識別步驟S1中,通過部分語音識別只在主動詞匯表(aktives Vokabular)中保持城市名稱。街道名稱和門牌號碼通過垃圾模型或者填充音素來建模。這例如可以在隱馬爾可夫模型的范圍內(nèi)進行。 在用于語音識別的隱馬爾可夫模型(HMM)中,觀察在音素序列中從一個音素到下一音素的轉(zhuǎn)移概率。音素是語音系統(tǒng)的有意義區(qū)別的最小單元。在此,隱馬爾可夫模型由參數(shù)A = (A, B, n )表征,其中A = {aij}表示從一個(隱蔽的)狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率,n = {nj表示狀態(tài)i的開始概率,并且B二 {bj表示觀察i的概率,其中相應(yīng)的狀態(tài)i在時刻t發(fā)射觀察0t。在隱馬爾可夫模型中,音素序列被記錄并且概率被確定,以該概率根據(jù)HMM可以產(chǎn)生所記錄的音素變化(Phonemverlauf)。在此,每個HMM例如對應(yīng)于一個類,因此可以通過選出最高概率來將所記錄的音素序列分配給一個類或一個詞或者詞序。
借助于公知的隱馬爾可夫技術(shù)可以實現(xiàn)不依賴于講話者的語音識別。為此,訓(xùn)練針對語音的音素的隱馬爾可夫模型。在此,一般使用在語音識別環(huán)境中所記錄的大的搜索詞,該搜索詞被記錄到數(shù)據(jù)庫中。相應(yīng)的數(shù)據(jù)庫具有例如城市名稱的搜索詞和音素標注。公知的是例如SAMPA標注。于是,在通常的語音識別算法中,依賴于上下文、例如通過三音子來對音素進行建模。在此,根據(jù)前面的音素和后續(xù)的音素對當前音素有區(qū)別地進行建模。
通常,動態(tài)地生成用于語音識別算法或者相應(yīng)設(shè)立的語音識別裝置的詞匯表,其中語音識別裝置例如是圖1中通過操作系統(tǒng)或者控制程序所設(shè)立的CPU2。為此,首先必需說明待識別的搜索詞的音素序列并且以對于語音識別來說可理解的形式來編譯。即,將從數(shù)據(jù)庫4中提取出的搜索詞的音素序列轉(zhuǎn)換為狀態(tài)序列。在此,搜索詞的數(shù)量越大,則在例如通過CPU2來進行詞匯表創(chuàng)建時計算花費就越多。對于第一語音識別級、也就是部分語音識別的步驟Sl,這只針對例如位于德國的城市名稱來執(zhí)行。這大約有70000個搜索詞。對于第二級中或步驟S2中的總體語音識別,重新創(chuàng)建識別詞匯表,然而該識別詞匯表在輸入目標地址的該實例中不必再包括所有可能的街道名稱和城市名稱以及門牌號碼,而是明顯地有所減少。在德國存在大約370000個街道名稱。然而,通過對街道名稱進行部分語音識別的第一識別級將該數(shù)目從370000個搜索詞減少到只剩200到15000個詞。如果例如在第一步驟S1中確定N個命中詞,則在第二步驟中僅僅編排用于執(zhí)行語音識別的如下詞匯表所述詞匯表包括對于N個命中城市名稱來說相關(guān)的街道名稱。在每個城市名稱平均有30個街道的情況下,在對于城市有N = 10個命中詞時,得出在200個至15000個詞之間的詞匯表。在此,柏林以13000個街道被認為是最大的城市。 因此,在用于對所得到的具有多個表達部分的表達進行總體語音識別的第二語音識別步驟S2的情況下, 一般需要比在第一部分語音識別步驟Sl中更小的詞匯表,因為在第二步驟S2中僅僅顧及N個最佳的城市名稱。此外,在語法方面可以顧及城市名稱與所屬街道名稱之間的其它邏輯聯(lián)系。例如有可能的是,在具有不同城市名稱的不同城市中,雖然存在同樣的街道名稱,但是門牌號碼的數(shù)目不同??梢栽谡Z法方面針對語音識別來實施這種邏輯聯(lián)系。 為了進一步改進識別詞匯表的創(chuàng)建,有可能的是,已分配有特別大數(shù)目的街道名稱的用于城市名稱的街道詞匯表已經(jīng)被預(yù)編譯并且被中間存儲。只具有少數(shù)街道(例如少于可預(yù)先給定的閾值)的城市一般具有較小的街道詞匯表,也可以在線地在運行語音識別時創(chuàng)建該街道詞匯表。然而,在對街道詞匯表進行預(yù)編譯的情況下,從CPU方面較快的訪問是有可能的。此外,由此減少相應(yīng)語音識別系統(tǒng)的存儲需求,因為只存儲特別大的詞匯表,
8庫中詢問音素來在線地直接創(chuàng)建。 在圖3中示出了用于語音識別的兩級方法的變型方案。在第一步驟T1中記錄表達。這例如可以借助圖1中所示的語音識別系統(tǒng)通過麥克風8與模擬/數(shù)字轉(zhuǎn)換器9來進行。相應(yīng)數(shù)據(jù)可以以數(shù)字方式被存放在存儲器5中,并且在此優(yōu)選地被存放在RAM存儲器6中。在此,存儲過程可以由被設(shè)計為可編程的并且由R0M存儲器7中的操作系統(tǒng)控制的CPU2來協(xié)調(diào)。 在后續(xù)步驟T2中,加載或在線地創(chuàng)建部分詞匯表。為此,搜索詞(例如城市名稱)及其相應(yīng)的音素標注從數(shù)據(jù)庫4被加載并且被存放在存儲器6中。然后,在步驟S1中創(chuàng)建相應(yīng)的部分詞匯表以用于執(zhí)行真正的語音識別或部分語音識別。 如已經(jīng)在開始時所闡述的那樣,在例如借助于HMM模型來執(zhí)行語音識別算法時,可以用填充數(shù)據(jù)來覆蓋表達部分,在這些表達部分處預(yù)計存在首先是不相關(guān)的街道名稱和門牌號碼。 在圖4中示意性地示出了具有不同表達部分Al-A5的表達A。圖形表示示出由麥克風所記錄的聲波隨時間t變化的振幅。用戶例如輸入完整的搜索項"Mtochen(慕尼黑)Otto-Hahn-Ring(環(huán)路)Sechs(六號)"。該地址說明可以被領(lǐng)會為五部分的表達A。在此,城市名稱"Miinchen"對應(yīng)于第一表達部分Al, "Otto"對應(yīng)于第二表達部分A2, "Hahn"對應(yīng)于第三表達部分A3, "Ring"對應(yīng)于第四表達部分A4,并且門牌號碼"Sechs"對應(yīng)于第五表達部分A5。在此,語音輸出"Milnchen"從時刻^持續(xù)到時刻t2,"0tto"從時刻t2持續(xù)到t3, "Hahn"從時刻t3持續(xù)到t4, "Ring"從時刻t4持續(xù)到t5,并且"Sechs"從時刻t5持續(xù)到 存在辨識表達部分的不同可能性。例如,可以創(chuàng)建HMM模型,其中假設(shè)第一表達部分A1對應(yīng)于城市名稱,由此示出其余表達部分、即街道和門牌號碼的上位概念。在此例如可以創(chuàng)建所謂的"垃圾模型(Garbage-Modelle)",該垃圾模型具有數(shù)據(jù)庫中的城市名稱的音素、例如"Mtochen"和其它的填充數(shù)據(jù)音素。例如可以對用于語音識別的不同路徑進行建模 .. ............ 〈Miinchl ingen〉〈Miil 1〉〈Miil 1〉〈Miil 1〉〈Miil 1>
〈Mtochh£iusenXMiillXMiill> 在對應(yīng)于表達、即在一個句子中并且沒有中斷地輸入完整的目標地址的、完整的音素序列中,預(yù)計不對應(yīng)于城市名稱的音素部分被填充數(shù)據(jù)覆蓋。這在關(guān)于圖4示出的實例中可以是那些跟隨在預(yù)先給定數(shù)目的開始音素之后的表達部分。通過建立用于語音識別的相應(yīng)HMM模型,其中只顧及相關(guān)的表達部分、即對于第一步驟來說相關(guān)的第一表達部分A1,可以使用比對于HMM模型來說小得多的詞匯表并且因此較小的存儲空間,其中該HMM模型必須顧及所有表達部分A1-A5的所有音素。 還可設(shè)想,通過對表達進行能量測量來確定不同表達部分A1-A5的開始和結(jié)束。在所說出的詞之間,經(jīng)常出現(xiàn)暫?;蛘咚a(chǎn)生的聲音的特別小的能量。在圖4中特別在時刻^,^,^,^,^和te情況如此。這種最小量的確定因此可以用于確定不同表達部分之間的界線。然而,還公知其它標準化的語音活動識別。為了確定詞界線,使用所謂的VAD (VoiceActivity Detection,語音活動檢測)方法。原則上,對于第一語音識別步驟Sl而言用于
9確定相應(yīng)表達部分的任意方法都是有可能的。 通常的語音識別方法具有連續(xù)的步驟,如特性或特征計算、發(fā)射計算以及搜索。在特征計算的情況下,所得到的音頻信號被轉(zhuǎn)換為特征、例如MFCC特征??梢詮囊纛l信號中提取該一般被標準化的特征以用于真正的語音識別。可以例如通過將所得到的音頻信號或所得到的表達首先劃分為塊或者窗來計算MFCC。然后,對每個窗執(zhí)行傅立葉變換并且生成幅度譜(Betragspektrum)。對該幅度譜求對數(shù),以便模仿人類的聽覺。在一般情況下大量的出現(xiàn)的頻帶被組合為少量頻帶、例如40個頻帶。然后,執(zhí)行離散余弦變換或者進行主分量分析。普遍公知MFCC的計算。 在隨后的語音識別步驟中,將所計算的特征(例如MFCC)與通過HMM所產(chǎn)生的向
量進行比較。由此得出HMM中的段的偏移的間隔或者度量。這也被稱為發(fā)射或者發(fā)射概率。
語音識別所基于的詞匯表具有狀態(tài)序列,該狀態(tài)序列具有段的相互連接。在最后的搜索步
驟中,為了從詞匯表或搜索詞匯中確定識別結(jié)果或者命中詞,執(zhí)行基于識別詞匯表的發(fā)射
并且在必要時基于語法或者語音模型的搜索。為了在HMM模型的詞匯表中辨識所得到的表
達或所得到的表達部分,例如可以進行樹型搜索,但是也可設(shè)想其它搜索算法。 因此,步驟S1中的部分語音識別提供對于城市名稱具有N個列表一致
(ListenUbereinstimmung)的命中列表。在圖5中,這在左側(cè)被示出。作為可能的命中詞,
部分語音識別得出例如"Miinchen"Hl, "Miinchlingen"H2和直到"Miinchhausen" HN的其它項。 參照圖3,現(xiàn)在在步驟T3中可以從存儲器中刪除詞匯表。在步驟T4中,現(xiàn)在創(chuàng)建用于語音識別方法的第二級的另一詞匯表并且將其寫入存儲器中。通過讀出屬于命中詞H1-HN的城市名稱的街道名稱來創(chuàng)建相應(yīng)的識別詞匯表。 在圖5的中間列中,對于第一命中詞Milnchen H1需要M個街道名稱。在相應(yīng)地分層組織的數(shù)據(jù)庫中,為"Miinchen" Hl例如分配有項SN11-SNIM。對于次優(yōu)命中詞H2 "Miinchlingen",在數(shù)據(jù)庫中存在O個街道名稱SN21-SN20。對于第N個命中詞HN "Miinchhausen",在數(shù)據(jù)庫中存在項SNN1-SNNP。此夕卜,為了識別目標輸入"MiinchenOtto-Hahn-Ring 6"的完整語音識別,還需要各個街道名稱SN11-SN1M, SN21-SN20和SNN1-SNNP的門牌號碼。在此不需要為每個街道名稱使用詞匯表的最大可能數(shù)目的門牌號碼。更確切地說,可以顧及,例如Miinchen中的ArabellastaP e SN11具有100個門牌號碼NB111-NB11Q,其中Q = 100。在另一城市中,另一數(shù)目的門牌號碼是可能的。MiinchenHl中的Zweigweg SN1M例如只具有四個門牌號碼NB1M1-NB1MR,其中R = 4。
類似地,用于總體語音識別、即總體表達A的詞匯表只利用搜索詞(即城市名稱、街道名稱和門牌號碼)的組合來編排和編譯,如根據(jù)第一部分語音識別結(jié)果、即命中詞H1-HN所需的。通過用于識別總體表達A的識別詞匯表的這種劇烈減小,可以利用資源短缺的計算機系統(tǒng)或者在資源短缺的計算機系統(tǒng)上進行實施。此外,通過減少數(shù)據(jù)庫4與嵌入式系統(tǒng)14之間的待傳輸?shù)臄?shù)據(jù),用于初始化語音識別的傳送時間也更短。
然后,在隨后的總體語音識別步驟S2中,例如通過HMM語音識別來獲得具有命中詞的相應(yīng)結(jié)果。這在步驟T5中例如通過諸如顯示器的輸出裝置示出給用戶。由于在步驟S2中的總體語音識別的情況下有限的搜索空間、即專門預(yù)先給定的減小的詞匯表,識別速率也特別高,因為通過在第二級中對識別詞匯表的專門選擇和創(chuàng)建,不合邏輯的或者不可
10能的搜索詞組合被排除在外或者至少受到抑制。 為了進一步減少CPU2的計算負荷,此外可以規(guī)定再次使用在步驟S1的部分語音識別中已經(jīng)進行過的計算、例如特征(諸如MFCC)的確定,并且在步驟S2中的詞匯表創(chuàng)建和/或總體語音識別時顧及到該計算。來自第一部分語音識別步驟Sl的特征或者發(fā)射概率可以被中間存儲并且在第二總體語音識別步驟S2中被再次使用。由此避免將會是冗余的多重計算。 除了在用于機動車的導(dǎo)航系統(tǒng)中進行目標輸入的實例以外,還可設(shè)想其它的應(yīng)用可能性。例如可以在應(yīng)該是受語音控制的MP3播放器或者一般的音頻再現(xiàn)裝置的情況下,讓用戶說出由藝術(shù)家、專輯和標題組成的完整語句,并且首先對涉及藝術(shù)家的表達部分進行部分語音識別。然后,在第二語音識別步驟中,明顯減小了的識別詞匯表范圍是有可能的。用戶在任何情況下都不必將總體表達手動地分成單個部分或者確認各個表達部分。在此,在待識別的許多部分或多部分的表達的情況下,所示出的方法使得能夠進行特別舒適的并且用戶有好的語音識別。 圖6A和6B示出根據(jù)本發(fā)明的變形方案的兩級語音識別方法的可能的時序圖。在此,時間軸從上向下延伸,其中四條平行虛線被動作或方法步驟占用,這些動作或方法步驟由語音識別系統(tǒng)或語音識別設(shè)備的不同的元件或者裝置(如例如在圖1中所示出的)來執(zhí)行。 對此示出語音識別單元2,該語音識別單元2例如可以由CPU連同合適的程序設(shè)計例如通過R0M存儲器7中的語音識別軟件來實現(xiàn)。為了簡便起見,該方框配備有附圖標記2。為共同使用的存儲器、例如RAM存儲器6分配第二條垂直的虛線。為如下單元4分配第三條垂直的虛線,該單元4為識別裝置或者識別軟件提供用于詞匯表的相應(yīng)音素。這例如可以直接由數(shù)據(jù)庫4提供,或者借助于合適的程序設(shè)計也由CPU通過提供所謂的音素服務(wù)的程序部分來供應(yīng)。右側(cè)的垂直虛線被分配給輸入/輸出裝置12、例如GUI,該GUI可以例如被實施為觸摸屏或者組合的鍵盤_顯示器_單元。 例如在步驟R1中通過由用戶通過GUI12輸入國家標識來開始該語音識別方法。該輸入被傳輸給識別單元2。在下文中,例如程序部分被理解為識別單元,該程序部分在可編程計算機裝置、如CPU2上實現(xiàn)語音識別功能。然后,識別單元2在步驟T21中開始向數(shù)據(jù)庫或音素服務(wù)4詢問用于相應(yīng)國家的相應(yīng)的第一詞匯表。在語音識別的第一級中有必要的是,在例如對于導(dǎo)航系統(tǒng)進行目標輸入的實例中,創(chuàng)建用于城市名稱的部分詞匯表,其中如果將HMM模型用于語音識別,則其余的表達部分、S卩那些不與涉及城市名稱的期望表達部分相對應(yīng)的表達部分在HMM模型的范圍內(nèi)利用垃圾數(shù)據(jù)來建模。 CPU或識別單元2向音素數(shù)據(jù)庫4或音素服務(wù)4發(fā)送相應(yīng)的音素詢問R2。于是,在步驟R3中將必要的音素和/或其它說明寫入語音識別設(shè)備1的共同使用的存儲器6中,其中所述其它說明可能對于語音識別軟件來說是必需的。所使用的存儲區(qū)域相對于完整的數(shù)據(jù)庫4是小的,因為只對城市名稱、即一個表達部分進行主動建模,而要記錄的表達的其余表達部分在第一識別步驟中都是不重要的。在將必要的音素數(shù)據(jù)寫入存儲器之后,這在步驟R4中利用確認信號(Quittungssignal)或者完成命令來結(jié)束。音素服務(wù)4同樣向識別單元提供確認信號R5,該識別單元于是在后續(xù)步驟R6中從共同使用的存儲器6中讀出現(xiàn)有的音素數(shù)據(jù)。
相應(yīng)的識別軟件或者識別裝置2現(xiàn)在在步驟T22中創(chuàng)建用于執(zhí)行第一部分語音識別的第一詞匯表,例如對于HMM模型來說,利用垃圾或者填充數(shù)據(jù)用于不會顧及的表達部分。然后可以在步驟R7中釋放用于音素數(shù)據(jù)的存儲區(qū)域。這被通知給音素服務(wù)單元4。在步驟R4之后,部分語音識別完全準備就緒。 因此可以在步驟8中例如通過GUI12向用戶傳輸輸入請求。 一種可能性,用戶通過"Push-to-Talk(按鍵通話)"說出導(dǎo)航系統(tǒng)的完整的目標地址。這在步驟T1中進行。在此,用戶在完整的語句中輸入總的目標地址,而不通過GUI進行其它輸入。在Push-to-Talk的情況下,語音輸入的開始由用戶通過信號、例如按鈕按下來通知識別單元。由此,表達的固定定義的開端被預(yù)先給定,這降低了計算花費,因為不必昂貴地確定表達開端,其中所述表達待由識別單元或軟件來識別。 因此,在步驟R9中開始第一部分語音識別以用于從詞匯表中確定搜索詞的命中列表,該詞匯表在這種情況下包括N個具有最佳城市名稱的命中詞的列表。具有第一命中詞H1-HN的示例性列表在圖5中示出。該語音識別的第一級在步驟Sl中的結(jié)果也可以選擇性地在步驟RIO中由GUI顯示。然而,這不是強制性必需的,因為語音識別在第二級中也自動地顧及其它表達部分、即那些涉及街道名稱和門牌號碼的表達部分。為此必須首先為語音識別單元2提供新的詞匯表。 因此,在步驟Rll中針對涉及語音識別的第一級的第一命中詞Hl的街道名稱和/或門牌號碼進行對音素數(shù)據(jù)的詢問。相應(yīng)的音素數(shù)據(jù)在步驟R12中被傳輸?shù)焦餐褂玫拇鎯ζ?中,這在步驟R7中被確認并且在步驟R14中被通知給識別單元2。在步驟R15中,識別單元2讀取相應(yīng)的音素數(shù)據(jù)并且在步驟T41中創(chuàng)建用于語音識別的第二級的詞匯表,該詞匯表涉及第一級的第一命中詞Hl。 類似地,在步驟R16中向音素數(shù)據(jù)庫4詢問其它命中詞(例如第二命中詞H2)的街道名稱數(shù)據(jù)。在步驟R17中,相應(yīng)音素數(shù)據(jù)又被寫入存儲器中,這在步驟R18被確認,并且在步驟R19中由音素數(shù)據(jù)庫通知給識別裝置2。因此,音素數(shù)據(jù)庫或者音素服務(wù)4確認成功地將所詢問的音素數(shù)據(jù)傳輸?shù)阶R別單元2的存儲器6中。借助于現(xiàn)有音素數(shù)據(jù)和對建立用于識別單元的詞匯表來說所需要的可選的其它數(shù)據(jù),識別單元在步驟T42中創(chuàng)建用于語音識別的第二級的詞匯表,例如在圖5中借助于街道名稱SN21-SN20和門牌號碼NB21 l-NB21S以及NB201-NB20T所示出的那樣。相應(yīng)的音素數(shù)據(jù)詢問和詞匯表創(chuàng)建現(xiàn)在針對第一識別級的所有命中詞H1-HN進行。借助于這樣建立起來的識別詞匯表,現(xiàn)在可以對總體表達進行語音識別的第二級。 表達例如可以同樣在存儲器6中以數(shù)字化的形式被存放。因此,識別單元2在步驟R20中詢問表達,并且執(zhí)行第二語音識別步驟或者第二語音識別級S2。這利用根據(jù)第一識別級的結(jié)果被創(chuàng)建的詞匯表來進行。最后,在步驟R21中進行命中詞顯示,該命中詞顯示例如可以在圖4中所示的表達的情況下包括針對目標地址的如下可能性
Miinchen Otto-Hahn-Ring 6,
Miinchen 0tto_Hahn_Ring 60,
Miinchen 0tto_Hahn_Weg 6,
Miinchen 0tto_Hahn_Ring 16。 用于語音識別的方法的上述變型方案減小了對于識別尤其是多部分表達來說所需的詞匯表。因此,即使是資源短缺的嵌入式系統(tǒng)也能夠?qū)崿F(xiàn)不依賴于講話者的語音識別。在兩個或者可選地多個步驟中執(zhí)行對具有多個表達部分的復(fù)雜表達的語音識別。根據(jù)第一步驟的識別結(jié)果,創(chuàng)建后續(xù)步驟的詞匯表。雖然基本上借助于兩個識別級或者識別步驟闡
述了本發(fā)明,但是也可以容易地一般化(Verall gemeinerung)為多個步驟。在識別大詞匯時,各個步驟或者識別級的詞匯表大小分別被明顯減小。 此外,用于語音識別的多級方法所具有的優(yōu)點是數(shù)據(jù)庫對相應(yīng)的音素數(shù)據(jù)或者詞匯表數(shù)據(jù)進行加載的時間減少。使具有多個表達部分的較長表達經(jīng)受語音識別的傳統(tǒng)識別器必須在語音識別開始時加載具有總體復(fù)雜性的完整的詞匯表。這加重了相應(yīng)的數(shù)據(jù)或通信總線的負載并且需要特別大的存儲器。通過根據(jù)本發(fā)明的變型方案的兩級或多級語音識別,只需要小的存儲空間,并且數(shù)據(jù)總線上的相應(yīng)音素數(shù)據(jù)或詞匯表數(shù)據(jù)的傳輸有所減少。 通過使用來自第一識別步驟的前幾個、例如N個命中詞,識別速率與通常的策略相比也有所改進,其中在通常的策略的情況下,對于第一表達部分和第二表達部分執(zhí)行獨立的識別方法。這可以在具有上位概念(如城市名稱)和進一步分配的概念(如街道名稱和門牌號碼)的分層數(shù)據(jù)庫的情況下尤其通過使用邏輯聯(lián)系或者一致性檢查而發(fā)生。如果在第一識別級中例如確定N = 20個命中詞,其中表達是"MiinchenOtto-Hahn-Ring6"并且例如由于干擾情況"Mtochen"只在第十八個位置處被識別,則如果在其余地點、如Miinchlingen或者Miinchhausen處或者不存在街道名稱"Otto-Hahn-Ring"或者只存在其它的門牌號碼,則組合"Milnchen Otto-Hahn-Ring 6 "仍然在第二級中作為最佳命中詞出現(xiàn)。因此,第一和第二識別級的聯(lián)系提供復(fù)雜的多部分表達的特別可靠的語音識別。
因此,上述方法與通常的識別方法相比提供改進的識別速率。需要減小了的存儲需求和計算需求。因為詞匯表和音素數(shù)據(jù)有所減少,所以數(shù)據(jù)總線負擔有更少的數(shù)據(jù)傳送。對音素數(shù)據(jù)和/或部分詞匯表的訪問更快,因為部分詞匯表、例如具有許多街道名稱的特別大城市的街道名稱詞匯表可以被中間存儲。例如對應(yīng)于具有少量街道的小城市的詞匯表部分可以動態(tài)地在線生成并且不必被預(yù)編譯。通過對于用戶來說一級起作用的對待識別的復(fù)雜輸入表達的語音識別,目標地址的輸入時間縮短。不需要由用戶進行多級或者確認過程。 雖然借助于語音識別方法的優(yōu)選實施例和變型方案來闡述了本發(fā)明,但是本發(fā)明并不限于此,而是可以多方面進行修改。借助于導(dǎo)航系統(tǒng)的目標輸入的前述示例可以改變。至少每當包括多個表達部分的表達被分層組織時、即每當例如第一表達部分是其它表達部分的上位概念時,本發(fā)明可以改進語音識別。就此而言,在圖5中示出的分支樹可以涉及各
種應(yīng)用,例如所提及的在音樂播放設(shè)備的情況下對音樂作品的搜索,其中可以使用例如表演者作為上位概念、使用專輯并且最后使用磁道號或者歌曲號作為進一步的概念。表達部
分的數(shù)目及其在表達中的布置也可以改變。待識別的第一表達部分例如也可以位于總體表達的最后。
1權(quán)利要求
一種用于對待識別的表達(A)進行語音識別的方法,所述表達(A)具有多個待識別的表達部分(A1-A5),其中對所選擇的第一表達部分(A1)進行部分語音識別(S1)并且根據(jù)通過所述部分語音識別(S1)所識別出的針對第一表達部分(A1)的命中詞選擇來執(zhí)行對所述表達(A)的第一(A1)和其它表達部分(A2-A5)的語音識別(S2)。
2. 根據(jù)權(quán)利要求1所述的方法,其中借助于隱馬爾可夫模型來使所述第一表達部分(Al)經(jīng)受部分語音識別(Sl),在 所述隱馬爾可夫模型的情況下,利用填充數(shù)據(jù)來覆蓋其余的表達部分(A2-A5)以用于部分 語音識別(SI)。
3. 根據(jù)權(quán)利要求1或2所述的方法,其中所述第一表達部分(Al)通過確定所述表達(A)在時間上的能量變化被識別出并 且經(jīng)受部分語音識別(SI)。
4. 根據(jù)權(quán)利要求1-3之一所述的方法,其中所述第一表達部分(Al)通過所述表達(A)中的語音活動識別被確定并且經(jīng)受部 分語音識別(SI)。
5. 根據(jù)權(quán)利要求1-4之一所述的方法,其中根據(jù)通過部分語音識別(SI)所識別出的針對所述第一表達部分(Al)的命中詞 (Hl-HN)選擇來執(zhí)行對總體表達的語音識別(S2)。
6. 根據(jù)前述權(quán)利要求之一所述的方法, 其中執(zhí)行下列方法步驟中的至少一個a) 記錄(Tl)表達(A),所述表達(A)包括多個表達部分(Al-A5);b) 提供第一詞匯表(T2),所述第一詞匯表包括由搜索詞、音素組合和/或轉(zhuǎn)移概率組 成的第一列表;c) 借助于所提供的第一詞匯表(SI)來執(zhí)行對所記錄的表達(A)的所選擇的第一表達 部分(Al)的部分語音識別(SI)以用于從搜索詞列表中確定命中詞(Hl-HN)選擇;d) 根據(jù)命中詞(Hl-HN)選擇提供第二詞匯表(T4),其中所述第二詞匯表包括由多個搜 索詞的搜索詞組合、音素組合和/或轉(zhuǎn)移概率所組成的列表;e) 借助于所述第二詞匯表來執(zhí)行對所記錄的表達(A)的語音識別(S2)以用于從搜索 詞組合列表中確定命中詞選擇。
7. 根據(jù)權(quán)利要求6所述的方法,其中所述命中詞(Hl-HN)選擇由搜索詞構(gòu)成,所述搜索詞對應(yīng)于第一詞匯表中針對部 分表達(Al)最可能的命中詞。
8. 根據(jù)權(quán)利要求6或7所述的方法,其中所述命中詞選擇由搜索詞組合構(gòu)成,所述搜索詞組合對應(yīng)于第二詞匯表中針對所 記錄的表達(A)最可能的命中詞。
9. 根據(jù)前述權(quán)利要求5-7之一所述的方法,其中所述第二詞匯表對應(yīng)于搜索詞組合,所述搜索詞組合通過將附加詞和/或附加詞 序分配給部分語音識別的命中詞(Hl-HN)來構(gòu)成。
10. 根據(jù)前述權(quán)利要求5-8之一所述的方法,其中所述方法被設(shè)計用于識別數(shù)據(jù)庫(4)的所說出的項,其中所述數(shù)據(jù)庫(4)被分層建立并且為相應(yīng)的上位概念分配其它概念,所述其它概念被分配有其它的下位概念。
11. 根據(jù)權(quán)利要求10所述的方法,其中所述上位概念包括城市名稱,所述其它概念包括街道名稱,并且所述其它的下位 概念包括門牌號碼。
12. 根據(jù)前述權(quán)利要求5-ll之一所述的方法,其中所述第二詞匯表具有總體表達的總體詞匯表的子選擇,并且從具有總體詞匯表的 其它搜索詞的第一詞匯表的搜索詞列表中所選擇的命中詞組合被從第二詞匯表中排除。
13. 根據(jù)前述權(quán)利要求5-12之一所述的方法,其中在執(zhí)行部分語音識別(Sl)之后,從存儲器中刪除(T3)第一詞匯表,并且讀入(T4) 第二詞匯表。
14. 根據(jù)前述權(quán)利要求之一所述的方法,其中在部分語音識別(Sl)的情況下所確定的所述表達(A)和/或表達部分(Al)的特 征、尤其是確定的MFCC特征和/或所計算的發(fā)射概率在對其它表達部分(A2-A5)和/或總 體表達(A)進行語音識別(S2)的情況下被再次使用。
15. 根據(jù)前述權(quán)利要求之一所述的方法, 其中所述第一表達部分(Al)位于待識別的表達(A)的開端。
16. 根據(jù)前述權(quán)利要求之一所述的方法, 其中對第二詞匯表的至少部分進行預(yù)編譯。
17. 根據(jù)權(quán)利要求12和16所述的方法,其中針對總體詞匯表的部分詞匯表計算并存儲隱馬爾可夫模型的參照向量。
18. —種語音識別設(shè)備(1),其被設(shè)計為實施根據(jù)權(quán)利要求1-17之一所述的方法。
19. 根據(jù)權(quán)利要求18所述的語音識別設(shè)備(1), 其中所述語音識別設(shè)備被實施為尤其是用于汽車領(lǐng)域的嵌入式系統(tǒng)。
20. 根據(jù)權(quán)利要求18或19所述的語音識別設(shè)備(1),其中所述語音識別設(shè)備(1)具有耦合到數(shù)據(jù)庫裝置(4)上的控制裝置(2)和存儲器裝 置(5),其中所述數(shù)據(jù)庫裝置(4)提供詞匯表的搜索詞和/或該搜索詞的音素標注。
21. 根據(jù)權(quán)利要求18-20之一所述的語音識別設(shè)備(1), 其中所述語音識別設(shè)備被設(shè)計為尤其是用于機動車的導(dǎo)航系統(tǒng)的部分。
22. 根據(jù)權(quán)利要求18-21之一所述的語音識別設(shè)備(1),其中所述語音識別設(shè)備(1)被設(shè)計為移動電話的部分和/或尤其是MP3播放器的音頻 再現(xiàn)裝置的部分。
23. —種機動車,尤其是汽車,其具有根據(jù)前述權(quán)利要求之一所述的語音識別設(shè)備(1)。
24. —種計算機程序產(chǎn)品,其促使在受程序控制的語音識別設(shè)備(1)上執(zhí)行根據(jù)權(quán)利 要求1-17之一所述的方法。
全文摘要
本發(fā)明涉及一種用于對待識別的表達(A)進行語音識別的方法,所述表達(A)具有多個待識別的表達部分(A1-A5),其中對所選擇的第一表達部分(A1)進行部分語音識別(S1)并且根據(jù)通過部分語音識別(S1)所識別出的針對第一表達部分(A1)的命中詞選擇來執(zhí)行對表達(A)的第一(A1)和其它表達部分(A2-A5)的語音識別(S2)。
文檔編號G10L15/04GK101755301SQ200880025088
公開日2010年6月23日 申請日期2008年6月18日 優(yōu)先權(quán)日2007年7月18日
發(fā)明者B·利特爾, J·F·吉塔特佩雷斯, M·萬丁格爾 申請人:斯沃克斯公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
云梦县| 婺源县| 河北区| 万年县| 叙永县| 富顺县| 高安市| 佛教| 孝义市| 眉山市| 彭水| 柳河县| 苏州市| 尼玛县| 平南县| 华安县| 尼玛县| 垣曲县| 景宁| 长春市| 唐河县| 广丰县| 遵化市| 丽水市| 富源县| 二连浩特市| 罗山县| 闵行区| 道孚县| 盐边县| 舒城县| 肃北| 张家界市| 二手房| 康马县| 怀柔区| 天津市| 汾西县| 闵行区| 勐海县| 望奎县|