專利名稱:語音提醒的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音提醒的技術(shù),尤其涉及通過車載終端對車主進(jìn)行語音提醒的方法和系統(tǒng)。
背景技術(shù):
在一些電子設(shè)備上通常有備忘錄的功能(或稱為提醒功能),用戶輸入需要提醒的信息并設(shè)置提醒的時間點(diǎn)。在設(shè)置的時間點(diǎn)到達(dá)時,電子設(shè)備會通過某種提醒方式(例如鬧鈴)來提醒用戶有提醒事件發(fā)生,具體的內(nèi)容會在電子設(shè)備的屏幕上顯示出來。這種提醒方式存在以下的不便之處1、這種方式需要用戶在電子設(shè)備的軟件中文字輸入提醒內(nèi)容和選擇提醒的時間點(diǎn),輸入方式繁瑣。如果應(yīng)用環(huán)境是在車輛的行駛過程中,則車主進(jìn)行提醒設(shè)置會帶來行車安全上的問題。2、這種方式的提醒方式不夠直接,當(dāng)提醒鬧鈴開啟時,用戶無法直接獲知提醒的內(nèi)容,而需要按下相應(yīng)的按鍵,進(jìn)入到當(dāng)前提醒條目中來查看提醒的內(nèi)容。同樣的,如果應(yīng)用環(huán)境是在車輛的行駛過程中,則車主進(jìn)入提醒軟件查看提醒內(nèi)容也會帶來行車安全上的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決上述問題,提供了一種語音提醒的方法,方便了用戶輸入提醒的方式,增強(qiáng)了提醒用戶的直觀感受。本發(fā)明的另一目的在于提供了一種語音提醒的系統(tǒng)。本發(fā)明的技術(shù)方案為本發(fā)明揭示了一種語音提醒的方法,包括接收用戶的語音輸入;根據(jù)語音輸入識別其中的內(nèi)容信息并進(jìn)行存儲;根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為已存儲的語音內(nèi)容。根據(jù)本發(fā)明的語音提醒的方法的一實(shí)施例,接收語音輸入、識別內(nèi)容信息并進(jìn)行存儲、提醒已存儲的語音內(nèi)容都在車載終端完成。根據(jù)本發(fā)明的語音提醒的方法的一實(shí)施例,存儲在車載終端的語音輸入的內(nèi)容信息導(dǎo)出到電腦端。根據(jù)本發(fā)明的語音提醒的方法的一實(shí)施例,在接收用戶的語音輸入之后且在根據(jù)語音輸入進(jìn)行內(nèi)容識別之前,還包括對語音輸入進(jìn)行降噪處理。根據(jù)本發(fā)明的語音提醒的方法的一實(shí)施例,提醒的方式是采用車載終端的揚(yáng)聲器進(jìn)行音頻播放的方式實(shí)現(xiàn)。本發(fā)明還揭示了一種語音提醒的系統(tǒng),包括語音輸入裝置,接收用戶輸入的語音資料;語音引擎,耦接語音輸入裝置,識別語音輸入所包含的內(nèi)容信息;
存儲裝置,耦接語音引擎,存儲語音引擎輸出的語音輸入所包含的內(nèi)容信息;播放裝置,耦接該存儲裝置,根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為存儲裝置中已存儲的語音內(nèi)容。根據(jù)本發(fā)明的語音提醒的系統(tǒng)的一實(shí)施例,語音輸入裝置、語音引擎、存儲裝置、 播放裝置集成在車載終端。根據(jù)本發(fā)明的語音提醒的系統(tǒng)的一實(shí)施例,該系統(tǒng)還包括數(shù)據(jù)傳輸接口,耦接存儲裝置,將存儲裝置中的資料傳輸?shù)酵獠吭O(shè)備。根據(jù)本發(fā)明的語音提醒的系統(tǒng)的一實(shí)施例,該系統(tǒng)還包括降噪裝置,耦接語音輸入裝置和語音引擎,對語音輸入進(jìn)行降噪處理。本發(fā)明對比現(xiàn)有技術(shù)有如下的有益效果本發(fā)明的技術(shù)方案是先接收用戶的語音輸入,再根據(jù)語音輸入識別其中的內(nèi)容信息并進(jìn)行存儲,最后根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容是已存儲的語音內(nèi)容。對比現(xiàn)有技術(shù),本發(fā)明一方面用語音輸入替代了傳統(tǒng)的文字輸入,一方面用語音提醒替代了傳統(tǒng)的需要用戶瀏覽的提醒。
圖1示例性的示出了本發(fā)明的語音提醒的方法的第一實(shí)施例的流程圖。圖2示例性的示出了本發(fā)明的語音提醒的方法的第二實(shí)施例的流程圖。圖3示例性的示出了本發(fā)明的語音提醒的方法的第三實(shí)施例的流程圖。圖4示例性的示出了本發(fā)明的語音提醒的系統(tǒng)的第一實(shí)施例的原理圖。圖5示例性的示出了本發(fā)明的語音提醒的系統(tǒng)的第二實(shí)施例的原理圖。圖6示例性的示出了本發(fā)明的語音提醒的系統(tǒng)的第三實(shí)施例的原理圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的描述。語咅提醒的方法的第一實(shí)施例圖1示出了本發(fā)明的語音提醒的方法的第一實(shí)施例的流程。請參見圖1,本實(shí)施例的語音提醒的方法的詳細(xì)步驟如下詳述。步驟SlO 接收用戶的語音輸入。在車載端,用戶通過車載端上的音頻輸入接口輸入語音,例如,用戶說出“今日下午3點(diǎn)提醒有會議”,車載設(shè)備接收用戶的這一輸入語音。步驟S12 識別語音輸入中的內(nèi)容信息并進(jìn)行存儲。在車載端安裝一個語音引擎,語音引擎接收用戶的輸入語音,識別出語音中所包含的內(nèi)容,將這些內(nèi)容存儲在車載端。語音引擎的語音識別技術(shù)是現(xiàn)有的技術(shù)。例如,語音引擎包括語音采集裝置、前端處理模塊、特征提取模塊、基音特征提取模塊、聲調(diào)識別模塊、訓(xùn)練模塊、聲學(xué)層識別模塊、拼音文法理解模塊、語言理解模塊九個部分,該聲學(xué)層識別模塊采用以狀態(tài)的段長概率來表示的隱含馬爾可夫模型,即基于段長分布的隱含馬爾可夫模型,簡稱DDBHMM模型,該模型的段長服從具有凸性的分布,其中,該模型中的狀態(tài)與語音中的音素或音節(jié)等語音單元相對應(yīng),而這些語音單元讀音的語音信號特征作為對應(yīng)語音單元的觀測量;該訓(xùn)練模塊的訓(xùn)練方法步驟如下對訓(xùn)練模塊輸入一個或多個包含有若干特定詞的讀音樣本文件,該文件中的每句話的一系列幀的特征向量以幀為單位,通過訓(xùn)練模塊中的訓(xùn)練搜索算法,對每幀語音信號中的每個詞的每個狀態(tài)進(jìn)行搜索比較,得到語音信號特征矢量的矢量量化碼本(VQ碼本)和該特定詞的DDBHMM模型參數(shù),輸入給聲學(xué)層識別模塊;所述的漢語連續(xù)語音識別系統(tǒng)的語音識別方法步驟如下通過語音采集裝置接收人們的語音信號,對于輸入的語音信號進(jìn)行前端處理,并進(jìn)行MFCC語音特征(基于Mel倒譜系數(shù)的語音特征, Mel-Frequency Cepstral Coefficients)序列的提取,得到的該MFCC語音特征序列被送入聲學(xué)層識別模塊,通過聲學(xué)層識別模塊的搜索算法,產(chǎn)生拼音格形式的識別結(jié)果,同時,語音信號的基音特征矢量也被提取出來,送入聲調(diào)識別模塊,聲調(diào)識別模塊利用基音特征信息和拼音的分割點(diǎn)信息,得到拼音的聲調(diào)信息并加入到拼音格中,接著,通過拼音文法理解模塊對拼音格進(jìn)行修剪,精簡后的音節(jié)格被送入語言理解模塊,轉(zhuǎn)化為拼音圖和詞圖,并在詞圖中進(jìn)行搜索,得到最后的理解結(jié)果。例如,語音引擎能夠識別出“今日下午3點(diǎn)提醒有會議”的具體內(nèi)容,獲知這是一個提醒事件,提醒的內(nèi)容是“今日下午3點(diǎn)有會議”。步驟S14:根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為已存儲的語音內(nèi)容。在上一步驟中車載端識別出了這是一個提醒事件,且是提醒在今日下午3點(diǎn)有會議。因此,在今日下午3點(diǎn)的時刻,車載端觸發(fā)一個提醒事件,并且通過語音提醒的方式來告知用戶,即通過車載端上的音頻播放設(shè)備(例如揚(yáng)聲器)播放“今日下午3點(diǎn)有會議”的內(nèi)容。從這個實(shí)施例中可以看出,接收語音輸入、識別內(nèi)容信息、存儲內(nèi)容信息、提醒已存儲的語音內(nèi)容都是在車載終端完成的。語咅提醒的方法的第二實(shí)施例圖2示出了本發(fā)明的語音提醒的方法的第二實(shí)施例的流程。請參見圖2,本實(shí)施例的語音提醒的方法的詳細(xì)步驟如下詳述。步驟S20 接收用戶的語音輸入。在車載端,用戶通過車載端上的音頻輸入接口輸入語音,例如,用戶說出“今日下午3點(diǎn)提醒有會議”,車載設(shè)備接收用戶的這一輸入語音。步驟S22 識別語音輸入中的內(nèi)容信息并進(jìn)行存儲。在車載端安裝一個語音引擎,語音引擎接收用戶的輸入語音,識別出語音中所包含的內(nèi)容,將這些內(nèi)容存儲在車載端。語音引擎的語音識別技術(shù)是現(xiàn)有的技術(shù)。例如,語音引擎包括語音采集裝置、前端處理模塊、特征提取模塊、基音特征提取模塊、聲調(diào)識別模塊、訓(xùn)練模塊、聲學(xué)層識別模塊、拼音文法理解模塊、語言理解模塊九個部分,該聲學(xué)層識別模塊采用以狀態(tài)的段長概率來表示的隱含馬爾可夫模型,即基于段長分布的隱含馬爾可夫模型,簡稱DDBHMM模型,該模型的段長服從具有凸性的分布,其中,該模型中的狀態(tài)與語音中的音素或音節(jié)等語音單元相對應(yīng),而這些語音單元讀音的語音信號特征作為對應(yīng)語音單元的觀測量;該訓(xùn)練模塊的訓(xùn)練方法步驟如下對訓(xùn)練模塊輸入一個或多個包含有若干特定詞的讀音樣本文件,該文件中的每句話的一系列幀的特征向量以幀為單位,通過訓(xùn)練模塊中的訓(xùn)練搜索算法,對每幀語音信號中的每個詞的每個狀態(tài)進(jìn)行搜索比較,得到語音信號特征矢量的矢量量化碼本(VQ碼本)和該特定詞的DDBHMM模型參數(shù),輸入給聲學(xué)層識別模塊;所述的漢語連續(xù)語音識別系統(tǒng)的語音識別方法步驟如下通過語音采集裝置接收人們的語音信號,對于輸入的語音信號進(jìn)行前端處理,并進(jìn)行MFCC語音特征(基于Mel倒譜系數(shù)的語音特征, Mel-Frequency Cepstral Coefficients)序列的提取,得到的該MFCC語音特征序列被送入聲學(xué)層識別模塊,通過聲學(xué)層識別模塊的搜索算法,產(chǎn)生拼音格形式的識別結(jié)果,同時,語音信號的基音特征矢量也被提取出來,送入聲調(diào)識別模塊,聲調(diào)識別模塊利用基音特征信息和拼音的分割點(diǎn)信息,得到拼音的聲調(diào)信息并加入到拼音格中,接著,通過拼音文法理解模塊對拼音格進(jìn)行修剪,精簡后的音節(jié)格被送入語言理解模塊,轉(zhuǎn)化為拼音圖和詞圖,并在詞圖中進(jìn)行搜索,得到最后的理解結(jié)果。例如,語音引擎能夠識別出“今日下午3點(diǎn)提醒有會議”的具體內(nèi)容,獲知這是一個提醒事件,提醒的內(nèi)容是“今日下午3點(diǎn)有會議”。步驟SM 根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為已存儲的語音內(nèi)容。在上一步驟中車載端識別出了這是一個提醒事件,且是提醒在今日下午3點(diǎn)有會議。因此,在今日下午3點(diǎn)的時刻,車載端觸發(fā)一個提醒事件,并且通過語音提醒的方式來告知用戶,即通過車載端上的音頻播放設(shè)備(例如揚(yáng)聲器)播放“今日下午3點(diǎn)有會議”的內(nèi)容。從這個實(shí)施例中可以看出,接收語音輸入、識別內(nèi)容信息、存儲內(nèi)容信息、提醒已存儲的語音內(nèi)容都是在車載終端完成的。步驟S26 將存儲在車載終端的語音輸入的內(nèi)容信息導(dǎo)出到電腦。提供給用戶在電腦上進(jìn)行備份和編輯的功能。語咅提醒的方法的第三實(shí)施例圖3示出了本發(fā)明的語音提醒的方法的第三實(shí)施例的流程。請參見圖3,本實(shí)施例的語音提醒的方法的詳細(xì)步驟如下詳述。步驟S30 接收用戶的語音輸入。在車載端,用戶通過車載端上的音頻輸入接口輸入語音,例如,用戶說出“今日下午3點(diǎn)提醒有會議”,車載設(shè)備接收用戶的這一輸入語音。步驟S32 對語音輸入進(jìn)行降噪處理。步驟S34 識別語音輸入中的內(nèi)容信息并進(jìn)行存儲。在車載端安裝一個語音引擎,語音引擎接收用戶的輸入語音,識別出語音中所包含的內(nèi)容,將這些內(nèi)容存儲在車載端。語音引擎的語音識別技術(shù)是現(xiàn)有的技術(shù)。例如,語音引擎包括語音采集裝置、前端處理模塊、特征提取模塊、基音特征提取模塊、聲調(diào)識別模塊、訓(xùn)練模塊、聲學(xué)層識別模塊、拼音文法理解模塊、語言理解模塊九個部分,該聲學(xué)層識別模塊采用以狀態(tài)的段長概率來表示的隱含馬爾可夫模型,即基于段長分布的隱含馬爾可夫模型,簡稱DDBHMM模型,該模型的段長服從具有凸性的分布,其中,該模型中的狀態(tài)與語音中的音素或音節(jié)等語音單元相對應(yīng),而這些語音單元讀音的語音信號特征作為對應(yīng)語音單元的觀測量;該訓(xùn)練模塊的訓(xùn)練方法步驟如下對訓(xùn)練模塊輸入一個或多個包含有若干特定詞的讀音樣本文件,該文件中的每句話的一系列幀的特征向量以幀為單位,通過訓(xùn)練模塊中的訓(xùn)練搜索算法,對每幀語音信號中的每個詞的每個狀態(tài)進(jìn)行搜索比較,得到語音信號特征矢量的矢量量化碼本(VQ碼本)和該特定詞的DDBHMM模型參數(shù),輸入給聲學(xué)層識別模塊;所述的漢語連續(xù)語音識別系統(tǒng)的語音識別方法步驟如下通過語音采集裝置接收人們的語音信號,對于輸入的語音信號進(jìn)行前端處理,并進(jìn)行MFCC語音特征(基于Mel倒譜系數(shù)的語音特征, Mel-Frequency Cepstral Coefficients)序列的提取,得到的該MFCC語音特征序列被送入聲學(xué)層識別模塊,通過聲學(xué)層識別模塊的搜索算法,產(chǎn)生拼音格形式的識別結(jié)果,同時,語音信號的基音特征矢量也被提取出來,送入聲調(diào)識別模塊,聲調(diào)識別模塊利用基音特征信息和拼音的分割點(diǎn)信息,得到拼音的聲調(diào)信息并加入到拼音格中,接著,通過拼音文法理解模塊對拼音格進(jìn)行修剪,精簡后的音節(jié)格被送入語言理解模塊,轉(zhuǎn)化為拼音圖和詞圖,并在詞圖中進(jìn)行搜索,得到最后的理解結(jié)果。例如,語音引擎能夠識別出“今日下午3點(diǎn)提醒有會議”的具體內(nèi)容,獲知這是一個提醒事件,提醒的內(nèi)容是“今日下午3點(diǎn)有會議”。步驟S36 根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為已存儲的語音內(nèi)容。在上一步驟中車載端識別出了這是一個提醒事件,且是提醒在今日下午3點(diǎn)有會議。因此,在今日下午3點(diǎn)的時刻,車載端觸發(fā)一個提醒事件,并且通過語音提醒的方式來告知用戶,即通過車載端上的音頻播放設(shè)備(例如揚(yáng)聲器)播放“今日下午3點(diǎn)有會議”的內(nèi)容。從這個實(shí)施例中可以看出,接收語音輸入、識別內(nèi)容信息、存儲內(nèi)容信息、提醒已存儲的語音內(nèi)容都是在車載終端完成的。語咅提醒的系統(tǒng)的第一實(shí)施例圖4示出了本發(fā)明的語音提醒的系統(tǒng)的第一實(shí)施例的原理。請參見圖4,本實(shí)施例的語音提醒的系統(tǒng)包括語音輸入裝置10、語音引擎12、存儲裝置14、播放裝置16。這些裝置之間的連接關(guān)系是語音輸入裝置10耦接語音引擎12,語音引擎12耦接存儲裝置14,存儲裝置14耦接播放裝置16。本實(shí)施例的語音提醒的系統(tǒng)的運(yùn)行原理如下。語音輸入裝置10接收用戶的語音輸入。在車載端,語音輸入裝置10的一個示例是車載終端上的音頻輸入接口。用戶通過車載端上的音頻輸入接口輸入語音,例如,用戶說出“今日下午3點(diǎn)提醒有會議”,車載設(shè)備接收用戶的這一輸入語音。語音引擎12用來識別語音輸入中的內(nèi)容信息并存儲在存儲裝置14中。在車載端安裝一個語音引擎12,語音引擎12接收用戶的輸入語音,識別出語音中所包含的內(nèi)容,將這些內(nèi)容存儲在車載端的存儲裝置14中。語音引擎12的語音識別技術(shù)是現(xiàn)有的技術(shù)。例如,語音引擎12包括語音采集裝置、前端處理模塊、特征提取模塊、基音特征提取模塊、聲調(diào)識別模塊、訓(xùn)練模塊、聲學(xué)層識別模塊、拼音文法理解模塊、語言理解模塊九個部分,該聲學(xué)層識別模塊采用以狀態(tài)的段長概率來表示的隱含馬爾可夫模型,即基于段長分布的隱含馬爾可夫模型,簡稱DDBHMM模型,該模型的段長服從具有凸性的分布,其中,該模型中的狀態(tài)與語音中的音素或音節(jié)等語音單元相對應(yīng),而這些語音單元讀音的語音信號特征作為對應(yīng)語音單元的觀測量;該訓(xùn)練模塊的訓(xùn)練方法步驟如下對訓(xùn)練模塊輸入一個或多個包含有若干特定詞的讀音樣本文件,該文件中的每句話的一系列幀的特征向量以幀為單位,通過訓(xùn)練模塊中的訓(xùn)練搜索算法,對每幀語音信號中的每個詞的每個狀態(tài)進(jìn)行搜索比較,得到語音信號特征矢量的矢量量化碼本(VQ碼本)和該特定詞的DDBHMM模型參數(shù),輸入給聲學(xué)層識別模塊;所述的漢語連續(xù)語音識別系統(tǒng)的語音識別方法步驟如下通過語音采集裝置接收人們的語音信號,對于輸入的語音信號進(jìn)行前端處理,并進(jìn)行MFCC語音特征(基于Mel倒譜系數(shù)的語音特征, Mel-Frequency Cepstral Coefficients)序列的提取,得到的該MFCC語音特征序列被送入聲學(xué)層識別模塊,通過聲學(xué)層識別模塊的搜索算法,產(chǎn)生拼音格形式的識別結(jié)果,同時,語音信號的基音特征矢量也被提取出來,送入聲調(diào)識別模塊,聲調(diào)識別模塊利用基音特征信息和拼音的分割點(diǎn)信息,得到拼音的聲調(diào)信息并加入到拼音格中,接著,通過拼音文法理解模塊對拼音格進(jìn)行修剪,精簡后的音節(jié)格被送入語言理解模塊,轉(zhuǎn)化為拼音圖和詞圖,并在詞圖中進(jìn)行搜索,得到最后的理解結(jié)果。例如,語音引擎12能夠識別出“今日下午3點(diǎn)提醒有會議”的具體內(nèi)容,獲知這是一個提醒事件,提醒的內(nèi)容是“今日下午3點(diǎn)有會議”。播放裝置16根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為已存儲的語音內(nèi)容。在車載端的語音引擎12識別出了這是一個提醒事件,且是提醒在今日下午3點(diǎn)有會議。因此,在今日下午3點(diǎn)的時刻,車載端觸發(fā)一個提醒事件,并且通過語音提醒的方式來告知用戶,即通過車載端上的播放裝置16 (例如揚(yáng)聲器)播放“今日下午3點(diǎn)有會議”的內(nèi)容。從這個實(shí)施例中可以看出,語音輸入裝置10、語音引擎12、存儲裝置14和播放裝置16都集成在車載終端上。語咅提醒的系統(tǒng)的第二實(shí)施例圖5示出了本發(fā)明的語音提醒的系統(tǒng)的第二實(shí)施例的原理。請參見圖5,本實(shí)施例的語音提醒的系統(tǒng)包括語音輸入裝置20、語音引擎22、存儲裝置M、播放裝置沈和數(shù)據(jù)傳輸接口觀。這些裝置之間的連接關(guān)系是語音輸入裝置20耦接語音引擎22,語音引擎22耦接存儲裝置對,存儲裝置M耦接播放裝置26,存儲裝置M耦接數(shù)據(jù)傳輸接口觀。本實(shí)施例的語音提醒的系統(tǒng)的運(yùn)行原理如下。語音輸入裝置20接收用戶的語音輸入。在車載端,語音輸入裝置20的一個示例是車載終端上的音頻輸入接口。用戶通過車載端上的音頻輸入接口輸入語音,例如,用戶說出“今日下午3點(diǎn)提醒有會議”,車載設(shè)備接收用戶的這一輸入語音。語音引擎22用來識別語音輸入中的內(nèi)容信息并存儲在存儲裝置M中。在車載端安裝一個語音引擎22,語音引擎22接收用戶的輸入語音,識別出語音中所包含的內(nèi)容,將這些內(nèi)容存儲在車載端的存儲裝置M中。語音引擎22的語音識別技術(shù)是現(xiàn)有的技術(shù)。例如,語音引擎22包括語音采集裝置、前端處理模塊、特征提取模塊、基音特征提取模塊、聲調(diào)識別模塊、訓(xùn)練模塊、聲學(xué)層識別模塊、拼音文法理解模塊、語言理解模塊九個部分,該聲學(xué)層識別模塊采用以狀態(tài)的段長概率來表示的隱含馬爾可夫模型,即基于段長分布的隱含馬爾可夫模型,簡稱DDBHMM模型,該模型的段長服從具有凸性的分布,其中,該模型中的狀態(tài)與語音中的音素或音節(jié)等語音單元相對應(yīng),而這些語音單元讀音的語音信號特征作為對應(yīng)語音單元的觀測量;該訓(xùn)練模塊的訓(xùn)練方法步驟如下對訓(xùn)練模塊輸入一個或多個包含有若干特定詞的讀音樣本文件,該文件中的每句話的一系列幀的特征向量以幀為單位,通過訓(xùn)練模塊中的訓(xùn)練搜索算法,對每幀語音信號中的每個詞的每個狀態(tài)進(jìn)行搜索比較,得到語音信號特征矢量的矢量量化碼本(VQ碼本)和該特定詞的DDBHMM模型參數(shù),輸入給聲學(xué)層識別模塊;所述的漢語連續(xù)語音識別系統(tǒng)的語音識別方法步驟如下通過語音采集裝置接收人們的語音信號,對于輸入的語音信號進(jìn)行前端處理,并進(jìn)行MFCC語音特征(基于Mel倒譜系數(shù)的語音特征, Mel-Frequency Cepstral Coefficients)序列的提取,得到的該MFCC語音特征序列被送入聲學(xué)層識別模塊,通過聲學(xué)層識別模塊的搜索算法,產(chǎn)生拼音格形式的識別結(jié)果,同時,語音信號的基音特征矢量也被提取出來,送入聲調(diào)識別模塊,聲調(diào)識別模塊利用基音特征信息和拼音的分割點(diǎn)信息,得到拼音的聲調(diào)信息并加入到拼音格中,接著,通過拼音文法理解模塊對拼音格進(jìn)行修剪,精簡后的音節(jié)格被送入語言理解模塊,轉(zhuǎn)化為拼音圖和詞圖,并在詞圖中進(jìn)行搜索,得到最后的理解結(jié)果。例如,語音引擎22能夠識別出“今日下午3點(diǎn)提醒有會議”的具體內(nèi)容,獲知這是一個提醒事件,提醒的內(nèi)容是“今日下午3點(diǎn)有會議”。播放裝置沈根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為已存儲的語音內(nèi)容。在車載端的語音引擎22識別出了這是一個提醒事件,且是提醒在今日下午3點(diǎn)有會議。因此,在今日下午3點(diǎn)的時刻,車載端觸發(fā)一個提醒事件,并且通過語音提醒的方式來告知用戶,即通過車載端上的播放裝置26 (例如揚(yáng)聲器)播放“今日下午3點(diǎn)有會議”的內(nèi)容。從這個實(shí)施例中可以看出,語音輸入裝置20、語音引擎22、存儲裝置M和播放裝置沈都集成在車載終端上。此外,系統(tǒng)還包括一個數(shù)據(jù)傳輸接口 28,系統(tǒng)通過這個數(shù)據(jù)傳輸接口 28,將存儲裝置M中的語音資料傳輸?shù)酵獠吭O(shè)備(例如外部計算機(jī))中,可供用戶備份或編輯。語咅提醒的系統(tǒng)的第三實(shí)施例圖6示出了本發(fā)明的語音提醒的系統(tǒng)的第三實(shí)施例的原理。請參見圖6,本實(shí)施例的語音提醒的系統(tǒng)包括語音輸入裝置30、降噪裝置32、語音引擎34、存儲裝置36、播放裝置38。這些裝置之間的連接關(guān)系是語音輸入裝置30耦接降噪裝置32,降噪裝置32耦接語音引擎34,語音引擎34耦接存儲裝置36,存儲裝置36耦接播放裝置38。本實(shí)施例的語音提醒的系統(tǒng)的運(yùn)行原理如下。語音輸入裝置30接收用戶的語音輸入。在車載端,語音輸入裝置30的一個示例是車載終端上的音頻輸入接口。用戶通過車載端上的音頻輸入接口輸入語音,例如,用戶說出“今日下午3點(diǎn)提醒有會議”,車載設(shè)備接收用戶的這一輸入語音。隨后由降噪裝置32對接收到的語音輸入進(jìn)行降噪處理。語音引擎34用來識別語音輸入中的內(nèi)容信息并存儲在存儲裝置36中。在車載端安裝一個語音引擎34,語音引擎34接收用戶的輸入語音,識別出語音中所包含的內(nèi)容,將這些內(nèi)容存儲在車載端的存儲裝置36中。語音引擎34的語音識別技術(shù)是現(xiàn)有的技術(shù)。例如,語音引擎34包括語音采集裝
9置、前端處理模塊、特征提取模塊、基音特征提取模塊、聲調(diào)識別模塊、訓(xùn)練模塊、聲學(xué)層識別模塊、拼音文法理解模塊、語言理解模塊九個部分,該聲學(xué)層識別模塊采用以狀態(tài)的段長概率來表示的隱含馬爾可夫模型,即基于段長分布的隱含馬爾可夫模型,簡稱DDBHMM模型,該模型的段長服從具有凸性的分布,其中,該模型中的狀態(tài)與語音中的音素或音節(jié)等語音單元相對應(yīng),而這些語音單元讀音的語音信號特征作為對應(yīng)語音單元的觀測量;該訓(xùn)練模塊的訓(xùn)練方法步驟如下對訓(xùn)練模塊輸入一個或多個包含有若干特定詞的讀音樣本文件,該文件中的每句話的一系列幀的特征向量以幀為單位,通過訓(xùn)練模塊中的訓(xùn)練搜索算法,對每幀語音信號中的每個詞的每個狀態(tài)進(jìn)行搜索比較,得到語音信號特征矢量的矢量量化碼本(VQ碼本)和該特定詞的DDBHMM模型參數(shù),輸入給聲學(xué)層識別模塊;所述的漢語連續(xù)語音識別系統(tǒng)的語音識別方法步驟如下通過語音采集裝置接收人們的語音信號,對于輸入的語音信號進(jìn)行前端處理,并進(jìn)行MFCC語音特征(基于Mel倒譜系數(shù)的語音特征, Mel-Frequency Cepstral Coefficients)序列的提取,得到的該MFCC語音特征序列被送入聲學(xué)層識別模塊,通過聲學(xué)層識別模塊的搜索算法,產(chǎn)生拼音格形式的識別結(jié)果,同時,語音信號的基音特征矢量也被提取出來,送入聲調(diào)識別模塊,聲調(diào)識別模塊利用基音特征信息和拼音的分割點(diǎn)信息,得到拼音的聲調(diào)信息并加入到拼音格中,接著,通過拼音文法理解模塊對拼音格進(jìn)行修剪,精簡后的音節(jié)格被送入語言理解模塊,轉(zhuǎn)化為拼音圖和詞圖,并在詞圖中進(jìn)行搜索,得到最后的理解結(jié)果。例如,語音引擎34能夠識別出“今日下午3點(diǎn)提醒有會議”的具體內(nèi)容,獲知這是一個提醒事件,提醒的內(nèi)容是“今日下午3點(diǎn)有會議”。播放裝置38根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為已存儲的語音內(nèi)容。在車載端的語音引擎34識別出了這是一個提醒事件,且是提醒在今日下午3點(diǎn)有會議。因此,在今日下午3點(diǎn)的時刻,車載端觸發(fā)一個提醒事件,并且通過語音提醒的方式來告知用戶,即通過車載端上的播放裝置38 (例如揚(yáng)聲器)播放“今日下午3點(diǎn)有會議”的內(nèi)容。從這個實(shí)施例中可以看出,語音輸入裝置30、降噪裝置32、語音引擎34、存儲裝置 36和播放裝置38都集成在車載終端上。上述實(shí)施例是提供給本領(lǐng)域普通技術(shù)人員來實(shí)現(xiàn)或使用本發(fā)明的,本領(lǐng)域普通技術(shù)人員可在不脫離本發(fā)明的發(fā)明思想的情況下,對上述實(shí)施例做出種種修改或變化,因而本發(fā)明的保護(hù)范圍并不被上述實(shí)施例所限,而應(yīng)該是符合權(quán)利要求書提到的創(chuàng)新性特征的最大范圍。
權(quán)利要求
1.一種語音提醒的方法,包括 接收用戶的語音輸入;根據(jù)語音輸入識別其中的內(nèi)容信息并進(jìn)行存儲; 根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為已存儲的語音內(nèi)容。
2.根據(jù)權(quán)利要求1所述的語音提醒的方法,其特征在于,接收語音輸入、識別內(nèi)容信息并進(jìn)行存儲、提醒已存儲的語音內(nèi)容都在車載終端完成。
3.根據(jù)權(quán)利要求2所述的語音提醒的方法,其特征在于,存儲在車載終端的語音輸入的內(nèi)容信息導(dǎo)出到電腦端。
4.根據(jù)權(quán)利要求1所述的語音提醒的方法,其特征在于,在接收用戶的語音輸入之后且在根據(jù)語音輸入進(jìn)行內(nèi)容識別之前,還包括對語音輸入進(jìn)行降噪處理。
5.根據(jù)權(quán)利要求2所述的語音提醒的方法,其特征在于,提醒的方式是采用車載終端的揚(yáng)聲器進(jìn)行音頻播放的方式實(shí)現(xiàn)。
6.一種語音提醒的系統(tǒng),包括語音輸入裝置,接收用戶輸入的語音資料; 語音引擎,耦接語音輸入裝置,識別語音輸入所包含的內(nèi)容信息; 存儲裝置,耦接語音引擎,存儲語音引擎輸出的語音輸入所包含的內(nèi)容信息; 播放裝置,耦接該存儲裝置,根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為存儲裝置中已存儲的語音內(nèi)容。
7.根據(jù)權(quán)利要求6所述的語音提醒的系統(tǒng),其特征在于,語音輸入裝置、語音引擎、存儲裝置、播放裝置集成在車載終端。
8.根據(jù)權(quán)利要求6所述的語音提醒的系統(tǒng),其特征在于,該系統(tǒng)還包括 數(shù)據(jù)傳輸接口,耦接存儲裝置,將存儲裝置中的資料傳輸?shù)酵獠吭O(shè)備。
9.根據(jù)權(quán)利要求6所述的語音提醒的系統(tǒng),其特征在于,該系統(tǒng)還包括 降噪裝置,耦接語音輸入裝置和語音引擎,對語音輸入進(jìn)行降噪處理。
全文摘要
本發(fā)明公開了語音提醒的方法和系統(tǒng),方便了用戶輸入提醒的方式,增強(qiáng)了提醒用戶的直觀感受。其技術(shù)方案為方法包括接收用戶的語音輸入;根據(jù)語音輸入識別其中的內(nèi)容信息并進(jìn)行存儲;根據(jù)識別出的內(nèi)容信息進(jìn)行提醒,提醒的內(nèi)容為已存儲的語音內(nèi)容。
文檔編號G08G1/0962GK102542705SQ201010622060
公開日2012年7月4日 申請日期2010年12月31日 優(yōu)先權(quán)日2010年12月31日
發(fā)明者張曄暉, 霍亮 申請人:上海博泰悅臻電子設(shè)備制造有限公司