一種語音識(shí)別的方法
【專利摘要】一種語音識(shí)別方法,包括以下步驟:第一步,錄入聲音;第二步,分析錄入信息的特性;獲取用戶的場景信息,根據(jù)所述場景信息匹配語法模型或語言模型;根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法,得到語音識(shí)別結(jié)果。第三步,獲取錄音者的聲音數(shù)據(jù),判別語法模型和語言模型;第四步,所述根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法。上述語音識(shí)別的方法,根據(jù)用戶的場景信息匹配語法模型或語言模型,能在進(jìn)行模式匹配算法時(shí)根據(jù)用戶的場景信息改變語法模型或語言模型的參數(shù),使得模式匹配算法所采用的語法模型或語言模型適應(yīng)用戶的交互場景,因此能提高語音識(shí)別的準(zhǔn)確度。
【專利說明】一種語音識(shí)別的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及軟件技術(shù),尤其涉及一種語音識(shí)別的方法。
【背景技術(shù)】
[0002]語音識(shí)別是將人的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或字符序列等。傳統(tǒng)的語音識(shí)別方法是采集語音,再對(duì)采集到的語音進(jìn)行特征提取,特征提取是指將語音波形經(jīng)過線性或非線性運(yùn)算后得到一組矢量,然后通過模式匹配算法,將矢量轉(zhuǎn)換為和模型最接近的發(fā)音單元序列,進(jìn)而轉(zhuǎn)換為語音識(shí)別結(jié)果。然而,傳統(tǒng)的這種語音識(shí)別方法僅根據(jù)采集到的語音和固定的聲學(xué)模型和語言模型(或者語法模型)進(jìn)行模式匹配,識(shí)別準(zhǔn)確度不高,為此,我們提出一種語音識(shí)別的方法。
【發(fā)明內(nèi)容】
[0003]一種語音識(shí)別方法,包括以下步驟:
第一步,錄入聲音;
第二步,分析錄入信息的特性;
獲取用戶的場景信息,根據(jù)所述場景信息匹配語法模型或語言模型;根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法,得到語音識(shí)別結(jié)果;
第三步,獲取錄音者的聲音數(shù)據(jù),判別語法模型和語言模型;
第四步,所述根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法,得到語音識(shí)別結(jié)果的步驟為:根據(jù)所述匹配的語法模型、語言模型和發(fā)音字典進(jìn)行模式匹配算法,得到語首識(shí)別結(jié)果。
[0004]優(yōu)選的,所述方法還包括根據(jù)所述位置信息和場景信息匹配發(fā)音字典的步驟。
[0005]優(yōu)選的,所述錄音者的聲音數(shù)據(jù)為當(dāng)時(shí)所處環(huán)境的所有的聲音信息。
[0006]優(yōu)選的,所述位置信息為用戶的終端設(shè)備自動(dòng)檢測提供的地理位置或GPS定位信息,所述場景信息為用戶交互過程中的場景變化數(shù)據(jù)。
[0007]優(yōu)選的,所述位置信息為用戶主動(dòng)提供或修改的地理位置或GPS定位信息,所述場景信息為用戶主動(dòng)設(shè)定或更改的場景變化數(shù)據(jù)。
[0008]優(yōu)選的,所述方法還包括獲取用戶的位置信息,根據(jù)所述位置信息匹配語法模型或語言模型的步驟。
[0009]上述語音識(shí)別的方法,根據(jù)用戶的場景信息匹配語法模型或語言模型,能在進(jìn)行模式匹配算法時(shí)根據(jù)用戶的場景信息改變語法模型或語言模型的參數(shù),使得模式匹配算法所采用的語法模型或語言模型適應(yīng)用戶的交互場景,因此能提高語音識(shí)別的準(zhǔn)確度。
【專利附圖】
【附圖說明】
[0010]圖1為發(fā)明的流程框圖。
【具體實(shí)施方式】
[0011]一種語音識(shí)別方法,包括以下步驟:
第一步,錄入聲音。
[0012]第二步,分析錄入信息的特性,獲取用戶的場景信息,根據(jù)所述場景信息匹配語法模型或語言模型;根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法,得到語音識(shí)別結(jié)果。優(yōu)選的,所述方法還包括獲取用戶的位置信息,根據(jù)所述位置信息匹配語法模型或語言模型的步驟。優(yōu)選的,所述方法還包括根據(jù)所述位置信息和場景信息匹配發(fā)音字典的步驟。
[0013]第三步,獲取錄音者的聲音數(shù)據(jù),判別語法模型和語言模型;優(yōu)選的,錄音者的聲音數(shù)據(jù)為當(dāng)時(shí)所處環(huán)境的所有的聲音信息。
[0014]第四步,所述根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法,得到語音識(shí)別結(jié)果的步驟為:根據(jù)所述匹配的語法模型、語言模型和發(fā)音字典進(jìn)行模式匹配算法,得到語音識(shí)別結(jié)果。優(yōu)選的,所述位置信息為用戶的終端設(shè)備自動(dòng)檢測提供的地理位置或GPS定位信息,所述場景信息為用戶交互過程中的場景變化數(shù)據(jù)。優(yōu)選的,所述位置信息為用戶主動(dòng)提供或修改的地理位置或GPS定位信息,所述場景信息為用戶主動(dòng)設(shè)定或更改的場景變化數(shù)據(jù)。
【權(quán)利要求】
1.一種語音識(shí)別方法,包括以下步驟: 第一步,錄入聲音; 第二步,分析錄入信息的特性; 獲取用戶的場景信息,根據(jù)所述場景信息匹配語法模型或語言模型;根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法,得到語音識(shí)別結(jié)果; 第三步,獲取錄音者的聲音數(shù)據(jù),判別語法模型和語言模型; 第四步,所述根據(jù)所述匹配的語法模型或語言模型進(jìn)行模式匹配算法,得到語音識(shí)別結(jié)果的步驟為:根據(jù)所述匹配的語法模型、語言模型和發(fā)音字典進(jìn)行模式匹配算法,得到語首識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種語音識(shí)別方法,其特征在于:所述方法還包括根據(jù)所述位置信息和場景信息匹配發(fā)音字典的步驟。
3.根據(jù)權(quán)利要求1所述的一種語音識(shí)別方法,其特征在于:所述錄音者的聲音數(shù)據(jù)為當(dāng)時(shí)所處環(huán)境的所有的聲音信息。
4.根據(jù)權(quán)利要求1所述的一種語音識(shí)別方法,其特征在于:所述位置信息為用戶的終端設(shè)備自動(dòng)檢測提供的地理位置或GPS定位信息,所述場景信息為用戶交互過程中的場景變化數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的一種語音識(shí)別方法,其特征在于:所述位置信息為用戶主動(dòng)提供或修改的地理位置或GPS定位信息,所述場景信息為用戶主動(dòng)設(shè)定或更改的場景變化數(shù)據(jù)。
6.根據(jù)權(quán)利要求1所述的一種語音識(shí)別方法,其特征在于:所述方法還包括獲取用戶的位置信息,根據(jù)所述位置信息匹配語法模型或語言模型的步驟。
【文檔編號(hào)】G10L15/06GK104240698SQ201410492475
【公開日】2014年12月24日 申請日期:2014年9月24日 優(yōu)先權(quán)日:2014年9月24日
【發(fā)明者】朱龍騰 申請人:上海伯釋信息科技有限公司