語(yǔ)音識(shí)別系統(tǒng)及方法、客戶(hù)端設(shè)備及云端服務(wù)器與流程

文檔序號(hào)：12142415閱讀：689來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語(yǔ)音識(shí)別系統(tǒng)及方法、客戶(hù)端設(shè)備及云端服務(wù)器與流程

本發(fā)明涉及語(yǔ)音識(shí)別領(lǐng)域，尤其涉及一種語(yǔ)音識(shí)別系統(tǒng)及方法和具有語(yǔ)音識(shí)別功能的客戶(hù)端設(shè)備及云端服務(wù)器。

背景技術(shù)：

“大詞匯連續(xù)語(yǔ)音識(shí)別”(Large Vocabulary Continuous Speech Recognition，LVCSR，簡(jiǎn)稱(chēng)“語(yǔ)音識(shí)別”)，就是由計(jì)算機(jī)根據(jù)人的連續(xù)聲音信號(hào)中所蘊(yùn)涵的語(yǔ)言信息，識(shí)別出某段語(yǔ)音對(duì)應(yīng)的是哪些文字的過(guò)程。

大詞匯連續(xù)漢語(yǔ)語(yǔ)音識(shí)別器已經(jīng)取得了很大的進(jìn)展，對(duì)標(biāo)準(zhǔn)普通話(huà)，識(shí)別器的準(zhǔn)確率可以達(dá)到95％以上。但是，漢語(yǔ)的方言問(wèn)題是漢語(yǔ)語(yǔ)音識(shí)別面臨的主要問(wèn)題。由于在中國(guó)大部分人的普通話(huà)都帶有一定的方言背景，在這樣的情況下，大部分的語(yǔ)音識(shí)別器的性能都會(huì)大大下降，甚至無(wú)法使用。

當(dāng)前包括蘋(píng)果公司的Siri、中國(guó)的科大訊飛等設(shè)備和軟件可以提供語(yǔ)音輸入功能，但是語(yǔ)音識(shí)別受用戶(hù)個(gè)人發(fā)音的影響，導(dǎo)致語(yǔ)音識(shí)別時(shí)準(zhǔn)確率受到很大影響，進(jìn)而影響了語(yǔ)音識(shí)別功能的適用。另外，大量的非智能客戶(hù)端設(shè)備，在使用時(shí)其自帶的語(yǔ)音操控功能，也由于語(yǔ)音輸入時(shí)識(shí)別率的問(wèn)題，而影響到其語(yǔ)音功能的適用，例如汽車(chē)中的語(yǔ)音操作功能、藍(lán)牙耳機(jī)、門(mén)鈴等設(shè)備的語(yǔ)音操控等。

目前很多識(shí)別器對(duì)方言背景對(duì)語(yǔ)音識(shí)別器性能造成的影響是用數(shù)據(jù)庫(kù)方法去消除或減弱的，就是說(shuō)，當(dāng)已經(jīng)有一個(gè)對(duì)標(biāo)準(zhǔn)普通話(huà)進(jìn)行識(shí)別的語(yǔ)音識(shí)別器，需要對(duì)帶某種方言背景的普通話(huà)進(jìn)行識(shí)別時(shí)，采用的方法為：收集大量與該方言有關(guān)的第一語(yǔ)音數(shù)據(jù)庫(kù)，然后利用已有的聲學(xué)模型訓(xùn)練方法去重新訓(xùn)練聲學(xué)模型，或利用已有的說(shuō)話(huà)人自適應(yīng)方法對(duì)聲學(xué)模型進(jìn)行自適應(yīng)。這種方法的缺點(diǎn)是：(1)收集帶方言背景的數(shù)據(jù)庫(kù)的工作量非常巨大，對(duì)于漢語(yǔ)這么多的方言，數(shù)據(jù)庫(kù)的收集更是一件巨大的工程。(2)這種方法無(wú)法兼顧標(biāo)準(zhǔn)普通話(huà)和帶發(fā)音背景普通話(huà)之間的共性，僅是通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方法去解決問(wèn)題，相當(dāng)于完全重新構(gòu)建一個(gè)語(yǔ)音識(shí)別器，給不同方言背景的語(yǔ)音識(shí)別器之間的資源共享和兼容帶來(lái)困難。

技術(shù)實(shí)現(xiàn)要素：

為了解決上述技術(shù)問(wèn)題，本發(fā)明提供一種語(yǔ)音識(shí)別系統(tǒng)及方法和具有語(yǔ)音識(shí)別功能的客戶(hù)端設(shè)備及云端服務(wù)器。

本發(fā)明一實(shí)施例提供一種語(yǔ)音識(shí)別系統(tǒng)，至少包括：語(yǔ)音輸入模塊，用于當(dāng)啟用實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能時(shí)，實(shí)時(shí)輸入用戶(hù)的語(yǔ)音；特征提取模塊，用于從所輸入的用戶(hù)語(yǔ)音中提取語(yǔ)音特征；模型訓(xùn)練模塊，用于根據(jù)所述語(yǔ)音特征以及預(yù)設(shè)的規(guī)則，建立對(duì)應(yīng)的聲學(xué)和語(yǔ)言模型；以及更新模塊，用于保存并更新所述聲學(xué)和語(yǔ)言模型到一個(gè)模型數(shù)據(jù)庫(kù)中。

本發(fā)明另一實(shí)施例還提供一種語(yǔ)音識(shí)別方法，包括：基于啟用實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能實(shí)時(shí)輸入用戶(hù)的語(yǔ)音；從所輸入的用戶(hù)語(yǔ)音中提取語(yǔ)音特征；根據(jù)所述語(yǔ)音特征以及預(yù)設(shè)的規(guī)則，建立對(duì)應(yīng)的聲學(xué)和語(yǔ)言模型；以及實(shí)時(shí)保存并更新所述聲學(xué)和語(yǔ)言模型到一個(gè)模型數(shù)據(jù)庫(kù)中。

本發(fā)明又一實(shí)施例提供一種客戶(hù)端設(shè)備，其包括上述的語(yǔ)音識(shí)別系統(tǒng)。

發(fā)明再一實(shí)施例提供一種云端服務(wù)器，其包括對(duì)應(yīng)不同用戶(hù)的多個(gè)私有云主模塊。每個(gè)云主模塊包括：特征提取模塊，用于從來(lái)自于正在啟用實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能的客戶(hù)端設(shè)備所輸入的用戶(hù)語(yǔ)音中提取語(yǔ)音特征；模型訓(xùn)練模塊，用于根據(jù)所述語(yǔ)音特征以及預(yù)設(shè)的規(guī)則，建立對(duì)應(yīng)的聲學(xué)和語(yǔ)言模型；以及更新模塊，用于保存并更新所述聲學(xué)和語(yǔ)言模型到一個(gè)模型數(shù)據(jù)庫(kù)中。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明第一實(shí)施例提供的語(yǔ)音識(shí)別系統(tǒng)的系統(tǒng)框架圖；

圖2是圖1的語(yǔ)音識(shí)別系統(tǒng)的功能模塊圖；

圖3是本發(fā)明第二實(shí)施例提供的語(yǔ)音識(shí)別系統(tǒng)的功能模塊圖；

圖4是本發(fā)明一實(shí)施例提供的語(yǔ)音識(shí)別方法的流程圖；

圖5是本發(fā)明另一實(shí)施例提供的語(yǔ)音識(shí)別方法的流程圖；

圖6是圖5中的步驟S409的具體流程圖；

圖7是本發(fā)明又一實(shí)施例提供的語(yǔ)音識(shí)別方法的流程圖。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步更詳細(xì)的描述。顯然，所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例，都應(yīng)屬于本發(fā)明保護(hù)的范圍。

第一實(shí)施例

請(qǐng)參閱圖1，其為本發(fā)明第一實(shí)施例提供的一種語(yǔ)音識(shí)別系統(tǒng)100的系統(tǒng)架構(gòu)圖。在本實(shí)施例中，所述語(yǔ)音識(shí)別系統(tǒng)100由客戶(hù)端設(shè)備200與云端服務(wù)器300共同實(shí)現(xiàn)，以能夠通過(guò)云端服務(wù)器300完成識(shí)別前端、模型訓(xùn)練和識(shí)別后端的全過(guò)程，并將最終的語(yǔ)音識(shí)別結(jié)果下發(fā)至客戶(hù)端設(shè)備200。如此，可減輕客戶(hù)端設(shè)備200的數(shù)據(jù)處理量，部署起來(lái)非常方便，且后續(xù)升級(jí)的大部分工作也都在云端服務(wù)器300完成。

具體的，請(qǐng)參閱圖2，所述語(yǔ)音識(shí)別系統(tǒng)100至少包括語(yǔ)音輸入模塊10、特征提取模塊20、模型訓(xùn)練模塊30以及更新模塊40。本實(shí)施例中，所述語(yǔ)音輸入模塊10設(shè)置在客戶(hù)端設(shè)備200上，例如是麥克風(fēng)及其處理電路。所述特征提取模塊20、模型訓(xùn)練模塊30、更新模塊40等集成在所述云端服務(wù)器300中。

所述語(yǔ)音輸入模塊10用于當(dāng)客戶(hù)端設(shè)備200啟用實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能時(shí)，實(shí)時(shí)輸入用戶(hù)的語(yǔ)音。所述客戶(hù)端設(shè)備200可以是手機(jī)、車(chē)載設(shè)備、電腦、手機(jī)、智能家居設(shè)備以及可穿戴設(shè)備等等。所述用戶(hù)的語(yǔ)音也可進(jìn)行本地保存或云端保存。

所述特征提取模塊20用于從所輸入的用戶(hù)語(yǔ)音中提取語(yǔ)音特征。本實(shí)施例中，所述特征提取模塊20將提取到的語(yǔ)音特征實(shí)時(shí)保存在一個(gè)第一語(yǔ)音數(shù)據(jù)庫(kù)21中，所述第一語(yǔ)音數(shù)據(jù)庫(kù)21可以是本地?cái)?shù)據(jù)庫(kù)，也可以是云端數(shù)據(jù)庫(kù)。所述語(yǔ)音特征指所述用戶(hù)語(yǔ)音的特征數(shù)據(jù)。

所述模型訓(xùn)練模塊30用于根據(jù)所述語(yǔ)音特征以及預(yù)設(shè)的規(guī)則，建立對(duì)應(yīng)的聲學(xué)和語(yǔ)言模型，以供在后續(xù)識(shí)別過(guò)程中，將提取的語(yǔ)音特征與所述聲學(xué)和語(yǔ)言模型進(jìn)行匹配與比較，得到最佳的識(shí)別結(jié)果。本實(shí)施例中，所述預(yù)設(shè)的規(guī)則是動(dòng)態(tài)時(shí)間規(guī)整((Dynamic time warping，簡(jiǎn)稱(chēng)DTW)、隱形馬爾可夫(Hidden Markov Model，HMM)理論、矢量量化(Vector Quantization，簡(jiǎn)稱(chēng)VQ)技術(shù)中的至少其中之一者。此外，本實(shí)施例中，所述模型訓(xùn)練模塊30定時(shí)從所述第一語(yǔ)音數(shù)據(jù)庫(kù)21中提取所述語(yǔ)音特征，以進(jìn)行模型訓(xùn)練。當(dāng)然，在其他實(shí)施例中，所述模型訓(xùn)練模塊30也可實(shí)時(shí)提取第一語(yǔ)音數(shù)據(jù)庫(kù)21中的特定語(yǔ)音特征，以進(jìn)行實(shí)時(shí)的模型訓(xùn)練，或者定量(例如100條)提取所述特定語(yǔ)音特征，本發(fā)明不以此些實(shí)施例為限

所述更新模塊40用于實(shí)時(shí)保存并更新所述聲學(xué)和語(yǔ)言模型到一個(gè)模型數(shù)據(jù)庫(kù)41中，由此，能夠獲取更龐大的聲學(xué)和語(yǔ)言模型數(shù)據(jù)庫(kù)41，提高了識(shí)別度。

此外，為了能夠?qū)τ脩?hù)的語(yǔ)音信息進(jìn)行保密，且針對(duì)不同的用戶(hù)語(yǔ)音特點(diǎn)提供個(gè)性化的模型訓(xùn)練，所述云端服務(wù)器300包括對(duì)應(yīng)于不同用戶(hù)的多個(gè)私有云主模塊，每個(gè)私有云主模塊包括所述特征提取模塊20、模型訓(xùn)練模塊30以及更新模塊40等等。其中，所述特征提取模塊20提取的特定語(yǔ)音特征保存到對(duì)應(yīng)的私有云模塊下。同時(shí)，所述模型訓(xùn)練模塊30對(duì)所述特定語(yǔ)音特征進(jìn)行聲學(xué)和語(yǔ)言模型訓(xùn)練，并通過(guò)更新模塊40更新所述模型。當(dāng)用戶(hù)啟用所述語(yǔ)音識(shí)別系統(tǒng)100時(shí)，可通過(guò)帳號(hào)鑒權(quán)的方式啟用所述語(yǔ)音識(shí)別功能。

可以理解的是，在其他實(shí)施例中，所述語(yǔ)音識(shí)別系統(tǒng)100還可集成在一個(gè)客戶(hù)端設(shè)備200中，例如：車(chē)載設(shè)備、電腦、手機(jī)、智能家居設(shè)備以及可穿戴設(shè)備等等中，以供用戶(hù)開(kāi)啟離線(xiàn)語(yǔ)音識(shí)別功能。此時(shí)，所述第一語(yǔ)音數(shù)據(jù)庫(kù)21以及模型數(shù)據(jù)庫(kù)41均為本地?cái)?shù)據(jù)庫(kù)。采用此種方式，能夠在無(wú)網(wǎng)絡(luò)連接的情況下，實(shí)現(xiàn)上述語(yǔ)音識(shí)別功能。

總的來(lái)說(shuō)，在傳統(tǒng)語(yǔ)音識(shí)別技術(shù)中，通常不會(huì)將手機(jī)實(shí)時(shí)通話(huà)或利用pad(可以是其他設(shè)備)錄音過(guò)程中的語(yǔ)音進(jìn)行記錄或保存，以作為語(yǔ)音模型訓(xùn)練的樣本。而本發(fā)明通過(guò)實(shí)時(shí)記錄或保存實(shí)時(shí)通話(huà)和錄音信息，并作為語(yǔ)音模型訓(xùn)練的樣本，從而能夠根據(jù)用戶(hù)不同的發(fā)音特點(diǎn)持續(xù)更新模型數(shù)據(jù)庫(kù)41。由此，可以滿(mǎn)足用戶(hù)的個(gè)性化需求，而且能夠支持多種語(yǔ)音，例如英語(yǔ)或者地方方言等，提高了識(shí)別度。此外，本發(fā)明還提供了針對(duì)不同用戶(hù)的私有云主模塊，供用戶(hù)通過(guò)賬戶(hù)鑒權(quán)的方式啟用語(yǔ)音識(shí)別功能，從而能夠提高對(duì)用戶(hù)語(yǔ)音信息的保密性能。

第二實(shí)施例

請(qǐng)參閱圖3，本發(fā)明第二實(shí)施例提供的語(yǔ)音識(shí)別系統(tǒng)100a與第一實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)100基本相同，不同之處在于：所述語(yǔ)音識(shí)別系統(tǒng)100a進(jìn)一步包括識(shí)別模塊50，所述識(shí)別模塊50用于根據(jù)模型數(shù)據(jù)庫(kù)41a中的所述聲學(xué)和語(yǔ)言模型，判斷是否能夠識(shí)別所述語(yǔ)音特征，如果能夠識(shí)別，則生成攜帶控制命令的識(shí)別結(jié)果，否則，將無(wú)法識(shí)別的其他語(yǔ)音特征存儲(chǔ)到第一語(yǔ)音數(shù)據(jù)庫(kù)21a中。此時(shí)，所述第一語(yǔ)音數(shù)據(jù)庫(kù)21a僅需保存無(wú)法識(shí)別的所述語(yǔ)音特征，節(jié)省了占用空間。所述模型訓(xùn)練模塊30也進(jìn)一步包括一個(gè)手動(dòng)標(biāo)注單元31，用于根據(jù)用戶(hù)命令，手動(dòng)將所述匹配度低于所述閾值的無(wú)法識(shí)別的語(yǔ)音特征與預(yù)設(shè)的標(biāo)準(zhǔn)語(yǔ)音進(jìn)行映射，并將所述語(yǔ)音特征與所述標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)及其映射關(guān)系更新在一個(gè)第二語(yǔ)音數(shù)據(jù)庫(kù)33中，供所述識(shí)別模塊50采用。對(duì)應(yīng)的，所述識(shí)別模塊50還用于根據(jù)當(dāng)前輸入的用戶(hù)語(yǔ)音數(shù)據(jù)以及所述第二語(yǔ)音數(shù)據(jù)庫(kù)33，識(shí)別所述語(yǔ)音數(shù)據(jù)并輸出識(shí)別結(jié)果。

更具體的，所述識(shí)別模塊50包括第一解碼單元51以及第二解碼單元52，所述第一解碼單元51用于將當(dāng)前提取的語(yǔ)音特征與所述聲學(xué)和語(yǔ)言模型進(jìn)行匹配度計(jì)算。如果匹配度大于等于閾值，則判斷能夠識(shí)別對(duì)應(yīng)的所述語(yǔ)音特征并輸出識(shí)別結(jié)果，否則，判斷無(wú)法識(shí)別所述語(yǔ)音特征。所述第二解碼單元52用于根據(jù)當(dāng)前輸入的用戶(hù)語(yǔ)音以及所述第二語(yǔ)音數(shù)據(jù)庫(kù)33，識(shí)別所述用戶(hù)的語(yǔ)音，并輸出對(duì)應(yīng)的標(biāo)準(zhǔn)語(yǔ)音。

本實(shí)施例中，所述手動(dòng)標(biāo)注單元31包括提示子單元311、選擇子單元313、輸入子單元315以及確認(rèn)子單元317。所述提示子單元311用于周期性提示用戶(hù)查看存儲(chǔ)在第一語(yǔ)音數(shù)據(jù)庫(kù)21中的無(wú)法識(shí)別的語(yǔ)音特征。所述選擇子單元313用于供用戶(hù)選擇對(duì)應(yīng)于所述無(wú)法識(shí)別的語(yǔ)音特征的標(biāo)準(zhǔn)語(yǔ)音，其中所述標(biāo)準(zhǔn)語(yǔ)音預(yù)先存儲(chǔ)在所述第一語(yǔ)音數(shù)據(jù)庫(kù)21中。例如，用戶(hù)可以通過(guò)聽(tīng)取所述無(wú)法識(shí)別的特定的語(yǔ)音，然后根據(jù)所提供的標(biāo)準(zhǔn)語(yǔ)音，選擇與所述語(yǔ)音特征相匹配的標(biāo)準(zhǔn)語(yǔ)音。所述輸入子單元315，用于供用戶(hù)輸入對(duì)應(yīng)于所述無(wú)法識(shí)別的語(yǔ)音特征的標(biāo)準(zhǔn)語(yǔ)音?？梢岳斫獾氖?，可僅選擇所述選擇子單元313以及所述輸入子單元315其中之一者進(jìn)行設(shè)置，當(dāng)標(biāo)準(zhǔn)語(yǔ)音中無(wú)對(duì)應(yīng)的選項(xiàng)時(shí)，可通過(guò)語(yǔ)音輸入的方式，確定對(duì)應(yīng)的標(biāo)準(zhǔn)語(yǔ)音。所述確認(rèn)子單元317用于供用戶(hù)確認(rèn)所述語(yǔ)音特征與所述標(biāo)準(zhǔn)語(yǔ)音之間的映射關(guān)系，并于確認(rèn)完成后，將所述映射關(guān)系存儲(chǔ)到所述第二語(yǔ)音數(shù)據(jù)庫(kù)33中。

在第二實(shí)施例中，所述特征提取模塊20、模型訓(xùn)練模塊30、更新模塊40以及識(shí)別模塊50等集成在所述云端服務(wù)器300a中，所述識(shí)別模塊50分別識(shí)別不同云模塊下的語(yǔ)音數(shù)據(jù)。

第二實(shí)施例提供的語(yǔ)音識(shí)別系統(tǒng)100a僅對(duì)無(wú)法識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行再次模型訓(xùn)練，能夠減少數(shù)據(jù)冗余度，提高了識(shí)別速度和效率。

此外，所述語(yǔ)音識(shí)別系統(tǒng)100a(或100)可進(jìn)一步包括執(zhí)行模塊60，用于根據(jù)所述識(shí)別結(jié)果，生成特定格式的文本或播放對(duì)應(yīng)的標(biāo)準(zhǔn)語(yǔ)音，并根據(jù)所述控制命令控制對(duì)應(yīng)的客戶(hù)端設(shè)備。而為了能夠在不同的客戶(hù)端設(shè)備200中運(yùn)行所述語(yǔ)音識(shí)別系統(tǒng)100a，所述語(yǔ)音識(shí)別系統(tǒng)100a還可進(jìn)一步包括下載模塊70，用于供用戶(hù)將對(duì)應(yīng)私有云模塊中的更新后的聲學(xué)和語(yǔ)言模型下載到本地，以在本地實(shí)現(xiàn)語(yǔ)音識(shí)別。

可以理解是，在其他實(shí)施例中，所述識(shí)別模塊50對(duì)所述語(yǔ)音特征進(jìn)行識(shí)別的同時(shí)，還可將全部所述語(yǔ)音特征存儲(chǔ)在所述第一語(yǔ)音數(shù)據(jù)庫(kù)21中，以供模型訓(xùn)練模塊30定時(shí)從所述第一語(yǔ)音數(shù)據(jù)庫(kù)21提取所述語(yǔ)音特征，從而進(jìn)行模型訓(xùn)練。

請(qǐng)參閱圖4，本發(fā)明的一個(gè)實(shí)施例提供一種語(yǔ)音識(shí)別方法，所述方法包括以下步驟：

步驟S401，基于啟用實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能，實(shí)時(shí)輸入用戶(hù)的語(yǔ)音。具體的，所述實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能通過(guò)手機(jī)、車(chē)載設(shè)備、電腦、手機(jī)、智能家居設(shè)備以及可穿戴設(shè)備等等實(shí)現(xiàn)。同時(shí)，所述用戶(hù)的語(yǔ)音也可進(jìn)行實(shí)時(shí)保存，供后續(xù)調(diào)用。

步驟S403，從所輸入的用戶(hù)語(yǔ)音中提取語(yǔ)音特征。本實(shí)施例中，提取到的語(yǔ)音特征被實(shí)時(shí)保存在一個(gè)第一語(yǔ)音數(shù)據(jù)庫(kù)21中。其中，所述第一語(yǔ)音數(shù)據(jù)庫(kù)21可以是本地?cái)?shù)據(jù)庫(kù)，也可以是云端數(shù)據(jù)庫(kù)，所述語(yǔ)音特征指所述用戶(hù)語(yǔ)音的特征數(shù)據(jù)。

步驟S405，根據(jù)所述語(yǔ)音特征以及預(yù)設(shè)的規(guī)則，建立對(duì)應(yīng)的聲學(xué)和語(yǔ)言模型，以供在后續(xù)識(shí)別過(guò)程中，將提取的語(yǔ)音特征與所述聲學(xué)和語(yǔ)言模型進(jìn)行匹配與比較，得到最佳的識(shí)別結(jié)果。

步驟S407，實(shí)時(shí)保存并更新所述聲學(xué)和語(yǔ)言模型到一個(gè)模型數(shù)據(jù)庫(kù)41中，由此，能夠獲取更龐大的聲學(xué)和語(yǔ)言模型數(shù)據(jù)庫(kù)41，提高了識(shí)別度。

在本實(shí)施例中，步驟S401在客戶(hù)端設(shè)備上執(zhí)行，例如是通過(guò)麥克風(fēng)及其處理電路進(jìn)行語(yǔ)音輸入。所述步驟S403、步驟S405、步驟S407在云端服務(wù)器300中執(zhí)行。而為了能夠?qū)τ脩?hù)的語(yǔ)音信息進(jìn)行保密，且針對(duì)不同的用戶(hù)語(yǔ)音特點(diǎn)提供個(gè)性化的模型訓(xùn)練，所述云端服務(wù)器還包括對(duì)應(yīng)于不同用戶(hù)的多個(gè)私有云賬戶(hù)，每個(gè)私有云主賬戶(hù)可分別執(zhí)行所述步驟S403～S407，當(dāng)用戶(hù)啟用所述語(yǔ)音識(shí)別功能時(shí)，可通過(guò)帳號(hào)鑒權(quán)的方式進(jìn)行。

可以理解的是，在其他實(shí)施例中，所述步驟S401～S407均可在客戶(hù)端設(shè)備200上執(zhí)行，且所述第一語(yǔ)音數(shù)據(jù)庫(kù)21和模型數(shù)據(jù)庫(kù)41為本地?cái)?shù)據(jù)庫(kù)。

請(qǐng)參閱圖5，在又一實(shí)施例中，除了上述步驟S401～S407，所述語(yǔ)音識(shí)別方法進(jìn)一步包括：

步驟S409，根據(jù)模型數(shù)據(jù)庫(kù)41中的所述聲學(xué)和語(yǔ)言模型，判斷是否能夠識(shí)別所述語(yǔ)音特征，如果能夠識(shí)別，則執(zhí)行步驟S411，生成攜帶控制命令的識(shí)別結(jié)果，否則，執(zhí)行步驟S413，將無(wú)法識(shí)別的其他語(yǔ)音特征存儲(chǔ)到所述第一語(yǔ)音數(shù)據(jù)庫(kù)21中。

具體的，請(qǐng)參閱圖6，所述步驟S409包括以下子步驟：

子步驟S409a，將所述語(yǔ)音特征與所述聲學(xué)和語(yǔ)言模型進(jìn)行匹配度計(jì)算，如果匹配度大于等于閾值，則執(zhí)行子步驟S409b，判斷能夠識(shí)別對(duì)應(yīng)的所述語(yǔ)音特征并輸出識(shí)別結(jié)果，否則，執(zhí)行子步驟S409c，判斷無(wú)法識(shí)別所述語(yǔ)音特征。

子步驟S409d，根據(jù)用戶(hù)命令，手動(dòng)將所述匹配度低于所述閾值的無(wú)法識(shí)別的語(yǔ)音特征與預(yù)設(shè)的標(biāo)準(zhǔn)語(yǔ)音進(jìn)行映射，并將所述語(yǔ)音特征與所述標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)及其映射關(guān)系更新在一個(gè)第二語(yǔ)音數(shù)據(jù)庫(kù)33中。

此時(shí)，所述第一語(yǔ)音數(shù)據(jù)庫(kù)21僅保存無(wú)法識(shí)別的所述語(yǔ)音特征，因此語(yǔ)音識(shí)別系統(tǒng)100僅需要對(duì)無(wú)法識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行再次模型訓(xùn)練，能夠減少數(shù)據(jù)冗余度，提高了識(shí)別速度和效率。

請(qǐng)參閱圖7，在又一實(shí)施例中，結(jié)合步驟S401～S413，所述方法進(jìn)一步包括：

步驟S415，根據(jù)所述識(shí)別結(jié)果，生成特定格式的文本或播放對(duì)應(yīng)的標(biāo)準(zhǔn)語(yǔ)音，并根據(jù)所述控制命令控制對(duì)應(yīng)的客戶(hù)端設(shè)備；

步驟S417，將對(duì)應(yīng)私有云模塊中的更新后的聲學(xué)和語(yǔ)言模型下載到本地，以在本地實(shí)現(xiàn)語(yǔ)音識(shí)別。

又，在其他實(shí)施例中，對(duì)所述語(yǔ)音特征進(jìn)行識(shí)別的同時(shí)，還可將全部所述語(yǔ)音特征存儲(chǔ)在所述第一語(yǔ)音數(shù)據(jù)庫(kù)21中，以定時(shí)、實(shí)時(shí)或定量從所述第一語(yǔ)音數(shù)據(jù)庫(kù)21提取所述語(yǔ)音特征，從而進(jìn)行模型訓(xùn)練。

本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)和方法通過(guò)實(shí)時(shí)記錄或保存實(shí)時(shí)通話(huà)和錄音信息，并作為語(yǔ)音模型訓(xùn)練的樣本，從而能夠根據(jù)用戶(hù)不同的發(fā)音特點(diǎn)持續(xù)更新模型數(shù)據(jù)庫(kù)41。由此，可以滿(mǎn)足用戶(hù)的個(gè)性化需求，而且能夠支持多種語(yǔ)音，例如英語(yǔ)或者地方方言等，提高了識(shí)別度。此外，本發(fā)明還提供了針對(duì)不同用戶(hù)的私有云主模塊(賬戶(hù))，供用戶(hù)通過(guò)賬戶(hù)鑒權(quán)的方式啟用語(yǔ)音識(shí)別功能，從而能夠提高對(duì)用戶(hù)語(yǔ)音信息的保密性能。

需要說(shuō)明的是，通過(guò)以上的實(shí)施方式的描述，本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)，當(dāng)然也可以全部通過(guò)硬件來(lái)實(shí)施?；谶@樣的理解，本發(fā)明的技術(shù)方案對(duì)背景技術(shù)做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái)，該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中，如ROM/RAM、磁碟、光盤(pán)等，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。

以上所揭露的僅為本發(fā)明實(shí)施例中的較佳實(shí)施例而已，當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍，因此依本發(fā)明權(quán)利要求所作的等同變化，仍屬本發(fā)明所涵蓋的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李強(qiáng)生;
技術(shù)所有人：深圳市全圣時(shí)代科技有限公司;
我是此專(zhuān)利的發(fā)明人