欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語(yǔ)音識(shí)別系統(tǒng)及方法、客戶(hù)端設(shè)備及云端服務(wù)器與流程

文檔序號(hào):12142415閱讀:689來(lái)源:國(guó)知局
語(yǔ)音識(shí)別系統(tǒng)及方法、客戶(hù)端設(shè)備及云端服務(wù)器與流程

本發(fā)明涉及語(yǔ)音識(shí)別領(lǐng)域,尤其涉及一種語(yǔ)音識(shí)別系統(tǒng)及方法和具有語(yǔ)音識(shí)別功能的客戶(hù)端設(shè)備及云端服務(wù)器。



背景技術(shù):

“大詞匯連續(xù)語(yǔ)音識(shí)別”(Large Vocabulary Continuous Speech Recognition,LVCSR,簡(jiǎn)稱(chēng)“語(yǔ)音識(shí)別”),就是由計(jì)算機(jī)根據(jù)人的連續(xù)聲音信號(hào)中所蘊(yùn)涵的語(yǔ)言信息,識(shí)別出某段語(yǔ)音對(duì)應(yīng)的是哪些文字的過(guò)程。

大詞匯連續(xù)漢語(yǔ)語(yǔ)音識(shí)別器已經(jīng)取得了很大的進(jìn)展,對(duì)標(biāo)準(zhǔn)普通話(huà),識(shí)別器的準(zhǔn)確率可以達(dá)到95%以上。但是,漢語(yǔ)的方言問(wèn)題是漢語(yǔ)語(yǔ)音識(shí)別面臨的主要問(wèn)題。由于在中國(guó)大部分人的普通話(huà)都帶有一定的方言背景,在這樣的情況下,大部分的語(yǔ)音識(shí)別器的性能都會(huì)大大下降,甚至無(wú)法使用。

當(dāng)前包括蘋(píng)果公司的Siri、中國(guó)的科大訊飛等設(shè)備和軟件可以提供語(yǔ)音輸入功能,但是語(yǔ)音識(shí)別受用戶(hù)個(gè)人發(fā)音的影響,導(dǎo)致語(yǔ)音識(shí)別時(shí)準(zhǔn)確率受到很大影響,進(jìn)而影響了語(yǔ)音識(shí)別功能的適用。另外,大量的非智能客戶(hù)端設(shè)備,在使用時(shí)其自帶的語(yǔ)音操控功能,也由于語(yǔ)音輸入時(shí)識(shí)別率的問(wèn)題,而影響到其語(yǔ)音功能的適用,例如汽車(chē)中的語(yǔ)音操作功能、藍(lán)牙耳機(jī)、門(mén)鈴等設(shè)備的語(yǔ)音操控等。

目前很多識(shí)別器對(duì)方言背景對(duì)語(yǔ)音識(shí)別器性能造成的影響是用數(shù)據(jù)庫(kù)方法去消除或減弱的,就是說(shuō),當(dāng)已經(jīng)有一個(gè)對(duì)標(biāo)準(zhǔn)普通話(huà)進(jìn)行識(shí)別的語(yǔ)音識(shí)別器,需要對(duì)帶某種方言背景的普通話(huà)進(jìn)行識(shí)別時(shí),采用的方法為:收集大量與該方言有關(guān)的第一語(yǔ)音數(shù)據(jù)庫(kù),然后利用已有的聲學(xué)模型訓(xùn)練方法去重新訓(xùn)練聲學(xué)模型,或利用已有的說(shuō)話(huà)人自適應(yīng)方法對(duì)聲學(xué)模型進(jìn)行自適應(yīng)。這種方法的缺點(diǎn)是:(1)收集帶方言背景的數(shù)據(jù)庫(kù)的工作量非常巨大,對(duì)于漢語(yǔ)這么多的方言,數(shù)據(jù)庫(kù)的收集更是一件巨大的工程。(2)這種方法無(wú)法兼顧標(biāo)準(zhǔn)普通話(huà)和帶發(fā)音背景普通話(huà)之間的共性,僅是通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方法去解決問(wèn)題,相當(dāng)于完全重新構(gòu)建一個(gè)語(yǔ)音識(shí)別器,給不同方言背景的語(yǔ)音識(shí)別器之間的資源共享和兼容帶來(lái)困難。



技術(shù)實(shí)現(xiàn)要素:

為了解決上述技術(shù)問(wèn)題,本發(fā)明提供一種語(yǔ)音識(shí)別系統(tǒng)及方法和具有語(yǔ)音識(shí)別功能的客戶(hù)端設(shè)備及云端服務(wù)器。

本發(fā)明一實(shí)施例提供一種語(yǔ)音識(shí)別系統(tǒng),至少包括:語(yǔ)音輸入模塊,用于當(dāng)啟用實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能時(shí),實(shí)時(shí)輸入用戶(hù)的語(yǔ)音;特征提取模塊,用于從所輸入的用戶(hù)語(yǔ)音中提取語(yǔ)音特征;模型訓(xùn)練模塊,用于根據(jù)所述語(yǔ)音特征以及預(yù)設(shè)的規(guī)則,建立對(duì)應(yīng)的聲學(xué)和語(yǔ)言模型;以及更新模塊,用于保存并更新所述聲學(xué)和語(yǔ)言模型到一個(gè)模型數(shù)據(jù)庫(kù)中。

本發(fā)明另一實(shí)施例還提供一種語(yǔ)音識(shí)別方法,包括:基于啟用實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能實(shí)時(shí)輸入用戶(hù)的語(yǔ)音;從所輸入的用戶(hù)語(yǔ)音中提取語(yǔ)音特征;根據(jù)所述語(yǔ)音特征以及預(yù)設(shè)的規(guī)則,建立對(duì)應(yīng)的聲學(xué)和語(yǔ)言模型;以及實(shí)時(shí)保存并更新所述聲學(xué)和語(yǔ)言模型到一個(gè)模型數(shù)據(jù)庫(kù)中。

本發(fā)明又一實(shí)施例提供一種客戶(hù)端設(shè)備,其包括上述的語(yǔ)音識(shí)別系統(tǒng)。

發(fā)明再一實(shí)施例提供一種云端服務(wù)器,其包括對(duì)應(yīng)不同用戶(hù)的多個(gè)私有云主模塊。每個(gè)云主模塊包括:特征提取模塊,用于從來(lái)自于正在啟用實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能的客戶(hù)端設(shè)備所輸入的用戶(hù)語(yǔ)音中提取語(yǔ)音特征;模型訓(xùn)練模塊,用于根據(jù)所述語(yǔ)音特征以及預(yù)設(shè)的規(guī)則,建立對(duì)應(yīng)的聲學(xué)和語(yǔ)言模型;以及更新模塊,用于保存并更新所述聲學(xué)和語(yǔ)言模型到一個(gè)模型數(shù)據(jù)庫(kù)中。

本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)和方法通過(guò)實(shí)時(shí)記錄或保存實(shí)時(shí)通話(huà)和錄音信息,并作為語(yǔ)音模型訓(xùn)練的樣本,從而能夠根據(jù)用戶(hù)不同的發(fā)音特點(diǎn)持續(xù)更新模型數(shù)據(jù)庫(kù)。由此,可以滿(mǎn)足用戶(hù)的個(gè)性化需求,而且能夠支持多種語(yǔ)音,例如英語(yǔ)或者地方方言等,提高了識(shí)別度。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明第一實(shí)施例提供的語(yǔ)音識(shí)別系統(tǒng)的系統(tǒng)框架圖;

圖2是圖1的語(yǔ)音識(shí)別系統(tǒng)的功能模塊圖;

圖3是本發(fā)明第二實(shí)施例提供的語(yǔ)音識(shí)別系統(tǒng)的功能模塊圖;

圖4是本發(fā)明一實(shí)施例提供的語(yǔ)音識(shí)別方法的流程圖;

圖5是本發(fā)明另一實(shí)施例提供的語(yǔ)音識(shí)別方法的流程圖;

圖6是圖5中的步驟S409的具體流程圖;

圖7是本發(fā)明又一實(shí)施例提供的語(yǔ)音識(shí)別方法的流程圖。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步更詳細(xì)的描述。顯然,所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都應(yīng)屬于本發(fā)明保護(hù)的范圍。

第一實(shí)施例

請(qǐng)參閱圖1,其為本發(fā)明第一實(shí)施例提供的一種語(yǔ)音識(shí)別系統(tǒng)100的系統(tǒng)架構(gòu)圖。在本實(shí)施例中,所述語(yǔ)音識(shí)別系統(tǒng)100由客戶(hù)端設(shè)備200與云端服務(wù)器300共同實(shí)現(xiàn),以能夠通過(guò)云端服務(wù)器300完成識(shí)別前端、模型訓(xùn)練和識(shí)別后端的全過(guò)程,并將最終的語(yǔ)音識(shí)別結(jié)果下發(fā)至客戶(hù)端設(shè)備200。如此,可減輕客戶(hù)端設(shè)備200的數(shù)據(jù)處理量,部署起來(lái)非常方便,且后續(xù)升級(jí)的大部分工作也都在云端服務(wù)器300完成。

具體的,請(qǐng)參閱圖2,所述語(yǔ)音識(shí)別系統(tǒng)100至少包括語(yǔ)音輸入模塊10、特征提取模塊20、模型訓(xùn)練模塊30以及更新模塊40。本實(shí)施例中,所述語(yǔ)音輸入模塊10設(shè)置在客戶(hù)端設(shè)備200上,例如是麥克風(fēng)及其處理電路。所述特征提取模塊20、模型訓(xùn)練模塊30、更新模塊40等集成在所述云端服務(wù)器300中。

所述語(yǔ)音輸入模塊10用于當(dāng)客戶(hù)端設(shè)備200啟用實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能時(shí),實(shí)時(shí)輸入用戶(hù)的語(yǔ)音。所述客戶(hù)端設(shè)備200可以是手機(jī)、車(chē)載設(shè)備、電腦、手機(jī)、智能家居設(shè)備以及可穿戴設(shè)備等等。所述用戶(hù)的語(yǔ)音也可進(jìn)行本地保存或云端保存。

所述特征提取模塊20用于從所輸入的用戶(hù)語(yǔ)音中提取語(yǔ)音特征。本實(shí)施例中,所述特征提取模塊20將提取到的語(yǔ)音特征實(shí)時(shí)保存在一個(gè)第一語(yǔ)音數(shù)據(jù)庫(kù)21中,所述第一語(yǔ)音數(shù)據(jù)庫(kù)21可以是本地?cái)?shù)據(jù)庫(kù),也可以是云端數(shù)據(jù)庫(kù)。所述語(yǔ)音特征指所述用戶(hù)語(yǔ)音的特征數(shù)據(jù)。

所述模型訓(xùn)練模塊30用于根據(jù)所述語(yǔ)音特征以及預(yù)設(shè)的規(guī)則,建立對(duì)應(yīng)的聲學(xué)和語(yǔ)言模型,以供在后續(xù)識(shí)別過(guò)程中,將提取的語(yǔ)音特征與所述聲學(xué)和語(yǔ)言模型進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。本實(shí)施例中,所述預(yù)設(shè)的規(guī)則是動(dòng)態(tài)時(shí)間規(guī)整((Dynamic time warping,簡(jiǎn)稱(chēng)DTW)、隱形馬爾可夫(Hidden Markov Model,HMM)理論、矢量量化(Vector Quantization,簡(jiǎn)稱(chēng)VQ)技術(shù)中的至少其中之一者。此外,本實(shí)施例中,所述模型訓(xùn)練模塊30定時(shí)從所述第一語(yǔ)音數(shù)據(jù)庫(kù)21中提取所述語(yǔ)音特征,以進(jìn)行模型訓(xùn)練。當(dāng)然,在其他實(shí)施例中,所述模型訓(xùn)練模塊30也可實(shí)時(shí)提取第一語(yǔ)音數(shù)據(jù)庫(kù)21中的特定語(yǔ)音特征,以進(jìn)行實(shí)時(shí)的模型訓(xùn)練,或者定量(例如100條)提取所述特定語(yǔ)音特征,本發(fā)明不以此些實(shí)施例為限

所述更新模塊40用于實(shí)時(shí)保存并更新所述聲學(xué)和語(yǔ)言模型到一個(gè)模型數(shù)據(jù)庫(kù)41中,由此,能夠獲取更龐大的聲學(xué)和語(yǔ)言模型數(shù)據(jù)庫(kù)41,提高了識(shí)別度。

此外,為了能夠?qū)τ脩?hù)的語(yǔ)音信息進(jìn)行保密,且針對(duì)不同的用戶(hù)語(yǔ)音特點(diǎn)提供個(gè)性化的模型訓(xùn)練,所述云端服務(wù)器300包括對(duì)應(yīng)于不同用戶(hù)的多個(gè)私有云主模塊,每個(gè)私有云主模塊包括所述特征提取模塊20、模型訓(xùn)練模塊30以及更新模塊40等等。其中,所述特征提取模塊20提取的特定語(yǔ)音特征保存到對(duì)應(yīng)的私有云模塊下。同時(shí),所述模型訓(xùn)練模塊30對(duì)所述特定語(yǔ)音特征進(jìn)行聲學(xué)和語(yǔ)言模型訓(xùn)練,并通過(guò)更新模塊40更新所述模型。當(dāng)用戶(hù)啟用所述語(yǔ)音識(shí)別系統(tǒng)100時(shí),可通過(guò)帳號(hào)鑒權(quán)的方式啟用所述語(yǔ)音識(shí)別功能。

可以理解的是,在其他實(shí)施例中,所述語(yǔ)音識(shí)別系統(tǒng)100還可集成在一個(gè)客戶(hù)端設(shè)備200中,例如:車(chē)載設(shè)備、電腦、手機(jī)、智能家居設(shè)備以及可穿戴設(shè)備等等中,以供用戶(hù)開(kāi)啟離線(xiàn)語(yǔ)音識(shí)別功能。此時(shí),所述第一語(yǔ)音數(shù)據(jù)庫(kù)21以及模型數(shù)據(jù)庫(kù)41均為本地?cái)?shù)據(jù)庫(kù)。采用此種方式,能夠在無(wú)網(wǎng)絡(luò)連接的情況下,實(shí)現(xiàn)上述語(yǔ)音識(shí)別功能。

總的來(lái)說(shuō),在傳統(tǒng)語(yǔ)音識(shí)別技術(shù)中,通常不會(huì)將手機(jī)實(shí)時(shí)通話(huà)或利用pad(可以是其他設(shè)備)錄音過(guò)程中的語(yǔ)音進(jìn)行記錄或保存,以作為語(yǔ)音模型訓(xùn)練的樣本。而本發(fā)明通過(guò)實(shí)時(shí)記錄或保存實(shí)時(shí)通話(huà)和錄音信息,并作為語(yǔ)音模型訓(xùn)練的樣本,從而能夠根據(jù)用戶(hù)不同的發(fā)音特點(diǎn)持續(xù)更新模型數(shù)據(jù)庫(kù)41。由此,可以滿(mǎn)足用戶(hù)的個(gè)性化需求,而且能夠支持多種語(yǔ)音,例如英語(yǔ)或者地方方言等,提高了識(shí)別度。此外,本發(fā)明還提供了針對(duì)不同用戶(hù)的私有云主模塊,供用戶(hù)通過(guò)賬戶(hù)鑒權(quán)的方式啟用語(yǔ)音識(shí)別功能,從而能夠提高對(duì)用戶(hù)語(yǔ)音信息的保密性能。

第二實(shí)施例

請(qǐng)參閱圖3,本發(fā)明第二實(shí)施例提供的語(yǔ)音識(shí)別系統(tǒng)100a與第一實(shí)施例的語(yǔ)音識(shí)別系統(tǒng)100基本相同,不同之處在于:所述語(yǔ)音識(shí)別系統(tǒng)100a進(jìn)一步包括識(shí)別模塊50,所述識(shí)別模塊50用于根據(jù)模型數(shù)據(jù)庫(kù)41a中的所述聲學(xué)和語(yǔ)言模型,判斷是否能夠識(shí)別所述語(yǔ)音特征,如果能夠識(shí)別,則生成攜帶控制命令的識(shí)別結(jié)果,否則,將無(wú)法識(shí)別的其他語(yǔ)音特征存儲(chǔ)到第一語(yǔ)音數(shù)據(jù)庫(kù)21a中。此時(shí),所述第一語(yǔ)音數(shù)據(jù)庫(kù)21a僅需保存無(wú)法識(shí)別的所述語(yǔ)音特征,節(jié)省了占用空間。所述模型訓(xùn)練模塊30也進(jìn)一步包括一個(gè)手動(dòng)標(biāo)注單元31,用于根據(jù)用戶(hù)命令,手動(dòng)將所述匹配度低于所述閾值的無(wú)法識(shí)別的語(yǔ)音特征與預(yù)設(shè)的標(biāo)準(zhǔn)語(yǔ)音進(jìn)行映射,并將所述語(yǔ)音特征與所述標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)及其映射關(guān)系更新在一個(gè)第二語(yǔ)音數(shù)據(jù)庫(kù)33中,供所述識(shí)別模塊50采用。對(duì)應(yīng)的,所述識(shí)別模塊50還用于根據(jù)當(dāng)前輸入的用戶(hù)語(yǔ)音數(shù)據(jù)以及所述第二語(yǔ)音數(shù)據(jù)庫(kù)33,識(shí)別所述語(yǔ)音數(shù)據(jù)并輸出識(shí)別結(jié)果。

更具體的,所述識(shí)別模塊50包括第一解碼單元51以及第二解碼單元52,所述第一解碼單元51用于將當(dāng)前提取的語(yǔ)音特征與所述聲學(xué)和語(yǔ)言模型進(jìn)行匹配度計(jì)算。如果匹配度大于等于閾值,則判斷能夠識(shí)別對(duì)應(yīng)的所述語(yǔ)音特征并輸出識(shí)別結(jié)果,否則,判斷無(wú)法識(shí)別所述語(yǔ)音特征。所述第二解碼單元52用于根據(jù)當(dāng)前輸入的用戶(hù)語(yǔ)音以及所述第二語(yǔ)音數(shù)據(jù)庫(kù)33,識(shí)別所述用戶(hù)的語(yǔ)音,并輸出對(duì)應(yīng)的標(biāo)準(zhǔn)語(yǔ)音。

本實(shí)施例中,所述手動(dòng)標(biāo)注單元31包括提示子單元311、選擇子單元313、輸入子單元315以及確認(rèn)子單元317。所述提示子單元311用于周期性提示用戶(hù)查看存儲(chǔ)在第一語(yǔ)音數(shù)據(jù)庫(kù)21中的無(wú)法識(shí)別的語(yǔ)音特征。所述選擇子單元313用于供用戶(hù)選擇對(duì)應(yīng)于所述無(wú)法識(shí)別的語(yǔ)音特征的標(biāo)準(zhǔn)語(yǔ)音,其中所述標(biāo)準(zhǔn)語(yǔ)音預(yù)先存儲(chǔ)在所述第一語(yǔ)音數(shù)據(jù)庫(kù)21中。例如,用戶(hù)可以通過(guò)聽(tīng)取所述無(wú)法識(shí)別的特定的語(yǔ)音,然后根據(jù)所提供的標(biāo)準(zhǔn)語(yǔ)音,選擇與所述語(yǔ)音特征相匹配的標(biāo)準(zhǔn)語(yǔ)音。所述輸入子單元315,用于供用戶(hù)輸入對(duì)應(yīng)于所述無(wú)法識(shí)別的語(yǔ)音特征的標(biāo)準(zhǔn)語(yǔ)音??梢岳斫獾氖?,可僅選擇所述選擇子單元313以及所述輸入子單元315其中之一者進(jìn)行設(shè)置,當(dāng)標(biāo)準(zhǔn)語(yǔ)音中無(wú)對(duì)應(yīng)的選項(xiàng)時(shí),可通過(guò)語(yǔ)音輸入的方式,確定對(duì)應(yīng)的標(biāo)準(zhǔn)語(yǔ)音。所述確認(rèn)子單元317用于供用戶(hù)確認(rèn)所述語(yǔ)音特征與所述標(biāo)準(zhǔn)語(yǔ)音之間的映射關(guān)系,并于確認(rèn)完成后,將所述映射關(guān)系存儲(chǔ)到所述第二語(yǔ)音數(shù)據(jù)庫(kù)33中。

在第二實(shí)施例中,所述特征提取模塊20、模型訓(xùn)練模塊30、更新模塊40以及識(shí)別模塊50等集成在所述云端服務(wù)器300a中,所述識(shí)別模塊50分別識(shí)別不同云模塊下的語(yǔ)音數(shù)據(jù)。

第二實(shí)施例提供的語(yǔ)音識(shí)別系統(tǒng)100a僅對(duì)無(wú)法識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行再次模型訓(xùn)練,能夠減少數(shù)據(jù)冗余度,提高了識(shí)別速度和效率。

此外,所述語(yǔ)音識(shí)別系統(tǒng)100a(或100)可進(jìn)一步包括執(zhí)行模塊60,用于根據(jù)所述識(shí)別結(jié)果,生成特定格式的文本或播放對(duì)應(yīng)的標(biāo)準(zhǔn)語(yǔ)音,并根據(jù)所述控制命令控制對(duì)應(yīng)的客戶(hù)端設(shè)備。而為了能夠在不同的客戶(hù)端設(shè)備200中運(yùn)行所述語(yǔ)音識(shí)別系統(tǒng)100a,所述語(yǔ)音識(shí)別系統(tǒng)100a還可進(jìn)一步包括下載模塊70,用于供用戶(hù)將對(duì)應(yīng)私有云模塊中的更新后的聲學(xué)和語(yǔ)言模型下載到本地,以在本地實(shí)現(xiàn)語(yǔ)音識(shí)別。

可以理解是,在其他實(shí)施例中,所述識(shí)別模塊50對(duì)所述語(yǔ)音特征進(jìn)行識(shí)別的同時(shí),還可將全部所述語(yǔ)音特征存儲(chǔ)在所述第一語(yǔ)音數(shù)據(jù)庫(kù)21中,以供模型訓(xùn)練模塊30定時(shí)從所述第一語(yǔ)音數(shù)據(jù)庫(kù)21提取所述語(yǔ)音特征,從而進(jìn)行模型訓(xùn)練。

請(qǐng)參閱圖4,本發(fā)明的一個(gè)實(shí)施例提供一種語(yǔ)音識(shí)別方法,所述方法包括以下步驟:

步驟S401,基于啟用實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能,實(shí)時(shí)輸入用戶(hù)的語(yǔ)音。具體的,所述實(shí)時(shí)通話(huà)或語(yǔ)音錄入功能通過(guò)手機(jī)、車(chē)載設(shè)備、電腦、手機(jī)、智能家居設(shè)備以及可穿戴設(shè)備等等實(shí)現(xiàn)。同時(shí),所述用戶(hù)的語(yǔ)音也可進(jìn)行實(shí)時(shí)保存,供后續(xù)調(diào)用。

步驟S403,從所輸入的用戶(hù)語(yǔ)音中提取語(yǔ)音特征。本實(shí)施例中,提取到的語(yǔ)音特征被實(shí)時(shí)保存在一個(gè)第一語(yǔ)音數(shù)據(jù)庫(kù)21中。其中,所述第一語(yǔ)音數(shù)據(jù)庫(kù)21可以是本地?cái)?shù)據(jù)庫(kù),也可以是云端數(shù)據(jù)庫(kù),所述語(yǔ)音特征指所述用戶(hù)語(yǔ)音的特征數(shù)據(jù)。

步驟S405,根據(jù)所述語(yǔ)音特征以及預(yù)設(shè)的規(guī)則,建立對(duì)應(yīng)的聲學(xué)和語(yǔ)言模型,以供在后續(xù)識(shí)別過(guò)程中,將提取的語(yǔ)音特征與所述聲學(xué)和語(yǔ)言模型進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。

步驟S407,實(shí)時(shí)保存并更新所述聲學(xué)和語(yǔ)言模型到一個(gè)模型數(shù)據(jù)庫(kù)41中,由此,能夠獲取更龐大的聲學(xué)和語(yǔ)言模型數(shù)據(jù)庫(kù)41,提高了識(shí)別度。

在本實(shí)施例中,步驟S401在客戶(hù)端設(shè)備上執(zhí)行,例如是通過(guò)麥克風(fēng)及其處理電路進(jìn)行語(yǔ)音輸入。所述步驟S403、步驟S405、步驟S407在云端服務(wù)器300中執(zhí)行。而為了能夠?qū)τ脩?hù)的語(yǔ)音信息進(jìn)行保密,且針對(duì)不同的用戶(hù)語(yǔ)音特點(diǎn)提供個(gè)性化的模型訓(xùn)練,所述云端服務(wù)器還包括對(duì)應(yīng)于不同用戶(hù)的多個(gè)私有云賬戶(hù),每個(gè)私有云主賬戶(hù)可分別執(zhí)行所述步驟S403~S407,當(dāng)用戶(hù)啟用所述語(yǔ)音識(shí)別功能時(shí),可通過(guò)帳號(hào)鑒權(quán)的方式進(jìn)行。

可以理解的是,在其他實(shí)施例中,所述步驟S401~S407均可在客戶(hù)端設(shè)備200上執(zhí)行,且所述第一語(yǔ)音數(shù)據(jù)庫(kù)21和模型數(shù)據(jù)庫(kù)41為本地?cái)?shù)據(jù)庫(kù)。

請(qǐng)參閱圖5,在又一實(shí)施例中,除了上述步驟S401~S407,所述語(yǔ)音識(shí)別方法進(jìn)一步包括:

步驟S409,根據(jù)模型數(shù)據(jù)庫(kù)41中的所述聲學(xué)和語(yǔ)言模型,判斷是否能夠識(shí)別所述語(yǔ)音特征,如果能夠識(shí)別,則執(zhí)行步驟S411,生成攜帶控制命令的識(shí)別結(jié)果,否則,執(zhí)行步驟S413,將無(wú)法識(shí)別的其他語(yǔ)音特征存儲(chǔ)到所述第一語(yǔ)音數(shù)據(jù)庫(kù)21中。

具體的,請(qǐng)參閱圖6,所述步驟S409包括以下子步驟:

子步驟S409a,將所述語(yǔ)音特征與所述聲學(xué)和語(yǔ)言模型進(jìn)行匹配度計(jì)算,如果匹配度大于等于閾值,則執(zhí)行子步驟S409b,判斷能夠識(shí)別對(duì)應(yīng)的所述語(yǔ)音特征并輸出識(shí)別結(jié)果,否則,執(zhí)行子步驟S409c,判斷無(wú)法識(shí)別所述語(yǔ)音特征。

子步驟S409d,根據(jù)用戶(hù)命令,手動(dòng)將所述匹配度低于所述閾值的無(wú)法識(shí)別的語(yǔ)音特征與預(yù)設(shè)的標(biāo)準(zhǔn)語(yǔ)音進(jìn)行映射,并將所述語(yǔ)音特征與所述標(biāo)準(zhǔn)語(yǔ)音數(shù)據(jù)及其映射關(guān)系更新在一個(gè)第二語(yǔ)音數(shù)據(jù)庫(kù)33中。

此時(shí),所述第一語(yǔ)音數(shù)據(jù)庫(kù)21僅保存無(wú)法識(shí)別的所述語(yǔ)音特征,因此語(yǔ)音識(shí)別系統(tǒng)100僅需要對(duì)無(wú)法識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行再次模型訓(xùn)練,能夠減少數(shù)據(jù)冗余度,提高了識(shí)別速度和效率。

請(qǐng)參閱圖7,在又一實(shí)施例中,結(jié)合步驟S401~S413,所述方法進(jìn)一步包括:

步驟S415,根據(jù)所述識(shí)別結(jié)果,生成特定格式的文本或播放對(duì)應(yīng)的標(biāo)準(zhǔn)語(yǔ)音,并根據(jù)所述控制命令控制對(duì)應(yīng)的客戶(hù)端設(shè)備;

步驟S417,將對(duì)應(yīng)私有云模塊中的更新后的聲學(xué)和語(yǔ)言模型下載到本地,以在本地實(shí)現(xiàn)語(yǔ)音識(shí)別。

又,在其他實(shí)施例中,對(duì)所述語(yǔ)音特征進(jìn)行識(shí)別的同時(shí),還可將全部所述語(yǔ)音特征存儲(chǔ)在所述第一語(yǔ)音數(shù)據(jù)庫(kù)21中,以定時(shí)、實(shí)時(shí)或定量從所述第一語(yǔ)音數(shù)據(jù)庫(kù)21提取所述語(yǔ)音特征,從而進(jìn)行模型訓(xùn)練。

本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)和方法通過(guò)實(shí)時(shí)記錄或保存實(shí)時(shí)通話(huà)和錄音信息,并作為語(yǔ)音模型訓(xùn)練的樣本,從而能夠根據(jù)用戶(hù)不同的發(fā)音特點(diǎn)持續(xù)更新模型數(shù)據(jù)庫(kù)41。由此,可以滿(mǎn)足用戶(hù)的個(gè)性化需求,而且能夠支持多種語(yǔ)音,例如英語(yǔ)或者地方方言等,提高了識(shí)別度。此外,本發(fā)明還提供了針對(duì)不同用戶(hù)的私有云主模塊(賬戶(hù)),供用戶(hù)通過(guò)賬戶(hù)鑒權(quán)的方式啟用語(yǔ)音識(shí)別功能,從而能夠提高對(duì)用戶(hù)語(yǔ)音信息的保密性能。

需要說(shuō)明的是,通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以全部通過(guò)硬件來(lái)實(shí)施?;谶@樣的理解,本發(fā)明的技術(shù)方案對(duì)背景技術(shù)做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤(pán)等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。

以上所揭露的僅為本發(fā)明實(shí)施例中的較佳實(shí)施例而已,當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
荆州市| 抚宁县| 荔浦县| 辰溪县| 祁东县| 乐亭县| 莱州市| 荔波县| 历史| 福贡县| 虎林市| 绥棱县| 蛟河市| 玛沁县| 黑水县| 卫辉市| 中宁县| 绍兴市| 麦盖提县| 仁寿县| 调兵山市| 读书| 济阳县| 民乐县| 阿拉善左旗| 新河县| 闽侯县| 冕宁县| 葫芦岛市| 沈阳市| 林口县| 临夏市| 黔江区| 平江县| 夏邑县| 祁连县| 华池县| 上思县| 莱芜市| 滨州市| 邢台市|