一種語(yǔ)音識(shí)別方法

文檔序號(hào)：2825427閱讀：314來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語(yǔ)音識(shí)別方法
【專利摘要】一種語(yǔ)音識(shí)別方法，基于word3-gram和context-dependentHMM，其中語(yǔ)音識(shí)別方法包括訓(xùn)練和識(shí)別兩個(gè)部分，訓(xùn)練就是HMM建模的過(guò)程，其中，語(yǔ)音識(shí)別包括兩種解決方案，為非語(yǔ)音現(xiàn)象合發(fā)聲變形建立相應(yīng)的聲學(xué)模型，或建立描述口語(yǔ)內(nèi)在隨機(jī)性語(yǔ)法網(wǎng)絡(luò)或統(tǒng)計(jì)語(yǔ)言模型；語(yǔ)音采集方式為實(shí)時(shí)采集：一邊進(jìn)行實(shí)時(shí)采集一邊將已經(jīng)采集的語(yǔ)音實(shí)時(shí)送往緩存。本發(fā)明的語(yǔ)音識(shí)別方法，在已有功能模塊及應(yīng)用方法的基礎(chǔ)上自主建立語(yǔ)音庫(kù)，可以實(shí)現(xiàn)即時(shí)語(yǔ)音識(shí)別，不僅具有對(duì)英文識(shí)別率高，在日文識(shí)別率也處于世界領(lǐng)先地位，尤其是在剛起步的日文語(yǔ)音識(shí)別市場(chǎng)，更是國(guó)際領(lǐng)先水平。而這套語(yǔ)音識(shí)別技術(shù)所采用的技術(shù)框架完全可以擴(kuò)展到中文識(shí)別甚至可以擴(kuò)展到包括中文的其他國(guó)家語(yǔ)言。
【專利說(shuō)明】一種語(yǔ)音識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明具體涉及一種語(yǔ)音識(shí)別方法。
【背景技術(shù)】
[0002]語(yǔ)音識(shí)別又是一門交叉學(xué)科，它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理理論、計(jì)算機(jī)科學(xué)等眾多科學(xué)緊密相連。語(yǔ)言識(shí)別是以基于應(yīng)用就是語(yǔ)言打字機(jī)，用口述代替鍵盤(pán)，實(shí)現(xiàn)向計(jì)算機(jī)輸入文字，它具有自然、快速、不需用手、不受地點(diǎn)限制等優(yōu)點(diǎn)。在英語(yǔ)識(shí)別系統(tǒng)中，Google和Nuance是目前語(yǔ)言識(shí)別技術(shù)的領(lǐng)跑者，其所開(kāi)發(fā)的商業(yè)語(yǔ)言識(shí)別引擎被廣泛購(gòu)買使用。目前，還有一些語(yǔ)音識(shí)別技術(shù)采用京都大學(xué)的語(yǔ)音識(shí)別引擎，其獨(dú)特的技術(shù)框架具有較好的識(shí)別率和擴(kuò)展性.基于word 3-gram和context-dependent HMM雖然它的性能優(yōu)秀，但是目前市場(chǎng)上并沒(méi)有成熟的產(chǎn)品面世。

【發(fā)明內(nèi)容】

[0003]為了解決目前存在的不足，本發(fā)明提供了一種適用性強(qiáng)的語(yǔ)音識(shí)別方法。
[0004]一種語(yǔ)音識(shí)別方法,基于word 3-gram和context-dependent HMM,其中語(yǔ)音識(shí)別方法包括訓(xùn)練和識(shí)別兩個(gè)部分，訓(xùn)練就是HMM建模的過(guò)程，根據(jù)一定的參數(shù)重估算法，不斷調(diào)整模型參數(shù)，其中，
語(yǔ)音識(shí)別包括兩種解決方案，為非語(yǔ)音現(xiàn)象合發(fā)聲變形建立相應(yīng)的聲學(xué)模型，或建立描述口語(yǔ)內(nèi)在隨機(jī)性語(yǔ)法網(wǎng)絡(luò)或統(tǒng)計(jì)語(yǔ)言模型；
語(yǔ)音采集方式為實(shí)時(shí)采集:一邊進(jìn)行實(shí)時(shí)采集一邊將已經(jīng)采集的語(yǔ)音實(shí)時(shí)送往緩存。
[0005]優(yōu)選的，所述語(yǔ)音識(shí)別方法采用具有抗噪特性的特征，并通過(guò)麥克風(fēng)陣列、語(yǔ)音增強(qiáng)和針對(duì)噪聲的模型補(bǔ)償方法，去除電話合周圍環(huán)境噪音等影響。
[0006]優(yōu)選的，所述語(yǔ)音識(shí)別方法還包括基于語(yǔ)音識(shí)別的人機(jī)互動(dòng):通過(guò)讓計(jì)算機(jī)識(shí)別人的語(yǔ)音指令來(lái)驅(qū)動(dòng)模型，為游戲引擎提供了語(yǔ)音識(shí)別上的軟件技術(shù)支持，從而在語(yǔ)音上實(shí)現(xiàn)對(duì)游戲中人物角色的行為進(jìn)行控制。
[0007]與現(xiàn)有技術(shù)相比，本發(fā)明的優(yōu)勢(shì)在于:
本發(fā)明的語(yǔ)音識(shí)別技術(shù)識(shí)別率高，擴(kuò)展性好，這套語(yǔ)音識(shí)別技術(shù)所采用的技術(shù)框架完全可以擴(kuò)展到中文識(shí)別甚至是其他語(yǔ)言的識(shí)別中。
[0008]本發(fā)明將語(yǔ)音采集方式改為實(shí)時(shí)采集:不等說(shuō)話人說(shuō)完，就將已經(jīng)采集的語(yǔ)音實(shí)時(shí)送往緩存，一邊處理一邊采集，可以極大提高系統(tǒng)效率?，F(xiàn)在語(yǔ)音數(shù)據(jù)都是先存到硬盤(pán)上，在送往識(shí)別器進(jìn)行識(shí)別，反應(yīng)速度慢。
[0009]通過(guò)自主建立語(yǔ)音庫(kù)，可以實(shí)現(xiàn)即時(shí)語(yǔ)音識(shí)別，不僅具有對(duì)英文識(shí)別率高，在日文識(shí)別率也處于世界領(lǐng)先地位，尤其是在剛起步的日文語(yǔ)音識(shí)別市場(chǎng)，更是國(guó)際領(lǐng)先水平。而這套語(yǔ)音識(shí)別技術(shù)所采用的技術(shù)框架完全可以擴(kuò)展到中文識(shí)別甚至可以擴(kuò)展到包括中文的其他國(guó)家語(yǔ)言。
[0010]【專利附圖】

【附圖說(shuō)明】圖1為本發(fā)明的一種語(yǔ)音識(shí)別方法的流程示意圖。[0011 ]
【具體實(shí)施方式】
[0012]結(jié)合圖1所示，本發(fā)明的一種語(yǔ)音識(shí)別方法，自主研發(fā)的語(yǔ)音識(shí)別技術(shù)所采用的語(yǔ)音識(shí)別技術(shù)基于京都大學(xué)的語(yǔ)音識(shí)別引擎，其獨(dú)特的技術(shù)框架具有較好的識(shí)別率和擴(kuò)展性.基于word 3-gram和context-dependent HMM雖然它的性能優(yōu)秀,但是目前市場(chǎng)上并沒(méi)有成熟的產(chǎn)品面世。在此之上通過(guò)自主建立語(yǔ)音庫(kù)，可以實(shí)現(xiàn)即時(shí)語(yǔ)音識(shí)別，不僅具有對(duì)英文識(shí)別率高，在日文識(shí)別率也處于世界領(lǐng)先地位，尤其是在剛起步的日文語(yǔ)音識(shí)別市場(chǎng)，更是國(guó)際領(lǐng)先水平。而這套語(yǔ)音識(shí)別技術(shù)所采用的技術(shù)框架完全可以擴(kuò)展到中文識(shí)別甚至可以擴(kuò)展到包括中文的其他國(guó)家語(yǔ)言。
[0013]從圖1可以看出，語(yǔ)音識(shí)別系統(tǒng)要經(jīng)過(guò)訓(xùn)練和識(shí)別兩個(gè)部分，訓(xùn)練就是HMM建模的過(guò)程，根據(jù)一定的參數(shù)重估算法，不斷調(diào)整模型參數(shù)，得到性能較好的模型，通過(guò)對(duì)基本模型的改進(jìn)和優(yōu)化，提高模型的精確度，以到達(dá)較好的識(shí)別效果。
[0014]創(chuàng)新技術(shù)點(diǎn):
(I)自然口語(yǔ)語(yǔ)音識(shí)別在實(shí)際的使用環(huán)境中，更多、更自然的人機(jī)交互式是“自然口語(yǔ)”，本技術(shù)對(duì)口語(yǔ)識(shí)別提出兩種解決方案:①為非語(yǔ)音現(xiàn)象合發(fā)聲變形建立相應(yīng)的聲學(xué)模型建立描述口語(yǔ)內(nèi)在隨機(jī)性語(yǔ)法網(wǎng)絡(luò)或統(tǒng)計(jì)語(yǔ)言模型。
[0015](2)采用具有抗噪特性的特征，麥克風(fēng)陣列、語(yǔ)音增強(qiáng)和針對(duì)噪聲的模型補(bǔ)償方法，去除電話合周圍環(huán)境噪音等影響
(3)語(yǔ)音識(shí)別技術(shù)識(shí)別率高，擴(kuò)展性好，這套語(yǔ)音識(shí)別技術(shù)所采用的技術(shù)框架完全可以擴(kuò)展到中文識(shí)別甚至是其他語(yǔ)言的識(shí)別中。
[0016](4)改進(jìn)了基于特征的彈性圖區(qū)配語(yǔ)音算法
證明改進(jìn)算法識(shí)別率高、實(shí)時(shí)性好，在給出OdB，2dB，8dB，12dB, 15dB信號(hào)比下，仍能準(zhǔn)確的檢測(cè)出端點(diǎn)結(jié)果。
[0017](5)基于語(yǔ)音識(shí)別的人機(jī)互動(dòng)
通過(guò)讓計(jì)算機(jī)識(shí)別人的語(yǔ)音指令來(lái)驅(qū)動(dòng)模型，所以語(yǔ)音識(shí)別的性能將決定互動(dòng)的結(jié)果，為游戲引擎提供了語(yǔ)音識(shí)別上的軟件技術(shù)支持，可以在語(yǔ)音上實(shí)現(xiàn)對(duì)游戲中人物角色的行為進(jìn)行控制，實(shí)現(xiàn)真正意義上的實(shí)時(shí)性語(yǔ)音互動(dòng)。
[0018](6)將語(yǔ)音采集方式改為實(shí)時(shí)采集
不等說(shuō)話人說(shuō)完，就將已經(jīng)采集的語(yǔ)音實(shí)時(shí)送往緩存，一邊處理一邊采集，可以極大提高系統(tǒng)效率?，F(xiàn)在語(yǔ)音數(shù)據(jù)都是先存到硬盤(pán)上，在送往識(shí)別器進(jìn)行識(shí)別，反應(yīng)速度慢。
[0019]隨著對(duì)語(yǔ)音識(shí)別技術(shù)的研究和應(yīng)用，人們將對(duì)人類的發(fā)聲機(jī)能的認(rèn)識(shí)有更深入的認(rèn)識(shí)。對(duì)各國(guó)語(yǔ)言的電子化也會(huì)有巨大促進(jìn)作用。同時(shí)包括音聲模型及網(wǎng)絡(luò)傳輸協(xié)議在內(nèi)等現(xiàn)有技術(shù)也會(huì)隨之不斷更新，從而將相關(guān)的學(xué)科推向一個(gè)新的高度。本項(xiàng)目中自主研發(fā)的編解碼技術(shù)和語(yǔ)音識(shí)別技術(shù)對(duì)國(guó)內(nèi)同行業(yè)市場(chǎng)注入新鮮的血液，對(duì)形成行業(yè)的良性競(jìng)爭(zhēng)和不斷優(yōu)質(zhì)發(fā)展具有積極的作用，同時(shí)也會(huì)填補(bǔ)國(guó)內(nèi)語(yǔ)音識(shí)別技術(shù)中針對(duì)日語(yǔ)識(shí)別的技術(shù)空白。
[0020]上述實(shí)施例只是為了說(shuō)明本發(fā)明的技術(shù)構(gòu)思及特點(diǎn)，其目的是在于讓本領(lǐng)域內(nèi)的普通技術(shù)人員能夠了解本發(fā)明的內(nèi)容并據(jù)以實(shí)施，并不能以此限制本發(fā)明的保護(hù)范圍。凡是根據(jù)本
【發(fā)明內(nèi)容】
的實(shí)質(zhì)所作出的等效的變化或修飾，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種語(yǔ)音識(shí)別方法，基于word 3-gram和context-dependent HMM,其中語(yǔ)音識(shí)別方法包括訓(xùn)練和識(shí)別兩個(gè)部分，訓(xùn)練就是HMM建模的過(guò)程，根據(jù)一定的參數(shù)重估算法，不斷調(diào)整模型參數(shù)，其特征在于，語(yǔ)音識(shí)別包括兩種解決方案，為非語(yǔ)音現(xiàn)象合發(fā)聲變形建立相應(yīng)的聲學(xué)模型，或建立描述口語(yǔ)內(nèi)在隨機(jī)性語(yǔ)法網(wǎng)絡(luò)或統(tǒng)計(jì)語(yǔ)言模型；語(yǔ)音采集方式為實(shí)時(shí)采集:一邊進(jìn)行實(shí)時(shí)采集一邊將已經(jīng)采集的語(yǔ)音實(shí)時(shí)送往緩存。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音識(shí)別方法，其特征在于，所述語(yǔ)音識(shí)別方法采用具有抗噪特性的特征，并通過(guò)麥克風(fēng)陣列、語(yǔ)音增強(qiáng)和針對(duì)噪聲的模型補(bǔ)償方法，去除電話合周圍環(huán)境噪音等影響。
3.根據(jù)權(quán)利要求1所述的語(yǔ)音識(shí)別方法，其特征在于，所述語(yǔ)音識(shí)別方法還包括基于語(yǔ)音識(shí)別的人機(jī)互動(dòng):通過(guò)讓計(jì)算機(jī)識(shí)別人的語(yǔ)音指令來(lái)驅(qū)動(dòng)模型，為游戲引擎提供了語(yǔ)音識(shí)別上的軟件技術(shù)支持，從而在語(yǔ)音上實(shí)現(xiàn)對(duì)游戲中人物角色的行為進(jìn)行控制。
【文檔編號(hào)】G10L15/06GK103474062SQ201210276162
【公開(kāi)日】2013年12月25日申請(qǐng)日期:2012年8月6日優(yōu)先權(quán)日:2012年8月6日
【發(fā)明者】陳奕申請(qǐng)人:蘇州沃通信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載