欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息識(shí)別裝置與信息識(shí)別方法

文檔序號(hào):6442554閱讀:170來(lái)源:國(guó)知局
專利名稱:信息識(shí)別裝置與信息識(shí)別方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種信息識(shí)別裝置與信息識(shí)別方法,其中,使用在講話時(shí)說(shuō)話者的肌肉的肌電信號(hào)來(lái)識(shí)別所說(shuō)的內(nèi)容。
背景技術(shù)
信息識(shí)別裝置先前早已為人們所熟知,由此,使用發(fā)生講話動(dòng)作的人的口周肌的運(yùn)動(dòng)等所產(chǎn)生的、與聲音無(wú)關(guān)的肌電信號(hào)來(lái)識(shí)別發(fā)音的內(nèi)容。這樣一來(lái),用不著說(shuō)話者所產(chǎn)生的聲音,僅從口或舌等的運(yùn)動(dòng)就能實(shí)現(xiàn)信息識(shí)別。這在嘈雜的環(huán)境中或者在需要保持安靜的地方是十分有用的。
在這樣一種信息識(shí)別裝置中,根據(jù)肌電信號(hào)進(jìn)行信息識(shí)別的方法例如包括如同Noboru Sugie等人在題為《使用語(yǔ)音合成器從口周肌活動(dòng)來(lái)進(jìn)行元音鑒別以及元音產(chǎn)生》的論文[見(jiàn)美國(guó)電氣與電子工程師學(xué)會(huì)(IEEE)生物醫(yī)學(xué)工程匯刊,第32卷,第7期,1985年,第485-490頁(yè)]中所發(fā)表的一種信息識(shí)別方法那樣,通過(guò)令肌電信號(hào)通過(guò)一個(gè)帶通濾波器,并對(duì)跨過(guò)閾值的次數(shù)進(jìn)行計(jì)數(shù),來(lái)鑒別5個(gè)元音(a,i,u,e,0);如同在日本專利公開(kāi)第H.7-181888號(hào)中所公開(kāi)的那樣,借助于神經(jīng)網(wǎng)絡(luò)來(lái)處理通過(guò)對(duì)口周肌的肌電信號(hào)進(jìn)行快速付里葉變換(FFT)處理而獲得的功率譜,對(duì)來(lái)自說(shuō)話者的不僅是元音而且還有輔音進(jìn)行檢測(cè)的方法;或者如同在日本專利公開(kāi)第H.6-12483號(hào)中所公開(kāi)的那樣,使用閾值將肌電信號(hào)的幅度轉(zhuǎn)換為二進(jìn)制形式,并使用神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行處理。

發(fā)明內(nèi)容
然而,上述信息識(shí)別方法存在這樣的問(wèn)題,即,不可能顯著地提高發(fā)音內(nèi)容的識(shí)別率。
考慮到上述問(wèn)題,本發(fā)明的一個(gè)目標(biāo)就是提供一種具有高識(shí)別率的信息識(shí)別裝置與信息識(shí)別方法。
根據(jù)本發(fā)明的一種信息識(shí)別裝置在說(shuō)話者講話時(shí)使用說(shuō)話者的肌肉的肌電信號(hào)來(lái)識(shí)別發(fā)音的內(nèi)容,這種裝置包括肌電信號(hào)采集裝置,用于采集所述肌電信號(hào);活動(dòng)量信息提取裝置,用于從所述肌電信號(hào)中提取涉及所述肌肉的活動(dòng)量的信息;以及信息識(shí)別裝置,它使用涉及所述肌肉活動(dòng)量的信息來(lái)識(shí)別所述發(fā)音的內(nèi)容。
根據(jù)本發(fā)明的一種信息識(shí)別方法在說(shuō)話者講話時(shí)通過(guò)使用說(shuō)話者的肌肉的肌電信號(hào)來(lái)識(shí)別發(fā)音的內(nèi)容,這種方法包括一個(gè)肌電信號(hào)采集步驟,用于采集所述肌電信號(hào);一個(gè)活動(dòng)量信息提取步驟,用于從所述肌電信號(hào)中提取涉及所述肌肉的活動(dòng)量的信息;以及一個(gè)信息識(shí)別步驟,使用涉及肌肉活動(dòng)量的所述信息來(lái)識(shí)別所述發(fā)音的內(nèi)容。
采用根據(jù)本發(fā)明的信息識(shí)別裝置或信息識(shí)別方法,從肌電信號(hào)中提取涉及肌肉活動(dòng)量的信息,并使用涉及說(shuō)話者的肌肉活動(dòng)量的信息來(lái)進(jìn)行信息識(shí)別。由于在說(shuō)話者的肌肉活動(dòng)量與說(shuō)話者所發(fā)出的音素之間存在一種規(guī)定的對(duì)應(yīng)關(guān)系,所以通過(guò)使用涉及肌肉活動(dòng)量的信息來(lái)進(jìn)行信息識(shí)別,就能以高的識(shí)別率來(lái)識(shí)別一段發(fā)音的內(nèi)容。
最好是,在所述信息識(shí)別裝置中,所述活動(dòng)量信息提取裝置獲得所述肌電信號(hào)的均方根值、整流后的平均值以及積分平均值中至少之一,作為涉及所述肌肉活動(dòng)量的信息。
同樣,最好是,在所述信息識(shí)別方法中的所述活動(dòng)量信息提取步驟,獲得所述肌電信號(hào)的均方根值、整流后的平均值以及積分平均值中至少之一,作為涉及肌肉活動(dòng)量的所述信息。
由于肌電信號(hào)的均方根值、整流后的平均值以及積分平均值與肌肉活動(dòng)量高度相關(guān),所以,通過(guò)獲取均方根值、整流后的平均值以及積分平均值作為涉及肌肉活動(dòng)量的信息,就能適當(dāng)?shù)剡M(jìn)行發(fā)音內(nèi)容的識(shí)別。同樣,從肌電信號(hào)中獲得這些平均值的計(jì)算負(fù)荷與通常對(duì)肌電信號(hào)的FFT處理中所涉及的計(jì)算負(fù)荷相比要低很多。
此外,最好是,在所述的信息識(shí)別裝置中,所述信息識(shí)別裝置借助于一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別所述發(fā)音的內(nèi)容,上述神經(jīng)網(wǎng)絡(luò)輸入涉及所述肌肉活動(dòng)量的信息。
同樣,最好是,在所述的信息識(shí)別方法中的所述信息識(shí)別步驟,借助于一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別所述發(fā)音的內(nèi)容,上述神經(jīng)網(wǎng)絡(luò)輸入涉及所述肌肉活動(dòng)量的信息。
這樣,通過(guò)使用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行信息識(shí)別(該神經(jīng)網(wǎng)絡(luò)輸入涉及肌肉活動(dòng)量的信息),就能方便地識(shí)別一段發(fā)音的內(nèi)容。
所述信息識(shí)別裝置還可以包括一個(gè)數(shù)據(jù)庫(kù),在其中,各音素與涉及一名說(shuō)話者在發(fā)出相關(guān)音素時(shí)的肌肉活動(dòng)量的信息相關(guān)聯(lián),并且,所述信息識(shí)別裝置通過(guò)使用由所述活動(dòng)量信息提取裝置所提取的涉及肌肉活動(dòng)量的信息,查找所述數(shù)據(jù)庫(kù),可以獲取由所述說(shuō)話者所發(fā)出的一個(gè)音素。
同樣,在所述信息識(shí)別方法中的所述信息識(shí)別步驟中,通過(guò)使用由所述活動(dòng)量信息提取步驟所提取的涉及肌肉活動(dòng)量的信息,查找一個(gè)將各音素與涉及一名說(shuō)話者在發(fā)出相關(guān)音素時(shí)的肌肉活動(dòng)量的信息相關(guān)聯(lián)的數(shù)據(jù)庫(kù),就能獲取由所述說(shuō)話者所發(fā)出的一個(gè)音素。
這樣,通過(guò)使用涉及肌肉活動(dòng)量的信息,查找一個(gè)將各音素與涉及在發(fā)出相關(guān)音素時(shí)的肌肉活動(dòng)量的信息相關(guān)聯(lián)的數(shù)據(jù)庫(kù),就能容易地獲取由說(shuō)話者所發(fā)出的音素,并方便地識(shí)別發(fā)音內(nèi)容。
此外,最好是,所述的信息識(shí)別裝置還包括音頻信息采集裝置,它采集涉及所述發(fā)音所產(chǎn)生的聲音的信息;音頻信息識(shí)別裝置,它使用涉及所述聲音的信息,來(lái)識(shí)別所述發(fā)音的內(nèi)容;以及學(xué)習(xí)裝置,它進(jìn)行與由所述信息識(shí)別裝置進(jìn)行的信息識(shí)別有關(guān)的學(xué)習(xí),在學(xué)習(xí)過(guò)程中,使用由所述活動(dòng)量信息提取裝置所提取的涉及肌肉活動(dòng)量的信息,以及由所述音頻信息識(shí)別裝置所識(shí)別的、構(gòu)成教學(xué)數(shù)據(jù)的發(fā)音內(nèi)容,而且,通過(guò)使用由所述活動(dòng)量信息提取裝置所提取的涉及肌肉活動(dòng)量的信息,參照所述學(xué)習(xí)的結(jié)果,所述信息識(shí)別裝置識(shí)別所述發(fā)音的內(nèi)容。
同樣,最好是,所述信息識(shí)別方法還包括一個(gè)音頻信息采集步驟,采集涉及所述發(fā)音所產(chǎn)生的聲音的信息;一個(gè)音頻信息識(shí)別步驟,使用涉及所述聲音的信息,來(lái)識(shí)別所述發(fā)音的內(nèi)容;以及一個(gè)學(xué)習(xí)步驟,進(jìn)行與在所述信息識(shí)別步驟中的信息識(shí)別有關(guān)的學(xué)習(xí),在學(xué)習(xí)過(guò)程中,使用由所述活動(dòng)量信息提取步驟所提取的涉及肌肉活動(dòng)量的信息,以及由所述音頻信息識(shí)別步驟所識(shí)別的、構(gòu)成教學(xué)數(shù)據(jù)的發(fā)音內(nèi)容,而且,在所述信息識(shí)別步驟中,通過(guò)使用由所述活動(dòng)量信息提取步驟所提取的涉及肌肉活動(dòng)量的信息,參照所述學(xué)習(xí)的結(jié)果,就能識(shí)別所述發(fā)音的內(nèi)容。
借助于這樣的學(xué)習(xí),就能實(shí)現(xiàn)適于說(shuō)話者的信息識(shí)別,并且識(shí)別率甚至還可以進(jìn)一步地提高。同樣,由于使用在發(fā)音時(shí)所產(chǎn)生的聲音,通過(guò)信息識(shí)別來(lái)產(chǎn)生教學(xué)數(shù)據(jù),所以就能使用自由發(fā)音來(lái)進(jìn)行學(xué)習(xí)而不要求說(shuō)話者知道,同時(shí)在學(xué)習(xí)過(guò)程中說(shuō)話者的負(fù)荷因而得以減輕。
通過(guò)在下文中給出的詳細(xì)說(shuō)明以及諸附圖,將使讀者更充分地理解本發(fā)明,給出這些附圖僅僅是為了說(shuō)明,并且不應(yīng)被認(rèn)為是用來(lái)限定本發(fā)明。
通過(guò)在下文中給出的詳細(xì)說(shuō)明將使本發(fā)明的更大應(yīng)用范圍變得明顯。然而,應(yīng)當(dāng)理解,對(duì)專業(yè)人士來(lái)說(shuō),從詳細(xì)說(shuō)明中可以明顯得出處于本發(fā)明的實(shí)質(zhì)和范圍之內(nèi)的各種改變和修改,因此,在表示本發(fā)明的各優(yōu)選實(shí)施例時(shí),詳細(xì)的說(shuō)明以及各具體實(shí)例僅僅是為了說(shuō)明而給出的。


圖1是一份方框圖,表示根據(jù)第一實(shí)施例的信息識(shí)別裝置;圖2A和2B這兩份圖說(shuō)明在圖1的活動(dòng)量信息提取裝置中,用時(shí)間窗口對(duì)肌電信號(hào)進(jìn)行開(kāi)窗處理的方法;圖3A和3B這兩份圖說(shuō)明一種方法,用以在圖1的活動(dòng)量信息提取裝置中,從已提取的肌電信號(hào)中獲取涉及肌肉活動(dòng)量的信息;圖4說(shuō)明當(dāng)不說(shuō)話以及當(dāng)發(fā)“a”,“i”,“u”,“e”和“o”音時(shí),涉及3種口周肌的肌肉活動(dòng)量的信息;圖5是一份圖,表示在圖1的活動(dòng)量信息識(shí)別裝置中的神經(jīng)網(wǎng)絡(luò);圖6是表示用以在第一實(shí)施例中進(jìn)行涉及信息識(shí)別的學(xué)習(xí)的一個(gè)過(guò)程的流程圖;圖7是表示在第一實(shí)施例中使用無(wú)聲發(fā)音來(lái)進(jìn)行信息識(shí)別的一個(gè)過(guò)程的流程圖;圖8是一份方框圖,表示根據(jù)第二實(shí)施例的信息識(shí)別裝置;以及圖9是一份表格,表示圖8中的音素/活動(dòng)量信息數(shù)據(jù)庫(kù)的一個(gè)實(shí)例。
具體實(shí)施例方式
下面,將參照諸附圖,對(duì)根據(jù)本發(fā)明的信息識(shí)別裝置的優(yōu)選實(shí)施例進(jìn)行詳細(xì)說(shuō)明。
圖1是一份方框圖,表示根據(jù)第一實(shí)施例的信息識(shí)別裝置。根據(jù)本實(shí)施例的信息識(shí)別裝置100是這樣一種信息識(shí)別裝置,它能識(shí)別進(jìn)行無(wú)聲的說(shuō)話動(dòng)作即不產(chǎn)生聲音的說(shuō)話動(dòng)作的說(shuō)話者的發(fā)音內(nèi)容,并且包括肌電信號(hào)采集裝置11,它從一名說(shuō)話者那里獲取肌電信號(hào);活動(dòng)量信息提取裝置12,它從肌電信號(hào)中提取涉及肌肉活動(dòng)量的信息;活動(dòng)量信息識(shí)別裝置(對(duì)應(yīng)于信息識(shí)別裝置)16,它使用涉及肌肉活動(dòng)量的信息,對(duì)一名說(shuō)話者的發(fā)音內(nèi)容進(jìn)行信息識(shí)別;識(shí)別結(jié)果顯示裝置17,它顯示信息識(shí)別的結(jié)果;以及一個(gè)學(xué)習(xí)部分33,它進(jìn)行與在活動(dòng)量信息識(shí)別裝置16中進(jìn)行的信息識(shí)別有關(guān)的學(xué)習(xí)。
肌電信號(hào)采集裝置11獲取說(shuō)話者進(jìn)行發(fā)音動(dòng)作時(shí)因口周肌(發(fā)音器官)的活動(dòng)而產(chǎn)生的肌電信號(hào)的波動(dòng)等,并放大所獲得的肌電信號(hào)。為了以高精度來(lái)進(jìn)行信息識(shí)別,希望獲得多塊口周肌的肌電信號(hào)。用這種方法獲得的肌電信號(hào)的一個(gè)實(shí)例示于圖2A。水平軸為時(shí)間,垂直軸為肌電信號(hào)的電位。
回到圖1,活動(dòng)量信息提取裝置12用規(guī)定的時(shí)間窗口為由肌電信號(hào)采集裝置11放大的肌電信號(hào)開(kāi)窗,并從每一個(gè)時(shí)間窗口中的肌電信號(hào)中提取涉及肌肉活動(dòng)量的信息。
具體地說(shuō),首先,如圖2A和2B所示,由規(guī)定長(zhǎng)度的主時(shí)間窗口40、41、42等為肌電信號(hào)采集裝置11所獲得的肌電信號(hào)50順序地開(kāi)窗。這些主時(shí)間窗口40、41、42被假定為具有相同的時(shí)間長(zhǎng)度,并且在每一個(gè)實(shí)例中,這些主時(shí)間窗口40、41、42的起始時(shí)間都被相繼延遲一段規(guī)定的時(shí)間,例如在每一個(gè)實(shí)例中都延遲主時(shí)間窗口的時(shí)間長(zhǎng)度的一半。此外,在需要時(shí),主時(shí)間窗口41等各自還可以進(jìn)一步地劃分為任何所需數(shù)目的輔助時(shí)間窗口43、44、45。元音的識(shí)別可以主要地使用主時(shí)間窗口40、41、42等來(lái)進(jìn)行,而輔音的識(shí)別則可以使用輔助時(shí)間窗口43、44、45等來(lái)進(jìn)行。
接下來(lái),如圖3A和3B所示,計(jì)算肌電信號(hào)的均方根值(RMS),作為涉及各主時(shí)間窗口41等或輔助時(shí)間窗口43等有關(guān)的肌肉活動(dòng)量的信息。均方根值由下列表達(dá)式給出定義,式中e(t)為肌電信號(hào)(EMG)的電位。RMS=12T∫-TTe2(t+τ)dτ---(1)]]>可以被使用的、與肌肉活動(dòng)量相關(guān)的其它數(shù)量是由公式(2)表示的肌電信號(hào)的整流后的平均值(ARV),或者是由公式(3)表示的肌電信號(hào)的積分平均值(IEMG)等,所有這些都可以在組合方式下使用。ARV=∫-∞+∞h(τ)|e(t+τ)|dτ---(2)]]>其中,∫-∞+∞h(τ)dτ=0]]>IEMG=∫TT+ΔT|e(t+τ)|dτ---(3)]]>現(xiàn)在來(lái)說(shuō)明以這種方式從肌電信號(hào)中提取涉及肌肉活動(dòng)量的信息的理由。
當(dāng)一名說(shuō)話者發(fā)出音素(例如各元音或各輔音)時(shí),對(duì)每一個(gè)音素來(lái)說(shuō),說(shuō)話者的各口周肌的活動(dòng)量是不同的。圖4表示,當(dāng)說(shuō)話者分別發(fā)出“a”,“i”,“u”,“e”和“o”時(shí),以及當(dāng)處于松弛狀態(tài)即不說(shuō)話時(shí),分別代表一名說(shuō)話者的3種口周肌的肌肉活動(dòng)量的所獲取肌電信號(hào)的均方根值被分別描繪在X軸、Y軸和Z軸上的結(jié)果。
如從圖4中所看出的那樣,當(dāng)不講話和當(dāng)發(fā)出“a”,“i”,“u”,“e”和“o”時(shí),各肌肉活動(dòng)量的大小互相不同;還可以看出,各肌肉活動(dòng)量與各音素之間存在一種規(guī)定的對(duì)應(yīng)關(guān)系。通過(guò)從肌電信號(hào)中提取涉及各肌肉活動(dòng)量的信息,并獲得與涉及這些肌肉活動(dòng)量的信息相對(duì)應(yīng)的各音素,就能容易地實(shí)現(xiàn)具有高識(shí)別率的信息識(shí)別。
接下來(lái),回到圖1,活動(dòng)量信息識(shí)別裝置16通過(guò)使用以這種方式獲得的涉及肌肉活動(dòng)量的信息,獲取說(shuō)話者發(fā)出的各音素,來(lái)識(shí)別說(shuō)話者的發(fā)音的內(nèi)容。
具體地說(shuō),如圖5所示,通過(guò)3層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)70來(lái)實(shí)現(xiàn)信息識(shí)別。具體地說(shuō),被送往輸入層71的有輸入信息,例如,由活動(dòng)量信息提取裝置12所獲得的各肌肉的活動(dòng)量相關(guān)的均方根值。輸出層72被構(gòu)成為一個(gè)對(duì)各音素(例如像“a”,“i”,“u”,“…”和“n”那樣的元音和輔音)作出響應(yīng)的單元。神經(jīng)網(wǎng)絡(luò)70使用規(guī)定的識(shí)別參數(shù),根據(jù)被輸入到輸入層71的涉及肌肉活動(dòng)量的信息來(lái)識(shí)別所關(guān)心的發(fā)音中的各音素,并把這些元素輸出到輸出層72。由此來(lái)識(shí)別發(fā)音的內(nèi)容。
對(duì)于在神經(jīng)網(wǎng)絡(luò)70中的各項(xiàng)識(shí)別參數(shù)來(lái)說(shuō),可以采用事先已經(jīng)準(zhǔn)備的各項(xiàng)通用的識(shí)別參數(shù),或者由待說(shuō)明的學(xué)習(xí)部分33產(chǎn)生的、適于說(shuō)話者的各項(xiàng)識(shí)別參數(shù)等。
回到圖1,識(shí)別結(jié)果顯示裝置17借助于顯示器或揚(yáng)聲器等,向說(shuō)話者顯示由活動(dòng)量信息識(shí)別裝置16所識(shí)別的識(shí)別結(jié)果,或者把它們傳送到諸如文字處理程序那樣的應(yīng)用程序,或者通過(guò)通信裝置等把它們發(fā)送到另一方等。
學(xué)習(xí)部分33包括音頻信息采集裝置14、音頻信息識(shí)別裝置15和學(xué)習(xí)裝置13。在說(shuō)話者發(fā)出聲音的時(shí)候也就是說(shuō)話者進(jìn)行出聲的講話時(shí),音頻信息采集裝置14獲得所產(chǎn)生的一個(gè)音頻信號(hào),并通過(guò)對(duì)所獲得的音頻信號(hào)進(jìn)行頻譜分析和/或?qū)?shù)倒頻譜分析等來(lái)獲得音頻信息。
音頻信息識(shí)別裝置15通過(guò)使用音頻信息采集裝置14所獲得的音頻信息進(jìn)行語(yǔ)音識(shí)別而獲得說(shuō)話者的發(fā)音內(nèi)容,并利用該內(nèi)容提供與說(shuō)話者的發(fā)音內(nèi)容相對(duì)應(yīng)的教學(xué)數(shù)據(jù)。對(duì)音頻信息識(shí)別裝置15中的語(yǔ)音識(shí)別方法并沒(méi)有特殊的限制,例如可以用到使用頻譜包絡(luò)等的隱藏的馬爾柯夫模型或者DP匹配方法等。
學(xué)習(xí)裝置13獲得由活動(dòng)量信息提取裝置12所提取的涉及肌肉活動(dòng)量的信息,并獲得由音頻信息識(shí)別裝置15所獲得的講話內(nèi)容作為教學(xué)數(shù)據(jù),進(jìn)行涉及由活動(dòng)量信息識(shí)別裝置16所進(jìn)行的信息識(shí)別的學(xué)習(xí),從而產(chǎn)生用于這種信息識(shí)別的識(shí)別參數(shù)。
更具體地說(shuō),如同在本實(shí)施例中,若活動(dòng)量信息識(shí)別裝置16使用了神經(jīng)網(wǎng)絡(luò)70(見(jiàn)圖5),并對(duì)神經(jīng)網(wǎng)絡(luò)70采用向后傳導(dǎo)法,則構(gòu)成涉及肌肉活動(dòng)量的信息的肌電信號(hào)的均方根值等就被提供給輸入層71,而由輸出層72的音頻信息識(shí)別裝置15識(shí)別出來(lái)的各發(fā)音內(nèi)容可以音素“a”,“i”,“u”,“…”,和“n”的形式輸出;這樣一來(lái),就生成了適用于每個(gè)說(shuō)話者的識(shí)別參數(shù)。
接下來(lái),將對(duì)信息識(shí)別裝置100的操作進(jìn)行說(shuō)明,同時(shí)也將對(duì)根據(jù)本實(shí)施例的信息識(shí)別方法進(jìn)行說(shuō)明。
首先,將參照?qǐng)D6來(lái)說(shuō)明涉及信息識(shí)別的學(xué)習(xí)過(guò)程。
首先,信息識(shí)別裝置100在說(shuō)話者進(jìn)行隨意發(fā)聲講話時(shí),獲得說(shuō)話者肌肉的肌電信號(hào),并在講話所產(chǎn)生的聲音的基礎(chǔ)上獲得音頻信息(步驟101)。
接下來(lái),肌電信號(hào)被用規(guī)定的時(shí)間窗口開(kāi)窗,與每個(gè)時(shí)間窗口中的肌肉活動(dòng)量相關(guān)的信息被提取出來(lái),與此同時(shí),通過(guò)對(duì)音頻信息進(jìn)行語(yǔ)音識(shí)別,發(fā)音的內(nèi)容被提取出來(lái)(步驟102)。
接下來(lái),在涉及肌肉活動(dòng)量的信息和組成教學(xué)數(shù)據(jù)的講話內(nèi)容的基礎(chǔ)上,通過(guò)活動(dòng)量識(shí)別裝置16執(zhí)行與信息識(shí)別相關(guān)的學(xué)習(xí)來(lái)產(chǎn)生用于信息識(shí)別的識(shí)別參數(shù)(步驟103)。
然后,活動(dòng)量信息識(shí)別裝置16獲取識(shí)別參數(shù)(步驟104)。
再接下來(lái),參照?qǐng)D7,將說(shuō)明針對(duì)說(shuō)話者的無(wú)聲發(fā)音進(jìn)行信息識(shí)別的步驟。
首先,信息識(shí)別裝置100在說(shuō)話者進(jìn)行無(wú)聲發(fā)音時(shí),獲得說(shuō)話者的肌電信號(hào)(步驟201)。
接下來(lái),肌電信號(hào)被用規(guī)定的時(shí)間窗口開(kāi)窗,與每個(gè)時(shí)間窗口中的肌肉活動(dòng)量相關(guān)的信息被提取出來(lái)(步驟202)。
再接下來(lái),借助于神經(jīng)網(wǎng)絡(luò)70,使用在上述學(xué)習(xí)過(guò)程中所獲得的各項(xiàng)識(shí)別參數(shù)等,并使用涉及肌肉活動(dòng)量的信息,通過(guò)進(jìn)行信息識(shí)別來(lái)識(shí)別發(fā)音的內(nèi)容(步驟203)。
識(shí)別的結(jié)果被輸出到屏幕,或者通過(guò)聲音來(lái)輸出,或者被發(fā)送到某一應(yīng)用程序例如文字處理程序之中(步驟204)。
這樣,采用根據(jù)本實(shí)施例的信息識(shí)別裝置和信息識(shí)別方法,涉及肌肉活動(dòng)量的信息從肌電信號(hào)中被提取出來(lái),而且通過(guò)使用涉及說(shuō)話者的肌肉活動(dòng)量的信息來(lái)進(jìn)行信息識(shí)別。由于在說(shuō)話者的肌肉活動(dòng)量與說(shuō)話者發(fā)出的音素之間存在規(guī)定的對(duì)應(yīng)關(guān)系,所以通過(guò)使用涉及肌肉活動(dòng)量的信息進(jìn)行信息識(shí)別,就能以很高的識(shí)別率來(lái)實(shí)現(xiàn)對(duì)發(fā)音內(nèi)容的識(shí)別。
此外,由于肌電信號(hào)的均方根值、整流后的平均值和積分平均值與肌肉活動(dòng)量高度相關(guān),所以,通過(guò)獲取作為涉及肌肉活動(dòng)量的信息的均方根值、整流后的平均值和積分平均值,就能對(duì)發(fā)音內(nèi)容進(jìn)行適當(dāng)?shù)淖R(shí)別。而且,從肌電信號(hào)獲得這些平均值的計(jì)算負(fù)荷比使用FFT處理的傳統(tǒng)處理方法的計(jì)算負(fù)荷要低得多。
此外,通過(guò)使用神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行信息識(shí)別,就能適當(dāng)?shù)刈R(shí)別發(fā)音的內(nèi)容,上述神經(jīng)網(wǎng)絡(luò)輸入涉及肌肉活動(dòng)量的信息。
此外,通過(guò)學(xué)習(xí)來(lái)實(shí)現(xiàn)適合于說(shuō)話者的信息識(shí)別甚至可以導(dǎo)致更高識(shí)別率的獲得。由于在學(xué)習(xí)中,通過(guò)使用發(fā)音時(shí)的聲音的語(yǔ)音識(shí)別來(lái)產(chǎn)生教學(xué)數(shù)據(jù),也就是在不要求說(shuō)話者知道的情況下,使用自由講話的形式來(lái)進(jìn)行學(xué)習(xí),所以學(xué)習(xí)過(guò)程中說(shuō)話者的負(fù)擔(dān)就減輕了。
應(yīng)當(dāng)注意的是,即使是在不進(jìn)行上述學(xué)習(xí)的情況下,通過(guò)事先設(shè)置活動(dòng)量信息識(shí)別裝置16有關(guān)的通用識(shí)別參數(shù),也可以以同樣的方式實(shí)現(xiàn)信息識(shí)別。此外,最好是,為了實(shí)現(xiàn)具有高識(shí)別率的信息識(shí)別,應(yīng)該獲取涉及大量肌肉的活動(dòng)量的信息。
接下來(lái),參照?qǐng)D8,對(duì)根據(jù)第二實(shí)施例的信息識(shí)別裝置200進(jìn)行說(shuō)明。本實(shí)施例的信息識(shí)別裝置200與第一實(shí)施例的信息識(shí)別裝置100的差別在于配置了一個(gè)音素/活動(dòng)量信息數(shù)據(jù)庫(kù)(數(shù)據(jù)庫(kù))30。音素/活動(dòng)量信息數(shù)據(jù)庫(kù)30存儲(chǔ)著各音素以及涉及這些音素被發(fā)音時(shí)的肌肉活動(dòng)量的信息,其中肌肉活動(dòng)量與被考慮的各音素相關(guān)聯(lián)。因此,活動(dòng)量信息識(shí)別裝置16根據(jù)由活動(dòng)量信息提取裝置12所提取的涉及肌肉活動(dòng)量的信息,查找音素/活動(dòng)量信息數(shù)據(jù)庫(kù)30,來(lái)識(shí)別發(fā)音內(nèi)容,而不是通過(guò)使用神經(jīng)網(wǎng)絡(luò)70來(lái)識(shí)別。
在這個(gè)音素/活動(dòng)量信息數(shù)據(jù)庫(kù)30中,事先存儲(chǔ)著典型的通用數(shù)據(jù),上述數(shù)據(jù)將各音素與涉及發(fā)出相關(guān)音素時(shí)的肌肉活動(dòng)量的信息相關(guān)聯(lián),但是,如果需要,基于學(xué)習(xí)裝置13的學(xué)習(xí)結(jié)果的數(shù)據(jù)可以跟一名說(shuō)話者相匹配。
在這樣一種音素/活動(dòng)量信息數(shù)據(jù)庫(kù)30的一個(gè)實(shí)例中,例如根據(jù)圖4等,對(duì)每一個(gè)音素來(lái)說(shuō),涉及發(fā)出每個(gè)音素時(shí)的各肌肉活動(dòng)量的信息的幅度的概率分布被找到,同時(shí),涉及這些肌肉活動(dòng)量的信息的幅度的概率分布,以與每一個(gè)音素相關(guān)的方式被存儲(chǔ)在該數(shù)據(jù)庫(kù)之中。若使用這樣的數(shù)據(jù)庫(kù),則活動(dòng)量信息識(shí)別裝置16通過(guò)使用由活動(dòng)量信息提取裝置12所提取的肌肉活動(dòng)量的幅度分布來(lái)查找數(shù)據(jù)庫(kù),從中獲取具有最接近于所述分布的概率分布的一個(gè)音素,就能識(shí)別一段發(fā)音的內(nèi)容。
同樣,作為音素/活動(dòng)量信息數(shù)據(jù)庫(kù)30的另一個(gè)實(shí)例,還可以考慮例如一份表格,在其中,各音素都跟發(fā)出音素時(shí)的肌肉活動(dòng)量的幅度有關(guān),如圖9所示。這份表格表明,當(dāng)由一名典型的日本人來(lái)進(jìn)行每一個(gè)音素的發(fā)音時(shí),每一塊口周肌的活動(dòng)程度按照5個(gè)等級(jí)的評(píng)估結(jié)果。即使當(dāng)使用這樣一個(gè)數(shù)據(jù)庫(kù)時(shí),活動(dòng)量信息識(shí)別裝置16通過(guò)使用由活動(dòng)量信息提取裝置12所提取的肌肉活動(dòng)量的幅度來(lái)查找這份表格,從中獲取其肌肉活動(dòng)量的圖形為最接近的各音素,來(lái)識(shí)別一段發(fā)音的內(nèi)容。
這樣,在本實(shí)施例中,使用已獲得的涉及肌肉活動(dòng)的信息,通過(guò)查找一個(gè)數(shù)據(jù)庫(kù)(在其中,各音素與涉及發(fā)出相關(guān)音素時(shí)的肌肉活動(dòng)的信息被聯(lián)系在一起),就能容易地獲得一名說(shuō)話者所發(fā)出的各音素,并且適當(dāng)?shù)刈R(shí)別一段發(fā)音的內(nèi)容。
要注意的是,若這樣一個(gè)音素/活動(dòng)量信息數(shù)據(jù)庫(kù)30事先已被建立,則對(duì)每一名說(shuō)話者來(lái)說(shuō),即使不需要進(jìn)行涉及信息識(shí)別的學(xué)習(xí),也能實(shí)現(xiàn)具有一定識(shí)別率水平的信息識(shí)別。此外,通過(guò)進(jìn)行如同在第一實(shí)施例中那樣的學(xué)習(xí),通過(guò)進(jìn)一步地令這個(gè)音素/活動(dòng)量信息數(shù)據(jù)庫(kù)30適應(yīng)于每一名說(shuō)話者,就能以較高的識(shí)別率進(jìn)行信息識(shí)別。要注意的是,為了進(jìn)行具有高識(shí)別率的信息識(shí)別,希望能獲得涉及大量肌肉的肌肉活動(dòng)量的信息。
要注意的是,根據(jù)本發(fā)明的信息識(shí)別裝置并不局限于上述各實(shí)施例,并且可以采取各種經(jīng)過(guò)修改的形式。
例如,雖然在上述各實(shí)施例中,通過(guò)使用說(shuō)話者的音頻信息,學(xué)習(xí)部分33獲得了作為教學(xué)數(shù)據(jù)的發(fā)音內(nèi)容,但是,對(duì)此沒(méi)有什么限制,并且,例如對(duì)說(shuō)話者來(lái)說(shuō),通過(guò)提供諸如鍵盤那樣的輸入設(shè)備,就有可能直接地輸入發(fā)音的內(nèi)容。
要注意的是,雖然上述各實(shí)施例中的信息識(shí)別裝置100、200適于對(duì)無(wú)聲發(fā)音進(jìn)行信息識(shí)別,但是,它們也當(dāng)然適于進(jìn)行有聲識(shí)別,即對(duì)有聲發(fā)音的信息識(shí)別。
如上所述,使用根據(jù)本發(fā)明的信息識(shí)別裝置以及信息識(shí)別方法,通過(guò)從肌電信號(hào)中提取涉及肌肉活動(dòng)量的信息,就能使用涉及一名說(shuō)話者的肌肉活動(dòng)量的信息,來(lái)進(jìn)行信息識(shí)別。由于在一名說(shuō)話者的肌肉活動(dòng)量與由該說(shuō)話者所發(fā)出的各音素之間存在規(guī)定的對(duì)應(yīng)關(guān)系,所以就能通過(guò)使用涉及肌肉活動(dòng)量的信息進(jìn)行信息識(shí)別,以高識(shí)別率來(lái)實(shí)現(xiàn)發(fā)音內(nèi)容的識(shí)別。
從經(jīng)過(guò)這樣說(shuō)明的本發(fā)明中,顯而易見(jiàn),本發(fā)明可以用許多方式加以改變。這樣的改變不被認(rèn)為是背離了本發(fā)明的實(shí)質(zhì)和范圍,并且,應(yīng)將所有這些對(duì)專業(yè)人士來(lái)說(shuō)是顯而易見(jiàn)的修改都納入所附權(quán)利要求書的范圍內(nèi)。
于2002年2月28日提交的日本專利申請(qǐng)第2002-54235號(hào)在此用作參考。
權(quán)利要求
1.一種信息識(shí)別設(shè)備,當(dāng)說(shuō)話者講話時(shí)使用說(shuō)話者的肌肉的肌電信號(hào)來(lái)識(shí)別一段發(fā)音的內(nèi)容,該設(shè)備包括肌電信號(hào)采集裝置,用于采集所述肌電信號(hào);活動(dòng)量信息提取裝置,用于從所述肌電信號(hào)中提取涉及所述肌肉的活動(dòng)量的信息;以及信息識(shí)別裝置,它使用涉及所述肌肉活動(dòng)量的信息來(lái)識(shí)別所述發(fā)音的內(nèi)容。
2.根據(jù)權(quán)利要求1所述的信息識(shí)別設(shè)備,其中,所述活動(dòng)量信息提取裝置獲得所述肌電信號(hào)的均方根值、整流后的平均值以及積分平均值中至少之一,作為涉及所述肌肉活動(dòng)量的信息。
3.根據(jù)權(quán)利要求1或2所述的信息識(shí)別設(shè)備,其中,所述信息識(shí)別裝置借助于一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別所述發(fā)音的內(nèi)容,所述神經(jīng)網(wǎng)絡(luò)輸入涉及所述肌肉活動(dòng)量的信息。
4.根據(jù)權(quán)利要求1或2所述的信息識(shí)別設(shè)備,還包括一個(gè)數(shù)據(jù)庫(kù),在其中,各音素與涉及一名說(shuō)話者發(fā)出相關(guān)音素時(shí)的肌肉活動(dòng)量的信息相關(guān)聯(lián);以及其中,所述信息識(shí)別裝置通過(guò)使用由所述活動(dòng)量信息提取裝置所提取的涉及肌肉活動(dòng)量的信息查找所述數(shù)據(jù)庫(kù),來(lái)獲取由所述說(shuō)話者所發(fā)出的一個(gè)音素。
5.根據(jù)權(quán)利要求1至4中任何一項(xiàng)所述的信息識(shí)別設(shè)備,還包括音頻信息采集裝置,它采集涉及所述發(fā)音所產(chǎn)生的聲音的信息;音頻信息識(shí)別裝置,它使用涉及所述聲音的信息,來(lái)識(shí)別所述發(fā)音的內(nèi)容;以及學(xué)習(xí)裝置,它進(jìn)行與所述信息識(shí)別裝置所進(jìn)行的信息識(shí)別有關(guān)的學(xué)習(xí),在學(xué)習(xí)過(guò)程中,使用涉及由所述活動(dòng)量信息提取裝置所提取的涉及肌肉活動(dòng)量的信息,以及由所述音頻信息識(shí)別裝置所識(shí)別的、構(gòu)成教學(xué)數(shù)據(jù)的發(fā)音內(nèi)容,其中,所述信息識(shí)別裝置通過(guò)參照學(xué)習(xí)的結(jié)果,使用涉及由所述活動(dòng)量信息提取裝置所提取的涉及肌肉活動(dòng)量的信息,來(lái)識(shí)別所述發(fā)音的內(nèi)容。
6.一種信息識(shí)別方法,當(dāng)說(shuō)話者在講話時(shí),通過(guò)使用說(shuō)話者的肌肉的肌電信號(hào)來(lái)識(shí)別一段發(fā)音的內(nèi)容,該方法包括肌電信號(hào)采集步驟,用于采集所述肌電信號(hào);活動(dòng)量信息提取步驟,用于從所述肌電信號(hào)中提取涉及所述肌肉的活動(dòng)量的信息;以及信息識(shí)別步驟,使用涉及肌肉活動(dòng)量的所述信息來(lái)識(shí)別所述發(fā)音的內(nèi)容。
全文摘要
借助于活動(dòng)量信息提取裝置從肌電信號(hào)中提取涉及肌肉活動(dòng)量的信息,并且借助于活動(dòng)量信息識(shí)別裝置,使用涉及一名說(shuō)話者的肌肉活動(dòng)量的信息,來(lái)進(jìn)行信息識(shí)別。在說(shuō)話者的肌肉活動(dòng)量與說(shuō)話者所發(fā)出的音素之間,存在規(guī)定的對(duì)應(yīng)關(guān)系,因此,通過(guò)使用涉及肌肉活動(dòng)量的信息來(lái)進(jìn)行信息識(shí)別,就能以高識(shí)別率來(lái)識(shí)別一段發(fā)音的內(nèi)容。
文檔編號(hào)G06N3/00GK1442802SQ0310678
公開(kāi)日2003年9月17日 申請(qǐng)日期2003年2月28日 優(yōu)先權(quán)日2002年2月28日
發(fā)明者真鍋宏幸, 平巖明, 杉村利明 申請(qǐng)人:株式會(huì)社Ntt都科摩
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
长寿区| 桃源县| 东台市| 东莞市| 恩平市| 闸北区| 苗栗市| 盘山县| 五大连池市| 出国| 磴口县| 和平区| 肇源县| 建阳市| 桐梓县| 曲阳县| 交口县| 中江县| 青铜峡市| 云和县| 海南省| 隆德县| 新野县| 桦甸市| 抚顺县| 庄河市| 翁源县| 呼图壁县| 习水县| 土默特左旗| 赫章县| 萝北县| 同德县| 长乐市| 星子县| 谷城县| 华宁县| 高雄市| 白朗县| 肇州县| 新昌县|