欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

聲音識(shí)別裝置的制作方法

文檔序號(hào):2821996閱讀:412來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):聲音識(shí)別裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及可以對(duì)混合存在特定說(shuō)話(huà)者固有的記錄語(yǔ)和在不特定說(shuō)話(huà)者之間共用的固定語(yǔ)的詞匯進(jìn)行聲音識(shí)別的聲音識(shí)別裝置以及方法。
識(shí)別特定說(shuō)話(huà)者固有的記錄語(yǔ)的技術(shù)一般被稱(chēng)為特定說(shuō)話(huà)者聲音識(shí)別。在特定說(shuō)話(huà)者聲音識(shí)別中,產(chǎn)生預(yù)先記錄特定說(shuō)話(huà)者想要進(jìn)行聲音識(shí)別的單詞的聲音的操作。該操作的具體過(guò)程是,把特定說(shuō)話(huà)者預(yù)先發(fā)出的單詞的聲音樣本變換為某一特征參數(shù)序列(稱(chēng)為模板),把該序列和單詞的標(biāo)簽一同存儲(chǔ)在存儲(chǔ)器或者硬盤(pán)等的存儲(chǔ)裝置中。作為把聲音樣本變換為有某一特征參數(shù)的序列的方法,已知有對(duì)數(shù)倒頻譜分析和線(xiàn)性預(yù)測(cè)分析等,在“聲音·聲音信息的數(shù)字信號(hào)處理”(鹿野清宏、中村哲、伊勢(shì)史郎合著,(株)昭晃堂)中也有詳細(xì)敘述。在特定說(shuō)話(huà)者聲音識(shí)別中,比較被存儲(chǔ)在存儲(chǔ)裝置中的特征參數(shù)的序列和從被輸入的聲音中變換出的特征參數(shù)序列,將具有和從被輸入的聲音中變換出的特征參數(shù)的序列最相似的特征參數(shù)的序列的單詞的標(biāo)簽作為識(shí)別結(jié)果輸出。
作為比較被存儲(chǔ)在存儲(chǔ)裝置中的特征參數(shù)的序列和從被輸入的聲音中變換出的特征參數(shù)的序列的方法,廣泛使用采用動(dòng)態(tài)計(jì)劃法的動(dòng)態(tài)時(shí)間軸變形,在上述“聲音·聲音信息的數(shù)字信號(hào)處理”中也有詳細(xì)敘述。
另一方面,識(shí)別不特定說(shuō)話(huà)者共用的固定語(yǔ)的技術(shù)一般被稱(chēng)為不特定說(shuō)話(huà)者聲音識(shí)別。在不特定說(shuō)話(huà)者聲音識(shí)別中,因?yàn)轭A(yù)先在存儲(chǔ)裝置中存儲(chǔ)有與不特定說(shuō)話(huà)者共用的固定語(yǔ)的特征參數(shù)有關(guān)的信息,所以不進(jìn)行如特定說(shuō)話(huà)者聲音識(shí)別那樣記錄用戶(hù)想要聲音識(shí)別的單詞的操作。作為把聲音樣本轉(zhuǎn)換為某一特征參數(shù)的序列的方法,和特定說(shuō)話(huà)者聲音識(shí)別一樣已知有對(duì)數(shù)倒頻譜分析和線(xiàn)性預(yù)測(cè)分析等。另外,在與不特定說(shuō)話(huà)者共用的固定語(yǔ)的特征參數(shù)有關(guān)的信息的制成以及對(duì)該信息和從被輸入的聲音中變換出的特征參數(shù)的序列進(jìn)行比較中,一般使用采用隱馬爾可夫模型(Hidden Markov Model,HMM)的方法。
有關(guān)采用HMM的不特定說(shuō)話(huà)聲音識(shí)別,也在上述“聲音·聲音信息的數(shù)字信號(hào)處理”中詳細(xì)敘述。例如,在日語(yǔ)的情況下,把聲音單位設(shè)置成在上述“聲音·聲音信息的數(shù)字信號(hào)處理”的第2章所述的音韻組,假設(shè)各音韻由HMM模型化。表1展示音韻組的標(biāo)簽。
表1
這時(shí),例如“CD(シ-デイ-)”可以用圖2A那樣的說(shuō)話(huà)者共用的音韻標(biāo)簽的網(wǎng)絡(luò)(稱(chēng)為固定語(yǔ)標(biāo)簽序列)模型化。
另外,例如“MD(ェムデイ-)”可以用圖2B那樣的固定語(yǔ)標(biāo)簽序列模型化。如果準(zhǔn)備采用HMM的音韻模板的數(shù)據(jù)和固定語(yǔ)標(biāo)簽序列,則通過(guò)上述“聲音·聲音信息的數(shù)字化信號(hào)處理”的第4章所述的維特比算法,當(dāng)事人可以構(gòu)成不特定說(shuō)話(huà)者聲音識(shí)別裝置。
在聲音識(shí)別裝置中具有這樣的需求,即,想要提供對(duì)于特定說(shuō)話(huà)者固有的記錄語(yǔ)和不特定說(shuō)話(huà)者共用的固定語(yǔ)混合存在的詞匯,可以識(shí)別這一功能。例如,在車(chē)用音響裝置中,從安全上的考慮出發(fā)有想要用聲音進(jìn)行“CD”,“MD”等各機(jī)器的控制的需求。這些機(jī)器的名稱(chēng),因?yàn)榭梢詾椴惶囟ǖ脑S多說(shuō)話(huà)者共同設(shè)定,所以可以用不特定說(shuō)話(huà)者聲音識(shí)別技術(shù)實(shí)現(xiàn)。由此,可以避免在特定說(shuō)話(huà)者聲音識(shí)別技術(shù)中需要的記錄操作,用戶(hù)界面良好。
另一方面,例如存在用聲音選擇再生被插入CD轉(zhuǎn)換裝置的多張CD的需求。這種情況下,考慮倒被插入CD轉(zhuǎn)換裝置的CD的標(biāo)題、歌手名等根據(jù)用戶(hù)而不同。因而,以往的不特定說(shuō)話(huà)者聲音識(shí)別技術(shù)不適用,需要適用特定說(shuō)話(huà)者聲音識(shí)別技術(shù)。即,用戶(hù)需要執(zhí)行預(yù)先用聲音記錄被插入CD轉(zhuǎn)換裝置中的CD的標(biāo)題、歌手名等的操作。如果可以對(duì)于“CD”,“MD”等的各機(jī)器的名稱(chēng)和CD的標(biāo)題、歌手名等混合存在的詞匯,進(jìn)行聲音識(shí)別的話(huà),則可以考慮提供不需要切換可以識(shí)別“CD”,“MD”等的不特定說(shuō)話(huà)者共用的固定語(yǔ)的模式和可以識(shí)別CD的標(biāo)題、歌手名等特定說(shuō)話(huà)者固有的記錄語(yǔ)的模式,對(duì)于用戶(hù)來(lái)說(shuō)更容易使用的聲音識(shí)別功能。
此前,在特定說(shuō)話(huà)者聲音識(shí)別中,廣泛使用采用DTW的方法。另外,在不特定說(shuō)話(huà)者聲音識(shí)別中,廣泛使用采用HMM的方法。作為實(shí)現(xiàn)上述需求的一個(gè)方法,考慮并用采用DTW的特定說(shuō)話(huà)者聲音識(shí)別和采用HMM的不特定說(shuō)話(huà)者聲音識(shí)別的方法。在這兩個(gè)方法中比較輸入聲音的參數(shù)序列和被存儲(chǔ)在存儲(chǔ)裝置中的詞匯單詞的參數(shù)序列的信息時(shí)使用的尺度一般不同。因而,判斷通過(guò)采用DTW的特定說(shuō)話(huà)者聲音識(shí)別判定為最接近輸入聲音的特定說(shuō)話(huà)者固有的記錄語(yǔ),和通過(guò)采用HMM的不特定說(shuō)話(huà)者聲音識(shí)別判斷為最接近輸入聲音的不特定說(shuō)話(huà)者共用的固定語(yǔ)哪種方法更接近輸入聲音是不容易的。
在采用DTW的特定說(shuō)話(huà)者聲音識(shí)別中,通過(guò)對(duì)固定語(yǔ)使用許多說(shuō)話(huà)者的聲音,把多個(gè)模板存儲(chǔ)在存儲(chǔ)裝置中,也可以實(shí)現(xiàn)不特定說(shuō)話(huà)者聲音識(shí)別。由此,可以用DTW實(shí)現(xiàn)上述需求。但是,在這種方法中,存在由于具有多個(gè)固定語(yǔ)的模型引起的存儲(chǔ)裝置容量的增加、由于多個(gè)模板和采用DWT的對(duì)比引起的對(duì)比時(shí)間的增加、在變更固定語(yǔ)時(shí)需要再次收集許多說(shuō)話(huà)者的聲音等的缺點(diǎn)。
如果歸納以上所述,則例如在車(chē)用音響裝置中安裝聲音識(shí)別裝置的情況下,不特定說(shuō)話(huà)者用的聲音識(shí)別裝置,對(duì)于制造公司而言,因?yàn)椴恍枰謩e記錄許多用戶(hù)的聲音所以很方便,相反,對(duì)各個(gè)用戶(hù)而言,存在識(shí)別精度比特定說(shuō)話(huà)者的識(shí)別精度低不少的缺點(diǎn)。
另外,特定說(shuō)話(huà)者用的聲音識(shí)別裝置在識(shí)別精度方面優(yōu)異,但對(duì)于制造公司來(lái)說(shuō),從各個(gè)用戶(hù)的聲音中取出特征參數(shù),預(yù)先存儲(chǔ)在聲音識(shí)別裝置中是極其困難的。即使用戶(hù)自己記錄自己的聲音,例如,為了記錄許多單詞需要很多工夫。
進(jìn)而用于以往的特定說(shuō)話(huà)者的聲音識(shí)別的方法和用于不特定說(shuō)話(huà)者的聲音識(shí)別的方法因?yàn)榉N類(lèi)內(nèi)容不同,所以如果把兩種聲音識(shí)別方法裝入一個(gè)裝置中,則存在裝置大形化的問(wèn)題。
本發(fā)明的目的在于,考慮了這種問(wèn)題,提供一種即使在使用識(shí)別不特定說(shuō)話(huà)者的聲音的聲音識(shí)別方法的情況下,也可以高精度地識(shí)別特定說(shuō)話(huà)者發(fā)出的記錄語(yǔ)的聲音識(shí)別裝置以及方法。
如果采用本發(fā)明,則是使用長(zhǎng)度比單詞短的聲音單位的模板的信息,進(jìn)行輸入聲音的單詞識(shí)別的聲音識(shí)別裝置,包括詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元,對(duì)于為了進(jìn)行不特定說(shuō)話(huà)者的輸入聲音的單詞識(shí)別的共用的固定語(yǔ),存儲(chǔ)上述聲音單位的標(biāo)簽序列;記錄語(yǔ)標(biāo)簽序列抽出單元,對(duì)于從特定說(shuō)話(huà)者的輸入聲音中的記錄語(yǔ)制成上述聲音單位的標(biāo)簽序列;記錄單元,把該制成的記錄語(yǔ)的標(biāo)簽序列追加記錄在上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元中。上述聲音單位是分割生成音韻的隱馬爾可夫模型的各狀態(tài)的音響事件。
如果采用本發(fā)明,聲音識(shí)別裝置還可以進(jìn)一步具備把上述固定語(yǔ)記錄在上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元中的單元。
如果采用本發(fā)明,則在聲音識(shí)別裝置中還可以把對(duì)于用于上述不特定說(shuō)話(huà)者的輸入聲音的單詞識(shí)別而共用的固定語(yǔ)的聲音單位的標(biāo)簽序列,和被制成的記錄語(yǔ)的標(biāo)簽序列,以并列網(wǎng)絡(luò)的形態(tài)存儲(chǔ)在上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元中。
如果采用本發(fā)明,則在聲音識(shí)別裝置的制造公司中,作為聲音識(shí)別用數(shù)據(jù)只要提供以多個(gè)不特定的用戶(hù)為對(duì)象的固定語(yǔ)的標(biāo)簽序列即可,用戶(hù)可以把所需要的單詞記錄成自己的聲音。換言之,可以在不特定說(shuō)話(huà)者方式的聲音識(shí)別方法中加入特定說(shuō)話(huà)者的聲音識(shí)別功能。由此,可以提供對(duì)用戶(hù)以及制造公司雙方都適合的聲音識(shí)別裝置以及方法。


圖1是展示本發(fā)明的實(shí)施方案的系統(tǒng)構(gòu)成的方框圖。
圖2A是展示“CD(シ-デイ-)的固定語(yǔ)標(biāo)簽序列的說(shuō)明圖。
圖2B是展示說(shuō)明“MD(ェムデイ-)”的固定語(yǔ)標(biāo)簽序列的說(shuō)明圖。
圖3是展示音韻網(wǎng)絡(luò)的內(nèi)容的說(shuō)明圖。
圖4A是展示“ジヤズ”的記錄語(yǔ)標(biāo)簽序列的說(shuō)明圖。
圖4B是展示“ポツプス”的記錄語(yǔ)標(biāo)簽序列的說(shuō)明圖。
圖5是展示固定語(yǔ)和記錄語(yǔ)混合存在的詞匯標(biāo)簽網(wǎng)絡(luò)的說(shuō)明圖。
圖6是展示只有固定語(yǔ)的詞匯標(biāo)簽網(wǎng)絡(luò)的說(shuō)明圖。
圖7是展示只有記錄語(yǔ)的詞匯標(biāo)簽網(wǎng)絡(luò)的說(shuō)明圖。
圖8是展示音韻HMM的構(gòu)造的說(shuō)明圖。
圖9是展示音響事件HMM*.1的構(gòu)造的說(shuō)明圖。
圖10是展示音響事件HMM*.2的構(gòu)造的說(shuō)明圖。
圖11是展示音響事件HMM*.3的構(gòu)造的說(shuō)明圖。
圖12是展示無(wú)限制音響事件網(wǎng)絡(luò)的說(shuō)明圖。
圖13是展示帶位置限制的音響網(wǎng)絡(luò)的說(shuō)明圖。
本發(fā)明提供,使用在以往不特定說(shuō)話(huà)者聲音識(shí)別中使用的HMM,可以識(shí)別對(duì)特定說(shuō)話(huà)者固有的記錄語(yǔ)和不特定說(shuō)話(huà)者共用的特定語(yǔ)混合存在的詞匯的聲音識(shí)別裝置。在使用HMM的不特定說(shuō)話(huà)者聲音識(shí)別中,使用聲音單位(音節(jié),半音節(jié),音韻,音響事件等)的模型數(shù)據(jù)、與不特定說(shuō)話(huà)者共用的固定語(yǔ)對(duì)應(yīng)的聲音單位的標(biāo)簽序列以及各固定語(yǔ)的標(biāo)簽序列相互的連接信息,用上述的維特比算法,進(jìn)行包含在輸入聲音中的固定語(yǔ)的識(shí)別。
一般認(rèn)為如果采用某種手段可以得到與特定說(shuō)話(huà)者固有的記錄語(yǔ)對(duì)應(yīng)的聲音單位的標(biāo)簽序列,則通過(guò)將上述標(biāo)簽序列相互的連接信息附加到該標(biāo)簽序列上,使用上述的維特比算法,就可以對(duì)特定說(shuō)話(huà)者固有的記錄語(yǔ)和不特定說(shuō)話(huà)者共用的固定語(yǔ)混合存在的詞匯進(jìn)行識(shí)別。
作為得到與特定說(shuō)話(huà)者固有的記錄語(yǔ)對(duì)應(yīng)的聲音單位的標(biāo)簽序列的方法,可以通過(guò)代替各固定語(yǔ)的標(biāo)簽序列相互的連接信息,使用可以以任意的順序任意的長(zhǎng)度連接聲音單位的連接信息,以維特比算法,取得包含在輸入聲音中的全部的聲音單位的序列實(shí)現(xiàn)。
以下,參照附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施方案。圖1展示本發(fā)明實(shí)施方案的基本構(gòu)成。
在圖1中,從話(huà)筒(未圖示)輸入的模擬聲音信號(hào)11被采用AD變換器的輸入單元a變換為數(shù)字信號(hào)22。數(shù)字信號(hào)22被變換單元b以一定的幀周期變換為音響參數(shù)33。作為音響(特征)參數(shù),只要使用在上述“聲音·聲音信息的數(shù)字信號(hào)處理”中所述的對(duì)數(shù)倒頻譜等即可。
(特定說(shuō)話(huà)者的單詞記錄)在記錄特定說(shuō)話(huà)者固有的記錄語(yǔ)的情況下,用聲音識(shí)別裝置的未圖示的開(kāi)關(guān)指示單詞記錄,把變換單元b連接在記錄語(yǔ)標(biāo)簽序列抽出單元d上。特定說(shuō)話(huà)者,即,連接有聲音識(shí)別裝置的車(chē)用音響的用戶(hù)(特定說(shuō)話(huà)者)向話(huà)筒輸入想要記錄的聲音。
在話(huà)筒中產(chǎn)生的模擬聲音信號(hào)11用變換單元b變換為音響參數(shù)33。音響參數(shù)33被送到記錄語(yǔ)標(biāo)簽序列抽出單元d。記錄語(yǔ)標(biāo)簽序列抽出單元d參照被存儲(chǔ)在硬盤(pán)和存儲(chǔ)器等的識(shí)別用數(shù)據(jù)存儲(chǔ)單元c中的識(shí)別用數(shù)據(jù)44,進(jìn)行聲音單位的標(biāo)簽序列的識(shí)別,把音響參數(shù)33變換為記錄語(yǔ)標(biāo)簽序列55。作為被存儲(chǔ)在識(shí)別用數(shù)據(jù)存儲(chǔ)單元c中的識(shí)別用數(shù)據(jù)44,存儲(chǔ)被以隱馬爾可夫模型模型化的聲音單位的模型數(shù)據(jù),以及用于把音響參數(shù)33變換為記錄語(yǔ)標(biāo)簽序列55的聲音單位模型的網(wǎng)絡(luò)數(shù)據(jù)這2個(gè)數(shù)據(jù)。
如作為以前專(zhuān)利的USP5、732、187號(hào)中所敘述的那樣,作為聲音單位,考慮音節(jié)、半音節(jié)、音韻。
以下,以音韻為例,說(shuō)明識(shí)別不特定說(shuō)話(huà)者共用的固定語(yǔ)和特定說(shuō)話(huà)者固有的記錄語(yǔ)混合存在的詞匯的聲音識(shí)別裝置和方法。所謂把音響參數(shù)33變換為記錄語(yǔ)標(biāo)簽序列55用的聲音單位(在此省略)的模型的網(wǎng)絡(luò)數(shù)據(jù),是表現(xiàn)了被容許的音韻的連接的網(wǎng)絡(luò)。
例如,在圖3的音韻網(wǎng)絡(luò)的情況下,展示了表1的27種音韻可以以任意的順序、任意的長(zhǎng)度連接的情況。如果使用該網(wǎng)絡(luò)數(shù)據(jù)和采用HMM的音韻模型的數(shù)據(jù),則可以用上述維特比算法,把特定說(shuō)話(huà)者固有的記錄語(yǔ)的聲音變換為音韻標(biāo)簽的序列。圖4A是展示從某一說(shuō)話(huà)者為了記錄而發(fā)出“ジヤズ(jaz)”的輸入聲音中得到的音韻標(biāo)簽網(wǎng)絡(luò)的例子。如果音韻的識(shí)別率是100%,則從發(fā)音為“ジヤズ”的聲音中,應(yīng)該可以得到j(luò)+a+z+u這一音韻標(biāo)簽序列,但在該例子中,最后的u因無(wú)聲化而不能得到。
圖4B是展示從某一說(shuō)話(huà)者為了記錄而發(fā)出“ポツプス(pokusu)”的輸入信號(hào)中得到的音韻標(biāo)簽網(wǎng)絡(luò)的例子。如果音韻的識(shí)別率是100%,則從發(fā)音為“ポツプス”的聲音中,應(yīng)該可以得到p+o+p+u+s+u這一音韻標(biāo)簽序列,但因?yàn)閜,t,k的識(shí)別一般很困難,所以第2個(gè)p被轉(zhuǎn)換為k。這樣,把用記錄語(yǔ)標(biāo)簽序列抽出單元d得到的音韻標(biāo)簽的網(wǎng)絡(luò)稱(chēng)為記錄語(yǔ)標(biāo)簽序列55。記錄語(yǔ)標(biāo)簽序列55用記錄單元I追加記錄存儲(chǔ)在硬盤(pán)和存儲(chǔ)器等的詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元f中。
(不特定說(shuō)話(huà)者共用的固定語(yǔ)的記錄)另一方面,可以根據(jù)預(yù)先的某一規(guī)則從不特定說(shuō)話(huà)者共用的固定語(yǔ)的標(biāo)簽中抽出音韻標(biāo)簽的網(wǎng)絡(luò)?;蛘撸部梢詮南鄬?duì)固定語(yǔ)的1個(gè)以上的不特定說(shuō)話(huà)者的聲音樣本中以和上述(特定說(shuō)話(huà)者的單詞記錄)同樣的方法制成1個(gè)以上的音韻標(biāo)簽網(wǎng)絡(luò)。把這些網(wǎng)絡(luò)稱(chēng)為固定語(yǔ)標(biāo)簽序列66,把為了將該數(shù)據(jù)轉(zhuǎn)送到詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元f而暫時(shí)存儲(chǔ)的單元,例如,CPU以及RAM稱(chēng)為固定語(yǔ)標(biāo)簽序列存儲(chǔ)單元e。例如,對(duì)于固定語(yǔ)“CD”,“MD”,可以得到圖2A、圖2B所示的固定語(yǔ)標(biāo)簽序列。有關(guān)固定語(yǔ)標(biāo)簽序列的數(shù)據(jù)已在制造公司中記錄在軟盤(pán)和CD等記錄媒體中,只要從該記錄媒體中拷貝到聲音識(shí)別裝置內(nèi)的固定語(yǔ)標(biāo)簽序列存儲(chǔ)單元e中即可。通過(guò)將固定語(yǔ)標(biāo)簽序列經(jīng)由固定語(yǔ)標(biāo)簽序列存儲(chǔ)單元e存儲(chǔ)在詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元f中,記錄與不特定說(shuō)話(huà)者有關(guān)的固定語(yǔ)標(biāo)簽序列。
作為由從記錄語(yǔ)標(biāo)簽序列抽出單元d抽出的,用記錄單元i追加記錄在詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元f中的記錄語(yǔ)標(biāo)簽序列55,和用固定語(yǔ)標(biāo)簽序列存儲(chǔ)單元e存儲(chǔ)的固定語(yǔ)標(biāo)簽序列66構(gòu)成被存儲(chǔ)在詞匯網(wǎng)絡(luò)存儲(chǔ)單元f中的詞匯標(biāo)簽網(wǎng)絡(luò)77的方法,可以考慮以下3種方法。
首先,第1種方法,是形成包含記錄語(yǔ)標(biāo)簽序列55和固定語(yǔ)標(biāo)簽序列66兩者的網(wǎng)絡(luò),把它作為詞匯標(biāo)簽網(wǎng)絡(luò)77的方法。在圖5中展示連接了“CD”,“MD”的固定語(yǔ)標(biāo)簽序列和“ジヤズ”、“ポツプス”的記錄語(yǔ)標(biāo)簽序列的詞匯標(biāo)簽網(wǎng)絡(luò)。
用該網(wǎng)絡(luò),就可以實(shí)現(xiàn)可以識(shí)別“CD”,“MD”的固定語(yǔ)和“ジヤズ”、“ポツプス”的記錄語(yǔ)4個(gè)單詞中的任意一個(gè)的聲音識(shí)別裝置。
第2種方法,是形成只包含記錄語(yǔ)標(biāo)簽序列55的網(wǎng)絡(luò),把它作為詞匯標(biāo)簽網(wǎng)絡(luò)77的方法。圖6展示連接“CD”,“MD”的固定語(yǔ)標(biāo)簽序列的詞匯標(biāo)簽網(wǎng)絡(luò)。通過(guò)該網(wǎng)絡(luò),就可以實(shí)現(xiàn)可以識(shí)別“CD”,“MD”2個(gè)單詞中的任意一個(gè)的不特定說(shuō)話(huà)者聲音識(shí)別裝置。
第3種方法,是形成只包含記錄語(yǔ)標(biāo)簽序列55的網(wǎng)絡(luò),把它作為詞匯標(biāo)簽網(wǎng)絡(luò)77的方法。在圖7中展示連接“ジヤズ”、“ポツプス”的記錄語(yǔ)標(biāo)簽序列的詞匯標(biāo)簽網(wǎng)絡(luò)。用該網(wǎng)絡(luò),就可以實(shí)現(xiàn)可以識(shí)別“ジヤズ”、“ポツプス”這2個(gè)記錄語(yǔ)標(biāo)簽中的任意一個(gè)的特定說(shuō)話(huà)者聲音識(shí)別裝置。
再有,當(dāng)用聲音向CD轉(zhuǎn)換裝置發(fā)出動(dòng)作指示時(shí),最好是預(yù)先把不特定說(shuō)話(huà)者的固定語(yǔ)的標(biāo)簽序列和動(dòng)作命令相關(guān)聯(lián),和特定說(shuō)話(huà)者(用戶(hù))已記錄的標(biāo)簽序列相關(guān)聯(lián)。例如,作為此方法,預(yù)先,在顯示器上顯示可以選擇的動(dòng)作指示內(nèi)容后,在用光標(biāo)鍵等選擇顯示的動(dòng)作指示之后,用聲音從話(huà)筒輸入與該動(dòng)作指示相關(guān)聯(lián)的單詞,用記錄單元i把用記錄語(yǔ)標(biāo)簽序列抽出單元d抽出的記錄語(yǔ)標(biāo)簽序列55記錄在詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元f中。另外,如果用表(關(guān)聯(lián)表)形式把表示動(dòng)作指示內(nèi)容的代碼、對(duì)應(yīng)的記錄語(yǔ)標(biāo)簽序列保存在硬盤(pán)等中,則以后,就可以用聲音進(jìn)行動(dòng)作指示。當(dāng)然,在該關(guān)聯(lián)表中還可以存儲(chǔ)制造公司準(zhǔn)備的固定語(yǔ)標(biāo)簽,以及與此對(duì)應(yīng)的動(dòng)作指示代碼。
(聲音識(shí)別處理)
用戶(hù)如果用未圖示的模式開(kāi)關(guān)指示聲音識(shí)別模式,則把連接切換到變換單元b和識(shí)別單元g。使用由從輸入單元a輸入的,在變換單元b中被變換后輸出的音響參數(shù)33和被存儲(chǔ)在識(shí)別用數(shù)據(jù)存儲(chǔ)單元c中的音韻模型數(shù)據(jù)構(gòu)成的識(shí)別用數(shù)據(jù)45,以及被存儲(chǔ)在詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元f中的詞匯標(biāo)簽網(wǎng)絡(luò)77,在識(shí)別單元g中用上述的維特比算法,得到有關(guān)單詞的識(shí)別結(jié)果88。識(shí)別結(jié)果88,用揚(yáng)聲器和顯示器等的輸出單元h,作為聲音和畫(huà)面的輸出結(jié)果99輸出給說(shuō)話(huà)者。另外,當(dāng)用聲音對(duì)CD轉(zhuǎn)換裝置等發(fā)出動(dòng)作的指示時(shí),用上述的關(guān)聯(lián)表判斷與聲音識(shí)別結(jié)果對(duì)應(yīng)的動(dòng)作指示內(nèi)容,執(zhí)行與動(dòng)作指示對(duì)應(yīng)的控制程序等。
由于通過(guò)以上的系統(tǒng)構(gòu)成,用戶(hù)可以用自己的聲音以單詞形態(tài)記錄頻繁使用的動(dòng)作指示,因此,可以以更高的精度進(jìn)行動(dòng)作指示。本系統(tǒng)的優(yōu)點(diǎn)是,即使用戶(hù)(特定說(shuō)話(huà)者)記錄的記錄語(yǔ)標(biāo)簽序列在標(biāo)簽識(shí)別(從使用識(shí)別用數(shù)據(jù)的音響參數(shù)向標(biāo)簽變換)中被誤識(shí)別,也沒(méi)有影響。
在聲音識(shí)別裝置中,即使以誤識(shí)別結(jié)果的標(biāo)簽序列記錄動(dòng)作指示,并且在聲音識(shí)別模式中特定說(shuō)話(huà)者用聲音輸入了該動(dòng)作指示的情況下,因?yàn)槁曇糇R(shí)別裝置以同樣的內(nèi)容進(jìn)行誤識(shí)別,所以必然選擇預(yù)先付與相關(guān)關(guān)系的動(dòng)作指示。
另一方面,當(dāng)在聲音識(shí)別中使用了不特定說(shuō)話(huà)者用的固定語(yǔ)標(biāo)簽序列的情況下,如果在標(biāo)簽識(shí)別中發(fā)生誤識(shí)別,因?yàn)榕c動(dòng)作指示對(duì)應(yīng)的標(biāo)簽序列和上述誤識(shí)別的結(jié)果不一致,所以存在聲音的動(dòng)作指示不能正確識(shí)別的情況。因此,特定說(shuō)話(huà)者可以用聲音記錄與制造公司準(zhǔn)備的固定語(yǔ)標(biāo)簽序列中的特定的序列相同內(nèi)容的動(dòng)作指示。另外,在聲音識(shí)別的模式中可以以特定說(shuō)話(huà)者的記錄語(yǔ)標(biāo)簽序列正確地進(jìn)行聲音識(shí)別。
在本實(shí)施方案中通過(guò)使用作為聲音單位從音韻中分解生成的不特定說(shuō)話(huà)者用的音響事件的模型,就可以不依賴(lài)每句話(huà),高精度地識(shí)別特定說(shuō)話(huà)者發(fā)出的記錄語(yǔ)。
以下,增加說(shuō)明作為比音韻還小的聲音單位,使用構(gòu)成音韻HMM的狀態(tài)的情況。不管每句話(huà)和音韻的種類(lèi)如何,一般大多以由圖8所示的4種狀態(tài)構(gòu)成的HMM進(jìn)行模型化。
狀態(tài)1是初始狀態(tài),狀態(tài)轉(zhuǎn)變必須從狀態(tài)1開(kāi)始。狀態(tài)4是最后狀態(tài),如果轉(zhuǎn)變到該狀態(tài)則不發(fā)生以上的狀態(tài)轉(zhuǎn)變。aij表示從狀態(tài)i到狀態(tài)j的轉(zhuǎn)變的概率,被稱(chēng)為轉(zhuǎn)變概率。如果假設(shè)j=i+1,則aii+aij=1.0。
bi(x)在從狀態(tài)i開(kāi)始狀態(tài)轉(zhuǎn)變時(shí),表示輸出觀(guān)測(cè)向量x的概率,被稱(chēng)為輸出概率。觀(guān)測(cè)向量,與圖1的音響參數(shù)33對(duì)應(yīng),最好使用對(duì)數(shù)倒頻譜。輸出概率bi(x)表現(xiàn)為1個(gè)以上的正規(guī)分布的重合。另外,輸出概率還有這樣的情況,在向狀態(tài)i轉(zhuǎn)變時(shí),被定為觀(guān)測(cè)向量x輸出的概率bi(x),以及在從狀態(tài)i向狀態(tài)j狀態(tài)轉(zhuǎn)變時(shí),被定為觀(guān)測(cè)向量輸出的概率bij(x)。
當(dāng)輸出概率bi(x)被規(guī)定為1個(gè)以上的正規(guī)分布的重合的情況下,把HMM稱(chēng)為連續(xù)HMM。除此以外,有用半連續(xù)HMM和離散HMM模型化音韻的情況,但本發(fā)明同樣可以適用。
把圖8所示的4狀態(tài)音韻HMM分割成由圖9、圖10、圖11的3個(gè)2狀態(tài)組成的HMM。把它們稱(chēng)為音響事件HMM,與狀態(tài)號(hào)碼一致,表示為*.1,*.2,*.3。其中,*表示表1的音韻標(biāo)簽。
因?yàn)榭梢哉J(rèn)為這些新生成的HMM表現(xiàn)音韻中的音響事件,所以稱(chēng)為音響事件HMM。圖12展示這些音響事件HMM可以以任意的順序、任意的長(zhǎng)度連接的網(wǎng)絡(luò)。把該網(wǎng)絡(luò)稱(chēng)為無(wú)限制音響事件網(wǎng)絡(luò)。該無(wú)限制音響事件網(wǎng)絡(luò),與圖3的音韻網(wǎng)絡(luò)相比,音響事件序列的自由度高,這可以認(rèn)為音響性事件序列的表現(xiàn)能力高。
因而,與用圖3的音韻網(wǎng)絡(luò)通過(guò)維特比算法得到的音韻序列相比,使用圖12的無(wú)限制音響事件網(wǎng)絡(luò)通過(guò)維特比算法得到的音響事件序列的一方,可以期待更精確地近似特定說(shuō)話(huà)者固有的記錄語(yǔ)的發(fā)聲。
相信通過(guò)把用無(wú)限制音響事件網(wǎng)絡(luò)通過(guò)維特比算法得到的音響事件序列作為圖1的記錄語(yǔ)標(biāo)簽序列55使用,就可以得到對(duì)記錄語(yǔ)更高的識(shí)別性能。
另一方面,在圖12的無(wú)限制音響事件網(wǎng)絡(luò)中,因?yàn)榻铺囟ㄕf(shuō)話(huà)者固有的記錄語(yǔ)的發(fā)聲的音響事件序列的候補(bǔ)存在很多,所以還要考慮在該選擇中需要許多處理時(shí)間。
在此,使用圖13所示的設(shè)置有與狀態(tài)的位置有關(guān)的限制的網(wǎng)絡(luò)在削減處理時(shí)間方面也有效果。把圖13的網(wǎng)絡(luò)稱(chēng)為帶有位置限制的音響事件網(wǎng)絡(luò)。一般認(rèn)為,在該網(wǎng)絡(luò)中,與圖12的無(wú)限制音響事件網(wǎng)絡(luò)相比,因?yàn)榭梢赃B接的音響事件數(shù)變?yōu)槿种?,所以近似特定說(shuō)話(huà)者固有的記錄語(yǔ)的音響事件序列的候補(bǔ)數(shù)減少,也許會(huì)致使識(shí)別性能的有所降低,但求出近似特定說(shuō)話(huà)者固有的記錄語(yǔ)的音響事件序列的處理時(shí)間也可以相應(yīng)縮短。
實(shí)際上,用音韻序列和音響事件序列進(jìn)行特定說(shuō)話(huà)者的記錄語(yǔ)的識(shí)別性能的比較實(shí)驗(yàn)。
用日語(yǔ)的音韻HMM和圖3的音韻網(wǎng)絡(luò),通過(guò)維特比算法求128個(gè)單詞的音韻序列,把它作為識(shí)別詞匯,為了進(jìn)行與日語(yǔ)、英語(yǔ)、法語(yǔ)、德語(yǔ)、意大利語(yǔ)有關(guān)的特定說(shuō)話(huà)者單詞識(shí)別選擇了男女各2人。另外,表2表示此時(shí)的聲音識(shí)別的平均識(shí)別率和最低識(shí)別率。聲音和雜音的比率都是10dB。
表2語(yǔ)言日語(yǔ) 英語(yǔ) 法語(yǔ) 德語(yǔ)意大利語(yǔ)平均識(shí)別率 93.6% 86.9%88.7% 92.2% 91.4%最低識(shí)別率 92.2% 82.8%83.6% 85.2% 87.5%使用音韻網(wǎng)絡(luò)情況下的特定說(shuō)話(huà)者單詞識(shí)別性能以下,表3展示使用采用上述方法從日語(yǔ)的音韻HMM中分解生成的音響事件HMM和圖13的帶位置限制的音響事件網(wǎng)絡(luò),通過(guò)維特比算法求出128個(gè)單詞的音響事件序列,在把它作為識(shí)別對(duì)象的情況下的與日語(yǔ)、英語(yǔ)、法語(yǔ)、德語(yǔ)、意大利語(yǔ)有關(guān)的特定說(shuō)話(huà)者單詞識(shí)別的平均識(shí)別率和最低識(shí)別率。
表3
語(yǔ)言 日語(yǔ)英語(yǔ) 法語(yǔ)德語(yǔ) 意大利語(yǔ)平均識(shí)別率 97.5% 92.9% 94.0% 94.0% 93.6%最低識(shí)別率 96.1% 91.1% 92.2% 91.4% 91.4%在使用帶位置制約的音響事件網(wǎng)絡(luò)情況下的特定說(shuō)話(huà)者單詞識(shí)別性能如果比較表2和表3則可知,不依賴(lài)于詞匯,與使用音韻序列相比不使用音響事件序列的一方平均識(shí)別率提高了2-6%。另外,還知道最低識(shí)別率也提高了4-8%。從這些結(jié)果可以明確地看出,與使用用圖3的音韻網(wǎng)絡(luò)通過(guò)維特比算法得到的音響序列的情況相比,使用用帶有圖13的位置制約的音響事件網(wǎng)絡(luò)通過(guò)維特比算法得到的音響的一方,對(duì)于特定說(shuō)話(huà)者固有的記錄語(yǔ)可以得到更高的性能。該音響事件序列的優(yōu)越性,可以認(rèn)為是由于音響事件序列的一方比音韻序列一方特定說(shuō)話(huà)者固有的近似度更高的緣故,這一點(diǎn)正是本發(fā)明的根本。
上述實(shí)施方案可以以以下形態(tài)實(shí)施。
1)圖1所示的系統(tǒng)構(gòu)成,也可以用數(shù)字電路構(gòu)成,可以通過(guò)微型計(jì)算機(jī)和專(zhuān)用計(jì)算機(jī)的軟件處理實(shí)現(xiàn)。這種情況下,變換單元b、記錄語(yǔ)標(biāo)簽序列抽出單元d、識(shí)別單元g的功能可以通過(guò)CPU執(zhí)行軟件程序?qū)崿F(xiàn)。設(shè)置成哪種電路構(gòu)成,只要根據(jù)聲音識(shí)別裝置的用途適宜地確定即可。例如,在專(zhuān)用計(jì)算機(jī)中用聲音進(jìn)行文字輸入以及控制鍵輸入時(shí),使用安裝在專(zhuān)用計(jì)算機(jī)上的CPU、硬盤(pán)就可以實(shí)現(xiàn)圖1的系統(tǒng)。
2)在上述的實(shí)施方案中,設(shè)置成可以把不特定說(shuō)話(huà)者共用的固定語(yǔ)標(biāo)簽序列從CDROM等記錄到聲音識(shí)別裝置,當(dāng)然也可以存儲(chǔ)到在聲音識(shí)別裝置中內(nèi)置的EEPROM等的非易失性可寫(xiě)入存儲(chǔ)器中。這種情況下,特定說(shuō)話(huà)者可以用聲音記錄不夠的單詞,或者想要更高識(shí)別精度的單詞。
權(quán)利要求
1.一種聲音識(shí)別裝置,用于使用長(zhǎng)度比單詞更短的聲音單位的模型的信息,進(jìn)行單詞識(shí)別,其特征在于包括,詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元,對(duì)于用于進(jìn)行不特定說(shuō)話(huà)者的輸入聲音的單詞識(shí)別的共用的固定語(yǔ)預(yù)先存儲(chǔ)上述聲音單位的標(biāo)簽序列;記錄語(yǔ)標(biāo)簽序列抽出單元,從特定說(shuō)話(huà)者的輸入聲音中制成相對(duì)于記錄語(yǔ)的上述聲音單位的標(biāo)簽序列;記錄單元,把制成的記錄語(yǔ)的標(biāo)簽序列追加存儲(chǔ)在上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元中,上述聲音單位是分割音韻的隱馬爾可夫模型的各狀態(tài)生成的音響事件。
2.如權(quán)利要求1所述的聲音識(shí)別裝置,其特征在于進(jìn)一步具有把上述固定語(yǔ)記錄在上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元中的單元。
3.如權(quán)利要求1所述的聲音識(shí)別裝置,其特征在于把相對(duì)于用于上述不特定說(shuō)話(huà)者輸入聲音的單詞識(shí)別的共用的固定語(yǔ)的聲音單位的標(biāo)簽序列和被制成的記錄語(yǔ)的標(biāo)簽序列以并列的網(wǎng)絡(luò)形態(tài)存儲(chǔ)在上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元。
4.如權(quán)利要求3所述的聲音識(shí)別裝置,其特征在于進(jìn)一步具有把上述固定語(yǔ)記錄在上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元中的單元。
5.一種聲音識(shí)別方法,用于使用長(zhǎng)度比單詞更短的聲音單位的模型的信息進(jìn)行單詞識(shí)別,其特征在于把相對(duì)于用于進(jìn)行不特定說(shuō)話(huà)者的輸入聲音的單詞識(shí)別的共用的固定語(yǔ)的上述聲音單位的標(biāo)簽序列預(yù)先存儲(chǔ)在詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元中;從特定說(shuō)話(huà)者的輸入聲音中制成相對(duì)記錄語(yǔ)的上述聲音單位的標(biāo)簽序列;把制成的記錄語(yǔ)的標(biāo)簽序列追加記錄到上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元中,上述聲音單位是分割音韻的隱馬爾可夫模型的各狀態(tài)生成的音響事件。
6.如權(quán)利要求5所述的聲音識(shí)別方法,其特征在于可以把上述固定語(yǔ)記錄在在上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元中。
7.如權(quán)利要求5所述的聲音識(shí)別方法,其特征在于把相對(duì)于用于上述不特定說(shuō)話(huà)者輸入聲音的單詞識(shí)別的共用的固定語(yǔ)的聲音單位的標(biāo)簽序列和被制成的記錄語(yǔ)的標(biāo)簽序列以并列的網(wǎng)絡(luò)形態(tài)存儲(chǔ)在上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元。
8.如權(quán)利要求7所述的聲音識(shí)別裝置,其特征在于進(jìn)一步具有把上述固定語(yǔ)記錄在上述詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元中的單元。
全文摘要
在把在不特定說(shuō)話(huà)者的單詞識(shí)別中使用的固定語(yǔ)標(biāo)簽序列存儲(chǔ)在詞匯標(biāo)簽網(wǎng)絡(luò)存儲(chǔ)單元f中的同時(shí),輸入特定的聲音,從該輸入聲音中用記錄語(yǔ)標(biāo)簽序列抽出單元d制成記錄語(yǔ)的標(biāo)簽序列,可以在詞匯標(biāo)簽序列網(wǎng)絡(luò)存儲(chǔ)單元f中記錄特定說(shuō)話(huà)者的記錄語(yǔ)的標(biāo)簽序列。
文檔編號(hào)G10L15/00GK1323436SQ99811950
公開(kāi)日2001年11月21日 申請(qǐng)日期1999年9月8日 優(yōu)先權(quán)日1998年9月9日
發(fā)明者莊境誠(chéng) 申請(qǐng)人:旭化成株式會(huì)社
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
龙江县| 开化县| 梁山县| 奇台县| 盐池县| 特克斯县| 廉江市| 凤台县| 泾源县| 柘荣县| 亚东县| 宜兴市| 合川市| 怀远县| 铜鼓县| 西城区| 抚松县| 赫章县| 木里| 伊吾县| 仁化县| 罗田县| 华安县| 会昌县| 繁昌县| 正蓝旗| 那曲县| 修武县| 虹口区| 湘乡市| 界首市| 洛南县| 佳木斯市| 遵义县| 长春市| 北宁市| 新疆| 长顺县| 定日县| 阳曲县| 清涧县|