專利名稱:聲音識別方法以及聲音識別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聲音識別方法以及聲音識別裝置。
背景技術(shù):
近年,使用聲音輸入的人機(jī)接口的實(shí)用化不斷得到發(fā)展。例如,開發(fā)了用戶通過聲音輸入預(yù)選設(shè)定的特定的指令,系統(tǒng)識別它,并通過系統(tǒng)自動地執(zhí)行與識別結(jié)果對應(yīng)的操作,從而可以用聲音控制系統(tǒng)的聲音操作系統(tǒng);用戶朗讀任意的文章,通過系統(tǒng)分析它,轉(zhuǎn)換為文字串,可以制成采用聲音輸入的文章的系統(tǒng);用于用戶和系統(tǒng)通過語言可以相互聯(lián)系的聲音對話系統(tǒng)等,其中的一部分已開始得到利用。
以往,從用戶發(fā)出的聲音信號用麥克風(fēng)等取入系統(tǒng),在變換為電氣信號后,用A/D(模擬數(shù)字)轉(zhuǎn)換裝置等以每一微小的時間單位將其采樣例如變換為波形振幅的時間系列等的數(shù)字?jǐn)?shù)據(jù)。對于該數(shù)字?jǐn)?shù)據(jù),通過例如適用FFT(快速傅立葉變換)分析等的方法,分析例如頻率的時間變化等,抽出發(fā)音的聲音信號的特征數(shù)據(jù)。在接著進(jìn)行的識別處理中,計(jì)算在預(yù)先作為詞典準(zhǔn)備的例如音素的標(biāo)準(zhǔn)模式,和單詞詞典的音素記號系列之間的單詞的類似程度。即,使用HMM(隱馬爾可夫模型)方法,或者DP(動態(tài)程序設(shè)計(jì)),或者NN(神經(jīng)網(wǎng)絡(luò))方法等,比較對照從輸入聲音中抽出的特征數(shù)據(jù)和標(biāo)準(zhǔn)模式,計(jì)算在音素識別結(jié)果和單詞詞典的音素記號系列之間的單詞的相似程度,生成與輸入發(fā)音相對的識別候補(bǔ)。進(jìn)而,為了提高識別精度,對生成的識別候補(bǔ),例如使用n-gram等有代表性的統(tǒng)計(jì)性語言模型推斷選擇最貼切的候補(bǔ)等,由此識別輸入發(fā)音。
可是,在上述以往的方式中存在以下所示的問題。
首先,在聲音識別中,進(jìn)行100%的沒有錯誤的識別是非常困難的,存在幾乎不可能的問題。
作為其原因,可以列舉以下的情況。即,在進(jìn)行聲音輸入的環(huán)境中由于存在雜音等,導(dǎo)致聲音區(qū)間的分離發(fā)生錯誤;或者因?yàn)橐糍|(zhì)、音量、發(fā)音速度、發(fā)音樣式、方言等的用戶間的個人差異;或者因發(fā)音方法和發(fā)音樣式,輸入聲音的波形變形等的原因,導(dǎo)致識別結(jié)果對比失?。换蛘?,由于用戶發(fā)出了在系統(tǒng)中未準(zhǔn)備的未知詞,導(dǎo)致識別失??;或者,誤識別為聲音相似的單詞;或者因?yàn)闇?zhǔn)備的標(biāo)準(zhǔn)模式和統(tǒng)計(jì)性語言模型不完整,誤識別為錯誤的單詞;或者在對比處理的過程中,為了減輕計(jì)算負(fù)荷通過進(jìn)行候補(bǔ)縮減,由此原本需要的候補(bǔ)被誤刪減引起誤識別;或者用戶說錯、重說,或者說話的非語法性等是原因,原本想輸入的文字的輸入不能正確識別。
另外,在發(fā)音長的文字的情況下,存在因?yàn)槠渲邪S多音素,所以其一部分被誤識別,引起整體出現(xiàn)錯誤的問題。
另外,在引起識別錯誤時,引發(fā)誤動作,需要排除或者復(fù)原該錯誤動作的影響等,存在用戶負(fù)擔(dān)加重的問題。
另外,在發(fā)生識別錯誤時,存在用戶需要重復(fù)多次進(jìn)行同樣輸入的負(fù)擔(dān)加重的問題。
另外,為了修正被誤識別的不能正確輸入的文字,例如需要鍵盤操作,存在聲音輸入的“免手動操作(hand free)”這一特性不起作用的問題。
另外,存在要正確輸入聲音,用戶心理存在負(fù)擔(dān),進(jìn)行輕松的聲音輸入的優(yōu)點(diǎn)被抵消的問題。
這樣,在聲音識別中,因?yàn)椴豢赡?00%避免誤識別的發(fā)生,所以在以往的裝置中,有用戶想輸入的文字不能輸入到系統(tǒng)中的情況,或者需要用戶多次重復(fù)同樣發(fā)音,或者需要用于糾錯的鍵盤操作,由此用戶負(fù)擔(dān)增加,存在不能得到“免手動操作”、進(jìn)行輕松的聲音輸入這些原本的優(yōu)點(diǎn)的問題。
另外,作為檢測糾正說話的方法已知有“對目標(biāo)設(shè)定任務(wù)中的糾正說話的特征分析和檢測的應(yīng)用,日本音響學(xué)會演講論文集,2001年10月”,但在該文獻(xiàn)中記述的技術(shù)不過是設(shè)想成為目標(biāo)設(shè)定的特定的任務(wù)的聲音識別系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明鑒于上述問題而提出,其目的在于提供一種可以不給用戶增加負(fù)擔(dān)地糾正對輸入聲音的誤識別的聲音識別方法以及使用它的聲音識別裝置。
本發(fā)明的特征在于,從被變換為數(shù)字?jǐn)?shù)據(jù)的說話者的輸入聲音中抽出用于聲音識別的特征信息,根據(jù)該特征信息把與該輸入聲音對應(yīng)的多個音素串或者文字串作為識別候補(bǔ)求出,從該識別候補(bǔ)中選擇在該輸入聲音中最貼切的多個音素串或者文字串,求識別結(jié)果,從被輸入的2個輸入聲音中最先被輸入的第1輸入聲音、和為了糾正該第1輸入聲音的識別結(jié)果而輸入的第2輸入聲音的各自中,至少在該2個輸入聲音之間把上述特征信息規(guī)定時間連續(xù)類似的部分作為類似部分檢測出,在求上述第2輸入聲音的識別結(jié)果時,從與該第2輸入聲音的上述類似部分對應(yīng)的識別候補(bǔ)的多個音素串或者文字串中,刪除在上述第1輸入聲音的上述識別結(jié)果中與該類似部分對應(yīng)的音素串或者文字串,從與作為其結(jié)果的與上述第2輸入聲音對應(yīng)的識別候補(bǔ)中選擇在該第2輸入聲音中最貼切的多個音素串或者文字串,求該第2輸入聲音的識別結(jié)果。
如果采用本發(fā)明,則用戶在對最初的輸入聲音(第1輸入聲音)的識別結(jié)果中有錯誤時,只以修改它為目的重新發(fā)音,從而可以不給用戶增加負(fù)擔(dān)容易修改對輸入聲音的誤識別。即,通過從對最初輸入聲音的糾正發(fā)音的輸入聲音(第2輸入聲音)的識別候補(bǔ)中排除最初的輸入聲音識別結(jié)果中的誤識別可能性高的部分(和第2輸入聲音類似的部分(類似區(qū)間))的音素串或者文字串,可以極大地避免第2輸入聲音的識別結(jié)果和第1輸入聲音的識別結(jié)果的相同,因而不會出現(xiàn)重復(fù)多次糾錯發(fā)音而變?yōu)橥瑯拥淖R別結(jié)果。因而,可以高速度并且高精度地糾正輸入聲音的識別結(jié)果。
本發(fā)明的特征在于,從被變換為數(shù)字?jǐn)?shù)據(jù)的說話者的輸入聲音中抽出用于聲音識別的特征信息,根據(jù)該特征信息把與該輸入聲音對應(yīng)的多個音素串或者文字串作為識別候補(bǔ)求出,從該識別候補(bǔ)中選擇在該輸入聲音中最貼切的多個音素串或者文字串,求識別結(jié)果,為了糾正被輸入的2個輸入聲音中最先被輸入的第1輸入聲音的識別結(jié)果,根據(jù)與被輸入的第2輸入聲音對應(yīng)的上述數(shù)字?jǐn)?shù)據(jù)抽出該第2輸入聲音的韻律性特征,從該韻律性特征中把該第2輸入聲音中的上述說話者強(qiáng)調(diào)發(fā)音的部分作為強(qiáng)調(diào)部分檢測出,把在上述第1輸入聲音的上述識別結(jié)果中與從上述第2輸入聲音中檢測出的與上述強(qiáng)調(diào)部分對應(yīng)的部分的音素串或者文字串,用在與上述第2輸入聲音的上述強(qiáng)調(diào)部分對應(yīng)的識別候補(bǔ)的多個音素串或者文字串中與該強(qiáng)調(diào)部分最貼切的音素串或者文字串置換,糾正上述第1輸入聲音的識別結(jié)果。
最好是,抽出上述第2輸入聲音的發(fā)音速度、發(fā)音強(qiáng)度、作為頻率變化的音調(diào)、停頓出現(xiàn)的頻度、音質(zhì)中的至少一種韻律性特征,從該韻律性特征中檢測該第2輸入聲音中的上述強(qiáng)調(diào)部分。
如果采用本發(fā)明,則用戶在對最初的輸入聲音(第1輸入聲音)的識別結(jié)果中有錯誤時,只以修改它為目的糾正發(fā)音,從而可以不給用戶以負(fù)擔(dān)地容易修改對輸入聲音的錯誤識別。即,在輸入對最初的輸入聲音(第1輸入聲音)的糾正發(fā)音的輸入聲音(第2輸入聲音)時,用戶只要強(qiáng)調(diào)發(fā)音該第1輸入聲音的識別結(jié)果中想要糾正的部分即可,由此,用在該第2輸入聲音中的該強(qiáng)調(diào)部分(強(qiáng)調(diào)區(qū)間)中最貼切的音素串或者文字串,改寫在第1輸入聲音的識別結(jié)果中應(yīng)該糾正的音素串或者文字串,修改該第1輸入聲音的識別結(jié)果中的錯誤部分(音素串或者文字串)。因而,不會出現(xiàn)重復(fù)多次糾錯發(fā)音而變?yōu)橥瑯拥淖R別結(jié)果。因而,可以高速度并且高精度地糾正輸入聲音的識別結(jié)果。
本發(fā)明的聲音識別裝置,其特征在于包含,輸入說話者的聲音變換為數(shù)字?jǐn)?shù)據(jù)的聲音輸入裝置;從上述數(shù)字?jǐn)?shù)據(jù)中抽出用于聲音識別的特征信息的抽出裝置;根據(jù)上述特征信息,把在上述聲音輸入裝置中輸入的與聲音對應(yīng)的多個音素串或者文字串作為識別候補(bǔ)求得的候補(bǔ)生成裝置;從上述識別候補(bǔ)中,選擇與上述輸入的聲音最貼切的多個音素串或者文字串,求得識別結(jié)果的識別結(jié)果生成裝置,上述識別結(jié)果生成裝置包含,在上述聲音輸入裝置中連續(xù)輸入的2個聲音中,從最先輸入的第1聲音和接著輸入的第2聲音的各自中,把至少在上述2個聲音之間上述特征信息連續(xù)規(guī)定時間的類似的部分作為類似部分檢測的第1檢測裝置;在用該第1檢測裝置檢測出上述類似部分時,從與上述第2聲音的該類似部分對應(yīng)的識別候補(bǔ)的多個音素串或者文字串中,刪除與上述第1聲音的上述識別結(jié)果的該類似部分對應(yīng)的音素串或者文字串,從與作為其結(jié)果的上述第1聲音對應(yīng)的識別候補(bǔ)中選擇與該第1聲音最貼切的多個音素串或者文字串,生成該第1聲音的識別結(jié)果的第1生成裝置;在用上述第1檢測裝置檢測出上述類似部分時,從用上述候補(bǔ)生成裝置生成的與上述第1聲音對應(yīng)的識別候補(bǔ)中選擇與該第1聲音最貼切的多個聲音串或者文字串,生成該第1聲音的識別結(jié)果的第2生成裝置。
另外,上述聲音識別裝置的上述識別結(jié)果生成裝置,其特征在于進(jìn)一步包含,根據(jù)與第2聲音對應(yīng)的上述數(shù)字?jǐn)?shù)據(jù)抽出該第2聲音的韻律性特征,從該韻律性特征中把該第2聲音中的上述說話者強(qiáng)調(diào)發(fā)音的部分作為強(qiáng)調(diào)部分檢測出的第2檢測裝置;用上述第1檢測裝置檢測上述類似部分,而且,在用上述第2檢測裝置檢測出上述強(qiáng)調(diào)部分時,把在上述第1聲音的上述識別結(jié)果中與從上述第2聲音中檢測出的上述強(qiáng)調(diào)部分對應(yīng)的音素串或者文字串,用在與上述第2聲音的上述強(qiáng)調(diào)部分對應(yīng)的識別候補(bǔ)的多個音素串或者文字串中與該強(qiáng)調(diào)部分最貼切的音素串或者文字串置換,修改上述第1聲音的識別結(jié)果的糾錯裝置。
另外,上述糾錯裝置,其特征在于在占上述第2聲音的上述類似部分以外的部分的上述強(qiáng)調(diào)部分的比例在預(yù)先確定的閾值以上或者比該閾值大時,修改上述第1聲音的識別結(jié)果。
另外,上述第1檢測裝置,根據(jù)上述2個聲音各自的上述特征信息,和該2個聲音各自的發(fā)音速度、發(fā)音強(qiáng)度、作為頻率變化的音調(diào)、停頓的出現(xiàn)頻度、音質(zhì)中的至少1個韻律性特征,檢測上述類似部分。
另外,上述第2檢測裝置,其特征在于抽出第2聲音的發(fā)音速度、發(fā)音強(qiáng)度、作為頻率變化的音調(diào)、停頓的出現(xiàn)頻度、音質(zhì)中的至少1個韻律性特征,從該韻律性特征中檢測該第2聲音中的上述強(qiáng)調(diào)部分。
圖1是展示本發(fā)明的實(shí)施方式的聲音接口裝置的構(gòu)成例子的圖。
圖2是用于說明圖1的聲音接口裝置的處理動作的流程圖。
圖3是用于說明圖1的聲音接口裝置的處理動作的流程圖。
圖4是具體說明誤識別的糾錯順序的圖。
圖5是用于說明誤識別的另一糾錯順序的圖。
具體實(shí)施例方式
以下,參照
本發(fā)明的實(shí)施方式。
圖1是展示適用本發(fā)明的聲音識別方法以及使用該方法的聲音識別裝置的本實(shí)施方式的聲音接口裝置的構(gòu)成例的圖,由輸入單元101、分析單元102、對照單元103、詞典存儲單元104、控制單元105、履歷存儲單元106、對應(yīng)檢測單元107,以及強(qiáng)調(diào)檢測單元108構(gòu)成。
在圖1中,輸入單元101,根據(jù)控制單元105的指示,取入來自用戶的聲音,在將其變換為電氣信號后,進(jìn)行A/D(模擬數(shù)字)轉(zhuǎn)換,轉(zhuǎn)換為采用PCM(脈沖碼調(diào)制)形式等的數(shù)字?jǐn)?shù)據(jù)。進(jìn)而,在輸入單元101中的上述處理,可以采用和以往的聲音信號的數(shù)字化處理同樣的處理實(shí)現(xiàn)。
分析單元102,根據(jù)控制單元105的指示,接收從輸入單元101輸出的數(shù)字?jǐn)?shù)據(jù),采用FFT(高速傅立葉變換)等的處理進(jìn)行頻率分析等,對輸入聲音的每一規(guī)定區(qū)間(例如,音素單位或者單詞單位等),按照時間序列輸出用于對各期間的聲音識別所需要的特征信息(例如頻譜等)。進(jìn)而在分析單元102中的上述處理,可以通過和以往的聲音分析同樣的處理實(shí)現(xiàn)。
對照單元103,根據(jù)控制單元105的指示,取得從分析單元102輸出的特征信息,參照被存儲在詞典存儲單元104中的詞典進(jìn)行對照,計(jì)算和每一輸入聲音的規(guī)定區(qū)間(例如,音素或者音節(jié)或者重音句等的音素串單位,或者單詞單位等的文字串單位等)的識別候補(bǔ)的類似程度,例如,在把類似程度設(shè)置為得分(score)時,以帶該得分的點(diǎn)陣形式,輸出文字串或者音素串的多個識別候補(bǔ)。進(jìn)而在對照單元103中的上述處理,通過HMM(隱馬爾可夫模型)方法,或者DP(動態(tài)程序設(shè)計(jì)),或者NN(神經(jīng)網(wǎng)絡(luò))等,和以以往的聲音識別處理同樣的處理實(shí)現(xiàn)。
在詞典存儲單元104中,存儲音素和單詞等的標(biāo)準(zhǔn)模式等,使得可以作為在對照單元103中實(shí)施的上述對照處理時參照的詞典利用。
用以上的輸入單元101、分析單元102、對照單元103、詞典存儲單元104和控制單元105,作為聲音接口裝置實(shí)現(xiàn)以往的某些基本功能。即,在控制單元105的控制下,圖1所示的聲音接口裝置,用輸入單元101取入用戶(說話者)的聲音將其變換為數(shù)字?jǐn)?shù)據(jù),在分析單元102中分析該數(shù)字?jǐn)?shù)據(jù)抽出特征信息,在對照單元103中,進(jìn)行該特征信息和被存儲在詞典存儲單元104中的詞典的對照,把從輸入單元101輸入的聲音的至少1個識別候補(bǔ),和其類似度一同輸出。對照單元103,在控制單元105的控制下,通常,從該被輸出的識別候補(bǔ)中根據(jù)其類似程度等把與該輸入的聲音最貼切的候補(bǔ)作為識別結(jié)果采用(選擇)。
識別結(jié)果,被例如以文字和聲音的形式反饋顯示給用戶,或者輸出到在聲音接口的背后的應(yīng)用程序等。
履歷存儲單元106、對應(yīng)檢測單元107、強(qiáng)調(diào)檢測單元108,是本實(shí)施方式的特征性構(gòu)成部分。
履歷存儲單元106,對各輸入聲音,把在輸入單元101中求得的與該輸入聲音對應(yīng)的數(shù)字?jǐn)?shù)據(jù)、在分析單元102中從該輸入聲音中抽出的特征信息、在對照單元103中得到的與對該輸入聲音的識別候補(bǔ)和識別結(jié)果有關(guān)的信息等,作為與該輸入聲音有關(guān)的履歷信息記錄。
對應(yīng)檢測單元107,根據(jù)被記錄在履歷存儲單元106中的連續(xù)被輸入的2個輸入聲音的履歷信息,檢測兩者間的類似部分(類似區(qū)間)、不同部分(不一致區(qū)間)。進(jìn)而,在此類似區(qū)間,對于不一致區(qū)域的判定,根據(jù)通過包含在2個輸入聲音的各個履歷信息中的數(shù)字?jǐn)?shù)據(jù),和從其中抽出的特征信息,進(jìn)而對特征信息的DP(動態(tài)程序設(shè)計(jì))處理等求得的各識別候補(bǔ)的類似程度等來進(jìn)行。
例如,在對應(yīng)檢測單元107中,根據(jù)從2個輸入聲音的每一規(guī)定期間(例如,音素,音節(jié),重音句等的音素串單位,或者單詞等的文字串單位等)的數(shù)字?jǐn)?shù)據(jù)抽出的特征信息、它們的識別候補(bǔ)等,把推定為發(fā)音為類似的音素串和單詞等的文字串的區(qū)間,檢測為類似區(qū)域。另外,相反,該2個輸入聲音間未被判定為類似區(qū)域的區(qū)間,成為不一致區(qū)間。
例如,在從連續(xù)輸入的2個作為時間序列信號的輸入聲音的每一規(guī)定區(qū)間(例如,音素串單位或者文字串單位)的數(shù)字?jǐn)?shù)據(jù)中,為了進(jìn)行聲音識別而抽出的特征信息(例如,頻譜等)有以預(yù)先規(guī)定的時間持續(xù)類似的區(qū)域時,把該區(qū)間作為類似區(qū)域檢測?;蛘?,在2個輸入聲音的每一規(guī)定區(qū)間上求得的(生成的)作為識別候補(bǔ)的多個音素串或者文字串中占有的兩者共同的音素串或者文字串的比例在預(yù)先規(guī)定的比例以上或者比該比例大的區(qū)間,以預(yù)先規(guī)定的時間持續(xù)存在時,把該連續(xù)的區(qū)間作為兩者的類似區(qū)間檢測出來。進(jìn)而,在此,所謂“特征信息以預(yù)先確定的時間持續(xù)類似”,是指該2個輸入聲音,為了判定是否是發(fā)出的同樣的短語,而在充分的時間內(nèi)特征信息類似。
不一致區(qū)間,是在從連續(xù)輸入的2個輸入聲音的各自中,如上所述檢測出兩者的類似區(qū)間時,在各輸入聲音中,類似區(qū)間以外的區(qū)間是不一致區(qū)間。另外,如果從上述2個輸入聲音中未檢測出類似區(qū)間,則全部為不一致區(qū)間。
另外,在對應(yīng)檢測單元107中,從各輸入聲音的數(shù)字?jǐn)?shù)據(jù)中抽出作為基本頻率的F0的時間變化模式(基本頻率模式)等,也可以抽出韻律性特征。
在此,具體地說明類似區(qū)間、不一致區(qū)間。
在此假設(shè)說明,例如,當(dāng)在對第1次的輸入聲音的識別結(jié)果的一部分有誤識別的情況下,說話者再次發(fā)出想要識別的同一短語的情況。
例如,用戶(說話者)在第1次的聲音輸入時,假設(shè)發(fā)出了“チケットを買ぃたぃのですか”這一短語。把它作為第1輸入聲音。該第1輸入聲音,從輸入單元101輸入,作為在對照單元103中的聲音識別結(jié)果,如圖4(a)所示,假設(shè)識別為“ラケットがカゥントなのです”。因而,該用戶,如圖4(b)所示,假設(shè)再次發(fā)出“チケットを買ぃたぃのですか”這一短語。把它作為第2輸入聲音。
這種情況下,在對應(yīng)檢測單元107中,因?yàn)楦鶕?jù)從第1輸入聲音和第2輸入聲音各自中抽出的聲音識別用的特征信息,把第1輸入聲音的“ラケットが”這一音素串或者文字串作為識別結(jié)果采用(選擇)的區(qū)間,和第2輸入聲音中的“チケットを”這一區(qū)間,相互特征信息類似(其結(jié)果,求得同樣的識別候補(bǔ)),所以作為類似區(qū)間檢測出。另外,因?yàn)榘训?輸入聲音的“のです”這一音素或者文字串作為識別結(jié)果采用(選擇)的區(qū)間,和第2輸入聲音中的“のですか”這一區(qū)間,也是相互特征信息類似(其結(jié)果,求得同樣的識別候補(bǔ)),所以作為類似區(qū)間檢測出。另一方面,在第1輸入聲音和第2輸入聲音中,類似區(qū)間以外的區(qū)間,作為不一致區(qū)間檢測出。這種情況下,第1輸入聲音的“カゥントな”這一音素串或者文字串作為識別結(jié)果采用(選擇)的區(qū)間,和第2輸入聲音中的“かぃた?!边@一區(qū)間,因?yàn)橛捎谔卣鞑活愃?因?yàn)椴粷M足用于判斷為類似的規(guī)定的基準(zhǔn),另外,其結(jié)果,還因?yàn)樵谧鳛樽R別候補(bǔ)列舉的音素串或者文字串中,共同處幾乎沒有)未作為類似區(qū)域檢測出,所以作為不一致區(qū)間檢測出。
進(jìn)而,在此,因?yàn)榧僭O(shè)是和第1輸入聲音和第2輸入聲音同樣(理想的一樣)的短語,所以如上所述如果從2個輸入聲音間檢測出類似區(qū)間(即,如果第2輸入聲音是第1輸入聲音的局部重說),則2個輸入聲音的類似區(qū)間的對應(yīng)關(guān)系,和不一致區(qū)間的對應(yīng)關(guān)系例如如圖4(a)、(b)所示。
另外,對應(yīng)檢測單元107,在從該2個輸入聲音的每一規(guī)定區(qū)間的數(shù)字?jǐn)?shù)據(jù)的各自中檢測類似區(qū)間時,如上所述,除了為了聲音識別而抽出的特征信息外,進(jìn)而,也可以考慮該2個輸入聲音各自的發(fā)音速度、發(fā)音強(qiáng)度、作為頻率變化的音調(diào)、作為無音區(qū)間的停頓的出現(xiàn)頻度、音質(zhì)等這些韻律性特征中至少一個,檢測類似區(qū)間。例如,即使是只根據(jù)上述特征信息,可以判斷為類似區(qū)間的正好處于邊界上的區(qū)間,當(dāng)上述韻律性特征中的至少1個類似的情況下,也可以把該區(qū)間作為類似區(qū)間。這樣,除了頻譜等的特征信息外,通過根據(jù)上述韻律性特征判斷是否是類似區(qū)間,提高類似區(qū)間的檢測精度。
有關(guān)各輸入聲音的韻律性特征,例如,可以通過從各輸入聲音的數(shù)字?jǐn)?shù)據(jù)中抽出基本頻率F0的時間變化的模式(基本頻率模式)等求得,抽出該韻律性特征的方法自身,是公知公用技術(shù)。
強(qiáng)調(diào)分析單元108,根據(jù)被記錄在履歷存儲單元106中的履歷信息,例如,從輸入聲音的數(shù)字?jǐn)?shù)據(jù)中抽出基本頻率F0的時間變化的模式(基本頻率模式),或者抽出作為聲音信號的強(qiáng)度的功率時間變化等,分析輸入聲音的韻律性特征,從輸入聲音中檢測說話者強(qiáng)調(diào)發(fā)音的區(qū)間,即,強(qiáng)調(diào)區(qū)間。
一般,說話者為了局部重說,想重說的部分,可以預(yù)測是強(qiáng)調(diào)發(fā)音的部分。說話者的感情等,作為聲音的韻律性特征表現(xiàn)。因而,根據(jù)該韻律性特征中,可以從輸入聲音中檢測出強(qiáng)調(diào)區(qū)間。
所謂作為強(qiáng)調(diào)區(qū)間檢測出的輸入聲音的韻律性特征,還表現(xiàn)在上述基板頻率模式中,例如可以列舉,輸入聲音中的某區(qū)間的發(fā)音速度比該輸入聲音的其他的區(qū)間慢,該某區(qū)間的發(fā)音強(qiáng)度比其他區(qū)間強(qiáng),作為該某區(qū)間的頻率變化的音調(diào)比其他區(qū)間高,該某期間的無音區(qū)間的停頓的出現(xiàn)頻度多,進(jìn)而,該某期間的音質(zhì)高亢(例如,基本頻率的平均值比其他區(qū)間高)等。在此,它們中的至少1個韻律性特征,在滿足可以作為強(qiáng)調(diào)區(qū)間判斷的規(guī)定的基準(zhǔn)時,進(jìn)而,在規(guī)定時間連續(xù)表現(xiàn)其特征時,把該區(qū)間判斷為強(qiáng)調(diào)區(qū)間。
進(jìn)而,上述履歷存儲單元106、對應(yīng)檢測單元107、強(qiáng)調(diào)檢測單元108,在控制單元105的控制下動作。
以下,在本實(shí)施方式中,說明把文字串作為識別候補(bǔ)、識別結(jié)果的例子,但并不限于此,例如,也可以把音素串作為識別候補(bǔ)、識別結(jié)果求得。當(dāng)把音素串作為識別候補(bǔ)的情況下,也是在內(nèi)部處理中,如以下那樣,和把文字串作為識別候補(bǔ)的情況完全相同,作為識別結(jié)果求得的音素串,最終可以用聲音輸出,也可以作為文字串輸出。
以下,參照圖2~圖3所示的流程圖說明圖1所示的聲音接口裝置的處理動作。
控制單元105,對上述各部101~104、106~108,控制進(jìn)行圖2~圖3那樣的處理動作。
首先,控制單元105,把與相對輸入聲音的識別符(ID)對應(yīng)的計(jì)數(shù)值I設(shè)置為“0”,全部刪除被記錄在履歷存儲單元106中的履歷信息(清除)等,進(jìn)行用于這些輸入的聲音識別的初始化(步驟S1~步驟S2)。
如果有聲音輸入(步驟S3),則把計(jì)數(shù)值增加1(步驟S4),把該計(jì)數(shù)值i作為該輸入聲音的ID。以下,把該輸入聲音稱為Vi。
把該輸入聲音Vi的履歷信息設(shè)置為Hi。以下,簡單地稱為履歷Hi。輸入聲音Vi在履歷存儲單元106中作為履歷Hi記錄的同時(步驟S5),在輸入單元101中A/D轉(zhuǎn)換該輸入聲音Vi,得到與該輸入聲音Vi對應(yīng)的數(shù)字?jǐn)?shù)據(jù)Wi。該數(shù)字?jǐn)?shù)據(jù)Wi,作為履歷Hi記錄在履歷存儲單元106中(步驟S6)。
在分析單元102中,分析數(shù)字?jǐn)?shù)據(jù)Wi,得到輸入聲音Vi的特征信息Fi,把該特征信息Fi在履歷存儲單元106中作為履歷Hi存儲(步驟S7)。
對照單元103,進(jìn)行被存儲在詞典存儲單元104中的詞典,和從輸入聲音Vi抽出的特征信息的對照處理,把與該輸入聲音Vi對應(yīng)的例如單詞單位的多個文字串作為識別候補(bǔ)Ci求得。該識別候補(bǔ)Ci,作為履歷Hi存儲在履歷存儲單元106中(步驟S8)。
控制單元105從履歷存儲單元106中檢索輸入聲音Vi之前的輸入聲音的履歷Hj(j=i-1)(步驟S9)。如果有該履歷Hj,則進(jìn)入步驟S10進(jìn)行類似區(qū)間的檢測處理,如果沒有,則跳過步驟S10中的類似區(qū)間的檢測處理,進(jìn)入步驟S11。
在步驟S10中,根據(jù)此次的輸入聲音的履歷Hi=(Vi,Wi,F(xiàn)i,Ci,…),和此前的輸入聲音的履歷Hj=(Vj,Wj,F(xiàn)j,Cj,…),在對應(yīng)檢測單元107中,例如檢測此次和此前的輸入聲音的每一規(guī)定區(qū)間的數(shù)字?jǐn)?shù)據(jù)(Wi,Wj)和從其中抽出的特征信息(Fi,F(xiàn)j),根據(jù)需要,根據(jù)識別候補(bǔ)(Ci,Cj),和此次和此前輸入聲音的韻律的特征等檢測類似區(qū)間。
在此,把此次的輸入聲音Vi和此前的輸入聲音Vj之間對應(yīng)的類似區(qū)間,表示為Ii、Ij,把這些對應(yīng)關(guān)系表示為Aij=(Ii,Ij)。進(jìn)而,與在此檢測出的連續(xù)的2個輸入聲音的類似區(qū)間Aij有關(guān)的信息,作為履歷Hi,記錄在履歷存儲單元106中。以下,在該類似區(qū)間的被檢測出的連續(xù)輸入的2個輸入聲音中,也有把先輸入的前次輸入聲音Vj稱為第1輸入聲音,把接著輸入的現(xiàn)在的輸入聲音Vi稱為第2輸入聲音。
在步驟S11中,強(qiáng)調(diào)檢測單元108,如上所述,從第2的輸入聲音Vi的數(shù)字?jǐn)?shù)據(jù)Fi抽出韻律性特征,并從該第2輸入聲音Vi檢測強(qiáng)調(diào)區(qū)間Pi。例如,如果輸入聲音中的某一區(qū)間的發(fā)生速度比該輸入聲音的另一區(qū)間慢一些,則把該某一區(qū)間看作強(qiáng)調(diào)區(qū)間,如果該某一區(qū)間的發(fā)音強(qiáng)度比其他區(qū)間強(qiáng)一些,則把該某一區(qū)間看作強(qiáng)調(diào)區(qū)間。如果該某一區(qū)間的頻率變換的音調(diào)比其他區(qū)間高一些,則把該某一區(qū)間看作強(qiáng)調(diào)區(qū)間,如果在該某一區(qū)間的無音區(qū)間上停頓比其他區(qū)間多一些,則把該某一區(qū)間看作強(qiáng)調(diào)區(qū)間。進(jìn)而,如果該某一區(qū)間的音質(zhì)比其他區(qū)間高亢一些(例如,如果基本頻率的平均值比其他的區(qū)間高一些),則把該某一區(qū)間看作強(qiáng)調(diào)區(qū)間,把這些用于判定為強(qiáng)調(diào)區(qū)間的預(yù)先確定的基準(zhǔn)(或者規(guī)則)存儲在強(qiáng)調(diào)檢測單元108。例如,在滿足上述多個基準(zhǔn)中的至少1個,或者全部滿足上述多個基準(zhǔn)中的一部分的多個基準(zhǔn)時,把該某一區(qū)間判定為強(qiáng)調(diào)區(qū)間。
從第2輸入聲音Vi中如上所述在檢測出強(qiáng)調(diào)區(qū)間Pi時(步驟S12),把與該被檢測出的強(qiáng)調(diào)區(qū)間Pi有關(guān)的信息,作為履歷Hi記錄在履歷存儲單元106中(步驟S13)。
進(jìn)而,圖2所示的處理動作,以及在此時刻,在與第1輸入聲音Vi有關(guān)的識別處理過程中的處理動作,有關(guān)第1輸入聲音Vj,已經(jīng)得到識別結(jié)果,而對于第1輸入聲音Vi,識別結(jié)果還未得到。
以下,控制單元105,檢索被存儲在履歷存儲單元106中的第2輸入聲音,即,檢索有關(guān)此次輸入聲音Vi的履歷Hi,如果在該履歷Hi中未包含與類似區(qū)間Aij有關(guān)的信息(圖3的步驟S21),則該輸入聲音,判斷為此前輸入的聲音Vj沒有重說,控制單元105和對照單元103,對該輸入聲音Vi,從在步驟S8中求得的識別候補(bǔ)中,選擇與該輸入聲音Vi最適應(yīng)的文字串,生成該輸入聲音Vi的識別結(jié)果,輸出它(步驟S22)。進(jìn)而,把該輸入聲音Vi的識別結(jié)果,作為履歷Hi記錄在履歷存儲單元106。
另一方面,控制單元105,檢索被存儲在履歷存儲單元106中的第2輸入聲音,即檢索有關(guān)此次輸入聲音Vi的履歷Hi,在該履歷Hi中包含與類似區(qū)間Aij有關(guān)的信息時(圖3的步驟S21),則該輸入聲音Vi,可以判斷為此前輸入的聲音Vj有重說,這種情況下,進(jìn)入步驟S23。
步驟S23,檢查在該履歷信息Hi中是否包含與強(qiáng)調(diào)區(qū)間Pi有關(guān)的信息,在不包含時,進(jìn)入步驟S24,在包含的情況下進(jìn)入步驟S26。
在履歷Hi中未包含與強(qiáng)調(diào)區(qū)間Pi有關(guān)的信息時,在步驟S24中,生成對第2輸入聲音Vi的識別結(jié)果,但此時,控制單元105,在和從該第2輸入聲音Vi中檢測出的第1輸入聲音Vj的類似區(qū)間Ii對應(yīng)的識別候補(bǔ)的文字串中,刪除與和從第1輸入聲音Vj中檢測出的第1輸入聲音Vi的類似區(qū)間Ij對應(yīng)的識別結(jié)果的文字串(步驟S24)。而后,對照單元103,從作為識別結(jié)果的與該第2輸入聲音Vi對應(yīng)的識別候補(bǔ)中選擇與該第2輸入聲音Vi最貼切的多個文字串,生成該第2輸入聲音Vi的識別結(jié)果,把它作為第1輸入聲音的經(jīng)糾正的識別結(jié)果輸出(步驟S25)。進(jìn)而,作為第1以及第2輸入聲音Vj、Vi的識別結(jié)果,把在步驟S25中生成的識別結(jié)果,作為履歷Hj、Hi記錄在履歷存儲單元106中。
參照圖4具體地說明該步驟S24~步驟S25的處理動作。
在圖4中,如上所述,用戶輸入的第1輸入聲音,因?yàn)楸蛔R別為“ラケットがカゥントなのです”(參照圖4(a)),所以假設(shè)用戶作為第2輸入聲音輸入了“チケットを買ぃたぃのですか”。
這時,在圖2的步驟S10~步驟S13中,從該第1以及第2輸入聲音中,如圖4所示,假設(shè)檢測了類似區(qū)間、不一致區(qū)間,進(jìn)而,在此,假設(shè)從第2輸入聲音中未檢測出強(qiáng)調(diào)區(qū)間。
對第2輸入聲音,在對照單元103中進(jìn)行和詞典的對照的結(jié)果(圖2的步驟S8),對發(fā)聲為“チケット”的區(qū)間,例如,把“ラケットが”、“チケットを”、“ラケットが”、“チケットを”…,這些文字串作為識別候補(bǔ)求得,對于發(fā)“かぃた?!钡膮^(qū)間,例如把“かぃた?!?、“カゥント”、…這些文字串作為識別候補(bǔ)求得,進(jìn)而,對于發(fā)“のですか”的區(qū)間,把“のですか”、“なのですか”、…這些文字串作為識別候補(bǔ)求得(參照圖4(b))。
于是,在圖3的步驟S24中,第2輸入聲音中的發(fā)“チケットを”音的區(qū)間(Ii),和在第1輸入聲音中被識別為“ラケットが”的區(qū)間(Ij),因?yàn)槭窍嗷ヮ愃茀^(qū)間,所以從該第2輸入聲音中的發(fā)“チケットを”的區(qū)間的識別候補(bǔ)中,刪除第1輸入聲音中的作為類似區(qū)間Ij的識別結(jié)果文字串“ラケットが”。進(jìn)而,也可以是當(dāng)識別候補(bǔ)在規(guī)定數(shù)以上的情況等下,從該第2輸入聲音中的發(fā)“チケットを”的區(qū)間的識別候補(bǔ)中,進(jìn)一步還刪除第1輸入聲音中的和作為類似區(qū)間Ij的識別結(jié)果的文字串“ラケットが”類似的文字串,例如“ラケットを”。
另外,第2輸入聲音中的發(fā)“のですか”音的區(qū)間(Ii),和在第1輸入聲音中的被識別為“のです”的區(qū)間(Ij),因?yàn)槭窍嗷ヮ愃茀^(qū)間,所以,從該第2輸入聲音中的發(fā)“のですか”音的區(qū)間的識別候補(bǔ)中,刪除第1輸入聲音中的作為類似區(qū)間Ij的識別結(jié)果的文字串“のです”。
其結(jié)果,對于發(fā)第2輸入聲音中的“チケットを”的區(qū)間的識別候補(bǔ),例如為“チケットを”“チケットが,這是以相對前次的輸入聲音的識別結(jié)果為基礎(chǔ)收斂的結(jié)果。另外,對于發(fā)第2輸入聲音中的“のですか”的區(qū)間的識別候補(bǔ),例如為“なのですか”“のですか”,這也是以相對前次的輸入聲音的識別結(jié)果為基礎(chǔ)收斂的結(jié)果。
在步驟S25中,從該被收斂后的識別結(jié)果文字串中,選擇與第2輸入聲音Vi最貼切的文字串,生成識別結(jié)果。即,在相對發(fā)第2輸入聲音的“チケットを”的區(qū)間的識別候補(bǔ)的文字串中,與該區(qū)間的聲音最貼切的文字串是“チケットを”,在相對發(fā)第2輸入聲音的“かぃた?!钡膮^(qū)間的識別候補(bǔ)的文字串中,與該區(qū)間的聲音最貼切的文字串是“買ぃた?!?,在相對發(fā)第2輸入聲音的“のですか”的區(qū)間的識別候補(bǔ)的文字串中,在與該區(qū)間的聲音最貼切的文字串是“のですか”時,從這些被選擇出的文字串中,把“チケットを買ぃたぃのですか”這一文字串(短語),作為第1輸入聲音的糾正后的識別結(jié)果生成并輸出。
以下,說明圖3的步驟S26~步驟S28的處理動作。通過這里的處理,當(dāng)從第2輸入聲音中檢測出強(qiáng)調(diào)區(qū)間的情況下,進(jìn)而,當(dāng)該強(qiáng)調(diào)區(qū)間和不一致區(qū)間大致相等時,以與該第2輸入聲音的該強(qiáng)調(diào)區(qū)間對應(yīng)的識別候補(bǔ)為基礎(chǔ),糾正第1輸入聲音的識別結(jié)果。
進(jìn)而,如圖3所示,即使從第2輸入聲音中檢測出強(qiáng)調(diào)區(qū)間的情況下,在該強(qiáng)調(diào)區(qū)間Pi的不一致區(qū)間所示的比例在預(yù)先設(shè)定的值R以下,或者比該值R小時(步驟S6),進(jìn)入步驟S24,如上所述,在根據(jù)相對第1輸入聲音的識別結(jié)果篩選對第2輸入聲音求得的識別候補(bǔ)后,生成相對該第2聲音輸入的識別結(jié)果。
在步驟S26中,從第2聲音中檢測強(qiáng)調(diào)區(qū)間,進(jìn)而,在該強(qiáng)調(diào)區(qū)間和不一致區(qū)間大致相等時(該強(qiáng)調(diào)區(qū)間Pi的不一致區(qū)間表示的比例比預(yù)先確定的值R大,或者,在該值R以上時),進(jìn)入步驟S27。
在步驟S27中,控制單元105,把在從第2輸入聲音Vi中檢測出的與強(qiáng)調(diào)區(qū)間Pi對應(yīng)的第1輸入聲音Vj區(qū)間(大致和第1輸入聲音Vj和第2輸入聲音Vi的不一致區(qū)間對應(yīng))的識別結(jié)果的文字串,在第2聲音Vi的強(qiáng)調(diào)區(qū)間的識別候補(bǔ)的文字串中,用在對照單元103中選擇出的與該強(qiáng)調(diào)區(qū)間的聲音最貼切的文字串(第1位的識別候補(bǔ))置換,糾正該第1輸入聲音Vj的識別結(jié)果。而后,在第1輸入聲音的識別結(jié)果中,從第2輸入聲音中檢測出的與強(qiáng)調(diào)區(qū)間對應(yīng)的區(qū)間的識別結(jié)果的文字串,用該第2輸入聲音的該強(qiáng)調(diào)區(qū)間的第1位的識別候補(bǔ)的文字串置換后輸出第1輸入聲音的識別結(jié)果(步驟S28)。進(jìn)而,把該局部被糾正的第1輸入聲音Vj的識別結(jié)果,作為履歷Hi記錄在履歷存儲單元106。
參照圖5具體地說明該步驟S27~步驟S28的處理動作。
例如,在用戶(說話者)第1次聲音輸入時,假設(shè)發(fā)出了“チケットを買ぃたぃのですか”這一短語。把它作為第1輸入聲音。該第1輸入聲音從輸入單元101輸入。作為在對照單元103中的聲音識別的結(jié)果,如圖5(a)所示,假設(shè)識別為“チケットを/カゥントな/のですか”。因而,該用戶,如圖5(b)所示,假設(shè)再次發(fā)出“チケットを買ぃたぃのですか”這一短語。把它作為第2輸入聲音。
這種情況下,在對應(yīng)檢測單元107中,根據(jù)從第1輸入聲音和第2輸入聲音的各自中抽出的用于聲音識別的特征信息,把第1輸入聲音的“チケットを”這一文字串作為識別結(jié)果采用(選擇)的區(qū)間,和第2輸入聲音中的“チケットを”這一區(qū)間作為類似區(qū)間檢測。另外,把第1輸入聲音的“のですか”這一文字串作為識別結(jié)果采用(選擇)的區(qū)間,和第2輸入聲音中的“のですか”這一區(qū)間也作為類似區(qū)間檢測。另一方面,在第1輸入聲音和第2輸入聲音中,類似區(qū)間以外的區(qū)間,即,把第1輸入聲音的“カゥントな”這一文字串作為識別結(jié)果采用(選擇)的區(qū)間,和第2輸入聲音中的“かぃた?!边@一區(qū)間,因?yàn)樘卣餍畔⒉活愃?因?yàn)槲礉M足用于判定為類似的規(guī)定的基準(zhǔn),還因?yàn)?,其結(jié)果,在作為識別候補(bǔ)列舉的文字串中,幾乎沒有共同之處)未作為類似區(qū)間檢測出,所以作為不一致區(qū)間檢測出。
另外,在此,在圖2的步驟S11~步驟S13中,假設(shè)發(fā)出第2輸入聲音中的“かぃた?!钡膮^(qū)間作為強(qiáng)調(diào)區(qū)間被檢測出。
對于第2輸入聲音,在對照單元103中進(jìn)行和詞典的對照的結(jié)果(圖2的步驟S8),對于發(fā)“かぃた?!币舻膮^(qū)間,例如,假設(shè)把“買ぃたぃ”這一文字串作為第1位的識別候補(bǔ)求出(參照圖5(b))。
這種情況下,從第2輸入聲音中檢測出的強(qiáng)調(diào)區(qū)間,和第1輸入聲音和第2輸入聲音的不一致區(qū)間一致。因而,進(jìn)入圖3的步驟S26~步驟S27。
在步驟S27中,把從第2輸入聲音Vi檢測出的與強(qiáng)調(diào)區(qū)間Pi對應(yīng)的第1輸入聲音Vj的區(qū)間的識別結(jié)果的文字串,即,在此是“カゥントな”,在第2輸入聲音Vi的強(qiáng)調(diào)區(qū)間的識別候補(bǔ)的文字串中,用在對照單元103中選擇出的與該強(qiáng)調(diào)區(qū)間的聲音最貼切的文字串(第1位的識別候補(bǔ))置換,即,在此用“買ぃた?!敝脫Q。于是,在步驟S28中,在第1輸入聲音的最初的識別結(jié)果中,把“チケットを/カゥントな/のですか”中的與不一致區(qū)間對應(yīng)的文字串“カゥントな”置換為第2輸入聲音中的強(qiáng)調(diào)區(qū)間的作為第1位的識別候補(bǔ)的文字串“買ぃた?!?,輸出如圖5(c)所示的“チケットを/買ぃたぃ/のですか”。
這樣,在本實(shí)施方式中,例如,當(dāng)對于“チケットを買ぃたぃのですか”這一第1輸入聲音的識別結(jié)果(例如“チケットをカゥントなのですか”)有誤的情況下,用戶,例如為了糾正被誤識別的部分(區(qū)間),在輸入作為第2輸入聲音糾正的短語時,如果如“チケットをかぃたぃのですが”這樣把想要糾正的部分劃分為音節(jié)發(fā)音,則劃分為該音節(jié)發(fā)音的部分“かぃた?!?,作為強(qiáng)調(diào)區(qū)間被檢測出。第1輸入聲音和第2輸入聲音,當(dāng)發(fā)出同一短語的情況下,從糾正后的第2輸入聲音中檢測出的強(qiáng)調(diào)區(qū)間以外的區(qū)間,大致可以被看作類似區(qū)間。因而,在本實(shí)施方式中,在對于第1輸入聲音的識別結(jié)果中,把從第2輸入聲音中檢測出的與強(qiáng)調(diào)區(qū)間對應(yīng)的區(qū)間對應(yīng)的文字串,用第2輸入聲音的該強(qiáng)調(diào)區(qū)間的識別結(jié)果的文字串轉(zhuǎn)換,因而糾正第1輸入聲音的識別結(jié)果。
進(jìn)而,圖2~圖3所示的處理動作,作為可以在計(jì)算機(jī)中執(zhí)行的程序,也可以存儲在磁盤(軟盤,硬盤等)、光盤(CD-ROM,DVD等)、半導(dǎo)體存儲器等的記錄介質(zhì)中加以發(fā)布。
如上所述,如果采用上述實(shí)施方式,從在輸入的2個輸入聲音中先輸入的第1輸入聲音,和為了糾正該第1輸入聲音的識別結(jié)果而輸入的第2輸入聲音的各自中,至少把在該2個輸入聲音間特征信息持續(xù)規(guī)定時間類似的部分作為類似部分(類似區(qū)間)檢測出,在生成第2輸入聲音的識別結(jié)果時,從與該第2輸入聲音的類似部分對應(yīng)的識別候補(bǔ)的多個文字串中,刪除與第1輸入聲音的該類似部分對應(yīng)的識別結(jié)果的文字串,從作為其結(jié)果的與第2輸入聲音對應(yīng)的識別候補(bǔ)中選擇與該第2輸入聲音最貼切的多個文字串,通過生成該第2輸入聲音的識別結(jié)果,用戶在對最初的輸入聲音(第1輸入聲音)的識別結(jié)果中有誤時,以糾正它為目的進(jìn)行糾正發(fā)音,可以對用戶沒有負(fù)擔(dān)地容易糾正對輸入聲音的誤識別。即,對最初的輸入聲音的重說的輸入聲音(第2輸入聲音)的識別候補(bǔ)中,排除最初的輸入聲音的識別結(jié)果中的誤識別的可能性高的部分(和第2輸入聲音的類似部分(類似區(qū)間))的文字串,由此可以極力避免第2輸入聲音的識別結(jié)果和第1輸入聲音的識別結(jié)果相同,因而不會發(fā)生即使重說多遍也是同樣的識別結(jié)果的問題。因而,可以高速并且高精度地糾正輸入聲音的識別結(jié)果。
另外,在已輸入的2個輸入聲音中,與以為了糾正先輸入的第1輸入聲音的識別結(jié)果而輸入的第2輸入聲音對應(yīng)的數(shù)字?jǐn)?shù)據(jù)為基礎(chǔ),抽出該第2輸入聲音的韻律性特征,從該韻律性特征中把該第2輸入聲音中的說話者強(qiáng)調(diào)發(fā)音的部分作為強(qiáng)調(diào)部分(強(qiáng)調(diào)區(qū)間)檢測出。在第1輸入聲音的識別結(jié)果中,把從第2輸入聲音中檢測出的與強(qiáng)調(diào)部分對應(yīng)的文字串,用在與第2輸入聲音的強(qiáng)調(diào)部分對應(yīng)的識別候補(bǔ)的多個文字串中與該強(qiáng)調(diào)部分最貼切的文字串置換。通過糾正第1輸入聲音的識別結(jié)果,用戶只重新發(fā)音,就可以高精度地糾正第1輸入聲音的識別結(jié)果,可以對用戶沒有負(fù)擔(dān)地容易糾正對輸入聲音的誤識別。即,在輸入對最初的輸入聲音(第1輸入聲音)重說的輸入聲音(第2輸入聲音)時,用戶只要強(qiáng)調(diào)發(fā)音該第1輸入聲音的識別結(jié)果中的想要糾正的部分即可,由此,用與該第2輸入聲音中的該強(qiáng)調(diào)部分(強(qiáng)調(diào)區(qū)間)最貼切的文字串,置換在第1輸入聲音的識別結(jié)果中應(yīng)該糾正的部分,糾正該第1輸入聲音的識別結(jié)果中的錯誤部分(文字串)。因而,不會發(fā)生即使重說多遍也是同樣的識別結(jié)果的問題,可以高速并且高精度地糾正輸入聲音的識別結(jié)果。
進(jìn)而,在上述實(shí)施方式中,在局部糾正第1輸入聲音的識別結(jié)果時,最好是,在輸入第2輸入聲音時,強(qiáng)調(diào)發(fā)音想要糾正前次發(fā)音的短語中的識別結(jié)果的部分,而此時,最好是預(yù)先對用戶演示怎樣強(qiáng)調(diào)發(fā)音好(韻律性特征)?;蛘咴诶帽狙b置的過程中,作為用于糾正輸入聲音的識別結(jié)果的糾正方法,適宜地說明例子等。這樣,通過預(yù)先確定用于糾正輸入聲音的短語(例如,如上述實(shí)施方式所示,在第2次聲音輸入時,發(fā)出和第1次相同的短語),或者怎樣發(fā)出想要糾正的部分,預(yù)先確定可以把該部分作為強(qiáng)調(diào)區(qū)間檢測等,可以提高強(qiáng)調(diào)區(qū)間和類似區(qū)間的檢測精度。
另外,通過用例如字識別方法等取出用于糾正的固定短語,可以進(jìn)行局部糾正,即,例如,如圖5所示,在把第1輸入聲音誤識別為“チケットをカゥントなのですか”時,假設(shè)用戶把例如“カゥントではなく買ぃた?!钡?,和作為用于局部糾正用的固定表現(xiàn)的“AではなくB”這一糾正用的預(yù)先確定的短語作為第2輸入聲音輸入。進(jìn)而在該第2輸入聲音中,與“A”以及“B”對應(yīng)的“カゥント”以及“買ぃた?!钡牟糠郑僭O(shè)是提高音調(diào)(基本頻率)的發(fā)音。這種情況下,也可以是通過該附帶韻律性特征一致分析,抽出用于上述糾正的固定表現(xiàn),作為結(jié)果從第1輸入聲音的識別結(jié)果中查找與“カゥント”類似的部分,置換為作為與第2輸入聲音中的“B”對應(yīng)的部分的識別結(jié)果的“買ぃた?!边@一文字串。即使在這種情況下,也可以糾正作為第1輸入聲音的識別結(jié)果的“チケットをカゥントなのですが”,可以正確地識別為“チケットを買ぃたぃのですが”。
另外,識別結(jié)果,在用和以往的對話相同的方法識別用戶后,也可以適宜適用。
另外,在上述實(shí)施方式中,展示把連續(xù)的2個輸入聲音作為處理對象,對此前的輸入聲音進(jìn)行誤識別糾正的情況,但并不限于此,上述實(shí)施方式,也可以適用于任意時刻輸入的任意個數(shù)的輸入聲音。
另外,在上述實(shí)施方式中,展示了局部糾正輸入聲音的識別結(jié)果的例子,但例如在從開頭到過程中,或者從過程中到最后,或者對全體,也可以適用上述同樣的方法。
另外,如果采用上述實(shí)施方式,則可以只進(jìn)行1次用于糾正的聲音輸入,進(jìn)行此前的輸入聲音的識別結(jié)果中的多個位置的糾正,可以對多個輸入聲音各自進(jìn)行同樣的糾正。
另外,例如,也可以用特定的聲音指令,或者鍵操作等其他方法,預(yù)先通知這些輸入的聲音,是用于對前次輸入的聲音識別結(jié)果的糾正的聲音。
另外,在檢測類似區(qū)間時,也可以設(shè)置成例如通過預(yù)先設(shè)定邊界量,容許多少偏差。
另外,涉及上述實(shí)施方式的方法,并不是用于識別候補(bǔ)的取舍選擇,而是用于在其前一階段的例如在識別處理中利用的評價(jià)得分(例如,類似度)的微調(diào)整中。
進(jìn)而,本發(fā)明,并不限定于上述實(shí)施方式,在實(shí)施階段中在不脫離其主旨的范圍中可以有各種變形。進(jìn)而,在上述實(shí)施方式中包含各種階段的發(fā)明,通過所揭示的多個構(gòu)成要件中的適宜的組合,可以組成各種發(fā)明。例如,在即使從實(shí)施方式展示的構(gòu)成要件中刪除幾個構(gòu)成要件,也可以解決在本發(fā)明要解決的問題(的至少1個),可以得到在本發(fā)明的效果(的至少1個)的情況下,刪除該構(gòu)成要件的構(gòu)成可以作為發(fā)明組成。
如上所述,如果采用本發(fā)明,則可以不給用戶增加負(fù)擔(dān)地容易糾正對輸入聲音的誤識別。
權(quán)利要求
1.一種聲音識別方法,在從被轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)的說話者的輸入聲音中抽出用于聲音識別的特征信息,以該特征信息為基礎(chǔ)把與該輸入聲音對應(yīng)的多個音素串或者文字串作為識別候補(bǔ)求出,從該識別候補(bǔ)中選擇與該輸入聲音最貼切的多個音素串或者文字串,求出識別結(jié)果的聲音識別方法中,其特征在于從已輸入的2個輸入聲音中先輸入的第1輸入聲音,和用于糾正該第1輸入聲音的識別結(jié)果而輸入的第2輸入聲音的各自中,把至少在該2個輸入聲音間上述特征信息連續(xù)在規(guī)定時間內(nèi)類似的部分作為類似部分檢測出,在求出上述第2輸入聲音的識別結(jié)果時,從與該第2輸入聲音的上述類似部分對應(yīng)的識別候補(bǔ)的多個音素串或者文字串中,刪除在上述第1輸入聲音的上述識別結(jié)果中與該類似部分對應(yīng)的音素串或者文字串,從與作為其結(jié)果的上述第2輸入聲音對應(yīng)的識別候補(bǔ)中,選擇與該第2輸入聲音中最貼切的多個音素串或者文字串,求出該第2輸入聲音的識別結(jié)果。
2.一種聲音識別方法,在從被轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)的說話者的輸入聲音中抽出用于聲音識別的特征信息,以該特征信息為基礎(chǔ)把與該輸入聲音對應(yīng)的多個音素串或者文字串作為識別候補(bǔ)求出,從該識別候補(bǔ)中選擇與該輸入聲音最貼切的多個音素串或者文字串,求出識別結(jié)果的聲音識別方法中,其特征在于在已輸入的2個輸入聲音中,以與為了糾正先輸入的第1輸入聲音的識別結(jié)果而輸入的第2輸入聲音對應(yīng)的上述數(shù)字?jǐn)?shù)據(jù)為基礎(chǔ),抽出該第2輸入聲音的韻律性特征,從該韻律性特征中把該第2輸入聲音中的說話者強(qiáng)調(diào)發(fā)音的部分作為強(qiáng)調(diào)部分檢測出,在上述第1輸入聲音的上述識別結(jié)果中,把從上述第2輸入聲音中檢測出的與上述強(qiáng)調(diào)部分對應(yīng)的部分的音素串或者文字串,用與上述第2輸入聲音的上述強(qiáng)調(diào)部分對應(yīng)的識別候補(bǔ)的多個音素串或者文字串中與該強(qiáng)調(diào)部分最貼切的音素串或者文字串置換,糾正上述第1輸入聲音的識別結(jié)果。
3.權(quán)利要求2所述的聲音識別方法,其特征在于抽出上述第2輸入聲音的發(fā)音速度、發(fā)音強(qiáng)度、作為頻率變化的音調(diào)、停頓出現(xiàn)的頻度、音質(zhì)中的至少1個韻律的特征,從該韻律的特征中檢測出該第2輸入聲音中的上述強(qiáng)調(diào)部分。
4.一種聲音識別裝置,在從被轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)的說話者的輸入聲音中抽出用于聲音識別的特征信息,以該特征信息為基礎(chǔ)把與該輸入聲音對應(yīng)的多個音素串或者文字串作為識別候補(bǔ)求出,從該識別候補(bǔ)中選擇與該輸入聲音最貼切的多個音素串或者文字串,求出識別結(jié)果的聲音識別裝置中,其特征在于具備從已輸入的2個輸入聲音中先輸入的第1輸入聲音,和用于糾正該第1輸入聲音的識別結(jié)果而輸入的第2輸入聲音的各自中,把至少在該2個輸入聲音間上述特征信息連續(xù)在規(guī)定時間內(nèi)類似的部分作為類似部分檢測出的第1檢測裝置,從與上述第2輸入聲音的上述類似部分對應(yīng)的識別候補(bǔ)的多個音素串或者文字串中,刪除在上述第1輸入聲音的上述識別結(jié)果中與該類似部分對應(yīng)的音素串或者文字串,從與作為其結(jié)果的上述第2輸入聲音對應(yīng)的識別候補(bǔ)中,選擇與該第2輸入聲音中最貼切的多個音素串或者文字串,求出該第2輸入聲音的識別結(jié)果的裝置。
5.一種聲音識別裝置,在從被轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)的說話者的輸入聲音中抽出用于聲音識別的特征信息,以該特征信息為基礎(chǔ)把與該輸入聲音對應(yīng)的多個音素串或者文字串作為識別候補(bǔ)求出,從該識別候補(bǔ)中選擇與該輸入聲音最貼切的多個音素串或者文字串,求出識別結(jié)果的聲音識別裝置中,其特征在于具備在已輸入的2個輸入聲音中,以與為了糾正先輸入的第1輸入聲音的識別結(jié)果而輸入的第2輸入聲音對應(yīng)的上述數(shù)字?jǐn)?shù)據(jù)為基礎(chǔ)抽出該第2輸入聲音的韻律性特征,從該韻律性特征中把該第2輸入聲音中的說話者強(qiáng)調(diào)發(fā)音的部分作為強(qiáng)調(diào)部分檢測出的第2檢測裝置,在上述第1輸入聲音的上述識別結(jié)果中把從上述第2輸入聲音中檢測出的與上述強(qiáng)調(diào)部分對應(yīng)的部分的音素串或者文字串,用與上述第2輸入聲音的上述強(qiáng)調(diào)部分對應(yīng)的識別候補(bǔ)的多個音素串或者文字串中與該強(qiáng)調(diào)部分最貼切的音素串或者文字串置換,糾正上述第1輸入聲音的識別結(jié)果的糾正裝置。
6.權(quán)利要求4的聲音識別裝置,其特征在于上述第1檢測裝置,根據(jù)上述2個輸入聲音各自的發(fā)音速度、發(fā)音強(qiáng)度、作為頻率變化的音調(diào)、停頓出現(xiàn)的頻度、音質(zhì)中的至少1個韻律的特征,檢測上述強(qiáng)調(diào)部分。
7.權(quán)利要求5的聲音識別裝置,其特征在于上述第2檢測裝置,抽出上述第2輸入聲音的發(fā)音速度、發(fā)音強(qiáng)度、作為頻率變化的音調(diào)、停頓出現(xiàn)的頻度、音質(zhì)中的至少1個韻律的特征,從該韻律性特征中檢測該第2輸入聲音中的上述強(qiáng)調(diào)部分。
全文摘要
本發(fā)明提供可以不給用戶負(fù)擔(dān)地糾正對輸入聲音的誤識別的聲音識別方法以及使用它的聲音識別裝置。從已輸入的2個輸入聲音中先輸入的第1輸入聲音,和用于糾正該第1輸入聲音的識別結(jié)果而輸入的第2輸入聲音的各自中,把至少在該2個輸入聲音間上述特征信息連續(xù)地在規(guī)定時間內(nèi)類似的部分作為類似部分檢測出,在生成第2輸入聲音的識別結(jié)果時,從與該第2輸入聲音的上述類似部分對應(yīng)的識別候補(bǔ)的多個文字串中,刪除在上述第1輸入聲音的上述識別結(jié)果中與該類似部分對應(yīng)的文字串,從與作為其結(jié)果的上述第2輸入聲音對應(yīng)的識別候補(bǔ)中,選擇與該第2輸入聲音中最貼切的多個音素串或者文字串,求出該第2輸入聲音的識別結(jié)果。
文檔編號G10L15/22GK1453766SQ0312205
公開日2003年11月5日 申請日期2003年4月24日 優(yōu)先權(quán)日2002年4月24日
發(fā)明者知野哲朗 申請人:株式會社東芝