專利名稱:識(shí)別詞典制作裝置及聲音識(shí)別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及制作作為聲音識(shí)別對(duì)象的詞匯的詞典的識(shí)別詞典制作裝置及利用該識(shí)別詞典制作裝置的聲音識(shí)別裝置。
背景技術(shù):
在專利文獻(xiàn)I中,公開了一種通過同時(shí)使用作為聲音識(shí)別對(duì)象的多種語言的音響模型、能進(jìn)行與多種語言相對(duì)應(yīng)的聲音識(shí)別的聲音識(shí)別裝置。然而,在該專利文獻(xiàn)I的發(fā)明中,需要具有與所有作為聲音識(shí)別對(duì)象的多種語言相對(duì)應(yīng)的多種語言用的音響模型,存在無法適用于一般的僅與一種語言相對(duì)應(yīng)的聲音識(shí)別的問題。 此外,專利文獻(xiàn)I的發(fā)明需要預(yù)先確定識(shí)別詞匯是用哪種語言記載的,并預(yù)先賦
予讀音。另一方面,在僅與一種語言相對(duì)應(yīng)的聲音識(shí)別中,對(duì)于未賦予讀音的登記對(duì)象文本,自動(dòng)生成識(shí)別對(duì)象語言的讀音以進(jìn)行識(shí)別。此時(shí),對(duì)于用與識(shí)別對(duì)象語言不同的語言來記載的文本,無法賦予讀音。本發(fā)明是為了解決上述問題而完成的,其目的在于獲得一種識(shí)別詞典制作裝置利用該識(shí)別詞典制作裝置的聲音識(shí)別裝置,該識(shí)別詞典制作裝置即使在作為登記到識(shí)別詞典的對(duì)象的詞匯所屬語言不明確的情況下,也能生成將該詞匯的讀音變換至聲音識(shí)別的語言的音素體系的識(shí)別詞典。現(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)I :日本專利特許第3776391號(hào)公報(bào)
發(fā)明內(nèi)容
本發(fā)明所涉及的識(shí)別詞典制作裝置包括語言辨識(shí)部,該語言辨識(shí)部對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí);讀音賦予部,該讀音賦予部利用由語言辨識(shí)部辨識(shí)出的語言的音素對(duì)登記對(duì)象文本賦予讀音;讀音變換部,該讀音變換部將登記對(duì)象文本的讀音從由語言辨識(shí)部辨識(shí)出的語言的音素變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言的音素;及識(shí)別詞典生成部,該識(shí)別詞典生成部生成登記有由讀音變換部進(jìn)行變換后的登記對(duì)象文本的讀音的識(shí)別詞典。根據(jù)本發(fā)明,對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí),利用辨識(shí)出的語言的音素來對(duì)登記對(duì)象文本賦予讀音,并且,生成登記有將登記對(duì)象文本的讀音從辨識(shí)出的語言的讀音變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言后的讀音的識(shí)別詞典。這樣,具有如下效果即使在未明確登記到識(shí)別詞典的登記對(duì)象文本(詞匯)是用哪種語言來記述的情況下,也能獲得與聲音識(shí)別的語言的音素體系相符合的識(shí)別詞典。
圖I是表示利用本發(fā)明的實(shí)施方式I所涉及的識(shí)別詞典制作裝置的登記型聲音識(shí)別裝置的結(jié)構(gòu)的框圖。圖2是表示實(shí)施方式I的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖。圖3是表示在德語和英語中發(fā)音類似的音素的對(duì)應(yīng)表的一個(gè)示例的圖。圖4是表示實(shí)施方式I的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖。圖5是表示利用本發(fā)明的實(shí)施方式2所涉及的識(shí)別詞典制作裝置的登記型聲音識(shí)
別裝置的結(jié)構(gòu)的框圖。圖6是表示實(shí)施方式2的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖。
具體實(shí)施例方式下面,為了更詳細(xì)地對(duì)本發(fā)明進(jìn)行說明,根據(jù)附圖對(duì)用于實(shí)施本發(fā)明的方式進(jìn)行說明。實(shí)施方式I圖I是表示利用本發(fā)明的實(shí)施方式I所涉及的識(shí)別詞典制作裝置的登記型聲音識(shí)別裝置的結(jié)構(gòu)的框圖。圖I中,實(shí)施方式I所涉及的聲音識(shí)別裝置100包括語言辨識(shí)部101、讀音賦予部102、讀音變換部103、識(shí)別詞典生成部104、識(shí)別詞典存儲(chǔ)部105、及聲音識(shí)別部106。這些結(jié)構(gòu)部中,語言辨識(shí)部101、讀音賦予部102、讀音變換部103、識(shí)別詞典生成部104、及識(shí)別詞典存儲(chǔ)部105是實(shí)施方式I所涉及的識(shí)別詞典制作裝置的結(jié)構(gòu)。語言辨識(shí)部101是對(duì)作為登記到識(shí)別詞典的登記對(duì)象的詞匯的文本字符串(以下稱為登記對(duì)象文本)的語言進(jìn)行辨識(shí)的結(jié)構(gòu)部。登記對(duì)象文本中還包含有難以確定語言的詞匯的文本字符串,例如,可舉出登記到便攜式音樂播放器的樂曲的標(biāo)題和藝術(shù)家名等目錄數(shù)據(jù)、登記到移動(dòng)電話的地名和人名等。讀音賦予部102是利用由語言辨識(shí)部101辨識(shí)出的語言對(duì)登記對(duì)象文本用音素賦予讀音的結(jié)構(gòu)部。讀音變換部103是將由讀音賦予部102賦予的讀音變換成在聲音識(shí)別部106所進(jìn)行的聲音識(shí)別中使用的語言的音素的結(jié)構(gòu)部。識(shí)別詞典生成部104是將由讀音變換部103進(jìn)行變換后的音素作為成為聲音識(shí)別對(duì)象的詞匯(以下稱為識(shí)別對(duì)象詞匯)來生成、并登記到識(shí)別詞典存儲(chǔ)部105的識(shí)別詞典的結(jié)構(gòu)部。識(shí)別詞典存儲(chǔ)部105是能由識(shí)別詞典生成部104和聲音識(shí)別部106進(jìn)行讀寫的存儲(chǔ)部,存儲(chǔ)有登記由識(shí)別詞典生成部104生成的識(shí)別對(duì)象詞匯的識(shí)別詞典。聲音識(shí)別部106是利用識(shí)別詞典存儲(chǔ)部105所存儲(chǔ)的識(shí)別詞典的識(shí)別對(duì)象詞匯來執(zhí)行聲音識(shí)別、并輸出識(shí)別結(jié)果的結(jié)構(gòu)部。此外,對(duì)于語言辨識(shí)部101、讀音賦予部102、讀音變換部103、識(shí)別詞典生成部104、識(shí)別詞典存儲(chǔ)部105、及聲音識(shí)別部106,通過將按照本發(fā)明要點(diǎn)的識(shí)別詞典制作程序存儲(chǔ)在計(jì)算機(jī)中,并使CPU加以執(zhí)行,從而能在該計(jì)算機(jī)上作為硬件和軟件協(xié)作的具體單元來實(shí)現(xiàn)。而且,識(shí)別詞典存儲(chǔ)部105及聲音識(shí)別部106所使用的存儲(chǔ)區(qū)域由上述計(jì)算機(jī)所裝載的存儲(chǔ)裝置、例如硬盤裝置、外部存儲(chǔ)介質(zhì)等來構(gòu)建。
接下來,對(duì)動(dòng)作進(jìn)行說明。圖2是表示實(shí)施方式I的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖,描述語言辨識(shí)部101、讀音賦予部102、讀音變換部103、及識(shí)別詞典生成部104對(duì)于I個(gè)登記對(duì)象文本所進(jìn)行的動(dòng)作的細(xì)節(jié)。首先,語言辨識(shí)部101對(duì)登記對(duì)象文本的字符串開始進(jìn)行語言辨識(shí)處理,判定該字符串是由哪種語言記載的(步驟ST201)。具體而言,判定所輸入的登記對(duì)象文本的字符串符合設(shè)定于語言辨識(shí)部101的多種語言中的哪種語言。例如,在語言辨識(shí)部101中,在將英語、德語、法語、意大利語、西班牙語、荷蘭語等6種歐洲語言設(shè)定作為語言辨識(shí)的對(duì)象的情況下,若所輸入的登記對(duì)象文本的字符串為"Guten Morgen”,則語言辨識(shí)部101輸出該字符串的語言為德語這一語言辨識(shí)結(jié)果。在語言辨識(shí)失敗等無法辨識(shí)語言的情況下,語言辨識(shí)部101將聲音識(shí)別部106能 作為聲音識(shí)別對(duì)象來受理的語言作為辨識(shí)結(jié)果進(jìn)行輸出。此外,在語言辨識(shí)部101的語言辨識(shí)中,例如使用字符的N-gram。N-gram本身是由克勞德 艾爾伍德 香農(nóng)(Claude Elwood Shannon)建立的與語言信息相關(guān)的分析模型,在聲音識(shí)別用的語言模型、全文檢索等中使用。在下述的參考文獻(xiàn)I中記載有這些一般的N-gram的利用方法。(參考文獻(xiàn)I)“通信的數(shù)學(xué)理論”,克勞德 艾爾伍德 香農(nóng),貝爾系統(tǒng)技術(shù)雜志,第 27 卷,第 379-423,623-656 頁,七月,十月,1948。(“AMathematical Theory ofCommunication,,,C. E. SHANNON, The Bell SystemTechnical Journal, Vol. 27,pp. 379-423,623-656,July, October, 1948.) 這樣,通過將N-gram的概念弓I入到文本字符串的語言辨識(shí)中,能高精度地辨識(shí)語言。例如,對(duì)設(shè)N為3、利用字符的Trigram的語言辨識(shí)進(jìn)行說明。語言辨識(shí)部101具有利用作為語言辨識(shí)對(duì)象的各語言來記載的學(xué)習(xí)用文本字符串,求出學(xué)習(xí)用字符串中出現(xiàn)的3個(gè)連續(xù)字符的出現(xiàn)概率。例如,對(duì)于字符串“MITSUBISHI”的情況,可分解成“$$] ”、“$]\0”、“]\01'”、“幾5”、“丁5^‘5皿”、“服1”、“815”、“15!1”、“5!11”、“HI$”、“I$$”等各序列。另外,“$”意指表示詞頭、詞尾的字符。在求出語言i (i = 1,2,……,N)的所有學(xué)習(xí)字符串中各序列出現(xiàn)的頻度之后,語言辨識(shí)部101對(duì)所學(xué)習(xí)的每一語言采用出現(xiàn)概率較高的前η個(gè)序列作為模型,并將字符序列及其出現(xiàn)頻度存儲(chǔ)在各語言的語言辨識(shí)模型中。例如,對(duì)于語言i的語言辨識(shí)模型,存儲(chǔ)字符序列(Trigram) “$$M”及此時(shí)的出現(xiàn)概率Pi ($,$,M)等。語言辨識(shí)部101對(duì)于登記對(duì)象文本的字符串,利用各語言的語言辨識(shí)模型求出每一語言的字符序列(Trigram)的序列概率,將序列概率值最大的語言采用作為語言辨識(shí)結(jié)果。例如,對(duì)于“Best”的語言i的序列概率Pi通過Pi=Pi ($,$,B) XPi ($,B, E) XPi (B, E, S)XPi (E,S,T) XPi (S, T, $) XPi(T,$,$)來求出。該序列概率Pi最大的語言i成為語言辨識(shí)結(jié)果。另外,語言辨識(shí)部101在N-gram未存儲(chǔ)于語言辨識(shí)模型的情況下,提供預(yù)定的一定概率作為出現(xiàn)概率以進(jìn)行計(jì)算。在求出N-gram時(shí),對(duì)于在作為語言辨識(shí)對(duì)象的多種語言中共通記述且對(duì)語言辨識(shí)無幫助的字符(例如,數(shù)字、括弧、句號(hào)等符號(hào)),也可以預(yù)先將這些字符置換成表示特殊字符的字符而求出N-gram。例如,使用#、@等特殊字符。此外,在語言辨識(shí)中,在使用了限定所使用的語言的字符的情況下,將使用該字符的語言中、似然度(likelihood)最高的語言作為辨識(shí)結(jié)果來輸出。作為限定所使用的語言的字符,例如可舉出使用了元音變音的字符等。另外,對(duì)于用于N-gram學(xué)習(xí)的文本字符串(用于語言辨識(shí)模型的文本字符串),通過利用與識(shí)別對(duì)象詞匯相同任務(wù)(task)的詞匯來進(jìn)行學(xué)習(xí),能提高語言的辨識(shí)精度。任務(wù)是指使用例如音樂檢索、住所識(shí)別等的識(shí)別對(duì)象詞匯的處理。語言辨識(shí)部101包括每一任務(wù)的學(xué)習(xí)用字符串,將與使用登記對(duì)象文本的任務(wù)相對(duì)應(yīng)的學(xué)習(xí)用字符串用于語言辨識(shí)。接下來,在從語言辨識(shí)部101輸入辨識(shí)結(jié)果時(shí),讀音賦予部102判定該辨識(shí)結(jié)果是設(shè)定于聲音識(shí)別裝置100的多種語言中的哪種語言(步驟ST202),對(duì)于所輸入的登記對(duì)象文本的字符串,利用判定結(jié)果的語言的音素來賦予讀音(步驟ST203)。若是由聲音識(shí)別部106設(shè)為當(dāng)前聲音識(shí)別對(duì)象的識(shí)別對(duì)象語言,則利用該識(shí)別對(duì)象語言的音素來賦予讀音。同樣地,即使判定結(jié)果的語言是識(shí)別對(duì)象語言以外的語言1、2、……、N中的任一種,也如圖2·所示,利用該語言的音素來賦予讀音。另外,在賦予音素時(shí),例如使用G2P (Grapheme to Phoneme :字形到音素)。此外,在該讀音賦予處理中,也一并進(jìn)行省略語的判定、符號(hào)等的處理之類的依賴于語言的處理。讀音變換部103對(duì)于在步驟ST203中、利用識(shí)別對(duì)象語言以外的語言的音素來賦予讀音的登記對(duì)象文本,將各語言的音素的讀音變換成識(shí)別對(duì)象語言的音素的讀音(步驟ST204)。像這樣變換音素體系的理由在于,能由聲音識(shí)別部106受理的音素體系僅為設(shè)為聲音識(shí)別對(duì)象的識(shí)別對(duì)象語言,語言不同的音素體系中存在無法受理的音素。作為這種音素(讀音)的變換方法,例如,讀音變換部103對(duì)于無法由聲音識(shí)別部106受理的語言的音素或音素序列,預(yù)先準(zhǔn)備識(shí)別對(duì)象語言中最接近的音素或音素序列作為對(duì)應(yīng)表,根據(jù)上述對(duì)應(yīng)表對(duì)由步驟ST203得到的文本字符串的讀音進(jìn)行讀音變換(音素映射)。圖3是表示上述那樣的對(duì)應(yīng)表的一個(gè)示例的圖,示出德語與英語之間的對(duì)應(yīng)關(guān)系。德語中的發(fā)音/a/ (開前不圓唇元音)、/Y/ (次閉次前圓唇元音)等在英語的發(fā)音體系中不存在。因此,聲音識(shí)別部106在受理英語的情況下,無法應(yīng)對(duì)該讀音。因而,對(duì)于德語的發(fā)音/a/、/Y/,像圖3所示的對(duì)應(yīng)表那樣,使其與由聲音識(shí)別部106能受理的英語中存在的音素中、發(fā)音最接近的音素例如/{/ (次開前不圓唇元音)、/I/(半閉前圓唇元音)相對(duì)應(yīng)。另外,此處的發(fā)音表述使用X-SAMPA表述。該對(duì)應(yīng)表可以將語言上相近的音素彼此進(jìn)行對(duì)應(yīng),但也可以基于例如各語言的發(fā)首易于由哪種首素表述來識(shí)別等,以決定對(duì)應(yīng)關(guān)系。識(shí)別詞典生成部104輸入在步驟ST203中由讀音賦予部102對(duì)登記對(duì)象文本的字符串賦予的音素、或在步驟ST204中由讀音變換部103進(jìn)行變換后的音素,并生成聲音識(shí)別部106能參照的格式的識(shí)別詞典(步驟ST205)。例如,除將識(shí)別詞匯變換成二進(jìn)制數(shù)據(jù)之夕卜,還根據(jù)需要進(jìn)行詞素解析、單詞分割以生成語言制約等,從而獲得識(shí)別詞典。在作為登記對(duì)象文本的詞匯有多個(gè)的情況下,對(duì)各登記對(duì)象文本重復(fù)進(jìn)行上述為止的處理。另外,在生成識(shí)別詞典時(shí),也可以在對(duì)所有的登記對(duì)象文本的詞匯賦予讀音之后集中進(jìn)行,而不是逐一追加登記詞匯。由識(shí)別詞典生成部104生成的識(shí)別詞典存儲(chǔ)于識(shí)別詞典存儲(chǔ)部105。聲音識(shí)別部106參照識(shí)別詞典存儲(chǔ)部105所存儲(chǔ)的識(shí)別詞典中記載的識(shí)別詞匯、文法來進(jìn)行輸入聲音的聲音識(shí)別,并輸出識(shí)別結(jié)果。例如,聲音識(shí)別部106讀入利用特定語言的音素體系的音素來記載的識(shí)別詞典,對(duì)特定語言的輸入聲音進(jìn)行聲音識(shí)別。作為聲音識(shí)別的算法,例如利用HMM (Hidden Markov Model :隱馬爾科夫模型)、DP (DynamicProgramming :動(dòng)態(tài)規(guī)劃)匹配等。至上述為止,對(duì)由語言辨識(shí)部101辨識(shí)出的語言為I種語言的情況下的動(dòng)作進(jìn)行了說明,但接下來,對(duì)由語言辨識(shí)部101從所輸入的登記對(duì)象文本的字符串中辨識(shí)出多種語言的情況下的動(dòng)作進(jìn)行說明。圖4是表示實(shí)施方式I的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖,示出由語言辨識(shí)部101辨識(shí)出N種語言的情況。 語言辨識(shí)部101對(duì)登記對(duì)象文本的字符串開始進(jìn)行語言辨識(shí)處理,判定該字符串是用哪種語言記載的,將最有可能認(rèn)為是該字符串的語言的前N種語言設(shè)為語言辨識(shí)結(jié)果(步驟 ST301)。另外,此處,N種可以是固定值,但也可以是利用語言辨識(shí)部101輸出表示信賴度的得分而該得分為預(yù)定閾值以上的信賴度的候選的數(shù)目、相對(duì)于第一位的信賴度在一定的信賴度差以內(nèi)的候選的數(shù)目。例如,在輸入“Hamburg”作為登記對(duì)象文本的情況下,語言辨識(shí)部101輸出從該文本辨識(shí)出的語言為德語和英語(N= 2)這一結(jié)果。此外,在辨識(shí)語言失敗等無法辨識(shí)語言的情況、或信賴度的得分小于閾值的情況下,語言辨識(shí)部101將能由聲音識(shí)別部106受理的語言(識(shí)別對(duì)象語言)作為語言的辨識(shí)結(jié)果來輸出。接下來,語言辨識(shí)部101將作為辨識(shí)結(jié)果而得到的語言的數(shù)目、即表示對(duì)每一語言進(jìn)行的后述處理的次數(shù)的計(jì)數(shù)器i初始化為i = 0(步驟ST301 - I),并將與第i個(gè)辨識(shí)結(jié)果相對(duì)應(yīng)的語言設(shè)定于讀音賦予部102。由此,讀音賦予部102、讀音變換部103、及識(shí)別詞典生成部104利用與第i (i = O N)個(gè)辨識(shí)結(jié)果相對(duì)應(yīng)的語言來執(zhí)行從步驟ST302到步驟ST306的處理。另外,步驟ST302是與圖2所示的步驟ST202相同的處理,步驟ST303是與圖2所示的步驟ST203相同的處理,步驟ST304是與圖2所示的步驟ST204相同的處理,步驟ST305是與圖2所示的步驟ST205相同的處理。在步驟ST306中,語言辨識(shí)部101將計(jì)數(shù)器i增加+ 1,利用下一個(gè)辨識(shí)結(jié)果的語言來重復(fù)上述一連串處理。在步驟ST307中,若語言辨識(shí)部101基于計(jì)數(shù)器i的計(jì)數(shù)值,判定為對(duì)所有辨識(shí)結(jié)果的語言完成(i彡N+ I)了上述一連串處理,則結(jié)束對(duì)所輸入的登記對(duì)象文本的登記處理。由此,即使在I個(gè)登記對(duì)象文本是利用多種語言來記述的情況下,通過辨識(shí)這些語言,利用其音素分別賦予讀音,之后分別變換成識(shí)別對(duì)象語言的音素的讀音,從而也能作為識(shí)別詞匯登記于識(shí)別詞典。因而,即使用戶利用語言辨識(shí)部101辨識(shí)出的任一種語言來說出該文本字符串,也能利用登記于識(shí)別詞典的對(duì)應(yīng)識(shí)別詞匯來進(jìn)行聲音識(shí)別。另外,在登記對(duì)象文本有多個(gè)的情況下,與得到I種語言作為辨識(shí)結(jié)果的情況相同,對(duì)各登記對(duì)象文本重復(fù)進(jìn)行上述處理。在生成識(shí)別詞典時(shí),也可以對(duì)利用I個(gè)登記對(duì)象文本的詞匯辨識(shí)出的所有語言集中進(jìn)行追加登記,而不是按照作為對(duì)I個(gè)登記對(duì)象文本的語言辨識(shí)結(jié)果而得到的每一語言來進(jìn)行追加登記?;蛘撸部梢栽趯?duì)所有登記對(duì)象文本的詞匯賦予讀音之后集中進(jìn)行。如上所述,根據(jù)該實(shí)施方式1,對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí),利用辨識(shí)出的語言的音素來對(duì)登記對(duì)象文本賦予讀音,并且,生成登記有將登記對(duì)象文本的讀音從辨識(shí)出的語言的讀音變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言后的讀音的識(shí)別詞典。這樣,即使在未明確登記對(duì)象文本是哪種語言的情況下(例如,登記到便攜式音樂播放器的樂曲的標(biāo)題和藝術(shù)家名等目錄數(shù)據(jù)、登記到移動(dòng)電話的地名和人名等),通過利用N-gram的語言辨識(shí)模型來辨識(shí)登記對(duì)象文本的語言,賦予辨識(shí)出的語言的音素,并變換成聲音識(shí)別中能受理的語言的音素,從而也能作為聲音識(shí)別中參照的識(shí)別詞匯進(jìn)行登記。此外,根據(jù)該實(shí)施方式1,語言辨識(shí)部101從登記對(duì)象文本辨識(shí)出多種語言,從而在登記對(duì)象文本有可能符合多種語言的情況下,利用各語言賦予讀音,以作為識(shí)別詞匯進(jìn)行登記。這樣,即使用戶利用任一種語言來發(fā)音,也能進(jìn)行聲音識(shí)別。 此外,根據(jù)該實(shí)施方式1,語言辨識(shí)部101對(duì)語言的辨識(shí)結(jié)果設(shè)定表示對(duì)各語言的信賴度的得分,與有關(guān)該得分的規(guī)定閾值進(jìn)行比較,將信賴度最高的語言作為最終辨識(shí)結(jié)果來輸出。這樣,能僅采用用戶最有可能發(fā)聲的語言的發(fā)音,從而能提高聲音識(shí)別性能。此外,根據(jù)該實(shí)施方式1,由于利用N-gram進(jìn)行語言辨識(shí),因此,與按每一語言準(zhǔn)備單詞詞典等以進(jìn)行語言判定的情況相比,能獲得穩(wěn)定的語言辨識(shí)性能。此外,同時(shí)能減小詞典尺寸,能削減運(yùn)算量和存儲(chǔ)器消耗量。此外,根據(jù)該實(shí)施方式1,在利用N-gram的語言辨識(shí)中,利用將對(duì)辨識(shí)語言無幫助的字符(例如,數(shù)字、括弧、句號(hào)等符號(hào))置換成表示特殊字符的I個(gè)字符的N-gram。由此,能減小語言辨識(shí)模型的存儲(chǔ)區(qū)域的尺寸,能削減語言辨識(shí)模型的檢索時(shí)間和存儲(chǔ)器消耗量,因此,容易將本發(fā)明應(yīng)用于嵌入型裝置等運(yùn)算速度和存儲(chǔ)器尺寸受限制的裝置。此外,根據(jù)該實(shí)施方式1,在登記對(duì)象文本中存在像元音變音等那樣、限定所使用的語言的字符的情況下,通過從使用該字符的語言中辨識(shí)出語言,從而能提高語言辨識(shí)的精度。此外,根據(jù)該實(shí)施方式1,在利用N-gram的語言辨識(shí)中,通過利用與識(shí)別對(duì)象詞匯相同的任務(wù)(使用了識(shí)別對(duì)象詞匯的處理)的詞匯來制作語言辨識(shí)模型,從而能提高語言辨識(shí)的精度。實(shí)施方式2圖5是表示利用本發(fā)明的實(shí)施方式2所涉及的識(shí)別詞典制作裝置的登記型聲音識(shí)別裝置的結(jié)構(gòu)的框圖。在圖5中,實(shí)施方式2所涉及的聲音識(shí)別裝置100A在上述實(shí)施方式I所涉及的聲音識(shí)別裝置的結(jié)構(gòu)的基礎(chǔ)上,還包括語言辨識(shí)前處理部107、定型字符串存儲(chǔ)部(排除對(duì)象存儲(chǔ)部)108、分割字符串存儲(chǔ)部(分割對(duì)象存儲(chǔ)部)109、及變換處理存儲(chǔ)部(處理內(nèi)容存儲(chǔ)部)110。語言辨識(shí)前處理部107是配置在語言辨識(shí)部101的前級(jí)且輸入有登記對(duì)象文本的結(jié)構(gòu)部,作為進(jìn)行語言辨識(shí)處理的前處理,將所輸入的登記對(duì)象文本的字符串中的、特定的字符或字符串(以下稱為定型字符或定型字符串)從語言辨識(shí)對(duì)象中排除,或以規(guī)定的字符或字符串(以下稱為分割字符或分割字符串)為基準(zhǔn),對(duì)該登記對(duì)象文本進(jìn)行分割。
定型字符串存儲(chǔ)部108是存儲(chǔ)有從語言辨識(shí)對(duì)象中排除的定型字符或定型字符串及其記述語言和讀音的存儲(chǔ)部。分割字符串存儲(chǔ)部109是存儲(chǔ)有作為分割登記對(duì)象文本時(shí)的分割位置的分割字符或分割字符串及其記述語言和讀音的存儲(chǔ)部。變換處理存儲(chǔ)部110是存儲(chǔ)由語言辨識(shí)前處理部107對(duì)登記對(duì)象文本實(shí)施的前處理的內(nèi)容(排除或分割字符串)的存儲(chǔ)部。另外,在圖5中,對(duì)與圖I相同或同樣地進(jìn)行動(dòng)作的結(jié)構(gòu)部標(biāo)注相同標(biāo)號(hào),并省略其說明。其中,語言辨識(shí)部101對(duì)由語言辨識(shí)前處理部107實(shí)施了前處理后的登記對(duì)象文本的字符串進(jìn)行語言辨識(shí)。此外,識(shí)別詞典生成部104在生成識(shí)別詞典時(shí),利用變換處理存儲(chǔ)部110所存儲(chǔ)的前處理內(nèi)容、即登記對(duì)象文本的分割后的各分割部分之間的連接關(guān)系、從登記對(duì)象文本中排除的字符串及其讀音,生成與該登記對(duì)象文本的字符串相符的識(shí)別詞典。此外,對(duì)于語言辨識(shí)前處理部107、定型字符串存儲(chǔ)部108、分割字符串存儲(chǔ)部 109、及變換處理存儲(chǔ)部110,通過將按照本發(fā)明要點(diǎn)的識(shí)別詞典制作程序存儲(chǔ)在計(jì)算機(jī)中,并使CPU加以執(zhí)行,從而能在該計(jì)算機(jī)上作為硬件和軟件協(xié)作的具體單元來實(shí)現(xiàn)。而且,定型字符串存儲(chǔ)部108、分割字符串存儲(chǔ)部109、及變換處理存儲(chǔ)部110所使用的存儲(chǔ)區(qū)域由上述計(jì)算機(jī)所裝載的存儲(chǔ)裝置、例如硬盤裝置和外部存儲(chǔ)介質(zhì)等來構(gòu)建。接下來,對(duì)動(dòng)作進(jìn)行說明。圖6是表示實(shí)施方式2的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖,對(duì)語言辨識(shí)前處理部107、語言辨識(shí)部101、讀音賦予部102、讀音變換部103、及識(shí)別詞典生成部104的動(dòng)作的細(xì)節(jié)進(jìn)行描述。首先,若輸入登記對(duì)象文本,則語言辨識(shí)前處理部107參照定型字符串存儲(chǔ)部108的存儲(chǔ)內(nèi)容,檢測(cè)出該登記對(duì)象文本的字符串中包含的定型字符或定型字符串,從語言辨識(shí)對(duì)象中排除(步驟ST501)。作為定型字符或定型字符串,可舉出有在多種語言中共通出現(xiàn)的特定的語言記述。在以樂曲的目錄數(shù)據(jù)為對(duì)象的系統(tǒng)中,“Disc”和“Best of”等共通記載在多種語言中(英語表述),而不依賴于語言。因而,預(yù)先將這種字符或字符串及其記述語言(在上述例中為英語)存儲(chǔ)于定型字符串存儲(chǔ)部108。例如,在輸入“Best Of Ce n’ est que moi”這一登記對(duì)象文本的情況下,對(duì)于“Best Of”,由于可從定型字符串存儲(chǔ)部108的存儲(chǔ)內(nèi)容獲得英語及其讀音,因此,利用語言辨識(shí)前處理部107將其從語言辨識(shí)的對(duì)象排除,作為語言辨識(shí)對(duì)象的字符串,剩下“Ce n’ est que moi”。接下來,語言辨識(shí)前處理部107參照分割字符串存儲(chǔ)部109的存儲(chǔ)內(nèi)容,檢測(cè)出登記對(duì)象文本的字符串中包含的分割字符或分割字符串,以分割字符或分割字符串為基準(zhǔn),對(duì)登記對(duì)象文本的字符串進(jìn)行分割(步驟ST502)。作為分割字符或分割字符串,可舉出將登記對(duì)象文本的記述分開的字符“(”、“)”、“一 ”等。例如,在輸入“Jevivrai sans toi (I Will Say Goodbye) ”這一登記對(duì)象文本的情況下,參照分割字符串存儲(chǔ)部109的存儲(chǔ)內(nèi)容,語言辨識(shí)前處理部107檢測(cè)出該登記對(duì)象文本的字符串中包含的括弧“(”、“)”,以這些字符為基準(zhǔn),對(duì)該登記對(duì)象文本的字符串進(jìn)行分割。由此,分割成“Je vivrai sans toi”和“I Will Say Goodbye”這2個(gè)字符串。接下來,語言辨識(shí)前處理部107參照分割字符串存儲(chǔ)部109的存儲(chǔ)內(nèi)容,確定登記對(duì)象文本的字符串中包含的、例如像大與字符串(spell :拼與)和數(shù)字等那樣的不依賴于表述語言而由識(shí)別對(duì)象語言來朗讀的字符串,將該字符串從登記對(duì)象文本中排除以進(jìn)行分割(步驟ST503)。在該字符串部分中,未作為語言辨識(shí)結(jié)果確定出語言,而成為識(shí)別對(duì)象語言,因此,賦予識(shí)別對(duì)象語言的讀音。另外,也可以對(duì)于該字符串部分(大寫字符(拼寫)和數(shù)字等字符串),在分割字符串存儲(chǔ)部109中預(yù)先賦予識(shí)別對(duì)象語言下的讀音并進(jìn)行存儲(chǔ),并且,對(duì)于登記對(duì)象文本中以該字符串部分為分界的前后字符串,使得讀音賦予部102利用由語言辨識(shí)部101辨識(shí)出的語言來對(duì)該字符串部分賦予讀音。這樣,對(duì)于大寫字符串(拼寫)和數(shù)字等字符串部分,賦予識(shí)別對(duì)象語言和辨識(shí)結(jié)果的語言下的2種讀音,從而能不依賴于記述登記對(duì)象文本中的該字符串部分以外的部分的語言(辨識(shí)結(jié)果的語言),對(duì)用識(shí)別對(duì)象語言說出的字符串部分正確地賦予讀音。語言辨識(shí)前處理部107將從步驟ST501到步驟ST503的前處理的內(nèi)容存儲(chǔ)于變換處理存儲(chǔ)部110。作為前處理的內(nèi)容,在變換處理存儲(chǔ)部110中存儲(chǔ)有從登記對(duì)象文本中排除的定型字符或定型字符串、其記述語言及該語言的音素的讀音、作為登記對(duì)象文本的分割位置的分割字符或分割字符串、各分割部分之間的連接關(guān)系等。之后,語言辨識(shí)前處理部107將計(jì)數(shù)器j進(jìn)行初始化(j = O)(步驟ST504),該計(jì)數(shù)器j對(duì)分割登記對(duì)象文本的分割數(shù)K進(jìn)行計(jì)數(shù)。接下來,語言辨識(shí)前處理部107將第j個(gè)分割部分設(shè)定為作為語言辨識(shí)對(duì)象的字符串,并輸出到語言辨識(shí)部101 (步驟ST505)。語言辨識(shí)部101對(duì)于從語言辨識(shí)前處理部107輸入的第j個(gè)分割部分的字符串,利用與上述實(shí)施方式I相同的步驟開始語言辨識(shí)處理,判定該字符串是由哪種語言記載的,將最有可能認(rèn)為是該字符串的語言的前N種語言(似然度最高的前N種語言)設(shè)為語言辨識(shí)結(jié)果(步驟ST506)。接下來,語言辨識(shí)部101將作為辨識(shí)結(jié)果而得到的語言的數(shù)目、即表示對(duì)每一語言進(jìn)行的后述處理的次數(shù)的計(jì)數(shù)器i初始化為i = O (步驟ST507),并將與第i個(gè)辨識(shí)結(jié)果相對(duì)應(yīng)的語言設(shè)定于讀音賦予部102。這樣,讀音賦予部102和讀音變換部103利用與第i (i = O N)個(gè)辨識(shí)結(jié)果相對(duì)應(yīng)的語言來執(zhí)行從步驟ST508到步驟ST510的處理。另外,步驟ST508是與圖2所示的步驟ST202相同的處理,步驟ST509是與圖2所示的步驟ST203相同的處理,步驟ST510是與圖2所示的步驟ST204相同的處理。在步驟ST511中,語言辨識(shí)部101將計(jì)數(shù)器i增加+ 1,利用下一個(gè)辨識(shí)結(jié)果的語言來重復(fù)上述一連串處理,在步驟ST512中,若判定為對(duì)所有辨識(shí)結(jié)果的語言完成(i彡N + I) 了上述一連串處理,則將計(jì)數(shù)器j增加+ I (步驟ST513)。在步驟ST514中,在語言辨識(shí)部101基于計(jì)數(shù)器j的計(jì)數(shù)值、判定為對(duì)所有分割部分的字符串完成(j ^ K)處理之前,對(duì)分割部分的字符串分別重復(fù)從步驟ST505到步驟ST514的一連串處理。識(shí)別詞典生成部104參照變換處理存儲(chǔ)部110所存儲(chǔ)的前處理內(nèi)容,確定對(duì)從登記對(duì)象文本的字符串中排除的字符串的讀音,將從該語言辨識(shí)的對(duì)象中排除的字符串的讀音、和從讀音變換部103輸入的對(duì)各分割部分的字符串賦予的讀音進(jìn)行合成,生成聲音識(shí)別部106能參照的格式的識(shí)別詞典(步驟ST515)。例如,除將識(shí)別詞匯變換成二進(jìn)制數(shù)據(jù)之 夕卜,還根據(jù)需要進(jìn)行詞素解析、單詞分割以生成語言制約等,從而獲得識(shí)別詞典。
如上所述,根據(jù)該實(shí)施方式2,包括定型字符串存儲(chǔ)部108、分割字符串存儲(chǔ)部109、基于這些存儲(chǔ)部108、109所存儲(chǔ)的內(nèi)容來對(duì)登記對(duì)象文本進(jìn)行前處理的語言辨識(shí)前處理部107、及存儲(chǔ)語言辨識(shí)前處理部107所進(jìn)行的前處理的內(nèi)容的變換處理存儲(chǔ)部110,識(shí)別詞典生成部104基于變換處理存儲(chǔ)部110的存儲(chǔ)內(nèi)容,求出表示由語言辨識(shí)前處理部107實(shí)施了前處理后的登記對(duì)象文本的讀音的音素,生成登記有該音素的識(shí)別詞典。這樣,通過利用特定字符串對(duì)輸入文本進(jìn)行分割,對(duì)分割部分分別進(jìn)行語言辨識(shí)處理、讀音賦予處理,從而即使在登記對(duì)象文本中包含有多種語言的情況下,也能正確地對(duì)登記對(duì)象文本的各分割部分進(jìn)行語言辨識(shí)。此外,將包含在多種語言中使用的特定語言的單詞/慣用語(phrase)預(yù)先存儲(chǔ)為特定字符串,從語言辨識(shí)對(duì)象中排除,因此,即使在包含與語言無關(guān)地使用的語言的慣用語(例如,在音樂的唱片集標(biāo)題中“Disc l”、“BeSt0f”等)的情況下,通過利用該慣用語以外的字符串部分進(jìn)行語言辨識(shí),從而能正確地對(duì)各字符串部分的讀音的語言進(jìn)行語言辨識(shí)。 此外,通過對(duì)讀音依賴于識(shí)別對(duì)象語言的部位進(jìn)行分割,從而即使對(duì)該部位,也能正確地賦予讀音。工業(yè)上的實(shí)用性根據(jù)本發(fā)明所涉及的識(shí)別詞典生成裝置,由于能根據(jù)記述語言不明確的詞匯來生成聲音識(shí)別的音素體系中的識(shí)別詞典,因此,適用于對(duì)混合有多種語言的詞匯的數(shù)據(jù)進(jìn)行處理的便攜式音樂播放器、移動(dòng)電話、車載導(dǎo)航系統(tǒng)等聲音識(shí)別裝置。
權(quán)利要求
1.一種識(shí)別詞典制作裝置,其特征在于,包括 語言辨識(shí)部,該語言辨識(shí)部對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí); 讀音賦予部,該讀音賦予部利用由所述語言辨識(shí)部辨識(shí)出的語言的音素對(duì)所述登記對(duì)象文本賦予讀音; 讀音變換部,該讀音變換部將所述登記對(duì)象文本的讀音從由所述語言辨識(shí)部辨識(shí)出的語言的音素變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言的音素;及 識(shí)別詞典生成部,該識(shí)別詞典生成部生成登記有由所述讀音變換部進(jìn)行變換后的所述登記對(duì)象文本的讀音的識(shí)別詞典。
2.如權(quán)利要求I所述的識(shí)別詞典制作裝置,其特征在于, 所述語言辨識(shí)部將作為語言辨識(shí)對(duì)象的多種語言中、表示作為所述登記對(duì)象文本的讀音的語言的可能性的得分排在前位的規(guī)定數(shù)目的語言作為辨識(shí)結(jié)果來輸出, 所述讀音賦予部利用由所述語言辨識(shí)部辨識(shí)出的所述規(guī)定數(shù)目的各語言的音素對(duì)所述登記對(duì)象文本分別賦予讀音, 所述讀音變換部將所述登記對(duì)象文本的讀音從由所述語言辨識(shí)部辨識(shí)出的所述規(guī)定數(shù)目的語言的音素分別變換成所述識(shí)別對(duì)象語言的音素。
3.如權(quán)利要求2所述的識(shí)別詞典制作裝置,其特征在于, 所述語言辨識(shí)部在所述得分小于規(guī)定閾值的情況下,將所述識(shí)別對(duì)象語言作為辨識(shí)結(jié)果來輸出。
4.如權(quán)利要求I所述的識(shí)別詞典制作裝置,其特征在于,包括 排除對(duì)象存儲(chǔ)部,該排除對(duì)象存儲(chǔ)部存儲(chǔ)有語言辨識(shí)的排除對(duì)象的字符或字符串;語言辨識(shí)前處理部,該語言辨識(shí)前處理部從所述登記對(duì)象文本中,將與所述排除對(duì)象存儲(chǔ)部所存儲(chǔ)的所述排除對(duì)象的字符或字符串相當(dāng)?shù)牟糠峙懦患? 處理內(nèi)容存儲(chǔ)部,該處理內(nèi)容存儲(chǔ)部存儲(chǔ)有由所述語言辨識(shí)前處理部對(duì)所述登記對(duì)象文本實(shí)施的所述排除對(duì)象的字符或字符串的排除處理的內(nèi)容, 所述語言辨識(shí)部對(duì)由所述語言辨識(shí)前處理部排除了所述排除對(duì)象的字符或字符串后的所述登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí), 所述識(shí)別詞典生成部參照所述處理內(nèi)容存儲(chǔ)部所存儲(chǔ)的排除處理的內(nèi)容,根據(jù)所述排除對(duì)象的字符或字符串的讀音、及排除了所述排除對(duì)象的字符或字符串后的所述登記對(duì)象文本的讀音,求出該登記對(duì)象文本的讀音,生成登記有該讀音的識(shí)別詞典。
5.如權(quán)利要求4所述的識(shí)別詞典制作裝置,其特征在于, 包括存儲(chǔ)有分割對(duì)象的字符或字符串的分割對(duì)象存儲(chǔ)部, 所述語言辨識(shí)前處理部利用所述分割對(duì)象存儲(chǔ)部所存儲(chǔ)的所述分割對(duì)象的字符或字符串對(duì)所述登記對(duì)象文本的字符串進(jìn)行分割, 在所述處理內(nèi)容存儲(chǔ)部存儲(chǔ)有由所述語言辨識(shí)前處理部對(duì)所述登記對(duì)象文本實(shí)施的分割處理的內(nèi)容, 所述語言辨識(shí)部對(duì)由所述語言辨識(shí)前處理部分割出的所述登記對(duì)象文本的每一分割部分辨識(shí)出讀首的語言, 所述識(shí)別詞典生成部參照所述處理內(nèi)容存儲(chǔ)部所存儲(chǔ)的分割處理的內(nèi)容,根據(jù)每一所述分割部分的讀音,求出所述登記對(duì)象文本的讀音,生成登記有該讀音的識(shí)別詞典。
6.如權(quán)利要求5所述的識(shí)別詞典制作裝置,其特征在于, 所述分割對(duì)象存儲(chǔ)部存儲(chǔ)有包含數(shù)字或大寫字符串的分割對(duì)象的字符或字符串及其識(shí)別對(duì)象語言的讀音, 所述語言辨識(shí)前處理部從所述登記對(duì)象文本中,將所述包含數(shù)字或大寫字符串的分割對(duì)象的字符或字符串排除,對(duì)該登記對(duì)象文本的字符串進(jìn)行分割, 所述語言辨識(shí)部對(duì)由所述語言辨識(shí)前處理部分割出的所述登記對(duì)象文本的每一分割部分辨識(shí)出讀首的語言, 所述讀音賦予部對(duì)于所述包含數(shù)字或大寫字符串的分割對(duì)象的字符或字符串,賦予由所述語言辨識(shí)部辨識(shí)出的所述分割部分的語言的讀音, 所述識(shí)別詞典生成部參照所述處理內(nèi)容存儲(chǔ)部所存儲(chǔ)的排除處理的內(nèi)容,根據(jù)每一所述分割部分的讀音、所述分割對(duì)象的字符或字符串的識(shí)別對(duì)象語言的讀音、及從所述分割部分的語言變換成所述識(shí)別對(duì)象語言后的讀音,求出所述登記對(duì)象文本的讀音,生成登記有該讀音的識(shí)別詞典。
7.如權(quán)利要求I所述的識(shí)別詞典制作裝置,其特征在于, 所述語言辨識(shí)部利用包含作為語言辨識(shí)對(duì)象的每一語言的N-gram及其出現(xiàn)概率的語言辨識(shí)模型,對(duì)每一語言計(jì)算出所述登記對(duì)象文本的N-gram的序列概率,根據(jù)基于所述序列概率值的似然度,辨識(shí)出讀音的語言。
8.如權(quán)利要求7所述的識(shí)別詞典制作裝置,其特征在于, 所述語言辨識(shí)部對(duì)于所述登記對(duì)象文本中、作為語言辨識(shí)對(duì)象的多種語言中共通記述的、對(duì)語言辨識(shí)無幫助的字符或字符串,將其置換成特殊字符而生成N-gram。
9.如權(quán)利要求7所述的識(shí)別詞典制作裝置,其特征在于, 所述語言辨識(shí)部在所述登記對(duì)象文本中包含有限定使用語言的字符或字符串的情況下,將所述使用語言中、似然度最高的語言作為辨識(shí)結(jié)果來輸出。
10.如權(quán)利要求7所述的識(shí)別詞典制作裝置,其特征在于, 所述語言辨識(shí)部對(duì)每一使用識(shí)別對(duì)象詞匯的處理包括語言辨識(shí)模型,將與使用所述登記對(duì)象文本的處理相對(duì)應(yīng)的語言辨識(shí)模型用于語言辨識(shí)。
11.一種聲音識(shí)別裝置,其特征在于,包括 語言辨識(shí)部,該語言辨識(shí)部對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí); 讀音賦予部,該讀音賦予部利用由所述語言辨識(shí)部辨識(shí)出的語言的音素對(duì)所述登記對(duì)象文本賦予讀音; 讀音變換部,該讀音變換部將所述登記對(duì)象文本的讀音從由所述語言辨識(shí)部辨識(shí)出的語言的音素變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言的音素; 識(shí)別詞典生成部,該識(shí)別詞典生成部生成登記有由所述讀音變換部進(jìn)行變換后的所述登記對(duì)象文本的讀音的識(shí)別詞典;及 聲音識(shí)別部,該聲音識(shí)別部參照由所述識(shí)別詞典生成部生成的所述識(shí)別詞典,對(duì)輸入聲音進(jìn)行聲音識(shí)別。
12.—種聲音識(shí)別裝置,其特征在于,包括 排除對(duì)象存儲(chǔ)部,該排除對(duì)象存儲(chǔ)部存儲(chǔ)有語言辨識(shí)的排除對(duì)象的字符或字符串; 分割對(duì)象存儲(chǔ)部,該分割對(duì)象存儲(chǔ)部存儲(chǔ)有分割對(duì)象的字符或字符串;語言辨識(shí)前處理部,該語言辨識(shí)前處理部基于所述排除對(duì)象存儲(chǔ)部和所述分割對(duì)象存儲(chǔ)部所存儲(chǔ)的內(nèi)容,從所輸入的登記對(duì)象文本中將所述排除對(duì)象的字符或字符串排除,并且,利用所述分割對(duì)象的字符或字符串進(jìn)行分割; 處理內(nèi)容存儲(chǔ)部,該處理內(nèi)容存儲(chǔ)部存儲(chǔ)有由所述語言辨識(shí)前處理部對(duì)所述登記對(duì)象文本實(shí)施的處理的內(nèi)容; 語言辨識(shí)部,該語言辨識(shí)部對(duì)由所述語言辨識(shí)前處理部實(shí)施所述處理后的所述登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí); 讀音賦予部,該讀音賦予部利用由所述語言辨識(shí)部辨識(shí)出的語言的音素對(duì)所述登記對(duì)象文本賦予讀音; 讀音變換部,該讀音變換部將所述登記對(duì)象文本的讀音從由所述語言辨識(shí)部辨識(shí)出的語言的音素變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言的音素; 識(shí)別詞典生成部,該識(shí)別詞典生成部參照所述處理內(nèi)容存儲(chǔ)部所存儲(chǔ)的所述處理的內(nèi) 容,求出由所述語言辨識(shí)前處理部實(shí)施所述處理后的所述登記對(duì)象文本的讀音,生成登記有該讀音的識(shí)別詞典 '及 聲音識(shí)別部,該聲音識(shí)別部參照由所述識(shí)別詞典生成部生成的所述識(shí)別詞典,對(duì)輸入聲音進(jìn)行聲音識(shí)別。
全文摘要
對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí),利用辨識(shí)出的語言的音素來對(duì)登記對(duì)象文本賦予讀音,并且,生成登記有將登記對(duì)象文本的讀音從辨識(shí)出的語言的讀音變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言后的讀音的識(shí)別詞典。
文檔編號(hào)G10L15/06GK102725790SQ20108006259
公開日2012年10月10日 申請(qǐng)日期2010年2月5日 優(yōu)先權(quán)日2010年2月5日
發(fā)明者山崎道弘, 石井純, 石川泰 申請(qǐng)人:三菱電機(jī)株式會(huì)社