識(shí)別詞典制作裝置及聲音識(shí)別裝置的制作方法

文檔序號(hào)：2824935閱讀：197來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：識(shí)別詞典制作裝置及聲音識(shí)別裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及制作作為聲音識(shí)別對(duì)象的詞匯的詞典的識(shí)別詞典制作裝置及利用該識(shí)別詞典制作裝置的聲音識(shí)別裝置。
背景技術(shù)：
在專利文獻(xiàn)I中，公開了一種通過同時(shí)使用作為聲音識(shí)別對(duì)象的多種語言的音響模型、能進(jìn)行與多種語言相對(duì)應(yīng)的聲音識(shí)別的聲音識(shí)別裝置。然而，在該專利文獻(xiàn)I的發(fā)明中，需要具有與所有作為聲音識(shí)別對(duì)象的多種語言相對(duì)應(yīng)的多種語言用的音響模型，存在無法適用于一般的僅與一種語言相對(duì)應(yīng)的聲音識(shí)別的問題。此外，專利文獻(xiàn)I的發(fā)明需要預(yù)先確定識(shí)別詞匯是用哪種語言記載的，并預(yù)先賦
予讀音。另一方面，在僅與一種語言相對(duì)應(yīng)的聲音識(shí)別中，對(duì)于未賦予讀音的登記對(duì)象文本，自動(dòng)生成識(shí)別對(duì)象語言的讀音以進(jìn)行識(shí)別。此時(shí)，對(duì)于用與識(shí)別對(duì)象語言不同的語言來記載的文本，無法賦予讀音。本發(fā)明是為了解決上述問題而完成的，其目的在于獲得一種識(shí)別詞典制作裝置利用該識(shí)別詞典制作裝置的聲音識(shí)別裝置，該識(shí)別詞典制作裝置即使在作為登記到識(shí)別詞典的對(duì)象的詞匯所屬語言不明確的情況下，也能生成將該詞匯的讀音變換至聲音識(shí)別的語言的音素體系的識(shí)別詞典。現(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)I :日本專利特許第3776391號(hào)公報(bào)

發(fā)明內(nèi)容
本發(fā)明所涉及的識(shí)別詞典制作裝置包括語言辨識(shí)部，該語言辨識(shí)部對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí)；讀音賦予部，該讀音賦予部利用由語言辨識(shí)部辨識(shí)出的語言的音素對(duì)登記對(duì)象文本賦予讀音；讀音變換部，該讀音變換部將登記對(duì)象文本的讀音從由語言辨識(shí)部辨識(shí)出的語言的音素變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言的音素；及識(shí)別詞典生成部，該識(shí)別詞典生成部生成登記有由讀音變換部進(jìn)行變換后的登記對(duì)象文本的讀音的識(shí)別詞典。根據(jù)本發(fā)明，對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí)，利用辨識(shí)出的語言的音素來對(duì)登記對(duì)象文本賦予讀音，并且，生成登記有將登記對(duì)象文本的讀音從辨識(shí)出的語言的讀音變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言后的讀音的識(shí)別詞典。這樣，具有如下效果即使在未明確登記到識(shí)別詞典的登記對(duì)象文本(詞匯)是用哪種語言來記述的情況下，也能獲得與聲音識(shí)別的語言的音素體系相符合的識(shí)別詞典。

圖I是表示利用本發(fā)明的實(shí)施方式I所涉及的識(shí)別詞典制作裝置的登記型聲音識(shí)別裝置的結(jié)構(gòu)的框圖。圖2是表示實(shí)施方式I的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖。圖3是表示在德語和英語中發(fā)音類似的音素的對(duì)應(yīng)表的一個(gè)示例的圖。圖4是表示實(shí)施方式I的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖。圖5是表示利用本發(fā)明的實(shí)施方式2所涉及的識(shí)別詞典制作裝置的登記型聲音識(shí)
別裝置的結(jié)構(gòu)的框圖。圖6是表示實(shí)施方式2的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖。
具體實(shí)施例方式下面，為了更詳細(xì)地對(duì)本發(fā)明進(jìn)行說明，根據(jù)附圖對(duì)用于實(shí)施本發(fā)明的方式進(jìn)行說明。實(shí)施方式I圖I是表示利用本發(fā)明的實(shí)施方式I所涉及的識(shí)別詞典制作裝置的登記型聲音識(shí)別裝置的結(jié)構(gòu)的框圖。圖I中，實(shí)施方式I所涉及的聲音識(shí)別裝置100包括語言辨識(shí)部101、讀音賦予部102、讀音變換部103、識(shí)別詞典生成部104、識(shí)別詞典存儲(chǔ)部105、及聲音識(shí)別部106。這些結(jié)構(gòu)部中，語言辨識(shí)部101、讀音賦予部102、讀音變換部103、識(shí)別詞典生成部104、及識(shí)別詞典存儲(chǔ)部105是實(shí)施方式I所涉及的識(shí)別詞典制作裝置的結(jié)構(gòu)。語言辨識(shí)部101是對(duì)作為登記到識(shí)別詞典的登記對(duì)象的詞匯的文本字符串(以下稱為登記對(duì)象文本)的語言進(jìn)行辨識(shí)的結(jié)構(gòu)部。登記對(duì)象文本中還包含有難以確定語言的詞匯的文本字符串，例如，可舉出登記到便攜式音樂播放器的樂曲的標(biāo)題和藝術(shù)家名等目錄數(shù)據(jù)、登記到移動(dòng)電話的地名和人名等。讀音賦予部102是利用由語言辨識(shí)部101辨識(shí)出的語言對(duì)登記對(duì)象文本用音素賦予讀音的結(jié)構(gòu)部。讀音變換部103是將由讀音賦予部102賦予的讀音變換成在聲音識(shí)別部106所進(jìn)行的聲音識(shí)別中使用的語言的音素的結(jié)構(gòu)部。識(shí)別詞典生成部104是將由讀音變換部103進(jìn)行變換后的音素作為成為聲音識(shí)別對(duì)象的詞匯(以下稱為識(shí)別對(duì)象詞匯)來生成、并登記到識(shí)別詞典存儲(chǔ)部105的識(shí)別詞典的結(jié)構(gòu)部。識(shí)別詞典存儲(chǔ)部105是能由識(shí)別詞典生成部104和聲音識(shí)別部106進(jìn)行讀寫的存儲(chǔ)部，存儲(chǔ)有登記由識(shí)別詞典生成部104生成的識(shí)別對(duì)象詞匯的識(shí)別詞典。聲音識(shí)別部106是利用識(shí)別詞典存儲(chǔ)部105所存儲(chǔ)的識(shí)別詞典的識(shí)別對(duì)象詞匯來執(zhí)行聲音識(shí)別、并輸出識(shí)別結(jié)果的結(jié)構(gòu)部。此外，對(duì)于語言辨識(shí)部101、讀音賦予部102、讀音變換部103、識(shí)別詞典生成部104、識(shí)別詞典存儲(chǔ)部105、及聲音識(shí)別部106，通過將按照本發(fā)明要點(diǎn)的識(shí)別詞典制作程序存儲(chǔ)在計(jì)算機(jī)中，并使CPU加以執(zhí)行，從而能在該計(jì)算機(jī)上作為硬件和軟件協(xié)作的具體單元來實(shí)現(xiàn)。而且，識(shí)別詞典存儲(chǔ)部105及聲音識(shí)別部106所使用的存儲(chǔ)區(qū)域由上述計(jì)算機(jī)所裝載的存儲(chǔ)裝置、例如硬盤裝置、外部存儲(chǔ)介質(zhì)等來構(gòu)建。
接下來，對(duì)動(dòng)作進(jìn)行說明。圖2是表示實(shí)施方式I的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖，描述語言辨識(shí)部101、讀音賦予部102、讀音變換部103、及識(shí)別詞典生成部104對(duì)于I個(gè)登記對(duì)象文本所進(jìn)行的動(dòng)作的細(xì)節(jié)。首先，語言辨識(shí)部101對(duì)登記對(duì)象文本的字符串開始進(jìn)行語言辨識(shí)處理，判定該字符串是由哪種語言記載的(步驟ST201)。具體而言，判定所輸入的登記對(duì)象文本的字符串符合設(shè)定于語言辨識(shí)部101的多種語言中的哪種語言。例如，在語言辨識(shí)部101中，在將英語、德語、法語、意大利語、西班牙語、荷蘭語等6種歐洲語言設(shè)定作為語言辨識(shí)的對(duì)象的情況下，若所輸入的登記對(duì)象文本的字符串為"Guten Morgen”，則語言辨識(shí)部101輸出該字符串的語言為德語這一語言辨識(shí)結(jié)果。在語言辨識(shí)失敗等無法辨識(shí)語言的情況下，語言辨識(shí)部101將聲音識(shí)別部106能作為聲音識(shí)別對(duì)象來受理的語言作為辨識(shí)結(jié)果進(jìn)行輸出。此外，在語言辨識(shí)部101的語言辨識(shí)中，例如使用字符的N-gram。N-gram本身是由克勞德艾爾伍德香農(nóng)(Claude Elwood Shannon)建立的與語言信息相關(guān)的分析模型，在聲音識(shí)別用的語言模型、全文檢索等中使用。在下述的參考文獻(xiàn)I中記載有這些一般的N-gram的利用方法。(參考文獻(xiàn)I)“通信的數(shù)學(xué)理論”，克勞德艾爾伍德香農(nóng)，貝爾系統(tǒng)技術(shù)雜志，第 27 卷，第 379-423,623-656 頁，七月，十月，1948。(“AMathematical Theory ofCommunication，，，C. E. SHANNON, The Bell SystemTechnical Journal, Vol. 27，pp. 379-423，623-656，July, October, 1948.) 這樣，通過將N-gram的概念弓I入到文本字符串的語言辨識(shí)中，能高精度地辨識(shí)語言。例如，對(duì)設(shè)N為3、利用字符的Trigram的語言辨識(shí)進(jìn)行說明。語言辨識(shí)部101具有利用作為語言辨識(shí)對(duì)象的各語言來記載的學(xué)習(xí)用文本字符串，求出學(xué)習(xí)用字符串中出現(xiàn)的3個(gè)連續(xù)字符的出現(xiàn)概率。例如，對(duì)于字符串“MITSUBISHI”的情況，可分解成“$$] ”、“$]\0”、“]\01'”、“幾5”、“丁5^‘5皿”、“服1”、“815”、“15!1”、“5!11”、“HI$”、“I$$”等各序列。另外，“$”意指表示詞頭、詞尾的字符。在求出語言i (i = 1,2,……，N)的所有學(xué)習(xí)字符串中各序列出現(xiàn)的頻度之后，語言辨識(shí)部101對(duì)所學(xué)習(xí)的每一語言采用出現(xiàn)概率較高的前η個(gè)序列作為模型，并將字符序列及其出現(xiàn)頻度存儲(chǔ)在各語言的語言辨識(shí)模型中。例如，對(duì)于語言i的語言辨識(shí)模型，存儲(chǔ)字符序列(Trigram) “$$M”及此時(shí)的出現(xiàn)概率Pi ($，$，M)等。語言辨識(shí)部101對(duì)于登記對(duì)象文本的字符串，利用各語言的語言辨識(shí)模型求出每一語言的字符序列(Trigram)的序列概率，將序列概率值最大的語言采用作為語言辨識(shí)結(jié)果。例如，對(duì)于“Best”的語言i的序列概率Pi通過Pi=Pi ($，$，B) XPi ($，B, E) XPi (B, E, S)XPi (E，S，T) XPi (S, T, $) XPi(T，$，$)來求出。該序列概率Pi最大的語言i成為語言辨識(shí)結(jié)果。另外，語言辨識(shí)部101在N-gram未存儲(chǔ)于語言辨識(shí)模型的情況下，提供預(yù)定的一定概率作為出現(xiàn)概率以進(jìn)行計(jì)算。在求出N-gram時(shí)，對(duì)于在作為語言辨識(shí)對(duì)象的多種語言中共通記述且對(duì)語言辨識(shí)無幫助的字符(例如，數(shù)字、括弧、句號(hào)等符號(hào))，也可以預(yù)先將這些字符置換成表示特殊字符的字符而求出N-gram。例如，使用#、@等特殊字符。此外，在語言辨識(shí)中，在使用了限定所使用的語言的字符的情況下，將使用該字符的語言中、似然度(likelihood)最高的語言作為辨識(shí)結(jié)果來輸出。作為限定所使用的語言的字符，例如可舉出使用了元音變音的字符等。另外，對(duì)于用于N-gram學(xué)習(xí)的文本字符串(用于語言辨識(shí)模型的文本字符串)，通過利用與識(shí)別對(duì)象詞匯相同任務(wù)(task)的詞匯來進(jìn)行學(xué)習(xí)，能提高語言的辨識(shí)精度。任務(wù)是指使用例如音樂檢索、住所識(shí)別等的識(shí)別對(duì)象詞匯的處理。語言辨識(shí)部101包括每一任務(wù)的學(xué)習(xí)用字符串，將與使用登記對(duì)象文本的任務(wù)相對(duì)應(yīng)的學(xué)習(xí)用字符串用于語言辨識(shí)。接下來，在從語言辨識(shí)部101輸入辨識(shí)結(jié)果時(shí)，讀音賦予部102判定該辨識(shí)結(jié)果是設(shè)定于聲音識(shí)別裝置100的多種語言中的哪種語言(步驟ST202)，對(duì)于所輸入的登記對(duì)象文本的字符串，利用判定結(jié)果的語言的音素來賦予讀音(步驟ST203)。若是由聲音識(shí)別部106設(shè)為當(dāng)前聲音識(shí)別對(duì)象的識(shí)別對(duì)象語言，則利用該識(shí)別對(duì)象語言的音素來賦予讀音。同樣地，即使判定結(jié)果的語言是識(shí)別對(duì)象語言以外的語言1、2、……、N中的任一種，也如圖2·所示，利用該語言的音素來賦予讀音。另外，在賦予音素時(shí)，例如使用G2P (Grapheme to Phoneme :字形到音素)。此外，在該讀音賦予處理中，也一并進(jìn)行省略語的判定、符號(hào)等的處理之類的依賴于語言的處理。讀音變換部103對(duì)于在步驟ST203中、利用識(shí)別對(duì)象語言以外的語言的音素來賦予讀音的登記對(duì)象文本，將各語言的音素的讀音變換成識(shí)別對(duì)象語言的音素的讀音(步驟ST204)。像這樣變換音素體系的理由在于，能由聲音識(shí)別部106受理的音素體系僅為設(shè)為聲音識(shí)別對(duì)象的識(shí)別對(duì)象語言，語言不同的音素體系中存在無法受理的音素。作為這種音素(讀音)的變換方法，例如，讀音變換部103對(duì)于無法由聲音識(shí)別部106受理的語言的音素或音素序列，預(yù)先準(zhǔn)備識(shí)別對(duì)象語言中最接近的音素或音素序列作為對(duì)應(yīng)表，根據(jù)上述對(duì)應(yīng)表對(duì)由步驟ST203得到的文本字符串的讀音進(jìn)行讀音變換(音素映射)。圖3是表示上述那樣的對(duì)應(yīng)表的一個(gè)示例的圖，示出德語與英語之間的對(duì)應(yīng)關(guān)系。德語中的發(fā)音/a/ (開前不圓唇元音)、/Y/ (次閉次前圓唇元音)等在英語的發(fā)音體系中不存在。因此，聲音識(shí)別部106在受理英語的情況下，無法應(yīng)對(duì)該讀音。因而，對(duì)于德語的發(fā)音/a/、/Y/，像圖3所示的對(duì)應(yīng)表那樣，使其與由聲音識(shí)別部106能受理的英語中存在的音素中、發(fā)音最接近的音素例如/{/ (次開前不圓唇元音)、/I/(半閉前圓唇元音)相對(duì)應(yīng)。另外，此處的發(fā)音表述使用X-SAMPA表述。該對(duì)應(yīng)表可以將語言上相近的音素彼此進(jìn)行對(duì)應(yīng)，但也可以基于例如各語言的發(fā)首易于由哪種首素表述來識(shí)別等，以決定對(duì)應(yīng)關(guān)系。識(shí)別詞典生成部104輸入在步驟ST203中由讀音賦予部102對(duì)登記對(duì)象文本的字符串賦予的音素、或在步驟ST204中由讀音變換部103進(jìn)行變換后的音素，并生成聲音識(shí)別部106能參照的格式的識(shí)別詞典(步驟ST205)。例如，除將識(shí)別詞匯變換成二進(jìn)制數(shù)據(jù)之夕卜，還根據(jù)需要進(jìn)行詞素解析、單詞分割以生成語言制約等，從而獲得識(shí)別詞典。在作為登記對(duì)象文本的詞匯有多個(gè)的情況下，對(duì)各登記對(duì)象文本重復(fù)進(jìn)行上述為止的處理。另外，在生成識(shí)別詞典時(shí)，也可以在對(duì)所有的登記對(duì)象文本的詞匯賦予讀音之后集中進(jìn)行，而不是逐一追加登記詞匯。由識(shí)別詞典生成部104生成的識(shí)別詞典存儲(chǔ)于識(shí)別詞典存儲(chǔ)部105。聲音識(shí)別部106參照識(shí)別詞典存儲(chǔ)部105所存儲(chǔ)的識(shí)別詞典中記載的識(shí)別詞匯、文法來進(jìn)行輸入聲音的聲音識(shí)別，并輸出識(shí)別結(jié)果。例如，聲音識(shí)別部106讀入利用特定語言的音素體系的音素來記載的識(shí)別詞典，對(duì)特定語言的輸入聲音進(jìn)行聲音識(shí)別。作為聲音識(shí)別的算法，例如利用HMM (Hidden Markov Model :隱馬爾科夫模型)、DP (DynamicProgramming :動(dòng)態(tài)規(guī)劃)匹配等。至上述為止，對(duì)由語言辨識(shí)部101辨識(shí)出的語言為I種語言的情況下的動(dòng)作進(jìn)行了說明，但接下來，對(duì)由語言辨識(shí)部101從所輸入的登記對(duì)象文本的字符串中辨識(shí)出多種語言的情況下的動(dòng)作進(jìn)行說明。圖4是表示實(shí)施方式I的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖，示出由語言辨識(shí)部101辨識(shí)出N種語言的情況。語言辨識(shí)部101對(duì)登記對(duì)象文本的字符串開始進(jìn)行語言辨識(shí)處理，判定該字符串是用哪種語言記載的，將最有可能認(rèn)為是該字符串的語言的前N種語言設(shè)為語言辨識(shí)結(jié)果(步驟 ST301)。另外，此處，N種可以是固定值，但也可以是利用語言辨識(shí)部101輸出表示信賴度的得分而該得分為預(yù)定閾值以上的信賴度的候選的數(shù)目、相對(duì)于第一位的信賴度在一定的信賴度差以內(nèi)的候選的數(shù)目。例如，在輸入“Hamburg”作為登記對(duì)象文本的情況下，語言辨識(shí)部101輸出從該文本辨識(shí)出的語言為德語和英語(N= 2)這一結(jié)果。此外，在辨識(shí)語言失敗等無法辨識(shí)語言的情況、或信賴度的得分小于閾值的情況下，語言辨識(shí)部101將能由聲音識(shí)別部106受理的語言(識(shí)別對(duì)象語言)作為語言的辨識(shí)結(jié)果來輸出。接下來，語言辨識(shí)部101將作為辨識(shí)結(jié)果而得到的語言的數(shù)目、即表示對(duì)每一語言進(jìn)行的后述處理的次數(shù)的計(jì)數(shù)器i初始化為i = 0(步驟ST301 - I),并將與第i個(gè)辨識(shí)結(jié)果相對(duì)應(yīng)的語言設(shè)定于讀音賦予部102。由此，讀音賦予部102、讀音變換部103、及識(shí)別詞典生成部104利用與第i (i = O N)個(gè)辨識(shí)結(jié)果相對(duì)應(yīng)的語言來執(zhí)行從步驟ST302到步驟ST306的處理。另外，步驟ST302是與圖2所示的步驟ST202相同的處理，步驟ST303是與圖2所示的步驟ST203相同的處理，步驟ST304是與圖2所示的步驟ST204相同的處理，步驟ST305是與圖2所示的步驟ST205相同的處理。在步驟ST306中，語言辨識(shí)部101將計(jì)數(shù)器i增加+ 1，利用下一個(gè)辨識(shí)結(jié)果的語言來重復(fù)上述一連串處理。在步驟ST307中，若語言辨識(shí)部101基于計(jì)數(shù)器i的計(jì)數(shù)值，判定為對(duì)所有辨識(shí)結(jié)果的語言完成(i彡N+ I)了上述一連串處理，則結(jié)束對(duì)所輸入的登記對(duì)象文本的登記處理。由此，即使在I個(gè)登記對(duì)象文本是利用多種語言來記述的情況下，通過辨識(shí)這些語言，利用其音素分別賦予讀音，之后分別變換成識(shí)別對(duì)象語言的音素的讀音，從而也能作為識(shí)別詞匯登記于識(shí)別詞典。因而，即使用戶利用語言辨識(shí)部101辨識(shí)出的任一種語言來說出該文本字符串，也能利用登記于識(shí)別詞典的對(duì)應(yīng)識(shí)別詞匯來進(jìn)行聲音識(shí)別。另外，在登記對(duì)象文本有多個(gè)的情況下，與得到I種語言作為辨識(shí)結(jié)果的情況相同，對(duì)各登記對(duì)象文本重復(fù)進(jìn)行上述處理。在生成識(shí)別詞典時(shí)，也可以對(duì)利用I個(gè)登記對(duì)象文本的詞匯辨識(shí)出的所有語言集中進(jìn)行追加登記，而不是按照作為對(duì)I個(gè)登記對(duì)象文本的語言辨識(shí)結(jié)果而得到的每一語言來進(jìn)行追加登記?；蛘撸部梢栽趯?duì)所有登記對(duì)象文本的詞匯賦予讀音之后集中進(jìn)行。如上所述，根據(jù)該實(shí)施方式1，對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí)，利用辨識(shí)出的語言的音素來對(duì)登記對(duì)象文本賦予讀音，并且，生成登記有將登記對(duì)象文本的讀音從辨識(shí)出的語言的讀音變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言后的讀音的識(shí)別詞典。這樣，即使在未明確登記對(duì)象文本是哪種語言的情況下(例如，登記到便攜式音樂播放器的樂曲的標(biāo)題和藝術(shù)家名等目錄數(shù)據(jù)、登記到移動(dòng)電話的地名和人名等)，通過利用N-gram的語言辨識(shí)模型來辨識(shí)登記對(duì)象文本的語言，賦予辨識(shí)出的語言的音素，并變換成聲音識(shí)別中能受理的語言的音素，從而也能作為聲音識(shí)別中參照的識(shí)別詞匯進(jìn)行登記。此外，根據(jù)該實(shí)施方式1，語言辨識(shí)部101從登記對(duì)象文本辨識(shí)出多種語言，從而在登記對(duì)象文本有可能符合多種語言的情況下，利用各語言賦予讀音，以作為識(shí)別詞匯進(jìn)行登記。這樣，即使用戶利用任一種語言來發(fā)音，也能進(jìn)行聲音識(shí)別。此外，根據(jù)該實(shí)施方式1，語言辨識(shí)部101對(duì)語言的辨識(shí)結(jié)果設(shè)定表示對(duì)各語言的信賴度的得分，與有關(guān)該得分的規(guī)定閾值進(jìn)行比較，將信賴度最高的語言作為最終辨識(shí)結(jié)果來輸出。這樣，能僅采用用戶最有可能發(fā)聲的語言的發(fā)音，從而能提高聲音識(shí)別性能。此外，根據(jù)該實(shí)施方式1，由于利用N-gram進(jìn)行語言辨識(shí)，因此，與按每一語言準(zhǔn)備單詞詞典等以進(jìn)行語言判定的情況相比，能獲得穩(wěn)定的語言辨識(shí)性能。此外，同時(shí)能減小詞典尺寸，能削減運(yùn)算量和存儲(chǔ)器消耗量。此外，根據(jù)該實(shí)施方式1，在利用N-gram的語言辨識(shí)中，利用將對(duì)辨識(shí)語言無幫助的字符(例如，數(shù)字、括弧、句號(hào)等符號(hào))置換成表示特殊字符的I個(gè)字符的N-gram。由此，能減小語言辨識(shí)模型的存儲(chǔ)區(qū)域的尺寸，能削減語言辨識(shí)模型的檢索時(shí)間和存儲(chǔ)器消耗量，因此，容易將本發(fā)明應(yīng)用于嵌入型裝置等運(yùn)算速度和存儲(chǔ)器尺寸受限制的裝置。此外，根據(jù)該實(shí)施方式1，在登記對(duì)象文本中存在像元音變音等那樣、限定所使用的語言的字符的情況下，通過從使用該字符的語言中辨識(shí)出語言，從而能提高語言辨識(shí)的精度。此外，根據(jù)該實(shí)施方式1，在利用N-gram的語言辨識(shí)中，通過利用與識(shí)別對(duì)象詞匯相同的任務(wù)(使用了識(shí)別對(duì)象詞匯的處理)的詞匯來制作語言辨識(shí)模型，從而能提高語言辨識(shí)的精度。實(shí)施方式2圖5是表示利用本發(fā)明的實(shí)施方式2所涉及的識(shí)別詞典制作裝置的登記型聲音識(shí)別裝置的結(jié)構(gòu)的框圖。在圖5中，實(shí)施方式2所涉及的聲音識(shí)別裝置100A在上述實(shí)施方式I所涉及的聲音識(shí)別裝置的結(jié)構(gòu)的基礎(chǔ)上，還包括語言辨識(shí)前處理部107、定型字符串存儲(chǔ)部(排除對(duì)象存儲(chǔ)部)108、分割字符串存儲(chǔ)部(分割對(duì)象存儲(chǔ)部)109、及變換處理存儲(chǔ)部(處理內(nèi)容存儲(chǔ)部)110。語言辨識(shí)前處理部107是配置在語言辨識(shí)部101的前級(jí)且輸入有登記對(duì)象文本的結(jié)構(gòu)部，作為進(jìn)行語言辨識(shí)處理的前處理，將所輸入的登記對(duì)象文本的字符串中的、特定的字符或字符串(以下稱為定型字符或定型字符串)從語言辨識(shí)對(duì)象中排除，或以規(guī)定的字符或字符串(以下稱為分割字符或分割字符串)為基準(zhǔn)，對(duì)該登記對(duì)象文本進(jìn)行分割。
定型字符串存儲(chǔ)部108是存儲(chǔ)有從語言辨識(shí)對(duì)象中排除的定型字符或定型字符串及其記述語言和讀音的存儲(chǔ)部。分割字符串存儲(chǔ)部109是存儲(chǔ)有作為分割登記對(duì)象文本時(shí)的分割位置的分割字符或分割字符串及其記述語言和讀音的存儲(chǔ)部。變換處理存儲(chǔ)部110是存儲(chǔ)由語言辨識(shí)前處理部107對(duì)登記對(duì)象文本實(shí)施的前處理的內(nèi)容(排除或分割字符串)的存儲(chǔ)部。另外，在圖5中，對(duì)與圖I相同或同樣地進(jìn)行動(dòng)作的結(jié)構(gòu)部標(biāo)注相同標(biāo)號(hào)，并省略其說明。其中，語言辨識(shí)部101對(duì)由語言辨識(shí)前處理部107實(shí)施了前處理后的登記對(duì)象文本的字符串進(jìn)行語言辨識(shí)。此外，識(shí)別詞典生成部104在生成識(shí)別詞典時(shí)，利用變換處理存儲(chǔ)部110所存儲(chǔ)的前處理內(nèi)容、即登記對(duì)象文本的分割后的各分割部分之間的連接關(guān)系、從登記對(duì)象文本中排除的字符串及其讀音，生成與該登記對(duì)象文本的字符串相符的識(shí)別詞典。此外，對(duì)于語言辨識(shí)前處理部107、定型字符串存儲(chǔ)部108、分割字符串存儲(chǔ)部 109、及變換處理存儲(chǔ)部110，通過將按照本發(fā)明要點(diǎn)的識(shí)別詞典制作程序存儲(chǔ)在計(jì)算機(jī)中，并使CPU加以執(zhí)行，從而能在該計(jì)算機(jī)上作為硬件和軟件協(xié)作的具體單元來實(shí)現(xiàn)。而且，定型字符串存儲(chǔ)部108、分割字符串存儲(chǔ)部109、及變換處理存儲(chǔ)部110所使用的存儲(chǔ)區(qū)域由上述計(jì)算機(jī)所裝載的存儲(chǔ)裝置、例如硬盤裝置和外部存儲(chǔ)介質(zhì)等來構(gòu)建。接下來，對(duì)動(dòng)作進(jìn)行說明。圖6是表示實(shí)施方式2的識(shí)別詞典制作裝置所涉及的識(shí)別詞典的制作動(dòng)作流程的流程圖，對(duì)語言辨識(shí)前處理部107、語言辨識(shí)部101、讀音賦予部102、讀音變換部103、及識(shí)別詞典生成部104的動(dòng)作的細(xì)節(jié)進(jìn)行描述。首先，若輸入登記對(duì)象文本，則語言辨識(shí)前處理部107參照定型字符串存儲(chǔ)部108的存儲(chǔ)內(nèi)容，檢測(cè)出該登記對(duì)象文本的字符串中包含的定型字符或定型字符串，從語言辨識(shí)對(duì)象中排除(步驟ST501)。作為定型字符或定型字符串，可舉出有在多種語言中共通出現(xiàn)的特定的語言記述。在以樂曲的目錄數(shù)據(jù)為對(duì)象的系統(tǒng)中，“Disc”和“Best of”等共通記載在多種語言中(英語表述)，而不依賴于語言。因而，預(yù)先將這種字符或字符串及其記述語言(在上述例中為英語)存儲(chǔ)于定型字符串存儲(chǔ)部108。例如，在輸入“Best Of Ce n’ est que moi”這一登記對(duì)象文本的情況下，對(duì)于“Best Of”，由于可從定型字符串存儲(chǔ)部108的存儲(chǔ)內(nèi)容獲得英語及其讀音，因此，利用語言辨識(shí)前處理部107將其從語言辨識(shí)的對(duì)象排除，作為語言辨識(shí)對(duì)象的字符串，剩下“Ce n’ est que moi”。接下來，語言辨識(shí)前處理部107參照分割字符串存儲(chǔ)部109的存儲(chǔ)內(nèi)容，檢測(cè)出登記對(duì)象文本的字符串中包含的分割字符或分割字符串，以分割字符或分割字符串為基準(zhǔn)，對(duì)登記對(duì)象文本的字符串進(jìn)行分割(步驟ST502)。作為分割字符或分割字符串，可舉出將登記對(duì)象文本的記述分開的字符“(”、“)”、“一 ”等。例如，在輸入“Jevivrai sans toi (I Will Say Goodbye) ”這一登記對(duì)象文本的情況下，參照分割字符串存儲(chǔ)部109的存儲(chǔ)內(nèi)容，語言辨識(shí)前處理部107檢測(cè)出該登記對(duì)象文本的字符串中包含的括弧“(”、“)”，以這些字符為基準(zhǔn)，對(duì)該登記對(duì)象文本的字符串進(jìn)行分割。由此，分割成“Je vivrai sans toi”和“I Will Say Goodbye”這2個(gè)字符串。接下來，語言辨識(shí)前處理部107參照分割字符串存儲(chǔ)部109的存儲(chǔ)內(nèi)容，確定登記對(duì)象文本的字符串中包含的、例如像大與字符串(spell :拼與)和數(shù)字等那樣的不依賴于表述語言而由識(shí)別對(duì)象語言來朗讀的字符串，將該字符串從登記對(duì)象文本中排除以進(jìn)行分割(步驟ST503)。在該字符串部分中，未作為語言辨識(shí)結(jié)果確定出語言，而成為識(shí)別對(duì)象語言，因此，賦予識(shí)別對(duì)象語言的讀音。另外，也可以對(duì)于該字符串部分(大寫字符(拼寫)和數(shù)字等字符串)，在分割字符串存儲(chǔ)部109中預(yù)先賦予識(shí)別對(duì)象語言下的讀音并進(jìn)行存儲(chǔ)，并且，對(duì)于登記對(duì)象文本中以該字符串部分為分界的前后字符串，使得讀音賦予部102利用由語言辨識(shí)部101辨識(shí)出的語言來對(duì)該字符串部分賦予讀音。這樣，對(duì)于大寫字符串(拼寫)和數(shù)字等字符串部分，賦予識(shí)別對(duì)象語言和辨識(shí)結(jié)果的語言下的2種讀音，從而能不依賴于記述登記對(duì)象文本中的該字符串部分以外的部分的語言(辨識(shí)結(jié)果的語言)，對(duì)用識(shí)別對(duì)象語言說出的字符串部分正確地賦予讀音。語言辨識(shí)前處理部107將從步驟ST501到步驟ST503的前處理的內(nèi)容存儲(chǔ)于變換處理存儲(chǔ)部110。作為前處理的內(nèi)容，在變換處理存儲(chǔ)部110中存儲(chǔ)有從登記對(duì)象文本中排除的定型字符或定型字符串、其記述語言及該語言的音素的讀音、作為登記對(duì)象文本的分割位置的分割字符或分割字符串、各分割部分之間的連接關(guān)系等。之后，語言辨識(shí)前處理部107將計(jì)數(shù)器j進(jìn)行初始化(j = O)(步驟ST504)，該計(jì)數(shù)器j對(duì)分割登記對(duì)象文本的分割數(shù)K進(jìn)行計(jì)數(shù)。接下來，語言辨識(shí)前處理部107將第j個(gè)分割部分設(shè)定為作為語言辨識(shí)對(duì)象的字符串，并輸出到語言辨識(shí)部101 (步驟ST505)。語言辨識(shí)部101對(duì)于從語言辨識(shí)前處理部107輸入的第j個(gè)分割部分的字符串，利用與上述實(shí)施方式I相同的步驟開始語言辨識(shí)處理，判定該字符串是由哪種語言記載的，將最有可能認(rèn)為是該字符串的語言的前N種語言(似然度最高的前N種語言)設(shè)為語言辨識(shí)結(jié)果(步驟ST506)。接下來，語言辨識(shí)部101將作為辨識(shí)結(jié)果而得到的語言的數(shù)目、即表示對(duì)每一語言進(jìn)行的后述處理的次數(shù)的計(jì)數(shù)器i初始化為i = O (步驟ST507)，并將與第i個(gè)辨識(shí)結(jié)果相對(duì)應(yīng)的語言設(shè)定于讀音賦予部102。這樣，讀音賦予部102和讀音變換部103利用與第i (i = O N)個(gè)辨識(shí)結(jié)果相對(duì)應(yīng)的語言來執(zhí)行從步驟ST508到步驟ST510的處理。另外，步驟ST508是與圖2所示的步驟ST202相同的處理，步驟ST509是與圖2所示的步驟ST203相同的處理，步驟ST510是與圖2所示的步驟ST204相同的處理。在步驟ST511中，語言辨識(shí)部101將計(jì)數(shù)器i增加+ 1，利用下一個(gè)辨識(shí)結(jié)果的語言來重復(fù)上述一連串處理，在步驟ST512中，若判定為對(duì)所有辨識(shí)結(jié)果的語言完成(i彡N + I) 了上述一連串處理，則將計(jì)數(shù)器j增加+ I (步驟ST513)。在步驟ST514中，在語言辨識(shí)部101基于計(jì)數(shù)器j的計(jì)數(shù)值、判定為對(duì)所有分割部分的字符串完成(j ^ K)處理之前，對(duì)分割部分的字符串分別重復(fù)從步驟ST505到步驟ST514的一連串處理。識(shí)別詞典生成部104參照變換處理存儲(chǔ)部110所存儲(chǔ)的前處理內(nèi)容，確定對(duì)從登記對(duì)象文本的字符串中排除的字符串的讀音，將從該語言辨識(shí)的對(duì)象中排除的字符串的讀音、和從讀音變換部103輸入的對(duì)各分割部分的字符串賦予的讀音進(jìn)行合成，生成聲音識(shí)別部106能參照的格式的識(shí)別詞典(步驟ST515)。例如，除將識(shí)別詞匯變換成二進(jìn)制數(shù)據(jù)之夕卜，還根據(jù)需要進(jìn)行詞素解析、單詞分割以生成語言制約等，從而獲得識(shí)別詞典。
如上所述，根據(jù)該實(shí)施方式2，包括定型字符串存儲(chǔ)部108、分割字符串存儲(chǔ)部109、基于這些存儲(chǔ)部108、109所存儲(chǔ)的內(nèi)容來對(duì)登記對(duì)象文本進(jìn)行前處理的語言辨識(shí)前處理部107、及存儲(chǔ)語言辨識(shí)前處理部107所進(jìn)行的前處理的內(nèi)容的變換處理存儲(chǔ)部110，識(shí)別詞典生成部104基于變換處理存儲(chǔ)部110的存儲(chǔ)內(nèi)容，求出表示由語言辨識(shí)前處理部107實(shí)施了前處理后的登記對(duì)象文本的讀音的音素，生成登記有該音素的識(shí)別詞典。這樣，通過利用特定字符串對(duì)輸入文本進(jìn)行分割，對(duì)分割部分分別進(jìn)行語言辨識(shí)處理、讀音賦予處理，從而即使在登記對(duì)象文本中包含有多種語言的情況下，也能正確地對(duì)登記對(duì)象文本的各分割部分進(jìn)行語言辨識(shí)。此外，將包含在多種語言中使用的特定語言的單詞/慣用語(phrase)預(yù)先存儲(chǔ)為特定字符串，從語言辨識(shí)對(duì)象中排除，因此，即使在包含與語言無關(guān)地使用的語言的慣用語(例如，在音樂的唱片集標(biāo)題中“Disc l”、“BeSt0f”等)的情況下，通過利用該慣用語以外的字符串部分進(jìn)行語言辨識(shí)，從而能正確地對(duì)各字符串部分的讀音的語言進(jìn)行語言辨識(shí)。此外，通過對(duì)讀音依賴于識(shí)別對(duì)象語言的部位進(jìn)行分割，從而即使對(duì)該部位，也能正確地賦予讀音。工業(yè)上的實(shí)用性根據(jù)本發(fā)明所涉及的識(shí)別詞典生成裝置，由于能根據(jù)記述語言不明確的詞匯來生成聲音識(shí)別的音素體系中的識(shí)別詞典，因此，適用于對(duì)混合有多種語言的詞匯的數(shù)據(jù)進(jìn)行處理的便攜式音樂播放器、移動(dòng)電話、車載導(dǎo)航系統(tǒng)等聲音識(shí)別裝置。
權(quán)利要求
1.一種識(shí)別詞典制作裝置，其特征在于，包括語言辨識(shí)部，該語言辨識(shí)部對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí)；讀音賦予部，該讀音賦予部利用由所述語言辨識(shí)部辨識(shí)出的語言的音素對(duì)所述登記對(duì)象文本賦予讀音；讀音變換部，該讀音變換部將所述登記對(duì)象文本的讀音從由所述語言辨識(shí)部辨識(shí)出的語言的音素變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言的音素；及識(shí)別詞典生成部，該識(shí)別詞典生成部生成登記有由所述讀音變換部進(jìn)行變換后的所述登記對(duì)象文本的讀音的識(shí)別詞典。
2.如權(quán)利要求I所述的識(shí)別詞典制作裝置，其特征在于，所述語言辨識(shí)部將作為語言辨識(shí)對(duì)象的多種語言中、表示作為所述登記對(duì)象文本的讀音的語言的可能性的得分排在前位的規(guī)定數(shù)目的語言作為辨識(shí)結(jié)果來輸出，所述讀音賦予部利用由所述語言辨識(shí)部辨識(shí)出的所述規(guī)定數(shù)目的各語言的音素對(duì)所述登記對(duì)象文本分別賦予讀音，所述讀音變換部將所述登記對(duì)象文本的讀音從由所述語言辨識(shí)部辨識(shí)出的所述規(guī)定數(shù)目的語言的音素分別變換成所述識(shí)別對(duì)象語言的音素。
3.如權(quán)利要求2所述的識(shí)別詞典制作裝置，其特征在于，所述語言辨識(shí)部在所述得分小于規(guī)定閾值的情況下，將所述識(shí)別對(duì)象語言作為辨識(shí)結(jié)果來輸出。
4.如權(quán)利要求I所述的識(shí)別詞典制作裝置，其特征在于，包括排除對(duì)象存儲(chǔ)部，該排除對(duì)象存儲(chǔ)部存儲(chǔ)有語言辨識(shí)的排除對(duì)象的字符或字符串；語言辨識(shí)前處理部，該語言辨識(shí)前處理部從所述登記對(duì)象文本中，將與所述排除對(duì)象存儲(chǔ)部所存儲(chǔ)的所述排除對(duì)象的字符或字符串相當(dāng)?shù)牟糠峙懦患? 處理內(nèi)容存儲(chǔ)部，該處理內(nèi)容存儲(chǔ)部存儲(chǔ)有由所述語言辨識(shí)前處理部對(duì)所述登記對(duì)象文本實(shí)施的所述排除對(duì)象的字符或字符串的排除處理的內(nèi)容，所述語言辨識(shí)部對(duì)由所述語言辨識(shí)前處理部排除了所述排除對(duì)象的字符或字符串后的所述登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí)，所述識(shí)別詞典生成部參照所述處理內(nèi)容存儲(chǔ)部所存儲(chǔ)的排除處理的內(nèi)容，根據(jù)所述排除對(duì)象的字符或字符串的讀音、及排除了所述排除對(duì)象的字符或字符串后的所述登記對(duì)象文本的讀音，求出該登記對(duì)象文本的讀音，生成登記有該讀音的識(shí)別詞典。
5.如權(quán)利要求4所述的識(shí)別詞典制作裝置，其特征在于，包括存儲(chǔ)有分割對(duì)象的字符或字符串的分割對(duì)象存儲(chǔ)部，所述語言辨識(shí)前處理部利用所述分割對(duì)象存儲(chǔ)部所存儲(chǔ)的所述分割對(duì)象的字符或字符串對(duì)所述登記對(duì)象文本的字符串進(jìn)行分割，在所述處理內(nèi)容存儲(chǔ)部存儲(chǔ)有由所述語言辨識(shí)前處理部對(duì)所述登記對(duì)象文本實(shí)施的分割處理的內(nèi)容，所述語言辨識(shí)部對(duì)由所述語言辨識(shí)前處理部分割出的所述登記對(duì)象文本的每一分割部分辨識(shí)出讀首的語言，所述識(shí)別詞典生成部參照所述處理內(nèi)容存儲(chǔ)部所存儲(chǔ)的分割處理的內(nèi)容，根據(jù)每一所述分割部分的讀音，求出所述登記對(duì)象文本的讀音，生成登記有該讀音的識(shí)別詞典。
6.如權(quán)利要求5所述的識(shí)別詞典制作裝置，其特征在于，所述分割對(duì)象存儲(chǔ)部存儲(chǔ)有包含數(shù)字或大寫字符串的分割對(duì)象的字符或字符串及其識(shí)別對(duì)象語言的讀音，所述語言辨識(shí)前處理部從所述登記對(duì)象文本中，將所述包含數(shù)字或大寫字符串的分割對(duì)象的字符或字符串排除，對(duì)該登記對(duì)象文本的字符串進(jìn)行分割，所述語言辨識(shí)部對(duì)由所述語言辨識(shí)前處理部分割出的所述登記對(duì)象文本的每一分割部分辨識(shí)出讀首的語言，所述讀音賦予部對(duì)于所述包含數(shù)字或大寫字符串的分割對(duì)象的字符或字符串，賦予由所述語言辨識(shí)部辨識(shí)出的所述分割部分的語言的讀音，所述識(shí)別詞典生成部參照所述處理內(nèi)容存儲(chǔ)部所存儲(chǔ)的排除處理的內(nèi)容，根據(jù)每一所述分割部分的讀音、所述分割對(duì)象的字符或字符串的識(shí)別對(duì)象語言的讀音、及從所述分割部分的語言變換成所述識(shí)別對(duì)象語言后的讀音，求出所述登記對(duì)象文本的讀音，生成登記有該讀音的識(shí)別詞典。
7.如權(quán)利要求I所述的識(shí)別詞典制作裝置，其特征在于，所述語言辨識(shí)部利用包含作為語言辨識(shí)對(duì)象的每一語言的N-gram及其出現(xiàn)概率的語言辨識(shí)模型，對(duì)每一語言計(jì)算出所述登記對(duì)象文本的N-gram的序列概率，根據(jù)基于所述序列概率值的似然度，辨識(shí)出讀音的語言。
8.如權(quán)利要求7所述的識(shí)別詞典制作裝置，其特征在于，所述語言辨識(shí)部對(duì)于所述登記對(duì)象文本中、作為語言辨識(shí)對(duì)象的多種語言中共通記述的、對(duì)語言辨識(shí)無幫助的字符或字符串，將其置換成特殊字符而生成N-gram。
9.如權(quán)利要求7所述的識(shí)別詞典制作裝置，其特征在于，所述語言辨識(shí)部在所述登記對(duì)象文本中包含有限定使用語言的字符或字符串的情況下，將所述使用語言中、似然度最高的語言作為辨識(shí)結(jié)果來輸出。
10.如權(quán)利要求7所述的識(shí)別詞典制作裝置，其特征在于，所述語言辨識(shí)部對(duì)每一使用識(shí)別對(duì)象詞匯的處理包括語言辨識(shí)模型，將與使用所述登記對(duì)象文本的處理相對(duì)應(yīng)的語言辨識(shí)模型用于語言辨識(shí)。
11.一種聲音識(shí)別裝置，其特征在于，包括語言辨識(shí)部，該語言辨識(shí)部對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí)；讀音賦予部，該讀音賦予部利用由所述語言辨識(shí)部辨識(shí)出的語言的音素對(duì)所述登記對(duì)象文本賦予讀音；讀音變換部，該讀音變換部將所述登記對(duì)象文本的讀音從由所述語言辨識(shí)部辨識(shí)出的語言的音素變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言的音素；識(shí)別詞典生成部，該識(shí)別詞典生成部生成登記有由所述讀音變換部進(jìn)行變換后的所述登記對(duì)象文本的讀音的識(shí)別詞典；及聲音識(shí)別部，該聲音識(shí)別部參照由所述識(shí)別詞典生成部生成的所述識(shí)別詞典，對(duì)輸入聲音進(jìn)行聲音識(shí)別。
12.—種聲音識(shí)別裝置，其特征在于，包括排除對(duì)象存儲(chǔ)部，該排除對(duì)象存儲(chǔ)部存儲(chǔ)有語言辨識(shí)的排除對(duì)象的字符或字符串；分割對(duì)象存儲(chǔ)部，該分割對(duì)象存儲(chǔ)部存儲(chǔ)有分割對(duì)象的字符或字符串；語言辨識(shí)前處理部，該語言辨識(shí)前處理部基于所述排除對(duì)象存儲(chǔ)部和所述分割對(duì)象存儲(chǔ)部所存儲(chǔ)的內(nèi)容，從所輸入的登記對(duì)象文本中將所述排除對(duì)象的字符或字符串排除，并且，利用所述分割對(duì)象的字符或字符串進(jìn)行分割；處理內(nèi)容存儲(chǔ)部，該處理內(nèi)容存儲(chǔ)部存儲(chǔ)有由所述語言辨識(shí)前處理部對(duì)所述登記對(duì)象文本實(shí)施的處理的內(nèi)容；語言辨識(shí)部，該語言辨識(shí)部對(duì)由所述語言辨識(shí)前處理部實(shí)施所述處理后的所述登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí)；讀音賦予部，該讀音賦予部利用由所述語言辨識(shí)部辨識(shí)出的語言的音素對(duì)所述登記對(duì)象文本賦予讀音；讀音變換部，該讀音變換部將所述登記對(duì)象文本的讀音從由所述語言辨識(shí)部辨識(shí)出的語言的音素變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言的音素；識(shí)別詞典生成部，該識(shí)別詞典生成部參照所述處理內(nèi)容存儲(chǔ)部所存儲(chǔ)的所述處理的內(nèi) 容，求出由所述語言辨識(shí)前處理部實(shí)施所述處理后的所述登記對(duì)象文本的讀音，生成登記有該讀音的識(shí)別詞典 '及聲音識(shí)別部，該聲音識(shí)別部參照由所述識(shí)別詞典生成部生成的所述識(shí)別詞典，對(duì)輸入聲音進(jìn)行聲音識(shí)別。
全文摘要
對(duì)所輸入的登記對(duì)象文本的讀音的語言進(jìn)行辨識(shí)，利用辨識(shí)出的語言的音素來對(duì)登記對(duì)象文本賦予讀音，并且，生成登記有將登記對(duì)象文本的讀音從辨識(shí)出的語言的讀音變換成聲音識(shí)別中處理的識(shí)別對(duì)象語言后的讀音的識(shí)別詞典。
文檔編號(hào)G10L15/06GK102725790SQ20108006259
公開日2012年10月10日申請(qǐng)日期2010年2月5日優(yōu)先權(quán)日2010年2月5日
發(fā)明者山崎道弘, 石井純, 石川泰申請(qǐng)人:三菱電機(jī)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載