專利名稱:聲音識別裝置的制作方法
技術領域:
本發(fā)明涉及對輸入聲音進行聲音識別的聲音識別裝置。
背景技術:
現(xiàn)有的聲音識別裝置中,以大詞匯識別對利用對話成為識別對象的詞匯的范圍逐漸進行縮小這樣的聲音識別的情況下,一般預先生成與對話內容相對應的聲音識別詞典(以下稱為識別詞典)。因此,在需要分別生成與各種對話內容相對應的識別詞典的情況下,為了將預先生成的識別詞典進行存儲而需要大容量的存儲裝置。此外,除了上述的預先生成識別詞典的情況以外,還有根據(jù)與使用者的對話進展 狀況在線收集識別對象詞匯來生成識別詞典的情況。在此情況下,若要在所有的聲音識別的情境中都生成識別詞典,則隨著在線收集的詞匯數(shù)量增多,使生成識別詞典所需的時間(編譯時間等)増加。該詞典生成時間成為使用者在對話過程中的等待時間。專利文獻I中掲示了ー種聲音信息檢索裝置,其能根據(jù)與使用者的對話進展,動態(tài)地變更用于聲音識別的詞匯,根據(jù)來自使用者的要求,返回以前使用過的詞匯。該裝置中,基于以前的聲音識別及詞匯檢索的結果的歷史來選擇識別對象的詞匯,從而能高效地檢索識別對象的詞匯數(shù)量。此外,在專利文獻2中掲示了一種預測使用者的行動來動態(tài)地變更識別詞典的聲音識別裝置。該裝置保持有使用者的行動歷史,基于從行動歷史導出的行動時間帶等來預測使用者的行動,并更新或變更識別對象詞匯。由此,能根據(jù)使用者的行動歷史縮小識別對象的詞匯數(shù)量。然而,在專利文獻I中,由于基于以前的聲音識別及詞匯檢索的結果的歷史來選擇識別對象的詞匯,因此,存在以下的問題無法根據(jù)對話內容來縮小識別對象的詞匯數(shù)量,對話過程中的識別詞典的生成長增加。同樣,在專利文獻2中也存在無法根據(jù)使用者的行動歷史內容來縮小識別對象的詞匯數(shù)量、使識別詞典的生成所需的時間增加的可能性。本發(fā)明是為了解決上述問題而完成的,其目的在于得到一種能縮短與使用者的對話過程中生成識別詞典所需的時間、且能降低將預先生成的識別詞典進行存儲所需的存儲區(qū)域的使用容量的聲音識別裝置?,F(xiàn)有技術文獻專利文獻專利文獻I :日本專利特開平7 — 219590號公報專利文獻2 :日本專利特開2002 — 341892號公報
發(fā)明內容
本發(fā)明所涉及的聲音識別裝置利用對話邊切換識別對象的詞匯邊進行聲音識別,所述聲音識別裝置包括靜態(tài)生成部,該靜態(tài)生成部對于成為識別對象的詞匯數(shù)量為閾值以上的詞匯預先生成識別詞典;動態(tài)生成部,該動態(tài)生成部對于識別對象的詞匯數(shù)量小于閾值的詞匯,在對話情境中生成識別詞典;以及聲音識別部,該聲音識別部參照由靜態(tài)生成部或動態(tài)生成部所生成的識別詞典來對輸入聲音進行聲音識別。根據(jù)本發(fā)明,對于成為識別對象的詞匯數(shù)量為閾值以上的詞匯,預先生成識別詞典,對于識別對象的詞匯數(shù)量小于閾值的詞匯,在對話的情境中生成識別詞典,因此,具有能縮短與使用者對話過程中生成識別詞典所需的時間、且能降低將預先生成的識別詞典進行存儲所需的存儲區(qū)域的使用容量這樣的效果。
圖I是表示本發(fā)明的實施方式I的聲音識別裝置的結構的框圖。圖2是表示本發(fā)明的實施方式2的聲音識別裝置的結構的框圖。 圖3是表示本發(fā)明的實施方式3的聲音識別裝置的結構的框圖。圖4是表示實施方式3的識別詞典動態(tài)生成判定部所進行的判定處理流程的流程圖。圖5是表示實施方式3的識別詞典靜態(tài)生成判定部所進行的判定處理流程的流程圖。圖6是表示本發(fā)明的實施方式4的聲音識別裝置的結構的框圖。圖7是表示本發(fā)明的實施方式5的聲音識別裝置的結構的框圖。
具體實施例方式以下,為了更詳細地說明本發(fā)明,根據(jù)附圖對用于實施本發(fā)明的方式進行說明。實施方式I圖I是表示本發(fā)明的實施方式I的聲音識別裝置的結構的框圖。實施方式I中的聲音識別裝置I在聲音識別中使用以下識別詞典在利用與使用者的對話進行聲音識別之前預先生成的識別詞典;以及在與使用者的對話過程中生成的識別詞典。本發(fā)明中,將在利用與使用者的對話進行聲音識別之前、所謂的靜態(tài)生成的識別詞典稱為“靜態(tài)生成詞典”,此外,將在與使用者的對話過程中、所謂的動態(tài)生成的識別詞典稱為“動態(tài)生成詞典”。識別詞典靜態(tài)生成判定部2是根據(jù)能成為聲音識別對象的詞匯數(shù)量來判定是否需要靜態(tài)生成使用該詞匯的識別詞典的結構部。識別詞典靜態(tài)生成部(靜態(tài)生成部)3是使用被識別詞典靜態(tài)生成判定部2判定為需要生成識別詞典的詞匯來靜態(tài)生成識別詞典的結構部。靜態(tài)生成詞典在不影響與使用者對話的情況下生成,而且,通過大量使用成為識別對象的詞匯來進行生成,能在對話的任意時刻使用。識別對象詞匯存儲部4是將在進行聲音識別的各情境中能成為識別對象的詞匯進行存儲的存儲部。例如,在將本發(fā)明應用于車載導航系統(tǒng)、使該車載導航系統(tǒng)具有對住所等進行聲音識別的功能的情況下,在識別對象詞匯存儲部4中存儲有縣名、各縣中包含的市城鎮(zhèn)村的名稱、各市城鎮(zhèn)村中包含的區(qū)或地塊等作為能成為識別對象的詞匯。靜態(tài)生成詞典存儲部5是將由識別詞典靜態(tài)生成部3所生成的識別詞典(靜態(tài)生成詞典)進行存儲的存儲部。對話管理部6是使用未圖示的輸入裝置及顯示裝置來提供HMI(Human Machine Interface :人機界面)、從而與使用者進行對話處理的結構部。例如,對話管理部6基于從使用者輸入的信息,從識別對象詞匯存儲部4選出成為聲音識別對象的詞匯(以下稱為識別對象詞匯)。識別詞典動態(tài)生成判定部7是根據(jù)與聲音識別部10所執(zhí)行的聲音識別相對應的識別對象詞匯的靜態(tài)生成詞典是否已經存儲于靜態(tài)生成詞典存儲部5內來判定是否需要動態(tài)生成該識別對象詞匯的識別詞典的結構部。識別詞典動態(tài)生成部(動態(tài)生成部)8是使用被識別詞典動態(tài)生成判定部7判定為需要生成識別詞典的詞匯來動態(tài)生成識別詞典的結構部。例如,識別詞典動態(tài)生成部8使用被對話管理部6選擇的識別對象詞匯或經由未圖示的通信單元從外部在線取得的識別對象詞匯來生成動態(tài)生成詞典。另外,由于動態(tài)生成詞典是使用根據(jù)與使用者的對話進展而變更的識別對象詞匯來動態(tài)生成的,因此,與靜態(tài)生成詞典相比,能減少詞典生成所使用的識別對象詞匯數(shù)量,縮短詞典生成所需的時間。識別詞典存儲部9是將聲音識別部10進行的聲音識別處理中所使用的識別詞典 進行存儲的存儲部,用于存儲從靜態(tài)生成詞典存儲部5讀取的靜態(tài)生成詞典或利用識別詞典動態(tài)生成判定部7所生成的動態(tài)生成詞典。聲音識別部10是使用從識別詞典存儲部9讀出的識別詞典來執(zhí)行聲音識別的結構部。此外,通過在計算機上執(zhí)行按照本發(fā)明的要點的聲音識別用程序,作為硬件和軟件協(xié)同動作的具體単元,能在該計算機上實現(xiàn)識別詞典靜態(tài)生成判定部2、識別詞典靜態(tài)生成部3、對話管理部6、識別詞典動態(tài)生成判定部7、識別詞典動態(tài)生成部8、及聲音識別部10。而且,能由裝載在上述計算機上的存儲裝置、例如硬盤裝置或外部存儲介質等來構建識別對象詞匯存儲部4、靜態(tài)生成詞典存儲部5、及識別詞典存儲部9。接下來,對動作進行說明。(I)靜態(tài)生成詞典的生成首先,識別詞典靜態(tài)生成判定部2對于存儲在識別對象詞匯存儲部4中的各詞匯,判定是否需要生成靜態(tài)生成詞典。此處,例如,若詞匯數(shù)量為動態(tài)生成識別詞典的情況下所需的時間處于規(guī)定時間以內的詞匯數(shù)量,則判定為不需要生成靜態(tài)生成詞典,若詞匯數(shù)量為超過上述規(guī)定時間的詞匯數(shù)量的情況下,判定為需要生成靜態(tài)生成詞典。此外,在聲音識別裝置I中,也可以預先對使用進行聲音識別的各情境中的識別對象詞匯的詞典生成時間(動態(tài)生成詞典的生成時間)進行測量和存儲,識別詞典靜態(tài)生成判定部2對于存儲于聲音識別裝置Iー側的上述測量值超過規(guī)定時間的詞匯,判定為需要生成靜態(tài)生成詞典。在識別詞典靜態(tài)生成判定部2判定為需要生成靜態(tài)生成詞典時,識別詞典靜態(tài)生成部3使用從識別對象詞匯存儲部4讀出的詞匯來生成靜態(tài)生成詞典。識別詞典的生成方法如下在以文本字符串提供詞匯的情況下,以G2P (Grapheme to Phoneme :字素音素轉換)生成關于文本字符串的讀音(音素等),以變換成聲音識別部10能參照的格式的數(shù)據(jù)。例如,變換為ニ進制以成為聲音識別部10能受理的格式,除此之外,根據(jù)需要,進行形態(tài)分析(morphological analysis)、單詞分割來制成語言限制。由識別詞典靜態(tài)生成部3生成的靜態(tài)生成詞典存儲在靜態(tài)生成詞典存儲部5中。靜態(tài)生成詞典存儲部5例如構建在硬盤裝置或非易失性存儲器等的存儲裝置上。在靜態(tài)生成詞典中,在對住所進行聲音識別的情況下,能將縣名、各縣中包含的市城鎮(zhèn)村的名稱、各市城鎮(zhèn)村中包含的區(qū)或地塊等的詞匯的層次結構中的所有的層次的詞匯用作識別對象詞匯來進行生成。另外,例如,在識別對象詞匯不發(fā)生動態(tài)變化的住所的聲音識別等中,靜態(tài)生成詞典也可以在聲音識別裝置I的外部進行生成,然后存儲在靜態(tài)生成詞典存儲部5內。此外,也可以在聲音識別裝置I起動時,或在更新能成為識別對象的詞匯的數(shù)據(jù)庫即識別對象詞匯存儲部4的存儲內容的定時,生成靜態(tài)生成詞典。( 2)對話情境中的動作
在聲音識別裝置I中,以與使用者的對話來進行聲音識別時,對話管理部6基于使用者指定的聲音識別的情境及與該使用者的對話歷史等,從存儲于識別對象詞匯存儲部4中的詞匯中依次選擇識別對象詞匯。例如,在對住所進行聲音識別的情況下,在識別開始時,對話管理部6將存儲于識別對象詞匯存儲部4內的詞匯中的縣名選作識別對象詞匯,在使用者輸入縣名之后,從識別對象詞匯存儲部4中選出從屬于該縣名的詞匯即市區(qū)城鎮(zhèn)村的名稱作為識別對象詞匯。由此,對話管理部6通過與使用者的對話,來求出識別對象詞匯及其詞匯數(shù)量。接下來,識別詞典動態(tài)生成判定部7對使用由對話管理部6求出的識別對象詞匯的靜態(tài)生成詞典是否已經生成,即是否已經存儲于靜態(tài)生成詞典存儲部5內進行判定。此處,在關于識別對象詞匯的靜態(tài)生成詞典已經生成的情況下,識別詞典動態(tài)生成判定部7從靜態(tài)生成詞典存儲部5讀出該靜態(tài)生成詞典,并作為聲音識別部10進行的聲音識別處理中使用的識別詞典存儲到識別詞典存儲部9內。另ー方面,若沒有生成關于識別對象詞匯的靜態(tài)生成詞典,則識別詞典動態(tài)生成判定部7對識別詞典動態(tài)生成部8發(fā)出生成關于該識別對象詞匯的動態(tài)生成詞典的指示。根據(jù)該指示,識別詞典動態(tài)生成部8生成關于該識別對象詞匯的動態(tài)生成詞典,并作為聲音識別部10進行的聲音識別處理中使用的識別詞典存儲到識別詞典存儲部9內。另外,識別詞典的生成方法與利用上述的識別詞典靜態(tài)生成部3進行的靜態(tài)生成詞典的生成方法相同。例如,在對住所進行聲音識別的情況下,若根據(jù)與使用者的對話進展將縣名選作識別對象詞匯,則生成將縣名作為識別對象詞匯的動態(tài)生成詞典,接著,生成將市區(qū)城鎮(zhèn)村的名稱作為識別對象詞匯的動態(tài)生成詞典。S卩,根據(jù)與使用者的對話進展,將縣名、各縣中包含的市城鎮(zhèn)村的名稱、各市城鎮(zhèn)村中包含的區(qū)或地塊等的詞匯的層次結構中的各層次的詞匯選作動態(tài)生成詞典的識別對象詞匯。聲音識別部10使用存儲于識別詞典存儲部9內的識別詞典來對輸入聲音進行聲音識別。作為聲音識別的方法,例如實施HMM (Hidden Markov Model :隱馬爾科夫模型)或DP匹配等,對輸入聲音求出登記在識別詞典中的識別對象詞匯的概率,將似然度(概率)最高的詞匯作為聲音識別結果進行輸出。另外,也可以不選擇似然度最高的詞匯,而是將識別對象詞匯中似然度較高的前N個詞匯作為聲音識別結果。
如上所述,根據(jù)本實施方式1,對于成為識別對象的詞匯數(shù)量為閾值以上的詞匯,預先生成識別詞典(靜態(tài)生成詞典),對于識別對象的詞匯數(shù)量小于閾值的詞匯,在對話情境中生成識別詞典(動態(tài)生成詞典),因此,能縮短與使用者對話過程中生成識別詞典所需的時間,且能降低將預先生成的識別詞典進行存儲所需的存儲區(qū)域的使用容量。實施方式2圖2是表示本發(fā)明的實施方式2的聲音識別裝置的結構的框圖。如圖2所示,實施方式2中的聲音識別裝置IA在上述實施方式I所示的聲音識別裝置I的結構的基礎上,還包括動態(tài)生成詞典管理部(存儲管理部 )11及動態(tài)生成詞典臨時存儲部(臨時存儲部)12。另外,在圖2中,對與圖I相同或與其相當?shù)慕Y構標注相同標號,并省略說明。動態(tài)生成詞典管理部11是對將由識別詞典動態(tài)生成部8所生成的動態(tài)生成詞典存儲到動態(tài)生成詞典臨時存儲部12內的存儲處理進行管理的結構部。動態(tài)生成詞典臨時存儲部12是將由動態(tài)生成詞典管理部11判斷為存儲對象的動態(tài)生成詞典進行臨時存儲的存儲部。此外,通過使計算機執(zhí)行按照本發(fā)明的要點的聲音識別用程序,作為硬件和軟件協(xié)同動作的具體単元,能在該計算機上予以實現(xiàn)識別詞典靜態(tài)生成判定部2、識別詞典靜態(tài)生成部3、對話管理部6、識別詞典動態(tài)生成判定部7、識別詞典動態(tài)生成部8、聲音識別部10、及動態(tài)生成詞典管理部11。而且,能以裝載在上述計算機上的存儲裝置、例如硬盤裝置或外部存儲介質等中構建識別對象詞匯存儲部4、靜態(tài)生成詞典存儲部5、識別詞典存儲部9、及動態(tài)生成詞典臨時存儲部12。接下來,對動作進行說明。若由識別詞典動態(tài)生成部8新生成動態(tài)生成詞典,則動態(tài)生成詞典管理部11對動態(tài)生成詞典臨時存儲部12的存儲容量是否超過規(guī)定容量進行判定。此處,若動態(tài)生成詞典臨時存儲部12的存儲容量小于規(guī)定容量,則動態(tài)生成詞典管理部11將新生成的動態(tài)生成詞典存儲到動態(tài)生成詞典臨時存儲部12內。另ー方面,在動態(tài)生成詞典臨時存儲部12的存儲容量超過規(guī)定容量的情況下,動態(tài)生成詞典管理部11基于目前存儲在動態(tài)生成詞典臨時存儲部12內的動態(tài)生成詞典的使用歷史或使用頻度來決定從動態(tài)生成詞典臨時存儲部12刪除的動態(tài)生成詞典,并實施刪除。例如,將最終的使用日期時間最老的動態(tài)生成詞典作為刪除對象。此外,也可以將聲音識別裝置IA運行中使用過的、平均使用間隔最長的動態(tài)生成詞典作為刪除對象。若刪除存儲于動態(tài)生成詞典臨時存儲部12內的動態(tài)生成詞典,則動態(tài)生成詞典管理部11將新生成的動態(tài)生成詞典存儲到動態(tài)生成詞典臨時存儲部12內。除此之外,動態(tài)生成詞典管理部11除了對存儲在動態(tài)生成詞典臨時存儲部12內的動態(tài)生成詞典進行管理以外,還可以對存儲在靜態(tài)生成詞典存儲部5及識別詞典存儲部9內的識別詞典的使用歷史或使用頻度進行管理,并據(jù)此與上述相同地將詞典存儲到靜態(tài)生成詞典存儲部5及識別詞典存儲部9內。在靜態(tài)生成詞典存儲部5及動態(tài)生成詞典臨時存儲部12內均未存儲有識別對象詞匯的識別詞典的情況下,識別詞典動態(tài)生成判定部7對于識別詞典動態(tài)生成部8判定為需要生成該識別對象詞匯的動態(tài)生成詞典。此外,若識別對象詞匯的識別詞典已經存儲在靜態(tài)生成詞典存儲部5及動態(tài)生成詞典臨時存儲部12中的的任ー個中,則識別詞典動態(tài)生成判定部7讀出該識別詞典并將其存儲到識別詞典存儲部9內。聲音識別部10使用存儲于識別詞典存儲部9內的識別詞典來對輸入聲音進行聲音識別。由此,作為識別對象詞匯的識別詞典,能利用臨時存儲在動態(tài)生成詞典臨時存儲部12內的動態(tài)生成詞典。由此,不必根據(jù)與使用者的對話進展每次都新生成動態(tài)生成詞典,能減輕生成動態(tài)生成詞典所需的處理負荷。如上所述,根據(jù)本實施方式2,由于包括動態(tài)生成詞典臨時存儲部12,該動態(tài)生成詞典臨時存儲部12將由識別詞典動態(tài)生成部8所生成的識別詞典(動態(tài)生成詞典)進行臨時存儲;以及動態(tài)生成詞典管理部11,該動態(tài)生成詞典管理部11根據(jù)動態(tài)生成詞典的使用狀況對是否將該識別詞典存儲到動態(tài)生成詞典臨時存儲部12內進行管理,因此,將存儲 識別詞典的存儲裝置的使用量抑制成最小,且能減少用于生成詞典的運算量。實施方式3圖3是表示本發(fā)明的實施方式3的聲音識別裝置的結構的框圖。實施方式3中的聲音識別裝置IB是利用與使用者的對話邊切換識別對象詞匯邊進行聲音識別的裝置,設想為如音樂檢索(例如,整個設備中的曲子、選擇藝術家后的曲子、選擇唱片后的曲子等)那樣,沿詞匯的層次結構,在每個對話情境(進行聲音識別的情境)中識別對象詞匯發(fā)生變化的聲音識別裝置。如圖3所示,聲音識別裝置IB包括識別詞典靜態(tài)生成判定部2a、識別詞典靜態(tài)生成部3a、識別對象詞匯存儲部4a、靜態(tài)生成詞典存儲部5a、對話管理部6a、識別詞典動態(tài)生成判定部7、識別詞典動態(tài)生成部8、識別詞典存儲部9、聲音識別部10、識別對象詞匯更新部13、及聲首識別結果選擇部14。識別詞典靜態(tài)生成判定部2a是根據(jù)存儲在識別對象詞匯存儲部4a內的詞匯有無更新來判定是否需要靜態(tài)生成使用識別對象詞匯存儲部4a中的詞匯的識別詞典的結構部。識別詞典靜態(tài)生成部(靜態(tài)生成部)3a是使用識別詞典靜態(tài)生成判定部2a中判定為需要靜態(tài)生成的識別對象詞匯存儲部4a中的詞匯來靜態(tài)生成識別詞典的結構部。識別對象詞匯存儲部4a是將在進行聲音識別的情境中能成為識別對象的詞匯進行存儲的存儲部,利用識別對象詞匯更新部13來更新存儲內容。靜態(tài)生成詞典存儲部5a是將由識別詞典靜態(tài)生成部3a所生成的靜態(tài)生成詞典進行存儲的存儲部。對話管理部6a是使用未圖示的輸入裝置及顯示裝置來提供HMI、從而與使用者進行對話處理的結構部,從識別對象詞匯存儲部4a選擇識別對象詞匯。識別詞典動態(tài)生成判定部7是根據(jù)與聲音識別部10所執(zhí)行的聲音識別相對應的識別對象詞匯的靜態(tài)生成詞典是否已經存儲于靜態(tài)生成詞典存儲部5a內來判定是否需要動態(tài)生成該識別對象詞匯的識別詞典的結構部。識別詞典動態(tài)生成部8是使用由識別詞典動態(tài)生成判定部7判定為需要生成識別詞典的詞匯來動態(tài)生成識別詞典的結構部。識別詞典存儲部9是對聲音識別部10進行的聲音識別處理中所使用的識別詞典進行存儲的存儲部,用于存儲從靜態(tài)生成詞典存儲部5a讀出的靜態(tài)生成詞典或利用識別詞典動態(tài)生成判定部7所生成的動態(tài)生成詞典。此外,聲音識別部10是使用從識別詞典存儲部9讀出的識別詞典執(zhí)行聲音識別的結構部。識別對象詞匯更新部13是對存儲在識別對象詞匯存儲部4a內的識別對象詞匯進行更新的結構部。例如,如果是上述的音樂檢索系統(tǒng),在連接有便攜式音樂播放器的情況下,識別對象詞匯更新部13從該便攜式音樂播放器的存儲器讀出全部曲名詞典、全部藝術家名字詞典、全部唱片名字詞典等的全部詞匯,對存儲在識別對象詞匯存儲部4a內的詞匯進行更新。聲音識別結果選擇部14是從聲音識別部10的識別結果候選中僅選出與由對話管理部6a所選擇的識別對象詞匯相對應的識別結果候選、并作為聲音識別的結果進行輸出的結構部。另外,通過使計算機執(zhí)行按照本發(fā)明的要點的聲音識別用程序,作為硬件和軟件協(xié)同動作的具體単元,能在該計算機上實現(xiàn)識別詞典靜態(tài)生成判定部2a、識別詞典靜態(tài)生成部3a、對話管理部6a、識別詞典動態(tài)生成判定部7、識別詞典動態(tài)生成部8、聲音識別部10、識別對象詞匯更新部13、及聲音識別結果選擇部14。
而且,能以裝載在上述計算機上的存儲裝置、例如硬盤裝置或外部存儲介質等來構建識別對象詞匯存儲部4a、靜態(tài)生成詞典存儲部5a、及識別詞典存儲部9。接下來,對動作進行說明。(Ia)靜態(tài)生成詞典的生成實施方式3的聲音識別裝置IB適用于根據(jù)與使用者的對話進展邊切換識別對象詞匯邊進行聲音識別的系統(tǒng)中以下那樣的系統(tǒng)如音樂檢索(例如,整個設備中的曲子、選擇藝術家后的曲子、選擇唱片后的曲子等)那樣,沿詞匯的層次結構,在每個對話情境縮小識別對象詞匯。在該系統(tǒng)中,在識別對象詞匯發(fā)生變化的情況下,識別對象詞匯更新部13對存儲在識別對象詞匯存儲部4a內的詞匯進行更新。此處,所謂的識別對象詞匯發(fā)生變化的定時例如可以列舉外部的便攜式音樂播放器與聲音識別裝置IB相連接或斷開的時候,插入或排出CD的定時。識別詞典靜態(tài)生成判定部2a在存儲在識別對象詞匯存儲部4a內的識別對象詞匯得到更新的定時,選擇要生成的靜態(tài)生成詞典。例如,如果是上述的音樂檢索系統(tǒng),在連接有便攜式音樂播放器的情況下,對存儲在識別對象詞匯存儲部4a內的詞匯用曲名、藝術家名字、唱片名字等的詞匯進行更新,將存儲在該識別對象詞匯存儲部4a內的全部詞匯的詞典,即全部曲名詞典、全部藝術家名字詞典、全部唱片名字詞典等的詞典選作靜態(tài)生成詞典。識別詞典靜態(tài)生成部3a與上述實施方式I相同,生成由識別詞典靜態(tài)生成判定部2a所選擇的靜態(tài)生成詞典,并將其存儲到靜態(tài)生成詞典存儲部5a內。(2a)對話情境中的動作在聲音識別吋,對話管理部6a通過與使用者的對話求出識別對象詞匯及其詞匯數(shù)量Nn。這些信息(識別對象詞匯及其詞匯數(shù)量Nn)從對話管理部6a輸出到識別詞典動態(tài)生成判定部7。識別詞典動態(tài)生成判定部7使用存儲在靜態(tài)生成詞典存儲部5a內的靜態(tài)生成詞典的識別對象詞匯的包含關系及識別對象詞匯數(shù)量的比率,對是否需要讓識別詞典動態(tài)生成部8新生成識別詞典、是否將存儲在靜態(tài)生成詞典存儲部5a內的靜態(tài)生成詞典用作識別詞典進行判定。該判定例如按照以下那樣進行。圖4是表示實施方式3的識別詞典動態(tài)生成判定部7所進行的判定處理流程的流程圖。首先,識別詞典動態(tài)生成判定部7對靜態(tài)生成詞典存儲部5a內是否存在包含對話管理部6a利用與使用者的對話新選擇的全部識別對象詞匯的靜態(tài)生成詞典進行判定(步驟ST1)。例如,在對話中,選擇類型,在將所選擇的類型中包含的藝術家名字作為目前的識別情境的詞匯進行設定時,由于全部藝術家名字詞典中包含目前所選擇的藝術家名字詞典,因此判斷為存在靜態(tài)詞典。此處,若靜態(tài)生成詞典存儲部5a內不存在上述靜態(tài)生成詞典(步驟STl :否),則識別詞典動態(tài)生成判定部7判定為需要利用識別詞典動態(tài)生成部8新生成包含對話管理部6a所選擇的識別對象詞匯的動態(tài)生成詞典(步驟ST8 :情形3 (Case3))。此后,識別詞典動態(tài)生成判定部7對于識別詞典動態(tài)生成部8發(fā)出生成關于該識別對象詞匯的動態(tài)生成詞典的 指示。根據(jù)該指示,識別詞典動態(tài)生成部8生成關于該識別對象詞匯的動態(tài)生成詞典,并將其作為聲音識別部10進行的聲音識別處理中使用的識別詞典存儲到識別詞典存儲部9內。另ー方面,在靜態(tài)生成詞典存儲部5a內存在上述靜態(tài)生成詞典的情況下(步驟STl :是),識別詞典動態(tài)生成判定部7從存儲在靜態(tài)生成詞典存儲部5a內的、包含對話管理部6a新選擇的全部識別對象詞匯的靜態(tài)生成詞典中選擇詞匯數(shù)量最少的詞典Ds (步驟ST2)。接著,識別詞典動態(tài)生成判定部7獲取詞典Ds中包含的詞匯數(shù)量Ns (步驟ST3)。此后,識別詞典動態(tài)生成判定部7將對話管理部6a利用與使用者的對話新選擇的識別對象詞匯的詞匯數(shù)量Nn和詞典Ds中包含的詞匯數(shù)量Ns進行比較,判定雙方的詞匯數(shù)量是否相等(步驟ST4)。此處,在詞匯數(shù)量Nn和Ns相等的情況下(步驟ST4 :是),識別詞典動態(tài)生成判定部7判定為應該直接使用從靜態(tài)生成詞典存儲部5a中選出的詞典Ds,并將詞典Ds作為識別詞典存儲到識別詞典存儲部9內(步驟ST6 :情形I (Casel))。此外,在詞匯數(shù)量Nn和Ns不同的情況下(步驟ST4 :否),識別詞典動態(tài)生成判定部7對將預先確定的比率ThR (例如0. I)乘以詞典Ds中包含的詞匯數(shù)量Ns所得到的值是否小于由對話管理部6a新選擇的識別對象詞匯的詞匯數(shù)量Nn (NsXThR < Nn)進行判定(步驟 ST5)。在(Ns X ThR)的值小于詞匯數(shù)量Nn的情況下(步驟ST5 :是),識別詞典動態(tài)生成判定部7轉移至步驟ST7的處理(情形2 (Case2))。在步驟ST7中,識別詞典動態(tài)生成判定部7將詞典Ds作為識別詞典存儲到識別詞典存儲部9內。聲音識別部10使用該詞典Ds,對使用者的說話(輸入聲音)進行聲音識別,將識別結果中概率較高的前N個(似然度較高的前N個)識別結果候選輸出到聲音識別結果選擇部14。聲音識別結果選擇部14僅選擇(篩選)利用聲音識別部10所得到的識別結果候選中的、對話管理部6a新選擇的識別對象詞匯中包含的識別結果候選,并將其作為聲音識別的結果進行輸出。
在(Ns X ThR)的值為詞匯數(shù)量Nn以上的情況下(步驟ST5 :否),識別詞典動態(tài)生成判定部7判定為需要利用識別詞典動態(tài)生成部8新生成包含對話管理部6a所選擇的識別對象詞匯的動態(tài)生成詞典,并轉移至步驟ST8的處理(Case3)。在識別詞典動態(tài)生成判定部7的判定結果為Casel或Case3的情況下,聲音識別結果選擇部14將從聲音識別部10輸出的識別結果候選作為識別結果進行輸出。另ー方面,在識別詞典動態(tài)生成判定部7的判定結果為Case2的情況下,從由聲音識別部10輸出的識別結果候選中僅選出由對話管理部6a新選擇的識別對象詞匯中包含的識別結果候選,并將其進行輸出。由此,通過預先生成全部詞匯的詞典并將其存儲在存儲裝置中,能降低更新識別詞典時的識別詞典制作時間。此外,在存在包含識別對象詞匯、且包含的識別對象詞匯數(shù)量的比率為ー定比例以上的識別詞典的情況下,使用該詞典進行聲音識別,從其識別結果候選僅選出識別對象 詞匯中包含的識別結果候選,并將其作為識別結果進行輸出。由此,能將對于識別率的影響抑制成最小,且減少對話中生成詞典的機會。上述說明中表示了識別詞典靜態(tài)生成判定部2a將全部詞匯的識別詞典判定為預先生成的對象的情況,但也可以進行以下的判定。圖5是表示實施方式3的識別詞典動態(tài)生成判定部2a中所進行的判定處理流程的流程圖。首先,識別詞典靜態(tài)生成判定部2a在進行聲音識別的各對話情境(以下稱為識別情境)中參照識別對象詞匯存儲部4a的存儲內容,分別求出各識別情境的識別對象詞匯及其詞匯數(shù)量。此處,識別詞典靜態(tài)生成判定部2a選擇未對是否生成識別對象詞匯的識別詞典(靜態(tài)生成詞典)作出判定的識別情境中的、識別對象詞匯的詞匯數(shù)量最多的識別情境(步驟 STla)。接下來,識別詞典靜態(tài)生成判定部2a對在步驟STla中所選擇的識別情境的識別對象詞匯的詞匯數(shù)量是否為一定數(shù)量以下進行判定(步驟ST2a)。此處,若識別對象詞匯數(shù)量超過一定數(shù)量(步驟ST2a :否),則轉移至步驟ST3a的處理。此外,若在一定數(shù)量以下(步驟ST2a :是),則轉移至步驟ST7a的處理。在步驟ST3a中,識別詞典靜態(tài)生成判定部2a對包含在步驟STla中所選擇的識別情境的全部識別對象詞匯的識別詞典是否作為預先生成的對象本身完成登記進行判定。此處,若作為預先生成的對象完成登記(步驟ST3a :是),則轉移至步驟ST4a的處理。此外,若未完成登記(步驟ST3a :否),則轉移至步驟ST6a的處理。識別詞典靜態(tài)生成判定部2a選擇包含在步驟STla中所選擇的識別情境的全部識別對象詞匯的、作為預先生成的對象完成登記的識別詞典中的詞匯數(shù)量最小的識別詞典(步驟 ST4a)。接著,識別詞典靜態(tài)生成判定部2a對在步驟STla中所選擇的識別情境的識別對象詞匯的詞匯數(shù)量除以在步驟ST4a中所選擇的識別詞典的詞匯數(shù)量所得到的值是否超過規(guī)定的閾值(是否是一定的比例)進行判定(步驟ST5a)。若在步驟STla中所選擇的識別情境的識別對象詞匯的詞匯數(shù)量除以在步驟ST4a中所選擇的識別詞典的詞匯數(shù)量所得到的值為上述閾值以下(步驟ST5a :否),則識別詞典靜態(tài)生成判定部2a轉移至步驟ST6a的處理。此外,若超過上述閾值(步驟ST5a :是),則轉移至步驟ST7a的處理。在步驟ST6a中,識別詞典靜態(tài)生成判定部2a將包含在步驟STla中所選擇的識別情境的全部識別對象詞匯的識別詞典作為預先生成對象進行登記。此外,在步驟STla中所選擇的識別情境的識別對象詞匯的詞匯數(shù)量與在步驟ST4a中所選擇的識別詞典的詞匯數(shù)量的比例超過上述閾值的情況下,即,對于作為靜態(tài)生成詞典預先進行生成來說詞匯數(shù)量較少的情況下,不將該識別詞典作為預先進行生成的對象(步驟ST7a)。若完成了步驟ST6a或步驟ST7a的處理,則識別詞典靜態(tài)生成判定部2a判定是否對未判定是否需要生成靜態(tài)生成詞典的所有的識別情境實施了上述處理(步驟ST8a)。此處,若對所有的識別情境的處理未完成,則返回步驟STla的處理,若對所有的識別情境的處理已完成,則結束處理。
如上所述,根據(jù)本實施方式3,識別詞典靜態(tài)生成部3a預先生成關于成為識別對象的所有的詞匯的識別詞典,識別詞典動態(tài)生成部8生成關于在對話情境中被選作識別對象的詞匯的識別詞典。由此,通過僅預先生成關于所有的詞匯的識別詞典,能削減更新詞典時所需的識別詞典的制作時間。此外,根據(jù)本實施方式3,若識別詞典靜態(tài)生成部3a生成了包含對話情境中被選作識別對象的詞匯、且包含的識別對象的詞匯數(shù)量的比率為規(guī)定的比例以上的識別詞典,則識別詞典動態(tài)生成部8不在對話情境中生成關于該詞匯的識別詞典,聲音識別部10參照由識別詞典靜態(tài)生成部3a所生成的該識別詞典來對輸入聲音進行聲音識別,將識別的似然度較高的前幾個識別結果候選中的、本次的識別對象的詞匯中包含的識別結果候選作為識別結果進行輸出。由此,將對聲音識別的識別率的影響抑制成最小,且能削減對話過程中生成詞典的機會。而且,根據(jù)本實施方式3,利用識別詞典靜態(tài)詞典生成判定部2a進行圖5所示的判定,識別詞典靜態(tài)生成部3a以在對話情境中成為識別對象的詞匯數(shù)量超過規(guī)定數(shù)量、且該對話情境中的識別對象的詞匯數(shù)量成為識別詞典的詞匯數(shù)量的規(guī)定比例以下的方式,預先生成關于該識別對象的詞匯的識別詞典,因此,能將更新詞典時所需的識別詞典的生成時間的增加抑制成最小,且降低對話過程中因詞典生成所帯來的使用者的等待時間。實施方式4圖6是表示本發(fā)明的實施方式4的聲音識別裝置的結構的框圖。如圖6所示,實施方式4中的聲音識別裝置IC在上述實施方式3所示的聲音識別裝置IB的結構的基礎上設置了中間結果存儲部15,而且,識別詞典動態(tài)生成判定部7a的動作與上述實施方式3不同。另外,在圖6中,對與圖3相同或與其相當?shù)慕Y構標注相同標號,并省略說明。在從識別對象詞匯生成靜態(tài)生成詞典時,識別詞典靜態(tài)生成部3a將對識別對象詞匯的語言的確定、進行從書寫向讀音的變換處理等的詞典生成的中途結果作為中間結果存儲到中間結果存儲部15內。識別詞典動態(tài)生成判定部7a對識別詞典動態(tài)生成部8發(fā)出指示以從與存儲在靜態(tài)生成詞典存儲部5a中的靜態(tài)生成詞典共用的識別對象詞匯生成動態(tài)生成詞典時,有關該詞匯,讀出存儲在中間結果存儲部15內的中間結果,并將其輸出到識別詞典動態(tài)生成部8。由此,識別詞典動態(tài)生成部8利用該中間結果來生成動態(tài)生成詞典。如上所述,根據(jù)本實施方式4,由于包括中間結果存儲部15,從而利用其將在靜態(tài)生成詞典的生成中所得到的對識別對象詞匯的語言的確定、進行從書寫向讀音的變換處理的中途結果作為中間結果進行存儲,因此,能減少動態(tài)生成詞典的生成時間,降低對話過程中因詞典生成所帯來的使用者的等待時間。實施方式5圖7是表示本發(fā)明的實施方式5的聲音識別裝置的結構的框圖。如圖7所示,實施方式5中的聲音識別裝置ID在上述實施方式4所示的聲音識別裝置IC的結構的基礎上添加了動態(tài)生成詞典管理部(存儲管理部)16及動態(tài)生成詞典臨時存儲部(臨時存儲部)17,而且,識別詞典動態(tài)生成判定部7b的動作與上述實施方式4不同。另外,在圖7中,對與圖6相同或與其相當?shù)慕Y構標注相同標號,并省略說明。 動態(tài)生成詞典管理部16是對是否需要將由識別詞典動態(tài)生成部8動態(tài)生成的識別詞典臨時存儲到動態(tài)生成詞典臨時存儲部17內進行判定的結構部。動態(tài)生成詞典臨時存儲部17是將由動態(tài)生成詞典管理部16判定為存儲對象的動態(tài)生成詞典進行臨時存儲的存儲部。接下來,對動作進行說明。若由識別詞典動態(tài)生成部8新生成了動態(tài)生成詞典,則動態(tài)生成詞典管理部16對動態(tài)生成詞典臨時存儲部17的存儲容量是否超過規(guī)定容量進行判定。此處,若動態(tài)生成詞典臨時存儲部17的存儲容量小于規(guī)定容量,則動態(tài)生成詞典管理部16將新生成的動態(tài)生成詞典存儲到動態(tài)生成詞典臨時存儲部17內。另ー方面,在動態(tài)生成詞典臨時存儲部17的存儲容量超過規(guī)定容量的情況下,動態(tài)生成詞典管理部16基于目前存儲在動態(tài)生成詞典臨時存儲部17內的動態(tài)生成詞典的使用歷史或使用頻度來決定從動態(tài)生成詞典臨時存儲部16刪除的動態(tài)生成詞典,并實施刪除。例如,將最終的使用日期時間最老的動態(tài)生成詞典作為刪除對象。此外,也可以將聲音識別裝置ID運行中使用過的、平均使用間隔最長的動態(tài)生成詞典作為刪除對象。若刪除了存儲于動態(tài)生成詞典臨時存儲部17內的動態(tài)生成詞典,則動態(tài)生成詞典管理部16將新生成的動態(tài)生成詞典存儲到動態(tài)生成詞典臨時存儲部17內。除此之外,動態(tài)生成詞典管理部16除了對存儲在動態(tài)生成詞典臨時存儲部17內的動態(tài)生成詞典以外,還可以對存儲在靜態(tài)生成詞典存儲部5a及識別詞典存儲部9內的識別詞典的使用歷史或使用頻度進行管理,并據(jù)此與上述相同地將詞典存儲到靜態(tài)生成詞典存儲部5a及識別詞典存儲部9內。在靜態(tài)生成詞典存儲部5a及動態(tài)生成詞典臨時存儲部17內均沒有存儲識別對象詞匯的識別詞典的情況下,識別詞典動態(tài)生成判定部7b對于識別詞典動態(tài)生成部8判定為需要新生成該識別對象詞匯的動態(tài)生成詞典。此外,若識別對象詞匯的識別詞典已經存儲在靜態(tài)生成詞典存儲部5a及動態(tài)生成詞典臨時存儲部17的任ー個中,則識別詞典動態(tài)生成判定部7b讀出該識別詞典并將其存儲到識別詞典存儲部9內。聲音識別部10使用存儲于識別詞典存儲部9內的識別詞典對輸入聲音進行聲音識別。
如上所述,根據(jù)本實施方式5,由于在上述實施方式4的結構的基礎上包括了將動態(tài)生成詞典進行臨時存儲的動態(tài)生成詞典臨時存儲部17,因此,能獲得與上述實施方式4相同的效果,且能將存儲裝置的使用量抑制成最小,并減少用于生成詞典的運算量。 エ業(yè)上的實用性本發(fā)明所涉及的聲音識別裝置能縮短與使用者的對話過程中生成識別詞典所需的時間、且能降低將預先生成的識別詞典進行存儲所需的存儲區(qū)域的使用容量,因此,適用于便攜式音樂播放器、移動電話、車載導航系統(tǒng)等的聲音識別裝置。
權利要求
1.一種聲音識別裝置,該聲音識別裝置利用對話邊切換識別對象的詞匯邊進行聲音識另IJ,其特征在于,包括 靜態(tài)生成部,該靜態(tài)生成部對于成為識別對象的詞匯數(shù)量為閾值以上的詞匯,預先生成識別詞典; 動態(tài)生成部,該動態(tài)生成部對于識別對象的詞匯數(shù)量小于所述閾值的詞匯,在對話情境中生成識別詞典;以及 聲音識別部,該聲音識別部參照由所述靜態(tài)生成部或所述動態(tài)生成部所生成的識別詞典來對輸入聲音進行聲音識別。
2.如權利要求I所述的聲音識別裝置,其特征在于, 所述靜態(tài)生成部預先生成關于成為識別對象的所有詞匯的識別詞典, 所述動態(tài)生成部生成關于對話情境中被選作識別對象的詞匯的識別詞典。
3.如權利要求I所述的聲音識別裝置,其特征在于, 若所述靜態(tài)生成部生成包含對話情境中被選作識別對象的詞匯、且包含的識別對象的詞匯數(shù)量的比率為規(guī)定比例以上的識別詞典,則所述動態(tài)生成部不在所述對話情境中生成關于該詞匯的識別詞典, 所述聲音識別部參照由所述靜態(tài)生成部所生成的該識別詞典來對輸入聲音進行聲音識別,將識別的似然度較高的前幾個識別結果候選中的、本次的識別對象的詞匯中所包含的識別結果候選作為識別結果進行輸出。
4.如權利要求3所述的聲音識別裝置,其特征在于, 以在對話情境中成為識別對象的詞匯數(shù)量超過規(guī)定數(shù)量、且該對話情境中的所述識別對象的詞匯數(shù)量成為識別詞典的詞匯數(shù)量的規(guī)定比例以下的方式,所述靜態(tài)生成部預先生成關于該識別對象的詞匯的識別詞典。
5.如權利要求I所述的聲音識別裝置,其特征在于, 包括將所述靜態(tài)生成部生成識別詞典的中途結果進行存儲的中間結果存儲部, 所述動態(tài)生成部在對與由所述靜態(tài)生成部所生成的識別詞典共用的詞匯生成識別詞典時,使用從所述中間結果存儲部讀出的所述中途結果來生成識別詞典。
6.如權利要求I所述的聲音識別裝置,其特征在于,包括 臨時存儲部,該臨時存儲部將由所述動態(tài)生成部所生成的識別詞典進行臨時存儲;以及 存儲管理部,該存儲管理部根據(jù)所述識別詞典的使用狀況,對是否將該識別詞典存儲到所述臨時存儲部內進行管理。
全文摘要
對于成為識別對象的詞匯數(shù)量為閾值以上的詞匯,預先生成識別詞典(靜態(tài)生成詞典),對于識別對象的詞匯數(shù)量小于閾值的詞匯,在對話情境中生成識別詞典(動態(tài)生成詞典)。
文檔編號G10L15/22GK102770910SQ20108006445
公開日2012年11月7日 申請日期2010年3月30日 優(yōu)先權日2010年3月30日
發(fā)明者丸田裕三, 山崎道弘 申請人:三菱電機株式會社