聲音對話裝置、對話控制方法以及對話控制程序的制作方法

文檔序號：2824718閱讀：253來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音對話裝置、對話控制方法以及對話控制程序的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種聲音對話裝置、對話控制方法以及對話控制程序，其利用根據(jù)與使用者和對話的聲音識別結(jié)果實(shí)行處理的系統(tǒng)。
背景技術(shù)：
以往，用于與客戶對話的聲音對話裝置例如包括輸出要求聲音的輸入的信號的輸入要求單元；對被輸入的聲音進(jìn)行識別的識別單元；對從要求聲音的輸入開始至檢驗(yàn)出聲音的輸入為止的時間、或聲音輸入的繼續(xù)時間(講話時間)進(jìn)行測量的測量單元；輸出與聲音的識別結(jié)果對應(yīng)的聲音響應(yīng)信號的輸出單元。在這樣的聲音對話裝置中，為了根據(jù)各使用者的反應(yīng)時間、聲音的輸入時間來適當(dāng)?shù)亟o各使用者響應(yīng)，可以根據(jù)上述的從被要求聲音的輸入至檢驗(yàn)出聲音的輸入為止的時間、聲音輸入的繼續(xù)時間，對從被檢測出聲音的輸入至輸出聲音響應(yīng)信號為止的時間、聲音響應(yīng)信號的響應(yīng)時間、或聲音響應(yīng)信號的表現(xiàn)形式進(jìn)行可變化地控制。例如，在專利文獻(xiàn)1 中，采用使用者講話過程中的關(guān)鍵詞的出現(xiàn)時間、關(guān)鍵詞的音數(shù)、說出的關(guān)鍵詞的持續(xù)時間等，來對使用者的熟練度進(jìn)行推定，并對應(yīng)使用者的熟練度控制對話響應(yīng)。現(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)1 日本特開2005-2；34331號公報(bào)

發(fā)明內(nèi)容
發(fā)明要解決的技術(shù)問題但是，在專利文獻(xiàn)1所記載的技術(shù)中，僅利用使用者和聲音對話裝置的一次對話的信息來判定熟練度。因此，存在如下問題，即在使用者對聲音對話裝置并不熟練只是偶爾較好地進(jìn)行對話的情況下，或者相反，在對聲音對話裝置比較熟練而沒能較好地進(jìn)行對話的情況下，就不能正確地對熟練度進(jìn)行判定，從而不能適當(dāng)?shù)剡M(jìn)行對話控制。例如，有時雖然使用者對與聲音對話裝置的對話行為比較熟練，只是偶然沒有較好地進(jìn)行對話，而這時聲音輔導(dǎo)反復(fù)地被輸出，這種情況下使用者就不能愉快地進(jìn)行聲音對話。本發(fā)明正是鑒于上述以往的問題點(diǎn)而作出的，其提供了一種聲音對話裝置、對話控制方法以及對話控制程序，其能夠不受使用者僅一次偶爾的對話行為的影響，準(zhǔn)確地對使用者的對話行為的熟練度進(jìn)行判定，并根據(jù)準(zhǔn)確判定出的熟練度進(jìn)行適當(dāng)?shù)貙υ捒刂啤＝鉀Q問題的方法為了解決上述問題，技術(shù)方案1所記載的聲音對話裝置，對用戶講話的聲音進(jìn)行識別并進(jìn)行對話控制，其包括對用戶講話的聲音進(jìn)行輸入的輸入單元；提取單元，其根據(jù)所述輸入單元的聲音的輸入結(jié)果，提取作為用于對所述用戶的對話行為的熟練度進(jìn)行判定的要素的熟練度判定要素；履歷積累單元，其將由所述提取單元所提取的熟練度判定要素作為履歷進(jìn)行積累；熟練度判定單元，其根據(jù)由所述履歷積累單元所積累的履歷，對所述熟練度判定要素的收斂狀態(tài)進(jìn)行判定，并根據(jù)該判定的收斂狀態(tài)對所述用戶的對話行為的熟練度進(jìn)行判定；和對話控制單元，其根據(jù)由所述熟練度判定單元所判定的所述用戶的熟練度改變對話控制。根據(jù)本發(fā)明，聲音對話裝置根據(jù)積累于履歷積累單元的履歷對熟練度判定要素的收斂狀態(tài)進(jìn)行判定，根據(jù)該判定的收斂狀態(tài)對用戶對話行為的熟練度進(jìn)行判定，由于根據(jù)該判定的用戶的熟練度改變對話控制，因此，與根據(jù)用戶的一次的對話行為來判定熟練度的情況相比，可以更準(zhǔn)確地對用戶的對話行為的熟練度進(jìn)行判定，能夠根據(jù)準(zhǔn)確判定的熟練度進(jìn)行恰當(dāng)?shù)膶υ捒刂?。技術(shù)方案2所記載的聲音對話裝置，是指在技術(shù)方案1所記載的聲音對話裝置中，所述熟練度判定要素是講話時刻。根據(jù)本發(fā)明，采用用戶易于提高熟練度的、影響聲音識別的代表性的要素、即講話時刻作為熟練度判定要素，可以防止對已經(jīng)熟悉講話時刻的用戶進(jìn)行不需要的對話控制。技術(shù)方案3所記載的聲音對話裝置，是指在技術(shù)方案1所記載的聲音對話裝置中，所述熟練度判定要素包括用戶的講話方式、講話內(nèi)容要素、以及停頓時間之中的至少一個，講話內(nèi)容要素即為是否理解用戶要講話的內(nèi)容的指標(biāo)。技術(shù)方案4所記載的聲音對話裝置，是指在技術(shù)方案3所記載的聲音對話裝置中，所述輸入單元包括講話開始單元，該講話開始單元在檢測到對話控制的中斷操作時，中斷進(jìn)行中的對話控制，開始聲音輸入，所述講話內(nèi)容要素包括對話控制的中斷次數(shù)。根據(jù)本發(fā)明，通過根據(jù)履歷對對話控制的中斷次數(shù)的收斂狀態(tài)進(jìn)行判定，可以進(jìn)行對話內(nèi)容的熟練度的判定。技術(shù)方案5所記載的聲音對話裝置，是指在技術(shù)方案1-4的任意一項(xiàng)所記載的聲音對話裝置中，所述對話控制單元，在由所述熟練度判定單元判定為所述用戶的對話行為的熟練度低的情況下，與被判定為高的情況相比更加強(qiáng)化對話控制。根據(jù)本發(fā)明，所述對話控制單元不受用戶的一次偶然的對話行為的影響，可以根據(jù)基于履歷的正確地判定的用戶的對話行為的熟練度，恰當(dāng)?shù)剡M(jìn)行對話控制。技術(shù)方案6所記載的聲音對話方法是對用戶講話的聲音進(jìn)行識別并進(jìn)行對話控制的聲音對話裝置所進(jìn)行的對話控制方法，其包括對用戶講話的聲音進(jìn)行輸入的輸入步驟；提取步驟，其根據(jù)所述輸入步驟的聲音的輸入結(jié)果，提取作為用于對所述用戶的對話行為的熟練度進(jìn)行判定的要素的熟練度判定要素；履歷積累步驟，其將在所述提取步驟提取的熟練度判定要素作為履歷進(jìn)行積累；熟練度判定步驟，其根據(jù)在所述履歷積累步驟積累的履歷，對所述熟練度判定要素的收斂狀態(tài)進(jìn)行判定，并根據(jù)該判定的收斂狀態(tài)對所述用戶的對話行為的熟練度進(jìn)行判定；和對話控制步驟，其根據(jù)在所述熟練度判定步驟判定的所述用戶的熟練度改變對話控制。技術(shù)方案7所記載的對話控制程序用于使計(jì)算機(jī)執(zhí)行如下步驟對用戶講話的聲音進(jìn)行輸入的輸入步驟；提取步驟，其根據(jù)所述輸入步驟的聲音的輸入結(jié)果，提取作為用于對所述用戶的對話行為的熟練度進(jìn)行判定的要素的熟練度判定要素；履歷積累步驟，其將在所述提取步驟提取的熟練度判定要素作為履歷進(jìn)行積累；熟練度判定步驟，其根據(jù)在所述履歷積累步驟積累的履歷，對所述熟練度判定要素的收斂狀態(tài)進(jìn)行判定，并根據(jù)該判定的收斂狀態(tài)對所述用戶的對話行為的熟練度進(jìn)行判定；對話控制步驟，其根據(jù)在所述熟練
5度判定步驟判定的所述用戶的熟練度改變對話控制。根據(jù)本發(fā)明，在計(jì)算機(jī)的存儲裝置中存儲對話控制程序，通過計(jì)算機(jī)讀取該程序并執(zhí)行，來執(zhí)行上述步驟。發(fā)明的效果根據(jù)本發(fā)明，聲音對話裝置根據(jù)積累于履歷積累單元的履歷對熟練度判定要素的收斂狀態(tài)進(jìn)行判定，并根據(jù)該判定的收斂狀態(tài)判定用戶的對話行為的熟練度，并根據(jù)該判定的用戶的熟練度改變對話控制，因此，與根據(jù)用戶的一次對話行為來判定熟練度的情況相比，可以更準(zhǔn)確地對用戶的對話行為的熟練度進(jìn)行判定，能夠根據(jù)準(zhǔn)確地判定的熟練度進(jìn)行適當(dāng)?shù)膶υ捒刂啤?br>

圖1是示出本發(fā)明的實(shí)施形態(tài)的聲音對話裝置的功能構(gòu)成的框圖。圖2是示出該實(shí)施形態(tài)中各被實(shí)驗(yàn)者每次講話時被測量的講話時刻和聲音識別結(jié)果的關(guān)系的圖。圖3是示出該實(shí)施形態(tài)中各被實(shí)驗(yàn)者每次講話時被測量的講話時刻和聲音識別結(jié)果的關(guān)系的圖。圖4是示出該實(shí)施形態(tài)中按照年齡段區(qū)分的講話時刻收斂前后的識別錯誤率的變化的圖。圖5是示出在該實(shí)施形態(tài)中熟練度判定要素是講話時刻時的對話控制處理流程的流程圖。圖6示出在該實(shí)施形態(tài)中熟練度判定要素是講話方式中的講話速度時的對話控制處理流程的流程圖。圖7是示出該實(shí)施形態(tài)的使用者的1次講話的講話時間長度的一例的圖。圖8是示出由該實(shí)施形態(tài)的提取單元測量的發(fā)言時間長度的履歷的圖。圖9是示出由該實(shí)施形態(tài)的聲音識別單元識別出的發(fā)音數(shù)量的履歷的圖。圖10是示出根據(jù)該實(shí)施形態(tài)的講話時間長度以及發(fā)音數(shù)量計(jì)算出的單位講話時間的履歷的一例的圖。圖11是示出根據(jù)該實(shí)施形態(tài)的單位講話時間的情況被計(jì)算出的講話時間變化量的一例的圖表。圖12示出在該實(shí)施形態(tài)中熟練度判定要素是講話內(nèi)容要素時的對話控制處理流程的流程圖。圖13是示出該實(shí)施形態(tài)的對話控制中斷履歷的一例的圖。符號說明1 輸入單元11講話開始單元2聲音識別單元3 提取單元4履歷積累單元5熟練度判定單元6對話控制單元
具體實(shí)施例方式下面參照附圖對本發(fā)明的實(shí)施形態(tài)進(jìn)行說明。圖1是示出本發(fā)明的實(shí)施形態(tài)的聲音對話裝置的功能構(gòu)成的框圖。這些功能是通過如下單元的協(xié)動動作來實(shí)現(xiàn)的，如包括聲音對話裝置的未圖示的CPU(中央處理單元)；存儲程序和數(shù)據(jù)的ROM(只讀存儲器)、硬盤等的存儲裝置；內(nèi)部時鐘；麥克風(fēng)、操作按鈕、揚(yáng)聲器等的輸入輸出界面。輸入單元1由麥克風(fēng)、操作按鈕等構(gòu)成，其輸入使用者講話的聲音、以及用于聲音的輸入的操作信號等。輸入單元包括講話開始單元11，其對聲音引導(dǎo)的輸出等的對話控制進(jìn)行中斷，再開始輸入使用者發(fā)出的聲音。講話開始單元11由用于向聲音對話裝置的CPU 發(fā)出對話控制的中斷指示的按鈕等構(gòu)成。使用者發(fā)出的聲音輸入存在如下這樣的講話。(對話例)系統(tǒng)從按鈕上的詞匯中選擇您的事項(xiàng)。用戶打電話系統(tǒng)無法識別?？赡苣胼斎氲恼Z言是本裝置不知道的詞語，因此導(dǎo)致輸入錯誤。另外，可能是聲音太大、或語速太快、或相反語速太慢，請以一般的語速再說一次。用戶電話系統(tǒng)顯示電話畫面。用戶返回系統(tǒng)返回到哪里？從下面的兩種選擇中選擇一個。取消剛才的操作時請說錯誤；返回上一菜單時請說返回上一菜單。用戶返回上一菜單。系統(tǒng)返回上一菜單。聲音識別單元2采用隱馬爾可夫模型等公知的運(yùn)算法則進(jìn)行從輸入單元1輸入的聲音的識別處理。聲音識別單元2將其識別的說話內(nèi)容作為例如音素符號列或短音節(jié)符號 (假名)列等的文字列來進(jìn)行輸出。提取單元3基于輸入單元1的輸入結(jié)果，提取作為判定用戶的對話行為的熟練度的要素的熟練度判定要素。熟練度判定要素有講話時刻、講話方式、作為用戶是否理解講話內(nèi)容的指標(biāo)的講話內(nèi)容要素、停頓時間。講話時刻是指在聲音對話裝置通過嘟聲或“請說話”等的聲音引導(dǎo)來對用戶發(fā)出進(jìn)行聲音輸入要求的信號時，用戶進(jìn)行講話的時刻。講話時刻可以通過對從聲音對話裝置進(jìn)行聲音輸入要求的信號結(jié)束的時刻開始至用戶開始講話的時刻為止所經(jīng)過的時間(以下，稱為“講話開始時間”)進(jìn)行測量而得到。在聲音對話裝置發(fā)出信號的途中用戶開始講話等講話時刻不正確的情況下，聲音對話裝置的聲音識別單元2不能對用戶的講話內(nèi)容進(jìn)行識別。圖2以及圖3所示的圖表是表示各被測人員每次講話時測量的講話時刻和聲音識別結(jié)果的關(guān)系的圖表。縱軸是從根據(jù)嘟聲發(fā)出信號開始至用戶講話為止所經(jīng)過的時間，橫軸表示該講話是從聲音對話裝置的使用開始的第幾次講話。圖中的〇表示對講話得到正確的識別結(jié)果，X表示得到識別錯誤的結(jié)果。識別錯誤是指將與用戶的講話內(nèi)容不同的結(jié)果向聲音識別單元2輸出。在圖2所示的圖表中，在講話次數(shù)較少的期間，講話時刻比較分散沒有收斂，產(chǎn)生識別錯誤X的頻率較高，在講話次數(shù)為60次以上時，隨著被實(shí)驗(yàn)者對講話時刻的熟練，講話時刻收斂并且識別錯誤X的講話頻率減少。如圖3所示的圖表中，被實(shí)驗(yàn)者在講話次數(shù)為30次左右時對講話時刻熟練，講話時刻收斂。講話時刻收斂時，即使中途發(fā)生識別錯誤，講話時刻也沒有變化。例如，以規(guī)定的講話次數(shù)對用戶的熟練度進(jìn)行判定的情況下，用戶的講話時刻即使是一次不滿足判定基準(zhǔn)(例如，講話開始時間在規(guī)定時間以內(nèi))的情況下，也是判斷為不熟練。具體地說，在圖2中講話次數(shù)78(參照No. 78)的講話遠(yuǎn)在講話時刻之外，因此判定為不熟練。相反，盡管用戶還不熟練，在偶爾講話時刻滿足判定基準(zhǔn)的情況下，也判斷為熟練。具體地說，在圖2中講話次數(shù)2(參照No. 2)的講話不在講話時刻之外，因此判定為熟練。這里，采用圖2以及圖3的圖表所示的試驗(yàn)結(jié)果以規(guī)定的講話次數(shù)來對用戶的熟練度進(jìn)行判定的話，對像本發(fā)明這樣基于講話時刻的收斂狀態(tài)對用戶的熟練度進(jìn)行判定的情況下的識別率的不同進(jìn)行更加詳細(xì)的說明。首先，以規(guī)定的講話次數(shù)對用戶的熟練度進(jìn)行判定的情況下，本發(fā)明者基于圖2 以及圖3的試驗(yàn)結(jié)果，取作為規(guī)定的講話次數(shù)的熟練度判定次數(shù)(判定為熟練的講話次數(shù)) 為30次，計(jì)算熟練前的識別率和熟練后的識別率。其結(jié)果，圖2的被實(shí)驗(yàn)者(以下，在本說明書中稱為“被實(shí)驗(yàn)者1”)在熟練前的識別率為87. 5%，在熟練后的識別率為78. 0%。另外，圖3的被實(shí)驗(yàn)者(以下，在本說明書中稱為被實(shí)驗(yàn)者2)在熟練前的識別率為56. 25%, 在熟練后的識別率為約63. 83%。也就是說，被實(shí)驗(yàn)者1在熟練后的識別率低，被實(shí)驗(yàn)者2 在熟練后的識別率高。根據(jù)該結(jié)果可見，對于熟練度判定次數(shù)和識別率的關(guān)系，被實(shí)驗(yàn)者1 和被實(shí)驗(yàn)者2完全不同?；谥v話時刻的收斂狀態(tài)對用戶的熟練度進(jìn)行判定的情況下，如上所述，熟練度判定次數(shù)在圖2為60次，在圖3為30次。此時，被實(shí)驗(yàn)者1在熟練前的識別率約為71. 43%，在熟練后的識別率約為93. 75%。被實(shí)驗(yàn)者2在熟練前的識別率為56. 25%，在熟練后的識別率為約63. 83%。也就是說，被實(shí)驗(yàn)者1、2都是熟練后的識別率較高。根據(jù)該結(jié)果可見，關(guān)于收斂狀態(tài)和識別率的關(guān)系，被實(shí)驗(yàn)者1、2都有同樣的傾向。這里不再贅述，從其他的被實(shí)驗(yàn)者那里也可以得到同樣的結(jié)果。講話方式是指聲音的大小、講話速度、滑舌的好壞等的講話方法。用戶若沒有良好的講話方式，則聲音對話裝置會誤識別用戶的講話內(nèi)容。講話內(nèi)容是指用戶為了達(dá)到目的而應(yīng)該輸入到聲音對話裝置的內(nèi)容。講話內(nèi)容錯誤的話，則不能按照用戶的意圖使聲音對話裝置動作。作為是否理解用戶的講話內(nèi)容的指標(biāo)，即講話內(nèi)容要素，有通過講話開始單元 11而中斷的對話控制的次數(shù)。停頓時間是指用戶的講話中存在無聲的時間。例如，說出住所的情況下，有的用戶在都道府縣和市區(qū)町村之間會有很短的間隙，停頓時間就是指這個間隙。提高用戶的熟練度存在順序，本發(fā)明者考慮按照講話時刻、講話方式、講話內(nèi)容的順序來提高熟練度。因此，首先提取講話時刻作為熟練度判定要素，在用戶熟練講話時刻之后，提取講話方式，并在熟練講話方式之后提取講話內(nèi)容，像這樣根據(jù)用戶的熟練度，可以階段地對提取的講話內(nèi)容的要素進(jìn)行變更。履歷積累單元4是設(shè)于硬盤等的存儲裝置中的數(shù)據(jù)庫，對由提取單元3提取的熟練度判定要素進(jìn)行積累。熟練度判定單元5基于履歷積累單元4所積累的履歷，判定熟練度判定要素的收斂狀態(tài)，基于該判定的收斂狀態(tài)對用戶的對話行為的熟練度進(jìn)行判定。在多個用戶共有聲音對話裝置的情況下，設(shè)置確定用戶信息的用戶ID，在履歷積累單元4中存儲每個用戶ID的熟練度判定要素。然后，熟練度判定單元5根據(jù)每個用戶積累的履歷，判定熟練度判定要素的收斂狀態(tài)，對目前利用聲音對話裝置的用戶的對話行為的熟練度進(jìn)行判定。將目前利用聲音對話裝置的用戶向聲音對話裝置中輸入的方法，例如有用戶自身將用戶名輸入到聲音對話裝置中，也可以是在聲音對話裝置中增設(shè)根據(jù)聲音的講話者識別單元、或者增設(shè)獲取用戶持有的RF (無線射頻)標(biāo)簽的識別信息的RF標(biāo)簽識別信息取得單元。具體地說，在熟練度判定要素是講話時刻的情況下，熟練度判定單元5對例如積累在履歷積累單元4中的履歷中的一定次數(shù)的講話開始時刻是否收斂于一定的時刻進(jìn)行判定。在收斂的情況下判斷為用戶的講話時刻的熟練度高，在不收斂的情況下判斷為用戶的講話時刻的熟練度低。例如，確認(rèn)最近10次講話的講話開始時刻是否收斂在1秒以內(nèi)，若收斂在1秒以內(nèi)，則判定講話時刻的熟練度高，否則判定講話時刻的熟練度低。又，收斂的一定的時刻并不限定為1秒，可以與用戶ID關(guān)聯(lián)地對每個用戶分別設(shè)定。圖4表示按照年齡段區(qū)分的、采用講話時刻判定的用戶熟練前后的識別率的圖表。識別率即是聲音識別單元2正確地識別用戶的講話的比例。收斂前是指熟練度判定單元5判斷用戶的講話時刻的熟練度低的時期，收斂后是指判斷為熟練度高的時期。如該圖所示，在各年齡段間識別錯誤率(=識別錯誤數(shù)量/講話數(shù)量)存在差異，但在各年齡段都是相較于講話時刻的收斂前，收斂后的識別錯誤率在減少。在熟練度判定要素為講話方式的情況下，熟練度判定單元5對聲音的大小、講話的速度等的收斂狀態(tài)進(jìn)行判定，在收斂的情況下判定講話方式的熟練度較高。在熟練度判定要素是講話內(nèi)容要素的情況下，熟練度判定單元5對規(guī)定的對話控制在過去的一定次數(shù)中是否被中斷次數(shù)在一定比例以上進(jìn)行判定，在被中斷次數(shù)到達(dá)一定比例以上的情況下，判定講話內(nèi)容的熟練度高。對話控制單元6根據(jù)由熟練度判定單元5所判定的用戶的熟練度來使對話控制發(fā)生變化。具體地說，在熟練度判定單元5判定用戶的對話行為的熟練度低的情況下，對話控制單元6強(qiáng)化對話控制，例如反復(fù)輸出聲音引導(dǎo)。另一方面，在判定為用戶的對話行為的熟練度較高的情況下，抑制對話控制，例如，即使發(fā)生識別錯誤也不輸出引導(dǎo)，與判定為熟練度低的情況相比，聲音引導(dǎo)的輸出頻率降低。接下來，參照圖5所示的流程圖，對熟練度判定要素為講話時刻的情況下的對話控制處理進(jìn)行說明。首先，在聲音對話裝置輸出聲音輸入開始的信號之后，用戶朝著聲音對話裝置進(jìn)行講話。聲音對話裝置的輸入單元1對用戶發(fā)出的聲音進(jìn)行輸入(步驟S101)。提取單元3對由輸入單元1開始聲音輸入的時刻進(jìn)行判定，并提取從聲音對話裝置對用戶輸出要求聲音輸入的信號開始到用戶開始講話為止的講話開始時間(步驟S102)。履歷積累單元4對提取單元3提取的講話開始時間進(jìn)行積累(步驟S103)。熟練度判定單元5參照履歷積累單元4積累的講話開始時間，對一定次數(shù)的用戶講話的講話開始時刻是否收斂在一定的時刻進(jìn)行判定(步驟S104)，在收斂的情況下(步驟S104:是)判斷為用戶的講話時刻的熟練度高(步驟S105)，在不收斂的情況下(步驟S104 否)判斷為用戶的講話時刻的熟練度低(步驟S106)。對話控制單元6根據(jù)由熟練度判定單元5得到的關(guān)于用戶的講話時刻的熟練度來改變對話控制。例如，若用戶的講話時刻的熟練度較低，則增多關(guān)于講話時刻的引導(dǎo)(步驟 S108)，若熟練度高則減少關(guān)于講話時刻的引導(dǎo)(步驟S107)。(發(fā)生方式)接下來，參照圖6所示的流程圖，對熟練度判定要素是講話方式中的講話速度的情況下的對話控制處理進(jìn)行說明。輸入單元1對用戶講話的聲音進(jìn)行輸入(步驟S201)。聲音識別單元2對輸入單元1輸入的用戶的聲音進(jìn)行識別(步驟S2(^)，并將該識別的講話內(nèi)容作為文字列進(jìn)行輸出。提取單元3對用戶進(jìn)行每1次講話的區(qū)間的時間(講話時間長度)進(jìn)行測量，并且對聲音識別單元2得到的文字列的發(fā)音數(shù)量進(jìn)行計(jì)數(shù)，從而對一次發(fā)音的講話時間(以下，稱為“單位講話時間”)進(jìn)行測量。發(fā)音數(shù)量是指基于用戶一次的講話，聲音識別單元2 得到的音素?cái)?shù)量或音節(jié)數(shù)量，或者混合兩者的數(shù)量的總數(shù)。提取單元3輸出一次用戶講話的單位講話時間(步驟S203)。履歷積累單元4對提取單元3得到的單位講話時間進(jìn)行積累(步驟S204)。熟練度判定單元5參照履歷積累單元4所積累的單位講話時間的履歷，取得每次講話的單位講話時間和上一次講話的單位講話時間之間的差，計(jì)算出單位講話時間變化的絕對值、即講話時間變化量。然后，在過去的某個一定的講話次數(shù)內(nèi)，該講話時間變化量超過一定次數(shù)以上的某個閾值的情況下(步驟S205 否)，講話時間變化量沒有收斂，因此判定用戶的熟練度低(步驟S207)。另一方面，在過去的一定的講話次數(shù)內(nèi)一定次數(shù)以上的講話時間變化量某個閾值以下情況下(步驟S205:是)講話時間收斂，因此判定用戶的熟練度高(步驟S206)。對話控制單元6根據(jù)從熟練度判定單元5處得到的用戶的講話方式的熟練度的判定結(jié)果，在判定為熟練度低的情況下，則進(jìn)行講話方式的引導(dǎo)(步驟S209)，判定為熟練度高的情況下，則不進(jìn)行講話方式的引導(dǎo)(步驟S208)。這里，采用圖6至圖11對講話方式的熟練度判定方法的具體實(shí)例進(jìn)行說明。用戶說出“目的地”。于是，提取單元3對用戶開始講話的時間(圖7的tl)至戶講話的結(jié)束時間(圖7的t2)為止的每一次的講話的講話時間長度進(jìn)行測量(圖6的步驟S203)，聲音識別單元2從識別的結(jié)果的“目的地”這樣的文字列中取得“4 *寸這樣4個發(fā)音數(shù)量 (步驟S202)。然后，計(jì)算出用戶大致一個發(fā)音所要的單位講話時間，并積累到履歷積累單元4 (步驟S204)。圖8是表示用戶每次進(jìn)行講話時由提取單元3測量的講話時間長度的履歷的圖表。圖9是表示用戶每次進(jìn)行講話時由聲音識別單元識別的發(fā)音數(shù)量的履歷的圖表。圖10 是表示根據(jù)圖8所示的講話時間長度以及圖9所示發(fā)音數(shù)量來計(jì)算的、用戶每次進(jìn)行講話時的單位講話時間的履歷的圖表。該單位講話時間積累到履歷積累單元4中。熟練度判定單元5參照積累于履歷積累單元4中的用戶單位講話時間的履歷，計(jì)算出講話時間變化量 (步驟S205)。圖11示出計(jì)算出的講話時間變化量的一例。例如，在過去10次講話中有5次講話以上具有超過某個閾值的講話時間變化量的情況下(步驟S205 否)，判定為熟練度低(步驟S207)，在過去10次講話中有5次講話以上具有低于某個閾值的值的情況下(步驟S205 是)，判定為熟練度高(步驟S206)。圖11所示的區(qū)間1表示判定為熟練度低的區(qū)間，區(qū)間2表示判定為熟練度高的區(qū)間。然后，對話控制單元6在區(qū)間1反復(fù)進(jìn)行講話方式的引導(dǎo)(步驟S209)，在區(qū)間2變更為不進(jìn)行引導(dǎo) (步驟 S208)。(講話內(nèi)容)接下來，參照圖12所示的流程圖，對熟練度判定要素是講話內(nèi)容要素的情況下的對話控制處理進(jìn)行說明。用戶通過對話控制單元6進(jìn)行聲音引導(dǎo)輸出等的對話控制時，中斷該對話控制進(jìn)行聲音輸入的情況下，采用講話開始單元11進(jìn)行對話控制的中斷指示。由此，講話開始單元11中斷對話控制單元6的對話控制，由輸入單元1輸入用戶發(fā)出的聲音 (步驟S301)。提取單元3基于聲音或?qū)υ捒刂浦袛嗖僮鞯妮斎虢Y(jié)果提取對話控制中斷次數(shù)(步驟S3(^)。履歷積累單元4積累對話控制中斷次數(shù)(步驟S303)。熟練度判定單元5參照履歷積累單元4，對規(guī)定的講話內(nèi)容的對話控制在過去一定次數(shù)內(nèi)是否在一定比例以上被中斷進(jìn)行判定(步驟S304)，被中斷的情況下(步驟S304 是)，講話內(nèi)容的熟練度判定為高(步驟S305)，沒有被中斷的情況下(步驟S304:否)，講話內(nèi)容的熟練度判定為低(步驟S306)。對話控制單元6根據(jù)由熟練度判定單元5所判定的講話內(nèi)容的熟練度來使對話控制進(jìn)行變更。具體地說，判定為講話內(nèi)容的熟練度高的情況下，減少關(guān)于講話內(nèi)容的聲音引導(dǎo)(步驟S307)，判定為熟練度低的情況下，增加關(guān)于講話方式的聲音引導(dǎo)(步驟S308)。這里，對講話內(nèi)容的具體實(shí)例進(jìn)行說明。采用講話開始單元11進(jìn)行引導(dǎo)的中斷(跳過)，進(jìn)行講話開始的對話如下。用戶講話住所引導(dǎo)不能識別。在進(jìn)行數(shù)據(jù)編輯的情況下，以編輯包圍……(用戶中斷引導(dǎo)操作而產(chǎn)生的嘟聲)用戶講話住所在上述的對話中，用戶講話的內(nèi)容聲音對話裝置不能識別，接下來開始指示什么可以輸入的引導(dǎo)的流程，但是用戶進(jìn)行使其中斷的操作，立刻又進(jìn)行相同內(nèi)容的聲音輸入 (圖12的步驟S301)。提取單元3發(fā)現(xiàn)這種方式的講話開始單元11的利用(步驟S302)。然后，履歷積累單元4對表示進(jìn)行了該對話控制中斷的信息進(jìn)行積累(步驟S303)。熟練度判定單元5參照來自履歷積累單元4的指示某個特定的講話內(nèi)容引導(dǎo)的對話控制中斷的履歷，通過對對話控制中斷次數(shù)的收斂狀態(tài)進(jìn)行判定來求出熟練度。例如，對于“從按鈕上的詞匯中選擇您的事項(xiàng)，請講”這內(nèi)容的引導(dǎo)，圖13是示出用戶跳過對話控制的履歷的圖。用戶在最初的4次都完整地聽完了 “從按鈕上的語言中選擇您的事項(xiàng)，請講”這一導(dǎo)航，然后進(jìn)行講話，之后不時使用講話開始單元11來跳過導(dǎo)航。這里熟練度判定單元5參照同一引導(dǎo)在過去3次的對話控制中斷的履歷，其中在被中斷2次以上的情況下，判斷為“從按鈕上的語言中選擇您的事項(xiàng)，請講”這內(nèi)容的用戶的熟練度較高(步驟S305)。否則，判斷為用戶對該內(nèi)容的熟練度還較低(步驟S306)。圖13的區(qū)間1表示判斷為用戶的熟練度高的區(qū)間。然后，對話控制單元6接受來自熟練度判定單元5的用戶的熟練度，“可通過從按鈕上的詞匯中選擇來進(jìn)行該操作”這樣的內(nèi)容的引導(dǎo)在熟練度高的情況下不播放(步驟S307)，在熟練度低的情況下播放(步驟S308)。在上述實(shí)施形態(tài)中，以作為講話內(nèi)容要素的對話控制中斷次數(shù)為例進(jìn)行了說明，但講話內(nèi)容要素并不限定于此，也可以是例如，在聲音對話裝置包括為了進(jìn)行各種任務(wù)的菜單畫面的表示功能的情況下，到用戶完成某個任務(wù)為止移動到菜單階層的次數(shù)。此時，若用戶的講話內(nèi)容的熟練度較高，則對話控制單元6僅播放確認(rèn)用戶輸入的內(nèi)容的消息，而抑制引導(dǎo)，若講話內(nèi)容的熟練度較低，則按目的區(qū)分播放究竟利用哪個菜單的引導(dǎo)。如上所述，聲音對話裝置根據(jù)積累于履歷積累單元4的履歷對熟練度判定要素的收斂狀態(tài)進(jìn)行判定，并根據(jù)該收斂狀態(tài)判定用戶的對話行為的熟練度，并根據(jù)該熟練度改變對話控制，因此，與根據(jù)用戶的一次對話行為來判定熟練度的以往的方法相比，可以避免產(chǎn)生用戶的對話行為的熟練度的判定誤差，能夠根據(jù)準(zhǔn)確地判定的熟練度進(jìn)行適當(dāng)?shù)貙υ捒刂?。因此，對于盡管用戶對聲音對話裝置并不熟練而只是偶然順利地進(jìn)行對話的情況，或者是相反盡管對聲音對話裝置熟練但是沒能順利地進(jìn)行對話的情況下，可以正確地判定熟練度，不會進(jìn)行不適當(dāng)?shù)貙υ捒刂?，因此，用戶可以舒適地與聲音對話裝置進(jìn)行對話。熟練度判定要素可以僅采用講話時刻，也可以采用講話時刻以外的要素，也可以僅采用講話方式、講話內(nèi)容要素、停頓時間。也可以采用講話方式和講話內(nèi)容要素?；蛘?，也可以是使用講話時刻、講話方式、講話內(nèi)容要素以及停頓時間中的2個以上的熟練度判定要素的任意的組合。另外，對應(yīng)于用戶的熟練度，例如首先采用講話時刻作為熟練度判定要素，在用戶對講話時刻熟練之后采用講話方式，在對講話方式熟練之后采用講話內(nèi)容，如此這樣階段地對熟練度判定要素進(jìn)行變更。
權(quán)利要求
1.一種聲音對話裝置，其對用戶講話的聲音進(jìn)行識別并進(jìn)行對話控制，其特征在于，包括對用戶講話的聲音進(jìn)行輸入的輸入單元；提取單元，其根據(jù)所述輸入單元的聲音的輸入結(jié)果，提取作為用于對所述用戶的對話行為的熟練度進(jìn)行判定的要素的熟練度判定要素；履歷積累單元，其將由所述提取單元所提取的熟練度判定要素作為履歷進(jìn)行積累；熟練度判定單元，其根據(jù)由所述履歷積累單元所積累的履歷，對所述熟練度判定要素的收斂狀態(tài)進(jìn)行判定，并根據(jù)該判定的收斂狀態(tài)對所述用戶的對話行為的熟練度進(jìn)行判定；和對話控制單元，其根據(jù)由所述熟練度判定單元所判定的所述用戶的熟練度改變對話控制。
2.如權(quán)利要求1所述的聲音對話裝置，其特征在于，所述熟練度判定要素是講話時刻。
3.如權(quán)利要求1所述的聲音對話裝置，其特征在于，所述熟練度判定要素包括用戶的講話方式、講話內(nèi)容要素、以及停頓時間之中的至少一個，講話內(nèi)容要素即為是否理解用戶要講話的內(nèi)容的指標(biāo)。
4.如權(quán)利要求3所述的聲音對話裝置，其特征在于，所述輸入單元包括講話開始單元，該講話開始單元在檢測到對話控制的中斷操作時，中斷進(jìn)行中的對話控制，開始聲音輸入，所述講話內(nèi)容要素包括對話控制的中斷次數(shù)。
5.如權(quán)利要求1至4中的任意一項(xiàng)所述的聲音對話裝置，其特征在于，所述對話控制單元，在由所述熟練度判定單元判定為所述用戶的對話行為的熟練度低的情況下，與被判定為高的情況相比更加強(qiáng)化對話控制。
6.一種對話控制方法，其是對用戶講話的聲音進(jìn)行識別并進(jìn)行對話控制的聲音對話裝置所進(jìn)行的對話控制方法，其特征在于，包括對用戶講話的聲音進(jìn)行輸入的輸入步驟；提取步驟，其根據(jù)所述輸入步驟的聲音的輸入結(jié)果，提取作為用于對所述用戶的對話行為的熟練度進(jìn)行判定的要素的熟練度判定要素；履歷積累步驟，其將在所述提取步驟提取的熟練度判定要素作為履歷進(jìn)行積累；熟練度判定步驟，其根據(jù)在所述履歷積累步驟積累的履歷，對所述熟練度判定要素的收斂狀態(tài)進(jìn)行判定，并根據(jù)該判定的收斂狀態(tài)對所述用戶的對話行為的熟練度進(jìn)行判定；和對話控制步驟，其根據(jù)在所述熟練度判定步驟判定的所述用戶的熟練度改變對話控制。
7.一種對話控制程序，其特征在于，所述對話控制程序用于使計(jì)算機(jī)執(zhí)行如下步驟對用戶講話的聲音進(jìn)行輸入的輸入步驟；提取步驟，其根據(jù)所述輸入步驟的聲音的輸入結(jié)果，提取作為用于對所述用戶的對話行為的熟練度進(jìn)行判定的要素的熟練度判定要素；履歷積累步驟，其將在所述提取步驟提取的熟練度判定要素作為履歷進(jìn)行積累；熟練度判定步驟，其根據(jù)在所述履歷積累步驟積累的履歷，對所述熟練度判定要素的收斂狀態(tài)進(jìn)行判定，并根據(jù)該判定的收斂狀態(tài)對所述用戶的對話行為的熟練度進(jìn)行判定；對話控制步驟，其根據(jù)在所述熟練度判定步驟判定的所述用戶的熟練度改變對話控制。
全文摘要
本發(fā)明涉及一種聲音對話裝置、對話控制方法以及對話控制程序，能夠不受使用者僅一次偶然的對話行為的影響，準(zhǔn)確地對使用者的對話行為的熟練度進(jìn)行判定，并根據(jù)準(zhǔn)確判定出的熟練度進(jìn)行適當(dāng)?shù)貙υ捒刂?。輸入單?1)對用戶講話的聲音進(jìn)行輸入。提取單元(3)，根據(jù)輸入單元(1)的聲音的輸入結(jié)果，提取熟練度判定要素。履歷積累單元(4)，將由提取單元(3)提取的熟練度判定要素作為履歷進(jìn)行積累。熟練度判定單元(5)，根據(jù)積累于履歷積累單元(4)的履歷，對熟練度判定要素的收斂狀態(tài)進(jìn)行判定，并根據(jù)該判定的收斂狀態(tài)對用戶的對話行為的熟練度進(jìn)行判定。對話控制單元(6)，根據(jù)由熟練度判定單元(5)判定的用戶的熟練度改變對話控制。
文檔編號G10L15/22GK102282610SQ201080004565
公開日2011年12月14日申請日期2010年1月20日優(yōu)先權(quán)日2009年1月20日
發(fā)明者岡本淳, 綾部雅朗申請人:旭化成株式會社

完整全部詳細(xì)技術(shù)資料下載