本發(fā)明涉及一種將用戶(駕駛員)對所提供的信息進行的響應的歷史記錄數(shù)據(jù)進行存儲并學習,基于該學習結果而提供符合用戶(駕駛員)意圖的信息的信息提供裝置、以及存儲信息提供程序的存儲介質。
背景技術:
作為這種信息提供裝置,已知例如國際公開wo2015/162638中所記載的裝置(用戶界面系統(tǒng))。在該裝置中,在通過語音輸入而執(zhí)行功能時,首先使用與當前時刻的車輛狀況相關的信息推定用戶(駕駛員)可能進行的語音操作的候選,將上述推定出的語音操作的候選中概率從高到低的順序的前3個作為選項顯示在觸摸屏上。然后,對從上述選項中由駕駛員手動輸入而選擇的候選進行判斷,確定語音操作的對象,并且與該所確定的語音操作的對象對應而生成催促用戶進行語音輸入的引導并輸出。然后,通過與該引導對應而駕駛員進行語音輸入,從而確定作為對象的車輛功能并執(zhí)行該功能。并且,通過如上所述,通過與當前時刻的車輛狀況對應而提供符合用戶意圖的語音操作的入口,從而能夠降低進行語音輸入的用戶的操作負擔。
但是,在上述文獻所記載的裝置中,在執(zhí)行車輛功能時,用戶界面需要從針對顯示在觸摸屏上的選項進行手動輸入的操作模式切換為利用語音輸入的操作模式,不可避免地導致駕駛員負擔增加。
另外,在上述文獻所記載的裝置中,雖然簡化了語音操作的入口,但其后的操作不過是實現(xiàn)了與現(xiàn)有的語音對話系統(tǒng)相同的功能,因此,人們期望進一步降低駕駛員的負擔。
技術實現(xiàn)要素:
本發(fā)明提供一種信息提供裝置及存儲信息提供程序的存儲介質,其能夠通過始終使用簡單的用戶界面,在減輕駕駛員負擔的同時,作為信息提供而執(zhí)行符合駕駛員意圖的更適當?shù)能囕d設備的操作提案。
本發(fā)明的第1方式所涉及的信息提供裝置具有智能電子控制單元(智能ecu)。所述智能ecu含有:狀態(tài)空間構成部,其通過將多種車輛數(shù)據(jù)關聯(lián)起來而定義車輛的狀態(tài),從而構成多個狀態(tài)的集合即狀態(tài)空間;行動空間構成部,其將表示基于駕駛員對車載設備的操作提案的響應而執(zhí)行的車載設備的操作內容的數(shù)據(jù),定義為行動,從而構成多個行動的集合即行動空間;增強學習部,其存儲駕駛員對所述車載設備的操作提案的響應的歷史記錄,使用該存儲的歷史記錄,設定作為表示所述車載設備的操作提案的適合程度的指標的回報函數(shù),并且通過基于該回報函數(shù)的增強學習,計算出在構成所述狀態(tài)空間的各狀態(tài)下,執(zhí)行構成所述行動空間的各行動的概率分布;分散度運算部,其對所述增強學習部計算出的概率分布的分散度進行運算;以及信息提供部,其在由所述分散度運算部運算出的概率分布的分散度小于閾值時,將成為對象的行動固定為操作提案的對象而輸出,即進行確定的操作提案,在由所述分散度運算部運算出的概率分布的分散度為所述閾值以上時,從多個候選中將成為對象的行動選擇為操作提案的對象而輸出,即,進行試錯性的操作提案。
另外,本發(fā)明的第2方式所涉及的存儲信息提供程序的非易失性計算機可讀介質中,所述信息提供程序使計算機實現(xiàn)下述功能,即:狀態(tài)空間構成功能,其通過將多種車輛數(shù)據(jù)關聯(lián)起來而定義車輛的狀態(tài),從而構成多個狀態(tài)的集合即狀態(tài)空間;行動空間構成功能,其將表示基于駕駛員對車載設備的操作提案的響應而執(zhí)行的車載設備的操作內容的數(shù)據(jù),定義為行動,從而構成多個行動的集合即行動空間;增強學習功能,其存儲駕駛員對所述車載設備的操作提案的響應的歷史記錄,使用該存儲的歷史記錄,設定作為表示所述車載設備的操作提案的適合程度的指標的回報函數(shù),并且通過基于該回報函數(shù)的增強學習,計算出在構成所述狀態(tài)空間的各狀態(tài)下,執(zhí)行構成所述行動空間的各行動的概率分布;分散度運算功能,其對所述增強學習功能計算出的概率分布的分散度進行運算;以及信息提供功能,其在由所述分散度運算功能運算出的概率分布的分散度小于閾值時,將成為對象的行動固定為操作提案的對象而輸出,即進行確定的操作提案,在由所述分散度運算功能運算出的概率分布的分散度為所述閾值以上時,從多個候選中將成為對象的行動選擇為操作提案的對象而輸出,即,進行試錯性的操作提案。
在上述第1、第2方式中,使用駕駛員對車載設備的操作提案的響應的歷史記錄,設定表示車載設備的操作提案的適合程度的指標的回報函數(shù)。并且,通過基于該回報函數(shù)的增強學習,構筑在各狀態(tài)下駕駛員針對車載設備的操作提案的意思決定的模型。另外,使用該構筑好的模型,計算出在各狀態(tài)下基于駕駛員針對車載設備的操作提案的響應而執(zhí)行的車載設備的操作內容的概率分布。在這里,車載設備的操作內容的概率分布的分散度通常是根據(jù)車載設備的操作提案的對象不同而不同的。例如,如果車載設備的操作提案的對象是聲音播放,則通常不僅受到車輛狀態(tài)的影響,還容易受到此時駕駛員的情緒等影響,其選項也非常多,因此,很可能使得車載設備的操作內容的概率分布的分散度變大。另一方面,如果車載設備的操作提案的對象為目的地設定,則通常與聲音播放相比,容易根據(jù)該時刻的車輛狀態(tài)縮小選項范圍,因此,很可能車載設備的操作內容的概率分布的分散度變小。針對這一點,在上述結構中,在概率分布的分散度小于閾值時,將成為對象的行動固定作為操作提案的對象而輸出,即進行確定的操作提案,從而進行符合駕駛員意圖的車載設備的操作提案,而無需駕駛員選擇車載設備的操作內容。另一方面,在上述結構中,在概率分布的分散度為閾值以上時,通過從多個候選中選擇成為對象的行動作為操作提案的對象進行輸出,即進行試錯性的操作提案,從而更可靠得進行符合駕駛員意圖的車載設備的操作提案。即,在上述結構中,無論概率分布的分散度是大還是小,作為操作提案的對象而一次輸出的車載設備的操作內容都只有一個,因此,駕駛員只要對每次提議的車載設備的操作內容進行是否同意的意思表示即可。因此,針對目的地的設定及聲音播放這些概率分布的分散度不同的不同種類的車載設備的操作提案的響應,能夠始終使用簡單且相同的用戶界面進行。由此,能夠在減輕駕駛員的負擔的同時執(zhí)行符合駕駛員意圖的車載設備的操作提案。
本發(fā)明的第3方式所涉及的信息提供裝置具有智能電子控制單元(智能ecu)。智能ecu含有:狀態(tài)空間構成部,其通過將多種車輛數(shù)據(jù)關聯(lián)起來而定義車輛的狀態(tài),從而構成多個狀態(tài)的集合即狀態(tài)空間;行動空間構成部,其將表示基于駕駛員對車載設備的操作提案的響應而執(zhí)行的車載設備的操作內容的數(shù)據(jù),定義為行動,從而構成多個行動的集合即行動空間;增強學習部,其存儲駕駛員對所述車載設備的操作提案的響應的歷史記錄,使用該存儲的歷史記錄,設定作為表示所述車載設備的操作提案的適合程度的指標的回報函數(shù),并且通過基于該回報函數(shù)的增強學習,計算出在構成所述狀態(tài)空間的各狀態(tài)下,執(zhí)行構成所述行動空間的各行動的概率分布;分散度運算部,其通過將與構成所述狀態(tài)空間的多個狀態(tài)相對應的、由所述增強學習部計算出的概率分布的分散度進行加合運算,從而運算所述狀態(tài)空間的分散度;以及信息提供部,其在由所述分散度運算部運算出的所述狀態(tài)空間的分散度小于閾值時,將成為對象的行動固定為操作提案的對象而輸出,即進行確定的操作提案,在由所述分散度運算部運算出的所述狀態(tài)空間的分散度為所述閾值以上時,從多個候選中將成為對象的行動選擇為操作提案的對象而輸出,即,進行試錯性的操作提案。
在第4方式所涉及的存儲信息提供程序的非易失性計算機可讀介質中,所述信息提供程序使計算機實現(xiàn)下述功能,即:狀態(tài)空間構成功能,其通過將多種車輛數(shù)據(jù)關聯(lián)起來而定義車輛的狀態(tài),從而構成多個狀態(tài)的集合即狀態(tài)空間;行動空間構成功能,其將表示基于駕駛員對車載設備的操作提案的響應而執(zhí)行的車載設備的操作內容的數(shù)據(jù),定義為行動,從而構成多個行動的集合即行動空間;增強學習功能,其存儲駕駛員對所述車載設備的操作提案的響應的歷史記錄,使用該存儲的歷史記錄,設定作為表示所述車載設備的操作提案的適合程度的指標的回報函數(shù),并且通過基于該回報函數(shù)的增強學習,計算出在構成所述狀態(tài)空間的各狀態(tài)下,執(zhí)行構成所述行動空間的各行動的概率分布;分散度運算功能,其通過將與構成所述狀態(tài)空間的多個狀態(tài)相對應的、由所述增強學習功能計算出的概率分布的分散度進行加合運算,從而運算所述狀態(tài)空間的分散度;以及信息提供功能,其在由所述分散度運算功能運算出的所述狀態(tài)空間的分散度小于閾值時,將成為對象的行動固定為操作提案的對象而輸出,即進行確定的操作提案,在由所述分散度運算功能運算出的所述狀態(tài)空間的分散度為所述閾值以上時,從多個候選中將成為對象的行動選擇為操作提案的對象而輸出,即,進行試錯性的操作提案。
根據(jù)上述第3、第4方式,使用駕駛員對車載設備的操作提案的響應的歷史記錄,設定表示車載設備的操作提案的適合程度的指標的回報函數(shù)。并且,通過基于該回報函數(shù)的增強學習,構筑在各狀態(tài)下駕駛員針對車載設備的操作提案的意思決定的模型。另外,使用該構筑好的模型,計算出在各狀態(tài)下基于駕駛員針對車載設備的操作提案的響應而執(zhí)行的車載設備的操作內容的概率分布。在這里,車載設備的操作內容的概率分布的分散度通常是根據(jù)車載設備的操作提案的對象不同而不同的。例如,如果車載設備的操作提案的對象是聲音播放,則通常不僅受到車輛狀態(tài)的影響,還容易受到此時駕駛員的情緒等影響,其選項也非常多,因此,很可能使得車載設備的操作內容的概率分布的分散度變大。另一方面,如果車載設備的操作提案的對象為目的地設定,則通常與聲音播放相比,容易根據(jù)該時刻的車輛狀態(tài)縮小選項范圍,因此,很可能車載設備的操作內容的概率分布的分散度變小。針對這一點,在上述結構中,在根據(jù)概率分布的分散度的加合運算值求出的狀態(tài)空間的分散度小于閾值時,將成為對象的行動固定作為操作提案的對象而輸出,即進行確定的操作提案,從而進行符合駕駛員意圖的車載設備的操作提案,而無需駕駛員選擇車載設備的操作內容。另一方面,在上述結構中,在根據(jù)概率分布的分散度的加合運算值求出的狀態(tài)空間的分散度為閾值以上時,通過從多個候選中選擇成為對象的行動作為操作提案的對象進行輸出,即進行試錯性的操作提案,從而更可靠得進行符合駕駛員意圖的車載設備的操作提案。即,在上述結構中,無論狀態(tài)空間的分散度是大還是小,作為操作提案的對象而一次輸出的車載設備的操作內容都只有一個,因此,駕駛員只要對每次提議的車載設備的操作內容進行是否同意的意思表示即可。因此,針對目的地的設定及聲音播放這些概率分布的分散度不同的不同種類的車載設備的操作提案的響應,能夠始終使用簡單且相同的用戶界面進行。由此,能夠在減輕駕駛員的負擔的同時執(zhí)行符合駕駛員意圖的車載設備的操作提案。
在上述第2方式中,也可以是所述增強學習部構成為,在將構成所述狀態(tài)空間的各狀態(tài)至構成所述行動空間的各行動的映射作為策略,且將在所述各狀態(tài)下遵從所述策略的情況下所得到的累計回報的期待值設為狀態(tài)值函數(shù),將構成所述狀態(tài)空間的全部狀態(tài)中使所述狀態(tài)值函數(shù)最大的所述策略設為最優(yōu)策略時,將構成所述狀態(tài)空間的各狀態(tài)下從所述行動空間中選擇了規(guī)定行動后遵從所述最優(yōu)策略的情況下始終得到的累計回報的期待值推定為最優(yōu)行動值函數(shù),基于該推定出的最優(yōu)行動值函數(shù)計算所述概率分布,所述信息提供部構成為,在由所述分散度運算部運算出的所述狀態(tài)空間的分散度小于所述閾值時,將當前狀態(tài)下的使所述最優(yōu)行動值函數(shù)最大化的行動作為對象,進行所述確定的操作提案。
在上述結構中,在狀態(tài)空間的分散度小于閾值時,將當前狀態(tài)下的使最優(yōu)行動值函數(shù)最大化的行動、即在當前狀態(tài)下的最有價值的行動也就是預測駕駛員采用可能性最高的行動作為對象,執(zhí)行確定的操作提案。由此,能夠以更高一級的可靠性實現(xiàn)符合駕駛員意圖的車載設備的操作提案。
在上述信息提供裝置中,也可以是所述信息提供部構成為,在由所述分散度運算部運算出的所述狀態(tài)空間的分散度為所述閾值以上時,其執(zhí)行的所述試錯性的操作提案呈現(xiàn)出的趨勢為,當前狀態(tài)下的所述概率分布的概率密度越高的行動,被選擇為對象的頻率越高。
在上述結構中,在狀態(tài)空間的分散度為閾值以上時,執(zhí)行的試錯性的操作提案呈現(xiàn)出的趨勢為,當前狀態(tài)下的概率分布的概率密度越高的行動,即當前狀態(tài)下駕駛員采用可能性較高的行動被選擇為車載設備的操作提案的對象的頻率越高。由此,對于作為對象的車載設備的操作提案,即使難以事先確定駕駛員的行動,也能夠以更高一級的可靠性實現(xiàn)符合駕駛員意圖的車載設備的操作提案。
在上述信息提供裝置中,也可以使所述分散度運算部將構成所述狀態(tài)空間的各狀態(tài)下的構成所述行動空間的各行動被執(zhí)行的概率分布的分散度定義為熵,并且將所述狀態(tài)空間的分散度定義為平均熵,所述信息提供部使用將所述平均熵的值設定為ε值的ε-貪婪法,以ε值越大則所述試錯性的操作提案頻率越高的趨勢,選擇所述確定的操作提案或所述試錯性的操作提案。
在上述結構中,定義為狀態(tài)空間的分散度的平均熵的值即ε值越大、即狀態(tài)空間的分散度越大,則選擇試錯性的操作提案的頻率越高。由此,對于作為對象的車載設備的操作提案,即使難以確定駕駛員的行動,也能夠以更高一級的可靠性實現(xiàn)符合駕駛員意圖的車載設備的操作提案。
在上述信息提供裝置中,也可以是所述增強學習部構成為,將根據(jù)駕駛員對所述車載設備的操作提案的響應而執(zhí)行的車載設備的操作的頻率,設定為所述回報函數(shù),在與所述車載設備的操作提案對應地進行車載設備的操作時,與該操作歷史記錄的變更對應而更新所述回報函數(shù)。
在上述結構中,作為針對駕駛員意圖的車載設備的操作提案的適合程度的指標,應用根據(jù)駕駛員對車載設備的操作提案的響應而執(zhí)行的行動的頻率設定回報函數(shù),并在每次響應歷史記錄變更時都更新回報函數(shù)。由此,能夠在符合駕駛員意圖的情形下計算出構成狀態(tài)空間的各狀態(tài)下的執(zhí)行構成行動空間的各行動的概率分布,并且能夠隨著駕駛員響應的頻率增加,在符合駕駛員個人進行的響應的實際狀態(tài)的情形下提高概率分布的精度。
在上述信息提供裝置中,也可以是所述狀態(tài)空間構成部構成為,作為將所述車載設備的操作狀況、所述車輛的乘客的特性、以及所述車輛的行駛狀況關聯(lián)起來的數(shù)據(jù)組即狀態(tài)的集合,構成所述狀態(tài)空間。
在上述結構中,考慮車載設備的操作狀況、車輛的乘客的特性、以及車輛的行駛狀況等多種對向駕駛員提出的車載設備的操作提案產生影響的要素,定義構成狀態(tài)空間的各狀態(tài)。由此,能夠在更高一級地符合實際情況的情形下,實現(xiàn)符合駕駛員意圖的車載設備的操作提案。此外,在上述結構中,如上所述考慮到各種要素后,還可預想到構成狀態(tài)空間的狀態(tài)的數(shù)量變得龐大這一情況。但是,通過在存儲歷史記錄數(shù)據(jù)的同時使用實現(xiàn)精度提高的增強學習的方法,從而即使沒有例如像使用監(jiān)督學習那樣事先準備龐大數(shù)量的訓練數(shù)據(jù),也能夠實現(xiàn)符合駕駛員意圖的車載設備的操作提案。
附圖說明
下面,參照附圖記載本發(fā)明所示例的實施例的特征、優(yōu)點、以及技術上和工業(yè)上的意義,在附圖中,同一附圖標記示出同一部件。
圖1是表示信息提供裝置的第1實施方式的概略結構的框圖。
圖2是表示對狀態(tài)空間進行定義的車輛數(shù)據(jù)的屬性的一個例子的圖。
圖3是表示狀態(tài)空間表格的設定內容的一個例子的圖。
圖4是表示對狀態(tài)空間進行定義的車輛數(shù)據(jù)的屬性的一個例子的圖。
圖5是表示狀態(tài)空間表格的設定內容的一個例子的圖。
圖6是表示行動空間表格的設定內容的一個例子的圖。
圖7是表示行動空間表格的設定內容的一個例子的圖。
圖8是表示在構成狀態(tài)空間的各狀態(tài)下進行構成行動空間的各行動時的跳轉概率矩陣的一個例子的圖。
圖9是表示執(zhí)行試錯性的操作提案時使用的累積分布函數(shù)的一個例子的曲線圖。
圖10a是表示對當前狀態(tài)進行定義的車輛數(shù)據(jù)的屬性的一個例子的圖,圖10b是用于說明在圖10a所示的狀態(tài)下選擇確定的操作提案所使用的行動的過程的圖。
圖11a是表示對當前狀態(tài)進行定義的車輛數(shù)據(jù)的屬性的一個例子的圖,圖11b是用于說明在圖11a所示的狀態(tài)下選擇試錯性的操作提案所使用的行動的過程的圖。
圖12是表示方向盤操作開關的一個例子的圖。
圖13是作為信息提供處理的一個例子而示出車載設備的操作提案處理的處理內容的流程圖。
圖14是表示在包括確定的操作提案的方式下,智能ecu與駕駛員之間交互對話的內容的一個例子的圖。
圖15是表示在包括試錯性的操作提案的方式下,智能ecu與駕駛員之間交互對話的內容的一個例子的圖。
圖16是用于說明信息提供裝置的第2實施方式中,選擇確定的操作提案及試錯性的操作提案的過程的圖。
圖17是表示方向盤操作開關的另一個例子的圖。
圖18是表示方向盤操作開關的其它例子的圖。
具體實施方式
(第1實施方式)以下,說明信息提供裝置的第1實施方式。本實施方式的信息提供裝置由智能ecu(電子控制裝置)構成,該智能ecu搭載于車輛上,向駕駛員進行作為信息提供的車載設備的操作提案。在這里,智能ecu的功能大致劃分為學習類、信息獲取類、用戶界面類。并且,智能ecu基于通過信息獲取類獲取到的各種信息,將車載設備的操作歷史記錄根據(jù)當時的各種車輛狀態(tài)而分類,并在學習類中作為學習的一個方式而執(zhí)行增強學習,并且基于該增強學習的學習結果,執(zhí)行經(jīng)由用戶界面類的車載設備的操作提案。在這里,增強學習是指,在智能ecu基于環(huán)境選擇了某種行動時,通過與基于該所選擇的行動發(fā)生的環(huán)境變化相伴而對智能ecu產生的某種回報,從而通過試錯使得智能ecu不斷適應環(huán)境的學習方法。此外,在本實施方式中,智能ecu將例如車載設備的操作狀況、車輛的乘客的特性、車輛的行駛狀況等各種車輛數(shù)據(jù)彼此關聯(lián)起來而定義狀態(tài),從而構成多個狀態(tài)的集合即狀態(tài)空間。另外,智能ecu將伴隨著駕駛員對操作提案的響應而智能ecu能夠代替實行的某一車載設備的操作的種類定義為行動,從而構成多個行動的集合即行動空間。并且,在構成狀態(tài)空間的各狀態(tài)下,作為針對車載設備的操作提案的響應而執(zhí)行的車載設備的操作的歷史記錄,相當于增強學習中所謂的回報。另外,智能ecu通過執(zhí)行上述增強學習,計算出在構成狀態(tài)空間的各狀態(tài)下執(zhí)行構成行動空間的各行動的概率分布。另外,智能ecu基于上述計算出的概率分布,根據(jù)此刻的車輛狀態(tài)預測駕駛員采用可能性較高的行動,以添加該預測結果的方式執(zhí)行車載設備的操作提案。
首先,參照附圖說明本實施方式的裝置的構成。如圖1所示,智能ecu100具有:控制部110,其控制車載設備的操作提案;以及存儲部120,其存儲控制部110在進行車載設備的操作提案時執(zhí)行的信息提供程序、以及執(zhí)行該信息提供程序時控制部110讀寫的各種數(shù)據(jù)。在這里,作為存儲在存儲部120中各種數(shù)據(jù),包括定義狀態(tài)空間的狀態(tài)空間表格t1、t1α,定義行動空間的行動空間表格t2、t2α、以及車載設備的操作歷史記錄ra。狀態(tài)空間表格作為狀態(tài)空間構成部起作用,行動空間表格作為行動空間構成部起作用。此外,在本實施方式中,準備了例如聲音播放、目的地設定、空調設定、座椅位置設定、鏡子設定、雨刷設定等多種作為操作提案的對象的服務種類。并且,在智能ecu100的存儲部120中,針對上述服務的各個種類而分別存儲相應的狀態(tài)空間表格t1、t1α及行動空間表格t2、t2α。
圖2中,作為操作提案的一個例子而示出在進行目的地設定時狀態(tài)定義所使用的車輛數(shù)據(jù)的屬性的一個例子。在這里,車輛數(shù)據(jù)的屬性是指作為對目的地設定的方法有幫助的要素而預先登記的內容,在該圖所示的例子中,包括與車載設備的操作狀況da、車輛的乘客的特性db、車輛的行駛狀況dc相關的車輛數(shù)據(jù)。此外,作為與車載設備的操作狀況da相關的車輛數(shù)據(jù)的一個例子,舉出目的地da1、時刻da2、星期幾da3、當前位置da4。另外,作為與車輛的乘客的特性db相關的車輛數(shù)據(jù)的一個例子,舉出有無配偶db1、有無孩子db2、同行人數(shù)量db3、有無愛好db4、目的db5。另外,作為與車輛的行駛狀況dc相關的車輛數(shù)據(jù)的一個例子,舉出交通狀況(堵車程度)dc1、天氣dc2。
并且,如圖3所示,狀態(tài)空間表格t1通過將圖2所示的車輛數(shù)據(jù)的屬性通過輪詢方式進行組合而定義狀態(tài),構成多個狀態(tài)的集合即狀態(tài)空間。在這里,狀態(tài)空間表格t1含有的狀態(tài)的數(shù)量m(例如為400萬左右)隨著構成車輛數(shù)據(jù)的屬性的要素種類(在圖2所示的例子中,包括從左側開始順序為“目的地”至“天氣”為止的11種)或各要素的參數(shù)數(shù)量(在圖2所示的例子中,例如作為“目的地”的參數(shù)數(shù)量為8個)變多而增加。
另一方面,圖4中,作為操作提案的一個例子而示出進行聲音播放時的狀態(tài)定義所使用的車輛數(shù)據(jù)的屬性的一個例子。在這里,車輛數(shù)據(jù)的屬性是指作為對聲音播放的方式有幫助的要素而預先登記的內容,在該圖所示的例子中,包含與車載設備的操作狀況daα、車輛的乘客的特性dbα、車輛的行駛狀況dcα相關的車輛數(shù)據(jù)。此外,作為與車載設備的操作狀況daα相關的車輛數(shù)據(jù)的一個例子,舉出音源da1α、重復播放設定da2α、音量da3α、時刻da4α、星期幾da5α、當前位置da6α。另外,作為與車輛的乘客的特性dbα相關的車輛數(shù)據(jù)的一個例子,舉出有無配偶db1α、有無孩子db2α、同行人數(shù)量db3α、駕駛員的困倦程度db4α。另外,作為與車輛的行駛狀況dcα相關的車輛數(shù)據(jù)的一個例子,舉出包括車輛周邊的城市化·郊野化的程度及道路環(huán)境在內的環(huán)境dc1α。
并且,如圖5所示,狀態(tài)空間表格t1α通過將圖4所示的車輛數(shù)據(jù)的屬性通過輪詢方式進行組合而定義狀態(tài),構成多個狀態(tài)的集合即狀態(tài)空間。在這里,狀態(tài)空間表格t1α含有的狀態(tài)的數(shù)量n(例如為15億左右)也是隨著構成車輛數(shù)據(jù)的屬性的要素種類或各要素的參數(shù)數(shù)量變多而增加。
圖6示出智能ecu100對作為操作提案的一個例子的代為實行目的地設定時的行動進行定義而構成多個行動的集合即行動空間的行動空間表格t2的一個例子。在該圖所示的例子中,作為行動空間含有的行動的種類,舉出作為設定的對象的目的地的場所名稱的一覽。在這里,作為設定的對象的目的地的場所是指,例如作為過去由駕駛員自己設定的頻率特別高的場所名而預先登記的內容,在該圖所示的例子中,除了“家”,“父母家”之外,還登記有“場所1”~“場所6”等共計8個場所名。
另外,圖7示出智能ecu100對作為操作提案的一個例子的代為實行聲音播放時的行動進行定義而構成多個行動的集合即行動空間的行動空間表格t2α的一個例子。在該圖所示的例子中,作為行動空間所包含的行動的種類,舉出作為播放對象的音源的一覽。在這里,作為播放對象的音源是指,例如作為過去由駕駛員播放的頻率特別高的音源而預先登記的內容,在該圖所示的例子中,登記有包括收音機的頻道名、以及移動終端或cd(compactdisk)等存儲介質中保存的樂曲的曲名在內的共計100個音源。
另外,如圖1所示,智能ecu100經(jīng)由例如can(控制器局域網(wǎng))等構成的車輛網(wǎng)絡nw而與其它ecu組130、傳感器組131、以及開關組132連接。
其它ecu組130是控制各種車載設備的動作的車載ecu,包括對發(fā)動機、制動器、轉向舵等進行控制的車輛驅動類的車載ecu、對空調、儀表等進行控制的車身類的車載ecu、對導航系統(tǒng)、音頻系統(tǒng)等進行控制的信息類的車載ecu。
傳感器組131是用于取得各種車輛數(shù)據(jù)的傳感器組,包括gps(全球定位系統(tǒng))傳感器、激光雷達、紅外線傳感器、超聲波傳感器、雨滴傳感器、外部氣溫傳感器、車廂內溫度傳感器、就座傳感器、安全帶佩戴狀態(tài)傳感器、車廂內照相機、智能鑰匙傳感器(注冊商標“スマートキー”)、入侵監(jiān)視傳感器、花粉等微粒傳感器、加速度傳感器、電場強度傳感器、駕駛員監(jiān)視器、車速傳感器、轉向角傳感器、偏航率傳感器,生物體傳感器。
開關組132是用于對各種車載設備的動作進行切換的開關組,包括轉向桿開關、雨刷操作開關、車燈操作開關、方向盤操作開關、導航·音頻操作開關、車窗操作開關、車門·行李箱開閉·鎖定開關、空調操作開關、座椅加熱·通風開關、座椅位置調整·預設值存儲開關、入侵監(jiān)視系統(tǒng)開關、后視鏡操作開關、自適應巡航控制(acc)開關、發(fā)動機開關。
并且,智能ecu100的控制部110在從上述其它ecu組130、傳感器組131、及開關組132經(jīng)由車輛網(wǎng)絡nw輸入了各種車輛數(shù)據(jù)后,參照存儲在存儲部120中的狀態(tài)空間表格t1、t1α確定相應的車輛狀態(tài)。另外,智能ecu100的控制部110在每次根據(jù)駕駛員針對車載設備的操作提案的響應而從行動空間所包含的行動中選擇規(guī)定的行動并執(zhí)行車載設備的操作時,都對存儲在存儲部120中的車載設備的操作歷史記錄ra中與該狀態(tài)對應的操作歷史記錄的計數(shù)值進行累加計算。在這一點上,智能ecu100的控制部110是存儲在構成狀態(tài)空間的各狀態(tài)下駕駛員針對車載設備的操作提案的響應的歷史記錄數(shù)據(jù)的部件。
另外,智能ecu100的控制部110,對于在如上所述進行了學習的各狀態(tài)下,將接受操作提案時的車載設備的操作歷史記錄的計數(shù)值設定為回報函數(shù),同時作為通過以下(步驟1)~(步驟7)的流程執(zhí)行增強學習種類之一的q學習的增強學習部111起作用。
(步驟1)在將從構成狀態(tài)空間的各狀態(tài)至構成行動空間的各行動的映射作為策略π時,在初始設定任意的策略π。(步驟2)觀測當前狀態(tài)st(t為時間步長)。(步驟3)基于任意的行動選擇方法執(zhí)行行動at(t為時間步長)。(步驟4)獲取回報rt(t為時間步長)。(步驟5)觀測狀態(tài)跳轉后的狀態(tài)s(t+1)(其前提為,向狀態(tài)s(t+1)的跳轉僅與此時的狀態(tài)st和行動at相關,并不受到此前的狀態(tài)及行動的影響(即所謂的馬爾可夫性))。(步驟6)更新行動值函數(shù)q(st,at)。(步驟7)將時間步長t前進至(t+1)后返回(步驟1)。
此外,作為在(步驟3)的流程中的行動選擇方法,可以使用后述的必定選擇使行動值函數(shù)q(st,at)的值為最大的行動的貪婪法,或者相反地使用將各種行動以相同概率進行選擇的隨機法。另外,還可以使用以概率ε通過隨機法進行行動選擇且以概率(1-ε)通過貪婪法進行行動選擇的ε-貪婪法,或者以高概率選擇行動值函數(shù)q(st,at)較高的行動且以低概率選擇行動值函數(shù)q(st,at)較低的行動的玻爾茲曼選擇等方法。
另外,在(步驟6)的流程中的行動值函數(shù)q(st,at)的更新基于下述算式(1)進行。
q(st,at)=(1-α)q(st,at)+α(rt+γmaxat+1∈aq(st+1,at+1))
...(1)
此外,在算式(1)中將學習率α設定為0<α<1的數(shù)值范圍內。這是為了使得隨著時間經(jīng)過而不斷更新的行動值函數(shù)q(st,at)的增大量逐漸減少而容易收斂。另外,在該算式(1)中,q(st,at)表示上述的行動值函數(shù),其表示以增強學習部111與時間經(jīng)過無關地采取固定策略π為前提時,在狀態(tài)st下采用行動at后遵從策略π的情況所得到的折算累積回報rt的期待值。在這里,折算累積回報rt是指在反復發(fā)生狀態(tài)跳轉中得到的回報的總和,根據(jù)以下算式(2)得出。
此外,在算式(2)(算式(1)也相同地)中,將折算率γ設定在0<γ<1的數(shù)值范圍內。這是為了使得隨著時間經(jīng)過而得到的回報值逐漸減少,從而使得折算累積回報rt的值容易收斂。
然后,增強學習部111通過反復進行上述(步驟1)~(步驟7)的流程,從而計算出使行動值函數(shù)q(st,at)最大化(最優(yōu)化)的最優(yōu)行動值函數(shù)q*(st,at)。在這里,最優(yōu)行動值函數(shù)q*(st,at)表示在將表示狀態(tài)st下遵從策略π的情況所得到的折算累積回報rt的期待值的函數(shù)設為狀態(tài)值函數(shù)v(st),將所有狀態(tài)st下滿足v(st)≧v’(st)的策略π作為最優(yōu)策略π*時,在狀態(tài)st下選擇行動at后遵從最優(yōu)策略π*的情況下所得到的折算累積回報rt的期待值。
并且,增強學習部111將如上所述得到的最優(yōu)行動值函數(shù)q*(st,at)代入以下算式(3)。由此,計算出從構成狀態(tài)空間的各狀態(tài)向構成行動空間的各行動跳轉的跳轉概率矩陣中的使折算累積回報rt最大化的跳轉概率矩陣、即計算出考慮各狀態(tài)的操作歷史記錄ra的計數(shù)值且符合駕駛員意圖的跳轉概率矩陣p(st,at)。
圖8示出如上所述計算出的跳轉概率矩陣p(st,at)的一個例子。跳轉概率矩陣p(st,at)的各行對應于構成狀態(tài)空間的各狀態(tài),各列對應于構成行動空間的各行動。并且,在該圖所示的例子中,例如將狀態(tài)s1下采用行動a1的概率設為“0.01”,在該狀態(tài)s1下采用行動a2的概率設為“0.10”,在該狀態(tài)s1下采用行動a100的概率設為“0.03”。
并且,智能ecu100的控制部110在將上述概率作為p時,使用圖8所示的算式計算出信息熵h(s)。此外,信息熵h(s)是作為概率分布的分散度的指標的參數(shù)。從這一點來說,智能ecu100的控制部110還作為對由增強學習部111計算出的概率分布的分散度進行運算的分散度運算部112起作用。并且,信息熵h(s)的值越大,就表示概率分布的分散度越大,即狀態(tài)st下采用構成行動空間的各行動的概率越均勻地分散。因此,在信息熵h(s)的值較大的情況下,難以預測駕駛員要從構成行動空間的行動中采用的行動。
另外,分散度運算部112如以下的算式(4)所示,將針對構成狀態(tài)空間的各狀態(tài)計算出的信息熵h(s)進行加合運算而計算出平均熵h(ω)。
此外,平均熵h(ω)是表示狀態(tài)空間的分散度的參數(shù)。并且,平均熵h(ω)的值越大,表示狀態(tài)空間的分散度就越大,即在對狀態(tài)空間整體進行觀察時各狀態(tài)下采用構成行動空間的各行動的概率就越均勻地分散。因此,平均熵h(ω)的值成為能否針對作為操作提案的對象的服務而預測駕駛員從構成行動空間的行動中可能采用的行動的指標。
因此,智能ecu100的控制部110還作為提案信息生成部113起作用,該提案信息生成部113根據(jù)以下算法而使用將由增強學習部111求出的平均熵h(ω)作為ε值的ε-貪婪法,生成與車載設備的操作提案相關的信息。提案信息生成部還作為信息提供部起作用。
此外,在上述算法中,提案信息生成部113設定落在0~1的數(shù)值范圍內的隨機數(shù)δ(閾值),在滿足“δ>ε”的條件時,應用算式(5)。即,由增強學習部111求出的平均熵h(ω)的值越小,提案信息生成部113就越提高應用算式(5)的頻率。并且,提案信息生成部113通過應用算式(5),將如上所述使得由增強學習部111求出的最優(yōu)行動值函數(shù)q*(st,at)最大化的行動a也就是狀態(tài)s下最有價值的行動作為操作提案的對象進行輸出,即執(zhí)行確定的操作提案。
另一方面,在上述算法中,提案信息生成部113在滿足“δ≦ε”的條件時,應用算式(6)。即,由增強學習部111求出的平均熵h(ω)的值越大,提案信息生成部113就越提高應用算式(6)的頻率。提案信息生成部113在應用算式(6)時,首先將某一狀態(tài)s下采用構成行動空間的各行動的概率進行加合運算而求出累積分布函數(shù)f(s)。并且,提案信息生成部113在設定與上述隨機數(shù)δ不同的變量即落在0~1的數(shù)值范圍內的隨機數(shù)τ時,執(zhí)行將滿足“f(s)=τ”的行動作為操作提案的對象進行輸出的試錯性的操作提案。
根據(jù)圖9中作為一個例子而示出的累積分布函數(shù)f(s)也可知,與采用構成行動空間的各行動的概率對應地,累積分布函數(shù)f(s)的增加量也發(fā)生變動。具體地說,在概率較高的行動所對應的橫軸的區(qū)間,累積分布函數(shù)f(s)的增加量變得劇烈,另一方面,在概率較低的行動所對應的橫軸的區(qū)間,累積分布函數(shù)f(s)的增加量也變得緩慢。因此,在使隨機數(shù)τ在0~1的數(shù)值范圍內變化時,概率較高的行動更容易滿足“f(s)=τ”這一條件,概率較低的行動難以滿足“f(s)=τ”這一條件。由此,如上述所示,在將滿足“f(s)=τ”的行動作為操作提案的對象進行輸出時,以概率越高的行動被選擇的頻率就越高的趨勢而進行輸出。此外,在該圖所示的例子中,滿足f(s)=τ時的所對應的行動為行動a3’。因此,從構成行動空間的多個行動中選擇行動a3’作為操作提案的對象而輸出。
圖10a、b示出用于說明在作為操作提案而進行目的地設定時,使用ε-貪婪法進行確定的操作提案和試錯性的操作提案的選擇的具體例子。
在該例子中,如圖10a所示,智能ecu100首先基于通過車輛網(wǎng)絡nw獲取的各種車輛數(shù)據(jù),提取出當前狀態(tài)符合狀態(tài)空間表格t1中構成狀態(tài)空間的各狀態(tài)中的哪一個狀態(tài)(在該圖中,提取出狀態(tài)si)。并且,在該例子中,處于根據(jù)跳轉概率矩陣p(st,at)求出的平均熵h(ω)比較高的狀況,進行應用上述算式(5)的確定的操作提案的頻率變高。在此情況下,如圖10b所示,智能ecu100將構成行動空間的各行動中的當前狀態(tài)下最有價值的行動(在該圖所示的例子中為“家”)作為操作提案的對象而輸出。
另外,圖11a、b示出用于說明在作為操作提案而進行聲音播放時,使用ε-貪婪法進行確定的操作提案和試錯性的操作提案的選擇的具體例子。
該例子如圖11a所示,智能ecu100首先基于通過車輛網(wǎng)絡nw獲取的各種車輛數(shù)據(jù),提取出當前狀態(tài)符合狀態(tài)空間表格t1α中構成狀態(tài)空間的各狀態(tài)中的哪一個狀態(tài)(在該圖中,提取出狀態(tài)sj)。并且,在該例子中,處于根據(jù)跳轉概率矩陣p(st,at)求出的平均熵h(ω)較低的狀況,進行應用上述算式(6)的試錯性的操作提案的頻率變高。在此情況下,如圖11b所示,智能ecu100以構成行動空間的各行動中的從當前狀態(tài)跳轉的跳轉概率的概率密度越高的行動被選擇的頻率就越高的趨勢,作為操作提案的對象而隨機輸出(在該圖所示的例子中為“fmd”)。
并且,智能ecu100將上述作為操作提案的對象輸出的行動的相關信息,經(jīng)由車輛網(wǎng)絡nw向揚聲器等聲音輸出部140、或者lcd(液晶顯示器)及hud(抬頭顯示器)等的圖像輸出部141發(fā)送,執(zhí)行經(jīng)由聲音或圖像的車載設備的操作提案。
另外,智能ecu100還作為操作檢測部114起作用,該操作檢測部114經(jīng)由車輛網(wǎng)絡nw接收經(jīng)由方向盤操作開關、拾音器等操作輸入部142的操作輸入、或者語音輸入的操作信號,從而檢測駕駛員對操作提案的響應。
圖12是用于說明經(jīng)由方向盤操作開關進行的操作輸入的一個例子的圖。在該圖所示的例子中,方向盤操作開關142a具有4個操作按鈕ba1~ba4,這些操作按鈕中位于上方的第1操作按鈕ba1及位于下方的第2操作按鈕ba2,被分配為在對來自智能ecu100的操作提案進行響應時操作的操作按鈕。并且,在接受操作提案時操作第1操作按鈕ba1,相反,在拒絕操作提案時操作第2操作按鈕ba2。另外,這些操作按鈕中位于左方的第3操作按鈕ba3及位于右方的第4操作按鈕ba4,被分配為在進行與來自智能ecu100的操作提案無關的車載設備操作時進行操作的操作按鈕。并且,通過由駕駛員自己手動輸入而操作車載設備時,操作第3操作按鈕ba3,在駕駛員自己進行與此刻的車輛狀態(tài)無關且以較高頻率進行的車載設備的操作時,操作第4操作按鈕ba4。此外,第4操作按鈕ba4也可以被分配成為如下的操作按鈕,即,將從外部服務器獲取的、在與當前狀況為相同狀況時其他駕駛員曾經(jīng)進行的車載設備的操作相關的信息,提供給本駕駛員時進行操作的操作按鈕。
并且,智能ecu100的控制部110在由操作檢測部114檢測出操作信號后,促使從學習更新觸發(fā)部115向增強學習部111發(fā)送觸發(fā)信號。此外,如上所述,在本實施方式中,接受操作提案時的車載設備的操作歷史記錄的計數(shù)值被設定為增強學習中的回報函數(shù)。因此,如果以圖12所示的方向盤操作開關142a為例,則在操作第1操作按鈕ba1而接受操作提案時,從學習更新觸發(fā)部115向增強學習部111發(fā)送觸發(fā)信號。
并且,增強學習部111在從學習更新觸發(fā)部115接收到觸發(fā)信號后,基于該時刻通過車輛網(wǎng)絡nw獲取的各種車輛數(shù)據(jù),確定當前狀態(tài)符合狀態(tài)空間表格t1、t1α中的構成狀態(tài)空間的各狀態(tài)中的哪一種狀態(tài)。并且,增強學習部111對存儲在存儲部120中的車載設備的操作歷史記錄ra中與該狀態(tài)對應的操作歷史記錄的計數(shù)值進行累加計算。
另外,增強學習部111在更新車載設備的操作歷史記錄ra后,使用與該操作歷史記錄ra更新一起更新后的回報函數(shù),重新計算出最優(yōu)行動值函數(shù)q*(st,at)、及基于該最優(yōu)行動值函數(shù)q*(st,at)得到的跳轉概率矩陣p(st,at)。并且,提案信息生成部113基于由增強學習部111重新計算出的跳轉概率矩陣p(st,at),執(zhí)行符合駕駛員意圖的車載設備的操作提案。
然后,針對本實施方式的智能ecu100讀出存儲在存儲部120中的信息提供程序并執(zhí)行的車載設備的操作提案處理,說明該具體的處理步驟。在這里,智能ecu100以車輛的點火開關接通為條件,開始圖13所示的車載設備的操作提案處理。
如圖13所示,在該車載設備的操作提案處理中,首先智能ecu100判定存儲在存儲部120中的操作歷史記錄ra是否更新、即是否從學習更新觸發(fā)部115向增強學習部111發(fā)送了觸發(fā)信號(步驟s10)。
然后,智能ecu100在操作歷史記錄ra有更新時(步驟s10=是),因回報函數(shù)也被同時更新了,所以使用該更新后的回報函數(shù)而通過增強學習部111計算出最優(yōu)行動值函數(shù)q*(st,at)(步驟s11)。
另外,智能ecu100基于如上述所示計算出的最優(yōu)行動值函數(shù)q*(st,at),通過增強學習部111計算出從構成狀態(tài)空間的各狀態(tài)向構成行動空間的各行動跳轉的跳轉概率矩陣p(st,at)(步驟s12)。
另外,智能ecu100基于如上述所示計算出的跳轉概率矩陣p(st,at),通過分散度運算部112計算出構成狀態(tài)空間的各狀態(tài)的各自的信息熵h(s)(步驟s13)。進而,智能ecu100通過分散度運算部112計算出對各狀態(tài)的各自的信息熵h(s)進行加合運算而得到的平均熵h(ω)(步驟s14)。
并且,智能ecu100在如上述所示計算出的平均熵h(ω)小于作為隨機數(shù)設定的隨機數(shù)δ時(步驟s15=是),將使得在先前的步驟s11中計算出的最優(yōu)行動值函數(shù)q*(st,at)最大化的行動a,作為自動設定的對象而從提案信息生成部113固定地向聲音輸出部140或圖像輸出部141輸出,即執(zhí)行確定的操作提案(步驟s16)。
另一方面,智能ecu100在先前的步驟s14中計算出的平均熵h(ω)為隨機數(shù)δ以上時(步驟s15=否),基于在先前的步驟s12中計算出的跳轉概率矩陣p(st,at),以在當前狀態(tài)st下執(zhí)行概率越高的行動則被選擇的頻率越高的趨勢,將該行動作為自動設定的對象隨機輸出,即執(zhí)行試錯性的操作提案(步驟s17)。
然后,智能ecu100在駕駛員對先前的步驟s16或先前的步驟s17的操作提案進行響應時,通過操作輸入部142獲取與該響應相關的信息(步驟s18)。并且,智能ecu100判斷如上述所示獲取到的來自駕駛員的響應是否為接受操作提案(步驟s19)。例如在經(jīng)由方向盤操作開關進行操作輸入的情況下,根據(jù)是否按壓了確定按鈕(在圖12所示的例子中為第1操作按鈕ba1)、或者在經(jīng)由拾音器進行語音輸入的情況下,根據(jù)是否輸入了表示肯定響應的單詞(例如“是”、“yes”等)而進行上述判斷。
并且,在來自駕駛員的響應為接受操作提案時(步驟s19=是),智能ecu100執(zhí)行在先前的步驟s16或步驟s17中作為自動設定的對象而輸出的行動(步驟s20)。另外,智能ecu100隨著作為自動設定的對象而輸出的行動的執(zhí)行,從學習更新觸發(fā)部115向增強學習部111發(fā)送觸發(fā)信號,在通過增強學習部111更新車載設備的操作歷史記錄ra后(步驟s21),使該處理跳轉至步驟s22。
另一方面,智能ecu100在來自駕駛員的響應并非接受操作提案時(步驟s19=否),不經(jīng)過前述步驟s20及步驟s21的處理而使處理跳轉至步驟s22。
然后,智能ecu100在車輛的點火開關接通的期間(步驟s22=否),使該處理返回步驟s10,以規(guī)定周期反復進行步驟s10~步驟s22的處理。此時,如果在先前的步驟s21中更新了車載設備的操作歷史記錄ra,智能ecu100則使用伴隨該操作歷史記錄ra更新而一起更新后的回報函數(shù),重新計算出最優(yōu)行動值函數(shù)q*(st,at)、以及基于該最優(yōu)行動值函數(shù)q*(st,at)的新的跳轉概率矩陣p(st,at)(步驟s11、步驟s12)。并且,智能ecu100基于重新計算出的跳轉概率矩陣p(st,at),作為車載設備的操作提案而執(zhí)行上述的確定的操作提案或試錯性的操作提案(步驟s16、步驟s17)。
然后,在每次作為對操作提案的響應而駕駛員對操作輸入部142進行操作接受操作提案時,智能ecu100都更新車載設備的操作歷史記錄ra,并與該更新一起反復進行由增強學習部111進行的增強學習。由此,隨著駕駛員對車載設備的操作提案的響應頻率不斷增加,跳轉概率矩陣p(st,at)的精度提高并從而符合駕駛員個人行動的實際情況。
下面,針對本實施方式的智能ecu100的作用,特別著眼于在執(zhí)行車載設備的操作提案時的作用進行如下說明。在執(zhí)行車載設備的操作提案時,通常,與此時的車輛狀態(tài)對應而提前預測駕駛員要采用的行動的難度是隨著成為對象的操作提案的種類不同而變化的。例如收音機播放或樂曲播放等在車輛行駛時的聲音播放,通常不僅受到車輛狀態(tài)的影響,還容易受到此時的駕駛員的情緒等影響,其選項也很多。因此,提前預測駕駛員要采用的行動變得困難這一情況是可以預想到的。另一方面,例如目的地設定等,可以預想到,通常與聲音播放相比,容易根據(jù)此時的車輛狀態(tài)縮小選項范圍,從而提前預測駕駛員要采用的行動。
因此,在本實施方式中,智能ecu100針對各種不同的操作提案種類,將作為對操作提案的響應而進行的車載設備的操作歷史記錄ra作為日志進行記錄,執(zhí)行將記錄到的操作歷史記錄ra設定為回報函數(shù)的增強學習。由此,智能ecu100以符合駕駛員個人行動的實際情況的方式,計算出從構成狀態(tài)空間的各狀態(tài)向構成行動空間的各行動跳轉的跳轉概率矩陣p(st,at)。
在此情況下,如上述所示,在基于與聲音播放對應的車載設備的操作歷史記錄ra計算出的跳轉概率矩陣p(st,at)中,在構成狀態(tài)空間的各狀態(tài)下采用構成行動空間的各行動的概率相對容易分散。另一方面,也如上述所示,在基于與目的地設定對應的車載設備的操作歷史記錄ra計算出的跳轉概率矩陣p(st,at)中,在構成狀態(tài)空間的各狀態(tài)下采用構成行動空間的各行動的概率相對難以分散。
因此,在本實施方式中,智能ecu100基于將構成狀態(tài)空間的各狀態(tài)的各自的信息熵h(s)的值進行加合運算而得到的平均熵h(ω)的值,進行上述狀態(tài)空間的分散度的評價。
并且,智能ecu100在平均熵h(ω)小于隨機數(shù)δ時,將當前狀態(tài)下最有價值的行動固定為操作提案的對象而輸出,即執(zhí)行確定的操作提案。在此情況下,平均熵h(ω)的值越小,智能ecu100就越提高執(zhí)行確定的操作提案的頻率。
圖14示出以包含確定的操作提案的方式在智能ecu100和駕駛員之間進行交互對話的內容的一個例子。在該圖所示的例子中,智能ecu100作為確定的操作提案而確認成為自動設定的對象的目的地是否為“家”。并且,智能ecu100在駕駛員輸入了表示接受確定的操作提案這一情況的聲音指令(在該圖所示的例子中為“yes”)后,作為目的地而自動設定為“家”。這樣,智能ecu100在例如目的地設定這種易于確定當前狀態(tài)下駕駛員采用構成行動空間的行動中的哪一種行動的狀況下,能夠進行符合駕駛員意圖的車載設備的操作提案,而無需駕駛員進行選擇行動的操作。
另一方面,智能ecu100在平均熵h(ω)為隨機數(shù)δ以上時,以從當前狀態(tài)跳轉的跳轉概率的概率密度越高則被選擇的頻率越高的趨勢,將隨機選擇的行動作為操作提案的對象輸出,即執(zhí)行試錯性的操作提案。在此情況下,平均熵h(ω)的值越大,智能ecu100執(zhí)行試錯性的操作提案的頻率越高。
圖15示出以包含試錯性的操作提案的方式在智能ecu100和駕駛員之間進行交互對話的內容的一個例子。在該圖所示的例子中,智能ecu100首先向駕駛員確認是否開始試錯性的操作提案。然后,智能ecu100在駕駛員輸入接受試錯性的操作提案的聲音指令(在該圖所示的例子中為“yes”)后,作為在從當前狀態(tài)跳轉的跳轉概率的概率密度較高的行動中隨機選擇的行動,將“fma”這一選擇向駕駛員提出。然后,智能ecu100在駕駛員輸入接受所提出的聲音方案的聲音指令后,作為聲音方案而自動設定“fma”。另外,如果在播放聲音后,被輸入了拒絕所提出的聲音方案的聲音指令(在該圖所示的例子中為“no”)后,智能ecu100以上述跳轉概率的概率密度越高的行動則被選擇的頻率越高的趨勢,作為隨機選擇的其它行動而將“cd樂曲n”這一選擇向駕駛員提出。并且,智能ecu100以跳轉概率的概率密度越高的行動則被選擇的頻率越高的趨勢,將隨機選擇的其它行動依次向駕駛員提出,直至駕駛員輸入了接受所提出的聲音方案的聲音指令為止。并且,在“cd樂曲2”這一選擇的提案被接受時,智能ecu100作為聲音而自動設定“cd樂曲2”。這樣,智能ecu100在例如聲音設定這種難以確定在當前狀態(tài)下駕駛員會采用構成行動空間的行動中的哪一個行動的狀況下,通過從多個候選中選擇成為對象的行動并輸出,從而更可靠地進行符合駕駛員意圖的車載設備的操作提案。
如上述說明所示,根據(jù)本實施方式,能夠得到下述效果。
(1)智能ecu100在基于通過增強學習計算出的跳轉概率矩陣p(st,at)中的各狀態(tài)各自的信息熵h(s)的加合運算值而求出的平均熵h(ω)小于隨機數(shù)δ時,將成為對象的行動固定為操作提案的對象而輸出,即進行確定的操作提案。由此,能夠進行符合駕駛員意圖的車載設備的操作提案,而無需駕駛員進行選擇行動的操作。另一方面,智能ecu100在基于通過增強學習計算出的跳轉概率矩陣p(st,at)中的各狀態(tài)各自的信息熵h(s)的加合運算值而求出的平均熵h(ω)為隨機數(shù)δ以上時,從多個候選中選擇成為對象的行動作為操作提案的對象進行輸出,即進行試錯性的操作提案。由此,能夠更可靠得進行符合駕駛員意圖的車載設備的操作提案。即,無論平均熵h(ω)是大還是小,作為操作提案的對象而一次輸出的車載設備的操作內容都只有一個,因此,駕駛員只要對每次提議的車載設備的操作內容進行是否同意的意思表示即可。因此,針對目的地的設定及聲音播放這些平均熵h(ω)的分散度不同的不同種類的車載設備的操作提案的響應,能夠始終使用簡單且相同的作為用戶界面的操作輸入部142進行。由此,能夠在減輕駕駛員的負擔的同時執(zhí)行符合駕駛員意圖的車載設備的操作提案。
(2)智能ecu100在平均熵h(ω)的值小于隨機數(shù)δ時,將當前狀態(tài)下的使最優(yōu)行動值函數(shù)q*(st,at)最大化的行動、即在當前狀態(tài)下的最有價值的行動也就是預測駕駛員采用可能性最高的行動作為對象,執(zhí)行確定的操作提案。由此,能夠以更高一級的可靠性實現(xiàn)符合駕駛員意圖的操作提案。
(3)智能ecu100在平均熵h(ω)的值為隨機數(shù)δ以上時,以當前狀態(tài)下的概率分布的概率密度越高的行動、即當前狀態(tài)下駕駛員采用可能性越高的行動被選擇為對象的頻率越高的趨勢,進行試錯性的操作提案。由此,即使事先難以確定作為對象的車載設備的操作提案,也能夠以更高一級的可靠性實現(xiàn)符合駕駛員意圖的操作提案。
(4)智能ecu100使用將平均熵h(ω)的值設定為ε值的ε-貪婪法,以ε值越大則進行試錯性的操作提案的頻率越高的趨勢,進行確定的操作提案和試錯性的操作提案的選擇。因此,平均熵的值即ε值越大即狀態(tài)空間的分散度越大,智能ecu100選擇試錯性的操作提案的頻率越高。由此,在提供作為對象的信息時,即使難以確定駕駛員的行動,也能夠以更高一級的可靠性實現(xiàn)符合駕駛員意圖的操作提案。
(5)作為針對駕駛員意圖的車載設備的操作提案的適合程度的指標,智能ecu100應用根據(jù)對操作提案的響應而從構成行動空間的行動中選擇并執(zhí)行的行動的頻率設定回報函數(shù),并在每次響應歷史記錄(車載設備的操作歷史記錄ra)更新時一并更新回報函數(shù)。由此,能夠在符合駕駛員意圖的情形下就算出構成狀態(tài)空間的各狀態(tài)下執(zhí)行構成行動空間的各行動的跳轉概率矩陣p(st,at),并且能夠隨著駕駛員響應的頻率不斷增加而使跳轉概率矩陣p(st,at)的精度提高進而更符合駕駛員個人進行的響應的實際狀態(tài)。
(6)智能ecu100考慮車載設備的操作狀況da、daα、車輛的乘客的特性db、dbα、以及車輛的行駛狀況dc、dcα等多種對車載設備的操作提案產生影響的要素,定義構成狀態(tài)空間的各狀態(tài)。由此,能夠在更高一級地符合實際情況的情形下,實現(xiàn)符合駕駛員意圖的操作提案。此外,可以預想到,如上所述考慮了各種要素后,構成狀態(tài)空間的狀態(tài)的數(shù)量變得龐大。對于這一點,在上述實施方式中,通過在存儲操作歷史記錄ra的同時使用實現(xiàn)精度提高的增強學習的方法,從而即使沒有例如像監(jiān)督學習那樣事先準備龐大數(shù)量的訓練數(shù)據(jù),也能夠實現(xiàn)符合駕駛員意圖的操作提案。
(第2實施方式)下面,參照附圖,說明信息提供裝置的第2實施方式。此外,第2實施方式與第1實施方式不同的點在于,不將各狀態(tài)各自的信息熵的值進行加合運算求出平均熵的值,而是基于與當前狀態(tài)對應的信息熵的值進行確定的操作提案及試錯性的操作提案的選擇。由此,在以下的說明中,主要說明與第1實施方式不同的結構,對于與第1實施方式相同或相當?shù)慕Y構,省略重復的說明。
圖16示出本實施方式中在確定的操作提案及試錯性的操作提案的選擇時所使用的跳轉概率矩陣p(st,at)的一個例子。在該圖所示的例子中,例如假設狀態(tài)si下采用行動a1的概率為“0.03”,假設該狀態(tài)si下采用行動a2的概率為“0.04”,假設該狀態(tài)si下采用行動a100的概率為“0.02”。并且,在將上述概率設為p時,智能ecu100使用圖8所示的算式計算出信息熵h(s)的值。在此情況下,由于這些概率均勻地分散,所以信息熵h(s)的值變得較大。
另外,同樣在該圖所示的例子中,例如假設狀態(tài)sj下采用行動a1的概率為“0.6”,假設該狀態(tài)sj下采用行動a2的概率為“0.02”,假設該狀態(tài)sj下采用行動a100的概率為“0.04”。并且,在將上述概率設為p時,智能ecu100使用圖8所示的算式計算出信息熵h(s)的值。在此情況下,由于上述概率偏向一處(“行動a1”),所以信息熵h(s)的值變得較小。
并且,智能ecu100大致基于上述第1實施方式中使用的算法,使用將與當前狀態(tài)對應的信息熵h(s)的值設為ε值的ε-貪婪法,生成與車載設備的操作提案相關的信息。由此,在假設當前狀態(tài)為圖16所示的狀態(tài)si時那樣,與當前狀態(tài)對應的信息熵h(s)的值較大時,智能ecu100通過應用上述算式(6),從而提高執(zhí)行試錯性的操作提案的頻率。另一方面,在假設當前狀態(tài)如圖16所示的狀態(tài)sj時那樣,與當前狀態(tài)對應的信息熵h(s)的值較小時,智能ecu100通過應用上述算式(5),從而提高執(zhí)行確定的操作提案的頻率。即,即使在例如目的地設定這樣從狀態(tài)空間整體觀察時平均熵h(ω)的值較小的情況下,在與當前狀態(tài)對應的信息熵h(s)的值為隨機數(shù)δ以上時,智能ecu100也判斷為處于僅考慮當前狀態(tài)的話難以確定駕駛員會采用構成行動空間的行動中的哪一個行動的狀況,因而執(zhí)行試錯性的操作提案。另外相反地,即使在例如聲音設定這樣從狀態(tài)空間整體觀察時平均熵h(ω)的值較大時,在與當前狀態(tài)對應的信息熵h(s)的值小于隨機數(shù)δ時,智能ecu100也判斷為處于僅考慮當前狀態(tài)的話容易確定駕駛員會采用構成行動空間的行動中的哪一種行動的狀況,因而執(zhí)行確定的操作提案。這樣,智能ecu100通過個別具體地考慮當前狀態(tài)下是否容易確定駕駛員的行動,從而能夠以更高一層地契合實際情形的方式,進行符合駕駛員意圖的車載設備的操作提案。
如以上說明所示,根據(jù)上述第2實施方式,能夠替代第1實施方式的上述(1)所述的效果而得到以下所示的效果。(1a)在通過增強學習計算出的跳轉概率矩陣p(st,at)中與當前狀態(tài)對應的信息熵h(s)為隨機數(shù)δ以上時,智能ecu100將從多個候選中選擇成為對象的行動進行輸出的試錯性的操作提案,作為車載設備的操作提案。由此,能夠更可靠地進行符合駕駛員意圖的車載設備的操作提案。另一方面,在通過增強學習就算出的跳轉概率矩陣p(st,at)中與當前狀態(tài)對應的信息熵h(s)小于隨機數(shù)δ時,智能ecu100將固定成為對象的行動進行輸出的確定的操作提案,作為車載設備的操作提案。由此,能夠進行符合駕駛員意圖的車載設備的操作提案,而無需駕駛員進行選擇行動的操作。即,無論各狀態(tài)各自的信息熵h(s)的分散度是大還是小,作為操作提案的對象而一次輸出的車載設備的操作內容都只有一個,因此,駕駛員只要對每次提議的車載設備的操作內容進行是否同意的意思表示即可。因此,針對目的地的設定及聲音播放這些各狀態(tài)各自的信息熵h(s)的分散度不同的不同種類的車載設備的操作提案的響應,能夠始終使用簡單且相同的作為用戶界面的操作輸入部142進行。由此,能夠在減輕駕駛員的負擔的同時執(zhí)行符合駕駛員意圖的車載設備的操作提案。另外,智能ecu100與定義從狀態(tài)空間整體觀察下的狀態(tài)空間的分散度的平均熵h(ω)的值無關地,基于與當前狀態(tài)對應的信息熵h(s)的值,選擇試錯性的操作提案及確定的操作提案。由此,智能ecu100通過個別具體地考慮當前狀態(tài)下是否容易確定駕駛員的行動,從而能夠以更高一層地契合實際情形的方式,進行符合駕駛員意圖的車載設備的操作提案。
(其它實施方式)此外,上述各實施方式也可以以下述方式實施。
·在上述第1實施方式中,通過對定義狀態(tài)空間的所有狀態(tài)所對應的信息熵h(s)進行加合運算,從而計算出對狀態(tài)空間的分散度進行定義的平均熵h(ω)。但也可以不用這種方式,而是將定義狀態(tài)空間的狀態(tài)中的一部分狀態(tài)所對應的信息熵h(s)進行加合運算而計算出平均熵h(ω)。
·在上述第1實施方式中,作為成為與平均熵h(ω)進行比較的對象的閾值而使用隨機數(shù)δ。由此,能夠更具多樣性地進行分配,但為了降低處理負載,也可以不用這種方式,而使用固定值作為與平均熵h(ω)進行比較的對象的閾值。在此情況下,在平均熵h(ω)小于固定值時,應用上述算式(5)執(zhí)行確定的操作提案,另一方面在平均熵h(ω)為固定值以上時,應用上述算式(6)執(zhí)行試錯性的操作提案即可。
·相同地,在上述第2實施方式中,作為成為與當前狀態(tài)對應的信息熵h(s)進行比較的對象的閾值而使用隨機數(shù)δ。也可以不用這種方式,而使用固定值作為成為與當前狀態(tài)對應的信息熵h(s)進行比較的對象的閾值。在此情況下,在信息熵h(s)小于固定值時,應用上述算式(5)執(zhí)行確定的操作提案,另一方面在與當前狀態(tài)對應的信息熵h(s)為固定值以上時,應用上述算式(6)執(zhí)行試錯性的操作提案即可。
·在上述第1實施方式中,狀態(tài)空間的分散度的評價是基于將與構成狀態(tài)空間的各狀態(tài)對應的信息熵h(s)進行加合運算而得到的平均熵h(ω)進行的。也可以不用這種方式,而使狀態(tài)空間的分散度的評價基于將構成狀態(tài)空間的各狀態(tài)各自的概率分布的分散或標準方差進行加合運算而得到的值進行。
·相同地,在上述第2實施方式中,當前狀態(tài)下的概率分布的分散度的評價是基于與當前狀態(tài)對應的信息熵h(s)進行的,也可以不用這種方式,而基于當前狀態(tài)下的概率分布的分散或標準方差進行。
·在上述各實施方式中,作為定義狀態(tài)的車輛數(shù)據(jù)的屬性,包括車載設備的操作狀況da、daα、車輛的乘客的特性db、dbα、以及車輛的行駛狀況dc、dcα。但并不限定于此,定義狀態(tài)的車輛數(shù)據(jù)的屬性只要是對駕駛員操作車載設備的方式有幫助的要素即可,也可以采用其它要素。
·在上述各實施方式中,作為確定的操作提案,將構成行動空間的各行動中使得當前狀態(tài)下的最優(yōu)行動值函數(shù)q*(st,at)最大化的行動、即當前狀態(tài)下最有價值的行動作為操作提案的對象進行輸出。也可以不用這種方式,而是例如將當前狀態(tài)下跳轉概率最大的行動作為操作提案的對象進行輸出。只要是將預測駕駛員采用可能性最大的行動作為對象而執(zhí)行確定的操作提案即可。
·在上述各實施方式中,作為試錯性的操作提案,將滿足“f(s)=τ”的行動作為操作提案的對象進行輸出。也可以不用這種方式,而是在通過將某一狀態(tài)s下采用構成行動空間的各行動的概率以從低到高的順序排列后進行加合運算而求出累積分布函數(shù)f(s)時,將滿足“f(s)≧τ”的行動作為操作提案的對象進行輸出。另外,也可以在通過將某一狀態(tài)s下采用構成行動空間的各行動的概率以從高到低的順序排列后進行加合運算而求出累積分布函數(shù)f(s)時,將滿足“f(s)≦τ”的行動作為操作提案的對象進行輸出。只要是以當前狀態(tài)下的概率分布的概率密度越高的行動則被選擇作為對象的頻率越高的趨勢執(zhí)行試錯性的操作提案即可。
·在上述各實施方式中,作為增強學習中的回報函數(shù),設定作為對操作提案的響應的為圖12所示的方向盤操作開關142a中的第1操作按鈕ba1的操作次數(shù)。也可以不用這種方式,而是作為增強學習中的回報函數(shù),設定為圖12所示的方向盤操作開關中從第1操作按鈕ba1的操作次數(shù)減去第2操作按鈕ba2的操作次數(shù)而得到的值。另外,也可以將第1操作按鈕ba1的操作次數(shù)減去第3操作按鈕ba3的操作次數(shù)或第4操作按鈕ba4的操作次數(shù)而得到的值,設定為增強學習中的回報函數(shù)。另外,也可以將在駕駛員針對車載設備的操作提案沒有進行任何操作時,將該次數(shù)作為日志進行記錄,并將從第1操作按鈕ba1的操作次數(shù)中減去該次數(shù)后的值,設定為增強學習中的回報函數(shù)。另外,也可以基于駕駛員的身體信號等測量駕駛員對車載設備的操作提案感覺到愉快·不愉快的感情的次數(shù),將駕駛員感覺愉快的次數(shù)設定為增強學習中的回報函數(shù)。另外,也可以將駕駛員感覺愉快的次數(shù)減去感覺不愉快的次數(shù)而得到的值,設定為增強學習中的回報函數(shù)。只要是能夠表示車載設備的操作提案相對于駕駛員意圖的適合程度的指標,都可以設定為增強學習中的回報函數(shù)。
·在上述各實施方式中,作為方向盤操作開關,以具有在對來自智能ecu100的操作提案進行響應時操作的第1操作按鈕ba1及第2操作按鈕ba2、以及與來自智能ecu100的操作提案無關地操作車載設備時進行操作的第3操作按鈕ba3及第4操作按鈕ba4的結構作為例子進行了說明。但也可以如圖17所示,作為方向盤操作開關的另一個例子,采用僅具有在對來自智能ecu100的操作提案進行響應時操作的第1操作按鈕ba1及第2操作按鈕ba2的方向盤操作開關142b的結構。另外,也可以如圖18所示,作為方向盤操作開關的其它例子,采用不用圖12所示的在駕駛員自身手動輸入而操作車載設備時進行操作的第3操作按鈕ba3,而使用具有在啟動管家服務時進行操作的第3操作按鈕ba3α的方向盤操作開關142c的結構。并且,上述方向盤操作開關142b、142c的結構,都可以通過方向盤操作開關142b、142c的操作而檢測出駕駛員對操作提案的響應,并用作為增強學習中的回報函數(shù)。
·在上述各實施方式中,作為增強學習的方法而進行q學習。但也可以不用這種方式,而是作為增強學習的方法而使用例如sarsa法、actor-critic法等其它方法。