欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)處理設備、數(shù)據(jù)處理方法以及程序的制作方法

文檔序號:6434410閱讀:158來源:國知局
專利名稱:數(shù)據(jù)處理設備、數(shù)據(jù)處理方法以及程序的制作方法
技術領域
本公開涉及一種數(shù)據(jù)處理設備、數(shù)據(jù)處理方法以及程序,并且更特別地涉及一種使得可以自主地執(zhí)行各種行動的主體(自主主體)有效地執(zhí)行對未知環(huán)境的學習的數(shù)據(jù)處理設備、數(shù)據(jù)處理方法以及程序。
背景技術
例如,作為可以執(zhí)行行動的主體(諸如在現(xiàn)實世界中行動的機器人、在虛擬世界行動的虛擬人物等)在未知環(huán)境中執(zhí)行行動的學習方法,存在主體通過其來逐階段地學習
云力夫1 貝1J白勺^SUfg (Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore ^ 《Reinforcement Learning :A Survey》,Journal of Artificial Intelligence Research 4(1996)237-285)。在強化學習中,計算(估計)主體在基于從外部(環(huán)境等)觀測到的觀測值而識別的狀態(tài)(當前狀態(tài))中為到達作為目標的狀態(tài)(目標狀態(tài))而執(zhí)行的每個行動U的行動值。當算出用于到達目標狀態(tài)的行動值時,主體可以通過基于行動值而控制行動,執(zhí)行用于到達目標狀態(tài)的行動。

發(fā)明內容
主體基于這樣的行動值而執(zhí)行行動控制的時刻在主體到達目標狀態(tài)、并且基于強化學習而計算出用于到達目標狀態(tài)的行動值之后。因此,在主體到達目標狀態(tài)之前,主體必須執(zhí)行從例如主體可以執(zhí)行的行動中進行隨機選擇的行動,由此難以有效地執(zhí)行對未知環(huán)境的學習(強化學習)。換句話說,當在主體進行行動的環(huán)境(行動環(huán)境)中存在例如主體難以穿過的狹窄通道時,執(zhí)行隨機選擇的行動的主體不能穿過狹窄通道,結果,主體難以學習穿過狹窄通道之后的環(huán)境。另外,當在可移動到上側和下側的行動環(huán)境中設置重力時,例如,執(zhí)行隨機選擇的行動的主體由于重力的影響,難以移動到行動環(huán)境中的上側,結果,難以學習行動環(huán)境的上側。本公開考慮了以上狀況,并且期望能夠有效地學習未知環(huán)境。根據(jù)本公開的實施例,提供了一種數(shù)據(jù)處理設備或使得計算機用作數(shù)據(jù)處理設備的程序,該數(shù)據(jù)處理設備包括狀態(tài)值計算單元,其基于每個行動的狀態(tài)轉移模型,對于狀態(tài)轉移模型的每個狀態(tài),計算將狀態(tài)轉移模型的預定狀態(tài)設置為基準的狀態(tài)值,其中狀態(tài)轉移到預定狀態(tài)附近的狀態(tài)的概率越高,該狀態(tài)值的值越大,在狀態(tài)轉移模型中,通過可以行動的主體執(zhí)行的行動對狀態(tài)進行轉移;行動值計算單元,其基于狀態(tài)轉移模型和將預定狀態(tài)設置為基準的狀態(tài)值,對于狀態(tài)轉移模型的每個狀態(tài)和主體可以執(zhí)行的每個行動計算行動值,其中轉移到具有高的將預定狀態(tài)設置為基準的狀態(tài)值的狀態(tài)的概率越高,該行動值的值越大;目標狀態(tài)設置單元,其基于行動值,將狀態(tài)轉移模型的狀態(tài)當中的、行動值的波動(imevermess)大的狀態(tài)設置為目標狀態(tài),該目標狀態(tài)是通過主體執(zhí)行的行動要到達的目標;以及行動選擇單元,其選擇主體的行動以便向目標狀態(tài)移動。根據(jù)本公開的另一實施例,提供了一種數(shù)據(jù)處理設備的數(shù)據(jù)處理方法,該方法包括基于每個行動的狀態(tài)轉移模型,對于狀態(tài)轉移模型的每個狀態(tài),計算將狀態(tài)轉移模型的預定狀態(tài)設置為基準的狀態(tài)值,其中狀態(tài)轉移到預定狀態(tài)附近的狀態(tài)的概率越高,該狀態(tài)值的值越大,在狀態(tài)轉移模型中,通過可以行動的主體執(zhí)行的行動對狀態(tài)進行轉移;基于狀態(tài)轉移模型和將預定狀態(tài)設置為基準的狀態(tài)值,對于狀態(tài)轉移模型的每個狀態(tài)和主體可以執(zhí)行的每個行動計算行動值,其中轉移到具有高的將預定狀態(tài)設置為基準的狀態(tài)值的狀態(tài)的概率越高,該行動值的值越大;基于行動值,將狀態(tài)轉移模型當中的、行動值的波動大的狀態(tài)設置為目標狀態(tài),該目標狀態(tài)是通過主體執(zhí)行的行動要到達的目標;以及選擇主體的行動以便向目標狀態(tài)移動。在以上實施例中,基于每個行動的狀態(tài)轉移模型,對于狀態(tài)轉移模型的每個狀態(tài), 計算將狀態(tài)轉移模型的預定狀態(tài)設置為基準的狀態(tài)值,其中狀態(tài)轉移到預定狀態(tài)附近的狀態(tài)的概率越高,該狀態(tài)值的值越大,在狀態(tài)轉移模型中,通過可以行動的主體執(zhí)行的行動對狀態(tài)進行轉移;基于狀態(tài)轉移模型和將預定狀態(tài)設置為基準的狀態(tài)值,對于狀態(tài)轉移模型的每個狀態(tài)和主體可以執(zhí)行的每個行動計算行動值,其中轉移到具有高的將預定狀態(tài)設置為基準的狀態(tài)值的狀態(tài)的概率越高,該行動值的值越大。另外,基于行動值,將狀態(tài)轉移模型當中的、行動值的波動大的狀態(tài)設置為目標狀態(tài),該目標狀態(tài)是通過主體執(zhí)行的行動要到達的目標;并且選擇主體的行動以便向目標狀態(tài)移動。此外,數(shù)據(jù)處理設備可以是獨立設備或包括在一個設備中的內部塊。另外,可以通過傳輸介質傳送程序,或者通過記錄在記錄介質上而提供程序。根據(jù)本公開的實施例,可以有效地學習主體進行行動的未知環(huán)境。


圖1是說明應用本公開的數(shù)據(jù)處理設備的實施例的配置示例的概要的圖;圖2是示出主體的配置示例的框圖;圖3是說明主體進行行動的行動環(huán)境和主體可以執(zhí)行的行動的示例的圖;圖4是說明在行動環(huán)境中行動的主體的狀態(tài)轉移模型的示例的圖;圖5是示出學習單元的配置示例的框圖;圖6是說明學習處理的流程圖;圖7是示出行動控制單元的配置示例的框圖;圖8是說明狀態(tài)值計算單元的處理的圖;圖9是示出對于通過區(qū)分作為狀態(tài)的行動區(qū)域而獲得的每個小區(qū)域所獲得的行動值的方差的示例的圖;圖10是示出對于通過區(qū)分作為狀態(tài)的行動區(qū)域而獲得的每個小區(qū)域所獲得的存在概率的示例的圖;圖11是示出將目標狀態(tài)設置為基準的狀態(tài)值的示例的圖;圖12是示出主體趨向目標狀態(tài)的狀態(tài)的圖13是說明用于學習的行動控制處理的流程圖;圖14是說明主體在行動環(huán)境中的行動的圖;圖15是說明用于自主行動的行動控制處理的流程圖;圖16是說明主體在行動環(huán)境中的行動的圖;圖17是說明主體在避免了回避狀態(tài)的同時,到達行動目標狀態(tài)的主體的行動的圖;圖18是說明對象移動任務的圖;圖19是說明在執(zhí)行對象移動任務時狀態(tài)轉移模型的圖;圖20是說明在對象移動任務中,由學習單元執(zhí)行的學習處理的流程圖;圖21是說明在對象移動任務中,用于由行動控制單元執(zhí)行的自主行動的行動控制處理的流程圖;圖22是說明在對象移動任務中,用于由行動控制單元執(zhí)行的學習的行動控制處理的流程圖;圖23是說明在對象移動任務中,用于由行動控制單元執(zhí)行的學習的行動控制處理的流程圖;圖M是說明使用溫度參數(shù)來控制在獲得行動值時使用的后驗概率的圖;圖25是說明當采用GMM作為狀態(tài)轉移模型的狀態(tài)時執(zhí)行的GMM的學習的圖;圖沈是示出應用了擴展HMM的主體執(zhí)行行動的行動環(huán)境示例的圖;圖27A和27B是示出在行動環(huán)境中,由主體執(zhí)行的行動和由主體進行的觀察獲得的觀察值的示例的圖;圖觀是說明應用了擴展HMM的主體中的學習單元的學習處理的流程圖;圖^A和29B是說明擴展HMM的圖;圖30是說明使用學習數(shù)據(jù)集的對擴展HMM的學習的流程圖;以及圖31是示出應用本公開的計算機的實施例的配置示例的框圖。
具體實施例方式[應用本公開的數(shù)據(jù)處理設備的實施例]圖1是說明應用本公開的數(shù)據(jù)處理設備的實施例的配置示例的概要的圖。在圖1中,數(shù)據(jù)處理設備是例如執(zhí)行自主行動并且通過驅動執(zhí)行機構在預定環(huán)境中行動的主體。換句話說,主體包括傳感器,并且傳感器從主體進行行動的環(huán)境(行動環(huán)境)中感測物理量,并且,輸出作為與物理量相對應的觀測值的傳感器信號。此外,主體具有用于每個行動的、通過主體執(zhí)行的行動而轉移狀態(tài)的狀態(tài)轉移模型,并且,使用來自傳感器的觀測值(傳感器信號)來更新狀態(tài)轉移模型(執(zhí)行對狀態(tài)轉移模型的學習)。另外,主體包括執(zhí)行機構。主體基于狀態(tài)轉移模型而選擇主體執(zhí)行的行動,并且將與行動相對應的行動信號提供給執(zhí)行機構。根據(jù)行動信號驅動執(zhí)行機構,并且因此,主體在行動環(huán)境中執(zhí)行與行動信號相對應的行動。
圖2是示出作為圖1的數(shù)據(jù)處理設備的主體的配置示例的框圖。主體包括傳感器11、學習單元12、模型存儲單元13、行動控制單元14以及執(zhí)行機構15。傳感器11從外部(即,行動環(huán)境)觀測物理量,并且輸出與物理量相對應的觀測值。由傳感器11輸出的觀測值提供給學習單元12和行動控制單元14。這里,例如,采用主體在行動環(huán)境內的位置(的坐標)作為由傳感器11輸出的觀測值。來自傳感器11的觀測值以及來自行動控制單元14的行動信號被提供給學習單元 12。學習單元12使用來自傳感器11的觀測值和來自行動控制單元14的行動信號,執(zhí)行對狀態(tài)轉移模型的學習,該學習更新存儲在模型存儲單元13中的用于每個行動的狀態(tài)轉移模型。換句話說,學習單元12基于主體從外部觀測到的觀測值,在狀態(tài)轉移模型的各狀態(tài)中,識別作為觀測到來自傳感器11的觀測值的狀態(tài)的當狀態(tài)。此外,學習單元12根據(jù)來自行動控制單元14的行動信號,識別獲得了到當前狀態(tài)的狀態(tài)轉移的主體的行動,并且基于到當前狀態(tài)的狀態(tài)轉移,更新該行動的狀態(tài)轉移模型。模型存儲單元13存儲用于主體可以執(zhí)行的每個行動的狀態(tài)轉移模型。行動控制單元14基于來自傳感器11的觀測值和存儲在模型存儲單元13中的狀態(tài)轉移模型,控制主體的行動。換句話說,行動控制單元14基于來自傳感器11的觀測值和存儲在模型存儲單元 13中的狀態(tài)轉移模型,在主體可以執(zhí)行的行動當中,選擇接下來要執(zhí)行的行動(在當前狀態(tài)中要執(zhí)行的行動),并且將與行動相對應的行動信號提供給學習單元12和執(zhí)行機構15。執(zhí)行機構15是例如驅動主體的腳的電機等、移動主體的對象(程序)等,并且根據(jù)來自行動控制單元14的行動信號來驅動。主體通過根據(jù)行動信號驅動的執(zhí)行機構15,執(zhí)行根據(jù)該行動信號的行動。[行動環(huán)境和主體的行動]圖3是說明主體進行行動的行動環(huán)境和主體可以執(zhí)行的行動的示例的圖。在圖3中,行動環(huán)境是從左向右方向的χ方向和從下向上方向的y方向所界定的預定空間(平面),并且重力作用在向下的方向(y方向的反方向)上。此外,在行動環(huán)境中,y = 0的位置是地面,并且此外,在y > 0的若干位置設置有
D ο對于主體,定義了其位置(坐標(x,y))、速度和加速度。主體的位置、速度和加速度都是連續(xù)值。另外,作為主體的行動,定義在向右方向(X方向)上將主體的加速度增大預定值 α的行動U1、在向左方向(χ方向的反方向)上將主體的加速度增大預定值α的行動U2、 以及在向上方向(y方向)上將主體的加速度增大預定值α的行動U3。因此,用圖3中表示行動Up隊、以及U3的離散值表示主體可以執(zhí)行的行動U。此外,可以僅當主體在向上方向上的速度是零時,執(zhí)行在向上方向(y方向)上增大主體的加速度的行動U3。
另外,由于重力在行動環(huán)境中起作用,因此當主體(的底部)沒有接觸地面或者平臺時,主體朝向下方向的速率(速度)根據(jù)重力每單位時間增大預定值V。主體在如上行動環(huán)境內行動,但是主體觀測到的觀測值只是主體的位置,而根本沒有給出關于行動環(huán)境的知識(即,例如平臺、地面、墻的位置、主體是否碰撞平臺的信息等)以及要移動到的位置的信息等。[狀態(tài)轉移模型]圖4是說明在行動環(huán)境中行動的主體的狀態(tài)轉移模型的示例的圖。在圖4中,采用通過將行動環(huán)境劃分成小區(qū)域而獲得的小區(qū)域,作為在行動環(huán)境中行動的主體的狀態(tài)轉移模型的狀態(tài)。換句話說,在圖4中,通過分別在χ方向和y方向上等間隔劃分行動環(huán)境而獲得的正方形小區(qū)域來代表狀態(tài),并且以離散價表示狀態(tài)。主體觀測當前位置作為觀測值,并且可以從當前位置中識別當前時刻的狀態(tài)(當前狀態(tài))。用于每個行動的狀態(tài)轉移模型Pss, u表示通過執(zhí)行預定行動U,主體的狀態(tài)從狀態(tài) (第一狀態(tài))S到狀態(tài)(第二狀態(tài)(與狀態(tài)S相同或者不同的狀態(tài)))s'的轉移。用于行動U的狀態(tài)轉移模型Pss, u例如由公式(1)表示。[表達式1]P^ = P(S’|S,U)在這里的公式(1)中,P(S' S,U)表示當主體在狀態(tài)S中執(zhí)行行動U時狀態(tài)轉移到狀態(tài)S'的轉移概率(概率模型)。此外,可以采用當主體在狀態(tài)S中執(zhí)行行動U時轉移到狀態(tài)S'的頻率,作為用于行動U的狀態(tài)轉移模型Pss, U。可以通過對通過在狀態(tài)S中執(zhí)行行動U而轉移到每個狀態(tài)的頻率的總和進行歸一化,將通過在狀態(tài)S中執(zhí)行行動U而轉移到狀態(tài)S'的頻率隨機化為通過在狀態(tài)S中執(zhí)行行動U而轉移到狀態(tài)S'的轉移概率。因此,通過在狀態(tài)S中執(zhí)行行動U而轉移到狀態(tài)S'的頻率和通過在狀態(tài)S中執(zhí)行行動U而轉移到狀態(tài)S'的轉移概率可以視為等同的。此外,這里,以該頻率執(zhí)行狀態(tài)轉移模型Pss, u的存儲(學習),在使用狀態(tài)轉移模型Pss, U的處理中,取決于需要,該頻率被隨機化為轉移概率,并且使用該轉移概率。另外,在下文,表示轉移概率的狀態(tài)轉移模型Pss, U也被描述為轉移概率Pss, U。[學習單元12的配置示例]圖5是示出圖2的學習單元12的配置示例的框圖。在圖5中,學習單元12包括狀態(tài)識別單元21和模型更新單元22。從傳感器11向狀態(tài)識別單元21提供主體的當前位置(的坐標)作為觀測值。狀態(tài)認識單元21基于來自傳感器11的、作為觀測值的當前位置的坐標,識別作為觀測到坐標的狀態(tài)的當前狀態(tài)(這里,在通過劃分圖4中描述的行動區(qū)域獲得的小區(qū)域當中主體所位于的小區(qū)域),并且將結果提供給模型更新單元22。模型更新單元22基于來自行動控制單元14的行動信號,識別使狀態(tài)轉移到來自狀態(tài)識別單元21的(最新)當前狀態(tài)的主體的行動U。
然后,模型更新單元22基于到當前狀態(tài)S'的轉移,在存儲在模型存儲單元13中的用于每個行動的狀態(tài)轉移模型當中對使狀態(tài)轉移到來自狀態(tài)識別單元21的(最新)當前狀態(tài)S'的用于主體的行動U的狀態(tài)轉移模型Pss, u進行更新。換句話說,假定緊接在從狀態(tài)識別單元21提供給模型更新單元22的最新的當前狀態(tài)S'之前(或者一個時刻之前)的當前狀態(tài)(在下文中,也被稱為先前狀態(tài))為狀態(tài) S。模型更新單元22基于從狀態(tài)識別單元21提供的當前狀態(tài),識別先前狀態(tài)S和當前狀態(tài)S',并且,還基于來自行動控制單元14的行動信號,識別其被執(zhí)行以產(chǎn)生從先前狀態(tài)S到當前狀態(tài)S'的狀態(tài)轉移的主體的行動U。然后,當通過在先前狀態(tài)S執(zhí)行行動U而實現(xiàn)到當前狀態(tài)S'的狀態(tài)轉移時,模型更新單元22通過將由存儲在模型存儲單元13中的狀態(tài)轉移模型Pss, u表示的頻率增加一來更新狀態(tài)轉移模型Pss, u。[學習處理]圖6是說明由圖5的學習單元12執(zhí)行的狀態(tài)轉移模型的學習的處理(學習處理) 的流程圖。此外,在主體執(zhí)行行動的同時,一直執(zhí)行圖6的學習處理。在步驟Sll中,模型更新單元22等待來自行動控制單元14的行動信號U的輸出以獲取(接收)行動信號U,并且識別基于行動信號U而執(zhí)行的主體的行動U,然后處理進入步驟S12。這里,行動信號U是使主體執(zhí)行行動U的行動信號。在步驟S12中,狀態(tài)識別單元21獲取在主體執(zhí)行與先前從行動控制單元14輸出的行動信號U相對應的行動U之后、由傳感器11觀測到的觀測值(傳感器信號),然后處理進入步驟S13。在步驟S13中,狀態(tài)識別單元21基于來自傳感器11的觀測值而識別當前狀態(tài) S',并且將結果提供給模型更新單元22,然后處理進入步驟S14。在步驟S14中,模型更新單元22在存儲在模型存儲單元13中的狀態(tài)轉移模型當中對表示通過在一個時刻前從狀態(tài)識別單元21提供的先前狀態(tài)S中執(zhí)行一個時刻前的行動U而到從狀態(tài)識別單元21提供的當前狀態(tài)的狀態(tài)轉移的狀態(tài)轉移模型Pss, u進行更新。換句話說,模型更新單元22通過將由狀態(tài)轉移模型Pss, u表示的頻率增加一來更新狀態(tài)轉移模型Pss, U。在更新狀態(tài)轉移模型Pss, u之后,處理從步驟S14返回到步驟S11,并且此后在等到來自行動控制單元14的行動信號的輸出以后重復相同處理。[行動控制單元14的配置示例]圖7是示出圖2的行動控制單元14的配置示例的框圖。在圖7中,行動控制單元14包括狀態(tài)識別單元31、狀態(tài)值計算單元32、行動值計算單元33、目標狀態(tài)設置單元34以及行動選擇單元35。從傳感器11向狀態(tài)識別單元31提供主體的當前位置(的坐標)作為觀測值。狀態(tài)識別單元31以與圖5的狀態(tài)識別單元21相同的方式,基于來自傳感器11的、 作為觀測值的當前位置的坐標,識別作為觀測到坐標的狀態(tài)的當前狀態(tài)(這里,在通過劃分圖4中描述的行動區(qū)域獲得的小區(qū)域當中主體所位于的小區(qū)域),并且將結果提供給狀態(tài)值計算單元32和行動選擇單元35。此外,狀態(tài)識別單元31或圖5的狀態(tài)識別單元21中的任何一個都可以用作狀態(tài)識別單元。狀態(tài)值計算單元32基于存儲在模型存儲單元13中的狀態(tài)轉移模型,對于狀態(tài)轉移模型的每個狀態(tài)(即,這里通過劃分圖4中描述的行動區(qū)域而獲得的每個小區(qū)域),計算將預定狀態(tài)設置為基準的狀態(tài)值,并且將結果提供給行動值計算單元33,其中狀態(tài)轉移到狀態(tài)轉移模型的預定狀態(tài)附近的狀態(tài)的概率越高,該狀態(tài)值的值越大。具體地,狀態(tài)值計算單元32對于狀態(tài)轉移模型的每個狀態(tài)S,計算將作為預定狀態(tài)的當前狀態(tài)設置為基準的狀態(tài)值,并且將結果提供給行動值計算單元33,例如,其中狀態(tài)S轉移到來自狀態(tài)識別單元31的當前狀態(tài)附近的狀態(tài)S'的概率Pss, u越高,該狀態(tài)值的值越大。行動值計算單元33基于存儲在模型存儲單元13中的狀態(tài)轉移模型和將來自狀態(tài)值計算單元32的當前狀態(tài)設置為基準的狀態(tài)值V6),對于狀態(tài)轉移模型的每個狀態(tài)S和主體可以執(zhí)行的每個行動U,計算行動值Q (S,U),并且將結果提供給目標狀態(tài)設置單元34,其中狀態(tài)S和行動U轉移到具有高的將當前狀態(tài)設置為基準的狀態(tài)值V(S')的狀態(tài)S'概率越高,行動值Q(S,U)的值越大。目標狀態(tài)設置單元34基于來自行動值計算單元33的行動值Q (S,U),在狀態(tài)轉移模型的狀態(tài)當中將行動值Q(S,U)的波動大的狀態(tài)設置為作為主體要通過執(zhí)行行動到達的目標的目標狀態(tài),并且將目標狀態(tài)提供給行動選擇單元35。行動選擇單元35基于存儲在模型存儲單元13中的狀態(tài)轉移模型和來自目標狀態(tài)設置單元34的目標狀態(tài),從主體可以執(zhí)行的行動當中,選擇主體的行動U以便向目標狀態(tài)移動,并且輸出與行動U相對應的行動信號U(使主體執(zhí)行行動U的行動信號U)。由行動選擇單元35輸出的行動信號U提供給學習單元12和執(zhí)行機構15(圖2)。[狀態(tài)值計算單元32的處理]圖8是說明圖7的狀態(tài)值計算單元32的處理的圖。狀態(tài)值計算單元32對于狀態(tài)轉移模型的每個狀態(tài)S,計算將當前狀態(tài)設置為基準的狀態(tài)值V(s),其中狀態(tài)S轉移到來自狀態(tài)識別單元31的當前狀態(tài)附近的狀態(tài)S'的概率 Pss' U越高,該狀態(tài)值的值越大。換句話說,狀態(tài)值計算單元32通過將當前狀態(tài)Seiment的狀態(tài)值V(S。u ent)設置為 1(1.0)、以預定的(足夠的)次數(shù)預先重復地計算例如衰減地傳播狀態(tài)值V(Scmrent)的公式O)的遞推公式,對于狀態(tài)轉移模型的每個狀態(tài)S計算將當前狀態(tài)設置為基準的狀態(tài)值 V⑶。[表達式2]V(S)一 max Σ S^ [Rs + rv(s,)]這里,在公式⑵中,Σ s,表示對全部狀態(tài)S'求和,并且max表示在對于各行動U 獲得的、在緊接max之后的值當中的最大值。此外,在公式O)中,Y是用于衰減地傳播當前狀態(tài)Scmrait的狀態(tài)值V(S。umnt)的、0< Y < 1范圍內的實數(shù)的衰減常數(shù),并且Y預先被確定。另外,在公式O)中,Rs,表示對于(狀態(tài)轉移的轉移目的地的)狀態(tài)S'設置的常數(shù)。如果由R。UMt表示當狀態(tài)S'是當前狀態(tài)時的常數(shù),并且由R。thCT表示當狀態(tài)S'是除當前狀態(tài)之外的狀態(tài)時的常數(shù)Rs,,則常數(shù)R。UMt是1,并且常數(shù)R。thCT是0。根據(jù)公式⑵的遞推公式,當轉移概率Pss, U高時、當轉移目的地的狀態(tài)值V(S') 高時以及當轉移目的地的狀態(tài)S'是當前狀態(tài)(Rs, = Rcurrent)時,轉移目的地的狀態(tài)S的狀態(tài)值增大。換句話說,狀態(tài)S轉移到當前狀態(tài)附近的狀態(tài)S'的概率Pss, u越高,將當前狀態(tài)設置為基準的狀態(tài)值V( 的值越大。這里,圖8示出了將當前狀態(tài)設置為基準的狀態(tài)值V(S)的示例。如圖4所述,當狀態(tài)被設置成通過劃分行動區(qū)域獲得的小區(qū)域時,越靠近作為當前狀態(tài)的小區(qū)域的小區(qū)域,該小區(qū)域越容易移動到作為當前狀態(tài)的小區(qū)域(轉移概率Pss, U 高),并且因此,在圖8中,將當前狀態(tài)設置為基準的狀態(tài)值V (S)的值隨著狀態(tài)靠近當前狀態(tài)而趨于增大。此外,在圖8中,狀態(tài)值計算單元32被設置成計算將當前狀態(tài)設置為基準的狀態(tài)值V (S),但是,狀態(tài)值計算單元32可以計算將不同于當前狀態(tài)的任意狀態(tài)(例如,隨機選擇的狀態(tài))設置為基準的狀態(tài)值V(S)。另外,除非另外指定,否則以V(S)的初始值是0的假設(對于以后要描述的遞推公式以相同的方式)計算公式O)的遞推公式。[行動值計算單元33和目標狀態(tài)設置單元34的處理]圖9和10是說明圖7的行動值計算單元33和目標狀態(tài)設置單元34的處理的圖。行動值計算單元33基于存儲在模型存儲單元13中的狀態(tài)轉移模型和來自狀態(tài)值計算單元32的、將當前狀態(tài)設置為基準的狀態(tài)值V(S),對于狀態(tài)轉移模型的每個狀態(tài)S和主體可以執(zhí)行的每個行動U,計算行動值Q(S,U),其中行動U和狀態(tài)S轉移到狀態(tài)值V(S') 大的狀態(tài)S'的概率越高,行動值Q(S,U)的值越大,狀態(tài)值V(S')將當前狀態(tài)設置為基準。換句話說,行動值計算單元33通過例如使用轉移概率(狀態(tài)轉移模型)Pss, u和將當前狀態(tài)設置為基準的狀態(tài)值V (S')來計算公式(3),對于狀態(tài)轉移模型的每個狀態(tài)S和主體可以執(zhí)行的每個行動U計算行動值Q(S,U)。[表達式3]
權利要求
1.一種數(shù)據(jù)處理設備,包括狀態(tài)值計算單元,其基于每個行動的狀態(tài)轉移模型,對于所述狀態(tài)轉移模型的每個狀態(tài),計算將所述狀態(tài)轉移模型的預定狀態(tài)設置為基準的狀態(tài)值,其中狀態(tài)轉移到所述預定狀態(tài)附近的狀態(tài)的概率越高,所述狀態(tài)值的值越大,在所述狀態(tài)轉移模型中,通過能夠行動的主體執(zhí)行的行動對狀態(tài)進行轉移;行動值計算單元,其基于所述狀態(tài)轉移模型和將所述預定狀態(tài)設置為基準的狀態(tài)值, 對于所述狀態(tài)轉移模型的每個狀態(tài)和所述主體能夠執(zhí)行的每個行動計算行動值,其中轉移到具有高的將所述預定狀態(tài)設置為基準的狀態(tài)值的狀態(tài)的概率越高,所述行動值的值越大;目標狀態(tài)設置單元,其基于所述行動值,將所述狀態(tài)轉移模型的狀態(tài)當中的、所述行動值的波動大的狀態(tài)設置為目標狀態(tài),所述目標狀態(tài)是通過所述主體執(zhí)行的行動要到達的目標;以及行動選擇單元,其選擇所述主體的行動以便向所述目標狀態(tài)移動。
2.根據(jù)權利要求1所述的數(shù)據(jù)處理設備,還包括狀態(tài)識別單元,其基于所述主體從外部觀測到的觀測值,在所述狀態(tài)轉移模型的狀態(tài)當中識別作為觀測到所述觀測值的狀態(tài)的當前狀態(tài),其中,所述預定狀態(tài)是所述當前狀態(tài);并且其中,所述狀態(tài)值計算單元計算將所述當前狀態(tài)設置為基準的狀態(tài)值,其中狀態(tài)轉移到所述當前狀態(tài)附近的狀態(tài)的概率越高,所述狀態(tài)值的值越大。
3.根據(jù)權利要求2所述的數(shù)據(jù)處理設備,其中,所述行動選擇單元基于所述狀態(tài)轉移模型,對于所述狀態(tài)轉移模型的每個狀態(tài),計算將所述目標狀態(tài)設置為基準的狀態(tài)值,其中狀態(tài)轉移到所述目標狀態(tài)附近的狀態(tài)的概率越高,所述狀態(tài)值的值越大;基于所述狀態(tài)轉移模型和將所述目標狀態(tài)設置為基準的狀態(tài)值,對于所述狀態(tài)轉移模型的每個狀態(tài)和所述主體能夠執(zhí)行的每個行動計算行動值,其中轉移到具有高的將所述目標狀態(tài)設置為基準的狀態(tài)值的狀態(tài)的概率越高,所述行動值的值越大;并且基于所述當前狀態(tài)的行動值,選擇所述主體的行動以便向所述目標狀態(tài)移動。
4.根據(jù)權利要求3所述的數(shù)據(jù)處理設備,還包括模型更新單元,其基于到所述當前狀態(tài)的狀態(tài)轉移,更新用于所述主體的行動的狀態(tài)轉移模型,在所述狀態(tài)轉移模型中,發(fā)生到所述當前狀態(tài)的狀態(tài)轉移。
5.根據(jù)權利要求4所述的數(shù)據(jù)處理設備,其中,用于預定行動的狀態(tài)轉移模型表示所述主體在第一狀態(tài)中通過所述預定行動轉移到第二狀態(tài)的頻率,并且其中,所述模型更新單元通過增大所述頻率來更新所述狀態(tài)轉移模型。
6.根據(jù)權利要求5所述的數(shù)據(jù)處理設備,其中,假定預定空間作為所述主體進行行動的行動環(huán)境,主體在所述行動環(huán)境中行動, 并且觀測所述主體在所述行動環(huán)境中的位置作為所述觀測值,并且其中,所述狀態(tài)表示通過將所述行動環(huán)境劃分成小區(qū)域而獲得的這樣的小區(qū)域。
7.根據(jù)權利要求6所述的數(shù)據(jù)處理設備,其中,所述行動選擇單元確定所述當前狀態(tài)是否與所述目標狀態(tài)一致,并且當所述當前狀態(tài)與所述目標狀態(tài)不一致時,基于所述當前狀態(tài)的行動值而選擇所述主體的行動以便向所述目標狀態(tài)移動。
8.根據(jù)權利要求7所述的數(shù)據(jù)處理設備,其中,當所述當前狀態(tài)與所述目標狀態(tài)一致時,所述狀態(tài)值計算單元基于所述狀態(tài)轉移模型而重新計算將所述當前狀態(tài)設置為基準的狀態(tài)值,所述行動值計算單元基于所述狀態(tài)轉移模型和將所述當前狀態(tài)設置為基準的狀態(tài)值而重新計算所述行動值,并且所述目標狀態(tài)設置單元基于所述行動值而重新設置所述目標狀態(tài)。
9.根據(jù)權利要求2所述的數(shù)據(jù)處理設備,其中,所述目標狀態(tài)設置單元對于所述狀態(tài)轉移模型的每個狀態(tài)獲得所述行動值的方差,并且在所述行動值的方差等于或高于預定閾值的狀態(tài)當中,把能夠從所述當前狀態(tài)通過預定次數(shù)內的狀態(tài)轉移而到達的狀態(tài)設置為所述目標狀態(tài)。
10.根據(jù)權利要求3所述的數(shù)據(jù)處理設備,其中,所述行動選擇單元基于所述當前狀態(tài)的行動值,利用ε -greedy方法或softmax方法,選擇所述主體的行動以便向所述目標狀態(tài)移動。
11.一種數(shù)據(jù)處理設備的數(shù)據(jù)處理方法,包括基于每個行動的狀態(tài)轉移模型,對于所述狀態(tài)轉移模型的每個狀態(tài),計算將所述狀態(tài)轉移模型的預定狀態(tài)設置為基準的狀態(tài)值,其中狀態(tài)轉移到所述預定狀態(tài)附近的狀態(tài)的概率越高,所述狀態(tài)值的值越大,在所述狀態(tài)轉移模型中,通過能夠行動的主體執(zhí)行的行動對狀態(tài)進行轉移;基于所述狀態(tài)轉移模型和將所述預定狀態(tài)設置為基準的狀態(tài)值,對于所述狀態(tài)轉移模型的每個狀態(tài)和所述主體能夠執(zhí)行的每個行動計算行動值,其中轉移到具有高的將所述預定狀態(tài)設置為基準的狀態(tài)值的狀態(tài)的概率越高,所述行動值的值越大;基于所述行動值,將所述狀態(tài)轉移模型當中的、所述行動值的波動大的狀態(tài)設置為目標狀態(tài),所述目標狀態(tài)是通過所述主體執(zhí)行的行動要到達的目標;以及選擇所述主體的行動以便向所述目標狀態(tài)移動。
12.一種使得計算機起如下作用的程序狀態(tài)值計算單元,其基于每個行動的狀態(tài)轉移模型,對于所述狀態(tài)轉移模型的每個狀態(tài),計算將所述狀態(tài)轉移模型的預定狀態(tài)設置為基準的狀態(tài)值,其中狀態(tài)轉移到所述預定狀態(tài)附近的狀態(tài)的概率越高,所述狀態(tài)值的值越大,在所述狀態(tài)轉移模型中,通過能夠行動的主體執(zhí)行的行動對狀態(tài)進行轉移;行動值計算單元,其基于所述狀態(tài)轉移模型和將所述預定狀態(tài)設置為基準的狀態(tài)值, 對于所述狀態(tài)轉移模型的每個狀態(tài)和所述主體能夠執(zhí)行的每個行動計算行動值,其中轉移到所述預定狀態(tài)設置為基準的狀態(tài)值大的狀態(tài)的概率越高,所述行動值的值越大;目標狀態(tài)設置單元,其基于所述行動值,將所述狀態(tài)轉移模型當中的、所述行動值的波動大的狀態(tài)設置為目標狀態(tài),所述目標狀態(tài)是通過所述主體執(zhí)行的行動要到達的目標;以及行動選擇單元,其選擇所述主體的行動以便向所述目標狀態(tài)移動。
全文摘要
本發(fā)明提供了一種數(shù)據(jù)處理設備、數(shù)據(jù)處理方法以及程序,其中,該數(shù)據(jù)處理設備包括狀態(tài)值計算單元,其對于狀態(tài)轉移模型的每個狀態(tài)計算狀態(tài)值,其中狀態(tài)的轉移概率越高,該狀態(tài)值的值越大;行動值計算單元,其對于狀態(tài)轉移模型的每個狀態(tài)和主體可以執(zhí)行的每個行動計算行動值,該行動值的值隨著轉移概率增大而增大;目標狀態(tài)設置單元,其在狀態(tài)轉移模型的狀態(tài)當中將行動值的波動大的狀態(tài)設置為目標狀態(tài),該目標狀態(tài)是通過主體執(zhí)行的行動要到達的目標;以及行動選擇單元,其選擇主體的行動以便向目標狀態(tài)移動。
文檔編號G06F19/00GK102567616SQ20111029422
公開日2012年7月11日 申請日期2011年9月27日 優(yōu)先權日2010年10月4日
發(fā)明者佐部浩太郎, 吉池由紀子, 河本獻太, 蓮尾高志 申請人:索尼公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
谷城县| 越西县| 乐东| 定安县| 从化市| 浙江省| 大姚县| 西宁市| 广丰县| 太和县| 大兴区| 富源县| 绍兴县| 江山市| 普格县| 深水埗区| 丽江市| 宁陕县| 高清| 循化| 嘉禾县| 长葛市| 南昌县| 壶关县| 文化| 白河县| 克拉玛依市| 黄梅县| 普陀区| 云龙县| 青海省| 泗洪县| 驻马店市| 阳原县| 平罗县| 潼南县| 奈曼旗| 友谊县| 高陵县| 板桥市| 贡嘎县|