一種自適應(yīng)的隨機(jī)多臂決策問(wèn)題計(jì)算方法及其裝置與流程

文檔序號(hào)：12718642閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種自適應(yīng)的隨機(jī)多臂決策問(wèn)題計(jì)算方法及其裝置與流程

技術(shù)總結(jié)
本發(fā)明公開了一種自適應(yīng)的隨機(jī)多臂決策問(wèn)題計(jì)算方法及其裝置，包括初始化每個(gè)動(dòng)作的估計(jì)值和選擇次數(shù)；依據(jù)各個(gè)動(dòng)作的估計(jì)值和選擇次數(shù)，確定估計(jì)值最小的動(dòng)作的選擇次數(shù)m；按照w/(w+m2)的概率進(jìn)行探索，1?w/(w+m2)的概率進(jìn)行利用；w為預(yù)設(shè)算法參數(shù)，探索操作為從當(dāng)前選擇次數(shù)最少的動(dòng)作中隨機(jī)選取一個(gè)動(dòng)作作為下一時(shí)間步的動(dòng)作，利用操作為選擇當(dāng)前估計(jì)值最大的動(dòng)作作為下一時(shí)間步的動(dòng)作；下一時(shí)間步的動(dòng)作選擇完成后，生成隨機(jī)獎(jiǎng)賞；依據(jù)隨機(jī)獎(jiǎng)賞及所選擇的動(dòng)作更新各個(gè)動(dòng)作的估計(jì)值及選擇次數(shù)，重新確定m，直至全部動(dòng)作完成后，統(tǒng)計(jì)預(yù)設(shè)最大時(shí)間步內(nèi)得到的隨機(jī)獎(jiǎng)賞之和，得到累積獎(jiǎng)賞。本發(fā)明能夠均衡探索和利用的選擇，并保證最終的決策效果，且適用范圍廣泛。

技術(shù)研發(fā)人員：周倩;章曉芳;章鵬
受保護(hù)的技術(shù)使用者：蘇州大學(xué)
文檔號(hào)碼：201710174634
技術(shù)研發(fā)日：2017.03.22
技術(shù)公布日：2017.06.23

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種自適應(yīng)的隨機(jī)多臂決策問(wèn)題計(jì)算方法及其裝置與流程