技術(shù)總結(jié)
本發(fā)明公開了一種自適應(yīng)的隨機(jī)多臂決策問(wèn)題計(jì)算方法及其裝置,包括初始化每個(gè)動(dòng)作的估計(jì)值和選擇次數(shù);依據(jù)各個(gè)動(dòng)作的估計(jì)值和選擇次數(shù),確定估計(jì)值最小的動(dòng)作的選擇次數(shù)m;按照w/(w+m2)的概率進(jìn)行探索,1?w/(w+m2)的概率進(jìn)行利用;w為預(yù)設(shè)算法參數(shù),探索操作為從當(dāng)前選擇次數(shù)最少的動(dòng)作中隨機(jī)選取一個(gè)動(dòng)作作為下一時(shí)間步的動(dòng)作,利用操作為選擇當(dāng)前估計(jì)值最大的動(dòng)作作為下一時(shí)間步的動(dòng)作;下一時(shí)間步的動(dòng)作選擇完成后,生成隨機(jī)獎(jiǎng)賞;依據(jù)隨機(jī)獎(jiǎng)賞及所選擇的動(dòng)作更新各個(gè)動(dòng)作的估計(jì)值及選擇次數(shù),重新確定m,直至全部動(dòng)作完成后,統(tǒng)計(jì)預(yù)設(shè)最大時(shí)間步內(nèi)得到的隨機(jī)獎(jiǎng)賞之和,得到累積獎(jiǎng)賞。本發(fā)明能夠均衡探索和利用的選擇,并保證最終的決策效果,且適用范圍廣泛。
技術(shù)研發(fā)人員:周倩;章曉芳;章鵬
受保護(hù)的技術(shù)使用者:蘇州大學(xué)
文檔號(hào)碼:201710174634
技術(shù)研發(fā)日:2017.03.22
技術(shù)公布日:2017.06.23