用于多智能體系統(tǒng)路徑查找的分布式深度Q學(xué)習(xí)方法與流程

文檔序號(hào)：40481341發(fā)布日期：2024-12-31 12:49閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>用于多智能體系統(tǒng)路徑查找的分布式深度Q學(xué)習(xí)方法與流程

技術(shù)特征：

1.一種用于多智能體系統(tǒng)路徑查找的分布式深度q學(xué)習(xí)方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述分布式深度q學(xué)習(xí)方法，其特征在于，所述d-dmaql模型的具體建立過(guò)程還包括：

3.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法，其特征在于，所述環(huán)境狀態(tài)類(lèi)型包括各智能體當(dāng)前時(shí)刻的所處位置，各智能體當(dāng)前時(shí)刻的目標(biāo)位置，多智能系統(tǒng)當(dāng)前時(shí)刻的位置向量，各智能體當(dāng)前時(shí)刻的實(shí)際速度，各智能體當(dāng)前時(shí)刻的實(shí)際加速度，各智能體累積的能量消耗。

4.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法，其特征在于，所述動(dòng)作類(lèi)型包括給定環(huán)境狀態(tài)下，各智能體從當(dāng)前頂點(diǎn)移動(dòng)到拎一個(gè)相鄰頂點(diǎn)的過(guò)程。

5.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法，其特征在于，所述狀態(tài)轉(zhuǎn)移函數(shù)如下所示：

6.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法，其特征在于，所述獎(jiǎng)勵(lì)函數(shù)如下所示：

7.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法，其特征在于，所述深度q網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò)，該卷積神經(jīng)網(wǎng)絡(luò)包括一個(gè)輸入層，多個(gè)隱藏層，以及一個(gè)輸出層。

8.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法，其特征在于，所述d-dmaql模型的全局損失函數(shù)如下所示：

技術(shù)總結(jié)
一種用于多智能體系統(tǒng)路徑查找的分布式深度Q學(xué)習(xí)方法，包括以下步驟：1)構(gòu)建各智能體的深度Q網(wǎng)絡(luò)，結(jié)合UCB策略，形成多智能體系統(tǒng)對(duì)應(yīng)的D?DMAQL模型，用于計(jì)算各智能體當(dāng)前時(shí)刻的Q值，以及下一刻的最大Q值；2)建立D?DMAQL訓(xùn)練模塊，用于D?DMAQL模型的訓(xùn)練；3)建立推理決策模塊，用于根據(jù)各智能體當(dāng)前時(shí)刻的Q值，以及對(duì)應(yīng)的環(huán)境狀態(tài)、動(dòng)作計(jì)算各智能體的決策值；4)建立全局優(yōu)化器，用于根據(jù)各智能體各個(gè)時(shí)刻的Q值，以及對(duì)應(yīng)的環(huán)境狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)、決策值，計(jì)算D?DMAQL模型的全局損失函數(shù)；5)利用訓(xùn)練好的D?DMAQL模型，結(jié)合全局損失函數(shù)，進(jìn)行多智能體系統(tǒng)的路徑查找。

技術(shù)研發(fā)人員：匡金駿,魯宇,曹恒,周晶潔
受保護(hù)的技術(shù)使用者：重慶長(zhǎng)安工業(yè)（集團(tuán)）有限責(zé)任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于多智能體系統(tǒng)路徑查找的分布式深度Q學(xué)習(xí)方法與流程