1.一種用于多智能體系統(tǒng)路徑查找的分布式深度q學(xué)習(xí)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述分布式深度q學(xué)習(xí)方法,其特征在于,所述d-dmaql模型的具體建立過(guò)程還包括:
3.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法,其特征在于,所述環(huán)境狀態(tài)類(lèi)型包括各智能體當(dāng)前時(shí)刻的所處位置,各智能體當(dāng)前時(shí)刻的目標(biāo)位置,多智能系統(tǒng)當(dāng)前時(shí)刻的位置向量,各智能體當(dāng)前時(shí)刻的實(shí)際速度,各智能體當(dāng)前時(shí)刻的實(shí)際加速度,各智能體累積的能量消耗。
4.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法,其特征在于,所述動(dòng)作類(lèi)型包括給定環(huán)境狀態(tài)下,各智能體從當(dāng)前頂點(diǎn)移動(dòng)到拎一個(gè)相鄰頂點(diǎn)的過(guò)程。
5.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法,其特征在于,所述狀態(tài)轉(zhuǎn)移函數(shù)如下所示:
6.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法,其特征在于,所述獎(jiǎng)勵(lì)函數(shù)如下所示:
7.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法,其特征在于,所述深度q網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò),該卷積神經(jīng)網(wǎng)絡(luò)包括一個(gè)輸入層,多個(gè)隱藏層,以及一個(gè)輸出層。
8.根據(jù)權(quán)利要求2所述分布式深度q學(xué)習(xí)方法,其特征在于,所述d-dmaql模型的全局損失函數(shù)如下所示: