1.一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法,其特征在于,步驟s1中,所定義多智能體深度強(qiáng)化學(xué)習(xí)基本組件,包括:
3.根據(jù)權(quán)利要求2所述的一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法,其特征在于,步驟s2中,所述編碼器網(wǎng)絡(luò)模型,具體為:
4.根據(jù)權(quán)利要求1所述的一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法,其特征在于,步驟s3中,所述解碼器網(wǎng)絡(luò)模型,為避免不必要的通訊對(duì)智能體決策帶來(lái)干擾,嵌入注意力機(jī)制,以此幫助智能體自主學(xué)習(xí)相互間的實(shí)時(shí)通訊需求。
5.根據(jù)權(quán)利要求3所述的一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法,其特征在于,步驟s3中,所述解碼器網(wǎng)絡(luò)模型,具體為:
6.根據(jù)權(quán)利要求1所述的一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法,其特征在于,步驟s4中,所述mac-ac算法即完全合作關(guān)系設(shè)定下的多智能體演員評(píng)判家算法。
7.根據(jù)權(quán)利要求5所述的一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法,其特征在于,步驟s5中,所述掩碼機(jī)制即在訓(xùn)練的過程中,掩碼將所有貼片頭不應(yīng)訪問節(jié)點(diǎn)的對(duì)數(shù)概率設(shè)置為-∞,來(lái)遮蔽不可行解,并在滿足特定條件時(shí)強(qiáng)制求解。
8.根據(jù)權(quán)利要求7所述的一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法,其特征在于,所述掩碼機(jī)制具體如下:
9.一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化系統(tǒng),其特征在于,包括存儲(chǔ)器、處理器以及存儲(chǔ)于存儲(chǔ)器上并能夠被處理器運(yùn)行的計(jì)算機(jī)程序指令,當(dāng)處理器運(yùn)行該計(jì)算機(jī)程序指令時(shí),能夠?qū)崿F(xiàn)如權(quán)利要求1-8任一所述的方法步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有能夠被處理器運(yùn)行的計(jì)算機(jī)程序指令,當(dāng)處理器運(yùn)行該計(jì)算機(jī)程序指令時(shí),能夠?qū)崿F(xiàn)如權(quán)利要求1-8任一所述的方法步驟。