所屬的技術人員能夠理解,本公開的各個方面可以實現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本公開的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結合的實施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。下面參照圖7來描述根據(jù)本公開的這種實施方式的電子設備700。圖7顯示的電子設備700僅僅是一個示例,不應對本公開實施例的功能和使用范圍帶來任何限制。如圖7所示,電子設備700以通用計算設備的形式表現(xiàn)。電子設備700的組件可以包括但不限于:至少一個處理器710、至少一個存儲器720、連接不同系統(tǒng)組件(包括存儲器720和處理器710)的總線730、顯示器740。其中,所述存儲器存儲有程序代碼,所述程序代碼可以被所述處理器710執(zhí)行,使得所述處理器710執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本公開各種示例性實施方式的步驟。例如,所述處理器710可以執(zhí)行如圖1中所示的:步驟s110,向待訓練的作戰(zhàn)決策模型依次輸入各個時間步的環(huán)境狀態(tài),以獲取待訓練的作戰(zhàn)決策模型依次輸出的針對各個環(huán)境狀態(tài)的作戰(zhàn)數(shù)據(jù);待訓練的作戰(zhàn)決策模型包含策略網(wǎng)絡和價值網(wǎng)絡,策略網(wǎng)絡用于輸出針對各個時間步的環(huán)境狀態(tài)的作戰(zhàn)策略,價值網(wǎng)絡用于輸出針對環(huán)境狀態(tài)的第一預期價值;作戰(zhàn)數(shù)據(jù)包括作戰(zhàn)策略和第一預期價值;步驟s120,根據(jù)各個時間步的作戰(zhàn)數(shù)據(jù),確定待訓練的作戰(zhàn)決策模型的損失值;步驟s130,根據(jù)損失值對策略網(wǎng)絡對應的策略參數(shù)和價值網(wǎng)絡對應的價值參數(shù)進行參數(shù)迭代,獲得訓練好的作戰(zhàn)決策模型。存儲器720可以包括易失性存儲形式的可讀介質(zhì),例如隨機存取存儲器(ram)7201和/或高速緩存存儲器7202,還可以進一步包括只讀存儲器(rom)7203。存儲器720還可以包括具有一組(至少一個)程序模塊7205的程序/實用工具7204,這樣的程序模塊7205包括但不限于:操作系統(tǒng)、一個或者多個應用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡環(huán)境的實現(xiàn)??偩€730可以為表示幾類總線結構中的一種或多種,包括存儲器總線或者存儲器控制器、外圍總線、圖形加速端口、處理器或者使用多種總線結構中的任意總線結構的局域總線。電子設備700也可以與一個或多個外部設備800(例如鍵盤、指向設備、藍牙設備等)通信,還可與一個或者多個使得用戶能與該電子設備700交互的設備通信,和/或與使得該電子設備700能與一個或多個其它計算設備進行通信的任何設備(例如路由器、調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口750進行。并且,電子設備700還可以通過網(wǎng)絡適配器760與一個或者多個網(wǎng)絡(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡,例如因特網(wǎng))通信。如圖所示,網(wǎng)絡適配器760通過總線730與電子設備700的其它模塊通信。應當明白,盡管圖中未示出,可以結合電子設備700使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅(qū)動器、冗余處理器、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。本領域技術人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本公開的其他實施例。本公開旨在涵蓋本公開的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本公開的一般性原理并包括本公開未公開的本中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由權利要求指出。
背景技術:
1、在數(shù)字化條件下,軍事行動戰(zhàn)場透明度高,參與作戰(zhàn)實體復雜且存在與海陸空天等多維空間,以協(xié)同的形式參與作戰(zhàn)行動,從而使戰(zhàn)爭過程變得更加復雜,對指揮決策人員的全局信息獲取能力、全局觀察與運籌能力、多維空間中參戰(zhàn)實體的控制協(xié)調(diào)能力等,提出了更高的要求。
2、相關技術中,一般是依賴于預先設定的策略和規(guī)則來應對各種來襲目標,顯然,上述方案無法自動的更新策略和規(guī)則,從而無法有效應對多變的戰(zhàn)場環(huán)境。
3、鑒于此,本領域亟需開發(fā)一種新的作戰(zhàn)決策模型的訓練方法及裝置。
4、需要說明的是,上述背景技術部分公開的信息僅用于加強對本公開的背景的理解。
技術實現(xiàn)思路
1、本公開的目的在于提供一種作戰(zhàn)決策模型的訓練方法、作戰(zhàn)決策模型的訓練裝置、計算機可讀存儲介質(zhì)及電子設備,進而至少在一定程度上克服由于相關技術的限制而導致的無法有效應對多變的戰(zhàn)場環(huán)境的技術問題。
2、本公開的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
3、根據(jù)本公開的第一方面,提供一種作戰(zhàn)決策模型的訓練方法,包括:
4、向待訓練的作戰(zhàn)決策模型依次輸入各個時間步的環(huán)境狀態(tài),以獲取所述待訓練的作戰(zhàn)決策模型依次輸出的針對各個所述環(huán)境狀態(tài)的作戰(zhàn)數(shù)據(jù);所述待訓練的作戰(zhàn)決策模型包含策略網(wǎng)絡和價值網(wǎng)絡,所述策略網(wǎng)絡用于輸出針對所述各個時間步的環(huán)境狀態(tài)的作戰(zhàn)策略,所述價值網(wǎng)絡用于輸出針對所述環(huán)境狀態(tài)的第一預期價值;所述作戰(zhàn)數(shù)據(jù)包括所述作戰(zhàn)策略和所述第一預期價值;
5、根據(jù)所述各個時間步的作戰(zhàn)數(shù)據(jù),確定所述待訓練的作戰(zhàn)決策模型的損失值;
6、根據(jù)所述損失值對所述策略網(wǎng)絡對應的策略參數(shù)和所述價值網(wǎng)絡對應的價值參數(shù)進行參數(shù)迭代,獲得所述訓練好的作戰(zhàn)決策模型。
7、在本公開的示例性實施例中,所述根據(jù)所述各個時間步的作戰(zhàn)數(shù)據(jù),確定所述待訓練的作戰(zhàn)決策模型的損失值,包括:
8、判斷當前累計的多個所述時間步的總數(shù)目是否達到指定數(shù)值;
9、在所述總數(shù)目達到所述指定數(shù)值之后,根據(jù)所述各個時間步的作戰(zhàn)數(shù)據(jù),確定所述待訓練的作戰(zhàn)決策模型的損失值。
10、在本公開的示例性實施例中,所述針對各個所述環(huán)境狀態(tài)的作戰(zhàn)數(shù)據(jù),還包括:
11、針對所述各個時間步的所述作戰(zhàn)策略的獎勵值;
12、下一個時間步的新的環(huán)境狀態(tài),所述新的環(huán)境狀態(tài)是在執(zhí)行所述作戰(zhàn)策略之后更新所述環(huán)境狀態(tài)而得到的;
13、針對所述新的環(huán)境狀態(tài)的第二預期價值。
14、在本公開的示例性實施例中,針對所述各個時間步的所述作戰(zhàn)策略的獎勵值,通過以下方式確定:
15、獲取預先配置的多項獎懲條件;
16、將各個所述作戰(zhàn)策略與每項所述獎懲條件進行匹配,確定對應于每項所述獎懲條件的獎懲參數(shù);
17、根據(jù)多項所述獎懲參數(shù)的加權結果,確定所述獎勵值。
18、在本公開的示例性實施例中,所述根據(jù)所述各個時間步的作戰(zhàn)數(shù)據(jù),確定所述待訓練的作戰(zhàn)決策模型的損失值,包括:
19、根據(jù)針對所述環(huán)境狀態(tài)的第一預期價值和針對所述新的環(huán)境狀態(tài)的第二預期價值計算針對所述各個時間步的價值優(yōu)勢估計值;
20、獲取針對所述各個時間步的所述策略概率比值;
21、根據(jù)針對所述各個時間步的價值優(yōu)勢估計值和針對所述各個時間步的所述策略概率比值,確定所述策略網(wǎng)絡的策略損失;
22、根據(jù)針對所述各個時間步的所述作戰(zhàn)策略的獎勵值計算針對所述各個所述環(huán)境狀態(tài)的目標價值,并根據(jù)各個所述環(huán)境狀態(tài)的第一預期價值和針對所述各個所述環(huán)境狀態(tài)的目標價值,確定所述價值網(wǎng)絡的價值損失;
23、根據(jù)所述策略損失和所述價值損失,確定所述待訓練的作戰(zhàn)決策模型的損失值。
24、在本公開的示例性實施例中,所述根據(jù)針對所述環(huán)境狀態(tài)的第一預期價值和針對所述新的環(huán)境狀態(tài)的第二預期價值計算針對所述各個時間步的價值優(yōu)勢估計值,包括:
25、通過以下公式確定針對所述各個時間步的價值優(yōu)勢估計值:
26、
27、δt=rt+γv(st+1)-v(st)
28、其中,t代表所述各個時間步的序號,代表時間步t所對應的價值優(yōu)勢估計值,t表示每個回合的最大時間步的序號,l代表數(shù)值范圍從0至t逐次加一的索引值,γ代表折扣因子,λ代表平滑參數(shù);
29、δt代表時間步t對應的時序差分誤差,rt代表時間步t對應的所述獎勵值,v(st)代表時間步t的環(huán)境狀態(tài)所對應的第一預期價值,v(st+1)代表時間步t+1的環(huán)境狀態(tài)所對應的第二預期價值。
30、在本公開的示例性實施例中,針對所述各個時間步的所述策略概率比值,通過以下公式確定:
31、
32、其中,ratiot(θ)代表時間步t的所述策略概率比值;
33、πθ(at|st)代表對應于時間步t,且在采取當前策略參數(shù)θ時,在所述環(huán)境狀態(tài)st下采取所述作戰(zhàn)策略at的第一概率;
34、代表對應于時間步t,且在采取舊的策略參數(shù)θold時,在所述環(huán)境狀態(tài)st下采取所述作戰(zhàn)策略at的第二概率;
35、所述舊的策略參數(shù)是上一輪調(diào)整前的策略參數(shù),所述當前策略參數(shù)是上一輪調(diào)整之后的策略參數(shù)。
36、在本公開的示例性實施例中,所述根據(jù)針對所述各個時間步的價值優(yōu)勢估計值和針對所述各個時間步的所述策略概率比值,確定所述策略網(wǎng)絡的策略損失,包括:
37、根據(jù)針對所述各個時間步的價值優(yōu)勢估計值和針對所述各個時間步的所述策略概率比值,確定對應于所述各個時間步的策略損失分量;
38、根據(jù)多個所述時間步對應的多個策略損失分量的期望值,確定所述策略網(wǎng)絡的策略損失。
39、在本公開的示例性實施例中,所述根據(jù)多個所述時間步對應的多個策略損失分量的期望值,確定所述策略網(wǎng)絡的策略損失,包括:
40、通過以下公式計算所述策略網(wǎng)絡的策略損失:
41、
42、其中,代表對于時間步t取值為從0到t的多個策略損失分量求期望;
43、代表時間步t所對應的策略損失分量;
44、clip函數(shù)用于確保ratiot(θ)的數(shù)值被限制在[1-∈,1+∈]內(nèi),min函數(shù)代表取和二者之中的較小值,以作為對應于各個時間步t的策略損失分量,∈代表截斷超參數(shù)。
45、在本公開的示例性實施例中,所述根據(jù)針對所述各個時間步的所述作戰(zhàn)策略的獎勵值計算針對所述各個所述環(huán)境狀態(tài)的目標價值,包括:
46、通過以下公式計算針對所述各個所述環(huán)境狀態(tài)的目標價值:
47、
48、其中,vttarget代表針對時間步t的目標價值,rt+k代表針對t+k時刻輸出的作戰(zhàn)策略所對應的獎勵值,k的取值從0至t-t遞增。
49、在本公開的示例性實施例中,所述根據(jù)各個所述環(huán)境狀態(tài)的第一預期價值和針對所述各個所述環(huán)境狀態(tài)的目標價值,確定所述價值網(wǎng)絡的價值損失,包括:
50、基于以下公式計算所述價值網(wǎng)絡的價值損失:
51、
52、其中,lvf(θ)代表上述價值損失;代表對于時間步t取值為從0到t的多個第一目標值求期望,第一目標值指的是(v(st)-vttarget)2。
53、在本公開的示例性實施例中,所述根據(jù)所述策略損失和所述價值損失,確定所述待訓練的作戰(zhàn)決策模型的損失值,包括:
54、基于以下公式確定所述待訓練的作戰(zhàn)決策模型的損失值:
55、
56、其中,lclip(θ)代表所述策略損失,lvf(θ)代表所述價值損失;
57、代表對于時間步t取值為從0到t的多個第二目標值求期望,各個所述第二目標值指的是各個時間步t對應的lclip(θ)-c1lvf(θ)+c2h(πθ);
58、c1和c2代表權重超參數(shù);
59、h(πθ)代表策略熵,所述作戰(zhàn)策略中包含多個子策略,a代表對應于時間步t的環(huán)境狀態(tài)所生成的作戰(zhàn)策略中的每個子策略,πθ(a|st)代表對應于時間步t,且在采取當前策略參數(shù)θ時,在所述環(huán)境狀態(tài)st下采取每個子策略a的第三概率。
60、在本公開的示例性實施例中,所述根據(jù)所述損失值對所述策略網(wǎng)絡對應的策略參數(shù)和所述價值網(wǎng)絡對應的價值參數(shù)進行參數(shù)迭代,獲得所述訓練好的作戰(zhàn)決策模型,包括:
61、根據(jù)所述損失值,利用梯度下降算法更新所述策略網(wǎng)絡對應的策略參數(shù)和所述價值網(wǎng)絡對應的價值參數(shù);
62、直至滿足預設的訓練終止條件時,獲得所述訓練好的作戰(zhàn)決策模型;
63、其中,所述訓練終止條件包括參數(shù)迭代次數(shù)達到預設次數(shù)閾值,或者,多個回合的平均獎勵值趨于收斂。
64、根據(jù)本公開的第二方面,提供一種作戰(zhàn)決策模型的訓練裝置,包括:
65、作戰(zhàn)數(shù)據(jù)生成模塊,用于向待訓練的作戰(zhàn)決策模型依次輸入各個時間步的環(huán)境狀態(tài),以獲取所述待訓練的作戰(zhàn)決策模型依次輸出的針對各個所述環(huán)境狀態(tài)的作戰(zhàn)數(shù)據(jù);所述待訓練的作戰(zhàn)決策模型包含策略網(wǎng)絡和價值網(wǎng)絡,所述策略網(wǎng)絡用于輸出針對所述環(huán)境狀態(tài)的作戰(zhàn)策略,所述價值網(wǎng)絡用于輸出針對所述環(huán)境狀態(tài)的第一預期價值;所述作戰(zhàn)數(shù)據(jù)包括所述作戰(zhàn)策略和所述第一預期價值;
66、損失值確定模塊,用于根據(jù)所述各個時間步的作戰(zhàn)數(shù)據(jù),確定所述待訓練的作戰(zhàn)決策模型的損失值;
67、參數(shù)迭代模塊,用于根據(jù)所述損失值對所述策略網(wǎng)絡對應的策略參數(shù)和所述價值網(wǎng)絡對應的價值參數(shù)進行參數(shù)迭代,獲得所述訓練好的作戰(zhàn)決策模型。
68、根據(jù)本公開的第三方面,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面所述的作戰(zhàn)決策模型的訓練方法。
69、根據(jù)本公開的第四方面,提供一種電子設備,包括:處理器;以及存儲器,用于存儲所述處理器的可執(zhí)行指令;其中,所述處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來執(zhí)行上述第一方面所述的作戰(zhàn)決策模型的訓練方法。
70、由上述技術方案可知,本公開示例性實施例中的作戰(zhàn)決策模型的訓練方法、作戰(zhàn)決策模型的訓練裝置、計算機可讀存儲介質(zhì)及電子設備至少具備以下優(yōu)點和積極效果:
71、在本公開的一些實施例所提供的技術方案中,通過向待訓練的作戰(zhàn)決策模型(待訓練的作戰(zhàn)決策模型包含策略網(wǎng)絡和價值網(wǎng)絡)依次輸入各個時間步的環(huán)境狀態(tài),以獲取待訓練的作戰(zhàn)決策模型依次輸出的針對各個環(huán)境狀態(tài)的作戰(zhàn)數(shù)據(jù);根據(jù)各個時間步的作戰(zhàn)數(shù)據(jù),確定待訓練的作戰(zhàn)決策模型的損失值;根據(jù)損失值對策略網(wǎng)絡對應的策略參數(shù)和價值網(wǎng)絡對應的價值參數(shù)進行參數(shù)迭代,獲得訓練好的作戰(zhàn)決策模型,一方面,能夠?qū)Υ柧毜淖鲬?zhàn)決策模型進行動態(tài)更新,從而,避免根據(jù)一成不變的策略或者規(guī)則進行作戰(zhàn)決策所導致的無法有效應用多變的戰(zhàn)場環(huán)境的問題;進一步的,采用策略網(wǎng)絡和價值網(wǎng)絡的聯(lián)合訓練,以及損失值引導的參數(shù)迭代,可以提高模型訓練的效率和穩(wěn)定性,減少訓練過程中的波動,使模型更快地收斂到一個穩(wěn)定的決策策略;另一方面,通過同時訓練策略網(wǎng)絡和價值網(wǎng)絡,該方法能夠同時優(yōu)化策略選擇(決定最佳行動)和價值評估(預測未來回報),策略網(wǎng)絡專注于學習如何在給定環(huán)境下做出最優(yōu)決策,而價值網(wǎng)絡則幫助評估這些決策的長期效益,兩者的結合使得模型能夠做出更加明智且長遠考慮的決策,提升模型的實用性。
72、本公開應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。