本發(fā)明涉及智能調度,具體是一種飛行器跳飛機庫智能調度方法及其系統。
背景技術:
1、當前的跳飛機庫調度系統涉及本地飛行器和漫游飛行器的多飛行器集群調度,要求飛行器集群與多個機庫之間進行高效的通信和協調,然而,現有系統中,由于飛行器集群和機庫之間的通信鏈路容易出現故障,導致數據傳輸不穩(wěn)定,進而引發(fā)調度混亂和錯誤。這種通信問題會嚴重影響集群調度的精確性和系統的可靠性,進而妨礙機庫的有序運行,增加任務延誤風險,降低整體作業(yè)效率。
技術實現思路
1、本發(fā)明的目的在于提供一種飛行器跳飛機庫智能調度方法及其系統,結合深度強化學習和混合整數規(guī)劃,實現動態(tài)調整調度策略,優(yōu)化任務分配、負載均衡和資源利用。
2、本發(fā)明的目的可以通過以下技術方案實現:
3、本技術提供了一種飛行器跳飛機庫智能調度方法,包括
4、一種飛行器跳飛機庫智能調度方法,包括如下步驟:
5、機庫實時獲取本地飛行器飛行作業(yè)數據;
6、機庫實時獲取跳飛飛行器的停機請求信息,根據停機請求信息實時與飛行器控制中心進行數據通信,獲取飛行器的飛行作業(yè)數據,將飛行器的狀態(tài)與機庫進行數據同步;
7、獲取機庫的實時場景運行數據,根據機庫實時場景運行數據進行飛行器集群調度;所述場景運行數據包括正在作業(yè)站點、補給作業(yè)站點,起降作業(yè)站點以及閑置作業(yè)站點;
8、其中,所述根據機庫實時場景運行數據進行飛行器集群調度的方法包括:從第一機庫中獲得第一飛行器的實時位置信息;將第一飛行器的實時位置信息發(fā)送至第二機庫;在第一機庫接收到第三飛行器的實時位置信息時,向第三飛行器發(fā)送任務指令,其中,所述第三飛行器為第二機庫中的飛行器。
9、進一步的,所述將飛行器的狀態(tài)與機庫進行數據同步,具體用于實時獲取飛行器的位置信息和任務狀態(tài),生成并展示任務分配表,內容包括:
10、飛行器控制中心接收來自第一飛行器的第一數據包,所述第一數據包攜帶有第一飛行器的當前位置信息和當前執(zhí)行的任務信息;接收來自第三飛行器的第二數據包,所述第二數據包攜帶有第三飛行器的當前位置信息和當前執(zhí)行的任務信息;根據第一數據包和第二數據包生成任務分配表,所述任務分配表記錄有各個飛行器所處的位置信息及當前執(zhí)行的任務信息;顯示任務分配表。
11、進一步的,所述飛行作業(yè)數據包括以下至少一項:飛行器的位置信息、飛行路線、起降時間、飛行載荷、負載信息、航向信息、航速信息、剩余油量信息以及狀態(tài)信息。
12、進一步的,在從第一機庫中獲得第一飛行器的實時位置信息之前,還包括:接收來自用戶終端的任務請求消息,所述任務請求消息攜帶有第一飛行器的標識信息。
13、進一步的,在生成任務分配表時,通過深度強化學習優(yōu)化任務分配,具體內容包括:
14、定義狀態(tài)向量s?為飛行器和機庫的當前狀態(tài);狀態(tài)向量s表示為:;
15、其中,表示第1到第n個飛行器的實時位置坐標;表示第1到第n個飛行器的實時速度;表示第1到第n個飛行器的剩余油量;表示機庫的實時任務狀態(tài);
16、定義動作a?為調度決策,包括,其中表示針對第i?個飛行器的調度動作;
17、設計獎勵函數r?來評價每個動作的好壞;
18、具體的其中t(s,a)?表示任務完成時間,s(s,a)?表示安全性指標,u(s,a)?表示資源利用率,為權重系數;
19、定義狀態(tài)價值函數和動作價值函數,量化每個狀態(tài)和動作的價值;
20、使用dqn算法的損失函數進行訓練,更新網絡權重θ選擇最優(yōu)動作價值函數;
21、損失函數表示為:,其中y表示目標q值;是當前網絡對狀態(tài)s?下采取動作a?的價值估計;θ是當前網絡參數,表示期望值,用于表示樣本的統計平均;
22、將訓練好的drl模型部署到調度系統中,根據當前狀態(tài)s?實時輸出最優(yōu)調度決策。
23、進一步的,在優(yōu)化任務分配的過程中,混合整數規(guī)劃模型用于處理約束條件和優(yōu)化問題,具體內容包括:
24、根據drl模型的動作空間,定義mip模型的決策變量,對每個飛行器分配任務的決策表示為二進制變量,其中i?表示飛行器的索引,j?表示任務的索引;
25、結合drl模型的獎勵函數,構建mip模型的目標函數;
26、具體目標函數表示為:;其中表示對所有飛行器i?和所有任務j?的成本進行累加,是任務完成時間的權重系數,表示飛行器i?執(zhí)行任務j?時的安全性指標,是資源利用率的權重系數,表示飛行器i?執(zhí)行任務j?時的資源利用率,是決策變量;
27、根據飛行器和機庫的實時狀態(tài),添加mip模型的約束條件;
28、使用數學優(yōu)化求解器求解mip模型,找到滿足所有約束的最優(yōu)解;
29、分析求解結果,將優(yōu)化結果應用于實際的飛行器調度中,根據實際運行情況調整模型參數。
30、進一步的,mip模型的約束條件包括:任務分配約束,每個任務恰好被分配給一個飛行器,表示為:;
31、飛行器容量約束,飛行器的負載不得超過其最大容量,表示為:;其中表示任務j?對飛行器i?的資源需求,表示飛行器i?的資源容量;
32、時間窗口約束,飛行器的起降時間必須在特定的時間窗口內,表示為:;其中表示飛行器i?開始執(zhí)行任務j?的時間,和分別表示飛行器i?的最早和最晚起降時間;
33、安全約束,確保飛行器之間的安全距離或其他安全標準,表示為:,其中表示安全閾值。
34、進一步的,所述方法還包括實時碰撞檢測:當檢測到第一飛行器與第三飛行器存在碰撞風險時,向第三飛行器發(fā)送避讓指令,以使第三飛行器繞開第一飛行器所在區(qū)域。
35、一種飛行器跳飛機庫智能調度系統,包括數據同步與通信模塊、實時場景分析模塊和智能調度決策模塊,
36、所述數據同步與通信模塊,用于實時獲取本地飛行器飛行作業(yè)數據,獲取跳飛飛行器的停機請求信息,并與飛行器控制中心進行數據通信,同步飛行器的狀態(tài)與機庫數據;
37、所述實時場景分析模塊,用于獲取機庫的實時場景運行數據,從第一機庫中獲得第一飛行器的實時位置信息,并將信息發(fā)送至第二機庫,接收第三飛行器的實時位置信息,并發(fā)送任務指令;
38、所述智能調度決策模塊,通過深度強化學習單元和混合整數規(guī)劃單元進行智能調度決策,向飛行器發(fā)送任務指令,調整飛行路線。
39、進一步的,所述深度強化學習單元,使用drl算法優(yōu)化任務分配,訓練drl模型,更新網絡權重選擇最優(yōu)動作價值函數,將訓練好的drl模型部署到調度系統中,根據當前狀態(tài)實時輸出最優(yōu)調度決策;
40、所述混合整數規(guī)劃單元,通過定義mip模型的決策變量,對每個飛行器分配任務的決策表示為二進制變量,構建mip模型的目標函數,添加mip模型的約束條件,再使用數學優(yōu)化求解器求解mip模型,找到滿足所有約束的最優(yōu)解。
41、本發(fā)明的有益效果為:
42、本發(fā)明通過實時獲取并同步機庫和飛行器的狀態(tài)數據,結合深度強化學習和混合整數規(guī)劃,進行動態(tài)調整調度策略,實現負載均衡和資源最優(yōu)利用,解決了現有跳飛機庫調度系統中通信故障導致的調度混亂和錯誤問題,drl模型通過學習飛行器和機庫的實時狀態(tài),優(yōu)化任務分配,確保負載均衡,減少等待時間,提高作業(yè)效率,同時,mip模型處理約束條件,如飛行器容量和時間窗口,確保在滿足所有約束的前提下進行調度;此外通過實時碰撞檢測功能通過發(fā)送避讓指令避免飛行器間的碰撞風險,增強了系統的安全性,這種方法不僅提升了調度系統的智能化和效率,還增強了其靈活性和魯棒性,有效應對了動態(tài)變化的運營環(huán)境,展現出在復雜航空調度問題中的強大應用潛力。