本發(fā)明涉及通信,尤其涉及一種衛(wèi)星通信資源調(diào)度方法、系統(tǒng)、電子設(shè)備和非暫態(tài)計算機可讀存儲介質(zhì)。
背景技術(shù):
1、現(xiàn)如今,衛(wèi)星平臺能力提升,天線口徑增大,通信頻段提升,通信衛(wèi)星的軌道從地球同步軌道(geo)降低至中軌或低軌,形成了衛(wèi)星以多個可動窄波束稀疏覆蓋用戶的新通信模式。窄波束技術(shù)的引入使得衛(wèi)星發(fā)射能力更為集中,eirp(等效全向輻射功率)和g/t值(天線增益與噪聲溫度比)得到提升,從而提高了用戶的通信速率。在這種窄波束情況下,用戶在通信前需要申請?zhí)囟ǖ牟ㄊY源,使得窄波束精確覆蓋到其位置,資源調(diào)度則涉及波束、頻率、時隙等多種無線通信資源的合理分配。
2、然而,在衛(wèi)星通信資源調(diào)度的背景下,衛(wèi)星的姿態(tài)控制成為了一個至關(guān)重要的環(huán)節(jié),因為衛(wèi)星的姿態(tài)決定了通信天線的精確指向。衛(wèi)星姿態(tài)的控制通常依賴磁力矩器,通過與地球磁場的相互作用來產(chǎn)生力矩,從而調(diào)整衛(wèi)星的姿態(tài),確保通信波束能夠準(zhǔn)確覆蓋目標(biāo)區(qū)域。因此,磁力矩器的性能和極性測量對衛(wèi)星通信資源調(diào)度有著重要影響。
3、目前的磁力矩器極性測量方法仍存在諸多挑戰(zhàn)。傳統(tǒng)的指南針法在測量磁力矩器極性時,由于指針的擺動不靈敏,尤其在磁矩較小時,測量精度往往不高,導(dǎo)致測試結(jié)果模糊,容易誤判。這不僅影響姿態(tài)控制的準(zhǔn)確性,還會影響衛(wèi)星天線的指向,從而直接影響資源的調(diào)度效率。此外,磁力矩器在衛(wèi)星整體安裝后,由于位置的限制,測試變得更加復(fù)雜且容易損壞其他部件,增加了測試的安全隱患。特別是在小衛(wèi)星系統(tǒng)中,極性測試步驟更加繁瑣,操作人員需要與測試指揮緊密配合,受場地和時間的限制,進一步增加了操作的復(fù)雜性。
技術(shù)實現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)中存在的技術(shù)問題,提供一種能夠增強衛(wèi)星終端用戶的業(yè)務(wù)服務(wù)質(zhì)量的衛(wèi)星通信資源調(diào)度方法、系統(tǒng)、電子設(shè)備和非暫態(tài)計算機可讀存儲介質(zhì)。
2、本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:
3、本發(fā)明提供一種衛(wèi)星通信資源調(diào)度方法,所述方法包括:
4、獲取衛(wèi)星通信系統(tǒng)的當(dāng)前狀態(tài);
5、根據(jù)所述衛(wèi)星通信系統(tǒng)的當(dāng)前狀態(tài),確定對應(yīng)的用于資源分配的動作;
6、執(zhí)行所述動作,并獲取對應(yīng)的執(zhí)行結(jié)果;
7、構(gòu)建策略優(yōu)化目標(biāo),并根據(jù)所述執(zhí)行結(jié)果和所述策略優(yōu)化目標(biāo),更新所述衛(wèi)星通信系統(tǒng)的當(dāng)前狀態(tài)和動作價值函數(shù);
8、重復(fù)以上步驟,直至所述動作價值函數(shù)更新完成,得到更新的動作價值函數(shù);
9、根據(jù)所述更新的動作價值函數(shù),在所述衛(wèi)星通信系統(tǒng)的當(dāng)前狀態(tài)下采取對應(yīng)的動作,以實現(xiàn)對所述衛(wèi)星通信系統(tǒng)的資源進行合理調(diào)度。
10、可選的,所述構(gòu)建策略優(yōu)化目標(biāo),包括:
11、獲取所述執(zhí)行結(jié)果在各時間的即時獎勵;
12、獲取各所述即時獎勵的折扣因子,以及每個狀態(tài)下選擇動作的策略;
13、根據(jù)所述即時獎勵、所述折扣因子和每個狀態(tài)下選擇動作的策略,構(gòu)建得到所述策略優(yōu)化目標(biāo)。
14、可選的,所述策略優(yōu)化目標(biāo)表示為:<msup><mi>π</mi><mi>*</mi></msup><mi>=</mi><mrow><mi>arg</mi></mrow><mi>ma</mi><msub><mi>x</mi><mi>π</mi></msub><mi>e[</mi><mstyle><msubsup><mo>∑</mo><mi>t=0</mi><mi>∞</mi></msubsup><msup><mi>γ</mi><mi>t</mi></msup></mstyle><msub><mi>r</mi><mi>t</mi></msub><mi>|</mi><mi>π</mi><mi>];</mi>
15、其中,是定義每個狀態(tài)下選擇動作的策略,是折扣因子,是在時間t在狀態(tài)執(zhí)行動作后獲得的即時獎勵,是期望值。
16、可選的,所述根據(jù)所述執(zhí)行結(jié)果和所述策略優(yōu)化目標(biāo),更新所述衛(wèi)星通信系統(tǒng)的動作價值函數(shù),包括:
17、獲取在下一個狀態(tài)執(zhí)行所有可能動作中最大的獎勵預(yù)估值;
18、根據(jù)所述最大的獎勵預(yù)估值,以及當(dāng)前狀態(tài)的即時獎勵和獎勵預(yù)估值,確定所述更新的動作價值函數(shù)。
19、可選的,所述動作價值函數(shù)表示為:<msub><mi>q(s</mi><mi>t</mi></msub><mi>,</mi><msub><mi>a</mi><mi>t</mi></msub><mi>)</mi><mi>←</mi><msub><mi>q(s</mi><mi>t</mi></msub><mi>,</mi><msub><mi>a</mi><mi>t</mi></msub><mi>)+α[</mi><msub><mi>r</mi><mi>t</mi></msub><mi>+γma</mi><msub><mi>x</mi><msup><mi>a</mi><mi>'</mi></msup></msub><mi>q</mi><mrow><msub><mi>s</mi><mi>t+1</mi></msub><mi>,</mi><msup><mi>a</mi><mi>'</mi></msup></mrow></mfenced><mi>-</mi><msub><mi>q(s</mi><mi>t</mi></msub><mi>,</mi><msub><mi>a</mi><mi>t</mi></msub><mi>)];</mi>
20、其中,是當(dāng)前狀態(tài),是當(dāng)前動作,是下一個狀態(tài),為時間t在狀態(tài)執(zhí)行動作后獲得的即時獎勵,為學(xué)習(xí)率,為折扣因子,為可能動作。
21、可選的,所述方法還包括:
22、對待進行資源分配的原始數(shù)據(jù)進行預(yù)處理,得到預(yù)處理數(shù)據(jù);
23、通過判讀模型對每個所述預(yù)處理數(shù)據(jù)進行處理,得到預(yù)測的磁力矩器極性;
24、根據(jù)所述預(yù)測的磁力矩器極性和真實極性結(jié)果的標(biāo)簽,構(gòu)建所述判讀模型的損失函數(shù),并基于所述損失函數(shù)訓(xùn)練所述判讀模型,得到訓(xùn)練好的判讀模型。
25、可選的,所述判讀模型采用深度強化學(xué)習(xí)技術(shù)進行訓(xùn)練和優(yōu)化。
26、可選的,所述判讀模型的損失函數(shù)表示為:
27、
28、其中,是樣本數(shù)量,是判讀模型,是真實極性結(jié)果,是預(yù)處理數(shù)據(jù),為最終判讀結(jié)果。
29、可選的,所述動作至少包括對波束資源、頻率資源、時隙資源的分配。
30、本發(fā)明還提供一種衛(wèi)星通信資源調(diào)度系統(tǒng),所述系統(tǒng)包括:
31、數(shù)據(jù)獲取模塊,用于獲取衛(wèi)星通信系統(tǒng)的當(dāng)前狀態(tài);
32、動作確定模塊,用于根據(jù)所述衛(wèi)星通信系統(tǒng)的當(dāng)前狀態(tài),確定對應(yīng)的用于資源分配的動作;
33、結(jié)果獲取模塊,用于執(zhí)行所述動作,并獲取對應(yīng)的執(zhí)行結(jié)果;
34、函數(shù)更新模塊,用于構(gòu)建策略優(yōu)化目標(biāo),并根據(jù)所述執(zhí)行結(jié)果和所述策略優(yōu)化目標(biāo),更新所述衛(wèi)星通信系統(tǒng)的當(dāng)前狀態(tài)和動作價值函數(shù);
35、迭代更新模塊,用于重復(fù)以上步驟,直至所述動作價值函數(shù)更新完成,得到更新的動作價值函數(shù);
36、資源調(diào)度模塊,用于根據(jù)所述更新的動作價值函數(shù),在所述衛(wèi)星通信系統(tǒng)的當(dāng)前狀態(tài)下采取對應(yīng)的動作,以實現(xiàn)對所述衛(wèi)星通信系統(tǒng)的資源進行合理調(diào)度。
37、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種電子設(shè)備,包括:存儲器,用于存儲計算機軟件程序;處理器,用于讀取并執(zhí)行所述計算機軟件程序,進而實現(xiàn)如上文所述的一種衛(wèi)星通信資源調(diào)度方法。
38、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種非暫態(tài)計算機可讀存儲介質(zhì),所述存儲介質(zhì)中存儲有計算機軟件程序,所述計算機軟件程序被處理器執(zhí)行時實現(xiàn)如上文所述的一種衛(wèi)星通信資源調(diào)度方法。
39、本發(fā)明的有益技術(shù)效果為:
40、(1)本發(fā)明通過引入深度強化學(xué)習(xí)(drl)技術(shù),能夠動態(tài)地適應(yīng)網(wǎng)絡(luò)條件和計算需求的變化,實現(xiàn)資源的智能調(diào)度和優(yōu)化分配,從而提高通信資源的利用效率;
41、(2)本發(fā)明通過自動化和智能化的判讀模型,減少了人為誤判的可能性,提高了判讀結(jié)果的準(zhǔn)確性和可靠性;
42、(3)本發(fā)明通過智能調(diào)度和優(yōu)化策略,系統(tǒng)能夠在保證通信質(zhì)量的前提下,優(yōu)化資源利用和能耗管理,從而提高整個系統(tǒng)的能效,減少能源消耗;
43、(4)本發(fā)明在空天地一體化網(wǎng)絡(luò)環(huán)境中,通過智能化的任務(wù)調(diào)度和資源管理,提高了任務(wù)分配的精度,確保了數(shù)據(jù)處理和傳輸?shù)臅r效性,滿足了延遲敏感應(yīng)用的需求;
44、(5)本發(fā)明結(jié)合了云計算的強大數(shù)據(jù)處理能力和邊緣計算的低延遲優(yōu)勢,在空天地一體化網(wǎng)絡(luò)環(huán)境中,實現(xiàn)了高效的任務(wù)負(fù)載均衡和協(xié)調(diào),提升了服務(wù)質(zhì)量。
45、綜上,本發(fā)明通過深度強化學(xué)習(xí)和智能化的資源調(diào)度方法,顯著提升了衛(wèi)星通信系統(tǒng)的性能、效率和靈活性,解決了傳統(tǒng)方法中的諸多問題,具有顯著的技術(shù)優(yōu)勢和應(yīng)用價值。