一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng)

文檔序號：40572031發(fā)布日期：2025-01-03 11:33閱讀：13來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于衛(wèi)星通信，具體涉及一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng)。

背景技術(shù)：

1、隨著全球?qū)Ω咚倩ヂ?lián)網(wǎng)和數(shù)據(jù)傳輸需求的不斷增長，衛(wèi)星通信技術(shù)也在不斷演進。多波束技術(shù)使得每個波束能夠精確覆蓋地球表面的特定小區(qū)域，在滿足高密度用戶通信需求的同時，也使得資源分配更為精準(zhǔn)。然而，在多波束系統(tǒng)中，波束干擾問題嚴(yán)重影響了系統(tǒng)性能。多波束間的波束干擾是指多個波束同時存在時，由于波束之間的相互干擾，導(dǎo)致信號衰減、誤碼率增加和通信質(zhì)量下降等問題。因此，如何有效抑制多波束間的波束干擾，提升通信系統(tǒng)的穩(wěn)定性和可靠性，成為當(dāng)前研究的重要方向?；诖?，本發(fā)明設(shè)計了一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng)，在降低波束間干擾的同時，保證其公平性，提高系統(tǒng)吞吐量。

技術(shù)實現(xiàn)思路

1、針對上述問題，本發(fā)明提出了一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng)，本發(fā)明對小區(qū)內(nèi)數(shù)據(jù)包流量進行排隊論模型分析，確定最優(yōu)波束調(diào)度分配方案。本發(fā)明解決了現(xiàn)有技術(shù)存在的問題，實現(xiàn)對現(xiàn)有的低軌衛(wèi)星多波束系統(tǒng)中干擾的規(guī)避，實現(xiàn)在保證小區(qū)間公平性的同時，提升波束內(nèi)的內(nèi)的吞吐量。

2、為了實現(xiàn)以上目的，本發(fā)明采用如下技術(shù)方案：

3、一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法，包括以下步驟：

4、s1、根據(jù)衛(wèi)星生成的多波束及地面小區(qū)關(guān)系建立初始系統(tǒng)模型圖；

5、s2、對多波束間的干擾進行分析；

6、s3、根據(jù)地面狀態(tài)信息生成業(yè)務(wù)到達模型；

7、s4、構(gòu)建m/g/1休假排隊模型，將s3中業(yè)務(wù)到達模型輸出的結(jié)果輸入到m/g/1休假排隊模型中；

8、s5、進行多波束的上下文學(xué)習(xí)；

9、s6、將波束干擾規(guī)避問題轉(zhuǎn)化為多智能體深度確定性策略梯度(maddpg，multi-agent?deep?deterministic?policy?gradient)算法學(xué)習(xí)問題，并進行馬爾可夫決策過程(pomdp)問題的轉(zhuǎn)化定義；

10、s7、根據(jù)問題的轉(zhuǎn)化定義和maddpg算法，進行maddpg算法的強化學(xué)習(xí)，依據(jù)衛(wèi)星多個波束輸出的最大概率動作值規(guī)劃衛(wèi)星波束調(diào)度的最優(yōu)策略。

11、作為優(yōu)選方案，步驟s1中，根據(jù)衛(wèi)星生成的多波束及地面小區(qū)關(guān)系建立初始系統(tǒng)模型圖，包括：

12、采用單衛(wèi)星多波束模型，系統(tǒng)包括低軌衛(wèi)星、信關(guān)站和地面小區(qū)。天線采用平面均勻相控陣天線陣列，可以隨機生成k個波束，表示為k＝{k|k＝1,2,…,k}，用來覆蓋地面上的n個小區(qū)，表示為n＝{n|n＝1,2,…,n}，其中k<n。

13、作為優(yōu)選方案，步驟s2中，進行多波束間干擾分析，具體包括：

14、s21、根據(jù)步驟s1可知，當(dāng)同頻波束進行鏈路通信時，每個點波束的旁瓣或主瓣與其他波束的主瓣在空間上相互重疊，因此除了所需信號外，還會接收到相鄰波束的主瓣或旁瓣干擾信號，從而影響接收端的信號質(zhì)量和數(shù)據(jù)傳輸速率。

15、s22、在s21的基礎(chǔ)上使用終端接收信號的載干比c/i實現(xiàn)波束間干擾的量化：

16、

17、其中，gt(θ0)期望波束發(fā)送天線增益，gt,i(θi)為其他干擾波束發(fā)送的天線增益。

18、作為優(yōu)選方案，步驟s3中，根據(jù)地面狀態(tài)信息生成業(yè)務(wù)到達模型，具體包括：

19、根據(jù)地面小區(qū)的地理和地形差異，建立了業(yè)務(wù)到達模型。業(yè)務(wù)量由地形、發(fā)展和時間三個因子加權(quán)計算得出，將地理地形分為海洋、陸地、沙漠、高山四種，并給每種地理地形特征賦予不同的系數(shù)，將發(fā)展?fàn)顩r分為發(fā)展中和發(fā)達兩種，時間因素考慮人類生活的二十四小時作息時間規(guī)律進行賦值，計算時考慮三種因素的權(quán)重關(guān)系進行加權(quán)計算。在時刻t，定義柵格i的設(shè)備部署密度為：

20、

21、其中，si表示柵格i的面積，m表示柵格內(nèi)包含的地理環(huán)境類型數(shù)量，ρj表示地理環(huán)境類型j對應(yīng)的設(shè)備部署密度，根據(jù)地形和發(fā)展情況加權(quán)計算得出，si,j表示柵格i內(nèi)地理環(huán)境類型j所占的面積。系統(tǒng)內(nèi)的流量遵循到達率為λ的泊松分布。

22、作為優(yōu)選方案，步驟s4中，構(gòu)建m/g/1休假排隊模型，將s3中業(yè)務(wù)到達模型輸出的結(jié)果輸入到排隊模型中，具體包括：

23、s41、衛(wèi)星可以提供n個隊列，用于存儲每個小區(qū)到達的流量。時隙t的到達流量表示為：

24、lt＝{lt,n|n∈n}

25、其中，lt,n為時隙t的小區(qū)n到達流量，服從到達率為λt,n的泊松分布。t時隙隊列中存儲的總流量表示為dt＝{dt,n|n∈n}，其中dt,n為隊列n在t時隙中存儲的總流量。

26、s42、每個小區(qū)是相對獨立的，在小區(qū)中，數(shù)據(jù)包以泊松過程到達，平均到達率為λ，同時到達進入小區(qū)后需要排隊，等待波束進行處理，且遵循先到先走的原則進行處理原則。當(dāng)波束開啟時，每個數(shù)據(jù)包的服務(wù)時間為隨機變量，服從一般分布，平均服務(wù)率為μon，服務(wù)時間的均值為e[s]和方差為σs2。且當(dāng)波束關(guān)閉時服務(wù)率為0，同時在關(guān)閉狀態(tài)仍有數(shù)據(jù)包到達小區(qū)進行排隊。

27、s43、在步驟s42的基礎(chǔ)上將數(shù)據(jù)包排隊等待服務(wù)過程設(shè)計為m/g/1模型，將波束開啟看做工作狀態(tài)，波束關(guān)閉時為休假狀態(tài)。

28、s44、在步驟s43的基礎(chǔ)上波束開啟時，平均等待時延(包括排隊等待時間和服務(wù)時間)可以由pollaczek-khinchine(p-k)公式給出：

29、

30、其中，e[s2]是服務(wù)時間的二階矩,是系統(tǒng)的利用率。

31、波束關(guān)閉期間，假設(shè)波束關(guān)閉的平均時間為toff，則在關(guān)閉期間，每個數(shù)據(jù)包的平均積累時延為：

32、τoff＝toff

33、s45、在步驟s44的基礎(chǔ)上設(shè)波束開啟的概率為pon，關(guān)閉概率為poff，pon和poff可以通過對小區(qū)的歷史數(shù)據(jù)進行統(tǒng)計分析得到。綜合考慮波束的開啟和關(guān)閉狀態(tài)，平均等待時延可以表示為：

34、τt,n＝pon·τon+poff·τoff

35、作為優(yōu)選方案，步驟s4中，將波束開啟看做工作狀態(tài)，波束關(guān)閉時為休假狀態(tài)；分析排隊模型獲得的信息數(shù)據(jù)為小區(qū)內(nèi)的平均等待時延。

36、作為優(yōu)選方案，步驟s5中，多波束的上下文學(xué)習(xí)，具體包括：

37、s51、使用所有波束的運行狀態(tài)來形成上下文從而進行干擾規(guī)避；當(dāng)波束為小區(qū)服務(wù)時，波束被稱為處于活動狀態(tài)，否則被稱為空閑狀態(tài)；將收集觀測時間t時所有波束運行狀態(tài)的上下文向量，定義如下：

38、c(t)＝{c1(t),c2(t),…,ck(t)}

39、s52、智能體觀察會對自身傳輸造成干擾的波束的狀態(tài)，應(yīng)用得到上下文，即每個智能體掩蓋了非干擾波束的狀態(tài)，以形成自己版本的上下文。基于底層的部署布局，可以很容易地識別出每個波束的非干擾波束，并可以應(yīng)用相應(yīng)的掩碼設(shè)置。每個機器學(xué)習(xí)(machine?learning，ml)智能體掩蓋上下文中非干擾波束的狀態(tài)，以形成自己版本的上下文；表示波束bi的非干擾波束的掩模矢量可以定義如下：

40、mi＝{m1|i,m2|i,…,mk|i}

41、其中，mk|i表示波束k的激活是否不會干擾波束i，即當(dāng)波束k能夠干擾波束i時mk|i變?yōu)?，否則變?yōu)?。

42、s53、將ci(t)表示為將所有非干擾光束狀態(tài)屏蔽為0后，光束i的觀測上下文：

43、

44、其中，c(t)＝{c1(t),c2(t),…,ck(t)}為智能體初始觀察的所有上下文。

45、作為優(yōu)選方案，步驟s6中，將波束干擾規(guī)避問題轉(zhuǎn)化為多智能體深度確定性策略梯度(maddpg，multi-agent?deep?deterministic?policy?gradient)算法學(xué)習(xí)問題，并進行馬爾可夫決策過程(pomdp)問題的轉(zhuǎn)化定義，具體包括：

46、s61、定義全局狀態(tài)s包括地面小區(qū)平均等待時延τi、衛(wèi)生生成的波束傳輸處理的數(shù)據(jù)包qb以及小區(qū)內(nèi)的數(shù)據(jù)流量d：

47、s＝{τi,qb,d}

48、s62、將t時隙波束觀察的上下文c以及基礎(chǔ)觀察特征s定義為全局狀態(tài)o:

49、

50、o＝{s,c}

51、s63、智能體應(yīng)該根據(jù)狀態(tài)做出決策，以提高長期收益。智能體動態(tài)調(diào)整每個時隙單元的波束覆蓋，即開啟或關(guān)閉波束，在每一時隙根據(jù)狀態(tài)智能調(diào)控選擇。因此，在時間t執(zhí)行的動作定義為:

52、a＝{x1,x1,…,xk|xi∈{0,1}}

53、s64、為了最大化定義的長期優(yōu)化目標(biāo)，使用數(shù)據(jù)吞吐量和延遲公平性作為即時獎勵：

54、r＝αtptotal-(1-α)td

55、其中，tptotal表示吞吐量，td表示時延差。

56、作為優(yōu)選方案，步驟s7中，根據(jù)問題的轉(zhuǎn)化定義和maddpg算法，進行maddpg算法的強化學(xué)習(xí)，依據(jù)衛(wèi)星多個波束輸出的最大概率動作值規(guī)劃衛(wèi)星波束調(diào)度的最優(yōu)策略包括：

57、s71.隨機初始化所有波束的演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)，并配置經(jīng)驗回放緩沖區(qū)。

58、s72.利用確定性策略網(wǎng)絡(luò)來收集當(dāng)前環(huán)境的觀察數(shù)據(jù)。這些數(shù)據(jù)包括時隙t的波束上下文c以及基礎(chǔ)觀察特征s，其中，s包括地面小區(qū)的平均等待時延、當(dāng)前波束處理的數(shù)據(jù)包數(shù)、小區(qū)內(nèi)丟棄的數(shù)據(jù)包數(shù)和小區(qū)內(nèi)的數(shù)據(jù)流量。

59、o＝{s,c}

60、s73.基于步驟s72中獲取的環(huán)境觀察數(shù)據(jù)，決定低軌衛(wèi)星的目標(biāo)波束生成動作并執(zhí)行該動作。

61、s74.在完成波束決策動作后，記錄獲得的獎勵及下一個狀態(tài)的環(huán)境觀察數(shù)據(jù)，并將當(dāng)前環(huán)境觀察數(shù)據(jù)、目標(biāo)衛(wèi)星的執(zhí)行動作、獲得的獎勵和新的環(huán)境觀察數(shù)據(jù)存儲在經(jīng)驗回放緩沖區(qū)中。

62、s75.從經(jīng)驗回放緩沖區(qū)中隨機抽取一批經(jīng)驗進行訓(xùn)練，更新演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)的參數(shù)，旨在最大化評論家網(wǎng)絡(luò)的q值，最小化q值的誤差，并利用更新后的q網(wǎng)絡(luò)生成最優(yōu)策略路徑。

63、s76.重復(fù)步驟s72-s75，直至算法收斂(例如波束調(diào)度策略的在訓(xùn)練過程中趨于穩(wěn)定且不再顯著變化)，從而確定最優(yōu)的波束調(diào)度策略。

64、本發(fā)明還公開了一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避系統(tǒng)，用于執(zhí)行上述的方法，包括以下模塊：

65、初始多波束系統(tǒng)模型圖構(gòu)建模塊：根據(jù)衛(wèi)星生成的多波束及地面小區(qū)關(guān)系建立初始系統(tǒng)模型圖；

66、信息數(shù)據(jù)獲取模塊：根據(jù)多波束特性，分析多波束之間的干擾，量化干擾；

67、業(yè)務(wù)到達模型模塊：根據(jù)地面狀態(tài)信息生成業(yè)務(wù)到達模型；

68、排隊模型模塊：構(gòu)建m/g/1排隊模型，將業(yè)務(wù)到達信息輸入到排隊模型中，生成每個小區(qū)獨立的排隊模型；

69、上下文學(xué)習(xí)模塊：多波束的上下文學(xué)習(xí)，根據(jù)底層波束信息生成每個波束獨特的上下文；

70、轉(zhuǎn)化模塊：將波束干擾規(guī)避問題轉(zhuǎn)化為多智能體深度確定性策略梯度算法學(xué)習(xí)問題并進行馬爾可夫決策過程問題的轉(zhuǎn)化定義；

71、強化學(xué)習(xí)及波束調(diào)度模塊：根據(jù)問題的轉(zhuǎn)化定義和多智能體深度確定性策略梯度算法，進行多智能體深度確定性策略梯度算法的強化學(xué)習(xí)，依據(jù)衛(wèi)星多個波束輸出的最大概率動作值規(guī)劃衛(wèi)星波束調(diào)度的最優(yōu)策略。

72、本發(fā)明相對于現(xiàn)有技術(shù)，具有如下技術(shù)效果：

73、(1)本發(fā)明采用了上下文學(xué)習(xí)模型，目標(biāo)波束學(xué)習(xí)自身上下文環(huán)境，通過底層波束信息，掩蓋非干擾波束，最終生成每個目標(biāo)波束特定的上下文狀態(tài)信息，這種模型能夠在有效捕捉和利用環(huán)境的上下文信息的同時，節(jié)約狀態(tài)空間，從而優(yōu)化波束調(diào)度策略，提高系統(tǒng)的整體性能和適應(yīng)性。

74、(2)本發(fā)明選擇了強化學(xué)習(xí)中的多智能體深度確定性策略梯度(maddpg)算法。將觀測環(huán)境狀態(tài)信息及上下文信息同時輸入到部分馬爾可夫決策公式中，這樣能夠更好地適應(yīng)環(huán)境的變化和復(fù)雜性，同時該算法能夠處理多智能體環(huán)境下的復(fù)雜決策問題，通過協(xié)調(diào)多個智能體的行為來提升系統(tǒng)的整體效果，進而實現(xiàn)更高效的波束調(diào)度和干擾管理。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李沛,章新茹,林樂意,劉兆霆,姚英彪
技術(shù)所有人：杭州電子科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種應(yīng)用于不同地形的地質(zhì)災(zāi)害預(yù)警裝置的制作方法
上一篇：一種硅片脫膠劑及其制備方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng)