欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng)

文檔序號:40572031發(fā)布日期:2025-01-03 11:33閱讀:13來源:國知局
一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng)

本發(fā)明屬于衛(wèi)星通信,具體涉及一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng)。


背景技術(shù):

1、隨著全球?qū)Ω咚倩ヂ?lián)網(wǎng)和數(shù)據(jù)傳輸需求的不斷增長,衛(wèi)星通信技術(shù)也在不斷演進。多波束技術(shù)使得每個波束能夠精確覆蓋地球表面的特定小區(qū)域,在滿足高密度用戶通信需求的同時,也使得資源分配更為精準(zhǔn)。然而,在多波束系統(tǒng)中,波束干擾問題嚴(yán)重影響了系統(tǒng)性能。多波束間的波束干擾是指多個波束同時存在時,由于波束之間的相互干擾,導(dǎo)致信號衰減、誤碼率增加和通信質(zhì)量下降等問題。因此,如何有效抑制多波束間的波束干擾,提升通信系統(tǒng)的穩(wěn)定性和可靠性,成為當(dāng)前研究的重要方向?;诖?,本發(fā)明設(shè)計了一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng),在降低波束間干擾的同時,保證其公平性,提高系統(tǒng)吞吐量。


技術(shù)實現(xiàn)思路

1、針對上述問題,本發(fā)明提出了一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng),本發(fā)明對小區(qū)內(nèi)數(shù)據(jù)包流量進行排隊論模型分析,確定最優(yōu)波束調(diào)度分配方案。本發(fā)明解決了現(xiàn)有技術(shù)存在的問題,實現(xiàn)對現(xiàn)有的低軌衛(wèi)星多波束系統(tǒng)中干擾的規(guī)避,實現(xiàn)在保證小區(qū)間公平性的同時,提升波束內(nèi)的內(nèi)的吞吐量。

2、為了實現(xiàn)以上目的,本發(fā)明采用如下技術(shù)方案:

3、一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法,包括以下步驟:

4、s1、根據(jù)衛(wèi)星生成的多波束及地面小區(qū)關(guān)系建立初始系統(tǒng)模型圖;

5、s2、對多波束間的干擾進行分析;

6、s3、根據(jù)地面狀態(tài)信息生成業(yè)務(wù)到達模型;

7、s4、構(gòu)建m/g/1休假排隊模型,將s3中業(yè)務(wù)到達模型輸出的結(jié)果輸入到m/g/1休假排隊模型中;

8、s5、進行多波束的上下文學(xué)習(xí);

9、s6、將波束干擾規(guī)避問題轉(zhuǎn)化為多智能體深度確定性策略梯度(maddpg,multi-agent?deep?deterministic?policy?gradient)算法學(xué)習(xí)問題,并進行馬爾可夫決策過程(pomdp)問題的轉(zhuǎn)化定義;

10、s7、根據(jù)問題的轉(zhuǎn)化定義和maddpg算法,進行maddpg算法的強化學(xué)習(xí),依據(jù)衛(wèi)星多個波束輸出的最大概率動作值規(guī)劃衛(wèi)星波束調(diào)度的最優(yōu)策略。

11、作為優(yōu)選方案,步驟s1中,根據(jù)衛(wèi)星生成的多波束及地面小區(qū)關(guān)系建立初始系統(tǒng)模型圖,包括:

12、采用單衛(wèi)星多波束模型,系統(tǒng)包括低軌衛(wèi)星、信關(guān)站和地面小區(qū)。天線采用平面均勻相控陣天線陣列,可以隨機生成k個波束,表示為k={k|k=1,2,…,k},用來覆蓋地面上的n個小區(qū),表示為n={n|n=1,2,…,n},其中k<n。

13、作為優(yōu)選方案,步驟s2中,進行多波束間干擾分析,具體包括:

14、s21、根據(jù)步驟s1可知,當(dāng)同頻波束進行鏈路通信時,每個點波束的旁瓣或主瓣與其他波束的主瓣在空間上相互重疊,因此除了所需信號外,還會接收到相鄰波束的主瓣或旁瓣干擾信號,從而影響接收端的信號質(zhì)量和數(shù)據(jù)傳輸速率。

15、s22、在s21的基礎(chǔ)上使用終端接收信號的載干比c/i實現(xiàn)波束間干擾的量化:

16、

17、其中,gt(θ0)期望波束發(fā)送天線增益,gt,i(θi)為其他干擾波束發(fā)送的天線增益。

18、作為優(yōu)選方案,步驟s3中,根據(jù)地面狀態(tài)信息生成業(yè)務(wù)到達模型,具體包括:

19、根據(jù)地面小區(qū)的地理和地形差異,建立了業(yè)務(wù)到達模型。業(yè)務(wù)量由地形、發(fā)展和時間三個因子加權(quán)計算得出,將地理地形分為海洋、陸地、沙漠、高山四種,并給每種地理地形特征賦予不同的系數(shù),將發(fā)展?fàn)顩r分為發(fā)展中和發(fā)達兩種,時間因素考慮人類生活的二十四小時作息時間規(guī)律進行賦值,計算時考慮三種因素的權(quán)重關(guān)系進行加權(quán)計算。在時刻t,定義柵格i的設(shè)備部署密度為:

20、

21、其中,si表示柵格i的面積,m表示柵格內(nèi)包含的地理環(huán)境類型數(shù)量,ρj表示地理環(huán)境類型j對應(yīng)的設(shè)備部署密度,根據(jù)地形和發(fā)展情況加權(quán)計算得出,si,j表示柵格i內(nèi)地理環(huán)境類型j所占的面積。系統(tǒng)內(nèi)的流量遵循到達率為λ的泊松分布。

22、作為優(yōu)選方案,步驟s4中,構(gòu)建m/g/1休假排隊模型,將s3中業(yè)務(wù)到達模型輸出的結(jié)果輸入到排隊模型中,具體包括:

23、s41、衛(wèi)星可以提供n個隊列,用于存儲每個小區(qū)到達的流量。時隙t的到達流量表示為:

24、lt={lt,n|n∈n}

25、其中,lt,n為時隙t的小區(qū)n到達流量,服從到達率為λt,n的泊松分布。t時隙隊列中存儲的總流量表示為dt={dt,n|n∈n},其中dt,n為隊列n在t時隙中存儲的總流量。

26、s42、每個小區(qū)是相對獨立的,在小區(qū)中,數(shù)據(jù)包以泊松過程到達,平均到達率為λ,同時到達進入小區(qū)后需要排隊,等待波束進行處理,且遵循先到先走的原則進行處理原則。當(dāng)波束開啟時,每個數(shù)據(jù)包的服務(wù)時間為隨機變量,服從一般分布,平均服務(wù)率為μon,服務(wù)時間的均值為e[s]和方差為σs2。且當(dāng)波束關(guān)閉時服務(wù)率為0,同時在關(guān)閉狀態(tài)仍有數(shù)據(jù)包到達小區(qū)進行排隊。

27、s43、在步驟s42的基礎(chǔ)上將數(shù)據(jù)包排隊等待服務(wù)過程設(shè)計為m/g/1模型,將波束開啟看做工作狀態(tài),波束關(guān)閉時為休假狀態(tài)。

28、s44、在步驟s43的基礎(chǔ)上波束開啟時,平均等待時延(包括排隊等待時間和服務(wù)時間)可以由pollaczek-khinchine(p-k)公式給出:

29、

30、其中,e[s2]是服務(wù)時間的二階矩,是系統(tǒng)的利用率。

31、波束關(guān)閉期間,假設(shè)波束關(guān)閉的平均時間為toff,則在關(guān)閉期間,每個數(shù)據(jù)包的平均積累時延為:

32、τoff=toff

33、s45、在步驟s44的基礎(chǔ)上設(shè)波束開啟的概率為pon,關(guān)閉概率為poff,pon和poff可以通過對小區(qū)的歷史數(shù)據(jù)進行統(tǒng)計分析得到。綜合考慮波束的開啟和關(guān)閉狀態(tài),平均等待時延可以表示為:

34、τt,n=pon·τon+poff·τoff

35、作為優(yōu)選方案,步驟s4中,將波束開啟看做工作狀態(tài),波束關(guān)閉時為休假狀態(tài);分析排隊模型獲得的信息數(shù)據(jù)為小區(qū)內(nèi)的平均等待時延。

36、作為優(yōu)選方案,步驟s5中,多波束的上下文學(xué)習(xí),具體包括:

37、s51、使用所有波束的運行狀態(tài)來形成上下文從而進行干擾規(guī)避;當(dāng)波束為小區(qū)服務(wù)時,波束被稱為處于活動狀態(tài),否則被稱為空閑狀態(tài);將收集觀測時間t時所有波束運行狀態(tài)的上下文向量,定義如下:

38、c(t)={c1(t),c2(t),…,ck(t)}

39、s52、智能體觀察會對自身傳輸造成干擾的波束的狀態(tài),應(yīng)用得到上下文,即每個智能體掩蓋了非干擾波束的狀態(tài),以形成自己版本的上下文。基于底層的部署布局,可以很容易地識別出每個波束的非干擾波束,并可以應(yīng)用相應(yīng)的掩碼設(shè)置。每個機器學(xué)習(xí)(machine?learning,ml)智能體掩蓋上下文中非干擾波束的狀態(tài),以形成自己版本的上下文;表示波束bi的非干擾波束的掩模矢量可以定義如下:

40、mi={m1|i,m2|i,…,mk|i}

41、其中,mk|i表示波束k的激活是否不會干擾波束i,即當(dāng)波束k能夠干擾波束i時mk|i變?yōu)?,否則變?yōu)?。

42、s53、將ci(t)表示為將所有非干擾光束狀態(tài)屏蔽為0后,光束i的觀測上下文:

43、

44、其中,c(t)={c1(t),c2(t),…,ck(t)}為智能體初始觀察的所有上下文。

45、作為優(yōu)選方案,步驟s6中,將波束干擾規(guī)避問題轉(zhuǎn)化為多智能體深度確定性策略梯度(maddpg,multi-agent?deep?deterministic?policy?gradient)算法學(xué)習(xí)問題,并進行馬爾可夫決策過程(pomdp)問題的轉(zhuǎn)化定義,具體包括:

46、s61、定義全局狀態(tài)s包括地面小區(qū)平均等待時延τi、衛(wèi)生生成的波束傳輸處理的數(shù)據(jù)包qb以及小區(qū)內(nèi)的數(shù)據(jù)流量d:

47、s={τi,qb,d}

48、s62、將t時隙波束觀察的上下文c以及基礎(chǔ)觀察特征s定義為全局狀態(tài)o:

49、

50、o={s,c}

51、s63、智能體應(yīng)該根據(jù)狀態(tài)做出決策,以提高長期收益。智能體動態(tài)調(diào)整每個時隙單元的波束覆蓋,即開啟或關(guān)閉波束,在每一時隙根據(jù)狀態(tài)智能調(diào)控選擇。因此,在時間t執(zhí)行的動作定義為:

52、a={x1,x1,…,xk|xi∈{0,1}}

53、s64、為了最大化定義的長期優(yōu)化目標(biāo),使用數(shù)據(jù)吞吐量和延遲公平性作為即時獎勵:

54、r=αtptotal-(1-α)td

55、其中,tptotal表示吞吐量,td表示時延差。

56、作為優(yōu)選方案,步驟s7中,根據(jù)問題的轉(zhuǎn)化定義和maddpg算法,進行maddpg算法的強化學(xué)習(xí),依據(jù)衛(wèi)星多個波束輸出的最大概率動作值規(guī)劃衛(wèi)星波束調(diào)度的最優(yōu)策略包括:

57、s71.隨機初始化所有波束的演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò),并配置經(jīng)驗回放緩沖區(qū)。

58、s72.利用確定性策略網(wǎng)絡(luò)來收集當(dāng)前環(huán)境的觀察數(shù)據(jù)。這些數(shù)據(jù)包括時隙t的波束上下文c以及基礎(chǔ)觀察特征s,其中,s包括地面小區(qū)的平均等待時延、當(dāng)前波束處理的數(shù)據(jù)包數(shù)、小區(qū)內(nèi)丟棄的數(shù)據(jù)包數(shù)和小區(qū)內(nèi)的數(shù)據(jù)流量。

59、o={s,c}

60、s73.基于步驟s72中獲取的環(huán)境觀察數(shù)據(jù),決定低軌衛(wèi)星的目標(biāo)波束生成動作并執(zhí)行該動作。

61、s74.在完成波束決策動作后,記錄獲得的獎勵及下一個狀態(tài)的環(huán)境觀察數(shù)據(jù),并將當(dāng)前環(huán)境觀察數(shù)據(jù)、目標(biāo)衛(wèi)星的執(zhí)行動作、獲得的獎勵和新的環(huán)境觀察數(shù)據(jù)存儲在經(jīng)驗回放緩沖區(qū)中。

62、s75.從經(jīng)驗回放緩沖區(qū)中隨機抽取一批經(jīng)驗進行訓(xùn)練,更新演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)的參數(shù),旨在最大化評論家網(wǎng)絡(luò)的q值,最小化q值的誤差,并利用更新后的q網(wǎng)絡(luò)生成最優(yōu)策略路徑。

63、s76.重復(fù)步驟s72-s75,直至算法收斂(例如波束調(diào)度策略的在訓(xùn)練過程中趨于穩(wěn)定且不再顯著變化),從而確定最優(yōu)的波束調(diào)度策略。

64、本發(fā)明還公開了一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避系統(tǒng),用于執(zhí)行上述的方法,包括以下模塊:

65、初始多波束系統(tǒng)模型圖構(gòu)建模塊:根據(jù)衛(wèi)星生成的多波束及地面小區(qū)關(guān)系建立初始系統(tǒng)模型圖;

66、信息數(shù)據(jù)獲取模塊:根據(jù)多波束特性,分析多波束之間的干擾,量化干擾;

67、業(yè)務(wù)到達模型模塊:根據(jù)地面狀態(tài)信息生成業(yè)務(wù)到達模型;

68、排隊模型模塊:構(gòu)建m/g/1排隊模型,將業(yè)務(wù)到達信息輸入到排隊模型中,生成每個小區(qū)獨立的排隊模型;

69、上下文學(xué)習(xí)模塊:多波束的上下文學(xué)習(xí),根據(jù)底層波束信息生成每個波束獨特的上下文;

70、轉(zhuǎn)化模塊:將波束干擾規(guī)避問題轉(zhuǎn)化為多智能體深度確定性策略梯度算法學(xué)習(xí)問題并進行馬爾可夫決策過程問題的轉(zhuǎn)化定義;

71、強化學(xué)習(xí)及波束調(diào)度模塊:根據(jù)問題的轉(zhuǎn)化定義和多智能體深度確定性策略梯度算法,進行多智能體深度確定性策略梯度算法的強化學(xué)習(xí),依據(jù)衛(wèi)星多個波束輸出的最大概率動作值規(guī)劃衛(wèi)星波束調(diào)度的最優(yōu)策略。

72、本發(fā)明相對于現(xiàn)有技術(shù),具有如下技術(shù)效果:

73、(1)本發(fā)明采用了上下文學(xué)習(xí)模型,目標(biāo)波束學(xué)習(xí)自身上下文環(huán)境,通過底層波束信息,掩蓋非干擾波束,最終生成每個目標(biāo)波束特定的上下文狀態(tài)信息,這種模型能夠在有效捕捉和利用環(huán)境的上下文信息的同時,節(jié)約狀態(tài)空間,從而優(yōu)化波束調(diào)度策略,提高系統(tǒng)的整體性能和適應(yīng)性。

74、(2)本發(fā)明選擇了強化學(xué)習(xí)中的多智能體深度確定性策略梯度(maddpg)算法。將觀測環(huán)境狀態(tài)信息及上下文信息同時輸入到部分馬爾可夫決策公式中,這樣能夠更好地適應(yīng)環(huán)境的變化和復(fù)雜性,同時該算法能夠處理多智能體環(huán)境下的復(fù)雜決策問題,通過協(xié)調(diào)多個智能體的行為來提升系統(tǒng)的整體效果,進而實現(xiàn)更高效的波束調(diào)度和干擾管理。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
满城县| 巴塘县| 化隆| 银川市| 礼泉县| 正阳县| 法库县| 富平县| 莒南县| 济阳县| 南投县| 静安区| 陈巴尔虎旗| 砚山县| 呼玛县| 固安县| 凌云县| 汝州市| 昔阳县| 富顺县| 岢岚县| 吉水县| 日土县| 龙海市| 眉山市| 桃源县| 久治县| 大安市| 东阿县| 灵石县| 德阳市| 崇明县| 洛隆县| 潼南县| 息烽县| 库伦旗| 邢台市| 若尔盖县| 乌兰县| 武胜县| 镇赉县|