本發(fā)明屬于衛(wèi)星通信,具體涉及一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng)。
背景技術(shù):
1、隨著全球?qū)Ω咚倩ヂ?lián)網(wǎng)和數(shù)據(jù)傳輸需求的不斷增長,衛(wèi)星通信技術(shù)也在不斷演進。多波束技術(shù)使得每個波束能夠精確覆蓋地球表面的特定小區(qū)域,在滿足高密度用戶通信需求的同時,也使得資源分配更為精準(zhǔn)。然而,在多波束系統(tǒng)中,波束干擾問題嚴(yán)重影響了系統(tǒng)性能。多波束間的波束干擾是指多個波束同時存在時,由于波束之間的相互干擾,導(dǎo)致信號衰減、誤碼率增加和通信質(zhì)量下降等問題。因此,如何有效抑制多波束間的波束干擾,提升通信系統(tǒng)的穩(wěn)定性和可靠性,成為當(dāng)前研究的重要方向?;诖?,本發(fā)明設(shè)計了一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng),在降低波束間干擾的同時,保證其公平性,提高系統(tǒng)吞吐量。
技術(shù)實現(xiàn)思路
1、針對上述問題,本發(fā)明提出了一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法及系統(tǒng),本發(fā)明對小區(qū)內(nèi)數(shù)據(jù)包流量進行排隊論模型分析,確定最優(yōu)波束調(diào)度分配方案。本發(fā)明解決了現(xiàn)有技術(shù)存在的問題,實現(xiàn)對現(xiàn)有的低軌衛(wèi)星多波束系統(tǒng)中干擾的規(guī)避,實現(xiàn)在保證小區(qū)間公平性的同時,提升波束內(nèi)的內(nèi)的吞吐量。
2、為了實現(xiàn)以上目的,本發(fā)明采用如下技術(shù)方案:
3、一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避方法,包括以下步驟:
4、s1、根據(jù)衛(wèi)星生成的多波束及地面小區(qū)關(guān)系建立初始系統(tǒng)模型圖;
5、s2、對多波束間的干擾進行分析;
6、s3、根據(jù)地面狀態(tài)信息生成業(yè)務(wù)到達模型;
7、s4、構(gòu)建m/g/1休假排隊模型,將s3中業(yè)務(wù)到達模型輸出的結(jié)果輸入到m/g/1休假排隊模型中;
8、s5、進行多波束的上下文學(xué)習(xí);
9、s6、將波束干擾規(guī)避問題轉(zhuǎn)化為多智能體深度確定性策略梯度(maddpg,multi-agent?deep?deterministic?policy?gradient)算法學(xué)習(xí)問題,并進行馬爾可夫決策過程(pomdp)問題的轉(zhuǎn)化定義;
10、s7、根據(jù)問題的轉(zhuǎn)化定義和maddpg算法,進行maddpg算法的強化學(xué)習(xí),依據(jù)衛(wèi)星多個波束輸出的最大概率動作值規(guī)劃衛(wèi)星波束調(diào)度的最優(yōu)策略。
11、作為優(yōu)選方案,步驟s1中,根據(jù)衛(wèi)星生成的多波束及地面小區(qū)關(guān)系建立初始系統(tǒng)模型圖,包括:
12、采用單衛(wèi)星多波束模型,系統(tǒng)包括低軌衛(wèi)星、信關(guān)站和地面小區(qū)。天線采用平面均勻相控陣天線陣列,可以隨機生成k個波束,表示為k={k|k=1,2,…,k},用來覆蓋地面上的n個小區(qū),表示為n={n|n=1,2,…,n},其中k<n。
13、作為優(yōu)選方案,步驟s2中,進行多波束間干擾分析,具體包括:
14、s21、根據(jù)步驟s1可知,當(dāng)同頻波束進行鏈路通信時,每個點波束的旁瓣或主瓣與其他波束的主瓣在空間上相互重疊,因此除了所需信號外,還會接收到相鄰波束的主瓣或旁瓣干擾信號,從而影響接收端的信號質(zhì)量和數(shù)據(jù)傳輸速率。
15、s22、在s21的基礎(chǔ)上使用終端接收信號的載干比c/i實現(xiàn)波束間干擾的量化:
16、
17、其中,gt(θ0)期望波束發(fā)送天線增益,gt,i(θi)為其他干擾波束發(fā)送的天線增益。
18、作為優(yōu)選方案,步驟s3中,根據(jù)地面狀態(tài)信息生成業(yè)務(wù)到達模型,具體包括:
19、根據(jù)地面小區(qū)的地理和地形差異,建立了業(yè)務(wù)到達模型。業(yè)務(wù)量由地形、發(fā)展和時間三個因子加權(quán)計算得出,將地理地形分為海洋、陸地、沙漠、高山四種,并給每種地理地形特征賦予不同的系數(shù),將發(fā)展?fàn)顩r分為發(fā)展中和發(fā)達兩種,時間因素考慮人類生活的二十四小時作息時間規(guī)律進行賦值,計算時考慮三種因素的權(quán)重關(guān)系進行加權(quán)計算。在時刻t,定義柵格i的設(shè)備部署密度為:
20、
21、其中,si表示柵格i的面積,m表示柵格內(nèi)包含的地理環(huán)境類型數(shù)量,ρj表示地理環(huán)境類型j對應(yīng)的設(shè)備部署密度,根據(jù)地形和發(fā)展情況加權(quán)計算得出,si,j表示柵格i內(nèi)地理環(huán)境類型j所占的面積。系統(tǒng)內(nèi)的流量遵循到達率為λ的泊松分布。
22、作為優(yōu)選方案,步驟s4中,構(gòu)建m/g/1休假排隊模型,將s3中業(yè)務(wù)到達模型輸出的結(jié)果輸入到排隊模型中,具體包括:
23、s41、衛(wèi)星可以提供n個隊列,用于存儲每個小區(qū)到達的流量。時隙t的到達流量表示為:
24、lt={lt,n|n∈n}
25、其中,lt,n為時隙t的小區(qū)n到達流量,服從到達率為λt,n的泊松分布。t時隙隊列中存儲的總流量表示為dt={dt,n|n∈n},其中dt,n為隊列n在t時隙中存儲的總流量。
26、s42、每個小區(qū)是相對獨立的,在小區(qū)中,數(shù)據(jù)包以泊松過程到達,平均到達率為λ,同時到達進入小區(qū)后需要排隊,等待波束進行處理,且遵循先到先走的原則進行處理原則。當(dāng)波束開啟時,每個數(shù)據(jù)包的服務(wù)時間為隨機變量,服從一般分布,平均服務(wù)率為μon,服務(wù)時間的均值為e[s]和方差為σs2。且當(dāng)波束關(guān)閉時服務(wù)率為0,同時在關(guān)閉狀態(tài)仍有數(shù)據(jù)包到達小區(qū)進行排隊。
27、s43、在步驟s42的基礎(chǔ)上將數(shù)據(jù)包排隊等待服務(wù)過程設(shè)計為m/g/1模型,將波束開啟看做工作狀態(tài),波束關(guān)閉時為休假狀態(tài)。
28、s44、在步驟s43的基礎(chǔ)上波束開啟時,平均等待時延(包括排隊等待時間和服務(wù)時間)可以由pollaczek-khinchine(p-k)公式給出:
29、
30、其中,e[s2]是服務(wù)時間的二階矩,是系統(tǒng)的利用率。
31、波束關(guān)閉期間,假設(shè)波束關(guān)閉的平均時間為toff,則在關(guān)閉期間,每個數(shù)據(jù)包的平均積累時延為:
32、τoff=toff
33、s45、在步驟s44的基礎(chǔ)上設(shè)波束開啟的概率為pon,關(guān)閉概率為poff,pon和poff可以通過對小區(qū)的歷史數(shù)據(jù)進行統(tǒng)計分析得到。綜合考慮波束的開啟和關(guān)閉狀態(tài),平均等待時延可以表示為:
34、τt,n=pon·τon+poff·τoff
35、作為優(yōu)選方案,步驟s4中,將波束開啟看做工作狀態(tài),波束關(guān)閉時為休假狀態(tài);分析排隊模型獲得的信息數(shù)據(jù)為小區(qū)內(nèi)的平均等待時延。
36、作為優(yōu)選方案,步驟s5中,多波束的上下文學(xué)習(xí),具體包括:
37、s51、使用所有波束的運行狀態(tài)來形成上下文從而進行干擾規(guī)避;當(dāng)波束為小區(qū)服務(wù)時,波束被稱為處于活動狀態(tài),否則被稱為空閑狀態(tài);將收集觀測時間t時所有波束運行狀態(tài)的上下文向量,定義如下:
38、c(t)={c1(t),c2(t),…,ck(t)}
39、s52、智能體觀察會對自身傳輸造成干擾的波束的狀態(tài),應(yīng)用得到上下文,即每個智能體掩蓋了非干擾波束的狀態(tài),以形成自己版本的上下文。基于底層的部署布局,可以很容易地識別出每個波束的非干擾波束,并可以應(yīng)用相應(yīng)的掩碼設(shè)置。每個機器學(xué)習(xí)(machine?learning,ml)智能體掩蓋上下文中非干擾波束的狀態(tài),以形成自己版本的上下文;表示波束bi的非干擾波束的掩模矢量可以定義如下:
40、mi={m1|i,m2|i,…,mk|i}
41、其中,mk|i表示波束k的激活是否不會干擾波束i,即當(dāng)波束k能夠干擾波束i時mk|i變?yōu)?,否則變?yōu)?。
42、s53、將ci(t)表示為將所有非干擾光束狀態(tài)屏蔽為0后,光束i的觀測上下文:
43、
44、其中,c(t)={c1(t),c2(t),…,ck(t)}為智能體初始觀察的所有上下文。
45、作為優(yōu)選方案,步驟s6中,將波束干擾規(guī)避問題轉(zhuǎn)化為多智能體深度確定性策略梯度(maddpg,multi-agent?deep?deterministic?policy?gradient)算法學(xué)習(xí)問題,并進行馬爾可夫決策過程(pomdp)問題的轉(zhuǎn)化定義,具體包括:
46、s61、定義全局狀態(tài)s包括地面小區(qū)平均等待時延τi、衛(wèi)生生成的波束傳輸處理的數(shù)據(jù)包qb以及小區(qū)內(nèi)的數(shù)據(jù)流量d:
47、s={τi,qb,d}
48、s62、將t時隙波束觀察的上下文c以及基礎(chǔ)觀察特征s定義為全局狀態(tài)o:
49、
50、o={s,c}
51、s63、智能體應(yīng)該根據(jù)狀態(tài)做出決策,以提高長期收益。智能體動態(tài)調(diào)整每個時隙單元的波束覆蓋,即開啟或關(guān)閉波束,在每一時隙根據(jù)狀態(tài)智能調(diào)控選擇。因此,在時間t執(zhí)行的動作定義為:
52、a={x1,x1,…,xk|xi∈{0,1}}
53、s64、為了最大化定義的長期優(yōu)化目標(biāo),使用數(shù)據(jù)吞吐量和延遲公平性作為即時獎勵:
54、r=αtptotal-(1-α)td
55、其中,tptotal表示吞吐量,td表示時延差。
56、作為優(yōu)選方案,步驟s7中,根據(jù)問題的轉(zhuǎn)化定義和maddpg算法,進行maddpg算法的強化學(xué)習(xí),依據(jù)衛(wèi)星多個波束輸出的最大概率動作值規(guī)劃衛(wèi)星波束調(diào)度的最優(yōu)策略包括:
57、s71.隨機初始化所有波束的演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò),并配置經(jīng)驗回放緩沖區(qū)。
58、s72.利用確定性策略網(wǎng)絡(luò)來收集當(dāng)前環(huán)境的觀察數(shù)據(jù)。這些數(shù)據(jù)包括時隙t的波束上下文c以及基礎(chǔ)觀察特征s,其中,s包括地面小區(qū)的平均等待時延、當(dāng)前波束處理的數(shù)據(jù)包數(shù)、小區(qū)內(nèi)丟棄的數(shù)據(jù)包數(shù)和小區(qū)內(nèi)的數(shù)據(jù)流量。
59、o={s,c}
60、s73.基于步驟s72中獲取的環(huán)境觀察數(shù)據(jù),決定低軌衛(wèi)星的目標(biāo)波束生成動作并執(zhí)行該動作。
61、s74.在完成波束決策動作后,記錄獲得的獎勵及下一個狀態(tài)的環(huán)境觀察數(shù)據(jù),并將當(dāng)前環(huán)境觀察數(shù)據(jù)、目標(biāo)衛(wèi)星的執(zhí)行動作、獲得的獎勵和新的環(huán)境觀察數(shù)據(jù)存儲在經(jīng)驗回放緩沖區(qū)中。
62、s75.從經(jīng)驗回放緩沖區(qū)中隨機抽取一批經(jīng)驗進行訓(xùn)練,更新演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)的參數(shù),旨在最大化評論家網(wǎng)絡(luò)的q值,最小化q值的誤差,并利用更新后的q網(wǎng)絡(luò)生成最優(yōu)策略路徑。
63、s76.重復(fù)步驟s72-s75,直至算法收斂(例如波束調(diào)度策略的在訓(xùn)練過程中趨于穩(wěn)定且不再顯著變化),從而確定最優(yōu)的波束調(diào)度策略。
64、本發(fā)明還公開了一種基于多智能體強化學(xué)習(xí)的多波束干擾規(guī)避系統(tǒng),用于執(zhí)行上述的方法,包括以下模塊:
65、初始多波束系統(tǒng)模型圖構(gòu)建模塊:根據(jù)衛(wèi)星生成的多波束及地面小區(qū)關(guān)系建立初始系統(tǒng)模型圖;
66、信息數(shù)據(jù)獲取模塊:根據(jù)多波束特性,分析多波束之間的干擾,量化干擾;
67、業(yè)務(wù)到達模型模塊:根據(jù)地面狀態(tài)信息生成業(yè)務(wù)到達模型;
68、排隊模型模塊:構(gòu)建m/g/1排隊模型,將業(yè)務(wù)到達信息輸入到排隊模型中,生成每個小區(qū)獨立的排隊模型;
69、上下文學(xué)習(xí)模塊:多波束的上下文學(xué)習(xí),根據(jù)底層波束信息生成每個波束獨特的上下文;
70、轉(zhuǎn)化模塊:將波束干擾規(guī)避問題轉(zhuǎn)化為多智能體深度確定性策略梯度算法學(xué)習(xí)問題并進行馬爾可夫決策過程問題的轉(zhuǎn)化定義;
71、強化學(xué)習(xí)及波束調(diào)度模塊:根據(jù)問題的轉(zhuǎn)化定義和多智能體深度確定性策略梯度算法,進行多智能體深度確定性策略梯度算法的強化學(xué)習(xí),依據(jù)衛(wèi)星多個波束輸出的最大概率動作值規(guī)劃衛(wèi)星波束調(diào)度的最優(yōu)策略。
72、本發(fā)明相對于現(xiàn)有技術(shù),具有如下技術(shù)效果:
73、(1)本發(fā)明采用了上下文學(xué)習(xí)模型,目標(biāo)波束學(xué)習(xí)自身上下文環(huán)境,通過底層波束信息,掩蓋非干擾波束,最終生成每個目標(biāo)波束特定的上下文狀態(tài)信息,這種模型能夠在有效捕捉和利用環(huán)境的上下文信息的同時,節(jié)約狀態(tài)空間,從而優(yōu)化波束調(diào)度策略,提高系統(tǒng)的整體性能和適應(yīng)性。
74、(2)本發(fā)明選擇了強化學(xué)習(xí)中的多智能體深度確定性策略梯度(maddpg)算法。將觀測環(huán)境狀態(tài)信息及上下文信息同時輸入到部分馬爾可夫決策公式中,這樣能夠更好地適應(yīng)環(huán)境的變化和復(fù)雜性,同時該算法能夠處理多智能體環(huán)境下的復(fù)雜決策問題,通過協(xié)調(diào)多個智能體的行為來提升系統(tǒng)的整體效果,進而實現(xiàn)更高效的波束調(diào)度和干擾管理。