本發(fā)明涉及無線傳輸擁塞控制領域,更具體的說是涉及一種基于ddpg模型的無線傳輸擁塞控制方法及系統(tǒng)。
背景技術:
1、隨著信息技術的飛速進步,無線通信已經(jīng)成為現(xiàn)代生活中不可或缺的一部分。它不僅支撐著智能手機、平板電腦等移動設備的數(shù)據(jù)傳輸需求,也是物聯(lián)網(wǎng)(iot)應用的關鍵基礎設施之一。移動設備和物聯(lián)網(wǎng)(iot)應用對網(wǎng)絡傳輸效率和質(zhì)量提出了更高的要求。且無線網(wǎng)絡存在誤碼率高、網(wǎng)絡拓撲高度動態(tài)變化、鏈路帶寬與時延波動大以及隨機丟包率高等特點,容易造成鏈路資源利用不充分或使用過度,甚至引發(fā)網(wǎng)絡擁塞。因此,如何動態(tài)調(diào)整擁塞控制策略以適應高度變化的無線網(wǎng)絡鏈路環(huán)境是實現(xiàn)高效傳輸?shù)年P鍵。
2、當前,傳統(tǒng)的tcp擁塞控制算法通過維護一個擁塞窗口(cwnd)來進行擁塞控制。基于丟包的算法,如cubic,無法有效區(qū)分擁塞丟包與隨機錯誤引起的丟包,導致頻繁的窗口縮減和性能下降?;跁r延的算法,如vegas,在時延波動大的無線網(wǎng)絡中難以準確衡量鏈路擁塞程度。上述傳統(tǒng)的擁塞控制算法都是使用固定的規(guī)則來調(diào)整擁塞窗口,收斂性好,但在高度動態(tài)的鏈路環(huán)境中,難以確定最佳擁塞窗口,導致吞吐量下降、傳輸時延增加等問題,影響業(yè)務傳輸?shù)男屎蛯崟r性。
3、同時,基于機器學習的擁塞控制算法能夠根據(jù)實時網(wǎng)絡狀態(tài)動態(tài)調(diào)整擁塞控制策略,對變化的網(wǎng)絡環(huán)境有更好的適應性。如remy采用基于蒙特卡洛的策略,通過離線預訓練生成從狀態(tài)到動作的映射,但依賴對網(wǎng)絡的先驗假設。aurora采用深度強化學習技術,對復雜鏈路環(huán)境下的網(wǎng)絡特征進行提取,從過去的網(wǎng)絡狀態(tài)和經(jīng)驗中學習并探索使得獎勵更高的行為來調(diào)整擁塞窗口大小。然而,基于機器學習的方法存在學習速度慢、收斂難等問題,難以適應動態(tài)變化的無線環(huán)境。
4、此外,現(xiàn)有的擁塞控制算法側重于提高吞吐量,但在實際應用中,尤其是在視頻流媒體、在線游戲等對延遲敏感的服務場景下,低時延同樣至關重要。其往往不能很好地同時滿足這兩個目標。
5、因此,如何設計一種基于ddpg模型的無線傳輸擁塞控制方法,有效解決現(xiàn)有tcp擁塞控制算法在復雜多變無線環(huán)境中的性能局限是本領域技術人員亟需解決的問題。
技術實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種基于ddpg模型的無線傳輸擁塞控制方法,將深度強化學習技術和傳統(tǒng)擁塞控制算法相結合,通過實時獲取和處理網(wǎng)絡統(tǒng)計信息,并利用卷積矩陣和遞歸結構生成富含特征的網(wǎng)絡狀態(tài)向量,并結合設計的獎勵函數(shù)和深度強化學習機制,實現(xiàn)了對無線網(wǎng)絡動態(tài)變化的自適應擁塞控制。
2、為了實現(xiàn)上述目的,本發(fā)明采用如下技術方案:
3、第一方面,本發(fā)明提供一種基于ddpg模型的無線傳輸擁塞控制方法,包括以下步驟:
4、s1、在每個往返時延周期內(nèi),獲取底層tcp協(xié)議棧中的擁塞窗口值和確認數(shù)據(jù)包,生成網(wǎng)絡統(tǒng)計信息;
5、s2、利用卷積矩陣對所述網(wǎng)絡統(tǒng)計信息進行預處理,并結合遞歸結構生成網(wǎng)絡狀態(tài)向量;
6、s3、通過獎勵函數(shù)生成與所述網(wǎng)絡狀態(tài)向量對應的獎勵值;
7、s4、基于所述網(wǎng)絡狀態(tài)向量和獎勵值,采用ddpg模型輸出擁塞窗口的最大值;所述ddpg模型包括:策略網(wǎng)絡和值網(wǎng)絡;
8、s5、根據(jù)擁塞窗口的最大值,采用最大濾波器確定擁塞窗口的大小,并反饋至底層tcp協(xié)議棧。
9、優(yōu)選的,所述s1包括:
10、s11、基于確認數(shù)據(jù)包生成數(shù)據(jù)包統(tǒng)計信息;
11、s12、利用數(shù)據(jù)包統(tǒng)計信息計算每個往返時延周期內(nèi)的平均數(shù)據(jù)包時延、每個往返時延周期內(nèi)的平均吞吐量以及所述平均數(shù)據(jù)包時延的數(shù)據(jù)包數(shù)量;
12、s13、將所述平均數(shù)據(jù)包時延、平均吞吐量和數(shù)據(jù)包數(shù)量,結合底層tcp協(xié)議棧中的擁塞窗口值作為網(wǎng)絡統(tǒng)計信息。
13、優(yōu)選的,所述s2中,利用卷積矩陣對所述網(wǎng)絡統(tǒng)計信息進行預處理,包括:
14、s21、定義卷積矩陣:
15、
16、其中,d為平均數(shù)據(jù)包時延,d0為目標時延;
17、s22、利用所述卷積矩陣進行濾波處理,并對平均數(shù)據(jù)包時延d和目標時延d0進行編碼:
18、
19、其中,p為平均吞吐量,n為數(shù)據(jù)包數(shù)量;
20、s23、基于濾波處理和編碼后的數(shù)據(jù),獲得時刻t下的觀測統(tǒng)計信息:
21、
22、其中,cwndt為底層tcp協(xié)議棧中的擁塞窗口值。
23、優(yōu)選的,所述s2中,網(wǎng)絡狀態(tài)向量表示為:
24、st=[ot,ot-1,…,ot-m+1]
25、其中,ot-1為時刻t-1下的觀測統(tǒng)計信息,ot-m+1為時刻t-m+1下的觀測統(tǒng)計信息,m為網(wǎng)絡狀態(tài)向量長度。
26、優(yōu)選的,所述s3中,獎勵函數(shù)表示為:
27、
28、其中,ω(n,d)為d最近兩個值的移動平均值:
29、
30、npre、dpre分別為n、d上一時刻的值。
31、優(yōu)選的,所述s4包括:
32、s41、初始化時間步長及相關網(wǎng)絡參數(shù);
33、s42、通過策略網(wǎng)絡πθ,確定動作at以及時間t下?lián)砣翱诘淖畲笾礳wndmax;
34、所述動作at表示為:
35、at=πθ(st)+nt
36、
37、其中,πθ(st)為策略函數(shù),nt為噪聲項,at取值范圍為[-1,1];
38、s43、執(zhí)行動作at,獲得獎勵值rt和新的狀態(tài)st+1;并結合值網(wǎng)絡qω,定義q值函數(shù)qπ(st,at)=e[rt|st,at],對所述動作at進行評價;其中,rt為累積預期回報;
39、s44、結合經(jīng)驗回放機制,在經(jīng)驗回放緩沖區(qū)d中存儲經(jīng)驗元組(st,at,rt,st+1),并隨機抽取n個經(jīng)驗元組(si,ai,ri,si+1);
40、s45、基于經(jīng)驗元組(si,ai,ri,si+1)進行網(wǎng)絡參數(shù)更新;
41、s46、重復上述s42至s45,直至輸出滿足預設條件輸出對應時間下的最大擁塞窗口cwndmax。
42、優(yōu)選的,所述s43中,累積預期回報rt表示為:
43、rt=rt+γ1rt+1+γ2rt+2+…+γnrt+n
44、其中,γ1、γ2……γn為折扣因子,取值范圍為[0,1]。
45、優(yōu)選的,所述s45包括:
46、s451、定義最優(yōu)策略πθ下的預期收益j(θ):
47、
48、采用策略梯度上升策略對策略網(wǎng)絡πθ進行參數(shù)更新,所述預期收益j(θ)的梯度表示為:
49、
50、其中,ηθ為策略網(wǎng)絡的學習率;
51、s452、通過最小化目標q值和當前q值之間的均方誤差對值網(wǎng)絡qω進行參數(shù)更新:
52、
53、
54、其中,n表示數(shù)據(jù)數(shù)量,yi表示目標q值,yi=ri+γqω'(si+1,πθ'(si+1)),πθ'和qω'分別為目標策略網(wǎng)絡和目標值網(wǎng)絡;
55、s453、對目標策略網(wǎng)絡和目標值網(wǎng)絡進行網(wǎng)絡參數(shù)更新:
56、θ′←τθ+(1-τ)θ′
57、ω′←τω+(1-τ)ω′
58、其中,τ為速度控制參數(shù)。
59、優(yōu)選的,所述s5包括:
60、將擁塞窗口的最大值與底層tcp協(xié)議棧計算出來的擁塞窗口值進行比較,選擇兩者中較小的擁塞窗口值反饋至底層tcp協(xié)議棧。
61、第二方面,本發(fā)明提供一種基于ddpg模型的無線傳輸擁塞控制系統(tǒng),包括:
62、監(jiān)控模塊:用于在每個往返時延周期內(nèi),獲取底層tcp協(xié)議棧中的擁塞窗口值和確認數(shù)據(jù)包,生成網(wǎng)絡統(tǒng)計信息;
63、狀態(tài)生成模塊:用于利用卷積矩陣對所述網(wǎng)絡統(tǒng)計信息進行預處理,并結合遞歸結構生成網(wǎng)絡狀態(tài)向量;
64、獎勵生成模塊:用于通過獎勵函數(shù)生成與所述網(wǎng)絡狀態(tài)向量對應的獎勵值;
65、drl智能體模塊:用于基于所述網(wǎng)絡狀態(tài)向量和獎勵值,采用ddpg模型輸出擁塞窗口的最大值;所述ddpg模型包括:策略網(wǎng)絡和值網(wǎng)絡;
66、最大濾波器模塊:用于根據(jù)擁塞窗口的最大值,采用最大濾波器確定擁塞窗口的大小,并反饋至底層tcp協(xié)議棧。
67、經(jīng)由上述的技術方案可知,與現(xiàn)有技術相比,本發(fā)明技術方案存在以下
68、有益效果:
69、1、在每個往返時延(rtt)周期內(nèi)獲取底層tcp協(xié)議棧中的擁塞窗口值和確認數(shù)據(jù)包,能夠及時反映當前網(wǎng)絡狀況。其有助于生成準確的網(wǎng)絡統(tǒng)計信息,這使得系統(tǒng)能夠快速響應網(wǎng)絡變化,確保了對網(wǎng)絡狀態(tài)的精確捕捉,從而提高了擁塞控制的精度。
70、2、卷積操作可以識別出數(shù)據(jù)中的局部依賴關系,而遞歸結構則能有效捕獲時間序列上的長期依賴。這樣的組合不僅增強了模型對于復雜網(wǎng)絡動態(tài)的理解能力,還為后續(xù)的決策過程提供了更加豐富且結構化的輸入,從而提升了整個系統(tǒng)的適應性和魯棒性。
71、3、通過獎勵函數(shù)生成與網(wǎng)絡狀態(tài)向量對應的獎勵值,可以有效地指導ddpg模型的學習過程。智能體首先會將平均時延保持在目標時延以下,獲得更少的懲罰。然后,它將最大限度地提高其吞吐量和收到的數(shù)據(jù)包數(shù)量,獲得更多獎勵。該自適應獎勵機制鼓勵ddpg模型探索最優(yōu)策略,能夠學會在不同網(wǎng)絡條件下采取最合適的擁塞控制措施,實現(xiàn)高效的數(shù)據(jù)傳輸。
72、4、通過對連續(xù)動作空間輸出擁塞窗口的最大值,相比離散的動作選擇,連續(xù)動作空間允許更細微的調(diào)整,其中,策略網(wǎng)絡負責提出動作建議,而值網(wǎng)絡評估這些動作的好壞,兩者協(xié)同工作,確保了擁塞窗口調(diào)整的科學性和有效性。同時,采用目標網(wǎng)絡保證訓練過程的穩(wěn)定;采用經(jīng)驗回放池減輕數(shù)據(jù)之間的強相關性。