一種基于DDPG模型的無線傳輸擁塞控制方法及系統(tǒng)與流程

文檔序號：40577511發(fā)布日期：2025-01-07 20:17閱讀：8來源：國知局

本發(fā)明涉及無線傳輸擁塞控制領域，更具體的說是涉及一種基于ddpg模型的無線傳輸擁塞控制方法及系統(tǒng)。

背景技術：

1、隨著信息技術的飛速進步，無線通信已經(jīng)成為現(xiàn)代生活中不可或缺的一部分。它不僅支撐著智能手機、平板電腦等移動設備的數(shù)據(jù)傳輸需求，也是物聯(lián)網(wǎng)(iot)應用的關鍵基礎設施之一。移動設備和物聯(lián)網(wǎng)(iot)應用對網(wǎng)絡傳輸效率和質(zhì)量提出了更高的要求。且無線網(wǎng)絡存在誤碼率高、網(wǎng)絡拓撲高度動態(tài)變化、鏈路帶寬與時延波動大以及隨機丟包率高等特點，容易造成鏈路資源利用不充分或使用過度，甚至引發(fā)網(wǎng)絡擁塞。因此，如何動態(tài)調(diào)整擁塞控制策略以適應高度變化的無線網(wǎng)絡鏈路環(huán)境是實現(xiàn)高效傳輸?shù)年P鍵。

2、當前，傳統(tǒng)的tcp擁塞控制算法通過維護一個擁塞窗口(cwnd)來進行擁塞控制。基于丟包的算法，如cubic，無法有效區(qū)分擁塞丟包與隨機錯誤引起的丟包，導致頻繁的窗口縮減和性能下降?；跁r延的算法，如vegas，在時延波動大的無線網(wǎng)絡中難以準確衡量鏈路擁塞程度。上述傳統(tǒng)的擁塞控制算法都是使用固定的規(guī)則來調(diào)整擁塞窗口，收斂性好，但在高度動態(tài)的鏈路環(huán)境中，難以確定最佳擁塞窗口，導致吞吐量下降、傳輸時延增加等問題，影響業(yè)務傳輸?shù)男屎蛯崟r性。

3、同時，基于機器學習的擁塞控制算法能夠根據(jù)實時網(wǎng)絡狀態(tài)動態(tài)調(diào)整擁塞控制策略，對變化的網(wǎng)絡環(huán)境有更好的適應性。如remy采用基于蒙特卡洛的策略，通過離線預訓練生成從狀態(tài)到動作的映射，但依賴對網(wǎng)絡的先驗假設。aurora采用深度強化學習技術，對復雜鏈路環(huán)境下的網(wǎng)絡特征進行提取，從過去的網(wǎng)絡狀態(tài)和經(jīng)驗中學習并探索使得獎勵更高的行為來調(diào)整擁塞窗口大小。然而，基于機器學習的方法存在學習速度慢、收斂難等問題，難以適應動態(tài)變化的無線環(huán)境。

4、此外，現(xiàn)有的擁塞控制算法側重于提高吞吐量，但在實際應用中，尤其是在視頻流媒體、在線游戲等對延遲敏感的服務場景下，低時延同樣至關重要。其往往不能很好地同時滿足這兩個目標。

5、因此，如何設計一種基于ddpg模型的無線傳輸擁塞控制方法，有效解決現(xiàn)有tcp擁塞控制算法在復雜多變無線環(huán)境中的性能局限是本領域技術人員亟需解決的問題。

技術實現(xiàn)思路

1、有鑒于此，本發(fā)明提供了一種基于ddpg模型的無線傳輸擁塞控制方法，將深度強化學習技術和傳統(tǒng)擁塞控制算法相結合，通過實時獲取和處理網(wǎng)絡統(tǒng)計信息，并利用卷積矩陣和遞歸結構生成富含特征的網(wǎng)絡狀態(tài)向量，并結合設計的獎勵函數(shù)和深度強化學習機制，實現(xiàn)了對無線網(wǎng)絡動態(tài)變化的自適應擁塞控制。

2、為了實現(xiàn)上述目的，本發(fā)明采用如下技術方案：

3、第一方面，本發(fā)明提供一種基于ddpg模型的無線傳輸擁塞控制方法，包括以下步驟：

4、s1、在每個往返時延周期內(nèi)，獲取底層tcp協(xié)議棧中的擁塞窗口值和確認數(shù)據(jù)包，生成網(wǎng)絡統(tǒng)計信息；

5、s2、利用卷積矩陣對所述網(wǎng)絡統(tǒng)計信息進行預處理，并結合遞歸結構生成網(wǎng)絡狀態(tài)向量；

6、s3、通過獎勵函數(shù)生成與所述網(wǎng)絡狀態(tài)向量對應的獎勵值；

7、s4、基于所述網(wǎng)絡狀態(tài)向量和獎勵值，采用ddpg模型輸出擁塞窗口的最大值；所述ddpg模型包括：策略網(wǎng)絡和值網(wǎng)絡；

8、s5、根據(jù)擁塞窗口的最大值，采用最大濾波器確定擁塞窗口的大小，并反饋至底層tcp協(xié)議棧。

9、優(yōu)選的，所述s1包括：

10、s11、基于確認數(shù)據(jù)包生成數(shù)據(jù)包統(tǒng)計信息；

11、s12、利用數(shù)據(jù)包統(tǒng)計信息計算每個往返時延周期內(nèi)的平均數(shù)據(jù)包時延、每個往返時延周期內(nèi)的平均吞吐量以及所述平均數(shù)據(jù)包時延的數(shù)據(jù)包數(shù)量；

12、s13、將所述平均數(shù)據(jù)包時延、平均吞吐量和數(shù)據(jù)包數(shù)量，結合底層tcp協(xié)議棧中的擁塞窗口值作為網(wǎng)絡統(tǒng)計信息。

13、優(yōu)選的，所述s2中，利用卷積矩陣對所述網(wǎng)絡統(tǒng)計信息進行預處理，包括：

14、s21、定義卷積矩陣：

15、

16、其中，d為平均數(shù)據(jù)包時延，d0為目標時延；

17、s22、利用所述卷積矩陣進行濾波處理，并對平均數(shù)據(jù)包時延d和目標時延d0進行編碼：

18、

19、其中，p為平均吞吐量，n為數(shù)據(jù)包數(shù)量；

20、s23、基于濾波處理和編碼后的數(shù)據(jù)，獲得時刻t下的觀測統(tǒng)計信息：

21、

22、其中，cwndt為底層tcp協(xié)議棧中的擁塞窗口值。

23、優(yōu)選的，所述s2中，網(wǎng)絡狀態(tài)向量表示為：

24、st＝[ot,ot-1,…,ot-m+1]

25、其中，ot-1為時刻t-1下的觀測統(tǒng)計信息，ot-m+1為時刻t-m+1下的觀測統(tǒng)計信息，m為網(wǎng)絡狀態(tài)向量長度。

26、優(yōu)選的，所述s3中，獎勵函數(shù)表示為：

27、

28、其中，ω(n,d)為d最近兩個值的移動平均值：

29、

30、npre、dpre分別為n、d上一時刻的值。

31、優(yōu)選的，所述s4包括：

32、s41、初始化時間步長及相關網(wǎng)絡參數(shù)；

33、s42、通過策略網(wǎng)絡πθ，確定動作at以及時間t下?lián)砣翱诘淖畲笾礳wndmax；

34、所述動作at表示為：

35、at＝πθ(st)+nt

36、

37、其中，πθ(st)為策略函數(shù)，nt為噪聲項，at取值范圍為[-1,1]；

38、s43、執(zhí)行動作at，獲得獎勵值rt和新的狀態(tài)st+1；并結合值網(wǎng)絡qω，定義q值函數(shù)qπ(st,at)＝e[rt|st,at]，對所述動作at進行評價；其中，rt為累積預期回報；

39、s44、結合經(jīng)驗回放機制，在經(jīng)驗回放緩沖區(qū)d中存儲經(jīng)驗元組(st,at,rt,st+1)，并隨機抽取n個經(jīng)驗元組(si,ai,ri,si+1)；

40、s45、基于經(jīng)驗元組(si,ai,ri,si+1)進行網(wǎng)絡參數(shù)更新；

41、s46、重復上述s42至s45，直至輸出滿足預設條件輸出對應時間下的最大擁塞窗口cwndmax。

42、優(yōu)選的，所述s43中，累積預期回報rt表示為：

43、rt＝rt+γ1rt+1+γ2rt+2+…+γnrt+n

44、其中，γ1、γ2……γn為折扣因子，取值范圍為[0,1]。

45、優(yōu)選的，所述s45包括：

46、s451、定義最優(yōu)策略πθ下的預期收益j(θ)：

47、

48、采用策略梯度上升策略對策略網(wǎng)絡πθ進行參數(shù)更新，所述預期收益j(θ)的梯度表示為：

49、

50、其中，ηθ為策略網(wǎng)絡的學習率；

51、s452、通過最小化目標q值和當前q值之間的均方誤差對值網(wǎng)絡qω進行參數(shù)更新：

52、

53、

54、其中，n表示數(shù)據(jù)數(shù)量，yi表示目標q值，yi＝ri+γqω'(si+1,πθ'(si+1))，πθ'和qω'分別為目標策略網(wǎng)絡和目標值網(wǎng)絡；

55、s453、對目標策略網(wǎng)絡和目標值網(wǎng)絡進行網(wǎng)絡參數(shù)更新：

56、θ′←τθ+(1-τ)θ′

57、ω′←τω+(1-τ)ω′

58、其中，τ為速度控制參數(shù)。

59、優(yōu)選的，所述s5包括：

60、將擁塞窗口的最大值與底層tcp協(xié)議棧計算出來的擁塞窗口值進行比較，選擇兩者中較小的擁塞窗口值反饋至底層tcp協(xié)議棧。

61、第二方面，本發(fā)明提供一種基于ddpg模型的無線傳輸擁塞控制系統(tǒng)，包括：

62、監(jiān)控模塊：用于在每個往返時延周期內(nèi)，獲取底層tcp協(xié)議棧中的擁塞窗口值和確認數(shù)據(jù)包，生成網(wǎng)絡統(tǒng)計信息；

63、狀態(tài)生成模塊：用于利用卷積矩陣對所述網(wǎng)絡統(tǒng)計信息進行預處理，并結合遞歸結構生成網(wǎng)絡狀態(tài)向量；

64、獎勵生成模塊：用于通過獎勵函數(shù)生成與所述網(wǎng)絡狀態(tài)向量對應的獎勵值；

65、drl智能體模塊：用于基于所述網(wǎng)絡狀態(tài)向量和獎勵值，采用ddpg模型輸出擁塞窗口的最大值；所述ddpg模型包括：策略網(wǎng)絡和值網(wǎng)絡；

66、最大濾波器模塊：用于根據(jù)擁塞窗口的最大值，采用最大濾波器確定擁塞窗口的大小，并反饋至底層tcp協(xié)議棧。

67、經(jīng)由上述的技術方案可知，與現(xiàn)有技術相比，本發(fā)明技術方案存在以下

68、有益效果：

69、1、在每個往返時延(rtt)周期內(nèi)獲取底層tcp協(xié)議棧中的擁塞窗口值和確認數(shù)據(jù)包，能夠及時反映當前網(wǎng)絡狀況。其有助于生成準確的網(wǎng)絡統(tǒng)計信息，這使得系統(tǒng)能夠快速響應網(wǎng)絡變化，確保了對網(wǎng)絡狀態(tài)的精確捕捉，從而提高了擁塞控制的精度。

70、2、卷積操作可以識別出數(shù)據(jù)中的局部依賴關系，而遞歸結構則能有效捕獲時間序列上的長期依賴。這樣的組合不僅增強了模型對于復雜網(wǎng)絡動態(tài)的理解能力，還為后續(xù)的決策過程提供了更加豐富且結構化的輸入，從而提升了整個系統(tǒng)的適應性和魯棒性。

71、3、通過獎勵函數(shù)生成與網(wǎng)絡狀態(tài)向量對應的獎勵值，可以有效地指導ddpg模型的學習過程。智能體首先會將平均時延保持在目標時延以下，獲得更少的懲罰。然后，它將最大限度地提高其吞吐量和收到的數(shù)據(jù)包數(shù)量，獲得更多獎勵。該自適應獎勵機制鼓勵ddpg模型探索最優(yōu)策略，能夠學會在不同網(wǎng)絡條件下采取最合適的擁塞控制措施，實現(xiàn)高效的數(shù)據(jù)傳輸。

72、4、通過對連續(xù)動作空間輸出擁塞窗口的最大值，相比離散的動作選擇，連續(xù)動作空間允許更細微的調(diào)整，其中，策略網(wǎng)絡負責提出動作建議，而值網(wǎng)絡評估這些動作的好壞，兩者協(xié)同工作，確保了擁塞窗口調(diào)整的科學性和有效性。同時，采用目標網(wǎng)絡保證訓練過程的穩(wěn)定；采用經(jīng)驗回放池減輕數(shù)據(jù)之間的強相關性。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：劉明,解文博,王靜,楊紫微,胡夢晨,魏子忠
技術所有人：航天金美（重慶）通信有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于DDPG模型的無線傳輸擁塞控制方法及系統(tǒng)與流程