欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于DDPG模型的無線傳輸擁塞控制方法及系統(tǒng)與流程

文檔序號:40577511發(fā)布日期:2025-01-07 20:17閱讀:8來源:國知局
一種基于DDPG模型的無線傳輸擁塞控制方法及系統(tǒng)與流程

本發(fā)明涉及無線傳輸擁塞控制領域,更具體的說是涉及一種基于ddpg模型的無線傳輸擁塞控制方法及系統(tǒng)。


背景技術:

1、隨著信息技術的飛速進步,無線通信已經(jīng)成為現(xiàn)代生活中不可或缺的一部分。它不僅支撐著智能手機、平板電腦等移動設備的數(shù)據(jù)傳輸需求,也是物聯(lián)網(wǎng)(iot)應用的關鍵基礎設施之一。移動設備和物聯(lián)網(wǎng)(iot)應用對網(wǎng)絡傳輸效率和質(zhì)量提出了更高的要求。且無線網(wǎng)絡存在誤碼率高、網(wǎng)絡拓撲高度動態(tài)變化、鏈路帶寬與時延波動大以及隨機丟包率高等特點,容易造成鏈路資源利用不充分或使用過度,甚至引發(fā)網(wǎng)絡擁塞。因此,如何動態(tài)調(diào)整擁塞控制策略以適應高度變化的無線網(wǎng)絡鏈路環(huán)境是實現(xiàn)高效傳輸?shù)年P鍵。

2、當前,傳統(tǒng)的tcp擁塞控制算法通過維護一個擁塞窗口(cwnd)來進行擁塞控制。基于丟包的算法,如cubic,無法有效區(qū)分擁塞丟包與隨機錯誤引起的丟包,導致頻繁的窗口縮減和性能下降?;跁r延的算法,如vegas,在時延波動大的無線網(wǎng)絡中難以準確衡量鏈路擁塞程度。上述傳統(tǒng)的擁塞控制算法都是使用固定的規(guī)則來調(diào)整擁塞窗口,收斂性好,但在高度動態(tài)的鏈路環(huán)境中,難以確定最佳擁塞窗口,導致吞吐量下降、傳輸時延增加等問題,影響業(yè)務傳輸?shù)男屎蛯崟r性。

3、同時,基于機器學習的擁塞控制算法能夠根據(jù)實時網(wǎng)絡狀態(tài)動態(tài)調(diào)整擁塞控制策略,對變化的網(wǎng)絡環(huán)境有更好的適應性。如remy采用基于蒙特卡洛的策略,通過離線預訓練生成從狀態(tài)到動作的映射,但依賴對網(wǎng)絡的先驗假設。aurora采用深度強化學習技術,對復雜鏈路環(huán)境下的網(wǎng)絡特征進行提取,從過去的網(wǎng)絡狀態(tài)和經(jīng)驗中學習并探索使得獎勵更高的行為來調(diào)整擁塞窗口大小。然而,基于機器學習的方法存在學習速度慢、收斂難等問題,難以適應動態(tài)變化的無線環(huán)境。

4、此外,現(xiàn)有的擁塞控制算法側重于提高吞吐量,但在實際應用中,尤其是在視頻流媒體、在線游戲等對延遲敏感的服務場景下,低時延同樣至關重要。其往往不能很好地同時滿足這兩個目標。

5、因此,如何設計一種基于ddpg模型的無線傳輸擁塞控制方法,有效解決現(xiàn)有tcp擁塞控制算法在復雜多變無線環(huán)境中的性能局限是本領域技術人員亟需解決的問題。


技術實現(xiàn)思路

1、有鑒于此,本發(fā)明提供了一種基于ddpg模型的無線傳輸擁塞控制方法,將深度強化學習技術和傳統(tǒng)擁塞控制算法相結合,通過實時獲取和處理網(wǎng)絡統(tǒng)計信息,并利用卷積矩陣和遞歸結構生成富含特征的網(wǎng)絡狀態(tài)向量,并結合設計的獎勵函數(shù)和深度強化學習機制,實現(xiàn)了對無線網(wǎng)絡動態(tài)變化的自適應擁塞控制。

2、為了實現(xiàn)上述目的,本發(fā)明采用如下技術方案:

3、第一方面,本發(fā)明提供一種基于ddpg模型的無線傳輸擁塞控制方法,包括以下步驟:

4、s1、在每個往返時延周期內(nèi),獲取底層tcp協(xié)議棧中的擁塞窗口值和確認數(shù)據(jù)包,生成網(wǎng)絡統(tǒng)計信息;

5、s2、利用卷積矩陣對所述網(wǎng)絡統(tǒng)計信息進行預處理,并結合遞歸結構生成網(wǎng)絡狀態(tài)向量;

6、s3、通過獎勵函數(shù)生成與所述網(wǎng)絡狀態(tài)向量對應的獎勵值;

7、s4、基于所述網(wǎng)絡狀態(tài)向量和獎勵值,采用ddpg模型輸出擁塞窗口的最大值;所述ddpg模型包括:策略網(wǎng)絡和值網(wǎng)絡;

8、s5、根據(jù)擁塞窗口的最大值,采用最大濾波器確定擁塞窗口的大小,并反饋至底層tcp協(xié)議棧。

9、優(yōu)選的,所述s1包括:

10、s11、基于確認數(shù)據(jù)包生成數(shù)據(jù)包統(tǒng)計信息;

11、s12、利用數(shù)據(jù)包統(tǒng)計信息計算每個往返時延周期內(nèi)的平均數(shù)據(jù)包時延、每個往返時延周期內(nèi)的平均吞吐量以及所述平均數(shù)據(jù)包時延的數(shù)據(jù)包數(shù)量;

12、s13、將所述平均數(shù)據(jù)包時延、平均吞吐量和數(shù)據(jù)包數(shù)量,結合底層tcp協(xié)議棧中的擁塞窗口值作為網(wǎng)絡統(tǒng)計信息。

13、優(yōu)選的,所述s2中,利用卷積矩陣對所述網(wǎng)絡統(tǒng)計信息進行預處理,包括:

14、s21、定義卷積矩陣:

15、

16、其中,d為平均數(shù)據(jù)包時延,d0為目標時延;

17、s22、利用所述卷積矩陣進行濾波處理,并對平均數(shù)據(jù)包時延d和目標時延d0進行編碼:

18、

19、其中,p為平均吞吐量,n為數(shù)據(jù)包數(shù)量;

20、s23、基于濾波處理和編碼后的數(shù)據(jù),獲得時刻t下的觀測統(tǒng)計信息:

21、

22、其中,cwndt為底層tcp協(xié)議棧中的擁塞窗口值。

23、優(yōu)選的,所述s2中,網(wǎng)絡狀態(tài)向量表示為:

24、st=[ot,ot-1,…,ot-m+1]

25、其中,ot-1為時刻t-1下的觀測統(tǒng)計信息,ot-m+1為時刻t-m+1下的觀測統(tǒng)計信息,m為網(wǎng)絡狀態(tài)向量長度。

26、優(yōu)選的,所述s3中,獎勵函數(shù)表示為:

27、

28、其中,ω(n,d)為d最近兩個值的移動平均值:

29、

30、npre、dpre分別為n、d上一時刻的值。

31、優(yōu)選的,所述s4包括:

32、s41、初始化時間步長及相關網(wǎng)絡參數(shù);

33、s42、通過策略網(wǎng)絡πθ,確定動作at以及時間t下?lián)砣翱诘淖畲笾礳wndmax;

34、所述動作at表示為:

35、at=πθ(st)+nt

36、

37、其中,πθ(st)為策略函數(shù),nt為噪聲項,at取值范圍為[-1,1];

38、s43、執(zhí)行動作at,獲得獎勵值rt和新的狀態(tài)st+1;并結合值網(wǎng)絡qω,定義q值函數(shù)qπ(st,at)=e[rt|st,at],對所述動作at進行評價;其中,rt為累積預期回報;

39、s44、結合經(jīng)驗回放機制,在經(jīng)驗回放緩沖區(qū)d中存儲經(jīng)驗元組(st,at,rt,st+1),并隨機抽取n個經(jīng)驗元組(si,ai,ri,si+1);

40、s45、基于經(jīng)驗元組(si,ai,ri,si+1)進行網(wǎng)絡參數(shù)更新;

41、s46、重復上述s42至s45,直至輸出滿足預設條件輸出對應時間下的最大擁塞窗口cwndmax。

42、優(yōu)選的,所述s43中,累積預期回報rt表示為:

43、rt=rt+γ1rt+1+γ2rt+2+…+γnrt+n

44、其中,γ1、γ2……γn為折扣因子,取值范圍為[0,1]。

45、優(yōu)選的,所述s45包括:

46、s451、定義最優(yōu)策略πθ下的預期收益j(θ):

47、

48、采用策略梯度上升策略對策略網(wǎng)絡πθ進行參數(shù)更新,所述預期收益j(θ)的梯度表示為:

49、

50、其中,ηθ為策略網(wǎng)絡的學習率;

51、s452、通過最小化目標q值和當前q值之間的均方誤差對值網(wǎng)絡qω進行參數(shù)更新:

52、

53、

54、其中,n表示數(shù)據(jù)數(shù)量,yi表示目標q值,yi=ri+γqω'(si+1,πθ'(si+1)),πθ'和qω'分別為目標策略網(wǎng)絡和目標值網(wǎng)絡;

55、s453、對目標策略網(wǎng)絡和目標值網(wǎng)絡進行網(wǎng)絡參數(shù)更新:

56、θ′←τθ+(1-τ)θ′

57、ω′←τω+(1-τ)ω′

58、其中,τ為速度控制參數(shù)。

59、優(yōu)選的,所述s5包括:

60、將擁塞窗口的最大值與底層tcp協(xié)議棧計算出來的擁塞窗口值進行比較,選擇兩者中較小的擁塞窗口值反饋至底層tcp協(xié)議棧。

61、第二方面,本發(fā)明提供一種基于ddpg模型的無線傳輸擁塞控制系統(tǒng),包括:

62、監(jiān)控模塊:用于在每個往返時延周期內(nèi),獲取底層tcp協(xié)議棧中的擁塞窗口值和確認數(shù)據(jù)包,生成網(wǎng)絡統(tǒng)計信息;

63、狀態(tài)生成模塊:用于利用卷積矩陣對所述網(wǎng)絡統(tǒng)計信息進行預處理,并結合遞歸結構生成網(wǎng)絡狀態(tài)向量;

64、獎勵生成模塊:用于通過獎勵函數(shù)生成與所述網(wǎng)絡狀態(tài)向量對應的獎勵值;

65、drl智能體模塊:用于基于所述網(wǎng)絡狀態(tài)向量和獎勵值,采用ddpg模型輸出擁塞窗口的最大值;所述ddpg模型包括:策略網(wǎng)絡和值網(wǎng)絡;

66、最大濾波器模塊:用于根據(jù)擁塞窗口的最大值,采用最大濾波器確定擁塞窗口的大小,并反饋至底層tcp協(xié)議棧。

67、經(jīng)由上述的技術方案可知,與現(xiàn)有技術相比,本發(fā)明技術方案存在以下

68、有益效果:

69、1、在每個往返時延(rtt)周期內(nèi)獲取底層tcp協(xié)議棧中的擁塞窗口值和確認數(shù)據(jù)包,能夠及時反映當前網(wǎng)絡狀況。其有助于生成準確的網(wǎng)絡統(tǒng)計信息,這使得系統(tǒng)能夠快速響應網(wǎng)絡變化,確保了對網(wǎng)絡狀態(tài)的精確捕捉,從而提高了擁塞控制的精度。

70、2、卷積操作可以識別出數(shù)據(jù)中的局部依賴關系,而遞歸結構則能有效捕獲時間序列上的長期依賴。這樣的組合不僅增強了模型對于復雜網(wǎng)絡動態(tài)的理解能力,還為后續(xù)的決策過程提供了更加豐富且結構化的輸入,從而提升了整個系統(tǒng)的適應性和魯棒性。

71、3、通過獎勵函數(shù)生成與網(wǎng)絡狀態(tài)向量對應的獎勵值,可以有效地指導ddpg模型的學習過程。智能體首先會將平均時延保持在目標時延以下,獲得更少的懲罰。然后,它將最大限度地提高其吞吐量和收到的數(shù)據(jù)包數(shù)量,獲得更多獎勵。該自適應獎勵機制鼓勵ddpg模型探索最優(yōu)策略,能夠學會在不同網(wǎng)絡條件下采取最合適的擁塞控制措施,實現(xiàn)高效的數(shù)據(jù)傳輸。

72、4、通過對連續(xù)動作空間輸出擁塞窗口的最大值,相比離散的動作選擇,連續(xù)動作空間允許更細微的調(diào)整,其中,策略網(wǎng)絡負責提出動作建議,而值網(wǎng)絡評估這些動作的好壞,兩者協(xié)同工作,確保了擁塞窗口調(diào)整的科學性和有效性。同時,采用目標網(wǎng)絡保證訓練過程的穩(wěn)定;采用經(jīng)驗回放池減輕數(shù)據(jù)之間的強相關性。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
丹阳市| 海安县| 乐都县| 高要市| 雷山县| 汝城县| 淮阳县| 缙云县| 天水市| 湟中县| 延寿县| 靖边县| 浮梁县| 通城县| 尼勒克县| 襄城县| 镇坪县| 广东省| 塔城市| 介休市| 呼伦贝尔市| 岐山县| 新化县| 湘阴县| 定边县| 洛南县| 布拖县| 屏东市| 海丰县| 宁德市| 宜城市| 民勤县| 盐津县| 安泽县| 怀远县| 铅山县| 中西区| 西乌| 镇江市| 潢川县| 卢氏县|