一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法

文檔序號(hào)：7835596閱讀：1587來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種網(wǎng)絡(luò)流量負(fù)載均衡技術(shù)領(lǐng)域，具體是指提供ー種基于強(qiáng)化學(xué)習(xí)的智能網(wǎng)絡(luò)流量負(fù)載均衡控制方法。
背景技術(shù)：
隨著網(wǎng)絡(luò)的快速發(fā)展，各種網(wǎng)絡(luò)應(yīng)用層出不窮，與此對(duì)應(yīng)的網(wǎng)絡(luò)上的流量也日益增多。根據(jù)權(quán)威調(diào)查，網(wǎng)絡(luò)服務(wù)質(zhì)量Oios =Quality of Service)特別是網(wǎng)絡(luò)的反應(yīng)時(shí)間是影響用戶體驗(yàn)的主要因素，因此對(duì)網(wǎng)絡(luò)進(jìn)行合理的設(shè)計(jì)、保證網(wǎng)絡(luò)的服務(wù)質(zhì)量是每位網(wǎng)絡(luò)工程師需要考慮的問題。保證網(wǎng)絡(luò)的服務(wù)質(zhì)量有多種解決途徑，本發(fā)明提出一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡算法，數(shù)據(jù)包通過強(qiáng)化學(xué)習(xí)算法，能根據(jù)鏈路的網(wǎng)絡(luò)流量狀況選擇合適的轉(zhuǎn)發(fā)路徑，避開業(yè)務(wù)繁忙的鏈路，實(shí)現(xiàn)網(wǎng)絡(luò)的負(fù)載均衡。傳統(tǒng)的路由算法有RIP、0SPF和EIGRP等算法。RIP算法為距離矢量路由協(xié)議，它使用路由跳數(shù)來衡量網(wǎng)絡(luò)距離，是最常用的內(nèi)部網(wǎng)關(guān)協(xié)議之一。RIP算法過于簡(jiǎn)單、安全性差且?guī)捪拇?，所以不適合大型網(wǎng)絡(luò)；OSPF算法為鏈路狀態(tài)路由協(xié)議，相對(duì)于RIP算法，具有收斂快、協(xié)議開銷小、安全性高和適應(yīng)廣等優(yōu)點(diǎn)，但其配置復(fù)雜，路由負(fù)載均衡能力較弱；EIGRP算法為增強(qiáng)網(wǎng)關(guān)內(nèi)部路由協(xié)議，擁有眾多的優(yōu)點(diǎn)，但其屬于Cisco公司的私有協(xié)議。Cisco公司是該協(xié)議的發(fā)明者和唯一具備該協(xié)議解釋和修改權(quán)的廠商，如果設(shè)備要支持 EIGRP協(xié)議則需向Cisco公司購(gòu)買相應(yīng)版權(quán)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供ー種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法，該方法通過數(shù)據(jù)包(Agent)與網(wǎng)絡(luò)環(huán)境不斷的交互學(xué)習(xí)，實(shí)現(xiàn)網(wǎng)絡(luò)流量負(fù)載均衡的最優(yōu)或近似最優(yōu)控制。數(shù)據(jù)包動(dòng)態(tài)地根據(jù)鏈路的流量狀況，避免將數(shù)據(jù)包發(fā)往負(fù)荷重的鏈路，盡量選擇負(fù)載輕的鏈路，實(shí)現(xiàn)數(shù)據(jù)包的智能轉(zhuǎn)發(fā)，最終達(dá)到網(wǎng)絡(luò)流量負(fù)載均衡的目的。本發(fā)明的目的可通過以下的技術(shù)措施來實(shí)現(xiàn)ー種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法，包括以下步驟1)、數(shù)據(jù)包處在路由器節(jié)點(diǎn)ピ吋，根據(jù)當(dāng)前數(shù)據(jù)包的狀態(tài)量s和策略η從下ー跳的動(dòng)作集合選擇回報(bào)值最大的動(dòng)作ち，并將數(shù)據(jù)包發(fā)送到動(dòng)作ち對(duì)應(yīng)的路由器；2)、當(dāng)前數(shù)據(jù)包被路由以后，根據(jù)該數(shù)據(jù)包的實(shí)際情況修改該數(shù)據(jù)包的狀態(tài)量s; 并更新當(dāng)前數(shù)據(jù)包的下一跳的動(dòng)作集合；所述狀態(tài)量s包括路由距離Xi和流量均衡量yi ；所述路由距離Xi是指選擇鏈路i后，下一跳地址距離目的地址的最短矢量距離；流量均衡量Yi是指鏈路i上的當(dāng)前流量占鏈路飽和流量的比例；3)、根據(jù)數(shù)據(jù)包的路由距離、流量均衡量給與數(shù)據(jù)包的獎(jiǎng)懲值r ；4)、數(shù)據(jù)包根據(jù)獎(jiǎng)懲值r更新自身的策略π ；5)、回到步驟1)，重復(fù)步驟1)到步驟4)，直到當(dāng)前數(shù)據(jù)包達(dá)到最終目的地址。所述步驟1)中的策略π為近貪婪(印silon greedy)策略或百分比(softmax)策略。所述近貪婪策略是指以1- ε的概率選擇最大回報(bào)值的鏈路arg maxaQn (s, a)，以ε的概率隨機(jī)選擇鏈路，公式為
權(quán)利要求
1.ー種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法，其特征在于包括以下步驟1)、數(shù)據(jù)包處在路由器節(jié)點(diǎn)ピ吋，根據(jù)當(dāng)前數(shù)據(jù)包的狀態(tài)量S和策略π從下ー跳的動(dòng)作集合選擇回報(bào)值最大的動(dòng)作ち，并將數(shù)據(jù)包發(fā)送到動(dòng)作ち對(duì)應(yīng)的路由器；2)、當(dāng)前數(shù)據(jù)包被路由以后，根據(jù)該數(shù)據(jù)包的實(shí)際情況修改該數(shù)據(jù)包的狀態(tài)量s；并更新當(dāng)前數(shù)據(jù)包的下一跳的動(dòng)作集合；所述狀態(tài)量s包括路由距離Xi和流量均衡量yi ；所述路由距離Xi是指選擇鏈路i后，下一跳地址距離目的地址的最短矢量距離；流量均衡量Yi 是指鏈路i上的當(dāng)前流量占鏈路飽和流量的比例；3)、根據(jù)數(shù)據(jù)包的路由距離、流量均衡量給與數(shù)據(jù)包的獎(jiǎng)懲值r；4)、數(shù)據(jù)包根據(jù)獎(jiǎng)懲值r更新自身的策略π；5)、回到步驟1)，重復(fù)步驟1)到步驟4)，直到當(dāng)前數(shù)據(jù)包達(dá)到最終目的地址。
2.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法，其特征在于所述步驟1)中的策略η為近貪婪策略或百分比策略。
3.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法，其特征在于所述近貪婪策略是指以1-ε的概率選擇最大回報(bào)值的鏈路arg maXa(T (s，a)，以ε的概率隨機(jī)選擇鏈路，公式為
4.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法，其特征在于百分比策略是指將各鏈路的好壞映射成相應(yīng)的跳轉(zhuǎn)動(dòng)作選擇概率，公式為
5.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法，其特征在于所述步驟3)中獎(jiǎng)懲值r計(jì)算公式為
6.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法，其特征在于所述步驟4)中更新策略π的公式為
全文摘要
本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法，包括以下步驟1)數(shù)據(jù)包處在路由器節(jié)點(diǎn)R*時(shí)，根據(jù)當(dāng)前數(shù)據(jù)包的狀態(tài)量s和策略π從下一跳的動(dòng)作集合選擇回報(bào)值最大的動(dòng)作ai；2)當(dāng)前數(shù)據(jù)包被路由以后，根據(jù)該數(shù)據(jù)包的實(shí)際情況修改該數(shù)據(jù)包的狀態(tài)量s；并更新當(dāng)前數(shù)據(jù)包的下一跳的動(dòng)作集合；3)根據(jù)當(dāng)前網(wǎng)絡(luò)流量均衡狀態(tài)修改當(dāng)前數(shù)據(jù)包的獎(jiǎng)懲值r；4)根據(jù)獎(jiǎng)懲值更新策略π；重復(fù)步驟1)到步驟4)，直到當(dāng)前數(shù)據(jù)包達(dá)到最終目的地址。該方法通過智能體與網(wǎng)絡(luò)環(huán)境不斷的交互學(xué)習(xí)，實(shí)現(xiàn)網(wǎng)絡(luò)流量負(fù)載均衡的最優(yōu)或近似最優(yōu)控制。
文檔編號(hào)H04L12/56GK102571570SQ20111044751
公開日2012年7月11日申請(qǐng)日期2011年12月27日優(yōu)先權(quán)日2011年12月27日
發(fā)明者周強(qiáng)峰, 梁志宏, 梁智強(qiáng), 梁毅成, 江澤鑫, 石煒君, 胡朝輝申請(qǐng)人:廣東電網(wǎng)公司電力科學(xué)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡朝輝;梁智強(qiáng);梁志宏;周強(qiáng)峰;江澤鑫;石煒君;梁毅成
技術(shù)所有人：廣東電網(wǎng)公司電力科學(xué)研究院
我是此專利的發(fā)明人

上一篇：一種應(yīng)用于時(shí)延容忍網(wǎng)絡(luò)的多層次有效路由方法
上一篇：一種手機(jī)切換定位的道路匹配方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法