專利名稱:一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)絡(luò)流量負(fù)載均衡技術(shù)領(lǐng)域,具體是指提供ー種基于強(qiáng)化學(xué)習(xí)的智能網(wǎng)絡(luò)流量負(fù)載均衡控制方法。
背景技術(shù):
隨著網(wǎng)絡(luò)的快速發(fā)展,各種網(wǎng)絡(luò)應(yīng)用層出不窮,與此對(duì)應(yīng)的網(wǎng)絡(luò)上的流量也日益增多。根據(jù)權(quán)威調(diào)查,網(wǎng)絡(luò)服務(wù)質(zhì)量Oios =Quality of Service)特別是網(wǎng)絡(luò)的反應(yīng)時(shí)間是影響用戶體驗(yàn)的主要因素,因此對(duì)網(wǎng)絡(luò)進(jìn)行合理的設(shè)計(jì)、保證網(wǎng)絡(luò)的服務(wù)質(zhì)量是每位網(wǎng)絡(luò)工程師需要考慮的問題。保證網(wǎng)絡(luò)的服務(wù)質(zhì)量有多種解決途徑,本發(fā)明提出一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡算法,數(shù)據(jù)包通過強(qiáng)化學(xué)習(xí)算法,能根據(jù)鏈路的網(wǎng)絡(luò)流量狀況選擇合適的轉(zhuǎn)發(fā)路徑,避開業(yè)務(wù)繁忙的鏈路,實(shí)現(xiàn)網(wǎng)絡(luò)的負(fù)載均衡。傳統(tǒng)的路由算法有RIP、0SPF和EIGRP等算法。RIP算法為距離矢量路由協(xié)議,它使用路由跳數(shù)來衡量網(wǎng)絡(luò)距離,是最常用的內(nèi)部網(wǎng)關(guān)協(xié)議之一。RIP算法過于簡(jiǎn)單、安全性差且?guī)捪拇?,所以不適合大型網(wǎng)絡(luò);OSPF算法為鏈路狀態(tài)路由協(xié)議,相對(duì)于RIP算法, 具有收斂快、協(xié)議開銷小、安全性高和適應(yīng)廣等優(yōu)點(diǎn),但其配置復(fù)雜,路由負(fù)載均衡能力較弱;EIGRP算法為增強(qiáng)網(wǎng)關(guān)內(nèi)部路由協(xié)議,擁有眾多的優(yōu)點(diǎn),但其屬于Cisco公司的私有協(xié)議。Cisco公司是該協(xié)議的發(fā)明者和唯一具備該協(xié)議解釋和修改權(quán)的廠商,如果設(shè)備要支持 EIGRP協(xié)議則需向Cisco公司購(gòu)買相應(yīng)版權(quán)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供ー種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法,該方法通過數(shù)據(jù)包(Agent)與網(wǎng)絡(luò)環(huán)境不斷的交互學(xué)習(xí),實(shí)現(xiàn)網(wǎng)絡(luò)流量負(fù)載均衡的最優(yōu)或近似最優(yōu)控制。數(shù)據(jù)包動(dòng)態(tài)地根據(jù)鏈路的流量狀況,避免將數(shù)據(jù)包發(fā)往負(fù)荷重的鏈路,盡量選擇負(fù)載輕的鏈路,實(shí)現(xiàn)數(shù)據(jù)包的智能轉(zhuǎn)發(fā),最終達(dá)到網(wǎng)絡(luò)流量負(fù)載均衡的目的。本發(fā)明的目的可通過以下的技術(shù)措施來實(shí)現(xiàn)ー種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法,包括以下步驟1)、數(shù)據(jù)包處在路由器節(jié)點(diǎn)ピ吋,根據(jù)當(dāng)前數(shù)據(jù)包的狀態(tài)量s和策略η從下ー跳的動(dòng)作集合選擇回報(bào)值最大的動(dòng)作ち,并將數(shù)據(jù)包發(fā)送到動(dòng)作ち對(duì)應(yīng)的路由器;2)、當(dāng)前數(shù)據(jù)包被路由以后,根據(jù)該數(shù)據(jù)包的實(shí)際情況修改該數(shù)據(jù)包的狀態(tài)量s; 并更新當(dāng)前數(shù)據(jù)包的下一跳的動(dòng)作集合;所述狀態(tài)量s包括路由距離Xi和流量均衡量yi ; 所述路由距離Xi是指選擇鏈路i后,下一跳地址距離目的地址的最短矢量距離;流量均衡量Yi是指鏈路i上的當(dāng)前流量占鏈路飽和流量的比例;3)、根據(jù)數(shù)據(jù)包的路由距離、流量均衡量給與數(shù)據(jù)包的獎(jiǎng)懲值r ;4)、數(shù)據(jù)包根據(jù)獎(jiǎng)懲值r更新自身的策略π ;5)、回到步驟1),重復(fù)步驟1)到步驟4),直到當(dāng)前數(shù)據(jù)包達(dá)到最終目的地址。所述步驟1)中的策略π為近貪婪(印silon greedy)策略或百分比(softmax)策略。所述近貪婪策略是指以1- ε的概率選擇最大回報(bào)值的鏈路arg maxaQn (s, a), 以ε的概率隨機(jī)選擇鏈路,公式為
權(quán)利要求
1.ー種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法,其特征在于包括以下步驟1)、數(shù)據(jù)包處在路由器節(jié)點(diǎn)ピ吋,根據(jù)當(dāng)前數(shù)據(jù)包的狀態(tài)量S和策略π從下ー跳的動(dòng)作集合選擇回報(bào)值最大的動(dòng)作ち,并將數(shù)據(jù)包發(fā)送到動(dòng)作ち對(duì)應(yīng)的路由器;2)、當(dāng)前數(shù)據(jù)包被路由以后,根據(jù)該數(shù)據(jù)包的實(shí)際情況修改該數(shù)據(jù)包的狀態(tài)量s;并更新當(dāng)前數(shù)據(jù)包的下一跳的動(dòng)作集合;所述狀態(tài)量s包括路由距離Xi和流量均衡量yi ;所述路由距離Xi是指選擇鏈路i后,下一跳地址距離目的地址的最短矢量距離;流量均衡量Yi 是指鏈路i上的當(dāng)前流量占鏈路飽和流量的比例;3)、根據(jù)數(shù)據(jù)包的路由距離、流量均衡量給與數(shù)據(jù)包的獎(jiǎng)懲值r;4)、數(shù)據(jù)包根據(jù)獎(jiǎng)懲值r更新自身的策略π;5)、回到步驟1),重復(fù)步驟1)到步驟4),直到當(dāng)前數(shù)據(jù)包達(dá)到最終目的地址。
2.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法,其特征在于 所述步驟1)中的策略η為近貪婪策略或百分比策略。
3.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法,其特征在于 所述近貪婪策略是指以1-ε的概率選擇最大回報(bào)值的鏈路arg maXa(T (s,a),以ε的概率隨機(jī)選擇鏈路,公式為
4.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法,其特征在于 百分比策略是指將各鏈路的好壞映射成相應(yīng)的跳轉(zhuǎn)動(dòng)作選擇概率,公式為
5.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法,其特征在于 所述步驟3)中獎(jiǎng)懲值r計(jì)算公式為
6.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法,其特征在于 所述步驟4)中更新策略π的公式為
全文摘要
本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)流量負(fù)載均衡控制方法,包括以下步驟1)數(shù)據(jù)包處在路由器節(jié)點(diǎn)R*時(shí),根據(jù)當(dāng)前數(shù)據(jù)包的狀態(tài)量s和策略π從下一跳的動(dòng)作集合選擇回報(bào)值最大的動(dòng)作ai;2)當(dāng)前數(shù)據(jù)包被路由以后,根據(jù)該數(shù)據(jù)包的實(shí)際情況修改該數(shù)據(jù)包的狀態(tài)量s;并更新當(dāng)前數(shù)據(jù)包的下一跳的動(dòng)作集合;3)根據(jù)當(dāng)前網(wǎng)絡(luò)流量均衡狀態(tài)修改當(dāng)前數(shù)據(jù)包的獎(jiǎng)懲值r;4)根據(jù)獎(jiǎng)懲值更新策略π;重復(fù)步驟1)到步驟4),直到當(dāng)前數(shù)據(jù)包達(dá)到最終目的地址。該方法通過智能體與網(wǎng)絡(luò)環(huán)境不斷的交互學(xué)習(xí),實(shí)現(xiàn)網(wǎng)絡(luò)流量負(fù)載均衡的最優(yōu)或近似最優(yōu)控制。
文檔編號(hào)H04L12/56GK102571570SQ20111044751
公開日2012年7月11日 申請(qǐng)日期2011年12月27日 優(yōu)先權(quán)日2011年12月27日
發(fā)明者周強(qiáng)峰, 梁志宏, 梁智強(qiáng), 梁毅成, 江澤鑫, 石煒君, 胡朝輝 申請(qǐng)人:廣東電網(wǎng)公司電力科學(xué)研究院