一種基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法

文檔序號(hào)：40641954發(fā)布日期：2025-01-10 18:48閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及人工智能與復(fù)雜網(wǎng)絡(luò)交叉領(lǐng)域，具體而言，涉及一種基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法。

背景技術(shù)：

1、服務(wù)網(wǎng)絡(luò)的資源調(diào)配問(wèn)題可以被建模為具有固定拓?fù)浣Y(jié)構(gòu)的帶約束條件最短路徑尋優(yōu)問(wèn)題。傳統(tǒng)對(duì)于處理多目標(biāo)個(gè)體最短路徑尋優(yōu)中出現(xiàn)各類約束與信息交互的問(wèn)題并不占優(yōu)勢(shì)，求解繁瑣，甚至大部分情況下無(wú)法求出納什均衡解。基于深度強(qiáng)化學(xué)習(xí)的方法在服務(wù)網(wǎng)絡(luò)環(huán)境下服務(wù)資源調(diào)配問(wèn)題的研究中取得了一定的效果，但是對(duì)于大規(guī)模服務(wù)資源的調(diào)度問(wèn)題，問(wèn)題復(fù)雜決策難度大，其在搜索最優(yōu)決策的時(shí)候，存在動(dòng)作搜索空間大的問(wèn)題和挑戰(zhàn)。分層強(qiáng)化學(xué)習(xí)用于解決在動(dòng)作空間中搜索最優(yōu)動(dòng)作的問(wèn)題。分層強(qiáng)化學(xué)習(xí)被設(shè)計(jì)成一個(gè)多層次的決策框架，將決策過(guò)程分為高層決策和低層決策。高級(jí)決策提供子目標(biāo)來(lái)指導(dǎo)這個(gè)結(jié)構(gòu)中的低級(jí)操作。高層子目標(biāo)顯著降低了行動(dòng)空間的復(fù)雜性，從而提高了決策過(guò)程的效率；然而，分層強(qiáng)化學(xué)習(xí)很少應(yīng)用于資源調(diào)度問(wèn)題，特別是在復(fù)雜服務(wù)網(wǎng)絡(luò)中大量的資源調(diào)度任務(wù)中。在這些復(fù)雜的服務(wù)網(wǎng)絡(luò)中，由于計(jì)算負(fù)載開(kāi)銷(xiāo)增加和分層強(qiáng)化學(xué)習(xí)方法的可擴(kuò)展性有限，在涉及大規(guī)模資源包的調(diào)度任務(wù)中仍然是一個(gè)需要解決的難點(diǎn)問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例的目的在于提供一種基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法，用以解決了現(xiàn)有技術(shù)存在的上述問(wèn)題，可減少服務(wù)器資源調(diào)度過(guò)程中的計(jì)算量，提高計(jì)算精度。

2、本申請(qǐng)?zhí)峁┝艘环N基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法，該方法可以包括：

3、基于配置的多個(gè)時(shí)間節(jié)點(diǎn)，獲取任一時(shí)間節(jié)點(diǎn)處待處理的多個(gè)服務(wù)資源包對(duì)應(yīng)的初始狀態(tài)向量；

4、針對(duì)任一服務(wù)資源包，采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的編碼器模塊，對(duì)該服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理，得到教師策略表征向量；

5、采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中策略網(wǎng)絡(luò)模塊配置的策略擬合函數(shù)，對(duì)教師策略表征向量進(jìn)行處理，確定該服務(wù)資源包在該時(shí)間節(jié)點(diǎn)的目標(biāo)策略表征向量。

6、在一種可能的實(shí)現(xiàn)中，所述編碼器模塊包括：學(xué)生編碼器和教師編碼器；

7、所述學(xué)生編碼器包括學(xué)生局部關(guān)注子模塊；所述教師編碼器包括教師局部關(guān)注子模塊。

8、在一種可能的實(shí)現(xiàn)中，采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的編碼器模塊，對(duì)該服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理，得到教師策略表征向量，包括：

9、采用所述學(xué)生局部關(guān)注子模塊，對(duì)所述服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理，得到所述服務(wù)資源包在該時(shí)間節(jié)點(diǎn)的特征感知注意權(quán)值；

10、對(duì)所述特征感知注意權(quán)值和所述初始狀態(tài)向量進(jìn)行處理，得到所述學(xué)生編碼器輸出的學(xué)生策略表征向量；

11、采用所述教師局部關(guān)注子模塊，對(duì)所述學(xué)生策略表征向量和所述初始狀態(tài)向量進(jìn)行處理，得到所述服務(wù)資源包在該時(shí)間節(jié)點(diǎn)的注意權(quán)重矩陣；

12、對(duì)所述注意權(quán)重矩陣和所述初始狀態(tài)向量進(jìn)行處理，得到所述教師編碼器輸出的教師策略表征向量。

13、在一種可能的實(shí)現(xiàn)中，所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)還包括自蒸餾模塊；

14、確定所述教師編碼器輸出的教師策略表征向量之后，所述方法還包括：

15、通過(guò)所述自蒸餾模塊中配置的自蒸餾損失函數(shù)，對(duì)所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化，得到優(yōu)化后的網(wǎng)絡(luò)參數(shù)。

16、在一種可能的實(shí)現(xiàn)中，所述自蒸餾損失函數(shù)為：

17、

18、其中，lsd(·)為自蒸餾損失函數(shù)，m為時(shí)間節(jié)點(diǎn)t的服務(wù)資源包的數(shù)量，qtea(·)和qstu(·)分別為策略擬合函數(shù)和學(xué)生策略擬合函數(shù)、和分別為教師策略表征向量和學(xué)生策略表征向量，θsd為自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。

19、在一種可能的實(shí)現(xiàn)中，所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程包括經(jīng)驗(yàn)存儲(chǔ)階段和訓(xùn)練階段。

20、在一種可能的實(shí)現(xiàn)中，在所述經(jīng)驗(yàn)存儲(chǔ)階段過(guò)程中，收集每個(gè)時(shí)間節(jié)點(diǎn)的經(jīng)驗(yàn)元胞數(shù)據(jù)集；所述經(jīng)驗(yàn)元胞數(shù)據(jù)集包括：任一服務(wù)資源包在每個(gè)時(shí)間節(jié)點(diǎn)的初始狀態(tài)向量、目標(biāo)策略表征向量、獎(jiǎng)勵(lì)向量、動(dòng)態(tài)鄰居節(jié)點(diǎn)和運(yùn)輸狀態(tài)。

21、在一種可能的實(shí)現(xiàn)中，在所述訓(xùn)練階段過(guò)程中，通過(guò)配置的最終損失函數(shù)，對(duì)所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)和編碼器參數(shù)進(jìn)行優(yōu)化，得到優(yōu)化后的網(wǎng)絡(luò)參數(shù)和編碼器參數(shù)。

22、在一種可能的實(shí)現(xiàn)中，所述最終損失函數(shù)為：

23、

24、其中，為最終損失函數(shù)，qtea(·)和qstu(·)分別為策略擬合函數(shù)和學(xué)生策略擬合函數(shù)，t為時(shí)間節(jié)點(diǎn)，θq為qtea(·)和qstu(·)的參數(shù)，θsd為自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)，和為兩個(gè)歸一化超參數(shù)，為服務(wù)資源包在時(shí)間節(jié)點(diǎn)t的初始狀態(tài)向量為期望函數(shù)，lsd(·)為自蒸餾損失函數(shù)，和分別為目標(biāo)價(jià)值和學(xué)生目標(biāo)價(jià)值。

25、本申請(qǐng)?zhí)峁┮环N基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法，該方法包括：基于配置的時(shí)間節(jié)點(diǎn)，獲取任一時(shí)間節(jié)點(diǎn)待處理的多個(gè)服務(wù)資源包對(duì)應(yīng)的初始狀態(tài)向量；針對(duì)任一服務(wù)資源包，采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的編碼器模塊，對(duì)該服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理，得到教師策略表征向量；采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中策略網(wǎng)絡(luò)模塊配置的策略擬合函數(shù)，對(duì)教師策略表征向量進(jìn)行處理，確定該服務(wù)資源包在該時(shí)間節(jié)點(diǎn)的目標(biāo)策略表征向量；本申請(qǐng)通過(guò)自蒸餾技術(shù)，提高自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的性能，減少計(jì)算量，從而提高調(diào)度決策的有效性。

技術(shù)特征：

1.一種基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法，其特征在于，所述方法包括：

2.如權(quán)利要求1所述的方法，其特征在于，所述編碼器模塊包括：學(xué)生編碼器和教師編碼器；

3.如權(quán)利要求2所述的方法，其特征在于，采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的編碼器模塊，對(duì)該服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理，得到教師策略表征向量，包括：

4.如權(quán)利要求3所述的方法，其特征在于，所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)還包括自蒸餾模塊；

5.如權(quán)利要求4所述的方法，其特征在于，所述自蒸餾損失函數(shù)為：

6.如權(quán)利要求1所述的方法，其特征在于，所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程包括經(jīng)驗(yàn)存儲(chǔ)階段和訓(xùn)練階段。

7.如權(quán)利要求6所述的方法，其特征在于，在所述經(jīng)驗(yàn)存儲(chǔ)階段過(guò)程中，收集每個(gè)時(shí)間節(jié)點(diǎn)的經(jīng)驗(yàn)元胞數(shù)據(jù)集；所述經(jīng)驗(yàn)元胞數(shù)據(jù)集包括：任一服務(wù)資源包在每個(gè)時(shí)間節(jié)點(diǎn)的初始狀態(tài)向量、目標(biāo)策略表征向量、獎(jiǎng)勵(lì)向量、動(dòng)態(tài)鄰居節(jié)點(diǎn)和運(yùn)輸狀態(tài)。

8.如權(quán)利要求7所述的方法，其特征在于，在所述訓(xùn)練階段過(guò)程中，通過(guò)配置的最終損失函數(shù)，對(duì)所述自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)和編碼器參數(shù)進(jìn)行優(yōu)化，得到優(yōu)化后的網(wǎng)絡(luò)參數(shù)和編碼器參數(shù)。

9.如權(quán)利要求8所述的方法，其特征在于，所述最終損失函數(shù)為：

技術(shù)總結(jié)
本申請(qǐng)?zhí)峁┮环N基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法，涉及人工智能與復(fù)雜網(wǎng)絡(luò)交叉領(lǐng)域，該方法包括：基于配置的多個(gè)時(shí)間節(jié)點(diǎn)，獲取任一時(shí)間節(jié)點(diǎn)處待處理的多個(gè)服務(wù)資源包對(duì)應(yīng)的初始狀態(tài)向量；采用自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的編碼器模塊，對(duì)該服務(wù)資源包的初始狀態(tài)向量進(jìn)行處理，得到該服務(wù)資源包在該時(shí)間節(jié)點(diǎn)的教師策略表征向量；利用策略網(wǎng)絡(luò)模塊，對(duì)教師策略表征向量進(jìn)行處理，確定該服務(wù)資源包在該時(shí)間節(jié)點(diǎn)的目標(biāo)策略表征向量；本申請(qǐng)通過(guò)自蒸餾技術(shù)提高自蒸餾分層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的性能，減少計(jì)算量，提高調(diào)度決策的有效性。

技術(shù)研發(fā)人員：高慶,張可昕,呂金虎,王薇,周方
受保護(hù)的技術(shù)使用者：北京航空航天大學(xué)杭州創(chuàng)新研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高慶,張可昕,呂金虎,王薇,周方
技術(shù)所有人：北京航空航天大學(xué)杭州創(chuàng)新研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于自蒸餾分層強(qiáng)化學(xué)習(xí)的服務(wù)資源調(diào)度方法