本發(fā)明涉及智能運(yùn)維資源管理,具體涉及一種基于分布強(qiáng)化學(xué)習(xí)的批作業(yè)負(fù)載均衡方法及裝置。
背景技術(shù):
1、云計算具有資源共享、按需訪問、部署靈活的特點(diǎn)。云計算平臺通過互聯(lián)網(wǎng)將可配置計算資源共享池分配給不同用戶,用戶根據(jù)自身的任務(wù)需求提交多樣的服務(wù)請求,快速部署應(yīng)用。負(fù)載均衡調(diào)度將服務(wù)負(fù)載請求進(jìn)行合理分配,對于維持云計算平臺穩(wěn)定性和提高用戶使用體驗起著至關(guān)重要的作用。隨著云計算服務(wù)的廣泛使用,批作業(yè)類型負(fù)載顯著增加,如何有效地調(diào)度批作業(yè)對于保持云計算負(fù)載均衡至關(guān)重要。負(fù)載均衡面臨著來自多層次多方面的挑戰(zhàn)。在用戶服務(wù)請求方面,用戶提交的批處理作業(yè)的運(yùn)行時間從幾秒到幾天不等,到達(dá)時間隨機(jī),資源使用率隨時間的推移有顯著波動。此外,批量作業(yè)是根據(jù)用戶提交并運(yùn)行的不同應(yīng)用程序進(jìn)行組合的,每個作業(yè)包含多個具有不同資源請求的計算任務(wù)。在集群服務(wù)資源方面,由于用戶請求的復(fù)雜性和不可預(yù)測性,集群需要動態(tài)調(diào)整資源以滿足用戶需求。云計算集群由各種不同資源配置的機(jī)器組成,提供包括cpu、內(nèi)存和存儲在內(nèi)的多維資源,在多資源維度達(dá)到負(fù)載均衡是困難的。在用戶服務(wù)質(zhì)量方面,違反服務(wù)水平協(xié)議表示服務(wù)無法得到保證,從而導(dǎo)致不必要的后果。云計算平臺中負(fù)載平衡調(diào)度的目標(biāo)是防止各種違反服務(wù)水平協(xié)議的行為,盡可能提高服務(wù)質(zhì)量,并提高完成用戶請求的成功率。因此,為云計算中的負(fù)載均衡調(diào)度設(shè)計一種自適應(yīng)且高效的解決方案是一項極具挑戰(zhàn)性的任務(wù)。
2、在基于規(guī)則和啟發(fā)式的算法,可以在一定程度上解決問題,但是通常利用系統(tǒng)的先驗知識和專家經(jīng)驗構(gòu)建規(guī)則,針對不同的場景和狀況制定策略。隨著集群規(guī)模的擴(kuò)大和用戶的增長,這種方法只適用于特定場景,無法適應(yīng)具有動態(tài)系統(tǒng)狀態(tài)和用戶需求的云計算環(huán)境。近些年來,為了應(yīng)對基于規(guī)則和啟發(fā)式方法的問題和不足,基于深度強(qiáng)化學(xué)習(xí)的調(diào)度算法已經(jīng)成為解決負(fù)載均衡問題的一種有效方法。但是面對復(fù)雜的批作業(yè)負(fù)載,難以很好地收斂接近最優(yōu)策略。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的在于提供一種基于分布強(qiáng)化學(xué)習(xí)的批作業(yè)負(fù)載均衡方法及裝置,能夠解決現(xiàn)有技術(shù)中面對復(fù)雜的批作業(yè)負(fù)載,難以很好地收斂接近最優(yōu)策略的問題。
2、為達(dá)到以上目的,本發(fā)明采取的技術(shù)方案是:
3、一方面,本發(fā)明提供一種基于分布強(qiáng)化學(xué)習(xí)的批作業(yè)負(fù)載均衡方法,包括以下步驟:
4、將用戶請求以批量作業(yè)的形式按照到達(dá)的時間順序進(jìn)行提交;
5、智能體根據(jù)集群資源信息和當(dāng)前批量作業(yè)的資源請求,執(zhí)行創(chuàng)建并運(yùn)行當(dāng)前作業(yè)最佳虛擬機(jī)的動作,并獲取回報信號;
6、基于選擇虛擬機(jī)的動作,將當(dāng)前集群的負(fù)載信息輸入至分位數(shù)回歸網(wǎng)絡(luò),得到每個動作的價值分布,對每個動作的價值分布分別獲取期望,得到相應(yīng)的目標(biāo)q值,根據(jù)最大的目標(biāo)q值確定智能體下一步選擇的最優(yōu)動作;
7、根據(jù)最優(yōu)動作對應(yīng)的價值分布,結(jié)合回報信號,得到用于訓(xùn)練的目標(biāo)分布,以優(yōu)化分位數(shù)回歸網(wǎng)絡(luò)。
8、在一些可選的方案中,所述的獲取回報信號,包括:
9、基于集群在cpu和內(nèi)存資源維度的平均負(fù)載,設(shè)定服務(wù)水平協(xié)議約束;
10、基于服務(wù)水平協(xié)議約束,判斷動作的有效性,并根據(jù)當(dāng)前集群的資源負(fù)載和集群在cpu和內(nèi)存資源維度的平均負(fù)載,確定回報信號。
11、在一些可選的方案中,所述服務(wù)水平協(xié)議約束為:其中,inscpup為當(dāng)前批量作業(yè)任務(wù)中的第p個實(shí)例cpu資源請求,insmemp為當(dāng)前批量作業(yè)任務(wù)中第p個實(shí)例的內(nèi)存資源請求,為當(dāng)前可用的cpu資源容量,為當(dāng)前可用的內(nèi)存資源容量,p表示當(dāng)前任務(wù)的第p個實(shí)例,p表示當(dāng)前任務(wù)的需創(chuàng)建實(shí)例的總個數(shù)。
12、在一些可選的方案中,基于最小化集群負(fù)載均衡度以及最大化實(shí)例創(chuàng)建成功率,設(shè)計回報信號函數(shù)。
13、在一些可選的方案中,根據(jù)回報信號函數(shù)確定回報信號,其中,lcpui表示當(dāng)前第i個虛擬機(jī)的cpu負(fù)載,lmemi為當(dāng)前第i個虛擬機(jī)的內(nèi)存負(fù)載,lcpuavg為集群在cpu資源維度的平均負(fù)載,lmemavg為集群在內(nèi)存資源維度的平均負(fù)載。
14、在一些可選的方案中,所述最小化集群負(fù)載均衡度為:
15、f1=min(|lcpui-lcpuavg|+|lmemi-lmemavg|);
16、所述最大化實(shí)例創(chuàng)建成功率為:
17、
18、其中,lcpui表示當(dāng)前第i個虛擬機(jī)的cpu負(fù)載,lmemi為當(dāng)前第i個虛擬機(jī)的內(nèi)存負(fù)載,lcpuavg為集群在cpu資源維度的平均負(fù)載,lmemavg為集群在內(nèi)存資源維度的平均負(fù)載,insnumj,o為創(chuàng)建任務(wù)taskj,o時所需的實(shí)例個數(shù),inssuccj,o為創(chuàng)建任務(wù)taskj,o時成功的實(shí)例個數(shù),n為批作業(yè)的數(shù)量,o為作業(yè)jobj中任務(wù)的數(shù)量,j為批作業(yè)序號,o為任務(wù)序號。
19、在一些可選的方案中,根據(jù)公式確定當(dāng)前第i個虛擬機(jī)的cpu負(fù)載lcpui以及當(dāng)前第i個虛擬機(jī)的內(nèi)存負(fù)載lmemi;
20、根據(jù)公式確定集群在cpu資源維度的平均負(fù)載lcpuavg,集群在內(nèi)存資源維度的平均負(fù)載lmemavg;
21、其中,為總的cpu資源容量,為總的內(nèi)存資源容量,m為虛擬機(jī)總數(shù)。
22、在一些可選的方案中,根據(jù)公式確定用于訓(xùn)練的目標(biāo)分布r為回報信號,ztarget為選擇虛擬機(jī)動作的價值分布,γ為折扣因子。
23、在一些可選的方案中,所述的優(yōu)化分位數(shù)回歸網(wǎng)絡(luò)包括:
24、基于分位數(shù)回歸損失函數(shù),根據(jù)用于訓(xùn)練的目標(biāo)分布,得到分位數(shù)回歸網(wǎng)絡(luò)的分位數(shù)回歸損失;
25、根據(jù)分位數(shù)回歸網(wǎng)絡(luò)的分位數(shù)回歸損失,優(yōu)化分位數(shù)回歸網(wǎng)絡(luò)。
26、另一方面,本發(fā)明還提供一種基于分布強(qiáng)化學(xué)習(xí)的批作業(yè)負(fù)載均衡方法,包括:
27、批量作業(yè)到達(dá)模塊,其用于將用戶請求以批量作業(yè)的形式按照到達(dá)的時間順序進(jìn)行提交;
28、深度強(qiáng)化學(xué)習(xí)負(fù)載均衡模塊,其用于使智能體根據(jù)集群資源信息和當(dāng)前批量作業(yè)的資源請求,執(zhí)行創(chuàng)建并運(yùn)行當(dāng)前作業(yè)最佳虛擬機(jī)的動作,并獲取回報信號;基于選擇虛擬機(jī)的動作,將當(dāng)前集群的負(fù)載信息輸入至分位數(shù)回歸網(wǎng)絡(luò),得到每個動作的價值分布,對每個動作的價值分布分別獲取期望,得到相應(yīng)的目標(biāo)q值,根據(jù)最大的目標(biāo)q值確定智能體下一步選擇的最優(yōu)動作;根據(jù)最優(yōu)動作對應(yīng)的價值分布,結(jié)合回報信號,得到用于訓(xùn)練的目標(biāo)分布,以優(yōu)化分位數(shù)回歸網(wǎng)絡(luò)。
29、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:本方案通過智能體根據(jù)集群資源信息和當(dāng)前批量作業(yè)的資源請求,執(zhí)行創(chuàng)建并運(yùn)行當(dāng)前作業(yè)最佳虛擬機(jī)的動作,并獲取回報信號;基于選擇虛擬機(jī)的動作,將當(dāng)前集群的負(fù)載信息輸入至分位數(shù)回歸網(wǎng)絡(luò),得到每個動作的價值分布,對每個動作的價值分布分別獲取期望,得到相應(yīng)的目標(biāo)q值,根據(jù)最大的目標(biāo)q值確定智能體下一步選擇的最優(yōu)動作,可以有效地提高批作業(yè)負(fù)載均衡調(diào)度的性能表現(xiàn),并且根據(jù)最優(yōu)動作對應(yīng)的價值分布,結(jié)合回報信號,得到用于訓(xùn)練的目標(biāo)分布,以優(yōu)化分位數(shù)回歸網(wǎng)絡(luò),可指導(dǎo)智能體下一步選擇時做出最優(yōu)動作,以提高批作業(yè)負(fù)載均衡調(diào)度的性能,更好地收斂接近最優(yōu)策略。