本說(shuō)明書涉及計(jì)算機(jī)及冷卻控制,尤其涉及一種基于安全深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心的冷卻控制方法及裝置。
背景技術(shù):
1、數(shù)據(jù)中心作為現(xiàn)代信息技術(shù)基礎(chǔ)設(shè)施的重要組成部分,隨著云計(jì)算、大數(shù)據(jù)、大模型等新技術(shù)的快速發(fā)展,數(shù)據(jù)中心的規(guī)模和復(fù)雜性不斷提高,數(shù)據(jù)中心服務(wù)器和設(shè)備運(yùn)行時(shí)會(huì)產(chǎn)生大量熱量,若不能及時(shí)散去,將會(huì)產(chǎn)生局部熱點(diǎn),導(dǎo)致服務(wù)器性能下降和設(shè)備壽命縮短,進(jìn)而影響數(shù)據(jù)中心的穩(wěn)定性和安全性。因此,數(shù)據(jù)中心的冷卻問(wèn)題尤為重要。
2、現(xiàn)有技術(shù)中,數(shù)據(jù)中心的冷卻控制,無(wú)法同時(shí)兼顧數(shù)據(jù)中心節(jié)能及熱安全約束,因此,無(wú)法在解決數(shù)據(jù)中心冷卻控制的約束馬爾科夫決策問(wèn)題的同時(shí),確保滿足熱安全約束的同時(shí)優(yōu)化能源效率。因此如何在保證滿足熱安全約束的前提下盡可能提高數(shù)據(jù)中心冷卻控制的效率和安全性是目前需要迫切解決的問(wèn)題之一。
3、基于此,本說(shuō)明書實(shí)施例提供一種基于安全深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心的冷卻控制方法及裝置。
技術(shù)實(shí)現(xiàn)思路
1、本說(shuō)明書實(shí)施例提供一種基于安全深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心的冷卻控制方法及裝置,用于解決以下技術(shù)問(wèn)題:現(xiàn)有技術(shù)中,數(shù)據(jù)中心的冷卻控制,無(wú)法同時(shí)兼顧數(shù)據(jù)中心節(jié)能及熱安全約束,因此,無(wú)法在解決數(shù)據(jù)中心冷卻控制的約束馬爾科夫決策問(wèn)題的同時(shí),確保滿足熱安全約束的同時(shí)優(yōu)化能源效率。因此如何在保證滿足熱安全約束的前提下盡可能提高數(shù)據(jù)中心冷卻控制的效率和安全性是目前需要迫切解決的問(wèn)題之一。
2、為解決上述技術(shù)問(wèn)題,本說(shuō)明書實(shí)施例是這樣實(shí)現(xiàn)的:
3、本說(shuō)明書實(shí)施例提供一種基于安全深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心的冷卻控制方法,包括:
4、將待處理的數(shù)據(jù)中心的冷卻控制問(wèn)題定義為受約束的馬爾科夫決策過(guò)程,所述受約束的馬爾科夫決策過(guò)程的目標(biāo)是:不超過(guò)預(yù)設(shè)的溫度安全閾值的前提下,最小化所述待處理的數(shù)據(jù)中心的總能耗;
5、通過(guò)深度強(qiáng)化學(xué)習(xí)算法解決所述受約束的馬爾科夫決策過(guò)程,以確定最優(yōu)策略參數(shù);
6、基于所述最優(yōu)策略參數(shù),通過(guò)預(yù)設(shè)的狀態(tài)轉(zhuǎn)移模型,確定所述最優(yōu)策略參數(shù)在預(yù)測(cè)控制周期結(jié)束時(shí)的區(qū)域溫度;
7、基于所述最優(yōu)策略參數(shù)在預(yù)測(cè)控制周期結(jié)束時(shí)的區(qū)域溫度,確定所述待處理的數(shù)據(jù)控制中心的控制動(dòng)作。
8、本說(shuō)明書實(shí)施例還提供一種基于安全深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心的冷卻控制裝置,包括:
9、自定義模塊,將待處理的數(shù)據(jù)中心的冷卻控制問(wèn)題定義為受約束的馬爾科夫決策過(guò)程,所述受約束的馬爾科夫決策過(guò)程的目標(biāo)是:不超過(guò)預(yù)設(shè)熱安全上限的前提下,最小化所述待處理的數(shù)據(jù)中心的總能耗;
10、確定模塊,通過(guò)深度強(qiáng)化學(xué)習(xí)算法解決所述受約束的馬爾科夫決策過(guò)程,以確定最優(yōu)策略參數(shù);
11、預(yù)測(cè)模塊,基于所述最優(yōu)策略參數(shù),通過(guò)預(yù)設(shè)的狀態(tài)轉(zhuǎn)移模型,確定所述最優(yōu)策略參數(shù)在預(yù)測(cè)控制周期結(jié)束時(shí)的區(qū)域溫度;
12、糾正模塊,基于所述最優(yōu)策略參數(shù)在預(yù)測(cè)控制周期結(jié)束時(shí)的區(qū)域溫度,確定所述待處理的數(shù)據(jù)中心的控制動(dòng)作。
13、本說(shuō)明書實(shí)施例提供的一種基于安全深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心的冷卻控制方法,通過(guò)結(jié)合模仿學(xué)習(xí)和基于數(shù)據(jù)廳熱力學(xué)原理設(shè)計(jì)的事后修正方法,sarf能夠在追求數(shù)據(jù)中心節(jié)能的同時(shí),避免在學(xué)習(xí)過(guò)程中數(shù)據(jù)中心熱區(qū)違反熱安全約束,能夠在確保數(shù)據(jù)中心熱安全的前提下,有效優(yōu)化冷卻系統(tǒng)的能耗效率。
1.一種基于安全深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心的冷卻控制方法,其特征在于,所述冷卻控制方法包括:
2.如權(quán)利要求1所述的冷卻控制方法,其特征在于,所述受約束的馬爾科夫決策過(guò)程具體為:
3.如權(quán)利要求1所述的冷卻控制方法,其特征在于,所述深度強(qiáng)化學(xué)習(xí)算法為ddpg算法,所述通過(guò)深度強(qiáng)化學(xué)習(xí)算法解決所述受約束的馬爾科夫決策過(guò)程,以確定最優(yōu)策略參數(shù),具體包括:
4.如權(quán)利要求3所述的冷卻控制方法,其特征在于,所述預(yù)訓(xùn)練的ddpg模型包括演員網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò),其中,所述演員網(wǎng)絡(luò)用于根據(jù)所述待處理的數(shù)據(jù)中心的當(dāng)前狀態(tài)輸出控制動(dòng)作,所述評(píng)論家網(wǎng)絡(luò)用于評(píng)估所述演員網(wǎng)絡(luò)輸出的控制動(dòng)作的價(jià)值,所述待處理的數(shù)據(jù)中心的當(dāng)前狀態(tài):包括所述待處理的數(shù)據(jù)中心的it功耗、冷卻功耗、冷通道溫度、區(qū)域溫度、室外空氣溫度。
5.如權(quán)利要求1所述的冷卻控制方法,其特征在于,所述預(yù)設(shè)的狀態(tài)轉(zhuǎn)移模型為基于物理定律的狀態(tài)轉(zhuǎn)移模型,所述預(yù)設(shè)的狀態(tài)轉(zhuǎn)移模型用于確定所述最優(yōu)策略參數(shù)在預(yù)測(cè)控制周期結(jié)束時(shí)的區(qū)域溫度,所述預(yù)設(shè)的狀態(tài)轉(zhuǎn)移模型包括:穩(wěn)態(tài)狀態(tài)轉(zhuǎn)移模型、和/或瞬態(tài)狀態(tài)轉(zhuǎn)移模型、和\或整合預(yù)測(cè)的it功率軌跡模型。
6.如權(quán)利要求1所述的冷卻控制方法,其特征在于,所述基于所述最優(yōu)策略參數(shù)在預(yù)測(cè)控制周期結(jié)束時(shí)的區(qū)域溫度,確定所述待處理的數(shù)據(jù)中心的控制動(dòng)作,具體包括:
7.如權(quán)利要求1所述的冷卻控制方法,其特征在于,所述預(yù)設(shè)的狀態(tài)轉(zhuǎn)移模型為穩(wěn)態(tài)狀態(tài)轉(zhuǎn)移模型,所述穩(wěn)態(tài)狀態(tài)轉(zhuǎn)移模型為:
8.如權(quán)利要求1所述的冷卻控制方法,其特征在于,所述預(yù)設(shè)的狀態(tài)轉(zhuǎn)移模型為瞬態(tài)狀態(tài)轉(zhuǎn)移模型,所述瞬態(tài)轉(zhuǎn)移模型以當(dāng)前區(qū)域溫度作為初始條件,計(jì)算控制周期內(nèi)的溫度變化:
9.如權(quán)利要求1所述的冷卻控制方法,其特征在于,所述預(yù)設(shè)的狀態(tài)轉(zhuǎn)移模型為整合預(yù)測(cè)的it功率軌跡模型;
10.一種基于安全深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心的冷卻控制裝置,其特征在于,所述冷卻控制裝置包括: