1.一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用的能耗管理方法,其特征在于包括以下步驟:
A)監(jiān)控步驟:對(duì)高性能計(jì)算作業(yè)的運(yùn)行行為進(jìn)行監(jiān)控;
B)標(biāo)識(shí)步驟:根據(jù)監(jiān)控步驟獲得的監(jiān)控指標(biāo)和知識(shí)庫(kù)中的標(biāo)簽標(biāo)識(shí)規(guī)則,對(duì)作業(yè)當(dāng)前周期運(yùn)行行為進(jìn)行標(biāo)簽標(biāo)識(shí);
C)調(diào)節(jié)步驟:當(dāng)標(biāo)識(shí)作業(yè)運(yùn)行行為的標(biāo)簽發(fā)生變化時(shí),根據(jù)標(biāo)簽對(duì)應(yīng)的調(diào)節(jié)規(guī)則對(duì)系統(tǒng)組件的功耗狀態(tài)進(jìn)行調(diào)整;
D)預(yù)測(cè)步驟:根據(jù)知識(shí)庫(kù)中作業(yè)的行為序列和當(dāng)前作業(yè)運(yùn)行行為,來(lái)預(yù)測(cè)作業(yè)在下一階段的運(yùn)行行為;
E)反饋步驟:根據(jù)調(diào)整后作業(yè)運(yùn)行情況,優(yōu)化標(biāo)簽對(duì)應(yīng)的調(diào)節(jié)規(guī)則。
2.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用的能耗管理方法,其特征在于,作業(yè)在運(yùn)行過(guò)程中,每個(gè)監(jiān)控周期作業(yè)的運(yùn)行行為用相應(yīng)的標(biāo)簽標(biāo)識(shí),連續(xù)被相同標(biāo)簽標(biāo)識(shí)的周期被合并成一個(gè)階段,即一個(gè)階段包括一個(gè)或多個(gè)監(jiān)控周期。
3.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用的能耗管理方法,其特征在于,在該方法中標(biāo)簽包括計(jì)算密集型,內(nèi)存密集型,I/O密集型,網(wǎng)絡(luò)密集型,混合型,全高型,空閑型。
4.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在于,系統(tǒng)組件包括CPU,內(nèi)存,硬盤(pán),網(wǎng)卡,這四部分是整個(gè)節(jié)點(diǎn)能耗消耗的主要部分,而且硬件廠(chǎng)商也提供了相應(yīng)的功耗管理接口,當(dāng)組件利用率比較低時(shí),通過(guò)調(diào)節(jié)各個(gè)系統(tǒng)組件的功耗狀態(tài)達(dá)到節(jié)能目的。
5.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在于,該方法包括一個(gè)知識(shí)庫(kù),知識(shí)庫(kù)具有三個(gè)部分:
5.1)標(biāo)識(shí)規(guī)則:包含組件利用狀態(tài)度量表和標(biāo)簽標(biāo)識(shí)規(guī)則表,組件利用狀態(tài)度量表記錄系統(tǒng)組件名,對(duì)應(yīng)組件的評(píng)價(jià)指標(biāo),該指標(biāo)的最大值、最小值,以及標(biāo)識(shí)組件使用狀態(tài)的區(qū)間上限值、下限值,標(biāo)簽標(biāo)識(shí)表記錄每個(gè)標(biāo)簽對(duì)應(yīng)組件的使用狀態(tài),評(píng)價(jià)指標(biāo)包括CPI,CPU利用率,cache-references,cache-misses,硬盤(pán)的讀寫(xiě)速率,網(wǎng)速的發(fā)送/接收速率;
5.2)行為序列:保存作業(yè)在運(yùn)行過(guò)程中標(biāo)識(shí)作業(yè)運(yùn)行行為的標(biāo)簽階段序列,每個(gè)標(biāo)簽階段包括標(biāo)簽名,處于當(dāng)前標(biāo)簽階段的周期數(shù),以及該階段各監(jiān)控指標(biāo)的平均值和能耗-性能指標(biāo)值;
5.3)調(diào)節(jié)規(guī)則:存儲(chǔ)標(biāo)簽對(duì)應(yīng)系統(tǒng)組件的功耗狀態(tài),包括標(biāo)簽名稱(chēng),CPU功耗狀態(tài),內(nèi)存功耗狀態(tài),硬盤(pán)功耗狀態(tài),網(wǎng)卡功耗狀態(tài)。
6.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在于,所述監(jiān)控步驟A首先判斷當(dāng)前周期是否處于監(jiān)控周期,如果是則利用工具采集監(jiān)控指標(biāo),否則進(jìn)入下一周期的判斷。
7.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在于,所述標(biāo)識(shí)步驟B包括以下步驟:
B.1將得到的監(jiān)控指標(biāo)標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化公式為:
θmetric為對(duì)應(yīng)指標(biāo)標(biāo)準(zhǔn)化值,c為當(dāng)前周期得到的監(jiān)控指標(biāo)值,β為該指標(biāo)的最大值,α為該指標(biāo)的最小值,然后計(jì)算組件所對(duì)應(yīng)的多個(gè)評(píng)價(jià)指標(biāo)的標(biāo)準(zhǔn)化值θmetric的平均值,即組件的利用率;
B.2通過(guò)比較μ值與相應(yīng)狀態(tài)區(qū)間[low,high]得到組件使用狀態(tài),比較方法如下:
μ≤low即當(dāng)前組件處于空閑狀態(tài),
low<μ≤high即當(dāng)前組件處于中間狀態(tài),
μ≥high即當(dāng)前組件處于忙碌狀態(tài);
B.3根據(jù)各組件的使用狀態(tài)和標(biāo)簽標(biāo)識(shí)規(guī)則,得到當(dāng)前作業(yè)運(yùn)行行為的標(biāo)簽;
B.4判斷標(biāo)簽是否發(fā)生變化,如果是則執(zhí)行調(diào)節(jié)步驟C,反之執(zhí)行預(yù)測(cè)步驟D。
8.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在于,所述調(diào)節(jié)步驟C按照知識(shí)庫(kù)中標(biāo)簽對(duì)應(yīng)調(diào)節(jié)規(guī)則對(duì)系統(tǒng)組件的功耗狀態(tài)進(jìn)行調(diào)整。
9.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在于,所述預(yù)測(cè)步驟D具體包括以下步驟:
D.1)如果步驟B中得到的標(biāo)簽與當(dāng)前階段相同,則重新計(jì)算并更新當(dāng)前階段指標(biāo)的平均值,平均值的計(jì)算公式為:
A′代表計(jì)算得到新的指標(biāo)平均值,A代表舊的指標(biāo)平均值,n代表處于該階段的周期數(shù),c代表當(dāng)前周期得到的監(jiān)控指標(biāo)值;
a)將當(dāng)前階段的周期數(shù)加1,判斷當(dāng)前階段持續(xù)周期數(shù)是否超過(guò)閾值δ,如果沒(méi)有超過(guò)δ,則預(yù)測(cè)作業(yè)接下來(lái)的一個(gè)周期也將有同樣運(yùn)行行為,預(yù)測(cè)結(jié)束;
b)預(yù)測(cè)程序行為在一定周期窗口ω內(nèi)不會(huì)改變,在周期窗口內(nèi)不用監(jiān)控作業(yè)運(yùn)行行為標(biāo)簽是否發(fā)生變化,預(yù)測(cè)結(jié)束;
D.2在步驟B中得到的標(biāo)簽發(fā)生了變化,表明作業(yè)進(jìn)入一個(gè)新的行為階段,將當(dāng)前周期的監(jiān)控?cái)?shù)據(jù)添加到行為序列中:
a)將作業(yè)當(dāng)前運(yùn)行行為的變化模式與作業(yè)最近的運(yùn)行情況進(jìn)行階段匹配,匹配方法是將當(dāng)前周期標(biāo)簽label的變化模式和知識(shí)庫(kù)中最近L個(gè)行為序列進(jìn)行匹配,如果匹配成功,則進(jìn)入非監(jiān)控階段,周期窗口大小為對(duì)應(yīng)匹配成功的階段標(biāo)簽label的周期數(shù),預(yù)測(cè)結(jié)束;
b)如果在最近的L個(gè)行為序列中沒(méi)有匹配成功,則預(yù)測(cè)作業(yè)在下周期和當(dāng)前周期有著相同的運(yùn)行行為,即標(biāo)識(shí)標(biāo)簽相同,預(yù)測(cè)結(jié)束。
10.根據(jù)權(quán)利要求8所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在預(yù)測(cè)步驟中所述δ和L取值分別為21,14。
11.根據(jù)權(quán)利要求8所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在于,周期窗口的大小ω設(shè)為當(dāng)前階段周期數(shù)N的50%,即如果在處監(jiān)控到標(biāo)簽沒(méi)有發(fā)生變化,則依次增加窗口大小為N。
12.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在于,反饋步驟E包括以下步驟:
E.1計(jì)算能耗-性能指標(biāo),計(jì)算公式為:
μcpu為cpu的利用率,μmem為內(nèi)存的利用率,μnet為網(wǎng)卡的利用率,μdisk為硬盤(pán)的利用率,其中εcpu+εmem+εdisk+εnet=1,pcurr和pmax節(jié)點(diǎn)在當(dāng)前周期的功耗值和平臺(tái)最大功耗值;
E.2計(jì)算能耗-性能指標(biāo)Γ與預(yù)測(cè)步驟得到的能耗-性能指標(biāo)Γ′的偏差是否超過(guò)閾值λ,則對(duì)相關(guān)的組件功耗調(diào)節(jié)規(guī)則進(jìn)行優(yōu)化。
13.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在于,閾值λ取值為0.05。
14.根據(jù)權(quán)利要求1所述的一種針對(duì)存在大量迭代的高性能計(jì)算應(yīng)用能耗管理方法,其特征在于,該方法在當(dāng)前監(jiān)控周期完成后,繼續(xù)進(jìn)行下一周期監(jiān)控處理,是一個(gè)循環(huán)迭代的過(guò)程。