1.一種面向在線訓(xùn)練的算力資源彈性分配系統(tǒng),其特征在于,包括用戶端、集群資源管理器、彈性調(diào)度器以及使用待分配的gpu的工作節(jié)點(diǎn),系統(tǒng)的工作過程為:用戶向集群資源管理器提交在線學(xué)習(xí)作業(yè)的詳細(xì)配置和偏好設(shè)置,所述集群資源管理器分析并批準(zhǔn)并向用戶返回提交的配置;之后,將配置提交給彈性調(diào)度器在整個(gè)在線訓(xùn)練作業(yè)的生命周期內(nèi)管理數(shù)據(jù)流量和資源分配,所述彈性調(diào)度器包括三個(gè)組件:工作負(fù)載預(yù)測(cè)器、工作節(jié)點(diǎn)估計(jì)器和在線學(xué)習(xí)自動(dòng)伸縮器;
2.如權(quán)利要求1所述的一種面向在線訓(xùn)練的算力資源彈性分配系統(tǒng),其特征在于,所述詳細(xì)配置和偏好設(shè)置包括模型算法和參數(shù)、數(shù)據(jù)源和訪問方式,以及模型導(dǎo)出地址。
3.如權(quán)利要求2所述的一種面向在線訓(xùn)練的算力資源彈性分配系統(tǒng),其特征在于,所述工作節(jié)點(diǎn)估計(jì)器針對(duì)參數(shù)服務(wù)器架構(gòu),所述參數(shù)服務(wù)器架構(gòu)由兩類節(jié)點(diǎn)組成:參數(shù)服務(wù)器和工作節(jié)點(diǎn);
4.如權(quán)利要求3所述的一種面向在線訓(xùn)練的算力資源彈性分配系統(tǒng),其特征在于,對(duì)于所述訓(xùn)練過程中稠密參數(shù)和稀疏參數(shù),設(shè)參數(shù)服務(wù)器的數(shù)量為p,工作節(jié)點(diǎn)的數(shù)量為w,每個(gè)工作節(jié)點(diǎn)訓(xùn)練的批次大小為m,稠密參數(shù)的大小為d,稀疏參數(shù)的大小為m×s;假設(shè)參數(shù)在參數(shù)服務(wù)器上均勻分布,則工作節(jié)點(diǎn)發(fā)送給參數(shù)服務(wù)器的稠密參數(shù)數(shù)量為d/p,稀疏參數(shù)數(shù)量為m×s/p;定義訓(xùn)練一個(gè)小批次的前向傳播時(shí)間為tforward,反向傳播時(shí)間為tbackward,tf=m×tforward,tb=tbackward;
5.如權(quán)利要求4所述的一種面向在線訓(xùn)練的算力資源彈性分配系統(tǒng),其特征在于,所述在線學(xué)習(xí)自動(dòng)伸縮器的實(shí)現(xiàn)方式為:根據(jù)所需工作節(jié)點(diǎn)的估計(jì),對(duì)在線訓(xùn)練作業(yè)進(jìn)行擴(kuò)展或縮減,制定每個(gè)時(shí)刻t需要滿足的在線學(xué)習(xí)工作節(jié)點(diǎn)數(shù)量的要求: