欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種負(fù)載均衡方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

文檔序號:40425879發(fā)布日期:2024-12-24 14:59閱讀:10來源:國知局
一種負(fù)載均衡方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

本公開涉及機器學(xué)習(xí),尤其涉及一種負(fù)載均衡方法、裝置、電子設(shè)備及存儲介質(zhì)。


背景技術(shù):

1、分布式訓(xùn)練中一種重要的模型并行方法是流水線并行,在流水線并行中設(shè)備與設(shè)備之間的前向計算與反向計算都存在數(shù)據(jù)依賴,當(dāng)參與流水線并行的設(shè)備較多時,最先進(jìn)行前向計算的設(shè)備在前向計算結(jié)束后到反向計算開始前有較長時間的空閑,而較晚進(jìn)行前向計算的設(shè)備在第一個設(shè)備空閑時仍在進(jìn)行繁忙的計算工作,從而造成各設(shè)備的計算負(fù)載不均衡。


技術(shù)實現(xiàn)思路

1、有鑒于此,本公開提出了一種負(fù)載均衡方法、裝置、電子設(shè)備、存儲介質(zhì)及計算機程序產(chǎn)品。

2、根據(jù)本公開的一方面,提供了一種負(fù)載均衡方法,應(yīng)用于分布式計算集群,所述分布式計算集群中多個計算節(jié)點采用流水線并行的方式對預(yù)設(shè)模型進(jìn)行訓(xùn)練;其中,每一計算節(jié)點部署有所述預(yù)設(shè)模型按網(wǎng)絡(luò)層分拆出的一個子模型,不同計算節(jié)點所部署的子模型不同;

3、所述方法包括:

4、將n個微批量數(shù)據(jù)依次輸入到第一計算節(jié)點中,所述多個計算節(jié)點依次進(jìn)行所述n個微批量數(shù)據(jù)中各微批量數(shù)據(jù)對應(yīng)流水線上的前向計算,其中,在進(jìn)行每一微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時,前一計算節(jié)點前向計算的輸出結(jié)果作為后一計算節(jié)點前向計算的輸入數(shù)據(jù),且各計算節(jié)點釋放前向計算產(chǎn)生的中間結(jié)果;n為正整數(shù),所述第一計算節(jié)點為所述多個計算節(jié)點中最早進(jìn)行前向計算的計算節(jié)點;

5、在所述第一計算節(jié)點完成對所述n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后,所述第一計算節(jié)點重計算第二計算節(jié)點釋放的在進(jìn)行m1個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時產(chǎn)生的中間結(jié)果;其中,所述第二計算節(jié)點為預(yù)設(shè)隊列中的計算節(jié)點,所述預(yù)設(shè)隊列中包括按進(jìn)行反向計算的先后順序排列的至少一個計算節(jié)點;m1為不大于n的整數(shù);

6、在所述多個計算節(jié)點均完成對所述n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后,所述多個計算節(jié)點依次進(jìn)行所述n個微批量數(shù)據(jù)中各微批量數(shù)據(jù)對應(yīng)流水線上的反向計算,其中,在進(jìn)行每一微批量數(shù)據(jù)對應(yīng)流水線上的反向計算時,前一計算節(jié)點反向計算的輸出結(jié)果作為后一計算節(jié)點反向計算的輸入數(shù)據(jù);在所述第二計算節(jié)點進(jìn)行所述m1個微批量數(shù)據(jù)對應(yīng)流水線上的反向計算時,所述第二計算節(jié)點獲取所述第一計算節(jié)點針對該第二計算節(jié)點進(jìn)行重計算得到的中間結(jié)果。

7、在一種可能的實現(xiàn)方式中,所述方法還包括:

8、若所述第二計算節(jié)點為所述多個計算節(jié)點中最早進(jìn)行反向計算的計算節(jié)點,則在所述第二計算節(jié)點完成對所述n個微批量數(shù)據(jù)對應(yīng)流水線上的反向計算后,所述第二計算節(jié)點重計算所述第一計算節(jié)點釋放的進(jìn)行m2個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時產(chǎn)生的中間結(jié)果;m2為不大于n的整數(shù);

9、在所述第一計算節(jié)點進(jìn)行所述m2個微批量數(shù)據(jù)對應(yīng)流水線上的反向計算時,所述第一計算節(jié)點獲取所述第二計算節(jié)點進(jìn)行重計算得到的中間結(jié)果。

10、在一種可能的實現(xiàn)方式中,所述第一計算節(jié)點重計算第二計算節(jié)點釋放的在進(jìn)行m1個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時產(chǎn)生的中間結(jié)果,包括:

11、所述第一計算節(jié)點獲取所述第二計算節(jié)點部署的子模型及所述第二計算節(jié)點進(jìn)行所述m1個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算的輸入數(shù)據(jù);

12、所述第一計算節(jié)點基于所述第二計算節(jié)點部署的子模型,對所述第二計算節(jié)點進(jìn)行所述m1個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算的輸入數(shù)據(jù)進(jìn)行處理,得到所述進(jìn)行m1個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時產(chǎn)生的中間結(jié)果。

13、在一種可能的實現(xiàn)方式中,所述第一計算節(jié)點獲取所述第二計算節(jié)點部署的子模型及所述第二計算節(jié)點進(jìn)行所述m1個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算的輸入數(shù)據(jù)之前,還包括:

14、所述第一計算節(jié)點將所述第一計算節(jié)點部署的子模型及所述第一計算節(jié)點進(jìn)行所述n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算的輸出結(jié)果轉(zhuǎn)移到第一存儲節(jié)點。

15、在一種可能的實現(xiàn)方式中,所述第一計算節(jié)點將所述第一計算節(jié)點部署的子模型及所述第一計算節(jié)點進(jìn)行所述n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算的輸出結(jié)果轉(zhuǎn)移到第一存儲節(jié)點,包括:

16、在所述第一計算節(jié)點完成對所述n個微批量數(shù)據(jù)中第i個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后,所述第一計算節(jié)點將對所述第i個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算的輸出結(jié)果轉(zhuǎn)移到所述第一存儲節(jié)點;其中,i為小于n的整數(shù);

17、在所述第一計算節(jié)點完成對所述n個微批量數(shù)據(jù)中所有微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后,將所述第一計算節(jié)點部署的子模型轉(zhuǎn)移到所述第一存儲節(jié)點。

18、在一種可能的實現(xiàn)方式中,所述第二計算節(jié)點重計算所述第一計算節(jié)點釋放的進(jìn)行m2個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時產(chǎn)生的中間結(jié)果,包括:

19、所述第二計算節(jié)點獲取所述第一計算節(jié)點部署的子模型及所述m2個微批量數(shù)據(jù);

20、所述第二計算節(jié)點基于所述第一計算節(jié)點部署的子模型,對所述m2個微批量數(shù)據(jù)進(jìn)行處理,得到所述進(jìn)行m2個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時產(chǎn)生的中間結(jié)果。

21、在一種可能的實現(xiàn)方式中,所述第二計算節(jié)點獲取所述第一計算節(jié)點部署的子模型及所述m2個微批量數(shù)據(jù)之前,還包括:

22、所述第二計算節(jié)點將所述第二計算節(jié)點部署的子模型轉(zhuǎn)移到第二存儲節(jié)點。

23、在一種可能的實現(xiàn)方式中,在所述預(yù)設(shè)隊列中不止一個計算節(jié)點的情況下,所述第一計算節(jié)點重計算第二計算節(jié)點釋放的在進(jìn)行m1個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時產(chǎn)生的中間結(jié)果,包括:

24、所述第一計算節(jié)點按照所述預(yù)設(shè)隊列中各計算節(jié)點的排列順序,依次重計算所述預(yù)設(shè)隊列中各計算節(jié)點釋放的在進(jìn)行一個或多個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時產(chǎn)生的中間結(jié)果。

25、在一種可能的實現(xiàn)方式中,所述多個計算節(jié)點的數(shù)量為n。

26、在一種可能的實現(xiàn)方式中,所述預(yù)設(shè)隊列中包含的計算節(jié)點的數(shù)量不超過特定閾值,所述特定閾值與所述多個計算節(jié)點的數(shù)量正相關(guān)。

27、在一種可能的實現(xiàn)方式中,所述多個計算節(jié)點中任一計算節(jié)點均包括多個子節(jié)點,其中,所述多個子節(jié)點以張量并行的方式運行對應(yīng)計算節(jié)點上部署的子模型。

28、根據(jù)本公開的另一方面,提供了一種負(fù)載均衡裝置,應(yīng)用于分布式計算集群,所述分布式計算集群中多個計算節(jié)點采用流水線并行的方式對預(yù)設(shè)模型進(jìn)行訓(xùn)練;其中,每一計算節(jié)點部署有所述預(yù)設(shè)模型按網(wǎng)絡(luò)層分拆出的一個子模型,不同計算節(jié)點所部署的子模型不同;

29、所述裝置包括:

30、前向計算模塊,用于將n個微批量數(shù)據(jù)依次輸入到第一計算節(jié)點中,所述多個計算節(jié)點依次進(jìn)行所述n個微批量數(shù)據(jù)中各微批量數(shù)據(jù)對應(yīng)流水線上的前向計算,其中,在進(jìn)行每一微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時,前一計算節(jié)點前向計算的輸出結(jié)果作為后一計算節(jié)點前向計算的輸入數(shù)據(jù),且各計算節(jié)點釋放前向計算產(chǎn)生的中間結(jié)果;n為正整數(shù),所述第一計算節(jié)點為所述多個計算節(jié)點中最早進(jìn)行前向計算的計算節(jié)點;

31、重計算模塊,用于在所述第一計算節(jié)點完成對所述n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后,所述第一計算節(jié)點重計算第二計算節(jié)點釋放的在進(jìn)行m1個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時產(chǎn)生的中間結(jié)果;其中,所述第二計算節(jié)點為預(yù)設(shè)隊列中的計算節(jié)點,所述預(yù)設(shè)隊列中包括按進(jìn)行反向計算的先后順序排列的至少一個計算節(jié)點;m1為不大于n的整數(shù);

32、反向計算模塊,用于在所述多個計算節(jié)點均完成對所述n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后,所述多個計算節(jié)點依次進(jìn)行所述n個微批量數(shù)據(jù)中各微批量數(shù)據(jù)對應(yīng)流水線上的反向計算,其中,在進(jìn)行每一微批量數(shù)據(jù)對應(yīng)流水線上的反向計算時,前一計算節(jié)點反向計算的輸出結(jié)果作為后一計算節(jié)點反向計算的輸入數(shù)據(jù);在所述第二計算節(jié)點進(jìn)行所述m1個微批量數(shù)據(jù)對應(yīng)流水線上的反向計算時,所述第二計算節(jié)點獲取所述第一計算節(jié)點針對該第二計算節(jié)點進(jìn)行重計算得到的中間結(jié)果。

33、根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:處理器;用于存儲處理器可進(jìn)行指令的存儲器;其中,所述處理器被配置為在進(jìn)行所述存儲器存儲的指令時,實現(xiàn)上述方法。

34、根據(jù)本公開的另一方面,提供了一種非易失性計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,其中,所述計算機程序指令被處理器進(jìn)行時實現(xiàn)上述方法。

35、根據(jù)本公開的另一方面,提供了一種計算機程序產(chǎn)品,包括計算機可讀代碼,或者承載有計算機可讀代碼的非易失性計算機可讀存儲介質(zhì),當(dāng)所述計算機可讀代碼在電子設(shè)備的處理器中運行時,所述電子設(shè)備中的處理器進(jìn)行上述方法。

36、通過本公開的各方面,在分布式計算集群中多個計算節(jié)點采用流水線并行的方式對預(yù)設(shè)模型進(jìn)行訓(xùn)練的過程中,將n個微批量數(shù)據(jù)依次輸入到第一計算節(jié)點中,所述多個計算節(jié)點依次進(jìn)行所述n個微批量數(shù)據(jù)中各微批量數(shù)據(jù)對應(yīng)流水線上的前向計算,各計算節(jié)點釋放前向計算產(chǎn)生的中間結(jié)果;其中,各計算節(jié)點前向計算產(chǎn)生的中間結(jié)果不存在數(shù)據(jù)依賴,即各計算節(jié)點前向計算產(chǎn)生的中間結(jié)果,通過該計算節(jié)點部署的子模型及前向計算的輸入數(shù)據(jù)即可重計算出來,而無需其他計算節(jié)點的數(shù)據(jù)。在進(jìn)行每一微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時,前一計算節(jié)點前向計算的輸出結(jié)果作為后一計算節(jié)點前向計算的輸入數(shù)據(jù),這樣,對于先完成n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算的計算節(jié)點,需要等待所有計算節(jié)點均完成對n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后,各計算節(jié)點才可依次進(jìn)行n個微批量數(shù)據(jù)中各微批量數(shù)據(jù)對應(yīng)流水線上的反向計算,由于同一流水線上的前向計算與反向計算中各計算節(jié)點執(zhí)行計算任務(wù)的順序是相反的,且在進(jìn)行每一微批量數(shù)據(jù)對應(yīng)流水線上的反向計算時,前一計算節(jié)點反向計算的輸出結(jié)果作為后一計算節(jié)點反向計算的輸入數(shù)據(jù),因而,越先進(jìn)行前向計算的計算節(jié)點越早完成前向計算,且越晚進(jìn)行反向計算,相應(yīng)的,越先進(jìn)行前向計算的計算節(jié)點在結(jié)束n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后的空閑時間越長;反之,越后進(jìn)行前向計算的計算節(jié)點越晚完成前向計算,且越早進(jìn)行反向計算,相應(yīng)的,越后進(jìn)行前向計算的計算節(jié)點結(jié)束n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后的空閑時間越短。在最早進(jìn)行前向計算的第一計算節(jié)點完成對所述n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后,會進(jìn)入空閑狀態(tài),利用較長的空閑時間,第一計算節(jié)點重計算預(yù)設(shè)隊列中的第二計算節(jié)點釋放的在進(jìn)行m1個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算時產(chǎn)生的中間結(jié)果,其中,預(yù)設(shè)隊列中包括按進(jìn)行反向計算的先后順序排列的至少一個計算節(jié)點;從而可以充分利用第一計算節(jié)點的計算資源分擔(dān)第二計算節(jié)點的不存在數(shù)據(jù)依賴的重計算任務(wù),也節(jié)省了該第二計算節(jié)點因為重計算而花費的時間。進(jìn)而,在所述多個計算節(jié)點均完成對所述n個微批量數(shù)據(jù)對應(yīng)流水線上的前向計算后,所述多個計算節(jié)點依次進(jìn)行所述n個微批量數(shù)據(jù)中各微批量數(shù)據(jù)對應(yīng)流水線上的反向計算,且在第二計算節(jié)點進(jìn)行這m1個微批量數(shù)據(jù)對應(yīng)流水線上的反向計算時,第二計算節(jié)點獲取第一計算節(jié)點針對該第二計算節(jié)點進(jìn)行重計算得到的中間結(jié)果,第二計算節(jié)點無需重計算即可直接利用這些中間結(jié)果,從而節(jié)省了第二計算節(jié)點反向計算的時間開銷。這樣,利用重計算的數(shù)據(jù)依賴性較弱的特點,使用空閑較多的第一計算節(jié)點幫助流水線上靠后的第二計算節(jié)點分擔(dān)部分或全部重計算工作,從而充分利用分布式計算集群中的計算資源,使得各計算節(jié)點的負(fù)載更均衡,提升了分布式訓(xùn)練的計算效率,縮短了流水線并行端到端的耗時,使得整體訓(xùn)練更加高效省時。

37、根據(jù)下面參考附圖對示例性實施例的詳細(xì)說明,本公開的其它特征及方面將變得清楚。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
夏河县| 铁岭市| 巴楚县| 金湖县| 临夏市| 临沧市| 巴彦淖尔市| 吉首市| 酒泉市| 梁山县| 城固县| 循化| 江安县| 赤峰市| 清水河县| 绥芬河市| 凌海市| 工布江达县| 密云县| 罗江县| 左云县| 上蔡县| 冕宁县| 贵南县| 商南县| 蓬溪县| 衡山县| 介休市| 高雄县| 楚雄市| 临湘市| 新乐市| 湖南省| 甘南县| 平定县| 建湖县| 玉田县| 黄陵县| 汝州市| 青田县| 安图县|