本發(fā)明涉及機器學習,尤其涉及一種設備通信方法、設備及介質。
背景技術:
1、隨著人工智能技術的迅猛發(fā)展,尤其是大模型的興起,對計算資源的需求呈現(xiàn)出爆炸性增長。這些模型的規(guī)模、訓練數(shù)據(jù)的規(guī)模以及所需的圖形處理器(gpu,graphicsprocessing?unit)資源數(shù)量都以指數(shù)級的速度增長。在某些情況下,為了滿足訓練需求,甚至需要動用數(shù)千甚至數(shù)萬個gpu。然而,在當前的gpu云服務和資源使用環(huán)境中,這些成千上萬個gpu可能來自不同制造商或者屬于同一制造商的不同產品型號,具有不同的硬件架構,即,是異構的。
2、在這種異構環(huán)境中,現(xiàn)有分布式機器學習框架面臨巨大的挑戰(zhàn)。傳統(tǒng)的分布式協(xié)同訓練方法往往依賴于同構的硬件和網(wǎng)絡環(huán)境,其通信方案主要針對性能一致的?gpu?和統(tǒng)一的網(wǎng)絡拓撲進行優(yōu)化。當設備的性能、架構或制造商不同,或者網(wǎng)絡的拓撲和帶寬不一致時,現(xiàn)有通信方案的效率會顯著下降,甚至可能無法正常工作。尤其是在需要跨設備進行梯度聚合、模型參數(shù)同步等高頻通信時,這種差異性會導致性能瓶頸,嚴重制約了分布式協(xié)同訓練的規(guī)模和效率。此外,不同性能和配置的設備難以協(xié)同工作,導致集群中的部分資源被孤立使用,異構gpu之間的互聯(lián)互通難以實現(xiàn),形成所謂的“算力孤島”。這不僅浪費了寶貴的硬件資源,還增加了訓練的成本和復雜性。
技術實現(xiàn)思路
1、本發(fā)明提供一種設備通信方法、設備及介質,用以解決相關技術中異構設備間通信效率低的缺陷。
2、本發(fā)明提供一種設備通信方法,包括如下步驟:
3、基于多個設備之間的拓撲連接信息,確定多種第一通信策略;
4、對各種所述第一通信策略分別進行通信性能評估,得到各種所述第一通信策略的通信性能,并基于各種所述第一通信策略的通信性能,從所述多種第一通信策略中選取第二通信策略;
5、基于所述第二通信策略,控制所述多個設備進行通信。
6、根據(jù)本發(fā)明提供的一種設備通信方法,所述拓撲連接信息包括設備連接關系和設備通信帶寬。
7、根據(jù)本發(fā)明提供的一種設備通信方法,所述基于多個設備之間的拓撲連接信息,確定多種第一通信策略,包括:
8、基于所述多個設備之間的設備連接關系和設備通信帶寬,以及所述設備連接關系中的網(wǎng)卡,確定各個所述設備的綁定網(wǎng)卡;
9、基于各個所述設備的綁定網(wǎng)卡,確定多種第一通信策略。
10、根據(jù)本發(fā)明提供的一種設備通信方法,所述第一通信策略包括順序執(zhí)行的多個通信子圖,所述通信子圖包括所述多個設備之間的通信關系。
11、根據(jù)本發(fā)明提供的一種設備通信方法,所述對各種所述第一通信策略進行通信性能評估,得到各種所述第一通信策略的通信性能,包括:
12、針對各種所述第一通信策略,基于所述第一通信策略中每個所述通信子圖中通信關系對應的設備通信帶寬,確定每個所述通信子圖的通信耗時,并基于每個所述通信子圖的通信耗時,確定所述第一通信策略的通信耗時作為所述通信性能。
13、根據(jù)本發(fā)明提供的一種設備通信方法,在所述多個設備用于執(zhí)行多種聚合通信原語的情況下,每種所述聚合通信原語分別對應多種所述第一通信策略,且每種所述聚合通信原語分別對應一種所述第二通信策略。
14、根據(jù)本發(fā)明提供的一種設備通信方法,所述多個設備中存在至少兩種類型的設備。
15、本發(fā)明還提供一種設備通信裝置,包括如下模塊:
16、第一通信策略確定單元,用于基于多個設備之間的拓撲連接信息,確定多種第一通信策略;
17、第二通信策略確定單元,用于對各種所述第一通信策略分別進行通信性能評估,得到各種所述第一通信策略的通信性能,并基于各種所述第一通信策略的通信性能,從所述多種第一通信策略中選取第二通信策略;
18、通信單元,用于基于所述第二通信策略,控制所述多個設備進行通信。
19、本發(fā)明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述設備通信方法。
20、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述設備通信方法。
21、本發(fā)明還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述設備通信方法。
22、本發(fā)明提供的設備通信方法、設備及介質,通過分析異構設備之間的拓撲連接信息,生成多種第一通信策略,并通過通信性能評估動態(tài)選擇最優(yōu)的第二通信策略,以適應異構設備的特性和網(wǎng)絡條件。在通信執(zhí)行過程中,嚴格按照選定的第二通信策略進行操作,不僅有效提升了通信效率,還優(yōu)化了設備間資源的協(xié)調分配,避免因設備性能差異或網(wǎng)絡瓶頸造成的效率損失。該方法顯著提升了異構設備環(huán)境下的通信適配能力和資源利用效率,為分布式計算任務在復雜異構系統(tǒng)中的高效執(zhí)行提供了有力保障。
1.一種設備通信方法,其特征在于,包括:
2.根據(jù)權利要求1所述的設備通信方法,其特征在于,所述拓撲連接信息包括設備連接關系和設備通信帶寬。
3.根據(jù)權利要求2所述的設備通信方法,其特征在于,所述基于多個設備之間的拓撲連接信息,確定多種第一通信策略,包括:
4.根據(jù)權利要求1所述的設備通信方法,其特征在于,所述第一通信策略包括順序執(zhí)行的多個通信子圖,所述通信子圖包括所述多個設備之間的通信關系。
5.根據(jù)權利要求4所述的設備通信方法,其特征在于,所述對各種所述第一通信策略進行通信性能評估,得到各種所述第一通信策略的通信性能,包括:
6.根據(jù)權利要求1至5中任一項所述的設備通信方法,其特征在于,在所述多個設備用于執(zhí)行多種聚合通信原語的情況下,每種所述聚合通信原語分別對應多種所述第一通信策略,且每種所述聚合通信原語分別對應一種所述第二通信策略。
7.根據(jù)權利要求1至5中任一項所述的設備通信方法,其特征在于,所述多個設備中存在至少兩種類型的設備。
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1至7任一項所述設備通信方法。
9.一種非暫態(tài)計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7任一項所述設備通信方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7任一項所述設備通信方法。