本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種基于張量并行的聚合通信方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著大型語(yǔ)言模型(language?model?with?lattice,llm)的廣泛應(yīng)用和發(fā)展,模型的規(guī)模越來越大,使得通過分布式系統(tǒng)構(gòu)建llm成為目前常用的做法。但是,若使用分布式系統(tǒng)構(gòu)建llm,需要在算法層面采用不同的并行拆分策略,特別是集合通信中耗時(shí)比較久的張量并行。
2、現(xiàn)有技術(shù)在生成張量并行的并行拆分策略時(shí),通常集中在小模型的并行拆分策略。但是,隨著llm的增大,不同模型的取值不同,比如4卡、8卡、16卡或者32卡。若針對(duì)不同的模型均使用小模型的并行拆分策略,無法兼顧不同模型的需求,極大地降低了通信效率。因此,如何根據(jù)不同尺寸的模型對(duì)并行拆分的不同需求,實(shí)現(xiàn)張量并行的聚合通信,提高聚合通信的效率,是目前亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種基于張量并行的聚合通信方法、裝置、設(shè)備及介質(zhì),可以解決張量并行的聚合通信效率較低的問題。
2、根據(jù)本發(fā)明的一方面,提供了一種基于張量并行的聚合通信方法,包括:
3、獲取目標(biāo)模型對(duì)應(yīng)的計(jì)算卡分布信息、并行輸出張量規(guī)模及全量并行輸出張量;其中,各個(gè)并行輸出張量分別存儲(chǔ)于目標(biāo)模型對(duì)應(yīng)的各個(gè)計(jì)算卡上;
4、基于所述并行輸出張量規(guī)模及預(yù)設(shè)規(guī)模閾值確定所述目標(biāo)模型對(duì)應(yīng)的目標(biāo)拓?fù)溥壿嫞?/p>
5、基于所述目標(biāo)拓?fù)溥壿嫾八鲇?jì)算卡分布信息確定所述目標(biāo)模型對(duì)應(yīng)的目標(biāo)主計(jì)算卡及目標(biāo)副計(jì)算卡;
6、基于所述目標(biāo)主計(jì)算卡的當(dāng)前編號(hào)確定全量并行輸出張量中目標(biāo)主計(jì)算卡上的第一張量分片及目標(biāo)副計(jì)算卡上的第二張量分片;
7、基于預(yù)設(shè)規(guī)約邏輯生成第一張量分片與各個(gè)第二張量分片間的目標(biāo)全規(guī)約鏈路,以使目標(biāo)主計(jì)算卡依據(jù)所述目標(biāo)全規(guī)約鏈路實(shí)現(xiàn)與目標(biāo)副計(jì)算卡間的聚合通信。
8、根據(jù)本發(fā)明的另一方面,提供了一種基于張量并行的聚合通信裝置,包括:
9、數(shù)據(jù)獲取模塊,用于獲取目標(biāo)模型對(duì)應(yīng)的計(jì)算卡分布信息、并行輸出張量規(guī)模及全量并行輸出張量;其中,各個(gè)并行輸出張量分別存儲(chǔ)于目標(biāo)模型對(duì)應(yīng)的各個(gè)計(jì)算卡上;
10、第一確定模塊,用于基于所述并行輸出張量規(guī)模及預(yù)設(shè)規(guī)模閾值確定所述目標(biāo)模型對(duì)應(yīng)的目標(biāo)拓?fù)溥壿嫞?/p>
11、第二確定模塊,用于基于所述目標(biāo)拓?fù)溥壿嫾八鲇?jì)算卡分布信息確定所述目標(biāo)模型對(duì)應(yīng)的目標(biāo)主計(jì)算卡及目標(biāo)副計(jì)算卡;
12、第三確定模塊,用于基于所述目標(biāo)主計(jì)算卡的當(dāng)前編號(hào)確定全量并行輸出張量中目標(biāo)主計(jì)算卡上的第一張量分片及目標(biāo)副計(jì)算卡上的第二張量分片;
13、聚合通信模塊,用于基于預(yù)設(shè)規(guī)約邏輯生成第一張量分片與各個(gè)第二張量分片間的目標(biāo)全規(guī)約鏈路,以使目標(biāo)主計(jì)算卡依據(jù)所述目標(biāo)全規(guī)約鏈路實(shí)現(xiàn)與目標(biāo)副計(jì)算卡間的聚合通信。
14、根據(jù)本發(fā)明的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:
15、至少一個(gè)處理器;以及
16、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
17、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本發(fā)明任一實(shí)施例所述的基于張量并行的聚合通信方法。
18、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的基于張量并行的聚合通信方法。
19、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的基于張量并行的聚合通信方法。
20、本發(fā)明實(shí)施例的技術(shù)方案,通過目標(biāo)模型對(duì)應(yīng)的并行輸出張量規(guī)模及預(yù)設(shè)規(guī)模閾值確定目標(biāo)拓?fù)溥壿?;進(jìn)而,基于目標(biāo)拓?fù)溥壿嫾澳繕?biāo)模型對(duì)應(yīng)的計(jì)算卡分布信息確定目標(biāo)主計(jì)算卡及目標(biāo)副計(jì)算卡,并基于目標(biāo)主計(jì)算卡的當(dāng)前編號(hào)確定目標(biāo)模型對(duì)應(yīng)的全量并行輸出張量中目標(biāo)主計(jì)算卡上的第一張量分片及目標(biāo)副計(jì)算卡上的第二張量分片;最后,基于預(yù)設(shè)規(guī)約邏輯生成第一張量分片與各個(gè)第二張量分片間的目標(biāo)全規(guī)約鏈路,以使目標(biāo)主計(jì)算卡依據(jù)目標(biāo)全規(guī)約鏈路實(shí)現(xiàn)與目標(biāo)副計(jì)算卡間的聚合通信。由于根據(jù)不同尺寸的模型對(duì)并行拆分的不同需求,可以針對(duì)聚合通信的通信范圍不同,采用不同的拓?fù)溥壿嫛R虼?,解決了張量并行的聚合通信效率較低的問題,能夠?qū)崿F(xiàn)張量并行的聚合通信,提高了聚合通信的效率。
21、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本發(fā)明的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過以下的說明書而變得容易理解。
1.一種基于張量并行的聚合通信方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述并行輸出張量規(guī)模及預(yù)設(shè)規(guī)模閾值確定所述目標(biāo)模型對(duì)應(yīng)的目標(biāo)拓?fù)溥壿?,包括?/p>
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,若目標(biāo)拓?fù)溥壿嫗闄C(jī)內(nèi)全規(guī)約邏輯,所述基于所述目標(biāo)拓?fù)溥壿嫾八鲇?jì)算卡分布信息確定所述目標(biāo)模型對(duì)應(yīng)的目標(biāo)主計(jì)算卡及目標(biāo)副計(jì)算卡,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,若目標(biāo)拓?fù)溥壿嫗闄C(jī)內(nèi)全規(guī)約邏輯,所述基于預(yù)設(shè)規(guī)約邏輯生成第一張量分片與各個(gè)第二張量分片間的目標(biāo)全規(guī)約鏈路,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,若目標(biāo)拓?fù)溥壿嫗闄C(jī)間全規(guī)約邏輯,所述基于所述目標(biāo)拓?fù)溥壿嫾八鲇?jì)算卡分布信息確定所述目標(biāo)模型對(duì)應(yīng)的目標(biāo)主計(jì)算卡及目標(biāo)副計(jì)算卡,包括:
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,若目標(biāo)拓?fù)溥壿嫗闄C(jī)間全規(guī)約邏輯,所述基于預(yù)設(shè)規(guī)約邏輯生成第一張量分片與各個(gè)第二張量分片間的目標(biāo)全規(guī)約鏈路,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,目標(biāo)主計(jì)算卡的端口組數(shù)及目標(biāo)副計(jì)算卡的端口組數(shù)均與所述計(jì)算卡分布信息中同一服務(wù)器內(nèi)的計(jì)算卡基礎(chǔ)數(shù)量存在預(yù)設(shè)關(guān)聯(lián)關(guān)系。
8.一種基于張量并行的聚合通信裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的基于張量并行的聚合通信方法。