本說明書涉及計(jì)算機(jī)系統(tǒng)結(jié)構(gòu),尤其涉及一種存儲資源調(diào)度方法、裝置、存儲介質(zhì)及電子設(shè)備。
背景技術(shù):
1、在人工智能(artificial?intelligence,ai)領(lǐng)域中,大模型已經(jīng)成為焦點(diǎn)技術(shù)和產(chǎn)業(yè)革命的重要驅(qū)動力量,然而,大模型的性能主要依賴于龐大的大模型參數(shù)量和訓(xùn)練數(shù)據(jù)集規(guī)模,而隨著大模型參數(shù)量和訓(xùn)練數(shù)據(jù)集規(guī)模的不斷增長,大模型訓(xùn)練對存儲資源的要求也顯著增加。
2、但是,由于目前所采用的面向云計(jì)算、高性能計(jì)算等場景設(shè)計(jì)的存儲技術(shù)并未針對大模型訓(xùn)練的特點(diǎn)進(jìn)行優(yōu)化設(shè)計(jì),導(dǎo)致無法在大模型的訓(xùn)練過程中充分協(xié)調(diào)軟硬件資源,從而使得模型訓(xùn)練的效率降低,進(jìn)而使得模型訓(xùn)練存在時(shí)間長、能耗高、成本高等問題。
3、因此,如何能夠提升模型訓(xùn)練的效率,則是一個(gè)亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本說明書提供一種存儲資源調(diào)度方法、裝置、存儲介質(zhì)及電子設(shè)備,以部分的解決現(xiàn)有技術(shù)存在的上述問題。
2、本說明書采用下述技術(shù)方案:
3、一種存儲資源調(diào)度方法,所述方法應(yīng)用于數(shù)據(jù)存儲系統(tǒng),所述數(shù)據(jù)存儲系統(tǒng)中包含有各異構(gòu)存儲資源,所述各異構(gòu)存儲資源包括:設(shè)置于計(jì)算節(jié)點(diǎn)中的分布式內(nèi)存緩存模塊、持久性緩存模塊,設(shè)置于存儲節(jié)點(diǎn)中的并行文件系統(tǒng);
4、在執(zhí)行針對目標(biāo)模型的訓(xùn)練任務(wù)的過程中,獲取目標(biāo)模型在當(dāng)前訓(xùn)練周期的狀態(tài)參數(shù),并確定預(yù)設(shè)的每種異構(gòu)存儲資源的性能參數(shù),作為各參考性能參數(shù);
5、根據(jù)預(yù)設(shè)的處于不同狀態(tài)參數(shù)下的目標(biāo)模型和數(shù)據(jù)質(zhì)量參數(shù)不同的訓(xùn)練樣本數(shù)據(jù)之間的需求關(guān)系,以及所述目標(biāo)模型在當(dāng)前訓(xùn)練周期的狀態(tài)參數(shù)、所述目標(biāo)模型對應(yīng)的訓(xùn)練樣本集中未使用的訓(xùn)練樣本數(shù)據(jù)的數(shù)據(jù)質(zhì)量參數(shù),確定所述目標(biāo)模型在下一訓(xùn)練周期所需的各訓(xùn)練樣本數(shù)據(jù),作為各目標(biāo)訓(xùn)練樣本數(shù)據(jù);
6、根據(jù)所述各參考性能參數(shù),確定所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)在每種異構(gòu)存儲資源中的存儲關(guān)系,并確定按照所述存儲關(guān)系對所述各異構(gòu)存儲資源進(jìn)行調(diào)度后所述目標(biāo)模型的預(yù)估剩余訓(xùn)練時(shí)間;
7、以最小化所述預(yù)估剩余訓(xùn)練時(shí)間為優(yōu)化目標(biāo),對所述存儲關(guān)系進(jìn)行調(diào)整,得到調(diào)整后的存儲關(guān)系,并按照所述調(diào)整后的存儲關(guān)系對所述各異構(gòu)存儲資源進(jìn)行調(diào)度,以通過調(diào)度后的數(shù)據(jù)存儲系統(tǒng)繼續(xù)執(zhí)行所述訓(xùn)練任務(wù)。
8、可選地,所述數(shù)據(jù)存儲系統(tǒng)中設(shè)置有各計(jì)算節(jié)點(diǎn),所述針對目標(biāo)模型的訓(xùn)練任務(wù)包括:各子訓(xùn)練任務(wù);
9、根據(jù)所述各參考性能參數(shù),確定所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)在每種異構(gòu)存儲資源中的存儲關(guān)系,具體包括:
10、針對每個(gè)計(jì)算節(jié)點(diǎn),確定所述各子訓(xùn)練任務(wù)中分配到該計(jì)算節(jié)點(diǎn)執(zhí)行的子訓(xùn)練任務(wù),作為目標(biāo)子訓(xùn)練任務(wù);
11、確定在所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)中包含的執(zhí)行所述目標(biāo)子訓(xùn)練任務(wù)所需的目標(biāo)訓(xùn)練樣本數(shù)據(jù),作為該計(jì)算節(jié)點(diǎn)對應(yīng)的目標(biāo)訓(xùn)練樣本數(shù)據(jù);
12、根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)對應(yīng)的目標(biāo)訓(xùn)練樣本數(shù)據(jù),以及所述各參考性能參數(shù),確定所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)在每個(gè)計(jì)算節(jié)點(diǎn)中設(shè)置的每種異構(gòu)存儲資源中的存儲關(guān)系。
13、可選地,根據(jù)所述各參考性能參數(shù),確定所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)在每種異構(gòu)存儲資源中的存儲關(guān)系,具體包括:
14、針對每個(gè)目標(biāo)訓(xùn)練樣本數(shù)據(jù),確定該目標(biāo)訓(xùn)練樣本數(shù)據(jù)與其他目標(biāo)訓(xùn)練樣本數(shù)據(jù)之間的相似度;
15、根據(jù)每個(gè)目標(biāo)訓(xùn)練樣本數(shù)據(jù)與其他目標(biāo)訓(xùn)練樣本數(shù)據(jù)之間的相似度,將所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)劃分為各目標(biāo)訓(xùn)練樣本數(shù)據(jù)集,其中,針對每個(gè)目標(biāo)訓(xùn)練樣本數(shù)據(jù)集,該目標(biāo)訓(xùn)練樣本數(shù)據(jù)集中包含的各目標(biāo)訓(xùn)練樣本數(shù)據(jù)之間的相似度高于預(yù)設(shè)閾值;
16、根據(jù)所述各參考性能參數(shù),確定所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)集在每種異構(gòu)存儲資源中的存儲關(guān)系。
17、可選地,所述分布式內(nèi)存緩存模塊包含有至少一種高性能存儲器件,其中,當(dāng)所述分布式內(nèi)存緩存模塊中包含的高性能存儲器件超過一種時(shí),所述分布式內(nèi)存緩存模塊中的各高性能存儲器件之間高速互聯(lián),所述持久性緩存模塊包含有至少一種非易失性存儲器件,所述并行文件系統(tǒng)包含有至少一種大容量存儲器件;
18、確定預(yù)設(shè)的每種異構(gòu)存儲資源的性能參數(shù),作為各參考性能參數(shù),具體包括:
19、確定所述高性能存儲器件的性能參數(shù)、確定所述非易失性存儲器件的性能參數(shù)以及確定所述大容量存儲器件的性能參數(shù),作為各參考性能參數(shù)。
20、可選地,根據(jù)所述各參考性能參數(shù),確定所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)在每種異構(gòu)存儲資源中的存儲關(guān)系,并確定按照所述存儲關(guān)系對所述各異構(gòu)存儲資源進(jìn)行調(diào)度后所述目標(biāo)模型的預(yù)估剩余訓(xùn)練時(shí)間,具體包括:
21、根據(jù)所述各參考性能參數(shù),確定所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)在每種異構(gòu)存儲資源中的存儲關(guān)系;以及
22、根據(jù)所述各參考性能參數(shù)和預(yù)設(shè)的在不同的訓(xùn)練周期中所述目標(biāo)模型的各模型參數(shù)之間的依賴關(guān)系,確定所述目標(biāo)模型的模型參數(shù)在每種異構(gòu)存儲資源中的存儲關(guān)系;
23、確定根據(jù)所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)在每種異構(gòu)存儲資源中的存儲關(guān)系以及所述目標(biāo)模型的模型參數(shù)在每種異構(gòu)存儲資源中的存儲關(guān)系對所述各異構(gòu)存儲資源進(jìn)行調(diào)度后,所述目標(biāo)模型的預(yù)估剩余訓(xùn)練時(shí)間。
24、可選地,按照所述調(diào)整后的存儲關(guān)系對所述各異構(gòu)存儲資源進(jìn)行調(diào)度,具體包括:
25、根據(jù)所述調(diào)整后的存儲關(guān)系,確定每種異構(gòu)存儲資源的配置參數(shù);
26、針對每種異構(gòu)存儲資源,根據(jù)該異構(gòu)存儲資源的配置參數(shù),對該異構(gòu)存儲資源進(jìn)行配置,得到該異構(gòu)存儲資源對應(yīng)的配置后異構(gòu)存儲資源,并根據(jù)所述調(diào)整后存儲關(guān)系,將該異構(gòu)存儲資源中的數(shù)據(jù)卸載到其他異構(gòu)存儲資源中或從其他異構(gòu)存儲資源中讀取數(shù)據(jù)到該異構(gòu)存儲資源中。
27、可選地,所述持久性緩存模塊中還設(shè)有數(shù)據(jù)生成模型;
28、通過所述調(diào)度后的數(shù)據(jù)存儲系統(tǒng)繼續(xù)執(zhí)行所述訓(xùn)練任務(wù),具體包括:
29、在通過所述調(diào)度后的數(shù)據(jù)存儲系統(tǒng)繼續(xù)執(zhí)行所述訓(xùn)練任務(wù)的過程中,若確定所述目標(biāo)模型的迭代次數(shù)未超過預(yù)設(shè)的次數(shù)閾值時(shí),則獲取所述目標(biāo)模型對應(yīng)的訓(xùn)練樣本集中已使用的訓(xùn)練樣本數(shù)據(jù),并根據(jù)所述已使用的訓(xùn)練樣本數(shù)據(jù)對所述數(shù)據(jù)生成模型的模型參數(shù)進(jìn)行調(diào)整,得到調(diào)整后的數(shù)據(jù)生成模型;
30、若確定所述目標(biāo)模型的迭代次數(shù)超過預(yù)設(shè)的次數(shù)閾值時(shí),則在響應(yīng)于計(jì)算節(jié)點(diǎn)發(fā)送的訓(xùn)練樣本數(shù)據(jù)獲取請求的過程中,若確定所述分布式內(nèi)存緩存模塊以及所述持久性緩存模塊中不存在與所述訓(xùn)練樣本數(shù)據(jù)獲取請求相匹配的數(shù)據(jù),則將所述訓(xùn)練樣本數(shù)據(jù)獲取請求輸入到所述調(diào)整后的數(shù)據(jù)生成模型中,以通過所述調(diào)整后的數(shù)據(jù)生成模型生成補(bǔ)充訓(xùn)練樣本數(shù)據(jù),并根據(jù)所述補(bǔ)充訓(xùn)練樣本數(shù)據(jù)執(zhí)行針對所述目標(biāo)模型的訓(xùn)練任務(wù)。
31、本說明書提供了一種數(shù)據(jù)存儲裝置,所述裝置包括:
32、獲取模塊,用于在執(zhí)行針對目標(biāo)模型的訓(xùn)練任務(wù)的過程中,獲取目標(biāo)模型在當(dāng)前訓(xùn)練周期的狀態(tài)參數(shù),確定預(yù)設(shè)的每種異構(gòu)存儲資源的性能參數(shù),作為各參考性能參數(shù);
33、第一確定模塊,用于根據(jù)預(yù)設(shè)的處于不同狀態(tài)參數(shù)下的目標(biāo)模型和數(shù)據(jù)質(zhì)量參數(shù)不同的訓(xùn)練樣本數(shù)據(jù)之間的需求關(guān)系,以及所述目標(biāo)模型在當(dāng)前訓(xùn)練周期的狀態(tài)參數(shù)、所述目標(biāo)模型對應(yīng)的訓(xùn)練樣本集中未使用的訓(xùn)練樣本數(shù)據(jù)的數(shù)據(jù)質(zhì)量參數(shù),確定所述目標(biāo)模型在下一訓(xùn)練周期所需的各訓(xùn)練樣本數(shù)據(jù),作為各目標(biāo)訓(xùn)練樣本數(shù)據(jù);
34、第二確定模塊,用于根據(jù)所述各參考性能參數(shù),確定所述各目標(biāo)訓(xùn)練樣本數(shù)據(jù)在每種異構(gòu)存儲資源中的存儲關(guān)系,并確定按照所述存儲關(guān)系對各異構(gòu)存儲資源進(jìn)行調(diào)度后所述目標(biāo)模型的預(yù)估剩余訓(xùn)練時(shí)間;
35、調(diào)整模塊,用于以最小化所述預(yù)估剩余訓(xùn)練時(shí)間為優(yōu)化目標(biāo),對所述存儲關(guān)系進(jìn)行調(diào)整,得到調(diào)整后的存儲關(guān)系,并按照所述調(diào)整后的存儲關(guān)系對所述各異構(gòu)存儲資源進(jìn)行調(diào)度,以通過調(diào)度后的數(shù)據(jù)存儲系統(tǒng)繼續(xù)執(zhí)行所述訓(xùn)練任務(wù)。
36、本說明書提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述存儲資源調(diào)度方法。
37、本說明書提供了一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述存儲資源調(diào)度方法。
38、本說明書采用的上述至少一個(gè)技術(shù)方案能夠達(dá)到以下有益效果:
39、在本說明書提供的方法中,在執(zhí)行針對目標(biāo)模型的訓(xùn)練任務(wù)的過程中,獲取目標(biāo)模型在當(dāng)前訓(xùn)練周期的狀態(tài)參數(shù),并確定預(yù)設(shè)的每種異構(gòu)存儲資源的性能參數(shù),作為各參考性能參數(shù),根據(jù)預(yù)設(shè)的處于不同狀態(tài)參數(shù)下的目標(biāo)模型和數(shù)據(jù)質(zhì)量參數(shù)不同的訓(xùn)練樣本數(shù)據(jù)之間的需求關(guān)系,以及目標(biāo)模型在當(dāng)前訓(xùn)練周期的狀態(tài)參數(shù),目標(biāo)模型對應(yīng)的訓(xùn)練樣本集中未使用的訓(xùn)練樣本數(shù)據(jù)的數(shù)據(jù)質(zhì)量參數(shù),確定目標(biāo)模型在下一訓(xùn)練周期所需的各訓(xùn)練樣本數(shù)據(jù),作為各目標(biāo)訓(xùn)練樣本數(shù)據(jù),根據(jù)各參考性能參數(shù),確定各目標(biāo)訓(xùn)練樣本數(shù)據(jù)在每種異構(gòu)存儲資源中的存儲關(guān)系,并確定按照存儲關(guān)系對各異構(gòu)存儲資源進(jìn)行調(diào)度后目標(biāo)模型的預(yù)估剩余訓(xùn)練時(shí)間,以最小化預(yù)估剩余訓(xùn)練時(shí)間為優(yōu)化目標(biāo),對存儲關(guān)系進(jìn)行調(diào)整,得到調(diào)整后的存儲關(guān)系,并按照調(diào)整后的存儲關(guān)系對各異構(gòu)存儲資源進(jìn)行調(diào)度。
40、從上述方法可以看出,可以通過預(yù)先構(gòu)建的包含有多級分層的數(shù)據(jù)存儲系統(tǒng),執(zhí)行針對目標(biāo)模型的訓(xùn)練任務(wù),并在執(zhí)行針對目標(biāo)模型的訓(xùn)練任務(wù)的過程中,可以基于預(yù)先確定的不同訓(xùn)練樣本的數(shù)據(jù)質(zhì)量參數(shù),以及目標(biāo)模型在不同的訓(xùn)練周期的不同的狀態(tài)參數(shù)下對數(shù)據(jù)質(zhì)量不同的訓(xùn)練樣本數(shù)據(jù)的需求,對設(shè)置于不同分層中的不同異構(gòu)存儲資源進(jìn)行調(diào)度管理,以提升水平方向的數(shù)據(jù)存取效率,從而可以從橫縱兩方面全面提升數(shù)據(jù)的存取效率,進(jìn)而可以提升模型的訓(xùn)練效率。