本申請涉及軟件監(jiān)控和金融科技,尤其涉及一種集群gpu利用率的管理方法、裝置、計算機設備及存儲介質。
背景技術:
1、在金融領域,隨著人工智能和大數(shù)據(jù)技術的快速發(fā)展,gpu(graphics?processingunit,圖形處理單元)已成為處理復雜金融模型、大數(shù)據(jù)分析以及實時交易等任務的關鍵計算資源。然而,傳統(tǒng)的gpu資源管理方法在金融應用中面臨著諸多挑戰(zhàn)。
2、首先,金融領域對計算資源的穩(wěn)定性和高效性要求極高,而傳統(tǒng)方法在管理gpu資源時往往難以實現(xiàn)資源的最大化利用,導致gpu資源的浪費和效率低下。這不僅增加了金融機構的運營成本,還限制了金融業(yè)務的處理速度和準確性。
3、針對上述問題,現(xiàn)有技術提出了一些解決方案,但在金融領域的應用中仍存在不足。例如,中國專利cn201910430474.7提出的面向深度學習的多類型gpu集群資源管理調度方法和系統(tǒng),能夠根據(jù)gpu型號將gpu集群劃分為若干gpu組,獲取作業(yè)隊列中優(yōu)先級最高的待處理作業(yè)并根據(jù)待處理作業(yè)調度gpu集群資源。這種方法雖然在一定程度上提高資源調度的靈活性,但仍無法實現(xiàn)gpu資源的完全隔離和動態(tài)調度,導致在處理敏感金融數(shù)據(jù)時可能存在安全隱患,且資源利用率的進一步提升受到限制。另一方面,專利cn202211442603.4提出了一種基于多租戶的kubernetes集群資源管理方法及系統(tǒng),通過資源配額信息和預先配置的配額策略創(chuàng)建租戶的id和命名空間(namespace),盡管這種方法在資源管理和多租戶支持方面取得了一定的進展,但未能充分利用kubernetes技術進行不同命名空間之間的動態(tài)調度,也未實現(xiàn)通過結合多種監(jiān)控指標對gpu資源進行全面管理,從而無法滿足金融領域對資源精細化管理和高效利用的需求。此外,專利cn202110224312.0提出的一種集群資源管理調度方法,能夠將集群資源劃分為多個資源池,實現(xiàn)任務隔離。然而,這種方法未利用命名空間對虛擬化的資源進行分組管理,導致調度分組資源和調整各分組資源數(shù)量的過程較為復雜和繁瑣,無法適應金融領域快速變化的業(yè)務需求。
4、總體而言,現(xiàn)有的技術無法在有效提升集群gpu利用率的同時減低成本,在實現(xiàn)資源分組隔離的同時,能夠通過公共命名空間(public?namespace)實現(xiàn)動態(tài)調用,并通過多種監(jiān)控指標結合,實現(xiàn)整個集群的資源管理,在降低成本的同時提高gpu資源的利用率。
技術實現(xiàn)思路
1、本申請實施例的目的在于提出一種集群gpu利用率的管理方法、裝置、計算機設備及存儲介質,以解決現(xiàn)有技術在gpu集群資源管理上無法同時兼顧降低成本、資源分組隔離以及資源動態(tài)調度的技術問題。
2、為了解決上述技術問題,本申請實施例提供一種集群gpu利用率的管理方法,采用了如下所述的技術方案:
3、根據(jù)預設劃分條件確定命名空間劃分方式,基于所述命名空間劃分方式對集群劃分命名空間,所述命名空間包括多個業(yè)務命名空間和一個公共命名空間;
4、為每個所述業(yè)務命名空間設置業(yè)務gpu資源配額,根據(jù)所述業(yè)務gpu資源配額獲得所述公共命名空間的公共gpu資源配額;
5、根據(jù)所述業(yè)務gpu資源配額和所述公共gpu資源配額為每個所述業(yè)務命名空間分配gpu資源,得到業(yè)務gpu資源;
6、實時采集各所述業(yè)務命名空間的業(yè)務gpu資源的資源監(jiān)控數(shù)據(jù);
7、根據(jù)所述資源監(jiān)控數(shù)據(jù)和預設的調度策略,判斷是否存在空閑業(yè)務命名空間,若存在,則觸發(fā)資源回收流程,將所述空閑業(yè)務命名空間的業(yè)務gpu資源回收到所述公共命名空間中;
8、接收目標業(yè)務命名空間的gpu資源申請請求,根據(jù)所述gpu資源申請請求中的申請信息、當前gpu資源使用數(shù)據(jù)和預設的資源分配優(yōu)先級規(guī)則,判斷是否滿足分配條件,若滿足所述分配條件,則將所述公共命名空間中的gpu資源分配到所述目標業(yè)務命名空間。
9、為了解決上述技術問題,本申請實施例還提供一種集群gpu利用率的管理裝置,采用了如下所述的技術方案:
10、劃分模塊,用于根據(jù)預設劃分條件確定命名空間劃分方式,基于所述命名空間劃分方式對集群劃分命名空間,所述命名空間包括多個業(yè)務命名空間和一個公共命名空間;
11、設置模塊,用于為每個所述業(yè)務命名空間設置業(yè)務gpu資源配額,根據(jù)所述業(yè)務gpu資源配額獲得所述公共命名空間的公共gpu資源配額;
12、資源分配模塊,用于根據(jù)所述業(yè)務gpu資源配額和所述公共gpu資源配額為每個所述業(yè)務命名空間分配gpu資源,得到業(yè)務gpu資源;
13、采集模塊,用于實時采集各所述業(yè)務命名空間的業(yè)務gpu資源的資源監(jiān)控數(shù)據(jù);
14、資源回收模塊,用于根據(jù)所述資源監(jiān)控數(shù)據(jù)和預設的調度策略,判斷是否存在空閑業(yè)務命名空間,若存在,則觸發(fā)資源回收流程,將所述空閑業(yè)務命名空間的業(yè)務gpu資源回收到所述公共命名空間中;
15、資源調度模塊,用于接收目標業(yè)務命名空間的gpu資源申請請求,根據(jù)所述gpu資源申請請求中的申請信息、當前gpu資源使用數(shù)據(jù)和預設的資源分配優(yōu)先級規(guī)則,判斷是否滿足分配條件,若滿足所述分配條件,則將所述公共命名空間中的gpu資源分配到所述目標業(yè)務命名空間。
16、為了解決上述技術問題,本申請實施例還提供一種計算機設備,采用了如下所述的技術方案:
17、該計算機設備包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如上所述的集群gpu利用率的管理方法的步驟。
18、為了解決上述技術問題,本申請實施例還提供一種計算機可讀存儲介質,采用了如下所述的技術方案:
19、所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如上所述的集群gpu利用率的管理方法的步驟。
20、與現(xiàn)有技術相比,本申請主要有以下有益效果:
21、本申請?zhí)峁┮环N集群gpu利用率的管理方法,通過將集群按照預設劃分條件劃分為命名空間,實現(xiàn)資源的相互隔離;為每個業(yè)務命名空間設置業(yè)務gpu資源配額,根據(jù)業(yè)務gpu資源配額獲得公共命名空間的公共gpu資源配額,根據(jù)業(yè)務gpu資源配額和公共gpu資源配額為每個業(yè)務命名空間分配gpu資源,能夠合理分配資源,提高gpu資源的利用率;實時采集各業(yè)務命名空間的業(yè)務gpu資源的資源監(jiān)控數(shù)據(jù),根據(jù)資源監(jiān)控數(shù)據(jù)和預設的調度策略,在存在空閑業(yè)務命名空間時,觸發(fā)資源回收流程,將空閑業(yè)務命名空間的業(yè)務gpu資源回收到公共命名空間中,能夠動態(tài)調整資源配額,避免各個命名空間空占資源,提高gpu資源利用率,降低成本;接收來自業(yè)務命名空間的gpu資源申請請求,根據(jù)gpu資源申請請求中的申請信息、當前資源使用狀況和預設的資源分配優(yōu)先級規(guī)則,判斷是否滿足分配條件,在滿足分配條件時,則將公共命名空間中的gpu資源分配到申請的目標業(yè)務命名空間,能夠動態(tài)調度gpu資源,實現(xiàn)gpu資源利用率最大化。
1.一種集群gpu利用率的管理方法,其特征在于,包括下述步驟:
2.根據(jù)權利要求1所述的集群gpu利用率的管理方法,其特征在于,所述為每個所述業(yè)務命名空間設置業(yè)務gpu資源配額,根據(jù)所述業(yè)務gpu資源配額獲得所述公共命名空間的公共gpu資源配額的步驟包括:
3.根據(jù)權利要求2所述的集群gpu利用率的管理方法,其特征在于,所述根據(jù)所述業(yè)務gpu資源配額和所述公共gpu資源配額為每個所述業(yè)務命名空間分配gpu資源,得到業(yè)務gpu資源的步驟包括:
4.根據(jù)權利要求3所述的集群gpu利用率的管理方法,其特征在于,所述根據(jù)所述資源監(jiān)控數(shù)據(jù)和預設的調度策略,判斷是否存在空閑業(yè)務命名空間,若存在,則觸發(fā)資源回收流程,將所述空閑業(yè)務命名空間的業(yè)務gpu資源回收到所述公共命名空間中作為公共資源池的步驟包括:
5.根據(jù)權利要求1所述的集群gpu利用率的管理方法,其特征在于,所述根據(jù)所述gpu資源申請請求中的申請信息、當前資源使用數(shù)據(jù)和預設的資源分配優(yōu)先級規(guī)則,判斷是否滿足分配條件,若滿足所述分配條件,則將所述公共命名空間中的gpu資源分配到申請的所述業(yè)務命名空間的步驟包括:
6.根據(jù)權利要求1所述的集群gpu利用率的管理方法,其特征在于,在所述將所述公共命名空間中的gpu資源分配到所述目標業(yè)務命名空間的步驟之后還包括:
7.根據(jù)權利要求1所述的集群gpu利用率的管理方法,其特征在于,在所述將所述公共命名空間中的gpu資源分配到所述目標業(yè)務命名空間的步驟之后還包括:
8.一種集群gpu利用率的管理裝置,其特征在于,包括:
9.一種計算機設備,其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如權利要求1至7中任一項所述的集群gpu利用率的管理方法的步驟。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述的集群gpu利用率的管理方法的步驟。