本公開涉及人工智能,尤其涉及文本處理、大語言模型。
背景技術(shù):
1、大語言模型(large?language?model,llm)是使用大量自然語言文本對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練得到的,能夠理解輸入的自然語言文本的含義,還能生成自然語言文本。大語言模型可廣泛應(yīng)用于問答、對(duì)話或者文本分類等人工智能領(lǐng)域。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種大模型管理方法、裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)。
2、本公開實(shí)施例的第一方面,提供了一種大模型管理方法,包括:
3、獲取大語言模型在預(yù)設(shè)時(shí)間段內(nèi),處理預(yù)設(shè)種類的目標(biāo)問題實(shí)際消耗的第一資源量;
4、確定訓(xùn)練預(yù)設(shè)小模型預(yù)計(jì)消耗的第二資源量,以及所述預(yù)設(shè)小模型在所述預(yù)設(shè)時(shí)間段內(nèi)處理所述目標(biāo)問題預(yù)計(jì)消耗的第三資源量,所述第三資源量小于所述第一資源量;
5、基于所述第一資源量、所述第二資源量和所述第三資源量,確定是否滿足預(yù)設(shè)的小模型訓(xùn)練條件;
6、若是,則確定訓(xùn)練所述預(yù)設(shè)小模型,其中,訓(xùn)練后的預(yù)設(shè)小模型用于處理所述預(yù)設(shè)種類的問題。
7、本公開實(shí)施例的第二方面,提供了一種大模型管理裝置,包括:
8、獲取模塊,用于獲取大語言模型在預(yù)設(shè)時(shí)間段內(nèi),處理預(yù)設(shè)種類的目標(biāo)問題實(shí)際消耗的第一資源量;
9、確定模塊,還用于確定訓(xùn)練預(yù)設(shè)小模型預(yù)計(jì)消耗的第二資源量,以及所述預(yù)設(shè)小模型在所述預(yù)設(shè)時(shí)間段內(nèi)處理所述目標(biāo)問題預(yù)計(jì)消耗的第三資源量,所述第三資源量小于所述第一資源量;
10、判斷模塊,用于基于所述第一資源量、所述第二資源量和所述第三資源量,確定是否滿足預(yù)設(shè)的小模型訓(xùn)練條件;
11、所述確定模塊,還用于若所述判斷模塊的判斷結(jié)果為是,則確定訓(xùn)練所述預(yù)設(shè)小模型,其中,訓(xùn)練后的預(yù)設(shè)小模型用于處理所述預(yù)設(shè)種類的問題。
12、本公開實(shí)施例的第三方面,提供了一種電子設(shè)備,包括:
13、至少一個(gè)處理器;以及
14、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
15、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行第一方面中任一項(xiàng)所述的方法。
16、本公開實(shí)施例的第四方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)第一方面中任一項(xiàng)所述的方法。
17、本公開實(shí)施例的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)第一方面中任一項(xiàng)所述的方法。
18、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種大模型管理方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,在所述獲取大語言模型在預(yù)設(shè)時(shí)間段內(nèi),處理預(yù)設(shè)種類的目標(biāo)問題實(shí)際消耗的第一資源量之前,還包括:
3.根據(jù)權(quán)利要求1所述的方法,其中,所述獲取大語言模型在預(yù)設(shè)時(shí)間段內(nèi),處理預(yù)設(shè)種類的目標(biāo)問題實(shí)際消耗的第一資源量,包括:
4.根據(jù)權(quán)利要求1所述的方法,其中,所述獲取大語言模型在預(yù)設(shè)時(shí)間段內(nèi),處理預(yù)設(shè)種類的目標(biāo)問題實(shí)際消耗的第一資源量,包括:
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其中,所述基于所述第一資源量、所述第二資源量和所述第三資源量,確定是否滿足預(yù)設(shè)的小模型訓(xùn)練條件,包括:
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,在所述確定訓(xùn)練所述預(yù)設(shè)小模型之后,還包括:
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,在所述確定訓(xùn)練所述預(yù)設(shè)小模型之后,還包括:
8.根據(jù)權(quán)利要求1-7任一項(xiàng)所述的方法,在所述確定訓(xùn)練所述預(yù)設(shè)小模型之后,還包括:
9.根據(jù)權(quán)利要求8所述的方法,其中,所述根據(jù)所述第一資源量和所述第三資源量,確定副本縮減數(shù)量,包括:
10.根據(jù)權(quán)利要求1-7任一項(xiàng)所述的方法,在所述確定訓(xùn)練所述預(yù)設(shè)小模型之后,還包括:
11.一種大模型管理裝置,包括:
12.一種電子設(shè)備,包括:
13.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-10中任一項(xiàng)所述的方法。
14.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-10中任一項(xiàng)所述的方法。