本公開(kāi)涉及機(jī)器學(xué)習(xí),尤其涉及一種模型即服務(wù)的推理優(yōu)化方法、一種模型即服務(wù)的推理優(yōu)化裝置、一種電子設(shè)備、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和一種計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著大模型技術(shù)的發(fā)展,應(yīng)用場(chǎng)景逐漸從通用場(chǎng)景向行業(yè)定制化場(chǎng)景發(fā)展,為了節(jié)省不同行業(yè)用戶微調(diào)和使用定制化大模型的成本,越來(lái)越多的云計(jì)算廠商開(kāi)始提供maas(model?as?a?service,模型即服務(wù))服務(wù),其中,大模型推理是maas服務(wù)的一個(gè)關(guān)鍵業(yè)務(wù),但由于大模型參數(shù)量巨大,其推理時(shí)延較長(zhǎng),因此可以使用gpu(graphics?processingunit,圖形處理單元)等加速器來(lái)處理,然而,gpu內(nèi)存等資源有限,在多個(gè)租戶共享相同的云計(jì)算廠商資源的云計(jì)算多租戶場(chǎng)景中,由于需要單獨(dú)為每個(gè)用戶在gpu系統(tǒng)中維護(hù)完整的定制大模型進(jìn)行推理,導(dǎo)致gpu內(nèi)存的開(kāi)銷較大、成本較高。
2、需要說(shuō)明的是,在上述背景技術(shù)部分公開(kāi)的信息僅用于加強(qiáng)對(duì)本公開(kāi)的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)的目的在于提供一種模型即服務(wù)的推理優(yōu)化方法、一種模型即服務(wù)的推理優(yōu)化裝置、一種電子設(shè)備、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和一種計(jì)算機(jī)程序產(chǎn)品,至少在一定程度上克服相關(guān)技術(shù)中監(jiān)控?cái)z像頭的所處的場(chǎng)景信息缺失的問(wèn)題。
2、本公開(kāi)的其他特性和優(yōu)點(diǎn)將通過(guò)下面的詳細(xì)描述變得顯然,或部分地通過(guò)本公開(kāi)的實(shí)踐而習(xí)得。
3、根據(jù)本公開(kāi)的一個(gè)方面,提供一種模型即服務(wù)的推理優(yōu)化方法,包括:響應(yīng)于接收到的多個(gè)用戶調(diào)用多個(gè)微調(diào)大模型推理的調(diào)用請(qǐng)求,對(duì)所述調(diào)用請(qǐng)求進(jìn)行預(yù)處理,生成第一請(qǐng)求集合和第二請(qǐng)求集合,所述第一請(qǐng)求集合對(duì)應(yīng)于基礎(chǔ)大模型的推理,所述第二請(qǐng)求集合對(duì)應(yīng)于所述微調(diào)大模型的推理;基于所述基礎(chǔ)大模型的共享凍結(jié)參數(shù)對(duì)所述第一請(qǐng)求集合進(jìn)行推理得到第一批處理結(jié)果,基于所述微調(diào)大模型的非共享參數(shù)對(duì)所述第二請(qǐng)求集合進(jìn)行推理得到第二批處理結(jié)果;合并所述第一批處理結(jié)果和所述第二批處理結(jié)果得到目標(biāo)結(jié)果,將所述目標(biāo)結(jié)果反饋至所述多個(gè)用戶。
4、在本公開(kāi)的一個(gè)實(shí)施例中,在響應(yīng)于接收到的多個(gè)用戶調(diào)用多個(gè)微調(diào)大模型推理的調(diào)用請(qǐng)求,對(duì)所述調(diào)用請(qǐng)求進(jìn)行預(yù)處理之前,還包括:接收用戶提交的微調(diào)大模型的信息三元組,對(duì)所述信息三元組進(jìn)行注冊(cè)保存,所述信息三元組包括基礎(chǔ)大模型標(biāo)識(shí)、對(duì)應(yīng)的微調(diào)大模型標(biāo)識(shí)以及所述微調(diào)大模型的非共享參數(shù)。
5、在本公開(kāi)的一個(gè)實(shí)施例中,還包括:將所述微調(diào)大模型的非共享參數(shù)存儲(chǔ)至大模型參數(shù)存儲(chǔ)庫(kù),所述大模型參數(shù)存儲(chǔ)庫(kù)還包括多種所述基礎(chǔ)大模型標(biāo)識(shí)的所述共享凍結(jié)參數(shù)。
6、在本公開(kāi)的一個(gè)實(shí)施例中,響應(yīng)于接收到的多個(gè)用戶調(diào)用多個(gè)微調(diào)大模型推理的調(diào)用請(qǐng)求,對(duì)所述調(diào)用請(qǐng)求進(jìn)行預(yù)處理,生成第一請(qǐng)求集合和第二請(qǐng)求集合,包括:響應(yīng)于所述調(diào)用請(qǐng)求,提取所述調(diào)用請(qǐng)求中的所述微調(diào)大模型標(biāo)識(shí);查詢與所述微調(diào)大模型標(biāo)識(shí)匹配的所述基礎(chǔ)大模型標(biāo)識(shí);基于所述基礎(chǔ)大模型標(biāo)識(shí)相同的第一調(diào)用請(qǐng)求生成共享參數(shù)批,基于所述微調(diào)大模型標(biāo)識(shí)相同的第二調(diào)用請(qǐng)求生成非共享參數(shù)批;基于多個(gè)所述基礎(chǔ)大模型標(biāo)識(shí)對(duì)應(yīng)的多個(gè)所述共享參數(shù)批生成所述第一請(qǐng)求集合,基于多個(gè)所述微調(diào)大模型標(biāo)識(shí)對(duì)應(yīng)的多個(gè)所述非共享參數(shù)批生成所述第二請(qǐng)求集合。
7、在本公開(kāi)的一個(gè)實(shí)施例中,所述調(diào)用請(qǐng)求還包括用戶輸入的文本數(shù)據(jù),基于所述基礎(chǔ)大模型標(biāo)識(shí)相同的所述調(diào)用請(qǐng)求生成共享參數(shù)批,基于所述微調(diào)大模型標(biāo)識(shí)相同的所述調(diào)用請(qǐng)求生成非共享參數(shù)批,包括:對(duì)于具有相同的所述基礎(chǔ)大模型標(biāo)識(shí)的所述第一調(diào)用請(qǐng)求,對(duì)所述第一調(diào)用請(qǐng)求中的所述文本數(shù)據(jù)進(jìn)行維度一致性操作,得到所述共享參數(shù)批;對(duì)于具有相同的所述微調(diào)大模型標(biāo)識(shí)的所述第二調(diào)用請(qǐng)求,對(duì)所述第二調(diào)用請(qǐng)求中的所述文本數(shù)據(jù)進(jìn)行維度一致性操作,得到所述非共享參數(shù)批。
8、在本公開(kāi)的一個(gè)實(shí)施例中,在基于所述基礎(chǔ)大模型的共享凍結(jié)參數(shù)對(duì)所述第一請(qǐng)求集合進(jìn)行推理得到第一批處理結(jié)果,基于所述微調(diào)大模型的非共享參數(shù)對(duì)所述第二請(qǐng)求集合進(jìn)行推理得到第二批處理結(jié)果之前,還包括:將所述第一請(qǐng)求集合調(diào)度到共享參數(shù)批處理模塊以對(duì)所述第一請(qǐng)求集合進(jìn)行推理,將所述第二請(qǐng)求集合調(diào)度到非共享參數(shù)批處理模塊以對(duì)所述第二請(qǐng)求集合進(jìn)行推理。
9、在本公開(kāi)的一個(gè)實(shí)施例中,基于所述基礎(chǔ)大模型的共享凍結(jié)參數(shù)對(duì)所述第一請(qǐng)求集合進(jìn)行推理得到第一批處理結(jié)果,基于所述微調(diào)大模型的非共享參數(shù)對(duì)所述第二請(qǐng)求集合進(jìn)行推理得到第二批處理結(jié)果,包括:從所述大模型參數(shù)存儲(chǔ)庫(kù)中讀取并加載與所述基礎(chǔ)大模型標(biāo)識(shí)對(duì)應(yīng)的所述共享凍結(jié)參數(shù),以及與所述微調(diào)大模型標(biāo)識(shí)對(duì)應(yīng)的所述非共享參數(shù)將所述第一請(qǐng)求集合輸入至加載有所述共享凍結(jié)參數(shù)的處理框架中進(jìn)行批處理操作,得到所述第一批處理結(jié)果;將所述第二請(qǐng)求集合輸入至加載有所述非共享參數(shù)的處理框架中進(jìn)行批處理操作,得到所述第二批處理結(jié)果。
10、在本公開(kāi)的一個(gè)實(shí)施例中,合并所述第一批處理結(jié)果和所述第二批處理結(jié)果得到目標(biāo)結(jié)果,包括:確定所述共享凍結(jié)參數(shù)的第一權(quán)重,以及所述非共享參數(shù)的第二權(quán)重;為所述第一批處理結(jié)果分配所述第一權(quán)重,為所述第二批處理結(jié)果分配所述第二權(quán)重,以合并所述第一批處理結(jié)果和所述第二批處理結(jié)果得到目標(biāo)結(jié)果。
11、根據(jù)本公開(kāi)的另一個(gè)方面,提供一種模型即服務(wù)的推理優(yōu)化方法,應(yīng)用于租戶端,包括:向服務(wù)端發(fā)送調(diào)用微調(diào)大模型推理的調(diào)用請(qǐng)求,所述調(diào)用請(qǐng)求包括微調(diào)大模型標(biāo)識(shí);接收所述服務(wù)端基于所述調(diào)用請(qǐng)求生成的目標(biāo)結(jié)果,其中,所述服務(wù)端基于所述微調(diào)大模型標(biāo)識(shí)確定匹配的基礎(chǔ)大模型標(biāo)識(shí),對(duì)基于所述基礎(chǔ)大模型標(biāo)識(shí)生成的第一批推理結(jié)果和基于所述微調(diào)大模型標(biāo)識(shí)生成的第二批處理結(jié)果進(jìn)行合并得到所述目標(biāo)結(jié)果。
12、在本公開(kāi)的一個(gè)實(shí)施例中,在向服務(wù)端發(fā)送調(diào)用微調(diào)大模型推理的調(diào)用請(qǐng)求之前,還包括:向所述服務(wù)端提交微調(diào)大模型的信息三元組,對(duì)所述信息三元組進(jìn)行注冊(cè)保存,所述信息三元組包括基礎(chǔ)大模型標(biāo)識(shí)、對(duì)應(yīng)的微調(diào)大模型標(biāo)識(shí)以及所述微調(diào)大模型的非共享參數(shù),其中,基于共享凍結(jié)參數(shù)進(jìn)行推理得到所述第一批處理結(jié)果,基于所述非共享參數(shù)進(jìn)行推理得到所述第二批處理結(jié)果。
13、根據(jù)本公開(kāi)的再一個(gè)方面,提供一種模型即服務(wù)的推理優(yōu)化裝置,包括:預(yù)處理模塊,用于響應(yīng)于接收到的多個(gè)用戶調(diào)用多個(gè)微調(diào)大模型推理的調(diào)用請(qǐng)求,對(duì)所述調(diào)用請(qǐng)求進(jìn)行預(yù)處理,生成第一請(qǐng)求集合和第二請(qǐng)求集合,所述第一請(qǐng)求集合對(duì)應(yīng)于基礎(chǔ)大模型的推理,所述第二請(qǐng)求集合對(duì)應(yīng)于所述微調(diào)大模型的推理;推理模塊,用于基于所述基礎(chǔ)大模型的共享凍結(jié)參數(shù)對(duì)所述第一請(qǐng)求集合進(jìn)行推理得到第一批處理結(jié)果,基于所述微調(diào)大模型的非共享參數(shù)對(duì)所述第二請(qǐng)求集合進(jìn)行推理得到第二批處理結(jié)果;合并模塊,用于合并所述第一批處理結(jié)果和所述第二批處理結(jié)果得到目標(biāo)結(jié)果,將所述目標(biāo)結(jié)果反饋至所述多個(gè)用戶。
14、根據(jù)本公開(kāi)的又一個(gè)方面,提供一種模型即服務(wù)的推理優(yōu)化裝置,包括:發(fā)送模塊,用于向服務(wù)端發(fā)送調(diào)用微調(diào)大模型推理的調(diào)用請(qǐng)求,所述調(diào)用請(qǐng)求包括微調(diào)大模型標(biāo)識(shí);接收模塊,用于接收所述服務(wù)端基于所述調(diào)用請(qǐng)求生成的目標(biāo)結(jié)果,其中,所述服務(wù)端基于所述微調(diào)大模型標(biāo)識(shí)確定匹配的基礎(chǔ)大模型標(biāo)識(shí),對(duì)基于所述基礎(chǔ)大模型標(biāo)識(shí)生成的第一批推理結(jié)果和基于所述微調(diào)大模型標(biāo)識(shí)生成的第二批處理結(jié)果進(jìn)行合并得到所述目標(biāo)結(jié)果。
15、根據(jù)本公開(kāi)的又一個(gè)方面,提供一種電子設(shè)備,包括:處理器;以及存儲(chǔ)器,用于存儲(chǔ)處理器的可執(zhí)行指令;所述處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來(lái)執(zhí)行上述的模型即服務(wù)的推理優(yōu)化方法。
16、根據(jù)本公開(kāi)的又一個(gè)方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的模型即服務(wù)的推理優(yōu)化方法。
17、根據(jù)本公開(kāi)的又一個(gè)方面,提供一種計(jì)算機(jī)程序產(chǎn)品,其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的模型即服務(wù)的推理優(yōu)化方法。
18、本公開(kāi)的實(shí)施例所提供的模型即服務(wù)的推理優(yōu)化方案,當(dāng)接收到多個(gè)用戶的調(diào)用請(qǐng)求時(shí),首先進(jìn)入預(yù)處理步驟,通過(guò)運(yùn)用預(yù)先設(shè)定的算法和規(guī)則,對(duì)每個(gè)請(qǐng)求進(jìn)行深入分析,判斷其適合由基礎(chǔ)大模型還是微調(diào)大模型來(lái)處理,并將其分別歸入第一請(qǐng)求集合和第二請(qǐng)求集合,對(duì)于第一請(qǐng)求集合使用共享凍結(jié)參數(shù)來(lái)執(zhí)行推理操作,對(duì)于第二請(qǐng)求集合讀取并應(yīng)用非共享參數(shù),將請(qǐng)求輸入到微調(diào)大模型中進(jìn)行推理,最后將第一批處理結(jié)果和第二批處理結(jié)果進(jìn)行合并,形成一個(gè)完整的目標(biāo)結(jié)果,通過(guò)使不同租戶共享凍結(jié)的參數(shù)進(jìn)行推理任務(wù)的批處理,減少多租戶大模型的gpu內(nèi)存資源使用量,降低推理成本,結(jié)合非共享參數(shù)能夠同時(shí)滿足通用需求和特定需求,以適應(yīng)多種不同的應(yīng)用場(chǎng)景和用戶請(qǐng)求,從而有利于資源的合理分配和模型利用,以降低maas服務(wù)的運(yùn)營(yíng)和維護(hù)成本。
19、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。