本發(fā)明涉及人工智能,具體涉及一種大模型推理方法、系統(tǒng)、計算機設(shè)備以及非易失性計算機可讀存儲介質(zhì)。
背景技術(shù):
1、目前,隨著深度學(xué)習(xí)技術(shù)的突破性進展,大模型推理已經(jīng)成為人工智能領(lǐng)域的一個熱點話題。大模型,即大型語言模型(llm,large?language?model),如gpt、bert等,由于其出色的性能,在自然語言處理、圖像識別和復(fù)雜決策任務(wù)中得到了廣泛應(yīng)用。這些模型通常需要大量的數(shù)據(jù)進行預(yù)訓(xùn)練,以學(xué)習(xí)復(fù)雜的數(shù)據(jù)表示。一旦訓(xùn)練完成,模型就可以用來對新的數(shù)據(jù)進行推理,從而在各種應(yīng)用中提供精準(zhǔn)的預(yù)測或生成能力。
2、然而,在實際應(yīng)用中,大模型推理面臨多項挑戰(zhàn)。首先,推理過程計算量巨大,需要高性能的硬件支持,這就要求相關(guān)的硬件和軟件基礎(chǔ)設(shè)施必須能夠有效支持大規(guī)模并行計算。其次,大模型通常需要優(yōu)化以適應(yīng)特定任務(wù),這可能包括微調(diào)模型參數(shù)或進行知識蒸餾以簡化模型結(jié)構(gòu)。此外,最重要的是,大模型推理過程必須考慮到隱私和安全性問題,尤其是針對金融領(lǐng)域中處理敏感數(shù)據(jù)時,保護數(shù)據(jù)的隱私格外重要。
3、基于此,如何提供一種大模型推理方法、系統(tǒng)、計算機設(shè)備以及非易失性計算機可讀存儲介質(zhì),可實現(xiàn)對于大模型推理階段的隱私保護,是目前本領(lǐng)域技術(shù)人員亟待解決的問題。
技術(shù)實現(xiàn)思路
1、鑒于上述現(xiàn)有技術(shù)的不足之處,本發(fā)明的目的在于提供一種可用于金融科技或其他相關(guān)領(lǐng)域的大模型推理方法、系統(tǒng)、計算機設(shè)備以及非易失性計算機可讀存儲介質(zhì),旨在解決如何實現(xiàn)對于大模型推理階段的隱私保護的問題。
2、為了達到上述目的,本發(fā)明采取了以下技術(shù)方案:
3、一種大模型推理方法,其中,包括:
4、對預(yù)訓(xùn)練的目標(biāo)大模型進行分割,得到所述目標(biāo)大模型對應(yīng)的輸入層、中間層、以及輸出層;
5、將所述輸入層與所述輸出層均部署在客戶端,將所述中間層部署在服務(wù)端;
6、接收目標(biāo)用戶在所述客戶端輸入的prompt,并通過所述輸入層對所述prompt進行編碼,得到對應(yīng)的數(shù)值向量;
7、將所述數(shù)值向量上傳至所述服務(wù)端,并通過所述中間層對所述數(shù)值向量進行推理,得到對應(yīng)的結(jié)果向量;
8、將所述結(jié)果向量返回至所述客戶端,并通過所述輸出層對所述結(jié)果向量進行解碼,得到對應(yīng)的結(jié)果文本。
9、在進一步的技術(shù)方案中,所述的大模型推理方法,其中,所述對預(yù)訓(xùn)練的目標(biāo)大模型進行分割,得到所述目標(biāo)大模型對應(yīng)的輸入層、中間層、以及輸出層,包括:
10、根據(jù)用戶需求,預(yù)先確定分割策略;
11、采用所述分割策略對預(yù)訓(xùn)練的目標(biāo)大模型進行分割,得到所述目標(biāo)大模型對應(yīng)的輸入層、中間層、以及輸出層。
12、在進一步的技術(shù)方案中,所述的大模型推理方法,其中,所述將所述輸入層與所述輸出層均部署在客戶端,將所述中間層部署在服務(wù)端,包括:
13、根據(jù)所述用戶需求,預(yù)先確定部署策略;
14、采用所述部署策略將所述輸入層與所述輸出層均部署在客戶端、以及將所述中間層部署在服務(wù)端。
15、在進一步的技術(shù)方案中,所述的大模型推理方法,其中,所述接收目標(biāo)用戶在所述客戶端輸入的prompt,并通過所述輸入層對所述prompt進行編碼,得到對應(yīng)的數(shù)值向量,包括:
16、接收目標(biāo)用戶在所述客戶端輸入的prompt;
17、通過部署在所述客戶端的所述輸入層對所述prompt進行編碼,得到對應(yīng)的初始數(shù)值向量;
18、通過預(yù)設(shè)的私有知識庫對所述初始數(shù)值向量進行檢索增強處理,得到對應(yīng)的數(shù)值向量。
19、在進一步的技術(shù)方案中,所述的大模型推理方法,其中,所述將所述數(shù)值向量上傳至所述服務(wù)端,并通過所述中間層對所述數(shù)值向量進行推理,得到對應(yīng)的結(jié)果向量,包括:
20、將經(jīng)檢索增強處理后得到的所述數(shù)值向量上傳至所述服務(wù)端;
21、通過部署在所述服務(wù)端的所述中間層對所述數(shù)值向量進行推理,得到對應(yīng)的初始結(jié)果向量;
22、對所述初始結(jié)果向量進行規(guī)范化處理,得到對應(yīng)的結(jié)果向量。
23、在進一步的技術(shù)方案中,所述的大模型推理方法,其中,所述將所述結(jié)果向量返回至所述客戶端,并通過所述輸出層對所述結(jié)果向量進行解碼,得到對應(yīng)的結(jié)果文本,包括:
24、將所述結(jié)果向量返回至所述客戶端;
25、通過部署在所述客戶端的所述輸出層對所述結(jié)果向量進行解碼,得到對應(yīng)的初始結(jié)果文本;
26、對所述初始結(jié)果文本進行校正處理,得到對應(yīng)的結(jié)果文本。
27、在進一步的技術(shù)方案中,所述的大模型推理方法,其中,所述對預(yù)訓(xùn)練的目標(biāo)大模型進行分割,得到所述目標(biāo)大模型對應(yīng)的輸入層、中間層、以及輸出層,其中,
28、所述目標(biāo)大模型為聯(lián)邦大模型,所述輸入層、所述中間層、以及所述輸出層分別為embedding層、transformer層、以及decoder層。
29、一種大模型推理系統(tǒng),其中,包括:
30、分割模塊,用于對預(yù)訓(xùn)練的目標(biāo)大模型進行分割,得到所述目標(biāo)大模型對應(yīng)的輸入層、中間層、以及輸出層;
31、部署模塊,用于將所述輸入層與所述輸出層均部署在客戶端,將所述中間層部署在服務(wù)端;
32、編碼模塊,用于接收目標(biāo)用戶在所述客戶端輸入的prompt,并通過所述輸入層對所述prompt進行編碼,得到對應(yīng)的數(shù)值向量;
33、推理模塊,用于將所述數(shù)值向量上傳至所述服務(wù)端,并通過所述中間層對所述數(shù)值向量進行推理,得到對應(yīng)的結(jié)果向量;
34、解碼模塊,用于將所述結(jié)果向量返回至所述客戶端,并通過所述輸出層對所述結(jié)果向量進行解碼,得到對應(yīng)的結(jié)果文本。
35、一種計算機設(shè)備,其中,所述計算機設(shè)備包括至少一個處理器;以及,
36、與所述至少一個處理器通信連接的存儲器;其中,
37、所述存儲器上存儲有可被所述至少一個處理器執(zhí)行的計算機程序,所述計算機程序被所述至少一個處理器執(zhí)行時,可實現(xiàn)如上述任一項所述的大模型推理方法。
38、一種非易失性計算機可讀存儲介質(zhì),其中,所述非易失性計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被至少一個處理器執(zhí)行時,可實現(xiàn)如上述任一項所述的大模型推理方法。
39、相較于現(xiàn)有技術(shù),本發(fā)明提供了一種大模型推理方法、系統(tǒng)、計算機設(shè)備以及非易失性計算機可讀存儲介質(zhì),其中,所述方法包括:對預(yù)訓(xùn)練的目標(biāo)大模型進行分割,得到所述目標(biāo)大模型對應(yīng)的輸入層、中間層、以及輸出層;將所述輸入層與所述輸出層均部署在客戶端,將所述中間層部署在服務(wù)端;接收目標(biāo)用戶在所述客戶端輸入的prompt,并通過所述輸入層對所述prompt進行編碼,得到對應(yīng)的數(shù)值向量;將所述數(shù)值向量上傳至所述服務(wù)端,并通過所述中間層對所述數(shù)值向量進行推理,得到對應(yīng)的結(jié)果向量;將所述結(jié)果向量返回至所述客戶端,并通過所述輸出層對所述結(jié)果向量進行解碼,得到對應(yīng)的結(jié)果文本。這樣,本發(fā)明的方法通過將目標(biāo)大模型進行模型分割,將其分為輸入層、中間層、輸出層,讓其分布在實際應(yīng)用場景中的客戶端和服務(wù)端,在保證用戶明文數(shù)據(jù)隱私不出本地的情況下,可更好地請求服務(wù)端的服務(wù);這樣,本發(fā)明方法不僅實現(xiàn)了保護用戶的數(shù)據(jù)隱私,即實現(xiàn)了對于大模型推理階段的隱私保護,還充分利用了服務(wù)端的強大計算能力。