本技術(shù)涉及大語言模型,具體而言,涉及一種基于大語言模型的推理方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、大模型的能力和性能的增強(qiáng)離不開大模型參數(shù)規(guī)模的增加,大模型參數(shù)規(guī)模的增加對部署大模型的硬件提出新的要求,大模型的部署需要硬件加速器具有更強(qiáng)的計算能力、更大的內(nèi)存和帶寬。
2、隨著大模型的更多應(yīng)用于消費(fèi)端,人工智能的臺式機(jī)和手機(jī)會更加普及,而移動端硬件加速器普遍存在計算資源較弱、存儲和帶寬較小的現(xiàn)象,采用參數(shù)量較小的大模型或者量化后的模型往往會帶來模型性能的損失,進(jìn)而導(dǎo)致給出的推理結(jié)果不準(zhǔn)確的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的目的在于提供一種基于大語言模型的推理方法、裝置、電子設(shè)備及存儲介質(zhì),用以實(shí)現(xiàn)通過移動終端進(jìn)行推理時,能夠享有大參數(shù)量的大語言模型,從而提高推理的準(zhǔn)確性。
2、第一方面,本技術(shù)實(shí)施例提供一種基于大語言模型的推理方法,應(yīng)用于移動終端,移動終端與云端通信,云端部署有第一模型,移動終端部署有第二模型;其中,第一模型的參數(shù)量大于第二模型的參數(shù)量;該推理方法包括:
3、將接收到的推理請求發(fā)送給云端,以使云端基于第一模型生成推理請求對應(yīng)的鍵值緩存,并對鍵值緩存進(jìn)行量化獲得第一量化后的鍵值緩存;
4、接收云端返回的第一量化后的鍵值緩存,基于第一量化后的鍵值緩存和第二模型生成推理請求對應(yīng)的候選token序列;
5、向云端發(fā)送候選token序列,以使云端利用鍵值緩存和第一模型對候選token序列進(jìn)行驗(yàn)證,獲得推理結(jié)果。
6、本技術(shù)實(shí)施例通過在云端部署參數(shù)量大的模型,在移動終端部署參數(shù)量小的模型,在移動終端接收到推理請求后,與云端協(xié)同處理,最終給出推理結(jié)果,提高了推理的準(zhǔn)確性。
7、在任一實(shí)施例中,基于第一量化后的鍵值緩存和第二模型生成推理請求對應(yīng)的候選token序列,包括:
8、對第一量化后的鍵值緩存再次量化,獲得第二量化后的鍵值緩存;
9、基于第二量化后的鍵值緩存和第二模型生成推理請求對應(yīng)的初始token序列;
10、利用第一量化后的鍵值緩存和第二模型對初始token序列進(jìn)行驗(yàn)證,獲得候選token序列。
11、本技術(shù)實(shí)施例中,移動終端對第一量化后的鍵值緩存再次量化,獲得參數(shù)量更小的第二量化后的鍵值緩存,在推理階段,移動終端通過兩次推理獲得候選token序列,可以提高推理效率。
12、在任一實(shí)施例中,初始token序列包括多個初始token,以及每個初始token對應(yīng)的第一概率;利用第一量化后的鍵值緩存和第二模型對初始token序列進(jìn)行驗(yàn)證,包括:
13、利用第一量化后的鍵值緩存和第二模型并行計算每個初始token對應(yīng)的第二概率;
14、若第二概率大于第一概率,則對應(yīng)的初始token作為第二模型的結(jié)果;否則將對應(yīng)的初始token舍棄,并重新采樣,直至生成完整的候選token序列。
15、本技術(shù)實(shí)施例中,在推理過程中,移動終端利用第一量化后的鍵值緩存和第二模型計算獲得初始token對應(yīng)的第二概率,并基于第二概率和初始token對應(yīng)的第一概率進(jìn)行驗(yàn)證,獲得候選token序列,提高了推理的速率。
16、第二方面,本技術(shù)實(shí)施例提供另一種基于大語言模型的推理方法,應(yīng)用于云端,云端與移動終端通信,云端部署有第一模型,移動終端部署有第二模型;其中,第一模型的參數(shù)量大于第二模型的參數(shù)量;該推理方法包括:
17、接收移動終端發(fā)送的推理請求;
18、基于第一模型生成推理請求對應(yīng)的鍵值緩存;
19、將鍵值緩存進(jìn)行量化,獲得第一量化后的鍵值緩存,并向移動終端發(fā)送第一量化后的鍵值緩存,以使移動終端基于第一量化后的鍵值緩存和第二模型生成推理請求對應(yīng)的候選token序列;
20、接收移動終端發(fā)送的候選token序列,并利用鍵值緩存和第一模型對候選token序列進(jìn)行驗(yàn)證,以獲得推理結(jié)果。
21、本技術(shù)實(shí)施例通過在云端部署參數(shù)量大的模型,在移動終端部署參數(shù)量小的模型,在移動終端接收到推理請求后,與云端協(xié)同處理,最終給出推理結(jié)果,提高了推理的準(zhǔn)確性。
22、在任一實(shí)施例中,候選token序列包括多個候選token及每個候選token對應(yīng)的第二概率;利用鍵值緩存和第一模型對候選token序列進(jìn)行驗(yàn)證,包括:
23、利用鍵值緩存和第一模型對多個候選token并行計算,獲得每個候選token對應(yīng)的第三概率;
24、若第三概率大于第二概率,則對應(yīng)的候選token作為第一模型的結(jié)果;否則將對應(yīng)的候選token舍棄,并重新采樣,直至生成完整的推理結(jié)果。
25、本技術(shù)實(shí)施例通過鍵值緩存在第一模型對多個候選token并行計算,獲得每個候選token對應(yīng)的第三概率;并利用第三概率和候選token對應(yīng)的第二概率進(jìn)行驗(yàn)證,使得移動終端能夠享有云端上的大模型的推理效果。
26、第三方面,本技術(shù)實(shí)施例提供又一種基于大語言模型的推理方法,該推理方法通過云端和移動終端協(xié)同推理;云端部署有第一模型,移動終端部署有第二模型;其中,第一模型的參數(shù)量大于第二模型的參數(shù)量;該方法包括:
27、移動終端將接收到的推理請求發(fā)送給云端;
28、云端基于第一模型生成推理請求對應(yīng)的鍵值緩存;
29、云端將鍵值緩存進(jìn)行量化,獲得第一量化后的鍵值緩存,并向所述移動終端發(fā)送第一量化后的鍵值緩存;
30、移動終端基于第一量化后的鍵值緩存和第二模型生成推理請求對應(yīng)的候選token序列,并向云端發(fā)送候選token序列;
31、云端利用鍵值緩存和第一模型對候選token序列進(jìn)行驗(yàn)證,以獲得推理結(jié)果。
32、本技術(shù)實(shí)施例通過在云端部署參數(shù)量大的模型,在移動終端部署參數(shù)量小的模型,在移動終端接收到推理請求后,與云端協(xié)同處理,最終給出推理結(jié)果,提高了推理的準(zhǔn)確性。
33、在任一實(shí)施例中,第一模型和第二模型具備相容性。
34、本技術(shù)實(shí)施例通過設(shè)定第一模型和第二模型具備相容性,使得這兩個模型之間能夠進(jìn)行數(shù)據(jù)通信,以滿足二者協(xié)同推理的目的。
35、在任一實(shí)施例中,云端和移動終端在傳輸數(shù)據(jù)之前,對待傳輸?shù)臄?shù)據(jù)進(jìn)行加密處理。
36、本技術(shù)實(shí)施例通過對待傳輸?shù)臄?shù)據(jù)進(jìn)行加密處理,提高了數(shù)據(jù)傳輸?shù)陌踩浴?/p>
37、第四方面,本技術(shù)實(shí)施例提供一種電子設(shè)備,包括:處理器、存儲器和總線,其中,
38、所述處理器和所述存儲器通過所述總線完成相互間的通信;
39、所述存儲器存儲有可被所述處理器執(zhí)行的程序指令,所述處理器調(diào)用所述程序指令能夠執(zhí)行第一方面或第二方面的方法。
40、第五方面,本技術(shù)實(shí)施例提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),包括:
41、所述非暫態(tài)計算機(jī)可讀存儲介質(zhì)存儲計算機(jī)指令,所述計算機(jī)指令使所述計算機(jī)執(zhí)行第一方面或第二方面的方法。
42、第六方面,本技術(shù)實(shí)施例提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序指令,所述計算機(jī)程序指令被處理器讀取并運(yùn)行時,執(zhí)行第一方面或第二方面的方法。
43、第七方面,本技術(shù)實(shí)施例提供一種基于大語言模型的推理系統(tǒng),包括云端和移動終端;其中,所述云端部署有第一模型,所述移動終端部署有第二模型;其中,所述第一模型的參數(shù)量大于所述第二模型的參數(shù)量;所述移動終端能夠執(zhí)行第一方面所述的方法,所述云端能夠執(zhí)行第二方面所述的方法。
44、本技術(shù)的其他特征和優(yōu)點(diǎn)將在隨后的說明書闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本技術(shù)實(shí)施例了解。本技術(shù)的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。