本發(fā)明屬于提示學(xué)習(xí),具體涉及一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法。
背景技術(shù):
1、隨著以clip為代表的多模態(tài)大模型的興起,探索、利用預(yù)訓(xùn)練模型中“免費”的通用知識來增強對下游目標(biāo)任務(wù)的學(xué)習(xí)受到了廣泛關(guān)注,并在諸多領(lǐng)域取得了巨大的成功。多模態(tài)大模型提示學(xué)習(xí)方法,通過利用下游目標(biāo)任務(wù)中的訓(xùn)練樣本學(xué)習(xí)任務(wù)特定的提示詞—由少量可學(xué)習(xí)參數(shù)組成輕量網(wǎng)絡(luò)模塊,以將預(yù)訓(xùn)練多模態(tài)大模型泛化至目標(biāo)任務(wù)。現(xiàn)有方法所學(xué)得的模型雖然在目標(biāo)任務(wù)上可以取得較好的泛化性能,但模型容易因過擬合于目標(biāo)任務(wù)而無法成功泛化至未知新任務(wù)。為了解決此問題,一些研究人員提出使用圖片知識來約束提示詞更新過程,并通過在模型訓(xùn)練過程中增強對類無關(guān)提示詞的學(xué)習(xí)來提升所學(xué)得模型在未知新任務(wù)上的泛化水平。雖然此策略可以一定程度提升所學(xué)得模型在未知新任務(wù)上的性能,但其容易造成模型在目標(biāo)任務(wù)上性能的下降。
2、這意味著現(xiàn)有的提示學(xué)習(xí)方法所學(xué)得的模型存在目標(biāo)任務(wù)-未知新任務(wù)性能折衷困境:模型在目標(biāo)任務(wù)上性能越好,在未知新任務(wù)上性能越差;反之亦然。這一問題極大地限制了當(dāng)前多模態(tài)大模型提示學(xué)習(xí)方法的發(fā)展。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,解決了現(xiàn)有提示學(xué)習(xí)方法存在模型在目標(biāo)任務(wù)上性能越好,在未知新任務(wù)上性能越差的問題。
2、為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案為:一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,包括以下步驟:
3、s1、為目標(biāo)任務(wù)初始化一組提示詞;
4、s2、獲取目標(biāo)任務(wù)各個類別的詞向量,并將詞向量拼接之至提示詞后,得到類別特定提示詞;
5、s3、設(shè)計間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù);
6、s4、將類別特定提示詞和圖片依次輸入至預(yù)訓(xùn)練的多模態(tài)大模型clip中,得到文本特征和圖片特征;
7、s5、將文本特征和圖片特征輸入至間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)中計算分類損失,并將分類損失進行反向傳播,更新提示詞;
8、s6、通過更新后的提示詞進行圖片分類。
9、進一步地,所述步驟s1中提示詞包括多個維度為d的可學(xué)習(xí)向量。
10、進一步地,所述步驟s2的具體步驟為:
11、s21、獲取目標(biāo)任務(wù)的所有類別名,并將所有類別名依次輸入至預(yù)訓(xùn)練的分詞器網(wǎng)絡(luò)tokenizer中進行分詞,得到類別詞向量;
12、s22、將類別詞向量輸入多層感知機網(wǎng)絡(luò)mlp中進行特征嵌入,得到類別嵌入表征;
13、s23、將類別嵌入表征逐通道累加至提示詞中,得到類別特定提示詞。
14、進一步地,所述多模態(tài)大模型提示學(xué)習(xí)方法還包括:
15、將所述提示詞中的可學(xué)習(xí)向量設(shè)置為可更新;將所述多層感知機網(wǎng)絡(luò)mlp的網(wǎng)絡(luò)參數(shù)設(shè)置為可更新;將所述分詞器網(wǎng)絡(luò)tokenizer的網(wǎng)絡(luò)參數(shù)設(shè)置為不可更新;將所述多模態(tài)大模型的預(yù)訓(xùn)練參數(shù)設(shè)置為不可更新。
16、進一步地,所述所有類別名的表達式為:
17、
18、其中,表示目標(biāo)任務(wù)中第i個類別的類別名,mbase表示目標(biāo)任務(wù)中的類別數(shù)量;
19、所述類別特定提示詞的計算公式為:
20、
21、其中,表示第m個累加后的可學(xué)習(xí)向量,l表示提示詞中可學(xué)習(xí)向量的個數(shù),vm表示第m個可學(xué)習(xí)向量,表示類別嵌入表征,表示第i個類別特定提示詞,clsi表示第i個類別名稱。
22、進一步地,所述步驟s3中間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)的表達式為:
23、
24、
25、其中,lmargin表示間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù),yi表示圖片的真實標(biāo)簽,p'(·)表示后驗概率,xj表示第j個圖片,<·>表示余弦相似度,g(·)表示clip文本編碼器網(wǎng)絡(luò),fj表示第j個圖片的圖片特征,τ表示溫度參數(shù),sti表示和之間的親和度,表示第t個類別的類別詞向量,表示第i個類別的類別詞向量,ò表示縮放超參數(shù)。
26、進一步地,所述步驟s4的具體步驟為:
27、s41、將類別特定提示詞通過預(yù)訓(xùn)練的多模態(tài)大模型clip中的文本編碼器進行特征提取,得到各個類別的文本特征;
28、s42、將圖片通過預(yù)訓(xùn)練的多模態(tài)大模型clip中的圖片編碼器進行特征提取,得到圖片特征。
29、進一步地,所述步驟s5的具體步驟為:
30、s51、將文本特征和圖片特征輸入至間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)中計算分類損失;
31、s52、將分類損失進行反向傳播,依次更新提示詞和多層感知機網(wǎng)絡(luò)mlp的網(wǎng)絡(luò)參數(shù);
32、s53、判斷是否達到預(yù)設(shè)迭代次數(shù),若是,則結(jié)束迭代訓(xùn)練,保存更新后的網(wǎng)絡(luò)參數(shù)和提示詞,進入步驟s6,否則,返回步驟s2,進行下一輪迭代。
33、進一步地,所述步驟s6中進行圖片分類的具體步驟為:通過預(yù)訓(xùn)練的多模態(tài)大模型clip得到該圖片對應(yīng)的圖片特征與文本特征,通過計算圖片特征與文本特征的距離來判斷該圖片所屬類別。
34、本發(fā)明的有益效果是:(1)依次使用了一個預(yù)訓(xùn)練的分詞器網(wǎng)絡(luò)tokenizer和一個多層感知機網(wǎng)絡(luò)mlp來提取目標(biāo)任務(wù)類別知識,并將其融合至提示詞中用于引導(dǎo)提示詞參數(shù)更新過程;
35、(2)設(shè)計了一個間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù),該損失函數(shù)通過在提示學(xué)習(xí)過程中避免將相似的類別特征拉得過遠,避免模型過擬合于目標(biāo)任務(wù)類別特征,有助于保持預(yù)訓(xùn)練多模態(tài)大模型在未知新任務(wù)上的泛化水平;
36、(3)本發(fā)明可以作為一個即插即用的組件嵌入至現(xiàn)有的多模態(tài)大模型提示學(xué)習(xí)方法中去,用于提升此類方法所學(xué)得模型在目標(biāo)任務(wù)和未知新任務(wù)上的泛化性。
1.一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s1中提示詞包括多個維度為d的可學(xué)習(xí)向量。
3.根據(jù)權(quán)利要求2所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s2的具體步驟為:
4.根據(jù)權(quán)利要求3所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述多模態(tài)大模型提示學(xué)習(xí)方法還包括:
5.根據(jù)權(quán)利要求3所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述所有類別名的表達式為:
6.根據(jù)權(quán)利要求5所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s3中間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)的表達式為:
7.根據(jù)權(quán)利要求1所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s4的具體步驟為:
8.根據(jù)權(quán)利要求3所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s5的具體步驟為:
9.根據(jù)權(quán)利要求1所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s6中進行圖片分類的具體步驟為:通過預(yù)訓(xùn)練的多模態(tài)大模型clip得到該圖片對應(yīng)的圖片特征與文本特征,通過計算圖片特征與文本特征的距離來判斷該圖片所屬類別。