一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法

文檔序號：40612259發(fā)布日期：2025-01-07 20:57閱讀：10來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于提示學(xué)習(xí)，具體涉及一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法。

背景技術(shù)：

1、隨著以clip為代表的多模態(tài)大模型的興起，探索、利用預(yù)訓(xùn)練模型中“免費”的通用知識來增強對下游目標(biāo)任務(wù)的學(xué)習(xí)受到了廣泛關(guān)注，并在諸多領(lǐng)域取得了巨大的成功。多模態(tài)大模型提示學(xué)習(xí)方法，通過利用下游目標(biāo)任務(wù)中的訓(xùn)練樣本學(xué)習(xí)任務(wù)特定的提示詞—由少量可學(xué)習(xí)參數(shù)組成輕量網(wǎng)絡(luò)模塊，以將預(yù)訓(xùn)練多模態(tài)大模型泛化至目標(biāo)任務(wù)。現(xiàn)有方法所學(xué)得的模型雖然在目標(biāo)任務(wù)上可以取得較好的泛化性能，但模型容易因過擬合于目標(biāo)任務(wù)而無法成功泛化至未知新任務(wù)。為了解決此問題，一些研究人員提出使用圖片知識來約束提示詞更新過程，并通過在模型訓(xùn)練過程中增強對類無關(guān)提示詞的學(xué)習(xí)來提升所學(xué)得模型在未知新任務(wù)上的泛化水平。雖然此策略可以一定程度提升所學(xué)得模型在未知新任務(wù)上的性能，但其容易造成模型在目標(biāo)任務(wù)上性能的下降。

2、這意味著現(xiàn)有的提示學(xué)習(xí)方法所學(xué)得的模型存在目標(biāo)任務(wù)-未知新任務(wù)性能折衷困境：模型在目標(biāo)任務(wù)上性能越好，在未知新任務(wù)上性能越差；反之亦然。這一問題極大地限制了當(dāng)前多模態(tài)大模型提示學(xué)習(xí)方法的發(fā)展。

技術(shù)實現(xiàn)思路

1、本發(fā)明提供了一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，解決了現(xiàn)有提示學(xué)習(xí)方法存在模型在目標(biāo)任務(wù)上性能越好，在未知新任務(wù)上性能越差的問題。

2、為了解決上述技術(shù)問題，本發(fā)明的技術(shù)方案為：一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，包括以下步驟：

3、s1、為目標(biāo)任務(wù)初始化一組提示詞；

4、s2、獲取目標(biāo)任務(wù)各個類別的詞向量，并將詞向量拼接之至提示詞后，得到類別特定提示詞；

5、s3、設(shè)計間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)；

6、s4、將類別特定提示詞和圖片依次輸入至預(yù)訓(xùn)練的多模態(tài)大模型clip中，得到文本特征和圖片特征；

7、s5、將文本特征和圖片特征輸入至間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)中計算分類損失，并將分類損失進行反向傳播，更新提示詞；

8、s6、通過更新后的提示詞進行圖片分類。

9、進一步地，所述步驟s1中提示詞包括多個維度為d的可學(xué)習(xí)向量。

10、進一步地，所述步驟s2的具體步驟為：

11、s21、獲取目標(biāo)任務(wù)的所有類別名，并將所有類別名依次輸入至預(yù)訓(xùn)練的分詞器網(wǎng)絡(luò)tokenizer中進行分詞，得到類別詞向量；

12、s22、將類別詞向量輸入多層感知機網(wǎng)絡(luò)mlp中進行特征嵌入，得到類別嵌入表征；

13、s23、將類別嵌入表征逐通道累加至提示詞中，得到類別特定提示詞。

14、進一步地，所述多模態(tài)大模型提示學(xué)習(xí)方法還包括：

15、將所述提示詞中的可學(xué)習(xí)向量設(shè)置為可更新；將所述多層感知機網(wǎng)絡(luò)mlp的網(wǎng)絡(luò)參數(shù)設(shè)置為可更新；將所述分詞器網(wǎng)絡(luò)tokenizer的網(wǎng)絡(luò)參數(shù)設(shè)置為不可更新；將所述多模態(tài)大模型的預(yù)訓(xùn)練參數(shù)設(shè)置為不可更新。

16、進一步地，所述所有類別名的表達式為：

17、

18、其中，表示目標(biāo)任務(wù)中第i個類別的類別名，mbase表示目標(biāo)任務(wù)中的類別數(shù)量；

19、所述類別特定提示詞的計算公式為：

20、

21、其中，表示第m個累加后的可學(xué)習(xí)向量，l表示提示詞中可學(xué)習(xí)向量的個數(shù)，vm表示第m個可學(xué)習(xí)向量，表示類別嵌入表征，表示第i個類別特定提示詞，clsi表示第i個類別名稱。

22、進一步地，所述步驟s3中間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)的表達式為：

23、

24、

25、其中，lmargin表示間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)，yi表示圖片的真實標(biāo)簽，p'(·)表示后驗概率，xj表示第j個圖片，<·>表示余弦相似度，g(·)表示clip文本編碼器網(wǎng)絡(luò)，fj表示第j個圖片的圖片特征，τ表示溫度參數(shù)，sti表示和之間的親和度，表示第t個類別的類別詞向量，表示第i個類別的類別詞向量，ò表示縮放超參數(shù)。

26、進一步地，所述步驟s4的具體步驟為：

27、s41、將類別特定提示詞通過預(yù)訓(xùn)練的多模態(tài)大模型clip中的文本編碼器進行特征提取，得到各個類別的文本特征；

28、s42、將圖片通過預(yù)訓(xùn)練的多模態(tài)大模型clip中的圖片編碼器進行特征提取，得到圖片特征。

29、進一步地，所述步驟s5的具體步驟為：

30、s51、將文本特征和圖片特征輸入至間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)中計算分類損失；

31、s52、將分類損失進行反向傳播，依次更新提示詞和多層感知機網(wǎng)絡(luò)mlp的網(wǎng)絡(luò)參數(shù)；

32、s53、判斷是否達到預(yù)設(shè)迭代次數(shù)，若是，則結(jié)束迭代訓(xùn)練，保存更新后的網(wǎng)絡(luò)參數(shù)和提示詞，進入步驟s6，否則，返回步驟s2，進行下一輪迭代。

33、進一步地，所述步驟s6中進行圖片分類的具體步驟為：通過預(yù)訓(xùn)練的多模態(tài)大模型clip得到該圖片對應(yīng)的圖片特征與文本特征，通過計算圖片特征與文本特征的距離來判斷該圖片所屬類別。

34、本發(fā)明的有益效果是：(1)依次使用了一個預(yù)訓(xùn)練的分詞器網(wǎng)絡(luò)tokenizer和一個多層感知機網(wǎng)絡(luò)mlp來提取目標(biāo)任務(wù)類別知識，并將其融合至提示詞中用于引導(dǎo)提示詞參數(shù)更新過程；

35、(2)設(shè)計了一個間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)，該損失函數(shù)通過在提示學(xué)習(xí)過程中避免將相似的類別特征拉得過遠，避免模型過擬合于目標(biāo)任務(wù)類別特征，有助于保持預(yù)訓(xùn)練多模態(tài)大模型在未知新任務(wù)上的泛化水平；

36、(3)本發(fā)明可以作為一個即插即用的組件嵌入至現(xiàn)有的多模態(tài)大模型提示學(xué)習(xí)方法中去，用于提升此類方法所學(xué)得模型在目標(biāo)任務(wù)和未知新任務(wù)上的泛化性。

技術(shù)特征：

1.一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，其特征在于，所述步驟s1中提示詞包括多個維度為d的可學(xué)習(xí)向量。

3.根據(jù)權(quán)利要求2所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，其特征在于，所述步驟s2的具體步驟為：

4.根據(jù)權(quán)利要求3所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，其特征在于，所述多模態(tài)大模型提示學(xué)習(xí)方法還包括：

5.根據(jù)權(quán)利要求3所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，其特征在于，所述所有類別名的表達式為：

6.根據(jù)權(quán)利要求5所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，其特征在于，所述步驟s3中間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)的表達式為：

7.根據(jù)權(quán)利要求1所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，其特征在于，所述步驟s4的具體步驟為：

8.根據(jù)權(quán)利要求3所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，其特征在于，所述步驟s5的具體步驟為：

9.根據(jù)權(quán)利要求1所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，其特征在于，所述步驟s6中進行圖片分類的具體步驟為：通過預(yù)訓(xùn)練的多模態(tài)大模型clip得到該圖片對應(yīng)的圖片特征與文本特征，通過計算圖片特征與文本特征的距離來判斷該圖片所屬類別。

技術(shù)總結(jié)
本發(fā)明公開了一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法，屬于提示學(xué)習(xí)技術(shù)領(lǐng)域，包括以下步驟：為目標(biāo)任務(wù)初始化一組提示詞；獲取目標(biāo)任務(wù)各個類別的詞向量，并將詞向量拼接之至提示詞后，得到類別特定提示詞；設(shè)計間隔自調(diào)節(jié)圖片?文本匹配損失函數(shù)；將類別特定提示詞和圖片依次輸入至預(yù)訓(xùn)練的多模態(tài)大模型CLIP中，得到文本特征和圖片特征；將文本特征和圖片特征輸入至間隔自調(diào)節(jié)圖片?文本匹配損失函數(shù)中計算分類損失，并將分類損失進行反向傳播，更新提示詞；通過更新后的提示詞進行圖片分類。本發(fā)明解決了現(xiàn)有提示學(xué)習(xí)方法存在模型在目標(biāo)任務(wù)上性能越好，在未知新任務(wù)上性能越差的問題。

技術(shù)研發(fā)人員：張繼,李天瑞,王紅軍
受保護的技術(shù)使用者：西南交通大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張繼,李天瑞,王紅軍
技術(shù)所有人：西南交通大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法