欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法

文檔序號:40612259發(fā)布日期:2025-01-07 20:57閱讀:10來源:國知局
一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法

本發(fā)明屬于提示學(xué)習(xí),具體涉及一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法。


背景技術(shù):

1、隨著以clip為代表的多模態(tài)大模型的興起,探索、利用預(yù)訓(xùn)練模型中“免費”的通用知識來增強對下游目標(biāo)任務(wù)的學(xué)習(xí)受到了廣泛關(guān)注,并在諸多領(lǐng)域取得了巨大的成功。多模態(tài)大模型提示學(xué)習(xí)方法,通過利用下游目標(biāo)任務(wù)中的訓(xùn)練樣本學(xué)習(xí)任務(wù)特定的提示詞—由少量可學(xué)習(xí)參數(shù)組成輕量網(wǎng)絡(luò)模塊,以將預(yù)訓(xùn)練多模態(tài)大模型泛化至目標(biāo)任務(wù)。現(xiàn)有方法所學(xué)得的模型雖然在目標(biāo)任務(wù)上可以取得較好的泛化性能,但模型容易因過擬合于目標(biāo)任務(wù)而無法成功泛化至未知新任務(wù)。為了解決此問題,一些研究人員提出使用圖片知識來約束提示詞更新過程,并通過在模型訓(xùn)練過程中增強對類無關(guān)提示詞的學(xué)習(xí)來提升所學(xué)得模型在未知新任務(wù)上的泛化水平。雖然此策略可以一定程度提升所學(xué)得模型在未知新任務(wù)上的性能,但其容易造成模型在目標(biāo)任務(wù)上性能的下降。

2、這意味著現(xiàn)有的提示學(xué)習(xí)方法所學(xué)得的模型存在目標(biāo)任務(wù)-未知新任務(wù)性能折衷困境:模型在目標(biāo)任務(wù)上性能越好,在未知新任務(wù)上性能越差;反之亦然。這一問題極大地限制了當(dāng)前多模態(tài)大模型提示學(xué)習(xí)方法的發(fā)展。


技術(shù)實現(xiàn)思路

1、本發(fā)明提供了一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,解決了現(xiàn)有提示學(xué)習(xí)方法存在模型在目標(biāo)任務(wù)上性能越好,在未知新任務(wù)上性能越差的問題。

2、為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案為:一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,包括以下步驟:

3、s1、為目標(biāo)任務(wù)初始化一組提示詞;

4、s2、獲取目標(biāo)任務(wù)各個類別的詞向量,并將詞向量拼接之至提示詞后,得到類別特定提示詞;

5、s3、設(shè)計間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù);

6、s4、將類別特定提示詞和圖片依次輸入至預(yù)訓(xùn)練的多模態(tài)大模型clip中,得到文本特征和圖片特征;

7、s5、將文本特征和圖片特征輸入至間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)中計算分類損失,并將分類損失進行反向傳播,更新提示詞;

8、s6、通過更新后的提示詞進行圖片分類。

9、進一步地,所述步驟s1中提示詞包括多個維度為d的可學(xué)習(xí)向量。

10、進一步地,所述步驟s2的具體步驟為:

11、s21、獲取目標(biāo)任務(wù)的所有類別名,并將所有類別名依次輸入至預(yù)訓(xùn)練的分詞器網(wǎng)絡(luò)tokenizer中進行分詞,得到類別詞向量;

12、s22、將類別詞向量輸入多層感知機網(wǎng)絡(luò)mlp中進行特征嵌入,得到類別嵌入表征;

13、s23、將類別嵌入表征逐通道累加至提示詞中,得到類別特定提示詞。

14、進一步地,所述多模態(tài)大模型提示學(xué)習(xí)方法還包括:

15、將所述提示詞中的可學(xué)習(xí)向量設(shè)置為可更新;將所述多層感知機網(wǎng)絡(luò)mlp的網(wǎng)絡(luò)參數(shù)設(shè)置為可更新;將所述分詞器網(wǎng)絡(luò)tokenizer的網(wǎng)絡(luò)參數(shù)設(shè)置為不可更新;將所述多模態(tài)大模型的預(yù)訓(xùn)練參數(shù)設(shè)置為不可更新。

16、進一步地,所述所有類別名的表達式為:

17、

18、其中,表示目標(biāo)任務(wù)中第i個類別的類別名,mbase表示目標(biāo)任務(wù)中的類別數(shù)量;

19、所述類別特定提示詞的計算公式為:

20、

21、其中,表示第m個累加后的可學(xué)習(xí)向量,l表示提示詞中可學(xué)習(xí)向量的個數(shù),vm表示第m個可學(xué)習(xí)向量,表示類別嵌入表征,表示第i個類別特定提示詞,clsi表示第i個類別名稱。

22、進一步地,所述步驟s3中間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)的表達式為:

23、

24、

25、其中,lmargin表示間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù),yi表示圖片的真實標(biāo)簽,p'(·)表示后驗概率,xj表示第j個圖片,<·>表示余弦相似度,g(·)表示clip文本編碼器網(wǎng)絡(luò),fj表示第j個圖片的圖片特征,τ表示溫度參數(shù),sti表示和之間的親和度,表示第t個類別的類別詞向量,表示第i個類別的類別詞向量,ò表示縮放超參數(shù)。

26、進一步地,所述步驟s4的具體步驟為:

27、s41、將類別特定提示詞通過預(yù)訓(xùn)練的多模態(tài)大模型clip中的文本編碼器進行特征提取,得到各個類別的文本特征;

28、s42、將圖片通過預(yù)訓(xùn)練的多模態(tài)大模型clip中的圖片編碼器進行特征提取,得到圖片特征。

29、進一步地,所述步驟s5的具體步驟為:

30、s51、將文本特征和圖片特征輸入至間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)中計算分類損失;

31、s52、將分類損失進行反向傳播,依次更新提示詞和多層感知機網(wǎng)絡(luò)mlp的網(wǎng)絡(luò)參數(shù);

32、s53、判斷是否達到預(yù)設(shè)迭代次數(shù),若是,則結(jié)束迭代訓(xùn)練,保存更新后的網(wǎng)絡(luò)參數(shù)和提示詞,進入步驟s6,否則,返回步驟s2,進行下一輪迭代。

33、進一步地,所述步驟s6中進行圖片分類的具體步驟為:通過預(yù)訓(xùn)練的多模態(tài)大模型clip得到該圖片對應(yīng)的圖片特征與文本特征,通過計算圖片特征與文本特征的距離來判斷該圖片所屬類別。

34、本發(fā)明的有益效果是:(1)依次使用了一個預(yù)訓(xùn)練的分詞器網(wǎng)絡(luò)tokenizer和一個多層感知機網(wǎng)絡(luò)mlp來提取目標(biāo)任務(wù)類別知識,并將其融合至提示詞中用于引導(dǎo)提示詞參數(shù)更新過程;

35、(2)設(shè)計了一個間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù),該損失函數(shù)通過在提示學(xué)習(xí)過程中避免將相似的類別特征拉得過遠,避免模型過擬合于目標(biāo)任務(wù)類別特征,有助于保持預(yù)訓(xùn)練多模態(tài)大模型在未知新任務(wù)上的泛化水平;

36、(3)本發(fā)明可以作為一個即插即用的組件嵌入至現(xiàn)有的多模態(tài)大模型提示學(xué)習(xí)方法中去,用于提升此類方法所學(xué)得模型在目標(biāo)任務(wù)和未知新任務(wù)上的泛化性。



技術(shù)特征:

1.一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s1中提示詞包括多個維度為d的可學(xué)習(xí)向量。

3.根據(jù)權(quán)利要求2所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s2的具體步驟為:

4.根據(jù)權(quán)利要求3所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述多模態(tài)大模型提示學(xué)習(xí)方法還包括:

5.根據(jù)權(quán)利要求3所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述所有類別名的表達式為:

6.根據(jù)權(quán)利要求5所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s3中間隔自調(diào)節(jié)圖片-文本匹配損失函數(shù)的表達式為:

7.根據(jù)權(quán)利要求1所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s4的具體步驟為:

8.根據(jù)權(quán)利要求3所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s5的具體步驟為:

9.根據(jù)權(quán)利要求1所述的基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,其特征在于,所述步驟s6中進行圖片分類的具體步驟為:通過預(yù)訓(xùn)練的多模態(tài)大模型clip得到該圖片對應(yīng)的圖片特征與文本特征,通過計算圖片特征與文本特征的距離來判斷該圖片所屬類別。


技術(shù)總結(jié)
本發(fā)明公開了一種基于類知識增強的多模態(tài)大模型提示學(xué)習(xí)方法,屬于提示學(xué)習(xí)技術(shù)領(lǐng)域,包括以下步驟:為目標(biāo)任務(wù)初始化一組提示詞;獲取目標(biāo)任務(wù)各個類別的詞向量,并將詞向量拼接之至提示詞后,得到類別特定提示詞;設(shè)計間隔自調(diào)節(jié)圖片?文本匹配損失函數(shù);將類別特定提示詞和圖片依次輸入至預(yù)訓(xùn)練的多模態(tài)大模型CLIP中,得到文本特征和圖片特征;將文本特征和圖片特征輸入至間隔自調(diào)節(jié)圖片?文本匹配損失函數(shù)中計算分類損失,并將分類損失進行反向傳播,更新提示詞;通過更新后的提示詞進行圖片分類。本發(fā)明解決了現(xiàn)有提示學(xué)習(xí)方法存在模型在目標(biāo)任務(wù)上性能越好,在未知新任務(wù)上性能越差的問題。

技術(shù)研發(fā)人員:張繼,李天瑞,王紅軍
受保護的技術(shù)使用者:西南交通大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
外汇| 综艺| 深水埗区| 柘荣县| 治多县| 南平市| 格尔木市| 天祝| 怀仁县| 开鲁县| 北宁市| 商河县| 延庆县| 卓尼县| 金昌市| 樟树市| 华宁县| 辽阳市| 新兴县| 巧家县| 钦州市| 绥芬河市| 同德县| 武邑县| 饶平县| 抚顺县| 乐东| 深州市| 万安县| 通州市| 紫云| 织金县| 砀山县| 合作市| 巴彦淖尔市| 从化市| 额尔古纳市| 济宁市| 彰武县| 天祝| 剑阁县|