本發(fā)明涉及模式識(shí)別,特別是涉及一種基于一致性混合專家提示生成器的持續(xù)進(jìn)化學(xué)習(xí)方法。
背景技術(shù):
1、深度學(xué)習(xí)模型在處理持續(xù)學(xué)習(xí)任務(wù)時(shí),通常面臨“災(zāi)難性遺忘”的挑戰(zhàn),即在學(xué)習(xí)新任務(wù)的過程中遺忘先前任務(wù)的知識(shí)。為了應(yīng)對(duì)這一問題,混合專家模型(moe)憑借其動(dòng)態(tài)選擇合適專家的能力,在應(yīng)對(duì)多任務(wù)學(xué)習(xí)中展現(xiàn)了強(qiáng)大的適應(yīng)性和擴(kuò)展性。然而,現(xiàn)有的moe方法在保持任務(wù)間知識(shí)一致性和防止遺忘方面仍存在局限性。具體來說,現(xiàn)有方法多依賴于凍結(jié)或逐步擴(kuò)展專家網(wǎng)絡(luò),缺乏有效機(jī)制確保提示生成器在新舊任務(wù)之間的一致性,導(dǎo)致模型在不同任務(wù)切換時(shí)出現(xiàn)表示漂移和知識(shí)遺忘。此外,部分正交投影技術(shù)雖能夠減少新任務(wù)對(duì)舊任務(wù)的干擾,但多針對(duì)簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),尚未能有效應(yīng)用于復(fù)雜的混合專家模型中。
2、近年來,持續(xù)學(xué)習(xí)領(lǐng)域的研究重點(diǎn)在于解決模型在學(xué)習(xí)新任務(wù)時(shí)“災(zāi)難性遺忘”的問題。其中,基于提示生成器的調(diào)優(yōu)方法備受關(guān)注,尤其是在視覺transformer(vits)中應(yīng)用廣泛。現(xiàn)有方法通常通過提示池檢索任務(wù)相關(guān)提示,并通過凍結(jié)舊提示或增量訓(xùn)練新提示來保持模型穩(wěn)定性。然而,這類方法難以在理論上確保提示生成的一致性,導(dǎo)致在任務(wù)切換時(shí)容易出現(xiàn)表示漂移和遺忘問題。部分方法通過慢速更新、首任務(wù)適配或增強(qiáng)任務(wù)區(qū)分能力來提高穩(wěn)定性,但仍無法完全解決任務(wù)間的一致性和災(zāi)難性遺忘的問題。
3、另一方面,混合專家模型通過動(dòng)態(tài)選擇專家來提升模型在多任務(wù)環(huán)境下的適應(yīng)性和知識(shí)共享能力,已被應(yīng)用于持續(xù)學(xué)習(xí)中。然而,現(xiàn)有moe方法通常依賴于擴(kuò)展或凍結(jié)專家,未能解決任務(wù)間提示生成一致性的問題。為此,一些研究引入了正交投影技術(shù),通過將梯度投影到舊任務(wù)特征的正交方向以減少遺忘,但這些方法主要用于簡單模型,難以在復(fù)雜的moe結(jié)構(gòu)中應(yīng)用。
4、根據(jù)以上分析,現(xiàn)有基于提示調(diào)優(yōu)的持續(xù)學(xué)習(xí)技術(shù)尚未有效解決新任務(wù)訓(xùn)練過程中對(duì)舊任務(wù)的干擾問題,導(dǎo)致模型在任務(wù)切換時(shí)容易發(fā)生嚴(yán)重的災(zāi)難性遺忘。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的一種基于一致性混合專家提示生成器的持續(xù)進(jìn)化學(xué)習(xí)方法解決了現(xiàn)有方法尚未有效解決新任務(wù)訓(xùn)練過程中對(duì)舊任務(wù)的干擾,導(dǎo)致模型在任務(wù)切換時(shí)容易發(fā)生嚴(yán)重的災(zāi)難性遺忘的問題。
2、為了達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:一種基于一致性混合專家提示生成器的持續(xù)進(jìn)化學(xué)習(xí)方法,包括以下步驟:
3、s1:初始化提示生成器的相關(guān)矩陣;
4、s2:獲取當(dāng)前任務(wù)的訓(xùn)練數(shù)據(jù)集;
5、s3:判斷當(dāng)前任務(wù)是否為第一個(gè)任務(wù),如果是,則進(jìn)入步驟s4,否則進(jìn)入步驟s7;
6、s4:將當(dāng)前任務(wù)的輸入特征輸入至提示生成器和vit模型中進(jìn)行前向傳播,并計(jì)算分類損失;
7、s5:基于分類損失,通過反向傳播計(jì)算提示生成器中路由網(wǎng)絡(luò)權(quán)重和候選專家矩陣的梯度,用于更新相應(yīng)參數(shù);
8、s6:判斷當(dāng)前任務(wù)是否達(dá)到最大迭代次數(shù),如果未達(dá)到,則返回步驟s3,否則進(jìn)入步驟s7:
9、s7:保存提示生成器的參數(shù),并利用訓(xùn)練數(shù)據(jù)集和訓(xùn)練后的相關(guān)矩陣更新兩個(gè)非中心化協(xié)方差矩陣;
10、s8:對(duì)更新后的兩個(gè)非中心化協(xié)方差矩陣分別進(jìn)行奇異值分解,并基于分解結(jié)果選擇對(duì)應(yīng)的零空間的基向量;
11、s9:根據(jù)零空間的基向量更新零空間投影矩陣,并為零空間投影矩陣引入松弛因子;
12、s10:基于更新后的零空間投影矩陣,將路由網(wǎng)絡(luò)權(quán)重和候選專家矩陣的梯度投影到舊任務(wù)特征的零空間中,并使用學(xué)習(xí)率更新提示生成器的路由網(wǎng)絡(luò)權(quán)重和候選專家矩陣;
13、s11:判斷當(dāng)前任務(wù)是否為最后一個(gè)任務(wù),如果不是,則返回步驟s2,否則完成所有任務(wù)的學(xué)習(xí),并輸出更新后的提示生成器的路由網(wǎng)絡(luò)權(quán)重和候選專家矩陣,實(shí)現(xiàn)基于一致性混合專家提示生成器的持續(xù)進(jìn)化學(xué)習(xí)。
14、進(jìn)一步地,所述s1中初始化提示生成器的相關(guān)矩陣,包括路由網(wǎng)絡(luò)權(quán)重矩陣、候選專家矩陣、第一非中心化協(xié)方差矩陣、第二非中心化協(xié)方差矩陣、第一零空間投影矩陣和第二零空間投影矩陣,公式為:
15、,
16、,
17、,
18、其中,為實(shí)數(shù)域,為輸入特征維度,為提示符的長度,為專家數(shù)量,為單位矩陣。
19、進(jìn)一步地,所述s2中當(dāng)前任務(wù)的訓(xùn)練數(shù)據(jù)集為:
20、
21、其中,為訓(xùn)練樣本,為訓(xùn)練樣本對(duì)應(yīng)的類別標(biāo)簽,為任務(wù),為類別。
22、進(jìn)一步地,所述s4中包括以下分步驟:
23、s41:將輸入特征輸入至提示生成器中,通過路由網(wǎng)絡(luò)權(quán)重矩陣計(jì)算門控值,并選擇前個(gè)門控值作為專家,公式為:
24、
25、其中,為門控值,為激活函數(shù),為輸入特征;
26、
27、
28、其中,為函數(shù),表示用于標(biāo)記每個(gè)門控值狀態(tài)的變量,為第個(gè)門控值;
29、s42:將選擇的前個(gè)門控值進(jìn)行歸一化,并利用歸一化結(jié)果與候選專家矩陣進(jìn)行加權(quán)合并,生成最終的提示符,公式為:
30、
31、
32、其中,為歸一化生成的門控向量;
33、s43:將提示符和輸入特征輸入至vit模型的對(duì)應(yīng)層中進(jìn)行前向傳播,公式為:
34、
35、其中,為vit模型的對(duì)應(yīng)層的輸出特征,表示vit層,為圖像標(biāo)記;
36、s44:將輸入特征輸入至與vit模型連接的分類器中,得到預(yù)測結(jié)果,并計(jì)算交叉熵?fù)p失,公式為:
37、
38、其中,為類別總數(shù),為類別的真實(shí)標(biāo)簽,為模型對(duì)類別的預(yù)測概率。
39、進(jìn)一步地,所述s5中通過反向傳播計(jì)算提示生成器中路由網(wǎng)絡(luò)權(quán)重和候選專家矩陣的梯度,公式為:
40、
41、
42、其中,為路由網(wǎng)絡(luò)權(quán)重的梯度,為候選專家矩陣的梯度,為偏導(dǎo)符號(hào)。
43、進(jìn)一步地,所述s7中利用訓(xùn)練數(shù)據(jù)集和訓(xùn)練后的相關(guān)矩陣更新兩個(gè)非中心化協(xié)方差矩陣,包括以下分步驟:
44、s71:根據(jù)當(dāng)前任務(wù)在前向傳播過程中記錄的輸入特征矩陣更新第一非中心化協(xié)方差矩陣,公式為:
45、
46、
47、其中,為不同樣本的輸入特征,為更新后的第一非中心化協(xié)方差矩陣,為原始第一非中心化協(xié)方差矩陣,上標(biāo)為矩陣的轉(zhuǎn)置;
48、s72:根據(jù)當(dāng)前任務(wù)在前向傳播過程中記錄的路由網(wǎng)絡(luò)輸出的門控向量矩陣更新第二非中心化協(xié)方差矩陣,公式為:
49、
50、
51、其中,為不同樣本的門控向量,為更新后的第二非中心化協(xié)方差矩陣,為原始第二非中心化協(xié)方差矩陣。
52、進(jìn)一步地,所述s8中包括以下分步驟:
53、s81:對(duì)更新后的兩個(gè)非中心化協(xié)方差矩陣分別進(jìn)行奇異值分解,公式為:
54、
55、
56、其中,和為第一非中心化協(xié)方差矩陣分解的左奇異向量矩陣和右奇異向量矩陣,為第一對(duì)角奇異值矩陣,和為第二非中心化協(xié)方差矩陣分解的左奇異向量矩陣和右奇異向量矩陣,為第二對(duì)角奇異值矩陣;
57、s82:基于分解結(jié)果,選擇最小奇異值對(duì)應(yīng)的右奇異向量作為零空間的基向量,公式為:
58、
59、
60、其中,為輸入特征對(duì)應(yīng)的零空間的基向量,為門控向量對(duì)應(yīng)的零空間的基向量,為輸入特征中奇異值小于閾值的右奇異向量,為門控向量中奇異值小于閾值的右奇異向量,為輸入特征中選擇的奇異向量的數(shù)量,為門控向量中選擇的奇異向量的數(shù)量。
61、進(jìn)一步地,所述s9中根據(jù)零空間的基向量更新零空間投影矩陣,并為零空間投影矩陣引入松弛因子,公式為:
62、
63、
64、其中,為對(duì)路由網(wǎng)絡(luò)權(quán)重梯度更新的零空間投影矩陣,為對(duì)候選專家梯度更新的零空間投影矩陣,為松弛因子。
65、進(jìn)一步地,所述s10中將路由網(wǎng)絡(luò)權(quán)重和候選專家矩陣的梯度投影到舊任務(wù)特征的零空間中,公式為:
66、
67、
68、其中,為投影到舊任務(wù)特征的零空間中的路由網(wǎng)絡(luò)權(quán)重,為投影到舊任務(wù)特征的零空間中的候選專家矩陣;
69、使用學(xué)習(xí)率更新提示生成器的路由網(wǎng)絡(luò)權(quán)重和候選專家矩陣,公式為:
70、
71、
72、其中,為更新后的路由網(wǎng)絡(luò)權(quán)重,為原始路由網(wǎng)絡(luò)權(quán)重,為學(xué)習(xí)率,為更新后的候選專家矩陣,為原始候選專家矩陣。
73、本方的有益效果是:本發(fā)明通過正交投影技術(shù),將提示生成器的更新梯度精確投影到舊任務(wù)特征的正交子空間中。這種策略有效地避免新任務(wù)學(xué)習(xí)對(duì)舊任務(wù)特征表示的干擾,從而顯著減少了災(zāi)難性遺忘現(xiàn)象。本發(fā)明提出的提示生成器能夠動(dòng)態(tài)選擇專家,以適應(yīng)不同任務(wù)需求,實(shí)現(xiàn)知識(shí)的高效共享與穩(wěn)定性維護(hù)。該方法確保新任務(wù)學(xué)習(xí)時(shí),舊任務(wù)的特定實(shí)例表示保持穩(wěn)定,理論上保證了模型的穩(wěn)定性。在四個(gè)類別增量學(xué)習(xí)基準(zhǔn)測試中,本發(fā)明的方法在類增量持續(xù)學(xué)習(xí)設(shè)定下,實(shí)現(xiàn)了準(zhǔn)確率的顯著提升和遺忘率的顯著降低,證明了其在持續(xù)學(xué)習(xí)領(lǐng)域的有效性和優(yōu)越性。