本發(fā)明涉及深度學(xué)習(xí)的領(lǐng)域,尤其涉及一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、近年來,自注意力機(jī)制(self-attention?mechanism)在自然語言處理領(lǐng)域引起了廣泛關(guān)注,尤其是transformer架構(gòu)的提出,它徹底改變了序列建模的傳統(tǒng)方式。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)及其變體,如長短時記憶網(wǎng)絡(luò)(lstm)和門控循環(huán)單元(gru),雖然在處理序列數(shù)據(jù)方面表現(xiàn)出色,但受限于其固有的串行處理特性,難以并行化,導(dǎo)致訓(xùn)練效率較低。相比之下,自注意力機(jī)制允許模型同時關(guān)注序列中的不同位置,極大地加速了訓(xùn)練過程,并提高了模型對長距離依賴關(guān)系的捕捉能力。
2、在處理具有明確順序的序列數(shù)據(jù)時,如語言生成任務(wù),傳統(tǒng)的自注意力機(jī)制存在一個明顯的缺陷:它允許每個位置的詞同時訪問其前后文的信息。然而,在某些場景下,如生成式任務(wù),未來信息的泄露會破壞模型的學(xué)習(xí)過程。為了解決這一問題,因果自注意力機(jī)制被提出,它通過引入一個遮罩(mask)來限制模型只能看到當(dāng)前位置及之前的位置,從而避免了信息泄露,確保了生成過程的合理性。
3、盡管因果自注意力機(jī)制在許多任務(wù)中取得了顯著成果,但在處理非常長的序列時,模型仍然面臨著捕捉長距離依賴關(guān)系的挑戰(zhàn)。這是因為隨著序列長度的增加,自注意力機(jī)制的計算復(fù)雜度和內(nèi)存需求也會顯著增長,導(dǎo)致模型訓(xùn)練變得困難。此外,傳統(tǒng)的因果自注意力機(jī)制往往過于依賴最近的上下文,而忽視了更遠(yuǎn)處的潛在關(guān)聯(lián)。
4、當(dāng)前的技術(shù)方案在處理長序列時,往往需要在計算效率、內(nèi)存消耗和模型性能之間做出妥協(xié)。特別是當(dāng)模型需要捕捉跨越數(shù)百甚至數(shù)千個時間步的依賴關(guān)系時,這種妥協(xié)尤為明顯。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問題,本發(fā)明旨在增強(qiáng)基于transformer架構(gòu)的gpt模型的因果自我注意機(jī)制,通過引入一個可訓(xùn)練的記憶矩陣以及一套專門用于該記憶矩陣動態(tài)更新的機(jī)制,從而顯著提升模型在處理長序列數(shù)據(jù)時的上下文理解和生成能力。
2、基于上述目的,本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,包括:
3、獲取待處理的輸入序列,并計算輸入序列平均值;
4、將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣;
5、對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列;
6、將所述輸出序列進(jìn)行輸出投影。
7、在一些實(shí)施例中,所述獲取待處理的輸入序列,并計算輸入序列平均值的步驟包括:
8、獲取待處理的輸入序列;
9、將輸入序列進(jìn)行線性變換為輸入鍵和輸入值;
10、沿著輸入序列的序列維度求平均得到輸入序列平均值。
11、在一些實(shí)施例中,所述將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣的步驟包括:
12、將所有的所述輸入序列平均值轉(zhuǎn)化為更新信號;
13、平均化所述更新信號,得到平均信號;
14、將所述平均信號累加更新到記憶矩陣中,得到更新后的記憶矩陣。
15、在一些實(shí)施例中,對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列的步驟包括:
16、將更新后的記憶矩陣擴(kuò)展到當(dāng)前批次大小,轉(zhuǎn)化得到與所述輸入鍵和輸入值相似的形狀;
17、對所述轉(zhuǎn)化后的記憶矩陣進(jìn)行注意力計算,得到記憶注意力矩陣;
18、將所述記憶注意力矩陣和所述輸入值拼接起來,得到輸出序列。
19、在一些實(shí)施例中,所述將所述記憶注意力矩陣和所述輸入值拼接起來,得到輸出序列的步驟包括:
20、將所述記憶注意力矩陣轉(zhuǎn)換為記憶鍵和記憶值;
21、通過記憶鍵和所述平均信號進(jìn)行點(diǎn)積計算得到記憶注意力權(quán)重;
22、將所述記憶注意力權(quán)重進(jìn)行優(yōu)化后應(yīng)用在記憶值上得到加權(quán)記憶值;
23、將所述加權(quán)記憶值匹配為所述輸入序列的長度,并和所述輸入值拼接起來,得到輸出序列。
24、在一些實(shí)施例中,所述將所述輸出序列進(jìn)行輸出投影的步驟包括:
25、將所述輸出序列通過輸出投影映射到輸出空間的維度,得到輸出結(jié)果;
26、將所述輸出結(jié)果進(jìn)行殘差連接和正則化后輸出。
27、在一些實(shí)施例中,所述預(yù)設(shè)的記憶矩陣的構(gòu)建過程步驟如下:
28、定義一個可擴(kuò)展的記憶矩陣;
29、通過需要的記憶槽的數(shù)量和嵌入維度確定記憶矩陣的大小。
30、本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)系統(tǒng),包括:
31、獲取單元,配置為用于獲取待處理的輸入序列,并計算輸入序列平均值;
32、更新單元,配置為用于將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣;
33、融合單元,配置為用于對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列;
34、輸出單元,配置為用于將所述輸出序列進(jìn)行輸出投影。
35、本發(fā)明提出了一種計算機(jī)設(shè)備,包括:
36、至少一個處理器;以及存儲器,所述存儲器存儲有可在所述處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時執(zhí)行所述一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法的步驟。
37、本發(fā)明提出了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時執(zhí)行所述一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法的步驟。
38、本發(fā)明至少具有以下有益技術(shù)效果:
39、本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì),方法包括:獲取待處理的輸入序列,并計算輸入序列平均值;將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣;所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列;將所述輸出序列進(jìn)行輸出投影。
40、本發(fā)明用于增強(qiáng)transformer架構(gòu)下的gpt模型,特別是在處理長序列數(shù)據(jù)時的表現(xiàn)。通過在模型中引入一個可訓(xùn)練的記憶矩陣和一套專用于記憶矩陣動態(tài)更新的機(jī)制,此方案能夠使模型更好地捕捉和利用歷史信息,提高對長距離依賴的理解能力。記憶矩陣能夠根據(jù)輸入序列動態(tài)更新,這一特性允許模型在處理不同序列時具有適應(yīng)性和靈活性,能夠更好地捕獲跨序列的長期依賴關(guān)系。通過將記憶矩陣整合進(jìn)因果自我注意機(jī)制,模型能夠利用更廣泛的上下文信息,包括歷史數(shù)據(jù),從而提高在語言理解和生成任務(wù)上的性能。記憶矩陣的動態(tài)更新策略能夠有效利用有限的計算資源,避免了在長序列處理中常見的梯度消失或爆炸問題,提高了模型的穩(wěn)定性和效率。
1.一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,所述獲取待處理的輸入序列,并計算輸入序列平均值的步驟包括:
3.根據(jù)權(quán)利要求2所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,所述將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣的步驟包括:
4.根據(jù)權(quán)利要求3所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列的步驟包括:
5.根據(jù)權(quán)利要求4所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,所述將所述記憶注意力矩陣和所述輸入值拼接起來,得到輸出序列的步驟包括:
6.根據(jù)權(quán)利要求1所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,所述將所述輸出序列進(jìn)行輸出投影的步驟包括:
7.根據(jù)權(quán)利要求1所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,所述預(yù)設(shè)的記憶矩陣的構(gòu)建過程步驟如下:
8.一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)系統(tǒng),其特征在于,包括:
9.一種計算機(jī)設(shè)備,包括:
10.一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時執(zhí)行如權(quán)利要求1至7任一項所述一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法的步驟。