欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)與流程

文檔序號:40459416發(fā)布日期:2024-12-27 09:24閱讀:12來源:國知局
一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)與流程

本發(fā)明涉及深度學(xué)習(xí)的領(lǐng)域,尤其涉及一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)。


背景技術(shù):

1、近年來,自注意力機(jī)制(self-attention?mechanism)在自然語言處理領(lǐng)域引起了廣泛關(guān)注,尤其是transformer架構(gòu)的提出,它徹底改變了序列建模的傳統(tǒng)方式。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)及其變體,如長短時記憶網(wǎng)絡(luò)(lstm)和門控循環(huán)單元(gru),雖然在處理序列數(shù)據(jù)方面表現(xiàn)出色,但受限于其固有的串行處理特性,難以并行化,導(dǎo)致訓(xùn)練效率較低。相比之下,自注意力機(jī)制允許模型同時關(guān)注序列中的不同位置,極大地加速了訓(xùn)練過程,并提高了模型對長距離依賴關(guān)系的捕捉能力。

2、在處理具有明確順序的序列數(shù)據(jù)時,如語言生成任務(wù),傳統(tǒng)的自注意力機(jī)制存在一個明顯的缺陷:它允許每個位置的詞同時訪問其前后文的信息。然而,在某些場景下,如生成式任務(wù),未來信息的泄露會破壞模型的學(xué)習(xí)過程。為了解決這一問題,因果自注意力機(jī)制被提出,它通過引入一個遮罩(mask)來限制模型只能看到當(dāng)前位置及之前的位置,從而避免了信息泄露,確保了生成過程的合理性。

3、盡管因果自注意力機(jī)制在許多任務(wù)中取得了顯著成果,但在處理非常長的序列時,模型仍然面臨著捕捉長距離依賴關(guān)系的挑戰(zhàn)。這是因為隨著序列長度的增加,自注意力機(jī)制的計算復(fù)雜度和內(nèi)存需求也會顯著增長,導(dǎo)致模型訓(xùn)練變得困難。此外,傳統(tǒng)的因果自注意力機(jī)制往往過于依賴最近的上下文,而忽視了更遠(yuǎn)處的潛在關(guān)聯(lián)。

4、當(dāng)前的技術(shù)方案在處理長序列時,往往需要在計算效率、內(nèi)存消耗和模型性能之間做出妥協(xié)。特別是當(dāng)模型需要捕捉跨越數(shù)百甚至數(shù)千個時間步的依賴關(guān)系時,這種妥協(xié)尤為明顯。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述問題,本發(fā)明旨在增強(qiáng)基于transformer架構(gòu)的gpt模型的因果自我注意機(jī)制,通過引入一個可訓(xùn)練的記憶矩陣以及一套專門用于該記憶矩陣動態(tài)更新的機(jī)制,從而顯著提升模型在處理長序列數(shù)據(jù)時的上下文理解和生成能力。

2、基于上述目的,本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,包括:

3、獲取待處理的輸入序列,并計算輸入序列平均值;

4、將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣;

5、對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列;

6、將所述輸出序列進(jìn)行輸出投影。

7、在一些實(shí)施例中,所述獲取待處理的輸入序列,并計算輸入序列平均值的步驟包括:

8、獲取待處理的輸入序列;

9、將輸入序列進(jìn)行線性變換為輸入鍵和輸入值;

10、沿著輸入序列的序列維度求平均得到輸入序列平均值。

11、在一些實(shí)施例中,所述將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣的步驟包括:

12、將所有的所述輸入序列平均值轉(zhuǎn)化為更新信號;

13、平均化所述更新信號,得到平均信號;

14、將所述平均信號累加更新到記憶矩陣中,得到更新后的記憶矩陣。

15、在一些實(shí)施例中,對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列的步驟包括:

16、將更新后的記憶矩陣擴(kuò)展到當(dāng)前批次大小,轉(zhuǎn)化得到與所述輸入鍵和輸入值相似的形狀;

17、對所述轉(zhuǎn)化后的記憶矩陣進(jìn)行注意力計算,得到記憶注意力矩陣;

18、將所述記憶注意力矩陣和所述輸入值拼接起來,得到輸出序列。

19、在一些實(shí)施例中,所述將所述記憶注意力矩陣和所述輸入值拼接起來,得到輸出序列的步驟包括:

20、將所述記憶注意力矩陣轉(zhuǎn)換為記憶鍵和記憶值;

21、通過記憶鍵和所述平均信號進(jìn)行點(diǎn)積計算得到記憶注意力權(quán)重;

22、將所述記憶注意力權(quán)重進(jìn)行優(yōu)化后應(yīng)用在記憶值上得到加權(quán)記憶值;

23、將所述加權(quán)記憶值匹配為所述輸入序列的長度,并和所述輸入值拼接起來,得到輸出序列。

24、在一些實(shí)施例中,所述將所述輸出序列進(jìn)行輸出投影的步驟包括:

25、將所述輸出序列通過輸出投影映射到輸出空間的維度,得到輸出結(jié)果;

26、將所述輸出結(jié)果進(jìn)行殘差連接和正則化后輸出。

27、在一些實(shí)施例中,所述預(yù)設(shè)的記憶矩陣的構(gòu)建過程步驟如下:

28、定義一個可擴(kuò)展的記憶矩陣;

29、通過需要的記憶槽的數(shù)量和嵌入維度確定記憶矩陣的大小。

30、本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)系統(tǒng),包括:

31、獲取單元,配置為用于獲取待處理的輸入序列,并計算輸入序列平均值;

32、更新單元,配置為用于將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣;

33、融合單元,配置為用于對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列;

34、輸出單元,配置為用于將所述輸出序列進(jìn)行輸出投影。

35、本發(fā)明提出了一種計算機(jī)設(shè)備,包括:

36、至少一個處理器;以及存儲器,所述存儲器存儲有可在所述處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時執(zhí)行所述一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法的步驟。

37、本發(fā)明提出了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時執(zhí)行所述一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法的步驟。

38、本發(fā)明至少具有以下有益技術(shù)效果:

39、本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì),方法包括:獲取待處理的輸入序列,并計算輸入序列平均值;將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣;所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列;將所述輸出序列進(jìn)行輸出投影。

40、本發(fā)明用于增強(qiáng)transformer架構(gòu)下的gpt模型,特別是在處理長序列數(shù)據(jù)時的表現(xiàn)。通過在模型中引入一個可訓(xùn)練的記憶矩陣和一套專用于記憶矩陣動態(tài)更新的機(jī)制,此方案能夠使模型更好地捕捉和利用歷史信息,提高對長距離依賴的理解能力。記憶矩陣能夠根據(jù)輸入序列動態(tài)更新,這一特性允許模型在處理不同序列時具有適應(yīng)性和靈活性,能夠更好地捕獲跨序列的長期依賴關(guān)系。通過將記憶矩陣整合進(jìn)因果自我注意機(jī)制,模型能夠利用更廣泛的上下文信息,包括歷史數(shù)據(jù),從而提高在語言理解和生成任務(wù)上的性能。記憶矩陣的動態(tài)更新策略能夠有效利用有限的計算資源,避免了在長序列處理中常見的梯度消失或爆炸問題,提高了模型的穩(wěn)定性和效率。



技術(shù)特征:

1.一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,所述獲取待處理的輸入序列,并計算輸入序列平均值的步驟包括:

3.根據(jù)權(quán)利要求2所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,所述將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣的步驟包括:

4.根據(jù)權(quán)利要求3所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列的步驟包括:

5.根據(jù)權(quán)利要求4所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,所述將所述記憶注意力矩陣和所述輸入值拼接起來,得到輸出序列的步驟包括:

6.根據(jù)權(quán)利要求1所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,所述將所述輸出序列進(jìn)行輸出投影的步驟包括:

7.根據(jù)權(quán)利要求1所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法,其特征在于,所述預(yù)設(shè)的記憶矩陣的構(gòu)建過程步驟如下:

8.一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)系統(tǒng),其特征在于,包括:

9.一種計算機(jī)設(shè)備,包括:

10.一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時執(zhí)行如權(quán)利要求1至7任一項所述一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法的步驟。


技術(shù)總結(jié)
本發(fā)明涉及深度學(xué)習(xí)的領(lǐng)域,本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì),方法包括:獲取待處理的輸入序列,并計算輸入序列平均值;將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上,得到更新后的記憶矩陣;對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中,得到輸出序列;將所述輸出序列進(jìn)行輸出投影。本發(fā)明能夠更好地捕獲跨序列的長期依賴關(guān)系。通過將記憶矩陣整合進(jìn)因果自我注意機(jī)制,模型能夠利用更廣泛的上下文信息,包括歷史數(shù)據(jù),從而提高在語言理解和生成任務(wù)上的性能。記憶矩陣的動態(tài)更新策略能夠有效利用有限的計算資源,避免了在長序列處理中常見的梯度消失或爆炸問題,提高了模型的穩(wěn)定性和效率。

技術(shù)研發(fā)人員:盧寶山,陳亮甫,孫超,牛玉峰
受保護(hù)的技術(shù)使用者:超越科技股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/26
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
和田市| 互助| 马鞍山市| 米林县| 沧州市| 永济市| 同德县| 渝中区| 上高县| 大悟县| 天等县| 社旗县| 临汾市| 彰化县| 若尔盖县| 丰台区| 康马县| 郴州市| 海宁市| 合江县| 海淀区| 南岸区| 湘潭市| 常德市| 云和县| 灵台县| 西贡区| 贡山| 墨玉县| 荔浦县| 浮梁县| 汽车| 建阳市| 安顺市| 库车县| 徐水县| 县级市| 花莲县| 额济纳旗| 交口县| 固镇县|