一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)與流程

文檔序號：40459416發(fā)布日期：2024-12-27 09:24閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)與流程

本發(fā)明涉及深度學(xué)習(xí)的領(lǐng)域，尤其涉及一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)。

背景技術(shù)：

1、近年來，自注意力機(jī)制（self-attention?mechanism）在自然語言處理領(lǐng)域引起了廣泛關(guān)注，尤其是transformer架構(gòu)的提出，它徹底改變了序列建模的傳統(tǒng)方式。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)（rnn）及其變體，如長短時記憶網(wǎng)絡(luò)（lstm）和門控循環(huán)單元（gru），雖然在處理序列數(shù)據(jù)方面表現(xiàn)出色，但受限于其固有的串行處理特性，難以并行化，導(dǎo)致訓(xùn)練效率較低。相比之下，自注意力機(jī)制允許模型同時關(guān)注序列中的不同位置，極大地加速了訓(xùn)練過程，并提高了模型對長距離依賴關(guān)系的捕捉能力。

2、在處理具有明確順序的序列數(shù)據(jù)時，如語言生成任務(wù)，傳統(tǒng)的自注意力機(jī)制存在一個明顯的缺陷：它允許每個位置的詞同時訪問其前后文的信息。然而，在某些場景下，如生成式任務(wù)，未來信息的泄露會破壞模型的學(xué)習(xí)過程。為了解決這一問題，因果自注意力機(jī)制被提出，它通過引入一個遮罩（mask）來限制模型只能看到當(dāng)前位置及之前的位置，從而避免了信息泄露，確保了生成過程的合理性。

3、盡管因果自注意力機(jī)制在許多任務(wù)中取得了顯著成果，但在處理非常長的序列時，模型仍然面臨著捕捉長距離依賴關(guān)系的挑戰(zhàn)。這是因為隨著序列長度的增加，自注意力機(jī)制的計算復(fù)雜度和內(nèi)存需求也會顯著增長，導(dǎo)致模型訓(xùn)練變得困難。此外，傳統(tǒng)的因果自注意力機(jī)制往往過于依賴最近的上下文，而忽視了更遠(yuǎn)處的潛在關(guān)聯(lián)。

4、當(dāng)前的技術(shù)方案在處理長序列時，往往需要在計算效率、內(nèi)存消耗和模型性能之間做出妥協(xié)。特別是當(dāng)模型需要捕捉跨越數(shù)百甚至數(shù)千個時間步的依賴關(guān)系時，這種妥協(xié)尤為明顯。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述問題，本發(fā)明旨在增強(qiáng)基于transformer架構(gòu)的gpt模型的因果自我注意機(jī)制，通過引入一個可訓(xùn)練的記憶矩陣以及一套專門用于該記憶矩陣動態(tài)更新的機(jī)制，從而顯著提升模型在處理長序列數(shù)據(jù)時的上下文理解和生成能力。

2、基于上述目的，本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法，包括：

3、獲取待處理的輸入序列，并計算輸入序列平均值；

4、將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上，得到更新后的記憶矩陣；

5、對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中，得到輸出序列；

6、將所述輸出序列進(jìn)行輸出投影。

7、在一些實(shí)施例中，所述獲取待處理的輸入序列，并計算輸入序列平均值的步驟包括：

8、獲取待處理的輸入序列；

9、將輸入序列進(jìn)行線性變換為輸入鍵和輸入值；

10、沿著輸入序列的序列維度求平均得到輸入序列平均值。

11、在一些實(shí)施例中，所述將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上，得到更新后的記憶矩陣的步驟包括：

12、將所有的所述輸入序列平均值轉(zhuǎn)化為更新信號；

13、平均化所述更新信號，得到平均信號；

14、將所述平均信號累加更新到記憶矩陣中，得到更新后的記憶矩陣。

15、在一些實(shí)施例中，對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中，得到輸出序列的步驟包括：

16、將更新后的記憶矩陣擴(kuò)展到當(dāng)前批次大小，轉(zhuǎn)化得到與所述輸入鍵和輸入值相似的形狀；

17、對所述轉(zhuǎn)化后的記憶矩陣進(jìn)行注意力計算，得到記憶注意力矩陣；

18、將所述記憶注意力矩陣和所述輸入值拼接起來，得到輸出序列。

19、在一些實(shí)施例中，所述將所述記憶注意力矩陣和所述輸入值拼接起來，得到輸出序列的步驟包括：

20、將所述記憶注意力矩陣轉(zhuǎn)換為記憶鍵和記憶值；

21、通過記憶鍵和所述平均信號進(jìn)行點(diǎn)積計算得到記憶注意力權(quán)重；

22、將所述記憶注意力權(quán)重進(jìn)行優(yōu)化后應(yīng)用在記憶值上得到加權(quán)記憶值；

23、將所述加權(quán)記憶值匹配為所述輸入序列的長度，并和所述輸入值拼接起來，得到輸出序列。

24、在一些實(shí)施例中，所述將所述輸出序列進(jìn)行輸出投影的步驟包括：

25、將所述輸出序列通過輸出投影映射到輸出空間的維度，得到輸出結(jié)果；

26、將所述輸出結(jié)果進(jìn)行殘差連接和正則化后輸出。

27、在一些實(shí)施例中，所述預(yù)設(shè)的記憶矩陣的構(gòu)建過程步驟如下：

28、定義一個可擴(kuò)展的記憶矩陣；

29、通過需要的記憶槽的數(shù)量和嵌入維度確定記憶矩陣的大小。

30、本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)系統(tǒng)，包括：

31、獲取單元，配置為用于獲取待處理的輸入序列，并計算輸入序列平均值；

32、更新單元，配置為用于將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上，得到更新后的記憶矩陣；

33、融合單元，配置為用于對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中，得到輸出序列；

34、輸出單元，配置為用于將所述輸出序列進(jìn)行輸出投影。

35、本發(fā)明提出了一種計算機(jī)設(shè)備，包括：

36、至少一個處理器；以及存儲器，所述存儲器存儲有可在所述處理器上運(yùn)行的計算機(jī)程序，所述處理器執(zhí)行所述程序時執(zhí)行所述一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法的步驟。

37、本發(fā)明提出了一種計算機(jī)可讀存儲介質(zhì)，所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序，所述計算機(jī)程序被處理器執(zhí)行時執(zhí)行所述一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法的步驟。

38、本發(fā)明至少具有以下有益技術(shù)效果：

39、本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)，方法包括：獲取待處理的輸入序列，并計算輸入序列平均值；將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上，得到更新后的記憶矩陣；所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中，得到輸出序列；將所述輸出序列進(jìn)行輸出投影。

40、本發(fā)明用于增強(qiáng)transformer架構(gòu)下的gpt模型，特別是在處理長序列數(shù)據(jù)時的表現(xiàn)。通過在模型中引入一個可訓(xùn)練的記憶矩陣和一套專用于記憶矩陣動態(tài)更新的機(jī)制，此方案能夠使模型更好地捕捉和利用歷史信息，提高對長距離依賴的理解能力。記憶矩陣能夠根據(jù)輸入序列動態(tài)更新，這一特性允許模型在處理不同序列時具有適應(yīng)性和靈活性，能夠更好地捕獲跨序列的長期依賴關(guān)系。通過將記憶矩陣整合進(jìn)因果自我注意機(jī)制，模型能夠利用更廣泛的上下文信息，包括歷史數(shù)據(jù)，從而提高在語言理解和生成任務(wù)上的性能。記憶矩陣的動態(tài)更新策略能夠有效利用有限的計算資源，避免了在長序列處理中常見的梯度消失或爆炸問題，提高了模型的穩(wěn)定性和效率。

技術(shù)特征：

1.一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法，其特征在于，所述獲取待處理的輸入序列，并計算輸入序列平均值的步驟包括：

3.根據(jù)權(quán)利要求2所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法，其特征在于，所述將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上，得到更新后的記憶矩陣的步驟包括：

4.根據(jù)權(quán)利要求3所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法，其特征在于，對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中，得到輸出序列的步驟包括：

5.根據(jù)權(quán)利要求4所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法，其特征在于，所述將所述記憶注意力矩陣和所述輸入值拼接起來，得到輸出序列的步驟包括：

6.根據(jù)權(quán)利要求1所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法，其特征在于，所述將所述輸出序列進(jìn)行輸出投影的步驟包括：

7.根據(jù)權(quán)利要求1所述的一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法，其特征在于，所述預(yù)設(shè)的記憶矩陣的構(gòu)建過程步驟如下：

8.一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)系統(tǒng)，其特征在于，包括：

9.一種計算機(jī)設(shè)備，包括：

10.一種計算機(jī)可讀存儲介質(zhì)，所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序，其特征在于，所述計算機(jī)程序被處理器執(zhí)行時執(zhí)行如權(quán)利要求1至7任一項所述一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法的步驟。

技術(shù)總結(jié)
本發(fā)明涉及深度學(xué)習(xí)的領(lǐng)域，本發(fā)明提出了一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)，方法包括：獲取待處理的輸入序列，并計算輸入序列平均值；將所述輸入序列平均值結(jié)合在預(yù)設(shè)的記憶矩陣上，得到更新后的記憶矩陣；對所述更新后的記憶矩陣進(jìn)行轉(zhuǎn)換后融合到輸入序列的值中，得到輸出序列；將所述輸出序列進(jìn)行輸出投影。本發(fā)明能夠更好地捕獲跨序列的長期依賴關(guān)系。通過將記憶矩陣整合進(jìn)因果自我注意機(jī)制，模型能夠利用更廣泛的上下文信息，包括歷史數(shù)據(jù)，從而提高在語言理解和生成任務(wù)上的性能。記憶矩陣的動態(tài)更新策略能夠有效利用有限的計算資源，避免了在長序列處理中常見的梯度消失或爆炸問題，提高了模型的穩(wěn)定性和效率。

技術(shù)研發(fā)人員：盧寶山,陳亮甫,孫超,牛玉峰
受保護(hù)的技術(shù)使用者：超越科技股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/26

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：盧寶山,陳亮甫,孫超,牛玉峰
技術(shù)所有人：超越科技股份有限公司
我是此專利的發(fā)明人

上一篇：一種具有自動烘干機(jī)構(gòu)的鞋柜的制作方法
上一篇：一種電力用戶外驅(qū)鳥電力柜的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)與流程

一種自注意力網(wǎng)絡(luò)的動態(tài)記憶增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)與流程