欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

計算裝置、芯片、板卡和方法與流程

文檔序號:40573429發(fā)布日期:2025-01-03 11:36閱讀:13來源:國知局
計算裝置、芯片、板卡和方法與流程

本披露一般地涉及計算領(lǐng)域。更具體地,本披露涉及一種計算裝置、芯片、板卡和利用計算裝置執(zhí)行自注意力機制運算的方法。


背景技術(shù):

1、目前,變換器(transformer)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于自然語言處理(nlp)領(lǐng)域,例如機器翻譯、問答系統(tǒng)、文本摘要和語音識別等等。transformer網(wǎng)絡(luò)采用了編碼器-解碼器架構(gòu),并且編碼器和解碼器中都包括自注意力機制。自注意力機制是transformer網(wǎng)絡(luò)的核心,其計算過程涉及查詢(q,query)、鍵(k,key)和值(v,value)三個張量之間的乘法運算。

2、傳統(tǒng)ai芯片實現(xiàn)transformer網(wǎng)絡(luò)解碼器自注意力機制時采用tensor?core的方式加速q、k、v這三個張量之間的乘法運算。tensor?core是英偉達在其volta架構(gòu)中引入的一種特殊功能單元,是ai芯片的特定硬件模塊,用于加速矩陣乘法運算。該方式使得q、k、v三個張量之間的乘法運算得以高效實現(xiàn)。

3、然而,當(dāng)在吞吐量(throughput)模式下,也即輸入數(shù)據(jù)規(guī)模非常大,特別是數(shù)據(jù)批次很大時,由于tensor?core按照批次循環(huán)地方式進行處理,會造成較低的數(shù)據(jù)輸入輸出(io)和算力帶寬利用率,導(dǎo)致性能較差。

4、有鑒于此,期望提供一種改進的方案,以使得即使輸入數(shù)據(jù)規(guī)模非常大,也能高效實現(xiàn)自注意力機制的運算。


技術(shù)實現(xiàn)思路

1、為了至少解決如上所提到的一個或多個技術(shù)問題,本披露在多個方面中提出了自注意力機制的運算方案,其通過將自注意力機制中的矩陣乘法運算進行分解,使得運算可以拆分在兩個運算部件上執(zhí)行,從而便于流水操作,提高數(shù)據(jù)吞吐量。

2、在第一方面中,本披露提供一種計算裝置,配置用于執(zhí)行自注意力機制運算,其特征在于,所述自注意力機制運算中的矩陣乘法運算被分解為對位乘子運算和矩陣乘子運算,所述計算裝置包括:處理電路,配置用于執(zhí)行維度操作,以將相關(guān)張量數(shù)據(jù)轉(zhuǎn)換為運算或輸出所需的維度順序和/或形狀,其中所述維度操作包括:維度轉(zhuǎn)置和/或維度變形;向量運算電路vfu,配置用于執(zhí)行所述對位乘子運算,其中所述張量數(shù)據(jù)的批次維度n參與所述對位乘子運算;以及張量運算電路tfu,配置用于執(zhí)行所述矩陣乘子運算,其中所述矩陣乘子運算對相應(yīng)的輸入數(shù)據(jù)執(zhí)行低維度規(guī)約求和運算。

3、在第二方面中,本披露提供一種芯片,包括本披露第一方面的計算裝置。

4、在第三方面中,本披露提供一種板卡,包括本披露第二方面的芯片。

5、在第四方面中,本披露提供一種由本披露第一方面的計算裝置執(zhí)行自注意力機制運算的方法。

6、通過如上所提供的自注意力機制運算方案,本披露實施例針對吞吐量模式,將自注意力機制運算中的矩陣乘法運算分解為對位乘子運算和矩陣乘子運算,便于在兩種不同運算部件上執(zhí)行,從而可以實現(xiàn)流水操作,提高數(shù)據(jù)吞吐量。進一步地,這種運算分解也有利于將多個批次的自注意力機制運算融合在單次自注意力機制運算中,避免了循環(huán)計算導(dǎo)致的算力和帶寬低效問題,充分利用智能計算硬件的并行計算能力,提升了處理效率。對自注意力機制運算的性能改進可以有效提升產(chǎn)品競爭力。



技術(shù)特征:

1.一種計算裝置,配置用于執(zhí)行自注意力機制運算,其特征在于,所述自注意力機制運算中的矩陣乘法運算被分解為對位乘子運算和矩陣乘子運算,所述計算裝置包括:

2.根據(jù)權(quán)利要求1所述的計算裝置,其中所述處理電路進一步配置用于:

3.根據(jù)權(quán)利要求2所述的計算裝置,其中:

4.根據(jù)權(quán)利要求3所述的計算裝置,其中:

5.根據(jù)權(quán)利要求3-4任一所述的計算裝置,還包括:

6.根據(jù)權(quán)利要求5所述的計算裝置,其中所述處理電路進一步配置用于:

7.根據(jù)權(quán)利要求6所述的計算裝置,其中:

8.根據(jù)權(quán)利要求6-7任一所述的計算裝置,其中:

9.根據(jù)權(quán)利要求6-7任一所述的計算裝置,其中所述處理電路進一步配置用于對所述第二tfu結(jié)果執(zhí)行第四維度操作,以生成所述自注意力機制運算的結(jié)果。

10.根據(jù)權(quán)利要求9所述的計算裝置,其中:

11.一種芯片,其特征在于,所述芯片包括如權(quán)利要求1-10任一所述的計算裝置。

12.一種板卡,其特征在于,所述板卡包括權(quán)利要求11所述的芯片。

13.一種利用權(quán)利要求1-10任一所述的計算裝置執(zhí)行自注意力機制運算的方法。


技術(shù)總結(jié)
本披露公開了一種計算裝置、芯片、板卡和方法。計算裝置可以包括在組合處理裝置中,該組合處理裝置還可以包括接口裝置和處理裝置。計算裝置與處理裝置進行交互,共同完成用戶指定的計算操作。組合處理裝置還可以包括存儲裝置,該存儲裝置分別與計算裝置和處理裝置連接,用于存儲計算裝置和處理裝置的數(shù)據(jù)。本披露的方案提供了自注意力機制運算的硬件實現(xiàn)方案,其可以優(yōu)化吞吐量模式下的運算性能,充分利用硬件的IO和算力帶寬。

技術(shù)研發(fā)人員:請求不公布姓名
受保護的技術(shù)使用者:安徽寒武紀信息科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
彭阳县| 股票| 乌苏市| 邵东县| 察雅县| 万州区| 吴川市| 增城市| 武乡县| 邹城市| 海兴县| 龙里县| 江北区| 南靖县| 伊吾县| 锦屏县| 东方市| 大丰市| 新绛县| 新竹市| 来凤县| 永宁县| 石台县| 达孜县| 栾城县| 屏南县| 雷波县| 怀来县| 东安县| 师宗县| 长白| 舟山市| 鸡西市| 三河市| 千阳县| 工布江达县| 东明县| 贡觉县| 萨迦县| 于田县| 保山市|