本發(fā)明涉及人工智能,具體地涉及神經(jīng)網(wǎng)絡的數(shù)據(jù)處理方法、神經(jīng)網(wǎng)絡及芯片。
背景技術:
1、隨著人工智能(ai)技術的快速發(fā)展,深度學習模型,特別是以transformer為代表的神經(jīng)網(wǎng)絡模型,已在自然語言處理(nlp)、計算機視覺(cv)等多個領域取得了顯著進展。然而,深度學習模型的計算復雜度和對硬件資源的高需求對傳統(tǒng)的計算體系架構提出了挑戰(zhàn)。
2、當前的主流計算架構大多基于馮·諾依曼體系結構,該架構中數(shù)據(jù)的處理與存儲單元是分離的。這種分離導致計算過程中數(shù)據(jù)需要頻繁在內存和處理器之間進行傳輸,從而形成了“存儲墻”(memory?wall)瓶頸,極大限制了計算速度,并且增加了能耗。在人工智能模型尤其是大規(guī)模神經(jīng)網(wǎng)絡模型的訓練和推理過程中,這一問題尤為突出。
3、然而,傳統(tǒng)的程序開發(fā)和優(yōu)化方法大多是基于馮·諾依曼體系設計的。因此,針對這些新型架構的特定優(yōu)化方法逐漸成為提升計算效率的關鍵。特別是在神經(jīng)網(wǎng)絡計算中,如何更高效地布局和存儲權重數(shù)據(jù),已成為業(yè)界關注的焦點。
4、以transformer模型為例,它的計算過程高度依賴矩陣乘法、矢量運算等大量并行計算操作。在傳統(tǒng)的馮·諾依曼體系中,這些計算操作因數(shù)據(jù)傳輸和帶寬限制而無法充分發(fā)揮潛能。
5、因此,如何優(yōu)化transformer等神經(jīng)網(wǎng)絡模型的權重布局與存儲,已成為提升ai計算性能的重要課題,有必要對現(xiàn)有神經(jīng)網(wǎng)絡的數(shù)據(jù)處理方法加以改進。
技術實現(xiàn)思路
1、針對以上問題,本發(fā)明提供了一種神經(jīng)網(wǎng)絡的數(shù)據(jù)處理方法,包括步驟:
2、解析神經(jīng)網(wǎng)絡模型到內部的圖表示;
3、識別需要優(yōu)化到pim·pnm的神經(jīng)網(wǎng)絡計算;
4、優(yōu)化pim·pnm的外部交互指令;以及
5、生成pim·pnm的計算指令。
6、應用pim(processing-in-memory)和pnm(processing-near-memory)技術在神經(jīng)網(wǎng)絡中的技術效果主要體現(xiàn)在以下幾個方面:
7、傳統(tǒng)的馮·諾依曼架構中,數(shù)據(jù)需要頻繁在處理器和內存之間移動,尤其是大型神經(jīng)網(wǎng)絡中的權重和輸入特征。這種頻繁的數(shù)據(jù)傳輸會導致延遲增加,耗費大量能量。pim和pnm通過在內存中或內存附近進行計算,避免了數(shù)據(jù)在存儲和計算單元之間的頻繁傳輸,從而減少了延遲和功耗。
8、神經(jīng)網(wǎng)絡中的主要計算任務是矩陣乘法(如transformer的多頭注意力機制和前饋神經(jīng)網(wǎng)絡中的權重矩陣計算)。在pim和pnm架構下,可以將這些矩陣乘法計算直接在內存中處理,從而減少數(shù)據(jù)的移動次數(shù)。通過分塊矩陣乘法或列累積法等優(yōu)化策略,可以充分利用計算緩存,進一步提升計算效率。
9、pim和pnm架構支持并行計算能力,通過多線程或多通道處理器將輸入數(shù)據(jù)并行傳輸至多個計算單元。對于神經(jīng)網(wǎng)絡的層次化結構(如transformer的多層堆疊),pim/pnm能夠在同一時刻并行處理多個層次或多個頭的自注意力計算,從而加速整個模型的推理和訓練過程。
10、pim和pnm架構在數(shù)據(jù)移動上進行了優(yōu)化,直接在存儲單元中處理數(shù)據(jù),減少了馮·諾依曼架構中數(shù)據(jù)傳輸?shù)母吣芎摹τ诖笠?guī)模神經(jīng)網(wǎng)絡模型,如bert或gpt,模型參數(shù)龐大,數(shù)據(jù)移動頻繁,pim和pnm通過減少內存訪問頻率,顯著降低了計算能耗。
11、pim和pnm通過將計算放置在內存附近或內部,充分利用內存帶寬。傳統(tǒng)架構中,內存帶寬常常成為性能瓶頸,而在pim/pnm架構下,內存帶寬可以被更高效地利用,尤其是在執(zhí)行神經(jīng)網(wǎng)絡中的矩陣操作時,帶寬需求被顯著優(yōu)化。
12、隨著深度學習模型規(guī)模的增加,尤其是transformer模型的多層結構和多頭注意力機制,pim/pnm架構可以更好地處理大規(guī)模模型的計算需求。通過將權重和輸入特征盡可能地留在內存中計算,pim/pnm架構可以應對越來越大的模型,尤其是處理大數(shù)據(jù)量和長序列輸入時,其優(yōu)勢更為顯著。
13、在一些實時應用場景,如自動駕駛、智能監(jiān)控等,神經(jīng)網(wǎng)絡的推理速度至關重要。pim和pnm通過減少數(shù)據(jù)傳輸和加快計算速度,使得神經(jīng)網(wǎng)絡在實時應用中的響應更加快速,滿足低延遲、高吞吐量的需求。
14、綜上,應用pim和pnm技術在神經(jīng)網(wǎng)絡中的效果包括減少數(shù)據(jù)傳輸瓶頸、提高計算效率、優(yōu)化存儲與計算的并行性、降低能耗、提高內存帶寬利用率,并更好地支持大規(guī)模模型和實時應用。
15、可選地,所述神經(jīng)網(wǎng)絡為transformer網(wǎng)絡。
16、可選地,所述“優(yōu)化pim·pnm的外部交互指令”包括:
17、確定矩陣分塊大?。?/p>
18、劃分矩陣子塊;以及
19、分塊矩陣計算。
20、可選地,所述確認矩陣分塊大小包括:采用分塊策略對矩陣a和b進行處理,分塊大小b×b根據(jù)內存容量s設定,確保分塊數(shù)據(jù)不超過內存容量,滿足以下條件:2b2≤s。
21、可選地,所述分塊矩陣計算包括:通過塊矩陣乘法方式進行計算,將矩陣a和矩陣b分塊為子矩陣,按以下公式逐塊計算得到結果矩陣c,矩陣c的每一子塊:cij=∑kaik×bkj,其中,aik和bkj)分別是矩陣a和矩陣b的子矩陣。
22、可選地,“所述生成pim·pnm的計算指令”包括:通過塊矩陣乘法方式進行計算,將矩陣a和矩陣b分塊為子矩陣,按以下公式逐塊計算得到結果矩陣c,矩陣c的每一子塊:cij=∑kaik×bkj,其中,aik和bkj)分別是矩陣a和矩陣b的子矩陣。
23、分塊策略通過將大矩陣分割為多個小矩陣(子矩陣)進行操作,可以更好地利用緩存。由于現(xiàn)代處理器的緩存容量有限,而大規(guī)模矩陣乘法等操作往往需要大量內存帶寬,直接處理整個矩陣可能會導致緩存未命中(cache?miss)。分塊策略將矩陣劃分為適合緩存大小的塊,使每次操作集中在較小的內存區(qū)域,從而減少了緩存未命中率,提升了處理效率。
24、分塊策略能減少矩陣運算過程中對內存帶寬的依賴。矩陣操作需要頻繁訪問內存,大規(guī)模矩陣運算尤其如此。通過分塊處理,每個塊可以在較小的內存區(qū)域內完成計算,從而降低對內存的頻繁訪問需求。這樣能夠緩解內存帶寬瓶頸,提高矩陣計算的吞吐量。
25、分塊矩陣策略使得矩陣乘法等操作更易于并行化處理。在并行計算環(huán)境下,多個處理器核心可以分別處理不同的矩陣塊,從而實現(xiàn)高效的并行計算。對于現(xiàn)代深度學習模型,尤其是大型神經(jīng)網(wǎng)絡模型(如transformer),分塊處理不僅能提升單機性能,也能在多核、gpu或分布式系統(tǒng)中充分發(fā)揮計算資源的并行能力。
26、可選地,所述“識別需要優(yōu)化到pim·pnm的神經(jīng)網(wǎng)絡計算”包括:基于權重數(shù)據(jù)的大小,將小于預設規(guī)模的權重數(shù)據(jù)存儲在計算緩存中,避免頻繁的數(shù)據(jù)移動,將大于預設規(guī)模的權重數(shù)據(jù)保持在存儲中,通過減少傳輸次數(shù)優(yōu)化計算性能。
27、可選地,采用列累積法對矩陣乘法進行優(yōu)化,逐列對矩陣a和矩陣b的列向量進行乘積,并累加到結果矩陣c中,以減少數(shù)據(jù)傳輸量并提高計算效率。
28、為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種神經(jīng)網(wǎng)絡,應用上文所述的神經(jīng)網(wǎng)絡的數(shù)據(jù)處理方法。
29、為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種芯片,應用上文所述的神經(jīng)網(wǎng)絡的數(shù)據(jù)處理方法。
30、綜上所述,本發(fā)明提供的神經(jīng)網(wǎng)絡的數(shù)據(jù)處理方法,通過應用pim和pnm技術在神經(jīng)網(wǎng)絡中的效果包括減少數(shù)據(jù)傳輸瓶頸、提高計算效率、優(yōu)化存儲與計算的并行性、降低能耗、提高內存帶寬利用率,并更好地支持大規(guī)模模型和實時應用。