圖形處理器中的前端動(dòng)態(tài)共享方法_3

文檔序號(hào)：9326650閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>圖形處理器中的前端動(dòng)態(tài)共享方法

以下基準(zhǔn)測試程序：
[0069] · NVIDIA CUDA SDK 4. I:BinomialOptions(BO), MergeSort(MS), Histogram(HG) ,Reduction (RD), ScalarProd(SP), dwtHarrlD(DH), BlackScholes(BS), SobolQRNG(SQ), Tr anspose(TP), Scan(SC).
[0070] · Parboil:sgemm(SGE)，Sum of Absolute Difference (SAD) ·
[0071] · Rodinia: PATH Finder (PF)·
[0072] · GPGPU-Sim benchmark suite:Coul Potential (CP)，AES Encryption (AES)，BFS Search (BFS), Swap Portfolio(LIB).
[0073] 選擇的多樣性的應(yīng)用程序：有訪存密集型的應(yīng)用程序（BS，SQ，TP和SC)和計(jì)算密集型的應(yīng)用程序（B0，CP，AES和PF)，不規(guī)則應(yīng)用程序（BFS，MS和HG)和規(guī)整應(yīng)用程序（余下的所有）。此外，大多數(shù)的應(yīng)用具有多個(gè)核函數(shù)，并且每個(gè)核函數(shù)都可以說是重新集群點(diǎn)。
[0074] 下面是在仿真平臺(tái)上的評估結(jié)果：
[0075] 1.前端共享時(shí)間百分比
[0076] 許多應(yīng)用程序沒有指令發(fā)散，因此具有前端共享時(shí)間的百分比為100%。不規(guī)則的應(yīng)用，如BFS，MS，和HG的共享時(shí)間百分比均小于100%。大體上，百分比受指令發(fā)散的頻率和位置影響。有頻繁指令發(fā)散的應(yīng)用程序或大部分指令發(fā)散發(fā)生在核函數(shù)的早期階段將有較小的共享時(shí)間的百分比。
[0077] 2.性能表現(xiàn)
[0078] 我們比較了一個(gè)2-流多處理器的集群系統(tǒng)和一個(gè)四SM集群系統(tǒng)的性能。并將結(jié) 果相對于基線GTX480圖形處理器不前端共享的性能歸一化?？偟膩碚f，我們發(fā)現(xiàn)在前端共享架構(gòu)的性能是接近基準(zhǔn)架構(gòu)的。
[0079] 雖然我們的架構(gòu)集群了幾個(gè)流多處理器并同步執(zhí)行，但仍保持了 32個(gè)線程作為一個(gè)warp。總之，在2-流多處理器的集群系統(tǒng)和一個(gè)四SM集群系統(tǒng)下該架構(gòu)實(shí)現(xiàn)了所有的應(yīng)用程序性能達(dá)到了 98. 0%和97. 1 %平均成績。
[0080] 3.前端節(jié)約的能耗
[0081] 平均來說，可以在兩個(gè)流多處理器集群和四個(gè)流多處理器集群配置下節(jié)約24. 9% 和33. 7%的能量。但是我們不提倡集群大小超出4,因?yàn)樾阅芄β时炔缓?。SQ達(dá)到最佳的前端節(jié)能百分比是由于其良好的性能和100%的時(shí)間共享。相反，BFS和TP節(jié)約的只有可憐的部分前端，因?yàn)樗麄兊亩虝r(shí)間的共享和較差的性能表現(xiàn)。
[0082] 4.總的圖形處理器節(jié)約能耗
[0083] 整個(gè)圖形處理器的節(jié)能百分比取決于三個(gè)因素：應(yīng)用性能，共享時(shí)間百分比，和在前端的功率在總圖形處理器的功率的百分比。我們評估得到，除了 SC的所有應(yīng)用程序，四個(gè)流多處理器集群比兩個(gè)流多處理器節(jié)省了更多的能量，對于SC，其糟糕的性能表現(xiàn)使得四個(gè)流多處理器集群相應(yīng)的能源開銷超過了兩個(gè)前端斷電節(jié)省的能量?？傮w而言，SQ節(jié)省比例最高，而BFS和TP節(jié)省最少的能量百分比。三個(gè)應(yīng)用節(jié)省超過10%的總能量?？傮w 上，我們可以得到，計(jì)算密集型應(yīng)用程序（B0, CP，AES，PF)，訪存密集型應(yīng)用程序（BS，SQ， TP，SC)，以及一些不規(guī)則的應(yīng)用程序（BFS，MS，HG)均可以從前端共享架構(gòu)中獲得能量使用效率的提升。平均而言，所有的應(yīng)用程序在兩個(gè)流多處理器集群和四個(gè)流多處理器集群配置下，可以節(jié)約4. 9%和6. 8%的總能量。
【主權(quán)項(xiàng)】
1. 一種提高通用圖形處理器能量利用率的方法，基于共享流多處理器前端的芯片架構(gòu)，其特征在于： 1) 若干相鄰的流多處理器被分組到一個(gè)共享前端的集群中同步執(zhí)行，其中一個(gè)集群中索引最小的流多處理器成為主處理器； 2) 主流多處理器的前端始終通電，而在從流多處理器的前端中大部分組件是門控電源； 3) 不同的共享前端的集群相互獨(dú)立工作；主流多處理器中包含一個(gè)增強(qiáng)版的記分板；對于訪存指令，在不同流多處理器中延遲不同，記分板記錄所有集群成員的數(shù)據(jù)依賴關(guān)系；但對于非訪存指令，因?yàn)槠鋵λ辛鞫嗵幚砥饔邢嗤膱?zhí)行延遲，所以記分板只檢查主流多處理器自己的數(shù)據(jù)依賴；在通用圖形處理器中，每N個(gè)相鄰的流多處理器形成集群；使用兩個(gè)或者四個(gè)流多處理器集群。2. 根據(jù)權(quán)利要求1所述的提高通用圖形處理器能量利用率的方法，其特征在于：從流多處理器的所有前端部件除了 S頂T堆棧外都是門控的；從流多處理器管理自己S頂T堆棧，記錄分支發(fā)散和重新收斂條件，在集群被迫解散以后，各流多處理器獨(dú)立執(zhí)行后發(fā)揮作用；由CTA軟件調(diào)度器給一個(gè)集群中所有流多處理器分配了相同數(shù)量的線程塊。3. 根據(jù)權(quán)利要求1所述的提高通用圖形處理器能量利用率的方法，其特征在于：1)主流多處理器通過片上網(wǎng)絡(luò)調(diào)控和發(fā)射指令；在每一個(gè)發(fā)射周期中，主流多處理器檢查條件以決定是否能發(fā)出指令；大多數(shù)集群中完全同步狀態(tài)，僅需要檢查它的本地信息（SMT棧，記分板，執(zhí)行單元狀態(tài)等）決定是否能發(fā)出指令； 2) 對于訪存相關(guān)指令，當(dāng)延遲用于存取存儲(chǔ)器是不同的橫跨短信，從流多處理器被要求通過片上網(wǎng)絡(luò)向主流多處理器發(fā)送"確認(rèn)"以確認(rèn)完成訪存相關(guān)指令的訪問任務(wù)； 3) 主流多處理器使用增強(qiáng)的記分板來記錄對整個(gè)集群的訪存指令狀態(tài)；一個(gè)增強(qiáng)的記分板是通過給每個(gè)記分板的條目添加四個(gè)位來實(shí)現(xiàn)的。4. 根據(jù)權(quán)利1所述的提高通用圖形處理器能量利用率的方法，其特征在于：在一個(gè)包含N個(gè)流多處理器的通用圖形處理器開啟一個(gè)新的核函數(shù)時(shí)，該通用圖形處理器將通過分成N/S集群，每個(gè)集群包含S個(gè)相鄰的流多處理器；在每個(gè)集群中，索引最小的流多處理器成為主流多處理器而所有其余的成為從流多處理器。5. 根據(jù)權(quán)利1所述的提高通用圖形處理器能量利用率的方法，其特征在于：在每一個(gè)分支指令時(shí)，warp塊中去一個(gè)方向?qū)⒃O(shè)置其掩碼為"1"，而其他方向?qū)⑵溲?碼設(shè)置"0";在分支指令執(zhí)行過程中，在一個(gè)分支指令執(zhí)行后，主流多處理器將廣播其線程掩碼給集群中所有的從流多處理器。若掩碼出現(xiàn)分歧，從流多處理器將發(fā)送"取消組合"請求給主流多處理器；通常的通用圖形處理器應(yīng)用程序包含多個(gè)核函數(shù)，分別完成特定的功能。集群一旦取消將不會(huì)再次集群，直到此核函數(shù)的末端。在開始新的核函數(shù)時(shí)，流多處理器將有機(jī)會(huì)再次進(jìn)行集群。6. 根據(jù)權(quán)利1所述的提高通用圖形處理器能量利用率的方法，其特征在于：管理主從流多處理器之間通信的片上網(wǎng)絡(luò)裝置，1)主從流多處理器之間有一對通信線路； 2) 通信線路從主流多處理器到從流多處理器是64位的，負(fù)責(zé)攜帶譯碼后的指令包； 3) 通信線路從從流多處理器到主流多處理器是16位的，負(fù)責(zé)攜帶回執(zhí)包和其他信息。7. 根據(jù)權(quán)利6所述的提高通用圖形處理器能量利用率的方法，其特征在于：管理主從流多處理器之間通信的片上網(wǎng)絡(luò)裝置和流多處理器與第二級(jí)高速緩存之間的互連網(wǎng)絡(luò)工作頻率相同，且是流多處理器核心頻率的兩倍；但是，該片上網(wǎng)絡(luò)只有10字節(jié)位寬，是上述互連網(wǎng)絡(luò)寬度的三分之一。8. 根據(jù)權(quán)利6所述的提高通用圖形處理器能量利用率的方法，其特征在于：所述的負(fù)責(zé)主從流多處理器之間通信的片上網(wǎng)絡(luò)裝置中，片上網(wǎng)絡(luò)數(shù)據(jù)包的三種主要類型： InstPacket包含指令信息；MemPacket包含訪存"確認(rèn)"消息；CtrlPacket控制集群行為；根據(jù)訪存密集程度，MemPacket能占據(jù)網(wǎng)絡(luò)流量中一個(gè)顯著部分。9. 根據(jù)權(quán)利1所述的提高通用圖形處理器能量利用率的方法，其特征在于：通用圖像處理器處理流水線實(shí)現(xiàn)方法，除了常規(guī)的流水線階段，在發(fā)射指令和讀取操作數(shù)階段之間插入新的"通信"的階段；主從流多處理器之間的指令傳送就在此階段進(jìn)行。10. 根據(jù)權(quán)利1所述的提高通用圖形處理器能量利用率的方法，其特征在于設(shè)有一個(gè) 估計(jì)集群內(nèi)片上網(wǎng)絡(luò)能耗的方法， 1) 基于通信線路的數(shù)量，通信線路的寬度以及它們的長度； 2) 假設(shè)集群內(nèi)片上網(wǎng)絡(luò)的能耗與數(shù)據(jù)傳輸?shù)钠骄嚯x和數(shù)量成線性； 3) 根據(jù)增強(qiáng)的記分板位寬與原有位寬的比例線性縮放記分板能耗； 4) 根據(jù)費(fèi)米架構(gòu)通用圖形處理器的尺寸及其制造工藝，估計(jì)集群內(nèi)片上網(wǎng)絡(luò)的總面積為原流多處理器與二級(jí)緩存之間互連網(wǎng)絡(luò)面積的2. 3%。
【專利摘要】本發(fā)明提出了一種提高通用圖形處理器能量利用率的方法，基于共享流多處理器前端的芯片架構(gòu)，1)若干相鄰的流多處理器被分組到一個(gè)共享前端的集群中同步執(zhí)行，其中一個(gè)集群中索引最小的流多處理器成為主處理器；2)主流多處理器的前端始終通電，而在從流多處理器的前端中大部分組件是門控電源；3)不同的共享前端的集群相互獨(dú)立工作；主流多處理器中包含一個(gè)增強(qiáng)版的記分板；對于訪存指令，在不同流多處理器中延遲不同，記分板記錄所有集群成員的數(shù)據(jù)依賴關(guān)系；但對于非訪存指令，因?yàn)槠鋵λ辛鞫嗵幚砥饔邢嗤膱?zhí)行延遲，所以記分板只檢查主流多處理器自己的數(shù)據(jù)依賴；在通用圖形處理器中，每N個(gè)相鄰的流多處理器形成集群；使用兩個(gè)或者四個(gè)流多處理器集群。
【IPC分類】G06F9/54, G06F9/38
【公開號(hào)】CN105045564
【申請?zhí)枴緾N201510364637
【發(fā)明人】季錦誠, 梁曉峣
【申請人】季錦誠
【公開日】2015年11月11日
【申請日】2015年6月26日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

圖形處理器中的前端動(dòng)態(tài)共享方法_3