以下基準(zhǔn)測試程序:
[0069] · NVIDIA CUDA SDK 4. I:BinomialOptions(BO), MergeSort(MS), Histogram(HG) ,Reduction (RD), ScalarProd(SP), dwtHarrlD(DH), BlackScholes(BS), SobolQRNG(SQ), Tr anspose(TP), Scan(SC).
[0070] · Parboil:sgemm(SGE),Sum of Absolute Difference (SAD) ·
[0071] · Rodinia: PATH Finder (PF)·
[0072] · GPGPU-Sim benchmark suite:Coul Potential (CP),AES Encryption (AES),BFS Search (BFS), Swap Portfolio(LIB).
[0073] 選擇的多樣性的應(yīng)用程序:有訪存密集型的應(yīng)用程序(BS,SQ,TP和SC)和計(jì)算密 集型的應(yīng)用程序(B0,CP,AES和PF),不規(guī)則應(yīng)用程序(BFS,MS和HG)和規(guī)整應(yīng)用程序(余 下的所有)。此外,大多數(shù)的應(yīng)用具有多個(gè)核函數(shù),并且每個(gè)核函數(shù)都可以說是重新集群點(diǎn)。
[0074] 下面是在仿真平臺(tái)上的評估結(jié)果:
[0075] 1.前端共享時(shí)間百分比
[0076] 許多應(yīng)用程序沒有指令發(fā)散,因此具有前端共享時(shí)間的百分比為100%。不規(guī)則的 應(yīng)用,如BFS,MS,和HG的共享時(shí)間百分比均小于100%。大體上,百分比受指令發(fā)散的頻率 和位置影響。有頻繁指令發(fā)散的應(yīng)用程序或大部分指令發(fā)散發(fā)生在核函數(shù)的早期階段將有 較小的共享時(shí)間的百分比。
[0077] 2.性能表現(xiàn)
[0078] 我們比較了一個(gè)2-流多處理器的集群系統(tǒng)和一個(gè)四SM集群系統(tǒng)的性能。并將結(jié) 果相對于基線GTX480圖形處理器不前端共享的性能歸一化??偟膩碚f,我們發(fā)現(xiàn)在前端共 享架構(gòu)的性能是接近基準(zhǔn)架構(gòu)的。
[0079] 雖然我們的架構(gòu)集群了幾個(gè)流多處理器并同步執(zhí)行,但仍保持了 32個(gè)線程作為 一個(gè)warp。總之,在2-流多處理器的集群系統(tǒng)和一個(gè)四SM集群系統(tǒng)下該架構(gòu)實(shí)現(xiàn)了所有 的應(yīng)用程序性能達(dá)到了 98. 0%和97. 1 %平均成績。
[0080] 3.前端節(jié)約的能耗
[0081] 平均來說,可以在兩個(gè)流多處理器集群和四個(gè)流多處理器集群配置下節(jié)約24. 9% 和33. 7%的能量。但是我們不提倡集群大小超出4,因?yàn)樾阅芄β时炔缓?。SQ達(dá)到最佳的 前端節(jié)能百分比是由于其良好的性能和100%的時(shí)間共享。相反,BFS和TP節(jié)約的只有可 憐的部分前端,因?yàn)樗麄兊亩虝r(shí)間的共享和較差的性能表現(xiàn)。
[0082] 4.總的圖形處理器節(jié)約能耗
[0083] 整個(gè)圖形處理器的節(jié)能百分比取決于三個(gè)因素:應(yīng)用性能,共享時(shí)間百分比,和在 前端的功率在總圖形處理器的功率的百分比。我們評估得到,除了 SC的所有應(yīng)用程序,四 個(gè)流多處理器集群比兩個(gè)流多處理器節(jié)省了更多的能量,對于SC,其糟糕的性能表現(xiàn)使得 四個(gè)流多處理器集群相應(yīng)的能源開銷超過了兩個(gè)前端斷電節(jié)省的能量??傮w而言,SQ節(jié)省 比例最高,而BFS和TP節(jié)省最少的能量百分比。三個(gè)應(yīng)用節(jié)省超過10%的總能量??傮w 上,我們可以得到,計(jì)算密集型應(yīng)用程序(B0, CP,AES,PF),訪存密集型應(yīng)用程序(BS,SQ, TP,SC),以及一些不規(guī)則的應(yīng)用程序(BFS,MS,HG)均可以從前端共享架構(gòu)中獲得能量使用 效率的提升。平均而言,所有的應(yīng)用程序在兩個(gè)流多處理器集群和四個(gè)流多處理器集群配 置下,可以節(jié)約4. 9%和6. 8%的總能量。
【主權(quán)項(xiàng)】
1. 一種提高通用圖形處理器能量利用率的方法,基于共享流多處理器前端的芯片架 構(gòu),其特征在于: 1) 若干相鄰的流多處理器被分組到一個(gè)共享前端的集群中同步執(zhí)行,其中一個(gè)集群中 索引最小的流多處理器成為主處理器; 2) 主流多處理器的前端始終通電,而在從流多處理器的前端中大部分組件是門控電 源; 3) 不同的共享前端的集群相互獨(dú)立工作; 主流多處理器中包含一個(gè)增強(qiáng)版的記分板;對于訪存指令,在不同流多處理器中延遲 不同,記分板記錄所有集群成員的數(shù)據(jù)依賴關(guān)系; 但對于非訪存指令,因?yàn)槠鋵λ辛鞫嗵幚砥饔邢嗤膱?zhí)行延遲,所以記分板只檢查 主流多處理器自己的數(shù)據(jù)依賴; 在通用圖形處理器中,每N個(gè)相鄰的流多處理器形成集群;使用兩個(gè)或者四個(gè)流多處 理器集群。2. 根據(jù)權(quán)利要求1所述的提高通用圖形處理器能量利用率的方法,其特征在于:從流 多處理器的所有前端部件除了 S頂T堆棧外都是門控的;從流多處理器管理自己S頂T堆棧, 記錄分支發(fā)散和重新收斂條件,在集群被迫解散以后,各流多處理器獨(dú)立執(zhí)行后發(fā)揮作用; 由CTA軟件調(diào)度器給一個(gè)集群中所有流多處理器分配了相同數(shù)量的線程塊。3. 根據(jù)權(quán)利要求1所述的提高通用圖形處理器能量利用率的方法,其特征在于:1)主 流多處理器通過片上網(wǎng)絡(luò)調(diào)控和發(fā)射指令;在每一個(gè)發(fā)射周期中,主流多處理器檢查條件 以決定是否能發(fā)出指令; 大多數(shù)集群中完全同步狀態(tài),僅需要檢查它的本地信息(SMT棧,記分板,執(zhí)行單元狀 態(tài)等)決定是否能發(fā)出指令; 2) 對于訪存相關(guān)指令,當(dāng)延遲用于存取存儲(chǔ)器是不同的橫跨短信,從流多處理器被要 求通過片上網(wǎng)絡(luò)向主流多處理器發(fā)送"確認(rèn)"以確認(rèn)完成訪存相關(guān)指令的訪問任務(wù); 3) 主流多處理器使用增強(qiáng)的記分板來記錄對整個(gè)集群的訪存指令狀態(tài);一個(gè)增強(qiáng)的 記分板是通過給每個(gè)記分板的條目添加四個(gè)位來實(shí)現(xiàn)的。4. 根據(jù)權(quán)利1所述的提高通用圖形處理器能量利用率的方法,其特征在于:在一個(gè)包 含N個(gè)流多處理器的通用圖形處理器開啟一個(gè)新的核函數(shù)時(shí),該通用圖形處理器將通過分 成N/S集群,每個(gè)集群包含S個(gè)相鄰的流多處理器;在每個(gè)集群中,索引最小的流多處理器 成為主流多處理器而所有其余的成為從流多處理器。5. 根據(jù)權(quán)利1所述的提高通用圖形處理器能量利用率的方法,其特征在于: 在每一個(gè)分支指令時(shí),warp塊中去一個(gè)方向?qū)⒃O(shè)置其掩碼為"1",而其他方向?qū)⑵溲?碼設(shè)置"0";在分支指令執(zhí)行過程中,在一個(gè)分支指令執(zhí)行后,主流多處理器將廣播其線程 掩碼給集群中所有的從流多處理器。若掩碼出現(xiàn)分歧,從流多處理器將發(fā)送"取消組合"請 求給主流多處理器;通常的通用圖形處理器應(yīng)用程序包含多個(gè)核函數(shù),分別完成特定的功 能。集群一旦取消將不會(huì)再次集群,直到此核函數(shù)的末端。在開始新的核函數(shù)時(shí),流多處理 器將有機(jī)會(huì)再次進(jìn)行集群。6. 根據(jù)權(quán)利1所述的提高通用圖形處理器能量利用率的方法,其特征在于:管理主從 流多處理器之間通信的片上網(wǎng)絡(luò)裝置,1)主從流多處理器之間有一對通信線路; 2) 通信線路從主流多處理器到從流多處理器是64位的,負(fù)責(zé)攜帶譯碼后的指令包; 3) 通信線路從從流多處理器到主流多處理器是16位的,負(fù)責(zé)攜帶回執(zhí)包和其他信息。7. 根據(jù)權(quán)利6所述的提高通用圖形處理器能量利用率的方法,其特征在于:管理主從 流多處理器之間通信的片上網(wǎng)絡(luò)裝置和流多處理器與第二級(jí)高速緩存之間的互連網(wǎng)絡(luò)工 作頻率相同,且是流多處理器核心頻率的兩倍;但是,該片上網(wǎng)絡(luò)只有10字節(jié)位寬,是上述 互連網(wǎng)絡(luò)寬度的三分之一。8. 根據(jù)權(quán)利6所述的提高通用圖形處理器能量利用率的方法,其特征在于:所述 的負(fù)責(zé)主從流多處理器之間通信的片上網(wǎng)絡(luò)裝置中,片上網(wǎng)絡(luò)數(shù)據(jù)包的三種主要類型: InstPacket包含指令信息;MemPacket包含訪存"確認(rèn)"消息;CtrlPacket控制集群行為; 根據(jù)訪存密集程度,MemPacket能占據(jù)網(wǎng)絡(luò)流量中一個(gè)顯著部分。9. 根據(jù)權(quán)利1所述的提高通用圖形處理器能量利用率的方法,其特征在于:通用圖像 處理器處理流水線實(shí)現(xiàn)方法,除了常規(guī)的流水線階段,在發(fā)射指令和讀取操作數(shù)階段之間 插入新的"通信"的階段;主從流多處理器之間的指令傳送就在此階段進(jìn)行。10. 根據(jù)權(quán)利1所述的提高通用圖形處理器能量利用率的方法,其特征在于設(shè)有一個(gè) 估計(jì)集群內(nèi)片上網(wǎng)絡(luò)能耗的方法, 1) 基于通信線路的數(shù)量,通信線路的寬度以及它們的長度; 2) 假設(shè)集群內(nèi)片上網(wǎng)絡(luò)的能耗與數(shù)據(jù)傳輸?shù)钠骄嚯x和數(shù)量成線性; 3) 根據(jù)增強(qiáng)的記分板位寬與原有位寬的比例線性縮放記分板能耗; 4) 根據(jù)費(fèi)米架構(gòu)通用圖形處理器的尺寸及其制造工藝,估計(jì)集群內(nèi)片上網(wǎng)絡(luò)的總面積 為原流多處理器與二級(jí)緩存之間互連網(wǎng)絡(luò)面積的2. 3%。
【專利摘要】本發(fā)明提出了一種提高通用圖形處理器能量利用率的方法,基于共享流多處理器前端的芯片架構(gòu),1)若干相鄰的流多處理器被分組到一個(gè)共享前端的集群中同步執(zhí)行,其中一個(gè)集群中索引最小的流多處理器成為主處理器;2)主流多處理器的前端始終通電,而在從流多處理器的前端中大部分組件是門控電源;3)不同的共享前端的集群相互獨(dú)立工作;主流多處理器中包含一個(gè)增強(qiáng)版的記分板;對于訪存指令,在不同流多處理器中延遲不同,記分板記錄所有集群成員的數(shù)據(jù)依賴關(guān)系;但對于非訪存指令,因?yàn)槠鋵λ辛鞫嗵幚砥饔邢嗤膱?zhí)行延遲,所以記分板只檢查主流多處理器自己的數(shù)據(jù)依賴;在通用圖形處理器中,每N個(gè)相鄰的流多處理器形成集群;使用兩個(gè)或者四個(gè)流多處理器集群。
【IPC分類】G06F9/54, G06F9/38
【公開號(hào)】CN105045564
【申請?zhí)枴緾N201510364637
【發(fā)明人】季錦誠, 梁曉峣
【申請人】季錦誠
【公開日】2015年11月11日
【申請日】2015年6月26日