圖形處理器中的前端動(dòng)態(tài)共享方法_2

文檔序號(hào)：9326650閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>圖形處理器中的前端動(dòng)態(tài)共享方法

0026] 在分支指令執(zhí)行過(guò)程中，在一個(gè)分支指令執(zhí)行后，主流多處理器將廣播其線程掩碼給集群中所有的從流多處理器。若掩碼出現(xiàn)分歧，從流多處理器將發(fā)送"取消組合"請(qǐng)求給主流多處理器。
[0027] 通常的通用圖形處理器應(yīng)用程序包含多個(gè)核函數(shù)，分別完成特定的功能。集群一旦取消將不會(huì)再次集群，直到此核函數(shù)的末端。在開(kāi)始新的核函數(shù)時(shí)，流多處理器將有機(jī)會(huì) 再次進(jìn)行集群。
[0028] 一個(gè)管理主從流多處理器之間通信的片上網(wǎng)絡(luò)裝置，其特征在于：
[0029] 1)主從流多處理器之間有一對(duì)通信線路；
[0030] 2)通信線路從主流多處理器到從流多處理器是64位的，負(fù)責(zé)攜帶譯碼后的指令包；
[0031] 3)通信線路從從流多處理器到主流多處理器是16位的，負(fù)責(zé)攜帶回執(zhí)包和其他信息。
[0032] 進(jìn)一步實(shí)現(xiàn)為：流多處理器與第二級(jí)高速緩存之間的互連網(wǎng)絡(luò)工作頻率相同，是流多處理器核心頻率的兩倍。但是，該片上網(wǎng)絡(luò)只有10字節(jié)位寬，是上述互連網(wǎng)絡(luò)寬度的三分之一。進(jìn)一步包括：片上網(wǎng)絡(luò)數(shù)據(jù)包的三種主要類型：InstPacket包含指令信息；MemPacket包含訪存"確認(rèn)"消息；CtrlPacket控制集群行為，例如取消組合或重組。 CtrlPackets貢獻(xiàn)的數(shù)據(jù)包總數(shù)是微不足道的。
[0033] 根據(jù)訪存密集程度，MemPacket可能占據(jù)網(wǎng)絡(luò)流量中一個(gè)顯著部分。
[0034] -個(gè)通用圖像處理器流水線實(shí)現(xiàn)方法，其特征在于：除了常規(guī)的流水線階段，在發(fā) 射指令和讀取操作數(shù)階段之間插入新的"通信"的階段。主從流多處理器之間的指令傳送就在此階段進(jìn)行。
[0035] 本發(fā)明還提出一種估計(jì)通用圖像處理器集群內(nèi)片上網(wǎng)絡(luò)能耗的方法：
[0036] 1)該方法是基于通信線路的數(shù)量，通信線路的寬度以及它們的長(zhǎng)度；
[0037] 2)該方法假設(shè)集群內(nèi)片上網(wǎng)絡(luò)的能耗與數(shù)據(jù)傳輸?shù)钠骄嚯x和數(shù)量成線性；
[0038] 3)該方法根據(jù)增強(qiáng)的記分板位寬與原有位寬的比例線性縮放記分板能耗；
[0039] 4)該方法根據(jù)費(fèi)米架構(gòu)通用圖形處理器的尺寸及其制造工藝，估計(jì)集群內(nèi)片上網(wǎng) 絡(luò)的總面積為原流多處理器與二級(jí)緩存之間互連網(wǎng)絡(luò)面積的2. 3%。
[0040] 有益效果，本發(fā)明前端共享架構(gòu)來(lái)改善的GPU(圖形處理單元）的能源使用效率。多個(gè)相鄰的SM(流多處理器）在一個(gè)共享的集群中以一個(gè)鎖步方式組合在一起執(zhí)行。基于 GHJ獨(dú)特的特點(diǎn)：在一個(gè)程序的執(zhí)行過(guò)程中，許多線程塊的行為是類似的，因此不需要復(fù)制前端和獨(dú)立操作。此外，一些不規(guī)整的應(yīng)用程序也可以從所提出的架構(gòu)中在能源效率方面獲益。本發(fā)明對(duì)比已有技術(shù)具有做出以下貢獻(xiàn)：1)本發(fā)明設(shè)計(jì)并實(shí)現(xiàn)了一種新的流水線前端共享架構(gòu)，它利用程序中的線程塊在圖形處理器上執(zhí)行中行為相似的特性。在共享期間，僅主流多處理器的前端單元工作，而那些從流多處理器的前端斷電，從而節(jié)約能耗。2)通過(guò) 多種多樣的應(yīng)用程序和兩種類型的前端共享集群形式仔細(xì)評(píng)估了該前端共享架構(gòu)。與此同時(shí)分析了性能表現(xiàn)和節(jié)能效果。該架構(gòu)可以平均節(jié)省6. 8%至多14. 6%總的GPU能耗。實(shí) 驗(yàn)表明，該體系結(jié)構(gòu)對(duì)于計(jì)算密集型和訪存密集型應(yīng)用程序均有效。本發(fā)明的這樣的設(shè)計(jì) 在傳輸相同數(shù)量信息的前提下可以節(jié)省網(wǎng)絡(luò)寬度，降低成本。
【附圖說(shuō)明】
[0041 ] 圖1為本發(fā)明的基本不意圖；
[0042] 圖2為本發(fā)明的集群四個(gè)流多處理器時(shí)網(wǎng)絡(luò)連接示意圖；
[0043] 圖3為本發(fā)明的集群兩個(gè)流多處理器時(shí)網(wǎng)絡(luò)連接示意圖；
[0044] 圖4為本發(fā)明實(shí)施例流水線示意圖；
[0045] 圖5為本發(fā)明優(yōu)化效果的展示時(shí)的基準(zhǔn)示意圖；
[0046] 其中英語(yǔ)術(shù)語(yǔ)均為本領(lǐng)域技術(shù)人員熟悉的術(shù)語(yǔ)：SM-流多處理器、Master為主， slave為從；DRAM-動(dòng)態(tài)易失性存儲(chǔ)器、L2cache_二級(jí)緩存、Fetch-取指令、Decode-指令譯碼、front-end-前端、back-end-后端。Warp schedulerWarp 調(diào)度器 Score Board 記分板、 SIMT stack堆棧；SMl (Master)主流處理器，SM2 (slave)從流處理器，I-Buffer緩存。
【具體實(shí)施方式】
[0047] 如圖所示：本發(fā)明基于共享流多處理器前端的芯片架構(gòu)，
[0048] 1)若干相鄰的流多處理器被分組到一個(gè)共享前端的集群中同步執(zhí)行，其中一個(gè)集群中索引最小的流多處理器成為主處理器；
[0049] 2)主流多處理器的前端始終通電，而在從流多處理器的前端中大部分組件是門控電源；從而節(jié)省能耗；
[0050] 3)不同的共享前端的集群相互獨(dú)立工作；在通用圖形處理器中，每N個(gè)相鄰的流多處理器形成集群。尤其是兩個(gè)或者四個(gè)流處理器集群。
[0051] 主流多處理器中包含一個(gè)增強(qiáng)版的記分板；對(duì)于訪存指令，在不同流多處理器中延遲不同，記分板要記錄所有集群成員的數(shù)據(jù)依賴關(guān)系。
[0052] 但是，對(duì)于非訪存指令，因?yàn)槠鋵?duì)所有流多處理器有相同的執(zhí)行延遲，所以記分板只檢查主流多處理器自己的數(shù)據(jù)依賴。在GPU程序中，除去訪存指令外，其他的指令都是固定時(shí)延的，所有流處理器都是一樣的，不需要記錄。但訪存指令每個(gè)流處理器的時(shí)延都不一樣，所以必須詳細(xì)記錄。
[0053] 流多處理器的所有前端部件除了 S頂T堆棧外都是門控的。從流多處理器還是管理自己S頂T堆棧記錄分支發(fā)散和重新收斂條件。這在集群被迫解散以后，各流多處理器獨(dú) 立執(zhí)行后發(fā)揮作用。每個(gè)流處理器都有自己的S頂T堆棧，他們記錄各自的分支情況和條件，不同流處理器可能有不同的分支情況，所以必須檢查自己的S頂T堆棧。
[0054] 1)主流多處理器通過(guò)片上網(wǎng)絡(luò)調(diào)控和發(fā)射指令。在每一個(gè)發(fā)射周期中，主流多處理器檢查條件即需檢查記分板能夠滿足所有操作數(shù)都到位、以決定是否能發(fā)出指令；
[0055] 大多數(shù)情況下，由于集群中完全同步狀態(tài)，它僅需要檢查它的本地信息（SMT棧，記分板，執(zhí)行單元狀態(tài)等）。
[0056] 2)對(duì)于訪存相關(guān)指令，當(dāng)延遲用于存取存儲(chǔ)器是不同的橫跨短信，從流多處理器被要求通過(guò)片上網(wǎng)絡(luò)向主流多處理器發(fā)送"確認(rèn)"以確認(rèn)完成訪存相關(guān)指令的訪問(wèn)任務(wù)。
[0057] 3)主流多處理器使用增強(qiáng)的記分板來(lái)記錄對(duì)整個(gè)集群的訪存指令狀態(tài)。一個(gè)增強(qiáng) 的記分板是通過(guò)給每個(gè)記分板的條目添加四個(gè)位來(lái)實(shí)現(xiàn)的。比一般的記分板多了些內(nèi)容用于記錄訪存情況。同時(shí)為了保證該方法的正確運(yùn)行，CTA軟件調(diào)度器需要給一個(gè)集群中所有流多處理器分配了相同數(shù)量的線程塊。
[0058] 在一個(gè)包含N個(gè)流多處理器的通用圖形處理器開(kāi)啟一個(gè)新的核函數(shù)時(shí)，該通用圖形處理器將通過(guò)分成N/S集群，每個(gè)集群包含S個(gè)相鄰的流多處理器。在每個(gè)集群中，索引最小的流多處理器成為主流多處理器而所有其余的成為從流多處理器。
[0059] 在每一個(gè)分支指令時(shí)，warp塊中去一個(gè)方向?qū)⒃O(shè)置其掩碼為"1"，而其他方向?qū)?其掩碼設(shè)置"0"。
[0060] 在分支指令執(zhí)行過(guò)程中，在一個(gè)分支指令執(zhí)行后，主流多處理器將廣播其線程掩碼給集群中所有的從流多處理器。若掩碼出現(xiàn)分歧，從流多處理器將發(fā)送"取消組合"請(qǐng)求給主流多處理器。
[0061] 通常的通用圖形處理器應(yīng)用程序包含多個(gè)核函數(shù)，分別完成特定的功能。集群一旦取消將不會(huì)再次集群，直到此核函數(shù)的末端。在開(kāi)始新的核函數(shù)時(shí)，流多處理器將有機(jī)會(huì) 再次進(jìn)行集群。開(kāi)始新的核函數(shù)時(shí)，所有流處理器中的記錄，狀態(tài)等都會(huì)被重置，然后從新開(kāi)始運(yùn)行新的函數(shù)并再次進(jìn)行集群。
[0062] -個(gè)管理主從流多處理器之間通信的片上網(wǎng)絡(luò)裝置，1)主從流多處理器之間有一對(duì)通信線路；2)通信線路從主流多處理器到從流多處理器是64位的，負(fù)責(zé)攜帶譯碼后的指令包；3)通信線路從從流多處理器到主流多處理器是16位的，負(fù)責(zé)攜帶回執(zhí)包和其他信息。片上網(wǎng)絡(luò)數(shù)據(jù)包的三種主要類型：InstPacket包含指令信息；MemPacket包含訪存"確認(rèn)"消息；CtrlPacket控制集群行為，例如取消組合或重組。CtrlPackets貢獻(xiàn)的數(shù)據(jù)包總數(shù)是微不足道的。根據(jù)訪存密集程度，MemPacket可能占據(jù)網(wǎng)絡(luò)流量中一個(gè)顯著部分。除了常規(guī)的流水線階段，在發(fā)射指令和讀取操作數(shù)階段之間插入新的"通信"的階段。主從流多處理器之間的指令傳送就在此階段進(jìn)行。通信階段是在處理器流水線中插入一個(gè)額外的周期，專門用來(lái)負(fù)責(zé)各個(gè)流處理器之間的通信。
[0063] 多處理器與第二級(jí)高速緩存之間的互連網(wǎng)絡(luò)工作頻率相同，是流多處理器核心頻率的兩倍。但是，該片上網(wǎng)絡(luò)只有10字節(jié)位寬，是上述互連網(wǎng)絡(luò)寬度的三分之一。
[0064] 使用GPGPU-Sim的3. 2. 1作為仿真平臺(tái)。采用的是NVIDIA Fermi架構(gòu)的設(shè)置。該機(jī)器參數(shù)如下表。
[0065]
[0066] (GTO)調(diào)度器是一種類似于公平和輪詢的調(diào)度器，被用作warp調(diào)度。評(píng)估了 2-流多處理器和4-流多處理器集群配置下圖形處理器和負(fù)載的表現(xiàn)。運(yùn)行時(shí)的統(tǒng)計(jì)包括每個(gè) 基準(zhǔn)程序的性能和功耗數(shù)據(jù)。每個(gè)組件的功耗是從集成在GPGPU-Sim中的GPUWattch獲得的。
[0067] 集群片上網(wǎng)絡(luò)的運(yùn)行頻率設(shè)置為I. 4GHz，是流多處理器核心頻率700MHz的兩倍，與原互連網(wǎng)絡(luò)具有相同的速度。
[0068] 在仿真平臺(tái)上運(yùn)行

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

圖形處理器中的前端動(dòng)態(tài)共享方法_2