一種基于GPUDerict RDMA測(cè)試方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及GPU服務(wù)器測(cè)試領(lǐng)域,具體涉及一種基于GPUDerict RDMA測(cè)試方法。
【背景技術(shù)】
[0002]隨著IT領(lǐng)域技術(shù)的不斷發(fā)展,傳統(tǒng)信息化服務(wù)以及日趨強(qiáng)大的云計(jì)算服務(wù)對(duì)服務(wù)器的要求越來越高,技術(shù)的更新?lián)Q代時(shí)間越來越快,通用處理器CPU無論是在頻率、內(nèi)存帶寬、多核乃至制程和指令集上的優(yōu)化,都遇到了前所未有的困難。但是GHJ服務(wù)器在異構(gòu)計(jì)算領(lǐng)域打開了一扇門,愈來愈多的超算中心、企業(yè)和研究機(jī)構(gòu)正在構(gòu)建以協(xié)處理器為核心的計(jì)算資源池,并在異構(gòu)平臺(tái)上發(fā)展和優(yōu)化出適配的應(yīng)用層,客戶對(duì)GPU服務(wù)器的需求越來多大,用以滿足日益增長的計(jì)算能力需求。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的技術(shù)任務(wù)是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于GPUDerictRDMA測(cè)試方法。本方法既對(duì)GPU服務(wù)器性能進(jìn)行了有效測(cè)試,又為客戶對(duì)GPU服務(wù)器的性能需求提供了重要性能數(shù)據(jù)。
[0004 ]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種基于GPUDerict RDMA測(cè)試方法,直接訪問GPU內(nèi)存,避免訪問固定(pinned) CUDA主機(jī)內(nèi)存時(shí)不必要的系統(tǒng)內(nèi)存拷貝和CPU的開銷,加速了與網(wǎng)絡(luò)和存儲(chǔ)設(shè)備之間的通信可以在同一系統(tǒng)中的一個(gè)GPU直接訪問另一個(gè)GPU使用直接的高速DMA傳輸,增加了 P2P的內(nèi)存訪問,真正釋放了主機(jī)CPU資源,消除主機(jī)了CPU中不必要的頻繁數(shù)據(jù)傳輸,完全不參與輸入的RDMA操作;包括HCA卡、GI3U卡、GI3U必備的Nvidia Driver^Nvidia CUDA toolkit,及infiniband必備的MLNX_0FED驅(qū)動(dòng)外,以及一個(gè)GPU與IB卡通信的nv_peer_mem包。
[0005]HCA卡為Mellanox ConnectX及以后產(chǎn)品,GPU卡為K20及以后產(chǎn)品。
[0006]GPUDirect RDMA測(cè)試方法如下:
1、測(cè)試工具
a、cuda_6.5.14_linux_64.run
b、nvidia_peer_memory_l.0-0.tar.gz
c、mvapich2-gdr_cuda6.5-gnu_2.1-0.1.a.el6.x86_64.rpm
d、MLNX_0FED_LINUX-2.4-1.0.0-rhel6.2_x86_64.1so
2、測(cè)試方法
a、HCA驅(qū)動(dòng)安裝
mount -o ro,loop MLNX_0FED_LINUX_2.4-1.0.0-rhel6.2_x86_64.1so /mntcd /mnt./mlnxofedinstall
b、顯卡驅(qū)動(dòng)安裝
chmod 777 cuda_6.5.14_1inux_64.run./cuda—6.5.14—1inux—64.run —extract=/root/rdma./NVIDIA-Linux-x86_64-340.29.run
c、CUDA安裝./cuda-linux64-rel-6.5.14-18749181.run
d、環(huán)境變量設(shè)置 vi ?/.bashrc
在最后添加:export PATH=/usr/local/cuda-6.5/bin: $PATH export LD—LIBRARY—PATH=/usr/local/cuda-6.5/1ib64:$LD—LIBRARY—PATHsource ?/.bashrcvi /etc/ld.s0.conf
在最后添加:/usr/local/cuda-6.5/lib64Ldconfig
e、nv—peer—mem安裝
tar-zxf../nvidia_peer—memory-1.0-0.tar.gzrpmbuiId—rebuildnvidia_peer—memory-1.0-0.src.rpm
rpm-1vh/root/rpmbuild/RPMS/x86—64/nvidia—peer—memory-1.0-0.x86_64.rpm/ etc/init.d/nv_peer—memstart 啟動(dòng) nv_peer—mem 月艮務(wù)
f、mvapich2安裝
rpm -Uvh —nodeps mvapich2-gdr-cuda6.5-gnu~2.1-0.1.a.el6.x86_64.rpm
g、GPUDirectRDMA帶寬測(cè)試
/opt/mvapich2/gdr/2.l/cuda6.5/gnu/bin/mpirun_rsh _np 2 cl c2 MV2_USE_CUDA=1 MV2_USE_GPUDIRECT=I /opt/mvapich2/gdr/2.1/cuda6.5/gnu/libexec/mvapich2/osu—bw -d cuda D D
h、GPUDirectRDMA延遲測(cè)試
/opt/mvapich2/gdr/2.l/cuda6.5/gnu/bin/mpirun_rsh-np2clc2MV2_USE_CUDA=lMV2—USE—GPUDIRECT=1 /opt/mvapich2/gdr/2.1/cuda6.5/gnu/libexec/mvapich2/osu_latency _d cuda D D
本發(fā)明的一種基于GPUDerict RDMA測(cè)試方法與現(xiàn)有技術(shù)相比,所產(chǎn)生的有益效果是,本發(fā)明直接訪問GPU內(nèi)存,避免訪問固定(pinned)⑶DA主機(jī)內(nèi)存時(shí)不必要的系統(tǒng)內(nèi)存拷貝和CPU的開銷,加速了與網(wǎng)絡(luò)和存儲(chǔ)設(shè)備之間的通信可以在同一系統(tǒng)中的一個(gè)GPU直接訪問另一個(gè)GPU使用直接的高速DMA傳輸,增加了P2P的內(nèi)存訪問,真正釋放了主機(jī)CPU資源,消除主機(jī)了 CPU中不必要的頻繁數(shù)據(jù)傳輸,完全不參與輸入的RDMA操作。
[0007]GPUDirect RDMA測(cè)試方法既對(duì)GPU服務(wù)器性能進(jìn)行了有效測(cè)試,又為客戶對(duì)GPU月艮務(wù)器的性能需求提供了重要性能數(shù)據(jù)。該測(cè)試方法操作簡單,自動(dòng)化程度高,實(shí)用性較強(qiáng),能夠節(jié)省人力,有效確保了服務(wù)器性能的穩(wěn)定性,是驗(yàn)證GPU服務(wù)器產(chǎn)品質(zhì)量非常有效的方法。
【附圖說明】
[0008]圖1是基于GPUDerict RDMA測(cè)試方法示意圖。
【具體實(shí)施方式】
[0009]下面結(jié)合附圖對(duì)本發(fā)明的一種基于GPUDerict RDMA測(cè)試方法作以下詳細(xì)地說明。
[0010]一種基于GPUDerict RDMA測(cè)試方法,直接訪問GPU內(nèi)存,避免訪問固定(pinned)CUDA主機(jī)內(nèi)存時(shí)不必要的系統(tǒng)內(nèi)存拷貝和CPU的開銷,加速了與網(wǎng)絡(luò)和存儲(chǔ)設(shè)備之間的通信可以在同一系統(tǒng)中的一個(gè)GPU直接訪問另一個(gè)GPU使用直接的高速DMA傳輸,增加了P2P的內(nèi)存訪問,真正釋放了主機(jī)CPU資源,消除主機(jī)了CPU中不必要的頻繁數(shù)據(jù)傳輸,完全不參與輸入的RDMA操作;包括HCA卡、GPU卡、GPU必備的Nvidia Driver,Nvidia CUDA toolkit,及inf iniband必備的MLNX—OFED驅(qū)動(dòng)外,以及一個(gè)GPU與IB卡通信的nv—peer—mem包。
[0011 ] HCA卡為Mellanox ConnectX及以后產(chǎn)品,GPU卡為K20及以后產(chǎn)品。
[0012] GPUDirect RDMA測(cè)試方法如下:
3、測(cè)試工具
h、cuda—6.5.14_1inux_64.run
1、nvidia_peer—memory-1.0-0.tar.gz
j、mvapich2-gdr_cuda6.5_gnu_2.1-0.l.a.el6.x86_64.rpmk,MLNX_0FED_LINUX-2.4-1.0.0-rhel6.2_x86—64.1so
4、測(cè)試方法 b、HCA驅(qū)動(dòng)安裝
mount -o ro,loop MLNX—0FED—LINUX-2.4-1.0.0_rhel6.2_x86—64.1so /mntcd /mnt./mlnxofedinstall
b、顯卡驅(qū)動(dòng)安裝
chmod 777 cuda_6.5.14_1inux_64.run./cuda—6.5.14—1inux—64.run —extract=/root/rdma./NVIDIA-Linux-x86_64-340.29.run
c、CUDA安裝./cuda-linux64-rel-6.5.14-18749181.run
d、環(huán)境變量設(shè)置 vi ?/.bashrc
在最后添加:export PATH=/usr/local/cuda-6.5/bin: $PATH export LD—LIBRARY—PATH=/usr/local/cuda-6.5/1ib64:$LD—LIBRARY—PATHsource ?/.bashrcvi /etc/ld.s0.conf
在最后添加:/usr/local/cuda-6.5/lib64Ldconfig
1、nv_peer—mem 安裝
tar -zxf../nvidia_peer_memory-l.0-0.tar.gzrpmbuiId —rebuild nvidia_peer_memory-l.0-0.src.rpm
rpm -1vh /root/rpmbuild/RPMS/x86—64/nvidia—peer—memory-1.0-0.x86_64.rpm/etc/init.d/nv_peer_mem start 啟動(dòng)nv_peer—mem月艮務(wù)m、mvapich2 安裝
rpm -Uvh —nodeps mvapich2-gdr-cuda6.5-gnu~2.1-0.1.a.el6.x86_64.rpmn,GPUDirect RDMA帶寬測(cè)試
/opt/mvapich2/gdr/2.l/cuda6.5/gnu/bin/mpirun_rsh _np 2 cl c2 MV2_USE_CUDA=1 MV2_USE_GPUDIRECT=I /opt/mvapich2/gdr/2.1/cuda6.5/gnu/libexec/mvapich2/osu—bw -d cuda D D
h,GPUDirect RDMA延遲測(cè)試
/opt/mvapich2/gdr/2.l/cuda6.5/gnu/bin/mpirun_rsh _np 2 cl c2 MV2_USE_CUDA=1 MV2_USE_GPUDIRECT=I /opt/mvapich2/gdr/2.1/cuda6.5/gnu/libexec/mvapich2/osu_latency _d cuda D D
隨著傳統(tǒng)信息化服務(wù)以及日趨強(qiáng)大的云計(jì)算服務(wù)對(duì)服務(wù)器的要求越來越高,客戶對(duì)GPU服務(wù)器的需求日益增加,GPUDirect RDMA測(cè)試方法既對(duì)GPU服務(wù)器性能進(jìn)行了有效測(cè)試,又為客戶對(duì)GPU服務(wù)器的性能需求提供了重要性能數(shù)據(jù)。該測(cè)試方法操作簡單,自動(dòng)化程度高,實(shí)用性較強(qiáng),能夠節(jié)省人力,有效確保了服務(wù)器性能的穩(wěn)定性,是驗(yàn)證GPU服務(wù)器產(chǎn)品質(zhì)量非常有效的方法。
【主權(quán)項(xiàng)】
1.一種基于GPUDeriCt RDMA測(cè)試方法,其特征在于直接訪問GPU內(nèi)存,避免訪問固定(pinned) CUDA主機(jī)內(nèi)存時(shí)不必要的系統(tǒng)內(nèi)存拷貝和CPU的開銷,加速了與網(wǎng)絡(luò)和存儲(chǔ)設(shè)備之間的通信可以在同一系統(tǒng)中的一個(gè)GPU直接訪問另一個(gè)GPU使用直接的高速DMA傳輸,增加了P2P的內(nèi)存訪問,真正釋放了主機(jī)CPU資源,消除主機(jī)了CPU中不必要的頻繁數(shù)據(jù)傳輸,完全不參與輸入的RDMA操作;包括HCA卡、GPU卡、Nvidia Driver^Nvidia CUDA toolkit、MLNX_0FED驅(qū)動(dòng)和GPU與IB卡通信的nv_peer_mem包。2.根據(jù)權(quán)利要求1所述的一種基于GPUDerictRDMA測(cè)試方法,其特征在于HCA卡為Mellanox ConnectX0
【專利摘要】本發(fā)明提供一種基于GPUDerict?RDMA測(cè)試方法,包括HCA卡、GPU卡、Nvidia?Driver、Nvidia?CUDA?toolkit、MLNX_OFED驅(qū)動(dòng)和GPU與IB卡通信的nv_peer_mem包。直接訪問GPU內(nèi)存,避免訪問固定(pinned)?CUDA主機(jī)內(nèi)存時(shí)不必要的系統(tǒng)內(nèi)存拷貝和CPU的開銷,加速了與網(wǎng)絡(luò)和存儲(chǔ)設(shè)備之間的通信可以在同一系統(tǒng)中的一個(gè)GPU直接訪問另一個(gè)GPU使用直接的高速DMA傳輸。該測(cè)試方法操作簡單,自動(dòng)化程度高,實(shí)用性較強(qiáng),能夠節(jié)省人力,有效確保了服務(wù)器性能的穩(wěn)定性,是驗(yàn)證GPU服務(wù)器產(chǎn)品質(zhì)量非常有效的方法。
【IPC分類】G06F11/22, G06F13/28
【公開號(hào)】CN105550085
【申請(qǐng)?zhí)枴緾N201510915330
【發(fā)明人】潘霖
【申請(qǐng)人】浪潮電子信息產(chǎn)業(yè)股份有限公司
【公開日】2016年5月4日
【申請(qǐng)日】2015年12月10日