一種hadoop集群性能的優(yōu)化方法

文檔序號：6379628閱讀：642來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種hadoop集群性能的優(yōu)化方法
技術(shù)領(lǐng)域：
本發(fā)明涉及高性能集群領(lǐng)域,具體涉及一種hadoop集群性能的優(yōu)化方法。
背景技術(shù)：
hadoop技術(shù)已經(jīng)在互聯(lián)網(wǎng)領(lǐng)域得到廣泛的應(yīng)用，同時也得到了學(xué)術(shù)界的普遍關(guān)注。針對hadoop集群優(yōu)化對于提高系統(tǒng)性能和執(zhí)行效率具有重大的意義。以往的hadoop集群優(yōu)化均為設(shè)置一個參數(shù)后，對系統(tǒng)進(jìn)行性能測試，得出結(jié)果后根據(jù)經(jīng)驗判斷參數(shù)設(shè)置的效果如何。這樣將會造成太多時間的浪費。如何能快速定位系統(tǒng)性能瓶頸，并根據(jù)性能瓶頸進(jìn)行性能優(yōu)化是本發(fā)明要解決的問題。目前在hadoop集群優(yōu)化中有大約幾十個參數(shù)可以設(shè)置，給hadoop集群系統(tǒng)的性能優(yōu)化帶來了很大的麻煩
發(fā)明內(nèi)容
·針對現(xiàn)有技術(shù)的不足，本發(fā)明提供一種hadoop集群性能的優(yōu)化方法，該方法解決了如何能快速定位系統(tǒng)性能瓶頸，并根據(jù)性能瓶頸進(jìn)行性能優(yōu)化的問題，采用nmon工具來實時監(jiān)控系統(tǒng)的各項性能指標(biāo)，性能指標(biāo)包括磁盤，CPU,內(nèi)存網(wǎng)絡(luò)等，在hadoop文件系統(tǒng)運行過程中及時發(fā)現(xiàn)性能瓶頸，及時發(fā)現(xiàn)hadoop集群系統(tǒng)設(shè)置參數(shù)的影響，從而更快更直接的進(jìn)行hadoop集群系統(tǒng)的性能優(yōu)化，節(jié)省大量的時間。本發(fā)明的目的是采用下述技術(shù)方案實現(xiàn)的—種hadoop集群性能的優(yōu)化方法,其改進(jìn)之處在于，所述方法采用監(jiān)視工具nmon監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)；所述方法包括下述步驟A、安裝監(jiān)視工具nmon ;B、運行hadoop集群系統(tǒng)。C、根據(jù)運行過程中nmon工具的性能反饋，對hadoop集群參數(shù)進(jìn)行調(diào)整，實現(xiàn)優(yōu)化。其中,所述安裝監(jiān)視工具nmon包括下述步驟a、從網(wǎng)頁界面下載nmon 二進(jìn)制包；b、將所述nmon 二進(jìn)制包復(fù)制到Hadoop集群的所有節(jié)點；C、使用$ΝΜ0Ν_Η0ΜΕ目錄代表放置nmon 二進(jìn)制代碼的位置；d、選擇作業(yè)管理節(jié)點jobtracker作為中心節(jié)點收集nmon數(shù)據(jù)；e、登錄 jobtracker 中心節(jié)點；f、在所述jobtracker中心節(jié)點上創(chuàng)建目錄并通過網(wǎng)絡(luò)文件系統(tǒng)服務(wù)實現(xiàn)共享；g、創(chuàng)建腳本在Hadoop集群的所有節(jié)點上啟動nmon。其中，所述步驟b中，所述Hadoop集群的所有節(jié)點包括目錄管理節(jié)點Namenode、任務(wù)計算節(jié)點Datanode、作業(yè)管理節(jié)點Jobtracker和輔助目錄管理節(jié)點SecondNamenode。其中，所述步驟f包括以下步驟(I)在所述jobtracker中心節(jié)點上創(chuàng)建目錄；
(2)修改 /etc/exports 文件；(3)重新啟動網(wǎng)絡(luò)文件系統(tǒng)服務(wù)；(4)在目錄管理節(jié)點Namenode、任務(wù)計算節(jié)點Datanode和輔助目錄管理節(jié)點SecondNamenode上創(chuàng)建該目錄并將其掛裝到j(luò)obtracker中心節(jié)點上的perf_share目錄中。其中，所述步驟g中，所述腳本包括_f表示希望把數(shù)據(jù)保存到文件中，并不在屏幕上顯示；_m表示保存數(shù)據(jù)的位置;-s 30表示希望每30秒捕捉一次數(shù)據(jù)；-c 360表示需要360個數(shù)據(jù)點(即快照)，總數(shù)據(jù)收集時間為30x360秒，即3小時。其中，所述步驟B中，通過所述監(jiān)視工具nmon返回hadoop集群系統(tǒng)性能數(shù)據(jù)確定性能瓶頸，進(jìn)行hadoop系統(tǒng)配置參數(shù)調(diào)整。其中，所述hadoop集群系統(tǒng)的性能指標(biāo)包括磁盤、CPU和內(nèi)存網(wǎng)絡(luò)。其中，所述nmon為系統(tǒng)管理、調(diào)優(yōu)和基準(zhǔn)測試工具，用于監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)。其中，所述hadoop系統(tǒng)配置參數(shù)調(diào)整是一個反復(fù)循環(huán)的過程。其中，所述步驟C中,根據(jù)運行過程中監(jiān)視工具nmon的性能反饋,對hadoop集群參數(shù)進(jìn)行調(diào)整，包括I、統(tǒng)計系統(tǒng)各項數(shù)據(jù)，包括CPU的使用率，內(nèi)存使用情，內(nèi)核統(tǒng)計信息和運行隊列信，磁盤1/0速度、傳輸和讀/寫比，文件系統(tǒng)中的可用空，磁盤適配，網(wǎng)絡(luò)1/0速度、傳輸和讀/寫比率，頁面空間和頁面速度，CPU和AIX規(guī)范，消耗資源最多的進(jìn)程，計算機詳細(xì)信息和資源，網(wǎng)絡(luò)文件系統(tǒng)；II、尋找調(diào)優(yōu)的點，如果不能再優(yōu)化，則維持現(xiàn)狀；否則進(jìn)行優(yōu)化，繼續(xù)進(jìn)行步驟III ;III、進(jìn)行hadoop集群系統(tǒng)優(yōu)化，之后再進(jìn)行統(tǒng)計測試。與現(xiàn)有技術(shù)比，本發(fā)明達(dá)到的有益效果是本發(fā)明提供的hadoop集群性能的優(yōu)化方法，在hadoop集群運行過程中使用一種系統(tǒng)整體性能監(jiān)控工具，實時準(zhǔn)確的定位系統(tǒng)性能瓶頸，從而能夠快速實現(xiàn)對系統(tǒng)整體的性能優(yōu)化，節(jié)省大量的時間。該優(yōu)化方法能夠監(jiān)測CPU的使用率，內(nèi)存使用情，內(nèi)核統(tǒng)計信息和運行隊列信，磁盤I/o速度、傳輸和讀/寫比，文件系統(tǒng)中的可用空，磁盤適配，網(wǎng)絡(luò)I/O速度、傳輸和讀/寫比率，頁面空間和頁面速度，CPU和AIX規(guī)范，消耗資源最多的進(jìn)程，計算機詳細(xì)信息和資源，網(wǎng)絡(luò)文件系統(tǒng)等等。實時準(zhǔn)確的定位系統(tǒng)性能瓶頸，能夠快速實現(xiàn)對系統(tǒng)整體的性能優(yōu)化，如在某集群系統(tǒng)環(huán)境下，nmon的監(jiān)測顯示帶寬的占有率達(dá)到了最大限度，這時，工程師就可以根據(jù)當(dāng)下環(huán)境適當(dāng)增大帶寬。該方法能夠使工程師的工作更有針對性，極大的減少了盲目的試探。

圖I是本發(fā)明提供的hadoop集群性能的優(yōu)化方法的流程圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明的具體實施方式
作進(jìn)一步的詳細(xì)說明。
本發(fā)明提供的hadoop集群性能的優(yōu)化方法的流程如圖I所示，包括下述內(nèi)容A、nmon 的安裝nmon是一個系統(tǒng)管理、調(diào)優(yōu)和基準(zhǔn)測試工具，可以簡便地監(jiān)視大量重要的性能信息?？梢栽谡麄€性能調(diào)優(yōu)過程中使用nmon作為監(jiān)視工具。按以下步驟安裝并配置nmon，建立自己的性能監(jiān)視系統(tǒng)從nmon for Linux站點下載nmon二進(jìn)制包。找到適合的版本,把它復(fù)制到Hadoop集群的所有節(jié)點。下面使用$ΝΜ0Ν_Η0ΜΕ代表放置nmon 二進(jìn)制代碼的位置。因為已經(jīng)讓namenode、jobtracker 和 secondnamenode 能夠通過 ssh 無需密碼地訪問所有其他節(jié)點，而且將在jobtracker上提交所有map/reduce作業(yè)，所以選擇jobtracker作為中心節(jié)點收集所有nmon數(shù)據(jù)。登錄jobtracker節(jié)點,然后執(zhí)行以下步驟。
使用以下命令在jobtracker上創(chuàng)建一個目錄(例如/home/hadoop/perf_share)并通過NFS共享它(I)創(chuàng)建目錄$mkdir/home/hadoop/perf_share ；(2)修改 /etc/exports 文件，在其中包含以下行/home/hadoop/perf_share*(rw, sync)；(3)重新啟動 NFS 服務(wù)$/etc/rc. d/init. d/nfs restart ；(4)在所有其他節(jié)點上創(chuàng)建這個目錄并把它們掛裝到j(luò)obtracker上的perf_share目錄；創(chuàng)建以下腳本以便在所有節(jié)點上啟動nmon 在最后的nmon命令中，_f表示希望把數(shù)據(jù)保存到文件中，并不在屏幕上顯示；_m表示保存數(shù)據(jù)的位置；-s 30表示希望每30秒捕捉一次數(shù)據(jù)；-c 360表示需要360個數(shù)據(jù)點(即快照)，總數(shù)據(jù)收集時間為30x360秒，即3小時。Unmonanalyser wiki 下載 nmonanalyser (這個 Excel 電子表格接受 nmon 的輸出文件，生成一些漂亮的圖表以幫助分析)，用它分析收集到的監(jiān)視數(shù)據(jù)。B、運行hadoop集群,通過nmon監(jiān)視工具返回的系統(tǒng)性能數(shù)據(jù)確定相應(yīng)性能瓶頸，進(jìn)行相應(yīng)的參數(shù)調(diào)整，以期得到最高性能的集群。C、根據(jù)運行過程中nmon工具的性能反饋，對hadoop集群參數(shù)進(jìn)行調(diào)整，實現(xiàn)優(yōu)化，包括I、統(tǒng)計系統(tǒng)各項數(shù)據(jù)，包括CPU的使用率，內(nèi)存使用情，內(nèi)核統(tǒng)計信息和運行隊列信，磁盤1/0速度、傳輸和讀/寫比，文件系統(tǒng)中的可用空，磁盤適配，網(wǎng)絡(luò)1/0速度、傳輸和讀/寫比率，頁面空間和頁面速度，CPU和AIX規(guī)范，消耗資源最多的進(jìn)程，計算機詳細(xì)信息和資源，網(wǎng)絡(luò)文件系統(tǒng)；II、尋找調(diào)優(yōu)的點，如果不能再優(yōu)化，則維持現(xiàn)狀；否則進(jìn)行優(yōu)化，繼續(xù)進(jìn)行步驟III ;III、進(jìn)行hadoop集群系統(tǒng)優(yōu)化，之后再進(jìn)行統(tǒng)計測試。本發(fā)明提供的hadoop集群性能的優(yōu)化方法中采用nmon工具來實時監(jiān)控系統(tǒng)的各項性能指標(biāo)包括磁盤，CPU,內(nèi)存網(wǎng)絡(luò)等，在hadoop文件系統(tǒng)運行過程中及時發(fā)現(xiàn)性能瓶頸，及時發(fā)現(xiàn)系統(tǒng)設(shè)置參數(shù)的影響，從而更快更直接的進(jìn)行hadoop集群系統(tǒng)的性能優(yōu)化。最后應(yīng)當(dāng)說明的是以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其限制，盡管參照上述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明，所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解依然可以對本發(fā)明的具體實施方式
進(jìn)行修改或者等同替換，而未脫離本發(fā)明精神和范圍的任何修改或者等同替換，其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1.一種hadoop集群性能的優(yōu)化方法,其特征在于,所述方法采用監(jiān)視工具nmon監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)；所述方法包括下述步驟 A、安裝監(jiān)視工具nmon； B、運行hadoop集群系統(tǒng)。
C、根據(jù)運行過程中nmon工具的性能反饋，對hadoop集群參數(shù)進(jìn)行調(diào)整，實現(xiàn)優(yōu)化。
2.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法，其特征在于，所述安裝監(jiān)視工具nmon包括下述步驟 a、從網(wǎng)頁界面下載nmon二進(jìn)制包； b、將所述nmon二進(jìn)制包復(fù)制到Hadoop集群的所有節(jié)點； C、使用$ΝΜ0Ν_Η0ΜΕ目錄代表放置nmon 二進(jìn)制代碼的位置； d、選擇作業(yè)管理節(jié)點jobtracker作為中心節(jié)點收集nmon數(shù)據(jù)； e、登錄jobtracker中心節(jié)點； f、在所述jobtracker中心節(jié)點上創(chuàng)建目錄并通過網(wǎng)絡(luò)文件系統(tǒng)服務(wù)實現(xiàn)共享； g、創(chuàng)建腳本在Hadoop集群的所有節(jié)點上啟動nmon。
3.如權(quán)利要求2所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟b中，所述Hadoop集群的所有節(jié)點包括目錄管理節(jié)點Namenode、任務(wù)計算節(jié)點Datanode、作業(yè)管理節(jié)點Jobtracker和輔助目錄管理節(jié)點SecondNamenode。
4.如權(quán)利要求2所述的hadoop集群性能的優(yōu)化方法，其特征在于，所述步驟f包括以下步驟 (1)在所述jobtracker中心節(jié)點上創(chuàng)建目錄； (2)修改/etc/exports 文件； (3)重新啟動網(wǎng)絡(luò)文件系統(tǒng)服務(wù)； (4)在目錄管理節(jié)點Namenode、任務(wù)計算節(jié)點Datanode和輔助目錄管理節(jié)點SecondNamenode上創(chuàng)建該目錄并將其掛裝到j(luò)obtracker中心節(jié)點上的perf_share目錄中。
5.如權(quán)利要求2所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟g中，所述腳本包括_f表示希望把數(shù)據(jù)保存到文件中，并不在屏幕上顯示；_m表示保存數(shù)據(jù)的位置；-S 30表示希望每30秒捕捉一次數(shù)據(jù)；-c 360表示需要360個數(shù)據(jù)點(即快照)，總數(shù)據(jù)收集時間為30x360秒，即3小時。
6.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法，其特征在于，所述步驟B中，通過所述監(jiān)視工具nmon返回hadoop集群系統(tǒng)性能數(shù)據(jù)確定性能瓶頸,進(jìn)行hadoop系統(tǒng)配置參數(shù)調(diào)整。
7.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于，所述hadoop集群系統(tǒng)的性能指標(biāo)包括磁盤、CPU和內(nèi)存網(wǎng)絡(luò)。
8.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述nmon為系統(tǒng)管理、調(diào)優(yōu)和基準(zhǔn)測試工具，用于監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)。
9.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述hadoop系統(tǒng)配置參數(shù)調(diào)整是一個反復(fù)循環(huán)的過程。
10.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟C中,根據(jù)運行過程中監(jiān)視工具nmon的性能反饋，對hadoop集群參數(shù)進(jìn)行調(diào)整，包括 I、統(tǒng)計系統(tǒng)各項數(shù)據(jù)，包括CPU的使用率，內(nèi)存使用情，內(nèi)核統(tǒng)計信息和運行隊列信，磁盤I/O速度、傳輸和讀/寫比，文件系統(tǒng)中的可用空，磁盤適配，網(wǎng)絡(luò)I/O速度、傳輸和讀/寫比率，頁面空間和頁面速度，CPU和AIX規(guī)范，消耗資源最多的進(jìn)程，計算機詳細(xì)信息和資源，網(wǎng)絡(luò)文件系統(tǒng)； II、尋找調(diào)優(yōu)的點，如果不能再優(yōu)化，則維持現(xiàn)狀；否則進(jìn)行優(yōu)化，繼續(xù)進(jìn)行步驟III; III、進(jìn)行hadoop集群系統(tǒng)優(yōu)化，之后再進(jìn)行統(tǒng)計測試。
全文摘要
本發(fā)明涉及一種hadoop集群性能的優(yōu)化方法，該方法采用監(jiān)視工具nmon監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)；所述方法包括下述步驟A、安裝監(jiān)視工具nmon；B、運行hadoop集群系統(tǒng)；C、根據(jù)運行過程中nmon工具的性能反饋，對hadoop集群參數(shù)進(jìn)行調(diào)整。該方法能夠監(jiān)測CPU的使用率，內(nèi)存使用情，內(nèi)核統(tǒng)計信息和運行隊列信，磁盤I/O速度、傳輸和讀/寫比，文件系統(tǒng)中的可用空，磁盤適配，網(wǎng)絡(luò)I/O速度、傳輸和讀/寫比率，頁面空間和頁面速度，CPU和AIX規(guī)范，消耗資源最多的進(jìn)程，計算機詳細(xì)信息和資源，網(wǎng)絡(luò)文件系統(tǒng)等。實時準(zhǔn)確的定位系統(tǒng)性能瓶頸，能夠快速實現(xiàn)對系統(tǒng)整體的性能優(yōu)化。該方法能夠使工程師的工作更有針對性，極大的減少了盲目的試探。
文檔編號G06F11/30GK102929667SQ20121041030
公開日2013年2月13日申請日期2012年10月24日優(yōu)先權(quán)日2012年10月24日
發(fā)明者馬慶懷申請人:曙光信息產(chǎn)業(yè)(北京)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬慶懷
技術(shù)所有人：曙光信息產(chǎn)業(yè)（北京）有限公司
我是此專利的發(fā)明人

上一篇：一種寄存器分配方法、系統(tǒng)及處理器的制作方法
上一篇：一種電動汽車運行特性建模分析方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

hadoop集群環(huán)境搭建相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種hadoop集群性能的優(yōu)化方法