本發(fā)明涉及系統(tǒng)運維領(lǐng)域,具體涉及一種媒體大數(shù)據(jù)hadoop集群監(jiān)控的方法。
背景技術(shù):
當(dāng)前時代,大數(shù)據(jù)席卷全球,而Hadoop作為優(yōu)秀的大數(shù)據(jù)產(chǎn)品,也被引入并在許多業(yè)務(wù)中使用,例如非結(jié)構(gòu)化數(shù)據(jù)的存儲、歷史數(shù)據(jù)的歸檔等。而且隨著業(yè)務(wù)的發(fā)展,將會有越來越多的Hadoop集群投入生產(chǎn),Hadoop集群的使用為媒體大數(shù)據(jù)業(yè)務(wù)的開展提供了有力的保障,但與此同時,傳統(tǒng)的監(jiān)控方法也難以準確監(jiān)控Hadoop集群的運行狀態(tài)。
目前,媒體大數(shù)據(jù)監(jiān)控平臺對于開放系統(tǒng)監(jiān)控已經(jīng)相對完善,但是對于較新的Hadoop集群,監(jiān)控指標(biāo)未成體系,集群監(jiān)控主要依賴于運維部門單獨實現(xiàn)的特色監(jiān)控,例如監(jiān)控日志關(guān)鍵字、監(jiān)控進程等。由于Hadoop是由眾多服務(wù)器組成的集群,因此對于該計算機集群的監(jiān)控就成為了一大難點。隨著越來越多的Hadoop集群投入生產(chǎn),一方面各Hadoop集群按單臺設(shè)備進行監(jiān)控實現(xiàn)導(dǎo)致效率低下,另一方面也存在監(jiān)控指標(biāo)不完善的情況,從而產(chǎn)生運行隱患。而且,傳統(tǒng)的方法只能對每臺設(shè)備進行監(jiān)控,而Hadoop作為一個集群,無法實現(xiàn)對其整體的監(jiān)控,從而導(dǎo)致監(jiān)控結(jié)果可能存在誤差,難以準確判斷故障對系統(tǒng)的實際影響。因此,擬從集群整體的角度,建立完整的Hadoop監(jiān)控體系,梳理Hadoop各類監(jiān)控指標(biāo)對系統(tǒng)及業(yè)務(wù)的影響,并利用媒體大數(shù)據(jù)的集中監(jiān)控系統(tǒng),實現(xiàn)對Hadoop集群監(jiān)控的快速配置。
技術(shù)實現(xiàn)要素:
本發(fā)明為了解決傳統(tǒng)方法只能對每臺設(shè)備進行監(jiān)控,而Hadoop作為一個集群,無法實現(xiàn)對其整體的監(jiān)控,從而導(dǎo)致監(jiān)控結(jié)果可能存在誤差,難以準確判斷故障對系統(tǒng)的實際影響的問題,提供了一種媒體大數(shù)據(jù)hadoop集群監(jiān)控的方法,具體技術(shù)實施方案如下:
本發(fā)明的一種媒體大數(shù)據(jù)hadoop集群監(jiān)控的方法,該方法的步驟如下:
步驟一、設(shè)置監(jiān)控管理機和短信網(wǎng)關(guān),并將短信網(wǎng)關(guān)與監(jiān)控管理機相連,監(jiān)控管理機與hadoop集群連接;
步驟二、監(jiān)控進程,接收監(jiān)控管理機的控制命令:啟動、停止、更新監(jiān)控閾值、更新監(jiān)控指標(biāo)、更新監(jiān)控腳本,按時間片判斷監(jiān)控時間間隔,如到達時間間隔則進行監(jiān)控指標(biāo)采集循環(huán);對hadoop的關(guān)鍵服務(wù)通過進程狀態(tài)查詢命令得到這些服務(wù)的狀態(tài);對hadoop的Syslog日志文件進行讀取,運行監(jiān)控腳本讀取其中的關(guān)鍵字和關(guān)鍵指標(biāo);對系統(tǒng)資源通過內(nèi)存、存儲、cpu使用率查詢命令得到指標(biāo)數(shù)據(jù)指標(biāo),將采集的指標(biāo)與閾值進行比較,達到則產(chǎn)生告警事件數(shù)據(jù),將告警事件數(shù)據(jù)推送給監(jiān)控管理機;
步驟三、提供操作界面供用戶設(shè)置監(jiān)控指標(biāo)、閾值、監(jiān)控腳本、告警短信接收號碼等,向監(jiān)控進程推送監(jiān)控指標(biāo)、閾值、監(jiān)控腳本,提供操作界面供用戶發(fā)出監(jiān)控開始、停止命令,將命令推送至監(jiān)控進程,接收監(jiān)控進程推送來的監(jiān)控事件告警數(shù)據(jù)后,轉(zhuǎn)換為短信網(wǎng)關(guān)接口格式,添加接收號碼,發(fā)送至短信網(wǎng)關(guān),實現(xiàn)告警短信發(fā)送。
本發(fā)明的一種媒體大數(shù)據(jù)hadoop集群監(jiān)控的方法,該方法的優(yōu)點如下:實現(xiàn)了Hadoop集群監(jiān)控指標(biāo)的建立以及與媒體大數(shù)據(jù)集中監(jiān)控平臺的對接,解決了目前媒體大數(shù)據(jù)Hadoop監(jiān)控存在的指標(biāo)不完善、需人工按單臺設(shè)備實現(xiàn)等問題,降低了運維風(fēng)險,提高了工作效率。
附圖說明
圖1本發(fā)明的架構(gòu)圖,圖2是Hadoop監(jiān)控配置示例圖。
具體實施方式
具體實施方式一:本實施方式的方法是這樣實現(xiàn)的:首先設(shè)置監(jiān)控管理機和短信網(wǎng)關(guān),并將短信網(wǎng)關(guān)與監(jiān)控管理機相連,監(jiān)控管理機與hadoop集群連接;其次部署和啟動監(jiān)控進程,接收監(jiān)控管理機的控制命令:啟動、停止、更新監(jiān)控閾值、更新監(jiān)控指標(biāo)、更新監(jiān)控腳本,按時間片判斷監(jiān)控時間間隔,如到達時間間隔則進行監(jiān)控指標(biāo)采集循環(huán);對hadoop的關(guān)鍵服務(wù)通過進程狀態(tài)查詢命令得到這些服務(wù)的狀態(tài);對hadoop的Syslog日志文件進行讀取,運行監(jiān)控腳本讀取其中的關(guān)鍵字和關(guān)鍵指標(biāo);對系統(tǒng)資源通過內(nèi)存、存儲、cpu使用率查詢命令得到指標(biāo)數(shù)據(jù)指標(biāo),將采集的指標(biāo)與閾值進行比較,達到則產(chǎn)生告警事件數(shù)據(jù),將告警事件數(shù)據(jù)推送給監(jiān)控管理機;然后提供操作界面供用戶設(shè)置監(jiān)控指標(biāo)、閾值、監(jiān)控腳本、告警短信接收號碼等,向監(jiān)控進程推送監(jiān)控指標(biāo)、閾值、監(jiān)控腳本,提供操作界面供用戶發(fā)出監(jiān)控開始、停止命令,將命令推送至監(jiān)控進程,與斷行網(wǎng)關(guān)連接,接收監(jiān)控進程推送來的監(jiān)控事件告警數(shù)據(jù)后,轉(zhuǎn)換為短信網(wǎng)關(guān)接口格式,添加接收號碼,發(fā)送至短信網(wǎng)關(guān),實現(xiàn)告警短信發(fā)送。
具體實施方式二:本實施方式的監(jiān)控管理機采用小型計算機。
具體實施方式三:本實施方式的不同的Hadoop集群的監(jiān)控解析代碼通用,且統(tǒng)一部署在syslog服務(wù)器后臺運行,因此,對于未來新增的Hadoop集群,只需按圖2所示進行相關(guān)配置即可實現(xiàn)對Hadoop集群的監(jiān)控。
具體實施方式四:本實施方式的短信網(wǎng)關(guān)將監(jiān)控信息發(fā)至短信運營商。
監(jiān)控Hadoop服務(wù):監(jiān)控Hadoop集群運行的各種服務(wù),包含關(guān)鍵服務(wù)和非關(guān)鍵服務(wù)兩類。關(guān)鍵服務(wù)指Hadoop正常運行所必須的服務(wù)進程,若出現(xiàn)故障,會影響Hadoop集群的正常運行。例如HDFS服務(wù)、MapReduce服務(wù)等,若出現(xiàn)故障會影響Hadoop集群的數(shù)據(jù)存儲和數(shù)據(jù)處理,也會影響其他相關(guān)服務(wù)的正常運行。非關(guān)鍵服務(wù)一般指部署在管理節(jié)點的服務(wù)進程,若出現(xiàn)故障,會影響管理節(jié)點對Hadoop集群的管理,但不會影響Hadoop集群的正常運行。例如OKerberos資源異常,會導(dǎo)致用戶無法登陸Hadoop集群的管理界面。需要指出的是,Hadoop是高可用集群,此類指標(biāo)是從集群整體的角度監(jiān)控的,若某一服務(wù)發(fā)生異常但順利實現(xiàn)主備切換等高可用性操作,則不在該類監(jiān)控指標(biāo)下。該監(jiān)控共有20個監(jiān)控指標(biāo)。
監(jiān)控Hadoop高可用性:高可用性是Hadoop的基本設(shè)計思想,集群中出現(xiàn)的服務(wù)器故障、底層軟件故障等一般并不會影響Hadoop的正常運行。在管理節(jié)點和控制節(jié)點,Hadoop多采用主備機方式實現(xiàn)高可用性,若主機出現(xiàn)故障服務(wù)會自動切換到備機。對于數(shù)據(jù)節(jié)點,Hadoop會始終監(jiān)控其運行狀態(tài),若出現(xiàn)故障會自動將其隔離,待恢復(fù)后重新加入集群。此類指標(biāo)可用來監(jiān)控Hadoop實現(xiàn)高可用的過程,例如服務(wù)發(fā)生主備切換、主備數(shù)據(jù)同步異常等。同時,通過該監(jiān)控也能夠提示運維人員及時關(guān)注并處理主節(jié)點發(fā)生的異常。該監(jiān)控類型共有15個監(jiān)控指標(biāo)。
監(jiān)控資源使用情況:Hadoop每類服務(wù)都會占用相應(yīng)的資源,此類指標(biāo)監(jiān)控各服務(wù)的資源使用情況,例如HDFS磁盤空間使用率超過閾值、NameNode內(nèi)存使用率超過閾值等。此類監(jiān)控可配合前兩類監(jiān)控共同分析Hadoop狀態(tài),以便實現(xiàn)集群故障點的快速定位。該監(jiān)控類型共有8個監(jiān)控指標(biāo)。