專利名稱:一種云計算監(jiān)控框架設計及實現(xiàn)方法及云計算處理設備的制作方法
技術領域:
本發(fā)明涉及計算機軟件和云計算領域,尤其涉及一種云計算監(jiān)控框架設計及實現(xiàn)方法及云計算處理設備。
背景技術:
云計算基礎設施平臺是一個復雜的服務平臺,具有多樣化、異構性和動態(tài)變化的特點。云計算系統(tǒng)的正常運行離不開監(jiān)控系統(tǒng)的支持,云監(jiān)控系統(tǒng)能夠實時反映出云平臺的健康狀況,能夠及時發(fā)現(xiàn)和處理云計算平臺已發(fā)生和潛在的問題,這對于管理和調度云計算系統(tǒng)資源起到了關鍵性的作用。因此,一個好的監(jiān)控框架對于系統(tǒng)的正常運維起著決定性的作用。然而,當前對于一個好的監(jiān)控框架沒有一個確切的規(guī)定
發(fā)明內容
本發(fā)明要解決的技術問題是提供一種云計算監(jiān)控框架設計及實現(xiàn)方法及云計算處理設備,為云計算監(jiān)控框架設計提供新的解決方案。為了解決上述技術問題,本發(fā)明提供了一種云計算監(jiān)控框架設計及實現(xiàn)方法,所述方法包括在節(jié)點上設置唯一性軟件標識作為節(jié)點的身份標識,節(jié)點自動掃描發(fā)現(xiàn)其它節(jié)點,根據(jù)節(jié)點的身份標識進行注冊并生成節(jié)點組織關系表,根據(jù)所述節(jié)點組織關系表對節(jié)點進行下述操作中的一種或多種節(jié)點間心跳檢查、節(jié)點初始化或運行中檢查、路由故障通知告警消息、推送節(jié)點監(jiān)控數(shù)據(jù)。進一步地,上述方法還可以具有以下特點在節(jié)點上設置唯一性軟件標識是指對不同類型節(jié)點安裝不同的程序包或進程,根據(jù)節(jié)點上運行的所述程序包或進程識別節(jié)點身份。進一步地,上述方法還可以具有以下特點所述節(jié)點采用組播或Avahi方式進行自動掃描;將注冊信息注冊到本地的配置文件中,并在所述配置文件中記錄或更新注冊時間。進一步地,上述方法還可以具有以下特點 所述節(jié)點間心跳檢查包括根據(jù)節(jié)點的注冊時間的刷新間隔作為網(wǎng)絡心跳間隔用于檢查節(jié)點間的網(wǎng)絡連通性。進一步地,上述方法還可以具有以下特點所述節(jié)點初始化或運行中檢查包括在每個節(jié)點開機時自動檢測服務進程是否啟動、存儲掛載是否就緒,在節(jié)點運行中檢查服務進程是否僵死、服務進程是否退出,存儲掛載目錄是否就緒,檢查到異常后殺死僵死進程、啟動服務進程、掛載可用的存儲。進一步地,上述方法還可以具有以下特點使用RabbitMQ消息隊列機制對故障通知告警消息進行路由和傳輸。進一步地,上述方法還可以具有以下特點
所述推送節(jié)點監(jiān)控數(shù)據(jù)包括將對節(jié)點的監(jiān)控數(shù)據(jù)實時刷新到Redis數(shù)據(jù)庫,監(jiān)控數(shù)據(jù)包括以下參數(shù)中的一種或多種(PU使用率,CPU負載,內存使用率,磁盤空間使用率,磁盤輸入和/或輸出,網(wǎng)絡流量,系統(tǒng)進程運行情況信息。進一步地,上述方法還可以具有以下特點采用事件循環(huán)輪詢機制對節(jié)點輪詢執(zhí)行所述操作。為了解決上述技術問題,本發(fā)明還提供了一種云計算處理設備,所述設備包括管理模塊、操作執(zhí)行模塊、監(jiān)控數(shù)據(jù)存儲模塊;所述管理模塊,用于在節(jié)點上設置唯一性軟件標識作為節(jié)點的身份標識,自動掃描發(fā)現(xiàn)其它節(jié)點,根據(jù)節(jié)點的身份標識進行注冊并生成節(jié)點組織關系表;所述操作執(zhí)行模塊,用于根據(jù)所述節(jié)點組織關系表對節(jié)點進行下述操作中的一種或多種節(jié)點間心跳檢查、節(jié)點初始化或運行中檢查、路由故障通知告警消息、推送節(jié)點監(jiān) 控數(shù)據(jù);所述監(jiān)控數(shù)據(jù)存儲模塊,用于存儲和更新節(jié)點監(jiān)控數(shù)據(jù)。進一步地,上述云計算處理設備還可以具有以下特點所述管理模塊,還用于在節(jié)點上設置唯一性軟件標識是指對不同類型節(jié)點安裝不同的程序包或進程,根據(jù)節(jié)點上運行的所述程序包或進程識別節(jié)點身份;采用組播或Avahi方式進行自動掃描,將注冊信息注冊到本地的配置文件中,并在所述配置文件中記錄或更新注冊時間;所述操作執(zhí)行模塊,還用于根據(jù)節(jié)點的注冊時間的刷新間隔作為網(wǎng)絡心跳間隔用于檢查節(jié)點間的網(wǎng)絡連通性;還用于在每個節(jié)點開機時自動檢測服務進程是否啟動、存儲掛載是否就緒,在節(jié)點運行中檢查服務進程是否僵死、服務進程是否退出,存儲掛載目錄是否就緒,檢查到異常后殺死僵死進程、啟動服務進程、掛載可用的存儲;還用于使用RabbitMQ消息隊列機制對故障通知告警消息進行路由和傳輸;將對節(jié)點的監(jiān)控數(shù)據(jù)實時刷新到Redis數(shù)據(jù)庫,監(jiān)控數(shù)據(jù)包括以下參數(shù)中的一種或多種CPU使用率,CPU負載,內存使用率,磁盤空間使用率,磁盤輸入和/或輸出,網(wǎng)絡流量,系統(tǒng)進程運行情況信息;還用于采用事件循環(huán)輪詢機制對節(jié)點輪詢執(zhí)行所述操作。本方案可以方便的移植和應用到其他的分布式系統(tǒng),具有一定的通用性,可以省略人工操作過程,可以自動完成云計算的運行,提高云計算系統(tǒng)的智能性。
圖I是云計算監(jiān)控框架設計及實現(xiàn)方法的流程圖;圖2是云計算處理設備的結構圖。
具體實施例方式需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相
互任意組合。如圖I所示,云計算監(jiān)控框架設計及實現(xiàn)方法包括在節(jié)點上設置唯一性軟件標識作為節(jié)點的身份標識,節(jié)點自動掃描發(fā)現(xiàn)其它節(jié)點,根據(jù)節(jié)點的身份標識進行注冊并生成節(jié)點組織關系表,根據(jù)所述節(jié)點組織關系表對節(jié)點進行下述操作中的一種或多種節(jié)點間心跳檢查、節(jié)點初始化或運行中檢查、路由故障通知告警消息、推送節(jié)點監(jiān)控數(shù)據(jù)。下面對各步驟進行詳細說明。I節(jié)點身份自動識別云計算系統(tǒng)的節(jié)點身份具有多樣化,可簡單分為計算節(jié)點、管理主控節(jié)點、分布式存儲master節(jié)點、分布式存儲chunkserver節(jié)點和集中式存儲節(jié)點等等,并且某些節(jié)點可能重復身份,比如某些節(jié)點具有管理節(jié)點和計算節(jié)點雙重身份等。面對如此多的節(jié)點類型可以通過手動修改配置文件來指定身份,但是當有上千臺節(jié)點時,手動修改配置文件確定節(jié)點身份存在耗時而繁瑣的問題,因此自動化確定節(jié)點身份至關重要,只要安裝好監(jiān)控程序,上千臺節(jié)點自動識別各自的身份并確立起節(jié)點間的關系,能夠減少大量的部署和維護工作量。本方案中,在節(jié)點上設置唯一性軟件標識是指對不同類型節(jié)點安裝不同的程序包或進程,根據(jù)節(jié)點上運行的所述程序包或進程識別節(jié)點身份。每種類型的節(jié)點會安裝不同的程序包,啟動不同的進程,可以簡單根據(jù)某些進程是否安裝和運行作為確定節(jié)點身份的 標識,當然不能隨意安裝這些特殊程序包到節(jié)點,需要嚴格的控制,不然會導致節(jié)點身份識別混淆。避免該問題最簡單的方式就是定制化安裝光盤,該光盤預先配置各種節(jié)點的安裝選項并保證最精簡的包安裝。除此方式外,還也可以采用其他方式作為確定節(jié)點身份的標識。2節(jié)點自動掃描與自動注冊云計算平臺具有多種多樣的節(jié)點類型,各種節(jié)點相互配合完成共同的資源管理和調度任務,如計算節(jié)點在主控節(jié)點的控制下有條不紊的進行著虛擬機生命周期的管理,計算節(jié)點實時反饋管理節(jié)點關于計算節(jié)點的實時資源使用情況,而計算節(jié)點上的虛擬機也時刻與存儲交互,實時讀寫數(shù)據(jù)到存儲節(jié)點等等。節(jié)點集群如此有條理的配合工作離不開一種潛在的節(jié)點關系維護。當然我們可以手動配置文件設定每個節(jié)點的身份,并手動填寫一張關于其他節(jié)點身份關系的關系表,這樣每個節(jié)點就能自動找到各自的合作節(jié)點,事實上當前大部分系統(tǒng)都是這樣設計的。但是,當云計算系統(tǒng)規(guī)模達到一定程度后,手動維護每個節(jié)點的節(jié)點關系身份表存在一定的難度,同時配置上千臺節(jié)點工作量較大。本方案中,節(jié)點采用組播或Avahi方式進行自動掃描;將注冊信息注冊到本地的配置文件中,并在所述配置文件中記錄或更新注冊時間。組播協(xié)議中同一組播組的節(jié)點能夠收到組播消息,因此可以用來掃描和搜索節(jié)點;Avahi是zeroconf協(xié)議的實現(xiàn),它可以在沒有DNS服務的局域網(wǎng)里發(fā)現(xiàn)基于zeiOconf協(xié)議的設備和服務,因此也可以用來發(fā)現(xiàn)和掃描節(jié)點。本發(fā)明組播方式,穩(wěn)定且可靠。當節(jié)點掃描和發(fā)現(xiàn)后,自動注冊到本地的配置文件中,比如xml文件,同時在配置文件記錄注冊時間。本方案中可以為每個節(jié)點動態(tài)生成一張各種節(jié)點的關系表,該關系表能夠根據(jù)節(jié)點身份的改變實時變化,具有一定的智能性和實時性。3節(jié)點間的網(wǎng)絡心跳檢查云計算系統(tǒng)的節(jié)點集群通過數(shù)據(jù)中心網(wǎng)絡互連,是網(wǎng)絡就會存在丟包的情況,當出現(xiàn)網(wǎng)絡斷開,需使其他節(jié)點實時感知節(jié)點的網(wǎng)絡故障。本方案中,節(jié)點間心跳檢查包括根據(jù)節(jié)點的注冊時間的刷新間隔作為網(wǎng)絡心跳間隔用于檢查節(jié)點間的網(wǎng)絡連通性。
本方案中采用一種被動式的網(wǎng)絡心跳檢測方法,通過節(jié)點關系注冊時實時記錄注冊時間,節(jié)點注冊是持續(xù)隨機的,每次注冊都會刷新上次注冊時記錄的注冊時間,注冊時間頻率可以指定,兩次注冊的注冊時間差可以用來當作網(wǎng)絡心跳間隔,事實證明,通過這樣的方法既實現(xiàn)了節(jié)點注冊,也間接實現(xiàn)了節(jié)點間心跳的檢查,同時避免了使用一些故障診斷協(xié)議如ICMP帶來的額外網(wǎng)絡開銷。4節(jié)點的初始化檢查或運行中檢查云計算系統(tǒng)的智能化不止包括節(jié)點身份自動識別和節(jié)點間關系自動維護,還包括節(jié)點自動初始化操作,如節(jié)點服務進程的故障檢查與自動恢復功能,存儲就緒檢查等。本方案中,節(jié)點初始化或運行中檢查包括在每個節(jié)點開機時自動檢測服務進程是否啟動、存儲掛載是否就緒,在節(jié)點運行中檢查服務進程是否僵死、服務進程是否退出,存儲掛載目錄是否就緒,檢查到異常后殺死僵死進程、啟動服務進程、掛載可用的存儲,具有一定的智能性。本過程通過節(jié)點組織關系表實時查詢當前的目標管理節(jié)點,然后將數(shù)據(jù)發(fā)送到目標節(jié)點,該過程不需要人工參與配置,是自動完成的,因此具有一定的智能性。 5使用RabbitMQ消息隊列機制對故障通知告警消息進行路由和傳輸高級消息隊列協(xié)議(AMQP,Advanced Message Queuing Protocol)是應用層協(xié)議的一個開放標準,為面向消息的中間件設計。AMQP的主要特征是面向消息、隊列、路由(包括點對點和發(fā)布/訂閱)、可靠性、安全性要求很嚴格。AMQP允許來自不同供應商的消息生產者和消費者實現(xiàn)真正的互操作擴展。AMQP是一個線路級的協(xié)議,它描述了通過網(wǎng)絡傳輸?shù)淖止?jié)流的數(shù)據(jù)格式。RabbitMQ是AMQP的開源實現(xiàn),基于Erlang語言,具有高性能、健壯以及Scalability的優(yōu)點。本發(fā)明基于RabbitMQ的這些特征,實現(xiàn)了一個可靠的監(jiān)控框架,該框架對監(jiān)控消息進行路由并將監(jiān)控響應數(shù)據(jù)發(fā)送到指定的處理隊列。該方案成熟可靠,效率高效,最主要是簡化編程,讓開發(fā)者不用去關心底層的數(shù)據(jù)傳輸和實現(xiàn),并且能夠大大降低云計算系統(tǒng)模塊的耦合性。6監(jiān)控數(shù)據(jù)的獲取,內存數(shù)據(jù)庫Redis的數(shù)據(jù)推送本方案中,所述推送節(jié)點監(jiān)控數(shù)據(jù)包括將對節(jié)點的監(jiān)控數(shù)據(jù)實時刷新到Redis數(shù)據(jù)庫,監(jiān)控數(shù)據(jù)包括以下參數(shù)中的一種或多種CPU使用率,CPU負載,內存使用率,磁盤空間使用率,磁盤輸入和/或輸出,網(wǎng)絡流量,系統(tǒng)進程運行情況信息。Redis是一種開源的基于Key-Value的輕量級NoSQL數(shù)據(jù)庫,Redis的所有數(shù)據(jù)可以保存在內存中,也可以持久化到磁盤,具有聞性能、聞效存儲、聞可用性和聞可擴展性等諸多優(yōu)勢。它結構簡單,讀與效率高,支持服務器集群,能夠處理海量數(shù)據(jù),可以應對高并發(fā)訪問。因此本發(fā)明中監(jiān)控數(shù)據(jù)的存取基于Redis也具有這些相應的特性。本過程通過節(jié)點組織關系表實時查詢當前redis所在的節(jié)點,然后將數(shù)據(jù)發(fā)送到目標節(jié)點,該過程不需要人工參與配置,是自動完成的,因此具有一定的智能化。7采用事件循環(huán)(Event Loop)輪詢機制對節(jié)點輪詢執(zhí)行各操作。GLib中的Main Event Loop可以監(jiān)控管理所有可用的事件資源。GLib內部實現(xiàn)了 Timeout,Idle, Child Watch三種類型的事件源,如文件描述符(普通文件、管道或者套接字)或者超時。用戶也可以定義自己的其它類型資源,但這需要使用g_source_attachO進行關聯(lián)。在Main Event Loop中每一個事件資源都被賦予一個優(yōu)先級。用戶可以指定默認優(yōu)先級,默認的優(yōu)先級是G_PRIORITY_DEFAULT,它的值是O。值比O小的意味著更高的優(yōu)先級。值比O大的意味著更低的優(yōu)先級。高優(yōu)先級的事件資源總是比低優(yōu)先級的事件資源得到優(yōu)先處理。通過GSource結構創(chuàng)建新的事件資源類型,新的事件資源類型包括步驟一到步驟六的事件資源,新事件資源類型用一個結構體表示??梢哉{用g_source_newO創(chuàng)建一個新事件資源類型的實例,這需要將一張函數(shù)表(GSourceFuncs)和事件資源結構體的大小傳遞給g_source_new()函數(shù)。其中函數(shù)表中的函數(shù)決定了新的資源事件的行為。GMainLoop>GMainContext和GSource具有一定的關系,其中每個GMainLoop中只能有一個CMainContext,而每個CMainContext中可以有多個GSource,也就是用戶可以同時對多個資源進行輪詢。創(chuàng)建好新的資源類型后使用g_source_attach O進行關聯(lián),即向GMainLoop中添加關聯(lián)的資源。向其中添加初始化事件資源之后,就可以調用g_main_l00p_rUn()函數(shù)進行輪詢,在沒有調用g_main_l00p_quit()的情況下,程序將阻塞到該函數(shù)。繼續(xù)檢查新的從每個事件資源發(fā)出的新事件并處理它們。最后,當某個資源發(fā)出的事件中調用g_main_loop_quit O 時,將會退出 Main Event Loop,同時 g_main_loop_run O 返回。 Event Loop輪詢機制中prepare O、check O和dispatch O函數(shù)與輪詢有關,這三個函數(shù)在輪詢過程的不同階段被調用。prepare O在所有的文件描述符被輪詢前調用,對于超時事件資源該函數(shù)返回TRUE時說明已到定時時間,返回FALSE則說明未到。當所有文件描述符都被輪詢完之后將會調用checkO函數(shù),對于超時事件資源該函數(shù)的返回值的意義與prepareO函數(shù)一致。dispatch()函數(shù)用于發(fā)送事件資源,當prepare O或者checkO任意一個返回TRUE時,該函數(shù)將被調用。其主要是調用用戶的回調函數(shù),實現(xiàn)相應的功能。這三個函數(shù)的具體功能需要用戶根據(jù)需要來實現(xiàn)。如圖2所示,云計算處理設備包括管理模塊、操作執(zhí)行模塊、監(jiān)控數(shù)據(jù)存儲模塊。所述管理模塊,用于在節(jié)點上設置唯一性軟件標識作為節(jié)點的身份標識,自動掃描發(fā)現(xiàn)其它節(jié)點,根據(jù)節(jié)點的身份標識進行注冊并生成節(jié)點組織關系表;所述操作執(zhí)行模塊,用于根據(jù)所述節(jié)點組織關系表對節(jié)點進行下述操作中的一種或多種節(jié)點間心跳檢查、節(jié)點初始化或運行中檢查、路由故障通知告警消息、推送節(jié)點監(jiān)控數(shù)據(jù);所述監(jiān)控數(shù)據(jù)存儲模塊(也稱為Redis模塊),用于存儲和更新節(jié)點監(jiān)控數(shù)據(jù)。所述管理模塊,還用于在節(jié)點上設置唯一性軟件標識是指對不同類型節(jié)點安裝不同的程序包或進程,根據(jù)節(jié)點上運行的所述程序包或進程識別節(jié)點身份;采用組播或Avahi方式進行自動掃描,將注冊信息注冊到本地的配置文件中,并在所述配置文件中記錄或更新注冊時間;所述操作執(zhí)行模塊,還用于根據(jù)節(jié)點的注冊時間的刷新間隔作為網(wǎng)絡心跳間隔用于檢查節(jié)點間的網(wǎng)絡連通性;還用于在每個節(jié)點開機時自動檢測服務進程是否啟動、存儲掛載是否就緒,在節(jié)點運行中檢查服務進程是否僵死、服務進程是否退出,存儲掛載目錄是否就緒,檢查到異常后殺死僵死進程、啟動服務進程、掛載可用的存儲。所述操作執(zhí)行模塊中包括RabbitMQ子模塊,RabbitMQ子模塊用于使用RabbitMQ消息隊列機制對故障通知告警消息進行路由和傳輸。所述操作執(zhí)行模塊,還用于將對節(jié)點的監(jiān)控數(shù)據(jù)實時刷新到Redis數(shù)據(jù)庫,監(jiān)控數(shù)據(jù)包括以下參數(shù)中的一種或多種=CPU使用率,CPU負載,內存使用率,磁盤空間使用率,磁盤輸入和/或輸出,網(wǎng)絡流量,系統(tǒng)進程運行情況信息;還用于采用事件循環(huán)輪詢機制對節(jié)點輪詢執(zhí)行所述操作。當然,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質的情況下,熟悉本領域的技術人員可根據(jù)本發(fā)明作出各種相應的改變和變形,但這些相應的改變和變形都應屬于本發(fā)明所附的權利要求的保護范圍。本領域普通技術人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關硬件完成,所述程序可以存儲于計算機可讀存儲介質中,如只讀存 儲器、磁盤或光盤等??蛇x地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現(xiàn)。相應地,上述實施例中的各模塊/單元可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。本發(fā)明不限制于任何特定形式的硬件和軟件的結合。
權利要求
1.一種云計算監(jiān)控框架設計及實現(xiàn)方法,其特征在于,所述方法包括 在節(jié)點上設置唯一性軟件標識作為節(jié)點的身份標識,節(jié)點自動掃描發(fā)現(xiàn)其它節(jié)點,根據(jù)節(jié)點的身份標識進行注冊并生成節(jié)點組織關系表,根據(jù)所述節(jié)點組織關系表對節(jié)點進行下述操作中的一種或多種節(jié)點間心跳檢查、節(jié)點初始化或運行中檢查、路由故障通知告警消息、推送節(jié)點監(jiān)控數(shù)據(jù)。
2.如權利要求I所述的方法,其特征在于, 在節(jié)點上設置唯一性軟件標識是指對不同類型節(jié)點安裝不同的程序包或進程,根據(jù)節(jié)點上運行的所述程序包或進程識別節(jié)點身份。
3.如權利要求2所述的方法,其特征在于, 所述節(jié)點采用組播或Avahi方式進行自動掃描; 將注冊信息注冊到本地的配置文件中,并在所述配置文件中記錄或更新注冊時間。
4.如權利要求3所述的方法,其特征在于, 所述節(jié)點間心跳檢查包括根據(jù)節(jié)點的注冊時間的刷新間隔作為網(wǎng)絡心跳間隔用于檢查節(jié)點間的網(wǎng)絡連通性。
5.如權利要求4所述的方法,其特征在于, 所述節(jié)點初始化或運行中檢查包括在每個節(jié)點開機時自動檢測服務進程是否啟動、存儲掛載是否就緒,在節(jié)點運行中檢查服務進程是否僵死、服務進程是否退出,存儲掛載目錄是否就緒,檢查到異常后殺死僵死進程、啟動服務進程、掛載可用的存儲。
6.如權利要求5所述的方法,其特征在于, 使用RabbitMQ消息隊列機制對故障通知告警消息進行路由和傳輸。
7.如權利要求6所述的方法,其特征在于, 所述推送節(jié)點監(jiān)控數(shù)據(jù)包括將對節(jié)點的監(jiān)控數(shù)據(jù)實時刷新到Redis數(shù)據(jù)庫,監(jiān)控數(shù)據(jù)包括以下參數(shù)中的一種或多種=CPU使用率,CPU負載,內存使用率,磁盤空間使用率,磁盤輸入和/或輸出,網(wǎng)絡流量,系統(tǒng)進程運行情況信息。
8.如權利要求7所述的方法,其特征在于, 采用事件循環(huán)輪詢機制對節(jié)點輪詢執(zhí)行所述操作。
9.一種云計算處理設備,其特征在于, 所述設備包括管理模塊、操作執(zhí)行模塊、監(jiān)控數(shù)據(jù)存儲模塊; 所述管理模塊,用于在節(jié)點上設置唯一性軟件標識作為節(jié)點的身份標識,自動掃描發(fā)現(xiàn)其它節(jié)點,根據(jù)節(jié)點的身份標識進行注冊并生成節(jié)點組織關系表; 所述操作執(zhí)行模塊,用于根據(jù)所述節(jié)點組織關系表對節(jié)點進行下述操作中的一種或多種節(jié)點間心跳檢查、節(jié)點初始化或運行中檢查、路由故障通知告警消息、推送節(jié)點監(jiān)控數(shù)據(jù); 所述監(jiān)控數(shù)據(jù)存儲模塊,用于存儲和更新節(jié)點監(jiān)控數(shù)據(jù)。
10.如權利要求9所述云計算處理設備,其特征在于, 所述管理模塊,還用于在節(jié)點上設置唯一性軟件標識是指對不同類型節(jié)點安裝不同的程序包或進程,根據(jù)節(jié)點上運行的所述程序包或進程識別節(jié)點身份;采用組播或Avahi方式進行自動掃描,將注冊信息注冊到本地的配置文件中,并在所述配置文件中記錄或更新注冊時間;所述操作執(zhí)行模塊,還用于根據(jù)節(jié)點的注冊時間的刷新間隔作為網(wǎng)絡心跳間隔用于檢查節(jié) 點間的網(wǎng)絡連通性;還用于在每個節(jié)點開機時自動檢測服務進程是否啟動、存儲掛載是否就緒,在節(jié)點運行中檢查服務進程是否僵死、服務進程是否退出,存儲掛載目錄是否就緒,檢查到異常后殺死僵死進程、啟動服務進程、掛載可用的存儲;還用于使用RabbitMQ消息隊列機制對故障通知告警消息進行路由和傳輸;將對節(jié)點的監(jiān)控數(shù)據(jù)實時刷新到Redis數(shù)據(jù)庫,監(jiān)控數(shù)據(jù)包括以下參數(shù)中的一種或多種CPU使用率,CPU負載,內存使用率,磁盤空間使用率,磁盤輸入和/或輸出,網(wǎng)絡流量,系統(tǒng)進程運行情況信息;還用于采用事件循環(huán)輪詢機制對節(jié)點輪詢執(zhí)行所述操作。
全文摘要
本發(fā)明公開了一種云計算監(jiān)控框架設計及實現(xiàn)方法及云計算處理設備,所述方法包括在節(jié)點上設置唯一性軟件標識作為節(jié)點的身份標識,節(jié)點自動掃描發(fā)現(xiàn)其它節(jié)點,根據(jù)節(jié)點的身份標識進行注冊并生成節(jié)點組織關系表,根據(jù)所述節(jié)點組織關系表對節(jié)點進行下述操作中的一種或多種節(jié)點間心跳檢查、節(jié)點初始化或運行中檢查、路由故障通知告警消息、推送節(jié)點監(jiān)控數(shù)據(jù)。本方案可以方便的移植和應用到其他的分布式系統(tǒng),具有一定的通用性,可以省略人工操作過程,可以自動完成云計算的運行,提高云計算系統(tǒng)的智能性。
文檔編號H04L12/26GK102868736SQ201210316388
公開日2013年1月9日 申請日期2012年8月30日 優(yōu)先權日2012年8月30日
發(fā)明者羅登亮 申請人:浪潮(北京)電子信息產業(yè)有限公司