專利名稱:操作管理裝置、操作管理方法以及程序存儲介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及監(jiān)視系統(tǒng)上的操作信息的操作管理裝置、其操作管理方法及其程序存儲介質(zhì)。
背景技術(shù):
在由安裝在數(shù)據(jù)中心等中的由大量服務(wù)器和網(wǎng)絡(luò)設(shè)備構(gòu)成的信息系統(tǒng)的技術(shù)領(lǐng)域中,由該系統(tǒng)提供的服務(wù)(諸如Web服務(wù)、商業(yè)服務(wù))的重要性作為社交基礎(chǔ)設(shè)施而增カロ。出于該原因,用于管理這些服務(wù)的每個服務(wù)器穩(wěn)定操作變得不可缺少。中央監(jiān)視多個服務(wù)器的操作狀態(tài)并且檢測故障發(fā)生的集成管理系統(tǒng)被已知為用于管理這樣的系統(tǒng)的技木。例如,廣泛已知的是這樣集成管理系統(tǒng),該系統(tǒng)從作為監(jiān)視目標的多個服務(wù)器在 線獲得關(guān)于該操作狀態(tài)的實際測量的數(shù)據(jù),并且在該實際測量的數(shù)據(jù)超出閾值時檢測異常。然而,在該系統(tǒng)中,在檢測到異常時,縮窄異常的原因(例如存儲器能力的缺乏、CPU上的負載、網(wǎng)絡(luò)上的負載等)以恢復該系統(tǒng)是必要的。通常,為了排除異常的原因,不得不檢查看起來與該異常相關(guān)的計算機的系統(tǒng)日志和參數(shù)。該檢查不得不依賴于系統(tǒng)工程師的經(jīng)驗和直覺。因此,需要花費時間和能量以排除異常的原因。出于該原因,在通常的集成管理系統(tǒng)中,重要的是以從多個設(shè)備收集的事件數(shù)據(jù)(狀態(tài)通知)為基礎(chǔ)自動執(zhí)行異常狀態(tài)等的組合的分析、推測大圖片問題點和原因、向管理員進行通知并且支持該管理員。特別地,為了在長期的連續(xù)操作中確保服務(wù)的可靠性,要求通過不僅檢測所發(fā)生的異常而且還檢測異常沒有清晰出現(xiàn)的性能,而降級或者被預測在將來發(fā)生的故障符號來執(zhí)行儀器的計劃增強。這里公開了與這樣的集成管理系統(tǒng)相關(guān)的下面技木。在日本專利申請?zhí)亻_No. 2002-342107公開的技術(shù)中,通過限制關(guān)于其中在識別所檢測的系統(tǒng)故障是軟件故障時對于主要單元發(fā)生了軟件故障的處理的重啟范圍而降低服務(wù)中斷時間。在日本專利申請?zhí)亻_No. 2005-285040公開的技術(shù)中,從多個網(wǎng)絡(luò)裝置收集連續(xù)數(shù)量信息作為初始監(jiān)視信息、監(jiān)視該連續(xù)數(shù)量信息的統(tǒng)計行為、在檢測到與通常行為不同的行為時首先收集多個相關(guān)監(jiān)視信息、確定每一個值,并且從而識別故障原因。在日本專利申請?zhí)亻_No. 2006-244447公開的技術(shù)中,檢測數(shù)據(jù)存儲陣列中各種參數(shù)的故障傾向性并且避免該系統(tǒng)的故障。該技術(shù)控制到由多個數(shù)據(jù)存儲裝置構(gòu)成的存儲器陣列空間的訪問,并且在歷史日志中累積來自每ー個數(shù)據(jù)存儲裝置的操作性能數(shù)據(jù)。該技術(shù)分析該操作性能數(shù)據(jù),以檢測該數(shù)據(jù)存儲裝置的異常操作并且對該分析做出響應(yīng)而開始該數(shù)據(jù)存儲裝置的校正處理。在日本專利申請?zhí)亻_No. 2008-9842公開的技術(shù)中,收集關(guān)于計算機系統(tǒng)的操作狀態(tài)的信息、記錄表示所收集的信息之間的相關(guān)關(guān)系的相關(guān)信息、根據(jù)該相關(guān)信息以及所收集的信息檢測在由計算機系統(tǒng)執(zhí)行的服務(wù)中發(fā)生的故障、并且生成用于恢復該故障的處理。該技術(shù)通過參照該相關(guān)信息的該過程的執(zhí)行確定對計算機系統(tǒng)的效果和影響,并且決定是否執(zhí)行確定效果和影響的處理、其執(zhí)行順序及其執(zhí)行時間中的至少ー個。
在日本專利申請?zhí)亻_No. 2009-199533公開的技術(shù)中,從要被管理的多個裝置獲得對于多個種類的性能項的每ー個的性能信息并且在性能項或者要被管理的裝置被指定作為元件時,以表示對于第一元件的性能信息的時間系列變化的第一性能系列信息、與表示對于第二元件的性能信息的時間系列變化的第二性能系列信息之間的相關(guān)函數(shù)為基礎(chǔ),生成對于元件的每ー個組合的相關(guān)模型。該技術(shù)分析從要被管理的裝置新檢測的性能信息是否保持相關(guān)模型,并且如果分析的結(jié)果為負,則確定元件異常。
發(fā)明內(nèi)容
摶術(shù)問是頁
然而,在上面提及的相關(guān)技術(shù)中,當服務(wù)器系統(tǒng)的規(guī)模變大時,其中檢測到異常的服務(wù)器的數(shù)量增加并且從而管理員關(guān)注于不同的位置,在這些位置處發(fā)生故障并且出現(xiàn)花費太多時間來識別作為故障發(fā)生源的服務(wù)器的問題。例如,在由多個服務(wù)器組構(gòu)成的多層(multi-tier)系統(tǒng)中,存在其中由在ー個服務(wù)器中發(fā)生的故障擴散到大量的其他服務(wù)器并且影響它們導致的異常的情況。在這種情況下,故障發(fā)生源由于故障的擴散而變得被掩埋。例如,在三層系統(tǒng)中,由在應(yīng)用服務(wù)器中發(fā)生的故障導致的異常擴散到上層Web服務(wù)器組,并且從而類似的異常在Web服務(wù)器組中同時發(fā)生。通常,在許多情況下,異常的擴散以一到多的關(guān)系發(fā)生。存在其中在ー個應(yīng)用服務(wù)器中發(fā)生的故障被檢測作為在ー百個Web服務(wù)器中發(fā)生的異常的情況。這里,在管理員檢查其中被順次檢測到異常的服務(wù)器吋,如果管理員集中于ー百個Web服務(wù)器,則花費太多時間來識別作為故障發(fā)生源的應(yīng)用服務(wù)器。本發(fā)明的目的在于解決上面提及的問題,并且提供能夠呈現(xiàn)用于識別導致異常的故障發(fā)生源的有效信息,進而縮短其中管理員識別異常原因的時間的操作管理裝置、其操作管理方法及其程序存儲介質(zhì)。
_4] 技術(shù)方案根據(jù)本發(fā)明示例性方面的ー種操作管理裝置包括異常項的故障檢測裝置,用于獲得關(guān)于連接到公共裝置的要被監(jiān)視的多個目標裝置的每ー個的多個性能尺度(metric)的測量值,并且檢測作為其測量值關(guān)于要被監(jiān)視的多個目標裝置的每ー個異常的性能尺度,以及擴散確定裝置,用于輸出從要被監(jiān)視的多個目標裝置的每ー個的異常項排除在全部要被監(jiān)視的多個目標裝置中檢測的異常項剰余的異常項。根據(jù)本發(fā)明示例性方面的ー種操作管理方法包括獲得關(guān)于連接到公共裝置的要被監(jiān)視的多個目標裝置的每ー個的多個性能尺度的測量值,檢測作為其測量值關(guān)于要被監(jiān)視的多個目標裝置的每ー個異常的性能尺度的異常項,以及輸出從要被監(jiān)視的多個目標裝置的每ー個的異常項排除在全部要被監(jiān)視的多個目標裝置中檢測的異常項剰余的異常項。根據(jù)本發(fā)明示例性方面的ー種在其上記錄使計算機執(zhí)行ー種方法的操作管理程序的程序記錄介質(zhì),該方法包括獲得關(guān)于連接到公共裝置的要被監(jiān)視的多個目標裝置的每ー個的多個性能尺度的測量值,檢測作為其測量值關(guān)于要被監(jiān)視的多個目標裝置的每ー個異常的性能尺度的異常項,并且輸出從要被監(jiān)視的多個目標裝置的每ー個的異常項排除在全部要被監(jiān)視的多個目標裝置中檢測的異常項剰余的異常項。技術(shù)效果
本發(fā)明具有的優(yōu)點在于在多個服務(wù)器中檢測到異常時,管理員能夠快速地識別在系統(tǒng)中發(fā)生的故障的原因。
圖I是表示根據(jù)本發(fā)明示例性實施方式的監(jiān)視系統(tǒng)的配置的功能方框圖。圖2是表示在所述示例性實施方式中的多層系統(tǒng)的配置示例的圖。圖3是表示在所述示例性實施方式中在多層系統(tǒng)中發(fā)生的故障的擴散狀態(tài)的示例的圖。圖4是表示在所述示例性實施方式中異常項的示例的圖。圖5是表示在所述示例性實施方式中用于管理的異常信息的示例的圖。 圖6是表示在所述示例性實施方式中從異常評分計算單元28輸出的信息的示例的圖。圖7是表示在所述示例性實施方式中在監(jiān)視終端3的管理屏幕31中顯示的監(jiān)視信息的示例的圖。圖8是表示所述示例性實施方式的服務(wù)器操作管理裝置的性能信息收集操作的示例的流程圖。圖9是表示所述示例性實施方式的服務(wù)器操作管理裝置的相關(guān)模型生成操作的示例的流程圖。圖10是表示生成所述示例性實施方式的服務(wù)器操作管理裝置的用于管理的異常信息的操作的示例的流程圖。圖11是表示所述示例性實施方式的服務(wù)器操作管理裝置的異常評分計算操作的示例的流程圖。圖12是表示所述示例性實施方式的特性配置的方框圖。
具體實施例方式以下將以附圖為基礎(chǔ)描述本發(fā)明的一個示例性實施方式。圖I是表示示例性實施方式的監(jiān)視系統(tǒng)的配置的功能方框圖。如圖I所示,該示例性實施方式的監(jiān)視系統(tǒng)包括服務(wù)器操作管理裝置2和監(jiān)視終端3。服務(wù)器操作管理裝置2監(jiān)視要被監(jiān)視的多個服務(wù)器I (要被監(jiān)視的裝置)。監(jiān)視終端3根據(jù)通過管理員的操作輸入的檢查命令向服務(wù)器操作管理裝置2傳輸用于檢查在要被監(jiān)視的每ー個服務(wù)器I中是否發(fā)生異常的請求,并且還在管理屏幕31中顯示從服務(wù)器操作管理裝置2接收的檢查結(jié)果。要被監(jiān)視的服務(wù)器I是作為服務(wù)器操作管理裝置2的監(jiān)視目標并且多層系統(tǒng)由其組成的服務(wù)器。多層系統(tǒng)是其中用于提供服務(wù)的信息處理被分離為多個層并且在每ー層中提供用于負載分配的服務(wù)器組的系統(tǒng)。例如,三層系統(tǒng)由Web服務(wù)器組、應(yīng)用服務(wù)器組和數(shù)據(jù)庫服務(wù)器組構(gòu)成。圖2是表示在示例性實施方式中多層系統(tǒng)的配置的示例的圖。在圖2所示的示例中,三層系統(tǒng)由要被監(jiān)視的服務(wù)器I構(gòu)成。三層系統(tǒng)包括兩個應(yīng)用服務(wù)器和三個Web服務(wù)器作為要被監(jiān)視的服務(wù)器I。AP服務(wù)器組B包括兩個應(yīng)用服務(wù)器,并且Web服務(wù)器組A包括三個Web服務(wù)器。經(jīng)由互聯(lián)網(wǎng)D從客戶端(未示出)或者另一服務(wù)器到Web服務(wù)器組A的訪問是通過負載均衡器C被相等分配在単獨的Web服務(wù)器上的負載。単獨的Web服務(wù)器隨機地向第一或者第二應(yīng)用服務(wù)器傳輸請求。每ー個要被監(jiān)視的服務(wù)器I在每ー個服務(wù)器中規(guī)則地測量多個性能尺度,并且向服務(wù)器操作管理裝置2發(fā)送性能尺度的每ー個的實際測量的數(shù)據(jù)作為性能信息。這里,尺度表明能夠在服務(wù)器或者網(wǎng)絡(luò)設(shè)備中被觀察的性能尺度。例如,CPU(中央處理單元)使用速率、存儲器使用、磁盤使用狀態(tài)、服務(wù)應(yīng)用的操作狀態(tài)、最新更新模塊是否被應(yīng)用于OS(操作系統(tǒng))或者應(yīng)用、密碼錯誤的次數(shù)等用作性能尺度。示例性實施方式的服務(wù)器操作管理裝置2包括性能信息收集單元21、性能信息累積單元22、故障檢測單元26以及擴散確定單元27。性能信息收集單元21在每ー個收集時間從多層系統(tǒng)由其構(gòu)成的要被監(jiān)視的多個服務(wù)器I的每ー個收集關(guān)于多個性能尺度測量的ー組實際測量的數(shù)據(jù)來作為性能信息。性能信息累積單元22在要被監(jiān)視的每ー個服務(wù)器I上累積所收集的性能信息。故障檢測單元26在要被監(jiān)視的每ー個服務(wù)器I上從性能信息累積單元22讀取出性能信息(該性能信息是在由來自監(jiān)視終端3的檢查請求中由·管理員指定的檢查時間處測量的),基干與各自模型數(shù)據(jù)的比較結(jié)果確定每ー個性能尺度的實際測量數(shù)據(jù)是否正常或者異常,并且檢測異常性能尺度作為異常項。擴散確定單元27從由故障檢測單元26檢測的要被監(jiān)視的每ー個服務(wù)器I的異常項中提取、并且排除對于相同層中全部要被監(jiān)視的服務(wù)器I公共的異常項,并且生成表示要被監(jiān)視的每ー個服務(wù)器I的剰余異常項的用于管理的異常信息用于呈現(xiàn)給管理員。在具有這樣配置的示例性實施方式的服務(wù)器操作管理裝置2中,擴散確定單元27通過考慮由來自另ー層中的服務(wù)器的擴散生成異常項排除對于相同層中全部服務(wù)器公共的異常項,并且使用每ー個服務(wù)器的剰余異常項作為用于管理的異常信息。因此,由于排除了層之間異常的擴散而能夠向管理員呈現(xiàn)其中故障發(fā)生源沒有被掩埋的信息。這里,在發(fā)生異常的擴散時,在一個服務(wù)器中發(fā)生的故障使得連接到服務(wù)器的另一層中的大量服務(wù)器出現(xiàn)異常。圖3是表示在示例性實施方式中在多層系統(tǒng)中發(fā)生的故障的擴散狀態(tài)的示例的圖。例如,如圖3所示,當在應(yīng)用服務(wù)器組的一個服務(wù)器中發(fā)生故障時,其一致性地影響Web服務(wù)器組的全部服務(wù)器,并且類似的異常在全部Web服務(wù)器中同時發(fā)生。結(jié)果,在一個應(yīng)用服務(wù)器的故障擴散時,其中檢測到異常的Web服務(wù)器的數(shù)量是應(yīng)用服務(wù)器的數(shù)量的幾倍。示例性實施方式的服務(wù)器操作管理裝置2可以包括異常評分計算單元28。異常評分計算單元28以由擴散確定單元27生成的用于管理的異常信息為基礎(chǔ),對要被監(jiān)視的每一個服務(wù)器I的異常項的數(shù)量進行計數(shù),并且計算異常項的數(shù)量在對于要被監(jiān)視的每ー個服務(wù)器I的性能尺度的數(shù)量中的比例作為異常評分。通過執(zhí)行這樣的處理,計算其中取消了性能尺度的數(shù)量差異的異常評分作為表明要被監(jiān)視的每ー個服務(wù)器I的異常程度的值。因此,能夠與要被監(jiān)視的每ー個服務(wù)器I的性能尺度的數(shù)量差異無關(guān)地確定異常集中于其上的要被監(jiān)視的服務(wù)器I并且能夠獲得原因候選的正確分級。而且,示例性實施方式的服務(wù)器操作管理裝置2包括相關(guān)模型生成単元23和相關(guān)模型存儲單元24。相關(guān)模型生成單元23以在性能信息累積單元22中累積的預定時段內(nèi)的關(guān)于要被監(jiān)視的服務(wù)器I的每ー個的正常性能信息為基礎(chǔ),生成表明兩個性能尺度的實際測量的數(shù)據(jù)之間的相關(guān)性的變換函數(shù),來作為對于要被監(jiān)視的服務(wù)器I的每ー個的兩個性能尺度的每ー個組合的相關(guān)模型。相關(guān)模型存儲單元24存儲每ー個生成的相關(guān)模型。故障檢測單元26以對于在檢查時間處測量的關(guān)于要被監(jiān)視的每ー個服務(wù)器的性能信息中性能尺度的組合的相關(guān)模型為基礎(chǔ),對組合中的ー個的實際測量的數(shù)據(jù)與根據(jù)組合中的另ー個的實際測量的數(shù)據(jù)計算的模型數(shù)據(jù)進行比較。故障檢測單元26確定差異是否滿足預定誤差范圍的條件,并且作為上面提及的異常項檢測差異不滿足條件的性能尺度的組合。通過使用上面提及的方法,能夠檢測其中正常狀態(tài)下的相關(guān)變?yōu)楦亩鄠€性能尺度組合,并且能夠以所檢測的組合中的重疊性能尺度為基礎(chǔ)快速識別故障發(fā)生源。而且,示例性實施方式的服務(wù)器操作管理裝置2包括邏輯結(jié)構(gòu)信息存儲單元25和通信控制單元29。邏輯結(jié)構(gòu)信息存儲單元25提前存儲表示要被監(jiān)視的多個服務(wù)器I的每ー個所屬于的層的多層邏輯結(jié)構(gòu)信息。通信控制單元29控制與監(jiān)視終端3的通信。服務(wù)器操作管理裝置2中的性能信息收集單元21從其收集在其中測量的要被監(jiān)視的每一個服務(wù)器I的性能信息,并且將其順序發(fā)送到性能信息累積單元22。 性能信息累積單元22存儲并且管理關(guān)于要被監(jiān)視的每ー個服務(wù)器I的性能信息作為對于每ー個性能尺度的時間系列數(shù)據(jù),并且還對來自相關(guān)模型生成単元23或者故障檢測單元26的請求做出響應(yīng)而在指定時段內(nèi)輸出關(guān)于要被監(jiān)視的每ー個服務(wù)器I的性能信息。相關(guān)模型生成単元23從性能信息累積單元22獲得在預定時段內(nèi)關(guān)于要被監(jiān)視的每ー個服務(wù)器I的正常性能信息。這里,相關(guān)模型生成単元23獲得關(guān)于要被監(jiān)視的每ー個服務(wù)器I的全部性能尺度的實際測量的數(shù)據(jù)。相關(guān)模型生成単元23以預定的算木算法為基礎(chǔ)計算表明關(guān)于對于要被監(jiān)視的每ー個服務(wù)器I的兩個尺度的全部組合的相關(guān)性。這里,作為預定時段,可以使用例如一周、ー個月等。相關(guān)模型生成単元23可以通過使用在日本專利申請?zhí)亻_No. 2009-199533中描述的技術(shù)生成相關(guān)模型。例如,在關(guān)于要被監(jiān)視的服務(wù)器I的性能信息中X為性能尺度組合中的一個的性能尺度的實際測量的數(shù)據(jù)、并且y為另ー個的性能尺度的實際測量的數(shù)據(jù)時,相關(guān)模型生成単元23計算系數(shù)A和B的值以使得變換函數(shù)“y = Ax+B”滿足算木算法。相關(guān)模型生成単元23可以使用包括系數(shù)A和B的計算值的變換函數(shù)“y = Ax+B”作為與性能尺度的組合相對應(yīng)的相關(guān)ホ吳型。相關(guān)模型存儲單元24接收并且存儲由相關(guān)模型生成単元23生成的相關(guān)模型,并且還對來自故障檢測單元26的請求做出響應(yīng)而輸出相關(guān)模型。邏輯結(jié)構(gòu)信息存儲單元25提前存儲其中要被監(jiān)視的每ー個服務(wù)器I的標識符與要被監(jiān)視的服務(wù)器I所屬于的層的名稱相關(guān)聯(lián)的多層邏輯結(jié)構(gòu)信息。故障檢測單元26從性能信息累積單元22讀取出在由來自監(jiān)視終端3的檢查請求指定的檢查時段內(nèi)要被監(jiān)視的每ー個服務(wù)器I的性能信息,并且還從相關(guān)模型存儲單元24讀取出要被監(jiān)視的每ー個服務(wù)器I的相關(guān)模型。故障檢測單元26根據(jù)在檢查時段中對于每ー個收集時間的在要被監(jiān)視的每ー個服務(wù)器I上的性能信息中的性能尺度的組合計算組合中的ー個的實際測量的數(shù)據(jù)、與通過將另一個組合的實際測量的數(shù)據(jù)代入相關(guān)模型中計算的模型數(shù)據(jù)之間的殘值。在殘值超出預定值時,故障檢測單元26檢測性能尺度的該組合作為異常項。例如,在性能尺度的組合是“系統(tǒng)處理的CPU使用速率”和“存儲器使用”的組合吋,故障檢測單元26將以通過使用“系統(tǒng)處理的CPU使用速率”作為輸入的相關(guān)模型為基礎(chǔ)計算的“存儲器使用”的模型數(shù)據(jù)與“存儲器使用”的實際測量的數(shù)據(jù)進行比較。在殘值沒有在預定的可允許范圍內(nèi)時,故障檢測單元26檢測該組合作為異常項。擴散確定單元27以提前存儲在邏輯結(jié)構(gòu)信息存儲單元25中的邏輯結(jié)構(gòu)信息為基礎(chǔ),識別要被監(jiān)視的每ー個服務(wù)器I所屬于的層(服務(wù)器組),并且從由故障檢測單元26檢測的要被監(jiān)視的每ー個服務(wù)器I的異常項提取對于相同層中全部要被監(jiān)視的服務(wù)器I公共的異常項。擴散確定單元27生成用于管理的異常信息,其中通過從要被監(jiān)視的每ー個服務(wù)器的全部異常項排除所提取的公共異常項而考慮異常的擴散。這里,將以圖4和圖5所示的具體示例為基礎(chǔ)描述擴散確定單元27的功能。圖4是表示示例性實施方式中的異常項的示例的圖。圖4示出了在三個Web服務(wù)器和兩個應(yīng)用服務(wù)器是要被監(jiān)視的服務(wù)器I時由故障檢測單元26檢測的要被監(jiān)視的每ー個服務(wù)器I的異常項。圖5是表示示例性實施方式中用于管理的異常信息的示例的圖。 圖5示出了通過擴散確定單元27從圖4所示的要被監(jiān)視的每ー個服務(wù)器I的異常項提取和排除對于每一層中要被監(jiān)視的服務(wù)器I之間公共的異常項而生成的用于管理的異常信息。在圖4和圖5中,“Web I”、“Web 2”或者“Web 3”代表Web服務(wù)器的標識符(服務(wù)器名稱),并且“API”或者“ AP2”代表應(yīng)用服務(wù)器的標識符(服務(wù)器名稱)。在圖4中,作為每ー個服務(wù)器的異常項,示出了其中檢測到相關(guān)中的異常的性能尺度的組合(一個是性能尺度u并且另ー個是性能尺度y)。其中,“CPU用戶% ”代表用戶處理的CPU使用速率?!癈PU系統(tǒng)% ”代表系統(tǒng)處理的CPU使用速率?!按疟P10/秒”代表磁盤輸入/輸出速率?!八褂玫拇鎯ζ鞔泶鎯ζ魇褂??!八褂玫拇疟P代表磁盤使用?!癈PU等待1/0%”代表CPU輸入/輸出等待時間?!胺纸M接收”和“分組發(fā)送”分別代表接收分組的數(shù)量和發(fā)送分組的數(shù)量。在圖4所示的示例中,在由“Web l”、“Web 2”和“Web 3”構(gòu)成的Web服務(wù)器組中,“CPU用戶% ”和“CPU系統(tǒng)% ”的組合以及“所使用的存儲器% ”和“所使用的磁盤% ”的組合是三個Web服務(wù)器之間公共的異常項。另ー方面,在由“ API”和“AP2”構(gòu)成的應(yīng)用服務(wù)器組中,在兩個應(yīng)用服務(wù)器之間不存在公共的異常項。結(jié)果,通過擴散確定單元27生成圖5中示出的用于管理的異常信息。異常評分計算單元28從擴散確定單元27接收用于管理的異常信息,并且以該用于管理的異常信息為基礎(chǔ)對要被監(jiān)視的每ー個服務(wù)器I的異常項的數(shù)量進行計數(shù)。異常評分計算單元28計算兩個尺度的組合的總數(shù)量中異常項的數(shù)量的比例,作為對于要被監(jiān)視的每ー個服務(wù)器I的異常評分,并且向監(jiān)視終端3發(fā)送表明要被監(jiān)視的每ー個服務(wù)器I的異常評分的信息以及上面提及的用于管理的異常信息。圖6是表示在示例性實施方式中從異常評分計算單元28輸出的信息的示例的圖。如圖6所示,通過異常評分計算單元28輸出的信息是具有四列的表,這四列為服務(wù)器標識符、異常項的數(shù)量、尺度的組合的總數(shù)量(相關(guān)模型的數(shù)量)以及異常評分。在圖6所示的示例中,代表應(yīng)用服務(wù)器之一的服務(wù)器標識符“API”、異常項“7”、相關(guān)模型的數(shù)量“20”以及異常評分“0. 35”被記錄在表的第一記錄中。監(jiān)視終端3根據(jù)管理員的操作向服務(wù)器操作管理裝置2發(fā)送檢查命令。監(jiān)視終端3對檢查命令做出響應(yīng)以要被監(jiān)視的每ー個服務(wù)器I的異常評分,以及從服務(wù)器操作管理裝置2發(fā)送的用于管理的異常信息為基礎(chǔ)在管理屏幕31上顯示監(jiān)視信息。圖7是表示在示例性實施方式中在監(jiān)視終端3的管理屏幕31上顯示的監(jiān)視信息的示例的圖。圖7所示的監(jiān)視信息包括表示要被監(jiān)視的每ー個服務(wù)器I的異常評分、相關(guān)異常圖72以及實際測量的數(shù)據(jù)圖形73的表71。表71具有服務(wù)器標識符和異常評分的列。表71的行可以根據(jù)異常評分進行設(shè)置。表71的行的數(shù)量可以被局限于由管理員確定的數(shù)量。結(jié)果,管理員能夠根據(jù)分析的結(jié)果容易地掌握最可能異常的要被監(jiān)視的服務(wù)器I。在相關(guān)異常圖72的四邊形區(qū)域中示出了每ー層與要被監(jiān)視的每ー個服務(wù)器I之間的關(guān)系。在要被監(jiān)視的每ー個服務(wù)器I的區(qū)域中顯示代表尺度的圓圈,并且在其中檢測到異常的尺度之間繪制直線。實際測量的數(shù)據(jù)圖形73包括表示其中按照時間先后順序檢測到異常的兩個尺度的實際測量數(shù)據(jù)的圖形,以及表示實際測量的數(shù)據(jù)與通過故障檢測單元26計算的相關(guān)模型之間差異的圖形。示例性實施方式的服務(wù)器操作管理裝置2包括邏輯結(jié)構(gòu)信息存儲單元25并且擴散確定單元27,以提前存儲在邏輯結(jié)構(gòu)信息存儲單元25中的邏輯結(jié)構(gòu)信息為基礎(chǔ)識別要被監(jiān)視的每ー個服務(wù)器I所屬于的層(服務(wù)器組)。然而,服務(wù)器操作管理裝置2的配置并不局限于此。可以使用其中服務(wù)器操作管理裝置2不包括邏輯結(jié)構(gòu)信息存儲單元25,并且擴散確定單元27通過使用在上面提及的關(guān)于要被監(jiān)視的每ー個服務(wù)器I的性能信息中包括的服務(wù)器標識符,而區(qū)別要被監(jiān)視的每ー個服務(wù)器I所屬于的層的配置。例如,在包括在性能信息中的服務(wù)器標識符為“Web 2”吋,由于“Web”部分被包括在這些標識符中,因此擴散確定單元27可以區(qū)別其標識符為“Web 2”的Web服務(wù)器所屬于的層與其標識符為“WebI”和“Web 3”的Web服務(wù)器所屬于的層相同。在示例性實施方式的服務(wù)器操作管理裝置2中,擴散確定單元27通過考慮通過來自另ー層的服務(wù)器的異常的擴散生成異常項而排除相同層中對于要被監(jiān)視的服務(wù)器I公 共的異常項,并且剰余的異常項被顯示作為用于管理的異常信息。因此,能夠解決其中故障發(fā)生源通過層之間的異常的擴散變?yōu)檠诼竦膯栴}。此外,對于要被監(jiān)視的每ー個服務(wù)器I計算作為獨立于服務(wù)器之間的尺度數(shù)量差異的表示符的異常評分。因此,管理員能夠容易地識別最可能為故障發(fā)生源的要被監(jiān)視的服務(wù)器I。接下來,將描述在示例性實施方式中服務(wù)器操作管理裝置2的操作。這里,下面描述的關(guān)于操作的描述也包括關(guān)于本發(fā)明的服務(wù)器操作管理方法的不例性實施方式的描述。圖8是表示示例性實施方式的服務(wù)器操作管理裝置2的性能信息收集操作的流程圖。如圖8所示,首先,性能信息收集單元21確定其是否為根據(jù)預定時間間隔(例如一分鐘間隔)提前設(shè)置的收集時間(圖8中的步驟S81),并且在確定其為收集時間時,其訪問要被監(jiān)視的服務(wù)器I并且獲得性能信息(圖8中的步驟S82)。性能信息累積單元22存儲關(guān)于要被監(jiān)視的服務(wù)器I的所獲得的性能信息(圖8中的步驟S83)。接下來,性能信息收集単元21通過參照存儲在邏輯結(jié)構(gòu)信息存儲單元25中的邏輯結(jié)構(gòu)信息確定是否從全部要被監(jiān)視的服務(wù)器I獲得了性能信息(圖8中的步驟S84),并且在從全部要被監(jiān)視的服務(wù)器I獲得了性能信息時,其等待直到下一個收集時間。接下來,圖9是表示示例性實施方式的服務(wù)器操作管理裝置2的相關(guān)模型生成操作的流程圖。首先,相關(guān)模型生成單元23根據(jù)來自監(jiān)視終端3的指令讀取出在性能信息累積單元22中累積的預定時段(例如一周)內(nèi)關(guān)于要被監(jiān)視的每ー個服務(wù)器I的正常性能信息(圖9中的步驟S91)。相關(guān)模型生成単元23生成表明性能尺度的實際測量的數(shù)據(jù)之間的相關(guān)的變換函數(shù),作為對于要被監(jiān)視的每ー個服務(wù)器I的兩個性能尺度的每ー個組合的相關(guān)模型(圖9中的步驟S92)。相關(guān)模型存儲單元24存儲所生成的相關(guān)模型的每ー個(圖9中的步驟S93)。在相關(guān)模型生成単元23生成對于全部要被監(jiān)視的服務(wù)器I的相關(guān)模型時(圖9中步驟S94為是),其完成相關(guān)模型生成操作。接下來,圖10是表示示例性實施方式的服務(wù)器操作管理裝置2的用于管理的異常信息的檢測操作的流程圖。首先,故障檢測單元26從性能信息累積單元22讀取出對于 包括在由監(jiān)視終端3指定的檢查對象時段(例如一周)中的每ー個測量時間關(guān)于要被監(jiān)視的每ー個服務(wù)器I的性能信息(圖10中的步驟S101)。故障檢測單元26確定性能尺度的實際測量的數(shù)據(jù)的每一個組合在預定的誤差范圍內(nèi)是否滿足相對應(yīng)的相關(guān)模型(變換函數(shù)),并且檢測不滿足相對應(yīng)的相關(guān)模型的性能尺度的組合作為異常項(圖10中的步驟S102)。接下來,擴散確定單元27通過參照邏輯結(jié)構(gòu)信息從由故障檢測單元26檢測的要被監(jiān)視的每ー個服務(wù)器I的異常項提取對于相同層中全部要被監(jiān)視的服務(wù)器I公共的異常項(圖10中的步驟S103)。擴散確定單元27生成表明通過從要被監(jiān)視的每ー個服務(wù)器I的異常項排除該提取的公共異常項獲得的剰余異常項的用于管理的異常信息(圖10中的步驟S104)。在對于全部層生成用于管理的異常信息(圖10中的步驟S105為是)時,擴散確定單元27向異常評分計算單元28輸出用于管理的異常信息(圖10中的步驟S106)。通過執(zhí)行這些步驟,通過考慮通過來自另ー層中的服務(wù)器的異常的擴散生成異常項,并且剰余的異常項用作用于管理的異常信息而排除對于相同層中全部要被監(jiān)視的服務(wù)器2公共的異常項。因此,能夠抑制其中異常發(fā)生源通過層之間的異常擴散變?yōu)檠诼竦膯栴}。接下來,圖11是表示示例性實施方式的服務(wù)器操作管理裝置2的異常評分計算操作的流程圖。首先,異常評分計算單元28以從擴散確定單元27輸入的用于的異常信息為基礎(chǔ),對對于要被監(jiān)視的每ー個服務(wù)器I的異常項的數(shù)量進行計數(shù)(圖11中的步驟S111)。異常評分計算單元28通過參照存儲在相關(guān)模型存儲單元24中的相關(guān)模型,對對于要被監(jiān)視的每ー個服務(wù)器I的相關(guān)模型的數(shù)量進行計數(shù)(圖11中的步驟S112)。接下來,異常評分計算單元28計算在對于要被監(jiān)視的每ー個服務(wù)器I的相關(guān)模型的數(shù)量中異常項的數(shù)量的比例作為異常評分(圖11中的步驟SI 13)。在對于全部要被監(jiān)視的服務(wù)器I計算了異常評分(圖11中的步驟S114為是)吋,向監(jiān)視終端3輸出要被監(jiān)視的每ー個服務(wù)器I的異常評分(圖11中的步驟S115)。通過執(zhí)行這些步驟,對于要被監(jiān)視的每ー個服務(wù)器I能夠計算根據(jù)尺度數(shù)量的異常評分,并且因而能夠獨立于尺度的數(shù)量來確定異常所集中在其上的要被監(jiān)視的服務(wù)器1,并且能夠獲得原因候選的正確評級??梢允褂闷渲型ㄟ^執(zhí)行計算機程序?qū)崿F(xiàn)上面提及的服務(wù)器操作管理裝置2中的性能信息收集單元21、相關(guān)模型生成単元23、故障檢測單元26、擴散確定單元27和異常評分計算單元28的功能內(nèi)容的配置。
接下來將描述示例性實施方式的特性配置。圖12是表示示例性實施方式的特性配置的方框圖。操作管理裝置包括故障檢測單元26和擴散確定單元27。這里,故障檢測單元26獲得關(guān)于連接到公共裝置的要被監(jiān)視的多個目標裝置的每ー個的多個性能尺度的測量值,并且檢測作為其測量值關(guān)于要被監(jiān)視的多個目標裝置的每ー個異常的性能尺度的異常項。擴散確定單元27輸出從要被監(jiān)視的多個目標裝置的每ー個的異常項排除在全部要被監(jiān)視的多個目標裝置中檢測的異常項的剩余異常項。如上面提及的,示例性實施方式的服務(wù)器操作管理裝置2通過使用負載分配集群服務(wù)器組的特征確定在每一個服務(wù)器組中發(fā)生的異常之間的相似性、識別在服務(wù)器組之間發(fā)生的異常的擴散并且校正異常信息。因此,管理員能夠容易地區(qū)分異常的原因。在示例性實施方式的服務(wù)器操作管理裝置2檢測到多層系統(tǒng)中要被監(jiān)視的多個 服務(wù)器I的異常時,其通過考慮由來自另ー層中的服務(wù)器的異常的擴散生成異常項,并且使用剰余的異常項作為用于管理的異常信息,而從要被監(jiān)視的每ー個服務(wù)器I的異常項排除對于相同層中全部要被監(jiān)視的服務(wù)器I公共的異常項。因此,通過相對増加作為故障發(fā)生源的要被監(jiān)視的服務(wù)器I的異常項的數(shù)量,能夠抑制其中故障發(fā)生源被掩埋的問題。結(jié)果,管理員能夠根據(jù)分析的結(jié)果容易地掌握要被監(jiān)視的服務(wù)器1,并且能夠正確而快速地闡釋在多層系統(tǒng)中發(fā)生的異常的原因。在日本專利特開No. 2009-199533等中公開的上面提及的相關(guān)技術(shù)中,在多層系統(tǒng)中,在作為故障發(fā)生源的服務(wù)器的尺度數(shù)量小時,發(fā)生其中故障的原因被掩埋的問題。例如,由于所安裝的磁盤數(shù)量的差異以及這些服務(wù)器之間的軟件的監(jiān)視項數(shù)量的差異,應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器之一的尺度數(shù)量為另ー個的尺度數(shù)量的許多倍,以使得在各自層的服務(wù)器組之間存在尺度數(shù)量的相對大的差異。這里,在其中尺度的總數(shù)量相對小的服務(wù)器為故障發(fā)生源時,由于作為故障發(fā)生源的服務(wù)器的異常尺度的數(shù)量上限與另ー個相比較較小,因此即使在全部尺度表明異常時,服務(wù)器的異常尺度的數(shù)量小于故障所擴散到的另一服務(wù)器的異常尺度的數(shù)量。通常,管理員從其中異常尺度的數(shù)量的絕對值大的服務(wù)器開始檢查。因此,作為故障發(fā)生源的服務(wù)器的異常變?yōu)樵谄渌?wù)器組的異常中被掩埋。出于該原因,管理員聚焦于錯誤的服務(wù)器。結(jié)果,管理員錯誤地確定異常的原因。示例性實施方式的服務(wù)器操作管理裝置2對于要被監(jiān)視的每ー個服務(wù)器I計算與尺度的數(shù)量相對應(yīng)的異常評分。因此,能夠執(zhí)行包括其中尺度數(shù)量相對小的要被監(jiān)視的服務(wù)器I的無縫分析、與要被監(jiān)視的服務(wù)器I之間的尺度數(shù)量的差異無關(guān)地識別異常集中于其上的要被監(jiān)視的服務(wù)器I并且獲得原因候選的正確評級。結(jié)果,管理員能夠正確而快速地識別故障位置。盡管參照其示例性實施方式具體示出和描述了本發(fā)明,但是本發(fā)明并不局限于這些實施方式。本領(lǐng)域的普通技術(shù)人員將理解,在不偏離如由權(quán)利要求限定的本發(fā)明的精神和范圍的情況下可以對其在形式和細節(jié)上進行各種改變。例如,在上面提及的示例性實施方式中,在兩個性能尺度的測量值不滿足與這兩個性能尺度相對應(yīng)的相關(guān)模型吋,故障檢測單元26檢測兩個性能尺度的組合作為異常項。然而,故障檢測單元26可以通過執(zhí)行每ー個性能尺度的測量值與預定閾值等之間的比較而確定每ー個性能尺度是否異常并且可以輸出對于其確定為異常的每ー個性能尺度作為異常項。本申請以2010年I月8日遞交的日本專利申請No. 2010-003008為基礎(chǔ)并且要求享有該日本專利申請的優(yōu)先權(quán),這里以引用的方式結(jié)合其全部公開。エ業(yè)實用件本發(fā)明能夠應(yīng)用于用于監(jiān)視多層系統(tǒng)中每ー個服務(wù)器的操作狀態(tài)的技木。附圖標記列表I要被監(jiān)視的服務(wù)器2服務(wù)器操作管理裝置
3監(jiān)視終端21性能信息收集單元22性能信息累積單元23相關(guān)模型生成単元24相關(guān)模型存儲單元25邏輯結(jié)構(gòu)信息存儲單元26故障檢測單元27擴散確定單元28異常評分計算單元29通信控制單元31管理屏幕
權(quán)利要求
1.一種操作管理裝置,包括 故障檢測裝置,用于獲得關(guān)于連接到公共裝置的要被監(jiān)視的多個目標裝置的每一個的多個性能尺度的測量值,并且檢測作為其測量值關(guān)于所述要被監(jiān)視的多個目標裝置的每一個為異常的性能尺度的異常項;以及 擴散確定裝置,用于輸出從所述要被監(jiān)視的所述多個目標裝置的每一個的所述異常項排除在全部所述要被監(jiān)視的所述多個目標裝置中檢測的所述異常項剩余的異常項。
2.根據(jù)權(quán)利要求I的操作管理裝置,進一步包括相關(guān)模型存儲裝置,用于存儲關(guān)于所述要被監(jiān)視的所述多個目標裝置的每一個的所述多個性能尺度中的每兩個不同的性能尺度的變換函數(shù),所述變換函數(shù)表明所述兩個性能尺度之間的相關(guān)性, 其中在通過在與所述兩個性能尺度相對應(yīng)的所述變換函數(shù)中輸入所述多個性能尺度中的所述兩個性能尺度中的一個的測量值而獲得的值與另一個的測量值之間的差值等于或者大于預定值時,所述故障檢測裝置檢測所述兩個性能尺度作為所述異常項。
3.根據(jù)權(quán)利要求2的操作管理裝置,進一步包括異常評分計算裝置,用于輸出通過所述擴散確定裝置輸出的所述異常項的數(shù)量在所述要被監(jiān)視的所述目標裝置的所述變換函數(shù)的數(shù)量中的比例作為關(guān)于所述要被監(jiān)視的多個目標裝置的每一個的異常評分。
4.根據(jù)權(quán)利要求3的操作管理裝置,進一步包括 性能信息累積裝置,用于存儲在所述要被監(jiān)視的多個目標裝置的每一個中測量的按照時間系列的所述多個性能尺度的所述測量值;以及 相關(guān)模型生成裝置,用于以存儲在所述性能信息累積裝置中的所述多個性能尺度在預定時段內(nèi)的所述測量值為基礎(chǔ)生成所述變換函數(shù),并且在所述相關(guān)模型存儲裝置中保存所生成的變換函數(shù)。
5.—種操作管理方法,包括 獲得關(guān)于連接到公共裝置的要被監(jiān)視的多個目標裝置的每一個的多個性能尺度的測量值; 檢測其測量值關(guān)于所述要被監(jiān)視的多個目標裝置的每一個為異常的性能尺度的異常項;以及 輸出從所述要被監(jiān)視的多個目標裝置的每一個的所述異常項排除在全部所述要被監(jiān)視的多個目標裝置中檢測的所述異常項而剩余的異常項。
6.根據(jù)權(quán)利要求5的操作管理方法,進一步包括存儲關(guān)于所述要被監(jiān)視的多個目標裝置的每一個的所述多個性能尺度中的每兩個不同的性能尺度的變換函數(shù),所述變換函數(shù)表明所述兩個性能尺度之間的相關(guān)性, 其中在通過在與所述兩個性能尺度相對應(yīng)的所述變換函數(shù)中輸入所述多個性能尺度中的所述兩個性能尺度中的一個的測量值而獲得的值與另一個的測量值之間的差值等于或者大于預定值時,所述檢測異常項檢測所述兩個性能尺度作為所述異常項。
7.根據(jù)權(quán)利要求6的操作管理方法,進一步包括輸出所述異常項的數(shù)量在所述要被監(jiān)視的所述目標裝置的所述變換函數(shù)的數(shù)量中的比例作為關(guān)于所述要被監(jiān)視的多個目標裝置的每一個的異常評分。
8.根據(jù)權(quán)利要求7的操作管理方法,進一步包括 存儲在所述要被監(jiān)視的多個目標裝置的每一個中測量的按照時間系列的所述多個性能尺度的所述測量值;以及 以所述多個性能尺度在預定時段內(nèi)的所述測量值為基礎(chǔ)生成所述變換函數(shù)。
9.一種在其上記錄使計算機執(zhí)行一種方法的操作管理程序的程序記錄介質(zhì),所述方法包括 獲得關(guān)于連接到公共裝置的要被監(jiān)視的多個目標裝置的每一個的多個性能尺度的測量值; 檢測作為其測量值關(guān)于所述要被監(jiān)視的多個目標裝置的每一個為異常的性能尺度的異常項;以及 輸出從所述要被監(jiān)視的多個目標裝置的每一個的所述異常項排除在全部所述要被監(jiān)視的多個目標裝置中檢測的所述異常項而剩余的異常項。
10.根據(jù)權(quán)利要求9的在其上記錄所述操作管理程序的程序記錄介質(zhì),進一步包括存儲關(guān)于所述要被監(jiān)視的多個目標裝置的每一個的所述多個性能尺度中的每兩個不同的性能尺度的變換函數(shù),所述變換函數(shù)表明所述兩個性能尺度之間的相關(guān)性, 其中在通過在與所述兩個性能尺度相對應(yīng)的所述變換函數(shù)中輸入所述多個性能尺度中的所述兩個性能尺度中的一個的測量值獲得的值與另一個的測量值之間的差值等于或者大于預定值時,所述檢測異常項檢測所述兩個性能尺度作為所述異常項。
11.根據(jù)權(quán)利要求10的在其上記錄所述操作管理程序的程序記錄介質(zhì),進一步包括輸出所述異常項的數(shù)量在所述要被監(jiān)視的所述目標裝置的所述變換函數(shù)的數(shù)量中的比例作為關(guān)于所述要被監(jiān)視的多個目標裝置的每一個的異常評分。
12.根據(jù)權(quán)利要求11的在其上記錄所述操作管理程序的程序記錄介質(zhì),進一步包括 存儲在所述要被監(jiān)視的多個目標裝置的每一個中測量的按照時間系列的所述多個性能尺度的所述測量值;以及 以所述多個性能尺度在預定時段內(nèi)的所述測量值為基礎(chǔ)生成所述變換函數(shù)。
全文摘要
公開了操作管理裝置、操作管理方法以及程序存儲介質(zhì),該操作管理裝置、操作管理方法以及程序存儲介質(zhì)縮短了其中在從多個服務(wù)器中檢測異常時管理員識別故障的原因的時間。該操作管理裝置包括故障檢測單元(26)和擴散確定單元(27)。該故障檢測單元(26)針對連接到公共裝置的正被監(jiān)視的多個裝置的每一個,獲得關(guān)于多個性能指數(shù)的測量值,并且確定正被監(jiān)視的裝置的每一個中具有異常測量值的性能指數(shù)作為異常項。該擴散確定單元(27)從正被監(jiān)視的裝置的每一個的異常項排除在全部正被監(jiān)視的裝置中檢測的異常項,并輸出其他異常項。
文檔編號G06F11/30GK102713861SQ20108006093
公開日2012年10月3日 申請日期2010年12月15日 優(yōu)先權(quán)日2010年1月8日
發(fā)明者長谷川英男 申請人:日本電氣株式會社