本技術涉及計算機領域,尤其涉及一種識別故障存儲設備的方法以及相關設備。
背景技術:
1、如今,大規(guī)模數(shù)據(jù)中心內存故障頻發(fā),導致服務器甚至整個it基礎設施穩(wěn)定性、可靠性的下降,對業(yè)務服務級別協(xié)議(service?level?agreement,sla)帶來負面影響。內存故障是導致服務器崩潰的主要原因,能否及時識別內存故障已經(jīng)成為云計算時代工業(yè)界需要研究和解決的重要問題之一。
2、現(xiàn)有技術通過周期性地獲取數(shù)據(jù)中心的所有內存的日志數(shù)據(jù),并基于這些日志數(shù)據(jù)識別出內存故障。然而對于大規(guī)模數(shù)據(jù)中心而言,內存的數(shù)量動輒數(shù)十萬,導致每輪數(shù)據(jù)獲取均需耗費大量的時間,而從內存故障出現(xiàn)到導致服務器崩潰往往只需較短的時間,因此可能無法在服務器崩潰前識別出內存故障。
技術實現(xiàn)思路
1、本技術提供了一種識別故障存儲設備的方法以及相關設備,用于有效避免無法及時識別出故障存儲設備的情況。
2、本技術第一方面提供了一種識別故障存儲設備的方法:
3、在數(shù)據(jù)中心中包括多個服務器,其中每個服務器包括一個或多個存儲設備,此外數(shù)據(jù)中心還設置了故障識別裝置,該方法應用于故障識別裝置。方法的流程包括:執(zhí)行第一采集任務,第一采集任務為對全量存儲設備的日志數(shù)據(jù)進行采集,全量存儲設備包括多個服務器中的每臺服務器中的一個或多個存儲設備。根據(jù)第一采集任務所采集到的日志數(shù)據(jù)確定全量存儲設備中的每個存儲設備的健康程度。根據(jù)每個存儲設備的健康程度從全量存儲設備中確定第一類型存儲設備,第一類型存儲設備的健康程度低于第一健康值。執(zhí)行第二采集任務,第二采集任務為對第一類型存儲設備進行日志數(shù)據(jù)的采集。根據(jù)第二采集任務所采集到的日志數(shù)據(jù),確定第一類型存儲設備中存在故障的存儲設備。
4、本技術中,第一類型存儲設備可以理解為故障風險較大的存儲設備,并且其數(shù)量所占的比重較小,基于全量存儲設備的健康程度篩選出這部分存儲設備,從而有針對性地對這部分存儲設備進行日志數(shù)據(jù)的采集,可以大大縮短數(shù)據(jù)采集所需要的時間,避免無法及時識別出故障存儲設備的情況。
5、在一種可能的實現(xiàn)方式中,根據(jù)每個存儲設備的健康程度從全量存儲設備中確定第二類型存儲設備,第二類型存儲設備的健康程度小于第二健康值,第二健康值小于第一健康值,第一類型存儲設備為健康程度處于第二健康值和第一健康值之間的存儲設備。針對第二類型存儲設備進行告警。
6、本技術中,第二類型存儲設備可以理解為故障風險非常高的存儲設備,因此在篩選出這部分存儲設備之后,可以直接進行告警,提高告警的效率。
7、在一種可能的實現(xiàn)方式中,將第一采集任務所采集到的日志數(shù)據(jù)輸入到健康程度算法模型中,以得到每個存儲設備對應的置信度,置信度用于指示存儲設備的健康程度。
8、在一種可能的實現(xiàn)方式中,第一采集任務占用第一數(shù)據(jù)采集鏈路,第二采集任務占用第二數(shù)據(jù)采集鏈路,在第一數(shù)據(jù)采集鏈路采集數(shù)據(jù)時會對數(shù)據(jù)進行抑制。方法還包括:在第二數(shù)據(jù)采集鏈路執(zhí)行第三采集任務,第三采集任務為對全量存儲設備的日志數(shù)據(jù)進行采集。執(zhí)行第一巡檢任務,第一巡檢任務為對第三采集任務采集到的日志數(shù)據(jù)進行巡檢,以確定全量存儲設備中存在故障的存儲設備。當?shù)谝活愋痛鎯υO備確定時,觸發(fā)暫停第三采集任務的操作并執(zhí)行第二采集任務。當?shù)诙杉蝿胀瓿蓵r,繼續(xù)執(zhí)行第三采集任務。
9、本技術中,還會對全量存儲設備的日志數(shù)據(jù)進行巡檢,并且第三采集任務與第二采集任務占用同一條數(shù)據(jù)采集鏈路,因此減少了所需的資源,提高了故障存儲設備識別的全面性。由于在第一數(shù)據(jù)采集鏈路采集數(shù)據(jù)時會對數(shù)據(jù)進行抑制,因此第一采集任務的耗時能夠大幅降低,從而更快的確定出第一類型存儲設備,觸發(fā)執(zhí)行第二采集任務,確保能夠及時識別出故障存儲設備。
10、在一種可能的實現(xiàn)方式中,當?shù)诙杉蝿胀瓿蓵r,觸發(fā)暫停第一巡檢任務的操作并執(zhí)行第二巡檢任務,第二巡檢任務為對第二采集任務所采集到的日志數(shù)據(jù)進行巡檢,以確定第一類型存儲設備中存在故障的存儲設備。當?shù)诙矙z任務完成時,繼續(xù)執(zhí)行第一巡檢任務。
11、本技術中,第二巡檢任務優(yōu)先于第一巡檢任務,進一步提高故障存儲設備識別的效率。
12、在一種可能的實現(xiàn)方式中,根據(jù)每個存儲設備的健康程度從全量存儲設備中確定第三類型存儲設備,第三類型存儲設備的健康程度低于第三健康值,第三健康值大于第一健康值。在第一采集任務所采集到的日志數(shù)據(jù)中選取第三類型存儲設備的日志數(shù)據(jù)。將第三類型存儲設備的日志數(shù)據(jù)輸入到故障分類預測算法模型中,以確定第三類型存儲設備中存在故障的存儲設備。
13、本技術中,健康程度大于或等于第三健康值的存儲設備可以理解為基本不存在故障風險的存儲設備,對應的,第三類型存儲設備可以理解為存在故障風險的存儲設備,在第一采集任務所采集到的日志數(shù)據(jù)中篩選出這部分存儲設備的日志數(shù)據(jù)進行故障預測,既提高了故障存儲設備識別的全面性,也避免了不必要的開銷。
14、在一種可能的實現(xiàn)方式中,存儲設備為存儲介質。
15、本技術第二方面提供了一種故障識別裝置,應用于數(shù)據(jù)中心,在數(shù)據(jù)中心中包括多個服務器,其中每個服務器包括一個或多個存儲設備。故障識別裝置包括采集模塊以及確定模塊。
16、采集模塊,用于執(zhí)行第一采集任務,第一采集任務為對全量存儲設備的日志數(shù)據(jù)進行采集,全量存儲設備包括多個服務器中的每臺服務器中的一個或多個存儲設備。
17、確定模塊,用于根據(jù)第一采集任務所采集到的日志數(shù)據(jù)確定全量存儲設備中的每個存儲設備的健康程度。
18、確定模塊,還用于根據(jù)每個存儲設備的健康程度從全量存儲設備中確定第一類型存儲設備,第一類型存儲設備的健康程度低于第一健康值。
19、采集模塊,還用于執(zhí)行第二采集任務,第二采集任務為對第一類型存儲設備進行日志數(shù)據(jù)的采集。
20、確定模塊,還用于根據(jù)第二采集任務所采集到的日志數(shù)據(jù),確定第一類型存儲設備中存在故障的存儲設備。
21、在一種可能的實現(xiàn)方式中,故障識別裝置還包括告警模塊。
22、確定模塊,還用于根據(jù)每個存儲設備的健康程度從全量存儲設備中確定第二類型存儲設備,第二類型存儲設備的健康程度小于第二健康值,第二健康值小于第一健康值,第一類型存儲設備為健康程度處于第二健康值和第一健康值之間的存儲設備。
23、告警模塊,用于針對第二類型存儲設備進行告警。
24、在一種可能的實現(xiàn)方式中,
25、確定模塊,具體用于將第一采集任務所采集到的日志數(shù)據(jù)輸入到健康程度算法模型中,以得到每個存儲設備對應的置信度,置信度用于指示存儲設備的健康程度。
26、在一種可能的實現(xiàn)方式中,第一采集任務占用第一數(shù)據(jù)采集鏈路,第二采集任務占用第二數(shù)據(jù)采集鏈路,在第一數(shù)據(jù)采集鏈路采集數(shù)據(jù)時會對數(shù)據(jù)進行抑制。
27、采集模塊,還用于在第二數(shù)據(jù)采集鏈路執(zhí)行第三采集任務,第三采集任務為對全量存儲設備的日志數(shù)據(jù)進行采集。
28、確定模塊,還用于執(zhí)行第一巡檢任務,第一巡檢任務為對第三采集任務采集到的日志數(shù)據(jù)進行巡檢,以確定全量存儲設備中存在故障的存儲設備。
29、采集模塊,具體用于當?shù)谝活愋痛鎯υO備確定時,觸發(fā)暫停第三采集任務的操作并執(zhí)行第二采集任務。
30、采集模塊,還用于當?shù)诙杉蝿胀瓿蓵r,繼續(xù)執(zhí)行第三采集任務。
31、在一種可能的實現(xiàn)方式中,
32、確定模塊,具體用于當?shù)诙杉蝿胀瓿蓵r,觸發(fā)暫停第一巡檢任務的操作并執(zhí)行第二巡檢任務,第二巡檢任務為對第二采集任務所采集到的日志數(shù)據(jù)進行巡檢,以確定第一類型存儲設備中存在故障的存儲設備。
33、確定模塊,還用于當?shù)诙矙z任務完成時,繼續(xù)執(zhí)行第一巡檢任務。
34、在一種可能的實現(xiàn)方式中,
35、確定模塊,還用于根據(jù)每個存儲設備的健康程度從全量存儲設備中確定第三類型存儲設備,第三類型存儲設備的健康程度低于第三健康值,第三健康值大于第一健康值。
36、采集模塊,還用于在第一采集任務所采集到的日志數(shù)據(jù)中選取第三類型存儲設備的日志數(shù)據(jù)。
37、確定模塊,還用于將第三類型存儲設備的日志數(shù)據(jù)輸入到故障分類預測算法模型中,以確定第三類型存儲設備中存在故障的存儲設備。
38、在一種可能的實現(xiàn)方式中,存儲設備為存儲介質。
39、本技術第三方面提供了一種計算設備集群,包括至少一個計算設備,每個計算設備包括處理器和存儲器;至少一個計算設備的處理器用于執(zhí)行至少一個計算設備的存儲器中存儲的指令,以使得計算設備集群執(zhí)行前述第一方面的方法。
40、本技術第四方面提供了一種計算機可讀存儲介質,包括計算機程序指令,當計算機程序指令由計算設備集群執(zhí)行時,計算設備集群執(zhí)行前述第一方面的方法。
41、本技術第五方面提供了一種計算機程序產品,當指令被計算設備集群運行時,使得計算設備集群執(zhí)行前述第一方面的方法。