本發(fā)明涉及計算機,具體為一種基于計算機硬盤狀態(tài)指標進行故障判斷的方法。
背景技術:
1、硬盤是一種數(shù)據(jù)存儲設備,由一個或多個堅硬的圓形盤片(稱為“磁盤”或“盤片”)組成,這些盤片覆蓋有磁性材料,可以存儲數(shù)據(jù),隨著信息技術的迅猛發(fā)展,計算機硬盤作為數(shù)據(jù)存儲的核心組件,其可靠性和穩(wěn)定性對整個計算機系統(tǒng)的性能至關重要,傳統(tǒng)的硬盤故障檢測方法主要依賴于硬件級別的監(jiān)控和故障代碼的分析,這些方法雖然在一定程度上能夠識別硬盤的物理故障,但在預測硬盤的早期故障和潛在運行問題方面存在明顯的局限性;近年來,隨著機器學習和數(shù)據(jù)分析技術的進步,基于軟件的硬盤故障預測方法逐漸成為研究的熱點,這些方法通過采集硬盤的運行狀態(tài)指標和物理狀態(tài)指標,利用復雜的算法模型進行數(shù)據(jù)分析,以實現(xiàn)對硬盤故障的早期預警和預測;
2、現(xiàn)有技術中的,公開號為cn114758714a,名稱為一種硬盤故障預測方法、裝置、電子設備及存儲介質(zhì),所述方法包括:獲取硬盤當前時刻的工作狀態(tài)數(shù)據(jù);利用故障預測模型對所述工作狀態(tài)數(shù)據(jù)進行處理,獲得所述硬盤在未來預設時長的故障預測結果;其中,所述故障預測模型為基于樣本工作狀態(tài)數(shù)據(jù)采用機器學習模型訓練而成的。
3、公開號為cn111611117b,名稱為一種硬盤故障的預測方法、裝置、設備及計算機可讀存儲介質(zhì),在建立針對多種硬盤型號的硬盤故障預測模型時,先建立各硬盤型號的各項參數(shù)與基準硬盤型號的對應參數(shù)的轉換關系,再根據(jù)該轉換關系將硬盤的參數(shù)檢測值進行轉換,消除了不同硬盤型號之間的差異;利用轉換后的參數(shù)檢測值和硬盤的運行狀態(tài)訓練硬盤故障預測模型,由此建立了適用于多種硬盤型號的硬盤故障預測模型,相較于針對每種型號的硬盤單獨訓練硬盤故障預測模型要省時省力,而利用該硬盤故障預測模型進行硬盤故障預測,由于建立了各硬盤型號的參數(shù)與基準硬盤型號之間的關聯(lián),相較于現(xiàn)有技術中僅通過型號來區(qū)分不同的硬盤故障的預測模型能夠得到更為準確的預測結果。
4、文章編號:1627-0385(2005)02-0035-04《硬盤常見故障診斷、處理步驟與方法的探討》敘述了現(xiàn)有技術中計算機硬盤的故障類型:
5、然而,現(xiàn)有的基于軟件的硬盤故障預測方法在實際應用中仍面臨一些挑戰(zhàn),首先,數(shù)據(jù)采集的全面性和準確性是影響預測結果的關鍵因素,現(xiàn)有的方法往往只關注少數(shù)幾個指標,而忽略了其他可能對硬盤健康狀態(tài)有重要影響的參數(shù);
6、其次,特征降維和選擇的過程缺乏系統(tǒng)性和針對性,導致提取的特征向量不能全面反映硬盤的實際狀態(tài),此外,故障分類模型的選擇和優(yōu)化也是一個難點,不同的模型在不同的數(shù)據(jù)集上表現(xiàn)差異較大,且模型的泛化能力有待提高,當前的故障概率計算模型大多基于靜態(tài)的初始故障概率閾值,往往依賴于經(jīng)驗值,未能根據(jù)硬盤狀態(tài)的實時數(shù)據(jù)進行動態(tài)調(diào)節(jié),導致在高負載或異常情況下,無法及時做出響應,從而增加了數(shù)據(jù)丟失和系統(tǒng)崩潰的風險;
7、在上述背景技術部分公開的上述信息僅用于加強對本公開的背景的理解,因此它可以包括不構成對本領域普通技術人員已知的現(xiàn)有技術的信息。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于計算機硬盤狀態(tài)指標進行故障判斷的方法,以解決上述背景技術中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
3、一種基于計算機硬盤狀態(tài)指標進行故障判斷的方法,具體步驟包括:
4、步驟s1:設定硬盤的采集周期為集合{1,2,…,n},其中i∈{1,2,…,n}表示采集周期內(nèi)第i次數(shù)據(jù)采集的索引,n表示當前第n次數(shù)據(jù)采集的索引,采集硬盤的物理狀態(tài)指標和運行狀態(tài)指標,其中,物理狀態(tài)指標包括磁盤旋轉不穩(wěn)定性數(shù)據(jù)和磁頭加載次數(shù),運行狀態(tài)指標包括數(shù)據(jù)傳輸速率和讀寫錯誤率,并對采集到的數(shù)據(jù)進行歸一化和去噪預處理,得到多維特征數(shù)據(jù);
5、步驟s2:接收n次采集的多維特征數(shù)據(jù),使用自編碼器對多維特征進行降維,提取降維后的關鍵特征向量;
6、步驟s3:接收降維后的關鍵特征向量,利用支持向量機對關鍵特征向量進行故障概率計算,實現(xiàn)硬盤故障的二分類;
7、設定硬盤故障的初始故障概率閾值,并根據(jù)初始故障概率閾值,設置硬盤的故障預警觸發(fā)條件;
8、步驟s4:獲取磁盤旋轉不穩(wěn)定性數(shù)據(jù)、數(shù)據(jù)傳輸速率和讀寫錯誤率,并對磁盤旋轉不穩(wěn)定性數(shù)據(jù)與數(shù)據(jù)傳輸速率進行關聯(lián)分析,得到第一關聯(lián)評價系數(shù),第一關聯(lián)評價系數(shù)用于評價磁盤旋轉不穩(wěn)定性數(shù)據(jù)與數(shù)據(jù)傳輸速率之間的關聯(lián)影響程度;
9、對磁盤旋轉不穩(wěn)定性數(shù)據(jù)與讀寫錯誤率進行關聯(lián)分析,得到第二關聯(lián)評價系數(shù),第二關聯(lián)評價系數(shù)用于評價磁盤旋轉不穩(wěn)定性數(shù)據(jù)與讀寫錯誤率之間的關聯(lián)影響程度;
10、步驟s5:計算物理狀態(tài)指標在當前采集周期的變化趨勢數(shù)據(jù),并針對該變化趨勢數(shù)據(jù)進行分析處理,生成第一趨勢評價系數(shù),第一趨勢評價系數(shù)用于評價物理狀態(tài)指標在當前采集周期內(nèi)的變化趨勢;
11、計算運行狀態(tài)指標在當前采集周期的變化趨勢數(shù)據(jù),并針對該變化趨勢數(shù)據(jù)進行分析處理,生成第二趨勢評價系數(shù),第二趨勢評價系數(shù)用于評價運行狀態(tài)指標在當前采集周期內(nèi)的變化趨勢;
12、步驟s6:結合第一關聯(lián)評價系數(shù)、第二關聯(lián)評價系數(shù)、第一趨勢評價系數(shù)和第二趨勢評價系數(shù),構建閾值微調(diào)模型,閾值微調(diào)模型用于對初始故障概率閾值提供微調(diào)策略;
13、步驟s7:獲取經(jīng)過微調(diào)策略調(diào)整后的故障概率閾值,并根據(jù)調(diào)整后的故障概率閾值,對故障預警觸發(fā)條件進行調(diào)整,進一步計算硬盤在當前第n次數(shù)據(jù)采集的故障概率,若該故障概率超過調(diào)整后的故障概率閾值時,則觸發(fā)故障預警。
14、進一步的,多維特征數(shù)據(jù)的獲取,包括:
15、磁盤旋轉不穩(wěn)定性數(shù)據(jù)包括磁盤旋轉速度波動率和磁盤振動幅度,并對磁盤旋轉速度波動率和磁盤振動幅度分別標記為cvb、czf;
16、結合磁盤旋轉速度波動率和磁盤振動幅度,并進行分析處理,構建第i次數(shù)據(jù)采集的磁盤旋轉不穩(wěn)定性值ri,計算公式如下:
17、
18、參數(shù)解釋,ri是第i次數(shù)據(jù)采集的磁盤旋轉不穩(wěn)定性值,cvbi是第i次數(shù)據(jù)采集的磁盤旋轉速度波動率,czfi是第i次數(shù)據(jù)采集的磁盤振動幅度,a1、a2、a3是權重系數(shù),用于調(diào)節(jié)旋轉速度波動率和振動幅度對磁盤旋轉不穩(wěn)定性的影響;
19、在設定的采集周期內(nèi)定時獲取物理狀態(tài)指標和運行狀態(tài)指標數(shù)據(jù),并將采集的數(shù)據(jù)記錄到數(shù)據(jù)庫中,形成數(shù)據(jù)集d={(ri,li,ti,ei)|i∈{1,2,...,n}};
20、其中,ri,li,ti,ei分別表示第i次數(shù)據(jù)采集的磁盤旋轉不穩(wěn)定性值、磁頭加載次數(shù)、數(shù)據(jù)傳輸速率和讀寫錯誤率;
21、對于歸一化處理,采用min-max歸一化方法,將每個指標值x歸一化為x';
22、歸一化后的數(shù)據(jù)范圍是(0,1),其中,
23、對于去噪處理,使用移動平均法去除數(shù)據(jù)中的隨機噪聲,以對每個指標的歸一化數(shù)據(jù)進行平滑處理:
24、得到多維特征數(shù)據(jù):經(jīng)過歸一化和去噪處理后,最終獲得的多維特征數(shù)據(jù)集表示為f={(r′i,l′i,t′i,e′i)|i∈{k-1,k,…,n}},其中r′i,l′i,t′i,e′i分別為數(shù)據(jù)預處理后的物理狀態(tài)指標和運行狀態(tài)指標,k-1表示經(jīng)過去噪處理后的采集次數(shù)起始點。
25、進一步的,接收n次采集的多維特征數(shù)據(jù),使用自編碼器對多維特征進行降維,提取降維后的關鍵特征向量,包括:
26、選擇自編碼器作為降維工具;自編碼器由編碼器和解碼器兩部分組成,其中編碼器將高維輸入數(shù)據(jù)fi壓縮為低維特征向量zi,解碼器再將zi恢復到高維空間;
27、對于每一個數(shù)據(jù)采集點i,輸入的多維特征數(shù)據(jù)fi表示為:
28、fi={r′i,l′i,t′i,e′i}
29、編碼器網(wǎng)絡的輸出為低維特征向量zi:
30、zi=fθ(fi)=σ1(w1fi+b1)
31、其中,w1是編碼器的權重矩陣,b1是偏置向量,σ1是激活函數(shù),θ表示編碼器的所有參數(shù)集合;
32、通過最小化重構誤差來訓練自編碼器,使得解碼器輸出的重構數(shù)據(jù)趨近原始輸入數(shù)據(jù)fi;
33、在自編碼器訓練完成后,直接使用編碼器部分輸出的低維特征向量zi作為降維后的關鍵特征向量;
34、降維后的特征向量表示為:
35、zi={zi1,zi2,...,zim}
36、其中,m是降維后特征向量的維度。
37、進一步的,利用支持向量機對關鍵特征向量進行故障概率計算,若當前故障概率超過該閾值時,觸發(fā)故障預警,具體包括:
38、對當前的關鍵特征向量zi進行故障二分類:
39、利用關鍵特征向量zi構建svm分類器;將關鍵特征向量劃分為兩類,分別對應硬盤的正常狀態(tài)和故障狀態(tài),獲取已知的訓練數(shù)據(jù)集{(zi,yi)},其中yi為二分類標簽,二分類標簽為:正常狀態(tài)為1,故障狀態(tài)為-1;
40、訓練完成后,定義svm的決策函數(shù)表示為:
41、f(zi)=sign(w·zi+b2)
42、其中,sign(·)是符號函數(shù),當輸入大于0時輸出+1,表示“正?!?;當輸入小于或等于0時輸出-1,表示“故障”;
43、設定初始故障概率閾值為pfault,使用以下邏輯回歸模型進行概率估計:
44、
45、其中,c1是用于調(diào)整概率曲線的參數(shù),該參數(shù)通過模型的交叉驗證得到;pfault取值范圍為(0,1);
46、設定并計算硬盤在當前第n次數(shù)據(jù)采集的故障概率為pth,n,當pth,n≥pfault時,判斷硬盤處于故障狀態(tài),否則判斷為正常狀態(tài)。
47、進一步的,第一關聯(lián)評價系數(shù)以及第二關聯(lián)評價系數(shù)構建內(nèi)容如下:
48、計算磁盤旋轉不穩(wěn)定性數(shù)據(jù)與數(shù)據(jù)傳輸速率之間的皮爾遜相關系數(shù),計算公式為:
49、
50、其中,ρrt為磁盤旋轉不穩(wěn)定性和數(shù)據(jù)傳輸速率之間的皮爾遜相關系數(shù);
51、和分別為r′i和t′i在集合{1,2,…,n}內(nèi)的均值;
52、定義第一關聯(lián)評價系數(shù)為crt,公式如下:
53、crt=|ρrt|·d1
54、其中,|ρrt|為計算出的皮爾遜相關系數(shù)的絕對值,表示相關性的強度;
55、d1為調(diào)節(jié)因子,用于調(diào)整不同硬盤類型或工作負載下的關聯(lián)程度;
56、皮爾遜相關系數(shù)ρrt的絕對值范圍在0到1之間,因此crt取值范圍同樣在0到1之間:
57、當crt越趨近1時,表明磁盤旋轉不穩(wěn)定性和數(shù)據(jù)傳輸速率之間的關聯(lián)性越強,這表示磁盤的旋轉不穩(wěn)定性對數(shù)據(jù)傳輸速率影響越大,是導致數(shù)據(jù)傳輸效率下降的關鍵因素;
58、當crt越趨近0時,表明兩者之間的關聯(lián)性越弱,磁盤旋轉不穩(wěn)定性對數(shù)據(jù)傳輸速率的影響越小,故障的概率越??;
59、設定crt的評價閾值為cth;0.35≤cth≤0.75,crt與cth之間的大小判斷,用于區(qū)分正常狀態(tài)和故障狀態(tài);
60、計算磁盤旋轉不穩(wěn)定性數(shù)據(jù)與讀寫錯誤率之間的皮爾遜相關系數(shù),計算公式為:
61、
62、其中,ρre為磁盤旋轉不穩(wěn)定性和讀寫錯誤率之間的皮爾遜相關系數(shù);
63、和分別為r′i和e′i在集合{1,2,…,n}內(nèi)的均值;
64、定義第二關聯(lián)評價系數(shù)為cre,第二關聯(lián)評價系數(shù)cre的計算方式與第一關聯(lián)評價系數(shù)相同,具體公式如下:
65、cre=|ρre|·d2
66、其中,|ρre|為計算出的皮爾遜相關系數(shù)的絕對值,表示相關性的強度;
67、d2為調(diào)節(jié)因子,用于調(diào)整不同硬盤類型或工作負載下的關聯(lián)程度;
68、cre取值范圍同樣在0到1之間;
69、當cre越趨近1時,表明磁盤旋轉不穩(wěn)定性和讀寫錯誤率之間的關聯(lián)性越強,這表示磁盤的旋轉不穩(wěn)定性對讀寫錯誤率影響越大,是導致讀寫錯誤率上升的關鍵因素;
70、當cre越趨近0時,表明兩者之間的關聯(lián)性越弱,磁盤旋轉不穩(wěn)定性對讀寫錯誤率的影響越小,故障的概率越??;
71、設定cre的評價閾值為ceh;0.35≤ceh≤0.75,cre與ceh之間的大小判斷,用于區(qū)分正常狀態(tài)和故障狀態(tài)。
72、進一步的,第一趨勢評價系數(shù)以及第二趨勢評價系數(shù)構建內(nèi)容如下:
73、計算磁盤旋轉不穩(wěn)定性數(shù)據(jù)的平均變化趨勢:
74、
75、其中,tr表示磁盤旋轉不穩(wěn)定性的平均變化趨勢;δri,i+1表示磁盤旋轉不穩(wěn)定性在第i次和第i+1次數(shù)據(jù)采集之間的變化量;
76、計算磁頭加載次數(shù)的平均變化趨勢:
77、
78、其中,tl表示磁頭加載次數(shù)的平均變化趨勢;δli,i+1表示磁頭加載次數(shù)在第i次和第i+1次數(shù)據(jù)采集之間的變化量;
79、計算以下第一趨勢評價系數(shù):
80、
81、其中,ct為第一趨勢評價系數(shù),0<ct<1,e1、e2分別為對應參數(shù)的權重系數(shù);
82、當ct越趨近于1時,e1·tr+e2·tl輸出值越小,導致物理狀態(tài)指標在當前采集周期內(nèi)的變化趨勢越小;
83、當ct越趨近于0時,e1·tr+e2·tl輸出值越大,導致物理狀態(tài)指標在當前采集周期內(nèi)的變化趨勢越大;
84、計算數(shù)據(jù)傳輸速率的平均變化趨勢:
85、
86、其中,ts表示數(shù)據(jù)傳輸速率的平均變化趨勢;δti,i+1表示數(shù)據(jù)傳輸速率在第i次和第i+1次數(shù)據(jù)采集之間的變化量;
87、計算讀寫錯誤率的平均變化趨勢:
88、
89、其中,tc表示讀寫錯誤率的平均變化趨勢;δei,i+1表示讀寫錯誤率在第i次和第i+1次數(shù)據(jù)采集之間的變化量;
90、計算以下第二趨勢評價系數(shù):
91、
92、其中,cu為第二趨勢評價系數(shù),0<cu<1,e2、e3分別為對應參數(shù)的權重系數(shù);
93、當cu越趨近于1時,輸出值越小,導致運行狀態(tài)指標在當前采集周期內(nèi)的變化趨勢越小;
94、當cu越趨近于0時,輸出值越大,導致運行狀態(tài)指標在當前采集周期內(nèi)的變化趨勢越大。
95、進一步的,構建閾值微調(diào)模型,閾值微調(diào)模型用于對初始故障概率閾值提供微調(diào)策略,具體包括:
96、定義閾值微調(diào)模型的計算公式如下:
97、
98、其中,wt1為結合第一關聯(lián)評價系數(shù)和第二關聯(lián)評價系數(shù)的第一綜合指數(shù),整體反映計算機硬盤狀態(tài)的關聯(lián)程度;wt2為結合第一趨勢評價系數(shù)和第二趨勢評價系數(shù)的第二綜合指數(shù),整體反映計算機硬盤狀態(tài)的趨勢程度,pfault為初始故障概率閾值,p1′為降低pfault取值后的故障概率閾值標記;p′2為提高pfault取值后的故障概率閾值標記;
99、r1、r2、r3、r4分別為對應參數(shù)的回歸系數(shù),μrt、分別表示第一關聯(lián)評價系數(shù)crt的均值與標準差,用于歸一化處理;μre、分別表示第二關聯(lián)評價系數(shù)cre的均值與標準差,用于歸一化處理;η1、η2、η3、η4均為正常數(shù)項;
100、分別設定第一綜合指數(shù)與第二綜合指數(shù)的劃分閾值依次為q1和q2;
101、當wt1≥q1時,代表磁盤的旋轉不穩(wěn)定性與數(shù)據(jù)傳輸速率之間的關聯(lián)性顯著;這表示硬盤的狀態(tài)不佳,存在較高的故障風險,數(shù)據(jù)傳輸效率受到嚴重影響;
102、當wt1<q1時,代表磁盤的旋轉不穩(wěn)定性與數(shù)據(jù)傳輸速率之間的關聯(lián)性較弱,系統(tǒng)表現(xiàn)正常,故障風險較低;
103、當wt2≥q2時,代表物理狀態(tài)指標的變化趨勢明顯,表明硬盤的運行狀態(tài)在當前采集周期內(nèi)發(fā)生了較大的波動,這是由于外部環(huán)境變化或硬盤內(nèi)部故障引起的;
104、當wt2<q2時,代表物理狀態(tài)指標的變化趨勢較小,表示硬盤在當前采集周期內(nèi)的運行狀態(tài)相對穩(wěn)定,故障風險較低,操作能夠正常進行。
105、進一步的,微調(diào)策略如下:
106、當wt1≥q1且wt2≥q2時,使用p′2的微調(diào)策略;此時,磁盤旋轉不穩(wěn)定性對數(shù)據(jù)傳輸速率和讀寫錯誤率的影響均超過75%,且物理狀態(tài)和運行狀態(tài)的波動性也超過75%;這種情況下,表明系統(tǒng)的故障風險極高,需增加初始故障概率閾值,限定p′2提高量為pfault的10%至20%以內(nèi),確保在高風險情況下提前預警;
107、當wt1≥q1且wt2<q2時,使用p′2的微調(diào)策略;此時,磁盤旋轉不穩(wěn)定性對數(shù)據(jù)傳輸速率和讀寫錯誤率的影響超過75%,但物理狀態(tài)和運行狀態(tài)的波動性小于25%;盡管運行狀態(tài)較穩(wěn)定,因數(shù)據(jù)傳輸和讀寫錯誤率相關性強,需提高初始故障概率閾值;限定p′2提高量為pfault的10%以內(nèi),增加系統(tǒng)對關鍵性指標的敏感度;
108、當wt1<q1且wt2≥q2時,使用p′2的微調(diào)策略;此時,磁盤旋轉不穩(wěn)定性對數(shù)據(jù)傳輸速率和讀寫錯誤率的影響小于25%,但物理狀態(tài)和運行狀態(tài)的波動性超過75%;此情形下,雖然數(shù)據(jù)傳輸速率顯示故障風險低,但由于物理和運行狀態(tài)波動較大,需提高初始故障概率閾值,提高15%以內(nèi)的初始故障概率閾值后,系統(tǒng)更好地應對運行狀態(tài)波動導致的潛在故障風險;
109、當wt1<q1且wt2<q2時,使用p1′的微調(diào)策略;此時,磁盤旋轉不穩(wěn)定性對數(shù)據(jù)傳輸速率和讀寫錯誤率的影響小于25%,且物理狀態(tài)和運行狀態(tài)的波動性也小于25%;在此情況下,整體故障風險較低,能夠降低初始故障概率閾值,系統(tǒng)避免了過度敏感性,減少了誤報警的概率;
110、根據(jù)硬盤在當前第n次數(shù)據(jù)采集的故障概率pth,n,當pth,n符合中任意一個時,判斷硬盤處于故障狀態(tài),否則判斷為正常狀態(tài)。
111、與現(xiàn)有技術相比,本發(fā)明的有益效果是:通過設定了一個周期性的數(shù)據(jù)采集機制,獲取包括磁盤旋轉不穩(wěn)定性、數(shù)據(jù)傳輸速率以及讀寫錯誤率等多維特征數(shù)據(jù),并對這些數(shù)據(jù)進行歸一化和去噪處理;隨后,利用自編碼器實現(xiàn)數(shù)據(jù)降維,提取關鍵特征向量,進而通過支持向量機(svm)進行故障概率計算;在此基礎上,構建了閾值微調(diào)模型,能夠根據(jù)實時采集的物理狀態(tài)和運行狀態(tài)的關聯(lián)性,以及其變化趨勢,動態(tài)調(diào)整故障概率閾值;不僅提高了故障判斷的準確性和及時性,還通過動態(tài)調(diào)整機制降低了誤報警的幾率,確保了數(shù)據(jù)存儲的安全性和系統(tǒng)的正常運行。