基于smart數(shù)據(jù)動態(tài)診斷硬盤故障的方法和裝置的制造方法
【技術(shù)領域】
[0001] 本發(fā)明屬于數(shù)據(jù)存儲安全診斷領域,涉及一種基于SMART數(shù)據(jù)動態(tài)診斷硬盤故障 的方法和裝置。
【背景技術(shù)】
[0002] S. M. A. R. T.:全稱為"Self-Monitoring Analysis and Reporting Technology", 即"自我監(jiān)測、分析及報告技術(shù)",是現(xiàn)在硬盤普遍采用的數(shù)據(jù)安全技術(shù),在硬盤工作的時候 監(jiān)測系統(tǒng)對電機、電路、磁盤、磁頭的狀態(tài)進行運行狀況監(jiān)測,當有異常發(fā)生的時候就會發(fā) 出警告。
[0003] 云存儲(Cloud Storage):是在云計算(Cloud Computing)概念上延伸和發(fā)展出 來的一個新的概念,是一種新興的網(wǎng)絡存儲技術(shù),是指通過集群應用、網(wǎng)絡技術(shù)或分布式文 件系統(tǒng)等功能,將網(wǎng)絡中大量不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同 對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。
[0004] 歸一化:也叫數(shù)據(jù)標準化,是一種簡化計算的方式,即將有量綱的表達式,經(jīng)過變 換,化為無量綱的表達式,成為標量,是進行數(shù)據(jù)挖掘的一項基礎工作。
[0005] 機器學習 (Machine Learning):這里所說的"機器",指的就是計算機,電子計算 機,中子計算機、光子計算機或神經(jīng)計算機等等。機器學習是一門人工智能的科學,是用數(shù) 據(jù)或以往的經(jīng)驗,使用"對比-調(diào)整-對比",優(yōu)化改進程序算法的性能。機器學習已廣泛的 應用在數(shù)據(jù)挖掘、自然語言處理、搜索引擎、醫(yī)學診斷、語音和手寫識別等領域。
[0006] 為實現(xiàn)相對安全的數(shù)據(jù)保護,上個世紀九十年代,S. M. A. R. T.技術(shù)應運而生。自 從1996年6月成為行業(yè)標準后,時至今日,S. M. A. R. T.技術(shù)依然在為我們進行硬盤故障預 測提供支持,眾多硬盤故障檢測分析預警的工具裝置都依賴于此。但這些檢測分析預警的 工具裝置存在如下問題:
[0007] 1、僅簡單地從硬盤系統(tǒng)保留區(qū)讀取出S. M. A. R. T.信息,以列表形式展現(xiàn),眾多非 專業(yè)用戶看不懂;
[0008] 2、僅有S. M. A. R. T.信息各項當前數(shù)值,無法將信息項數(shù)值收集整理成為歷史曲 線,從而進行更為精確地診斷;
[0009] 3、無法解決SSD固態(tài)硬盤上,不同硬盤廠商的不同主控、不同型號產(chǎn)品的 S. M. A. R. T.項目、屬性、描述不盡相同這一問題;
[0010] 4、對于可預測的硬盤危險,預警時間滯后,或無主動預警;
[0011] 5、錯誤的預警無法得到修正。
【發(fā)明內(nèi)容】
[0012] 本發(fā)明針對現(xiàn)有技術(shù)的不足,提供了一種基于SMART數(shù)據(jù)動態(tài)診斷硬盤故障 的方法和裝置,能夠有效的解決現(xiàn)有技術(shù)以列表形式展現(xiàn)導致非專業(yè)用戶看不懂;僅有 S. M. A. R. T.信息各項當前數(shù)值,無法將信息項數(shù)值收集整理成為歷史曲線,從而進行更 為精確地診斷;無法解決SSD固態(tài)硬盤上,不同硬盤廠商的不同主控、不同型號產(chǎn)品的 S.M.A.R.T.項目、屬性、描述不盡相同等問題。
[0013] 為解決以上問題,本發(fā)明采用的技術(shù)方案如下:一種基于SMART數(shù)據(jù)動態(tài)診斷硬 盤故障的方法,包括以下步驟:
[0014] 101建立云存儲服務端,持續(xù)收集三類數(shù)據(jù):一是硬盤類型數(shù)據(jù),包括硬盤品牌和 型號;二是S.M.A.R.T.參數(shù)數(shù)據(jù)及參數(shù)收集時間數(shù)據(jù);三是操作系統(tǒng)記錄的硬盤錯誤日志 數(shù)據(jù);
[0015] 102將收集到的S. M. A. R. T.參數(shù)數(shù)據(jù)及其對應的硬盤品牌、型號數(shù)據(jù)進行歸一化 處理,生成歸一化S. M. A. R. T.數(shù)據(jù)集合;基于歸一化S. M. A. R. T.數(shù)據(jù)集合和收集到的硬盤 錯誤日志數(shù)據(jù),建立硬盤故障預警動態(tài)模型;
[0016] 103將收集到的S.M.A.R.T.數(shù)據(jù)以參數(shù)為組,結(jié)合對應硬盤品牌、型號數(shù)據(jù), 形成不同品牌、不同型號硬盤S.M.A.R.T.參數(shù)動態(tài)變化曲線,統(tǒng)計得出硬盤健康運行 S.M.A. R. T.參數(shù)正常波動范圍,建立S.M.A. R. T.參數(shù)正常波動曲線和范圍;
[0017] 104通過大數(shù)據(jù)分析,得出不同品牌不同型號硬盤的S. M. A. R. T.參數(shù)權(quán)重;根據(jù) 硬盤廠商對S. M. A. R. T.預警參數(shù)的設定,結(jié)合訓練學習數(shù)據(jù),得出不同品牌不同型號硬盤 新的預警參數(shù)及對硬盤健康的影響權(quán)重因數(shù);設定一個滿分值,根據(jù)新的S. M. A. R. T.參數(shù) 權(quán)重和對硬盤健康的影響權(quán)重因數(shù),設定扣分標準,得出健康診斷評分動態(tài)模型;基于硬盤 故障預警動態(tài)模型、S. M. A. R. T.參數(shù)正常波動曲線和范圍、健康診斷評分動態(tài)模型,對硬盤 健康狀況進行診斷評分,給出針對性建議;如果硬盤存在風險,自動進行預警;如果預警錯 誤,啟動機器學習。
[0018] 作為優(yōu)選,102包括以下步驟:
[0019] 201數(shù)據(jù)歸一化,采用Z-score標準化方法,具體公式為:
其中,x為 101收集的樣本數(shù)據(jù),X*為歸一化后的數(shù)據(jù),μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù) 據(jù)的標準差;
[0020] 202將歸一化的數(shù)據(jù)按磁盤、磁頭、磁頭臂、馬達、控制電路板、數(shù)據(jù)接口、主控和閃 存顆粒進行分類;
[0021] 203將歸一化的分類數(shù)據(jù),按硬盤廠商、品牌、型號成組;
[0022] 204根據(jù)各廠商設定的各項S. Μ. A. R. Τ.參數(shù)的閾值,設置歸一化后分類成組數(shù)據(jù) 的預警值;搭建S. Μ. A. R. Τ.參數(shù)比對模型;組合各項對比模型、預警觸發(fā)器形成硬盤故障 預警動態(tài)模型;
[0023] 205讀取待檢硬盤S. Μ. A. R. Τ.參數(shù)數(shù)據(jù),導入比對模型,當某項數(shù)據(jù)超過預警值, 預警觸發(fā)器啟動,自動推送預警信息,提示用戶硬盤故障所在;
[0024] 206讀取并收集待檢硬盤S. Μ. A. R. Τ.參數(shù)數(shù)據(jù),歸一化處理后,存入云存儲端;根 據(jù)待檢硬盤S. Μ. A. R. Τ.參數(shù)數(shù)據(jù)和錯誤預警項,修正對應的歸一化后分類成組數(shù)據(jù)的預 警值,生成新的硬盤故障預警動態(tài)模型;將相關修正記錄在云存儲服務器。
[0025] 作為優(yōu)選,103包括以下步驟:
[0026] 301調(diào)用云存儲服務端收集到的S. Μ. A. R. Τ.參數(shù)及參數(shù)收集時間,以單項 S. Μ. A. R. Τ.參數(shù)數(shù)據(jù)為縱軸,時間為橫軸;生成單項S. Μ. A. R. Τ.參數(shù)曲線圖;如此,生成全 部單項S. M. A. R. T.參數(shù)曲線圖;
[0027] 302根據(jù)單項S. Μ. A. R. Τ.參數(shù)曲線圖,得出單項S. Μ. A. R. Τ.參數(shù)正常波動范圍;
[0028] 303讀取待檢硬盤S. M. A. R. T.參數(shù)數(shù)據(jù),導入比對模型,當某項數(shù)據(jù)突然超過正 常波動范圍,預警觸發(fā)器啟動,自動推送預警信息,提示用戶硬盤故障所在;
[0029] 304讀取并收集待檢硬盤預警錯誤S.M.A.R.T.參數(shù)數(shù)據(jù),修正正常波動范圍:降 低最小Min或者提高最大Max預警值,生成新的單項S. M. A. R. T.參數(shù)正常波動范圍;將相 關修正記錄在云存儲服務器。
[0030] 作為優(yōu)選,104包括以下步驟:
[0031] 401根據(jù)S. M. A. R. T.參數(shù)以及硬盤健康診斷的需要,設定一級硬件故障偵測、二 級使用累計統(tǒng)計和使用狀態(tài)監(jiān)測共兩級權(quán)重等級,作為健康診斷的決策因素;
[0032] 402基于硬盤廠商原始設置、硬盤故障預警動態(tài)模型修正數(shù)據(jù)、S. M. A. R. T.參數(shù) 正常波動曲線和范圍修正數(shù)據(jù),401所述兩級權(quán)重及權(quán)重內(nèi)有關參數(shù)的權(quán)重因數(shù)設定及調(diào) 整規(guī)則如下:
[0033] (1)硬件故障偵測權(quán)重因數(shù):80% ;使用累計統(tǒng)計和使用狀態(tài)監(jiān)測:10% ;
[0034] (2)使用累計