基于數(shù)據(jù)挖掘的裝備可靠性評估方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,更具體地指一種基于數(shù)據(jù)挖掘的裝備可靠性評估方 法。
【背景技術(shù)】
[0002] 科學(xué)技術(shù)飛速發(fā)展并在各個領(lǐng)域得到廣泛應(yīng)用,先進(jìn)、復(fù)雜、精密的現(xiàn)代高技術(shù)電 子裝備不斷涌現(xiàn)并投入使用。這些裝備的不斷使用和更新產(chǎn)生了大量的有關(guān)可靠性的數(shù) 據(jù),分析評估裝備的可靠性,有利于充分了解整個裝備以及相關(guān)元件的可靠性水平,促使設(shè) 計(jì)制造工藝的改進(jìn),充分發(fā)揮裝備的固有能力,提高裝備效能,從而保證裝備戰(zhàn)備完好性, 降低維修保障費(fèi)用,減少裝備壽命周期費(fèi)用。
[0003] 過去的裝備可靠性評估方法,都是通過參加裝備故障維修、記錄裝備故障數(shù)據(jù)、依 靠個人經(jīng)驗(yàn)而對裝備可靠性進(jìn)行評估,往往缺乏完整的理論體系和科學(xué)依據(jù),難以找出隱 藏裝備內(nèi)部的可靠性規(guī)律。依托一定算法和計(jì)算機(jī)輔助計(jì)算,可以對裝備已有故障數(shù)據(jù)進(jìn) 行分析計(jì)算,挖掘出裝備可靠性影響因素和裝備可靠性特征量,為裝備的維修保障等后續(xù) 工作提供了重要的參考指標(biāo)。
[0004] 目前的數(shù)據(jù)挖掘方法包括聚類分析、決策樹、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)和粗糙集等方 法。
[0005] 1、基于聚類分析的方法:將數(shù)據(jù)對象分為多個類或簇,同一簇中的對象之間具有 較高的相似度,而不同簇之間差別較大。聚類中沒有事先確定好的組別,也沒有樣本,記錄 按照自身特征的相似性聚集在不同類別中。聚類通常也作為數(shù)據(jù)挖掘或建模工作的第一步 工作,其算法大體上可以劃分為基于層次的方法、基于劃分的方法、基于密度的方法、基于 網(wǎng)格的方法、譜系聚類法等。
[0006] 2、基于決策樹的方法:通過將大量的數(shù)據(jù)有目的地分類,從中找出有價(jià)值的、潛在 的信息,是一種為人工智能開發(fā)的有指導(dǎo)的歸納學(xué)習(xí)算法。該方法主要包括CLS(概念學(xué)習(xí) 系統(tǒng))方法、ID3(IterativeDichotomiser3迭代二叉樹3代)算法、C4. 5決策樹算法算 法,屬于以邏輯方式輸出的分類方法,主要用來解決數(shù)據(jù)挖掘中的分類和預(yù)測問題,其歸納 學(xué)習(xí)的目標(biāo)是建立一個分類模型。
[0007] 3、基于關(guān)聯(lián)規(guī)則的方法:由Agrawal等人于1993年對市場購物籃問題進(jìn)行分析 時(shí)首次提出,用以發(fā)現(xiàn)商品銷售中的顧客購買模式。關(guān)聯(lián)規(guī)則的主要目的就是發(fā)現(xiàn)存在于 數(shù)據(jù)庫中的項(xiàng)目或?qū)傩蚤g的潛在關(guān)系,從而輔助決策。該方法挖掘形式簡潔、易于理解和解 釋,并可以有效的捕捉數(shù)據(jù)間的重要關(guān)系。
[0008] 4、基于神經(jīng)網(wǎng)絡(luò)的方法:通過網(wǎng)絡(luò)中各連接權(quán)值的改變,實(shí)現(xiàn)信息的處理和存儲。 神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲和高度容錯等特性 非常適合解決數(shù)據(jù)的挖掘問題。典型的神經(jīng)網(wǎng)絡(luò)模型有誤差逆?zhèn)鞑ド窠?jīng)網(wǎng)絡(luò)、Hopfield神 經(jīng)網(wǎng)絡(luò)、隨機(jī)型神經(jīng)網(wǎng)絡(luò)、競爭型神經(jīng)網(wǎng)絡(luò)、自組織特征映射神經(jīng)網(wǎng)絡(luò)、對向傳播神經(jīng)網(wǎng)絡(luò) 等。
[0009] 5、基于粗糙集理論的方法:由波蘭科學(xué)家Z.Pawlak于1982年首先提出。其主 要思想就是在保持分類能力不變的前提下,通過屬性約簡和知識約簡,導(dǎo)出問題的決策 或分類規(guī)則。該方法利用等價(jià)關(guān)系將一組數(shù)據(jù)劃分成幾個等價(jià)類,利用等價(jià)類近似的方 法描述整個集合的特征。但找出可以描述給定數(shù)據(jù)集中所有概念的最小屬性子集是個 NP(Non_DeterministicPolynomial,非確定多項(xiàng)式)問題。
[0010] 然而在實(shí)際的裝備可靠性評估中,首先要對裝備可靠性數(shù)據(jù)進(jìn)行收集,不可避免 的存在不完備性。這些數(shù)據(jù)若不經(jīng)過預(yù)處理,有可能導(dǎo)致不必要的操作和漫長的等待時(shí)間, 浪費(fèi)不必要的人力和物力,而且還影響從數(shù)據(jù)集中抽取模式的正確性和導(dǎo)出規(guī)則的準(zhǔn)確 性,從而影響決策者判斷;使用上述5種方法對預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘都需要進(jìn)行復(fù)雜 的運(yùn)算,還需要大量的統(tǒng)計(jì)信息和專家經(jīng)驗(yàn),且信息量大,具有較大的冗余性,并且設(shè)計(jì)的 可靠性評估系統(tǒng)人機(jī)交互性、可視化、直觀性、可理解性不強(qiáng)。
[0011] 因此,對于裝備的可靠性評估,只應(yīng)用一種數(shù)據(jù)挖掘方法就完全解決實(shí)際對象的 診斷問題是不可能的,多種智能方法的有效結(jié)合是未來可靠性評估的總體趨勢,特別是與 灰色理論方法有效地結(jié)合在一起,發(fā)揮各自的優(yōu)勢,形成互補(bǔ),建立新的裝備可靠性評估方 法,既簡單易行又能明顯提高裝備評估效率,從而為裝備的維修保障等后續(xù)工作提供了重 要的參考指標(biāo)。
【發(fā)明內(nèi)容】
[0012] 本發(fā)明的目的就是要提供一種基于數(shù)據(jù)挖掘的裝備可靠性評估方法,以便快速準(zhǔn) 確地對裝備的可靠性進(jìn)行評估。
[0013] 為實(shí)現(xiàn)此目的,本發(fā)明所設(shè)計(jì)的一種基于數(shù)據(jù)挖掘的裝備可靠性評估方法,其特 征在于,它包括如下步驟:
[0014] 步驟1 :需要將整個裝備系統(tǒng)中裝備可靠性相關(guān)的原始數(shù)據(jù)進(jìn)行離散化,利用離 散化的數(shù)據(jù)建立分類模型,再根據(jù)分類模型對原始數(shù)據(jù)中的異常數(shù)據(jù)進(jìn)行處理,處理方法 為通過分類模型進(jìn)行規(guī)則匹配篩選得到異常數(shù)據(jù),對于這些數(shù)據(jù)通過人工干預(yù)的方法進(jìn)行 修改或者刪除,從而得到最終的規(guī)則數(shù)據(jù)集;
[0015] 上述裝備可靠性相關(guān)的原始數(shù)據(jù)包括裝備基本數(shù)據(jù)、裝備故障數(shù)據(jù)、裝備資料數(shù) 據(jù)、備品備件數(shù)據(jù)和操作人員數(shù)據(jù),其中裝備故障數(shù)據(jù)包括故障發(fā)現(xiàn)人信息、現(xiàn)場溫度信 息、現(xiàn)場濕度信息、故障等級信息、故障單元信息和故障現(xiàn)象描述信息,裝備故障數(shù)據(jù)和裝 備基本數(shù)據(jù)一起構(gòu)成該數(shù)據(jù)挖掘方法的主要對象;
[0016] 上述分類模型的建立規(guī)則為用常規(guī)的基于分類矩陣的決策樹算法來建立分類模 型。首先刪除與分類模型無關(guān)的屬性,該屬性為裝備可靠性相關(guān)原始數(shù)據(jù)中數(shù)據(jù)庫表的 每個字段名,各個字段名分別反映裝備可靠性的主題,各個數(shù)據(jù)庫表中存儲對應(yīng)的裝備 可靠性相關(guān)的原始數(shù)據(jù),對于上述裝備可靠性相關(guān)的原始數(shù)據(jù)中的連續(xù)屬性使用常規(guī)的 K-means算法進(jìn)行離散化處理,上述連續(xù)屬性表示該屬性取值范圍為某一區(qū)間的任意實(shí)數(shù), 從而最終得到離散化的完整數(shù)據(jù)集,通過隨機(jī)不放回抽樣的方式選取該完整數(shù)據(jù)集75%的 數(shù)據(jù)作為訓(xùn)練樣例來構(gòu)成決策樹;
[0017] 決策樹的生成算法在ID3算法的基礎(chǔ)上進(jìn)彳丁改進(jìn)而來,通常的ID3算法是以計(jì)算 信息增益量來選擇信息增益最大的屬性來進(jìn)行決策樹的分裂,假設(shè)在以上的原始數(shù)據(jù)的訓(xùn) 練樣例中,故障等級為目標(biāo)屬性,故障模式屬性計(jì)算得到的信息增益最大,說明故障模式分 類對故障等級屬性的影響最大,則用故障模式屬性作為決策樹的根結(jié)點(diǎn),決策樹的二級節(jié) 點(diǎn)由剩余屬性信息增益最大值決定,以此類推最終形成決策樹,目標(biāo)屬性作為決策樹的葉 節(jié)點(diǎn),用目標(biāo)屬性以外的其它某一屬性分別與目標(biāo)屬性間形成分類矩陣并建立屬性間的映 射,然后利用該分類矩陣完成對信息增益的計(jì)算,同時(shí)為了克服ID3算法的多值偏向問題, 在ID3算法中引入一個權(quán)重因子來避免,在形成決策樹的過程中,如果訓(xùn)練集中實(shí)例個數(shù) 小于預(yù)設(shè)的閾值,則對決策樹停止生長,形成的完整決策樹即為所求的分類模型;
[0018] 步驟2:利用步驟1得到的最終規(guī)則數(shù)據(jù)集中的故障數(shù)據(jù)集D通過以下步驟201~ 步驟206所述的基于目標(biāo)項(xiàng)的Apriori算法生成強(qiáng)關(guān)聯(lián)規(guī)則,設(shè)立最小支持度閾值,最終確 定可靠性影響因素及其支持度;
[0019] 步驟201 :定義裝備可靠性相關(guān)數(shù)據(jù)項(xiàng)集為I={ipi2,…,in},I中故障的裝備單 元項(xiàng)的集合為目標(biāo)項(xiàng)集,記為IT,I中各類因素項(xiàng)的集合為非目標(biāo)項(xiàng)集,記為IN,在關(guān)聯(lián)規(guī)則 項(xiàng)集生成過程中,非目標(biāo)項(xiàng)集IN的元素只作為強(qiáng)關(guān)聯(lián)的條件,目標(biāo)項(xiàng)集I4勺元素只作為強(qiáng) 關(guān)聯(lián)的結(jié)果,該種處理方法便于判定各種因素與裝備單元間的聯(lián)系,將步驟1預(yù)處理之后 的最終規(guī)則數(shù)據(jù)集中的故障數(shù)據(jù)集定義為D,并從最終規(guī)則數(shù)據(jù)集中的故障數(shù)據(jù)集D中劃 分出非目標(biāo)項(xiàng)集IN和目標(biāo)項(xiàng)集IT,k-項(xiàng)集表示一個包含k個項(xiàng)的集合,定義Lk為頻繁k-項(xiàng) 集的集合,Ck是候選k-項(xiàng)集的集合,L為頻繁項(xiàng)集的集合,定義min_sup表示最小支持度閾 值,min_conf表示最小置信度,k-項(xiàng)集出現(xiàn)頻度不小于min_sup視為頻繁k-項(xiàng)集,表示某 類因素項(xiàng)集和某類故障裝備單元同時(shí)出現(xiàn)頻數(shù)較高,若頻繁項(xiàng)集中包含的目標(biāo)項(xiàng)集IT子集 出現(xiàn)頻度與非目標(biāo)項(xiàng)集IN子集出現(xiàn)頻度的比值不小于最小置信度min_conf,則將該頻繁項(xiàng) 集視為強(qiáng)關(guān)聯(lián)規(guī)則,表示在非目標(biāo)項(xiàng)集IN子集類因素發(fā)生的情況下目標(biāo)項(xiàng)集IT子集類故障 裝備及其單元出現(xiàn)的概率較高,為裝備單元的可靠性影響因素;
[0020] 對最終規(guī)則數(shù)據(jù)集中的故障數(shù)據(jù)集D進(jìn)行掃描,計(jì)算最終規(guī)則數(shù)據(jù)集中的故障數(shù) 據(jù)集D中每個不同項(xiàng)的頻度,得到頻繁1-項(xiàng)集的集合L1;
[0021] 步驟202 :對頻繁k-項(xiàng)集的集合Lk中的不同的兩個頻繁k-項(xiàng)集I:和I2進(jìn)行掃 描,若二者僅有一項(xiàng)不相同,則將兩個頻繁