本發(fā)明涉及數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
,特別是指一種基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的設(shè)備故障信息挖掘方法。
背景技術(shù):
:在數(shù)據(jù)挖掘技術(shù)發(fā)展繁榮的大背景下,關(guān)聯(lián)規(guī)則技術(shù)得到了蓬勃發(fā)展,關(guān)聯(lián)規(guī)則挖掘的目的是為了從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)/變量之間的關(guān)聯(lián)和相關(guān)關(guān)系。傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘方法挖掘的關(guān)聯(lián)規(guī)則能反映變量間的相互依賴關(guān)系,但是不能反映規(guī)則本身的變化規(guī)律。以挖掘故障信息數(shù)據(jù)庫為例,傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘方法挖掘的關(guān)聯(lián)規(guī)則能夠發(fā)現(xiàn)數(shù)據(jù)庫中不同設(shè)備、故障原因以及維修信息之間的聯(lián)系,從而有利于找出設(shè)備、故障原因以及維修信息之間的聯(lián)系,并根據(jù)設(shè)備確定最常見的故障原因等,但是,傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘方法沒有考慮關(guān)聯(lián)規(guī)則隨著時(shí)間產(chǎn)生的變化的情況,認(rèn)為挖掘的關(guān)聯(lián)規(guī)則在數(shù)據(jù)庫中是永恒有效的,沒有考慮關(guān)聯(lián)規(guī)則的變化。技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的技術(shù)問題是提供一種基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的設(shè)備故障信息挖掘方法,以解決現(xiàn)有技術(shù)所存在的沒有考慮關(guān)聯(lián)規(guī)則隨著時(shí)間產(chǎn)生變化的問題。為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供一種基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的設(shè)備故障信息挖掘方法,包括:獲取設(shè)備故障維修信息數(shù)據(jù)集D;按照預(yù)約維修日期將獲取的設(shè)備故障維修信息數(shù)據(jù)集D劃分為n個(gè)子數(shù)據(jù)集D1,D2,...,Dn,其中,D={D1,D2,...,Dn};定義動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,其中,動(dòng)態(tài)關(guān)聯(lián)規(guī)則表示為:其中,A、B分別表示項(xiàng)集,SV表示支持度向量,CV表示置信度向量,s表示項(xiàng)集的支持度,c表示關(guān)聯(lián)規(guī)則的置信度,表示動(dòng)態(tài)關(guān)聯(lián)規(guī)則的推理符號(hào);按照定義的動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,對(duì)n個(gè)子數(shù)據(jù)集D1,D2,...,Dn進(jìn)行動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘,得到設(shè)備故障原因與維修措施之間的關(guān)聯(lián)關(guān)系。進(jìn)一步地,所述獲取設(shè)備故障維修信息數(shù)據(jù)集D包括:獲取設(shè)備故障維修信息原始數(shù)據(jù)集;從獲取的設(shè)備故障維修信息原始數(shù)據(jù)集中,獲取目標(biāo)屬性數(shù)據(jù);對(duì)獲取的目標(biāo)屬性數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括:處理目標(biāo)屬性中的屬性缺失值,屬性格式不一致值和/或去掉冗余值。進(jìn)一步地,在對(duì)獲取的目標(biāo)屬性數(shù)據(jù)進(jìn)行預(yù)處理之后,所述方法還包括:對(duì)預(yù)處理后的對(duì)目標(biāo)屬性數(shù)據(jù)進(jìn)行字符離散化,得到設(shè)備故障維修信息數(shù)據(jù)集D。進(jìn)一步地,所述動(dòng)態(tài)關(guān)聯(lián)規(guī)則的支持度向量SV表示為:SV=[s(A∪B)1,s(A∪B)2,...,s(A∪B)n]其中,表示項(xiàng)集A∪B在子數(shù)據(jù)集Di中的支持度度量,st.表示約束條件,表示項(xiàng)集A∪B在子數(shù)據(jù)集Di中出現(xiàn)的頻數(shù),|Di|為子數(shù)據(jù)集Di中的記錄數(shù)。進(jìn)一步地,所述動(dòng)態(tài)關(guān)聯(lián)規(guī)則的置信度向量CV表示為:其中,反映了項(xiàng)集A∪B在子數(shù)據(jù)集Di中的置信度度量,st.表示約束條件,為項(xiàng)集A∪B的SV中的第i個(gè)元素,為項(xiàng)集A的SV中的第i個(gè)元素。進(jìn)一步地,所述動(dòng)態(tài)關(guān)聯(lián)規(guī)則的支持度s表示為:其中,M是數(shù)據(jù)集D中的記錄數(shù),表示項(xiàng)集A∪B在子數(shù)據(jù)集Di中出現(xiàn)的頻數(shù)。進(jìn)一步地,所述動(dòng)態(tài)關(guān)聯(lián)規(guī)則的置信度c表示為:其中,s(A∪B)為項(xiàng)集A∪B的支持度,sX為項(xiàng)集A的支持度。進(jìn)一步地,所述按照定義的動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,對(duì)n個(gè)子數(shù)據(jù)集D1,D2,...,Dn進(jìn)行動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘,得到設(shè)備故障原因與維修措施之間的關(guān)聯(lián)關(guān)系包括:對(duì)每個(gè)時(shí)間段上的子數(shù)據(jù)集利用頻繁項(xiàng)集產(chǎn)生算法產(chǎn)生動(dòng)態(tài)關(guān)聯(lián)規(guī)則左項(xiàng)和右項(xiàng);確定所述動(dòng)態(tài)關(guān)聯(lián)規(guī)則左項(xiàng)的支持度,所述動(dòng)態(tài)關(guān)聯(lián)規(guī)則左項(xiàng)的支持度表示為:其中,表示動(dòng)態(tài)關(guān)聯(lián)規(guī)則左項(xiàng)的支持度,表示動(dòng)態(tài)關(guān)聯(lián)規(guī)則左項(xiàng)在時(shí)間段ti上的支持度向量,Mi表示與時(shí)間段ti上的子數(shù)據(jù)集Di中的記錄數(shù)Mi,M表示數(shù)據(jù)集D中總的記錄數(shù);若所述動(dòng)態(tài)關(guān)聯(lián)規(guī)則左項(xiàng)的支持度大于預(yù)設(shè)的支持度閾值,則確定所述動(dòng)態(tài)關(guān)聯(lián)規(guī)則左右全項(xiàng)的支持度,所述動(dòng)態(tài)關(guān)聯(lián)規(guī)則左右全項(xiàng)的支持度表示為:其中,sR表示動(dòng)態(tài)關(guān)聯(lián)規(guī)則左右全項(xiàng)的支持度,sRi表示動(dòng)態(tài)關(guān)聯(lián)規(guī)則左右全項(xiàng)在時(shí)間段ti上的支持度向量;通過公式確定動(dòng)態(tài)關(guān)聯(lián)規(guī)則的置信度,其中,c表示動(dòng)態(tài)關(guān)聯(lián)規(guī)則的置信度;判斷所述動(dòng)態(tài)關(guān)聯(lián)規(guī)則的置信度是否大于預(yù)設(shè)的置信度閾值,若大于預(yù)設(shè)的置信度閾值,則根據(jù)挖掘得到的動(dòng)態(tài)關(guān)聯(lián)規(guī)則,分析設(shè)備故障原因與維修措施之間的關(guān)聯(lián)關(guān)系。進(jìn)一步地,所述方法還包括:建立時(shí)間序列回歸模型,預(yù)測(cè)動(dòng)態(tài)關(guān)聯(lián)規(guī)則的發(fā)展趨勢(shì)。進(jìn)一步地,所述方法還包括:在交互式可視化界面上,根據(jù)用戶點(diǎn)擊的預(yù)約維修日期,鏈接到相應(yīng)的項(xiàng)集和關(guān)聯(lián)規(guī)則的挖掘結(jié)果界面;和/或,在交互式可視化界面上,根據(jù)用戶輸入的查詢條件進(jìn)行匹配查詢,以列表的形式顯示相應(yīng)的查詢結(jié)果,所述查詢條件包括:項(xiàng)集或關(guān)聯(lián)規(guī)則;和/或,在交互式可視化界面上,根據(jù)用戶選擇的關(guān)聯(lián)規(guī)則,以柱狀圖的形式顯示所述關(guān)聯(lián)規(guī)則的置信度。本發(fā)明的上述技術(shù)方案的有益效果如下:上述方案中,獲取設(shè)備故障維修信息數(shù)據(jù)集D;按照預(yù)約維修日期將獲取的設(shè)備故障維修信息數(shù)據(jù)集D劃分為n個(gè)子數(shù)據(jù)集D1,D2,...,Dn,其中,D={D1,D2,...,Dn};定義動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,其中,動(dòng)態(tài)關(guān)聯(lián)規(guī)則表示為:其中,A、B分別表示項(xiàng)集,SV表示支持度向量,CV表示置信度向量,s表示項(xiàng)集支持度,c表示動(dòng)態(tài)關(guān)聯(lián)規(guī)則的置信度;按照定義的動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,對(duì)n個(gè)子數(shù)據(jù)集D1,D2,...,Dn進(jìn)行動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘,得到設(shè)備故障原因與維修措施之間的關(guān)聯(lián)關(guān)系,這樣,挖掘得到的動(dòng)態(tài)關(guān)聯(lián)規(guī)則與獲取到的設(shè)備故障維修信息數(shù)據(jù)集D中的預(yù)約維修日期動(dòng)態(tài)相關(guān),從而能夠反映出挖掘得到的動(dòng)態(tài)關(guān)聯(lián)規(guī)則與預(yù)約維修日期之間的關(guān)系。附圖說明圖1為本發(fā)明實(shí)施例提供的基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的設(shè)備故障信息挖掘方法的流程示意圖;圖2為本發(fā)明實(shí)施例提供的設(shè)備所屬品牌分布示意圖;圖3為本發(fā)明實(shí)施例提供的設(shè)備所屬大類分布圖;圖4為本發(fā)明實(shí)施例提供的按照預(yù)約日期劃分后,預(yù)約維修日期分布示意圖;圖5為本發(fā)明實(shí)施例提供的故障原因分布圖;圖6為本發(fā)明實(shí)施例提供的組成關(guān)聯(lián)規(guī)則的置信度向量柱狀示意圖;圖7為本發(fā)明實(shí)施例提供的組成關(guān)聯(lián)規(guī)則的全項(xiàng)頻繁項(xiàng)集的支持度向量柱狀示意圖;圖8為本發(fā)明實(shí)施例提供的關(guān)聯(lián)規(guī)則全項(xiàng)頻繁項(xiàng)集支持度柱狀示意圖;圖9為本發(fā)明實(shí)施例提供的支持度回歸預(yù)測(cè)曲線;圖10為本發(fā)明實(shí)施例提供的Django架構(gòu)的工作原理圖;圖11為本發(fā)明實(shí)施例提供的詳細(xì)結(jié)果頁面;圖12為本發(fā)明實(shí)施例提供的查詢頁面;圖13為本發(fā)明實(shí)施例提供的某規(guī)則置信度趨勢(shì)柱狀圖。具體實(shí)施方式為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。本發(fā)明針對(duì)現(xiàn)有的沒有考慮關(guān)聯(lián)規(guī)則隨著時(shí)間產(chǎn)生變化的問題,提供一種基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的設(shè)備故障信息挖掘方法參看圖1所示,本發(fā)明實(shí)施例提供的基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的設(shè)備故障信息挖掘方法,包括:S101,獲取設(shè)備故障維修信息數(shù)據(jù)集D;S102,按照預(yù)約維修日期將獲取的設(shè)備故障維修信息數(shù)據(jù)集D劃分為n個(gè)子數(shù)據(jù)集D1,D2,...,Dn,其中,D={D1,D2,...,Dn};S103,定義動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,其中,動(dòng)態(tài)關(guān)聯(lián)規(guī)則表示為:其中,A、B分別表示項(xiàng)集,SV表示支持度向量,CV表示置信度向量,s表示項(xiàng)集的支持度,c表示關(guān)聯(lián)規(guī)則的置信度,表示動(dòng)態(tài)關(guān)聯(lián)規(guī)則的推理符號(hào);S104,按照定義的動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,對(duì)n個(gè)子數(shù)據(jù)集D1,D2,...,Dn進(jìn)行動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘,得到設(shè)備故障原因與維修措施之間的關(guān)聯(lián)關(guān)系。本發(fā)明實(shí)施例所述的基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的設(shè)備故障信息挖掘方法,獲取設(shè)備故障維修信息數(shù)據(jù)集D;按照預(yù)約維修日期將獲取的設(shè)備故障維修信息數(shù)據(jù)集D劃分為n個(gè)子數(shù)據(jù)集D1,D2,...,Dn,其中,D={D1,D2,...,Dn};定義動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,其中,動(dòng)態(tài)關(guān)聯(lián)規(guī)則表示為:其中,A、B分別表示項(xiàng)集,SV表示支持度向量,CV表示置信度向量,s表示項(xiàng)集支持度,c表示動(dòng)態(tài)關(guān)聯(lián)規(guī)則的置信度;按照定義的動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,對(duì)n個(gè)子數(shù)據(jù)集D1,D2,...,Dn進(jìn)行動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘,得到設(shè)備故障原因與維修措施之間的關(guān)聯(lián)關(guān)系,這樣,挖掘得到的動(dòng)態(tài)關(guān)聯(lián)規(guī)則與獲取到的設(shè)備故障維修信息數(shù)據(jù)集D中的預(yù)約維修日期動(dòng)態(tài)相關(guān),從而能夠反映出挖掘得到的動(dòng)態(tài)關(guān)聯(lián)規(guī)則與預(yù)約維修日期之間的關(guān)系。為了能夠基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則對(duì)設(shè)備故障信息進(jìn)行挖掘,需先定義動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,本實(shí)施例中,為了更好地理解本實(shí)施例新定義的動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,先對(duì)傳統(tǒng)的動(dòng)態(tài)關(guān)聯(lián)規(guī)則進(jìn)行說明:傳統(tǒng)的動(dòng)態(tài)關(guān)聯(lián)規(guī)則是一種可以描述自身隨時(shí)間變化的關(guān)聯(lián)規(guī)則。傳統(tǒng)的動(dòng)態(tài)關(guān)聯(lián)規(guī)則定義如下:設(shè)I={I1,I2,...In}是項(xiàng)集合,任務(wù)相關(guān)的數(shù)據(jù)集D是在時(shí)間段t內(nèi)收集到的,t可以分成不相交的長度為n的時(shí)間序列,即t={t1,t2,...,tn}。依照t,數(shù)據(jù)集D可以劃分為相應(yīng)的n個(gè)子數(shù)據(jù)集D={D1,D2,...,Dn},其中子數(shù)據(jù)集Di(i∈{1,2,...n})中的數(shù)據(jù)是在時(shí)間段ti(i∈{1,2,...,n})內(nèi)收集的,數(shù)據(jù)集D中每個(gè)事務(wù)T是項(xiàng)的集合,使得每個(gè)事務(wù)有一個(gè)標(biāo)識(shí)符,稱作TID;設(shè)A是一個(gè)項(xiàng)集,事務(wù)T包含A當(dāng)且僅當(dāng)關(guān)聯(lián)規(guī)則是形如(也可以表示為:A==>B,其中,項(xiàng)集A位于關(guān)聯(lián)規(guī)則的左邊,項(xiàng)集A也可以稱為關(guān)聯(lián)規(guī)則左項(xiàng);項(xiàng)集B位于關(guān)聯(lián)規(guī)則的右邊,項(xiàng)集B也可以稱為關(guān)聯(lián)規(guī)則右項(xiàng))的蘊(yùn)涵式,其中并且規(guī)則B在數(shù)據(jù)集D中成立,具有支持度s,其中s是D中事務(wù)包含A∪B(即A和B二者)的百分比,它是概率PD(A∪B),設(shè)PD[(A∪B)i]是子數(shù)據(jù)集Di中所包含A∪B的記錄數(shù)與數(shù)據(jù)集D中總記錄數(shù)之比,則s同樣可以表示為概率規(guī)則在事務(wù)集D中具有置信度c,置信度c是條件概率PD(B|A),設(shè)PD(Bi|A)是子數(shù)據(jù)集Di中包含A∪B的記錄數(shù)與在數(shù)據(jù)集D中包含A的記錄數(shù)之比,則c同樣可以表示為概率定義3-1支持度向量(SupportVector)利用支持度向量(SV)和置信度向量(CV)以及支持度s和置信度c,4個(gè)變量共同評(píng)價(jià)一條規(guī)則。項(xiàng)集A的支持度向量定義為:SV=[s1,s2,...,sn],其中si(i∈{1,2,...,n})是項(xiàng)集A在數(shù)據(jù)子集Di(i∈{1,2,...n})中出現(xiàn)的頻數(shù)fi(i∈{1,2,...,n})與D中的記錄數(shù)M之比,即:si=fi/M,i∈{1,2,...,n}(3-1)設(shè)項(xiàng)集A的支持度為s,則有設(shè)最小支持度為min_sup,如果s>min_sup成立,則項(xiàng)集A稱之為頻繁項(xiàng)集。有時(shí),利用項(xiàng)集出現(xiàn)的頻數(shù)表示支持度更為合適,這樣項(xiàng)集的支持度向量為:SV=[f1,f2,...,fn](3-3)相應(yīng)的支持度可以表示為:定義3-2置信度向量(ConfidenceVector)因?yàn)閯?dòng)態(tài)關(guān)聯(lián)規(guī)則與普通關(guān)聯(lián)規(guī)則在從頻繁項(xiàng)集產(chǎn)生規(guī)則的過程是相同的,不同之處在于置信度向量的計(jì)算,所以本專利僅僅關(guān)注置信度向量的生成方式。動(dòng)態(tài)關(guān)聯(lián)規(guī)則的置信福向量CV=[c1,c2,...,cn],其中ci(i∈{1,2,...,n})是0%~100%之間的的一個(gè)百分?jǐn)?shù)。設(shè)SVA∪B=[s(A∪B)1,s(A∪B)2,...,s(A∪B)n]為A∪B的支持度向量,是A的支持度向量,為B的支持度向量,并且A的支持度為sA,則有設(shè)A∪B的支持度為sA∪B,B的支持度為sB,并且規(guī)則的置信度為c,則有設(shè)最小置信度為min_conf,如果c≥min_conf成立,則規(guī)則是一條強(qiáng)動(dòng)態(tài)關(guān)聯(lián)規(guī)則。定義3-3定義動(dòng)態(tài)關(guān)聯(lián)規(guī)則的完整表示(Wholedynamicassociationrule)一條完整的動(dòng)態(tài)關(guān)聯(lián)規(guī)則可以描述如下:(SV=[s1,s2,...,sn],CV=[c1,c2,...,cn],s,c)(3-7)其中,SV,CV,s和c一起描述了規(guī)則的動(dòng)態(tài)特性,由(式3-3),(式3-5),(式3-4),(式3-6)式確定。由于動(dòng)態(tài)關(guān)聯(lián)支持度向量和置信度向量將被用于描述規(guī)則在對(duì)應(yīng)數(shù)據(jù)子集中的動(dòng)態(tài)性質(zhì),因此,有必要對(duì)其進(jìn)行比較合理的定義。原定義中被定義為式由于M為固定值,因此,實(shí)際上,并不能反映項(xiàng)集A∪B在數(shù)據(jù)子集Di幾中的支持度度量,而僅僅是頻數(shù)度量f(A∪B)i。原定義被定義為對(duì)于確定的sx為固定的。它與等效,同樣不能反映Di中的置信度度量。從信息論的角度看,后者的度量不能提供任何新的信息,因此是冗余的。例如,根據(jù)時(shí)間t={t1,t2}劃分?jǐn)?shù)據(jù)集D={D1,D2},假設(shè)D1包含990條事務(wù)記錄,其中,支持A∪B,A的事務(wù)數(shù)均為10,D2包含10條事務(wù)記錄,支持A∪B,A的事務(wù)數(shù)分別為9、10。對(duì)于規(guī)則根據(jù)原定義(3-3),(3-5)式,有:從上述SV和CV的值,不難看出原定義有以下不足之處:1、單獨(dú)考慮D1,在D1的支持度:單獨(dú)考慮D2,在D2的支持度:所以而上述SV定義與經(jīng)典支持度定義矛盾!2、SV與CV具有相同比例,不能提供新的度量信息鑒于原始定義存在上述所述的不足之處,下面給出改進(jìn)的動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法的定義:原定義被定義為對(duì)于確定的sx為固定,設(shè)最小置信度為min_conf如果c≥min_conf成立,則規(guī)則是一條強(qiáng)關(guān)聯(lián)規(guī)則。接著,給出更為恰當(dāng)?shù)腟V,CV定義,描述如下:定義3-4動(dòng)態(tài)關(guān)聯(lián)規(guī)則(或者項(xiàng)集A∪B)的支持度向量具有如下的表示形式:其中,表示項(xiàng)集A∪B在子數(shù)據(jù)集Di(i∈{1,2,...n})中出現(xiàn)的頻數(shù),|Di|為子數(shù)據(jù)集Di中的記錄數(shù)。上述定義中,表示項(xiàng)集A∪B在子數(shù)據(jù)集Di中的支持度度量。此時(shí),原有的式(3-2)不再成立,則的支持度s可以通過下式計(jì)算得到:其中,M是數(shù)據(jù)集D中的記錄數(shù)。定義3-5動(dòng)態(tài)關(guān)聯(lián)規(guī)則的置信度向量具有如下的表示形式:其中,為項(xiàng)集A∪B的SV中的第i個(gè)元素,為項(xiàng)集A的SV中的第i個(gè)元素。上述定義中,反映了項(xiàng)集A∪B在子數(shù)據(jù)集Di中的置信度度量。則的置信度c可以通過下式計(jì)算得到:這樣,就有如下的動(dòng)態(tài)關(guān)聯(lián)規(guī)則新定義:定義3-6一條完整的動(dòng)態(tài)關(guān)聯(lián)規(guī)則具有支持度向量SV、置信度向量CV、支持度s和置信度c四個(gè)參數(shù),它具有如下表示形式:其中,SV和CV、s和c可以分別根據(jù)(式3-9)、(式3-11)、(式3-10)和(式3-12)得到,并一起用于描述關(guān)聯(lián)規(guī)則的動(dòng)態(tài)性質(zhì)。新的支持度向量SV、新的置信度向量CV與經(jīng)典的支持度、置信度定義相吻合,可以更好地反映規(guī)則隨時(shí)問變化的動(dòng)態(tài)信息。定義3-7設(shè)有動(dòng)態(tài)關(guān)聯(lián)規(guī)則最小支持度閾值為min_sup,最小置信度閾值為min_conf,如果s≥min_sup,且c≥min_conf,則稱動(dòng)態(tài)關(guān)聯(lián)規(guī)則為強(qiáng)動(dòng)態(tài)關(guān)聯(lián)規(guī)則。如規(guī)則(式3-13)所示,動(dòng)態(tài)關(guān)聯(lián)規(guī)則中既包含了傳統(tǒng)的支持度和置信度的信息,還提供了普通關(guān)聯(lián)規(guī)則所沒有的時(shí)變特性信息。如果將數(shù)據(jù)集D按時(shí)間戳進(jìn)行分離,再按照以上(式3-10)、(式3-12)公式分別計(jì)算相應(yīng)時(shí)間段上的支持度和置信度,也就是支持度向量和置信度向量,就可以由定義3-6表述一樣對(duì)某規(guī)則進(jìn)行評(píng)價(jià)。比如說某故障是否和某維修措施強(qiáng)關(guān)聯(lián),而該規(guī)則在一段時(shí)間內(nèi)的置信度變化情況則反映了該關(guān)聯(lián)程度的強(qiáng)弱變化。改進(jìn)的動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘算法:定義3-8頻數(shù)向量具有如下形式:其中,為項(xiàng)集A∪B在Di(i∈{1,2,...n})中出現(xiàn)的頻數(shù)。按照新的動(dòng)態(tài)關(guān)聯(lián)規(guī)則定義和已有子數(shù)據(jù)集的記錄數(shù)數(shù)量關(guān)系,提出新的動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法過程如下:1)對(duì)每個(gè)時(shí)間段上的子數(shù)據(jù)集利用頻繁項(xiàng)集產(chǎn)生算法產(chǎn)生滿足支持度閾值要求的頻繁項(xiàng)集和相應(yīng)的支持度,這就是定義中的支持度向量。2)由于每個(gè)時(shí)間段上的記錄數(shù)目和總的記錄數(shù)目是比較容易得到的,因此求某個(gè)規(guī)則對(duì)支持度時(shí)可以由當(dāng)前時(shí)間段之前的規(guī)則的相對(duì)于總記錄數(shù)的支持度向量之和得到,其中相對(duì)于總記錄數(shù)的支持度向量可由已知的記錄總數(shù)和該時(shí)間段上的記錄數(shù)的比值關(guān)系計(jì)算得到。3)在每個(gè)時(shí)間段上的子數(shù)據(jù)集由滿足支持度閾值要求的頻繁項(xiàng)集生成滿足置信度閾值要求的關(guān)聯(lián)規(guī)則。由于本實(shí)施例的重點(diǎn)是動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,而且由頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則的算法在基本的定義中都能找到,故這里不在贅述。4)生成對(duì)應(yīng)規(guī)則的置信度,利用記錄總數(shù)和當(dāng)前各個(gè)時(shí)間段中的置信度記錄數(shù)的數(shù)量關(guān)系計(jì)算得出關(guān)聯(lián)規(guī)則中左項(xiàng)的支持度(或頻數(shù))與右項(xiàng)的支持度(或頻數(shù))之比。本實(shí)施例中,為了更好地理解本發(fā)明,對(duì)本實(shí)施例提供的基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的設(shè)備故障信息挖掘方法的步驟進(jìn)行詳細(xì)說明,所述基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的設(shè)備故障信息挖掘方法的具體步驟可以包括:步驟一、獲取設(shè)備故障維修信息原始數(shù)據(jù)集,例如,所述獲取設(shè)備故障維修信息原始數(shù)據(jù)集是由68萬條設(shè)備故障維修信息組成的原始數(shù)據(jù)集,如表1所示:表1設(shè)備故障維修信息數(shù)據(jù)集(部分?jǐn)?shù)據(jù))如表1所示,每條記錄可以包括:購機(jī)日期、購買商場(chǎng)、購買價(jià)、市場(chǎng)級(jí)別、安裝日期、預(yù)約日期、設(shè)備大類、設(shè)備品牌、設(shè)備型號(hào)、受理時(shí)間、故障原因描述、維修措施、需求服務(wù)方式等含有29個(gè)維修信息項(xiàng)的事務(wù)組成,可見,原始數(shù)據(jù)集是一個(gè)容量很大的高維離散數(shù)據(jù)集。所述原始數(shù)據(jù)集中存在很多信息缺失和冗余,需要對(duì)所述原始數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)處理和離散化。步驟二、在對(duì)所述原始數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)處理和離散化之前,需確定用以挖掘的目標(biāo)屬性,由于本實(shí)施例是基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的設(shè)備故障信息挖掘方法,所以必然選擇和動(dòng)態(tài)時(shí)間,故障信息,維修信息以及規(guī)則的主體-設(shè)備作為用以挖掘的目標(biāo)屬性,所述目標(biāo)屬性包括:預(yù)約日期,設(shè)備大類,設(shè)備品牌,設(shè)備型號(hào),故障原因,維修措施、故障原因描述;并獲取這7項(xiàng)目標(biāo)屬性數(shù)據(jù)作為挖掘數(shù)據(jù)。步驟三、對(duì)獲取的挖掘數(shù)據(jù)/目標(biāo)屬性數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括:處理目標(biāo)屬性中的屬性缺失值,屬性格式不一致值和/或去掉冗余值:a)處理目標(biāo)屬性中的屬性缺失值:屬性缺失值指必要屬性值的缺失,如維修措施和故障原因描述信息的缺失,對(duì)待這種問題的數(shù)據(jù)只能刪除,因?yàn)樗鼈儾话晒┩诰虻谋匾畔?;b)處理屬性格式不一致值:例如,日期數(shù)據(jù)中有可能混雜有不規(guī)則字符,導(dǎo)致導(dǎo)入數(shù)據(jù)庫時(shí)由于數(shù)據(jù)類型(屬性格式)的不一致而報(bào)錯(cuò)無法導(dǎo)入,這時(shí)候也要把這部分?jǐn)?shù)據(jù)剔除掉;c)去掉冗余值:例如,故障原因描述字段過于冗長超出數(shù)據(jù)庫字符類型域的長度,也必須去掉。在預(yù)處理過程中對(duì)目標(biāo)屬性數(shù)據(jù)進(jìn)行了初步的篩選,使之符合后續(xù)步驟中導(dǎo)入數(shù)據(jù)庫或是離散化的要求。步驟四,對(duì)預(yù)處理后的對(duì)目標(biāo)屬性數(shù)據(jù)進(jìn)行字符離散化,得到設(shè)備故障維修信息數(shù)據(jù)集D,具體的:對(duì)不同設(shè)備大類,設(shè)備品牌,維修措施用相應(yīng)的代號(hào)表示,從而形成規(guī)則的數(shù)據(jù)表作為參數(shù)供規(guī)則挖掘程序運(yùn)行。本實(shí)施例可以運(yùn)用MicrosoftSQLServer2008作為數(shù)據(jù)庫來處理這68萬行數(shù)據(jù),把含有屬性缺失值,屬性格式不一致值、冗余值進(jìn)行刪除操作后,對(duì)目標(biāo)屬性數(shù)據(jù)中的中文描述進(jìn)行字符離散化,以供規(guī)則挖掘程序運(yùn)行,以維修措施離散化過程為例進(jìn)行離散化,設(shè)維修措施表在maintenance數(shù)據(jù)庫,下面是離散化過程的部分步驟:A11,選取維修措施表中所有各不相同的項(xiàng)usemaintananceselectdistinctweixiucuoshiintoweixiubiaofromweixiujiluA12,對(duì)不同的維修措施用不同的代號(hào)表示將維修記錄表weixiujilu中出現(xiàn)的不同的維修措施weixiucuoshi插入到新表weixiubiao中,接著更新weixiubiao,在篩選出的不同維修措施添加相應(yīng)的標(biāo)示ID字符串(不同的代號(hào))以區(qū)分:usemaintananceupdateweixiubiaosetweixiucuoshiID='M'+cast(t1.rowIDasvarchar(10))from(selectweixiucuoshi,ROW_NUMBER()over(Orderbyweixiucuoshi)asrowIdfromweixiubiao)ast1wheret1.weixiucuoshi=weixiubiao.weixiucuoshiA13,聯(lián)合維修措施頻數(shù)表將weixiubiao和記錄各維修措施相應(yīng)數(shù)量的weixiucuoshi_num_desc表左聯(lián)合得到個(gè)維修措施的離散化字符串和相應(yīng)出現(xiàn)的頻數(shù)usemaintananceselectweixiubiao.weixiucuoshiID,weixiubiao.weixiucuoshi,weixiucuoshi_num_desc.weixiucuoshi_numfromweixiubiaoleftjoinweixiucuoshi_num_desconweixiubiao.weixiucuoshi=weixiucuoshi_num_desc.weixiucuoshiorderbyweixiucuoshi_numdesc同理可以得到其他幾個(gè)中文字符項(xiàng)的離散化表,如故障原因描述離散化表,設(shè)備品牌離散化表等,得到這些離散化表過后,進(jìn)行聯(lián)合操作以取得供規(guī)則挖掘程序運(yùn)行的數(shù)據(jù)表A14,離散化的各屬性值聯(lián)合usemaintananceselectweixiujilu.yuyue_date,weixiujilu.category,weixiujilu.brand,weixiujilu.xinghao,weixiujilu.guzhangyuanyindaima,guzhangyuanyinmiaoshubiao.guzhangyuanyinmiaoshuID,weixiucuoshibiao.weixiucuoshiIDfromweixiujiluinnerjoinweixiucuoshibiaoonweixiujilu.weixiucuoshi=weixiucuoshibiao.weixiucuoshiinnerjoinguzhangyuanyinmiaoshubiaoonweixiujilu.guzhangyuanyinmiaoshu=guzhangyuanyinmiaoshubiao.guzhangyuanyinmiaoshuorderbyyuyue_dateasc這樣就得到了最后進(jìn)行動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘的預(yù)約日期,設(shè)備大類,設(shè)備品牌,設(shè)備型號(hào),故障原因代號(hào),故障原因描述代號(hào),維修措施代號(hào)等這7項(xiàng)目標(biāo)屬性數(shù)據(jù)。以維修措施為例,其離散化過后的代號(hào)以及相應(yīng)維修措施的頻數(shù)如表2所示:表2維修措施離散化代號(hào)及頻數(shù)表以故障原因描述為例,其離散化過后的代號(hào)以及相應(yīng)故障原因描述的頻數(shù)如表3所示,以表3中的顯示屏模塊損壞為例進(jìn)行說明,顯示屏模塊損壞的代號(hào)為F1120,頻數(shù)為12247。表3故障原因頻數(shù)及離散代號(hào)表步驟五,數(shù)據(jù)分塊,對(duì)離散化后的數(shù)據(jù)集D進(jìn)行分塊,傳統(tǒng)的一般分成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集是用來挖掘規(guī)則或模式的數(shù)據(jù)集,測(cè)試數(shù)據(jù)集是用來測(cè)試模式或規(guī)則有效的數(shù)據(jù)集。由于本實(shí)施例研究的是基于動(dòng)態(tài)關(guān)聯(lián)規(guī)則的故障信息挖掘,所以本實(shí)施例中的分塊指將離散后的數(shù)據(jù)集D按照時(shí)間戳進(jìn)行劃分,得到n個(gè)子數(shù)據(jù)集D1,D2,...,Dn,其中,D={D1,D2,...,Dn},從而進(jìn)行動(dòng)態(tài)的關(guān)聯(lián)規(guī)則挖掘。由于本實(shí)施例中的分塊指將離散后的數(shù)據(jù)集D按照時(shí)間戳進(jìn)行劃分,所述數(shù)據(jù)集D中每條記錄包含一個(gè)時(shí)間指示屬性(即time_id)作為分割數(shù)據(jù)集D的依據(jù),考察數(shù)據(jù)集D中與時(shí)間有關(guān)的項(xiàng)有:購機(jī)日期,安裝日期,預(yù)約日期,受理日期等,本實(shí)施例選取的時(shí)間為:預(yù)約日期(預(yù)約日期也可以稱為:預(yù)約維修日期),因?yàn)榘凑疹A(yù)約維修日期進(jìn)行劃分,得到的子數(shù)據(jù)集分布比以按照時(shí)間進(jìn)行分割的結(jié)果的分布更加合理,均勻,有統(tǒng)計(jì)規(guī)律。經(jīng)過SQLServer整理過后,按照預(yù)約日期進(jìn)行劃分后的分布結(jié)果如表4示:表4故障維修信息時(shí)間分布統(tǒng)計(jì)表預(yù)約日期設(shè)備維修頻數(shù)9/30/201355649/29/201351139/28/20135095...............9/19/201330089/21/20132889本實(shí)施例中,如果以購機(jī)日期為分割的標(biāo)準(zhǔn),則時(shí)間跨度為1980-2013年,其中,分布在1990年以前的數(shù)據(jù)只有幾十條,顯然不符合統(tǒng)計(jì)規(guī)律。以其他日期作為劃分日期也都會(huì)有相同的問題,因此本實(shí)施例選擇的劃分日期為預(yù)約維修日期,經(jīng)過劃分后,數(shù)據(jù)集D的分布統(tǒng)計(jì)結(jié)果如圖2、圖3、圖4、圖5所示。步驟六、利用前面新定義的動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法對(duì)經(jīng)過劃分后的n個(gè)子數(shù)據(jù)集D1,D2,...,Dn進(jìn)行動(dòng)態(tài)的挖掘,當(dāng)置信度閾值為50%的情況下支持度從1%到15%依次增加時(shí),挖掘出的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則都是逐漸減少的,其中,支持度閾值為15%,置信度閾值為50%時(shí)的頻繁項(xiàng)集挖掘結(jié)果如表5所示,支持度閾值為15%,置信度閾值為50%時(shí)的關(guān)聯(lián)規(guī)則挖掘結(jié)果如表6所示:表5支持度閾值為15%,置信度閾值為50%時(shí)的頻繁項(xiàng)集挖掘結(jié)果頻繁項(xiàng)集支持度item:('M219',)0.162item:('C4','M219')0.162item:('B5','M219')0.162item:('B5','M219','C4')0.162item:('B5','C1')0.162item:('FTDES1120',)0.172item:('HTVYY90000',)0.172……item:('B5','HTVYY90000','C4')0.172item:('FTDES1120','B5','C4','HTVYY9000)0.172item:('C2',)0.185item:('C1',)0.192item:('C4',)0.572item:('B5','C4')0.572item:('B5',)0.841表6支持度閾值為15%,置信度閾值為50%時(shí)的關(guān)聯(lián)規(guī)則挖掘結(jié)果關(guān)聯(lián)規(guī)則置信度Rule:('B5',)==>('C1',)0.504Rule:('C1',)==>('B5',)0.838Rule:('C4',)==>('B5',)1Rule:('C1',)==>('B5',)0.81Rule:('C4',)==>('B5',)1……Rule:('C2',)==>('B2',)0.671Rule:('C1',)==>('B5',)0.814Rule:('B2',)==>('C2',)0.997其中,表5和表6中的B*為設(shè)備品牌代號(hào)、C*為設(shè)備大類代號(hào),設(shè)備品牌代號(hào)具體對(duì)應(yīng)的設(shè)備品牌如表7所示,設(shè)備大類代號(hào)具體對(duì)應(yīng)的設(shè)備大類如表8所示:表7設(shè)備品牌離散化代號(hào)及出現(xiàn)頻數(shù)表8設(shè)備大類離散化代號(hào)及出現(xiàn)頻數(shù)由規(guī)則:Rule:('B5',)==>('C1',),0.504可知:設(shè)備為西門子品牌==>設(shè)備為家用空調(diào)的置信度為50.4%,也即維修數(shù)據(jù)中發(fā)生故障需要維修的西門子設(shè)備中一半是家用空調(diào)。可見西門子家用空調(diào)的發(fā)生故障的概率是西門子所有設(shè)備的發(fā)生故障中較高的。由規(guī)則:Rule:('C1',)==>('B5',),0.838知設(shè)備為空調(diào)==>設(shè)備為西門子品牌的置信度為83.8%,也即發(fā)生故障的空調(diào)設(shè)備有83.8%的概率是西門子品牌的,可見空調(diào)中西門子品牌占了大多數(shù)。由規(guī)則:Rule:('B2',)==>('C2',),0.997知設(shè)備品牌為澳柯瑪==>設(shè)備為冰箱的置信度為99.7%,也即發(fā)生故障的澳柯瑪品牌設(shè)備中有99.7%的概率是冰箱,說明了澳柯瑪設(shè)備中冰箱占了絕大多數(shù)??梢钥闯?,當(dāng)支持度閾值設(shè)為15%時(shí),得到的關(guān)聯(lián)規(guī)則是那些密集值屬性點(diǎn)規(guī)則,因?yàn)檫x取的屬性當(dāng)中,設(shè)備品牌只有上標(biāo)所示的5種,而離散化過后的故障原因有1100多種,離散化代號(hào)從F1到F1181,而這些故障原因描述中有超過600條的故障原因出現(xiàn)的頻數(shù)小于20,粗略估計(jì)包含這些故障原因的頻繁項(xiàng)集的支持度不會(huì)超過20/11000=0.018%。而離散化后的維修措施有585條,代號(hào)從M1到M585,其中有超過300條的維修措施才維修措施中出現(xiàn)頻數(shù)小于20,同理包含這些小眾維修措施的頻繁項(xiàng)集的支持度也不會(huì)超過0.018%;這也就是說,如果支持度閾值設(shè)成15%的話大數(shù)有關(guān)設(shè)備維修故障原因和設(shè)備維修措施的頻繁項(xiàng)集不都不會(huì)被保留,相應(yīng)的包含有這些故障原因和維修措施的關(guān)聯(lián)規(guī)則也不會(huì)挖掘出來,因?yàn)樗鼈円呀?jīng)在生成候選集的一步中由于支持度閾值被剔除掉了。為了更清晰的表現(xiàn)隨著支持度閾值的設(shè)置對(duì)挖掘結(jié)果的影響,下面選取了支持度閾值為8%,置信度閾值為50%的挖掘結(jié)果作為對(duì)照,支持度閾值為8%,置信度閾值為50%時(shí)的頻繁項(xiàng)集挖掘結(jié)果如表9所示:表9支持度閾值為8%,置信度閾值為50%時(shí)的頻繁項(xiàng)集挖掘結(jié)果表9給出了支持度閾值為8%置信度為50%時(shí)的48個(gè)頻繁項(xiàng)集,這次可以發(fā)現(xiàn),由于支持度閾值的減小,一些頻數(shù)比較大的故障原因和維修措施也能保留下來,成為頻繁項(xiàng)結(jié)果,其中涉及的代號(hào)如表10所示:表10支持度閾值為8%,置信度閾值為50%時(shí)結(jié)果部分代號(hào)解釋表支持度閾值為8%,置信度閾值為50%時(shí)的關(guān)聯(lián)規(guī)則挖掘結(jié)果如表11所示:表11支持度閾值為8%,置信度閾值為50%時(shí)的關(guān)聯(lián)規(guī)則挖掘結(jié)果從本次的結(jié)果可以看出,由于減小了支持度閾值,頻繁項(xiàng)集中更多地出現(xiàn)了有意義的維修措施和故障原因的信息,而不只是設(shè)備類別與品牌之間的關(guān)聯(lián)這種信息了??梢园l(fā)現(xiàn),B5,C4,M219和FTDES1120之間組成的關(guān)聯(lián)規(guī)則的置信度都特別大,以Rule:('B5','C4','M219')==>('FTDES1120',)0.902為例,規(guī)則(設(shè)備為西門子品牌,設(shè)備為電視,維修措施為調(diào)試)==>(故障原因?yàn)橛脩羰褂脝栴})的置信度為90.2%,說明在該維修數(shù)據(jù)集中的西門子電視機(jī)維修措施是調(diào)試的情況下絕大多數(shù)是由用戶使用問題造成的,而非產(chǎn)品本身的故障問題,從而說明西門子電視機(jī)對(duì)中國市場(chǎng)應(yīng)該采用更用戶友好的產(chǎn)品介紹或使用說明。當(dāng)然這個(gè)規(guī)則高達(dá)90.2%的置信度也從側(cè)面說明了上面的故障離散表和維修措施表中排在最前面的FTDES1120和M219的頻數(shù)是很高的,事實(shí)上它們的頻數(shù)分別為12247,11002。然而這并不是最有意義的結(jié)果,能解釋確定故障原因和維修措施關(guān)聯(lián)信息的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則才是本實(shí)施例討論的重點(diǎn),因此針對(duì)這種只是說明用戶問題的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則有必要進(jìn)行剪枝刪除。對(duì)無意義的規(guī)則進(jìn)行剪枝刪除如果放在源程序里處理會(huì)由于字符串的判斷會(huì)在每次的循環(huán)中進(jìn)行,效率低。故可在最后的結(jié)果呈現(xiàn)步驟里結(jié)合數(shù)據(jù)庫技術(shù)去除掉這部分規(guī)則,本實(shí)施例對(duì)這部分意義較小,置信度卻很高的規(guī)則結(jié)果采用的就是用sqllite3數(shù)據(jù)庫,利用數(shù)據(jù)庫強(qiáng)大的查詢功能和高效的存儲(chǔ)方式進(jìn)行這些結(jié)果的裁剪。這從另一方面說明我們通常用來作為數(shù)據(jù)挖掘的數(shù)據(jù)源含有的數(shù)據(jù)絕大多數(shù)是無意義的,只有較少數(shù)才具有意義。當(dāng)然在支持閾值為8%是也挖掘出了其他的較強(qiáng)關(guān)聯(lián)規(guī)則,比如:Rule:('M483',)==>('B5','C4')0.774,(維修措施為鑒定)==>(西門子電視)揭示出故障信息中維修措施為故障鑒定時(shí),設(shè)備為西門子電視的可能性很大,當(dāng)然如上面所述,這也不是本實(shí)施例期望的有意義的結(jié)論。如前面討論的一樣,如果把支持度閾值設(shè)置的過大,挖掘出的就全是那些意義不大的關(guān)聯(lián)信息,而數(shù)據(jù)集里大多數(shù)的維修信息和故障原因都需要支持度閾值不超過20/110000=0.00018,綜合考慮計(jì)算機(jī)的運(yùn)算存儲(chǔ)性能和對(duì)挖掘結(jié)果的準(zhǔn)確要求程度,決定以1%作為頻繁項(xiàng)集的支持度閾值,50%作為規(guī)則的置信度閾值。這樣挖掘出的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則記錄于表12和表13:表12支持度閾值為1%,置信度閾值為50%時(shí)的頻繁項(xiàng)集部分挖掘結(jié)果表12是支持度為1%時(shí)的部分頻繁項(xiàng)集挖掘結(jié)果,左邊是頻繁項(xiàng)集,右邊是相應(yīng)的支持度。由于支持度閾值降低到1%,所以許多在數(shù)據(jù)集中出現(xiàn)頻數(shù)較大的為維修措施或故障描述都在結(jié)果中保留了下來,能出現(xiàn)在結(jié)果中的故障原因和維修措施在數(shù)據(jù)集中的的頻數(shù)不會(huì)低于1%*116000=1160。這是一個(gè)比較可觀的數(shù)目,足夠說明維修措施與故障信息之間的一些關(guān)聯(lián)關(guān)系。如前面所述,為了挖掘更加有意義的關(guān)于設(shè)備故障和維修措施之間的關(guān)系,上面的頻繁項(xiàng)集結(jié)果特地截取了具體故障和具體維修措施的結(jié)果,與客戶問題或是調(diào)試相關(guān)的結(jié)果已經(jīng)略去,不再贅述。以頻繁項(xiàng)集item:('FTDES419','C4','M167')0.012為例,頻繁項(xiàng)集(419號(hào)故障原因:電源板組件損壞,設(shè)備為電視,167號(hào)維修措施:板類維修有位號(hào)-大修)的支持度為1.2%,實(shí)際上1.2%的支持度并不能說明電視機(jī)電源組件損壞故障與班類維修之間的關(guān)聯(lián)關(guān)系很弱,還得看置信度,因?yàn)槿缜懊娣治龅哪菢?,最主要的維修措施或是故障原因都是客戶使用問題或是簡單調(diào)試鑒定這種并不帶有太大意義的信息,而具體有意義的維修措施或故障原因描述所占的頻數(shù)很小,所以1.2%的支持度在本實(shí)施例所挖掘的數(shù)據(jù)上并不是很小的支持度。實(shí)際上419號(hào)維修措施:電源板組件損壞,在數(shù)據(jù)中所在頻數(shù)為1040,而第167號(hào)維修措施M167(板類維修有位號(hào)-大修)在數(shù)據(jù)中的頻數(shù)為3407。其他的頻繁項(xiàng)集結(jié)果item:('M474','HTVYY10200','C4')0.013說明了電視機(jī)類設(shè)備與維修措施為有位號(hào)的換件的支持度為0.013。頻繁項(xiàng)集item:('B5','M427','FTDES908','C1'),0.012說明了西門子品牌的空調(diào)設(shè)備發(fā)生室外控制板無電壓故障而維修措施為更換室外機(jī)控制板的組合頻繁項(xiàng)集在數(shù)據(jù)集中的支持度為0.012,其他的頻繁項(xiàng)集結(jié)果如此類推。由1%的支持度閾值產(chǎn)生的頻繁項(xiàng)集,在置信度閾值為50%時(shí)產(chǎn)生的關(guān)聯(lián)規(guī)則部分結(jié)果如表13所示:表13支持度閾值為1%,置信度閾值為50%時(shí)的關(guān)聯(lián)規(guī)則部分挖掘結(jié)果可以發(fā)現(xiàn)支持度閾值降低到1%時(shí),關(guān)聯(lián)規(guī)則中出現(xiàn)了更多有意義的規(guī)則結(jié)論,而不再只是調(diào)試或用戶使用問題這類無意義的信息,當(dāng)然這是由于支持度閾值下降出現(xiàn)了更多的有意義信息的頻繁項(xiàng)集引起的。上面截取的部分規(guī)則結(jié)論特地去掉了和那些無意義信息有關(guān)的結(jié)論,使討論的焦點(diǎn)轉(zhuǎn)到特定具體的故障維修規(guī)則上來。以Rule:('FTDES523','HTVYY10000')==>('M474','C4')0.857為例,規(guī)則(523號(hào)維修故障原因:集成電路損壞)==>(維修措施為有位號(hào)的換件,設(shè)備種類為電視)的置信度為85.7%,說明集成電路損壞的故障中,設(shè)備有85.7%的概率是電視機(jī),且相應(yīng)的為維修措施為有位號(hào)的進(jìn)行部件的更換。同理,Rule:('M348',)==>('C1','FTDES487'),0.838說明規(guī)則(維修措施為更換功率模塊)==>(設(shè)備大類為家用空調(diào),故障原因?yàn)楣β誓K無輸出)的置信度為83.8%,這說明了絕大多數(shù)需要更換功率模塊的維修中是家用空調(diào)出現(xiàn)了功率模塊無輸出的故障。Rule:('M469','C4')==>('HTVYY81000','FTDES357'),0.992規(guī)則(469號(hào)維修措施:更換單元模塊無位號(hào),設(shè)備種類為電視機(jī))==>(故障原因?yàn)閱卧K組件失效)的置信度為99.2%說明絕大多數(shù)電視機(jī)維修措施為無位號(hào)地更換單元模塊的原因?yàn)閱卧K組件失效。這從側(cè)面說明了電視機(jī)部件的模塊化程度很高,組件失效引起的組件更換的比例很大。Rule:('FTDES908',)==>('B5','M427','HKTYY05208'),0.776,規(guī)則(908號(hào)故障原因:室外機(jī)控制板無工作電壓)==>(設(shè)備品牌為西門子,維修措施為更換室外控制板)的置信度為77.6%。說明了設(shè)備發(fā)生室外控制板無電壓的故障則很有可能是西門子的設(shè)備,且相應(yīng)的維修措施為更換室外控制板。說明了本數(shù)據(jù)集中西門子設(shè)備是發(fā)生室外控制板故障的主體設(shè)備。且發(fā)生室外控制板無電壓故障時(shí)的維修措施大多數(shù)是直接更換控制板,而非控制板內(nèi)部的維修。接著,對(duì)動(dòng)態(tài)關(guān)聯(lián)規(guī)則的生成進(jìn)行說明:以規(guī)則Rule:('FTDES908','M427')==>('B5','HKTYY05208','C1'),0.829為例,展示動(dòng)態(tài)關(guān)聯(lián)規(guī)則的生成過程。規(guī)則(故障原因?yàn)槭彝鈾C(jī)控制板無工作電壓,維修措施為更換室外機(jī)控制板)==>(設(shè)備品牌為西門子,設(shè)備為家用空調(diào))的置信度為82.9%。首先得到n(n=30)個(gè)子數(shù)據(jù)集上的該規(guī)則的左項(xiàng)的支持度向量,這里給出按預(yù)約維修日期分塊得到的30個(gè)子數(shù)據(jù)集上的左項(xiàng)頻繁項(xiàng)集item:('FTDES908','M427')在2013/09月的1-30日的支持度組成的支持度向量:sv=[0.027,0.038,0.035,0.034,0.046,0.029,0.025,0.026,0.033,0.029,0.030,0.033,0.023,0.031,0.025,0.029,0.035,0.020,0.017,0.017,0.018,0.025,0.023,0.018,0.018,0.017,0.017,0.015,0.016,0.015]設(shè)離散化后,設(shè)備故障維修數(shù)據(jù)集D中的記錄數(shù)M=116391,Mi的數(shù)值如表14所示,其中,Mi為子數(shù)據(jù)集Di中的記錄數(shù),i∈{1,2,...30}。表14按預(yù)約維修日期分塊后的設(shè)備維修頻數(shù)表日期設(shè)備維修頻數(shù)日期設(shè)備維修頻數(shù)9/30/201355649/23/201336229/29/201351139/2/201335819/28/201350959/1/201335789/24/201349919/25/201335149/13/201348189/12/201334229/27/201347149/5/201333639/18/201343909/9/201333299/8/201343309/22/201333279/6/201341949/17/201333029/14/201340089/3/201332539/10/201339849/20/201331949/26/201339529/11/201331819/4/201339509/16/201331189/7/201339429/19/201330889/15/201336319/21/20132829Mi(i∈{1,2,...30})的值從表14中對(duì)應(yīng)得到:比如M7=3942,代表的是2013、09/07這個(gè)數(shù)據(jù)塊上的維修記錄總數(shù)。于是規(guī)則左項(xiàng)item:('FTDES908','M427')的支持度可以按定義求得:所以頻繁項(xiàng)集item:('FTDES908','M427')在數(shù)據(jù)集的支持度為2.5%,大于我們?cè)O(shè)定是支持度閾值1%,所以該頻繁項(xiàng)集是會(huì)保留下來的。下面是關(guān)聯(lián)規(guī)則Rule:('FTDES908','M427')==>('B5','HKTYY05208','C1')的置信度向量:cv=[0.854,0.875,0.796,0.859,0.825,0.843,0.810,0.820,0.800,0.807,0.872,0.850,0.838,0.887,0.813,0.865,0.807,0.831,0.769,0.769,0.865,0.783,0.805,0.705,0.800,0.788,0.825,0.934,0.866,0.815]置信度向量用于描述動(dòng)態(tài)關(guān)聯(lián)規(guī)則的置信度在各個(gè)子數(shù)據(jù)集中的分布情況。根據(jù)新動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法,組成規(guī)則的全項(xiàng)的支持度向量以及左項(xiàng)的支持度向量和規(guī)則置信度如下:sRi=[0.023,0.033,0.028,0.029,0.038,0.024,0.021,0.021,0.026,0.023,0.026,0.028,0.019,0.027,0.020,0.025,0.028,0.017,0.013,0.013,0.016,0.020,0.018,0.012,0.015,0.013,0.014,0.014,0.014,0.012]sRLi=[0.027,0.038,0.035,0.034,0.046,0.029,0.025,0.026,0.033,0.029,0.030,0.033,0.023,0.031,0.025,0.029,0.035,0.020,0.017,0.017,0.018,0.025,0.023,0.018,0.018,0.017,0.017,0.015,0.016,0.015]其中為規(guī)則中左項(xiàng)的支持度和支持度向量,也就是頻繁項(xiàng)集item:('FTDES908','M427')的支持度和支持度向量。sR,sRi為規(guī)則中的左右全項(xiàng)組成的頻繁項(xiàng)集的支持度和支持度向量。由此得出關(guān)聯(lián)規(guī)則Rule:('FTDES908','M427')==>('B5','HKTYY05208','C1')的置信度為82.9%,是大于置信度閾值50%的,認(rèn)為是強(qiáng)關(guān)聯(lián)規(guī)則。這個(gè)說明規(guī)則如果設(shè)備發(fā)生故障的原因?yàn)槭彝鈾C(jī)控制板無工作電壓,且維修措施為更換室外機(jī)控制板,那么該設(shè)備品牌為西門子的家用空調(diào)的可能性高達(dá)82.9%。從上面對(duì)動(dòng)態(tài)關(guān)聯(lián)規(guī)則的挖掘過程可知,動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法計(jì)算評(píng)價(jià)頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的優(yōu)點(diǎn)在于:當(dāng)時(shí)間變化時(shí),原來滿足支持度閾值和置信度與指導(dǎo)的強(qiáng)關(guān)聯(lián)規(guī)則有可能不在滿足支持度閾值和置信度閾值,不再是強(qiáng)關(guān)聯(lián)規(guī)則??梢钥闯?,當(dāng)前頻繁項(xiàng)集的支持度和關(guān)聯(lián)規(guī)則的置信度與當(dāng)前的時(shí)間段time_id緊密相關(guān),當(dāng)前頻繁項(xiàng)集的支持度為該頻繁項(xiàng)集在之前的時(shí)間段上的支持度向量與相應(yīng)的時(shí)間段上的信息記錄數(shù)占整個(gè)記錄數(shù)比值的點(diǎn)積,頻繁項(xiàng)集的支持度不僅與支持度向量有關(guān)還與時(shí)間段上的記錄數(shù)占記錄總數(shù)比值有關(guān)。同理當(dāng)前關(guān)聯(lián)規(guī)則的置信度為組成該關(guān)聯(lián)規(guī)則的全項(xiàng)頻繁項(xiàng)集在之前的時(shí)間段上的形成的支持度與該關(guān)聯(lián)規(guī)則的左項(xiàng)頻繁項(xiàng)集在之前的時(shí)間段上的形成的支持度之比值。以上的動(dòng)態(tài)關(guān)聯(lián)規(guī)則結(jié)果只是本實(shí)施例數(shù)據(jù)挖掘結(jié)果的一部分,更多的結(jié)果可通過基于web的可視化界面展示。本實(shí)施例中,還需要考察挖掘出的頻繁項(xiàng)集或關(guān)聯(lián)規(guī)則是否具有意義,抑或說是否是有趣的,這就需要對(duì)挖掘的動(dòng)態(tài)關(guān)聯(lián)規(guī)則進(jìn)行評(píng)價(jià),本實(shí)施例中,對(duì)動(dòng)態(tài)關(guān)聯(lián)規(guī)則的評(píng)價(jià)用到了不僅是常規(guī)規(guī)則關(guān)聯(lián)評(píng)價(jià)方法中的支持度和置信度,還加入了反映動(dòng)態(tài)時(shí)間變化的支持度向量和置信度向量作為綜合評(píng)價(jià)動(dòng)態(tài)關(guān)聯(lián)規(guī)則的依據(jù);本實(shí)施例中,可以利用柱狀圖分析和時(shí)間序列分析兩種方法對(duì)這兩個(gè)向量進(jìn)行分析得到有關(guān)規(guī)則的更詳盡的信息。同時(shí),在利用生成的動(dòng)態(tài)關(guān)聯(lián)規(guī)則進(jìn)行分析預(yù)測(cè)時(shí),也需要用驗(yàn)證數(shù)據(jù)集對(duì)動(dòng)態(tài)關(guān)聯(lián)規(guī)則的動(dòng)態(tài)回歸系數(shù)進(jìn)行誤差的計(jì)算,以此評(píng)價(jià)動(dòng)態(tài)關(guān)聯(lián)規(guī)則的動(dòng)態(tài)特性的準(zhǔn)確程度。1)柱狀圖法,支持度向量和置信度向量的柱狀圖可以清楚地描述規(guī)則支持度和置信度的分布情況;并且可以定性的反映規(guī)則支持度和置信度隨時(shí)間的變化的情況,根據(jù)定義,可以發(fā)現(xiàn)支持度和置信度的變化趨勢(shì)是相同的,因此,僅僅需要繪制其中一個(gè)向量的柱狀圖就可以。仍以關(guān)聯(lián)規(guī)則Rule:('FTDES908','M427')==>('B5','HKTYY05208','C1')為例,該規(guī)則在時(shí)間區(qū)段09/01/-09/10的置信度向量和全項(xiàng)的頻繁項(xiàng)集支持度向量為cv'=[0.854,0.875,0.796,0.859,0.825,0.843,0.810,0.820,0.800,0.807]sv'=[0.023,0.033,0.028,0.029,0.038,0.024,0.021,0.021,0.026,0.023]則可以繪制該關(guān)聯(lián)規(guī)則的置信度向量,如圖6所示,及組成該關(guān)聯(lián)規(guī)則的全項(xiàng)頻繁項(xiàng)集的支持度向量的柱狀圖,如圖7所示。規(guī)則Rule:('FTDES908','M427')==>('B5','HKTYY05208','C1')的全項(xiàng)頻繁項(xiàng)集item:('FTDES908','HKTYY05208','B5','M427','C1'),由支持度故可得其頻數(shù)分布圖如圖8所示。從圖8中可以發(fā)現(xiàn)支持度在以10為周期的一個(gè)周期內(nèi)先上升在下降,接著在進(jìn)行下一個(gè)周期的上升和下降。它表明該規(guī)則是一個(gè)頻數(shù)周期下降趨勢(shì)的規(guī)則,規(guī)則(設(shè)備發(fā)生故障的原因?yàn)槭彝鈾C(jī)控制板無工作電壓,維修措施為更換室外機(jī)控制板)==>(設(shè)備品牌為西門子,設(shè)備為家用空調(diào))的置信度成下降趨勢(shì),說明西門子空調(diào)占發(fā)生室外控制版無電壓的故障的設(shè)備的百分比逐漸下降,這可能是西門子空調(diào)在空調(diào)市場(chǎng)的比率逐漸下降的緣故。這種通過支持度在實(shí)際應(yīng)用有很好的效果,如果不考慮各時(shí)間劃分塊的信息數(shù)目差異,從置信度或支持度向量的柱狀圖中找到下降的趨勢(shì)、周期性的趨勢(shì),一個(gè)下降的趨勢(shì)表明規(guī)則的實(shí)效性不好,應(yīng)用效果將較差,一個(gè)周期性的趨勢(shì)表明規(guī)則并不是穩(wěn)定的只有符合它的變化周期的應(yīng)用才會(huì)有很好的效果。2)時(shí)間序列分析時(shí)間序列分析是在描述數(shù)據(jù)變化和預(yù)測(cè)數(shù)據(jù)趨勢(shì)中應(yīng)用比較廣泛的一種方法。如果一個(gè)支持度向量以規(guī)則出現(xiàn)的頻數(shù)表示,并且含有足夠的元素,它可能就適合時(shí)間序列分析.仍以上面的規(guī)則Rule:('FTDES908','M427')==>('B5','HKTYY05208','C1')為例,該規(guī)則的全項(xiàng)頻繁項(xiàng)集item:('FTDES908','HKTYY05208','B5','M427','C1')在時(shí)間分塊為09/01-09/30的時(shí)間分塊上的支持度向量為sv”=[0.023,0.033,0.028,0.029,0.038,0.024,0.021,0.021,0.026,0.023,0.026,0.028,0.019,0.027,0.020,0.025,0.028,0.017,0.013,0.013,0.016,0.020,0.018,0.012,0.015,0.013,0.014,0.014,0.014,0.012]而且已知各分段時(shí)間塊上的信息數(shù)目,表示為頻數(shù)向量如下:num_block==[5564,5113,5095,4991,4818,4714,4399,4330,4194,4008,3984,3952,3950,3942,3631,3622,3581,3578,3514,3422,3363,3329,3327,3302,3253,3194,3181,3118,3088,2829](4-10)則可算出頻繁項(xiàng)集的支持度向量為:那么,可以建立一個(gè)時(shí)間序列回歸模型描述該規(guī)則全項(xiàng)頻繁項(xiàng)集的頻數(shù)變化過程,記為f(i),于是從f(i)可以發(fā)現(xiàn)規(guī)則的支持度在該時(shí)間段內(nèi)的趨勢(shì),并且可以利用該回歸公式預(yù)測(cè)未來的支持度。利用時(shí)間序列分析,可以找到規(guī)則支持度或置信度的定量模型,它能夠給出比柱狀圖更加精確的信息,最為重要的是可以預(yù)測(cè)規(guī)則的發(fā)展趨勢(shì)。利用支持度進(jìn)行預(yù)測(cè)是可行的,本實(shí)施例考慮了關(guān)聯(lián)規(guī)則的動(dòng)態(tài)特性,通過分割挖掘數(shù)據(jù)集的方式,挖掘不僅包含支持度和置信度,而且包含支持度向量和置信度向量的關(guān)聯(lián)規(guī)則.這種規(guī)則可以提供自身隨時(shí)間變化的信息,能夠預(yù)測(cè)規(guī)則的發(fā)展趨勢(shì),具有普通關(guān)聯(lián)規(guī)則所不具有的功能。時(shí)間序列回歸模型的回歸表達(dá)式為:Xt=a1Xt-1+a2Xt-2+a3Xt-3+a4Xt-4+....anXt-nXt為序列當(dāng)前時(shí)間的值,其由前n項(xiàng)值成該線性關(guān)系,通常右邊會(huì)有噪聲加入以檢驗(yàn)其時(shí)移抗擾動(dòng)性。其中若已知支持度向量:SV=[f1,f2,...fn]則可根據(jù)以下公式計(jì)算出相關(guān)系數(shù):由于上文已經(jīng)給出支持度向量:故可調(diào)用相關(guān)數(shù)學(xué)工具進(jìn)行計(jì)算,在Matlab中運(yùn)行以下程序,進(jìn)行自回歸和往前的預(yù)測(cè):x=load('support_num.txt')y=aryule(x,4)%4ordermodel%y[n]=a1y[n-1]+a2y[n-2]+...a=lpc(x,3)%canpredictthenextvalueusingprevious3valuesest_x=filter([0-a(2:31)],1,[x,rand])%1-Dfilteringest_x(end)%theendvalue,alsothepredictvalueplot(x)%plottheoriginalvalueplusthepredictedvalueholdonplot(est_x,'r')%redtomarkplot(length(est_x),est_x(end),'*g')%highlightthepredictedvalueext_2=filter([-a(2:end)],1,x)%anothermethodtopredictisequal(ext_2(end),est_x(end))%comparethetwomethods如果以前29天的支持度向量進(jìn)行自回歸,可以對(duì)第30號(hào)的支持度向量進(jìn)行預(yù)測(cè),運(yùn)行上述程序可得到預(yù)測(cè)值:est_x(end)ans=31.807另外用LeastSquare和BurgMaximumEntropy兩種方法分別可求得時(shí)間序列回歸模型各階回歸的系數(shù),如表15和16所示。表15BurgMaximumEntropy法系數(shù)表16L(LeastSquare)法回歸系數(shù)根據(jù)上面表格的系數(shù)值可以進(jìn)行回歸和預(yù)測(cè),進(jìn)行回歸與預(yù)測(cè)的曲線擬合如圖9所示,根據(jù)圖9所示結(jié)果,可得預(yù)測(cè)的第30個(gè)值與實(shí)際值的誤差為:可以看見,3.5%的預(yù)測(cè)誤差是可以接受的,于是便可以利用該序列前某些序列值求得后面的序列值。同樣對(duì)于挖掘出的關(guān)聯(lián)規(guī)則,也可以按照前面思路用置信度柱狀圖分析其上升下降趨勢(shì),用時(shí)間序列回歸模型對(duì)已有的置信度向量進(jìn)行回歸分析,并可進(jìn)行預(yù)測(cè)。本實(shí)施例還利用Django框架提供了一種數(shù)據(jù)挖掘可視化系統(tǒng),對(duì)挖掘結(jié)果進(jìn)行可視化展示,Django框架的工作原理圖如圖10所示,Django是一個(gè)開放源代號(hào)的Web應(yīng)用框架,它最初是被開發(fā)來用于管理勞倫斯出版集團(tuán)旗下的一些以新聞內(nèi)容為主的網(wǎng)站的,并于2005年7月在BSD許可證下發(fā)布。Django框架的核心組件有:(1)用于創(chuàng)建模型(Model)的對(duì)象關(guān)系映射;(2)為管理員用戶設(shè)計(jì)的完美管理界面;(3)一流的URL設(shè)計(jì);(4)設(shè)計(jì)者友好的模板語言;(5)緩存系統(tǒng)。Django是一個(gè)基于MVC構(gòu)造的框架。但是在Django中,控制器接受用戶輸入的部分由框架自行處理,所以Django里更關(guān)注的是模型(Model)、模板(Template)和視圖(Views),稱為MTV模式,他們各自的職責(zé)如表17所示:表17Django框架各層次職能Django視圖不處理用戶輸入,而僅僅決定要展現(xiàn)哪些數(shù)據(jù)給用戶,而Django模板僅僅決定如何展現(xiàn)Django視圖指定的數(shù)據(jù)。或者說,Django將MVC中的視圖進(jìn)一步分解為Django視圖和Django模板兩個(gè)部分,分別決定“展現(xiàn)哪些數(shù)據(jù)”和“如何展現(xiàn)”,使得Django的模板可以根據(jù)需要隨時(shí)替換,而不僅僅限制于內(nèi)置的模板。至于MVC控制器部分,由Django框架的URLconf來實(shí)現(xiàn)。URLconf機(jī)制是使用正則表達(dá)式匹配URL,然后調(diào)用合適的Python函數(shù)。URLconf對(duì)于URL的規(guī)則沒有任何限制,完全可以設(shè)計(jì)成任意的URL風(fēng)格,不管是傳統(tǒng)的,RESTful的,或者是另類的??蚣馨芽刂茖咏o封裝了,無非與數(shù)據(jù)交互這層都是數(shù)據(jù)庫表的讀,寫,刪除,更新的操作。在寫程序的時(shí)候,只要調(diào)用相應(yīng)的方法即可。本數(shù)據(jù)挖掘系統(tǒng)的前端可視化部分采用的基于Django的web架構(gòu),主要有以下幾個(gè)部分:1)模板頁面Django_base.html的設(shè)計(jì),是所有也面對(duì)模板,其他頁面是在本模板上加上blockcontent形成的。2)視圖文件(view.py)的編寫;Django具有“視圖”的概念,用于封裝負(fù)責(zé)處理用戶請(qǐng)求及返回響應(yīng)的邏輯。通過下面的鏈接可以找到你需要知道的所有關(guān)于視圖的內(nèi)容。3)模型文件(models.py)的編寫Django提供一個(gè)抽象層(Models)以構(gòu)建和操作web應(yīng)用中的數(shù)據(jù),4)AdmindAdmin界面的設(shè)計(jì),管理員身份的驗(yàn)證和登錄等所述數(shù)據(jù)挖掘可視化系統(tǒng)的界面包括:1)管理員登錄界面,登錄界面具有賬戶管理,后臺(tái)數(shù)據(jù)管理等功能,針對(duì)models.py定義的數(shù)據(jù)模型可以執(zhí)行增加,刪除,修改等操作,如本實(shí)施例針對(duì)呈現(xiàn)故障維修信息建立了頻繁項(xiàng)集數(shù)據(jù)模型和關(guān)聯(lián)規(guī)則數(shù)據(jù)模型,如下所示。在登錄頁面的右上方還有歡迎,歷史數(shù)據(jù)操作記錄和注銷等菜單功能。2)日期鏈接頁面,如上面動(dòng)態(tài)關(guān)聯(lián)規(guī)則算法所述,根據(jù)預(yù)約維修日期對(duì)獲取的設(shè)備故障維修信息數(shù)據(jù)集D進(jìn)行分割,可以將所有數(shù)據(jù)劃分到2013年9月的30天中。進(jìn)入主界面后點(diǎn)擊日期導(dǎo)航鏈接,可以鏈接到具體的某一天頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的挖掘結(jié)果界面。也就是前面動(dòng)態(tài)關(guān)聯(lián)規(guī)則相關(guān)信息中的時(shí)間塊上的各自挖掘結(jié)果。所以主頁面下面有30個(gè)按鈕可以連接到這30天的詳細(xì)數(shù)據(jù)頁面中,接著下面是一個(gè)查詢框,用戶可以鍵入頻繁項(xiàng)集或是關(guān)聯(lián)規(guī)則,點(diǎn)擊確定則會(huì)出現(xiàn)包含該項(xiàng)的結(jié)果列表。3)詳細(xì)結(jié)果界面,如圖11所示,由日期鏈接進(jìn)入該日期的詳細(xì)結(jié)果頁面,就可見該日期下的挖掘結(jié)果列表,結(jié)果可為該日期的下的關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集如下圖所示為選日期為09/08時(shí)的挖掘詳細(xì)結(jié)果頁面。4)查詢頁面,如圖12所示,在日期下面有一個(gè)搜索框,可以在里面鍵入頻繁項(xiàng)集或是關(guān)聯(lián)規(guī)則進(jìn)行匹配查詢,查詢到的結(jié)果會(huì)以列表的形式呈現(xiàn),被匹配的頻繁項(xiàng)集會(huì)和分塊日期,在該分塊上的支持度向量或該頻繁項(xiàng)集一起呈現(xiàn)出來,被匹配的關(guān)聯(lián)規(guī)則會(huì)和分塊日期,在該分塊上的置信度向量和該關(guān)聯(lián)規(guī)則一起呈現(xiàn)出來。下面是當(dāng)搜索M507時(shí)相應(yīng)的規(guī)則挖掘結(jié)果。5)柱狀圖分析界面選定某條規(guī)則,如果其在09/01-09/30內(nèi)每天均有日期記錄,則可將該日期對(duì)應(yīng)的置信度以柱狀圖的形式顯示出來,供發(fā)現(xiàn)周期,趨勢(shì)預(yù)測(cè)等進(jìn)一步挖掘,如圖13所示是某條規(guī)則在09/01-09/30內(nèi)的置信度柱狀圖。本實(shí)施中,將挖掘出的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則通過可視化界面呈現(xiàn)給用戶,便于用戶進(jìn)行查看,同時(shí)便于用戶進(jìn)一步進(jìn)行考察,以發(fā)現(xiàn)設(shè)備故障和維修措施之間的相互關(guān)聯(lián)模式和依存規(guī)律。以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。當(dāng)前第1頁1 2 3