本發(fā)明屬于設(shè)備狀態(tài)診斷領(lǐng)域。
背景技術(shù):
:在線監(jiān)測數(shù)據(jù)反映了設(shè)備運行狀態(tài),常被用來診斷設(shè)備故障情況,但由于監(jiān)測設(shè)備在受到外界干擾或設(shè)備損壞時,會不可避免地出現(xiàn)數(shù)據(jù)缺失問題。數(shù)據(jù)缺失破壞了原數(shù)據(jù)的完整性和真實性,很多的統(tǒng)計工具直接將缺失數(shù)據(jù)缺省,這種處理方法雖然效率高,但當使用處理過的數(shù)據(jù)集進行數(shù)據(jù)挖掘時,將會使聚類模型產(chǎn)生傾斜,從而使挖掘結(jié)果產(chǎn)生偏差。目前比較好的缺失值處理方法是對不完整的數(shù)據(jù)記錄進行填充。數(shù)據(jù)填充常見算法有KNN、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等。KNN算法計算量較大;貝葉斯網(wǎng)絡(luò)需要的數(shù)據(jù)多,分析計算比較復(fù)雜,特別在解決復(fù)雜問題時,這個矛盾就更為突出;神經(jīng)網(wǎng)絡(luò)算法常常會出現(xiàn)局部最優(yōu)的問題,而且無法用神經(jīng)網(wǎng)絡(luò)直觀地解釋推理過程和推理依據(jù)。技術(shù)實現(xiàn)要素:本發(fā)明的目的是為解決利用數(shù)據(jù)對設(shè)備進行故障診斷時出現(xiàn)數(shù)據(jù)缺失的問題。為實現(xiàn)本發(fā)明目的而采用的技術(shù)方案是這樣的,一種基于相鄰數(shù)據(jù)特征的數(shù)據(jù)缺失填充方法,其特征在于:讀取一段按照時間順序排列的數(shù)據(jù)序列;所述數(shù)據(jù)序列中,存在n個數(shù)據(jù),所述數(shù)據(jù)序列為data(x1)、data(x2)……data(xn)表示,x1、x2……xn為時間序列Q,n為自然數(shù);所述數(shù)據(jù)序列中,缺失了編號為i的數(shù)據(jù),即data(i),i為等差數(shù)列Q中的一個值;填充編號為i的數(shù)據(jù),包括以下步驟:1)讀取與編號為i的數(shù)據(jù)相鄰的數(shù)據(jù)data(i-1);在所述數(shù)據(jù)序列中,從頭開始尋找與data(i-1)之差的絕對值小于0.02的數(shù)據(jù);如果沒有找到這樣的數(shù)據(jù),則下一步直接進入步驟5);如果找到這樣的一個或多個數(shù)據(jù),令其中一個數(shù)據(jù)的序列號為k-1,即該數(shù)據(jù)記為data(k-1),并進入下一步,k為時間序列Q中的一個值;如果1<i<4,即缺失值處于數(shù)據(jù)序列左邊界位置,則下一步直接進入步驟3)。2)讀取data(k)和data(i)左邊的三個數(shù)據(jù),將data(k-3)、data(k-2)和data(k-1)進行一次擬合,data(i-3)、data(i-2)和data(i-1)進行一次擬合;如果data(k-3)、data(k-2)和data(k-1)的變化趨勢與data(i-3)、data(i-2)和data(i-1)的變化趨勢相同,則進入下一步;否則,回到步驟1),重新選取data(k-1),但無法通過步驟1)選取data(k-1)時,則進入步驟5);如果i>n-3,即缺失值處于數(shù)據(jù)序列右邊界位置,則下一步直接進入步驟4)。3)讀取data(k)和data(i)右邊的三個數(shù)據(jù),將data(k+3)、data(k+2)和data(k+1)進行一次擬合,data(i+3)、data(i+2)和data(i+1)進行一次擬合;如果data(k+3)、data(k+2)和data(k+1)的變化趨勢與data(i+3)、data(i+2)和data(i+1)的變化趨勢相同,則進入下一步;否則,回到步驟1),重新選取data(k-1),但無法通過步驟1)選取data(k-1)時,則進入步驟5);4)將data(k)保存到數(shù)據(jù)集K中,回到步驟1),重新選取data(k-1),直到無法通過步驟1)選取data(k-1)時,進入下一步;5)若被保存數(shù)據(jù)只有1個數(shù)據(jù)data(k),則若沒有數(shù)據(jù)被保存下來,則取缺失值data(i)左右兩側(cè)數(shù)據(jù)的平均值。由于這兩種情況出現(xiàn)概率較小,在流程圖中舍去對這兩種情況的介紹。如果數(shù)據(jù)集K存在j-1(j>2)個數(shù)據(jù),則將數(shù)據(jù)集K里面的數(shù)據(jù)擬合為f(x),令M=f(j)。6)將數(shù)值M填充到data(i)的位置上。進一步,步驟1)開始前,對data(x1)、data(x2)……data(xn)歸一化處理。本發(fā)明的技術(shù)效果是毋庸置疑的,利用此方法,不必知道數(shù)據(jù)的具體周期,不僅有效得到非邊界缺失值的填充值,也有效得到其他方法不易得到的邊界缺失值的填充值。附圖說明圖1為本發(fā)明的流程圖,部分流程省略。圖2實施例中的某地區(qū)變壓器A相油溫歸一化數(shù)據(jù)。圖3實施例中的有缺失值的某地區(qū)變壓器A相油溫數(shù)據(jù)。圖4實施例中的填充缺失值后的油溫曲線與原始油溫曲線對比圖。具體實施方式下面結(jié)合實施例對本發(fā)明作進一步說明,但不應(yīng)該理解為本發(fā)明上述主題范圍僅限于下述實施例。在不脫離本發(fā)明上述技術(shù)思想的情況下,根據(jù)本領(lǐng)域普通技術(shù)知識和慣用手段,做出各種替換和變更,均應(yīng)包括在本發(fā)明的保護范圍內(nèi)。下面將結(jié)合本發(fā)明實例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诎l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。本說明書以某地區(qū)變壓器A相溫度油溫120個數(shù)據(jù)為例,現(xiàn)將數(shù)據(jù)歸一化,如圖2所示。分別剔除了第3、53、61、85、117位數(shù)據(jù),模擬缺失值問題,如圖3所示。在本實施例中,采用了上述基于相鄰數(shù)據(jù)特征的缺失值填充方法,具體計算過程如下:1、讀取數(shù)據(jù),檢測出第3、53、61、85、117位數(shù)據(jù)缺失,最大值為50.21。2、將數(shù)據(jù)都除以50.21,進行歸一化。3、以處于第3位的缺失值為例,第17、18、30、35、36、38、51、52、54、69、72、86、90、100、108位數(shù)據(jù)與之近似相等,但符合要求的是第36、69、90位數(shù)據(jù),目標數(shù)據(jù)為第37、70、91位數(shù)據(jù),分別是0.90565624、0.90517825、0.86108345,橫坐標數(shù)量級太小就會致使擬合效果很差,所以,橫坐標第一個數(shù)據(jù)為1,第二個數(shù)據(jù)為400,第j個數(shù)據(jù)為398+j的形式。用最小二乘法擬合得到f(x)=-5.659×10-5x+0.9058,可預(yù)測出歸一化后的第四個數(shù)據(jù)為f(402)=0.88305082,還原得44.33798。4、得到上述缺失值對應(yīng)填充值分別為(44.32205,43.13566,50.2100,43.34584,43.22929)。5、將填充值放回對應(yīng)缺失位置上,如圖4所示,紅色為原數(shù)據(jù),綠色為填充值數(shù)據(jù)。利用此方法計算的填充值與原數(shù)據(jù)對比,求出的誤差如表1所示。由表1可以看出,本方法計算誤差普遍較小,驗證了算法的可行性。表1缺失值計算值及其誤差原數(shù)據(jù)位置序號缺失值計算值絕對誤差相對誤差44.8470344.33798-0.50902-0.0113543.03205343.135661.305980.0024150.12106150.2100-5.78302-0.0017744.32098543.345840.017080.0113142.381011743.229291.956980.020016當前第1頁1 2 3