本發(fā)明屬于變壓器故障診斷,具體涉及一種用于變壓器故障診斷的數(shù)據(jù)處理方法及設(shè)備。
背景技術(shù):
1、油浸式變壓器作為電網(wǎng)系統(tǒng)中的關(guān)鍵設(shè)備,承擔(dān)著電能轉(zhuǎn)換與傳輸?shù)闹匾蝿?wù),其健康狀態(tài)直接關(guān)系到電網(wǎng)系統(tǒng)的安全穩(wěn)定運(yùn)行。因此,及時(shí)準(zhǔn)確地診斷變壓器的潛在故障,對(duì)于預(yù)防電力事故、保證供電安全和提高電力系統(tǒng)的可靠性具有至關(guān)重要的意義。在眾多變壓器故障診斷方法中,油中溶解氣體分析(dissolved?gas?analysis,dga)技術(shù)是一種被廣泛認(rèn)可和應(yīng)用的技術(shù)。該技術(shù)通過(guò)分析變壓器的絕緣油中的溶解氣體的種類和含量,可以有效地識(shí)別和預(yù)測(cè)變壓器的故障類型,因?yàn)椴煌墓收项愋蛯?duì)應(yīng)不同的氣體生成模式。
2、隨著數(shù)據(jù)科學(xué)和人工智能技術(shù)的快速發(fā)展,作為其中的一個(gè)重要分支,機(jī)器學(xué)習(xí)在處理復(fù)雜數(shù)據(jù)分析和模式識(shí)別問(wèn)題時(shí)展現(xiàn)出了巨大的潛力。將機(jī)器學(xué)習(xí)應(yīng)用于基于dga的變壓器故障診斷,能夠進(jìn)一步提高故障診斷的準(zhǔn)確性和效率。通過(guò)從大量歷史dga數(shù)據(jù)中學(xué)習(xí),機(jī)器學(xué)習(xí)模型能夠自動(dòng)識(shí)別出故障診斷的關(guān)鍵特征和復(fù)雜模式,從而實(shí)現(xiàn)對(duì)變壓器潛在故障的快速準(zhǔn)確預(yù)測(cè)。眾所周知,訓(xùn)練性能良好的機(jī)器學(xué)習(xí)模型需要有充足的數(shù)據(jù),且各類別的數(shù)據(jù)量應(yīng)該保持平衡。然而,在現(xiàn)實(shí)應(yīng)用場(chǎng)景中,變壓器發(fā)生故障的概率比較低,獲取充足的故障數(shù)據(jù)并不容易。并且,受變壓器自身結(jié)構(gòu)和工作環(huán)境等因素的影響,某些故障類型較為罕見,對(duì)應(yīng)故障數(shù)據(jù)比較稀少,而某些故障類型經(jīng)常發(fā)生,對(duì)應(yīng)故障數(shù)據(jù)相對(duì)更為豐富。這種不平衡的數(shù)據(jù)分布會(huì)對(duì)機(jī)器學(xué)習(xí)模型的訓(xùn)練造成影響,導(dǎo)致它在識(shí)別罕見故障類型方面的性能顯著下降。因此,無(wú)論是總數(shù)據(jù)量,還是各故障類型的數(shù)據(jù)量之間的平衡性,都不能滿足訓(xùn)練性能良好的機(jī)器學(xué)習(xí)模型的要求。這導(dǎo)致變壓器故障診斷準(zhǔn)確率不高。更為重要的,變壓器中的罕見故障類型往往具有更深的隱藏性、更大的破壞性和更嚴(yán)重的后果。如何解決數(shù)據(jù)不平衡問(wèn)題,提高機(jī)器學(xué)習(xí)模型在罕見故障類型上的識(shí)別精度,即提高其在對(duì)應(yīng)的較少數(shù)量的故障數(shù)據(jù)上的分類精度,成為了提高變壓器故障診斷效果的關(guān)鍵挑戰(zhàn)之一。
3、現(xiàn)階段,欠采樣法、過(guò)采樣法和代價(jià)敏感法是處理數(shù)據(jù)不平衡問(wèn)題的主要方法。其中,欠采樣法通過(guò)減少數(shù)據(jù)量較多的類別中的數(shù)據(jù)(多數(shù)類數(shù)據(jù)),來(lái)平衡各個(gè)類別在數(shù)據(jù)集中的比例。欠采樣法的優(yōu)勢(shì)體現(xiàn)在縮小數(shù)據(jù)集的總數(shù)據(jù)量,減少機(jī)器學(xué)習(xí)模型的訓(xùn)練時(shí)間。但如果隨意刪除一些數(shù)據(jù),會(huì)導(dǎo)致數(shù)據(jù)缺失,破壞數(shù)據(jù)分布,影響機(jī)器學(xué)習(xí)模型的性能。在變壓器故障診斷中,故障數(shù)據(jù)集的體量都比較小,不適合采用欠采樣法。過(guò)采樣法則是對(duì)數(shù)據(jù)量較少類別的數(shù)據(jù)(少數(shù)類數(shù)據(jù))進(jìn)行多次采樣,增加該類別的數(shù)據(jù)量。過(guò)采樣法的優(yōu)勢(shì)體現(xiàn)在增加數(shù)據(jù)集的總數(shù)據(jù)量,但同時(shí)也增加機(jī)器學(xué)習(xí)模型的訓(xùn)練時(shí)間。此外,如果對(duì)同樣的數(shù)據(jù)進(jìn)行多次采樣,會(huì)導(dǎo)致過(guò)擬合現(xiàn)象,降低機(jī)器學(xué)習(xí)模型的泛化能力。代價(jià)敏感法會(huì)增加少數(shù)類數(shù)據(jù)的錯(cuò)分代價(jià),其優(yōu)勢(shì)體現(xiàn)在強(qiáng)化少數(shù)類數(shù)據(jù)的學(xué)習(xí)效果。但是該方法需要提前設(shè)置代價(jià)敏感矩陣,然而在現(xiàn)實(shí)應(yīng)用場(chǎng)景中設(shè)置合適的代價(jià)敏感矩陣是很難的。
4、在現(xiàn)實(shí)應(yīng)用場(chǎng)景中,解決數(shù)據(jù)不平衡問(wèn)題還可以采用數(shù)據(jù)擴(kuò)充方法,特別是針對(duì)體量比較小的數(shù)據(jù)集。一方面,該方法能夠增加數(shù)據(jù)集的總數(shù)據(jù)量,另一方面,該方法能夠擴(kuò)充少數(shù)類數(shù)據(jù)的數(shù)量來(lái)平衡各個(gè)類別在數(shù)據(jù)集中的比例。典型的數(shù)據(jù)擴(kuò)充方法包括合成少數(shù)類過(guò)采樣技術(shù)(synthetic?minority?over-sampling,smote)和生成式對(duì)抗網(wǎng)絡(luò)(generative?adversarial?networks,gan)等。smote主要是針對(duì)少數(shù)類數(shù)據(jù),利用最近鄰算法計(jì)算該類別中每個(gè)數(shù)據(jù)的k個(gè)近鄰,然后從中任意選出n個(gè)數(shù)據(jù)進(jìn)行線性插值。在此基礎(chǔ)上,將新生成的數(shù)據(jù)添加到原始數(shù)據(jù)集中,建立一個(gè)新的數(shù)據(jù)集。gan是為了解決生成建模問(wèn)題而設(shè)計(jì)的深度學(xué)習(xí)網(wǎng)絡(luò)模型。該模型主要由生成器(generator)和判別器(discriminator)構(gòu)成。生成器的目標(biāo)是生成類似于真實(shí)數(shù)據(jù)的新數(shù)據(jù),而判別器的目標(biāo)是區(qū)分生成器生成的新數(shù)據(jù)和真實(shí)數(shù)據(jù)。這種生成器與判別器相互對(duì)抗的過(guò)程使得生成器逐漸學(xué)會(huì)生成更逼真的數(shù)據(jù)。由此,生成器可以用來(lái)生成近似少數(shù)類數(shù)據(jù)的新數(shù)據(jù)。在此基礎(chǔ)上,將新生成的數(shù)據(jù)添加到原始數(shù)據(jù)集中,建立一個(gè)新的數(shù)據(jù)集。
5、許多學(xué)者們開展相關(guān)研究,并將其應(yīng)用于解決故障診斷問(wèn)題,包括變壓器故障診斷。如,chen等人針對(duì)變壓器故障診斷的數(shù)據(jù)不平衡問(wèn)題,提出了序列集合極限學(xué)習(xí)機(jī)(sequential?ensembled?extreme?learning?machine,se-elm)。它本質(zhì)上是一種新穎的欠采樣法,通過(guò)依次處理多數(shù)類數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)集中各類別的比例平衡。gao等人針對(duì)復(fù)雜設(shè)備故障診斷的數(shù)據(jù)不平衡問(wèn)題,使用有效的數(shù)字過(guò)采樣法來(lái)平衡故障數(shù)據(jù)的數(shù)據(jù)量,同時(shí)避免無(wú)效數(shù)據(jù)。zhu等人針對(duì)工業(yè)過(guò)程中故障診斷的數(shù)據(jù)不平衡問(wèn)題,提出了基于k-medoid的合成少數(shù)采樣技術(shù)(smote)來(lái)生成數(shù)據(jù)量較小的工作日?qǐng)?bào)的數(shù)據(jù)。kari等人針對(duì)變壓器故障診斷的數(shù)據(jù)不平衡問(wèn)題,提出了改進(jìn)輔助分類器生成對(duì)抗性網(wǎng)絡(luò)(auxiliaryclassifier?generative?adversarial?network,acgan)。它采用多層感知器網(wǎng)絡(luò)作為其判別器,解決網(wǎng)絡(luò)過(guò)于復(fù)雜和網(wǎng)絡(luò)層數(shù)過(guò)大背景下判別器丟失數(shù)據(jù)重要特征的問(wèn)題。ren等人針對(duì)工業(yè)機(jī)械健康管理的數(shù)據(jù)不平衡問(wèn)題,提出了少鏡頭gan。它首先使用多數(shù)類數(shù)據(jù)對(duì)gan進(jìn)行預(yù)訓(xùn)練,然后開發(fā)一種基于錨樣本的微調(diào)策略,一方面使生成的數(shù)據(jù)接近真實(shí)數(shù)據(jù),另一方面盡可能多地保留學(xué)習(xí)到的復(fù)雜數(shù)據(jù)分布。zhang等人針對(duì)機(jī)械設(shè)備故障診斷的數(shù)據(jù)不平衡問(wèn)題,提出了一種新的基于增強(qiáng)生成對(duì)抗性網(wǎng)絡(luò)的不平衡故障診斷方法。它使用頻譜歸一化(spectrum?normalization,sn)策略設(shè)計(jì)了一種新的判別器,開發(fā)了一種具有梯度懲罰的增強(qiáng)wasserstein?gan,減輕由于缺乏真實(shí)故障數(shù)據(jù)而造成的損失,提升新何成數(shù)據(jù)的質(zhì)量。yang等人諧波驅(qū)動(dòng)故障診斷的數(shù)據(jù)不平衡問(wèn)題,使用多個(gè)生成對(duì)抗性網(wǎng)絡(luò)生成各種故障數(shù)據(jù),并精心設(shè)計(jì)數(shù)據(jù)選擇模塊對(duì)這些數(shù)據(jù)進(jìn)行過(guò)濾和純化。在此基礎(chǔ)上,他們將過(guò)濾后的生成數(shù)據(jù)與真實(shí)數(shù)據(jù)相結(jié)合,建立一個(gè)平衡的數(shù)據(jù)集。
6、現(xiàn)有的用于變壓器故障診斷的數(shù)據(jù)平衡或數(shù)據(jù)擴(kuò)充方法雖然在一定程度上緩解了數(shù)據(jù)不平衡問(wèn)題,但仍然存在一些問(wèn)題。首先,這些方法大多未在數(shù)據(jù)平衡或數(shù)據(jù)擴(kuò)充之前進(jìn)行特征選擇或特征降維。原始數(shù)據(jù)集中可能存在無(wú)關(guān)或冗余信息,如果沒(méi)有被有效處理,會(huì)導(dǎo)致新生成的數(shù)據(jù)中繼續(xù)保留這些信息,使新生成的數(shù)據(jù)的質(zhì)量下降,降低了建立的新的數(shù)據(jù)集的有效性。特征選擇和特征降維是數(shù)據(jù)預(yù)處理中的關(guān)鍵步驟,能夠有效地減少數(shù)據(jù)的復(fù)雜性,去除無(wú)關(guān)或冗余的特征,使模型能夠更專注于與故障診斷密切相關(guān)的特征。例如,chen等人提出的se-elm通過(guò)欠采樣的方法平衡數(shù)據(jù)集,但并未在此之前進(jìn)行特征選擇,可能導(dǎo)致生成的數(shù)據(jù)仍然存在較高的冗余度。類似地,gao等人提出的數(shù)字過(guò)采樣法和zhu等人提出的基于k-medoid的smote方法,在擴(kuò)充少數(shù)類別數(shù)據(jù)時(shí),也未考慮特征選擇或特征降維,這可能導(dǎo)致生成的數(shù)據(jù)集存在噪聲數(shù)據(jù),增加了模型的訓(xùn)練難度,并可能影響模型的魯棒性和泛化能力。其次,盡管gan及其變種被廣泛應(yīng)用于生成數(shù)據(jù),但很少有研究利用條件生成式對(duì)抗網(wǎng)絡(luò)(conditional?generative?adversarial?networks,cgan)這一更為先進(jìn)的技術(shù)。cgan是一種能夠在數(shù)據(jù)生成過(guò)程中加入條件信息的技術(shù),使生成的數(shù)據(jù)更加符合特定的需求和條件,具有更高的質(zhì)量和多樣性。例如,kari等人提出的acgan雖然改善了判別器的結(jié)構(gòu),但仍然未充分利用條件生成的優(yōu)勢(shì),導(dǎo)致生成的數(shù)據(jù)在某些情況下可能不夠精準(zhǔn)或具有偏差。ren等人的少鏡頭gan雖然采用了錨樣本微調(diào)策略,但如果引入cgan,這種微調(diào)策略可以更有效地生成符合特定條件的高質(zhì)量數(shù)據(jù),從而進(jìn)一步提升故障診斷的準(zhǔn)確性。最后,在現(xiàn)有研究中,數(shù)據(jù)平衡或數(shù)據(jù)擴(kuò)充后建立的新的數(shù)據(jù)集通常未經(jīng)過(guò)有效的數(shù)據(jù)優(yōu)化處理,其中往往包含一些噪聲數(shù)據(jù)、邊界數(shù)據(jù)、低質(zhì)數(shù)據(jù)等。這些數(shù)據(jù)可能會(huì)對(duì)模型的訓(xùn)練過(guò)程產(chǎn)生不利影響,導(dǎo)致模型的魯棒性下降。例如,盡管yang等人在諧波驅(qū)動(dòng)故障診斷中使用了多個(gè)生成對(duì)抗性網(wǎng)絡(luò)生成故障數(shù)據(jù),并設(shè)計(jì)了數(shù)據(jù)選擇模塊對(duì)生成數(shù)據(jù)進(jìn)行過(guò)濾和純化,但其他大多數(shù)研究并未對(duì)生成的數(shù)據(jù)進(jìn)行類似的優(yōu)化處理。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明為了解決現(xiàn)有的用于變壓器故障診斷的數(shù)據(jù)擴(kuò)充方法生成的數(shù)據(jù)中會(huì)保留無(wú)效信息會(huì)導(dǎo)致數(shù)據(jù)質(zhì)量下降的問(wèn)題。
2、一種用于變壓器故障診斷的數(shù)據(jù)擴(kuò)充及優(yōu)化方法,包括以下步驟:
3、s100、針對(duì)第二原始數(shù)據(jù)集中的少數(shù)類數(shù)據(jù),使用cgan網(wǎng)絡(luò)進(jìn)行擴(kuò)充得到擴(kuò)充數(shù)據(jù)集;所述第二原始數(shù)據(jù)集為基于變壓器故障中的烴類氣體的濃度確定的用于變壓器故障診斷的數(shù)據(jù)特征對(duì)應(yīng)的數(shù)據(jù)集;所述少數(shù)類數(shù)據(jù)是指數(shù)據(jù)集中某類數(shù)據(jù)的數(shù)量低于所有類數(shù)據(jù)的數(shù)量的均值的k%的數(shù)據(jù)類;所述cgan網(wǎng)絡(luò)為條件生成式對(duì)抗網(wǎng)絡(luò);
4、s200、對(duì)擴(kuò)充數(shù)據(jù)集進(jìn)行優(yōu)化,包括以下步驟:
5、步驟一:使用統(tǒng)計(jì)方法計(jì)算擴(kuò)充數(shù)據(jù)集中的重復(fù)數(shù)據(jù),保留重復(fù)數(shù)據(jù)中的一份,去除多余的重復(fù)數(shù)據(jù);
6、步驟二:采用支持向量機(jī)對(duì)步驟一處理后的擴(kuò)充數(shù)據(jù)集進(jìn)行分類,統(tǒng)計(jì)錯(cuò)誤分類的數(shù)據(jù),構(gòu)建一個(gè)錯(cuò)誤分類數(shù)據(jù)集;遍歷錯(cuò)誤分類數(shù)據(jù)集中每個(gè)數(shù)據(jù),統(tǒng)計(jì)每個(gè)數(shù)據(jù)的五個(gè)近鄰數(shù)據(jù)的類別,對(duì)五個(gè)類別進(jìn)行多數(shù)表決,得到表決類別稱為該數(shù)據(jù)的多數(shù)類別;若該數(shù)據(jù)的自身類別與多數(shù)類別不一致,則認(rèn)定該數(shù)據(jù)為邊界數(shù)據(jù),并將其刪除;
7、步驟三:獲取去除重復(fù)數(shù)據(jù)和邊界數(shù)據(jù)后的數(shù)據(jù)集,稱為過(guò)渡數(shù)據(jù)集;統(tǒng)計(jì)過(guò)渡數(shù)據(jù)集中每種類別的數(shù)據(jù)的數(shù)量,確定數(shù)據(jù)的數(shù)量最少的類別,稱為參考類別,其包含的數(shù)據(jù)量稱為參考數(shù)量,表示為r_num;
8、步驟四:對(duì)過(guò)渡數(shù)據(jù)集進(jìn)行歸一化處理,全部限定在[0,1]的范圍內(nèi);
9、步驟五:采用k-means確定過(guò)渡數(shù)據(jù)集中除參考類別外其他類別的數(shù)據(jù)的中心xcen_i,i為類別的序號(hào);
10、步驟六:計(jì)算除參考類別外其他類別中每種類別的數(shù)據(jù)中每個(gè)數(shù)據(jù)到對(duì)應(yīng)中心的歐式距離i為類別的序號(hào),j為每種類別的數(shù)據(jù)中每個(gè)數(shù)據(jù)的序號(hào);根據(jù)歐氏距離,對(duì)每種類別的數(shù)據(jù)中每個(gè)數(shù)據(jù)進(jìn)行降序排序;
11、步驟七:對(duì)于過(guò)渡數(shù)據(jù)集中除參考類別外其他類別的數(shù)據(jù),根據(jù)每種類別的數(shù)據(jù)中每個(gè)數(shù)據(jù)的排序,依次刪除排序靠前的數(shù)據(jù),直至當(dāng)前類別的數(shù)據(jù)的數(shù)量與r_num一致;
12、步驟八:輸出的數(shù)據(jù)集,稱為最終數(shù)據(jù)集。
13、一種用于變壓器故障診斷的數(shù)據(jù)擴(kuò)充及優(yōu)化設(shè)備,所述設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)所述的一種用于變壓器故障診斷的數(shù)據(jù)擴(kuò)充及優(yōu)化方法。
14、有益效果:
15、本發(fā)明通過(guò)因子分析法對(duì)原始dga數(shù)據(jù)進(jìn)行預(yù)處理,進(jìn)行特征降維并提取關(guān)鍵特征,從而簡(jiǎn)化數(shù)據(jù)復(fù)雜性并提高特征代表性,通過(guò)引入類別標(biāo)簽作為條件信息,生成符合少數(shù)類數(shù)據(jù)分布的數(shù)據(jù),成功平衡了數(shù)據(jù)集內(nèi)各類數(shù)據(jù)的數(shù)量;然后剔除擴(kuò)充數(shù)據(jù)集中的重復(fù)數(shù)據(jù)、邊界數(shù)據(jù)和低質(zhì)數(shù)據(jù),確保數(shù)據(jù)集的純凈性和有效性。因此本發(fā)明可以有效解決現(xiàn)有的用于變壓器故障診斷的數(shù)據(jù)擴(kuò)充方法生成的數(shù)據(jù)中會(huì)保留無(wú)效信息會(huì)導(dǎo)致數(shù)據(jù)質(zhì)量下降的問(wèn)題,經(jīng)驗(yàn)證本發(fā)明在處理數(shù)據(jù)不平衡問(wèn)題方面表現(xiàn)出色,從而能夠顯著提高故障診斷的準(zhǔn)確性,特別是在少數(shù)類數(shù)據(jù)上的分類性能。