本發(fā)明涉及數據處理,具體為一種利用mrs-gnn模型處理軸承故障樣本數據不平衡的方法、裝置及故障分類器。
背景技術:
1、近年來,隨著工業(yè)集成化的速度越來越快,深度學習被應用到工業(yè)中也越來越廣泛,其中基于數據驅動的分類模型被廣泛的應用到實際的生產制造中。然而,大多數分類模型基于平衡數據進行的分類任務,在實際的圖像分類的場景中,存在某些類的數據稀缺導致類間數據失衡的情況,這在很大程度上會影響模型的使用效果。因此,針對不平衡數據分類的研究具有重要的價值,為了解決這一實際中存在的問題,研究人員進行了深入的研究。例如中國專利申請cn117726863a揭示的基于cglow全局優(yōu)化的不平衡數據分類模型;中國專利cn112445709b揭示的一種通過gan解決afl測試模型數據不平衡的方法。
2、但是,針對軸承故障數據的來講,振動信號數據是最常用的軸承故障診斷數據類型,因為軸承故障通常會導致軸承振動特性的變化,振動信號數據通常為通過加速度計或速度計采集到的時間序列數據。該類故障數據的特點:1、高維度:軸承故障數據通常是高維的,例如振動信號可能包含多個傳感器的多個通道數據。2、時序性:軸承故障數據是時間序列數據,包含時間相關的信息。3、非平穩(wěn)性:軸承故障數據可能是非平穩(wěn)的,即數據統(tǒng)計特性隨時間變化。
3、目前常用的深度學習模型的卓越性能主要歸因于可用數據的豐富性,例如卷積神經網絡(cnn)、循環(huán)神經網絡(rnn)、深度信念網絡(deep?belief?networks,dbn),這類模型是在假設能夠收集到各種故障類型的大量標記數據的情況下進行訓練的。但是,在軸承的大多數運行階段中,其旋轉機械在正常條件下運行,由于成本和安全的考慮,故障狀態(tài)只會在非常短暫的時間內出現。因此,軸承的正常工作狀態(tài)下的數據量遠超過起故障狀態(tài)下的數據量,也就是說故障的樣本遠小于正常的樣本,這引發(fā)了數據不平衡問題,為深度學習模型準確劃定決策邊界(準確進行故障分類和預測)帶來了挑戰(zhàn),因為數據不平衡嚴重影響了模型的訓練效果,特別是對于作為少數類的軸承故障的預測準確性。在不平衡的數據集上訓練的模型傾向于偏向多數類,這可能導致作為少數類的軸承故障的檢測性能不佳,如果未能正確識別和預測即將發(fā)生的軸承故障,可能會導致設備的停產或者事故。另外,在現有不平衡數據的情況下,模型也可能產生高誤報率,即錯誤地將正常情況標記為故障。這樣不僅增加了檢查和維護的不必要工作量,還可能導致對真正的故障警報不予重視。
技術實現思路
1、本發(fā)明的目的在于提供一種利用mrs-gnn模型處理軸承故障數據不平衡的方法、裝置及故障分類器,以解決上述背景技術中提出的問題。
2、為實現上述目的,本發(fā)明提供如下技術方案:
3、一種利用mrs-gnn模型處理軸承故障樣本數據不平衡的方法,包括如下步驟:
4、步驟s1,構建標簽集y∈{y1,y2,...,yk},對通過傳感器采集到的軸承的所有一維振動信號樣本賦標簽,且相同類別的振動信號樣本標簽相同;
5、步驟s2,利用gnn圖神經網絡將所有的一維振動信號樣本構建成圖數據g(a,x),所述圖數據g(a,x)包括鄰接矩陣a和特征矩陣x;
6、步驟s3,利用gnn圖神經網絡的graphsage算法,對圖數據g(a,x)的所有節(jié)點進行鄰居采樣,獲得每個節(jié)點的鄰居節(jié)點集合n(v);接著使用聚合函數得到鄰居節(jié)點的聚合嵌入表示,然后將每個節(jié)點的自身嵌入表示與鄰居節(jié)點的聚合嵌入表示組合,得到每個節(jié)點的新的嵌入表示;
7、步驟s4,遍歷所述標簽集y∈{y1,y2,...,yk}中的所有標簽,計算每種類別的振動信號樣本的標簽數量,得到標簽數量的最大值,其余類別的標簽均標注為少數類標簽;所述少數類標簽對應確認為少數類樣本;
8、步驟s5,使用mrs算法,針對所有所述少數類樣本擴充其數量,使其數量均等于具有標簽數量最大值的樣本數量,具體過程為:
9、s51、計算每個少數類樣本的幾何中心,記作樣本中心z;
10、s52、計算每個少數類樣本與樣本中心之間的歐幾里得距離,并計算平均距離,記作少數類樣本半徑r;
11、s53、隨機選擇m個少數類樣本,并計算從樣本中心z到這些m個樣本的向量v;通過合成所有m個向量來得到合成向量;
12、s54、使用正態(tài)分布來確定新樣本與樣本中心之間的距離,并根據以下公式(5)生成新樣本,所述正態(tài)分布的均值為r、方差為b;
13、
14、其中,znew新生成樣本,zc樣本中心,λ是從正態(tài)分布中的采樣距離;
15、s55、重復上述步驟s51-s54,直至所有樣本數量達到平衡。
16、優(yōu)選的,所述步驟s2中構建圖數據g(a,x)的具體過程為:
17、s21、將所述振動信號樣本形成樣本集合x∈{x1,x2,...,xn},i=1,2,3...,其中每個樣本xi是一個包含m個變量(數據點)的一維向量,每個樣本xi均作為圖數據g中的單獨的一個節(jié)點;所述樣本集合構成圖數據g(a,x)的特征矩陣x,
18、
19、s22、通過計算樣本與樣本之間的的皮爾遜系數,得到每個樣本與其他樣本間的關系矩陣,即樣本與樣本之間的連接關系,從而得到圖數據g(a,x)的鄰接矩陣a。
20、優(yōu)選的,所述步驟s22具體包括:
21、s221、根據以下公式1計算樣本xi和樣本xj之間的皮爾遜系數;
22、
23、其中:
24、rij是樣本xi樣本xj的皮爾遜相關系數;
25、xik和xjk是樣本xi和樣本xj第k個變量(數據點);
26、和分別是樣本i和樣本j的均值;
27、m是每個樣本的變量數(數據點數);
28、s222、設定一個閾值[0,1],當樣本xi和樣本xj之間的皮爾遜系數大于該閾值時,樣本xi和樣本xj之間的關系視為圖數據中存在連接關系,即存在邊,
29、
30、s223、將所有的連接關系形成集合,構成鄰接矩陣a,
31、
32、優(yōu)選的,所述步驟s3具體包括:
33、s31、在經過所述步驟s2已經建好的圖數據g(a,x)基礎上,根據節(jié)點之間的連接關系,獲得每個節(jié)點的鄰居節(jié)點集合n(v);
34、s32、通過以下公式(3)計算得到節(jié)點v的鄰居節(jié)點聚合嵌入表示
35、
36、其中,l代表圖數據網絡的層數;n(v)表示節(jié)點v的鄰居節(jié)點集合,是在l-1層鄰居節(jié)點u的嵌入表示,mean表示取平均值;
37、s33、通過以下公式(4)將節(jié)點v的自身嵌入表示與鄰居節(jié)點的聚合嵌入表示組合,得到每個節(jié)點新的嵌入表示,
38、
39、其中:wl是權重矩陣,σ(·)是激活函數,concat是向量連接操作;節(jié)點v的自身嵌入表示和鄰居節(jié)點的聚合嵌入表示通過向量連接操作concat合并,然后通過激活函數σ(·)進行非線性變化,得到節(jié)點v的在第l層的新嵌入表示
40、優(yōu)選的,本發(fā)明方法還包括如下步驟,
41、步驟s6,將含有新生成樣本的所有振動信號樣本集合構建成增強特征矩陣再通過計算樣本與樣本之間的的皮爾遜系數,得到增強鄰接矩陣從而得到增強圖數據
42、
43、優(yōu)選的,本發(fā)明方法還包括如下步驟,
44、步驟s7,再次利用gnn圖神經網絡的graphsage算法對增強圖數據的所有節(jié)點進行采樣,獲得每個節(jié)點的新的嵌入表示;然后使用softmax函數預測樣本所屬故障類別的概率,同時使用交叉熵損失函數進行優(yōu)化,最后使用l=argmaxp函數選擇概率最高的故障類別作為樣本所屬的故障類別,形成故障分類器。
45、優(yōu)選的,所述步驟s7具體包括,
46、s71,將生成的新樣本均賦予標簽,與初始樣本集合得到新的標簽集
47、s72,在增強圖數據中采用步驟s2的方法得到節(jié)點v的的嵌入表示公式如下:
48、
49、s73,通過以下公式(7)計算節(jié)點v的的故障類別標簽概率分布,
50、
51、其中,softmax是激活函數,將輸出轉換為概率分布,pv表示節(jié)點v的故障類別標簽的概率分布,同時使用交叉熵損失函數進行優(yōu)化,用σ(·)表示;
52、s74,輸出分類結果,通過以下公式(8)決定節(jié)點v的標簽lv,該標簽lv對應具有最高概率的故障類別,
53、
54、其中,lv是節(jié)點v的預測標簽,pv,k是節(jié)點v屬于故障類別k的概率,argmax表示去最大值。
55、本發(fā)明還揭示了一種利用mrs-gnn模型處理軸承故障樣本數據不平衡的裝置,包括:
56、賦標簽單元,用于構建標簽集y∈{y1,y2,...,yk},對通過傳感器采集到的軸承的每一個一維振動信號樣本賦標簽,且相同類別的振動信號樣本標簽相同;
57、圖數據構建單元,用于利用gnn圖神經網絡將所有的振動信號樣本構建成圖數據g(a,x),所述圖數據g(a,x)包括鄰接矩陣a和特征矩陣x;
58、嵌入表示計算單元,用于利用gnn圖神經網絡的graphsage算法,對圖數據g(a,x)的所有節(jié)點進行鄰居采樣,獲得每個節(jié)點的鄰居節(jié)點集合n(v);然后使用聚合函數得到鄰居節(jié)點的聚合嵌入表示,最后將每個節(jié)點的自身嵌入表示與鄰居節(jié)點的聚合嵌入表示組合,得到每個節(jié)點的新的嵌入表示;
59、樣本類別確認單元,用于遍歷所述標簽集中的所有標簽,計算每種類別的標簽的數量,得到標簽數量的最大值,其余類別的標簽均為少數類標簽;所述少數類標簽對應確認為少數類樣本;
60、少數類樣本的樣本數量擴充單元,用于使用mrs算法,針對所有所述少數類樣本擴充其數量,使其數量均等于所述具有標簽數量最大值的樣本數量,具體過程為:
61、s51、計算每個少數類樣本的幾何中心,記作樣本中心z;
62、s52、計算每個少數類樣本與樣本中心之間的歐幾里得距離,并計算平均距離,記作少數類樣本半徑r;
63、s53、隨機選擇m個少數類樣本,并計算從樣本中心z到這些m個樣本的向量v;通過合成所有m個向量來得到合成向量;
64、s54、使用正態(tài)分布來確定新樣本與樣本中心之間的距離,并根據以下公式(5)生成新樣本,所述正態(tài)分布的均值為r、方差為b;
65、
66、其中,znew新生成樣本,zc樣本中心,λ是從正態(tài)分布中的采樣距離;
67、s55、重復上述步驟s51-s54,直至所有樣本數量達到平衡。
68、本發(fā)明還揭示了一種利用mrs-gnn模型處理軸承故障的故障分類器,包括處理器和存儲器,所述存儲器內存儲有執(zhí)行程序,該執(zhí)行程序可執(zhí)行如上所述的方法。
69、優(yōu)選的,所述存儲器內還存儲有如下方法:
70、步驟s6,將含有新生成樣本的所有振動信號樣本集合構建成增強特征矩陣再通過計算樣本與樣本之間的的皮爾遜系數,得到增強鄰接矩陣從而得到增強圖數據
71、
72、步驟s7,再次利用gnn圖神經網絡的graphsage算法對增強圖數據的所有節(jié)點進行采樣,獲得每個節(jié)點的新的嵌入表示;然后使用softmax函數預測樣本所屬故障類別的概率,同時使用交叉熵損失函數進行優(yōu)化,最后使用l=argmaxp函數選擇概率最高的故障類別作為樣本所屬的故障類別;
73、步驟s8,將通過傳感器實時采集到的軸承的一維振動信號與樣本比對,確定該一維振動信號屬于的軸承故障類別。
74、本發(fā)明的有益效果主要體現在:有效地解決了智能診斷中的軸承故障樣本數據的不平衡問題,未來在工業(yè)現場將采集到振動信號輸入故障分類器就可以實現軸承故障的預測和分類。本發(fā)明通過采取措施解決軸承故障樣本數據不平衡問題,可以提高故障分類器對所有類別的分類準確度,尤其提升對少數類故障的預測能力;改進少數類故障的檢測能力,可以防止成本高昂的故障,減少意外停機時間和維修費用,保證生產效率和設備健康。