本發(fā)明屬于高速列車故障診斷領(lǐng)域,具體涉及一種基于遷移隨機(jī)森林的高速列車牽引電機(jī)故障診斷方法。
背景技術(shù):
1、高速列車的牽引電機(jī)是驅(qū)動(dòng)列車前進(jìn)的核心部件,是高速列車的動(dòng)力源。牽引電機(jī)在長(zhǎng)期惡劣和復(fù)雜環(huán)境下運(yùn)行,受到高溫、振動(dòng)和電磁干擾等多種因素影響,故障的發(fā)生在所難免。牽引電機(jī)通常會(huì)發(fā)生軸承磨損、齒輪故障、轉(zhuǎn)子不平衡等機(jī)械故障,繞組短路、絕緣老化、過載等電氣故障,過熱導(dǎo)致的性能下降或損壞的熱故障,以及變頻器故障、傳感器失效等控制系統(tǒng)故障。牽引電機(jī)故障一旦發(fā)生,可能導(dǎo)致列車動(dòng)力下降甚至完全喪失,進(jìn)而引發(fā)重大安全事故。因此,對(duì)牽引電機(jī)實(shí)行有效的故障診斷至關(guān)重要。
2、目前高速列車牽引電機(jī)的故障診斷方法包括:解析模型的方法、基于知識(shí)的方法和數(shù)據(jù)驅(qū)動(dòng)的方法。前兩者過度依賴于精確的解析模型和專家知識(shí),但實(shí)際高速列車牽引電機(jī)結(jié)構(gòu)復(fù)雜,精確模型和充分的專家知識(shí)難以得到。數(shù)據(jù)驅(qū)動(dòng)的故障診斷方法需要充分的高速列車運(yùn)行歷史數(shù)據(jù),即需要能夠獲取涵蓋牽引電機(jī)多工況的運(yùn)行數(shù)據(jù),進(jìn)而建立精準(zhǔn)的輸出數(shù)據(jù)與故障的映射關(guān)系。然而,高速列車運(yùn)行過程中采集到的大多為健康運(yùn)行狀態(tài)數(shù)據(jù),半實(shí)物試驗(yàn)僅能獲取特定工況下的數(shù)據(jù),難以滿足面向復(fù)雜服役工況的牽引傳動(dòng)系統(tǒng)運(yùn)行狀態(tài)監(jiān)測(cè)方法訓(xùn)練、測(cè)試和驗(yàn)證的需求,同時(shí)新工況數(shù)據(jù)的獲得和標(biāo)注又非常困難。此情況下,新工況下就會(huì)出現(xiàn)小樣本問題,會(huì)導(dǎo)致基于機(jī)器學(xué)習(xí)的故障診斷模型出現(xiàn)過擬合進(jìn)而故障診斷性能降低。由于多工況導(dǎo)致的數(shù)據(jù)分布差異,數(shù)據(jù)驅(qū)動(dòng)故障診斷模型往往難以直接在相似的新工況中取得良好的效果。因此,需要一種能夠有效解決多工況導(dǎo)致的故障診斷算法性能下降的問題,同時(shí)克服數(shù)據(jù)分布差異、提升故障診斷算法性能的方法。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問題,本發(fā)明提出了一種基于遷移隨機(jī)森林的高速列車牽引電機(jī)故障診斷方法,用于對(duì)高速列車牽引電機(jī)進(jìn)行故障診斷。本發(fā)明通過構(gòu)建移隨機(jī)森林故障診斷模型,可以克服多工況導(dǎo)致的訓(xùn)練數(shù)據(jù)分布差異,從而提升故障診斷算法針對(duì)樣本匱乏的目標(biāo)工況的故障診斷準(zhǔn)確率。
2、本發(fā)明采用的技術(shù)方案如下:
3、一種基于遷移隨機(jī)森林的高速列車牽引電機(jī)故障診斷方法,對(duì)牽引電機(jī)進(jìn)行故障診斷,具體包括如下步驟:
4、步驟1、采集多工況下高速列車牽引電機(jī)在多種狀態(tài)下的原始信號(hào),從原始信號(hào)中提取時(shí)域特征和頻域特征并整合形成特征數(shù)據(jù)集;
5、步驟2、設(shè)計(jì)基于平衡分布自適應(yīng)的數(shù)據(jù)非線性變換方法,進(jìn)行源工況數(shù)據(jù)和目標(biāo)工況數(shù)據(jù)的分布對(duì)齊,消除工況變化導(dǎo)致的分布差異;
6、步驟3、利用分布對(duì)齊后的源工況數(shù)據(jù)集,構(gòu)建初始隨機(jī)森林故障診斷模型;
7、步驟4、保持初始隨機(jī)森林故障診斷模型結(jié)構(gòu),利用分布對(duì)齊后的目標(biāo)工況數(shù)據(jù)集更新模型參數(shù),構(gòu)建遷移隨機(jī)森林故障診斷模型;
8、步驟5、采集當(dāng)前工況的樣本,采用轉(zhuǎn)換矩陣對(duì)當(dāng)前工況的樣本進(jìn)行轉(zhuǎn)換,將轉(zhuǎn)換后的樣本輸入遷移隨機(jī)森林故障診斷模型,得到樣本的故障類別,實(shí)現(xiàn)在線的故障診斷。
9、進(jìn)一步地,所述步驟1的具體過程為:
10、步驟1.1、基于現(xiàn)有的高鐵牽引控制系統(tǒng)仿真平臺(tái),采用多傳感器融合的模式,采集高速列車不同時(shí)速不同工況下牽引電機(jī)在正常、轉(zhuǎn)子斷條故障、匝間短路故障和氣隙偏心故障四種狀態(tài)類型下的傳感器信號(hào)作為原始信號(hào);
11、步驟1.2、原始信號(hào)由若干個(gè)片段組成,根據(jù)經(jīng)驗(yàn)公式從每個(gè)原始信號(hào)片段中提取時(shí)域特征;時(shí)域特征包括最大值、最小值、峰值、峰峰值、平均值、絕對(duì)平均值、均方根、方根幅值、標(biāo)準(zhǔn)差、脈沖因子、峰值因子、裕度因子;
12、步驟1.3、對(duì)每個(gè)原始信號(hào)片段進(jìn)行快速傅里葉變換得到頻域信號(hào),從頻域信號(hào)中提取頻域特征;頻域特征包括頻譜能量均值、頻譜能量方差、重心頻率、頻率標(biāo)準(zhǔn)差、均方頻率、頻譜峰度;
13、步驟1.4、整合同一原始信號(hào)片段提取的時(shí)域特征和頻域特征形成特征樣本,根據(jù)狀態(tài)類型確定樣本標(biāo)簽,綜合所有的特征樣本得到特征數(shù)據(jù)集;
14、步驟1.5、根據(jù)每個(gè)工況之間的遷移情況,確定源工況數(shù)據(jù)集和目標(biāo)工況數(shù)據(jù)集;定義包含個(gè)樣本的源工況數(shù)據(jù)集為,包含個(gè)樣本的目標(biāo)工況數(shù)據(jù)集為;中每個(gè)源工況數(shù)據(jù),,為源工況樣本個(gè)數(shù);為第個(gè)源工況樣本;源工況樣本的特征個(gè)數(shù)和目標(biāo)工況樣本的特征個(gè)數(shù)相同,均定義為;為第個(gè)源工況樣本的第個(gè)特征;中每個(gè)目標(biāo)工況數(shù)據(jù),,為目標(biāo)工況樣本個(gè)數(shù);為第個(gè)目標(biāo)工況樣本;為第個(gè)目標(biāo)工況樣本的第個(gè)特征。
15、進(jìn)一步地,所述步驟2的具體過程為:
16、步驟2.1、計(jì)算源工況數(shù)據(jù)和目標(biāo)工況數(shù)據(jù)的邊緣分布差異與條件分布差異,公式如下:
17、;
18、;
19、其中,和分別為源工況和目標(biāo)工況樣本的標(biāo)號(hào);為第個(gè)源工況樣本;為第個(gè)目標(biāo)工況樣本;表示希爾伯特空間;是映射函數(shù),把原始樣本映射到再生希爾伯特空間;為故障樣本的類別;為故障樣本類別的個(gè)數(shù)?;表示包含個(gè)類故障樣本的源工況數(shù)據(jù)集;表示包含個(gè)類故障樣本的目標(biāo)工況數(shù)據(jù)集;
20、步驟2.2、根據(jù)與確定平衡因子,計(jì)算源工況數(shù)據(jù)和目標(biāo)工況數(shù)據(jù)的分布距離:
21、;
22、其中,為與的分布距離;
23、步驟2.3、通過核函數(shù)方法將分布距離的最小化問題轉(zhuǎn)化為求轉(zhuǎn)換矩陣的跡最小的優(yōu)化問題,具體公式如下:
24、;
25、其中,表示轉(zhuǎn)換矩陣的跡;是的轉(zhuǎn)置;表示由和組成的輸入矩陣;表示矩陣的轉(zhuǎn)置;是正則化參數(shù);表示范數(shù)的平方;和是由樣本數(shù)量決定的不同參數(shù)矩陣;是單位矩陣;是中心矩陣,為1矩陣,即所有元素都為1的矩陣;
26、求解需要構(gòu)造拉格朗日函數(shù),如下:
27、;
28、其中,為拉格朗日乘子;
29、令,即可求出轉(zhuǎn)換矩陣;
30、步驟2.4、基于轉(zhuǎn)換矩陣,得到分布對(duì)齊后的源工況數(shù)據(jù)和目標(biāo)工況數(shù)據(jù):
31、;
32、;
33、其中,為分布對(duì)齊后的源工況數(shù)據(jù);為分布對(duì)齊后的目標(biāo)工況數(shù)據(jù);為分布對(duì)齊后的特征個(gè)數(shù);
34、所有分布對(duì)齊后的源工況數(shù)據(jù)構(gòu)成分布對(duì)齊后的源工況數(shù)據(jù)集,所有分布對(duì)齊后的目標(biāo)工況數(shù)據(jù)構(gòu)成分布對(duì)齊后的目標(biāo)工況數(shù)據(jù)集。
35、進(jìn)一步地,所述步驟3的具體過程為:
36、步驟3.1、在分布對(duì)齊后的源工況數(shù)據(jù)基礎(chǔ)上,通過bootstrap重抽樣方法構(gòu)建源工況樣本子集;bootstrap重抽樣方法的具體過程為:對(duì)經(jīng)過次有放回抽樣,得到一個(gè)由個(gè)樣本構(gòu)成的源工況樣本子集;的抽樣過程中從未被抽到的樣本構(gòu)成源工況袋外數(shù)據(jù)集;
37、步驟3.2、在分布對(duì)齊后的個(gè)特征組成的特征集上,通過隨機(jī)抽樣的方式抽取個(gè)特征形成特征子集;
38、步驟3.3、在由源工況樣本子集和特征子集構(gòu)成的子集對(duì)上完成決策樹的生長(zhǎng),從根節(jié)點(diǎn)開始逐漸完成節(jié)點(diǎn)的分裂,直至所有子節(jié)點(diǎn)中只含有一類樣本;節(jié)點(diǎn)分裂過程中每個(gè)非葉子節(jié)點(diǎn)的分裂特征和分裂點(diǎn)的選擇由最小基尼指數(shù)確定,具體如下:
39、;
40、其中,為基尼指數(shù);、為左子節(jié)點(diǎn)和右子節(jié)點(diǎn)中源工況數(shù)據(jù)的集合;、分別為、的樣本數(shù);為父葉子節(jié)點(diǎn)處的總樣本數(shù);
41、在由源工況樣本子集和特征子集構(gòu)成的數(shù)據(jù)子集對(duì)上,按照步驟3.3決策樹生長(zhǎng)的方式完成決策樹的生長(zhǎng);
42、步驟3.4、將源工況袋外數(shù)據(jù)輸入構(gòu)建完成的初始隨機(jī)森林故障診斷模型,得到隨機(jī)森林的輸出結(jié)果,與源工況袋外數(shù)據(jù)的真實(shí)標(biāo)簽對(duì)比,得到源工況袋外估計(jì)結(jié)果;源工況袋外樣本從根節(jié)點(diǎn)進(jìn)入,其特征值會(huì)與節(jié)點(diǎn)處的節(jié)點(diǎn)分裂閾值作比較,劃分到子節(jié)點(diǎn)中,按照此方式該樣本最終落入葉子節(jié)點(diǎn),根據(jù)此葉子節(jié)點(diǎn)對(duì)應(yīng)的故障類型確定該樣本的故障類型;每棵決策樹都會(huì)對(duì)樣本進(jìn)行故障分類,通過對(duì)所有決策樹的故障分類結(jié)果進(jìn)行投票,選擇得票最多的故障類別作為隨機(jī)森林的最終故障分類結(jié)果;具體為:
43、;
44、其中,為隨機(jī)森林的故障分類結(jié)果;為輸入的源工況袋外數(shù)據(jù);為第棵決策樹的分類結(jié)果;為滿足括號(hào)中表達(dá)式的決策樹棵數(shù);為決策樹的總棵數(shù);
45、步驟3.5、根據(jù)源工況袋外估計(jì)結(jié)果確定隨機(jī)森林的最優(yōu)決策樹棵數(shù),尋找最優(yōu)決策樹棵數(shù)的過程實(shí)質(zhì)相當(dāng)于對(duì)初始隨機(jī)森林故障診斷模型參數(shù)的優(yōu)化過程,通過源工況袋外數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試,模型分類準(zhǔn)確率會(huì)隨著決策樹數(shù)量的增加而逐漸提升并收斂;當(dāng)準(zhǔn)確率收斂時(shí),決策樹數(shù)量的最小值即為最優(yōu)的決策樹棵數(shù),進(jìn)而得到初始隨機(jī)森林故障診斷模型。
46、進(jìn)一步地,所述步驟4的具體過程為:
47、步驟4.1、在分布對(duì)齊后的目標(biāo)工況數(shù)據(jù)上,通過bootstrap方法產(chǎn)生與初始隨機(jī)森林模型中決策樹棵數(shù)相同的分布對(duì)齊后的目標(biāo)工況樣本子集,的抽樣過程中從未被抽到的樣本構(gòu)成目標(biāo)工況袋外數(shù)據(jù)集;
48、步驟4.2、保持初始隨機(jī)森林故障診斷模型結(jié)構(gòu),利用分布對(duì)齊后的目標(biāo)工況樣本子集完成決策樹節(jié)點(diǎn)分裂閾值的更新,新的節(jié)點(diǎn)分裂閾值由散度增益和基尼指數(shù)共同決定,具體公式如下:
49、;
50、?;
51、其中,為初始隨機(jī)森林故障診斷模型中決策樹節(jié)點(diǎn)的分裂閾值;為散度增益;為節(jié)點(diǎn)閾值更新后的隨機(jī)森林故障診斷模型中決策樹節(jié)點(diǎn)的分裂閾值;為分布差異函數(shù),即最大均值差異的平方;和分別為左子節(jié)點(diǎn)和右子節(jié)點(diǎn)中目標(biāo)工況數(shù)據(jù)的集合;和分別為左子節(jié)點(diǎn)和右子節(jié)點(diǎn)中源工況數(shù)據(jù)的集合;為鄰域內(nèi)的節(jié)點(diǎn)分裂閾值的可取值;是一個(gè)任意小的正數(shù);
52、子節(jié)點(diǎn)中源工況數(shù)據(jù)和目標(biāo)工況數(shù)據(jù)的分布差異由下式衡量:
53、;
54、;
55、其中,和分別為左子節(jié)點(diǎn)和右子節(jié)點(diǎn)中目標(biāo)工況樣本的數(shù)量;
56、步驟4.3、按照步驟4.2的規(guī)則從根節(jié)點(diǎn)開始,逐漸更新所有非葉子節(jié)點(diǎn)的節(jié)點(diǎn)分裂閾值;
57、步驟4.4、利用步驟4.1中形成的目標(biāo)工況樣本子集,按照步驟4.2至步驟4.3節(jié)點(diǎn)分裂閾值的更新方式更新所有決策樹的節(jié)點(diǎn)分裂閾值;
58、步驟4.5、子節(jié)點(diǎn)中數(shù)據(jù)為空的父節(jié)點(diǎn),維持原有的分裂特征和節(jié)點(diǎn)分裂閾值,不對(duì)決策樹進(jìn)行剪枝;葉子結(jié)點(diǎn)中目標(biāo)工況樣本類別不一致的,按照基尼指數(shù)最小化的原則繼續(xù)完成節(jié)點(diǎn)分裂,直到達(dá)到?jīng)Q策樹停止生長(zhǎng)條件為止;更新結(jié)束后,得到遷移隨機(jī)森林故障診斷模型;
59、步驟4.6、利用步驟4.1中的目標(biāo)工況袋外數(shù)據(jù)完成構(gòu)建遷移隨機(jī)森林故障診斷模型的測(cè)試。
60、進(jìn)一步地,所述步驟5中,?轉(zhuǎn)換公式為:
61、;
62、其中,為當(dāng)前工況的樣本;為轉(zhuǎn)換后的樣本。
63、本發(fā)明所帶來的有益技術(shù)效果:本發(fā)明設(shè)計(jì)了一種非線性特征變換方法完成源工況數(shù)據(jù)和目標(biāo)工況數(shù)據(jù)的分布對(duì)齊,緩解二者的分布差異;在變換后的源工況數(shù)據(jù)上完成初始隨機(jī)森林故障診斷模型的構(gòu)建;提出了一種綜合散度增益和基尼指數(shù)的節(jié)點(diǎn)分裂閾值的更新方法,得到遷移隨機(jī)森林故障診斷模型;充分利用源工況數(shù)據(jù)中的先驗(yàn)知識(shí),克服源工況和目標(biāo)工況的分布差異,提升遷移隨機(jī)森林故障診斷模型在目標(biāo)工況中的故障診斷準(zhǔn)確率。