本發(fā)明屬于圖像處理,涉及一種基于聯(lián)邦學(xué)習(xí)的多變電站設(shè)備缺陷識別方法及系統(tǒng)。
背景技術(shù):
1、近幾年,以clip模型為代表的視覺語言預(yù)訓(xùn)練模型通過對大量視覺文本配對數(shù)據(jù)進行預(yù)訓(xùn)練,在視覺任務(wù)中展現(xiàn)出了強大的處理能力,對常規(guī)的自然圖像處理具有較好的零樣本識別能力,對于大部分語義類別,預(yù)訓(xùn)練模型已經(jīng)具備了初步的識別能力,只需要少量參數(shù)微調(diào)即可適應(yīng)到目標(biāo)數(shù)據(jù)集上,處理下游任務(wù)。
2、公開號為cn115829028a的發(fā)明專利公開了一種多模態(tài)聯(lián)邦學(xué)習(xí)任務(wù)處理方法,通過多模態(tài)數(shù)據(jù)的線性嵌入、基于線性嵌入的模態(tài)遷移聯(lián)邦訓(xùn)練和采用同模嵌入結(jié)果進行聯(lián)邦學(xué)習(xí)任務(wù)訓(xùn)練,支持具有不同數(shù)據(jù)模態(tài)參與方進行聯(lián)邦學(xué)習(xí)訓(xùn)練以得到相比本地訓(xùn)練更優(yōu)質(zhì)的模型。
3、公開號為cn118261236a的發(fā)明專利公開了一種面向多模態(tài)數(shù)據(jù)的聯(lián)邦學(xué)習(xí)方法,針對傳統(tǒng)聯(lián)邦學(xué)習(xí)方法缺乏對模態(tài)缺失情況的魯棒性問題提出改進方案,服務(wù)端會根據(jù)包括客戶端數(shù)據(jù)量、客戶端模態(tài)缺失比例以及缺失模態(tài)對任務(wù)的貢獻(xiàn)在內(nèi)的三個因素分配客戶端的權(quán)重,降低模態(tài)缺失客戶端對全局模型帶來的影響。
4、現(xiàn)有技術(shù)主要在傳統(tǒng)cnn模型或者transformer模型結(jié)構(gòu)下設(shè)計預(yù)訓(xùn)練模型,對于特定的下游任務(wù),如在處理多變電站設(shè)備缺陷識別任務(wù)時,需要收集多個變電站的數(shù)據(jù)。傳統(tǒng)的集中式學(xué)習(xí)方法需要收集各變電站的原始數(shù)據(jù),導(dǎo)致敏感數(shù)據(jù)在傳輸和存儲過程中存在泄露風(fēng)險;即使部分現(xiàn)有技術(shù)采用分布式學(xué)習(xí),也并沒有針對多客戶端環(huán)境中數(shù)據(jù)不可見性的問題提出有效的特征融合機制,且由于客戶端之間的數(shù)據(jù)不可見,加劇了視覺特征偏移的問題。此外,雖然clip模型具有強大的零樣本能力,但由于其參數(shù)量大,難以直接用于聯(lián)邦學(xué)習(xí)環(huán)境中,進行高效的本地知識學(xué)習(xí)和全局參數(shù)聚合。因此,如何實現(xiàn)視覺語言預(yù)訓(xùn)練模型在少量參數(shù)下進行不同客戶端的知識學(xué)習(xí)與知識融合,以及解決客戶端數(shù)據(jù)不可見導(dǎo)致特征偏移的問題,顯得尤為重要。
技術(shù)實現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于解決變電站設(shè)備缺陷識別過程中客戶端數(shù)據(jù)不可見導(dǎo)致特征偏移的問題。
2、本發(fā)明是通過以下技術(shù)方案解決上述技術(shù)問題的:
3、一種基于聯(lián)邦學(xué)習(xí)的多變電站設(shè)備缺陷識別方法,包括以下步驟:
4、s1、獲取多個變電站設(shè)備缺陷的樣本數(shù)據(jù),劃分為訓(xùn)練集和測試集,所述訓(xùn)練集包括訓(xùn)練集圖像和訓(xùn)練集標(biāo)簽,所述測試集包括測試集圖像和測試集標(biāo)簽,對訓(xùn)練集圖像進行隨機裁剪,將所有訓(xùn)練集圖像大小縮放到統(tǒng)一尺寸,再進行數(shù)值歸一化處理;
5、s2、在本地端構(gòu)建基于編碼器-解碼器結(jié)構(gòu)的視覺特征生成模型,構(gòu)建可學(xué)習(xí)的文本提示詞,所述視覺特征生成模型包括clip模型、編碼器和解碼器,初始化編碼器和解碼器的參數(shù);
6、s3、在本地端固定文本提示詞,將訓(xùn)練集圖像輸入clip模型的視覺分支并輸出原始視覺特征,作為編碼器的輸入,使編碼器輸出第一隱變量,解碼器接受第一隱變量作為輸入,輸出殘差特征,將解碼器的輸出與文本特征相加,得到內(nèi)部重建視覺特征,并計算重建損失,利用重建損失對視覺特征生成模型的參數(shù)進行更新;
7、s4、在本地端固定視覺特征生成模型的參數(shù),將文本提示詞輸入clip模型的文本分支并輸出各類別文本特征,在標(biāo)準(zhǔn)正態(tài)分?jǐn)?shù)中隨機采樣形成第二隱變量,經(jīng)過解碼器的輸出與文本特征相加,得到生成視覺特征,并結(jié)合原始視覺特征構(gòu)成訓(xùn)練視覺特征,通過softmax函數(shù)計算訓(xùn)練視覺特征與不同類別的文本特征的類別分?jǐn)?shù),構(gòu)建交叉熵?fù)p失,通過梯度反傳的方式更新文本提示詞的參數(shù);
8、s5、將本地端的文本提示詞、編碼器和解碼器參數(shù)上傳到服務(wù)器端,在服務(wù)器端構(gòu)建基于聯(lián)邦學(xué)習(xí)的全局模型,計算全局模型的文本提示詞、編碼器和解碼器參數(shù),構(gòu)建特征蒸餾損失和隱變量蒸餾損失;
9、s6、將全局模型的參數(shù)分發(fā)到本地端,重復(fù)執(zhí)行s3至s5,直至迭代到最大次數(shù),輸入測試集,計算全局模型的精準(zhǔn)度。
10、進一步地,所述s2中clip模型包括視覺分支和文本分支,視覺分支采用vit模型結(jié)構(gòu),接受圖像輸入,文本分支采用transformer結(jié)構(gòu),接受包含類別的文本輸入;
11、利用下述邏輯表示視覺分支接受圖像輸入:
12、
13、式中,表示圖像輸入,表示原始視覺特征;
14、利用下述邏輯表示文本分支接受包含類別的文本輸入:
15、
16、
17、式中,表示類別為c的文本描述,表示第c個類別的名稱,,表示類別的數(shù)量,,表示文本提示詞,表示類別為c的文本特征。
18、進一步地,所述s3中利用下述邏輯表示內(nèi)部重建視覺特征:
19、
20、式中,表示類別為c的內(nèi)部重建視覺特征,表示解碼器接受第一隱變量作為輸入后輸出的殘差特征,,表示解碼器,表示第一隱變量;
21、利用下述邏輯計算重建損失:
22、
23、式中,表示重建損失,表示均方誤差損失函數(shù),表示計算原始視覺特征與內(nèi)部重建視覺特征的均方誤差損失,表示kl損失,表示類別為c的前提下,第一隱變量中每個元素取值的概率分布,服從標(biāo)準(zhǔn)正態(tài)分布的先驗分布,表示利用編碼器輸出度量的差異,,表示編碼器。
24、進一步地,所述s3中利用下述邏輯表示生成視覺特征:
25、
26、式中,表示類別為c的生成視覺特征,表示解碼器接受第二隱變量作為輸入后輸出的殘差特征,,表示第二隱變量;
27、利用下述邏輯表示通過softmax函數(shù)計算訓(xùn)練視覺特征與不同類別的文本特征的類別分?jǐn)?shù):
28、
29、
30、式中,表示訓(xùn)練視覺特征屬于第c個類別的概率,表示第i個訓(xùn)練視覺特征,表示指數(shù)運算,表示與之間的余弦相似度,表示l2歸一化,表示與之間的余弦相似度,表示類別為j的文本特征,表示溫度系數(shù);
31、利用下述邏輯表示構(gòu)建交叉熵?fù)p失:
32、
33、式中,表示交叉熵?fù)p失,n表示訓(xùn)練視覺特征的數(shù)量,表示第i個訓(xùn)練集標(biāo)簽的類別,表示模型預(yù)測屬于類別的概率。
34、進一步地,所述s5包括以下步驟:
35、s51、在服務(wù)器端將本地端的文本提示詞、編碼器和解碼器進行參數(shù)平均,得到全局模型的文本提示詞、編碼器和解碼器;
36、s52、在服務(wù)器端對全局模型的編碼器和解碼器進行知識蒸餾,在標(biāo)準(zhǔn)正態(tài)分?jǐn)?shù)中隨機采樣形成第三隱變量,利用全局模型的文本提示詞得到全局模型的文本特征,計算本地端的重建視覺特征和本地端的第四隱變量,計算服務(wù)器端的重建視覺特征和服務(wù)器端的第五隱變量;
37、s53、在服務(wù)器端計算特征蒸餾損失和隱變量蒸餾損失,構(gòu)建服務(wù)器端的總損失。
38、進一步地,所述s51中利用下述邏輯表示全局模型的文本提示詞、編碼器和解碼器:
39、
40、
41、
42、式中,表示全局模型的文本提示詞的第n個參數(shù),,令,表示全局模型的文本提示詞,m表示本地端視覺特征生成模型的數(shù)量,表示第m個本地端文本提示詞的第n個參數(shù),,表示全局模型的編碼器,表示第m個本地端編碼器,表示全局模型的解碼器,表示第m個本地端解碼器。
43、進一步地,所述s52中利用下述邏輯計算本地端的重建視覺特征:
44、
45、
46、
47、式中,表示本地端解碼器接受第三隱變量輸入后輸出的殘差特征,表示第三隱變量,表示全局模型的類別為c的文本描述,表示第m個本地端的類別為c的重建視覺特征;
48、利用下述邏輯計算本地端的第四隱變量:
49、
50、式中,表示第四隱變量,表示第m個本地端編碼器。
51、進一步地,所述s52中利用下述邏輯計算服務(wù)器端的重建視覺特征:
52、
53、
54、式中,表示全局模型的解碼器接受第三隱變量輸入后輸出的殘差特征,表示服務(wù)器端的類別為c的重建視覺特征;
55、利用下述邏輯計算服務(wù)器端的第五隱變量:
56、
57、式中,表示第五隱變量。
58、進一步地,所述s53中利用下述邏輯計算特征蒸餾損失:
59、
60、式中,表示特征蒸餾損失;
61、利用下述邏輯計算隱變量蒸餾損失:
62、
63、式中,表示隱變量蒸餾損失;
64、利用下述邏輯計算服務(wù)器端的總損失:
65、
66、式中,表示服務(wù)器端的總損失。
67、一種基于聯(lián)邦學(xué)習(xí)的多變電站設(shè)備缺陷識別系統(tǒng),包括數(shù)據(jù)處理模塊、本地端模型建立模塊、本地端參數(shù)更新模塊、本地端文本提示詞訓(xùn)練模塊、服務(wù)器端模型建立模塊和服務(wù)器端模型訓(xùn)練模塊;
68、所述數(shù)據(jù)處理模塊用于獲取多個變電站設(shè)備缺陷的樣本數(shù)據(jù),劃分為訓(xùn)練集和測試集,所述訓(xùn)練集包括訓(xùn)練集圖像和訓(xùn)練集標(biāo)簽,所述測試集包括測試集圖像和測試集標(biāo)簽,對訓(xùn)練集圖像進行隨機裁剪,將所有訓(xùn)練集圖像大小縮放到統(tǒng)一尺寸,再進行數(shù)值歸一化處理;
69、所述本地端模型建立模塊用于在本地端構(gòu)建基于編碼器-解碼器結(jié)構(gòu)的視覺特征生成模型,構(gòu)建可學(xué)習(xí)的文本提示詞,所述視覺特征生成模型包括clip模型、編碼器和解碼器,初始化編碼器和解碼器的參數(shù);
70、所述本地端參數(shù)更新模塊在本地端固定文本提示詞,將訓(xùn)練集圖像輸入clip模型的視覺分支并輸出原始視覺特征,作為編碼器的輸入,使編碼器輸出第一隱變量,解碼器接受第一隱變量作為輸入,輸出殘差特征,將解碼器的輸出與文本特征相加,得到內(nèi)部重建視覺特征,并計算重建損失,利用重建損失對視覺特征生成模型的參數(shù)進行更新;
71、所述本地端文本提示詞訓(xùn)練模塊用于在本地端固定視覺特征生成模型的參數(shù),將文本提示詞輸入clip模型的文本分支并輸出各類別文本特征,在標(biāo)準(zhǔn)正態(tài)分?jǐn)?shù)中隨機采樣形成第二隱變量,經(jīng)過解碼器的輸出與文本特征相加,得到生成視覺特征,并結(jié)合原始視覺特征構(gòu)成訓(xùn)練視覺特征,通過softmax函數(shù)計算訓(xùn)練視覺特征與不同類別的文本特征的類別分?jǐn)?shù),構(gòu)建交叉熵?fù)p失,通過梯度反傳的方式更新文本提示詞的參數(shù);
72、所述服務(wù)器端模型建立模塊用于將本地端的文本提示詞、編碼器和解碼器參數(shù)上傳到服務(wù)器端,在服務(wù)器端構(gòu)建基于聯(lián)邦學(xué)習(xí)的全局模型,計算全局模型的文本提示詞、編碼器和解碼器參數(shù),構(gòu)建特征蒸餾損失和隱變量蒸餾損失;
73、所述服務(wù)器端模型訓(xùn)練模塊用于將全局模型的參數(shù)分發(fā)到本地端,重復(fù)執(zhí)行本地端參數(shù)更新模塊至服務(wù)器端模型建立模塊,直至迭代到最大次數(shù),輸入測試集,計算全局模型的精準(zhǔn)度。
74、本發(fā)明的優(yōu)點在于:
75、(1)本發(fā)明在聯(lián)邦學(xué)習(xí)過程中,本地端和服務(wù)器端之間不需要傳遞clip模型的視覺分支和文本分支,僅需要傳遞文本提示詞、編碼器和解碼器的參數(shù)即可實現(xiàn)不同服務(wù)器端的知識學(xué)習(xí)與知識融合,相比于具有大參數(shù)量的clip模型,極大降低了傳輸參數(shù)量。
76、(2)本發(fā)明通過本地端模型的參數(shù)平均來對全局模型的參數(shù)進行賦值,將不同本地端模型的知識融入服務(wù)器端的全局模型,基于重建視覺特征和隱變量計算蒸餾損失,對全局模型進行訓(xùn)練,將訓(xùn)練結(jié)束后全局模型的文本提示詞、編碼器和解碼器的參數(shù)再分發(fā)到本地端,通過多次的本地端和服務(wù)器端的循環(huán)訓(xùn)練,最終得到效果最優(yōu)的服務(wù)器端的全局模型,對于本地端模型,能夠生成任意類別尤其是未見類別的視覺特征,減少變電站設(shè)備缺陷識別過程中服務(wù)器端數(shù)據(jù)不可見導(dǎo)致特征偏移的現(xiàn)象,提升模型的泛化能力。