本發(fā)明屬于聯(lián)邦學(xué)習(xí),具體涉及一種基于原型引導(dǎo)的聯(lián)邦一致性表示學(xué)習(xí)系統(tǒng)及方法。
背景技術(shù):
1、聯(lián)邦學(xué)習(xí)支持使用來(lái)自不同來(lái)源的數(shù)據(jù)進(jìn)行協(xié)作建模,它在數(shù)據(jù)源之間共享模型參數(shù)而不是原始數(shù)據(jù),以確保隱私和安全。這顯著提高了孤立數(shù)據(jù)的有效利用,使它們能夠?yàn)楹献鳑Q策做出貢獻(xiàn),并學(xué)習(xí)一個(gè)普遍的模型。然而,現(xiàn)有的研究強(qiáng)調(diào),客戶之間的數(shù)據(jù)分布異構(gòu)性可能導(dǎo)致協(xié)作建模的有效性降低。這主要是因?yàn)樵谔幚砜蛻舳藘?nèi)部不平衡且客戶端之間分布不一致的數(shù)據(jù)時(shí),學(xué)習(xí)一致的特征空間變得具有挑戰(zhàn)性,這使得將目標(biāo)不一致的多個(gè)學(xué)習(xí)者集成到一個(gè)顯著的模型中非常困難。
2、發(fā)明人發(fā)現(xiàn),現(xiàn)有技術(shù)存在以下技術(shù)缺陷:現(xiàn)有的聯(lián)邦學(xué)習(xí)方法,無(wú)法在不共享用戶隱私數(shù)據(jù)的前提下,指導(dǎo)客戶端模型利用私有數(shù)據(jù)學(xué)習(xí)一致的特征空間,并忽略了訓(xùn)練數(shù)據(jù)的不平衡,這可能會(huì)阻礙對(duì)有限樣本大小的類別進(jìn)行有效的表征學(xué)習(xí)和校準(zhǔn),導(dǎo)致聚合后模型的圖像分類準(zhǔn)確度不高,缺乏普適性。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供了一種基于原型引導(dǎo)的聯(lián)邦一致性表示學(xué)習(xí)系統(tǒng)及方法,顯著改善了現(xiàn)有方法在聯(lián)邦學(xué)習(xí)場(chǎng)景中的圖像分類效果。
2、為了解決以上技術(shù)問(wèn)題,本發(fā)明的技術(shù)方案為:
3、第一方面,本發(fā)明提供了一種基于原型引導(dǎo)的聯(lián)邦一致性表示學(xué)習(xí)系統(tǒng),包括:源內(nèi)表征校準(zhǔn)模塊,用于對(duì)客戶端的表示分布進(jìn)行建模,改進(jìn)局部訓(xùn)練,對(duì)不平衡數(shù)據(jù)上的特征分布進(jìn)行校正;同時(shí),它向服務(wù)器提供原型信息,包括集群原型、集群方差和注意力分?jǐn)?shù);
4、跨源一致表征學(xué)習(xí)模塊,用于學(xué)習(xí)泛化投影和分類器,它首先利用統(tǒng)計(jì)知識(shí)生成增強(qiáng)特征,細(xì)化特征空間,提高多樣性;隨后,將不同來(lái)源的特征映射到統(tǒng)一的空間進(jìn)行比對(duì)和分類,并根據(jù)注意力得分消除異常點(diǎn)的干擾。
5、在一種典型實(shí)施方式中,所述源內(nèi)表征校準(zhǔn)模塊包括兩個(gè)過(guò)程:知識(shí)引導(dǎo)的表征校準(zhǔn)和聚類驅(qū)動(dòng)的類模式建模。
6、進(jìn)一步,知識(shí)引導(dǎo)的表征校準(zhǔn)具體為:使用從預(yù)先訓(xùn)練的clip(contrastivelanguage-image?pre-training)中學(xué)習(xí)的固定的類別感知文本特征作為局部特征學(xué)習(xí)的優(yōu)化目標(biāo),以規(guī)范客戶端的特征學(xué)習(xí)。它執(zhí)行有監(jiān)督的原型對(duì)比學(xué)習(xí),以最大化保證潛在空間中圖像特征和文本原型之間的一致性,目標(biāo)損失被定義為:
7、,
8、其中,表示客戶端中類的圖像特征,,是文本編碼器,表示類的數(shù)量,為圖像特征的標(biāo)簽,為指示函數(shù),,,為客戶端中的訓(xùn)練數(shù)據(jù)的數(shù)量,表示溫度參數(shù)。
9、同時(shí),使用經(jīng)驗(yàn)損失來(lái)進(jìn)一步確保模型的分類能力,即,
10、,
11、其中,表示模型輸出向量中的第個(gè)元素,是圖像的標(biāo)簽。
12、在一種典型實(shí)施方式中,所述聚類驅(qū)動(dòng)的類模式建模具體為:利用從源內(nèi)表征校準(zhǔn)模塊學(xué)習(xí)的固定模型從所有訓(xùn)練數(shù)據(jù)中提取特征,并使用k-均值聚類方法來(lái)挖掘潛在空間中的不同模式,即,
13、,
14、其中,表示客戶端中類別的數(shù)據(jù),是一個(gè)超級(jí)參數(shù),它表示簇的數(shù)量。此外,為了在特征空間中獲得更精確的分布,該模塊計(jì)算簇內(nèi)的特征的平均值和方差,即,
15、,
16、,
17、其中,表示集群的大小。
18、此外,考慮到數(shù)據(jù)分布的不平衡導(dǎo)致了有限的能力,為了學(xué)習(xí)少數(shù)樣本類別的判別表示,源內(nèi)表征校準(zhǔn)模塊進(jìn)一步評(píng)估所有聚類的重要性,以減少異常特征對(duì)模型校準(zhǔn)的干擾,它包含三個(gè)因素,包括聚類大小、聚類緊湊度和到其他類別聚類中心的最小距離。對(duì)于簇,,,,其中,是與簇不同類別的簇中心,表示屬于簇的數(shù)據(jù)特征。從本質(zhì)上講,一個(gè)簇越大、越緊密,離其他簇的中心越遠(yuǎn),它就越重要。因此,簇的重要度分?jǐn)?shù)可以表示為。最后,客戶端將三元組和本地模型上載到服務(wù)器,其中是客戶端中的簇?cái)?shù)。值得注意的是,簇中心也被稱為本地原型。
19、在一種典型實(shí)施方式中,跨源一致表征學(xué)習(xí)模塊獲得從客戶端上傳的所有局部模型和局部原型集合,將來(lái)自異構(gòu)空間的原型特征對(duì)齊,主要包括兩個(gè)過(guò)程:類感知區(qū)域校準(zhǔn)和跨源特征對(duì)齊。
20、進(jìn)一步,類感知區(qū)域校準(zhǔn)具體為:利用知識(shí)轉(zhuǎn)移技術(shù)校準(zhǔn)類感知區(qū)域,使用高斯模型基于方差來(lái)生成擴(kuò)展特征。將具有高重要性分?jǐn)?shù)的方差和其他方差融合,以將重要知識(shí)傳遞到客戶端中的其他類別特征,即,
21、,
22、其中,是本地原型,是增強(qiáng)特征的數(shù)量,表示融合方差,表示對(duì)應(yīng)客戶端得分最高的聚類方差。
23、值得注意的是,與現(xiàn)有方法中的點(diǎn)對(duì)點(diǎn)方法相比,所生成的一組增強(qiáng)特征形成區(qū)域,這有助于跨源特征對(duì)齊模塊實(shí)現(xiàn)區(qū)域?qū)^(qū)域?qū)R。
24、進(jìn)一步,跨源特征對(duì)齊具體為:對(duì)于原始的全局模型,全局特征提取器不需要重新訓(xùn)練,而投影頭和分類器需要校準(zhǔn),即,。將本地學(xué)習(xí)的原型和來(lái)自類感知區(qū)域校準(zhǔn)模塊的增強(qiáng)特征映射到為跨源協(xié)作分類而設(shè)計(jì)的新空間。與此同時(shí),它采用兩級(jí)正則化方法對(duì)表示學(xué)習(xí)進(jìn)行精化,包括局部一致性匹配和互補(bǔ)一致性匹配,能夠更有效地強(qiáng)調(diào)類內(nèi)特征的共性和類間特征的差異性,消除了特定于客戶的信息。
25、對(duì)于局部一致性匹配級(jí)別,它通過(guò)對(duì)局部表示之間相互關(guān)系的一致性施加約束來(lái)促進(jìn)學(xué)習(xí)過(guò)程,從而引導(dǎo)模型獲取在不同客戶端保持不變的特征。這可以用以下方式來(lái)表達(dá):
26、,
27、其中,是經(jīng)過(guò)校準(zhǔn)的投影頭映射后的特征,如果是客戶端中類的本地原型,則;如果是增強(qiáng)特征,則,,表示點(diǎn)積。
28、,其中,是歐幾里得距離。
29、總體而言,局部匹配損耗定義為:
30、。
31、對(duì)于互補(bǔ)一致性匹配級(jí)別,它利用來(lái)自不同來(lái)源的特征的互補(bǔ)性,促進(jìn)模型跨客戶學(xué)習(xí)一致性特征,使模型超越單一視角的限制,實(shí)現(xiàn)更全面的學(xué)習(xí)水平。這可以定義為:
32、。
33、此外,為了增強(qiáng)模型校正的穩(wěn)健性并保持清晰的決策邊界,該模塊以加權(quán)的方式利用所有特征的重要性得分來(lái)將模型的焦點(diǎn)從質(zhì)量較低的特征上轉(zhuǎn)移出來(lái),從而設(shè)計(jì)了加權(quán)監(jiān)督分類損失,定義如下:
34、,
35、其中,是從源內(nèi)表征校準(zhǔn)模塊學(xué)習(xí)的注意力分?jǐn)?shù),是經(jīng)過(guò)分類器學(xué)習(xí)到的預(yù)測(cè)。
36、更進(jìn)一步地,跨源一致表征學(xué)習(xí)模塊將校準(zhǔn)的全局模型發(fā)送給所有客戶端。
37、第二方面,本發(fā)明提供了一種基于原型引導(dǎo)的聯(lián)邦一致性表示學(xué)習(xí)方法,包括:利用客戶端中的私有數(shù)據(jù)對(duì)私有模型進(jìn)行訓(xùn)練,并利用預(yù)訓(xùn)練的clip模型輸出的類感知文本表征約束局部模型的表征學(xué)習(xí),所述客戶端中存儲(chǔ)有私有數(shù)據(jù)集和私有模型,訓(xùn)練結(jié)束后,使用訓(xùn)練好的私有模型對(duì)私有數(shù)據(jù)集進(jìn)行特征提取,將提取的特征進(jìn)行聚類,簇內(nèi)的特征均值被視為原型,并計(jì)算簇內(nèi)特征在各個(gè)維度上的方差和簇原型的重要性分?jǐn)?shù)。客戶端將私有模型和原型相關(guān)信息發(fā)送至服務(wù)端;服務(wù)端接收客戶端上傳的私有模型和原型,對(duì)私有模型的參數(shù)進(jìn)行求和,然后取平均值得到全局模型;服務(wù)端利用各方原型校準(zhǔn)全局模型中的全局投影頭和全局分類器,將校準(zhǔn)后的全局模型發(fā)送給客戶端。
38、在一種典型實(shí)施方式中,至少包括兩個(gè)客戶端和一個(gè)服務(wù)端。
39、在一種典型實(shí)施方式中,所有客戶端中的私有模型具有相同的結(jié)構(gòu)。
40、在一種典型實(shí)施方式中,客戶端的訓(xùn)練目標(biāo)是校準(zhǔn)客戶端的局部分布,以緩解由于數(shù)據(jù)分布不平衡而導(dǎo)致的客戶端之間特征空間的顯著差異,客戶端訓(xùn)練策略的總體優(yōu)化目標(biāo)為:
41、,
42、其中,是加權(quán)參數(shù);
43、服務(wù)器端進(jìn)一步減少不同空間上的特征分布差異,服務(wù)端優(yōu)化以下目標(biāo)函數(shù):
44、,
45、其中,是權(quán)重參數(shù)。
46、在一種典型實(shí)施方式中,所述相關(guān)信息為簇原型、簇內(nèi)方差和簇原型的重要性分?jǐn)?shù)。
47、在一種典型實(shí)施方式中,在源內(nèi)表征校準(zhǔn)模塊中,加權(quán)參數(shù)為0.1~5,溫度參數(shù)為0.5,簇?cái)?shù)為1~3;在跨源一致表征學(xué)習(xí)模塊中,權(quán)重參數(shù)為0.1~5,擴(kuò)展特征數(shù)為1~8。
48、進(jìn)一步,在源內(nèi)表征校準(zhǔn)模塊中,加權(quán)參數(shù),溫度參數(shù),簇?cái)?shù)。
49、在跨源一致表征學(xué)習(xí)模塊中,權(quán)重參數(shù),擴(kuò)展特征數(shù)。
50、本發(fā)明獲得了如下技術(shù)效果:
51、本發(fā)明提出了一種新的基于原型引導(dǎo)的聯(lián)邦一致性表示學(xué)習(xí)方法,稱為fedcrl,它包含兩個(gè)主要模塊:源內(nèi)表征校準(zhǔn)模塊和跨源一致表征學(xué)習(xí)模塊。為了促進(jìn)跨不同空間的特征的對(duì)齊,源內(nèi)表征校準(zhǔn)模塊利用預(yù)訓(xùn)練的文本表征來(lái)指導(dǎo)各個(gè)客戶端的局部學(xué)習(xí),以減少不同源特征空間的巨大差異;隨后,采用聚類來(lái)對(duì)類模式進(jìn)行建模,并向服務(wù)器提供原型信息以輔助模型校準(zhǔn)。隨后,為了增強(qiáng)校準(zhǔn)的魯棒性,本發(fā)明在跨源一致表征學(xué)習(xí)模塊中開(kāi)發(fā)了類感知區(qū)域校準(zhǔn)方法,該方法通過(guò)利用知識(shí)轉(zhuǎn)移技術(shù)來(lái)重構(gòu)各個(gè)源的特征空間,并緩解數(shù)據(jù)分布不平衡帶來(lái)的不良后果,同時(shí)增加各個(gè)類別樣本多樣性。同時(shí),本發(fā)明利用兩層約束來(lái)實(shí)現(xiàn)跨源特征的有效對(duì)齊。
52、值得注意的是,跨源一致表征學(xué)習(xí)模塊是一個(gè)高度適應(yīng)性的工具,可以輕松集成到各種算法中。在四個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括性能比較、關(guān)鍵部件的燒蝕研究、跨源一致表征學(xué)習(xí)有效性的深入分析和案例研究。實(shí)驗(yàn)結(jié)果表明,本發(fā)明能夠?qū)⒉煌瑪?shù)據(jù)源的異構(gòu)表示校準(zhǔn)到一個(gè)統(tǒng)一的空間中,性能優(yōu)于現(xiàn)有方法。本發(fā)明在不需要共享用戶隱私數(shù)據(jù)的前提下,將客戶端之間的異構(gòu)特征校準(zhǔn)到統(tǒng)一的空間中,校準(zhǔn)后的模型的圖像分類準(zhǔn)確度高,具有普適性。