本發(fā)明涉及小樣本數(shù)據(jù),尤其涉及一種基于雙向生成對抗網(wǎng)絡的小樣本數(shù)據(jù)合成方法。
背景技術:
1、在現(xiàn)有的人工智能和機器學習領域中,尤其是深度學習模型的訓練過程中,數(shù)據(jù)集的規(guī)模和質量對模型的性能有著至關重要的影響,然而,在許多實際應用場景中,獲取足夠規(guī)模且高質量的標注數(shù)據(jù)往往面臨極大的挑戰(zhàn),尤其是在醫(yī)學圖像處理和工業(yè)故障檢測領域,由于樣本的稀缺性和獲取難度,數(shù)據(jù)集通常較小,這樣的小樣本數(shù)據(jù)集的存在極大地限制了深度學習模型的泛化能力,導致深度學習模型在面對未見過的數(shù)據(jù)時表現(xiàn)不佳。
2、傳統(tǒng)的數(shù)據(jù)增強方法,包括旋轉、翻轉、縮放和噪聲注入雖然在一定程度上增加了數(shù)據(jù)集的多樣性,但變換方式較為簡單,并不能真正生成具有豐富多樣性的新樣本,因而無法從根本上解決小樣本數(shù)據(jù)集的問題。
3、生成對抗網(wǎng)絡的引入為數(shù)據(jù)合成提供了一種新的解決方案,通過生成器和判別器的對抗性訓練,生成對抗網(wǎng)絡能夠生成與真實數(shù)據(jù)分布相似的樣本,然而,傳統(tǒng)生成對抗網(wǎng)絡在小樣本場景下的應用仍然面臨諸多挑戰(zhàn),例如,生成的樣本在多樣性和真實性之間難以取得平衡,容易出現(xiàn)模式崩潰的現(xiàn)象,即生成的樣本缺乏多樣性,或者生成的樣本與真實樣本在統(tǒng)計特性上有明顯差異,此外,現(xiàn)有的生成對抗網(wǎng)絡方法在生成樣本的過程中,缺乏有效的自動化評價機制來平衡生成樣本的真實性與多樣性,導致生成器的優(yōu)化過程不夠精準,難以動態(tài)調整生成網(wǎng)絡的參數(shù),從而影響最終生成數(shù)據(jù)集的質量。
技術實現(xiàn)思路
1、本發(fā)明的一個目的在于提出一種基于雙向生成對抗網(wǎng)絡的小樣本數(shù)據(jù)合成方法,本發(fā)明在生成樣本的多樣性和真實性之間找到了最佳平衡點,使擴展后的數(shù)據(jù)集在視覺上與原始數(shù)據(jù)集相似的同時,具備更高的多樣性。
2、根據(jù)本發(fā)明實施例的一種基于雙向生成對抗網(wǎng)絡的小樣本數(shù)據(jù)合成方法,包括如下步驟:
3、s1、獲取小樣本數(shù)據(jù)集,對小樣本數(shù)據(jù)集進行預處理,包括數(shù)據(jù)清洗、歸一化處理和噪聲過濾;
4、s2、構建雙生成器-雙判別器的雙向生成對抗網(wǎng)絡:
5、第一個生成器,用于生成與原始小樣本數(shù)據(jù)集相似的第一合成樣本數(shù)據(jù)集;
6、第二個生成器,用于生成與原始小樣本數(shù)據(jù)集略有不同的第二合成樣本數(shù)據(jù)集;
7、第一個判別器,用于區(qū)分第一個生成器生成的第一合成樣本數(shù)據(jù)集與真實小樣本數(shù)據(jù)集,并評估第一合成樣本數(shù)據(jù)集的真實性;
8、第二個判別器,用于區(qū)分第二個生成器生成的小樣本數(shù)據(jù)集與真實小樣本數(shù)據(jù)集,并評估第二合成樣本數(shù)據(jù)集的多樣性;
9、s3、初始化第一個生成器、第二個生成器、第一個判別器和第二個判別器的參數(shù),并對第一個生成器、第二個生成器、第一個判別器和第二個判別器進行初步訓練;
10、s4、通過第一個生成器和第二個生成器生成初始合成樣本數(shù)據(jù)集,并分別將樣本數(shù)據(jù)集輸入至第一個判別器和第二個判別器進行判別,第一個判別器評估第一個生成器生成樣本的真實性,第二個判別器評估第二個生成器生成樣本的多樣性;
11、s5、根據(jù)第一個判別器和第二個判別器輸出的損失值,分別反向更新第一個生成器和第二個生成器的參數(shù),其中第一個生成器優(yōu)化生成樣本的真實性,第二個生成器優(yōu)化生成樣本的多樣性;
12、s6、重復s4和s5,在第一個生成器和第二個生成器的交替訓練中不斷優(yōu)化合成樣本數(shù)據(jù)集的質量,直至合成樣本數(shù)據(jù)集在真實性和多樣性上達到預定的要求;
13、s7、通過自適應噪聲引入機制和數(shù)據(jù)增強模塊對第一個生成器和第二個生成器的輸入進行優(yōu)化,增強小樣本數(shù)據(jù)集的多樣性,自適應噪聲引入機制根據(jù)訓練階段動態(tài)調整噪聲分布;
14、s8、生成擴展的小樣本數(shù)據(jù)集,擴展的小樣本數(shù)據(jù)集由第一個生成器和第二個生成器生成,且在視覺上和統(tǒng)計上與原始小樣本數(shù)據(jù)集相似,具有更高的多樣性;
15、s9、通過自動化評價機制對生成小樣本數(shù)據(jù)集的真實性和多樣性進行評分,根據(jù)評價結果動態(tài)調整雙向生成對抗網(wǎng)絡的參數(shù)。
16、可選的,所述s1包括以下子步驟:
17、s11、獲取初始小樣本數(shù)據(jù)集d0,初始小樣本數(shù)據(jù)集包含n個樣本,每個樣本xi屬于數(shù)據(jù)空間x,即d0={x1,x2,…,xn},其中xi表示第i個數(shù)據(jù)樣本;
18、s12、對初始小樣本數(shù)據(jù)集d0進行數(shù)據(jù)清洗,移除不完整或異常的數(shù)據(jù)點,生成清洗后的小樣本數(shù)據(jù)集d1,其中清洗操作表示為:
19、d1={xi∈d0∣滿足清洗條件};
20、s13、對清洗后的小樣本數(shù)據(jù)集d1進行歸一化處理,將所有樣本數(shù)據(jù)xi∈d1映射到標準范圍[a,b],得到歸一化后的小樣本數(shù)據(jù)集d2;
21、s14、對歸一化后的小樣本數(shù)據(jù)集d2進行噪聲過濾,移除或抑制小樣本數(shù)據(jù)集中的隨機噪聲成分,生成最終預處理后的小樣本數(shù)據(jù)集dpre:
22、dpre={x′i∈d2∣通過噪聲過濾}。
23、可選的,所述s2包括以下子步驟:
24、s21、構建第一個生成器g1,用于生成與最終預處理后的小樣本數(shù)據(jù)集dpre相似的第一合成樣本數(shù)據(jù)集dgen1,其中第一個生成器g1通過輸入噪聲向量生成樣本數(shù)據(jù),并結合潛在空間z1中的特征分布生成第一合成數(shù)據(jù)樣本xgen1:
25、
26、其中,w0和w1分別為第一生成器g1的權重矩陣,b0和b1分別為第一生成器g1的偏置向量,σ為激活函數(shù),w1為第一生成器中的可調參數(shù),z1表示噪聲向量,xgen1表示生成的第一合成樣本數(shù)據(jù);
27、s22、構建第二個生成器g2,用于生成與最終預處理后的小樣本數(shù)據(jù)集dpre不同的第二合成樣本數(shù)據(jù)集dgen2,其中第二個生成器g2通過輸入噪聲向量生成樣本數(shù)據(jù),并在生成過程中結合多樣性調節(jié)參數(shù)λ進行微調,使得生成的第二合成樣本數(shù)據(jù)集dgen2在數(shù)據(jù)空間x中具備多樣性:
28、
29、其中,w1和w2分別為第二生成器g2的權重矩陣,b1和b2為偏置向量,λ為多樣性調節(jié)參數(shù),z2表示噪聲向量,xgen2表示生成的第二合成樣本數(shù)據(jù);
30、s23、構建第一個判別器d1,用于區(qū)分第一個生成器g1生成的第一合成樣本數(shù)據(jù)集dgen1與最終預處理后的小樣本數(shù)據(jù)集dpre,并輸出關于第一合成樣本數(shù)據(jù)集dgen1真實性的評價指標
31、
32、其中,d1(xi)表示第一判別器d1對真實樣本xi的判別輸出,表示第一生成器g1生成的合成樣本α為正則化參數(shù),為第一生成器權重矩陣之間的二范數(shù)距離;
33、s24、構建第二個判別器d2,用于區(qū)分第二個生成器g2生成的第二合成樣本數(shù)據(jù)集dgen2與最終預處理后的小樣本數(shù)據(jù)集dpre,并輸出關于第二合成樣本數(shù)據(jù)集dgen2多樣性的評價指標
34、
35、其中,d2(xi)表示第二判別器d2對真實樣本xi的判別輸出,表示第二生成器g2生成的合成樣本β為正則化參數(shù),表示生成樣本的方差。
36、可選的,所述s3包括以下子步驟:
37、s31、初始化第一個生成器g1的參數(shù)和第二個生成器g2的參數(shù)和第一個判別器d1的參數(shù)和和以及第二個判別器d2的參數(shù)和
38、s32、選擇學習率η和批量大小m,并確定生成器和判別器的初步訓練輪數(shù)t,其中,學習率η決定每次參數(shù)更新的步長,批量大小m影響每次訓練所用的數(shù)據(jù)樣本數(shù)量,訓練輪數(shù)t則決定整個模型的初步訓練強度;
39、s33、通過隨機抽樣的方式從小樣本數(shù)據(jù)集dpre中抽取小批量樣本x(i)∈dpre,同時從噪聲分布和中分別抽取噪聲向量和其中i=1,2,…,m,噪聲向量和分別作為第一生成器g1和第二生成器g2的輸入,用于生成相應的合成樣本,噪聲向量的分布pz1(z)和pz2(z)決定生成樣本的多樣性;
40、s34、利用抽取的噪聲向量和分別計算第一個生成器g1和第二個生成器g2的第一合成數(shù)據(jù)樣本和第二合成數(shù)據(jù)樣本并通過第一個判別器d1和第二個判別器d2計算損失函數(shù)和
41、
42、其中,d1(x(i))和d2(x(i))分別表示第一判別器d1和第二判別器d2對真實樣本x(i)的判別輸出,和表示對生成樣本的判別輸出;
43、s35、重復步驟s33至s34,直至完成預定的訓練輪數(shù)t,生成初步訓練后的生成器和判別器模型。
44、可選的,所述s5包括以下子步驟:
45、s51、根據(jù)第一個判別器d1的輸出損失值計算第一個生成器g1的梯度:
46、
47、其中,表示第一個生成器g1的權重矩陣,表示第i個樣本的損失值,為第一個生成器g1生成的第i個合成樣本;
48、s52、更新第一個生成器g1的參數(shù)和以優(yōu)化生成樣本的真實:
49、
50、其中,和分別為損失函數(shù)對權重矩陣和偏置向量的梯度;
51、s53、根據(jù)第二個判別器d2的輸出損失值計算第二個生成器g2的梯度:
52、
53、其中,表示第二個生成器g2的權重矩陣,表示第i個樣本的損失值,為第二個生成器g2生成的第i個合成樣本;
54、s54、更新第二個生成器g2的參數(shù)和以優(yōu)化生成樣本的多樣性:
55、
56、其中,和分別為損失函數(shù)對權重矩陣和偏置向量的梯度;
57、s55、重復步驟s51至s54,直至第一個生成器g1優(yōu)化生成的樣本達到預定的真實性標準,第二個生成器g2優(yōu)化生成的樣本達到預定的多樣性標準,完成雙向生成對抗網(wǎng)絡的參數(shù)反向更新過程。
58、可選的,所述s8包括以下子步驟:
59、s81、利用經過優(yōu)化的第一個生成器g1生成擴展的小樣本數(shù)據(jù)集dgen1,其中,每個生成樣本由噪聲向量生成:
60、
61、其中,表示第j個噪聲向量,為經過優(yōu)化的第一個生成器的權重矩陣,為生成的第j個擴展樣本,擴展樣本數(shù)據(jù)集dgen1由n1個生成樣本組成,即:
62、
63、s82、利用經過優(yōu)化的第二個生成器g2生成擴展的小樣本數(shù)據(jù)dgen2,其中,每個生成樣本由噪聲向量生成:
64、
65、其中,表示第k個噪聲向量,為經過優(yōu)化的第二個生成器的權重矩陣,λ為多樣性調節(jié)參數(shù),為生成的第k個擴展樣本,擴展樣本數(shù)據(jù)集dgen2由n2個生成樣本組成,即:
66、
67、s83、將第一個生成器g1生成的擴展樣本數(shù)據(jù)集dgen1與第二個生成器g2生成的擴展樣本數(shù)據(jù)集dgen2進行合并,生成最終擴展的小樣本數(shù)據(jù)集dexp:
68、dexp=dgen1∪dgen2;
69、其中,dexp包含所有生成的樣本,并在視覺和統(tǒng)計上與原始小樣本數(shù)據(jù)集dpre相似;
70、s84、對生成的擴展小樣本數(shù)據(jù)集dexp進行視覺和統(tǒng)計特性的驗證,使擴展小樣本數(shù)據(jù)集在視覺上與原始數(shù)據(jù)集dpre相似,并且通過統(tǒng)計分析確保擴展數(shù)據(jù)集的樣本分布覆蓋更廣的樣本空間。
71、可選的,所述s9包括以下子步驟:
72、s91、對生成的擴展小樣本數(shù)據(jù)集dexp進行真實性評分,利用第一個判別器d1對每個樣本進行判別輸出并計算整體真實性評分
73、
74、其中,nexp表示擴展數(shù)據(jù)集dexp中樣本的總數(shù),為第l個擴展樣本,反映生成數(shù)據(jù)集在真實性方面的整體表現(xiàn);
75、s92、對生成的擴展小樣本數(shù)據(jù)集dexp進行多樣性評分,利用統(tǒng)計方法計算生成樣本的分布特性,得到整體多樣性評分
76、
77、其中,var(dexp)為擴展數(shù)據(jù)集的方差,μexp表示擴展數(shù)據(jù)集dexp的均值向量,用于評估生成數(shù)據(jù)集的多樣性;
78、s93、結合真實性評分和多樣性評分的綜合結果,計算綜合評分用于動態(tài)調整雙向生成對抗網(wǎng)絡的參數(shù):
79、
80、其中,α1和β1為權重系數(shù),用于平衡真實性和多樣性在綜合評分中的影響,表示生成樣本的總體質量;
81、s94、根據(jù)綜合評分的結果,動態(tài)調整第一個生成器g1和第二個生成器g2的參數(shù)和
82、s95、重復步驟s91至s94,直至綜合評分stotal達到預定標準,從而完成對生成對抗網(wǎng)絡參數(shù)的優(yōu)化調整,確保生成的小樣本數(shù)據(jù)集在真實性和多樣性上均符合要求。
83、本發(fā)明的有益效果是:
84、(1)本發(fā)明基于雙向生成對抗網(wǎng)絡的小樣本數(shù)據(jù)合成方法,通過雙生成器和雙判別器的設計,在小樣本數(shù)據(jù)集擴展方面取得了顯著的技術突破,通過構建第一個生成器和第二個生成器,本方法能夠同時生成與原始小樣本數(shù)據(jù)集相似和略有不同的合成樣本數(shù)據(jù)集,雙生成器架構有效地解決了傳統(tǒng)雙向生成對抗網(wǎng)絡在多樣性與真實性之間的矛盾,通過分別優(yōu)化兩個生成器的輸出,在生成樣本的多樣性和真實性之間找到了最佳平衡點,使擴展后的數(shù)據(jù)集在視覺上與原始數(shù)據(jù)集相似的同時,具備更高的多樣性。
85、(2)本發(fā)明提出的雙判別器機制極大地提高了生成樣本的質量,第一個判別器專注于評估生成樣本的真實性,確保生成的樣本在統(tǒng)計特性上與真實樣本一致,第二個判別器則用于評估生成樣本的多樣性,通過雙向評估機制,生成器能夠更精準地優(yōu)化生成樣本的數(shù)據(jù)分布,有效避免了模式崩潰問題,使得生成的樣本不僅覆蓋了原始樣本的主要特征,還包含了豐富的變異信息,從而提升了模型訓練的泛化能力。
86、(3)本發(fā)明在生成過程中引入了自動化評價機制,通過對生成樣本的真實性和多樣性進行評分,動態(tài)調整生成器和判別器的參數(shù),使得雙向生成對抗網(wǎng)絡在訓練過程中的自適應調整能力,使生成的樣本更加符合預期的質量要求,綜合評分的引入不僅使得生成樣本在整體質量上得到了顯著提升,還為雙向生成對抗網(wǎng)絡的訓練過程提供了有效的反饋信號,避免了傳統(tǒng)方法中因缺乏評價機制而導致的生成效果不穩(wěn)定的問題。
87、(4)本發(fā)明還通過動態(tài)調整生成器的權重矩陣和偏置向量,實現(xiàn)了生成樣本質量的持續(xù)優(yōu)化,在訓練過程中能夠根據(jù)生成樣本的實時表現(xiàn),自適應地調整網(wǎng)絡參數(shù),確保生成樣本在多樣性和真實性之間達到最佳平衡。