本說明書涉及計算機,尤其涉及面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法和裝置。
背景技術(shù):
1、遙感圖像場景分類旨在將不同場景下的圖像根據(jù)各自的語義信息確定每個圖像所對應(yīng)的場景分類,在地質(zhì)勘探,國防安全等領(lǐng)域均有著重要的作用。常見的遙感圖像分類手段往往是基于可見光圖像的,通過設(shè)計深度特征提取網(wǎng)絡(luò)對rgb圖像的特征進行提取并進行分類。近年來,隨著大語言模型的發(fā)展,也有研究者提出利用多模態(tài)大語言模型進行遙感圖像的分類,但是由于rgb圖像光譜波段較少、信息密度較低,分類結(jié)果的準(zhǔn)確性無法得到保證。
2、基于上述原因,有研究者提出使用多光譜(multi-spectral,ms)圖像來提高輸入信息的信息密度進而提升識別性能。雖然ms圖像相比于rgb圖像會在整體識別性能上有顯著的提高,但是在實際應(yīng)用中利用ms圖像進行分類存在ms圖像的獲取成本高、計算內(nèi)存開銷大、推理速度慢等問題。
3、為解決上述問題,有研究者提出使用跨模態(tài)蒸餾技術(shù),在訓(xùn)練階段將以ms圖像為輸入的教師模型去教授以rgb圖像為輸入的學(xué)生模型。在推理階段,只需使用以rgb圖像為輸入的學(xué)生模型即可。但是,上述蒸餾技術(shù)實施的前提在于ms圖像與rgb圖像需要具有嚴(yán)格的語義一致性,也即需要一對ms圖像與rgb圖像均是針對同一目標(biāo)采集得到的,由于ms數(shù)據(jù)短缺的問題,利用該蒸餾技術(shù)進行訓(xùn)練,難以獲取足夠的訓(xùn)練樣本,影響了學(xué)生模型的訓(xùn)練效率。
4、由此,本發(fā)明提供面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法和裝置。
技術(shù)實現(xiàn)思路
1、本說明書提供面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法和裝置,以部分的解決現(xiàn)有技術(shù)存在的上述問題。
2、本說明書采用下述技術(shù)方案:
3、本說明書提供了一種面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法,包括:
4、獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對,所述樣本rgb圖像和所述樣本ms圖像對應(yīng)同一場景分類;
5、將所述樣本ms圖像輸入預(yù)先訓(xùn)練完成的教師模型,確定所述教師模型從所述樣本ms圖像提取出的第一圖像特征,并確定所述教師模型根據(jù)所述第一圖像特征得到的第一場景分類,作為偽標(biāo)注;
6、將所述樣本rgb圖像輸入學(xué)生模型,確定所述學(xué)生模型從所述樣本rgb圖像提取出的第二圖像特征,并確定所述學(xué)生模型根據(jù)所述第二圖像特征得到的第二場景分類;
7、至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異,對所述學(xué)生模型進行訓(xùn)練。
8、可選的,還包括:
9、確定至少一個正樣本對與若干負(fù)樣本對作為樣本組,將所述樣本組輸入待訓(xùn)練匹配模型,確定所述待訓(xùn)練匹配模型輸出的針對所述樣本組的匹配判斷結(jié)果,其中,所述正樣本對包括針對同一目標(biāo)的一個rgb圖像和一個ms圖像,所述負(fù)樣本對包括對應(yīng)場景分類不同的一個rgb圖像和一個ms圖像;
10、根據(jù)所述匹配判斷結(jié)果與所述樣本組中各樣本對的實際匹配情況,對所述待訓(xùn)練匹配模型進行訓(xùn)練;
11、獲取待匹配rgb圖像組以及待匹配ms圖像組,針對所述待匹配rgb圖像組中的任一rgb圖像,所述待匹配ms圖像組中均有與該rgb圖像相同場景分類的ms圖像;
12、針對所述待匹配rgb圖像組中的任一rgb圖像,利用訓(xùn)練完成的匹配模型,在所述待匹配ms圖像組中確定與該rgb圖像匹配的ms圖像作為目標(biāo)圖像,將所述目標(biāo)圖像與該rgb圖像匹配為一對訓(xùn)練樣本對。
13、可選的,預(yù)先訓(xùn)練教師模型,具體包括:
14、獲取預(yù)訓(xùn)練ms圖像;
15、將所述預(yù)訓(xùn)練ms圖像輸入待訓(xùn)練教師模型,確定所述待訓(xùn)練教師模型輸出的第三場景分類;
16、根據(jù)所述第三場景分類以及所述預(yù)訓(xùn)練ms圖像的場景標(biāo)注之間的差異,對所述待訓(xùn)練教師模型進行訓(xùn)練。
17、可選的,所述第一圖像特征與所述第二圖像特征的數(shù)據(jù)結(jié)構(gòu)相同;
18、至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異,對所述學(xué)生模型進行訓(xùn)練,具體包括:
19、根據(jù)跨模態(tài)注意力機制,確定所述第一圖像特征對應(yīng)的第一特征圖以及所述第二圖像特征對應(yīng)的第二特征圖;
20、根據(jù)所述第一特征圖與所述第二特征圖之間的域偏移損失,確定所述第一圖像特征與所述第二圖像特征之間的差異;
21、至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異,對所述學(xué)生模型進行訓(xùn)練。
22、可選的,至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異,對所述學(xué)生模型進行訓(xùn)練,具體包括:
23、根據(jù)所述第二圖像特征與所述第一圖像特征的差異、根據(jù)所述第二場景分類與所述偽標(biāo)注的差異以及所述第二場景分類與所述樣本rgb圖像所對應(yīng)的真實場景標(biāo)注的差異,對所述學(xué)生模型進行訓(xùn)練。
24、可選的,獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對,具體包括:
25、從訓(xùn)練樣本集中獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對,所述訓(xùn)練樣本集包括若干訓(xùn)練樣本對;
26、在至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異,對所述學(xué)生模型進行訓(xùn)練之后,還包括:
27、從所述訓(xùn)練樣本集中重新獲取訓(xùn)練樣本對,并根據(jù)重新獲取的訓(xùn)練樣本對所述學(xué)生模型繼續(xù)進行訓(xùn)練,直至訓(xùn)練次數(shù)達到訓(xùn)練閾值,利用所述學(xué)生模型重新確定所述訓(xùn)練樣本集中每個樣本rgb圖像對應(yīng)的第二場景分類,根據(jù)各第二場景分類以及每個樣本ms圖像對應(yīng)的第一場景分類,更新每個樣本rgb圖像所匹配的樣本ms圖像,根據(jù)更新的各訓(xùn)練樣本對,繼續(xù)對所述學(xué)生模型進行訓(xùn)練。
28、可選的,根據(jù)各第二場景分類以及每個教師樣本對應(yīng)的第一場景分類,更新每個學(xué)生樣本所匹配的教師樣本,具體包括:
29、針對所述訓(xùn)練樣本集中任一樣本rgb圖像,確定與該樣本rgb圖像的第二場景分類差異最小的第一場景分類所對應(yīng)的樣本ms圖像,作為該樣本rgb圖像所匹配的教師樣本。
30、本說明書提供一種面向遙感場景非對稱跨模態(tài)的大模型知識遷移裝置,包括:
31、獲取模塊,獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對,所述樣本rgb圖像和所述樣本ms圖像對應(yīng)同一場景分類;
32、教師模塊,將所述樣本ms圖像輸入預(yù)先訓(xùn)練完成的教師模型,確定所述教師模型從所述樣本ms圖像提取出的第一圖像特征,并確定所述教師模型根據(jù)所述第一圖像特征得到的第一場景分類,作為偽標(biāo)注;
33、學(xué)生模塊,將所述樣本rgb圖像輸入學(xué)生模型,確定所述學(xué)生模型從所述樣本rgb圖像提取出的第二圖像特征,并確定所述學(xué)生模型根據(jù)所述第二圖像特征得到的第二場景分類;
34、訓(xùn)練模塊,至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異,對所述學(xué)生模型進行訓(xùn)練。
35、本說明書提供了一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法。
36、本說明書提供了一種設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法。
37、本說明書采用的上述至少一個技術(shù)方案能夠達到以下有益效果:
38、從上述方法中可以看出,本方法可在保證訓(xùn)練精度的前提下,降低對訓(xùn)練樣本的語義一致性需求,利用更少量的ms訓(xùn)練樣本對更多的rgb樣本進行訓(xùn)練,進而提升學(xué)生模型性能。