本發(fā)明涉及遙感圖像處理,尤其是一種高分辨率遙感圖像語義分割模型及分割方法。
背景技術(shù):
1、在遙感圖像處理領(lǐng)域,高分辨率遙感圖像的語義分割技術(shù)具有廣泛的應(yīng)用前景,特別是在城市規(guī)劃、土地利用分析和自然資源監(jiān)測等領(lǐng)域。然而,現(xiàn)有的遙感圖像語義分割方法主要基于單一模態(tài)數(shù)據(jù),通常包括光學(xué)影像或雷達(dá)數(shù)據(jù),這些方法在面對(duì)復(fù)雜環(huán)境、不同天氣條件或地形特征時(shí),容易出現(xiàn)分割精度不足的問題。
2、多模態(tài)融合技術(shù)通過結(jié)合來自不同傳感器的數(shù)據(jù),如光學(xué)圖像、雷達(dá)圖像和激光雷達(dá)數(shù)據(jù),能夠提供更豐富的環(huán)境信息,提升遙感圖像分割的準(zhǔn)確性?,F(xiàn)有的多模態(tài)融合算法,如基于深度學(xué)習(xí)的特征融合方法,已經(jīng)顯示出較大的優(yōu)勢。
3、然而,現(xiàn)有的高分辨率遙感圖像語義分割方法在多模態(tài)融合、噪聲抑制和長距離依賴建模上存在不足,難以應(yīng)對(duì)復(fù)雜場景,尤其在處理高分辨率影像時(shí),計(jì)算成本高、分割精度低。主要問題包括:特征融合不足:多模態(tài)融合方法無法平衡不同模態(tài)特征,導(dǎo)致關(guān)鍵信息表達(dá)不充分,影響分割效果。噪聲抑制弱:在多模態(tài)數(shù)據(jù)融合過程中,現(xiàn)有方法對(duì)數(shù)據(jù)噪聲較為敏感,無法充分抑制不相關(guān)信息,導(dǎo)致模型分割效果不理想。長距離依賴建模困難:現(xiàn)有方法無法有效捕捉長距離依賴關(guān)系,特別是在全局特征與局部細(xì)節(jié)的平衡方面表現(xiàn)不佳,導(dǎo)致小尺度目標(biāo)的分割精度下降。計(jì)算復(fù)雜度高:傳統(tǒng)基于自注意力機(jī)制的模型雖然能捕捉全局信息,但在處理高分辨率遙感影像時(shí),計(jì)算資源消耗顯著,難以在保證分割精度的同時(shí)實(shí)現(xiàn)高效計(jì)算。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提出一種高分辨率遙感圖像語義分割模型及分割方法。
2、本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種高分辨率遙感圖像語義分割模型,包括特征表示與初步融合編碼模塊、深層特征處理與融合編碼模塊,以及解碼與特征重建模塊,所述特征表示與初步融合編碼模塊用于從多模態(tài)輸入數(shù)據(jù)中提取初步特征,實(shí)現(xiàn)初步融合;所述深層特征處理與融合編碼模塊基于transformer架構(gòu)的多層編碼器,通過多個(gè)層次的稀疏注意力機(jī)制和結(jié)合注意力的門控融合機(jī)制來實(shí)現(xiàn)特征的逐步增強(qiáng)與跨模態(tài)信息的深度融合;所述解碼與特征重建模塊通過逐步上采樣和多尺度特征融合,將編碼器生成的低分辨率特征圖恢復(fù)至輸入圖像的高分辨率。
3、上述的一種高分辨率遙感圖像語義分割模型,所述特征表示與初步融合編碼模塊包括vis編碼器?和?dsm?編碼器,分別用于處理vis圖像和?dsm?數(shù)據(jù),通過resnet?結(jié)構(gòu)進(jìn)行特征提取,每個(gè)分支都使用標(biāo)準(zhǔn)二維卷積層進(jìn)行卷積操作,并借助多個(gè)殘差塊來實(shí)現(xiàn)特征的提取與增強(qiáng),每個(gè)殘差塊包含標(biāo)準(zhǔn)卷積層、relu激活層和組歸一化層,在特征提取過程中,vis編碼器?和?dsm?編碼器均引入自適應(yīng)加權(quán)融合模塊。
4、上述的一種高分辨率遙感圖像語義分割模型,所述自適應(yīng)加權(quán)融合模塊由兩個(gè)分支組成,用于處理來自?dsm?數(shù)據(jù)和?vis?數(shù)據(jù)的特征,在每個(gè)分支中,對(duì)輸入特征進(jìn)行全局平均池化,捕捉全局上下文信息;經(jīng)過一個(gè)?1×1?的卷積層和?relu?激活函數(shù),對(duì)特征進(jìn)行壓縮;通過深度可分離?1×1?卷積層進(jìn)一步調(diào)整特征表示;輸出通過?sigmoid?函數(shù)進(jìn)行歸一化,生成自適應(yīng)權(quán)重;在得到兩個(gè)不同模態(tài)的特征權(quán)重后,將兩個(gè)特征權(quán)重與各自的特征相乘,生成加權(quán)后的特征表示,通過自適應(yīng)權(quán)重機(jī)制將這兩個(gè)模態(tài)的特征進(jìn)行加權(quán)融合,融合后的輸出為:
5、;
6、其中,和分別表示深度特征和rgb特征的自適應(yīng)權(quán)重。
7、上述的一種高分辨率遙感圖像語義分割模型,所述transformer架構(gòu)的多層編碼器由12層組成,包含結(jié)合注意力的門控融合層和稀疏注意力層,其中前三層為稀疏注意力層,用于選擇性激活關(guān)鍵特征點(diǎn);接下來的三層為門控融合層,結(jié)合了注意力機(jī)制用于特征的深度融合;再接著的三層為稀疏注意力層,進(jìn)一步優(yōu)化全局特征的捕捉;最后三層為門控融合層,進(jìn)一步增強(qiáng)特征的融合與選擇性。
8、上述的一種高分辨率遙感圖像語義分割模型,所述稀疏注意力層中的稀疏注意力模塊具體為:
9、輸入的特征向量通過三個(gè)線性層分別生成查詢矩陣q、鍵矩陣k和值矩陣?v,具體計(jì)算公式為:
10、;
11、其中,、、分別是查詢、鍵和值的權(quán)重矩陣;
12、基于查詢矩陣q與鍵矩陣k計(jì)算注意力分?jǐn)?shù),具體計(jì)算公式為:
13、;
14、其中,為縮放因子,?為鍵的維度。
15、選擇注意力矩陣中前?k%最大的值,并將其他較小的值設(shè)為負(fù)無窮,從而實(shí)現(xiàn)稀疏化,稀疏化處理后的注意力矩陣可以表示為:
16、;
17、其中,閾值threshold根據(jù)前k%最大值確定。
18、對(duì)稀疏化后的注意力矩陣進(jìn)行軟最大化處理,以得到權(quán)重分布,這些權(quán)重分布應(yīng)用于值矩陣v,通過加權(quán)求和得到輸出特征,將加權(quán)求和后的特征通過線性層進(jìn)行投影,得到最終的輸出。
19、上述的一種高分辨率遙感圖像語義分割模型,所述結(jié)合注意力的門控融合層具體為:
20、對(duì)輸入特征、分別進(jìn)行自注意力計(jì)算,生成增強(qiáng)的特征表示attentionsy和attentionsx,公式如下:
21、
22、
23、attentionsx?和?attentionsy?分別通過各自的門控網(wǎng)絡(luò)生成門控權(quán)重門控網(wǎng)絡(luò)由線性層和?sigmoid?激活函數(shù)構(gòu)成,用于控制兩個(gè)特征的融合比例,門控權(quán)重的生成過程如下:
24、gate_x1=σ(*attentionsx)
25、gate_x2=σ(*attentionsx)
26、gate_y1=σ(*attentionsy)
27、gate_y2=σ(*attentionsy)
28、其中,是線性層的權(quán)重σ表示sigmoid函數(shù),sigmoid函數(shù)確保生成的權(quán)重值在[0,1]范圍內(nèi)。
29、根據(jù)得到門控權(quán)重,對(duì)兩個(gè)特征attentionsx?和?attentionsy?進(jìn)行加權(quán)融合,融合的計(jì)算過程如下:
30、fused_x=gate_x1*attentionsx+gate_x2*attentionsy
31、fused_y=gate_y1*attentionsy+gate_y2*attentionsx
32、其中,fused_x表示融合后的特征x,fused_y表示融合后的特征?y。
33、一種高分辨率遙感圖像語義分割方法,上述的一種高分辨率遙感圖像語義分割模型,具體包括如下步驟:
34、步驟1,獲取待分割的遙感圖像;
35、步驟2,將所述待分割的遙感圖像輸入到預(yù)先建立的已經(jīng)訓(xùn)練好的高分辨率遙感圖像語義分割模型中,通過特征表示與初步融合編碼模塊提取初步特征,并實(shí)現(xiàn)初步融合;
36、步驟3,步驟2所得的圖像經(jīng)過深層特征處理與融合編碼模塊處理,通過多個(gè)層次的稀疏注意力機(jī)制和結(jié)合注意力的門控融合機(jī)制來實(shí)現(xiàn)特征的逐步增強(qiáng)與跨模態(tài)信息的深度融合;
37、步驟4,步驟3所得的圖像經(jīng)過解碼與特征重建模塊處理,通過逐步上采樣和多尺度特征融合,將編碼器生成的低分辨率特征圖恢復(fù)至輸入圖像的高分辨率,最終得到高精度語義分割圖像。
38、本發(fā)明的有益效果是,本發(fā)明模型在淺層特征提取階段引入了自適應(yīng)加權(quán)融合(awf)模塊,通過動(dòng)態(tài)調(diào)整不同模態(tài)特征的權(quán)重,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的有效融合。在完成淺層提取和融合后,進(jìn)入深層特征提取階段,模型采用了稀疏注意力代替?zhèn)鹘y(tǒng)的自注意力機(jī)制,專注于關(guān)鍵特征點(diǎn),減少不必要的計(jì)算量。隨后,模型引入了結(jié)合注意力的門控機(jī)制,對(duì)深層特征進(jìn)行精細(xì)融合。解碼過程中通過跳躍連接和逐層上采樣,有效保留了全局語義信息和細(xì)節(jié)特征,實(shí)現(xiàn)了空間和語義信息的精細(xì)恢復(fù)。整體而言,本發(fā)明在計(jì)算效率、分割精度和處理復(fù)雜場景的魯棒性方面均優(yōu)于現(xiàn)有技術(shù)。