本發(fā)明涉及多模態(tài)遙感數(shù)據(jù)語義分割的,尤其涉及一種基于mrf語義推理的多模態(tài)遙感影像分割方法。
背景技術(shù):
1、不同傳感器獲取的遙感數(shù)據(jù)在光譜特性、分辨率等方面存在較大的差異,這些數(shù)據(jù)提供了對觀測場景多角度、多層次的輻射信息。由于地物種類及其分布都十分復(fù)雜,僅僅利用單一傳感器的數(shù)據(jù)很難對遙感影像進(jìn)行精準(zhǔn)解譯,為了解決這一問題,許多研究人員開始關(guān)注多模態(tài)數(shù)據(jù)的融合處理,進(jìn)而提供更全面、多維度的地球觀測數(shù)據(jù)。高光譜影像(hyperspectral?imaging,hsi)擴展了遙感數(shù)據(jù)的光譜維度,不同的光譜波段能夠表現(xiàn)出對不同地物的敏感性,使得hsi可以有效區(qū)分土地覆蓋中的不同類型,包括植被、水體、建筑物等,因此hsi數(shù)據(jù)在環(huán)境監(jiān)測、農(nóng)業(yè)管理、自然資源調(diào)查等領(lǐng)域都具有廣泛的應(yīng)用。合成孔徑雷達(dá)(sar)和激光雷達(dá)(lidar)都屬于典型的主動遙感技術(shù),通過發(fā)射電磁波進(jìn)行場景探測。sar通過發(fā)射微波信號,可以不受云層遮擋的影響,能夠在陰天等惡劣天氣和夜晚等光照不充足的條件下進(jìn)行地表觀測,因此sar能夠提供全天候的地表信息,使其在林業(yè)、農(nóng)業(yè)、城市規(guī)劃等領(lǐng)域中有著獨特的優(yōu)勢,并可用于地形測量、變化檢測以及海洋監(jiān)測等方面。lidar通過向地面發(fā)射激光信號,并測量光束返回的時間來獲取地面和物體的距離信息,這種高精度的距離測量使得lidar在地形建模、城市規(guī)劃、森林調(diào)查等領(lǐng)域得到了廣泛的應(yīng)用,lidar數(shù)據(jù)可以生成高精度的數(shù)字高程模型,提供詳細(xì)的地形信息,同時也可用于建筑物、樹木等物體的三維建模。綜合利用高光譜、sar和lidar等多源遙感數(shù)據(jù),能夠融合不同模態(tài)數(shù)據(jù)間的互補性,彌補單一傳感器在觀測內(nèi)容和觀測時間上的局限性,實現(xiàn)更全面的地球觀測。這種多模態(tài)數(shù)據(jù)融合的方法為精準(zhǔn)的地物分類、環(huán)境監(jiān)測以及城市規(guī)劃等應(yīng)用提供了更為全面和立體的信息基礎(chǔ),但也帶來了數(shù)據(jù)融合和語義信息提取的挑戰(zhàn)。
2、基于遙感數(shù)據(jù)的語義分割是遙感影像智能解譯的核心任務(wù)之一,其目標(biāo)是將影像中的每個像素標(biāo)記為具有某種性質(zhì)的語義類別,借助計算機進(jìn)行語義分割能夠幫助人們對地表特征進(jìn)行更為詳盡和準(zhǔn)確的解讀。通過語義分割可以實現(xiàn)對城市中的建筑物、道路、綠地等的準(zhǔn)確識別,為城市規(guī)劃和管理提供詳盡的地理信息。多模態(tài)遙感數(shù)據(jù)可以從多角度描繪地表信息,但不同模態(tài)數(shù)據(jù)之間的互補性如何進(jìn)行語義推理需要一定的理論指導(dǎo)?,F(xiàn)有的基于特征級融合和決策級融合通常是基于數(shù)據(jù)驅(qū)動的網(wǎng)絡(luò)模型完成的,不同模態(tài)數(shù)據(jù)可以進(jìn)行信息互補,如在高光譜影像中建筑物的識別可能受周圍道路的影響,從特征的角度可能會混淆建筑物的房頂和道路,但是激光雷達(dá)影像可以準(zhǔn)確的探測地物的高程信息,進(jìn)而能夠幫助區(qū)別這些具有相同外貌特征的不同地物。然而,當(dāng)前方法通常是基于深度學(xué)習(xí)模型對多模態(tài)數(shù)據(jù)進(jìn)行融合,大多缺乏針對多模態(tài)數(shù)據(jù)間語義信息交互的明確策略和理論框架的指導(dǎo)。馬爾可夫隨機場模型(markov?random?field,mrf)模型作為一種數(shù)據(jù)與知識驅(qū)動的方法,如何借助mrf的理論框架對不同模態(tài)間的語義信息進(jìn)行交互以促進(jìn)多模態(tài)數(shù)據(jù)的智能解譯提升是值得研究的難點和熱點問題。
3、申請?zhí)枮?02410200897.6的發(fā)明專利公開了一種基于多模態(tài)數(shù)據(jù)融合的遙感圖像語義分割方法,包括:獲取目標(biāo)地區(qū)的多模態(tài)遙感數(shù)據(jù);所述多模態(tài)遙感數(shù)據(jù)包括至少兩種不同種類的遙感圖像數(shù)據(jù);對所述多模態(tài)遙感數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理數(shù)據(jù);分別對每種模態(tài)的所述預(yù)處理數(shù)據(jù)進(jìn)行特征提取,得到各個模態(tài)的特征;將各個模態(tài)的特征進(jìn)行特征融合,得到融合特征;將所述融合特征輸入至訓(xùn)練好的語義分割網(wǎng)絡(luò),得到分割結(jié)果。上述發(fā)明能夠充分利用各模態(tài)數(shù)據(jù)的互補性,提高語義分割的準(zhǔn)確性和魯棒性。但是上述發(fā)明通過多模態(tài)遙感數(shù)據(jù)的特征融合對結(jié)果進(jìn)行提升,沒有考慮到多模態(tài)數(shù)據(jù)對應(yīng)的語義信息之間的推理關(guān)系,考慮將多模態(tài)數(shù)據(jù)的特征和語義信息能夠進(jìn)一步提升結(jié)果的準(zhǔn)確性和可解釋性。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有的多模態(tài)數(shù)據(jù)分類方法難以實現(xiàn)不同模態(tài)數(shù)據(jù)對同一位置的語義信息推理的技術(shù)問題,本發(fā)明提出一種基于mrf語義推理的多模態(tài)遙感影像分割方法,在markov隨機場理論框架下,將多模態(tài)深度融合特征與不同模態(tài)數(shù)據(jù)對應(yīng)的語義信息推理相結(jié)合,首先通過深度學(xué)習(xí)方法提取高質(zhì)量的融合特征,并通過基于卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneural?networks,cnn)的語義分割網(wǎng)絡(luò)逐次對單一模態(tài)的數(shù)據(jù)進(jìn)行初始分類,在此基礎(chǔ)上構(gòu)建地理對象的推理單元,通過深度學(xué)習(xí)網(wǎng)絡(luò)獲取到的初始結(jié)果,能夠使得對應(yīng)推理單元具有基本的語義信息;同時,利用自學(xué)習(xí)策略構(gòu)建的語義關(guān)系矩陣,捕獲不同模態(tài)間語義知識的動態(tài)交互關(guān)系,以提升對空間信息的建模能力,從而提高分類結(jié)果的準(zhǔn)確性和一致性。
2、為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:一種基于mrf語義推理的多模態(tài)遙感影像分割方法,其步驟如下:
3、步驟一:讀取多模態(tài)遙感影像的不同模態(tài)數(shù)據(jù),利用cnn對每一個模態(tài)的影像數(shù)據(jù)分別訓(xùn)練,得到不同模態(tài)數(shù)據(jù)的初始語義分割結(jié)果;
4、步驟二:多模態(tài)影像數(shù)據(jù)通過多模態(tài)特征融合分類網(wǎng)絡(luò)進(jìn)行深度特征融合,得到多模態(tài)的深度融合特征;根據(jù)任一單模態(tài)的初始語義分割結(jié)果生成多個推理單元,根據(jù)推理單元構(gòu)建mrf模型;
5、步驟三:將步驟一得到的不同模態(tài)的初始語義分割結(jié)果和步驟二得到的多模態(tài)數(shù)據(jù)的深度融合特征分別作為mrf模型中的標(biāo)記場和特征場進(jìn)行建模,得到多模態(tài)mrf模型;
6、步驟四:通過自學(xué)習(xí)更新不同模態(tài)語義間的交互關(guān)系及同一模態(tài)內(nèi)部的空間上下文關(guān)系,對步驟三建立的多模態(tài)mrf模型進(jìn)行迭代求解,得到多模態(tài)數(shù)據(jù)的語義分割結(jié)果。
7、優(yōu)選地,所述步驟一中初始語義分割結(jié)果的獲取方法為:多模態(tài)遙感影像的不同模態(tài)數(shù)據(jù)ia=(i1,i2)的大小為m×n,影像數(shù)據(jù)i1,i2的光譜波段數(shù)分別為d1,d2,且d1,d2∈n+,n+為正整數(shù)集;利用cnn對影像數(shù)據(jù)i1,i2進(jìn)行分別訓(xùn)練學(xué)習(xí)得到不同模態(tài)的初始語義分割結(jié)果記為y=(y1,y2),且y(l)對應(yīng)于深度融合特征的不同模態(tài)的標(biāo)記場,l={l1,l2},l1,l2∈{1,2};
8、所述得到多模態(tài)的深度融合特征的方法為:對于每個波段有n個像素點的不同模態(tài)的影像數(shù)據(jù),通過cnn網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)的第q層特征表示為:
9、
10、其中,表示第q層中第l個模態(tài)中第c個像素的特征,il,c表示第l個模態(tài)中第c個像素的特征,p是cnn網(wǎng)絡(luò)的總層數(shù);函數(shù)f(·)為relu激活函數(shù),和分別是權(quán)重參數(shù)和偏置項;
11、選取特征級交叉重構(gòu)策略來融合不同模態(tài)的特征,融合方法為:
12、
13、其中,表示第q層的像素級融合特征,像素級融合特征為深度融合特征i′,表示第q層中第l個模態(tài)中第c個像素的特征。
14、優(yōu)選地,所述生成多個推理單元的方法為:采用均值漂移算法對任一單模態(tài)的初始語義分割結(jié)果進(jìn)行劃分,得到推理單元,每個推理單元的位置對應(yīng)的深度融合特征作為推理單元的數(shù)據(jù)特征;
15、所述mrf模型為圖模型。
16、優(yōu)選地,所述根據(jù)推理單元構(gòu)建mrf模型的方法為:將獲取的推理單元表示為r={rs,s∈s},每個推理單元rs表示圖模型中的一個頂點vs,每個頂點對應(yīng)于影像的一個區(qū)域,圖模型構(gòu)建為圖g={v,e},其中v={rs,s∈s}表示頂點集合,s是每個頂點的位置索引集合,e={es,t|s,t∈s}表示頂點間的邊集,邊es,t表示頂點vs和頂點vt的空間關(guān)系,如果頂點vs和頂點vt相鄰,則邊es,t=1,如果頂點vs和頂點vt不相鄰,則邊es,t=0。
17、優(yōu)選地,所述得到多模態(tài)數(shù)據(jù)的語義分割結(jié)果的方法為:采用自學(xué)習(xí)策略獲取多層邏輯模型中描述mrf模型二階勢函數(shù)中能量函數(shù)內(nèi)兩點間的相互作用,實現(xiàn)對單一模態(tài)內(nèi)空間關(guān)系的建模;通過條件概率計算標(biāo)記間的交互關(guān)系實現(xiàn)多模態(tài)語義間的推理,并采用對象級的mrf模型獲取多模態(tài)數(shù)據(jù)語義分割結(jié)果。
18、優(yōu)選地,采用對象級的mrf模型獲取多模態(tài)數(shù)據(jù)語義分割結(jié)果的方法為:
19、將深度融合特征作為特征場i={is|s∈s},不同模態(tài)的標(biāo)記場l={l1,l2},l1,l2∈{1,2},且l1≠l2,is表示頂點rs的特征向量,特征向量is的維度由深度融合特征i′決定;標(biāo)記變量是一個隨機變量,表示第l個模態(tài)中位置s處的標(biāo)記,對應(yīng)于初始語義分割結(jié)果y1,y2,標(biāo)記變量從類別標(biāo)記集合λ={1,2,…,k}中取值,k表示語義類別的總數(shù),s={s}表示影像數(shù)據(jù)的位置索引集合;令表示隨機的標(biāo)記場的一個具體實現(xiàn),則針對本發(fā)明所提出的多模態(tài)數(shù)據(jù)語義推理的mrf模型,不同模態(tài)的最優(yōu)實現(xiàn)通過目標(biāo)函數(shù)實現(xiàn)的方法為:
20、
21、其中,分別表示不同模態(tài)的最優(yōu)實現(xiàn),分別表示不同模態(tài)在數(shù)據(jù)特征條件下標(biāo)記結(jié)果的后驗概率,分別表示不同模態(tài)的特征似然函數(shù);分別表示不同模態(tài)標(biāo)記結(jié)果的先驗概率;分別為當(dāng)前模態(tài)在另一模態(tài)標(biāo)記下的條件概率;分別表示多模態(tài)影像數(shù)據(jù)基于不同模態(tài)標(biāo)記結(jié)果的特征信息,表示第l1個模態(tài)語義層的層內(nèi)關(guān)系,表示第l2個模態(tài)語義層的層內(nèi)關(guān)系,分別表示不同模態(tài)間的語義交互信息。
22、優(yōu)選地,對于多模態(tài)特征場,多模態(tài)影像數(shù)據(jù)的特征信息表示為:
23、
24、經(jīng)過推理單元的劃分,進(jìn)一步表示為r={rs|s∈s},s為位置節(jié)點,當(dāng)頂點vs的標(biāo)記變量時,h表示類別標(biāo)記集合λ={1,2,…,k}中的某一取值,設(shè)作為推理單元的每個過分割區(qū)域所包含的像素的特征向量互相獨立同分布且服從高斯分布,則對象特征向量的似然函數(shù)等價于對象包含的像素的特征向量的似然函數(shù)乘積,即條件概率表示為:
25、
26、從而特征信息:
27、
28、其中,d是深度融合特征i′的波段數(shù),μh和σh分別表示標(biāo)記為h的特征均值和方差;i′s、i′t分別表示位置s和位置t處的光譜值,表示位置s處標(biāo)記為h時特征分布的概率。
29、優(yōu)選地,目標(biāo)函數(shù)中的層內(nèi)關(guān)系e2(xl)的計算方法為:
30、
31、其中,
32、
33、其中,表示在第l個模態(tài)語義層中位置s的空間上下文關(guān)系,層內(nèi)關(guān)系e2(xl)由層內(nèi)每個位置的空間上下文關(guān)系復(fù)合而成,表示位置s和其鄰域中位置t處的雙點基團(tuán)的勢函數(shù),ns={t|t∈s,es,t=1}表示位置s的鄰域位置集合,分別表示位置s和位置t處的第l個模態(tài)語義層的標(biāo)記,es,t表示位置s和位置t之間的邊,es,t=1說明位置s和位置t相鄰,bs,t表示區(qū)域rs和區(qū)域rt的公共邊界長度,表示類別i和類別j的空間關(guān)系,表示第l個模態(tài)語義層的標(biāo)記結(jié)果中類別i和類別j空間關(guān)系的權(quán)重。
34、優(yōu)選地,所述類別i和類別j的空間關(guān)系為:
35、
36、其中,
37、
38、mi,j表示懲罰系數(shù),表示位置s的第l2個模態(tài)語義層標(biāo)記為類別j時第l1個模態(tài)語義層標(biāo)記為i的概率,表示位置s的第l2個模態(tài)語義層標(biāo)記為類別j時第l1個模態(tài)語義層標(biāo)記為i的像素個數(shù),表示位置s的第l2個模態(tài)語義層標(biāo)記為j的像素個數(shù);
39、第l個模態(tài)語義層的標(biāo)記結(jié)果中類別i和類別j空間關(guān)系的權(quán)重為:
40、
41、優(yōu)選地,對于任意位置s∈s,語義交互信息用下式表示不同模態(tài)標(biāo)記間的關(guān)系:
42、
43、其中,α為不同模態(tài)類別間的權(quán)重關(guān)系,取值為類別平均面積:
44、
45、γi,j表示標(biāo)記間的距離,采取離散距離計算方式為:
46、
47、本發(fā)明的有益效果:首先基于深度學(xué)習(xí)模型對多模態(tài)數(shù)據(jù)進(jìn)行逐次訓(xùn)練學(xué)習(xí)分別獲取不同模態(tài)的初始語義分割結(jié)果,并借助深度學(xué)習(xí)模型提取多模態(tài)數(shù)據(jù)的深度融合特征并對多模態(tài)數(shù)據(jù)進(jìn)行深度特征融合,接著在mrf的理論框架下,將多模態(tài)深度融合特征與不同模態(tài)間的語義推理相結(jié)合建立自學(xué)習(xí)更新的多模態(tài)語義推理模型,獲得了多模態(tài)特征與不同模態(tài)間語義推理協(xié)同驅(qū)動的語義分割結(jié)果,通過多模態(tài)深度特征與語義推理協(xié)同更新多模態(tài)語義分割結(jié)果,提高了mrf模型對空間信息的建模能力和分類結(jié)果的準(zhǔn)確性,從而在多模態(tài)數(shù)據(jù)語義推理上取得了一定的進(jìn)展。本發(fā)明提出的一種多模態(tài)數(shù)據(jù)與多模態(tài)知識推理驅(qū)動的語義分割模型,能夠綜合利用深度學(xué)習(xí)和markov隨機場理論,設(shè)計了一種新的結(jié)合多模態(tài)數(shù)據(jù)特征與語義推理協(xié)同的遙感影像語義分割框架。通過與其它不同類型的多模態(tài)數(shù)據(jù)分類模型進(jìn)行對比,結(jié)果驗證了該模型的有效性。
48、本發(fā)明在結(jié)合多模態(tài)深度融合特征和markov隨機場理論的基礎(chǔ)上,取得了一定的創(chuàng)新和進(jìn)展。本發(fā)明在設(shè)計上充分考慮了多模態(tài)數(shù)據(jù)特征的融合和不同模態(tài)間的語義關(guān)聯(lián)信息,通過cnn模型和markov隨機場的協(xié)同作用,實現(xiàn)了對地理對象的準(zhǔn)確推理和分類。實驗結(jié)果表明,所提出的模型在不同數(shù)據(jù)集上都取得了較好的性能。