本發(fā)明設(shè)計(jì)一種多源數(shù)據(jù)融合海底底質(zhì)分類(lèi)方法,具體涉及一種向前逐步特征選擇的基于ga-xgboost的多源數(shù)據(jù)海底底質(zhì)分類(lèi)方法,屬于多源數(shù)據(jù)融合與海底底質(zhì)分類(lèi)。
背景技術(shù):
1、海底底質(zhì)作為海洋生態(tài)系統(tǒng)的基礎(chǔ),對(duì)維持海洋生物多樣性和生態(tài)平衡起著至關(guān)重要的作用。其分類(lèi)不僅有助于我們更深入地理解海洋地質(zhì)過(guò)程,而且對(duì)于海洋資源的勘探、開(kāi)發(fā)和保護(hù)具有顯著的經(jīng)濟(jì)和科研價(jià)值。由于海底沉積物屬性可被海底底質(zhì)的紋理信息特征與光譜信息所反映,基于多光譜數(shù)據(jù)和多波束測(cè)深數(shù)據(jù),結(jié)合數(shù)據(jù)預(yù)處理和機(jī)器學(xué)習(xí)算法,對(duì)海底底質(zhì)進(jìn)行分類(lèi)。通過(guò)對(duì)海底底質(zhì)的探測(cè)來(lái)監(jiān)測(cè)海底生態(tài)環(huán)境,輔助識(shí)別、評(píng)估和保護(hù)海洋生物群落。
2、針對(duì)海底底質(zhì)分類(lèi)的研究,國(guó)內(nèi)外科研人員做了大量研究,可大致分為4類(lèi)。(1)原位取樣法:原位取樣一般使用專(zhuān)門(mén)設(shè)計(jì)的底質(zhì)取樣儀器放置海底,周?chē)h(huán)境未發(fā)生變化,最大程度保持沉積物在海底的溫度、壓力以及土工等狀態(tài),避免沉積物樣品取樣和搬運(yùn)過(guò)程中對(duì)沉積物造成的擾動(dòng),直接測(cè)量沉積物特性的方法。但存在高成本,有限的空間取樣的局限性。(2)多波束聲學(xué)底質(zhì)分類(lèi):多反向散射強(qiáng)度數(shù)據(jù)與海底底質(zhì)的粗糙度、沉積物粒徑、孔隙度、飽和度等物理屬性及入射角有極強(qiáng)的相關(guān)性。通過(guò)對(duì)多波束反向散射強(qiáng)度數(shù)據(jù)進(jìn)行傳播損失改正、聲線(xiàn)彎曲改正、lambert法則改正、聲照區(qū)面積改正、船底正下方中央波束區(qū)信號(hào)改正以及濾波等一系列處理,根據(jù)后向散射強(qiáng)度值范圍反映海底沉積物類(lèi)型,但多波束復(fù)雜的算法和模型,導(dǎo)致聲學(xué)數(shù)據(jù)解讀的難度較大,對(duì)專(zhuān)業(yè)知識(shí)的依賴(lài)性高。(3)機(jī)載激光雷達(dá)測(cè)深技術(shù)(alb)和多時(shí)相數(shù)據(jù)融合的光學(xué)底質(zhì)分類(lèi):機(jī)載激光雷達(dá)測(cè)深可以獲得水深數(shù)據(jù)和含有底質(zhì)信息的激光脈沖回波數(shù)據(jù);基于機(jī)載激光雷達(dá)測(cè)深波形數(shù)據(jù),并結(jié)合水深衍生數(shù)據(jù)的海底底質(zhì)。多時(shí)相數(shù)據(jù)融合指不同時(shí)間獲取的遙感數(shù)據(jù)進(jìn)行融合,以捕捉海底底質(zhì)隨時(shí)間的變化。但光在水中的傳播受到水的清澈度、渾濁度等因素的影響,影響底質(zhì)特征的可見(jiàn)性。(4)多源數(shù)據(jù)的多特征提取底質(zhì)分類(lèi)。融合光學(xué)和聲學(xué)數(shù)據(jù)提取不同的特征,光學(xué)遙感數(shù)據(jù)可以提供高分辨率的地表覆蓋信息,而聲學(xué)數(shù)據(jù)可以提供海底地形和底質(zhì)的詳細(xì)信息,結(jié)合不同的機(jī)器學(xué)習(xí)分類(lèi)算法,如支持向量機(jī)(svm)、bp神經(jīng)網(wǎng)絡(luò)、隨即森林(rf)等,以提高海底底質(zhì)分類(lèi)的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的是利用worldview-2多光譜數(shù)據(jù)和多波束測(cè)深數(shù)據(jù),提供一種基于向前逐步特征選擇和ga-xgboost的多源數(shù)據(jù)海底底質(zhì)分類(lèi)方法,以提高海底底質(zhì)分類(lèi)的準(zhǔn)確率。
2、基于ga-xgboost的多源數(shù)據(jù)海底底質(zhì)分類(lèi)方法,其特征是包含以下步驟:
3、(0)獲取研究區(qū)域內(nèi)的多光譜影像、多波束實(shí)測(cè)水深數(shù)據(jù)和實(shí)測(cè)底質(zhì)樣本;
4、(1)數(shù)據(jù)預(yù)處理:
5、對(duì)多光譜影像做輻射校正,大氣校正預(yù)處理;
6、并根據(jù)歸一化差分水體指數(shù)方法對(duì)影像進(jìn)行水陸分離;
7、對(duì)測(cè)深數(shù)據(jù)和光譜影像進(jìn)行空間尺度配準(zhǔn);
8、(2)多特征提取與選擇:
9、(2.1)光譜特征提?。罕A?個(gè)波段的輻射亮度值作為特征,分別是coastalbule、blue、green、yellow、red、rededge;再根據(jù)對(duì)應(yīng)波段輻射亮度值計(jì)算歸一化植被指數(shù)ndvi、比值植被指數(shù)sr、?可見(jiàn)光大氣阻抗指vari、增強(qiáng)型植被指數(shù),共計(jì)10維光譜特征;
10、(2.2)地形特征提取:選用多波束實(shí)測(cè)水深數(shù)據(jù)depth作為基礎(chǔ)地形數(shù)據(jù),提取相關(guān)地形特征數(shù)據(jù)——坡度slope、坡向aspect、曲率curvature和粗糙度roughness;
11、(2.3)特征向量提取并構(gòu)建特征選擇:將提取到的特征按層結(jié)構(gòu)排列,以1×1像元為單位提取每層相同坐標(biāo)位置的各個(gè)特征數(shù)據(jù)和底質(zhì)類(lèi)別,逐層歸一化處理,組成特征向量,將特征向量分布畫(huà)出箱型圖;
12、(2.4)選擇最優(yōu)特征子集,包括重要性排序和分類(lèi)精度分析,以xgboost評(píng)估特征的重要性,在評(píng)估過(guò)程中通過(guò)比較分裂前后的目標(biāo)函數(shù)變化來(lái)計(jì)算特征平均信息增益;通過(guò)對(duì)每個(gè)特征的增益值累加求均值,得到該特征的最終重要性分?jǐn)?shù);將特征重要性分?jǐn)?shù)從高到低進(jìn)行排序;
13、為確定最優(yōu)特征向量子集組合,采用向前逐步特征選擇方法,為提高計(jì)算效率,將最重要的兩個(gè)特征作為xgboost的初始輸入,按特征重要性分?jǐn)?shù)依次增加1個(gè)特征變量到xgboost模型訓(xùn)練和測(cè)試;每增添一維特征,觀察分類(lèi)精度變化;當(dāng)分類(lèi)精度變化不再顯著,認(rèn)為當(dāng)前維度特征集合是最優(yōu)的,至此完成特征選擇;將選擇出的特征數(shù)量記為n;
14、(3)ga-xgboost分類(lèi)模型構(gòu)建:
15、將特征向量子集劃分多個(gè)子集,每個(gè)子集依次用作驗(yàn)證集,并將其他子集用作訓(xùn)練集;ga遺傳算法將待優(yōu)化的xgboost超參數(shù)組合表示為“染色體”,輸入隨機(jī)生成超參數(shù)組合,用每個(gè)超參數(shù)組合訓(xùn)練xgboost模型,并在驗(yàn)證集上計(jì)算模型準(zhǔn)確率指標(biāo)作為適應(yīng)度值,通過(guò)選擇、交叉、變異操作產(chǎn)生新一代超參數(shù)組合,重復(fù)以上操作直至達(dá)到預(yù)設(shè)的迭代次數(shù),輸出適應(yīng)度值最高的染色體作為優(yōu)化后的xgboost算法的最優(yōu)超參數(shù)組合,得到最佳參數(shù)ga-xgboost模型;
16、(4)海底底質(zhì)分類(lèi):
17、將其他研究區(qū)域的所有特征向量提取出來(lái),輸入訓(xùn)練好的ga-xgboost模型,對(duì)整個(gè)研究區(qū)域的特征向量進(jìn)行分類(lèi)劃分。
18、步驟(1)中,所述輻射校正、大氣校正預(yù)處理是利用envi軟件對(duì)多光譜影像進(jìn)行預(yù)處理;
19、所述根據(jù)歸一化差分水體指數(shù)方法進(jìn)行水陸分離,是通過(guò)設(shè)定一個(gè)閾值,值不小于的區(qū)域?yàn)樗w,反之則為非水體,公式如下:
20、,
21、式中,?為綠光波段的輻射亮度值;為近紅外波段的輻射亮度值;為歸一化差分水體指數(shù);為歸一化差分水體指數(shù)法的閾值,。
22、步驟(0)中,多光譜影像采用worldview-2影像;步驟(1),所述對(duì)聲學(xué)數(shù)據(jù)和光學(xué)遙感數(shù)據(jù)進(jìn)行空間尺度配準(zhǔn),是以worldview-2影像1.85m分辨率為參考,對(duì)多波束實(shí)測(cè)水深數(shù)據(jù)進(jìn)行重采樣和坐標(biāo)轉(zhuǎn)換,統(tǒng)一兩個(gè)數(shù)據(jù)源的坐標(biāo)系統(tǒng)、分辨率。
23、步驟(2.1)光譜特征提取中,10維光譜特征計(jì)算方式如表1:
24、表1?光譜特征指標(biāo)計(jì)算公式
25、,
26、其中,rc表示coastalbule輻射亮度值,rb表示bule輻射亮度值,rg表示green輻射亮度值,ry表示yellow輻射亮度值,rr表示red輻射亮度值,rre表示rededge輻射亮度值,rnir1表示nearinfrared1輻射亮度值,?rnir2表示nearinfrared2輻射亮度值;c1=6,c2=7.5,l=1,g=2.5。
27、步驟(2.2)地形特征提取中,各特征指標(biāo)公式如表2:
28、表2?地形特征指標(biāo)計(jì)算公式
29、,
30、其中,表示空間坐標(biāo),為目標(biāo)點(diǎn)高程,?某一相鄰柵格點(diǎn)的高程,?為該點(diǎn)與相鄰點(diǎn)之間的水平距離,為三維曲面圖法線(xiàn)的? x,? y方向分量; slope i為該點(diǎn)與相鄰點(diǎn)之間的坡度; arctan2 (ny, nx)為計(jì)算參數(shù)的的反正切值。
31、步驟(2.4)中,所述計(jì)算平均信息增益具體公式為:
32、,
33、式中,表示第 j個(gè)特征的節(jié)點(diǎn), j∈1,…, n;表示所有樹(shù)的數(shù)量,表示第棵樹(shù)的非葉子節(jié)點(diǎn)數(shù)量,表示第棵樹(shù)的第個(gè)非葉子節(jié)點(diǎn)的劃分特征,所以, ?是指示函數(shù);為正則化項(xiàng)的超參數(shù),、分別表示落在第棵樹(shù)的第個(gè)非葉子節(jié)點(diǎn)上所有樣本的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)之和,?分別表示落在第棵樹(shù)上第個(gè)非葉子節(jié)點(diǎn)的左、右節(jié)點(diǎn)上的一階導(dǎo)數(shù)之和,同理,分別表示落在第棵樹(shù)上第個(gè)非葉子節(jié)點(diǎn)的左、右節(jié)點(diǎn)上的二階導(dǎo)數(shù)之和,所以有:
34、,
35、。
36、步驟(2.4)中,對(duì)每個(gè)特征的增益值累加求均值,得到該特征的最終重要性分?jǐn)?shù)如下:
37、, j∈1,…, n。
38、步驟(2.4)中,每增添一維特征,觀察分類(lèi)精度變化,若增加新特征后,分類(lèi)精度下降超過(guò)1%,或者與前面最高精度相比上升幅度不超過(guò)0.5%時(shí),認(rèn)為當(dāng)前維度特征集合是最優(yōu)的,至此完成特征選擇。
39、步驟(3)中選擇準(zhǔn)確率性能指標(biāo)計(jì)算適應(yīng)度值如下:
40、,
41、其中, s為ga遺傳算法的迭代次數(shù),并從 s次迭代中輸出適應(yīng)度值最高的染色體作為優(yōu)化后的xgboost算法的最優(yōu)超參數(shù)組合,得到最佳參數(shù)ga-xgboost模型。
42、步驟(3)中,分類(lèi)模型的表達(dá)式可概括為:
43、,
44、式中:c為ca-xgboost分類(lèi)算法,feuture1—為步驟(2.4)確定的n個(gè)特征。
45、本發(fā)明采用多光譜影像、多波束實(shí)測(cè)水深數(shù)據(jù)結(jié)合少量的實(shí)測(cè)底質(zhì)樣本的多源數(shù)據(jù)融合的方式,提高了海底底質(zhì)分類(lèi)的準(zhǔn)確性;并重新設(shè)計(jì)了特征選擇技術(shù),去除了無(wú)關(guān)和冗余特征,簡(jiǎn)化特征空間,提高了分類(lèi)模型的性能;采用ga與xgboost結(jié)合提高分類(lèi)模型的性能和泛化能力。