本發(fā)明涉及基于眾源地理數(shù)據(jù)的地表覆蓋更新方法及系統(tǒng)。
背景技術(shù):
地表覆蓋信息提取能力逐步增強,多尺度地表覆蓋數(shù)據(jù)產(chǎn)品不斷涌現(xiàn),為環(huán)境變化研究、地球系統(tǒng)模擬、地理國情監(jiān)測和可持續(xù)發(fā)展規(guī)劃等提供了重要科學(xué)數(shù)據(jù)。地表覆蓋數(shù)據(jù)產(chǎn)品的空間分辨率、分類精度大幅提升,種類不斷豐富,但由于自然地理環(huán)境和人類活動表現(xiàn)出很強的動態(tài)性,變化更新較快,因此,難以完全滿足廣大用戶日益增長的應(yīng)用需求。深入研究地表覆蓋數(shù)據(jù)產(chǎn)品的動態(tài)實時更新,已成為當前研究的一項重要任務(wù)。
目前,地表覆蓋數(shù)據(jù)的更新和變化檢測主要利用遙感影像來完成,國內(nèi)外學(xué)者也提出了一些很多基于遙感影像的變化檢測模型和算法。
“chen,jun,etal."aspectralgradientdifferencebasedapproachforlandcoverchangedetection."isprsjournalofphotogrammetryandremotesensing85(2013):1-12.”將影像中的變化檢測從光譜量值空間轉(zhuǎn)化到斜率空間,利用光譜斜率差異進行變化檢測。
“rao,yuhan,etal."animprovedmethodforproducinghighspatial-resolutionndvitimeseriesdatasetswithmulti-temporalmodisndvidataandlandsattm/etm+images."remotesensing7.6(2015):7865-7891.”將modis影像時序數(shù)據(jù)與landsat相融合,改正或修正季相差異對變化檢測的影響。
“zhu,zhe,andcurtise.woodcock."continuouschangedetectionandclassificationoflandcoverusingallavailablelandsatdata."remotesensingofenvironment144(2014):152-171.”利用時間序列影像提供的趨勢性信息,以減小時相差異帶來的偽變化,提高變化檢測的可靠性。
上述研究應(yīng)用遙感影像成功構(gòu)建了變化檢測模型,然而,遙感影像生產(chǎn)周期長,圖像解譯耗時耗力、難以實現(xiàn)地表覆蓋產(chǎn)品動態(tài)實時更新的需求。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的就是為了解決上述問題,提供一種基于眾源地理數(shù)據(jù)的地表覆蓋更新方法及系統(tǒng),利用眾源地理數(shù)據(jù)的空間分布和文本信息,提取地表覆蓋的變化信息。
為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
基于眾源地理數(shù)據(jù)的地表覆蓋更新方法,包括如下步驟:
步驟a:獲取眾源地理數(shù)據(jù)與地表覆蓋數(shù)據(jù)產(chǎn)品,將眾源地理數(shù)據(jù)作為地表覆蓋更新數(shù)據(jù);提取地表覆蓋數(shù)據(jù)產(chǎn)品中檢測地表覆蓋類型變化的地表覆蓋數(shù)據(jù),將眾源地理數(shù)據(jù)與所提取的地表覆蓋數(shù)據(jù)進行空間疊加,選取落到地表覆蓋數(shù)據(jù)外的眾源地理數(shù)據(jù);眾源地理數(shù)據(jù)包括:反映地表覆蓋類型的文本信息和表示空間位置的坐標信息;
步驟b:從步驟a所選取的落到地表覆蓋數(shù)據(jù)外的眾源地理數(shù)據(jù)中提取表示空間位置的坐標信息,采用核密度模型,劃定地表覆蓋待檢測區(qū)域;
步驟c:依據(jù)步驟b所劃定的地表覆蓋待檢測區(qū)域,提取待檢測區(qū)域內(nèi)眾源地理數(shù)據(jù)的文本信息,應(yīng)用tf-idf算法,判斷待檢測區(qū)域內(nèi)眾源地理數(shù)據(jù)地表覆蓋類型;
步驟d:若地表覆蓋待檢測區(qū)域的地表覆蓋類型與步驟a中提取的檢測地表覆蓋類型變化的地表覆蓋數(shù)據(jù)的類型一致,則該待檢測區(qū)域為地表覆蓋更新區(qū)域,反之,則為非地表覆蓋更新區(qū)域。
所述眾源地理數(shù)據(jù)包括:帶地理坐標的眾源poi數(shù)據(jù)集、眾源圖片數(shù)據(jù)集和眾源文本數(shù)據(jù)集。
所述步驟b包括:
步驟b1:利用眾源地理數(shù)據(jù)的坐標信息,計算眾源地理數(shù)據(jù)到現(xiàn)有地表覆蓋數(shù)據(jù)的最近距離das,繼而以設(shè)定距離范圍為間隔,對各間隔距離范圍內(nèi)的眾源地理數(shù)據(jù)的個數(shù)進行統(tǒng)計,得到眾源地理數(shù)據(jù)最多的距離范圍ras;
步驟b2:利用眾源地理數(shù)據(jù)的坐標信息,計算眾源地理數(shù)據(jù)之間的最短距離dvgi,繼而以50米為間隔,對各間隔距離范圍內(nèi)的眾源地理數(shù)據(jù)進行統(tǒng)計,得到眾源地理數(shù)據(jù)最多的距離范圍rvgi;
步驟b3:結(jié)合步驟b1、b2所得距離范圍ras和rvgi,利用眾源地理數(shù)據(jù)的坐標信息,應(yīng)用核密度模型,劃定地表覆蓋待檢測區(qū)域d;
為確定適合眾源地理數(shù)據(jù)的帶寬h,結(jié)合步驟b1、b2所得距離范圍ras和rvgi,通過計算兩個距離范圍的均值,得到帶寬h的合理范圍。
眾源地理數(shù)據(jù)最多的距離范圍ras計算公式:
式中,ni為第i段距離范圍內(nèi)眾源地理數(shù)據(jù)的個數(shù)n,n為眾源地理數(shù)據(jù)總數(shù),
眾源地理數(shù)據(jù)最多的距離范圍rvgi計算公式如下:
式中,nj為第j段距離范圍內(nèi)眾源地理數(shù)據(jù)的個數(shù)n,n為眾源地理數(shù)據(jù)總數(shù),
地表覆蓋待檢測區(qū)域d的計算公式:
式中,n為眾源地理數(shù)據(jù)的數(shù)量,k為核函數(shù),選擇sigmoid核函數(shù)作為計算依據(jù),xi為第i個已知的眾源地理數(shù)據(jù),h為區(qū)域范圍搜索帶寬。
帶寬h計算公式如下:
所述步驟c包括:
步驟c1:提取各地表覆蓋待檢測區(qū)域內(nèi)的文本信息,利用tf-idf算法,計算文本信息中每個詞語的權(quán)重;
步驟c2:依據(jù)步驟c1的詞語權(quán)重計算結(jié)果,將各地表覆蓋待檢測區(qū)域內(nèi)詞語的權(quán)重按照從小到大的順序排序,選擇區(qū)域內(nèi)權(quán)重最高的詞語,將權(quán)重最高的詞語所對應(yīng)的地表覆蓋類型作為待檢測區(qū)域的地表覆蓋類型。
文本信息中每個詞語的權(quán)重計算公式:
tfidfi,j=tfi,j×idfi(5);
式中,tfidfi,j為第j個地表覆蓋待檢測區(qū)域d中出現(xiàn)的第i個詞t的權(quán)重,tfi,j為該詞的詞頻,idfi為該詞的逆向文件頻率;
詞頻計算公式:
逆向文件頻率的計算公式:
式中,ni,j是詞語t在地表覆蓋區(qū)域dj中出現(xiàn)的次數(shù),nk,j為地表覆蓋區(qū)域dj中第k個詞語出現(xiàn)的次數(shù),∑knk,j為地表覆蓋區(qū)域dj中所有詞語出現(xiàn)的次數(shù)之和。|d|為地表覆蓋區(qū)域的總數(shù),|{j:ti∈dj}|是指在所有地表覆蓋區(qū)域中,包含第j個地表覆蓋區(qū)域dj中第i個詞語ti的地表覆蓋區(qū)域數(shù)目。
基于眾源地理數(shù)據(jù)的地表覆蓋更新系統(tǒng),
獲取模塊:獲取眾源地理數(shù)據(jù)與地表覆蓋數(shù)據(jù)產(chǎn)品,將眾源地理數(shù)據(jù)作為地表覆蓋更新數(shù)據(jù);提取地表覆蓋數(shù)據(jù)產(chǎn)品中檢測地表覆蓋類型變化的地表覆蓋數(shù)據(jù),將眾源地理數(shù)據(jù)與所提取的地表覆蓋數(shù)據(jù)進行空間疊加,選取落到地表覆蓋數(shù)據(jù)外的眾源地理數(shù)據(jù);眾源地理數(shù)據(jù)包括:反映地表覆蓋類型的文本信息和表示空間位置的坐標信息;
提取模塊:從獲取模塊所選取的落到地表覆蓋數(shù)據(jù)外的眾源地理數(shù)據(jù)中提取表示空間位置的坐標信息,采用核密度模型,劃定地表覆蓋待檢測區(qū)域;
第一判斷模塊:依據(jù)提取模塊所劃定的地表覆蓋待檢測區(qū)域,提取待檢測區(qū)域內(nèi)眾源地理數(shù)據(jù)的文本信息,應(yīng)用tf-idf算法,判斷待檢測區(qū)域內(nèi)眾源地理數(shù)據(jù)地表覆蓋類型;
第二判斷模塊:若地表覆蓋待檢測區(qū)域的地表覆蓋類型與步驟a中提取的檢測地表覆蓋類型變化的地表覆蓋數(shù)據(jù)的類型一致,則該待檢測區(qū)域為地表覆蓋更新區(qū)域,反之,則為非地表覆蓋更新區(qū)域。
本發(fā)明的有益效果:
1眾源地理數(shù)據(jù)的大量出現(xiàn),為地表覆蓋的變化發(fā)現(xiàn)與更新提供了新的參考信息來源。雖然這類參考信息的數(shù)據(jù)內(nèi)容、表達形式、時空分辨率、數(shù)據(jù)精度及地域分布復(fù)雜多樣,但是得益于實時更新、便捷獲取的特點,使得地表覆蓋更新的周期和成本明顯降低,自動化程度大幅度提升,可在一定程度滿足地表覆蓋動態(tài)實時更新的需求。
2利用眾源地理數(shù)據(jù)的位置信息,采用核密度算法,劃定地表覆蓋更新區(qū)域;繼而,依據(jù)所劃定的地表覆蓋更新區(qū)域中眾源地理數(shù)據(jù)的文本信息,采用tf-idf算法,計算各眾源地理數(shù)據(jù)詞語的權(quán)重,判斷所在區(qū)域的地表覆蓋類型。
附圖說明
圖1為本發(fā)明流程圖;
圖2為2010年人造地表與2016年poi分布圖;
圖3為poi距離人造地表的最近距離圖;
圖4為poi數(shù)據(jù)間的最近距離圖;
圖5為地表覆蓋更新區(qū)域圖;
圖6(a)-圖6(d)為部分地表覆蓋區(qū)域詞語權(quán)重分布圖;
圖7為部分地表覆蓋區(qū)域分類結(jié)果圖。
具體實施方式
下面結(jié)合附圖與實施例對本發(fā)明作進一步說明。
為了對本發(fā)明的技術(shù)特征、目的和效果有更加清楚的理解,現(xiàn)以我國自主生產(chǎn)的30米分辨率的2010年globeland30作為更新前的地表覆蓋數(shù)據(jù),眾源地理數(shù)據(jù)選用2016年北京市的高德地圖poi數(shù)據(jù)集,將其做為更新數(shù)據(jù)。由于poi數(shù)據(jù)多反映人類活動,故以地表覆蓋分類中的大多由建成區(qū)構(gòu)成的人造地表的更新為例,對照附圖說明本發(fā)明的具體實施方式。
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。
本發(fā)明所提出的一種基于眾源地理數(shù)據(jù)的地表覆蓋分類方法,如圖1所示,所述方法用于基于眾源地理數(shù)據(jù)的地表覆蓋更新;所述地表覆蓋更新方法包括基于核密度的地表覆蓋更新區(qū)域劃定方法和基于tf-idf算法的地表覆蓋分類方法;所述方法包括如下步驟:
a、獲取眾源地理數(shù)據(jù)與地表覆蓋產(chǎn)品數(shù)據(jù),將眾源地理數(shù)據(jù)作為地表覆蓋更新數(shù)據(jù);提取地表覆蓋產(chǎn)品中檢測類型變化的地表覆蓋數(shù)據(jù),將眾源地理數(shù)據(jù)與所提取的地表覆蓋數(shù)據(jù)進行空間疊加,選取落到地表覆蓋數(shù)據(jù)外的眾源地理數(shù)據(jù),用于劃定地表覆蓋更新區(qū)域;眾源地理數(shù)據(jù)必須包含:反映地表覆蓋類型的文本信息和表示空間位置的坐標信息;
應(yīng)用重分類的方法,將2010年globeland30地表覆蓋數(shù)據(jù)分類為人造地表類型和非人造地表類型,并從中提取出2010年的人造地表區(qū)域。繼而,將2016年北京市的高德地圖poi數(shù)據(jù)集空間疊加于人造地表區(qū)域,提取落在2010年人造地表以外的poi數(shù)據(jù),作為人造地表更新數(shù)據(jù),如圖2所示。
b、利用步驟a所獲取的眾源地理數(shù)據(jù),提取其表示空間位置的坐標信息,應(yīng)用核密度模型,劃定地表覆蓋更新區(qū)域。
a.利用眾源地理數(shù)據(jù)的坐標信息,計算各眾源地理數(shù)據(jù)到現(xiàn)有地表覆蓋數(shù)據(jù)的最近距離das,繼而以50米為間隔,對各距離范圍內(nèi)的眾源地理數(shù)據(jù)進行統(tǒng)計,得到眾源地理數(shù)據(jù)最多的距離范圍ras,其計算公式如下:
式中,ni為第i段距離范圍內(nèi)眾源地理數(shù)據(jù)的個數(shù)n,n為眾源地理數(shù)據(jù)總數(shù),
以5000米為搜索半徑,計算poi數(shù)據(jù)距離5000米內(nèi)人造地表的最近距離,并以50米為間隔,對各距離范圍內(nèi)的眾源地理數(shù)據(jù)進行統(tǒng)計,計算結(jié)果如圖3所示。距離在100米內(nèi)的poi數(shù)量最多,隨著距離的增大,poi的數(shù)量逐漸減少,當距離大于1000后,poi的數(shù)量接近于0,但1000-5000米這段距離之間仍有極少量poi的存在。通過對圖3中poi數(shù)量分布的分析,本專利選取100米作為poi與人造地表的距離范圍。
b.利用眾源地理數(shù)據(jù)的坐標信息,計算各眾源地理數(shù)據(jù)之間的最短距離dvgi,繼而以50米為間隔,對各距離范圍內(nèi)的眾源地理數(shù)據(jù)進行統(tǒng)計,得到眾源地理數(shù)據(jù)最多的距離范圍rvgi,其計算公式如下:
式中,nj為第j段距離范圍內(nèi)眾源地理數(shù)據(jù)的個數(shù)n,n為眾源地理數(shù)據(jù)總數(shù),
以5000米為搜索半徑,計算poi數(shù)據(jù)距離5000米內(nèi)其他poi的最近距離,并以50米為間隔,對各距離范圍內(nèi)的眾源地理數(shù)據(jù)進行統(tǒng)計,計算結(jié)果如圖4所示。與圖3不同,poi之間的最近距離多集中在200米以內(nèi),200米以外的poi數(shù)量幾乎為0,而100米內(nèi)的poi數(shù)量最多,依據(jù)圖4中poi數(shù)量的分布,本專利選取100米作為poi間的距離范圍。
c.結(jié)合步驟b1、b2所得距離范圍ras和rvgi,利用眾源地理數(shù)據(jù)的坐標信息,應(yīng)用核密度模型,對地表覆蓋更新區(qū)域進行劃定,其計算公式如下:
式中,n為眾源地理數(shù)據(jù)的數(shù)量,k為核函數(shù),本專利選擇sigmoid核函數(shù)作為計算依據(jù),xi為第i個已知的眾源地理數(shù)據(jù),h為區(qū)域范圍搜索帶寬。為確定適合眾源地理數(shù)據(jù)的帶寬h,本專利結(jié)合步驟b1、b2所得距離范圍ras和rvgi,通過計算兩個距離范圍的均值,得到帶寬h的合理范圍,其計算公式如下:
利用步驟a,b中計算所得距離范圍,應(yīng)用公式(4),計算得到用于劃定地表覆蓋更新區(qū)域的帶寬h。繼而,依據(jù)所得帶寬h,應(yīng)用公式(3),劃定地表覆蓋更新區(qū)域。如圖5所示,劃定的地表覆蓋更新區(qū)域多與2010年人造地表相鄰,為人造地表擴張區(qū)域,少數(shù)地表覆蓋更新區(qū)域遠離2010年人造地表散落分布,該區(qū)域可能為人造地表,或者其他地表覆蓋類型。
c、依據(jù)步驟b所劃定的地表覆蓋更新區(qū)域,提取區(qū)域內(nèi)眾源地理數(shù)據(jù)的文本信息,應(yīng)用tf-idf算法,分析其地表覆蓋類型。
a.提取各地表覆蓋更新區(qū)域內(nèi)的文本信息,利用tf-idf算法,計算文本信息中每個詞語的權(quán)重,其計算公式如下:
tfidfi,j=tfi,j×idfi(5)
式中,tfidfi,j為第j個地表覆蓋區(qū)域d中出現(xiàn)的第i個詞t的權(quán)重,tfi,j為該詞的詞頻,idfi為該詞的逆向文件頻率,其計算公式如下:
式中,ni,j是詞語t在地表覆蓋區(qū)域dj中出現(xiàn)的次數(shù),∑knk,j為地表覆蓋區(qū)域dj中所有詞語出現(xiàn)的次數(shù)之和,nk為區(qū)域中第k個詞語。|d|為地表覆蓋區(qū)域的總數(shù),|{j:ti∈dj}|是指包含詞語t的文件數(shù)目。
b.依據(jù)步驟c1的詞語權(quán)重計算結(jié)果,將各地表覆蓋區(qū)域內(nèi)詞語的權(quán)重按照從小到大的順序排序,選擇區(qū)域內(nèi)權(quán)重較高的詞語,作為判斷地表覆蓋類型的依據(jù)。若區(qū)域內(nèi)的地表覆蓋類型與所提取的地表覆蓋數(shù)據(jù)類型一致,則該區(qū)域為地表覆蓋更新區(qū)域,反之,則非地表覆蓋更新區(qū)域,
部分計算所得地表覆蓋區(qū)域的詞語權(quán)重如圖6(a)-圖6(d)所示。圖6(a)中所占權(quán)重最大的詞語為風(fēng)景名勝,權(quán)值達到了300以上,其次為旅游景點,公園內(nèi)部設(shè)施等,表明該處為公園等風(fēng)景區(qū),由此可判斷該處為非人造地表。圖6(b)中權(quán)重較高的詞語多與住宅小區(qū)相關(guān),如“樓棟號”、“住宅小區(qū)”等,表明該處為非人造地表。圖6(c)與圖6(a)類似,“風(fēng)景名勝”的權(quán)重最高,同時該區(qū)域內(nèi)“度假村”的權(quán)重也相對較高,可判斷該區(qū)域為戶外旅游區(qū)域,為非人造地表。圖6(d)與圖6(b)類似,通過詞語權(quán)重可得該處為住宅區(qū),為人造地表區(qū)域。由此可得地表覆蓋分類如圖7所示,其中綠色區(qū)域被分類為非人造地表,不屬于人造地表更新區(qū)域,而粉紅色區(qū)域,為2016年更新的人造地表區(qū)域。
本發(fā)明提出了一種基于眾源地理數(shù)據(jù)的地表覆蓋分類方法,利用眾源地理數(shù)據(jù)的位置信息,采用核密度算法,劃定地表覆蓋更新區(qū)域;繼而,依據(jù)所劃定的地表覆蓋更新區(qū)域中眾源地理數(shù)據(jù)的文本信息,采用tf-idf算法,計算各眾源地理數(shù)據(jù)詞語的權(quán)重,判斷所在區(qū)域的地表覆蓋類型。
上述雖然結(jié)合附圖對本發(fā)明的具體實施方式進行了描述,但并非對本發(fā)明保護范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護范圍以內(nèi)。