本發(fā)明涉及一種監(jiān)測(cè)抽樣布局方法,屬于地球空間信息技術(shù)領(lǐng)域。
技術(shù)背景
抽樣調(diào)查是用抽樣數(shù)據(jù)推斷調(diào)查對(duì)象的屬性,相對(duì)于普查而言,抽樣調(diào)查具有費(fèi)用低、速度快和精度高等優(yōu)點(diǎn)。一般來(lái)說(shuō),在試驗(yàn)費(fèi)用固定的情況下,樣本設(shè)計(jì)應(yīng)使在用樣本數(shù)據(jù)來(lái)估計(jì)抽樣區(qū)域變量的空間分布時(shí),估計(jì)值達(dá)到最高精度;而在樣本精度要求已經(jīng)確定的情況下,樣本設(shè)計(jì)應(yīng)使得抽樣的費(fèi)用最小。怎樣在樣本精度和費(fèi)用之間達(dá)到較好的平衡,就是抽樣的優(yōu)化問(wèn)題。
抽樣按照是否考慮樣本的空間相關(guān)性和空間異質(zhì)性,可以劃分為經(jīng)典抽樣和空間抽樣(王勁峰,2009)。經(jīng)典抽樣是以cochran(1977)的專著為代表,其理論建立在樣本相互獨(dú)立的假設(shè)之上。經(jīng)典抽樣可以用于空間對(duì)象的調(diào)查,雖然輸入簡(jiǎn)單,較易使用,但效率較低??臻g抽樣調(diào)查則考慮了樣本的空間自相關(guān)特性和空間異質(zhì)性,效率較高(wangetal.2012a)。
目前,我國(guó)流動(dòng)人口抽樣方法主要是經(jīng)典抽樣方法,以分層、多階段、與規(guī)模成比例的pps(即probabilityproportionatetosizesampling)抽樣方法為主。2009~2013年,國(guó)家衛(wèi)生計(jì)生委(原國(guó)家人口計(jì)生委)連續(xù)5年進(jìn)行流動(dòng)人口動(dòng)態(tài)監(jiān)測(cè)調(diào)查,按照隨機(jī)原則在31個(gè)省(區(qū)、市)和新疆生產(chǎn)建設(shè)兵團(tuán)抽取樣本點(diǎn),采取pps抽樣方法進(jìn)行抽樣。然而流動(dòng)人口的分布與地理空間是高度相關(guān)的,不同類型區(qū)的流動(dòng)人口具有不同的空間分布特征(劉盛和,2010),這種傳統(tǒng)的抽樣方法沒(méi)有考慮空間差異和地理特征,監(jiān)測(cè)網(wǎng)絡(luò)布局沒(méi)有建立在對(duì)全國(guó)流動(dòng)人口地域類型劃分的基礎(chǔ)上,典型性和代表性有待進(jìn)一步提高,數(shù)據(jù)缺乏驗(yàn)證機(jī)制,采集成本極高,調(diào)查網(wǎng)點(diǎn)布局不盡合理,監(jiān)測(cè)網(wǎng)絡(luò)需要進(jìn)一步優(yōu)化。
常用的空間采樣優(yōu)化中的采樣方式主要可以分為基于設(shè)計(jì)的采樣(design-basedsampling)方式(cochran1977,degruijteretal.1990)和基于模型的采樣(model-basedsampling)(brusetal.1997,wangetal.2012a)?;谠O(shè)計(jì)的采樣方式包括簡(jiǎn)單隨機(jī)采樣,系統(tǒng)采樣和分層采樣。基于模型的采樣主要應(yīng)用于研究對(duì)象表現(xiàn)出顯著的空間自相關(guān)特征。
針對(duì)流動(dòng)人口在空間上的自相關(guān)性,本發(fā)明采用基于模型的采樣方法來(lái)說(shuō)優(yōu)化流動(dòng)人口的采樣點(diǎn)位置?;诘亟y(tǒng)計(jì)的采樣優(yōu)化是最為常見(jiàn)的基于模型的優(yōu)化方法。它通過(guò)定義目標(biāo)函數(shù)來(lái)搜索最佳的采樣方案,這個(gè)目標(biāo)通常為平均克里格誤差方差最小(vangroenigenetal.1998,steinetal.2003,wangetal.2012c)。然而,流動(dòng)人口的估算是以區(qū)域?yàn)閱挝唬茨硡^(qū)域流動(dòng)人口總體的估計(jì)誤差方差最小。在這種情況下,待估計(jì)的不是區(qū)域上的所有點(diǎn),而是整個(gè)研究區(qū)。也就是說(shuō),估計(jì)的單元由空間點(diǎn)到面區(qū)域。從理論上,目標(biāo)為最小化塊克里格方差(verhoef2002,gruijteretal.2006)。針對(duì)流動(dòng)人口的空間異質(zhì)性,本發(fā)明通過(guò)區(qū)劃或分區(qū)的方法來(lái)定量衡量每個(gè)分區(qū)的變異特征,可以提高監(jiān)測(cè)網(wǎng)優(yōu)化的效率,用較少的觀測(cè)點(diǎn)可以得到獲得統(tǒng)計(jì)單元較可靠的估計(jì)值,有助于探索人口流動(dòng)過(guò)程的成因和影響因素。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明解決的技術(shù)問(wèn)題:克服現(xiàn)有技術(shù)的不足,傳統(tǒng)的流動(dòng)人口抽樣方法沒(méi)有考慮流動(dòng)人口的空間差異和地理特征,監(jiān)測(cè)網(wǎng)絡(luò)布局沒(méi)有建立在對(duì)流動(dòng)人口地域類型劃分的基礎(chǔ)上,不具有典型性和代表性。本發(fā)明通過(guò)能捕捉變量空間異質(zhì)性和空間相關(guān)性的空間抽樣方式,對(duì)于流動(dòng)人口的抽樣,采取將基于克里格方法的監(jiān)測(cè)網(wǎng)優(yōu)化方法與傳統(tǒng)的空間分層抽樣相結(jié)合的空間抽樣方法,得到具有空間異質(zhì)性的流動(dòng)人口的監(jiān)測(cè)網(wǎng)布局優(yōu)化。
本發(fā)明的技術(shù)方案:一種基于分層塊克里格模型的流動(dòng)人口監(jiān)測(cè)網(wǎng)布局優(yōu)化方法包括如下步驟:
步驟1、對(duì)研究區(qū)域相關(guān)數(shù)據(jù)與先驗(yàn)信息進(jìn)行收集處理,先驗(yàn)數(shù)據(jù)包括研究區(qū)以往的分區(qū)流動(dòng)人口和總?cè)丝诘臄?shù)量,研究區(qū)行政區(qū)劃數(shù)據(jù),在arcgis中將研究區(qū)域流動(dòng)人口數(shù)量進(jìn)行空間化;
步驟2、根據(jù)步驟1獲取的研究區(qū)流動(dòng)人口數(shù)量通過(guò)分區(qū)的方式將流動(dòng)人口研究區(qū)域劃分為幾個(gè)相同均質(zhì)的區(qū)域,即對(duì)于每個(gè)區(qū)域認(rèn)為是相對(duì)均值的,滿足二階平穩(wěn)假設(shè)的隨機(jī)場(chǎng);將流動(dòng)人口研究區(qū)域劃分為幾個(gè)相同均質(zhì)的區(qū)域過(guò)程如下:
(1)在arcgis中先根據(jù)流動(dòng)人口數(shù)量進(jìn)行分區(qū),采用自然斷點(diǎn)方法進(jìn)行分區(qū);
(2)在分區(qū)后,若存在空間上不連續(xù)的地區(qū)需要進(jìn)行合并處理,主要原則為若某一街道或地區(qū)鑲嵌到一種流動(dòng)人口數(shù)量類型區(qū)內(nèi),則將該街道或地區(qū)合并到該類型區(qū)內(nèi)。樣處理,主要是基于遵循區(qū)域共軛性原則的考慮,要保持地域完整性,必須要將鑲嵌的區(qū)域進(jìn)行處理;對(duì)于同一類型區(qū)內(nèi),空間上不連續(xù)的街道或地區(qū)進(jìn)行處理的方式,主要根據(jù)這個(gè)街道或地區(qū)與空間相鄰類型的差異進(jìn)行合并處理。
步驟3、根據(jù)步驟1中的研究區(qū)流動(dòng)人口數(shù)量,以研究區(qū)各個(gè)分區(qū)的幾何中心為樣本點(diǎn),各個(gè)分區(qū)即為分層克里格中的分層,根據(jù)各分層分別建立各分層克里格變異函數(shù);對(duì)于研究區(qū)域a被分為l個(gè)層,第k個(gè)層ak定義為由一組空間點(diǎn)s構(gòu)成的集合,有ak={s∈a,sk=s(s)},sk表示第k層空間中的點(diǎn),對(duì)于k層的變異函數(shù)的計(jì)算:
k代表研究區(qū)域的第k個(gè)層,si表示第k個(gè)層空間上的一個(gè)點(diǎn),z(si)為空間點(diǎn)si點(diǎn)的屬性值,n(h;sk)為點(diǎn)對(duì)之間觀測(cè)點(diǎn)的對(duì)數(shù)。
變異函數(shù)采用指數(shù)模型進(jìn)行擬合:
其中h為兩點(diǎn)間距離,c(0)為塊金值,c為偏基臺(tái)值,a為變程。
步驟4、在布設(shè)樣本點(diǎn)之前,首先要確定總樣本量以及各層觀測(cè)點(diǎn)數(shù)量,通過(guò)研究樣本量和對(duì)應(yīng)目標(biāo)函數(shù)的關(guān)系曲線,目標(biāo)函數(shù)為區(qū)域總量估計(jì)誤差的方差最小,區(qū)域總量估計(jì)誤差的方差用astrbkv表示;區(qū)域總量估計(jì)誤差的方差計(jì)算過(guò)程為:
ai為對(duì)應(yīng)分區(qū)區(qū)塊的面積,σ2bk為塊克里格方差:
μ(v)為拉格朗日乘數(shù),cz為點(diǎn)與點(diǎn)之間的協(xié)方差,
最小區(qū)域總量估計(jì)誤差通過(guò)空間模擬退火來(lái)獲得,獲得步驟如下:
第一步:設(shè)置一個(gè)初始的,某一樣本量下的樣本布設(shè)方案s0,并計(jì)算對(duì)應(yīng)的目標(biāo)函數(shù)值astrbkv;
第二步:對(duì)于方案sk,隨機(jī)移動(dòng)一個(gè)樣本點(diǎn)n得到一個(gè)新的方案sk+1,其中,樣本點(diǎn)n的移動(dòng)方向是隨機(jī)選擇的,移動(dòng)長(zhǎng)度是介于零和最大值之間的隨機(jī)值,并且最大移動(dòng)距離隨著模擬退火循環(huán)次數(shù)的增加而減?。?/p>
第三步:計(jì)算新方案sk+1的目標(biāo)函數(shù)值astrbkv,如果新方案的目標(biāo)函數(shù)值大于舊方案的目標(biāo)函數(shù)值,那么接受新方案,并且循環(huán)次數(shù)為k+1;否則按照一定概率接受新方案,并且接受變差了的方案的概率隨著循環(huán)次數(shù)的增加而逐漸減小,這樣做的目的是防止算法陷入局部最優(yōu)狀態(tài);
第四步:返回第二步,如果接受了新方案,則用方案sk+1作為初始樣點(diǎn)布設(shè)方案,否則繼續(xù)采用方案sk;
第五步:循環(huán)到一定次數(shù)或者達(dá)到一定的目標(biāo)函數(shù)值后停止,輸出該樣本量下的最小區(qū)域總量估計(jì)誤差,確定各層的最優(yōu)樣本量。
繪制不同樣本量與區(qū)域總量估計(jì)誤差的最小方差關(guān)系曲線圖。觀察曲線變化,若樣本量達(dá)到某個(gè)值時(shí),樣本量的增加并不能顯著地降低最后的astrbkv值,則選擇該樣本量為總布設(shè)樣本量;
步驟5、以步驟4中確定的樣本量,以astrbkv為目標(biāo)函數(shù),通過(guò)空間模擬退火來(lái)確定最終的每個(gè)分層樣本點(diǎn)布設(shè)的空間位置,目標(biāo)函數(shù)隨著搜索次數(shù)的增加而快速收斂,當(dāng)循環(huán)一定次數(shù)后,循環(huán)終止,得到最終樣本點(diǎn)的空間分布。步驟如下:
第一步:設(shè)置一個(gè)初始的(隨機(jī))樣本布設(shè)方案p0,并計(jì)算對(duì)應(yīng)的目標(biāo)函數(shù)值astrbkv;
第二步:對(duì)于方案pi,隨機(jī)移動(dòng)一個(gè)樣本點(diǎn)m得到一個(gè)新的方案pi+1,其中,樣本點(diǎn)m的移動(dòng)方向是隨機(jī)選擇的,長(zhǎng)度是介于零和最大值之間的隨機(jī)值,并且最大移動(dòng)距離隨著模擬退火循環(huán)次數(shù)的增加而減小;
第三步:計(jì)算新方案pi+1的目標(biāo)函數(shù)值astrbkv,如果新方案的目標(biāo)函數(shù)值大于舊方案的目標(biāo)函數(shù)值,那么接受新方案,并且循環(huán)次數(shù)為i+1;否則按照一定概率接受新方案,并且接受變差了的方案的概率隨著循環(huán)次數(shù)的增加而逐漸減小,這樣做的目的是防止算法陷入局部最優(yōu)狀態(tài);
第四步:返回第二步,如果接受了新方案,則用方案pi+1作為初始樣點(diǎn)布設(shè)方案,否則繼續(xù)采用方案pi;
第五步:循環(huán)到一定次數(shù)或者達(dá)到一定的目標(biāo)函數(shù)值后停止,輸出樣本的空間坐標(biāo)位置和最優(yōu)的目標(biāo)函數(shù)值。
本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于:
(1)傳統(tǒng)的流動(dòng)人口抽樣方法沒(méi)有考慮流動(dòng)人口的空間差異和地理特征,監(jiān)測(cè)網(wǎng)絡(luò)布局沒(méi)有建立在對(duì)流動(dòng)人口地域類型劃分的基礎(chǔ)上,不具有典型性和代表性。本發(fā)明通過(guò)能捕捉變量空間異質(zhì)性和空間相關(guān)性的空間抽樣方式,對(duì)于流動(dòng)人口的抽樣,采取將基于克里格方法的監(jiān)測(cè)網(wǎng)優(yōu)化方法與傳統(tǒng)的空間分層抽樣相結(jié)合的空間抽樣方法,得到具有空間異質(zhì)性的流動(dòng)人口的監(jiān)測(cè)網(wǎng)布局優(yōu)化。該方法通過(guò)定義合理的目標(biāo)函數(shù),進(jìn)而利用空間模擬退化算法來(lái)尋找最佳的布設(shè)方案,達(dá)到最佳的流動(dòng)人口采樣方案。分層塊克里格法可以同時(shí)考慮變量流動(dòng)人口在空間上的相關(guān)性和異質(zhì)性的特征,通過(guò)區(qū)劃或分區(qū)的方法來(lái)定量衡量每個(gè)分區(qū)的變異特征,通過(guò)最小化塊克里格方差來(lái)定義搜索方案,優(yōu)化后的監(jiān)測(cè)網(wǎng)絡(luò)可以較好地捕捉研究區(qū)內(nèi)流動(dòng)人口的空間特征。
(2)本發(fā)明采用的方法可以在采樣之前就得到待布設(shè)網(wǎng)絡(luò)的估計(jì)誤差的方差,并且在空間異質(zhì)面條件下,分層塊克里格法可以提高變量的均值估算精度,進(jìn)而可以提高監(jiān)測(cè)網(wǎng)優(yōu)化的效率,用較少的觀測(cè)樣點(diǎn)可以得到獲得統(tǒng)計(jì)單元較可靠的估計(jì)值。
附圖說(shuō)明
圖1為本發(fā)明的主流程圖;
圖2朝陽(yáng)區(qū)選取的采樣樣本量與流入人口估計(jì)標(biāo)準(zhǔn)差關(guān)系圖;
圖3朝陽(yáng)區(qū)流動(dòng)人口空間采樣優(yōu)化結(jié)果。
具體實(shí)施方式
如圖1所示,以北京市朝陽(yáng)區(qū)流動(dòng)人口抽樣布局優(yōu)化為例,本發(fā)明的具體實(shí)施步驟如下:
步驟1、為了輔助設(shè)計(jì)朝陽(yáng)區(qū)流動(dòng)人口抽樣,需要?dú)v史的人口普查數(shù)據(jù),收集到的數(shù)據(jù)包括2010年朝陽(yáng)區(qū)各個(gè)街道上流動(dòng)人口和總?cè)丝诘臄?shù)量,以及朝陽(yáng)區(qū)的行政區(qū)劃數(shù)據(jù)。朝陽(yáng)區(qū)常住人口3545137人,流入人口1514822人,流入人口占常住人口的42.7%。因此,朝陽(yáng)區(qū)以人口流入為主。
從空間上來(lái)看,朝陽(yáng)區(qū)的流動(dòng)人口主要位于四環(huán)-五環(huán)之間的區(qū)域。
步驟2、對(duì)于朝陽(yáng)區(qū),更關(guān)注的是外來(lái)人口流入,因此,流動(dòng)人口地域類型劃分主要考慮流入人口指標(biāo)。
在流動(dòng)人口監(jiān)測(cè)網(wǎng)設(shè)計(jì)之前,需要根據(jù)研究區(qū)內(nèi)流動(dòng)人口的不同空間變異特征,將研究區(qū)分為不同的區(qū)域。首先根據(jù)流入人口總量進(jìn)行分區(qū),采用自然斷點(diǎn)方法,分為4個(gè)區(qū)。分區(qū)后的圖明顯看出,朝陽(yáng)區(qū)的流入人口空間分布呈現(xiàn)明顯的梯度特點(diǎn),流入人口主要集中在城郊過(guò)渡帶地區(qū),如十八里店、崔各莊、平房、望京、來(lái)廣營(yíng)、王四營(yíng)、高碑店及大屯等街道地區(qū)。城市核心區(qū)由于其人口容量較小,相對(duì)流入人口量也較小。
根據(jù)分區(qū)原則,將朝陽(yáng)區(qū)按流入人口總量進(jìn)行劃分。根據(jù)分區(qū)的結(jié)果,按照流入人口的比例,將朝陽(yáng)區(qū)分為3個(gè)等級(jí),分別為流入人口低值區(qū)、較高區(qū)、和高值區(qū)。而對(duì)于流動(dòng)人口高值區(qū)空間上不連續(xù),為此,將高值區(qū)分為兩個(gè)子區(qū),分別為高值區(qū)1和高值區(qū)2,總計(jì)四個(gè)分區(qū)。
步驟3、在四個(gè)分區(qū)中,以街道的幾何中心為樣本點(diǎn),分別建立各個(gè)分區(qū)的變差函數(shù)。在arcgis中將分區(qū)流動(dòng)人口空間化數(shù)據(jù)輸入,在工具箱中的地統(tǒng)計(jì)分析工具可以自動(dòng)擬合各個(gè)分區(qū)的最優(yōu)變差函數(shù)。
步驟4、在優(yōu)化之前,需要確定合適的樣本量。即如何確定合適的樣本來(lái)得到流入人口的可靠的估計(jì)結(jié)果。朝陽(yáng)區(qū)共有43個(gè)街道,為此,本發(fā)明研究了樣本量在5,10,15,20,25,30,35,40情況下,朝陽(yáng)區(qū)流入人口估計(jì)方差的變化。結(jié)果如圖3所示,流動(dòng)人口抽樣精度隨著樣本量的增加而增加。當(dāng)樣本達(dá)到20以后,抽樣精度增加減緩。為此,將樣本量確定為10,15,20,分別表征低樣本率,中樣本率和高樣本率。
步驟5、對(duì)朝陽(yáng)區(qū)的43個(gè)街道中,從四個(gè)分區(qū)中分別抽取10、15、20個(gè)鄉(xiāng)鎮(zhèn)街道,以astrbkv為目標(biāo)函數(shù),通過(guò)空間模擬退火算法來(lái)確定最終的10、15、20個(gè)流入人口樣本點(diǎn)的空間位置。和預(yù)期的一致,目標(biāo)函數(shù)隨著搜索次數(shù)的增加而快速收斂??臻g模擬退火整個(gè)過(guò)程可以用r等語(yǔ)言編程實(shí)現(xiàn)。
從結(jié)果中來(lái)看,四個(gè)分區(qū)表現(xiàn)出不同的抽樣比和格局。對(duì)于流動(dòng)人口低值區(qū)域,抽樣比較高,樣本分布也比較分散。而對(duì)于流動(dòng)人口高值區(qū)域,對(duì)應(yīng)的抽樣比較高。當(dāng)樣本量達(dá)到20的時(shí)候,甚至高值區(qū)域的抽樣比達(dá)到了80%以上。
圖3為朝陽(yáng)區(qū)流動(dòng)人口空間采樣優(yōu)化結(jié)果,即分別為抽取10、15、20個(gè)樣本點(diǎn)時(shí),樣本點(diǎn)的分布地區(qū)。
實(shí)驗(yàn)中將朝陽(yáng)區(qū)根據(jù)流入人口的比例,將朝陽(yáng)區(qū)分為流動(dòng)人口高值區(qū),中值區(qū)和低值區(qū),利用分層的思想,采用基于塊克里格模型去優(yōu)化抽樣單元。目的是使得抽樣的鄉(xiāng)鎮(zhèn)街道在空間上能夠代表流動(dòng)人口的空間分布格局,從而利用抽樣結(jié)果估計(jì)朝陽(yáng)區(qū)總的流動(dòng)人口總量。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本鄰域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。