本發(fā)明屬于社會或市場抽樣調(diào)查技術(shù)領(lǐng)域,尤其涉及一種基于低差異度數(shù)列的社區(qū)住戶的抽樣方法及系統(tǒng)。
背景技術(shù):
目前社會或市場調(diào)查大都使用分層抽樣法來收集樣本調(diào)查數(shù)據(jù)。該方法首先把總體人群分成不同完整連片、互不重疊的調(diào)查小區(qū),然后在全部或若干個調(diào)查小區(qū)里進行簡單隨機抽樣或等距離抽樣。簡單隨機抽樣的方法一般是先將調(diào)查小區(qū)內(nèi)住戶編號制作成抽樣框,然后從框內(nèi)使用計算機軟件產(chǎn)生隨機數(shù)列來抽取若干住戶。等距離抽樣方法是調(diào)查人員在把調(diào)查小區(qū)內(nèi)的住戶按一定順序排列,根據(jù)樣本容量要求確定抽選間隔,然后隨機確定起點,每隔一定的間隔抽取一個住戶的一種抽樣方式。
這些調(diào)查方法都存在很多缺陷。首先,簡單隨機抽樣會導(dǎo)致很高的不確定性。比如在有1000個住戶的調(diào)查小區(qū)內(nèi)選取100戶樣本,可以有6.3851e+139種抽樣可能。抽出來的樣本極有可能不代表整個調(diào)查小區(qū)的人群。其次,由于存在極多的抽樣可能,簡單隨機抽樣會導(dǎo)致調(diào)查結(jié)果無法重復(fù)。此外,等距離抽樣對起點的選擇比較敏感。起點的選擇不同,調(diào)查結(jié)果很可能也無法重復(fù)。再次,如果住戶的分布有一定的規(guī)律而且該規(guī)律接近于等距離抽樣的抽選間隔,則會導(dǎo)致等距離抽樣失效。最后,如果某個或某些被抽中的住戶無法或拒絕參加調(diào)查,簡單隨機抽樣和等距離抽樣都不可避免地會導(dǎo)致抽樣偏差增大。這些缺陷會導(dǎo)致抽樣結(jié)果偏離總體特征,致使研究人員對社會或市場做出錯誤的評估,進而降低了抽樣調(diào)查的效率。
理想的抽樣調(diào)查方法必須滿足樣本代表性條件。也就是說每次抽樣必須從總體中均勻取樣。均勻取樣的目的是希望減少每次抽樣之間的偏差,使得總體的特征在每個抽樣里都能很好得存在。也就是說,抽出來的樣本應(yīng)為總體的有代表性的縮小版。一次抽樣得到的結(jié)論可以在下次抽樣里得到重復(fù)。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于低差異度數(shù)列的社區(qū)住戶的抽樣方法,該方法能夠提高抽樣調(diào)查的樣本代表性和抽樣效率。
本發(fā)明的一種基于低差異度數(shù)列的社區(qū)住戶的抽樣方法,該方法在抽樣服務(wù)器內(nèi)完成,具體包括:
從地理信息系統(tǒng)的數(shù)據(jù)庫中提取被調(diào)查社區(qū)中每棟建筑物入口的經(jīng)度坐標(biāo)、維度坐標(biāo)和每個住戶的編號,產(chǎn)生一個三列的抽樣框架矩陣;其中,抽樣框架矩陣的三列分別表示經(jīng)度坐標(biāo)、維度坐標(biāo)和住戶編號;抽樣框架矩陣的每一行表示每一個住戶;
對抽樣框架矩陣進行降維處理,得到一個一維數(shù)列;所述一維數(shù)列內(nèi)的每個元素對應(yīng)一個住戶;
利用一個均勻分布的低差異度數(shù)列,將所述一維數(shù)列中所有的元素按低差異度數(shù)列排列;
按照排列后的一維數(shù)列,順序依次或間隔抽取與其元素相對應(yīng)的住戶,得到被調(diào)查社區(qū)中被抽樣的住戶并輸出;其中,順序抽取排列后一維數(shù)列中元素的數(shù)量與被調(diào)查社區(qū)中預(yù)先設(shè)置的取樣住戶數(shù)量相等。
進一步的,采用截斷奇異值分解方法、主成分分析方法、因子分析方法、核主成分分析方法和多維度尺度分析方法中任一種方法對抽樣框架矩陣進行降維處理。
其中,降維方法可以使用:主成分分析方法、核主成分分析方法、因子分析方法、截斷奇異值分解方法和多維度尺度分析方法,或者其他現(xiàn)有的降維方法。
本發(fā)明采用降維方法來保留抽樣框架矩陣的最重要信息,不同的降維方法保留樣本數(shù)據(jù)矩陣信息的程度會略有不同。
進一步的,將所述一維數(shù)列中所有的元素按低差異度數(shù)列排列之前還包括:
對一維數(shù)列進行離差標(biāo)準(zhǔn)化,得到相應(yīng)離差標(biāo)準(zhǔn)化一維數(shù)列;其中,離差標(biāo)準(zhǔn)化一維數(shù)列中每個數(shù)據(jù)的取值均介于0-1之間,且小數(shù)點后保留預(yù)設(shè)位數(shù)。
比如保留3到6位,需要抽取的樣本量越大則保留越多的小數(shù)點位。
進一步的,利用圓周率π的正整數(shù)倍的小數(shù)部分構(gòu)建均勻分布的低差異度數(shù)列,并且使得該均勻分布的低差異度數(shù)列中的每個數(shù)的小數(shù)點后保留數(shù)字位數(shù)與離差標(biāo)準(zhǔn)化一維數(shù)列中每個數(shù)據(jù)的小數(shù)點后保留預(yù)設(shè)位數(shù)相等。
本發(fā)明需要用一個低差異數(shù)在離差標(biāo)準(zhǔn)化一維數(shù)列中匹配相等的數(shù)值。小數(shù)點后保留預(yù)設(shè)位數(shù)會影響匹配的精度,位數(shù)越多,精度越高,但計算時間越長。保留預(yù)設(shè)位數(shù)可以設(shè)為3位,4位,5位或6位。
進一步的,降維處理后得到一維數(shù)列內(nèi)的每個元素中還存儲有相應(yīng)住戶的身份編號。
例如:降維處理后得到一維數(shù)列內(nèi)的每個元素的腳標(biāo)則代表每個住戶在整個調(diào)查小區(qū)內(nèi)的身份編號。比較每個低差異數(shù)和離差標(biāo)準(zhǔn)化一維數(shù)列中元素數(shù)值的大小。將與所述低差異度數(shù)相等的元素的腳標(biāo)存入一個集合里,直到將所有的元素的腳標(biāo)都存入到上述集合中。
本發(fā)明還提供了一種基于低差異度數(shù)列的社區(qū)住戶的抽樣系統(tǒng)。
本發(fā)明的一種基于低差異度數(shù)列的社區(qū)住戶的抽樣系統(tǒng),該系統(tǒng)包括抽樣服務(wù)器,所述抽樣服務(wù)器包括:
抽樣框架矩陣產(chǎn)生模塊,其用于從地理信息系統(tǒng)的數(shù)據(jù)庫中提取被調(diào)查社區(qū)中每棟建筑物入口的經(jīng)度坐標(biāo)、維度坐標(biāo)和每個住戶的編號,產(chǎn)生一個三列的抽樣框架矩陣;其中,抽樣框架矩陣的三列分別表示經(jīng)度坐標(biāo)、維度坐標(biāo)和住戶編號;抽樣框架矩陣的每一行表示每一個住戶;
降維處理模塊,其用于對抽樣框架矩陣進行降維處理,得到一個一維數(shù)列;所述一維數(shù)列內(nèi)的每個元素對應(yīng)一個住戶;
一維數(shù)列排序模塊,其用于利用一個均勻分布的低差異度數(shù)列,將所述一維數(shù)列中所有的元素按低差異度數(shù)列排列;
住戶抽樣模塊,其用于按照排列后的一維數(shù)列,順序依次或間隔抽取與其元素相對應(yīng)的住戶,得到被調(diào)查社區(qū)中被抽樣的住戶并輸出;其中,順序抽取排列后一維數(shù)列中元素的數(shù)量與被調(diào)查社區(qū)中預(yù)先設(shè)置的取樣住戶數(shù)量相等。
進一步的,在所述降維處理模塊中,采用截斷奇異值分解方法、主成分分析方法、因子分析方法、核主成分分析方法和多維度尺度分析方法中任一種方法對抽樣框架矩陣進行降維處理。
進一步的,所述抽樣服務(wù)器還包括:
離差標(biāo)準(zhǔn)化模塊,其用于對一維數(shù)列進行離差標(biāo)準(zhǔn)化,得到相應(yīng)離差標(biāo)準(zhǔn)化一維數(shù)列;其中,離差標(biāo)準(zhǔn)化一維數(shù)列中每個數(shù)據(jù)的取值均介于0-1之間,且小數(shù)點后保留預(yù)設(shè)位數(shù)。
進一步的,在所述一維數(shù)列排序模塊中,利用圓周率π的正整數(shù)倍的小數(shù)部分構(gòu)建均勻分布的低差異度數(shù)列,并且使得該均勻分布的低差異度數(shù)列中的每個數(shù)的小數(shù)點后保留數(shù)字位數(shù)與離差標(biāo)準(zhǔn)化一維數(shù)列中每個數(shù)據(jù)的小數(shù)點后保留預(yù)設(shè)位數(shù)相等。
進一步的,在所述降維處理模塊中,降維處理后得到一維數(shù)列內(nèi)的每個元素中還存儲有相應(yīng)住戶的身份編號。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
本發(fā)明利用一個均勻分布的低差異度數(shù)列,來取代目前抽樣調(diào)查技術(shù)中使用的由計算機產(chǎn)生的隨機數(shù)列,然后利用降維方法來保留一個調(diào)查小區(qū)抽樣框架矩陣的最重要信息到一個一維數(shù)列。利用這兩個數(shù)列可以將一個調(diào)查小區(qū)里的全部按低差異度數(shù)列排列,實現(xiàn)無論該調(diào)查小區(qū)的抽樣樣本量大小和無論某些住戶是否不接受調(diào)查,抽出來的樣本住戶最大程度上均勻分布在該調(diào)查小區(qū)的樣本空間中,從而最大程度上反應(yīng)該調(diào)查小區(qū)總體的特征,提高了抽樣調(diào)查的效率。
附圖說明
構(gòu)成本申請的一部分的說明書附圖用來提供對本申請的進一步理解,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。
圖1是一種基于低差異度數(shù)列的社區(qū)住戶的抽樣方法的流程圖。
圖2是一種基于低差異度數(shù)列的社區(qū)住戶的抽樣系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
應(yīng)該指出,以下詳細(xì)說明都是例示性的,旨在對本申請?zhí)峁┻M一步的說明。除非另有指明,本文使用的所有技術(shù)和科學(xué)術(shù)語具有與本申請所屬技術(shù)領(lǐng)域的普通技術(shù)人員通常理解的相同含義。
需要注意的是,這里所使用的術(shù)語僅是為了描述具體實施方式,而非意圖限制根據(jù)本申請的示例性實施方式。如在這里所使用的,除非上下文另外明確指出,否則單數(shù)形式也意圖包括復(fù)數(shù)形式,此外,還應(yīng)當(dāng)理解的是,當(dāng)在本說明書中使用術(shù)語“包含”和/或“包括”時,其指明存在特征、步驟、操作、器件、組件和/或它們的組合。
圖1是一種基于低差異度數(shù)列的社區(qū)住戶的抽樣方法的流程圖。
如圖1所示,本發(fā)明的一種基于低差異度數(shù)列的社區(qū)住戶的抽樣方法,該方法在抽樣服務(wù)器內(nèi)完成,具體包括:
步驟1:從地理信息系統(tǒng)的數(shù)據(jù)庫中提取被調(diào)查社區(qū)中每棟建筑物入口的經(jīng)度坐標(biāo)、維度坐標(biāo)和每個住戶的編號,產(chǎn)生一個三列的抽樣框架矩陣ψ=n*3,n為該調(diào)查小區(qū)的住戶數(shù)量且為正整數(shù)。
其中,抽樣框架矩陣的三列分別表示經(jīng)度坐標(biāo)、維度坐標(biāo)和住戶編號;抽樣框架矩陣的每一行表示每一個住戶。
步驟2:對抽樣框架矩陣進行降維處理,得到一個一維數(shù)列ζ(即從三列降到只有一列);所述一維數(shù)列ζ內(nèi)的每個元素對應(yīng)一個住戶。
其中,降維處理后得到一維數(shù)列ζ內(nèi)的每個元素中還存儲有相應(yīng)住戶的身份編號。
在該步驟中,降維方法可以使用:主成分分析方法、核主成分分析方法、因子分析方法、截斷奇異值分解方法和多維度尺度分析方法,或者其他現(xiàn)有的降維方法。
本發(fā)明采用降維方法來保留抽樣框架矩陣的最重要信息,不同的降維方法保留樣本數(shù)據(jù)矩陣信息的程度會略有不同。
步驟3:利用一個均勻分布的低差異度數(shù)列,將所述一維數(shù)列中所有的元素按低差異度數(shù)列排列。
對一維數(shù)列ζ進行離差標(biāo)準(zhǔn)化,得到相應(yīng)離差標(biāo)準(zhǔn)化一維數(shù)列z_ζ;其中,離差標(biāo)準(zhǔn)化一維數(shù)列z_ζ中每個數(shù)據(jù)的取值均介于0-1之間,且小數(shù)點后保留預(yù)設(shè)位數(shù)。
比如保留3到6位,需要抽取的樣本量越大則保留越多的小數(shù)點位。
其中,利用圓周率π的正整數(shù)倍的小數(shù)部分構(gòu)建均勻分布的低差異度數(shù)列,并且使得該均勻分布的低差異度數(shù)列中的每個數(shù)的小數(shù)點后保留數(shù)字位數(shù)與離差標(biāo)準(zhǔn)化一維數(shù)列中每個數(shù)據(jù)的小數(shù)點后保留預(yù)設(shè)位數(shù)相等。
本發(fā)明需要用一個低差異數(shù)在離差標(biāo)準(zhǔn)化一維數(shù)列中匹配相等的數(shù)值。小數(shù)點后保留預(yù)設(shè)位數(shù)會影響匹配的精度,位數(shù)越多,精度越高,但計算時間越長。保留預(yù)設(shè)位數(shù)可以設(shè)為3位,4位,5位或6位。
例如:降維處理后得到一維數(shù)列內(nèi)的每個元素的腳標(biāo)則代表每個住戶在整個調(diào)查小區(qū)內(nèi)的身份編號。比較每個低差異數(shù)和離差標(biāo)準(zhǔn)化一維數(shù)列中元素數(shù)值的大小。將與所述低差異度數(shù)相等的元素的腳標(biāo)存入一個集合里,直到將所有的元素的腳標(biāo)都存入到上述集合中。
具體地,設(shè)k=1,利用圓周率π的正整數(shù)倍的小數(shù)部分來構(gòu)建一系列低差異數(shù)。即,y={k*π},{}是保留小數(shù)部分的函數(shù),π取小數(shù)點后21位。使得該低差異數(shù)y的小數(shù)點后保留數(shù)字位數(shù)與預(yù)設(shè)小數(shù)點后保留數(shù)字位數(shù)相等;
比較y和離差標(biāo)準(zhǔn)化一維數(shù)列z_ζ中每個元素數(shù)值的大小。將與所述低差異度數(shù)相等的元素的腳標(biāo)(即該元素在z_ζ中的位置)存入一個集合里。k自增1,循環(huán)直到將所有的元素的腳標(biāo)都存入到上述集合中。
步驟4:按照排列后的一維數(shù)列,順序依次或間隔抽取與其元素相對應(yīng)的住戶,得到被調(diào)查社區(qū)中被抽樣的住戶并輸出;其中,順序抽取排列后一維數(shù)列中元素的數(shù)量與被調(diào)查社區(qū)中預(yù)先設(shè)置的取樣住戶數(shù)量相等。
由于得到的集合里每個腳標(biāo)對應(yīng)抽樣框架矩陣中的一個住戶(即矩陣的一行),調(diào)查人員可以根據(jù)輸出的結(jié)果依次調(diào)查。假設(shè)需要從某個調(diào)查小區(qū)取樣m個住戶,調(diào)查人員按照重新排列后的一維數(shù)列里的前m個元素所對于的住戶,依次進行調(diào)查。如果遇到其中有x個住戶不能接受調(diào)查,則跳過這些住戶,順次取后續(xù)住戶調(diào)查,直到取到m+x個住戶為止。
下面以法國諾曼底地區(qū)的一個調(diào)查小區(qū)的數(shù)據(jù)為例說明。
該調(diào)查小區(qū)區(qū)域內(nèi)包括多層住宅樓21棟,聯(lián)體別墅兩棟,和單體別墅一棟??傮w共有380戶住戶。每戶住戶的家庭成員平均年齡已有記錄(下稱戶均年齡),為49.31歲(標(biāo)準(zhǔn)差為15.82歲)。本實驗將先用本發(fā)明的方法抽取38個住戶(10%的樣本量),計算這些樣本的平均戶均年齡。然后用隨機抽樣的方法,抽取38個用戶(10%的樣本量),計算這些樣本的平均戶均年齡。為了克服隨機方法的不確定性,隨機抽樣將用30個不同的隨機種子進行30次抽樣。
實驗結(jié)果如下:
本發(fā)明采用截斷奇異值分解方法對抽樣框架矩陣進行降維,保留小數(shù)點后4位。抽取的38個樣本的平均戶均年齡為50.10歲(標(biāo)準(zhǔn)差為14.61歲)。然而,使用30個不同的隨機種子從總體中隨機抽取38個住戶30次,得到的30個平均戶均年齡于總體的指標(biāo)大都相差較大。在這30次抽樣里,最高的平均戶均年齡為54.69歲,最低的平均戶均年齡為44.43歲。這30次抽樣平均為48.87。這30次抽樣結(jié)果標(biāo)準(zhǔn)差為2.37歲。這30個平均戶均年齡與總體指標(biāo)平均偏離了1.82歲。實驗結(jié)果表明本發(fā)明抽樣更加均勻,更有代表性。
另外,假設(shè)在本發(fā)明抽取的38個住戶里有5個住戶不能或拒絕參加調(diào)查,本發(fā)明的方法是按照步驟3.3輸出的結(jié)果,繼續(xù)依次選取后續(xù)的額外五個住戶參加調(diào)查。這44個用戶(其中5戶的值缺失)的平均戶均年齡為48.86歲(標(biāo)準(zhǔn)差為16.80歲),與總體指標(biāo)49.31歲依然相差無幾。這個結(jié)果再次證明本發(fā)明充分利用了低差異數(shù)列的性質(zhì),在有缺失樣本的情況下依然保證了樣本的代表性。
圖2是一種基于低差異度數(shù)列的社區(qū)住戶的抽樣系統(tǒng)的結(jié)構(gòu)示意圖。
如圖2所示,本發(fā)明的一種基于低差異度數(shù)列的社區(qū)住戶的抽樣系統(tǒng),該系統(tǒng)包括抽樣服務(wù)器,所述抽樣服務(wù)器包括:
(1)抽樣框架矩陣產(chǎn)生模塊,其用于從地理信息系統(tǒng)的數(shù)據(jù)庫中提取被調(diào)查社區(qū)中每棟建筑物入口的經(jīng)度坐標(biāo)、維度坐標(biāo)和每個住戶的編號,產(chǎn)生一個三列的抽樣框架矩陣;其中,抽樣框架矩陣的三列分別表示經(jīng)度坐標(biāo)、維度坐標(biāo)和住戶編號;抽樣框架矩陣的每一行表示每一個住戶;
(2)降維處理模塊,其用于對抽樣框架矩陣進行降維處理,得到一個一維數(shù)列;所述一維數(shù)列內(nèi)的每個元素對應(yīng)一個住戶;
在所述降維處理模塊中,采用截斷奇異值分解方法、主成分分析方法、因子分析方法、核主成分分析方法和多維度尺度分析方法中任一種方法對抽樣框架矩陣進行降維處理。
在所述降維處理模塊中,降維處理后得到一維數(shù)列內(nèi)的每個元素中還存儲有相應(yīng)住戶的身份編號。
(3)一維數(shù)列排序模塊,其用于利用一個均勻分布的低差異度數(shù)列,將所述一維數(shù)列中所有的元素按低差異度數(shù)列排列;
所述抽樣服務(wù)器還包括:
離差標(biāo)準(zhǔn)化模塊,其用于對一維數(shù)列進行離差標(biāo)準(zhǔn)化,得到相應(yīng)離差標(biāo)準(zhǔn)化一維數(shù)列;其中,離差標(biāo)準(zhǔn)化一維數(shù)列中每個數(shù)據(jù)的取值均介于0-1之間,且小數(shù)點后保留預(yù)設(shè)位數(shù)。
在所述一維數(shù)列排序模塊中,利用圓周率π的正整數(shù)倍的小數(shù)部分構(gòu)建均勻分布的低差異度數(shù)列,并且使得該均勻分布的低差異度數(shù)列中的每個數(shù)的小數(shù)點后保留數(shù)字位數(shù)與離差標(biāo)準(zhǔn)化一維數(shù)列中每個數(shù)據(jù)的小數(shù)點后保留預(yù)設(shè)位數(shù)相等。
(4)住戶抽樣模塊,其用于按照排列后的一維數(shù)列,順序依次或間隔抽取與其元素相對應(yīng)的住戶,得到被調(diào)查社區(qū)中被抽樣的住戶并輸出;其中,順序抽取排列后一維數(shù)列中元素的數(shù)量與被調(diào)查社區(qū)中預(yù)先設(shè)置的取樣住戶數(shù)量相等。
本發(fā)明利用一個均勻分布的低差異度數(shù)列,來取代目前抽樣調(diào)查技術(shù)中使用的由計算機產(chǎn)生的隨機數(shù)列,然后利用降維方法來保留一個調(diào)查小區(qū)抽樣框架矩陣的最重要信息到一個一維數(shù)列。利用這兩個數(shù)列可以將一個調(diào)查小區(qū)里的全部按低差異度數(shù)列排列,實現(xiàn)無論該調(diào)查小區(qū)的抽樣樣本量大小和無論某些住戶是否不接受調(diào)查,抽出來的樣本住戶最大程度上均勻分布在該調(diào)查小區(qū)的樣本空間中,從而最大程度上反應(yīng)該調(diào)查小區(qū)總體的特征,提高了抽樣調(diào)查的效率。
上述雖然結(jié)合附圖對本發(fā)明的具體實施方式進行了描述,但并非對本發(fā)明保護范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護范圍以內(nèi)。