本發(fā)明涉及基于大數(shù)據(jù)驅(qū)動的空氣質(zhì)量與居民出行可視分析方法與系統(tǒng)。
背景技術(shù):
伴隨著我國工業(yè)化進(jìn)程的發(fā)展,以硫化物(sox)、氮化物(nox)、臭氧(o3)、碳化物(cox)、顆粒物(粒徑小于等于10μm和2.5μm)為主的工業(yè)排泄物對空氣質(zhì)量造成的污染問題日益嚴(yán)重,對人們的日常出行和生活造成極大影響,據(jù)調(diào)查顯示,當(dāng)空氣質(zhì)量較差時,人們更愿意待在室內(nèi)以減少非必須出行行為。
隨著科技的發(fā)展,數(shù)據(jù)被大量采集和存儲,數(shù)據(jù)量呈爆炸式增長,如何從這些數(shù)據(jù)中挖掘出有價(jià)值的信息成為急需解決的問題。在面對龐大并且復(fù)雜的數(shù)據(jù)時,傳統(tǒng)的數(shù)據(jù)挖掘和數(shù)據(jù)分析方法在探索數(shù)據(jù)時顯得力不從心。為了獲取數(shù)據(jù)中蘊(yùn)含的價(jià)值,各種數(shù)據(jù)分析與挖掘方法運(yùn)用而生。
因此我們需要一種行之有效的方法來解決這些問題。近些年來,作為以可視交互界面為基礎(chǔ)的分析推理科學(xué),可視分析為數(shù)據(jù)挖掘、數(shù)據(jù)分析提供了一種全新的手段,它以交互性、可視性等特點(diǎn)受到廣大研究者的熱烈歡迎,已漸漸成為研究熱點(diǎn)。
因此,針對空氣質(zhì)量與居民出行的可視化研究對于探究空氣質(zhì)量和居民出行之間的關(guān)系具有重要意義,它不僅可以為探索居民的出行行為提供重要參考,還可以引起交通、醫(yī)療等相關(guān)部門對空氣質(zhì)量的重視。因此探究空氣質(zhì)量和居民出行的可視化研究無論在理論上還是在實(shí)際應(yīng)用中都具有非常重要的研究價(jià)值。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明針對空氣質(zhì)量與居民出行分析的問題,設(shè)計(jì)一種基于大數(shù)據(jù)驅(qū)動的空氣質(zhì)量與居民出行可視分析方法與系統(tǒng),更好的幫助交通、醫(yī)療等部門對空氣質(zhì)量與居民出行進(jìn)行分析,并且提供一套可視分析系統(tǒng)幫助用戶分析空氣質(zhì)量特征,居民出行特征,展示空氣質(zhì)量條形圖、溫度箱線圖、poi帶權(quán)活躍度堆疊圖和流圖、poi帶權(quán)活躍度偏移率日歷熱圖和多維柱狀圖,對城市空氣質(zhì)量和居民出行進(jìn)行探索。本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種基于大數(shù)據(jù)驅(qū)動的空氣質(zhì)量與居民出行可視分析方法,該方法包括以下步驟:
(1)原始空氣質(zhì)量數(shù)據(jù)、溫度數(shù)據(jù)、poi數(shù)據(jù)和打車難易度數(shù)據(jù)重構(gòu):首先分別對空氣質(zhì)量數(shù)據(jù)、溫度數(shù)據(jù)、poi數(shù)據(jù)和打車難易度數(shù)據(jù)進(jìn)行數(shù)據(jù)清理和排序,其中數(shù)據(jù)清理主要是對各種數(shù)據(jù)源中數(shù)據(jù)異常和缺失值的查找及剔除,然后按照時間戳將所有數(shù)據(jù)按照時間排序,這有利于后續(xù)的時序數(shù)據(jù)可視化。所述打車難易度數(shù)據(jù)包括打車難易度分布點(diǎn)的地理坐標(biāo)和權(quán)值。所述poi數(shù)據(jù)包括poi分布點(diǎn)的地理坐標(biāo)和poi類型。
(2)poi帶權(quán)活躍度及偏移率計(jì)算:poi帶權(quán)活躍度反映poi周圍人流量的大??;偏移率反映poi帶權(quán)活躍度的變化情況。
poi帶權(quán)活躍度的計(jì)算具體為:
(2.1)計(jì)算打車難易度分布點(diǎn)和每個poi分布點(diǎn)之間的歐氏距離,判斷歐式距離是否小于預(yù)先設(shè)置的閾值t,若滿足條件則將打車難易度分布點(diǎn)的權(quán)值設(shè)為這個poi活躍度的權(quán)值。
(2.2)根據(jù)poi類型不同分別統(tǒng)計(jì)各種類型poi活躍度的累加和,作為這種類型poi帶權(quán)活躍度。
poi帶權(quán)活躍度偏移率的計(jì)算具體為:
offsett=(poiweightt-averweek,hour)/(poiweightt)-1
其中,averweek,hour為每星期每小時poi帶權(quán)活躍度均值,poiweightt為當(dāng)前小時poi帶權(quán)活躍度,offsett為偏移率。
3)相同類型poi聚類:計(jì)算每個打車難易度分布點(diǎn)周圍歐氏距離小于等于t范圍內(nèi)所有的poi分布點(diǎn),記為poididi。統(tǒng)計(jì)poididi中相同類型的poi分布點(diǎn),計(jì)算聚類中心的位置,并設(shè)置打車難易度分布點(diǎn)的權(quán)值為聚類中心的權(quán)值。其中,基于k‐means的聚類算法對poi分布點(diǎn)進(jìn)行聚類,將計(jì)算出來新的聚類中心經(jīng)緯度坐標(biāo)作為poi中心位置的經(jīng)緯度坐標(biāo)。
4)空氣質(zhì)量與居民出行的可視分析,具體為:
(4.1)顏色視覺編碼:對顏色進(jìn)行映射時,由于空氣質(zhì)量指數(shù)aqi的不同,采用動態(tài)映射方案,即根據(jù)空氣質(zhì)量指數(shù)值動態(tài)的調(diào)整:
其中colorrect為矩形的填充色。
(4.2)條形‐箱線圖分析組件:每天的空氣質(zhì)量指數(shù)用矩形展示,矩形從左向右的順序表示每天日期的先后,矩形的填充色根據(jù)步驟4.1的方案確定,高度根據(jù)空氣質(zhì)量指數(shù)aqi確定。箱線圖代表每周每時溫度,箱線圖從左向右表示每周日期的先后,箱線圖上虛線,下虛線分別代表上四分之一數(shù)據(jù)范圍和下四分之一數(shù)據(jù)范圍,箱線圖中央小矩形代表數(shù)據(jù)四分之一至四分之三分位數(shù)據(jù)范圍,小矩形中央橫線位置代表數(shù)據(jù)的中位數(shù)。
(4.3)流圖‐堆積圖分析組件:堆積圖和流圖的橫坐標(biāo)是指定時間范圍每小時坐標(biāo),以每星期為基本刻度??v坐標(biāo)是poi帶權(quán)活躍度值。堆積圖中用不同顏色的面積圖代表不同類型的poi,堆積圖沿坐標(biāo)軸單側(cè)排列,展示指定時間范圍一種或多種poi帶權(quán)活躍度的變化情況。流圖沿坐標(biāo)雙側(cè)排列,展示指定時間范圍一種或多種poi帶權(quán)活躍度的變化情況。
(4.4)散點(diǎn)矩陣‐geomap‐日歷熱圖分析組件:散點(diǎn)矩陣圖是散點(diǎn)圖高維方面的拓展,用來展示空氣質(zhì)量、溫度和poi帶權(quán)活躍度。日歷熱圖將多維數(shù)據(jù)以二維的形式呈現(xiàn)出來,并用顏色深淺來表示數(shù)值的大小,通過日歷熱圖展示相同poi在不同空氣質(zhì)量和溫度情況下poi帶權(quán)活躍度偏移率的變化情況。geomap用來展示相同類型poi聚類的活躍度權(quán)值和地理分布情況。
一種基于大數(shù)據(jù)驅(qū)動的空氣質(zhì)量與居民出行可視分析系統(tǒng),該系統(tǒng)包括以下組件:
(1)條形‐箱線圖分析組件:每天的空氣質(zhì)量指數(shù)用矩形展示,矩形從左向右的順序表示每天日期的先后;矩形的高度根據(jù)空氣質(zhì)量指數(shù)aqi確定,填充色采用動態(tài)映射方案,即根據(jù)空氣質(zhì)量指數(shù)值動態(tài)的調(diào)整:
其中colorrect為矩形的填充色。
箱線圖代表每周每時溫度,箱線圖從左向右表示每周日期的先后,箱線圖上虛線,下虛線分別代表上四分之一數(shù)據(jù)范圍和下四分之一數(shù)據(jù)范圍,箱線圖中央小矩形代表數(shù)據(jù)四分之一至四分之三分位數(shù)據(jù)范圍,小矩形中央橫線位置代表數(shù)據(jù)的中位數(shù)。
(2)流圖‐堆積圖分析組件:堆積圖和流圖的橫坐標(biāo)是指定時間范圍每小時坐標(biāo),以每星期為基本刻度??v坐標(biāo)是poi帶權(quán)活躍度值。堆積圖中用不同顏色的面積圖代表不同類型的poi,堆積圖沿坐標(biāo)軸單側(cè)排列,展示指定時間范圍一種或多種poi帶權(quán)活躍度的變化情況。流圖沿坐標(biāo)雙側(cè)排列,展示指定時間范圍一種或多種poi帶權(quán)活躍度的變化情況,poi帶權(quán)活躍度的計(jì)算具體為:
(2.1)計(jì)算打車難易度分布點(diǎn)和每個poi分布點(diǎn)之間的歐氏距離,判斷歐式距離是否小于預(yù)先設(shè)置的閾值t,若滿足條件則將打車難易度分布點(diǎn)的權(quán)值設(shè)為這個poi活躍度的權(quán)值。
(2.2)根據(jù)poi類型不同分別統(tǒng)計(jì)各種類型poi活躍度的累加和,作為這種類型poi帶權(quán)活躍度。
(3)散點(diǎn)矩陣‐geomap‐日歷熱圖分析組件:散點(diǎn)矩陣圖是散點(diǎn)圖高維方面的拓展,用來展示空氣質(zhì)量、溫度和poi帶權(quán)活躍度。日歷熱圖將多維數(shù)據(jù)以二維的形式呈現(xiàn)出來,并用顏色深淺來表示數(shù)值的大小,通過日歷熱圖展示相同poi在不同空氣質(zhì)量和溫度情況下poi帶權(quán)活躍度偏移率的變化情況。geomap用來展示相同類型poi聚類的活躍度權(quán)值和地理分布情況。
相同類型poi聚類的活躍度權(quán)值的計(jì)算具體為:計(jì)算每個打車難易度分布點(diǎn)周圍歐氏距離小于等于t范圍內(nèi)所有的poi分布點(diǎn),記為poididi。統(tǒng)計(jì)poididi中相同類型的poi分布點(diǎn),計(jì)算聚類中心的位置,并設(shè)置打車難易度分布點(diǎn)的權(quán)值為聚類中心的權(quán)值。其中,基于k‐means的聚類算法對poi分布點(diǎn)進(jìn)行聚類,將計(jì)算出來新的聚類中心經(jīng)緯度坐標(biāo)作為poi中心位置的經(jīng)緯度坐標(biāo)。
本發(fā)明的有益效果是:本發(fā)明與傳統(tǒng)的空氣質(zhì)量可視化不同,本發(fā)明提出了針對空氣質(zhì)量和居民出行的數(shù)據(jù)可視化、用戶可以從全局到局部再到全局的方式探索空氣質(zhì)量對城市不同區(qū)域的活躍度變化情況,分析空氣質(zhì)量影響居民的出行目的地變化。通過交互的手段,降低了分析人員使用系統(tǒng)的成本,達(dá)到很好的展示效果,系統(tǒng)可以從空氣質(zhì)量、溫度、poi帶權(quán)活躍度和偏移率四個層面展示了空氣質(zhì)量和居民出行的多種規(guī)律。
附圖說明
圖1條形‐箱線圖分析組件;
圖2流圖‐堆積圖分析組件;
圖3散點(diǎn)矩陣‐geomap‐日歷熱圖分析組件;
圖4系統(tǒng)前后端依賴關(guān)系圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖進(jìn)行詳細(xì)說明。
本發(fā)明所依據(jù)的數(shù)據(jù)基礎(chǔ)有:空氣質(zhì)量數(shù)據(jù)為各地級及以上環(huán)境保護(hù)行政主管部門或其授權(quán)的環(huán)境監(jiān)測站發(fā)布數(shù)據(jù),包括日報(bào)和時報(bào)。時報(bào)數(shù)據(jù)的時間周期為1小時,每一整點(diǎn)時刻發(fā)布各個監(jiān)測站點(diǎn)的實(shí)時報(bào),實(shí)時報(bào)的指標(biāo)包括so2、no2、o3、co、pm2.5、pm10濃度,日報(bào)數(shù)據(jù)為一天so2、no2、o3、co、pm2.5、pm1024小時濃度平均值;大氣環(huán)境數(shù)據(jù)為各地級及以上氣象保護(hù)行政主管部門或其授權(quán)的氣象監(jiān)測站發(fā)布,包括日報(bào)和時報(bào)。時報(bào)數(shù)據(jù)的時間周期為1小時,每一整點(diǎn)時刻發(fā)布各個檢測站點(diǎn)的實(shí)時報(bào),實(shí)時報(bào)的指標(biāo)包括氣壓、溫度、濕度、降水與風(fēng)力風(fēng)向等數(shù)據(jù)。日報(bào)數(shù)據(jù)為一天氣壓、溫度、濕度、降水與風(fēng)力風(fēng)向24小時數(shù)據(jù)的均值;居民出行數(shù)據(jù)為滴滴蒼穹大數(shù)據(jù)平臺提供的打車難易度數(shù)據(jù),其中數(shù)據(jù)時間周期為1小時,每一整點(diǎn)提供不同地點(diǎn)的打車難易度。每一整點(diǎn)數(shù)據(jù)包括:經(jīng)度、維度、打車難易度;poi分布數(shù)據(jù)為poi的詳細(xì)數(shù)據(jù),包括有poi地址、poi名稱、poi經(jīng)度、poi緯度和poi類型。
本發(fā)明提供的一種基于大數(shù)據(jù)驅(qū)動的空氣質(zhì)量與居民出行可視分析方法,包括以下幾個步驟:
(1)原始空氣質(zhì)量數(shù)據(jù)、溫度數(shù)據(jù)、poi數(shù)據(jù)和打車難易度數(shù)據(jù)重構(gòu):首先分別對空氣質(zhì)量數(shù)據(jù)、溫度數(shù)據(jù)、poi數(shù)據(jù)和打車難易度數(shù)據(jù)進(jìn)行數(shù)據(jù)清理和排序,其中數(shù)據(jù)清理主要是對各種數(shù)據(jù)源中數(shù)據(jù)異常和缺失值的查找及剔除,然后按照時間戳將所有數(shù)據(jù)按照時間排序,這有利于后續(xù)的時序數(shù)據(jù)可視化。所述打車難易度數(shù)據(jù)包括打車難易度分布點(diǎn)的地理坐標(biāo)和權(quán)值。所述poi數(shù)據(jù)包括poi分布點(diǎn)的地理坐標(biāo)和poi類型。
(2)poi帶權(quán)活躍度及偏移率計(jì)算:poi帶權(quán)活躍度反映poi周圍人流量的大??;偏移率反映poi帶權(quán)活躍度的變化情況。
poi帶權(quán)活躍度的計(jì)算具體為:
(2.1)計(jì)算打車難易度分布點(diǎn)和每個poi分布點(diǎn)之間的歐氏距離,判斷歐式距離是否小于預(yù)先設(shè)置的閾值t,t可取0.5km,若滿足條件則將打車難易度分布點(diǎn)的權(quán)值設(shè)為這個poi活躍度的權(quán)值。
(2.2)根據(jù)poi類型不同分別統(tǒng)計(jì)各種類型poi活躍度的累加和,作為這種類型poi帶權(quán)活躍度。
poi帶權(quán)活躍度偏移率的計(jì)算具體為:
offsett=(poiweightt-averweek,hour)/(poiweightt)-1
其中,averweek,hour為每星期每小時poi帶權(quán)活躍度均值,poiweightt為當(dāng)前小時poi帶權(quán)活躍度,offsett為偏移率。
3)相同類型poi聚類:計(jì)算每個打車難易度分布點(diǎn)周圍歐氏距離小于等于t范圍內(nèi)所有的poi分布點(diǎn),記為poididi。統(tǒng)計(jì)poididi中相同類型的poi分布點(diǎn),計(jì)算聚類中心的位置,并設(shè)置打車難易度分布點(diǎn)的權(quán)值為聚類中心的權(quán)值。其中,基于k‐means的聚類算法對poi分布點(diǎn)進(jìn)行聚類,將計(jì)算出來新的聚類中心經(jīng)緯度坐標(biāo)作為poi中心位置的經(jīng)緯度坐標(biāo)。
4)空氣質(zhì)量與居民出行的可視分析,具體為:
(4.1)顏色視覺編碼:對顏色進(jìn)行映射時,由于空氣質(zhì)量指數(shù)aqi的不同,采用動態(tài)映射方案,即根據(jù)空氣質(zhì)量指數(shù)值動態(tài)的調(diào)整:
其中colorrect為矩形的填充色。
(4.2)條形‐箱線圖分析組件:每天的空氣質(zhì)量指數(shù)用矩形展示,矩形從左向右的順序表示每天日期的先后,矩形的填充色根據(jù)步驟4.1的方案確定,高度根據(jù)空氣質(zhì)量指數(shù)aqi確定。箱線圖代表每周每時溫度,箱線圖從左向右表示每周日期的先后,箱線圖上虛線,下虛線分別代表上四分之一數(shù)據(jù)范圍和下四分之一數(shù)據(jù)范圍,箱線圖中央小矩形代表數(shù)據(jù)四分之一至四分之三分位數(shù)據(jù)范圍,小矩形中央橫線位置代表數(shù)據(jù)的中位數(shù),如圖1所示。
(4.3)流圖‐堆積圖分析組件:堆積圖和流圖的橫坐標(biāo)是指定時間范圍每小時坐標(biāo),以每星期為基本刻度。縱坐標(biāo)是poi帶權(quán)活躍度值。堆積圖中用不同顏色的面積圖代表不同類型的poi,堆積圖沿坐標(biāo)軸單側(cè)排列,展示指定時間范圍一種或多種poi帶權(quán)活躍度的變化情況。流圖沿坐標(biāo)雙側(cè)排列,展示指定時間范圍一種或多種poi帶權(quán)活躍度的變化情況,如圖2所示。
(4.4)散點(diǎn)矩陣‐geomap‐日歷熱圖分析組件:散點(diǎn)矩陣圖是散點(diǎn)圖高維方面的拓展,用來展示空氣質(zhì)量、溫度和poi帶權(quán)活躍度。日歷熱圖將多維數(shù)據(jù)以二維的形式呈現(xiàn)出來,并用顏色深淺來表示數(shù)值的大小,通過日歷熱圖展示相同poi在不同空氣質(zhì)量和溫度情況下poi帶權(quán)活躍度偏移率的變化情況。geomap用來展示相同類型poi聚類的活躍度權(quán)值和地理分布情況,如圖3所示。
一種基于大數(shù)據(jù)驅(qū)動的空氣質(zhì)量與居民出行可視分析系統(tǒng),該系統(tǒng)包括以下組件:
(1)條形‐箱線圖分析組件:每天的空氣質(zhì)量指數(shù)用矩形展示,矩形從左向右的順序表示每天日期的先后;矩形的高度根據(jù)空氣質(zhì)量指數(shù)aqi確定,填充色采用動態(tài)映射方案,即根據(jù)空氣質(zhì)量指數(shù)值動態(tài)的調(diào)整:
其中colorrect為矩形的填充色。
箱線圖代表每周每時溫度,箱線圖從左向右表示每周日期的先后,箱線圖上虛線,下虛線分別代表上四分之一數(shù)據(jù)范圍和下四分之一數(shù)據(jù)范圍,箱線圖中央小矩形代表數(shù)據(jù)四分之一至四分之三分位數(shù)據(jù)范圍,小矩形中央橫線位置代表數(shù)據(jù)的中位數(shù),如圖1所示。
(2)流圖‐堆積圖分析組件:堆積圖和流圖的橫坐標(biāo)是指定時間范圍每小時坐標(biāo),以每星期為基本刻度??v坐標(biāo)是poi帶權(quán)活躍度值。堆積圖中用不同顏色的面積圖代表不同類型的poi,堆積圖沿坐標(biāo)軸單側(cè)排列,展示指定時間范圍一種或多種poi帶權(quán)活躍度的變化情況。流圖沿坐標(biāo)雙側(cè)排列,展示指定時間范圍一種或多種poi帶權(quán)活躍度的變化情況,如圖2所示。poi帶權(quán)活躍度的計(jì)算具體為:
(2.1)計(jì)算打車難易度分布點(diǎn)和每個poi分布點(diǎn)之間的歐氏距離,判斷歐式距離是否小于預(yù)先設(shè)置的閾值t,若滿足條件則將打車難易度分布點(diǎn)的權(quán)值設(shè)為這個poi活躍度的權(quán)值。
(2.2)根據(jù)poi類型不同分別統(tǒng)計(jì)各種類型poi活躍度的累加和,作為這種類型poi帶權(quán)活躍度。
(3)散點(diǎn)矩陣‐geomap‐日歷熱圖分析組件:散點(diǎn)矩陣圖是散點(diǎn)圖高維方面的拓展,用來展示空氣質(zhì)量、溫度和poi帶權(quán)活躍度。日歷熱圖將多維數(shù)據(jù)以二維的形式呈現(xiàn)出來,并用顏色深淺來表示數(shù)值的大小,通過日歷熱圖展示相同poi在不同空氣質(zhì)量和溫度情況下poi帶權(quán)活躍度偏移率的變化情況。geomap用來展示相同類型poi聚類的活躍度權(quán)值和地理分布情況,如圖3所示。
相同類型poi聚類的活躍度權(quán)值的計(jì)算具體為:計(jì)算每個打車難易度分布點(diǎn)周圍歐氏距離小于等于t范圍內(nèi)所有的poi分布點(diǎn),記為poididi。統(tǒng)計(jì)poididi中相同類型的poi分布點(diǎn),計(jì)算聚類中心的位置,并設(shè)置打車難易度分布點(diǎn)的權(quán)值為聚類中心的權(quán)值。其中,基于k‐means的聚類算法對poi分布點(diǎn)進(jìn)行聚類,將計(jì)算出來新的聚類中心經(jīng)緯度坐標(biāo)作為poi中心位置的經(jīng)緯度坐標(biāo)。
在本發(fā)明方法的預(yù)處理過程中,poi帶權(quán)活躍度計(jì)算主要通過統(tǒng)計(jì)每個打車難易度點(diǎn)周圍不同類型poi的個數(shù)的累加和,以此來獲得poi帶權(quán)活躍度的計(jì)量;poi帶權(quán)活躍度偏移率主要統(tǒng)計(jì)實(shí)時poi活躍度相對歷史poi帶權(quán)活躍度均值的偏移情況。通過繪制柱狀‐箱線圖、堆積‐流圖、散點(diǎn)矩陣‐geomap‐日歷熱圖,用戶通過多種可視化視圖之間的交互,不僅可以為探索居民的出行行為提供重要參考,還可以引起交通、醫(yī)療等相關(guān)部門對空氣質(zhì)量的重視,為相關(guān)部門提供建設(shè)性的意見。
以上闡述的是本發(fā)明給出的一個實(shí)施案例,展示了多種層面的有效可視化組件,顯然本發(fā)明不只是限于上述實(shí)施案例,在不偏離本發(fā)明基本精神及不超出本發(fā)明實(shí)質(zhì)內(nèi)容所涉及范圍的前提下對其可做種種變形加以實(shí)施。