本發(fā)明涉及交通事故分析領(lǐng)域,特別是一種基于時空分布特征預(yù)測城市交通事故的方法。
背景技術(shù):
目前,國外學(xué)者們對交通事故案件地理學(xué)的研究較為深入,在交通事故的時空分布形成機制和時空分布特征研究等方面成果頗豐。對交通事故案件的時空分布當(dāng)下主要技術(shù)是采用相關(guān)性分析法來研究。該方法需事先限制具體的幾個因素,通過不斷的收集某個具體路段事故數(shù)據(jù),人為擬合各因素間的相關(guān)性,進而進行對所得數(shù)據(jù)進行分析來預(yù)測各個路段不同時空的分布情況。
傳統(tǒng)的方法具有如下不足之處:首先,采集數(shù)據(jù)后進行處理,在相關(guān)擬合中的因素受到限制,可能導(dǎo)致結(jié)果具有局限性;其次,傳統(tǒng)的擬合的數(shù)據(jù)相關(guān)性結(jié)果不能自主隨變化因素而改變,實時性偏低;最后,傳統(tǒng)技術(shù)的預(yù)測是偏向人為而得,主觀性較嚴(yán)重,誤差偏大。總結(jié)該方法存在誤差大、時效性差、準(zhǔn)確性低,儀器成本高、反饋信息不豐富等不足。為解決傳統(tǒng)技術(shù)方法問題,利用當(dāng)下大數(shù)據(jù)技術(shù),可以改進時空分布的特征分析法,同時采用數(shù)據(jù)挖掘法增加預(yù)測的實時性與可靠性。當(dāng)下時空分布形成機制和實際交通事故案件分布情況的有機互動,逐漸形成兩大經(jīng)典理論時空分布特征的研究主要涉及了時間分布研究、空間分布研究與時空分布研究,盡管這些研究所采用的理論和分析方法有所不同,但是這三者之間還是存在相互關(guān)聯(lián)的。隨著遙感高清影像普及和信息技術(shù)的發(fā)展,大數(shù)據(jù)的預(yù)測分析法,尤其是bp神經(jīng)網(wǎng)絡(luò)法也得到充分發(fā)展。
在綜合考慮交通事故案件分布的空間和時間兩方面信息的研究中,目前國外研究人員提出一些新的研究方法。如townsley等人提出了熱點圖法,該方法能夠更直觀地幫助研究人員分析交通事故發(fā)生的時空分布模式。該方法包含了三個部分:第一,該方法以核密度估算結(jié)果來表示的交通事故案發(fā)分布在空間上的聚集狀況;第二,以平行坐標(biāo)法來充當(dāng)圖例的功能,表示案件數(shù)量的變化趨勢;第三,該方法以柱狀圖的形式統(tǒng)計每天案件數(shù)量變化情況。雖然熱點圖法采用柱狀圖、平行坐標(biāo)法可以體現(xiàn)案件數(shù)量隨時間的變化情況,從某種程度上突出變化的趨勢,但是,此方法更多的還是空間聚集情況和隨時間變化這兩方面的拼湊。本質(zhì)上仍然是空間分析結(jié)果加上時間變化趨勢,仍無法解決研究交通事故案件分布時空分布特征的存在的核心問題。
隨著經(jīng)濟發(fā)展,車子已經(jīng)是人們必不可少的交通工具,交通方式多種多樣,交通環(huán)境也日益復(fù)雜,交通事故形勢令人堪憂。在交警人員有限的情況,根據(jù)已有的時空分布特征,更好的預(yù)防交通事故,降低事故率、死亡率、受傷率,具有重要的意義。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明的目的是提出一種基于時空分布特征預(yù)測城市交通事故的方法,從分析不同區(qū)域的數(shù)據(jù)到案發(fā)點數(shù)據(jù),從分析現(xiàn)階段案件時空規(guī)律到預(yù)測未來案件數(shù)量的整體思路,實現(xiàn)對案件時空分布特征清晰、準(zhǔn)確的識別和表達(dá),為交警人員提供參考,為現(xiàn)實中提前預(yù)防、降低交通事故具有重要意義。
本發(fā)明采用以下方案實現(xiàn):
(1)基于面域統(tǒng)計數(shù)據(jù)進行交通事故的時空分布與可視化法。采用空間自相關(guān)和自組織映射等方法,研究各區(qū)域交通事故案件的時空分布特征。先利用全局空間自相關(guān)方法分析案件是否為聚集狀態(tài),若為聚集,再利用局部空間自相關(guān)方法分析各區(qū)域交通事故具體的聚集情況。然后不同的區(qū)域的交通事故案發(fā)的數(shù)據(jù),采用自組織映射和u型矩陣方法進行時空多維可視化分析。
(2)基于案發(fā)點數(shù)據(jù)進行層次聚類分析、核密度估算。利用最鄰近指數(shù)法和ripley'k函數(shù)討論案件的鄰近模式,最鄰近指數(shù)法利用距離最相近的案發(fā)點數(shù)據(jù)來表達(dá)分布模式,研究交通事故的局部聚集情況;ripley'k函數(shù)是一種基于多階的分析方法,它把案發(fā)點數(shù)據(jù)的次鄰近情況也計算在內(nèi),研究交通事故的整體研究聚集情況。
(3)基于案發(fā)點數(shù)據(jù)的交通事故熱點識別。首先進行交通事故點模式描述,其目的是先從總體上研究交通事故的分布趨勢,主要通過中心點法與標(biāo)準(zhǔn)差橢圓法描述案發(fā)點數(shù)據(jù)的集中情況和離散趨勢,中心點法以中心點的位置表達(dá)案件分布模式,標(biāo)準(zhǔn)差橢圓法以橢圓的覆蓋面及長短軸方向表達(dá)案件分布模式;然后進行交通事故熱點分析,利用層次聚類法和核密度估計法,通過層次聚類分析能夠分層級地表達(dá)案件分布規(guī)律,通過核密度估算表達(dá)交通事故分布的連續(xù)變化和精確的集聚中心,并對兩種分析結(jié)果進行比較。
(4)交通事故預(yù)測分析。采用bp神經(jīng)網(wǎng)絡(luò),利用已發(fā)案件的數(shù)量分布預(yù)測未來的交通事故數(shù)量。采用數(shù)據(jù)挖掘算法中的決策樹與神經(jīng)網(wǎng)絡(luò)等方法,利用以往的交通事故時空分布特征結(jié)論為數(shù)據(jù)源,采用模糊量化法對影響交通事故的因素進行評級評分,構(gòu)建預(yù)測模型,科學(xué)地對交通事故進行預(yù)測。
本發(fā)明具體包括以下步驟:
步驟s1:結(jié)合案件信息和空間信息建立案件空間數(shù)據(jù)庫并進行數(shù)據(jù)預(yù)處理;
步驟s2:基于面域數(shù)據(jù)進行空間自相關(guān)分析,先利用全局空間自相關(guān)方法分析案件是否為聚集狀態(tài),若為聚集狀態(tài),再利用局部空間自相關(guān)方法分析區(qū)域范圍交通事故具體的聚集情況;
步驟s3:基于公安局交警大隊中記錄的城市不同區(qū)域交通事故案件數(shù)據(jù),采用自組織映射和u型矩陣方法進行時空多維可視化分析;
步驟s4:基于案發(fā)點數(shù)據(jù)進行層次聚類分析、核密度估算;
步驟s5:采用bp神經(jīng)網(wǎng)絡(luò)預(yù)測算法,利用已發(fā)案件的時空分布特征預(yù)測未來的交通事故時空分布區(qū)。
進一步地,步驟s2中,所述全局空間自相關(guān)方法的檢驗指標(biāo)采用moran'si指數(shù),采用下式表示:
其中,
所述局部空間自相關(guān)方法的檢驗指標(biāo)采用moran指數(shù),采用下式表示:
其中,z′i和z′j為經(jīng)過標(biāo)準(zhǔn)化處理得到的觀察值,z值說明空間相關(guān)性的類型,若z值小于0,說明區(qū)域間存在空間負(fù)相關(guān)的分布模式,表明數(shù)據(jù)屬性較相似的區(qū)域趨于分散分布;如果z值大于0,說明區(qū)域間存在空間正相關(guān)的分布模式,表明數(shù)據(jù)屬性較相似的區(qū)域趨于聚集分布;如果z值等于0,說明在空間中是隨機分布的。
進一步地,所述步驟s4具體包括以下步驟:
步驟s41:進行交通事故案件聚類情況分析,采用最近鄰指數(shù)法進行局部聚類情況分析,采用ripley’k方法進行整體聚類情況分析;
步驟s42:判斷是否存在聚類,若存在,進而進行交通事故案件熱點識別。
進一步地,步驟s5具體包括以下步驟:
訓(xùn)練部分:
步驟s51:對每個區(qū)域交通事故各個影響因素進行5分制模糊評分,并且設(shè)置網(wǎng)絡(luò)初始的權(quán)值和閾值:
步驟s52:在輸入層進行訓(xùn)練數(shù)據(jù)集的輸入,在中間層經(jīng)過規(guī)則學(xué)習(xí)計算處理后,將結(jié)果傳遞到輸出層,計算中間層與輸入層各單元的輸入、輸出以及校正誤差;
步驟s53:判斷所述校正誤差是否小于設(shè)置的閾值,并返回中間層到輸出層以及輸入層到中間層調(diào)整后所得的連接權(quán)值,同時返回中間層與輸出層每個單元所定義的輸出閾值;
步驟s54:通過調(diào)整網(wǎng)絡(luò)學(xué)習(xí)速率或?qū)W習(xí)次數(shù),當(dāng)校正誤差小于學(xué)習(xí)次數(shù)時構(gòu)建完成訓(xùn)練模型;
預(yù)測部分:輸入待預(yù)測區(qū)域交通事故時空分布特征的各個影響因素的模糊量化評分,設(shè)置訓(xùn)練中的校正誤差與學(xué)習(xí)次數(shù),根據(jù)完全訓(xùn)練好的網(wǎng)絡(luò)進行交通事故時空分布的預(yù)測,并將預(yù)測結(jié)果輸出至瀏覽器。
進一步地,所述影響因素包括交通事故人員的數(shù)目、交通事故人員的文化程度、交通事故的地點、交通事故的次數(shù)、交通事故區(qū)域的居住人口、上下班時間、交通事故區(qū)域居民文化程度、交通事故車流量、交通事故的時間、交通事故區(qū)域的居民職業(yè)。
與現(xiàn)有技術(shù)相比,本發(fā)明有以下有益效果:本發(fā)明從分析不同區(qū)域的數(shù)據(jù)到案發(fā)點數(shù)據(jù),從分析現(xiàn)階段案件時空規(guī)律到預(yù)測未來案件數(shù)量的整體思路,實現(xiàn)對案件時空分布特征清晰、準(zhǔn)確的識別和表達(dá),為交警人員提供參考,為現(xiàn)實中提前預(yù)防、降低交通事故具有重要意義。
附圖說明
圖1為本發(fā)明實施例中的技術(shù)結(jié)構(gòu)總框圖;
圖2本發(fā)明實施例中的交通事故數(shù)據(jù)立方體示意圖;
圖3本發(fā)明實施例中的som網(wǎng)絡(luò)結(jié)構(gòu);
圖4本發(fā)明實施例中的層次聚類基本原理圖;
圖5本發(fā)明實施例中的bp神經(jīng)網(wǎng)絡(luò)預(yù)測交通事故流程圖。
具體實施方式
下面結(jié)合附圖及實施例對本發(fā)明做進一步說明。
如圖1所示,本實施例提供一種基于時空分布特征預(yù)測城市交通事故的方法,具體包括以下步驟:
第一步,本發(fā)明需要對研究的數(shù)據(jù)進行采集與預(yù)處理。交通事故發(fā)生區(qū)域有:城市交通、農(nóng)村道路、高速公路、鐵路等,其中交通事故又包含以下幾種類型:財產(chǎn)損失事故、傷人事故、死亡事故等。選擇城市交通事故情況進行時空分布特征研究,原因在于城市車流量較多,其交通道路較復(fù)雜,需要考慮的因素更多,不同區(qū)域路況不一,同時,不同時間交通量情況也不一致。交通事故案件的數(shù)據(jù)為公安局交警大隊數(shù)據(jù)庫中具有詳細(xì)交通信息的點數(shù)據(jù),包括案發(fā)時間的年、月、日和發(fā)生的時刻、交通事故發(fā)生的地點、交通事故的類型和傷亡人數(shù)等字段,將這些案件數(shù)據(jù)導(dǎo)入arcgis的所要研究的地點的地圖上。具體交通事故數(shù)據(jù)立方體示意圖如圖2所示。
第二步進行基于面域數(shù)據(jù)進行空間自相關(guān)分析,先利用全局空間自相關(guān)方法分析案件是否為聚集狀態(tài),若為聚集,再利用局部空間自相關(guān)方法分析區(qū)域范圍交通事故具體的聚集情況。其中,空間自相關(guān)(spatialautocorrelation)以特定區(qū)域內(nèi)的某一目標(biāo)變量為研究對象,專門研究該變量相應(yīng)觀測值之間的相互關(guān)聯(lián)性。將空間自相關(guān)的理念引入到交通事故分布研究中,主要是用來研究統(tǒng)計區(qū)內(nèi)相鄰區(qū)域交通事故發(fā)生率的相互影響性。按照研究區(qū)域的范圍的不同,空間自相關(guān)的主要檢驗指標(biāo)有:全局指標(biāo)和局部指標(biāo)。前者以整個研究區(qū)域為基礎(chǔ),往往以單一值來表達(dá)該區(qū)域內(nèi)空間分布的自相關(guān)程度,這類指標(biāo)中具有代表性的有moran'si指數(shù)、廣泛g統(tǒng)計等,本實施例采用moran'si指數(shù)。而后者主要是以各個空間單元的為基礎(chǔ),研究該單元與其相鄰單元某一屬性的相關(guān)性,常用的檢驗指標(biāo)有g(shù)i指數(shù)和moran'si指數(shù),本實施例采用moran'si指數(shù)。
1.全局moran'si指數(shù)
在全局聚類檢驗的研究方法中,全局moran'si指數(shù)是應(yīng)用最早的。該指數(shù)主要用來檢驗和分析研究區(qū)域內(nèi)各鄰近區(qū)域的相異、相似以及獨立性。具體可以表示為:
其中,
式中i,j=1,2...,n。
分析結(jié)果的取值范圍為[-1,1],如果該指數(shù)小于0,說明區(qū)域間存在空間負(fù)相關(guān)的分布模式,如果該指數(shù)大于0,說明區(qū)域間存在空間自相關(guān)的分布模式,并且此空間相關(guān)性強度隨著指數(shù)的絕對值增大而增大。
正態(tài)分布形式的全局moran’si指數(shù)期望值可以依據(jù)所分析的空間數(shù)據(jù)進行計算,公式為:
公式(3)中,
z值即能說明空間相關(guān)性的類型,在z值顯著的情況下,如果z值小于0,說明區(qū)域間存在空間負(fù)相關(guān)的分布模式,表明數(shù)據(jù)屬性較相似的區(qū)域趨于分散分布;如果z值大于0,說明區(qū)域間存在空間正相關(guān)的分布模式,表明數(shù)據(jù)屬性較相似的區(qū)域趨于聚集分布;如果z值等于0,說明在空間中是隨機分布的。
2.局部moran指數(shù)
局部moran指數(shù)的分析指標(biāo)可以表示研究區(qū)周邊相似區(qū)域間的空間聚集強度。其定義為:
上式中的z′i和z′j為經(jīng)過標(biāo)準(zhǔn)化處理得到的觀察值。該檢驗的統(tǒng)計量表達(dá)式為:
局部moran指數(shù)與其他分析方法不同之處在于,它們不僅可以識別出交通事故高發(fā)的聚集區(qū)域,還能識別出交通事故低發(fā)的聚集區(qū)域。
第三步,進行宏觀時空分布特征分析后,基于公安局交警大隊記錄的城市不同區(qū)域交通事故案件數(shù)據(jù),采用自組織映射和u型矩陣方法進行時空多維可視化分析,分析結(jié)果能夠幫助交警管理人員理解復(fù)雜的多維案件數(shù)據(jù)中隱含的案件分布特征。其中,自組織映射(self-organizingmaps,som)算法是一種通過模擬人體大腦對信息的處理過程來實現(xiàn)聚類和高維可視化的人工神經(jīng)網(wǎng)絡(luò)。其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,它的一個特點是能夠把高維數(shù)據(jù)用可視化的方法在低維數(shù)據(jù)中表達(dá),其目的是挖掘高維數(shù)據(jù)中隱含的復(fù)雜信息,并將其在低維空間中以簡單的幾何關(guān)系展現(xiàn)出來。從圖中可以看出,該網(wǎng)格整體分為兩層:輸入層和競爭層。其中輸入層中包含n個神經(jīng)元,每個神經(jīng)元構(gòu)成一個輸入結(jié)點。而競爭層又稱之為輸出層,它是由m個神經(jīng)元構(gòu)成的一個網(wǎng)狀平面陣列。由于每個輸入結(jié)點與所有的輸出結(jié)點都形成連接關(guān)系,所以整個網(wǎng)絡(luò)是全連接的。并且,u矩陣是一種典型的數(shù)據(jù)可視化方法,它主要是根據(jù)數(shù)據(jù)的空間節(jié)點的距離關(guān)系,借助于灰度圖把不同狀態(tài)的輸入向量映射到二維平面,使得所分析的數(shù)據(jù)得到可視化表達(dá)。
第四步,基于案發(fā)點數(shù)據(jù)進行層次聚類分析、核密度估算。首先進行交通事故案件聚類情況分析,采用最近鄰指數(shù)法進行局部聚類情況分析,采用ripley’k方法進行整體聚類情況分析。判斷是否存在聚類,若存在,進而進行交通事故案件熱點識別。本實施例采用核密度估算和最近鄰層次聚類法進行交通事故熱點識別,其中最近鄰層次聚類法的層次原理如圖4所示,根據(jù)每個案事件點的最鄰近距離,通過定義一個“極限距離或閾值”、“聚集單元”和每個聚集單元的最小數(shù)目,然后計算聚集單元與每個點對的最鄰近距離,當(dāng)最鄰近距離小于該極限距離時,將該點計入聚集單元,據(jù)此將案事件點數(shù)據(jù)聚類為若干區(qū)域,稱為一階聚類;同理,對一階聚類利用同樣方法,得到二階聚類,以此類推得到更高階交通事故熱點區(qū)。
第五步根據(jù)前面已有的信息,利用bp神經(jīng)網(wǎng)絡(luò)預(yù)測交通事故流程圖,如圖5所示,該預(yù)測方法包括包括訓(xùn)練部分與預(yù)測部分。所述訓(xùn)練部分具體為:首先對每個區(qū)域交通事故各個影響因素進行5分制模糊評分,并且設(shè)置網(wǎng)絡(luò)初始的權(quán)值和閾值;在輸入層進行訓(xùn)練數(shù)據(jù)集的輸入,在中間層經(jīng)過規(guī)則學(xué)習(xí)計算處理后,將結(jié)果傳遞到輸出層,計算中間層與輸入層各單元的輸入、輸出以及校正誤差;再判斷所述校正誤差是否小于設(shè)置的閾值,并返回中間層到輸出層以及輸入層到中間層調(diào)整后所得的連接權(quán)值、同時返回中間層與輸出層每個單元所定義的輸出閾值;通過調(diào)整網(wǎng)絡(luò)學(xué)習(xí)速率或?qū)W習(xí)次數(shù),當(dāng)校正誤差小于學(xué)習(xí)次數(shù)時構(gòu)建完成訓(xùn)練模型;所述預(yù)測部分具體為:輸入待預(yù)測區(qū)域交通事故時空分布特征的各個影響因素的模糊量化評分,設(shè)置訓(xùn)練中的校正誤差與學(xué)習(xí)次數(shù),根據(jù)完全訓(xùn)練好的網(wǎng)絡(luò)進行交通事故時空分布的預(yù)測與在將預(yù)測結(jié)果輸出至瀏覽器。
較佳的,所述bp神經(jīng)網(wǎng)絡(luò)預(yù)測交通事故方法中的影響因素包括交通事故人員的數(shù)目、交通事故人員的文化程度、交通事故的地點、交通事故的次數(shù)、交通事故區(qū)域的居住人口、上下班時間、交通事故區(qū)域居民文化程度、交通事故車流量、交通事故的時間、交通事故區(qū)域的居民職業(yè)。
以上所述僅為本發(fā)明的較佳實施例,凡依本發(fā)明申請專利范圍所做的均等變化與修飾,皆應(yīng)屬本發(fā)明的涵蓋范圍。