一種用于事故分析與安全評價的平衡采樣方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于安全性評價技術(shù)領(lǐng)域。特別涉及一種用于事故分析與安全評價的平衡 采樣方法,具體涉及交通事故等偶發(fā)事件的預(yù)測及評價,具體采用平衡采樣方法對非平衡 數(shù)據(jù)集進(jìn)行概率回歸模型的參數(shù)估計與影響因素分析。
【背景技術(shù)】
[0002] 交通安全是全球范圍內(nèi)與人類健康和發(fā)展息息相關(guān)的問題,目前多以發(fā)生事故的 數(shù)據(jù)為基礎(chǔ),利用計數(shù)模型建立事故風(fēng)險和傷亡程度評估模型,分析影響事故發(fā)生及其嚴(yán) 重程度的顯著因素,進(jìn)行安全評價,進(jìn)而提出交通安全改善建議。計數(shù)模型是一種概率回歸 模型,包括泊松模型、負(fù)二項分布模型等,在建模過程中,需要大量的事故數(shù)據(jù)作為觀測樣 本,進(jìn)而求解模型中的未知參數(shù)。根據(jù)現(xiàn)有交通理論,交通流量、交通控制與管理方案、天 氣等都是影響事故發(fā)生的重要因素,為研究上述因素對事故的影響,需要較細(xì)時間粒度的 數(shù)據(jù),實際中多以小時為單位,建立時間離散的事故分析數(shù)據(jù)集。但由于事故數(shù)據(jù)獲取的 局限性及其偶發(fā)性,時間離散的數(shù)據(jù)集中常常出現(xiàn)大量事故數(shù)為零的樣本,由此出現(xiàn)事故 數(shù)據(jù)的零膨脹問題(也稱零堆積問題,指在現(xiàn)有的時空劃分方法下,數(shù)據(jù)包含過量的零), 導(dǎo)致數(shù)據(jù)集嚴(yán)重失衡,使得模型參數(shù)估計的準(zhǔn)確性和可靠性不足(Shankar et al.,1997; Washington et al.,2011),不能有效指導(dǎo)交通安全工程實踐。為解決事故數(shù)據(jù)零膨脹 問題,Miaou(1994 年),Lee and Mannering(2002 年),Shankar (2003 年),Huang and Chin (2010 年)等人,提出了一類零膨脹計數(shù)模型(zero-inflated count data models), 這類模型假設(shè)道路有兩種安全狀態(tài)(即事故數(shù)為〇的兩種情況),一種是絕對安全,一種是 相對安全,這種模型相比于傳統(tǒng)計數(shù)模型有更好的擬合性。但是Lord等人在2005和2007 年的研究中分別指出,絕對安全的道路是不存在的,應(yīng)該利用合理的時空劃分解決數(shù)據(jù)中 零過量的問題,但Lord并沒有給出合理劃分時間、空間的方法。雖然后繼研究者進(jìn)一步提 出各類解決零膨脹問題的方法,但都無法改變非平衡數(shù)據(jù)集帶來的局限性。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的是提供一種用于事故分析與安全評價的平衡采樣方法,其特征在 于,包括如下步驟:
[0004] 步驟1、選擇某種待分析的事故類型,并采集該種事故歷年相關(guān)事故數(shù)據(jù),導(dǎo)入處 理系統(tǒng)進(jìn)行預(yù)處理,建立事故分析與安全評價數(shù)據(jù)集;
[0005] 步驟2、根據(jù)步驟1得到的事故分析與安全評價數(shù)據(jù)集建立分析模型,進(jìn)行參數(shù)估 計及收斂性判斷;其中包括平衡采樣事故樣本、計數(shù)模型求解、重采樣參數(shù)估計和收斂性判 斷;
[0006] 步驟3、輸出模型結(jié)果,針對顯著因素,分析提出改進(jìn)建議。
[0007] 所述步驟1中,選擇某種待分析的事故類型包括交通事故、工農(nóng)業(yè)生產(chǎn)中發(fā)生的 事故和自然災(zāi)害;采集相關(guān)數(shù)據(jù),并進(jìn)行預(yù)處理,包括:
[0008] 步驟101、采集搜集各類數(shù)據(jù),建立包含交通流量、道路設(shè)計參數(shù)、交通控制與管理 要素和天氣條件的交通事故數(shù)據(jù)集;
[0009] 步驟102、針對每個道路實體,每個單位時間,以事故數(shù)量為回歸模型的事故數(shù)Y 為因變量,以可能影響事故發(fā)生的因素為自變量X,建立包含交通流量、道路設(shè)計參數(shù)、交通 控制與管理要素和天氣條件等影響因素的交通事故數(shù)據(jù)集,共得到M條數(shù)據(jù);
[0010] 步驟103、檢查多個影響因素 X的多重共線性問題,刪除多余的共線性變量。
[0011] 所述步驟2中采用平衡采樣方法多次抽取平衡數(shù)據(jù)集,并采用概率回歸模型求解 多組模型參數(shù),進(jìn)而進(jìn)行參數(shù)估計及收斂性判斷,具體做法包括:
[0012] 步驟201、按照每條道路單位時間內(nèi)事故數(shù)量是否為零,將全部數(shù)據(jù)分為2類,一 類是事故非零數(shù)據(jù),一類是事故數(shù)為零數(shù)據(jù);在所有M條數(shù)據(jù)中,非零數(shù)據(jù)記為K條;
[0013] 步驟202、從(M-K)條事故為零的樣本中隨機(jī)抽取K條數(shù)據(jù),即比例為1:1地將K 條事故為零數(shù)據(jù)和K條事故非零數(shù)據(jù)組成新的數(shù)據(jù)集合B ;B含有2K條數(shù)據(jù),且B中事故為 零與事故非零樣本數(shù)平衡;
[0014] 步驟203、基于數(shù)據(jù)集合B,采用計數(shù)模型建立交通安全評估方程Y = f(i3X)),求 解模型參數(shù)β的一組解;其中Y為事故數(shù);
[0015] 步驟204、重復(fù)采樣,重復(fù)步驟202和203多次,直至結(jié)果收斂;
[0016] 步驟205、基于多組模型參數(shù)估計結(jié)果,計算參數(shù)β的標(biāo)準(zhǔn)差(或稱為估計誤 差)、置信區(qū)間和顯著水平。
[0017] 所述步驟3輸出模型結(jié)果,包括:
[0018] 步驟301、根據(jù)計算參數(shù)β的標(biāo)準(zhǔn)差(或稱為估計誤差)、置信區(qū)間和顯著水平的 情況,篩選對事故發(fā)生影響顯著的自變量X,稱這些自變量X為顯著因素;
[0019] 步驟302、分析顯著因素 X對事故數(shù)Y的影響;
[0020] 步驟303、根據(jù)步驟302的分析,推出安全改進(jìn)措施對策與建議。
[0021] 本發(fā)明的有益效果是:
[0022] 1.平衡采樣樣本,采用平衡采樣方法,能夠有效解決計數(shù)模型所采用非平衡數(shù)據(jù) 集的零膨脹問題。且不依賴對研究對象的前提假設(shè),有效避免了現(xiàn)存零膨脹計數(shù)模型的基 本假設(shè)不合理問題。
[0023] 2.收斂模型參數(shù),重復(fù)采樣并求解多次,直到模型參數(shù)能夠很好的收斂,保障參數(shù) 估計結(jié)果的穩(wěn)定性與有效性。
[0024] 3.提高模型精度,改進(jìn)模型的精度,參數(shù)估計誤差更小。
[0025] 4.挖掘顯著因素,可以挖掘更多與事故發(fā)生相關(guān)的顯著因素,有效指導(dǎo)實踐應(yīng)用。
【附圖說明】
[0026] 圖1用于事故分析與安全評價的平衡采樣方法的工作流程示意圖。
【具體實施方式】
[0027] 步驟1、選擇某種待分析的事故類型,并采集該種事故歷年相關(guān)事故數(shù)據(jù),導(dǎo)入處 理系統(tǒng)進(jìn)行預(yù)處理,建立事故分析與安全評價數(shù)據(jù)集;
[0028] 步驟2、根據(jù)步驟1得到的事故分析與安全評價數(shù)據(jù)集建立分析模型,進(jìn)行參數(shù)估 計及收斂性判斷;其中包括平衡采樣事故樣本、計數(shù)模型求解、重采樣參數(shù)估計、收斂性判 斷;
[0029] 步驟3、輸出模型結(jié)果,針對顯著因素,分析提出改進(jìn)建議。
[0030] 實施例
[0031] 針對上述的三大步驟,以某大城市道路交通事故分析為例,對本發(fā)明予以說明。
[0032] 所述步驟1中,安全分析相關(guān)數(shù)據(jù)采集與預(yù)處理包括:
[0033] 步驟101、采集搜集各類數(shù)據(jù),建立包含交通流量、道路設(shè)計參數(shù)、交通控制與管理 要素和天氣條件的交通事故數(shù)據(jù)集;
[0034] 步驟102、針對每個道路實體,每個單位時間,以事故數(shù)量為回歸模型的(因變量) 事故數(shù)Y,以可