本發(fā)明涉及一種基于kaplan-meier法的駕駛者發(fā)生交通事故間隔時間的計算方法。
背景技術:
統(tǒng)計表明,90%的交通事故是由人為因素引起的。在人為因素中,除了少量無意識的危險駕駛行為,82%的屬于駕駛者僥幸心理造成的有意識的危險駕駛行為,而這類行為更多的記錄在駕駛者歷史交通違法中。目前,許多國家已采取在駕照上扣分的政策以規(guī)范人們的駕駛行為。既有研究表明:事故發(fā)生地交通違法和交通事故間呈正比例的數(shù)量關系,且比例不斷升高。因此交通違法數(shù)據(jù)是研究駕駛者危險駕駛行為和交通事故間聯(lián)系的重要手段。
生存分析是對生存時間進行分析的統(tǒng)計技術總稱,其主要特點是可以處理刪失數(shù)據(jù),刪失是指準確生存時間未被觀察到的情況。刪失又分為左刪失、右刪失、區(qū)間刪失。此次研究數(shù)據(jù)中皆為右刪失,即由于統(tǒng)計時段結束而某些駕駛者未發(fā)生第二次交通事故的情況。因此在統(tǒng)計分析時必須考慮刪失數(shù)據(jù),否則將會導致結果偏倚。因為理論上生存時間越長,越容易發(fā)生刪失。此外,駕駛者交通事故時間間隔具有非負且其右偏分布的特征,因此通?;谡龖B(tài)分布的統(tǒng)計分析方法不適用。而生存分析中的kaplan-meier法可以實現(xiàn)利用生存函數(shù)對生存時間分布進行展示,其適用于每個觀察樣本的事件發(fā)生時間點或刪失發(fā)生時間點能夠被準確記錄下來的生存時間數(shù)據(jù)。
文章《theimpactoftrafficviolationsontheestimatedcostoftrafficaccidentswithvictims》中,mercedesayuso等人將西班牙2003至2005年發(fā)生的交通事故的嚴重程度及違法類型對交通事故的影響折合成經(jīng)濟損失,使用多項式邏輯回歸模型量化各個違法類型對不同嚴重程度交通事故的影響。接著,使用不同交通違法類型的組合預測事故的嚴重程度,再通過預測出的各種事故嚴重程度的可能性計算事故損失。由此得出了以下結論:1.隨著事故中違法次數(shù)的增加,事故發(fā)生的嚴重程度也在提升;2.不同類型的交通違法組合會造成不同嚴重程度的交通事故。特殊的,相比于未發(fā)生違法的嚴重交通事故,某些交通違法組合會降低發(fā)生嚴重交通事故的概率。
現(xiàn)有研究大多利用多元邏輯回歸、對數(shù)線性等模型,從違法對交通事故造成的嚴重程度討論了交通違法與交通事故間的關系。這種方法將交通違法作為影響變量之一,得出了不同違法類型對事故嚴重程度的影響,但是忽略了違法和事故在時間上的聯(lián)系,即發(fā)生不同頻次違法數(shù)量的駕駛者,其發(fā)生交通事故的間隔時間即頻率有無關系。
技術實現(xiàn)要素:
針對這一問題,本發(fā)明的目的是提供一種基于kaplan-meier法的駕駛者發(fā)生交通事故間隔時間的計算方法,以駕駛?cè)诉`法次數(shù)為協(xié)變量、事故發(fā)生間隔為因變量,使用醫(yī)學中統(tǒng)計學中常用的生存分析方法,在考慮刪失數(shù)據(jù)的前提下,得出對應駕駛者的生存函數(shù)和風險函數(shù),以描述具有不同違法次數(shù)的駕駛者其生存時間即事故發(fā)生間隔時間的分布特征,解決現(xiàn)有技術中存在的忽略了違法和事故在時間上的聯(lián)系的問題。
本發(fā)明中名稱解釋如下:
生存分析:一種將生存時間和生存結果綜合起來對數(shù)據(jù)進行分析的一種統(tǒng)計分析方法。
生存函數(shù):個體生存時間t大于等于某一特定時間t的概率。
半數(shù)生存時間:50%的個體存活且有50%的個體死亡的時間,又稱為中位生存時間。
風險函數(shù):在生存過程中,t時刻存活的個體在t時刻的瞬時死亡率。
kaplan-meier法:即乘積極限法,生存分析的一種非參數(shù)法,利用條件概率及概率乘法原理來計算生存率,可利用刪失數(shù)據(jù),適用于生存時間數(shù)據(jù)的原始資料(或未分組資料),可用于小、中或大樣本;刪失數(shù)據(jù):研究分析過程中由于某些原因,未能得到所研究個體的準確時間。
本發(fā)明的技術解決方案是:
一種基于kaplan-meier法的駕駛者發(fā)生交通事故間隔時間的計算方法,包括以下步驟,
s1、選取觀測樣本,即選擇在事故統(tǒng)計時段內(nèi)發(fā)生交通事故1-2次的駕駛者;
s2、計算違法統(tǒng)計時段內(nèi)步驟s1所選取樣本的違法次數(shù)并進行分類;
s3、定義事件發(fā)生并分類樣本數(shù)據(jù),包括完全數(shù)據(jù)和刪失數(shù)據(jù);
s4、根據(jù)步驟s3分類的樣本數(shù)據(jù),對樣本數(shù)據(jù)計算事故時間間隔,具體為:對完全數(shù)據(jù)計算兩次事件發(fā)生時間間隔,對于刪失數(shù)據(jù)計算事件開始到統(tǒng)計時段結束時間間隔;
s5、每位駕駛者為一個觀測樣本,駕駛者違法次數(shù)為自變量、步驟s4得到的事故時間間隔為因變量,建立全樣本矩陣;
s6、使用kaplan-meier法處理步驟s5得到的全樣本矩陣,得到生存函數(shù)估計量和累計風險函數(shù),進而由生存函數(shù)估計量得到駕駛者的生存時間即發(fā)生交通事故的間隔時間。
進一步地,還包括以下步驟:
s7、對組間生存函數(shù)進行差異性檢驗;
s8、根據(jù)步驟s6繪制累計生存函數(shù)和累計風險函數(shù)曲線。
進一步地,步驟s2具體包括以下步驟:
s21、統(tǒng)計全觀測樣本在違法統(tǒng)計時段內(nèi)違法次數(shù),并做違法頻次分布直方圖;
s22、根據(jù)違法頻次分布直方圖,分類違法程度。
進一步地,步驟s3具體包括以下步驟:
s31、確定觀測樣本進入期te;
s32、確定觀測截止日期td;
s33、定義在te內(nèi)駕駛者發(fā)生交通事故為樣本觀測起始點;
s34、若樣本在截止日期td前再次發(fā)生交通事故,則定義此類樣本為完全數(shù)據(jù),記錄這類樣本事故再次發(fā)生日期tam,m為駕駛者編號;
s35、若樣本在截止日期td前未發(fā)生交通事故,則定義此類樣本為刪失數(shù)據(jù)。
進一步地,步驟s4具體包括以下步驟:
s41、對于完全數(shù)據(jù),時間間隔τw=ta-te;
s42、對于刪失數(shù)據(jù),時間間隔τc=td-te。
進一步地,步驟s6具體包括以下步驟:
s61、計算在ti時刻生存函數(shù)估計量
s62、在ti時刻生存函數(shù)估計的標準誤差
s63、累計分布函數(shù)
s64、概率密度函數(shù)f(ti)=f′(ti),表示f(ti)的變化速率
s65、風險函數(shù)
s66、累計風險函數(shù)
本發(fā)明的有益效果是:與現(xiàn)有技術相比,該種基于kaplan-meier法的駕駛者發(fā)生交通事故間隔時間的計算方法,使用統(tǒng)計學方法,從違法對交通事故發(fā)生時間間隔的角度,分析交通違法對事故率的影響。該方法能夠得到不同違法次數(shù)的駕駛者事故發(fā)生時間間隔即生存時間,并能夠得到觀測時段內(nèi)不同違法次數(shù)的駕駛者瞬時發(fā)生交通事故的風險率。
附圖說明
圖1是本發(fā)明實施例基于kaplan-meier法的駕駛者發(fā)生交通事故間隔時間的計算方法的流程示意圖。
圖2是實施例中交通違法次數(shù)統(tǒng)計分類結果的示意圖。
圖3是實施例中分類后的全樣本矩陣的示意圖。
圖4是實施例中累計生存曲線示意圖。
圖5是實施例中所得累計風險函數(shù)的示意圖。
具體實施方式
下面結合附圖詳細說明本發(fā)明的優(yōu)選實施例。
實施例的一種基于kaplan-meier法的駕駛者發(fā)生交通事故間隔時間的計算方法,選取統(tǒng)計時段內(nèi)發(fā)生1-2次交通事故的駕駛者作為觀測樣本,將統(tǒng)計時段內(nèi)駕駛者發(fā)生交通違法次數(shù)作為影響變量,將統(tǒng)計時段內(nèi)駕駛者發(fā)生第一次交通事故時間作為觀測起始時間,發(fā)生第二次交通事故時間作為截止時間。在統(tǒng)計時段內(nèi)未觀測到發(fā)生第二次交通事故作為刪失事件,其對應的時間作為刪失時間。使用生存分析中的kaplan-meier法研究具有不同違章次數(shù)的駕駛者,其事故發(fā)生間隔的規(guī)律。以此得出具有不同違法次數(shù)的駕駛者,單位時間內(nèi)發(fā)生交通事故的風險函數(shù)及累積生存函數(shù)。
實施例通過觀察具有不同歷史違法次數(shù)的駕駛者,發(fā)生交通事故的時間間隔,以此分析交通違法對交通事故的影響。實施例方法使用生存分析中的kaplan-meier法,定量分析一年內(nèi)不同違法次數(shù)分組下的駕駛者發(fā)生交通事故的時間間隔函數(shù)和累計風險函數(shù)。
實施例
一種基于kaplan-meier法的駕駛者發(fā)生交通事故間隔時間的計算方法,如圖1,包括以下步驟,
s1、選取觀測樣本,選擇在事故統(tǒng)計時段內(nèi)發(fā)生交通事故1-2次的駕駛者。
s2、計算違法統(tǒng)計時段內(nèi)樣本違法次數(shù)并進行分類。
步驟s2中計算違法統(tǒng)計時段內(nèi)樣本違法次數(shù)并進行分類包括以下步驟:
s21、統(tǒng)計全觀測樣本在違法統(tǒng)計時段內(nèi)違法次數(shù),并做違法頻次分布直方圖;
s22、根據(jù)違法頻次分布直方圖,分類違法程度;
s3、定義事件發(fā)生并分類樣本數(shù)據(jù)。
步驟s3中定義事件發(fā)生并分類樣本數(shù)據(jù)包括以下步驟:
s31、確定觀測樣本進入期te;
s32、確定觀測截止日期td;
s33、定義在te內(nèi)駕駛者發(fā)生交通事故為樣本觀測起始點;
s34、若樣本在截止日期td前再次發(fā)生交通事故,則定義此類樣本為完全數(shù)據(jù),記錄這類樣本事故再次發(fā)生日期tam,m為駕駛者編號;
s35、若樣本在截止日期td前未發(fā)生交通事故,則定義此類樣本為刪失數(shù)據(jù)。
s4、根據(jù)步驟s3分類的樣本數(shù)據(jù),對完全數(shù)據(jù)計算兩次事件發(fā)生間隔時間,對于刪失數(shù)據(jù)計算事件開始到統(tǒng)計時段結束間隔時間。
步驟s4中分類計算間隔時間包括以下步驟:
s41、對于完全數(shù)據(jù),時間間隔τw=ta-te;
s42、對于刪失數(shù)據(jù),時間間隔τc=td-te;
s5、每位駕駛者為一個觀測樣本,駕駛者違法次數(shù)為自變量、事故時間間隔為因變量,建立全樣本矩陣。
s6、計算生存函數(shù)估計量和累計風險函數(shù),累計風險函數(shù)得到的是駕駛者在某一時刻發(fā)生交通事故的概率。
步驟s6中計算生存函數(shù)估計量和累計風險函數(shù)包括以下步驟:
s61、計算在ti時刻生存函數(shù)估計量
s62、在ti時刻生存函數(shù)估計的標準誤差,可以得到s61中生存函數(shù)估計量的可信度即誤差范圍
s63、累計分布函數(shù)
s64、概率密度函數(shù)f(ti)=f′(ti),表示f(ti)的變化速率
s65、風險函數(shù)
s66、累計風險函數(shù)
s7、對組間生存函數(shù)進行差異性檢驗。
s8、根據(jù)步驟s6繪制累計生存函數(shù)和累計風險函數(shù)曲線。
實施例的該種基于kaplan-meier法的駕駛者發(fā)生交通事故間隔時間的計算方法,使用統(tǒng)計學方法,從不同違法次數(shù)的駕駛者發(fā)生交通事故間隔的角度,分析交通違法對事故率的影響。該方法使用生存分析中kaplan-meier法,得到不同違法次數(shù)的駕駛者,一年356天內(nèi)發(fā)生交通事故的風險函數(shù),并繪制風險曲線。實施例方法估計不同違法次數(shù)的駕駛者事故發(fā)生時間間隔即生存時間的以及中位生存時間。實施例方法對于含有大量刪失數(shù)據(jù)的交通事故間隔時間,可以將刪失數(shù)據(jù)合理考慮在內(nèi)。
實例驗證
樣本數(shù)據(jù)為某市部分城區(qū)發(fā)生事故1-2起的駕駛者。樣本進入期te為2015年1月1日至2015年3月1日,即以這段時間觀測到的駕駛者進行全年跟蹤調(diào)查。觀測截止日期td為2015年12月31日。違法統(tǒng)計時段為2014年1月1日-2014年12月31日。
進入觀測期的總體樣本數(shù)量為7501。7501位駕駛者2014年內(nèi)發(fā)生交通違法次數(shù)統(tǒng)計分類結果如圖2所示:違法0次、1-4次、大于等于5次三組之間頻次差異較明顯。因此,以上違法次數(shù)作為分組變量,將駕駛者分為三組,即違法0次、違法1-4次、違法大于等于5次。定義在2015年3月2日-2015年12月31日期間再次發(fā)生交通事故為完全事件,其中對于發(fā)生多次交通事故的駕駛者,取第一次發(fā)生交通事故時間ta,計算時間間隔τw;定義在2015年3月2日-2015年12月31日期間未發(fā)生交通事故為刪失事件,計算時間間隔τc。最后得到分類后的全樣本矩陣,如圖3所示。
利用spss中的生存分析模塊的kaplan-meier法,處理圖3中的數(shù)據(jù),得到包括時刻生存估計量、生存函數(shù)估計標準誤差、累計分布函數(shù)、概率密度函數(shù)、風險函數(shù)、累計風險函數(shù)。
表1為個案處理摘要表。從表1中可得:總體事故數(shù)量為7501起,其中刪失數(shù)據(jù)占到60.2%。因此選用生存分析是有必要的。
表1個案處理摘要
表2生存時間的平均值和中值
a.如果已刪改估算,那么估算限于最大生存時間。
表2是不同違法次數(shù)分組下的駕駛者生存時間的平均值和中位數(shù),中位數(shù)即為半數(shù)生存時間:50%的個體存活且有50%的個體死亡的時間,又稱為中位生存時間。從表2中可以得到:隨著違法次數(shù)的增加,駕駛員生存時間的平均值、中位數(shù)的估算值不斷減少。
使用spss-survivalanalysis-comparefactorlevels模塊檢驗不同違法次數(shù)分組下的駕駛者生存率曲線的分布是否相同。表3是整體比較檢驗表,從表3中可以得到:對數(shù)值(logrank)檢驗、breslow檢驗、tarone-ware檢驗的顯著性水平均低于0.05,因此不同違章類別組間的生存率具有統(tǒng)計學意義。其中l(wèi)ogrank檢驗以各時間點權重一樣,檢驗生存分布是否相同;breslow檢驗以各時間點的觀察例數(shù)為權重,檢驗生存分布是否相同;tarone-ware檢驗以各時間點的觀察例數(shù)的平方根為權重,檢驗生存分布是否相同。
表3整體比較檢驗結果
繪制累計生存曲線和累計風險曲線如圖4、圖5所示。圖4可以看出線③(違法大于等于5次的駕駛者),其生存時間下降明顯快于線②(違法1-4次駕駛者)和線①(無違法)。明顯的在第280-290天內(nèi)高違法次數(shù)的人群發(fā)生交通事故的概率密度函數(shù)最大,對應的這段時間的事故風險率上升最快,瞬時風險率趨向于無窮大,相對觀測起始點風險率的三倍。