本發(fā)明涉及一種城市軌道交通AFC系統(tǒng)實(shí)時(shí)進(jìn)站客流量異常檢測方法,屬于城市軌道交通智能化技術(shù)。
背景技術(shù):
城市軌道交通系統(tǒng)中的實(shí)時(shí)客流數(shù)據(jù)信息對地鐵系統(tǒng)服務(wù)能力的提高至關(guān)重要。然而,由于AFC系統(tǒng)中的設(shè)備供應(yīng)商的多樣性以及實(shí)時(shí)數(shù)據(jù)傳輸過程的復(fù)雜性等原因,使得從AFC系統(tǒng)中獲取的實(shí)時(shí)客流數(shù)據(jù)并不能完全反映運(yùn)營實(shí)際情況,部分車站在某些時(shí)段的實(shí)時(shí)進(jìn)站客流量與實(shí)際進(jìn)站客流量差異較大,為了保證實(shí)時(shí)獲取客流數(shù)據(jù)的質(zhì)量,需要對實(shí)時(shí)獲取的客流數(shù)據(jù)進(jìn)行異常檢測和糾錯(cuò)處理。通過對各車站、各時(shí)段客流量設(shè)定合理的閥值,可以有效判斷實(shí)時(shí)獲取的進(jìn)站客流量是否為異常,故此過程中閥值上限和閥值下限的合理設(shè)定最為關(guān)鍵。
根據(jù)同車站、同時(shí)段客流分布符合正態(tài)分布的特點(diǎn),利用“均值-三倍標(biāo)準(zhǔn)差法”確定客流閥值上下限是一種簡便易行的方法,但由于樣本數(shù)據(jù)本身存在異常值以及部分車站的季節(jié)性客流波動(dòng)較大等原因,導(dǎo)致得出的閥值范圍過大,不能有效地對實(shí)時(shí)獲取的進(jìn)站客流數(shù)據(jù)進(jìn)行異常檢測。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:為了解決現(xiàn)有的基于閥值的實(shí)時(shí)進(jìn)站客流數(shù)據(jù)異常檢測方法算得的閥值范圍進(jìn)行數(shù)據(jù)異常檢測的檢測效果不佳的問題,本發(fā)明提供一種城市軌道交通AFC系統(tǒng)實(shí)時(shí)進(jìn)站客流量異常檢測方法,該方法通過驗(yàn)證該序列的混沌特性來確定模型訓(xùn)練測試樣本集,然后利用訓(xùn)練樣本中各時(shí)段進(jìn)站量預(yù)測殘差序列的分布特性,從而確定未來時(shí)段的進(jìn)站客流量異常檢測的閥值上限和閥值下限。
技術(shù)方案:為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種城市軌道交通AFC系統(tǒng)實(shí)時(shí)進(jìn)站客流量異常檢測方法,包括如下步驟:
(1)混沌時(shí)間序列的相空間重構(gòu):從進(jìn)站客流數(shù)據(jù)的原時(shí)間序列中截取部分時(shí)間序列X={xi|i=1,2,…,K},應(yīng)用C_C方法求得該部分時(shí)間序列的時(shí)間延遲τ和嵌入維數(shù)m;若該部分時(shí)間序列不混沌,則重新截取部分時(shí)間序列;若該部分時(shí)間序列混沌,則基于該部分時(shí)間序列對原時(shí)間序列進(jìn)行相空間重構(gòu);xi為第i個(gè)樣本的進(jìn)站客流量數(shù)據(jù),K為該部分時(shí)間序列包含的樣本個(gè)數(shù)。
(2)序列混沌特性判定:根據(jù)步驟(1)求得的時(shí)間延遲τ和嵌入維數(shù)m,利用改進(jìn)的小數(shù)據(jù)量法計(jì)算該部分時(shí)間序列的Lyapunov指數(shù):若Lyapunov指數(shù)為正,則表示該部分時(shí)間序列混沌;否則,表示該部分時(shí)間序列不混沌;
(3)實(shí)時(shí)進(jìn)站客流預(yù)測模型:從相空間重構(gòu)后的原時(shí)間序列中截取出訓(xùn)練樣本集和驗(yàn)證樣本集,對各樣本集輸入部分的各列數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)正態(tài)分布轉(zhuǎn)換;將轉(zhuǎn)換后的訓(xùn)練樣本集帶入到支持向量機(jī)回歸模型中進(jìn)行訓(xùn)練,同時(shí)采用大范圍網(wǎng)格搜索尋優(yōu)方法(使用該方法可優(yōu)化支持向量機(jī)回歸模型的參數(shù),提升模型的預(yù)測效果)確定支持向量機(jī)回歸模型懲罰系數(shù)C、不敏感系數(shù)ε和指數(shù)徑向基核函數(shù)參數(shù)λ;
(4)預(yù)測值和實(shí)際值的殘差分布:將轉(zhuǎn)換后的驗(yàn)證樣本集帶入到支持向量機(jī)回歸模型中進(jìn)行訓(xùn)練,利用訓(xùn)練后的支持向量機(jī)回歸模型對驗(yàn)證樣本某時(shí)段進(jìn)站客流量進(jìn)行單步預(yù)測,由于同類日期(工作日和非工作日)、同車站總體上各時(shí)段的進(jìn)站客流量變化規(guī)律相似,由K-S檢驗(yàn)結(jié)果可知訓(xùn)練后的支持向量機(jī)回歸模型預(yù)測的各時(shí)段的進(jìn)站客流量與實(shí)際進(jìn)站客流量之間的殘差序列分布符合正態(tài)分布;以yj(i)表示第j天第i時(shí)段的實(shí)際進(jìn)站客流量,以表示第j天第i時(shí)段的預(yù)測進(jìn)站客流量,表示第j天第i時(shí)段的預(yù)測誤差,e(i)表示同類日期第i時(shí)段的預(yù)測殘差序列,則ej(i)滿足正態(tài)分布,即:
e(i)~N(μ,σ2)
其中,μ為同類日期第i時(shí)段預(yù)測殘差的總體平均值,σ為同類日期第i時(shí)段預(yù)測殘差的總體標(biāo)準(zhǔn)差,N(μ,σ2)表示均值為μ、方差為σ2的正態(tài)分布序列;
利用訓(xùn)練后的支持向量機(jī)回歸模型對驗(yàn)證樣本集進(jìn)行預(yù)測,得到的同類日期第i時(shí)段預(yù)測殘差的樣本平均值和樣本標(biāo)準(zhǔn)差s(i)分別為:
其中,N為同類日期第i時(shí)段預(yù)測殘差的樣本數(shù)量;
(5)確定進(jìn)站客流置信區(qū)間:根據(jù)數(shù)理統(tǒng)計(jì)相關(guān)知識(shí)可知進(jìn)行如下分類考慮:
①當(dāng)N>50時(shí),σ≈s(i);在給定置信度1-α下,未來同類日期第i時(shí)段進(jìn)站客流量置信區(qū)間為:
其中,為該未來同類日期第i時(shí)段進(jìn)站客流量預(yù)測值,Zα/2為標(biāo)準(zhǔn)正態(tài)分布上的分位點(diǎn);
②當(dāng)N≤50時(shí),σ≠s(i);在給定置信度1-α下,未來同類日期第i時(shí)段進(jìn)站客流量置信區(qū)間為:
其中,tα/2(N-1)為t(N-1)分布(自由度為N-1的t分布)上的分位點(diǎn);
由于實(shí)時(shí)進(jìn)站客流量數(shù)值為整數(shù),故需要對①和②計(jì)算得到的置信區(qū)間的下界向上取整、上界向下取整,取整后的置信區(qū)間左端點(diǎn)即為閥值下限,右端點(diǎn)即為閥值上限;
(6)實(shí)時(shí)進(jìn)站客流量異常檢測與處理方法:如果從AFC系統(tǒng)中實(shí)時(shí)獲取的某車站、某一時(shí)段的進(jìn)站客流量在相應(yīng)的置信區(qū)間閾值范圍內(nèi),則采信該值;否則,判斷該進(jìn)站客流量異常,采用訓(xùn)練后的支持向量機(jī)回歸模型對該進(jìn)站客流量進(jìn)行預(yù)測,采信取整后的預(yù)測值。
具體的,所述步驟(5)中,當(dāng)N>50時(shí),σ≈s(i),即此時(shí)則構(gòu)造變量則在給定置信度1-α下未來同類日期第i時(shí)段進(jìn)站客流量置信區(qū)間由算出;當(dāng)N≤50時(shí),σ≠s(i),即不能由樣本標(biāo)準(zhǔn)差算得總體標(biāo)準(zhǔn)差,此時(shí),構(gòu)造變量則給定置信度1-α下未來同類日期第i時(shí)段進(jìn)站客流量置信區(qū)間由算出。
有益效果:本發(fā)明提供的城市軌道交通AFC系統(tǒng)實(shí)時(shí)進(jìn)站客流量異常檢測方法,通過采用支持向量機(jī)回歸模型進(jìn)行實(shí)時(shí)進(jìn)站量客流預(yù)測,根據(jù)訓(xùn)練集工作日和非工作日各時(shí)段擬合殘差序列統(tǒng)計(jì)分布特性,能夠確定實(shí)時(shí)進(jìn)站客流量異常檢測閥值,可以有效收縮進(jìn)站客流量的異常檢測范圍,并降低數(shù)據(jù)異常檢測的誤報(bào)率,強(qiáng)化對異??土鲾?shù)據(jù)的檢測能力,保證實(shí)時(shí)獲取客流數(shù)據(jù)的準(zhǔn)確性和及時(shí)性,為乘客信息服務(wù)系統(tǒng)、實(shí)時(shí)客流預(yù)測以及大客流預(yù)警等應(yīng)用提供了可靠的數(shù)據(jù)支持,從而增強(qiáng)了地鐵系統(tǒng)的服務(wù)能力。
附圖說明
圖1為本發(fā)明的實(shí)施流程圖;
圖2為2013年8月5日至18日大行宮站進(jìn)站量分布圖;
圖3為2013年12月29日進(jìn)站量異常檢測閥值對比圖;
圖4為2013年12月31日進(jìn)站量異常檢測閥值對比圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明作更進(jìn)一步的說明。
如圖1所示為一種城市軌道交通AFC系統(tǒng)實(shí)時(shí)進(jìn)站客流量異常檢測方法,文采用改進(jìn)的小數(shù)據(jù)量法計(jì)算進(jìn)站客流時(shí)間序列的Lyapunov指數(shù),驗(yàn)證該序列的混沌特性;利用C_C方法計(jì)算進(jìn)站客流時(shí)間序列的時(shí)間延遲和最佳嵌入維數(shù),并對該序列進(jìn)行相空間重構(gòu),生成模型訓(xùn)練、驗(yàn)證和測試樣本集;并利用大范圍網(wǎng)格搜索法對支持向量機(jī)回歸模型參數(shù)進(jìn)行尋優(yōu);然后利用混沌支持向量機(jī)回歸模型預(yù)測各時(shí)段的進(jìn)站客流量,結(jié)合假設(shè)檢驗(yàn)方法,利用同類日期同時(shí)段下訓(xùn)練集的擬合殘差構(gòu)造服從特定分布的隨機(jī)變量,依次計(jì)算出各時(shí)段對應(yīng)的進(jìn)站客流預(yù)測殘差在相應(yīng)置信度下的置信區(qū)間,進(jìn)而得到實(shí)際進(jìn)站客流量的閥值上限和閥值下限,以期獲得更有效的異常檢測范圍。
下面結(jié)合實(shí)施例對本發(fā)明做出進(jìn)一步的說明。
本例數(shù)據(jù)源于南京地鐵軌道交通二號(hào)線大行宮站2013年7月30日至2014年1月20日5:30-23:29之間的進(jìn)站客流數(shù)據(jù),進(jìn)站客流數(shù)據(jù)的時(shí)間粒度取15分鐘,該時(shí)間段內(nèi)的進(jìn)站客流數(shù)據(jù)的數(shù)學(xué)表示為X={xi|i=1,2,…,12600}。
Step1、序列混沌特性判定
選取長度K=3000的子時(shí)間序列X={xi|i=1,2,…,3000},應(yīng)用C_C方法求得該部分時(shí)間序列的時(shí)間延遲τ和嵌入維數(shù)m,算得τ=3,m=15。
Step2、序列混沌特性判定
根據(jù)τ=3,m=15,利用小數(shù)據(jù)量法的改進(jìn)方法求得該序列的最大Lyapunov指數(shù)λ1=0.06>0,故該地鐵車站進(jìn)站量時(shí)間序列具有混沌特性。
Step3、實(shí)時(shí)進(jìn)站客流預(yù)測模型
對原混沌時(shí)間序列進(jìn)行相空間重構(gòu),并以2013年7月30日至2013年9月24日的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2013年9月25日至2013年12月28日數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),2013年12月29日至2014年1月20日的數(shù)據(jù)作為測試數(shù)據(jù),對訓(xùn)練、驗(yàn)證和測試數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換后,運(yùn)用采用大范圍網(wǎng)格搜索尋優(yōu)方法確定支持向量機(jī)回歸模型懲罰系數(shù)C、不敏感系數(shù)ε和指數(shù)徑向基核函數(shù)參數(shù)λ,尋優(yōu)得到優(yōu)化后模型參數(shù)C=360,ε=3,λ=0.03。
Step4、預(yù)測值和實(shí)際值的殘差分布
選取2013年8月5日到8月18號(hào)兩周的進(jìn)站客流數(shù)據(jù)進(jìn)行可視化如圖2所示,可得知工作日的客流變化規(guī)律大致相同,非工作日間的客流變化規(guī)律亦大致相同,工作日與非工作日的客流分布情況差異較大;并由計(jì)算可知,訓(xùn)練樣本集中工作日與非工作日各時(shí)段殘差序列的統(tǒng)計(jì)參量值差別較大,故各時(shí)段的模型訓(xùn)練殘差數(shù)據(jù)要區(qū)分工作日與非工作日,利用支持向量機(jī)回歸模型得到模型訓(xùn)練樣本中各時(shí)段進(jìn)站量殘差數(shù)據(jù),進(jìn)而獲取工作日與非工作日各時(shí)段模型預(yù)測殘差的統(tǒng)計(jì)參量值,即樣本均值,樣本方差,樣本數(shù)。為了測試本模型對兩類日期進(jìn)站量異常檢測的效果,現(xiàn)對2013年12月29日至2014年1月20日間的進(jìn)站客流量數(shù)據(jù)進(jìn)行有效性檢驗(yàn),并給出2013年12月29、31日(即周日和周二)兩天閥值設(shè)定和異常檢測的具體計(jì)算過程。
利用訓(xùn)練好的支持向量機(jī)回歸模型得到2013年12月29日6:30至6:44時(shí)段(時(shí)段5)進(jìn)站客流量預(yù)測值為實(shí)際進(jìn)站客流量為y=27,對該類日期(非工作日)此時(shí)段訓(xùn)練樣本殘差序列進(jìn)行K-S檢驗(yàn),以判斷其分布情況,假定其服從正態(tài)分布,取顯著性水平為0.05,運(yùn)用SPSS Statistics算得檢驗(yàn)概率值為0.995,遠(yuǎn)大于顯著性水平,同時(shí),對其余各時(shí)段殘差序列數(shù)據(jù)進(jìn)行K-S檢驗(yàn),其檢驗(yàn)概率值皆大于顯著性水平,所以可認(rèn)為該類日期各時(shí)段的殘差序列服從正態(tài)分布。該類日期時(shí)段5訓(xùn)練樣本殘差序列樣本平均值樣本標(biāo)準(zhǔn)差s(i)=20.44。
利用訓(xùn)練好的支持向量機(jī)回歸模型得到2013年12月31日6:30至6:44時(shí)段(時(shí)段5)進(jìn)站客流量預(yù)測值為實(shí)際進(jìn)站客流量為y=120,對該類日期(非工作日)此時(shí)段訓(xùn)練樣本殘差序列進(jìn)行K-S檢驗(yàn),以判斷其分布情況,假定其服從正態(tài)分布,取顯著性水平為0.05,運(yùn)用SPSS Statistics算得檢驗(yàn)概率值為0.665,遠(yuǎn)大于顯著性水平,同時(shí),對其余各時(shí)段殘差序列數(shù)據(jù)進(jìn)行K-S檢驗(yàn),其檢驗(yàn)概率值皆大于顯著性水平,所以可認(rèn)為該類日期各時(shí)段的殘差序列服從正態(tài)分布。該類日期時(shí)段5訓(xùn)練樣本殘差序列樣本平均值樣本標(biāo)準(zhǔn)差s(i)=15.12。
Step5、確定進(jìn)站客流置信區(qū)間
對2013年12月29日6:30至6:44時(shí)段(時(shí)段5)分析,樣本數(shù)N=27<50,因此,該時(shí)段殘差序列的樣本標(biāo)準(zhǔn)差與總體標(biāo)準(zhǔn)差偏差較大,將參數(shù)代入(5)式可得,該時(shí)段進(jìn)站客流量在置信度為1-α=0.99的置信區(qū)間,即此時(shí)段進(jìn)站客流量有效值范圍為[0,87],其左右端點(diǎn)值即為所求閥值下限和閥值上限,其它時(shí)段的閥值計(jì)算以此類推,該天進(jìn)站客流量異常檢測閥值如圖3所示。
對2013年12月31日6:30至6:44時(shí)段(時(shí)段5)分析,樣本數(shù)N=68>50,因此,該時(shí)段殘差序列的樣本標(biāo)準(zhǔn)差約等于總體標(biāo)準(zhǔn)差,將參數(shù)代入(4)式可得,該時(shí)段進(jìn)站量在置信度為1-α=0.99的置信區(qū)間,即此時(shí)段進(jìn)站客流量有效值范圍為[81,158],其左右端點(diǎn)值即為所求閥值下限和閥值上限,其它時(shí)段的閥值計(jì)算以此類推,該天進(jìn)站客流量異常檢測閥值如圖4所示。
Step6、實(shí)時(shí)進(jìn)站客流量異常檢測與處理方法
如果從AFC系統(tǒng)中實(shí)時(shí)獲取的某車站、某一時(shí)段的進(jìn)站客流數(shù)據(jù)在閥值范圍內(nèi),則采信該值;否,則可判定該進(jìn)站客流數(shù)據(jù)異常,此時(shí)采用模型預(yù)測值取整后數(shù)據(jù)作為該時(shí)段的實(shí)時(shí)進(jìn)站客流量。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。