本發(fā)明涉及智能化公共交通技術(shù)領(lǐng)域,特別涉及一種基于協(xié)同過(guò)濾的公交乘客刷卡站點(diǎn)信息提取方法。
背景技術(shù):
公交IC卡的廣泛應(yīng)用,提高了乘客乘車的便捷性,已成為公交乘客的主要支付方式,刷卡記錄成為低成本提取客流信息的新途徑,但是,現(xiàn)階段廣泛使用的刷卡系統(tǒng)主要用于收費(fèi),產(chǎn)生的數(shù)據(jù)不能直接提供給交通業(yè)務(wù)系統(tǒng)進(jìn)行分析使用。例如,目前使用最為廣泛的一票制公交,只能記錄乘客的上車時(shí)刻與車號(hào)、線路號(hào),缺乏上、下車站點(diǎn)信息;兩票制公交,也僅僅增加了下車時(shí)間記錄,無(wú)法知道乘客的上、下車站點(diǎn)。因此,通過(guò)IC卡刷卡記錄對(duì)公交線網(wǎng)客流態(tài)勢(shì)進(jìn)行分析,需要先要將刷卡記錄與GPS行車記錄系統(tǒng)產(chǎn)生的車輛運(yùn)行軌跡進(jìn)行時(shí)間匹配,從而獲取乘客的刷卡空間位置信息。
現(xiàn)階段,GPS行車記錄系統(tǒng)多為每秒產(chǎn)生一次位置記錄,平均每輛車每天將產(chǎn)生超過(guò)8萬(wàn)條位置信息,為IC卡刷卡位置匹配帶來(lái)巨大的計(jì)算開(kāi)銷。現(xiàn)有的解決方案,利用站點(diǎn)位置信息,對(duì)GPS軌跡記錄進(jìn)行過(guò)濾后再與IC卡刷卡記錄進(jìn)行時(shí)間匹配,一定程度上降低了計(jì)算量。但該方法無(wú)可避免的,會(huì)對(duì)大量無(wú)效軌跡(無(wú)乘客刷卡事件)進(jìn)行聚類處理,從而降低了運(yùn)算效率。
另一方面,在城市道路中,存在大量高大建筑物,對(duì)GPS接收機(jī)信號(hào)造成衰減與多徑干擾,導(dǎo)致軌跡記錄中存在大量異常點(diǎn),非常容易導(dǎo)致站點(diǎn)位置判斷出現(xiàn)誤差。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的缺點(diǎn)與不足,提供一種基于協(xié)同過(guò)濾的公交乘客刷卡站點(diǎn)信息提取方法,該方法可充分利用海量刷卡數(shù)據(jù)中隱含的乘客個(gè)體活動(dòng)規(guī)律,提升從GPS軌跡數(shù)據(jù)中提取公交乘客刷卡站點(diǎn)的處理效率,有利于后續(xù)公交線網(wǎng)斷面流量統(tǒng)計(jì)和數(shù)據(jù)挖掘。
為了達(dá)到上述目的,本發(fā)明通過(guò)下述技術(shù)方案予以實(shí)現(xiàn):
一種基于協(xié)同過(guò)濾的公交乘客刷卡站點(diǎn)信息提取方法,在進(jìn)行刷卡站點(diǎn)推斷時(shí),輸入的IC卡刷卡數(shù)據(jù)包含以下信息:a)IC卡卡號(hào);b)刷卡時(shí)刻(格式:hh:mm:ss);c)車牌號(hào);d)線路號(hào)。
此外,本發(fā)明進(jìn)行刷卡站點(diǎn)推斷時(shí),還需要GPS軌跡記錄數(shù)據(jù),包含以下信息:a)車牌號(hào);軌跡點(diǎn)(經(jīng)緯度);軌跡采集時(shí)刻(格式:hh:mm:ss)。
本發(fā)明進(jìn)行刷卡站點(diǎn)推斷時(shí),需要用戶提供準(zhǔn)確詳盡的公交線路及其站點(diǎn)列表。
同時(shí),需要提供各公交站點(diǎn)的地理坐標(biāo)信息。
算法實(shí)施包括以下步驟:
第一步,掃描公交IC卡刷卡記錄,分別提取出每一輛車的刷卡記錄與GPS軌跡記錄,并將每一輛車的刷卡記錄與GPS軌跡記錄按照時(shí)間先后排序。同時(shí)將該車輛運(yùn)營(yíng)線路所對(duì)應(yīng)的線路表讀入內(nèi)存。
第二步,給定一個(gè)時(shí)間差τ,對(duì)每一輛車按時(shí)間排序后的刷卡記錄,從第1條刷卡記錄開(kāi)始遍歷,分別判斷第k條與第k+1條刷卡記錄間的時(shí)間差,若時(shí)間差小于或等于τ,則可認(rèn)為這兩次刷卡行為由同一個(gè)站點(diǎn)上車刷卡的不同乘客產(chǎn)生,將其合并到同一個(gè)簇Ci中,直到第k條與第k+1條刷卡記錄間的時(shí)間差大于τ,則認(rèn)為第k條刷卡記錄為該簇最后一條刷卡記錄。將Ci保存到刷卡簇隊(duì)列C={C1,C2,…,Ci}中。
對(duì)于Ci,本發(fā)明定義的數(shù)據(jù)結(jié)構(gòu)為其中表示開(kāi)始時(shí)刻,表示結(jié)束時(shí)刻,為中心時(shí)刻,ts為第一條刷卡記錄所在行號(hào),te為最后一條刷卡記錄所在行號(hào)。
第三步,從第一個(gè)軌跡點(diǎn)開(kāi)始掃描與第二步所對(duì)應(yīng)車輛的軌跡記錄,若該軌跡點(diǎn)不在Ci的時(shí)間范圍內(nèi)則跳過(guò),并掃描下一條軌跡記錄,直到找到第k條至k+n條軌跡記錄,所對(duì)應(yīng)的采集時(shí)間屬于這些軌跡點(diǎn)構(gòu)成集合,記為Pi。
第四步,對(duì)Pi中所有點(diǎn)進(jìn)行聚類,得到一系列簇,并計(jì)算包含軌跡點(diǎn)最多的簇的中心坐標(biāo)。
第五步,將第四步計(jì)算得到的中心坐標(biāo)與該線路上的??空军c(diǎn)坐標(biāo)進(jìn)行逐個(gè)比較,選擇最接近簇中心坐標(biāo)且距離小于50m的站點(diǎn)作為C1中所對(duì)應(yīng)的刷卡記錄的上車站點(diǎn),在該運(yùn)營(yíng)線路站點(diǎn)列表中標(biāo)記此站點(diǎn),從C中移除C1及其對(duì)應(yīng)時(shí)間范圍內(nèi)的軌跡點(diǎn)。
第七步,重復(fù)運(yùn)行(3)至(6),直到C為空,或者所有軌跡記錄都被移除。
第八步,若所有軌跡記錄均被移除,而C不為空,則查找運(yùn)營(yíng)線路站點(diǎn)列表中未被標(biāo)記的站點(diǎn)。如果未被標(biāo)記的站點(diǎn)數(shù)等于C中剩余簇的數(shù)量,則按先后順序?qū)⑽礃?biāo)記的站點(diǎn)與剩余的簇匹配。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)與有益效果:
1、利用IC卡刷卡記錄中蘊(yùn)含的乘客活動(dòng)信息,過(guò)濾掉GPS軌跡記錄中的無(wú)效軌跡點(diǎn),顯著提升算法效率。
2、采用局部聚類的方法處理GPS軌跡記錄,提高了運(yùn)算效率的同時(shí),有效避免了異常點(diǎn)(由GPS信號(hào)多徑干擾或者系統(tǒng)錯(cuò)誤引起)帶來(lái)的影響。
3、與傳統(tǒng)方法相比,本發(fā)明所采用方案不需要對(duì)GPS記錄進(jìn)行專門索引。降低了存儲(chǔ)空間需求。
4、一定程度上解決了傳統(tǒng)方法因GPS軌跡數(shù)據(jù)缺失或錯(cuò)誤引起的無(wú)法提取刷卡站點(diǎn)的弊端。
5、本方法擬借助IC卡中蘊(yùn)含的乘客活動(dòng)信息,對(duì)GPS軌跡記錄進(jìn)行有針對(duì)性的處理,提高數(shù)據(jù)處理效率。
附圖說(shuō)明
圖1為本發(fā)明所述一種基于協(xié)同過(guò)濾的公交乘客刷卡站點(diǎn)信息提取方法的工作原理圖。
圖2為本發(fā)明所述一種基于協(xié)同過(guò)濾的公交乘客刷卡站點(diǎn)信息提取方法的工作流程圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
實(shí)施例一
如圖1、2,一種基于協(xié)同過(guò)濾的公交乘客刷卡站點(diǎn)信息提取方法,包括以下步驟:
步驟一
掃描公交IC卡刷卡記錄,分別提取出每一輛車的刷卡記錄與GPS軌跡記錄,并將每一輛車的刷卡記錄與GPS軌跡記錄按照時(shí)間先后排序。同時(shí)將該車輛運(yùn)營(yíng)線路所對(duì)應(yīng)的線路表讀入內(nèi)存。
步驟二
給定一個(gè)時(shí)間差τ,對(duì)每一輛車按時(shí)間排序后的刷卡記錄,從第1條刷卡記錄開(kāi)始遍歷,分別判斷第k條與第k+1條刷卡記錄間的時(shí)間差,若時(shí)間差小于或等于τ,則可認(rèn)為這兩次刷卡行為由同一個(gè)站點(diǎn)上車刷卡的不同乘客產(chǎn)生,將其合并到同一個(gè)簇Ci中,直到第k條與第k+1條刷卡記錄間的時(shí)間差大于τ,則認(rèn)為第k條刷卡記錄為該簇最后一條刷卡記錄。將Ci保存到刷卡簇隊(duì)列C={C1,C2,…,Ci}中。
對(duì)于Ci,本發(fā)明定義的數(shù)據(jù)結(jié)構(gòu)為其中表示開(kāi)始時(shí)刻,表示結(jié)束時(shí)刻,為中心時(shí)刻,ts為第一條刷卡記錄所在行號(hào),te為最后一條刷卡記錄所在行號(hào)。
步驟三
從第一個(gè)軌跡點(diǎn)開(kāi)始掃描與第二步所對(duì)應(yīng)車輛的軌跡記錄,若該軌跡點(diǎn)不在Ci的時(shí)間范圍內(nèi)則跳過(guò),并掃描下一條軌跡記錄,直到找到第k條至k+n條軌跡記錄,所對(duì)應(yīng)的采集時(shí)間屬于這些軌跡點(diǎn)構(gòu)成集合,記為Pi。
步驟四
對(duì)Pi中所有點(diǎn)采用X-Means算法進(jìn)行聚類,得到一系列簇,并計(jì)算包含軌跡點(diǎn)最多的簇的中心坐標(biāo)。
步驟五
將第四步計(jì)算得到的中心坐標(biāo)與該線路上的??空军c(diǎn)坐標(biāo)進(jìn)行逐個(gè)比較,選擇最接近簇中心坐標(biāo)且距離小于50m的站點(diǎn)作為C1中所對(duì)應(yīng)的刷卡記錄的上車站點(diǎn),在該運(yùn)營(yíng)線路站點(diǎn)列表中標(biāo)記此站點(diǎn),從C中移除C1及其對(duì)應(yīng)時(shí)間范圍內(nèi)的軌跡點(diǎn)。
步驟六
從第k+n+1條記錄開(kāi)始,繼續(xù)掃描GPS軌跡記錄。
步驟七
重復(fù)運(yùn)行(3)至(6),直到C為空,或者所有軌跡記錄都被移除。
步驟八
若所有軌跡記錄均被移除,而C不為空,則查找運(yùn)營(yíng)線路站點(diǎn)列表中未被標(biāo)記的站點(diǎn)。如果未被標(biāo)記的站點(diǎn)數(shù)等于C中剩余簇的數(shù)量,則按先后順序?qū)⑽礃?biāo)記的站點(diǎn)與剩余的簇匹配。
實(shí)施例二
如圖1、2,一種基于協(xié)同過(guò)濾的公交乘客刷卡站點(diǎn)信息提取方法,其特征在于,包括以下步驟:
(1)掃描公交IC卡刷卡記錄,分別提取出每一輛車的刷卡記錄與GPS軌跡記錄,并將每一輛車的刷卡記錄與GPS軌跡記錄按照時(shí)間先后排序;同時(shí)將該車輛運(yùn)營(yíng)線路所對(duì)應(yīng)的線路表讀入內(nèi)存;
所述公交IC卡刷卡記錄包含以下信息:IC卡卡號(hào)、刷卡時(shí)刻(格式:hh:mm:ss)、車牌號(hào)、線路號(hào);
本發(fā)明進(jìn)行刷卡站點(diǎn)推斷時(shí),還需要GPS軌跡記錄數(shù)據(jù),所述GPS軌跡記錄包含以下信息:車牌號(hào)、軌跡點(diǎn)(經(jīng)緯度)、軌跡采集時(shí)刻(格式:hh:mm:ss)。本發(fā)明進(jìn)行刷卡站點(diǎn)推斷時(shí),需要用戶提供準(zhǔn)確詳盡的公交線路及其站點(diǎn)列表、站點(diǎn)經(jīng)緯度信息。
對(duì)每一輛車,均只掃描一次IC卡刷卡記錄與GPS軌跡記錄。與傳統(tǒng)方法相比,不需要對(duì)GPS軌跡記錄進(jìn)行空間數(shù)據(jù)索引,極大提升了算法運(yùn)算效率與數(shù)據(jù)的存儲(chǔ)效率。
(2)給定一個(gè)時(shí)間差τ,對(duì)每一輛車按時(shí)間排序后的刷卡記錄,從第1條刷卡記錄開(kāi)始遍歷,分別判斷第k條與第k+1條刷卡記錄間的時(shí)間差,若時(shí)間差小于或等于τ,則認(rèn)為這兩次刷卡行為由同一個(gè)站點(diǎn)上車刷卡的不同乘客產(chǎn)生,將其合并到同一個(gè)簇中,直到第k條與第k+1條刷卡記錄間的時(shí)間差大于τ,則認(rèn)為第k條刷卡記錄為該簇最后一條刷卡記錄;
定義Ci的數(shù)據(jù)結(jié)構(gòu)為其中表示開(kāi)始時(shí)刻,表示結(jié)束時(shí)刻,為中心時(shí)刻,ts為第一條刷卡記錄所在行號(hào),te為最后一條刷卡記錄所在行號(hào);將Ci保存到刷卡簇隊(duì)列C={C1,C2,…,Ci}中;其中Ci為第i個(gè)站點(diǎn)刷卡乘客的信息壓縮表示;
提取的IC卡刷卡記錄中蘊(yùn)含的乘客活動(dòng)信息,過(guò)濾掉GPS軌跡記錄中的無(wú)效軌跡點(diǎn)。
采用局部聚類的方法處理GPS軌跡記錄。提高了運(yùn)算速度同時(shí),有效避免了異常點(diǎn)(由GPS信號(hào)多徑干擾或者系統(tǒng)錯(cuò)誤引起)帶來(lái)的影響。
(3)從第一個(gè)軌跡點(diǎn)開(kāi)始掃描與步驟(2)所對(duì)應(yīng)車輛的軌跡記錄,若該軌跡點(diǎn)不在Ci的時(shí)間范圍內(nèi),則跳過(guò),并掃描下一條軌跡記錄,直到找到第k條至k+n條軌跡記錄,所對(duì)應(yīng)的采集時(shí)間屬于這些軌跡點(diǎn)構(gòu)成集合,記為Pi;
(4)對(duì)Pi中所有點(diǎn)進(jìn)行聚類,得到一系列簇,并計(jì)算包含軌跡點(diǎn)最多的簇的中心坐標(biāo);
(5)將步驟(4)計(jì)算得到的中心坐標(biāo)與該線路上的??空军c(diǎn)坐標(biāo)進(jìn)行逐個(gè)比較,選擇最接近簇中心坐標(biāo)且距離小于設(shè)定值M的站點(diǎn)作為C1中所對(duì)應(yīng)的刷卡記錄的上車站點(diǎn),在該運(yùn)營(yíng)線路站點(diǎn)列表中標(biāo)記此站點(diǎn),從C中移除C1及其對(duì)應(yīng)時(shí)間范圍內(nèi)的軌跡點(diǎn);所述設(shè)定值M優(yōu)選為50米。
(6)重復(fù)運(yùn)行步驟(3)至(5),直到C為空,或者所有軌跡記錄都被移除;
(7)若所有軌跡記錄均被移除,而C不為空,則查找運(yùn)營(yíng)線路站點(diǎn)列表中未被標(biāo)記的站點(diǎn);如果未被標(biāo)記的站點(diǎn)數(shù)等于C中剩余簇的數(shù)量,則按先后順序?qū)⑽礃?biāo)記的站點(diǎn)與剩余的簇匹配。
采用了關(guān)聯(lián)推斷的方法,推斷無(wú)法匹配的刷卡簇對(duì)應(yīng)的刷卡站點(diǎn)。這一定程度上解決了傳統(tǒng)方法因GPS軌跡數(shù)據(jù)缺失或錯(cuò)誤引起的無(wú)法提取刷卡站點(diǎn)的弊端。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。