本發(fā)明屬于智能交通領(lǐng)域,尤其涉及一種基于概率分布的假牌車二次篩選方法。
背景技術(shù):
:近年來,隨著我國(guó)國(guó)民經(jīng)濟(jì)的不斷發(fā)展,機(jī)動(dòng)車保有量不斷增長(zhǎng),各種交通違法違章現(xiàn)象也日漸增多,其中“假牌”、“套牌”是具有嚴(yán)重危害的違法行為。車輛“假牌”現(xiàn)象,指的是車輛偽造、變?cè)鞕C(jī)動(dòng)車號(hào)牌,非法使用在機(jī)動(dòng)車輛管理所車輛登記信息中不存在的車牌號(hào)的現(xiàn)象?!凹倥啤睍?huì)造成嚴(yán)重的危害。使用假車牌的車輛往往肆意超速、不按交通信號(hào)燈行駛,嚴(yán)重?cái)_亂交通秩序。一旦發(fā)生交通事故,這些司機(jī)在僥幸心理的驅(qū)使下,往往會(huì)選擇逃逸,使辦案民警難以確定肇事車輛。同時(shí),“假牌”車也往往是犯罪分子的作案工具,增加破案難度。查處“假牌”車輛,已成為各地公安部門和交通管理部門的重要任務(wù)。目前,“假牌”車發(fā)掘主要是通過卡口采集的信息與數(shù)據(jù)庫對(duì)比,數(shù)據(jù)庫中不存在的定義為“假牌”車,由于卡口號(hào)牌識(shí)別精度有限,初步篩選的假牌車往往多達(dá)幾十萬輛,需要進(jìn)行二次篩選。從已有文獻(xiàn)和公開的專利提出的假牌車篩選識(shí)別方法來看,目前涉及假牌篩選識(shí)別的方法主要方法可分為兩類:(1)基于輔助設(shè)備。如專利申請(qǐng)?zhí)朿n201210187968.0采用預(yù)留安全監(jiān)測(cè)密碼的方式。在交警內(nèi)部管理系統(tǒng)平臺(tái)預(yù)留車輛安全檢測(cè)碼,執(zhí)法交警現(xiàn)場(chǎng)通過手持終端,將車輛信息和安全監(jiān)測(cè)密碼與預(yù)留信息對(duì)比,判斷是否為假牌車;專利申請(qǐng)?zhí)朿n201320577360.9采用一種基于rfid技術(shù)的虛假車牌識(shí)別裝置,通過將射頻芯片及微電子芯片組成的電子標(biāo)簽安裝在車身,利用射頻識(shí)別技術(shù)來判斷車輛是否假牌套牌。(2)基于車輛信息對(duì)比的檢測(cè)識(shí)別方法,如專利申請(qǐng)?zhí)?01510744990.4采用圖片相似度識(shí)別。首先提取圖片中車輛區(qū)域的sift特征,利用聚類算法離散化后,轉(zhuǎn)換成鄰域特征,作為基礎(chǔ)的車輛描述特征,然后利用隨機(jī)森林方法進(jìn)行相似度學(xué)習(xí),得到相似度預(yù)測(cè)模型,用來判斷圖片中兩個(gè)車輛是否屬于相似車輛。上述方法在實(shí)際應(yīng)用時(shí)存在一些弊端:第一種基于輔助設(shè)備的檢測(cè)識(shí)別方法,需要給機(jī)動(dòng)車安裝額外設(shè)備,現(xiàn)實(shí)中難以推廣;第二種基于車輛外觀信息比對(duì)的方法,受光照、環(huán)境影響較大,準(zhǔn)確率不高。為了解決上述方法的弊端,實(shí)現(xiàn)快速有效地分析大規(guī)模交通數(shù)據(jù),從大量初篩的疑似“假牌”車輛中,精確鎖定真正的“假牌”車,需要一種新的技術(shù)方案來滿足交管部門的需求。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提出了一種可以有效的把識(shí)別錯(cuò)誤和真正的“假牌”車區(qū)分開來,大大縮小了“假牌”車的排查范圍,無需額外設(shè)備,部署方便,適用性廣,識(shí)別準(zhǔn)確率較高,極大地提高后續(xù)核查和布控效率的基于概率分布的假牌車二次篩選方法。本發(fā)明采用的技術(shù)方案是:一種基于概率分布的假牌車二次篩選方法,包括以下步驟:s1.獲取卡口過車記錄數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗得到卡口過車記錄數(shù)據(jù);s2.對(duì)原始卡口過車記錄數(shù)據(jù)排序,提取車輛行駛卡口對(duì)向量(ki,kj),ki和kj表示卡口編號(hào),與hphm一起放入集合k中,hphm表示車輛號(hào)牌;s3.計(jì)算卡口間車輛流向的空間概率pij,并將所有概率(ki,kj,pij)保存在集合p中;s4.基于s1中卡口過車記錄數(shù)據(jù)獲取車牌集合h,并與車駕管數(shù)據(jù)庫比對(duì)初步篩選假車牌,得到初步篩選假車牌集合f1;s5.基于s3中車輛流向的空間概率分布計(jì)算集合f1中每一輛車正常跳轉(zhuǎn)次數(shù)jnor和異常跳轉(zhuǎn)次數(shù)jp,并將符合空間概率分布的車牌放入集合h1中,不符合空間概率分布的車牌放入集合h2中;s6.基于集合h1和集合h2中字符占比計(jì)算車牌字符識(shí)別錯(cuò)誤概率lx;s7.基于集合f1中每一輛車正常跳轉(zhuǎn)次數(shù)jnor和異常跳轉(zhuǎn)次數(shù)jp以及車牌字符識(shí)別錯(cuò)誤概率lx對(duì)車牌二次篩選,綜合判定車牌假牌概率。本發(fā)明利用車輛行駛的空間特性,提出了概率分布的概念,通過計(jì)算車輛每一次跳轉(zhuǎn)的概率,判斷車輛在空間上的連續(xù)性。如果車輛軌跡在空間上的連續(xù)性較高,說明該軌跡有較大的可能性是一輛車;如果車輛軌跡在空間上的連續(xù)性較低,說明該軌跡有較大的可能性是多輛車的,也就是說該號(hào)牌的識(shí)別正確率較低,通過計(jì)算排除不符合空間概率分布的車牌。同時(shí),由于卡口設(shè)備對(duì)不同的字符識(shí)別精度不一樣,將空間上比較符合分布概率的車牌和不符合概率分布的車牌,分成兩個(gè)集合,分別統(tǒng)計(jì)兩個(gè)集合中字符占比,如果字符占比出現(xiàn)明顯誤差,說明該字符識(shí)別正確率可能較低,可以通過字符識(shí)別概率,再次排除部分識(shí)別錯(cuò)誤率較高的車牌。進(jìn)一步,步驟s1的卡口過車記錄數(shù)據(jù)獲取方法如下:獲取一個(gè)周期內(nèi)原始卡口過車記錄數(shù)據(jù),并根據(jù)設(shè)定的數(shù)據(jù)清洗規(guī)則,刪除不符合規(guī)則的數(shù)據(jù),并保留需要的維度,包括卡口編號(hào)、號(hào)牌號(hào)碼、過車時(shí)間。進(jìn)一步,步驟s2得到集合k的步驟如下:(1)根據(jù)號(hào)牌號(hào)碼進(jìn)行分組,每一組內(nèi)按照過車時(shí)間排序,然后每一組進(jìn)行以下操作:步驟一、取出第一條記錄,記作記錄1;步驟二、取出下一條記錄,記作記錄2;步驟三、計(jì)算記錄1和記錄2的時(shí)間差δt;如果時(shí)間差δt小于閾值t,轉(zhuǎn)到步驟四;如果時(shí)間差δt大于閾值t,將記錄2賦值給記錄1,轉(zhuǎn)到步驟二;步驟四、將號(hào)牌和兩條記錄的卡口編號(hào)組成卡口向量對(duì)(hphm,ki,kj),放入集合k中;將記錄2賦值給記錄1,轉(zhuǎn)到步驟二;(2)遍歷所有的組,得到集合k。進(jìn)一步,步驟s3中計(jì)算車輛流向的空間概率pij的步驟包括:統(tǒng)計(jì)集合k中每一個(gè)向量(ki,kj)的數(shù)量,記為cout(ki,kj),那么卡口ki流出車輛總和為車輛從卡口ki到卡口kj的流向概率進(jìn)一步,步驟s4中的車牌集合h為s1中卡口過車記錄數(shù)據(jù)中不重復(fù)的車牌。進(jìn)一步,步驟s4中初步篩選是將不存在車駕管數(shù)據(jù)庫中的車牌集合形成初步篩選假車牌集合f1。進(jìn)一步,步驟s5中計(jì)算集合f1中每一輛車正常跳轉(zhuǎn)次數(shù)jnor和異常跳轉(zhuǎn)次數(shù)jp步驟包括:(i)根據(jù)集合f1中的車牌,獲取每一個(gè)車牌在集合k中對(duì)應(yīng)的所有記錄;(ii)如果該車牌在集合k中沒有對(duì)應(yīng)的記錄,將該號(hào)牌正常跳轉(zhuǎn)的次數(shù)jnor以及異常跳轉(zhuǎn)次數(shù)jp均記為0;(iii)如果該車牌在集合k中有對(duì)應(yīng)的記錄,那么根據(jù)每一條記錄的(ki,kj)獲取集合p中對(duì)應(yīng)的流向概率pij,如果pij大于等于閾值pi,那么認(rèn)為車輛這一次跳轉(zhuǎn)是正常的,如果pij小于閾值pi,那么認(rèn)為車輛這一次跳轉(zhuǎn)是異常的;(iv)統(tǒng)計(jì)每一個(gè)車牌正常跳轉(zhuǎn)的次數(shù)jnor,即pij>=pi的次數(shù)以及異常跳轉(zhuǎn)的次數(shù)jp,即pij<pi的次數(shù)。進(jìn)一步,步驟s6中計(jì)算車牌字符識(shí)別錯(cuò)誤概率lx的步驟包括:分別統(tǒng)計(jì)集合h1和集合h2中每一個(gè)字符的占比記為lx1和lx2,其中x代表可能字符,計(jì)算h2集合中每一個(gè)字符相較于h1中占比的誤差lx=abs((lx2-lx1)/lx1)。進(jìn)一步,步驟s7中車牌二次篩選公式如下:fb的數(shù)值越大,代表假牌的可能性越高,否則識(shí)別錯(cuò)誤的可能性越高;ε按照經(jīng)驗(yàn)值,一般取周期天數(shù)。本發(fā)明是為了克服在實(shí)際情況中,由于光線、角度、號(hào)牌污損等因素,卡口對(duì)于號(hào)牌的識(shí)別率無法達(dá)到100%(一般在96%-98%左右)的限制,實(shí)際情況中,卡口很有可能把一些字符識(shí)別成其他字符,把正常的車牌識(shí)別成不在車駕管數(shù)據(jù)庫中的車牌,導(dǎo)致初篩的假牌車名單過多,人工核查工作量大。本發(fā)明的構(gòu)思為:車輛經(jīng)過的下一個(gè)卡口,應(yīng)該符合空間上指數(shù)概率分布,如果某個(gè)牌號(hào)比較不符合空間概率分布,很有可能是同時(shí)將兩個(gè)不同的車牌識(shí)別成了同一個(gè)車牌,也就是識(shí)別錯(cuò)誤。同時(shí),車牌由不同的字符組成,每一種字符識(shí)別概率不一樣,對(duì)于由識(shí)別概率較高的字符組成的車牌優(yōu)先排查,可以盡量減少識(shí)別錯(cuò)誤的影響,從而可以極大的縮小人工排查范圍,并提高假牌命中率。本發(fā)明的有益效果主要表現(xiàn)在:能夠較好的克服由于卡口識(shí)別錯(cuò)誤引起的假牌車初篩名單過多,極大的縮小排查范圍,提高假牌命中率、實(shí)用性良好;無需依賴路網(wǎng)結(jié)構(gòu),適用性較強(qiáng)。附圖說明圖1為本發(fā)明的流程圖。圖2為本發(fā)明的車輛流向的空間概率分布圖。具體實(shí)施方式下面結(jié)合具體實(shí)施例來對(duì)本發(fā)明進(jìn)行進(jìn)一步說明,但并不將本發(fā)明局限于這些具體實(shí)施方式。本領(lǐng)域技術(shù)人員應(yīng)該認(rèn)識(shí)到,本發(fā)明涵蓋了權(quán)利要求書范圍內(nèi)所可能包括的所有備選方案、改進(jìn)方案和等效方案。參照?qǐng)D1,一種基于概率分布的假牌車二次篩選方法,包括以下步驟:s1.獲取卡口過車記錄數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗得到卡口過車記錄數(shù)據(jù);卡口指的是,采用先進(jìn)的光電、計(jì)算機(jī)、圖像處理、模式識(shí)別、遠(yuǎn)程數(shù)據(jù)訪問等技術(shù),對(duì)監(jiān)控路段的機(jī)動(dòng)車道、非機(jī)動(dòng)車道進(jìn)行全天候?qū)崟r(shí)監(jiān)控并記錄相關(guān)圖像數(shù)據(jù),并自動(dòng)獲取車輛的通過時(shí)間、地點(diǎn)、行駛方向、號(hào)牌號(hào)碼、號(hào)牌顏色、車身顏色等數(shù)據(jù)。車輛的過車記錄會(huì)以格式化數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中。獲取一個(gè)周期內(nèi)卡口過車記錄數(shù)據(jù)。為了減小樣本過小帶來的偶然性,周期可以選得長(zhǎng)一點(diǎn),一般為1-6個(gè)月,優(yōu)先選擇為3個(gè)月。原始卡口數(shù)據(jù)存在一些臟數(shù)據(jù),包括沒有車牌信息,車牌無法識(shí)別,部分字符無法識(shí)別等等,清洗掉這些臟數(shù)據(jù),并保留需要的維度,包括卡口編號(hào)、號(hào)牌號(hào)碼、過車時(shí)間。s2.對(duì)卡口過車記錄數(shù)據(jù)排序,提取車輛行駛卡口對(duì)向量(ki,kj),ki和kj表示卡口編號(hào),與hphm一起放入集合k中,hphm表示車輛號(hào)牌;車輛在正常行駛過程中會(huì)不斷的被卡口捕獲,理論上車輛會(huì)有較高的概率被比較鄰近的卡口捕獲,被越遠(yuǎn)的卡口捕獲的概率越低。如果一個(gè)車輛經(jīng)常被概率較低的卡口捕獲,說明該車輛不太符合空間概率分布??紤]到卡口的識(shí)別精度無法達(dá)到100%,有可能導(dǎo)致在路上行駛的不同車輛,被識(shí)別成同一個(gè)號(hào)牌,從而導(dǎo)致車輛不符合空間概率分布,反過來講,符合空間概率分布的車牌,識(shí)別正確的可能性較高。在現(xiàn)實(shí)中,由于卡口故障,網(wǎng)絡(luò)故障,卡口的捕獲率無法達(dá)到100%等因素,車輛在經(jīng)過部分卡口的時(shí)候,有可能不會(huì)被記錄下來。一般認(rèn)為車輛從1個(gè)卡口出發(fā),一定的時(shí)間內(nèi)沒有被任何卡口捕獲,有可能是發(fā)生了數(shù)據(jù)缺失(也有可能是車輛靜止),數(shù)據(jù)缺失有可能導(dǎo)致下一個(gè)捕獲車輛的卡口不太符合空間概率分布。這個(gè)時(shí)間稱為閾值t,如果車輛兩個(gè)卡口之間的間隔時(shí)間超過了閾值t,這組卡口對(duì)不參與計(jì)算。提取車輛行駛卡口對(duì)向量的過程如下:(1)將s1清洗后的數(shù)據(jù),根據(jù)號(hào)牌號(hào)碼進(jìn)行分組,每一組內(nèi)按照過車時(shí)間排序,然后每一組進(jìn)行以下操作:步驟一、取出第一條記錄,記作記錄1;步驟二、取出下一條記錄,記作記錄2;步驟三、計(jì)算記錄1和記錄2的時(shí)間差δt;如果時(shí)間差δt小于閾值t,轉(zhuǎn)到步驟四;如果時(shí)間差δt大于閾值t,將記錄2賦值給記錄1,轉(zhuǎn)到步驟二;步驟四、將號(hào)牌和兩條記錄的卡口編號(hào)組成卡口向量對(duì)(hphm,ki,kj),放入集合k中;將記錄2賦值給記錄1,轉(zhuǎn)到步驟二;(2)遍歷所有的組,得到集合k。s3.計(jì)算卡口間車輛流向的空間概率pij,并將所有概率(ki,kj,pij)保存在集合p中;根據(jù)集合k計(jì)算車輛從一個(gè)卡口出發(fā),到達(dá)其他每一個(gè)卡口的概率,將這個(gè)概率稱為卡口間流向概率。流向概率反映了車輛下一個(gè)卡口在空間上概率分布??诹飨蚋怕?ki,kj)=(從卡口ki出發(fā)到達(dá)卡口kj的車輛數(shù))/從卡口ki出發(fā)的車輛總數(shù)。統(tǒng)計(jì)集合k中每一個(gè)向量(ki,kj)的數(shù)量,記為cout(ki,kj),那么卡口ki流出車輛總和,為卡口ki到卡口kj的流向概率計(jì)算所有卡口對(duì)之間的流向概率,如果兩個(gè)卡口之間的通行記錄數(shù)為零,那么通行概率記為0%。s4.基于s1中卡口過車記錄數(shù)據(jù)獲取車牌集合h,并與車駕管數(shù)據(jù)庫比對(duì)初步篩選假車牌,得到初步篩選假車牌集合f1;具體的,根據(jù)s1中過車記錄數(shù)據(jù),獲取不重復(fù)的車牌,得到該周期內(nèi)所有車牌的集合h。將集合h中的車牌同車駕管數(shù)據(jù)庫中的進(jìn)行比對(duì),如果車牌不在數(shù)據(jù)庫中,放入集合f1中,f1是初步篩選的假牌集合。s5.基于s3中車輛流向的空間概率分布計(jì)算集合f1中每一輛車正常跳轉(zhuǎn)次數(shù)jnor和異常跳轉(zhuǎn)次數(shù)jp,并將符合空間概率分布的車牌放入集合h1中,不符合空間概率分布的車牌放入集合h2中;具體步驟包括:(i)根據(jù)集合f1中的車牌,獲取每一個(gè)車牌在集合k中對(duì)應(yīng)的所有記錄;(ii)如果該車牌在集合k中沒有對(duì)應(yīng)的記錄,將該號(hào)牌正常跳轉(zhuǎn)的次數(shù)jnor以及異常跳轉(zhuǎn)次數(shù)jp均記為0;(iii)如果該車牌在集合k中有對(duì)應(yīng)的記錄,那么根據(jù)每一條記錄的(ki,kj)獲取集合p中對(duì)應(yīng)的流向概率pij,如果pij大于等于閾值pi,那么認(rèn)為車輛這一次跳轉(zhuǎn)是正常的,如果pij小于閾值pi,那么認(rèn)為車輛這一次跳轉(zhuǎn)是異常的;閾值pi取值為0.2%。(iv)統(tǒng)計(jì)每一個(gè)車牌正常跳轉(zhuǎn)的次數(shù)jnor,即pij>=pi的次數(shù)以及異常跳轉(zhuǎn)的次數(shù)jp,即pij<pi的次數(shù)。如果車輛跳轉(zhuǎn)不符合空間概率分布,說明該車牌有較大可能性為識(shí)別錯(cuò)誤,反過來,符合概率分布的,說明該車牌識(shí)別正確性較高。s6.基于集合h1和集合h2中字符占比計(jì)算車牌字符識(shí)別錯(cuò)誤概率lx;當(dāng)樣本足夠大,車牌各個(gè)字符出現(xiàn)的頻率應(yīng)該趨于一個(gè)穩(wěn)定值,如果某個(gè)字符出現(xiàn)的頻率比較高,說明其他字符誤識(shí)別成該字符的可能性較高,反過來,如果某個(gè)字符出現(xiàn)的平率比較低,說明該字符有較大的可能性識(shí)別成其他字符。將集合f1中的元素,按照跳轉(zhuǎn)概率分成兩個(gè)集合h1和h2,其中集合h1為跳轉(zhuǎn)概率大于等于0.2%的元素,集合h1為跳轉(zhuǎn)概小于0.2%的元素。由于集合h1中的車牌,比較符合空間概率分布,因此,集合h1中的字符識(shí)別正確率較高,反之,h2中字符識(shí)別概率較低。分別統(tǒng)計(jì)集合h1和集合h2中每一個(gè)字符的占比記為lx1和lx2,其中x代表可能字符,計(jì)算h2集合中每一個(gè)字符相較于h1中占比的誤差lx=abs((lx2-lx1)/lx1)。lx可以近似的用來估算每一種字符識(shí)別錯(cuò)誤的概率。s7.基于集合f1中每一輛車正常跳轉(zhuǎn)次數(shù)jnor和異常跳轉(zhuǎn)次數(shù)jp以及車牌字符識(shí)別錯(cuò)誤概率lx對(duì)車牌二次篩選,綜合判定車牌假牌概率。根據(jù)車輛流向是否符合空間概率分布,可以在一定程度上判斷兩個(gè)不同的車牌有沒有識(shí)別成同一個(gè)車牌,通過去掉不符合空間概率分布的車牌,可去掉這部分識(shí)別錯(cuò)誤的車牌。在剩下的車牌中,不同的車牌由不同的字符組成,每一種字符識(shí)別成功的概率不同,對(duì)于由識(shí)別概率較高的字符組成的車牌,如果不在車駕管數(shù)據(jù)中,假牌的可能性非常高,可以優(yōu)先進(jìn)行排查。最后可以根據(jù)公式fb的數(shù)值越大,代表假牌的可能性越高,否則識(shí)別錯(cuò)誤的可能性越高。ε按照經(jīng)驗(yàn)值,一般取周期天數(shù)。本發(fā)明利用車輛行駛的空間特性,提出了概率分布的概念,通過計(jì)算車輛每一次跳轉(zhuǎn)的概率,判斷車輛在空間上的連續(xù)性。如果車輛軌跡在空間上的連續(xù)性較高,說明該軌跡有較大的可能性是一輛車;如果車輛軌跡在空間上的連續(xù)性較低,說明該軌跡有較大的可能性是多輛車的,也就是說該號(hào)牌的識(shí)別正確率較低,通過計(jì)算排除不符合空間概率分布的車牌。同時(shí),由于卡口設(shè)備對(duì)不同的字符識(shí)別精度不一樣,將空間上比較符合分布概率的車牌和不符合概率分布的車牌,分成兩個(gè)集合,分別統(tǒng)計(jì)兩個(gè)集合中字符占比,如果字符占比出現(xiàn)明顯誤差,說明該字符識(shí)別正確率可能較低,可以通過字符識(shí)別概率,再次排除部分識(shí)別錯(cuò)誤率較高的車牌。一種具體應(yīng)用實(shí)施例如下:s1.卡口過車數(shù)據(jù)的提?。韩@取一個(gè)周期內(nèi)卡口過車記錄數(shù)據(jù),保留需要的維度,包括卡口編號(hào)、號(hào)牌號(hào)碼過車時(shí)間。本實(shí)施例抽取了杭州市2016年1月1日-1月30日,累計(jì)30日數(shù)據(jù),一共包含489個(gè)卡口,總共129534497條記錄,卡口數(shù)據(jù)格式如下表1:表1字段數(shù)據(jù)類型含義kkidvarchar(20)卡口idhphmvarchar(10)號(hào)牌號(hào)碼hplxvarchar(2)號(hào)牌種類jgsjvarchar(20)過車時(shí)間其中一個(gè)kkid對(duì)應(yīng)一個(gè)道路斷面,hphm+hpzl唯一確定一輛汽車。jgsj精確到秒,(以下步驟中,號(hào)牌號(hào)碼包含了號(hào)牌種類,不再贅述)卡口數(shù)據(jù)的清洗:由于號(hào)牌號(hào)碼是卡口系統(tǒng)根據(jù)圖片識(shí)別,號(hào)牌識(shí)別率無法達(dá)到100%,原始卡口數(shù)據(jù)存在一些臟數(shù)據(jù),包括車牌為空,無法識(shí)別,部分字符無法識(shí)別等等。清洗該部分?jǐn)?shù)據(jù),部分案例如下表2所示:表2序號(hào)號(hào)牌號(hào)碼過車時(shí)間1???????2016-01-1514:52:512null2016-01-2019:32:303寧b?711t2016-01-2511:31:344浙a00?nt2016-01-2520:54:045浙a025x?2016-01-2114:18:136無法識(shí)別2016-01-1022:49:28s2.過車記錄排序,并提取卡口向量過車記錄排序:按照號(hào)牌號(hào)碼,過車時(shí)間,對(duì)數(shù)據(jù)進(jìn)行排序。部分?jǐn)?shù)據(jù)如下表3所示(省略號(hào)部分為未顯示部分)。表3序號(hào)號(hào)牌號(hào)碼卡口id過車時(shí)間1浙a2m1**310003000074022016-01-0407:51:092浙a2m1**310003000107022016-01-0408:48:263浙a2m1**310003000109042016-01-0408:50:134浙a2m1**310003000045042016-01-0408:50:385浙a2m1**310003000045022016-01-0408:50:586浙a2m1**310003000199022016-01-0408:53:367浙a2m1**310003000054022016-01-0408:59:18·····················對(duì)排好序的記錄,取出符合要求的卡口對(duì)向量。在本實(shí)施例中,閾值t設(shè)置為15分鐘。以表3為例,取出卡口對(duì)的過程如下:1、取出記錄1,記錄2;2、計(jì)算記錄1與記錄2時(shí)間差,為57mins17s>15mins,舍棄記錄1;3、取出記錄3,計(jì)算記錄2和記錄3的時(shí)間差為1mins47s<15mins,將(浙a2m1**,31000300010702,31000300010904)放入集合k中。4、取下一條記錄,重復(fù)以上操作。以上7條過車記錄,可以取出5個(gè)卡口對(duì)。s3.計(jì)算卡口間流向概率統(tǒng)計(jì)集合k中所有的(ki,kj),可以得到從卡口ki流出,流向卡口kj的車輛數(shù)。統(tǒng)計(jì)count(ki,kj),可以得到從ki流出的車輛總數(shù),得到如下表4所示(省略號(hào)部分為未顯示部分)。表4卡口ki卡口kjcount(ki,kj)count(ki)概率31000300000102310003000018043543315635122.7%31000300000102310003000126193538415635122.6%31000300000102310003000018022653015635117.0%31000300000102310003000270011811715635111.6%3100030000010231000300009719101391563516.5%310003000001023100030000050252981563513.4%310003000001023100030000090442361563512.7%310003000001023100030000050338851563512.5%310003000001023100030000250421501563511.4%310003000001023100030000050411901563510.8%310003000001023100030000090211801563510.8%31000300000102310003000258199621563510.6%31000300000102310003000050028201563510.5%31000300000102310003000121208101563510.5%······················································卡口流向概率在另一種維度上體現(xiàn)了卡口分布和路網(wǎng)結(jié)構(gòu)。計(jì)算卡口31000300004304到其他卡口的流向概率,并且將概率倒敘排列,繪制折線圖,概率呈明顯的指數(shù)分布。對(duì)卡口31000300003801和卡口31000300006604同樣計(jì)算流向概率并繪制曲線圖,概率也成明顯的指數(shù)分布。三個(gè)卡口流向概率的分布曲線圖,如圖2所示。其中y軸表示概率,x軸表示其他卡口(按照概率倒序)。s4.卡口記錄與車駕管數(shù)據(jù)庫對(duì)比,初步確定假牌車范圍:本實(shí)施例中,車駕管數(shù)據(jù)僅僅包含“浙a”開頭的相關(guān)數(shù)據(jù),非浙a號(hào)牌無法判斷是否為假牌,因此假牌范圍圈定為“浙a”的號(hào)牌。利用mapreduce獲取s1中過車記錄不重復(fù)的車牌,只保留以“浙a”開頭的號(hào)牌,將這些號(hào)牌同車駕管數(shù)據(jù)進(jìn)行對(duì)比,如果不包含在車駕管數(shù)據(jù)庫中,放入集合f1中,f1為初篩的假牌車名單。本實(shí)施例中,共有235642個(gè)號(hào)牌為初篩疑似假牌。s5.計(jì)算集合f1中每一輛車正常跳轉(zhuǎn)次數(shù)和異常跳轉(zhuǎn)次數(shù)。根據(jù)集合f1中的車牌,獲取每一個(gè)車牌在集合k中對(duì)應(yīng)的所有記錄。根據(jù)每一條記錄的(ki,kj)獲取集合p中對(duì)應(yīng)的流向概率pij。部分結(jié)果如下:表5統(tǒng)計(jì)每一個(gè)號(hào)牌正常跳轉(zhuǎn)的次數(shù)jnor,即pij>=pi的次數(shù)以及異常跳轉(zhuǎn)的次數(shù)jp,即pij<pi的次數(shù)。,如果該號(hào)牌在集合k中沒有對(duì)應(yīng)的記錄,將該號(hào)牌正常跳轉(zhuǎn)的次數(shù)jnor以及異常跳轉(zhuǎn)次數(shù)jp均記為0。部分結(jié)果如下表6:表6序號(hào)號(hào)牌號(hào)碼正常跳轉(zhuǎn)次數(shù)異常跳轉(zhuǎn)次數(shù)1浙aa59**29372浙a925**18703浙a2em**37164浙a2ka**27025浙a255**16746浙ak5x**6607浙ac29**16448浙a9en**25949浙a295**458010浙ah52**2583················································s6.計(jì)算車牌字符識(shí)別錯(cuò)誤概率。我們將集合f1中的元素,按照跳轉(zhuǎn)概率,分成兩個(gè)集合h1和h2,其中h1包含66460616個(gè)元素,h2包含23970273個(gè)元素。車牌由7位字符組成,其中前兩位表示地方,后五位表示車牌。本實(shí)施例中,前兩位以“浙a”為主,因此我們主要考慮后5位車牌字符。將h1和h2集合中的車牌后5位字符占比分別進(jìn)行統(tǒng)計(jì),得到如下表格:表7我們看到,集合h1和集合h2中,3、5、q、u這些字符占比比較接近,識(shí)別錯(cuò)誤概率較小,t、x、n這些字符占比差別較大,識(shí)別錯(cuò)誤概率較高。s7.二次篩選,假牌可能性排序:假牌可能性fb可以通過以下公式計(jì)算。本實(shí)施例中ε取值為15。部分結(jié)果如下。表8在本實(shí)施例中,從20多萬的疑似套牌中,篩選出1895個(gè)套牌可能性較高的號(hào)牌(fb>0),篩選的范圍縮小了100多倍。通過實(shí)際驗(yàn)證,如果僅僅按照“疑似假牌”出現(xiàn)次數(shù)排序,前50個(gè)疑似假牌中,僅有4個(gè)確定為假牌,其余為識(shí)別錯(cuò)誤,按照本方法排序,前50個(gè)疑似假牌中,有24個(gè)確定為假牌,準(zhǔn)確率提高了6倍。當(dāng)前第1頁12