一種識別離群交通數(shù)據(jù)的方法

文檔序號：6732422閱讀：202來源：國知局

專利名稱：一種識別離群交通數(shù)據(jù)的方法
技術領域：
本發(fā)明提出一種識別離群交通數(shù)據(jù)的方法,涉及智能交通系統(tǒng)所采集的交通數(shù)據(jù)的質量控制，屬于智能交通系統(tǒng)中智能信息處理技術領域。
背景技術：
交通數(shù)據(jù)在智能交通系統(tǒng)中占有重要的地位，智能交通系統(tǒng)(ITS)的核心技術之一是交通參數(shù)的實時估計與預測技術，由于采樣失真、測量誤差、突發(fā)交通事件以及其它可能存在的影響因素，采集的交通數(shù)據(jù)集中通常存在著不遵循數(shù)據(jù) 模型的普遍行為的樣本，這些異常點即為離群數(shù)據(jù)。當采集的交通數(shù)據(jù)用于建模時，這些異常點不具備代表性，不能有效地建模并描述系統(tǒng)。為了提高動態(tài)交通信息的準確性和可靠性，保證交通模型的使用效果，首先需要對異常數(shù)據(jù)加以識別并進行相應的處理。目前，在交通工程^域中主要基于統(tǒng)計學的方法識別離群數(shù)據(jù)，該方法計算簡單，但其應用需要事先知道數(shù)據(jù)的分布，這往往比較難，而且現(xiàn)實數(shù)據(jù)也往往不符合任何一種理想狀態(tài)的數(shù)學分布。此外，基于統(tǒng)計的離群檢測算法大多只適合于挖掘單變量的數(shù)值型數(shù)據(jù),對高維、周期性數(shù)據(jù)、分類數(shù)據(jù)則較難進行識別，這限制了它的應用。為了克服上述方法的缺陷，本發(fā)明提出使用基于密度的離群數(shù)據(jù)挖掘算法識別異常交通數(shù)據(jù)。發(fā)明內(nèi)容技術問題異常交通數(shù)據(jù)可使得所建模型的要點變得模糊，不能反映真實系統(tǒng)的本質，本發(fā)明提供一種基于密度的識別異常交通數(shù)據(jù)的方法，該方法可有效檢出邊界和內(nèi)部的離群數(shù)據(jù)，其效果優(yōu)于基于統(tǒng)計的離群檢測方法。技術方案本發(fā)明的識別離群交通數(shù)據(jù)的方法首先計算數(shù)據(jù)的平均局部離群因子，而后使用以下兩個準則之一判斷離群點平均局部離群因子最高的m個數(shù)據(jù)是離群點，或平均局部離群因子大于給定閾值的數(shù)據(jù)是離群點。所述計算數(shù)據(jù)的平均局部離群因子》法為，在某一自然數(shù)k值下，計算每個數(shù)據(jù) 的k-局部離群因子，以一定步長改變k值，重復計算每個數(shù)據(jù)的k-局部離群因子,而后通過平均得到每個數(shù)據(jù)平均局部離群因子，其計算方法為2>據(jù)_丄_A+ 15其中，^和^分別是k的上下限，&是不小于10的自然數(shù)，s是》長，/q/;(; )為任一數(shù) 據(jù)p的k-局部離群因子。每個數(shù)據(jù)的k-局部離群因子計算方法為,p的k-鄰域內(nèi)所有數(shù)據(jù)的k-局部可達密度平均值與P的k-局部可達密度之比，艮卩,一,/ —、 —oeWt(p)&《(P) 9 |物| —2其中，k是自然數(shù)，Nk(p)是數(shù)據(jù)p的k-鄰域，lNk(p)l是該鄰域含有的元素個數(shù)；p 的k-鄰域由所有與p之間的距離不大于p的k-距離的數(shù)據(jù)組成，p的k-距離為數(shù)據(jù)p 和離其最近的第k個數(shù)據(jù)之間的距離；為p的k-局部可達密度,o是p的k-鄰域內(nèi)任一數(shù)據(jù)，/r《(o)為o的k-局部可達密度。任一數(shù)據(jù)p的k-局部可達密度為該數(shù)據(jù)與其k-距離鄰域的平均可達距離的倒數(shù)，其計算方法為『，，銅-3a"mc^—^foA(; ,o)是p到其k-鄰域內(nèi)任一數(shù)據(jù)o的可達距離，p相對于o的可達距離為 O的k-距離和p與O之間距離的較大值，艮卩reach—disp ic(p, o)=max{k—distance (o)， d(p， o)} —4 。有益效果在該方法中，一個點的離群程度與它周圍的點有關，這體現(xiàn)了 "局部"的概念，這是它與以往離群定義不同之處,也是優(yōu)勢所在。此外，使用局部離群因子的平均值判斷離群點，使檢測結果更加穩(wěn)定，不隨參數(shù)k值的變化而有較大變動?；诿芏鹊碾x群挖掘算法能發(fā)喊其它方法漏檢的局部離群點，有其獨到之處，有更好的應用價值。

圖1是本發(fā)明的步驟流程圖。其中有k最小值k^， k最大值k,， k改變步kstep;圖2是交通流到達率和密度關系及其離群數(shù)據(jù)，圖3是路面平整度測試數(shù)據(jù)及離群數(shù)據(jù)。
具體實施方式
下面將參考附圖具體說明發(fā)明的實施方式。步驟如下1. 運用智能交通系統(tǒng)中的數(shù)據(jù)采集設備，如車輛檢測線圈、視頻檢測器、移動車輛、雷達、超聲波等獲取交通數(shù)據(jù),如車速、車流量、占有率、旅行時間等，設所采集數(shù)據(jù)集為D;2. 計算D中每個數(shù)據(jù)的k-局部可達密度；給定一個自然數(shù)k，計算每個數(shù)據(jù)p的k-距離(k-distance(p)),其值為p和離其最近的第k個鄰居oGD之間的距離d (p, o), p的k鄰域定義為Nk (p) = {q G D\ {p} I d (p， q)《k一distance (p)} (1) p相對于o的可達距離為reach—di sp k(p， o)=max{k—di stance(o), d(p, o)} (2) p的k-局部可達密度為數(shù)據(jù)p與其k-距離鄰域的平均可達距離的倒數(shù)，/r《0):1/^^-^- (3)l，)l3.然后計算數(shù)據(jù)的k-局部離群因子； p的k-局部離群因子定義為4. 以一定步長改變k值,重復步驟2和3，計算每個數(shù)據(jù)的k-局部離群因子。局部離群因子說明了數(shù)據(jù)的離群程度，一個數(shù)據(jù)的局部離群因子越大，其越有可能是離群數(shù)據(jù)。5. 計算每個數(shù)據(jù)的平均局部離群因子，以消除參數(shù)k對檢測結果的影響。6. 基于平均局部離群因子判斷離群點。可以使用以下兩個準則平均局部離群因子最高的m個數(shù)據(jù)是離群點，或平均局部離群因子大于給定閾值的數(shù)據(jù)都是離群點。7. 刪除或采用濾波技術修正所識別出的離群數(shù)據(jù)，或者分析這些離群數(shù)據(jù)獲取隱藏信息。實施例l:交通流建模高速公路的交通流通常用平均車速、到達率、密度來描述，到達率和密度之間的關系可以用圖描述，稱之為交通流基本圖形。檢測設備或傳輸設備出錯、突發(fā)交通事件都可能使交通流數(shù)據(jù)發(fā)生異常改變，不管是采樣錯誤還是異常交通事件所產(chǎn)生的離群數(shù)據(jù)，都將使模型特征變得模糊，不能真正反應系統(tǒng)的內(nèi)在規(guī)律。因此，在建立模型前需要找出并除去離群數(shù)據(jù)，以減少離群數(shù)據(jù)的影響，提高所建模型的準確性和可靠性?，F(xiàn)收集有南京碌口機場高速公路的交通流數(shù)據(jù)709個，采樣周期為1分鐘，擬建立到達率和密度之間的模型。運用基于密度的檢測方法LOF尋找特異樣本，令k=20，計算所有樣本的局部異常因子。以10為步長增加k值，重復計算所有樣本的局部異常因子，直至k-150。而后，計算所有樣本的平均局部異常因子，取平均局部異常因子最高的12個數(shù)據(jù)為離群數(shù)據(jù)。圖2是所交通流到達率和密度關系基本圖表，其中加圈的即為離群數(shù)據(jù)。可以看出，邊界和內(nèi)部的離群數(shù)據(jù)都有效檢出。刪除上述離群數(shù)據(jù)，而后采用不含離群數(shù)據(jù)的數(shù)據(jù)集建立高速公路的交通流模型。實施例2:路面平整度測試應用路面平整度是路面表面功能的一項重要指標，它不僅反映了路面的行駛舒適性，也從側面反映出路面的健康狀況。國際平整度指數(shù)IRI (InternationalRoughness Index)已被世界各國廣泛采用，定義為標準車身懸架的總位移(單位m)與行駛距離(單位km)之比，單位是m/km?，F(xiàn)有IRI樣本8000個，數(shù)據(jù)采集每隔一米一次，用澳大利亞進口路面平整度測試車測試所得.運用基于密度的檢測方法LOF尋找特異樣本，令k從50為初始值開始，以步長 IO增加，計算所有樣本的局部異常因子。而后求出所有樣本的平均局部異常因子。這里，假設平均局部異常因子大于1.8的都是離群數(shù)據(jù)，則發(fā)現(xiàn)離群程度最強的28 個點，如圖3所示，其中加圈的即為離群數(shù)據(jù)。與其他檢測點相比，這些離群數(shù)據(jù)說明該處路面不平整或者路面損壞較嚴重，也可能是采樣誤差或噪音。對于每個檢測出的異常值，需要人工參與，對當時的路面、檢測設備等做進一步的分析，正確區(qū)分其產(chǎn)生的原因。
權利要求
1. 一種識別離群交通數(shù)據(jù)的方法，其特征在于該方法首先采集獲取交通數(shù)據(jù)，計算數(shù)據(jù)的平均局部離群因子，而后使用以下兩個準則之一判斷離群數(shù)據(jù)平均局部離群因子最高的m個數(shù)據(jù)是離群數(shù)據(jù)，或平均局部離群因子大于給定閾值的數(shù)據(jù)是離群數(shù)據(jù)，最后刪除或采用濾波方法修正所識別出的離群數(shù)據(jù)，或者分析離群數(shù)據(jù)所包含的隱藏信息。
2.根據(jù)權利要求l所述的一種識別離群交通數(shù)據(jù)的方法，其特征在于所述計算數(shù)據(jù)的平均局部離群因子方法為，在某一自然數(shù)k值下，計算每個數(shù)據(jù)的k-局部離群因子，以一定步長改變k值，重復計算每個數(shù)據(jù)的k-局部離群因子,而后通過平均得到每個數(shù)據(jù)平均局部離群因子，其計算方法為其中，^和^分別是k的上下限，&是不小于10的自然數(shù)，s是步長，/o力0 )為任一數(shù)據(jù)p的k-局部離群因子。
3.根據(jù)權利要求2所述的一種識別離群交通數(shù)據(jù)的方法，其特征在于每個數(shù) 據(jù)的k-局部離群因子計算方法為,p的k-鄰域內(nèi)所有數(shù)據(jù)的k-局部可達密度平均值與p的k-局部可達密度之比，E卩其中，k是自然數(shù)，Nk(p)是數(shù)據(jù)p的k-鄰域，lNk(p)l是該鄰域含有的元素個數(shù)；p 的k-鄰域由所有與p之間的距離不大于p的k-距離的數(shù)據(jù)組成，p的k-距離為數(shù)據(jù)p 和離其最近的第k個數(shù)據(jù)之間的距離；/r《(p)為p的k-局部可達密度，o是p的k-鄰域內(nèi)任一數(shù)據(jù)，/r《(o)為o的k-局部可達密度。
4.根據(jù)權利要求3所述的一種識別離群交通數(shù)據(jù)的方法，其特征在于任一數(shù) 據(jù)P的k-局部可達密度為該數(shù)據(jù)與其k-距離鄰域的平均可達距離的倒數(shù)，其計算方法為:<formula>formula see original document page 3</formula>是p到其k-鄰域內(nèi)任一數(shù)據(jù)o的可達距離，其值為o的k-距離和p 與o之間距離的較大值，艮卩reach—disp k(p, o)=max{k_distance(o), d(p, o)} —4 。
全文摘要
一種識別離群交通數(shù)據(jù)的方法，其特征在于該方法首先采集獲取交通數(shù)據(jù)，計算數(shù)據(jù)的平均局部離群因子，而后使用以下兩個準則之一判斷離群數(shù)據(jù)平均局部離群因子最高的m個數(shù)據(jù)是離群數(shù)據(jù)，或平均局部離群因子大于給定閾值的數(shù)據(jù)是離群數(shù)據(jù)，最后刪除或采用濾波方法修正所識別出的離群數(shù)據(jù)，或者分析離群數(shù)據(jù)所包含的隱藏信息。該方法可有效檢出邊界和內(nèi)部的離群數(shù)據(jù)，其效果優(yōu)于基于統(tǒng)計的離群檢測方法。
文檔編號G08G1/01GK101246645SQ200810024700
公開日2008年8月20日申請日期2008年4月1日優(yōu)先權日2008年4月1日
發(fā)明者煒王, 瞿高峰, 陳淑燕申請人:東南大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：陳淑燕;王煒;瞿高峰
技術所有人：東南大學
我是此專利的發(fā)明人

上一篇：一種燃氣泄漏報警與處理裝置的制作方法
上一篇：混凝土鋼筋腐蝕無線檢測方法及傳感器的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
3、畢老師：機構動力學與控制
4、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
5、周老師：1.智能機器人技術 2.智能檢測與控制技術 3.機構運動學與動力學 4.機電一體化技術
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種識別離群交通數(shù)據(jù)的方法