專利名稱:一種識別離群交通數(shù)據(jù)的方法
技術領域:
本發(fā)明提出一種識別離群交通數(shù)據(jù)的方法,涉及智能交通系統(tǒng)所采集的交通 數(shù)據(jù)的質量控制,屬于智能交通系統(tǒng)中智能信息處理技術領域。
背景技術:
交通數(shù)據(jù)在智能交通系統(tǒng)中占有重要的地位,智能交通系統(tǒng)(ITS)的核心技 術之一是交通參數(shù)的實時估計與預測技術,由于采樣失真、測量誤差、突發(fā)交通 事件以及其它可能存在的影響因素,采集的交通數(shù)據(jù)集中通常存在著不遵循數(shù)據(jù) 模型的普遍行為的樣本,這些異常點即為離群數(shù)據(jù)。當采集的交通數(shù)據(jù)用于建模 時,這些異常點不具備代表性,不能有效地建模并描述系統(tǒng)。為了提高動態(tài)交通 信息的準確性和可靠性,保證交通模型的使用效果,首先需要對異常數(shù)據(jù)加以識 別并進行相應的處理。目前,在交通工程^域中主要基于統(tǒng)計學的方法識別離群數(shù)據(jù),該方法計算 簡單,但其應用需要事先知道數(shù)據(jù)的分布,這往往比較難,而且現(xiàn)實數(shù)據(jù)也往往 不符合任何一種理想狀態(tài)的數(shù)學分布。此外,基于統(tǒng)計的離群檢測算法大多只適 合于挖掘單變量的數(shù)值型數(shù)據(jù),對高維、周期性數(shù)據(jù)、分類數(shù)據(jù)則較難進行識別, 這限制了它的應用。為了克服上述方法的缺陷,本發(fā)明提出使用基于密度的離群數(shù)據(jù)挖掘算法識 別異常交通數(shù)據(jù)。發(fā)明內(nèi)容技術問題異常交通數(shù)據(jù)可使得所建模型的要點變得模糊,不能反映真實系 統(tǒng)的本質,本發(fā)明提供一種基于密度的識別異常交通數(shù)據(jù)的方法,該方法可有效 檢出邊界和內(nèi)部的離群數(shù)據(jù),其效果優(yōu)于基于統(tǒng)計的離群檢測方法。技術方案本發(fā)明的識別離群交通數(shù)據(jù)的方法首先計算數(shù)據(jù)的平均局部離群 因子,而后使用以下兩個準則之一判斷離群點平均局部離群因子最高的m個數(shù)據(jù)是離群點,或平均局部離群因子大于給定閾值的數(shù)據(jù)是離群點。所述計算數(shù)據(jù)的平均局部離群因子》法為,在某一 自然數(shù)k值下,計算每個數(shù)據(jù) 的k-局部離群因子,以一定步長改變k值,重復計算每個數(shù)據(jù)的k-局部離群因子,而后通過平均得到每個數(shù)據(jù)平均局部離群因子,其計算方法為2>據(jù)_丄_A+ 15其中,^和^分別是k的上下限,&是不小于10的自然數(shù),s是》長,/q/;(; )為任一數(shù) 據(jù)p的k-局部離群因子。每個數(shù)據(jù)的k-局部離群因子計算方法為,p的k-鄰域內(nèi)所有數(shù)據(jù)的k-局部可達 密度平均值與P的k-局部可達密度之比,艮卩,一,/ —、 —oeWt(p)&《(P) 9 |物| —2其中,k是自然數(shù),Nk(p)是數(shù)據(jù)p的k-鄰域,lNk(p)l是該鄰域含有的元素個數(shù);p 的k-鄰域由所有與p之間的距離不大于p的k-距離的數(shù)據(jù)組成,p的k-距離為數(shù)據(jù)p 和離其最近的第k個數(shù)據(jù)之間的距離;為p的k-局部可達密度,o是p的k-鄰域內(nèi)任一數(shù)據(jù),/r《(o)為o的k-局部可達密度。任一數(shù)據(jù)p的k-局部可達密度為該數(shù)據(jù)與其k-距離鄰域的平均可達距離的倒 數(shù),其計算方法為 『,,銅-3a"mc^—^foA(; ,o)是p到其k-鄰域內(nèi)任一數(shù)據(jù)o的可達距離,p相對于o的可達距離為 O的k-距離和p與O之間距離的較大值,艮卩reach—disp ic(p, o)=max{k—distance (o), d(p, o)} —4 。有益效果在該方法中, 一個點的離群程度與它周圍的點有關,這體現(xiàn)了 "局 部"的概念,這是它與以往離群定義不同之處,也是優(yōu)勢所在。此外,使用局部離群因子的平均值判斷離群點,使檢測結果更加穩(wěn)定,不隨參數(shù)k值的變化而有較大 變動?;诿芏鹊碾x群挖掘算法能發(fā)喊其它方法漏檢的局部離群點,有其獨到之 處,有更好的應用價值。
圖1是本發(fā)明的步驟流程圖。其中有k最小值k^, k最大值k,, k改變步kstep;圖2是交通流到達率和密度關系及其離群數(shù)據(jù), 圖3是路面平整度測試數(shù)據(jù)及離群數(shù)據(jù)。
具體實施方式
下面將參考附圖具體說明發(fā)明的實施方式。步驟如下1. 運用智能交通系統(tǒng)中的數(shù)據(jù)采集設備,如車輛檢測線圈、視頻檢測器、移 動車輛、雷達、超聲波等獲取交通數(shù)據(jù),如車速、車流量、占有率、旅行時間等, 設所采集數(shù)據(jù)集為D;2. 計算D中每個數(shù)據(jù)的k-局部可達密度;給定一個自然數(shù)k,計算每個數(shù)據(jù)p的k-距離(k-distance(p)),其值為p和離其 最近的第k個鄰居oGD之間的距離d (p, o), p的k鄰域定義為Nk (p) = {q G D\ {p} I d (p, q)《k一distance (p)} (1) p相對于o的可達距離為reach—di sp k(p, o)=max{k—di stance(o), d(p, o)} (2) p的k-局部可達密度為數(shù)據(jù)p與其k-距離鄰域的平均可達距離的倒數(shù),/r《0):1/^^-^- (3)l,)l3.然后計算數(shù)據(jù)的k-局部離群因子; p的k-局部離群因子定義為4. 以一定步長改變k值,重復步驟2和3,計算每個數(shù)據(jù)的k-局部離群因子。局部 離群因子說明了數(shù)據(jù)的離群程度, 一個數(shù)據(jù)的局部離群因子越大,其越有可能是 離群數(shù)據(jù)。5. 計算每個數(shù)據(jù)的平均局部離群因子,以消除參數(shù)k對檢測結果的影響。6. 基于平均局部離群因子判斷離群點。可以使用以下兩個準則平均局部離 群因子最高的m個數(shù)據(jù)是離群點,或平均局部離群因子大于給定閾值的數(shù)據(jù)都是離 群點。7. 刪除或采用濾波技術修正所識別出的離群數(shù)據(jù),或者分析這些離群數(shù)據(jù)獲 取隱藏信息。實施例l:交通流建模高速公路的交通流通常用平均車速、到達率、密度來描述,到達率和密度之 間的關系可以用圖描述,稱之為交通流基本圖形。檢測設備或傳輸設備出錯、突 發(fā)交通事件都可能使交通流數(shù)據(jù)發(fā)生異常改變,不管是采樣錯誤還是異常交通事 件所產(chǎn)生的離群數(shù)據(jù),都將使模型特征變得模糊,不能真正反應系統(tǒng)的內(nèi)在規(guī)律。 因此,在建立模型前需要找出并除去離群數(shù)據(jù),以減少離群數(shù)據(jù)的影響,提高所 建模型的準確性和可靠性?,F(xiàn)收集有南京碌口機場高速公路的交通流數(shù)據(jù)709個,采樣周期為1分鐘, 擬建立到達率和密度之間的模型。運用基于密度的檢測方法LOF尋找特異樣本, 令k=20,計算所有樣本的局部異常因子。以10為步長增加k值,重復計算所有 樣本的局部異常因子,直至k-150。而后,計算所有樣本的平均局部異常因子,取 平均局部異常因子最高的12個數(shù)據(jù)為離群數(shù)據(jù)。圖2是所交通流到達率和密度關 系基本圖表,其中加圈的即為離群數(shù)據(jù)。可以看出,邊界和內(nèi)部的離群數(shù)據(jù)都有 效檢出。刪除上述離群數(shù)據(jù),而后采用不含離群數(shù)據(jù)的數(shù)據(jù)集建立高速公路的交通流 模型。實施例2:路面平整度測試應用路面平整度是路面表面功能的一項重要指標,它不僅反映了路面的行駛舒適 性,也從側面反映出路面的健康狀況。國際平整度指數(shù)IRI (InternationalRoughness Index)已被世界各國廣泛采用,定義為標準車身懸架的總位移(單位m)與行駛距離(單位km)之比,單位是m/km?,F(xiàn)有IRI樣本8000個,數(shù)據(jù)采集每隔一米一次,用 澳大利亞進口路面平整度測試車測試所得.運用基于密度的檢測方法LOF尋找特異樣本,令k從50為初始值開始,以步長 IO增加,計算所有樣本的局部異常因子。而后求出所有樣本的平均局部異常因子。 這里,假設平均局部異常因子大于1.8的都是離群數(shù)據(jù),則發(fā)現(xiàn)離群程度最強的28 個點,如圖3所示,其中加圈的即為離群數(shù)據(jù)。與其他檢測點相比,這些離群數(shù)據(jù)說明該處路面不平整或者路面損壞較嚴重, 也可能是采樣誤差或噪音。對于每個檢測出的異常值,需要人工參與,對當時的 路面、檢測設備等做進一步的分析,正確區(qū)分其產(chǎn)生的原因。
權利要求
1. 一種識別離群交通數(shù)據(jù)的方法,其特征在于該方法首先采集獲取交通數(shù)據(jù),計算數(shù)據(jù)的平均局部離群因子,而后使用以下兩個準則之一判斷離群數(shù)據(jù)平均局部離群因子最高的m個數(shù)據(jù)是離群數(shù)據(jù),或平均局部離群因子大于給定閾值的數(shù)據(jù)是離群數(shù)據(jù),最后刪除或采用濾波方法修正所識別出的離群數(shù)據(jù),或者分析離群數(shù)據(jù)所包含的隱藏信息。
2.根據(jù)權利要求l所述的一種識別離群交通數(shù)據(jù)的方法,其特征在于所述計算 數(shù)據(jù)的平均局部離群因子方法為,在某一自然數(shù)k值下,計算每個數(shù)據(jù)的k-局部離 群因子,以一定步長改變k值,重復計算每個數(shù)據(jù)的k-局部離群因子,而后通過平均得到每個數(shù)據(jù)平均局部離群因子,其計算方法為其中,^和^分別是k的上下限,&是不小于10的自然數(shù),s是步長,/o力0 )為 任一數(shù)據(jù)p的k-局部離群因子。
3.根據(jù)權利要求2所述的一種識別離群交通數(shù)據(jù)的方法,其特征在于每個數(shù) 據(jù)的k-局部離群因子計算方法為,p的k-鄰域內(nèi)所有數(shù)據(jù)的k-局部可達密度平均值 與p的k-局部可達密度之比,E卩其中,k是自然數(shù),Nk(p)是數(shù)據(jù)p的k-鄰域,lNk(p)l是該鄰域含有的元素個數(shù);p 的k-鄰域由所有與p之間的距離不大于p的k-距離的數(shù)據(jù)組成,p的k-距離為數(shù)據(jù)p 和離其最近的第k個數(shù)據(jù)之間的距離;/r《(p)為p的k-局部可達密度,o是p的k-鄰域內(nèi)任一數(shù)據(jù),/r《(o)為o的k-局部可達密度。
4.根據(jù)權利要求3所述的一種識別離群交通數(shù)據(jù)的方法,其特征在于任一數(shù) 據(jù)P的k-局部可達密度為該數(shù)據(jù)與其k-距離鄰域的平均可達距離的倒數(shù),其計算方法為:<formula>formula see original document page 3</formula>是p到其k-鄰域內(nèi)任一數(shù)據(jù)o的可達距離,其值為o的k-距離和p 與o之間距離的較大值,艮卩reach—disp k(p, o)=max{k_distance(o), d(p, o)} —4 。
全文摘要
一種識別離群交通數(shù)據(jù)的方法,其特征在于該方法首先采集獲取交通數(shù)據(jù),計算數(shù)據(jù)的平均局部離群因子,而后使用以下兩個準則之一判斷離群數(shù)據(jù)平均局部離群因子最高的m個數(shù)據(jù)是離群數(shù)據(jù),或平均局部離群因子大于給定閾值的數(shù)據(jù)是離群數(shù)據(jù),最后刪除或采用濾波方法修正所識別出的離群數(shù)據(jù),或者分析離群數(shù)據(jù)所包含的隱藏信息。該方法可有效檢出邊界和內(nèi)部的離群數(shù)據(jù),其效果優(yōu)于基于統(tǒng)計的離群檢測方法。
文檔編號G08G1/01GK101246645SQ200810024700
公開日2008年8月20日 申請日期2008年4月1日 優(yōu)先權日2008年4月1日
發(fā)明者煒 王, 瞿高峰, 陳淑燕 申請人:東南大學