本發(fā)明涉及數(shù)據(jù)挖掘分析技術(shù)領(lǐng)域,尤其涉及一種基于大規(guī)模WiFi活動軌跡的異常行為檢測方法。
背景技術(shù):
在傳統(tǒng)的WiFi掃描數(shù)據(jù)的處理中,WiFi掃描列表中不包括顯示移動端的坐標信息,且WiFi掃描數(shù)據(jù)與GPS軌跡數(shù)據(jù)相比,不能精確記錄用戶的實際地理坐標且不具有連續(xù)的位置點,因此傳統(tǒng)的WiFi掃描數(shù)據(jù)不能構(gòu)成移動端的時間、地點、事件的要素。
在現(xiàn)有技術(shù)中,移動端的軌跡數(shù)據(jù)通常是由內(nèi)置有GPS功能的移動終端來進行記錄,然而GPS需要開啟時才能夠工作,且耗電較大,并且在城市或室內(nèi)等有遮擋物的環(huán)境下,GPS的定位精度就會較差。然而,WiFi受到城市高樓和室內(nèi)墻阻隔的影響較小,且WiFi正不斷的在城市里密集覆蓋,因此在這種環(huán)境下,WiFi相對于GPS更具優(yōu)勢。
然而,目前還沒有一種合理的方法能夠通過WiFi掃描設(shè)備來記錄人群的出行軌跡,進而通過所記錄的出行軌跡來檢測人群中活動軌跡的異常行為,為已經(jīng)發(fā)生的安全事件提供輔助研判,或者為可能發(fā)生的安全事件做出預(yù)警。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于針對現(xiàn)有技術(shù)中的不足,建立雙層異常檢測模型,第一層利用SVDD(Support Vector Domain Description,支持向量域描述)算法作為基本分類器,通過集成技術(shù)訓練得到群體異常檢測模型來排除大量正常的MAC(Media Access Control,用來定義網(wǎng)絡(luò)設(shè)備的位置),第二層通過單個MAC時間一致性和空間一致性檢測進一步確定異常MAC。
為實現(xiàn)上述目的,本發(fā)明提出了一種基于大規(guī)模WiFi活動軌跡的異常行為檢測方法,包括以下步驟:
第一步:通過WiFi采集設(shè)備收集移動端的MAC及時間戳,根據(jù)所述WiFi采集設(shè)備的部署位置獲取使用所述移動設(shè)備的移動對象的位置信息;
第二步:通過Flume進行實時采集所述MAC、時間戳和位置信息,并推送存入分布式文件系統(tǒng)中,所述分布式文件系統(tǒng)對所述數(shù)據(jù)進行相關(guān)預(yù)處理,通過頻繁軌跡挖掘算法確定個體行為正常的MAC;
第三步:在所述個體行為正常的MAC中抽取表征移動對象行為的特征屬性,通過多次抽樣將所述特征屬性規(guī)整為特征向量,且所述特征向量作為SVDD算法的輸入;然后采用SVDD算法建立多個異常行為檢測模型,所述異常行為檢測模型將MAC篩分為符合群體行為規(guī)律的MAC和異于群體行為規(guī)律的MAC,并排除大量符合群體行為規(guī)律的MAC;
第四步:針對第三步中篩選出來的異于群體行為規(guī)律的MAC,通過時間一致性檢測單個異于群體行為規(guī)律MAC在活動時間上的偏離度以及通過空間一致性檢測單個異于群體行為規(guī)律MAC在活動地點上的聚集度,根據(jù)所述偏離度和聚集度再次判斷異于群體行為規(guī)律MAC是否為異常對象。
進一步的,在所述基于大規(guī)模WiFi活動軌跡的異常行為檢測方法中,在個體行為正常的MAC中,對個體行為正常MAC的活動地點和時間經(jīng)過預(yù)處理,得出每天每個MAC的活動時間序列,且將采集時間間隔超過閾值的MAC活動時間序列斷開分成兩段行程。
進一步的,在所述基于大規(guī)模WiFi活動軌跡的異常行為檢測方法中,在第三步中所述多次抽樣包括以下步驟:將抽取出來的特征屬性存入hbase(分布式的、面向列的開源數(shù)據(jù)庫)中,經(jīng)過抽樣和歸一化處理規(guī)整為特征向量,多次抽樣產(chǎn)生多組訓練集,其中抽樣基數(shù)比例5%。
進一步的,在所述基于大規(guī)模WiFi活動軌跡的異常行為檢測方法中,在第三步中所述多個異常行為檢測模型的建立包括以下步驟,通過分布式計算平臺利用SVDD算法以特征向量為輸入訓練出多個異常檢測模型,建立多個異常檢測模型的投票機制,根據(jù)投票機制的結(jié)果判斷特征向量的類別。
進一步的,在所述基于大規(guī)模WiFi活動軌跡的異常行為檢測方法中,所述特征屬性為每日出行時間、行程數(shù)、MAC活動采集次數(shù)、歷史出行時間、歷史行程數(shù)和歷史MAC活動采集次數(shù)。
進一步的,在所述基于大規(guī)模WiFi活動軌跡的異常行為檢測方法中,在第四步中,對異于群體行為規(guī)律進行再次判斷時,當所述偏離度大于閾值和所述聚集度小于閾值時則認定所述異于群體行為規(guī)律為異常MAC對象。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:在采集的MAC記錄的基礎(chǔ)上,利用頻繁軌跡挖掘算法找出個體行為正常的MAC,抽取這些個體行為正常MAC的活動特征屬性,作為SVDD算法的輸入,建立多個異常檢測模型過濾掉大量符合群體行為規(guī)律的MAC,既大大縮短了處理大規(guī)模數(shù)據(jù)需要的時間又保證了異常檢測方法的穩(wěn)定性,且能很好克服本應(yīng)用環(huán)境中正負樣本嚴重不均衡的特點,進而對單個異于群體行為規(guī)律的MAC進行時間一致性和空間一致性檢測,能夠更加準確的鎖定異?;顒拥腗AC。本發(fā)明可有效的應(yīng)用在公共安全領(lǐng)域,實時監(jiān)控移動對象的移動軌跡,準確實時識別出異常行為,為已經(jīng)發(fā)生的安全事件提供輔助研判,為可能發(fā)生的安全事件做出預(yù)警。
附圖說明
圖1為基于大規(guī)模WiFi活動軌跡的異常行為檢測方法的處理流程示意圖。
具體實施方式
下面將結(jié)合示意圖對本發(fā)明的基于大規(guī)模WiFi動軌跡的異常行為檢測方法進行更詳細的描述,其中表示了本發(fā)明的優(yōu)選實施例,應(yīng)該理解本領(lǐng)域技術(shù)人員可以修改在此描述的本發(fā)明,而仍然實現(xiàn)本發(fā)明的有利效果。因此,下列描述應(yīng)當被理解為對于本領(lǐng)域技術(shù)人員的廣泛知道,而并不作為對本發(fā)明的限制。
如圖1所示,本發(fā)明提出了一種基于大規(guī)模WiFi活動軌跡的異常行為檢測方法,包括以下步驟:
第一步:通過WiFi采集設(shè)備收集移動設(shè)備的MAC及時間戳,根據(jù)所述WiFi采集設(shè)備的部署位置獲取使用所述移動設(shè)備的移動對象的位置信息;
第二步:通過Flume進行實時采集所述MAC、時間戳和位置信息,并推送存入分布式文件系統(tǒng)hdfs中,所述分布式文件系統(tǒng)對所述數(shù)據(jù)進行相關(guān)預(yù)處理,通過頻繁軌跡挖掘算法確定個體行為正常的MAC;
第三步:對上一步中確定的個體行為正常MAC的活動地點和時間經(jīng)過預(yù)處理,得出每天每個MAC的活動時間序列,對于前后兩次采集時間超過閾值(可設(shè)置)的活動時間序列,將其斷開分為兩段行程,然后抽取表征移動對象行為的特征屬性,所述特征屬性包括但不限于每日出行時間、行程數(shù)、MAC活動采集次數(shù)、歷史出行時間、歷史行程數(shù)和歷史MAC活動采集次數(shù)等。所述將特征屬性可以分為當天活動時間段序列和歷史活動時間段序列,其中歷史活動時間段序列分工作日活動時間段序列和休息日活動時間段序列,如表1所示。
表1為移動對象行為的特征分類
將抽取出來的特征屬性存入hbase中,經(jīng)過抽樣和歸一化處理規(guī)整為特征向量,多次抽樣(抽樣基數(shù)比例5%)產(chǎn)生多組訓練集,通過分布式計算平臺(如Hadoop和Spark)利用SVDD算法以特征向量為輸入訓練出多個異常檢測模型,通過這多個異常檢測模型的投票機制(所述投票機制為:模型輸出-1或1,計算各模型輸出值的和sum,sum<0則為負例,反之為正例),所述投票機制用于判斷特征向量的類別,當sum≥0時,MAC為符合群體行為規(guī)律的MAC,當sum<0時,MAC為異于群體行為規(guī)律的MAC,從而將MAC篩分為符合群體行為規(guī)律的MAC和異于群體行為規(guī)律的MAC,并將大量符合群體行為規(guī)律的MAC排除。
第四步:針對第三步中篩選出來的異于群體行為規(guī)律的MAC,通過時間一致性檢測計算單個MAC在活動時間上的偏離度,同時通過空間一致性檢測計算單個MAC在活動地點上的聚集度,當偏離度大于閾值且聚集度小于閾值時,將該MAC認定為異常對象。
其中,所述時間一致性檢測:當天活動時間段序列和歷史活動時間段序列(分工作日和休息日),歷史活動時間段序列通過和當天活動時間段序列迭代計算,以相同部分保留不相交部分取一半時間為原則計算當天的歷史活動時間段序列。則偏離度θ為當天活動時間段序列和歷史活動時間段序列的不重合時間長度與總時間長度(時間并集)的比:
其中,所述空間一致性檢測:先計算MAC在各個設(shè)備(不同地點)中出現(xiàn)的頻次,包括當天被采集頻次和歷史頻次(最近10個工作日或最近6個休息日每天被采集次數(shù)的中位數(shù)),并將歷史頻次按從大到小進行排序為,其對應(yīng)設(shè)備的當天頻次為,對于其前k個頻次,計算聚集度:
綜上,在本發(fā)明實施例提供的基于大規(guī)模WiFi活動軌跡的異常行為檢測方法中,在采集的MAC記錄的基礎(chǔ)上,利用頻繁軌跡挖掘算法找出個體行為正常的MAC,抽取這些個體行為正常MAC的活動特征屬性,作為SVDD算法的輸入,建立多個異常檢測模型過濾掉大量符合群體行為規(guī)律的MAC,既大大縮短了處理大規(guī)模數(shù)據(jù)需要的時間又保證了異常檢測方法的穩(wěn)定性,且能很好克服本應(yīng)用環(huán)境中正負樣本嚴重不均衡的特點,進而對單個異于群體行為規(guī)律的MAC進行時間一致性和空間一致性檢測,能夠更加準確的鎖定異?;顒拥腗AC。本發(fā)明可有效的應(yīng)用在公共安全領(lǐng)域,實時監(jiān)控移動對象的移動軌跡,準確實時識別出異常行為,為已經(jīng)發(fā)生的安全事件提供輔助研判,為可能發(fā)生的安全事件做出預(yù)警。
上述僅為本發(fā)明的優(yōu)選實施例而已,并不對本發(fā)明起到任何限制作用。任何所屬技術(shù)領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明的技術(shù)方案的范圍內(nèi),對本發(fā)明揭露的技術(shù)方案和技術(shù)內(nèi)容做任何形式的等同替換或修改等變動,均屬未脫離本發(fā)明的技術(shù)方案的內(nèi)容,仍屬于本發(fā)明的保護范圍之內(nèi)。