離群點(diǎn)的挖掘方法及挖掘裝置與流程

文檔序號(hào)：11155087閱讀：1083來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，具體而言，涉及一種離群點(diǎn)的挖掘方法和一種離群點(diǎn)的挖掘裝置。

背景技術(shù)：

例外數(shù)據(jù)挖掘是數(shù)據(jù)挖掘中的一個(gè)重要研究?jī)?nèi)容，其目的是發(fā)現(xiàn)數(shù)據(jù)集中行為異常的少量數(shù)據(jù)對(duì)象。其中的例外即為離群點(diǎn)，所謂離群點(diǎn)是指在數(shù)據(jù)集中，常常存在一些數(shù)據(jù)對(duì)象，它們不符合數(shù)據(jù)的一般模型，因此稱這樣的數(shù)據(jù)對(duì)象為離群點(diǎn)。例外數(shù)據(jù)挖掘技術(shù)都需要對(duì)于異常情況做出快速而敏感的檢測(cè)，這些都為離群點(diǎn)的挖掘提供了潛在的應(yīng)用背景。

離群點(diǎn)挖掘可以描述如下：對(duì)于給定的N個(gè)數(shù)據(jù)點(diǎn)或?qū)ο蟮募?，及預(yù)期的離群點(diǎn)的數(shù)目k，是指發(fā)現(xiàn)與剩余的數(shù)據(jù)相比是有顯著異常的或不一致的前k個(gè)對(duì)象。近年來，基于數(shù)據(jù)挖掘思想的離群點(diǎn)挖掘研究取得了一系列重要的成果和挖掘方法，例如基于深度的方法、基于距離的方法和基于密度的方法。但是，現(xiàn)有的離群點(diǎn)挖掘算法均是對(duì)點(diǎn)集中的所有點(diǎn)進(jìn)行檢測(cè)，以選擇出符合條件的點(diǎn)作為挖掘結(jié)果。

由于點(diǎn)集中點(diǎn)的數(shù)量較多，若對(duì)點(diǎn)集中的所有點(diǎn)均進(jìn)行檢測(cè)以確定離群點(diǎn)，無疑會(huì)增加數(shù)量繁多的計(jì)算量，同時(shí)也會(huì)增加算法的運(yùn)行時(shí)長(zhǎng)。

因此，如何能夠在進(jìn)行離群點(diǎn)的挖掘時(shí)，減少挖掘算法的計(jì)算量，以降低挖掘算法的運(yùn)行時(shí)長(zhǎng)成為亟待解決的技術(shù)問題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明正是基于上述技術(shù)問題至少之一，提出了一種新的離群點(diǎn)的挖掘方案，可以有效減少在進(jìn)行離群點(diǎn)挖掘時(shí)需要檢測(cè)的數(shù)據(jù)量，從而減少了挖掘算法的計(jì)算量，降低了挖掘算法的運(yùn)行時(shí)長(zhǎng)。

有鑒于此，本發(fā)明提出了一種離群點(diǎn)的挖掘方法，包括：將多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元，并確定所述多維數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)所在的網(wǎng)格單元；根據(jù)所述多個(gè)網(wǎng)格單元中的每個(gè)網(wǎng)格單元內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)，確定所述多個(gè)網(wǎng)格單元中的邊界單元；基于LOF(Local Outlier Factor，局部異常因子)算法對(duì)所述邊界單元中的數(shù)據(jù)點(diǎn)進(jìn)行離群點(diǎn)的挖掘。

在該技術(shù)方案中，由于聚類的點(diǎn)集都有一定的邊界點(diǎn)，邊界點(diǎn)所處的范圍即邊界單元，而聚類的點(diǎn)通常是不可能成為離群點(diǎn)的，因此通過將多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元，以根據(jù)每個(gè)網(wǎng)格單元內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)，確定多個(gè)網(wǎng)格單元中的邊界單元，進(jìn)而采用LOF算法對(duì)所述邊界單元中的數(shù)據(jù)點(diǎn)進(jìn)行離群點(diǎn)的挖掘，使得能夠在進(jìn)行離群點(diǎn)挖掘時(shí)，先排除掉不可能成為離群點(diǎn)的范圍，即非邊界單元，然后僅對(duì)可能出現(xiàn)離群點(diǎn)的邊界單元進(jìn)行離群點(diǎn)的挖掘，有效減少了在進(jìn)行離群點(diǎn)挖掘時(shí)需要檢測(cè)的數(shù)據(jù)量，從而減少了挖掘算法的計(jì)算量，降低了挖掘算法的運(yùn)行時(shí)長(zhǎng)。

在上述技術(shù)方案中，優(yōu)選地，所述將多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元的步驟具體包括：根據(jù)所述多維數(shù)據(jù)集中每一維數(shù)據(jù)集的相鄰數(shù)據(jù)點(diǎn)之間的平均距離，計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值；基于所述每一維數(shù)據(jù)集的劃分間隔值將所述多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元。

在該技術(shù)方案中，通過根據(jù)每一維數(shù)據(jù)集的相鄰數(shù)據(jù)點(diǎn)之間的平均距離，計(jì)算每一維數(shù)據(jù)集的劃分間隔值，使得能夠?qū)⒕嚯x近的點(diǎn)分到一個(gè)網(wǎng)格單元中，同時(shí)又不會(huì)導(dǎo)致劃分間隔值取值過大而損失劃分精度的問題，也不會(huì)導(dǎo)致劃分間隔取值過小而產(chǎn)生較多的網(wǎng)格單元而增加離群點(diǎn)挖掘的計(jì)算量。

在上述任一技術(shù)方案中，優(yōu)選地，根據(jù)所述多維數(shù)據(jù)集中每一維數(shù)據(jù)集的相鄰數(shù)據(jù)點(diǎn)之間的平均距離，計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值的步驟具體包括：

將所述每一維數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)進(jìn)行排序，以確定所述每一維數(shù)據(jù)集的值域；計(jì)算所述每一維數(shù)據(jù)集中相鄰數(shù)據(jù)點(diǎn)之間的間隔值，并統(tǒng)計(jì)每個(gè)間隔值的個(gè)數(shù)；根據(jù)以下公式計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值：

其中，s_i表示維標(biāo)記，表示s_i維的網(wǎng)格劃分的間隔值，li表示在s_i維中具有不同間隔值的個(gè)數(shù)，每個(gè)間隔值及出現(xiàn)的次數(shù)分別為Inv_t、m_t。

在上述任一技術(shù)方案中，優(yōu)選地，確定所述多個(gè)網(wǎng)格單元中的邊界單元的步驟具體包括：通過哈希表存儲(chǔ)所述多個(gè)網(wǎng)格單元中的非空網(wǎng)格單元的信息；根據(jù)所述非空網(wǎng)格單元的相鄰單元內(nèi)的數(shù)據(jù)點(diǎn)的數(shù)量，確定所述多個(gè)網(wǎng)格單元中的邊界單元。

在該技術(shù)方案中，通過采用哈希表形式的數(shù)據(jù)結(jié)構(gòu)來存儲(chǔ)網(wǎng)格單元信息，可以有效減少遍歷和查詢的時(shí)間，從而減少算法的執(zhí)行時(shí)間。通過只記錄有數(shù)據(jù)點(diǎn)的非空網(wǎng)格單元，可以防止當(dāng)維數(shù)增加時(shí)網(wǎng)格單元數(shù)量呈指數(shù)增加而導(dǎo)致存儲(chǔ)量增加的問題。其中，對(duì)于每個(gè)非空網(wǎng)格單元，如果其相鄰單元含有少于預(yù)定數(shù)量的點(diǎn)，則這個(gè)單元稱為邊界單元。

在上述任一技術(shù)方案中，優(yōu)選地，基于LOF算法對(duì)所述邊界單元中的數(shù)據(jù)點(diǎn)進(jìn)行離群點(diǎn)的挖掘的步驟具體包括：基于所述LOF算法計(jì)算所述邊界單元中的每個(gè)數(shù)據(jù)點(diǎn)的LOF值；按照LOF值從大到小的順序，取出所述邊界單元中預(yù)定個(gè)數(shù)的數(shù)據(jù)點(diǎn)作為挖掘出的所述離群點(diǎn)。

根據(jù)本發(fā)明的另一方面，還提出了一種離群點(diǎn)的挖掘裝置，包括：劃分單元，用于將多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元，并確定所述多維數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)所在的網(wǎng)格單元；確定單元，用于根據(jù)所述多個(gè)網(wǎng)格單元中的每個(gè)網(wǎng)格單元內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)，確定所述多個(gè)網(wǎng)格單元中的邊界單元；處理單元，用于基于LOF算法對(duì)所述邊界單元中的數(shù)據(jù)點(diǎn)進(jìn)行離群點(diǎn)的挖掘。

在上述技術(shù)方案中，優(yōu)選地，所述劃分單元包括：第一計(jì)算單元，用于根據(jù)所述多維數(shù)據(jù)集中每一維數(shù)據(jù)集的相鄰數(shù)據(jù)點(diǎn)之間的平均距離，計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值；執(zhí)行單元，用于基于所述每一維數(shù)據(jù)集的劃分間隔值將所述多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元。

在上述任一技術(shù)方案中，優(yōu)選地，所述第一計(jì)算單元具體用于：將所述每一維數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)進(jìn)行排序，以確定所述每一維數(shù)據(jù)集的值域；計(jì)算所述每一維數(shù)據(jù)集中相鄰數(shù)據(jù)點(diǎn)之間的間隔值，并統(tǒng)計(jì)每個(gè)間隔值的個(gè)數(shù)；根據(jù)以下公式計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值：

在上述任一技術(shù)方案中，優(yōu)選地，所述確定單元具體用于：通過哈希表存儲(chǔ)所述多個(gè)網(wǎng)格單元中的非空網(wǎng)格單元的信息，并根據(jù)所述非空網(wǎng)格單元的相鄰單元內(nèi)的數(shù)據(jù)點(diǎn)的數(shù)量，確定所述多個(gè)網(wǎng)格單元中的邊界單元。

在上述任一技術(shù)方案中，優(yōu)選地，所述處理單元包括：第二計(jì)算單元，用于基于所述LOF算法計(jì)算所述邊界單元中的每個(gè)數(shù)據(jù)點(diǎn)的LOF值；選取單元，用于按照LOF值從大到小的順序，取出所述邊界單元中預(yù)定個(gè)數(shù)的數(shù)據(jù)點(diǎn)作為挖掘出的所述離群點(diǎn)。

通過以上技術(shù)方案，可以有效減少在進(jìn)行離群點(diǎn)挖掘時(shí)需要檢測(cè)的數(shù)據(jù)量，從而減少了挖掘算法的計(jì)算量，降低了挖掘算法的運(yùn)行時(shí)長(zhǎng)；并且在劃分網(wǎng)格單元時(shí)能夠選擇到合適的劃分間隔值，以將距離近的點(diǎn)分到一個(gè)網(wǎng)格單元中，同時(shí)又不會(huì)導(dǎo)致劃分間隔值取值過大而損失劃分精度的問題，也不會(huì)導(dǎo)致劃分間隔取值過小而產(chǎn)生較多的網(wǎng)格單元而增加離群點(diǎn)挖掘的計(jì)算量。

附圖說明

圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的離群點(diǎn)的挖掘方法的示意流程圖；

圖2示出了根據(jù)本發(fā)明的實(shí)施例的離群點(diǎn)的挖掘裝置的示意框圖；

圖3示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的離群點(diǎn)的挖掘方法的示意流程圖。

具體實(shí)施方式

為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn)，下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是，在不沖突的情況下，本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。

在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明，但是，本發(fā)明還可以采用其他不同于在此描述的其他方式來實(shí)施，因此，本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。

圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的離群點(diǎn)的挖掘方法的示意流程圖。

如圖1所示，根據(jù)本發(fā)明的一個(gè)實(shí)施例的離群點(diǎn)的挖掘方法，包括：

步驟102，將多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元，并確定所述多維數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)所在的網(wǎng)格單元；

步驟104，根據(jù)所述多個(gè)網(wǎng)格單元中的每個(gè)網(wǎng)格單元內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)，確定所述多個(gè)網(wǎng)格單元中的邊界單元；

步驟106，基于LOF算法對(duì)所述邊界單元中的數(shù)據(jù)點(diǎn)進(jìn)行離群點(diǎn)的挖掘。

圖2示出了根據(jù)本發(fā)明的實(shí)施例的離群點(diǎn)的挖掘裝置的示意框圖。

如圖2所示，根據(jù)本發(fā)明的實(shí)施例的離群點(diǎn)的挖掘裝置200，包括：

劃分單元202，用于將多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元，并確定所述多維數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)所在的網(wǎng)格單元；確定單元204，用于根據(jù)所述多個(gè)網(wǎng)格單元中的每個(gè)網(wǎng)格單元內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)，確定所述多個(gè)網(wǎng)格單元中的邊界單元；處理單元206，用于基于LOF算法對(duì)所述邊界單元中的數(shù)據(jù)點(diǎn)進(jìn)行離群點(diǎn)的挖掘。

在上述技術(shù)方案中，優(yōu)選地，所述劃分單元202包括：第一計(jì)算單元2022，用于根據(jù)所述多維數(shù)據(jù)集中每一維數(shù)據(jù)集的相鄰數(shù)據(jù)點(diǎn)之間的平均距離，計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值；執(zhí)行單元2024，用于基于所述每一維數(shù)據(jù)集的劃分間隔值將所述多維數(shù)據(jù)集劃分為多個(gè)網(wǎng)格單元。

在上述任一技術(shù)方案中，優(yōu)選地，所述第一計(jì)算單元2022具體用于：將所述每一維數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)進(jìn)行排序，以確定所述每一維數(shù)據(jù)集的值域；計(jì)算所述每一維數(shù)據(jù)集中相鄰數(shù)據(jù)點(diǎn)之間的間隔值，并統(tǒng)計(jì)每個(gè)間隔值的個(gè)數(shù)；根據(jù)以下公式計(jì)算所述每一維數(shù)據(jù)集的劃分間隔值：

在上述任一技術(shù)方案中，優(yōu)選地，所述確定單元204具體用于：通過哈希表存儲(chǔ)所述多個(gè)網(wǎng)格單元中的非空網(wǎng)格單元的信息，并根據(jù)所述非空網(wǎng)格單元的相鄰單元內(nèi)的數(shù)據(jù)點(diǎn)的數(shù)量，確定所述多個(gè)網(wǎng)格單元中的邊界單元。

在上述任一技術(shù)方案中，優(yōu)選地，所述處理單元206包括：第二計(jì)算單元2062，用于基于所述LOF算法計(jì)算所述邊界單元中的每個(gè)數(shù)據(jù)點(diǎn)的LOF值；選取單元2064，用于按照LOF值從大到小的順序，取出所述邊界單元中預(yù)定個(gè)數(shù)的數(shù)據(jù)點(diǎn)作為挖掘出的所述離群點(diǎn)。

綜上，本發(fā)明主要提出了一種基于網(wǎng)格聚類技術(shù)的離群點(diǎn)挖掘算法，該算法將離群點(diǎn)挖掘算法分成兩步挖掘過程：

1)先用基于網(wǎng)格的聚類方法刪除不可能成為離群點(diǎn)的點(diǎn)集，這一步稱之為挖掘前的數(shù)據(jù)準(zhǔn)備；

2)采用LOF算法來對(duì)第1步篩選所剩下的點(diǎn)集進(jìn)行離群點(diǎn)的挖掘。

本發(fā)明提出的基于網(wǎng)格聚類技術(shù)的離群點(diǎn)挖掘算法的優(yōu)點(diǎn)是：

A、由于該算法首先采用聚類方法把非離群點(diǎn)集篩選出來刪除掉，然后再對(duì)剩下的可能成為離群點(diǎn)的點(diǎn)集做進(jìn)一步考察，這樣一方面可以減少大部分不必要的計(jì)算，節(jié)省算法的運(yùn)行時(shí)間，另一方面，避免了算法第2步在使用LOF方法判斷離群點(diǎn)時(shí)，對(duì)參數(shù)選擇要求高的不足；

B、該算法對(duì)相鄰單元的定義和網(wǎng)格的劃分加以改進(jìn)，能更合理有效地對(duì)網(wǎng)格進(jìn)行劃分，且能根據(jù)數(shù)據(jù)信息自動(dòng)生成劃分間隔參數(shù)，體現(xiàn)了算法在性能上的改進(jìn)；

C、該算法適用于處理大數(shù)據(jù)集和高維數(shù)據(jù)集。

具體地，以下詳細(xì)說明本發(fā)明的技術(shù)方案。

一個(gè)具有d個(gè)屬性的數(shù)據(jù)庫可認(rèn)為是一個(gè)具有d維數(shù)據(jù)空間的數(shù)據(jù)集，因此數(shù)據(jù)庫中的每一條數(shù)據(jù)記錄與數(shù)據(jù)空間中的一個(gè)點(diǎn)相對(duì)應(yīng)。本發(fā)明中的聚類算法采用的是基于網(wǎng)格的聚類方法，該方法將數(shù)據(jù)空間分割成網(wǎng)格狀，這樣將數(shù)據(jù)空間量化為有限數(shù)目的大小相同的網(wǎng)格單元，這些網(wǎng)格單元可簡(jiǎn)稱為單元。因此，數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)都有表示它們各維的數(shù)值，從而各數(shù)據(jù)點(diǎn)分屬于相應(yīng)的網(wǎng)格單元，這樣所需進(jìn)行的聚類操作可在網(wǎng)格上進(jìn)行。在網(wǎng)格上進(jìn)行聚類操作的關(guān)鍵技術(shù)主要包括確定聚類區(qū)域、網(wǎng)格的劃分技術(shù)和存儲(chǔ)技術(shù)。

1、確定聚類區(qū)域

由于本發(fā)明采用基于密度的算法，因此聚類的定義就是：聚類就是一個(gè)區(qū)域，滿足該區(qū)域中的點(diǎn)的密度大于與之相鄰的區(qū)域。在網(wǎng)格數(shù)據(jù)結(jié)構(gòu)中，由于每個(gè)網(wǎng)格單元都有相同的體積，因此單元中數(shù)據(jù)點(diǎn)密度的計(jì)算可以轉(zhuǎn)換成簡(jiǎn)單的數(shù)據(jù)點(diǎn)計(jì)數(shù)，即落到某個(gè)單元中點(diǎn)的個(gè)數(shù)當(dāng)成這個(gè)單元的密度。這時(shí)可以指定一個(gè)數(shù)值δ，當(dāng)某單元中點(diǎn)的個(gè)數(shù)大于該數(shù)值時(shí)，就說這個(gè)單元是密集的。最后，聚類也就定義為連通的所有的“密的”單元的集合。給定一個(gè)d維數(shù)據(jù)空間D，D中每維間隔數(shù)分別為k1，k2，…，kd，即第i維被劃分成ki等分(1≤i≤d)。一個(gè)網(wǎng)格單元cell可由一個(gè)d維數(shù)組表示，即cell＝C[s1][s2]…[sd]，其中si(1≤i≤d)標(biāo)記維ID，表示第i維的第si個(gè)網(wǎng)格，si的取值在0和ki-1之間。

定義1：對(duì)于一個(gè)給定的網(wǎng)格單元cell＝C[i1][i2]…[id]，Ncell(cell)是其相鄰單元的集合，則：Ncell(cell)＝{NC[j1][j2]…[jd]|jp＝ip±1}，其中：1≤p≤d。

由定義1可知，在d維數(shù)據(jù)空間中，一個(gè)單元有3d-1個(gè)相鄰單元。

定義2：?jiǎn)卧猚ell1＝C1[i1][i2]…[id]與單元cell2＝C2[j1][j2]…[jd]是相鄰的，當(dāng)以下條件被滿足：|ip-jp|＝1，p＝v(1≤v≤d)ip＝j(luò)p，p＝1,2,…,v-1,v+1,…,d。

根據(jù)以上定義，d維數(shù)據(jù)空間中一個(gè)單元有2d個(gè)相鄰單元。由此，不僅參與計(jì)算的單元數(shù)目大為減少，而且單元增加與維數(shù)的關(guān)系由指數(shù)增長(zhǎng)變?yōu)榫€性增長(zhǎng)，所以能進(jìn)一步減少算法運(yùn)行所需的時(shí)間。

定義3：對(duì)于每個(gè)非空網(wǎng)格單元(含有數(shù)據(jù)點(diǎn)的單元)，如果其相鄰單元為空或含有少于閾值δ的點(diǎn)，則這個(gè)單元稱為邊界單元，否則稱為非邊界單元。

每個(gè)聚類的點(diǎn)集一定有邊界點(diǎn)，這樣可以根據(jù)所求到的邊界單元求出聚類點(diǎn)的大致范圍，在這個(gè)范圍內(nèi)的點(diǎn)稱為聚類點(diǎn)，它們是不可能成為離群點(diǎn)的，為此必須將這些聚類點(diǎn)刪除。這種方法的主要優(yōu)點(diǎn)是速度快，其處理時(shí)間獨(dú)立于數(shù)據(jù)點(diǎn)的數(shù)目，僅依賴于量化空間中每一維上的網(wǎng)格單元數(shù)目。

2、網(wǎng)格的劃分

網(wǎng)格的劃分與劃分間隔大小的選擇直接影響著算法的正確性與算法的執(zhí)行效率。如果間隔w選擇過大，則會(huì)導(dǎo)致一個(gè)含有離群點(diǎn)的網(wǎng)格單元的相鄰單元都不為空，該單元作為非空單元被刪除，其離群點(diǎn)不能被檢測(cè)到，從而引起有用數(shù)據(jù)的丟失；如果w選擇過小，則較稀疏的聚類點(diǎn)難以被刪除，這樣就會(huì)增加后面LOF的計(jì)算工作。因此，如何選擇一個(gè)好的方法來合理地劃分每一維是算法的關(guān)鍵所在，也是研究的重點(diǎn)。

劃分間隔最簡(jiǎn)單的一種做法就是每個(gè)維度都劃分為相同的間隔。如數(shù)據(jù)集共有d維，每維取m個(gè)間隔，則網(wǎng)格單元總數(shù)就是m×d。這種劃分方法主要有兩點(diǎn)不足：(1)劃分的單元數(shù)隨維數(shù)呈指數(shù)增長(zhǎng)，不適用于高維空間的劃分；(2)在劃分中也難以給m選定一個(gè)合適的值，因?yàn)閙的一個(gè)微小變化都會(huì)引起單元數(shù)目的急劇波動(dòng)。為了解決這個(gè)問題，本發(fā)明提出的劃分間隔的具體做法是：(1)各維劃分間隔的設(shè)定是獨(dú)立的，即每一維劃分的間隔是不同的；(2)在對(duì)其中每一維劃分時(shí)，以各相鄰數(shù)據(jù)點(diǎn)之間的距離分布規(guī)律為依據(jù)來確定劃分間隔。首先把每一維數(shù)據(jù)單獨(dú)取出、排序，計(jì)算相鄰兩點(diǎn)之間的距離，然后選擇合理單維分布公式計(jì)算出的距離作為劃分間隔。根據(jù)這種方法所計(jì)算出的劃分間隔的優(yōu)點(diǎn)是：能較好地把距離近的點(diǎn)分到一起，而又不會(huì)取值過大而損失劃分精度，或過小產(chǎn)生多余的單元而增加計(jì)算量。而且在每維的間隔相差較大的情況下，可以減少參與計(jì)算的網(wǎng)格單元數(shù)目。

3、存儲(chǔ)結(jié)構(gòu)

在確定各維劃分的間隔后，可確定出各數(shù)據(jù)點(diǎn)所屬的網(wǎng)格單元位置。為了節(jié)省存儲(chǔ)空間，提高算法性能并加快算法的速度，本發(fā)明在存儲(chǔ)網(wǎng)格結(jié)構(gòu)時(shí)，一是只記錄有數(shù)據(jù)點(diǎn)的非空網(wǎng)格單元，這樣就防止當(dāng)維數(shù)增加時(shí)網(wǎng)格單元數(shù)量呈指數(shù)增加；二是采用Hash表(哈希表)形式的數(shù)據(jù)結(jié)構(gòu)來存儲(chǔ)網(wǎng)格單元信息，它可以有效減少遍歷和查詢時(shí)間，從而減少算法的執(zhí)行時(shí)間。

Hash表的結(jié)構(gòu)如表1所示：

表1

如表1所示，count1表示在該位置沖突的網(wǎng)格單元數(shù)；flag為網(wǎng)格單元標(biāo)記，指出該單元是否為邊界單元；count2表示該單元含有的數(shù)據(jù)點(diǎn)數(shù)；cellinfo表示網(wǎng)格單元的維數(shù)信息(在數(shù)據(jù)空間的位置)；conflictcell表示當(dāng)單元沖突時(shí)，指向下一個(gè)沖突單元的位置。

以下介紹本發(fā)明提出的關(guān)于離群點(diǎn)的數(shù)據(jù)挖掘和基于網(wǎng)格聚類技術(shù)的離群點(diǎn)挖掘算法：

1、離群點(diǎn)定義和數(shù)據(jù)集特征分析

盡管不同的離群點(diǎn)檢測(cè)方法對(duì)于離群點(diǎn)的定義存在一定的差別,但Hawkins給出的形式化定義被研究者廣泛接受。

定義1：如果一個(gè)數(shù)據(jù)樣本與其它樣本之間存在足以引起懷疑的差異，則稱其為離群點(diǎn)。

雖然Hawkins的定義形象地描述了離群點(diǎn)的特征，但卻沒有給出任何用于發(fā)現(xiàn)離群點(diǎn)的實(shí)現(xiàn)途徑。為此，本發(fā)明引用Knorr等人基于距離的離群點(diǎn)的定義如下∶

定義2：給定數(shù)據(jù)集D和閾值ξ,σ,稱樣本q∈D為離群點(diǎn)，如果存在至多ξ個(gè)樣本位于q的σ距離之內(nèi)。

根據(jù)上述定義，Knorr等構(gòu)造了基于距離的離群點(diǎn)發(fā)現(xiàn)算法FindAllOutsM和FindAllOutsD，它們分別用于對(duì)可駐留內(nèi)存的和基于內(nèi)外存交換的數(shù)據(jù)集的離群點(diǎn)分析。盡管Knorr等聲稱其算法具有相對(duì)于數(shù)據(jù)量的線性時(shí)間復(fù)雜度，然而對(duì)大規(guī)模數(shù)據(jù)集卻需要三次內(nèi)外存交換和過濾。顯然，該算法無法取得令人滿意的效果。

構(gòu)造高效的離群點(diǎn)檢測(cè)方法必須深入研究數(shù)據(jù)集本身的分布特征。其中，數(shù)據(jù)集的主體聚類性和離群點(diǎn)個(gè)別屬性差異性可被用來有效提高離群點(diǎn)的檢測(cè)效率。主體聚類性是指數(shù)據(jù)集的主體數(shù)據(jù)來自于對(duì)正常數(shù)據(jù)源的采樣，相對(duì)于離群點(diǎn)而言，這些數(shù)據(jù)具有明顯的聚類特征，即大量數(shù)據(jù)密集分布于較小的空間范圍內(nèi)。因此，在進(jìn)行離群點(diǎn)檢測(cè)時(shí)，對(duì)于分布于稠密區(qū)域的數(shù)據(jù)的過濾處理將不會(huì)影響離群點(diǎn)的檢測(cè)效果。

其次，離群點(diǎn)是相對(duì)于正常的數(shù)據(jù)樣本而言的。通常地，它們分布于正常數(shù)據(jù)樣本的周圍或構(gòu)成遠(yuǎn)離數(shù)據(jù)主體的低密度聚類。然而，離群點(diǎn)并非在所有的屬性上與正常數(shù)據(jù)樣本存在明顯的差異。例如，在研究信用卡使用記錄數(shù)據(jù)集的眾多屬性時(shí)，惡意透支者的大部分屬性與正常消費(fèi)者不存在明顯差異，其異常行為模式僅體現(xiàn)在個(gè)別的屬性字段。因此，在采用基于距離的離群點(diǎn)檢測(cè)時(shí)，采用通常的歐氏距離考慮離群點(diǎn)相對(duì)于正常樣本點(diǎn)的全局差異不具有實(shí)際意義。為此，本發(fā)明在數(shù)據(jù)集的屬性域空間內(nèi)引入距離，它使離群點(diǎn)檢測(cè)更加關(guān)注于數(shù)據(jù)樣本在個(gè)別屬性上的差異性。

定義3：點(diǎn)p的局部異常因子(LOF)：LOF用來表征數(shù)據(jù)集中每個(gè)數(shù)據(jù)對(duì)象的異常程度，并且這種異常是局部的，即與所求數(shù)據(jù)對(duì)象一定范圍內(nèi)的鄰居的分布有關(guān)。

點(diǎn)p的LOF值定義為如下數(shù)學(xué)表達(dá)式：

其中，LOF是p的MinPts鄰近點(diǎn)的鄰近密度和p的鄰近密度比值的平均值，p的鄰近密度越低，p的LOF值越高。顯然，LOF值越高的點(diǎn)就是孤立點(diǎn)，這對(duì)于準(zhǔn)確查找孤立點(diǎn)指定了相對(duì)明確的標(biāo)準(zhǔn)。

2、基于網(wǎng)格聚類技術(shù)的離群點(diǎn)挖掘算法

2.1、算法思想

首先用基于網(wǎng)格的聚類方法將空間劃分成為不同的網(wǎng)格單元，并確定各數(shù)據(jù)點(diǎn)所在的網(wǎng)格單元，根據(jù)統(tǒng)計(jì)每個(gè)網(wǎng)格單元相鄰單元中所含有的數(shù)據(jù)點(diǎn)數(shù)，確定該單元是否為邊界單元，進(jìn)一步刪除非邊界單元，即刪除非邊界單元中不可能成為離群點(diǎn)的點(diǎn)集，這一步稱之為挖掘前的數(shù)據(jù)準(zhǔn)備，減小了下一步對(duì)數(shù)據(jù)點(diǎn)LOF值的計(jì)算量，提高算法的運(yùn)行時(shí)間；然后采用LOF算法來對(duì)第1步篩選所剩下的點(diǎn)集進(jìn)行離群點(diǎn)的挖掘。

2.2、算法步驟

基于網(wǎng)格聚類技術(shù)的離群點(diǎn)挖掘算法主要由以下兩個(gè)步驟組成：

第1步：采用基于網(wǎng)格聚類技術(shù)找出大部分聚類數(shù)據(jù)，并將其刪除。

(1)劃分?jǐn)?shù)據(jù)空間

第1遍掃描數(shù)據(jù)集，以各相鄰數(shù)據(jù)點(diǎn)之間的距離分布規(guī)律，具體地說是以各相鄰數(shù)據(jù)點(diǎn)之間的平均距離為依據(jù)來確定每一維的等分劃分的間隔。對(duì)每一維數(shù)據(jù)劃分間隔的過程如下：

1)將各數(shù)據(jù)點(diǎn)排序，確定每維的值域。

2)求各相鄰數(shù)據(jù)點(diǎn)之間的間隔值，并記下每個(gè)間隔值和它們出現(xiàn)的次數(shù)。

3)按下面的公式計(jì)算得到的值四舍五入作為該維網(wǎng)格單元?jiǎng)澐值拈g隔值：

其中，si表示維標(biāo)記，Wsi表示該維網(wǎng)格劃分的間隔值，li表示在si中具有不同間隔值的個(gè)數(shù)，其中每個(gè)間隔的間隔值及出現(xiàn)的相應(yīng)次數(shù)分別為Invt、mt。

(2)建立Hash表(如表1所示)

第2遍掃描數(shù)據(jù)集，將每個(gè)數(shù)據(jù)點(diǎn)所在的網(wǎng)格信息記錄到Hash表H中。在記錄每個(gè)點(diǎn)時(shí)，首先計(jì)算出該點(diǎn)所在的網(wǎng)格單元，然后通過哈希函數(shù)將對(duì)應(yīng)的網(wǎng)格單元散列(映射)到表H中。如果在表H中沒有該點(diǎn)所在網(wǎng)格單元記錄，則把該單元的相關(guān)信息(如cellinfo，conflictcell)加入到H中，并對(duì)相應(yīng)的count1，count2進(jìn)行計(jì)數(shù)操作；如果該點(diǎn)所在網(wǎng)格單元已經(jīng)記錄在H中，則僅對(duì)相應(yīng)的count2進(jìn)行計(jì)數(shù)操作。

(3)對(duì)H表中每個(gè)網(wǎng)格單元檢查它的相鄰單元，判斷是否為邊界單元，并對(duì)非邊界單元做出標(biāo)記。當(dāng)全部網(wǎng)格單元判斷結(jié)束后，刪除所有非邊界單元。在H表中刪除所有非邊界單元后，可通過H表中cellinfo等信息從數(shù)據(jù)集中取出剩下的數(shù)據(jù)點(diǎn)集。

第2步：對(duì)篩選后剩下的點(diǎn)集，采用LOF算法計(jì)算它們的LOF值，然后取出值高的前k個(gè)數(shù)據(jù)點(diǎn)作為離群點(diǎn)挖掘結(jié)果。

以上過程如圖3所示，根據(jù)本發(fā)明的另一個(gè)實(shí)施例的離群點(diǎn)的挖掘方法，包括：

步驟302，載入數(shù)據(jù)。

步驟304，對(duì)每一維數(shù)據(jù)進(jìn)行排序，確定劃分間隔。

步驟306，掃描數(shù)據(jù)集，計(jì)算每一個(gè)點(diǎn)所在的網(wǎng)格單元。

步驟308，判斷是否為邊界單元，若是，則執(zhí)行步驟312；否則，執(zhí)行步驟310。

步驟310，刪除非邊界單元。

步驟312，獲得剩下的點(diǎn)信息。

步驟314，計(jì)算剩下點(diǎn)的LOF值。

步驟316，輸出LOF值較高的k個(gè)點(diǎn)作為離群點(diǎn)挖掘結(jié)果。

2.3、算法實(shí)現(xiàn)主要部分的偽代碼

本發(fā)明提出的基于網(wǎng)格聚類技術(shù)的離群點(diǎn)挖掘算法的優(yōu)點(diǎn)如下：

1)由于該算法首先采用聚類方法把非離群點(diǎn)集篩選出來刪除掉，然后再對(duì)剩下的可能成為離群點(diǎn)的點(diǎn)集做進(jìn)一步考察，這樣一方面可以減少大部分不必要的計(jì)算，節(jié)省算法的運(yùn)行時(shí)間，另一方面，避免了算法第2步在使用LOF方法判斷離群點(diǎn)時(shí)，對(duì)參數(shù)選擇要求高的不足。

2)該算法對(duì)相鄰單元的定義和網(wǎng)格的劃分加以改進(jìn)，能更合理有效地對(duì)網(wǎng)格進(jìn)行劃分，且能根據(jù)數(shù)據(jù)信息自動(dòng)生成劃分間隔參數(shù)，體現(xiàn)了算法在性能上的改進(jìn)。

3)該算法適用于處理大數(shù)據(jù)集和高維數(shù)據(jù)集。

4)為了快速判斷是否為邊界單元和算法執(zhí)行效率，一是采用Hash表來存儲(chǔ)網(wǎng)格結(jié)構(gòu)信息，以提高查找相鄰單元的速度；二是基于網(wǎng)格聚類技術(shù)的離群點(diǎn)挖掘算法是以各相鄰數(shù)據(jù)點(diǎn)之間的距離分布規(guī)律為依據(jù)來確定數(shù)據(jù)空間劃分間隔的，與其它數(shù)據(jù)空間劃分的方法相比，既能使劃分所得的網(wǎng)格大小較為適合算法的執(zhí)行，又能使所產(chǎn)生的網(wǎng)格單元數(shù)目少，這樣也就減少了算法的執(zhí)行時(shí)間。

以上結(jié)合附圖詳細(xì)說明了本發(fā)明的技術(shù)方案，本發(fā)明提出了一種新的離群點(diǎn)的挖掘方案，可以有效減少在進(jìn)行離群點(diǎn)挖掘時(shí)需要檢測(cè)的數(shù)據(jù)量，從而減少了挖掘算法的計(jì)算量，降低了挖掘算法的運(yùn)行時(shí)長(zhǎng)；并且在劃分網(wǎng)格單元時(shí)能夠選擇到合適的劃分間隔值，以將距離近的點(diǎn)分到一個(gè)網(wǎng)格單元中，同時(shí)又不會(huì)導(dǎo)致劃分間隔值取值過大而損失劃分精度的問題，也不會(huì)導(dǎo)致劃分間隔取值過小而產(chǎn)生較多的網(wǎng)格單元而增加離群點(diǎn)挖掘的計(jì)算量。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于冰
技術(shù)所有人：北大方正集團(tuán)有限公司;北京北大方正電子有限公司
我是此專利的發(fā)明人

上一篇：條件過濾數(shù)據(jù)的存取方法及裝置與制造工藝
上一篇：信息過濾策略生成方法及裝置與制造工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

挖掘機(jī)快換裝置相關(guān)技術(shù)

挖掘機(jī)工作裝置相關(guān)技術(shù)

挖掘機(jī)凈化裝置被類別相關(guān)技術(shù)

柳工挖掘機(jī)快換裝置相關(guān)技術(shù)

挖掘機(jī)尾氣排放裝置相關(guān)技術(shù)

挖掘機(jī)通氣裝置相關(guān)技術(shù)

挖掘機(jī)保險(xiǎn)裝置相關(guān)技術(shù)

挖掘機(jī)實(shí)訓(xùn)裝置相關(guān)技術(shù)

裝置氣密性檢查方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

離群點(diǎn)的挖掘方法及挖掘裝置與流程