本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種面向大數(shù)據(jù)中任意形狀數(shù)據(jù)簇的快速聚類方法。
背景技術(shù):
在大數(shù)據(jù)環(huán)境下,有很多的應(yīng)用場景需要使用到任意形狀聚類算法來解決實(shí)際問題。例如,在處理地圖等地理信息數(shù)據(jù)時(shí),地圖中的山脈,河流等地形往往呈現(xiàn)出各種不規(guī)則的形狀,可以使用任意形狀聚類算法來識(shí)別這些地形地貌。在醫(yī)藥學(xué)領(lǐng)域,生物的蛋白質(zhì)的空間結(jié)構(gòu)也是非常不規(guī)則的,使用任意形狀聚類算法可以有效的識(shí)別蛋白質(zhì)的空間結(jié)構(gòu),幫助研究者更好的認(rèn)知蛋白質(zhì)的組成、功能等。具體來說,聚類算法通過一個(gè)數(shù)據(jù)集中各個(gè)數(shù)據(jù)樣本之間的相似性,將相似的數(shù)據(jù)樣本劃分到同一個(gè)聚類中,從而實(shí)現(xiàn)將原始數(shù)據(jù)集的樣本劃分為多個(gè)聚類的目標(biāo)。一般來說,聚類算法更加傾向于用歐式距離來度量兩個(gè)樣本之間的相似性。
傳統(tǒng)的一般聚類算法往往傾向于將數(shù)據(jù)集切分成各種凸型,超球型聚類,因此這類聚類算法并不適用于任意形狀聚類場景,而現(xiàn)有的任意形狀聚類算法由于要對(duì)數(shù)據(jù)集進(jìn)行比較復(fù)雜的分析,因此都具有較高的時(shí)間復(fù)雜度。這些特征使得現(xiàn)有的聚類算法、任意形狀聚類算法都不適合應(yīng)用于大數(shù)據(jù)環(huán)境下的任意形狀聚類問題。
因此,需要設(shè)計(jì)面向大數(shù)據(jù)的任意形狀聚類方法,用于對(duì)大數(shù)據(jù)進(jìn)行聚類。一種可行的思路是通過對(duì)原始數(shù)據(jù)集進(jìn)行采樣,減少需要處理的樣本數(shù)量,從而實(shí)現(xiàn)快速聚類。由于聚類算法通過分析數(shù)據(jù)樣本之間的距離作為相似性來實(shí)現(xiàn)對(duì)樣本的聚類。因此,如何在采樣的基礎(chǔ)上,能夠維持原始數(shù)據(jù)集的形狀信息是關(guān)鍵與難點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
為了解決上述技術(shù)問題,本發(fā)明提出了一種面向大數(shù)據(jù)的快速聚類方法。其思路是對(duì)原始的海量數(shù)據(jù)進(jìn)行采樣,并在采樣數(shù)據(jù)集上運(yùn)行任意形狀聚類算法,從而減少需要處理的數(shù)據(jù)量,達(dá)到提升算法效率的目的。由于聚類算法主要是通過數(shù)據(jù)集中數(shù)據(jù)樣本分布的形狀信息來對(duì)數(shù)據(jù)樣本進(jìn)行聚類,因此,為了能夠?qū)崿F(xiàn)在采樣數(shù)據(jù)集上的準(zhǔn)確聚類,需要保證采樣樣本的分布能夠準(zhǔn)確反映原始數(shù)據(jù)集的數(shù)據(jù)分布信息?,F(xiàn)有的采樣算法相比與數(shù)據(jù)集的形狀信息,更傾向于保留數(shù)據(jù)集的概率分布信息。因此,現(xiàn)有的采樣算法不具備在采樣的基礎(chǔ)上,保留數(shù)據(jù)集形狀信息的能力。
因此,本文提出一種新型的采樣方法,通過使用該方法通過對(duì)原始數(shù)據(jù)集進(jìn)行采樣,并同時(shí)保留數(shù)據(jù)集的形狀信息,通過在采樣數(shù)據(jù)集上進(jìn)行聚類,能夠得到與在原始數(shù)據(jù)集上相同的聚類結(jié)果,從而實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的快速聚類。
本發(fā)明按下述方案解決該問題:
一種面向大數(shù)據(jù)的快速聚類方法,其特征在于,對(duì)于含有N個(gè)數(shù)據(jù)樣本的大數(shù)據(jù)集D={d1,d2,…,dN},給定采樣比例r,具體包括:
步驟1:設(shè)定迭代次數(shù)t與常數(shù)c。從原始數(shù)據(jù)集中隨機(jī)采樣M=N*r個(gè)樣本作為初始代表點(diǎn)集合X={x1,x2,…,xM}。并迭代地在更新每個(gè)樣本的位置,在每一次迭代中,對(duì)于代表點(diǎn)樣本xi,其新的坐標(biāo)為:
循環(huán)本步驟,迭代t次,轉(zhuǎn)至下一步驟;
步驟2:給定閾值τ,將每個(gè)原始數(shù)據(jù)樣本劃分給與其距離最近的代表點(diǎn)。對(duì)于任意代表點(diǎn)xi,都對(duì)應(yīng)著一個(gè)屬于該代表點(diǎn)的原始樣本集合,令該集合為其中包含ki個(gè)原始樣本。對(duì)于每個(gè)代表點(diǎn)樣本,更新其位置信息。具體來說,對(duì)于代表點(diǎn)樣本xi,其新位置為:
迭代執(zhí)行本步驟將直到所有代表點(diǎn)的位移量總和小于τ,轉(zhuǎn)至下一步驟;
步驟3:使用現(xiàn)有的任意形狀聚類算法在采樣數(shù)據(jù)集上進(jìn)行聚類,并將對(duì)代表點(diǎn)數(shù)據(jù)集的聚類結(jié)果映射回原始數(shù)據(jù)集。具體來說,對(duì)于每個(gè)代表點(diǎn)xi及其對(duì)應(yīng)的原始樣本集合對(duì)每一個(gè)原始樣本都貼上與代表點(diǎn)相同的類別標(biāo)簽。
在上述的一種面向大數(shù)據(jù)的快速聚類方法,步驟1中迭代更新代表點(diǎn)位置的方法,迭代次數(shù)t≤10。
在上述的一種面向大數(shù)據(jù)的快速聚類方法,步驟2中根據(jù)原始數(shù)據(jù)樣本分布更新代表點(diǎn)位置的方法,對(duì)于標(biāo)準(zhǔn)化在[0,1]區(qū)間的數(shù)據(jù)集,閾值τ≤0.01。
附圖說明
圖1是本發(fā)明用于處理的原始數(shù)據(jù)集。
圖2a是本發(fā)明在步驟1中初始隨機(jī)選取的代表點(diǎn)數(shù)據(jù)集分布圖。
圖2b是本發(fā)明在經(jīng)過步驟1位置調(diào)整后的代表點(diǎn)分布圖。
圖2c是本發(fā)明經(jīng)過步驟2處理后的代表點(diǎn)數(shù)據(jù)分布圖。
圖3是本發(fā)明的方法流程示意圖。
具體實(shí)施方式
為了便于本領(lǐng)域普通技術(shù)人員理解和實(shí)施本發(fā)明,下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述,應(yīng)當(dāng)理解,此處所描述的實(shí)施示例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
在本實(shí)施例中,我們使用了含有8000個(gè)點(diǎn)的數(shù)據(jù)集(如圖1所示)。本發(fā)明包括以下步驟:
步驟1:設(shè)定迭代次數(shù)t與常數(shù)c。從原始數(shù)據(jù)集中隨機(jī)采樣M=N*r個(gè)樣本作為初始代表點(diǎn)集合X={x1,x2,…,xM}。并迭代地在更新每個(gè)樣本的位置,在每一次迭代中,對(duì)于代表點(diǎn)樣本xi,其新的坐標(biāo)為:
該步驟將迭代進(jìn)行t次。經(jīng)過該步驟處理以后,所選取的代表點(diǎn)分布如圖2b所示。在該步驟中,一般選取迭代次數(shù)t≤10。
步驟2:給定閾值τ,將每個(gè)原始數(shù)據(jù)樣本劃分給與其距離最近的代表點(diǎn)。這樣一來,對(duì)于任意代表點(diǎn)xi,都對(duì)應(yīng)著一個(gè)屬于該代表點(diǎn)的原始樣本集合,令該集合為其中包含ki個(gè)原始樣本。對(duì)于每個(gè)代表點(diǎn)樣本,更新其位置信息。具體來說,對(duì)于代表點(diǎn)樣本xi,其新位置為:
該步驟將迭代執(zhí)行,直到所有代表點(diǎn)的位移量總和小于τ。經(jīng)過該步驟處理以后,代表點(diǎn)的分布如圖2c所示。從圖中可以看出,代表點(diǎn)的分布準(zhǔn)確地反映了原始數(shù)據(jù)集中數(shù)據(jù)分布的形狀信息。在該步驟中,對(duì)于標(biāo)準(zhǔn)化在[0,1]區(qū)間上的數(shù)據(jù)集,閾值τ≤0.01。
步驟3:使用現(xiàn)有的任意形狀聚類算法如DBSCAN,CHAMELEON等算法在采樣數(shù)據(jù)集上進(jìn)行聚類,并將對(duì)代表點(diǎn)數(shù)據(jù)集的聚類結(jié)果映射回原始數(shù)據(jù)集。具體來說,對(duì)于每個(gè)代表點(diǎn)xi及其對(duì)應(yīng)的原始樣本集合對(duì)每一個(gè)原始樣本都貼上與代表點(diǎn)相同的類別標(biāo)簽。
本發(fā)明研究了大數(shù)據(jù)環(huán)境下的聚類問題,通過對(duì)數(shù)據(jù)集進(jìn)行采樣,在保留原始數(shù)據(jù)集中數(shù)據(jù)分布的形狀信息的同時(shí),極大地縮減了數(shù)據(jù)集中樣本的數(shù)量。通過在采樣后的數(shù)據(jù)集上運(yùn)行聚類算法,并將算法結(jié)果投影回原始數(shù)據(jù)集,實(shí)現(xiàn)對(duì)大數(shù)據(jù)集的快速聚類。
應(yīng)當(dāng)理解的是,本說明書未詳細(xì)闡述的部分均屬于現(xiàn)有技術(shù),上述針對(duì)較佳實(shí)施例的描述較為詳細(xì),并不能因此而認(rèn)為是對(duì)本發(fā)明專利保護(hù)范圍的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明權(quán)利要求所保護(hù)的范圍情況下,還可以做出替換或變形,均落入本發(fā)明的保護(hù)范圍之內(nèi),本發(fā)明的請(qǐng)求保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。