本發(fā)明屬于人工智能中的機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域?qū)儆跀?shù)據(jù)挖掘中模式識(shí)別聚類技術(shù)領(lǐng)域,具體涉及一種從空間角度定位技術(shù)的聚類方法。
背景技術(shù):
:
聚類是一種常見(jiàn)的數(shù)據(jù)分析工具,其目的是把大量數(shù)據(jù)點(diǎn)的集合分成若干簇,使得簇與簇之間的差異盡可能大,同一簇的差異盡可能小。類簇是數(shù)據(jù)點(diǎn)的集合,聚類分析又稱群集分析,聚類分析使得簇內(nèi)部的相關(guān)性比簇與簇之間的相關(guān)性更加緊密,同簇內(nèi)的相似性很大,而不同的簇之間的差異性很大。相差性可以根據(jù)樣本點(diǎn)的屬性進(jìn)行計(jì)算,而樣本點(diǎn)的“距離”則是度量標(biāo)準(zhǔn)常用的方法。從空間角度上來(lái)看,“距離”則體現(xiàn)了點(diǎn)與點(diǎn)之間的緊密程度。
迄今為止,聚類算法的研究已有60余年,作為數(shù)據(jù)挖掘中模式識(shí)別技術(shù)的一個(gè)子功能,聚類作為一個(gè)單獨(dú)的方法來(lái)獲得數(shù)據(jù)點(diǎn)在空間中的分布情況。根據(jù)各簇之間的差異性,集中對(duì)某些的特定簇做深層次的分析。此外,它還可以作為其它算法(如特征、圖像和分類等)的預(yù)處理步驟,這些算法在形成的簇上進(jìn)一步做相關(guān)處理。
聚類算法的研究是極具挑戰(zhàn)性的,在基于距離和相似度的研究上,產(chǎn)生了許多研究成果,大體上聚類算法可以分為:基于密度聚類算法;基于層次聚類算法;基于網(wǎng)格的聚類算法;基于神經(jīng)網(wǎng)絡(luò)的聚類算法;基于統(tǒng)計(jì)學(xué)的聚類算法以及模糊聚類算法。
技術(shù)實(shí)現(xiàn)要素:
:
本發(fā)明針對(duì)空間角度定位技術(shù),提出了一種類似方向性視覺(jué)距離的聚類算法,反應(yīng)了空間點(diǎn)的緊密程度。點(diǎn)與點(diǎn)之間的緊密,即從任何方位上來(lái)看,同一簇的點(diǎn)都是緊密聯(lián)系的。而不同簇的點(diǎn)不可能在任何角度上都是緊密聯(lián)系的,肯定可以從某個(gè)方位上可將其區(qū)分。類似人眼視覺(jué),在空間不同方位上直觀的呈現(xiàn)點(diǎn)與點(diǎn)之間的緊密聯(lián)系,從而體現(xiàn)相異性,達(dá)到“物以類聚”的效果。
技術(shù)方案
本發(fā)明為實(shí)現(xiàn)上述目的,采用如下技術(shù)方案:
步驟1),輸入樣本數(shù)據(jù)集S={1≤i≤N};
步驟2),隨機(jī)選擇基點(diǎn)X0p={X0p|1≤p≤M,M為最終選取的基點(diǎn)數(shù)};
步驟3),以X0p為基點(diǎn)計(jì)算樣本集S中各點(diǎn)與X0p的距離Dip,并進(jìn)行升序排列得到序鏈:Sp={Xip|1≤i≤N,p表示基點(diǎn),X0p為基點(diǎn)};
步驟4),確定經(jīng)驗(yàn)值R,即R=DNp/N?;
步驟5),在序鏈Sp中,以經(jīng)驗(yàn)值R,每相鄰兩點(diǎn)間距為Dip-Di-1p,若Dip-Di-1p>R,則由第i-1個(gè)點(diǎn)到其前未被歸簇的點(diǎn)為一簇,可得出Sp的若干簇:Cjp={Cjp|1≤j≤K,K表示此基點(diǎn)的簇?cái)?shù)}否則i+1;
步驟6),隨機(jī)改變X0p某幾個(gè)維度的正負(fù)性,得到此點(diǎn)其他方位上的基點(diǎn)X0p+1,重復(fù)步驟3),4),5)得出相應(yīng)的簇Cjp+1;
步驟7),對(duì)于Cjp和Cjp+1的各簇進(jìn)行相交得到簇Clustern,形如:C1p∩C1p+1;C1p∩C2p+1;...;C2p∩C1p+1;...(重復(fù)步驟與Clustern相交);
步驟8),這樣舍去空集得到聚在一起的類簇Clustern;
步驟9),重復(fù)步驟6),7),8)若Clustern不變,則得到就為最終的類簇,否則重復(fù)步驟6),7),8);若6)中已無(wú)法改變維度值,則跳至步驟10);
步驟10),跳至步驟2),直至Clustern不在變化,即得到最終類簇Clustern。
有益效果
本發(fā)明公布了基于空間角度定位技術(shù)的聚類方法,不同于現(xiàn)有的聚類算法,本發(fā)明提出了方向性視覺(jué)“距離”,即任何角度下同類簇點(diǎn)都具有極大的緊密性,更加直觀的體現(xiàn)了聚類算法的研究理念。本發(fā)明反應(yīng)了點(diǎn)與點(diǎn)間的緊密程度,相對(duì)于現(xiàn)有的聚類算法,本發(fā)明基于空間定位技術(shù)的聚類算法更加具有直觀性,更易于人理解,在反應(yīng)聚類的精準(zhǔn)度、緊密性方面更具有優(yōu)勢(shì)。
附圖說(shuō)明
圖1為本發(fā)明技術(shù)方案原理圖。
具體實(shí)施方式:
下面將結(jié)合附圖1及具體實(shí)施例對(duì)本發(fā)明所述的基于空間角度定位技術(shù)的聚類方法作進(jìn)一步詳細(xì)描述。
具體步驟如下:
步驟1,輸入樣本數(shù)據(jù)集S={1≤i≤N};
步驟2,隨機(jī)選擇基點(diǎn)X0p={X0p|1≤p≤M,M為最終選取的基點(diǎn)數(shù)};
步驟3,以X0p為基點(diǎn)計(jì)算樣本集S中各點(diǎn)與X0p的距離,并進(jìn)行升序排列得到序鏈:Sp={Xip|1≤i≤N,p表示基點(diǎn),X0p為基點(diǎn)};
步驟4,確定經(jīng)驗(yàn)值R(R為從基點(diǎn)角度判斷哪些點(diǎn)應(yīng)該歸屬同一簇的距離;),這里我們以點(diǎn)間間隔均值為R,即R=DNp/N;
步驟5,在序鏈Sp={Xip|1≤i≤N}(i的初始值為1)中,以經(jīng)驗(yàn)值R,每相鄰兩點(diǎn)間距為Dip-Di-1p:
步驟5.1,若Dip-Di-1p≤R,則Xip歸入簇Cjp={Cjp|1≤j≤K}(j的初始值為1);i=i+1;
步驟5.2,若Dip-Di-1p>R,j=j(luò)+1;
步驟5.3,循環(huán)步驟5.1,5.2直至Sp中點(diǎn)全部歸并;
步驟6,隨機(jī)改變X0p某幾個(gè)維度的正負(fù)性,得到此點(diǎn)其他方位上的新基點(diǎn)X0p,p=p+1,重復(fù)步驟3),4),5)得出相應(yīng)的簇Cjp;
步驟7,對(duì)于Cjp和Cjp+1的各簇進(jìn)行相交得到簇Clustern,形如:C1p∩C1p+1;C1p∩C2p+1;...;C2p∩C1p+1;...;(重復(fù)步驟與Clustern相交)
步驟8,這樣舍去空集得到聚在一起的類簇Clustern;
步驟9,重復(fù)步驟6,7,8:
步驟9.1,若Clustern不變,則得到就為最終的類簇,否則重復(fù)步驟6,7,8,p=p+1;
步驟9.2,若步驟6中已無(wú)法改變維度值,則跳至步驟10;
步驟10,跳至步驟2,p=p+1,直至Clustern不在變化,即得到最終類簇。