本發(fā)明屬于數(shù)據(jù)挖掘與可視分析技術(shù)領(lǐng)域,涉及一種基于維度相關(guān)性的子空間聚類的可視分析方法。
背景技術(shù):
聚類分析是數(shù)據(jù)挖掘領(lǐng)域中的關(guān)鍵技術(shù)之一。子空間聚類是對傳統(tǒng)聚類方法在高維數(shù)據(jù)空間中的擴(kuò)展,其思想是將搜索局部化在相關(guān)維中進(jìn)行。
傳統(tǒng)聚類方法在高維數(shù)據(jù)集中進(jìn)行聚類時,主要遇到兩個問題。1、高維數(shù)據(jù)集中存在大量無關(guān)的屬性使得在所有維中存在聚類的可能性幾乎為零;2、高維空間中數(shù)據(jù)較低維空間中數(shù)據(jù)分布要稀疏,其中數(shù)據(jù)間距離幾乎相等是普遍現(xiàn)象,而傳統(tǒng)聚類方法是基于距離進(jìn)行聚類的,因此在高維空間中無法基于距離來構(gòu)建聚類。
為了解決這些問題,數(shù)據(jù)挖掘的研究者們提出了子空間聚類技術(shù),嘗試在數(shù)據(jù)集的不同子空間上發(fā)現(xiàn)聚類。根據(jù)搜索方向的不同,可以將子空間聚類方法分成兩大類:自頂向下的搜索策略,包括PROCLUS等;以及自底向上的搜索策略,包括CLIQUE等。
但自動化的子空間聚類方法往往得到數(shù)量龐大的冗余結(jié)果,其聚類結(jié)果難以理解和解釋。為此,數(shù)據(jù)挖掘和可視化領(lǐng)域提出了一系列的可視化方法,例如Assent等人的“Visual subspace clustering analysis,SIGKDD Explor.Newsl.9(2):5-12.2007.”,Tatu等人的"Subspace search and visualization to make sense of alternative clusterings in high-dimensional data,IEEE VAST,pages.63-72,2012"方法等。但這些方法僅限于對自動化子空間聚類方法的結(jié)果進(jìn)行可視化,用戶無法進(jìn)行交互式的可視分析。
與本發(fā)明方法最接近的方法是袁曉如等人提出的"Dimension projection matrix/tree:Interactive subspace visual exploration and analysis of high dimensional data.IEEE TVCG,19(12):2625-2633,2013",但其維度之間的距離基于皮爾遜相關(guān)系數(shù),僅可用于特征選擇,缺乏聚類上的意義。此外,對于子空間聚類的復(fù)雜結(jié)構(gòu),如不同子空間在維度上的重疊,不同聚類在數(shù)據(jù)上的重疊等,以上可視化方法都沒有給出良好的解決方案。
技術(shù)實現(xiàn)要素:
本發(fā)明旨在針對上述現(xiàn)有方法存在的問題,提供一種基于維度相關(guān)性的子空間聚類可視分析方法,在交互式、可視化的數(shù)據(jù)探索過程中,給予用戶有效的引導(dǎo)信息,指導(dǎo) 用戶快速發(fā)現(xiàn)有價值的子空間和對應(yīng)的聚類。
本發(fā)明所采用的技術(shù)方案是,一種基于維度相關(guān)性的子空間聚類可視分析方法,按照以下步驟進(jìn)行:
步驟一、建立基于聚類顯著性的維度相關(guān)性度量方法;
步驟二、建立子空間聚類復(fù)雜結(jié)構(gòu)的有效可視化方法;
步驟三、建立基于維度相關(guān)性的可視分析框架。
進(jìn)一步的,所述步驟一中,維度相關(guān)性度量方法包括以下步驟:
步驟a,定義維度間的相似性:
其中表達(dá)式(1)中p(p,di)描述的是數(shù)據(jù)在維度di上、點p位置處的密度;kNN是指k最近鄰;kNN(p,di)指在維度di上離p點最近的k個點;max(kNN(p,di))指kNN(p,di)中坐標(biāo)值最大的點,min(kNN(p,di))指kNN(p,di)中坐標(biāo)值最小的點;DB代表了數(shù)據(jù)集,|DB|為數(shù)據(jù)集中數(shù)據(jù)點的個數(shù);ε=1/|DB|(ε是一個足夠小的數(shù),防止表達(dá)式(1)的分母為0);
表達(dá)式(2)中r(di,dj)定義了維度i和j之間的相似性;
表達(dá)式(3)中r(d1,d2,......,dm)定義了維度集合d1,d2,.....,dm之間的相似性;
步驟b,定義維度間的距離:
維度間的距離基于維度間的相似性得到,具體表達(dá)式如下:
其中表達(dá)式(4)中dist(di,dj)定義了兩個維度di,dj之間的距離,r(di,dj)為維度i和j之間的相似性,由表達(dá)式(2)給出;表達(dá)式(5)中dist(dm+1,S)定義了維度dm+1和維度集合S之間的距離,其中r(d1,d2,.....dm,dm+1)為維度集合S和維度dm+1之間的相似性。
進(jìn)一步的,所述步驟二中,建立子空間聚類復(fù)雜結(jié)構(gòu)的有效可視化方法包括以下步驟:
使用超圖描述子空間結(jié)構(gòu),超圖的數(shù)據(jù)結(jié)構(gòu)由節(jié)點和邊組成,其中節(jié)點表示維度,邊表示維度的子集,即一個子空間;一條邊可以連接多個節(jié)點,一條邊連接的維度節(jié)點張成一個子空間;
然后采用星形結(jié)構(gòu)來可視化超圖數(shù)據(jù)結(jié)構(gòu),具體表示過程為:
步驟a,找到需要用星形結(jié)構(gòu)包圍起來點集的最小包圍圓,記包圍圓的圓心為點C;
步驟b,將點集中的其它點與C點連接起來,組成星形結(jié)構(gòu)的初始骨架;
步驟c,每個骨架選取5個以上的點做為控制點,選取的控制點分布均勻,并能夠?qū)⒐羌馨鼑饋恚?/p>
步驟d,將兩個相鄰骨架的重疊區(qū)域中的控制點刪除;
步驟e,以控制點做為參考點,以逆時針為方向用一條b樣條曲線繪制出一個封閉的區(qū)域,此區(qū)域就是所需要的星形凸包結(jié)構(gòu)。
進(jìn)一步的,所述步驟三中,基于維度相關(guān)性的可視分析框架;包括維度視圖和數(shù)據(jù)視圖;
所述維度視圖包括維度點,超圖邊,圓形工作區(qū),如圖1維度視圖。其中維度點是指代表維度的點,超圖邊代表維度子集,即一個子空間,用星形結(jié)構(gòu)來可視表達(dá),圓形工作區(qū)包括內(nèi)圓和外圓,其中內(nèi)圓中指編輯區(qū)域(如圖1維度視圖中的編輯區(qū)域)(編輯區(qū)域是用來展現(xiàn)當(dāng)前被選中的點集,點集中的點按被選中順序,呈螺旋狀從內(nèi)到外分布),外圓和內(nèi)圓之間的區(qū)域(如圖1維度視圖中的內(nèi)圓與外圓之間的區(qū)域)分布著未選中的維度點。維度點的布局包含初始布局和動態(tài)布局。
維度點的初始布局為:用戶沒有進(jìn)行任何操作前,維度視圖的分布情況。維度點的初始布局由MDS算法給出;
所述由MDS算法得到維度點的初始布局步驟為:
步驟a,得到維度點距離矩陣:距離矩陣為各個維度與其余維度之間的距離組成,維度之間的距離由表達(dá)式(4)給出;
步驟b,得到維度點的布局信息:將距離矩陣作為MDS算法的輸入,將算法得到的結(jié)果做為維度點在維度視圖中的坐標(biāo)信息;
維度點動態(tài)布局為:即維度視圖更新時使用的布局。維度點距離維度視圖中心的距離,會根據(jù)維度點與當(dāng)前正在編輯的子空間的距離進(jìn)行動態(tài)調(diào)整;當(dāng)編輯區(qū)域中的維度點集發(fā)生變化時,對每個不在編輯區(qū)域中的維度點做以下操作:
步驟a,運(yùn)用表達(dá)式(5)得到當(dāng)前維度點與正在編輯的子空間的距離d,0≤d≤1;
步驟b,將距離d映射到[a,b]范圍中,映射函數(shù)由表達(dá)式(6)給出。其中a代表小圓半徑,b代表大圓半徑,f代表映射的結(jié)果;
f=a+d*(b-a) (6)
步驟c,在當(dāng)前點與維度視圖中心點連線的方向上,將當(dāng)前點的距離調(diào)整為距離維度視圖中心為f的位置處;
在維度視圖中包含以下交互功能:
1),鼠標(biāo)點擊一個點/星形結(jié)構(gòu):如果該點/星形結(jié)構(gòu)位于編輯區(qū)域,則將該點/星形結(jié)構(gòu)移出編輯區(qū)域;如果該點/星形結(jié)構(gòu)不位于編輯區(qū)域,則將其放置到編輯區(qū)域內(nèi),最后更新維度視圖和數(shù)據(jù)視圖;
2),鼠標(biāo)懸停在點/星形結(jié)構(gòu)上:當(dāng)鼠標(biāo)懸在該點/星形結(jié)構(gòu)時,維度視圖的分布更新為鼠標(biāo)點擊該點/星形結(jié)構(gòu)后的情況;當(dāng)鼠標(biāo)移開時,維度視圖的分布還原到懸停前的樣子;
3),鼠標(biāo)圈選操作:圈選是在維度視圖上用鼠標(biāo)繪制一個多邊形,所有位于這個多邊形內(nèi)部的點集都將被賦予以下操作,如果該點位于編輯區(qū)域,則將該點移出編輯區(qū)域;如果該點不位于編輯區(qū)域,則將其放置到編輯區(qū)域內(nèi),最后更新維度視圖和數(shù)據(jù)視圖;
所述數(shù)據(jù)視圖為一系列的數(shù)據(jù)點組成,數(shù)據(jù)點的布局情況由MDS算法給出。
由MDS算法得到數(shù)據(jù)點的布局步驟為:
步驟a,得到距離矩陣:距離矩陣是數(shù)據(jù)點中每個數(shù)據(jù)點與其余的數(shù)據(jù)點之間的距離組成的一個矩陣;數(shù)據(jù)點與數(shù)據(jù)點之間的距離由表達(dá)式(7)給出,其中pi,pj代表的是第i個點和第j個數(shù)據(jù)點,dist(pi,pj)為數(shù)據(jù)點pi,pj之間的距離,S為輸入的子空間維度集, 即維度視圖的編輯區(qū)域中包含的維度子集,S隨維度視圖中的編輯操作即時更新;d是指S中的某一個維度;pi(d),pj(d)分別代表的是pi,pj點在維度d上的值;
步驟b,得到數(shù)據(jù)點在數(shù)據(jù)中視圖中的分布:將距離矩陣作為MDS算法的輸入,將算法得到的結(jié)果做為數(shù)據(jù)點在數(shù)據(jù)視圖中的坐標(biāo)信息。
在數(shù)據(jù)視圖中包含以下操作:
1)圈選標(biāo)記顏色:圈選是在維度視圖上用鼠標(biāo)繪制一個多邊形,所有在這個多邊形內(nèi)部的點集都將被標(biāo)記為當(dāng)前指定的顏色;
本發(fā)明的有益效果是,提出了一種度量維度之間存在聚類的顯著性的一種方法。并且我們有了一個特殊的數(shù)據(jù)結(jié)構(gòu)去表達(dá)子空間結(jié)構(gòu),并將其直觀的呈現(xiàn)出來。最后,我們提出了一個高效的子空間聚類的可視化分析方法。總之,本發(fā)明是交互式可視分析的一種方法,并在交互式的可視分析過程中,給予用戶明確的信息來指導(dǎo)用戶查找存在有價值聚類特征的子空間,提高了子空間聚類的查找效率。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是基于子空間聚類的可視化分析框架圖。
其中圖的左半部分為維度視圖,右半部分為數(shù)據(jù)視圖。在維度視圖中,點代表的是一個維度。星形結(jié)構(gòu)是超圖中的一條邊,代表一個子空間。中間部分為正在編輯的子空間。數(shù)據(jù)視圖為數(shù)據(jù)點在正在編輯的子空間下的分布情況。
圖2是星形凸包結(jié)構(gòu)的繪制步驟圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明包括基于聚類顯著性的維度相關(guān)性度量方法,子空間聚類復(fù)雜結(jié)構(gòu)的有效可視化方法,以及基于維度相關(guān)性的可視分析框架。
本實例中采用一臺高性能的電腦,電腦上的內(nèi)存應(yīng)該在8G以上。
一種基于維度相關(guān)性的子空間聚類可視分析方法,包含以下內(nèi)容:
內(nèi)容1:基于聚類顯著性的維度相關(guān)性度量方法;維度相關(guān)性度量方法包含以下步驟:
步驟1,定義維度間的相似性:維度之間的相似性由以下表達(dá)式給出。
其中表達(dá)式(1)中p(p,di)描述的是數(shù)據(jù)在維度di上、點p位置處的密度。
kNN(k-Nearest-Neighbors)是指k最近鄰。kNN(p,di)指在維度di上離p點最近的k個點。max(kNN(p,di))指kNN(p,di)中坐標(biāo)值最大的點,min(kNN(p,di))指kNN(p,di)中坐標(biāo)值最小的點。DB代表了數(shù)據(jù)集,|DB|為數(shù)據(jù)集中數(shù)據(jù)點的個數(shù)。ε=1/|DB|(ε是一個足夠小的數(shù),防止表達(dá)式(1)的分母為0)。
表達(dá)式(2)中r(di,dj)定義了維度i和j之間的相似性。
表達(dá)式(3)中r(d1,d2,......,dm)定義了維度集合d1,d2,.....,dm之間的相似性。
步驟2,定義維度間的距離:維度間的距離基于維度間的相似性得到,具體表達(dá)式如下:
其中表達(dá)式(4)中dist(di,dj)定義了兩個維度di,dj之間的距離,r(di,dj)為維度i和j之間的相似性,由表達(dá)式(2)給出。表達(dá)式(5)中dist(dm+1,S)定義了維度dm+1和維度集合S之間的距離。其中r(d1,d2,.....dm,dm+1)為維度集合S和維度dm+1之間的相似性。
內(nèi)容2:子空間聚類復(fù)雜結(jié)構(gòu)的有效可視化方法;在本發(fā)明中使用超圖描述子空間結(jié)構(gòu)。超圖的數(shù)據(jù)結(jié)構(gòu)由節(jié)點和邊組成。其中節(jié)點表示維度,邊表示維度的子集(即一個子空間)。一條邊可以連接多個節(jié)點。一條邊連接的維度節(jié)點張成一個子空間。在本發(fā)明中,提出了一種星形結(jié)構(gòu)來可視化超圖數(shù)據(jù)結(jié)構(gòu)。
星形結(jié)構(gòu)的表示過程為:
步驟1,找到需要用星形結(jié)構(gòu)包圍起來點集的最小包圍圓,記包圍圓的圓心為點C;如圖2a;
步驟2,將點集中的其它點與C點連接起來,組成星形結(jié)構(gòu)的初始骨架;
步驟3,通常為每個骨架選取5個以上的點做為控制點,選取的控制點應(yīng)該盡量均勻,并能夠?qū)⒐羌馨鼑饋?如圖2b);
步驟4,將兩個相鄰骨架的重疊區(qū)域中的控制點刪除(如圖2c中的空心圓);
步驟5,以控制點做為參考點,以逆時針為方向用一條b樣條曲線繪制出一個封閉的區(qū)域。此區(qū)域就是所需要的星形凸包結(jié)構(gòu)(如圖2d);
其中b樣條曲線是樣條曲線的一種,樣條曲線是指給定一組控制點而得到一條曲線,曲線的大致形狀由這些控制點予以控制。
內(nèi)容3:基于維度相關(guān)性的可視分析框架;包括維度視圖和數(shù)據(jù)視圖。
所述維度視圖包括維度點,超圖邊,圓形工作區(qū),如圖1維度視圖。其中維度點是指代表維度的點,超圖邊代表維度子集,即一個子空間,用星形結(jié)構(gòu)來可視表達(dá),圓形工作區(qū)包括內(nèi)圓和外圓,其中內(nèi)圓中指編輯區(qū)域(如圖1維度視圖中的編輯區(qū)域)(編輯區(qū)域是用來展現(xiàn)當(dāng)前被選中的點集,點集中的點按被選中順序,呈螺旋狀從內(nèi)到外分布),外圓和內(nèi)圓之間的區(qū)域(如圖1維度視圖中的內(nèi)圓與外圓之間的區(qū)域)分布著未選中的維度點。維度點的布局包含初始布局和動態(tài)布局。
維度點的初始布局為:用戶沒有進(jìn)行任何操作前,維度視圖的分布情況。維度點的初始布局由MDS算法給出;
所述由MDS算法得到維度點的初始布局步驟為:
步驟a,得到維度點距離矩陣:距離矩陣為各個維度與其余維度之間的距離組成,維度之間的距離由表達(dá)式(4)給出;
步驟b,得到維度點的布局信息:將距離矩陣作為MDS算法的輸入,將算法得到的 結(jié)果做為維度點在維度視圖中的坐標(biāo)信息;
維度點動態(tài)布局為:即維度視圖更新時使用的布局。維度點距離維度視圖中心的距離,會根據(jù)維度點與當(dāng)前正在編輯的子空間的距離進(jìn)行動態(tài)調(diào)整;當(dāng)編輯區(qū)域中的維度點集發(fā)生變化時,對每個不在編輯區(qū)域中的維度點做以下操作:
步驟a,運(yùn)用表達(dá)式(5)得到當(dāng)前維度點與正在編輯的子空間的距離d,0≤d≤1;
步驟b,將距離d映射到[a,b]范圍中,映射函數(shù)由表達(dá)式(6)給出。其中a代表小圓半徑,b代表大圓半徑,f代表映射的結(jié)果;
f=a+d*(b-a) (6)
步驟c,在當(dāng)前點與維度視圖中心點連線的方向上,將當(dāng)前點的距離調(diào)整為距離維度視圖中心為f的位置處;
在維度視圖中包含以下交互功能:
1),鼠標(biāo)點擊一個點/星形結(jié)構(gòu):如果該點/星形結(jié)構(gòu)位于編輯區(qū)域,則將該點/星形結(jié)構(gòu)移出編輯區(qū)域;如果該點/星形結(jié)構(gòu)不位于編輯區(qū)域,則將其放置到編輯區(qū)域內(nèi),最后更新維度視圖和數(shù)據(jù)視圖;
2),鼠標(biāo)懸停在點/星形結(jié)構(gòu)上:當(dāng)鼠標(biāo)懸在該點/星形結(jié)構(gòu)時,維度視圖的分布更新為鼠標(biāo)點擊該點/星形結(jié)構(gòu)后的情況;當(dāng)鼠標(biāo)移開時,維度視圖的分布還原到懸停前的樣子;
3),鼠標(biāo)圈選操作:圈選是在維度視圖上用鼠標(biāo)繪制一個多邊形,所有位于這個多邊形內(nèi)部的點集都將被賦予以下操作,如果該點位于編輯區(qū)域,則將該點移出編輯區(qū)域;如果該點不位于編輯區(qū)域,則將其放置到編輯區(qū)域內(nèi),最后更新維度視圖和數(shù)據(jù)視圖;
所述數(shù)據(jù)視圖為一系列的數(shù)據(jù)點組成,數(shù)據(jù)點的布局情況由MDS算法給出。
由MDS算法得到數(shù)據(jù)點的布局步驟為:
步驟a,得到距離矩陣:距離矩陣是數(shù)據(jù)點中每個數(shù)據(jù)點與其余的數(shù)據(jù)點之間的距離組成的一個矩陣;數(shù)據(jù)點與數(shù)據(jù)點之間的距離由表達(dá)式(7)給出,其中pi,pj代表的是第i個點和第j個數(shù)據(jù)點,dist(pi,pj)為數(shù)據(jù)點pi,pj之間的距離,S為輸入的子空間維度集,即維度視圖的編輯區(qū)域中包含的維度子集,S隨維度視圖中的編輯操作即時更新;d是指S中的某一個維度;pi(d),pj(d)分別代表的是pi,pj點在維度d上的值;
步驟b,得到數(shù)據(jù)點在數(shù)據(jù)中視圖中的分布:將距離矩陣作為MDS算法的輸入,將算法得到的結(jié)果做為數(shù)據(jù)點在數(shù)據(jù)視圖中的坐標(biāo)信息。
在數(shù)據(jù)視圖中包含以下操作:
1)圈選標(biāo)記顏色:圈選是在維度視圖上用鼠標(biāo)繪制一個多邊形,所有在這個多邊形內(nèi)部的點集都將被標(biāo)記為當(dāng)前指定的顏色;
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。