一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘預(yù)處理技術(shù)領(lǐng)域,具體來(lái)說(shuō)是一種基于Canopy聚類(lèi)和BIRCH 層次聚類(lèi)的連續(xù)屬性離散化方法。
【背景技術(shù)】
[0002] 連續(xù)屬性離散化是數(shù)據(jù)挖掘的重要預(yù)處理步驟,直接影響到數(shù)據(jù)挖掘的效果。目 前,很多數(shù)據(jù)挖掘算法在建模前都要求連續(xù)屬性離散化,如粗糙集算法。連續(xù)屬性的離散化 是指在特定的連續(xù)屬性的值域范圍內(nèi)設(shè)定若干個(gè)劃分點(diǎn),將屬性的值域范圍劃分為一些離 散化的區(qū)間,最后用不同的符號(hào)或整數(shù)代表落在每個(gè)自區(qū)間中的屬性值。連續(xù)屬性離散化 本質(zhì)上可歸結(jié)為利用選取的斷點(diǎn)來(lái)對(duì)條件屬性的空間進(jìn)行劃分的問(wèn)題,即將m維(假設(shè)有 m個(gè)條件屬性)空間劃分成n個(gè)(n〈card(U))區(qū)域,每個(gè)區(qū)域中對(duì)象的決策值相同,則每個(gè) 這樣的區(qū)域?qū)?yīng)一個(gè)離散后決策系統(tǒng)中的一個(gè)對(duì)象。
[0003] 目前,連續(xù)屬性離散化方法大致上可以歸為非監(jiān)督離散化和有監(jiān)督離散化兩大 類(lèi):
[0004] 有監(jiān)督離散化方法,如統(tǒng)計(jì)檢驗(yàn)法、信息熵法、貪心算法及其改進(jìn)算法等,此類(lèi)方 法的優(yōu)勢(shì)是考慮了連續(xù)屬性離散化時(shí)對(duì)象的分類(lèi)信息,缺點(diǎn)是忽略了樣本間的關(guān)聯(lián)性,因 而容易造成不合理的離散化或產(chǎn)生太多的離散化區(qū)間數(shù)目。
[0005] 非監(jiān)督離散化方法,如密度分布聚類(lèi)、超立方體聚類(lèi)、Canopy聚類(lèi)等,此類(lèi)方法的 優(yōu)勢(shì)是簡(jiǎn)單、易于操作,但由于不帶類(lèi)別信息,此類(lèi)方法需要事先人為地指定聚類(lèi)簇?cái)?shù)且大 多沒(méi)有考慮對(duì)象的分類(lèi)信息,因此,離散化效果往往不太理想。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中離散化效果差、離散化不合理的缺陷,提供 一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化方法來(lái)解決上述問(wèn)題。
[0007] 為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下:
[0008] 一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化方法,包括以下步驟:
[0009] 利用Canopy聚類(lèi)實(shí)現(xiàn)連續(xù)屬性數(shù)據(jù)初始聚類(lèi);設(shè)置合理的距離閾值Tl、T2,其中 閾值Tl、T2為劃分Canopy大小的度量;利用Canopy聚類(lèi)方法,將相似對(duì)象放在一個(gè)子集 Cluster中;經(jīng)處理后獲取各個(gè)Cluster的質(zhì)心,完成數(shù)據(jù)初始聚類(lèi);
[0010] 以初始聚類(lèi)中心為樣本,通過(guò)BIRCH層次聚類(lèi)進(jìn)行二次聚類(lèi);利用Canopy聚類(lèi)輸 出的Cluster質(zhì)心,結(jié)合聚類(lèi)特征可加性原理構(gòu)建聚類(lèi)特征CF和聚類(lèi)特征樹(shù)CF樹(shù);通過(guò) BIRCH聚類(lèi)方法把稀疏的簇當(dāng)做離群點(diǎn)刪除,將稠密的簇合并為更大的簇,實(shí)現(xiàn)數(shù)據(jù)集的二 次聚類(lèi);
[0011] 對(duì)斷點(diǎn)集任一樣本找出其所在維各聚類(lèi)中心的最近鄰,以此作為離散微調(diào)依據(jù), 實(shí)現(xiàn)連續(xù)屬性的離散化;以BIRCH聚類(lèi)算法的聚類(lèi)中心為斷點(diǎn)集,以輪廓系數(shù)作為聚類(lèi)效 果評(píng)價(jià)指標(biāo),以不相容度作為離散效果評(píng)價(jià)指標(biāo),對(duì)數(shù)據(jù)集任一樣本找出其所在維各聚類(lèi) 中心的最近鄰,以此作為離散微調(diào)依據(jù),將聚類(lèi)微調(diào)的結(jié)果作為最終連續(xù)屬性離散結(jié)果。
[0012] 所述的Canopy聚類(lèi)方法包括以下步驟:
[0013] 將數(shù)據(jù)集預(yù)處理后得到List集合,經(jīng)十折交叉驗(yàn)證方法后選擇兩個(gè)距離閾值T1 和 T2,且 T1>T2 ;
[0014] 循環(huán)List集合,從List集合中任取一點(diǎn)t,用距離度量快速計(jì)算點(diǎn)t與所有 Canopy之間的距離;
[0015] 若點(diǎn)t與某個(gè)Canopy距離在T1以?xún)?nèi),則將點(diǎn)t加入到該Canopy ;
[0016] 若點(diǎn)t與某個(gè)Canopy的距離在T2以?xún)?nèi),則把點(diǎn)t從List中刪除。
[0017] 所述的Cluster的質(zhì)心計(jì)算公式如下:
[0018]
【主權(quán)項(xiàng)】
1. 一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化方法,其特征在于,包括 以下步驟: 11) 利用Canopy聚類(lèi)實(shí)現(xiàn)連續(xù)屬性數(shù)據(jù)初始聚類(lèi);設(shè)置合理的距離閾值Tl、T2,其中 閾值Tl、T2為劃分Canopy大小的度量;利用Canopy聚類(lèi)方法,將相似對(duì)象放在一個(gè)子集 Cluster中;經(jīng)處理后獲取各個(gè)Cluster的質(zhì)心,完成數(shù)據(jù)初始聚類(lèi); 12) 以初始聚類(lèi)中心為樣本,通過(guò)BIRCH層次聚類(lèi)進(jìn)行二次聚類(lèi);利用Canopy聚類(lèi)輸 出的Cluster質(zhì)心,結(jié)合聚類(lèi)特征可加性原理構(gòu)建聚類(lèi)特征CF和聚類(lèi)特征樹(shù)CF樹(shù);通過(guò) BIRCH聚類(lèi)方法把稀疏的簇當(dāng)做離群點(diǎn)刪除,將稠密的簇合并為更大的簇,實(shí)現(xiàn)數(shù)據(jù)集的二 次聚類(lèi); 13) 對(duì)斷點(diǎn)集任一樣本找出其所在維各聚類(lèi)中心的最近鄰,以此作為離散微調(diào)依據(jù),實(shí) 現(xiàn)連續(xù)屬性的離散化;以BIRCH聚類(lèi)算法的聚類(lèi)中心為斷點(diǎn)集,以輪廓系數(shù)作為聚類(lèi)效果 評(píng)價(jià)指標(biāo),以不相容度作為離散效果評(píng)價(jià)指標(biāo),對(duì)數(shù)據(jù)集任一樣本找出其所在維各聚類(lèi)中 心的最近鄰,以此作為離散微調(diào)依據(jù),將聚類(lèi)微調(diào)的結(jié)果作為最終連續(xù)屬性離散結(jié)果。
2. 根據(jù)權(quán)利要求1所述的一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化 方法,其特征在于,所述的Canopy聚類(lèi)方法包括以下步驟: 21) 將數(shù)據(jù)集預(yù)處理后得到List集合,經(jīng)十折交叉驗(yàn)證方法后選擇兩個(gè)距離閾值T1和 T2,且T1>T2 ; 22) 循環(huán)List集合,從List集合中任取一點(diǎn)t,用距離度量快速計(jì)算點(diǎn)t與所有Canopy 之間的距離; 若點(diǎn)t與某個(gè)Canopy距離在T1以?xún)?nèi),則將點(diǎn)t加入到該Canopy; 若點(diǎn)t與某個(gè)Canopy的距離在T2以?xún)?nèi),則把點(diǎn)t從List中刪除。
3. 根據(jù)權(quán)利要求1所述的一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化 方法,其特征在于,所述的Cluster的質(zhì)心計(jì)算公式如下:
其中:C/為簇Cj的聚類(lèi)中心;n為樣本數(shù)目;為簇j時(shí)第k個(gè)屬性第n條樣本。
4. 根據(jù)權(quán)利要求1所述的一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化 方法,其特征在于,所述的結(jié)合聚類(lèi)特征可加性原理構(gòu)建聚類(lèi)特征CF和聚類(lèi)特征樹(shù)CF樹(shù)包 括以下步驟: 41) 定義聚類(lèi)特征CF為三元組,CF= {n,LS,SS}, 其中n是聚類(lèi)數(shù)據(jù)的數(shù)目,LS是n個(gè)數(shù)據(jù)點(diǎn)的線(xiàn)性和,SS是s個(gè)數(shù)據(jù)點(diǎn)的平方和; 42) 以聚類(lèi)特征CF為基礎(chǔ),推導(dǎo)出簇的形心X(l、簇的半徑R,公式如下:
R為成員對(duì)象到形心X〇的平均距離; 43)假設(shè)CF1=(N^LSpSSJ、CF2= (N2,LS2,SS2),CFJPCF^別為兩個(gè)類(lèi)的聚類(lèi)特 征; 合并后新簇的聚類(lèi)特征為CFi+CF2=(Ni+N2,LSi+LS2,SSi+SS2)。
5. 根據(jù)權(quán)利要求1所述的一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化 方法,其特征在于,所述的輪廓系數(shù)S的取值范圍在[_1,1]之間變化,在此范圍內(nèi),值越大 聚類(lèi)效果越好,輪廓系數(shù)S的計(jì)算公式如下:
其中,%是樣本i到本簇中所有其他樣本的平均距離;bi是樣本i到不包含該樣本的 其他任意簇中所有樣本平均距離的最小值。
6. 根據(jù)權(quán)利要求1所述的一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化 方法,其特征在于,所述的不相容度的計(jì)算步驟如下: 61) 設(shè)知識(shí)表達(dá)系統(tǒng)R= (U,A,V,f),A為一個(gè)有限屬性集合,v為屬性a的值域, f:UXA-V為{目息函數(shù),即:VfleJ,xGU,f(x,a)GVa; 62) 屬性Ai的不相容度公式如下:
其中,AiT為只考慮條件屬性時(shí)論域中不相容樣本的集合,Card(A廣)、Card(U)分別為集 合A'U的基數(shù); 63) 整個(gè)決策表的相容性度量如下所示:
設(shè)定不相容度誤差界限0 = 〇. 25,a= 1(T7,則每個(gè)屬性的不相容度近似估計(jì)值為:
,離散后的屬性不相容度滿(mǎn)足|ai-aT| = |&廠(chǎng)0.1|〈0.25。
7. 根據(jù)權(quán)利要求1所述的一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化 方法,其特征在于,所述的聚類(lèi)離散微調(diào)包括以下步驟: 71) 對(duì)斷點(diǎn)集任一樣本i找出其所在維各聚類(lèi)中心的最近鄰; 72) 將最近鄰的聚類(lèi)中心標(biāo)識(shí)賦予i,實(shí)現(xiàn)了樣本到其所屬聚類(lèi)中心的微調(diào),實(shí)現(xiàn)了連 續(xù)屬性離散化。
【專(zhuān)利摘要】本發(fā)明涉及一種基于Canopy聚類(lèi)和BIRCH層次聚類(lèi)的連續(xù)屬性離散化方法,與現(xiàn)有技術(shù)相比解決了離散化效果差、離散化不合理的缺陷。本發(fā)明包括以下步驟:利用Canopy聚類(lèi)實(shí)現(xiàn)連續(xù)屬性數(shù)據(jù)初始聚類(lèi);以初始聚類(lèi)中心為樣本,通過(guò)BIRCH層次聚類(lèi)進(jìn)行二次聚類(lèi);對(duì)斷點(diǎn)集任一樣本找出其所在維各聚類(lèi)中心的最近鄰,以此作為離散微調(diào)依據(jù),實(shí)現(xiàn)連續(xù)屬性的離散化。本發(fā)明可解決高維、大數(shù)據(jù)樣本的連續(xù)屬性離散化方法,減少連續(xù)屬性值的數(shù)目,降低系統(tǒng)對(duì)存儲(chǔ)空間的依賴(lài),使離散化后的數(shù)據(jù)更規(guī)約和簡(jiǎn)化,便于理解、使用和解釋?zhuān)瑪U(kuò)大了適用范圍。
【IPC分類(lèi)】G06F17-30
【公開(kāi)號(hào)】CN104573050
【申請(qǐng)?zhí)枴緾N201510028384
【發(fā)明人】閆永剛, 陶剛, 劉俊, 張小兵, 張曉花
【申請(qǐng)人】安徽科力信息產(chǎn)業(yè)有限責(zé)任公司
【公開(kāi)日】2015年4月29日
【申請(qǐng)日】2015年1月20日