基于互為共享最近鄰的層次聚類方法
【專利摘要】本發(fā)明公開了基于互為共享最近鄰的層次聚類方法,首先計算整個數(shù)據(jù)集D的最近鄰矩陣T1和最近鄰矩陣T2;由最近鄰矩陣T1和最近鄰矩陣T2計算出最近鄰排名矩陣M;通過最近鄰排名矩陣M計算出局部密度,得到子簇集合;最后計算子簇間的相似度,凝聚子簇得到最終劃分結(jié)果。本發(fā)明的基于互為共享最近鄰的層次聚類方法,解決了現(xiàn)有的基于K近鄰圖聚類在稀疏化和圖劃分過程中產(chǎn)生子簇集合時存在的點劃分錯誤導(dǎo)致聚類精度低的問題。
【專利說明】基于互為共享最近鄰的層次聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機科學(xué)與技術(shù)的數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,涉及一種基于互為共享最近 鄰的層次聚類方法。
【背景技術(shù)】
[0002] 在數(shù)據(jù)挖掘領(lǐng)域中聚類分析是一項重要的研究課題。聚類技術(shù)已經(jīng)被廣泛應(yīng)用到 電信業(yè)、零售業(yè)、生物學(xué)、市場營銷等領(lǐng)域。聚類是一種無監(jiān)督的分類,是用來發(fā)現(xiàn)數(shù)據(jù)集中 于對象本身特征而聚集成簇的數(shù)據(jù)點,并且保證簇內(nèi)具有盡可能大的相似度、簇間具有盡 可能大的相異度。現(xiàn)有的聚類算法一般分為:1·以K_means、Fuzzy K_means、k中心點為代 表的基于劃分的聚類算法;2.以QROCK、CURE、BIRCH、為代表的基于層次的聚類算法;3.以 DBSCAN、OPTICS為代表的基于密度的聚類算法;4.其他類型的聚類算法,例如基于子空間 的聚類算法或者基于模型的聚類算法。
[0003] 基于k近鄰圖的聚類算法如Chameleon算法在稀疏化和圖劃分的過程中產(chǎn)生的子 簇集合時,一個子簇包含的全部或者大部分的點是屬于同一個真正的簇。但是,其中包含的 錯誤數(shù)據(jù)可能會導(dǎo)致下個階段的凝聚層次聚類結(jié)果混合這些錯誤,導(dǎo)致更大的偏差?;?SNN相似度的Jarvis-Patrick算法存在著分裂一個真正的簇,合并本該分裂的簇。這兩類 算法的共同點是構(gòu)建了 k近鄰圖,或基于k近鄰的共享最近鄰的相似度圖,在稀疏化相似度 圖或K最近鄰圖時,就可能會將數(shù)據(jù)點劃分錯誤,并且在凝聚簇的過程中會將錯誤放大。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種基于互為共享最近鄰的層次聚類方法,解決了現(xiàn)有的基 于K近鄰圖聚類在稀疏化和圖劃分過程中產(chǎn)生子簇集合時存在的點劃分錯誤導(dǎo)致聚類精 度低的問題。
[0005] 本發(fā)明所采用的技術(shù)方案是,基于互為共享最近鄰的層次聚類方法,將待處理的 數(shù)據(jù)集設(shè)為D,設(shè)聚類數(shù)為K,設(shè)最近鄰值一為K1,設(shè)最近鄰值二為K2,具體按照以下步驟實 施:
[0006] 步驟1,分別通過最近鄰值一 K1和最近鄰值二K2計算數(shù)據(jù)集D的最近鄰矩陣,得 到最近鄰矩陣T1和最近鄰矩陣T2 ;
[0007] 步驟2,依次查找數(shù)據(jù)集D中每一個數(shù)據(jù)點i的最近鄰矩陣T2中的每一個鄰域點 的最近鄰矩陣T1,如果最近鄰矩陣T1中包含數(shù)據(jù)點i,則將最近鄰矩陣T2中的該數(shù)據(jù)點i 保留,否則將其刪除,得到數(shù)據(jù)點i的最近鄰排名矩陣%,遍歷數(shù)據(jù)集D中的所有數(shù)據(jù)點,得 到最近鄰排名矩陣Μ ;
[0008] 步驟3,通過最近鄰排名矩陣Μ計算出數(shù)據(jù)集D中每一個數(shù)據(jù)點i的局部密度Dp 并且將這些數(shù)據(jù)點按照局部密度Di的大小進行降序排列;
[0009] 步驟4,取排序后的前KX 10個數(shù)據(jù)點作為子簇中心點,并以子簇中心點和子簇中 心點的最近鄰排名矩陣中的最近鄰域點組成子簇;將未進行劃分的數(shù)據(jù)點劃分到該數(shù)據(jù)點 的最近鄰中最先出現(xiàn)的子簇中,得到若干子簇;
[0010] 步驟5,計算步驟4最終得到的各子簇兩兩之間的相似度,將相似度最大的子簇對 進行合并;
[0011] 步驟6,合并后的子簇數(shù)目如果小于K,則執(zhí)行步驟5 ;合并后的子簇數(shù)目如果等于 K,則執(zhí)行步驟7 ;
[0012] 步驟7,將數(shù)據(jù)集D中從未被分配的數(shù)據(jù)點i劃分到離未被分配的數(shù)據(jù)點最近的子 簇中,得到最終的劃分結(jié)果,劃分結(jié)果為K個子簇。
[0013] 本發(fā)明的特點還在于,
[0014] 步驟3中局部密度Di按照以下公式計算:
[0015] Dj = count (Mj), i e η (1)
[0016] 其中,Mi為最近鄰排名矩陣M中第i個數(shù)據(jù)點的最近鄰排名矩陣。
[0017] 步驟5中子簇兩兩之間的相似度按照以下方法計算:
[0018] 設(shè)有子簇(;,子簇?_,0〈?,j彡n,最近鄰排名矩陣M,貝u :子簇兩兩之間的相似度 為:
[0019]
【權(quán)利要求】
1. 基于互為共享最近鄰的層次聚類方法,其特征在于,將待處理的數(shù)據(jù)集設(shè)為D,設(shè)聚 類數(shù)為K,設(shè)最近鄰值一為K1,設(shè)最近鄰值二為K2,具體按照以下步驟實施: 步驟1,分別通過最近鄰值一 K1和最近鄰值二K2計算數(shù)據(jù)集D的最近鄰矩陣,得到最 近鄰矩陣T1和最近鄰矩陣T2 ; 步驟2,依次查找數(shù)據(jù)集D中每一個數(shù)據(jù)點i的最近鄰矩陣T2中的每一個鄰域點的最 近鄰矩陣T1,如果最近鄰矩陣T1中包含數(shù)據(jù)點i,則將最近鄰矩陣T2中的該數(shù)據(jù)點i保留, 否則將其刪除,得到數(shù)據(jù)點i的最近鄰排名矩陣遍歷數(shù)據(jù)集D中的所有數(shù)據(jù)點,得到最 近鄰排名矩陣Μ ; 步驟3,通過最近鄰排名矩陣Μ計算出數(shù)據(jù)集D中每一個數(shù)據(jù)點i的局部密度Di,并且 將這些數(shù)據(jù)點按照局部密度Di的大小進行降序排列; 步驟4,取排序后的前KX 10個數(shù)據(jù)點作為子簇中心點,并以子簇中心點和子簇中心點 的最近鄰排名矩陣中的最近鄰域點組成子簇;將未進行劃分的數(shù)據(jù)點劃分到該數(shù)據(jù)點的最 近鄰中最先出現(xiàn)的子簇中,得到若干子簇; 步驟5,計算步驟4最終得到的各子簇兩兩之間的相似度,將相似度最大的子簇對進行 合并; 步驟6,合并后的子簇數(shù)目如果小于K,則執(zhí)行步驟5 ;合并后的子簇數(shù)目如果等于K,則 執(zhí)行步驟7 ; 步驟7,將數(shù)據(jù)集D中從未被分配的數(shù)據(jù)點i劃分到離未被分配的數(shù)據(jù)點最近的子簇 中,得到最終的劃分結(jié)果,所述劃分結(jié)果為K個類簇。
2. 根據(jù)權(quán)利要求1所述的基于互為共享最近鄰的層次聚類方法,其特征在于,步驟3中 局部密度Di按照以下公式計算: Dj = count (Mj), i e η (1) 其中,Mi為最近鄰排名矩陣M中第i個數(shù)據(jù)點的最近鄰排名矩陣。
3. 根據(jù)權(quán)利要求1所述的基于互為共享最近鄰的層次聚類方法,其特征在于,步驟5中 子簇兩兩之間的相似度按照以下方法計算: 設(shè)有子簇(;,子簇Cp0〈i,j彡n,最近鄰排名矩陣M,則:子簇兩兩之間的相似度為:
其中,NumNeighborC^Cp是子簇Q中的點在最近鄰排名矩陣Μ中的所有最近鄰的點, 在這些最近鄰點的最近鄰域中,出現(xiàn)屬于子簇&的點的次數(shù); NumNeighborCi (CJ是子簇Q中的點在最近鄰排名矩陣Μ中的所有最近鄰的點,在這些 最近鄰點的最近鄰域中,出現(xiàn)屬于子簇Q的點的次數(shù); CountNeighboHCi)是子簇Q中的點在最近鄰排名矩陣Μ中的所有最近鄰的點,這些 最近鄰點分屬不同子簇的子簇數(shù); CountNeighbor (Cj)是子簇Cj中的點在最近鄰排名矩陣Μ中的所有最近鄰的點,這些 最近鄰點分屬不同子簇的子簇數(shù)。
4. 根據(jù)權(quán)利要求1中所述的基于互為共享最近鄰的層次聚類方法,其特征在于,步驟4 中所述將未進行劃分的數(shù)據(jù)點劃分到該數(shù)據(jù)點的最近鄰中最先出現(xiàn)的子簇中,是指該數(shù)據(jù) 點的最近鄰排名矩陣Mi中的所有最近鄰域點中如果包含有子簇中心點,就將該數(shù)據(jù)點i劃 分到該子簇中;如果該數(shù)據(jù)點i的最近鄰排名矩陣中的所有最近鄰域點中包含有多個子簇 中心點,則將該數(shù)據(jù)點i劃分到排名靠前的那個子簇中心點的子簇中。
5.根據(jù)權(quán)利要求1所述的基于互為共享最近鄰的層次聚類方法,其特征在于,步驟7中 離未被分配的數(shù)據(jù)點最近的子簇,指數(shù)據(jù)集D中從未被分配的數(shù)據(jù)點與步驟6中得到的K 個子簇之間的歐幾里得距離最小的子簇。
【文檔編號】G06F17/30GK104217015SQ201410488243
【公開日】2014年12月17日 申請日期:2014年9月22日 優(yōu)先權(quán)日:2014年9月22日
【發(fā)明者】周紅芳, 王心怡, 劉園, 郭杰, 段文聰, 何馨依, 劉杰, 李錦
申請人:西安理工大學(xué)