欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于互為共享最近鄰的層次聚類方法

文檔序號:6627860閱讀:786來源:國知局
基于互為共享最近鄰的層次聚類方法
【專利摘要】本發(fā)明公開了基于互為共享最近鄰的層次聚類方法,首先計算整個數(shù)據(jù)集D的最近鄰矩陣T1和最近鄰矩陣T2;由最近鄰矩陣T1和最近鄰矩陣T2計算出最近鄰排名矩陣M;通過最近鄰排名矩陣M計算出局部密度,得到子簇集合;最后計算子簇間的相似度,凝聚子簇得到最終劃分結(jié)果。本發(fā)明的基于互為共享最近鄰的層次聚類方法,解決了現(xiàn)有的基于K近鄰圖聚類在稀疏化和圖劃分過程中產(chǎn)生子簇集合時存在的點劃分錯誤導(dǎo)致聚類精度低的問題。
【專利說明】基于互為共享最近鄰的層次聚類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機科學(xué)與技術(shù)的數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,涉及一種基于互為共享最近 鄰的層次聚類方法。

【背景技術(shù)】
[0002] 在數(shù)據(jù)挖掘領(lǐng)域中聚類分析是一項重要的研究課題。聚類技術(shù)已經(jīng)被廣泛應(yīng)用到 電信業(yè)、零售業(yè)、生物學(xué)、市場營銷等領(lǐng)域。聚類是一種無監(jiān)督的分類,是用來發(fā)現(xiàn)數(shù)據(jù)集中 于對象本身特征而聚集成簇的數(shù)據(jù)點,并且保證簇內(nèi)具有盡可能大的相似度、簇間具有盡 可能大的相異度。現(xiàn)有的聚類算法一般分為:1·以K_means、Fuzzy K_means、k中心點為代 表的基于劃分的聚類算法;2.以QROCK、CURE、BIRCH、為代表的基于層次的聚類算法;3.以 DBSCAN、OPTICS為代表的基于密度的聚類算法;4.其他類型的聚類算法,例如基于子空間 的聚類算法或者基于模型的聚類算法。
[0003] 基于k近鄰圖的聚類算法如Chameleon算法在稀疏化和圖劃分的過程中產(chǎn)生的子 簇集合時,一個子簇包含的全部或者大部分的點是屬于同一個真正的簇。但是,其中包含的 錯誤數(shù)據(jù)可能會導(dǎo)致下個階段的凝聚層次聚類結(jié)果混合這些錯誤,導(dǎo)致更大的偏差?;?SNN相似度的Jarvis-Patrick算法存在著分裂一個真正的簇,合并本該分裂的簇。這兩類 算法的共同點是構(gòu)建了 k近鄰圖,或基于k近鄰的共享最近鄰的相似度圖,在稀疏化相似度 圖或K最近鄰圖時,就可能會將數(shù)據(jù)點劃分錯誤,并且在凝聚簇的過程中會將錯誤放大。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是提供一種基于互為共享最近鄰的層次聚類方法,解決了現(xiàn)有的基 于K近鄰圖聚類在稀疏化和圖劃分過程中產(chǎn)生子簇集合時存在的點劃分錯誤導(dǎo)致聚類精 度低的問題。
[0005] 本發(fā)明所采用的技術(shù)方案是,基于互為共享最近鄰的層次聚類方法,將待處理的 數(shù)據(jù)集設(shè)為D,設(shè)聚類數(shù)為K,設(shè)最近鄰值一為K1,設(shè)最近鄰值二為K2,具體按照以下步驟實 施:
[0006] 步驟1,分別通過最近鄰值一 K1和最近鄰值二K2計算數(shù)據(jù)集D的最近鄰矩陣,得 到最近鄰矩陣T1和最近鄰矩陣T2 ;
[0007] 步驟2,依次查找數(shù)據(jù)集D中每一個數(shù)據(jù)點i的最近鄰矩陣T2中的每一個鄰域點 的最近鄰矩陣T1,如果最近鄰矩陣T1中包含數(shù)據(jù)點i,則將最近鄰矩陣T2中的該數(shù)據(jù)點i 保留,否則將其刪除,得到數(shù)據(jù)點i的最近鄰排名矩陣%,遍歷數(shù)據(jù)集D中的所有數(shù)據(jù)點,得 到最近鄰排名矩陣Μ ;
[0008] 步驟3,通過最近鄰排名矩陣Μ計算出數(shù)據(jù)集D中每一個數(shù)據(jù)點i的局部密度Dp 并且將這些數(shù)據(jù)點按照局部密度Di的大小進行降序排列;
[0009] 步驟4,取排序后的前KX 10個數(shù)據(jù)點作為子簇中心點,并以子簇中心點和子簇中 心點的最近鄰排名矩陣中的最近鄰域點組成子簇;將未進行劃分的數(shù)據(jù)點劃分到該數(shù)據(jù)點 的最近鄰中最先出現(xiàn)的子簇中,得到若干子簇;
[0010] 步驟5,計算步驟4最終得到的各子簇兩兩之間的相似度,將相似度最大的子簇對 進行合并;
[0011] 步驟6,合并后的子簇數(shù)目如果小于K,則執(zhí)行步驟5 ;合并后的子簇數(shù)目如果等于 K,則執(zhí)行步驟7 ;
[0012] 步驟7,將數(shù)據(jù)集D中從未被分配的數(shù)據(jù)點i劃分到離未被分配的數(shù)據(jù)點最近的子 簇中,得到最終的劃分結(jié)果,劃分結(jié)果為K個子簇。
[0013] 本發(fā)明的特點還在于,
[0014] 步驟3中局部密度Di按照以下公式計算:
[0015] Dj = count (Mj), i e η (1)
[0016] 其中,Mi為最近鄰排名矩陣M中第i個數(shù)據(jù)點的最近鄰排名矩陣。
[0017] 步驟5中子簇兩兩之間的相似度按照以下方法計算:
[0018] 設(shè)有子簇(;,子簇?_,0〈?,j彡n,最近鄰排名矩陣M,貝u :子簇兩兩之間的相似度 為:
[0019]

【權(quán)利要求】
1. 基于互為共享最近鄰的層次聚類方法,其特征在于,將待處理的數(shù)據(jù)集設(shè)為D,設(shè)聚 類數(shù)為K,設(shè)最近鄰值一為K1,設(shè)最近鄰值二為K2,具體按照以下步驟實施: 步驟1,分別通過最近鄰值一 K1和最近鄰值二K2計算數(shù)據(jù)集D的最近鄰矩陣,得到最 近鄰矩陣T1和最近鄰矩陣T2 ; 步驟2,依次查找數(shù)據(jù)集D中每一個數(shù)據(jù)點i的最近鄰矩陣T2中的每一個鄰域點的最 近鄰矩陣T1,如果最近鄰矩陣T1中包含數(shù)據(jù)點i,則將最近鄰矩陣T2中的該數(shù)據(jù)點i保留, 否則將其刪除,得到數(shù)據(jù)點i的最近鄰排名矩陣遍歷數(shù)據(jù)集D中的所有數(shù)據(jù)點,得到最 近鄰排名矩陣Μ ; 步驟3,通過最近鄰排名矩陣Μ計算出數(shù)據(jù)集D中每一個數(shù)據(jù)點i的局部密度Di,并且 將這些數(shù)據(jù)點按照局部密度Di的大小進行降序排列; 步驟4,取排序后的前KX 10個數(shù)據(jù)點作為子簇中心點,并以子簇中心點和子簇中心點 的最近鄰排名矩陣中的最近鄰域點組成子簇;將未進行劃分的數(shù)據(jù)點劃分到該數(shù)據(jù)點的最 近鄰中最先出現(xiàn)的子簇中,得到若干子簇; 步驟5,計算步驟4最終得到的各子簇兩兩之間的相似度,將相似度最大的子簇對進行 合并; 步驟6,合并后的子簇數(shù)目如果小于K,則執(zhí)行步驟5 ;合并后的子簇數(shù)目如果等于K,則 執(zhí)行步驟7 ; 步驟7,將數(shù)據(jù)集D中從未被分配的數(shù)據(jù)點i劃分到離未被分配的數(shù)據(jù)點最近的子簇 中,得到最終的劃分結(jié)果,所述劃分結(jié)果為K個類簇。
2. 根據(jù)權(quán)利要求1所述的基于互為共享最近鄰的層次聚類方法,其特征在于,步驟3中 局部密度Di按照以下公式計算: Dj = count (Mj), i e η (1) 其中,Mi為最近鄰排名矩陣M中第i個數(shù)據(jù)點的最近鄰排名矩陣。
3. 根據(jù)權(quán)利要求1所述的基于互為共享最近鄰的層次聚類方法,其特征在于,步驟5中 子簇兩兩之間的相似度按照以下方法計算: 設(shè)有子簇(;,子簇Cp0〈i,j彡n,最近鄰排名矩陣M,則:子簇兩兩之間的相似度為:
其中,NumNeighborC^Cp是子簇Q中的點在最近鄰排名矩陣Μ中的所有最近鄰的點, 在這些最近鄰點的最近鄰域中,出現(xiàn)屬于子簇&的點的次數(shù); NumNeighborCi (CJ是子簇Q中的點在最近鄰排名矩陣Μ中的所有最近鄰的點,在這些 最近鄰點的最近鄰域中,出現(xiàn)屬于子簇Q的點的次數(shù); CountNeighboHCi)是子簇Q中的點在最近鄰排名矩陣Μ中的所有最近鄰的點,這些 最近鄰點分屬不同子簇的子簇數(shù); CountNeighbor (Cj)是子簇Cj中的點在最近鄰排名矩陣Μ中的所有最近鄰的點,這些 最近鄰點分屬不同子簇的子簇數(shù)。
4. 根據(jù)權(quán)利要求1中所述的基于互為共享最近鄰的層次聚類方法,其特征在于,步驟4 中所述將未進行劃分的數(shù)據(jù)點劃分到該數(shù)據(jù)點的最近鄰中最先出現(xiàn)的子簇中,是指該數(shù)據(jù) 點的最近鄰排名矩陣Mi中的所有最近鄰域點中如果包含有子簇中心點,就將該數(shù)據(jù)點i劃 分到該子簇中;如果該數(shù)據(jù)點i的最近鄰排名矩陣中的所有最近鄰域點中包含有多個子簇 中心點,則將該數(shù)據(jù)點i劃分到排名靠前的那個子簇中心點的子簇中。
5.根據(jù)權(quán)利要求1所述的基于互為共享最近鄰的層次聚類方法,其特征在于,步驟7中 離未被分配的數(shù)據(jù)點最近的子簇,指數(shù)據(jù)集D中從未被分配的數(shù)據(jù)點與步驟6中得到的K 個子簇之間的歐幾里得距離最小的子簇。
【文檔編號】G06F17/30GK104217015SQ201410488243
【公開日】2014年12月17日 申請日期:2014年9月22日 優(yōu)先權(quán)日:2014年9月22日
【發(fā)明者】周紅芳, 王心怡, 劉園, 郭杰, 段文聰, 何馨依, 劉杰, 李錦
申請人:西安理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
崇文区| 济宁市| 灵寿县| 扶余县| 北海市| 开化县| 曲水县| 梧州市| 浏阳市| 乌兰浩特市| 武功县| 永宁县| 兴隆县| 贵州省| 西昌市| 北碚区| 古田县| 和硕县| 靖边县| 洪洞县| 施秉县| 海口市| 禄劝| 玛沁县| 长兴县| 阳江市| 泸西县| 罗平县| 舒城县| 樟树市| 屏山县| 廊坊市| 射洪县| 万盛区| 柳州市| 周宁县| 柏乡县| 海盐县| 华宁县| 淮北市| 云和县|