基于互為共享最近鄰的層次聚類方法

文檔序號：6627860閱讀：786來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于互為共享最近鄰的層次聚類方法
【專利摘要】本發(fā)明公開了基于互為共享最近鄰的層次聚類方法，首先計算整個數(shù)據(jù)集D的最近鄰矩陣T1和最近鄰矩陣T2;由最近鄰矩陣T1和最近鄰矩陣T2計算出最近鄰排名矩陣M;通過最近鄰排名矩陣M計算出局部密度，得到子簇集合；最后計算子簇間的相似度，凝聚子簇得到最終劃分結(jié)果。本發(fā)明的基于互為共享最近鄰的層次聚類方法，解決了現(xiàn)有的基于K近鄰圖聚類在稀疏化和圖劃分過程中產(chǎn)生子簇集合時存在的點劃分錯誤導(dǎo)致聚類精度低的問題。
【專利說明】基于互為共享最近鄰的層次聚類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機科學(xué)與技術(shù)的數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】，涉及一種基于互為共享最近鄰的層次聚類方法。

【背景技術(shù)】
[0002] 在數(shù)據(jù)挖掘領(lǐng)域中聚類分析是一項重要的研究課題。聚類技術(shù)已經(jīng)被廣泛應(yīng)用到電信業(yè)、零售業(yè)、生物學(xué)、市場營銷等領(lǐng)域。聚類是一種無監(jiān)督的分類，是用來發(fā)現(xiàn)數(shù)據(jù)集中于對象本身特征而聚集成簇的數(shù)據(jù)點，并且保證簇內(nèi)具有盡可能大的相似度、簇間具有盡可能大的相異度。現(xiàn)有的聚類算法一般分為：1·以K_means、Fuzzy K_means、k中心點為代表的基于劃分的聚類算法；2.以QROCK、CURE、BIRCH、為代表的基于層次的聚類算法；3.以 DBSCAN、OPTICS為代表的基于密度的聚類算法；4.其他類型的聚類算法，例如基于子空間的聚類算法或者基于模型的聚類算法。
[0003] 基于k近鄰圖的聚類算法如Chameleon算法在稀疏化和圖劃分的過程中產(chǎn)生的子簇集合時，一個子簇包含的全部或者大部分的點是屬于同一個真正的簇。但是，其中包含的錯誤數(shù)據(jù)可能會導(dǎo)致下個階段的凝聚層次聚類結(jié)果混合這些錯誤，導(dǎo)致更大的偏差?；?SNN相似度的Jarvis-Patrick算法存在著分裂一個真正的簇，合并本該分裂的簇。這兩類算法的共同點是構(gòu)建了 k近鄰圖，或基于k近鄰的共享最近鄰的相似度圖，在稀疏化相似度圖或K最近鄰圖時，就可能會將數(shù)據(jù)點劃分錯誤，并且在凝聚簇的過程中會將錯誤放大。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是提供一種基于互為共享最近鄰的層次聚類方法，解決了現(xiàn)有的基于K近鄰圖聚類在稀疏化和圖劃分過程中產(chǎn)生子簇集合時存在的點劃分錯誤導(dǎo)致聚類精度低的問題。
[0005] 本發(fā)明所采用的技術(shù)方案是，基于互為共享最近鄰的層次聚類方法，將待處理的數(shù)據(jù)集設(shè)為D，設(shè)聚類數(shù)為K，設(shè)最近鄰值一為K1，設(shè)最近鄰值二為K2,具體按照以下步驟實施：
[0006] 步驟1，分別通過最近鄰值一 K1和最近鄰值二K2計算數(shù)據(jù)集D的最近鄰矩陣，得到最近鄰矩陣T1和最近鄰矩陣T2 ;
[0007] 步驟2,依次查找數(shù)據(jù)集D中每一個數(shù)據(jù)點i的最近鄰矩陣T2中的每一個鄰域點的最近鄰矩陣T1，如果最近鄰矩陣T1中包含數(shù)據(jù)點i，則將最近鄰矩陣T2中的該數(shù)據(jù)點i 保留，否則將其刪除，得到數(shù)據(jù)點i的最近鄰排名矩陣％，遍歷數(shù)據(jù)集D中的所有數(shù)據(jù)點，得到最近鄰排名矩陣Μ ;
[0008] 步驟3,通過最近鄰排名矩陣Μ計算出數(shù)據(jù)集D中每一個數(shù)據(jù)點i的局部密度Dp 并且將這些數(shù)據(jù)點按照局部密度Di的大小進行降序排列；
[0009] 步驟4,取排序后的前KX 10個數(shù)據(jù)點作為子簇中心點，并以子簇中心點和子簇中心點的最近鄰排名矩陣中的最近鄰域點組成子簇；將未進行劃分的數(shù)據(jù)點劃分到該數(shù)據(jù)點的最近鄰中最先出現(xiàn)的子簇中，得到若干子簇；
[0010] 步驟5,計算步驟4最終得到的各子簇兩兩之間的相似度，將相似度最大的子簇對進行合并；
[0011] 步驟6,合并后的子簇數(shù)目如果小于K，則執(zhí)行步驟5 ;合并后的子簇數(shù)目如果等于 K，則執(zhí)行步驟7 ;
[0012] 步驟7,將數(shù)據(jù)集D中從未被分配的數(shù)據(jù)點i劃分到離未被分配的數(shù)據(jù)點最近的子簇中，得到最終的劃分結(jié)果，劃分結(jié)果為K個子簇。
[0013] 本發(fā)明的特點還在于，
[0014] 步驟3中局部密度Di按照以下公式計算：
[0015] Dj = count (Mj), i e η (1)
[0016] 其中，Mi為最近鄰排名矩陣M中第i個數(shù)據(jù)點的最近鄰排名矩陣。
[0017] 步驟5中子簇兩兩之間的相似度按照以下方法計算：
[0018] 設(shè)有子簇(；，子簇?_，0〈?，j彡n，最近鄰排名矩陣M，貝u :子簇兩兩之間的相似度為：
[0019]

【權(quán)利要求】
1. 基于互為共享最近鄰的層次聚類方法，其特征在于，將待處理的數(shù)據(jù)集設(shè)為D，設(shè)聚類數(shù)為K，設(shè)最近鄰值一為K1，設(shè)最近鄰值二為K2,具體按照以下步驟實施：步驟1，分別通過最近鄰值一 K1和最近鄰值二K2計算數(shù)據(jù)集D的最近鄰矩陣，得到最近鄰矩陣T1和最近鄰矩陣T2 ; 步驟2,依次查找數(shù)據(jù)集D中每一個數(shù)據(jù)點i的最近鄰矩陣T2中的每一個鄰域點的最近鄰矩陣T1，如果最近鄰矩陣T1中包含數(shù)據(jù)點i，則將最近鄰矩陣T2中的該數(shù)據(jù)點i保留，否則將其刪除，得到數(shù)據(jù)點i的最近鄰排名矩陣遍歷數(shù)據(jù)集D中的所有數(shù)據(jù)點，得到最近鄰排名矩陣Μ ; 步驟3,通過最近鄰排名矩陣Μ計算出數(shù)據(jù)集D中每一個數(shù)據(jù)點i的局部密度Di，并且將這些數(shù)據(jù)點按照局部密度Di的大小進行降序排列；步驟4,取排序后的前KX 10個數(shù)據(jù)點作為子簇中心點，并以子簇中心點和子簇中心點的最近鄰排名矩陣中的最近鄰域點組成子簇；將未進行劃分的數(shù)據(jù)點劃分到該數(shù)據(jù)點的最近鄰中最先出現(xiàn)的子簇中，得到若干子簇；步驟5,計算步驟4最終得到的各子簇兩兩之間的相似度，將相似度最大的子簇對進行合并；步驟6,合并后的子簇數(shù)目如果小于K，則執(zhí)行步驟5 ;合并后的子簇數(shù)目如果等于K，則執(zhí)行步驟7 ; 步驟7,將數(shù)據(jù)集D中從未被分配的數(shù)據(jù)點i劃分到離未被分配的數(shù)據(jù)點最近的子簇中，得到最終的劃分結(jié)果，所述劃分結(jié)果為K個類簇。
2. 根據(jù)權(quán)利要求1所述的基于互為共享最近鄰的層次聚類方法，其特征在于，步驟3中局部密度Di按照以下公式計算： Dj = count (Mj), i e η (1) 其中，Mi為最近鄰排名矩陣M中第i個數(shù)據(jù)點的最近鄰排名矩陣。
3. 根據(jù)權(quán)利要求1所述的基于互為共享最近鄰的層次聚類方法，其特征在于，步驟5中子簇兩兩之間的相似度按照以下方法計算：設(shè)有子簇(；，子簇Cp0〈i，j彡n，最近鄰排名矩陣M，則：子簇兩兩之間的相似度為：
其中，NumNeighborC^Cp是子簇Q中的點在最近鄰排名矩陣Μ中的所有最近鄰的點，在這些最近鄰點的最近鄰域中，出現(xiàn)屬于子簇&的點的次數(shù)； NumNeighborCi (CJ是子簇Q中的點在最近鄰排名矩陣Μ中的所有最近鄰的點，在這些最近鄰點的最近鄰域中，出現(xiàn)屬于子簇Q的點的次數(shù)； CountNeighboHCi)是子簇Q中的點在最近鄰排名矩陣Μ中的所有最近鄰的點，這些最近鄰點分屬不同子簇的子簇數(shù)； CountNeighbor (Cj)是子簇Cj中的點在最近鄰排名矩陣Μ中的所有最近鄰的點，這些最近鄰點分屬不同子簇的子簇數(shù)。
4. 根據(jù)權(quán)利要求1中所述的基于互為共享最近鄰的層次聚類方法，其特征在于，步驟4 中所述將未進行劃分的數(shù)據(jù)點劃分到該數(shù)據(jù)點的最近鄰中最先出現(xiàn)的子簇中，是指該數(shù)據(jù) 點的最近鄰排名矩陣Mi中的所有最近鄰域點中如果包含有子簇中心點，就將該數(shù)據(jù)點i劃分到該子簇中；如果該數(shù)據(jù)點i的最近鄰排名矩陣中的所有最近鄰域點中包含有多個子簇中心點，則將該數(shù)據(jù)點i劃分到排名靠前的那個子簇中心點的子簇中。
5.根據(jù)權(quán)利要求1所述的基于互為共享最近鄰的層次聚類方法，其特征在于，步驟7中離未被分配的數(shù)據(jù)點最近的子簇，指數(shù)據(jù)集D中從未被分配的數(shù)據(jù)點與步驟6中得到的K 個子簇之間的歐幾里得距離最小的子簇。
【文檔編號】G06F17/30GK104217015SQ201410488243
【公開日】2014年12月17日申請日期:2014年9月22日優(yōu)先權(quán)日:2014年9月22日
【發(fā)明者】周紅芳, 王心怡, 劉園, 郭杰, 段文聰, 何馨依, 劉杰, 李錦
申請人:西安理工大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周紅芳;王心怡;劉園;郭杰;段文聰;何馨依;劉杰;李錦
技術(shù)所有人：西安理工大學(xué)
我是此專利的發(fā)明人

上一篇：身份認(rèn)證方法及裝置制造方法
上一篇：一種基于水循環(huán)的農(nóng)田面源污染測算方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

層次聚類相關(guān)技術(shù)

層次聚類算法相關(guān)技術(shù)

層次聚類分析相關(guān)技術(shù)

層次聚類法相關(guān)技術(shù)

層次聚類方法相關(guān)技術(shù)

凝聚層次聚類相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于互為共享最近鄰的層次聚類方法