一種數(shù)據(jù)挖掘中基于線性判別分析的改進型k均值聚類方法
【專利摘要】一種數(shù)據(jù)挖掘中基于線性判別分析的改進型k均值聚類方法,即LKM算法,首先運用線性判別分析(LDA)對原始的n維數(shù)據(jù)集A進行線性降維,得到l維的數(shù)據(jù)集Y,然后運用k均值聚類算法對于降維后的數(shù)據(jù)集Y進行聚類分析,并輸出最終結果。本發(fā)明采用數(shù)據(jù)降維與K均值聚類方法結合的方法,利用數(shù)據(jù)降維技術彌補k均值聚類算法面對高維數(shù)據(jù)時的缺陷。通過數(shù)據(jù)降維來達到減輕維數(shù)災難和消除高維空間中其他不相關屬性的目的。同時,這也提高了k均值聚類算法處理高維數(shù)據(jù)的性能,彌補了k均值聚類算法的相關缺陷。
【專利說明】一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法
【技術領域】
[0001]本發(fā)明是一種基于線性判別分析(Linear discriminant analysis, LDA)對K均值聚類方法進行性能改進的優(yōu)化方法,即LKM (LDA-based K-Means algorithm)算法,屬于數(shù)據(jù)挖掘中的聚類分析研究領域。
【背景技術】
[0002]聚類分析是數(shù)據(jù)挖掘中的一個重要研究領域,是一種數(shù)據(jù)劃分或分組處理的重要手段和方法。目前聚類算法大體上分為基于劃分的方法、基于層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法以及模糊聚類。K均值聚類方法是一種很典型的基于距離劃分的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似性就越大。由于其算法思想簡便,又容易實現(xiàn)對大規(guī)模數(shù)據(jù)的聚類,因此K均值聚類方法己成為最常用的聚類算法之一。
[0003]目前,K均值聚類方法仍然存在著不少缺點,主要的問題有以下幾個方面:(1)嚴重依賴于初始中心點的選??;(2)聚類個數(shù)K需要預先給定;(3)聚類結果易受噪聲點數(shù)據(jù)的影響;(4)不適用于大數(shù)據(jù)量的聚類問題;(5)不能對高維數(shù)據(jù)進行有效處理。
[0004]K均值聚類方法在處理二維或三維數(shù)據(jù)的情況下仍能夠很好地保證聚類的質(zhì)量,然而隨著技術的發(fā)展和人類獲取信息能力的增強,需要進行K均值聚類分析處理的數(shù)據(jù)維數(shù)也在不斷地增加。在N維(N > 3)數(shù)據(jù)對象處理之中,K均值聚類方法經(jīng)常碰到“維數(shù)災難”的問題?!熬S數(shù)災難”(Curse of Dimensionality)指的是處理多變量函數(shù)時所需的采樣點數(shù),隨著空間維數(shù)的增加將會呈現(xiàn)指數(shù)增長的困難;現(xiàn)在一般指高維數(shù)據(jù)空間的本征稀疏性。此時,K均值聚類方法的處理時間過長,效率低下。
[0005]目前,有關于數(shù)據(jù)降維的理論研究,國內(nèi)外專家學者已經(jīng)展開了很多的相關工作和探討。所謂數(shù)據(jù)降維是指通過線性或非線性映射將樣本從高維空間映射到低維空間,從而獲得高維數(shù)據(jù)的一個有意義的低維表示的過程。然而,國內(nèi)鮮有將數(shù)據(jù)降維和K均值聚類方法結合起來,利用數(shù)據(jù)降維技術彌補K均值聚類方法面對高維數(shù)據(jù)時的缺陷。通過數(shù)據(jù)降維可以減輕維數(shù)災難和消除高維空間中其他不相關屬性,我們認為對降維后的數(shù)據(jù)進行聚類分析,這提高了 K均值聚類方法處理高維數(shù)據(jù)的性能。
【發(fā)明內(nèi)容】
[0006]技術問題:本發(fā)明針對K均值聚類方法無法對高維數(shù)據(jù)進行聚類分析,無法達到K均值聚類方法對高維數(shù)據(jù)進行快速處理等問題,提供一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法,利用線性判別分析的線性映射,將原始的高維數(shù)據(jù)一一映射到低維空間中,完成線性降維操作,得到適合K均值聚類分析的低維數(shù)據(jù),并完成聚類分析。
[0007]技術方案:本發(fā)明的一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法具體如下:[0008]在K均值聚類方法進行聚類分析之前,依據(jù)線性判別分析建立降維模型,將高維數(shù)據(jù)一一映射到低維空間,使其變?yōu)槌R姷牡途S數(shù)據(jù)即二維或一維數(shù)據(jù),等待聚類分析;利用K均值聚類方法對低維數(shù)據(jù)進行分類,計算新的聚類中心,不斷迭代直至誤差平方和準則函數(shù)收斂,完成聚類分析;具體步驟描述如下:
[0009]I)利用線性判別分析生成一個轉換矩陣G ;
[0010]2)生成線性判別分析中主要包括的三個散射矩陣:類內(nèi)散射矩陣Sw,類間散射矩陣Sb和總散射矩陣St ;
[0011]3)根據(jù)轉換矩陣G、類間散射矩陣Sb和總散射矩陣St計算最佳轉化矩陣
【權利要求】
1.一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法,其特征在于在K均值聚類方法進行聚類分析之前,依據(jù)線性判別分析建立降維模型,將高維數(shù)據(jù)一一映射到低維空間,使其變?yōu)槌R姷牡途S數(shù)據(jù)即二維或一維數(shù)據(jù),等待聚類分析;利用K均值聚類方法對低維數(shù)據(jù)進行分類,計算新的聚類中心,不斷迭代直至誤差平方和準則函數(shù)收斂,完成聚類分析;具體步驟描述如下: 1)利用線性判別分析生成一個轉換矩陣G; 2)生成線性判別分析中主要包括的三個散射矩陣:類內(nèi)散射矩陣Sw,類間散射矩陣Sb和總散射矩陣St ; 3)根據(jù)轉換矩陣G、類間散射矩陣Sb和總散射矩陣St計算最佳轉化矩陣
2.根據(jù)權利要求1所述的一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法,其特征在于所述的在K均值聚類方法進行聚類分析之前,依據(jù)線性判別分析建立降維模型,將高維數(shù)據(jù)一一映射到低維空間,使其變?yōu)槌R姷牡途S數(shù)據(jù)即二維或一維數(shù)據(jù),等待聚類分析;具體描述如下: 在線性判別分析LDA中,盡可能使類內(nèi)距離最小化的同時使類間距離達到最大化,得到最優(yōu)的投影方向以產(chǎn)生最好的分類結果,即選擇使得樣本類間離散度和樣本類內(nèi)離散度的比值最大化的特征描述樣本;對于給定的矩陣A G Rdxn, Rdxn表示全體dXn實矩陣構成的n維實線性空間,利用線性判別分析LDA能夠生成一個轉換矩陣G G RdxljRdxl表示全體dXl實矩陣構成的I維實線性空間,把n維空間中矩陣A的每一個列向量一一映射到I維空間中的向量71,即: Yi = G1^ai G R1 (I < d), I ^ i ^ n(I) 為了滿足K均值聚類方法中劃分成K個聚類的需要,將矩陣A劃分成K個相應的聚類,A = [A1,…,Ak],其中,
3.根據(jù)權利要求1所述的一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法,其特征在于所述的利用K均值聚類方法對低維數(shù)據(jù)進行分類,計算新的聚類中心,不斷迭代直至誤差平方和準則函數(shù)收斂,完成聚類分析。具體描述如下:從降維后得到的數(shù)據(jù)集Y所包含的n個數(shù)據(jù)中任意選擇K個作為初始聚類中心,計算所有數(shù)據(jù)與初始聚類中心的歐式距離,即:
4.根據(jù)權利要求2所述的一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法,其特征在于所述的依據(jù)線性判別分析建立降維模型,將高維數(shù)據(jù)一一映射到低維空間,具體描述如下:在LDA線性降維階段,運用randO函數(shù)隨機產(chǎn)生初始的n維實線性空間A G Rdxn,利用LDA能夠生成一個轉換矩陣G G RdxlJE n維空間中矩陣A的每一個列向量Bi 一一映射到I維空間中的向量yi,得到降維后的數(shù)據(jù)集Y。
5.根據(jù)權利要求3所述的一種數(shù)據(jù)挖掘中基于線性判別分析的改進型K均值聚類方法,其特征在于所述的利用K均值聚類方法對低維數(shù)據(jù)進行分類,計算新的聚類中心,不斷迭代直至誤差平方和準則函數(shù)收斂,完成聚類分析。具體描述如下:在K均值聚類分析階段,從降維后得到的數(shù)據(jù)集Y所包含的n個數(shù)據(jù)中任意選擇K個數(shù)據(jù)作為初始聚類中心;根據(jù)每個聚類中心,計算所有數(shù)據(jù)與這K個聚類中心的歐式距離;并根據(jù)最小距離重新對相應數(shù)據(jù)進行劃分;重新計算每個聚類中心;計算誤差平方和準則函數(shù),當滿足收斂條件,即函數(shù)收斂時,則算法終止;如果條件不滿足則不斷重復迭代過程直到標準測度函數(shù)開始收斂為止。
【文檔編號】G06F17/30GK103678500SQ201310582288
【公開日】2014年3月26日 申請日期:2013年11月18日 優(yōu)先權日:2013年11月18日
【發(fā)明者】王堃, 張玉華, 孫雁飛, 吳蒙, 郭篁, 陳思光 申請人:南京郵電大學