一種用于序列數據分割的有序模糊c均值聚類方法
【技術領域】
[0001] 本發(fā)明涉及數據挖掘領域,是一種用于序列數據分割的有序模糊C均值聚類方 法。
【背景技術】
[0002] 隨著大數據時代的來臨,各行各業(yè)所產生的海量數據已成為一種寶貴的資源。深 入挖掘海量數據中所隱藏的知識和信息,已經成為諸多領域共同的需求,這也促使了數據 挖掘技術的產生。序列數據,或稱軌跡數據,是一種特殊的數據存在形式。在序列數據中, 各樣本點按照一定的時空關系(軌跡)順序生成,前面的樣本點會影響到后面的樣本點,因 而各樣本點之間并不相互獨立。日常生產生活中的很多設備都會產生序列數據,如運動傳 感器、GPS、攝像機、電子筆、各類工業(yè)傳感器等。為了挖掘序列數據中蘊含的數據模式,從而 對其數據特征進行深入細致的分析,首先需要對序列數據進行分割或聚類,即依照某種規(guī) 則將各樣本點劃分到不同的數據段或數據類,每個數據段內的樣本點具有相似的特性,不 同數據段之間的數據特征各不相同。
[0003] 由于序列數據具有特定的序列性,其分割結果需滿足以下兩個條件才有物理意 義:(1)分割后各樣本點仍保持原來的順序;(2) -個樣本點只能歸屬于一個數據段或兩個 相鄰的數據段。雖然傳統的K均值聚類、模糊C均值聚類等方法可用于對序列數據進行分 害J,但由于這些傳統聚類方法并不能處理數據的序列性,因而很可能將在序列上不相鄰的 樣本點劃分到同一數據段,從而打亂原始數據的序列結構,導致序列分割效果并不理想。在 這種情況下,需對序列分割結果進行后處理以保持數據原始的序列性,效率低下。此外,K均 值聚類方法對數據的分割是硬性的,不適合處理存在數據段邊界重疊的情況。模糊C均值 聚類方法雖以隸屬度的方式將各樣本點柔性地劃分到多個數據段,但在處理序列數據時, 并不能保證只將一個樣本點劃分到一個數據段或兩個相鄰的數據段,導致序列分割結果的 物理意義難以解釋。近年來,隨著序列數據在各領域的大量涌現,為了便于分析這些序列數 據的數據特征和數據模式,迫切需要有一種能夠直接有效地對序列數據進行分割的方法。
【發(fā)明內容】
[0004] 為了克服現有的聚類方法在對序列數據進行分割或聚類時存在分割效果不好、效 率低、結果難以解釋等不足,本發(fā)明提供了一種可應對序列數據的序列結構,效率高且分割 效果好的有序模糊C均值聚類方法。該方法考慮到序列數據的序列性特點,通過對傳統的 模糊C均值聚類算法進行改進,在每個聚類步中施加序列性約束,聚類的同時保持樣本點 的原始順序不變,并采用樣本點逐個迭代優(yōu)化策略,實現對序列數據最優(yōu)的模糊分割。
[0005] 本發(fā)明所采用的技術方案為:
[0006] -種用于序列數據分割的有序模糊C均值聚類方法,包括以下步驟:
[0007] (1)輸入有序數據集;
[0008] (2)選定聚類數目,對有序數據集進行初始分割或聚類,獲得各數據段的初始聚類 中心和偽邊界以及樣本點的初始隸屬度矩陣;
[0009] (3)構造目標函數,在滿足嚴格序列性約束的前提下,逐點對各數據段中前半段和 后半段內樣本點進行重新劃分,并計算樣本點重新劃分后的隸屬度,如果由該樣本點隸屬 度變化所引起的目標函數變化為負,接收這一重新劃分,并更新該樣本點的隸屬度以及各 數據段的聚類中心,繼續(xù)重新劃分當前數據段的下一個樣本點,否則拒絕這一重新劃分,跳 轉到下一數據段逐點進行重新劃分;
[0010] (4)迭代進行步驟(3)直至沒有任何樣本點的重新劃分被接收;
[0011] (5)輸出最終的隸屬度矩陣以及各數據段的聚類中心,完成序列數據分割。
[0012] 其中,步驟(1)中所述的有序數據集為{XdX2,…,Xn},由依序產生的η個樣本 點Xj,j= 1,···,]!構成,樣本點的形式可以是點、向量、矩陣或者高階張量數據。
[0013] 其中,步驟(2)中所述的聚類數目為c,對有序數據集X進行初始分割的方法如 下:
[0014] ①利用式(1)計算序列數據的累積長度L]:
[0015] Lj=Lj!+|IX-Xjil (1)
[0016] 式中j(j= 2, ···,!!)為樣本點的索引,Lf0,I|XfXj」I表示樣本點\與樣本 點X,:之間的歐幾里得距離;
[0017] ②計算c個數據段的平均長度:λ=Ln/c;
[0018] ③設定第一個數據段的偽左邊界為b1= 1 ;
[0019] ④對于第i(i= 2,…,c)個數據段,依次比較λ(i-1)與Lj(j= 1,…,η)的大小, 找到第一個滿足λ(i-1) <、的j,將第i個數據段的偽左邊界設定為b1=j;
[0020] ⑤利用式(2)確定第j個樣本點\在第i個數據段中的初始隸屬度 Uj j(0 ^ 1):
[0021]
[0022] 各樣本點的隸屬度需滿足下列條件:
[0023] ⑥計算各數據段的初始聚類中心m1:
[0025] ⑦所有樣本點的隸屬度Ulj構成cXn維的初始隸屬度矩陣U。
[0026]其中,步驟(3)中所述的目標函數為:
[0028] 式中為對應于第i(i=l,.",c)個數據段的子目標函數,Ul為隸屬度矩 陣U的第i行,mi為第i個數據段的聚類中心,uu為樣本X,(j= 1,…,η)在第i個數據段的 隸屬度,屯=| |X「m」|為樣本X,與第i個聚類中心心之間的歐幾里德距離,se[1,①) 是一個加權指數。
[0029] 其中,步驟(3)中所述的第i個數據段中前半段內的樣本點是指樣本索引j滿足 je[1^4+1^/2)的樣本點,其中h為第i個數據段的偽左邊界,ηι為第i個數據段內樣本 點的偽數目,對于i= 1到c-1,η;的計算公式為:n;=bi+1-bi;對于i=c,η。的計算公式 為:n-b。,式中η為樣本點的總數。第i(i〈c)個數據段中后半段內的樣本點是指樣本 索引j滿足je[bi+rv^b^-l]的樣本點,第c個數據段中后半段內的樣本點是指樣本索 弓丨j滿足je[bc+nc/2,n]的樣本點。
[0030] 其中,步驟(3)中所述的嚴格序列性約束是指在對各數據段內的樣本點逐點進行 重新劃分時,各數據段中前半段內從段首開始逐點重新劃分,每個樣本點只能重新劃分到 本數據段及其前一數據段,而各數據段中后半段內從段尾開始逐點重新劃分,每個樣本點 只能重新劃分到本數據段及其后一數據段。該序列性約束可以保證序列分割后各樣本點的 原始順序保持不變。
[0031] 其中,步驟(3)中所述的樣本點重新劃分后的隸屬度的計算方法如下:
[0032] 假設第j(j= 1,···,!〇個樣本點\當前的隸屬度為Ul],與當前各數據段聚類中心 mji= 1,···')間的歐幾里德距離為屯=|IXfm」|,樣本點\按照如下三種情況進行重 新劃分:
[0033] ①如果X,位于第1個數據段的前半段或第c個數據段的后半段,則X,不會被重新 劃分;
[0034] ②如果X,位于第i(i辛1)個數據段的前半段,則重新劃分后X,在第k(k= 1,···,?)個數據段內的隸屬度為:
[0035]
[0036] 式中s為式(3)中定義的加權指數;
[0037]③如果X,位于第i(i辛c)個數據段的后半段,則重新劃分后X,在第k(k= 1,…,c)個數據段內的隸屬度%為:
[0038]
[0039] 式中s為式(3)中定義的加權指數。
[0040] 其中,步驟(3)