一種用于序列數據分割的有序模糊c均值聚類方法

文檔序號：9646824閱讀：589來源：國知局

一種用于序列數據分割的有序模糊c均值聚類方法
【技術領域】
[0001] 本發(fā)明涉及數據挖掘領域，是一種用于序列數據分割的有序模糊C均值聚類方法。
【背景技術】
[0002] 隨著大數據時代的來臨，各行各業(yè)所產生的海量數據已成為一種寶貴的資源。深入挖掘海量數據中所隱藏的知識和信息，已經成為諸多領域共同的需求，這也促使了數據挖掘技術的產生。序列數據，或稱軌跡數據，是一種特殊的數據存在形式。在序列數據中，各樣本點按照一定的時空關系（軌跡）順序生成，前面的樣本點會影響到后面的樣本點，因而各樣本點之間并不相互獨立。日常生產生活中的很多設備都會產生序列數據，如運動傳感器、GPS、攝像機、電子筆、各類工業(yè)傳感器等。為了挖掘序列數據中蘊含的數據模式，從而對其數據特征進行深入細致的分析，首先需要對序列數據進行分割或聚類，即依照某種規(guī) 則將各樣本點劃分到不同的數據段或數據類，每個數據段內的樣本點具有相似的特性，不同數據段之間的數據特征各不相同。
[0003] 由于序列數據具有特定的序列性，其分割結果需滿足以下兩個條件才有物理意義：（1)分割后各樣本點仍保持原來的順序；(2) -個樣本點只能歸屬于一個數據段或兩個相鄰的數據段。雖然傳統的K均值聚類、模糊C均值聚類等方法可用于對序列數據進行分害J，但由于這些傳統聚類方法并不能處理數據的序列性，因而很可能將在序列上不相鄰的樣本點劃分到同一數據段，從而打亂原始數據的序列結構，導致序列分割效果并不理想。在這種情況下，需對序列分割結果進行后處理以保持數據原始的序列性，效率低下。此外，K均值聚類方法對數據的分割是硬性的，不適合處理存在數據段邊界重疊的情況。模糊C均值聚類方法雖以隸屬度的方式將各樣本點柔性地劃分到多個數據段，但在處理序列數據時，并不能保證只將一個樣本點劃分到一個數據段或兩個相鄰的數據段，導致序列分割結果的物理意義難以解釋。近年來，隨著序列數據在各領域的大量涌現，為了便于分析這些序列數據的數據特征和數據模式，迫切需要有一種能夠直接有效地對序列數據進行分割的方法。

【發(fā)明內容】

[0004] 為了克服現有的聚類方法在對序列數據進行分割或聚類時存在分割效果不好、效率低、結果難以解釋等不足，本發(fā)明提供了一種可應對序列數據的序列結構，效率高且分割效果好的有序模糊C均值聚類方法。該方法考慮到序列數據的序列性特點，通過對傳統的模糊C均值聚類算法進行改進，在每個聚類步中施加序列性約束，聚類的同時保持樣本點的原始順序不變，并采用樣本點逐個迭代優(yōu)化策略，實現對序列數據最優(yōu)的模糊分割。
[0005] 本發(fā)明所采用的技術方案為：
[0006] -種用于序列數據分割的有序模糊C均值聚類方法，包括以下步驟：
[0007] (1)輸入有序數據集；
[0008] (2)選定聚類數目，對有序數據集進行初始分割或聚類，獲得各數據段的初始聚類中心和偽邊界以及樣本點的初始隸屬度矩陣；
[0009] (3)構造目標函數，在滿足嚴格序列性約束的前提下，逐點對各數據段中前半段和后半段內樣本點進行重新劃分，并計算樣本點重新劃分后的隸屬度，如果由該樣本點隸屬度變化所引起的目標函數變化為負，接收這一重新劃分，并更新該樣本點的隸屬度以及各數據段的聚類中心，繼續(xù)重新劃分當前數據段的下一個樣本點，否則拒絕這一重新劃分，跳轉到下一數據段逐點進行重新劃分；
[0010] (4)迭代進行步驟（3)直至沒有任何樣本點的重新劃分被接收；
[0011] (5)輸出最終的隸屬度矩陣以及各數據段的聚類中心，完成序列數據分割。
[0012] 其中，步驟（1)中所述的有序數據集為{XdX2，…，Xn}，由依序產生的η個樣本點Xj，j= 1，···，]!構成，樣本點的形式可以是點、向量、矩陣或者高階張量數據。
[0013] 其中，步驟（2)中所述的聚類數目為c，對有序數據集X進行初始分割的方法如下：
[0014] ①利用式（1)計算序列數據的累積長度L]:
[0015] Lj=Lj!+|IX-Xjil (1)
[0016] 式中j(j= 2, ···，!!）為樣本點的索引，Lf0，I|XfXj」I表示樣本點\與樣本點X,:之間的歐幾里得距離；
[0017] ②計算c個數據段的平均長度：λ=Ln/c;
[0018] ③設定第一個數據段的偽左邊界為b1= 1 ;
[0019] ④對于第i(i= 2,…，c)個數據段，依次比較λ(i-1)與Lj(j= 1，…，η)的大小，找到第一個滿足λ(i-1) <、的j，將第i個數據段的偽左邊界設定為b1=j;
[0020] ⑤利用式（2)確定第j個樣本點\在第i個數據段中的初始隸屬度 Uj j(0 ^ 1)：
[0021]
[0022] 各樣本點的隸屬度需滿足下列條件：
[0023] ⑥計算各數據段的初始聚類中心m1:
[0025] ⑦所有樣本點的隸屬度Ulj構成cXn維的初始隸屬度矩陣U。
[0026]其中，步驟（3)中所述的目標函數為：
[0028] 式中為對應于第i(i=l，."，c)個數據段的子目標函數，Ul為隸屬度矩陣U的第i行，mi為第i個數據段的聚類中心，uu為樣本X,(j= 1，…，η)在第i個數據段的隸屬度，屯=| |X「m」|為樣本X,與第i個聚類中心心之間的歐幾里德距離，se[1，①）是一個加權指數。
[0029] 其中，步驟（3)中所述的第i個數據段中前半段內的樣本點是指樣本索引j滿足 je[1^4+1^/2)的樣本點，其中h為第i個數據段的偽左邊界，ηι為第i個數據段內樣本點的偽數目，對于i= 1到c-1,η;的計算公式為：n;=bi+1-bi;對于i=c，η。的計算公式為：n-b。，式中η為樣本點的總數。第i(i〈c)個數據段中后半段內的樣本點是指樣本索引j滿足je[bi+rv^b^-l]的樣本點，第c個數據段中后半段內的樣本點是指樣本索弓丨j滿足je[bc+nc/2，n]的樣本點。
[0030] 其中，步驟（3)中所述的嚴格序列性約束是指在對各數據段內的樣本點逐點進行重新劃分時，各數據段中前半段內從段首開始逐點重新劃分，每個樣本點只能重新劃分到本數據段及其前一數據段，而各數據段中后半段內從段尾開始逐點重新劃分，每個樣本點只能重新劃分到本數據段及其后一數據段。該序列性約束可以保證序列分割后各樣本點的原始順序保持不變。
[0031] 其中，步驟（3)中所述的樣本點重新劃分后的隸屬度的計算方法如下：
[0032] 假設第j(j= 1，···，!〇個樣本點\當前的隸屬度為Ul]，與當前各數據段聚類中心 mji= 1，···'）間的歐幾里德距離為屯=|IXfm」|，樣本點\按照如下三種情況進行重新劃分：
[0033] ①如果X,位于第1個數據段的前半段或第c個數據段的后半段，則X,不會被重新劃分；
[0034] ②如果X,位于第i(i辛1)個數據段的前半段，則重新劃分后X,在第k(k= 1，···，?)個數據段內的隸屬度為：
[0035]
[0036] 式中s為式（3)中定義的加權指數；
[0037]③如果X,位于第i(i辛c)個數據段的后半段，則重新劃分后X,在第k(k= 1，…，c)個數據段內的隸屬度％為：
[0038]
[0039] 式中s為式（3)中定義的加權指數。
[0040] 其中，步驟（3)

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：羅利佳;包士毅;毛劍峰;唐迪;
技術所有人：浙江工業(yè)大學;
我是此專利的發(fā)明人

上一篇：一種基于理想正則化組合核的高光譜圖像分類方法及系統的制作方法
上一篇：一種室外設施巡檢方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

有序序列相關技術

模糊時間序列相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于序列數據分割的有序模糊c均值聚類方法