專利名稱:一種多維特征向量的聚類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于模式識(shí)別領(lǐng)域,具體涉及一種對(duì)多維特征向量聚類的方法。
背景技術(shù):
對(duì)特征空間中的樣本數(shù)據(jù)進(jìn)行聚類是模式識(shí)別、計(jì)算機(jī)視覺(jué)、數(shù)據(jù)挖掘等領(lǐng)域內(nèi) 的一項(xiàng)重要的信息處理手段。對(duì)數(shù)據(jù)進(jìn)行聚類之后,不但可以減少所需處理的數(shù)據(jù)量,同時(shí) 從聚類結(jié)果中,也可發(fā)現(xiàn)數(shù)據(jù)之間的相似性規(guī)律。 一個(gè)魯棒性良好的聚類方法應(yīng)該能夠?qū)?特征空間中的數(shù)據(jù)點(diǎn)分割成為一些不相交的子集(每一個(gè)子集視為一類),屬于同一子集 (類)中的數(shù)據(jù)點(diǎn)之間的距離盡可能的小,而屬于不同子集(類)的數(shù)據(jù)點(diǎn)之間的距離盡可 能的大。本發(fā)明將上述魯棒性良好的性質(zhì)稱為空間一致性(spatiallycoherent)。
目前,經(jīng)典的聚類方法有,K-means聚類算法(參考J. MacQueen, "SomeMethods for Classification and Analysis of Multivariate Observations", Proc. Fifth Berkeley Symp. Math. , Statistics, and Probability,1967 :281-297), Normalized Cut 聚類算法(參考J. Shi and J. Malik, "Normalized cuts andimage segmentation,,, IEEE Trans. Pattern Anal. Mach. Intell. , 2000, 22 (8) :888-905),以及均值漂移聚類算法(參 考D.Comaniciu and P.Meer,"Meanshift:A robust approach toward feature space analysis", IEEE Trans. PatternAnal. Mach. Intell. ,2002,24(5) :603-619)等。通常,給定 待聚類的特征向量,在使用K-means聚類算法和Normalized Cut聚類算法時(shí),通過(guò)指定希 望產(chǎn)生的類別個(gè)數(shù),即可得到一個(gè)聚類結(jié)果。而在使用均值漂移聚類算法時(shí),需要指定一個(gè) 特征帶寬參數(shù)(feature bandwidth),通過(guò)該參數(shù),均值漂移聚類算法通過(guò)非參數(shù)密度估計(jì) 不斷尋找特征空間中的局部高密度區(qū)域,將屬于某個(gè)局部高密度區(qū)域內(nèi)的特征向量歸為同 一類別。如果待聚類的數(shù)據(jù)在特征空間中呈現(xiàn)出分散的團(tuán)狀分布(scattering blob-like distribution),即每一個(gè)數(shù)據(jù)點(diǎn)都分布在某一個(gè)高密度區(qū)域( 一個(gè)團(tuán)),并且這些高密度 區(qū)域之間數(shù)據(jù)點(diǎn)非常稀疏(高密度區(qū)域之間出現(xiàn)密度不連續(xù)),在這種情況下,上述經(jīng)典聚 類算法能夠有效地輸出一個(gè)具有空間一致性的聚類結(jié)果(事實(shí)上,具有分散的團(tuán)狀分布的 數(shù)據(jù)本身已具有空間一致性了 )。然而,在實(shí)際應(yīng)用中,待聚類的數(shù)據(jù)集合在特征空間中往 往并非呈現(xiàn)出分散的團(tuán)狀分布,例如,在計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi),從圖像中提取的特征向量往往 呈現(xiàn)出復(fù)雜的流型分布。直接用上述經(jīng)典聚類方法對(duì)這些呈現(xiàn)復(fù)雜分布的數(shù)據(jù)進(jìn)行聚類, 往往無(wú)法得到具有空間一致性的結(jié)果。 一個(gè)最主要的原因就是,在這些呈現(xiàn)復(fù)雜分布的實(shí) 際數(shù)據(jù)中,高密度區(qū)域之間往往沒(méi)有一個(gè)明顯的邊界,高密度區(qū)域之間仍存在一些相對(duì)密 度較低的數(shù)據(jù)點(diǎn),這些低密度數(shù)據(jù)點(diǎn)并沒(méi)有達(dá)到足夠的稀疏。目前,在模式分類與機(jī)器學(xué)習(xí) 領(lǐng)域,人們對(duì)于聚類的研究已達(dá)成共識(shí),即,聚類結(jié)果的不確定性往往出現(xiàn)在特征空間中低 密度區(qū)域的數(shù)據(jù)點(diǎn)上。 此外,如果特征向量在原有特征空間中很難得到良好的聚類結(jié)果時(shí),將特征向量 轉(zhuǎn)換到另外一個(gè)新的特征空間上再進(jìn)行聚類不失為一種很好的思路。目前現(xiàn)有技術(shù)中出現(xiàn) 了一禾中半監(jiān)督判別算法(參考D. Cai,X. He,and J. Han. "Semi—supervised discriminantanalysis, in Proc. IEEE Int. Conf. Computer Vision, Rio de Janeiro, Brazil", J皿.2007.),采用該算法對(duì)原始特征空間進(jìn)行轉(zhuǎn)換后,特征向量在新的特征空間中往往具 有良好的可分離性,這將非常有利與特征向量的聚類。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種多維特征向量的聚類方法,由該方法得到的聚類結(jié)果 更具有空間一致性,即聚類結(jié)果更加魯棒。從而,更為客觀的描述特征向量之間的類別所屬 情況。 (2)對(duì)上述特征向量集合X建立一個(gè)k-近鄰圖Gk,其中,采用歐式距離l|Xi-Xj||2 來(lái)度量X中的任意兩個(gè)特征向量Xi和Xj之間的距離遠(yuǎn)近關(guān)系; (3)求出步驟(2)中k-近鄰圖Gk的鄰接矩陣A,其中矩陣A的每個(gè)元素Aij由下
述公式(1)計(jì)算得到
J 一 / 如果》eiV*(^)或
="i 0 (1) aff(ij)是特征向量Xi與特征向量Xj鄰接程度,Nk(Xj)表示向量Xj的k個(gè)鄰居, Nk(Xi)表示向量&的k個(gè)鄰居,其中aff(ij)由下述公式(2)計(jì)算 其次,將新的種子集合Xseedsn 中的當(dāng)前種子集合Xseeds視為已具有類別標(biāo)識(shí)的數(shù) 據(jù),A X視為沒(méi)有類別標(biāo)識(shí)的數(shù)據(jù),對(duì)所述X_ds,應(yīng)用半監(jiān)督判別式分析方法求出X_ds, 的一個(gè)最優(yōu)投影空間的基U。Dt,并將X_ds,投影到U。Dt生成的空間中,投影后的數(shù)據(jù)為義=.=,其中u。ptT標(biāo)識(shí)矩陣u。pt的轉(zhuǎn)置; 然后,利用均值漂移算法對(duì)XseedsSDA進(jìn)行聚類,將所得到的類別標(biāo)識(shí)賦給Xseedsn 中 對(duì)應(yīng)的數(shù)據(jù),Xseedsn 的類別標(biāo)識(shí)集合記為L(zhǎng)seeds,,并更新Xseeds和Lseeds,即令A(yù)^ =C ,
鄉(xiāng)t/s 一 h咖t/j o 循環(huán)上述過(guò)程,直至AX = 0 ,循環(huán)停止,得到更新的當(dāng)前種子集合X_ds和聚類結(jié) 果L^ds,其中0為空集。
(8)獲取X的類別標(biāo)識(shí)集合L,完成聚類 如果{1-《^} * 0 ,那么將{X-Xsrads}中的數(shù)據(jù)共同賦予一個(gè)新的類別標(biāo)識(shí)lMst, 類別標(biāo)識(shí)集合Z = Z,ws U {、 }, j , n G {1 ,. . . , m},其中、=活則,類別標(biāo)識(shí)集合L
Ls66ds o
圖1為本發(fā)明方法的流程圖; 圖2為1071個(gè)三位特征向量,其中3種顏色的標(biāo)識(shí),代表了 3個(gè)類別,一個(gè)有效的
聚類算法得到的聚類結(jié)果應(yīng)與圖2中三個(gè)類別的分布一致。 圖3為K-means算法的聚類結(jié)果。 圖4Normalized Cut算法的聚類結(jié)果。 圖5均值漂移算法的聚類結(jié)果。 圖6本發(fā)明中聚類算法的聚類結(jié)果。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
在本實(shí)施例中,如圖1所示,具體過(guò)程為 (1)將m個(gè)待聚類的特征向量記為特征向量集合X = {Xl, x2, . . . , xj,其中Xi為 一個(gè)特征向量,i = 1, . . . , m。通常特征向量的個(gè)數(shù)m的取值范圍在102 103數(shù)量級(jí)上。 圖2中示出的是m = 1071, Xi為一個(gè)3維特征向量時(shí)的空間分布圖。 (2)對(duì)特征向量集合X建立一個(gè)k-近鄰圖Gk, k取值一般為5-7 ,本實(shí)施例中k取 值為7。在建立圖Gk時(shí),對(duì)于X中的任意兩個(gè)特征向量Xi和Xj,采用歐式距離||&-^.||2來(lái) 度量二值的距離遠(yuǎn)近關(guān)系。 (3)求出步驟(2)中k-近鄰圖Gk的鄰接矩陣A。其中矩陣A的每個(gè)元素、.由公
式(1)計(jì)算:
J — J 如果、e^(x,)或勺eA^(x,)
4/ =i 0 (1)
aff(ij)是特征向量Xi與特征向量Xj鄰接程度,Nk(Xj)表示向量Xj的k個(gè)鄰居, Nk(Xi)表示向量Xi的k個(gè)鄰居。其中aff(ij)由公式(2)計(jì)算《)=exp{—"2} (2) o為常數(shù),其取值根據(jù)特征向量的類型不同而不同,通常其取值范圍比特征向量的取值范圍小兩個(gè)數(shù)量級(jí)。本實(shí)施例中,特征向量Xi取值范圍為0-255,我們選取o =3。
(4)計(jì)算X = {Xl, x2, . . . , xj中每個(gè)特征向量的密度den(Xi),計(jì)算公式如下
附 選取所有特征向量密度{(161100}1 = 1,..., 1的第96個(gè)百分位(96th-perCentile)的 密度值,記為閾值Tge。 (5)選取種子集合Xseeds,其中Xseeds = {Xi I den (x》> T96, Xi G X}。 (6)利用均值漂移算法(參考:D. Comaniciu and P. Meer, "Mean shift :A
robustapproach toward feature space analysis,,, IEEE Trans. Pattern Anal. Mach.
Intell. ,2002,24(5) :603-619)對(duì)當(dāng)前種子集合Xsrads進(jìn)行聚類,得到當(dāng)前種子集合的類別
標(biāo)識(shí)集合1^i,其中L_ds中的每個(gè)元素為屬于當(dāng)前種子集合X_ds中的特征向量的類別標(biāo)
識(shí),通常用自然數(shù)區(qū)分。 (7)增量迭代聚類 首先,從步驟(2)的k-近鄰Gk中選取當(dāng)前種子集合X_ds的所有k近鄰數(shù)據(jù),其定 義為AX = {Xi|Xi G Nk(Xj),或,Xj G Nk(Xi),其中Xj G XyJ,將當(dāng)前已具有類別標(biāo)識(shí)的種 子集合Xsrads與沒(méi)有類別標(biāo)識(shí)的A X合并為一個(gè)新的種子集合,記為X:二 = Ximfc U AX 。
其次,對(duì)Xsradsn 應(yīng)用半監(jiān)督判別式分析方法(參考D. Cai, X. He, and J.Han. "Semi_supervised discriminant analysis, in Proc. IEEE Int.Conf. Computer Vision,Rio de Janeiro,Brazil", Jun. 2007.),求出Xseedsnew的一個(gè)最優(yōu)投影空間的基U。pt。 并將X^^投影到U。pt生成的空間中,投影后的數(shù)據(jù)為J=f =f/iC ,其中U標(biāo)識(shí)矩 陣U一的轉(zhuǎn)置。 然后,利用均值漂移算法對(duì)XseedsSDA進(jìn)行聚類,將所得到的類別標(biāo)識(shí)賦給Xseedsn 中 對(duì)應(yīng)的數(shù)據(jù)。將Xsradsn 的類別標(biāo)識(shí)集合記為L(zhǎng)sradsn 。
更新Xseeds和Lseeds,令義鄉(xiāng)A.=《=,,丄鄉(xiāng)A = Z:必。 循環(huán)上述過(guò)程,直至AZ = 0 ,循環(huán)停止,得到最終的種子集合Xseeds和聚類結(jié)果
Ls66ds o (8)獲取X的類別標(biāo)識(shí)集合L,完成聚類如果{"-%鄉(xiāng)力} * 0 ,那么將{X_XseedJ 中的數(shù)據(jù)共同賦予 一 個(gè)新的類別標(biāo)識(shí)lMst,類別標(biāo)識(shí)集合丄=丄ww U仏 }^(x-x_sl , n G {1, . . . , m},其中4 =/re ;否則,類別標(biāo)識(shí)集合L = Lsrads。 圖6是由本發(fā)明算法得到的聚類結(jié)果,圖3-5是其它3種經(jīng)典聚類算法得到的聚 類結(jié)果,可以看出本發(fā)明的到結(jié)果與圖2中原本的類別分布更為一致,從而說(shuō)明了本發(fā)明 的有效性。 本發(fā)明中根據(jù)具體特征向量的數(shù)值范圍選取均值漂移算法中的特征帶寬 (feature bandwidth)參數(shù)、,通常其取值范圍比特征向量的取值范圍小一個(gè)數(shù)量級(jí)。在 上述實(shí)施例中,選取的特征帶寬參數(shù)hr = 10. 5。 根據(jù)本發(fā)明的典型實(shí)施例,用于實(shí)現(xiàn)本發(fā)明的計(jì)算機(jī)系統(tǒng)可以包括,特別是,中央 處理器(CPU)、存儲(chǔ)器和輸入/輸出(1/0)接口。計(jì)算機(jī)系統(tǒng)通常通過(guò)I/0接口與顯示器和 諸如鼠標(biāo)和鍵盤(pán)此類的各種輸入設(shè)備相連,配套電路可以包括像高速緩存、電源、時(shí)鐘電路 和通信總線這樣的電路。存儲(chǔ)器可以包括隨機(jī)存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(R0M)、磁盤(pán)驅(qū)動(dòng)
6器、磁帶機(jī)等,或它們的組合。計(jì)算機(jī)平臺(tái)還包括操作系統(tǒng)和微指令代碼。此處所述各種過(guò) 程和功能可以是通過(guò)操作系統(tǒng)執(zhí)行的微指令代碼或應(yīng)用程序(或它們的組合)的一部分。 此外,各種其他外圍設(shè)備可以連接到該計(jì)算機(jī)平臺(tái),如附加數(shù)據(jù)存儲(chǔ)設(shè)備和打印設(shè)備。
還應(yīng)理解,因?yàn)楦綀D中所述的某些構(gòu)成系統(tǒng)的組件和方法步驟可以軟件形式來(lái)實(shí) 現(xiàn),所以系統(tǒng)組件(或過(guò)程步驟)之間的實(shí)際連接可能有所不同,具體視本發(fā)明的編程方式 而定?;诖颂幪岢龅谋景l(fā)明原理,相關(guān)領(lǐng)域的普通專業(yè)人員可以設(shè)想本發(fā)明的這些以及 類似實(shí)施方案或配置。
權(quán)利要求
一種多維特征向量的聚類方法,包括如下步驟(1)將m個(gè)待聚類的特征向量記為特征向量集合X={x1,x2,...,xm},其中xi為一個(gè)特征向量,i=1,...,m;(2)對(duì)上述上述特征向量集合X建立一個(gè)k-近鄰圖Gk,其中,采用歐式距離‖xi-xj‖2來(lái)度量X中的任意兩個(gè)特征向量xi和xj之間的距離遠(yuǎn)近關(guān)系;(3)求出步驟(2)中k-近鄰圖Gk的鄰接矩陣A,其中矩陣A的每個(gè)元素Aij由下述公式(1)計(jì)算得到aff(ij)是特征向量xi與特征向量xj鄰接程度,Nk(xj)表示向量xj的k個(gè)鄰居,Nk(xi)表示向量xi的k個(gè)鄰居,其中aff(ij)由下述公式(2)計(jì)算 <mrow><msub> <mi>aff</mi> <mrow><mo>(</mo><mi>ij</mi><mo>)</mo> </mrow></msub><mo>=</mo><mi>exp</mi><mo>{</mo><mfrac> <msub><mrow> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msub><mi>x</mi><mi>i</mi> </msub> <mo>-</mo> <msub><mi>x</mi><mi>j</mi> </msub> <mo>|</mo> <mo>|</mo></mrow><mn>2</mn> </msub> <msup><mrow> <mn>2</mn> <mi>σ</mi></mrow><mn>2</mn> </msup></mfrac><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo></mrow> </mrow>其中σ為常數(shù);(4)計(jì)算X={x1,x2,...,xm}中每個(gè)特征向量的密度den(xi),計(jì)算公式如下 <mrow><mi>den</mi><mrow> <mo>(</mo> <msub><mi>x</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><msub> <mi>A</mi> <mi>ij</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo></mrow> </mrow>選取所有特征向量密度{den(xi)}i=1,...,m的第96個(gè)百分位(96th-percentile)的密度值,記為閾值T96;(5)獲取種子集合Xseeds,其中Xseeds={xi|den(xi)>T96,xi∈X};(6)利用均值漂移算法對(duì)當(dāng)前種子集合Xseeds進(jìn)行聚類,得到當(dāng)前種子集合的類別標(biāo)識(shí)集合Lseeds,其中Lseeds中的每個(gè)元素為屬于當(dāng)前種子集合Xseeds中的特征向量的類別標(biāo)識(shí),通常用自然數(shù)區(qū)分;(7)對(duì)當(dāng)前種子集合Xseeds進(jìn)行增量迭代聚類首先,從步驟(2)的k-近鄰圖Gk中選取當(dāng)前種子集合Xseeds的所有k近鄰數(shù)據(jù)ΔX,其定義為ΔX={xi|xi∈Nk(xj),或,xj∈Nk(xi),其中xj∈Xseeds},將當(dāng)前種子集合Xseeds與ΔX合并為一個(gè)新的種子集合,記為其次,將新的種子集合Xseedsnew中的當(dāng)前種子集合x(chóng)seeds視為已具有類別標(biāo)識(shí)的數(shù)據(jù),ΔX視為沒(méi)有類別標(biāo)識(shí)的數(shù)據(jù),對(duì)所述Xseedsnew應(yīng)用半監(jiān)督判別式分析方法求出Xseedsnew的一個(gè)最優(yōu)投影空間的基Uopt,并將Xseedsnew投影到Uopt生成的空間中,投影后的數(shù)據(jù)為其中UoptT標(biāo)識(shí)矩陣Uopt的轉(zhuǎn)置;然后,利用均值漂移算法對(duì)XseedsSDA進(jìn)行聚類,將所得到的類別標(biāo)識(shí)賦給Xseedsnew中對(duì)應(yīng)的數(shù)據(jù),Xseedsnew的類別標(biāo)識(shí)集合記為L(zhǎng)seedsnew,再更新Xseeds和Lseeds,即令循環(huán)上述過(guò)程,直至循環(huán)停止,得到更新的當(dāng)前種子集合Xseeds和聚類結(jié)果Lseeds,其中為空集。(8)獲取X的類別標(biāo)識(shí)集合L,完成聚類如果那么將{X-Xseeds}中的數(shù)據(jù)共同賦予一個(gè)新的類別標(biāo)識(shí)lrest,類別標(biāo)識(shí)集合n∈{1,...,m},其中否則,類別標(biāo)識(shí)集合L=Lseeds。FSA00000045056300011.tif,FSA00000045056300021.tif,FSA00000045056300022.tif,FSA00000045056300023.tif,FSA00000045056300024.tif,FSA00000045056300025.tif,FSA00000045056300026.tif,FSA00000045056300027.tif,FSA00000045056300028.tif,FSA00000045056300029.tif
全文摘要
本發(fā)明公開(kāi)了一種對(duì)多維特征向量聚類的方法,基于對(duì)特征空間數(shù)據(jù)分布的觀察,本發(fā)明從最容易聚類并產(chǎn)生空間一致性結(jié)果的高密度區(qū)域數(shù)據(jù)入手,提出了一種增量迭代方式下的聚類方法,每一步迭代選取密度較高的數(shù)據(jù)作為種子集合,通過(guò)種子生長(zhǎng)的過(guò)程,對(duì)數(shù)據(jù)進(jìn)行組織,使得迭代過(guò)程中每一步的聚類都在密度相對(duì)最高的數(shù)據(jù)上完成。結(jié)果顯示,本發(fā)明的聚類方法能夠產(chǎn)生經(jīng)典聚類算法無(wú)法得到的良好結(jié)果。
文檔編號(hào)G06K9/62GK101777126SQ201010114138
公開(kāi)日2010年7月14日 申請(qǐng)日期2010年2月10日 優(yōu)先權(quán)日2010年2月10日
發(fā)明者唐奇伶, 桑農(nóng), 高俊, 高常鑫, 黃銳 申請(qǐng)人:華中科技大學(xué)