一種多維特征向量的聚類方法

文檔序號(hào)：6598543閱讀：739來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種多維特征向量的聚類方法
技術(shù)領(lǐng)域：
本發(fā)明屬于模式識(shí)別領(lǐng)域，具體涉及一種對(duì)多維特征向量聚類的方法。
背景技術(shù)：
對(duì)特征空間中的樣本數(shù)據(jù)進(jìn)行聚類是模式識(shí)別、計(jì)算機(jī)視覺(jué)、數(shù)據(jù)挖掘等領(lǐng)域內(nèi) 的一項(xiàng)重要的信息處理手段。對(duì)數(shù)據(jù)進(jìn)行聚類之后，不但可以減少所需處理的數(shù)據(jù)量，同時(shí) 從聚類結(jié)果中，也可發(fā)現(xiàn)數(shù)據(jù)之間的相似性規(guī)律。一個(gè)魯棒性良好的聚類方法應(yīng)該能夠?qū)?特征空間中的數(shù)據(jù)點(diǎn)分割成為一些不相交的子集(每一個(gè)子集視為一類)，屬于同一子集 (類)中的數(shù)據(jù)點(diǎn)之間的距離盡可能的小，而屬于不同子集(類)的數(shù)據(jù)點(diǎn)之間的距離盡可能的大。本發(fā)明將上述魯棒性良好的性質(zhì)稱為空間一致性(spatiallycoherent)。
目前，經(jīng)典的聚類方法有，K-means聚類算法(參考J. MacQueen， "SomeMethods for Classification and Analysis of Multivariate Observations", Proc. Fifth Berkeley Symp. Math. ， Statistics, and Probability,1967 :281-297)， Normalized Cut 聚類算法(參考J. Shi and J. Malik， "Normalized cuts andimage segmentation，，， IEEE Trans. Pattern Anal. Mach. Intell. ， 2000， 22 (8) :888-905)，以及均值漂移聚類算法(參考D.Comaniciu and P.Meer，"Meanshift:A robust approach toward feature space analysis", IEEE Trans. PatternAnal. Mach. Intell. ，2002,24(5) :603-619)等。通常，給定待聚類的特征向量，在使用K-means聚類算法和Normalized Cut聚類算法時(shí)，通過(guò)指定希望產(chǎn)生的類別個(gè)數(shù)，即可得到一個(gè)聚類結(jié)果。而在使用均值漂移聚類算法時(shí)，需要指定一個(gè) 特征帶寬參數(shù)(feature bandwidth)，通過(guò)該參數(shù)，均值漂移聚類算法通過(guò)非參數(shù)密度估計(jì) 不斷尋找特征空間中的局部高密度區(qū)域，將屬于某個(gè)局部高密度區(qū)域內(nèi)的特征向量歸為同一類別。如果待聚類的數(shù)據(jù)在特征空間中呈現(xiàn)出分散的團(tuán)狀分布(scattering blob-like distribution)，即每一個(gè)數(shù)據(jù)點(diǎn)都分布在某一個(gè)高密度區(qū)域( 一個(gè)團(tuán))，并且這些高密度區(qū)域之間數(shù)據(jù)點(diǎn)非常稀疏(高密度區(qū)域之間出現(xiàn)密度不連續(xù))，在這種情況下，上述經(jīng)典聚類算法能夠有效地輸出一個(gè)具有空間一致性的聚類結(jié)果(事實(shí)上，具有分散的團(tuán)狀分布的數(shù)據(jù)本身已具有空間一致性了 )。然而，在實(shí)際應(yīng)用中，待聚類的數(shù)據(jù)集合在特征空間中往往并非呈現(xiàn)出分散的團(tuán)狀分布，例如，在計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)，從圖像中提取的特征向量往往呈現(xiàn)出復(fù)雜的流型分布。直接用上述經(jīng)典聚類方法對(duì)這些呈現(xiàn)復(fù)雜分布的數(shù)據(jù)進(jìn)行聚類，往往無(wú)法得到具有空間一致性的結(jié)果。一個(gè)最主要的原因就是，在這些呈現(xiàn)復(fù)雜分布的實(shí) 際數(shù)據(jù)中，高密度區(qū)域之間往往沒(méi)有一個(gè)明顯的邊界，高密度區(qū)域之間仍存在一些相對(duì)密度較低的數(shù)據(jù)點(diǎn)，這些低密度數(shù)據(jù)點(diǎn)并沒(méi)有達(dá)到足夠的稀疏。目前，在模式分類與機(jī)器學(xué)習(xí) 領(lǐng)域，人們對(duì)于聚類的研究已達(dá)成共識(shí)，即，聚類結(jié)果的不確定性往往出現(xiàn)在特征空間中低密度區(qū)域的數(shù)據(jù)點(diǎn)上。此外，如果特征向量在原有特征空間中很難得到良好的聚類結(jié)果時(shí)，將特征向量轉(zhuǎn)換到另外一個(gè)新的特征空間上再進(jìn)行聚類不失為一種很好的思路。目前現(xiàn)有技術(shù)中出現(xiàn) 了一禾中半監(jiān)督判別算法(參考D. Cai，X. He，and J. Han. "Semi—supervised discriminantanalysis, in Proc. IEEE Int. Conf. Computer Vision, Rio de Janeiro, Brazil", J皿.2007.)，采用該算法對(duì)原始特征空間進(jìn)行轉(zhuǎn)換后，特征向量在新的特征空間中往往具有良好的可分離性，這將非常有利與特征向量的聚類。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種多維特征向量的聚類方法，由該方法得到的聚類結(jié)果更具有空間一致性，即聚類結(jié)果更加魯棒。從而，更為客觀的描述特征向量之間的類別所屬情況。 (2)對(duì)上述特征向量集合X建立一個(gè)k-近鄰圖Gk，其中，采用歐式距離l|Xi-Xj||2 來(lái)度量X中的任意兩個(gè)特征向量Xi和Xj之間的距離遠(yuǎn)近關(guān)系； (3)求出步驟(2)中k-近鄰圖Gk的鄰接矩陣A，其中矩陣A的每個(gè)元素Aij由下
述公式(1)計(jì)算得到
J 一 / 如果》eiV*(^)或
="i 0 (1) aff(ij)是特征向量Xi與特征向量Xj鄰接程度，Nk(Xj)表示向量Xj的k個(gè)鄰居， Nk(Xi)表示向量&的k個(gè)鄰居，其中aff(ij)由下述公式(2)計(jì)算其次，將新的種子集合Xseedsn 中的當(dāng)前種子集合Xseeds視為已具有類別標(biāo)識(shí)的數(shù) 據(jù)，A X視為沒(méi)有類別標(biāo)識(shí)的數(shù)據(jù)，對(duì)所述X_ds，應(yīng)用半監(jiān)督判別式分析方法求出X_ds，的一個(gè)最優(yōu)投影空間的基U。Dt，并將X_ds，投影到U。Dt生成的空間中，投影后的數(shù)據(jù)為義=.=，其中u。ptT標(biāo)識(shí)矩陣u。pt的轉(zhuǎn)置；然后，利用均值漂移算法對(duì)XseedsSDA進(jìn)行聚類，將所得到的類別標(biāo)識(shí)賦給Xseedsn 中對(duì)應(yīng)的數(shù)據(jù)，Xseedsn 的類別標(biāo)識(shí)集合記為L(zhǎng)seeds，，并更新Xseeds和Lseeds，即令A(yù)^ =C ，
鄉(xiāng)t/s 一 h咖t/j o 循環(huán)上述過(guò)程，直至AX = 0 ，循環(huán)停止，得到更新的當(dāng)前種子集合X_ds和聚類結(jié) 果L^ds，其中0為空集。
(8)獲取X的類別標(biāo)識(shí)集合L，完成聚類如果{1-《^} * 0 ，那么將{X-Xsrads}中的數(shù)據(jù)共同賦予一個(gè)新的類別標(biāo)識(shí)lMst，類別標(biāo)識(shí)集合Z = Z,ws U {、 }, j ， n G {1 ，. . . ， m}，其中、=活則，類別標(biāo)識(shí)集合L
Ls66ds o

圖1為本發(fā)明方法的流程圖；圖2為1071個(gè)三位特征向量，其中3種顏色的標(biāo)識(shí)，代表了 3個(gè)類別，一個(gè)有效的
聚類算法得到的聚類結(jié)果應(yīng)與圖2中三個(gè)類別的分布一致。圖3為K-means算法的聚類結(jié)果。圖4Normalized Cut算法的聚類結(jié)果。圖5均值漂移算法的聚類結(jié)果。圖6本發(fā)明中聚類算法的聚類結(jié)果。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
在本實(shí)施例中，如圖1所示，具體過(guò)程為 (1)將m個(gè)待聚類的特征向量記為特征向量集合X = {Xl， x2， . . . ， xj，其中Xi為一個(gè)特征向量，i = 1， . . . ， m。通常特征向量的個(gè)數(shù)m的取值范圍在102 103數(shù)量級(jí)上。圖2中示出的是m = 1071， Xi為一個(gè)3維特征向量時(shí)的空間分布圖。 (2)對(duì)特征向量集合X建立一個(gè)k-近鄰圖Gk， k取值一般為5-7 ，本實(shí)施例中k取值為7。在建立圖Gk時(shí)，對(duì)于X中的任意兩個(gè)特征向量Xi和Xj，采用歐式距離||&-^.||2來(lái) 度量二值的距離遠(yuǎn)近關(guān)系。 (3)求出步驟(2)中k-近鄰圖Gk的鄰接矩陣A。其中矩陣A的每個(gè)元素、.由公
式(1)計(jì)算:
J — J 如果、e^(x,)或勺eA^(x,)
4/ =i 0 (1)
aff(ij)是特征向量Xi與特征向量Xj鄰接程度，Nk(Xj)表示向量Xj的k個(gè)鄰居， Nk(Xi)表示向量Xi的k個(gè)鄰居。其中aff(ij)由公式(2)計(jì)算《)=exp{—"2} (2) o為常數(shù)，其取值根據(jù)特征向量的類型不同而不同，通常其取值范圍比特征向量的取值范圍小兩個(gè)數(shù)量級(jí)。本實(shí)施例中，特征向量Xi取值范圍為0-255，我們選取o =3。
(4)計(jì)算X = {Xl， x2， . . . ， xj中每個(gè)特征向量的密度den(Xi)，計(jì)算公式如下
附選取所有特征向量密度{(161100}1 = 1,..., 1的第96個(gè)百分位(96th-perCentile)的密度值，記為閾值Tge。 (5)選取種子集合Xseeds，其中Xseeds = {Xi I den (x》> T96， Xi G X}。 (6)利用均值漂移算法(參考:D. Comaniciu and P. Meer， "Mean shift :A
robustapproach toward feature space analysis，，， IEEE Trans. Pattern Anal. Mach.
Intell. ，2002,24(5) :603-619)對(duì)當(dāng)前種子集合Xsrads進(jìn)行聚類，得到當(dāng)前種子集合的類別
標(biāo)識(shí)集合1^i，其中L_ds中的每個(gè)元素為屬于當(dāng)前種子集合X_ds中的特征向量的類別標(biāo)
識(shí)，通常用自然數(shù)區(qū)分。 (7)增量迭代聚類首先，從步驟(2)的k-近鄰Gk中選取當(dāng)前種子集合X_ds的所有k近鄰數(shù)據(jù)，其定義為AX = {Xi|Xi G Nk(Xj)，或，Xj G Nk(Xi)，其中Xj G XyJ，將當(dāng)前已具有類別標(biāo)識(shí)的種子集合Xsrads與沒(méi)有類別標(biāo)識(shí)的A X合并為一個(gè)新的種子集合，記為X:二 = Ximfc U AX 。
其次，對(duì)Xsradsn 應(yīng)用半監(jiān)督判別式分析方法(參考D. Cai， X. He， and J.Han. "Semi_supervised discriminant analysis, in Proc. IEEE Int.Conf. Computer Vision,Rio de Janeiro,Brazil"， Jun. 2007.)，求出Xseedsnew的一個(gè)最優(yōu)投影空間的基U。pt。并將X^^投影到U。pt生成的空間中，投影后的數(shù)據(jù)為J=f =f/iC ，其中U標(biāo)識(shí)矩陣U一的轉(zhuǎn)置。然后，利用均值漂移算法對(duì)XseedsSDA進(jìn)行聚類，將所得到的類別標(biāo)識(shí)賦給Xseedsn 中對(duì)應(yīng)的數(shù)據(jù)。將Xsradsn 的類別標(biāo)識(shí)集合記為L(zhǎng)sradsn 。
更新Xseeds和Lseeds，令義鄉(xiāng)A.=《=,，丄鄉(xiāng)A = Z:必。循環(huán)上述過(guò)程，直至AZ = 0 ，循環(huán)停止，得到最終的種子集合Xseeds和聚類結(jié)果
Ls66ds o (8)獲取X的類別標(biāo)識(shí)集合L，完成聚類如果{"-％鄉(xiāng)力} * 0 ，那么將{X_XseedJ 中的數(shù)據(jù)共同賦予一個(gè)新的類別標(biāo)識(shí)lMst，類別標(biāo)識(shí)集合丄=丄ww U仏 }^(x-x_sl ， n G {1， . . . ， m}，其中4 =/re ;否則，類別標(biāo)識(shí)集合L = Lsrads。圖6是由本發(fā)明算法得到的聚類結(jié)果，圖3-5是其它3種經(jīng)典聚類算法得到的聚類結(jié)果，可以看出本發(fā)明的到結(jié)果與圖2中原本的類別分布更為一致，從而說(shuō)明了本發(fā)明的有效性。本發(fā)明中根據(jù)具體特征向量的數(shù)值范圍選取均值漂移算法中的特征帶寬 (feature bandwidth)參數(shù)、，通常其取值范圍比特征向量的取值范圍小一個(gè)數(shù)量級(jí)。在上述實(shí)施例中，選取的特征帶寬參數(shù)hr = 10. 5。根據(jù)本發(fā)明的典型實(shí)施例，用于實(shí)現(xiàn)本發(fā)明的計(jì)算機(jī)系統(tǒng)可以包括，特別是，中央處理器(CPU)、存儲(chǔ)器和輸入/輸出(1/0)接口。計(jì)算機(jī)系統(tǒng)通常通過(guò)I/0接口與顯示器和諸如鼠標(biāo)和鍵盤(pán)此類的各種輸入設(shè)備相連，配套電路可以包括像高速緩存、電源、時(shí)鐘電路和通信總線這樣的電路。存儲(chǔ)器可以包括隨機(jī)存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(R0M)、磁盤(pán)驅(qū)動(dòng)
6器、磁帶機(jī)等，或它們的組合。計(jì)算機(jī)平臺(tái)還包括操作系統(tǒng)和微指令代碼。此處所述各種過(guò) 程和功能可以是通過(guò)操作系統(tǒng)執(zhí)行的微指令代碼或應(yīng)用程序(或它們的組合)的一部分。此外，各種其他外圍設(shè)備可以連接到該計(jì)算機(jī)平臺(tái)，如附加數(shù)據(jù)存儲(chǔ)設(shè)備和打印設(shè)備。
還應(yīng)理解，因?yàn)楦綀D中所述的某些構(gòu)成系統(tǒng)的組件和方法步驟可以軟件形式來(lái)實(shí) 現(xiàn)，所以系統(tǒng)組件(或過(guò)程步驟)之間的實(shí)際連接可能有所不同，具體視本發(fā)明的編程方式而定?；诖颂幪岢龅谋景l(fā)明原理，相關(guān)領(lǐng)域的普通專業(yè)人員可以設(shè)想本發(fā)明的這些以及類似實(shí)施方案或配置。
權(quán)利要求
一種多維特征向量的聚類方法，包括如下步驟(1)將m個(gè)待聚類的特征向量記為特征向量集合X＝{x1，x2，...，xm}，其中xi為一個(gè)特征向量，i＝1，...，m；(2)對(duì)上述上述特征向量集合X建立一個(gè)k-近鄰圖Gk，其中，采用歐式距離‖xi-xj‖2來(lái)度量X中的任意兩個(gè)特征向量xi和xj之間的距離遠(yuǎn)近關(guān)系；(3)求出步驟(2)中k-近鄰圖Gk的鄰接矩陣A，其中矩陣A的每個(gè)元素Aij由下述公式(1)計(jì)算得到aff(ij)是特征向量xi與特征向量xj鄰接程度，Nk(xj)表示向量xj的k個(gè)鄰居，Nk(xi)表示向量xi的k個(gè)鄰居，其中aff(ij)由下述公式(2)計(jì)算 <mrow><msub> <mi>aff</mi> <mrow><mo>(</mo><mi>ij</mi><mo>)</mo> </mrow></msub><mo>=</mo><mi>exp</mi><mo>{</mo><mfrac> <msub><mrow> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msub><mi>x</mi><mi>i</mi> </msub> <mo>-</mo> <msub><mi>x</mi><mi>j</mi> </msub> <mo>|</mo> <mo>|</mo></mrow><mn>2</mn> </msub> <msup><mrow> <mn>2</mn> <mi>σ</mi></mrow><mn>2</mn> </msup></mfrac><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo></mrow> </mrow>其中σ為常數(shù)；(4)計(jì)算X＝{x1，x2，...，xm}中每個(gè)特征向量的密度den(xi)，計(jì)算公式如下 <mrow><mi>den</mi><mrow> <mo>(</mo> <msub><mi>x</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><msub> <mi>A</mi> <mi>ij</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo></mrow> </mrow>選取所有特征向量密度{den(xi)}i＝1，...，m的第96個(gè)百分位(96th-percentile)的密度值，記為閾值T96；(5)獲取種子集合Xseeds，其中Xseeds＝{xi|den(xi)＞T96，xi∈X}；(6)利用均值漂移算法對(duì)當(dāng)前種子集合Xseeds進(jìn)行聚類，得到當(dāng)前種子集合的類別標(biāo)識(shí)集合Lseeds，其中Lseeds中的每個(gè)元素為屬于當(dāng)前種子集合Xseeds中的特征向量的類別標(biāo)識(shí)，通常用自然數(shù)區(qū)分；(7)對(duì)當(dāng)前種子集合Xseeds進(jìn)行增量迭代聚類首先，從步驟(2)的k-近鄰圖Gk中選取當(dāng)前種子集合Xseeds的所有k近鄰數(shù)據(jù)ΔX，其定義為ΔX＝{xi|xi∈Nk(xj)，或，xj∈Nk(xi)，其中xj∈Xseeds}，將當(dāng)前種子集合Xseeds與ΔX合并為一個(gè)新的種子集合，記為其次，將新的種子集合Xseedsnew中的當(dāng)前種子集合x(chóng)seeds視為已具有類別標(biāo)識(shí)的數(shù)據(jù)，ΔX視為沒(méi)有類別標(biāo)識(shí)的數(shù)據(jù)，對(duì)所述Xseedsnew應(yīng)用半監(jiān)督判別式分析方法求出Xseedsnew的一個(gè)最優(yōu)投影空間的基Uopt，并將Xseedsnew投影到Uopt生成的空間中，投影后的數(shù)據(jù)為其中UoptT標(biāo)識(shí)矩陣Uopt的轉(zhuǎn)置；然后，利用均值漂移算法對(duì)XseedsSDA進(jìn)行聚類，將所得到的類別標(biāo)識(shí)賦給Xseedsnew中對(duì)應(yīng)的數(shù)據(jù)，Xseedsnew的類別標(biāo)識(shí)集合記為L(zhǎng)seedsnew，再更新Xseeds和Lseeds，即令循環(huán)上述過(guò)程，直至循環(huán)停止，得到更新的當(dāng)前種子集合Xseeds和聚類結(jié)果Lseeds，其中為空集。(8)獲取X的類別標(biāo)識(shí)集合L，完成聚類如果那么將{X-Xseeds}中的數(shù)據(jù)共同賦予一個(gè)新的類別標(biāo)識(shí)lrest，類別標(biāo)識(shí)集合n∈{1，...，m}，其中否則，類別標(biāo)識(shí)集合L＝Lseeds。FSA00000045056300011.tif,FSA00000045056300021.tif,FSA00000045056300022.tif,FSA00000045056300023.tif,FSA00000045056300024.tif,FSA00000045056300025.tif,FSA00000045056300026.tif,FSA00000045056300027.tif,FSA00000045056300028.tif,FSA00000045056300029.tif
全文摘要
本發(fā)明公開(kāi)了一種對(duì)多維特征向量聚類的方法，基于對(duì)特征空間數(shù)據(jù)分布的觀察，本發(fā)明從最容易聚類并產(chǎn)生空間一致性結(jié)果的高密度區(qū)域數(shù)據(jù)入手，提出了一種增量迭代方式下的聚類方法，每一步迭代選取密度較高的數(shù)據(jù)作為種子集合，通過(guò)種子生長(zhǎng)的過(guò)程，對(duì)數(shù)據(jù)進(jìn)行組織，使得迭代過(guò)程中每一步的聚類都在密度相對(duì)最高的數(shù)據(jù)上完成。結(jié)果顯示，本發(fā)明的聚類方法能夠產(chǎn)生經(jīng)典聚類算法無(wú)法得到的良好結(jié)果。
文檔編號(hào)G06K9/62GK101777126SQ201010114138
公開(kāi)日2010年7月14日申請(qǐng)日期2010年2月10日優(yōu)先權(quán)日2010年2月10日
發(fā)明者唐奇伶, 桑農(nóng), 高俊, 高常鑫, 黃銳申請(qǐng)人:華中科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃銳;桑農(nóng);唐奇伶;高俊;高常鑫
技術(shù)所有人：華中科技大學(xué)
我是此專利的發(fā)明人

上一篇：鼠標(biāo)的制作方法
上一篇：一種目標(biāo)檢測(cè)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多維特征向量的聚類方法