一種基于非負矩陣分解的半監(jiān)督聚類方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及聚類分析技術領域,尤其涉及一種基于非負矩陣分解的半監(jiān)督聚類方 法及系統(tǒng)。
【背景技術】
[0002] 近年來非負矩陣分解技術在模式識別和人工智能中起著非常重要的作用。已有研 究表明,在心里和生理上都有人腦的基于部分表示的證據(jù)。非負矩陣表示在學習類似于人 臉,圖像和文檔等部分表示上有先天的優(yōu)勢。同時,在許多諸如信息檢索,計算機視覺和模 式識別問題中,數(shù)據(jù)的特點是維數(shù)高,使得直接從樣例中學習不可行。研究者們期望對高維 數(shù)據(jù)矩陣分解,得到高維矩陣分解后的低維表示。
[0003] 非負矩陣分解(nonnegativematrixfactorization,NMF)是對非負矩陣 Xe:K_分解,找到兩個因子矩陣UeMW和VeJR-:,使得UV的乘積盡可能的和原來的 矩陣近似。其中,U可以看作是包含新基的矩陣,V可以看作是原來數(shù)據(jù)在新基下的表示,由 于k<<m,并且k<<n,所以V可以看作是原來矩陣X的低維表示。流形學習自從2000 年在《Science》被首次提出以來,已成為信息科學領域的研究熱點?;趫D正則化的非負 矩陣分解(GraphRegularizedNonnegativeMatrixFactorization,GNMF)方法,把拉普 拉斯圖作為一個正則項加入到NMF框架中,有效的利用了原始數(shù)據(jù)的幾何結構,取得了較 好的聚類性能。
[0004] 在數(shù)據(jù)的聚類應用中,有些數(shù)據(jù)是有標記的。上述算法都是無監(jiān)督學習方法,不 能有效的利用已有的帶標記數(shù)據(jù)指導聚類,所以在聚類性能上會大打折扣?;贜MF的半 監(jiān)督聚類方法如約束非負矩陣分解(ConstrainedNonnegativeMatrixFactorization, CNMF),其主要思想是同類的數(shù)據(jù)映射到投影空間應該有相同的表示。這個方法強制投影 空間的表示和原空間的數(shù)據(jù)有相同類別標記,該方法存在的不足是當已知的標記數(shù)據(jù)很少 時,方法退化為NMF,不能有效的利用原始數(shù)據(jù)的內(nèi)部結構,故而聚類性能得不到提升。除此 之外,CNMF方法使用不是約束對,而是硬性的標記,這種信息一般很難獲得。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種基于非負矩陣分解的半監(jiān)督聚類方法,該方法基于非負矩陣分 解,不僅考慮了原始數(shù)據(jù)的鄰域保持,同時還考慮了相似性在原始空間和低維流形子空間 的一致性,使得聚類性能在先驗信息較多的時候大大提高,在先驗信息很少的時候依然能 保持較好的聚類性能。
[0006] 本發(fā)明提供了一種基于非負矩陣分解的半監(jiān)督聚類方法,包括:
[0007] 對原始數(shù)據(jù)矩陣作非負矩陣分解投影,得到既有鄰域保持又有相似性保持的原始 數(shù)據(jù)的低維近似矩陣;
[0008] 利用算法接收參數(shù)K對所述原始數(shù)據(jù)的低維近似矩陣進行聚類,得到聚類結果;
[0009] 利用精確度和互信息兩種評價標準對所述聚類結果進行評價。
[0010] 優(yōu)選地,所述對原始數(shù)據(jù)矩陣作非負矩陣分解投影,得到既有鄰域保持又有相似 性保持的原始數(shù)據(jù)的低維近似矩陣具體為:
[0011] 令所有數(shù)據(jù)組成的集合為,其中XieR'n是圖像的總個數(shù),m是圖像樣本 的維數(shù),并假設圖像數(shù)據(jù)中有NM個must-link約束對和N£個cannot-link約束對;
[0012] 構造由所有頂點構成的p_鄰域圖,并使用cannot-link約束對進行修正,如果兩 個頂點滿足cannot-link約束,同時又是p-鄰域頂點,則從p-鄰域圖中刪除這兩個頂點形 成的邊,其中,邊上的權重定義為:
[0013]
[0014] 構造由must-link約束對構成的相似圖,其中,邊上的權重定義為:
[0015]
[0016] 利用公式
對非負矩陣 分解進行優(yōu)化,得到投影以后的新空間的基U和原始數(shù)據(jù)在新空間的投影V,其中,Aw和入s均為參數(shù);
[0017] 定義
,簡化后得到:
[0018] F= | |X-UVT | 12+ 入wTr(VTLWV) + 入sTr(VTLSV);
[0019] 利用拉格朗日最小二乘法,分別對U和V求偏導,得到U和V的迭代公式;
[0020] 利用迭代公式求U和V直至收斂。
[0021] 優(yōu)選地,所述利用精確度和互信息兩種評價標準對所述聚類結果進行評價具體 為:
[0022] 對數(shù)據(jù)點山,令込和ai分別代表數(shù)據(jù)的原始標記和非負矩陣分解算法得到的標 記,定義精確度:
[0023]
其中,n是數(shù)據(jù)集的數(shù)據(jù)總數(shù),函數(shù)mapaj把得到的類 別標記映射為數(shù)據(jù)集中相應的標記a8 (x,y)是delta函數(shù),定義為:
[0024]
[0025] 定義互信息:
[0026]
其中,P(Cl)和pkj分別表示從數(shù) 據(jù)集中隨機抽取的數(shù)據(jù)屬于聚類cdPC',的概率,p(Ci,C' 表示數(shù)據(jù)同時屬于聚類(^和c' 的聯(lián)合概率;
[0027] 利用歸一化互信息,定義
,其中,H(C)和H(C')分 別是C和C'的熵。
[0028] -種基于非負矩陣分解的半監(jiān)督聚類系統(tǒng),包括:
[0029] 投影模塊,用于對原始數(shù)據(jù)矩陣作非負矩陣分解投影,得到既有鄰域保持又有相 似性保持的原始數(shù)據(jù)的低維近似矩陣;
[0030] 聚類模塊,用于利用算法接收參數(shù)K對所述原始數(shù)據(jù)的低維近似矩陣進行聚類, 得到聚類結果;
[0031] 評價模塊,用于利用精確度和互信息兩種評價標準對所述聚類結果進行評價。
[0032] 優(yōu)選地,所述投影模塊對原始數(shù)據(jù)矩陣作非負矩陣分解投影,得到既有鄰域保持 又有相似性保持的原始數(shù)據(jù)的低維近似矩陣具體為:
[0033] 令所有數(shù)據(jù)組成的集合為,其中XlGR'n是圖像的總個數(shù),m是圖像樣本的 維數(shù),并假設圖像數(shù)據(jù)中有NM個must-link約束對和N/hcannot-link約束對;
[0034] 構造由所有頂點構成的p_鄰域圖,并使用cannot-link約束對進行修正,如果兩 個頂點滿足cannot-link約束,同時又是p-鄰域頂點,則從p-鄰域圖中刪除這兩個頂點形 成的邊,其中,邊上的權重定義為:
[0035]
[0036] 構造由must-link約束對構成的相似圖,其中,邊上的權重定義為:
[0037]
[0038] 利用公式
對非負矩陣 分解進行優(yōu)化,得到投影以后的新空間的基U和原始數(shù)據(jù)在新空間的投影V,其中,Aw和入s均為參數(shù);
[0039] 定義
簡化后得到:
[0040]F=| |X-UVT | 12+ 人wTr(VTLWV) + 入sTr(VTLSV);
[0041] 利用拉格朗日最小二乘法,分別對U和V求偏導,得到U和V的迭代公式;
[0042] 利用迭代公式求U和V直至收斂。
[0043] 優(yōu)選地,所述評價模塊利用精確度和互信息兩種評價標準對所述聚類結果進行評 價具體為:
[0044]對數(shù)據(jù)點山,令込和ai分別代表數(shù)據(jù)的原始標記和非負矩陣分解算法得到的標 記,定義精確度:
[0045]
(其中,n是數(shù)據(jù)集的數(shù)據(jù)總數(shù),函數(shù)mapaj把得到的類 別標記映射為數(shù)據(jù)集中相應的標記a8 (x,y)是delta函數(shù),定義為:
[0046]
[0047] 定義互信息:
[0048]
其中,P(Cl)和pG'P分別表示從數(shù) 據(jù)集中隨機抽取的數(shù)據(jù)屬于聚類cdPC',的概率,p(Ci,C' 表示數(shù)據(jù)同時屬于聚類(^和c' 的聯(lián)合概率;
[0049] 利用歸一化互信息,定義
,其中,H(C)和H(C')分 別是C和C'的熵。
[0050]由上述方案可知,本發(fā)明提供的一種基于非負矩陣分解的半監(jiān)督聚類方法,首先 通過對原始數(shù)據(jù)矩陣作非負矩陣分解投影,得到原始數(shù)據(jù)的低維近似矩陣,然后利用算法 接收參數(shù)K對低維近似矩陣進行聚類,得到聚類結果,最后利用精確度和互信息兩種評價 標準對所述聚類結果進行評價,本發(fā)明基于非負矩陣分解,不僅考慮了原始數(shù)據(jù)的鄰域保 持,同時還考慮了相似性在原始空間和低維流形子空間的一致性,使得聚類性能在先驗信 息較多的時候大大提高,在先驗信息很少的時候依然能保持較好的聚類性能。
【附