一種基于典型相關(guān)性分析的計算機(jī)數(shù)據(jù)屬性約簡方法
【專利摘要】本發(fā)明公開了一種基于典型相關(guān)性分析的計算機(jī)數(shù)據(jù)屬性約簡方法,包括:(1)通過均分的思路將信息表中的原始屬性集合分割成多個子屬性集合,將每個子屬性集合分別看做原屬性集合的一個子視圖;(2)通過對這些視圖進(jìn)行典型相關(guān)性分析得出視圖特征之間的相關(guān)性情況;(3)按照相關(guān)性由大到小的順序合并屬性,將子視圖再次合并到一個視圖中,得到新的屬性集合;(4)對新屬性集合計算每個屬性的屬性重要度并按照從大到小排序;(5)選擇屬性重要度大的屬性加入到約簡集合中;(6)計算約簡集合的依賴度,如果依賴度與原屬性集合的依賴度相近,則輸出約簡集合;否則轉(zhuǎn)至步驟5。
【專利說明】
一種基于典型相關(guān)性分析的計算機(jī)數(shù)據(jù)屬性約簡方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于典型相關(guān)性分析的計算機(jī)數(shù)據(jù) 屬性約簡方法。
【背景技術(shù)】
[0002] 粗糙集是數(shù)據(jù)挖掘中解決不精確性和不確定性問題的有效工具。屬性約簡方法是 粗糙集中用來對數(shù)據(jù)進(jìn)行處理的一個重要手段,其目的在于從原始屬性集合中選擇出一些 最有效的屬性以去除冗余屬性,降低數(shù)據(jù)集維度,提高學(xué)習(xí)算法的性能。現(xiàn)實(shí)世界中,互聯(lián) 網(wǎng)等產(chǎn)生的數(shù)據(jù)往往不能直接運(yùn)用到數(shù)據(jù)挖掘過程,需要對這些"臟數(shù)據(jù)"進(jìn)行特定的去噪 和化簡處理,即數(shù)據(jù)預(yù)處理。據(jù)統(tǒng)計,數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘整體過程中大約占到60%以 上。粗糙集屬性約簡方法即是數(shù)據(jù)預(yù)處理的一種有力工具,在解決數(shù)據(jù)挖掘基本問題時有 著廣泛應(yīng)用。
[0003] 經(jīng)典的屬性約簡算法只是針對信息表中條件屬性與決策屬性的關(guān)系,而沒有考慮 到條件屬性本身之間的相關(guān)性,因此約簡的效果不是很理想。特征融合技術(shù)是一種通過研 究多視圖特征之間的相關(guān)性程度,將目標(biāo)的多種視圖的特征表示融合到一個目標(biāo)的子空間 中,從而盡量在不損失多視圖信息的同時,減少維度。典型相關(guān)性分析方法是特征融合的常 用方法。如果考慮條件屬性之間的相關(guān)性,利用典型相關(guān)性分析方法將相關(guān)性較大的屬性 進(jìn)行降維處理,得到初步約簡集,再在此約簡集上利用粗糙集約簡算法進(jìn)行進(jìn)一步約簡,得 到的最終約簡集將更具價值。
【發(fā)明內(nèi)容】
[0004] 發(fā)明目的:本發(fā)明的目的是針對現(xiàn)有的屬性約簡方法沒有考慮信息表中條件屬性 之間相關(guān)性的問題,提出一種基于典型相關(guān)性分析(Canonical Correlation Analysis, CCA)的計算機(jī)數(shù)據(jù)屬性約簡方法。該方法能夠有效提高粗糙集屬性約簡方法的約簡效果。
[0005] 為實(shí)現(xiàn)上述目的,本發(fā)明采用如下的技術(shù)方案:
[0006] 本發(fā)明將典型相關(guān)性分析方法應(yīng)用于粗糙集屬性約簡方法中,該方法包括以下步 驟:
[0007] 步驟1,典型相關(guān)性分析:采集需要進(jìn)行約簡的計算機(jī)數(shù)據(jù),基于均分方法將數(shù)據(jù) 信息表中的原始屬性集合分割成兩個子屬性集合,每個子屬性集合看成是原始屬性集合的 子視圖;通過典型相關(guān)性分析得出兩個子視圖的特征之間的相關(guān)性;按照相關(guān)性由大到小 的順序合并屬性得到新的屬性集合,將子視圖再次合并到一個視圖中;所述計算機(jī)數(shù)據(jù)包 括數(shù)據(jù)信息表,數(shù)據(jù)信息表包括數(shù)據(jù)的原始屬性集合;
[0008] 步驟2,粗糙集屬性約簡:利用粗糙集中基于重要性的約簡算法對新的屬性集合進(jìn) 行約簡得到最后的約簡集合。
[0009] 其中,步驟1包括如下步驟:
[0010] 步驟1-1,采集需要進(jìn)行約簡的計算機(jī)數(shù)據(jù),將數(shù)據(jù)信息表中的原始屬性集合均分 成兩個子集合Ai和A2,假設(shè)子集合維度為W,子集合Ai和A2對應(yīng)的米樣數(shù)據(jù)樣本分別為X和Y, X和Y的大小相等;
[0011]步驟1-2,分別求出X的方差矩陣Sign和Y的方差矩陣Sig22;再求出X與Y的協(xié)方差 矩陣Sig12以及Y與X的協(xié)方差矩陣Sig21;
[0012] 步驟1-3,根據(jù)步驟1-2得到的方差矩陣和協(xié)方差矩陣求得綜合矩陣F和綜合矩陣G 的值;
[0013] 步驟1-4,通過如下公式分別求出綜合矩陣F的特征向量矩陣F'和綜合矩陣G的特 征向量矩陣G7 :
[0014] |Α-λΕ|=0,
[0015] ΑΗ=λΗ,
[0016] 其中,A表示綜合矩陣,λ是A的特征值矩陣,H是特征向量矩陣,E是單位矩陣;
[0017] 步驟1-5,更新采樣數(shù)據(jù)樣本X = K X,樣本Y = V Y,回到步驟1-2,執(zhí)行步驟1-2至步 驟1-5W次;
[0018] 步驟1-6,將更新后的采樣數(shù)據(jù)樣本按照屬性相關(guān)性由大到小進(jìn)行排序,假設(shè)屬性 融合粒度大小是n,n取值為自然數(shù)且n〈W,對更新后的采樣數(shù)據(jù)樣本X和Y最相關(guān)的前η維數(shù) 據(jù)二者選其一,即保留X的前η維或者保留Y的前η維,將剩余屬性合并,得到新的屬性集合, 維度為2W-n。
[0019] 步驟1-1中所述數(shù)據(jù)信息表定義為:
[0020] S=(U,CUD,V,f),
[0021] 其中U是采集的數(shù)據(jù)的非空有限集合,C是條件屬性集合,D是決策屬性集合(這是 粗糙集中的定義,在粗糙集中屬性包括條件屬性和決策屬性,條件屬性即是特征;決策屬性 是類標(biāo)),V= U ae(GUD)Va,示屬性a G C U D的值域,U ae(GUD)Va表示所有屬性在數(shù)據(jù)信息 表中值域的并集,f表示U X (C U D) -V的一個映射,稱為信息函數(shù)。
[0022] 步驟1-2中采用如下公式計算方差矩陣和協(xié)方差矩陣:
[0023] Sign = Et (Χ-μχ)(Χ-μχ)],
[0024] Sig22 = Et (Υ-μγ)(Υ-μγ)],
[0025] Sigi2 = Et (Χ-μχ)(Υ-μγ)],
[0026] Sig2I = Et (Υ-μγ)(Χ-μχ)],
[0027] 其中μχ和μγ分別代表采樣數(shù)據(jù)樣本X的均值和采樣數(shù)據(jù)樣本Y的均值。
[0028] 步驟1-3中采用如下公式計算綜合矩陣F和綜合矩陣G:
[0029] F = Sigrj1Sigj2SiggSig21,
[0030] C- = Sig^1 Sig21Sigi11Sig1^o
[0031] 步驟2包括以下步驟:
[0032] 步驟2-1,計算每個條件屬性Mi的屬性重要度,Mi表示第i個條件屬性,Mi eM, M Q C ·將結(jié)果存放在向量SigArray中;
[0033] 步驟2-2,使用快速排序算法對向量SigArray中的屬性按照屬性重要度由大到小 排序,結(jié)果存放在向量SortedArray中,定義約簡集合RedAiray = 0:
[0034]步驟2-3,計算條件屬性集合M關(guān)于決策屬性集合D的屬性依賴度M(D);
[0035] 步驟2-4,從向量SortedArray中選擇當(dāng)前屬性m,加入到約簡集合RedArray中,同 時將屬性m從向量SortedArray中去除;
[0036]步驟2-5,計算約簡集合RedArray中的屬性關(guān)于決策屬性的屬性依賴度ktemp,如果 ktemp! = rM(D),回到步驟2-4;否則返回約簡集合RedArray。
[0037] 步驟2-1中采用如下公式計算條件屬性的屬性重要度5'?_5Μ,:
[0038]
[0039]
[0040]
[0041]
[0042] 其中5??表示第i個條件屬性姐的屬性重要度,P是條件屬性集合,P S C;Q是決策 屬性集合,Q ?Ξ D; * I代表個數(shù);rP(Q)是條件屬性集合P對決策屬性集合Q的屬性依賴度 rp-mi丨(Q)表示去掉屬性Mi后的剩余條件屬性集合對決策屬性集合Q的屬性依賴度;POSp(Q) 是條件屬性集合P關(guān)于決策屬性集合Q的正域;PJX)是采樣數(shù)據(jù)樣本集合X關(guān)于條件屬性集 合P的下近似;[b] P是采集的數(shù)據(jù)的非空有限集合U關(guān)于條件屬性集合P的等價類。
[0043]步驟2-3中采用如下公式計算屬性依賴度M(D):
[0044] M(D)= IPOSm(D) I/|U|,
[0045]其中,POSm(D)是條件屬性集合M關(guān)于決策屬性集合D的正域。
[0046] 有益效果:
[0047]本發(fā)明將典型相關(guān)性分析步驟加入粗糙集屬性約簡過程中,能有效分析條件屬性 之間的關(guān)系,將相關(guān)性大的條件屬性進(jìn)行初步約簡,接著采用粗糙集屬性約簡方法對預(yù)處 理過后的數(shù)據(jù)集進(jìn)行約簡,不僅能提高約簡的速度,同時也能提高約簡效果以及算法的分 類性能。本發(fā)明能約簡冗余度高的屬性,有效降低特征維度,并提高原數(shù)據(jù)的分類精度。
【附圖說明】
[0048]下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明做更進(jìn)一步的具體說明,本發(fā)明的上述 和/或其他方面的優(yōu)點(diǎn)將會變得更加清楚。
[0049] 圖1是本發(fā)明方法的總體結(jié)構(gòu)圖。
[0050] 圖2是本發(fā)明方法的流程圖。
[0051 ]圖3是本發(fā)明中典型相關(guān)性分析過程圖。
[0052]圖4是本發(fā)明中屬性約簡方法過程圖。
【具體實(shí)施方式】
[0053]如圖1所示,本發(fā)明方法包含2個基本部分:首先利用典型相關(guān)性分析方法分析信 息表中條件屬性之間的相關(guān)性,對相關(guān)性大的屬性進(jìn)行融合,得到初步融合后的新的屬性 集合;接著利用屬性約簡方法對新屬性集合進(jìn)行約簡得到最后的約簡集合。
[0054]本發(fā)明方法流程如圖2所示,下面詳細(xì)說明:
[0055] 步驟(1)典型相關(guān)性分析階段,過程如圖3所示:
[0056] (11)將信息表S = (U,C U D,V,f)中原屬性集合均分成兩個子集合AjPA2,假設(shè)子集 合維度為W。保證AjPA2對應(yīng)的數(shù)據(jù)樣本數(shù)量相等,分別為X和Y。
[0057] (12)對于X和Υ,分別求出各自的方差矩陣Sign和Sig22;再求出X與Y以及Y與X的協(xié) 方差矩陣 Sig1:^PSig21。
[0058] (13)求得綜合矩陣F和綜合矩陣G的值。
[0059] (14)分別求出F和G的特征向量矩陣F7和G7。
[0060] (15)更新X=FU=VY,回到步驟(12),執(zhí)行這個循環(huán)W次。
[0061] (16)將更新后的采樣數(shù)據(jù)樣本按照屬性相關(guān)性由大到小進(jìn)行排序,假設(shè)屬性融合 粒度大小是n,n取值為自然數(shù)且n〈W,對更新后的采樣數(shù)據(jù)樣本X和Y最相關(guān)的前η維數(shù)據(jù)二 者選其一,即保留X的前η維或者保留Y的前η維,將剩余屬性合并,得到新的屬性集合,維度 為2W-n〇
[0062] 步驟(2)屬性約簡階段,過程如圖4所示:
[0063] (21)對于新信息表中的條件屬性,計算每個條件屬性M1GM的屬性重要度,結(jié)果存 放在向量S i gArray中。
[0064] (22)使用快速排序算法對向量SigArray中的屬性按照屬性重要度由大到小排序, 結(jié)果存放在SortedArray中;定義約簡集合RedAiray = 0?
[0065] (23)計算條件屬性M關(guān)于決策屬性D的屬性依賴度M(D)。
[0066] (24)從SortedArray中選擇當(dāng)前屬性m,加入到RedArray中,同時將屬性a從 SortedArray 中去除。
[0067] (25)計算RedArray關(guān)于決策屬性D的屬性依賴度ktemp。如果ktemp! =M(D),回到步 驟(24);否則返回約簡子集RedArray。
[0068] 實(shí)施例1
[0069] 下面根據(jù)實(shí)施例說明本發(fā)明的各個步驟。本發(fā)明方法基本適用于所有用來做分類 處理的數(shù)據(jù)。本實(shí)施例以常用的文本數(shù)據(jù)舉例。豆瓣網(wǎng)會將大量的圖書進(jìn)行分類以便向用 戶推薦某一類別的圖書。如果手動對這些圖書進(jìn)行分類幾乎不太現(xiàn)實(shí),因此根據(jù)圖書的文 本內(nèi)容對圖書進(jìn)行自動類別劃分將具有很大的現(xiàn)實(shí)意義。但是文本處理最大的問題是文本 數(shù)據(jù)包含大量的詞匯,造成文本的維度很高,有的甚至達(dá)到上萬維。同時,這上萬維的數(shù)據(jù) 里通常包含了很多無用數(shù)據(jù),不僅對分類準(zhǔn)確率造成干擾,同時也非常耗時。因此就需要對 這類數(shù)據(jù)進(jìn)行屬性約簡,降低文本維度,提高分類準(zhǔn)確率。這里,構(gòu)造一個簡單的文本數(shù)據(jù), 用來說明本發(fā)明方法的實(shí)施步驟,之后會將該發(fā)明方法應(yīng)用于真實(shí)的數(shù)據(jù)中。
[0070] 表1信息表
[0072] 該文本數(shù)據(jù)包含5本書分別從BI到B5,總共包含8個單詞,表中的數(shù)值代表該單詞 在文本中出現(xiàn)的次數(shù),d是對文本的分類。將該文本抽象成信息表,因此共有8個條件屬性分 別從ai到as,d是決策屬性,Xi到X5是樣本。
[0073] 對于步驟(11),先將條件屬性平均分成兩部分,得到兩個屬性子集A1=Iaha^a3, ad和A2= {a5,a6,a7,as}。此時維
[0074] 對于步驟(12),根據(jù)公式分別求出X和Y的方差矩陣和協(xié)方差矩陣。其中μχ和μγ代表 矩陣X和矩陣Y的均值。
[0075] Sigii = E[ (Χ-μχ) (Χ-μχ)]
[0076] Sig22 = E[ (Υ_μγ) (Υ_μγ)]
[0077] Sigi2 = E[ (Χ-μχ) (Υ-μγ)]
[0078] Sig2I = Et (Υ-μγ) (Χ-μχ)]
[0079] 對于步驟(13),根據(jù)公式求得綜合矩陣F和G的值。
[0080]
[0081]
[0082] 對于步驟(14),求得綜合矩陣F和G的特征向量矩陣F7和G7。先計算F和G的特征值 矩陣,再根據(jù)特征值求得特征向量矩陣。A表示矩陣,λ是A的特征值矩陣,H是特征向量矩陣, E是單位矩陣。
[0083] Α-λΕ| =0
[0084] ΑΗ=λΗ
[0085] 對于步驟(15),根據(jù)公式更新X和Υ,再次回到步驟(12),循環(huán)4次。
[0086] X=F7X
[0087] Y=G7Y
[0088] 對于步驟(16),假設(shè)融合粒度η為2,根據(jù)以上步驟,得出矩陣X中的屬性{ai,a3}與 矩陣Y中的屬性{a 6,a7}相關(guān)性最大,因此可以保留兩組屬性中的任意一組,這里保留{ai, a3}。將該組屬性與剩余屬性合并,開彡成初步約簡結(jié)果集合{ai,a2,a3,a4,as,as},該集合的維 度為6,相比于初始屬性集合的維度減少了 2維。
[0089] 對于步驟(21),根據(jù)公式計算每個條件屬性的重要度,存放在向量SigArray中。這 里可得 SigArray ={0.7,0.5,0.8,0.3,0.2,0.6}。
[0090]
[0091]
[0092]
[0093]
[0094] 其中表示第i個條件屬性1的屬性重要度,P是條件屬性集合,P £ C:;Q是決策 屬性集合,Q £ D; I * I代表個數(shù);rp(Q)是條件屬性集合P對決策屬性集合Q的屬性依賴度 rp-丨Mj(Q)表示去掉屬性Mi后的剩余條件屬性集合對決策屬性集合Q的屬性依賴度;POSp(Q) 是條件屬性集合P關(guān)于決策屬性集合Q的正域;PJX)是采樣數(shù)據(jù)樣本集合X關(guān)于條件屬性集 合P的下近似;[b] P是采集的數(shù)據(jù)的非空有限集合U關(guān)于條件屬性集合P的等價類。
[0095] 對于步驟(22),利用快速排序算法對屬性集合{ai,a2,a3,a4,as,as}按照屬性重要 度從大到小排序,將結(jié)果存放在SortedArray中。因此SortedArray = {a3,ai,a8,a2,a4,a5}。 并且定義約簡集合Red Array = 0。:
[0096] 對于步驟(23),根據(jù)依賴度計算公式計算所有屬性{31,32,33,34,35,38}對決策屬 性d的依賴度rM(D)。這里rM(D)=0.99。
[0097] 對于步驟(24),從SortedArray中選擇當(dāng)前屬性加入到RedArray中,同時將 SortedArray中的當(dāng)前屬性去除,因此RedArray = {a3},SortedArray= { ai,a8,a2,a4,as} 〇 [0098]對于步驟(25),根據(jù)依賴度計算公式計算屬性集合RedArray= {a3}對決策屬性d 的依賴度ktemp。這里ktemp = 0.8。因為ktemp ! =M(D),因此回到步驟(24),直到ktemp = rM(D)停 止。
[00"]最后得到約簡集合RedArray = {a3,ai,as}。
[0?00]因此可以將原先的文本數(shù)據(jù)變成只包含math ,guitar和picture 3個單詞組成的 數(shù)據(jù),將那些無意義的類似于haha,oh等單詞刪除,這不僅能降低數(shù)據(jù)量,提高分類的時間 性能,同時剔除一些干擾詞匯后,也能提高分類的準(zhǔn)確度。
[0101]為了進(jìn)一步說明本發(fā)明方法的準(zhǔn)確性和有效性,將該方法應(yīng)用于兩個真實(shí)的數(shù)據(jù) 中。
[0102] 第一個數(shù)據(jù)來自于UCI庫中的YearPredictionMSD,是哥倫比亞大學(xué)LabROSA實(shí)驗 室和回音網(wǎng)The Echo Nest合作的百萬歌曲數(shù)據(jù)集(Million Song Dataset)中的一部分?jǐn)?shù) 據(jù)。每一條數(shù)據(jù)包含一首流行歌曲的聲音特征和一些元數(shù)據(jù)。聲音特征并不是指真實(shí)的聲 音,而是從這些聲音中提取出來的特征數(shù)據(jù),例如聲音的哈希值,聲音的響度,每一段的最 大響度,音樂的打擊時間等等。元數(shù)據(jù)包括歌手的信息例如歌手名稱,歌手在回音網(wǎng)擁有的 標(biāo)簽等。根據(jù)這些特征來預(yù)測歌曲的發(fā)布年份。該數(shù)據(jù)集總共包含90維條件屬性特征。
[0103] 對于步驟(1)典型相關(guān)性分析階段,首先將數(shù)據(jù)集平均劃分成兩份,每份數(shù)據(jù)包含 45個條件屬性;然后利用典型相關(guān)性分析方法計算兩份數(shù)據(jù)子集中條件屬性的相關(guān)性程 度,對相關(guān)性較大的屬性進(jìn)行融合。分別設(shè)置融合粒度η為5,10,15,20,25,30。如表1所不, 給出在不同融合粒度后,初步約簡結(jié)果,以及利用SVM分類器進(jìn)行分類的分類精度。從結(jié)果 可以看出,原始屬性集合的分類精度只能保持在70.8%左右,說明數(shù)據(jù)集中含有大量的冗 余和噪聲屬性。進(jìn)行典型相關(guān)性屬性融合后,不僅屬性個數(shù)降低了,同時分類的準(zhǔn)確率也得 到大幅度提升。
[0104] 表2數(shù)據(jù)集1下不同融合粒度下的分類精度 數(shù)據(jù)集名 訓(xùn)練數(shù)據(jù) 測試數(shù)據(jù) 屬性個數(shù) 分類正確率(%) origin 3000 1000 90 70.8 CC A5 3000 1000 85 87,2 CCAIO 3000 1000 80 90.3
[0105] CCA15 3000 1000 15 92.2 CCA20 3000 1000 70 93.8 CCA25 3000 1000 65 91.3 CCA30 3000 1000 60 91,2
[0106] 對于步驟(2)屬性約簡階段,對于上述產(chǎn)生的新的數(shù)據(jù)集,計算每個屬性的重要 性,并按照屬性重要性從大到小進(jìn)行排列,選擇重要性大的屬性加入約簡集合,直到約簡集 合的屬性依賴度與原屬性集合的依賴度基本相近為止。如表2所示,對融合后的屬性集合進(jìn) 行屬性約簡后,利用SVM分類器進(jìn)行分類。從結(jié)果可以看出,對原數(shù)據(jù)集進(jìn)行約簡后的屬性 個數(shù)為23,同時分類精度為73.8%,分類精度略低。對融合后的屬性集合進(jìn)行屬性約簡,屬 性個數(shù)得到明顯的降低,同時分類精度也得到大幅度提升。證明本發(fā)明方法是正確而有效 的。
[0107] 表3數(shù)據(jù)集1下融合與屬性約簡后的分類精度 數(shù)據(jù)集名 訓(xùn)練數(shù)據(jù)測試數(shù)據(jù)屬性個數(shù)約簡后屬性分類正確率 個數(shù) (%): origin 3000 1000 90 23 73.8 CCA5 3000 1000 85 19 85.5
[0108] CCAiO 3000 1000 80 14 83..3 CCA15 3000 1000 75 15 87.2 CCA20 3000 1000 70 11 91,0 CCA25 3000 1000 65 12 89,1 CCA30 3000 1000 60 10 87.2
[0109] 實(shí)施例2
[0110] 第二個數(shù)據(jù)集來源于兩家醫(yī)療機(jī)構(gòu)。該數(shù)據(jù)集包含正常人和病人的診斷信息,目 的是根據(jù)這些數(shù)據(jù)區(qū)分正常人診斷數(shù)據(jù)和病人診斷數(shù)據(jù)。所有的數(shù)據(jù)是通過SELDI技術(shù)提 取的質(zhì)譜數(shù)據(jù),之后對該質(zhì)譜數(shù)據(jù)進(jìn)行處理,得到10000維特征。但是這10000維特征中包含 很多冗余信息,直接對其進(jìn)行區(qū)分,分類效果不會太好,因此需要先對其進(jìn)行降維處理。
[0111] 對于步驟(1)典型相關(guān)性分析階段,同樣將數(shù)據(jù)屬性集合劃分成兩個子集合,每個 集合的屬性維度為5000。之后對其進(jìn)行屬性相關(guān)性分析,因為屬性維度較大,這里將融合粒 度設(shè)置稍大一些,為100,300,500,700,1000,依然采用SVM分類器對融合前后的數(shù)據(jù)集進(jìn)行 分類。表4是融合后的分類結(jié)果。從結(jié)果可以看出,相比于沒有進(jìn)行融合的原屬性集合,SVM 分類器在融合后的數(shù)據(jù)集上得到了更好的分類效果。
[0112] 表4數(shù)據(jù)集2下不同融合粒度下的分類精度 數(shù)據(jù)集名 訓(xùn)練數(shù)據(jù) 測試數(shù)據(jù) 屬性個數(shù) 分類正確率(%) origin 2000 1000 10000 70 CCA5 2000 1卿0 9900 84.5
[0113] CCAlO 2000 1000 9700 8、 CCA15 2000 1000 9500 Sl CCA20 2000 1000 9300 85
[0114] CCA25 2000 1000 9000 84
[0115] 對于步驟(2)屬性約簡階段,依然采用相同的方法對上述新產(chǎn)生的數(shù)據(jù)集的每個 屬性計算其重要度,然后對這些屬性按照重要度大小排序。每次往約簡結(jié)果集中加入重要 性最大的屬性,直到約簡集的依賴度與原屬性集合依賴度相當(dāng)為止。對約簡產(chǎn)生的最終結(jié) 果,同樣采用SVM算法對其分類。表5為經(jīng)過融合以及屬性約簡之后的SVM分類效果。從結(jié)果 上可以看出,經(jīng)過屬性約簡之后,屬性個數(shù)由初始的10000個屬性降低為最少22個,屬性壓 縮比例接近99%。同時也發(fā)現(xiàn)分類的準(zhǔn)確率也有所提升。
[0116] 表5數(shù)據(jù)集1下融合與屬性約簡后的分類精度 數(shù)據(jù)集名 訓(xùn)練數(shù)據(jù) 測試數(shù)據(jù) 屬性個數(shù) 分類正確率(%) origin 2000 1000 10000 7〇 CCA5 2000 1000 22 85 5
[0117] CCAlO 2000 1000 25 86.5 CCA15 2000 1000 30 84.5 CCA20 2000 1000 45 87,5 CCA25 2000 1000 48 86
[0118] 從兩個真實(shí)的數(shù)據(jù)集上的測試效果表明,本發(fā)明方法不僅能有效降低數(shù)據(jù)中的屬 性維度,同時也能將冗余的無意義的臟數(shù)據(jù)剔除,從而提高分類的質(zhì)量。
[0119] 本發(fā)明提供了一種基于典型相關(guān)性分析的計算機(jī)數(shù)據(jù)屬性約簡方法,具體實(shí)現(xiàn)該 技術(shù)方案的方法和途徑很多,以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù) 領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這 些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。本實(shí)施例中未明確的各組成部分均可用現(xiàn)有技 術(shù)加以實(shí)現(xiàn)。
【主權(quán)項】
1. 一種基于典型相關(guān)性分析的計算機(jī)數(shù)據(jù)屬性約簡方法,其特征在于,包括W下步驟: 步驟1,典型相關(guān)性分析:采集需要進(jìn)行約簡的計算機(jī)數(shù)據(jù),基于均分方法將數(shù)據(jù)信息 表中的原始屬性集合分割成兩個子屬性集合,每個子屬性集合看成是原始屬性集合的子視 圖;通過典型相關(guān)性分析得出兩個子視圖的特征之間的相關(guān)性;按照相關(guān)性由大到小的順 序合并屬性得到新的屬性集合,將子視圖再次合并到一個視圖中;所述計算機(jī)數(shù)據(jù)包括數(shù) 據(jù)信息表,數(shù)據(jù)信息表包括數(shù)據(jù)的原始屬性集合; 步驟2,粗糖集屬性約簡:利用粗糖集中基于重要性的約簡算法對新的屬性集合進(jìn)行約 簡得到最后的約簡集合。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟1包括如下步驟: 步驟1-1,采集需要進(jìn)行約簡的計算機(jī)數(shù)據(jù),將數(shù)據(jù)信息表中的原始屬性集合均分成兩 個子集合Ai和A2,假設(shè)子集合維度為W,子集合Ai和A2對應(yīng)的采樣數(shù)據(jù)樣本分別為X和Υ,Χ和Y 的大小相等; 步驟1-2,分別求出X的方差矩陣Sign和Υ的方差矩陣Sig22;再求出X與Υ的協(xié)方差矩陣 Sigl2 W及Y與X的協(xié)方差矩陣Sig21; 步驟1-3,根據(jù)步驟1-2得到的方差矩陣和協(xié)方差矩陣求得綜合矩陣F和綜合矩陣G的 值; 步驟1-4,通過如下公式分別求出綜合矩陣F的特征向量矩陣F/和綜合矩陣G的特征向 量矩陣護(hù): Α-λΕ| =0, ΑΗ=λΗ, 其中,A表示綜合矩陣,λ是A的特征值矩陣,Η是特征向量矩陣,Ε是單位矩陣; 步驟1-5,更新采樣數(shù)據(jù)樣本X = F^X,樣本Y = G/y,回到步驟1-2,執(zhí)行步驟1-2至步驟1- 抓次; 步驟1-6,將更新后的采樣數(shù)據(jù)樣本按照屬性相關(guān)性由大到小進(jìn)行排序,假設(shè)屬性融合 粒度大小是n,n取值為自然數(shù)且n<W,對更新后的采樣數(shù)據(jù)樣本X和Y最相關(guān)的前η維數(shù)據(jù)二 者選其一,即保留X的前η維或者保留Υ的前η維,將剩余屬性合并,得到新的屬性集合,維度 為2W-n。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟1-1中所述數(shù)據(jù)信息表定義為: S=化,CUD,V,f), 其中U是采集的數(shù)據(jù)的非空有限集合,C是條件屬性集合,D是決策屬性集合,V = U ae(CUD)Va,Va表不屬性aGCU D的值域,U ae(CUD)Va表不所有屬性在數(shù)據(jù)信息表中值域的并 集,f表示U X (C U D) 的一個映射,稱為信息函數(shù)。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,步驟1-2中采用如下公式計算方差矩陣和 協(xié)方差矩陣: Sigii = E[(X-yx)(X-yx)], Sig22 = E[(Y-yY)(Y-yY)], Sigi2 = E[(X-yx)(Y-yY)], Sig2i = E[(Y-yY)(X-yx)], 其中μχ和μγ分別代表采樣數(shù)據(jù)樣本X的均值和采樣數(shù)據(jù)樣本Υ的均值。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,步驟1-3中采用如下公式計算綜合矩陣F和 綜合矩陣G:6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟2包括W下步驟: 步驟2-1,計算每個條件屬性Mi的屬性重要度,Mi表示第i個條件屬性,MiGM,M fr= C,將 結(jié)果存放在向量SigArray中; 步驟2-2,使用快速排序算法對向量SigArray中的屬性按照屬性重要度由大到小排序, 結(jié)果存放在向量So;rtedArray中,定義約簡集合RedAiTay = 0: 步驟2-3,計算條件屬性集合Μ關(guān)于決策屬性集合D的屬性依賴度η化); 步驟2-4,從向量So;rtedA;rray中選擇當(dāng)前屬性m,加入到約簡集合RedArray中,同時將 屬性m從向量SortedArray中去除; 步驟2-5,計算約簡集合RedArray中的屬性關(guān)于決策屬性的屬性依賴度ktemp,如果ktemp! = n(D),回到步驟2-4;否則返回約簡集合RedArray。7. 根據(jù)權(quán)利要求6中所述的方法,其特征在于,步驟2-1中采用如下公式計算條件屬性 的屬性重要度S苗Mi = 打(q)=|P0Sf<q)|/|u|,其中S苗Mi表示第i個條件屬性Ml的屬性重要度,P是條件屬性集合,p c: C誠是決策屬性 集合,Q CD; *1代表個數(shù);rp(Q)是條件屬性集合P對決策屬性集合Q的屬性依賴度 表示去掉屬性Ml后的剩余條件屬性集合對決策屬性集合Q的屬性依賴度;POSp(Q) 是條件屬性集合P關(guān)于決策屬性集合Q的正域;P_(X)是采樣數(shù)據(jù)樣本集合X關(guān)于條件屬性集 合P的下近似;[b]P是采集的數(shù)據(jù)的非空有限集合U關(guān)于條件屬性集合P的等價類。8. 根據(jù)權(quán)利要求7中所述的方法,其特征在于,步驟2-3中采用如下公式計算屬性依賴 度rM(D): γμ(0)= |P0Sm(D) |/|u|, 其中,POSm化)是條件屬性集合Μ關(guān)于決策屬性集合D的正域。
【文檔編號】G06K9/62GK105938561SQ201610228398
【公開日】2016年9月14日
【申請日】2016年4月13日
【發(fā)明人】商琳, 李萍, 吳建陽
【申請人】南京大學(xué)