本發(fā)明涉及一種數(shù)據(jù)挖掘方法,尤其是涉及一種基于差分進(jìn)化算法的非線性獨(dú)立成分分析方法。
背景技術(shù):
近年來,在“大數(shù)據(jù)”潮流的推動(dòng)下,幾乎所有行業(yè)都有涉及數(shù)據(jù)分析。而數(shù)據(jù)分析的主要目的是旨在從海量的數(shù)據(jù)中挖掘出有用的信息。作為一種多變量的數(shù)據(jù)分析算法,獨(dú)立成分分析(independentcomponentanalysis,ica)自20世紀(jì)90年代被提出后,已經(jīng)成功應(yīng)用于許多領(lǐng)域,尤其是在特征識(shí)別、信號(hào)源分離、故障檢測(cè)等領(lǐng)域得到了非常廣泛的研究。相比于經(jīng)典的主成分分析方法(principalcomponentanalysis,pca),ica雖然同為一種線性變換方法,但是它是基于數(shù)據(jù)或者信號(hào)高階統(tǒng)計(jì)特性的分析方法,經(jīng)ica算法分解出的各成分分量之間不僅是正交不相關(guān)而且還是相互獨(dú)立的。也正是因?yàn)檫@一點(diǎn),使ica在數(shù)據(jù)特征挖掘方面更優(yōu)越于經(jīng)典的pca算法。
在目前被廣泛使用的ica求解算法中,fastica算法因其迭代求解過程簡(jiǎn)單而得以推廣至大規(guī)模計(jì)算上,因此這種求解法到了使用者們的青睞。然而,已有研究文獻(xiàn)指出,fastica算法迭代過程利用了牛頓迭代法的原理,在遇到二次凸函數(shù)時(shí)容易陷入局部最優(yōu)值。此外,若迭代的初始值設(shè)置不當(dāng),fastica算法還有可能不收斂。為此,fastica算法通常要求先利用pca對(duì)數(shù)據(jù)進(jìn)行白化處理,并且假設(shè)白化后的數(shù)據(jù)是較好的初始值。針對(duì)fastica算法中牛頓迭代法的缺點(diǎn),已有國(guó)內(nèi)學(xué)者提出利用粒子群優(yōu)化(particleswarmoptimization,pso)算法取代牛頓迭代法的新型pso-ica算法。該pso-ica算法不僅保證了優(yōu)化算法能夠收斂到全局最優(yōu),而且還不需要對(duì)原始數(shù)據(jù)進(jìn)行白化預(yù)處理。因此,pso-ica算法是直接針對(duì)原始數(shù)據(jù)求解獨(dú)立成分的方法,這在實(shí)際應(yīng)用中能取得更滿意的效果??墒牵琲ca或pso-ica算法依舊是線性變換算法,無法有效地解決信號(hào)的非線性混合的盲源信號(hào)分離問題。而對(duì)于很多特征識(shí)別問題(如,人臉識(shí)別、語音識(shí)別等)以及絕大多數(shù)的現(xiàn)代工業(yè)采樣數(shù)據(jù)而言,ica所處理分析的信號(hào)或數(shù)據(jù)都是非線性的。非線性問題給ica方法的廣泛應(yīng)用帶來了直接的挑戰(zhàn)??尚业氖?,目前文獻(xiàn)和專利中都有涉及非線性的ica方法,比如神經(jīng)網(wǎng)絡(luò)與ica相結(jié)合的方法,還有就是利用核學(xué)習(xí)技巧的核ica(kernelica,kica)方法。這些方法雖能夠用來處理非線性的數(shù)據(jù)信號(hào),但是它們都不是直接型的非線性獨(dú)立成分提取方法。以kica為例,在分析非線性數(shù)據(jù)信號(hào)時(shí)并提取非線性獨(dú)立成分的過程中,kica首先利用了核pca(kernelpca,kpca)方法對(duì)原始數(shù)據(jù)信號(hào)進(jìn)行白化處理,然后再采用fastica算法迭代求取非線性獨(dú)立元。從某種層面上來說,kica實(shí)則是兩種方法的疊加,即kpca算法再加上fastica算法。雖然核學(xué)習(xí)技巧是一種廣泛采用的非線性數(shù)據(jù)分析技術(shù),但是基于kpca的白化過程有對(duì)原始數(shù)據(jù)信號(hào)進(jìn)行變換,這有可能導(dǎo)致某些信息的扭曲或者丟失??上攵瑸槌浞直WC信息的完整性,針對(duì)非線性數(shù)據(jù)信號(hào)最好能有一種能直接應(yīng)用分析的非線性ica方法。
如前所述,在處理非線性數(shù)據(jù)上,核學(xué)習(xí)技巧得到了比較廣泛的關(guān)注。例如,pca算法就是借鑒核學(xué)習(xí)而擴(kuò)展成能處理非線性數(shù)據(jù)的kpca。一般來講,核學(xué)習(xí)技巧的基本原理是通過構(gòu)造內(nèi)積而避免確定非線性映射函數(shù)的具體形式。也就是說,利用核學(xué)習(xí)方法,我們不知道原始數(shù)據(jù)非線性映射后的結(jié)果,只知道他們的內(nèi)積。因此,核學(xué)習(xí)方法在解決線性ica的非線性擴(kuò)展問題上是有直接意義的。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的主要技術(shù)問題是:如何利用核學(xué)習(xí)技巧將線性的ica算法擴(kuò)展成能直接分析處理非線性數(shù)據(jù)信號(hào)的方法,并避免利用牛頓迭代而陷入局部最優(yōu)或不收斂問題。本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案為:一種基于差分進(jìn)化算法的非線性獨(dú)立成分分析方法,包括以下步驟:
(1)將待分析處理的數(shù)據(jù)標(biāo)記為矩陣x=[x1,x2,…,xn]∈rm×n,xn∈rm×1表示第n個(gè)采樣時(shí)刻從m個(gè)通道獲得的觀測(cè)信號(hào)組成的樣本列向量,其中,n為樣本數(shù),m為觀測(cè)通道數(shù),r表示實(shí)數(shù)集,rm×n表示m×n維的實(shí)數(shù)矩陣,下標(biāo)號(hào)n=1,2,…,n。
(2)按照如下所示公式對(duì)x中的樣本進(jìn)行標(biāo)準(zhǔn)化處理,得到新矩陣
上式中,
其中,xn,m為向量xn中的第m個(gè)元素,μm為向量μ中的第m個(gè)元素,m=1,2,…,m,φm,m實(shí)為第m個(gè)觀測(cè)通道的標(biāo)準(zhǔn)差估計(jì)值。
(3)設(shè)置核函數(shù)參數(shù)c=5m后,按照下式計(jì)算核矩陣k∈rn×n中的第(i,n)個(gè)元素:
上式中,下標(biāo)號(hào)i=1,2,…,n,exp表示以自然常數(shù)e(約為2.71828)為底的指數(shù)函數(shù),符號(hào)||||表示計(jì)算向量的長(zhǎng)度。
(4)依據(jù)如下公式對(duì)矩陣k進(jìn)行中心化處理,即:
上式中,方陣l∈rn×n中各元素都為1。
(5)設(shè)置差分進(jìn)化算法的參數(shù),包括種群數(shù)np=6m、縮放因子f=0.6、以及交叉概率p=0.1。
(6)令下標(biāo)號(hào)k表示提取的第k個(gè)非線性獨(dú)立成分sk,并初始化k=1。
(7)任意初始化np個(gè)種群w1,w2,…,wnp后,運(yùn)行差分進(jìn)化算法待其滿足終止條件后輸出最好的種群wbest,并計(jì)算分離向量αk,那么相應(yīng)的非線性獨(dú)立成分為
(8)判斷k≥3n/4?若否,置k=k+1后返回步驟(7);若是,則執(zhí)行下一步驟(9)。
(9)將所有得到的分離向量組成矩陣w=[α1,α2,…,αk]∈rn×k,所有的非線性獨(dú)立成分組成矩陣s=[s1,s2,…,sk]∈rn×k。
(10)將矩陣s中的各列按非高斯性大小進(jìn)行降序排列后,相應(yīng)地改變分離矩陣w中各列的先后的順序得到新的分離矩陣
與現(xiàn)有方法相比,本發(fā)明方法的優(yōu)勢(shì)在于:
首先,本發(fā)明方法利用差分進(jìn)化算法取代傳統(tǒng)的牛頓迭代法,不僅能避免迭代求解過程陷入局部極小值,而且還不需要白化預(yù)處理過程避免了原始數(shù)據(jù)信息的扭曲或者丟失。另一方面,已有的科研文獻(xiàn)都已經(jīng)證明,相比于pso算法,差分進(jìn)化算法能獲得更好地優(yōu)化性能。而且查分進(jìn)化算法比較穩(wěn)定,針對(duì)不同初始值反復(fù)運(yùn)算都能收斂到同一個(gè)解。因此,本發(fā)明方法也就能保證所提取的非線性獨(dú)立成分的穩(wěn)定性。相比之下,pso算法的收斂結(jié)果容易受到初始值的影響,無法保證結(jié)果的穩(wěn)定性。此外,本發(fā)明方法是能直接應(yīng)用于原始數(shù)據(jù)特征挖掘的,解決訓(xùn)練數(shù)據(jù)非線性問題所采用的方式為核學(xué)習(xí)技巧。可以說,針對(duì)非線性數(shù)據(jù)或信號(hào),本發(fā)明方法是一種更為優(yōu)選的盲源信號(hào)分離方法。
附圖說明
圖1為本發(fā)明方法的實(shí)施流程圖。
圖2為差分進(jìn)化算法求解分離向量αk的實(shí)施流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明方法進(jìn)行詳細(xì)的說明。
如圖1所示,本發(fā)明提供了一種基于差分進(jìn)化算法的非線性獨(dú)立成分分析方法,該方法的具體實(shí)施步驟如下所示:
步驟1:將待分析處理的數(shù)據(jù)標(biāo)記為矩陣x=[x1,x2,…,xn]∈rm×n,xn∈rm×1表示第n個(gè)采樣時(shí)刻從m個(gè)通道獲得的觀測(cè)信號(hào)組成的樣本列向量,其中,n為樣本數(shù),m為觀測(cè)通道數(shù),r表示實(shí)數(shù)集,rm×n表示m×n維的實(shí)數(shù)矩陣,下標(biāo)號(hào)n=1,2,…,n。
步驟2:按照如下所示公式對(duì)x中的樣本進(jìn)行標(biāo)準(zhǔn)化處理,得到新矩陣
上式中,
其中,xn,m為向量xn中的第m個(gè)元素,μm為向量μ中的第m個(gè)元素,m=1,2,…,m,φm,m實(shí)為第m個(gè)觀測(cè)通道的標(biāo)準(zhǔn)差估計(jì)值。
步驟3:設(shè)置核函數(shù)參數(shù)c=5m后,按照下式計(jì)算核矩陣k∈rn×n中的第(i,n)個(gè)元素ki,n:
上式中,下標(biāo)號(hào)i=1,2,…,n,exp表示以自然常數(shù)e(約為2.71828)為底的指數(shù)函數(shù),符號(hào)||||表示計(jì)算向量的長(zhǎng)度。
步驟4:依據(jù)如下公式對(duì)矩陣k進(jìn)行中心化處理,即:
上式中,方陣l∈rn×n中各元素都為1。
步驟5:設(shè)置差分進(jìn)化算法的參數(shù),包括種群數(shù)np=6m、縮放因子f=0.6、以及交叉概率p=0.1。
步驟6:令下標(biāo)號(hào)k表示提取的第k個(gè)非線性獨(dú)立成分sk,并初始化k=1。
步驟7:任意初始化np個(gè)種群w1,w2,…,wnp后,運(yùn)行差分進(jìn)化算法待其滿足終止條件后輸出最好的種群wbest,并計(jì)算分離向量αk,那么相應(yīng)的非線性獨(dú)立成分為
①置i=0,開始執(zhí)行差分進(jìn)化算法;
②按照如下所示公式計(jì)算每個(gè)種群wq∈rn×1所對(duì)應(yīng)的適應(yīng)度值jq,即:
jq=f(wq)=e[g(tq)](9)
其中,q=1,2,…,np為種群標(biāo)號(hào),f(wq)為適應(yīng)度函數(shù),e表示求取均值,函數(shù)g(tq)=log[cosh(tq)],自變量tq的計(jì)算方式如下所示:
③將當(dāng)前整個(gè)種群中取得最大適應(yīng)度值的種群標(biāo)記為bi,相應(yīng)的適應(yīng)度值記為f(bi),并根據(jù)如下所示公式為每個(gè)種群產(chǎn)生一個(gè)變異向量vq:
vq=wq+f(bi-wq)+f(wa-wb)(11)
其中,下標(biāo)號(hào)a與b為從區(qū)間[1,np]中隨機(jī)產(chǎn)生的2個(gè)互不相同的整數(shù)。
④按照如下所示公式對(duì)變異向量vq進(jìn)行修正,即:
其中,vq,n表示向量vq中的第n個(gè)元素,n=1,2,…,n。
⑤根據(jù)如下所示公式產(chǎn)生嘗試向量uq∈rn×1,即:
其中,uq,n與wq,n分別為uq與wq中第n個(gè)元素,向量rand∈rn×1中各元素都是0到1之間均勻分布的任意隨機(jī)小數(shù),randn則為隨機(jī)向量rand中的第n個(gè)元素。
⑥置i=i+1后,依據(jù)如下所示公式更新種群wq,即:
⑦更新完所有種群后,找出種群對(duì)應(yīng)的適應(yīng)度值中的最大值(記做fbest),判斷是否滿足條件:i>2000或|fbest-f(bi)|<10-6?若否,返回③繼續(xù)執(zhí)行;若是輸出對(duì)應(yīng)于適應(yīng)度值fbest的種群wbest,并計(jì)算分離向量
步驟8:判斷k≥3n/4?若否,置k=k+1后返回步驟7;若是,則執(zhí)行下一步驟9。
步驟9:將所有得到的分離向量組成矩陣w=[α1,α2,…,αk]∈rn×k,所有的非線性獨(dú)立成分組成矩陣s=[s1,s2,…,sk]∈rn×k。
步驟10:將矩陣s中的各列按非高斯性大小進(jìn)行降序排列后,相應(yīng)地改變分離矩陣w中各列的先后的順序得到新的分離矩陣
①按照如下公式分別計(jì)算s1,s2,…,sk的非高斯性大小fg,即:
fg={e[g(sg)]-e[g(ζ)]}2(15)
其中,下標(biāo)號(hào)g=1,2,…,k,函數(shù)g(ζ)=log[cosh(ζ)],ζ∈rn×1中各元素為一任意均值為0,標(biāo)準(zhǔn)差為1的高斯分布的隨機(jī)數(shù);
②按f1,f2,…,fk數(shù)值大小進(jìn)行降序排列,根據(jù)排列順序?qū)?yīng)地改變分離矩陣w中各列的先后的順序得到新的分離矩陣
上述實(shí)施例僅是對(duì)本發(fā)明的優(yōu)選實(shí)施方式,在本發(fā)明的精神和權(quán)利要求的保護(hù)范圍內(nèi),對(duì)本發(fā)明做出的任何修改和改變,不應(yīng)排除在本發(fā)明的保護(hù)范圍之外。