融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法【專利摘要】本發(fā)明提供一種融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法,包括以下步驟:初始學(xué)習(xí):利用自組織映射從原始樣本中提取樣本分布規(guī)律,將原始樣本分為多個類別的訓(xùn)練數(shù)據(jù)集;然后對每一類別的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,得到每個類別訓(xùn)練數(shù)據(jù)集的自組織映射;使用訓(xùn)練后自組織映射的原型向量作為模式神經(jīng)元來構(gòu)建概率神經(jīng)網(wǎng)絡(luò);如果新數(shù)據(jù)集為已知類別的數(shù)據(jù)集,進(jìn)行局部的調(diào)整學(xué)習(xí)即可;如果新數(shù)據(jù)集是新類別的數(shù)據(jù)集,則新訓(xùn)練一個獨(dú)立的自組織映射,并將其原型向量加入所述概率神經(jīng)網(wǎng)絡(luò)中。本發(fā)明的方法可克服傳統(tǒng)的機(jī)器學(xué)習(xí)算法通常基于靜態(tài)的數(shù)據(jù)集來構(gòu)造決策模型,且不能有效利用蘊(yùn)含在新的可用數(shù)據(jù)中的知識的缺陷。【專利說明】融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及機(jī)器學(xué)習(xí)【
技術(shù)領(lǐng)域:
】,具體而言涉及一種基于神經(jīng)網(wǎng)絡(luò)的融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法?!?br>背景技術(shù):
】[0002]傳統(tǒng)的機(jī)器學(xué)習(xí)算法通常基于靜態(tài)的數(shù)據(jù)集來構(gòu)造決策模型,不能有效利用蘊(yùn)含在新的可用數(shù)據(jù)中的知識。當(dāng)有新的可用數(shù)據(jù)時,傳統(tǒng)的學(xué)習(xí)算法不得不重新訓(xùn)練整個決策模型,導(dǎo)致計(jì)算復(fù)雜度高并且效率低下。增量式學(xué)習(xí)技術(shù)是有效解決該問題的途徑,近年來日益得到學(xué)術(shù)界與工業(yè)界的重視。[0003]一般新的可用數(shù)據(jù)分為兩大類:一種是決策模型已知類標(biāo)的新數(shù)據(jù);另一種是決策模型未知類標(biāo)的新類別數(shù)據(jù),具有增量學(xué)習(xí)能力的決策模型應(yīng)該能夠有效處理這兩種類型的新數(shù)據(jù)。至于增量式學(xué)習(xí)本身,又可以分為兩個不同的層次:特征級增量式學(xué)習(xí)和決策級增量學(xué)習(xí)。分類/預(yù)測問題中一個關(guān)鍵的步驟是抽取有效的鑒別特征。很多傳統(tǒng)的特征抽取方法,例如主分量分析(PrincipalComponentAnalysis,PCA)、線性鑒別分析(LinearDiscriminantAnalysis,LDA)等均是由一個靜態(tài)的數(shù)據(jù)集構(gòu)建特征抽取模型。當(dāng)有新的可用數(shù)據(jù)時,必須重新從頭開始訓(xùn)練特征抽取模型。特征級增量式學(xué)習(xí)旨在利用新的可用數(shù)據(jù)來更新原有的特征抽取模型,而無需重新訓(xùn)練。例如經(jīng)典的PCA和LDA已經(jīng)分別被研究人員推廣為具有增量學(xué)習(xí)能力的特征抽取模型,即IPCA(IncrementalPCA)和ILDA(IncrementalLDA)。在IPCA和ILDA中新的數(shù)據(jù)可以增量的形式更新已有的特征抽取模型。與特征級增量學(xué)習(xí)使用新數(shù)據(jù)更新特征抽取模型不同,決策級增量學(xué)習(xí)直接利用新數(shù)據(jù)來更新決策模型。[0004]本發(fā)明是決策級增量式學(xué)習(xí),提出一種融合自組織映射(SOM)和概率神經(jīng)網(wǎng)絡(luò)(PNN)的增量式學(xué)習(xí)方法。作為一種非參數(shù)方法,PNN本身非常簡單并且在很多分類問題上表現(xiàn)出色。然而,PNN存在的一個重要不足之處是,在決策階段需要用到所有的訓(xùn)練樣本,因而不可避免地會導(dǎo)致存儲空間大,計(jì)算效率低下。事實(shí)上,在很多實(shí)際問題中,新的可用數(shù)據(jù)會不斷產(chǎn)生,上述問題就會進(jìn)一步惡化。很多研究人員已經(jīng)采取不同的方法來降低傳統(tǒng)PNN的計(jì)算復(fù)雜度,同時保持其優(yōu)秀特性(M.Feng,etal.,"ProbabilisticsegmentationofvolumedataforvisualizationusingS0M-PNNclassifier,"presentedattheProceedingsofthel998IEEEsymposiumonVolumevisualization,ResearchTrianglePark,NorthCarolina,UnitedStates,1998.以及D.J.Yu,etal.,"S0MPNN:anefficientnon-parametricmodelforpredictingtransmembranehelices,"AminoAcids,vol.42,pp.2195-205,Jun2012)?例如,使用聚類方法(K-means,fuzzyC-meansclustering)(Z.L.Wang,etal.,〃AnIncrementalLearningMethodBasedonProbabilisticNeuralNetworksandAdjustableFuzzyClusteringforHumanActivityRecognitionbyUsingWearableSensors,〃IEEETransactionsonInformationTechnologyinBiomedicine,vol.16,pp.691-699,Jul2012.)對訓(xùn)練數(shù)據(jù)進(jìn)行聚類,然后使用聚類中心代替原始數(shù)據(jù)構(gòu)建PNN。然而,此類方法的缺陷是需要事先設(shè)定聚類中心的個數(shù),受主觀性影響較大。最近,我們使用SOM對訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),然后使用訓(xùn)練好的SOM的原型向量構(gòu)建PNN,這樣得到的PNN結(jié)構(gòu)緊致,顯著降低了PNN計(jì)算的復(fù)雜度和存儲空間需求(D.J.Yu,etal.,〃S0MPNN:anefficientnon-parametricmodelforpredictingtransmembranehelices,"AminoAcids,vol.42,pp.2195-205,Jun2012.)。雖然上述這些方法能夠有效解決傳統(tǒng)PNN的一些問題,但是均不具備增量學(xué)習(xí)的能力,不能有效利用蘊(yùn)含在新的可用數(shù)據(jù)中的知識。【
發(fā)明內(nèi)容】[0005]本發(fā)明目的在于提供一種融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法,可克服傳統(tǒng)的機(jī)器學(xué)習(xí)算法通常基于靜態(tài)的數(shù)據(jù)集來構(gòu)造決策模型,且不能有效利用蘊(yùn)含在新的可用數(shù)據(jù)中的知識的缺陷。[0006]為達(dá)成上述目的,本發(fā)明所采用的技術(shù)方案如下:[0007]—種融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法,適于對不同類型新可用數(shù)據(jù)的增量學(xué)習(xí),該方法包括以下步驟:[0008]初始學(xué)習(xí):利用自組織映射從原始樣本中提取樣本分布規(guī)律,將原始樣本依據(jù)樣本所屬的類別,劃分為多個訓(xùn)練數(shù)據(jù)集;然后使用每一類別的訓(xùn)練數(shù)據(jù)集訓(xùn)練得到一個獨(dú)立的自組織映射;[0009]構(gòu)建概率神經(jīng)網(wǎng)絡(luò):使用訓(xùn)練后自組織映射的原型向量作為模式神經(jīng)元來構(gòu)建概率神經(jīng)網(wǎng)絡(luò);以及[0010]新數(shù)據(jù)集的學(xué)習(xí),包括:[0011]I)如果新數(shù)據(jù)集為已知類別的數(shù)據(jù)集,則查找該已知類別的自組織映射并進(jìn)行局部的調(diào)整學(xué)習(xí)得到新的自組織映射,再用新的自組織映射替換原有的該已知類別的自組織映射;以及[0012]2)如果新數(shù)據(jù)集不是已知類別的數(shù)據(jù)集,則新訓(xùn)練一個獨(dú)立的自組織映射,并使用其原型向量作為該類別的模式神經(jīng)元,用于概率神經(jīng)網(wǎng)絡(luò)的構(gòu)建。[0013]進(jìn)一步的實(shí)施例中,所述初始學(xué)習(xí)的過程如下:[0014]令原始樣本X=X1UX1U…X/"UXm為初始訓(xùn)練集,其中Xm為類別m的訓(xùn)練數(shù)據(jù)集,首先,使用每個Xm訓(xùn)練一個自組織映射,表示為SOMm;用Km表示S0Mm,中原型向量的個數(shù),cm,k表示第k個輸出節(jié)點(diǎn)對應(yīng)的原型向量,I<k<Km;I(cm,k,Xm)表示訓(xùn)練樣本集Xm中被映射5到輸出節(jié)點(diǎn)cm,k的樣本個數(shù),I(cm;k,Xm)用下式來表達(dá):[0015]【權(quán)利要求】1.一種融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法,適于對不同類型新可用數(shù)據(jù)的增量學(xué)習(xí),其特征在于,該方法包括以下步驟:初始學(xué)習(xí):利用自組織映射從原始樣本中提取樣本分布規(guī)律,將原始樣本依據(jù)樣本所屬的類別,劃分為多個訓(xùn)練數(shù)據(jù)集;然后使用每一類別的訓(xùn)練數(shù)據(jù)集訓(xùn)練得到一個獨(dú)立的自組織映射;構(gòu)建概率神經(jīng)網(wǎng)絡(luò):使用訓(xùn)練后自組織映射的原型向量作為模式神經(jīng)元來構(gòu)建概率神經(jīng)網(wǎng)絡(luò);以及新數(shù)據(jù)集的學(xué)習(xí),包括:1)如果新數(shù)據(jù)集為已知類別的數(shù)據(jù)集,則查找該已知類別的自組織映射并進(jìn)行局部的調(diào)整學(xué)習(xí)得到新的自組織映射,再用新的自組織映射替換原有的該已知類別的自組織映射;以及2)如果新數(shù)據(jù)集不是已知類別的數(shù)據(jù)集,則新訓(xùn)練一個獨(dú)立的自組織映射,并使用其原型向量作為該類別的模式神經(jīng)元,用于概率神經(jīng)網(wǎng)絡(luò)的構(gòu)建。2.根據(jù)權(quán)利要求1所述的融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法,其特征在于,所述初始學(xué)習(xí)的過程如下:令原始樣本X=X1UX1U…Xn/..UXm為初始訓(xùn)練集,其中Xm為類別m的訓(xùn)練數(shù)據(jù)集,首先,使用每個Xm訓(xùn)練一個自組織映射,表示為SOMm;用Km表示SOMm,中原型向量的個數(shù),cm,k表示第k個輸出節(jié)點(diǎn)對應(yīng)的原型向量,I^Km;I(cm;k,Xm)表示訓(xùn)練樣本集Xm中被映射到輸出節(jié)點(diǎn)Cnu的樣本個數(shù),I(cm;k,Xm)用下式來表達(dá):3.根據(jù)權(quán)利要求2所述的融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法,其特征在于,在所述初始學(xué)習(xí)步驟中,使用批量學(xué)習(xí)算法來訓(xùn)練自組織映射,令自組織映射的輸入節(jié)點(diǎn)個數(shù)為d,也即對應(yīng)于輸入模式的輸入維數(shù)為d,自組織映射輸出神經(jīng)元的個數(shù)為K,表示為W}。,每個輸出神經(jīng)元具有一個d維的原型向量WkGRd與d個輸入神經(jīng)元連接,其中Rd是指d維的輸入空間,該批量學(xué)習(xí)算法的訓(xùn)練過程如下:(a)將所述原始樣本X=X1UX1U…XfUXm內(nèi)的所有樣本依據(jù)自組織映射的原型向量集4.根據(jù)權(quán)利要求2所述的融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法,其特征在于,對于新訓(xùn)練數(shù)據(jù)集Xn?,記Iabel(Xnw)為新訓(xùn)練數(shù)據(jù)集Xn?中樣本的類標(biāo),如果label(Xnew)在已經(jīng)構(gòu)建的概率神經(jīng)網(wǎng)絡(luò)中已經(jīng)存在,記為label(Xnew)=m;接下來,使用新訓(xùn)練數(shù)據(jù)集Xn?來對第m個自組織映射進(jìn)行增量式學(xué)習(xí):X組合成新的訓(xùn)練集,來訓(xùn)練一個新的自組織映射,用新的自組織映射替換原有的第m個自組織映射,其中為所述k個輸出節(jié)點(diǎn)對應(yīng)的原型向量的集合;訓(xùn)練得到的新的自組織映射的原型向量集記為其中K'^是新的自組織映5.根據(jù)權(quán)利要求4所述的融合自組織映射與概率神經(jīng)網(wǎng)絡(luò)的增量式學(xué)習(xí)方法,其特征在于,對于新訓(xùn)練數(shù)據(jù)集Xn?,記Iabel(Xnw)為新訓(xùn)練數(shù)據(jù)集Xn?中樣本的類標(biāo),記label(Xnew)=mnew;如果mn?在所述已經(jīng)構(gòu)建的的概率神經(jīng)網(wǎng)絡(luò)中沒有出現(xiàn)過,則使用Xnew訓(xùn)練一個新的自組織映射,并將此新自組織映射的原型向量作為類別mn?的模式神經(jīng)元,加入到所述概率神經(jīng)網(wǎng)絡(luò)中參與概率神經(jīng)網(wǎng)絡(luò)的構(gòu)建,實(shí)現(xiàn)增量式的學(xué)習(xí)。【文檔編號】G06N3/08GK103489033SQ201310451473【公開日】2014年1月1日申請日期:2013年9月27日優(yōu)先權(quán)日:2013年9月27日【發(fā)明者】於東軍,胡俊,戚湧,唐振民,楊靜宇申請人:南京理工大學(xué)