本發(fā)明涉及一種免疫網(wǎng)絡分類系統(tǒng)及方法,特別是涉及一種基于虛擬力導向和細胞分化的免疫網(wǎng)絡分類系統(tǒng)及方法。
背景技術:
人工免疫網(wǎng)絡是指根據(jù)抗原訓練出能夠覆蓋問題空間的記憶細胞的一種方法,這里的問題空間就是指樣本信息所屬的特征空間,即若樣本數(shù)據(jù)是二維向量型,則問題空間就是包含有抗原樣本集的二維樣本空間。
最早的人工免疫網(wǎng)絡模型是ainet(人工免疫系統(tǒng)),具體描述如下步驟:
步驟一、對每個抗原:一、計算隨機產(chǎn)生的抗體親和力,選取n個高親和力的抗體;二、n個高親和力抗體根據(jù)親和力產(chǎn)生克隆抗體集d,對于每個抗體,其親和力越高,克隆數(shù)越多;三、對d直接進行親和力成熟處理為d*,即d中每個抗體根據(jù)公式c=c-a(c-x)進行變異,親和力越高,變異率越??;其中c是網(wǎng)絡細胞矩陣,x是抗原矩陣,a是學習率或者成熟率,根據(jù)ag-ab親和力設定,親和力越高,a越小;四、求出抗原和d*中每個抗體的親和力;五、從d*中選出一定比例的具有高親和力的抗體,放入克隆記憶細胞集中;六、求出記憶集中抗體的相似度,進行克隆抑制;七、將記憶集中抗體存入總的記憶抗體集;
步驟二、求總記憶細胞抗體的相似度,進行網(wǎng)絡抑制;
步驟三、免疫網(wǎng)絡抗體生成;
步驟四、終止條件:當抗體細胞集達到指定書,或是達到預設的最大迭代次數(shù)。
ainet免疫網(wǎng)絡模型最早是用于數(shù)據(jù)的聚類分析,之后,部分研究對其進行了相應地擴展以實現(xiàn)對數(shù)據(jù)樣本信息的分類。
目前,與本發(fā)明最相近似的人工免疫網(wǎng)絡分類方法是劉若辰等提出的ainc算法,該方法的關鍵技術主要包括數(shù)據(jù)預處理、網(wǎng)絡初始化、抗體親和函數(shù)、網(wǎng)絡增殖機制、超變異以及網(wǎng)絡競爭機制。
數(shù)據(jù)預處理,數(shù)據(jù)預處理的目的是為了使數(shù)據(jù)的各維特征在分類處理中占有相同的比重。其具體的數(shù)據(jù)預處理如下(11):
其中x代表讀入的待處理數(shù)據(jù),min(x)、max(x)分別指某個數(shù)據(jù)所屬列中的最大值和最小值。
免疫網(wǎng)絡的初始化,免疫網(wǎng)絡的初始化包括初始抗體細胞群的產(chǎn)生和權值矩陣的產(chǎn)生。主要是取各類別的訓練樣本的均值作為初始抗體細胞;假設待處理的數(shù)據(jù)集要分為c類,那么w就是一個c階方陣,即其中
抗體親和度函數(shù),抗體和抗原的親和度函數(shù)采用如下式(12)進行:
其中ki表示第i類訓練樣本的個數(shù),改進的目的是為了提高本類別抗原的優(yōu)先級,prij表示對bi第j類訓練樣本的正確識別個數(shù),k表示所有的訓練樣本個數(shù)。
網(wǎng)絡增殖機制,首先對抗體細胞群體按事先設置好的增殖規(guī)模增值后,把第i個抗體細胞bi增殖群體記為mi,pg為網(wǎng)絡增殖規(guī)模,然后在每次迭代中都對mi進行更新,把進化后的克隆體中優(yōu)秀個體取代原有的親和度最低的抗體細胞。
超變異,主要由變異和細胞之間的信息重組兩部分組成。細胞之間的信息重組是指mci中的所有抗體細胞的各維特征值之內(nèi)發(fā)生隨機交換。en表示mci(j)對應的強化抗原或者是與mci(j)同類別的抗原(當產(chǎn)生的隨機數(shù)小于等于pm時,為強化抗原;反之,則表示后者),n是類別標記,n=1,2,…,c,第j個抗體細胞的變異公式如下式(13)、(14):
mci(j)=mci(j)-a(mci(j)-en(k))......(13)
a=s·rand·||mci(j)-en(k)||·pm......(14)
其中pm為變異概率,s為一個自適應參數(shù),en(k)表示一個被選擇的強化抗原或者是一個被選擇的與抗體細胞同類別的抗原,k=|rand·l|,|x|表示對x下取整,l表示en中包含的抗原的個數(shù)。
結合上述的關鍵技術,ainc方法的具體實現(xiàn)方式及步驟如下所示:
步驟五、讀取樣本,對樣本數(shù)據(jù)進行預處理,根據(jù)分類所需的類別數(shù)選擇訓練樣區(qū),如果分類類別數(shù)為c,則選取c各訓練樣區(qū);
步驟六、初始化抗體細胞和權值矩陣w;
步驟七、網(wǎng)絡進化;十、計算抗體bi的親和度,選取對應bi的強化訓練樣本(強化抗原)agoi,iteration=0;十一、網(wǎng)絡增殖,對bi按增殖規(guī)模pg進行復制,生成bi的細胞池mi,theni=i+1;returnto3.1,endif;十二、按克隆規(guī)模對mi中的個體按親和度大小進行克隆,克隆后的抗體細胞記為mci;十三、對mci進行超變異,得到mci';十四、對mci'中的每個抗體細胞計算其親和度及它對應的強化抗原;十五、選出mci'中親和度高的個體對自身的低親和度的抗體進行更新;
步驟八、輸出網(wǎng)絡,進行分類。
ainc方法在選擇構建用于分類的免疫網(wǎng)絡時主要采用的是超變異方法,同時采用的是一個類別僅通過一個抗體細胞識別的思想。如上的兩種方式存在著一定的局限性,具體表現(xiàn)如下:十七、在問題空間較為復雜的情況下,僅僅采用一個抗體來歸納一個類別標簽的情況時不準確的,將造成較高的誤報率,即將樣本的類別錯報為其他類別標簽;十八、采用隨機變異進化的方式可能造成免疫網(wǎng)絡構建耗時較高的缺陷。
技術實現(xiàn)要素:
本發(fā)明所要解決的技術問題是提供一種基于虛擬力導向和細胞分化的免疫網(wǎng)絡分類系統(tǒng)及方法,其能夠通過訓練有效的抗體細胞群提升分類結果的準確性,有效地針對抗體的進化過程進行指導,降低錯誤識別異類樣本的可能性,提高抗體細胞的分類準確率,具有較好的分類性能。
本發(fā)明是通過下述技術方案來解決上述技術問題的:一種基于虛擬力導向和細胞分化的免疫網(wǎng)絡分類系統(tǒng),其特征在于,包括:
初始化模塊,對數(shù)據(jù)和免疫網(wǎng)絡進行初始化;
計算模塊,計算抗原與所有抗體的親和度;
免疫網(wǎng)絡抑制模塊,對訓練得到的抗體集合進行網(wǎng)絡抑制,移除集合m中親和度過高的抗體細胞;
選擇模塊,選擇所有抗體。
優(yōu)選地,所述初始化模塊讀取樣本數(shù)據(jù)集、歸一化樣本屬性、加載訓練樣本集。
優(yōu)選地,所述計算模塊計算集合中各抗體與抗原的親和度。
本發(fā)明還提供一種基于虛擬力導向和細胞分化的免疫網(wǎng)絡分類方法,其包括以下步驟:
步驟s1、數(shù)據(jù)和免疫網(wǎng)絡的初始化,讀取樣本數(shù)據(jù)集s、歸一化樣本屬性、加載訓練樣本集g,則測試集為t=s-g。初始化抗體集
步驟s2、t<t或各類別的抗原體數(shù)不再變化,迭代次數(shù)t達到預設的最大迭代次數(shù)t,或是兩次訓練過程中(一次訓練是指g中所有抗原均訓練完畢)各類別抗體數(shù)目不再發(fā)生變化,是則轉步驟s13,否則轉步驟s3;
步驟s3、選擇抗原g,轉步驟s4;
步驟s4、計算g與所有抗體的親和度,計算集合m中各抗體與g的親和度,轉步驟s5;
步驟s5、親和度最高抗體的類別與g不同,若親和度最高的抗體所屬類別與g不同,則將g作為新產(chǎn)生的抗體加入集合m,轉步驟s4,否則轉步驟s6;
步驟s6、選擇親和度最高的ξ抗體,ξ為抗體選擇數(shù),轉步驟s7;
步驟s7、基于虛擬力的抗體進化策略,轉步驟s8;
步驟s8、調(diào)整到合理位置,是則轉步驟s10,否則轉步驟s9;
步驟s9、基于細胞分化的抗體進化策略,轉步驟s10;
步驟s10、免疫網(wǎng)絡抑制,對訓練得到的抗體集合m進行網(wǎng)絡抑制,移除集合m中親和度過高的抗體細胞,轉步驟s11;
步驟s11、所有抗體均被選擇,是轉步驟s12,否則轉步驟s3;
步驟s12、t=t+1,一次訓練過程完成后,將集合m中各個抗體bi的虛擬力場區(qū)重置為空,即設置
步驟s13、免疫網(wǎng)絡訓練結束。
優(yōu)選地,所述步驟s6,考慮每個抗體b,將g添加到zb中,其包括以下步驟:
步驟s14、若b滿足如下式,則不需要對其進行調(diào)整;
步驟s15、若不滿足如下式所得的單位移動步長m對b進行調(diào)整,若調(diào)整得到的b'滿足移動收斂條件,將集合m的抗體b替換成b',否則對b進行抗體細胞分化操作。
優(yōu)選地,所述步驟s7,基于虛擬力的抗體進化策略主要是根據(jù)抗體所識別的鄰近抗原樣本,引導抗體修正其位于問題空間中的位置,使其到達較為合適的位置,以降低對異類樣本的識別率,進而達到改善抗體分類性能的目的,這樣的抗體進化策略將提高各抗體分類器的性能,進而從整體上改善最終分類結果的準確性。
優(yōu)選地,所述步驟s9,在抗體ab移動調(diào)整的過程中,可能存在特殊的情況導致其無法滿足移動收斂條件,即無法滿足上式的收斂條件,分析原因主要包括以下兩點:二十二、由于虛擬力導向下的單位移動向量m取值過大,導致其在移動過程中錯過了最合理的移動收斂位置;二十三、抗體ab的虛擬力場區(qū)中,最鄰近同類抗原與最鄰近異類抗原間的親和度較高,導致抗體ab難以收斂到合適的位置,針對上述兩個問題,算法引入了抗體細胞分化策略,其具體方法如下步驟:
三十二、當抗體ab經(jīng)過多次移動調(diào)整后仍無法滿足移動收斂條件時,在其虛擬力場區(qū)zab中選取與ab最鄰近的異類抗原agi作為新生抗體加入抗體細胞群中;
三十三、將虛擬力場區(qū)zab中的agi移除。
優(yōu)選地,所述抗原ag=<[x1,x2,...,xn],c>表示一個待分類的樣本,其中n表示樣本的屬性維度,c指該抗原所對應的類別標簽,xi為經(jīng)過歸一化后所形成的第i維屬性特征值,具體歸一化方法如下式:
其中min(xi)、max(xi)分別指所有樣本中第i維屬性的最大值和最小值。
優(yōu)選地,所述抗體ab表示一個用于樣本分類的分類器,采用如下式:
ab=<[x1,x2,...,xn],c>
其中[x1,x2,...,xn]表征抗體的向量特征,c是該抗體所對應的類別標簽。
優(yōu)選地,所述親和度,具體計算方法如下式:
其中||ab-ag||表示抗體ab與抗原ag間的euclid距離,n是向量特征維數(shù)。
本發(fā)明的積極進步效果在于:本發(fā)明能夠依靠抗原信息來實現(xiàn)對抗體細胞的有效進化,能夠有效地指導分類抗體細胞的進化過程,即在提高抗體對同類樣本識別概率的同時,降低其錯誤識別異類樣本的可能性,即提高抗體細胞的分類準確率;在高維數(shù)據(jù)測試集上的分類結果顯示本發(fā)明能夠較為均衡地對樣本空間進行分類,且能夠達到較高的分類準確率;具有較快的收斂速度,針對相同數(shù)據(jù)集,所需的運行時間相對較短;具有較好的分類性能。
附圖說明
圖1為本發(fā)明的流程示意圖。
具體實施方式
下面結合附圖給出本發(fā)明較佳實施例,以詳細說明本發(fā)明的技術方案。
基于虛擬力導向和細胞分化的免疫網(wǎng)絡分類系統(tǒng)包括:
初始化模塊,對數(shù)據(jù)和免疫網(wǎng)絡進行初始化;
計算模塊,計算抗原與所有抗體的親和度;
免疫網(wǎng)絡抑制模塊,對訓練得到的抗體集合進行網(wǎng)絡抑制,移除集合m中親和度過高的抗體細胞;
選擇模塊,選擇所有抗體。
所述初始化模塊讀取樣本數(shù)據(jù)集、歸一化樣本屬性、加載訓練樣本集。
所述計算模塊計算集合中各抗體與抗原的親和度。
如圖1所示,本發(fā)明基于虛擬力導向和細胞分化的免疫網(wǎng)絡分類方法包括以下步驟:
步驟s1、數(shù)據(jù)和免疫網(wǎng)絡的初始化,讀取樣本數(shù)據(jù)集s、歸一化樣本屬性、加載訓練樣本集g,則測試集為t=s-g。初始化抗體集
步驟s2、t<t或各類別的抗原體數(shù)不再變化,迭代次數(shù)t達到預設的最大迭代次數(shù)t,或是兩次訓練過程中(一次訓練是指g中所有抗原均訓練完畢)各類別抗體數(shù)目不再發(fā)生變化,是則轉步驟s13,否則轉步驟s3;
步驟s3、選擇抗原g,轉步驟s4;
步驟s4、計算g與所有抗體的親和度,計算集合m中各抗體與g的親和度,轉步驟s5;
步驟s5、親和度最高抗體的類別與g不同,若親和度最高的抗體所屬類別與g不同,則將g作為新產(chǎn)生的抗體加入集合m,轉步驟s4,否則轉步驟s6;
步驟s6、選擇親和度最高的ξ抗體,ξ為抗體選擇數(shù),轉步驟s7;
步驟s7、基于虛擬力的抗體進化策略,轉步驟s8;
步驟s8、調(diào)整到合理位置,是則轉步驟s10,否則轉步驟s9;
步驟s9、基于細胞分化的抗體進化策略,轉步驟s10;
步驟s10、免疫網(wǎng)絡抑制,對訓練得到的抗體集合m進行網(wǎng)絡抑制,移除集合m中親和度過高的抗體細胞,轉步驟s11;
步驟s11、所有抗體均被選擇,是轉步驟s12,否則轉步驟s3;
步驟s12、t=t+1,一次訓練過程完成后,將集合m中各個抗體bi的虛擬力場區(qū)重置為空,即設置
步驟s13、免疫網(wǎng)絡訓練結束。
所述步驟s6,考慮每個抗體b,將g添加到zb中,其包括以下步驟:
步驟s14、若b滿足如下式(1),則不需要對其進行調(diào)整;
步驟s15、若不滿足如下式(2)所得的單位移動步長m對b進行調(diào)整,若調(diào)整得到的b'滿足移動收斂條件,將集合m的抗體b替換成b',否則對b進行抗體細胞分化操作。
所述步驟s7,基于虛擬力的抗體進化策略主要是根據(jù)抗體所識別的鄰近抗原樣本,引導抗體修正其位于問題空間中的位置,使其到達較為合適的位置,以降低對異類樣本的識別率,進而達到改善抗體分類性能的目的,這樣的抗體進化策略將提高各抗體分類器的性能,進而從整體上改善最終分類結果的準確性,其中:
抗體的虛擬力場區(qū),對于抗體ab,其虛擬力場區(qū)zab由其所識別的抗原組成,其中包含與ab類別一致的抗原,也包含與之類別不一致的抗原,因此,重新定義抗體ab如下式(3);
ab=<[x1,x2,...,xn],c,zab>......(3)
抗體的虛擬力作用力,對于抗體ab,定義屬于zab的抗原agi對ab所產(chǎn)生的虛擬作用力
抗體ab的虛擬力場區(qū),主要分為如下兩種情況:二十:當zab中的所有抗原與抗體所屬的類別相同時,表明該抗體位于免疫網(wǎng)絡中的合理位置或該抗體是中心抗體,其較為準確地實現(xiàn)對訓練抗原的分類,不存在誤判的情況;
二十一、若zab中存在與抗體所屬類別不同的抗原,說明該抗體存在誤判抗原的可能,因此需要對抗體ab的向量特征進行調(diào)整,根據(jù)zab對抗體ab的虛擬作用合力牽引ab到達免疫網(wǎng)絡中的合適位置,使其有效識別同類抗原,降低識別異類抗原的可能性,根據(jù)抗體ab的虛擬力場區(qū),定義其在虛擬作用合力引導下的單位移動向量m如下式(5):
式中abk、agi,k分別表示抗體ab與抗原agi的第k維向量特征,參數(shù)λ用于調(diào)整單位移動向量m的大小,以控制抗體移動的單位步長大小,文中將其設為1000。
虛擬力的方向,由于抗原f與抗體a的距離相對較遠,其將被更為靠近的同類抗體i所識別,并未進入a的虛擬力場區(qū),因而抗體細胞a將受到同類抗原e的吸引力fea和異類抗原c的排斥力fca,兩者形成合力fa,fa將引導a在靠近同類抗原e的同時,更為遠離異類抗原c,記憶細胞b的虛擬力場區(qū)主要由抗原c、抗原d和抗原e構成,其所受的虛擬力合力為fb,為判定抗體ab的向量特征是否調(diào)整至合理的位置,需要對處于移動狀態(tài)的ab進行移動狀態(tài)收斂的判斷,設經(jīng)過調(diào)整后的合理抗體為ab',則其應滿足如上式(1)的移動收斂條件,式中參數(shù)θ為移動收斂因子,主要用于判斷抗體細胞在虛擬力的牽引下是否調(diào)整到合適的位置,對于不同類型的樣本數(shù)據(jù)集,θ的最佳取值也不盡相同,其主要取決于數(shù)據(jù)集中異類樣本信息的差異程度。
虛擬力的調(diào)整后的方向,在虛擬力的引導下,對于原抗體a、b,經(jīng)過虛擬力引導后的抗體a'、b'與同類抗原之間的親和度呈現(xiàn)提升的趨勢,增大了與異類抗原之間的距離,基于虛擬力導向的抗體移動能夠較好地改善抗體的分類性能,有助于提高免疫網(wǎng)絡的分類準確率。
所述步驟s9,在抗體ab移動調(diào)整的過程中,可能存在特殊的情況導致其無法滿足移動收斂條件,即無法滿足上式(1)的收斂條件,分析原因主要包括以下兩點:二十二、由于虛擬力導向下的單位移動向量m取值過大,導致其在移動過程中錯過了最合理的移動收斂位置;二十三、抗體ab的虛擬力場區(qū)中,最鄰近同類抗原與最鄰近異類抗原間的親和度較高,導致抗體ab難以收斂到合適的位置,針對上述兩個問題,算法引入了抗體細胞分化策略,其具體方法如下步驟:
三十二、當抗體ab經(jīng)過多次移動調(diào)整后仍無法滿足移動收斂條件時,在其虛擬力場區(qū)zab中選取與ab最鄰近的異類抗原agi作為新生抗體加入抗體細胞群中;
三十三、將虛擬力場區(qū)zab中的agi移除。
所述抗原ag=<[x1,x2,...,xn],c>表示一個待分類的樣本,其中n表示樣本的屬性維度,c指該抗原所對應的類別標簽,xi為經(jīng)過歸一化后所形成的第i維屬性特征值,具體歸一化方法如下式(6):
其中min(xi)、max(xi)分別指所有樣本中第i維屬性的最大值和最小值。
所述抗體ab表示一個用于樣本分類的分類器,采用如下式(7):
ab=<[x1,x2,...,xn],c>......(7)
其中[x1,x2,...,xn]表征抗體的向量特征,c是該抗體所對應的類別標簽。
所述親和度,具體計算方法如下式(8):
其中||ab-ag||表示抗體ab與抗原ag間的euclid距離,n是向量特征維數(shù)。
本發(fā)明能夠有效地針對抗體的進化過程進行指導,通過訓練有效的抗體細胞群提升分類結果的準確性。
以上所述的具體實施例,對本發(fā)明的解決的技術問題、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。