本發(fā)明屬于信息
技術(shù)領(lǐng)域:
,涉及一種隸屬度函數(shù),特別是一種模糊支持向量機隸屬度函數(shù)的獲取方法。
背景技術(shù):
:支持向量機(supportvectormachine,簡稱SVM)是一種分類器,與傳統(tǒng)分類器相比,它具有更好的泛化能力,是當(dāng)前最熱門的機器學(xué)習(xí)算法之一,已在模式識別中得到了廣泛的應(yīng)用。盡管支持向量機方法具有較好的推廣能力,但由于在構(gòu)造最優(yōu)分類面時所有的樣本具有相同的作用,因此,當(dāng)訓(xùn)練樣本中含有噪聲或野值樣本時,這些含有“異?!毙畔⒌臉颖驹谔卣骺臻g中常常位于分類面附近,導(dǎo)致獲得的分類面不是真正的最優(yōu)分類面。針對這種情況,研究人員提出了模糊支持向量機方法(FSVM)。將模糊技術(shù)應(yīng)用于支持向量機中,在采用模糊技術(shù)處理時,隸屬度函數(shù)的設(shè)計是整個模糊算法的關(guān)鍵,這要求隸屬度函數(shù)必須能夠客觀、準確地反映系統(tǒng)中樣本存在的不確定性。同時,在構(gòu)造隸屬度函數(shù)的研究中還存在以下問題:構(gòu)造隸屬度函數(shù)的方法很多,但還沒有一個可遵循的一般性準則;在傳統(tǒng)方法中,常常將“支持向量”與“噪聲點”同等對待來處理。然而,這兩種樣本點都是接近分類面的,無法區(qū)分,所以傳統(tǒng)的消除“噪聲點”的隸屬度獲取方法,在降低“噪聲點”影響的同時也消除了“支持向量”在分類器中的作用,從而降低了分類器分類效果。由于存在上述的問題,對于本領(lǐng)域內(nèi)的技術(shù)人員,還有待研發(fā)出一種能夠有效的區(qū)分“支持向量”和“噪聲點”,并對它們進行不同的隸屬度計算的模糊支持向量機隸屬度函數(shù)的獲取方法。技術(shù)實現(xiàn)要素:本發(fā)明的目的是針對現(xiàn)有的技術(shù)存在上述問題,提出了一種模糊支持向量機隸屬度函數(shù)的獲取方法,本模糊支持向量機隸屬度函數(shù)的獲取方法可以有效區(qū)分“支持向量”和“噪聲點”,并對它們進行不同的隸屬度計算,提高“支持向量”,且降低“噪聲點”的影響,從而提高整個分類器的分類效果。本發(fā)明的目的可通過下列技術(shù)方案來實現(xiàn):一種模糊支持向量機隸屬度函數(shù)的獲取方法,其特征在于,包括以下步驟:(1)、樣本數(shù)據(jù)輸入:在支持向量機中的目標函數(shù)引入松弛變量ζ,建立軟間隔分類器,并為了限制其取值加入了懲罰參數(shù)C,目標函數(shù)表示為:minγ,w,b12||w||2+CΣi=1mξi]]>s.t.y(i)(wTx(i)+b)≥1-ξi,i=1,...,mξi≥0,i=1,...,m支持向量機中的樣本數(shù)據(jù){x1,x2,x3,...},每個樣本xi有一個標簽yi,{(x1,y1),(x2,y2),...};(2)、利用k-means確定正負樣本的類中心;(3)、引入系數(shù)消除樣本不平衡:加入了一個隸屬度值si(0<si≤1),對于樣本數(shù)據(jù)則有{(x1,y1,s1),(x2,y2,s2),...},那么求解的目標函數(shù)則為:minγ,w,b12||w||2+CΣi=1msiξi]]>s.t.y(i)(wTx(i)+b)≥1-ξi,i=1,...,mξi≥0,i=1,...,m;(4)、區(qū)分“支持向量”和“噪聲點”:計算每個正樣本和負樣本之間的距離,距離達到兩類樣本間最小距離的樣本即為“支持向量”;(5)、判斷隸屬度大小:對于隸屬度大小的判斷,對于每一個正樣本,計算其分別到正樣本負樣本類中心的距離,如果其距離正樣本較近,則計算該樣本到正樣本的“支持向量”的距離,并認為該樣本距離“支持向量”越近其隸屬度越大,反之則越??;如果該樣本距離負樣本較近,則計算該樣本到正樣本類中心的距離,并認為該樣本距離類中心越近其隸屬度越大,反之則越小;同時,對于負樣本采用同樣的判斷方法。(6)、獲取隸屬度,從而提高樣本分類能力。在上述模糊支持向量機隸屬度函數(shù)的獲取方法中,所述的步驟(2)中,基于k-means的樣本類中心選擇算法包括以下步驟:a、計算兩兩樣本之間的距離d(xi,xj);b、計算樣本間距離的平均值:Meandist(S)=1n(n-1)×Σd(xi,xj);]]>c、計算每個樣本的密度參數(shù):density(xi)=Σj=1nu(MeanDist-d(xi,xj))]]>u(z)=1,z≥00.z<0;]]>d、具有最大密度參數(shù)的樣本被選為樣本類中心。在上述模糊支持向量機隸屬度函數(shù)的獲取方法中,所述的步驟(6)中,對“支持向量”和“噪聲點”進行不同的隸屬度計算:si=f(di+)if||Φ(xi+)-Φcen+||≥||Φ(xi+)-Φcen-||f(di*+)if||Φ(xi+)-Φcen+||<||Φ(xi+)-Φcen-||f(di-)if||Φ(xi-)-Φcen+||≤||Φ(xi-)-Φcen-||f(di*-)if||Φ(xi-)-Φcen+||>||Φ(xi-)-Φcen-||]]>f(di)=1-dimax(di)+β21+exp(βdi)]]>di=||Φ(xi+)-Φcen+||2||Φ(xi-)-Φcen-||2]]>di*=||Φ(xi+)-Φ*-||2||Φ(xi-)-Φ*-||2.]]>Φ(xi+)表示了特征空間中的正樣本,Φ(xi-)表示了特征空間中的負樣本;是特征空間中正樣本中心,而表示了負樣本中心;正樣本中的支持向量,是負樣本中的支持向量;di表示了樣本與類中心的距離,表示了樣本到類邊緣的距離。且隸屬度函數(shù)的計算均在特征空間下進行,這樣可以提高高維度樣本的分類效果。與現(xiàn)有技術(shù)相比,本模糊支持向量機隸屬度函數(shù)的獲取方法具有以下優(yōu)點:利用k-means算法來分別尋找正負樣本的類中心,通過計算每個正樣本和負樣本之間的距離,來區(qū)分“支持向量”和“噪聲點”,并對于每一個正樣本和負樣本計算其分別到正樣本類中心和負樣本類中心的距離,判斷隸屬度大小,且利用隸屬度函數(shù)對隸屬度進行計算,提高“支持向量”,降低“噪聲點”的影響,從而提高整個分類器的分類效果。附圖說明圖1是本發(fā)明的方法結(jié)構(gòu)框圖。具體實施方式以下是本發(fā)明的具體實施例并結(jié)合附圖,對本發(fā)明的技術(shù)方案作進一步的描述,但本發(fā)明并不限于這些實施例。如圖1所示,一種模糊支持向量機隸屬度函數(shù)的獲取方法,其特征在于,包括以下步驟:(1)、樣本數(shù)據(jù)輸入:在支持向量機中的目標函數(shù)引入松弛變量ζ,建立軟間隔分類器,并為了限制其取值加入了懲罰參數(shù)C,目標函數(shù)表示為:minγ,w,b12||w||2+CΣi=1mξi]]>s.t.y(i)(wTx(i)+b)≥1-ξi,i=1,...,mξi≥0,i=1,...,m支持向量機中的樣本數(shù)據(jù){x1,x2,x3,...},每個樣本xi有一個標簽yi,{(x1,y1),(x2,y2),...};(2)、利用k-means確定正負樣本的類中心,包括以下步驟:a、計算兩兩樣本之間的距離d(xi,xj);b、計算樣本間距離的平均值:Meandist(S)=1n(n-1)×Σd(xi,xj);]]>c、計算每個樣本的密度參數(shù):density(xi)=Σj=1nu(MeanDist-d(xi,xj))]]>u(z)=1,z≥00.z<0;]]>d、具有最大密度參數(shù)的樣本被選為樣本類中心;(3)、引入系數(shù)消除樣本不平衡:加入了一個隸屬度值si(0<si≤1),對于樣本數(shù)據(jù)則有{(x1,y1,s1),(x2,y2,s2),...},那么求解的目標函數(shù)則為:minγ,w,b12||w||2+CΣi=1msiξi]]>s.t.y(i)(wTx(i)+b)≥1-ξi,i=1,...,mξi≥0,i=1,...,m;(4)、區(qū)分“支持向量”和“噪聲點”:計算每個正樣本和負樣本之間的距離,距離達到兩類樣本間最小距離的樣本即為“支持向量”;(5)、判斷隸屬度大?。簩τ陔`屬度大小的判斷,對于每一個正樣本,計算其分別到正負樣本類中心的距離,如果其距離正樣本較近,則計算該樣本到正樣本的“支持向量”的距離,并認為該樣本距離“支持向量”越近其隸屬度越大,反之則越??;如果該樣本距離負樣本較近,則計算該樣本到正樣本類中心的距離,并認為該樣本距離類中心越近其隸屬度越大,反之則越??;同時,對于負樣本采用同樣的判斷方法。(6)、獲取隸屬度,從而提高樣本分類能力:對“支持向量”和“噪聲點”進行不同的隸屬度計算:si=f(di+)if||Φ(xi+)-Φcen+||≥||Φ(xi+)-Φcen-||f(di*+)if||Φ(xi+)-Φcen+||<||Φ(xi+)-Φcen-||f(di-)if||Φ(xi-)-Φcen+||≤||Φ(xi-)-Φcen-||f(di*-)if||Φ(xi-)-Φcen+||>||Φ(xi-)-Φcen-||]]>f(di)=1-dimax(di)+β21+exp(βdi)]]>di=||Φ(xi+)-Φcen+||2||Φ(xi-)-Φcen-||2]]>di*=||Φ(xi+)-Φ*-||2||Φ(xi-)-Φ*+||2.]]>Φ(xi+)表示了特征空間中的正樣本,Φ(xi-)表示了特征空間中的負樣本;是特征空間中正樣本中心,而表示了負樣本中心;正樣本中的支持向量,是負樣本中的支持向量;di表示了樣本與類中心的距離,表示了樣本到類邊緣的距離。且隸屬度函數(shù)的計算均在特征空間下進行,這樣可以提高高維度樣本的分類效果。本文中所描述的具體實施例僅僅是對本發(fā)明精神作舉例說明。本發(fā)明所屬
技術(shù)領(lǐng)域:
的技術(shù)人員可以對所描述的具體實施例做各種各樣的修改或補充或采用類似的方式替代,但并不會偏離本發(fā)明的精神或者超越所附權(quán)利要求書所定義的范圍。盡管本文較多的術(shù)語,但并不排除使用其它術(shù)語的可能性。使用這些術(shù)語僅僅是為了更方便地描述和解釋本發(fā)明的本質(zhì);把它們解釋成任何一種附加的限制都是與本發(fā)明精神相違背的。當(dāng)前第1頁1 2 3