專利名稱:基于粗糙支持矢量機(jī)的模式分類識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于模式分類識別技術(shù)領(lǐng)域,具體涉及一種基于支持矢量機(jī)(support vectormachine SVM)的模式分類識別方法。
背景技術(shù):
模式識別的目的是將對象進(jìn)行分類,其應(yīng)用領(lǐng)域非常廣泛,例如,計算機(jī)輔助診斷、字符識別、語音識別等等。支持矢量機(jī)[1][2]是一種基于統(tǒng)計學(xué)習(xí)理論的模式識別的方法。傳統(tǒng)的基于統(tǒng)計學(xué)習(xí)理論的模式識別方法如基于貝葉斯決策理論的分類器是根據(jù)經(jīng)驗風(fēng)險最小來訓(xùn)練分類器。但經(jīng)驗風(fēng)險只有當(dāng)樣本數(shù)無窮大才趨近于期望風(fēng)險。因此,基于經(jīng)驗風(fēng)險最小的分類器不能保證有較高的推廣能力。如果訓(xùn)練樣本數(shù)較少,基于經(jīng)驗風(fēng)險最小的分類器性能可能較差。支持矢量機(jī)是基于結(jié)構(gòu)風(fēng)險最小原則,在特征空間中尋找一個最優(yōu)分界面,使得該分界面能夠盡可能多的將兩類數(shù)據(jù)點(diǎn)正確的分開,同時使分開的兩類數(shù)據(jù)點(diǎn)距離分界面最遠(yuǎn),即找到經(jīng)驗風(fēng)險最小和推廣能力最大之間的平衡點(diǎn)。已有的研究結(jié)果表明,對較小的訓(xùn)練樣本集,支持矢量機(jī)是各種分類器中性能最好的。
由于傳統(tǒng)的支持矢量機(jī)所獲得的最優(yōu)分界面僅僅取決于少量的支持矢量,當(dāng)訓(xùn)練樣本中存在噪聲或離群數(shù)據(jù)時,傳統(tǒng)的支持矢量機(jī)仍可能出現(xiàn)過學(xué)習(xí)問題[3]。針對該問題,今年來出現(xiàn)了不少支持矢量機(jī)的改進(jìn)方法,如模糊支持矢量機(jī)[4]、total margin SVM[5]、scaledSVM[6]等。本發(fā)明將粗糙集理論[7]引入支持矢量機(jī),以克服有噪聲或離群數(shù)據(jù)時的過學(xué)習(xí)問題。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種基于粗糙支持矢量機(jī)的模式分類識別方法,以解決傳統(tǒng)支持矢量機(jī)在存在噪聲樣本或離群樣本下出現(xiàn)的過學(xué)習(xí)問題。
本發(fā)明提出的基于粗糙支持矢量機(jī)的模式識別方法步驟是首先由已知類別樣本訓(xùn)練粗糙支持矢量機(jī),即在特征空間中尋找一最優(yōu)分界面,使得兩類之間的粗糙分類間隔最大。然后對待識樣本,用該最優(yōu)分界面判別其所屬類別。下面對本發(fā)明內(nèi)容作進(jìn)一步介紹相關(guān)概念支持矢量機(jī)分類器設(shè){(xi,yi),i=1,2,...,l}為包含l個樣本的訓(xùn)練集,其中第i個樣本xi∈Rd為d維的特征矢量,yi∈{+1,-1}為xi的類別;支持矢量機(jī)尋找兩類間的最優(yōu)分界面使分類間隔最大;對于訓(xùn)練樣本為線性不可分的情況,支持矢量機(jī)通過非線性映射φ將輸入特征空間映射到更高維的特征空間Z,使兩類樣本在此高維特征空間中線性可分,以尋找兩類間的最優(yōu)分界面;在高維特征空間中,位于分界面上的樣本點(diǎn)φ(x)滿足w·φ(x)+b=0,其中w∈Z,b∈R,w和b分別為加權(quán)矢量和偏移量,兩者定義了高維特征空間中的分界面;某樣本xi通過決策函數(shù)sgn(w·φ(xi)+b)判為兩類之一(sgn為符號函數(shù))。在傳統(tǒng)的v-支持矢量機(jī)中,對應(yīng)于最優(yōu)分界面的w和b為以下優(yōu)化問題(原問題)的解minw,b,ξ,ρ12||w||2-vρ+1lΣi=1lξi]]>subject to yi(w·φ(xi)+b)≥ρ-ξi,ξi≥0,i=1,...,l,ρ≥0,(1)其中w,b,ξ,ρ為優(yōu)化變量,由w和ρ決定訓(xùn)練所得分類間隔的寬度為 ξi為松弛因子,對應(yīng)于ξi>0的訓(xùn)練樣本點(diǎn)為被sgn(w·φ(xi)+b)分錯的樣本點(diǎn)或位于兩個超平面w·φ(xi)+b=ρ和w·φ(xi)+b=-ρ形成的分類間隔內(nèi)的點(diǎn),稱為間隔錯誤樣本點(diǎn)。上述原問題可通過引入拉格朗日乘子并根據(jù)Karush-Kuhn-Tucker(KKT)條件[8]轉(zhuǎn)換為其對偶問題minα12Σi=1lΣj=1lyiyjαiαjφ(xi)·φ(xj)=minα12Σi=1lΣj=1lyiyjαiαjK(xi,xj)]]>subjecttoΣi=1lyiαi=0,0≤αi≤1l,Σi=1lαi≥v,---(2)]]>其中αi為與限制條件yi(w·φ(xi)+b)≥ρ-ξi相對應(yīng)的拉格朗日乘子,K(xi,xj)表示核函數(shù),直接給出了高維空間中的點(diǎn)積φ(xi)·φ(xj)。對偶問題的最優(yōu)解(α1*,...,αl*)T顯示了訓(xùn)練樣本在在高維空間中的位置對應(yīng)于αi*=0]]>的樣本點(diǎn)在分類間隔之外,滿足yi(w·φ(xi)+b)>ρ;對應(yīng)于αi*>0]]>的樣本點(diǎn)稱為支持矢量,其中對應(yīng)于0<αi*<1/l]]>的樣本點(diǎn)恰位于分類間隔邊界線上滿足yi(w·φ(xi)+b)=ρ,而對應(yīng)于ai*=1/l]]>的樣本點(diǎn)位于分類間隔內(nèi),滿足yi(w·φ(xi)+b)=ρ-ξi,其中ξi>0.
訓(xùn)練完成后,在分類識別階段,未知樣本 的類別由下式給出y~=sgn(w*·φ(x~)+b*)=sgn(Σi=1lαi*yiK(x~,xi)+b*),---(3)]]>其中b*=-12Σi=1lαi*yi(K(xi,xj)+K(xi,xk)),---(4)]]>其中j∈{i|αi*∈(0,1/l),yi=1},]]>k∈{i|αi*∈(0,1/l),yi=-1}.]]>
支持矢量機(jī)使兩類間的分類間隔最大,同時使錯分樣本數(shù)最小,通過參數(shù)v平衡兩個矛盾目標(biāo)。v是間隔錯誤樣本數(shù)占總樣本數(shù)的比例的上界,是支持矢量數(shù)占總樣本數(shù)的比例的下界。
1、粗糙分類間隔粗糙集理論通過上、下近似來描述不確定對象。對于論域U中某集合X,設(shè)R為U上的等價關(guān)系,U/R為U上的R的等價類集合,當(dāng)X能表示成R的等價類的并時,X為R可定義的,否則,X為R不可定義的或X為R粗糙集。對粗糙集可用上近似和下近似來描述粗糙集X的R上近似RX=∪{Y∈U/R|YX}粗糙集X的R下近似R-X=∪{Y∈U/R|Y∩X≠φ}]]>粗糙集X的R邊界R-X-R-X]]>根據(jù)粗糙集理論,本發(fā)明定義一個粗糙分類間隔,該粗糙分類間隔由上粗糙間隔和下粗糙間隔來表示,參數(shù)ρu,ρl和w決定上粗糙寬度為 下粗糙間隔寬度為 (ρu>ρl)。在尋找最優(yōu)分界面的過程中,位于下粗糙間隔中的樣本點(diǎn)或訓(xùn)練誤分樣本點(diǎn),被認(rèn)為是離群數(shù)據(jù),將賦予較大的風(fēng)險值,位于上粗糙間隔之外的樣本點(diǎn)是完全能夠正確分類的,而位于粗糙邊界內(nèi)(粗糙邊界為屬于上間隔但不屬于下間隔的區(qū)域)的樣本點(diǎn)可能是誤分樣本點(diǎn)或正確分類的樣本點(diǎn),將給予較小的風(fēng)險值。類似于傳統(tǒng)的支持矢量機(jī),粗糙支持矢量機(jī)在高維特征空間中尋找兩類間的最優(yōu)分界面,使兩類間粗糙分類間隔最大。這樣,在確定最優(yōu)分界面的過程中,將有更多的樣本點(diǎn)信息被考慮,而不僅僅是少數(shù)的支持矢量。
2、粗糙支持矢量機(jī)的訓(xùn)練階段粗糙支持矢量機(jī)原問題定義如下minw,b,ξ,ξ′,ρl,ρu12||w||2-vρl-vρu+1lΣi=1lξi+δlΣi=1lξi′]]>subject to yi(w·φ(xi)+b)≥ρu-ξi-ξi′,0≤ξi≤ρu-ρl,ξi′≥0,ρl≥0,ρu≥0,(5)其中δ>1。
為求解該最優(yōu)問題,構(gòu)建拉格朗日函數(shù)
Lp=12||w||2-vρl-vρu+1lΣi=1lξi+δlΣi=1lξi′-]]>Σi=1lαi[yi(w·φ(xi)+b)-ρu+ξi+ξi′]-]]>Σi=1lβiξi-Σi=1lλi(ρu-ρl-ξi)-Σi=1lηiξi′-μ1ρl-μ2ρu---(6)]]>其中αi≥0,βi≥0,λi≥0,ηi≥0,μ1≥0,μ2≥0為拉格朗日乘子。根據(jù)KKT條件,最優(yōu)參數(shù)滿足如下條件∂Lp∂w=w-Σi=1lαiyiφ(xi)=0,]]>∂Lp∂b=Σi=1lαiyi=0,]]>∂Lp∂ξi=1l-αi-βi+λi=0,]]>∂Lp∂ξi′=δl-αi-ηi=0,]]>∂Lp∂ρl=-v+Σi=1lλi-μ1=0,]]>∂Lp∂ρu=-v+Σi=1lαi-Σi=1lλi-μ2=0,]]>αi[yi(w·φ(xi)+b)-ρu+ξi+ξi′]=0,βiξi=0,λi(ρu-ρl-ξi)=0,ηiξi′=0,μ1ρl=0,μ2ρu=0.(7)將上述公式代入公式(6),對偶問題(2)可寫為minα12Σi=1lΣj=1lαiαjyiyjK(xi,xj)]]>subjecttoΣi=1lαiyi=0,]]>0≤αi≤δl,]]>Σi=1lαi≥2v.---(8)]]>當(dāng)獲得對偶問題的最優(yōu)解(α1*,...,αl*)T,某訓(xùn)練樣本點(diǎn)在粗糙分類間隔中的位置由對應(yīng)的αi*的值確定樣本點(diǎn)對應(yīng)于1.αi*=0,]]>在粗糙分類間隔外,滿足yi(w·φ(xi)+b)>ρu;2.0<αi*<1l,]]>在上粗糙間隔的邊界線上,滿足yi(w·φ(xi)+b)=ρu;
3.αi*=1l,]]>在粗糙邊界內(nèi),滿足yi(w·φ(xi)+b)=ρu-ξi,其中ξi>0;4.1l<αi*<δl,]]>在下粗糙間隔的邊界線上,滿足yi(w·φ(xi)+b)=ρl;5.αi*=δl,]]>在下粗糙間隔內(nèi),稱為間隔錯誤樣本點(diǎn),滿足yi(w·φ(xi)+b)=ρl-ξi′,其中ξi′>0。
由Σi=1lαi=2v(ρl>0)]]>可得間隔錯誤樣本點(diǎn)數(shù)目(即下粗糙間隔內(nèi)支持矢量的數(shù)目)為m<2vlδ,]]>即 是下粗糙間隔內(nèi)的樣本數(shù)占總樣本數(shù)比例的上界。當(dāng)δ=1時,m<2vl為滿足yi(w·φ(xi)+b)<ρu的樣本點(diǎn)數(shù),即2v為上間隔內(nèi)的樣本數(shù)占總樣本數(shù)比例的上界。因此參數(shù)v和δ一起控制了上、下粗糙間隔內(nèi)的樣本數(shù)目和粗糙邊界的寬度。一般地,v選取范圍為0~1,δ的選取范圍為2-10。所定義的粗糙分類間隔對確定最優(yōu)分界面產(chǎn)生的影響如圖2所示圖2(a)、(b)為傳統(tǒng)支持矢量機(jī)所得分界面((a)中v=0.1(b)中v=0.5),可見,離群數(shù)據(jù)對分界面的干擾較大,尤其當(dāng)v較小時(如圖2(a)所示)。當(dāng)采用粗糙支持矢量機(jī)時(圖2(c)、(d)),離群數(shù)據(jù)的影響減弱。
3、分類識別階段未知樣本 的類別同樣可由公式(3)計算出。此時,公式(3)中b*=-12Σi=1lαi*yi(K(xi,xj)+K(xi,xk)),---(9)]]>其中j∈{i|αi*∈(0,1l),yi=1},]]>k∈{i|αi*∈(0,1l),yi=-1},]]>或者j∈{i|αi*∈(1l,δl),yi=1},]]>k∈{i|αi*∈(1l,δl),yi=-1}.]]>本發(fā)明方法的具體步驟歸納如下(5)定義粗糙分類間隔由上粗糙間隔和下粗糙間隔表示,其中上粗糙間隔寬度為 下粗糙間隔寬度為 ρu>ρl;(6)用粗糙支持矢量機(jī)最大化粗糙間隔來確定最優(yōu)分類面,這一優(yōu)化問題表示為公式(5);(7)為求解步驟(2)定義的優(yōu)化問題,將其轉(zhuǎn)換為由公式(8)表示的對偶問題來求解;(8)求解對偶問題(8)獲得其最優(yōu)解(α1*,...,αl*)T,則原優(yōu)化問題(公式(5))的最優(yōu)解之一,即b*由公式(9)獲得。至此完成粗糙間隔支持矢量機(jī)的訓(xùn)練;(9)分類識別,未知樣本 的類別由公式(3)計算得到,公式(3)中的b*已由步驟4獲得。
圖1、最優(yōu)分界面示意圖。
圖2、粗糙分類間隔對訓(xùn)練分界面的作用圖示。其中(a)、(b)為傳統(tǒng)支持矢量機(jī)所得分界面(a)中參數(shù)v=0.1,(b)中參數(shù)v=0.5,(c)、(d)為粗糙支持矢量機(jī)所得分界面(c)中參數(shù)v=0.1,(d)中參數(shù)v=0.5。
具體實施例方式
以下以3個基準(zhǔn)醫(yī)學(xué)數(shù)據(jù)庫肝病數(shù)據(jù)庫,心臟病數(shù)據(jù)庫和乳腺癌數(shù)據(jù)庫為例,介紹分類識別過程。這3個數(shù)據(jù)庫可從[9]中獲得。
肝病數(shù)據(jù)庫包括345個樣本,其中200個陰性,145個陽性,每個樣本由6個特征描述。心臟病數(shù)據(jù)庫包括270個樣本,其中150個陰性,120個陽性,每個樣本由13個特征描述。乳腺癌數(shù)據(jù)庫包括683個樣本,其中444個良性,239個惡性,每個樣本由10個特征描述。所有樣本都?xì)w一化到[-1,1]。
對每個實驗數(shù)據(jù)庫,本方法采用5分交叉驗證方法對算法進(jìn)行測試(即將數(shù)據(jù)集平均分為5份,并使每份數(shù)據(jù)中兩類樣本的比例保持一致,每次用其中的4份作為訓(xùn)練集,剩下的1份作為測試集,依次將5份都分別作為測試集,取5次實驗結(jié)果的平均值為最終實驗結(jié)果)。由于支持矢量機(jī)的最終分類結(jié)果和參數(shù)v和δ的設(shè)置有關(guān),為選擇合適的參數(shù),本方法用訓(xùn)練樣本采用3分交叉驗證方法確定最優(yōu)參數(shù)v和δ(即訓(xùn)練樣本中2/3的數(shù)據(jù)用于訓(xùn)練,剩余的1/3數(shù)據(jù)用于驗證)。參數(shù)v的選擇范圍為0.05到1.0,步長0.05;參數(shù)δ的選擇范圍為2.0到15.0,步長1.0。通過3分交叉驗證獲得參數(shù)v和δ的最優(yōu)值后,用該參數(shù)值訓(xùn)練粗糙支持矢量機(jī)以獲得最優(yōu)分界面,最后用此分界面對未知數(shù)據(jù)的類別進(jìn)行預(yù)測。實驗中核函數(shù)采用高斯核,其參數(shù)σ取1.0。
作為例子這里給出對肝病數(shù)據(jù)庫的分類識別過程肝病數(shù)據(jù)庫包括345個樣本以{(xi,yi)}表示,其中200個陰性yi=1,145個陽性yi=-1,每個樣本由6個特征描述xi=[fi1,fi2,...,fi6]。在訓(xùn)練階段,根據(jù)公式(8)構(gòu)造其對偶問題,并根據(jù)訓(xùn)練樣本求解對偶問題(因采用5分交叉驗證,每次訓(xùn)練集的樣本數(shù)為276個,即公式(8)中l(wèi)=276),獲得最優(yōu)解(α1*,...,αl*)T,后由公式(9)獲得偏移量b*。至此完成粗糙間隔支持矢量機(jī)的訓(xùn)練。則對測試集中得樣本,分別根據(jù)公式(3)判斷其類別。
結(jié)果分析對于肝病數(shù)據(jù)庫,傳統(tǒng)支持矢量機(jī)的正確識別率為66.96%,粗糙支持矢量機(jī)的正確識別率為68.41%。對于心臟病數(shù)據(jù)庫,傳統(tǒng)支持矢量機(jī)的正確識別率為83.70%,粗糙支持矢量機(jī)的正確識別率為84.81%。對乳腺癌數(shù)據(jù)庫,傳統(tǒng)支持矢量機(jī)的正確識別率為96.74%,粗糙支持矢量機(jī)的正確識別率為96.88%。(可參見表1-3中實驗結(jié)果的第一列)。由于這3個數(shù)據(jù)庫中,并無過多的離群數(shù)據(jù),粗糙支持矢量機(jī)的識別率和傳統(tǒng)支持矢量機(jī)的識別率接近。
為研究粗糙支持矢量機(jī)對消除離群數(shù)據(jù)干擾的作用,本實施方法在3個基準(zhǔn)數(shù)據(jù)庫中人為地加入離群數(shù)據(jù),即按一定比例隨機(jī)地將-1類樣本當(dāng)作最+1類樣本。
對三個數(shù)據(jù)庫加入不同比例的離群數(shù)據(jù)的實驗結(jié)果分別列于表1-3中,由結(jié)果可見,當(dāng)離群數(shù)據(jù)的比例由10%上升到30%時,傳統(tǒng)的支持矢量機(jī)的正確識別率明顯下降,尤其對于肝病數(shù)據(jù)庫。而粗糙支持矢量機(jī)的性能更穩(wěn)定,3個數(shù)據(jù)庫的實驗結(jié)果都表明當(dāng)樣本中存在離群數(shù)據(jù)時,粗糙支持矢量機(jī)的正確識別率要明顯高于傳統(tǒng)的支持矢量機(jī)。這說明了當(dāng)訓(xùn)練樣本中存在離群數(shù)據(jù)或噪聲時,粗糙支持矢量機(jī)抗干擾能力優(yōu)于傳統(tǒng)的支持矢量機(jī),即其推廣能力優(yōu)于傳統(tǒng)的支持矢量機(jī)。
表1肝病數(shù)據(jù)庫實驗結(jié)果(F表示所加入的離群數(shù)據(jù)比例)
表2心臟病數(shù)據(jù)庫實驗結(jié)果
表3乳腺癌數(shù)據(jù)庫實驗結(jié)果
綜上所述,通過將粗糙集理論引入支持矢量機(jī)分類器,使得在尋找最優(yōu)分界面的時候,有更多的樣本點(diǎn)信息可以自適應(yīng)地考慮進(jìn)去,而不僅僅是少數(shù)支持矢量。由用戶定義的參數(shù)v和δ共同控制了高維特征空間中的粗糙邊界區(qū)的寬度,以及上、下粗糙間隔中的支持矢量數(shù)目。而且實現(xiàn)粗糙支持矢量機(jī)所需的計算量和傳統(tǒng)支持矢量機(jī)的相同。
參考文獻(xiàn)1.C.Cortes and V.Vapnik,“Support-vector networks,”Mach.Learn.20(1995)273-297.
2.B.Schlkopf,A.J.Smola,R.C.Williamson and P.L.Bartlett,“New support vectoralgorithms,”Neural Computation 12(2000)1207-1245.
3.X.G.Zhang,“Using class-center vectors to build support vector machines,”Proc.IEEENNSP IX,Madison,WI,USA,Aug.1999,pp.3-11.
4.C.F.Lin and S.D.Wang,“Fuzzy support vector machine,”IEEE Trans.Neural Netw.13(2002)464-471.
5.M.Yoon,Y.Yun and H.Nakayama,“A role of total margin in support vector machines,”Proc.of the Int.Joint Conf.Neural Networks,Piscataway,NJ,USA,July 2003,pp.2049-2053.
6.J.Feng and P.Williams,“The generalization error of the symmetric and scaled supportvector machines,”IEEE Trans.Neural Netw.12(2001)1255-1260.
7.Z.Pawlak,“Rough sets,”Int.J.Comput.Inform.Sci.11(1982)341-356.
8.W.Karush,“Minima of functions of several variables with inequalities as side constraints,”Master’s Thesis,Department of Mathematics,University of Chicago 1939.
9.D.J.Newman,S.Hettich,C.L.Blake and C.J.Merz,UCI repository of machine learningdatabases,Irvine,CAUniversity of California,Department of Information and ComputerScience(1998).[http://www.ics.uci.edu/~mlearn/MLRepository.html].
權(quán)利要求
1.一種基于粗糙支持矢量機(jī)的模式分類識別方法。設(shè){(xi,yi),i=1,2,...,l}為包含l個樣本的訓(xùn)練集,其中第i個樣本xi∈Rd為d維的特征矢量,yi∈{+1,-1}為xi的類別;支持矢量機(jī)尋找兩類間的最優(yōu)分界面使分類間隔最大;對于訓(xùn)練樣本為線性不可分的情況,支持矢量機(jī)通過非線性映射φ將輸入特征空間映射到更高維的特征空間Z,使兩類樣本在此高維特征空間中線性可分,以尋找兩類間的最優(yōu)分界面;在高維特征空間中,位于分界面上的樣本點(diǎn)φ(x)滿足w·φ(x)+b=0,其中w∈Z,b∈R,w和b分別為加權(quán)矢量和偏移量,兩者定義了高維特征空間中的分界面;某樣本xi通過決策函數(shù)sgn(w·φ(xi)+b)判為兩類之一;其特征在于本方法的具體步驟如下(1)定義粗糙分類間隔由上粗糙間隔和下粗糙間隔表示,其中上粗糙間隔寬度為 下粗糙間隔寬度為 ρu>ρl;(2)用粗糙支持矢量機(jī)最大化粗糙間隔來確定最優(yōu)分類面,這一優(yōu)化問題表示為公式(5);minw,b,ξ,ξ′,ρl,ρu12||w||2-vρl-vρu+1lΣi=1lξi+δlΣi=1lξi′]]>subject to yi(w·φ(xi)+b)≥ρu-ξi-ξi′,0≤ξi≤ρu-ρl,ξl′≥0,ρl≥0,ρu≥0,(5)其中δ>1;(3)為求解步驟(2)定義的優(yōu)化問題,將其轉(zhuǎn)換為由公式(8)表示的對偶問題來求解;minα12Σi=1lΣj=1lαiαjyiyjK(xi,xj)]]>subjecttoΣi=1lαiyi=0,0≤αi≤δl,Σl=1lαi≥2v,---(8)]]>其中,v的選取范圍為0~1,δ的選取范圍為2~10;(4)求解對偶問題(8)獲得其最優(yōu)解(α1*,...,αl*)T,并由公式(9)計算b*b*=-12Σl=1lαi*yi(K(xi,xj)+K(xi,xk)),---(9)]]>其中j∈{i|αi*∈(0,1l),yi=1},]]>k∈{i|αi*∈(0,1l),yi=-1},]]>或者j∈{i|αi*∈(1l,δl),yi=1},]]>k∈{i|αi*∈(1l,δl),yi=-1},]]>至此完成粗糙間隔支持矢量機(jī)訓(xùn)練;(5)分類識別,未知樣本 的類別由公式(3)計算得到y(tǒng)~=sgn(w*·φ(x~)+b*)=sgn(Σl=1lαi*yiK(x~,xi)+b*),---(3)]]>(α1*,...,αl*)T和b*已由步驟(4)求得,其中,K(xi,xj)=φ(xi)·φ(xj)。
全文摘要
本發(fā)明屬于模式分類識別技術(shù)領(lǐng)域,具體為一種基于支持矢量機(jī)的模式分類識別方法。本發(fā)明將粗糙集理論引入支持矢量機(jī),定義支持矢量機(jī)的分類間隔為一粗糙分類間隔,在訓(xùn)練支持矢量機(jī)時,使該粗糙分類間隔最大,來確定兩類間的最優(yōu)分界面。本發(fā)明克服了傳統(tǒng)支持矢量機(jī)在訓(xùn)練樣本中存在噪聲或離群數(shù)據(jù)情況下出現(xiàn)的過學(xué)習(xí)問題,從而提高了支持矢量機(jī)的推廣能力。而且所需計算時間和傳統(tǒng)支持矢量機(jī)相當(dāng)。
文檔編號G06F19/00GK101025729SQ20071003863
公開日2007年8月29日 申請日期2007年3月29日 優(yōu)先權(quán)日2007年3月29日
發(fā)明者汪源源, 張俊華 申請人:復(fù)旦大學(xué)