一種基于加權(quán)投影對(duì)支持向量機(jī)的樣本分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種非平行超平面分類器方法,具體地設(shè)及一種基于加權(quán)投影對(duì)支持 向量機(jī)的樣本分類方法。
【背景技術(shù)】
[0002] 對(duì)于二分類問題,傳統(tǒng)支持向量機(jī)(suppcxrt vector machine,SVM)依據(jù)大間隔原 則生成分類超平面,存在的缺陷是計(jì)算復(fù)雜度高且沒有充分考慮樣本的分布。近年來,作為 SVM的拓展方向之一,W對(duì)支持向量機(jī)(twin support vector machine,TWSVM)為主要代表 的非平行超平面分類器(no噸arellel hype巧lane classifiers,NHCs)正逐漸成為模式識(shí) 別領(lǐng)域新的研究熱點(diǎn)。T W S V Μ思想源于廣義特征值近似支持向量機(jī)(g e η e r a 1 i Z e d eigenvalue proximal SVM,GEPSVM),將GEPSVM問題轉(zhuǎn)換為兩個(gè)規(guī)模較小的形如SVM的二次 規(guī)劃問題,計(jì)算復(fù)雜度縮減為SVM的1/4。除了速度上的優(yōu)勢(shì),TWSVM繼承了 GEPSVM的優(yōu)勢(shì),即 線性模式下能夠較好地處理異或(X0R)問題。然而,當(dāng)兩類樣本具有不同的散度分布時(shí), TWSVM的泛化性能欠佳。
[0003] 投影對(duì)支持向量機(jī)(pro jection twin suppo;rt vector machine ,PTSVM),一種新 的非平行超平面分類器,與TWSVM不同的是:PTSVM優(yōu)化目的是為每類樣本尋找最佳投影軸, 而且通過遞歸迭代算法,PTSVM能夠生成多個(gè)正交投影軸。實(shí)驗(yàn)結(jié)果表明,PTSVM對(duì)復(fù)雜的 X0R問題具有更好的分類能力。為解決非線性分類問題,也有提出PTSVM的非線性方法。
[0004] PTSVM算法如下:
[000引給定兩類η維的m個(gè)訓(xùn)練樣本點(diǎn),分別用miXn的矩陣A和msXn的矩陣B表示第1類(+ 1類)和第2類(-1類),運(yùn)里mi和m2分別是兩類樣本的數(shù)目,并令m = mi+m2JTSVM的目標(biāo)也是 在η維空間中尋找兩個(gè)投影軸W1和W2,要求本類樣本投影后盡可能聚集,同時(shí)他類樣本盡可 能分散。事實(shí)上,PTSVM優(yōu)化目標(biāo)也是在η維空間中尋找兩個(gè)超平面:
[0006] xVi+bi = 0, xV2+b2 = 0. (1)
[0007] 需要注意的是,運(yùn)里的偏置
ei和Θ2是兩個(gè)實(shí)體為1 的列向量,
呼表示第i類的第j個(gè)樣本。
[0008] 第1類超平面的優(yōu)化準(zhǔn)則為
[0009]
(2)
[0010] 其中,Cl是懲罰參數(shù),ξι為損失變量。令
巧 (2)可用矩陣形式表示為
[0013] 顯然,PTSVM的優(yōu)化目標(biāo)函數(shù)考慮的是樣本的散度,類內(nèi)方差Si反應(yīng)的是樣本的全 局分布,不是樣本之間的局部幾何結(jié)構(gòu)。因此,該方法沒有考慮蘊(yùn)含在樣本之間局部鑒別信 息。忽視了樣本空間的局部結(jié)構(gòu)和局部信息。許多研究結(jié)果表明同類數(shù)據(jù)集中大部分樣本 在局部上是關(guān)聯(lián)的,即數(shù)據(jù)集中存在潛藏的局部幾何結(jié)構(gòu),而運(yùn)種內(nèi)在的局部信息對(duì)數(shù)據(jù) 分類又是至關(guān)重要的。運(yùn)種潛在的局部信息可W通過數(shù)據(jù)集中樣本間的k近鄰關(guān)系進(jìn)行挖 掘。
【發(fā)明內(nèi)容】
[0014] 針對(duì)上述技術(shù)問題,本發(fā)明目的是:提供一種基于加權(quán)投影對(duì)支持向量機(jī)的樣本 分類方法,通過構(gòu)造類內(nèi)近鄰圖為每個(gè)樣本獲取特定的權(quán)值,并且W加權(quán)均值取代標(biāo)準(zhǔn)均 值,在一定程度上提高了算法的局部學(xué)習(xí)能力;利用類間近鄰圖選擇相反類中少量的邊界 樣本進(jìn)行二次規(guī)劃求解,很大程度上降低了算法求解的計(jì)算復(fù)雜度。
[0015] 本發(fā)明的技術(shù)方案是:
[0016] -種基于加權(quán)投影對(duì)支持向量機(jī)的樣本分類方法,其特征在于,包括W下步驟:
[0017] SOI:在每類樣本內(nèi)部及不同類樣本之間分別構(gòu)造類內(nèi)近鄰圖Gs和類間近鄰圖Gd;
[0018] S02:依據(jù)每類樣本的類內(nèi)近鄰圖Gs計(jì)算樣本權(quán)值,并計(jì)算每類樣本的加權(quán)均值中 屯、;
[0019] S03:依據(jù)類間近鄰圖Gd確定離特定類樣本較近的相反類樣本,并構(gòu)造線性模式下 的優(yōu)化問題;
[0020] S04:求解上述優(yōu)化問題的對(duì)偶問題,獲得兩類樣本的決策超平面:xTwi+bi = 0和 xV+b2 = 0,依據(jù)決策超平面對(duì)未知樣本進(jìn)行分類,其中,W1、W2為第1類和第2類樣本的投影 軸,X表示η維度矢量空間中的樣本,bi、b2分別表示兩類樣本決策超平面的偏置。
[0021]優(yōu)選的,同類中給定的任意兩個(gè)C類樣本皆哺冷>,(c=l, 2; !',戶1,1,…,爲(wèi)),m。為 C類樣本數(shù),則類內(nèi)近鄰圖Gs的相似矩陣嗎為:
[0022]
(4)
[0023] 其中t為熱核參數(shù);
[0024] 第C類樣本乂尸的相反類e中任意樣本乂/巧/=1,2, ...,則類間近鄰圖Gd的 相似矩陣町f為:
[0025]
(巧
[0026] 第5類中每一個(gè)樣本定義權(quán)重//0為:
[0027]
倘
[0028] 顯然,第F類中//^=1的那些樣本是離第C類樣本比較近的邊界點(diǎn);
[0029] 第1類超平面和第2類超平面優(yōu)化目標(biāo)是為第1類和第2類樣本尋找最佳投影軸W1 和W2,使得權(quán)重較大的樣本投影后盡可能聚集在加權(quán)均值中屯、附近,第1類超平面優(yōu)化準(zhǔn)則 為:
[003引其中,Cl和〔2是懲罰參數(shù),ξι和rii為損失變量,
iC = 1、2,角巧代表樣本xp的權(quán)重:
弓第1類樣本空間的加權(quán)均值,可通過分別求解優(yōu) 化準(zhǔn)則式(7)和(8)的對(duì)偶問題,獲得兩類樣本的最佳投影軸:
[0034]第1類樣本投影軸W1為:
(即+ 1類)樣本集,忍6滬2X"表示第2類(即-1類)樣本集,及e巧為單位1向量, 貨=[巧,..,,巧,。f和產(chǎn)機(jī)…,八,i f是非負(fù)拉格朗日乘子;
[0039]對(duì)于未知樣本x,WPTSVM的分類決策函數(shù)為:
[0042] 優(yōu)選的,若所述樣本的幾何結(jié)構(gòu)呈現(xiàn)出高維非線性流行時(shí),構(gòu)造非線性模式下的 優(yōu)化問題;求解上述優(yōu)化問題的對(duì)偶問題,獲得兩類樣本的決策超平面:K(xT,cT)ui+bi = 0 和K(xT,cT)u2+b2 = 0,依據(jù)決策超平面對(duì)未知樣本進(jìn)行分類;其中,Κ(,)為高斯核函數(shù),山和 U2分別為第1類和第2類樣本的投影矢量,X位η維矢量空間中的樣本,C為全體樣本集。
[0043] 優(yōu)選的,構(gòu)造第1類決策超平面的優(yōu)化準(zhǔn)則為:
[0044]
(即+1類)樣本集,及e 表示第2類(即-1類)樣本集,均6 及玲為單位1向量,X 位η維矢量空間中的樣本,C為全體樣本集,ξ、ri為松弛變量;
[0048] 通過引入拉格朗日函數(shù),推導(dǎo)出對(duì)偶形式,然后通過二次規(guī)劃求解得出投影矢量 U1兩山2;
[0049] 對(duì)于未知樣本x,NWPTSVM的分類決策函數(shù)為:
[0052] 本發(fā)明的優(yōu)點(diǎn)是:
[0053] 1.通過構(gòu)造類內(nèi)近鄰圖為每個(gè)樣本獲取特定的權(quán)值,并且W加權(quán)均值取代標(biāo)準(zhǔn)均 值,在一定程度上提高了算法的局部學(xué)習(xí)能力。
[0054] 2.利用類間近鄰圖選擇相反類中少量的邊界樣本進(jìn)行二次規(guī)劃求解,很大程度上 降低了算法求解的計(jì)算復(fù)雜度。
[005引3.本發(fā)明繼承了PTSVM的優(yōu)點(diǎn),可W看成PTSVM的推廣算法。
[0056] 4.理論分析及其在人造數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的測(cè)試結(jié)果都表明本發(fā)明具有更 好的分類性能。
【附圖說明】
[0057] 下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述:
[0058] 圖1為本發(fā)明基于加權(quán)投影對(duì)支持向量機(jī)的樣本分類方法的流程圖;
[0059] 圖2為本發(fā)明WPTSVM和PTSVM在人造數(shù)據(jù)集上的決策超平面。
【具體實(shí)施方式】
[0060] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明了,下面結(jié)合【具體實(shí)施方式】并參 照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)該理解,運(yùn)些描述只是示例性的,而并非要限制本發(fā) 明的范圍。此外,在W下說明中,省略了對(duì)公知結(jié)構(gòu)和技術(shù)的描述,W避免不必要地混淆本 發(fā)明的概念。
[0061] 實(shí)施例:
[0062] 如圖1所示,該方法包括W下步驟:
[0063] 第一步:在每類樣本內(nèi)部及不同類樣本之間分別構(gòu)造近鄰圖Gs和Gd;
[0064] 第二步:依據(jù)每類樣本的近鄰圖Gs計(jì)算樣本權(quán)值;
[0065] 第Ξ步:在第二步的基礎(chǔ)上計(jì)算出每類樣本的加權(quán)均值中屯、;
[0066] 第四步:依據(jù)類間近鄰圖確定離特定類樣本較近的相反類樣本;
[0067] 第五步:利用第一、二、Ξ、四步的結(jié)果構(gòu)造線性模式下的優(yōu)化問題;
[0068] 第六步:求解第五步優(yōu)化問題的對(duì)偶問題,獲得兩類樣本的決策超平面:x\i+bi = 0 和 xV2+b2 = 0;
[0069] 第屯步:依據(jù)第六步的決策超平面對(duì)未知樣本進(jìn)行分類。
[0070] 針對(duì)每一類超平面,構(gòu)造一對(duì)k近鄰圖Gs和Gd分別刻畫類內(nèi)樣本的緊湊性及類間樣 本的分散性。
[00川考慮同類中給定的任意兩個(gè)C類樣本馬的和xf,(c=l,2;:',戶1,2,…,H!e),mc為C 類樣本數(shù),則類內(nèi)近鄰圖Gs的相似矩陣為:
[0072]
(4)
[0073] 其中t為熱核參數(shù)。
[0074] 考慮第C類樣本龍產(chǎn),給定相反類f中任意樣本尤尸(/=1,2, ..,,/%),則類間近鄰 圖Gd的相似矩陣秘為:
[007引顯然,第類中)=1的那些樣本是離第c類樣本比較近的邊界點(diǎn)。
[0079] 本方法是針對(duì)兩類樣本的二分類問題提出的分類方法。
[0080] 第1類超平面優(yōu)化目標(biāo)是為第1類樣本尋找最佳投影軸W1,使得權(quán)重較大的樣本投 影后盡可能聚集在加權(quán)均值中屯、附近。優(yōu)化準(zhǔn)則為:
[0084] 其中,Cl和C2是懲罰參數(shù),ξι和rii為損失變量
,c = 1、2。
[0085] 式(7)中,pP代表樣本義嚴(yán)的權(quán)重,絡(luò)>值越大,表示X:P越重要,對(duì)保持樣本空間 局部信息的貢獻(xiàn)程度越大
婦第1類樣本空間的加權(quán)均值,比起式(2)中的標(biāo)準(zhǔn)均 值更能體現(xiàn)樣本空間的局部結(jié)構(gòu)。約束條件表明WPTSVM-1僅僅考慮第2類樣本中//->=1的 邊界樣本。式(8)有類似的幾何解釋式。
[0086] 式(7)矩陣形式為:
護(hù) >=泌路(#>,,..,乂。如滬iXH表示第1類(即+1類)樣本集,度巨滬!X。素示第2類(即-1類) 樣本集,約e _τ'χ?及的6 /r'xi為單位1向量。
[0089 ]式(9)優(yōu)化問題對(duì)應(yīng)的拉格朗日形式為:
[0090]
(卿
[0091] 其中:彷=["1,..:.,喘/和公=晚,保,/是非負(fù)拉格朗日乘子。令式(10)對(duì)W1和ξ的偏 導(dǎo)數(shù)為0,可得:
[0092]
[0094] α>〇,β>〇. (13)
[0095] 式(11)(12)代入(10)得原問題的對(duì)偶形式為:
[0096]