一種獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)方法
【專利摘要】本發(fā)明公開(kāi)了一種獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)方法。本方法以獲取決策活動(dòng)的傳導(dǎo)知識(shí)為背景,從分類的角度出發(fā),利用決策實(shí)施前后的數(shù)據(jù)以及已有分類知識(shí),分析該決策對(duì)其所涉及對(duì)象(特征和類別)所產(chǎn)生的傳導(dǎo)作用,從而為未來(lái)決策提供依據(jù)。該方法基于可拓集合的動(dòng)態(tài)分類思想,根據(jù)已有分類規(guī)則建立關(guān)聯(lián)函數(shù);建立對(duì)象變化前后的特征值之間的支持向量機(jī)模型,并通過(guò)施加基于關(guān)聯(lián)函數(shù)的非線性約束來(lái)確保模型的準(zhǔn)確性;通過(guò)定義關(guān)聯(lián)函數(shù)值非零的訓(xùn)練對(duì)象的關(guān)聯(lián)半徑,將原有非線性約束近似地解耦為一系列線性自約束,從而將原支持向量機(jī)模型解成一系列子模型;每個(gè)支持向量機(jī)子模型均采用基于關(guān)聯(lián)半徑的非凸損失函數(shù),并運(yùn)用CCCP方法進(jìn)行求解。
【專利說(shuō)明】
一種獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特指一種獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)方法。
【背景技術(shù)】
[0002] 在很多行業(yè)中,為了合理地進(jìn)行決策,決策者往往需要了解某些歷史決策活動(dòng)在 實(shí)施之后會(huì)產(chǎn)生怎樣的傳導(dǎo)作用。能否從數(shù)據(jù)庫(kù)積累的大量數(shù)據(jù)中找到與這些決策活動(dòng)有 關(guān)的知識(shí),來(lái)輔助今后的決策?從分類的角度出發(fā),若能利用某項(xiàng)決策活動(dòng)實(shí)施前后的數(shù) 據(jù),以及已有的分類知識(shí),分析該決策對(duì)其所涉及的對(duì)象(特征和類別)所產(chǎn)生的傳導(dǎo)作用, 則可為未來(lái)的決策活動(dòng)提供重要依據(jù)。例如,就某種疾病而言,醫(yī)生可能會(huì)考慮采用多種治 療手段來(lái)治愈病人,若能從歷史數(shù)據(jù)中獲取關(guān)于每種治療手段對(duì)病人身體指標(biāo)及患病狀態(tài) 的作用效果的知識(shí),則可以根據(jù)每個(gè)病人的具體情況為其選擇合理有效的治療手段。又如, 商業(yè)決策者則希望了解某一次營(yíng)銷策略的調(diào)整如何影響客戶的購(gòu)買(mǎi)行為,進(jìn)而引進(jìn)價(jià)值客 戶群的改變;從客戶數(shù)據(jù)中獲取這些知識(shí)可為未來(lái)的商業(yè)決策提供重要依據(jù)。因此,找到一 種有效的方法來(lái)獲取傳導(dǎo)分類知識(shí)尤為重要。
[0003] 支持向量機(jī)方法,作為一種強(qiáng)有力的統(tǒng)計(jì)學(xué)習(xí)工具,目前已被廣泛應(yīng)用于求解數(shù) 據(jù)挖掘領(lǐng)域中的很多問(wèn)題。為此,本發(fā)明提出一種獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)方 法。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的主要目的在于提供一種能用于獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)方 法,基于可拓集合的動(dòng)態(tài)分類思想,建立對(duì)象在變化前后的特征值之間的數(shù)學(xué)模型;根據(jù)已 有分類規(guī)則,建立關(guān)聯(lián)函數(shù);并通過(guò)施加基于關(guān)聯(lián)函數(shù)的非線性約束來(lái)確保所構(gòu)建模型的 準(zhǔn)確性。
[0005] 為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:
[0006] 本發(fā)明一種獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)的方法,包括下述步驟:
[0007] 步驟1,前處理:獲取對(duì)象的分類規(guī)則,并根據(jù)分類規(guī)則建立關(guān)聯(lián)函數(shù);
[0008] 步驟2,確定訓(xùn)練集;
[0009] 步驟3,計(jì)算每個(gè)關(guān)聯(lián)函數(shù)值非零的訓(xùn)練對(duì)象的關(guān)聯(lián)半徑;
[0010] 步驟4,建立每個(gè)支持向量機(jī)子模型;
[0011] 步驟5,分別對(duì)每個(gè)支持向量機(jī)子模型進(jìn)行求解。
[0012] 作為優(yōu)選的技術(shù)方案,所述步驟1中,采用傳統(tǒng)支持向量機(jī)方法來(lái)獲取如下分類規(guī) 貝1J: /(^=sgn|#r由+ ;根據(jù)分類規(guī)則建立關(guān)聯(lián)函數(shù)= + L其中d (x)>0表示x屬于正類;d(x)<0表示x屬于負(fù)類;d(x)=0表示x在零界上;|d(x) |表示x屬于 其類的程度。
[0013]作為優(yōu)選的技術(shù)方案,所述傳統(tǒng)支持向量機(jī)的方法包括C-SVM Ramp Loss SVM或 NPSVM方法。
[0014]作為優(yōu)選的技術(shù)方案,步驟2中,確定訓(xùn)練對(duì)象集如下: _] S=Kx(l),x,⑴),(x⑵,x,⑵),." (X(N),X,(N))}
[0016] 其中,x(1)為第i個(gè)訓(xùn)練對(duì)象的變化前的特征向量;x/(1)為第i個(gè)訓(xùn)練樣本的變化后 的特征;對(duì)于i G {1,2,,"L} Mx'(1))辛0;對(duì)于i G {L+l,."N} Mx'(1)) = 0。
[0017] 作為優(yōu)選的技術(shù)方案,步驟3中,計(jì)算每個(gè)關(guān)聯(lián)函數(shù)值非零的訓(xùn)練對(duì)象關(guān)聯(lián)半徑的 方法是:
[0018] 通過(guò)公式(1(以^1)))(1(^^))>0,1£{1,~1}推導(dǎo)出其充分條件 /;(x('))-x" ,關(guān)聯(lián)半徑
[0019] 作為優(yōu)選的技術(shù)方案,步驟4中,每個(gè)支持向量機(jī)的子模型為:
[0021 ]其中,損失函數(shù)厶(z) = |l I |___丨1 : 'ie {1,2, ? ? .L} ;Li(z) = |z|,iG {L+1,? ? .N}。
[0022]作為優(yōu)選的技術(shù)方案,步驟5中,將每個(gè)支持向量機(jī)模型作了如下凸-凹分解:
/: x f〇, |z| < r
[0024]其中,糧=ih' iz卜/
[0025] 作為優(yōu)選的技術(shù)方案,步驟5中,采用concave-convex programming求解每個(gè)支持 向量機(jī)子模型,其計(jì)算方法如下:
[0026] (5.1)初始化 t = l,=(0,0,_..0)%
[0027] (5.2)求解下列二次規(guī)劃:
N
[0029] s.t. [("K) = 0
[0030] =
[0031] 0<?;; <C, / = /. + !,...J?
[0032] 〇<(i.!<C. i = \,...N
[0033] 并結(jié)合 KKT 條件,可得/;(:^)=^必(1)+6;=土(《;;-4)尤卜(/).#) + 6;;
[0034] (5.3)計(jì)算: '-c, f^i])-xf] <-rt
[0035] Vi =< 0, < fj <}) C /;(x(i))-xf >/;.
[0036] 得到 V; =()^1,F(xiàn);2"..!^)r:;
[0037] (5.4)若1^=1^-1,則得到最終的子模型,否則令七=七+1并返回步驟(5.2)。
[0038] 本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:
[0039] 1、基于可拓集合的動(dòng)態(tài)分類思想,提出一種可用于獲取傳導(dǎo)分類知識(shí)的挖掘模 式;
[0040] 2、本發(fā)明通過(guò)引入關(guān)聯(lián)函數(shù)值非零的訓(xùn)練對(duì)象的關(guān)聯(lián)半徑,將公式d(f(x(1)))d (x/(1))>〇的非線性約束近似解耦為一系列與子模型一一對(duì)應(yīng)的線性子約束,從而實(shí)現(xiàn)所 有子模型的獨(dú)立化,可大大降低建模和求解的復(fù)雜度,提升該方法的實(shí)用性。
[0041] 3、本發(fā)明所采用的基于關(guān)聯(lián)半徑的非凸損失函數(shù)可在一定程度上過(guò)濾訓(xùn)練數(shù)據(jù) 中的噪聲。
【附圖說(shuō)明】
[0042]圖1是本發(fā)明提出的可拓支持向量機(jī)的構(gòu)建模式。
[0043] 圖2是本發(fā)明所采用的基于關(guān)聯(lián)半徑的非凸損失函數(shù)示意圖。
[0044] 圖3是300位客戶的關(guān)聯(lián)函數(shù)值在變化前后的分布情況。
[0045] 圖4(a)-圖4(b)是對(duì)訓(xùn)練對(duì)象和另外40個(gè)測(cè)試對(duì)象分別進(jìn)行評(píng)價(jià)的結(jié)果。
【具體實(shí)施方式】
[0046] 下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限 于此。
[0047] 實(shí)施例
[0048]本實(shí)施例一種能用于獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)方法,包括下述步驟: [0049] (1)前處理。采用已有的分類支持向量機(jī)方法(如C-SVM,Ramp Loss SVM,NPSVM等) 獲取分類規(guī)則:+ y ;根據(jù)分類規(guī)則建立關(guān)聯(lián)函數(shù):
[0050] x) = wr<i>(x) + /) (1)
[0051] 其中,d(x)>0表示x屬于正類;d(x)<0表示x屬于負(fù)類;d(x) = 0表示x在零界上; d(x)|表示x屬于其類的程度;
[0052] (2)確定訓(xùn)練對(duì)象集。
[0053] S={(X(1),X/(1)),(X (2),X/(2)),...(X(N), X/(N))} (2)
[0054]其中,x(1)為第i個(gè)訓(xùn)練對(duì)象的變化前的特征向量;x/(1)為第i個(gè)訓(xùn)練樣本的變化后 的特征;對(duì)于i G {1,2, ."L} jU'(1))乒0;對(duì)于i G {L+l,."N} jU'(1)) =0;
[0055] (3)計(jì)算每個(gè)關(guān)聯(lián)函數(shù)值非零的訓(xùn)練對(duì)象關(guān)聯(lián)半徑。構(gòu)建一系列支持向量機(jī)子模 型fj(x)=w/C> (x)+bj( j = l,2,…n)對(duì)x/ (j = l,2,…n)分別進(jìn)行預(yù)測(cè),如圖1所示。為了確 保所構(gòu)建模型能夠準(zhǔn)確地預(yù)測(cè)訓(xùn)練樣本在變化后的類別,對(duì)每個(gè)關(guān)聯(lián)函數(shù)值非零的訓(xùn)練對(duì) 象(l<i<L)施加以下約束:
[0056] d(f(x(i)))d(x/(i))>0 (3)
[0057] 結(jié)合(2)式,可推導(dǎo)出(3)式的一個(gè)充分條件:
(4) (5)
[0060] 其中,ri為第i個(gè)(l<i<L)訓(xùn)練對(duì)象的關(guān)聯(lián)半徑;泛為獲取分類規(guī)則時(shí)所采用的高 斯核函數(shù)中的核參數(shù);eQ是一個(gè)很小的正數(shù)。
[0061] (4)建立每個(gè)支持向量機(jī)子模型。
lb)
[0063] 其中,?)為第i個(gè)訓(xùn)練對(duì)象所對(duì)應(yīng)的損失函數(shù)。根據(jù)式(4),對(duì)于關(guān)聯(lián)函數(shù)值非 零的訓(xùn)練對(duì)象,本發(fā)明提出一種基于關(guān)聯(lián)半徑的非凸損失函數(shù)(如圖2所示):
[0064] A'⑷:|丨斗丨十' (7)
[}h \z\>ri
[0065]這樣,損失函數(shù)值降低當(dāng)且僅當(dāng)式(4)成立。當(dāng)iG {L+l,…N}時(shí),Li(z) = I z I。
[0066] (5)求解,事實(shí)上,式(7)中的損失函數(shù)可以寫(xiě)成:
[0067] Li(z) = | z | -Li7 (z) (8)
[0068] 其中
[0069] = | 扣 (9)
[0070] 這樣每個(gè)子模型的優(yōu)化函數(shù)(6)都可以分解為一個(gè)凸部分和一個(gè)凹部分的和:
(10) L〇〇72」 本友明米用concave-convex programming(CCCP)萬(wàn)法來(lái)求解式(10)中的非凸優(yōu) 化,步驟如下:
[0073] 5.1)初始化七=1,<=(1^,1%...1^)'=(0兒"0廣;
[0074] 5.2)求解下列二次規(guī)劃: (11)
[0076] 并結(jié)合KKT 條件,可得/J(x(,>)=w;.?(x)+七 f;(?X)[(X('),x⑴)+辦;; /r=.l.
[0077] 5.3)計(jì)算: -C, /;:(x(,))-.v;(,)<-r
[0078] V), =< 0, -r</7(x(;))-.Tf</;. (12) C
[0079] 得到 ¥;=(仏匕...〇%
[0080] 5.4)若乂=弋'則得到最終的子模型,否則令〖=〖+1并返回步驟5.2);
[0081] 下面,本實(shí)施例具體以某通信公司的客戶行為模式變化分類挖掘問(wèn)題為例進(jìn)行進(jìn) 一步的說(shuō)明書(shū)。
[0082] 例:從300位客戶在某次促銷活動(dòng)前后的行為數(shù)據(jù)中獲取關(guān)于此次促銷活動(dòng)對(duì)客 戶的傳導(dǎo)分類知識(shí)。取"月通話時(shí)長(zhǎng)","月3G流量","月WLAN流量"作為三個(gè)特征,每個(gè)特征 的特征值分別取變化之前和變化之后三個(gè)月的平均值;取"是否為活躍客戶"作為類別;則 客戶數(shù)據(jù)集合可表示為:
[0083] T={(x⑴,y⑴,X'⑴,y'⑴)|x⑴,X'⑴ GR3,y⑴,y'⑴ G {-1,1},1彡i彡300} (13)
[0084] S1、前處理。為了便于計(jì)算,將所有特征值按下式正則化:
[0087] 分類規(guī)則/(x) = sgn(W泰(x) + S)基于以下訓(xùn)練集獲?。?(14) (15)
[0088] {(eyo),…(16)
[0089] 根據(jù)分類規(guī)則建立關(guān)聯(lián)函數(shù):#4 =兵''杰+ 。
[0090] S2、確定訓(xùn)練對(duì)象集。圖3為300位客戶的關(guān)聯(lián)函數(shù)值在變化前后的分布情況,其中 16位客戶從不活躍變?yōu)榛钴S,132位客戶保持活躍;152位客戶保持不活躍。
[0091] S3、按照上述內(nèi)容中的步驟(3)-(5),建立可拓支持向量機(jī)的優(yōu)化模型并進(jìn)行求 解。
[0092] S4、為了評(píng)價(jià)所建立模型的預(yù)測(cè)性能,本發(fā)明定義了如下兩個(gè)評(píng)價(jià)指標(biāo):
[0093] S4.1、變化后類別預(yù)測(cè)準(zhǔn)確率(CAR):
(17)
[0095] 34.2、均方誤差(1^£):
(18)
[0097] 圖4(a)-圖4(b)和表1為對(duì)訓(xùn)練樣本和另外40個(gè)測(cè)試樣本分別進(jìn)行評(píng)價(jià)的結(jié)果。
[0098] 表 1
[0100]上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的 限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化, 均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)的方法,其特征在于,包括下述步驟: 步驟1,前處理:獲取對(duì)象分類規(guī)則,并根據(jù)分類規(guī)則建立關(guān)聯(lián)函數(shù); 步驟2,確定訓(xùn)練集; 步驟3,計(jì)算每個(gè)關(guān)聯(lián)函數(shù)值非零的訓(xùn)練對(duì)象的關(guān)聯(lián)半徑; 步驟4,建立每個(gè)支持向量機(jī)子模型; 步驟5,分別對(duì)每個(gè)支持向量機(jī)子模型進(jìn)行求解。2. 根據(jù)權(quán)利要求1所述的獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)的方法,其特征在于,所 述步驟1中,采用傳統(tǒng)支持向量機(jī)的方法來(lái)獲取如下分類規(guī)則: 根據(jù)分類規(guī)則建立關(guān)聯(lián)函數(shù),其中d(x)>0表示X屬于正類;d(x)<0表 示X屬于負(fù)類;d(x) =O表示X在零界上;|d(x) I表示X屬于其類的程度。3. 根據(jù)權(quán)利要求2所述的獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)的方法,其特征在于,所 述傳統(tǒng)支持向量機(jī)的方法包括C-SVM Ramp Loss SVM或NPSVM方法。4. 根據(jù)權(quán)利要求1所述的獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)的方法,其特征在于,步 驟2中,采用如下公式確定訓(xùn)練集: S=Kx ⑴,X ⑴),(χ ⑵,X ⑵),···(χ(Ν),χ W)} 其中,x(1)為第i個(gè)訓(xùn)練樣本的變化前的特征;x(1)為第i個(gè)訓(xùn)練樣本的變化后的特征;對(duì) 于;[£{1,2,..丄},(1(叉(1))辛0;對(duì)于;[£{1^+1,...1^},(1(叉(1))=0。5. 根據(jù)權(quán)利要求1所述的獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)的方法,其特征在于,步 驟3中,計(jì)算每個(gè)關(guān)聯(lián)函數(shù)值非零的訓(xùn)練對(duì)象關(guān)聯(lián)半徑的方法是: 通過(guò)公式d(f(x(1)))d(x "))>0推導(dǎo)出其充分條件 聯(lián)6. 根據(jù)權(quán)利要求1所述的獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)的方法,其特征在于,步 驟4中,每個(gè)支持向量機(jī)的子模型為:7. 根據(jù)權(quán)利要求1所述的獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)的方法,其特征在于,步 驟5中,將每個(gè)支持向量機(jī)模型作了如下凸-凹分解:8.根據(jù)權(quán)利要求1或7所述的獲取傳導(dǎo)分類知識(shí)的可拓支持向量機(jī)的方法,其特征在 于,步驟5中,采用concave-convex programming求解每個(gè)支持向量機(jī)子模型,其計(jì)算方法 如下:(5.4)若V;二f1,則得到最終的子模型,否則令t = t+l并返回步驟(5.2)。
【文檔編號(hào)】G06K9/62GK105930869SQ201610248093
【公開(kāi)日】2016年9月7日
【申請(qǐng)日】2016年4月19日
【發(fā)明人】湯龍, 楊春燕
【申請(qǐng)人】廣東工業(yè)大學(xué)