一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法
【專利摘要】本發(fā)明公開了一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法,具體包括如下步驟:樣本歸一化;求得大規(guī)模訓(xùn)練樣本集結(jié)構(gòu)化信息;利用大規(guī)模訓(xùn)練樣本集訓(xùn)練分類模型;根據(jù)分類模型對測試樣本進(jìn)行分類。本發(fā)明采用并行結(jié)構(gòu)化支持向量機(jī),利用目前最流行的云計算平臺之一Hadoop進(jìn)行實現(xiàn),能夠有效地處理大規(guī)模數(shù)據(jù)分類問題;此外,并行結(jié)構(gòu)化支持向量機(jī)在原始的支持向量機(jī)模型中融入了樣本的結(jié)構(gòu)信息,使得訓(xùn)練模型更加符合數(shù)據(jù)的分布,從而提高分類的精度。因此本發(fā)明提出的方法具有較高的使用價值。
【專利說明】一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于人工智能模式識別分類領(lǐng)域,特別是一種面向大規(guī)模數(shù)據(jù)的并行支持向量機(jī)分類方法。
【背景技術(shù)】
[0002]分類問題是機(jī)器學(xué)習(xí)的主要研究內(nèi)容,支持向量機(jī)作為主流的分類方法之一,在軟件模塊缺陷檢測、圖像識別等領(lǐng)域取得了廣泛的應(yīng)用,倍受研究者的關(guān)注。為了獲得更好的分類效果,研究者們也相繼提出了最小二乘支持向量機(jī)、模糊支持向量機(jī)等。標(biāo)準(zhǔn)的支持向量機(jī)問題的實質(zhì)是一個二次規(guī)劃問題,在支持向量機(jī)的求解方面,研究者也做了大量的工作,較為常用的方法有牛頓法、分塊方法、分解方法、梯度下降的方法等。然而,隨著時代的發(fā)展,科技的進(jìn)步,我們所面臨的數(shù)據(jù)規(guī)模不斷的增大,經(jīng)典的串行支持向量機(jī)主要針對小規(guī)模數(shù)據(jù),面對大規(guī)模數(shù)據(jù)存在效率低的不足。為此,設(shè)計適用于大規(guī)模樣本的并行支持向量機(jī)分類方法成了關(guān)鍵任務(wù)。
[0003]目前,經(jīng)典的并行支持向量機(jī)的研究主要集中在數(shù)據(jù)層面,即在原始數(shù)據(jù)集的多個子數(shù)據(jù)集上并行訓(xùn)練支持向量機(jī),進(jìn)而通過合并得到最終分類結(jié)果。相對于面向數(shù)據(jù)層面的并行支持向量機(jī)而言,在求解算法上進(jìn)行并行支持向量機(jī)還不多見。
[0004]已有的并行支持向量機(jī)算法在模型中考慮類分布信息的研究工作還比較少。樣本的結(jié)構(gòu)信息往往對大間隔分類器的分類面的確定同樣具有指導(dǎo)意義。目前,研究者也提出了很多考慮樣本結(jié)構(gòu)信息的大間隔分類器算法,如:最小最大概率機(jī)、最大最小間隔機(jī)、結(jié)構(gòu)大間隔機(jī)、結(jié)構(gòu)支持向量機(jī)等。
【發(fā)明內(nèi)容】
[0005]本發(fā)明為了能夠解決大規(guī)模數(shù)據(jù)的支持向量機(jī)分類問題,并且提高分類精度,提出了一種面向大規(guī)模數(shù)據(jù)的并行支持向量機(jī)分類方法,在有效處理大規(guī)模數(shù)據(jù)分類問題的同時還提高了分類效果。
[0006]本發(fā)明采用的技術(shù)方案如下:
[0007]—種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法,包括如下步驟:
[0008]步驟I,樣本歸一化:對訓(xùn)練樣本和測試樣本分別進(jìn)行歸一化到相同的范圍內(nèi);
[0009]步驟2,求得大規(guī)模訓(xùn)練樣本集結(jié)構(gòu)化信息:由于協(xié)方差矩陣往往可以反映樣本的分布信息,因此在Hadoop平臺上分別求得正、負(fù)類樣本的協(xié)方差矩陣作為樣本的整體結(jié)構(gòu)信息;
[0010]步驟3,利用大規(guī)模訓(xùn)練樣本集訓(xùn)練分類模型;根據(jù)并行結(jié)構(gòu)化支持向量機(jī)隨機(jī)次梯度投影并行執(zhí)行的方法,在Hadoop平臺上訓(xùn)練得到并行結(jié)構(gòu)化支持向量機(jī)模型;
[0011]步驟4,根據(jù)分類模型對測試樣本進(jìn)行分類;根據(jù)步驟3訓(xùn)練得到的并行結(jié)構(gòu)化支持向量機(jī)模型,對測試樣本進(jìn)行分類。
[0012]所述步驟2具體包括如下步驟:在Hadoop平臺下,大規(guī)模訓(xùn)練樣本被劃分為多個子集,分散地存放在多個數(shù)據(jù)節(jié)點上,求得大規(guī)模訓(xùn)練樣本的協(xié)方差矩陣可以借助一個MapReduce (映射歸約)任務(wù)完成;
[0013]為了方便描述,記給定的大規(guī)模訓(xùn)練樣本集
【權(quán)利要求】
1.一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法,其特征在于,包括如下步驟: 步驟I,樣本歸一化:對訓(xùn)練樣本和測試樣本分別進(jìn)行歸一化到相同的范圍內(nèi); 步驟2,求得大規(guī)模訓(xùn)練樣本集結(jié)構(gòu)化信息:由于協(xié)方差矩陣往往可以反映樣本的分布信息,因此在Hadoop平臺上分別求得正、負(fù)類樣本的協(xié)方差矩陣作為樣本的整體結(jié)構(gòu)信息; 步驟3,利用大規(guī)模訓(xùn)練樣本集訓(xùn)練分類模型;根據(jù)并行結(jié)構(gòu)化支持向量機(jī)隨機(jī)次梯度投影并行執(zhí)行的方法,在Hadoop平臺上訓(xùn)練得到并行結(jié)構(gòu)化支持向量機(jī)模型; 步驟4,根據(jù)分類模型對測試樣本進(jìn)行分類;根據(jù)步驟3訓(xùn)練得到的并行結(jié)構(gòu)化支持向量機(jī)模型,對測試樣本進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法,其特征在于,所述步驟2具體包括如下步驟: 在Hadoop平臺下,大規(guī)模訓(xùn)練樣本被劃分為多個子集,分散地存放在多個數(shù)據(jù)節(jié)點上,求得大規(guī)模訓(xùn)練樣本的協(xié)方差矩陣可以借助一個MapReduce任務(wù)完成; 為了方便描述,記給定的大規(guī)模訓(xùn)練樣本集S = {(Ul:,其中Xi e Rn,Ii e {+I, -1},將訓(xùn)練樣本集S分成N個子集,記為& = {(χ7., V1-^1,i = 1,...,N,Yj e j+1,-1!(x 〗,^)表示Si中的正、負(fù)類樣本,記Σ為樣本的整體協(xié)方差,
3.根據(jù)權(quán)利要求1所述的一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法,其特征在于,所述步驟3利用大規(guī)模訓(xùn)練樣本集訓(xùn)練分類模型具體包括如下步驟: (1)計算出樣本的協(xié)方差矩陣Σ; (2)初始化向量W,任取向量&,使其滿足WtU1A-A2SX1,其中AjP λ2為正則化參數(shù),A為單位矩陣,Σ為樣本的協(xié)方差矩陣;(3)記當(dāng)前循環(huán)次數(shù)為t,第t次循環(huán)得到的向量w記為Wt,進(jìn)行T輪循環(huán):①從訓(xùn)練集S中選取樣本個數(shù)為k的子集At ∈ S,并用新的目標(biāo)函數(shù)
4.根據(jù)權(quán)利要求3所述的一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法,其特征在于,所述步驟3隨機(jī)次梯度投影迭代并行執(zhí)行的具體包括如下步驟: 隨機(jī)次梯度投影的每一輪迭代作為一個單獨的MapReduce任務(wù); Map階段: ①隨機(jī)抽取k/N個樣本; ②定義零向量Vje Rn5 ③逐個判斷這k/N個樣本,如果.V,<1,則Vj= Vj+y^Xi ; ④翻當(dāng)前節(jié)點上的其中4+=L.Vi)M:
【文檔編號】G06K9/66GK103971136SQ201410185389
【公開日】2014年8月6日 申請日期:2014年5月4日 優(yōu)先權(quán)日:2014年5月4日
【發(fā)明者】楊明, 郭麗娜, 高陽 申請人:南京師范大學(xué)