一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法

文檔序號：6545576閱讀：309來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法
【專利摘要】本發(fā)明公開了一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法，具體包括如下步驟：樣本歸一化；求得大規(guī)模訓(xùn)練樣本集結(jié)構(gòu)化信息；利用大規(guī)模訓(xùn)練樣本集訓(xùn)練分類模型；根據(jù)分類模型對測試樣本進(jìn)行分類。本發(fā)明采用并行結(jié)構(gòu)化支持向量機(jī)，利用目前最流行的云計算平臺之一Hadoop進(jìn)行實現(xiàn)，能夠有效地處理大規(guī)模數(shù)據(jù)分類問題；此外，并行結(jié)構(gòu)化支持向量機(jī)在原始的支持向量機(jī)模型中融入了樣本的結(jié)構(gòu)信息，使得訓(xùn)練模型更加符合數(shù)據(jù)的分布，從而提高分類的精度。因此本發(fā)明提出的方法具有較高的使用價值。
【專利說明】一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于人工智能模式識別分類領(lǐng)域，特別是一種面向大規(guī)模數(shù)據(jù)的并行支持向量機(jī)分類方法。
【背景技術(shù)】
[0002]分類問題是機(jī)器學(xué)習(xí)的主要研究內(nèi)容，支持向量機(jī)作為主流的分類方法之一，在軟件模塊缺陷檢測、圖像識別等領(lǐng)域取得了廣泛的應(yīng)用，倍受研究者的關(guān)注。為了獲得更好的分類效果，研究者們也相繼提出了最小二乘支持向量機(jī)、模糊支持向量機(jī)等。標(biāo)準(zhǔn)的支持向量機(jī)問題的實質(zhì)是一個二次規(guī)劃問題，在支持向量機(jī)的求解方面，研究者也做了大量的工作，較為常用的方法有牛頓法、分塊方法、分解方法、梯度下降的方法等。然而，隨著時代的發(fā)展，科技的進(jìn)步，我們所面臨的數(shù)據(jù)規(guī)模不斷的增大，經(jīng)典的串行支持向量機(jī)主要針對小規(guī)模數(shù)據(jù)，面對大規(guī)模數(shù)據(jù)存在效率低的不足。為此，設(shè)計適用于大規(guī)模樣本的并行支持向量機(jī)分類方法成了關(guān)鍵任務(wù)。
[0003]目前，經(jīng)典的并行支持向量機(jī)的研究主要集中在數(shù)據(jù)層面，即在原始數(shù)據(jù)集的多個子數(shù)據(jù)集上并行訓(xùn)練支持向量機(jī)，進(jìn)而通過合并得到最終分類結(jié)果。相對于面向數(shù)據(jù)層面的并行支持向量機(jī)而言，在求解算法上進(jìn)行并行支持向量機(jī)還不多見。
[0004]已有的并行支持向量機(jī)算法在模型中考慮類分布信息的研究工作還比較少。樣本的結(jié)構(gòu)信息往往對大間隔分類器的分類面的確定同樣具有指導(dǎo)意義。目前，研究者也提出了很多考慮樣本結(jié)構(gòu)信息的大間隔分類器算法，如:最小最大概率機(jī)、最大最小間隔機(jī)、結(jié)構(gòu)大間隔機(jī)、結(jié)構(gòu)支持向量機(jī)等。

【發(fā)明內(nèi)容】

[0005]本發(fā)明為了能夠解決大規(guī)模數(shù)據(jù)的支持向量機(jī)分類問題，并且提高分類精度，提出了一種面向大規(guī)模數(shù)據(jù)的并行支持向量機(jī)分類方法，在有效處理大規(guī)模數(shù)據(jù)分類問題的同時還提高了分類效果。
[0006]本發(fā)明采用的技術(shù)方案如下:
[0007]—種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法，包括如下步驟:
[0008]步驟I，樣本歸一化:對訓(xùn)練樣本和測試樣本分別進(jìn)行歸一化到相同的范圍內(nèi)；
[0009]步驟2，求得大規(guī)模訓(xùn)練樣本集結(jié)構(gòu)化信息:由于協(xié)方差矩陣往往可以反映樣本的分布信息，因此在Hadoop平臺上分別求得正、負(fù)類樣本的協(xié)方差矩陣作為樣本的整體結(jié)構(gòu)信息；
[0010]步驟3，利用大規(guī)模訓(xùn)練樣本集訓(xùn)練分類模型；根據(jù)并行結(jié)構(gòu)化支持向量機(jī)隨機(jī)次梯度投影并行執(zhí)行的方法，在Hadoop平臺上訓(xùn)練得到并行結(jié)構(gòu)化支持向量機(jī)模型；
[0011]步驟4，根據(jù)分類模型對測試樣本進(jìn)行分類；根據(jù)步驟3訓(xùn)練得到的并行結(jié)構(gòu)化支持向量機(jī)模型，對測試樣本進(jìn)行分類。
[0012]所述步驟2具體包括如下步驟:在Hadoop平臺下，大規(guī)模訓(xùn)練樣本被劃分為多個子集，分散地存放在多個數(shù)據(jù)節(jié)點上，求得大規(guī)模訓(xùn)練樣本的協(xié)方差矩陣可以借助一個MapReduce (映射歸約)任務(wù)完成；
[0013]為了方便描述，記給定的大規(guī)模訓(xùn)練樣本集
【權(quán)利要求】
1.一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法，其特征在于，包括如下步驟: 步驟I，樣本歸一化:對訓(xùn)練樣本和測試樣本分別進(jìn)行歸一化到相同的范圍內(nèi)；步驟2，求得大規(guī)模訓(xùn)練樣本集結(jié)構(gòu)化信息:由于協(xié)方差矩陣往往可以反映樣本的分布信息，因此在Hadoop平臺上分別求得正、負(fù)類樣本的協(xié)方差矩陣作為樣本的整體結(jié)構(gòu)信息；步驟3，利用大規(guī)模訓(xùn)練樣本集訓(xùn)練分類模型；根據(jù)并行結(jié)構(gòu)化支持向量機(jī)隨機(jī)次梯度投影并行執(zhí)行的方法，在Hadoop平臺上訓(xùn)練得到并行結(jié)構(gòu)化支持向量機(jī)模型；步驟4，根據(jù)分類模型對測試樣本進(jìn)行分類；根據(jù)步驟3訓(xùn)練得到的并行結(jié)構(gòu)化支持向量機(jī)模型，對測試樣本進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法，其特征在于，所述步驟2具體包括如下步驟: 在Hadoop平臺下，大規(guī)模訓(xùn)練樣本被劃分為多個子集，分散地存放在多個數(shù)據(jù)節(jié)點上,求得大規(guī)模訓(xùn)練樣本的協(xié)方差矩陣可以借助一個MapReduce任務(wù)完成；為了方便描述，記給定的大規(guī)模訓(xùn)練樣本集S = {(Ul:，其中Xi e Rn,Ii e {+I, -1}，將訓(xùn)練樣本集S分成N個子集，記為& = {(χ7., V1-^1，i = 1，...，N，Yj e j+1,-1!(x 〗，^)表示Si中的正、負(fù)類樣本，記Σ為樣本的整體協(xié)方差，
3.根據(jù)權(quán)利要求1所述的一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法，其特征在于，所述步驟3利用大規(guī)模訓(xùn)練樣本集訓(xùn)練分類模型具體包括如下步驟: (1)計算出樣本的協(xié)方差矩陣Σ； (2)初始化向量W，任取向量&，使其滿足WtU1A-A2SX1，其中AjP λ2為正則化參數(shù)，A為單位矩陣，Σ為樣本的協(xié)方差矩陣；(3)記當(dāng)前循環(huán)次數(shù)為t，第t次循環(huán)得到的向量w記為Wt，進(jìn)行T輪循環(huán):①從訓(xùn)練集S中選取樣本個數(shù)為k的子集At ∈ S，并用新的目標(biāo)函數(shù)
4.根據(jù)權(quán)利要求3所述的一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法，其特征在于，所述步驟3隨機(jī)次梯度投影迭代并行執(zhí)行的具體包括如下步驟: 隨機(jī)次梯度投影的每一輪迭代作為一個單獨的MapReduce任務(wù)； Map階段: ①隨機(jī)抽取k/N個樣本； ②定義零向量Vje Rn5 ③逐個判斷這k/N個樣本，如果.V,<1，則Vj= Vj+y^Xi ； ④翻當(dāng)前節(jié)點上的其中4+=L.Vi)M:
【文檔編號】G06K9/66GK103971136SQ201410185389
【公開日】2014年8月6日申請日期:2014年5月4日優(yōu)先權(quán)日:2014年5月4日
【發(fā)明者】楊明, 郭麗娜, 高陽申請人:南京師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊明;郭麗娜;高陽
技術(shù)所有人：南京師范大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

結(jié)構(gòu)化支持向量機(jī)相關(guān)技術(shù)

結(jié)構(gòu)化設(shè)計是一種面向相關(guān)技術(shù)

結(jié)構(gòu)化設(shè)計方法是面向相關(guān)技術(shù)

結(jié)構(gòu)化編程和面向?qū)ο笙嚓P(guān)技術(shù)

結(jié)構(gòu)化和面向?qū)ο笙嚓P(guān)技術(shù)

結(jié)構(gòu)化分析方法是面向相關(guān)技術(shù)

結(jié)構(gòu)化設(shè)計和面向?qū)ο笙嚓P(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向大規(guī)模數(shù)據(jù)的并行結(jié)構(gòu)化支持向量機(jī)分類方法