一種基于MapReduce的圖像分類方法

文檔序號(hào)：6635254閱讀：468來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于MapReduce的圖像分類方法
【專利摘要】本發(fā)明公開了一種基于MapReduce的圖像分類方法，在Hadoop平臺(tái)上，首先，利用MapReduce框架實(shí)現(xiàn)對(duì)圖像SIFT特征的并行提取；利用MapReduce框架對(duì)每幅圖像提取的SIFT特征進(jìn)行稀疏編碼，從而獲得圖像對(duì)應(yīng)的稀疏向量，生成圖像的稀疏特征；然后，基于圖像的稀疏特征，利用MapReduce框架訓(xùn)練決策樹，生成針對(duì)圖像特征集合的隨機(jī)森林；利用MapReduce結(jié)合隨機(jī)森林對(duì)每幅圖像進(jìn)行分類計(jì)算。通過(guò)實(shí)驗(yàn)驗(yàn)證，表明基于MapReduce的圖像分類方法能夠在保證不低于單機(jī)平臺(tái)分類精確性的同時(shí)，明顯提高分類速度。
【專利說(shuō)明】-種基于MapReduce的圖像分類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像分類方法領(lǐng)域，具體涉及一種基于MapReduce的圖像分類方法。

【背景技術(shù)】
[0002] 圖像分類是指利用計(jì)算機(jī)對(duì)圖像進(jìn)行自動(dòng)化分析，把圖像歸為若干類別中的一種，以代替人進(jìn)行視覺(jué)判讀，是目標(biāo)檢測(cè)與識(shí)別、圖像檢索、信息過(guò)濾等應(yīng)用領(lǐng)域的基礎(chǔ)。而隨著大數(shù)據(jù)時(shí)代的到來(lái)，圖像每天從監(jiān)控?cái)z像頭、遙感衛(wèi)星、自媒體等源源不斷地生成出來(lái)，大數(shù)據(jù)的存儲(chǔ)和處理所基于的體系架構(gòu)與傳統(tǒng)文件系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)和并行處理架構(gòu) 完全不同，對(duì)圖像大數(shù)據(jù)的分類提出了挑戰(zhàn)?，F(xiàn)在主流的圖像分類方法主要分為兩個(gè)步驟：首先進(jìn)行圖像特征提取，然后在此基礎(chǔ)之上進(jìn)行基于特征的學(xué)習(xí)與識(shí)別。圖像的視覺(jué) 特征通常分為全局特征和局部特征。全局特征包括顏色、紋理、形狀等，但基于全局特征的圖像分類的準(zhǔn)確率較低，所以現(xiàn)在研究的重點(diǎn)在于局部特征方面。尺度不變特征變換 (Scale Invariant Feature Transform, SIFT)是一種基于局部特征的描述子，具有良好的圖像表征性能，針對(duì)不同的場(chǎng)景，對(duì)光照變化、圖像幾何變形、分辨率差異、旋轉(zhuǎn)、模糊和圖像壓縮等6種情況，就多種最具代表性的描述子（如SIFT、互相關(guān)、矩不變量等10種特征描述進(jìn)行了性能比較，結(jié)果表明，基于SIFT的特征描述子性能最好。當(dāng)完成圖像的特征提取之后，一般使用機(jī)器學(xué)習(xí)的方法對(duì)表示圖像的特征向量進(jìn)行分類。支持向量機(jī)是使用最廣泛的方法，在解決小樣本、非線性以及高維分類中表現(xiàn)出很多特殊的優(yōu)勢(shì)；但其需要對(duì)數(shù)據(jù)集進(jìn)行整體運(yùn)算，這對(duì)于大數(shù)據(jù)分類是不可接受的。另外一種常用的機(jī)器學(xué)習(xí)方法是Adaboost，作為一種迭代算法，在每一輪中加入一個(gè)新的弱分類器，直到達(dá)到某個(gè)預(yù) 定的足夠小的錯(cuò)誤率。由于現(xiàn)在大數(shù)據(jù)存儲(chǔ)普遍采用Hadoop平臺(tái)，而Hadoop所采用的 MapReduce編程模型并不支持迭代運(yùn)算。
[0003] MapReduce是Google提出的一個(gè)軟件架構(gòu)，用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map (映射)"和"Reduce (化簡(jiǎn)）"，及他們的主要思想，都是從函數(shù)式編程語(yǔ)言借來(lái)的，還有從矢量編程語(yǔ)言借來(lái)的特性。[1]當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map (映射）函數(shù)，用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì)，指定并發(fā)的Reduce (化簡(jiǎn)）函數(shù)，用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明要解決的技術(shù)問(wèn)題是：因此，本發(fā)明提出了一種適合MapReduce編程模型的圖像分類方法，利用稀疏編碼實(shí)現(xiàn)對(duì)圖像的表示，能夠較好地描述圖像的顯著特征；在此基礎(chǔ)之上，利用隨機(jī)森林進(jìn)行分類，在分類的全過(guò)程中都不會(huì)涉及對(duì)全體數(shù)據(jù)進(jìn)行整體運(yùn) 算，能充分利用MapReduce提供的分布式計(jì)算能力。
[0005] 本發(fā)明所采用的技術(shù)方案為：一種基于MapReduce的圖像分類方法，在Hadoop平臺(tái)上，圖像分類過(guò)程主要分為兩個(gè)階段：第一階段是將圖像轉(zhuǎn)換為稀疏矩陣；首先，利用MapReduce框架實(shí)現(xiàn)對(duì)圖像SIFT特征的并行提??；然后，利用MapReduce 框架對(duì)每幅圖像提取的SIFT特征進(jìn)行稀疏編碼，從而獲得圖像對(duì)應(yīng)的稀疏向量，生成圖像的稀疏特征；第二階段是利用隨機(jī)森林方法實(shí)現(xiàn)對(duì)圖像集的并行分類；首先基于圖像的稀疏特征，利用MapReduce框架訓(xùn)練決策樹，生成針對(duì)圖像特征集合的隨機(jī)森林；然后，利用MapReduce結(jié)合隨機(jī)森林對(duì)每幅圖像進(jìn)行分類計(jì)算。
[0006] 結(jié)構(gòu)設(shè)計(jì)主要考慮MapReduce能夠?qū)⒐ぷ髁鞣峙涞酱笠?guī)模計(jì)算機(jī)集群上，其過(guò)程是首先將任務(wù)和數(shù)據(jù)分發(fā)到集群的節(jié)點(diǎn)之上，然后各個(gè)節(jié)點(diǎn)并行地執(zhí)行任務(wù)，得到中間結(jié) 果之后進(jìn)行匯集并再次分發(fā)計(jì)算，并得到最終結(jié)果。
[0007] MapReduce作為一種線性可伸縮的編程模型，其兩步執(zhí)行方式借鑒了函數(shù)式編程中Map和Reduce的操作，將任務(wù)分為兩個(gè)不同的處理階段：Map(映射）階段和 Reduce (化簡(jiǎn)）階段。每個(gè)階段都以鍵/值對(duì)作為輸入和輸出，開發(fā)者被限定使用特殊關(guān)聯(lián) 的鍵/值對(duì)，通過(guò)Map函數(shù)和Reduce函數(shù)，定義一個(gè)鍵/值對(duì)到另一個(gè)鍵/值對(duì)集合的映射。
[0008] 所述方法涉及的設(shè)計(jì)結(jié)構(gòu)包括：1) MapReduce編程模型、2)稀疏編碼模型、3)隨機(jī)森林圖像分類算法，其中： 1) MapReduce編程模型：MapReduce能夠?qū)⒐ぷ髁鞣峙涞酱笠?guī)模計(jì)算機(jī)集群上，其過(guò) 程是首先將任務(wù)和數(shù)據(jù)分發(fā)到集群的節(jié)點(diǎn)之上，然后各個(gè)節(jié)點(diǎn)并行地執(zhí)行任務(wù)，得到中間結(jié)果之后進(jìn)行匯集并再次分發(fā)計(jì)算，并得到最終結(jié)果； 2) 稀疏編碼模型：在對(duì)圖像進(jìn)行分類時(shí)，能夠提取每幅圖像的SIFT特征，由于每幅圖像之間是相互獨(dú)立的，其特征提取過(guò)程能夠并行地進(jìn)行，稀疏編碼是通過(guò)一些已訓(xùn)練的能夠表示低層特征的基向量進(jìn)行線性組合實(shí)行對(duì)圖像特征的表示，為提高圖像分類的準(zhǔn)確率，利用稀疏編碼方法生成了基于SIFT特征描述子的稀疏向量； 3) 隨機(jī)森林圖像分類算法：隨機(jī)森林由一組決策樹組成，每棵決策樹充當(dāng)一個(gè)分類器，最終的預(yù)測(cè)結(jié)果由這些決策樹進(jìn)行綜合投票，從中選擇獲得最多票數(shù)的類別作為輸出結(jié)果。在隨機(jī)森林中，多個(gè)決策樹能夠起到互補(bǔ)的作用，可以把單個(gè)分類器的錯(cuò)誤影響減小，從而提高整體分類的準(zhǔn)確率和穩(wěn)定性。
[0009] 在分類過(guò)程中一共包括四個(gè)MapReduce過(guò)程，全程利用MapReduce實(shí)現(xiàn)對(duì)數(shù)據(jù) 的分布式并行處理。
[0010] 基于MapReduce的SIFT特征提取步驟如下：步驟1將全體圖像集合作為MapReduce作業(yè)的輸入，把每個(gè)圖像作為一個(gè)輸入分片；步驟2 Map函數(shù)執(zhí)行并行的特征提??；Map函數(shù)的輸入為鍵/值對(duì)〈Key，Value〉，其中Key為文件名，Value為圖像數(shù)據(jù)，在函數(shù)中對(duì)圖像進(jìn)行運(yùn)算，提取圖像的SIFT特征； Map函數(shù)的輸出為鍵/值對(duì)〈Key，Value〉，其中Key為文件名，Value為表示SIFT特征的數(shù)組，數(shù)組每個(gè)元素也為鍵/值對(duì)，在此用〈K，V〉表示，其中K為特征點(diǎn)位置坐標(biāo)（X， y)，V為特征點(diǎn)對(duì)應(yīng)的128維特征向量。由于SIFT特征的計(jì)算只需使用Map函數(shù)就可以完成，因此不需要使用Reduce函數(shù)。
[0011] 將稀疏編碼過(guò)程通過(guò)MapReduce進(jìn)行分布式處理的步驟如下：步驟1將全體SIFT特征集合作為MapReduce作業(yè)的輸入，把每幅圖像的SIFT特征集合按照空間位置平均劃分為n個(gè)格子，第i個(gè)格子中的SIFT特征集合表示為匕，將其作為輸入分片；步驟2在Map函數(shù)中并行計(jì)算每幅圖像中各個(gè)格子的稀疏向量，Map函數(shù)的輸入為鍵/值對(duì)〈Key，Value〉，其中Key為文件名，Value為SIFT特征集合？1，對(duì)于任一 SIFT 特征向量f EFi，按照公式f?Da，求解稀疏向量aij;對(duì)得到所有稀疏向量aij進(jìn)行比較，從中選取絕對(duì)值最大的稀疏向量作為該格子的稀疏向量a i ;Map函數(shù)的輸出為鍵/值對(duì)〈Key，〈K，V〉〉，其中Key為文件名，而Value為一個(gè)鍵/值對(duì)〈K，V〉，其中K為該格子在原始圖像中位置，V是稀疏向量cti ; 步驟3在Reduce函數(shù)中計(jì)算整幅圖像的稀疏向量，Reduce函數(shù)的輸入為Map函數(shù) 輸出的鍵/值對(duì)〈Key，Value〉；按照稀疏向量對(duì)應(yīng)的區(qū)域位置，生成整幅圖像的稀疏向量 a= {ap ，…，an} ;Reduce函數(shù)的輸出為鍵/值對(duì)〈Key，Value〉，其中Key為文件名，而Value為稀疏向量a。
[0012] 基于MapReduce的隨機(jī)森林生成步驟如下：步驟1:假設(shè)森林中需要生成T棵決策樹，按照有放回的方式從訓(xùn)練集隨機(jī)選擇T 個(gè)訓(xùn)練子集I t = {以4 )，（(S2，C2)，…，（(Sk，Ck )}，仁是I的子集，將It作為輸入分片；步驟2: Map函數(shù)并行生成隨機(jī)森林的各棵決策樹，Map函數(shù)的輸入為鍵/值對(duì)〈Key， Value〉，Key為隨機(jī)森林名字，Value為It ; 對(duì)于每個(gè)分支節(jié)點(diǎn)Nsplit，設(shè)到達(dá)該節(jié)點(diǎn)訓(xùn)練集為Isplit，從I t中隨機(jī)抽取m個(gè)特征值，并依次對(duì)分支節(jié)點(diǎn)Nsplit進(jìn)行分裂；在m個(gè)特征分量中，分裂該分支節(jié)點(diǎn)時(shí)使得信息增益最大的特征分量就是其最佳的分裂分量；信息增益函數(shù)定義如下： GUJOs-Em+EUnpfypdJ+EdkdhpdJ(2) 其中4為特征值，E為信息熵； E的定義

【權(quán)利要求】
1. 一種基于MapReduce的圖像分類方法，其特征在于：在Hadoop平臺(tái)上，圖像分類過(guò)程主要分為兩個(gè)階段：第一階段是將圖像轉(zhuǎn)換為稀疏矩陣；首先，利用MapReduce框架實(shí)現(xiàn)對(duì)圖像SIFT特征的并行提??；然后，利用MapReduce 框架對(duì)每幅圖像提取的SIFT特征進(jìn)行稀疏編碼，從而獲得圖像對(duì)應(yīng)的稀疏向量，生成圖像的稀疏特征；第二階段是利用隨機(jī)森林方法實(shí)現(xiàn)對(duì)圖像集的并行分類；首先基于圖像的稀疏特征，利用MapReduce框架訓(xùn)練決策樹，生成針對(duì)圖像特征集合的隨機(jī)森林；然后，利用MapReduce結(jié)合隨機(jī)森林對(duì)每幅圖像進(jìn)行分類計(jì)算。
2. 根據(jù)權(quán)利要求1所述的一種基于MapReduce的圖像分類方法，其特征在于：所述方法涉及的設(shè)計(jì)結(jié)構(gòu)包括：1) MapReduce編程模型、2)稀疏編碼模型、3)隨機(jī)森林圖像分類算法，其中： DMapReduce編程模型：MapReduce能夠?qū)⒐ぷ髁鞣峙涞酱笠?guī)模計(jì)算機(jī)集群上，其過(guò) 程是首先將任務(wù)和數(shù)據(jù)分發(fā)到集群的節(jié)點(diǎn)之上，然后各個(gè)節(jié)點(diǎn)并行地執(zhí)行任務(wù)，得到中間結(jié)果之后進(jìn)行匯集并再次分發(fā)計(jì)算，并得到最終結(jié)果； 2) 稀疏編碼模型：在對(duì)圖像進(jìn)行分類時(shí)，能夠提取每幅圖像的SIFT特征，由于每幅圖像之間是相互獨(dú)立的，其特征提取過(guò)程能夠并行地進(jìn)行，稀疏編碼是通過(guò)一些已訓(xùn)練的能夠表示低層特征的基向量進(jìn)行線性組合實(shí)行對(duì)圖像特征的表示，為提高圖像分類的準(zhǔn)確率，利用稀疏編碼方法生成了基于SIFT特征描述子的稀疏向量； 3) 隨機(jī)森林圖像分類算法：隨機(jī)森林由一組決策樹組成，每棵決策樹充當(dāng)一個(gè)分類器，最終的預(yù)測(cè)結(jié)果由這些決策樹進(jìn)行綜合投票，從中選擇獲得最多票數(shù)的類別作為輸出結(jié)果。
3. 根據(jù)權(quán)利要求1或2所述的一種基于MapReduce的圖像分類方法，其特征在于，基于MapReduce的SIFT特征提取步驟如下：步驟1將全體圖像集合作為MapReduce作業(yè)的輸入，把每個(gè)圖像作為一個(gè)輸入分片；步驟2 Map函數(shù)執(zhí)行并行的特征提?。籑ap函數(shù)的輸入為鍵/值對(duì)〈Key，Value〉，其中Key為文件名，Value為圖像數(shù)據(jù)，在函數(shù)中對(duì)圖像進(jìn)行運(yùn)算，提取圖像的SIFT特征； Map函數(shù)的輸出為鍵/值對(duì)〈Key，Value〉，其中Key為文件名，Value為表示SIFT特征的數(shù)組，數(shù)組每個(gè)元素也為鍵/值對(duì)，在此用〈K，V〉表示，其中K為特征點(diǎn)位置坐標(biāo)（X， y)，V為特征點(diǎn)對(duì)應(yīng)的128維特征向量。
4. 根據(jù)權(quán)利要求1或2所述的一種基于MapReduce的圖像分類方法，其特征在于，將稀疏編碼過(guò)程通過(guò)MapReduce進(jìn)行分布式處理的步驟如下：步驟1將全體SIFT特征集合作為MapReduce作業(yè)的輸入，把每幅圖像的SIFT特征集合按照空間位置平均劃分為η個(gè)格子，第i個(gè)格子中的SIFT特征集合表示為Fi，將其作為輸入分片；步驟2在Map函數(shù)中并行計(jì)算每幅圖像中各個(gè)格子的稀疏向量，Map函數(shù)的輸入為鍵/值對(duì)〈Key，Value〉，其中Key為文件名，Value為SIFT特征集合Fi，對(duì)于任一 SIFT 特征向量fe Fi,按照公式Da，求解稀疏向量Ciij;對(duì)得到所有稀疏向量Ci ij進(jìn)行比較，從中選取絕對(duì)值最大的稀疏向量作為該格子的稀疏向量CIi ;Map函數(shù)的輸出為鍵/值對(duì)〈Key，〈K，V〉〉，其中Key為文件名，而Value為一個(gè)鍵/值對(duì)〈K，V〉，其中K為該格子在原始圖像中位置，V是稀疏向量Ct i ; 步驟3在Reduce函數(shù)中計(jì)算整幅圖像的稀疏向量，Reduce函數(shù)的輸入為Map函數(shù) 輸出的鍵/值對(duì)〈Key，Value〉；按照稀疏向量對(duì)應(yīng)的區(qū)域位置，生成整幅圖像的稀疏向量 α= Ci2，…，an} ;Reduce函數(shù)的輸出為鍵/值對(duì)〈Key，Value〉，其中Key為文件名，而Value為稀疏向量α。
5. 根據(jù)權(quán)利要求1或2所述的一種基于MapReduce的圖像分類方法，其特征在于，基于MapReduce的隨機(jī)森林生成步驟如下：步驟1:假設(shè)森林中需要生成T棵決策樹，按照有放回的方式從訓(xùn)練集隨機(jī)選擇T 個(gè)訓(xùn)練子集I t = KS1 ,C1 )，（(S2，C2)，…，（(Sk，Ck )}，仁是I的子集，將It作為輸入分片；步驟2: Map函數(shù)并行生成隨機(jī)森林的各棵決策樹，Map函數(shù)的輸入為鍵/值對(duì)〈Key， Value〉，Key為隨機(jī)森林名字，Value為It ; 對(duì)于每個(gè)分支節(jié)點(diǎn)Nsplit，設(shè)到達(dá)該節(jié)點(diǎn)訓(xùn)練集為Isplit，從It中隨機(jī)抽取m個(gè)特征值，并依次對(duì)分支節(jié)點(diǎn)Nsplit進(jìn)行分裂；在m個(gè)特征分量中，分裂該分支節(jié)點(diǎn)時(shí)使得信息增益最大的特征分量就是其最佳的分裂分量；信息增益函數(shù)定義如下： Gddi, Ik) = - E(I) + E( Ink，f)* P(Ink) +E(Ilk，f)* P(In) (2) 其中4為特征值，E為信息熵； E的定義
（3) 其中：//"./是該節(jié)點(diǎn)中屬于第c i類的概率比例，I I I是該節(jié)點(diǎn)樣本數(shù)；對(duì)左右分裂節(jié)點(diǎn)遞歸地執(zhí)行上一步的操作，直到其變成葉節(jié)點(diǎn)；當(dāng)某個(gè)節(jié)點(diǎn)的類別不純度為〇時(shí)，該節(jié)點(diǎn)就是一個(gè)葉節(jié)點(diǎn)，在一個(gè)葉子節(jié)點(diǎn)中只存在同一類別的特征值；當(dāng)所有節(jié)點(diǎn)都到達(dá)葉節(jié)點(diǎn)時(shí)，得到?jīng)Q策樹DT 5Map函數(shù)的輸出為鍵/值對(duì)〈Key，Value〉，Key為隨機(jī)森林名字，Value為DT; 步驟3 :Reduce函數(shù)將決策樹匯集成隨機(jī)森林，Reduce函數(shù)的輸入為Map函數(shù)輸出的鍵/值對(duì)〈Key，Value〉；將決策樹集合起來(lái)構(gòu)造隨機(jī)森林RF = {DT I，DT2，…，DT t}; Reduce函數(shù)的輸出為鍵/值對(duì)〈Key，Value〉，其中Key為隨機(jī)森林名，而Value為隨機(jī) 森林RF。
6. 根據(jù)權(quán)利要求1或2所述的一種基于MapReduce的圖像分類方法，其特征在于，生成隨機(jī)森林之后，利用隨機(jī)森林對(duì)圖像進(jìn)行分類，其基本過(guò)程分為兩步：首先將圖像的稀疏向量輸入隨機(jī)森林中的每棵決策樹，并標(biāo)識(shí)其到達(dá)的葉節(jié)點(diǎn)，得到該決策樹對(duì)圖像的分類結(jié)果；然后匯總各決策樹的結(jié)果，進(jìn)行分類投票，判斷圖像的最終類別。
7. 根據(jù)權(quán)利要求1或2所述的一種基于MapReduce的圖像分類方法，其特征在于，利用MapReduce結(jié)合隨機(jī)森林對(duì)每幅圖像進(jìn)行分類計(jì)算過(guò)程如下：步驟1:將待分類的全體圖像稀疏向量集合，隨機(jī)森林RF = (DT1，DT 2，…，DT t}作為MapReduce作業(yè)的輸入；步驟2 :Map函數(shù)利用決策樹對(duì)圖像所屬類別進(jìn)行計(jì)算：Map函數(shù)的輸入為鍵/值對(duì) 〈Key，Value〉，其中Key為稀疏向量5； ,Value為決策樹DTi，利用決策樹對(duì)稀疏向量進(jìn)行預(yù)測(cè)，得到類別信息G ;Map函數(shù)的輸出為鍵/值對(duì)〈Key，〈K，V〉〉，其中Key為稀疏向量5；.，而值中K為類別信息V為DTi ; 步驟3 =Reduce函數(shù)對(duì)隨機(jī)森林生成的決策結(jié)果進(jìn)行投票，判定圖像所屬類別：輸入為Map函數(shù)輸出的鍵/值對(duì)〈Key，Value〉;測(cè)試圖像屬于哪個(gè)類別由決策樹的預(yù)測(cè)結(jié)果的平均值決定，預(yù)測(cè)公式為：
其中：Pi (c I s)表示決策樹i對(duì)稀疏向量s判斷為類別c的概率；P (c I s)表示稀疏向量為s時(shí)，T棵決策樹判定其為類別c的平均值；最大平均值對(duì)應(yīng)的類別即為隨機(jī)森林判斷的類別；Reduce函數(shù)的輸出為鍵/值對(duì)〈Key，Value〉其中Key為稀疏向量 &.，Value 為類別 G。
8. 根據(jù)權(quán)利要求2所述的一種基于MapReduce的圖像分類方法，其特征在于，所述稀疏編碼方法：假設(shè)輸入向量為X er，經(jīng)過(guò)稀疏編碼之后的稀疏向量為a GRn，并且 m < η，輸入向量和稀疏向量存在如下變換關(guān)系：Χ?Da，其中D e Rmm矩陣，稱作字典；稀疏變換的關(guān)鍵在于尋找特定字典D，使得輸入向量X經(jīng)過(guò)變換之后得到的稀疏向量α 盡可能地稀疏，即其中的非零向量元素盡可能地少；字典的生成算法如下所示：從生成的 SIFT特征向量集中隨機(jī)選取K個(gè)圖像作為訓(xùn)練樣本，提取其SIFT描述子，得到訓(xùn)練集的 SIFT特征向量集X =氏，X2，…，Xk}，其中Xi e R128為輸入向量，字典D e R128'字典學(xué)習(xí)的問(wèn)題能夠被轉(zhuǎn)換為求解如下優(yōu)化問(wèn)題：
s. t. I Idj 111；1 ^ I ；j = 1,2, ···, η 其中：λ為正則化參數(shù)，a e Ria作為稀疏向量集合；在當(dāng)字典D和稀疏向量集合 α的值都不確定時(shí)，該問(wèn)題不是凸優(yōu)化問(wèn)題；因此，對(duì)這個(gè)問(wèn)題的通常解法是利用交替設(shè) 定D和α的值進(jìn)行交替迭代求解，首先設(shè)定字典D的值，則式（1)轉(zhuǎn)化為一個(gè)關(guān)于α的基于1-范數(shù)的最小平方凸優(yōu)化問(wèn)題；然后設(shè)定稀疏向量集合α的值，則式（1)轉(zhuǎn)化為一個(gè)關(guān)于字典D的帶二次約束的最小平方凸優(yōu)化問(wèn)題；通過(guò)多次迭代求解能夠得到字典D; 在生成字典D以后，對(duì)每幅圖像進(jìn)行稀疏編碼；由于每幅圖像是由一系列SIFT特征向量構(gòu)成，將每個(gè)SIFT特征向量作為輸入向量，通過(guò)和字典D進(jìn)行運(yùn)算生成一個(gè)稀疏向量；由此可見，圖像經(jīng)稀疏編碼后變成了一個(gè)稀疏矩陣。
9. 根據(jù)權(quán)利要求2所述的一種基于MapReduce的圖像分類方法，其特征在于：所述隨機(jī)森林方法是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論之上的機(jī)器學(xué)習(xí)方法，其基本思想是通過(guò)把多個(gè)弱分類器集成為一個(gè)強(qiáng)分類器；隨機(jī)森林由一組決策樹組成，每棵決策樹充當(dāng)一個(gè)分類器，最終的預(yù)測(cè)結(jié)果由這些決策樹進(jìn)行綜合投票，從中選擇獲得最多票數(shù)的類別作為輸出結(jié)果；隨機(jī)森林是由多棵決策樹構(gòu)成的，為保證決策樹構(gòu)造的隨機(jī)性，在決策樹訓(xùn)練樣本選取過(guò)程中引入隨機(jī)性，每次都從全體訓(xùn)練樣本中隨機(jī)選取一個(gè)子集，作為單棵決策樹的訓(xùn) 練樣本；同時(shí)，在決策樹的構(gòu)造過(guò)程中也引入隨機(jī)性，假設(shè)訓(xùn)練數(shù)據(jù)是η維向量，在決策樹的每個(gè)節(jié)點(diǎn)隨機(jī)選擇i(i < η)個(gè)特征進(jìn)行計(jì)算，從中選擇分類效果最好的特征作為節(jié)點(diǎn) 的切分特征；引入隨機(jī)性的目標(biāo)是增加決策樹之間的差異度，提高森林的泛化誤差；每棵決策樹是根節(jié)點(diǎn)、分支節(jié)點(diǎn)和葉節(jié)點(diǎn)的有序集合，其中根節(jié)點(diǎn)可以看作一個(gè)特殊的分支節(jié) 點(diǎn)；在分支節(jié)點(diǎn)選擇某個(gè)特征分量把到達(dá)該節(jié)點(diǎn)的訓(xùn)練樣本分成兩部分，在構(gòu)建決策樹的過(guò)程中，選擇訓(xùn)練集為I = KS1 ,C1 )，（(S2，C2)，…，（成，Cn )}，其中Si為圖像的稀疏編碼，Ci表示圖像的類別；由于決策樹之間是相互獨(dú)立的，因此能夠并行地生成。
【文檔編號(hào)】G06K9/46GK104392250SQ201410673349
【公開日】2015年3月4日申請(qǐng)日期:2014年11月21日優(yōu)先權(quán)日:2014年11月21日
【發(fā)明者】黃敏, 劉晶, 楊晉博申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃敏;劉晶;楊晉博;
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司;
我是此專利的發(fā)明人

上一篇：對(duì)SQLite中刪除的數(shù)據(jù)進(jìn)行恢復(fù)的方法及裝置制造方法
上一篇：一種定制提醒方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

遙感圖像分類方法相關(guān)技術(shù)

圖像分類方法相關(guān)技術(shù)

遙感圖像分類方法綜述相關(guān)技術(shù)

圖像分類方法研究現(xiàn)狀相關(guān)技術(shù)

傳統(tǒng)的圖像分類方法相關(guān)技術(shù)

圖像分割方法分類相關(guān)技術(shù)

圖像配準(zhǔn)方法分類相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于MapReduce的圖像分類方法