一種基于主動(dòng)學(xué)習(xí)的圖像標(biāo)注方法
【專利摘要】本發(fā)明公開了一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)圖像標(biāo)注方法。該方法首先基于圖像數(shù)據(jù)集構(gòu)建表征圖像視覺相似性關(guān)系的K近鄰圖結(jié)構(gòu),計(jì)算相應(yīng)的拉普拉斯圖矩陣L;接著采用迭代計(jì)算求解最優(yōu)化問題,選擇出T個(gè)標(biāo)注樣本讓用戶進(jìn)行標(biāo)注;然后根據(jù)選擇出來的T個(gè)標(biāo)注樣本訓(xùn)練多類別SVM分類器模型fsvm,最后基于訓(xùn)練的SVM分類模型fsvm對(duì)圖像數(shù)據(jù)集中的圖像進(jìn)行圖像類別判斷,依據(jù)判別結(jié)果對(duì)圖像進(jìn)行標(biāo)注,從而實(shí)現(xiàn)基于主動(dòng)學(xué)習(xí)的圖像標(biāo)注。本方法采用迭代依次挑選出最具代表性的圖像數(shù)據(jù)進(jìn)行交互式標(biāo)注,不僅提高訓(xùn)練的SVM模型性能和圖像標(biāo)注的準(zhǔn)確度,還能減少需要標(biāo)注的圖像數(shù)目,達(dá)到減輕人工勞動(dòng)量的目的。
【專利說明】一種基于主動(dòng)學(xué)習(xí)的圖像標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)圖像標(biāo)注技術(shù),主動(dòng)學(xué)習(xí)技術(shù)和SVM分類器,尤其涉及采用主動(dòng)學(xué)習(xí)進(jìn)行圖像標(biāo)注方法。
【背景技術(shù)】
[0002]近年來,伴隨著計(jì)算機(jī)視覺技術(shù)和機(jī)器學(xué)習(xí)算法的興起,基于圖像內(nèi)容的網(wǎng)絡(luò)圖像自動(dòng)標(biāo)注技術(shù)得到飛速發(fā)展。通用的圖像標(biāo)注流程包括:(1)圖像視覺特征提取和表達(dá);
[2]基于訓(xùn)練數(shù)據(jù)對(duì)分類器或者搜索模型進(jìn)行訓(xùn)練;(3)使用訓(xùn)練好的分類器或者搜索模型對(duì)圖像進(jìn)行分類或者是搜索近鄰,實(shí)現(xiàn)對(duì)圖像的標(biāo)注。
[0003]從上面的通用圖像標(biāo)注流程可以看出無論是分類器還是搜索模型的構(gòu)建通常都是需要訓(xùn)練數(shù)據(jù)集的支撐。而構(gòu)建這樣的訓(xùn)練數(shù)據(jù),經(jīng)常需要對(duì)圖像數(shù)據(jù)進(jìn)行標(biāo)注,比較耗時(shí)同時(shí)也是比較繁瑣的。為了節(jié)省人工標(biāo)注的勞動(dòng)量,以往的研究工作一般是從兩個(gè)方法來解決這個(gè)問題。
[0004]第一種解決思路是采用半監(jiān)督學(xué)習(xí)的方法,只對(duì)訓(xùn)練數(shù)據(jù)集中的少量數(shù)據(jù)進(jìn)行標(biāo)注,然后將數(shù)據(jù)集中大量的未標(biāo)注的數(shù)據(jù)加入到模型的訓(xùn)練中,通過挖掘圖像之間存在的特征空間上的近鄰關(guān)系來提高算法的準(zhǔn)確性。
[0005]第二種解決思路是采用主動(dòng)學(xué)習(xí)的方法,通過采用某種策略和方法,主動(dòng)地從訓(xùn)練數(shù)據(jù)集中挑選出部分具有代表性或者是最具模糊性的圖像數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行人工標(biāo)注,然后利用這些標(biāo)注的數(shù)據(jù)集對(duì)算法模型進(jìn)行訓(xùn)練。由于標(biāo)注的數(shù)據(jù)是經(jīng)過智能選擇過的,因此使用這些的標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練,可以進(jìn)一步提高算法的準(zhǔn)確率。
[0006]關(guān)于第一種解決思路的相關(guān)工作可以參考Xiaojin Zhu的《Sem1-supervisedLearning Survey》一文。第二中解決思路是與本發(fā)明所提出的方法關(guān)系最密切的。這類工作包括支持向量機(jī)主動(dòng)學(xué)習(xí)(Support Vector Machine active learning, SVMactive),基于回歸的主動(dòng)學(xué)習(xí)方法(Regression based active learning),基于最優(yōu)實(shí)驗(yàn)設(shè)計(jì)(Optimal Experiment Design, OED)類的主動(dòng)學(xué)習(xí)方法和基于圖的主動(dòng)學(xué)習(xí)方法,如Laplacian Optimal Design (LOD)等
[0007]與上面介紹的方法不同,本發(fā)明所提出的方法采用貪心算法求解需要標(biāo)注的圖像數(shù)據(jù),在得到用戶標(biāo)注圖像結(jié)果后,我們將其應(yīng)用到多類別SVM模型中,訓(xùn)練SVM模型,然后應(yīng)用訓(xùn)練結(jié)果對(duì)數(shù)據(jù)集中的其他圖像進(jìn)行自動(dòng)標(biāo)注。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的是為了克服在訓(xùn)練SVM算法模型是需要提供大量人工標(biāo)注的圖像數(shù)據(jù),耗費(fèi)時(shí)間和人力的問題,提供一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)圖像標(biāo)注方法。
[0009]基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)圖像標(biāo)注方法包括如下步驟:
[0010]I)對(duì)網(wǎng)絡(luò)圖像數(shù)據(jù)集MSRA-MM數(shù)據(jù)集中,選擇80類圖像,每類100張圖像,共計(jì)8000張圖像,提取64維的顏色直方圖和255維的顏色紋理矩特征,構(gòu)成319維的圖像視覺特征表達(dá),得到圖像特征集X = [X1, X2,, Xn] e Rdxn,其中d = 319為圖像特征維度,η =8000為圖像樣本數(shù);
[0011]2)構(gòu)建表征圖像視覺相似性關(guān)系的K近鄰圖結(jié)構(gòu),以圖像特征集中樣本作為K近鄰圖的頂點(diǎn),K近鄰圖的邊權(quán)重矩陣S設(shè)置如下:
【權(quán)利要求】
1.一種基于主動(dòng)學(xué)習(xí)的網(wǎng)絡(luò)圖像標(biāo)注方法,其特征在于包括如下步驟: 1)對(duì)網(wǎng)絡(luò)圖像數(shù)據(jù)集MSRA-MM數(shù)據(jù)集中,選擇80類圖像,每類100張圖像,共計(jì)8000張圖像,提取64維的顏色直方圖和255維的顏色紋理矩特征,構(gòu)成319維的圖像視覺特征表達(dá),得到圖像特征集X= [x1; X2,, xn] e Rdxn,其中d = 319為圖像特征維度,η = 8000為圖像樣本數(shù); 2)構(gòu)建表征圖像視覺相似性關(guān)系的K近鄰圖結(jié)構(gòu),以圖像特征集中樣本作為K近鄰圖的頂點(diǎn),K近鄰圖的邊權(quán)重矩陣S設(shè)置如下:
【文檔編號(hào)】G06K9/62GK103942561SQ201410106864
【公開日】2014年7月23日 申請(qǐng)日期:2014年3月20日 優(yōu)先權(quán)日:2014年3月20日
【發(fā)明者】陳晉音, 黃堅(jiān) 申請(qǐng)人:杭州禧頌科技有限公司