利用上述標注文檔,從原始數(shù)據(jù)集中切割不含目標的部分圖片作為負樣本,形成“負樣本集”。
[0054]精采集過程:
[0055]5.用上一步得到的正樣本集和負樣本集進行訓(xùn)練,得到目標檢測器和區(qū)分正、負樣本的閾值。在訓(xùn)練目標檢測器的過程中,通過數(shù)據(jù)統(tǒng)計得到該閾值。
[0056]6.利用得到的目標檢測器,對原始數(shù)據(jù)集進行檢測。
[0057]7.在檢測過程中為所有得到的目標打分數(shù),并按分數(shù)高低進行排序。
[0058]8.將原始數(shù)據(jù)集中檢測到的目標切割下來,形成檢測所得正樣本集;
[0059]9.監(jiān)督檢測所得正樣本集,其中分數(shù)低于步驟5中所得閾值的樣本為負樣本,將其移入負樣本集中,剩下的分數(shù)高于閾值的樣本即為正樣本,用于更新正樣本集;否則直接用檢測所得正樣本集更新正樣本集。
[0060]10.從原始視頻集中切割不含目標的圖片作為負樣本集。
[0061]11.返回步驟5,進行迭代,直到樣本數(shù)量達到預(yù)設(shè)數(shù)量或檢測器性能達到預(yù)設(shè)標準為止。
[0062]12.最終形成的正樣本集和負樣本集即可用于機器學(xué)習(xí)中大規(guī)模的數(shù)據(jù)訓(xùn)練,比如識別器的訓(xùn)練。
[0063]如圖2所示,一種基于分級迭代的大規(guī)模圖像樣本標注系統(tǒng),包括標注模塊1、粗采集模塊2、目標檢測器生成模塊3、精采集模塊4和迭代控制模塊5 ;所述標注模塊,用于利用半自動軟件工具標注原始數(shù)據(jù)集中的目標;所述粗采集模塊,用于對已標注的原始數(shù)據(jù)集進行粗采集,得到正樣本集和負樣本集;所述目標檢測器生成模塊,用于利用正樣本集和負樣本集進行訓(xùn)練,得到目標檢測器;所述精采集模塊,用于利用目標檢測器對原始數(shù)據(jù)集進行精采集,更新正樣本集和負樣本集;所述迭代控制模塊,用于判斷正樣本集中樣本數(shù)量是否達到預(yù)設(shè)數(shù)量或檢測器性能是否達到預(yù)設(shè)標準,如果未達到控制目標檢測器生成模塊和精采集模塊迭代,直至滿足預(yù)設(shè)數(shù)量或預(yù)設(shè)標準。
[0064]所述標注模塊I對目標在原始數(shù)據(jù)集中出現(xiàn)的時間和位置進行標注,將目標信息保存在標注文檔中。
[0065]所述粗采集模塊2包括第一切割單元21和第二切割單元22:所述第一切割單元21,用于從已標注的原始數(shù)據(jù)集中切割目標,得到的正樣本形成一次正樣本集;所述第二切割單元22,用于從原始數(shù)據(jù)集中切割不含目標的圖片作為負樣本集。
[0066]所述精采集模塊4包括檢測單元41、第三切割單元42和第四切割單元43 ;所述檢測單元41,利用檢測器對原始數(shù)據(jù)集進行檢測;所述第三切割單元42,用于將原始數(shù)據(jù)集中檢測到的目標切割下來,更新正樣本集;所述第四切割單元43,從原始數(shù)據(jù)集中切割不含目標的圖片,更新負樣本集。
[0067]所述精采集模塊4還包括排序單元44和監(jiān)督單元45 ;所述排序單元44,用于在檢測器對原始數(shù)據(jù)集進行檢測過程中,為所有得到的目標打分,并按分數(shù)高低進行排序;所述監(jiān)督單元45,用于將原始數(shù)據(jù)集中檢測到的目標切割下來得到檢測所得正樣本集,檢測所述檢測所得正樣本集中是否存在分數(shù)低于閾值的樣本,如果存在,將其作為負樣本移入負樣本集,剩下的分數(shù)高于閾值的樣本即為正樣本,用于更新正樣本集,否則直接用檢測所得正樣本集更新正樣本集。
[0068]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種基于分級迭代的大規(guī)模圖像樣本標注方法,其特征在于,包括如下步驟: 步驟1,利用半自動軟件工具標注原始數(shù)據(jù)集中的目標; 步驟2,對已標注的原始數(shù)據(jù)集進行粗采集,得到正樣本集和負樣本集; 步驟3,利用正樣本集和負樣本集進行訓(xùn)練,得到目標檢測器; 步驟4,利用目標檢測器對原始數(shù)據(jù)集進行精采集,更新正樣本集和負樣本集; 步驟5,判斷正樣本集中的樣本數(shù)量是否達到預(yù)設(shè)數(shù)量或檢測器性能是否達到預(yù)設(shè)標準,如果未達到,返回步驟3,否則結(jié)束迭代。
2.根據(jù)權(quán)利要求1所述一種基于分級迭代的大規(guī)模圖像樣本標注方法,其特征在于,步驟I對目標在原始數(shù)據(jù)集中出現(xiàn)的時間和位置進行標注,將目標信息保存在標注文檔中。
3.根據(jù)權(quán)利要求1所述一種基于分級迭代的大規(guī)模圖像樣本標注方法,其特征在于,步驟2中對已標注的原始數(shù)據(jù)集進行粗采集,得到正樣本集和負樣本集的具體操作為: 步驟2.1,從已標注的原始數(shù)據(jù)集中切割目標,得到的正樣本形成一次正樣本集; 步驟2.2,從原始數(shù)據(jù)集中切割不含目標的圖片作為負樣本集。
4.根據(jù)權(quán)利要求1所述一種基于分級迭代的大規(guī)模圖像樣本標注方法,其特征在于,步驟4中利用目標檢測器對原始數(shù)據(jù)集進行精采集,更新正樣本集和負樣本集的具體操作為: 步驟4.1,利用檢測器對原始數(shù)據(jù)集進行檢測; 步驟4.2,將原始數(shù)據(jù)集中檢測到的目標切割下來,更新正樣本集; 步驟4.3,從原始數(shù)據(jù)集中切割不含目標的圖片,更新負樣本集。
5.根據(jù)權(quán)利要求4所述一種基于分級迭代的大規(guī)模圖像樣本標注方法,其特征在于,還包括利用檢測器對原始數(shù)據(jù)集進行檢測過程中,為所有得到的目標打分,并按分數(shù)高低進行排序;步驟4.2中將原始數(shù)據(jù)集中檢測到的目標切割下來得到檢測所得正樣本集,檢測所述檢測所得正樣本集中是否存在分數(shù)低于閾值的樣本,如果存在,將其作為負樣本移入負樣本集,剩下的分數(shù)高于閾值的樣本即為正樣本,用于更新正樣本集,否則直接用檢測所得正樣本集更新正樣本集。
6.一種基于分級迭代的大規(guī)模圖像樣本標注系統(tǒng),其特征在于,包括標注模塊、粗采集模塊、目標檢測器生成模塊、精采集模塊和迭代控制模塊; 所述標注模塊,用于利用半自動軟件工具標注原始數(shù)據(jù)集中的目標; 所述粗采集模塊,用于對已標注的原始數(shù)據(jù)集進行粗采集,得到正樣本集和負樣本集; 所述目標檢測器生成模塊,用于利用正樣本集和負樣本集進行訓(xùn)練,得到目標檢測器; 所述精采集模塊,用于利用目標檢測器對原始數(shù)據(jù)集進行精采集,更新正樣本集和負樣本集; 所述迭代控制模塊,用于判斷正樣本集中樣本數(shù)量是否達到預(yù)設(shè)數(shù)量或檢測器性能是否達到預(yù)設(shè)標準,如果未達到控制目標檢測器生成模塊和精采集模塊迭代,直至滿足預(yù)設(shè)數(shù)量或預(yù)設(shè)標準。
7.根據(jù)權(quán)利要求6所述一種基于分級迭代的大規(guī)模圖像樣本標注系統(tǒng),其特征在于,所述標注模塊對目標在原始數(shù)據(jù)集中出現(xiàn)的時間和位置進行標注,將目標信息保存在標注文檔中。
8.根據(jù)權(quán)利要求6所述一種基于分級迭代的大規(guī)模圖像樣本標注系統(tǒng),其特征在于,所述粗采集模塊包括第一切割單元和第二切割單元: 所述第一切割單元,用于從已標注的原始數(shù)據(jù)集中切割目標,得到的正樣本形成一次正樣本集; 所述第二切割單元,用于從原始數(shù)據(jù)集中切割不含目標的圖片作為負樣本集。
9.根據(jù)權(quán)利要求6所述一種基于分級迭代的大規(guī)模圖像樣本標注系統(tǒng),其特征在于,所述精采集模塊包括檢測單元、第三切割單元和第四切割單元; 所述檢測單元,利用檢測器對原始數(shù)據(jù)集進行檢測; 所述第三切割單元,用于將原始數(shù)據(jù)集中檢測到的目標切割下來,更新正樣本集; 所述第四切割單元,從原始數(shù)據(jù)集中切割不含目標的圖片,更新負樣本集。
10.根據(jù)權(quán)利要求9所述一種基于分級迭代的大規(guī)模圖像樣本標注系統(tǒng),其特征在于,所述精采集模塊還包括排序單元和監(jiān)督單元; 所述排序單元,用于在檢測器對原始數(shù)據(jù)集進行檢測過程中,為所有得到的目標打分,并按分數(shù)高低進行排序; 所述監(jiān)督單元,用于將原始數(shù)據(jù)集中檢測到的目標切割下來得到檢測所得正樣本集,檢測所述檢測所得正樣本集中是否存在分數(shù)低于閾值的樣本,如果存在,將其作為負樣本移入負樣本集,剩下的分數(shù)高于閾值的樣本即為正樣本,用于更新正樣本集,否則直接用檢測所得正樣本集更新正樣本集。
【專利摘要】本發(fā)明涉及一種基于分級迭代的大規(guī)模圖像樣本標注方法及系統(tǒng),所述方法包括:利用半自動軟件工具標注原始數(shù)據(jù)集中的目標;對已標注的原始數(shù)據(jù)集進行粗采集,得到正樣本集和負樣本集;利用正樣本集和負樣本集進行訓(xùn)練,得到目標檢測器;利用目標檢測器對原始數(shù)據(jù)集進行精采集,更新正樣本集和負樣本集;判斷正樣本集中的樣本數(shù)量是否達到預(yù)設(shè)數(shù)量或檢測器性能是否達到預(yù)設(shè)標準,如果未達到,利用更新的正樣本集和負樣本集重新訓(xùn)練目標檢測器,迭代精采集過程,否則結(jié)束迭代。本發(fā)明利用軟件工具使得標注工作更快速更高效,整個過程不但提高了標注和采集的速度,節(jié)省了人力成本,通過粗采集和精采集的結(jié)合提高了樣本的精確性。
【IPC分類】G06K9-00
【公開號】CN104850832
【申請?zhí)枴緾N201510226393
【發(fā)明人】葛仕明, 杜豐宇, 解凱旋, 楊睿, 孫利民
【申請人】中國科學(xué)院信息工程研究所
【公開日】2015年8月19日
【申請日】2015年5月6日