一種多分類器聯(lián)合的弱標(biāo)注圖像對(duì)象檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像處理、計(jì)算機(jī)視覺技術(shù)領(lǐng)域,是一種多分類器聯(lián)合的弱標(biāo)注圖像 對(duì)象檢測(cè)方法。
【背景技術(shù)】
[0002] 1、基于弱標(biāo)注的對(duì)象檢測(cè)技術(shù)主要考慮如何利用簡(jiǎn)單標(biāo)注信息和大量的未標(biāo)注 樣本進(jìn)行訓(xùn)練和分類的問題,在低成本的基礎(chǔ)上能夠更好的利用大量的數(shù)據(jù)獲得相對(duì)較好 的識(shí)別效果。在2010年,Alexe等人提出了圖像對(duì)象性的概念,利用顯著前景分析等方法 在沒有任何標(biāo)注的圖像上提取可能包含對(duì)象的區(qū)域,該方法綜合考慮了顏色對(duì)比度(Color Contrast),邊緣密度(EdgeDensity)以及超像素跨度(SuperpixelsStraddling)。
[0003] 在2012年Thomas等人提出了一種基于屬性知識(shí)的弱監(jiān)督學(xué)習(xí)和定位方法,該 方法首先提供一些經(jīng)過弱標(biāo)注的圖片,物體定位信息并沒有給出,弱監(jiān)督學(xué)習(xí)需要學(xué)習(xí) 一個(gè)物體類別模型,可以被用來決定一張測(cè)試圖片是否包含一個(gè)類別甚至將其定位出來 (binding-box)。方法中的定位模型是一個(gè)稠密的CRF模型。其中每個(gè)訓(xùn)練圖片都是一個(gè) 節(jié)點(diǎn),節(jié)點(diǎn)空間大小足以包含圖片內(nèi)的窗口集。其中的單點(diǎn)勢(shì)能(unarypotential)測(cè)量 的是一個(gè)窗口包含一個(gè)種類物體的可能性,而對(duì)于成對(duì)點(diǎn)勢(shì)能(pairwisepotential)則是 表示兩個(gè)窗口是否包含同一未知類別的物體。方法同時(shí)通過學(xué)習(xí)一種特殊顯示模型對(duì)物體 進(jìn)行定位,并且在不同的數(shù)據(jù)集上進(jìn)行了測(cè)試,證明了對(duì)于許多類別具有通用性?;谌鯓?biāo) 注的對(duì)象檢測(cè)技術(shù)在大規(guī)模圖像數(shù)據(jù)處理方面有相當(dāng)廣泛的用途,但在對(duì)弱標(biāo)注樣本的進(jìn) 行分析時(shí),樣本噪聲信息會(huì)極大的影響最終的檢測(cè)效果。
[0004] 2、聚類假設(shè)是弱監(jiān)督學(xué)習(xí)中使用的基本方法,聚類假設(shè)是指樣本數(shù)據(jù)的特征距離 較近時(shí),樣本就越可能屬于同一類別,處在相同聚類(cluster)中的示例有較大的可能擁 有相同的標(biāo)記。1967年,JamesMacQuee提出了k-means算法,給定一組觀測(cè)數(shù)據(jù)(xl,x2,… ,xn),其中每個(gè)觀測(cè)數(shù)據(jù)以d維的向量表示,k-means算法的目的是將n個(gè)觀測(cè)值劃分為k 個(gè)類別:s= {S,,S,,…,SJ。k-means算法的公式如下:
[0005]
[0006] 根據(jù)聚類假設(shè),決策邊界就應(yīng)該盡量通過數(shù)據(jù)較為稀疏的地方,從而避免把稠密 的聚類中的數(shù)據(jù)點(diǎn)分到?jīng)Q策邊界兩側(cè)。在這一假設(shè)下,大量未標(biāo)記示例的作用就是幫助探 明示例空間中數(shù)據(jù)分布的稠密和稀疏區(qū)域,從而指導(dǎo)學(xué)習(xí)算法對(duì)利用有標(biāo)記示例學(xué)習(xí)到的 決策邊界進(jìn)行調(diào)整,使其盡量通過數(shù)據(jù)分布的稀疏區(qū)域。
[0007] 3、TF_IDF是一種統(tǒng)計(jì)方法,用以評(píng)估字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中 一份文件的重要程度。1983年,Salton等人在關(guān)于文本檢索技術(shù)的著作中,提出了TF-IDF 的準(zhǔn)則,表明字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語 料庫中出現(xiàn)的頻率成反比下降。TF-IDF的主要思想是:如果某個(gè)詞或短語在一篇文章中出 現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能 力,適合用來分類。詞頻(termfrequency,TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的 頻率。逆向文件頻率(inversedocumentfrequency,IDF)是一個(gè)詞語普遍重要性的度量。 在多分類器聯(lián)合的弱監(jiān)督檢測(cè)方法中,我們假設(shè)兩兩分類器具有相似性度量,依據(jù)TF-IDF 的概念,我們通過定義某一分類器和類內(nèi)分類器之間的相似性度量,可計(jì)算任一分類器的 類別獨(dú)一性和類別無關(guān)性。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的是提出了一種多分類器聯(lián)合的弱標(biāo)注圖像對(duì)象檢測(cè)方法,這種方法 在標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集上有良好的表現(xiàn)。
[0009] 為完成本發(fā)明的目的,本發(fā)明采用的技術(shù)方案是:
[0010] 一種多分類器聯(lián)合的弱標(biāo)注圖像對(duì)象檢測(cè)方法,其中,包括如下步驟:
[0011] 步驟(1),圖片集預(yù)處理:輸入包含M個(gè)類別標(biāo)簽的弱標(biāo)注的圖像數(shù)據(jù)集,進(jìn)行對(duì) 象性分析得到對(duì)象性區(qū)域集(boxproposals):給定弱標(biāo)注圖片集,包含M個(gè)類別,每個(gè)類 別標(biāo)簽定義為L(zhǎng)= {Li,L2,. ..,LJ(i= 1,2,. . .,M),對(duì)其中的所有圖片進(jìn)行對(duì)象性分析,生 成圖片數(shù)目百倍數(shù)量級(jí)的圖片區(qū)域塊集合。對(duì)于每個(gè)弱標(biāo)注訓(xùn)練集,僅有圖像集合類別的 標(biāo)注標(biāo)簽,而缺乏對(duì)圖像內(nèi)部對(duì)象位置的標(biāo)注信息。
[0012] 步驟(2),生成區(qū)域特征,依據(jù)不同類別標(biāo)簽進(jìn)行特征聚類:對(duì)每個(gè)區(qū)域塊,我們 使用ImageNet數(shù)據(jù)集訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,抽取神經(jīng)網(wǎng)絡(luò)模型的fc7層的特征(4096 維)作為代表特征。
[0013]步驟(3),根據(jù)聚類結(jié)果,對(duì)每個(gè)對(duì)象性區(qū)域集訓(xùn)練中層區(qū)域分類器,每個(gè)集合得 到數(shù)個(gè)聚類中心以及對(duì)所有區(qū)域特征的聚類結(jié)果,并根據(jù)聚類結(jié)果將所有的區(qū)域分為不 同的集合。根據(jù)之前的聚類結(jié)果,對(duì)上述每個(gè)類別集合分別訓(xùn)練線性SVM分類器,得到 f-1 個(gè)圖像中層區(qū)域分類器。每個(gè)中層分類器的訓(xùn)練時(shí)使表這個(gè)區(qū)域特征集的全部特征作為正 樣本,而使用其他特征集合內(nèi)隨即挑選的特征作為負(fù)樣本,在具體訓(xùn)練過程中,我們利用10 次10折交叉驗(yàn)證(10_f〇ldcrossvalidation)建立較為可靠穩(wěn)定的模型。
[0014]步驟(4),計(jì)算每個(gè)中層區(qū)域分類器類別屬性:每個(gè)分類器分別計(jì)算與其他分類 器的相關(guān)性,由此得到分類器的類別獨(dú)一性(category-specificattribute)以及類別無 關(guān)性(category-irrelevantattribute)。對(duì)于多分類器的相關(guān)性,根據(jù)多分類器分析結(jié) 果,需要計(jì)算分類器之間的相似性對(duì)輸入圖片進(jìn)行聯(lián)合分析與檢測(cè)。在計(jì)算分類器的相似 性時(shí),我們首先需要估計(jì)兩個(gè)聚類集合之間的相似性:首先在驗(yàn)證集合validation集合上 生成對(duì)象性檢測(cè)區(qū)域。然后利用每個(gè)中層分類器在validationset上進(jìn)行檢測(cè),依據(jù)可 信度對(duì)測(cè)試結(jié)果進(jìn)行由大到小排序,排序編號(hào)進(jìn)行記為P(i,k),取前Tr個(gè)可信度最高的區(qū) 域,比對(duì)其重合度,重合度的計(jì)算式如下所示:
[0015]
[0016] 其中P(i,k)表示第i個(gè)分類器在第k個(gè)類別上的測(cè)試結(jié)果,M表示類別的總 個(gè)數(shù)。在計(jì)算分類器的相似性后,分別可以由類內(nèi)相似度和類內(nèi)相似度的計(jì)算得到第 i個(gè)分類器的類別獨(dú)一性T(i) (category-specificattribute)以及類別無關(guān)性D(i) (category-irrelevantattribute)。將第i個(gè)的分類器所在的類別集合記為gy貝lj有:
[0017]
[0018]
[0019]N(i,gl)表示i個(gè)分類器在自身所在類別內(nèi)的鄰接分類器集合,T(i)是集合 N(i,gl)內(nèi)的第i個(gè)分類器的類別獨(dú)一性,Tc表示集合內(nèi)分類器個(gè)數(shù)。N(i,k) (k辛gl)表 示j個(gè)分類器在除自身所在類別外,其余類別集合的鄰接分類器集。D(i)是第i個(gè)分類器 的類別無關(guān)性。T(i)表示一個(gè)分類器在類內(nèi)的共通性,擁有較大T(i)的分類器有較大的類 內(nèi)相似度,可以被認(rèn)為能更好的代表這個(gè)類別的特征。D(i)表示一個(gè)分類器在不同類別之 間的共通性,擁有較大D(i)的分類器有較大的類間相似度,可以被認(rèn)為是更能表現(xiàn)不同類 別物體中的相同場(chǎng)景區(qū)域特征,例如一些常見的背景。
[0020] 步驟(5),根據(jù)多分類器聯(lián)合分析結(jié)果,得到聯(lián)合檢測(cè)器,對(duì)測(cè)試圖片集合(test set)進(jìn)行聯(lián)合分析與檢測(cè)。對(duì)輸入的測(cè)試圖像同樣進(jìn)行對(duì)象性分析并得到區(qū)域塊,并生成 對(duì)應(yīng)的特征。然后我們利用多分類器屬性分析結(jié)果進(jìn)行相對(duì)應(yīng)的聯(lián)合測(cè)試,檢測(cè)得分的計(jì) 算式:
[0021]
[0022] 式中,T⑴是區(qū)域R在第i個(gè)分類器上的檢測(cè)得分,T(i),D(i)可以被認(rèn)為是第個(gè) 分類器的詞頻屬性和逆向文件頻率屬性。最終的得分可被認(rèn)為是用有該類別獨(dú)有的特征而 排除了類間共同特征。得分項(xiàng)F(R)計(jì)算方式:
[0023]F(R) =F0 (R) + 入? 〇 (R)
[0024] 其中為了改善聯(lián)合檢測(cè)的效果,我們?cè)诘梅猪?xiàng)中添加對(duì)象性估計(jì)項(xiàng)o(R),從而更 好的改善得分估計(jì)效果,其中A是〇到1的值,加入A可有效調(diào)節(jié)原始得分項(xiàng)的比例,使 得對(duì)于物體的識(shí)別性能達(dá)到最佳。最終結(jié)果選取排名最靠前的區(qū)域作為檢測(cè)結(jié)果。
【附圖說明】
[0025] 圖1是本發(fā)明的流程圖;
[0026] 圖2是本發(fā)明對(duì)于正負(fù)分類器協(xié)同檢測(cè)直觀示意圖;
[0027] 圖3是本發(fā)明中