本發(fā)明屬于深度學習、計算機視覺領域,具體涉及一種基于偽標簽的半監(jiān)督目標檢測方法。
背景技術:
1、隨著計算機視覺技術的快速發(fā)展,目標檢測作為其中的一個重要任務,廣泛應用于自動駕駛、視頻監(jiān)控、醫(yī)療影像分析等領域。然而,傳統(tǒng)的目標檢測方法通常需要大量的標注數據來訓練模型,這些數據的收集、標注過程既耗時又昂貴。在實際應用中,往往只有有限數量的標注數據,而大量數據則是未標注的。因此,如何在有限的標注數據下,利用大量未標注數據提高目標檢測的準確性,成為了一個重要的研究問題。
2、為了研究這一問題,半監(jiān)督目標檢測應運而生。它旨在通過融合少量的標注數據和大量的未標注數據,來訓練出性能優(yōu)越的目標檢測模型。在這一框架下,研究者們提出了多種技術方法,如偽標簽生成、一致性正則化等,以充分利用未標注數據中的信息。偽標簽技術通過已訓練的模型對未標注數據進行預測,生成偽標簽作為監(jiān)督信號;而一致性正則化則通過要求模型對未標注數據在不同變換下保持預測一致性,來增強模型的魯棒性和泛化能力。半監(jiān)督目標檢測不僅降低了對標注數據的依賴,還顯著提高了模型的訓練效率和性能,為實際應用提供了更加經濟、高效的解決方案。隨著技術的不斷進步,半監(jiān)督目標檢測有望在更多領域發(fā)揮重要作用,推動計算機視覺技術的進一步發(fā)展。
技術實現思路
1、本發(fā)明為了解決偽標簽質量不高導致的目標檢測精度低的問題,提出了一種基于偽標簽的半監(jiān)督目標檢測方法。針對偽標簽生成的不確定性、篩選困難的特點,該方法在不利用人工標注的前提下,通過數據增強的方式優(yōu)化用于訓練神經網絡的未標記數據集,利用深度網絡對偽標簽進行處理。本發(fā)明所要解決的技術問題主要有兩個,一是大量的未標記數據缺乏明確的監(jiān)督信息,提取信息的難度大大增加;二是利用未標記數據預測生成的偽標簽的可靠性受模型的性能限制,可能存在錯誤或誤導性導致模型性能差。
2、針對問題一,本發(fā)明對未標記數據分別使用強弱數據增強方法,擴充數據集并提高模型的泛化能力,增加模型的訓練樣本并降低過擬合的風險;針對問題二,本發(fā)明設計了一種新的注意力機制,對輸入的未標記數據進行空間變換使模型更好捕捉關健特征,然后對特征進行自適應的重校準以增強重要特征的表達,引入了自適應特征池化模塊融入到特征融合中,獲取所有特征層的信息以提高模型對未標記數據的訓練,融合低層次特征并縮短信息路徑來提高定位精度。本發(fā)明采用的技術方案如下:
3、一種基于未標記的半監(jiān)督目標檢測方法,包括以下步驟:
4、步驟一、獲取半監(jiān)督目標檢測數據集,其中,半監(jiān)督目標檢測數據集包括有標注數據集和未標簽數據集。
5、步驟二、在有標注數據集上按照全監(jiān)督目標檢測的方法,對于每個輸入樣本,通過模型預測樣本的標注,使之與真實值盡可能保持一致,通過損失函數訓練得到student模型,并復制一個teacher模型。
6、步驟三、對未標注數據進行弱數據增強,包括旋轉、翻轉、縮放、裁剪、顏色變換、高斯噪聲、高斯模糊,送入到teacher模型,經過特征提取特征融合輸出預測結果,經過改進的非極大值抑值,得到偽標簽。
7、步驟四、對偽標簽和未標注數據集進行強數據增強,包括幾何變換、像素級變換,訓練student模型。
8、步驟五、基于teacher模型,產生的一致性損失記為無監(jiān)督損失,基于student模型有監(jiān)督訓練,產生的損失記為有監(jiān)督損失,相加和為總體損失。
9、步驟六、student模型基于總體損失反向傳播更新自身參數,teacher模型基于student模型通過指數移動平均更新自身權重參數。
10、具體的:
11、步驟一所述的包括收集圖像信息,建立半監(jiān)督目標檢測數據集;其中,部分圖像數據做完全精確的標定框標注,該部分圖像數據在所收集的所有圖像數據的比例不超過20%;
12、步驟二所述的目標檢測網絡包括:使用特征提網絡提取圖像特征,其中特征特征提取網絡選擇resnet-50;使用特征融合網絡對特征做進一步增強操作,其中特征融合網絡選擇fpn;選擇rpn作候選區(qū)域的生成和初步分類和邊界框回歸;選擇rol?align作特征的對齊和固定尺寸的輸出;優(yōu)化損失函數將輸出的預測結果與標注信息盡可能保持一致;
13、步驟三所述的對未標記數據進行弱數據增強處理,所使用的弱數據增強方法包括旋轉、翻轉、縮放、裁剪、顏色變換、高斯噪聲、高斯模糊;其中,旋轉是指將圖像圍繞其中心點旋轉一定的角度;翻轉包括將圖像沿垂直軸的水平翻轉和沿水平軸的垂直翻轉;縮放是調整圖像的寬度和高度來改變圖像的尺寸;裁剪是從原始圖像中隨機選取一部分區(qū)域作為新的圖像樣本;顏色變換是調整圖像的亮度、對比度、飽和度以模擬不同光照條件下的圖像變化;高斯噪聲是指圖像像素值的波動圍繞某個均值展開并隨均值距離的增加而逐漸減少;高斯模糊是通過對圖像的每個像素點及其領域內的像素值進行加權平均來模糊圖像。;
14、步驟三所述的將弱數據增強后的未標記數據送到teacher模型中,在resnet-50特征提取網絡中的殘差模塊加入stn模塊,通過特有的空間變換對提取的特征進一步加工以增強特征的表示能力,緩解數據中的噪聲和干擾,抑制不重要或冗余的信息;在stn模塊中融入senet模塊,進一步增強網絡對關鍵特征的敏感度,使得重要特征得到更多關注,從而提高特征的表示質量;
15、步驟三所述的將弱數據增強后的未標記數據送到teacher模型中,在fpn特征金字塔網絡中,添加自適應特征池化模塊,將具有豐富細節(jié)信息的淺層特征圖和具有更強語義信息的深層特征圖相組合,以更準確的檢測不同尺度的目標;
16、步驟三所述的將弱數據增強后的未標記數據送到teacher模型中,輸出的預測結果經過nms得到偽標簽,使用lou-guided?nms代替普通的nms,優(yōu)先考慮定位精度較高的框以此來消除因分類分類置信度誤導而產生的錯誤,引入lou預測分支靈活處理不同場景下的檢測任務;
17、步驟四所述的將步驟三得到的偽標簽與未標記的數據進行強數據增強處理,所使用的強數據增強方法包括幾何變換、色彩變換、圖像混合與合成、噪聲與遮擋、區(qū)域裁剪與填充;其中,幾何變換是指隨機或固定角度將圖像旋轉、水平翻轉和垂直翻轉、對圖像進行水平或垂直平移、改變圖像的尺度、對圖像應用更復雜的變換;色彩變換包括亮度調整、對比度調整、飽和度調整、顏色抖動;圖像混合與合成包括將多張圖像按一定比例混合的圖像混合、將多張圖像拼接在一起的圖像拼接、對于小目標檢測的復制粘貼;噪聲與遮擋包括在圖像中添加隨機的高斯噪聲和椒鹽噪聲等、在圖像中隨機遮擋部分區(qū)域;區(qū)域裁剪與填充是指隨機裁剪圖像的一部分并用隨機值、背景或其他圖像內容進行填充裁剪區(qū)域;
18、步驟五所述的將有標注數據訓練student模型的交叉熵損失記為有監(jiān)督損失,將未標記數據訓練teacher模型得到偽標簽的一致性損失記為無監(jiān)督損失,在訓練過程中同時計算監(jiān)督損失和無監(jiān)督損失,并根據超參數對兩者進行加權求和得到最終的損失函數;
19、步驟六所述的student模型的參數是通過反向傳播算法進行更新,以最小化監(jiān)督損失和無監(jiān)督損失的加權和;teacher模型的參數是student模型參數的加權平均值,權重隨時間呈指數衰減。
20、本發(fā)明有益效果:
21、首先,本發(fā)明利用數據增強方法對數據進行預處理,從有限的標記數據學到更多特征表示,更好利用未標記數據中的信息,可以提高模型的泛化能力并降低過擬合的風險。其次,本發(fā)明設計了一種新的注意力機制添加到特征提取模塊中,自適應調整輸入特征的空間布局并增強了對關鍵特征的關注,從而提升模型對不同位置和尺度的檢測能力。再次,本發(fā)明在特征融合模塊中融入自適應特征池化模塊,可以融合所有特征層次中的信息以生成更加豐富和具有表現力的特征表示,通過利用低層次的特征信息彌補高層次在定位方面的不足并且縮短了底層到頂層的信息路徑。然后,本發(fā)明在一致性損失上采取lou-guidednms代替普通的nms,根據lou的大小對檢測框的置信度進行衰減從而提高召回率,消除因分類置信度誤導而導致的錯誤機制以提高目標檢測的準確性。最后,本發(fā)明無需人工對未標注數據進行標注,成本較低。