本發(fā)明涉及計算機視覺,尤其是一種多尺度特征聚合與語義引導的零樣本異常檢測方法。
背景技術(shù):
1、在自動化工業(yè)質(zhì)量控制領(lǐng)域,異常檢測技術(shù)對于提升制造效率和產(chǎn)品可靠性至關(guān)重要。這一技術(shù)廣泛應用于航空航天、汽車、制藥及電子等多個工業(yè)領(lǐng)域,其中涉及對象及其缺陷的多樣性極大,具體包括顏色、紋理、尺寸等多維度的變化。
2、目前,傳統(tǒng)的異常檢測技術(shù)主要依賴針對特定任務定制的模型,通過對特定模型進行訓練才能取得較好的異常檢測結(jié)果,其所需的樣本數(shù)據(jù)量較大,訓練效率較低,且在少樣本場景下的精度較低,可拓展性不高。
3、因此,現(xiàn)有技術(shù)存在的問題還亟需解決和優(yōu)化。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于至少一定程度上解決相關(guān)技術(shù)中存在的技術(shù)問題之一。
2、為此,本發(fā)明實施例的一個目的在于提供一種多尺度特征聚合與語義引導的零樣本異常檢測方法,該方法可以有效降低模型訓練時所需的樣本數(shù)據(jù)量和提高模型訓練效率的同時,提高模型對少樣本場景下的檢測精度,可拓展性較高。
3、為了達到上述技術(shù)目的,本技術(shù)實施例所采取的技術(shù)方案包括:
4、第一方面,本技術(shù)實施例提供了一種多尺度特征聚合與語義引導的零樣本異常檢測方法,包括:
5、獲取待檢測的視覺圖像;
6、將所述視覺圖像輸入至訓練好的異常圖像檢測模型中,得到圖像檢測結(jié)果;
7、其中,所述訓練好的異常圖像檢測模型通過以下步驟得到:
8、獲取圖像數(shù)據(jù)集,以及預設(shè)的文本提示模板和預設(shè)的圖像參考集;
9、對所述圖像數(shù)據(jù)集進行預處理,得到圖像訓練集,以及對所述文本提示模板進行文本特征提取,得到文本類別特征;
10、對所述圖像訓練集進行多尺度窗口特征提取,得到第一圖像特征集,以及對所述圖像參考集進行多尺度窗口特征提取,得到第二圖像特征集;
11、根據(jù)所述文本類別特征,對所述第一圖像特征集進行多尺度語義對齊,得到語義引導預測表示;
12、根據(jù)所述第二圖像特征集,對所述第一圖像特征集進行多尺度相似度聚合,得到異常分割預測表示;
13、根據(jù)所述語義引導預測表示和所述異常分割預測表示,對初始化的異常圖像檢測模型進行參數(shù)更新,得到訓練好的異常圖像檢測模型。
14、另外,根據(jù)本技術(shù)上述實施例的多尺度特征聚合與語義引導的零樣本異常檢測方法,還可以具有以下附加的技術(shù)特征:
15、進一步地,在本技術(shù)的一個實施例中,所述對所述圖像數(shù)據(jù)集進行預處理,得到圖像訓練集,包括:
16、對所述圖像數(shù)據(jù)集進行特征縮放,得到圖像縮放集;
17、對所述圖像縮放集進行插值調(diào)整,得到所述圖像訓練集。
18、進一步地,在本技術(shù)的一個實施例中,所述對所述文本提示模板進行文本特征提取,得到文本類別特征,包括:
19、獲取文本提示學習器;
20、基于所述文本提示學習器,對文本提示模板進行文本學習,得到文本表征信息,所述文本表征信息用于表征與對象語義無關(guān)的特征信息;
21、對所述文本表征信息進行文本提取,得到所述文本類別特征。
22、進一步地,在本技術(shù)的一個實施例中,對目標數(shù)據(jù)集進行多尺度窗口特征提取,得到目標特征集,包括:
23、獲取預設(shè)的若干個滑動窗口,每個所述滑動窗口的激活區(qū)域的大小不同;
24、根據(jù)所有的所述滑動窗口,對所述目標數(shù)據(jù)集中的每個目標圖像進行窗口映射,得到所述目標特征集,所述目標特征集用于表征與所述目標數(shù)據(jù)集中的每個目標圖像對應的不同尺度的窗口特征圖;
25、其中,所述目標數(shù)據(jù)集為圖像訓練集或圖像參考集。
26、進一步地,在本技術(shù)的一個實施例中,所述根據(jù)所述文本類別特征,對所述第一圖像特征集進行多尺度語義對齊,得到語義引導預測表示,包括:
27、根據(jù)所述文本類別特征,對所述第一圖像特征集進行類別對齊,得到類別對齊后的文本特征和類別對齊后的第一圖像特征集;
28、根據(jù)所述類別對齊后的文本特征,對所述類別對齊后的第一圖像特征集進行矩陣相乘,得到不同尺度的異常窗口分數(shù);
29、對所述異常窗口分數(shù)進行和諧平均聚合,得到所述語義引導預測表示。
30、進一步地,在本技術(shù)的一個實施例中,所述根據(jù)所述第二圖像特征集,對所述第一圖像特征集進行多尺度相似度聚合,得到異常分割預測表示,包括:
31、根據(jù)所述第一圖像特征集,得到不同尺度的第一窗口特征圖,以及根據(jù)所述第二圖像特征集,得到不同尺度的第二窗口特征圖;
32、根據(jù)所述第二窗口特征圖,對對應尺度的所述第一窗口特征圖進行相似度計算,得到窗口特征相似度;
33、整合所述窗口特征相似度,得到所述異常分割預測表示。
34、進一步地,在本技術(shù)的一個實施例中,所述根據(jù)所述語義引導預測表示和所述異常分割預測表示,對初始化的異常圖像檢測模型進行參數(shù)更新,得到訓練好的異常圖像檢測模型,包括:
35、根據(jù)所述異常分割預測表示,對所述語義引導預測表示進行樣本拓展,得到少樣本異常得分圖;
36、根據(jù)所述少樣本異常得分圖,對所述初始化的異常圖像檢測模型的參數(shù)進行更新,得到所述訓練好的異常圖像檢測模型。
37、第二方面,本技術(shù)實施例提供了一種多尺度特征聚合與語義引導的零樣本異常檢測系統(tǒng),包括:
38、獲取模塊,用于獲取待檢測的視覺圖像;
39、處理模塊,用于將所述視覺圖像輸入至訓練好的異常圖像檢測模型中,得到圖像檢測結(jié)果;
40、其中,所述訓練好的異常圖像檢測模型通過以下步驟得到:
41、獲取圖像數(shù)據(jù)集,以及預設(shè)的文本提示模板和預設(shè)的圖像參考集;
42、對所述圖像數(shù)據(jù)集進行預處理,得到圖像訓練集,以及對所述文本提示模板進行文本特征提取,得到文本類別特征;
43、對所述圖像訓練集進行多尺度窗口特征提取,得到第一圖像特征集,以及對所述圖像參考集進行多尺度窗口特征提取,得到第二圖像特征集;
44、根據(jù)所述文本類別特征,對所述第一圖像特征集進行多尺度語義對齊,得到語義引導預測表示;
45、根據(jù)所述第二圖像特征集,對所述第一圖像特征集進行多尺度相似度聚合,得到異常分割預測表示;
46、根據(jù)所述語義引導預測表示和所述異常分割預測表示,對初始化的異常圖像檢測模型進行參數(shù)更新,得到訓練好的異常圖像檢測模型。
47、第三方面,本技術(shù)實施例還提供了一種電子設(shè)備,包括:
48、至少一個處理器;
49、至少一個存儲器,用于存儲至少一個程序;
50、當所述至少一個程序被所述至少一個處理器執(zhí)行,使得所述至少一個處理器實現(xiàn)上述第一方面的方法。
51、第四方面,本技術(shù)實施例還提供了一種計算機可讀存儲介質(zhì),其中存儲有處理器可執(zhí)行的程序,所述處理器可執(zhí)行的程序在由所述處理器執(zhí)行時用于實現(xiàn)上述第一方面的方法。
52、本技術(shù)的優(yōu)點和有益效果將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術(shù)的實踐了解到:
53、本技術(shù)實施例所公開的一種多尺度特征聚合與語義引導的零樣本異常檢測方法,其中,該檢測方法通過獲取待檢測的視覺圖像;將所述視覺圖像輸入至訓練好的異常圖像檢測模型中,得到圖像檢測結(jié)果;其中,所述訓練好的異常圖像檢測模型通過以下步驟得到:獲取圖像數(shù)據(jù)集,以及預設(shè)的文本提示模板和預設(shè)的圖像參考集;對所述圖像數(shù)據(jù)集進行預處理,得到圖像訓練集,以及對所述文本提示模板進行文本特征提取,得到文本類別特征;對所述圖像訓練集進行多尺度窗口特征提取,得到第一圖像特征集,以及對所述圖像參考集進行多尺度窗口特征提取,得到第二圖像特征集;根據(jù)所述文本類別特征,對所述第一圖像特征集進行多尺度語義對齊,得到語義引導預測表示;根據(jù)所述第二圖像特征集,對所述第一圖像特征集進行多尺度相似度聚合,得到異常分割預測表示;根據(jù)所述語義引導預測表示和所述異常分割預測表示,對初始化的異常圖像檢測模型進行參數(shù)更新,得到訓練好的異常圖像檢測模型。該檢測方法基于多尺度語義對齊,提取到圖像視覺特征與語言描述緊密對齊的語義引導預測表示,從而實現(xiàn)無標簽標注及零樣本條件下的異常分割檢測,其可以有效降低模型訓練所需的樣本數(shù)據(jù)量,提高訓練效率及可拓展性。另外,該檢測方法還基于異常分割預測表示和異常分割預測表示,有效整合正常參考圖像的直觀視覺信息與語言驅(qū)動的預測優(yōu)勢,有效提高少樣本場景下的檢測精度。