本發(fā)明屬于計(jì)算機(jī)科學(xué)和自動(dòng)駕駛,具體涉及一種基于可變形卷積和偽標(biāo)簽選擇的uda(unsupervised?domain?adaptation,無監(jiān)督領(lǐng)域自適應(yīng))語義分割方法、裝置和電子設(shè)備。
背景技術(shù):
1、語義分割是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù),其核心是實(shí)現(xiàn)圖像的像素級(jí)分類,被廣泛應(yīng)用于自動(dòng)駕駛、醫(yī)療影像分析、遙感圖像處理領(lǐng)域。例如,在自動(dòng)駕駛中,語義分割技術(shù)被用于識(shí)別道路標(biāo)記、車輛、行人,以幫助車輛安全導(dǎo)航。目前基于深度學(xué)習(xí)的語義分割方法迅速發(fā)展,這些工作往往需要大量的標(biāo)注數(shù)據(jù),但標(biāo)注數(shù)據(jù)的獲取是非常困難的,尤其對(duì)于語義分割這種需要密集型數(shù)據(jù)標(biāo)注的任務(wù)。以自動(dòng)駕駛數(shù)據(jù)集cityscapes為例,標(biāo)注一張圖像平均需要1.5小時(shí),更甚者在惡劣的天氣狀況下,平均需要3.3小時(shí)。為解決需要獲取大量標(biāo)注數(shù)據(jù)的問題,一些工作使用合成數(shù)據(jù)集訓(xùn)練模型,但合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集之間存在一定的域偏移,在合成數(shù)據(jù)集上訓(xùn)練的模型往往在真實(shí)數(shù)據(jù)集中達(dá)不到預(yù)期效果。因此,研究者們開始采用無監(jiān)督領(lǐng)域自適應(yīng)(uda)技術(shù),緩解域偏移問題,通常使用對(duì)抗訓(xùn)練或自訓(xùn)練將合成數(shù)據(jù)集訓(xùn)練的模型遷移到真實(shí)數(shù)據(jù)集中。
2、但是,現(xiàn)有技術(shù)的uda語義分割方法存在以下問題:(1)依賴于語義分割框架:傳統(tǒng)方法往往依賴于已有的語義分割框架,沒有對(duì)uda任務(wù)設(shè)計(jì)特定任務(wù)的解碼器。(2)源域和目標(biāo)域間的域差異:大多數(shù)基于對(duì)抗訓(xùn)練的思想減小源域和目標(biāo)域的間的域差異,但對(duì)抗訓(xùn)練不穩(wěn)定,應(yīng)該設(shè)計(jì)新的縮小域差異方案。(3)圖像混合中混合像素的選取沒有選擇高質(zhì)量的偽標(biāo)簽。因此,本發(fā)明提出特定任務(wù)解碼器、特征一致性和偽標(biāo)簽選擇器來解決上述問題。因此,開發(fā)一種能夠?qū)崟r(shí)預(yù)測(cè)真實(shí)場(chǎng)景語義分割的系統(tǒng)變得尤為重要和必要。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷,提供一種基于可變形卷積和偽標(biāo)簽選擇的uda語義分割方法、裝置和電子設(shè)備,能夠解決傳統(tǒng)的uda語義分割方法存在的問題:(1)依賴于語義分割框架:傳統(tǒng)方法往往依賴于已有的語義分割框架,沒有對(duì)uda任務(wù)設(shè)計(jì)特定任務(wù)的解碼器。(2)源域和目標(biāo)域間的域差異:大多數(shù)基于對(duì)抗訓(xùn)練的思想減小源域和目標(biāo)域的間的域差異,但對(duì)抗訓(xùn)練不穩(wěn)定,應(yīng)該設(shè)計(jì)新的縮小域差異方案。(3)圖像混合中混合像素的選取沒有選擇高質(zhì)量的偽標(biāo)簽。本發(fā)明通過精細(xì)的特征處理、一致性約束以及偽標(biāo)簽篩選策略,有效提高了無監(jiān)督領(lǐng)域自適應(yīng)場(chǎng)景下語義分割任務(wù)的準(zhǔn)確性和魯棒性。
2、為解決上述技術(shù)問題,本發(fā)明采用以下技術(shù)方案。
3、本發(fā)明的一種基于可變形卷積和偽標(biāo)簽選擇的uda語義分割方法,構(gòu)建一個(gè)包含特定任務(wù)解碼器、特征一致性模塊和偽標(biāo)簽選擇器的網(wǎng)絡(luò)框架,所述方法包括以下步驟:
4、步驟1、特定任務(wù)解碼器將來自編碼器的不同尺度特征作為輸入,通過一個(gè)并行的可變形卷積和普通卷積得到并行特征,然后將并行特征輸入遞歸卷積生成具有豐富上下文信息的融合特征,最后將該融合特征映射為語義分割預(yù)測(cè)圖;
5、所述的特定任務(wù)解碼器包括一個(gè)可變形卷積、一個(gè)普通卷積和一個(gè)遞歸卷積;特定任務(wù)解碼器的輸入為編碼器得到的源域圖像或混合域圖像對(duì)應(yīng)的不同尺度特征,特定任務(wù)解碼器的輸出為源域圖像或混合域圖像的語義分割預(yù)測(cè)圖;
6、步驟2、特征一致性模塊對(duì)特定任務(wù)解碼器中可變形卷積和普通卷積的輸出特征計(jì)算一致性,減小兩者的差距以適應(yīng)uda語義分割任務(wù);
7、特征一致性模塊包括一個(gè)基于2范數(shù)和frobenius范數(shù)的度量方法;
8、步驟3、偽標(biāo)簽選擇器得到語義分割模型生成的偽標(biāo)簽,通過類級(jí)偽標(biāo)簽規(guī)則評(píng)價(jià)器和類級(jí)偽標(biāo)簽質(zhì)量評(píng)估器得到偽標(biāo)簽中規(guī)則的和高質(zhì)量的類;即:類級(jí)偽標(biāo)簽規(guī)則評(píng)價(jià)器計(jì)算源域標(biāo)簽和目標(biāo)域偽標(biāo)簽間同類物體的輪廓特征,排除偽標(biāo)簽中不規(guī)則的類,類級(jí)偽標(biāo)簽質(zhì)量評(píng)估器計(jì)算目標(biāo)域圖像和偽標(biāo)簽間的圖像質(zhì)量,排除偽標(biāo)簽中低質(zhì)量的類,最后將偽標(biāo)簽中規(guī)則和高質(zhì)量的類區(qū)域與源域圖像混合,生成混合域圖像和標(biāo)簽;
9、偽標(biāo)簽選擇器包括一個(gè)類級(jí)偽標(biāo)簽規(guī)則評(píng)價(jià)器和一個(gè)類級(jí)偽標(biāo)簽質(zhì)量評(píng)估器;
10、偽標(biāo)簽選擇器的輸入為源域圖像標(biāo)簽、目標(biāo)域圖像和目標(biāo)域偽標(biāo)簽,輸出為混合域圖像和混合域標(biāo)簽。
11、具體的,所述步驟1的過程包括:
12、所述的編碼器對(duì)輸入源域圖像進(jìn)行特征提取,得到不同尺度的特征f;使用segformer提供的基于transformer的編碼器mit;mit首先將圖像劃分為hw/4×4個(gè)大小為4×4×c的補(bǔ)丁,劃分的補(bǔ)丁經(jīng)過四個(gè)階段分別得到四個(gè)尺寸遞減、通道遞增的特征i={1,2,3,4};編碼器的四個(gè)階段的過程,其每個(gè)階段均包括多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),以進(jìn)行特征提取,并且前一階段的輸出作為后一階段的輸入;
13、特定任務(wù)解碼器將編碼得到的多尺度特征進(jìn)行聚合,通過一個(gè)并行的可變形卷積和普通卷積得到并行特征,然后將并行特征輸入遞歸卷積生成具有豐富上下文信息的融合特征,設(shè)計(jì)的遞歸卷積通過多次遞歸,模型可以逐步捕捉到不同像素之間的高階空間交互關(guān)系,遞歸卷積通過三次空間交互,使用復(fù)雜的卷積操作和特征圖劃分,實(shí)現(xiàn)對(duì)圖像特征的有效提取和建模能力的提升,每一階空間交互過程為,遞歸卷積首先將圖像的通道數(shù)升高,然后對(duì)特征圖按照通道進(jìn)行1:7劃分,并經(jīng)過深度卷積處理,保持通道數(shù)不變,然后,特征圖按照1:2:4被再次劃分,并與之前的特征圖進(jìn)行點(diǎn)乘和卷積操作;依次實(shí)現(xiàn)一階空間交互、二階和三階空間交互的過程不僅擴(kuò)大了通道數(shù),還增強(qiáng)了特征的表達(dá),以進(jìn)一步提升網(wǎng)絡(luò)的建模能力;經(jīng)過三次空間交互,最終遞歸卷積能夠輸出與輸入通道數(shù)一致的特征圖,實(shí)現(xiàn)了對(duì)圖像特征的深層次提取和建模,從而提高了網(wǎng)絡(luò)的性能;
14、最后將融合特征映射為語義分割預(yù)測(cè)圖;使用交叉熵?fù)p失訓(xùn)練語義分割模型,定義如下:
15、
16、其中,表示第i張?jiān)从驁D像,h,w表示圖像尺寸,c表示類別數(shù)量,表示中類別為c的像素,表示中像素為j的標(biāo)簽,gθ表示語義分割模型。
17、具體的,所述步驟2的過程包括:
18、所述的特征一致性模塊采用2范數(shù)和frobenius范數(shù)作為度量標(biāo)準(zhǔn),從而有效地評(píng)估兩種卷積輸出特征之間的差異,幫助模塊更準(zhǔn)確地計(jì)算源域圖像特定任務(wù)解碼器中可變形卷積特征fsdconv和普通卷積特征fdconv之間的一致性,定義如下:
19、
20、其中,||·||2表示對(duì)h、w維度求2范數(shù),||·||f表示frobenius范數(shù),λf表示特征一致性超參數(shù);通過優(yōu)化一致性,模塊能夠提升解碼器在uda語義分割任務(wù)中的性能,使其更好地適應(yīng)不同域之間的數(shù)據(jù)分布差異。
21、具體的,所述步驟3的過程包括:
22、uda任務(wù)中自訓(xùn)練的關(guān)鍵是生成高質(zhì)量目標(biāo)域偽標(biāo)簽,使用學(xué)生-教師模型生成偽標(biāo)簽,學(xué)生模型和教師模型有同樣的結(jié)構(gòu),將gθ作為學(xué)生模型,用gθ參數(shù)的指數(shù)移動(dòng)平均值更新教師模型gφ的參數(shù),定義如下:
23、φt←αφt-1+(1-α)θt
24、其中,θt指第t輪訓(xùn)練后gθ的參數(shù),φt表示前t輪的加權(quán)平均值,代表教師模型的參數(shù),α指加權(quán)權(quán)重;并使用教師模型生成高質(zhì)量的偽標(biāo)簽;
25、所述的偽標(biāo)簽選擇器通過生成的偽標(biāo)簽來輔助模型的訓(xùn)練過程,包括:偽標(biāo)簽選擇器利用類級(jí)偽標(biāo)簽規(guī)則評(píng)價(jià)器和類級(jí)偽標(biāo)簽質(zhì)量評(píng)估器對(duì)生成的偽標(biāo)簽進(jìn)行篩選;類級(jí)偽標(biāo)簽規(guī)則評(píng)價(jià)器負(fù)責(zé)計(jì)算源域標(biāo)簽與目標(biāo)域偽標(biāo)簽間同類物體的輪廓特征,以排除偽標(biāo)簽中不規(guī)則的類;而類級(jí)偽標(biāo)簽質(zhì)量評(píng)估器則計(jì)算目標(biāo)域圖像與偽標(biāo)簽間的圖像質(zhì)量,排除低質(zhì)量的類;最終,選擇器將偽標(biāo)簽中規(guī)則和高質(zhì)量的類區(qū)域與源域圖像混合,生成混合域圖像和標(biāo)簽以進(jìn)一步提升語義分割模型的性能;同樣,使用交叉熵?fù)p失訓(xùn)練混合域圖像,定義如下:
26、
27、其中,qi表示偽標(biāo)簽置信度參數(shù),源域像素對(duì)應(yīng)的值為1,目標(biāo)域像素對(duì)應(yīng)的值為預(yù)測(cè)標(biāo)簽最大softmax超過閾值τ的比率,定義如下:
28、
29、最后對(duì)混合域圖像計(jì)算特定任務(wù)解碼器中可變形卷積特征fmdconv和普通卷積特征fmconv之間的一致性,定義如下:
30、
31、本發(fā)明的一種基于可變形卷積和偽標(biāo)簽選擇的uda語義分割裝置,包括:
32、語義分割模塊,用于使用特定任務(wù)解碼器將來自編碼器的不同尺度特征作為輸入,通過一個(gè)并行的可變形卷積和普通卷積得到并行特征,然后將并行特征輸入遞歸卷積生成具有豐富上下文信息的融合特征,最后將該融合特征映射為語義分割預(yù)測(cè)圖;其中,特定任務(wù)解碼器包括一個(gè)可變形卷積、一個(gè)普通卷積和一個(gè)遞歸卷積;特定任務(wù)解碼器的輸入為編碼器得到的源域圖像或混合域圖像對(duì)應(yīng)的不同尺度特征,特定任務(wù)解碼器的輸出為源域圖像或混合域圖像的語義分割預(yù)測(cè)圖;
33、特征一致性模塊,用于特征一致性模塊對(duì)特定任務(wù)解碼器中可變形卷積和普通卷積的輸出特征計(jì)算一致性,減小兩者的差距以適應(yīng)uda語義分割任務(wù);其中,特征一致性模塊包括一個(gè)基于2范數(shù)和frobenius范數(shù)的度量方法;
34、偽標(biāo)簽選擇模塊,用于偽標(biāo)簽選擇器得到語義分割模型生成的偽標(biāo)簽,通過類級(jí)偽標(biāo)簽規(guī)則評(píng)價(jià)器和類級(jí)偽標(biāo)簽質(zhì)量評(píng)估器得到偽標(biāo)簽中規(guī)則的和高質(zhì)量的類;即:類級(jí)偽標(biāo)簽規(guī)則評(píng)價(jià)器計(jì)算源域標(biāo)簽和目標(biāo)域偽標(biāo)簽間同類物體的輪廓特征,排除偽標(biāo)簽中不規(guī)則的類,類級(jí)偽標(biāo)簽質(zhì)量評(píng)估器計(jì)算目標(biāo)域圖像和偽標(biāo)簽間的圖像質(zhì)量,排除偽標(biāo)簽中低質(zhì)量的類,最后將偽標(biāo)簽中規(guī)則和高質(zhì)量的類區(qū)域與源域圖像混合,生成混合域圖像和標(biāo)簽;其中,偽標(biāo)簽選擇器包括一個(gè)類級(jí)偽標(biāo)簽規(guī)則評(píng)價(jià)器和一個(gè)類級(jí)偽標(biāo)簽質(zhì)量評(píng)估器;偽標(biāo)簽選擇器的輸入為源域圖像標(biāo)簽、目標(biāo)域圖像和目標(biāo)域偽標(biāo)簽,輸出為混合域圖像和混合域標(biāo)簽。
35、本發(fā)明的一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)可執(zhí)行的指令,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至4任一項(xiàng)所述的基于可變形卷積和偽標(biāo)簽選擇的uda語義分割方法。
36、本發(fā)明的一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至4任一項(xiàng)所述的基于可變形卷積和偽標(biāo)簽選擇的uda語義分割方法。
37、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)和有益效果:
38、1.本發(fā)明提出了一個(gè)用于uda語義分割的特定任務(wù)解碼器,包括一個(gè)可變形卷積、一個(gè)普通卷積和一個(gè)遞歸卷積,豐富了特征提取的內(nèi)容,提升了模型對(duì)目標(biāo)域的語義分割性能。
39、2.本發(fā)明提出特征一致性模塊來對(duì)齊特定任務(wù)解碼器中可變形卷積和普通卷積的特征,更有利于檢測(cè)相同對(duì)象的邊界變形,減小源域和目標(biāo)域間的域差異,提升uda語義分割指標(biāo)。
40、3.本發(fā)明采用偽標(biāo)簽選擇器尋找偽標(biāo)簽中規(guī)則和高質(zhì)量的類,將其對(duì)應(yīng)像素與源域圖像混合,合理的應(yīng)用偽標(biāo)簽特征,優(yōu)化已有的圖像混合策略,提升模型自訓(xùn)練性能。
41、4.本發(fā)明在uda基準(zhǔn)任務(wù)gta→cityscapes中得到了69.9%的miou。