本發(fā)明涉及神經(jīng)網(wǎng)絡(luò)領(lǐng)域,具體地涉及一種用于確定目標(biāo)語義分割網(wǎng)絡(luò)模型的方法、裝置及處理器。
背景技術(shù):
1、以工業(yè)智能化領(lǐng)域進(jìn)行示例說明,語義分割在工業(yè)智能化領(lǐng)域有著舉足輕重的作用,比如在安全帽檢測、安全帶檢測等項(xiàng)目上,需要更加精確地去識別、分割不同的部分,使得識別更加精確;同時在化工生產(chǎn)實(shí)地場景中,也需要語義分割來實(shí)現(xiàn)更加準(zhǔn)確的監(jiān)控,對于巡檢機(jī)器人來說,有效地對場景進(jìn)行語義分割是實(shí)現(xiàn)后續(xù)功能的基礎(chǔ)。語義分割任務(wù)是對圖像中的每一個像素賦予一個標(biāo)簽,以實(shí)現(xiàn)對圖像內(nèi)容像素級的分類。然而,收集專家標(biāo)記的數(shù)據(jù)集尤其是像素級注釋是一個需要耗費(fèi)極大人力物力的過程,目前常見的解決思路是對源域和目標(biāo)域進(jìn)行域適應(yīng),使得在帶標(biāo)注源域上訓(xùn)練的模型能夠遷移到無標(biāo)注的目標(biāo)域上并取得可接受的分割性能。如上所述,目前對于語義分割的域自適應(yīng)研究,主要是針對單模態(tài)(圖像)的域自適應(yīng),語義分割網(wǎng)絡(luò)模型的分割效果較差。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)存在的不足,本發(fā)明實(shí)施例提供了一種用于確定目標(biāo)語義分割網(wǎng)絡(luò)模型的方法、裝置及處理器。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面提供一種用于確定目標(biāo)語義分割網(wǎng)絡(luò)模型的方法,包括:
3、將第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集輸入至語義分割網(wǎng)絡(luò)模型,得到第一訓(xùn)練數(shù)據(jù)集和所述第二訓(xùn)練數(shù)據(jù)集的語義分割結(jié)果,第一訓(xùn)練數(shù)據(jù)集包括源域2d圖像、源域3d點(diǎn)云數(shù)據(jù)、源域2d圖像的像素級標(biāo)簽和源域3d點(diǎn)云數(shù)據(jù)的逐點(diǎn)級標(biāo)簽,第二訓(xùn)練數(shù)據(jù)集包括目標(biāo)域2d圖像和目標(biāo)域3d點(diǎn)云數(shù)據(jù);
4、將語義分割結(jié)果分別輸入至多個判別器,得到語義分割結(jié)果的多個分類結(jié)果,分類結(jié)果包括屬于2d源域、3d源域、2d目標(biāo)域和3d目標(biāo)域中的任意一個,判別器包括第一判別器、第二判別器、第三判別器和第四判別器中的至少一個,第一判別器用于判斷語義分割結(jié)果屬于2d源域或2d目標(biāo)域,第二判別器用于判斷語義分割結(jié)果屬于3d源域或3d目標(biāo)域,第三判別器用于判斷語義分割結(jié)果屬于2d源域或3d目標(biāo)域,第四判別器用于判斷語義分割結(jié)果屬于3d源域或2d目標(biāo)域;
5、根據(jù)語義分割結(jié)果和分類結(jié)果,語義分割網(wǎng)絡(luò)模型作為生成器分別與多個判別器進(jìn)行對抗訓(xùn)練,得到多個待測試的語義分割網(wǎng)絡(luò)模型;
6、將測試數(shù)據(jù)集輸入至多個待測試的語義分割網(wǎng)絡(luò)模型,得到多個待測試的語義分割網(wǎng)絡(luò)模型各自的測試分割結(jié)果,測試數(shù)據(jù)集包括目標(biāo)域2d圖像、目標(biāo)域3d點(diǎn)云數(shù)據(jù)、目標(biāo)域2d圖像的像素級標(biāo)簽和目標(biāo)域3d點(diǎn)云數(shù)據(jù)的逐點(diǎn)級標(biāo)簽;
7、根據(jù)各自的測試分割結(jié)果確定多個待測試的語義分割網(wǎng)絡(luò)模型中的目標(biāo)語義分割網(wǎng)絡(luò)模型。
8、在本發(fā)明實(shí)施例中,語義分割網(wǎng)絡(luò)模型包括2d語義分割分支和3d語義分割分支,2d語義分割分支包括u-net網(wǎng)絡(luò)、特征提取網(wǎng)絡(luò)和真實(shí)2d分割頭,3d語義分割分支包括空間稀疏卷積神經(jīng)網(wǎng)絡(luò)和真實(shí)3d分割頭;
9、將第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集輸入至語義分割網(wǎng)絡(luò)模型,得到第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集的語義分割結(jié)果包括:
10、將第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集中的2d圖像輸入至u-net網(wǎng)絡(luò),得到密集像素形式的2d圖像,2d圖像包括源域2d圖像和目標(biāo)域2d圖像;
11、將密集像素形式的2d圖像輸入至特征提取網(wǎng)絡(luò),得到2d特征圖;
12、將2d特征圖輸入至真實(shí)2d分割頭,得到2d圖像的語義分割結(jié)果;
13、將第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集輸入至語義分割網(wǎng)絡(luò)模型,得到第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集的語義分割結(jié)果還包括:
14、將第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集中的3d點(diǎn)云數(shù)據(jù)輸入至空間稀疏卷積神經(jīng)網(wǎng)絡(luò),得到稀疏體素形式的3d點(diǎn)云數(shù)據(jù),3d點(diǎn)云數(shù)據(jù)包括源域3d點(diǎn)云數(shù)據(jù)和目標(biāo)域3d點(diǎn)云數(shù)據(jù);
15、將稀疏體素形式的3d點(diǎn)云數(shù)據(jù)輸入至真實(shí)3d分割頭,得到3d點(diǎn)云數(shù)據(jù)的語義分割結(jié)果。
16、在本發(fā)明實(shí)施例中,方法還包括:
17、對3d點(diǎn)云數(shù)據(jù)進(jìn)行投影,得到投影圖像;
18、以投影圖像的大小對2d特征圖進(jìn)行裁剪和特征采樣,得到裁剪后的2d特征圖;
19、將2d特征圖輸入至真實(shí)2d分割頭,得到2d圖像的語義分割結(jié)果包括:
20、將裁剪后的2d特征圖輸入至所述真實(shí)2d分割頭,得到2d圖像的語義分割結(jié)果。
21、在本發(fā)明實(shí)施例中,2d語義分割分支包括模仿3d分割頭,3d語義分割分支包括模仿2d分割頭,方法還包括:
22、將裁剪后的2d特征圖輸入至模仿3d分割頭,得到3d分割預(yù)測結(jié)果;
23、將稀疏體素形式的3d點(diǎn)云數(shù)據(jù)輸入至模仿2d分割頭,得到2d分割預(yù)測結(jié)果;
24、根據(jù)3d分割預(yù)測結(jié)果以及真實(shí)3d分割頭的真實(shí)3d分割結(jié)果的第一分割損失、2d分割預(yù)測結(jié)果和真實(shí)2d分割頭的真實(shí)2d分割結(jié)果的第二分割損失,對模仿3d分割頭、模仿2d分割頭、真實(shí)3d分割頭以及真實(shí)2d分割頭進(jìn)行再訓(xùn)練。
25、在本發(fā)明實(shí)施例中,模仿3d分割頭和真實(shí)3d分割頭的輸出數(shù)據(jù)的尺寸是相同的,模仿2d分割頭和真實(shí)2d分割頭的輸出數(shù)據(jù)的尺寸是相同的。
26、在本發(fā)明實(shí)施例中,多個判別器和多個待測試的語義分割網(wǎng)絡(luò)模型的個數(shù)均為15個。
27、本發(fā)明第二方面提供一種用于確定目標(biāo)語義分割網(wǎng)絡(luò)模型的裝置,裝置包括:
28、第一輸入模塊,用于將第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集輸入至語義分割網(wǎng)絡(luò)模型,得到第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集的語義分割結(jié)果,第一訓(xùn)練數(shù)據(jù)集包括源域2d圖像、源域3d點(diǎn)云數(shù)據(jù)、源域2d圖像的像素級標(biāo)簽和源域3d點(diǎn)云數(shù)據(jù)的逐點(diǎn)級標(biāo)簽,第二訓(xùn)練數(shù)據(jù)集均包括目標(biāo)域2d圖像和目標(biāo)域3d點(diǎn)云數(shù)據(jù);
29、第二輸入模塊,用于將語義分割結(jié)果分別輸入至多個判別器,得到語義分割結(jié)果的多個分類結(jié)果,分類結(jié)果包括屬于2d源域、3d源域、2d目標(biāo)域和3d目標(biāo)域中的任意一個,判別器包括第一判別器、第二判別器、第三判別器和第四判別器中的至少一個,第一判別器用于判斷語義分割結(jié)果屬于2d源域或2d目標(biāo)域,第二判別器用于判斷語義分割結(jié)果屬于3d源域或3d目標(biāo)域,第三判別器用于判斷語義分割結(jié)果屬于2d源域或3d目標(biāo)域,第四判別器用于判斷語義分割結(jié)果屬于3d源域或2d目標(biāo)域;
30、訓(xùn)練模塊,用于根據(jù)語義分割結(jié)果和分類結(jié)果,語義分割網(wǎng)絡(luò)模型作為生成器分別與多個判別器進(jìn)行對抗訓(xùn)練,得到多個待測試的語義分割網(wǎng)絡(luò)模型;
31、第三輸入模塊,用于將測試數(shù)據(jù)集輸入至多個待測試的語義分割網(wǎng)絡(luò)模型,得到多個待測試的語義分割網(wǎng)絡(luò)模型各自的測試分割結(jié)果,測試數(shù)據(jù)集包括目標(biāo)域2d圖像、目標(biāo)域3d點(diǎn)云數(shù)據(jù)、目標(biāo)域2d圖像的像素級標(biāo)簽和目標(biāo)域3d點(diǎn)云數(shù)據(jù)的逐點(diǎn)級標(biāo)簽;
32、確定模塊,用于根據(jù)各自的測試分割結(jié)果確定多個待測試的語義分割網(wǎng)絡(luò)模型中的目標(biāo)語義分割網(wǎng)絡(luò)模型。
33、在本發(fā)明實(shí)施例中,語義分割網(wǎng)絡(luò)模型包括2d語義分割分支和3d語義分割分支,2d語義分割分支包括u-net網(wǎng)絡(luò)、特征提取網(wǎng)絡(luò)和真實(shí)2d分割頭,3d語義分割分支包括空間稀疏卷積神經(jīng)網(wǎng)絡(luò)和真實(shí)3d分割頭;
34、第一輸入模塊包括:
35、第一輸入單元,用于將第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集中的2d圖像輸入至所述u-net網(wǎng)絡(luò),得到密集像素形式的2d圖像,2d圖像包括源域2d圖像和目標(biāo)域2d圖像;
36、第二輸入單元,用于將密集像素形式的2d圖像輸入至特征提取網(wǎng)絡(luò),得到2d特征圖;
37、第三輸入單元,用于將2d特征圖輸入至真實(shí)2d分割頭,得到2d圖像的語義分割結(jié)果;
38、第一輸入模塊還包括:
39、第四輸入單元,用于將第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集中的3d點(diǎn)云數(shù)據(jù)輸入至空間稀疏卷積神經(jīng)網(wǎng)絡(luò),得到稀疏體素形式的3d點(diǎn)云數(shù)據(jù),3d點(diǎn)云數(shù)據(jù)包括源域3d點(diǎn)云數(shù)據(jù)和目標(biāo)域3d點(diǎn)云數(shù)據(jù);
40、第五輸入單元,用于將稀疏體素形式的3d點(diǎn)云數(shù)據(jù)輸入至真實(shí)3d分割頭,得到3d點(diǎn)云數(shù)據(jù)的語義分割結(jié)果。
41、本發(fā)明第三方面提供一種處理器,被配置成執(zhí)行上述的用于確定目標(biāo)語義分割網(wǎng)絡(luò)模型的方法。
42、本發(fā)明第四方面提供一種機(jī)器可讀存儲介質(zhì),該機(jī)器可讀存儲介質(zhì)上存儲有指令,該指令用于使得機(jī)器執(zhí)行上述的用于確定目標(biāo)語義分割網(wǎng)絡(luò)模型的方法。
43、在本發(fā)明實(shí)施例中,采用域自適應(yīng)的技術(shù)手段,不需要去收集目標(biāo)域大量的帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集(即不需要大量的目標(biāo)域2d圖像和目標(biāo)域3d點(diǎn)云數(shù)據(jù)兩者分別對應(yīng)的像素級標(biāo)簽、逐點(diǎn)級標(biāo)簽),利用源域中已有的帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集(即源域2d圖像、源域3d點(diǎn)云數(shù)據(jù)、源域2d圖像的像素級標(biāo)簽和源域3d點(diǎn)云數(shù)據(jù)的逐點(diǎn)級標(biāo)簽),避免了訓(xùn)練數(shù)據(jù)集不足的問題,避免人工重新去標(biāo)注大量的訓(xùn)練數(shù)據(jù)集,從而減輕人工勞動負(fù)擔(dān)。另外,第一訓(xùn)練數(shù)據(jù)集和第二訓(xùn)練數(shù)據(jù)集中既都包括2d圖像,還都包括3d點(diǎn)云數(shù)據(jù),即涉及的是多模態(tài)和跨模態(tài)的模型訓(xùn)練,解決了單模態(tài)在域自適應(yīng)過程中缺乏深度信息的問題,因而可以提升目標(biāo)域的語義分割效果。
44、在本發(fā)明實(shí)施例中,第一判別器用于判斷語義分割結(jié)果屬于2d源域或2d目標(biāo)域,第二判別器用于判斷語義分割結(jié)果屬于3d源域或3d目標(biāo)域,第三判別器用于判斷語義分割結(jié)果屬于2d源域或3d目標(biāo)域,第四判別器用于判斷語義分割結(jié)果屬于3d源域或2d目標(biāo)域??梢允褂玫谝慌袆e器、第二判別器、第三判別器和第四判別器中的其中一個或者多個,這樣總共涉及15種不同類型的判別器形式供選擇,其中既包括單域判別器,還包括跨域判別器。判別器用于判別語義分割結(jié)果所屬的分類結(jié)果(2d源域、3d源域、2d目標(biāo)域或3d目標(biāo)域),生成器用于生成語義分割結(jié)果并加大判別器的判別難度,判別器和生成器在對抗學(xué)習(xí)的過程中共同提升各自的性能,最終提升了對目標(biāo)域的語義分割的準(zhǔn)確度和分割效果。當(dāng)判別器難以判別語義分割結(jié)果所屬的分類結(jié)果且語義分割的測試效果滿足期望時,說明此時網(wǎng)絡(luò)模型已經(jīng)很好地從源域自適應(yīng)到目標(biāo)域,訓(xùn)練出了可以在目標(biāo)域良好適用的網(wǎng)絡(luò)模型。
45、具體地,將測試數(shù)據(jù)集分別輸入至多個(15個)待測試的語義分割網(wǎng)絡(luò)模型,得到多個(15個)待測試的語義分割網(wǎng)絡(luò)模型各自的測試分割結(jié)果(15個),其中測試數(shù)據(jù)集可以為目標(biāo)域的少量帶標(biāo)注數(shù)據(jù),即測試數(shù)據(jù)集包括目標(biāo)域2d圖像、目標(biāo)域3d點(diǎn)云數(shù)據(jù)、目標(biāo)域2d圖像的像素級標(biāo)簽和目標(biāo)域3d點(diǎn)云數(shù)據(jù)的逐點(diǎn)級標(biāo)簽;根據(jù)各自的測試分割結(jié)果確定多個待測試的語義分割網(wǎng)絡(luò)模型中的目標(biāo)語義分割網(wǎng)絡(luò)模型。這樣,最終確定的目標(biāo)語義分割網(wǎng)絡(luò)模型對于目標(biāo)域的語義分割的準(zhǔn)確度和分割效果最好,也能夠更滿足用戶需求。