本發(fā)明涉及圖像處理,具體涉及一種基于區(qū)域語義信息引導(dǎo)的多模態(tài)圖像特征匹配的方法。
背景技術(shù):
1、多模態(tài)圖像數(shù)據(jù)間的特征匹配技術(shù)在很多方面都有廣泛的應(yīng)用場景,包括視覺定位、運動結(jié)構(gòu)(sfm)、全球測繪等,以往的主流研究是基于檢測器的兩階段局部特征匹配方法,常見步驟包括:特征檢測、描述符提取和特征匹配,然而,基于檢測器的方法依賴于特征點檢測器的結(jié)果,這在一定程度上導(dǎo)致了有效性的缺失,導(dǎo)致模型匹配效率不高。為彌補這一缺陷,近年來的研究逐漸將先進的圖像處理技術(shù)融入特征匹配流程。目前主流圖像匹配方法以匹配流程為依據(jù)可以分為兩個主要方案:基于檢測器的圖像匹配方法和無檢測器的圖像匹配方法。以參與匹配的像素數(shù)量來分可以分為稀疏匹配,半密集匹配和密集匹配。其中稀疏匹配大多使用基于檢測器的方法,而半密集匹配和密集匹配則大多采用的是無檢測器的方法。
2、雖然這些方法在圖像匹配的諸多任務(wù)中已經(jīng)取得了不錯的成果,但是它們也存在著許多待解決的問題,例如:這類方法在圖片對的所有像素間匹配,缺乏明確的語義信息指導(dǎo),容易出現(xiàn)跨種類匹配、這類方法單純從像素層面提取信息產(chǎn)生描述符,所生成的描述符信息并不豐富,雖然有些工作做了改進,融合了部分語義信息和流信息,但還有很多其他信息(特別是圖片之間的信息)可以融合以提高描述符的豐富性。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于區(qū)域語義信息引導(dǎo)的多模態(tài)圖像特征匹配方法,生成豐富的特征描述符,并具備基于區(qū)域語義引導(dǎo)的匹配能力,使匹配結(jié)果集中在語義共視區(qū)域,提升了匹配的精度,解決了上述技術(shù)問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于區(qū)域語義信息引導(dǎo)的多模態(tài)圖像特征匹配的方法,包括以下步驟:
3、s1、對輸入的多模態(tài)圖像數(shù)據(jù)集使用數(shù)據(jù)增強技術(shù),并取出一組圖像對作為輸入;
4、所述對輸入的多模態(tài)圖像數(shù)據(jù)集使用數(shù)據(jù)增強技術(shù),并取出一組圖像對作為輸入的具體過程為:對多模態(tài)圖像使用旋轉(zhuǎn)、鏡像翻轉(zhuǎn)、裁剪、縮放的方式進行數(shù)據(jù)增強以及擴充數(shù)據(jù)集,并從擴充的數(shù)據(jù)集中取出一組圖像對作為輸入,使用特征提取融合模塊對數(shù)據(jù)增強后的圖像對進行初步特征提取得到特征圖,同時執(zhí)行全局池化操作,提取具有不同語義的區(qū)域信息用于后續(xù)操作;
5、所述初步特征提取包括以下步驟:
6、s1.1、將參與匹配的兩張圖像輸入特征提取骨干網(wǎng)絡(luò)中,進行分塊,并添加位置編碼,輸出初步提取的特征圖;
7、s1.2、將初步提取的特征圖輸入四組神經(jīng)網(wǎng)絡(luò)模塊,分別輸出參與匹配的兩張圖像的1/2,1/8,1/16級別分辨率的原始特征圖;
8、s1.3、將參與匹配的兩張圖像輸出的1/16分辨率的原始特征圖下采樣至1/32分辨率的特征圖,用于進行異圖鄰域像素信息融合;
9、s1.4、選取參與匹配的兩張圖像輸出的1/8分辨率的原始特征圖,并將參與匹配的兩張圖像的1/16分辨率的原始特征圖上采樣得到的1/8分辨率特征圖,并將1/8分辨率的原始特征圖和上采樣得到的1/8分辨率特征圖進行通道拼接,作為相似性信息融合模塊的輸入;
10、s1.5、選取參與匹配的兩張圖像輸出的1/2分辨率的原始特征圖,并將參與匹配的兩張圖像的1/8分辨率的原始特征圖上采樣得到的1/2分辨率特征圖,并將1/2分辨率的原始特征圖和上采樣得到的1/2分辨率特征圖進行通道拼接,作為細(xì)匹配模塊的輸入;
11、s1.6、將下采樣得到的1/32分辨率的特征圖進行全局池化,并輸出進入特征提取融合模塊,提取具有不同語義的區(qū)域信息用于后續(xù)操作;
12、所述特征提取融合模塊(fpn)架構(gòu)中包含了多次上采樣和下采樣操作,其中包括多個神經(jīng)網(wǎng)絡(luò)層模塊(swin?transformer?block)、用于進行分塊操作(patch?partition)的模塊、用于添加位置編碼(position?encoding)的模塊、用于上采樣(up?sampling)的模塊、用于下采樣(down?sampling)的模塊、用于合并區(qū)塊(patch?mer?ging)的模塊、用于全局池化(avgpool)的模塊;其中,分塊操作(patch?partition)的模塊將像素進行分塊、即每2*2的相鄰像素為一個分割部分(patch),然后在通道方向上展平,通過線性編碼層對每個像素的通道數(shù)據(jù)做線性變換;合并區(qū)塊(patch?merging)會將每相鄰的2*2范圍的像素合并為一個分割部分(patch),然后將每個patch中相同位置的像素拼接在一起;
13、所述神經(jīng)網(wǎng)絡(luò)層模塊(swin?transformer?block)由一個基于滑動窗口的多頭自注意力模塊規(guī)和一個激活函數(shù)和兩層全連接神經(jīng)網(wǎng)絡(luò)組成;上采樣(up?sampling)模塊和下采樣(down?sampling)模塊由一個雙線性插值函數(shù)和一層卷積核大小為1*1的卷積層組成;全局池化(avgpool)模塊由一個全局池化函數(shù)組成,用于提取局部區(qū)域語義信息;通過輸入兩個原始圖片數(shù)據(jù)經(jīng)過fpn架構(gòu)完成初步的特征提取,并生成1/8粗特張圖和1/2細(xì)特征圖,以及n個區(qū)域語義信息向量;
14、s2、將經(jīng)過數(shù)據(jù)增強技術(shù)處理后的圖像對輸入到異圖像素融合模塊進行異圖領(lǐng)域像素信息提取并融合,輸出兩張融合異圖匹配點鄰域像素信息的特征圖,具體步驟如下:
15、s2.1、將1/8分辨率的原始特征圖和上采樣得到的1/8分辨率特征圖輸入相似性信息融合模塊后,進行相似性計算得到相似性結(jié)果,具體表達(dá)式如下:
16、設(shè)1/8分辨率的原始特征圖為a圖,上采樣得到的1/8分辨率特征圖為b圖,得到如下表達(dá)式:
17、
18、則相似性結(jié)果為:
19、
20、式中,r代表向量域,h1/8,w1/8是圖片的高和寬分別為原始圖片的1/8,cm是1/8分辨率的原始特征圖的像素的維度,similarity代表第一張圖的每個像素點和第二張圖的每個像素點的相似性結(jié)果,其中,中第一個(h1/8×w1/8)是a圖的像素點的數(shù)量,第二個(h1/8×w1/8)是b圖的像素點的數(shù)量;
21、s2.2、將輸出的相似性結(jié)果中,a圖的每個像素點和b圖的每個像素點交換位置,得到b圖的每個像素點和a圖的每個像素點的相似性結(jié)果;
22、s2.3、將輸入相似性信息融合模塊后得到相似性結(jié)果與經(jīng)過像素點位置交換得到的相似性結(jié)果分別沿通道方向拼接,得到兩張(h1/8×w1/8)*cm形狀的特征圖,所述通道方向是指像素點的向量維度;
23、s2.4、將經(jīng)過相似性信息融合模塊得到兩張(h1/8×w1/8)*cm形狀的特征圖用于后續(xù)操作;
24、s3、將經(jīng)過數(shù)據(jù)增強技術(shù)處理后的圖像輸入到異圖像素融合模塊進行異圖領(lǐng)域像素信息提取并融合,輸出兩張融合異圖匹配點鄰域像素信息的特征圖,具體步驟如下:
25、s3.1、將兩張下采樣至1/32分辨率的特征圖作為輸入,設(shè)輸入的圖片對分別為c圖與d圖,逐像素計算c圖與d圖的像素點相似性,記輸入的c,d圖為:
26、
27、則相似性結(jié)果為:
28、
29、式中,r代表向量域,h1/32,w1/32是圖片的高和寬分別為原始圖片的1/32,cs是1/32分辨率的特征圖的像素的維度,similarity代表第一張圖的每個像素點和第二張圖的每個像素點的相似性結(jié)果,中第一個(h1/32×w1/32)是c圖的像素的數(shù)量,第二個(h1/32×w1/32)是d圖的像素點的數(shù)量;
30、s3.2、將相似性結(jié)果經(jīng)過固定窗口大小裁剪,具體表達(dá)式如下:
31、
32、式中,k為固定窗口大小,unfold_feature為裁剪后的圖片塊組;
33、s3.3、將裁剪后的圖片塊組,送入異圖像素融合模塊,進行相似性計算得到每個像素點和周圍固定窗口大小范圍內(nèi)的像素點的相似性;
34、s3.4、將異圖像素融合模塊計算得出的固定窗口大小范圍內(nèi)的像素點的相似性為權(quán)重并聚合周圍像素的信息,得到聚合周圍像素信息的特征圖;
35、s3.5、根據(jù)c圖與d圖的每個像素點的相似性結(jié)果,從聚合周圍像素信息的特征圖中找到對應(yīng)的匹配點進行融合,然后執(zhí)行降維操作進行像素信息融合,得到用于后續(xù)處理的特征圖,所述融合方式采取的是拼接特征圖的維度;
36、s4、將融合異圖匹配點鄰域像素信息的特征圖與融合異圖匹配點鄰域像素信息的特征圖進行融合,輸出兩張用于粗匹配的特征圖,具體步驟如下:
37、s4.1、對經(jīng)過異圖像素信息聚合模塊和相似性信息融合模塊后的特征圖選取信息融合方式,選擇沿著特征圖的通道方向進行拼接;
38、s4.2、按照沿著特征圖的通道方向進行拼接的方式對輸出的特征圖進行信息融合;
39、s5、將粗匹配的特征圖輸入基于區(qū)域語義引導(dǎo)匹配模塊,將特征圖中的像素劃分到具有不同語義的區(qū)域中,在每個區(qū)域內(nèi)進行像素匹配,同時融合多級匹配信息得到粗匹配結(jié)果,所述像素指特征圖的每一個元素,具體步驟如下:
40、s5.1、將輸出的粗匹配的特征圖以及經(jīng)過特征提取融合模塊提取的具有不同語義信息送入基于區(qū)域語義引導(dǎo)匹配模塊,記輸入的特征圖為e圖和f圖;
41、s5.2、區(qū)域語義信息先和特征圖做交叉注意力融合特征圖的信息,使得區(qū)域語義信息融合特征圖的相關(guān)信息;
42、即使得區(qū)域語義信息具有語義代表性;
43、s5.3、將輸出的粗匹配的特征圖和區(qū)域語義信息做交叉注意力去融合區(qū)域語義的信息,使特征圖融合區(qū)域語義信息,以保證像素劃分的準(zhǔn)確性,再輸出融合特征圖信息的區(qū)域語義信息和融合語義信息的特征圖;
44、s5.4、將融合特征圖信息的區(qū)域語義信息和融合語義信息的特征圖計算相似性得分;
45、s5.5、根據(jù)相似性得分,將像素點劃分到不同的區(qū)域內(nèi),將劃分在同一的區(qū)域的e圖像素點和f圖像素點做相似性計算,得到e圖像素點和f圖像素點的相似性信息;
46、s5.6、將a,b圖與c,d圖的相似性結(jié)果和e、f圖的相似性結(jié)果進行融合,并基于融合后的相似性結(jié)果進行匹配點的篩選得到粗匹配結(jié)果;
47、s6、將粗匹配結(jié)果進行細(xì)化,得到細(xì)化匹配結(jié)果;
48、s6.1、將1/2分辨率的原始特征圖和上采樣得到的1/2分辨率特征圖作為粗匹配輸入,記1/2分辨率的原始特征圖為h圖,上采樣得到的1/2分辨率特征圖為i圖,根據(jù)粗匹配結(jié)果在h圖對應(yīng)的細(xì)粒度特征圖,即1/2分辨率的特征圖找到匹配點,在i圖對應(yīng)的細(xì)粒度特征圖周圍以窗口大小進行裁剪,得到裁剪后的特征圖塊;
49、在窗口內(nèi),再次應(yīng)用自注意力和交叉注意力操作,然后將i與j周圍窗口大小的像素計算相似度,其中,i代表的是粗匹配結(jié)果中匹配點對的第一個點在h圖的映射,j代表的是粗匹配結(jié)果點對中的第二個點在i圖的映射;
50、選擇最相似的作為匹配點,進一步細(xì)化匹配點的精度和準(zhǔn)確性;
51、s6.2、將h圖的細(xì)粒度特征圖中參與細(xì)匹配的點與對應(yīng)i圖的細(xì)粒度特征圖的匹配點周圍固定窗口大小范圍內(nèi)的像素點進行相似性計算,篩選出最佳匹配點,輸出最終細(xì)化匹配結(jié)果。
52、最后,將可以得到細(xì)化匹配結(jié)果的模型進行訓(xùn)練與測試,并將多模態(tài)圖片對輸出到訓(xùn)練好的模型中進行匹配,匹配結(jié)果可用于諸如圖像檢索、目標(biāo)跟蹤、物體識別等多種場景,為用戶提供了準(zhǔn)確、高效的服務(wù)和支持。
53、本發(fā)明的有益效果
54、本發(fā)明通過在特征提取融合階段融合區(qū)域語義信息和圖片對的相似性信息以及異圖對應(yīng)匹配點的鄰域像素信息以豐富特征描述符,在匹配階段使用了一種區(qū)域語義信息引導(dǎo)進行匹配的方法以增強匹配效果。并在多種多模態(tài)數(shù)據(jù)集上有非常好的泛化性,具有很高的實用價值,此外,在運用此方法實施特征匹配時,只需要將匹配的數(shù)據(jù)集輸入訓(xùn)練好的深度學(xué)習(xí)網(wǎng)絡(luò)中,即可全自動的進行特征匹配。
55、和現(xiàn)有技術(shù)相比,經(jīng)過設(shè)計的圖像特征提取模塊和相似性信息融合模塊以及異圖鄰域像素信息融合模塊,本方法對圖像的特征提取更充分,使得圖片的特征描述符可以很好的表示像素,同時本發(fā)明中涉及到的區(qū)域語義信息引導(dǎo)進行匹配可以對像素賦予區(qū)域語義信息,可以有效的過濾掉錯誤匹配的點,可以達(dá)到更好的匹配效果。