本發(fā)明涉及計算機雙目視覺和立體匹配領(lǐng)域,具體是一種基于bgnet改進的立體匹配方法。
背景技術(shù):
1、立體匹配在一對經(jīng)過校正的左右圖像中計算像素之間的視差,用于深度估計,是無人機導(dǎo)航、三維重建、自動駕駛等領(lǐng)域的關(guān)鍵技術(shù)。與激光雷達等工具相比,他擁有更低的成本,但是通過雙目視覺來估計深度仍在有很多問題,比如在弱紋理,高反光、遮擋等區(qū)域匹配的結(jié)果表現(xiàn)不佳。
2、目前,基于深度學(xué)習(xí)的雙目立體匹配算法的性能得到了很大的提升,2015年zbontar等設(shè)計了兩種用于圖像塊匹配的網(wǎng)絡(luò)結(jié)構(gòu),即快速結(jié)構(gòu)mc-cnn-fast和精確結(jié)構(gòu)mc-cnn-acc。將注意力放在更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計上,以獲取豐富的語義信息,有效提升了立體匹配的精度。mayer等人首次提出端到端的立體匹配網(wǎng)絡(luò)dispnet,該網(wǎng)絡(luò)直接從雙目圖像中估計出視差圖,大量的研究都基于該結(jié)構(gòu)展開并取得了不錯的結(jié)果。psmnet在特征提取時用空間金字塔池化模塊,使用堆疊的沙漏結(jié)構(gòu)完成成本聚合。cfnet使用融合級聯(lián)成本體的方式提升匹配算法的魯棒性,通過估計級聯(lián)中不同階段的不確定度自適應(yīng)調(diào)整下一階段的視差搜索范圍,提升了精確度。xu等設(shè)計了基于雙邊網(wǎng)格學(xué)習(xí)的代價空間上采樣模塊,提出了一個實時性網(wǎng)絡(luò)bgnet,通過對低分辨率的成本體直接進行上采樣從而省去了大量的時間成本,且保持了相當(dāng)?shù)臏?zhǔn)確度。
3、目前基于深度學(xué)習(xí)的立體匹配算法已經(jīng)在精度上已經(jīng)高于傳統(tǒng)方法,隨著移動端gpu計算平臺的成熟、算力的不斷提高,在邊緣端的實現(xiàn)成為可能,這對模型的輕量化提出了更高的要求。同時,在滿足實時性要求的前提下,如何改善網(wǎng)絡(luò)的性能,增強網(wǎng)絡(luò)對場景的理解能力,提升網(wǎng)絡(luò)匹配的精度,成為了需要解決的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的針對立體匹配現(xiàn)存的問題,提供一個基于bgnet改進的立體匹配方法,本發(fā)明使用的特征提取網(wǎng)絡(luò)融合了更多的語義信息來增強對物體的理解,利用上下文信息來豐富成本體,同時在引導(dǎo)圖的構(gòu)建上,不同層次的特征圖聚合更有效地指導(dǎo)高質(zhì)量成本體的生成,此外,本文增添了視差細(xì)化模塊,用來矯正錯誤估計和遮擋區(qū)域的誤差。
2、為了實現(xiàn)上述技術(shù)的效果,本發(fā)明的技術(shù)方案如下:
3、基于bgnet改進的立體匹配方法,包括以下步驟:
4、步驟1:在特征提取網(wǎng)絡(luò)中輸入原始的左右圖像對,經(jīng)過卷積將圖像分辨率降為原來的1/8。設(shè)計通道增強網(wǎng)絡(luò)提升特征的表達能力,使用亞像素通道信息增強模塊豐富通道信息,并且利用通道注意力引導(dǎo)模塊來處理跨尺度的特征,同時得到多尺度的特征圖;
5、步驟2:構(gòu)建并融合多尺度的成本體。對于步驟1得到的大小為原始圖像1/8,1/16,1/32分辨率的特征圖使用分組相關(guān)的方法構(gòu)建多尺度成本體,將他們?nèi)诤仙纱笮閐/8×h/8×w/8×16的成本體;
6、步驟3:對步驟2得到的成本體進行成本聚合,使用一個3d沙漏結(jié)構(gòu)來正則化成本體。對特征提取部分得到的1/2分辨率的不同層級的特征圖使用不同大小的空洞卷積生成包含綜合信息的引導(dǎo)圖,在引導(dǎo)圖的指導(dǎo)下,使用可學(xué)習(xí)的雙邊網(wǎng)格算法對成本體進行上采樣,得到高分辨率的成本體;
7、步驟4:對步驟3得到的成本體使用視差回歸得到初始的視差圖,在特征空間中重建誤差,通過視差細(xì)化模塊得到相對于初始視差圖的殘差,計算殘差結(jié)果和初始視差的總和,生成最終的立體圖像對的視差圖,整體的框架如圖1所示。
8、進一步地,在步驟1中,通過卷積將圖像分辨率降低到1/8后,繼續(xù)對圖像進行下采樣,使用了類似u-net結(jié)構(gòu)最終得到1/8分辨率的特征圖。在這個結(jié)構(gòu)中,我們使用亞像素卷積代替原有的上采樣操作,對1/32h×1/32w×c大小的特征圖,使用3×3的卷積來提取局部信息,然后使用亞像素卷積進行上采樣。通過shuffling?pixels來增加寬度和高度大小,可以將形狀h×w×c·r2的特征重新排列成rh×rw×c,其公式定義如下
9、p(f)x,y,c=fx/r,y/r,c·r·mod(y,r)+c·mod(x,r)+c
10、其中r表示放大因子,f表示輸入特征,p(f)x,y,c代表在坐標(biāo)(x,y,c)上輸出的特征像素,在最高層次的1/32h×1/32w×c的特征圖上使用亞像素上下文增強模塊。
11、此模塊用于生成積分圖i,首先使用3×3的卷積來提取局部信息,然后使用亞像素卷積進行上采樣。其次進行全局平均池化獲取全局上下文信息,使用1×1卷積對特征進行通道壓縮,再通過逐元素求和的方式融合局部信息和全局上下文信息。
12、進一步地,使用通道注意力引導(dǎo)模塊處理跨尺度的特征,對積分圖i使用全局平均池化和全局最大池化,通過全連接層的處理,最后逐元素求和,使用sigmoid函數(shù)對輸出的特征進行合并,該過程可以表示為:
13、ca(z)=σ(fc1(avgpool(z))+fc2(maxpool(z))),
14、ri=ca(i)⊙pi
15、其中,ca(z)是通道注意力函數(shù),σ是sigmoid函數(shù),i代表不同的尺度層次;
16、通過注意力模塊生處理輸入和輸出的特征圖,左右圖像的特征提取網(wǎng)絡(luò)共享參數(shù),同時保留網(wǎng)絡(luò)中左圖的1/8,1/16,1/32分辨率處的特征用于成本體構(gòu)建。
17、進一步地,在步驟2中,使用步驟1得到的3個尺度的特征圖分別構(gòu)建分組相關(guān)成本體。分組相關(guān)成本體的公式如下:
18、
19、其中,i代表三個不同的尺度,<,>代表內(nèi)積,d是視差值,g是分組的編號,代表特征層的通道數(shù),ng代表劃分特征的組數(shù);
20、使用2個帶有跳躍連接的3d卷積來正則化這三個成本體,利用3d卷積使用編碼器-解碼器的結(jié)構(gòu)融合這三個成本體,得到融合的成本體的大小為1/8h×1/8w×1/8d×16,d的值是192。對得到的分辨率為原圖1/8的成本體使用一個簡單的3d沙漏網(wǎng)絡(luò),完成成本聚合,得到大小為1/8h×1/8w×1/8d×32的低分辨率成本體。
21、進一步地,在步驟3中引導(dǎo)圖的構(gòu)建具體過程如下:
22、在特征提取部分得到的的1/2分辨率的三個層級的特征圖,分別記作f1,f2,f3,它們的通道數(shù)均為32。對于這三個特征圖,分別使用不同空洞率大小的空洞卷積生成三組卷積結(jié)果,然后對這三組特征圖進行組交錯卷積,建立三組之間的依賴關(guān)系,使用自適應(yīng)學(xué)習(xí)的權(quán)重來計算輸出的三組特征,公式如下:
23、
24、其中i=1,2,3,wij是不同特征圖的權(quán)重,并在訓(xùn)練過程中自適應(yīng)學(xué)習(xí),最后通過三個特征圖來生成引導(dǎo)圖g;
25、g=conv1×1(concat{f1,f2,f3})
26、使用兩個1×1卷積,獲得的引導(dǎo)圖g大小為1/2h×1/2w×1。在引導(dǎo)圖的指導(dǎo)下,使用可學(xué)習(xí)的雙邊網(wǎng)格算法對成本體進行上采樣,得到高分辨率的成本體。
27、進一步地,步驟3的可學(xué)習(xí)的雙邊網(wǎng)格算法,使用雙邊網(wǎng)格處理的切片操作,將1/8分辨率處的成本體上采樣到高分辨率,雙邊網(wǎng)格一共4個維度,寬度x,高度y,視差d和引導(dǎo)特征g,其值可以表示為b(x,y,d,g),使用卷積神經(jīng)網(wǎng)絡(luò)創(chuàng)建。在引導(dǎo)圖g的指導(dǎo)下,對四個維度的雙邊網(wǎng)格進行線性插值,切片操作可描述為:
28、ch(x,y,d)=b(sx,sy,sd,sgg(x,y))
29、其中,s,sg∈(0,1),s是雙邊網(wǎng)格與高分辨率成本體的寬度或高度之比,sg是網(wǎng)格的灰度與引導(dǎo)圖的灰度之比,ch(x,y,d)是生成的3d高分辨率成本體。
30、進一步得,所述步驟4的具體執(zhí)行過程如下:
31、首先,對步驟3得到的高分辨率成本體回歸出初始的視差圖,我們通過softargmin方法預(yù)測初始視差:
32、
33、其次,得到初始視差后,在特征空間中計算重建誤差來測量初始視差的正確性,將重建后的誤差、初始視差圖和左圖特征作為輸入,使用視差細(xì)化模塊,可以計算出相對于初始視差的殘差dr(x,y),將殘差和初始視差相加得到最終的立體圖像對的視差圖df(x,y)。
34、最后,使用smooth?l1損失函數(shù)訓(xùn)練整個網(wǎng)絡(luò),損失函數(shù)定義如下:
35、
36、其中,
37、
38、dgt(p)為像素p的地面真實視差。
39、與現(xiàn)有技術(shù)相比,本發(fā)明存在以下優(yōu)點:
40、1.本發(fā)明在特征提取模塊使用亞像素通道信息增強,利用高層特征豐富的通道信息來增強其表示能力。使用通道注意力引導(dǎo)模塊優(yōu)化每一個尺度上的集成功能,同時利用多尺度的特征圖生成不同分辨率的成本體,并融合成本體獲得上下文信息。
41、2.本發(fā)明設(shè)計了一個多級組交互的引導(dǎo)圖,使用了自適應(yīng)學(xué)習(xí)的權(quán)重,提高對重要特征的關(guān)注度,輔助成本體完成高質(zhì)量的上采樣。
42、3.本發(fā)明添加了一個視差細(xì)化模塊,對初始視差重構(gòu)誤差來識別不正確的區(qū)域,可以更好地恢復(fù)圖像中的細(xì)節(jié)信息,生成更準(zhǔn)確的視差圖。