本技術(shù)涉及計算機視覺,特別涉及一種基于拉普拉斯混合模型的類別級別物體位姿估計方法。
背景技術(shù):
1、類別級物體位姿估計是指對于給定類別集合中的未見過的物體,預(yù)測其9自由度(9dof)位姿,包括3個自由度的3d旋轉(zhuǎn)、3個自由度的3d平移和3個自由度的3d尺寸,類別級物體位姿估計在機器人技術(shù)、增強現(xiàn)實(ar)、虛擬現(xiàn)實(vr)和三維理解等領(lǐng)域有著廣泛的應(yīng)用。
2、盡管基于rgb-d(rgb加深度)的方法在類別級物體位姿估計中取得了不錯的成果,但大多數(shù)方法通常都嚴(yán)重依賴于深度傳感器,這限制了它們在通用場景下的適用性。因此,提出了基于rgb(red、green、blue,紅綠藍)的類別級物體位姿估計方法,作為適合部署在嵌入式設(shè)備(如ar眼鏡和手機)上的替代方案。
3、但是,缺乏深度信息為基于rgb的類別級物體位姿估計帶來了兩個顯著挑戰(zhàn):首先,由于沒有深度信息,物體形狀的預(yù)測變得更加復(fù)雜,并加劇了處理類內(nèi)形狀變化的難度;其次,僅依賴rgb輸入引入了固有的尺度模糊性,使得平移和尺寸的估計成為不適定問題。
4、相關(guān)技術(shù)中,為了克服上述挑戰(zhàn),提出了兩種解決方案,一種是通過估計度量深度和標(biāo)準(zhǔn)化物體坐標(biāo)空間(nocs,normalized?object?coordinate?space)坐標(biāo)來建立3d-3d對應(yīng)關(guān)系,并通過umeyama算法求解位姿。另一種是通過分別估計nocs坐標(biāo)圖和物體的度量尺寸,從而建立2d-3d對應(yīng)關(guān)系,然后使用pnp(perspective-n-point,透視n點)算法求解位姿。
5、然而,相關(guān)技術(shù)雖然在一定程度上解決了基于rgb的位姿估計問題,但仍存在以下局限性:首先,缺乏深度信息使得準(zhǔn)確測量物體形狀變得困難,形狀的不確定性在圖像的某些區(qū)域尤為明顯,這使得建立精確對應(yīng)關(guān)系變得更加復(fù)雜,相關(guān)技術(shù)的方法通常將每個像素的預(yù)測對應(yīng)關(guān)系視為等同,并依賴ransac來過濾異常值,這降低了預(yù)測速度并影響魯棒性。其次,相關(guān)技術(shù)的一些方法沒有考慮尺度模糊性,另一些方法使用相同的特征來預(yù)測nocs圖和度量尺寸,但從單張rgb圖像中推斷度量尺寸本質(zhì)上是一個不適定問題,從而導(dǎo)致其他組件的訓(xùn)練不穩(wěn)定且結(jié)果較差,亟需解決。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種基于拉普拉斯混合模型的類別級別物體位姿估計方法,以克服類別內(nèi)形狀差異導(dǎo)致的形狀不確定性和尺度不確定性對位姿估計的影響,能夠?qū)崿F(xiàn)對類別級別的物體位姿的高精度、高準(zhǔn)確率的預(yù)測,并且不受尺度不確定性影響。
2、本技術(shù)第一方面實施例提供一種基于拉普拉斯混合模型的類別級別物體位姿估計方法,包括以下步驟:
3、獲取待估計物體的圖像,并根據(jù)所述待估計物體的圖像預(yù)測所述待估計物體的nocs坐標(biāo)圖;
4、基于預(yù)設(shè)的通用3d信息流預(yù)測所述nocs坐標(biāo)圖的第一拉普拉斯分布,并基于預(yù)設(shè)的特征流預(yù)測所述nocs坐標(biāo)圖的第二拉普拉斯分布,且根據(jù)所述第一拉普拉斯分布和所述第二拉普拉斯分布得到目標(biāo)拉普拉斯分布;
5、基于預(yù)設(shè)的卷積網(wǎng)絡(luò),根據(jù)所述目標(biāo)拉普拉斯分布對所述待估計物體進行位姿估計,得到位姿估計結(jié)果,并根據(jù)所述位姿估計結(jié)果得到所述待估計物體與尺寸無關(guān)的位姿。
6、根據(jù)本技術(shù)的一個實施例,所述基于預(yù)設(shè)的通用3d信息流預(yù)測所述nocs坐標(biāo)圖的第一拉普拉斯分布,并基于預(yù)設(shè)的特征流預(yù)測所述nocs坐標(biāo)圖的第二拉普拉斯分布,包括:
7、基于所述預(yù)設(shè)的通用3d信息流,利用第一預(yù)設(shè)損失函數(shù)預(yù)測所述nocs坐標(biāo)圖的第一拉普拉斯分布;
8、基于所述預(yù)設(shè)的特征流,利用第二預(yù)設(shè)損失函數(shù)預(yù)測所述nocs坐標(biāo)圖的第二拉普拉斯分布;
9、其中,所述第一預(yù)設(shè)損失函數(shù)為:
10、
11、所述第二預(yù)設(shè)損失函數(shù)為:
12、
13、其中,l3d-dino為第一預(yù)設(shè)損失函數(shù),為第一拉普拉斯分布的方差,mvis為待估計物體可見部分的掩碼,為真實的nocs坐標(biāo)圖,μdino為第一拉普拉斯分布的均值,l3d-conv為第二預(yù)設(shè)損失函數(shù),為第二拉普拉斯分布的方差,μconv為第二拉普拉斯分布的均值,λ1和λ2為超參數(shù)。
14、根據(jù)本技術(shù)的一個實施例,所述基于預(yù)設(shè)的卷積網(wǎng)絡(luò),根據(jù)所述目標(biāo)拉普拉斯分布對所述待估計物體進行位姿估計,得到位姿估計結(jié)果,包括:
15、獲取所述待估計物體的圖像的2d像素坐標(biāo)圖;
16、將所述目標(biāo)拉普拉斯分布和所述2d像素坐標(biāo)圖輸入至所述預(yù)設(shè)的卷積網(wǎng)絡(luò),得到所述位姿估計結(jié)果;
17、其中,所述位姿估計結(jié)果為:
18、
19、其中,rout為預(yù)測的與尺度無關(guān)的旋轉(zhuǎn)參數(shù),tout為預(yù)測的與尺度無關(guān)的平移參數(shù),φ()為預(yù)設(shè)的卷積網(wǎng)絡(luò),μdino為第一拉普拉斯分布的均值,為第一拉普拉斯分布的方差,μconv為第二拉普拉斯分布的均值,為第二拉普拉斯分布的方差,c2d為待估計物體的圖像的2d像素坐標(biāo)圖。
20、根據(jù)本技術(shù)的一個實施例,所述根據(jù)所述位姿估計結(jié)果得到所述待估計物體的物體與尺寸無關(guān)的位姿,包括:
21、獲取所述待估計物體的3d尺寸和所述待估計物體的3d平移,并基于所述待估計物體的3d尺寸計算所述待估計物體的物體緊密邊界框的原始對角線長度;
22、根據(jù)所述待估計物體的3d尺寸和所述物體緊密邊界框的原始對角線長度對所述待估計物體的尺寸進行歸一化處理,得到歸一化后待估計物體的3d尺寸;
23、根據(jù)所述待估計物體的3d平移向量和所述物體緊密邊界框的原始對角線長度對所述物體的平移進行歸一化處理,得到歸一化后待估計物體的平移,并根據(jù)所述歸一化后待估計物體的3d平移得到預(yù)測的平移量,其中,所述預(yù)測的平移量為:
24、tout=[δx,δy,δz];
25、δx=(ox-cx)/wbox;
26、δy=(oy-cy)/hbox;
27、
28、其中,tout為預(yù)測的平移參數(shù),δx、δy分別為圖片平面x、y軸方向上的相對2d檢測框中心的相對偏移量,δz為物體在z軸上的平移量相對檢測框大小的相對值。(ox,oy)為投影物體中心的2d位置,(cx,cy)為2d邊界框的中心坐標(biāo),wbox為2d邊界框的寬度,hbox為2d邊界框的高度,為待估計物體到相機的歸一化距離,sbox為2d邊界框的大小,sin為縮放后的待估計物體的圖像的大小。
29、根據(jù)本技術(shù)的一個實施例,所述根據(jù)所述位姿估計結(jié)果得到所述物體與尺寸無關(guān)的位姿,還包括:
30、沿第一方向軸預(yù)測所述待估計物體的第一旋轉(zhuǎn)向量,并沿第二方向軸預(yù)測所述物體的第二旋轉(zhuǎn)向量,其中,所述第一方向軸和所述第二方向軸垂直;
31、判斷所述待估計物體是否具有旋轉(zhuǎn)對稱性;
32、若所述待估計物體具有旋轉(zhuǎn)對稱性,在訓(xùn)練所述待估計物體的模型時,對所述第二旋轉(zhuǎn)向量進行監(jiān)督。
33、根據(jù)本技術(shù)實施例的基于拉普拉斯混合模型的類別級別物體位姿估計方法,基于預(yù)設(shè)的通用3d信息流預(yù)測待估計物體的nocs坐標(biāo)圖的第一拉普拉斯分布,并基于預(yù)設(shè)的特征流預(yù)測待估計物體的nocs坐標(biāo)圖的第二拉普拉斯分布,且根據(jù)第一拉普拉斯分布和第二拉普拉斯分布得到目標(biāo)拉普拉斯分布;基于預(yù)設(shè)的卷積網(wǎng)絡(luò)對待估計物體進行位姿估計,得到位姿估計結(jié)果,并根據(jù)位姿估計結(jié)果得到待估計物體與尺寸無關(guān)的位姿。由此,克服了類別內(nèi)形狀差異導(dǎo)致的形狀不確定性和尺度不確定性對位姿估計的影響,能夠?qū)崿F(xiàn)對類別級別的物體位姿的高精度、高準(zhǔn)確率的預(yù)測,并且不受尺度不確定性影響。
34、本技術(shù)第二方面實施例提供一種基于拉普拉斯混合模型的類別級別物體位姿估計裝置,包括:
35、獲取模塊,用于獲取待估計物體的圖像,并根據(jù)所述待估計物體的圖像預(yù)測所述待估計物體的nocs坐標(biāo)圖;
36、預(yù)測模塊,用于基于預(yù)設(shè)的通用3d信息流預(yù)測所述nocs坐標(biāo)圖的第一拉普拉斯分布,并基于預(yù)設(shè)的特征流預(yù)測所述nocs坐標(biāo)圖的第二拉普拉斯分布,且根據(jù)所述第一拉普拉斯分布和所述第二拉普拉斯分布得到目標(biāo)拉普拉斯分布;
37、位姿估計模塊,用于基于預(yù)設(shè)的卷積網(wǎng)絡(luò),根據(jù)所述目標(biāo)拉普拉斯分布對所述待估計物體進行位姿估計,得到位姿估計結(jié)果,并根據(jù)所述位姿估計結(jié)果得到所述待估計物體與尺寸無關(guān)的位姿。
38、根據(jù)本技術(shù)的一個實施例,所述預(yù)測模塊,用于:
39、基于所述預(yù)設(shè)的通用3d信息流,利用第一預(yù)設(shè)損失函數(shù)預(yù)測所述nocs坐標(biāo)圖的第一拉普拉斯分布;
40、基于所述預(yù)設(shè)的特征流,利用第二預(yù)設(shè)損失函數(shù)預(yù)測所述nocs坐標(biāo)圖的第二拉普拉斯分布;
41、其中,所述第一預(yù)設(shè)損失函數(shù)為:
42、
43、所述第二預(yù)設(shè)損失函數(shù)為:
44、
45、其中,l3d-dino為第一預(yù)設(shè)損失函數(shù),為第一拉普拉斯分布的方差,mvis為待估計物體可見部分的掩碼,為真實的nocs坐標(biāo)圖,μdino為第一拉普拉斯分布的均值,l3d-conv為第二預(yù)設(shè)損失函數(shù),為第二拉普拉斯分布的方差,μconv為第二拉普拉斯分布的均值,λ1和λ2為超參數(shù)。
46、根據(jù)本技術(shù)的一個實施例,所述位姿估計模塊,用于:
47、獲取所述待估計物體的圖像的2d像素坐標(biāo)圖;
48、將所述目標(biāo)拉普拉斯分布和所述2d像素坐標(biāo)圖輸入至所述預(yù)設(shè)的卷積網(wǎng)絡(luò),得到所述位姿估計結(jié)果;
49、其中,所述位姿估計結(jié)果為:
50、
51、其中,rout為預(yù)測的與尺度無關(guān)的旋轉(zhuǎn)參數(shù),tout為預(yù)測的與尺度無關(guān)的平移參數(shù),φ()為預(yù)設(shè)的卷積網(wǎng)絡(luò),μdino為第一拉普拉斯分布的均值,為第一拉普拉斯分布的方差,μconv為第二拉普拉斯分布的均值,為第二拉普拉斯分布的方差,c2d為待估計物體的圖像的2d像素坐標(biāo)圖。
52、根據(jù)本技術(shù)的一個實施例,所述位姿估計模塊,用于:
53、獲取所述待估計物體的3d尺寸和所述待估計物體的3d平移,并基于所述待估計物體的3d尺寸計算所述待估計物體的物體緊密邊界框的原始對角線長度;
54、根據(jù)所述待估計物體的3d尺寸和所述物體緊密邊界框的原始對角線長度對所述待估計物體的尺寸進行歸一化處理,得到歸一化后待估計物體的3d尺寸;
55、根據(jù)所述待估計物體的3d平移向量和所述物體緊密邊界框的原始對角線長度對所述物體的平移進行歸一化處理,得到歸一化后待估計物體的平移,并根據(jù)所述歸一化后待估計物體的3d平移得到預(yù)測的平移量,其中,所述預(yù)測的平移量為:
56、tout=[δx,δy,δz];
57、δx=(ox-cx)/wbox;
58、δy=(oy-cy)/hbox;
59、
60、其中,tout為預(yù)測的平移參數(shù),δx、δy分別為圖片平面x、y軸方向上的相對2d檢測框中心的相對偏移量,δz為物體在z軸上的平移量相對檢測框大小的相對值,(ox,oy)為投影物體中心的2d位置,(cx,cy)為2d邊界框的中心坐標(biāo),wbox為2d邊界框的寬度,hbox為2d邊界框的高度,為待估計物體到相機的歸一化距離,sbox為2d邊界框的大小,sin為縮放后的待估計物體的圖像的大小。
61、根據(jù)本技術(shù)的一個實施例,所述位姿估計模塊,還用于:
62、沿第一方向軸預(yù)測所述待估計物體的第一旋轉(zhuǎn)向量,并沿第二方向軸預(yù)測所述物體的第二旋轉(zhuǎn)向量,其中,所述第一方向軸和所述第二方向軸垂直;
63、判斷所述待估計物體是否具有旋轉(zhuǎn)對稱性;
64、若所述待估計物體具有旋轉(zhuǎn)對稱性,在訓(xùn)練所述待估計物體的模型時,對所述第二旋轉(zhuǎn)向量進行監(jiān)督。
65、根據(jù)本技術(shù)實施例的基于拉普拉斯混合模型的類別級別物體位姿估計裝置,基于預(yù)設(shè)的通用3d信息流預(yù)測待估計物體的nocs坐標(biāo)圖的第一拉普拉斯分布,并基于預(yù)設(shè)的特征流預(yù)測待估計物體的nocs坐標(biāo)圖的第二拉普拉斯分布,且根據(jù)第一拉普拉斯分布和第二拉普拉斯分布得到目標(biāo)拉普拉斯分布;基于預(yù)設(shè)的卷積網(wǎng)絡(luò)對待估計物體進行位姿估計,得到位姿估計結(jié)果,并根據(jù)位姿估計結(jié)果得到待估計物體與尺寸無關(guān)的位姿。由此,克服了類別內(nèi)形狀差異導(dǎo)致的形狀不確定性和尺度不確定性對位姿估計的影響,能夠?qū)崿F(xiàn)對類別級別的物體位姿的高精度、高準(zhǔn)確率的預(yù)測,并且不受尺度不確定性影響。
66、本技術(shù)第三方面實施例提供一種電子設(shè)備,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述程序,以實現(xiàn)如上述實施例所述的基于拉普拉斯混合模型的類別級別物體位姿估計方法。
67、本技術(shù)第四方面實施例提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行,以用于實現(xiàn)如上述實施例所述的基于拉普拉斯混合模型的類別級別物體位姿估計方法。
68、本技術(shù)附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術(shù)的實踐了解到。