本技術(shù)涉及語(yǔ)義地圖構(gòu)建,具體為一種雙足人形機(jī)器人的防抖語(yǔ)義slam方法、設(shè)備、介質(zhì)。
背景技術(shù):
1、現(xiàn)有技術(shù)在雙足機(jī)器人自主操作領(lǐng)域取得了一定進(jìn)展,特別是在slam(simultaneous?localization?and?mapping,即同時(shí)定位與地圖構(gòu)建)算法的應(yīng)用上。slam算法使得機(jī)器人能夠構(gòu)建環(huán)境地圖并實(shí)時(shí)更新自己的位置,這對(duì)于實(shí)現(xiàn)無(wú)干預(yù)的自主導(dǎo)航至關(guān)重要?;谝曈X(jué)的slam算法因其成本效益、小型化和簡(jiǎn)單的傳感器配置而備受青睞。
2、現(xiàn)有發(fā)明聚焦于特定場(chǎng)景下的輪式機(jī)器人,運(yùn)用了語(yǔ)義slam技術(shù)的不同變體,以提高機(jī)器人在限定環(huán)境中的定位、地圖構(gòu)建、目標(biāo)識(shí)別與分類的能力。如公開(kāi)號(hào)為cn115962769a的中國(guó)專利申請(qǐng)文件公開(kāi)了一種用于割草機(jī)器人的輕量級(jí)語(yǔ)義地圖構(gòu)建方法及系統(tǒng),結(jié)合rgb相機(jī)和深度相機(jī),實(shí)現(xiàn)目標(biāo)的語(yǔ)義提取和割草機(jī)器人的三維位置估計(jì)。公開(kāi)號(hào)為cn115249300a的中國(guó)專利申請(qǐng)文件公開(kāi)了一種用于醫(yī)院場(chǎng)景的輪式機(jī)器人語(yǔ)義slam方法,其利用rgb-d相機(jī)采集環(huán)境的rgb圖像和深度信息,通過(guò)融合imu數(shù)據(jù),構(gòu)建局部視覺(jué)語(yǔ)義地圖,實(shí)現(xiàn)高精度定位,特別針對(duì)醫(yī)院環(huán)境中的固有語(yǔ)義特征,如護(hù)士站、導(dǎo)向標(biāo)識(shí)等,進(jìn)行地圖構(gòu)建和定位。公開(kāi)號(hào)為cn111360780a的中國(guó)專利申請(qǐng)文件公開(kāi)了一種基于視覺(jué)語(yǔ)義slam的垃圾撿拾機(jī)器人,其整合視覺(jué)信息和imu數(shù)據(jù),用于構(gòu)建語(yǔ)義地圖,識(shí)別并分類垃圾,指導(dǎo)垃圾回收操作。輪式機(jī)器人在限定場(chǎng)景下可能遇到的挑戰(zhàn)相對(duì)較少,而人形機(jī)器人需要處理更多的運(yùn)動(dòng)自由度和環(huán)境不確定性,這要求更高級(jí)的感知、規(guī)劃和決策能力。
3、對(duì)于雙足人形機(jī)器人,早期的研究雖然在雙足人形機(jī)器人上實(shí)施slam技術(shù)已經(jīng)取得了一些進(jìn)展,利用了諸如使用深度攝像頭傳感器的精細(xì)地圖構(gòu)建,以及融合深度學(xué)習(xí)等先進(jìn)算法,但仍存在以下幾個(gè)關(guān)鍵挑戰(zhàn):
4、1.運(yùn)動(dòng)和搖晃的影響:人形機(jī)器人在行走時(shí),其身體結(jié)構(gòu)和運(yùn)動(dòng)模式會(huì)導(dǎo)致深度相機(jī)捕捉到的數(shù)據(jù)出現(xiàn)顯著的抖動(dòng)和不穩(wěn)定。這種動(dòng)態(tài)變化會(huì)干擾slam算法的準(zhǔn)確性,影響定位和地圖構(gòu)建的穩(wěn)定性,從而降低整個(gè)系統(tǒng)的魯棒性和效率。
5、2.特征稀疏環(huán)境的挑戰(zhàn):基于特征的slam算法依賴于從環(huán)境中提取獨(dú)特的視覺(jué)特征,如角點(diǎn)、邊緣或紋理。然而,在某些環(huán)境中,如長(zhǎng)走廊、空白墻壁或自然景觀中,可能缺乏足夠的特征供里程計(jì)算法使用,這導(dǎo)致slam算法難以定位。
6、3.新類別語(yǔ)義實(shí)體識(shí)別的困難:除了基本的定位和地圖構(gòu)建外,人形機(jī)器人slam系統(tǒng)還需要具備語(yǔ)義理解能力,即識(shí)別和分類環(huán)境中的物體、區(qū)域或事件。當(dāng)機(jī)器人遇到以前未見(jiàn)過(guò)或數(shù)據(jù)庫(kù)中沒(méi)有記錄的語(yǔ)義實(shí)體時(shí),識(shí)別和分類變得尤為困難。這限制了機(jī)器人在未知或變化環(huán)境中的自主性和智能水平。
7、因此迫切需要開(kāi)發(fā)一種雙足人形機(jī)器人的防抖語(yǔ)義slam方法,確保雙足人形機(jī)器人能夠在各種條件下有效地執(zhí)行slam及下游任務(wù)。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本技術(shù)旨在至少在一定程度上解決相關(guān)技術(shù)中的上述技術(shù)問(wèn)題之一。為此,本技術(shù)提供了一種雙足人形機(jī)器人的防抖語(yǔ)義slam方法、設(shè)備、介質(zhì),通過(guò)語(yǔ)義理解和基于開(kāi)放詞匯表的語(yǔ)義分割方法,提高了定位精度和地圖構(gòu)建的質(zhì)量,增強(qiáng)了其在現(xiàn)實(shí)世界應(yīng)用中的靈活性和泛化能力。
2、為實(shí)現(xiàn)上述目的,第一方面,本技術(shù)提供了一種雙足人形機(jī)器人的防抖語(yǔ)義slam方法,包括如下步驟:
3、s1、獲取相機(jī)捕獲的連續(xù)的視頻幀,將其輸入至語(yǔ)義分割模型,對(duì)每個(gè)所述視頻幀均進(jìn)行基于開(kāi)放詞匯表的語(yǔ)義分割,得到每一幀的分割實(shí)例結(jié)果,其中,所述視頻幀包含場(chǎng)景的顏色信息和深度信息;
4、s2、基于相機(jī)捕獲的連續(xù)的視頻幀構(gòu)建三維空間的高斯球,并進(jìn)行高斯球的初始化處理;其中,進(jìn)行高斯球的初始化處理的步驟包括進(jìn)行雙足人形機(jī)器人六自由度位姿的初步估計(jì)和三維場(chǎng)景語(yǔ)義地圖的初始構(gòu)建;
5、s3、對(duì)步驟s2中初步估計(jì)的雙足人形機(jī)器人六自由度位姿和初始構(gòu)建的三維場(chǎng)景語(yǔ)義地圖進(jìn)行優(yōu)化處理,輸出優(yōu)化后的六自由度位姿和三維場(chǎng)景語(yǔ)義地圖;
6、其中,優(yōu)化處理的步驟包括通過(guò)構(gòu)建運(yùn)動(dòng)模糊重建誤差來(lái)估計(jì)相機(jī)抖動(dòng)產(chǎn)生的影響,并使運(yùn)動(dòng)模糊重建誤差最小,所述運(yùn)動(dòng)模糊重建誤差對(duì)應(yīng)的模糊圖像由曝光時(shí)間內(nèi)時(shí)變六自由度位姿的輻照度的積分表示。
7、優(yōu)選地,對(duì)每個(gè)所述視頻幀均進(jìn)行基于開(kāi)放詞匯表的語(yǔ)義分割的步驟包括:采用預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型作為教師模型,為語(yǔ)義分割模型提供指導(dǎo),語(yǔ)義分割模型將其學(xué)習(xí)到的視覺(jué)概念提煉到一組分割令牌中,其中,每組分割令牌都概括了所述視頻幀的一個(gè)局部區(qū)域,所述視覺(jué)概念包括物體的形狀、紋理、顏色。
8、優(yōu)選地,對(duì)每個(gè)所述視頻幀均進(jìn)行基于開(kāi)放詞匯表的語(yǔ)義分割的步驟還包括:基于三維視覺(jué)算法bundle?adjustment,利用整段觀測(cè)序列進(jìn)行多幀之間的相互驗(yàn)證。
9、優(yōu)選地,利用整段觀測(cè)序列進(jìn)行多幀之間的相互驗(yàn)證的步驟包括:在語(yǔ)義分割模型中添加視圖一致性分?jǐn)?shù)指標(biāo)來(lái)衡量?jī)蓚€(gè)掩碼是否屬于同一個(gè)物體,其中,所述視圖一致性分?jǐn)?shù)指標(biāo)被定義為一段觀測(cè)序列中支持兩個(gè)掩碼合并的支持率。
10、優(yōu)選地,在步驟s3之后還包括:s4、隨著相機(jī)的移動(dòng),獲取新的連續(xù)的視頻幀,基于新的連續(xù)的視頻幀對(duì)三維場(chǎng)景語(yǔ)義地圖進(jìn)行更新,同時(shí)輸出雙足人形機(jī)器人的實(shí)時(shí)運(yùn)行軌跡圖。
11、優(yōu)選地,步驟s3中優(yōu)化處理的步驟還包括:構(gòu)建相對(duì)于當(dāng)前視頻幀的圖像誤差、深度重建誤差和語(yǔ)義重建誤差,并通過(guò)對(duì)所述圖像誤差、深度重建誤差和語(yǔ)義重建誤差進(jìn)行最小化處理來(lái)實(shí)現(xiàn)對(duì)運(yùn)行軌跡的優(yōu)化處理。
12、優(yōu)選地,在步驟s2基于相機(jī)捕獲的連續(xù)的視頻幀構(gòu)建三維空間的高斯球,并進(jìn)行高斯球的初始化處理的步驟中,三維空間的高斯球表示為:
13、?(1)
14、其中, f?3d( x)代表高斯球, x代表空間內(nèi)坐標(biāo), σ代表透明度, μ代表高斯球中心位置, r代表高斯球半徑;
15、為了優(yōu)化高斯分布的參數(shù)來(lái)表示場(chǎng)景,以可微分的方式將高斯渲染為?2d?圖像:
16、?(2)
17、?代表高斯球中心在渲染平面上的二維投影,代表高斯球半徑在渲染平面上的二維投影, k代表相機(jī)內(nèi)參,代表焦距, d代表的是深度信息,是 z軸的分量; e t代表相機(jī)的六自由度位姿。
18、優(yōu)選地,步驟s3中進(jìn)行優(yōu)化處理的步驟還包括:將所有高斯球按深度順序排列,并使用最大體積渲染公式進(jìn)行前后體積渲染。
19、優(yōu)選地,計(jì)算每一幀上像素p=(u,v)的圖像誤差公式為:
20、?(3)
21、其中, n代表當(dāng)前像素點(diǎn)空間射線上的高斯個(gè)數(shù), i是求和符號(hào)中的索引, j是乘積符號(hào)中的索引,其中 i?從1到 n?變化,表示球諧展開(kāi)的第 i個(gè)系數(shù), j從1到 i?1變化,用于累乘前面的系數(shù), c(p)代表像素 p上的圖像誤差, c i代表rgb顏色用球諧系數(shù)表示,, f i( p)表示在像素 p處的第? i?個(gè)高斯函數(shù)的值, o表示高斯函數(shù)的振幅或權(quán)重,表示第? j?個(gè)高斯函數(shù)在像素 p?處的補(bǔ)數(shù),表示像素 p和均值 μ?之間的歐幾里得距離的平方,表示乘積符號(hào);
22、深度重建誤差表示為:
23、?(4)
24、其中, d(p)代表像素 p上的深度重建誤差, d i代表深度用球諧系數(shù)表示;
25、語(yǔ)義重建誤差表示為:
26、?(5)
27、 s(p)代表像素 p上的語(yǔ)義重建誤差, s i代表語(yǔ)義用球諧系數(shù)表示;
28、運(yùn)動(dòng)模糊圖像看作的幾個(gè)位姿的真實(shí)圖像的重疊:
29、?(6)
30、其中, b表示運(yùn)動(dòng)模糊圖像,表示時(shí)間變量,用于定義曝光時(shí)間間隔,代表時(shí)刻的像素,和?分別表示曝光時(shí)間間隔的開(kāi)始和結(jié)束時(shí)刻,表示在時(shí)間?時(shí)刻獲取的圖像在像素處的強(qiáng)度或顏色值,表示在第 i幀圖像中像素?處的強(qiáng)度或顏色值, n代表總幀數(shù)。
31、第二方面,本技術(shù)提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序,所述處理器用于執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)上述任一所述的防抖語(yǔ)義slam方法的步驟。
32、第三方面,本技術(shù)提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序運(yùn)行在計(jì)算機(jī)或處理器上時(shí),使得所述計(jì)算機(jī)或所述處理器執(zhí)行上述任一所述的防抖語(yǔ)義slam方法的步驟。
33、第四方面,本技術(shù)提供了一種雙足人形機(jī)器人,所述雙足人形機(jī)器人執(zhí)行上述任一所述的防抖語(yǔ)義slam方法來(lái)實(shí)現(xiàn)同時(shí)定位與地圖構(gòu)建。
34、基于上述技術(shù)方案可知,本技術(shù)的數(shù)據(jù)加密方法及系統(tǒng)相對(duì)于現(xiàn)有技術(shù)至少具備如下有益效果之一:
35、1、本技術(shù)通過(guò)語(yǔ)義理解和基于開(kāi)放詞匯的語(yǔ)義分割方法,提高了定位精度和地圖構(gòu)建的質(zhì)量,增強(qiáng)了其在現(xiàn)實(shí)世界應(yīng)用中的靈活性和泛化能力,確保雙足人形機(jī)器人能夠在各種條件下有效地執(zhí)行slam及下游任務(wù)。
36、2、本技術(shù)解決了雙足人形機(jī)器人運(yùn)動(dòng)和搖晃的影響,針對(duì)雙足人形機(jī)器人高抖動(dòng)運(yùn)動(dòng)場(chǎng)景,提出從運(yùn)動(dòng)模糊圖像中估計(jì)運(yùn)動(dòng)的六自由度相機(jī)位姿及恢復(fù)清晰的三維場(chǎng)景的方法,從而提高slam算法在雙足人形機(jī)器人應(yīng)用上的準(zhǔn)確性和穩(wěn)定性。
37、3、本技術(shù)通過(guò)結(jié)合物體語(yǔ)義分割算法來(lái)增強(qiáng)slam系統(tǒng),提供比傳統(tǒng)特征點(diǎn)更豐富的環(huán)境描述,以補(bǔ)充傳統(tǒng)特征點(diǎn)的缺失;通過(guò)將物體語(yǔ)義信息融入到slam算法中,系統(tǒng)能夠在特征稀少的環(huán)境中生成更加詳細(xì)的地圖,并維持更準(zhǔn)確的機(jī)器人定位。
38、本技術(shù)的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本技術(shù)了解本技術(shù)的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫(xiě)的說(shuō)明書(shū)、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。