本技術(shù)涉及三維建圖,具體地涉及一種基于開放詞匯的圖像處理方法、裝置及存儲介質(zhì)。
背景技術(shù):
1、三維建圖是一種通過使用三維制作軟件創(chuàng)建具有三維數(shù)據(jù)的模型的過程。這一過程可以將二維平面立體化,使其更直觀和立體。在三維建圖過程中,機(jī)器人持續(xù)收集多幀rgb-d圖(含深度圖的照片),每幀圖片都可以轉(zhuǎn)化為圖片區(qū)域內(nèi)的三維點(diǎn)云數(shù)據(jù),并通過連續(xù)的多幀點(diǎn)云構(gòu)建和更新全局的三維點(diǎn)云地圖。但是現(xiàn)有技術(shù)在三維建圖過程中,容易產(chǎn)生重影問題,導(dǎo)致建圖精度和效果都很低。并且,通常在沒有限定實(shí)例對象的類別的前提下,無法理解復(fù)雜環(huán)境中的物體及物體與物體之間的關(guān)系,缺乏對于場景結(jié)構(gòu)化的理解。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的目的是提供一種基于開放詞匯的圖像處理方法、裝置及存儲介質(zhì),用以解決現(xiàn)有技術(shù)中三維建圖重影、精度低,缺乏場景結(jié)構(gòu)化的理解的技術(shù)問題。
2、為了實(shí)現(xiàn)上述目的,本技術(shù)第一方面提供一種基于開放詞匯的圖像處理方法,包括:
3、獲取機(jī)器人采集的當(dāng)前幀,并將當(dāng)前幀輸入實(shí)例分割模型,以得到每個(gè)第一實(shí)例對象對應(yīng)的實(shí)例區(qū)域和實(shí)例名稱;
4、基于預(yù)設(shè)算法獲取當(dāng)前幀對應(yīng)的針對目標(biāo)場地的局部點(diǎn)云圖,局部點(diǎn)云圖包括多個(gè)第一實(shí)例對象對應(yīng)的第一點(diǎn)云;
5、將全部實(shí)例區(qū)域和全部實(shí)例名稱分別輸入第一大語言模型和第二大語言模型,以分別得到確定每個(gè)第一實(shí)例對象的位置關(guān)系描述文本和對象屬性描述文本;
6、獲取針對目標(biāo)場地的全局點(diǎn)云圖,全局點(diǎn)云圖包括多個(gè)第二實(shí)例對象對應(yīng)的第二點(diǎn)云、歷史位置關(guān)系描述文本、歷史對象屬性描述文本和歷史實(shí)例名稱;
7、針對任一第一實(shí)例對象,在全局點(diǎn)云圖包括的多個(gè)第二實(shí)例對象中查找與該任一第一實(shí)例對象相匹配的第一目標(biāo)實(shí)例對象;
8、針對任一第一實(shí)例對象,對該任一第一實(shí)例對象與第一目標(biāo)實(shí)例對象執(zhí)行點(diǎn)云合并操作與文本合并操作,以更新全局點(diǎn)云圖;其中,點(diǎn)云合并操作用于將該任一第一實(shí)例對象對應(yīng)的第一點(diǎn)云合并至第一目標(biāo)實(shí)例對象對應(yīng)的第二點(diǎn)云;文本合并操作用于并將該任一第一實(shí)例對象對應(yīng)的位置關(guān)系描述文本、對象屬性描述文本和實(shí)例名稱分別合并至第一目標(biāo)實(shí)例對象對應(yīng)的歷史位置關(guān)系描述文本、歷史對象屬性描述文本和歷史實(shí)例名稱。
9、在本技術(shù)的實(shí)施例中,局點(diǎn)云圖還包括多個(gè)第二實(shí)例對象對應(yīng)的歷史語義特征向量,文本合并操作還用于并將該任一第一實(shí)例對象對應(yīng)的語義特征向量合并至第一目標(biāo)實(shí)例對象對應(yīng)的歷史語義特征向量;針對任一第一實(shí)例對象,對該任一第一實(shí)例對象與第一目標(biāo)實(shí)例對象執(zhí)行點(diǎn)云合并操作與文本合并操作,以更新全局點(diǎn)云圖包括:將每個(gè)第一實(shí)例對象的實(shí)例區(qū)域和實(shí)例名稱輸入多模態(tài)語義提取模型,以得到每個(gè)第一實(shí)例對象分別對應(yīng)的語義特征向量;針對任一第一實(shí)例對象,在全局點(diǎn)云圖包括的多個(gè)第二實(shí)例對象中查找與該任一第一實(shí)例對象相匹配的第一目標(biāo)實(shí)例對象,并對該任一第一實(shí)例對象對應(yīng)的語義特征向量合并至與第一目標(biāo)實(shí)例對象對應(yīng)的歷史語義特征向量。
10、在本技術(shù)的實(shí)施例中,針對任一第一實(shí)例對象,對該任一第一實(shí)例對象與第一目標(biāo)實(shí)例對象執(zhí)行點(diǎn)云合并操作與文本合并操作,以更新全局點(diǎn)云圖包括:針對任一第一實(shí)例對象,在常用名詞表中查找與該任一第一實(shí)例對象的實(shí)例名稱匹配的常用實(shí)例名稱;針對任一第一實(shí)例對象,將該任一第一實(shí)例對象的常用實(shí)例名稱合并至第一目標(biāo)實(shí)例對象對應(yīng)的歷史實(shí)例名稱。
11、在本技術(shù)的實(shí)施例中,針對任一第一實(shí)例對象,對該任一第一實(shí)例對象與第一目標(biāo)實(shí)例對象執(zhí)行點(diǎn)云合并操作與文本合并操作包括:針對任一第一實(shí)例對象,將該任一第一實(shí)例對象的位置關(guān)系描述文、對象屬性描述文本分別添加至第一目標(biāo)實(shí)例對象對應(yīng)的歷史位置關(guān)系描述文本、歷史對象屬性描述文本中。
12、在本技術(shù)的實(shí)施例中,針對任一第一實(shí)例對象,在全局點(diǎn)云圖包括的多個(gè)第二實(shí)例對象中查找與該任一第一實(shí)例對象相匹配的第一目標(biāo)實(shí)例對象包括:針對任一第一實(shí)例對象,確定全局點(diǎn)云圖包括的任一第二實(shí)例對象與該任一第一實(shí)例對象之間的空間相似度和第一視覺相似度;針對任一第一實(shí)例對象,根據(jù)任一第二實(shí)例對象與任一第一實(shí)例對象之間的空間相似度和第一視覺相似度確定根據(jù)任一第二實(shí)例對象與該任一第一實(shí)例對象之間的目標(biāo)相似度;針對任一第一實(shí)例對象,將全局點(diǎn)云圖包括的多個(gè)第二實(shí)例對象中與該任一第一實(shí)例對象之間的目標(biāo)相似度大于第一預(yù)設(shè)閾值的第二實(shí)例對象確定為與該任一第一實(shí)例對象相匹配的第一目標(biāo)實(shí)例對象。
13、在本技術(shù)的實(shí)施例中,方法還包括:在更新后的全局點(diǎn)云圖后,針對任一第二實(shí)例對象,在任一第二實(shí)例對象對應(yīng)的歷史位置關(guān)系描述文本的首次檢測時(shí)間在預(yù)設(shè)間隔幀數(shù)之前,且該任一第二實(shí)例對象對應(yīng)的歷史位置關(guān)系描述文本的檢測次數(shù)小于預(yù)設(shè)次數(shù)的情況下,將任一第二實(shí)例對象對應(yīng)的歷史位置關(guān)系描述文本在更新后的全局點(diǎn)云圖中刪除。
14、在本技術(shù)的實(shí)施例中,基于預(yù)設(shè)算法獲取當(dāng)前幀對應(yīng)的針對目標(biāo)場地的局部點(diǎn)云圖,局部點(diǎn)云圖包括多個(gè)第一實(shí)例對象對應(yīng)的第一點(diǎn)云包括:獲取當(dāng)前幀對應(yīng)的深度圖,以及機(jī)器人采集當(dāng)前幀時(shí)的機(jī)器人位姿;根據(jù)當(dāng)前幀和深度圖生成與當(dāng)前幀對應(yīng)的顏色深度圖;根據(jù)機(jī)器人位姿和顏色深度圖生成當(dāng)前幀對應(yīng)的針對目標(biāo)場地的局部點(diǎn)云圖,并在局部點(diǎn)云圖中生成與任一第一實(shí)例對象對應(yīng)的第一點(diǎn)云和包圍盒。
15、在本技術(shù)的實(shí)施例中,方法還包括:獲取用戶輸入的檢索信息;加載更新后的全局點(diǎn)云圖;確定檢索信息對應(yīng)的目標(biāo)檢索模型;將檢索信息輸入至目標(biāo)檢索模型,以通過目標(biāo)檢索模型輸出與檢索信息對應(yīng)的檢索特征;根據(jù)檢索特征和更新后的全局點(diǎn)云圖包括的任一第二實(shí)例對象進(jìn)行匹配,以更新后的全局點(diǎn)云圖中確定與檢索特征匹配的第二目標(biāo)實(shí)例對象。
16、在本技術(shù)的實(shí)施例中,確定檢索信息對應(yīng)的目標(biāo)檢索模型包括:在檢索信息包括的單詞數(shù)量大于預(yù)設(shè)數(shù)量的情況下,確定檢索信息對應(yīng)的目標(biāo)檢索模型為多模態(tài)語義提取模型和長文本語義提取模型;在檢索信息包括的單詞數(shù)量小于或等于預(yù)設(shè)數(shù)量的情況下,確定檢索信息對應(yīng)的目標(biāo)檢索模型為多模態(tài)語義提取模型和詞袋模型。
17、在本技術(shù)的實(shí)施例中,檢索特征包括查詢特征向量、文本特征以及單詞特征的至少一者,將檢索信息輸入至目標(biāo)檢索模型,以通過目標(biāo)檢索模型輸出與檢索信息對應(yīng)的檢索特征包括:在目標(biāo)檢索模型包括多模態(tài)語義提取模型的情況下,將檢索信息分別輸入至多模態(tài)語義提取模型,以通過多模態(tài)語義提取模型輸出檢索信息對應(yīng)的查詢特征向量;在目標(biāo)檢索模型包括長文本語義提取模型,將檢索信息分別輸入至長文本語義提取模型,以通過長文本語義提取模型輸出檢索信息對應(yīng)的文本特征;在目標(biāo)檢索模型包括詞袋模型的情況下,將檢索信息分別輸入至詞袋模型,以通過詞袋模型輸出檢索信息對應(yīng)的單詞特征。
18、在本技術(shù)的實(shí)施例中,檢索特征包括查詢特征向量和文本特征,根據(jù)檢索特征和更新后的全局點(diǎn)云圖包括的任一第二實(shí)例對象進(jìn)行匹配,以確定更新后的全局點(diǎn)云圖中與檢索特征匹配的第二目標(biāo)實(shí)例對象包括:確定查詢特征向量和更新后的全局點(diǎn)云圖包括的任一第二實(shí)例對象之間的第二視覺相似度;在檢索信息包括的單詞數(shù)量大于預(yù)設(shè)數(shù)量的情況下,確定文本特征和更新后的全局點(diǎn)云圖包括的每個(gè)第二實(shí)例對象之間的文本相似度;在檢索信息包括的單詞數(shù)量大于預(yù)設(shè)數(shù)量的情況下,根據(jù)任一第二實(shí)例對象對應(yīng)的第二視覺相似度和文本相似度確定更新后的全局點(diǎn)云圖中與檢索特征匹配的第二目標(biāo)實(shí)例對象。
19、在本技術(shù)的實(shí)施例中,檢索特征還包括單詞特征,根據(jù)檢索特征和更新后的全局點(diǎn)云圖包括的任一第二實(shí)例對象進(jìn)行匹配,以確定更新后的全局點(diǎn)云圖中與檢索特征匹配的第二目標(biāo)實(shí)例對象包括:在檢索信息包括的單詞數(shù)量小于或等于預(yù)設(shè)數(shù)量的情況下,確定單詞特征和更新后的全局點(diǎn)云圖包括的每個(gè)第二實(shí)例對象之間的單詞相似度;在檢索信息包括的單詞數(shù)量小于或等于預(yù)設(shè)數(shù)量的情況下,根據(jù)任一第二實(shí)例對象對應(yīng)的第二視覺相似度和單詞相似度確定更新后的全局點(diǎn)云圖中與檢索特征匹配的第二目標(biāo)實(shí)例對象。
20、本申第二方面提供一種基于開放詞匯的圖像處理裝置,包括:
21、存儲器,被配置成存儲指令;
22、處理器,被配置成從存儲器調(diào)用指令以及在執(zhí)行指令時(shí)能夠?qū)崿F(xiàn)根據(jù)上述基于開放詞匯的圖像處理方法。
23、本技術(shù)第三方面提供一種機(jī)器可讀存儲介質(zhì),該機(jī)器可讀存儲介質(zhì)上存儲有指令,該指令用于使得機(jī)器執(zhí)行根據(jù)上述的基于開放詞匯的圖像處理方法。
24、通過上述技術(shù)方案,通過實(shí)例分割模型劃分當(dāng)前幀中的第一實(shí)例對象,并將當(dāng)前幀轉(zhuǎn)換為局部點(diǎn)云圖,在全局點(diǎn)云圖中查找與局部點(diǎn)云圖的第一實(shí)例對象匹配的第一目標(biāo)實(shí)例對象,以進(jìn)行點(diǎn)云合并操作,可以減少三維建圖過程中的重影問題,提高建圖精度。并且,通過大語言模型識別每個(gè)第一實(shí)例對象位置關(guān)系描述文本和對象屬性描述文本,針對第一實(shí)例對象匹配的第一目標(biāo)實(shí)例對象進(jìn)行文本合并操作,將環(huán)境解析成語義豐富且結(jié)構(gòu)化的三維場景圖,從而使得生成的三維場景圖提供了對場景的結(jié)構(gòu)化和全面理解。
25、本技術(shù)實(shí)施例的其它特征和優(yōu)點(diǎn)將在隨后的具體實(shí)施方式部分予以詳細(xì)說明。