本技術涉及人工智能,并且更具體地,涉及人工智能中一種模型訓練方法、多模態(tài)環(huán)視深度估計模型、距離估計方法、裝置、電子設備和計算機可讀存儲介。
背景技術:
1、環(huán)視深度估計是通過采集環(huán)形相機的圖像,利用深度學習模型來估計物體與相機之間的距離。相較于傳統(tǒng)的單目深度估計方法,環(huán)視深度估計可以通過收集環(huán)形相機多個方向的信息來提高深度估計的精度和魯棒性,可以廣泛應用于自動駕駛、三維建模、增強現(xiàn)實、虛擬現(xiàn)實等領域。
2、基于深度學習技術的環(huán)視深度估計模型的實現(xiàn),通常采用卷積神經(jīng)網(wǎng)絡(cnn,convolutional?neural?networks)來提取圖像特征,使用回歸模型將圖像特征轉(zhuǎn)化為深度估計結(jié)果。其中,cnn網(wǎng)絡的設計和訓練過程決定了這種深度估計的精確性和速度。在cnn網(wǎng)絡的設計中,可以采用不同的卷積層數(shù)量和結(jié)構(gòu),如引入殘差連接、批量歸一化等技術來提高網(wǎng)絡效果。在訓練階段,需要選擇合適的數(shù)據(jù)集進行訓練和驗證,對不同的網(wǎng)絡結(jié)構(gòu)和超參數(shù)進行對比評估,以獲得更好的模型性能。但是,cnn網(wǎng)絡模型在跨場景使用時泛化性弱,即cnn網(wǎng)絡模型在訓練時采用的數(shù)據(jù)集往往缺乏場景的多樣性,依賴于特定場景的圖像特征進行深度信息的恢復,存在跨場景泛化性差的問題。
技術實現(xiàn)思路
1、本技術提供了一種模型訓練方法、多模態(tài)環(huán)視深度估計模型、距離估計方法、裝置、電子設備和計算機可讀存儲介,該方法能夠解決cnn網(wǎng)絡模型在跨場景使用時泛化性弱的問題。
2、第一方面,提供了一種模型訓練的方法,所述模型訓練方法包括:
3、獲取第一樣本圖像;其中,所述第一樣本圖像包括目標物體各個方向各自所對應的目標場景的場景圖像;
4、獲取第二樣本圖像;其中,所述第二樣本圖像包括所述目標物體各個方向各自所對應的目標場景的稀疏深度圖;
5、提取所述第一樣本圖像的多個第一圖像特征;其中,所述多個第一圖像特征的特征尺度不同;
6、提取所述第二樣本圖像的多個第二圖像特征;其中,所述多個第二圖像特征的特征尺度不同;
7、根據(jù)特征尺度,將所述多個第一圖像特征各自與所述多個第一圖像特征各自對應的第二圖像特征進行融合,得到目標融合特征;
8、根據(jù)所述多個第一圖像特征對所述目標融合特征進行解碼,得到目標樣本圖像;其中,所述目標樣本圖像包括所述目標物體各個方向各自所對應的目標場景的稠密深度圖;
9、根據(jù)所述第二樣本圖像和所述目標樣本圖像,訓練多模態(tài)環(huán)視深度估計模型。
10、結(jié)合第一方面,在某些可能的實現(xiàn)方式中,所述獲取第二樣本圖像的步驟包括:
11、獲取所述目標物體各個方向各自所對應的目標場景的點云數(shù)據(jù);
12、將所述各個方向各自所對應的目標場景的點云數(shù)據(jù)投影至圖像像素坐標系,得到所述目標物體各個方向各自所對應的目標場景的稀疏深度圖。
13、結(jié)合第一方面和上述實現(xiàn)方式,在某些可能的實現(xiàn)方式中,所述目標物體上設置有雷達和多個相機,所述目標物體各個方向各自所對應的目標場景的場景圖像由所述目標物體各個方向?qū)恢锰幍南鄼C獲取,所述目標物體各個方向各自所對應的目標場景的點云數(shù)據(jù)由所述雷達獲?。?/p>
14、所述將所述各個方向各自所對應的目標場景的點云數(shù)據(jù)投影至圖像像素坐標系,得到所述目標物體各個方向各自所對應的目標場景的稀疏深度圖的步驟包括:
15、獲取所述相機的第一內(nèi)部參數(shù)和所述雷達的第一外部標定參數(shù);
16、根據(jù)所述第一內(nèi)部參數(shù)和所述第一外部標定參數(shù),將所述各個方向各自所對應的目標場景的點云數(shù)據(jù)投影至圖像像素坐標系,得到所述目標物體各個方向各自所對應的目標場景的稀疏深度圖。
17、結(jié)合第一方面和上述實現(xiàn)方式,在某些可能的實現(xiàn)方式中,所述多模態(tài)環(huán)視深度估計模型包括可變形卷積神經(jīng)網(wǎng)絡和稀疏卷積神經(jīng)網(wǎng)絡;
18、所述提取所述第一樣本圖像的多個第一圖像特征的步驟包括:
19、采用所述可變形卷積神經(jīng)網(wǎng)絡提取所述第一樣本圖像在多個預設特征尺度各自下的圖像特征,得到所述多個第一圖像特征;其中,所述多個預設特征尺度的大小不同;
20、所述提取所述第二樣本圖像的多個第二圖像特征的步驟包括:
21、采用所述稀疏卷積神經(jīng)網(wǎng)絡提取所述第二樣本圖像在所述多個預設特征尺度各自下的圖像特征,得到所述多個第二圖像特征。
22、結(jié)合第一方面和上述實現(xiàn)方式,在某些可能的實現(xiàn)方式中,所述多模態(tài)環(huán)視深度估計模型還包括多個融合模塊,所述多個融合模塊對應的特征尺度不同;
23、所述根據(jù)特征尺度,將所述多個第一圖像特征各自與所述多個第一圖像特征各自對應的第二圖像特征進行融合,得到目標融合特征的步驟包括:
24、根據(jù)特征尺度從所述多個融合模塊中,確定出所述多個第一圖像特征各自對應的目標融合模塊;
25、采用所述多個第一圖像特征各自對應的目標融合模塊,對所述多個第一圖像特征各自與所述多個第一圖像特征各自對應的第二圖像特征進行融合,得到融合結(jié)果;其中,所述融合結(jié)果包括所述多個第一圖像特征各自對應的融合圖像特征和所述多個第一圖像特征各自對應的融合深度特征;
26、根據(jù)所述融合結(jié)果生成所述目標融合特征。
27、結(jié)合第一方面和上述實現(xiàn)方式,在某些可能的實現(xiàn)方式中,所述目標融合模塊包括第一模塊組和第二模塊組,所述第一模塊組包括多個串聯(lián)的第一處理模塊,每個第一處理模塊包括第一子模塊和與所述第一子模塊的輸出端連接的第二子模塊,所述第二模塊組包括多個串聯(lián)的第二處理模塊,每個第二處理模塊包括第三子模塊和與所述第三子模塊的輸出端連接的第四子模塊,所述第一子模塊和所述第三子模塊均為交叉注意力模塊,所述第二子模塊和所述第四子模塊均為自注意力模塊;
28、所述采用所述多個第一圖像特征各自對應的目標融合模塊,對所述多個第一圖像特征各自與所述多個第一圖像特征各自對應的第二圖像特征進行融合,得到融合結(jié)果的步驟包括:
29、獲取所述多個第一圖像特征各自對應的第一線性特征,以及獲取所述多個第二圖像特征各自對應的第二線性特征;其中,所述第一線性特征和所述第二線性特征均包括q特征、k特征和v特征;
30、將所述第一線性特征和所述第二線性特征交叉輸入所述第一模塊組和所述第一模塊組,得到所述多個第一圖像特征各自對應的融合圖像特征和所述多個第二圖像特征各自對應的融合深度特征。
31、結(jié)合第一方面和上述實現(xiàn)方式,在某些可能的實現(xiàn)方式中,所述多模態(tài)環(huán)視深度估計模型還包括解碼器;
32、所述根據(jù)所述多個第一圖像特征對所述目標融合特征進行解碼,得到目標樣本圖像的步驟包括:
33、將所述多個第一圖像特征以及所述目標融合特征輸入所述解碼器,以通過所述解碼器對所述目標融合特征進行解碼,得到所述目標樣本圖像。
34、結(jié)合第一方面和上述實現(xiàn)方式,在某些可能的實現(xiàn)方式中,所述根據(jù)所述第二樣本圖像和所述目標樣本圖像,訓練多模態(tài)環(huán)視深度估計模型的步驟包括:
35、確定所述目標物體各個方向各自所對應的目標場景的稠密深度圖與稀疏深度圖之間的差值,得到多個差值;
36、根據(jù)所述多個差值的平均差值確定損失函數(shù);
37、根據(jù)所述損失函數(shù)訓練所述多模態(tài)環(huán)視深度估計模型。
38、第二方面,提供了一種多模態(tài)環(huán)視深度估計模型,所述多模態(tài)環(huán)視深度估計模型包括:
39、特征處理模塊,用于提取第一圖像和第二圖像各自的多種圖像特征,得到特征集;其中,所述第一圖像包括:目標物體至少一個方向所對應的目標場景的場景圖像,所述第二圖像包括:所述目標物體至少一個方向所對應的目標場景的稀疏深度圖;所述特征集包括:所述第一圖像對應的多個第一圖像特征以及所述第二圖像對應的多個第二圖像特征,所述多個第一圖像特征的特征尺度不同,所述多個第一圖像特征的特征尺度不同;
40、所述特征處理模塊,還用于根據(jù)特征尺度,將所述多個第一圖像特征各自與所述多個第一圖像特征各自對應的第二圖像特征進行融合,得到目標融合特征;
41、解碼器,用于根據(jù)所述多個第一圖像特征對所述目標融合特征進行解碼,得到目標圖像;其中,所述目標圖像包括:所述目標物體至少一個方向所對應的目標場景的稠密深度圖。
42、結(jié)合第二方面,在某些可能的實現(xiàn)方式中,所述特征處理模塊包括:
43、可變形卷積神經(jīng)網(wǎng)絡,所述可變形卷積神經(jīng)網(wǎng)絡包括m個第一特征提取層,所述m個第一特征提取層采用的卷積操作為可變形卷積運算,第1個第一特征提取層至第m個第一特征提取層對應的預設特征尺度逐級減小,m為大于或者等于5的奇數(shù);
44、稀疏卷積神經(jīng)網(wǎng)絡,所述稀疏卷積神經(jīng)網(wǎng)絡包括m個第二特征提取層,所述m個第二特征提取層采用的卷積操作為稀疏卷積運,第1個第二特征提取層至第m個第二特征提取層對應的預設特征尺度逐級減小;
45、m-1個融合模塊;
46、特征串聯(lián)層,所述特征串聯(lián)層與所述解碼器連接;
47、其中:
48、第i個第一特征提取層和第i個第二特征提取層各自的輸出端均與第i個融合模塊的輸入端連接,所述第i個融合模塊的輸出端分別與第i+1個第一特征提取層和第i+1個第二特征提取層各自的輸入端連接;
49、第m個第一特征提取層和第m個第二特征提取層的輸出端與所述特征串聯(lián)層連接;
50、所述第1個第一特征提取層至第m-2個第一特征提取層各自的輸出端均與所述解碼器連接,i=1,2,3,...,m-1;
51、所述第i個第一特征提取層用于根據(jù)所述第i個第一特征提取層對應的預設特征尺度提取所述第一圖像的第一圖像特征;
52、所述第i個第二特征提取層用于根據(jù)所述第i個第二特征提取層對應的預設特征尺度提取所述第二圖像的第二圖像特征,所述第i個第一特征提取層對應的預設特征尺度與第i個第二特征提取層對應的預設特征尺度相同;
53、所述第i個融合模塊用于對所述第i個第一特征提取層提取的第一圖像特征和所述第i個第二特征提取層提取的第二圖像特征進行融合。
54、結(jié)合第二方面和上述實現(xiàn)方式,在某些可能的實現(xiàn)方式中,每個融合模塊包括第一模塊組和第二模塊組,所述第一模塊組包括多個串聯(lián)的第一處理模塊,每個第一處理模塊包括第一子模塊和與所述第一子模塊的輸出端連接的第二子模塊,所述第二模塊組包括多個串聯(lián)的第二處理模塊,每個第二處理模塊包括第三子模塊和與所述第三子模塊的輸出端連接的第四子模塊,所述第一子模塊和所述第三子模塊均為交叉注意力模塊,所述第二子模塊和所述第四子模塊均為自注意力模塊。
55、結(jié)合第二方面和上述實現(xiàn)方式,在某些可能的實現(xiàn)方式中,所述解碼器包括m-1個依次連接的特征解碼層,第1個特征解碼層至第m-1個特征解碼層對應的特征尺度逐級增大;
56、其中,所述第1個特征解碼層與所述特征串聯(lián)層的輸出端連接,第j個特征解碼層的輸入與所述第k個第一特征提取層的輸出端連接,所述第m-1個特征解碼層的輸出端為所述多模態(tài)環(huán)視深度估計模型的輸出端,j=m-1,m-2,...,2,k=1,2,...,m-2。
57、第三方面,提供了一種距離估計方法,應用于載具的控制器,所述載具上設置有多個超廣角相機,所述多個超廣角相機分散設置在所述載具的本體四周,相鄰兩個超廣角相機的視場角相交;
58、所述距離估計方法包括:
59、獲取所述多個超廣角相機各自采集的目標區(qū)域的第一環(huán)境圖像;
60、獲取多個所述第一環(huán)境圖像各自對應的目標區(qū)域的第二環(huán)境圖像;其中,所述第二環(huán)境圖像為稀疏深度圖;
61、對于每個所述第一環(huán)境圖像,將所述第一環(huán)境圖像和所述第一環(huán)境圖像對應的第二環(huán)境圖像輸入到深度圖生成模型中,得到每個所述第一環(huán)境圖像對應的目標區(qū)域的稠密深度圖;其中,所述深度圖生成模型為通過上述的模型訓練方法得到的多模態(tài)環(huán)視深度估計模型;
62、根據(jù)多個所述第一環(huán)境圖像各自對應的目標區(qū)域的稠密深度圖,確定所述載具與四周環(huán)境中障礙物之間的距離。
63、結(jié)合第三方面,在某些可能的實現(xiàn)方式中,所述載具上還設置有探測雷達,所述探測雷達用于獲取所述載具四周的場景點云數(shù)據(jù);
64、所述獲取多個所述第一環(huán)境圖像各自對應的目標區(qū)域的第二環(huán)境圖像的步驟包括:
65、獲取所述多個超廣角相機的第二內(nèi)部參數(shù)和所述探測雷達的第二外部標定參數(shù);
66、獲取多個所述第一環(huán)境圖像各自對應的目標區(qū)域的區(qū)域點云數(shù)據(jù);其中,多個所述第一環(huán)境圖像各自對應的目標區(qū)域的區(qū)域點云數(shù)據(jù)由所述探測雷達采集;
67、根據(jù)所述第二內(nèi)部參數(shù)和所述第二外部標定參數(shù),將多個所述第一環(huán)境圖像各自對應的目標區(qū)域的區(qū)域點云數(shù)據(jù)投影至圖像像素坐標系,得到多個所述第一環(huán)境圖像各自對應的目標區(qū)域的第二環(huán)境圖像。
68、第三方面,提供了一種模型訓練裝置,所述模型訓練裝置包括:
69、第一圖像獲取模塊,用于獲取第一樣本圖像;其中,所述第一樣本圖像包括目標物體各個方向各自所對應的目標場景的場景圖像;
70、第二圖像獲取模塊,用于獲取第二樣本圖像;其中,所述第二樣本圖像包括所述目標物體各個方向各自所對應的目標場景的稀疏深度圖;
71、第一特征提取模塊,用于提取所述第一樣本圖像的多個第一圖像特征;其中,所述多個第一圖像特征的特征尺度不同;
72、第二特征提取模塊,用于提取所述第二樣本圖像的多個第二圖像特征;其中,所述多個第二圖像特征的特征尺度不同;
73、特征融合模塊,用于根據(jù)特征尺度,將所述多個第一圖像特征各自與所述多個第一圖像特征各自對應的第二圖像特征進行融合,得到目標融合特征;
74、特征解碼模塊,用于根據(jù)所述多個第一圖像特征對所述目標融合特征進行解碼,得到目標樣本圖像;其中,所述目標樣本圖像包括所述目標物體各個方向各自所對應的目標場景的稠密深度圖;
75、模型訓練模塊,用于根據(jù)所述第二樣本圖像和所述目標樣本圖像,訓練多模態(tài)環(huán)視深度估計模型。
76、第五方面,提供一種距離估計裝置,配置于載具的控制器,所述載具上設置有多個超廣角相機,所述多個超廣角相機分散設置在所述載具的本體四周,相鄰兩個超廣角相機的視場角相交;
77、所述距離估計裝置包括:
78、第三圖像獲取模塊,用于獲取所述多個超廣角相機各自采集的目標區(qū)域的第一環(huán)境圖像;
79、第四圖像獲取模塊,用于獲取多個所述第一環(huán)境圖像各自對應的目標區(qū)域的第二環(huán)境圖像;其中,所述第二環(huán)境圖像為稀疏深度圖;
80、深度圖生成模塊,用于對于每個所述第一環(huán)境圖像,將所述第一環(huán)境圖像和所述第一環(huán)境圖像對應的第二環(huán)境圖像輸入到深度圖生成模型中,得到每個所述第一環(huán)境圖像對應的目標區(qū)域的稠密深度圖;其中,所述深度圖生成模型為通過上述的模型訓練方法得到的多模態(tài)環(huán)視深度估計模型;
81、距離確定模塊,用于根據(jù)多個所述第一環(huán)境圖像各自對應的目標區(qū)域的稠密深度圖,確定所述載具與四周環(huán)境中障礙物之間的距離。
82、第六方面,提供一種電子設備,包括存儲器和處理器。該存儲器用于存儲可執(zhí)行程序代碼,該處理器用于從存儲器中調(diào)用并運行該可執(zhí)行程序代碼,使得該電子設備執(zhí)行上述的模型訓練方法或者距離估計方法。
83、第七方面,提供了一種計算機程序產(chǎn)品,該計算機程序產(chǎn)品包括:計算機程序代碼,當該計算機程序代碼在計算機上運行時,使得該計算機執(zhí)行上述的模型訓練方法或者距離估計方法。
84、第八方面,提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)存儲有計算機程序代碼,當該計算機程序代碼在計算機上運行時,使得該計算機執(zhí)行上述的模型訓練方法或者距離估計方法。
85、本技術的實施例所提供的模型訓練方法、多模態(tài)環(huán)視深度估計模型、距離估計方法、裝置、電子設備和計算機可讀存儲介,具備以下技術效果:
86、本技術實施例通過將目標物體的不同方向上目標場景的場景圖像的多特征尺度的圖像特征與稀疏深度圖的多特征尺度的圖像特征進行融合,得到目標融合特征,然后根據(jù)不同方向上目標場景的場景圖像的多特征尺度的圖像特征對目標融合特征進行解碼,得到不同方向上目標場景的稠密深度圖,進而根據(jù)得到的稠密深度圖和不同方向上目標場景的稀疏深度圖,訓練多模態(tài)環(huán)視深度估計模型,使得模型在跨場景使用時,具有極高的魯棒性,解決了模型跨場景使用時泛化性弱的問題,通過多模態(tài)環(huán)視深度估計模型輸出的稠密深度圖估算距離時,可以提高距離的估算精度。