本技術(shù)涉及人工智能,尤其涉及一種行人檢測方法、裝置、設(shè)備、存儲介質(zhì)及產(chǎn)品。
背景技術(shù):
1、隨著科技的發(fā)展,自動駕駛技術(shù)逐漸開始進行實際的應(yīng)用。在自動駕駛技術(shù)中,對行人進行檢測的響應(yīng)速度與準(zhǔn)確度至關(guān)重要,直接關(guān)乎道路安全和對應(yīng)的自動駕駛技術(shù)的可靠性和安全性,直接決定了自動駕駛技術(shù)能否使用,因此行人檢測是自動駕駛系統(tǒng)中的一個關(guān)鍵部分。
2、現(xiàn)有的自動駕駛技術(shù)中,通常是通過圖像識別來進行行人檢測。在進行圖像識別的過程中,一般會使用卷積神經(jīng)網(wǎng)絡(luò),而現(xiàn)有技術(shù)中卷積神經(jīng)網(wǎng)絡(luò)中的卷積操作中卷積核的通常是固定的。然而行人作為一個非固定形狀,且會進行不規(guī)律移動的目標(biāo),目前的卷積核只能捕獲局部信息,而無法獲取更大范圍或者不同位置的信息,這限制了卷積神經(jīng)網(wǎng)絡(luò)對行人可能存在的不同形狀的適應(yīng)性,導(dǎo)致行人檢測的準(zhǔn)確性較低。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種行人檢測方法、裝置、設(shè)備、存儲介質(zhì)及產(chǎn)品,能夠提高行人檢測的準(zhǔn)確性。
2、第一方面,本技術(shù)提供一種行人檢測方法,包括:
3、獲取用于行人檢測的預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型以及待檢測圖像,所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型包括骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò),所述骨干網(wǎng)絡(luò)包括可變核卷積;
4、將所述待檢測圖像輸入至所述骨干網(wǎng)絡(luò),通過所述骨干網(wǎng)絡(luò)對所述待檢測圖像進行特征提取,得到圖像的特征信息,其中,骨干網(wǎng)絡(luò)中使用了可變核卷積;
5、通過所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型中的頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)基于所述圖像特征信息對所述待檢測圖像進行行人檢測,得到行人檢測結(jié)果。
6、在一些可能的實現(xiàn)方式中,所述通過所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型中的頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)基于所述圖像特征信息對所述待檢測圖像進行行人檢測,得到行人檢測結(jié)果,包括:
7、通過所述頸部網(wǎng)絡(luò)對所述圖像特征信息進行部分卷積和特征融合,得到特征融合后的圖像特征信息;
8、通過所述頭部網(wǎng)絡(luò)基于所述特征融合后的圖像特征信息對所述待檢測圖像進行行人檢測,得到行人檢測結(jié)果。
9、在一些可能的實現(xiàn)方式中,所述通過所述頸部網(wǎng)絡(luò)對所述圖像特征信息進行部分卷積和特征融合,得到特征融合后的圖像特征信息,包括:
10、根據(jù)預(yù)設(shè)掩碼確定所述圖像特征信息中的目標(biāo)數(shù)據(jù)點;
11、通過所述頸部網(wǎng)絡(luò)對所述目標(biāo)數(shù)據(jù)點進行逐點卷積,得到第一卷積結(jié)果;
12、對所述第一卷積結(jié)果進行部分卷積和特征融合,得到特征融合后的圖像特征信息。
13、在一些可能的實現(xiàn)方式中,在所述獲取用于行人檢測的預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型以及待檢測圖像之前,所述方法還包括:
14、獲取訓(xùn)練樣本集;所述訓(xùn)練樣本集包括多個訓(xùn)練樣本,每個所述訓(xùn)練樣本包括樣本圖像和所述樣本圖像對應(yīng)的標(biāo)注文件,所述標(biāo)注文件中包括所述樣本圖像中的行人標(biāo)識框標(biāo)簽;
15、對每個訓(xùn)練樣本,分別執(zhí)行以下步驟:
16、將所述樣本圖像輸入至預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型中,確定對所述樣本圖像中行人位置進行預(yù)測的預(yù)測檢測結(jié)果,所述預(yù)測檢測結(jié)果包括行人預(yù)測標(biāo)識框;
17、根據(jù)各個所述訓(xùn)練樣本的所述行人預(yù)測標(biāo)識框與對應(yīng)的行人標(biāo)識框標(biāo)簽,確定所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)值;
18、在所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)值不滿足預(yù)設(shè)訓(xùn)練停止條件的情況下,調(diào)整所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型的模型參數(shù),返回將所述樣本圖像輸入至預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型中,確定對所述樣本圖像中行人位置進行預(yù)測的預(yù)測檢測結(jié)果的步驟;
19、在所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)值滿足預(yù)設(shè)訓(xùn)練停止條件的情況下,停止訓(xùn)練,得到訓(xùn)練后的預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型。
20、在一些可能的實現(xiàn)方式中,所述根據(jù)各個所述訓(xùn)練樣本的所述行人預(yù)測標(biāo)識框與對應(yīng)的行人標(biāo)識框標(biāo)簽,確定所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)值,包括:
21、根據(jù)所述行人預(yù)測標(biāo)識框與行人標(biāo)識框標(biāo)簽的位置關(guān)系,計算所述行人預(yù)測標(biāo)識框與行人標(biāo)識框標(biāo)簽的重疊區(qū)域的面積,得到第一面積;
22、將所述行人預(yù)測標(biāo)識框與行人標(biāo)識框標(biāo)簽的面積之和減去所述重疊區(qū)域的面積,得到第二面積;
23、計算所述第一面積與所述第二面積的比值,得到第一交并比;
24、基于行人預(yù)測標(biāo)識框的位置與行人標(biāo)識框標(biāo)簽的位置,確定所述行人預(yù)測標(biāo)識框與所述行人標(biāo)識框標(biāo)簽之間的位置偏移信息;
25、根據(jù)所述第一交并比和所述位置偏移信息,確定diou損失值;
26、根據(jù)預(yù)設(shè)關(guān)注因子確定所述第一交并比對應(yīng)的調(diào)整幅度;
27、基于所述第一交并比、diou損失值和所述調(diào)整幅度確定所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型的損失函數(shù)值。
28、在一些可能的實現(xiàn)方式中,預(yù)設(shè)關(guān)注度因子包括第一關(guān)注度因子與第二關(guān)注度因子,所述第一關(guān)注度因子小于所述第二關(guān)注度因子,所述根據(jù)預(yù)設(shè)關(guān)注因子確定所述第一交并比對應(yīng)的調(diào)整幅度,包括:
29、在所述第一交并比小于所述第一關(guān)注因子的情況下,將所述交并比對應(yīng)的調(diào)整幅度確定為第一預(yù)設(shè)值;
30、在所述第一交并比大于所述第二關(guān)注因子的情況下,將所述交并比對應(yīng)的調(diào)整幅度確定為第二預(yù)設(shè)值,所述第一預(yù)設(shè)值小于第二預(yù)設(shè)值;
31、在所述第一交并比大于所述第一關(guān)注因子的情況下且小于所述第二關(guān)注因子的情況下,根據(jù)所述第一關(guān)注因子與所述第二關(guān)注因子的差值與所述第一交并比,確定所述第一交并比對應(yīng)的調(diào)整幅度。
32、在一些可能的實現(xiàn)方式中,所述根據(jù)所述第一交并比和所述位置偏移信息,確定損失值,包括:
33、通過以下公式確定損失值:
34、
35、其中,ldiou表示損失值,iou表示第一交并比,d為預(yù)測標(biāo)識框的基準(zhǔn)點與標(biāo)識框標(biāo)簽的基準(zhǔn)點之間的距離,c為預(yù)測框與真實框最小外接矩形對角線的距離,表示位置偏移信息。
36、在一些可能的實現(xiàn)方式中,所述獲取訓(xùn)練樣本集,包括:
37、獲取初始樣本圖像和所述初始樣本圖像對應(yīng)的標(biāo)注文件;
38、對所述初始樣本圖像進行數(shù)據(jù)擴充,得到所述初始樣本圖像對應(yīng)的多個衍生樣本圖像;
39、分別基于所述初始樣本圖像與對應(yīng)的標(biāo)注文件,以及所述衍生圖像與對應(yīng)的標(biāo)注文件構(gòu)建樣本;
40、根據(jù)所述訓(xùn)練樣本,構(gòu)建訓(xùn)練樣本集。
41、在一些可能的實現(xiàn)方式中,所述對所述初始樣本圖像進行數(shù)據(jù)擴充,包括:對所述初始樣本圖像進行翻轉(zhuǎn)、對所述初始樣本圖像進行顏色空間變換和向所述初始樣本圖像添加噪聲中的至少一項。
42、在一些可能的實現(xiàn)方式中,在所述獲取用于行人檢測的預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型以及待檢測圖像之后,所述方法還包括:
43、對所述待檢測圖像進行降噪,并增強所述待檢測圖像的對比度;
44、計算所述待檢測圖像的長寬比與目標(biāo)長寬比的比值,得到縮放比例;
45、按照所述縮放比例對所述待檢測圖像進行縮放;
46、所述將所述待檢測圖像輸入至所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型,通過所述骨干網(wǎng)絡(luò)對所述待檢測圖像進行特征提取,得到圖像的特征信息,其中,骨干網(wǎng)絡(luò)中使用了可變核卷積,包括:
47、將進行了所述縮放后的待檢測圖像輸入至所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型,通過所述骨干網(wǎng)絡(luò)對所述待檢測圖像進行特征提取,得到圖像的特征信息,其中,骨干網(wǎng)絡(luò)中使用了可變核卷積。
48、第二方面,本技術(shù)提供一種行人檢測裝置,所述裝置包括:
49、獲取模塊,用于獲取用于行人檢測的預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型以及待檢測圖像,所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型包括骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò),所述骨干網(wǎng)絡(luò)包括可變核卷積;
50、輸入模塊,用于將所述待檢測圖像輸入至所述骨干網(wǎng)絡(luò),通過所述骨干網(wǎng)絡(luò)對所述待檢測圖像進行特征提取,得到圖像的特征信息,其中,骨干網(wǎng)絡(luò)中使用了可變核卷積;
51、檢測模塊,用于通過所述預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型中的頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)基于所述圖像特征信息對所述待檢測圖像進行行人檢測,得到行人檢測結(jié)果。
52、第三方面,本技術(shù)提供一種行人檢測設(shè)備,所述設(shè)備包括:處理器,以及存儲有計算機程序指令的存儲器;所述處理器讀取并執(zhí)行所述計算機程序指令,以實現(xiàn)如上文描述的行人檢測方法。
53、第四方面,本技術(shù)提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序指令,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)如上文描述的行人檢測方法。
54、第五方面,本技術(shù)提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品中的指令由電子設(shè)備的處理器執(zhí)行時,使得所述電子設(shè)備執(zhí)行如上文描述的行人檢測方法。
55、本技術(shù)實施例提供的行人檢測方法、裝置、設(shè)備、存儲介質(zhì)及產(chǎn)品,通過可變核卷積進行特征提取,可變核卷積能夠自適應(yīng)地調(diào)整卷積核的大小和形狀,這種適應(yīng)性使得即使目標(biāo)在圖像中呈現(xiàn)不同的尺寸或方向,預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型也能夠更準(zhǔn)確地捕捉到目標(biāo)的不同部分,從而能夠更好地適應(yīng)行人等非剛性目標(biāo)的變化特征。預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型,能夠更有效地提取特征,從而提高行人檢測的性能,提高行人檢測的準(zhǔn)確性。