本發(fā)明涉及圖像處理,具體而言,涉及一種基于特征金字塔的人臉檢測(cè)方法及裝置。
背景技術(shù):
1、鑒于圖像人臉的多尺度變化,工業(yè)界目前的主流做法是基于特征金字塔的人臉檢測(cè)模型。然而在現(xiàn)有的基于特征金字塔的模型中仍無(wú)法滿(mǎn)足工業(yè)界在小尺度人臉檢測(cè)、多尺度多人臉檢測(cè)等復(fù)雜場(chǎng)景下,對(duì)人臉檢測(cè)高準(zhǔn)確率的進(jìn)一步需求。例如:采用級(jí)聯(lián)結(jié)構(gòu)構(gòu)建人臉圖像金字塔的cascade?cnn模型雖然在一定程度上緩解了在開(kāi)放場(chǎng)景中對(duì)光照、角度等敏感的問(wèn)題,但是存在在高分辨率圖像中減小人臉的檢測(cè)數(shù)量上限,因此無(wú)法適用于小尺度多人臉的場(chǎng)景需求;基于三層網(wǎng)絡(luò)結(jié)構(gòu)的mtcnn模型在大尺度單人臉檢測(cè)上具有較好的效果,但是由于在mtcnn模型中,大型錨框相關(guān)聯(lián)的頂層金字塔缺乏上下文信息,無(wú)法利用兩個(gè)相鄰尺度的不同潛在特征,因此當(dāng)多目標(biāo)人臉被分配到不同的金字塔層級(jí)時(shí),會(huì)產(chǎn)生空間信息缺失的問(wèn)題,也無(wú)法利用特征金字塔各層的全局信息,因此在多尺度多人臉檢測(cè)中存在準(zhǔn)確率較低的問(wèn)題。
2、針對(duì)上述相關(guān)技術(shù)中使用的多尺度人臉檢測(cè)方式,檢測(cè)結(jié)果準(zhǔn)確率較低的問(wèn)題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供了一種基于特征金字塔的人臉檢測(cè)方法及裝置,以至少解決相關(guān)技術(shù)中使用的多尺度人臉檢測(cè)方式,檢測(cè)結(jié)果準(zhǔn)確率較低的技術(shù)問(wèn)題。
2、根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種基于特征金字塔的人臉檢測(cè)方法,包括:獲取目標(biāo)人臉圖像,其中,所述目標(biāo)人臉圖像是需要進(jìn)行人臉檢測(cè)的圖像;利用人臉識(shí)別模型中的lp重疊池化層對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取,得到第一人臉特征信息,其中,所述人臉識(shí)別模型是基于特征金字塔網(wǎng)絡(luò)的模型,并通過(guò)多組訓(xùn)練數(shù)據(jù)通過(guò)機(jī)器學(xué)習(xí)訓(xùn)練得到,所述多組訓(xùn)練數(shù)據(jù)中的每一組訓(xùn)練數(shù)據(jù)均包括:樣本人臉圖像和所述樣本人臉圖像的樣本檢測(cè)結(jié)果;利用所述人臉識(shí)別模型中的自適應(yīng)指數(shù)池化層對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取,得到第二人臉特征信息;將所述第一人臉特征信息和所述第二人臉特征信息進(jìn)行融合,得到人臉特征融合信息;利用所述人臉識(shí)別模型中的卷積層對(duì)所述人臉特征融合信息進(jìn)行特征提取,得到第三人臉特征信息;利用所述人臉識(shí)別模型中的預(yù)測(cè)模塊對(duì)所述第三人臉特征信息進(jìn)行處理,得到所述目標(biāo)人臉圖像對(duì)應(yīng)的人臉檢測(cè)結(jié)果。
3、可選地,所述人臉識(shí)別模型采用resnet50網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),并且所述人臉識(shí)別模型將在每一級(jí)內(nèi)不改變所述目標(biāo)人臉圖像的尺寸的卷積層作為一個(gè)網(wǎng)絡(luò)階段。
4、可選地,所述人臉識(shí)別模型的通道增強(qiáng)模塊包括尺寸為1*1的卷積塊一和尺寸為3*3的卷積塊二。
5、可選地,在利用人臉識(shí)別模型中的lp重疊池化層對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取,得到第一人臉特征信息以及利用所述人臉識(shí)別模型中的自適應(yīng)指數(shù)池化層對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取之前,該基于特征金字塔的人臉檢測(cè)方法還包括:利用所述卷積塊一對(duì)所述目標(biāo)人臉圖像進(jìn)行特征提取,得到第四人臉特征信息,并利用所述卷積塊二對(duì)所述目標(biāo)人臉圖像進(jìn)行特征提取,得到第五人臉特征信息;將所述第四人臉特征信息和所述第五人臉特征信息進(jìn)行拼接,得到拼接后的人臉特征信息。
6、可選地,利用人臉識(shí)別模型中的lp重疊池化層對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取,得到第一人臉特征信息,包括:確定所述lp重疊池化層的滑動(dòng)步長(zhǎng)為1;基于所述滑動(dòng)步長(zhǎng)對(duì)所述目標(biāo)人臉圖像進(jìn)行區(qū)域分割,得到所述目標(biāo)人臉圖像的多個(gè)重疊區(qū)域;對(duì)所述多個(gè)重疊區(qū)域進(jìn)行特征提取,得到所述第一人臉特征信息。
7、可選地,利用所述人臉識(shí)別模型中的自適應(yīng)指數(shù)池化層對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取,得到第二人臉特征信息,包括:確定所述自適應(yīng)指數(shù)池化層中dsc池化層和em池化的池化比例;對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域按照所述池化比例進(jìn)行dsc池化層和em池化,得到所述第二人臉特征信息。
8、可選地,將所述第一人臉特征信息和所述第二人臉特征信息進(jìn)行融合,得到人臉特征融合信息,包括:利用relu激活函數(shù)對(duì)所述第一人臉特征信息進(jìn)行處理,得到第一權(quán)重向量;利用sigmod激活函數(shù)對(duì)所述第二人臉特征信息進(jìn)行處理,得到第二權(quán)重向量;基于所述第一權(quán)重向量、所述第二權(quán)重向量以及所述目標(biāo)人臉圖像,對(duì)所述第一人臉特征信息和所述第二人臉特征信息進(jìn)行融合,得到所述人臉特征融合信息。
9、根據(jù)本發(fā)明實(shí)施例的另外一個(gè)方面,還提供了一種基于特征金字塔的人臉檢測(cè)裝置,包括:獲取單元,用于獲取目標(biāo)人臉圖像,其中,所述目標(biāo)人臉圖像是需要進(jìn)行人臉檢測(cè)的圖像;第一提取單元,用于利用人臉識(shí)別模型中的lp重疊池化層對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取,得到第一人臉特征信息,其中,所述人臉識(shí)別模型是基于特征金字塔網(wǎng)絡(luò)的模型,并通過(guò)多組訓(xùn)練數(shù)據(jù)通過(guò)機(jī)器學(xué)習(xí)訓(xùn)練得到,所述多組訓(xùn)練數(shù)據(jù)中的每一組訓(xùn)練數(shù)據(jù)均包括:樣本人臉圖像和所述樣本人臉圖像的樣本檢測(cè)結(jié)果;第二提取單元,用于利用所述人臉識(shí)別模型中的自適應(yīng)指數(shù)池化層對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取,得到第二人臉特征信息;融合單元,用于將所述第一人臉特征信息和所述第二人臉特征信息進(jìn)行融合,得到人臉特征融合信息;第三提取單元,用于利用所述人臉識(shí)別模型中的卷積層對(duì)所述人臉特征融合信息進(jìn)行特征提取,得到第三人臉特征信息;處理單元,用于利用所述人臉識(shí)別模型中的預(yù)測(cè)模塊對(duì)所述第三人臉特征信息進(jìn)行處理,得到所述目標(biāo)人臉圖像對(duì)應(yīng)的人臉檢測(cè)結(jié)果。
10、可選地,所述人臉識(shí)別模型采用resnet50網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),并且所述人臉識(shí)別模型將在每一級(jí)內(nèi)不改變所述目標(biāo)人臉圖像的尺寸的卷積層作為一個(gè)網(wǎng)絡(luò)階段。
11、可選地,所述人臉識(shí)別模型的通道增強(qiáng)模塊包括尺寸為1*1的卷積塊一和尺寸為3*3的卷積塊二。
12、可選地,該基于特征金字塔的人臉檢測(cè)裝置還包括:第四提取單元,用于在利用人臉識(shí)別模型中的lp重疊池化層對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取,得到第一人臉特征信息以及利用所述人臉識(shí)別模型中的自適應(yīng)指數(shù)池化層對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取之前,利用所述卷積塊一對(duì)所述目標(biāo)人臉圖像進(jìn)行特征提取,得到第四人臉特征信息,并利用所述卷積塊二對(duì)所述目標(biāo)人臉圖像進(jìn)行特征提取,得到第五人臉特征信息;拼接單元,用于將所述第四人臉特征信息和所述第五人臉特征信息進(jìn)行拼接,得到拼接后的人臉特征信息。
13、可選地,所述第一提取單元,包括:第一確定模塊,用于確定所述lp重疊池化層的滑動(dòng)步長(zhǎng)為1;分割模塊,用于基于所述滑動(dòng)步長(zhǎng)對(duì)所述目標(biāo)人臉圖像進(jìn)行區(qū)域分割,得到所述目標(biāo)人臉圖像的多個(gè)重疊區(qū)域;提取模塊,用于對(duì)所述多個(gè)重疊區(qū)域進(jìn)行特征提取,得到所述第一人臉特征信息。
14、可選地,所述第二提取單元,包括:第二確定模塊,用于確定所述自適應(yīng)指數(shù)池化層中dsc池化層和em池化的池化比例;池化模塊,用于對(duì)所述目標(biāo)人臉圖像的每個(gè)區(qū)域按照所述池化比例進(jìn)行dsc池化層和em池化,得到所述第二人臉特征信息。
15、可選地,所述融合單元,包括:第一處理模塊,用于利用relu激活函數(shù)對(duì)所述第一人臉特征信息進(jìn)行處理,得到第一權(quán)重向量;第二處理模塊,用于利用sigmod激活函數(shù)對(duì)所述第二人臉特征信息進(jìn)行處理,得到第二權(quán)重向量;融合模塊,用于基于所述第一權(quán)重向量、所述第二權(quán)重向量以及所述目標(biāo)人臉圖像,對(duì)所述第一人臉特征信息和所述第二人臉特征信息進(jìn)行融合,得到所述人臉特征融合信息。
16、根據(jù)本發(fā)明實(shí)施例的另外一個(gè)方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,所述程序執(zhí)行上述中任意一種所述的基于特征金字塔的人臉檢測(cè)方法。
17、根據(jù)本發(fā)明實(shí)施例的另外一個(gè)方面,還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)執(zhí)行上述中任意一種所述的基于特征金字塔的人臉檢測(cè)方法。
18、在本發(fā)明實(shí)施例中,獲取目標(biāo)人臉圖像,其中,目標(biāo)人臉圖像是需要進(jìn)行人臉檢測(cè)的圖像;利用人臉識(shí)別模型中的lp重疊池化層對(duì)目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取,得到第一人臉特征信息,其中,人臉識(shí)別模型是基于特征金字塔網(wǎng)絡(luò)的模型,并通過(guò)多組訓(xùn)練數(shù)據(jù)通過(guò)機(jī)器學(xué)習(xí)訓(xùn)練得到,多組訓(xùn)練數(shù)據(jù)中的每一組訓(xùn)練數(shù)據(jù)均包括:樣本人臉圖像和樣本人臉圖像的樣本檢測(cè)結(jié)果;利用人臉識(shí)別模型中的自適應(yīng)指數(shù)池化層對(duì)目標(biāo)人臉圖像的每個(gè)區(qū)域進(jìn)行特征提取,得到第二人臉特征信息;將第一人臉特征信息和第二人臉特征信息進(jìn)行融合,得到人臉特征融合信息;利用人臉識(shí)別模型中的卷積層對(duì)人臉特征融合信息進(jìn)行特征提取,得到第三人臉特征信息;利用人臉識(shí)別模型中的預(yù)測(cè)模塊對(duì)第三人臉特征信息進(jìn)行處理,得到目標(biāo)人臉圖像對(duì)應(yīng)的人臉檢測(cè)結(jié)果。通過(guò)本發(fā)明提供的技術(shù)方案,實(shí)現(xiàn)了通過(guò)構(gòu)建一個(gè)多尺度人臉檢測(cè)模型,利用全新的lp重疊池化以及自適應(yīng)指數(shù)池化從而在關(guān)注重要特征的同時(shí)充分利用特征圖的全局信息,最后通過(guò)引入通道注意力將圖像的重要特征集中到權(quán)重向量中,通過(guò)與原始特征圖相乘保留有價(jià)值的特征;自適應(yīng)池化空間注意力模塊通過(guò)自適應(yīng)池化充分挖掘通道信息,利用空間注意機(jī)制整合上下文信息以進(jìn)行人臉檢測(cè)的目的,提高了人臉檢測(cè)的準(zhǔn)確性,進(jìn)而解決了相關(guān)技術(shù)中使用的多尺度人臉檢測(cè)方式,檢測(cè)結(jié)果準(zhǔn)確率較低的技術(shù)問(wèn)題。