本公開涉及智能零售、智能質(zhì)檢,尤其涉及基于深度學(xué)習(xí)的商品標(biāo)簽區(qū)域圖像提取方法、裝置。
背景技術(shù):
1、對(duì)商品上打印的標(biāo)簽,往往對(duì)其中關(guān)鍵區(qū)域內(nèi)容比較關(guān)注,比如價(jià)格區(qū)域、質(zhì)保期、缺損區(qū)域等,這些區(qū)域占整個(gè)標(biāo)簽的面積通常很小,直接在整個(gè)圖片上進(jìn)行相關(guān)內(nèi)容識(shí)別或檢測(cè)經(jīng)常會(huì)遺漏重要內(nèi)容;另一方面,整個(gè)圖片中大部分都是不需要關(guān)注的非感興趣區(qū)域,對(duì)全圖進(jìn)行檢測(cè)也會(huì)浪費(fèi)很多的計(jì)算資源。為了提高檢測(cè)效率和檢測(cè)精度,我們需要首先用算法來將標(biāo)簽的感興趣區(qū)域分割出來,但是由于不同商品的外觀、形狀差異等原因,沒有標(biāo)簽的空白部分往往也有高光區(qū)域,傳統(tǒng)算法需要過多先驗(yàn)參數(shù)設(shè)置,通用性較差,導(dǎo)致現(xiàn)有傳統(tǒng)算法會(huì)將這些非標(biāo)簽的部分也劃分為前景。
2、比如,基于閾值分割的二值化算法:傳統(tǒng)的圖像二值化算法通常是采用閾值分割,針對(duì)某個(gè)像素值,如果低于預(yù)設(shè)的閾值,就將其分為背景,高于閾值則為前景。然后根據(jù)一些手工制定的規(guī)則去將感興趣的部分選取出來。這種算法一方面依賴于閾值的設(shè)定,對(duì)于不同場(chǎng)景需要不同的閾值,不利于整個(gè)流程的自動(dòng)化。另一方面,由于整個(gè)圖像中各個(gè)部分的光照并不均勻,直接通過閾值分割得到的結(jié)果也是十分不準(zhǔn)確。雖然之后針對(duì)這些問題有一些改進(jìn)的自適應(yīng)的二值化算法,但是效果仍然是差強(qiáng)人意,對(duì)于高光陰影等問題仍然無法得到良好的結(jié)果。針對(duì)不同的商品,需要結(jié)合各種的不同的先驗(yàn)規(guī)則,導(dǎo)致算法模型往往只能適用于特定的商品,缺乏通用性。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種基于深度學(xué)習(xí)的商品標(biāo)簽區(qū)域圖像提取方法、裝置。
2、根據(jù)本公開的第一方面,提供了一種基于深度學(xué)習(xí)的商品標(biāo)簽區(qū)域圖像提取方法。該方法包括:
3、接收商品圖像;
4、將所述商品圖像輸入預(yù)先訓(xùn)練的商品標(biāo)簽區(qū)域分割模型,得到所述商品圖像的標(biāo)簽分割結(jié)果;所述商品標(biāo)簽區(qū)域分割模型包括下采樣特征提取部分、上采樣特征融合部分和金字塔池化模塊,所述金字塔池化模塊配置有中間級(jí)卷積層,以便所述中間級(jí)卷積層對(duì)所述下采樣特征提取部分的最底層特征圖進(jìn)行上采樣,得到與所述上采樣特征融合部分各層級(jí)對(duì)應(yīng)的特征圖大小一致的目標(biāo)特征圖,以便所述商品標(biāo)簽區(qū)域分割模型將所述目標(biāo)特征圖與所述上采樣特征融合部分各層級(jí)對(duì)應(yīng)的特征圖進(jìn)行拼接處理;
5、根據(jù)所述標(biāo)簽分割結(jié)果從所述商品圖像中提取商品標(biāo)簽區(qū)域,得到商品標(biāo)簽區(qū)域圖像;所述商品標(biāo)簽區(qū)域包括價(jià)格區(qū)域、質(zhì)保期區(qū)域和標(biāo)簽缺損區(qū)域中的至少一個(gè)。
6、如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,
7、所述商品標(biāo)簽區(qū)域分割模型還包括卷積神經(jīng)網(wǎng)絡(luò);
8、所述商品標(biāo)簽區(qū)域分割模型的預(yù)先訓(xùn)練過程,通過以下步驟完成:
9、獲取多個(gè)商品拍攝圖像的已標(biāo)注商品標(biāo)簽區(qū)域的二值化圖像,作為真值;
10、將所述多個(gè)商品拍攝圖像輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳播,經(jīng)過下采樣和上采樣,輸出和商品拍攝圖像相同尺寸的特征圖;
11、根據(jù)所述真值和所述特征圖,計(jì)算損失函數(shù);
12、根據(jù)所述損失函數(shù)對(duì)所述商品標(biāo)簽區(qū)域分割模型進(jìn)行反向傳播,計(jì)算模型的權(quán)重更新梯度;
13、根據(jù)所述權(quán)重更新梯度對(duì)所述商品標(biāo)簽區(qū)域分割模型進(jìn)行權(quán)重更新;
14、當(dāng)所述損失函數(shù)的值的變化率小于預(yù)設(shè)閾值時(shí),所述商品標(biāo)簽區(qū)域分割模型訓(xùn)練完成。
15、如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,
16、所述已標(biāo)注商品標(biāo)簽區(qū)域的二值化圖像,通過以下步驟生成:
17、對(duì)所述多個(gè)商品拍攝圖像進(jìn)行人工標(biāo)注,得到標(biāo)簽前景區(qū)域;
18、根據(jù)所述標(biāo)簽前景區(qū)域?qū)ι唐放臄z圖像進(jìn)行二值化處理,得到已標(biāo)注商品標(biāo)簽區(qū)域的二值化圖像。
19、如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,
20、所述商品圖像中含黑白區(qū)域;所述標(biāo)簽分割結(jié)果為二值化圖像;其中,標(biāo)簽區(qū)域?yàn)榘咨?,非?biāo)簽區(qū)域?yàn)楹谏?/p>
21、所述商品標(biāo)簽區(qū)域?yàn)樗龆祷瘓D像中的白色區(qū)域;
22、根據(jù)所述標(biāo)簽分割結(jié)果從所述商品圖像中提取商品標(biāo)簽區(qū)域,得到商品標(biāo)簽區(qū)域圖像,包括:
23、根據(jù)所述標(biāo)簽分割結(jié)果中的白色區(qū)域?qū)ι唐穲D像進(jìn)行裁剪,得到商品標(biāo)簽區(qū)域圖像。
24、如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,
25、所述商品圖像不含黑白區(qū)域;所述標(biāo)簽分割結(jié)果為二值化圖像;其中,標(biāo)簽區(qū)域?yàn)榘咨菢?biāo)簽區(qū)域?yàn)楹谏?/p>
26、根據(jù)所述標(biāo)簽分割結(jié)果從所述商品圖像中提取商品標(biāo)簽區(qū)域,得到商品標(biāo)簽區(qū)域圖像,包括:
27、對(duì)所述商品圖像與所述二值化圖像進(jìn)行相乘運(yùn)算,得到標(biāo)簽區(qū)域;
28、根據(jù)所述標(biāo)簽區(qū)域?qū)ι唐穲D像進(jìn)行圖像提取,得到商品標(biāo)簽區(qū)域圖像。
29、如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,對(duì)所述商品圖像與所述二值化圖像進(jìn)行相乘運(yùn)算,得到標(biāo)簽區(qū)域,包括:
30、提取所述商品圖像各個(gè)像素點(diǎn)的rgb值;
31、將所述商品圖像各個(gè)像素點(diǎn)的rgb值與所述二值化圖像中對(duì)應(yīng)位置的像素點(diǎn)的rgb值進(jìn)行相乘運(yùn)算;
32、將相乘運(yùn)算后rgb值非0的區(qū)域標(biāo)注為標(biāo)簽區(qū)域。
33、如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,
34、所述商品圖像是對(duì)商品貨架上的商品的至少一段拍攝視頻中提取的至少一幀圖像,和/或,對(duì)商品貨架上的商品的至少一張拍攝圖像。
35、根據(jù)本公開的第二方面,提供了一種基于深度學(xué)習(xí)的商品標(biāo)簽區(qū)域圖像提取裝置。該裝置包括:
36、數(shù)據(jù)接收模塊,用于接收商品圖像;
37、區(qū)域分割模塊,用于將所述商品圖像輸入預(yù)先訓(xùn)練的商品標(biāo)簽區(qū)域分割模型,得到所述商品圖像的標(biāo)簽分割結(jié)果;所述商品標(biāo)簽區(qū)域分割模型包括下采樣特征提取部分、上采樣特征融合部分和金字塔池化模塊,所述金字塔池化模塊配置有中間級(jí)卷積層,以便所述中間級(jí)卷積層對(duì)所述下采樣特征提取部分的最底層特征圖進(jìn)行上采樣,得到與所述上采樣特征融合部分各層級(jí)對(duì)應(yīng)的特征圖大小一致的目標(biāo)特征圖,以便所述商品標(biāo)簽區(qū)域分割模型將所述目標(biāo)特征圖與所述上采樣特征融合部分各層級(jí)對(duì)應(yīng)的特征圖進(jìn)行拼接處理;
38、區(qū)域提取模塊,用于根據(jù)所述標(biāo)簽分割結(jié)果從所述商品圖像中提取商品標(biāo)簽區(qū)域,得到商品標(biāo)簽區(qū)域圖像;所述商品標(biāo)簽區(qū)域包括價(jià)格區(qū)域、質(zhì)保期區(qū)域和標(biāo)簽缺損區(qū)域中的至少一個(gè)。
39、根據(jù)本公開的第三方面,提供了一種電子設(shè)備。該電子設(shè)備包括:存儲(chǔ)器和處理器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如以上所述的方法。
40、根據(jù)本公開的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如根據(jù)本公開的第一方面所述的方法。
41、本公開的實(shí)施例提供的基于深度學(xué)習(xí)的商品標(biāo)簽區(qū)域圖像提取方法、裝置,包括將接收的商品圖像輸入預(yù)先訓(xùn)練的商品標(biāo)簽區(qū)域分割模型,得到標(biāo)簽分割結(jié)果;根據(jù)標(biāo)簽分割結(jié)果從商品圖像中提取商品標(biāo)簽區(qū)域,得到商品標(biāo)簽區(qū)域圖像。其中,商品標(biāo)簽區(qū)域分割模型在unet模型結(jié)構(gòu)基礎(chǔ)上,加入了金字塔池化模塊,其配置有中間級(jí)卷積層,以便中間級(jí)卷積層對(duì)模型下采樣特征提取部分的最底層特征圖進(jìn)行上采樣,得到與上采樣特征融合部分各層級(jí)對(duì)應(yīng)的特征圖大小一致的目標(biāo)特征圖,以便模型將目標(biāo)特征圖與上采樣特征融合部分各層級(jí)對(duì)應(yīng)的特征圖進(jìn)行拼接處理。以此,有效地提高了感興趣區(qū)域(商品標(biāo)簽區(qū)域)的提取效果。且,這樣設(shè)計(jì)后的商品標(biāo)簽區(qū)域分割模型,通過多尺度的上下采樣通路,融合不同層級(jí)的特征信息,對(duì)較大尺度的空間結(jié)構(gòu)信息和對(duì)較小尺度的高層語義信息都進(jìn)行了多次融合復(fù)用,具有更好的魯棒性,對(duì)于光照產(chǎn)生的高光、陰影均有更好的分割效果。
42、應(yīng)當(dāng)理解,
技術(shù)實(shí)現(xiàn)要素:
部分中所描述的內(nèi)容并非旨在限定本公開的實(shí)施例的關(guān)鍵或重要特征,亦非用于限制本公開的范圍。本公開的其它特征將通過以下的描述變得容易理解。