本申請屬于圖像信息處理技術(shù)領(lǐng)域,尤其涉及一種圖片風(fēng)格識別方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)消費(fèi)時(shí)代的發(fā)展,消費(fèi)者可以線上挑選自己喜愛的商品,極大的方便了用戶購物。例如消費(fèi)者可以通過線上商家展示的商品圖片選取自己喜歡的商品種類。
一般的,消費(fèi)者在線上購買商品時(shí)往往會(huì)受到多種概念因素的影響,例如比如品牌、價(jià)格、顏色、風(fēng)格類型等,這些概念因素一般可以由商家在服務(wù)操作平臺進(jìn)行人工設(shè)置。在眾多概念因素中,一些例如服裝的品牌、價(jià)格、色彩等因素通常是容易定義,且一般有著相對明確、規(guī)范的界限進(jìn)行區(qū)分。而對于其他一些商品的概念如服裝風(fēng)格,由于概念的語義性較強(qiáng),受個(gè)人主觀判斷影響嚴(yán)重等,導(dǎo)致不同的商家或消費(fèi)者對具體的某一件服裝風(fēng)格定義上出現(xiàn)較大偏差。例如有的消費(fèi)者會(huì)認(rèn)為服裝上包含了字母“ROCK”的應(yīng)該是街頭風(fēng)格,有的消費(fèi)者則會(huì)認(rèn)為服裝上有鉚釘?shù)仍氐氖墙诸^風(fēng)格。而對于服裝設(shè)計(jì)者來說,可能綜合了各種各樣的元素來組成最后的成品,其中可能包含了街頭的元素,也可能有民族或文藝的元素。經(jīng)過一些實(shí)際應(yīng)用數(shù)據(jù)分析,發(fā)現(xiàn)約有15%的消費(fèi)者在購買服裝類商品時(shí),會(huì)結(jié)合風(fēng)格關(guān)鍵詞進(jìn)行商品搜索,這個(gè)比例僅僅落后于服裝的品牌和類目兩個(gè)因素。可見商品風(fēng)格類型這個(gè)因素對于線上商品導(dǎo)購起到非常重要的作用。然而,無論是商家還是消費(fèi)者會(huì)在判斷填寫商品所屬的風(fēng)格類型時(shí)往往會(huì)因?yàn)槌霈F(xiàn)主觀因素影響出現(xiàn)較大偏差,因此類似這樣商品風(fēng)格類型的概念在商家和消費(fèi)者中常常產(chǎn)生混淆和歧義,影響商家商品的風(fēng)格分類或者消費(fèi)者商品風(fēng)格的篩選,降低商品營銷效果。這樣不僅影響成交轉(zhuǎn)化率,也降低了用戶體驗(yàn)。同時(shí),由于線上商品種類繁多,一般在涉及商品風(fēng)格類型處理的信息量較大,也會(huì)消耗作業(yè)人員大量的作業(yè)時(shí)間和勞動(dòng)量。
現(xiàn)有技術(shù)中采用人工主觀判斷的方式對商品風(fēng)格進(jìn)行識別往往會(huì)導(dǎo)致商品風(fēng)格識別結(jié)果的差異化較大,難以進(jìn)行準(zhǔn)確、合理、統(tǒng)一的風(fēng)格識別。同時(shí)采用人工識別的判斷方式也加大了作業(yè)人員商品風(fēng)格識別的工作強(qiáng)度,降低了風(fēng)格識別效率。
技術(shù)實(shí)現(xiàn)要素:
本申請目的在于提供一種圖片風(fēng)格識別方法及裝置,可以實(shí)現(xiàn)對商品圖片的商品風(fēng)格類型進(jìn)行自動(dòng)、準(zhǔn)確的識別,可以提高商品風(fēng)格識別準(zhǔn)確性和效率,降低作業(yè)人員的工作強(qiáng)度。
本申請?zhí)峁┮环N圖片風(fēng)格識別方法及裝置是這樣實(shí)現(xiàn)的:
一種圖片風(fēng)格識別方法,所述方法包括:
獲取樣本圖片,按照預(yù)設(shè)方式對所述樣本圖片進(jìn)行處理后形成樣本訓(xùn)練集;
對預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,以及將所述樣本訓(xùn)練集中的樣本圖片在所述參數(shù)初始化后的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到圖片風(fēng)格識別模型;
利用所述圖片風(fēng)格識別模型對待識別圖片進(jìn)行識別,獲取所述待識別圖片屬于不同風(fēng)格類型的概率向量,所述概率向量中每個(gè)風(fēng)格類型的概率值的取值范圍為0至1;
根據(jù)預(yù)先設(shè)置的判斷規(guī)則和所述概率向量識別所述待識別圖片所屬的風(fēng)格類型。
一種圖片風(fēng)格識別裝置,所述裝置包括:
訓(xùn)練集構(gòu)建模塊,用于獲取樣本圖片,以及按照預(yù)設(shè)方式對所述樣本圖進(jìn)行處理形成樣本訓(xùn)練集;
樣本訓(xùn)練模塊,用于存儲(chǔ)設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò);還用于對所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,以及將所述樣本訓(xùn)練集中的樣本圖片在所述參數(shù)初始化后的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到圖片風(fēng)格識別模型;
圖片識別模塊,用于利用所述圖片風(fēng)格識別模型對待識別圖片進(jìn)行識別,獲取所述待識別圖片屬于不同風(fēng)格類型的概率向量,所述概率向量中每個(gè)風(fēng)格類型的概率值的取值范圍為0至1;
風(fēng)格識別模塊,用于存儲(chǔ)預(yù)先設(shè)置的圖片風(fēng)格判斷規(guī)則,以及根據(jù)所述判斷規(guī)則和所述概率向量識別所述待識別圖片所屬的風(fēng)格類型。
本申請?zhí)峁┑膱D片風(fēng)格識別方法及裝置,采用了利用商品的圖片信息結(jié)合設(shè)置的卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行商品風(fēng)格的識別。具體的實(shí)施過程中可以利用樣本訓(xùn)練集中的樣本圖片在預(yù)先設(shè)置的特定網(wǎng)絡(luò)層結(jié)構(gòu)的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到具有圖片風(fēng)格識別能力的識別模型,進(jìn)而可以實(shí)現(xiàn)自動(dòng)識別需要進(jìn)行風(fēng)格分類的待識別圖片的風(fēng)格類型。本申請?zhí)峁┑姆椒梢詫?shí)現(xiàn)商品風(fēng)格自動(dòng)快速識別,降低作業(yè)人員工作強(qiáng)度,提高識別效率。本申請中所述的樣本訓(xùn)練集中的樣本圖片可以預(yù)先經(jīng)過歸一化和數(shù)據(jù)擴(kuò)展處理,這樣可以提高識別模型的風(fēng)格識別準(zhǔn)確性和可靠性。本申請中可以根據(jù)需要預(yù)先設(shè)置風(fēng)格判斷規(guī)則,再基于識別模型輸出的概率向量,合理、有效、準(zhǔn)確的識別出商品圖片所屬的風(fēng)格類型。利用本申請實(shí)施方案,不僅可以大大提高圖片風(fēng)格識別準(zhǔn)確率,降低作業(yè)人員的工作強(qiáng)度,還可以為用戶提 供準(zhǔn)確的款式導(dǎo)購以及為商戶提供準(zhǔn)確的商品風(fēng)格分類,可以改善用戶體驗(yàn),增加商品成交轉(zhuǎn)化率。
附圖說明
為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本申請?zhí)峁┑膱D片風(fēng)格識別方法一種實(shí)施例的方法流程圖;
圖2是本申請對服裝樣本圖片進(jìn)行裁剪的實(shí)施過程示意圖;
圖3是本申請?zhí)峁┑念A(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)一種實(shí)施例的模型結(jié)構(gòu)示意圖;
圖4是本申請一種應(yīng)用場景中第一卷積層學(xué)習(xí)到的64個(gè)高斯卷積核的可視化效果示意圖;
圖5是本申請所述服裝風(fēng)格識別裝置一種實(shí)施例的模塊結(jié)構(gòu)示意圖;
圖6是本申請?zhí)峁┑乃鰳颖居?xùn)練模塊中多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)一種實(shí)施例的模型結(jié)構(gòu)示意圖;
圖7是本申請?zhí)峁┑乃鲲L(fēng)格識別模塊一種實(shí)施例的模塊結(jié)構(gòu)示意圖;
圖8是本申請?zhí)峁┑乃鲇?xùn)練集構(gòu)建模塊一種實(shí)施例的模塊結(jié)構(gòu)示意圖;
圖9是本申請?zhí)峁┑乃鲇?xùn)練集構(gòu)建模塊另一種實(shí)施例的模塊結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請保護(hù)的范圍。
下面結(jié)合附圖對本申請所述的圖片風(fēng)格識別方法及裝置進(jìn)行詳細(xì)的說明。圖1是本申請?zhí)岢龅膱D片風(fēng)格識別方法的一種實(shí)施例的方法流程圖。雖然本申請?zhí)峁┝巳缦率鰧?shí)施例或附圖所示的方法操作步驟或裝置結(jié)構(gòu),但基于常規(guī)或者無需創(chuàng)造性的勞動(dòng)在所述方法或裝置中可以包括更多或者更少的操作步驟或模塊結(jié)構(gòu)。在邏輯性上不存在必要因果關(guān)系的步驟或結(jié)構(gòu)中,這些步驟的執(zhí)行順序或裝置的模塊結(jié)構(gòu)不限于本申請實(shí)施例提供的執(zhí)行順序或模塊結(jié)構(gòu)。所述的方法或模塊結(jié)構(gòu)的在實(shí)際中的裝置或終端產(chǎn)品執(zhí)行時(shí),可以按照實(shí)施例或者附圖 所示的方法或模塊結(jié)構(gòu)連接進(jìn)行順序執(zhí)行或者并行執(zhí)行(例如并行處理器或者多線程處理的環(huán)境)。
本申請可以從商品的圖片信息出發(fā),對商品的圖片信息進(jìn)行特征提取,然后以每個(gè)風(fēng)格為維度結(jié)合分類器進(jìn)行分類。分類器可以對商品圖片屬于各個(gè)風(fēng)格類型的可能性進(jìn)行判斷,得到相應(yīng)的概率值。本申請方法可以結(jié)合每個(gè)風(fēng)格得到的概率值對該商品可能屬于的風(fēng)格類型進(jìn)行輸出,從而識別出商品所屬的風(fēng)格類型。本申請可以以服裝商品識別為例進(jìn)行方案的具體說明,當(dāng)然,本申請所述的圖片風(fēng)格識別技術(shù)方案不僅可以用于男裝、女裝、內(nèi)衣等服裝類圖片風(fēng)格類型的識別,同樣可以適用于包括但不限于鞋、帽、箱、包、裝修風(fēng)格等商品展示圖片的風(fēng)格類型識別。具體的如圖1所示,本申請?zhí)峁┑膱D片風(fēng)格識別方法的一種實(shí)施例可以包括:
S1:獲取樣本圖片,按照預(yù)設(shè)方式對所述樣本圖片進(jìn)行處理后形成樣本訓(xùn)練集。
本申請服裝風(fēng)格實(shí)施例的應(yīng)用場景中可以獲取服裝商品的樣本圖片,具體的獲取方式可以包括預(yù)先通過網(wǎng)絡(luò)搜索或拍攝或存儲(chǔ)的數(shù)據(jù)庫中獲取等。本申請?jiān)跇?gòu)建形成所述樣本訓(xùn)練集的處理過程中,可以對不同服裝類目的圖片進(jìn)行采樣,獲取服裝樣本圖片。一般的,所述獲取的服裝樣本圖片通常為矩形形狀,當(dāng)然,本申請中所述的樣本圖片并不排除其他多邊形的形狀。一種實(shí)施例中,在實(shí)施本申請方案時(shí)可以將非矩形的樣本圖片預(yù)先處理為矩形的樣本圖片。本申請具體可以以女裝連衣裙為一種應(yīng)用場景實(shí)施例進(jìn)行說明,在本實(shí)施例中可以定義11種不同風(fēng)格的連衣裙風(fēng)格類型,然后可以對每個(gè)連衣裙風(fēng)格類型采集1500張服裝樣本圖片。本實(shí)施例中每個(gè)樣本圖片可以包括設(shè)置的圖片款式標(biāo)簽的標(biāo)注數(shù)據(jù)。
進(jìn)一步的,本申請可以根據(jù)預(yù)先設(shè)置的處理方式對樣本圖片進(jìn)行處理,形成樣本訓(xùn)練集。具體的處理方式可以根據(jù)設(shè)計(jì)需要進(jìn)行設(shè)置。一般的,設(shè)置的對樣本圖片進(jìn)行處理以形成樣本訓(xùn)練集的預(yù)設(shè)方式通常可以包括將所述樣本圖片處理成符合后續(xù)如本申請下述的卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)處理要求的方式,如將圖片處理成符合規(guī)定大小或色彩要求的格式。本申請一種實(shí)施例的應(yīng)用場景中,所述的預(yù)設(shè)方式可以包括對采集獲取的服裝樣本圖片進(jìn)行統(tǒng)一規(guī)則的歸一化處理,形成預(yù)定圖片格式的歸一化服裝樣本圖片。本實(shí)施例中進(jìn)行歸一化處理后,可以提高后續(xù)服裝風(fēng)格識別時(shí)數(shù)據(jù)處理的效率和準(zhǔn)確性。然后,本申請可以對所述歸一化處理后的服裝樣本圖片進(jìn)行數(shù)據(jù)擴(kuò)展處理,提高卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果的準(zhǔn)確性和可靠性。經(jīng)過上述處理后的服裝樣本圖片的集合可以作為本申請所述的樣本訓(xùn)練集。
所述的對服裝樣本圖片歸一化以及數(shù)據(jù)擴(kuò)展處理,可以將不同服裝樣本圖片的大小歸一化到同等大小,減少不同尺寸的圖片對確定服裝圖片風(fēng)格的影響,其具體的歸一化方案可以根據(jù)數(shù)據(jù)處理要求選擇相應(yīng)的處理方法。具體的,本申請的一種實(shí)施例中,所述按照預(yù)設(shè)方 式對所述樣本圖片進(jìn)行處理可以包括:
S101:將所述樣本圖片的顏色信息轉(zhuǎn)換為RGB三通道顏色信息;
S102:將所述樣本圖片的短邊縮放至第一預(yù)設(shè)值,相應(yīng)的,所述樣本圖片的長邊按照所述短邊的縮放比例進(jìn)行同比例縮放,形成第一樣本圖片;
S103:以所述第一樣本圖片的所述長邊和短邊的垂直中分線交點(diǎn)為中心點(diǎn)將所述第一樣本圖片裁剪為邊長為所述第一預(yù)設(shè)值的正方形樣本圖片。
實(shí)際的實(shí)施過程中,隨機(jī)采集獲取的樣本圖片的尺寸大小通常為不一致的。在本實(shí)施例中可以對采集獲取的服裝樣本圖片進(jìn)行歸一化處理。具體的主要可以包括兩個(gè)處理過程:第一個(gè)處理過程可以為將所述服裝樣本圖片的顏色信息轉(zhuǎn)換為RGB三通道顏色信息;第二個(gè)處理過程可以為將所述服裝樣本圖片的尺寸統(tǒng)一縮放為短邊為第一預(yù)設(shè)值,另一長邊則同比例縮放的第一樣本圖片。例如,本實(shí)施例中所述第一預(yù)設(shè)值可以設(shè)置為256像素,假設(shè)服裝樣本圖片的尺寸大小為[W,H],W為服裝樣本圖片寬度,H為服裝樣本圖片高度。若W>H,那么可以將所述服裝樣本圖片的高度H縮放為256像素,所述比例為H/256,相應(yīng)的,W進(jìn)行同比例縮放后為W=W/(H/256)。若W<H,則相應(yīng)的將W縮放為256像素,然后H進(jìn)行同比例縮放。舉例說明,某服裝樣本圖片P1的尺寸為800*1200像素,那么經(jīng)過上述處理后形成的第一樣本圖片P1’的尺寸為256*384像素。
本申請中所述的樣本圖片可以在申請?jiān)O(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。本申請的一種實(shí)施方式中,得到所述第一樣本圖片后,可以進(jìn)一步對所述第一樣本圖片中的非正方形圖片進(jìn)行裁剪操作,將其處理為邊長第一預(yù)設(shè)值的正方形樣本圖片。本實(shí)施例中考慮到在服裝樣本圖片中的服裝主體一般出現(xiàn)在圖片的中心區(qū)域,因此,可以在裁剪時(shí)保留所述樣本圖片的中心區(qū)域,這樣可以最大化的保留服裝樣本圖片中的服裝主體信息,提高服裝風(fēng)格識別的準(zhǔn)確性。本實(shí)施中所述的中心區(qū)域可以以所述第一樣本圖片的長邊垂直中分線和短邊垂直中分線的交點(diǎn)進(jìn)行定位處理。具體的應(yīng)用場景中,例如:
假如所述服裝樣本圖片的尺寸縮放后為[256,H],即H>256像素,那么此時(shí)可以對所述服裝樣本圖片的頂部和底部進(jìn)行對稱裁剪,從而保證可以保留所述服裝樣本圖片的中心區(qū)域并且服裝樣本圖片的垂邊H為256像素。具體的所述服裝樣本圖片的上邊和下邊可以分別裁剪(H-256)/2個(gè)像素;
假如所述服裝樣本圖片的尺寸縮放后為[W,256],即W>256像素,那么此時(shí)可以對所述服裝樣本圖片的左邊和右邊進(jìn)行對稱裁剪,從而保證可以保留所述服裝樣本圖片的中心區(qū)域并且服裝樣本圖片的橫邊W為256像素。具體的所述服裝樣本圖片的左邊和右邊可以分別裁剪(W-256)/2個(gè)像素。
本申請的一種實(shí)施例中可以對上述歸一化后的樣本圖片進(jìn)行數(shù)據(jù)擴(kuò)展。具體的可以將原有采集獲取的樣本圖片數(shù)據(jù)量采用一定方式的擴(kuò)展到預(yù)定要求的數(shù)據(jù)量,這樣可以在后續(xù)卷積神經(jīng)網(wǎng)絡(luò)處理時(shí)防止過擬合,可以提高卷積神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)處理的可靠性。本申請?zhí)峁┮环N所述數(shù)據(jù)擴(kuò)展的處理方法,具體的,本申請的一種實(shí)施例中,對所述樣本圖片進(jìn)行歸一化后進(jìn)行數(shù)據(jù)擴(kuò)展處理后,所述方法還可以包括:
分別所述邊長為所述第一預(yù)設(shè)值的正方形樣本圖片的左上角、右上角、左下角、右下角、左邊中部、右邊中部、上邊中部、下邊中部為邊界裁剪出邊長為第二預(yù)設(shè)值的正方形樣本圖片,以所述邊長為第二預(yù)設(shè)值的正方形樣本圖片的一條垂邊為軸做鏡像翻轉(zhuǎn)形成新的邊長為第二預(yù)設(shè)值的正方形樣本圖片。
本實(shí)施例提供的數(shù)據(jù)擴(kuò)展的處理方法在服裝風(fēng)格識別的應(yīng)用場景中可以將原有的服裝樣本圖片數(shù)據(jù)擴(kuò)展到原有數(shù)據(jù)量的16倍。具體的例如圖2所示,圖2是本申請對服裝樣本圖片進(jìn)行裁剪的實(shí)施過程示意圖。如圖2所示,對歸一化后邊長為256像素的正方形服裝樣本圖片PA進(jìn)行數(shù)據(jù)擴(kuò)展時(shí),可以對服裝樣本圖片PA的8個(gè)關(guān)鍵部分即本實(shí)施例中設(shè)置的左上角、右上角、左下角、右下角、左邊中部、右邊中部、上邊中部和下邊中部進(jìn)行裁剪,抽離出8張邊長為227像素的正方形樣本圖片P01、P02、P03、P04、P05、P06、P07、P08。然后可以對每一張裁剪抽離出227*227像素的正方形樣本圖片做一次以垂邊為軸的鏡像翻轉(zhuǎn),形成新的8張邊長為227像素的正方形樣本圖片P11、P12、P13、P14、P15、P16、P17、P18。這樣,所述歸一化后的服裝樣本圖片PA經(jīng)過上述數(shù)據(jù)擴(kuò)展處理后得到16張邊長為227像素的正方形樣本圖片P01、P02、P03、P04、P05、P06、P07、P08、P11、P12、P13、P14、P15、P16、P17、P18。每一張所述歸一化后的服裝樣本圖片經(jīng)過數(shù)據(jù)擴(kuò)展處理后生成的圖片集合形成本申請所述的樣本訓(xùn)練集。
需要說明的是,本實(shí)施例中所述的第二預(yù)設(shè)值227像素具體的可以根據(jù)實(shí)際的數(shù)據(jù)處理需求進(jìn)行設(shè)置。一般的,所述第二預(yù)設(shè)值設(shè)置可以略小于歸一化后的服裝樣本圖片的短邊邊長。如上述實(shí)施例中對邊長為256像素的正方形樣本圖片可以設(shè)置第二預(yù)設(shè)值為227像素。另外,本實(shí)施例中所述的鏡像翻轉(zhuǎn)具體的可以以所述邊長為第二預(yù)設(shè)值的正方形樣本圖片的左邊或者右邊的垂邊為軸進(jìn)行處理。例如本實(shí)施例應(yīng)用場景中可以以抽離出的所述邊長為227像素的正方形樣本圖片的右邊垂邊為軸進(jìn)行鏡像翻轉(zhuǎn)。
本申請中可以采集獲取樣本圖片,對獲取的樣本圖片進(jìn)行歸一化和數(shù)據(jù)擴(kuò)展處理后可以得到樣本訓(xùn)練集。
S2:對預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,以及將所述樣本訓(xùn)練集中的樣 本圖片在所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到圖片風(fēng)格識別模型。
商品的風(fēng)格識別在現(xiàn)實(shí)場景中面對的場景通常比較復(fù)雜,因而本申請可以采用將定制化的神經(jīng)網(wǎng)絡(luò)進(jìn)行重新設(shè)計(jì)形成的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本訓(xùn)練,得到具有風(fēng)格識別能力的卷積神經(jīng)網(wǎng)絡(luò)模型。本申請中使用的卷積神經(jīng)網(wǎng)絡(luò)可以是以多目標(biāo)進(jìn)行訓(xùn)練的。本申請可以預(yù)先設(shè)置所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu),將上述樣本訓(xùn)練集中的樣本圖片在預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,進(jìn)而得到可以識別圖片中商品風(fēng)格的識別模型。
一般的,在確定所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)模型后可以對所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)初始化。具體的本申請的一種實(shí)施方式中可以采用微調(diào)(fine-tuning)方法對本申請中所述的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化,這樣可以有效減少因標(biāo)注數(shù)量較少導(dǎo)致的模型訓(xùn)練不充分的影響,提高本申請圖片風(fēng)格識別的準(zhǔn)確性和可靠性。通常來說,對于風(fēng)格識別的深度學(xué)習(xí)問題而言,每個(gè)類別獲取的樣本圖片的標(biāo)注數(shù)據(jù)可能會(huì)存在數(shù)據(jù)不足的情況,特別是對于參數(shù)的有效收斂條件不充分的情況。因此,在本申請的一種實(shí)施例中可以使用微調(diào)技術(shù)(fine-tuning),通過已有的穩(wěn)定模型對本申請預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。一種實(shí)施例中具體的操作可以參考專利申請?zhí)枮椋篊N201510020689.9,《一種用于確定圖片陳列信息的方法及設(shè)備》中所示的線上穩(wěn)定模型對本申請所述的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化,初始化的網(wǎng)絡(luò)內(nèi)容可以包括全部卷積層和全連通層。待初始化完成后,多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練可以直接基于現(xiàn)有的1500張樣本圖片繼續(xù)進(jìn)行訓(xùn)練,也可以對初始化參數(shù)進(jìn)行適應(yīng)性調(diào)整后進(jìn)行訓(xùn)練,從而可以更快也更加準(zhǔn)確的收斂到風(fēng)格需要的參數(shù)內(nèi)容中。
本申請中所述預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)可以根據(jù)樣本訓(xùn)練要求和實(shí)際應(yīng)用場景進(jìn)行設(shè)計(jì)、設(shè)置。本申請?zhí)峁┮环N多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu),具體的,本申請的一種實(shí)施例中,所述預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)被設(shè)置成,可以包括:
三層卷積層、兩層全連通層、三層RELU層、三層Maxpooling層、包括至少兩個(gè)Softmax子層的Softmax層。
在本實(shí)施例的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中具體的實(shí)施過程中可以根據(jù)卷積神經(jīng)網(wǎng)絡(luò)處理需求和服裝風(fēng)格識別的設(shè)計(jì)需求設(shè)置相應(yīng)的神經(jīng)網(wǎng)絡(luò)層結(jié)構(gòu)。例如一種實(shí)施例中可以在每個(gè)卷積層接入一層RELU層和歸一化層,這樣可以避免模型訓(xùn)練過程中的過擬合問題(over-fitting)。其他的實(shí)施例中還可以在全連通層接入Dropout層,可以用于提升模型收斂的效率。當(dāng)然,實(shí)際的深度卷積神經(jīng)網(wǎng)絡(luò)可以根據(jù)應(yīng)用場景需求添加其他網(wǎng)絡(luò)結(jié)構(gòu),例如還可以添加Norm層等。
本申請的一種實(shí)施方式中,所述Softmax層的各個(gè)子層判斷得到的損失值(Loss)可以 在向后傳播(Back Propagation)并對上層的參數(shù)進(jìn)行影響。具體的,本申請所述圖片風(fēng)格識別方法的另一種實(shí)施例中,所述預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)被設(shè)置成,可以包括:
所述Softmax層的Softmax子層將判斷得到的損失值向后傳播至與所述Softmax子層連接的全連通層,所述全連通層根據(jù)接收到的所述損失值相應(yīng)的調(diào)整所述全連通層的參數(shù)。
具體的例如假設(shè)Softmax-A子層對應(yīng)的是街頭風(fēng)格,Softmax-B子層對應(yīng)的是文藝風(fēng)格,那么兩個(gè)判別函數(shù)會(huì)得到兩個(gè)Loss值,如Loss-A和Loss-B。這兩個(gè)值均可以在后向傳播時(shí)影響上一層的全連通層的參數(shù)。所述上一層的全連通層可以根據(jù)各個(gè)Softmax子層反饋過來的損失值調(diào)整優(yōu)化所述全連通層的參數(shù),進(jìn)而使所述全連通層對服裝圖片風(fēng)格的描述更為準(zhǔn)確。相應(yīng)的,在下一次服裝樣本圖片訓(xùn)練時(shí),各個(gè)所述Softmax子層可以根據(jù)上述調(diào)整優(yōu)化后的全連通層的描述信息更加準(zhǔn)確的判別服裝風(fēng)格類型。這樣,基于本實(shí)施例所述的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)及處理方式,在得到足夠量的樣本訓(xùn)練后,可以大大提高本申請中的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)圖片風(fēng)格識別的準(zhǔn)確性。
圖3是本申請?zhí)峁┑乃鲱A(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)一種實(shí)施例的模型結(jié)構(gòu)示意圖。具體的如圖3所示,本申請的一種實(shí)施例中,所述預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)被設(shè)置成,可以包括:
包括64個(gè)卷積核的第一高斯卷積層;與所述第一高斯卷積層相連的第一Maxpooling層、RELU層、歸一化層;與所述第一Maxpooling層相連的包括32個(gè)卷積核的第二高斯卷積層;與所述第二斯卷積層相連的第二Maxpooling層、RELU層、歸一化層;與所述第二Maxpooling層相連的包括16個(gè)卷積核的第三高斯卷積層;與所述第三斯卷積層相連的第三Maxpooling層、RELU層、歸一化層;所述第三Maxpooling層相連的第一全連通層;與所述第一全連通層相連的第二全連通層和Dropout層;與所述第二全連通層相連的包括N個(gè)Softmax子層的Softmax層,N≥2。
如圖3所示,本實(shí)施例中的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)可以在最后一個(gè)全連通層接入Softmax層,這里所述的Softmax層可以包括多個(gè)子層,其中每一個(gè)Softmax子層可以對應(yīng)一個(gè)服裝風(fēng)格類型的判斷函數(shù),例如Softmax-A子層對應(yīng)的是街頭風(fēng)格,Softmax-B子層對應(yīng)的是文藝風(fēng)格。所述Softmax子層中判斷函數(shù)具體的參數(shù)可以通過卷積神經(jīng)網(wǎng)絡(luò)樣本訓(xùn)練的過程進(jìn)行確認(rèn)、優(yōu)化得到。本實(shí)施例中所述的每個(gè)Softmax子層可以基于相同的全連通層中的特征信息進(jìn)行判斷,并且每個(gè)Softmax子層的判斷可以是相互獨(dú)立、互不影響的。
具體的,本實(shí)施例中使用的Softmax層可以為一個(gè)非線性分類器,可以利用全連通層輸出的特征向量與對應(yīng)的標(biāo)簽進(jìn)行分類器訓(xùn)練。整個(gè)Softmax層處理的過程通常可以包括三步:第一步可以對全連通層輸出的固定特征向量X所有維的值求最大值,記為Max_i;第二步可 以使用exp表達(dá)式將所述特征向量X中的每一維都轉(zhuǎn)化到0~1之間的數(shù),即特征向量X中的每一維x[i]=exp(x[i]–Max_i);第三步可以對第二步轉(zhuǎn)化后的特征向量X所有的值求和,然后相應(yīng)的做歸一化,即x[i]=x[i]/sum(x[i])。
所述的卷積處理通常為一種特征提取方式,可以將圖像中符合條件的部分篩選出來。本申請的一種實(shí)施例中,所述預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中的卷積層可以采用高斯卷積層,所述的高斯卷積層主要用于包括對前一層的輸出結(jié)果與多個(gè)高斯卷積核進(jìn)行卷積操作。本實(shí)施例中所述高斯卷積核的參數(shù)可以通過學(xué)習(xí)得到。一種實(shí)施方式中,可以使用三層高斯卷積層,且每層使用的高斯卷積核的尺寸可以設(shè)置為5*5像素,同時(shí)每一個(gè)高斯卷積層中卷積核可以對服裝樣本圖片中的所有像素計(jì)算處理一遍。一般的,從深度學(xué)習(xí)的原理上來說,底層卷積層的數(shù)據(jù)可以代表細(xì)粒度的特征,高層卷積層的數(shù)據(jù)可以代表抽象特征。因此,本申請的一種實(shí)施例所述的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中的卷積層中,高層的卷積層的卷積核數(shù)量可以大于底層卷積層的卷積核。在一個(gè)具體的應(yīng)用中,例如所述三個(gè)卷積層可以包括有64個(gè)卷積核的第一層卷積層(即高層卷積層)、有32個(gè)卷積核的第二層卷積層以及有16個(gè)卷積核的第三層卷積層(即底層卷積層),所述三個(gè)卷積層的卷積核的尺寸可以均為5*5像素。如圖4所示的是所述第一卷積層學(xué)習(xí)到的64個(gè)高斯卷積核的可視化效果示意圖。
本實(shí)施例中所述的Maxpooling層可以用于對上一層卷積層的輸出進(jìn)行降采樣操作,即在預(yù)先設(shè)置的固定大小的采樣窗口中選取最大值作為降采樣后的點(diǎn)的值。例如在一個(gè)具體的實(shí)施例中,所述的Maxpooling層使用的采樣窗口可以均設(shè)置為3*3像素,采樣間隔可以為2個(gè)像素。
一般的,神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元有著不飽和的非線性特性。傳統(tǒng)的神經(jīng)元的輸出與輸入x之間有著飽和的非線性特性,即f(x)=tanh(x),而不飽和的非線性特性則使神經(jīng)元有著新的函數(shù)關(guān)系f(x)=(0,x)。本實(shí)施例中所述RELU(rectified linear unit,校正線性單元,一種激活函數(shù))層主要可以用于對上一層數(shù)據(jù)結(jié)果進(jìn)行修正,包括將上一層小于0的輸入全部變成0后輸出,大于0的輸出不變。本實(shí)施例中使用RELU層可以提高所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)模型整體的訓(xùn)練效率。
本申請實(shí)施例中可以在所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中的RELU層接入歸一化層,可以用于增強(qiáng)所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)整體的泛化性能。在具體的處理過程中,所述歸一化可以是基于每個(gè)像素的局部窗口,即可以進(jìn)行局部歸一化操作。所述局部窗口的大小可以與所述卷積層卷積核的尺寸大小相同,如5*5像素。
本申請實(shí)施例中所述全聯(lián)通層可以作為上下兩層的節(jié)點(diǎn)之間的連接層,將上下兩層所得到的各節(jié)點(diǎn)數(shù)據(jù)建立連接關(guān)系。例如本實(shí)施例中所述全聯(lián)通層的輸出可以是128維的矩陣。
本實(shí)施例中所述的Dropout(休眠層)層可以用于提升模型收斂的效率,例如可以隨機(jī)讓上一層50%的輸出節(jié)點(diǎn)的數(shù)據(jù)為0,避免過擬合。
本申請?jiān)谀P陀?xùn)練過程中可以不需要對樣本訓(xùn)練集中的樣本圖片進(jìn)行特征預(yù)處理,可以將所述樣本圖片本身作為一個(gè)特征輸入所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)。這樣所述樣本訓(xùn)練集中每張圖片經(jīng)過訓(xùn)練可以直接轉(zhuǎn)化為相應(yīng)的特征矩陣[W,H,C]。然后可以每次以K張樣本圖片為單位將所述樣本訓(xùn)練集中的所有圖片調(diào)入所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)。本實(shí)施例的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)避免了例如服裝樣本圖片前期的背景處理、干擾信息處理等對圖片整體或局部特征預(yù)處理的過程,可以直接使用整個(gè)樣本圖片進(jìn)行訓(xùn)練和識別,提高了圖片風(fēng)格識別效率。所述的K可以根據(jù)數(shù)據(jù)處理需求進(jìn)行設(shè)置,一般的可以取值32或64。
具體的,在上訓(xùn)練過程中可以采用隨機(jī)梯度下降方法對上述的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代學(xué)習(xí)。通常每一輪的迭代會(huì)更新所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中每一層的參數(shù),例如包括網(wǎng)絡(luò)層內(nèi)節(jié)點(diǎn)的權(quán)重值以及偏執(zhí)值等,直到這些參數(shù)值收斂,以取得最優(yōu)解。具體的收斂條件可以根據(jù)數(shù)據(jù)處理需求進(jìn)行設(shè)置,一般來說,本實(shí)施例提供的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)在經(jīng)過約150000次迭代后,可以得到符合設(shè)計(jì)要求的最優(yōu)卷積神經(jīng)網(wǎng)絡(luò)模型。經(jīng)過上述樣本訓(xùn)練后得到的所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)具備了一定風(fēng)格類型識別判斷能力,因此,可以將其作為本申請所述的圖片風(fēng)格識別模型。
本申請中可以對預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,然后將所述樣本訓(xùn)練集中的樣本圖片在所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到具備判斷圖片中商品風(fēng)格類型的圖片風(fēng)格識別模型。
S3:利用所述圖片風(fēng)格識別模型對待識別圖片進(jìn)行識別,獲取所述待識別圖片屬于不同風(fēng)格類型的概率向量,所述概率向量中每個(gè)風(fēng)格類型的概率值的取值范圍為0至1。
經(jīng)過上述預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)對經(jīng)過特定方式處理的服裝樣本圖片的訓(xùn)練后,本申請可以得到具備判斷圖片風(fēng)格的服裝風(fēng)格識別模型。此時(shí)對于任意輸入的待識別圖片,本申請可以利用訓(xùn)練得到的圖片風(fēng)格識別模型對該待識別圖片進(jìn)行預(yù)測和識別,從而可以獲得一個(gè)N維的概率向量P={P1,P2,…,PN}。對于所述圖片風(fēng)格識別模型中任意一個(gè)風(fēng)格類型i,其在所述N維的概率向量中相應(yīng)的概率值Pi可以表示當(dāng)前待識別圖片屬于該風(fēng)格類型i的概率。例如一種應(yīng)用場景中可以通過所述服裝風(fēng)格識別模型獲取連衣裙圖片PA的11維的概率向量P={0.70,0.35,0.98,0.84,0.69,0.11,0.20,0.48,0.97,0.92},可以依次表示為該連衣裙圖片PA屬于文藝風(fēng)、街頭風(fēng)、清新風(fēng),學(xué)院風(fēng),百搭風(fēng),朋克風(fēng),中性,民族風(fēng),歐美風(fēng)、淑女風(fēng)、田園風(fēng)的概率。
需要說明的是,本申請中設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果數(shù)據(jù)在最后進(jìn)行圖片風(fēng)格判定時(shí)得到N個(gè)特征值,如P={P1,P2,…,PN}。對于傳統(tǒng)常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)而言,所有N個(gè)特征值的概率和是1,即:
而本申請實(shí)施例所述預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)得到的每個(gè)圖片風(fēng)格類型的概率都可以為屬于0到1,即本申請實(shí)施例中的pi∈[1,N]。本申請實(shí)施例設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)可以有效提升樣本圖片的訓(xùn)練效果及待識別樣本圖片風(fēng)格識別的準(zhǔn)確性。
利用上述訓(xùn)練得到的圖片風(fēng)格識別模型對待識別圖片進(jìn)行識別,可以獲取所述待識別圖片屬于不同風(fēng)格類型的概率向量。
S4:根據(jù)預(yù)先設(shè)置的判斷規(guī)則和所述概率向量識別所述待識別圖片中所屬的風(fēng)格類型。
本實(shí)施例獲取得到待識別服裝圖片屬于不同風(fēng)格類型的概率向量后,可以根據(jù)預(yù)先設(shè)置的判斷規(guī)則,基于得到的所示概率向量識別出所述待識別服裝圖片所屬的風(fēng)格類型,最后可以輸出確定出的所述待識別服裝圖片的風(fēng)格類型。具體的判斷、輸出規(guī)則可以根據(jù)實(shí)際應(yīng)用場景和設(shè)計(jì)需求進(jìn)行設(shè)置,不同的設(shè)計(jì)人員可以基于所述預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)輸出的概率向量設(shè)置不同的判斷規(guī)則,如可以直接選取值最高的概率向量所對應(yīng)風(fēng)格類型最為最后識別出的風(fēng)格類型,或者按照某種特定方式對概率值進(jìn)行篩選、比較后確定待識別圖片所述的風(fēng)格類型?;谒龆嗄繕?biāo)卷積神經(jīng)網(wǎng)絡(luò)輸出的概率向量進(jìn)行識別判斷所述待識別圖片所屬的風(fēng)格類型的其他實(shí)施方式都應(yīng)當(dāng)屬于本申請的實(shí)施范圍內(nèi)。
本申請考慮到服裝鞋帽等商品風(fēng)格識別實(shí)際的應(yīng)用場景,提供了一種圖片風(fēng)格類型的判斷輸出機(jī)制。在該實(shí)施方案中,最后識別出的每個(gè)商品的風(fēng)格類型可以不超過M種。具體的,本申請的一種實(shí)施例中,所述根據(jù)預(yù)先設(shè)置的判斷規(guī)則和所述概率向量識別所述待識別圖片中所屬的風(fēng)格類型可以包括:
從所述概率向量中選取概率值最大的前M個(gè)概率值,1≤M<N,N為所述概率向量中概率值的個(gè)數(shù);以及,
若所述M個(gè)概率值均大于等于第一閾值,則判斷所述待識別圖片屬于所述M個(gè)概率值所對應(yīng)的風(fēng)格類型;
若所述M個(gè)概率值均小于所述第一閾值,且所述M個(gè)概率值中最大的概率值大于等于 第二閾值,則判斷所述待識別圖片屬于所述M個(gè)概率值中最大的概率值所對應(yīng)的風(fēng)格類型;
若所述M個(gè)概率值均小于第二閾值,且所述M個(gè)概率值中最小的概率值大于等于第三閾值,則判斷所述待識別圖片中屬于所述M個(gè)概率值所對應(yīng)的風(fēng)格類型;
若所述M個(gè)概率值均小于第二閾值,且所述M個(gè)概率值中存在至少一個(gè)概率值小于第三閾值以及至少一個(gè)概率值大于等于第三閾值,則判斷所述待識別圖片屬于所述M個(gè)概率值中大于等于第三閾值的概率值所對應(yīng)的風(fēng)格類型;
若所述M個(gè)概率值均小于第三閾值,則判斷所述待識別圖片屬于所述M個(gè)概率值所對應(yīng)的風(fēng)格類型。
本實(shí)施中所述的M的取值以及第一閾值、第二閾值、第三閾值可以根據(jù)實(shí)際的判定要求和輸出要求進(jìn)行自定義的設(shè)置。在本實(shí)施服裝風(fēng)格識別的應(yīng)用場景中,一般的,所述M可以表示為輸出的所述待識別圖片可屬于的風(fēng)格類型數(shù)的最大值,本實(shí)施例中可以設(shè)置所述第一閾值大于所述第二閾值,所述第二閾值大于所述第三閾值,所述第一閾值可以表示為設(shè)置的所述待識別服裝圖片有較高概率屬于某種風(fēng)格類型的閾值。在本實(shí)施例方案中,即使M個(gè)概率值均小于第三閾值,表示所述待識別服裝圖片屬于M個(gè)概率值所對應(yīng)的風(fēng)格類型的概率較小,低于設(shè)定的第三閾值,本實(shí)施例中仍然采用輸出所述M個(gè)概率值所對應(yīng)的風(fēng)格類型。這樣可以有效保證待識別圖片自動(dòng)、有效的識別、輸出風(fēng)格類型,保障用戶體驗(yàn)。
本申請實(shí)施例提供的圖片風(fēng)格判定規(guī)則及風(fēng)格輸出機(jī)制可以根據(jù)服裝風(fēng)格實(shí)際應(yīng)用特點(diǎn)及結(jié)合本申請?jiān)O(shè)置的特定結(jié)構(gòu)的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果,自動(dòng)、合理、有效的識別服裝風(fēng)格。與現(xiàn)有技術(shù)相比,利用本申請實(shí)施例提供的技術(shù)方案可以大大提高圖片的風(fēng)格識別準(zhǔn)確率,不僅為用戶提供準(zhǔn)確的款式導(dǎo)購以及為商戶提供準(zhǔn)確的商品風(fēng)格分類,還可以改善用戶體驗(yàn),增加商品成交轉(zhuǎn)化率。
本申請另一種優(yōu)選實(shí)施例中還提供了一種圖片風(fēng)格判定輸出規(guī)則具體實(shí)際應(yīng)用的設(shè)置方案。在本實(shí)施例方案中,最后識別出的每個(gè)圖片的風(fēng)格類型可以不超過3種,避免過多的輸出結(jié)果對造成用戶識別干擾或選擇困難。同時(shí),本實(shí)施例基于實(shí)際服裝鞋帽等場景應(yīng)用提供了一種所述第一閾值、第二閾值、第三閾值的取值范圍,可以根據(jù)準(zhǔn)確的識別、判斷出待識別圖片所屬的風(fēng)格類型。具體的,本申請的另一種實(shí)施例中,可以采用下述中的至少一種設(shè)置方式識別所述待識別圖片所屬的風(fēng)格類型:
M取值為3;
所述第一閾值取值范圍包括:0.9至0.95;
所述第二閾值取值包括:0.4至0.6;
所述第三閾值取值包括:0.2至0.3。
具體的一個(gè)應(yīng)用場景中,例如通過所述服裝風(fēng)格識別模型獲取的待識別連衣裙圖片PA的11維概率向量P={0.70,0.35,0.98,0.84,0.69,0.11,0.20,0.48,0.97,0.92}??梢詮乃龈怕氏蛄縋A中選取概率值最大的前三個(gè)值Pa,Pb,Pc,那么,相應(yīng)的判斷輸出邏輯可以包括:
S401:若所述Pa、Pb、Pc的概率值均大于等于0.9,則判斷所述待識別服裝圖片中的服裝屬于所述Pa、Pb、Pc所對應(yīng)的風(fēng)格類型。例如Pa、Pb、Pc分別為0.98、0.97、0.92時(shí)輸出三個(gè)概率值對應(yīng)的清新風(fēng)、淑女風(fēng)、田園風(fēng)。
S402:若所述Pa、Pb、Pc的概率值均小于0.9,且所述Pa、Pb、Pc中最大的概率值大于等于0.5,則判斷所述待識別服裝圖片中的服裝屬于所述Pa、Pb、Pc中最大的概率值所對應(yīng)的風(fēng)格類型。例如Pa、Pb、Pc分別為0.70、0.84、0.69時(shí)輸出0.84概率值對應(yīng)的學(xué)院風(fēng)。
S403:若所述Pa、Pb、Pc的概率值均小于0.5,且所述Pa、Pb、Pc中最小的概率值大于等于0.25,則判斷所述待識別服裝圖片中的服裝屬于所述Pa、Pb、Pc所對應(yīng)的風(fēng)格類型。
S404:若所述Pa、Pb、Pc的概率值均小于0.5,且所述Pa、Pb、Pc中存在至少一個(gè)概率值小于0.25以及至少一個(gè)概率字大于等于0.25,則判斷所述待識別服裝圖片中的服裝屬于所述Pa、Pb、Pc中大于等于0.25的概率值所對應(yīng)的風(fēng)格類型。例如Pa、Pb、Pc分別為0.35、0.20、0.48時(shí)則輸出0.35和0.48所對應(yīng)的街頭風(fēng)和歐美風(fēng)。
S405:若所述Pa、Pb、Pc的概率值均小于第三閾值,則判斷所述待識別服裝圖片中的服裝屬于所述Pa、Pb、Pc所對應(yīng)的風(fēng)格類型。
本申請?zhí)峁┝艘环N可以自動(dòng)對商品圖片中商品主體風(fēng)格進(jìn)行識別的方法,可以針對每個(gè)具體的商品圖片可以自動(dòng)的輸出多個(gè)(如3個(gè)以內(nèi))識別出的應(yīng)屬于的風(fēng)格類型。與現(xiàn)有技術(shù)相比,利用本申請實(shí)施例提供的技術(shù)方案不僅可以大大提高圖片風(fēng)格識別的準(zhǔn)確率,降低作業(yè)人員的工作強(qiáng)度,還可以為用戶提供準(zhǔn)確的款式導(dǎo)購以及為商戶提供準(zhǔn)確的商品風(fēng)格分類,可以改善用戶體驗(yàn),增加商品成交轉(zhuǎn)化率。
基于本申請所述的圖片風(fēng)格識別方法,本申請?zhí)峁┮环N圖片風(fēng)格識別裝置。圖5是本申請所述圖片風(fēng)格識別裝置一種實(shí)施例的模塊結(jié)構(gòu)示意圖,如圖5所示,所述裝置可以包括:
訓(xùn)練集構(gòu)建模塊101,可以用于獲取樣本圖片,以及按照預(yù)設(shè)方式對所述樣本圖進(jìn)行處理形成樣本訓(xùn)練集;
樣本訓(xùn)練模塊102,可以用于存儲(chǔ)設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò);還可以用于對所述多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,以及將所述樣本訓(xùn)練集中的樣本圖片在所述參數(shù)初始化后的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到圖片風(fēng)格識別模型;
圖片識別模塊103,可以用于利用所述圖片風(fēng)格識別模型對待識別圖片進(jìn)行識別,獲取所述待識別圖片屬于不同風(fēng)格類型的概率向量,所述概率向量中每個(gè)風(fēng)格類型的概率值的取值范圍為0至1;
風(fēng)格識別模塊104,可以用于存儲(chǔ)預(yù)先設(shè)置的圖片風(fēng)格判斷規(guī)則,以及根據(jù)所述判斷規(guī)則和所述概率向量識別所述待識別圖片所屬的風(fēng)格類型。
所屬樣本訓(xùn)練模塊102中存儲(chǔ)的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)具體的可以根據(jù)不同應(yīng)用場景的數(shù)據(jù)處理需求進(jìn)行設(shè)置。圖6是本申請?zhí)峁┑乃鰳颖居?xùn)練模塊102中多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)一種實(shí)施例的模型結(jié)構(gòu)示意圖,如圖6所示,所述樣本訓(xùn)練模塊102中存儲(chǔ)設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)被設(shè)置成可以包括:
三層卷積層、兩層全連通層、三層RELU層、三層Maxpooling層、包括至少兩個(gè)Softmax子層的Softmax層。
當(dāng)然,如其他實(shí)施例所述,在實(shí)際設(shè)計(jì)多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)時(shí)還可以增加一個(gè)或多個(gè)層結(jié)構(gòu),例如增加Maxpooling層、RELU層、歸一化層、Dropout層等。
在一種實(shí)施例中,所述預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)可以被設(shè)置成,包括:
所述Softmax層的Softmax子層將判斷得到的損失值向后傳播至與所述Softmax子層連接的全連通層,所述全連通層根據(jù)接收到的所述損失值相應(yīng)的調(diào)整所述全連通層的參數(shù)。
這樣,與所述Softmax子層連接的全連通層可以根據(jù)各個(gè)Softmax子層反饋過來的損失值調(diào)整優(yōu)化所述全連通層的參數(shù),進(jìn)而使所述全連通層對圖片風(fēng)格的描述更為準(zhǔn)確。相應(yīng)的,在下一次樣本圖片訓(xùn)練時(shí),各個(gè)所述Softmax子層可以根據(jù)上述調(diào)整優(yōu)化后的全連通層的描述信息更加準(zhǔn)確的判別圖片風(fēng)格類型。
在本申請所述樣本訓(xùn)練模塊102中存儲(chǔ)設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)具體的另一種實(shí)施例中,所述預(yù)先設(shè)置的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)被設(shè)置成可以包括:
包括64個(gè)卷積核的第一高斯卷積層;與所述第一高斯卷積層相連的第一Maxpooling層、RELU層、歸一化層;與所述第一Maxpooling層相連的包括32個(gè)卷積核的第二高斯卷積層;與所述第二斯卷積層相連的第二Maxpooling層、RELU層、歸一化層;與所述第二Maxpooling層相連的包括16個(gè)卷積核的第三高斯卷積層;與所述第三斯卷積層相連的第三Maxpooling層、RELU層、歸一化層;所述第三Maxpooling層相連的第一全連通層;與所述第一全連通層相連的第二全連通層和Dropout層;與所述第二全連通層相連的包括N個(gè)Softmax子層的Softmax層,N≥2。
具體的可以參照圖3所示的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
圖7是本申請?zhí)峁┑乃鲲L(fēng)格識別模塊104一種實(shí)施例的模塊結(jié)構(gòu)示意圖。如圖7所示, 所述風(fēng)格識別模塊104可以包括:
概率值選取模塊1041,可以用于從所述概率向量中選取概率值最大的前M個(gè)概率值,1≤M<N,N為所述概率向量中概率值的個(gè)數(shù);
識別結(jié)果輸出模塊1042,可以用于采用下述中的風(fēng)格判定規(guī)則識別待識別圖片所屬的風(fēng)格類型:
若所述M個(gè)概率值均大于等于第一閾值,則判斷所述待識別圖片屬于所述M個(gè)概率值所對應(yīng)的風(fēng)格類型;
若所述M個(gè)概率值均小于所述第一閾值,且所述M個(gè)概率值中最大的概率值大于等于第二閾值,則判斷所述待識別圖片屬于所述M個(gè)概率值中最大的概率值所對應(yīng)的風(fēng)格類型;
若所述M個(gè)概率值均小于第二閾值,且所述M個(gè)概率值中最小的概率值大于等于第三閾值,則判斷所述待識別圖片中屬于所述M個(gè)概率值所對應(yīng)的風(fēng)格類型;
若所述M個(gè)概率值均小于第二閾值,且所述M個(gè)概率值中存在至少一個(gè)概率值小于第三閾值以及至少一個(gè)概率值大于等于第三閾值,則判斷所述待識別圖片屬于所述M個(gè)概率值中大于等于第三閾值的概率值所對應(yīng)的風(fēng)格類型;
若所述M個(gè)概率值均小于第三閾值,則判斷所述待識別圖片屬于所述M個(gè)概率值所對應(yīng)的風(fēng)格類型。
本申請所述風(fēng)格識別裝置的另一種實(shí)施例提供了所述風(fēng)格識別模塊104中參數(shù)具體的取值范圍的實(shí)施方式。具體的,所述風(fēng)格識別模塊104可以采用下述中的至少一種設(shè)置方式識別所述待識別圖片所屬的風(fēng)格類型:
M取值為3;
所述第一閾值取值范圍包括:0.9至0.95;
所述第二閾值取值包括:0.4至0.6;
所述第三閾值取值包括:0.2至0.3。
圖8是本申請?zhí)峁┑乃鲇?xùn)練集構(gòu)建模塊101一種實(shí)施例的模塊結(jié)構(gòu)示意圖,如圖8所示,所述訓(xùn)練集構(gòu)建模塊101可以包括:
顏色信息轉(zhuǎn)換模塊1011,可以用于將所述樣本圖片的顏色信息轉(zhuǎn)換為RGB三通道顏色信息;
縮放模塊1012,可以用于將所述樣本圖片的短邊縮放至第一預(yù)設(shè)值,以及將所述樣本圖片的長邊按照所述短邊的縮放比例進(jìn)行同比例縮放,形成第一樣本圖片;
中心區(qū)域裁剪模塊1013,可以用于以所述第一樣本圖片的所述長邊和短邊的垂直中分線交點(diǎn)為中心點(diǎn)將所述第一樣本圖片裁剪為邊長為所述第一預(yù)設(shè)值的正方形樣本圖片。
圖9是本申請?zhí)峁┑乃鲇?xùn)練集構(gòu)建模塊101另一種實(shí)施例的模塊結(jié)構(gòu)示意圖,如圖9所示,所述訓(xùn)練集構(gòu)建模塊101還可以包括:
第一擴(kuò)展模塊1014,可以用于分別以所述邊長為所述第一預(yù)設(shè)值的正方形樣本圖片的左上角、右上角、左下角、右下角、左邊中部、右邊中部、上邊中部、下邊中部為邊界裁剪出邊長為第二預(yù)設(shè)值的正方形樣本圖片;
第二擴(kuò)展模塊1015,可以用于以所述邊長為第二預(yù)設(shè)值的正方形樣本圖片的一條垂邊為軸做鏡像翻轉(zhuǎn)形成新的邊長為第二預(yù)設(shè)值的正方形樣本圖片。
上述所述訓(xùn)練集構(gòu)建模塊101的實(shí)施方式中,可以所述的對樣本圖片歸一化以及數(shù)據(jù)擴(kuò)展處理,可以將不同樣本圖片的大小歸一化到同等大小,減小不同尺寸的圖片對確定圖片風(fēng)格的影響。一種實(shí)施例中考慮到樣本圖片中的商品主體一般出現(xiàn)在圖片的中心區(qū)域,因此,可以在裁剪時(shí)保留所述樣本圖片的中心區(qū)域,這樣可以最大化的保留樣本圖片中的商品主體信息,提高風(fēng)格識別的準(zhǔn)確性。本實(shí)施例提供的數(shù)據(jù)擴(kuò)展方式可以將原有采集獲取的樣本圖片數(shù)據(jù)量擴(kuò)展到預(yù)定要求的數(shù)據(jù)量,這樣可以在后續(xù)卷積神經(jīng)網(wǎng)絡(luò)處理時(shí)防止過擬合,可以提高卷積神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)處理的可靠性。
本申請?zhí)峁┑膱D片風(fēng)格識別方法及裝置,可以利用樣本訓(xùn)練集中的樣本圖片在預(yù)先設(shè)置的特定網(wǎng)絡(luò)結(jié)構(gòu)的多目標(biāo)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到具有圖片風(fēng)格識別能力的識別模型,進(jìn)而可以實(shí)現(xiàn)自動(dòng)識別需要進(jìn)行風(fēng)格分類的待識別圖片的風(fēng)格類型。本申請?zhí)峁┑姆椒梢詫?shí)現(xiàn)商品風(fēng)格自動(dòng)快速識別,降低作業(yè)人員工作強(qiáng)度,提高識別效率。本申請中所述的樣本訓(xùn)練集中的樣本圖片可以預(yù)先經(jīng)過歸一化和數(shù)據(jù)擴(kuò)展處理,這樣可以提高識別模型的風(fēng)格識別準(zhǔn)確性和可靠性。本申請中可以根據(jù)需要預(yù)先設(shè)置風(fēng)格判斷規(guī)則,再基于識別模型輸出的概率向量,合理、有效、準(zhǔn)確的識別出商品圖片所屬的風(fēng)格類型。利用本申請實(shí)施方案,不僅可以大大提高圖片風(fēng)格識別準(zhǔn)確率,降低作業(yè)人員的工作強(qiáng)度,還可以為用戶提供準(zhǔn)確的款式導(dǎo)購以及為商戶提供準(zhǔn)確的商品風(fēng)格分類,可以改善用戶體驗(yàn),增加商品成交轉(zhuǎn)化率。
盡管本申請內(nèi)容中提到圖片裁剪、RGB通道顏色轉(zhuǎn)換、微調(diào)(fine-tuning)、卷積神經(jīng)網(wǎng)絡(luò)模型層結(jié)構(gòu)、卷積、損失反饋以及參考文獻(xiàn)等的圖片信息處理、神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)的描述,但是,本申請并不局限于必須是完全標(biāo)準(zhǔn)或者所提及的方式的信息處理、神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)的情況。本申請中各個(gè)實(shí)施例所涉及的上述描述僅是本申請中的一些實(shí)施例中的應(yīng)用,在某些標(biāo)準(zhǔn)、模型、方法的基礎(chǔ)上略加修改后的實(shí)施方式也可以實(shí)行上述本申請各實(shí)施例的方案。當(dāng)然,在符合本申請上述各實(shí)施例的中所述的處理方法步驟的其他無創(chuàng)造性的變形,仍然可以實(shí)現(xiàn)相同的申請,在此不再贅述。
雖然本申請?zhí)峁┝巳鐚?shí)施例或流程圖所述的方法操作步驟,但基于常規(guī)或者無創(chuàng)造性的勞動(dòng)可以包括更多或者更少的操作步驟。實(shí)施例中列舉的步驟順序僅僅為眾多步驟執(zhí)行順序中的一種方式,不代表唯一的執(zhí)行順序。在實(shí)際中的裝置或客戶端產(chǎn)品執(zhí)行時(shí),可以按照實(shí)施例或者附圖所示的方法順序執(zhí)行或者并行執(zhí)行(例如并行處理器或者多線程處理的環(huán)境)。
上述實(shí)施例闡明的裝置或模塊,具體可以由計(jì)算機(jī)芯片或?qū)嶓w實(shí)現(xiàn),或者由具有某種功能的產(chǎn)品來實(shí)現(xiàn)。為了描述的方便,描述以上裝置時(shí)以功能分為各種模塊分別描述。在實(shí)施本申請時(shí)可以把各模塊的功能在同一個(gè)或多個(gè)軟件和/或硬件中實(shí)現(xiàn)。當(dāng)然,也可以將實(shí)現(xiàn)某功能的模塊由多個(gè)子模塊或子單元組合實(shí)現(xiàn)。
本申請中所述的方法、裝置或模塊可以以計(jì)算機(jī)可讀程序代碼方式實(shí)現(xiàn)控制器按任何適當(dāng)?shù)姆绞綄?shí)現(xiàn),例如,控制器可以采取例如微處理器或處理器以及存儲(chǔ)可由該(微)處理器執(zhí)行的計(jì)算機(jī)可讀程序代碼(例如軟件或固件)的計(jì)算機(jī)可讀介質(zhì)、邏輯門、開關(guān)、專用集成電路(Application Specific Integrated Circuit,ASIC)、可編程邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存儲(chǔ)器控制器還可以被實(shí)現(xiàn)為存儲(chǔ)器的控制邏輯的一部分。本領(lǐng)域技術(shù)人員也知道,除了以純計(jì)算機(jī)可讀程序代碼方式實(shí)現(xiàn)控制器以外,完全可以通過將方法步驟進(jìn)行邏輯編程來使得控制器以邏輯門、開關(guān)、專用集成電路、可編程邏輯控制器和嵌入微控制器等的形式來實(shí)現(xiàn)相同功能。因此這種控制器可以被認(rèn)為是一種硬件部件,而對其內(nèi)部包括的用于實(shí)現(xiàn)各種功能的裝置也可以視為硬件部件內(nèi)的結(jié)構(gòu)?;蛘呱踔?,可以將用于實(shí)現(xiàn)各種功能的裝置視為既可以是實(shí)現(xiàn)方法的軟件模塊又可以是硬件部件內(nèi)的結(jié)構(gòu)。
本申請所述裝置中的部分模塊可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)、類等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本申請,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的硬件的方式來實(shí)現(xiàn)。基于這樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,也可以通過數(shù)據(jù)遷移的實(shí)施過程中體現(xiàn)出來。該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),移動(dòng)終端,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
本說明書中的各個(gè)實(shí)施例采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同或相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。本申請的全部或者部分可用于眾多通用或?qū)S玫挠?jì)算機(jī)系統(tǒng)環(huán)境或配置中。例如:個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、移動(dòng)通信終端、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、可編程的電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。
雖然通過實(shí)施例描繪了本申請,本領(lǐng)域普通技術(shù)人員知道,本申請有許多變形和變化而不脫離本申請的精神,希望所附的權(quán)利要求包括這些變形和變化而不脫離本申請的精神。