欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于部分參數(shù)共享的深度卷積神經(jīng)網(wǎng)絡(luò)跨域服裝檢索方法與流程

文檔序號(hào):12470181閱讀:458來(lái)源:國(guó)知局
基于部分參數(shù)共享的深度卷積神經(jīng)網(wǎng)絡(luò)跨域服裝檢索方法與流程

本發(fā)明涉及計(jì)算機(jī)視覺(jué)和圖像處理領(lǐng)域,具體地,涉及一種基于部分參數(shù)共享的深度卷積神經(jīng)網(wǎng)絡(luò)跨域服裝檢索方法。



背景技術(shù):

電商是一個(gè)巨大的,而且受到越來(lái)越多關(guān)注的市場(chǎng)。傳統(tǒng)的服裝檢索通過(guò)關(guān)鍵字來(lái)搜索,下一代的服裝檢索系統(tǒng)將會(huì)越來(lái)越多地依賴于基于內(nèi)容的圖片檢索技術(shù)。特別地,大量的研究關(guān)注點(diǎn)在跨域服裝檢索問(wèn)題上,因?yàn)榭缬蚍b檢索與現(xiàn)實(shí)生活中的實(shí)際商業(yè)需求緊密聯(lián)系,即人們通常在現(xiàn)實(shí)生活中看到了一件中意的衣服,通過(guò)智能手機(jī)拍攝下來(lái),再將圖片輸入到電商搜索引擎中,搜索相似甚至同款衣服。

經(jīng)過(guò)對(duì)現(xiàn)有技術(shù)的文獻(xiàn)檢索發(fā)現(xiàn),Huang J和Feris R S等人在“Cross-domain image retrieval with a dual attribute-aware ranking network”這篇文章中提出了一種跨域服裝檢索模型,該模型使用了兩路參數(shù)獨(dú)立但是結(jié)構(gòu)完全相同的深度卷積神經(jīng)網(wǎng)絡(luò)。該模型取得了很好的效果。

目前單路深度卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)就已經(jīng)很多了,比如AlexNet的參數(shù)在千萬(wàn)級(jí)別,參數(shù)少的GoogLeNet的參數(shù)也有數(shù)百萬(wàn),使用兩路參數(shù)獨(dú)立的深度卷積神經(jīng)網(wǎng)絡(luò),參數(shù)就加倍了。過(guò)多的參數(shù)阻礙了這類型模型在硬件比較簡(jiǎn)陋的移動(dòng)設(shè)備上的使用(比如內(nèi)存和存儲(chǔ)相對(duì)工作站小得多),同時(shí)過(guò)多的參數(shù)需要更多的數(shù)據(jù)集訓(xùn)練才能使得模型不至于過(guò)擬合。

公開(kāi)號(hào)為CN104572680A、申請(qǐng)?zhí)枮?01310485364.9的中國(guó)發(fā)明專利申請(qǐng),該發(fā)明提供一種基于顏色矩的衣服檢索方法,依次包括以下步驟:(1)輸入待檢索衣服圖片,對(duì)其進(jìn)行預(yù)處理,得到預(yù)定像素的圖片;(2)將所述預(yù)定像素的圖片均分為K塊;(3)對(duì)于每個(gè)塊,將其中每個(gè)像素由RGB顏色空間轉(zhuǎn)換到HSV顏色空間,并將每個(gè)像素值進(jìn)行歸一化操作,進(jìn)而計(jì)算該塊的顏色矩;(4)級(jí)聯(lián)待檢索衣服圖片的K塊顏色矩,得到該圖片的顏色特征,即為待檢索衣服圖片的級(jí)聯(lián)顏色矩向量;(5)遍歷衣服庫(kù)的顏色特征數(shù)據(jù)庫(kù)中的所有顏色特征,與待檢索衣服圖片的級(jí)聯(lián)顏色矩向量進(jìn)行相似性計(jì)算和比較。

但是上述專利存在以下不足:首先,對(duì)于服裝圖片來(lái)說(shuō),顏色矩特征并不是一個(gè)好的特征,顏色矩不能表達(dá)出服裝的細(xì)節(jié)信息,比如領(lǐng)形,花紋的樣式等等;其次,上述專利利用Grabcut算法來(lái)提取前景色,但是Grabcut提取前景色的效果不是非常好。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種基于部分參數(shù)共享的深度卷積神經(jīng)網(wǎng)絡(luò)跨域服裝檢索方法,該方法不僅可以能夠區(qū)分出服裝中細(xì)節(jié)的差別,而且還能減少跨域深度卷積神經(jīng)網(wǎng)絡(luò)服裝檢索模型的參數(shù)。

為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:

一種基于部分參數(shù)共享的深度卷積神經(jīng)網(wǎng)絡(luò)跨域服裝檢索方法,包括以下步驟:

S1:將街拍域、線上商品域的圖片分別輸入到兩路并行的結(jié)構(gòu)完全相同的深度卷積神經(jīng)網(wǎng)絡(luò)f中,即:將街拍域的圖片a輸入一路深度卷積神經(jīng)網(wǎng)絡(luò)得到f(a|wl,wus),將線上商品域的圖片p,n輸入到另一路深度卷積神經(jīng)網(wǎng)絡(luò)得到f(p|wl,wuo)和f(n|wl,wuo);其中wl為低層神經(jīng)網(wǎng)絡(luò)層共享的參數(shù),wus為街拍域的高層神經(jīng)網(wǎng)絡(luò)層參數(shù),wuo為線上商品域的高層神經(jīng)網(wǎng)絡(luò)參數(shù);p與a為同一款服裝,n與a為不同款服裝;

S2:計(jì)算圖片a與p的距離D(a,p)=‖f(a|wl,wus)-f(p|wl,wuo)‖2,a與n的距離D(a,n)=‖f(a|wl,wus)-f(n|wl,wuo)‖2;

S3:計(jì)算D(a,p)與D(a,n)的損失函數(shù)loss(D(a,p),D(a,n))=max{0,m+D(a,p)2-D(a,n)2},這是一個(gè)類鉸鏈損失函數(shù),使得圖片a與圖片p在深度卷積神經(jīng)網(wǎng)絡(luò)f映射的空間中距離盡可能近,而圖片a與圖片n在深度卷積神經(jīng)網(wǎng)絡(luò)f映射的空間中距離盡可能遠(yuǎn);m是一個(gè)超參數(shù),用來(lái)控制同款服裝與不同款服裝在f映射的空間中距離差別的余裕度;

S4:上述S1、S2和S3得到一個(gè)端對(duì)端的可訓(xùn)練的基于部分參數(shù)共享的深度卷積神經(jīng)網(wǎng)絡(luò)跨域服裝檢索模型,產(chǎn)生多組(a,p,n)三元圖片組通過(guò)反向傳播算法來(lái)進(jìn)行訓(xùn)練模型,得到S1步中的參數(shù)wl,wus,wuo;

S5:通過(guò)S4訓(xùn)練得到的檢索模型,將街拍域的圖片s映射為特征f(s|wl,wus),將線上商品域的圖片oi映射為f(oi|wl,wuo),i∈{1,2,…,N},其中N是線上商品庫(kù)中圖片的數(shù)量;

S6:分別計(jì)算f(s|wl,wus)與f(oi|wl,wuo)的歐式距離,即D(s,oi)=‖f(s|wl,wus)-f(oi|wl,wuo)‖2

S7:對(duì)D(s,oi)進(jìn)行由低到高的前K排序得到前K個(gè)最小歐式距離l∈{1,2,…,K},圖片即為街拍域的圖片s在線上商品域的圖片集oi,i∈{1,2,…,N}中的前K檢索結(jié)果。

優(yōu)選地,所述的S1包括以下步驟:

S101:將兩個(gè)域的三張圖片a,p,n縮放到同一大小,隨機(jī)裁剪其中一部分。

S102:輸入到兩路并行的結(jié)構(gòu)完全相同的深度卷積神經(jīng)網(wǎng)絡(luò)f中,a輸入到一路深度卷積神經(jīng)網(wǎng)絡(luò)中,得到f(a|wl,wus);p,n分別輸入到另一路深度卷積神經(jīng)網(wǎng)絡(luò)中,得到f(p|wl,wuo),f(n|wl,wuo)。

進(jìn)一步的,本發(fā)明中兩路并行的深度神經(jīng)網(wǎng)絡(luò)的低層神經(jīng)網(wǎng)絡(luò)層共享參數(shù),高層神經(jīng)網(wǎng)絡(luò)層的參數(shù)互相獨(dú)立。

本發(fā)明的原理是:深度卷積神經(jīng)網(wǎng)絡(luò)低層學(xué)習(xí)的是普適的,與域無(wú)關(guān)的特征,比如邊緣,拐角等,而高層網(wǎng)絡(luò)層學(xué)習(xí)到的是包含更多語(yǔ)義信息,與域關(guān)系更加密切的特征,比如以人臉作為數(shù)據(jù)集,高層網(wǎng)絡(luò)層會(huì)學(xué)到表征眼睛,鼻子的特征,而以服裝作為數(shù)據(jù)集,高層網(wǎng)絡(luò)層會(huì)學(xué)到表征服裝花紋,服裝質(zhì)地信息的特征?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)的這種特性,本發(fā)明將兩路深度卷積神經(jīng)網(wǎng)絡(luò)的低層網(wǎng)絡(luò)層參數(shù)共享,高層網(wǎng)絡(luò)參數(shù)層仍然由各個(gè)域自己保有。相比于直接使用獨(dú)立參數(shù)的兩路深度卷積神經(jīng)網(wǎng)絡(luò)的模型,本發(fā)明利用深度卷積神經(jīng)網(wǎng)絡(luò)自身的特性,減少了冗余的參數(shù),同時(shí)效果與直接使用獨(dú)立參數(shù)的兩路深度卷積神經(jīng)網(wǎng)絡(luò)模型相當(dāng)。

與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:

相比于直接使用獨(dú)立參數(shù)的兩路深度卷積神經(jīng)網(wǎng)絡(luò)的模型,本發(fā)明利用深度卷積神經(jīng)網(wǎng)絡(luò)自身的特性,減少了冗余的參數(shù)。在現(xiàn)實(shí)環(huán)境中,獲取大量帶有標(biāo)簽的圖片需要耗費(fèi)極大人力,本發(fā)明由于減少了冗余的參數(shù),使得達(dá)到同樣效果的情況下,只需更少的帶有標(biāo)簽的圖片。同時(shí),由于減少了大量參數(shù),使得參數(shù)所占的空間更少,有利于本發(fā)明應(yīng)用于硬件資源簡(jiǎn)陋的移動(dòng)設(shè)備上。同時(shí)本發(fā)明實(shí)驗(yàn)表明效果與直接使用獨(dú)立參數(shù)的兩路深度卷積神經(jīng)網(wǎng)絡(luò)模型相當(dāng),證明了本發(fā)明的有效性

附圖說(shuō)明

通過(guò)閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:

圖1是本發(fā)明一實(shí)施例中的流程圖;

圖2為本發(fā)明一實(shí)施例所用的深度卷積神經(jīng)網(wǎng)絡(luò)模型圖;

圖3為本發(fā)明一實(shí)施例中對(duì)服裝圖片進(jìn)行預(yù)處理的流程圖;

圖4是本發(fā)明一實(shí)施例中關(guān)于得到在線商品庫(kù)中所有服裝圖片特征庫(kù)的流程圖。

具體實(shí)施方式

下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。

本發(fā)明方法利用了深度神經(jīng)網(wǎng)絡(luò)模型中越高層的網(wǎng)絡(luò)層的特征越具有語(yǔ)義信息,與訓(xùn)練數(shù)據(jù)所在域的關(guān)系越密切,越低層的網(wǎng)絡(luò)層的特征越具有一般性,越與訓(xùn)練數(shù)據(jù)所在域無(wú)關(guān),依此讓傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)跨域服裝檢索模型中的低層的網(wǎng)絡(luò)層參數(shù)共享,而高層的網(wǎng)絡(luò)層參數(shù)由各個(gè)域保有。本發(fā)明是一種能夠使用比傳統(tǒng)深度卷積神經(jīng)網(wǎng)絡(luò)跨域服裝檢索模型方法更少參數(shù)但卻獲得相同效果的方法,通過(guò)利用深度神經(jīng)網(wǎng)絡(luò)模型內(nèi)在的特性,顯著性減少模型參數(shù)數(shù)量。

如圖1所示,為本發(fā)明一實(shí)施例的方法流程圖,所述方法包括:

第一步,如圖3所示,將兩個(gè)域的三張圖片a,p,n,分別先縮放到256像素×256像素大小,再隨機(jī)從中裁剪224像素×224像素大小的部分,輸入到兩路并行的結(jié)構(gòu)完全相同的深度卷積神經(jīng)網(wǎng)絡(luò)f中,其中a屬于街拍域,輸入到一路深度卷積神經(jīng)網(wǎng)絡(luò)中,得到f(a|wl,wus);p,n屬于線上商品域,p與a為同一款服裝,n與a為不同款服裝,分別輸入到另一路深度卷積神經(jīng)網(wǎng)絡(luò)中,得到f(p|wl,wuo),f(n|wl,wuo);其中wl為inception(5a)及更低層的神經(jīng)網(wǎng)絡(luò)層共享的參數(shù),wus為街拍域的高層神經(jīng)網(wǎng)絡(luò)層參數(shù),wuo為線上商品域的高層神經(jīng)網(wǎng)絡(luò)參數(shù),均為inception(5a)更高層的神經(jīng)網(wǎng)絡(luò)層的參數(shù)。

上述的inception(5a)為現(xiàn)有技術(shù),如Szegedy C和Liu W等人的文章“Going deeper with convolutions”中記載的。(參見(jiàn)Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:1-9.)

本實(shí)施例可以使用文章“Where to buy it:Matching street clothing photos in online shops”里面公布的“Exact Street2Shop Dataset”數(shù)據(jù)集,獲取三張圖片a,p,n。

本實(shí)施例使用GoogLeNet,參數(shù)的初始值使用caffe官網(wǎng)model zoo里提供的GoogLeNet預(yù)訓(xùn)練模型,得到f(a|wl,wus)。

第二步,計(jì)算圖片a與p的歐式距離D(a,p)=‖f(a|wl,wus)-f(p|wl,wuo)‖2,a與n的歐式距離D(a,n)=‖f(a|wl,wus)-f(n|wl,wuo)‖2。

第三步,計(jì)算D(a,p)與D(a,n)的損失函數(shù)loss(D(a,p),D(a,n))=max{0,m+D(a,p)2-D(a,n)2},這是一個(gè)類鉸鏈損失函數(shù)(hinge loss),使得圖片a與圖片p在f映射的空間中距離盡可能近,而a與圖片n在f映射的空間中距離盡可能遠(yuǎn)。

m是一個(gè)超參數(shù),用來(lái)控制同款服裝與不同款服裝在f映射的空間中距離的余裕度,本實(shí)施例設(shè)置為m=0.2。

第四步,以上三步得到了一個(gè)端對(duì)端的可訓(xùn)練的基于部分參數(shù)共享的深度卷積神經(jīng)網(wǎng)絡(luò)跨域服裝檢索模型,利用“Exact Street2Shop Dataset”數(shù)據(jù)集產(chǎn)生(a,p,n)三元組訓(xùn)練數(shù)據(jù),通過(guò)反向傳播算法來(lái)進(jìn)行訓(xùn)練模型,得到第一步中的參數(shù)wl,wus,wuo。如圖2所示。

本實(shí)施例將學(xué)習(xí)速率設(shè)置為0.001,權(quán)重衰減設(shè)為0.0002,批大小設(shè)為50,共訓(xùn)練了40個(gè)epoch。

第五步,通過(guò)訓(xùn)練得到的模型,可以將街拍域的圖片s映射為特征f(s|wl,wus),將線上商品域的圖片o映射為f(o|wl,wuo),通過(guò)計(jì)算街拍圖片特征與線上商品庫(kù)中各張圖片的特征歐式距離,并進(jìn)行由低到高的排序,即可進(jìn)行跨域服裝檢索。如圖4所示。

通過(guò)訓(xùn)練得到的模型,將街拍域的圖片s映射為特征f(s|wl,wus),將線上商品域的圖片oi,i∈{1,2,…,N}映射為f(oi|wl,wuo),i∈{1,2,…,N};

分別計(jì)算f(s|wl,wus)與f(oi|wl,wuo),i∈{1,2,…,N}的歐式距離,即D(s,oi)=‖f(s|wl,wus)-f(oi|wl,wuo)‖2,i∈{1,2,…,N};

對(duì)D(s,oi),i∈{1,2,…,N}進(jìn)行由低到高的前K排序得到前K個(gè)最小歐式距離,m∈{1,2,...,K}。圖片m∈{1,2,...,K},即為街拍域的圖片s在線上商品域的圖片集oi,i∈{1,2,…,N}中的前K檢索結(jié)果。

目前單路深度卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)就已經(jīng)很多了,比如AlexNet的參數(shù)在千萬(wàn)級(jí)別,參數(shù)少的GoogLeNet的參數(shù)也有數(shù)百萬(wàn),使用兩路參數(shù)獨(dú)立的深度卷積神經(jīng)網(wǎng)絡(luò),參數(shù)就加倍了。過(guò)多的參數(shù)阻礙了這類型模型在硬件比較簡(jiǎn)陋的移動(dòng)設(shè)備上的使用(比如內(nèi)存和存儲(chǔ)相對(duì)工作站小得多),同時(shí)過(guò)多的參數(shù)需要更多的數(shù)據(jù)集訓(xùn)練才能使得模型不至于過(guò)擬合。而本發(fā)明解決了背景技術(shù)中前者特征表達(dá)能力不強(qiáng)和后者參數(shù)過(guò)多的問(wèn)題,顯著性減少模型參數(shù)數(shù)量,使得整個(gè)方法處理變得簡(jiǎn)單和快速。

以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
尖扎县| 石渠县| 阳城县| 云安县| 永寿县| 饶平县| 满洲里市| 潼南县| 沛县| 靖州| 湄潭县| 天峨县| 双柏县| 宁波市| 玉龙| 霍城县| 合江县| 通许县| 东山县| 玉田县| 云阳县| 石家庄市| 东光县| 彭阳县| 南澳县| 田阳县| 长治市| 景德镇市| 通榆县| 贵港市| 黄山市| 烟台市| 博客| 攀枝花市| 新绛县| 福建省| 沾化县| 迭部县| 安塞县| 沙洋县| 崇义县|