本發(fā)明屬于服裝分類,具體涉及一種基于resnext和殘差增強的誤差最小化rvfl的服裝分類方法。
背景技術:
1、越來越多的人選擇通過網(wǎng)絡平臺購買服裝。對于人類來說,通過觀察來對物體進行分類是一項簡單的任務,但對于計算機來說,這是一個挑戰(zhàn)。網(wǎng)絡上服裝圖片的數(shù)量急劇增加,如何高效準確地對這些圖片進行分類成為一個迫切的挑戰(zhàn)。
2、雖然現(xiàn)有的分類方法可以處理簡單的圖像情況,但實際的服裝圖像具有更復雜和可變的特征,如邊緣、圓、線或這些信息的組合。理想情況下,這些信息不受翻譯、規(guī)模和光強度的影響。定向梯度直方圖(hog)、加速魯棒特征(surf)、尺度不變特征變換(sift)、加速段測試特征(fast)就是其中的一部分。一旦提取了這些特征,就可以使用支持向量機(svm)、樸素貝葉斯、決策樹、k近鄰或線性判別分析等分類器來確定未見圖像的隸屬度。
3、目前,卷積神經(jīng)網(wǎng)絡(cnn)算法因其有效捕獲抽象深度特征的能力而受到青睞。與傳統(tǒng)的特征提取方法相比,cnn能更好地克服只提取底層特征的局限,因此被廣泛應用于圖像處理領域,如yang和yu提出的分類器。為了改進信息提取過程,他們采用邊緣檢測方法將目標數(shù)據(jù)從周圍背景中明顯分離出來。在此之后,他們采用了類似于chao等設計的模型的策略,利用hog和svm進行魯棒分類。yamaguchi等人在單個服裝類目的分類上做了研究。此外,在cnn領域,研究人員對vgg16架構(gòu)進行了定制,強調(diào)基于紋理、面料類型、形狀輪廓和風格細微差別等復雜特征的服裝識別。這種修改增強了網(wǎng)絡辨別復雜服裝特征的能力。
4、現(xiàn)有主流分類網(wǎng)絡主要采用執(zhí)行多個epoch,而后取平均值作為結(jié)果導致實驗過程冗余,影響實驗精度慢等問題,而本發(fā)明所提出的網(wǎng)絡,采用remervfl代替resnext的softmax分類器,與傳統(tǒng)神經(jīng)網(wǎng)絡相比,remervfl在訓練過程中需要較少的迭代次數(shù)即可達到較低的誤差水平,從而大大降低了計算成本和時間成本,能夠在較短時間內(nèi)完成訓練過程,這對于需要快速響應或?qū)崟r處理的應用場景尤為重要。
技術實現(xiàn)思路
1、本發(fā)明的目的在于針對現(xiàn)有服裝分類算法精度低、且執(zhí)行多個epoch導致速度慢等問題,提出一種基于resnext和殘差增強的誤差最小化隨機向量函數(shù)鏈接網(wǎng)絡(tlamresnext_remervfl)的方法,使用改進后的網(wǎng)絡進行服裝分類。
2、本發(fā)明提供一種基于resnext和remervfl的服裝分類方法,該方法包括下列步驟:
3、步驟1:構(gòu)建數(shù)據(jù)集,所述數(shù)據(jù)集中的數(shù)據(jù)為服裝圖像;所述服裝圖像的標簽為服裝類型,所述服裝類型包括:連衣裙、襯衫、t恤、連身褲、短褲、長褲、毛衣和夾克;
4、步驟2:構(gòu)建服裝特征提取模型,所述服裝特征提取模型依次包括:輸入層和resnext50網(wǎng)絡;其中,所述resnext50網(wǎng)絡包括初始卷積層,所述初始卷積層包括一個7x7的卷積核,步長為2,用于減小特征圖的尺寸,并增加特征圖的深度;所述初始卷積層之后設置批歸一化操作,所述批歸一化操作之后設置最大池化層,用于進一步減小特征圖的尺寸,并增加感受野;
5、最大池化層之后是由4個殘差塊堆疊層組成的resnext50網(wǎng)絡的主干特征提取網(wǎng)絡,4個殘差塊堆疊層依次命名為layer0、layer1、layer2和layer3;在每個殘差塊堆疊層的bottleneck殘差模塊之間插入基于頻域的通道注意力機制;
6、在layer0、layer1、layer2和layer3中,bottleneck殘差模塊的數(shù)量分別是3、4、6和3;
7、相較于傳統(tǒng)的殘差塊堆疊層,本發(fā)明保留了瓶頸殘差結(jié)構(gòu)的優(yōu)點,能夠在傳輸初始特征信息的同時,在一定程度上消除初始信息中的噪聲,從而避免了傳統(tǒng)殘差模塊通過快捷機制引入過多噪聲的問題。且基于頻率特性,在經(jīng)歷三次卷積和批歸一化后,使神經(jīng)網(wǎng)絡關注于提取特征信息中高頻權重較高的特征。這種優(yōu)化后的瓶頸殘差模塊被堆疊起來,形成了resnext50的主干特征提取網(wǎng)絡。
8、resnext50網(wǎng)絡的主干特征提取網(wǎng)絡之后設置全局混合池化層;相較于普通的全局池化層,結(jié)合最大池化和平均池化等方法的優(yōu)點,能夠更全面地捕捉輸入數(shù)據(jù)的特征。最大池化傾向于保留最重要的特征(即局部最大值),而平均池化則更關注整體信息的平均?;旌铣鼗軌蚱胶膺@兩種特性,從而提高模型的泛化能力。
9、全局混合池化層之后設置remervfl網(wǎng)絡,應用于實際分類時,通過誤差最小化的優(yōu)化過程,可以顯著提高系統(tǒng)的預測精度、分類準確率和響應速度等性能指標。
10、步驟3:構(gòu)建remervfl網(wǎng)絡,所述remervfl網(wǎng)絡依次包括rvfl輸入層,隱藏層、輸出層;所述隱藏層的節(jié)點數(shù)在remervfl網(wǎng)絡訓練過程中增加,以減少訓練中的損失;
11、將步驟2中所述服裝特征提取模型提取到特征矩陣(n,m)傳入remervfl網(wǎng)絡中,其中,n表示服裝特征提取模型訓練時的batchsize,而m則是表示2048;得到由服裝特征提取模型和remervfl網(wǎng)絡組成的服裝分類模型;并使用步驟1中的數(shù)據(jù)集對所述服裝分類模型進行訓練,得到訓練好的服裝分類模型;
12、步驟4:獲取待分類的服裝圖片,輸入訓練好的服裝分類模型,得到服裝分類結(jié)果。
13、優(yōu)選的,通過遷移學習對所述服裝特征提取模型中的resnext50網(wǎng)絡的參數(shù)進行替換,所述替換包括以下步驟:
14、獲取resnext?wsl模型的網(wǎng)絡參數(shù),并將其導入到服裝特征提取模型中,覆蓋服裝特征提取模型網(wǎng)絡中的resnext50網(wǎng)絡中與所述預訓練好的resnext50相同部分的參數(shù)路徑;其中resnext?wsl模型是目前開源的最為高效的resnext預訓練模型;它是何愷明團隊提供的基于imagenet數(shù)據(jù)集微調(diào)的resnext模型。
15、優(yōu)選的,將所述bottleneck殘差模塊中插入的基于頻域的通道注意力機制中的全局平均池化層替換為全局混合池化層;對于layer0、layer1、layer2的所有bottleneck殘差模塊和layer3的前2層bottleneck殘差模塊,將所述全局混合池化層的輸出作為下一個bottleneck殘差模塊的輸入,對于layer3的第3層bottleneck殘差模塊,將所述第3層bottleneck殘差模塊的輸出,輸入resnext50網(wǎng)絡的主干特征提取網(wǎng)絡之后設置的所述全局混合池化層。
16、優(yōu)選的,步驟3中,所述remervfl網(wǎng)絡的訓練過程包括以下步驟:
17、步驟(3.1)設定remervfl網(wǎng)絡的最大隱藏層節(jié)點數(shù)lmax,最大殘差節(jié)點數(shù)nmax,期望誤差ε,隱藏節(jié)點node=100,通過rvfl流程,得到大小為(n,m+i)的權重矩陣wj和大小為(n,1)的偏置矩陣bj;通過交叉熵損失函數(shù)來計算誤差,若誤差大于期望誤差ε,則執(zhí)行步驟(3.2);否則執(zhí)行步驟4;
18、步驟(3.2)隱藏節(jié)點node的值增加1,通過rvfl流程,得到大小為(n,m+i)的權重矩陣wj和(n,1)偏置矩陣bj;其中,i表示remervfl的隱藏層點;通過交叉熵損失函數(shù)來計算誤差,若誤差沒有減小,則s+1,s用于記錄連續(xù)無效增加的節(jié)點數(shù);若s等于nmax,則認為模型達到極限,執(zhí)行步驟4;若誤差減小,則s=0,且若誤差大于期望誤差ε,則重復執(zhí)行步驟(3.2);否則執(zhí)行步驟4。
19、優(yōu)選的,步驟3中,所述最大隱藏層節(jié)點數(shù)lmax=300,最大殘差節(jié)點數(shù)nmax=6,期望誤差ε=le-3,node=100。
20、優(yōu)選的,步驟1中,所述數(shù)據(jù)集包括16000張服裝圖像;其中,12800張圖像被指定用于訓練,而3200張圖像被保留用于測試,遵循8:2的比例進行預處理,形成數(shù)據(jù)集;將所述服裝圖像的長寬大小都設置為224×224;將所述服裝圖像經(jīng)過正則化處理,映射到正態(tài)分布函數(shù)之下。
21、優(yōu)選的,所述的全局混合池化層的數(shù)學表達式如下:
22、
23、其中:f表示特征圖信息,avg表示特征圖平均值,gap(x)表示平均池化操作數(shù),gmp(x)表示最大池化操作數(shù)。
24、本發(fā)明具有的有益效果:
25、本發(fā)明的目的在于針對現(xiàn)有服裝分類算法精度低、且執(zhí)行多個epoch導致速度慢等問題,提出一種采用遷移學習的深度學習神經(jīng)網(wǎng)絡resnext來提取圖像特征,并使用殘差增強的誤差最小化隨機向量函數(shù)鏈接網(wǎng)絡(remervfl)來取代resnext網(wǎng)絡模型中的softmax分類器,以此達到發(fā)明目的。