本發(fā)明屬于圖像處理技術領域,主要涉及一種網(wǎng)絡性能評估方法,可用于對卷積神經(jīng)網(wǎng)絡進行直觀形象的評估。
背景技術:
深度學習是近年來人工智能領域的研究熱點之一?;谏窠?jīng)網(wǎng)絡的思想,深度學習致力于模仿人腦的分布式特征表示,從像素級的原始數(shù)據(jù)到抽象的語義概念,通過逐層提取信息以實現(xiàn)更有效的特征表達。
近年來,由于大型公共圖像數(shù)據(jù)庫,如ImageNet和高性能計算系統(tǒng),如GPU,或大規(guī)模分布式集群的出現(xiàn),使卷積神經(jīng)網(wǎng)絡作為深度學習的重要組成部分,已經(jīng)在很多領域取得了重大突破諸如目標檢測、圖像分類、人臉識別等。在圖像分類領域,VGG卷積神經(jīng)網(wǎng)絡使用較小的卷積核和較深的網(wǎng)絡結構,從而能夠有效地提取到圖像的顯著性特征,在2014年的ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)大賽中VGG卷積神經(jīng)網(wǎng)絡獲得了很好的成績,不僅以很高的準確率完成了ILSVRC大賽分類和定位任務,而且同樣適用于其他數(shù)據(jù)集,例如:VOC-2007\VOC-2012數(shù)據(jù)集、Caltech-101\Caltech-256數(shù)據(jù)集,特別是其中16層深的VGG16網(wǎng)絡表現(xiàn)出很高的分類能力和很強的可移植性。
目前,人們主要通過比較網(wǎng)絡的代價函數(shù)損失值和在某個數(shù)據(jù)集上測試的準確率來評估該網(wǎng)絡的性能。然而,對于深度卷積神經(jīng)網(wǎng)絡來說,輸入的是一幅圖像,輸出的只是一個概念性的數(shù)值,并不能夠直觀形象地評估系統(tǒng)的好壞。在這種情況下,網(wǎng)絡對于大家來說相當于一個“黑匣子”,無法對網(wǎng)絡內(nèi)部框架進行分析,進而做出適當改進以提高網(wǎng)絡性能。
技術實現(xiàn)要素:
本發(fā)明的目的在于針對上述現(xiàn)有技術的不足,提供一種基于VGG16圖像反卷積的網(wǎng)絡性能評估方法,以更加直觀形象地評估網(wǎng)絡性能,使評估結果與人的主觀感知之間有較好的相關性和準確性。
本發(fā)明的技術思路是:通過比較VGG16的原始網(wǎng)絡和微調(diào)后網(wǎng)絡的反卷積圖像,分析其網(wǎng)絡性能;通過比較VGG16的原始網(wǎng)絡和微調(diào)后網(wǎng)絡第5_3層卷積層的系數(shù)衰減圖,進一步分析其網(wǎng)絡性能,具體實現(xiàn)步驟包括如下:
1.基于VGG16圖像反卷積的網(wǎng)絡性能評估方法,包括如下步驟:
1)準備好待評估的兩個網(wǎng)絡模型及其相關文件:
1a)從官網(wǎng)下載VGG16原始網(wǎng)絡模型及其相關文件,
1b)在linux系統(tǒng)下搭建caffe平臺,用VGG16原始網(wǎng)絡模型訓練好的權值參數(shù)作為初始值,對該網(wǎng)絡進行微調(diào),得到微調(diào)后的網(wǎng)絡模型及其相關文件;
1c)將VGG16原始網(wǎng)絡和微調(diào)后的網(wǎng)絡作為待評估的兩個網(wǎng)絡;
2)做出兩個待評估網(wǎng)絡“conv5_3”層的特征可視化圖像及其反卷積后的圖像:
2a)將VGG16原始網(wǎng)絡模型和微調(diào)后的網(wǎng)絡模型分別通過前向傳播過程取出“conv5_3”層的特征可視化圖;
2b)將特征可視化圖像按照VGG16原始網(wǎng)絡和微調(diào)后網(wǎng)絡框架逆向逐層進行反池化、反整流和反卷積操作,得到VGG16原始網(wǎng)絡和微調(diào)后的網(wǎng)絡的反卷積圖像;
2c)對VGG16原始網(wǎng)絡的反卷積圖像和微調(diào)后網(wǎng)絡的反卷積圖像進行比較,得出這兩種網(wǎng)絡對小型汽車的顯著性特征提取能力強弱,對待評估網(wǎng)絡進行一次評估;
3)做出特征可視化圖像的系數(shù)衰減圖:
3a)將2a)中得到的“conv5_3”層特征可視化圖像的數(shù)據(jù)保存為.mat格式的文件;
3b)在MATLAB中畫出VGG16原始網(wǎng)絡和微調(diào)后網(wǎng)絡“conv5_3”層特征可視化圖像的二維的系數(shù)衰減圖;
3c)比較3b)中兩個系數(shù)衰減圖的曲線陡峭程度:系數(shù)衰減圖的曲線陡峭程度越大,則說明待評估網(wǎng)絡提取小型汽車顯著性特征的能力越強,能夠更好地完成對小型汽車的識別分類,即網(wǎng)絡性能更好,完成對待評估網(wǎng)絡的二次評估。
本發(fā)明與現(xiàn)有技術相比具有以下優(yōu)點:
1.本發(fā)明通過比較特征可視化圖像及其反卷積后的圖像來評估網(wǎng)絡,使評估結果與人的主觀感知之間具有更好的相關性和準確性,相比以前“黑匣子”式的評估方法,能夠更加直觀形象地確認網(wǎng)絡性能的好壞。
2.本發(fā)明通過比較VGG16原始網(wǎng)絡與微調(diào)后網(wǎng)絡“conv5_3”層的系數(shù)衰減曲線圖中曲線下降的陡峭程度,判斷網(wǎng)絡對圖像顯著性特征的抓取能力,提高了網(wǎng)絡評估的準確性。
3.本發(fā)明通過可視化反卷積后的圖像并觀察其中物體顯著性特征的強弱,更能深刻地理解和認識深度卷積神經(jīng)網(wǎng)絡的內(nèi)部工作機理,從而可根據(jù)要求和實現(xiàn)目的對網(wǎng)絡進行改進。
附圖說明
圖1為本發(fā)明的實現(xiàn)流程圖;
圖2為本發(fā)明測試網(wǎng)絡性能時所使用的測試圖;
圖3為本發(fā)明反卷積過程所用的VGG16網(wǎng)絡結構圖;
圖4為VGG16原始網(wǎng)絡與微調(diào)后網(wǎng)絡“conv5_3”層的特征可視化圖像及其反卷積后的效果圖;
圖5為VGG16原始網(wǎng)絡與微調(diào)后網(wǎng)絡“conv5_3”層的系數(shù)衰減曲線圖。
具體實施方式
下面結合附圖和實例對本發(fā)明進行詳細說明。
參照圖1,本發(fā)明的實現(xiàn)步驟如:
步驟1,準備VGG16原始網(wǎng)絡與微調(diào)后網(wǎng)絡的模型極其相關文件。
1a)在caffe官網(wǎng)下載如下文件:
VGG16原始網(wǎng)絡模型VGG_ILSVRC_16_layers.caffemodel,
imagenet數(shù)據(jù)集,
均值文件ilsvrc_2012_mean.npy,
制作lmdb文件所需的create_imagenet.sh,
制作均值文件所需要的make_imagenet_mean.sh,
訓練網(wǎng)絡的參數(shù)文件solver.prototxt、train_val.prototxt,
測試所需要的文件deploy.prototxt。
1b)在linux系統(tǒng)下搭建caffe平臺,并用下載得到的文件對網(wǎng)絡進行微調(diào):
1b1)從imagenet數(shù)據(jù)集中挑選1300輛小型汽車及1300輛摩托車,并分別按照11:2的比例將其分為訓練集和測試集兩部分,第一次新建train_car和train_motor文件夾,將1100張小型汽車和1100張摩托車分別放到新建好的train_car和train_motor文件夾中;第二次新建val_car和val_motor文件夾,將另外的200張小型汽車和200張摩托車分別放到第二次新建好的val_car和val_motor文件夾中;
1b2)第三次新建文件夾train,將train_car和train_motor文件夾中的圖像數(shù)據(jù)合并后作為訓練數(shù)據(jù)集放入到該train文件夾;
1b3)第四次新建文件夾val,將val_car和val_motor文件夾中的圖像數(shù)據(jù)合并后作為測試數(shù)據(jù)集放入val文件夾;
1b4)將train_car文件夾中的全部圖片信息轉(zhuǎn)換成.txt格式并生成train_car.txt文件,再用查找替換方法給其中的圖片信息加上標簽1;再將train_motor文件夾中的全部圖片信息轉(zhuǎn)換成.txt格式并生成train_motor.txt文件,同樣用查找替換方法給該文件中的圖片信息加上標簽0,新建train.txt文件,將train_car.txt和train_motor.txt文件中的圖像數(shù)據(jù)合并到train.txt文件中;
1b5)將val_car文件夾中的全部圖片信息轉(zhuǎn)換成.txt格式并生成val_car.txt文件,并用查找替換方法給其中的圖片信息加上標簽1;再將val_motor文件夾中的全部圖片信息轉(zhuǎn)換成.txt格式并生成val_motor.txt文件,同樣用查找替換方法給該文件中的圖片信息加上標簽0,新建val.txt文件,將val_car.tx和val_motor.txt文件中的圖像數(shù)據(jù)合并到新建的val.txt文件夾中;
1b6)對下載的create_imagenet.sh文件中所調(diào)用的train、train.txt、val、val.txt四個文件的路徑進行修改,在caffe目錄下打開終端并執(zhí)行create_imagenet.sh文件,生成train_lmdb文件與val_lmdb文件;
1b7)對下載的make_imagenet_mean.sh文件中所調(diào)用的train_lmdb與val_lmdb兩個文件路徑進行修改,再執(zhí)行make_imagenet_mean.sh文件生成二進制均值文件my_mean.binaryproto;
1b8)對下載的訓練網(wǎng)絡所需文件train_val.prototxt中所調(diào)用的lmdb文件和二進制均值文件的路徑進行修改,并將最后一層全連接的名稱改為fc8t,輸出類別改為2類;
1b9)對下載的solver.prototxt文件中調(diào)用的train_val.prototxt的路徑進行修改,再對該文件中的訓練參數(shù)進行修改,即把學習率base_lr改為0.0001,最大迭代次數(shù)max_iter改為2200次;
1b10)在caffe目錄下打開終端,將VGG16網(wǎng)絡原始模型參數(shù)作為微調(diào)網(wǎng)絡的初始值,調(diào)用1b9)修改后的參數(shù)文件solver.prototxt,重新訓練VGG16網(wǎng)絡,得到微調(diào)后網(wǎng)絡的模型及其均值文件;
1b11)將下載的測試所需文件deploy.prototxt中最后一層全連接的名稱改為fc8t,輸出類別改為2類。
步驟2,準備待測試圖片。
從1a)下載的imagenet數(shù)據(jù)集中挑選出一張動物的圖片,如圖2(a)所示,從1b1)準備的測試集中挑選出一張小型汽車的圖片,如圖2(b)所示,將圖2(a)和圖2(b)作為待測試圖片。
步驟3,做出VGG16原始網(wǎng)絡和微調(diào)后網(wǎng)絡“conv5_3”層的特征可視化圖像及其反卷積后的圖像。
3a)在caffe目錄下打開jupyter notebook,在jupyter notebook中查找examples目錄下的00_classification.ipynb文件并打開,將其中的測試圖像換成2(a)所示的待測試圖像,調(diào)用下載的VGG16原始網(wǎng)絡模型及其deploy.prototxt文件和均值文件,進行前向傳播過程,之后,執(zhí)行命令Feat=net.blobs(‘conv5_3’).data[0,:]得到“conv5_3”層的特征可視化圖像;如圖4(a)所示;
3b)根據(jù)如圖3所示的VGG16網(wǎng)絡結構,將3a)得到的特征可視化圖像從“conv5_3”層按照網(wǎng)絡結構的逆向順序逐層進行反池化、反整流、反卷積操作,得到如圖4(b)所示反卷積后的圖像,其中:
反池化操作:是將前向傳播過程中池化層最大值所在位置處填入相應值,其他位置設置為0;
反整流操作:是將要進行反整流的值負數(shù)設為0,正數(shù)保留;
反卷積操作:是按反卷積公式進行計算,其中l(wèi)成是前向傳播過程中卷積層的標號,k是第l層的卷積核個數(shù),c是第l-1層的卷積核個數(shù),F(xiàn)k,c是第l層的卷積核,是將卷積核Fk,c進行上下、左右翻轉(zhuǎn),LK是該層每個卷積核對應的卷積后圖像,是輸出結果;
3c)在00_classification.ipynb文件中,將測試圖像換為待測試圖像圖2(b),調(diào)用下載的VGG16原始網(wǎng)絡模型及其deploy.prototxt文件和均值文件,進行前向傳播過程,之后,執(zhí)行命令Feat=net.blobs(‘conv5_3’).data[0,:]得到特征可視化圖4(c),并將其按圖3所示網(wǎng)絡結構從“conv5_3”層開始逆向逐層進行反池化、反整流、反卷積操作,得到反卷積后圖像圖4(d);
3d)在00_classification.ipynb文件中,將測試圖像換為待測試圖像圖2(b),調(diào)用步驟1b10)中得到的微調(diào)后網(wǎng)絡模型及其均值文件和步驟1b11)修改后的deploy.prototxt文件,進行前向傳播過程,之后,執(zhí)行命令Feat=net.blobs(‘conv5_3’).data[0,:]得到“conv5_3”層的特征可視化圖像如圖4(e)所示,并將其按圖3所示網(wǎng)絡結構從“conv5_3”層開始逆向逐層進行反池化、反整流、反卷積操作,得到反卷積后圖像,如圖4(f)所示;
3e)通過比較圖4中特征可視化圖像的稀疏程度及其對應反卷積后圖像對物體的顯著性特征提取能力強弱,對網(wǎng)絡進行一次評估:
3e1)比較“conv5_3”層的可視化圖像4(a)、4(c)及其對應的反卷積圖像4(b)、4(d),可以看出圖4(a)比圖4(c)更加稀疏,即非零值更少;同時圖4(b)比圖4(d)中物體的顯著性特征更明顯,說明VGG16原始網(wǎng)絡對動物的特征提取能力更強,通過分析VGG16原始網(wǎng)絡的訓練集ImageNet,發(fā)現(xiàn)其中動物數(shù)據(jù)比小型汽車多10倍以上,而訓練集中每類圖像的數(shù)量對于該網(wǎng)絡學習該類特征有重要的影響,這進一步說明了評估的準確性;
3e2)比較“conv5_3”層的特征可視化圖像4(c)、4(e)及其對應的反卷積圖像圖4(d)、4(f),可看出特征可視化圖像圖4(e)比圖4(c)更加稀疏,同時圖4(f)比圖4(d)中物體的的顯著性特征更加明顯且冗余特征更少,這說明微調(diào)后的網(wǎng)絡對小型汽車具有更強的特征提取能力及分類能力,則評估該網(wǎng)絡性能較好,完成對待評估網(wǎng)絡的一次評估。
步驟4,做出兩個待評估網(wǎng)絡“conv5_3”層特征可視化圖像的系數(shù)衰減圖,對待評估網(wǎng)絡進行二次評估。
4a)將4c)、4d)中得到的“conv5_3”層特征可視化圖像的數(shù)據(jù)保存為.mat格式的文件;
4b)在MATLAB中,將4a)保存的特征可視化圖的數(shù)據(jù)先整型為一個列向量,再將列向量按從大到小的順序排列,調(diào)用plot函數(shù)畫出二維的系數(shù)衰減圖,如圖5所示;
4c)比較4b)中系數(shù)衰減圖的曲線陡峭程度:系數(shù)衰減圖的曲線陡峭程度越大,則說明待評估網(wǎng)絡提取小型汽車顯著性特征的能力越強,可以看出微調(diào)后網(wǎng)絡對小型汽車做出的系數(shù)衰減曲線更加陡峭,說明微調(diào)后網(wǎng)絡能夠更好地完成對小型汽車的識別分類,即網(wǎng)絡性能更好,完成對待評估網(wǎng)絡的二次評估。
圖4和圖5的結果說明,本發(fā)明提出的網(wǎng)絡評估方法可以更加直觀地看到網(wǎng)絡內(nèi)部的工作機理,能更加直觀形象地認識到網(wǎng)絡性能的好壞,從而可根據(jù)要求和實現(xiàn)目的對網(wǎng)絡進行改進,具有較強的實用價值。