一種改進(jìn)的并行通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法與流程

文檔序號：11458955閱讀：426來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種改進(jìn)的并行通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法與流程

本發(fā)明屬于深度學(xué)習(xí)以及大數(shù)據(jù)技術(shù)領(lǐng)域，具體涉及一種改進(jìn)的并行通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。

背景技術(shù)：

隨著社會的發(fā)展，大數(shù)據(jù)時代的來臨，與之相關(guān)的技術(shù)不斷發(fā)展和創(chuàng)新。深度學(xué)習(xí)因其能利用海量數(shù)據(jù)并通過更深層網(wǎng)絡(luò)的訓(xùn)練提高分類正確率，在近年來取得一些列突破性進(jìn)展。學(xué)者們都試圖通過增加卷積神經(jīng)網(wǎng)絡(luò)的規(guī)模來提升其性能，而增加網(wǎng)絡(luò)規(guī)模最簡單的方式就是增加“深度”。

然而基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)搭建的深度網(wǎng)絡(luò)，隨著網(wǎng)絡(luò)層數(shù)的增加,精度會達(dá)到飽和，甚至降低。文獻(xiàn)“romeroa,ballasn,kahouse,etal.fitnets:hintsforthindeepnets[j].arxivpreprintarxiv:1412.6550,2014.”中提出一種多階段訓(xùn)練方法，先分別訓(xùn)練多個淺層網(wǎng)絡(luò)，最后將多個淺層網(wǎng)絡(luò)進(jìn)行組合，從而實現(xiàn)一個深層網(wǎng)絡(luò)。這樣做需要人為地分別對多個網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)節(jié)，耗時耗力，且分別訓(xùn)練多個淺層網(wǎng)絡(luò)會丟失網(wǎng)絡(luò)之間的關(guān)聯(lián)信息，將對網(wǎng)絡(luò)最后的性能產(chǎn)生影響。文獻(xiàn)“l(fā)eecy,xies,gallagherp,etal.deeply-supervisednets[c]//proceedingsoftheeighteenthinternationalconferenceonartificialintelligenceandstatistics.2015:562-570”則在深度卷積神經(jīng)網(wǎng)絡(luò)的隱藏層引入了多個輔助分類器，該方法雖然可以一定程度地補(bǔ)償深層網(wǎng)絡(luò)誤差反向傳導(dǎo)時的梯度消失問題，但是引入的輔助分類器也會對網(wǎng)絡(luò)最后的精度產(chǎn)生影響。

更深度的網(wǎng)絡(luò)無法訓(xùn)練的問題一直沒有從根本上解決，所提出的網(wǎng)絡(luò)結(jié)構(gòu)仍然是基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)設(shè)計的，只是在訓(xùn)練過程中使用了各種優(yōu)化技巧，如：更好的網(wǎng)絡(luò)初始化參數(shù)、更高效的激勵函數(shù)等。

技術(shù)實現(xiàn)要素：

為了解決上述問題，本發(fā)明的目的在于提供一種改進(jìn)的并行通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。

為了達(dá)到上述目的，本發(fā)明提供的改進(jìn)的并行通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法包括按順序進(jìn)行的下列步驟：

1)分別利用直連和卷積兩個并行通道對卷積神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行特征提取，得到直連通道特征矩陣和卷積通道特征矩陣；

2)將步驟1)得到的兩個特征矩陣進(jìn)行合并，并輸入到最大池化層和均值池化層進(jìn)行數(shù)據(jù)降維；

3)重復(fù)步驟1)、步驟2)，得到最終特征矩陣；

4)將上述步驟3)得到的最終特征矩陣進(jìn)行全局平均池化并輸入全連接層變?yōu)橐痪S特征矩陣，并利用softmax分類器對一維特征矩陣進(jìn)行分類而對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，計算此次網(wǎng)絡(luò)訓(xùn)練的損失值；

5)利用誤差反向傳播算法進(jìn)行梯度計算，計算各層誤差項和權(quán)值梯度；

6)根據(jù)步驟4)中所得損失值判斷網(wǎng)絡(luò)是否收斂，如不收斂，依據(jù)步驟5)中獲得的權(quán)值梯度調(diào)整卷積神經(jīng)網(wǎng)絡(luò)初始化參數(shù)并重新進(jìn)行訓(xùn)練，如已收斂則輸出網(wǎng)絡(luò)訓(xùn)練結(jié)果。

在步驟1)中，所述的分別利用直連和卷積兩個并行通道對卷積神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行特征提取，得到直連通道特征矩陣和卷積通道特征矩陣的方法是：首先，將數(shù)據(jù)分別輸入直連通道和卷積通道；然后在直連通道中直接將數(shù)據(jù)映射為直連通道特征矩陣作為輸出，在卷積通道上利用多個卷積層對數(shù)據(jù)進(jìn)行卷積操作，每個卷積層的輸入是上一個卷積層的輸出，將最后一個卷積層輸出矩陣作為卷積通道的特征矩陣。

在步驟2)中，所述的將步驟1)得到的兩個特征矩陣進(jìn)行合并，并輸入到最大池化層和均值池化層進(jìn)行數(shù)據(jù)降維的方法是：首先，將直連通道所得特征矩陣和卷積通道所得特征矩陣進(jìn)行合并，即得到多個特征矩陣的集合；然后分別將所得特征矩陣輸入最大池化層和均值池化層，在最大池化層，使用濾波器取濾波器內(nèi)值的最大值，在均值池化層使用濾波器取濾波器內(nèi)的平均值。

在步驟4)中，所述的將上述步驟3)得到的最終特征矩陣進(jìn)行全局平均池化并輸入全連接層變?yōu)橐痪S特征矩陣，并利用softmax分類器對一維特征矩陣進(jìn)行分類而對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，計算此次網(wǎng)絡(luò)訓(xùn)練的損失值的方法是：首先，對最終特征矩陣進(jìn)行全局平均池化，使用和最終特征矩陣大小一致的濾波器計算特征矩陣中數(shù)據(jù)的平均值；然后，輸入全連接層，全連接層中每個神經(jīng)元分別對全局平均池化后的特征矩陣中的數(shù)據(jù)進(jìn)行非線性變換得到一維特征矩陣；最后，將一維特征矩陣輸入softmax分類器進(jìn)行分類。

在步驟5)中，所述的利用誤差反向傳播算法進(jìn)行梯度計算，計算各層誤差項和權(quán)值梯度的方法是：首先，根據(jù)softmax分類器結(jié)果計算最后一層損失值并作為最后一層的誤差項；然后，利用誤差反向傳播算法的鏈?zhǔn)椒▌t計算各層誤差項，第l個卷積層的第i個特征矩陣的誤差項為：

m為l+1層的特征矩陣個數(shù)，表示第l+1個卷積層的第j個特征矩陣的誤差項，表示對該層激活函數(shù)求導(dǎo)，j表示該層損失值，表示第l層第j個特征矩陣到l+1層第i個特征矩陣的連接權(quán)重；

最后，利用公式計算各層權(quán)值梯度，其中表示第l-1層第i個特征矩陣。

在步驟6)中，所述的根據(jù)步驟4)中所得損失值判斷網(wǎng)絡(luò)是否收斂，如不收斂，依據(jù)步驟5)中獲得的權(quán)值梯度調(diào)整卷積神經(jīng)網(wǎng)絡(luò)初始化參數(shù)并重新進(jìn)行訓(xùn)練，如已收斂則輸出網(wǎng)絡(luò)訓(xùn)練結(jié)果的方法是：首先，將分類結(jié)果和實際值比對并計算差值而作為損失值；然后將損失值和實現(xiàn)設(shè)定的分類閾值做比較，如小于分類閾值則判定網(wǎng)絡(luò)收斂，否則不收斂；最后，如收斂輸出網(wǎng)絡(luò)結(jié)果，否則根據(jù)公式w(t+1):＝w(t)+v(t+1)調(diào)整卷積神經(jīng)網(wǎng)絡(luò)初始化參數(shù)，其中t表示迭代次數(shù)，v(t)是動量項，μ為動量因子，它決定了歷史權(quán)重修正量對本次權(quán)重修正的貢獻(xiàn)大小；η為學(xué)習(xí)率；λ為權(quán)重衰減系數(shù)，w表示卷積神經(jīng)網(wǎng)絡(luò)初始化參數(shù)。

本發(fā)明提供的改進(jìn)的并行通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法的優(yōu)點(diǎn)在于：1)通過直連通道的引入可保證數(shù)據(jù)在網(wǎng)絡(luò)中的流通性，克服了深層卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時梯度不穩(wěn)定的難題，可訓(xùn)練更深層的網(wǎng)絡(luò)；2)利用最大池化和均值池化，可使兩次特征提取間的特征矩陣維度保持一致且可結(jié)合兩種池化方法的優(yōu)點(diǎn)。

附圖說明

圖1為本發(fā)明提供的改進(jìn)的并行通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法流程圖。

圖2為特征提取部分的并行通道結(jié)構(gòu)圖；

圖3為雙池化層示意圖；

圖4為并行通道卷積神經(jīng)網(wǎng)絡(luò)誤差項計算示意圖；

圖5為在cifar-10數(shù)據(jù)集上不同池化方式的性能比較；

圖6為本發(fā)明在cifar-10數(shù)據(jù)集上訓(xùn)練正確率隨迭代次數(shù)的變化曲線。

具體實施方式

下面結(jié)合附圖和具體實施例對本發(fā)明提供的改進(jìn)的并行通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法進(jìn)行詳細(xì)說明。

如圖1所示，本發(fā)明提供的改進(jìn)的并行通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法包括按順序進(jìn)行的下列步驟：

1)分別利用直連和卷積兩個并行通道對卷積神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行特征提取，得到直連通道特征矩陣和卷積通道特征矩陣；

將由數(shù)萬張大小為32×32的彩色圖像組成的數(shù)據(jù)集輸入到卷積神經(jīng)網(wǎng)絡(luò)中，本發(fā)明采用由6萬張大小為32×32的彩色圖像組成的cifar-10數(shù)據(jù)集，然后分別利用直連和卷積兩個并行通道對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行特征提取，并行通道結(jié)構(gòu)詳見圖2。在直連通道中，使用映射函數(shù)y＝x提取直連通道特征矩陣；在卷積通道中，所有卷積核尺寸為3×3、步長為1且都僅僅使用了權(quán)重項來對上一層輸出特征矩陣進(jìn)行卷積，沒有使用偏置項，故第l層的第j幅卷積響應(yīng)特征矩陣可由式(1)計算：

式中，m表示上一層輸出特征矩陣的集合；表示l-1層的第i個輸出特征矩陣，表示l層的第j幅卷積響應(yīng)特征矩陣與l-1層的第i幅輸出特征矩陣的權(quán)值，即需要學(xué)習(xí)的卷積核；“⊙”表示hadamard乘積運(yùn)算，即矩陣對應(yīng)元素相乘求和。

對卷積響應(yīng)特征矩陣上每一個神經(jīng)元利用relu激活函數(shù)進(jìn)行非線性變換，得到第l層特征矩陣為

2)將步驟1)得到的兩個特征矩陣進(jìn)行合并，并輸入到最大池化層和均值池化層進(jìn)行數(shù)據(jù)降維；

在進(jìn)行特征矩陣合并時，將每兩個卷積層得到的特征矩陣和直連通道特征矩陣做一次累加，記為一個累加模塊。為方便描述，將兩個卷積層記為一個卷積模塊，每兩個累加模塊記為一個結(jié)構(gòu)快，并對卷積模塊所得特征矩陣加入卷積衰減因子，則每個結(jié)構(gòu)塊所得特征矩陣定義如下：

y＝λ1hn1(x,{w⁽ⁿ¹⁾})+λ2hn2[hn1(x,{w⁽ⁿ¹⁾}),{w⁽ⁿ²⁾}]+x(3)

式中，x和y分別表示結(jié)構(gòu)塊的輸入和輸出數(shù)據(jù)；λ1和λ2即為“卷積衰減因子”，是一個需要提前設(shè)置的常量，這里為每個卷積模塊都分別設(shè)置了不同大小的卷積衰減因子；w⁽ⁿ¹⁾和w⁽ⁿ²⁾分別表示兩次累加時特征矩陣權(quán)值參數(shù)的集合，是需要訓(xùn)練的參數(shù)；hn1(·)和hn2(·)分別表示第一次累加和第二次累加的等效轉(zhuǎn)換函數(shù)。

其中，第一次累加的等效轉(zhuǎn)換函數(shù)hn1(·)的表達(dá)式為：

hn1(x,{w⁽ⁿ¹⁾})＝w^(m2)⊙f(w^(m1)⊙x)(4)

第二次累加的等效轉(zhuǎn)換函數(shù)hn2(·)的表達(dá)式為：

hn2(yn1,{w⁽ⁿ²⁾})＝w^(m4)⊙f(w^(m3)⊙yn1)(5)

為了方便描述，令yn1＝hn1(x,{w⁽ⁿ¹⁾})，yn2＝hn2(yn1,{w⁽ⁿ²⁾})，故式(3)還可以描述成如下形式：

y＝λ1yn1+λ2yn2+x(6)

為進(jìn)一步對數(shù)據(jù)降維，減少深層網(wǎng)絡(luò)計算量，對上述合并后的特征矩陣進(jìn)行最大池化和均值池化，雙池化方式如圖3所示，兩種池化方法均采用尺寸為3×3、步長為2的濾波器；其中最大池化的濾波器是過濾選擇最大值，可盡可能保留特征矩陣的顯著性信息；均值池化是計算濾波器中對應(yīng)特征的均值，可保留特征矩陣的背景信息。通過雙池化，特征矩陣個數(shù)增倍，單個矩陣的維度減半。實驗顯示，在cifar-10數(shù)據(jù)集上雙池化的池化方式比單一池化方式可以得到更高的分類準(zhǔn)確率，如圖5所示。

3)重復(fù)步驟1)、步驟2)，得到最終特征矩陣；

由于數(shù)據(jù)集中彩色圖像大小為32×32，因此對特征矩陣進(jìn)行兩次特征提取和雙池化，得到最終特征矩陣，這樣可以盡可能加深網(wǎng)絡(luò)深度。

將上述步驟3)得到的最終特征矩陣進(jìn)行全局平均池化并輸入全連接層，可得特征維度為(1×1)×q的特征矩陣，使用softmax分類器對其分類，其中，q為分類類別數(shù)，對于每類有r個樣本的集合可以表示為{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),...(x^(r),y^(r))}，y^(r)∈{1,2,…,q}。計算此次網(wǎng)絡(luò)訓(xùn)練的損失值的方法是：首先，計算每個類別j出現(xiàn)的概率p(y＝j(luò)|x)；然后用hθ(x)表示q個輸出概率，則函數(shù)為：

其中，hθ(x)表示卷積神經(jīng)網(wǎng)絡(luò)的輸出，i為樣本序號，θ為網(wǎng)絡(luò)參數(shù)，為歸一化因子；

最后使用交叉熵作為損失函數(shù)計算損失值，其表達(dá)式為：

其中l(wèi)表示損失值，1{y⁽ⁱ⁾＝j(luò)}表示當(dāng)y⁽ⁱ⁾＝j(luò)時值為1，否則為0，r為樣本數(shù)。

5)利用誤差反向傳播算法進(jìn)行梯度計算，計算各層誤差項和權(quán)值梯度；

在進(jìn)行反向傳播計算誤差項時最后一層誤差值等于損失值，即δ⁽⁰⁾＝l，第k個累加模塊的誤差項等于第k+1個累加模塊的誤差項乘以兩者之間的連接權(quán)值。故第k個累加模塊誤差項δ^(k)為：

δ^(k)＝δ⁽ⁿ¹⁾+δ^(k+1)(9)

式中δ^(k+1)為第k+1個累加模塊的誤差項；δ⁽ⁿ¹⁾為該累加模塊卷積通道的誤差項。計算式(9)的關(guān)鍵是計算出δ⁽ⁿ¹⁾，然后就可以通過式(9)依次求出其余累加模塊的誤差項：

上式中，λ1和λ2分別為兩個卷積模塊的卷積衰減因子，均設(shè)置為小于1的正整數(shù)；δ^(m1)、δ^(m2)、δ^(m3)和δ^(m4)依次為圖4中四個卷積層的誤差項；δ⁽ⁿ¹⁾和δ⁽ⁿ²⁾分別為兩個卷積通道的誤差項。

將式(10)中每層的誤差項依次代入可以得到卷積通道的誤差項：

式(11)中①式和②式正好分別為等效轉(zhuǎn)換函數(shù)式(4)和式(5)的導(dǎo)數(shù)和，故可將式(11)簡寫為：

δ⁽ⁿ¹⁾＝[(λ2δ^(k+1))*hn1′(a^(m0))+λ1δ^(k+1)]*hn2′(a^(m2))(12)

將式(12)代入式(7)，就可以逐一計算出雙通道卷積神經(jīng)網(wǎng)絡(luò)所有累加模塊的誤差項。

根據(jù)bp鏈?zhǔn)椒▌t和梯度計算公式可得出第k個累加模塊最后一層的權(quán)值梯度為：

根據(jù)步驟4)中損失函數(shù)計算的損失值，將損失值和分類閾值進(jìn)行比較，如小于分類閾值則網(wǎng)絡(luò)收斂；否則根據(jù)步驟5)中所得權(quán)值梯度按照式(14)、(15)更新權(quán)值梯度，并重新訓(xùn)練網(wǎng)絡(luò)。

w(t+1):＝w(t)+v(t+1)(15)

式中t表示迭代次數(shù)，v(t)是動量項，μ為動量因子，它決定了歷史權(quán)重修正量對本次權(quán)重修正的貢獻(xiàn)大?。沪菫閷W(xué)習(xí)率；λ為權(quán)重衰減系數(shù)。

本發(fā)明通過直連通道的引入，克服了深層卷積神經(jīng)網(wǎng)絡(luò)梯度不穩(wěn)定的難題，可盡可能加深網(wǎng)絡(luò)，從而提高分類準(zhǔn)確率。從cifar-10數(shù)據(jù)集上的測試結(jié)果可知，隨著卷積神經(jīng)網(wǎng)絡(luò)深度的增加，分類正確率提高，詳見圖6。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：屈景怡;朱威;李佳怡;吳仁彪
技術(shù)所有人：中國民航大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

cnn卷積神經(jīng)網(wǎng)絡(luò)詳解相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)算法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種改進(jìn)的并行通道卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法與流程