一種輕量卷積神經(jīng)網(wǎng)絡(luò)模型-MobileConv的制作方法

文檔序號：40653706發(fā)布日期：2025-01-10 19:02閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種輕量卷積神經(jīng)網(wǎng)絡(luò)模型-MobileConv的制作方法

本發(fā)明涉及卷積神經(jīng)網(wǎng)絡(luò)，具體指一種功能強(qiáng)大的輕量卷積神經(jīng)網(wǎng)絡(luò)模型-mobileconv。

背景技術(shù)：

1、眾所周知，卷積神經(jīng)網(wǎng)絡(luò)模型[1]具有較快的推理速度，良好的空間歸納偏置，易于遷移，訓(xùn)練方便等優(yōu)點。但是目前輕量級卷積神經(jīng)網(wǎng)絡(luò)的性能卻難以符合某些移動端設(shè)備的需求。雖然transformer模型的識別精度較高[2-3]，但是多頭自注意(mhsa)的二次計算量[2]卻消耗大量的計算和存儲資源。而基于transformer[2-3]或者mlp[4]的混合模型，往往也需要設(shè)計較為復(fù)雜的結(jié)構(gòu)，這對于模型的優(yōu)化和應(yīng)用都非常不利(而且并且基于mlp的模型在輕量級應(yīng)用中欠佳)。那么，如何設(shè)計一個基于卷積神經(jīng)網(wǎng)絡(luò)的高效模型來保留卷積神經(jīng)網(wǎng)絡(luò)的這些優(yōu)點？

2、根據(jù)metaformer[5]的分析，當(dāng)具備類似transformer編碼器[5]的核心算子和雙殘差結(jié)構(gòu)(包含核心算子)時，基于卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)模型也可以實現(xiàn)與混合的高效模型相當(dāng)甚至更好的性能。

3、分析transformer編碼器[5]，從兩個方面總結(jié)了它的優(yōu)勢。

4、(1)在核心算子層面，通常transformer的多頭自注意力(mhsa)能夠?qū)W習(xí)全局表征，兼具通道變換的能力[2][5]。基于此，transformer或者基于transformer的混合模型就能夠從海量的數(shù)據(jù)數(shù)據(jù)中學(xué)習(xí)到強(qiáng)大的和魯棒的特征表示。

5、(2)從雙殘差的結(jié)構(gòu)角度來看，transformer編碼器包含前饋網(wǎng)絡(luò)[2]，layernormalized(ln)[2]等組件。這些組合能讓transformer和類似transformer的混合模型在性能上明顯地增長。

技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種輕量卷積神經(jīng)網(wǎng)絡(luò)模型-mobileconv，其結(jié)構(gòu)簡單，高效，通用，非常容易被訓(xùn)練。

2、本發(fā)明所采用的技術(shù)方案為：

3、一種輕量卷積神經(jīng)網(wǎng)絡(luò)模型-mobileconv，基于transformer編碼器為所述輕量卷積神經(jīng)網(wǎng)絡(luò)模型的基本塊：mobileconv?block；綜合卷積塊：comprehensive?convolutionattention，cca作為第一級殘差結(jié)構(gòu)中的核心算子，第二級殘差結(jié)構(gòu)的前饋網(wǎng)絡(luò)采用反向殘差塊inverted?residual?blocks，irb，選擇layer?norm，ln歸一化；所述輕量卷積神經(jīng)網(wǎng)絡(luò)模型設(shè)置一個stem和stage1、stage2、stage3、stage4的四個stage；該stem設(shè)置一個卷積+irb模塊組成；一個卷積的核為3×3，步長為2，所述irb模塊中3×3卷積的步長設(shè)置為2；所述mobileconv?block和irb都作為所述輕量卷積神經(jīng)網(wǎng)絡(luò)模型的基本塊使用，在stage2、stage3、stage4中，基本塊為所述mobileconv?block，stage1的基本塊選用所述irb模塊。

4、所述綜合卷積塊：comprehensive?convolution?attention，cca同時兼具通道注意力和空間注意力；其中獲取通道注意力組件，稱之為channels-atten，獲取空間注意力組件，稱之為spatial-atten；該綜合卷積塊將輸入特征圖沿著通道方向分為兩部分，表示為公式(1)：

5、x＝[x1,x2]??(1)

6、x1學(xué)習(xí)通道注意力，x2學(xué)習(xí)空間注意力；

7、輸入特征圖中c表示輸入特征圖的通道，h、w則表示輸入特征圖的高和寬；

8、對于通道注意力，channels-atten，先分別使用全局平均池化gap和全局最大池化gmp對x第c個通道的擠壓步得到y(tǒng)c1和yc2，見公式(2)和公式(3)；再使用公式(4)對于yc1和yc2融合得到y(tǒng)c；其中，yc是與第c個通道相關(guān)的輸出；公式(4)中的系數(shù)默認(rèn)值a＝1，b＝0.25；

9、

10、yc＝ayc1+byc2??(4)

11、在空間注意力方面，spatial-atten，使用h-swish函數(shù)；并使用s_atten符號代替算法描述，表述如公式(5)；

12、y′2(.)＝s_atten(.)???(5)

13、最后，獲取的cca表達(dá)如公式(6)：

14、y′＝[y1×y′1,y2×y′2]???(6)

15、公式6中的[-,-]表示拼接，y'為最終的輸出注意力。

16、所述輕量卷積神經(jīng)網(wǎng)絡(luò)模型-mobileconv設(shè)有3個超參數(shù)，分別是：基本塊在每個stage中的重復(fù)次數(shù)，稱為nbc；每個stage的輸出通道數(shù)，稱為oc；每個stage中irb的擴(kuò)展系數(shù)，稱為er；根據(jù)3個超參數(shù)的具體設(shè)置，分為mobileconv-s，mobileconv-xs和mobileconv-xxs三個模型。

17、所述mobileconv-s模型的超參數(shù)為：nbc為[3,2,4,3]，oc為[64,128,192,256]，er為[6,6,6,6]。

18、所述mobileconv-xs模型的超參數(shù)為：nbc為[3,2,4,3]，oc為[64,96,128,160]，er為[2,2,4,4]。

19、所述mobileconv-xxs模型的超參數(shù)為：nbc為[3,2,4,3]，oc為[48,64,80,112]，er為[2,2,4,4]。

20、本發(fā)明首先設(shè)計一個基于卷積的注意力核心算子，稱之為綜合卷積塊(comprehensive?convolution?attention，cca)?；赾ca和反向殘差塊(irb)[6]，再推導(dǎo)出一個魯棒并強(qiáng)大的類似transformer編碼器的基本塊，稱為mobileconv?block。最后以定制塊級和架構(gòu)級設(shè)計相結(jié)合[1]，構(gòu)建一個全新的高效的基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的mobileconv模型。

21、如圖1(b)所示，cca作為本發(fā)明的核心算子，它結(jié)構(gòu)簡單，非常高效。(1)針對特征圖的目標(biāo)區(qū)域，它能夠從特征圖的垂直方向和水平方向?qū)W習(xí)全局表征；(2)由于采用strippooling[7]和高效一維卷積交互[8]，它避免了內(nèi)存和計算開銷的浪費；(3)因其采用卷積，故綜合卷積塊保留了獨有的空間歸納偏置，當(dāng)然為后續(xù)設(shè)計基本塊省去位置嵌入[2]；(4)因綜合卷積塊同時獲取特征圖的通道注意力和空間注意，故它如多頭注意力機(jī)制(和窗口多頭自注意力機(jī)制)、mlp一樣可以獲取通道特征。

22、根據(jù)convnext的研究[9]，反向殘差塊(irb)比起mlp更適合作為前饋網(wǎng)絡(luò)(ffn)。故此，以綜合卷積塊和反向殘差塊為核心，結(jié)合layer?normalized(ln)和gelu，構(gòu)建了新的基本塊。根據(jù)mobilevitv1[1]的參數(shù)標(biāo)度規(guī)則，設(shè)計了本發(fā)明的mobileconv主干網(wǎng)絡(luò)模型。

23、綜上所述，本發(fā)明的主要貢獻(xiàn)如下：

24、(1)分析多頭注意力機(jī)制(或者窗口多頭自注意力機(jī)制)和mlp的優(yōu)勢，設(shè)計一個新的注意力機(jī)制綜合卷積塊(comprehensive?convolution?attention，cca)，它能夠?qū)W習(xí)全局表征，計算和內(nèi)存開銷非常小，加上自身帶有歸納偏置[10]，非常適合被放置在基本塊中。

25、(2)結(jié)合綜合卷積塊和反向殘差塊(irb)，設(shè)計了一種新的基本塊結(jié)構(gòu)，稱為mobileconv?block，它結(jié)構(gòu)非常簡單，易于擴(kuò)展。根據(jù)mobileconv?block，設(shè)計一種全新的移動網(wǎng)絡(luò)的主干，命名為mobileconv。

26、(3)在常用的計算機(jī)視覺任務(wù)(包括imagenet圖像分類[11]、mscoco[12]和pascalvoc[13]目標(biāo)檢測和ade20k[14]語義分割)上對該模型進(jìn)行了評價。對比目前最先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)、transformer和mlp模型，本發(fā)明提出的mobileconv僅僅使用單張gpu，以及其簡單的訓(xùn)練就取得了非常有競爭力的結(jié)果，在圖1可以看到。例如，本發(fā)明的mobileconv-s/xs/xxs在imagenet?top-1精度取得78.6％,75.7％以及72.2％，但僅用5.6m/1.4gflops，2.3m/0.5gflops和1.2m/0.3gflops，這顯著地超過了當(dāng)前其他主流的網(wǎng)絡(luò)模型。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐偉,趙冬,王開源,萬毅
技術(shù)所有人：北京三獅科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種輕量卷積神經(jīng)網(wǎng)絡(luò)模型-MobileConv的制作方法