欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種輕量卷積神經(jīng)網(wǎng)絡(luò)模型-MobileConv的制作方法

文檔序號:40653706發(fā)布日期:2025-01-10 19:02閱讀:5來源:國知局
一種輕量卷積神經(jīng)網(wǎng)絡(luò)模型-MobileConv的制作方法

本發(fā)明涉及卷積神經(jīng)網(wǎng)絡(luò),具體指一種功能強(qiáng)大的輕量卷積神經(jīng)網(wǎng)絡(luò)模型-mobileconv。


背景技術(shù):

1、眾所周知,卷積神經(jīng)網(wǎng)絡(luò)模型[1]具有較快的推理速度,良好的空間歸納偏置,易于遷移,訓(xùn)練方便等優(yōu)點。但是目前輕量級卷積神經(jīng)網(wǎng)絡(luò)的性能卻難以符合某些移動端設(shè)備的需求。雖然transformer模型的識別精度較高[2-3],但是多頭自注意(mhsa)的二次計算量[2]卻消耗大量的計算和存儲資源。而基于transformer[2-3]或者mlp[4]的混合模型,往往也需要設(shè)計較為復(fù)雜的結(jié)構(gòu),這對于模型的優(yōu)化和應(yīng)用都非常不利(而且并且基于mlp的模型在輕量級應(yīng)用中欠佳)。那么,如何設(shè)計一個基于卷積神經(jīng)網(wǎng)絡(luò)的高效模型來保留卷積神經(jīng)網(wǎng)絡(luò)的這些優(yōu)點?

2、根據(jù)metaformer[5]的分析,當(dāng)具備類似transformer編碼器[5]的核心算子和雙殘差結(jié)構(gòu)(包含核心算子)時,基于卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)模型也可以實現(xiàn)與混合的高效模型相當(dāng)甚至更好的性能。

3、分析transformer編碼器[5],從兩個方面總結(jié)了它的優(yōu)勢。

4、(1)在核心算子層面,通常transformer的多頭自注意力(mhsa)能夠?qū)W習(xí)全局表征,兼具通道變換的能力[2][5]。基于此,transformer或者基于transformer的混合模型就能夠從海量的數(shù)據(jù)數(shù)據(jù)中學(xué)習(xí)到強(qiáng)大的和魯棒的特征表示。

5、(2)從雙殘差的結(jié)構(gòu)角度來看,transformer編碼器包含前饋網(wǎng)絡(luò)[2],layernormalized(ln)[2]等組件。這些組合能讓transformer和類似transformer的混合模型在性能上明顯地增長。


技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種輕量卷積神經(jīng)網(wǎng)絡(luò)模型-mobileconv,其結(jié)構(gòu)簡單,高效,通用,非常容易被訓(xùn)練。

2、本發(fā)明所采用的技術(shù)方案為:

3、一種輕量卷積神經(jīng)網(wǎng)絡(luò)模型-mobileconv,基于transformer編碼器為所述輕量卷積神經(jīng)網(wǎng)絡(luò)模型的基本塊:mobileconv?block;綜合卷積塊:comprehensive?convolutionattention,cca作為第一級殘差結(jié)構(gòu)中的核心算子,第二級殘差結(jié)構(gòu)的前饋網(wǎng)絡(luò)采用反向殘差塊inverted?residual?blocks,irb,選擇layer?norm,ln歸一化;所述輕量卷積神經(jīng)網(wǎng)絡(luò)模型設(shè)置一個stem和stage1、stage2、stage3、stage4的四個stage;該stem設(shè)置一個卷積+irb模塊組成;一個卷積的核為3×3,步長為2,所述irb模塊中3×3卷積的步長設(shè)置為2;所述mobileconv?block和irb都作為所述輕量卷積神經(jīng)網(wǎng)絡(luò)模型的基本塊使用,在stage2、stage3、stage4中,基本塊為所述mobileconv?block,stage1的基本塊選用所述irb模塊。

4、所述綜合卷積塊:comprehensive?convolution?attention,cca同時兼具通道注意力和空間注意力;其中獲取通道注意力組件,稱之為channels-atten,獲取空間注意力組件,稱之為spatial-atten;該綜合卷積塊將輸入特征圖沿著通道方向分為兩部分,表示為公式(1):

5、x=[x1,x2]??(1)

6、x1學(xué)習(xí)通道注意力,x2學(xué)習(xí)空間注意力;

7、輸入特征圖中c表示輸入特征圖的通道,h、w則表示輸入特征圖的高和寬;

8、對于通道注意力,channels-atten,先分別使用全局平均池化gap和全局最大池化gmp對x第c個通道的擠壓步得到y(tǒng)c1和yc2,見公式(2)和公式(3);再使用公式(4)對于yc1和yc2融合得到y(tǒng)c;其中,yc是與第c個通道相關(guān)的輸出;公式(4)中的系數(shù)默認(rèn)值a=1,b=0.25;

9、

10、yc=ayc1+byc2??(4)

11、在空間注意力方面,spatial-atten,使用h-swish函數(shù);并使用s_atten符號代替算法描述,表述如公式(5);

12、y′2(.)=s_atten(.)???(5)

13、最后,獲取的cca表達(dá)如公式(6):

14、y′=[y1×y′1,y2×y′2]???(6)

15、公式6中的[-,-]表示拼接,y'為最終的輸出注意力。

16、所述輕量卷積神經(jīng)網(wǎng)絡(luò)模型-mobileconv設(shè)有3個超參數(shù),分別是:基本塊在每個stage中的重復(fù)次數(shù),稱為nbc;每個stage的輸出通道數(shù),稱為oc;每個stage中irb的擴(kuò)展系數(shù),稱為er;根據(jù)3個超參數(shù)的具體設(shè)置,分為mobileconv-s,mobileconv-xs和mobileconv-xxs三個模型。

17、所述mobileconv-s模型的超參數(shù)為:nbc為[3,2,4,3],oc為[64,128,192,256],er為[6,6,6,6]。

18、所述mobileconv-xs模型的超參數(shù)為:nbc為[3,2,4,3],oc為[64,96,128,160],er為[2,2,4,4]。

19、所述mobileconv-xxs模型的超參數(shù)為:nbc為[3,2,4,3],oc為[48,64,80,112],er為[2,2,4,4]。

20、本發(fā)明首先設(shè)計一個基于卷積的注意力核心算子,稱之為綜合卷積塊(comprehensive?convolution?attention,cca)?;赾ca和反向殘差塊(irb)[6],再推導(dǎo)出一個魯棒并強(qiáng)大的類似transformer編碼器的基本塊,稱為mobileconv?block。最后以定制塊級和架構(gòu)級設(shè)計相結(jié)合[1],構(gòu)建一個全新的高效的基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的mobileconv模型。

21、如圖1(b)所示,cca作為本發(fā)明的核心算子,它結(jié)構(gòu)簡單,非常高效。(1)針對特征圖的目標(biāo)區(qū)域,它能夠從特征圖的垂直方向和水平方向?qū)W習(xí)全局表征;(2)由于采用strippooling[7]和高效一維卷積交互[8],它避免了內(nèi)存和計算開銷的浪費;(3)因其采用卷積,故綜合卷積塊保留了獨有的空間歸納偏置,當(dāng)然為后續(xù)設(shè)計基本塊省去位置嵌入[2];(4)因綜合卷積塊同時獲取特征圖的通道注意力和空間注意,故它如多頭注意力機(jī)制(和窗口多頭自注意力機(jī)制)、mlp一樣可以獲取通道特征。

22、根據(jù)convnext的研究[9],反向殘差塊(irb)比起mlp更適合作為前饋網(wǎng)絡(luò)(ffn)。故此,以綜合卷積塊和反向殘差塊為核心,結(jié)合layer?normalized(ln)和gelu,構(gòu)建了新的基本塊。根據(jù)mobilevitv1[1]的參數(shù)標(biāo)度規(guī)則,設(shè)計了本發(fā)明的mobileconv主干網(wǎng)絡(luò)模型。

23、綜上所述,本發(fā)明的主要貢獻(xiàn)如下:

24、(1)分析多頭注意力機(jī)制(或者窗口多頭自注意力機(jī)制)和mlp的優(yōu)勢,設(shè)計一個新的注意力機(jī)制綜合卷積塊(comprehensive?convolution?attention,cca),它能夠?qū)W習(xí)全局表征,計算和內(nèi)存開銷非常小,加上自身帶有歸納偏置[10],非常適合被放置在基本塊中。

25、(2)結(jié)合綜合卷積塊和反向殘差塊(irb),設(shè)計了一種新的基本塊結(jié)構(gòu),稱為mobileconv?block,它結(jié)構(gòu)非常簡單,易于擴(kuò)展。根據(jù)mobileconv?block,設(shè)計一種全新的移動網(wǎng)絡(luò)的主干,命名為mobileconv。

26、(3)在常用的計算機(jī)視覺任務(wù)(包括imagenet圖像分類[11]、mscoco[12]和pascalvoc[13]目標(biāo)檢測和ade20k[14]語義分割)上對該模型進(jìn)行了評價。對比目前最先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)、transformer和mlp模型,本發(fā)明提出的mobileconv僅僅使用單張gpu,以及其簡單的訓(xùn)練就取得了非常有競爭力的結(jié)果,在圖1可以看到。例如,本發(fā)明的mobileconv-s/xs/xxs在imagenet?top-1精度取得78.6%,75.7%以及72.2%,但僅用5.6m/1.4gflops,2.3m/0.5gflops和1.2m/0.3gflops,這顯著地超過了當(dāng)前其他主流的網(wǎng)絡(luò)模型。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
泰兴市| 丰镇市| 柘城县| 台山市| 囊谦县| 沧州市| 榆社县| 崇礼县| 金塔县| 波密县| 双桥区| 寻乌县| 五常市| 门源| 仲巴县| 综艺| 竹北市| 宜兰县| 土默特右旗| 巩留县| 武冈市| 合水县| 房产| 镇宁| 左云县| 上杭县| 桑植县| 东阳市| 南京市| 怀远县| 邯郸市| 阿克陶县| 中牟县| 阿拉善右旗| 古蔺县| 酒泉市| 锡林郭勒盟| 包头市| 楚雄市| 曲松县| 桃源县|