本發(fā)明涉及人工智能領(lǐng)域和計(jì)算機(jī)視覺(jué)領(lǐng)域,是一種融合卷積神經(jīng)網(wǎng)絡(luò)與transformer模型的方法,應(yīng)用于處理計(jì)算機(jī)視覺(jué)領(lǐng)域圖像分類(lèi)問(wèn)題。
背景技術(shù):
1、在計(jì)算機(jī)視覺(jué)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(cnn)和transformer是兩種被廣泛使用的深度學(xué)習(xí)模型。其中cnn具有強(qiáng)大的圖像特征提取和分層表示學(xué)習(xí)能力,在圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割等計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)出色。transformer最初應(yīng)用于自然語(yǔ)言處理領(lǐng)域,隨后被引入計(jì)算機(jī)視覺(jué)領(lǐng)域,其通過(guò)自注意力機(jī)制可以捕獲長(zhǎng)距離依賴(lài)關(guān)系,具有出色的全局建模能力。
2、卷積神經(jīng)網(wǎng)絡(luò)(cnn)具有局部感知性強(qiáng)、魯棒性強(qiáng)、可拓展性強(qiáng)等優(yōu)點(diǎn),但它也存在一些局限性,比如(1)缺乏對(duì)全局信息的感知力,導(dǎo)致其對(duì)長(zhǎng)序列的處理不佳;(2)cnn使用卷積操作提取特征,會(huì)導(dǎo)致輸入數(shù)據(jù)的位置信息丟失;(3)當(dāng)卷積核和圖像尺寸較大時(shí),計(jì)算量較大,需要較高的計(jì)算資源;(4)由于參數(shù)共享機(jī)制,對(duì)于一些需要考慮細(xì)節(jié)的任務(wù),如圖像超分辨率任務(wù)上表現(xiàn)不佳等。
3、transformer模型雖然在捕獲長(zhǎng)距離依賴(lài)關(guān)系方面有天然的優(yōu)勢(shì),但對(duì)數(shù)據(jù)集要求高,缺乏類(lèi)似cnn的歸納偏置特性,并且計(jì)算復(fù)雜度高,尤其在處理圖片這種分辨率高的數(shù)據(jù)時(shí),計(jì)算量的增速是圖片大小的二次方。
4、近年來(lái),越來(lái)越多的研究致力于將兩個(gè)模型結(jié)合起來(lái),充分利用各自架構(gòu)的優(yōu)勢(shì),在保持運(yùn)算效率的同時(shí),提高模型在多種計(jì)算機(jī)視覺(jué)任務(wù)中的性能。最直接的想法是將cnn常見(jiàn)的多尺度、殘差結(jié)構(gòu)等引入到視覺(jué)transformer中。wang等人參考并引入了cnn架構(gòu)中的金字塔結(jié)構(gòu)來(lái)改進(jìn)vision?transformer(vit)在處理高分辨率圖像時(shí)的效果,提出了pyramid?vision?transformer模型,即pvt。pvt采用了漸進(jìn)收縮策略,利用補(bǔ)丁嵌入層和空間縮減機(jī)制的編碼器實(shí)現(xiàn)對(duì)特征圖尺度的靈活調(diào)整,這使得pvt既可以像傳統(tǒng)cnn模型一樣生成多尺度特征圖,又降低了計(jì)算成本。
5、hrformer則是在hrnet的多分辨率特征融合架構(gòu)的基礎(chǔ)上引入了transformer,這使得該模型既具有多分辨率特征融合架構(gòu)的優(yōu)勢(shì),又能更好地建模長(zhǎng)距離依賴(lài)關(guān)系,捕捉到更全局的語(yǔ)義信息。
6、carion等人采用了在cnn提取特征的基礎(chǔ)上再接transformer的串聯(lián)拼接方式,提出了detection?transformer(detr),首次將transformer用于圖像目標(biāo)檢測(cè)。該架構(gòu)利用cnn網(wǎng)絡(luò)提取圖像的低分辨率二維特征圖,然后將特征圖重塑為一系列特征序列并對(duì)其進(jìn)行位置編碼,將結(jié)果輸入到transformer中進(jìn)行學(xué)習(xí),得到分類(lèi)標(biāo)簽和預(yù)測(cè)框。這種方法有效減小了transformer的輸入尺寸,方便transformer快速學(xué)習(xí)輸入圖像的全局特征,提高了模型的學(xué)習(xí)速度以及整體性能。
7、dai等人采用了同樣的拼接策略,提出了coatnet,他們認(rèn)為卷積塊更擅長(zhǎng)獲取局部先驗(yàn),因此應(yīng)設(shè)計(jì)在transformer模塊之前。他們分別利用基于深度卷積改進(jìn)的反向殘差瓶頸mbconv模塊和相對(duì)自注意力模塊為模型引入cnn和transformer的特性,并成功將cnn的平移同變性(translation?equivariance)和transformer的輸入自適應(yīng)加權(quán)(input-adaptive?weighting)、全局感受野(global?receptive?field)的優(yōu)點(diǎn)融合到單一架構(gòu)中,獲得了兼具泛化能力、模型容量和模型效率的混合模型。
8、yan等人設(shè)計(jì)的cont塊采用transformer接cnn的串行拼接策略,并在此基礎(chǔ)上構(gòu)建了contnet。他們將標(biāo)準(zhǔn)transformer編碼器視為與卷積塊相同的獨(dú)立組件,然后將兩個(gè)編碼器與一個(gè)卷積核尺寸為3×3的卷積層串聯(lián),并將其命名為cont塊。圖像進(jìn)入網(wǎng)絡(luò)后將首先經(jīng)過(guò)一個(gè)卷積核尺寸為7×7的卷積層和一個(gè)最大池化層,然后通過(guò)由多個(gè)cont塊堆疊而成的框架,最后經(jīng)過(guò)一個(gè)全局平均池化層和一個(gè)全連接層實(shí)現(xiàn)相關(guān)計(jì)算機(jī)視覺(jué)任務(wù)。這樣既利用了transformer強(qiáng)大的表征能力,又具備cnn的偏置歸納特性。該模型具備容易優(yōu)化、魯棒等優(yōu)點(diǎn),且不依賴(lài)于強(qiáng)大的數(shù)據(jù)增強(qiáng)和訓(xùn)練技巧,具有良好的遷移學(xué)習(xí)能力。
9、綜上所述,將卷積神經(jīng)網(wǎng)絡(luò)與transformer模型結(jié)合在計(jì)算機(jī)視覺(jué)研究中有了廣泛的研究,采用了多種融合方式提高模型整體效果,目的是能夠充分利用卷積神經(jīng)網(wǎng)絡(luò)和transformer模型各自的特點(diǎn),實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。
10、目前業(yè)界的研究在兩種模型的結(jié)合方式上有了許多進(jìn)展,并提出了各種各樣的模型架構(gòu),取得了一定的效果。但是在處理圖像數(shù)據(jù)時(shí)還有明顯的不足:
11、1.?目前的方案在處理高分辨率或者大尺寸圖片時(shí),即使通過(guò)卷積神經(jīng)網(wǎng)絡(luò)做了下采樣,獲得圖像的低分辨率特征圖,但transformer模型在處理特征圖時(shí)還是有非常高的計(jì)算復(fù)雜度,限制了模型的使用。
12、2.?圖像中有許多數(shù)據(jù)對(duì)于模型來(lái)說(shuō)是冗余的,tranformer模型的計(jì)算方式會(huì)引入許多不必要的噪聲,降低模型計(jì)算效率的同時(shí)也會(huì)影響模型的精度;
13、3.?目前結(jié)合的方式在解釋性上不夠好,比如在圖像分類(lèi)任務(wù)中,有時(shí)候我們需要關(guān)注模型學(xué)習(xí)到了什么,或者是學(xué)習(xí)到圖像中哪個(gè)區(qū)域是重要的,目前的結(jié)合機(jī)制本質(zhì)上還是基于軟注意力模式,在解釋性上不如硬注意力模式。
技術(shù)實(shí)現(xiàn)思路
1、不同于已有的結(jié)合方式,本發(fā)明考慮卷積神經(jīng)網(wǎng)絡(luò)(cnn)和transformer各自的特點(diǎn),從注意力和強(qiáng)化學(xué)習(xí)入手,設(shè)計(jì)了一個(gè)強(qiáng)化的特征采樣模塊(reinforced?featuresampling),以下簡(jiǎn)稱(chēng)rfs,該模塊采用硬注意力(hard?attention)機(jī)制,以并行的方式對(duì)輸入的特征圖進(jìn)行采樣,然后利用這些采樣的特征送到后面的transformer模型做進(jìn)一步的處理,該方法利用硬決策機(jī)制從低分辨率特征圖中進(jìn)行合理的特征采樣,不僅排除了大量的冗余噪聲數(shù)據(jù),降低了transformer模型處理的數(shù)據(jù)量,提高了混合模型整體的計(jì)算效率,而且有很好的可解釋性以及模型性能。
2、為了達(dá)到上述發(fā)明目的,本發(fā)明的技術(shù)方案以如下方式實(shí)現(xiàn):
3、一種基于強(qiáng)化學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)與transformer結(jié)合分類(lèi)方法,它使用依次連接的卷積神經(jīng)網(wǎng)絡(luò)(cnn)、強(qiáng)化的特征采樣模塊(rfs)、transformer以及head輸出模塊,其方法步驟為:
4、(1)首先,將輸入圖片經(jīng)過(guò)cnn主干網(wǎng)絡(luò)提取特征圖;
5、(2)將特征圖輸入到rfs模塊進(jìn)行采樣處理,分為預(yù)測(cè)階段和訓(xùn)練階段:
6、a)訓(xùn)練階段:這個(gè)階段rfs中actor模塊與critic模塊同時(shí)工作,?actor模塊和critic模塊的計(jì)算方式可以表示為:(1)
7、?????(2)
8、其中,x為輸入特征圖,為actor模塊輸出,通道數(shù)為1,尺寸大小與actor輸入特征圖尺寸一致,取值范圍為0~1,可以看作是采樣概率。v表示當(dāng)前特征圖的價(jià)值(獎(jiǎng)勵(lì))期望,為標(biāo)量。
9、actor模塊利用硬決策機(jī)制對(duì)每個(gè)并行獨(dú)立采樣,這里為每個(gè)grid的采樣概率,因此有:??????(3)
10、????(4)
11、為對(duì)當(dāng)前執(zhí)行并行采樣后的聯(lián)合概率,為每個(gè)grid的采樣概率,label為采樣值,取值為0或1。
12、rfs模塊由于采用硬決策方式采樣,因此梯度是不可導(dǎo)的,這里采用強(qiáng)化學(xué)習(xí)領(lǐng)域里的近端策略?xún)?yōu)化算法(proximal?policy?optimization,?ppo)算法訓(xùn)練,因?yàn)閺?qiáng)化學(xué)習(xí)的訓(xùn)練需要一個(gè)獎(jiǎng)勵(lì)函數(shù)reward,這里根據(jù)分類(lèi)任務(wù)的特點(diǎn)并結(jié)合對(duì)采樣的特征序列的數(shù)目限制,reward函數(shù)定義如下:??(5)
13、其中,p為標(biāo)簽對(duì)應(yīng)的分類(lèi)模塊的預(yù)測(cè)結(jié)果,表示actor模塊執(zhí)行采樣時(shí)取值為0的grid數(shù)目,為所有的grid數(shù)目總和,即actor輸出特征圖的大小。actor模塊訓(xùn)練時(shí)采用伯努利采樣:??(6)
14、為actor模塊輸出值,取值0或1,1表示該grid對(duì)應(yīng)的特征被選中,否則,沒(méi)有被選中,的分布服從的伯努利分布。
15、b)預(yù)測(cè)階段:rfs模塊在預(yù)測(cè)階段只有actor模塊工作,actor模塊采用如下方式并行采樣:?(7)、如前述定義。
16、(3)將步驟2采樣得到的特征序列送入到transformer模塊進(jìn)行編碼操作;
17、(4)head輸出模塊對(duì)編碼后的特征序列進(jìn)行分類(lèi),這里也分為訓(xùn)練階段和預(yù)測(cè)階段,當(dāng)為訓(xùn)練階段時(shí),取標(biāo)簽對(duì)應(yīng)的輸出值,帶入到reward函數(shù),即公式5中訓(xùn)練。當(dāng)為預(yù)測(cè)階段時(shí),直接輸出最終的分類(lèi)結(jié)果。
18、本發(fā)明由于采用了強(qiáng)化的特征采樣模塊,將cnn與transformer進(jìn)行有效的結(jié)合。同現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn):1.?強(qiáng)化的特征采樣模塊(rfs)模塊通過(guò)并行的方式進(jìn)行采樣,相比之前方法更加高效和靈活;
19、2.?模型能夠自動(dòng)的選擇圖像的某些特征數(shù)據(jù)進(jìn)行分類(lèi),很大程度上減少了冗余數(shù)據(jù),提高了模型的性能和計(jì)算效率;
20、3.?通過(guò)強(qiáng)化的特征采樣模塊(rfs)模塊,對(duì)卷積網(wǎng)絡(luò)輸出的特征圖只選擇一部分特征數(shù)據(jù)很大程度上降低了transformer需要處理的數(shù)據(jù)量,提高了transformer的計(jì)算效率,并且可以進(jìn)一步將其推廣到處理大尺寸圖像;
21、4.?通過(guò)硬決策方式選擇特征,可以很直觀(guān)了看到圖片那些區(qū)域參與了分類(lèi)任務(wù),可以了解到模型學(xué)到了什么,相比于軟注意力有更好的解釋性。
22、下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明做進(jìn)一步說(shuō)明。