本發(fā)明屬于計算機圖像處理、注意力機制領域,具體涉及一種多維結構注意力模型及基于該模型的移動網絡結構設計方法。
背景技術:
1、注意力機制是深度學習中的關鍵技術,使模型在進行預測時能夠專注于輸入數(shù)據(jù)的特定部分。通過有選擇地強調輸入中最相關的部分,這些機制顯著提高了模型在廣泛任務中的性能,包括自然語言處理(nlp)和計算機視覺(cv)。它們允許模型根據(jù)輸入的重要性動態(tài)地調整自己的注意力,從而減少低相關性信息的影響。因此,注意力機制在計算機視覺研究領域引起了極大的興趣。傳統(tǒng)的通道注意力方法通常涉及聚合空間信息的策略,然后相應地重新加權通道。本設計借鑒了mamba的思想,并結合了mambaout的成果,將多維注意力重新定義為“1+3”分支模塊,設計了一個新的注意力模塊。
2、近年來,注意力機制在深度學習中取得了重大進展,特別是在nlp領域,成為技術進步不可或缺的工具。各種注意力機制被提出并應用于不同任務,表現(xiàn)出卓越的性能和通用性。soft?attention通過計算上下文向量作為加權和,關注序列的關鍵部分,使模型能夠為輸入的不同部分分配不同的權重。hard?attention則利用不連續(xù)選擇,專注于單個輸入元素;盡管訓練存在挑戰(zhàn),但在特定任務中表現(xiàn)出色。
3、自注意力機制是transformer模型的核心組成部分,使模型能夠同時考慮序列的所有位置,有效地捕獲長程依賴關系。多頭注意力通過在多個子空間獨立計算注意力并聚合結果,增強了模型的表達能力。
4、此外,分層注意力通過計算低層次和高層次的注意力來處理分層數(shù)據(jù),使模型能夠專注于跨多個層的顯著信息。卷積注意力則利用了卷積神經網絡的優(yōu)勢,非常適合處理圖像或時間序列數(shù)據(jù)。通道降維卷積是管理模型復雜度的最有效方法之一。
5、現(xiàn)有的注意力機制,如squeeze?excitation(se)模塊和convolutional?blockattention?module(cbam),在增強特征表示方面取得了顯著進展。se模塊雖然簡單且計算高效,但受限于通道注意力,無法捕捉空間信息。cbam通過依次應用通道和空間注意力改進了這一點,但它沒有充分利用這些維度之間的相互依賴關系,并可能增加計算復雜度。與se和cbam相比,coordinate?attention(ca)沿著空間維度將方向特定的信息嵌入到通道注意力中,并選擇合適的通道降維比例,以達到與se注意力相當?shù)男阅堋?/p>
技術實現(xiàn)思路
1、本發(fā)明所要解決的技術問題是:提供一種多維結構注意力模型及基于該模型的移動網絡結構設計方法,解決了現(xiàn)有技術中注意力機制計算復雜、維度之間相互依賴關系利用率低的問題。
2、本發(fā)明為解決上述技術問題采用以下技術方案:
3、一種多維結構注意力模型,包括特征數(shù)據(jù)處理模塊、“1+3”結構的雙分支模塊;其中,特征數(shù)據(jù)處理模塊將輸入的特征數(shù)據(jù)進行歸一化處理;“1+3”結構的雙分支模塊包括由sigmoid激活層構成的第一分支,以及由通道維度、寬度維度和高度維度特征提取模塊組成的第二分支;歸一化處理后的特征數(shù)據(jù)分別輸入至第一分支和第二分支,經過第一分支處理后的數(shù)據(jù),分別與經過第二分支三部分處理后的數(shù)據(jù)進行相乘操作,相乘后的結果再進行相加操作獲取張量數(shù)據(jù)作為輸出。
4、特征數(shù)據(jù)處理模塊的具體實現(xiàn)過程如下:
5、將特征數(shù)據(jù)x′p輸入擴展層與一個深度可分離卷積層,通過一個擴展因子為t,特征尺度為1×1的卷積層,獲取輸出通道數(shù)為輸入通道數(shù)t倍的擴展層;深度可分離卷積層的特征尺度為3×3,步長為1或2,組數(shù)等于該層輸入通道數(shù),得到χ(c×h×w)。
6、所述χ(c×h×w)通過第一分支,輸入一層sigmoid激活層得到χl。
7、所述第二分支的處理過程包括如下步驟:
8、步驟1、將χ(c×h×w)特征數(shù)據(jù)沿高度軸逆時針旋轉90度得到尺寸為w×h×c的
9、步驟2、通過dr-pooling層減少的尺寸,得到一個2×h×c的張量
10、步驟3、輸入一個特征尺度為7×7的卷積核處理得到
11、步驟4、進行批量歸一化后通過sigmoid(σ)激活層得到1×h×c的張量;
12、步驟5、沿著高度軸順時針旋轉90度恢復為c×h×1的張量沿著寬度軸操作得到c×1×w的張量不旋轉得到1×h×w的張量
13、由χl分別與相乘,然后三者相加并且除以3,獲取的數(shù)據(jù)與χ(c×h×w)進行殘差連接,獲得模型的輸出。
14、所述模型的輸出由如下公式表示:
15、
16、基于多維結構注意力模型的移動網絡結構設計方法,包括如下步驟:
17、步驟s1、數(shù)據(jù)預處理,根據(jù)已有的數(shù)據(jù)集質量對圖像數(shù)據(jù)進行預處理;
18、步驟s2、數(shù)據(jù)降維,將圖像數(shù)據(jù)輸入到一層卷積層,一層批量正則化和激活層對數(shù)據(jù)進行初始化;
19、步驟s3、倒殘差卷積結構和特征融合,將初始化后的數(shù)據(jù)輸入到倒殘差結果的多層卷積層中,用以特征提取與多維信息編碼用以三維特征信息融合;將提取的特征輸入到倒殘差連接的兩層卷積層和一層多維度融合卷積,用以局部圖像特征與全局圖像特征相關性的信息融合;
20、步驟s4、特征降維和全連接層操作,將信息融合后的特征輸入自適應均值池化層,用以特征降維,將降維后的特征輸入全連接層,用以得到最終的類別概率輸出;
21、步驟s5、模型訓練,在網絡訓練過程中,根據(jù)損失函數(shù),通過adamw優(yōu)化算法調整網絡模型參數(shù),得到最終網絡全局最優(yōu)解參數(shù);
22、步驟s6、在網絡模型訓練完成后,可用于實際的圖像處理分類檢測任務中。
23、步驟s1中對圖像數(shù)據(jù)進行預處理的具體過程如下:
24、步驟s11,隨機將圖像裁剪為指定的尺寸;
25、步驟s12,隨機地水平翻轉圖像;
26、步驟s13,將翻轉后的圖像轉換為pytorch張量;
27、步驟s14,使用常用預訓練模型的均值和標準差值對張量進行歸一化,得到圖像數(shù)據(jù)x。
28、步驟s2的具體過程如下:
29、步驟s21,將預處理得到圖像數(shù)據(jù)x,輸入卷積層進行卷積運算,得到32個圖像尺度變?yōu)樗姆种坏奶卣鲾?shù)據(jù)x′,其中卷積層包括32個特征尺度為3×3的二維卷積核,卷積步長為2;
30、步驟s22,將征數(shù)據(jù)x′批量歸一化后輸入一層relu6激活層,得到特征數(shù)據(jù)x′p。
31、所述步驟s4具體包括如下步驟:
32、步驟s41,將多維特征融合數(shù)據(jù)y輸入自適應平均池化層;
33、步驟s42,將多維特征融合數(shù)據(jù)y通過一個比例為0.2的隨機失活,再輸入一層全連接層,其中全連接層設置輸出神經元個數(shù)為目標分類任務的類別數(shù),得到最終類別概率輸出。
34、與現(xiàn)有技術相比,本發(fā)明具有以下有益效果:
35、1、該方法顯著提高了分類和檢測精度,即插即用的同時以最小的額外計算開銷適用于移動設備的輕量化模型。
36、2、本發(fā)明提出一種用于輕量化網絡的多維vision-mamba結構注意力機制,采用vim的結構并借鑒mambaout來去除了vim中的結構化空間模型;集成了空間注意力、通道注意力、通道池化、降維池化(dr-pooling),以及在統(tǒng)一框架內跨多個維度的卷積操作。與現(xiàn)有方法相比,該策略不僅減少了計算冗余,而且以更全面、更高效的方式捕捉了相互依賴關系,從而提供了更有效的特征提取機制。
37、3、基于vision-mamba結構的多維特征融合方法是一種非常有效的提高圖像分類和識別的特征提取能力的方法。本發(fā)明所提出的注意力模塊僅具有0.0026m的參數(shù),同時實現(xiàn)了等同于或優(yōu)于se和cbam的性能,在cifar-100數(shù)據(jù)集上基于mobilenetv2和shufflenetv2分別提升了0.9%和0.2%,在ms-coco數(shù)據(jù)集上基于yolov5s,map(0.5:0.95)提升了1.1。為圖像分類和識別的特征提取中的注意力機制提供了一種新的方法。