本發(fā)明涉及計算機輔助診斷和醫(yī)學(xué)圖像處理領(lǐng)域,具體涉及一種基于多尺度和混合注意力機制的皮膚病高效分割方法。
背景技術(shù):
0、技術(shù)背景
1、皮膚病在全球范圍內(nèi)非常常見,它不僅給患者帶來身體上的不適,還對其心理健康和社交生活產(chǎn)生影響。皮膚癌作為皮膚病的一個分支,其增長速度位居世界前列。尤其是黑色素瘤,它被認(rèn)為是最為致命的皮膚癌之一,也是導(dǎo)致大多數(shù)皮膚癌患者喪生的主要原因。據(jù)統(tǒng)計,2018年約有1,329,779例新增確診病例,其中黑色素瘤的全球發(fā)病率超過287,700人,死亡人數(shù)接近60,700人。盡管黑色素瘤的死亡率較高,但是早期惡性黑色素瘤的治愈率卻超過95%,而晚期的存活率則降至15%。因此,高效、準(zhǔn)確的早期皮膚病診斷對于提高患者的生存率至關(guān)重要。
2、長期以來,皮膚病的診斷主要依賴皮膚鏡檢查,尤其是在早期黑色素瘤的及早發(fā)現(xiàn)。皮膚鏡是一種無創(chuàng)影像診斷技術(shù),通過消除表面反射和增強深層皮膚的可視化,醫(yī)生能夠檢測到人眼難以察覺的病變。盡管皮膚鏡檢查得到廣泛認(rèn)可,但人工檢查圖像仍是一項耗時、技能要求高的工作。僅依賴人類視覺識別黑色素瘤可能導(dǎo)致主觀、不準(zhǔn)確和可重復(fù)性差的結(jié)果。為改善這一問題,引入計算機輔助診斷(cad)技術(shù)成為幫助皮膚科醫(yī)生日常實踐的關(guān)鍵手段。cad技術(shù)旨在提高對皮膚病的檢測和分析效率,特別是在建立皮膚癌cad系統(tǒng)方面。該系統(tǒng)關(guān)注皮膚病灶的分割和分類,以準(zhǔn)確檢測病變位置和邊界,并協(xié)助診斷不同類型的病變,如黑色素瘤、痣、脂溢性角化病等。
3、圖像分割技術(shù)是研究計算機視覺處理的一大重點技術(shù)領(lǐng)域,尤其在計算機輔助診斷系統(tǒng)中發(fā)揮著關(guān)鍵作用。該技術(shù)不僅有助于醫(yī)生直接聚焦于病變區(qū)域,同時其處理結(jié)果直接影響后續(xù)圖像識別的準(zhǔn)確性。在皮膚病變圖像中,分割通常涉及檢測與正常皮膚顏色有差異的色素塊。然而,由于顏色、紋理、病變大小、病變位置形狀以及偽影等多種因素的影響,皮膚病分割任務(wù)仍然具有極大挑戰(zhàn)。早期的皮膚病分割方法主要基于最佳閾值、區(qū)域生長和邊緣檢測算法。然而,這些方法在處理顏色不均勻、邊界模糊的皮膚損傷圖像時通常難以獲得準(zhǔn)確的分割結(jié)果。此外,這些傳統(tǒng)方法往往需要人工干預(yù)或包含大量超參數(shù)進(jìn)行微調(diào),以達(dá)到良好的分割效果。但隨著深度學(xué)習(xí)的興起,這一困境得到了解決。同時,基于深度學(xué)習(xí)的網(wǎng)絡(luò)分割算法逐漸取代了傳統(tǒng)算法,成為當(dāng)前研究的主流熱點。全卷積神經(jīng)網(wǎng)絡(luò)(fcn)作為最早引入圖像分割領(lǐng)域的深度學(xué)習(xí)算法,開創(chuàng)了新的分割方式。許多優(yōu)化算法基于fcn結(jié)構(gòu)不斷涌現(xiàn),而u-net的提出則奠定了其在醫(yī)學(xué)圖像分割領(lǐng)域的重要地位。當(dāng)前,大多數(shù)醫(yī)學(xué)圖像分割網(wǎng)絡(luò)都以u-net結(jié)構(gòu)為基礎(chǔ)構(gòu)建。u-net整體結(jié)構(gòu)采用編碼-解碼結(jié)構(gòu),在編碼部分,通過下采樣對特征進(jìn)行提取。在解碼部分,通過上采樣操作還原圖像尺寸,最終生成分割預(yù)測圖。該結(jié)構(gòu)還設(shè)計了跳躍連接操作,彌補了高層特征在特征提取階段因為下采樣操作所丟失的部分信息,從而提升了分割的準(zhǔn)確性和魯棒性。許多網(wǎng)絡(luò)結(jié)構(gòu)都受到u-net的啟發(fā),并在其基礎(chǔ)上進(jìn)行改進(jìn)。例如,fat-net以u-net結(jié)構(gòu)為基礎(chǔ),引入了雙編碼器集成卷積神經(jīng)網(wǎng)絡(luò)(cnn)和transformer分支,整合局部和全局上下文信息以增強分割邊界的準(zhǔn)確性。另一方面,h2former通過結(jié)合卷積和transformer模塊,不僅集成局部和全局上下文信息,還融入了多尺度信息,進(jìn)一步提升了分割性能。
技術(shù)實現(xiàn)思路
1、針對上述現(xiàn)有技術(shù)中皮膚病圖像病變區(qū)域多變,形狀不規(guī)則等問題,本發(fā)明提供了一種基于網(wǎng)絡(luò)編碼的基于多尺度和混合注意力機制的皮膚病高效分割方法。本發(fā)明的目的有:(1)解決皮膚病圖像病變區(qū)域多變,形狀不規(guī)則等問題;(2)減少模型的參數(shù)量,在保證預(yù)測精度的同時提高預(yù)測效率;(3)通過有效整合全局上下文和局部信息以及多尺度信息,提高皮膚病圖像分割的準(zhǔn)確性和魯棒性。
2、為了解決上述技術(shù)問題,本發(fā)明采用了如下的技術(shù)方案:
3、一種基于多尺度和混合注意力機制的皮膚病高效分割方法,該方法首先使用圖像隨機旋轉(zhuǎn)、隨機改變圖像的亮度和對比度以及隨機改變圖像的色調(diào)、飽和度值等數(shù)據(jù)增強策略,增加樣本的多樣性,以保證模型的泛化能力;在編碼器階段,使有卷積神經(jīng)網(wǎng)絡(luò)以及全局和局部注意力模塊,提取全局上下文和局部以及多尺度信息,再通過卷積等方式特征融合,從而加強模型的信息提取能力,提高分割預(yù)測精度。在解碼器階段,使用轉(zhuǎn)置卷積搭建輕量的解碼器進(jìn)行圖像尺寸恢復(fù),同時通過簡單的跳躍連接彌補丟失信息,最后輸出皮膚病變區(qū)域的預(yù)測圖,實現(xiàn)高效的皮膚病變分割。
4、作為本發(fā)明的一種優(yōu)選方案,該方法具體包括如下步驟:
5、1)基于多尺度和混合注意力機制的皮膚病分割網(wǎng)絡(luò)的搭建
6、1.1)分割網(wǎng)絡(luò)由編碼器、解碼器和跳躍連接三個關(guān)鍵組成部分構(gòu)成;編碼器包括下采樣和特征提取層兩個部分,在下采樣部分,通過卷積和最大池化操作對圖像特征進(jìn)行初步提取,這一過程不僅有助于減小特征圖的空間維度、提高計算效率,同時通過擴(kuò)大感受野和保留重要特征,使得模型能夠更好地理解圖像的結(jié)構(gòu)和語義信息;特征提取層由通道注意力模塊、全局和局部注意力模塊以及多尺度特征提取模塊組成;通道注意力模塊的作用是通過學(xué)習(xí)通道間的權(quán)重來調(diào)整不同通道的特征響應(yīng),以突出對當(dāng)前任務(wù)更重要的通道,從而增強網(wǎng)絡(luò)在特定任務(wù)上的性能;全局和局部注意力模塊主要是為了幫助卷積神經(jīng)網(wǎng)絡(luò)提取全局上下文和局部信息;因為,卷積神經(jīng)網(wǎng)絡(luò)由于固有的局限性,對全局上下文信息的提取能力較弱,所以通過一個全局注意力模塊來彌補其不足;同時,加入一個局部注意力模塊還可以進(jìn)一步強化卷積神經(jīng)網(wǎng)絡(luò)對局部特征的提取能力;在分別經(jīng)過全局和局部注意力模塊后,對提取的特征進(jìn)行多尺度特征提??;多尺度特征提取模塊通過在不同尺度上提取特征,使模型具備適應(yīng)不同物體尺寸、提高平移不變性和抗變形能力的能力;同時能夠更好地捕捉圖像的層次結(jié)構(gòu)和細(xì)節(jié),避免了單一尺度下信息的丟失;此外,多尺度特征提取也提高了模型的魯棒性,使其更適應(yīng)于處理病變區(qū)域多變,形狀不規(guī)則的皮膚病圖像數(shù)據(jù);最后,在通過卷積模塊對提取局部信息和全局信息的多尺度特征進(jìn)行有效融合;跳躍連接的主要目的就是通過連接底層和高層的特征,實現(xiàn)了信息傳遞、細(xì)節(jié)保留、對抗梯度消失、加速收斂和降低參數(shù)傳遞距離等關(guān)鍵作用,有效提高了網(wǎng)絡(luò)性能和泛化能力;解碼器主要由簡單的卷積操作構(gòu)成,其作用是將編碼器提取的高級語義特征映射轉(zhuǎn)換為與輸入圖像相同的分辨率,并通過上采樣和跳躍連接的操作逐步還原細(xì)節(jié)信息;解碼器通過卷積和上采樣操作將低維特征映射轉(zhuǎn)換為高分辨率的特征圖,同時利用跳躍連接將編碼器相應(yīng)層的特征與解碼器的對應(yīng)層相結(jié)合,有助于保留底層和高層的詳細(xì)信息;這一過程使得網(wǎng)絡(luò)能夠生成精細(xì)的分割結(jié)果,同時充分利用編碼器提取的語義信息,實現(xiàn)對輸入圖像的準(zhǔn)確而全面的分割;
7、1.2)分割網(wǎng)絡(luò)具體包括:1個4倍下采樣初始特征提取模塊、4個編碼器、3個跳躍連接、3個解碼器、以及一個4倍上采樣模塊;每個編碼器包括1個下采樣操作和一個特征提取層,第一個編碼器沒有下采樣操作;每個特征提取層包括1個局部注意力、1個全局注意力模塊、1個通道注意力模塊以及1個多尺度特征提取模塊;
8、1.3)網(wǎng)絡(luò)輸入為經(jīng)過數(shù)據(jù)增強后的皮膚病圖像,大小為224×224,共3個通道,每次輸入2張圖像,其維度為[2,3,224,224];網(wǎng)絡(luò)的輸出為1個通道,大小和輸入圖像相同,其維度為[2,1,224,224];
9、1.4)初始4倍下采樣特征提取模塊由卷積核大小為7×7,步長為2,padding為3的卷積,層歸一化,relu激活函數(shù)以及卷積核大小為3×3,步長為2,padding為1的最大池化層組成;在將原始輸入映射到高維后再利用編碼器對特征的信息進(jìn)行提取;每個編碼器的特征提取層的模塊數(shù)為[1,1,1,1],通道數(shù)依次為64、128、256、512;解碼器由3個簡單的卷積層構(gòu)建,模型最后通過兩個連續(xù)2倍上采樣還原原圖大小,而后使用卷積層進(jìn)行預(yù)測輸出分割預(yù)測圖;
10、2)網(wǎng)絡(luò)模型訓(xùn)練與參數(shù)優(yōu)化
11、2.1)網(wǎng)絡(luò)參數(shù)初始化:采用kaiming初始化方法對搭建的基于多尺度和混合注意力機制的皮膚病分割網(wǎng)絡(luò)模型參數(shù)進(jìn)行初始化;
12、2.2)數(shù)據(jù)集構(gòu)建:數(shù)據(jù)集采用的由國際皮膚成像協(xié)作組織(isic)所提供的公開數(shù)據(jù)集;
13、2.3)數(shù)據(jù)預(yù)處理:首先將數(shù)據(jù)集分辨率統(tǒng)一調(diào)整為224×224大小,然后為了增加圖像樣本的多樣性,采用了多種數(shù)據(jù)增強策略,包括圍繞x軸或y軸垂直翻轉(zhuǎn)輸入圖像,以及將輸入圖像旋轉(zhuǎn)-15到15隨機選擇的角度度,以-3%到3%的比例隨機改變輸入圖像的亮度和對比度,以-3%到3%的比例隨機改變輸入圖像的色調(diào)、飽和度值;
14、2.4)將經(jīng)過數(shù)據(jù)預(yù)處理后的圖像作為網(wǎng)絡(luò)的輸入,通過網(wǎng)絡(luò)前向計算生成特征向量;
15、2.5)采用標(biāo)準(zhǔn)的二值交叉熵?fù)p失函數(shù)和dice損失函數(shù)作為分割預(yù)測網(wǎng)絡(luò)目標(biāo)優(yōu)化函數(shù),dice損失函數(shù)的定義如下:
16、
17、交叉熵?fù)p失函數(shù)定義如下:
18、
19、其中i表示概率分布圖中所有像素的索引,pi是第i個像素屬于分割區(qū)域的概率,gi是第i個像素的的真實標(biāo)簽;
20、總損失函數(shù)定義如下:
21、l=λ1lbce+λ2ldice
22、其中,λ1和λ2分別設(shè)為0.6和0.4;
23、2.6)將模型表現(xiàn)最優(yōu),需要將模型參數(shù)優(yōu)化至l最小值;
24、3)評價指標(biāo)
25、采用五個廣泛使用的指標(biāo)來評估該方法的準(zhǔn)確性性能,包括靈敏度(se),特異性(sp),準(zhǔn)確性(acc),交集與聯(lián)合(iou)和骰子系數(shù)(dice)
26、
27、其中tp(true?positive)和tn(true?negative)分別表示正確分割的皮膚病灶像素數(shù)和背景像素數(shù);fp(false?positive)表示錯誤標(biāo)記為皮膚病變像素的背景像素,fn(false?negative)表示錯誤預(yù)測為背景像素的皮膚病變像素。
28、作為本發(fā)明的一種優(yōu)選方案,在步驟2.2)中,公開數(shù)據(jù)集分別為isic2017數(shù)據(jù)集(codellaetal,2018)和isic2018數(shù)據(jù)集(codellaetal,2019),isic2017數(shù)據(jù)集總共包括2750張帶注釋的皮膚鏡圖像,分為訓(xùn)練集、驗證集和測試集;具體而言,訓(xùn)練集包含2000張圖像,驗證集包含150張圖像,測試集包含600張圖像;isic2018包含2594張rgb皮膚病變圖像,將其隨機1815張圖像用于訓(xùn)練,259張圖像用于驗證,520張圖像用于測試。
29、作為本發(fā)明的一種優(yōu)選方案,在步驟2.4)中,所述網(wǎng)絡(luò)的前向計算包括:
30、卷積操作:任意一個卷積核所對應(yīng)的輸出特征圖采用下式進(jìn)行計算:
31、
32、其中,f表示非線性激勵函數(shù),bi表示第i個卷積核所對應(yīng)的偏置項,r表示輸入通道索引號,k表示輸入通道數(shù),wir表示第i個卷積核的第r通道權(quán)值矩陣,是卷積操作,xr表示第r個輸入通道影像;
33、自注意力操作:自注意力通過學(xué)習(xí)圖像中不同區(qū)域之間的長程依賴關(guān)系和空間關(guān)系,有助于模型更好地理解圖像的全局結(jié)構(gòu)和像素級別的關(guān)聯(lián)性,從而提高圖像分割的精度;它使模型能夠動態(tài)調(diào)整感受野的大小,適應(yīng)不同尺度的對象,同時能夠在處理復(fù)雜場景中更靈活地關(guān)注與分割目標(biāo)相關(guān)的區(qū)域;自注意力機制的計算公式如下:
34、query=xwq,key=xwk,value=xwv???(2)
35、
36、其中,x是輸入的特征矩陣,query,key,value是x經(jīng)過線性變換后的表示,分別代表查詢、鍵和值,wq,wk,wv是三個可學(xué)習(xí)的特征權(quán)重矩陣,d是query或者key的通道維度;
37、批量歸一化:batchnormalization(bn)是一種讓神經(jīng)網(wǎng)絡(luò)訓(xùn)練更快、更穩(wěn)定的方法,它計算每個mini-batch的均值和方差,并將其拉回到均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布;
38、層歸一化:layernormalization(ln)是一種神經(jīng)網(wǎng)絡(luò)正則化方法,類似于批歸一化,通過計算每個樣本在同一層中所有特征的均值和方差,將其調(diào)整為標(biāo)準(zhǔn)正態(tài)分布,以提高訓(xùn)練速度和穩(wěn)定性;
39、非線性激勵:使用整流線性單元relu作為非線性激勵函數(shù),將歸一化后每個值進(jìn)行非線性轉(zhuǎn)化,所述整流線性單元relu定義如下:
40、relu(x)=max(0,x)?(4)
41、其中,max表示求最大值,x是一個輸入值;
42、概率值轉(zhuǎn)換:使用sigmoid函數(shù)將預(yù)測分值轉(zhuǎn)換成概率分布,sigmoid函數(shù)定義如下:
43、
44、其中,yj是第j個像素屬于分割區(qū)域的概率,oj是標(biāo)簽預(yù)測器最后輸出的在第j個像素上的預(yù)測分值。
45、作為本發(fā)明的一種優(yōu)選方案,在步驟2.6)中,采用adam優(yōu)化器算法和反向傳播算法迭代更新網(wǎng)絡(luò)參數(shù)θ已得到最優(yōu)網(wǎng)絡(luò)參數(shù);adam優(yōu)化器指一種自適應(yīng)優(yōu)化算法,可以根據(jù)歷史梯度信息來調(diào)整學(xué)習(xí)率;它結(jié)合了傳統(tǒng)梯度下降和動量更新兩種優(yōu)化算法的思想,并且對參數(shù)的更新進(jìn)行了歸一化處理,使得每個參數(shù)的更新都有一個相似的量級,從而提升訓(xùn)練效果;adam優(yōu)化器可以根據(jù)歷史梯度信息來自適應(yīng)調(diào)節(jié)學(xué)習(xí)率,不需要手動調(diào)節(jié)學(xué)習(xí)率的大小,從而提升模型的收斂速度和泛化能力,同時減少計算量,使得在大規(guī)模數(shù)據(jù)集上能夠有良好的表現(xiàn)。
46、作為本發(fā)明的一種優(yōu)選方案,本步驟中采用adam優(yōu)化器迭代時,每次迭代使用的樣本數(shù)即批大小設(shè)為2,初始學(xué)習(xí)率設(shè)為1e-4,采用余弦退貨學(xué)習(xí)率衰退技術(shù),周期與訓(xùn)練總輪數(shù)保持一致。
47、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:
48、1、通過局部和全局注意模塊以及多尺度特征提取模塊不僅提取全局上下文和局部信息,同時還獲得了不同尺度的信息,使用卷積進(jìn)行融合,使得網(wǎng)絡(luò)能夠有效的應(yīng)對圖像病變區(qū)域多變,形狀不規(guī)則等問題。
49、2、增強了模型對病變區(qū)域邊界的區(qū)分能力,提高皮膚病圖像分割的準(zhǔn)確性和魯棒性。
50、3、通過組卷積以及把卷積從2維計算降成線性計算,不僅減少了模型的參數(shù)量,還能在保證預(yù)測精度的同時提高預(yù)測效率。