本發(fā)明涉及圖像處理領(lǐng)域,尤其涉及融合多層感知機的醫(yī)學(xué)圖像分割方法、終端設(shè)備及介質(zhì)。
背景技術(shù):
1、近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?networks,cnn)在計算機視覺應(yīng)用,例如,圖像分類、目標(biāo)檢測、語義分割、目標(biāo)跟蹤、圖像增強等中取得了顯著進展。得益于cnn的發(fā)展,計算機視覺技術(shù)已廣泛應(yīng)用于醫(yī)學(xué)圖像處理領(lǐng)域。圖像語義分割是醫(yī)學(xué)圖像處理的重要組成部分,可以在計算機輔助診斷和圖像引導(dǎo)臨床手術(shù)中發(fā)揮重要作用。
2、現(xiàn)有的基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)最典型的是u-net,它由對稱的編碼器-解碼器以及跳躍連接(skip?connection)組成。在編碼器中,使用一系列卷積層和連續(xù)下采樣層來增加感受野并提取較多的語義特征。然后,解碼器將提取的語義特征進行上采樣以得到像素級語義預(yù)測,并將同一層來自編碼器的淺層特征與來自解碼器的深層特征通過跳躍連接進行融合,以減輕深度卷積和下采樣導(dǎo)致的語義信息丟失。憑借著優(yōu)秀的結(jié)構(gòu)設(shè)計,u-net在醫(yī)學(xué)圖像處理中取得了巨大成功。基于此網(wǎng)絡(luò)已經(jīng)開發(fā)了許多變體網(wǎng)絡(luò),用于各類醫(yī)學(xué)圖像分割。這些基于u-net的方法在醫(yī)學(xué)圖像分割中的優(yōu)異表現(xiàn)已經(jīng)證明了cnn具有很強的學(xué)習(xí)特征的能力。但是卷積運算中接受野的固有局域性和權(quán)重共享,使得基于u-net的方法很難學(xué)習(xí)顯式的全局信息和進行遠(yuǎn)程語義信息交互,這在一定程度上無法滿足醫(yī)學(xué)圖像分割領(lǐng)域?qū)Ψ指罹鹊膰?yán)格要求。
3、將transformer應(yīng)用在計算機視覺中可以一定程度緩解長距離的依賴關(guān)系。同時,transformer具有強大的全局關(guān)系建模能力,在醫(yī)學(xué)圖像分析任務(wù)中取得了較好的效果?,F(xiàn)有研究中提出了vision?transformer(vit)來執(zhí)行圖像識別任務(wù),以帶有位置嵌入的二維圖像塊為輸入,取得了非常好的性能。對基于vit的研究也促進了對多層感知機(multi-layer?perceptron,mlp)結(jié)構(gòu)的研究,如mlp-mixer、gmlp和amlp等。特別是mlp-mixer,是一個完全基于mlp的網(wǎng)絡(luò),它以較少的計算量給出了與transformer相當(dāng)?shù)男阅堋1M管現(xiàn)有的基于transformer和mlp的方法在包括醫(yī)學(xué)圖像分割等圖像分析任務(wù)中被證明是有很大的發(fā)展前景的,但仍然存在幾個艱巨的挑戰(zhàn):
4、(1)它只接收固定的圖片尺寸,需要將圖片硬性分成固定的大小,這可能無法捕捉圖片細(xì)粒度的空間細(xì)節(jié)信息。
5、(2)在應(yīng)用于較大的圖片時,會不可避免的造成邊界偽影。
6、(3)由于將輸入視為一維序列,并且在所有階段都只關(guān)注全局信息的建模,因此缺乏詳細(xì)的定位信息。在進行語義分析時,可能會缺乏對感興趣的位置的定位能力。
7、這些問題是transformer和mlp相比于cnn網(wǎng)絡(luò)在提取底層特征和視覺結(jié)構(gòu)方面的不足。
技術(shù)實現(xiàn)思路
1、為了解決上述問題,本發(fā)明提出了融合多層感知機的醫(yī)學(xué)圖像分割方法、終端設(shè)備及介質(zhì)。
2、具體方案如下:
3、一種融合多層感知機的醫(yī)學(xué)圖像分割方法,包括以下步驟:
4、s1:采集醫(yī)學(xué)圖像數(shù)據(jù)構(gòu)建訓(xùn)練集;
5、s2:構(gòu)建醫(yī)學(xué)圖像分割模型,通過訓(xùn)練集對模型進行訓(xùn)練;
6、模型的網(wǎng)絡(luò)骨干采用u型網(wǎng)絡(luò),包括n個編碼器、n個解碼器和一個輸出模塊;編碼器、解碼器和輸出模塊均包括三個卷積塊、一個mlp交叉門控模塊和一個拼接模塊;
7、在編碼器中,數(shù)據(jù)從第一個卷積塊輸入,第一個卷積塊的輸出經(jīng)過下采樣后輸入至第二個卷積塊,第二個卷積塊的輸出經(jīng)過上采樣后輸入至第三個卷積塊,第一個卷積塊的輸出與第三個卷積塊的輸出共同輸入至mlp交叉門控模塊,mlp交叉門控模塊的輸出一方面通過跳躍連接至解碼器,另一方面經(jīng)過下采樣后與第二個卷積塊的輸出在拼接模塊進行拼接,拼接模塊的輸出結(jié)果即為編碼器的輸出;
8、在解碼器中,前一層的輸出數(shù)據(jù)從第一個卷積塊輸入,第一個卷積塊的輸出經(jīng)過上采樣后與上一層編碼器跳躍連接的數(shù)據(jù)共同輸入至第二個卷積塊,第二個卷積塊的輸出經(jīng)過下采樣后與對應(yīng)層編碼器的跳躍連接數(shù)據(jù)共同輸入至第三個卷積塊,第一個卷積塊的輸出與第三個卷積塊的輸出共同輸入至mlp交叉門控模塊,mlp交叉門控模塊的輸出經(jīng)過上采樣后與第二個卷積塊的輸出在拼接模塊進行拼接,拼接模塊的輸出結(jié)果即為解碼器的輸出;
9、在輸出模塊中,解碼器的輸出數(shù)據(jù)從第一個卷積塊輸入,第一個卷積塊的輸出直接輸入第二個卷積塊,第一個卷積塊的輸出與第二個卷積塊的輸出共同輸入至mlp交叉門控模塊,mlp交叉門控模塊的輸出經(jīng)過上采樣后與輸入的第一層編碼器跳躍連接的數(shù)據(jù)在拼接模塊進行拼接,拼接模塊的輸出作為第三個卷積塊的輸入,第三個卷積塊的輸出即為模型輸出結(jié)果;
10、s3:通過訓(xùn)練后的模型對待分割醫(yī)學(xué)圖像進行分割。
11、進一步的,mlp交叉門控模塊包括兩條路徑的輸入,針對每條路徑,其輸入數(shù)據(jù)依次經(jīng)過層規(guī)范化、全連接層和gelu激活函數(shù)后,輸入多軸多窗口mlp結(jié)構(gòu),多軸多窗口mlp結(jié)構(gòu)的輸出與多軸多窗口mlp結(jié)構(gòu)的輸入相乘,將相乘結(jié)果依次經(jīng)過全連接層和dropout激活后,dropout激活結(jié)果與該條路徑的輸入數(shù)據(jù)相加,得到該條路徑的輸出結(jié)果;將兩條路徑的輸出結(jié)果相加,得到mlp交叉門控模塊的輸出結(jié)果。
12、進一步的,多軸多窗口mlp結(jié)構(gòu)將輸入的特征圖按通道均分為4個頭,在每個頭中使用mlp進行信息融合,其中兩個頭送入局部特征分支,另外兩個頭送入全局特征分支;在在局部特征分支中,兩個頭分別被送入兩個具有不同窗口大小的局部特征處理軸;在全局特征分支中,兩個頭分別被送入兩個具有不同窗口大小的全局特征處理軸。
13、進一步的,卷積塊由兩個3×3的卷積層、bn層與relu激活函數(shù)層的組合組成。
14、進一步的,步驟s1中還包括對采集的醫(yī)學(xué)圖像數(shù)據(jù)通過隨機旋轉(zhuǎn)或色調(diào)、亮度、裁剪調(diào)整的方式進行數(shù)據(jù)增廣,基于增廣后的數(shù)據(jù)構(gòu)建訓(xùn)練集。
15、一種融合多層感知機的醫(yī)學(xué)圖像分割終端設(shè)備,包括處理器、存儲器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)本發(fā)明實施例上述的方法的步驟。
16、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本發(fā)明實施例上述的方法的步驟。
17、本發(fā)明采用如上技術(shù)方案,可以在保持模型可學(xué)習(xí)的參數(shù)和計算成本較小的情況下,達到了最好的分割性能。
1.一種融合多層感知機的醫(yī)學(xué)圖像分割方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的融合多層感知機的醫(yī)學(xué)圖像分割方法,其特征在于:mlp交叉門控模塊包括兩條路徑的輸入,針對每條路徑,其輸入數(shù)據(jù)依次經(jīng)過層規(guī)范化、全連接層和gelu激活函數(shù)后,輸入多軸多窗口mlp結(jié)構(gòu),多軸多窗口mlp結(jié)構(gòu)的輸出與多軸多窗口mlp結(jié)構(gòu)的輸入相乘,將相乘結(jié)果依次經(jīng)過全連接層和dropout激活后,dropout激活結(jié)果與該條路徑的輸入數(shù)據(jù)相加,得到該條路徑的輸出結(jié)果;將兩條路徑的輸出結(jié)果相加,得到mlp交叉門控模塊的輸出結(jié)果。
3.根據(jù)權(quán)利要求1所述的融合多層感知機的醫(yī)學(xué)圖像分割方法,其特征在于:多軸多窗口mlp結(jié)構(gòu)將輸入的特征圖按通道均分為4個頭,在每個頭中使用mlp進行信息融合,其中兩個頭送入局部特征分支,另外兩個頭送入全局特征分支;在局部特征分支中,兩個頭分別被送入兩個具有不同窗口大小的局部特征處理軸;在全局特征分支中,兩個頭分別被送入兩個具有不同窗口大小的全局特征處理軸。
4.根據(jù)權(quán)利要求1所述的融合多層感知機的醫(yī)學(xué)圖像分割方法,其特征在于:卷積塊由兩個3×3的卷積層、bn層與relu激活函數(shù)層的組合組成。
5.根據(jù)權(quán)利要求1所述的融合多層感知機的醫(yī)學(xué)圖像分割方法,其特征在于:步驟s1中還包括對采集的醫(yī)學(xué)圖像數(shù)據(jù)通過隨機旋轉(zhuǎn)或色調(diào)、亮度、裁剪調(diào)整的方式進行數(shù)據(jù)增廣,基于增廣后的數(shù)據(jù)構(gòu)建訓(xùn)練集。
6.一種融合多層感知機的醫(yī)學(xué)圖像分割終端設(shè)備,其特征在于:包括處理器、存儲器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1~5中任一所述方法的步驟。
7.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,其特征在于:所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1~5中任一所述方法的步驟。