本發(fā)明涉及病理圖像信息處理技術(shù)領(lǐng)域,特別是基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)上皮和基質(zhì)組織自動(dòng)分割方法。
背景技術(shù):
上皮組織和基質(zhì)是乳房組織中的兩類基本組織。80%的乳腺腫瘤起源于乳腺中的上皮組織,所以現(xiàn)在有一些學(xué)者致力于將計(jì)算機(jī)輔助診斷系統(tǒng)應(yīng)用于對(duì)病理圖像中的上皮和基質(zhì)組織的異質(zhì)性分析。自動(dòng)的鑒別上皮和基質(zhì)組織是量化這種異質(zhì)性的前提,這樣才使得對(duì)上皮細(xì)胞核進(jìn)行單獨(dú)分析成為可能。然而,由于病理組織圖像所具有的復(fù)雜性,成功的將兩類組織分離是一個(gè)具有挑戰(zhàn)性的課題。
1)名副其實(shí)的大數(shù)據(jù):
對(duì)于一張完整的病理組織全掃描切片,其尺寸約為100000×700000個(gè)像素點(diǎn),存儲(chǔ)在計(jì)算機(jī)上需要占用1.43個(gè)G的硬盤空間,這種高分辨率、大尺度圖像對(duì)計(jì)算機(jī)硬件和圖像分析算法都是非常具有挑戰(zhàn)性的。
2)病理組織結(jié)構(gòu)類型復(fù)雜,而且形態(tài)差異很大
一張病理切片具有眾多的病理結(jié)構(gòu)類型,形態(tài)各異。即便是相同的組織,其結(jié)構(gòu)、形態(tài)也會(huì)千奇百怪。因此難以用一個(gè)固定的模型來(lái)描述,又大大的提高了對(duì)模型魯棒性的要求。
3)不同病理等級(jí)其組織異質(zhì)性高
隨著癌癥等級(jí)的提高,正常組織的邊界不斷被癌細(xì)胞腐蝕,上皮和基質(zhì)組織之間的邊界信息越來(lái)越模糊。而模糊的邊界又提高了分割模型的準(zhǔn)確性要求。
4)其他挑戰(zhàn)
組織圖像的背景復(fù)雜、噪聲大,存在染色不均勻性和成像質(zhì)量的問(wèn)題。
由于H&E染色(蘇木精-伊紅染色)的病理圖像能體現(xiàn)病理組織復(fù)雜的形態(tài)特征,從而在臨床中被廣泛使用。但是在H&E圖像中,不僅背景復(fù)雜、圖像噪聲大,還存在由于切片染色制作過(guò)程中產(chǎn)生的染色不均勻,不正確染色等等問(wèn)題。此外不同的掃描儀成像以及成像質(zhì)量等問(wèn)題。這些方面都會(huì)對(duì)圖像處理分析算法帶來(lái)巨大挑戰(zhàn)。
雖然存在著上述的挑戰(zhàn),依然有著不少學(xué)者在病理圖像的上皮和基質(zhì)組織自動(dòng)分割中做出了貢獻(xiàn),推動(dòng)研究的發(fā)展。
與傳統(tǒng)的方法不同,深度學(xué)習(xí)在大量數(shù)據(jù)的基礎(chǔ)上通過(guò)組合低層特征來(lái)形成更加抽象的高層次的特征。隨著深度學(xué)習(xí)和大數(shù)據(jù)分析研究的不斷深入,使人們的研究目標(biāo)從簡(jiǎn)單的圖像轉(zhuǎn)變?yōu)閺?fù)雜的大型的圖像。而病理組織學(xué)圖像所具有的復(fù)雜性正好符合這一點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問(wèn)題是克服現(xiàn)有技術(shù)的不足,而提供一種基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)上皮和基質(zhì)組織自動(dòng)分割的方法,與基于塊的上皮和基質(zhì)組織分割方法相比,無(wú)論是從定性結(jié)果還是定量結(jié)果來(lái)看,分類的準(zhǔn)確率都得到了較大的提升。
本發(fā)明為解決上述技術(shù)問(wèn)題采用以下技術(shù)方案:
根據(jù)本發(fā)明提出的一種基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)上皮和基質(zhì)組織自動(dòng)分割的方法,包括以下步驟:
步驟1、對(duì)所有病理圖像進(jìn)行預(yù)處理操作,去除掉病理圖像與病理圖像之間的顏色亮度差異;
步驟2、隨機(jī)選取預(yù)處理后的部分病理圖像作為訓(xùn)練樣本,其余作為測(cè)試樣本;
步驟3、根據(jù)人工標(biāo)注的組織區(qū)域圖,從訓(xùn)練樣本中的上皮和基質(zhì)組織內(nèi)部選取塊;
步驟4、根據(jù)人工標(biāo)注的組織區(qū)域圖,從訓(xùn)練樣本中的上皮和基質(zhì)組織邊緣選取塊;
步驟5、將步驟3與步驟4得到的塊進(jìn)行整合并隨機(jī)分為訓(xùn)練集與測(cè)試集;
步驟6、構(gòu)建一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)模型DCNN,該模型包含了卷積層、池化層、線性糾正函數(shù)激活函數(shù)、局部響應(yīng)歸一化層以及分類器;采用步驟5中的訓(xùn)練集和測(cè)試集訓(xùn)練該深度卷積神經(jīng)網(wǎng)絡(luò)模型;
步驟7、取出步驟2的測(cè)試樣本中的一張病理圖像,以病理圖像中每個(gè)點(diǎn)為中心,構(gòu)造一個(gè)Q×Q的塊;其中,Q為深度卷積神經(jīng)網(wǎng)絡(luò)輸入尺寸的大?。?/p>
步驟8、將步驟7中構(gòu)造的塊輸入到步驟6訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)模型中,得到分類結(jié)果。
作為本發(fā)明所述的一種基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)上皮和基質(zhì)組織自動(dòng)分割的方法進(jìn)一步優(yōu)化方案,根據(jù)步驟8得到的分類結(jié)果進(jìn)行偽彩色。
作為本發(fā)明所述的一種基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)上皮和基質(zhì)組織自動(dòng)分割的方法進(jìn)一步優(yōu)化方案,Q為32。
作為本發(fā)明所述的一種基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)上皮和基質(zhì)組織自動(dòng)分割的方法進(jìn)一步優(yōu)化方案,所述步驟4具體如下:根據(jù)人工標(biāo)注的組織區(qū)域圖,找到訓(xùn)練樣本中的上皮和基質(zhì)組織的邊界線,對(duì)邊界線進(jìn)行膨脹操作得到邊界線附近的點(diǎn)的坐標(biāo),以這些點(diǎn)為中心構(gòu)建32×32的塊,若中心點(diǎn)落在上皮組織中,則將該塊認(rèn)為是上皮組織小塊,反之則是基質(zhì)組織小塊。
作為本發(fā)明所述的一種基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)上皮和基質(zhì)組織自動(dòng)分割的方法進(jìn)一步優(yōu)化方案,所述步驟6中構(gòu)建一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)模型DCNN,具體如下:
采用Alex成功區(qū)分CIFAR-10數(shù)據(jù)時(shí)所使用的模型中的權(quán)重矩陣來(lái)初始化深度卷積神經(jīng)網(wǎng)絡(luò);
深度卷積神經(jīng)網(wǎng)絡(luò)的具體結(jié)構(gòu):
1)卷積層
假設(shè)濾波器組為每個(gè)輸入大小為w1-1×w1-1的塊通過(guò)m1×ml的濾波器滑過(guò)整張圖像的局部感受域,并與每個(gè)局部感受域進(jìn)行卷積操作,并輸出結(jié)果;個(gè)濾波器一共生成個(gè)特征映射圖,且每個(gè)映射圖的大小為(wl-1-ml+1)×(wl-1-ml+1),這個(gè)線性濾波表示為其中,是一個(gè)l層的一個(gè)ml×ml的濾波器,ml代表網(wǎng)絡(luò)結(jié)構(gòu)第l層中濾波器的大小,是第l層濾波器組Wl中的濾波器的個(gè)數(shù);
2)線性糾正函數(shù)激活函數(shù)的表達(dá)式如下:
3)池化層
池化層的操作是在上一層卷積特征映射后進(jìn)行一個(gè)下采樣的金字塔操作,在局部的感受域范圍內(nèi),提取其最大值或平均值作為下一層的特征值,非線性操作后,圖像的特征map尺寸大小變?yōu)椋?/p>
其中,s是池化層操作的尺寸;
4)局部響應(yīng)歸一化層
用于局部做減和做除并歸一化;
5)輸出層
整個(gè)網(wǎng)絡(luò)的最后一層就是輸出層,輸出層就是一個(gè)分類器,分類器的輸入是神經(jīng)網(wǎng)絡(luò)的最后一層,分類器的輸出是類別數(shù),在深度卷積神經(jīng)網(wǎng)絡(luò)中,二分類的Softmax分類器的邏輯回歸模型為:
其中,x是樣本的特征向量,T為轉(zhuǎn)置符號(hào),θ是參數(shù);
Softmax分類器的輸入是DCNN網(wǎng)絡(luò)的最后一層的輸出,通過(guò)最小化如下的損失函數(shù)J(θ)得到Softmax分類器的參數(shù)θ;
其中,m為樣本數(shù)量,y(i)為第i個(gè)樣本標(biāo)記,x(i)為第i個(gè)樣本的特征向量,k為類別數(shù);
θ代表所有的模型參數(shù),如下所示:
其中,是分類為第j類時(shí)所采用的參數(shù),同時(shí)也是θ這個(gè)所有模型參數(shù)中的第j行,0<j<k+1且j為整數(shù);
根據(jù)得到的Softmax的參數(shù)θ,每一個(gè)通過(guò)滑動(dòng)窗得到的圖像塊都會(huì)首先進(jìn)行DCNN的前向傳播得到特征向量x(i),再被送到邏輯回歸模型中得到一個(gè)0~1之間的概率值,最終圖像塊的類別為:
其中,e為自然底數(shù),k=2,是分類為第l類時(shí)所采用的參數(shù),同時(shí)也是θ這個(gè)所有模型參數(shù)中的第l行。
本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
(1)在同樣的實(shí)驗(yàn)條件下,本發(fā)明方法的檢測(cè)準(zhǔn)確率比基于像素塊的分割方法準(zhǔn)確率高;
(2)本發(fā)明旨在對(duì)每個(gè)像素點(diǎn)分類,避免了基于像素塊的分割中存在的不同種類的像素點(diǎn)被劃分為一個(gè)塊的問(wèn)題;
(3)本發(fā)明方法針對(duì)邊緣組織,采取鏡像邊緣像素的方法來(lái)擴(kuò)充邊緣,從而來(lái)對(duì)它們進(jìn)行分類;
(4)本發(fā)明方法在分割結(jié)果的同時(shí)在原圖上做出展示,便臨床醫(yī)生直接觀看,并在此基礎(chǔ)上做出后續(xù)診斷。
附圖說(shuō)明
圖1為深度卷及神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。
圖2為深度卷及神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)整體流程圖;其中,(a)為原始的H&E病理圖像;(b)為從(a)中通過(guò)滑動(dòng)窗口取出的32x32的小塊;(c)為將小塊輸入到整個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)(示意圖)中,并得到分類結(jié)果;(d)為根據(jù)(c)中分類結(jié)果對(duì)(b)中的小塊的中心點(diǎn)像素進(jìn)行偽彩色染色;(e)為當(dāng)整張圖片所有的滑動(dòng)小塊都被染色之后得到的結(jié)果,作為分割結(jié)果。
圖3是本發(fā)明中取出組織邊緣的小塊方法的示意圖;其中,(a)為原始的H&E病理圖像;(b)為由病理醫(yī)生人工標(biāo)注的結(jié)果(深灰色為上皮,淺灰色為基質(zhì),黑色為不關(guān)心的區(qū)域);(c)根據(jù)人工標(biāo)注,得到上皮和基質(zhì)的分割線并作膨脹處理;(d)在分割線所在區(qū)域隨機(jī)取點(diǎn),以該點(diǎn)為中心構(gòu)建小塊;(e)為基質(zhì)小塊;(f)為上皮小塊。
圖4是不同的模型對(duì)病理圖像中上皮和基質(zhì)組織分割后的偽彩色結(jié)果;其中,(a)是原始的病理圖像,(b)是由病理專家精確標(biāo)注的人工標(biāo)注,(c)是由本發(fā)明提出的基于逐像素點(diǎn)和深度卷積神經(jīng)網(wǎng)絡(luò)的方法;(d)-(i)分別是SW-SVM,SW-SMC,Ncut-SVM,Ncut-SMC,SLIC-SVM,DCNN-SLIC-SMC得到的偽彩色分割結(jié)果圖。
圖5a為本發(fā)明方法與現(xiàn)有基于像素塊的分割方法在NKI數(shù)據(jù)集上的ROC曲線的對(duì)比。
圖5b為本發(fā)明方法與現(xiàn)有基于像素塊的分割方法在VGH數(shù)據(jù)集上的ROC曲線的對(duì)比。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
步驟1、病理圖像預(yù)處理操作,去除掉圖像與圖像之間的顏色亮度差異;
該方法預(yù)先選取一幅病理圖像作為目標(biāo)圖像,其他的病理圖像在顏色標(biāo)準(zhǔn)化之后都將與目標(biāo)圖像具有相同的顏色分布。具體方法是將目標(biāo)圖像和待標(biāo)準(zhǔn)化病理圖像從RGB顏色空間轉(zhuǎn)換到LAB顏色空間,對(duì)三個(gè)通道的每一個(gè)像素的灰度值進(jìn)行一個(gè)線性變換,隨后將線性變換后的LAB顏色空間的待標(biāo)準(zhǔn)化病理圖像還原為RGB顏色空間,便可以使待標(biāo)準(zhǔn)化病理圖像和目標(biāo)圖像具有一樣的顏色分布。
步驟2、取出部分病理圖像作為訓(xùn)練樣本,其余作為測(cè)試樣本;
隨機(jī)的選取數(shù)據(jù)中的圖片,同時(shí)確保訓(xùn)練樣本與測(cè)試樣本完全分開。
步驟3、根據(jù)專家標(biāo)注,從上皮和基質(zhì)組織內(nèi)部選取圖像塊;
在病理圖像中選取所有像素點(diǎn)都屬于上皮組織或基質(zhì)組織的圖像塊。關(guān)于組織圖像塊的選取,完全由擁有專業(yè)病理知識(shí)的臨床醫(yī)生在大幅切片圖像中進(jìn)行組織區(qū)域標(biāo)記,程序會(huì)根據(jù)這些標(biāo)記的區(qū)域從中選取邊長(zhǎng)為32個(gè)像素的正方形圖像塊。其中上皮組織中選取的塊作為正樣本,基質(zhì)組織中選取的塊作為負(fù)樣本。
步驟4、根據(jù)專家標(biāo)注,從上皮和基質(zhì)組織邊緣選取圖像塊;
根據(jù)專家標(biāo)注,找到訓(xùn)練樣本中的上皮和基質(zhì)組織的邊界,對(duì)邊界線進(jìn)行膨脹操作得到邊界線附近的點(diǎn)的坐標(biāo)。以這些點(diǎn)為中心構(gòu)建32×32的小塊,若中心點(diǎn)落在上皮組織中,則將該小塊認(rèn)為是上皮組織小塊。反之則是基質(zhì)組織小塊;
步驟5、將步驟3與步驟4得到的小塊進(jìn)行整合并隨機(jī)分為訓(xùn)練集與測(cè)試集;
通過(guò)隨機(jī)篩選整合步驟3、4中得到的數(shù)據(jù),其中組織內(nèi)部小塊:組織邊緣小塊比例大致為1:4。
步驟6、構(gòu)建一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)模型(DCNN),模型包含了卷積層,線性糾正函數(shù)激活函數(shù),池化層,局部響應(yīng)歸一化層以及最后的分類器;
深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)是人工神經(jīng)網(wǎng)絡(luò)的一種,它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點(diǎn)在網(wǎng)絡(luò)的輸入是多維圖像時(shí)表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程。深度卷積網(wǎng)絡(luò)是為識(shí)別二維形狀而特殊設(shè)計(jì)的一個(gè)多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。
深度卷積神經(jīng)網(wǎng)絡(luò)模型性能的優(yōu)劣在一定程度上取決于訓(xùn)練樣本和初始的神經(jīng)網(wǎng)絡(luò)權(quán)重。采用隨機(jī)初始化的方法容易陷于局部最優(yōu),所以這里使用采用知名學(xué)者Alex成功區(qū)分CIFAR-10數(shù)據(jù)時(shí)所使用的模型中的權(quán)重矩陣來(lái)初始化本發(fā)明的深度卷積神經(jīng)網(wǎng)絡(luò)。
下面介紹下深度卷積神經(jīng)網(wǎng)絡(luò)的具體結(jié)構(gòu)。
1)卷積層
假設(shè)濾波器組為每一個(gè)(其中)是一個(gè)l層的一個(gè)ml×ml的濾波器,是第l層濾波器組Wl中的濾波器的個(gè)數(shù)。每個(gè)輸入大小為wl-1×wl-1的塊通過(guò)ml×ml的濾波器滑過(guò)整張圖像的局部感受域,并與每個(gè)局部感受域進(jìn)行卷積操作,并輸出結(jié)果。個(gè)濾波器一共生成個(gè)特征映射圖,且每個(gè)映射圖的大小為(wl-1-ml+1)×(wl-1-ml+1),這個(gè)線性濾波可以被簡(jiǎn)單的表示為
2)ReLu激活函數(shù)
為了模仿人腦神經(jīng)元的工作原理,也為了更好地?cái)M合表示我們的數(shù)據(jù)信息,對(duì)每一層的線性濾波后得到的特征映射圖,都要通過(guò)一個(gè)非線性的激活函數(shù)進(jìn)行激活,在這里使用Relu激活函數(shù),表達(dá)式如下:
相比較于傳統(tǒng)的sigmod激活函數(shù),Relu激活函數(shù)具有不飽和性,在訓(xùn)練梯度下降的時(shí)候能夠更加快速地收斂,從而加快整個(gè)網(wǎng)絡(luò)的訓(xùn)練速度。
3)Pooling層(S)
Pooling層的操作是在上一層卷積特征map后進(jìn)行一個(gè)下采樣的金字塔操作,在局部的感受域范圍內(nèi),提取其最大值(或平均值)作為下一層的特征值,所以在pooling層是沒有參數(shù)存在的,只需要做一個(gè)非線性操作即可,這樣做的原因在于,在一副有意義的圖像中,局部區(qū)域的信息是有冗余的,而我們要做的就是提取能代表和反映其最大響應(yīng)的特征。在pooling操作后,圖像的特征map尺寸大小變?yōu)椋?/p>
其中s是pooling操作的尺寸。
4)局部響應(yīng)歸一化層
該模塊主要進(jìn)行的是局部做減和做除(local subtractive and divisive normalizations)并歸一化,它會(huì)迫使在特征map中的相鄰特征進(jìn)行局部競(jìng)爭(zhēng),還會(huì)迫使在不同特征maps的同一空間位置的特征進(jìn)行競(jìng)爭(zhēng)。在一個(gè)給定的位置進(jìn)行減法歸一化操作,實(shí)際上就是該位置的值減去鄰域各像素的加權(quán)后的值,權(quán)值是為了區(qū)分與該位置距離不同影響不同,權(quán)值可以由一個(gè)高斯加權(quán)窗來(lái)確定。除法歸一化實(shí)際上先計(jì)算每一個(gè)特征maps在同一個(gè)空間位置的鄰域的加權(quán)和的值,然后取所有特征maps這個(gè)值的均值,然后每個(gè)特征map該位置的值被重新計(jì)算為該點(diǎn)的值除以max(那個(gè)均值,該點(diǎn)在該map的鄰域的加權(quán)和的值)。分母表示的是在所有特征maps的同一個(gè)空間鄰域的加權(quán)標(biāo)準(zhǔn)差。實(shí)際上如果對(duì)于一個(gè)圖像的話,就是均值和方差歸一化,也就是特征歸一化。這個(gè)實(shí)際上是由計(jì)算神經(jīng)科學(xué)模型啟發(fā)得到的。局部響應(yīng)歸一化層層模仿生物神經(jīng)系統(tǒng)的側(cè)抑制機(jī)制,對(duì)局部神經(jīng)元的活動(dòng)創(chuàng)建競(jìng)爭(zhēng)機(jī)制,使得響應(yīng)比較大的值相對(duì)更大,提高模型泛化能力。實(shí)施方式就是在每個(gè)給定的位置進(jìn)行減法歸一化操作,實(shí)際上就是該位置的值減去鄰域各像素的加權(quán)后的值,權(quán)值是為了區(qū)分與該位置距離不同影響不同,權(quán)值可以由一個(gè)高斯加權(quán)窗來(lái)確定。
5)輸出層
整個(gè)網(wǎng)絡(luò)的最后一層就是輸出層,輸出層就是一個(gè)分類器,分類器的輸入是神經(jīng)網(wǎng)絡(luò)的最后一層,分類器的輸出是類別數(shù),在深度卷積神經(jīng)網(wǎng)絡(luò)中,二分類的Softmax分類器的邏輯回歸模型為:
其中,訓(xùn)練集由m個(gè)已標(biāo)記的樣本構(gòu)成:{(x(1),y(1)),…,(xm,ym)},x是樣本的特征向量,T為轉(zhuǎn)置符號(hào),θ是參數(shù);
Softmax分類器的輸入是DCNN網(wǎng)絡(luò)的最后一層的輸出,通過(guò)最小化如下的損失函數(shù)J(θ)得到Softmax分類器的參數(shù)θ;
其中,m為樣本數(shù)量,y(i)為第i個(gè)樣本標(biāo)記,x(i)為第i個(gè)樣本的特征向量;
為了方便起見,這里使用符號(hào)θ代表所有的模型參數(shù),如下所示:
其中θ下標(biāo)是具體以第幾類,上標(biāo)T是轉(zhuǎn)置符號(hào),k為類別總數(shù);
根據(jù)得到的Softmax的參數(shù)θ,每一個(gè)通過(guò)滑動(dòng)窗得到的圖像塊都會(huì)首先進(jìn)行DCNN的前向傳播得到特征向量x(i),再被送到邏輯回歸模型中得到一個(gè)0~1之間的概率值,最終圖像塊的類別為:
其中,e為自然底數(shù),k=2。是分類為第j類時(shí)所采用的參數(shù),同時(shí)也是θ這個(gè)所有模型參數(shù)中的第j行。是分類為第l類時(shí)所采用的參數(shù),同時(shí)也是θ這個(gè)所有模型參數(shù)中的第l行。
步驟7、取出步驟2中的測(cè)試樣本中的一張病理圖像,以圖像中每個(gè)點(diǎn)為中心,構(gòu)造一個(gè)32×32的小塊;
以每個(gè)像素點(diǎn)為中心,往上取15個(gè)像素點(diǎn),往下取16個(gè)像素點(diǎn)從而構(gòu)成一個(gè)32×32的小塊。針對(duì)邊緣組織,為了方便取塊,采取鏡像邊緣像素的方法來(lái)擴(kuò)充邊緣,從而來(lái)對(duì)它們進(jìn)行分類;
步驟8、將步驟7中的小塊輸入到預(yù)先訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)中,得到分類結(jié)果。并根據(jù)分類結(jié)果進(jìn)行偽彩色;
將步驟7中取出的小塊輸入到步驟6中訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)模型中,并得到最終的輸出結(jié)果。如果結(jié)果為0,則認(rèn)為該小塊的中心像素點(diǎn)為上皮組織像素點(diǎn),將其染成深灰色。如果結(jié)果為1,則認(rèn)為該小塊的中心像素點(diǎn)為基質(zhì)組織像素點(diǎn),將其染成淺灰色。同時(shí)找到專家標(biāo)記中的黑色區(qū)域位置,將偽彩色結(jié)果中的同樣位置染成黑色。
為了便于公眾理解本發(fā)明技術(shù)方案,下面給出一個(gè)具體實(shí)施例。
本實(shí)施例將本發(fā)明所提供的技術(shù)方案應(yīng)用在蘇木精和伊紅染色(H&E)的乳腺癌組織圖像集上。本發(fā)明方法在兩個(gè)數(shù)據(jù)庫(kù)中進(jìn)行了測(cè)試,分別是:荷蘭癌癥研究所(NKI)和溫哥華綜合醫(yī)院(VGH)兩個(gè)機(jī)構(gòu)分別提供的數(shù)據(jù)。它包括了由病理專家手動(dòng)標(biāo)記出上皮和基質(zhì)組織的157張病理圖像(NKI,106張;VGH,51張)。每張圖像都是從20×光學(xué)分辨率的H&E染色的乳腺癌組織芯片(TMA)中裁剪出來(lái)的,圖像尺寸為1128×720。
本實(shí)施例中,組織特征提取部分采取深度卷積神經(jīng)網(wǎng)絡(luò),分類部分為softmax分類器,為了驗(yàn)證本發(fā)明的基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)的上皮和基質(zhì)組織分割方法的有效性,對(duì)比了另外幾種常見的使用深度卷積神經(jīng)網(wǎng)絡(luò)提取小塊特征的上皮和基質(zhì)組織分割方法,包括SW-SVM(滑動(dòng)窗口+支持向量機(jī)分類),SW-SMC(滑動(dòng)窗口+softmax分類),Ncut-SVM(規(guī)范化圖割+支持向量機(jī)分類),Ncut-SMC(規(guī)范化圖割+softmax分類),SLIC-SVM(簡(jiǎn)單線性迭代聚類+支持向量機(jī)分類),SLIC-SMC(簡(jiǎn)單線性迭代聚類+softmax分類)。
步驟1、病理圖像預(yù)處理操作,去除掉圖像與圖像之間的顏色亮度差異;
該方法預(yù)先選取一幅病理圖像作為目標(biāo)圖像,其他的病理圖像在顏色標(biāo)準(zhǔn)化之后都將與目標(biāo)圖像具有相同的顏色分布。具體方法是將目標(biāo)圖像和待標(biāo)準(zhǔn)化病理圖像從RGB顏色空間轉(zhuǎn)換到LAB顏色空間,對(duì)三個(gè)通道的每一個(gè)像素的灰度值進(jìn)行一個(gè)線性變換,隨后將線性變換后的LAB顏色空間的待標(biāo)準(zhǔn)化病理圖像還原為RGB顏色空間,便可以使待標(biāo)準(zhǔn)化病理圖像和目標(biāo)圖像具有一樣的顏色分布。
像素灰度值線性變化公式:在這里定義分別為L(zhǎng)AB各通道所有像素灰度值的均方差和均值。Target為目標(biāo)圖像,original為標(biāo)準(zhǔn)化前的圖像,mapped為標(biāo)準(zhǔn)化后的圖像。
步驟2、取出部分病理圖像作為訓(xùn)練樣本,其余作為測(cè)試樣本;
隨機(jī)的選取數(shù)據(jù)中的圖片,同時(shí)確保訓(xùn)練樣本與測(cè)試樣本完全分開。
步驟3、根據(jù)專家標(biāo)注,從上皮和基質(zhì)組織內(nèi)部選取圖像塊;
在病理圖像中選取所有像素點(diǎn)都屬于上皮組織或基質(zhì)組織的圖像塊。關(guān)于組織圖像塊的選取,完全由擁有專業(yè)病理知識(shí)的臨床醫(yī)生在大幅切片圖像中進(jìn)行組織區(qū)域標(biāo)記,程序會(huì)根據(jù)這些標(biāo)記的區(qū)域從中選取邊長(zhǎng)為32個(gè)像素的正方形圖像塊。其中上皮組織中選取的塊作為正樣本,基質(zhì)組織中選取的塊作為負(fù)樣本。
步驟4、根據(jù)專家標(biāo)注,從上皮和基質(zhì)組織邊緣選取圖像塊;
如圖,根據(jù)專家標(biāo)注(圖3中的(b)),找到訓(xùn)練樣本中的上皮和基質(zhì)組織的邊界,對(duì)邊界線進(jìn)行形態(tài)學(xué)的膨脹操作(圖3中的(c))得到膨脹后的邊界。從中得到屬于該邊界線的點(diǎn)的坐標(biāo)。以這些點(diǎn)為中心構(gòu)建32×32的小塊,若中心點(diǎn)落在上皮組織中,則將該小塊認(rèn)為是上皮組織小塊(圖3中的(f))。反之則是基質(zhì)組織小塊(圖3中的(e));為了更好的展示效果,將原始圖像(圖3中的(a))與膨脹后的邊界(圖3中的(c))圖像融合得到邊界示意圖(圖3中的(d))。
步驟5、將步驟3與步驟4得到的小塊進(jìn)行整合并隨機(jī)分為訓(xùn)練集與測(cè)試集;
通過(guò)隨機(jī)篩選整合步驟3、4中得到的數(shù)據(jù),其中組織內(nèi)部小塊:組織邊緣小塊比例大致為1:4。樣本數(shù)量如表1所示。
表1訓(xùn)練樣本數(shù)量
步驟6、構(gòu)建一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)模型(DCNN),模型包含了卷積層,線性糾正函數(shù)激活函數(shù),池化層,局部響應(yīng)歸一化層以及最后的分類器;
對(duì)于卷積神經(jīng)網(wǎng)絡(luò),本發(fā)明所使用的框架是目前很熱門的Caffe框架。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示:
第一層使用32個(gè)卷積核(conv)對(duì)圖像進(jìn)行卷積操作(卷積核大小Kernel size=5;步長(zhǎng)Stride=1;圖像邊緣鏡像填充像素Pad=2;)。
第二層使用最大值池化(pool)的方式對(duì)卷積結(jié)果進(jìn)行下采樣(池化核大小Kernel size=3;步長(zhǎng)Stride=2;圖像邊緣鏡像填充像素Pad=0;)。
隨后使用ReLU激活函數(shù)與局部響應(yīng)歸一化(LRN)。
第三層使用32個(gè)卷積核對(duì)圖像進(jìn)行卷積操作(卷積核大小Kernel size=5;步長(zhǎng)Stride=1;圖像邊緣鏡像填充像素Pad=2;)。
隨后使用ReLU激活函數(shù)。
第四層使用最大值池化的方式對(duì)卷積結(jié)果進(jìn)行下采樣(池化核大小Kernel size=3;步長(zhǎng)Stride=2;圖像邊緣鏡像填充像素Pad=0;)。
隨后使用局部響應(yīng)歸一化。
第五層使用64個(gè)卷積核對(duì)圖像進(jìn)行卷積操作(卷積核大小Kernel size=5;步長(zhǎng)Stride=1;圖像邊緣鏡像填充像素Pad=2;)。
隨后使用ReLU激活函數(shù)。
第六層使用最大值池化的方式對(duì)卷積結(jié)果進(jìn)行下采樣(池化核大小Kernel size=3;步長(zhǎng)Stride=2;圖像邊緣鏡像填充像素Pad=0;)。
第七層使用64個(gè)全連接單元(ip)與上一層進(jìn)行全連接操作。
第八次輸出分類結(jié)果以及與真實(shí)值對(duì)比的loss值。
步驟7、取出步驟2中的測(cè)試樣本中的一張病理圖像,以圖像中每個(gè)點(diǎn)為中心,構(gòu)造一個(gè)32×32的小塊;
以每個(gè)像素點(diǎn)為中心,往上取15個(gè)像素點(diǎn),往下取16個(gè)像素點(diǎn)從而構(gòu)成一個(gè)32×32的小塊。針對(duì)邊緣組織,為了方便取塊,采取鏡像邊緣像素的方法來(lái)擴(kuò)充邊緣,從而來(lái)對(duì)它們進(jìn)行分類;
步驟8、將步驟7中的小塊輸入到預(yù)先訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)中,得到分類結(jié)果。并根據(jù)分類結(jié)果進(jìn)行偽彩色;
將步驟7中取出的小塊輸入到步驟6中訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)模型中,并得到最終的輸出結(jié)果。如果結(jié)果為0,則認(rèn)為該小塊的中心像素點(diǎn)為上皮組織像素點(diǎn),將其染成深灰色。如果結(jié)果為1,則認(rèn)為該小塊的中心像素點(diǎn)為基質(zhì)組織像素點(diǎn),將其染成淺灰色。同時(shí)找到專家標(biāo)記中的黑色區(qū)域位置,將偽彩色結(jié)果中的同樣位置染成黑色。
圖2為深度卷及神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)整體流程圖;其中,(a)為原始的H&E病理圖像;(b)為從(a)中通過(guò)滑動(dòng)窗口取出的32x32的小塊;(c)為將小塊輸入到整個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)(示意圖)中,并得到分類結(jié)果;(d)為根據(jù)(c)中分類結(jié)果對(duì)(b)中的小塊的中心點(diǎn)像素進(jìn)行偽彩色染色;(e)為當(dāng)整張圖片所有的滑動(dòng)小塊都被染色之后得到的結(jié)果,作為分割結(jié)果。
為了驗(yàn)證本發(fā)明的基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)的上皮和基質(zhì)組織分割的有效性,對(duì)比了另外幾種常見的使用深度卷積神經(jīng)網(wǎng)絡(luò)提取小塊特征的基于像素塊的上皮和基質(zhì)組織分割方法,包括SW-SVM(滑動(dòng)窗口+支持向量機(jī)分類),SW-SMC(滑動(dòng)窗口+softmax分類),Ncut-SVM(規(guī)范化圖割+支持向量機(jī)分類),Ncut-SMC(規(guī)范化圖割+softmax分類),SLIC-SVM(簡(jiǎn)單線性迭代聚類+支持向量機(jī)分類),SLIC-SMC(簡(jiǎn)單線性迭代聚類+softmax分類)。
圖4展示了不同的模型對(duì)病理圖像中上皮和基質(zhì)組織分割后的偽彩色結(jié)果。其中,圖4中的(a)是原始的病理圖像;圖4中的(b)是由病理專家精確標(biāo)注的人工標(biāo)注,其中深灰色部分代表著上皮組織,淺灰色部分代表著基質(zhì)組織,黑色部分為背景區(qū)域,即不被關(guān)注的區(qū)域;圖4中的(c)是由本章節(jié)提出的基于逐像素點(diǎn)和深度卷積神經(jīng)網(wǎng)絡(luò)的方法;圖4中的(d-i)分別是SW-SVM,SW-SMC,Ncut-SVM,Ncut-SMC,SLIC-SVM,DCNN-SLIC-SMC得到的偽彩色分割結(jié)果圖,其中深灰色代表分類器分類結(jié)果為上皮組織的區(qū)域,淺灰色代表分類器分類結(jié)果為基質(zhì)組織的區(qū)域,而黑色區(qū)域是不被關(guān)注的背景區(qū)域。
由結(jié)果可以看出,撇去背景區(qū)域,即專家標(biāo)注中為黑色的區(qū)域,本發(fā)明提出的算法和專家標(biāo)記的結(jié)果相似度非常高,具有明顯的優(yōu)勢(shì)。
為了定量的表示實(shí)驗(yàn)結(jié)果,使用了混淆矩陣(confused Matrix)中的衍生參數(shù)和ROC曲線來(lái)比較實(shí)驗(yàn)結(jié)果。
TP表示真陽(yáng)性,即專家標(biāo)記為上皮組織,分類器認(rèn)為是上皮組織的像素點(diǎn)的個(gè)數(shù);
FP表示假陽(yáng)性,即專家標(biāo)記為基質(zhì)組織,分類器認(rèn)為是上皮組織的像素點(diǎn)的個(gè)數(shù);
FN表示假陰性,即專家標(biāo)記為上皮組織,分類器認(rèn)為是基質(zhì)組織的像素點(diǎn)的個(gè)數(shù)。
TN表示真陰性,即專家標(biāo)記為基質(zhì)組織,分類器認(rèn)為是基質(zhì)組織的像素點(diǎn)的個(gè)數(shù);
混淆矩陣的衍生參數(shù)的計(jì)算公式如表2所示,真陽(yáng)性率(TPR),真陰性率(TNR),陽(yáng)性預(yù)測(cè)值(PPV)、陰性預(yù)測(cè)值(NPV),假陽(yáng)性率(FPR),假陰性率(FNR),偽發(fā)現(xiàn)率(FDR),準(zhǔn)確性(ACC),F(xiàn)1得分(F1),和馬休斯相關(guān)系數(shù)(MCC)都是通過(guò)上述四個(gè)混淆矩陣中的參數(shù)所衍生出來(lái)的評(píng)估指標(biāo)。其中ACC,F1,以及MCC是對(duì)模型綜合能力評(píng)估的指標(biāo)。
表2混淆矩陣的衍生參數(shù)公式
下表3表示不同的模型的分割結(jié)果的定量評(píng)估(%),其中,粗體字即指標(biāo)中的最優(yōu)值。
表3
顯示ROC曲線的圖被稱為“ROC圖”。當(dāng)進(jìn)行多個(gè)學(xué)習(xí)器的比較時(shí),如果一個(gè)學(xué)習(xí)器的ROC曲線將另一個(gè)學(xué)習(xí)器的曲線完全“包住”,則可以斷言前者的性能優(yōu)于后者;若兩個(gè)學(xué)習(xí)器的ROC曲線發(fā)生的交叉,則難以斷言兩者性能孰優(yōu)孰劣。一個(gè)比較合理的判據(jù)就比較ROC曲線下面的面積,即AUC(Area Under ROC Curve)。由定義可知,AUC值可以通過(guò)對(duì)ROC曲線下各部分的面積求和而得。AUC值越大,說(shuō)明效果越好。圖5a展示了幾種方法在NKI數(shù)據(jù)集上分割效果的ROC曲線,圖5b展示了幾種方法在VGH數(shù)據(jù)集上分割效果的ROC曲線由AUC值可知,本發(fā)明提出的基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)的上皮和基質(zhì)自動(dòng)分割效果優(yōu)于基于塊的上皮和基質(zhì)自動(dòng)分割。