本發(fā)明屬于生物醫(yī)學信息技術、人工智能,具體而言,涉及一種基于深度學習網絡的食管鱗癌病理圖像的自動組織勾畫系統(tǒng)及勾畫方法。
背景技術:
1、食管癌是世界上常見的消化道惡性腫瘤之一,其病理類型主要包括食管鱗狀細胞癌(escc)和食管腺癌(eadc),而我國食管癌患者中約九成為食管鱗狀細胞癌。早期食管鱗癌的治愈率超過90%,然而由于缺乏早期典型癥狀以及生物標志物的確實,大多數診斷出食管鱗癌的患者都在t3-t4期,這導致患者的5年生存率僅為21%左右。目前,上消化道內鏡檢查結合組織病理學是食管鱗癌診斷的金標準。對于難以發(fā)現的病變主要依靠色素內鏡以及電子染色內鏡發(fā)現,然后靶向活檢,通過組織病理學進行診斷。
2、組織病理學檢查是從患者的機體器官或組織中提取病變標本,通過制成病理切片,在顯微鏡下觀察其病理變化以及形態(tài)學改變,最終確定疾病類型以及嚴重程度。病理切片通常采用不同的染料物質染以各種顏色,以顯現不同的病變信息,幫助醫(yī)生進行疾病診斷。例如,對主動脈瘤中膜變性進行診斷時,醫(yī)生常使用蘇木精-伊紅染色(hematoxylin-eosin,h&e)、阿米巴滋養(yǎng)體染色(alcian?blue?and?periodic?acid-schiff,ab-pas)、馬松三色(masson?trichrome)染色,平滑肌肌動蛋白(actin?,smooth?muscle,sma)染色和膠原纖維(van?gieson,vg)染色等五種染色相結合的方式進行觀察和診斷。然而,在臨床診斷中,使用多種染色的病理圖像不僅增加了醫(yī)生的工作量,其過程費時費力,并且常常依賴醫(yī)生的臨床經驗,具有主觀性強、精確度低、可重復性差等缺點。因此,設計和開發(fā)應用于多種染色病理圖像的計算機輔助分析系統(tǒng)具有臨床意義和實用價值。
3、隨著計算機運算速度的不斷提升和算法設計的日臻完善,人工智能尤其是深度學習技術在醫(yī)學輔助診斷和臨床決策中的應用日趨成熟?;谏疃葘W習的計算機輔助分析系統(tǒng),能夠有效地處理大規(guī)模高精度的病理圖像,幫助臨床醫(yī)師提高工作效率和診斷準確率。
技術實現思路
1、本發(fā)明提供了一種基于深度學習網絡的食管鱗癌病理圖像的自動組織勾畫系統(tǒng)及勾畫方法。該方法采用深度學習技術,構建多種染色病理圖像的組織自動勾畫網絡模型,實現多種染色病理圖像不同組織的自動勾畫方法。所述方法為臨床醫(yī)生提供輔助信息,提升人工判讀的效率和準確率。
2、本發(fā)明的目的在于提供用于食管鱗癌病理圖像的組織勾畫的方法,基于食管鱗癌不同患者在h&e圖像上病理的特征,利用深度卷積神經網絡實現對食管鱗癌病理圖像的自動勾畫。自動勾畫的結果可以有效地利用大樣本量的病理圖像數據,實現降低樣本數據之間的非主觀影響以及人為勾畫的主觀臆斷,提供直觀的可視化結果,為病理醫(yī)師的診斷以及制片質量控制提供有效的輔助。最終實現減少病理醫(yī)師負擔并為后續(xù)的量化空間組織特征及臨床輔助決策提供了基礎。
3、本發(fā)明通過下述技術方案實現:一種基于深度學習網絡的食管鱗癌病理圖像的自動組織勾畫方法,包括如下步驟:
4、獲取病理圖像,獲取手工勾畫結果:針對待分類的h&e圖像進行數據采集和圖像標注;
5、對采集的病理圖像和標注結果進行預處理,包括染色標準化,切割和顏色歸一化;
6、通過預處理后的標注結果獲取訓練圖像集合和獨立的驗證圖像集合,利用遷移學習和深度卷積神經網絡構構建病理圖像的7種組織自動勾畫模型,對基于深度學習的病理圖像組織自動勾畫網絡模型進行訓練和驗證;
7、將預處理后的待診斷病理圖像輸入到目標深度學習模型中,獲得每塊切割區(qū)域的自動組織勾畫分類結果,并對組織自動勾畫分類結果賦予不同顏色進行空間重構,得到圖像的組織勾畫結果。
8、進一步的,所述針對待分類的圖像進行數據采集和圖像標注的具體方法為:從信息系統(tǒng)中篩選出病灶位置的病理切片,用掃描儀器實現對病理切片的數字化,并對病理圖像上的共7種不同組織類型進行手工注釋以及圖像勾畫標注,其中7種不同組織類型為:結締組織con、鱗狀上皮epi、腺體gla、淋巴細胞lym、平滑肌mus、癌癥相關的基質str和腫瘤tum;
9、手工注釋的組織區(qū)域在20倍放大率下被分割成了256×256像素(px)的非重疊圖像斑塊,從40張h&e玻片中創(chuàng)建了包含48,376個組織切片的訓練集,從20張h&e玻片中創(chuàng)建了3996個組織切片的測試集;其中:腺體/鱗狀上皮面積>50%或腫瘤區(qū)域<10%的視為質量差過濾掉。
10、進一步的,對采集的病理圖像和標注結果進行預處理的方法為:使用高水平的放大率,將大的整張圖像轉換為相同格式的若干小圖像斑塊;
11、構建病理圖像數據集:對采集的病理圖像和相應的標注進行位置配準,使其在相同的坐標系下具有一致的空間關系;
12、對標注配準后的圖像的多種染色病理圖像執(zhí)行切割細分:切割細分使用openslide將隊列中的所有圖片在20倍的放大率下拼成不重疊的256×256像素(px)的圖像斑塊,然后進行顏色標準化處理;剔除空白面比例>50%的斑塊;
13、基于macenko方法的顏色歸一化:將rgb圖像轉換為特定顏色空間;計算顏色空間中每個通道的百分位數,確定鮮艷區(qū)域的閾值;根據閾值對圖像進行修正,將顏色范圍映射到標準范圍內;
14、對切割細分并顏色歸一化后的多種染色病理圖像執(zhí)行數據增強操作:數據增強操作包括:隨機變換包括10°以內的隨機旋轉以及水平和垂直翻轉。
15、所述通過預處理后的標注結果獲取訓練圖像集合和獨立的驗證圖像集合,所述訓練集和測試集不同時包含來自同一患者的圖像塊;
16、對基于深度學習的病理圖像自動勾畫網絡模型進行訓練和驗證,采用了深度卷積神經網絡resnet50模型,使用具有標簽的病理圖像數據集對resnet50模型進行監(jiān)督學習,將病理圖像輸入到模型中,模型根據學習到的權重和特征表示,自動進行組織自動勾畫;訓練過程使用反向傳播算法和優(yōu)化器進行參數更新;
17、使用獨立驗證圖像集合對網絡模型訓練效果進行驗證:用獨立的測試數據集對訓練好的模型進行評估,將測試圖像輸入到模型中,計算模型的分類準確性、召回率、精確度,評估其組織自動勾畫的性能和準確性。
18、所述將預處理后的待診斷病理圖像輸入到目標深度學習模型中,獲得每塊切割區(qū)域的自動勾畫結果,具體包括:使用訓練完成的病理圖像自動勾畫網絡模型對經過預處理后病理圖像切割小塊的組織自動分類,多個病理圖像組織成批次進行處理;目標深度學習模型將輸出自動組織分類的結果;
19、自動勾畫完成后,將每個圖像補丁的位置信息與模型輸出的自動組織分類結果進行一一對應;將所有圖像補丁重新組合成一個整體的圖像,從而得到組織勾畫的結果,使用不同的顏色來突出顯示各種組織類型;
20、其中:每個圖像補丁代表著原始病理圖像中的一個小區(qū)域,經過自動勾畫網絡模型的處理和分類后,被賦予了特定的組織類型標簽,通過將這些圖像補丁按照其位置信息重新組合,可以生成一個整體的圖像,其中不同組織類型的區(qū)域以不同的顏色進行突出顯示。
21、本發(fā)明中,h&e圖像的收集后首先進行標注,多位有經驗的病理學家按照相同標準對sxm-i隊列中的escc組織的60張h&e切片進行手工注釋,圖像組織類型被分為八類:背景(back)、結締組織(con)、鱗狀上皮(epi)、腺體(gla)、淋巴細胞(lym)、平滑肌(mus)、癌癥相關的基質(str)和腫瘤(tum)。
22、手工注釋的組織區(qū)域在20倍放大率下被分割成了256×256像素(px)的非重疊圖像斑塊,從40張h&e玻片中創(chuàng)建了包含48,376個組織切片的訓練集,從20張h&e玻片中創(chuàng)建了3996個組織切片的測試集。
23、腺體/鱗狀上皮面積>50%或腫瘤區(qū)域<10%的h&e玻片將被視為質量差并被過濾掉。病理學家將進行審查,以進一步選擇高質量和相關的圖像進行分析。
24、從組織學切片中得到的數字圖像通常是通過拼合許多小的高分辨率圖像拼合實現的多分辨率。使用高水平的放大率,如20倍,產生的圖像通常是巨大的,難以使用標準的圖像分析工具、圖形庫和深度神經網絡讀取這些切片。
25、通過圖像細分可以將大的整張幻燈片圖像轉換為相同格式的若干小圖像斑塊,使用openslide(https://openslide.org/)將隊列中的所有h&e幻燈片在20倍的放大率下切分成不重疊的256×256像素(px)的圖像斑塊,然后使用macenko方法進行顏色標準化處理。剔除空白面比例高(>50%)的斑塊。
26、基于前述手工注釋的組織區(qū)域獲取訓練集,本發(fā)明還提供一種用于食管癌模型訓練的圖像組織自動勾畫系統(tǒng),其特征在于:該系統(tǒng)包括:
27、圖像增強,通過對訓練數據集中的圖像進行隨機變換生成新的樣本來擴大樣本量;
28、構建基于深度學習的病理圖像組織自動勾畫網絡模型,進行網絡訓練;
29、對基于深度學習的病理圖像組織自動勾畫網絡模型進行驗證。
30、其中,圖像增強操作包括:將多種染色病理圖像斑塊進行10度以內的隨機旋轉以及水平和垂直翻轉,并結合隨機裁剪,產生五倍的圖像樣本,實現對所述多種染色病理圖像數據集進行數據擴充的目的。訓練樣本多樣性的增加可以降低過擬合的風險,提高模型的穩(wěn)健性和泛化能力。
31、為了避免分類偏差,應當使得所述訓練集和所述測試集不同時包含來自同一患者的圖像塊。
32、適當的網絡結構和訓練方法對分類性能至關重要。resnet50模型是一個廣泛使用的深度卷積神經網絡,因其出色的分類性能而被選來訓練組織自動勾畫。
33、為了加速網絡收斂,我們采用了轉移學習,即采用在imagenet數據集上預訓練的resnet50模型來初始化網絡的訓練。訓練數據集是隨機從公共手繪圖像隊列nct-crc-he-100k中獲取的,并進行了數據增強。內部驗證集包括從nct-crc-he-100k隊列中隨機選擇的20%的樣本,在調整模型超參數的同時,對訓練數據集的模型擬合產生無偏估計。
34、在內部驗證數據集和獨立測試隊列crc-val-he-7k中,包括7180個圖像斑塊,對訓練后的分類器的性能進行評估。
35、更進一步地,對組織自動勾畫結果賦予不同顏色進行空間重構,得到圖像的組織勾畫結果。
36、在組織自動勾畫之后,將所有的圖像補丁重新組合成一個整體的幻燈片圖像,用不同的顏色來突出各種組織類型。該可視化技術提供了一個快速和方便的組織學切片分類概覽,這可以幫助病理學家進行更有效的質量控制和診斷。