本發(fā)明涉及醫(yī)學影像處理技術(shù),尤其涉及了基于多模態(tài)信息融合的醫(yī)學影像分割標注方法和系統(tǒng)。
背景技術(shù):
1、隨著人工智能(artificial?intelligence,ai)技術(shù)的發(fā)展,其在醫(yī)療影像領(lǐng)域的應用和意義也日益顯著。通過對大量病例數(shù)據(jù)的特征提取和學習,ai模型可以快速定位組織器官的病變位置,精準分割病灶以及對病種類型進行分類,進而提高了醫(yī)生的診斷效率,減輕了醫(yī)生的工作負擔。
2、大量高標準的標注數(shù)據(jù)是訓練一個優(yōu)秀ai模型的必要條件,而目前對三維醫(yī)學影像進行分割標注的方法主要依賴人工逐層在感興趣區(qū)域進行手動涂抹或者進行輪廓勾勒,從而進一步得到標注結(jié)果,這種標注方法在實際應用中耗時耗力,標注難度大,對標注人員的專業(yè)要求較高。
3、如現(xiàn)有技術(shù)1:cn117893738a,基于自適應加權(quán)均值濾波的圖像分割方法和裝置,雖然在某些特定應用中可能具有一定的優(yōu)勢,但其自適應性和魯棒性方面較差,無法適應復雜場景的分割任務,且該方法依賴于設計者的先驗知識和經(jīng)驗,難以利用大規(guī)模數(shù)據(jù)進行優(yōu)化和精度提升。
4、現(xiàn)有技術(shù)2:cn118314161a,一種基于文本語義引導的小樣本醫(yī)學圖像分割方法在交互式分割中引入文本描述,實現(xiàn)了對小樣本醫(yī)學圖像的分割標注,該技術(shù)在實施過程中是采用二維切片逐層進行提示分割標注的方法,最后將每層分割結(jié)果進行組合作為最終的標注,這種方法雖然提高了標注速度,但對于三維醫(yī)學影像來說,它忽略了影像的空間信息,可能會造成斷層現(xiàn)象。
技術(shù)實現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)中對三維醫(yī)學影像進行分割標注,耗時耗力,標注難度大,對標注人員的專業(yè)要求較高的問題。提供了基于多模態(tài)信息融合的醫(yī)學影像分割標注方法和系統(tǒng)。
2、為了解決上述技術(shù)問題,本發(fā)明通過下述技術(shù)方案得以解決:
3、基于多模態(tài)信息融合的醫(yī)學影像分割標注方法,其包括:
4、步驟1,模型結(jié)構(gòu)的構(gòu)建,構(gòu)建多模態(tài)信息融合的醫(yī)學影像分割標注模型的模型結(jié)構(gòu),分割標注模型的模型結(jié)構(gòu)包括圖像編碼器image?encoder、文本編碼器text?encoder以及掩膜解碼器mask?decoder;
5、步驟2,數(shù)據(jù)集的處理,對數(shù)據(jù)集進行預處理并利用隨機采樣法構(gòu)造數(shù)據(jù)集,從數(shù)據(jù)集中按照比例劃分為訓練集、驗證集和測試集;
6、步驟3,模型的訓練及收斂,通過損失函數(shù)和優(yōu)化器對模型進行訓練,直至模型收斂;
7、步驟4,將待分割的器官從原始影像中裁剪出來并輸入到步驟3中訓練好的模型中,同時輸入文本提示詞進行語義分割,將模型預測的掩膜作為模型分割標注結(jié)果。
8、作為優(yōu)選,圖像編碼器采用3d?vision?transformer作為骨干網(wǎng)絡,對輸入的影像cube做特征提取并獲取不同深度的特征圖;
9、文本編碼器text?encoder采用3d?transformer架構(gòu)來提取文本語義信息,并將提取到的文本語義信息與圖像編碼器image?encoder提取到的圖像語義信息進行線性對齊;
10、掩膜解碼器mask?decoder通過整合圖像編碼器image?encoder輸出的多尺度圖像特征圖和文本編碼器text?encoder輸出的文本提示嵌入向量,得到最終的分割標注。
11、作為優(yōu)選,數(shù)據(jù)集的預處理包括:
12、根據(jù)單個器官掩膜的最大外接矩形框來裁剪器官和對應的掩膜;
13、把所有掩膜的像素二值化,背景點像素值為0,前景點像素值為1,將器官和掩膜的cube尺寸統(tǒng)一化,
14、對放射檢查報告進行預處理,去除放射檢查報告文本中的多余空格、標點符號。
15、作為優(yōu)選,步驟3,采用適當?shù)膿p失函數(shù)和優(yōu)化器用以優(yōu)化模型,采用聯(lián)合損失函數(shù)來計算預測掩膜和真值掩膜之間的損失,采用adamw優(yōu)化器對模型參數(shù)進行更新優(yōu)化,聯(lián)合損失計算公式為:
16、
17、l=αldl+βlce;
18、其中,l是聯(lián)合損失函數(shù),ldl是dice?loss,lce是交叉熵損失,α、β分別代表diceloss和交叉熵損失的權(quán)重參數(shù),n為掩膜的總像素點,s代表預測掩膜,g代表真值掩膜,si代表預測掩膜第i個像素的置信度,gi代表真值掩膜第i個像素的置信度。
19、作為優(yōu)選,模型的訓練通過微調(diào)訓練圖像編碼器image?encoder并得到圖像嵌入向量,具體包括:
20、第一步,輸入圖像編碼器image?encoder之前,根據(jù)輸入cube的不同的類型對其設置合適的窗寬窗位,并將影像歸一化到[0,1]之間;
21、第二步,在圖像編碼器image?encoder中,cube經(jīng)過卷積核的卷積操作將影像離散化為向量,將向量展平后輸入級聯(lián)的多層3dvit單元,并選取最后以及三個不同深度3dvit單元后的特征作為中間特征向量,對其進行特征后處理,每個特征向量經(jīng)過特征投影、轉(zhuǎn)置和尺寸調(diào)整,通過卷積和卷積轉(zhuǎn)置操作生成多尺度特征圖,分別為feature_1、feature_2、feature_3和feature_4,每個特征圖代表不同深度的特征。
22、作為優(yōu)選,模型訓練階段微調(diào)訓練文本編碼器text?encoder,得到文本提示嵌入向量包括
23、文本提示數(shù)據(jù)為放射檢查報告,放射檢查報告包括患病組織,病灶位置,病灶征象等信息,在進入文本編碼器text?encoder之前,需要對其進行預處理并進行實體識別和關(guān)系抽取形成三元組格式,三元組表示為(s,r,o),其中s代表頭實體,r代表關(guān)系,o代表尾實體;采用jieba分詞對文本進行命名實體識別并采用casrel模型抽取實體之間的關(guān)系,并對抽取出的關(guān)系做人工校驗,過濾掉錯誤的關(guān)系,形成三元組;
24、對三元組進行編碼,采用3d?transformer架構(gòu),其結(jié)構(gòu)包含多頭注意力機制層,layernorm、多層感知機、layernorm。其中,注意力機制層的頭數(shù)為8,多層感知機的結(jié)構(gòu)為線性層、quick?gelu激活函數(shù)、線性層;quick?gelu的公式為:
25、
26、其中,x表示文本實體關(guān)系三元組經(jīng)過處理后得到的張量;
27、文本張量x經(jīng)過反復的自注意力計算和殘差計算,然后經(jīng)過多層感知機層得到最終的提示嵌入向量。
28、作為優(yōu)選,模型訓練階段微調(diào)訓練掩膜解碼器mask?decoder,融合多尺度圖像特征和文本特征得到預測的掩膜;
29、將多尺度圖像特征與文本特征進行融合,生成最終的預測掩膜;
30、多尺度的圖像輸入特征feature_1、feature_2、feature_3和feature_4首先通過卷積核大小為3的卷積層進行初步處理得到對應的特征圖,特征融合模塊用于逐步融合多尺度圖像特征,進行特征降維得到最終的融合后的圖像特征,之后對圖像特征和文本特征進行歸一化處理,得到對應的單位特征向量;
31、對兩個單位特征向量進行內(nèi)積操作,得到二者的匹配分數(shù),最終輸出的特征圖通過卷積轉(zhuǎn)置和線性插值方法進行上采樣,生成預測掩膜。
32、為了解決上述技術(shù)問題,本發(fā)明還提供了基于多模態(tài)信息融合的醫(yī)學影像分割標注系統(tǒng),其基于多模態(tài)信息融合的醫(yī)學影像分割標注方法,其方法包括:
33、模型結(jié)構(gòu)的構(gòu)建模塊,構(gòu)建多模態(tài)信息融合的醫(yī)學影像分割標注模型的模型結(jié)構(gòu),分割標注模型的模型結(jié)構(gòu)包括圖像編碼器image?encoder、文本編碼器text?encoder以及掩膜解碼器mask?decoder;
34、數(shù)據(jù)集的處理模塊,對數(shù)據(jù)集進行預處理并利用隨機采樣法構(gòu)造數(shù)據(jù)集,從數(shù)據(jù)集中按照比例劃分為訓練集、驗證集和測試集;
35、模型的訓練及收斂模塊,通過損失函數(shù)和優(yōu)化器對模型進行訓練,直至模型收斂;
36、模型分割標注結(jié)果獲取模塊,將待分割的器官從原始影像中裁剪出來并輸入到訓練好的模型中,同時輸入文本提示詞進行語義分割,將模型預測的掩膜作為模型分割標注結(jié)果。
37、本發(fā)明由于采用了以上技術(shù)方案,具有顯著的技術(shù)效果:
38、本發(fā)明基于多模態(tài)信融合的醫(yī)學影像分割標注方法,構(gòu)建模型結(jié)構(gòu),然后對醫(yī)學影像數(shù)據(jù)集進行必要的預處理,緊接著結(jié)合引導性的文本語義信息對醫(yī)學影像數(shù)據(jù)進行分割,有效的提高醫(yī)學影像從0到1的分割標注的效率。