專利名稱:計算機輔助檢測(cad)中的假陽性降低的制作方法
相關(guān)申請本申請/專利來源于所提名申請人于2004年11月19日提交的申請?zhí)枮?0/629,750的美國臨時專利申請。本申請與共同擁有、共同未決的Philips申請PHUS040505(779361)、PHUS040500(778964)以及PHUS040501(778962)有關(guān)。
本發(fā)明涉及計算機輔助檢測系統(tǒng)和方法。本發(fā)明更嚴(yán)格地涉及用于對尤其是高分辨率、薄片計算層析成像(HRCT)圖像內(nèi)的例如肺結(jié)核這樣的臨床上或形態(tài)學(xué)上所關(guān)心部位和/或所關(guān)心體積進行計算機輔助檢測(CAD)中假陽性降低(false positive reduction)的系統(tǒng)和方法,以及支持向量機(SVM)利用新3D特征實現(xiàn)了CAD后分類,產(chǎn)生了很高的特異性(specificity)同時保持了適當(dāng)?shù)拿舾行浴?br>
當(dāng)前與計算機有關(guān)的系統(tǒng)的速度和復(fù)雜性支持開發(fā)更快以及更完善的醫(yī)學(xué)成像系統(tǒng)。用于處理及處理后產(chǎn)生的數(shù)據(jù)量的相應(yīng)而生的增大導(dǎo)致創(chuàng)建很多應(yīng)用程序以自動分析醫(yī)學(xué)圖像數(shù)據(jù)。也就是說,已經(jīng)開發(fā)了各種數(shù)據(jù)處理軟件和系統(tǒng)以便幫助內(nèi)科醫(yī)師、臨床醫(yī)師、放射科醫(yī)師等等評估醫(yī)學(xué)圖像以識別和/或診斷以及評估醫(yī)學(xué)圖像。例如,已經(jīng)開發(fā)了計算機輔助檢測(CAD)算法和系統(tǒng)以從多片CT(multi-slice CT,MSCT)掃描中自動識別“可疑”部位(例如,損傷)。CT或者計算層析成像系統(tǒng)是這樣一種成像方式,考慮到它準(zhǔn)確地說明解剖結(jié)構(gòu)的尺寸、形狀和位置以及異常或損傷的固有能力,其通常用于通過成像來診斷疾病。
CAD系統(tǒng)能夠自動地在形態(tài)學(xué)上檢測(識別)所關(guān)心部位(interestingregions)(例如,損傷、結(jié)核、微鈣化(microcalcifications))以及其他結(jié)構(gòu)上可檢測的可能臨床相關(guān)的狀態(tài)/部位。當(dāng)再現(xiàn)并顯示醫(yī)學(xué)圖像時,CAD系統(tǒng)標(biāo)記或識別所研究的部位。該標(biāo)記將引起放射科醫(yī)師對可疑部位的注意。例如,在尋找可能的癌癥結(jié)核的肺圖像分析過程中,CAD系統(tǒng)將標(biāo)記所檢測的結(jié)核。因而,CAD系統(tǒng)結(jié)合了放射科醫(yī)師的專業(yè)知識,以自動地提供與在醫(yī)學(xué)圖像數(shù)據(jù)中檢測異常有關(guān)的第二種見解。通過支持對懷疑是癌癥的損傷或結(jié)核的早期檢測,CAD系統(tǒng)允許較早地介入,理論上會為病人產(chǎn)生較好的預(yù)后(prognosis)。
CAD及其他機器學(xué)習(xí)系統(tǒng)的大多數(shù)現(xiàn)有工作都遵循觀察學(xué)習(xí)的相同方法。CAD系統(tǒng)從具有已知基礎(chǔ)事實(ground truth)的一批數(shù)據(jù)開始。CAD系統(tǒng)在訓(xùn)練數(shù)據(jù)上進行“訓(xùn)練”以識別被認(rèn)為具有足夠鑒別能力來區(qū)分基礎(chǔ)事實(即非訓(xùn)練數(shù)據(jù)中的結(jié)核或非結(jié)核)的特征集合。對所屬領(lǐng)域技術(shù)人員的挑戰(zhàn)包括提取便于對類型進行鑒別的特征,理論上找到特征池內(nèi)特征的最相關(guān)子集。一旦被訓(xùn)練,CAD系統(tǒng)然后在非訓(xùn)練數(shù)據(jù)上進行操作,其中特征從CAD描繪的候選部位被提取并被分類。
CAD系統(tǒng)可以組合異型的信息(例如具有病人數(shù)據(jù)的基于圖像的特征),或者可以發(fā)現(xiàn)例如基于相似性度量的方法。技術(shù)人員應(yīng)當(dāng)理解,任何計算機驅(qū)動決策支持系統(tǒng)的準(zhǔn)確性都受到已經(jīng)通過學(xué)習(xí)過程被分類的模式集合的可用性(即,訓(xùn)練集合)的影響。診斷掃描處理中所采用的任何計算機學(xué)習(xí)系統(tǒng)的輸出都是建議。因此利用呈現(xiàn)給臨床醫(yī)師的每個建議作為可能的候選結(jié)核,臨床醫(yī)師不得不進行研究。也就是說,CAD輔助結(jié)果表示所研究部位的底線事實(例如,結(jié)核),臨床醫(yī)師會疏忽的是他/她不會更加詳細(xì)地研究該部位。所屬領(lǐng)域技術(shù)人員應(yīng)該理解在診斷環(huán)境中,“真陽性”常常指的是所檢測的真正惡性的結(jié)核。然而,在CAD環(huán)境中,即使它指示在良性或鈣化結(jié)核處,也把標(biāo)記認(rèn)為是真陽性標(biāo)記。于是沒有定義“真陰性”,以及在CAD中不能考慮到標(biāo)準(zhǔn)化的特異性。
假陽性標(biāo)記(從CAD系統(tǒng)中輸出的)是根本不指示結(jié)核(而是指示于傷痕、支氣管壁變厚、運動偽假象、脈管分支等等)的那些標(biāo)記。因此,CAD性能典型地由每個CT研究中敏感性(檢出率)及假陽性率或假陽性標(biāo)記來限定(qualify)的,其常常在CAD環(huán)境中被稱為特異性,因而十分希望CAD系統(tǒng)輸出最少的假陽性。
完成自動檢測處理(有或沒有標(biāo)記)之后,大多數(shù)CAD系統(tǒng)會為用戶和CAD檢測的損傷(部位)的應(yīng)用自動地調(diào)用一個或多個工具以便例如除去多余信息、實現(xiàn)解釋工具等等。為此,已知各種技術(shù)來降低CAD中的假陽性。例如,W.A.H.Mousa和M.A.U.Khan在Proc.of IEEE ICIP’2002中公開了題為“Lung NoduleClassification Utilizing Support Vector Machines”的他們的假陽性降低技術(shù)。K.Suzuki,S.G.Armato III,F(xiàn).Li,S.Sone,K.Doi在“Massive trainingartificial neural network(MTANN)for reduction of false positives incomputerized detection of lung nodules in low-dose computed tomography”,Med.Physics 30(7),July 2003,pp.1602-1617中以及Z.Ge,B.Sahiner,H.-P.Chan,L.M.Hadjiski,J.Wei,N.Bogot,P.N.Cascade,E.A.Kazerooni,C.Zhou,“Computer aided detection of lung nodulesfalse positive reductionusing a 3D gradient field method”,Medical Imaging 2004Image Processing,pp.1076-1082描述了一種最小化假陽性檢測的嘗試。
傳統(tǒng)假陽性降低(FPR)系統(tǒng)常常嵌入在CAD算法中以改進特異性,以及供CAD后處理以便用以改進特異性。例如,R.Wiemker等在他們的COMPUTER-AIDED SEGMENTATION OF PULMONARY NODULESAUTOMATED VASCUALTURE CUTOFF INTHIN-AND THICK-SLICE CT,2003 Elsevier Science BV中討論了最大化CAD算法的敏感性以在薄片CT中把肺結(jié)核從結(jié)核的周圍脈管系統(tǒng)中有效地分離(以彌補部分體積影響)。預(yù)定目標(biāo)是降低分類錯誤。然而,Wiemker CAD系統(tǒng)和方法不采用完善的機器學(xué)習(xí)技術(shù),它們也不優(yōu)化FPR的特征提取和選擇方法。例如,雖然Mousa等利用支持向量機來把真正的肺結(jié)核從非結(jié)核(FP)中區(qū)分出來,但是他們的系統(tǒng)是基于可能限制而不是改善特異性的非常簡單化的特征提取單元的。
它是從所研究的候選部位中識別和提取的特征,在CAD或FPR系統(tǒng)(利用相同的特征進行訓(xùn)練的)中使用該特征可為該系統(tǒng)提供鑒別能力以區(qū)分“真正的”發(fā)現(xiàn)(例如結(jié)核)與非結(jié)核(假陽性)。
因此本發(fā)明的目的是提供與CAD有關(guān)的系統(tǒng)和方法,所述系統(tǒng)和方法通過實現(xiàn)一個或多個新穎的3維(3D)特征而顯示出在特性方面(即,假陽性降低)的明顯改進,所述3D特征在系統(tǒng)訓(xùn)練階段期間支持對非訓(xùn)練數(shù)據(jù)的CAD后機器學(xué)習(xí)以及支持對非訓(xùn)練數(shù)據(jù)的CAD后處理、產(chǎn)生改進的特異性。
本發(fā)明采用了兩個新3D特征的集合。當(dāng)該兩個新3D特征集合或其一部分子集與其他眾所周知的特征相結(jié)合時,用于實現(xiàn)相同的創(chuàng)新3D特征的CAD或FPR系統(tǒng)提供了一種更好地從假陽性中區(qū)分出真陽性識別(例如從非結(jié)核中區(qū)分肺結(jié)核)的能力。
這些新3D特征的第一組基于灰度級分布的直方圖測量,排除了附著于該結(jié)構(gòu)的肺壁。另一個3D特征細(xì)基于梯度分布、以及特定方向上的梯度場的改變。例如,所提取的3D特征支持訓(xùn)練、以及由支持向量機進行的訓(xùn)練后處理,以在CAD處理中實現(xiàn)薄片胸部CT掃描的假陽性降低系統(tǒng),產(chǎn)生較高的特異性。本發(fā)明中的所提出的基于3D的特征通過提供肺結(jié)核以及被誤解為結(jié)核的結(jié)構(gòu)的3D表征而解決了這個問題。因此,利用這個新穎的3D特征所訓(xùn)練的分類器能更好地把結(jié)核從非結(jié)核中區(qū)分出來以獲得比不采用相同特征來進行訓(xùn)練和后續(xù)非訓(xùn)練操作的CAD或FPR系統(tǒng)更高的特異性,產(chǎn)生訓(xùn)練系統(tǒng)的鑒別能力上的改進同時保持敏感性。所屬領(lǐng)域技術(shù)人員應(yīng)該理解除SVM外的另一個分類器也可與該新3D特征相關(guān)地被采用。
雖然創(chuàng)新系統(tǒng)和方法在此處被描述對在CT或高分辨率CT掃描數(shù)據(jù)(HRCT)進行操作,但是所屬領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解該描述此處不意味著把本發(fā)明的范圍限制在對CT或HRCT數(shù)據(jù)的操作,而是可以在任何所獲得的圖像數(shù)據(jù)上進行操作,其僅僅由在此附上的權(quán)利要求的范圍來限定。
該創(chuàng)新CAD或FPR系統(tǒng)包括機器學(xué)習(xí)子系統(tǒng),該子系統(tǒng)包括特征提取器、遺傳算法(GA)(用于選擇對于所監(jiān)控的系統(tǒng)訓(xùn)練最相關(guān)的特征,包括此處公開的基于3D的創(chuàng)新特征)、以及支持向量機(SVM)。所屬領(lǐng)域技術(shù)人員應(yīng)該理解,一旦由GA選擇了最相關(guān)特征,基于GA的特征選擇就不會屬于最終FPR子系統(tǒng)的一部分。根據(jù)保留所有真陽性識別這樣的限制條件,SVM關(guān)于一部分基礎(chǔ)事實(例如部位/體積實際上是結(jié)核還是非結(jié)核)限定由CAD所檢測的候選部位。
CAD后機器學(xué)習(xí)包括采用遺傳算法(GA)以從特征池(包括該新3D特征)中選擇特征子集,以利用SVM來對非訓(xùn)練數(shù)據(jù)內(nèi)的候選部位進行最佳地分類,所述SVM是關(guān)于GA已經(jīng)確定為具有足夠特異性以實際上除去假陽性并保持敏感性的“最佳”特征子集而訓(xùn)練的。
新特征可根據(jù)薄片CT掃描而被提取,并且它們描述了由CAD算法所檢測的結(jié)構(gòu)的3D特性。這些新3D特征的一組基于用于排除附著于該結(jié)構(gòu)的肺壁的灰度級分布的一些直方圖測量。另一個組特征基于梯度分布和特定方向上的梯度場的改變。基于機器學(xué)習(xí)的處理后步驟(包括新3D特征),消除了盡可能多的假陽性(高特異性),同時保持了CAD敏感性。更特別的是,當(dāng)特征必須具有足夠的鑒別能力以從假識別中區(qū)分出真識別(例如從非結(jié)核中區(qū)分出結(jié)核)時,特征提取是CAD處理的最重要元素之一。
圖1是描述一種利用支持向量機(SVMs)在計算機輔助檢測(CAD)中從計算機斷層(CT)醫(yī)學(xué)圖像中降低假陽性(FPR)的系統(tǒng)的示意圖;圖2是描述特征子集選擇的系統(tǒng)級示意圖。
圖3是描述支持向量機的基本思想的示意圖;以及圖4是識別本發(fā)明的示范性處理的處理流程圖。
圖5a、5b、5c和5d顯示了(a)真結(jié)核、(c)假結(jié)核、(b)和(d)是分割掩碼(segmentation mask)。
在圖像數(shù)據(jù)集合(例如,CT)中檢測肺結(jié)核的過程中,計算機輔助(CAD和CADx)的根本目標(biāo)不是為了指派由機器進行診斷,而是實現(xiàn)一種基于機器的算法或方法以支持放射科醫(yī)師提出他的/她的判斷,即,指出可疑對象的位置以便提高總靈敏度(檢出率)。利用CAD或其他臨床決策支持系統(tǒng)的主要問題是不可避免假標(biāo)記(所謂的假陽性)會與真陽性標(biāo)記一起出現(xiàn)。
臨床研究支持該所測量的CAD檢出率,不同于根據(jù)讀取放射科醫(yī)師的數(shù)目而由受訓(xùn)練放射科醫(yī)師所測量的檢出率,驗證了CAD準(zhǔn)確度。參與到讀取可疑損傷、微鈣化等等的受訓(xùn)練讀取者越多,會找到的(圖像內(nèi))損傷的數(shù)目越大。所屬領(lǐng)域技術(shù)人員應(yīng)該注意,無論是否由CAD或熟練的從業(yè)者進行讀取,用于描述絕對靈敏度的任何圖形都容易被誤解釋。也就是說,來自臨床研究的數(shù)據(jù)傾向于支持很多結(jié)核更容易由輔助CAD軟件檢測出來,而沒有CAD系統(tǒng)就會被進行讀取的放射科醫(yī)師所忽略。本發(fā)明提供了提高的特異性(更好的FPR),同時保持了敏感性(真結(jié)核發(fā)現(xiàn))。
包括假陽性降低處理的基于CAD的系統(tǒng),諸如由Wiemker、Mousa及其他人等等所描述的那些,具有一個重要的工作,那就是識別出醫(yī)學(xué)圖像數(shù)據(jù)中所檢測的“可對之進行行動的”結(jié)構(gòu)。一旦被識別和被分割(segment),就由CAD系統(tǒng)或本發(fā)明情況的下列FPR子系統(tǒng)獲得重要特征的全面集合以便關(guān)于一部分基礎(chǔ)事實(例如結(jié)核或非結(jié)核)而對所分割的部位進行分類。所屬領(lǐng)域技術(shù)人員應(yīng)當(dāng)認(rèn)識到,計算機驅(qū)動決策支持、或CAD系統(tǒng)的準(zhǔn)確性由用作訓(xùn)練集合的已知病理學(xué)的模式或部位集合的可用性來限制。即使諸如由Wiemker,R.,T.Blaffert,在他們的Options to improve the performance of the computeraided detection of lung nodules in thin-slice CT.2003,Philips ResearchLaboratoriesHamburg中所描述的以及由Wiemker,R.,T.Blaffert在他們的Computer Aided Tumor Volumetry in CT Data,Invention disclosure.2002,Philips Research,Hamburg中所描述的之類的現(xiàn)有技術(shù)CAD算法也會產(chǎn)生許多假陽性,導(dǎo)致有相關(guān)風(fēng)險和較低用戶接受性的不必要的介入。
此外,當(dāng)前假陽性降低算法常常是為了胸部X光照片圖像或厚片CT掃描而開發(fā)的,未必會在源自HRCT的數(shù)據(jù)上最佳地執(zhí)行。
為此,此處描述的創(chuàng)新FPR系統(tǒng)和方法包括一種CAD子系統(tǒng)或處理以識別出候選部位并分割該部位。在訓(xùn)練期間,訓(xùn)練數(shù)據(jù)集合內(nèi)的所分割部位被傳遞給特征提取器,或者實現(xiàn)特征提取處理的處理器。特征提取獲得了包含來自所檢測結(jié)構(gòu)的3D和2D特征的特征池,包括據(jù)此所公開并請求保護的新3D特征。該特征池被傳遞給遺傳算法(GA)子系統(tǒng)或者GA處理器(CAD后),所述處理器對特征池進行處理以實現(xiàn)最佳特征子集。最佳特征子集包括在創(chuàng)新CAD或FPR系統(tǒng)內(nèi)為SVM提供足夠的鑒別能力以識別候選部位/體積的那些特征。
在訓(xùn)練期間,由GA進行的CAD后處理確定了由SVM所采用的特征的最佳子集以肯定地識別出結(jié)核。這個處理確定了特征的最佳子集以供CAD后使用。此后,CAD處理“新”圖像數(shù)據(jù),其對在非訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)的候選部位進行了分割。特征子集(如訓(xùn)練期間所確定的)從候選部位中被提取,并由“已訓(xùn)練”分類器(SVM)來使用以便利用具有適當(dāng)特異性的適當(dāng)類別對候選對象進行分類。創(chuàng)新FPR或CAD系統(tǒng)能夠借此準(zhǔn)確地(并且具有足夠的特異性)在高分辨率薄片CT(HRCT)中檢測小肺結(jié)核,在特征上類似于包含訓(xùn)練集合、且包括新且新穎的3D特征的那些。例如,片厚度<=1mm的HRCT數(shù)據(jù)足夠詳細(xì)地提供了允許檢測很小結(jié)核的數(shù)據(jù)。檢測較小結(jié)核的能力需要新方法以可靠地檢測和區(qū)別候選部位,如下文在權(quán)利要求中所闡述的那樣。
參考圖1來大致地描述本發(fā)明的FPR系統(tǒng)400的優(yōu)選實施例。FPR系統(tǒng)400包括CAD子系統(tǒng)420,其用于識別和分割滿足特定標(biāo)準(zhǔn)的所關(guān)心部位或體積,以及包括FPR子系統(tǒng)430。優(yōu)選地,該CAD子系統(tǒng)420包括CAD處理器410,以及可以更進一步包括分割單元430,以便對醫(yī)學(xué)圖像數(shù)據(jù)執(zhí)行低水平處理,以及對該醫(yī)學(xué)圖像數(shù)據(jù)進行分割。所屬領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解CAD系統(tǒng)必須執(zhí)行分割功能以描繪候選部位以進行更進一步分析,無論分割功能被實現(xiàn)成CAD子系統(tǒng)或是實現(xiàn)成單獨的分割單元以支持CAD處理(諸如分割單元430)。CAD子系統(tǒng)420提供對所關(guān)心的候選部位或體積(例如,結(jié)核)的分割,無論在訓(xùn)練數(shù)據(jù)上進行操作或是對“新”候選部位進行研究,以及該CAD子系統(tǒng)420指導(dǎo)參數(shù)調(diào)節(jié)處理以實現(xiàn)穩(wěn)定的分割。
已分割數(shù)據(jù)被提供到包括FPR子系統(tǒng)430的特征提取單元440。特征池被提取或產(chǎn)生以便限定每個已分割部位/體積,所述特征池包括如在此所教導(dǎo)的基于3D特征的兩個“新”集合。然后由遺傳算法處理器450對特征池進行操作以識別“最佳的”特征池子集。GA處理背后的意圖是為了由所訓(xùn)練的CAD系統(tǒng)來最大化特異性為基礎(chǔ)事實,如由SVM 460所預(yù)測的那樣。也就是說,GA處理器450產(chǎn)生或識別特征子集,當(dāng)由SVM進行操作時所述特征子集提高了非訓(xùn)練數(shù)據(jù)中的特異性。相對于特征的選擇和特征的數(shù)目而確定GA識別的特征子集,其中所述特征由SVM來使用以便以足夠的特異性最小化假陽性識別。一旦由GA使用訓(xùn)練數(shù)據(jù)集確定了最佳特征子集,當(dāng)所訓(xùn)練的CAD系統(tǒng)對非訓(xùn)練數(shù)據(jù)操作時就不需要GA處理器。
CAD子系統(tǒng)420通過產(chǎn)生二元或三元圖像來從背景中描繪出候選結(jié)核(包括非結(jié)核),所述圖像中標(biāo)記了結(jié)核部位、背景部位和肺壁(或“切斷”)部位。當(dāng)收到灰度級和已標(biāo)記的候選部位或體積時,特征提取器440計算(提取)所有相關(guān)的特征,諸如2D和3D形狀特征、基于直方圖的特征、基于梯度的特征等等,來作為特征池。在訓(xùn)練模式中,特征提取是關(guān)鍵的,因為它大大地影響了FPR系統(tǒng)的總體性能。如果沒有對特征的整個集合或池進行適當(dāng)?shù)靥崛?,GA就處理器450可能不會準(zhǔn)確地確定具有最佳鑒別能力和最小尺寸的最佳特征子集(以便避免過度擬合(over-fitting)并提高概括能力)。
基于GA的特征選擇處理由共同擁有共同未決的Philips申請?zhí)朥S040120(ID公開#779446)教導(dǎo),通過引用將其內(nèi)容引入于此。通過創(chuàng)建其包括多個“基因”的若干“染色體”而開始GA的特征子集選擇。每個基因表示一個所選特征。由染色體所表示的特征集合用來在訓(xùn)練數(shù)據(jù)上訓(xùn)練SVM。染色體的適合度(fitness)由最終的SVM執(zhí)行得有多好來評價。在本發(fā)明中,有三種所采用的適合度功能敏感性、特異性以及包含在染色體中的特征數(shù)目。這三種適合度功能被排序成具有不同的優(yōu)先級,換句話說,敏感性具有第一優(yōu)先級、特異性第二、特征數(shù)目第三。這稱作是分級適合度功能。開始這個處理時,通過隨機選擇特征以形成染色體來產(chǎn)生染色體的總數(shù)。然后該算法(即,GA)迭代地搜索執(zhí)行最佳(高適合度)的那些染色體。
在每次產(chǎn)生時,GA在對象總體中評價每個染色體的適合度以及從兩個主要的改良操作(變異和交叉)的開始到結(jié)束地從當(dāng)前染色體中創(chuàng)建新染色體?!昂谩比旧w中的基因很可能被保留以進行下一次產(chǎn)生,而性能差的那些很可能被丟棄。最終通過適者生存的這種處理找到最佳解(即,一批特征)。確定了包括新3D特征的特征子集之后,把它用于訓(xùn)練分類器,例如SVM。圖2表示了基于GA的特征子集選擇處理的一般工作流程。
所屬領(lǐng)域技術(shù)人員應(yīng)該理解SVM把“原”特征空間映射到一些較高維數(shù)的特征空間,在所述較高維數(shù)的特征空間中可由超平面來分離訓(xùn)練集合,如圖3所示?;赟VM的分類器具有若干內(nèi)部參數(shù),其可能影響它的性能。這種參數(shù)被憑經(jīng)驗地優(yōu)化以得到最佳可能總準(zhǔn)確度。此外,在由SVM采用之前對該特征值進行標(biāo)準(zhǔn)化以避免使具有大數(shù)值范圍的特征比具有較小數(shù)值范圍的特征有優(yōu)勢,這是該創(chuàng)新系統(tǒng)和處理的焦點,由共同擁有且共同未決的Philips申請?zhí)朥S 040499(ID公開號778965)所教導(dǎo)。
利用包括已知其病理學(xué)的訓(xùn)練數(shù)據(jù)或部位的肺結(jié)核數(shù)據(jù)集來驗證該創(chuàng)新FPR系統(tǒng)。該驗證被實現(xiàn),以及采用新3D特征的創(chuàng)新FPR系統(tǒng)顯示出降低了大多數(shù)假結(jié)核同時實際上保留了所有真結(jié)核。
圖4是描述一種根據(jù)本發(fā)明而實現(xiàn)的處理的流程圖。在圖4中,框500表示在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集合上訓(xùn)練分類器,對于所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)來說關(guān)于所關(guān)心的具體部位或體積的臨床基礎(chǔ)事實是已知的。該步驟包括在被選擇以包括若干真假結(jié)核并被自動分割的醫(yī)學(xué)圖像訓(xùn)練教據(jù)集合上訓(xùn)練分類器。從訓(xùn)練數(shù)據(jù)內(nèi)的每個所分割部位和體積而識別/提取特征池,所述特征池優(yōu)選包括在此所教導(dǎo)的新3D特征。特征池由遺傳算法處理器來處理以識別最佳特征子集,接著對支持向量機進行訓(xùn)練。
框520表示在新或非訓(xùn)練醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測對關(guān)于基礎(chǔ)事實進行識別來說是候選者的部位或體積(例如結(jié)核或非結(jié)核)的訓(xùn)練后步驟???30表示分割候選部位的步驟,以及框540表示處理該分割候選部位以提取由GA確定為適當(dāng)分類的最相關(guān)特征的那些特征(即特征子集)的步驟。然后,如模塊550所示,支持向量機以改進的特異性并保持敏感性來確定非訓(xùn)練候選部位的假陽性識別。
在此所提出的新基于3D的特征包括基于3D直方圖的特征的集合和基于3D梯度的特征的集合。從包含由CAD算法檢測為結(jié)核的結(jié)構(gòu)的所關(guān)心體積(VOI)來計算新特征的兩個集合中的每一個。因為肺結(jié)核或所誤解釋的結(jié)構(gòu)常常附著于肺壁,所以把被識別為肺壁的像素從直方圖計算中排除。如果沒有完成這一點,該特征就不能可靠地表征包含必需彼此相區(qū)別的結(jié)核和非結(jié)核的候選者。壁去除過程基于圖像處理。然后,某些統(tǒng)計數(shù)值(例如2階以及更高階的)可從直方圖中被計算出。
基于3D梯度的特征基于3D梯度場,所述3D梯度場在結(jié)核或結(jié)構(gòu)的表面上被計算。然后該梯度場在某些方向上被分析,諸如對象的主方向。在所提出的基于梯度的特征中利用了沿著主方向在結(jié)核和非結(jié)核表面上梯度場的不同。當(dāng)在基于SVM的假陽性降低系統(tǒng)中實現(xiàn)新特征時,它產(chǎn)生了假陽性的高度降低,同時保持了CAD算法的敏感性。
特征提取來自VOI圖像的至少二十三(23)個特征可以從該部位/體積中被提取以形成特征池。這些2D和3D特征(表1)表征了來自利用由薄片CT掃描所提供的機會的不同方面(例如灰度級分布、形狀)的所檢測結(jié)構(gòu)。
表1
表1中的頭四個特征描述了所描繪對象內(nèi)部的3D灰度級分布,因為肺結(jié)核常常具有比被誤識別成結(jié)核的脈管部分更高的灰度值。特征#_5-9試圖通過表征所描繪對象的三維形狀而從假結(jié)核中區(qū)分出真結(jié)核,因為例如脈管部分這樣的誤識別結(jié)構(gòu)會具有比真結(jié)核更加細(xì)長的形狀。特征#_6-8被計算為根據(jù)所描繪的3D對象而計算的慣性矩陣的不同特征值之間的比例。特征#_10基于下述觀測,即真結(jié)核和假結(jié)核在描繪對象內(nèi)部及描繪對象周圍會具有不同的3D對比度。
因為對于小結(jié)核來說基于形狀的特征常常難以計算,我們開發(fā)了某些不需要進行對象的事先分割的基于直方圖的特征(#_11-15)。它們被計算為以所關(guān)心的體積為中心但是排除了附著于該結(jié)構(gòu)的壁像素的立方形的中心矩。特征#_15-23基于梯度分布和特定方向上的梯度場的改變。通過分析所檢測結(jié)構(gòu)表面上的梯度場,我們能夠從非結(jié)核中區(qū)分出結(jié)核。尤其是沿著結(jié)核和非結(jié)核主方向的梯度是不同的,因為在非結(jié)核中梯度不會顯著地變化,象脈管延續(xù)那樣。
為了防止不必要的計算和過度適合以及為了確??煽康姆诸惼?,此處公開的本發(fā)明包括基于GA的使用的特征子集選擇處理。尤其是,由于它的魯棒性的關(guān)系所以采用了稱作CHC的GA。CHC自動地確定最佳尺寸以及這種特征的集合。
圖5a-d顯示了一個真結(jié)核(5a)和一個實際上是脈管的一部分的錯誤地檢測的結(jié)核(5c)。圖5b和5d顯示了相應(yīng)的分割掩碼。因為結(jié)核或結(jié)構(gòu)常常附于肺壁,所以很重要的是把這些像素排除于更進一步的計算之中。該壁及其他像素可由分割算法來識別,所述壁及其他像素在結(jié)構(gòu)的描述期間被刪去。這些算法可提供三元分割掩碼,其中級別之一(例如中間級)表明哪個是壁和“刪去”像素。在所建議的發(fā)明中,我們采用了圖像處理技術(shù)以識別壁像素。注意,我們不想從我們的計算中排除例如脈管這樣的“刪去”像素,因為它們對于區(qū)分結(jié)核與非結(jié)核是很重要的。如果所有它的8個最相近的鄰近元素也具有中間級標(biāo)記,則我們把像素識別成壁像素。為了防止在相對薄的結(jié)構(gòu)中的“洞(holes)”,像脈管那樣,我們應(yīng)用一個處理后步驟以在所關(guān)心的整個體積上掃描了壁像素之后填滿這些洞。尤其是如果它的鄰近元素具有如圖6所示的標(biāo)記,則被聲明成壁像素的像素會變回非壁像素。表2顯示了我們在這個操作中所采用的過濾掩碼(filter mask)這個圖應(yīng)該放在最后。
XXX XYX XXY YXXYOY XOX XOX XOXXXX XYX YXX XXY表2用于填滿壁去除過程中出現(xiàn)的可能的洞的過濾掩碼O當(dāng)前像素,X中間級標(biāo)記;,Y任意標(biāo)記由于假陽性結(jié)核對于計算某些關(guān)于形狀和質(zhì)地的特征來說常常太小,所以我們代之以計算基于所關(guān)心體積(VOI)的灰度級分布且不需要進行分割的量。尤其是,我們計算諸如在以VOI的中心為中心的立方形中的矩以及中心矩之類的基于直方圖的特征,但是排除了上面描述的所有壁像素。表3顯示了這些特征的定義。
表3 基于直方圖的特征在表3中, 在我們的實驗中,我們采用20個直方圖箱(histogram bins)且立方形的尺寸為13×13×13像素。在我們的試驗結(jié)果中,直方圖_高值_計數(shù)(histogram_high_value_count)特征定義的定義中的閾值是大約900。
在薄片CT掃描中CAD算法常常把脈管的一部分檢測為結(jié)核。通過分析所檢測及描繪結(jié)構(gòu)表面上的梯度場,我們能夠從非結(jié)核中區(qū)分出結(jié)核。尤其是沿著結(jié)核和非結(jié)核主方向的梯度是不同的,因為在非結(jié)核中梯度不會顯著地變化,因為脈管會延續(xù)。在實際結(jié)核的情況中,改變更顯著,因為結(jié)核更緊密。
開始,利用3D梯度核心來計算所描繪對象3D表面上的梯度場。然后對表面的每個點處梯度的幅值進行計算。以及計算基于3D矩的對象的主方向,沿著基于第二階中心矩的結(jié)核的慣性矩陣I=M200M110M101M110M020M011M101M011M002---(1)]]>其中Mijk是(i,j,k)個中心矩且根據(jù)“標(biāo)記”數(shù)據(jù)L被計算為Mijk=∑(sl-csl)i(row-cr)j(col-cc)kL(sl,row,col) (2)其中c=(csl,cr,cc)表示結(jié)核的重心。重心的坐標(biāo)被定義為
csl=1/sizeΣsl,row,colslL(sl,row,col)]]>cr=1/sizeΣsl,row,colrowL(sl,row,col)]]>cc=1/sizeΣsl,row,colcolL(sl,row,col)]]>慣性矩陣的特征向量確定了物體的主軸。尤其我們使用了對應(yīng)于最大特征值的特征向量。沿著這個方向,我們把梯度幅值的分布用作特征,其能夠在結(jié)核和像脈管部分這樣的非結(jié)核之間進行區(qū)分。
重要的是要注意執(zhí)行該創(chuàng)新方法或驅(qū)動該創(chuàng)新FPR分類器所需要的軟件可以包括用于實現(xiàn)邏輯功能的可執(zhí)行指令的有序列表。因而,該軟件能夠以由或結(jié)合指令執(zhí)行系統(tǒng)、裝置、或設(shè)備來使用的任何計算機可讀介質(zhì)來體現(xiàn),諸如基于計算機的系統(tǒng)、包含處理器的系統(tǒng)、或可把指令從指令執(zhí)行系統(tǒng)、裝置、或設(shè)備中取出并且執(zhí)行該指令的其他系統(tǒng)。在本文件的上下文中,“計算機可讀介質(zhì)”可以是能夠包含、存儲、通信、傳播、或傳送由或結(jié)合指令執(zhí)行系統(tǒng)、裝置、或設(shè)備來使用的程序的任何裝置。
計算機可讀介質(zhì)可以是例如但不限于電、磁、光、電磁、紅外,或半導(dǎo)體系統(tǒng),裝置,設(shè)備,或傳播介質(zhì)。計算機可讀介質(zhì)的更加具體的例子(非窮舉列表)包括以下具有一個或多個線路的電連接(電子)、便攜式計算機盤(磁性)、隨機存取存儲器(RAM)(磁性)、只讀存儲器(ROM)(磁性)、可擦除可編程只讀存儲器(EPROM或閃速存儲器)(磁性)、光纖(光)、以及便攜式光盤只讀存儲器(CDROM)(光)。要注意的是計算機可讀介質(zhì)甚至可以是其上打印了程序的紙或別的適當(dāng)?shù)慕橘|(zhì),因為該程序可例如經(jīng)由光學(xué)掃描紙或其他介質(zhì)而被電子地獲取、然后編譯、解釋或者否則如有必要以適當(dāng)?shù)姆绞竭M行處理、然后存儲在計算機存儲器中。
應(yīng)當(dāng)強調(diào)的是本發(fā)明的上述實施例,尤其是任何“優(yōu)選”實施例,僅僅是用于僅僅闡述對本發(fā)明原理的清楚理解的實現(xiàn)的可能例子。此外,在基本上不脫離本發(fā)明的精神和原理下可對本發(fā)明的上述實施例做出許多變化和修改。所有這種修改和變化用來由本發(fā)明的范疇內(nèi)所包括的且由以下權(quán)利要求所保護的當(dāng)前公開所教導(dǎo)。
權(quán)利要求
1.一種用于計算機輔助檢測(CAD)醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)的所關(guān)心部位或體積(“部位”)的方法,其包括CAD處理以檢測和描繪候選部位以及訓(xùn)練階段中的CAD后機器學(xué)習(xí)以最大化特異性并降低處理非訓(xùn)練數(shù)據(jù)之后報告的假陽性的數(shù)目,所述方法包括步驟在被選擇成包括對于基礎(chǔ)事實已知為真或假的若干部位的醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器,利用所述CAD處理來識別并分割該部位,提取特征以創(chuàng)建特征池來限定該部位,包括至少一個基于3D直方圖的特征以及基于3D梯度的特征,向特征池應(yīng)用遺傳算法處理器以確定由支持向量機(SVM)用來識別具有改進特異性的非訓(xùn)練數(shù)據(jù)內(nèi)的候選部位的最小特征子集;在非訓(xùn)練數(shù)據(jù)內(nèi)檢測候選部位;分割非訓(xùn)練數(shù)據(jù)內(nèi)的候選部位;提取與每個分割的候選部位有關(guān)的特征集合;以及利用特征集合由SVM映射候選部位。
2.權(quán)利要求1中闡述的方法,還包括的訓(xùn)練步驟更進一步包括確定訓(xùn)練數(shù)據(jù)中的每個候選部位在訓(xùn)練期間由GA優(yōu)化的特征子集的尺寸,以及確定包括該子集以便對到“最佳”適合的SVM映射進行優(yōu)化的實際特征。
3.如權(quán)利要求1中所闡述的方法,其中訓(xùn)練步驟更進一步包括把在訓(xùn)練數(shù)據(jù)內(nèi)的每個部位內(nèi)所識別的特征池定義成染色體,其中每個基因表示一個特征,以及其中遺傳算法最初通過隨機選擇特征來繁殖染色體,以及迭代地搜索具有較高按適合度的那些染色體,其中利用變異和交叉對每一代重復(fù)進行評估,在訓(xùn)練階段期間產(chǎn)生新的且更適合的染色體。
4.如權(quán)利要求3中所闡述的方法,其中確定包括在兩個階段中應(yīng)用GA,包括a.)關(guān)于它的特征集合以及特征的數(shù)目而識別每個染色體;以及b.)為每個染色體分析所識別的特征集合以及所識別的特征數(shù)目,以基于不同染色體出現(xiàn)的數(shù)目以及平均誤差的數(shù)目而確定特征的最佳尺寸。
5.權(quán)利要求1所闡述的方法,其中訓(xùn)練步驟包括利用過濾掩碼來識別壁像素。
6.權(quán)利要求1所闡述的方法,其中基于3D的直方圖集合包括以下至少一個直方圖平均值(mi)、直方圖標(biāo)準(zhǔn)偏差(σ)、直方圖偏態(tài)、直方圖峰度以及直方圖高值計數(shù)。
7.權(quán)利要求1所闡述的方法,其中通過首先利用3D梯度核心來計算描繪對象3D表面上的梯度場而產(chǎn)生基于3D的梯度集合,計算表面每個點中的梯度幅值,以及計算基于3D矩的對象主方向和基于第二階中心矩的結(jié)核慣性矩陣。
8.一種用于基于醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)所關(guān)心體積的灰度級分布而從醫(yī)學(xué)圖像數(shù)據(jù)中產(chǎn)生基于直方圖的3D特征集合的方法,包括步驟計算從直方圖得到的以下特征中的至少一個直方圖平均值(mi)、直方圖標(biāo)準(zhǔn)偏差(σ)、直方圖偏態(tài)、直方圖峰度以及直方圖高值計數(shù),其中計算步驟包括排除所述所關(guān)心部位內(nèi)的所有壁像素的步驟。
9.權(quán)利要求8所闡述的方法,其中計算步驟包括利用函數(shù)p(x),其被定義為具有灰度級x的像素數(shù)目除以直方圖箱中像素的總數(shù)。
10.一種用于從醫(yī)學(xué)圖像數(shù)據(jù)中產(chǎn)生基于梯度的3D特征集合以支持對在醫(yī)學(xué)圖像數(shù)據(jù)中所關(guān)心的體積內(nèi)所檢測的正在研究的對象進行分類的方法,包括步驟描繪對象;計算梯度核心;利用該梯度核心來在所描繪對象的邊界上計算梯度場;在邊界上的每個點處計算梯度幅值;以及計算主要梯度方向。
11.權(quán)利要求10的方法,其中計算主要梯度方向的步驟包括計算對象的主軸,其中最大的所計算主軸用于定義梯度幅值分布被計算的方向。
12.如權(quán)利要求10中所闡述的方法,其中計算步驟包括識別基于3D矩和慣性矩陣來計算對象的最大主軸的主方向,其中慣性矩陣基于二階中心矩,以及慣性矩陣的特征向量定義了主軸。
13.一種包括有計算機可讀指令集合的計算機可讀介質(zhì),其當(dāng)下載到通用計算機上時實現(xiàn)如權(quán)利要求1中所闡述的方法。
14.一種用于檢測和識別醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)所關(guān)心的部位和/或體積(“部位”)的系統(tǒng),包括CAD子系統(tǒng),以及假陽性降低(FPR)子系統(tǒng),用于把部位映射到具有改進特異性的兩種基礎(chǔ)事實狀態(tài)之一,借此最小化由系統(tǒng)報告的假陽性的數(shù)目,包括用于識別和描繪圖像數(shù)據(jù)內(nèi)所檢測的所關(guān)心部位的CAD子系統(tǒng);假陽性降低子系統(tǒng),與CAD子系統(tǒng)相通信,其首先在訓(xùn)練數(shù)據(jù)集合上進行訓(xùn)練,然后對具有改進特異性的非訓(xùn)練數(shù)據(jù)內(nèi)的候選部位進行操作,包括特征提取器,用于提取與每個CAD描繪的候選部位相對應(yīng)的特征池,包括以下至少一個基于3D直方圖的特征子集或來自這個子集的特征,以及基于3D梯度的特征子集或來自這個子集的特征;與特征提取器通信的遺傳算法,從訓(xùn)練中所采用的CAD描繪部位的特征池中確定最佳特征子集;以及與特征提取器和GA通信的支持向量機(SVM),其根據(jù)最佳特征子集對非訓(xùn)練數(shù)據(jù)、訓(xùn)練后所檢測的每個CAD描繪的候選部位進行映射;其中通過從每個分割部位中提取特征池,利用GA來識別所提取特征的最佳子集,而利用已知基礎(chǔ)事實在包括候選部位的圖像數(shù)據(jù)上對系統(tǒng)進行訓(xùn)練,以便系統(tǒng)在對非訓(xùn)練數(shù)據(jù)進行操作期間顯示足夠的鑒別能力從而映射具有改進特異性的候選部位。
15.權(quán)利要求14中闡述的醫(yī)學(xué)圖像分類系統(tǒng),其中CAD子系統(tǒng)更進一步包括分割子系統(tǒng),其在訓(xùn)練期間提供讀者輸入以更好地描繪用于訓(xùn)練的部位。
16.如權(quán)利要求14所闡述的醫(yī)學(xué)圖像分類系統(tǒng),其中GA在訓(xùn)練和對非訓(xùn)練數(shù)據(jù)進行操作的過程中對分級適合范例進行操作。
17.一種用于對醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測的對象進行分類的方法,所述醫(yī)學(xué)圖像數(shù)據(jù)產(chǎn)生假陽性分類中的標(biāo)記降低,包括步驟CAD處理以檢測并描繪醫(yī)學(xué)圖像數(shù)據(jù)中所存在的對象;CAD后處理以產(chǎn)生具有足夠鑒別能力的特征集合以致所描繪對象可以通過最大特異性而被分類;其中在訓(xùn)練階段期間,已知訓(xùn)練數(shù)據(jù)的集合被CAD處理以對訓(xùn)練數(shù)據(jù)內(nèi)的對象進行分割,從/為分割對象提取/計算的特征池包括以下至少一個基于3D直方圖的特征子集或來自這個子集的特征以及基于3D梯度的特征子集或來自這個子集的特征,以及機器學(xué)習(xí)對來自特征池的特征子集進行優(yōu)化,以及其中訓(xùn)練之后,由CAD處理所描繪的候選對象被CAD后處理,所述CAD后處理包括特征提取,以及包括分類以考慮到CAD后機器學(xué)習(xí)而對具有高特異性的對象進行分類。
全文摘要
一種用于對HRCT醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測的所關(guān)心部位進行計算機輔助檢測(CAD)和分類的方法,包括適于對將部位/體積(volume)識別成結(jié)核或非結(jié)核的特異性和敏感性進行最大化的CAD后機器學(xué)習(xí)技術(shù)。該部位由CAD處理來識別,以及自動地分割。特征池根據(jù)每個分割部位來識別和提取,以及由遺傳算法來處理以識別最佳特征子集,這個子集用來訓(xùn)練支持向量機以對非訓(xùn)練數(shù)據(jù)內(nèi)發(fā)現(xiàn)的候選部位/體積進行分類。
文檔編號G06K9/62GK101061510SQ200580039710
公開日2007年10月24日 申請日期2005年11月21日 優(yōu)先權(quán)日2004年11月19日
發(fā)明者L·博羅茨基, K·P·李, L·趙 申請人:皇家飛利浦電子股份有限公司