專利名稱:用于在計(jì)算機(jī)輔助肺結(jié)核假陽性降低中克服不平衡事例數(shù)目的層化方法
相關(guān)申請本申請/專利來源于由所提名申請人于2004年11月19日申請的申請?zhí)枮?0/629751的美國臨時(shí)專利申請。本申請與通常擁有、共同未決的Philips申請PHUS040505(779361)、PHUS040500(778964)和PHUS040499(778965)有關(guān)。
本發(fā)明涉及計(jì)算機(jī)輔助檢測系統(tǒng)和方法。本發(fā)明更確切地涉及這樣的系統(tǒng)和方法,所述系統(tǒng)和方法用于假陽性減少計(jì)算機(jī)輔助檢測(CAD)結(jié)果,尤其是高分辨率、薄片計(jì)算層析成像(HRCT)圖像,在CAD系統(tǒng)訓(xùn)練期間利用支持向量機(jī)(support vector machine,SVM)對失衡數(shù)據(jù)集(訓(xùn)練數(shù)據(jù)集)實(shí)現(xiàn)利用層化(stratification)的CAD后分類,從而在保存適當(dāng)靈敏度的情況下生成很高的特異性(減少所報(bào)告假陽性的數(shù)目)。
當(dāng)前計(jì)算機(jī)相關(guān)系統(tǒng)的速度和成熟支持更快、更高級的醫(yī)學(xué)圖像系統(tǒng)的開發(fā)。處理和處理后所生成的數(shù)據(jù)量的增加導(dǎo)致創(chuàng)建大量應(yīng)用程序來自動分析醫(yī)學(xué)圖像數(shù)據(jù)。也就是說,已經(jīng)開發(fā)了各種數(shù)據(jù)處理軟件和系統(tǒng)來幫助內(nèi)科醫(yī)師、臨床醫(yī)師、放射科醫(yī)師等等來評估醫(yī)學(xué)圖像以識別和/或診斷并評估醫(yī)學(xué)圖像。例如,計(jì)算機(jī)輔助檢測(CAD)算法和系統(tǒng)已經(jīng)發(fā)展為從多片CT(multi-slice CT,MSCT)掃描中自動識別“可疑”部位(例如損傷)。鑒于其固有的準(zhǔn)確地圖示解剖結(jié)構(gòu)的大小、形狀和位置以及異常或損傷的能力,CT或者計(jì)算層析成象是通常用于通過圖像診斷疾病的成像模態(tài)。
CAD系統(tǒng)自動檢測(識別和描繪)形態(tài)學(xué)上感興趣部位(例如,損傷、結(jié)核、微鈣化),以及其他可能是臨床相關(guān)的結(jié)構(gòu)上可檢測的條件/部分。當(dāng)再現(xiàn)并顯示醫(yī)學(xué)圖像時(shí),CAD系統(tǒng)標(biāo)記或者高亮度顯示(識別)所研究部位。所述標(biāo)記將引起放射科醫(yī)師對可疑部位的注意。例如,在對尋找可能癌變結(jié)核的肺圖像的分析過程中,CAD系統(tǒng)將標(biāo)記檢測到的結(jié)核。因而,CAD系統(tǒng)結(jié)合了放射科醫(yī)師的專業(yè)知識以自動提供關(guān)于醫(yī)學(xué)圖像數(shù)據(jù)中異常的檢測的第二意見。通過支持對疑似癌變的損傷或者結(jié)核的早期檢測,CAD系統(tǒng)實(shí)現(xiàn)了早期干預(yù),理論上向病人提供了更好的預(yù)后。
CAD及其他機(jī)器學(xué)習(xí)系統(tǒng)的大多數(shù)現(xiàn)有工作都遵循有監(jiān)督學(xué)習(xí)的相同方法。所述CAD系統(tǒng)從具有已知基礎(chǔ)事實(shí)(ground truth)的大量數(shù)據(jù)開始。在訓(xùn)練數(shù)據(jù)上“訓(xùn)練”CAD系統(tǒng),以識別被認(rèn)為具有充足的鑒別能力來區(qū)分基本事實(shí)的特征集,所述基本事實(shí)也就是非訓(xùn)練數(shù)據(jù)中的結(jié)核或者非結(jié)核。對本領(lǐng)域技術(shù)人員而言的挑戰(zhàn)包括提取簡化了在類別之間進(jìn)行鑒別的特征,理論上查找特征池內(nèi)的最相關(guān)子集。一旦被訓(xùn)練,那么CAD系統(tǒng)就可以對非訓(xùn)練數(shù)據(jù)進(jìn)行操作,其中從CAD描繪的候選部位中提取特征并分類所述特征。
CAD系統(tǒng)可以合并不同種類的信息(例如基于圖像的特征與病人數(shù)據(jù)),或者它們可以發(fā)現(xiàn)例如基于相似度的方法。技術(shù)人員應(yīng)當(dāng)理解任何計(jì)算機(jī)驅(qū)動決策支援系統(tǒng)的精確性受到已經(jīng)由學(xué)習(xí)過程分類的模式集的可用性(也就是受到訓(xùn)練集)的限制。假陽性標(biāo)記(來自CAD系統(tǒng)的輸出)是指向根本不是結(jié)核、而是傷痕、支氣管壁增厚、運(yùn)動假象、脈管分支等的那些標(biāo)記。其中CAD輔助結(jié)果表示所調(diào)查部位的底線事實(shí)(例如,結(jié)核),具體而言臨床醫(yī)生將忽略他/她不研究的部位。本領(lǐng)域的技術(shù)人員應(yīng)該理解在診斷上下文中,“真陽性”經(jīng)常指的是真正惡性的檢測結(jié)核。然而,在CAD上下文中,即使標(biāo)記指向良性的或者鈣化的結(jié)核,所述標(biāo)記也被認(rèn)為是真陽性標(biāo)記。從而在CAD中不定義“真陰性”并且不能給出標(biāo)準(zhǔn)化的特異性。因此,CAD性能通常由靈敏度(檢出率)以及假陽性率或者每個(gè)CT研究的假陽性標(biāo)記限定(qualify),因而,十分需要一種能輸出最小假陽性的CAD系統(tǒng)。
在完成自動檢測處理之后(有或者沒有標(biāo)記),大多數(shù)CAD系統(tǒng)自動調(diào)用一個(gè)或多個(gè)工具以應(yīng)用于用戶和CAD檢測的損傷(部位),從而例如消除冗余,實(shí)現(xiàn)解釋工具等等。所以,已知各種用于減少CAD中的假陽性的技術(shù)。例如,W.A.H.Mousa和M.A.U.Khan在Proc.of IEEE ICIP′2002中公開了題為“Lung Nodule Classification Utilizing SupportVector Machines”的他們的假陽性減少技術(shù)。K.Suzuki,S.G.ArmatoIII,F(xiàn).Li,S.Sone,K.Doi在“Massive training artificial neuralnetwork(MTANN)for reduction of false positives in computerizeddetection of lung nodules in low-dose computed tomography”Med.Physics 30(7),July 2003,pp.1602-1617中描述了一種最小化假陽性的嘗試,以及Z.Ge,B.Sahiner,H.-P.Chan,L M.Hadjiski,J.Wei,N.Bogot,P.N.Cascade,E.A.Kazerooni,C.Zhou在“Computeraided detection of lung nodulesfalse positive reduction usinga 3D gradient field method”,Medical Imaging 2004Image Processing,pp.1076-1082中描述了一種最小化假陽性的嘗試。
FPR系統(tǒng)用于CAD后處理中以改善特異性。例如,R.Wiemker,et al.在他們的COMPUTER-AIDED SEGMENTATION OF PULMONARY NODULESAUTOMATED VASCULATURE CUTOFF IN THIN-AND THICK-SLICE CT,2003Elsevier Science BV中論述了最大化CAD算法的敏感性以在薄片CT中將肺結(jié)核同結(jié)核周圍的維管結(jié)構(gòu)有效地分離(以彌補(bǔ)部分體積的影響)。預(yù)定目標(biāo)是減少分類錯(cuò)誤。然而,Wiemker的CAD系統(tǒng)和方法不使用成熟的機(jī)器學(xué)習(xí)技術(shù),其也不優(yōu)化FPR的特征提取和選擇方法。例如,雖然Mousa,et al.利用支持向量機(jī)將真實(shí)的結(jié)核同非結(jié)核(EP)相區(qū)分,但是他們的系統(tǒng)基于非常簡單化的特征提取單元,所述特征提取單元可能限制而不是改善了特異性。
另一個(gè)已知的問題是由CAD算法生成的假結(jié)核的數(shù)目遠(yuǎn)大于真實(shí)的結(jié)核(不平衡事例(case)問題),因此降低了機(jī)器學(xué)習(xí)的性能。失衡訓(xùn)練事例問題指的是在機(jī)器學(xué)習(xí)中一類的事例數(shù)目明顯少于另一類中事例數(shù)目的情況。這種失衡將導(dǎo)致機(jī)器學(xué)習(xí)中意外動作是大家熟知的。機(jī)器學(xué)習(xí)組所采用的一種通用方法是人工再平衡。這樣做被稱作“向上取樣”(復(fù)制少數(shù)的事例)和“向下取樣”(忽略多數(shù)的事例)。Provost,F(xiàn).“Learning with Imbalanced Data Sets 101,”AAAI 2000。
在肺結(jié)核假陽性降低中失衡訓(xùn)練事例問題特別突出。然而,這是因?yàn)橛衅畹哪繕?biāo)(保存真結(jié)核并減少盡可能多的假結(jié)核)而不是追求整個(gè)分類的精確性(大多數(shù)其他機(jī)器學(xué)習(xí)算法的目標(biāo))。本發(fā)明描述了一種新的、特別適合于這種有偏差目標(biāo)處理的層化方法,并克服了不平衡事例數(shù)目問題。
因此本發(fā)明的目的在于提供一種基于CAD的系統(tǒng)和方法,所述系統(tǒng)和方法通過實(shí)施新的層化方法從而在特異性,也就是假陽性降低方面,或者在有偏差目標(biāo)處理方面得到明確改善,從而克服了本領(lǐng)域中公知的不平衡事例問題。結(jié)果改善了CAD處理中的特異性。
在此公開的創(chuàng)新的CAD和假陽性降低(FPR)系統(tǒng)因此包括機(jī)器學(xué)習(xí)子系統(tǒng),該子系統(tǒng)用于CAD后處理。所述子系統(tǒng)包括特征提取器,用于選擇最相關(guān)特征的遺傳算法(genetic algorithm,GA),以及支持向量機(jī)(SVM)。SVM根據(jù)保留全部真陽性識別這樣的約束條件,將由CAD檢測的候選部位限制為一些基本事實(shí),例如,部位/體積到底是結(jié)核還是非結(jié)核。首先必須在訓(xùn)練數(shù)據(jù)集上訓(xùn)練CAD或者FPR系統(tǒng),其包括導(dǎo)出最相關(guān)特征以供CAD后機(jī)器學(xué)習(xí)SVM使用,從而在改善CAD特異性的情況下進(jìn)行分類。
圖1是描繪利用支持向量機(jī)(SVM)在從計(jì)算層析成象(CT)醫(yī)學(xué)圖像進(jìn)行計(jì)算機(jī)輔助檢測(CAD)中實(shí)現(xiàn)假陽性降低(FPR)的系統(tǒng)的圖;圖2是描繪支持向量機(jī)的基本思想的圖;圖3是識別本發(fā)明的示例性處理的處理流程圖;圖4描繪了基于GA的特征子集選擇處理;以及圖5是突出顯示用于肺結(jié)核假陽性降低的層化方法的系統(tǒng)級圖;以及圖6提供了根據(jù)結(jié)核大小對所檢測的假結(jié)核的統(tǒng)計(jì)分析。
在圖像數(shù)據(jù)集合(例如,CT)中檢測肺結(jié)核的計(jì)算機(jī)輔助基礎(chǔ)目標(biāo)不是指派由機(jī)器進(jìn)行診斷,而是實(shí)現(xiàn)基于機(jī)器的算法或者方法來支持放射科醫(yī)師提出他的/她的判定,也就是指出可疑對象的位置以便提升總靈敏度(檢出率)。CAD或者其他臨床決策支持系統(tǒng)的主要問題是必然發(fā)生假的標(biāo)記(所謂的假陽性)和真陽性標(biāo)記會一同出現(xiàn)。
臨床研究表明測量的CAD檢出率,和測量的由有經(jīng)驗(yàn)的放射科醫(yī)師的檢出率不同,其取決于進(jìn)行讀取的放射科醫(yī)師的數(shù)目。參與讀取可疑損傷、微鈣化等的有經(jīng)驗(yàn)讀取者越多,則將會發(fā)現(xiàn)越多數(shù)量的損傷(在一個(gè)圖像內(nèi))。所述技術(shù)領(lǐng)域的技術(shù)人員應(yīng)當(dāng)注意到無論是由CAD還是由熟練的專業(yè)人員讀取,描繪絕對靈敏度的任何圖都可能很容易被誤解釋。也就是說,來自臨床研究的數(shù)據(jù)趨向于支持由輔助CAD軟件能夠更容易檢測到很多結(jié)核,而這些結(jié)核可能在不利用CAD系統(tǒng)的情況下為讀取的放射科醫(yī)師所忽略。本發(fā)明增加了特異性(更好的FPR),同時(shí)保持了靈敏度(真實(shí)結(jié)核查找)。
包括假陽性降低處理的基于CAD的系統(tǒng)具有一項(xiàng)重要的工作,那就是識別醫(yī)學(xué)圖像數(shù)據(jù)中檢測到的“可對之行動的”結(jié)構(gòu),其中所述系統(tǒng)諸如由Wiemker、Mousa等人所描繪的那些系統(tǒng)之類。一旦識別(也就是,被分割),那么提取重要特征的全面集合并用于分類。本領(lǐng)域的技術(shù)人員將意識到計(jì)算機(jī)驅(qū)動決策支持或者CAD系統(tǒng)的準(zhǔn)確性受到用作訓(xùn)練集合的已知病理學(xué)的模式或部位集合的可用性的限制。即使是諸如由Wiemker,R.,T.Blaffert1所描述的現(xiàn)有技術(shù)CAD算法也可能導(dǎo)致大量的假陽性,這將導(dǎo)致相關(guān)風(fēng)險(xiǎn)和低用戶接受度的不必要介入。此外,當(dāng)前假陽性降低算法經(jīng)常被開發(fā)用于胸部放射圖像或者厚片CT掃描,未必能在來源于HRCT的數(shù)據(jù)上很好的運(yùn)行。
所以,創(chuàng)新的CAD/FPR系統(tǒng)和方法包括CAD子系統(tǒng)或者處理,用于識別候選部位,并分割所述部位。在訓(xùn)練期間,訓(xùn)練數(shù)據(jù)集合內(nèi)的所分割部位被傳遞至特征提取器或者傳遞至用于實(shí)現(xiàn)特征提取處理的處理器。本發(fā)明通過實(shí)施下文中詳細(xì)描述的層化方法解決了本領(lǐng)域稱之為有偏差目標(biāo)問題或者失衡數(shù)據(jù)集問題的問題。特征提取獲得由來自所檢測結(jié)構(gòu)的3D和2D特征組成的特征池。特征池被傳送至遺傳算法(geneticalgorithm,GA)子系統(tǒng)或者GA處理器(CAD后),其處理特征池以實(shí)現(xiàn)最優(yōu)特征子集。最優(yōu)特征子集包括在創(chuàng)新CAD或者FPR系統(tǒng)內(nèi)提供對SVM而言足夠鑒別能力的特征,以便對候選部位/體積進(jìn)行分類。
此后,CAD處理“新的”圖像數(shù)據(jù),對在非訓(xùn)練數(shù)據(jù)內(nèi)發(fā)現(xiàn)的候選部位進(jìn)行分割。從候選部位中提取(在訓(xùn)練期間所確定的)特征子集,以供“已訓(xùn)練”分類器(SVM)使用,從而判斷所述候選特征是否能夠在具有恰當(dāng)特異性的情況下進(jìn)行適當(dāng)?shù)姆诸?。?chuàng)新的FPR或者CAD系統(tǒng)能夠借此在精確、具有充足特異性的情況下在高分辯率和薄片CT(HRCT)中檢測小的肺結(jié)核,以及類似地在包括訓(xùn)練集、包括新的和新穎的基于3D特征的特征中檢測小的肺結(jié)核。例如,具有片厚<=1毫米的HRCT數(shù)據(jù)提供了允許檢測非常小結(jié)核的充足細(xì)節(jié)的數(shù)據(jù)。檢測更小結(jié)核的能力需要新的方法來可靠地檢測和鑒別候選部位,正如在下文的權(quán)利要求中所闡Options to improve the performance of the computer aided detection of lungnodules in thin-slice CT.2003,Philips Research LaboratoriesHamburg以及Wiemker,R.,T.Blaffert在他們的Computer Aided TumorVolumetry in CT Data,Invention disclosure.2002,Philips Research,Hamburg。述的那樣。
將參照圖1清楚描述本發(fā)明的FPR系統(tǒng)400的優(yōu)選實(shí)施方式。FPR系統(tǒng)400包括CAD子系統(tǒng)420和FPR子系統(tǒng)430,所述CAD子系統(tǒng)420用于識別并分割滿足特定標(biāo)準(zhǔn)的感興趣部位或體積。優(yōu)選地,CAD子系統(tǒng)420包括CAD處理器410,并還可以包括分割單元430,以對醫(yī)學(xué)圖像數(shù)據(jù)執(zhí)行低級處理和分割。本領(lǐng)域的技術(shù)人員將理解CAD系統(tǒng)必須執(zhí)行分割功能以描繪供進(jìn)一步分析的候選部位,不論所述分割功能被作為CAD子系統(tǒng)實(shí)現(xiàn),還是作為獨(dú)立分割單元實(shí)現(xiàn),以便支持CAD處理(諸如分割單元430)。CAD子系統(tǒng)420用于分割感興趣的候選部位或者體積,例如結(jié)核,無論是在訓(xùn)練數(shù)據(jù)上操作還是研究“新的”候選部位,并指示參數(shù)調(diào)節(jié)處理以實(shí)現(xiàn)穩(wěn)定分割。
在訓(xùn)練模式中,特征提取十分重要,這是因?yàn)樗艽笥绊懥薋PR系統(tǒng)的總體性能。不正確提取整個(gè)特征集合或者池的情況下,GA處理器450就不能夠精確確定具有最好鑒別能力和最小尺寸的最優(yōu)特征子集(以便避免過度擬合(over-fitting)并增加概括能力)。由包括FPR子系統(tǒng)430的特征提取單元440提取或者生成特征池。特征池然后由遺傳算法處理器450進(jìn)行操作,來識別特征池的“最優(yōu)”子集。當(dāng)利用特征子集來操作非訓(xùn)練數(shù)據(jù)時(shí),GA處理后面的意圖是由已訓(xùn)練的CAD系統(tǒng)將特異性最大化為基本事實(shí),就如由SVM460推算的那樣。也就是,GA處理器450生成或者識別特征子集,其中在訓(xùn)練之后當(dāng)由SVM利用所述特征子集時(shí)增加所分割非訓(xùn)練數(shù)據(jù)中識別部位的特異性。關(guān)于對特征的選擇和數(shù)目這二者來確定GA識別的特征子集(僅僅在訓(xùn)練期間),其中所述特征應(yīng)當(dāng)被SVM以充足特異性來利用從而在非訓(xùn)練數(shù)據(jù)上使用時(shí)最小化假陽性識別。也就是說,一旦訓(xùn)練,那么當(dāng)系統(tǒng)在非訓(xùn)練數(shù)據(jù)上操作時(shí)CAD系統(tǒng)就不再使用GA。
基于GA的特征選擇處理由共同擁有、共同未決的申請編號為US040120(ID公開#-779446)的Philips申請所披露,將其內(nèi)容引入于此以供參考。GA的特征子集的選擇通過創(chuàng)建大量由多個(gè)“基因”組成的“染色體”開始。每個(gè)基因表示一個(gè)所選的特征。由染色體所表示的特征集用來在訓(xùn)練數(shù)據(jù)上訓(xùn)練SVM。染色體的適合度是由所產(chǎn)生的SVM執(zhí)行得多好來評估的。在本發(fā)明中,存在三個(gè)使用的適合度功能靈敏度、特異性和染色體中所包括的特征數(shù)。三個(gè)適合度功能被排序以不同的優(yōu)先級;換句話說,靈敏度具有第一優(yōu)先級,特異性具有第二優(yōu)先級,特征數(shù)具有第三優(yōu)先級。這被稱作分層的適合度功能。該處理開始時(shí),通過隨機(jī)選擇特征以形成染色體的方式來生成染色體總數(shù)。所述算法(也就是GA)然后迭代搜索能很好執(zhí)行(具有高適合度)的那些染色體。
每當(dāng)生成時(shí),GA評估總體中每個(gè)染色體的適合度,并通過兩個(gè)主進(jìn)化操作-變異和交叉來從當(dāng)前染色體中創(chuàng)建新的染色體?!昂玫摹比旧w中的基因很可能被保持給下一代,而具有較差性能的基因很可能被丟棄。最后通過該適者生存的處理來查找到最佳解(也就是,許多特征)。通過知曉包括最優(yōu)數(shù)目特征的最優(yōu)特征子集來實(shí)現(xiàn)假陽性降低(FPR),所述假陽性降低將降低誤分類事例的總數(shù)。在確定特征子集之后,其被用于訓(xùn)練SVM。
如上所述的,失衡訓(xùn)練事例問題指的是在機(jī)器學(xué)習(xí)中一個(gè)分類中的事例數(shù)目明顯少于另一個(gè)分類中的事例數(shù)目的情況。這種失衡將導(dǎo)致機(jī)器學(xué)習(xí)的意外動作是公知的。機(jī)器學(xué)習(xí)組所采用的一種通用方法是利用“向上抽樣”(復(fù)制來自少數(shù)的事例)和“向下抽樣”(忽略來自多數(shù)的事例)來人工地再平衡它們。Provost,F(xiàn).“Learning with imbalance DataSets 101,”AAAI 2000。在此講授和要求的新穎的層化方法特別適合于解決有偏差目標(biāo)方法并克服不平衡事例數(shù)目問題。
訓(xùn)練之后,CAD子系統(tǒng)420通過生成二元或者三元圖像的方式來從背景中描繪出候選結(jié)核(包括在非訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)的非結(jié)核),在所述二元或者三元圖像中標(biāo)示出哪里是結(jié)核部位、哪里是背景部分、以及哪里是肺壁(或者“剪切”)部位。一旦收到灰度級和所標(biāo)示的候選部位或者體積,特征提取器440就計(jì)算(提取)諸如2D和3D形狀特征、基于直方圖的特征等之類的任何相關(guān)特征來作為特征池。所述特征被提供給SVM,所述SVM已經(jīng)在從訓(xùn)練數(shù)據(jù)提取的最佳特征子集上得到訓(xùn)練。
本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解SVM將“原始”特征空間映射到一些更高維的特征空間,其中如圖2所示訓(xùn)練集被超平面所分割?;赟VM的分類器具有幾個(gè)內(nèi)部參數(shù),其可能影響它的性能。根據(jù)經(jīng)驗(yàn)優(yōu)化這種參數(shù)以實(shí)現(xiàn)可能達(dá)到最好的總準(zhǔn)確度。此外,在供SVM使用以前標(biāo)準(zhǔn)化特征值,以避免具有大的數(shù)值范圍的特征比具有較小數(shù)值范圍的特征有優(yōu)勢,這是在此講授的有創(chuàng)造性的系統(tǒng)和處理的焦點(diǎn)。標(biāo)準(zhǔn)化特征價(jià)也使得計(jì)算更加簡單。并且因?yàn)楹诵闹低ǔHQ于特征向量的內(nèi)積,所以大的屬性值可能導(dǎo)致數(shù)值問題。
范圍內(nèi)的標(biāo)度(scale)如下x′=(x-mi)/(Mi-mi),
其中x′是“標(biāo)度”值;x是原始值;Mi是最大特征值;以及mi是最小特征值。
利用包括其病理學(xué)已知的訓(xùn)練數(shù)據(jù)或者部位的肺結(jié)核數(shù)據(jù)集、利用被稱作“留一法(leave-one-out)和k折驗(yàn)證(k-fold validation)”來驗(yàn)證創(chuàng)新的FPR系統(tǒng)。實(shí)現(xiàn)驗(yàn)證,創(chuàng)造的FPR系統(tǒng)顯示為減少了大多數(shù)假結(jié)核,同時(shí)幾乎保留所有幀結(jié)核。
圖3是描繪根據(jù)本發(fā)明可以實(shí)現(xiàn)的處理的流程圖。在圖3中,方框500表示在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器,其中對所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集而言關(guān)于特定感興趣部位或體積的基本事實(shí)是已知的。所述步驟可以包括在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器,其中選擇所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集以包括大量真假結(jié)核,并且自動進(jìn)行分割。從訓(xùn)練數(shù)據(jù)內(nèi)的每個(gè)所分割部位和體積中識別/提取特征池,并利用遺傳算法處理器來處理所述特征池以識別最優(yōu)特征子集,根據(jù)所述最優(yōu)特征子集來訓(xùn)練支持向量機(jī)。因此實(shí)現(xiàn)了用于降低肺結(jié)核假陽性的層化方法。
方框510表示這樣的步驟其中如果訓(xùn)練數(shù)據(jù)包括失衡數(shù)目的真陽性和假陽性,那么實(shí)施層化處理。方框520表示訓(xùn)練后步驟,其在新的或者非訓(xùn)練的醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測關(guān)于基本事實(shí)(例如結(jié)核或者非結(jié)核)作為識別候選者的部位或者體積。方框530表示分割候選部位的步驟,方框540表示處理所分割的候選部位的步驟,以便提取那些特征,也就是由GA確定為對恰當(dāng)分類而言最相關(guān)的特征的特征子集。然后,如塊550所示,支持向量機(jī)在改善特異性并保持靈敏度的情況下識別非訓(xùn)練候選部位的真陽性識別。
就那件事而論,如方框510所示,在圖5中圖示了所述方法的詳細(xì)說明,其中步驟1顯示了根據(jù)結(jié)核尺寸將假結(jié)核集分成三個(gè)子集。如在圖6內(nèi)被標(biāo)識為“事例數(shù)目”的表格所示的統(tǒng)計(jì)分析中顯示了事例數(shù)目分布。
在步驟2,機(jī)器學(xué)習(xí)使用最大假結(jié)核(例如>4mm)和所有真結(jié)核。選擇最大假結(jié)核的首要原因是其事例數(shù)目與真結(jié)核相當(dāng)。次要原因是從最大假結(jié)核中提取的圖象特征被認(rèn)為是更易于區(qū)分。我們使用的特定機(jī)器學(xué)習(xí)技術(shù)是支持向量機(jī)(SVM)。
在步驟3中,根據(jù)機(jī)器學(xué)習(xí)生成分類器。因?yàn)檫@兩個(gè)分類中的事例數(shù)目是相當(dāng)?shù)?,所以分類器能夠在施加不同的交叉?yàn)證方法(cross-validation methods)之后保持幾乎所有的真結(jié)核并能夠減少接近90%的大假結(jié)核。
在步驟4中,在步驟3中提到的分類器被用于保持較小的假結(jié)核,并且結(jié)果顯示移除了大多數(shù)的假結(jié)核。整體而言,層化處理經(jīng)證明是一種克服不平衡事例問題的好方法。對有偏差目標(biāo)問題而言,因?yàn)槠涫紫却_保保持盡可能多的真結(jié)核(第一優(yōu)先級),然后再減少假結(jié)核(第二優(yōu)先級)。因此,該方法不同于其他解決失衡數(shù)據(jù)集問題的方法,所述其他方法設(shè)法提升整體分類的精確性,也就是在雙方向上減少錯(cuò)誤分類的事例上相同的優(yōu)先級。其特別用于向肺結(jié)核假陽性降低這樣的偏見目標(biāo)問題。
值得注意的是執(zhí)行創(chuàng)新的方法所需的、或者驅(qū)動創(chuàng)新的FPR分類器的軟件可以包括用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的有序列表。因而,所述軟件可以被具體化為任何計(jì)算機(jī)可讀取介質(zhì),所述計(jì)算機(jī)可讀取介質(zhì)供指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或者與指令執(zhí)行系統(tǒng)、裝置或設(shè)備結(jié)合起來使用,諸如基于計(jì)算機(jī)的系統(tǒng)、包含處理器的系統(tǒng)、或者其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備中取出指令并執(zhí)行所述指令的系統(tǒng)之類。在本文檔上下文中,“計(jì)算機(jī)可讀取介質(zhì)”可以是包括、存儲、通信、傳遞或傳送程序以供指令執(zhí)行系統(tǒng)、裝置、或設(shè)備使用或者與指令執(zhí)行系統(tǒng)、裝置、或設(shè)備結(jié)合起來使用的任何裝置。
計(jì)算機(jī)可讀取介質(zhì)例如可以是、但是不限于是電、磁、光、電磁、紅外線或半導(dǎo)體系統(tǒng)、裝置、設(shè)備或者傳播介質(zhì)。計(jì)算機(jī)可讀取介質(zhì)的更具體實(shí)例(非窮舉列表)將包括下列具有一個(gè)或多個(gè)線路的電連接(電),便攜式計(jì)算機(jī)磁盤(磁性),隨機(jī)存取存儲器(RAM)(磁性),只讀存儲器(ROM)(磁性),可擦可編程序只讀存儲器(EPROM)或者閃速存儲器)(磁性),光纖(光)以及便攜式光盤只讀存儲器(CDROM)(光)。應(yīng)當(dāng)注意計(jì)算機(jī)可讀取介質(zhì)甚至可以是紙張或者能在其上打印程序的另外的適當(dāng)介質(zhì),所述程序可以被電捕獲,例如經(jīng)由對該紙張或其他介質(zhì)的光學(xué)掃描、然后編譯、解釋或者相反在必要時(shí)以適當(dāng)?shù)姆绞竭M(jìn)行處理,然后存儲在計(jì)算機(jī)存儲器中。
應(yīng)當(dāng)強(qiáng)調(diào)的是本發(fā)明的上述實(shí)施方式,尤其是任何“優(yōu)選”實(shí)施方式(一個(gè)或多個(gè))僅僅是實(shí)施的可能實(shí)例,其僅僅是闡述以清楚地理解本發(fā)明的原理。此外,在基本上不脫離本發(fā)明的精神和原理的情況下可以對本發(fā)明的上述實(shí)施方式做出許多變化和修改。所有這種修改和變化被認(rèn)為是受到當(dāng)前說明書的教導(dǎo),包含在本發(fā)明的范圍內(nèi),并受到所附權(quán)利要求的保護(hù)。
權(quán)利要求
1.一種用于在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)計(jì)算機(jī)輔助檢測(CAD)感興趣部位或者體積(“部位”)的方法,包括CAD處理以檢測并描繪候選部位,以及在訓(xùn)練階段中的CAD后機(jī)器學(xué)習(xí)以最大化特異性并減少在處理非訓(xùn)練數(shù)據(jù)之后所報(bào)告的假陽性數(shù)目,所述方法包括下述步驟在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器,其中選擇所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集以包括大量對于基本事實(shí)已知為真和已知為假的部位,利用所述CAD處理識別并分割所述部位,提取特征以創(chuàng)建特征池來限定所述部位,向特征池應(yīng)用遺傳算法處理器以確定供支持向量機(jī)(SVM)使用的最小特征子集,以便利用改善的特異性在非訓(xùn)練數(shù)據(jù)內(nèi)識別候選部位,其中如果所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)失衡,則對所述失衡數(shù)據(jù)執(zhí)行層化處理;在訓(xùn)練之后,在非訓(xùn)練數(shù)據(jù)內(nèi)檢測候選部位;分割在非訓(xùn)練數(shù)據(jù)內(nèi)識別的候選部位;提取與每個(gè)所分割候選部位有關(guān)的候選特征集;以及依照訓(xùn)練過程、根據(jù)具有實(shí)際特異性的候選特征集將候選部位映射到基本事實(shí)空間中。
2.根據(jù)權(quán)利要求1所述的方法,其中所述訓(xùn)練步驟還包括對訓(xùn)練數(shù)據(jù)中的每一個(gè)候選部位,確定在訓(xùn)練期間由GA優(yōu)化的特征子集的尺寸,以及包括所述子集的實(shí)際特征。
3.根據(jù)權(quán)利要求1所述的方法,其中所述訓(xùn)練步驟還包括將在訓(xùn)練數(shù)據(jù)內(nèi)的每個(gè)部位內(nèi)所識別的特征池定義為染色體,其中每個(gè)基因表示一個(gè)特征,并且其中遺傳算法最初通過隨機(jī)選擇特征來繁殖染色體,以及迭代搜索具有較高適合度的那些染色體,其中每次生成都重復(fù)評估,并利用變異和交叉,在訓(xùn)練階段期間生成新的且更適合的染色體。
4.根據(jù)權(quán)利要求3所述的方法,其中所述確定步驟包括在兩個(gè)階段應(yīng)用GA,包括a)關(guān)于其特征集和特征數(shù)識別每個(gè)染色體;以及b)對于每個(gè)染色體,分析所識別特征集和所識別的特征數(shù),以便根據(jù)不同染色體的出現(xiàn)次數(shù)和平均誤差數(shù)目來確定特征的最優(yōu)尺寸。
5.根據(jù)權(quán)利要求1所述的方法,其中所述訓(xùn)練步驟包括利用過濾掩碼來識別壁像素。
6.根據(jù)權(quán)利要求1所述的方法,其中如果所述數(shù)據(jù)是失衡的而使得假結(jié)核數(shù)目明顯多于真結(jié)核數(shù)目,那么所述層化處理根據(jù)一個(gè)標(biāo)準(zhǔn)選擇大量假結(jié)核從而使假結(jié)核數(shù)目和真結(jié)核數(shù)目相互平衡。
7.一種包括計(jì)算機(jī)可讀指令集的計(jì)算機(jī)可讀取介質(zhì),當(dāng)所述計(jì)算機(jī)可讀指令被下載到通用計(jì)算機(jī)上時(shí)就執(zhí)行如在權(quán)利要求1中所闡述的方法。
8.一種用于在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測和識別感興趣部位和/或體積(“部位”)的系統(tǒng),包括CAD子系統(tǒng)和假陽性降低(FPR)子系統(tǒng),用于通過改善的特異性將部位映射到兩種基本事實(shí)狀態(tài)之一,借此最小化由系統(tǒng)所報(bào)告的假陽性的數(shù)目,包括CAD子系統(tǒng),用于識別和描繪在圖像數(shù)據(jù)內(nèi)檢測到的感興趣部位;與CAD子系統(tǒng)通信的假陽性降低子系統(tǒng),其首先被在訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練,隨后通過改善的特異性對非訓(xùn)練數(shù)據(jù)內(nèi)的候選部位進(jìn)行操作,包括特征提取器,用于提取與每個(gè)CAD描繪候選部位相對應(yīng)的特征池;與特征提取器通信的遺傳算法,以便從用于訓(xùn)練的CAD描繪部位的特征池中確定最優(yōu)特征子集;以及與特征提取器和GA通信的支持向量機(jī)(SVM),用于在訓(xùn)練后根據(jù)最優(yōu)特征子集映射在非訓(xùn)練數(shù)據(jù)內(nèi)檢測到的每個(gè)CAD描繪候選部位;其中所述系統(tǒng)通過下述方式被在包括具有已知基本事實(shí)的候選部位的圖像數(shù)據(jù)上訓(xùn)練從每個(gè)所分割部位中提取特征池,利用GA識別所提取特征的最優(yōu)子集,以便所述系統(tǒng)在對非訓(xùn)練數(shù)據(jù)執(zhí)行操作期間顯示充足的鑒別能力以通過改善的特異性映射候選部位,以及其中在訓(xùn)練集中發(fā)現(xiàn)假陽性數(shù)目超過真陽性總數(shù)的情況,則層化子系統(tǒng)重新整理訓(xùn)練數(shù)據(jù)以便在訓(xùn)練中存在近似相等數(shù)目的真陽性和假陽性。
9.根據(jù)權(quán)利要求8所述的醫(yī)學(xué)圖像分類系統(tǒng),其中所述CAD子系統(tǒng)還包括分割子系統(tǒng),所述分割子系統(tǒng)在訓(xùn)練期間提供讀者輸入以更好地描繪用于訓(xùn)練的部位。
10.根據(jù)權(quán)利要求8所述的醫(yī)學(xué)圖像分類系統(tǒng),其中GA在訓(xùn)練以及對非訓(xùn)練數(shù)據(jù)操作這二者中都對分層適合度范例操作。
11.一種用于分類在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測到的對象以使得在假陽性分類中標(biāo)記減少的方法,包括下述步驟CAD處理以檢測和描繪出現(xiàn)在醫(yī)學(xué)圖像數(shù)據(jù)中的對象;CAD后處理以生成具有充足鑒別能力的特征集,以便所描繪對象可以通過最大的特異性被分類;其中在訓(xùn)練階段期間,CAD處理已知訓(xùn)練數(shù)據(jù)集以便分割訓(xùn)練數(shù)據(jù)內(nèi)的對象,從所分割對象中提取的特征池/為所分割對象計(jì)算的特征池,以及機(jī)器學(xué)習(xí)優(yōu)化來自特征池的特征子集,其中如果訓(xùn)練集的真陽性和假陽性的部位數(shù)目失衡,那么依照層化處理執(zhí)行訓(xùn)練以便利用和失衡訓(xùn)練數(shù)據(jù)不同的平衡練數(shù)據(jù)來進(jìn)行訓(xùn)練,并且其中在訓(xùn)練之后,由CAD處理描繪的候選對象被執(zhí)行CAD后處理,包括對象特征提取,從而考慮到CAD后機(jī)器學(xué)習(xí)而通過高特異性分類對象。
12.一種用于訓(xùn)練分類器的方法,所述分類器對在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測到的形態(tài)學(xué)上感興趣部位進(jìn)行分類,其中所述訓(xùn)練包括根據(jù)層化方法選擇數(shù)據(jù)以訓(xùn)練分類器,所述層化方法包括根據(jù)部位尺寸將假陽性部位池分隔到N個(gè)子集中,以便第N子集包括最大部位子集;利用第N子集和所有真實(shí)部位執(zhí)行機(jī)器學(xué)習(xí)處理;根據(jù)所述機(jī)器學(xué)習(xí)生成分類器;以及向剩余的N-1個(gè)子集中的每一個(gè)應(yīng)用該分類器。
全文摘要
一種用于對在HRCT醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測的感興趣部位進(jìn)行計(jì)算機(jī)輔助探測(CAD)并分類的方法。所述方法包括用于對識別部位/體積為結(jié)核或者非結(jié)核的的特異性和靈敏度進(jìn)行最大化的CAD后機(jī)器學(xué)習(xí)技術(shù)。該部位被CAD處理識別,并被自動分割。從每個(gè)所分割部位中識別并提取特征池,并利用遺傳算法處理特征池以識別最優(yōu)特征子集,其中數(shù)據(jù)層化方法被用于平衡不同類別中的事例數(shù)目。由GA確定的子集被用于訓(xùn)練支持向量機(jī),從而對在非訓(xùn)練數(shù)據(jù)內(nèi)發(fā)現(xiàn)的候選部位/體積進(jìn)行分類。
文檔編號G06T7/00GK101061491SQ200580039688
公開日2007年10月24日 申請日期2005年11月21日 優(yōu)先權(quán)日2004年11月19日
發(fā)明者L·趙, K·P·李, L·博羅茨基 申請人:皇家飛利浦電子股份有限公司