用于在計(jì)算機(jī)輔助肺結(jié)核假陽性降低中克服不平衡事例數(shù)目的層化方法

文檔序號：6553062閱讀：248來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于在計(jì)算機(jī)輔助肺結(jié)核假陽性降低中克服不平衡事例數(shù)目的層化方法
相關(guān)申請本申請/專利來源于由所提名申請人于2004年11月19日申請的申請?zhí)枮?0/629751的美國臨時(shí)專利申請。本申請與通常擁有、共同未決的Philips申請PHUS040505(779361)、PHUS040500(778964)和PHUS040499(778965)有關(guān)。
本發(fā)明涉及計(jì)算機(jī)輔助檢測系統(tǒng)和方法。本發(fā)明更確切地涉及這樣的系統(tǒng)和方法，所述系統(tǒng)和方法用于假陽性減少計(jì)算機(jī)輔助檢測(CAD)結(jié)果，尤其是高分辨率、薄片計(jì)算層析成像(HRCT)圖像，在CAD系統(tǒng)訓(xùn)練期間利用支持向量機(jī)(support vector machine，SVM)對失衡數(shù)據(jù)集(訓(xùn)練數(shù)據(jù)集)實(shí)現(xiàn)利用層化(stratification)的CAD后分類，從而在保存適當(dāng)靈敏度的情況下生成很高的特異性(減少所報(bào)告假陽性的數(shù)目)。
當(dāng)前計(jì)算機(jī)相關(guān)系統(tǒng)的速度和成熟支持更快、更高級的醫(yī)學(xué)圖像系統(tǒng)的開發(fā)。處理和處理后所生成的數(shù)據(jù)量的增加導(dǎo)致創(chuàng)建大量應(yīng)用程序來自動分析醫(yī)學(xué)圖像數(shù)據(jù)。也就是說，已經(jīng)開發(fā)了各種數(shù)據(jù)處理軟件和系統(tǒng)來幫助內(nèi)科醫(yī)師、臨床醫(yī)師、放射科醫(yī)師等等來評估醫(yī)學(xué)圖像以識別和/或診斷并評估醫(yī)學(xué)圖像。例如，計(jì)算機(jī)輔助檢測(CAD)算法和系統(tǒng)已經(jīng)發(fā)展為從多片CT(multi-slice CT，MSCT)掃描中自動識別“可疑”部位(例如損傷)。鑒于其固有的準(zhǔn)確地圖示解剖結(jié)構(gòu)的大小、形狀和位置以及異常或損傷的能力，CT或者計(jì)算層析成象是通常用于通過圖像診斷疾病的成像模態(tài)。
CAD系統(tǒng)自動檢測(識別和描繪)形態(tài)學(xué)上感興趣部位(例如，損傷、結(jié)核、微鈣化)，以及其他可能是臨床相關(guān)的結(jié)構(gòu)上可檢測的條件/部分。當(dāng)再現(xiàn)并顯示醫(yī)學(xué)圖像時(shí)，CAD系統(tǒng)標(biāo)記或者高亮度顯示(識別)所研究部位。所述標(biāo)記將引起放射科醫(yī)師對可疑部位的注意。例如，在對尋找可能癌變結(jié)核的肺圖像的分析過程中，CAD系統(tǒng)將標(biāo)記檢測到的結(jié)核。因而，CAD系統(tǒng)結(jié)合了放射科醫(yī)師的專業(yè)知識以自動提供關(guān)于醫(yī)學(xué)圖像數(shù)據(jù)中異常的檢測的第二意見。通過支持對疑似癌變的損傷或者結(jié)核的早期檢測，CAD系統(tǒng)實(shí)現(xiàn)了早期干預(yù)，理論上向病人提供了更好的預(yù)后。
CAD及其他機(jī)器學(xué)習(xí)系統(tǒng)的大多數(shù)現(xiàn)有工作都遵循有監(jiān)督學(xué)習(xí)的相同方法。所述CAD系統(tǒng)從具有已知基礎(chǔ)事實(shí)(ground truth)的大量數(shù)據(jù)開始。在訓(xùn)練數(shù)據(jù)上“訓(xùn)練”CAD系統(tǒng)，以識別被認(rèn)為具有充足的鑒別能力來區(qū)分基本事實(shí)的特征集，所述基本事實(shí)也就是非訓(xùn)練數(shù)據(jù)中的結(jié)核或者非結(jié)核。對本領(lǐng)域技術(shù)人員而言的挑戰(zhàn)包括提取簡化了在類別之間進(jìn)行鑒別的特征，理論上查找特征池內(nèi)的最相關(guān)子集。一旦被訓(xùn)練，那么CAD系統(tǒng)就可以對非訓(xùn)練數(shù)據(jù)進(jìn)行操作，其中從CAD描繪的候選部位中提取特征并分類所述特征。
CAD系統(tǒng)可以合并不同種類的信息(例如基于圖像的特征與病人數(shù)據(jù))，或者它們可以發(fā)現(xiàn)例如基于相似度的方法。技術(shù)人員應(yīng)當(dāng)理解任何計(jì)算機(jī)驅(qū)動決策支援系統(tǒng)的精確性受到已經(jīng)由學(xué)習(xí)過程分類的模式集的可用性(也就是受到訓(xùn)練集)的限制。假陽性標(biāo)記(來自CAD系統(tǒng)的輸出)是指向根本不是結(jié)核、而是傷痕、支氣管壁增厚、運(yùn)動假象、脈管分支等的那些標(biāo)記。其中CAD輔助結(jié)果表示所調(diào)查部位的底線事實(shí)(例如，結(jié)核)，具體而言臨床醫(yī)生將忽略他/她不研究的部位。本領(lǐng)域的技術(shù)人員應(yīng)該理解在診斷上下文中，“真陽性”經(jīng)常指的是真正惡性的檢測結(jié)核。然而，在CAD上下文中，即使標(biāo)記指向良性的或者鈣化的結(jié)核，所述標(biāo)記也被認(rèn)為是真陽性標(biāo)記。從而在CAD中不定義“真陰性”并且不能給出標(biāo)準(zhǔn)化的特異性。因此，CAD性能通常由靈敏度(檢出率)以及假陽性率或者每個(gè)CT研究的假陽性標(biāo)記限定(qualify)，因而，十分需要一種能輸出最小假陽性的CAD系統(tǒng)。
在完成自動檢測處理之后(有或者沒有標(biāo)記)，大多數(shù)CAD系統(tǒng)自動調(diào)用一個(gè)或多個(gè)工具以應(yīng)用于用戶和CAD檢測的損傷(部位)，從而例如消除冗余，實(shí)現(xiàn)解釋工具等等。所以，已知各種用于減少CAD中的假陽性的技術(shù)。例如，W.A.H.Mousa和M.A.U.Khan在Proc.of IEEE ICIP′2002中公開了題為“Lung Nodule Classification Utilizing SupportVector Machines”的他們的假陽性減少技術(shù)。K.Suzuki，S.G.ArmatoIII，F(xiàn).Li，S.Sone，K.Doi在“Massive training artificial neuralnetwork(MTANN)for reduction of false positives in computerizeddetection of lung nodules in low-dose computed tomography”Med.Physics 30(7)，July 2003，pp.1602-1617中描述了一種最小化假陽性的嘗試，以及Z.Ge，B.Sahiner，H.-P.Chan，L M.Hadjiski，J.Wei，N.Bogot，P.N.Cascade，E.A.Kazerooni，C.Zhou在“Computeraided detection of lung nodulesfalse positive reduction usinga 3D gradient field method”，Medical Imaging 2004Image Processing，pp.1076-1082中描述了一種最小化假陽性的嘗試。
FPR系統(tǒng)用于CAD后處理中以改善特異性。例如，R.Wiemker，et al.在他們的COMPUTER-AIDED SEGMENTATION OF PULMONARY NODULESAUTOMATED VASCULATURE CUTOFF IN THIN-AND THICK-SLICE CT，2003Elsevier Science BV中論述了最大化CAD算法的敏感性以在薄片CT中將肺結(jié)核同結(jié)核周圍的維管結(jié)構(gòu)有效地分離(以彌補(bǔ)部分體積的影響)。預(yù)定目標(biāo)是減少分類錯(cuò)誤。然而，Wiemker的CAD系統(tǒng)和方法不使用成熟的機(jī)器學(xué)習(xí)技術(shù)，其也不優(yōu)化FPR的特征提取和選擇方法。例如，雖然Mousa，et al.利用支持向量機(jī)將真實(shí)的結(jié)核同非結(jié)核(EP)相區(qū)分，但是他們的系統(tǒng)基于非常簡單化的特征提取單元，所述特征提取單元可能限制而不是改善了特異性。
另一個(gè)已知的問題是由CAD算法生成的假結(jié)核的數(shù)目遠(yuǎn)大于真實(shí)的結(jié)核(不平衡事例(case)問題)，因此降低了機(jī)器學(xué)習(xí)的性能。失衡訓(xùn)練事例問題指的是在機(jī)器學(xué)習(xí)中一類的事例數(shù)目明顯少于另一類中事例數(shù)目的情況。這種失衡將導(dǎo)致機(jī)器學(xué)習(xí)中意外動作是大家熟知的。機(jī)器學(xué)習(xí)組所采用的一種通用方法是人工再平衡。這樣做被稱作“向上取樣”(復(fù)制少數(shù)的事例)和“向下取樣”(忽略多數(shù)的事例)。Provost，F(xiàn).“Learning with Imbalanced Data Sets 101，”AAAI 2000。
在肺結(jié)核假陽性降低中失衡訓(xùn)練事例問題特別突出。然而，這是因?yàn)橛衅畹哪繕?biāo)(保存真結(jié)核并減少盡可能多的假結(jié)核)而不是追求整個(gè)分類的精確性(大多數(shù)其他機(jī)器學(xué)習(xí)算法的目標(biāo))。本發(fā)明描述了一種新的、特別適合于這種有偏差目標(biāo)處理的層化方法，并克服了不平衡事例數(shù)目問題。
因此本發(fā)明的目的在于提供一種基于CAD的系統(tǒng)和方法，所述系統(tǒng)和方法通過實(shí)施新的層化方法從而在特異性，也就是假陽性降低方面，或者在有偏差目標(biāo)處理方面得到明確改善，從而克服了本領(lǐng)域中公知的不平衡事例問題。結(jié)果改善了CAD處理中的特異性。
在此公開的創(chuàng)新的CAD和假陽性降低(FPR)系統(tǒng)因此包括機(jī)器學(xué)習(xí)子系統(tǒng)，該子系統(tǒng)用于CAD后處理。所述子系統(tǒng)包括特征提取器，用于選擇最相關(guān)特征的遺傳算法(genetic algorithm，GA)，以及支持向量機(jī)(SVM)。SVM根據(jù)保留全部真陽性識別這樣的約束條件，將由CAD檢測的候選部位限制為一些基本事實(shí)，例如，部位/體積到底是結(jié)核還是非結(jié)核。首先必須在訓(xùn)練數(shù)據(jù)集上訓(xùn)練CAD或者FPR系統(tǒng)，其包括導(dǎo)出最相關(guān)特征以供CAD后機(jī)器學(xué)習(xí)SVM使用，從而在改善CAD特異性的情況下進(jìn)行分類。

圖1是描繪利用支持向量機(jī)(SVM)在從計(jì)算層析成象(CT)醫(yī)學(xué)圖像進(jìn)行計(jì)算機(jī)輔助檢測(CAD)中實(shí)現(xiàn)假陽性降低(FPR)的系統(tǒng)的圖；圖2是描繪支持向量機(jī)的基本思想的圖；圖3是識別本發(fā)明的示例性處理的處理流程圖；圖4描繪了基于GA的特征子集選擇處理；以及圖5是突出顯示用于肺結(jié)核假陽性降低的層化方法的系統(tǒng)級圖；以及圖6提供了根據(jù)結(jié)核大小對所檢測的假結(jié)核的統(tǒng)計(jì)分析。
在圖像數(shù)據(jù)集合(例如，CT)中檢測肺結(jié)核的計(jì)算機(jī)輔助基礎(chǔ)目標(biāo)不是指派由機(jī)器進(jìn)行診斷，而是實(shí)現(xiàn)基于機(jī)器的算法或者方法來支持放射科醫(yī)師提出他的/她的判定，也就是指出可疑對象的位置以便提升總靈敏度(檢出率)。CAD或者其他臨床決策支持系統(tǒng)的主要問題是必然發(fā)生假的標(biāo)記(所謂的假陽性)和真陽性標(biāo)記會一同出現(xiàn)。
臨床研究表明測量的CAD檢出率，和測量的由有經(jīng)驗(yàn)的放射科醫(yī)師的檢出率不同，其取決于進(jìn)行讀取的放射科醫(yī)師的數(shù)目。參與讀取可疑損傷、微鈣化等的有經(jīng)驗(yàn)讀取者越多，則將會發(fā)現(xiàn)越多數(shù)量的損傷(在一個(gè)圖像內(nèi))。所述技術(shù)領(lǐng)域的技術(shù)人員應(yīng)當(dāng)注意到無論是由CAD還是由熟練的專業(yè)人員讀取，描繪絕對靈敏度的任何圖都可能很容易被誤解釋。也就是說，來自臨床研究的數(shù)據(jù)趨向于支持由輔助CAD軟件能夠更容易檢測到很多結(jié)核，而這些結(jié)核可能在不利用CAD系統(tǒng)的情況下為讀取的放射科醫(yī)師所忽略。本發(fā)明增加了特異性(更好的FPR)，同時(shí)保持了靈敏度(真實(shí)結(jié)核查找)。
包括假陽性降低處理的基于CAD的系統(tǒng)具有一項(xiàng)重要的工作，那就是識別醫(yī)學(xué)圖像數(shù)據(jù)中檢測到的“可對之行動的”結(jié)構(gòu)，其中所述系統(tǒng)諸如由Wiemker、Mousa等人所描繪的那些系統(tǒng)之類。一旦識別(也就是，被分割)，那么提取重要特征的全面集合并用于分類。本領(lǐng)域的技術(shù)人員將意識到計(jì)算機(jī)驅(qū)動決策支持或者CAD系統(tǒng)的準(zhǔn)確性受到用作訓(xùn)練集合的已知病理學(xué)的模式或部位集合的可用性的限制。即使是諸如由Wiemker，R.，T.Blaffert1所描述的現(xiàn)有技術(shù)CAD算法也可能導(dǎo)致大量的假陽性，這將導(dǎo)致相關(guān)風(fēng)險(xiǎn)和低用戶接受度的不必要介入。此外，當(dāng)前假陽性降低算法經(jīng)常被開發(fā)用于胸部放射圖像或者厚片CT掃描，未必能在來源于HRCT的數(shù)據(jù)上很好的運(yùn)行。
所以，創(chuàng)新的CAD/FPR系統(tǒng)和方法包括CAD子系統(tǒng)或者處理，用于識別候選部位，并分割所述部位。在訓(xùn)練期間，訓(xùn)練數(shù)據(jù)集合內(nèi)的所分割部位被傳遞至特征提取器或者傳遞至用于實(shí)現(xiàn)特征提取處理的處理器。本發(fā)明通過實(shí)施下文中詳細(xì)描述的層化方法解決了本領(lǐng)域稱之為有偏差目標(biāo)問題或者失衡數(shù)據(jù)集問題的問題。特征提取獲得由來自所檢測結(jié)構(gòu)的3D和2D特征組成的特征池。特征池被傳送至遺傳算法(geneticalgorithm，GA)子系統(tǒng)或者GA處理器(CAD后)，其處理特征池以實(shí)現(xiàn)最優(yōu)特征子集。最優(yōu)特征子集包括在創(chuàng)新CAD或者FPR系統(tǒng)內(nèi)提供對SVM而言足夠鑒別能力的特征，以便對候選部位/體積進(jìn)行分類。
此后，CAD處理“新的”圖像數(shù)據(jù)，對在非訓(xùn)練數(shù)據(jù)內(nèi)發(fā)現(xiàn)的候選部位進(jìn)行分割。從候選部位中提取(在訓(xùn)練期間所確定的)特征子集，以供“已訓(xùn)練”分類器(SVM)使用，從而判斷所述候選特征是否能夠在具有恰當(dāng)特異性的情況下進(jìn)行適當(dāng)?shù)姆诸?。?chuàng)新的FPR或者CAD系統(tǒng)能夠借此在精確、具有充足特異性的情況下在高分辯率和薄片CT(HRCT)中檢測小的肺結(jié)核，以及類似地在包括訓(xùn)練集、包括新的和新穎的基于3D特征的特征中檢測小的肺結(jié)核。例如，具有片厚＜＝1毫米的HRCT數(shù)據(jù)提供了允許檢測非常小結(jié)核的充足細(xì)節(jié)的數(shù)據(jù)。檢測更小結(jié)核的能力需要新的方法來可靠地檢測和鑒別候選部位，正如在下文的權(quán)利要求中所闡Options to improve the performance of the computer aided detection of lungnodules in thin-slice CT.2003，Philips Research LaboratoriesHamburg以及Wiemker，R.，T.Blaffert在他們的Computer Aided TumorVolumetry in CT Data，Invention disclosure.2002，Philips Research，Hamburg。述的那樣。
將參照圖1清楚描述本發(fā)明的FPR系統(tǒng)400的優(yōu)選實(shí)施方式。FPR系統(tǒng)400包括CAD子系統(tǒng)420和FPR子系統(tǒng)430，所述CAD子系統(tǒng)420用于識別并分割滿足特定標(biāo)準(zhǔn)的感興趣部位或體積。優(yōu)選地，CAD子系統(tǒng)420包括CAD處理器410，并還可以包括分割單元430，以對醫(yī)學(xué)圖像數(shù)據(jù)執(zhí)行低級處理和分割。本領(lǐng)域的技術(shù)人員將理解CAD系統(tǒng)必須執(zhí)行分割功能以描繪供進(jìn)一步分析的候選部位，不論所述分割功能被作為CAD子系統(tǒng)實(shí)現(xiàn)，還是作為獨(dú)立分割單元實(shí)現(xiàn)，以便支持CAD處理(諸如分割單元430)。CAD子系統(tǒng)420用于分割感興趣的候選部位或者體積，例如結(jié)核，無論是在訓(xùn)練數(shù)據(jù)上操作還是研究“新的”候選部位，并指示參數(shù)調(diào)節(jié)處理以實(shí)現(xiàn)穩(wěn)定分割。
在訓(xùn)練模式中，特征提取十分重要，這是因?yàn)樗艽笥绊懥薋PR系統(tǒng)的總體性能。不正確提取整個(gè)特征集合或者池的情況下，GA處理器450就不能夠精確確定具有最好鑒別能力和最小尺寸的最優(yōu)特征子集(以便避免過度擬合(over-fitting)并增加概括能力)。由包括FPR子系統(tǒng)430的特征提取單元440提取或者生成特征池。特征池然后由遺傳算法處理器450進(jìn)行操作，來識別特征池的“最優(yōu)”子集。當(dāng)利用特征子集來操作非訓(xùn)練數(shù)據(jù)時(shí)，GA處理后面的意圖是由已訓(xùn)練的CAD系統(tǒng)將特異性最大化為基本事實(shí)，就如由SVM460推算的那樣。也就是，GA處理器450生成或者識別特征子集，其中在訓(xùn)練之后當(dāng)由SVM利用所述特征子集時(shí)增加所分割非訓(xùn)練數(shù)據(jù)中識別部位的特異性。關(guān)于對特征的選擇和數(shù)目這二者來確定GA識別的特征子集(僅僅在訓(xùn)練期間)，其中所述特征應(yīng)當(dāng)被SVM以充足特異性來利用從而在非訓(xùn)練數(shù)據(jù)上使用時(shí)最小化假陽性識別。也就是說，一旦訓(xùn)練，那么當(dāng)系統(tǒng)在非訓(xùn)練數(shù)據(jù)上操作時(shí)CAD系統(tǒng)就不再使用GA。
基于GA的特征選擇處理由共同擁有、共同未決的申請編號為US040120(ID公開#-779446)的Philips申請所披露，將其內(nèi)容引入于此以供參考。GA的特征子集的選擇通過創(chuàng)建大量由多個(gè)“基因”組成的“染色體”開始。每個(gè)基因表示一個(gè)所選的特征。由染色體所表示的特征集用來在訓(xùn)練數(shù)據(jù)上訓(xùn)練SVM。染色體的適合度是由所產(chǎn)生的SVM執(zhí)行得多好來評估的。在本發(fā)明中，存在三個(gè)使用的適合度功能靈敏度、特異性和染色體中所包括的特征數(shù)。三個(gè)適合度功能被排序以不同的優(yōu)先級；換句話說，靈敏度具有第一優(yōu)先級，特異性具有第二優(yōu)先級，特征數(shù)具有第三優(yōu)先級。這被稱作分層的適合度功能。該處理開始時(shí)，通過隨機(jī)選擇特征以形成染色體的方式來生成染色體總數(shù)。所述算法(也就是GA)然后迭代搜索能很好執(zhí)行(具有高適合度)的那些染色體。
每當(dāng)生成時(shí)，GA評估總體中每個(gè)染色體的適合度，并通過兩個(gè)主進(jìn)化操作-變異和交叉來從當(dāng)前染色體中創(chuàng)建新的染色體?！昂玫摹比旧w中的基因很可能被保持給下一代，而具有較差性能的基因很可能被丟棄。最后通過該適者生存的處理來查找到最佳解(也就是，許多特征)。通過知曉包括最優(yōu)數(shù)目特征的最優(yōu)特征子集來實(shí)現(xiàn)假陽性降低(FPR)，所述假陽性降低將降低誤分類事例的總數(shù)。在確定特征子集之后，其被用于訓(xùn)練SVM。
如上所述的，失衡訓(xùn)練事例問題指的是在機(jī)器學(xué)習(xí)中一個(gè)分類中的事例數(shù)目明顯少于另一個(gè)分類中的事例數(shù)目的情況。這種失衡將導(dǎo)致機(jī)器學(xué)習(xí)的意外動作是公知的。機(jī)器學(xué)習(xí)組所采用的一種通用方法是利用“向上抽樣”(復(fù)制來自少數(shù)的事例)和“向下抽樣”(忽略來自多數(shù)的事例)來人工地再平衡它們。Provost，F(xiàn).“Learning with imbalance DataSets 101，”AAAI 2000。在此講授和要求的新穎的層化方法特別適合于解決有偏差目標(biāo)方法并克服不平衡事例數(shù)目問題。
訓(xùn)練之后，CAD子系統(tǒng)420通過生成二元或者三元圖像的方式來從背景中描繪出候選結(jié)核(包括在非訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)的非結(jié)核)，在所述二元或者三元圖像中標(biāo)示出哪里是結(jié)核部位、哪里是背景部分、以及哪里是肺壁(或者“剪切”)部位。一旦收到灰度級和所標(biāo)示的候選部位或者體積，特征提取器440就計(jì)算(提取)諸如2D和3D形狀特征、基于直方圖的特征等之類的任何相關(guān)特征來作為特征池。所述特征被提供給SVM，所述SVM已經(jīng)在從訓(xùn)練數(shù)據(jù)提取的最佳特征子集上得到訓(xùn)練。
本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解SVM將“原始”特征空間映射到一些更高維的特征空間，其中如圖2所示訓(xùn)練集被超平面所分割?；赟VM的分類器具有幾個(gè)內(nèi)部參數(shù)，其可能影響它的性能。根據(jù)經(jīng)驗(yàn)優(yōu)化這種參數(shù)以實(shí)現(xiàn)可能達(dá)到最好的總準(zhǔn)確度。此外，在供SVM使用以前標(biāo)準(zhǔn)化特征值，以避免具有大的數(shù)值范圍的特征比具有較小數(shù)值范圍的特征有優(yōu)勢，這是在此講授的有創(chuàng)造性的系統(tǒng)和處理的焦點(diǎn)。標(biāo)準(zhǔn)化特征價(jià)也使得計(jì)算更加簡單。并且因?yàn)楹诵闹低ǔＨQ于特征向量的內(nèi)積，所以大的屬性值可能導(dǎo)致數(shù)值問題。
范圍內(nèi)的標(biāo)度(scale)如下x′＝(x-mi)/(Mi-mi)，
其中x′是“標(biāo)度”值；x是原始值；Mi是最大特征值；以及mi是最小特征值。
利用包括其病理學(xué)已知的訓(xùn)練數(shù)據(jù)或者部位的肺結(jié)核數(shù)據(jù)集、利用被稱作“留一法(leave-one-out)和k折驗(yàn)證(k-fold validation)”來驗(yàn)證創(chuàng)新的FPR系統(tǒng)。實(shí)現(xiàn)驗(yàn)證，創(chuàng)造的FPR系統(tǒng)顯示為減少了大多數(shù)假結(jié)核，同時(shí)幾乎保留所有幀結(jié)核。
圖3是描繪根據(jù)本發(fā)明可以實(shí)現(xiàn)的處理的流程圖。在圖3中，方框500表示在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器，其中對所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集而言關(guān)于特定感興趣部位或體積的基本事實(shí)是已知的。所述步驟可以包括在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器，其中選擇所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集以包括大量真假結(jié)核，并且自動進(jìn)行分割。從訓(xùn)練數(shù)據(jù)內(nèi)的每個(gè)所分割部位和體積中識別/提取特征池，并利用遺傳算法處理器來處理所述特征池以識別最優(yōu)特征子集，根據(jù)所述最優(yōu)特征子集來訓(xùn)練支持向量機(jī)。因此實(shí)現(xiàn)了用于降低肺結(jié)核假陽性的層化方法。
方框510表示這樣的步驟其中如果訓(xùn)練數(shù)據(jù)包括失衡數(shù)目的真陽性和假陽性，那么實(shí)施層化處理。方框520表示訓(xùn)練后步驟，其在新的或者非訓(xùn)練的醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測關(guān)于基本事實(shí)(例如結(jié)核或者非結(jié)核)作為識別候選者的部位或者體積。方框530表示分割候選部位的步驟，方框540表示處理所分割的候選部位的步驟，以便提取那些特征，也就是由GA確定為對恰當(dāng)分類而言最相關(guān)的特征的特征子集。然后，如塊550所示，支持向量機(jī)在改善特異性并保持靈敏度的情況下識別非訓(xùn)練候選部位的真陽性識別。
就那件事而論，如方框510所示，在圖5中圖示了所述方法的詳細(xì)說明，其中步驟1顯示了根據(jù)結(jié)核尺寸將假結(jié)核集分成三個(gè)子集。如在圖6內(nèi)被標(biāo)識為“事例數(shù)目”的表格所示的統(tǒng)計(jì)分析中顯示了事例數(shù)目分布。
在步驟2，機(jī)器學(xué)習(xí)使用最大假結(jié)核(例如＞4mm)和所有真結(jié)核。選擇最大假結(jié)核的首要原因是其事例數(shù)目與真結(jié)核相當(dāng)。次要原因是從最大假結(jié)核中提取的圖象特征被認(rèn)為是更易于區(qū)分。我們使用的特定機(jī)器學(xué)習(xí)技術(shù)是支持向量機(jī)(SVM)。
在步驟3中，根據(jù)機(jī)器學(xué)習(xí)生成分類器。因?yàn)檫@兩個(gè)分類中的事例數(shù)目是相當(dāng)?shù)?，所以分類器能夠在施加不同的交叉?yàn)證方法(cross-validation methods)之后保持幾乎所有的真結(jié)核并能夠減少接近90％的大假結(jié)核。
在步驟4中，在步驟3中提到的分類器被用于保持較小的假結(jié)核，并且結(jié)果顯示移除了大多數(shù)的假結(jié)核。整體而言，層化處理經(jīng)證明是一種克服不平衡事例問題的好方法。對有偏差目標(biāo)問題而言，因?yàn)槠涫紫却_保保持盡可能多的真結(jié)核(第一優(yōu)先級)，然后再減少假結(jié)核(第二優(yōu)先級)。因此，該方法不同于其他解決失衡數(shù)據(jù)集問題的方法，所述其他方法設(shè)法提升整體分類的精確性，也就是在雙方向上減少錯(cuò)誤分類的事例上相同的優(yōu)先級。其特別用于向肺結(jié)核假陽性降低這樣的偏見目標(biāo)問題。
值得注意的是執(zhí)行創(chuàng)新的方法所需的、或者驅(qū)動創(chuàng)新的FPR分類器的軟件可以包括用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的有序列表。因而，所述軟件可以被具體化為任何計(jì)算機(jī)可讀取介質(zhì)，所述計(jì)算機(jī)可讀取介質(zhì)供指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或者與指令執(zhí)行系統(tǒng)、裝置或設(shè)備結(jié)合起來使用，諸如基于計(jì)算機(jī)的系統(tǒng)、包含處理器的系統(tǒng)、或者其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備中取出指令并執(zhí)行所述指令的系統(tǒng)之類。在本文檔上下文中，“計(jì)算機(jī)可讀取介質(zhì)”可以是包括、存儲、通信、傳遞或傳送程序以供指令執(zhí)行系統(tǒng)、裝置、或設(shè)備使用或者與指令執(zhí)行系統(tǒng)、裝置、或設(shè)備結(jié)合起來使用的任何裝置。
計(jì)算機(jī)可讀取介質(zhì)例如可以是、但是不限于是電、磁、光、電磁、紅外線或半導(dǎo)體系統(tǒng)、裝置、設(shè)備或者傳播介質(zhì)。計(jì)算機(jī)可讀取介質(zhì)的更具體實(shí)例(非窮舉列表)將包括下列具有一個(gè)或多個(gè)線路的電連接(電)，便攜式計(jì)算機(jī)磁盤(磁性)，隨機(jī)存取存儲器(RAM)(磁性)，只讀存儲器(ROM)(磁性)，可擦可編程序只讀存儲器(EPROM)或者閃速存儲器)(磁性)，光纖(光)以及便攜式光盤只讀存儲器(CDROM)(光)。應(yīng)當(dāng)注意計(jì)算機(jī)可讀取介質(zhì)甚至可以是紙張或者能在其上打印程序的另外的適當(dāng)介質(zhì)，所述程序可以被電捕獲，例如經(jīng)由對該紙張或其他介質(zhì)的光學(xué)掃描、然后編譯、解釋或者相反在必要時(shí)以適當(dāng)?shù)姆绞竭M(jìn)行處理，然后存儲在計(jì)算機(jī)存儲器中。
應(yīng)當(dāng)強(qiáng)調(diào)的是本發(fā)明的上述實(shí)施方式，尤其是任何“優(yōu)選”實(shí)施方式(一個(gè)或多個(gè))僅僅是實(shí)施的可能實(shí)例，其僅僅是闡述以清楚地理解本發(fā)明的原理。此外，在基本上不脫離本發(fā)明的精神和原理的情況下可以對本發(fā)明的上述實(shí)施方式做出許多變化和修改。所有這種修改和變化被認(rèn)為是受到當(dāng)前說明書的教導(dǎo)，包含在本發(fā)明的范圍內(nèi)，并受到所附權(quán)利要求的保護(hù)。
權(quán)利要求
1.一種用于在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)計(jì)算機(jī)輔助檢測(CAD)感興趣部位或者體積(“部位”)的方法，包括CAD處理以檢測并描繪候選部位，以及在訓(xùn)練階段中的CAD后機(jī)器學(xué)習(xí)以最大化特異性并減少在處理非訓(xùn)練數(shù)據(jù)之后所報(bào)告的假陽性數(shù)目，所述方法包括下述步驟在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集上訓(xùn)練分類器，其中選擇所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集以包括大量對于基本事實(shí)已知為真和已知為假的部位，利用所述CAD處理識別并分割所述部位，提取特征以創(chuàng)建特征池來限定所述部位，向特征池應(yīng)用遺傳算法處理器以確定供支持向量機(jī)(SVM)使用的最小特征子集，以便利用改善的特異性在非訓(xùn)練數(shù)據(jù)內(nèi)識別候選部位，其中如果所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)失衡，則對所述失衡數(shù)據(jù)執(zhí)行層化處理；在訓(xùn)練之后，在非訓(xùn)練數(shù)據(jù)內(nèi)檢測候選部位；分割在非訓(xùn)練數(shù)據(jù)內(nèi)識別的候選部位；提取與每個(gè)所分割候選部位有關(guān)的候選特征集；以及依照訓(xùn)練過程、根據(jù)具有實(shí)際特異性的候選特征集將候選部位映射到基本事實(shí)空間中。
2.根據(jù)權(quán)利要求1所述的方法，其中所述訓(xùn)練步驟還包括對訓(xùn)練數(shù)據(jù)中的每一個(gè)候選部位，確定在訓(xùn)練期間由GA優(yōu)化的特征子集的尺寸，以及包括所述子集的實(shí)際特征。
3.根據(jù)權(quán)利要求1所述的方法，其中所述訓(xùn)練步驟還包括將在訓(xùn)練數(shù)據(jù)內(nèi)的每個(gè)部位內(nèi)所識別的特征池定義為染色體，其中每個(gè)基因表示一個(gè)特征，并且其中遺傳算法最初通過隨機(jī)選擇特征來繁殖染色體，以及迭代搜索具有較高適合度的那些染色體，其中每次生成都重復(fù)評估，并利用變異和交叉，在訓(xùn)練階段期間生成新的且更適合的染色體。
4.根據(jù)權(quán)利要求3所述的方法，其中所述確定步驟包括在兩個(gè)階段應(yīng)用GA，包括a)關(guān)于其特征集和特征數(shù)識別每個(gè)染色體；以及b)對于每個(gè)染色體，分析所識別特征集和所識別的特征數(shù)，以便根據(jù)不同染色體的出現(xiàn)次數(shù)和平均誤差數(shù)目來確定特征的最優(yōu)尺寸。
5.根據(jù)權(quán)利要求1所述的方法，其中所述訓(xùn)練步驟包括利用過濾掩碼來識別壁像素。
6.根據(jù)權(quán)利要求1所述的方法，其中如果所述數(shù)據(jù)是失衡的而使得假結(jié)核數(shù)目明顯多于真結(jié)核數(shù)目，那么所述層化處理根據(jù)一個(gè)標(biāo)準(zhǔn)選擇大量假結(jié)核從而使假結(jié)核數(shù)目和真結(jié)核數(shù)目相互平衡。
7.一種包括計(jì)算機(jī)可讀指令集的計(jì)算機(jī)可讀取介質(zhì)，當(dāng)所述計(jì)算機(jī)可讀指令被下載到通用計(jì)算機(jī)上時(shí)就執(zhí)行如在權(quán)利要求1中所闡述的方法。
8.一種用于在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測和識別感興趣部位和/或體積(“部位”)的系統(tǒng)，包括CAD子系統(tǒng)和假陽性降低(FPR)子系統(tǒng)，用于通過改善的特異性將部位映射到兩種基本事實(shí)狀態(tài)之一，借此最小化由系統(tǒng)所報(bào)告的假陽性的數(shù)目，包括CAD子系統(tǒng)，用于識別和描繪在圖像數(shù)據(jù)內(nèi)檢測到的感興趣部位；與CAD子系統(tǒng)通信的假陽性降低子系統(tǒng)，其首先被在訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練，隨后通過改善的特異性對非訓(xùn)練數(shù)據(jù)內(nèi)的候選部位進(jìn)行操作，包括特征提取器，用于提取與每個(gè)CAD描繪候選部位相對應(yīng)的特征池；與特征提取器通信的遺傳算法，以便從用于訓(xùn)練的CAD描繪部位的特征池中確定最優(yōu)特征子集；以及與特征提取器和GA通信的支持向量機(jī)(SVM)，用于在訓(xùn)練后根據(jù)最優(yōu)特征子集映射在非訓(xùn)練數(shù)據(jù)內(nèi)檢測到的每個(gè)CAD描繪候選部位；其中所述系統(tǒng)通過下述方式被在包括具有已知基本事實(shí)的候選部位的圖像數(shù)據(jù)上訓(xùn)練從每個(gè)所分割部位中提取特征池，利用GA識別所提取特征的最優(yōu)子集，以便所述系統(tǒng)在對非訓(xùn)練數(shù)據(jù)執(zhí)行操作期間顯示充足的鑒別能力以通過改善的特異性映射候選部位，以及其中在訓(xùn)練集中發(fā)現(xiàn)假陽性數(shù)目超過真陽性總數(shù)的情況，則層化子系統(tǒng)重新整理訓(xùn)練數(shù)據(jù)以便在訓(xùn)練中存在近似相等數(shù)目的真陽性和假陽性。
9.根據(jù)權(quán)利要求8所述的醫(yī)學(xué)圖像分類系統(tǒng)，其中所述CAD子系統(tǒng)還包括分割子系統(tǒng)，所述分割子系統(tǒng)在訓(xùn)練期間提供讀者輸入以更好地描繪用于訓(xùn)練的部位。
10.根據(jù)權(quán)利要求8所述的醫(yī)學(xué)圖像分類系統(tǒng)，其中GA在訓(xùn)練以及對非訓(xùn)練數(shù)據(jù)操作這二者中都對分層適合度范例操作。
11.一種用于分類在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測到的對象以使得在假陽性分類中標(biāo)記減少的方法，包括下述步驟CAD處理以檢測和描繪出現(xiàn)在醫(yī)學(xué)圖像數(shù)據(jù)中的對象；CAD后處理以生成具有充足鑒別能力的特征集，以便所描繪對象可以通過最大的特異性被分類；其中在訓(xùn)練階段期間，CAD處理已知訓(xùn)練數(shù)據(jù)集以便分割訓(xùn)練數(shù)據(jù)內(nèi)的對象，從所分割對象中提取的特征池/為所分割對象計(jì)算的特征池，以及機(jī)器學(xué)習(xí)優(yōu)化來自特征池的特征子集，其中如果訓(xùn)練集的真陽性和假陽性的部位數(shù)目失衡，那么依照層化處理執(zhí)行訓(xùn)練以便利用和失衡訓(xùn)練數(shù)據(jù)不同的平衡練數(shù)據(jù)來進(jìn)行訓(xùn)練，并且其中在訓(xùn)練之后，由CAD處理描繪的候選對象被執(zhí)行CAD后處理，包括對象特征提取，從而考慮到CAD后機(jī)器學(xué)習(xí)而通過高特異性分類對象。
12.一種用于訓(xùn)練分類器的方法，所述分類器對在醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測到的形態(tài)學(xué)上感興趣部位進(jìn)行分類，其中所述訓(xùn)練包括根據(jù)層化方法選擇數(shù)據(jù)以訓(xùn)練分類器，所述層化方法包括根據(jù)部位尺寸將假陽性部位池分隔到N個(gè)子集中，以便第N子集包括最大部位子集；利用第N子集和所有真實(shí)部位執(zhí)行機(jī)器學(xué)習(xí)處理；根據(jù)所述機(jī)器學(xué)習(xí)生成分類器；以及向剩余的N-1個(gè)子集中的每一個(gè)應(yīng)用該分類器。
全文摘要
一種用于對在HRCT醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測的感興趣部位進(jìn)行計(jì)算機(jī)輔助探測(CAD)并分類的方法。所述方法包括用于對識別部位/體積為結(jié)核或者非結(jié)核的的特異性和靈敏度進(jìn)行最大化的CAD后機(jī)器學(xué)習(xí)技術(shù)。該部位被CAD處理識別，并被自動分割。從每個(gè)所分割部位中識別并提取特征池，并利用遺傳算法處理特征池以識別最優(yōu)特征子集，其中數(shù)據(jù)層化方法被用于平衡不同類別中的事例數(shù)目。由GA確定的子集被用于訓(xùn)練支持向量機(jī)，從而對在非訓(xùn)練數(shù)據(jù)內(nèi)發(fā)現(xiàn)的候選部位/體積進(jìn)行分類。
文檔編號G06T7/00GK101061491SQ200580039688
公開日2007年10月24日申請日期2005年11月21日優(yōu)先權(quán)日2004年11月19日
發(fā)明者L·趙, K·P·李, L·博羅茨基申請人:皇家飛利浦電子股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Ｌ.趙;Ｋ.Ｐ.李;Ｌ.博羅茨基
技術(shù)所有人：皇家飛利浦電子股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于在計(jì)算機(jī)輔助肺結(jié)核假陽性降低中克服不平衡事例數(shù)目的層化方法