專利名稱:利用支持向量機(jī)(svm)在計(jì)算機(jī)輔助檢測(cè)(cad)中進(jìn)行假陽(yáng)性降低的系統(tǒng)和方法
本申請(qǐng)/專利來(lái)源于所提名申請(qǐng)人于2004年11月19日提交的申請(qǐng)?zhí)枮?0/629,751的美國(guó)臨時(shí)專利申請(qǐng)。本申請(qǐng)與共同擁有的編號(hào)為PHUS040499、PHUS040500、以及PHUS040501的共同未決Philips申請(qǐng)有關(guān)。
本發(fā)明涉及計(jì)算機(jī)輔助檢測(cè)系統(tǒng)和方法。本發(fā)明更進(jìn)一步涉及用于利用支持向量機(jī)(SVMs)在從高分辨率薄片計(jì)算層析成象(HRCT)的圖像進(jìn)行對(duì)肺結(jié)核的計(jì)算機(jī)輔助檢測(cè)(CAD)中進(jìn)行假陽(yáng)性降低以實(shí)現(xiàn)CAD后機(jī)器學(xué)習(xí)的系統(tǒng)和方法。
當(dāng)前與計(jì)算機(jī)有關(guān)的系統(tǒng)的速度和復(fù)雜性支持開發(fā)更快速以及更完善的醫(yī)學(xué)成像系統(tǒng)。由于處理而產(chǎn)生的數(shù)據(jù)量以及處理量的相應(yīng)增大導(dǎo)致創(chuàng)建很多應(yīng)用程序以自動(dòng)分析醫(yī)學(xué)圖像數(shù)據(jù)。也就是說,開發(fā)了各種數(shù)據(jù)處理軟件和系統(tǒng)以幫助內(nèi)科醫(yī)師、臨床醫(yī)師、放射科醫(yī)師等等評(píng)估醫(yī)學(xué)圖像以對(duì)醫(yī)學(xué)圖像進(jìn)行識(shí)別和/或診斷及評(píng)估。例如,已經(jīng)開發(fā)了計(jì)算機(jī)輔助檢測(cè)(CAD)算法和系統(tǒng)以從多片CT(multi-slice CT,MSCT)掃描中自動(dòng)地識(shí)別出可疑的損傷??紤]到它的準(zhǔn)確地說明解剖結(jié)構(gòu)的尺寸、形狀和位置以及異?;驌p傷的能力,CT或者計(jì)算層析成象系統(tǒng)是一般用于通過成像來(lái)診斷疾病的成像模態(tài)。
CAD系統(tǒng)自動(dòng)地在形態(tài)學(xué)上檢測(cè)(識(shí)別)所關(guān)心部位(interestingregions)(例如,損傷)或可能是臨床相關(guān)的其他結(jié)構(gòu)上可檢測(cè)的狀態(tài)。當(dāng)再現(xiàn)并顯示醫(yī)學(xué)圖像時(shí),CAD系統(tǒng)典型地標(biāo)記或識(shí)別所研究的部位。標(biāo)記是為了引起對(duì)所標(biāo)記的可疑部位的注意,并且更進(jìn)一步提供對(duì)損傷(所關(guān)心部位)的分類或表征。也就是說,CAD(和/或CADx)系統(tǒng)可以識(shí)別出胸部研究中的微鈣化(microcalcifications)或者M(jìn)SCT中的結(jié)核為惡性的還是良性的。CAD系統(tǒng)結(jié)合了放射科醫(yī)師的專業(yè)知識(shí),并且基本上提供了與在醫(yī)學(xué)圖像數(shù)據(jù)中檢測(cè)異常有關(guān)的第二種意見,并且可以再現(xiàn)診斷建議。通過支持對(duì)懷疑為癌癥的損傷的早期檢測(cè)和分類,CAD系統(tǒng)允許較早地介入,理論上會(huì)為病人產(chǎn)生較好的預(yù)后。
CAD及其他機(jī)器學(xué)習(xí)系統(tǒng)的大多數(shù)現(xiàn)有工作都遵循有監(jiān)督學(xué)習(xí)的相同方法。CAD系統(tǒng)從利用已知的基礎(chǔ)事實(shí)(ground truth)來(lái)收集數(shù)據(jù)開始,并在訓(xùn)練數(shù)據(jù)上被“訓(xùn)練”以識(shí)別出被認(rèn)為是有足夠的鑒別能力以區(qū)分基礎(chǔ)事實(shí)(例如惡性的或良性的)的一特征集。對(duì)所屬領(lǐng)域技術(shù)人員的挑戰(zhàn)包括提取便于對(duì)類型進(jìn)行鑒別的特征,理論上找到特征池內(nèi)最相關(guān)的特征。CAD系統(tǒng)可以組合異質(zhì)的信息(例如基于圖像的特征與病人數(shù)據(jù)),或者可以發(fā)現(xiàn)例如基于相似性度量的方法。技術(shù)人員應(yīng)當(dāng)理解,任何計(jì)算機(jī)驅(qū)動(dòng)決策支持系統(tǒng)的準(zhǔn)確性都受到已經(jīng)被分類成學(xué)習(xí)過程的模式集合的可用性(即,受訓(xùn)練集合)的限制。
如果不確定界(indefinite boundary)是CAD后處理的基礎(chǔ),那么基于不確定界描述的結(jié)果可能同樣是不確定的。也就是說,診斷掃描處理中所使用的任何計(jì)算機(jī)學(xué)習(xí)系統(tǒng)的輸出都是建議。因此利用提供給臨床醫(yī)師的每個(gè)建議作為可能的候選惡性腫瘤,臨床醫(yī)師不得不進(jìn)行研究。也就是說,CAD輔助結(jié)果把底線事實(shí)(例如,真陽(yáng)性)表示為對(duì)所研究部位的建議診斷,臨床醫(yī)師會(huì)疏忽的是他/她不會(huì)更加詳細(xì)地研究該部位。所屬領(lǐng)域技術(shù)人員應(yīng)該理解,在醫(yī)學(xué)上下文中“真陽(yáng)性”常常指的是所檢測(cè)的真正惡性的結(jié)核,在CAD上下文中,即使標(biāo)記指示良性或鈣化結(jié)核,也把標(biāo)記認(rèn)為是真陽(yáng)性標(biāo)記。于是沒有定義“真陰性”,并且在CAD中不能給出標(biāo)準(zhǔn)化的特異性。假陽(yáng)性標(biāo)記是根本不指示結(jié)核(而是在傷痕、支氣管壁變厚、運(yùn)動(dòng)偽假象、脈管分支等等)的那些標(biāo)記。因此,CAD性能典型地由敏感性(檢出率)和假陽(yáng)性率(每個(gè)CT研究中假陽(yáng)性標(biāo)記)來(lái)限定(qualify),因而技術(shù)人員十分需要的是使假陽(yáng)性減到最少。完成自動(dòng)檢測(cè)處理(有或沒有標(biāo)記)之后,大多數(shù)CAD系統(tǒng)會(huì)自動(dòng)地調(diào)用一個(gè)或多個(gè)截取工具用于用戶和CAD檢測(cè)的損傷(部位)以便除去多余信息、實(shí)現(xiàn)解釋工具等等。為此,已知各種技術(shù)來(lái)降低CAD和診斷中的假陽(yáng)性。例如,W.A.H.Mousa和M.A.U.Khan在Proc.of IEEE ICIP′2002中公開了命名為“Lung Nodule Classification Utilizing Support Vector Machines”的他們的技術(shù)。K.Suzuki,S.G.Amato III,F(xiàn).Li,S.Sone,K.Doi在“Massive training artificial neural network(MTANN)for reduction offalse positives in computerized detection of lung nodules in low-dosecomputed tomography”,Med.Physics 30(7),July 2003,pp.1602-1617中以及Z.Ge,B.Sahiner,H.-P.Chan,L.M.Hadjiski,J.Wei,N.Bogot,P.N.Cascade,E.A.Kazerooni,C.Zhou,“Computer aided detection oflung nodulesfalse positive reduction using a 3D gradient field method”,Medical Imaging 2004Image Processing,pp.1076-1082描述了一種最小化假陽(yáng)性檢測(cè)的嘗試。
上述FPR系統(tǒng)的一部分嵌入于CAD算法中,而另一部分用作處理后步驟以提高CAD算法的特異性。例如,R.Wiemker等在他們的COMPUTER-AIDEDSEGMENTATION OF PULMONARY NODULESAUTOMATED VASCUALTURE CUTOFF INTHIN-AND THICK-SLICE CT,2003 Elsevier Science BV中討論了最大化CAD算法的敏感性以在薄片CT中把肺結(jié)核從結(jié)核的周圍脈管系統(tǒng)中有效地分離(以彌補(bǔ)部分容積影響),致力于降低分類錯(cuò)誤。然而,Weimker FPR系統(tǒng)和方法像大多數(shù)已知FPR系統(tǒng)和方法一樣常常沒有使用完善的機(jī)器學(xué)習(xí)技術(shù),或者沒有優(yōu)化它們的特征提取和選擇方法。例如,雖然Mousa等利用支持向量機(jī)來(lái)把真正的肺結(jié)核從非結(jié)核(EP)中區(qū)分出來(lái),但是他們的系統(tǒng)基于可能限制特異性的非常簡(jiǎn)單化的特征提取單元。
因此,本發(fā)明的目的就是提供一種假陽(yáng)性降低系統(tǒng),其可以準(zhǔn)確且可靠地執(zhí)行對(duì)醫(yī)學(xué)圖像數(shù)據(jù)的放射性重要部分的自動(dòng)檢測(cè),以實(shí)現(xiàn)很好的特異性和敏感性(即,最少的假陽(yáng)性)那樣的方式來(lái)對(duì)它們進(jìn)行分類。
本發(fā)明的另一個(gè)目的是實(shí)現(xiàn)一種FPR系統(tǒng),其包括用于在形態(tài)學(xué)上識(shí)別和描繪醫(yī)學(xué)圖像內(nèi)的相關(guān)部位(“候選部位”)的CAD子系統(tǒng),以及機(jī)器學(xué)習(xí)子系統(tǒng),其包括特征提取器、遺傳算法(GA)和支持向量機(jī)(SVM),以把機(jī)器學(xué)習(xí)應(yīng)用到CAD子系統(tǒng)所描繪的候選部位上并且把它們分類成結(jié)核和非結(jié)核,借此在保留所有真陽(yáng)性的限制條件下除去盡可能多的假陽(yáng)性。
本發(fā)明的又一個(gè)目的是包括用于通過足夠的特異性和敏感性來(lái)檢測(cè)、提取和分類醫(yī)學(xué)圖像數(shù)據(jù)中的候選結(jié)核的CAD后機(jī)器學(xué)習(xí)技術(shù)以實(shí)際上除去假陽(yáng)性分類。首先由CAD處理來(lái)識(shí)別候選結(jié)核,由GA提取和處理結(jié)核特征以識(shí)別出由分類器處理來(lái)使用的理想特征和特征的數(shù)目,所述分類器處理利用足夠的敏感性和特異性來(lái)把所有結(jié)核識(shí)別成惡性或者良性以有效地降低被錯(cuò)誤識(shí)別的結(jié)核的數(shù)目,這由CAD后確定的特征子集的機(jī)器學(xué)習(xí)來(lái)支持。
在一個(gè)實(shí)施例中,一種用于假陽(yáng)性降低(FPR)的方法被實(shí)現(xiàn)成四個(gè)主要步驟的序列1)圖像分割(通過CAD),2)從分割數(shù)據(jù)中進(jìn)行特征提取,3)由GA、后期CAD進(jìn)行特征子集合優(yōu)化,以及4)由SVM基于優(yōu)化的特征子集合進(jìn)行分類,結(jié)果產(chǎn)生可靠的敏感性和特異性、以及最低的假陽(yáng)性。在這方面,一種此處定義的創(chuàng)新FPR系統(tǒng)可包括CAD子系統(tǒng)。如果是這樣的話,該子系統(tǒng)包括具有推薦器子系統(tǒng)的新穎的分割器,以識(shí)別出被分析部位的“最佳”分割。在與本申請(qǐng)一道同時(shí)提交的共同擁有的共同未決的[申請(qǐng)?zhí)枮?0/的美國(guó)申請(qǐng)]Philips申請(qǐng)編號(hào)為US040505的申請(qǐng)中可以發(fā)現(xiàn)并請(qǐng)求保護(hù)了本發(fā)明上的這種變化。
雖然創(chuàng)新系統(tǒng)和方法被稱作在CT或高分辨率CT掃描數(shù)據(jù)(HRCT)上進(jìn)行操作,但是所屬領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解該描述不意味著把本發(fā)明的范圍限制在CT或HRCT數(shù)據(jù)上的操作,而是可以在任何所獲得的圖像數(shù)據(jù)上進(jìn)行操作,其僅僅由在此附上的權(quán)利要求的范圍來(lái)限定。
圖1是描述一種利用支持向量機(jī)(SVM)在計(jì)算機(jī)輔助檢測(cè)(CAD)中從計(jì)算機(jī)斷層(CT)醫(yī)學(xué)圖像中降低假陽(yáng)性(FPR)的系統(tǒng)的示意圖;圖2是描述支持向量機(jī)的基本思想的示意圖;以及圖3是識(shí)別本發(fā)明的示范性處理的處理流程圖。
在圖像數(shù)據(jù)集合(例如,CT)中檢測(cè)肺結(jié)核的過程中計(jì)算機(jī)輔助(CAD和CADx)的根本目標(biāo)不是為了把診斷指派給機(jī)器,而是實(shí)現(xiàn)一種基于機(jī)器的算法或方法以支持放射科醫(yī)師提出他的/她的判斷,即,指出可疑對(duì)象的位置以便提高總靈敏度(檢出率)。利用CAD或其他臨床決策支持系統(tǒng)的主要問題是不可避免的假標(biāo)記(所謂的假陽(yáng)性)會(huì)與真陽(yáng)性標(biāo)記一起出現(xiàn)。臨床研究的經(jīng)驗(yàn)顯示出由CAD系統(tǒng)以及由放射科醫(yī)師自己所得到的測(cè)量檢出率明顯地取決于共同讀取的放射科醫(yī)師的數(shù)目越多的共同讀取者參與,就會(huì)不可避免發(fā)現(xiàn)越多的可疑損傷,因而每個(gè)參與的放射科醫(yī)師和CAD系統(tǒng)的個(gè)人敏感性就會(huì)減小。但是即使必須小心地鑒別絕對(duì)敏感性圖形,所有臨床研究仍在這一點(diǎn)上意見相同,即很多結(jié)核已經(jīng)被輔助CAD軟件獨(dú)自地檢測(cè)出了,但是會(huì)被所有共同讀取的放射科醫(yī)師所忽視。本發(fā)明考慮到了這種敏感性。
包括假陽(yáng)性降低處理的基于CAD的系統(tǒng)(諸如由Wiemker、Mousa及其他人等等所描述的那些)具有一個(gè)重要的工作,那就是識(shí)別出醫(yī)學(xué)圖像數(shù)據(jù)中所檢測(cè)的“可采取行動(dòng)的”結(jié)構(gòu)。一旦被識(shí)別(即,被分割),就由CAD系統(tǒng)獲得重要特征的全面集合以便關(guān)于一部分基礎(chǔ)事實(shí)(例如惡性或良性)而對(duì)所分割的部位進(jìn)行分類。所屬領(lǐng)域技術(shù)人員應(yīng)當(dāng)承認(rèn),計(jì)算機(jī)驅(qū)動(dòng)決策支持、或CAD系統(tǒng)的準(zhǔn)確性由用作訓(xùn)練集合的已知病理學(xué)的模式或部位集合的可用性來(lái)限制。即使諸如由Wiemker,R.,T.Blaffert,在他們的Options to improve theperformance of the computer aided detection of lung nodules in thin-slice CT.2003,Philips Research LaboratoriesHamburg中所描述的以及由Wiemker,R.,T.Blaffert在他們的Computer Aided Tumor Volumetryin CT Data,Invention disclosure.2002,Philips Research,Hamburg中所描述的之類的現(xiàn)有技術(shù)CAD算法也會(huì)產(chǎn)生許多假陽(yáng)性,導(dǎo)致有相關(guān)風(fēng)險(xiǎn)和較低用戶接受性的不必要的介入。此外,當(dāng)前假陽(yáng)性降低算法常常是為了胸部X光照片圖像或厚片CT掃描而開發(fā)的,未必會(huì)在源自HRCT的數(shù)據(jù)上很好地執(zhí)行。
為此,此處描述的創(chuàng)新FPR系統(tǒng)和方法包括一種CAD子系統(tǒng)或處理以識(shí)別出被分割的候選部位。在訓(xùn)練期間,以及CAD處理之后,訓(xùn)練數(shù)據(jù)集合內(nèi)的分割部位被傳遞給特征提取器、或者實(shí)現(xiàn)特征提取處理的處理器。特征提取從所檢測(cè)的結(jié)構(gòu)中獲得3D和2D特征,其被傳遞給遺傳算法(GA)子系統(tǒng)或GA處理器。需要在用于檢測(cè)醫(yī)學(xué)圖像中的相關(guān)部位的領(lǐng)域中的至少一個(gè)臨床醫(yī)師來(lái)支持訓(xùn)練。GA處理器處理該提取特征集合(來(lái)自訓(xùn)練圖像)以實(shí)現(xiàn)最佳特征子集。最佳特征子集包括最佳數(shù)目的最佳特征,所述最佳特征利用FPR為SVM提供了足夠的鑒別能力。
在訓(xùn)練期間,由GA進(jìn)行的CAD后處理確定由機(jī)器學(xué)習(xí)處理所使用的特征的最佳子集。SVM將特該征子集用于其機(jī)器學(xué)習(xí)。此后,由CAD子系統(tǒng)來(lái)處理所調(diào)查的圖像,利用或不利用分割器(segmenter),來(lái)對(duì)候選部位進(jìn)行識(shí)別和分割。由已訓(xùn)練分類器(SVM)對(duì)從候選部位中提取的特征集合進(jìn)行操作。因?yàn)樵撐ㄒ籆AD后機(jī)器學(xué)習(xí)的關(guān)系,以及利用足夠的特異性和敏感性,創(chuàng)新FPR系統(tǒng)準(zhǔn)確地在高分辨率且薄片CT(HRCT)圖像中檢測(cè)非常小的結(jié)核。所屬領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,該創(chuàng)新FPR系統(tǒng)可以準(zhǔn)確地檢測(cè)和分類出利用低級(jí)技術(shù)不可見的結(jié)核或微鈣化。例如,具有片厚度<=1mm的HRCT數(shù)據(jù)允許檢測(cè)非常小的結(jié)核,但是為了這樣做需要新方法以進(jìn)行可靠的檢測(cè)及從脈管中進(jìn)行鑒別,諸如本發(fā)明在此處闡述的那樣。參考圖1來(lái)大致地描述本發(fā)明的FPR系統(tǒng)400的優(yōu)選實(shí)施例。FPR系統(tǒng)400(具有假陽(yáng)性降低)包括CAD子系統(tǒng)420,用于對(duì)滿足具體標(biāo)準(zhǔn)的部位進(jìn)行識(shí)別和分割。優(yōu)選地,該CAD子系統(tǒng)包括CAD處理器410,以及更進(jìn)一步包括分割單元430以在醫(yī)學(xué)圖像數(shù)據(jù)上執(zhí)行低水平處理。CAD子系統(tǒng)420對(duì)由CAD處理所識(shí)別的候選結(jié)核(所關(guān)心的部位)進(jìn)行分割,不論是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行操作還是研究候選部位。CAD子系統(tǒng)指導(dǎo)參數(shù)調(diào)整處理以實(shí)現(xiàn)穩(wěn)定的分割。
分割數(shù)據(jù)被輸出到包括FPR子系統(tǒng)的特征提取單元440。特征池從每個(gè)分割部位(訓(xùn)練或候選)中被提取,并且由遺傳算法處理器450來(lái)對(duì)其進(jìn)行操作以便識(shí)別“最佳”集合特征子集以訓(xùn)練SVM。也就是說,GA處理器450相對(duì)于該特征池所包括的特征的選擇和特征的數(shù)目而產(chǎn)生特征的優(yōu)化子集。該子集由支持向量機(jī)(SVM)460來(lái)使用以利用足夠好的敏感性和特異性來(lái)分類出當(dāng)在從候選部位所提取的特征集合上進(jìn)行操作時(shí)(錯(cuò)誤地)識(shí)別最少的假陽(yáng)性。也就是說,當(dāng)研究候選部位時(shí),象從訓(xùn)練中被區(qū)分那樣,所提取的特征被轉(zhuǎn)送到SVM以用于分類。
如上所述,CAD子系統(tǒng)420,無(wú)論它包括或者不包括分割單元430,都通過產(chǎn)生二元或三元圖像來(lái)從背景中描繪出候選結(jié)核(包括非結(jié)核),所述圖像中標(biāo)記了結(jié)核部位、背景部位和肺壁(或“切斷”)部位。當(dāng)收到灰度級(jí)和已標(biāo)記的VOI時(shí),特征提取器計(jì)算(提取)任何相關(guān)的特征,諸如2D和3D形狀特征、基于直方圖的特征等等。在訓(xùn)練模式中,特征提取很關(guān)鍵,因?yàn)樗蟠蟮赜绊懥薋PR系統(tǒng)的總體性能。如果沒有對(duì)特征的整個(gè)集合或池進(jìn)行適當(dāng)?shù)靥崛?,GA就不能確定具有最佳判別能力和最小尺寸的特征子集(以便避免過度擬合(over-fitting)和提高概括能力)。
基于GA的特征選擇處理由共同擁有的共同未決[美國(guó)專利申請(qǐng)序列號(hào)]Philips申請(qǐng)編號(hào)US040120(ID公開#779446)教導(dǎo),通過引用將其內(nèi)容引入于此。通過創(chuàng)建包括多個(gè)“基因”的若干“染色體”而開始GA的特征子集選擇。每個(gè)基因表示一個(gè)所選特征。由染色體所表示的特征集合用來(lái)在訓(xùn)練數(shù)據(jù)上訓(xùn)練SVM。染色體的適合度(fitness)由最終的SVM執(zhí)行得有多好來(lái)評(píng)價(jià)。開始這個(gè)處理時(shí),通過隨機(jī)選擇特征以形成染色體來(lái)產(chǎn)生染色體的總數(shù)(population)。然后該算法(即,GA)迭代地搜索執(zhí)行良好的(高適合度)那些染色體。
在每次產(chǎn)生時(shí),GA在對(duì)象總體中評(píng)價(jià)每個(gè)染色體的適合度以及通過兩個(gè)主要的進(jìn)化方法(變異和交叉)從當(dāng)前染色體中創(chuàng)建新染色體?!昂谩比旧w中的基因很可能被保留以用于下一次產(chǎn)生,而性能差的那些很可能被丟棄。最終通過適者生存的這種處理找到最佳解(即,一批特征)。以及通過認(rèn)識(shí)該最佳特征子集,包括最佳數(shù)目的特征來(lái)實(shí)現(xiàn)假陽(yáng)性降低(FPR),降低了誤分類情況的總數(shù)。確定了特征子集之后,該子集用來(lái)訓(xùn)練SVM。所屬領(lǐng)域技術(shù)人員應(yīng)該理解SVM把“原”特征空間映射到一部分較高維數(shù)的特征空間,在所述較高維數(shù)的特征空間中可由超平面來(lái)分離訓(xùn)練集合,如圖2所示?;赟VM的分類器具有若干內(nèi)部參數(shù),其可能影響它的性能。這種參數(shù)被憑經(jīng)驗(yàn)地優(yōu)化以得到最佳可能總準(zhǔn)確度。此外,在由SVM使用之前對(duì)該特征值進(jìn)行標(biāo)準(zhǔn)化以避免使具有大數(shù)值范圍的特征比具有較小數(shù)值范圍的特征有優(yōu)勢(shì),這是由共同擁有且共同未決的[美國(guó)專利申請(qǐng)?zhí)?0/]Philips申請(qǐng)編號(hào)US 040499(ID公開號(hào)778965)所教導(dǎo)的創(chuàng)新系統(tǒng)和處理的焦點(diǎn)。標(biāo)準(zhǔn)化特征值也使計(jì)算更簡(jiǎn)單。以及因?yàn)楹诵闹低ǔHQ于特征向量的內(nèi)積,所以大屬性值可能會(huì)引起數(shù)值問題。
范圍的標(biāo)度(scale)被實(shí)現(xiàn)成x′=(x-mi)/(Mi-mi),其中,x′是“標(biāo)度”值;
x是原始值;Mi是數(shù)組中的最大值;以及mi是數(shù)組中的最小值。
利用被稱為是“留一法(leave-one-out)和K折驗(yàn)證(k-fold validation)”的方法,使用包括病理學(xué)已知的訓(xùn)練數(shù)據(jù)或部位的肺結(jié)核數(shù)據(jù)集來(lái)驗(yàn)證該創(chuàng)新FPR系統(tǒng)。該驗(yàn)證被實(shí)現(xiàn)且該創(chuàng)新FPR系統(tǒng)被顯示出降低大多數(shù)假結(jié)核的同時(shí)實(shí)際上保留了所有真結(jié)核。正是可能包括或可能不包括分割器(如圖1所示)的CAD子系統(tǒng),通過產(chǎn)生二元或三元的圖像而把結(jié)核和非結(jié)核從背景中描繪出來(lái),借此標(biāo)記了結(jié)核部位、背景部位、以及肺壁或(“切斷”)部位。利用灰度級(jí)和標(biāo)記VOI,具有特征提取單元的機(jī)器學(xué)習(xí)子系統(tǒng)對(duì)諸如2D和3D形狀特征、基于直方圖的特征等等之類的不同特征進(jìn)行計(jì)算。
圖3是描述一種根據(jù)本發(fā)明而實(shí)現(xiàn)的處理的流程圖。也就是說,圖3是闡述此處應(yīng)用本發(fā)明的處理的一個(gè)實(shí)施例的流程圖???50表示在醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集合上訓(xùn)練分類器,對(duì)于所述醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)來(lái)說關(guān)于部位的臨床基礎(chǔ)事實(shí)是已知的。在一個(gè)實(shí)施例中,該步驟可以包括在選擇為包括若干真和假部位的醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集合上訓(xùn)練分類器,其中真和假部位由CAD處理來(lái)識(shí)別,以及被自動(dòng)地分割,其中分割訓(xùn)練部位由至少一個(gè)專家來(lái)審閱以把每個(gè)訓(xùn)練部位針對(duì)它的基礎(chǔ)事實(shí)(即,真或假)進(jìn)行分類,其中從每個(gè)分割部位來(lái)識(shí)別和提取特征池,以及其中由遺傳算法來(lái)處理該特征池以識(shí)別最佳特征子集,所述子集用來(lái)訓(xùn)練支持向量機(jī)。
框540表示在非訓(xùn)練醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)對(duì)作為分類候選者的部位進(jìn)行檢測(cè)的步驟,以及框560表示對(duì)候選部位進(jìn)行分割的步驟。框580表示更進(jìn)一步處理分割部位以提取與所關(guān)心部位有關(guān)的全部特征集合(池)的步驟???00表示利用遺傳算法在每個(gè)已知訓(xùn)練部位的全部特征集合上進(jìn)行操作以識(shí)別最佳子集合特征、以訓(xùn)練支持向量機(jī)的步驟。訓(xùn)練之后,SVM對(duì)從候選部位提取的特征集合進(jìn)行操作。訓(xùn)練的步驟可以包括在分割處理中利用推薦器(recommender),這個(gè)推薦器利用已知的病理學(xué)為訓(xùn)練器提供對(duì)部位的最佳分割的實(shí)際選擇。
重要的是要注意執(zhí)行該創(chuàng)新方法或驅(qū)動(dòng)該創(chuàng)新FPR分類器所需要的軟件包括用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的有序列表。因而,該軟件能夠以由或結(jié)合指令執(zhí)行系統(tǒng)、裝置、或設(shè)備來(lái)使用的任何計(jì)算機(jī)可讀介質(zhì)來(lái)體現(xiàn),諸如基于計(jì)算機(jī)的系統(tǒng)、包含處理器的系統(tǒng)、或可把指令從指令執(zhí)行系統(tǒng)、裝置、或設(shè)備中取出并且執(zhí)行該指令的其他系統(tǒng)。在本文件的上下文中,“計(jì)算機(jī)可讀介質(zhì)”可以是能夠包含、存儲(chǔ)、通信、傳播、或傳送由或結(jié)合指令執(zhí)行系統(tǒng)、裝置、或設(shè)備來(lái)使用的程序的任何裝置。
計(jì)算機(jī)可讀介質(zhì)可以是例如但不限于電、磁、光、電磁、紅外、或半導(dǎo)體系統(tǒng)、裝置、設(shè)備、或傳播介質(zhì)。計(jì)算機(jī)可讀介質(zhì)的更加具體的例子(非窮舉列表)包括以下具有一個(gè)或多個(gè)線路的電連接(電子)、便攜式計(jì)算機(jī)盤(磁性)、隨機(jī)存取存儲(chǔ)器(RAM)(磁性)、只讀存儲(chǔ)器(ROM)(磁性)、可擦除可編程只讀存儲(chǔ)器(EPROM或閃速存儲(chǔ)器)(磁性)、光纖(光)、以及便攜式光盤只讀存儲(chǔ)器(CDROM)(光)。要注意的是計(jì)算機(jī)可讀介質(zhì)甚至可以是紙或另一種其上可以打印程序的適當(dāng)?shù)慕橘|(zhì),當(dāng)該程序可經(jīng)由例如對(duì)紙或其他介質(zhì)的光學(xué)掃描而被電子地獲取然后編譯、解釋或者相反如有必要以適當(dāng)?shù)姆绞奖惶幚?、然后被存?chǔ)在計(jì)算機(jī)存儲(chǔ)器中。
應(yīng)當(dāng)強(qiáng)調(diào)的是本發(fā)明的上述實(shí)施例(尤其是任何“優(yōu)選”實(shí)施例)僅僅是實(shí)現(xiàn)的可能例子,其僅僅是闡述以清楚地理解本發(fā)明的原理。此外,在基本上不脫離本發(fā)明的精神和原理下可對(duì)本發(fā)明的上述實(shí)施例做出許多變化和修改。所有這種修改和變化用來(lái)由本發(fā)明的范疇內(nèi)所包括的且由以下權(quán)利要求所保護(hù)的當(dāng)前公開所教導(dǎo)。
權(quán)利要求
1.一種用于在對(duì)諸如HRCT數(shù)據(jù)之類的醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)的部位進(jìn)行計(jì)算機(jī)輔助檢測(cè)(CAD)以及分類期間進(jìn)行假陽(yáng)性降低(FPR)的方法,所述方法實(shí)現(xiàn)了處理后機(jī)器學(xué)習(xí)以便最大化分類的特異性和敏感性,以及以便實(shí)現(xiàn)降低由FPR系統(tǒng)所報(bào)告的假陽(yáng)性檢測(cè)的數(shù)目,該方法包括以下步驟在被選擇為包括若干真和假部位的醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集合上訓(xùn)練分類器,其中該真和假部位由CAD處理來(lái)識(shí)別,以及被自動(dòng)地分割,其中分割訓(xùn)練部位由至少一個(gè)專家來(lái)審閱以把每個(gè)訓(xùn)練部位針對(duì)其基礎(chǔ)事實(shí),即真或假,進(jìn)行分類,本質(zhì)上限定自動(dòng)分割,其中從每個(gè)分割部位來(lái)識(shí)別和提取特征池,以及其中由遺傳算法來(lái)處理該特征池以識(shí)別最佳特征子集,所述子集用來(lái)訓(xùn)練支持向量機(jī);在非訓(xùn)練醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測(cè)作為分類侯選者的部位;對(duì)候選部位進(jìn)行分割;從每個(gè)分割的候選部位中提取特征集合;以及在根據(jù)最佳特征子集進(jìn)行訓(xùn)練之后利用支持向量機(jī)來(lái)對(duì)候選部位進(jìn)行分類,以及處理該候選特征集合。
2.如權(quán)利要求1中所闡述的用于CAD和分類的處理,其中訓(xùn)練步驟更進(jìn)一步包括確定提供最佳擬合的特征子集的尺寸,并且確定特征的身份。
3.如權(quán)利要求2中所闡述的用于CAD和分類的處理,其中確定包括在兩個(gè)階段中應(yīng)用GA,包括a.)關(guān)于它的特征集合以及特征的數(shù)目而識(shí)別每個(gè)染色體;以及b.)為每個(gè)染色體分析所識(shí)別的特征集合以及所識(shí)別的特征數(shù)目,以便基于不同染色體出現(xiàn)的次數(shù)以及平均誤差的次數(shù)而確定特征的最佳尺寸。
4.如權(quán)利要求1中所闡述的用于CAD和分類的處理,其中訓(xùn)練步驟更進(jìn)一步包括把特征池定義成染色體,其中每個(gè)特征表示基因,以及其中遺傳算法最初通過隨機(jī)選擇特征來(lái)繁殖染色體,以及迭代地搜索具有較高適合度的那些染色體,其中利用變異和交叉對(duì)每一代進(jìn)行重復(fù)評(píng)估,產(chǎn)生新的且更適合的染色體。
5.一種包括計(jì)算機(jī)可讀指令集合的計(jì)算機(jī)可讀介質(zhì),其通過下載有指令的通用計(jì)算機(jī)來(lái)處理,實(shí)現(xiàn)一種包括下述步驟的方法一種用于在對(duì)諸如HRCT數(shù)據(jù)之類的醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)的部位進(jìn)行計(jì)算機(jī)輔助檢測(cè)(CAD)以及分類期間進(jìn)行假陽(yáng)性降低(FPR)的方法,所述方法實(shí)現(xiàn)了處理后機(jī)器學(xué)習(xí)以便最大化分類的特異性和敏感性,以及以便實(shí)現(xiàn)降低由FPR系統(tǒng)所報(bào)告的假陽(yáng)性檢測(cè)的數(shù)目,該方法包括以下步驟在被選擇為包括若干真和假部位的醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集合上訓(xùn)練分類器,其中該真和假部位由CAD處理來(lái)識(shí)別,以及被自動(dòng)地分割,其中分割訓(xùn)練部位由至少一個(gè)專家來(lái)審閱以把每個(gè)訓(xùn)練部位針對(duì)其基礎(chǔ)事實(shí),即真或假,進(jìn)行分類,實(shí)質(zhì)上限定自動(dòng)分割,其中從每個(gè)分割部位來(lái)識(shí)別和提取特征池,以及其中由遺傳算法來(lái)處理該特征池以識(shí)別最佳特征子集,所述子集用來(lái)訓(xùn)練支持向量機(jī);在非訓(xùn)練醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測(cè)作為分類侯選者的部位;對(duì)候選部位進(jìn)行分割;從每個(gè)分割的候選部位中提取特征集合;以及在根據(jù)最佳特征子集進(jìn)行訓(xùn)練之后利用支持向量機(jī)來(lái)對(duì)候選部位進(jìn)行分類,以及處理該候選特征集合。
6.一種醫(yī)學(xué)圖像分類系統(tǒng),其包括CAD子系統(tǒng)以及用于假陽(yáng)性降低(FPR)的子系統(tǒng),所述FPR子系統(tǒng)包括支持向量機(jī)訓(xùn)練后期CAD、以特異性和敏感性來(lái)對(duì)圖像數(shù)據(jù)內(nèi)所檢測(cè)的相關(guān)部位進(jìn)行臨床上的分類以最小化所報(bào)告的假陽(yáng)性,包括用于識(shí)別和描繪圖像數(shù)據(jù)內(nèi)所檢測(cè)的臨床上相關(guān)的部位的CAD子系統(tǒng);與該CAD子系統(tǒng)相通信的假陽(yáng)性降低子系統(tǒng),包括用于從每個(gè)CAD描繪的部位中提取特征池的特征提取器;與該特征提取器相通信以提供該特征池的最佳子集的遺傳算法;以及與特征提取器和GA相通信的支持向量機(jī)(SVM),其依照具有最少假陽(yáng)性的特征子集來(lái)對(duì)每個(gè)所描繪部位進(jìn)行分類;其中首先在包括已知是真陽(yáng)性或是假陽(yáng)性的部位的圖像集合上訓(xùn)練該系統(tǒng),從中提取特征以及利用GA來(lái)識(shí)別最佳子集以便SVM對(duì)未知部位進(jìn)行最佳分類。
7.權(quán)利要求6中所闡述的醫(yī)學(xué)圖像分類系統(tǒng),其中CAD子系統(tǒng)更進(jìn)一步包括用于對(duì)CAD子系統(tǒng)所識(shí)別部位進(jìn)行描繪的分割子系統(tǒng)。
全文摘要
一種用于計(jì)算機(jī)輔助檢測(cè)(CAD)和在HRCT醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測(cè)的所關(guān)心部位的分類的方法,包括處理后機(jī)器學(xué)習(xí)以最大化分類的特異殊性和敏感性以實(shí)現(xiàn)假陽(yáng)性檢測(cè)報(bào)告數(shù)量上的下降。該方法包括在被選擇為包括若干真部位和假部位的醫(yī)學(xué)圖像訓(xùn)練數(shù)據(jù)集合上訓(xùn)練分類器,其中真部位和假部位由CAD處理來(lái)識(shí)別,并且自動(dòng)地被分割,其中分割訓(xùn)練部位由至少一個(gè)專家來(lái)審閱以把每個(gè)訓(xùn)練部位針對(duì)其基礎(chǔ)事實(shí),即真或假,進(jìn)行分類,實(shí)質(zhì)上限定自動(dòng)分割,其中從每個(gè)分割部位識(shí)別并提取特征池,以及其中特征池由遺傳算法來(lái)處理以識(shí)別最佳特征子集,所述子集用來(lái)訓(xùn)練支持向量機(jī),在非訓(xùn)練醫(yī)學(xué)圖像數(shù)據(jù)內(nèi)檢測(cè)作為分類候選者的部位,對(duì)該候選部位進(jìn)行分割,從每個(gè)分割候選部位提取特征集合以及在根據(jù)最佳特征子集進(jìn)行訓(xùn)練之后利用支持向量機(jī)來(lái)對(duì)候選部位進(jìn)行分類,以及處理該候選特征集合。
文檔編號(hào)G06K9/62GK101061490SQ200580039686
公開日2007年10月24日 申請(qǐng)日期2005年11月18日 優(yōu)先權(quán)日2004年11月19日
發(fā)明者L·博羅茨基, L·趙, K·P·李 申請(qǐng)人:皇家飛利浦電子股份有限公司