專(zhuān)利名稱(chēng)::對(duì)微陣列圖像進(jìn)行自動(dòng)解碼的方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及在微陣列圖像上自動(dòng)確定探針點(diǎn)的位置從而可以將圖像數(shù)據(jù)轉(zhuǎn)換為生物活性的度量的方法。
背景技術(shù):
:DNA微陣列技術(shù)是新近出現(xiàn)的并且發(fā)展迅速。目前,在全球基因表達(dá)項(xiàng)目的系統(tǒng)研究中廣泛使用使用微陣列來(lái)推斷基因功能,測(cè)量基因拷貝數(shù)的多態(tài)性,以及基因組DNA蛋白質(zhì)的相互作用。從微陣列圖像中提取數(shù)據(jù)具有許多內(nèi)在的問(wèn)題不一致的雜交導(dǎo)致不均勻的探針強(qiáng)度和幾何結(jié)構(gòu);將芯片放置到掃描儀中的位置不是固定的,這意味著芯片的拐角可以在任何地方;掃描儀經(jīng)常使得到的圖像失真,而這對(duì)于將這些圖像轉(zhuǎn)換為需要的數(shù)據(jù)而言會(huì)產(chǎn)生問(wèn)題;由于同時(shí)存在許多不同的設(shè)計(jì)模式,因此基準(zhǔn)可被置于許多不同的組合中。DNA微陣列包括固體表面,單鏈的DNA分子已被化學(xué)地結(jié)合到該固體表面上。微陣列被廣泛用于研究基因表達(dá),以將基因活動(dòng)與生物過(guò)程關(guān)聯(lián)起來(lái)并且將基因分組為互連活動(dòng)的網(wǎng)絡(luò)。微陣列是非常有利的,因?yàn)樗鼈冊(cè)试S以并行和半自動(dòng)的方式來(lái)測(cè)量數(shù)千個(gè)基因的表達(dá)。在功能基因組學(xué)中,存在不同類(lèi)型的微陣列,包括基因表達(dá)陣列、單核苷酸多態(tài)性(SNP)陣列、基因啟動(dòng)子陣列、比較基因組雜交陣列、CpG島陣列——在此僅提及其中的一些。對(duì)于所有這些類(lèi)型的陣列而言,需要處理掃描的圖像,以恢復(fù)微陣列數(shù)據(jù)。作為比較基因組雜交方法[6的例子,代表性寡核苷酸微陣列分析(ROMA)已在冷泉港實(shí)驗(yàn)室(CSHL)被開(kāi)發(fā)出來(lái)。此技術(shù)在可獲得的用于在人體基因組中檢查拷貝數(shù)的多態(tài)性(CNP)的分辨率方面是一項(xiàng)非常重大的進(jìn)步。通過(guò)采用具有較少(6個(gè)堿基對(duì))識(shí)別位點(diǎn)(recognitionsite)的酶來(lái)消化基因組,大量差不多均勻分布在該基因組上的片段將會(huì)產(chǎn)生。在每個(gè)片段中,唯一的探針被識(shí)別并被放置在微陣列上的一個(gè)點(diǎn)上。目前正在使用具有85000個(gè)探針的芯片,而具有大約400000個(gè)探針的芯片正在測(cè)試中。用該芯片標(biāo)記和雜交從樣本組織細(xì)胞中提取的DNA;強(qiáng)度的變化與樣本中片段的拷貝數(shù)成比例。通過(guò)使用此方法,人們能夠識(shí)別出腫瘤和正?;蚪M之間的變化,以及正常的人體基因組之間的變化。然而,這些高密度的芯片向可獲得的芯片讀取器提出了挑戰(zhàn)。通過(guò)使用步進(jìn)電機(jī)和激光掃描儀,激發(fā)的雜交探針被轉(zhuǎn)換為圖像,即像素陣列。電機(jī)每次將掃描儀移動(dòng)幾個(gè)微米,并且獲得新行讀出。采用這種方法,根據(jù)電機(jī)采取的步長(zhǎng),在l、2或5微米的各種分辨率上數(shù)字化微陣列芯片。通過(guò)掃描儀的機(jī)械和光學(xué)操作將圖像中的探針陣列平移和旋轉(zhuǎn)未知的量。此外,可能存在梯形失真(keystoning)效應(yīng)(即陣列成為梯形而不是矩形),和/或在探針位置中較小的正弦擾動(dòng)(也就是說(shuō),探針實(shí)際上在正弦曲線上對(duì)齊,而不是在直線上對(duì)齊)。對(duì)于具有高密度微陣列的高吞吐量研究而言所需要的是,自動(dòng)(即沒(méi)有人的介入)識(shí)別探針位置的軟件,這些探針位置的強(qiáng)度將被轉(zhuǎn)換為探針強(qiáng)度。目前,正在研究芯片上的探針模式,但是用棋盤(pán)模式實(shí)現(xiàn)了最大密度。也就是說(shuō),必須廢棄一半芯片面積,因?yàn)槟壳暗膱D像處理軟件不能足夠地分辨探針。如果可以設(shè)計(jì)出改進(jìn)的軟件,那么在ROMA芯片上可能實(shí)現(xiàn)兩倍的信息密度。在文獻(xiàn)資料中存在其他試圖進(jìn)行自動(dòng)微陣列圖像分析的算法。Brandle等人[參考文獻(xiàn)l]和Uehara和Kakadiaris[參考文獻(xiàn)6]都提出了將圖像轉(zhuǎn)換到期望的數(shù)值所需要的全部功能的方法,并且都倡導(dǎo)使用Radon變換(見(jiàn)下文),但是就我們所知,還未提出用于校正微陣列圖像中梯形失真問(wèn)題的方法。軟件工具BioDiscoveryImagene7.0聲稱(chēng)即使在用于多個(gè)陣列的批模式處理中也能自動(dòng)地找到位點(diǎn)以及放置網(wǎng)格,然而這些算法目前不是公用的(http:〃www/biodiscovery.com/index/imagene-cgh)。Khojasteh等人[參考文獻(xiàn)2]提出了一種通過(guò)多尺度的邊緣檢測(cè)算法[2從陣列CGH數(shù)據(jù)中自動(dòng)識(shí)別DNA拷貝數(shù)的增多和減少的區(qū)域的算法。5在此公開(kāi)的從微陣列掃描圖像中自動(dòng)識(shí)別拐角和探針的方法克服了這些問(wèn)題。測(cè)試圖像來(lái)自ROMA微陣列技術(shù),但是該方法足以普遍地用在其他類(lèi)型的微陣列圖像上。
發(fā)明內(nèi)容根據(jù)本發(fā)明,公開(kāi)了一種在具有圖像空間的高密度和高分辨率微陣列掃描圖像中自動(dòng)識(shí)別微陣列芯片拐角和探針的方法,其中,該方法通過(guò)將多遍(multipass)拐角尋找算法應(yīng)用到所述圖像,使得在掃描過(guò)程中產(chǎn)生的圖像中的誤差失真最小化。具體地,本發(fā)明的目的在于提供一種即使在拐角自身處沒(méi)有探針的情況下,也能在具有圖像空間的高密度和高分辨率微陣列掃描圖像中自動(dòng)識(shí)別微陣列芯片拐角和探針的方法,其中,該方法通過(guò)將多遍拐角尋找算法應(yīng)用到所述圖像,使得在掃描過(guò)程中產(chǎn)生的圖像中的誤差失真最小化,該方法包括將Radon變換應(yīng)用于輸入的微陣列圖像,以將該圖像投影到角度和距離空間中,其中在該空間中可以找到直線的取向;將快速傅里葉變換應(yīng)用于步驟(a)的投影圖像,以尋找該投影圖像的最佳傾角;為所述最佳傾角確定最佳的第一個(gè)和最后一個(gè)局部極大值;將所確定的第一個(gè)和最后一個(gè)局部極大值反投影到所述圖像空間中,以尋找所述圖像的第一個(gè)列線和最后一個(gè)列線的第一近似;旋轉(zhuǎn)所述圖像并重復(fù)步驟(a)至(d),以尋找所述圖像的頂部行線和底部行線的第一近似;從所述列線和行線的交點(diǎn)中確定該圖像的所述四個(gè)拐角的第一近似;應(yīng)用啟發(fā)式算法,以確定步驟(f)的第一近似是否足夠;以及可選地,在所述四個(gè)拐角的第一近似周?chē)藜羲鰭呙鑸D像并且重復(fù)步驟(a)至(f)。本發(fā)明的另一個(gè)目的在于提供一種方法,其中,所述微陣列掃描圖像是從選自由以下項(xiàng)組成的組中的成員所產(chǎn)生的圖像代表性寡核苷酸微陣列分析、基因表達(dá)陣列、單核苷酸多態(tài)性陣列、CgP島陣列、啟動(dòng)子微陣列和蛋白質(zhì)-DNA相互作用陣列。本發(fā)明的另一個(gè)目的在于,提供一種方法,其中,在所述圖像中的誤差失真包括梯形失真效應(yīng)。本發(fā)明的另一個(gè)目的在于,提供一種方法,其中,在所述圖像中的誤差失真包括正弦的或彎曲的探針位置線而不是直的位置線。本發(fā)明的另一個(gè)目的在于,提供一種方法,其中,所述掃描圖像的分辨率為1、2或5微米。本發(fā)明的另一個(gè)目的在于,提供一種方法,其中,用Cy3和Cy5熒光團(tuán)掃描所述掃描圖像。本發(fā)明的另一個(gè)目的在于,提供一種方法,其中,所述掃描圖像是由包含大約85000個(gè)探針到大約400000個(gè)探針的芯片產(chǎn)生的。本發(fā)明的另一個(gè)目的在于,提供一種進(jìn)一步包括權(quán)利要求1的方法的方法,該方法進(jìn)一步包括估計(jì)一個(gè)或多個(gè)探針的位置。本發(fā)明的另一個(gè)目的在于,提供一種進(jìn)一步包括權(quán)利要求1的方法的方法,該方法進(jìn)一步包括以子采樣或剪裁的方式處理所述圖像。本發(fā)明的另一個(gè)目的在于,提供一種進(jìn)一步包括權(quán)利要求1的方法的方法,該方法進(jìn)一步包括將所述圖像數(shù)據(jù)轉(zhuǎn)換為生物活性的度量。參考以下實(shí)施例和附圖,更詳細(xì)地解釋本發(fā)明的這些和其他方面。圖1示出了ROMA圖像,其中85000個(gè)探針以2ym的分辨率掃描(圖像大小為150MB);圖2示出了程序的圖像軸系統(tǒng);圖3示出了尋找拐角(Find—corners)(圖像)算法的偽代碼;圖4示出了用于圖像空間投影的Radon空間;圖5示出了對(duì)最佳角度的采樣Radon變換;圖6示出了圖像投影的采樣FFT;圖7示出了對(duì)具有基準(zhǔn)點(diǎn)的圖像進(jìn)行Radon變換的例子;圖8示出了圖7所示的投影的放大圖;圖9示出了在ROMA圖像中的估計(jì)線。具體實(shí)施例方式在此公開(kāi)的內(nèi)容提出了一種用于尋找微陣列圖像的拐角以及網(wǎng)格化或?qū)ふ椅㈥嚵袌D像的內(nèi)部探針的自動(dòng)方法,該方法有助于將該圖像解碼成數(shù)字。我們使用了圖像處理方法,例如Radon變換和快速傅里葉變換以及若干啟發(fā)式算法來(lái)尋找微陣列拐角和探針的精確位置?;谖覀兊募夹g(shù),甚至在拐角處本身沒(méi)有探針的布局的情況下,我們能夠?qū)⒐战亲R(shí)別到幾個(gè)像素內(nèi)。在圖1中示出了高密度微陣列圖像(在我們的實(shí)例中為ROMA圖像)的例子。存在多種探針設(shè)計(jì)放置方法。迄今所檢查的探針是邊長(zhǎng)為16ym的正方形,這些正方形之間具有2Mm的通道??梢砸?jLim、2Mm或lMm掃描這些圖像,或甚至小于微米的分辨率被考慮,從而產(chǎn)生每探針具有3、8或16個(gè)像素以及每個(gè)通道具有0、l或2個(gè)像素的圖像。根據(jù)在此公開(kāi)的方法,啟發(fā)式算法可以通過(guò)以下方式用于高密度芯片(即85000400000個(gè)探針)1)在水平和垂直方向上對(duì)圖像進(jìn)行子采樣(例如取每?jī)蓚€(gè)像素中的一個(gè)像素或每四個(gè)像素中的一個(gè)像素)。我們還可以取左上角四分之一圖像的一部分,以及右上角四分之一、左下角四分之一和右下角四分之一圖像中的一部分,以便以合理的圖像尺寸開(kāi)始第一次近似。這也可以基于印制圖案和基準(zhǔn)標(biāo)志。此外,采用多種基準(zhǔn)標(biāo)志圖案(作為非常明亮的探針而可見(jiàn))來(lái)印制芯片。以兩個(gè)彩色頻率(通常為Cy3和Cy5熒光團(tuán))掃描每個(gè)圖像。用于拐角尋找算法的最佳圖像處理結(jié)果可以從對(duì)總強(qiáng)度圖像,即所述兩個(gè)彩色頻率的總和,所進(jìn)行的分析中獲得。需要自動(dòng)微陣列圖像解碼,以尋找拐角點(diǎn)、執(zhí)行網(wǎng)格化和解碼為微陣列數(shù)據(jù)。在此過(guò)程中,需要智能的圖像處理算法,以矯正由化學(xué)反應(yīng)(即標(biāo)準(zhǔn)化)和掃描過(guò)程產(chǎn)生的偽像。所開(kāi)發(fā)的和以下所描述的軟件的目標(biāo)在于,自動(dòng)地在像素坐標(biāo)中定位探針陣列的四個(gè)拐角。采用此信息,假設(shè)不存在正弦擾動(dòng),雙線性變換可以被用于定位探針形心。用于高密度陣列的ROMA技術(shù)是一種新方法,并且目前還不存在處理這些圖像的適當(dāng)方法。尋找微陣列圖像中的拐角點(diǎn)是進(jìn)行網(wǎng)格化以在該圖像上尋找探針位置并解碼為微陣列數(shù)據(jù)所需要的第一步驟。成像過(guò)程引入偽像并且使圖像歪斜。檢測(cè)和補(bǔ)償由掃描過(guò)程產(chǎn)生的偽像是重要的。我們?cè)O(shè)計(jì)了多遍算法,以在高分辨率和高密度微陣列圖像中檢測(cè)拐角點(diǎn)。該算法包括外循環(huán)和內(nèi)循環(huán)。外循環(huán)執(zhí)行第一遍(pass)以尋找拐角,倘若8不存在梯形失真(即,探針陣列仍為矩形),那么該第一遍拐角尋找將是準(zhǔn)確的。擬合優(yōu)度(goodness-of-fit)度量被計(jì)算,并且如果結(jié)果令人滿意,那么該算法將報(bào)告其結(jié)果并停止。如果此測(cè)試失敗,那么執(zhí)行內(nèi)循環(huán)以試圖校正梯形失真。擬合優(yōu)度度量被再次計(jì)算,并且如果結(jié)果可以接受,那么就報(bào)告該結(jié)果,否則該算法報(bào)告失敗并停止。如圖2所示,所述結(jié)果包括以像素為單位的探針陣列拐角的x和y坐標(biāo)。所述算法使用了Radon變換[5??梢哉J(rèn)為Radon變換類(lèi)似于從不同角度觀察果園。當(dāng)正好以直角觀察時(shí),各行之間的所有樹(shù)和通道將清晰可見(jiàn)。如果圖像中的像素是在該角度被總計(jì)的,那么會(huì)產(chǎn)生清晰和規(guī)則的強(qiáng)度振蕩(見(jiàn)圖7和圖8)。計(jì)算Radon變換的傅里葉變換[4,并且使用啟發(fā)式算法標(biāo)準(zhǔn)來(lái)識(shí)別最佳角度。應(yīng)用此啟發(fā)式算法以獲得在水平和垂直方向上旋轉(zhuǎn)的最佳角度。在選定了最佳旋轉(zhuǎn)角度之后,通過(guò)對(duì)該角度選擇Radon變換中的第一個(gè)和最后一個(gè)局部極大值,識(shí)別出探針陣列的邊緣。此操作首先在整個(gè)圖像上執(zhí)行。然后,如果擬合優(yōu)度測(cè)量表明圖像發(fā)生了梯形失真,那么用經(jīng)剪裁的子圖像在水平方向上和/或垂直方向上重復(fù)整個(gè)過(guò)程,以僅檢測(cè)不平行的邊緣。圖3示出了用于該算法的偽代碼。用于沿著圖像的最右面和最左面的邊緣來(lái)尋找線(findLines)的算法如下我們將Radon變換應(yīng)用到輸入微陣列圖像。Radon變換將圖像投影到極坐標(biāo)空間中,即角度和距離空間(e和p),在該空間中,可以找到直線的取向。OOCO—CO—co其中,gOc,力為原始圖像,其作為笛卡兒坐標(biāo)中的強(qiáng)度陣列,gCo")為經(jīng)Radon變換的圖像,e為旋轉(zhuǎn)角,p為到軸系統(tǒng)的原點(diǎn)的最小距離,5()為DiraC(函數(shù)。為了最小化計(jì)算量,該算法執(zhí)行分級(jí)Radon變換,該Radon變換開(kāi)始于以0.1度的步長(zhǎng)將^從-1度到+1度變化。我們的關(guān)于來(lái)自一個(gè)掃描儀的圖像的經(jīng)驗(yàn)表明,此范圍對(duì)于此掃描儀而言是足夠的。其他的具有更多旋轉(zhuǎn)可變性的掃描儀可能需要擴(kuò)展此范圍。Radon變換被逐9步地應(yīng)用到所有的^{-1,-0.9,-0.8,...,l}。圖5示出了對(duì)于特定6的Radon變換的采樣投影。我們將快速傅里葉變換應(yīng)用到每個(gè)^曲線,以尋找圖像的傾角。所選擇的傾角《是其FFT包含單頻中最高能量的那個(gè)傾角。圖6示出了圖5中所示的投影的FFT。我們選取《并且這次以0.01的步長(zhǎng)從《-0.1到《+0.1應(yīng)用Radon變換并且進(jìn)行到步驟3。再一次,可能必須改變這些參數(shù)選擇,以用于不同的掃描儀圖像組。對(duì)于特定e值的Radon變換的每個(gè)應(yīng)用,我們獲得在P空間上的圖像的垂直投影。對(duì)于每個(gè)^:(&,...,621),我們獲得單獨(dú)的曲線,從該曲線中選擇在其快速傅里葉變換中的單頻中具有最高能量的^作為旋轉(zhuǎn)的最佳角度。我們尋找最佳角度的Radon變換的局部極大值。下面的圖7示出了對(duì)在單頻中具有最高能量的角度的Radon變換。星形表示局部極大值。我們尋找至少達(dá)到全局最大值的20%的第一個(gè)和最后一個(gè)局部極大值。在圖7中的開(kāi)始處和結(jié)束處的小圓圈表示選定的第一個(gè)和最后一個(gè)局部極大值??商鎿Q地,如果我們找到比平均信號(hào)水平高很多的峰值,那么我們接受該峰值為我們的第一個(gè)/最后一個(gè)局部極大值并且忽略這些極大值周?chē)钠渌逯?圖7)。這通常發(fā)生于探針周?chē)哂谢鶞?zhǔn)標(biāo)志的設(shè)計(jì)中。圖8示出了投影和選定的局部極大值的放大圖。第一列和最后一列由滿足一定標(biāo)準(zhǔn)的第一個(gè)和最后一個(gè)局部極大值估計(jì)得到。這些對(duì)于在陣列圖像實(shí)際開(kāi)始之前避免選取噪聲而言是必要的。為了進(jìn)行該處理,我們僅處理圖像的前三分之一和最后三分之一中的極大值。我們選取其局部平均梯度小于20%的局部極大值的子集。然后,我們尋找第一最大值點(diǎn),其高度至少為該圖像中間三分之一中的平均強(qiáng)度的25%。這捕獲了典型的陣列邊緣。接著,在存在基準(zhǔn)點(diǎn)的情況下,我們測(cè)試在該圖像的前(或最后)三分之一中的最大值是否比該圖像的前(或最后)三分之一中的平均值的兩倍大。如果我們獲得了這樣的點(diǎn),我們指定它們?yōu)榈谝粋€(gè)和最后一個(gè)有效的極大值,以取代之前找到的極大值。在圖7的開(kāi)始處和結(jié)束處所示的小圓圈表示選定的第一個(gè)和最后一個(gè)局部極大值。圖8示出了投影和選定的局部極大值的放大圖。我們將對(duì)應(yīng)的第一個(gè)和最后一個(gè)局部極大值反投影到圖像空間,以尋找經(jīng)過(guò)圖像的第一列和最后一列的線的第一近似。此時(shí),我們具有由我們從反投影中找到的點(diǎn)和角度定義的線。這些線是通過(guò)最左列和最右列的線。下式將Radon空間中的p映射到圖像空間。圖4用圖形表示了需要執(zhí)行的估計(jì)。VCOoog(/7,e)=j"j"g(x,少)cJ(/7—xcos<9—_ysin<9)ix£/;/每個(gè)Radon變換具^(guò)長(zhǎng)度Radon尺寸,該Radon尺寸是Radon變換可以達(dá)到的最大可能尺寸。這由下式給出Radon尺寸=^寬度2+高度2用于所有其他角度的Radon變換僅覆蓋了Radon尺寸的陣列的一部分。這由下式給出實(shí)際Radon尺寸(sizeActualRadon)=寬度*008(9)+高度*8111(6)對(duì)于Radon變換中的每個(gè)期望點(diǎn),其到圖像空間的反投影由下式給出一x—l(RadonLoc-RadonStart)/cos(60-高度氺tan(S)如果<9>0bp—l(RadonLoc-RadonStart)/cos(6)其他我們需要計(jì)算在圖像中經(jīng)過(guò)此點(diǎn)的線的方程式。_y=+c傾斜角是由執(zhí)行快速傅里葉變換(FFT)后選定為在單頻中具有最高值的6給定的。為了估計(jì)方程中常數(shù)c的值,我們使y一,以用于Radon變換的反投影點(diǎn)。因此,接著我們對(duì)經(jīng)旋轉(zhuǎn)的圖像執(zhí)行步驟2-7,以估計(jì)經(jīng)過(guò)頂部行和底部行的線。為了找到拐角的第一近似,我們尋找四條線(頂部、底部、左邊和右邊)的交點(diǎn)。通過(guò)以上步驟,我們具有這四條線的方程式,并且我們求解這四個(gè)方程式,以估計(jì)這四個(gè)拐角點(diǎn)。接下來(lái),我們測(cè)試估計(jì)的拐角是否合適。為此目的,我們?cè)俅问褂肦adon變換。對(duì)于選定的6的Radon變換的FFT,計(jì)算全局最大值與全局最大能量頻率自身周?chē)哪芰靠偤偷谋戎担摫戎涤梢韵碌仁接?jì)算得到[最大能量i]-max(fft)最大能量和-sum(fft(i-10:i+10))r產(chǎn)最大能量和/最大能量如果此比值rj在選定的閾值(基于若干實(shí)驗(yàn)以及估計(jì)哪個(gè)適用,啟發(fā)式地將該閾值選為0.4)以下,那么我們?cè)诘谝唤浦車(chē)藜粼搱D像并且再次應(yīng)用Radon變換。重復(fù)以上過(guò)程,并且如果甚至在第二輪中,此比值仍在選定的閾值以下,那么返回失敗。我們使用了具有各種分辨率的測(cè)試圖像來(lái)測(cè)試我們的算法。在表1中提供了各種測(cè)試圖像和它們的分辨率。在許多情況下,Cy5和Cy3是兩個(gè)被捆綁在一個(gè)tiff文件中的圖像??傆?jì)測(cè)試了14個(gè)圖像。掃描分辨率圖像的數(shù)量圖像號(hào)5,91-92戶2+2*10-111拜112表l測(cè)試圖像和它們的分辨率表2示出了表l中所引用14個(gè)圖像中的12個(gè)圖像的拐角的真實(shí)數(shù)據(jù)(groundtruth)位置。對(duì)于以下計(jì)算沒(méi)有考慮在圖1中表示為2*的以2^"掃描的兩個(gè)圖像,因?yàn)樗鏊惴ǚ祷厥?。這兩個(gè)圖像被沖洗(washout),而且所述算法不能較好地估計(jì)旋轉(zhuǎn)角度,并且在對(duì)剪裁的圖像執(zhí)行了Radon變換之后,在步驟9中宣告失敗。真實(shí)數(shù)據(jù)是通過(guò)人工觀察MATLAB圖中的圖像和以右上方的探針為中心而估計(jì)出來(lái)的。在不存在探針的情況下,線被繪制,并且拐角點(diǎn)被確定為這些線的交點(diǎn)。對(duì)于圖像ll,ROMA芯片的雜交出現(xiàn)問(wèn)題,拐角被沖洗并且不能被人工估計(jì)(在表中標(biāo)識(shí)為"無(wú)")。對(duì)于這樣的情況,擁有自動(dòng)化的方法是非常寶貴的,因?yàn)閷?duì)于操作員而言不可能找到拐角。用于精度計(jì)算的圖像ll的真實(shí)數(shù)據(jù)被取為與圖像10的真實(shí)數(shù)據(jù)相同,圖像10是C3y熒光團(tuán)的掃描。真實(shí)數(shù)據(jù)的拐xlx2x3x4yiy2y3y4角12<table>tableseeoriginaldocumentpage13</column></row><table>表212個(gè)圖像的拐角的真實(shí)數(shù)據(jù)位置表3示出了通過(guò)所述算法和用于每個(gè)圖像的表2中的真實(shí)數(shù)據(jù)值得到的估計(jì)拐角和拐角估計(jì)值之間的總絕對(duì)差(TAD)。例如,對(duì)于圖像1,表3中的TAD是如此計(jì)算出來(lái)的,即對(duì)表2和表3中的xl(或105.3-105=0.3);x2(或80-80=0);x3(2690.3-2690=0.3);x4(2665-2665=0);y1(50.4-50=0.4);y2(3504.4-3504=0.4);y3(64.6-64.1=0.5);和y4(3519.5-3519-0.5)取絕對(duì)差的和。因此,通過(guò)相加這些絕對(duì)差,圖像1的TAD為2.4。圖9示出了在ROMA圖像中估計(jì)線和估計(jì)拐角的例子。這是程序的可視化輸出,其中我們可以看到疊加在實(shí)際ROMA陣列上的估計(jì)線和估計(jì)拐角。<table>tableseeoriginaldocumentpage13</column></row><table>470.574.42656.52660.446.13500.140.93494.96.3570.574.42655.52659.446.63499.640.53493.53.7686.4卯.62669.42673.6111.83564.8105.23558.27.3780.282.92665.22667.9152.93606.9148.23602.26.88596226442647113.53567.5108.53562.53974.376.72657.32659.752.93505.951.13504.15.710421.3397.97239.57216.1265.58658.12008592.67.211421.3397.97239.57216.1265.58658.12008592.62.3121010.4992.51423814220512.917568377.8174335.45表3拐角的估計(jì)位置以及從整個(gè)圖像的用于拐角的真實(shí)數(shù)據(jù)中得到的總絕對(duì)差表4示出了每個(gè)估計(jì)像素的差異(DPEP)值以及作為探針尺寸的百分比的該值。這是在每個(gè)不同的掃描分辨率中的所有絕對(duì)差的和除以八倍的圖像數(shù)目(我們?yōu)槊總€(gè)圖像估計(jì)八個(gè)值)所得到的。每個(gè)探針是邊長(zhǎng)為16Mm的正方形。所以,在5jLim處,每個(gè)探針大約有3x3個(gè)像素。=Z7MD/(圖像總數(shù)*8)掃描尺寸每個(gè)估計(jì)值的差值每個(gè)探針的像素(16mm寬)探針尺寸的百分比5ym0.6097223x320.324072Mm0.593758x87.4218751jlim1.362516x168.515625表4每個(gè)估計(jì)值的絕對(duì)差以及作為探針尺寸的百分比因此,通過(guò)使用Radon變換,我們能夠精確地估計(jì)高密度ROMA圖像的拐角。在目前的數(shù)據(jù)集中,最大差值大約為探針尺寸的20%。這正意味著,為了找到最佳擬合的網(wǎng)格,在估計(jì)拐角周?chē)乃阉鲄^(qū)域最多需要是大約幾個(gè)像素。這將免去為了找到圖像的網(wǎng)格點(diǎn)而對(duì)人工介入的需要,從而允許此技術(shù)的大量部署。根據(jù)本發(fā)明的在此公開(kāi)的方法給出了使高分辨率的ROMA圖像轉(zhuǎn)換到數(shù)字的整個(gè)過(guò)程自動(dòng)化的良好前景。除了與ROMA—起使用,本公開(kāi)的方法還可以考慮與不同種類(lèi)的陣列一起使用,這些不同種類(lèi)的陣列包括基因表達(dá)陣列、單核苷酸多態(tài)性(SNP)陣列、CpG島陣列、啟動(dòng)子微陣列、蛋白質(zhì)-DNA相互作用陣列和其他包括在拐角上具有"空白"探針的、用人工方法非常難估計(jì)的微陣列的陣列。此外,借助與Radon變換結(jié)合的快速傅里葉變換,可以發(fā)現(xiàn)正弦波,該正弦波可能發(fā)生在掃描儀以高分辨率工作的時(shí)候。此外,我們相信我們的算法的擴(kuò)展將可能使微陣列上的容量翻一倍,并且可以使用芯片上的所有地方,而不是如現(xiàn)在所使用的以使探針能正確被讀取的棋盤(pán)模式。與上述僅對(duì)直線進(jìn)行Radon投影的方法相類(lèi)似,為了補(bǔ)償正弦變化,我們可以沿著變化頻率的正弦曲線、在不同的相位處和在不同的幅度處投影圖像,以尋找最合適的正弦曲線和旋轉(zhuǎn)角度。此方法將能夠?qū)φ易兓M(jìn)行補(bǔ)償并且能夠以更佳的精度定位探針。需要這樣的投影,以尋找所選擇的Radon變換的局部極小值,并且查看極小值的和是否在闞值之內(nèi)。在沒(méi)有正弦變化的情況下,這些極小值接近于0。否則,將存在比背景噪聲大一點(diǎn)的值,該值可以觸發(fā)此正弦變化補(bǔ)償步驟被執(zhí)行。為了估計(jì)探針,我們?yōu)樽罴呀嵌取㈩l率、相位和幅度尋找Radon變換的局部極大值,并且在水平和垂直兩個(gè)方向上將這些局部極大值投影回成像空間中。這些線的交點(diǎn)給出了探針的位置。本公開(kāi)的方法還可以考慮用于1)以子采樣或剪裁的方式處理圖像,以改善處理的速度一一這在較高密度或批處理中將是十分重要的;2)對(duì)解碼到數(shù)據(jù)進(jìn)行處理。一種選擇是在空間域中解碼剪裁的矩陣。這也可以基于傅里葉變換數(shù)據(jù)來(lái)實(shí)現(xiàn)。雖然已經(jīng)關(guān)于本發(fā)明的具體實(shí)施例描述了本發(fā)明,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到,在不偏離本發(fā)明的精神和范圍的情況下,可以實(shí)現(xiàn)許多修改、改進(jìn)和/或改變。因此,明確的是本發(fā)明僅由權(quán)利要求書(shū)及其等同物的范圍限定。權(quán)利要求1.一種在具有圖像空間的高密度和高分辨率微陣列掃描圖像中自動(dòng)識(shí)別微陣列芯片的拐角和探針的方法,該方法包括以下步驟(a)將Radon變換應(yīng)用于輸入的微陣列圖像,以將該圖像投影到角度和距離空間中,在該空間中可以找到直線的取向;(b)將快速傅里葉變換應(yīng)用于步驟(a)的所述投影圖像,并且應(yīng)用啟發(fā)式算法,以尋找該投影圖像的最佳傾角;(c)應(yīng)用啟發(fā)式算法,以為所述最佳傾角確定最佳的第一個(gè)和最后一個(gè)局部極大值;(d)將所確定的第一個(gè)和最后一個(gè)局部極大值反投影到所述圖像空間中,以尋找所述圖像的第一個(gè)列線和最后一個(gè)列線的第一近似;(e)旋轉(zhuǎn)所述圖像并重復(fù)步驟(a)至(d),以尋找所述圖像的頂部行線和底部行線的第一近似;(f)從所述列線和行線的交點(diǎn)中確定所述圖像的四個(gè)拐角的第一近似;(g)應(yīng)用啟發(fā)式算法,以確定步驟(f)的所述第一近似是否足夠;以及(h)可選地,在所述四個(gè)拐角的第一近似周?chē)藜羲鰭呙鑸D像并且重復(fù)步驟(a)至(f)。2.根據(jù)權(quán)利要求1所述的方法,其中,所述微陣列掃描圖像是從選自由以下項(xiàng)組成的組中的成員所產(chǎn)生的圖像代表性寡核苷酸微陣列分析、基因表達(dá)陣列、單核苷酸多態(tài)性陣列、CgP島陣列、啟動(dòng)子微陣列和蛋白質(zhì)-DNA相互作用陣列。3.根據(jù)權(quán)利要求1所述的方法,其中,在所述圖像中的誤差失真包括梯形失真效應(yīng)。4.根據(jù)權(quán)利要求1所述的方法,其中,在所述圖像中的誤差失真包括正弦的或彎曲的探針位置線而不是直的位置線。5.根據(jù)權(quán)利要求1所述的方法,其中,所述掃描圖像的分辨率為1、2或5微米。6.根據(jù)權(quán)利要求1所述的方法,其中,用Cy3和Cy5熒光團(tuán)掃描所述掃描圖像。7.根據(jù)權(quán)利要求1所述的方法,其中,所述掃描圖像是由包含大約85000個(gè)探針到大約400000個(gè)探針的芯片產(chǎn)生的。8.根據(jù)權(quán)利要求1所述的方法,該方法進(jìn)一步包括估計(jì)一個(gè)或多個(gè)探針的位置的步驟。9.根據(jù)權(quán)利要求1所述的方法,該方法進(jìn)一步包括以子采樣或剪裁的方式處理所述圖像的步驟。10.根據(jù)權(quán)利要求1所述的方法,該方法進(jìn)一步包括將所述圖像數(shù)據(jù)轉(zhuǎn)換為生物活性度量的步驟。全文摘要一種在具有圖像空間的高密度和高分辨率微陣列掃描圖像中,即使在拐角處不存在探針的情況下也能自動(dòng)識(shí)別微陣列芯片的拐角和探針的方法,其中,該方法通過(guò)將多遍拐角尋找算法應(yīng)用到所述圖像上使得在掃描過(guò)程中產(chǎn)生的圖像中的誤差失真最小化,所述方法包括(a)將Radon變換應(yīng)用于輸入的微陣列圖像,以將該圖像投影到角度和距離空間中,在該空間中可以找到直線的取向;(b)將快速傅里葉變換應(yīng)用于步驟(a)的所述投影圖像10,以尋找該投影圖像的最佳傾角;(c)確定所述最佳傾角的最佳第一個(gè)和最后一個(gè)局部極大值;(d)將所述確定的第一個(gè)和最后一個(gè)局部極大值反投影到所述圖像空間中,以尋找所述圖像的第一個(gè)列線和最后一個(gè)列線的第一近似;(e)旋轉(zhuǎn)所述圖像并重復(fù)步驟(a)至(d),以尋找所述圖像的頂部行線和底部行線的第一近似;(f)從所述列線和行線的交點(diǎn)中確定所述圖像的四個(gè)拐角的第一近似;(g)應(yīng)用啟發(fā)式算法,以確定步驟(f)的所述第一近似是否足夠;以及(h)可選地,在所述四個(gè)拐角的第一近似周?chē)藜羲鰭呙鑸D像并且重復(fù)步驟(a)至(f)。文檔編號(hào)G06K9/32GK101553824SQ200780044539公開(kāi)日2009年10月7日申請(qǐng)日期2007年12月3日優(yōu)先權(quán)日2006年12月1日發(fā)明者J·D·沙弗,L·阿尼霍特里,N·蒂米特羅瓦申請(qǐng)人:皇家飛利浦電子股份有限公司