欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于通過譜分析鑒定dna模式的方法和系統(tǒng)的制作方法

文檔序號:6454198閱讀:175來源:國知局

專利名稱::用于通過譜分析鑒定dna模式的方法和系統(tǒng)的制作方法
技術領域
:本發(fā)明涉及用于促進DNA譜分析的系統(tǒng)和方法,更特別地,涉及利用圖像處理技術和/或信號處理方法以使得DNA序列數(shù)據(jù)的處理整體上或部分自動化和/或加速的系統(tǒng)和方法。根據(jù)本發(fā)明的示例性實施方案,本發(fā)明提供了支持一或多種下述DNA譜分析(spectmlanalysis)技術的系統(tǒng)或方法(i)比較直方圖(comparativehistogram)方法;(ii)使用支持向量機(supportvectormachines)和遺傳算法的選擇/分類;和(iii)基于來自DNA序列數(shù)據(jù)的譜圖提取(spectrogramextractions)的譜卑見步頁(spectrovideo)方去。2.
背景技術
生物信息學尋求將大量生物學數(shù)據(jù)組織為可用于產(chǎn)生有用知識的可理解的信息。在生物信息學領域,已經(jīng)開發(fā)了用于DNA序列譜分析的技術。譜分析技術通常代表了在手工DNA模式分析技術之上的進步,所述手工DNA模式分析技術目標是辨識作為與重要生命過程相關的生物學標記的DNA模式。傳統(tǒng)上,在由表示四種核苷酸堿基的四個字母A、T、C和G組成的DNA序列鏈上直接進行自動分析。然而,由于DNA序列的巨大長度(例如最短的人類染色體長度是46.9Mb)、與有限的字母組相關的模式集合的巨大范圍、以及該問題的統(tǒng)計學性質(zhì),這樣一種直觀的/手工的方法對于達到所希望的目的即使不是不可能的,也是非常低效的。DNA譜分析提供了一種方法以系統(tǒng)地解決從DNA序列數(shù)據(jù)中得到有用信息的問題。通常,DNA譜分析包括在一段DNA序列中辨識每一種核苷酸堿基的發(fā)生作為個體數(shù)字信號,并將四種核苷酸信號的每一種變換至一個頻域(frequencydomain)。接下來可以利用頻率分量(fr叫uencycomponent)的數(shù)值得到一種核苷酸堿基模式以此頻率重復的強度。較高數(shù)值/值通常提示所述重復(repetition)更強烈的表現(xiàn)。為了提高結(jié)果的可讀性,現(xiàn)有技術公開了一些體系,其中每一種核苷酸堿基用一種顏色表示,四種堿基的頻譜(fr叫uencyspectrum)合并在一起,表示為顏色譜圖。這些技術由下列文獻描述D.Anastassiou,"Frequency-DomainAnalysisofBiomolecularSequences,"Bioinformatics,Vol.16,No.12,December2000,pp.1073-1081;和D.Sussillo,A.KundajeandD.Anastassiou,"SpectrogramAnalysisofGenomes,"EURASIPJournalonAppliedSignalProcessing,SpecialIssueonGenomicSignalProcessing,Vol,2004,No.1,January2004,pp.29-42.將核苷酸堿基的數(shù)值/值翻譯為可視圖像,即譜圖(spectrogram),是用于DNA分析的有力的可視化工具。得到的像素顏色可提示四種堿基在特定頻率的相對強度,并且將DNA序列表示為有色圖像使得模式更易于通過視覺檢測辨識。通常,一個譜圖區(qū)域的色調(diào)反映其整體核苷酸組成,譜圖中亮線和斑點顯示特殊重復模式的存在。可以將用于生成DNA譜圖的算法或技術總結(jié)為如下五步。(i)建立正對四種核苷酸堿基的二值指示符系列(binaryindicatorsequences(BISs))uA[n],uT[n]和uG[n]。針對一個特定堿基的BIS在存在所述堿基的位置取值為"l",否則取值為"0"。因此,在一個具有核苷酸序列"AACTGGCATCCGGGAATAAGGTCT"的示例性DNA序列中,BIS翻譯如下AACTGGCATCCGGGAATAAGGTCT...uA[n]=110000010000001101100000uT[n]=000100001000000010000101...ue[n]=001000100110000000000010...ueM=000011000001110000011000,..上述示例性BIS模式復制于圖1?;谏鲜鯠NA序列,可以將BIS值如下作圖(復制于圖2):<image>imageseeoriginaldocumentpage10</image>(ii)肌游/^教/f屋^/"變翁D/續(xù)feFow*7V應/om,DF"。接下來通過使用方程(l)計算每一種堿基相應BIS的DFT獲得每一種堿基的頻譜^[*]=1>%[">",a^o,i,…,L肌2」+iz二乂,:t,c或g(i)序列C7/^/提供了在頻率A:的頻率組成(frequencycontent)的度量(measure),其與A^:樣本(sample)的基礎周期(underlyingperiod)相等(復制于圖3)。#(UAn<formula>formulaseeoriginaldocumentpage10</formula>(iii)搭Z)7F遣狹教至^^顏色。將四個DFT序列通過下列線性方程組減少為RGB空間中的三個序列,所述方程總稱為方程(2):Xr[A;]=a凡[A:]+[it]+cr"c[A]+gr"G(2)W=、^[A]+[A]+cg(/cW+gg"G其中(^,"g,A)、(",G,4)、(Cr,Cg,Q)和fe,&,A)是分別針對核苷酸堿基A、T、C和G的顏色映射向量。因此得到的像素顏色(《[k],Zg[k],A[k])是顏色映射向量的疊加,通過其各自核苷酸堿基的頻率分量的數(shù)值進行加權,如下所示并復制于圖4。<image>imageseeoriginaldocumentpage11</image>圖5和圖6進一步說明了根據(jù)本發(fā)明的示例性實施方案的DFT值至顏色的映射。因此,參考圖5,顏色向量針對各種核苷酸堿基A、T、C和G分別進行選擇。在選擇顏色向量時,通常希望提高和/或增強DNA特征的顏色對比?;谑纠灶伾蛄浚瑢FT值合并在顏色空間中,如圖6所示。也可以使用其他映射技術和/或方案,例如可以將DFT值映射至HueSaturationValue(HSV空間)、YCrCb空間^V」搭像z素^f/7—眾。在形成顏色譜圖前,通常將每一個像素的RGB值歸一化,從而使它們落入0和1之間。有多種途徑實現(xiàn)所述歸一化功能。最簡單的方法是用全部值除以全局最大值(globalmaximum)。然而,這種一步方法可能降低圖像的整體顏色對比。一個更好的方法是在兩個水平進行歸一化在第一水平,用全部像素值除以一個統(tǒng)計學最大值,所述統(tǒng)計學最大值例如等于整體平均值(overallmean)加上一個標準偏差,從而在此初始運算后,大部分像素的RGB值在0和1之間;之后,在第二水平,對于剩下的具有任何大于一的RGB值的像素,第二水平的歸一化通過用每一個這種像素值除以其局部最大值mw(x,,xg,A)而一個一個進行。這種兩水平方法避免了圖像的整體強度由于更極端的像素值被過度降低,并且作為結(jié)果,譜像的顏色對比可以被更好地保留。圖7示出了圖6中合并的DFT值的示例性歸一化作圖。(v)^"好像K^"務f57zoW-"weFowWwrra似/om2,S7F7)。直到今天,只有單一離散傅里葉變換(DFT)窗口被考慮。然而對于長DNA序列,對于沿著序列移動的DFT窗口可能需要重復步驟(i)至(iv)。這產(chǎn)生顏色像素的連續(xù)條帶,其中每一條帶代表一個局部DNA片段的頻譜。之后由這些條帶的串聯(lián)形成DNA譜圖。下面列出的圖像復制于圖8和9。a)5,麵05dna片段的顏色f15頻率普b)3,stft窗口Yz;4+頻率10,位置dna片段的顏色譜已知在D.Anastassiou的論文("Frequency-DomainAnalysisofBiomolecularSequences,"Bioinformatics,Vol.16,No.12,December2000,pp.1073-1081)中,稱為方程(8)的方程組提出步驟(ii)和(iii)的順序可以顛倒,即可以首先將四個二值指示符序列減少為三個數(shù)字序列,&,a),之后再進行離散傅里葉變換(DFT)。但是,這需要進一步的證明,因為所述二值指示符序列不是獨立函數(shù)。譜圖的樣子受短時傅里葉變換(STFT)窗口大小的選擇、兩個相鄰窗口之間重疊序列的長度、以及顏色映射向量的影響很大?;旧希翱诖笮Q定了譜圖中像素值的有效范圍。較大的窗口產(chǎn)生顯示得自較長DNA局部片段的統(tǒng)計學的譜圖,并在辨識較寬模式中是有用的。通常,應當使窗口大小比感興趣的重復模式的長度大幾倍,同時小于包含所述模式的區(qū)域的大小。窗口重疊(windowoverlap)決定了兩個相鄰STFT窗口中共有的DNA片段的長度。因此,所述重疊越大,頻譜從一個STFT窗口向下一個窗口的過渡就越是漸進的。越小的窗口間隔得到越高的圖像分辨率,從而越容易通過圖像處理或視覺檢測提取特征。但是,更小的間隔也通常要求更多的計算資源。參考授予Newdl的美國專利No.6,287,773,公開了一種用于在待測核酸序列例如特征未知的EST中檢測功能性比對的蛋白質(zhì)序列的已知模塊(block)的方法。所述Newell'773方法包括(a)用密碼子使用表將蛋白質(zhì)序列組逆翻譯為一組功能性比對的核酸序列,并由所述功能性比對的核酸序列組產(chǎn)生模式(profile);(b)針對所述模式構(gòu)建第一指示函數(shù)(腺嘌呤);(c)針對所述待測核酸序列構(gòu)建第二指示函數(shù)(腺嘌呤);(d)計算每一個指示函數(shù)的傅里葉變換;(e)對第二指示函數(shù)的傅里葉變換進行復共軛;(f)將第一指示函數(shù)的傅里葉變換和復共軛后的第二指示函數(shù)的傅里葉變換相乘得到匹配的腺嘌呤堿基數(shù)目的傅里葉變換;(g)針對鳥嘌呤、胸腺嘧啶和胞嘧啶重復步驟(b)-(f);(h)將分別針對每一種堿基的匹配數(shù)目的傅里葉變換相加,得到總傅里葉變換(totalFouriertransform);(i)計算所述總傅里葉變換的傅里葉逆變換得到一個復級數(shù);和(j)取所述級數(shù)的實部確定對于與所述待測序列相關的模式的可能延遲(lag)的多樣性的堿基匹配的總數(shù)。所述第一指示函數(shù)使得在給定位置的值作為在特定位置腺嘌呤的百分比存在(percentagepresence)的函數(shù)在O和1之間連續(xù)。所述方法接下來可以基于針對可能延遲(lag)的多樣性的堿基匹配的總數(shù)檢測待測核酸序列中功能性比對的蛋白質(zhì)序列的已知模塊的存在,即促進序列匹配。盡管直至現(xiàn)在已經(jīng)付出很多努力,但是仍然需要促進基因組信息迅速可視化的系統(tǒng)和方法。另外,也需要促進辨識重復DNA模式的系統(tǒng)和方法,所述重復DNA模式例如CpG島、Alu重復、非編碼RNA、串聯(lián)重復和各種類型的衛(wèi)星重復。還需要能夠辨識顯示相似譜性質(zhì)的結(jié)構(gòu)上或組成上相似的模式的工具。這些工具將與用于以線性順序或核苷酸表象對序列進行比對的序列比對工具不同。進一步地,還需要用于促進使用監(jiān)督和/或無監(jiān)督機器學習技術迅速、全面地分析譜圖像的系統(tǒng)和方法。另外,還需要用于提高譜圖像序列的分辨率的系統(tǒng)和方法,例如以使得完整基因組以希望的分辨率被迅速可視化。本發(fā)明公開的系統(tǒng)和方法滿足了這些以及其他需要。
發(fā)明內(nèi)容本發(fā)明提供了對于促進DNA譜分析有益的系統(tǒng)和方法,更特別地,提供了使用圖像處理技術和/或信號處理方法以使DNA序列數(shù)據(jù)的處理整體上或部分自動化和/或加速的系統(tǒng)和方法。如本文中更加詳細地描述的那樣,本發(fā)明的示例性系統(tǒng)和方法支持一或多種下述DNA譜分析技術:(i)比較直方圖方法;(ii)使用支持向量機和遺傳算法的選擇/分類;(iii)無監(jiān)督分類和發(fā)現(xiàn)結(jié)構(gòu)新穎的DNA片段;和(iv)基于得自DNA序列數(shù)據(jù)的譜圖提取的譜視頻方法。本發(fā)明公開的系統(tǒng)和方法有很多優(yōu)點,包括(i)促進基因組信息的可視化,(ii)辨識重復DNA模式,例如CpG島、Alu重復、串聯(lián)重復、衛(wèi)星重復等等,(iii)使用監(jiān)督和/或無監(jiān)督機器學習技術迅速、全面地分析譜圖像,和(iv)提高譜圖像序列的分辨率,例如以使得完整基因組以可變的及所希望的分辨率被迅速可視化。根據(jù)本發(fā)明的第一個方面,通過應用傅里葉變換將由字母A、T、C、G組成的用符號表示的DNA序列變換為突出顯示DNA模式共發(fā)生周期性(periodicitiesofco-occurrence)的可視表現(xiàn)而生成DNA譜圖。本發(fā)明的系統(tǒng)和方法通過應用圖像處理算符以在DNA譜圖的垂直和水平方向上發(fā)現(xiàn)顯著特征而促進重復DNA模式的辨識和/或定位。使用監(jiān)督和/或無監(jiān)督機器學習方法(machinelearningmethod)進行衍生的譜圖像的迅速、全面分析。在監(jiān)督模式中,根據(jù)本發(fā)明檢測并對重復DNA模式分類的兩種示例性方法包括(a)比較直方圖方法,和(b)包括使用支持向量機和遺傳算法的特征選擇和分類的技術。本發(fā)明的圖像處理算符對于辨識和/或定位DNA模式是有效的,所述DNA模式例如CpG島、Alu重復、非編碼RNA(例如微小RNA和核仁小分子RNA)、串聯(lián)重復、各種類型的衛(wèi)星重復等等??梢允褂盟鰣D像處理算符在多種生物學系統(tǒng)中辨識和/或定位重復元件,例如在染色體中、在基因組中、或跨(across)各種物種基因組辨識和/或定位。本發(fā)明的系統(tǒng)和方法克服了現(xiàn)有方法的局限,即處理DNA序列或基因組產(chǎn)生極大量的譜像,但是這些圖像不能以有效的和可靠的方式得到或闡明重復模式的定位和/或?qū)⑦@些重復模式與生物學意義或臨床意義聯(lián)系起來。根據(jù)本發(fā)明的第二個方面,通過將DNA序列變換為二值指示符序列并接下來應用短時傅里葉變換并映射至顏色空間以使得輸出結(jié)果可視化而生成DNA譜圖。所述DNA譜圖沿著DNA序列滑動以產(chǎn)生視頻圖像。所述稱為"譜視頻(spectrovideo)"的視頻圖像可以生成自非常長的DNA序列例如長DNA序列如染色體或完整基因組,以促進其可視化。與同一段序列的傳統(tǒng)DNA譜圖相比,本發(fā)明的譜視頻具有更高的分辨率。另外,本發(fā)明的譜視頻促進了基因組在短時間內(nèi)以所希望的分辨率被可視化??梢允褂米V視頻分析提供或促進全基因組分析和/或在全長DNA模式(或其所希望的部分)中檢測變化。對于譜視頻來說,可以使用場景變換檢測(scenechangedetection)方法發(fā)現(xiàn)線性可視特征中的中斷(break)。另外,對于譜視頻中的每一個場景,可以從譜區(qū)域(spectraldomain)中提取統(tǒng)計學特征。進一步地,來自全部(或基本上完整)的譜視頻的單個場景可以使用監(jiān)督聚類方法(clusteringmethod)進行聚類。事實上,可以使用本發(fā)明的無監(jiān)督視頻特征檢測方法在譜DNA水平辨識和/或揭示全基因組相似性(genome-widesimilarities)。因此這些分析技術可以用于自動DNA分析,例如發(fā)現(xiàn)基因網(wǎng)絡、重要基序、重復DNA元件、和其他顯著DNA模式。從下面的詳細描述中,特別是當與附圖結(jié)合閱讀時,可以清楚地看到本發(fā)明的系統(tǒng)和方法的其他有益特點和功能。為了有助于本領域普通技術人員制造和使用本發(fā)明的系統(tǒng)和方法,給出關于附圖的參考,其中-圖1示出了根據(jù)本發(fā)明使用的譜成像(spectralimaging)技術對于一段DNA序列的示例性二值指示符序列(BIS);圖2示出了圖1中示出的示例性BIS的作圖;圖3示出了圖1和2中的示例性BIS的離散傅里葉變換(DFT);圖4闡明了圖3中示例性DFT值至顏色空間的映射;圖5闡明了圖3中示例性DFT值至顏色空間基于說明性顏色向量(illustrativecolorvector)的映射;圖6示出了根據(jù)本發(fā)明DFT值在顏色空間中的求和;圖7示出了顏色空間中DFT求和值的歸一化作圖;圖8是一段DNA序列的示例性顏色譜(以灰度復制);圖9是根據(jù)本發(fā)明示例性DNA片段的多個顏色譜條帶的示例性串聯(lián);圖lO是示例性CpG島的譜像;圖11是圖10的CpG島的譜像,限制為紅色和綠色;圖12示出了根據(jù)本發(fā)明一系列去噪后的譜圖;圖13是根據(jù)本發(fā)明基于綠色和紅色的譜圖的譜圖像和邊緣測量(edgemeasurements);圖14示出了提取自示例性基于RGB的譜圖的邊緣和與其相關聯(lián)的相關CpG島分類;圖15示出了根據(jù)本發(fā)明的示例性比較直方圖方法/技術的流程圖;圖16和17是示出使用通過顏色映射得到的譜圖的邊緣直方圖進行CpG島檢測的示例性作圖;圖18示出了根據(jù)本發(fā)明的示例性遺傳算法-支持向量機(GA-SVM)方法/技術的流程圖;圖19示出了根據(jù)本發(fā)明的用于產(chǎn)生譜視頻的示例性方法/技術的流程圖;圖20是得自根據(jù)本發(fā)明的示例性譜視頻的圖像。示例性實施方案描述本發(fā)明的系統(tǒng)和方法促進DNA譜分析。如本文所述,示例性系統(tǒng)和方法支持和/或利用下列DNA譜分析技術中的一種或幾種:(i)比較直方圖方法;(ii)使用支持向量機和遺傳算法的選擇/分類;和(iii)基于得自DNA序列數(shù)據(jù)的譜圖提取的譜視頻方法。根據(jù)本發(fā)明可以實現(xiàn)許多益處,例如(i)提高基因組信息的可視化,(ii)辨識重復DNA模式例如CpG島、Alu重復、非編碼RNA、串聯(lián)重復、衛(wèi)星重復等等,(iii)無監(jiān)督分類和發(fā)現(xiàn)結(jié)構(gòu)新穎的DNA片段;(iv)使用有監(jiān)督的和/或無監(jiān)督的機器學習技術迅速、全面分析譜圖像,和(iv)提高譜圖像序列的分辨率,例如以使得完整基因組以所希望的分辨率被迅速可視化。根據(jù)本發(fā)明的系統(tǒng)和方法,DNA譜圖以傳統(tǒng)方式產(chǎn)生,如前文所詳細描述的并參考圖l一9。例如,可以使用需要下列五個步驟的傳統(tǒng)算法或技術產(chǎn)生DNA譜圖(i)建立^對拜辨^穿麼滅基游二^^示,序^^'"^7zW/c她r化《we"cesz^/""J、wj/""_/、wc/"7浙"g/""7。如上所述,示例性BIS模式復制于圖1,所述BIS值的作圖示于圖2。(ii)^S游庸教/,I/^變凍(E^"。通過使用方程(l)(復制如下)計算每一種堿基相應BIS的DFT獲得每一種堿基的頻譜W-l—^jtn""W=i;"x["]fi,t=0'l,...,L^/2」+lZ-AT'C或G(1)如圖3所|萄°明的,序列t/A/提供了在頻率A的頻率組成的度量,其與A^樣本的基礎周期相等。(iii)/孕D7F澄俠嚴至iG5廯色。將四個DFT序列通過一組線性方程減少為RGB空間中的三個序列,所述方程復制如下<formula>formulaseeoriginaldocumentpage18</formula>(2)<formula>formulaseeoriginaldocumentpage18</formula><formula>formulaseeoriginaldocumentpage18</formula>其中(A,"g,W),("~,&),(CV,Cg,Q)和(&,&,^)是分別針對核苷酸堿基A、T、C和G的顏色映射向量。因此得到的像素顏色(《[k],Xg[k],A[k])是顏色映射向量的疊加,通過其各自核苷酸堿基的頻率分量的數(shù)值進行加權(見圖4)。圖5和圖6闡明了DFT值至顏色的映射。(iv)將像素值歸一化。在形成顏色譜圖前,通常將每一個像素的RGB值歸一化,從而落入0和1之間。圖7示出了圖6中合并的DFT值的示例性歸一化作圖。(v)嚴好/莩屋/^變襲(S7F"o—幅DNA譜圖由各個DNA序列條帶的串聯(lián)形成,其中每一條帶通常代表一個局部DNA片段的頻譜(見圖8和9)。根據(jù)本發(fā)明,CpG島可以從產(chǎn)生的DNA譜圖像中方便地提取。CpG島在基因組中含有5-甲基胞嘧啶的生物體中是基因的啟動子區(qū)域中重要的生物學標記,并且在脊椎動物中CpG島在細胞分化和基因表達調(diào)節(jié)中起重要作用。CpG島被Gardiner-Garden和Frommer定義為具有至少200個堿基對(bp)的區(qū)域,其中C+G含量大于50%并且觀察到的/預期的CpG比例大于0.6。CpG島也被Takai和Jones定義為大于500bp的區(qū)域,其中C+G核苷酸含量至少為55%并且觀察到的/預期的CpG比例為0.65。注意Takai和Jones的定義的目的是將CpG島更可能地還原為與基因的5'區(qū)域相聯(lián)系,并且排除大部分Alu重復元件。在兩種定義中,觀察到的/預期的CpG比例通過(C的數(shù)目xG的數(shù)目/片段長度)得到。參考圖10,示出了在中心顯示CpG島的兩幅示例性譜圖。STFT窗口大小選擇為120堿基對(bp),相鄰兩個窗口之間重疊119bp。注意在從譜圖像中提取CpG時,通常不需要將A和T、C和G區(qū)分開。因此,不需要使用四個顏色向量分別用于四種核苷酸堿基,可以使用兩個顏色向量,例如紅(1,0,0)用于A和T,綠(O,l,O)用于C和G。相應譜圖示于圖11,并且在兩幅圖像中,CpG島與背景的對比度都更好。這種對于顏色向量的選擇也使得可以僅僅考慮紅色和綠色顏色分量,而藍色分量可以忽略。因此,本發(fā)明的顏色選擇技術使得和/或促進圖像的生成,其中特征更加易于分辨,即通過采用最佳顏色配置(optimalcolorscheme)得到更強的提取性能。通常,圖像特征檢測方法可以包括三個步驟(i)圖像去噪,(ii)提取分類特征,和(iii)通過評估所述分類特征做出決定。根據(jù)本發(fā)明的系統(tǒng)和方法,不需要譜圖像的去噪,盡管通??梢酝ㄟ^包括進一個適當?shù)娜ピ氩襟E得到更強的結(jié)果。圖像去噪原譜像含有噪聲,除去噪聲可以提高或增強檢測可靠性、效率和/或性能。譜像的去噪可以使用一個或多個形態(tài)運算(morphologicaloperation)實I見。例如,通過進行形態(tài)開(morphologicalopening)之后進行形態(tài)閉(morphologicalclosing),可以除去弱像素的小區(qū)域。之后,一起關閉的含有強像素的區(qū)域可以合并。去噪通常在綠色和紅色顏色空間中分別進行。仔細選擇用于形態(tài)運算的結(jié)構(gòu)元素(structuralelement)的形狀和大小,從而使噪聲被過濾掉,同時有用的詳細信息保留在譜圖中。已經(jīng)發(fā)現(xiàn)高度為l像素、長度為50像素的矩形結(jié)構(gòu)元素可以為與檢測CpG島相關的去噪運算提供有效參數(shù)。示例性去噪后的譜圖示于圖12,其中左邊圖像僅包括綠色和紅色通道圖像,相應右邊圖像為形態(tài)"閉"后進行"開"過濾之后。分類特征的提取通過視覺檢測已經(jīng)發(fā)現(xiàn)在CpG島中,綠色(表示C和G)的強度通常強于紅色(表示A和T)。另外,紅色的強度在區(qū)域中典型地均勻地低,即基本上均一,但是在綠色空間中強度有較大波動,這從一個或多個亮點聚類(cluster)來看是很明顯的。為了探討前述均一/不均一問題,本發(fā)明的系統(tǒng)和方法有利地促進更強地提取分類特征。因此,根據(jù)本發(fā)明的示例性實施方案,在去噪之后的譜圖上分別在綠色和紅色空間中進行'Sobel,邊緣檢測。如本領域通常已知的,Sobel算符是計算圖像強度函數(shù)的梯度逼近(approximationofthegradient)的離散微分算符(discretedifferentiationoperator)。在圖像上的每一點,Sobel算符的結(jié)果或者是相應梯度向量,或者是這個向量的模。也可以使用其他邊緣檢測技術而不超出本發(fā)明的主要精神或范圍,例如Canny邊緣檢測器(Cannyedgedetector)。將Sobel邊緣檢測應用于去噪的譜圖得到邊緣的二元圖像,其相應于與其相鄰像素具有較大強度差別的像素。已經(jīng)經(jīng)常發(fā)現(xiàn)在綠色空間中比在紅色空間中有更多的邊緣像素相應于CpG島。通過邊緣檢測生成的二元圖像通過分別沿著x軸(STFT窗口位置)和y軸(譜頻率)計數(shù)邊緣像素的數(shù)目被進一步處理。作為結(jié)果,得到四幅直方圖對于綠色和紅色空間的x-和y-直方圖。最后,通過對于每一幅計算移動平均值(movingaverage)使前述直方圖平滑。圖13示出了反映對于基于綠色和紅色的譜圖的邊緣讀數(shù)的示例性譜像。圖13的左欄示出原始圖像,右欄示出在應用具有正方形2x2掩模的Sobel邊緣檢測之后的相應圖像。右邊的圖像示出水平和垂直邊緣直方圖。因此,分類特征的提取受一系列參數(shù)的影響,所述參數(shù)可用本發(fā)明的系統(tǒng)和方法研究。影響分類特征的提取并根據(jù)本發(fā)明控制的參數(shù)包括(i)邊緣檢測方法,(ii)邊緣檢測的閾值,和(iii)移動平均值窗口的大小。通過評估分類特征做出決定當一幅譜圖像的分類特征被辨識,即可根據(jù)本發(fā)明的系統(tǒng)/方法預期可以提供用于CpG島的分類器(classifier)。用于產(chǎn)生分類器的兩種示例性方法是(i)固定閾值方法(fixed-thresholdapproach),禾叩i)遺傳算法/支持向量機(GA-SVM)方法。在本發(fā)明的固定閾值方法中,以如下途徑方便地提取CpG島(i)(x一直方圖—綠色-x—直方圖—紅色)>閾值(在此實例中=2)(ii)棄去滿足(1)的長度<200bp的區(qū)域。(m)合并同時滿足(l)和(2)并且間隔小于100bp的區(qū)域。參考圖14,邊緣從將堿基'A,、T,映射至紅色和'C,、'G,映射至綠色的顏色譜圖中提取。顯示為紅色和綠色的邊緣像素從相應顏色空間中獨立提取。可以使用另一種顏色例如黃色表示與紅色和綠色邊緣共存相關的結(jié)果。如從示例性圖13中非常明顯地看到的,對于CpG島,在直方圖中沿著x軸的綠色像素的計數(shù)明顯超過紅色像素的計數(shù)?;谇懊嫠龅腃pG島辨識準則,一個CpG島被辨識為位于該DNA片段的1102至1322位核苷酸。作為比較,基于Gardiner的和Takai的定義的CpG島也示于圖14,即Gardiner(855,1524)和Takai(744,1243)。應當注意,本文列出的CpG島辨識準則與Gardiner的和Takai的定義/準則相比是更加嚴格的,至少對于圖14中的示例性譜圖來說如此。對于本領域技術人員來說顯而易見的是,CpG島辨識準則可以通過改變可用參數(shù)值而調(diào)整。因此,在更廣泛的意義上來說,本發(fā)明的示例性直方圖比較系統(tǒng)和方法包括下列步驟、圖15中示出其流程圖。盡管本文示出的步驟順序代表了本發(fā)明的系統(tǒng)/方法,但是應當明白本發(fā)明的系統(tǒng)和方法不限于本文示出的順序。另外,本發(fā)明的系統(tǒng)和方法并不排除引入一或多個可以進一步增強或促進辨識過程的額外步驟,本發(fā)明的系統(tǒng)和方法的范圍也不限于進行本文公開的每一個步驟的實現(xiàn),這從本文提供的詳細描述中可以明顯看到。示例性比較直方圖/固定閾值處理系統(tǒng)和方法1.向本發(fā)明的系統(tǒng)/方法輸入長度為M的DNA序列參數(shù)N-STFT窗口大小,q-重疊,p-視分辨率(其中Mp>N)2.將長度為N的輸入DNA序列變換為二值指示符序列;3.將短時傅里葉變換(STFM)應用于所述二值指示符序列并產(chǎn)生頻域向量;4.將對于A、T、C和G的頻域向量映射至顏色空間,例如RGB(紅-綠-藍)或HSV(色調(diào)-飽和度-值)顏色空間;5.使用傳統(tǒng)邊緣檢測方法(例如Sobel或Canny邊緣檢測器)將邊緣檢測應用于DNA譜圖像;6.針對來自RGB的紅色、綠色、藍色分量(或HSV分量,如果使用HSV顏色空間)通過使用邊緣投影(edgeprojection)分別計算水平和垂直直方圖。直方圖也可以表示合并的顏色。例如C和G可以合并,并由綠色分量表示,A和T可以合并以表示紅色分量;7.評估直方圖數(shù)據(jù)。例如,對于CpG島,可以使用下述提取準則(1)(x一直方圖J錄色-X-直方圖—紅色)>閾值(例如等于2)(2)棄去滿足(l)的長度〈200bp的區(qū)域。(3)合并同時滿足(l)和(2)并且間隔小于100bp的區(qū)域。8.將滿足評估準則的DNA片段標記為重復元件,并且標記/記錄起始和終止位置(例如CpG島)。對于完整基因組和/或跨基因組,也有其他類型的DNA序列可以在結(jié)構(gòu)水平表現(xiàn)重復特征。近來認識到重要功能性作用可以通過非編碼RNA進行和/或與非編碼RNA相關。產(chǎn)生發(fā)夾結(jié)構(gòu)的DNA序列代表了一類這樣的非編碼RNA。例如,微小RNA(miRNA)是轉(zhuǎn)錄后調(diào)節(jié)基因表達的小RNA。麻省理工學院Whitehead學院的生物學教授DavidBartel認為miRNA可能調(diào)節(jié)人類全部基因的三分之一(CW/,CellPress,January14,2005)。本發(fā)明的處理技術典型地通過在合適的處理單元(processingunit)上運行/操作的合適的軟件/程序?qū)崿F(xiàn)。所述處理系統(tǒng)可以是獨立運行的,例如個人計算機,或者與網(wǎng)絡相聯(lián)系(內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、通過因特網(wǎng)溝通的分布式網(wǎng)絡等等)。所述處理單元/系統(tǒng)典型地與合適的記憶/存儲設備溝通,例如為了接觸包含與本發(fā)明的系統(tǒng)/方法相關聯(lián)的參數(shù)和值的軟件/程序、數(shù)據(jù)庫,以及為了(短期和長期)存儲通過本發(fā)明的系統(tǒng)/方法產(chǎn)生的值/數(shù)據(jù)/圖像。本發(fā)明的處理單元/系統(tǒng)還典型地與一或多個輸出系統(tǒng)溝通以展示和/或記錄根據(jù)本發(fā)明生成的值/數(shù)據(jù)/圖像,所述輸出系統(tǒng)例如打印機、監(jiān)視器等等。因此,簡而言之,本發(fā)明的系統(tǒng)和方法易于進行基于計算機和/或處理器的實現(xiàn),如本領域技術人員已知的。對于本發(fā)明的示例性GA-SVM方法/技術,使用具有遺傳算法的支持向量機評估一組特征(例如一組基于圖像的特征)的質(zhì)量并對其進行分級(rank)。在示例性實施方案中,本發(fā)明的評估/分級功能性(fimctionality)對于辨識例如CpG島是有效的。另外,也可以使用遞歸特征消除方法(recursivefeatureeliminationmethod)和/或主成分分析(principalcomponentanalysis)以發(fā)現(xiàn)顯著特征。注意,現(xiàn)有CpG島定義,例如Gardiner和Takai的定義,指導本發(fā)明的系統(tǒng)和方法的實現(xiàn),盡管其他定義也可以適用,這對于本領域技術人員是顯而易見的。本發(fā)明的GA-SVM方法/技術的一個典型目的是發(fā)現(xiàn)用于CpG島分類的特征。本發(fā)明的GA-SVM方法/技術通常包括使用具有遺傳算法的支持向量機評估一組特征的質(zhì)量并對其進行分級,例如用于辨識CpG島。因此,例如可以使用本發(fā)明的GA-SVM方法/技術從具有給定長度的DNA片段,例如長度為200個堿基的DNA片段中提取已確定數(shù)目的特征,例如127個特征。根據(jù)本發(fā)明的示例性實施方案,所述特征集合的組成如下(特征總數(shù)=127):綠色像素數(shù)目(1)紅色像素數(shù)目(l)綠色邊緣像素數(shù)目(l)紅色邊緣像素數(shù)目(l)綠色邊緣像素數(shù)目減去紅色邊緣像素數(shù)目(l)沿著頻率軸的紅色邊緣直方圖計數(shù)(61)沿著頻率軸的綠色邊緣直方圖計數(shù)(61)可以使用各種CpG島定義,例如Gardiner的和/或Takai的CpG島定義?;谒x擇的定義,典型地根據(jù)本發(fā)明的GA-SVM方法/技術生成大量特征,例如對于每一個譜像127個特征??傊鶕?jù)本發(fā)明的一個示例性實施方案,使用3206個DNA片段,這些片段被變換為譜圖。所述特征集合從表現(xiàn)CpG或非CpG類別的譜圖中提取。根據(jù)本發(fā)明,使用輸入數(shù)據(jù)的預定百分比"訓練"所述支持向量 機,例如可以使用輸入數(shù)據(jù)的三分之二訓練SVM(見下表)。剩余數(shù)據(jù)(例如總數(shù)的三分之一)用于本發(fā)明的GA-SVM方法/技術的測試目的。初步結(jié)果已經(jīng)顯示在上述127個特征中,最佳特征集合由57個元素組成,并且已經(jīng)達到了最佳準確性67%。本發(fā)明的示例性GA-SVM方法/技術包括下列運算參數(shù)序列總數(shù):<table>tableseeoriginaldocumentpage24</column></row><table>實驗次數(shù)100,000如本文所描述的,示例性實施基于將堿基'A'、'T'和'C'、'G'分別分組至紅色和綠色的顏色映射設置(scheme)。在這些實施中,只需要在提取算法中考慮紅色和綠色分量以辨識CpG島。但是,根據(jù)本發(fā)明,也可以使用其他顏色映射設置,在這種情況下可能需要考慮全部其他三層顏色R、G和B(或HSV)。如果合適,可以調(diào)整特征集合和選擇準則以進行另外的顏色映射設置,基于本文提供的詳細描述,這對于本領域技術人員是顯而易見的。參考圖16和17,給出了CpG島檢測結(jié)果,其中在使用顏色映射得到的譜圖中使用邊緣直方圖。用于特征選擇和分類的示例性GA-SVM系統(tǒng)和方法1.輸入向本發(fā)明的系統(tǒng)/方法輸入長度為M的DNA序列參數(shù)N-STFT窗口大小,q-重疊,p-視分辨率(其中Mp>N)2。將長度為N的輸入DNA序列變換為二值指示符序列;3,將短時傅里葉變換(STFM)應用于所述二值指示符序列并產(chǎn)生頻域向量;4.將對于A、T、C和G的頻域向量映射至顏色空間,例如RGB或HSV;5.使用傳統(tǒng)邊緣檢測方法(例如Sobd或Canny邊緣檢測器)將邊緣檢測應用于DNA譜圖像;6.針對紅色、綠色、藍色分量(或HSV分量)通過使用邊緣投影分別計算水平和垂直直方圖。直方圖也可以表示合并的顏色。例如C和G可以合并,并由綠色分量表示,A和T可以合并以表示紅色分7.使用特征選擇方法評估一組顯著譜特征并對其進行分級,所述方法使用具有遺傳算法的支持向量機?;蛘?,可以使用遞歸特征消除方法和/或主成分分析以發(fā)現(xiàn)顯著特征。例如可以使用下述特征127個特征(提取自N個堿基長的DNA片段,其中N可以變化;在一個示例性實施方案中,N是200bp長)綠色像素數(shù)目(1)紅色像素數(shù)目(l)綠色邊緣像素數(shù)目(l)紅色邊緣像素數(shù)目(l)綠色邊緣像素數(shù)目減去紅色邊緣像素數(shù)目(l)沿著頻率軸的紅色邊緣直方圖計數(shù)(61)沿著頻率軸的綠色邊緣直方圖計數(shù)(61)8.使用得自上一步的頂級特征的一個子集設計/實現(xiàn)分類器。在本發(fā)明一個示例性實施方案中,使用支持向量機分類器;但是,也可以使用其他分類器而不背離本發(fā)明的精神或范圍,例如可以使用神經(jīng)網(wǎng)絡(neuralnetwork)、自組織映射(self-organizingmap,SOM)技術/系統(tǒng)及其他機器學習文獻中已知的分類器。所述分類器檢測未知的輸入DNA序列并將其分類進具有重復DNA結(jié)構(gòu)(例如CpG島)的子片段。9滿足評估準則的DNA片段被標記為重復元件,并且起始和終止位置被標注/記錄下來(例如CpG島)。圖18示出了用于特征選擇和分類的示例性GA-SVM系統(tǒng)/方^去的流程圖,如本文前面所描述的。如同上述比較直方圖/固定閾值處理系統(tǒng)和方法那樣,本發(fā)明的GA-SVM系統(tǒng)/方法典型地通過在合適的處理單元上運行/操作的合適的軟件/程序?qū)崿F(xiàn)。所述處理系統(tǒng)可以是獨立運行的,例如個人計算機,或者與網(wǎng)絡相聯(lián)系(內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、通過因特網(wǎng)溝通的分布式網(wǎng)絡等等)。所述處理單元/系統(tǒng)典型地與合適的記憶/存儲設備溝通,例如為了接觸包含與本發(fā)明的系統(tǒng)/方法相關的參數(shù)和值的軟件/程序、數(shù)據(jù)庫,以及為了(短期和長期)存儲通過本發(fā)明的系統(tǒng)/方法產(chǎn)生的值/數(shù)據(jù)/圖像。本發(fā)明的處理單元/系統(tǒng)還典型地與一或多個輸出系統(tǒng)溝通以展示和/或記錄根據(jù)本發(fā)明產(chǎn)生的值激據(jù)/圖像,所述輸出系統(tǒng)例如打印機、監(jiān)視器等等。因此,簡而言之,本發(fā)明的系統(tǒng)和方法易于進行基于計算機和/或處理器的實現(xiàn),如本領域技術人員己知的。本發(fā)明的比較直方圖/固定閾值和GA-SVM系統(tǒng)/方法具有很寬的適用性和用途。例如重復DNA譜分析可以用于迅速全基因組分析和用于辨識/發(fā)現(xiàn)長DNA序列的顯著模式。事實上,辨識這些模式可用于DNA序列的表觀基因組分析(epigenomicanalysis),這對于研究和診斷癌癥、衰老和發(fā)育疾病是重要的和/或有用的。值得注意的是監(jiān)督和無監(jiān)督分類都可以在不將FFT結(jié)果映射至顏色空間的情況下進行。可以從所述4-變換的二值指示符序列中直接提取特征。在這種情況下,輸入是FFT變換二值指示符序列,而不是RGB譜像。歸一化可以是一個任選步驟。剩余分析在由合并以表示全向量(表示每一個DNA片段)的4-變換的指示序列組成的特征向量上進行。用于從譜圖生成譜視頻的系統(tǒng)/方法本發(fā)明的另一方面公開了用于從與DNA序列相關的譜圖生成譜視頻的系統(tǒng)/方法。非常長的DNA序列(例如可達1億5千萬堿基長的染色體)的頻譜以任何所希望的分辨率都不能擬合進單一譜圖框。不同于只看單幅圖像,本發(fā)明的示例性系統(tǒng)和方法促進從譜圖生成連續(xù)的視頻。本發(fā)明的譜視頻基本上相應于跨基因組或感興趣的其他DNA序列"移鏡(panning)"。通過譜視頻,實現(xiàn)了在短時間內(nèi)和以所希望的分辨率使基因組可視化。另外,譜視頻的分析提供了全基因組分析并使得檢測全長DNA模式中的改變成為可能。與同一序列的譜圖相比,本發(fā)明的譜視頻提供了同一序列更高的分辨率。如本文所公開的,譜視頻的生成和應用提供了大量優(yōu)點和/或功能性,包括-連續(xù)觀察完整基因組,而不是保存及顯示單幅譜圖;節(jié)省時間譜視頻通過將DNA譜圖接在一起產(chǎn)生,而每次觀察一幅譜圖是非常耗費時間的;分析連續(xù)線性基因組模式。在低分辨率,這些模式可能延展超出單一譜圖范圍。使長序列在希望的分辨率和細節(jié)的精細水平可視化。能夠在觀察譜視頻進行中改變分辨率。例如當一種感興趣的模式出現(xiàn)時,本發(fā)明的系統(tǒng)/方法促進立即"跳"進特定子序列的更詳細的細節(jié)中。本發(fā)明用于將譜圖翻譯為譜視頻的系統(tǒng)/方法可以通過軟件/計算機程序?qū)崿F(xiàn)。根據(jù)本發(fā)明一個示例性實施方案,提供軟件/程序以在處理單元/計算機上進行運算,這種軟件適于通過跨DNA序列(例如從5,至3'端)逐步移鏡譜窗口而顯示完整DNA序列(或所希望的一部分)的頻譜。本文描述了用于完成本發(fā)明的譜視頻的示例性程序/算法。同時參考圖19中列出的流程圖。用于生成譜視頻的示例性算法/程序(1)輸入向本發(fā)明的系統(tǒng)/方法輸入長度為M的DNA序列參數(shù)N-STFT窗口大小,q-窗口間隔(N-窗口重疊),p-視分辨率(視頻圖像的寬度),和v-視速度,即每幀視頻移動的譜圖像欄(column)的數(shù)目(其中Mp>N)。(2)初始化S=l;r=l。(3)對于全長DNA序列的長度為p的片段或子序列,在位置s開始;(4)在位置r開始將長度為N的輸入DNA序列變換為二值指示符序列;(5)將短時傅里葉變換應用于二值指示符序列并產(chǎn)生頻域向量;(6)將對于A、T、C和G的頻域向量映射至顏色空間,例如RGB或HSV顏色空間;(7)如果(r-s+l)<p,則將結(jié)果可視化并向前移動q個核苷酸r=r+q。轉(zhuǎn)至步驟4。(8)如果之前沒有顯示DNA譜像,則顯示譜像。r=r+q。轉(zhuǎn)至步驟4。(9)如果(r-s+l)<p+vq,則從譜像中刪除第一欄并將最新生成的欄添加在最后。r=r+q。轉(zhuǎn)至步驟4。(10)如果(r-s+l)>=p+vq,貝U顯示譜像。s=S+Vq。r=r+q。(11)如果(r+N-l)<=M,則轉(zhuǎn)至步驟4。(12)根據(jù)每個用戶的要求調(diào)整視速度v。正常速度是每幀視頻移動l欄。參考圖20,示出了來自一段譜視頻的示例性圖像。如圖20的圖像(其受限于是靜止的而不是移動的圖像)中顯而易見的那樣,本發(fā)明的相關于譜視頻的系統(tǒng)和方法提供了用于回顧和分析DNA序列的顯著優(yōu)點,例如用于已知和未知生物標記的檢測。另外,對于譜視頻可以使用場景變換檢測方法發(fā)現(xiàn)線性可視特征中的中斷。對于譜視頻中的每一個場景,可以從譜區(qū)域中提取統(tǒng)計學特征。進一步地,來自全部(或基本上完整)的譜視頻的單個場景可以使用無監(jiān)督聚類方法進行聚類。事實上,可以使用如下更加詳細地討論的無監(jiān)督視頻特征檢測方法在譜DNA水平辨識和/或揭示全基因組相似性。因此這些分析技術可以用于自動DNA分析,例如尋找基因網(wǎng)絡、重要基序、譜和結(jié)構(gòu)重復DNA元件、和其他顯著DNA模式。無監(jiān)督譜圖和譜視頻分析根據(jù)本發(fā)明的示例性實施方案,譜圖可以用于無監(jiān)督探索基因調(diào)節(jié)元件和網(wǎng)絡。事實上,根據(jù)本發(fā)明可以預期大規(guī)模譜圖分析以發(fā)現(xiàn)重要調(diào)節(jié)元件??梢允褂脽o監(jiān)督方法例如層次聚類(hierarchicalclustering)以確定最普遍的模式的分組。通常可以辨識/定位遍布基因組的最常見的模式而無需依賴核苷酸發(fā)生的線性相關性(即簡單統(tǒng)計度量)。生物信息學中的傳統(tǒng)方法使用多序列比對以發(fā)現(xiàn)超保守片段(ultra-conservedsegment)。然而,通過譜分析,可以使用本發(fā)明的系統(tǒng)和方法辨識基因組中發(fā)生的進化的和/或緩慢改變的變化,以及非超保守但是通常保守的元件。使用大規(guī)模譜圖分析技術,本發(fā)明的系統(tǒng)和方法促進基因組的掃描并聚焦于譜保守序列一從發(fā)生的模式的相似頻率的角度。不同于關注線性核苷酸順序,本發(fā)明的系統(tǒng)/方法方便地檢查可能只有從譜表現(xiàn)來看才是明顯的,而用序列比對則很難辨別的結(jié)構(gòu)特征。本發(fā)明的技術/方法的一個優(yōu)點是單一染色體內(nèi)每一種重復譜模式(repetitivespectralpattern)的分布可被例如跨整個染色體和基因組可視化。事實上,本發(fā)明的分析技術可以跨基因組應用以辨識已知的和新的模式。以這種方式可以有效地鑒定長重復元件,例如從幾百堿基對到幾十萬堿基對,例如Alu、短發(fā)夾結(jié)構(gòu)(例如微小RNA)、SINE、LINE、和CpG島。另外,可以顯示不同分辨率的模式在200bp窗口中和在100Kbp長的窗口中。這促進了新類別的重復元件的檢測。在應用可使用的算法之前,可以掩蓋某些重復元件,例如用戶不感興趣的元件。本文下面描述了示例性的方法/算法步驟1.對于輸入DNA序列(例如染色體),用STFT窗口W(其中W〈L)生成長度為L(L是核苷酸數(shù)目)的譜圖S1,并且窗口重疊為V,其中V〈W。步驟2.向右移動R個核苷酸并生成譜圖Si直至到達DNA序列的末端。步驟3.對于在步驟1和2中成生的所有譜圖,進行基于圖像的無監(jiān)督聚類(例如k-均值聚類、層次聚類)。根據(jù)本發(fā)明的方法/算法所使用的示例性相似性度量(similaritymetric)包括任何基于圖像的相似性度量,例如生成C個聚類的L1度量。用于聚類的特征可以包括顏色、紋理、圖像中出現(xiàn)的特定對象線、方塊、對角線等等。步驟4.找到最大的聚類,取聚類的中心,并針對一個已知基因組資源進行搜索以發(fā)現(xiàn)這個聚類的元素的標簽類別。例如,這可以揭示在一個特定染色體上的最為重復的元件;步驟5.選擇(a)或(b)中的一個-(a)隨機選取距離聚類中心最遠的P幅譜圖,并進行類別標簽搜索。驗證它們也屬于同一類別。(b)使譜圖和在譜圖集合中的全部元件的類別標簽的類型對用戶可視化。如果一幅譜圖處于一個聚類中,其中心已知但是距離聚類中心較遠的譜圖未知,則指定新元件作為聚類中心的類別標簽并使區(qū)別可視化。步驟6.繼續(xù)對第二大的聚類進行操作,執(zhí)行/重復步驟(5)和(6)。繼續(xù)對下一個最大的聚類進行操作直至聚類中心一類別標記是未知的。記為K個聚類具有已知標記,U個聚類具有未知標記。步驟7.對于具有未知標記、具有相當聚類大小的(典型地,至少最大聚類中的元件的最大數(shù)目的半數(shù))所有U個聚類找到該模式的普遍性、在同一染色體中的統(tǒng)計學分布。找到跨染色體的統(tǒng)計學分布。步驟8.以給定的步長(例如步長=1)增加V并轉(zhuǎn)至步驟(l),直至V達到W的一半,之后轉(zhuǎn)至步驟(9)。步驟9.以給定的步長增加W并轉(zhuǎn)至步驟(1),直至W達到L的一半,之后轉(zhuǎn)至步驟(10)。步驟10.增加L并轉(zhuǎn)至步驟(l)。步驟11.在V、W、和L的每一個水平總結(jié)結(jié)果。如同對于本領域技術人員所顯而易見的,本發(fā)明的方法/算法可適于基于計算機的運算/實現(xiàn),從而促進其自動運算。事實上,本發(fā)明的方法/算法可以方便地以無監(jiān)督方式進行,從而無需用戶監(jiān)督和/或干預而生成用于DNA序列的V、W和L值。根據(jù)本發(fā)明,新元件可以使用步驟5通過關聯(lián)性(association)辨識,即本發(fā)明的方法/算法促進具有潛在顯著相似性的序列的辨識,所述相似性之前未被認識到和/或未被重視。事實上,得自第一物種的序列可以充分并且有效地與得自不同物種的已經(jīng)測序的基因組進行比較以在這些物種的DNA序列中確定和/或辨識潛在的新元件。另外,新類別的元件可以通過前述方法/算法的第7步中所述技術從DNA序列中辨識出來。這些類型可以根據(jù)本發(fā)明針對其他基因組充分并且有效地進行探索。本發(fā)明的方法/算法的進一步的應用包括基因組內(nèi)比較用于大規(guī)模分析的算法可以應用于已經(jīng)研究的基因組的每一條染色體。之后,全部聚類中心可用于進行整體聚類(overallclustering)以發(fā)現(xiàn)對于該基因組的功能性重要元件(跨染色體)。比較基因組學用于大規(guī)模分析的算法可以應用于已知的200十種已經(jīng)測序的基因組中的每一個基因組。之后,全部聚類中心可用于進行整體聚類以發(fā)現(xiàn)進化過程中的功能性保守元件。譜視頻分析以發(fā)現(xiàn)全基因組模式在本發(fā)明進一步的示例性實施方案和實現(xiàn)中,可以將場景變換檢測方法應用于根據(jù)上面描述的技術生成的譜視頻,以在重要的線性可視特征中發(fā)現(xiàn)中斷。對于每一個場景,可以提取來自譜域的統(tǒng)計學特征。另外,完整譜視頻中的單個場景可以使用無監(jiān)督聚類方法進行聚類。之后可以應用無監(jiān)督視頻特征檢測方法揭示譜DNA水平的全基因組相似性。之后可以將這些無監(jiān)督檢測方法的結(jié)果用于自動DNA分析,以發(fā)現(xiàn)基因網(wǎng)絡、重要基序、重復DNA元件和其他顯著DNA模式。用于進行這種無監(jiān)督檢測的示例性方法/算法描述如下步驟1.生成給定DNA序列(例如一部分或完整染色體)的譜視頻;步驟2.提取特征,例如給定窗口的水平和垂直邊緣直方圖、顏色、邊緣長度、特定柱上相同顏色的數(shù)目,等等;步驟3.發(fā)現(xiàn)譜剪切(spectro-cut),例如使用提取的特征發(fā)現(xiàn)連續(xù)模式一這個技術與在膠片中發(fā)現(xiàn)"剪切(CUt)"相似。步驟4.聚類場景,例如存儲每一個譜剪切的特征。事實上,可以使用這些特征聚類譜剪切,如同在視頻中聚類場景那樣。步驟5.發(fā)現(xiàn)具有最長元素的聚類,例如分類順序(sortorder)并使具有特定長度的"場景"可視化。步驟6.査詢同樣長度的譜元素,例如屬于單一場景的那些。相應于一個譜剪切的每一個片段可以針對已知基因組資源(例如NCBI)方便地査詢以確定任何己知的功能重要性。因此,本發(fā)明的系統(tǒng)、方法和技術提供了一系列在評估、確定和/或辨識DNA序列中的重復模式、以及將這些模式與生物學和/或臨床重要性相聯(lián)系的有價值的工具。盡管所述系統(tǒng)、方法和技術通過參考其示例性實施方案所描述,但是應當了解本發(fā)明不僅限于這些示例性實施方案。相反,如同對于本領域技術人員顯而易見的那樣,本發(fā)明的系統(tǒng)、方法和技術適于進行廣泛的變化、修飾和/或改進,而不背離本發(fā)明的精神或范圍。本發(fā)明在其范圍內(nèi)清楚地包括這些變化、修飾和/或改進。權利要求1.一種用于評估在DNA序列中存在值得注意的區(qū)域的方法,包括a.提供DNA序列;b.基于所述DNA序列生成多個譜圖;c.對于所述多個譜圖執(zhí)行至少一種下列功能(i)生成譜視頻,(ii)比較直方圖分析,(iii)大規(guī)模特征選擇和分類(例如對于已知DNA功能元件),和(iv)無監(jiān)督分類和發(fā)現(xiàn)結(jié)構(gòu)新穎的DNA元件。2.權利要求1的方法,其中所述DNA序列代表基因組、染色體或其部分。3.前述任一項權利要求的方法,其中所述多個譜圖的生成包括一或多個下列步驟(i)輸入DNA序列,(ii)將DNA序列變換為二值指示符序列,(iii)將短時傅里葉變換應用于二值指示符序列以產(chǎn)生頻域向量,(iv)將頻域向量映射至顏色空間,(v)將邊緣檢測應用于DNA譜圖像;和(vi)計算水平和垂直直方圖。4.前述任一項權利要求的方法,其中所述譜視頻的生成包括適于在處理單元上運行的算法。5.權利要求4的方法,其中所述算法包括-(a)輸入長度為M的DNA序列;參數(shù)N-STFT窗口大小,q-窗口間隔(N-窗口重疊),p-視分辨率(視頻圖像的寬度),和v-視速度,即每幀視頻移動的譜圖像欄的數(shù)目(其中Mp>N);(b)初始化S=l;r=l;(c)對于全長DNA序列的長度為p的片段或子序列,在位置s開始;(d)在位置r開始將長度為N的輸入DNA序列變換為二值指示符序列;(e)將短時傅里葉變換應用于二值指示符序列并產(chǎn)生頻域向量;(f)將對于A、T、C和G的頻域向量映射至顏色空間,例如RGB或HSV顏色空間;(g)如果(r-S+l)〈p,則將結(jié)果可視化并向前移動q個核苷酸r=r+q,轉(zhuǎn)至步驟(d);(h)如果之前沒有顯示DNA譜像,則顯示譜像,r=r+q,轉(zhuǎn)至步驟(d);(i)如果(r-s+l)<p+vq,則從譜像中刪除第一欄并將最新生成的欄添加在最后,r=r+q,轉(zhuǎn)至步驟(d);(j)如果(r-s+l)>=p+vq,則顯示譜像,s=s+vq,r=r+q;(k)如果(r+N-l)<=M,則轉(zhuǎn)至步驟(d);(1)根據(jù)每個用戶的要求調(diào)整視速度v,正常速度是每幀視頻移動l欄。6.前述任一項權利要求的方法,其中比較直方圖分析包括(a).輸入長度為M的DNA序列;參數(shù)N-STFT窗口大小,q-重疊,p-視分辨率(其中Mp>N);(b)將長度為N的輸入DNA序列變換為二值指示符序列;(c)將短時傅里葉變換(STFM)應用于所述二值指示符序列并產(chǎn)生頻域向量;(d)將對于A、T、C和G的頻域向量映射至顏色空間,例如RGB(紅-綠-藍)或HSV(色調(diào)-飽和度-值)顏色空間;(e)使用傳統(tǒng)邊緣檢測方法(例如Sobel或Canny邊緣檢測器)將邊緣檢測應用于DNA譜圖像;(f)針對紅色、綠色、藍色分量(或HSV分量)通過使用邊緣投影分別計算水平和垂直直方圖,直方圖也可以表示合并的顏色,例如C和G可以合并,并由綠色分量表示,A和T可以合并以表示紅色分量;(g)評估直方圖數(shù)據(jù),例如,對于CpG島,可以使用下述提取準則(i)&_直方圖_綠色-、直方圖—紅色)>閾值(例如等于2)(ii)棄去滿足(1)的長度<200bp的區(qū)域(iii)合并同時滿足(l)和(2)并且間隔小于100bp的區(qū)域(h)將滿足評估準則的DNA片段標記為重復元件,并且標記/記錄起始和終止位置(例如CpG島)。7.前述任一項權利要求的方法,其中特征選擇和分類包括-(a).輸入長度為M的DNA序列;參數(shù)N-STFT窗口大小,q-重疊,p-視分辨率(其中Mp>N)(b)將長度為N的輸入DNA序列變換為二值指示符序列;(c)將短時傅里葉變換(STFM)應用于所述二值指示符序列并產(chǎn)生頻域向量;(d)將對于A、T、C和G的頻域向量映射至顏色空間,例如RGB或HSV;(e)使用傳統(tǒng)邊緣檢測方法(例如Sobel或Canny邊緣檢測器)將邊緣檢測應用于DNA譜圖像;(f)針對紅色、綠色、藍色分量(或HSV分量)通過使用邊緣投影分別計算水平和垂直直方圖,直方圖也可以表示合并的顏色,例如C和G可以合并,并由綠色分量表示,A和T可以合并以表示紅色分量;(g)使用特征選擇方法評估一組顯著譜特征并對其進行分級,所述方法使用具有遺傳算法的支持向量機,或者,可以使用遞歸特征消除方法和/或主成分分析以發(fā)現(xiàn)顯著特征,例如可以使用下述特征127個特征(提取自N個堿基長的DNA片段,其中N可以變化;在一個示例性實施方案中,N是200bp長)綠色像素數(shù)目(1)紅色像素數(shù)目(l)綠色邊緣像素數(shù)目(l)紅色邊緣像素數(shù)目(l)綠色邊緣像素數(shù)目減去紅色邊緣像素數(shù)目(l)沿著頻率軸的紅色邊緣直方圖計數(shù)(61)沿著頻率軸的綠色邊緣直方圖計數(shù)(61)(h)使用得自上一步的頂級特征的一個子集設計/實現(xiàn)分類器,在本發(fā)明一個示例性實施方案中,使用支持向量機分類器;但是,也可以使用其他分類器而不背離本發(fā)明的精神或范圍,例如可以使用神經(jīng)網(wǎng)絡、自組織映射(SOM)技術/系統(tǒng)及其他機器學習文獻中已知的分類器,所述分類器檢測未知的輸入DNA序列并將其分類進具有重復DNA結(jié)構(gòu)(例如CpG島)的子片段;(i)將滿足評估準則的DNA片段標記為重復元件,并且標注/記錄起始和終止位置(例如CpG島)。8.前述任一項權利要求的方法,進一步包括無監(jiān)督探索所述DNA序列。9.權利要求8的方法,其中所述無監(jiān)督探索包括聚類技術。10.權利要求8或9的方法,其中所述無監(jiān)督探索包括-步驟1.對于輸入DNA序列(例如染色體),用STFT窗口W(其中W<L)生成長度為L(L是核苷酸數(shù)目)的譜圖S1,并且窗口重疊為V,其中V〈W;步驟2.向右移動R個核苷酸并生成譜圖Si直至到達所述DNA序列的末端;步驟3.對于在步驟1和2中生成的所有譜圖,進行基于圖像的無監(jiān)督聚類(例如k-均值聚類、層次聚類);根據(jù)本發(fā)明的方法/算法所使用的示例性相似性度量包括任何基于圖像的相似性度量,例如生成C個聚類的Ll度量。用于聚類的特征可以包括顏色、紋理、圖像中出現(xiàn)的特定對象線、方塊、對角線等等;步驟4.找到最大的聚類,取聚類的中心,并針對一個已知基因組資源進行搜索以發(fā)現(xiàn)這個聚類的元素的標簽類別,例如,這可以揭示Alu是在這個染色體上最為重復的元件;步驟5.選擇(a)或(b)中的一個(a)隨機選取距離聚類中心最遠的P幅譜圖,并進行類別標簽搜索,驗證它們也屬于同一類別;(b)使譜圖和在譜圖集合中的全部元素的類別標簽的類型對用戶可視化,如果譜圖處于聚類中,其中心已知但是距離聚類中心較遠的譜圖未知,則指定新元素作為聚類中心的類別標簽并使區(qū)別可視化;步驟6.繼續(xù)對第二大的聚類進行操作,執(zhí)行/重復步驟(5)和(6),繼續(xù)對下一個最大的聚類執(zhí)行操作直至聚類中心一類別標記是未知的,記為K個聚類具有已知標記,U個聚類具有未知標記;步驟7.對于具有未知標記、具有相當聚類大小的所有U個聚類找到該模式的普遍性、在同一染色體中的統(tǒng)計分布,找到跨染色體的統(tǒng)計分布;步驟8.以給定的步長(例如步長二l)增加V并轉(zhuǎn)至步驟(l),直至V達到W的一半,之后轉(zhuǎn)至步驟(9);步驟9.以給定的步長增加W并轉(zhuǎn)至步驟(l),直至W達到L的一半,之后轉(zhuǎn)至步驟(10);步驟IO.增加L并轉(zhuǎn)至步驟(1);步驟11.在V、W、和L的每一個水平總結(jié)結(jié)果。11.前述任一項權利要求的方法,其中辨識了一或多種DNA模式。12.權利要求11的方法,其中所述一或多種DNA模式包括至少一個CpG島、一或多個Alu重復、一或多個非編碼RNA、一或多個串聯(lián)重復、和一或多個衛(wèi)星重復。13.適于操作和/或執(zhí)行前述方法中的任一種的系統(tǒng)。14.權利要求13的系統(tǒng),包括至少一個處理器和適于完整或部分實現(xiàn)一或多項前述權利要求所述的方法步驟的程序。15.前述任一項權利要求的系統(tǒng)或方法,其中監(jiān)督和/或無監(jiān)督分類。16.權利要求15的系統(tǒng)或方法,其中所述監(jiān)督和/或無監(jiān)督分類在不將傅里葉變換結(jié)果映射至顏色空間的情況下進行。17.權利要求16的系統(tǒng)或方法,其中從傅里葉變換后的二值指示符序列中直接提取一或多個特征。18.權利要求17的系統(tǒng)或方法,其中所述分析在由合并以表示全向量的指示符序列組成的特征向量上進行。19.權利要求18的系統(tǒng)或方法,其中全向量表示每一個DNA片段。20.前述任一項權利要求的系統(tǒng)或方法,其中歸一化是任選步聰3求。全文摘要從2001年開始已知從DNA序列提取譜圖。通過應用傅里葉變換將由字母A、T、C、G組成的用符號表示的DNA序列變換為突出顯示DNA模式共發(fā)生周期性的可視表現(xiàn)而生成DNA譜圖。對于給定DNA序列或完整基因組,使用這種方法可以容易地生成大量譜像。但是,困難的部分在于闡明重復模式在哪里,以及將它們與生物學和臨床意義聯(lián)系在一起。本發(fā)明提供了促進定位和/或辨識重復DNA模式的系統(tǒng)和方法,所述重復DNA模式例如CpG島、Alu重復、串聯(lián)重復和各種類型的衛(wèi)星重復。這些重復元件可以在染色體中、在基因組中、或跨各種物種基因組發(fā)現(xiàn)。本發(fā)明的系統(tǒng)和方法應用圖像處理算符以在DNA譜圖的垂直和水平方向上發(fā)現(xiàn)顯著特征。本發(fā)明還公開了使用監(jiān)督機器學習方法對產(chǎn)生的譜圖像進行迅速、全面分析的系統(tǒng)和方法。本發(fā)明的用于檢測和/或?qū)χ貜虳NA模式分類的系統(tǒng)和方法包括(a)比較直方圖方法,(b)使用支持向量機和遺傳算法的特征選擇和分類,和(c)從多幅譜圖像生成譜視頻。文檔編號G06F19/00GK101401101SQ200780008687公開日2009年4月1日申請日期2007年3月7日優(yōu)先權日2006年3月10日發(fā)明者N·迪米特羅娃,Y·H·張申請人:皇家飛利浦電子股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
陵川县| 正镶白旗| 南涧| 邮箱| 拜泉县| 湟中县| 忻城县| 东乌| 高邮市| 泽州县| 江源县| 延川县| 桃园县| 绍兴县| 茌平县| 温泉县| 浦东新区| 朝阳区| 梅河口市| 绥棱县| 呼图壁县| 福建省| 商河县| 白沙| 哈巴河县| 谷城县| 中西区| 龙口市| 长春市| 禄劝| 洛阳市| 泽普县| 镇安县| 新蔡县| 繁峙县| 通渭县| 漳平市| 延寿县| 安多县| 句容市| 吉安市|