專利名稱:利用基因組測(cè)序診斷胎兒染色體非整倍性的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及通過(guò)確定不同核酸序列間的失衡來(lái)診斷檢測(cè)胎兒染色體非整倍 性,更具體而言,涉及經(jīng)由檢測(cè)母體樣品(如血液)來(lái)確定21三體性(trisomy 21)(唐氏 綜合征)和其他染色體非整倍性。
背景技術(shù):
胎兒染色體非整倍性是由異常劑量的染色體或染色體區(qū)的存在導(dǎo)致的。異常劑量 可以是異常地高,如在21三體性中存在額外的21號(hào)染色體或染色體區(qū);或異常地低,如在 特納綜合征中缺乏X染色體的拷貝。胎兒染色體非整倍性如21三體性的常規(guī)產(chǎn)前診斷方法涉及,通過(guò)侵入性方法如 羊膜穿刺或絨毛膜絨毛取樣對(duì)胎兒的材料進(jìn)行取樣,但這造成胎兒流失(fetal loss)的有 限風(fēng)險(xiǎn)。無(wú)創(chuàng)方法,如通過(guò)超聲波掃描術(shù)或生物化學(xué)標(biāo)記物的篩查,已用于在確定的侵入性 診斷方法前,將孕婦進(jìn)行風(fēng)險(xiǎn)分級(jí)。然而,這些篩查方法通常測(cè)量與染色體非整倍性如21 三體性有關(guān)的副現(xiàn)象,而不是核心染色體異常,因此診斷的準(zhǔn)確性未達(dá)最佳標(biāo)準(zhǔn),且具有諸 如受孕齡(gestational age)過(guò)度影響等的其他缺點(diǎn)。1997年,在母體血漿中發(fā)現(xiàn)了循環(huán)的無(wú)細(xì)胞胎兒DNA,這為無(wú)創(chuàng)產(chǎn)前診斷提供了 新的可能性(Lo,YMD and Chiu, RffK 2007 Nat Rev Genet 8,71-77)。盡管這種方法易于 應(yīng)用于伴性病癥(Costa, JM et al. 2002 N Engl JMed 346,1502)和某些單基因病癥(Lo, YMD et al. 1998 N Engl J Med 339,1734-1738)的產(chǎn)前診斷,但是,該方法的產(chǎn)前檢測(cè)胎兒 染色體非整倍性的應(yīng)用依然代表相當(dāng)大的挑戰(zhàn)(Lo,YMD and Chiu,RffK 2007,同上)。首先, 胎兒核酸和母體來(lái)源的高背景核酸共存于母體血漿中,而母體來(lái)源的高背景核酸經(jīng)常干擾 胎兒核酸的分析(Lo,YMD et al. 1998 Am J Hum Genet62,768-775)。其次,胎兒核酸主要 以無(wú)細(xì)胞的形式在母體血漿中循環(huán),這使得難以獲得胎兒基因組的基因或染色體的劑量信 肩、ο近年來(lái),已取得了克服這些挑戰(zhàn)的顯著發(fā)展(Benachi,A & Costa,JM2007 Lancet 369,440-442)。一種方法是,檢測(cè)母體血漿中的胎兒特異性核酸,因而克服了母體背景干擾 的問(wèn)題(Lo,YMD and Chiu, RffK 2007,同上)。21號(hào)染色體的劑量由胎盤來(lái)源的DNA/RNA分子中多態(tài)性等位基因的比值來(lái)推斷。然而,當(dāng)樣品中含有較低量的靶核酸時(shí),這種方法的 準(zhǔn)確性較低,并且僅可適用于對(duì)靶多態(tài)性是雜合的胎兒,如果使用一種多態(tài)性,則該靶核酸 僅是群體的一個(gè)亞群。
Dhallan 等(Dhallan,R, et al. 2007,同上,Dhallan,R, et al. 2007 Lancet369, 474-481)描述了通過(guò)向母體血漿中添加甲醛富集循環(huán)的胎兒DNA比例的替代策略。母體血 漿中胎兒所提供的21號(hào)染色體序列的比例,通過(guò)評(píng)估21號(hào)染色體上單核苷酸多態(tài)性(SNP) 的父本遺傳的胎兒特異性等位基因與非胎兒特異性等位基因的比值來(lái)確定。同樣,計(jì)算參 照染色體的SNP比值。隨后,通過(guò)檢測(cè)21號(hào)染色體的SNP比值和參照染色體的SNP比值 間的統(tǒng)計(jì)學(xué)顯著差異來(lái)推斷胎兒21號(hào)染色體的失衡,其中利用小于等于0. 05的固定ρ值 來(lái)定義顯著。為了確保高度的群體覆蓋度,每條染色體靶向多于500的SNP。然而,存在有 關(guān)甲醛將胎兒DNA富集至高比例的效率的爭(zhēng)論(Chung,GTY,et al. 2005 Clin Chem 51, 655-658),因此,該方法的再現(xiàn)性需要進(jìn)一步評(píng)估。另外,由于每個(gè)胎兒和母親會(huì)提供每條 染色體的許多不同的SNP,所以SNP比值比較的統(tǒng)計(jì)學(xué)檢驗(yàn)的效力會(huì)因情況不同而不同(Lo YMD & Chiu,RWK. 2007 Lancet 369,1997)。此外,由于這些方法依賴于遺傳多態(tài)性的檢測(cè), 因此它們限于對(duì)這些多態(tài)性是雜合的胎兒。利用由21三體性和整倍體胎兒獲得的羊水細(xì)胞培養(yǎng)物中21號(hào)染色體基因座和 參照基因座的聚合酶鏈?zhǔn)椒磻?yīng)(PCR)和DNA定量,Zimmermann等(2002 Clin Chem 48, 362-363)基于21三體性胎兒的羊水細(xì)胞培養(yǎng)物的21號(hào)染色體DNA序列增加1. 5倍,能區(qū) 分這兩組胎兒。因?yàn)镈NA模板濃度中的2倍差異僅構(gòu)成了一個(gè)閾值循環(huán)(Ct)的差異,所以 1. 5倍的差異的區(qū)分是常規(guī)實(shí)時(shí)PCR的極限。為了實(shí)現(xiàn)較好程度的定量區(qū)分,需要替代策 略。已經(jīng)研發(fā)了檢測(cè)核酸樣品中等位基因比值偏移(allelic ratio skewing)的數(shù)字 PCR(Chang,HW et al. 2002 J Natl Cancer Inst 94,1697-1703)。數(shù)字 PCR 是基于擴(kuò)增的 核酸分析技術(shù),其要求將含有核酸的樣品分布于大量離散的樣品中,在所述離散樣品中,每 個(gè)樣品平均含有不多于約1個(gè)靶序列。通過(guò)數(shù)字PCR,用序列特異性引物擴(kuò)增特異性核酸靶 標(biāo)來(lái)產(chǎn)生特異性擴(kuò)增子。在核酸分析前,確定或選擇待靶向的核酸基因座和待包括于反應(yīng) 中的序列特異性引物的種類或組。臨床上,已經(jīng)證明,數(shù)字PCR可以用于檢測(cè)腫瘤DNA樣品中的雜合性丟失(LOH) (Zhou, W. et al. 2002 Lancet 359,219-225)。為了分析數(shù)字PCR的結(jié)果,以前的研究采用 序貫概率比檢驗(yàn)(sequential probability ratiotesting, SPRT)來(lái)將實(shí)驗(yàn)結(jié)果分類為表 示樣品中存在或不存在 LOH(ElKaroui et al. 2006 Stat Med 25,3124-3133)。在以前的研究所用的方法中,由數(shù)字PCR所收集的數(shù)據(jù)的量相當(dāng)?shù)?。因此,少量?數(shù)據(jù)點(diǎn)和典型的統(tǒng)計(jì)性漲落使得準(zhǔn)確性受到損害。因此期望具有高度敏感性和特異性的無(wú)創(chuàng)檢測(cè),以便分別將假陰性和假陽(yáng)性減少 到最低限度。然而,胎兒DNA以低的絕對(duì)濃度存在,并代表母體血漿和血清中全部DNA序列 的較少部分。因此,也期望具有通過(guò)使遺傳信息的量最大化以允許胎兒染色體非整倍性的 無(wú)創(chuàng)檢測(cè)的方法,所述遺傳信息的量可由含有母體背景核酸的生物樣品中作為較少部分存 在的數(shù)量有限的胎兒核酸推斷。發(fā)明概述
本發(fā)明的實(shí)施方案提供了確定從孕婦獲得的生物樣品中是否存在核酸序列失衡(如染色體失衡)的方法、系統(tǒng)和裝置。利用與生物樣品中其他非臨床相關(guān)染色體區(qū)(背景 區(qū))有關(guān)的臨床相關(guān)染色體區(qū)的量的參數(shù),可以進(jìn)行這種確定。一方面,通過(guò)對(duì)母體樣品, 如尿、血漿、血清和其他合適的生物樣品中的核酸分子進(jìn)行測(cè)序來(lái)確定染色體的量。對(duì)生物 樣品中的核酸分子進(jìn)行測(cè)序,以便對(duì)基因組部分進(jìn)行測(cè)序。為了確定與參照數(shù)量相比的變 化(即失衡)是否存在,選擇了一個(gè)或多個(gè)截止值(cutoff value),例如關(guān)于兩個(gè)染色體區(qū) (或染色體區(qū)組)的量的比值。根據(jù)一示例性的實(shí)施方案,分析從孕婦接收的生物樣品來(lái)進(jìn)行胎兒染色體非整倍 性的產(chǎn)前診斷。生物樣品包括核酸分子。對(duì)含于生物樣品中的一部分核酸分子進(jìn)行測(cè)序。 一方面,所獲得的遺傳信息的量對(duì)診斷的準(zhǔn)確性是足夠的,然而并未過(guò)量,以便控制成本和 所需的生物樣品的輸入量?;跍y(cè)序,由鑒定為來(lái)源于第一染色體的序列,確定第一染色體的第一量。由鑒定 為來(lái)源于第二染色體之一的序列,確定一條或多條第二染色體的第二量。隨后,將第一量和 第二量的參數(shù)與一個(gè)或多個(gè)截止值進(jìn)行比較?;诒容^,確定對(duì)于第一染色體,是否存在胎 兒染色體非整倍性的分類。測(cè)序有利于使遺傳信息的量最大化,所述遺傳信息的量可由數(shù) 量有限的作為較少部分存在于含有母體背景核酸的生物樣品中的胎兒核酸推斷。根據(jù)一示例性的實(shí)施方案,分析從孕婦接收的生物樣品來(lái)實(shí)施胎兒染色體非整倍 性的產(chǎn)前診斷。生物樣品包括核酸分子。確定生物樣品中胎兒DNA的百分比?;谠摪俜?比,基于期望的準(zhǔn)確性,計(jì)算待分析的序列的數(shù)量N。對(duì)生物樣品中所含有的至少N個(gè)核酸 分子進(jìn)行隨機(jī)測(cè)序?;陔S機(jī)測(cè)序,由鑒定為來(lái)源于第一染色體的序列,確定第一染色體的第一量。由 鑒定為來(lái)源于第二染色體之一的序列,確定一條或多條第二染色體的第二量。隨后,將第一 量和第二量的參數(shù),與一個(gè)或多個(gè)截止值進(jìn)行比較?;诒容^,確定對(duì)于第一染色體,是否 存在胎兒染色體非整倍性的分類。隨機(jī)測(cè)序有利于使可由數(shù)量有限的作為較少部分存在于 含有母體背景核酸的樣品中的胎兒核酸推斷的遺傳信息的量最大化。本發(fā)明的其他實(shí)施方案涉及與本文所述方法相關(guān)的系統(tǒng)和計(jì)算機(jī)可讀介質(zhì)。參考下文詳細(xì)的描述和附圖,可獲得對(duì)本發(fā)明的特征和優(yōu)點(diǎn)的更好理解。附圖簡(jiǎn)述
圖1是本發(fā)明實(shí)施方案的方法100的流程圖,該方法100用于在從孕婦個(gè)體獲得 的生物樣品中進(jìn)行胎兒染色體非整倍性的產(chǎn)前診斷。圖2是本發(fā)明實(shí)施方案的方法200的流程圖,該方法200用于利用隨機(jī)測(cè)序進(jìn)行 胎兒染色體非整倍性的產(chǎn)前診斷。圖3A表示本發(fā)明的實(shí)施方案的,與21三體性或整倍體胎兒有關(guān)的母體血漿樣品 中21號(hào)染色體序列的百分比表現(xiàn)度(percentage!·印resentation)的圖表。圖3B表示本發(fā)明的實(shí)施方案的,通過(guò)大規(guī)模并行測(cè)序和微流體數(shù)字 PCR(microfluidics digital PCR)所確定的母體血菜胎兒DNA分?jǐn)?shù)濃度間(fractional fetal DNA concentration)的相關(guān)性。圖4A表示本發(fā)明的實(shí)施方案的,每條染色體的比對(duì)的序列百分比表現(xiàn)度的圖表。圖4B表示圖4A所示的21體情況和整倍體情況間,每條染色體的百分比表現(xiàn)度中的差異(%)的圖表。圖5表示本發(fā)明的實(shí)施方案的,與21三體性胎兒有關(guān)的母體血漿中,21號(hào)染色體 序列過(guò)度表現(xiàn)(over-r印resentation)的程度和胎兒DNA分?jǐn)?shù)濃度間的相關(guān)性。圖6表示根據(jù)本發(fā)明的實(shí)施方案分析的一部分人類基因組的表。T21表示從與21 三體性胎兒有關(guān)的妊娠獲得的樣品。圖7表示本發(fā)明的實(shí)施方案的,從21三體性胎兒中區(qū)分整倍體所需的序列數(shù)量的
表。 圖8A表示本發(fā)明的實(shí)施方案的,與21號(hào)染色體比對(duì)的被測(cè)序的標(biāo)簽的前10個(gè)起 始位置的表。圖8B表示本發(fā)明的實(shí)施方案的,與22號(hào)染色體比對(duì)的被測(cè)序的標(biāo)簽的前10個(gè)起 始位置的表。圖9表示可與本發(fā)明實(shí)施方案的系統(tǒng)和方法一起使用的示例性計(jì)算機(jī)裝置的方 框圖。定義本文所用術(shù)語(yǔ)“生物樣品”指從個(gè)體(如諸如孕婦的人)采集的含有一個(gè)或多個(gè) 感興趣的核酸分子的任何樣品。術(shù)語(yǔ)“核酸”或“多核苷酸”指單鏈或雙鏈形式的脫氧核糖核酸(DNA)或核糖核 酸(RNA)和其多聚體,除非另有限制,該術(shù)語(yǔ)包括含有天然核苷酸的已知類似物的核酸,所 述類似物具有與參照核酸類似的結(jié)合特性,并且以與天然存在的核苷酸類似的方式代謝。 除非另有說(shuō)明,特定的核酸序列還隱含地包括其保守修飾的變體(如簡(jiǎn)并密碼子取代)、 等位基因、直系同源物(orthologs)、SNP和互補(bǔ)序列以及明確表示的序列。具體來(lái)說(shuō),簡(jiǎn) 并密碼子的取代可以通過(guò)產(chǎn)生如下的序列實(shí)現(xiàn)其中一個(gè)或多個(gè)選擇的(或全部)密碼子 的第三位被混合堿基和/或脫氧次黃苷殘基取代(Batzeret al.,Nucleic Acid Res. 19 5081(1991) ;Ohtsuka et al.,J. Biol. Chem. 260 :2605_2608 (1985);以及 Rossolini et al.,Mol. Cell. Probes 8 :91_98 (1994))。術(shù)語(yǔ)核酸與基因、cDNA、mRNA、小非編碼 RNA、微 RNA (miRNA)、Piwi-相互作用RNA和基因或基因座編碼的短發(fā)夾RNA (shRNA)交換地使用。術(shù)語(yǔ)“基因”意指與產(chǎn)生多肽鏈有關(guān)的DNA的片段。其可以包括編碼區(qū)之前和之 后的區(qū)域(前導(dǎo)區(qū)和非轉(zhuǎn)錄尾區(qū)),以及單獨(dú)的編碼片段(外顯子)間的間插序列(內(nèi)含 子)。本文所用術(shù)語(yǔ)“反應(yīng)”指與表示感興趣的特定多核苷酸序列的存在或不存在的化 學(xué)、酶促或物理作用有關(guān)的任何過(guò)程?!胺磻?yīng)”的實(shí)例是諸如聚合酶鏈?zhǔn)椒磻?yīng)(PCR)的擴(kuò)增 反應(yīng)?!胺磻?yīng)”的另一實(shí)例是通過(guò)合成或通過(guò)連接的測(cè)序反應(yīng)。“信息反應(yīng)”是表示一個(gè)或 多個(gè)感興趣的特定多核苷酸序列的存在的反應(yīng),并且在一種情況下,只存在一種感興趣的 序列。本文所用術(shù)語(yǔ)“孔(well)”指在預(yù)定位置和有限的結(jié)構(gòu)中的反應(yīng),如孔形瓶、小室或 PCR陣列中的室(chamber)。本文所用術(shù)語(yǔ)“臨床相關(guān)核酸序列”可以指對(duì)應(yīng)于潛在的失衡正被檢測(cè)的更大的 基因組序列片段的多核苷酸序列,或指更大的基因組序列本身。一實(shí)例是21號(hào)染色體的序 列。其他的實(shí)例包括18號(hào)、13號(hào)、X和Y染色體。除此以外的其他實(shí)例包括,胎兒從其父 母之一或兩者遺傳的突變的基因序列或遺傳多態(tài)性或拷貝數(shù)變異。除此以外的其他實(shí)例包括,惡性腫瘤中突變、缺失或擴(kuò)增的序列,如發(fā)生了雜合性丟失或基因重復(fù)的序列。在某些 實(shí)施方案中,多種臨床相關(guān)核酸序列,或臨床相關(guān)核酸序列等同的多種標(biāo)記,可用于提供用 來(lái)檢測(cè)失衡的數(shù)據(jù)。例如,來(lái)自21號(hào)染色體的5個(gè)不連續(xù)序列的數(shù)據(jù),能夠以累加的方式 (additivefashion)用于確定可能的21號(hào)染色體失衡,從而將所需的樣品體積有效地減少 至 1/5。
本文所用術(shù)語(yǔ)“背景核酸序列,,指與臨床相關(guān)核酸序列的正常比值是已知的核酸 序列,如1 1的比值。作為一實(shí)例,背景核酸序列和臨床相關(guān)核酸序列是來(lái)自相同染色體, 由于雜合性而不同的兩個(gè)等位基因。在另一實(shí)例中,背景核酸序列是與另一等位基因雜合 的一等位基因,該另一等位基因是臨床相關(guān)核酸序列。而且,某些背景核酸序列和臨床相關(guān) 核酸序列的每一種可以來(lái)自不同的個(gè)體。本文所用術(shù)語(yǔ)“參照核酸序列”指每個(gè)反應(yīng)的平均濃度是已知的或已經(jīng)等同地測(cè) 量的核酸序列。本文所用術(shù)語(yǔ)“過(guò)度表現(xiàn)的(overr印resented)核酸序列”指兩種感興趣的序列 (如臨床相關(guān)序列和背景序列)中的核酸序列,該過(guò)度表現(xiàn)的核酸序列比生物樣品中的其 他序列更豐富。本文所用術(shù)語(yǔ)“基于”意指“至少部分地基于”,并指確定另一值所用的一個(gè)值(或 結(jié)果),如存在于方法的輸入和該方法的輸出的關(guān)系中的值。本文所用術(shù)語(yǔ)“獲得”還指方 法的輸入和該方法的輸出的關(guān)系,如該當(dāng)獲得是公式的計(jì)算時(shí)存在的關(guān)系。本文所用術(shù)語(yǔ)“定量數(shù)據(jù)”意指,由一個(gè)或多個(gè)反應(yīng)獲得的并且提供一個(gè)或多個(gè)數(shù) 值的數(shù)據(jù)。例如,表示特定序列的熒光標(biāo)記的孔的數(shù)目是定量數(shù)據(jù)。本文所用術(shù)語(yǔ)“參數(shù)”意指,表征定量數(shù)據(jù)集和/或定量數(shù)據(jù)集間數(shù)值關(guān)系的數(shù) 值。例如,第一核酸序列的第一量和第二核酸序列的第二量之間的比值(或比值的函數(shù)) 是參數(shù)。本文所用術(shù)語(yǔ)“截止值”意指,其值用于在生物樣品的兩個(gè)或多個(gè)分類狀態(tài)(例如 患病和非患病)間進(jìn)行裁定(arbitrate)的數(shù)值。例如,如果參數(shù)大于截止值,將定量數(shù)據(jù) 分為第一類(例如,患病狀態(tài)),或者如果該參數(shù)小于該截止值,則將定量數(shù)據(jù)分為另一類 (例如,未患病狀態(tài))。本文所用術(shù)語(yǔ)“失衡”意指,與參考量的任何顯著偏差,其是由臨床相關(guān)核酸序列 的量中的至少一個(gè)截止值所定義的。例如,參考量的比值為3/5,因此如果測(cè)量的比值是 1 1,則存在失衡。本文所用術(shù)語(yǔ)“染色體非整倍性”意指,染色體的定量數(shù)量與二倍體基因組的染色 體數(shù)量的變化。這種變化可以是增加或丟失。該變化可以包括一個(gè)染色體的全部或染色體 的區(qū)域。本文所用術(shù)語(yǔ)“隨機(jī)測(cè)序”意指測(cè)序,由此被測(cè)序的核酸片段在測(cè)序程序前并未特 異地鑒定或靶向。不需要靶向特定基因座位的序列特異性引物。被測(cè)序的核酸池隨樣品的 不同而不同,甚至對(duì)于相同樣品隨分析的不同而不同。被測(cè)序的核酸的特征僅由所產(chǎn)生的 測(cè)序輸出揭示。在本發(fā)明的某些實(shí)施方案中,用共享某些共有特征的核酸分子的特定群體 富集生物樣品的程序,可先于隨機(jī)測(cè)序。在一實(shí)施方案中,生物樣品中的每個(gè)片段都具有相 等的被測(cè)序的概率。
本文所用術(shù)語(yǔ)“人類基因組部分(fraction of the human genome) ”或“人類基因組的一部分(portion of the human genome) ”意指,小于100%的人類基因組的核苷酸 序列,該人類基因組由約30億個(gè)核苷酸堿基對(duì)組成。在測(cè)序的背景下,該術(shù)語(yǔ)指小于1倍 覆蓋度的人類基因組核苷酸序列。該術(shù)語(yǔ)可以表示為核苷酸/堿基對(duì)的百分比或絕對(duì)值。 作為用途實(shí)例,該術(shù)語(yǔ)可以用來(lái)表示進(jìn)行的測(cè)序的實(shí)際量。實(shí)施方案可以確定獲得準(zhǔn)確的 診斷的人類基因組被測(cè)序部分所需的最小值。作為另一用途實(shí)例,該術(shù)語(yǔ)指用來(lái)獲得疾病 分類的參數(shù)或量的測(cè)序數(shù)據(jù)的量。本文所用術(shù)語(yǔ)“被測(cè)序的標(biāo)簽”意來(lái)自核酸分子的任何部分或全部的被測(cè)序的核 苷酸串(string)。例如,被測(cè)序的標(biāo)簽可以是來(lái)自核酸片段的被測(cè)序的一短串核苷酸,位于 核酸片段兩端的一短串核苷酸,或存在于生物樣品中的完整核酸片段的測(cè)序。核酸片段是 更大的核酸分子的任何部分。片段(如基因)可以與更大核酸分子的其他部分分離地存在 (即不連接)。發(fā)明詳述本發(fā)明的實(shí)施方案提供了,確定與非患病狀態(tài)相比,臨床相關(guān)染色體的存在增加 還是減少(患病狀態(tài))的方法、系統(tǒng)和裝置。這種確定可以通過(guò)利用與生物樣品中其他非 臨床相關(guān)染色體區(qū)(背景區(qū))有關(guān)的臨床相關(guān)染色體區(qū)的量的參數(shù)來(lái)進(jìn)行。對(duì)生物樣品的 核酸分子進(jìn)行測(cè)序,以便對(duì)基因組部分進(jìn)行測(cè)序,并可以由測(cè)序結(jié)果確定量。選擇一個(gè)或多 個(gè)截止值,用于確定是否存在與參照量相比的變化(即失衡),例如,關(guān)于兩個(gè)染色體區(qū)(或 染色體區(qū)組)的量的比值。在參照量中所檢測(cè)的變化可以是,與其他非臨床相關(guān)序列相比的,與臨床相關(guān)核 酸序列有關(guān)的任何偏差(向上或向下)。因此,參照狀態(tài)可以是任何比值或其他量(如除了 1-1對(duì)應(yīng)外),并且如通過(guò)一個(gè)或多個(gè)截止值所確定的,表示變化的測(cè)量狀態(tài)可以是不同于 參考量的任何比值或其他量。臨床相關(guān)染色體區(qū)(也稱為臨床相關(guān)核酸序列)和背景核酸序列,可以來(lái)自第一 類型的細(xì)胞和一種或多種第二類型的細(xì)胞。例如,來(lái)自胎兒/胎盤細(xì)胞的胎兒核酸序列存 在于生物樣品中,如含有來(lái)自母體細(xì)胞的母體核酸序列的背景的母體血漿。在一實(shí)施方案 中,至少部分地基于生物樣品中第一類型細(xì)胞的百分比來(lái)確定截止值。需要指出的是,樣品 中胎兒序列的百分比可以通過(guò)任何胎兒來(lái)源的基因座確定,并且不限于測(cè)量臨床相關(guān)核酸 序列。在另一實(shí)施方案中,至少部分地基于生物樣品中腫瘤序列的百分比來(lái)確定截止值,所 述生物樣品,如血漿、血清、唾液或尿,含有來(lái)自體內(nèi)非惡性細(xì)胞的核酸序列的背景。I. 一般方法圖1是本發(fā)明實(shí)施方案的方法100的流程圖,該方法100用于在從孕婦個(gè)體獲得 的生物樣品中進(jìn)行胎兒染色體非整倍性的產(chǎn)前診斷。在步驟110中,接收來(lái)自孕婦的生物樣品。該生物樣品可以是血漿、尿、血清或任 何其他合適的樣品。樣品含有胎兒和孕婦的核酸分子。例如,核酸分子可以是染色體的片 段。在步驟120中,對(duì)含于生物樣品中的多個(gè)核酸分子的至少一部分進(jìn)行測(cè)序。被測(cè) 序的一部分代表人類基因組的部分。在一實(shí)施方案中,核酸分子是各自染色體的片段。可 以對(duì)一端(如35個(gè)堿基對(duì)(bp))、兩端或完整的片段進(jìn)行測(cè)序??梢詫?duì)樣品中全部核酸分子進(jìn)行測(cè)序,或僅對(duì)亞群進(jìn)行測(cè)序。如下文更詳細(xì)描述的,該亞群可以是隨機(jī)選擇的。
在一實(shí)施方案中,測(cè)序利用大規(guī)模并行測(cè)序進(jìn)行。大規(guī)模并行測(cè)序,如可通過(guò)454 平臺(tái)(Roche) (Margulies, Μ. et al. 2005 Nature 437,376-380)、Illumina 基因組分析儀 (Illumina Genome Analyzer)(或 Solexa平臺(tái))或 SOLiD System (Applied Biosystems)或 Helicos 真實(shí)單分子 DNA 測(cè)序技術(shù)(the Helicos True Single Molecule DNA sequencing technology, Harris TD etal. 2008 Science, 320,106-109)、Pacific Biosciences 的單 分子實(shí)時(shí)(SMR )技術(shù)和納米孔測(cè)序(nanopore sequencing, Soni GV and Meller Α. 2007 ClinChem 53:1996-2001)實(shí)現(xiàn),允許對(duì)分離自樣品的許多核酸分子在并行方式下,以高階 多路進(jìn)行測(cè)序(Dear Brief Funct Genomic Proteomic 2003 ;1 :397_416)。這些平臺(tái)的每 一種可以對(duì)無(wú)性擴(kuò)充的或者甚至未擴(kuò)增的核酸片段的單個(gè)分子進(jìn)行測(cè)序。因?yàn)樵诿看芜\(yùn)行中,由每個(gè)樣品產(chǎn)生了數(shù)十萬(wàn)到數(shù)百萬(wàn)甚至可能數(shù)億或數(shù)十億的 級(jí)別的大量測(cè)序讀取,所以所得的測(cè)序讀取形成了原始樣品中核酸種類的混合物的代表性 特征。例如,測(cè)序讀取的單元型、轉(zhuǎn)錄物組(trascriptome)和甲基化特征與原始樣品的這 些代表性特征相似(Brenner et al Nat Biotech 2000 ; 18 630-634 ;Taylor et al Cancer Res 2007;67:8511-8518)。由于從每個(gè)樣品中對(duì)序列進(jìn)行大量取樣,相同序列的數(shù)量,如 以幾倍覆蓋度或高冗余度由核酸池的測(cè)序所產(chǎn)生的相同序列的數(shù)量,也是原始樣品中特定 核酸種類或基因座計(jì)數(shù)的良好定量體現(xiàn)。在步驟130中,基于測(cè)序(如來(lái)自測(cè)序的數(shù)據(jù)),確定第一染色體(如臨床相關(guān)染 色體)的第一量。第一量由鑒定為來(lái)自第一染色體的序列確定。例如,隨后可用生物信息 學(xué)程序?qū)⑦@些DNA序列中的每一個(gè)序列定位于人類基因組。有可能從隨后的分析中放棄 一部分此類序列,因?yàn)樗鼈兇嬖谟谌祟惢蚪M的重復(fù)區(qū)域中,或存在于經(jīng)歷了個(gè)體間變異 (inter-individual variation)如拷貝數(shù)變異的區(qū)域中。因此,可以確定感興趣的染色體 的量或一條或多條其他染色體的量。在步驟140中,基于測(cè)序,由鑒定為來(lái)自第二染色體之一的序列,確定一條或多條 第二染色體的第二量。在一實(shí)施方案中,第二染色體是除第一染色體(即被檢測(cè)的染色體) 以外的所有其他染色體。在另一實(shí)施方案中,第二染色體就是單條其他染色體。存在許多確定染色體量的方式,包括但不限于計(jì)數(shù)被測(cè)序的標(biāo)簽的數(shù)量、被測(cè)序 的核苷酸(堿基對(duì))的數(shù)量或來(lái)自特定染色體或染色體區(qū)的被測(cè)序的核苷酸(堿基對(duì))的 累積長(zhǎng)度。在另一實(shí)施方案中,可以將規(guī)則施加于測(cè)序結(jié)果來(lái)確定哪些被計(jì)數(shù)了。一方面,可 以基于一部分測(cè)序輸出來(lái)獲得量。例如,對(duì)應(yīng)于指定大小范圍的核酸片段的測(cè)序輸出,可以 在生物信息學(xué)分析后進(jìn)行選擇。大小范圍的實(shí)例是約< 300bp、< 200bp或< 100bp。在步驟150中,由第一量和第二量確定參數(shù)。參數(shù)可以是,例如,第一量與第二量 的簡(jiǎn)單比值,或第一量與第二量加第一量的比值。一方面,每個(gè)量可以是一個(gè)函數(shù)或不同函 數(shù)的自變量,其中,隨后可以獲得這些不同函數(shù)的比值。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解不同的合 適參數(shù)的數(shù)量。在一實(shí)施方案中,潛在地與染色體非整倍性,如21號(hào)染色體或18號(hào)染色體或13 號(hào)染色體的非整倍性有關(guān)的染色體的參數(shù)(如分?jǐn)?shù)表現(xiàn)度),可以隨后由生物信息學(xué)程序 的結(jié)果來(lái)計(jì)算?;谒行蛄械牧?如包括臨床相關(guān)染色體在內(nèi)的所有染色體的某些測(cè)量)或染色體特定亞群的量(如只除開(kāi)被檢測(cè)的染色體以外的一個(gè)其他染色體)的量,可 以獲得分?jǐn)?shù)表現(xiàn)度。在步驟150中,將參數(shù)與一個(gè)或多個(gè)截止值進(jìn)行比較。截止值可以由任何數(shù)量的 適宜方式來(lái)確定。此類方式包括貝葉斯型似然方法(Bayesian-type likelihood method)、 序貫概率比檢驗(yàn)、假發(fā)現(xiàn)(falsediscovery)、置信區(qū)間、受試者工作特性(receiver operating characteristic,ROC)。這些方法和樣品特異性方法應(yīng)用的實(shí)例描述于同 時(shí)提交的申請(qǐng)〃 DETERMINING A NUCLEIC ACID SEQUENCE IMBALANCE (確定核酸序列失 衡)〃 (Attorney Docket No. 016285-005210US)中,將該申請(qǐng)通過(guò)引用并入。在一實(shí)施方案中,隨后將參數(shù)(如臨床相關(guān)染色體的分?jǐn)?shù)表現(xiàn)度)與涉及正常 (即整倍體)胎兒的妊娠中所建立的參照范圍進(jìn)行比較??赡艿氖?,在程序的某些變體中, 參照范圍(即截止值)可以根據(jù)特定母體血漿樣品中胎兒DNA的分?jǐn)?shù)濃度(f)進(jìn)行調(diào)整。 如果胎兒是男性,例如利用可在Y染色體上定位的序列,可以由測(cè)序數(shù)據(jù)集來(lái)確定f值。f 值也可以例如利用胎兒外遺傳標(biāo)記(Chan KCA et al 2006 Clin Chem 52,2211-8),或由單 核苷酸多態(tài)性的分析,在單獨(dú)的分析中確定。在步驟160中,基于比較,確定對(duì)于第一染色體,是否存在胎兒染色體非整倍性的 分類。在一實(shí)施方案中,分類是明確的存在(yes)或不存在(no)。在另一實(shí)施方案中,分類 可以是不可分類的或不確定的。在又一個(gè)實(shí)施方案中,分類可以是例如由醫(yī)生以后解釋的 評(píng)分。II.測(cè)序、比對(duì)以及量的確定如上文所述,僅對(duì)基因組的部分進(jìn)行測(cè)序。一方面,甚至當(dāng)以小于100%的基因組 覆蓋度而不是以幾倍的覆蓋度對(duì)樣品中的核酸池進(jìn)行測(cè)序時(shí),并且在一部分所捕獲的核酸 分子中,大多數(shù)每個(gè)核酸種類僅測(cè)序一次。還可以定量地確定特定染色體或染色體區(qū)的劑 量失衡。換言之,由樣品的其他可定位的被測(cè)序的標(biāo)簽中的所述基因座的百分比表現(xiàn)度來(lái) 推斷染色體或染色體區(qū)的劑量失衡。這與下述情況相反,即對(duì)相同池的核酸進(jìn)行多次測(cè)序,以便獲得冗余度或幾倍的 覆蓋度,據(jù)此將每個(gè)核酸種類測(cè)序多次。在此情況下,相對(duì)于另一核酸種類的已被測(cè)序的特 定核酸種類的次數(shù),與它們?cè)谠紭悠分械南鄬?duì)濃度相關(guān)。隨著實(shí)現(xiàn)核酸種類準(zhǔn)確表現(xiàn)度 所需的覆蓋度倍數(shù)的增加,測(cè)序的成本增加。在一實(shí)例中,此類序列的一部分可以來(lái)自與非整倍性有關(guān)的染色體,如本示例性 實(shí)例中的21號(hào)染色體。然而,此類測(cè)序作業(yè)(sequencingexercise)的其他序列可來(lái)自其 他染色體。通過(guò)考慮與其他染色體相比的21號(hào)染色體的相對(duì)大小,可以在參照范圍內(nèi),獲 得此類測(cè)序作業(yè)的21號(hào)染色體特異性序列的標(biāo)準(zhǔn)化頻率。如果胎兒具有21三體性,則此 類測(cè)序作業(yè)的獲得自21號(hào)染色的標(biāo)準(zhǔn)化頻率將增加,因而允許檢測(cè)21三體性。標(biāo)準(zhǔn)化頻 率變化的程度,將依賴于分析的樣品中胎兒核酸的分?jǐn)?shù)濃度。在一實(shí)施方案中,我們使用Illumina基因組分析儀,進(jìn)行人類基因組DNA和人 類血漿DNA樣品的單末端測(cè)序。Illumina基因組分析儀可以對(duì)捕獲于稱為流動(dòng)池(flow cell)的固體表面上的無(wú)性擴(kuò)充的單個(gè)DNA分子進(jìn)行測(cè)序。每個(gè)流動(dòng)池具有8個(gè)泳道來(lái)用 于對(duì)8個(gè)單獨(dú)的樣品或樣品池進(jìn)行測(cè)序。每個(gè)泳道能產(chǎn)生約200Mb的序列,其僅是人類基因 組中30億個(gè)堿基對(duì)的序列的部分。利用流動(dòng)池的一條泳道,對(duì)每個(gè)基因組DNA或血漿DNA樣品進(jìn)行測(cè)序。將所產(chǎn)生的短序列標(biāo)簽與人類參照基因組序列進(jìn)行比對(duì),并標(biāo)明染色體來(lái) 源。將與每條染色體比對(duì)的單獨(dú)被測(cè)序的標(biāo)簽的總數(shù)制成表格,并與參照人類基因組或非 疾病表現(xiàn)樣品所預(yù)期的每條染色體的相對(duì)大小進(jìn)行比較。然后確定了染色體增加或丟失。所述方法僅僅是目前所述的基因/染色體的劑量策略的一范例??蛇x地,可進(jìn)行 配對(duì)末端(paired-end)測(cè)序。計(jì)數(shù)比對(duì)的被測(cè)序的標(biāo)簽的數(shù)量并根據(jù)染色體位置進(jìn)行分 類,而不是如Campbell等所述(Nat Genet 2008 ;40 722-729)地比較參照基因組中所預(yù)期 的被測(cè)序片段的長(zhǎng)度。通過(guò)比較標(biāo)簽計(jì)數(shù)與參照基因組中的預(yù)期染色體大小或非疾病表現(xiàn) 樣品的預(yù)期染色體大小來(lái)確定染色體區(qū)或全部染色體的增加或丟失。因?yàn)榕鋵?duì)末端測(cè)序允 許推斷原始核酸片段的大小,因而一實(shí)例致力于計(jì)數(shù)對(duì)應(yīng)于指定大小的核酸片段的被配對(duì) 測(cè)序的標(biāo)簽的數(shù)量,所述指定大小如< 300bp、< 200bp或< lOObp。在另一實(shí)施方案中,在測(cè)序前,還對(duì)在運(yùn)行中被測(cè)序的核酸池的部分進(jìn)行次級(jí)選 擇(sub-select)。例如,基于雜交的技術(shù),如寡核苷酸陣列可用來(lái)首先對(duì)來(lái)自某些染色體 的核酸序列進(jìn)行次級(jí)選擇,所述染色體如潛在的非整倍體染色體和與檢測(cè)的非整倍性無(wú)關(guān) 的其他染色體。另一實(shí)例是,在測(cè)序前,對(duì)樣品池的核酸序列的某些亞群進(jìn)行次級(jí)選擇或 富集。例如,如上文所討論的,已報(bào)道,母體血漿中胎兒DNA分子由比母體背景DNA分子 短的片段組成(Chan et al Clin Chem 2004;50:88-92)。因此,例如,通過(guò)凝膠電泳或 尺寸排除柱(size exclusion column)或通過(guò)基于微流體的方法(microfluidics-based approach),可以根據(jù)分子大小,利用本領(lǐng)域技術(shù)人員已知的一種或多種方法,對(duì)樣品中的 核酸序列進(jìn)行分級(jí)。此外,可選地,在分析母體血漿中無(wú)細(xì)胞胎兒DNA的實(shí)例中,通過(guò)抑制 母體背景的方法,如通過(guò)加入甲醛,可以富集胎兒的核酸部分(Dhallan et al JAMA2004 ; 291 :1114-9)。在一實(shí)施方案中,對(duì)核酸的預(yù)選的池的一部分或亞群進(jìn)行隨機(jī)測(cè)序。同樣,其他單分子測(cè)序策略也可以用于本申請(qǐng)中,如Roche 454平臺(tái)、Applied Biosystems SOLiD 平臺(tái)、Helicos 真實(shí)單分子 DNA 測(cè)序技術(shù)、Pacific Biosciences 的單分 子實(shí)時(shí)技術(shù)(SMRT )以及納米孔測(cè)序。III.由測(cè)序的輸出確定染餼體的量大規(guī)模并行測(cè)序后,實(shí)施生物信息學(xué)分析,以便定位被測(cè)序的標(biāo)簽的染色體來(lái)源。 該程序后,將鑒定為來(lái)自潛在的非整倍體染色體,即本研究中的21號(hào)染色體的標(biāo)簽,與全 部被測(cè)序的標(biāo)簽或來(lái)自與非整倍性無(wú)關(guān)的一條或多條染色體的標(biāo)簽進(jìn)行定量比較。將檢測(cè) 樣品的21號(hào)染色體和其他非21號(hào)染色體的測(cè)序輸出間的相互關(guān)系,與由上節(jié)所述的方法 獲得的截止值進(jìn)行比較,以確定樣品是否由與整倍體或21三體性胎兒有關(guān)的妊娠獲得。許多不同的量,包括但不限于下述可以由被測(cè)序的標(biāo)簽獲得的量。例如,能夠?qū)⒑?特定染色體比對(duì)的被測(cè)序的標(biāo)簽的數(shù)量,即絕對(duì)計(jì)數(shù),與和其他染色體比對(duì)的被測(cè)序的標(biāo) 簽的絕對(duì)計(jì)數(shù)進(jìn)行比較??蛇x地,參照全部或某些其他被測(cè)序的標(biāo)簽,21號(hào)染色體的被測(cè)序 的標(biāo)簽的量的分?jǐn)?shù)計(jì)數(shù)(fractional count),可以與其他非非整倍體染色體的分?jǐn)?shù)計(jì)數(shù)進(jìn) 行比較。在本實(shí)驗(yàn)中,因?yàn)閷?duì)每個(gè)DNA片段的36bp進(jìn)行了測(cè)序,因而,特定染色體的被測(cè)序 的核苷酸的數(shù)量,能夠容易地由被測(cè)序的標(biāo)簽的計(jì)數(shù)乘以36bp獲得。此外,因?yàn)槔脙H能對(duì)人類 基因組的部分進(jìn)行測(cè)序的一個(gè)流動(dòng)池,僅對(duì)每個(gè)母體 血漿樣品進(jìn)行測(cè)序,因而,根據(jù)統(tǒng)計(jì),大多數(shù)母體血漿DNA片段種類只被測(cè)序了一次,從而 產(chǎn)生一個(gè)被測(cè)序的標(biāo)簽的計(jì)數(shù)。換言之,以小于1倍的覆蓋度,對(duì)存在于母體血漿樣品中的核酸片段進(jìn)行了測(cè)序。因此,對(duì)于任何特定的染色體,被測(cè)序的核苷酸的總數(shù),通常符合部分已被測(cè)序的所述染色體的量、比例或長(zhǎng)度。因此,潛在的非整倍體染色體表現(xiàn)度的定量確 定,能夠參照其他染色體的同樣獲得的數(shù)量,由該潛在的非整倍體染色體的被測(cè)序的核苷 酸的部分?jǐn)?shù)量或相當(dāng)?shù)拈L(zhǎng)度獲得。IV.用于測(cè)序的核酸池的富集如上文所提到以及下節(jié)的實(shí)施例中所建立的,僅需要對(duì)一部分人類基因組進(jìn)行測(cè) 序來(lái)從整倍體情況區(qū)分21三體性。因此,可能并且節(jié)約成本的是,在對(duì)富集的池的部分進(jìn) 行隨機(jī)測(cè)序前,富集待測(cè)序的核酸池。例如,母體血漿中的胎兒DNA分子由比母體背景DNA 分子短的片段組成(Chan et al Clin Chem 2004;50:88-92)。因此,例如,通過(guò)凝膠電泳 或尺寸排除柱或通過(guò)基于微流體的方法,根據(jù)分子大小,可以利用本領(lǐng)域技術(shù)人員已知的 一種或多種方法對(duì)樣品中的核酸序列進(jìn)行分級(jí)。此外,可選地,在分析母體血漿中無(wú)細(xì)胞胎兒DNA的實(shí)例中,胎兒核酸部分可以通 過(guò)如加入甲醛的抑制母體背景的方法來(lái)富集(Dhallan etal JAMA 2004 ;291 :1114_9)。獲 得自胎兒的序列的比例將在由更短的片段組成的核酸池中得以富集。根據(jù)圖7,區(qū)分整倍體 和21三體性情況所需的被測(cè)序的標(biāo)簽的數(shù)量,將隨著胎兒DNA分?jǐn)?shù)濃度的增加而減少??蛇x地,來(lái)自潛在的非整倍體染色體和與非整倍性無(wú)關(guān)的一條或多條染色體的序 列,可以通過(guò)例如寡核苷酸微陣列的雜交技術(shù)富集。核酸的富集池隨后進(jìn)行隨機(jī)測(cè)序。這 將降低測(cè)序的成本。V.隨機(jī)測(cè)序圖2是本發(fā)明實(shí)施方案的,利用隨機(jī)測(cè)序進(jìn)行胎兒染色體非整倍性的產(chǎn)前診斷的 方法200的流程圖。在大規(guī)模并行測(cè)序方法的一方面,可以同時(shí)產(chǎn)生所有染色體的代表性 數(shù)據(jù)。不提前選擇特定片段的來(lái)源。隨機(jī)地進(jìn)行測(cè)序,隨后進(jìn)行數(shù)據(jù)庫(kù)搜索,以查明特定片 段來(lái)自何處。這與擴(kuò)增21號(hào)染色體的特異性片段和1號(hào)染色體的另一特異性片段的情況 相反。在步驟210中,接收來(lái)自孕婦的生物樣品。在步驟220中,對(duì)于期望的準(zhǔn)確性,計(jì) 算待分析的序列數(shù)量N。在一實(shí)施方案中,首先測(cè)定生物樣品中胎兒DNA的百分比。這可通 過(guò)本領(lǐng)域技術(shù)人員已知的任何合適方式進(jìn)行。測(cè)定可以是簡(jiǎn)單地讀取由另一實(shí)體所測(cè)量的 值。在本實(shí)施方案中,待分析的序列的數(shù)量N的計(jì)算,以百分比為基礎(chǔ)。例如,當(dāng)胎兒DNA 的百分比降低時(shí),需要分析的序列的數(shù)量將增加,而當(dāng)胎兒DNA升高時(shí),需要分析的序列的 數(shù)量可以減少。數(shù)量N可以是固定數(shù),或相對(duì)數(shù),如百分比。在另一實(shí)施方案中,可以測(cè)序 已知對(duì)準(zhǔn)確的疾病診斷足夠的數(shù)量N。即使在具有正常范圍下限(lower end)的胎兒DNA 濃度的妊娠中,也可以使數(shù)量N充分。在步驟230中,對(duì)含于生物樣品中的多個(gè)核酸分子中的至少N個(gè)進(jìn)行隨機(jī)測(cè)序。所 述方法的特征是,在樣品分析即測(cè)序前,待測(cè)序的核酸不是特定地確定的或靶向的。測(cè)序不 需要靶向具體基因座的序列特異性引物。被測(cè)序的核酸池隨樣品的不同而不同,甚至對(duì)于 相同樣品隨分析的不同而不同。此外,根據(jù)下文描述(圖6),情況診斷所需的測(cè)序輸出的 量,能夠在所檢測(cè)的樣品和參照群體間不同。這些方面與大多數(shù)分子診斷方法明顯不同,如 原位雜交中基于熒光的方法、定量熒光PCR、定量實(shí)時(shí)PCR、數(shù)字PCR、比較基因組雜交、微陣 列比較基因組雜交等,其中待靶向的基因座需要在先的預(yù)確定,因此需要使用基因座特異性引物或基因座特異性探針對(duì)或組(panel)。在一實(shí)施方案中,對(duì)存在于孕婦血漿中的DNA片段進(jìn)行隨機(jī)測(cè)序,并且獲得原本來(lái)自胎兒或母親的基因組序列。隨機(jī)測(cè)序包括對(duì)存在于生物樣品中的核酸分子的隨機(jī)部分 進(jìn)行取樣(測(cè)序)。因?yàn)闇y(cè)序是隨機(jī)的,因而在每次分析中,可以對(duì)核酸分子(因此基因組) 的不同亞群(部分)進(jìn)行測(cè)序。即使當(dāng)該亞群隨樣品或分析的不同而不同時(shí),該實(shí)施方案 依然有效。部分的實(shí)例是約0.1%、0.5%,、1%、5%、10%、20%或30%的基因組。在另一 實(shí)施方案中,部分是至少這些值中的任一值。可以通過(guò)與方法100相似的方式,進(jìn)行剩余的步驟240-270。VI.被測(cè)序的標(biāo)簽池的測(cè)序后詵擇如下文實(shí)施例II和III所述,測(cè)序數(shù)據(jù)的亞群足以區(qū)分21三體性和非整倍體的 情況。測(cè)序數(shù)據(jù)的亞群可以是一定比例的傳遞某些性質(zhì)參數(shù)的被測(cè)序的標(biāo)簽。例如,在實(shí) 施例II中,使用唯一與重復(fù)屏蔽的(r印eat-masked)參照人類基因組比對(duì)的被測(cè)序的標(biāo) 簽。可選地,可以對(duì)所有染色體的核酸片段的代表性池進(jìn)行測(cè)序,但是致力于有關(guān)潛在的非 整倍體染色體的數(shù)據(jù)和有關(guān)許多非非整倍體染色體的數(shù)據(jù)間的比較。此外,可選地,在測(cè)序后的分析過(guò)程中,可以對(duì)測(cè)序輸出的亞群進(jìn)行次級(jí)選擇,所 述亞群包括對(duì)應(yīng)于原始樣品中指定大小窗口的核酸片段所產(chǎn)生的被測(cè)序的標(biāo)簽。例如,利 用Illumina基因組分析儀,可使用涉及核酸片段兩個(gè)末端測(cè)序的配對(duì)末端測(cè)序。隨后比對(duì) 每個(gè)配對(duì)末端的測(cè)序數(shù)據(jù)和參照人類基因組序列。隨后可以推導(dǎo)跨越兩個(gè)末端間的核苷酸 的距離或數(shù)量。也可以推導(dǎo)原始核酸片段的全長(zhǎng)??蛇x地,諸如454平臺(tái)的測(cè)序平臺(tái),以及 可能的某些單分子測(cè)序技術(shù),能對(duì)全長(zhǎng)的短核酸片度,如20bp進(jìn)行測(cè)序。以此方式,可以由 測(cè)序數(shù)據(jù)直接獲知核酸片段的實(shí)際長(zhǎng)度。利用其他的測(cè)序平臺(tái),如 Applied Biosystems SOLiD 系統(tǒng)(AppliedBiosystems SOLiD system),此類配對(duì)末端分析也是可能的。對(duì)于Roche454平臺(tái),因?yàn)榕c其他大規(guī)模并 行測(cè)序系統(tǒng)相比,該454平臺(tái)的讀取長(zhǎng)度增加,因而確定片段的全序列的片段長(zhǎng)度也是可 能的。將數(shù)據(jù)分析集中于對(duì)應(yīng)于原始母體血漿樣品中的短核酸片段的被測(cè)序的標(biāo)簽的 亞群具有優(yōu)點(diǎn),因?yàn)閬?lái)自胎兒的DNA序列有效地富集了數(shù)據(jù)集。這是因?yàn)?,母體血漿中的 胎兒DNA分子由比母體背景DNA分子短的片段組成(Chan et al Clin Chem 2004 ;50 88-92)。根據(jù)圖7,區(qū)分整倍體和21三體性情況所需的被測(cè)序的標(biāo)簽的數(shù)量,將隨胎兒DNA 分?jǐn)?shù)濃度的增加而降低。核酸池亞群測(cè)序后的選擇不同于在樣品分析前實(shí)施的其他核酸富集策略,所述策 略如用于選擇特定大小的核酸分子的凝膠電泳或尺寸排除柱,并且所述策略需要從核酸 背景池中物理分離富集的池。物理程序可以引入更多的實(shí)驗(yàn)步驟,因而可以招致諸如污 染等問(wèn)題。取決于疾病確定所需的敏感性和特異性,測(cè)序輸出亞群的測(cè)序后計(jì)算機(jī)選擇 (post-sequencing in silico selection)也可以允許改變選擇。用于確定母體血漿樣品是否獲得自懷有21三體性或整倍體胎兒的孕婦的生物信 息學(xué)、計(jì)算和統(tǒng)計(jì)方法,可以編譯成計(jì)算機(jī)程序產(chǎn)品,用于確定測(cè)序輸出的參數(shù)。計(jì)算機(jī)程 序的運(yùn)行包括確定潛在的非整倍體染色體的定量數(shù)量以及一個(gè)或多個(gè)其他染色體的量。確 定參數(shù),并與適當(dāng)?shù)慕刂怪当容^,以確定對(duì)于潛在的非整倍體染色體,是否存在胎兒染色體非整倍性。 實(shí)施例為了示例而非限制所要求保護(hù)的本發(fā)明,提供了下面的實(shí)施例。I.胎兒21三體件的產(chǎn)前診斷本研究募集8名孕婦。所有的孕婦都處于妊娠首三月或妊娠中三月,并是單胎妊 娠。其中的4名,每個(gè)都懷有21三體性胎兒,其他的4名,每個(gè)都懷有整倍體胎兒。從每個(gè) 個(gè)體采集20毫升外周靜脈血。在1600 X g下離心10分鐘后,收獲母體血漿,并16000 Xg進(jìn) 一步離心10分鐘。隨后由5-10ml每個(gè)血漿樣品提取DNA。通過(guò)Illumina基因組分析儀, 根據(jù)制造商的說(shuō)明書,將母體血漿DNA用于大規(guī)模并行測(cè)序。在測(cè)序和序列數(shù)據(jù)分析過(guò)程 中,進(jìn)行測(cè)序的技術(shù)人員不了解胎兒的診斷情況。簡(jiǎn)而言之,將約50ng母體血漿DNA用于制備DNA文庫(kù)??梢砸暂^少的量如15ng或 IOng母體血漿DNA開(kāi)始。將母體血漿DNA片段平末端化,與Solexa連接物(adaptor)連 接,并通過(guò)凝膠純化選擇150-300bp的片段。可選地,可以將平末端化和連接物連接的母體 血漿DNA片段通過(guò)柱(如AMPure,Agencourt),以便除去未連接的連接物,而無(wú)需在簇產(chǎn)生 (clusters genearation)前進(jìn)行大小選擇。將連接物連接的DNA與流動(dòng)池的表面雜交,并 利用Illumina簇站(cluster station)產(chǎn)生DNA簇,隨后在Illumina基因組分析儀上進(jìn) 行36個(gè)循環(huán)的測(cè)序。通過(guò)一個(gè)流動(dòng)池對(duì)每個(gè)母體血漿樣品的DNA進(jìn)行測(cè)序。利用Solexa Analysis Pipeline編輯測(cè)序讀取。隨后利用Eland應(yīng)用軟件,將所有的讀取與重復(fù)屏蔽的 參照人類基因組序列,即NCBI匯編36 (NCBI 36 assembly) (GenBank登錄號(hào)NC_000001至 NC_000024)進(jìn)行比對(duì)。在本研究中,為了減少數(shù)據(jù)分析的復(fù)雜性,僅進(jìn)一步考慮了已經(jīng)定位于重復(fù)屏蔽 的人類基因組參照的唯一位置的序列??蛇x地,可以使用測(cè)序數(shù)據(jù)的其他亞群或整套測(cè)序 數(shù)據(jù)。計(jì)數(shù)每一樣品的唯一可定位(mappable)的序列的總數(shù)。將唯一地與21號(hào)染色體比 對(duì)的序列的數(shù)量表示為,與每一樣品的比對(duì)的序列的總計(jì)數(shù)的比例。因?yàn)槟阁w血漿含有母 體來(lái)源的背景DNA中的胎兒DNA,因此,由于在胎兒基因組中存在21號(hào)染色體的額外拷貝, 21三體性胎兒提供了來(lái)自21號(hào)染色體的額外的被測(cè)序的標(biāo)簽。因此,在來(lái)自懷有21三體 性胎兒的妊娠的母體血漿中,21號(hào)染色體序列的百分比,比來(lái)自懷有整倍體胎兒的妊娠的 21號(hào)染色體的百分比高。分析不需要靶向胎兒特異性序列。分析也不需要從母體核酸中在 先地以物理方式分離胎兒核酸。分析也不需要在測(cè)序后,從母體序列中區(qū)分或鑒定胎兒序 列。圖3A表示8個(gè)母體血漿DNA樣品中每一個(gè)的定位于21號(hào)染色體的序列的百分比 (21號(hào)染色體的百分比表現(xiàn)度)。21三體性妊娠的母體血漿中的21號(hào)染色體的百分比表現(xiàn) 度,明顯地高于整倍體妊娠的21號(hào)染色體的百分比表現(xiàn)度。這些數(shù)據(jù)表明,胎兒非整倍性 無(wú)創(chuàng)產(chǎn)前診斷,可以通過(guò)確定與參照群體的百分比表現(xiàn)度相比的非整倍體染色體的百分比 表現(xiàn)度來(lái)實(shí)現(xiàn)??蛇x地,21號(hào)染色體的過(guò)度表現(xiàn)度可通過(guò)以下方法來(lái)檢測(cè)將以實(shí)驗(yàn)方式 獲得的21號(hào)染色體的百分比表現(xiàn)度與預(yù)期為整倍體人類基因組的21號(hào)染色體序列的百分 比表現(xiàn)度進(jìn)行比較。這可通過(guò)屏蔽或不屏蔽人類基因組中的重復(fù)區(qū)進(jìn)行。8名孕婦中的5名,每個(gè)都懷有男性胎兒。定位于Y染色體的序列可以是胎兒特異性的。將定位于Y染色體的序列的百分比用于計(jì)算原始母體血漿樣品中胎兒DNA分?jǐn)?shù)濃 度。而且,胎兒DNA分?jǐn)?shù)濃度也通過(guò)利用微流體數(shù)字PCR來(lái)確定,所述微流體數(shù)字PCR涉及 鋅指蛋白、X連鎖的(ZFX)和鋅指蛋白、Y連鎖的(ZFY)共生同源基因。
圖3B表示由經(jīng)測(cè)序的Y染色體的百分比表現(xiàn)度推斷的胎兒DNA分?jǐn)?shù)濃度和通過(guò) ZFY/ZFX微流體數(shù)字PCR所確定的胎兒DNA分?jǐn)?shù)濃度間的相關(guān)性。這兩種方法確定的母體 血漿中胎兒DNA分?jǐn)?shù)濃度間存在正相關(guān)性。正相關(guān)性系數(shù)(r)在Pearson相關(guān)性分析中為 0. 917。對(duì)于兩種代表性情況,與24條染色體(22條常染色體和X染色體以及Y染色體) 中的每一條比對(duì)的母體血漿DNA序列的百分比顯示于圖4A中。一名孕婦懷有21三體性胎 兒,其他的孕婦懷有整倍體胎兒。與懷有正常胎兒的孕婦相比,定位于21號(hào)染色體的序列 的百分比表現(xiàn)度在懷有21三體性胎兒的孕婦中更高。上述兩種情況的母體血漿DNA樣品間每條染色體的百分比表現(xiàn)度的差異(% )顯 示于圖4B中。特定染色體的百分比差異用下述公式計(jì)算百分比差異(%) = (P21-PE)/PEX 100%,其中P21 =在懷有21三體性胎兒的孕婦中,與特定染色體比對(duì)的血漿DNA序列的百分 比;以及Pe=在懷有整倍體胎兒的孕婦中,與特定染色體比對(duì)的血漿DNA序列的百分比。如圖4B所示,與懷有整倍體胎兒的孕婦相比,懷有21三體性胎兒的孕婦血漿中有 21號(hào)染色體序列的11%的過(guò)度表現(xiàn)度。對(duì)于與其他染色體比對(duì)的序列,兩種情況間的差異 在5%以內(nèi)。因?yàn)榕c整倍體母體血漿樣品相比,21三體性中,21號(hào)染色體的百分比表現(xiàn)度增 加了,因此,差異(% )可選地稱為21號(hào)染色體過(guò)度表現(xiàn)的程度。除了 21號(hào)染色體百分比 表現(xiàn)度間的差異(% )和絕對(duì)差異以外,還能夠計(jì)算檢測(cè)樣品和參照樣品計(jì)數(shù)的比值,并且 該比值表示與整倍體樣品相比的21三體性中21號(hào)染色體過(guò)度表現(xiàn)的程度。對(duì)于每個(gè)都懷有整倍體胎兒的4名孕婦,將她們平均1. 345%的血漿DNA序列,與 21號(hào)染色體進(jìn)行比對(duì)。在懷有21三體性胎兒的4名孕婦中,她們的胎兒中有3名是男性。 計(jì)算這三種情況下每一種情況的21號(hào)染色體的百分比表現(xiàn)度。如上文所述,根據(jù)獲得自4 個(gè)整倍體情況的值的21號(hào)染色體的平均百分比表現(xiàn)度,確定這三種21三體性情況的21號(hào) 染色體百分比表現(xiàn)度中的差異(%)。換言之,在本計(jì)算中,將4個(gè)懷有整倍體胎兒的情況 的平均值用作參照。這三種男性21三體性情況的胎兒DNA分?jǐn)?shù)濃度,由他們各自的Y染色 體序列的百分比表現(xiàn)度來(lái)推斷。21號(hào)染色體序列過(guò)度表現(xiàn)的程度和胎兒DNA分?jǐn)?shù)濃度間的相關(guān)性顯示于圖5中。 兩個(gè)參數(shù)間存在顯著的正相關(guān)性。相關(guān)性系數(shù)(r)在Pearson相關(guān)性分析中為0.898。這 些結(jié)果表明,母體血漿中21號(hào)染色體序列過(guò)度表現(xiàn)的程度與母體血漿樣品中胎兒DNA的分 數(shù)濃度相關(guān)。因此,可以確定與胎兒DNA分?jǐn)?shù)濃度相關(guān)的21號(hào)染色體序列過(guò)度表現(xiàn)程度中 的截止值,以鑒定與21三體性胎兒有關(guān)的妊娠。母體血漿中胎兒DNA分?jǐn)?shù)濃度的確定,也可以獨(dú)立于測(cè)序運(yùn)行進(jìn)行。例如,Y染色 體DNA濃度可以利用實(shí)時(shí)PCR、微流體PCR或質(zhì)譜法來(lái)預(yù)定。例如,我們已經(jīng)在圖3B中證 明,基于測(cè)序運(yùn)行過(guò)程中所產(chǎn)生的Y染色體計(jì)數(shù)所估計(jì)的胎兒DNA濃度和在測(cè)序運(yùn)行外所 產(chǎn)生的ZFY/ZFX比值間存在良好的相關(guān)性。實(shí)際上,胎兒DNA濃度可以利用除Y染色體以外的基因座確定,并適用于女性胎兒。例如,Chan等證明,在母體來(lái)源的未甲基化的RASSF1A序列的背景下,可以在孕婦血漿中檢測(cè)到胎兒來(lái)源的甲基化的RASSF1A序列(Chan et al, Clin Chem2006 ;52 :2211_8)。因此,胎兒DNA分?jǐn)?shù)濃度可以用甲基化的RASSF1A序列的量 除以全部RASSF1A(甲基化和未甲基化的)序列的量來(lái)確定。對(duì)于實(shí)施我們的發(fā)明,預(yù)期母體血漿比母體血清優(yōu)選,因?yàn)樵谘耗踢^(guò)程中,母 體血細(xì)胞釋放了 DNA。因此,如果使用血清,則預(yù)期胎兒DNA的分?jǐn)?shù)濃度在母體血漿中將比 在母體血清中低。換言之,如果使用母體血清,對(duì)于待診斷的胎兒染色體非整倍性,與同時(shí) 從同一孕婦獲得的血漿樣品相比,預(yù)期需要產(chǎn)生更多的序列。此外,確定胎兒DNA的分?jǐn)?shù)濃度的另一可選方式是,經(jīng)由定量孕婦和胎兒間多態(tài) 性差異(Dhallan R,et al. 2007 Lancet,369,474-481)。本方法的實(shí)例是,靶向多態(tài)性位 點(diǎn),在該位點(diǎn)孕婦是純合的,而胎兒是雜合的。將胎兒特異性等位基因的量與共同等位基因 的量進(jìn)行比較,以便確定胎兒DNA的分?jǐn)?shù)濃度。與檢測(cè)染色體畸變的現(xiàn)有技術(shù)相反,所述現(xiàn)有技術(shù)包括檢測(cè)和定量一個(gè)或多個(gè)特 異性序列的比較基因組雜交、微陣列比較基因組雜交、定量實(shí)時(shí)聚合酶鏈?zhǔn)椒磻?yīng),大規(guī)模并 行測(cè)序不依賴于預(yù)定或預(yù)限定的DNA序列組的檢測(cè)或分析。對(duì)樣品池DNA分子的隨機(jī)代表 性部分進(jìn)行測(cè)序。在含有或不含有感興趣的DNA種類的樣品間比較與各種染色體區(qū)比對(duì)的 不同的被測(cè)序的標(biāo)簽的數(shù)量。染色體畸變將由與樣品中任何給定的染色體區(qū)比對(duì)的序列的 數(shù)量(或百分比)中的差異來(lái)揭示。在另一實(shí)施方案中,可以將血漿無(wú)細(xì)胞DNA的測(cè)序技術(shù)用于檢測(cè)血漿DNA中的染 色體畸變來(lái)檢測(cè)具體的癌癥。不同的癌癥具有一套典型的染色體畸變。可以使用多個(gè)染色 區(qū)中的變化(擴(kuò)增和缺失)。因此,與擴(kuò)充的區(qū)域比對(duì)的序列的比例將增加,而與減少的區(qū) 域比對(duì)的序列的比例將減少。每條染色體的百分比表現(xiàn)度可以與參照基因組中每條相應(yīng)染 色體的大小進(jìn)行比較,所述大小表示為相對(duì)于全基因組的任何給定染色體的基因組表現(xiàn)度 的百分比。也可以使用與參照染色體直接比較或比較。II.僅對(duì)人類基因組部分進(jìn)行測(cè)序在上文實(shí)施例I所述的實(shí)驗(yàn)中,僅利用一個(gè)流動(dòng)池,對(duì)每個(gè)單獨(dú)樣品的母體血漿 DNA進(jìn)行測(cè)序。經(jīng)測(cè)序運(yùn)行,由每個(gè)檢測(cè)的樣品所產(chǎn)生的被測(cè)序的標(biāo)簽的數(shù)量顯示于圖6 中。T21表示由與21三體性胎兒有關(guān)的妊娠所獲得的樣品。因?yàn)閷?duì)每個(gè)被測(cè)序的母體血漿DNA片段的36bp進(jìn)行測(cè)序,因此,每個(gè)樣品的被測(cè) 序的核苷酸/堿基對(duì)的數(shù)量可以用被測(cè)序的標(biāo)簽的計(jì)數(shù)乘以36bp來(lái)確定,并且也顯示于圖 6中。因?yàn)槿祟惢蚪M中有大約30億個(gè)堿基對(duì),因此,由每個(gè)母體血漿樣品所產(chǎn)生的測(cè)序數(shù) 據(jù)的量,僅代表約10%至13%的部分。此外,在本研究中,如上文實(shí)施例I所述,僅將唯一可定位的被測(cè)序的標(biāo)簽,在 Eland軟件的命名法中稱為U0,用于證明,在來(lái)自懷有21三體性胎兒的妊娠的每一個(gè)的母 體血漿樣品中,存在21號(hào)染色體序列的量的過(guò)度表現(xiàn)。如圖6所示,UO序列僅代表由每 個(gè)樣品所產(chǎn)生的全部被測(cè)序的標(biāo)簽的亞群,并且還代表甚至更小比例的,約2%的人類基因 組。這些數(shù)據(jù)表明,僅對(duì)存在于檢測(cè)的樣品中的人類基因組序列的一部分進(jìn)行測(cè)序,就足以 實(shí)現(xiàn)胎兒非整倍性的診斷。III.所需序列的數(shù)量的確定
本次分析使用來(lái)自懷有整倍體男性胎兒的孕婦的血漿DNA的測(cè)序結(jié)果。可以無(wú)錯(cuò) 配地定位至參照人類基因組序列的被測(cè)序的標(biāo)簽的數(shù)量為1,990,000。從這些1,990,000 標(biāo)簽中隨機(jī)地選擇序列的亞群,并在每個(gè)亞群中計(jì)算與21號(hào)染色體比對(duì)的序列的百分比。 亞群中序列的數(shù)量在60,000-540, 000條序列變動(dòng)。對(duì)于每個(gè)亞群大小,相同數(shù)量的被測(cè)序 的標(biāo)簽的多個(gè)亞群,通過(guò)從總的池中隨機(jī)地選擇被測(cè)序的標(biāo)簽進(jìn)行編輯,直到?jīng)]有其他可 能的組合。隨后,在每個(gè)亞群大小內(nèi),由多個(gè)亞群計(jì)算與21號(hào)染色體比對(duì)的序列的平均百 分比和其標(biāo)準(zhǔn)偏差(SD)。跨越不同亞群大小比較這些數(shù)據(jù),以便確定亞群大小對(duì)與21號(hào) 染色體比對(duì)的序列的百分比分布的影響。隨后根據(jù)平均值和SD,計(jì)算百分比的第5和第95 個(gè)百分點(diǎn)。當(dāng)孕婦懷有21三體性胎兒時(shí),由于來(lái)自胎兒的21號(hào)染色體的額外劑量,與21號(hào) 染色體比對(duì)的被測(cè)序的標(biāo)簽在母體血漿中應(yīng)當(dāng)是過(guò)度表現(xiàn)的。過(guò)度表現(xiàn)的程度依賴于母體 血漿DNA樣品中胎兒DNA百分比,并采用下述等式計(jì)算Per121 = PerEuX (l+f72),其中,PerT21表示懷有21三體性胎兒的女性中與21號(hào)染色體比對(duì)的序列的百分比;并且PerEu表示懷有整倍體胎兒的女性中與21號(hào)染色體比對(duì)的序列的百分比;以及f表示母體血漿DNA中胎兒DNA的百分比。如圖7所示,與21號(hào)染色體比對(duì)的序列百分比的SD,隨每個(gè)亞群中序列數(shù)量的增 加而降低。因此,當(dāng)每個(gè)亞群中序列的數(shù)量增加時(shí),第5和第95個(gè)百分點(diǎn)間的區(qū)間降低。當(dāng) 整倍體和21三體性情況的5% -95%區(qū)間不重疊時(shí),則區(qū)分這兩組情況是可能的,并且準(zhǔn)確 性大于95%。如圖7所示,區(qū)分21三體性情況和整倍體情況的最小亞群大小依賴于胎兒DNA百 分比。對(duì)于20%、10%和5%的胎兒DNA百分比,區(qū)分21三體性和整倍體情況的最小亞群 大小分別為120,000、180,000和540,000條序列。換言之,當(dāng)母體血漿DNA樣品含有20% 的胎兒DNA時(shí),對(duì)于確定胎兒是否具有21三體性,需要分析的序列的數(shù)量為120,000。當(dāng)胎 兒DNA百分比降低為5%時(shí),需要分析的序列的數(shù)量將增加到540,000。因?yàn)槔?6堿基對(duì)測(cè)序產(chǎn)生數(shù)據(jù),因而120,000、180,000和540,000條序列分別 對(duì)應(yīng)于0. 14%、0.22%和0.65%的人類基因組。因?yàn)閾?jù)報(bào)道,從早期妊娠獲得的母體血漿 中較低范圍的胎兒 DNA 濃度為約 5% (Lo,YMD et al. 1998 Am J Hum Genet 62,768-775), 因而對(duì)約0. 6%的人類基因組進(jìn)行測(cè)序,可以代表,在檢測(cè)任何妊娠的胎兒染色體非整倍性 中,準(zhǔn)確性至少為95%的診斷所需的測(cè)序的最小量。IV.隨機(jī)測(cè)序?yàn)榱耸纠粶y(cè)序的DNA片段在測(cè)序運(yùn)行過(guò)程中是隨機(jī)選擇的,我們獲得了由實(shí)施 例I所分析的8個(gè)母體血漿樣品產(chǎn)生的被測(cè)序的標(biāo)簽。對(duì)于每個(gè)母體血漿樣品,相對(duì)于參 照人類基因組序列即NCBI匯編36,我們確定了每個(gè)36bp被測(cè)序的標(biāo)簽的起始位置,該標(biāo)簽 唯一地與21號(hào)染色體進(jìn)行了比對(duì),而無(wú)錯(cuò)配。我們隨后按升序?qū)?lái)自每個(gè)樣品的比 對(duì)的被 測(cè)序的標(biāo)簽池的起始位置數(shù)進(jìn)行了排序。我們對(duì)22號(hào)染色體進(jìn)行了相似的分析。出于示 例的目的,將每個(gè)母體血漿樣品的21號(hào)染色體和22號(hào)染色體的前10個(gè)起始位置分別顯示 于圖8A和圖8B中。由這些表可知,DNA片段的被測(cè)序的池在樣品間是不同的。利用任何合適的計(jì)算機(jī)語(yǔ)言,如Java、C++或使用例如常規(guī)或面向?qū)ο蠹夹g(shù)的Perl,本申請(qǐng)所述的任何軟件組件或函數(shù)可以作為由處理器運(yùn)行的軟件代碼來(lái)執(zhí)行。軟件 代碼可在用于存儲(chǔ)和/或傳輸?shù)挠?jì)算機(jī)可讀介質(zhì)上存儲(chǔ)為一系列指令或命令,合適的介質(zhì) 包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、諸如硬盤或軟盤的磁性介質(zhì)或諸如光盤 (CD)或DVD(多功能數(shù)碼光盤)的光學(xué)介質(zhì)、閃存等。計(jì)算機(jī)可讀介質(zhì)可以是此類存儲(chǔ)或傳 輸裝置的任何組合。
此類程序也可以利用適合通過(guò)有線、光學(xué)和/無(wú)線網(wǎng)絡(luò)傳播的載波信號(hào)來(lái)編碼和 傳輸,該網(wǎng)絡(luò)符合包括國(guó)際互聯(lián)網(wǎng)在內(nèi)的各種協(xié)議。因此,本發(fā)明實(shí)施方案的計(jì)算機(jī)可讀介 質(zhì),可以利用此類程序編碼的數(shù)據(jù)信號(hào)產(chǎn)生。用程序代碼編碼的計(jì)算機(jī)可讀介質(zhì)可以與兼 容的裝置組裝,或由其他裝置(如經(jīng)由互聯(lián)網(wǎng)下載)獨(dú)立地提供。任何此類計(jì)算機(jī)可讀介 質(zhì)可以位于一個(gè)計(jì)算機(jī)程序產(chǎn)品上或在該產(chǎn)品內(nèi)(例如,硬盤或整個(gè)計(jì)算機(jī)系統(tǒng)),并且可 以存在于系統(tǒng)或網(wǎng)絡(luò)內(nèi)不同計(jì)算機(jī)程序產(chǎn)品上或在該產(chǎn)品內(nèi)內(nèi)。計(jì)算機(jī)系統(tǒng)可以包括顯示 屏、打印機(jī)或向用戶提供本文所提到的任何結(jié)果的其他合適的顯示器。計(jì)算機(jī)系統(tǒng)的實(shí)例顯示于圖9中。圖9中所示的子系統(tǒng)經(jīng)由系統(tǒng)總線975相互連 接。圖9顯示了其他子系統(tǒng),如打印機(jī)974、鍵盤978、硬盤979、與顯示適配器982連接的顯 示屏976等。與I/O控制器971連接的外圍裝置和輸入/輸出(I/O)裝置,可以通過(guò)本領(lǐng) 域已知的任何數(shù)量的方式連接至計(jì)算機(jī)系統(tǒng),如串行端口 977。例如,串行端口 977或外部 界面981可用于將計(jì)算機(jī)裝置連接至諸如互聯(lián)網(wǎng)的廣域網(wǎng)、鼠標(biāo)輸入裝置或掃描儀。經(jīng)由 系統(tǒng)總線互聯(lián)允許中央處理器973與每個(gè)子系統(tǒng)通訊,并控制系統(tǒng)內(nèi)存972或硬盤979的 指令的執(zhí)行以及子系統(tǒng)間信息的交換。系統(tǒng)內(nèi)存972和/或硬盤979是計(jì)算機(jī)可讀介質(zhì)的 具體表現(xiàn)。出于示例和描述的目的,上文呈現(xiàn)了本發(fā)明示例性實(shí)施方案的描述。不意圖是全 面的或?qū)⒈景l(fā)明限制為所述的準(zhǔn)確形式,并且根據(jù)上文的教導(dǎo),可以做出許多修飾和變化。 為了最好地解釋本發(fā)明的原理及其實(shí)踐應(yīng)用而選擇和描述了實(shí)施方案,由此使本領(lǐng)域技術(shù) 人員在各種實(shí)施方案中,并且通過(guò)適于所考慮的具體用途的各種修飾來(lái)最佳地利用本發(fā) 明。出于各種目的,將本文所引用的所有出版物、專利和專利申請(qǐng)通過(guò)引用全文并入。
權(quán)利要求
在從孕婦個(gè)體獲得的生物樣品中進(jìn)行胎兒染色體非整倍性產(chǎn)前診斷的方法,其中所述生物樣品包括核酸分子,所述方法包括接收所述生物樣品;對(duì)含于所述生物樣品中的多個(gè)核酸分子的至少一部分進(jìn)行測(cè)序,其中被測(cè)序的一部分代表人類基因組的部分;基于所述測(cè)序由鑒定為來(lái)自第一染色體的序列確定所述第一染色體的第一量;由鑒定為來(lái)自第二染色體之一的序列確定一條或多條所述第二染色體的第二量;由所述第一量和所述第二量確定參數(shù);將所述參數(shù)與一個(gè)或多個(gè)截止值進(jìn)行比較;以及基于所述比較,確定對(duì)于所述第一染色體,是否存在胎兒染色體非整倍性的分類。
2.如權(quán)利要求1所述的方法,其中對(duì)含于所述生物樣品中的所述核酸分子的一部分隨 機(jī)地進(jìn)行所述測(cè)序。
3 .如權(quán)利要求1所述的方法,其中所述生物樣品是母體血液、血漿、血清、尿或唾液。
4.如權(quán)利要求1所述的方法,其中所述生物樣品是宮頸灌洗液。
5.如權(quán)利要求1所述的方法,其中所述第一染色體是21號(hào)染色體、18號(hào)染色體、13號(hào) 染色體、X染色體或Y染色體。
6.如權(quán)利要求1所述的方法,其中所述參數(shù)是來(lái)自所述第一染色體的序列的比值。
7.如權(quán)利要求6所述的方法,其中所述比值是由被測(cè)序的標(biāo)簽數(shù)量的分?jǐn)?shù)計(jì)數(shù)、被測(cè) 序的核苷酸的分?jǐn)?shù)數(shù)量以及累積的序列的分?jǐn)?shù)長(zhǎng)度的任何一個(gè)或多個(gè)來(lái)獲得的。
8.如權(quán)利要求6所述的方法,其中所述來(lái)自所述第一染色體的序列經(jīng)選擇,小于指定 數(shù)量的堿基對(duì)。
9.如權(quán)利要求8所述的方法,其中所述指定數(shù)量的堿基對(duì)是300bp、200bp或lOObp。
10.如權(quán)利要求1所述的方法,其中對(duì)于來(lái)自至少一條特定染色體的序列,已經(jīng)富集所 述生物樣品的所述核酸分子。
11.如權(quán)利要求1所述的方法,其中對(duì)于小于300bp的序列,已經(jīng)富集所述生物樣品的 所述核酸分子。
12.如權(quán)利要求1所述的方法,其中對(duì)于小于200bp的序列,已經(jīng)富集所述生物樣品的 所述核酸分子。
13.如權(quán)利要求1所述的方法,其中已經(jīng)利用聚合酶鏈?zhǔn)椒磻?yīng)擴(kuò)增所述生物樣品的所 述核酸分子。
14.如權(quán)利要求1所述的方法,其中所述被測(cè)序的一部分代表人類基因組的至少預(yù)定 的部分。
15.如權(quán)利要求1所述的方法,其中所述部分代表至少0.的人類基因組。
16.如權(quán)利要求1所述的方法,其中所述部分代表至少0.5%的人類基因組。
17.如權(quán)利要求1所述的方法,其中至少一個(gè)所述截止值與所述生物樣品中所述胎兒 DNA的分?jǐn)?shù)濃度有關(guān)。
18.如權(quán)利要求17所述的方法,其中所述生物樣品中所述胎兒DNA的分?jǐn)?shù)濃度通過(guò) Y染色體序列的比例、胎兒外遺傳標(biāo)記或利用單核苷酸多態(tài)性分析中的任何一個(gè)或多個(gè)確定。
19.如權(quán)利要求1所述的方法,其中截止值是在正常生物樣品中建立的參照值。
20.如權(quán)利要求1所述的方法,還包括 鑒定所述生物樣品中胎兒DNA的量;以及 基于期望的準(zhǔn)確性,計(jì)算待分析的序列的數(shù)量N。
21.計(jì)算機(jī)程序產(chǎn)品,包括用多個(gè)控制計(jì)算系統(tǒng)的指令編碼的計(jì)算機(jī)可讀介質(zhì),以便在 從孕婦個(gè)體獲得的生物樣品中進(jìn)行胎兒染色體非整倍性產(chǎn)前診斷的操作,其中所述生物樣 品包括核酸分子,所述操作包括下述步驟接收含于從孕婦個(gè)體獲得的所述生物樣品中的所述核酸分子的一部分的隨機(jī)測(cè)序的 數(shù)據(jù);其中所述生物樣品包括核酸分子,其中所述一部分代表人類基因組的部分; 基于所述隨機(jī)測(cè)序的數(shù)據(jù)由鑒定為來(lái)自第一染色體的序列確定所述第一染色體的第一量;由鑒定為來(lái)自第二染色體之一的序列確定一條或多條所述第二染色體的第二量;由所述第一量和所述第二量確定參數(shù);將所述參數(shù)與一個(gè)或多個(gè)截止值進(jìn)行比較;以及基于所述比較,確定對(duì)于所述第一染色體,是否存在胎兒染色體非整倍性的分類。
22.在從孕婦個(gè)體獲得的生物樣品中進(jìn)行胎兒染色體非整倍性產(chǎn)前診斷的方法,其中 所述生物樣品包括核酸分子,所述方法包括接收所述生物樣品;基于期望的準(zhǔn)確性,計(jì)算待分析的序列的數(shù)量N ;對(duì)含于所述生物樣品的至少N個(gè)所述核酸分子進(jìn)行隨機(jī)測(cè)序;基于所述隨機(jī)測(cè)序由鑒定為來(lái)自第一染色體的序列確定所述第一染色體的第一量;由鑒定為來(lái)自第二染色體之一的序列確定一條或多條所述第二染色體的第二量;由所述第一量和所述第二量確定參數(shù);將所述參數(shù)與一個(gè)或多個(gè)截止值進(jìn)行比較;以及基于所述比較,確定對(duì)于所述第一染色體,是否存在胎兒染色體非整倍性分類。
23.如權(quán)利要求22所述的方法,還包括確定生物樣品中胎兒DNA的百分比,其中基于期望的準(zhǔn)確性的待分析的序列的數(shù)量N 的計(jì)算以所述百分比為基礎(chǔ)。
全文摘要
本發(fā)明的實(shí)施方案提供了確定從孕婦獲得的生物樣品中是否存在胎兒染色體非整倍性的方法、系統(tǒng)和裝置。對(duì)生物樣品的核酸分子進(jìn)行測(cè)序,以便對(duì)基因組部分進(jìn)行測(cè)序。臨床相關(guān)染色體和背景染色體的各自量根據(jù)測(cè)序結(jié)果來(lái)確定。將由這些量獲得的參數(shù)(如比值),與一個(gè)或多個(gè)截止值進(jìn)行比較,據(jù)此確定胎兒染色體非整倍性分類是否存在。
文檔編號(hào)C12Q1/68GK101849236SQ200880108377
公開(kāi)日2010年9月29日 申請(qǐng)日期2008年7月23日 優(yōu)先權(quán)日2007年7月23日
發(fā)明者盧煜明, 趙慧君, 陳君賜 申請(qǐng)人:香港中文大學(xué)