用于個人表觀基因組學的至天然染色質(zhì)的轉座的制作方法
【專利說明】用于個人表觀基因組學的至天然染色質(zhì)的轉座
[0001] 政府支持
[0002] 本發(fā)明是在國立衛(wèi)生研究院授予的合同AI057229、HG000044和NS073015下由政 府支持作出的。政府具有本發(fā)明的某些權利。
[000引交叉引用
[0004]本申請要求2013年5月23日提交的美國臨時申請系列號61/826728的利益,該 申請通過引用W其整體并入本文。
[000引背景
[0006] 真核生物基因組分層次地包裝成染色質(zhì),并且此包裝的性質(zhì)在基因調(diào)控中起著中 屯、作用。對編碼在染色質(zhì)的核蛋白結構中的表觀遺傳信息的主要認知來自于高通量的全基 因組方法,其用于單獨測定染色質(zhì)可接近性開放染色質(zhì)")、核小體定位和轉錄因子燈巧 占據(jù)。雖然存在已公開的方案,但運些方法需要數(shù)百萬個細胞作為起始材料、復雜和費時的 樣品制備并不能同時探測核小體定位、染色質(zhì)可接近性和TF結合的相互作用。運些限制在 Ξ個主要方面存在問題:第一,目前的方法可平均和"淹沒"細胞群的異質(zhì)性。第二,細胞通 常必須離體生長W獲得足夠的生物材料,從而擾亂體內(nèi)背景并且W未知的方式調(diào)節(jié)表觀遺 傳狀態(tài)。第Ξ,輸入要求通常會阻止運些測定應用于明確定義的臨床樣品,從而妨礙診斷時 間尺度上"個人表觀基因組學"的產(chǎn)生。本文提供的是可W克服運些限制的方法,其用于分 析多核巧酸包括其可接近性及其結構。還提供的是單細胞方法,其可W提供較高的靈敏度 和對染色質(zhì)可接近性的進一步信息,包括細胞間變異性,W潛在地使其用作生物標志物。
[0007] 概述
[0008] 本文提供了用于分析多核巧酸例如基因組DNA的方法。在某些實施方案中,該 方法包括:(a)用轉座酶和分子標簽處理分離自細胞群的染色質(zhì)W產(chǎn)生多核巧酸的標記片 段;化)測序標記片段的一部分W產(chǎn)生多個序列讀數(shù)訊(C)通過將獲自序列讀數(shù)的信息映 射至細胞的基因組的區(qū)域而制作所述細胞的基因組的該區(qū)域的表觀遺傳圖譜。
[0009] 在一些情況下,信息通過使用在序列讀數(shù)的開頭的核巧酸序列和任選末端上的核 巧酸序列獲得。在某些情況下,在(C)中映射的信息選自下列的一種或多種:(i)轉座酶的 切割位點;(ii)在步驟(a)中產(chǎn)生的片段的大小;(iii)序列讀數(shù)長度;(iii)確定長度范 圍的序列讀數(shù)的位置;和(iv)序列讀數(shù)豐度。在一些情況下,確定大小范圍的片段是無核 小體的片段。
[0010] 在一些情況下,表觀遺傳圖譜顯示下列的一種或多種:(i)沿該區(qū)域的染色質(zhì)可 接近性的特征譜;(ii)該區(qū)域中結合位點的DNA結合蛋白的占據(jù);(iii)該區(qū)域中的無核 小體的DNA; (iv)沿該區(qū)域的核小體定位;和/或(V)染色質(zhì)狀態(tài)。在一些情況下,該方法 還可包括測量DNA結合蛋白對于結合位點的總體占據(jù)。DNA結合蛋白可W例如是轉錄因子。
[0011] 在一些情況下,細胞群可W包括約500至100, 000個細胞。細胞可W分離自個體, 例如分離自該個體的血液。在一些實例中,細胞可W是相同的細胞類型。在一些實例中,細 胞可W是FACS選擇的細胞。
[0012] 在一些情況下,處理步驟(a)可W包括:從細胞群分離細胞核;和將分離的細胞核 與插入酶復合物組合,其中所述組合導致細胞核裂解w釋放染色質(zhì),w及導致產(chǎn)生基因組DNA的標記片段。在一些實例中,轉座酶可來源于Τη5轉座酶。在其它實例中,轉座酶可來 源于MuA轉座酶。在進一步的實例中,轉座酶可來源于V化bar轉座酶(例如來源于哈氏弧 菌(Vibrioharveyi))。
[0013] 本公開內(nèi)容還提供了用于比較兩種樣品的方法,其包括:(a)分析第一細胞群W 產(chǎn)生第一表觀遺傳圖譜;和(b)分析第二細胞群W產(chǎn)生第二表觀遺傳圖譜;W及(C)比較 第一表觀遺傳圖譜與第二表觀遺傳圖譜。例如,第一細胞群和第二細胞群可W是從相同個 體在不同的時間收集的?;蛘撸谝患毎汉偷诙毎嚎蒞是從不同個體收集的不同細 胞群。
[0014] 本公開內(nèi)容還提供了一種診斷方法,其包括:分析來自患者的染色質(zhì)W產(chǎn)生表觀 遺傳圖譜;和基于表觀遺傳圖譜提供診斷或預后。
[0015] 本公開內(nèi)容提供了用于測定多核巧酸在某位點的可接近性的方法,其中所述多核 巧酸來自細胞樣品,所述方法包括:(a)用插入酶將多個分子標簽插入多核巧酸;和化)使 用所述分子標簽來測定所述位點上的可接近性。該方法還可包括使用所測定的可接近性來 鑒定在所述位點上結合至多核巧酸的一種或多種蛋白。在一些情況下,所述蛋白的至少一 種是轉錄因子。該方法還可包括使用分子標簽來產(chǎn)生多核巧酸的可接近性圖。
[0016] 本公開內(nèi)容還提供了用于分析來自細胞樣品的多核巧酸的Ξ維結構的方法,包 括:(a)用插入酶將多個分子標簽插入多核巧酸;和化)使用分子標簽來分析所述多核巧酸 的Ξ維結構。在一些情況下,插入酶可包含兩個或更多個酶部分,其中各個酶部分將共同的 序列插入多核巧酸。酶部分可W連接在一起。共同的序列可包括共同的條形碼。酶部分可 包括轉座酶。多核巧酸可W在步驟(a)過程中被分割成多個片段,其中包含共同的條形碼 的片段被測定為在多核巧酸的Ξ維結構中是靠近的。
[0017] 多核巧酸可W在插入過程中被分割成多個片段。該方法還可包括擴增所述片段。 可接近性可W通過對片段測序從而產(chǎn)生多個測序讀數(shù)來測定。片段可W例如通過高通量測 序技術測序。該方法還可包括基于插入酶的序列插入偏好標準化測序讀數(shù)。測序讀數(shù)的長 度還可用于確定染色質(zhì)狀態(tài)注釋(C虹omatinstaeannotation)。
[001引細胞樣品可W經(jīng)透化W允許插入酶進入。在一些情況下,細胞樣品中的細胞核在 透化期間被最小限度地擾亂。細胞樣品可W使用透化劑來透化,所述透化劑包括但不限于 NP40、洋地黃皂巧、吐溫、鏈球菌溶血素和/或陽離子脂質(zhì)。細胞樣品還可W使用低滲休克 和/或超聲處理來透化。
[0019] 該方法還可包括基于特定位點的可接近性來分析受試者中的疾病狀態(tài),其中細胞 樣品獲自所述受試者。細胞樣品和/或多核巧酸還可被劃分成多個部分,其可任選地基于 分子標簽來劃分。該方法還可包括分析細胞樣品的表型。在一些情況下,表型可W與位點 的可接近性相關。
[0020] 插入可W通過加入一種或多種二價陽離子來促進。在一些情況下,所述一種或多 種二價陽離子可W包括儀。在一些情況下,所述一種或多種二價陽離子可W包括儘。
[0021] 細胞樣品可獲自原始來源。細胞樣品可W由少于約500, 000個細胞組成,或甚至 是單個細胞。多核巧酸可W結合至多個關聯(lián)分子。關聯(lián)分子可W包括蛋白質(zhì),例如組蛋白。 插入酶可W是轉座酶。在一些情況下,轉座酶可來源于Τη5轉座酶。在其它情況下,轉座酶 可來源于MuA轉座酶。在其它情況下,轉座酶可來源于Vi化ar轉座酶(例如來源于哈氏弧 菌)。在一些情況下,分子標簽可包含測序銜接子,其還可包含條形碼標記。條形碼標記可 包括獨特的序列。在其它情況下,分子標簽可包括巧光標簽。插入酶還可包含親和標簽,其 可任選地是結合轉錄因子、修飾的核小體和/或修飾的核酸的抗體。修飾的核酸可W例如 是甲基化或徑甲基化的DNA。親和標簽還可W是單鏈核酸,其可任選地結合至祀核酸。插入 酶還可包含核定位信號。
[0022] 本公開內(nèi)容還提供了組合物。該組合物可包含多核巧酸、插入酶和插入元件,其 中:插入元件包括包含預先確定的序列的核酸;并且插入酶還包含親和標簽。組合物還可 包含多核巧酸、插入酶和插入元件,其中:插入酶包含兩個或更多個酶部分;并且所述酶部 分連接在一起。親和標簽可W是抗體,其可任選地結合至轉錄因子、修飾的核小體和/或修 飾的核酸。修飾的核酸可W是例如甲基化或徑甲基化的DNA。親和標簽還可W是單鏈核酸, 其可任選地結合至祀核酸。插入元件可W結合至插入酶并且插入酶結合至多核巧酸。多核 巧酸還可結合至多個關聯(lián)分子。關聯(lián)分子可W包括蛋白質(zhì),例如組蛋白。
[0023] 本公開還提供了試劑盒。該試劑盒可包含:(a)用于從細胞群分離細胞核的試劑; 化)插入酶復合物,和(C)轉座酶反應緩沖液,在一些情況下,試劑盒的組分可W被配置為 使得反應緩沖液、轉座子標簽和銜接子與細胞核的體外組合導致細胞核裂解W釋放染色 質(zhì),W及導致產(chǎn)生基因組DNA的標記片段。試劑盒還可包含:細胞裂解緩沖液;包含親和標 簽的插入酶;和包含核酸的插入元件,其中所述核酸包含預先確定的序列。試劑盒還可包 含:細胞裂解緩沖液;包含兩個或更多個酶部分的插入酶,其中所述酶部分連接在一起;和 (C)插入元件。親和標簽可W是抗體,其可任選地結合至轉錄因子、修飾的核小體和/或修 飾的核酸。修飾的核酸可W是例如甲基化或徑甲基化的DNA。親和標簽還可W是單鏈核酸, 其可任選地結合至祀核酸。
[0024] 本教導內(nèi)容的運些和其它特征示于本文中。
[00巧]通過引用并入
[0026] 在本說明書中提及的所有出版物、專利和專利申請均通過引用并入本文,其程度 如同每個單獨的出版物、專利或專利申請被明確地和單獨地指明通過引用并入。
[0027] 附圖簡述
[0028] 本領域技術人員將理解下文描述的附圖僅用于舉例說明的目的。附圖并不意圖W 任何方式限制本教導內(nèi)容的范圍。
[0029] 圖1A-1C:ATAC-seq是開放染色質(zhì)狀態(tài)的靈敏的、準確的探針。(a)ATAC-seq反應 原理圖。裝載有測序銜接子(紅色和藍色)的轉座酶(綠色)僅插入開放染色質(zhì)(灰色的 核小體)的區(qū)域,并生成可PCR擴增的測序文庫片段?;╅_放染色質(zhì)分析的全基因組方 法的近似報告輸入材料和樣品制備時間要求。(C)在GM12878淋己母細胞樣細胞中的基因 座上ATAC-seq與其它開放染色質(zhì)測定的比較,顯示高度一致性??肯碌腁TAC-seq軌跡由 500個FACS分選的細胞產(chǎn)生。
[0030] 圖2A-2B:ATAC-seq提供染色質(zhì)緊密態(tài)的全基因組信息。(a)從GM12878細胞核 (紅色)產(chǎn)生的ATAC-seq片段大小指示具有與核小體一致的空間頻率的染色質(zhì)依賴的周期 性,W及與小于200bp片段的DNA螺旋螺距一致的高頻率周期性。(插圖)對數(shù)轉換的直方 圖顯示出明顯的持續(xù)至6個核小體的周期性?;┲按_定的7類染色質(zhì)狀態(tài)的標準化讀 數(shù)富集。
[003。 圖3A-3E:ATAC-seq提供了關于調(diào)節(jié)區(qū)域中核小體定位的全基因組信息。(a)含有 兩個轉錄起始位點(TSS)的示例基因座,顯示無核小體讀數(shù)軌跡、計算的核小體軌跡("方 法")、W及用于比較的面ase、MNase和冊K27ac、冊K4me3W及肥A.Z軌跡?;┽槍λ?活性TSS(η= 64, 836)所顯不的ATAC-seq(1. 98xl06個配對讀數(shù))和MNase-seq(來自ref 23的4xl09個單末端讀數(shù))核小體信號,TSS通過CAGE表達分選。(C)TSS針對無核小體的 片段富集,并且在-2、-1、+1、+2、巧和+4位置上顯不與MNase-seq所見的相似的定相核小 體。(d)TSS和遠端位點中核小體關聯(lián)的相對于無核小體的(NFR)堿基的相對分數(shù)(見"方 法")。(e)可接近的染色質(zhì)內(nèi)相對于最近的核小體二分體的DNA結合因子位置的層次聚類 掲示了不同類別的DNA結合因子。與核小體強烈關聯(lián)的因子針對染色質(zhì)重塑體富集。
[0032] 圖4A-4C:ATAC-seq測定全基因組因子占據(jù)。(a)在C虹1上的特定基因座上,在 ATAC-seq和面ase-seq數(shù)據(jù)中觀察到的CTCF足跡。化)在基因組中的結合位點上產(chǎn)生的 針對CTCF(所顯示的基序)的集合ATAC-seq足跡。(C)從ATAC-seq數(shù)據(jù)、針對CTCF基序 的位置權重矩陣(PWM)得分和進化保守性(Phylo巧推斷的CTCF預測結合概率。最右邊的 列是針對該GM12878細胞系的CTCF化IP-seq數(shù)據(jù)巧NC0呢),顯示出與預測的結合概率的 高度一致性。
[0033] 圖5A-5D:ATAC-seq實現(xiàn)實時的個人表觀基因組學。(a)從標準抽血的工作流。 化)來自先證者T細胞的Ξ天內(nèi)連續(xù)ATAC-seq數(shù)據(jù)。(c)ATAC-seq數(shù)據(jù)(綠色軌跡)用于 對候選TF藥物祀標區(qū)分優(yōu)先次序的應用實例。在鑒定的靠近細胞因子基因IL2(可W由 抑A批準的藥物祀向)的TF結合位點中,僅NFAT結合先證者T細胞。ATAC-seq足跡預測 通過與公開的NFAT化IP-seq數(shù)據(jù)(藍色軌跡,來自ref35的數(shù)據(jù))比對來確認。(d)與GM 12878B細胞系比較的來自先證者T細胞的細胞類型特異性調(diào)節(jié)網(wǎng)絡。每行或列是TF相對 于相同細胞類型中的所有其它TF的足跡特征譜。顏色表示T相對于B細胞的相對相似性 (黃色)或差異性(藍色)。NFAT是一個最高差異調(diào)節(jié)的TF(紅色框),而典型CTCF結合 在T細胞和B細胞中基本相似。
[0034] 圖6 :ATAC-seq峰強度與麗ase-seq峰強度良好相關。D址eD化se-seq(向下采樣 至60xl06個讀數(shù))、UW麗ase-seq(40xl0 6個讀數(shù))和ATAC-seq數(shù)據(jù)巧0x10 6個配對末端 讀數(shù))中的峰使用ZINBA(Rashid等人GenomeBiol. 2011 12:R67)來調(diào)用。由于每個數(shù)據(jù) 集有不同的讀數(shù)長度,我們選擇過濾可映射區(qū)域內(nèi)的峰值uke面ase-seq= 20bp讀數(shù),UW 麗ase-Seq= 36bp讀數(shù),ATAC-Seq=配對末端50bp讀數(shù))。對于(A)D址e麗ase-seq和 ATAC-seq, (B)UW歴ase-seq和ATAC-seq,W及(C)UWDNAse-seq和D址e歴ase-seq比較 loglO(讀數(shù)強度)。ATAC-seq數(shù)據(jù)的技術重現(xiàn)性顯示于D中。
[003引圖7 :ATAC-seq捕獲面ase識別峰的很大一部分。對于所有數(shù)據(jù)集使用ZINBA調(diào) 用峰。維恩圖顯示每個方法之間的峰調(diào)用重疊。下圖:大多數(shù)ATAC-seq讀數(shù)在與Duke和 UW歴ase-seq峰相交的強峰中。顯不了從ATAC-seq、UW歴ase-seq和D址e歴ase-seq調(diào) 用的峰內(nèi)的讀數(shù)的總分數(shù),W及運些數(shù)據(jù)的交集。所有Ξ種方法中超過65%的讀數(shù)被發(fā)現(xiàn) 在Ξ種方法的峰的交集中,提示通過所有方法檢測到良好定型的峰。表單元格顏色與讀數(shù) 的分數(shù)成比例。
[0036] 圖8 :相對于一組背景區(qū)域,與GM12878細胞中通過D址e面ase、UW面ase和FAIRE 鑒定的一組開放染色質(zhì)區(qū)域重疊的讀數(shù)數(shù)量的圖,其中對于檢測開放染色質(zhì)位點靈敏性 和特異性所需的讀數(shù)深度的測定在不同的讀數(shù)深度上評估,包括50k、100k、500k、lxl03P 5xl07個讀數(shù)。底部圖顯示ATAC-seq在GM12878細胞中的表現(xiàn)通過使用500、5, 000或 50, 000個細胞作為起始材料來進行評估。
[0037] 圖9:基因組DNA和染色質(zhì)中的Τη5插入偏好。核巧酸頻率得分代表針對每個堿 基所觀察到的核巧酸頻率,將核巧酸頻率針對1進行標準化。X= 0的位置表示讀數(shù)開始, 虛線表示Τη5二聚體的對稱軸。我們在純化的基因組DNA和人染色質(zhì)之間沒有看到Τη5插 入偏好之間的實質(zhì)性差別,運表明染色質(zhì)中的局部插入偏好與裸基因組DNA中所發(fā)現(xiàn)的相 同。所報告的運些序列偏好類似于W前報道過的那些(ref. 11的正文)。
[0038] 圖10 :在每個ATAC-seq峰上各特征的每堿基平均強度的圖;所有ENCODE化IP數(shù) 據(jù)針對輸入進行標準化;數(shù)據(jù)已使用200個峰的滑動窗口進行了處理。
[0039] 圖11 :各種細胞數(shù)量的ATAC-seq。對于ATAC-seq來自不同起始數(shù)量細胞的數(shù)據(jù) 的代表性UCSC基因組瀏覽器軌跡。此相同的基因組還顯示于正文的圖化中。按順序:使 用FACS分離500個細胞,和通過從細胞培養(yǎng)物的簡單稀釋實現(xiàn)500個細胞和5, 000個細胞 的一式兩份重復。為了比較,底部軌跡代表50, 000個細胞,還顯示于圖化中。此圖證實, 我們能夠從少至500個細胞捕獲開放染色質(zhì)位點。
[0040] 圖12 :將核小體峰擬合至ATAC-seq片段大小分布W實現(xiàn)核小體占據(jù)測量。所觀 察到的片段分布被劃分為四個讀數(shù)群-預期源自開放DNA的讀數(shù),和跨越1、2或3個推定 核小體的讀數(shù)。為了實現(xiàn)數(shù)據(jù)的運種劃分,將ATAC-seq片段分布擬合至下列的總和:1)低 于1個核小體的插入片段大小上片段分布模式的指數(shù)函數(shù)和2)從一、二、Ξ、四和五個核小 體的保護產(chǎn)生的分布的5個高斯。所顯示的運些擬合的總和(黑色虛線)類似于所觀察到 的片段分布(藍線)。垂直虛線是鑒定為源自無核小體(<l(K)bp)、l-核小體、2-核小體和 3-核小體區(qū)域的片段的邊界。虛線被設置為確保<10%的片段從鄰近起源,如由我們的擬 合所限定的。
[0041] 圖13 :GM 12878細胞中通過ATAC-seq檢測的轉錄因子足跡的選擇組。對于所指 示的轉錄因子,使用CENTI陽DE在匹配對應基序的全基因組位點集上計算ATAC-seq讀數(shù)的 集合信號。在基序邊界的區(qū)域+/-l〇〇bp中計算讀數(shù)。垂直虛線指示基序的邊界。
[004引 圖14 :使用ATAC-seq和面ase足跡利用CENTIP邸E預測CTCF結合位點。CTCF結 合位點的預測使用通過由CENTI陽DE報告的后驗概率分選的全基因組CTCF基序集來評估。 那些重疊CTCF化IP-seq峰用作陽性集并且所有其它的被認為是陰性集。運產(chǎn)生0.92的 曲線下面積(AUC),其提示CTCF的特異性和靈敏性結合推斷。D址e面ase和UW面ase數(shù) 據(jù)在相同的CENTI陽DE設置下使用,并顯示了R0C圖。ATAC-seq數(shù)據(jù)由198X106個配對讀 數(shù)組成,D址e面ase包含245xl06個讀數(shù)并且UW面ase包含48x106個讀數(shù)。
[0043] 圖15 :Τ細胞特異性NFAT調(diào)節(jié):通過ATAC-seq預測并通過與NFAT化IP-seq(來 自ref35正文的數(shù)據(jù))比對確認的T細胞特異性NFAT祀基因的實例。
[0044] 圖16 :來自人血的FACS純化的細胞群的ATAC-seq。(A)從標準抽血,我們使用巧 光激活細胞分選(FAC巧純化CD4巧細胞、CD8巧細胞和CD14+單核細胞。每個群體產(chǎn)生成 功的ATAC-seq數(shù)據(jù)度)并掲示了已知的譜系特異性基因上的細胞類型特異性染色質(zhì)開放 位點。
[0045] 圖17 :使用ATAC-seq檢測GM12878細胞中的等位基因特異性開放染色質(zhì)。通過 可公開獲得的變體數(shù)據(jù),我