火到珠子的"關鍵(key) "區(qū)域、測序引物區(qū)域和PCR引物區(qū)域。 由此,獲得接頭連接的片段。
[0099] 在進一步的步驟中,接頭-連接的片段退火到珠子,各個珠子退火使之具有單一 的接頭-連接的片段。對于接頭-連接的片段的集合,加入過量的珠子以確保對于大部分 珠子,每個珠子上退火一個單個的接頭 -連接的片段(Poisson分布)。
[0100] 在下一步中,在油包水的微反應器中珠子被乳化,各個油包水微反應器包含單個 的珠子。PCR試劑存在于油包水微反應器中使在微反應器中發(fā)生PCR反應。隨后,破碎微反 應器,并且富集含有DNA的珠子(DNA陽性珠子)。
[0101] 在之后的步驟中,珠子加載于孔中,各個孔含有單一的珠子。所述孔優(yōu)選為 PicoTiter? Plate的部分,使得大量的片段同時地測序。
[0102] 加入載酶珠子(enzyme-carrying bead)后,片段的序列用焦磷酸測序檢測。在繼 續(xù)的步驟中,皮克滴定板(Picotiterplate)和珠子及其中的酶珠子在常規(guī)的測序試劑存 在下經不同的脫氧核糖核苷酸處理,并且當摻入脫氧核糖核苷酸時產生可以被記錄的光信 號。摻入正確的核苷酸將會產生可以被檢測的焦磷酸測序信號。
[0103] 焦磷酸測序本身在本領域是已知的并且除了在www. biotagebio. com ;www. pyrosequencing. com/tab technology 上描述外,該技術還進一步在例如 W0 03/004690, TO 03/054142,W0 2004/069849,W0 2004/070005,W0 2004/070007 和 TO 2005/003375 (全部 以454公司的名義)中使用,其被引入此處作為參考。
[0104] 優(yōu)選的,步驟k)的高通量篩選通過步驟h)中設計的探針固定于陣列上,之后使 含有探針的陣列與測試文庫在雜交條件下接觸來進行。優(yōu)選的,接觸步驟在嚴格雜交條件 (參見 Kennedy et al. (2003)Nat. Biotech. ;published online 7 September 2003:1-5) 下進行。本領域技術人員知道合適的用于探針在陣列上的固定的方法并且也知道在雜 交條件下接觸的方法。適用于該目的的代表性的技術參見Kennedy et al. (2003)Nat. Biotech. ;published online 7September 2003:1-5。
[0105] 在多倍體農作物育種中,發(fā)現(xiàn)了一個特別有用的應用。通過用具有高覆蓋、鑒別性 的SNP和不同等位基因和開發(fā)用于等位基因特異性擴增的探針進行的多倍體農作物測序, 多倍體農作物的育種可以取得顯著的進步。
[0106] 作為發(fā)明的一部分,為了在此描述的用于有效和高通量的多態(tài)性鑒定的方法的進 一步改進,已經發(fā)現(xiàn)對多種樣品采用選擇性擴增而生成的隨機選擇的子集和高通量測序技 術的組合存在某些必須解決的復雜問題。更詳細地,已經發(fā)現(xiàn)當進行復雜度降低后,多個 (例如第一和第二或更多的)樣品組合于集合中時出現(xiàn)了問題,很多片段似乎源自兩個樣 品或不同的放置,很多鑒定的片段其不能被唯一地指定到一個樣品并且因此不能用在鑒定 多態(tài)性的方法中。這導致方法的可靠性降低并且較少的多態(tài)性(SNP,插入/缺失,SSR)可 以被充分鑒定。
[0107] 在仔細而詳細地分析不能被指定的片段的全部核苷酸序列后,發(fā)現(xiàn)這些片段含有 包含兩種不同的標簽的接頭,并且可能是在復雜度降低的樣品的生成和測序接頭的連接之 間形成的。該現(xiàn)象被描述為"混合的標簽"。描述為"混合的標簽"的現(xiàn)象,如在此使用的, 因此指的是這樣的片段,一方面所述片段含有與一個樣品相關的標簽,然而另一方面該片 段含有與另一個樣品相關的標簽。因此,一個片段看起來源自兩個樣品(不同)。這導致錯 誤的多態(tài)性的鑒定并且因此而不被期望。
[0108] 兩個樣品間的異源雙鏈核酸片段的形成造成這一異常已經被理論化。
[0109] 這一問題的解決方法已經在用于樣品轉化的策略的重新設計中被發(fā)現(xiàn),其中可以 在高通量測序前擴增復雜性被降低的樣品的被退火到珠子的片段。在這個【具體實施方式】 中,各個樣品經復雜度降低和任選的純化。在此之后,使各個樣品成為平末端(末端平滑 化),之后連接能夠退火到珠子的測序接頭。然后,樣品的測序接頭一連接的片段被組合并 連接到用于乳液聚合和隨后的高通量測序的珠子。
[0110] 作為該發(fā)明的更進一步的部分,發(fā)現(xiàn)串聯(lián)體的片段妨礙了正確的多態(tài)性的鑒定。 串聯(lián)體被看作在復雜度降低產物已經被'鈍化(blunting)'或'平滑化'(例如通過T4 DNA 聚合酶)后形成的片段,并且代替可以退火到珠子的接頭的連接,而相互連接,因此產生 串聯(lián)體,g卩,串聯(lián)體是平末端片段的二聚化的結果。
[0111] 在某些特定的經修飾的接頭的使用中發(fā)現(xiàn)了這個問題的解決方案。由于不具有 3' _5'核酸外切酶校對閱讀活性的某些優(yōu)選的聚合酶的特征,由復雜度降低獲得的擴增的 片段通常包含3' -A突出端。上述3' -A突出端的存在也是為何片段在接頭連接之前被鈍 化的原因。通過提供可以退火到珠子的接頭,其中接頭含有3' -T突出端,發(fā)現(xiàn)可以在一個 步驟中解決'混合的標簽'和串聯(lián)體這兩個問題。用這些經修飾的接頭的進一步優(yōu)點在于 可以省略常規(guī)的'末端鈍化'步驟和隨后的磷酸化步驟。
[0112] 因此,在進一步優(yōu)選的【具體實施方式】中,各個樣品的復雜度降低步驟之后,在獲自 復雜度降低步驟的擴增的接頭一連接的限制性片段上進行的一個步驟,由此,測序接頭連 接到這些片段,其測序接頭包含3' -T突出端并且能夠退火到珠子。
[0113] 進一步發(fā)現(xiàn),當在復雜度降低步驟中使用的引物被磷酸化時,可以避免在連接前 的末端平滑化(鈍化)步驟和中間體磷酸化。
[0114]因此,在本發(fā)明的更優(yōu)選的【具體實施方式】中,發(fā)明涉及用于鑒定一個或多個多態(tài) 性的方法,所述的方法包括步驟:
[0115] a)提供多個目的核酸樣品;
[0116] b)對各個樣品進行復雜度降低以提供多個核酸樣品的文庫,其中復雜度降低通 過:
[0117]-用至少一種限制性核酸內切酶消化各個核酸樣品以將其片段化為限制性片段;
[0118]-將獲得的限制性片段與具有與限制性片段的一個或兩個末端相兼容的一個末端 的至少一種合成的雙鏈寡核苷酸接頭連接以產生接頭一連接的限制性片段;
[0119] -將所述接頭一連接的限制性片段與一個或多個磷酸化的寡核苷酸引物在雜交條 件下接觸;和
[0120]-通過一個或更多寡核苷酸引物的延伸擴增所述的接頭連接的限制性片段,其中 一個或多個寡核苷酸引物的至少一個包括具有與所述接頭一連接的限制性片段的末端的 鏈的末端部分相同的核苷酸序列的核苷酸序列,包括用于所述限制性核酸內切酶的參與目 標序列的形成的核苷酸并且包括在接頭中存在的核苷酸的至少一部分,其中,任選的,至少 一種所述引物在其3'末端包括經選擇的序列,其包含與用于所述限制性核酸內切酶的參 與目標序列的形成的核苷酸緊鄰定位的至少一個核苷酸,并且其中接頭和/或引物包含標 簽;
[0121 ] c)組合所述文庫為組合文庫;
[0122] d)用攜帶3'_T突出端的測序接頭將能夠退火到珠子的測序接頭連接到組合文庫 中的擴增的接頭一加帽的片段,并且使珠子一退火的片段進行乳液聚合;
[0123] e)對組合文庫的至少一部分測序;
[0124] f)比對來自步驟e)中獲得的各個樣品的序列;
[0125] g)確定在步驟f)比對中的多個核酸樣品間的一個或多個多態(tài)性;
[0126] h)用步驟g)中確定的一個或多個多態(tài)性設計探針;
[0127] i)提供目的核酸的測試樣品;
[0128] j)對目的測試樣品核酸進行步驟b)的復雜度降低以提供測試樣品核酸的測試文 庫;
[0129] k)用步驟h)中設計的探針高通量篩選測試文庫以鑒定在步驟g)中確定的多態(tài)性 的存在、缺失或數量。
[0130] 附圖簡述
[0131] 圖1A顯示了根據本發(fā)明退火到珠子('454珠子')上的片段和用于兩種胡椒品 系的預一擴增的引物序列。'DNA片段'表示用限制性核酸內切酶消化后獲得的片段,'關鍵 基因接頭'表示為用于產生文庫的(磷酸化的)寡核苷酸引物提供連接位點的接頭,'KRS' 表示標識子序列(標簽),'454 SEQ接頭'表示測序接頭,并且'454 PCR接頭'表示可以用 于DNA片段乳液擴增的接頭。PCR接頭可以用于退火到珠子和用于擴增并且可以含有3'-T 關出端。
[0132] 圖1B顯示了復雜度降低步驟中使用的引物的圖示。上述引物一般包含⑵所示 的識別位點區(qū),可以包括如(1)所示的標簽部分的恒定區(qū)和在其3'末端如(3)所示的選擇 性區(qū)域中的一個或多個選擇性的核苷酸。
[0133] 圖2顯示了用2%瓊脂糖凝膠電泳進行的0嫩濃度估測。51表示?5?11;52表示 ?1201234。對于估測的51和52的0嫩總量,50、100、250和5001^分別表示501^、1001^、 250ng和500ng。圖2C和2D顯示了使用Nanodrop分光光度測定法的DNA濃度檢測。
[0134] 圖3顯示了實施例3的中間質量分析結果。
[0135] 圖4顯示了序列數據加工管線的示意圖,即從測序數據的產生到推定的SNP、SSR 和插入/缺失的鑒定的步驟,在修整&加標簽的去除已知的序列信息步驟后,得到經修整的 序列數據,該數據被聚類&匯編以產生重疊群(contig)和單拷貝序列(不能匯編在重疊群 中的片段),之后可以對推定的多態(tài)性進行鑒定和評估。圖4A中說明了序列信息的加工管 線,圖4B進一步詳細說明了多態(tài)性采集的方法。
[0136] 圖5提出了混合的標簽的問題并且在圖5A的圖示1中提供了混合標簽的例子,攜 帶的標簽與樣品1 (MSI)和樣品2 (MS2)連接。圖5A的圖示2提供了該現(xiàn)象的示意性說明。 衍生自樣品1 (S1)和樣品2 (S2)的AFLP限制性片段在攜帶樣品特異性標簽S1和S2的兩 個末端與接頭("關鍵基因接頭")連接。經擴增和測序后,期望的片段是具有S1-S1標簽 和S2-S2標簽的片段。另外的出乎意料地觀察到的是攜帶S1-S2或S2-S1標簽的片段。圖 5B的圖示3解釋了推想的產生混合的標簽,由此來自樣品1和2的片段形成異源雙鏈核酸 產物的原因。隨后,由于T4DNA多聚酶或Klenow的3' -5'外切酶活性,使異源雙鏈核酸不 具有3'-突出端。聚合過程中,用核苷酸填充該缺口,并且引入錯誤的標簽。該操作針對具 有大約相同長度的異源雙鏈核酸(頂部圖示)但是也針對具有更多不同長度的異源雙鏈核 酸。圖5C的圖示4的左邊提供了導致混合的標簽形成的常規(guī)的實驗流程并且在右邊提供 了改良的實驗流程。
[0137] 圖6提出了串聯(lián)體形成這一問題,由此,在圖6A的圖示1中給出了典型的串聯(lián)體 的例子,由此下劃線標記不同的接頭和標簽部分進行并注明它們的來源(即MSI,MS2, ESI 和ES2分別對應于來自樣品1的Msel限制性位點一接頭,來自樣品2的Msel限制性位點一 接頭,來自樣品1的EcoRI限制性位點一接頭,來自樣品2的EcoRI限制性位點一接頭)。 圖6B的圖示2闡釋了所期待的攜帶S1-S1標簽和S2-S2標簽的片段和觀察到的但并非期 望的S1-S1-S2-S2(以來自樣品1和樣品2的片段的串聯(lián)體的形式)。圖6C的圖示3為避 免生成串聯(lián)體和混合的標簽而推想的解決方案,其包括通過在AFLP接頭中引入突出端,修 飾的測序接頭和連接測序接頭時省略末端平滑化步驟。因為ALP片段不能相互連接而發(fā)現(xiàn) 沒有串聯(lián)體形成,并且因為省略末端平滑化步驟而沒有出現(xiàn)混合的片段。圖示4提供利用 修飾的接頭的改良的實驗流程以避免串聯(lián)體形成和混合的標簽。
[0138] 圖7包含推定的單核苷酸多態(tài)性(SNP)的胡椒AFLP片段序列的 " 10037-CL989contig2"多重比對。請注意SNP (通過黑色箭頭所示),由通過憑借上面兩個 讀取序列的MSI標簽的存在指出的樣品1 (PSP11)兩個讀取序列中的A等位基因的存在和 通過憑借下面兩個讀取序列的MS2標簽的存在指出的樣品2 (PI201234)中G等位基因的存 在進行定義。讀取序列的名稱顯示于左邊。該多重比對的一致的序列為(5' -3'):
[0139] TAACACGACTTTGAACAAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACA[A/G]TGTTGGTTTT
[0140] GGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTG.
[0141] 圖8A用于目標單序列重復(SSR)的富集策略與用于從頭SSR發(fā)現(xiàn)的高通量測序 相組合的圖示。
[0142]圖 8B :用 SNPWave 檢測的胡椒中的 G/A SNP 的確認。PI =PSP11 ;P2 = PI201234。 八種RIL后代通過數字1-8表示。 實施例
[0143] 實施例1
[0144] EcoRI/Msel限制性連接混合物(1)產生自胡椒品系PSP-11和PI20234的基因組 DNA。限制性連接混合物被稀釋10倍并且5微升各樣品用EcoRI+1 (A)和Msel+l (C)引物 (組I)預擴增⑵。擴增后,兩種胡椒樣品的預擴增產物的性質用1%瓊脂糖凝膠檢測。預 擴增產物被20倍稀釋,之后進行KRSEcoRI+1 (A)和KRSMseI+2 (CA) AFLP預擴增。下面的引 物序列SEQ ID 1-4中將KRS(標識子)片段用下劃線標記,并且在所述序列的3'-末端的 經選擇的核苷酸為粗體。擴增后,兩種胡椒樣品的預擴增產物的性質用1%瓊脂糖凝膠和 通過EcoRI+3(A)和MseI+3(C) (3)AFLP指紋(4)檢測。兩種胡椒品系的預擴增產物分別在 QiagenPCR柱(5)上純化。樣品濃度在Nanodrop中測量。將全部的5006. 4ng的PSP-11和 5006. 4ng的PI20234混合并測序。
[0145] 用于預擴增PSP-11的引物組I
[0146] E01LKRS1 5,-CGTCAGACTGCGTACCAATTCA-3' [SEQ ID 1]
[0147] M15KKRS1 5' -TGGTGATGAGTCCTGAGTAACA-3' [SEQ ID 2]
[0148] 用于預擴增PI20234的引物組II
[0149] E01LKRS2 5,-CAAGAGACTGCGTACCAATTCA-3' [SEQ ID 3]
[0150] M15KKRS2 5' -AGCCGATGAGTCCTGAGTAACA