專利名稱::有利于高通量基因序列標簽測序的dna粘端接頭與應用的制作方法
技術領域:
:本發(fā)明涉及一種DNA接頭,特別是涉及一種有利于高通量基因序列標簽測序的DNA粘端接頭與應用。
背景技術:
:新一代的高通量測序技術平臺包括羅氏454公司的GenomeSequencer系統(tǒng),Illumina公司的Solexa系統(tǒng),以及AppliedBiosystems公司的S0LiD系統(tǒng)。與傳統(tǒng)的Sanger測序方法相比,新一代測序技術平臺不僅測序通量大大提高,測序成本顯著降低,并且無需進行繁瑣的常規(guī)建庫、克隆等過程,省時省力。因此,自2005年商業(yè)化的新一代高通量測序儀首次推出以來,已廣泛應用于基因組學、轉錄組學等生命科學領域的研究。上述的三種新一代高通量測序技術平臺中,羅氏454公司的GenomeSequencerFLX系統(tǒng)的單個序列可讀取長度最長,可達500個堿基以上,而其他兩種技術平臺目前的測序長度均小于100個堿基。目前,該系統(tǒng)已被世界上幾乎所有從事基因組測序和相關結構功能研究的頂級實驗室配備使用,對大規(guī)?;蛐蛄械难芯亢蛻卯a生了巨大的推動作用。應用GenomeSequencerFLX系統(tǒng)進行高通量測序,一般步驟為長度約300-800bp的待測樣品DNA片段,與特異的DNA接頭(由羅氏公司的GSFLXStandardDNALibraryPreparationKit提供)相連接,經過emPCR對DNA平行擴增后進行測序。Kit中提供的特異DNA接頭在后續(xù)的純化、擴增、富集和測序等步驟中起著重要作用。但是,這種特異DNA接頭是一種平端接頭,只能與平端的樣品DNA片段相連接。雖然所有的樣品DNA片段均可通過現有的分子生物學技術被補平或切平而成為平端,但這樣不僅增加了實驗步驟,導致本已有限的樣品DNA片段在實驗中的損失加大;更重要的是,在某些情況下,特別是在基因序列標簽的測序中,通過補平或切平的方法將粘端DNA片段轉化為平端,可能會損失其粘性末端所攜帶的信息,使測序的效率降低。由此,需要設計一種能夠應用于GenomeSequencerFLX高通量測序系統(tǒng)的、具有粘性末端的DNA接頭,該接頭可以與粘端的樣品DNA直接進行連接,然后進行后續(xù)的emPCR等高通量測序步驟,而不需要將粘端DNA片段轉化為平端,以簡化實驗步驟,并保護粘性末端所攜帶的信息,提高測序效率。
發(fā)明內容本發(fā)明所要解決的技術問題是提供一種有利于高通量基因序列標簽測序的DNA粘端接頭與應用,由于該潔A接頭是一種具有粘性末端的DNA接頭,可與具有與之相匹配的末端突出的粘端DNA片段直接進行連接,用于高通量基因序列標簽測序,以提高對粘性末端DNA片段的測序效率。為解決上述技術問題,本發(fā)明的有利于高通量基因序列標簽測序的DNA粘端接頭,是一種末端突出的DNA接頭,帶有可識別序列Xn、Yn,其序列式為序列(I)和序列(II),5,-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAGXndm-3,正義鏈5,-YnCTGAGACAGGGAGGGAACAGATGGGACACGCAGGGATGAG-3,反義鏈(I)5'-Biotin-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAGXndm-3,正義鏈5'-YnCTGAGACACGCAACAGGGGATAGGCAAGGCACACAGGGGA-3,反義鏈(n)其中,X表示A、T、G、C四種堿基中的任意一種,n為4-10之間的任意整數,任意兩個相鄰的X不能是相同的堿基,Y是與X—一對應的互補堿基,dm是末端突出標志,d表示A、T、G、C四種堿基中的任意一種,m為l-4之間的任意整數,如dm可以是CATG。本發(fā)明的一種有利于高通量基因序列標簽測序的DNA粘端接頭的應用在于采用DNA粘端接頭用于高通量基因序列標簽測序,該測序方法的具體步驟包括(1)取長度在300-800bp的末端突出的樣品DNA片段;(2)在DNA連接酶的作用下,樣品DNA片段與DNA粘端接頭相連接;(3)用QiaquickPCR純化試劑盒純化連接有接頭的DNA片段;(4)通過電泳分離并回收大小在300-800bp的連接有接頭的DNA片段;(5)再按照常規(guī)高通量測序的后續(xù)步驟進行測序。采用本發(fā)明的DNA粘端接頭,能同時進行多個樣品的高通量測序,并且樣品DNA來源不限,也可以是由RNA經反轉錄得到的DNA,其中,在基因序列標簽的測序中,具有以下優(yōu)點1)簡化實驗步驟4在基因序列標簽的測序中,使用本發(fā)明中的末端突出的DNA接頭,可以省略四個實驗步驟(對比圖1和圖2),不僅節(jié)省了時間,而且由于DNA片段每經過一次純化就會損失一部分,省略了兩次純化步驟,可以減少DNA片段在實驗過程中的損失;2)提高測序效率在基因序列標簽的測序中,識別所測序列中的一組基因標簽是依靠該組標簽兩端的CATG四個堿基的標志,如果任意一端的CATG四個堿基缺失,那么將不能識別該組基因標簽。使用平端DNA接頭的測序結果為ATTATGAACTTGCCACAGAAGCTGTGTTTTGAA^ATGl7T7MgrgC7TCC7T6Mggrgg7Tgg6Mgg(XrOJCATG[rCGGATATCAAGCCTAGTAGCTGGG。由于序列原本帶有的5,端突出的CATG標志在T4DNA聚合酶、大腸桿菌DNA聚合酶作用下被切除而轉變?yōu)槠蕉?,所以在測序結果中缺失,導致第一組的基因標簽由于缺少了一端的CATG標志而無法被識別。這樣,在長度為100bp的序列中,能夠得到的基因標簽只有一組(用斜體字表示)。使用本發(fā)明中的粘端DNA接頭的測序結果為^g^^6tr腐(扁6m^藩掘c腐(;n7^^^m^a:扁6T7^7mn6CT6t^W7rg77|CATG|CACAGTTCACAATAGG。使用粘端DNA接頭可以有效地保護序列5'端突出的CATG標志,使第一組基因標簽能夠被識別。這樣在長度為100bp的序列中,能夠得到的基因標簽有兩組(用斜體字表示)。ACTG(即本發(fā)明中的Xn)是粘端DNA接頭的特異性標記,通過對其堿基組成和長度的改變,可以用于區(qū)分不同的接頭。不同的樣品DNA與帶有各自特異性標記的不同的接頭相連接,從而實現在高通量測序同時檢測多個不同樣品。下面結合附圖與具體實施方式對本發(fā)明作進一步詳細的說明圖l是高通量基因序列標簽測序中,使用平端DNA接頭的常規(guī)實驗步驟流程圖;圖2是高通量基因序列標簽測序中,使用本發(fā)明中的末端突出的DNA接頭的實驗步驟流程圖。具體實施例方式以下實施例中的DNA粘端接頭是人工合成序列,由寶生物工程(大連)有限公司合成,且實施例1-4中的接頭序列I、II只有在Xn處及相應的Yn處有所不同,其它接頭序列部分相同。實施例1在轉錄組SAGE(SerialAnalysisofGeneExpression)基因序列標簽高通量測序中的應用步驟一、長度約300-800bp的末端突出的基因表達標簽的制備A.在0.5ml試管中,依次加入人體肝癌組織的新鮮RNA20叫,500嗎biotin標記的oligodT磁珠,5XFirstStrandBuffer18nl,RNaseOUTl|al,DEPCWater54.5^1,0.1MDTT9.0^1,dNTPMix(10mMeach)4.5pl。輕輕混勻管內成分,置于37°C溫育2分鐘后再加入3^1SuperscriptIIReverseTranscriptase(200U/V1),混勻后置于42。C溫育1小時,反應結束后立即將反應物置于冰上放置2分鐘。反應產物為第一鏈cDNA。B.上述反應管內依次加入DEPCWater465^1,5XSecondStrandBuffer150^1,dNTPMix(10mMeach)15pl,E.coliDNALigase(10U/^il)5|al,E.coliDNAPolymerase(10U/pl)20nl,E.coliRNaseH(2U/^il)5^1。輕輕混勻管內成分,于16。C反應2小時,獲得雙鏈cDNA。C.移去反應管內的上清,保留管內磁珠,并用172^1LoTE(3mMTris-HCl,pH7.5;0.2mMEDTA,pH7.5)重懸磁珠。向管內依次加入100XBSA2(il,10XBuffer20nl,NlaIII(10UAil)6^1。輕輕混勻管內成分,置于37。C溫育1小時。NlaIII是一種識別4堿基位點的錨定酶,理論上在每一個轉錄本上至少有一個酶切位點,因此每一個雙鏈DNA分子均可以被該酶切割而獲得3'端cDNA。D.移去反應管內的上清,保留管內磁珠,并將磁珠等分于2個新的反應管內。向第一個反應管內依次加入AdaptorA(40ng/nl)l.5nl,LoTE14|al,10XLigaseBuffer2pl,T4DNAligase(5U/V1)2.5^1。向第二個反應管內依次加入AdaptorB(40ng/|al)1.5|xl,LoTE14(U,10XLigaseBuffer2|al,T4DNAligase(5U/jxl)2.5^1。輕輕混勻管內成分,于16。C反應2小時。AdaptorA和B的序列如下AdaptorA:5'TTTGGATTTGCTGGTGCAGTACAACTAGGCTTAATAGGGACATG3'63,amino(C7)CCTAAACGACCACGTCATGTTGATCCGAATTATCCCTP045,AdaptorB:5,TTTCTGCTCGAATTCAAGCTTCTAACGATGTACGGGGACATG3,3,amino(C7)GACGAGCTTAAGTTCGAAGATTGCTACATC-CCCCTP045,E.移去上述2個反應管內的上清,保留管內磁珠,依次向2個反應管內加入LoTE174pl,10XBuffer20nl,100XBSA(10mg/ml)4fU,BsmFI(2U/fU)2^1。輕輕混勻管內成分,置于65。C溫育1小時。反應結束后,將2個反應管內的上清分別轉移到2個新的反應管內。F.向上述含有上清的2個新的反應管內加入與上清等體積的酚/氯仿,充分混勻后室溫下離心(13,000rpm)5分鐘。將上清分別轉移到2個新的反應管,依次加入133pl乙酸銨,3|almusselglycogen(20mg/ml),lml100%乙醇。混勻管內成分,放置于干冰上20分鐘,4。C離心(13,000rpm)40分鐘。棄上清,將沉淀用lml70%乙醇洗2遍,最終溶解于10nlLoTE中。G.向上述2個含有10plLoTE的反應管中依次加入10XKlenowBuffer5.0pl,100XBSAl.O^il,dNTPMix(10mMeach)2.5^1,DEPCWater30.5^1,Kle麗Polymerase(9U/V1)l.Onl。輕輕混勻管內成分,置于37。C溫育30分鐘。H.反應結束后,將2管內的反應液混合,加入100^ULoTE,混勻后再加入200pl酚/氯仿,充分混勻后室溫下離心(13,000rpm)5分鐘。將上清轉移到新的反應管,依次加入133pl乙酸銨,3jxlmusselglycogen(20mg/ml),lml100%乙醇?;靹蚬軆瘸煞?,放置于干冰上20分鐘,4。C離心(13,000rpm)40分鐘。棄上清,將沉淀用lml70%乙醇洗2遍,最終溶解于1.5plLoTE中。I.配制連接混合物3mMTris-HCl(pH7.5)1.25pl,10XLigaseBuffer0.75pl,ddH200.75pl,T4麗ALigase(5U/V1)1^1。取1.5^1連接混合物加入上一步驟的1.5^1LoTE中,混合均勻,放置于16。C連接反應16小時。連接反應產物即為含有一組兩端分別含有接頭A和B的2個基因序列標簽的、長約100個堿基的Ditag(雙標簽)。J.向上述連接反應物中加入600ialLoTE后混勻,取lplDitag作為PCR模板,并依次加入10XBuffer5pl,DMS03|al,dNTPs(10mMeach)7.5|al,引物_1(175ng/pl)2|^1,引物-2(175ng/Vl)2^1,ddH2029nl,TaqDNApolymerase(511/^1)0.5^1。共配置400份PCR反應液,按照如下熱循環(huán)參數進行PCR反應95。C2分鐘,1個循環(huán);95°C30秒、55°C1分鐘、70°C1分鐘,共27個循環(huán);70°C5分鐘,1個循環(huán)。引物-1和引物-2的序列如下,引物-l:5'-GGATTTGCTGGTGCAGTACA-3';引物-2:5'-CTGCTCGAATTCAAGCTTCT-3'。K.將PCR產物進行12%聚丙烯酰胺凝膠分離純化,回收100bp的Ditag,回收產物溶解于42(alLoTE,并加入10XBuffer15pl,100XBSA2|al,NlaIII12pl,ddH2079nl。輕輕混勻管內成分,置于37°C溫育2小時。將反應物進行12%聚丙烯酰胺凝膠分離純化,回收26bp的Ditag,回收產物溶解于8.75|alLoTE中。26bp的Ditag是一組僅含有2個基因序列標簽、而去除了接頭A和B的Ditag。L.向上述8.75^1LoTE中加入T4DNALigase(5U/pl)1.25pl,混勻后置于16°C反應2小時。反應結束后,將連接反應產物進行8%聚丙烯酰胺凝膠分離純化,回收長度約300-800bp的DNA片段。回收產物溶解于10plLoTE中,即獲得了粘性末端(5'突出末端為CATG)的樣品DNA片段,系由多個26bp的Ditag組成的基因表達標簽串聯體。步驟二、接頭I和II與樣品麗A的連接M.向步驟L中的溶解于10plLoTE中的DNA片段中依次加入40nM接頭I1^1,40一接頭IIl)dl,10XLigaseBuffer1^1,ddH206pl,T4DNALigase(5U/|al)1^1?;靹蚬軆瘸煞郑糜?6。C反應30分鐘。然后依次加入10XBuffer4^1,dNTPs(10mMeach)lpl,ddH2011.5)^1,Bstpolymerase(8U/nl)lpl,混勻管內成分,置于65°C反應30分鐘。接頭I和接頭II的序列如下(I)5,-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAGXnlCAT(f3,正義鏈5,-YnCTGAGACAGGGAGGGAACAGATGGGACACGCAGGGATGAG-3,反義鏈(II)5,-Biotin-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAGXn^^-3,正義鏈5'-YnCTGAGACACGCAACAGGGGATAGGCAAGGCACACAGGGGA-3'反義鏈其中,Xn是ACTG,Yn是CAGT;N.使用QiaquickPCR純化試劑盒(Qiagen)純化步驟M的反應產物,純化產物進行8%聚丙烯酰胺凝膠分離,回收長度約300-800bp的DNA片段,即獲得了兩端分別含有接頭I和II的、由多個26bp的Ditag組成的基因表達標簽串聯體。該DNA片段可直接用于后續(xù)GenomeSequencerFLX系統(tǒng)高通量測序的常規(guī)實驗步驟(使用羅氏公司的GSFLXStandardDNALibraryPreparationKit)。實驗結果對人體肝癌組織RNA樣品進行的這種轉錄組SAGE基因序列標簽的高通量測序,提供了覆蓋所有高豐度和低豐度轉錄物的大量序列數據。序列數據的特征是每條序列均以Xn(ACTG)起始,其后即為由多個26bp的Ditag組成的基因表達標簽串聯體,每一組Ditag的兩端均為CATG序列,CATG是識別串聯體中每一組Ditag的特異性標記。依據測序序列長度的不同,每條序列中包含38組Ditag或更多(參考表1)。表l<table>tableseeoriginaldocumentpage9</column></row><table>實施例2在轉錄組LongSAGE基因序列標簽高通量測序中的應用步驟一、長度約300-800bp的末端突出的基因表達標簽的制備步驟A、B、C同實施例1D.移去反應管內的上清,保留管內磁珠,并將磁珠等分于2個新的反應管內。向第一個反應管內依次加入AdaptorC(40ng/|il)l.5nl,LoTE14pl,10XLigaseBuffer2^1,T4DNAligase(5U/pl)2.5|^1。向第二個反應管內依次加入AdaptorD(40ng/nl)1.5(xl,LoTE14pl,10XLigaseBuffer2fU,T4DNAligase(5U/pl)2.5nl。輕輕混勻管內成分,于16。C反應2小時。AdaptorC和D的序列如下AdaptorC:5'TTTGGATTTGCTGGTGCAGTACAACTAGGCTTAATATCCGACATG3'3'amino(C7)CCTAAACGACCACGTCATGTTGATCCGAATTATAGGCTP045'AdaptorD:5'TTTCTGCTCGAATTCAAGCTTCTAACGATGTACGTCCGACATG3'3'amino(C7)GACGAGCTTAAGTTCGAAGATTGCTACATGCAGGCTP045'E.依次向2個反應管內加入LoTE70|al,10XBuffer10|al,10XSAM(400pM)化l,MmeI(2U/V1)10|al。輕輕混勻管內成分,置于37。C溫育2.5小時。反應結束后,將2個反應管內的上清分別轉移到2個新的反應管內。步驟F、G、H、I同實施例l,但步驟I的連接反應產物為含有一組兩端分別含有接頭C和D的2個基因序列標簽的、長約130個堿基的Ditag。步驟J、K、L同實施例l,但步驟K對PCR產物及Nlain酶切產物進行12。/。聚丙烯酰胺凝膠分離純化時,回收的Ditag分別為130bp和34bp;步驟L中最終獲得的粘性末端(5'突出末端為CATG)的樣品DNA片段,系由多個34bp的Ditag組成的基因表達標簽串聯體。步驟二、接頭I和II與樣品DNA的連接步驟M、N同實施例l,但步驟M中的接頭I和接頭II的序列中的Xn變?yōu)镃TGAC,Yn變?yōu)镚TCAG,其它接頭序列部分相同。步驟N得到了兩端分別含有接頭I和n的、由多個34bp的Ditag組成的基因表達標簽串聯體。該DNA片段可直接用于后續(xù)Gen咖eSequencerFLX系統(tǒng)高通量測序的常規(guī)實驗步驟(使用羅氏公司的GSFLXStandardDNALibraryPreparationKit)。實驗結果對人體肝癌組織RNA樣品進行的這種轉錄組LongSAGE基因序列標簽的高通量測序,提供了覆蓋所有高豐度和低豐度轉錄物的大量序列數據。與實施例1的方法相比,通過本方法獲得的基因序列標簽長度增加,由26bp增加到34bp,從而提高了對基因序列標簽注釋的準確度。序列數據的特征是每條序列均以Xn(CTGAC)起始,其后即為由多個34bp的Ditag組成的基因表達標簽串聯體,每一組Ditag的兩端均為CATG序列,CATG是識別串聯體中每一組Ditag的特異性標記。依據測序序列長度的不同,每條序列中包含25組Ditag或更多(參考表2)。表2<table>tableseeoriginaldocumentpage11</column></row><table>實施例3在基因組基因序列標簽高通量測序中的應用A.在0.5ml試管中,依次加入人體白血病細胞基因組DNA10pl(l叫/nl),10XBuffer20pl,100XBSA2pl,ddH20162pl,Sacl6pl(20U/pl)?;靹蚬軆瘸煞?,放置于37。C溫育1.5小時。B.反應結束后,向管內加入200nl酚/氯仿,充分混勻后室溫下離心(13,000rpm)5分鐘。將上清轉移到新的反應管,依次加入133^1乙酸銨,3plmusselglycogen(20mg/ml),lml100%乙醇。混勻管內成分,放置于干冰上20分鐘,4°C離心(13,000rpm)40分鐘。棄上清,將沉淀用lml70%乙醇洗2遍,最終溶解于5|nlLoTE中。C.向上述管內依次加入SacILinker(35ng/pl)1.6^1,ddH202^1,5XLigationBuffer2.4|^1,T4DNAligase(5U/ul)1^1。混勻管內成分,置于16°C連接反應3小時。反應結束后,向管內加入188)^1LoTE,混勻,再加入20(^1酚/氯仿,重復步驟B。SaclLinker的序列如下5,-biotin-TTTGCAGAGGTTCGTAATCGAGTTGGGTGAGCT-3,5,-phosphate-CACCCAACTCGATTACGAACCTCTGC-3'D.向上述管內加入LoTE167pl,100XBSA2pl,10XBuffer20pl,NlaIII(10U/pl)6^1?;靹蚬軆瘸煞郑糜?7。C溫育1小時。重復步驟B。E.向管內加入200nlDynabeadM-280磁珠(10mg/ml),室溫放置30分鐘,每隔5分鐘輕輕混勻管內成分。將磁珠等分于2個新的管內,移去上清,保留管內磁珠,后續(xù)步驟同實施例2步驟D、E、F、G、H、I、J、K、L、M、N,但步驟M中的接頭I和接頭II的序列中的Xn變?yōu)镚TACGA,Yn變?yōu)門CGTAC,其它接頭序列部分相同。實驗結果:對人體白血病細胞DNA樣品進行的這種基因組序列標簽的高通量測序,提供了覆蓋全基因組的大量序列數據。通過本方法獲得的基因組序列標簽長度為34bp,由于人類全基因組序列是己知的,因而可以對這些序列標簽進行注釋和分析,從而獲得白血病病人基因組擴增或缺失的詳細信息。序列數據的特征是每條序列均以Xn(GTACGA)起始,其后即為由多個34bp的Ditag組成的基因組序列標簽串聯體,每一組Ditag的兩端均為CATG序列,CATG是識別串聯體中每一組Ditag的特異性標記。依據測序序列長度的不同,每條序列中包含25組Ditag或更多(參考表3)。表3序列序列長測序結果包含Ditag名稱度(bp)組數I96""O^CATGATACGCTGCCGCAAGCCCGAGGCACTTGGGACAGCATGCGCACTGGCCAGGAGCCGCATTTGAAGAACATCCCATGATGATCGCCT2II138G7M<XCATGATGATAGAAGGCAGTTATCCTGGAATCTGGCTCACATGGGCTTCAGAAGATAGCTCGGATCACTTTGAGCTCCATGTCACCTCGCTGCAGGACAAGACGTGCTTAAGATTCATGCAACTAGGCAGCTA312<table>tableseeoriginaldocumentpage13</column></row><table>實施例4在甲基化基因序列標簽高通量測序中的應用A.在0.5ml試管中,依次加入人體白血病細胞基因組DNA10pl(1嗎/^1),10XBuffer20^1,ddH20164^1,Ascl6fxl(10U/pl)?;靹蚬軆瘸煞郑胖糜?7。C溫育1.5小時。B.反應結束后,向管內加入200^1酚/氯仿,充分混勻后室溫下離心(13,000rpm)5分鐘。將上清轉移到新的反應管,依次加入133pl乙酸銨,3plmusselglycogen(20mg/ml),lml100%乙醇。混勻管內成分,放置于干冰上20分鐘,4°C離心(13,000rpm)40分鐘。棄上清,將沉淀用lml70%乙醇洗2遍,最終溶解于5^1LoTE中。C.向上述管內依次加入AscILinker(35ng/pl)1.6pl,ddH202fU,5XLigationBuffer2.4|xl,T4DNAligase(5U/ul)l)al?;靹蚬軆瘸煞郑糜?6°C連接反應3小時。反應結束后,向管內加入188|alLoTE,混勻,再加入200nl酚/氯仿,重復步驟B。AsclLinker的序列如下5,-biotin-TTTGCAGAGGTTCGTAATCGAGTTGGGTGG-3,5,-phosphate-CGCGCCACCCAACTCGATTACGAACCTCTGC-3'D.向上述管內加入LoTE167pl,100XBSA2nl,10XBuffer20nl,NlaIII(10U/^il)6pl?;靹蚬軆瘸煞?,置于37。C溫育1小時。重復步驟B。E.向管內加入200nlDynabeadM-280磁珠(10mg/ml),室溫放置30分鐘,每隔5分鐘輕輕混勻管內成分。將磁珠等分于2個新的管內,移去上清,保留管內磁珠,后續(xù)步驟同實施例2步驟D、E、F、G、H、I、J、K、L、M、N,但步驟M中的接頭I和接頭II的序列中的Xn變?yōu)镃AGTAGA,Yn變?yōu)門CTACTG,其它接頭序列部分相同。實驗結果:對人體白血病細胞DNA樣品進行的這種基因組序列標簽的高通量測序,提供了覆蓋全基因組甲基化位點的大量序列數據。本方法采用用甲基化敏感的限制性內切酶Ascl對基因組DNA進行酶切,Ascl僅選擇性地作用于非甲基化區(qū)域的識別位點,而不能酶解甲基化的識別位點。因此,通過本方法獲得的長度為34bp的基因組序列標簽為基因組低甲基化區(qū)域的標簽。由于人類全基因組序列是已知的,因而可以對這些序列標簽進行注釋和分析,從而獲得全基因組甲基化水平的分布情況。序列數據的特征是每條序列均以Xn(CAGTAGA)起始,其后即為由多個34bp的Ditag組成的基因組序列標簽串聯體,每一組Ditag的兩端均為CATG序列,CATG是識別串聯體中每一組Ditag的特異性標記。依據測序序列長度的不同,每條序列中包含25組Ditag或更多(參考表4)。表4序列名稱序列長度(bp)測序結果包含Ditsg組數I97CM6T^fiCATGATACGCTGCCGCAAGCCCGAGGCACTTGGGACAGCATGCGCACTGGCCAGGAGCCGCATTTGAAGAACATCCCATGATGATCGCCT2II139C/Itf7X6^CATGATGATAGAAGGCAGTTATCCTGGAATCTGGCTCACATGGGCTTCAGAAGATAGCTCGGATCACTTTGAGCTCCATGTCACCTCGCTGCAGGACAAGACGTGCTTAAGATTCATGCAACTAGGCAGCTA3III179C^7^fiCATGGCTTAGAACACAGGATATGCCTGCAGTCCCAGCTCATGAGTGCAGGACACACAGAAGTGAAGCCTTCCTGGACATGAATCACGCTTATTACGGGCACACCTGCAAGGTGGCATGGGACAAAGCCCAGGCTGTCTGCATTCAACCTGTCCATGGACAAGTGACTGCCTG4IV208CMG7M6MCATGATCTCTCATCTTCCAGCCTGAATGTGTTCGCTGTCATGAGACATCAGGTGCTGCGGTCCTTCAGAGAAGCTGCATGTAGGACTGCTGGCACAAGACGTTACTTGCTGTACCATGAGTCCAGAACAGACCGAAGCCAATGTGCCTGACCCATGGAGCCAGGGAGCTCACCTGTGCCTCGCTCTCAGGCATGCAGCCAG51權利要求1、一種有利于高通量基因序列標簽測序的DNA粘端接頭,其特征在于該DNA粘端接頭是一種末端突出的DNA接頭,帶有可識別序列Xn、Yn,其序列式為序列(I)和序列(II),5’-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAGXndm-3’正義鏈5’-YnCTGAGACAGGGAGGGAACAGATGGGACACGCAGGGATGAG-3’反義鏈(I)5’-Biotin-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAGXndm-3’正義鏈5’-YnCTGAGACACGCAACAGGGGATAGGCAAGGCACACAGGGGA-3’反義鏈(II)其中,X表示A、T、G、C四種堿基中的任意一種,n為4-10之間的任意整數,任意兩個相鄰的X不能是相同的堿基,Y是與X一一對應的互補堿基,dm是末端突出標志,d表示A、T、G、C四種堿基中的任意一種,m為1-4之間的任意整數。2、如權利要求1所述的有利于高通量基因序列標簽測序的DNA粘端接頭,其特征在于所述的dm是CATG。3、一種有利于高通量基因序列標簽測序的DNA粘端接頭在高通量基因序列標簽測序方法中的應用,該方法步驟包括(1)取長度在300-800bp的末端突出的樣品DNA片段;(2)在DNA連接酶的作用下,樣品DNA片段與DNA粘端接頭相連接;(3)用QiaquickPCR純化試劑盒純化連接有接頭的DNA片段;(4)通過電泳分離并回收大小在300-800bp的連接有接頭的DNA片段;(5)再按照常規(guī)高通量測序的后續(xù)步驟進行測序。全文摘要本發(fā)明公開了一種有利于高通量基因序列標簽測序的DNA粘端接頭與應用,該接頭是一種末端突出的DNA接頭,帶有可識別序列Xn、Yn,其序列式為序列(I)和序列(II),該DNA粘端接頭可應用于高通量基因序列標簽的測序。采用本發(fā)明的DNA粘端接頭,能同時進行多個樣品的高通量基因序列標簽測序,并且樣品DNA來源不限,測序前DNA制備的步驟簡化,測序效率高。文檔編號C12N15/11GK101503733SQ200810044118公開日2009年8月12日申請日期2008年12月17日優(yōu)先權日2008年12月17日發(fā)明者任雙喜,艷沈,王升躍,輝董,趙國屏,金維榮,震錢,陳樣宜申請人:上海人類基因組研究中心