本發(fā)明涉及生物信息
技術(shù)領(lǐng)域:
,尤其涉及高通量測序序列的甲基化挖掘的方法和系統(tǒng)。
背景技術(shù):
:亞硫酸氫鈉測序法(bisulfitegenomicsequencing)是建立在MSP基礎(chǔ)上進一步深入研究CpG島各個位點甲基化情況的方法。重亞硫酸鹽使DNA中未發(fā)生甲基化的胞嘧啶脫氨基轉(zhuǎn)變成尿嘧啶,而甲基化的胞嘧啶保持不變,進行PCR擴增(引物設(shè)計時盡量避免有CpG,以免受甲基化因素的影響)所需片段,則尿嘧啶全部轉(zhuǎn)化成胸腺嘧啶。最后,對PCR產(chǎn)物進行測序,并且與未經(jīng)處理的序列比較,判斷是否CpG位點發(fā)生甲基化。此方法雖是一種可靠性及精確度很高的方法,能明確目的片段中每一個CpG位點的甲基化狀態(tài)。在尋找有意義的關(guān)鍵性CpG位點上,有其他方法無法比擬的優(yōu)點。測序法以CpG島兩側(cè)不含CpG點的一段序列為引物配對區(qū),所以能夠同時擴增出甲基化和非甲基化靶序列。它的不足是耗費時間和耗資過多,至少要測序10個以上的克隆才能獲得可靠數(shù)據(jù),需要大量的克隆及質(zhì)粒提取測序,過程較為繁瑣、昂貴。甲基化敏感擴增多態(tài)性(methylationsensitiveamplificationpolymorphism,MSAP)技術(shù)由Reyna-lópez等報道(Reyna-Lópezetal.1997),并被用于檢測雙相型真菌的DNA甲基化,它是在擴增片段長度多態(tài)性(amplifiedfragmentlengthpolymorphism,AFLP)技術(shù)的基礎(chǔ)上建立起來的。其基本程序是:提取高質(zhì)量基因組DNA,分別用EcoRI/HpaII,EcoRI/MspI兩組酶組合對基因組DNA進行雙酶切,并連上相應的限制性內(nèi)切酶的接頭,然后以接頭序列設(shè)計的預擴增引物,進行PCR擴增。擴增產(chǎn)物稀釋后,再加入帶有選擇性堿基的引物,進行第二次PCR擴增,擴增產(chǎn)物變性后在6%的序列膠上電泳,最后采用銀染或同位素放射自顯影方法處理序列膠,統(tǒng)計和分析DNA條帶。這種方法在研究動植物基因組甲基化上有廣泛應用(ShaAHetal.2005)。MSAP技術(shù)相對其他測定DNA甲基化程度的技術(shù)有如下優(yōu)點:(1)不需知道被測DNA的序列信息,在不同生物上具有通用性,可用于DNA序列背景知識未知的生物。(2)操作相對簡便,在AFLP技術(shù)體系的基礎(chǔ)無需改進,即可操作。(3)可在全基因組范圍檢測CCGG位點的胞嘧啶甲基化變化。技術(shù)實現(xiàn)要素:本發(fā)明就著高通量測序技術(shù)的發(fā)展,所有開發(fā)的基于AFSM測序技術(shù)以及同類甲基化敏感位點限制性選擇內(nèi)切酶,高通量的分析甲基化多態(tài)性的研究方法進行甲基化數(shù)據(jù)分型。具體的技術(shù)方案為:一種胞嘧啶甲基化挖掘的方法,包括步驟:A)、目標數(shù)據(jù)獲得:對同一來源的基因組由HpaII與MspI甲基化敏感酶切后擴增通過高通量測序;B)通過AFSM技術(shù)建庫:對同一樣品構(gòu)建HpaII與MpaI酶切DNA文庫,分別加上barcode接頭序列;C)根據(jù)測序原始數(shù)據(jù)判讀酶切位點:通過識別HpaII和MspIbarcode接頭序列堿基進行區(qū)分HpaII和MspI酶切文庫;將識別出的數(shù)據(jù)標定出酶切編號與樣品編號,同時屏蔽標簽序列;D)將標記后的原始數(shù)據(jù)進行圖譜分析和組裝,產(chǎn)出.bam比對文件;E)對bam文件進行甲基化數(shù)據(jù)挖掘。進一步的,所述B)步驟barcode接頭序列為HpaIIGTCATGCCTCATCTCA,MspIGTCATGCCTCATTAGT。進一步的,所述D)步驟組裝為全部數(shù)據(jù)分成兩組進行組裝;選擇短序列拼接方法,使用Bowtie2軟件進行比對到已知參考基因組或者使用Trinity軟件進行重頭組裝再使用Bowtie2軟件比對到從頭組裝的參考基因組;產(chǎn)出.bam比對文件,及樣本間變異SNP和Indel。更為具體的,目標數(shù)據(jù)獲得:限制性內(nèi)切酶對DNA甲基化敏感性不同,因而相同序列就可擴增出不同的帶型,以此判斷DNA甲基化的程度。同裂酶為HpaⅡ和MspⅠ,這兩個酶識別相同的酶切位點CCGG(真核生物中主要的甲基化位點),但對甲基化敏感程度不同,HpaⅡ?qū)τ贒NA兩條鏈上的該位點內(nèi)外側(cè)胞嘧啶均甲基化及任一個胞嘧啶甲基化都不能酶切,即不能酶切含mCCGG,CmCGG和mCmCGG的位點,但它可以識別僅一條鏈上胞嘧啶甲基化的位點。而MSPⅠ可以識別DNA單鏈或雙鏈上該位點內(nèi)側(cè)甲基化的胞嘧啶,但不識別外側(cè)甲基化胞嘧啶,即不能酶切mCCGG的位點。所以同一來源的DNA基因組酶切產(chǎn)物測序數(shù)據(jù)分析后,如果在MspⅠ酶切擴增產(chǎn)物中含有CCGG序列(CCGG位點無法酶切),同時在HpaⅡ酶切擴增產(chǎn)物中沒有CCGG序列(CCGG位點被酶切),則說明該位點發(fā)生了單鏈外側(cè)的胞嘧啶甲基化,即mCCGG,如果HpaⅡ酶切擴增產(chǎn)物中含有CCGG序列,同時在MspⅠ酶切擴增產(chǎn)物中沒有CCGG序列,則說明該位點發(fā)生了雙鏈CCGG位點的內(nèi)側(cè)胞嘧啶甲基化,即CmCGG。兩者擴增產(chǎn)物中都含有CCGG序列,說明該位點發(fā)生雙鏈全甲基化。限制性內(nèi)切酶單核苷酸多態(tài)性與甲基化(Amplified-fragmentSinglenucleotidepolymorphismandMethylation,AFSM)是基于測序技術(shù)(Xiaetal.,2014)一個簡單的,快速和低成本有效的系統(tǒng),已經(jīng)用于在非模式生物的測序。,該技術(shù)結(jié)合RAD原理與MSAP技術(shù),創(chuàng)新性開發(fā)一種新的隨機擴增序列SNP多態(tài)性及基因標記方法AFSM(AmplifiedFragmentSNPandMethylation)??梢酝瑫r進行基因組SNP檢測和甲基化多態(tài)性檢測。本發(fā)明是第一個將高通量測序的甲基化敏感酶酶切的胞嘧啶甲基化數(shù)據(jù)進行甲基化分型和識別甲基化位點豐度的技術(shù)。該方案也是目前唯一一個對甲基化敏感酶酶切的識別處理方案。對科研人員進行挖掘甲基化信息提供了簡單,高效,低成本的方案。極大的加速了表觀遺傳學研究發(fā)展。附圖說明圖1為甲基化分型軟件流程示意圖;圖2為甲基化分型核心模塊示意圖;圖3針對單端測序和雙端測序甲基化數(shù)據(jù)分型通用方案示意圖;圖4為針對雙端測序甲基化數(shù)據(jù)分型特殊方案示意圖;圖5為AFSM技術(shù)分析流程示意圖。具體實施方式下面結(jié)合附圖和具體實施例對本發(fā)明做進一步詳細說明。本發(fā)明甲基化分型軟件流程主要步驟如圖1所示,甲基化分型核心模塊如圖2所示:Step1、來源的高通量測序原始reads,利用barcode分割模塊將reads按照barcode分割為多個樣品reads。Step2、利用barcode分割模塊將read分為HpaII與MspI兩個甲基化庫;。Step3、對所有barcode處理好的reads混合,通過基于bowtie2將reads都map到參考基因組,進行組裝步驟。Step3、將組裝后的數(shù)據(jù)(.bam格式)進行樣品間的變異檢測。Step4、對樣品進行SNP,Indels,SVs挖掘。Step5、組裝后的數(shù)據(jù)(.bam格式),進行甲基化分型,對甲基化位點識別。Step6、單個樣品與單個位點的甲基化識別Step7、設(shè)置識別位點的窗口大小,默認值為5,以排除map導致的假陽性結(jié)果。Step8、對單個位點的reads數(shù)統(tǒng)計,產(chǎn)生豐度矩陣。Step9、計算單位點甲基化RPSM值,作為識別位點與樣本的甲基化程度。Step10、識別單個位點的甲基化數(shù)據(jù),對兩個庫的探討(包括缺失數(shù)據(jù)討論)一共可以產(chǎn)生多種數(shù)據(jù)情況。Step11、對單個位點的甲基化分型,將多種數(shù)據(jù)情況分類為半甲基化與全甲基化兩類。1.針對單端測序和雙端測序甲基化數(shù)據(jù)挖掘通用方案(圖3)單個樣品所有片段識別“CCGG”位點,同時標記“CCGG”位點中以“CCGG”第二個C為標記在參考基因組中位置。判斷該位點的reads數(shù)量和酶切信息(來源reads編碼的HpaII和MspI)。將單個位點信息分型為HpaII,MspI兩個庫包含原始reads數(shù)的豐度信息。同時標記CCGG在原始reads中位置。通過編寫程序定義該位點的甲基化類型和豐度。判斷甲基化類型參考表1,如圖3中a類序列甲基化類型為mCCGG,b類序列甲基化類型為CmCGG,c類序列甲基化類型為mCCGG。同時計算兩個甲基化酶切庫map上的的平均reads數(shù)。計算該位點的甲基化位點豐度信息。甲基化位點豐度信息定義為RPSM,每1百萬個map上的reads中map到甲基化位點的單個堿基上的reads個數(shù)(ReadsPeraSinglebaseofDNAmethylationmodelperMillionmappedreads)。RPSM=(totalreads)/(mappedreads(Million)×1bp)2.針對雙端測序甲基化數(shù)據(jù)挖掘特殊方案(圖4):對于雙端測序兩個酶切庫(HpaII,MspI)中reads的“序列信息”無法同時含有CCGG位點,但是其雙端位置正好越過了此CCGG位點。我們認為此位點為無法被該甲基化酶切。對于這樣情況按照圖4進行區(qū)分甲基化類型,a類序列甲基化類型為CmCGG,b類系列甲基化類型為mCCGG。同時計算兩個甲基化酶切庫map上的的平均reads數(shù)。計算該位點的甲基化位點豐度信息RPSM。程序參數(shù)設(shè)置:對于CCGG位點中出現(xiàn)的組裝錯誤和CCGG之間距離較短可能出現(xiàn)的識別錯誤排除。我們設(shè)置了識別序列識別的窗口大小。窗口大小為兩個CCGG之間的距離,默認值為5bp堿基。使用者可以根據(jù)自己物種復雜程度進行設(shè)置。對于識別的甲基化位點,下一步可以根據(jù)特征進一步分為半甲基化和全甲基化。也可將豐度信息對位點進行可視化展示。最后得到樣品間的基因型數(shù)據(jù),分型好的樣品甲基化矩陣,與單位點的甲基化程度(RPSM)矩陣。用于后續(xù)全基因組甲基化分析,甲基化變異,半甲基化全甲基化的深度討論。本發(fā)明分為reads分庫模塊,甲基化識別模塊。reads分庫模塊將區(qū)分甲基化酶切混合庫與樣本庫,判讀barcode序列而達區(qū)分不同庫的目的,與同類bacode軟件相比,基于blast的內(nèi)核,能夠判讀大于10bp以上序列,同時具備排除測序錯誤能力,區(qū)分雙端barcode,以區(qū)分甲基化混合庫。其他同類軟件,無法同時完成雙端barcode的數(shù)據(jù),無法區(qū)分較長的甲基化barcode接頭。甲基化識別模塊中構(gòu)架了甲基化識別基礎(chǔ)原理和reads各類情況判定處理甲基化識別機制。對在全基因組水平和部分測序水平,大量精確的挖掘甲基化敏感酶酶切的胞嘧啶甲基化提供理論基礎(chǔ)和實施方案。如圖5所示,AFSM實驗技術(shù)包括以下步驟:原始數(shù)據(jù)處理AFSM實驗技術(shù)為兩端測序,兩端加上不同的Barcodes,對EcoRI端進行樣品區(qū)分,對HpaII和MspI端進行甲基化區(qū)分。將每個reads進行標注,過濾后保留雙端為同時具有HpaII/EcoRI,MspI/EcoRI的reads。數(shù)據(jù)組裝將過濾后的reads進行組裝,使用Bowtie2工具map到參考基因組上。生成BAM文件。同時過濾數(shù)據(jù)。SNP分型使用mPileup進行樣品間的SNP挖掘工作,產(chǎn)出樣品SNP矩陣。甲基化分型將含有甲基化標記的BAM文件,使用自己編寫的甲基化分型軟件進行分型(根據(jù)本專利甲基化分型原理編譯),同時定位到單個樣品上。統(tǒng)計甲基化位點。表1為胞嘧啶甲基化類型區(qū)分CmCGGmCmCGGmCCGGCmCGGmCmCGGmCCGGH(√)M(√)H(√)M(x)H(√)M(x)H(x)M(√)H(x)M(x)H(x)M(x)表2為AFSM實例中甲基化位點reads統(tǒng)計本發(fā)明提供的甲基化敏感酶酶切測序序列分型的實現(xiàn)方法,數(shù)據(jù)來源于AFSM技術(shù)或者由HpaII與MspI甲基化敏感酶切后擴增通過高通量測序得到的原始reads。AFSM技術(shù)通過混合選擇性雙酶切擴增(EcorI分別與MspI、HpaII組合),簡化基因組復雜度,同時進行甲基化敏感位點的區(qū)分。在接頭處設(shè)計了96個5堿基序列識別標簽,以便使用Hiseq2000高通量測序技術(shù)混合測序后對每個樣品進行區(qū)分。通過AFSM技術(shù)建庫,對同一樣品構(gòu)建HpaII與MpaI酶切DNA文庫,分別加上barcode接頭序列HpaIIGTCATGCCTCATCTCA,MspIGTCATGCCTCATTAGT。混合HpaII和MspI文庫。程序根據(jù)測序原始reads數(shù)據(jù)判讀酶切位點,通過識別HpaII和MspIbarcode接頭序列堿基進行區(qū)分HpaII和MspI酶切文庫。將識別出的reads標定出酶切編號與樣品編號。同時屏蔽標簽序列。將標記后的原始數(shù)據(jù)進行map和組裝:全部數(shù)據(jù)分成兩組進行組裝。選擇短序列拼接方法,使用Bowtie2軟件進行比對到已知參考基因組或者使用Trinity軟件進行重頭組裝再使用Bowtie2軟件比對到從頭組裝的參考基因組。產(chǎn)出.bam比對文件,及樣本間變異SNP和Indel。將map后的bam文件進行甲基化數(shù)據(jù)挖掘。本發(fā)明分為reads分庫模塊,甲基化識別模塊。reads分庫模塊將區(qū)分甲基化酶切混合庫與樣本庫,判讀barcode序列而達區(qū)分不同庫的目的,與同類bacode軟件相比,基于blast的內(nèi)核,能夠判讀大于10bp以上序列,同時具備排除測序錯誤能力,區(qū)分雙端barcode,以區(qū)分甲基化混合庫。其他同類軟件,無法同時完成雙端barcode的數(shù)據(jù),無法區(qū)分較長的甲基化barcode接頭。甲基化識別模塊中構(gòu)架了甲基化識別基礎(chǔ)原理和reads各類情況判定處理甲基化識別機制。對在全基因組水平和部分測序水平,大量精確的挖掘甲基化敏感酶酶切的胞嘧啶甲基化提供理論基礎(chǔ)和實施方案。除非另有說明,否則在這些實施中闡述的部件和步驟的相對布置、數(shù)字表達式和數(shù)值不構(gòu)成對發(fā)明的限制。對于本領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不做詳細討論,但在適當情況下,技術(shù)、方法和設(shè)備應當被視為本說明的一部分。序列表:<110>中國熱帶農(nóng)業(yè)科學院熱帶生物技術(shù)研究所<120>一種胞嘧啶甲基化挖掘的方法<160>2<210>1<211>16<212>DNA<213>人工序列<220><221><222>(1)...(16)<223><400>1GTCATGCCTCATCTCA<210>2<211>16<212>DNA<213>人工序列<400>2>GTCATGCCTCATTAGT當前第1頁1 2 3