利用全基因組和est數(shù)據(jù)開發(fā)多態(tài)性est-ssr標(biāo)記的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及利用全基因組和EST數(shù)據(jù)開發(fā)多態(tài)性EST-SSR標(biāo)記的方法,屬于分子 生物學(xué)領(lǐng)域。
【背景技術(shù)】
[0002] SSR標(biāo)記的原理是與微衛(wèi)星序列相鄰的兩側(cè)區(qū)域保守性通常較高,可以在此保守 區(qū)域設(shè)計(jì)一對特異的PCR引物,擴(kuò)增其中的微衛(wèi)星序列,通過聚丙烯酰胺凝膠電泳,即可顯 示出個(gè)體間在此位點(diǎn)的微衛(wèi)星序列的多態(tài)性。由于SSR在基因組中大量地、隨機(jī)地分布,具 有廣泛的位點(diǎn)變異,揭示比RAPD、RFLP更多的多態(tài)性,并且SSR標(biāo)記為共顯性標(biāo)記,能夠區(qū) 分純合型和雜合型,提供完整的遺傳信息,在檢測多態(tài)性時(shí)可以采用PCR方法,不需要過多 的分子克隆手段,對DNA模板的要求不高,重復(fù)性好。因此成為日前運(yùn)用最廣泛的分子標(biāo)記 之一,廣泛地運(yùn)用于動(dòng)植物、微生物鑒定、遺傳多樣性分析、分子標(biāo)記連鎖圖的構(gòu)建和群體 遺傳學(xué)等遺傳與育種研宄領(lǐng)域。
[0003] 傳統(tǒng)的SSR標(biāo)記是通過構(gòu)建小片段或大片段的基因組,篩選陽性克隆。通過傳統(tǒng) 的影印或挑單菌落點(diǎn)膜的方法,把克隆轉(zhuǎn)移到尼龍膜上,經(jīng)過固定后,用標(biāo)記過的序列重復(fù) 寡核苷酸或含微衛(wèi)星序列的探針與尼龍膜上的克隆點(diǎn)雜交,篩選出其中的陽性克隆,然后 測序、設(shè)計(jì)引物、優(yōu)化PCR反應(yīng)條件,獲得的陽性克隆經(jīng)過確認(rèn)后,全部或經(jīng)過隨機(jī)挑選后 測序,然后根據(jù)微衛(wèi)星序列兩側(cè)保守區(qū)域的序列設(shè)計(jì)引物,獲得穩(wěn)定、可靠的SSR標(biāo)記,耗 時(shí)耗力,而且成本非常高。
[0004] 隨著測序技術(shù)的不斷發(fā)展,基因組序列數(shù)據(jù)資源不斷增加,人們開始利用生物信 息學(xué)方法基于基因組序列數(shù)據(jù)篩選SSR位點(diǎn),采用遺傳差異足夠大的多個(gè)基因組序列或生 物樣本對候選SSR標(biāo)記進(jìn)行多態(tài)性篩選和鑒定?;蚪M序列或生物樣本間遺傳差異小會(huì)導(dǎo) 致具有潛在利用價(jià)值的多態(tài)性SSR標(biāo)記被誤淘汰;僅采用基因組序列數(shù)據(jù)開發(fā)的多態(tài)性分 子標(biāo)記通常位于基因間序列,通常只適合于遺傳多樣性及其相關(guān)研宄,在與基因(遺傳功 能)有關(guān)的研宄(如功能基因克?。┲袘?yīng)用價(jià)值有限。
[0005] 現(xiàn)在開發(fā)SSR標(biāo)記的序列的另一種來源是EST,由于基因功能組學(xué)的快速發(fā)展, EST被大量測序,并存放在公共序列數(shù)據(jù)庫中,利用EST序列,篩選開發(fā)SSR標(biāo)記的方法簡 單易行,已發(fā)展成為開發(fā)SSR標(biāo)記的主要方法。但是建庫時(shí),數(shù)據(jù)庫中的EST是由不同的研 宄者用隨機(jī)或鳥槍法獲得的,這就會(huì)造成EST的冗余性。在進(jìn)行EST-SSR標(biāo)記開發(fā)時(shí),SSR 位點(diǎn)搜索前要先對EST數(shù)據(jù)進(jìn)行比對、拼接,去除冗余序列否則極有可能對同一個(gè)SSR位點(diǎn) 設(shè)計(jì)不同的引物,并且費(fèi)時(shí)費(fèi)力存在錯(cuò)誤拼接的可能,而且去除的冗余序列中可能含有SSR 長度的多態(tài)性。綜合現(xiàn)在所有的SSR標(biāo)記方法,新開發(fā)的標(biāo)記通常都需要采用兩個(gè)以上不 同基因組序列對候選SSR標(biāo)記進(jìn)行多態(tài)性篩選和鑒定,否則就需要運(yùn)用基因型差異足夠大 的多個(gè)樣本DNA進(jìn)行實(shí)驗(yàn)室篩選和驗(yàn)證,其間供試基因組序列、樣本間無差異的SSR標(biāo)記必 然會(huì)被淘汰。而對于基因組序列數(shù)據(jù)來源較少、差異小和供試基因型樣本的差異不大、代表 性不足、具有潛在利用價(jià)值的多態(tài)性SSR標(biāo)記極有可能被誤淘汰。因此,現(xiàn)有技術(shù)還有待于 改進(jìn)和發(fā)展。
【發(fā)明內(nèi)容】
[0006] 有鑒于此,本發(fā)明目的在于:提供利用全基因組和EST數(shù)據(jù)開發(fā)多態(tài)性EST-SSR標(biāo) 記的方法,該方法可以大大提高全基因組數(shù)據(jù)來源較少、實(shí)驗(yàn)室驗(yàn)證時(shí)供試樣本間差異較 小,但EST數(shù)據(jù)較豐富的物種EST-SSR標(biāo)記的開發(fā)效率,并防止因供試驗(yàn)證基因組序列或?qū)?驗(yàn)材料遺傳差異不足而淘汰具有潛在利用價(jià)值的SSR標(biāo)記。所開發(fā)的多態(tài)性EST-SSR標(biāo)記 與單一基因緊密關(guān)聯(lián),具有更高的遺傳與育種應(yīng)有價(jià)值。
[0007] 為實(shí)現(xiàn)上述目的,本發(fā)明采用如下之技術(shù)方案:
[0008] 利用全基因組和EST數(shù)據(jù)開發(fā)多態(tài)性EST-SSR標(biāo)記的方法,包括下述步驟:
[0009] 一種利用全基因組和EST數(shù)據(jù)開發(fā)多態(tài)性EST-SSR標(biāo)記的方法,其特征在于,包括 下述步驟:
[0010] ①獲取基因組序列與EST數(shù)據(jù),從公共數(shù)據(jù)庫下載基因組序列數(shù)據(jù)、相應(yīng)的基因 注釋信息和EST數(shù)據(jù),用基因組注釋信息進(jìn)行基因組外顯子、內(nèi)含子序列分析,選取基因 TSS轉(zhuǎn)錄起始位點(diǎn)前2000bp作為啟動(dòng)子序列;
[0011] ②將步驟①獲得的全基因組數(shù)據(jù)進(jìn)行SSR位點(diǎn)搜索與分析,采用MISA程序掃描全 基因組染色體DNA序列,搜索、分析基因組序列中包含的SSR位點(diǎn)。采用MISA程序的默認(rèn) SSR掃描參數(shù):單核苷酸重復(fù)、二核苷酸重復(fù)、三核苷酸重復(fù)、四核苷酸重復(fù)、五核苷酸重復(fù) 以及六核苷酸重復(fù),重復(fù)單元分別大于1〇、7、6、5、4、4次重復(fù);距離100bp的視為一個(gè)SSR 位點(diǎn);每種重復(fù)基元的各種變異類型及其反向互補(bǔ)類型均歸為一類;
[0012] ③單一 SSR位點(diǎn)篩選,采用Perl編寫程序,從每個(gè)SSR結(jié)構(gòu)域前若干堿基對(如 5bp)開始,提取18~24bp的序列作為電子模擬PCR擴(kuò)增的上引物;間隔10~24bp后,提 取18~24bp序列,反向重復(fù)后作為下引物;采用Bowtie軟件將引物序列比對到步驟①所 下載的參考基因組上,根據(jù)需要允許若干(如1~3)個(gè)堿基的錯(cuò)配;采用Perl語言編寫程 序,鑒定、篩選單一 SSR位點(diǎn);
[0013] ④EST中多態(tài)性SSR位點(diǎn)鑒定與分析,采用序列比對軟件Bowtie以EST序列為模 板,以具有單一側(cè)翼序列的SSR比對引物進(jìn)行比對,采用Perl語言編程統(tǒng)計(jì)匹配區(qū)域長度 信息;
[0014] ⑤多態(tài)性EST-SSR位點(diǎn)篩選,篩選EST模板中有2個(gè)以上模擬擴(kuò)增產(chǎn)物,且產(chǎn)物具 有多態(tài)性(長度差異)的EST-SSR位點(diǎn);
[0015] ⑥多態(tài)性EST-SSR標(biāo)記引物設(shè)計(jì),采用引物設(shè)計(jì)軟件設(shè)計(jì)多態(tài)性EST-SSR標(biāo)記引 物。
[0016] 上述方法中所述基因組和EST數(shù)據(jù)可以是植物基因組和EST數(shù)據(jù);也可以是動(dòng)物 基因組和EST數(shù)據(jù);也可以是微生物基因組和EST數(shù)據(jù)。在獲得一定數(shù)量的EST數(shù)據(jù)的基 礎(chǔ)上,該方法適用于所有物種,更特別地適用于基因組序列數(shù)據(jù)來源較少、差異小和供試基 因型樣本的差異不大、代表性不足的物種,具體如馬鈴薯。
[0017] 本發(fā)明所提供的利用全基因組和EST數(shù)據(jù)開發(fā)多態(tài)性EST-SSR標(biāo)記的方法,由于 采用了首先在全基因組序列中進(jìn)行SSR位點(diǎn)搜索、篩選,篩選到基因