欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種開發(fā)沙冬青植物基因組簡單重復(fù)序列分子標(biāo)記的方法與流程

文檔序號(hào):12346594閱讀:764來源:國知局
一種開發(fā)沙冬青植物基因組簡單重復(fù)序列分子標(biāo)記的方法與流程

本發(fā)明涉及一種開發(fā)沙冬青植物基因組簡單重復(fù)序列(下稱SSR或SSRs,Simple Sequence Repeats,由1-6個(gè)核苷酸不斷重復(fù)構(gòu)成,又稱之為微衛(wèi)星DNA)分子標(biāo)記方法,尤其是蒙古沙冬青基因組分子標(biāo)記的方法。



背景技術(shù):

DNA分子標(biāo)記是遺傳標(biāo)記的一種,是在基因組水平上的標(biāo)記,能反映生物個(gè)體或種群間基因組中某種差異的特異性DNA片段。DNA分子標(biāo)記數(shù)量多、遍及整個(gè)基因組、多態(tài)性高、遺傳穩(wěn)定,并且不受環(huán)境及基因表達(dá)與否的限制。它包括RFLP、RAPD、AFLP、SSRs和ISSR等。

SSRs(Simple Sequence Repeats)即簡單重復(fù)序列,又稱之為微衛(wèi)星DNA,由1-6個(gè)核苷酸不斷重復(fù)構(gòu)成,同一類SSRs可分布于整個(gè)基因組的不同位置上,每個(gè)座位上重復(fù)單位的數(shù)目存在差異,因而造成了每個(gè)座位上的多態(tài)性。SSRs在植物基因組中非常豐富,因此被廣泛應(yīng)用在基因定位、親緣分析、遺傳圖譜構(gòu)建等,被認(rèn)為是目前最好的分子標(biāo)記之一。

蒙古沙冬青[Ammopiptanthus mongolicus(Maxim.)Chengf.]系豆科蝶形花亞科。沙冬青屬超旱生常綠灌木,在中國主要分布于西北(新疆、寧夏、甘肅)及內(nèi)蒙古(阿拉善戈壁區(qū)東南端),屬國家重點(diǎn)保護(hù)植物。沙冬青具有很強(qiáng)的抗旱、抗寒及耐鹽堿特性,也具有藥用價(jià)值。沙冬青抗逆性的分子機(jī)制研究成為近年來的研究熱點(diǎn),目前已有將蒙古沙冬青抗旱基因轉(zhuǎn)入甜菜植株的報(bào)道,轉(zhuǎn)基因甜菜的抗旱性要高于非轉(zhuǎn)基因甜菜植株,體現(xiàn)了沙冬青的應(yīng)用價(jià)值。但是,目前人們對(duì)沙冬青的基因組水平認(rèn)識(shí)有限,限制了沙冬青這一優(yōu)良種質(zhì)資源的進(jìn)一步應(yīng)用。

與水稻、小麥等常規(guī)植物相比,現(xiàn)有沙冬青SSRs標(biāo)記的數(shù)量很少,不能滿足研究需要,因此批量開發(fā)沙冬青的SSRs序列,有利于沙冬青遺傳圖譜構(gòu)建、重要性狀基因定位等研究。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種開發(fā)沙冬青植物基因組SSRs分子標(biāo)記的方法, 提高標(biāo)記開發(fā)效率,增加標(biāo)記數(shù)量。

為此,本發(fā)明提出一種開發(fā)沙冬青植物基因組簡單重復(fù)序列分子標(biāo)記的方法,其特征在于包括下列步驟:S1、來自第一產(chǎn)地的蒙古沙冬青的基因組測序:對(duì)采樣自第一產(chǎn)地的物種樣品的基因組DNA建立初級(jí)測序文庫,構(gòu)建好基因組文庫之后,使用測序儀進(jìn)行高通量測序,獲得Short Reads短序列測序數(shù)據(jù);S2、對(duì)測序下機(jī)的基因組測序數(shù)據(jù)進(jìn)行過濾,過濾之后進(jìn)行序列組裝得到Contigs;S3、SSRs的識(shí)別:對(duì)上述Contigs序列中的SSRs序列進(jìn)行識(shí)別。

進(jìn)一步地,還包括如下步驟:S4、利用NCBI公開的來自第二產(chǎn)地的蒙古沙冬青的轉(zhuǎn)錄組測序數(shù)據(jù);S5、進(jìn)行SSRs的驗(yàn)證,通過上述兩個(gè)產(chǎn)地的同一物種的SSRs相互比較,即:將上述SSRs在來自第二產(chǎn)地的蒙古沙冬青的Unigene序列中進(jìn)行驗(yàn)證,篩選具有多態(tài)性的SSRs。

本發(fā)明具有下列優(yōu)點(diǎn)和積極效果:

相比之前已經(jīng)報(bào)道的開發(fā)蒙古沙冬青SSRs的方法,我們的方法更先進(jìn),結(jié)果更全面,而且所得數(shù)據(jù)通量高。例如,我們通過蒙古沙冬青全基因組DNA的高通量測序組裝Contigs并進(jìn)行SSRs識(shí)別,最終找到274790個(gè)SSRs,不僅包括基因編碼區(qū)的SSRs,也包括了非編碼區(qū)的SSRs。

進(jìn)一步地,本發(fā)明使用生物信息學(xué)的分析方法,直接比較不同地區(qū)的蒙古沙冬青的基因組SSRs的多態(tài)性,效率高,節(jié)約時(shí)間和資金。

附圖說明

圖1是本發(fā)明實(shí)施例SSRs識(shí)別流程圖。

圖2是本發(fā)明實(shí)施例多態(tài)性的SSRs篩選流程圖。

具體實(shí)施方式

名詞解釋

為了便于理解,現(xiàn)將下文中出現(xiàn)的一些名詞解釋如下:

bp:DNA分子片段大小單位,bp:base pair,堿基對(duì);kb:kilo-base pair千堿基對(duì),即1000堿基對(duì);mb:mega-base pair百萬堿基對(duì)。

SOAP denovo軟件:基于Illumina二代測序的短序列拼接軟件。

Contigs:即“序列重疊群”,指彼此可以通過末端的重疊序列相互連接形成大片段的一組DNA短序列。高通量測序時(shí),在芯片上的每個(gè)反應(yīng),會(huì)讀出一條序列,是比較短的,叫read,它們是原始數(shù)據(jù);有很多reads通過片段重疊,能夠組裝成一個(gè)更大的片段,稱為contig,即序列重疊群。多個(gè)contigs通過片段重疊,組成一個(gè)更長的scaffold;一個(gè)contig被組成出來之后,鑒定發(fā)現(xiàn)它是編碼蛋白質(zhì)的基因,就叫singleton;多個(gè)contigs組裝成scaffold之后,鑒定發(fā)現(xiàn)它編碼蛋白質(zhì)的基因,叫unigene。

MISA軟件:一種批量開發(fā)SSRs標(biāo)記軟件。

QTL:quantitative trait locus,數(shù)量性狀基因座,指控制數(shù)量性狀的基因在基因組中的位置。

K-mer:將一條read,連續(xù)切割,挨個(gè)堿基劃動(dòng)得到的一系列長度為K的核苷酸序列。

FASTA格式:又稱為Pearson格式,是一種基于文本用于表示核苷酸序列或氨基酸序列的格式。

Trinity:是由Broad Institute開發(fā)的轉(zhuǎn)錄組denovo組裝軟件,由三個(gè)獨(dú)立的軟件模塊組成:Inchworm,Chrysalis和Butterfly。

本實(shí)施例闡述了一種開發(fā)蒙古沙冬青基因組SSRs分子標(biāo)記的方法,概括來說,該方法包括如下步驟:

(1)對(duì)采樣自甘肅武威市的蒙古沙冬青樣品的基因組DNA建立了180bp的初級(jí)測序文庫;使用Illumina HiSeq 2000測序儀的100PE模式進(jìn)行高通量測序,獲得了60Gb的Short Reads(短序列)測序數(shù)據(jù);

(2)對(duì)測序下機(jī)的Reads過濾之后使用SOAP denovo軟件進(jìn)行序列組裝得到Contigs;

(3)對(duì)Contigs序列使用MISA軟件進(jìn)行SSRs識(shí)別;

(4)將上述SSRs在來自寧夏中衛(wèi)市的蒙古沙冬青Unigene序列中進(jìn)行驗(yàn)證,篩選到具有多態(tài)性的SSRs。

本方法是一種高通量發(fā)現(xiàn)沙冬青植物SSRs分子標(biāo)記的方法,可以應(yīng)用在沙冬青植物遺傳圖譜構(gòu)建、QTL定位和遺傳多樣性分析等研究中。

更具體地說,本方法包括下列步驟:

(1)蒙古沙冬青(甘肅武威市)的基因組測序:對(duì)采樣自甘肅武威市的蒙古沙冬青樣品進(jìn)行DNA提取之后,通過CovarisTM超聲波破碎儀將基因組DNA隨機(jī)打斷成為180bp的片段,經(jīng)末端修復(fù)、加A尾、加測序接頭、純化、PCR擴(kuò)增等步驟完成整個(gè)文庫制備;構(gòu)建好的文庫使用Illumina HiSeq 2000測序儀的100PE模式進(jìn)行高通量測序,共獲得60Gb Short Reads測序數(shù)據(jù)。

(2)對(duì)測序下機(jī)的數(shù)據(jù)進(jìn)行過濾和組裝:由于高通量測序得到的原始數(shù)據(jù)存在一定的錯(cuò)誤率,同時(shí)DNA上含有人工接頭,過濾就是去掉那些有測序錯(cuò)誤產(chǎn)生的數(shù)據(jù),以及過濾掉含有測序接頭的Reads。過濾之后使用SOAP denovo(http://soap.genomics.org.cn/soapdenovo.html)軟件進(jìn)行序列組裝,參數(shù)設(shè)定為Kmer=41。得到名為Contigs.fasta的蒙古沙冬青基因組Contigs序列,保存格式是FASTA格式的文本文件。一般而言Kmer越小則組裝結(jié)果準(zhǔn)確性越好,但是Contig越短;Kmer越大則Contig可能越長,但是錯(cuò)誤率也更高。為了平衡準(zhǔn)確度和Contig長度,我們選擇了較居中的參數(shù)Kmer=41。

(3)SSRs的識(shí)別:使用MISA軟件(http://pgrc.ipk-gatersleben.de/misa/)對(duì)蒙古沙冬青Contigs序列中包含的SSRs序列進(jìn)行識(shí)別,程序命令為:perl misa.pl Contigs.fasta;采用該程序默認(rèn)參數(shù):單核苷酸重復(fù)次數(shù)≥10,二核苷酸重復(fù)次數(shù)≥6,三核苷酸重復(fù)次數(shù)≥5,四核苷酸重復(fù)次數(shù)≥5,五核苷酸重復(fù)次數(shù)≥5,六核苷酸重復(fù)次數(shù)≥5;運(yùn)行之后得到名為Contigs.fasta.misa的SSRs結(jié)果文件。表1是蒙古沙冬青的SSRs類型及數(shù)目統(tǒng)計(jì),從中可見單核苷酸、二核苷酸和三核苷酸是主要的重復(fù)單元,SSRs的總數(shù)目為274790。

表1.蒙古沙冬青的SSRs類型及數(shù)目統(tǒng)計(jì)

(4)蒙古沙冬青(寧夏中衛(wèi)市)的轉(zhuǎn)錄組序列組裝:從NCBI網(wǎng)站的SRA數(shù)據(jù)庫下載蒙古沙冬青轉(zhuǎn)錄組測序原始數(shù)據(jù)集SRR1035932,該數(shù)據(jù)集是對(duì)采集自寧夏中衛(wèi)市的蒙古沙冬青的葉片提取RNA之后,富集mRNA并且建立180bp的文庫,使用Illumina HiSeq 2000的90PE模式得到的5.6Gb測序數(shù)據(jù)。對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)過濾之后,使用Trinity軟件(Trinity是專門針對(duì)轉(zhuǎn)錄組數(shù)據(jù)特點(diǎn)而設(shè)計(jì)的一種組裝方法)進(jìn)行序列組裝,使用Trinity的默認(rèn)參數(shù)運(yùn)行,結(jié)果共得到92222條Unigene序列,總長度64Mb,以FASTA格式存儲(chǔ)在Trinity.fasta文件中。使用與步驟(3)中同樣的MISA軟件和參數(shù)在Trinity.fasta中識(shí)別SSRs,結(jié)果存儲(chǔ)在Trinity.fasta.misa。

上述步驟(4)中蒙古沙冬青轉(zhuǎn)錄組測序原始數(shù)據(jù)集SRR1035932下載地址是:http://www.ncbi.nlm.nih.gov/sra/?term=SRR1035932。

上述步驟(4)中對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)過濾的命令是:iTools Fqtools filterV2-InFq1 raw.1.fq-InFq2 raw.2.fq-OutFq1 1.fq.gz-OutFq2 2.fq.gz-OffN 0.02-LowQ5-OffLowQ 0.4-MinBaseQ@,其中iTools軟件(深圳華大基因研究院開發(fā)的一款分析工具,A Toolkit for analyzing next-generation DNARe-Sequencing data)的下載地址是https://github.com/BGI-shenzhen/Reseqtools,其中raw.1.fq和raw.2.fq分別是Illumina HiSeq 2000測序儀的Pair End測序所得的Forward Read和Reverse Read原始數(shù)據(jù)集,1.fq.gz和2.fq.gz則是上述二個(gè)數(shù)據(jù)集過濾的結(jié)果。

上述步驟(4)中使用Trinity軟件在Linux平臺(tái)進(jìn)行Unigene序列組裝的命令是:Trinity.pl--seqType fq--JM 40G--left 1.fq.gz--right 2.fq.gz--CPU 8 --no_cleanup,其中Trinity軟件的下載地址是http://trinityrnaseq.github.io/。

(5)SSRs的驗(yàn)證:將步驟(4)得到的SSRs在來自甘肅武威市的蒙古沙冬青基因組Contigs序列中進(jìn)行驗(yàn)證,篩選到具有多態(tài)性的SSRs。具體的驗(yàn)證方法是,取步驟(4)中的SSRs的二側(cè)各20bp的序列作為待驗(yàn)證序列,使用BLAST比對(duì)法將該序列比對(duì)到步驟(2)中的Contigs,如果SSRs重復(fù)單元的重復(fù)次數(shù)不同,則說明二者具有多態(tài)性。比如在寧夏中衛(wèi)市的蒙古沙冬青中一個(gè)SSR序列(TAA)及其側(cè)翼序列是:

AAATTACATCAAGTTGATGG-(TAA)5-ACCACCCGAGCATCAACCA,在甘肅武威市的蒙古沙冬青中對(duì)應(yīng)的序列是:

AAATTACATCAAGTTGATGG-(TAA)7-ACCACCCGAGCATCAACCA,數(shù)字下標(biāo)表示SSR序列(TAA)的重復(fù)次數(shù),分別為5次和7次重復(fù),證明本發(fā)明得到的SSRs在不同地區(qū)的蒙古沙冬青植株中具有多態(tài)性(見表2),表中一共列出20對(duì)具有多態(tài)性的SSRs。

表2.具有多態(tài)性的蒙古沙冬青SSRs

工作原理:

在對(duì)蒙古沙冬青(甘肅武威市)的基因組測序中,Illumina HiSeq 2000的高通量測序技術(shù)一次實(shí)驗(yàn)產(chǎn)生的60Gb數(shù)據(jù)相當(dāng)于覆蓋沙冬青的基因組60倍。SOAP denovo的原理是把測序得到的大量Reads數(shù)據(jù)分成Kmer=41bp的均一序列,依據(jù)Kmer序列之間的Overlap(兩組或多組特征數(shù)據(jù)同時(shí)覆蓋到的序列長度)關(guān)系構(gòu)建De Bruijn圖(一種基因拼接算法),進(jìn)一步消除圖中的Bubble(De Bruijn圖中存在的錯(cuò)誤路徑的一種)從而得到基因組Contigs序列。在對(duì)蒙古沙冬青(寧夏中衛(wèi)市)的轉(zhuǎn)錄組數(shù)據(jù)分析中,Trinity軟件進(jìn)行組裝的原理是,首先把測序得到的大量Reads數(shù)據(jù)分成Kmer=25bp的均一序列,然后依據(jù)Kmer序列之間的Overlap關(guān)系組裝基因的序列。得到兩個(gè)采集自不同地點(diǎn)的蒙古沙冬青序列之后,分別使用MISA軟件進(jìn)行SSRs識(shí)別,并在二者之間進(jìn)行比較,驗(yàn)證具有多態(tài)性的SSRs分子標(biāo)記。

與現(xiàn)有技術(shù)相比,本發(fā)明具有下列優(yōu)點(diǎn)和積極效果:

(1)在目前公開的資料中,研究人員一般是采用蒙古沙冬青的ESTs(表達(dá)序列標(biāo)簽)或者轉(zhuǎn)錄組的測序數(shù)據(jù),來尋找SSRs,例如通過ESTs測序共找到155個(gè)SSRs(Liu et al.2013)和通過轉(zhuǎn)錄組測序共找到1827個(gè)SSRs(Zhou et al.2012),這些方法中使用的技術(shù)較為常規(guī),需時(shí)比較長,而且只能鑒定到位于基因編碼區(qū)的SSRs,因此鑒定到的蒙古沙冬青SSRs數(shù)目有限。我們通過蒙古沙冬青全基因組DNA的高通量測序組裝Contigs并進(jìn)行SSRs識(shí)別,最終找到274790個(gè)SSRs,不僅包括基因編碼區(qū)的SSRs,也包括了非編碼區(qū)的SSRs,相比之前已經(jīng)報(bào)道的蒙古沙冬青SSRs,我們的方法更先進(jìn),結(jié)果更全面,而且所得數(shù)據(jù)通量高。

(2)傳統(tǒng)方法驗(yàn)證SSRs多態(tài)性是在基因組的SSRs位置兩側(cè)設(shè)計(jì)PCR引物,如果該物種不同種群相應(yīng)SSRs重復(fù)單位數(shù)目不一樣,經(jīng)過PCR擴(kuò)增會(huì)得到不同長度的PCR產(chǎn)物,將擴(kuò)增產(chǎn)物進(jìn)行凝膠電泳,就能夠呈現(xiàn)出差異性。而我們使用生物信息學(xué)的分析方法,直接比較甘肅武威市和寧夏中衛(wèi)市兩個(gè)地區(qū)的蒙古沙冬青的基因組SSRs的多態(tài)性,效率高,節(jié)約時(shí)間和資金。

本發(fā)明的潛在市場和用途:

首先,本發(fā)明中使用的方法思路可以運(yùn)用在其他物種的SSRs識(shí)別與鑒定之中。例如,本發(fā)明中使用的方法可以直接用于蒙古沙冬青的近緣種——新疆沙冬青的SSRs識(shí)別與鑒定。其次,本發(fā)明所得SSRs可以應(yīng)用在蒙古沙冬青和新疆沙冬青遺傳圖譜構(gòu)建、QTL定位和遺傳多樣性分析等研究中。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
缙云县| 治多县| 合江县| 汝阳县| 宝鸡市| 泾阳县| 越西县| 治县。| 科技| 易门县| 辽源市| 台中县| 宝清县| 从江县| 嘉荫县| 仪陇县| 高陵县| 吴桥县| 珠海市| 八宿县| 鄂尔多斯市| 固安县| 新余市| 洪泽县| 晋宁县| 吉安县| 洛南县| 沭阳县| 安达市| 寻乌县| 淮滨县| 三穗县| 乐昌市| 南昌县| 横山县| 威远县| 宿松县| 宣化县| 呼和浩特市| 彭州市| 广南县|