一種批量檢測(cè)植物基因組ltr-反轉(zhuǎn)座子的方法
【專利摘要】本發(fā)明公開(kāi)了一種批量檢測(cè)植物基因組LTR-反轉(zhuǎn)座子的方法。本發(fā)明所提供的檢測(cè)植物基因組LTR-反轉(zhuǎn)座子的方法綜合運(yùn)用了基于結(jié)構(gòu)特征從頭尋找的LTR_STRUC程序,基于同源搜索的CROSS_MATCH程序,基于序列相似性的CLUSTALW比對(duì)程序,以及結(jié)合Perl腳本語(yǔ)言編程等方法。實(shí)驗(yàn)證明,本發(fā)明所提供的批量檢測(cè)LTR-反轉(zhuǎn)座子的方法比較系統(tǒng),檢測(cè)植物基因組LTR-反轉(zhuǎn)座子插入位點(diǎn)正向重復(fù)的效果好,速度快,易實(shí)現(xiàn)流程化。本發(fā)明將常用的檢測(cè)LTR-反轉(zhuǎn)座子的軟件與Perl腳本語(yǔ)言編程相結(jié)合,一定程度上彌補(bǔ)了這些常用軟件的一些不足。本方法將在基因組注釋和批量檢測(cè)植物基因組LTR-反轉(zhuǎn)座子中發(fā)揮著重要的作用。
【專利說(shuō)明】一種批量檢測(cè)植物基因組LTR-反轉(zhuǎn)座子的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于生物【技術(shù)領(lǐng)域】,涉及一種批量檢測(cè)植物基因組LTR-反轉(zhuǎn)座子的方法?!颈尘凹夹g(shù)】
[0002]近年來(lái),隨著測(cè)序技術(shù)的進(jìn)步,特別是第二代測(cè)序技術(shù)的出現(xiàn),基因組學(xué)的發(fā)展異常迅速。不僅許多模式植物如擬南芥和水稻,其它經(jīng)濟(jì)作物,如大豆、玉米、棉花等也相繼完成全基因組測(cè)序。通過(guò)對(duì)這些完成測(cè)序的物種基因組的遺傳組分進(jìn)行分析,科學(xué)家們得到幾乎一致的發(fā)現(xiàn):除功能基因外,植物基因組主要由各種類型的重復(fù)序列,特別是轉(zhuǎn)座子及其衍生物構(gòu)成。根據(jù)轉(zhuǎn)座方式的不同,轉(zhuǎn)座子又分為反轉(zhuǎn)座子和DNA轉(zhuǎn)座子。根據(jù)結(jié)構(gòu)的不同,反轉(zhuǎn)座子又可分為L(zhǎng)TR-反轉(zhuǎn)座子和非LTR-反轉(zhuǎn)座子。其中,LTR-反轉(zhuǎn)座子是真核生物,特別是植物基因組的主要組成部分,在基因和基因組的進(jìn)化過(guò)程中起著重要作用。
[0003]LTR-反轉(zhuǎn)座子三種基本結(jié)構(gòu)類型如圖1所示,具有兩個(gè)長(zhǎng)末端正向重復(fù)序列(long terminal repeats, LTRs )。單個(gè) LTR 的長(zhǎng)度從 IOObp 到幾 kb 不等,并通常以 5’-TG_3’開(kāi)始,并以其反向重復(fù)序列5’ -CA-3’結(jié)束。它們?cè)诓迦氲郊闹骰蚪M時(shí)往往會(huì)在轉(zhuǎn)座子兩端形成4-6bp的正向重復(fù)序列(Target Site Duplications, TSDs)。LTR-反轉(zhuǎn)座子包含編碼多種蛋白質(zhì)的基因,主要包括gag (編碼的蛋白質(zhì)形成殼的結(jié)構(gòu),進(jìn)行反轉(zhuǎn)錄的合成)、pol多聚基因(編碼與反轉(zhuǎn)錄過(guò)程有關(guān)的一系列酶)。此外,LTR-反轉(zhuǎn)座子還含有與轉(zhuǎn)錄起始和終止有關(guān)的tRNA結(jié)合位點(diǎn)(Primer Binding Site, PBS)和多聚嘌呤序列(PolypurineTract,PPT)。根據(jù)序列相似性和轉(zhuǎn)座酶相關(guān)基因的排列順序,LTR-反轉(zhuǎn)座子又可分為T(mén)yl-copia 類型和 Ty3_gypsy 類型。
[0004]基于上述LTR-反轉(zhuǎn)座子的結(jié)構(gòu)特征,一些軟件被不斷開(kāi)發(fā)出來(lái),為L(zhǎng)TR-反轉(zhuǎn)座子的鑒定提供了一定的研究工具。LTR-反轉(zhuǎn)座子序列識(shí)別鑒定的軟件大致分為4類,包括基于結(jié)構(gòu)的方法(Structure-based method)、從頭算起法(De novo repeatdiscovery method)、比較基因組學(xué)法(Comparative genomic method)和基于同源的方法(Homology-based method)。其中,目前運(yùn)用最多的是基于結(jié)構(gòu)特征從頭尋找的LTR_STRUC程序。但是,該程序只能尋找相對(duì)年輕的LTR-反轉(zhuǎn)座子。對(duì)于插入時(shí)間較為古老的,轉(zhuǎn)座子中間有測(cè)序“GAP”(以“N”表示)的,以及LTR序列被其它轉(zhuǎn)座子插入的元件,該程序無(wú)法進(jìn)行識(shí)別。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是提供一種批量檢測(cè)基因組LTR-反轉(zhuǎn)座子的方法。
[0006]本發(fā)明所提供的批量檢測(cè)基因組LTR-反轉(zhuǎn)座子的方法,具體可包括如下步驟:
[0007](I)將待測(cè)基因組序列記為A數(shù)據(jù)集,利用基于轉(zhuǎn)座子結(jié)構(gòu)特征從頭尋找的LTR_STRUC程序,在Windows操作系統(tǒng)下,采用默認(rèn)參數(shù)設(shè)置對(duì)所述A數(shù)據(jù)集進(jìn)行分析;然后,把腳本 abstractl.pi 放到 LTR_STRUC 文件夾下,運(yùn)行“peri abstractl.pi XXXI”命令,得到“result_LTR” 和 “result_INTACT” 兩個(gè)文件。[0008]所述“resUlt_LTR”文件中的數(shù)據(jù)為L(zhǎng)TRs序列,記為B數(shù)據(jù)集;所述“reSUlt_INTACT”文件中的數(shù)據(jù)即為L(zhǎng)TR-反轉(zhuǎn)座子序列,記為L(zhǎng)I數(shù)據(jù)集;
[0009]所述“XXXI”代表A數(shù)據(jù)集的文件名,該文件在運(yùn)行LTR_STRUC程序時(shí)已置于input文件夾內(nèi);所述input文件夾為所述LTR_STRUC文件夾的子文件夾;
[0010](2)將模式生物的Tyl-copia和Ty3_gypsy兩類LTR-反轉(zhuǎn)座子中轉(zhuǎn)座酶保守結(jié)構(gòu)域的氨基酸序列記為C數(shù)據(jù)集,利用Tblastn程序,在Linux操作系統(tǒng)或Window操作系統(tǒng)下,把-outfmt設(shè)置為6或7,其它采用默認(rèn)參數(shù),用所述C數(shù)據(jù)集對(duì)所述A數(shù)據(jù)集進(jìn)行比對(duì)分析;按照腳本abstract_filter.pi對(duì)比對(duì)結(jié)果進(jìn)行分析:運(yùn)行命令“perlabstract_filter.pl XXX1XXX2”,得到 “dbD” 和 “dbE” 兩個(gè)文件;
[0011 ] 所述“XXXI ”代表所述A數(shù)據(jù)集的文件名;所述“XXX2”代表所述數(shù)據(jù)集C對(duì)所述數(shù)據(jù)集A做Tblastn比對(duì)的結(jié)果的文件名;
[0012]所述“dbD”為所述A數(shù)據(jù)集中匹配到的包含所述轉(zhuǎn)座酶保守結(jié)構(gòu)域的序列的集合,記為D數(shù)據(jù)集;所述“dbE”為所述數(shù)據(jù)集A中剔除所述D數(shù)據(jù)集中的序列后得到的數(shù)據(jù)集,記為E數(shù)據(jù)集;
[0013]進(jìn)一步,所述D數(shù)據(jù)集為以所述A數(shù)據(jù)集中匹配到的圍繞所述轉(zhuǎn)座酶保守結(jié)構(gòu)域核苷酸序列的起始位點(diǎn),提取上下游共30kb的序列集合(上游15kb,下游包含起始位點(diǎn)15kb);
[0014](3)利用基于同源搜索的CR0SS_MATCH程序,在Linux操作系統(tǒng)下,采用默認(rèn)參數(shù)設(shè)置,對(duì)所述B數(shù)據(jù)集和所述D數(shù)據(jù)集進(jìn)行cross_match比對(duì),把所得cross_match結(jié)果文件的開(kāi)頭和結(jié)尾的說(shuō)明部分刪除,留下比對(duì)行,得到的文件記為XXX4 ;按照所述腳本abstract2.pi對(duì)所述XXX4中的數(shù)據(jù)進(jìn)行分析:運(yùn)行命令“perlabstract2.pi XXX3XXX4”命令,得到“XXX4.result”文件,根據(jù)所述“XXX4.result”文件中的LTR-反轉(zhuǎn)座子的起始位點(diǎn)和結(jié)束位點(diǎn)提取LTR-反轉(zhuǎn)座子序列集合,記為L(zhǎng)2數(shù)據(jù)集;
[0015]所述XXX3為所述D數(shù)據(jù)集的文件名;
[0016](4)利用CLUSTALW程序,在Linux操作系統(tǒng)或Window操作系統(tǒng)下,采用默認(rèn)參數(shù)設(shè)置,對(duì)所述D數(shù)據(jù)集進(jìn)行多序列比對(duì),提取LTR-反轉(zhuǎn)座子,記為L(zhǎng)3數(shù)據(jù)集;
[0017](5)利用基于同源搜索的CR0SS_MATCH程序,在Linux操作系統(tǒng)下,采用默認(rèn)參數(shù)設(shè)置,對(duì)所述B數(shù)據(jù)集和所述E數(shù)據(jù)集進(jìn)行cross_match比對(duì),把所得cross_match結(jié)果文件的開(kāi)頭和結(jié)尾的說(shuō)明部分刪除,留下比對(duì)行,得到的文件記為XXX6 ;按照如下腳本abstract2.pi對(duì)所述XXX6中的數(shù)據(jù)進(jìn)行分析:“perl abstract2.plXXX5XXX6”命令,得到“XXX6.result”文件;根據(jù)所述“XXX6.result”文件中的LTR-反轉(zhuǎn)座子的起始位點(diǎn)和結(jié)束位點(diǎn)提取LTR-反轉(zhuǎn)座子序列集合,記為L(zhǎng)4數(shù)據(jù)集;;
[0018]所述XXX5為所述E數(shù)據(jù)集的文件名;
[0019](6 )將所述LI數(shù)據(jù)集、所述L2數(shù)據(jù)集、所述L3數(shù)據(jù)集和所述L4數(shù)據(jù)集進(jìn)行整理去重,對(duì)步驟(1),(3),(4)和(5)的結(jié)果進(jìn)行優(yōu)化,并去掉重復(fù)的LTR-反轉(zhuǎn)座子,得到L數(shù)據(jù)集;所述L數(shù)據(jù)集中的序列即為從所述待測(cè)基因組序列(A數(shù)據(jù)集)中批量檢測(cè)到的LTR-反轉(zhuǎn)座子。
[0020]在上述方法步驟(I)中,所述腳本abstractl.pi中關(guān)于提取所述LTRs序列和LTR-反轉(zhuǎn)座子序列的內(nèi)容,是基于如下原理進(jìn)行編程的:以“LTRS: ”為起始標(biāo)志,對(duì)所述LTRs 序列進(jìn)行提取;以“COMPLETE SEQUENCE OF PUTATIVE TRANSPOSON: ” 為起始標(biāo)志對(duì)所述LTR-反轉(zhuǎn)座子序列進(jìn)行提取。
[0021]在上述方法步驟(2)中,所述腳本abstract_filter.pi中關(guān)于提取所述D數(shù)據(jù)集和所述E數(shù)據(jù)集(所述A數(shù)據(jù)集中剔除所述D數(shù)據(jù)集),是基于如下原理進(jìn)行編程的:以所述A數(shù)據(jù)集中匹配到的圍繞所述轉(zhuǎn)座酶保守結(jié)構(gòu)域核苷酸序列的起始位點(diǎn),提取上下游共30kb的序列集合(上游15kb,下游包含起始位點(diǎn)的15kb),記為D數(shù)據(jù)集;所述數(shù)據(jù)集A中剔除所述D數(shù)據(jù)集中的序列后得到的數(shù)據(jù)集,記為E數(shù)據(jù)集。即E數(shù)據(jù)集為以所述A數(shù)據(jù)集匹配到的所述D數(shù)據(jù)集序列被替換成相應(yīng)長(zhǎng)度的“X”的片段得到的數(shù)據(jù)集。
[0022]在上述方法步驟(3)和(5)中,所述腳本abstract2.pi具有如下特點(diǎn):從所述XXX4和所述XXX6中尋找兩端邊界明確的LTR-反轉(zhuǎn)座子的位置,是通過(guò)限制其序列長(zhǎng)度,并進(jìn)行TSDs的檢驗(yàn),提取符合檢驗(yàn)標(biāo)準(zhǔn)的所述LTR-反轉(zhuǎn)座子來(lái)實(shí)現(xiàn)的;所述檢驗(yàn)標(biāo)準(zhǔn)為:LTR-反轉(zhuǎn)座子的長(zhǎng)度小于等于30kb ;5’ LTR上游和3’ LTR下游分別提取4_6個(gè)堿基作為T(mén)SD,若TSD的長(zhǎng)度為4bp時(shí),不允許突變,長(zhǎng)度為5bp或6bp時(shí)最多允許一個(gè)堿基突變。
[0023]在本發(fā)明的一個(gè)實(shí)施例中,所述腳本abstractl.pi具體為:
[0024]
【權(quán)利要求】
1.一種批量檢測(cè)基因組LTR-反轉(zhuǎn)座子的方法,包括如下步驟: (1)將待測(cè)基因組序列記為A數(shù)據(jù)集,利用LTR_STRUC程序,在Windows操作系統(tǒng)下,采用默認(rèn)參數(shù)設(shè)置對(duì)所述A數(shù)據(jù)集進(jìn)行分析;把腳本abstractl.pi放到LTR_STRUC文件夾下,運(yùn)行 “per I abstract 1.pi XXXl ” 命令,得到 “result_LTR” 和 “result_INTACT” 兩個(gè)文件; 所述“result_LTR”文件中的數(shù)據(jù)為L(zhǎng)TRs序列,記為B數(shù)據(jù)集-^^^“resultJNTACT”文件中的數(shù)據(jù)為L(zhǎng)TR-反轉(zhuǎn)座子序列,記為L(zhǎng)I數(shù)據(jù)集; 所述“XXXI”代表A數(shù)據(jù)集的文件名,該文件在運(yùn)行LTR_STRUC程序時(shí)已置于input文件夾內(nèi);所述input文件夾為所述LTR_STRUC文件夾的子文件夾; (2)將模式生物的Tyl-copia和Ty3_gypsy兩類LTR-反轉(zhuǎn)座子中轉(zhuǎn)座酶保守結(jié)構(gòu)域的氨基酸序列記為C數(shù)據(jù)集,利用Tblastn程序,在Linux操作系統(tǒng)或Window操作系統(tǒng)下,把-outfmt設(shè)置為6或7,其它采用默認(rèn)參數(shù)設(shè)置,用所述C數(shù)據(jù)集對(duì)所述A數(shù)據(jù)集進(jìn)行比對(duì)分析;按照如下用腳本abstract_filter.pi對(duì)比對(duì)結(jié)果進(jìn)行分析:運(yùn)行命令“periabstract_filter.pl XXX1XXX2”,得到 “dbD” 和 “dbE” 兩個(gè)文件; 所述“XXXI ”代表所述A數(shù)據(jù)集的文件名;所述“XXX2”代表所述數(shù)據(jù)集C對(duì)所述數(shù)據(jù)集A做Tblastn比對(duì)的結(jié)果的文件名; 所述“dbD”為所述A數(shù)據(jù)集中匹配到的包含所述轉(zhuǎn)座酶保守結(jié)構(gòu)域的序列集合,記為D數(shù)據(jù)集;所述“dbE”為所述數(shù)據(jù)集A中剔除所述D數(shù)據(jù)集中的序列后得到的數(shù)據(jù)集,記為E數(shù)據(jù)集; (3)利用CROSS_MATCH程序,在Linux操作系統(tǒng)下,采用默認(rèn)參數(shù)設(shè)置,對(duì)所述B數(shù)據(jù)集和所述D數(shù)據(jù)集進(jìn)行cross_match比對(duì),把所得cross_match結(jié)果文件的開(kāi)頭和結(jié)尾的說(shuō)明部分刪除,留下比對(duì)行,得到的文件記為XXX4 ;按照如下用腳本abstract〗, pi對(duì)所述文件XXX4中的數(shù)據(jù)進(jìn)行分析:運(yùn)行命令“peri abstract2.pi XXX3XXX4”命令,得到“XXX4.result”文件;根據(jù)所述“XXX4.result”文件中的LTR-反轉(zhuǎn)座子的起始位點(diǎn)和結(jié)束位點(diǎn)提取LTR-反轉(zhuǎn)座子序列集合,記為L(zhǎng)2數(shù)據(jù)集;所述“XXX3”為所述D數(shù)據(jù)集的文件名; (4)利用CLUSTALW程序,在Linux操作系統(tǒng)或Window操作系統(tǒng)下,采用默認(rèn)參數(shù)設(shè)置,對(duì)所述D數(shù)據(jù)集進(jìn)行多序列比對(duì),提取LTR-反轉(zhuǎn)座子,記為L(zhǎng)3數(shù)據(jù)集; (5)利用CROSS_MATCH程序,在Linux操作系統(tǒng)下,采用默認(rèn)參數(shù)設(shè)置,對(duì)所述B數(shù)據(jù)集和所述E數(shù)據(jù)集進(jìn)行cross_match比對(duì),把所得cross_match結(jié)果文件的開(kāi)頭和結(jié)尾的說(shuō)明部分刪除,留下比對(duì)行,得到的文件記為文件XXX6 ;按照如下腳本abstract〗, pi對(duì)所述XXX6中的數(shù)據(jù)進(jìn)行分析:運(yùn)行“peri abstract2.pl XXX5XXX6”命令,得到“XXX6.result”文件;根據(jù)所述“XXX6.result”文件中的LTR-反轉(zhuǎn)座子的起始位點(diǎn)和結(jié)束位點(diǎn)提取LTR-反轉(zhuǎn)座子序列集合,記為L(zhǎng)4數(shù)據(jù)集;; 所述“XXX5”為所述E數(shù)據(jù)集的文件名; (6)將所述LI數(shù)據(jù)集、所述L2數(shù)據(jù)集、所述L3數(shù)據(jù)集和所述L4數(shù)據(jù)集進(jìn)行整理去重,得到L數(shù)據(jù)集;所述L數(shù)據(jù)集中的序列即為從所述待測(cè)基因組序列中批量檢測(cè)到的LTR-反轉(zhuǎn)座子。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟(1)中,所述腳本abstractl.pi中關(guān)于提取所述LTRs序列和所述LTR-反轉(zhuǎn)座子序列的內(nèi)容,是基于如下原理進(jìn)行編程的:以“LTRS:”為起始標(biāo)志,對(duì)所述LTRs序列進(jìn)行提取;以“COMPLETE SEQUENCE OF PUTATIVETRANSPOSON: ”為起始標(biāo)志對(duì)所述LTR-反轉(zhuǎn)座子序列進(jìn)行提取。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于:所述腳本abstractl.pi為:
4.根據(jù)權(quán)利要求1-3中任一所述的方法,其特征在于:步驟(2)中,所述腳本abstract_filter.pi中關(guān)于提取所述D數(shù)據(jù)集和所述E數(shù)據(jù)集,是基于如下原理進(jìn)行編程的:以所述A數(shù)據(jù)集中匹配到的圍繞所述轉(zhuǎn)座酶保守結(jié)構(gòu)域核苷酸序列的起始位點(diǎn),提取上游15kb序列以及下游包含所述起始位點(diǎn)的15kb序列的集合,即為所述D數(shù)據(jù)集;所述數(shù)據(jù)集A中剔除所述D數(shù)據(jù)集中的序列后得到的數(shù)據(jù)集,記為E數(shù)據(jù)集。
5.根據(jù)權(quán)利要求1-4中任一所述的方法,其特征在于:所述腳本abstract_filter.pi為:
6.根據(jù)權(quán)利要求1-5中任一所述的方法,其特征在于:步驟(3)和(5)中,所述腳本abstract2.pi具有如下特點(diǎn):從所述XXX4或所述XXX6中尋找兩端邊界明確的候選LTR-反轉(zhuǎn)座子的位置,是通過(guò)限制其序列長(zhǎng)度,并進(jìn)行TSDs的檢驗(yàn),提取符合檢驗(yàn)標(biāo)準(zhǔn)的所述LTR-反轉(zhuǎn)座子來(lái)實(shí)現(xiàn)的;所述檢驗(yàn)標(biāo)準(zhǔn)為:LTR-反轉(zhuǎn)座子的長(zhǎng)度小于等于30kb ;5’ LTR上游和3’ LTR下游分別提取4-6個(gè)堿基作為T(mén)SD,若TSD的長(zhǎng)度為4bp時(shí),不允許突變,長(zhǎng)度為5bp或6bp時(shí)最多允許一個(gè)堿基突變。
7.根據(jù)權(quán)利要求1-6中任一所述的方法,其特征在于:所述腳本abstract2.pi為:#! /us r/bi TiZim1T I w#l>roiiram 1 alis the useable line of cross—iiatcli resultUιhe file has no regular formatIise strict ;list! warnings;nso Bio; ;ScfilO;iriy Sseq query;iny S ? d;my iShrfickel ;my tSsUiriTmy StJig yes = 0;·my iarray start 二 0;my iarray end =();my §Brrny candidate =();Bi? %ha sh;my Sm = Bio::Seqli) >ne’.v( fi;whiIe( my Sseq = Sin >next: seq ());
Sseq query = $seq~>seq; }openl.r or diewhilo{fiiy Sline - <F>) Ichomp (SIinc);
my @row - spli t(/\s-/, SI t:1e);
sh I f I (ii'ow) unless Sfo^i 01;Sid = Srowf4];my Stag.....pos = I;
I lag—pns--1 f(|rfnv[-1 ] pq 丫);
i f'($rov/| $!ag_pos I =" ^\((\<1-) \; S/) f#####M#^Mbracket at the end of the I ine(righi)
Sbracket = SI;
Is1.art = $rxm]Su-1g—pos — I] < $rowiStag_pos — 2] ? SraviS1-ag____pos — Is ; Srow[$tag____pos —
8.根據(jù)權(quán)利要求1-7中任一所述的方法,其特征在于:步驟(2)中,所述模式生物為擬南芥; 所述擬南芥的Tyl-copia LTR-反轉(zhuǎn)座子中轉(zhuǎn)座酶保守結(jié)構(gòu)域的氨基酸序列具體為序列表中序列I所示,或所述擬南芥的Ty3_gypsy LTR-反轉(zhuǎn)座子中轉(zhuǎn)座酶保守結(jié)構(gòu)域的氨基酸序列具體為序列表中序列2所示。
9.根據(jù)權(quán)利要求1-8中任一所述的方法,其特征在于:所述待測(cè)基因組序列通過(guò)下載已公開(kāi)的全基因組序列獲得或通過(guò)全基因組測(cè)序獲得。
10.根據(jù)權(quán)利要求1-9中任一所述的方法,其特征在于:所述待測(cè)基因組為植物基因組; 所述植物基因組具體為棉花基因組; 所述棉花基因組具體為雷·蒙德氏棉基因組。
【文檔編號(hào)】G06F19/18GK103824000SQ201410062207
【公開(kāi)日】2014年5月28日 申請(qǐng)日期:2014年2月24日 優(yōu)先權(quán)日:2014年2月24日
【發(fā)明者】杜建廠, 劉靜, 徐珍珍, 倪萬(wàn)潮 申請(qǐng)人:江蘇省農(nóng)業(yè)科學(xué)院