專(zhuān)利名稱(chēng):結(jié)合基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè)的方法。
背景技術(shù):
植物microRNA是一類(lèi)20-24堿基長(zhǎng)的非編碼RNA,是重要的基因調(diào)控元件[10]。 裝載到RNA引導(dǎo)沉默復(fù)合體(RISC)后,植物microRNA會(huì)引導(dǎo)與其高度互補(bǔ)的靶基因mRNA 在互補(bǔ)位點(diǎn)的切割,降低靶基因的表達(dá)水平[10]。靶基因中大部分編碼轉(zhuǎn)錄因子,這使得植 物microRNA的調(diào)控范圍幾乎遍及整個(gè)基因組[12]。因此microRNA在植物的多種生物過(guò)程 中都起到了重要作用,包括植物發(fā)育、應(yīng)激反應(yīng)以及microRNA途徑自身[12]。對(duì)植物microRNA的研究發(fā)現(xiàn)了大量的植物microRNA,在此基礎(chǔ)上建立了專(zhuān)門(mén)的 microRNA數(shù)據(jù)庫(kù)[9,19]。miRBase是一個(gè)綜合的microRNA數(shù)據(jù)庫(kù),包含了動(dòng)植物中已經(jīng) 發(fā)表的microRNA,提供了 microRNA序列、前體序列、前體二級(jí)結(jié)構(gòu)、基因組上下文及參考文 獻(xiàn)等信息[9]。PMRD是一個(gè)專(zhuān)門(mén)的植物microRNA數(shù)據(jù)庫(kù),涵蓋了更多的植物物種,并包含 了大量預(yù)測(cè)到的無(wú)實(shí)驗(yàn)驗(yàn)證的micr0RNA[19]。對(duì)于水稻和擬南芥等有mRNA序列數(shù)據(jù)的物 種,PMRD還列出了預(yù)測(cè)到的靶基因[19]。作為重要的模式生物,水稻和擬南芥有大量的生物信息學(xué)資源,包括詳細(xì)注釋的 基因組序列,多態(tài)性數(shù)據(jù),以及大量的高通量測(cè)序數(shù)[7,11,13-17]。這些數(shù)據(jù)中,很多可以 用于植物microRNA的研究。用測(cè)序數(shù)據(jù)或者微陣列實(shí)驗(yàn),探測(cè)到了水稻和擬南芥亞種間大量的單核苷酸多態(tài) 性(SNP) [7,13,15]。microRNA前體的SNP會(huì)影響microRNA前體的折疊,進(jìn)而影響到DCLl 對(duì)microRNA前體的識(shí)別與切割[10]。microRNA成熟體或者靶基因結(jié)合位點(diǎn)的SNP會(huì)改變 microRNA與靶基因mRNA的互補(bǔ)程度,從而改變microRNA對(duì)mRNA的切割效率[10]??梢?利用SNP數(shù)據(jù)來(lái)研究SNP在microRNA途徑層次對(duì)亞種間差異的貢獻(xiàn)。大規(guī)模并行信號(hào)測(cè)序(MPSS)是一種研究基因表達(dá)的高通量測(cè)序技術(shù),水稻和擬 南芥有大量的MPSS數(shù)據(jù)[14]。植物microRNA是獨(dú)立的轉(zhuǎn)錄單元,與蛋白編碼基因一樣 由RNA 二型聚合酶轉(zhuǎn)錄,具有5’帽和3’聚腺苷酸尾[10]。因此,可以用MPSS數(shù)據(jù)來(lái)分析 microRNA基因的表達(dá)。另外,MPSS的轉(zhuǎn)錄信號(hào)可以為microRNA基因的轉(zhuǎn)錄區(qū)間及基因模 型提供參考。RNA末端并行分析(PARE)是一種降解組高通量測(cè)序技術(shù),測(cè)定有聚腺苷酸尾的3’ 端切割產(chǎn)物的5’端序列,水稻和擬南芥也有大量的PARE數(shù)據(jù)[14]。植物microRNA與靶基 因mRNA高度互補(bǔ),主要引導(dǎo)靶基因mRNA的切割,切割產(chǎn)物能被PARE技術(shù)探測(cè)到[8]。因 此,PARE數(shù)據(jù)可以用于microRNA對(duì)靶基因mRNA切割作用的分析。另外,microRNA的生物 發(fā)生需要DCLl的切割,microRNA也可能引導(dǎo)microRNA前體自身的切割,可以用PARE數(shù)據(jù) 來(lái)分析這些切割作用[8]。
參考文獻(xiàn)[l]Apache HTTP Server Project :http://httpd. apache, org/.[2]PostgreSQL :http://www. postgresql. org/.[3] Scalable Vector Graphics :http://www. w3. org/Graphics/SVG/.[4] Vienna RNA Package :http://www. tbi. univie. ac. at/"lvo/RNA/.[5] S. F. Altschul,T. L Madden,A. A. Schaffer, J. Zhang,Z. Zhang,W. Miller,and D.J. Lipman. Gapped BLAST and PSI-BLAST :a new generation of protein database search programs. Nucl. Acids Res.,25 :3389_3402,1997.[6] R. Bruccoleri and G Heinrich. ComputerAppl icat ions in the Biosciences^ :167_173,1988.[7]F Alex Feltus,Jun Wan, Stefan R Schulze,James C Estill,Ning Jiang, and Andrew H Paterson. An SNP resource for rice genetics and breeding based on subspecies indica and japonica genome alignments. Genome Res. ,14 1812-9,2004.[8]Marcelo A German,Manoj Pillay,Dong-Hoon Jeong,Amit Hetawal,Shujun Luo,Prakash Janardhanan,Vimal Kannan,Linda A Rymarquis,Kan Nobuta,Rana German, Emanuele De Paoli, Cheng Lu, Gary Schroth, Blake C Meyers, and Pamela J Green. Globalidentification of microRNA—target RNA pairs by parallel analysis ofRNA ends. Nat. Biotechnol.,26 :941_6,2008·[9]Sam Griffiths-Jones, Harpreet Kaur Saini,Stijn van Dongen,and Anton J Enright. miRBase :tools for microRNA genomics. Nucleic Acids Res. , 36 :D 154—8, 2008.[10]MatthewW. Jones-RhoadesjDavid P. Bartel,and Bonnie Bartel. MicroRNAs and their regulatory roles in plants. Annual Review ofPlant Biology,57 :19_53, 2006.[11]Yong-Fang Li, Yun Zheng, Charles Addo-Quaye, Li Zhang, Aj ay Saini, Guru Jagadeeswaran,Michael J Axtel1,Weixiong Zhang,and Ramanjulu Sunkar. Transcriptome-wide identification of microRNA targets in rice.The Plant journal :for cell and molecular biology,2010.[12]Allison C Mallory and Hervr e Vaucheret. Functions of microRNAs and related small RNAs in plants. Nat. Genet. , 38 :S31-6,2006.[13]Kenneth L McNally, Kevin L Childs, Regina Bohnert, Rebecca M Davidson,Keyan Zhao,Victor J Ulat,GeorgZeller,Richard M Clark,Douglas R Hoen, Thomas E Bureau, Renee Stokowski, Dennis G Ballinger, Kelly A Frazer, David R Cox, Badri Padhukasahasram, Carlos D Bustamante, Detlef Weigel,David J Mackill, Richard M Bruskiewich,Gunnar R" atsch,C Robin Buel1,Hei Leung,and Jan E Leach. Genomewide SNP variation reveals relationships among landraces and modern varieties ofrice. Proc. Natl. Acad. Sci. U. S. A.,106 :12273_8,2009.[14]Mayumi Nakano, Kan Nobuta, Kalyan Vemaraju, Shivakundan Singh Tej, JeremyWSkogen, and Blake C Meyers. Plant MPSS databases :signature_basedtranscriptional resources for analyses of mRNA and small RNA. Nucleic Acids Res. ,34 :D731-5,2006.[15]Seung Yon Rhee, William Beavis, Tanya Z.Berardini, Guanghong Chen, David Dixon,Aisling Doyle,Margarita Garcia—Hernandez,Eva Huala,Gabriel Lander, Mary Montoya,Neil Miller,Lukas A. Mueller,Suparna Mundodi,Leonore Reiser,Julie Tacklind,Dan C. ffeems,Yihe Wu,Iris Xu,Daniel Yoo,Jungwon Yoon,and Peifen Zhang. The Arabidopsis Information Resource(TAIR) :a model organism database providing a centralized, curated gateway to Arabidopsis biology, research materials and community. Nucl. Acids Res. ,31 =224-228,2003.[16]Qiaoping Yuan, Shu Ouyang, Aihui Wang, Wei Zhu, Rama Maiti, Haining Lin, John Hamilton, Brian Haas, Razvan Sultana, Foo Cheung, Jennifer Wortman, and C. Robin Buel1. The Institute for Genomic Research Osal rice genome annotation database. Plant Physiol.,138 :18—26,2005.[17]Guojie Zhang,Guangwu Guo,Xueda Hu,Yong Zhang,Qiye Li,Ruiqiang Li, Ruhong Zhuang, Zhike Lu, Zengquan He, Xiaodong Fang, Li Chen, Wei Tian, Yong Tao, Karsten Kristiansen,Xiuqing Zhang,Songgang Li,Huanming Yang,Jian Wang,and Jun Wang. Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome. Genome Res. , 20 :646_54,2010.[18]Yuanji Zhang, miRU :an automated plant microRNA target prediction server. Nucleic Acids Res. ,33 :W701_4,2005.[19]Zhenhai Zhang, Jingyin Yu, Daofeng Li, Zuyong Zhang, Fengxia Liu, Xin Zhou, Tao Wang, Yi Ling, and Zhen Su. PMRD :plant microRNA database. Nucleic Acids Res. ,38 :D806-13,2010.
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù) 測(cè)的方法?;谙乱淮鷾y(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè)的方法包括如下步驟1)收集植物microRNA和基因組數(shù)據(jù);
2)處理植物microRNA數(shù)據(jù);3)使用miRU預(yù)測(cè)植物microRNA的靶位點(diǎn);4)收集PARE信號(hào)數(shù)據(jù);5)建立PmiPKB數(shù)據(jù)庫(kù)的“MiR-Tar”模塊;6)利用PARE信號(hào)數(shù)據(jù)驗(yàn)證植物microRNA靶位互作關(guān)系;7)構(gòu)建植物microRNA靶位互作網(wǎng)絡(luò)。所述的收集植物microRNA和基因組數(shù)據(jù)步驟為水稻和擬南芥的microRNA數(shù)據(jù) 來(lái)自于版本15的miRBase,其中,水稻有成熟體序列498條,前體序列449條,擬南芥有成熟 體序列224條,前體序列199條,水稻的基因組數(shù)據(jù)來(lái)自于版本6. 1的TIGR,擬南芥的基因 組數(shù)據(jù)來(lái)自于版本9的TAIR。
所述的處理植物microRNA數(shù)據(jù)步驟為miRBase的microRNA數(shù)據(jù)為EMBL格式, 基因組坐標(biāo)數(shù)據(jù)為GFF格式,使用PERL腳本解析這些數(shù)據(jù),將其存入數(shù)據(jù)庫(kù),所有的序列均 轉(zhuǎn)換成大寫(xiě)字母。所述的使用miRU軟件預(yù)測(cè)植物microRNA的靶位點(diǎn)步驟為分別輸入水稻的 microRNA和水稻基因組數(shù)據(jù),選擇miRU軟件的默認(rèn)參數(shù),然后對(duì)水稻microRNA的基因靶 位點(diǎn)進(jìn)行預(yù)測(cè);分別輸入擬南芥的microRNA和擬南芥基因組數(shù)據(jù),選擇miRU軟件的默認(rèn)參 數(shù),然后對(duì)擬南芥microRNA的基因靶位點(diǎn)進(jìn)行預(yù)測(cè)。所述的收集PARE信號(hào)數(shù)據(jù)步驟為PARE信號(hào)數(shù)據(jù)來(lái)自NGSD的10個(gè)數(shù)據(jù)集和 Yongfang Li的1個(gè)數(shù)據(jù)集,原數(shù)據(jù)進(jìn)行歸一化處理。所述的建立PmiPKB數(shù)據(jù)庫(kù)的“MiR-Tar”模塊步驟為用SVG圖形表示microRNA 基因附近的PARE信號(hào)數(shù)據(jù)。圖示的范圍為microRNA前體基因組坐標(biāo)左右共一萬(wàn)堿基對(duì), 數(shù)據(jù)集縱向排列,方便用戶(hù)進(jìn)行比較。所述的利用PARE信號(hào)數(shù)據(jù)驗(yàn)證植物microRNA靶位互作關(guān)系步驟為使用PmiRKB 數(shù)據(jù)庫(kù)中的“MiR-Tar”模塊,圖形化輸出含PARE信號(hào)數(shù)據(jù)的全部靶位點(diǎn)互作關(guān)系,共計(jì) 8253對(duì),再進(jìn)行人工篩選校正,最終獲得3077對(duì)可靠性較高的microRNA靶位互作關(guān)系。所述的預(yù)測(cè)植物microRNA靶位互作網(wǎng)絡(luò)步驟為將獲得的3077對(duì)可靠性較高的 microRNA靶位互作關(guān)系存儲(chǔ)到以tab鍵分隔的文本文件中,利用NeAT將該文本文件轉(zhuǎn)化為 通用的GML網(wǎng)絡(luò)格式文件,使用yED網(wǎng)絡(luò)可視化工具對(duì)這3077對(duì)microRNA靶位互作關(guān)系 進(jìn)行可視化處理,構(gòu)建出植物microRNA靶位互作網(wǎng)絡(luò)。本發(fā)明整合了水稻、擬南芥的RNA末端并行分析數(shù)據(jù),提供了映射到靶基因mRNA 與microRNA結(jié)合位點(diǎn)附近的PARE信號(hào)信息,可用于鑒別預(yù)測(cè)的microRNA-target mRNA 之間是否存在真實(shí)的切割調(diào)控關(guān)系;來(lái)自不同組織材料的PARE數(shù)據(jù)集間可以進(jìn)行比較 以揭示這種調(diào)控關(guān)系的組織特異性。此外,又整合了已有的PARE數(shù)據(jù),提供了映射到 pre-microRNA上的PARE信號(hào)情況,可用于監(jiān)測(cè)DCLl對(duì)pri-或pre-microRNA的加工情況, 以及microRNA或microRNA*對(duì)其microRNA前體的自切割作用,組織間的差異依然可以通 過(guò)跨庫(kù)比較來(lái)觀(guān)察到。最后對(duì)水稻和擬南芥現(xiàn)有microRNA靶位互作關(guān)系進(jìn)行人工篩選校 正,獲得3077對(duì)可靠性較高的microRNA靶位互作關(guān)系,構(gòu)建了網(wǎng)絡(luò)模型并進(jìn)行網(wǎng)絡(luò)可視化 處理,此網(wǎng)絡(luò)模型具有相當(dāng)高的可靠性。
圖1是PmiRKB數(shù)據(jù)庫(kù)簡(jiǎn)要的ER圖;圖2是PmiRKB數(shù)據(jù)庫(kù)的“MiR-Tar”模塊中使用PARE信號(hào)數(shù)據(jù)驗(yàn)證擬南芥miR156h 對(duì)AT5G50570. 1的切割;圖3是預(yù)測(cè)到的水稻microRNA靶位互作網(wǎng)絡(luò)局部示意圖;圖4是預(yù)測(cè)到的擬南芥microRNA靶位互作網(wǎng)絡(luò)局部示意圖。
具體實(shí)施例方式基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè)的方法包括如下步驟1)收集植物microRNA和基因組數(shù)據(jù);
2)處理植物microRNA數(shù)據(jù);3)使用miRU預(yù)測(cè)植物microRNA的靶位點(diǎn);4)收集PARE信號(hào)數(shù)據(jù);5)建立PmiPKB數(shù)據(jù)庫(kù)的“MiR-Tar”模塊;6)利用PARE信號(hào)數(shù)據(jù)驗(yàn)證植物microRNA靶位互作關(guān)系;7)構(gòu)建植物microRNA靶位互作網(wǎng)絡(luò)。所述的收集植物microRNA和基因組數(shù)據(jù)步驟為水稻和擬南芥的microRNA數(shù)據(jù) 來(lái)自于版本15的miRBase,數(shù)據(jù)包括了 microRNA名稱(chēng)、microRNA序列、前體名稱(chēng)、前體序 列、前體的基因組坐標(biāo)以及參考文獻(xiàn)。其中,水稻有成熟體序列498條,前體序列449條,擬 南芥有成熟體序列224條,前體序列199條,一條前體可能對(duì)應(yīng)有多條成熟體。水稻的基因 組數(shù)據(jù)來(lái)自于版本6. 1的TIGR,擬南芥的基因組數(shù)據(jù)來(lái)自于版本9的TAIR。所述的處理植物microRNA數(shù)據(jù)步驟為miRBase的microRNA數(shù)據(jù)為EMBL格式, 基因組坐標(biāo)數(shù)據(jù)為GFF格式,使用PERL腳本解析這些數(shù)據(jù),將其存入數(shù)據(jù)庫(kù),所有的序列 均轉(zhuǎn)換成大寫(xiě)字母。水稻的MIR156f和MIR531前體都對(duì)應(yīng)有兩個(gè)基因組坐標(biāo),為了簡(jiǎn) 化數(shù)據(jù)庫(kù)結(jié)構(gòu),將對(duì)應(yīng)于不同基因組坐標(biāo)的同一前體分作多個(gè)前體來(lái)表示MIR156f(l)、 MIR156f (2)、MIR531 (1)和 MIR531 (2)。對(duì)于未給出 microRNA* 序列的 microRNA,根據(jù)前體 的二級(jí)結(jié)構(gòu),選擇microRNA*序列使雙鏈體3’端有兩個(gè)堿基的突出[10]。所述的使用miRU軟件預(yù)測(cè)植物microRNA的靶位點(diǎn)步驟為分別輸入水稻的 microRNA和水稻基因組數(shù)據(jù),選擇miRU軟件的默認(rèn)參數(shù),然后對(duì)水稻microRNA的基因靶 位點(diǎn)進(jìn)行預(yù)測(cè);分別輸入擬南芥的microRNA和擬南芥基因組數(shù)據(jù),選擇miRU軟件的默認(rèn)參 數(shù),然后對(duì)擬南芥microRNA的基因靶位點(diǎn)進(jìn)行預(yù)測(cè)。所述的收集PARE信號(hào)數(shù)據(jù)步驟為RNA末端并行分析(PARE)是一種降解組高通 量測(cè)序技術(shù),PARE信號(hào)數(shù)據(jù)可以用于microRNA對(duì)靶基因mRNA切割作用的分析。PARE信號(hào) 數(shù)據(jù)來(lái)自NGSD的10個(gè)數(shù)據(jù)集和Yongfang Li的1個(gè)數(shù)據(jù)集,原數(shù)據(jù)進(jìn)行歸一化處理,即利 用數(shù)據(jù)庫(kù)提供的算術(shù)運(yùn)算對(duì)原數(shù)據(jù)進(jìn)行歸一化處理,即將各個(gè)序列的讀數(shù)除以所在數(shù)據(jù)集 的總讀數(shù),再乘以一百萬(wàn),得到序列的RPM(數(shù)據(jù)集每百萬(wàn)讀數(shù)中序列的讀數(shù))。所述的建立PmiPKB數(shù)據(jù)庫(kù)的“MiR-Tar”模塊步驟為用SVG圖形表示microRNA基 因附近的PARE信號(hào)數(shù)據(jù)。圖示的范圍為microRNA前體基因組坐標(biāo)左右共一萬(wàn)堿基對(duì),由于 范圍太大,在圖示的上方給出了縮略圖與可移動(dòng)的窗口,通過(guò)JavaScript實(shí)現(xiàn)移動(dòng)窗口查 看詳細(xì)信息的功能。PARE序列的RPM用不透明度表示,在鼠標(biāo)指到序列時(shí)顯示出該序列具 體的基因組坐標(biāo)和RPM值。數(shù)據(jù)集縱向排列,方便用戶(hù)進(jìn)行比較。在其中表示出microRNA 與靶基因mRNA間的配對(duì),圖示范圍為mRNA上microRNA結(jié)合位點(diǎn)左右共約120堿基對(duì)。對(duì) 于唯一映射到該位點(diǎn)的PARE序列,在表示信號(hào)的矩形外加邊框,以示區(qū)別。所述的利用PARE信號(hào)數(shù)據(jù)驗(yàn)證植物microRNA靶位互作關(guān)系步驟為使用PmiRKB 數(shù)據(jù)庫(kù)中的“MiR-Tar”模塊,圖形化輸出含PARE信號(hào)數(shù)據(jù)的全部靶位點(diǎn)互作關(guān)系,共計(jì) 8253對(duì),再進(jìn)行人工篩選校正,最終獲得3077對(duì)可靠性較高的microRNA靶位互作關(guān)系。所述的預(yù)測(cè)植物microRNA靶位互作網(wǎng)絡(luò)步驟為將獲得的3077對(duì)可靠性較高的 microRNA靶位互作關(guān)系存儲(chǔ)到以tab鍵分隔的文本文件中,利用NeAT將該文本文件轉(zhuǎn)化為 通用的GML網(wǎng)絡(luò)格式文件,使用yED網(wǎng)絡(luò)可視化工具對(duì)這3077對(duì)microRNA靶位互作關(guān)系
8進(jìn)行可視化處理,構(gòu)建出植物microRNA靶位互作網(wǎng)絡(luò)。實(shí)施例1.數(shù)據(jù)來(lái)源水稻和擬南芥的microRNA數(shù)據(jù)來(lái)自于miRBaSe[9],版本為15。數(shù)據(jù)包括了 microRNA名稱(chēng)、microRNA序列、前體名稱(chēng)、前體序列、前體的基因組坐標(biāo)以及參考文獻(xiàn)。其 中,水稻有成熟體序列498條,前體序列449條;擬南芥有成熟體序列224條,前體序列199 條。一條前體可能對(duì)應(yīng)有多條成熟體。水稻microRNA前體的基因組坐標(biāo)基于TIGR6.0偽 分子,擬南芥microRNA前體的基于TAIR9基因組。水稻的基因組數(shù)據(jù)來(lái)自于TIGR[16],版 本為6. 1。版本6. 1與6. 0僅有少數(shù)基因分類(lèi)不同,因此miRBase提供的水稻microRNA前 體的基因組坐標(biāo)適用于TIGR6. 1。擬南芥的基因組數(shù)據(jù)來(lái)自于TAIR,版本為9。(見(jiàn)表1)水稻的SNP 數(shù)據(jù)涉及 了 21 個(gè)亞種93-11、Nipponbare, Tainung 67、 Li-Jiang-Xin-Tuan-Hei-Gu> M 202、Azucena、Moroberekan> Cypress、Dom-Sufid> N 22、 Dular、FR13A、Aswina、Rayada>IR64-21、Shan-Huang Zhan-2、Pokkali、Swarna>Sadu-Cho> Minghui 63和Zhenshan 97B。其中Nipponbare為參考亞種。亞種93-11的SNP數(shù)據(jù)來(lái)自 于基因組的序列聯(lián)配,原數(shù)據(jù)提供了 SNP周?chē)?1堿基長(zhǎng)的序列用于定位[7]。其余亞種 與Nipponbare間的SNP數(shù)據(jù)由重測(cè)序微陣列技術(shù),結(jié)合基于模型(MB)或機(jī)器學(xué)習(xí)(ML)的 計(jì)算方法測(cè)定[13]。原數(shù)據(jù)提供了 SNP的TIGR5偽分子坐標(biāo)和周?chē)?01堿基長(zhǎng)的序列, 可以用這些序列將SNP定位到TIGR6. 1上。取MB和ML方法的交集,以保證數(shù)據(jù)的高可靠 性。擬南芥的 SNP 數(shù)據(jù)涉及了 7 個(gè)亞種=Col-O,Bur-0,Tsu-ULer-UBay-O,Sha 和 Cvi-O0 其中Col-O是參考亞種。這些亞種的SNP數(shù)據(jù)來(lái)自TAIR的Polymorphism數(shù)據(jù)庫(kù),原數(shù)據(jù) 直接提供了 SNP的TAIR9基因組坐標(biāo)[15]。水稻和擬南芥的MPSS數(shù)據(jù)主要來(lái)自于NGSD (Next-Gen Sequence Database)的35 個(gè)數(shù)據(jù)集[14]。原數(shù)據(jù)提供了每一個(gè)序列標(biāo)簽的讀數(shù),需要?dú)w一化處理以便進(jìn)行數(shù)據(jù)集間 的對(duì)比。另外,Guojie Zhang等人用高通量方法得到的水稻亞種93-11的轉(zhuǎn)錄組數(shù)據(jù),共2 個(gè)數(shù)據(jù)集,與MPSS數(shù)據(jù)類(lèi)似,同樣適合做microRNA基因轉(zhuǎn)錄的分析[17]。因此,可以將這 2個(gè)數(shù)據(jù)作為MPSS數(shù)據(jù)進(jìn)行處理。PARE數(shù)據(jù)主要來(lái)自NGSD的10個(gè)數(shù)據(jù)集[14],原數(shù)據(jù)需要?dú)w一化處理。另外, Yongfang Li等人的水稻降解組數(shù)據(jù),共1個(gè)數(shù)據(jù)集,與PARE數(shù)據(jù)類(lèi)似,也可以用來(lái)分析 microRNA引導(dǎo)的mRNA切割[11]。因此,把這一數(shù)據(jù)集作為PARE數(shù)據(jù)進(jìn)行處理,構(gòu)建出植 物microRNA靶位互作網(wǎng)絡(luò)。(見(jiàn)表2)表1 植物microRNA及基因組的數(shù)據(jù)來(lái)源
權(quán)利要求
一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè)的方法,其特征在于,包括如下步驟1)收集植物microRNA和基因組數(shù)據(jù);2)處理植物microRNA數(shù)據(jù);3)使用miRU預(yù)測(cè)植物microRNA的靶位點(diǎn);4)收集PARE信號(hào)數(shù)據(jù);5)建立PmiPKB數(shù)據(jù)庫(kù)的“MiR Tar”模塊;6)利用PARE信號(hào)數(shù)據(jù)驗(yàn)證植物microRNA靶位互作關(guān)系;7)構(gòu)建植物microRNA靶位互作網(wǎng)絡(luò)。
2.如權(quán)利要求1所述的一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù) 測(cè)的方法,其特征在于,所述的收集植物microRNA和基因組數(shù)據(jù)步驟為水稻和擬南芥的 microRNA數(shù)據(jù)來(lái)自于版本15的miRBase,其中,水稻有成熟體序列498條,前體序列449條, 擬南芥有成熟體序列224條,前體序列199條,水稻的基因組數(shù)據(jù)來(lái)自于版本6. 1的TIGR, 擬南芥的基因組數(shù)據(jù)來(lái)自于版本9的TAIR。
3.如權(quán)利要求1所述的一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè) 的方法,其特征在于,所述的處理植物microRNA數(shù)據(jù)步驟為=HiiRBase的microRNA數(shù)據(jù)為 EMBL格式,基因組坐標(biāo)數(shù)據(jù)為GFF格式,使用PERL腳本解析這些數(shù)據(jù),將其存入數(shù)據(jù)庫(kù),所 有的序列均轉(zhuǎn)換成大寫(xiě)字母。
4.如權(quán)利要求1所述的一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè) 的方法,其特征在于,所述的使用miRU軟件預(yù)測(cè)植物microRNA的靶位點(diǎn)步驟為分別輸入 水稻的microRNA和水稻基因組數(shù)據(jù),選擇miRU軟件的默認(rèn)參數(shù),然后對(duì)水稻microRNA的 基因靶位點(diǎn)進(jìn)行預(yù)測(cè);分別輸入擬南芥的microRNA和擬南芥基因組數(shù)據(jù),選擇miRU軟件的 默認(rèn)參數(shù),然后對(duì)擬南芥microRNA的基因靶位點(diǎn)進(jìn)行預(yù)測(cè)。
5.如權(quán)利要求1所述的一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè) 的方法,其特征在于,所述的收集PARE信號(hào)數(shù)據(jù)步驟為PARE信號(hào)數(shù)據(jù)來(lái)自NGSD的10個(gè) 數(shù)據(jù)集和Yongfang Li的1個(gè)數(shù)據(jù)集,原數(shù)據(jù)進(jìn)行歸一化處理。
6.如權(quán)利要求1所述的一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè) 的方法,其特征在于,所述的建立PmiPKB數(shù)據(jù)庫(kù)的“MiR-Tar”模塊步驟為用SVG圖形表示 microRNA基因附近的PARE信號(hào)數(shù)據(jù)。圖示的范圍為microRNA前體基因組坐標(biāo)左右共一萬(wàn) 堿基對(duì),數(shù)據(jù)集縱向排列,方便用戶(hù)進(jìn)行比較。
7.如權(quán)利要求1所述的一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè) 的方法,其特征在于,所述的利用PARE信號(hào)數(shù)據(jù)驗(yàn)證植物microRNA靶位互作關(guān)系步驟為 使用PmiRKB數(shù)據(jù)庫(kù)中的“MiR-Tar”模塊,圖形化輸出含PARE信號(hào)數(shù)據(jù)的全部靶位點(diǎn)互作 關(guān)系,共計(jì)8253對(duì),再進(jìn)行人工篩選校正,最終獲得3077對(duì)可靠性較高的microRNA靶位互 作關(guān)系。
8.如權(quán)利要求1所述的一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè) 的方法,其特征在于,所述的預(yù)測(cè)植物microRNA靶位互作網(wǎng)絡(luò)步驟為將獲得的3077對(duì)可 靠性較高的microRNA靶位互作關(guān)系存儲(chǔ)到以tab鍵分隔的文本文件中,利用NeAT將該文 本文件轉(zhuǎn)化為通用的GML網(wǎng)絡(luò)格式文件,使用yED網(wǎng)絡(luò)可視化工具對(duì)這3077對(duì)microRNA靶位互作關(guān)系進(jìn)行可視化處理,構(gòu)建出植物microRNA靶位互作網(wǎng)絡(luò)。
全文摘要
本發(fā)明公開(kāi)了一種基于下一代測(cè)序數(shù)據(jù)的植物microRNA靶位互作網(wǎng)絡(luò)預(yù)測(cè)的方法。它包括如下步驟1)收集植物microRNA和基因組數(shù)據(jù);2)處理植物microRNA數(shù)據(jù);3)使用miRU預(yù)測(cè)植物microRNA的靶位點(diǎn);4)收集PARE信號(hào)數(shù)據(jù);5)建立PmiPKB數(shù)據(jù)庫(kù)的“MiR-Tar”模塊;6)利用PARE信號(hào)數(shù)據(jù)驗(yàn)證植物microRNA靶位互作關(guān)系;7)構(gòu)建植物microRNA靶位互作網(wǎng)絡(luò)。本發(fā)明整合了水稻、擬南芥的RNA末端并行分析數(shù)據(jù),提供了映射到靶基因mRNA與microRNA結(jié)合位點(diǎn)附近的PARE信號(hào)信息,可用于鑒別預(yù)測(cè)的microRNA-target mRNA之間是否存在真實(shí)的切割調(diào)控關(guān)系;來(lái)自不同組織材料的PARE數(shù)據(jù)集間可以進(jìn)行比較以揭示這種調(diào)控關(guān)系的組織特異性。對(duì)水稻和擬南芥現(xiàn)有microRNA靶位互作網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),并人工進(jìn)一步篩選得到最終網(wǎng)絡(luò)模型,具有相當(dāng)高的可靠性。
文檔編號(hào)C12Q1/68GK101976296SQ20101028168
公開(kāi)日2011年2月16日 申請(qǐng)日期2010年9月10日 優(yōu)先權(quán)日2010年9月10日
發(fā)明者克里斯汀·克魯卡斯, 孟一君, 白琳, 茍凌峰, 陳迪俊, 陳銘, 黃冬林 申請(qǐng)人:浙江大學(xué)