專利名稱:亞洲玉米螟不同發(fā)育時期表達基因標簽庫及差異表達基因的制作方法
技術領域:
本發(fā)明屬于生物技術領域;更具體地,本發(fā)明涉及亞洲玉米螟不同發(fā)育時期表達基因標簽庫及差異表達基因的獲得方法。
背景技術:
亞洲玉米螟(Ostrinia furnacalis Guen6e)是重要世界性農業(yè)害蟲,主要危害玉米、高粱、向日葵等重要的糧食經濟作物,目前對亞洲玉米螟的防治,仍然是以化學防治為主,對生態(tài)環(huán)境及糧食安全生產造成了巨大的損害,而利用抗蟲育種的方法雖然能很好地降低生態(tài)壓力,但是其育種周期長和植物抗性單一,容易產生害蟲抗性,利用分子育種抗蟲的方法是目前較好的解決方案。而目前玉米螟基因信息十分匱乏,對分子機制的研究較少, 使得玉米螟基因層面的研究進展緩慢。因為沒有該物種的全基因組序列,一直以來對于該物種的研究還處于傳統(tǒng)生物學的階段,而分子生物學層面的研究相對較少,主要是基于近源物種的相似基因進行研究。對于缺乏基因組序列的物種,新基因的發(fā)現(xiàn)和功能研究一直是困擾生物學家研究的主要問題,傳統(tǒng)的基因發(fā)掘的方法一般利用構建文庫,SAGE技術,MPSS技術,或者基因組測序的方法獲得,然而這些方法一般均存在成本高,工作量大,獲得大量的雜質序列,而且在無參考基因組的情況下很難剔除冗余序列,這些問題嚴重影響了對動植物基因組水平的研究。因此,需要找到合適的發(fā)掘亞洲玉米螟基因及其在不同發(fā)育時期表達量的方法, 以期了解盡可能多的亞洲玉米螟基因及其表達量信息,為從分子生物學層面開發(fā)防治亞洲玉米螟的技術提供有效途徑。
發(fā)明內容
本發(fā)明的目的在于提供獲得亞洲玉米螟的基因表達譜的方法和亞洲玉米螟4個發(fā)育時期的基因表達標簽及其對應的表達量。在本發(fā)明的第一方面,提供一種獲得亞洲玉米螟的基因表達譜的方法,包括(Si)獲得亞洲玉米螟某一發(fā)育時期的數(shù)字基因表達譜(Digital GeneExpression-tag Profile ;DGE-tag),其中包括基因表達標簽(Tag)的序列及豐度;(S2)對(Si)獲得的基因表達標簽進行生物信息學分析,從而得知該標簽對應的基因、其潛在的功能、其表達量或表達模式。在一個優(yōu)選例中,所述的發(fā)育時期包括(但不限于)卵期、幼蟲期、蛹期、成蟲期。在另一優(yōu)選例中,步驟(Si)包括(al)提取亞洲玉米螟的總RNA,分離出mRNA,反轉錄并合成雙鏈cDNA,利用內切酶 NlaIII切斷雙鏈cDNA,連接帶有Mmel酶識別位點的接頭,然后用Mmel酶切獲得帶有CATG 位點的長度為21bp的片段;(bl)利用Illumina平臺合成基因表達標簽庫并進行測序,選擇長度為21bp且拷貝數(shù)高于1的標簽;(cl)統(tǒng)計(bl)獲得的每個基因表達標簽的豐度(表達量)在另一優(yōu)選例中,步驟(S2)中,所述的生物信息學分析包括(但不限于)基因注釋、標準化;差異基因篩選。在另一優(yōu)選例中,所述的差異表達基因篩選包括表達模式聚類分析,GO功能顯著性富集分析,Pathway顯著性富集分析。在另一優(yōu)選例中,所述的基因注釋、標準化之前或其間還包括Tag表達量即分布分析、測序飽和度分析、實驗重復性分析,共有、特有、差異Tag分析。在另一優(yōu)選例中,所述的差異基因篩選之前或其間還包括基因表達量統(tǒng)計,反義鏈的轉錄分析。本發(fā)明的其它方面由于本文的公開內容,對本領域的技術人員而言是顯而易見的。
圖1、DGE-tag試驗方法的流程示意圖。圖2、DGE-tag的數(shù)據(jù)分析流程示意圖。
具體實施例方式針對目前難以從無基因組參考序列的物種中獲得基因信息的技術難題,本發(fā)明人經過廣泛而深入的研究,首次利用DGE-tag技術發(fā)掘到很多亞洲玉米螟不同發(fā)育時期的基因信息、基因功能和表達情況。DGE-tag 技術數(shù)字基因表達譜(DigitalGene Expression Tag Profile,DGE-tag)是基于第二代測序技術的全基因組表達譜技術,以3’末端21bp的Tag-seq標記特異表達的基因。利用高通量測序技術得到數(shù)百萬個基因的特異標簽,并以Tag-seq重復次數(shù)標示該基因的表達量,而數(shù)字的序列信號可以準確、特異地反映對應基因的真實表達情況。這種技術可以快速、全面、高通量檢測特定組織或不同狀態(tài)下的基因表達水平、及樣品間基因表達差異等信息。由于序列無需事先設計,DGE數(shù)據(jù)具有極佳的實時性,可以覆蓋到許多未曾注釋的基因, 更加全面、準確地把握全基因組的基因表達情況,為新基因的發(fā)現(xiàn)提供了良好的線索。然而,由于DGE-tag技術獲得的標簽序列只有21bp,基于該短序列來獲得全長基因還需要復雜的分析步驟,在對其進行基因注釋的時候可能會造成缺失或錯配,為此本發(fā)明人建議可同時進行RNA-seq技術來獲得更長的序列,作為本發(fā)明的補充。所述的DGE-tag主要包含以下步驟樣品總RNA的提取(包括需對總RNA提取進行純化,DNA酶處理,得到純度、質量均能符合要求的樣品(須達到Agilent 2100檢測要求));mRNA的分離及cDNA的合成;Tag制備及測序(利用第二代測序技術獲得Tag-seq); 以及生物信息學分析,例如包括測序評估,基因表達注釋,差異表達基因的篩選,反義鏈的轉錄分析,差異基因表達模式聚類分析,Gene Ontology功能顯著性富集分析,Pathway顯著性富集分析。通過以上方法,快速高效地獲得最大化的tag信息,篩選靶標基因,鑒定存在于待測物種不同發(fā)育時期的不同轉錄本并預測其功能。作為本發(fā)明的優(yōu)選實施方式,將所述的DGE-tag方法首次運用于亞洲玉米螟的研究當中。利用DGE-tag技術,從亞洲玉米螟變態(tài)發(fā)育入手,得到四個發(fā)育時期(卵期、幼蟲期、蛹期、成蟲期)的全基因組表達譜,并對得到的所有信息進行生物信息學分析,篩選差異表達基因,分析功能基因,并預測可能的功能基因調控途徑。采用所述的DGE-tag的方法,首次獲得了亞洲玉米螟卵、幼蟲、蛹、成蟲四個發(fā)育時期的320985個Tag-seq序列;四個發(fā)育時期得到注釋的標簽數(shù)分別為31504、33081、 33340和37352個。采用本發(fā)明的方法,在對亞洲玉米螟所有DGE-tag進行功能注釋后, 獲得共35779個功能基因的注釋,包括卵期8415個、幼蟲期7988個、蛹期9123個、成蟲期 10253個功能基因。獲得的信息包括基因名稱、注釋信息、GO功能預測、Blast nr、基因對應的Tag序列、拷貝數(shù)和標準化值。采用所述的DGE-tag的方法,優(yōu)點如下(1)高通量獲得了待測物種(如亞洲玉米螟)各發(fā)育時期全基因組表達譜,通過對標簽序列的統(tǒng)計分析來確定基因表達時期及豐度;(2)快速、低成本、高通量、高時效地得到待測物種(如亞洲玉米螟)的靶標基因信息;(3)獲得了大量待測物種(如亞洲玉米螟)不同發(fā)育時期的差異表達基因及反義鏈調控基因;(4)獲得大量的待測物種(如亞洲玉米螟)基因功能信息及其參與代謝通路的信息,為進一步的研究提供參考信息。下面結合具體實施例,進一步闡述本發(fā)明。應理解,這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。下列實施例中未注明具體條件的實驗方法,通常按照常規(guī)條件如 Sambrook 等人,分子克隆實驗室指南(New York Co Id Spring Harbor Laboratory Press, 1989)中所述的條件,或按照制造廠商所建議的條件。除非另外說明,否則百分比和份數(shù)按重量計算。除非另行定義,文中所使用的所有專業(yè)與科學用語與本領域熟練人員所熟悉的意義相同。此外,任何與所記載內容相似或均等的方法及材料皆可應用于本發(fā)明中。文中所述的較佳實施方法與材料僅作示范之用。實施例1、獲得DGE-tag以亞洲玉米螟的DGE-tag分析為例,方法步驟如下,簡明的實驗流程見圖1和圖 2。1.亞洲玉米螟總RNA的提取采用常規(guī)Trizol法提取,常規(guī)方法純化,DNA酶處理,獲得濃度彡300ng/ul、總量彡 6ug、0D260/280 為 1. 8 2. 2 的 Total RNA 樣品(須達到 Agilent 2100 檢測要求)。2. mRNA的分離及cDNA的合成用帶有oligo-dT的磁珠分離出帶有polyA的mRNA,然后用隨機6聚物和 Invitrogen 白勺 Superscript II reverse transcriptase i式齊[J盒合成 cDNA 第一鏈。cDNA 第二鏈是用 RNase H(Invitrogen)和 DNA 聚合酶 I (New England BioLabs)完成。3. Tag的制備及測序
利用合成好的雙鏈cDNA,本發(fā)明人使用NlaIII,它識別并切斷cDNA上的 CATG位點,利用磁珠沉淀純化帶有cDNA 3’端的片段,將其5’末端連接Illumina接頭 1(5 ‘ P-TCGGACTGTAGAACTCTGAAC(SEQ ID NO 6) ;5 ‘ ACAGGTTCAGAGTTCTACAGTCCGAC ATG(SEQ ID NO :7))。Illumina接頭1與CATG位點的結合處是MmeI的識別位點,MmeI 是一種識別位點與酶切位點分離的內切酶,酶切CATG位點下游17bp處,這樣就產生了帶有接頭1的Tag。通過磁珠沉淀去除3’片段后,在Tag 3’末端連接Illumina接頭 2(5' CAAGCAGAAGACGGCATACGANN(SEQ ID NO 8) ;5' P-TCGTATGCCGTCTTCTGCTTG(SEQ ID NO :9)),從而獲得兩端連有不同接頭序列的21bp標簽文庫。經過15個循環(huán)的PCR線性擴增后,通過6% TBE PAGE膠電泳純化85堿基條帶,解鏈后,單鏈分子被加到Solexa測序芯片(flowcell)上并固定,每條分子經過原位擴增成為一個單分子簇(cluster)測序模板, 加入4色熒光標記的4種核苷酸,采用邊合成邊測序法(sequencing by synthesis, SBS) 測序。每個通道將產生數(shù)百萬條原始Read,Read的測序讀長為35bp。4.數(shù)據(jù)分 析 分析流程如圖2所示,具體如下(a)對原始數(shù)據(jù)進行基本處理,得到高質量的Tag序列原始序列帶有一段 3'adaptor序列,含有未知堿基N的Tag,不符合2Int的過長或過短的Tag以及拷貝數(shù)為1 的Tag等,利用相應的識別軟件進行處理,去除這些雜質序列后得到的是Clean Tag。(b)通過統(tǒng)計每個Clean Tag序列的數(shù)量,得到該Tag標簽對應基因的表達量將雜質成份去除后得到的Clean Tag,其中Tag的拷貝數(shù)反映了相應基因的表達量。實施例2、DGE-tag分析DGE-tag分析接續(xù)實施例1,繼續(xù)進行以下步驟(c)對Tag進行注釋,建立Tag和基因的對應關系由于亞洲玉米螟沒有參考基因數(shù)據(jù),本發(fā)明人參考同時完成的亞洲玉米螟RNA-seq數(shù)據(jù),利用軟件檢索亞洲玉米螟RNA-seq數(shù)據(jù)中所有的CATG位點,生成CATG+17nt堿基的參考標簽數(shù)據(jù)庫。然后將全部Clean Tag與參考標簽數(shù)據(jù)庫比對,允許最多一個堿基錯配,對其中唯一比對到一個基因的標簽(Unambiguous Tags)進行基因注釋,統(tǒng)計每個基因對應的原始Clean Tag數(shù), 然后對原始Clean Tag數(shù)做標準化處理,獲得標準化的基因表達量,從而更準確、科學地衡量基因的表達水平。標準化方法為每個基因包含的原始Clean Tags數(shù)/該樣本中總 clean Tags 數(shù) X 1,000,000 (參見,t Hoen, P. A.,Y. Ariyurek, et al. (2008). “ Deep sequencing-basedexpression analysis shows major advances in robustness, resolution and inter-labportability over five microarray platforms. " Nucleic Acids Res 36(21) :el41 ;Morrissy, A. S. , R. D. Morin, et al. (2009). “ Next-generation tag sequencing forcancer gene expression profiling. " Genome Res.)。(d)基因在樣品間差異表達分析參照Audic S.等人發(fā)表的數(shù)字化基因表達譜差異基因檢測方法(Audic, S. and J. Μ. Claverie (1997). “ The significance ofdigital gene expression profiles. " Genome Res 7(10) :986_95),篩選兩樣本間的差異表達基因。(e)基因在正義鏈和反義鏈上表達量間的關系Sense-antisense是基因表達調控的一種重要方式。如果測序標簽能比對到基因的反義鏈,則暗示該基因的反義鏈也包含轉錄本,該基因可能存在sense-antisense調控方式(參見’ t Hoen, P. A.,Y. Ariyurek, et al. (2008). “ Deep sequencing-based expression analysis showsmajor advances in robustness, resolution and inter-lab portability over fivemicroarray platforms. “ Nucleic Acids Res 36(21) :el41)。(f)差異表達基因的聚類分析表達模式相似的基因通常具有相似的功能。本發(fā)明人利用 cluster 軟件(Eisen, M. B.,P. T. Spellman, et al. (1998) · “ Cluster analysis and display of genome-wide expression patterns. " Proc Natl Acad Sci U SA 95(25) :14863-8),以歐氏距離為距離距陣計算公式,對差異表達基因和實驗條件同時進行等級聚類分析,聚類結果用JavaTreeview顯示(參見Saldanha, A. J. (2004). ‘‘ Java Treeview__extensible visualization of microarray data. " Bioinformatics 20 (17) 3246-8)。以每列代表一個實驗條件,每行代表一個基因,不同表達變化倍數(shù)用不同顏色表示,紅色表示表達上調,綠色表示表達下調。(g)Gene Ontology(GO)功能顯著性富集分析G0總共有三個ontology (本體), 分別描述基因的分子功能(molecular function)、所處的細胞位置(eellularcomponent)、 參與的生物過程(biological process)。GO的基本單位是term(詞條、節(jié)點),每個term 都對應一個屬性。GO功能顯著性富集分析首先把所有差異表達基因向Gene Ontology數(shù)據(jù)庫(http://www. geneontology. org/)的各term映射,計算每個term的基因數(shù)目,然后應用超幾何檢驗,找出與整個基因組背景相比,在差異表達基因中顯著富集的GO條目。Pattway顯著性富集分析在生物體內,不同基因相互協(xié)調行使其生物學,基于 Pathway的分析有助于更進一步了解基因的生物學功能。KEGG是有關I^ttway的主要公共數(shù)據(jù)庫(Kanehisa,M.,M. Araki,et al. (2008). “ KEGG forlinking genomes to life and the environment. “Nucleic Acids Res 36 (Databaseissue) :D480-4) ,PathwayM^ftg 集分析以KEGG Pattway為單位,應用超幾何檢驗,找出與整個基因組背景相比,在差異表達基因中顯著性富集的I^ttway。通過I^ttway顯著性富集確定差異表達基因參與的最主要生化代謝途徑和信號轉導途徑。實施例3、DGE-tag分析結果采用本發(fā)明的方法,獲得了亞洲玉米螟卵、幼蟲、蛹、成蟲四個發(fā)育時期的320985 個Tag-seq序列;四個發(fā)育時期得到注釋的標簽數(shù)分別為31504、33081、33340和37352個。 采用本發(fā)明的方法,在對亞洲玉米螟所有DGE-tag進行功能注釋后,獲得共35779個功能基因的注釋,包括卵期8415個、幼蟲期7988個、蛹期9123個、成蟲期10253個功能基因。表1中列舉了幾個Tag-seq序列及其在4個發(fā)育時期的表達量。表1.某一個時期表達量超過1萬次的Tag-seq
Tag-seq卵期幼蟲期蛹期成蟲期CATGGACTCCGCCGAGGGAGA (SEQ ID NO 1)212001530187764798CATGTGACTCTTAACACTATA (SEQ ID NO 2)18714003136CATGGATTACATGTAATAATT (SEQ ID NO 3)16884146401054411967CATGTACATCGCAATTTGGCT (SEQ ID NO 4)13213000CATGGGCACGCTCAAGAAGGA (SEQ ID NO 5)118881532675735850 通過分析,部分可以確定其潛在功能,表2列舉了幾個標簽的序列,這些標簽所對應基因在四個不同發(fā)育時期的表達量以及對應的的基因功能等。
7
表2.利用Tag-seq比對到的基因及其功能
權利要求
1.一種獲得亞洲玉米螟(Ostrinia furnacalis Guenee)的基因表達譜的方法,包括(51)獲得亞洲玉米螟某一發(fā)育時期的數(shù)字基因表達譜,其中包括基因表達標簽的序列及豐度;(52)對(Si)獲得的基因表達標簽進行生物信息學分析,從而得知該標簽對應的基因、 其潛在的功能、其表達量或表達模式。
2.如權利要求1所述的方法,其特征在于,所述的發(fā)育時期包括卵期、幼蟲期、蛹期、 成蟲期。
3.如權利要求1所述的方法,其特征在于,步驟(Si)包括(al)提取亞洲玉米螟的總RNA,分離出mRNA,反轉錄并合成雙鏈cDNA,利用內切酶 NlaIII切斷雙鏈cDNA,連接帶有Mmel酶識別位點的接頭,然后用Mmel酶切獲得帶有CATG 位點的長度為21bp的片段;(bl)利用Illumina平臺合成基因表達標簽庫并進行測序,選擇長度為21bp且拷貝數(shù)高于1的標簽;(cl)統(tǒng)計(bl)獲得的每個基因表達標簽的豐度。
4.如權利要求1所述的方法,其特征在于,步驟(S2)中,所述的生物信息學分析包括基因注釋、標準化;差異基因篩選。
5.如權利要求4所述的方法,其特征在于,所述的差異表達基因篩選包括表達模式聚類分析,GO功能顯著性富集分析,Pathway顯著性富集分析。
6.如權利要求4所述的方法,其特征在于,所述的基因注釋、標準化之前或其間還包括 Tag表達量即分布分析、測序飽和度分析、實驗重復性分析,共有、特有、差異Tag分析。
7.如權利要求4所述的方法,其特征在于,所述的差異基因篩選之前或其間還包括基因表達量統(tǒng)計,反義鏈的轉錄分析。
全文摘要
本發(fā)明涉及亞洲玉米螟不同發(fā)育時期表達基因標簽庫及差異表達基因,以及它們的獲得方法。本發(fā)明的方法用于從無基因組參考序列的物種中獲得基因表達時期、基因在不同時期的表達量及不同時期間差異表達的信息,所述方法方便、快捷、準確且成本低廉。
文檔編號C12Q1/68GK102277415SQ201010197338
公開日2011年12月14日 申請日期2010年6月10日 優(yōu)先權日2010年6月10日
發(fā)明者張 浩, 李海超, 王玉冰, 苗雪霞, 黃勇平 申請人:中國科學院上海生命科學研究院