專利名稱:一種分析基因表達(dá)定量的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及核酸測(cè)序技術(shù)領(lǐng)域,特別是RNA-Seq技術(shù)領(lǐng)域以及測(cè)序后信息分析的方法。
背景技術(shù):
目前,基因表達(dá)定量研究領(lǐng)域主要有兩 種技術(shù)傳統(tǒng)的芯片技術(shù)和測(cè)序技術(shù)。其中,芯片技術(shù)通量高,自動(dòng)化,成本低,但是芯片技術(shù)依賴于已知基因,信號(hào)噪音高,重復(fù)性差,檢測(cè)閾值窄;測(cè)序技術(shù)又分為SAGE,數(shù)字基因表達(dá)譜(Digital Gene Expression, DGE) 和數(shù)字基因表達(dá)譜升級(jí)版RNA-Seq(Quantification)技術(shù),其中,SAGE技術(shù)測(cè)序準(zhǔn)確,但操作繁瑣,測(cè)序成本高?;诘诙咄繙y(cè)序平臺(tái)的DGE和RNA-Seq技術(shù)克服了芯片技術(shù)和SAGE技術(shù)的缺點(diǎn),它們通量高,自動(dòng)化,測(cè)序成本低,噪音小,不依賴于已知基因,檢測(cè)閾值寬。
但是DGE由于實(shí)驗(yàn)本身的局限性,導(dǎo)致了該項(xiàng)技術(shù)不能夠檢測(cè)到不含CATG位點(diǎn)的基因,并且DGE技術(shù)在研究基因表達(dá)定量時(shí)對(duì)參考基因的依賴性很強(qiáng),對(duì)于一些非模式生物的定量分析也存在一定的局限性。
以illumina測(cè)序平臺(tái)為代表的第二代高通量測(cè)序技術(shù)不僅節(jié)省了大量的人力和物力,而且還具有測(cè)序通量高、準(zhǔn)確度高和成本低的眾多優(yōu)點(diǎn)。目前該平臺(tái)已經(jīng)廣泛應(yīng)用于全基因組測(cè)序,新物種測(cè)序,目標(biāo)基因組測(cè)序,轉(zhuǎn)錄組和表觀遺傳分析等領(lǐng)域。
隨著第二代高通量illumina測(cè)序平臺(tái)的廣泛應(yīng)用,多物種基因組測(cè)序和全基因組研究的大規(guī)模開展,降低測(cè)序成本,減少測(cè)序流程,提高勞動(dòng)效率成為測(cè)序技術(shù)的一個(gè)重要研究方向。而基于illumina測(cè)序平臺(tái)RNA_seq的基因表達(dá)分析存在步驟多,成本高,操作過程繁瑣,不適合用于自動(dòng)化工作站等缺點(diǎn)。發(fā)明內(nèi)容
本發(fā)明的一個(gè)方面提供了一種分析基因表達(dá)定量的方法,包括(1)從總RNA中純化mRNA,制備片段化mRNA;(2)將所述片段化mRNA逆轉(zhuǎn)錄制備得到cDNA,將所述cDNA純化后制備為平末端DNA, 純化平末端DNA ;(3)將所述平末端DNA的末端加“A”堿基,得到末端加“A”堿基的DNA;(4)在末端加“A”堿基的DNA兩端加接頭序列,純化兩端加接頭序列的DNA進(jìn)行PCR反應(yīng),純化PCR反應(yīng)產(chǎn)物;(5)對(duì)所述PCR反應(yīng)產(chǎn)物測(cè)序;(6)將測(cè)序得到的數(shù)據(jù)過濾不合格序列得到干凈序列,將所述干凈序列與參考序列比對(duì),對(duì)比對(duì)結(jié)果進(jìn)行分析。
在本發(fā)明的一個(gè)實(shí)施方案中,所述的總RNA的選取量為O.1 μ g 2μ g。
在本發(fā)明的一個(gè)實(shí)施方案中,使用Invitrogen公司生產(chǎn)的Oligo (dT)25(產(chǎn)品號(hào)610. 06)磁珠從總RNA中純化mRNA。
在本發(fā)明的一個(gè)實(shí)施方案中,使用Beckman公司生產(chǎn)的Ampure XP磁珠(產(chǎn)品號(hào) A63882)純化所述cDNA、兩端加接頭的DNA片段、PCR反應(yīng)產(chǎn)物。
在本發(fā)明的一個(gè)實(shí)施方案中,使用試劑I制備片段化mRNA,所述試劑I含有 10-400mM可溶性鹽,200mM-300mM緩沖鹽,pH 8. 0-8. 5,溶劑為水;優(yōu)選地,試劑I中緩沖鹽選自Tris-HCl、磷酸鹽。優(yōu)選地,試劑I中可溶性鹽選自氯化鈉,氯化鎂。優(yōu)選地,mRNA與試劑I混合溫度為65V 94°C。
在本發(fā)明的一個(gè)實(shí)施方案中,使用試劑II對(duì)cDNA進(jìn)行末端修復(fù),得到平末端 DNA,所述試劑II含有1.2uLT4 DNA聚合酶(3U/^L),1. 2uLT4多聚核苷酸激酶(10U/ μ ,Ο. 2ulKlenow DNA聚合酶(5U/^L),O. 4uL 25mM dNTP ;T4多聚核苷酸激酶緩沖液含有 700 mM Tris-HCl,100 mM 氯化鎂,50 mM DTT。
在本發(fā)明的一個(gè)實(shí)施方案中,使用試劑III對(duì)所述平末端DNA的末端加“A”堿基, 所述試劑含有100 mM -500mM可溶性鹽,100 mM緩沖鹽,IOmM -50mM 二硫蘇糖醇,5mM dATP,0. 2μ L Klenow(3 ' -5 ' exo)酶(5U/^L),ρΗ7· 6-7. 9,溶劑是水。優(yōu)選地,試劑III中緩沖鹽選自Tris-HCl、磷酸鹽。優(yōu)選地,試劑III中可溶性鹽為氯化鈉。優(yōu)選地,樣品與試劑 III混合溫度為16°C -37°C。
在本發(fā)明的一個(gè)實(shí)施方案中,使用試劑IV在末端加“A”堿基的DNA兩端加接頭序列,所述試劑IV含有,100 mM緩沖鹽溶液,IOmM 50mM 二硫蘇糖醇,5 IOmM ATP,1.2μ Τ4 DNA連接酶,pH值為7. 6 7. 9,溶劑是水。優(yōu)選地,緩沖鹽溶液為Tris-HCl、磷酸鹽緩沖溶液。
在本發(fā)明的一個(gè)實(shí)施方案中,在對(duì)所述PCR產(chǎn)物測(cè)序前還包括步驟采用Agilent Bioanalyzer 2100和Q-PCR檢測(cè)DNA濃度及DNA片段大小。
在本發(fā)明的一個(gè)實(shí)施方案中,所述測(cè)序使用高通量測(cè)序技術(shù)。優(yōu)選地,使用 illumina solexa 測(cè)序技術(shù)。
在本發(fā)明的一個(gè)實(shí)施方案中,所述不合格序列包括測(cè)序質(zhì)量低于預(yù)定閾值的堿基個(gè)數(shù)超過整條序列堿基個(gè)數(shù)的50%的序列,序列中測(cè)序結(jié)果不確定的堿基個(gè)數(shù)超過整條序列堿基個(gè)數(shù)的10%的序列;除樣本接頭序列外引入的外源序列。
在本發(fā)明的一個(gè)實(shí)施方案中,所述比對(duì)使用SOAPaligner/soap2。
在本發(fā)明的一個(gè)實(shí)施方案中,所述對(duì)比對(duì)結(jié)果進(jìn)行分析包括高通量測(cè)序的質(zhì)量評(píng)估,基因表達(dá)量的統(tǒng)計(jì),差異表達(dá)基因篩選,實(shí)驗(yàn)重復(fù)性分析,差異基因表達(dá)模式聚類分析,Gene Ontology (GO)功能顯著性富集分析,通路(Pathway)顯著性富集分析,蛋白相互作用網(wǎng)絡(luò)分析。
應(yīng)用于基因表達(dá)定量研究克服了 DGE技術(shù)對(duì)CATG位點(diǎn)和參考基因完整性依賴性很強(qiáng)的缺點(diǎn)同時(shí)也克服了芯片技術(shù)檢測(cè)閾值窄,噪音污染大等缺點(diǎn)。從而真正地達(dá)到定量準(zhǔn)、可重復(fù)性高、費(fèi)用低、檢測(cè)閾值寬、信號(hào)噪音小等優(yōu)點(diǎn)。
圖1示出本發(fā)明文庫構(gòu)建流程圖;圖2示出本發(fā)明的信息分析流程圖;圖3示出圖2所示應(yīng)用例中樣本一 Reads在參考基因組chrlO上的分布圖;圖4示出圖2所示應(yīng)用例中兩次平行實(shí)驗(yàn)的結(jié)果相關(guān)性分析結(jié)果圖;圖5示出圖2所示應(yīng)用例中樣本一測(cè)序reads在基因上的分布圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。實(shí)施例中未注明具體條件者,按照常規(guī)條件或制造商建議的條件進(jìn)行。所用試劑或儀器未注明生產(chǎn)廠商者,均為可以通過市購獲得的常規(guī)產(chǎn)品。
實(shí)施例兩個(gè)人體組織樣本的RNA-seq分析組織樣本由北京大學(xué)提供。文庫構(gòu)建過程如圖1所示。取O.1 μ g 2 μ g的總RNA樣品, 用脫氧核糖核酸酶I (DnaseI)進(jìn)行消化,乙醇沉淀純化消化后產(chǎn)物,使用Oligo (虹)25磁珠將所得總RNA中的mRNA調(diào)取出來并純化,將所得mRNA與試劑I混勻反應(yīng),得到片段化的 mRNA,所得mRNA與試劑I混勻反應(yīng)得到的片段化的mRNA,經(jīng)反轉(zhuǎn)錄合成cDNA,使用Ampure XP磁珠純化產(chǎn)物,所得cDNA與試劑II混勻反應(yīng),形成平末端的DNA片段,使用Ampure XP磁珠純化產(chǎn)物,所得平末端DNA片段與試劑III混勻反應(yīng),得到3 '端加上一個(gè)“A”堿基的DNA 片段,與試劑IV混勻反應(yīng),得到兩端加接頭的DNA片段,使用Ampure XP磁珠純化產(chǎn)物,采用聚合酶鏈?zhǔn)椒磻?yīng)(PCR)擴(kuò)增所得DNA片段,Ampu re XP磁珠純化PCR產(chǎn)物,上機(jī)測(cè)序。測(cè)序使用 Illumina Hiseq2000。
試劑I 為10-400mM 氯化鎂,200mM-300mM Tris-HCl, pH 8. 0-8. 5,溶劑為水。
試劑II為1. 2uLT4 DNA聚合酶(3U/^L),1. 2uLT4多聚核苷酸激酶(IOU/ μ ,Ο. 2ulKlenow DNA聚合酶(5U/^L),O. 4uL 25mM dNTP ;T4多聚核苷酸激酶緩沖液含有 700 mM Tris-HCl, 100 mM 氯化鎂,50 mM DTT。
試劑III為100mM -500mM 氯化鈉,100 mM Tris-HCl, IOmM -50mM 二硫蘇糖醇, 5mM dATP,0. 2μ L Klenow(3 ; -5 ; exo)酶(5U/^L),ρΗ7· 6-7. 9,溶劑是水。
試劑IV為100mM Tris-HCl, IOmM 50mM 二硫蘇糖醇,5 IOmM ATP,1. 2μ Τ4 DNA連接酶,pH值為7. 6 7. 9,溶劑是水。
圖2示出了本發(fā)明實(shí)施例提供的數(shù)字基因表達(dá)譜升級(jí)版 RNA-Seq (Quantification)生物信息學(xué)分析方法的實(shí)現(xiàn)流程,詳述如下在步驟SI中,接收高通量測(cè)序技術(shù)得到的測(cè)序片段。在本發(fā)明實(shí)施例中,采用 Illumina Hiseq2000測(cè)序。接收到原始測(cè)序序列后,對(duì)原始測(cè)序序列進(jìn)行過濾,去除不合格的序列。不合格序列包括測(cè)序質(zhì)量值低于5的堿基個(gè)數(shù)超過整條序列堿基個(gè)數(shù)的50%則認(rèn)為是不合格序列;序列中測(cè)序結(jié)果中測(cè)序結(jié)果不確定的堿基個(gè)數(shù)超過整條序列堿基個(gè)數(shù)的10%則認(rèn)為是不合格序列;與測(cè)序接頭序列庫進(jìn)行比對(duì),若序列中存在測(cè)序接頭序列則認(rèn)為是不合格序列。
在步驟S2中,將每個(gè)序列中樣本接頭序列與樣本接頭序列庫進(jìn)行比對(duì),實(shí)現(xiàn)分樣本操作,同時(shí)將樣本接頭序列從序列片段中去除。將接頭序列(本實(shí)施例為8bp)中有測(cè)序質(zhì)量低于5的堿基個(gè)數(shù)大于3個(gè)的序列去除。
在步驟S3中,本發(fā)明實(shí)施例采用S0APaligner/soap2,將高通量測(cè)序技術(shù)得到的測(cè)序片段比對(duì)到參考基因組序列上。
在步驟S4中,本發(fā)明實(shí)施例主要是以圖形的方式概括地給出Reads在基因組各個(gè)位置大致的分布情況,以及該位置基因的分布情況。如圖3畫出Reads在最長(zhǎng)的I條染色體 (或Scaffold)上的分布圖,樣本一 Reads在參考基因組chrlO上的分布。其中Gene指每個(gè)窗口中g(shù)ene的個(gè)數(shù),Coverage指每個(gè)窗口下被reads覆蓋的區(qū)域與窗口長(zhǎng)度之比,Reads 指每個(gè)窗口的平均測(cè)序深度,數(shù)值取了 log2。
在步驟S5中,是用來衡量樣品的測(cè)序量多少的標(biāo)準(zhǔn),隨著測(cè)序量(reads數(shù)量)的增多,檢測(cè)到的基因數(shù)也隨之上升,當(dāng)測(cè)序量達(dá)到某個(gè)值時(shí),其檢測(cè)到的基因數(shù)增長(zhǎng)速度趨于平緩,說明檢測(cè)到的基因數(shù)趨于飽和。
在步驟S6中,本發(fā)明用RPKM法計(jì)算基因的表達(dá)量,其計(jì)算公式為O
公式中,RPKM(A)為基因A的表達(dá)量,則C為唯一比對(duì)到基因A的reads數(shù),N為唯一比對(duì)到參考基因的總reads數(shù),L為基因A的堿基數(shù)。RPKM法能消除基因長(zhǎng)度和測(cè)序量差異對(duì)計(jì)算基因表達(dá)的影響,計(jì)算得到的基因表達(dá)量可直接用于比較不同樣品間的基因表達(dá)差異。
然后,本發(fā)明根據(jù)國(guó)際標(biāo)準(zhǔn)化的基因功能分類體系Gene Ontology全面描述基因的屬性,其中包括基因的分子功能(molec μ Lar function)、所處的細(xì)胞位置(cell μ Lar component)、參與的生物過程(biological process)。
在步驟S7中,本發(fā)明通過比較不同樣本間的數(shù)據(jù)從而篩選出差異表達(dá)的基因,后續(xù)分析中的差異基因表達(dá)模式聚類分析,Gene Ontology功能顯著性富集分析,Pathway顯著性富集分析,蛋白互作網(wǎng)絡(luò)分析均是基于差異表達(dá)基因。
參照Audic S.等人發(fā)表在Genome Research上的基于測(cè)序的差異基因檢測(cè)方法 (Audic S. and C laverie J. The Significance of Digital Gene Expression Profiles. Genome Research, 1997 7: 986-995.),篩選兩樣本間的差異表達(dá)基因。
表達(dá)模式相似的基因通常具有相似的功能。我們利用cluster軟件,以歐氏距離為距離距陣計(jì)算公式,對(duì)差異表達(dá)基因和實(shí)驗(yàn)條件同時(shí)進(jìn)行等級(jí)聚類分析。
功能顯著性富集分析提供與參考基因比較后,在差異表達(dá)基因中顯著富集的GO 功能條目,并篩選出差異表達(dá)基因與哪些生物學(xué)功能顯著相關(guān)。該分析首先把所有差異表達(dá)基因向 Gene Ontology 數(shù)據(jù)庫(http://www. geneontology. org/)的各個(gè) term 映射,計(jì)算每個(gè)term的基因數(shù)目,然后應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著富集的GO條目。
在生物體內(nèi),不同基因相互協(xié)調(diào)行使其生物學(xué)功能,基于pathway的分析有助于更進(jìn)一步了解基因的生物學(xué)功能。KEGG是有關(guān)pathway的主要公共數(shù)據(jù)庫,pathway顯著性富集分析以KEGG pathway為單位,應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組相比較后差異表達(dá)基因中顯著性富集的pathway。
蛋白互作網(wǎng)絡(luò)分析整合了 BIND、BioGricUHPRD等相互作用網(wǎng)絡(luò)數(shù)據(jù)庫的信息,結(jié)果文件中的網(wǎng)絡(luò)由差異表達(dá)基因以及跟差異表達(dá)基因有直接相互作用的基因組成。
在步驟S8中,本發(fā)明對(duì)兩次平行實(shí)驗(yàn)的結(jié)果相關(guān)性分析可獲得對(duì)實(shí)驗(yàn)結(jié)果可靠性和操作穩(wěn)定性的評(píng)估。如圖4所示,若同一樣本兩次平行實(shí)驗(yàn)之間的相關(guān)性越接近1,說明可重復(fù)性越高。
在步驟S9中,本發(fā)明以reads在參考基因上的分布情況來評(píng)價(jià)mRNA打斷的隨機(jī)程度。由于不同參考基因有不同的長(zhǎng)度,我們把reads在參考基因上的位置標(biāo)準(zhǔn)化到相對(duì)位置(reads在基因上的位置與基因長(zhǎng)度的比值),然后統(tǒng)計(jì)基因的不同位置比對(duì)上的 reads數(shù)。如果打斷隨機(jī)性好,reads在基因各部位應(yīng)分布得比較均勻。圖5給出的是樣本一測(cè)序reads在基因上的分布。
本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏 的或者將本發(fā)明限于所公開的形式。很多修改和變化對(duì)于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實(shí)施例是為了更好說明本發(fā)明的原理和實(shí)際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計(jì)適于特定用途的帶有各種修改的各種實(shí)施例。
權(quán)利要求
1.一種分析基因表達(dá)定量的方法,其特征在于,包括 (1)從總RNA中純化mRNA,制備片段化mRNA; (2)將所述片段化mRNA逆轉(zhuǎn)錄制備得到cDNA,將所述cDNA純化后制備為平末端DNA,純化所述平末端DNA ; (3)將所述平末端DNA片段制備得到末端加“A”堿基的DNA片段; (4)在所述末端加“A”堿基的DNA片段兩端加接頭序列,得到兩端加接頭序列的DNA片段并進(jìn)行純化,對(duì)所述兩端加接頭序列的DNA片段進(jìn)行PCR反應(yīng),純化PCR反應(yīng)產(chǎn)物; (5)對(duì)所述PCR反應(yīng)產(chǎn)物測(cè)序; (6)將所述測(cè)序得到的數(shù)據(jù)過濾不合格序列得到干凈序列,利用短序列映射程序?qū)⑺龈蓛粜蛄信c參考序列比對(duì),對(duì)所述比對(duì)結(jié)果進(jìn)行分析。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的總RNA的選取量為O.1 μ g 2 μ g。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,使用Oligo(虹)25磁珠從總RNA中純化mRNA ο
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,使用AmpureXP磁珠純化所述cDNA、兩端加接頭的DNA片段、PCR反應(yīng)產(chǎn)物。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對(duì)所述PCR反應(yīng)產(chǎn)物測(cè)序前還包括步驟采用Agilent Bioanalyzer 2100和Q-PCR檢測(cè)DNA濃度及DNA片段大小。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述測(cè)序使用高通量測(cè)序技術(shù)。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述不合格序列包括測(cè)序質(zhì)量低于預(yù)定閾值的堿基個(gè)數(shù)超過整條序列堿基個(gè)數(shù)的50%的序列,序列中測(cè)序結(jié)果不確定的堿基個(gè)數(shù)超過整條序列堿基個(gè)數(shù)的10%的序列;除樣本接頭序列外引入的外源序列。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述干凈序列與參考序列比對(duì)的短序列映射程序選用 SOAPal igner/soap2。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)比結(jié)果所進(jìn)行的生物信息分析包括高通量測(cè)序的質(zhì)量評(píng)估、基因表達(dá)量的統(tǒng)計(jì)、差異表達(dá)基因篩選、實(shí)驗(yàn)重復(fù)性分析、差異基因表達(dá)模式聚類分析、Gene Ontology功能顯著性富集分析、通路顯著性富集分析、蛋白相互作用網(wǎng)絡(luò)分析。
全文摘要
本發(fā)明公開了一種分析基因表達(dá)定量的方法,所述方法包括從總RNA中純化mRNA,制備片段化mRNA;將所述片段化mRNA逆轉(zhuǎn)錄制備得到cDNA,將所述cDNA純化后制備為平末端DNA,純化所述平末端DNA;將所述平末端DNA片段制備得到末端加“A”堿基的DNA片段;在所述末端加“A”堿基的DNA片段兩端加接頭序列,得到兩端加接頭序列的DNA片段并進(jìn)行純化,對(duì)所述兩端加接頭序列的DNA片段進(jìn)行PCR反應(yīng),純化PCR反應(yīng)產(chǎn)物;對(duì)所述PCR反應(yīng)產(chǎn)物測(cè)序;將所述測(cè)序得到的數(shù)據(jù)過濾不合格序列得到干凈序列,利用短序列映射程序?qū)⑺龈蓛粜蛄信c參考序列比對(duì),對(duì)所述比對(duì)結(jié)果進(jìn)行分析。本發(fā)明有效的實(shí)現(xiàn)了定量準(zhǔn)、可重復(fù)性高、費(fèi)用低、檢測(cè)閾值寬、信號(hào)噪音小等優(yōu)點(diǎn)。
文檔編號(hào)C12Q1/68GK103014137SQ201110283718
公開日2013年4月3日 申請(qǐng)日期2011年9月22日 優(yōu)先權(quán)日2011年9月22日
發(fā)明者章文蔚, 張艷艷, 龔梅花, 彭智宇, 韓祖晶, 高歡, 汪建, 王俊, 楊煥明, 張秀清 申請(qǐng)人:深圳華大基因科技有限公司, 深圳華大基因研究院