專利名稱:用于數(shù)字基因表達(dá)譜的標(biāo)簽及其使用方法
技術(shù)領(lǐng)域:
本發(fā)明涉及核酸測(cè)序技術(shù)領(lǐng)域,特別是數(shù)字基因表達(dá)譜技術(shù)領(lǐng)域。另外,本發(fā)明還涉及標(biāo)簽及其使用方法,以及利用標(biāo)簽技術(shù)構(gòu)建數(shù)字基因表達(dá)譜文庫(kù)的方法。本發(fā)明的方法特別適用于第二代測(cè)序技術(shù),尤其是SOlexa測(cè)序技術(shù)。
背景技術(shù):
數(shù)字基因表達(dá)譜(DigitalGene Expression Profiling,DGE)利用新一代高通量測(cè)序技術(shù)和高性能計(jì)算分析技術(shù),能夠全面、經(jīng)濟(jì)、快速地檢測(cè)某一物種特定組織在特定狀態(tài)下的基因表達(dá)情況。數(shù)字基因表達(dá)譜已被廣泛應(yīng)用于基礎(chǔ)科學(xué)研究、醫(yī)學(xué)研究和藥物研發(fā)等領(lǐng)域。利用高通量測(cè)序能夠得到數(shù)百萬(wàn)個(gè)基因的特異標(biāo)簽,而數(shù)字的序列信號(hào)可以準(zhǔn)確、特異地反映對(duì)應(yīng)基因的真實(shí)表達(dá)情況。這種技術(shù)甚至可以精確地檢測(cè)低至一兩個(gè)拷貝的稀有轉(zhuǎn)錄本,并精確定量高達(dá)十萬(wàn)個(gè)拷貝的轉(zhuǎn)錄本的表達(dá)量變化。由于序列無(wú)需事先設(shè)計(jì),DGE數(shù)據(jù)具有極佳的實(shí)時(shí)性,DGE可以檢測(cè)到許多未曾注釋的基因和基因組部位,為新基因的發(fā)現(xiàn)提供了良好的線索。這一技術(shù)進(jìn)步允許科學(xué)家更加全面、準(zhǔn)確地把握全基因組的基因表達(dá)情況。目前illumina公司的Solexa測(cè)序平臺(tái)提供的DGE文庫(kù)制備方法有兩種,分別為方法一 [1]和方法二 [2]。方法一,首先從總RNA樣品中分離mRNA,將mRNA反轉(zhuǎn)錄成cDNA, 通過(guò)NlaIII酶酶切cDNA鏈,產(chǎn)生特異性的粘性末端。連接反應(yīng)過(guò)程中GEX接頭1 (也稱為 GEX Adapter 1)與帶有粘性末端的目的片段進(jìn)行連接。隨后通過(guò)限制性內(nèi)切酶MmeI酶切目的片段,該內(nèi)切酶識(shí)別TCCRAC(N)2tl,切成3’末端序列為兩個(gè)隨機(jī)堿基的粘性末端,然后與GEX接頭2 (也稱為GEX adapted)進(jìn)行連接反應(yīng)。目的片段連接GEX接頭2之后,通過(guò)特定的PCR引物對(duì)目的片段進(jìn)行擴(kuò)增,最后通過(guò)切膠回收目的片段文庫(kù),如
圖1(A)。方法二,首先從總RNA樣品中分離mRNA,將mRNA反轉(zhuǎn)錄成cDNA,通過(guò)DpnII酶酶切cDNA鏈,產(chǎn)生特異性的粘性末端。連接反應(yīng)過(guò)程中GEX接頭1與帶有粘性末端的目的片段進(jìn)行連接。隨后通過(guò)限制性內(nèi)切酶MmeI酶切目的片段,該內(nèi)切酶識(shí)別TCCRAC(N)2q,切成3’末端序列為兩個(gè)隨機(jī)堿基的粘性末端,然后與GEX接頭2進(jìn)行連接反應(yīng)。目的片段連接GEX接頭2之后, 通過(guò)特定的PCR引物對(duì)目的片段進(jìn)行擴(kuò)增,最后通過(guò)切膠回收目的片段文庫(kù),如圖1 (B)。 方法一和方法二這兩種文庫(kù)制備的方法不同之處兩種不同的建庫(kù)方法使用了不同的限制性內(nèi)切酶NlaIII和DpnII,這兩種酶識(shí)別的剪切位點(diǎn)不一樣NlaIII酶切位點(diǎn)為5,-CATG-3,,DpnII酶切位點(diǎn)為5,-GATC-3’,酶切產(chǎn)生的目的片段的5,末端序列不同,所以需要它們的GEX接頭1序列不同,最后構(gòu)建所得文庫(kù)所使用的測(cè)序引物也不一樣。這兩種文庫(kù)制備的方法存在著一些缺陷,即只能對(duì)單個(gè)文庫(kù)樣品進(jìn)行Solexa Single End (illumina)測(cè)序,不能將DGE文庫(kù)樣品混合測(cè)序。因?yàn)殡S著solexa測(cè)序通量的增加,1 個(gè)測(cè)序泳道(也稱為lane)所產(chǎn)出的數(shù)據(jù)遠(yuǎn)遠(yuǎn)大于目的片段所需求的數(shù)據(jù),如果所構(gòu)建的文庫(kù)樣品不能進(jìn)行混合測(cè)序,將在一定程度上“浪費(fèi)測(cè)序資源”和影響到測(cè)序通量。
發(fā)明內(nèi)容
使用同樣的RNA樣品構(gòu)建DGE文庫(kù),如果數(shù)據(jù)產(chǎn)出存在偏向性的問(wèn)題,將會(huì)導(dǎo)致數(shù)據(jù)結(jié)果不可信,不能真實(shí)的反映樣品的相關(guān)信息,同時(shí)也將導(dǎo)致實(shí)驗(yàn)結(jié)果重復(fù)性低。本發(fā)明基于目前illumina公司的solexa測(cè)序平臺(tái)提供的DGE文庫(kù)制備方法[1,2],將一段特定長(zhǎng)度的核苷酸序列(即標(biāo)簽,也稱為index)嵌入接頭(也稱為adapter)中,同時(shí)考慮PCR引物的擴(kuò)增效率和數(shù)據(jù)產(chǎn)出的偏向性因素,篩選出合適的標(biāo)簽及含該標(biāo)簽序列的接頭,并將該接頭用于混合樣品測(cè)序,確保數(shù)據(jù)的準(zhǔn)確性和可重復(fù)性。標(biāo)簽設(shè)計(jì)首先需要考慮標(biāo)簽序列之間的序列差異程度和堿基識(shí)別率。在標(biāo)簽混合量少于12個(gè)樣品的情況下,必須考慮到混合后的標(biāo)簽上的每個(gè)堿基位點(diǎn)的GT含量。因?yàn)?solexa測(cè)序過(guò)程中,堿基G和T的激發(fā)熒光一樣,堿基A和C的激發(fā)光是一樣的,因此必須考慮堿基“GT”含量與堿基“AC”含量的“平衡”,最后考慮數(shù)據(jù)產(chǎn)出的準(zhǔn)確性和可重復(fù)性。 在設(shè)計(jì)標(biāo)簽的過(guò)程中,本發(fā)明充分考慮到以上幾個(gè)因素,同時(shí)避免了標(biāo)簽序列出現(xiàn)3或3個(gè)以上連續(xù)的堿基的出現(xiàn),這樣可以降低序列在合成過(guò)程中或測(cè)序過(guò)程中的錯(cuò)誤率。標(biāo)簽序列本身嵌入接頭中,也要盡可能的避免出現(xiàn)發(fā)夾結(jié)構(gòu)或與測(cè)序引物及其反向互補(bǔ)序列相同的現(xiàn)象。在本發(fā)明的一個(gè)具體實(shí)施方式
中,將特定長(zhǎng)度的核苷酸序列嵌入已有DGE文庫(kù)的的3,接頭(GEX adapter 2)的5,末端中形成GEX標(biāo)簽接頭2,使用不同的GEX標(biāo)簽接頭 2進(jìn)行連接反應(yīng),構(gòu)建DGE標(biāo)簽文庫(kù)。如圖2所示,首先從總RNA樣品中分離mRNA,將mRNA 反轉(zhuǎn)錄成cDNA,通過(guò)限制性內(nèi)切酶NlaIII酶切cDNA鏈,產(chǎn)生特異性的粘性末端。連接反應(yīng)過(guò)程中,將GEX接頭1與帶有粘性末端的目的片段進(jìn)行連接。隨后通過(guò)限制性內(nèi)切酶MmeI 酶切目的片段,該內(nèi)切酶識(shí)別TCCRAC(N)2tl,切成3’末端序列為兩個(gè)隨機(jī)堿基的粘性末端, 然后與GEX標(biāo)簽接頭2進(jìn)行連接反應(yīng)。目的片段連接GEX標(biāo)簽接頭2之后,通過(guò)特定的PCR 引物對(duì)目的片段進(jìn)行擴(kuò)增,最后通過(guò)切膠回收目的片段文庫(kù)。基于目前illumina公司的solexa測(cè)序平臺(tái)提供的DGE文庫(kù)制備方法,本發(fā)明針對(duì)DGE樣品建庫(kù)方法,設(shè)計(jì)了獨(dú)特的標(biāo)簽序列,通過(guò)接頭將標(biāo)簽嵌入DGE文庫(kù)的3’接頭中, 成功的建立了數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)(DGE標(biāo)簽文庫(kù),DGE index library)的建庫(kù)方法, 適合任何真核生物RNA樣品的DGE標(biāo)簽文庫(kù)構(gòu)建,并成功用于solexa測(cè)序,不僅增大了 DGE 樣品的測(cè)序通量,而且降低了 solexa針對(duì)DGE測(cè)序的費(fèi)用。本發(fā)明基于目前illumina公司提供的Solexa Single End測(cè)序平臺(tái),設(shè)計(jì)一段長(zhǎng)度為IObp的特定標(biāo)簽序列,將標(biāo)簽序列嵌入接頭序列中。考慮到GEX標(biāo)簽接頭2的連接效率,優(yōu)化并篩選出12條GEX標(biāo)簽接頭,這些標(biāo)簽之間的差異在5個(gè)堿基以上,當(dāng)標(biāo)簽的10 個(gè)堿基中的任意1個(gè)堿基出現(xiàn)測(cè)序錯(cuò)誤或合成錯(cuò)誤,都不影響到標(biāo)簽的最終識(shí)別。表1為優(yōu)化篩選出來(lái)的12條標(biāo)簽(indexl-12)序列,及其對(duì)應(yīng)的GEX標(biāo)簽接頭2 序列(Gex IndexN adapter2 F 禾口 Gex IndexN adapter2 R, N = 1-12)信息。這些標(biāo)簽及其GEX標(biāo)簽接頭2可以應(yīng)用于任何DGE標(biāo)簽文庫(kù)的構(gòu)建。這些標(biāo)簽應(yīng)用于DGE樣品的文庫(kù)構(gòu)建并通過(guò)solexa測(cè)序的方法,目前尚未有報(bào)道。 表IDGE標(biāo)簽序列及GEX標(biāo)簽接頭2序列,其中每一個(gè)GEX標(biāo)簽接頭2由有義序列 Gex indexN adapter2 F 禾口反義序列 Gex indexN adapter2 R 經(jīng)退火形成。
權(quán)利要求
1.一組標(biāo)簽,所述一組標(biāo)簽包括如下或由如下組成表1所示12個(gè)標(biāo)簽與其相差1個(gè)堿基的標(biāo)簽中的至少2個(gè),或至少3個(gè),或至少4個(gè),或至少5個(gè),至少6個(gè),或至少7個(gè),或至少8個(gè),或至少9個(gè),或至少10個(gè),或至少11個(gè),或全部12個(gè),所述一組標(biāo)簽優(yōu)選地至少包括表1所示的12個(gè)標(biāo)簽中的Indexl和IndeX2,或IndeX3 禾口 Index4,或 Index5 禾口 Index6,或 Index7 禾口 Index8,或 Index9 禾口 IndexlO,或 Indexll 禾口 Indexl2,或者他們?nèi)魏蝺蓚€(gè)或多個(gè)的組合。
2.權(quán)利要求1所述的標(biāo)簽,其中所述相差1個(gè)堿基包括對(duì)表1所示12個(gè)標(biāo)簽的序列中 1個(gè)堿基的取代、添加或缺失。
3.權(quán)利要求1或2所述的標(biāo)簽用于數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)構(gòu)建并測(cè)序的用途,其中所述標(biāo)簽包含在GEX接頭2的5’末端中,從而構(gòu)成各自相對(duì)應(yīng)的GEX標(biāo)簽接頭2,其用作數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)的3’接頭。
4.權(quán)利要求3所述的用途,所述標(biāo)簽包含在GEX接頭2的5’末端中,包括標(biāo)簽通過(guò)或不通過(guò)連接子與GEX接頭1的5’末端相連,或者插入GEX接頭2的5’末端中,優(yōu)選的是不通過(guò)連接子與GEX接頭1的5’末端相連。
5.使用權(quán)利要求1或2所述的標(biāo)簽構(gòu)建的數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)。
6.包含權(quán)利要求1所述的標(biāo)簽的一組GEX標(biāo)簽接頭2,其在5’末端包含權(quán)利要求1所述的標(biāo)簽,并且優(yōu)選地用作數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)3’接頭,所述一組GEX標(biāo)簽接頭2包括如下或由如下組成表1所示12個(gè)GEX標(biāo)簽接頭2或與其中包含的標(biāo)簽序列相差1個(gè)堿基的接頭中的至少2個(gè),或至少3個(gè),或至少4個(gè),或至少5個(gè),至少6個(gè),或至少7個(gè),或至少8個(gè),或至少9個(gè),或至少10個(gè),或至少11個(gè),或全部12個(gè),所述一組GEX標(biāo)簽接頭2優(yōu)選地至少包括表2所示的12個(gè)GEX標(biāo)簽接頭2中的Gex Indexl adapter2 F/R 禾口 Gex Index2 adapter2 F/R,或 Gex Index3 adapter2 F/R 禾口 Gex Index4 adapter2 F/R,或Gex Index5 adapter2 F/R 禾口 Gex Index6 adapter2 F/R,或Gex Index7 adapter2 F/R 禾口 Gex Index8 adapter2 F/R,或 Gex Index9 adapter2 F/R 禾口 Gex IndexlO adapter2 F/R,或 Gex Indexll adapter2 F/R 禾口 Gex Indexl2 adapter2 F/R,或者他們?nèi)魏蝺蓚€(gè)或多個(gè)的組合。
7.權(quán)利要求6所述的GEX標(biāo)簽接頭2,其中所述相差1個(gè)堿基包括對(duì)標(biāo)簽序列中1個(gè)堿基的取代、添加或缺失。
8.權(quán)利要求6或7所述的GEX標(biāo)簽接頭2用于數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)構(gòu)建并測(cè)序的用途,所述GEX標(biāo)簽接頭2用作數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)的3’接頭。
9.使用權(quán)利要求6或7所述的GEX標(biāo)簽接頭2構(gòu)建的數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù),其中所述GEX標(biāo)簽接頭2用作數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)的3’接頭。
10.一種構(gòu)建數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)并測(cè)序的方法,所述方法的特征在于使用不同的選自表1的GEX標(biāo)簽接頭2與其中包含的標(biāo)簽序列相差1個(gè)堿基的接頭用作數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)的3’接頭,構(gòu)建數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)。
11.權(quán)利要求10所述的方法,其包括1)提供η個(gè)總RNA樣品,η為整數(shù)且1 彡12,優(yōu)選地彡12,所述RNA樣品來(lái)自任何真核生物RNA樣品,包括但不限于水稻、小鼠和人的RNA樣品,從總RNA樣品中分離 mRNA,將mRNA反轉(zhuǎn)錄成cDNA ;2)添加GEX接頭1通過(guò)5,限制性內(nèi)切酶酶切cDNA片段產(chǎn)生帶有5,粘性末端的cDNA 片段,所述5’限制性內(nèi)切酶包括但不限于NlaIII和DpnII,然后通過(guò)連接反應(yīng)將GEX接頭 1與帶有5’粘性末端的cDNA片段進(jìn)行連接;3)添加GEX標(biāo)簽接頭2通過(guò)3’限制性內(nèi)切酶酶切上述步驟2)所得的cDNA片段產(chǎn)生帶有3’粘性末端的cDNA片段,所述限制性內(nèi)切酶包括但不限于Mmel,然后通過(guò)連接反應(yīng)將 GEX標(biāo)簽接頭2與帶有3’粘性末端的cDNA片段進(jìn)行連接;4)通過(guò)PCR對(duì)目的片段進(jìn)行擴(kuò)增,最后通過(guò)回收目的片段文庫(kù);5)混合當(dāng)η> 1時(shí),將各樣品的PCR擴(kuò)增產(chǎn)物混合在一起;當(dāng)η = 1時(shí),直接進(jìn)行步驟6);6)測(cè)序?qū)⒏鳂悠返腜CR擴(kuò)增產(chǎn)物利用Solexa測(cè)序技術(shù)進(jìn)行測(cè)序。
12.權(quán)利要求11所述的方法,其中所述GEX標(biāo)簽接頭1包括如接頭 當(dāng)所述5,限制性內(nèi)切酶是DpnII時(shí),GEX標(biāo)簽接頭1是Gex Adapter IA 5 ‘ P-GATCGTCGGACTGTAGAACTCTGAAC5' ACAGGTTCAGAGTTCTACAGTCCGAC ;和當(dāng)所述5,限制性內(nèi)切酶是NlaII時(shí),GEX標(biāo)簽接頭1是Gex Adapter IB 5 ‘ P-TCGGACTGTAGAACTCTGAAC 5 ‘ ACAGGTTCAGAGTTCTACAGTCCGACATG。
13.權(quán)利要求11所述的方法,其中所述GEX標(biāo)簽接頭2包括表1所示12個(gè)GEX標(biāo)簽接頭2或與其中包含的標(biāo)簽序列相差1個(gè)堿基的接頭中的至少2個(gè),或至少3個(gè),或至少4 個(gè),或至少5個(gè),至少6個(gè),或至少7個(gè),或至少8個(gè),或至少9個(gè),或至少10個(gè),或至少11 個(gè),或全部12個(gè),所述一組GEX標(biāo)簽接頭2優(yōu)選地至少包括表2所示的12個(gè)GEX標(biāo)簽接頭2中的Gex Indexl adapter2 F/R 禾口 Gex Index2 adapter2 F/R,或 Gex Index3 adapter2 F/R 禾口 Gex Index4 adapter2 F/R,或Gex Index5 adapter2 F/R 禾口 Gex Index6 adapter2 F/R,或Gex Index7 adapter2 F/R 禾口 Gex Index8 adapter2 F/R,或 Gex Index9 adapter2 F/R 禾口 Gex IndexlO adapter2 F/R,或 Gex Indexll adapter2 F/R 禾口 Gex Indexl2 adapter2 F/R,或者他們?nèi)魏蝺蓚€(gè)或多個(gè)的組合。
14.權(quán)利要求10或13所述的方法,其中所述相差1個(gè)堿基包括標(biāo)簽序列中1個(gè)堿基的取代、添加或缺失。
15.權(quán)利要求11所述的方法,其中步驟4)中的PCR使用如下PCR引物 當(dāng)所述5’限制性內(nèi)切酶是DpnII時(shí),PCR引物是Gex PCR Primer 1 5 ‘ CAAGCAGAAGACGGCATACGA,禾Π Gex PCR Primer 2A·5 ‘ AATGATACGGCGACCACCGACAGGTTCAGAGTTCTACAGTCCGA ;以及當(dāng)所述5’限制性內(nèi)切酶是NlaIII時(shí),PCR引物是Gex PCR Primer 1·5 ‘ CAAGCAGAAGACGGCATACGA,禾ΠGex PCR Primer 2B5' AATGATACGGCGACCACCGACAGGTTCAGAGTTCTACAGTCCGA。
16.權(quán)利要求11所述的方法,其中利用Solexa測(cè)序技術(shù)進(jìn)行測(cè)序中使用的測(cè)序引物包括當(dāng)所述5,限制性內(nèi)切酶是NlaIII時(shí),使用測(cè)序引物為Gex Sequencing PrimerlA 5' C GACAGGTTCAGAGTTCTACAGTCCGACGATC ;當(dāng)所述5’限制性內(nèi)切酶是DpnII時(shí),使用測(cè)序引物為 Gex Sequencing PrimerlB 5' CCGACAGGTTCAGAGTTCTACAGTCCGACATG。
17.通過(guò)權(quán)利要求10或11所述的方法構(gòu)建的數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)。
全文摘要
本發(fā)明基于目前illumina公司提供的Solexa Single End測(cè)序平臺(tái),針對(duì)數(shù)字基因表達(dá)譜文庫(kù)(DGE)樣品建庫(kù)方法,設(shè)計(jì)了獨(dú)特的標(biāo)簽序列(index1-12),通過(guò)接頭將標(biāo)簽嵌DGE文庫(kù)的3’接頭中,成功的建立了數(shù)字基因表達(dá)譜標(biāo)簽文庫(kù)(DGE標(biāo)簽文庫(kù))的建庫(kù)方法,適合任何真核生物RNA樣品的DGE標(biāo)簽文庫(kù)構(gòu)建,并成功用于solexa測(cè)序,不僅增大了DGE樣品的測(cè)序通量,而且降低了solexa針對(duì)DGE測(cè)序的費(fèi)用。
文檔編號(hào)C40B50/06GK102409044SQ201010299248
公開(kāi)日2012年4月11日 申請(qǐng)日期2010年9月21日 優(yōu)先權(quán)日2010年9月21日
發(fā)明者于競(jìng), 張艷艷, 田方, 章文蔚, 龔梅花 申請(qǐng)人:深圳華大基因研究院, 深圳華大基因科技有限公司